CN114449276A - 一种基于学习的超先验边信息补偿图像压缩方法 - Google Patents

一种基于学习的超先验边信息补偿图像压缩方法 Download PDF

Info

Publication number
CN114449276A
CN114449276A CN202210011926.5A CN202210011926A CN114449276A CN 114449276 A CN114449276 A CN 114449276A CN 202210011926 A CN202210011926 A CN 202210011926A CN 114449276 A CN114449276 A CN 114449276A
Authority
CN
China
Prior art keywords
super
prior
code stream
shallow
transformation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210011926.5A
Other languages
English (en)
Other versions
CN114449276B (zh
Inventor
施云惠
张康富
王瑾
尹宝才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202210011926.5A priority Critical patent/CN114449276B/zh
Publication of CN114449276A publication Critical patent/CN114449276A/zh
Application granted granted Critical
Publication of CN114449276B publication Critical patent/CN114449276B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及一种基于学习的边信息补偿图像压缩方法,用于解决图像和视频的压缩问题,具体包括本发明通过引入多尺度表示提取两层边信息作为浅层超先验和深层超先验,从而实现更准确和灵活的熵模型。此外,浅层超先验可以捕获潜在表示的空间依赖,同时也可以微调潜在表示来提升重建质量。其次,本发明提取的深层超先验作为浅层超先验的超先验,可以提升浅层超先验的有效性和准确性。最后,本发明设计了一种有效的残差通道注意力块,可以增强潜在表示通道之间的交互关系以及适用于我们基于残差的网络结构。

Description

一种基于学习的超先验边信息补偿图像压缩方法
技术领域
本发明属于计算机视觉领域,具体涉及深度学习,注意力机制,图像压缩等技术。
背景技术
在大数据时代背景下,互联网数据出现爆炸式增长,以及自媒体时代的来临,不仅图片和视频传输的数量在急剧的增加,而且人们对图像视觉质量的要求也不断地提高。随着图像质量的不断提高,图像所包含的数据量不断增大,对图像压缩技术的性能提出了越来越高的要求。
在过几十年,大量的公司和科研机构投入到研所方法的研究,并取得了一系列成果。传统图像压缩方法仍然遵循变换、量化和熵编码的混合编码框架,如 JPEG、JPEG2000和BPG。JPEG采用离散余弦变换(DCT)压缩能量,消除像素相关性,使频域压缩更加有效。JPEG2000中的离散小波变换(DWT)通过将多分辨率图像表示引入交叉尺度去相关来提高编码性能。BPG是高效视频编码(HEVC) 标准的静态图像版本,它使用帧内预测来进一步减少空间冗余并提高重建帧的质量。
此外,边信息在传统方法中也可以用来提升编码效率。例如,JPEG方法将图像建模为8*8像素的独立固定大小块。然而,一些较大的同质区域,可以通过一次考虑更大的块来有效表示。因此,HEVC的帧内模式BPG将图像分割成可变大小得块,将分割结构作为边信息传递给解码器,然后使用该分割压缩块表示。 JPEG的熵模型总是被分解成64个元素,然而BPG的分解是可变的。BPG解码器需要先对边信息进行解码,由于编码器可以自由选择一个分区,以优化每个图像的熵模型,该方案可以用于实现更有效的压缩。然而,传统方法使用复杂的人工设计和分别优化不同的模块,这限制了整体性能的提升。近年来,深度卷积神经网络的快速发展为图像压缩提供了一种新颖而有前途的方法。由于基于深度学习的图像压缩方法可以联合优化整个框架,展现出可以超越传统压缩方法的潜能。
近些年,基于CNN的图像压缩方法被广泛使用,从最初的自编码器结构,到超先验结构的变分自编码器结构,以及近年来的自回归模型,性能逐步得到了显著提升。但是他们都存在不足,即仅仅将边信息用于熵模型参数的估计,没有充分将编码的边信息用于图像重建,因此边信息未能有效利用。此外,使用因式分解的熵模型不能有效编码边信息。通道注意力对于改善卷积神经网络性能方面具有巨大潜力,然而现有的端到端图像压缩方法并没有关注潜在表示之间的信息交互。
发明内容
本发明针对上述问题,设计了一种基于学习的超先验边信息补偿图像压缩方法。首先,本发明通过引入多尺度表示提取两层边信息作为浅层超先验和深层超先验,从而实现更准确和灵活的熵模型。此外,浅层超先验可以捕获潜在表示的空间依赖,同时也可以微调潜在表示来提升重建质量。其次,本发明提取的深层超先验作为浅层超先验的超先验,可以提升浅层超先验的有效性和准确性。最后,为了增强潜在表示通道之间的交互关系以及适用于我们基于残差的网络结构,本发明设计了一种有效的残差通道注意力方法。实验结果表明,本发明的模型在优化过程中可以很好的权衡边信息的大小和精确熵模型带来的性能增益,相比于基线模型,我们的模型节省了大约13.44%的码率。
本发明的整体框架如图1所示,包括主分析变换和主合成变换,多尺度特征提取,浅层分析变换和浅层合成变换,深层分析变换、深层合成变换,潜在表示上下文模型,潜在表示熵参数模型,浅层超先验上下文模型,浅层超先验熵参数模型,因式分解熵参数模型,基于学习的超先验补偿模块以及算术编器、算数解码器。
主分析变换和主合成变换用于学习图像的潜在表示;
浅层分析变换,浅层合成变换,潜在表示上下文模型和潜在表示熵参数模型用于学习潜在表示的概率模型;
深层分析变换,深层合成变换,浅层超先验上下文模型和浅层熵参数模型用于学习浅层超先验的概率模型;
由主分析变换和多尺度特征提取组成的多尺度分析变换,浅层分析变换和基于学习的超先验补偿模块主要用于实现对于潜在表示的微调,即补偿作用;
编码阶段具体包括如下步骤,
步骤1:将一张图像输入到主分析变换ga得到潜在表示y,同时将图像输入到多尺度变换gm中得到多尺度表示ym,对潜在表示y进行量化得到量化后的潜在表示
Figure BDA0003457486740000031
步骤2:将多尺度表示ym输入到浅层分析变换ha中,得到浅层超先验z,即第一层边信息,并对浅层超先验z进行量化得到量化后的浅层超先验
Figure BDA0003457486740000032
步骤3:将浅层超先验z输入到深层分析变换da中,得到深层超先验s,即第二层边信息,并对深层超先验s进行量化得到量化后的深层超先验
Figure BDA0003457486740000033
步骤4:对量化后的深层超先验
Figure BDA0003457486740000034
采用算术编码器进行编码得到第二层边信息的码流3;
步骤5:利用算术解码器对第二层边信息的码流3进行解码并将结果送入深层合成变换ds中,得到ψd,同时将量化后的浅层超先验
Figure BDA0003457486740000035
送入浅层超先验上下文模型中,得到
Figure BDA0003457486740000036
将两者以通道拼接的方式送入浅层超先验熵参数模型中,得到
Figure BDA0003457486740000037
Figure BDA0003457486740000038
Figure BDA0003457486740000039
表示
Figure BDA00034574867400000310
中每个元素i服从的高斯分布的均值,
Figure BDA00034574867400000311
表示
Figure BDA00034574867400000312
中每个元素i服从的高斯分布的方差,根据
Figure BDA00034574867400000313
Figure BDA00034574867400000314
得到对应的概率,使用算术编码器根据该概率编码得到第一层边信息的码流2;
步骤6:利用算术解码器对第一层边信息的码流2进行解码并将结果送入浅层合成变换hs中,得到ψh,同时将量化后的潜在表示送入潜在表示上下文模型中,得到
Figure BDA00034574867400000315
将两者同时送入潜在表示熵参数模型中,得到
Figure BDA00034574867400000316
Figure BDA00034574867400000317
Figure BDA00034574867400000318
表示
Figure BDA00034574867400000319
中每个元素i服从的高斯分布的均值,
Figure BDA00034574867400000320
表示
Figure BDA00034574867400000321
中每个元素i服从的高斯分布的方差,根据
Figure BDA00034574867400000322
Figure BDA00034574867400000323
得到对应的概率,使用算术编码器根据该概率编码得到潜在表示的码流1;
步骤7:步骤4-步骤6输出的码流3,码流2和码流1构成了该图像传输的总码流,编码过程结束;
解码阶段,利用二进制码流重建压缩后的图像,具体包括以下步骤:
步骤1:使用算术解码器对码流3进行解码,将解码后的结果送入深层合成变换ds中,得到ψd,将码流2已解码的部分送入浅层超先验上下文模型,其中,首次送入零向量,得到
Figure BDA0003457486740000041
将二者同时送入到浅层超先验熵参数模型中,得到
Figure BDA0003457486740000042
Figure BDA0003457486740000043
使用算术解码器根据该概率依次解码码流2,循环此步直至码流2解码完毕;
步骤2:将码流2解码后的结果送入浅层合成变换hs中,得到ψh,将码流1 已解码的部分送入潜在表示上下文模型,其中,首次送入零向量,得到
Figure BDA0003457486740000044
将二者同时送入到潜在表示熵参数模型中,得到
Figure BDA0003457486740000045
Figure BDA0003457486740000046
使用算术解码器根据该概率依次解码码流1,循环此步直至码流1解码完毕;
步骤3:将解码后的码流2送入基于学习的超先验补偿模块,将结果与码流 1解码后的结果逐元素相加后送入主合成变换中,得到解码后的重建图像,解码过程结束。
通过本发明的基于学习的超先验边信息补偿图像压缩,可以实现在相同码率下使图像拥有更高的重建质量,相比于现有的图像压缩方法,具有较好的性能。
附图说明
图1网络整体框架结构图;
图2网络详细结构图;
图3(a)RB Down网络结构图;
图3(b)RB Up网络结构图;
图4ERCAB网络结构;
图5Kodak数据集下PSNR失真度量的R-D曲线图;
图6Kodak数据集下MS-SSIM失真度量的R-D曲线图;
具体实施方式
本发明针对基于学习的端到端图像压缩问题,提出了一种基于学习的超先验边信息补偿图像压缩方法。本发明首先设计了一种边信息补偿模型,通过引入多尺度表示来提取两层边信息,并分别作为浅层超先验和深层超先验,从而实现更精确和灵活的熵模型。最后设计了一种有效的残差通道注意力来提升潜在表示通道之间的信息交互。
本发明的方法包含训练阶段,编码阶段和解码阶段。
图2是本发明模型的详细网络结构。
以下将详细的描述训练过程。
在训练阶段,步骤一:首先,给定输入图像x,通过主分析变换ga获得潜在表示y,同时,输入图像x通过多尺度分析变换gm获得多尺度的潜在表示ym,其中多尺度分析变换由主分析变换和多尺度特征提取组成;然后将多尺度潜在表示ym送入浅层分析变换ha,得到浅层超先验z,最后将z送入深层分析变换da,得到深层超先验s,公式为:
y=ga(x;φg),ym=gm(x;φggm),z=ha(ym;φh),s=da(z;φd)
其中φggmh和φd分别是主分析变换,多尺度特征提取,浅层分析变换和深层分析变换的优化参数。
分别对潜在表示y、浅层超先验z和深层超先验s进行量化,采用添加均匀噪声
Figure BDA0003457486740000051
的方式代替量化操作Q,表示为:
Figure BDA0003457486740000052
步骤二,接着通过因式分解熵参数模型ψ对量化后的深层超先验表示
Figure BDA0003457486740000053
进行概率建模,
Figure BDA0003457486740000054
其中,si表示s的每一个元素,
Figure BDA0003457486740000055
表示每一个si的概率。;
因此可以得到编码深层超先验表示
Figure BDA0003457486740000056
的码率估计
Figure BDA0003457486740000057
步骤三,接下来为了对浅层超先验进行熵编码和码率估计,将量化后的深层超先验
Figure BDA0003457486740000058
送入深层合成变换得到中间参数ψd,将量化后的浅层超先验
Figure BDA0003457486740000059
送入浅层超先验上下文模型得到中间参数
Figure BDA0003457486740000061
最后将上述中间参数ψd
Figure BDA0003457486740000062
通道拼接后送入浅层超先验熵参数模型ez中,生成浅层超先验z的高斯概率密度的均值
Figure BDA0003457486740000063
和方差
Figure BDA0003457486740000064
其中下标i表示z的每一个元素,表示为
Figure BDA0003457486740000065
其中,θez是浅层超先验熵参数模型ez的优化参数,θd是深层合成变换ds的优化参数,θcm3是浅层超先验上下文模型gcm3的优化参数。数字下标表示掩膜卷积核的大小,例如cm3表示3×3的掩膜卷积,
Figure BDA0003457486740000066
表示上下文模型中只可以读取z里面前i个元素。
因此可以得到浅层超先验的概率分布和码率估计:
Figure BDA0003457486740000067
Figure BDA0003457486740000068
其中,
Figure BDA0003457486740000069
表示每个zi服从均值为
Figure BDA00034574867400000610
和方差为
Figure BDA00034574867400000611
的正态分布。
步骤四,接下来为了对潜在表示进行熵编码和码率估计,将量化后的浅层超先验表示
Figure BDA00034574867400000612
送入浅层合成变换得到中间参数ψh,将量化后的潜在表示送入浅层超先验上下文模型得到中间参数
Figure BDA00034574867400000613
最后将上述中间参数ψh
Figure BDA00034574867400000614
通道拼接后送入潜在表示熵参数模型中,生成每一个潜在表示yi的高斯概率密度的均值
Figure BDA00034574867400000615
和方差
Figure BDA00034574867400000616
表示为
Figure BDA00034574867400000617
其中,θeycm5和θh分别是潜在表示熵参数模型ey,潜在表示上下文模型gcm5和浅层合成变换hs的学习的优化参数。
因此可以得到潜在表示的概率分布和码率估计:
Figure BDA00034574867400000618
Figure BDA0003457486740000071
其中,
Figure BDA0003457486740000072
表示每个yi服从均值为
Figure BDA0003457486740000073
和方差为
Figure BDA0003457486740000074
的正态分布。
步骤五,接下来,将量化后的潜在表示
Figure BDA0003457486740000075
送入主合成变换得到压缩后图像,为了进一步提升重建质量,本发明通过将浅层超先验通过基于学习的超先验补偿模块得到潜在表示的补偿信息
Figure BDA0003457486740000076
因此重新将潜在表示和补偿信息同时送入合成变换得到压缩后的图像
Figure BDA0003457486740000077
θg和θr分别表示主合成变换gs和基于学习的超先验补偿模块hr的优化参数。
步骤六,最后,计算输入图像和输出图像的失真,以用于损失函数进行端到端整体优化,目标函数为:
Figure BDA0003457486740000078
其中失真
Figure BDA0003457486740000079
计算的方式可以是PSNR,或者MS-SSIM,λ是拉格朗日乘子,用于权衡失真程度。
具体的,主分析变换和主合成变换用于学习图像的潜在表示;浅层分析变换,浅层合成变换,潜在表示上下文模型和潜在表示熵参数模型用于学习潜在表示的概率模型;深层分析变换,深层合成变换,浅层超先验上下文模型和浅层熵参数模型用于学习浅层超先验的概率模型;由主分析变换和多尺度特征提取组成的多尺度分析变换,浅层分析变换和基于学习的超先验补偿模块主要用于实现对于潜在表示的微调,即补偿作用。进一步的,本发明的主分析变换和浅层分析变换包含多个残差下采样块(RB Down)和有效的残差通道注意力块(ERCAB),主合成变换和基于学习的超先验补偿模块包含多个残差上采样块(RB Up)和有效的残差通道注意力块(ERCAB)。具体来说,主分析变换从左到右依次由残差下采样块,有效的残差通道注意力块,残差下采样块,有效的残差通道注意力块,残差下采样块,有效的残差通道注意力块和一个步长为2的3*3卷积组成。浅层分析变换依次由通道拼接,有效的残差通道注意力块,残差下采样块,有效的残差通道注意力块,残差下采样块构成。主合成变换从右到左依次由有效的残差通道注意力块,残差上采样块,有效的残差通道注意力块,残差上采样块,有效的残差通道注意力块,残差上采样块,有效的残差通道注意力块和一个补偿为2的3*3反卷积构成。基于学习的超先验补偿模块从右到左依次为有效的残差通道注意力块,残差上采样块,残差上采样块,有效的残差通道注意力块。
进一步的,由于主分析变换进行四次下采样,因此对每次下采样后的结果进行特征提取,从而得到多尺度特征。所述的多尺度特征是由本发明提出的多尺度特征提取模块完成的,多尺度特征提取模块由4个并行支路组成,每条支路由一个卷积组成,且四个卷积核大小不同,即大小为9×9,7×7,5×5,3×3,且下采样的步长分别为8、4、2和1,每条支路分别对主分析变换第一到四次下采样后的特征图进行特征提取。最后将多阶段特征拼接融合,得到比潜在表示包含更多信息的多尺度表示,然后利用该多尺度表示进一步提取两层边信息。
进一步的,基于学习的超先验补偿模块将第一层边信息即浅层超先验上采样至与潜在表示相同的大小,然后与潜在表示逐元素相加,具体的,本发明设计的基于学习的超先验补偿模块由两个残差上采样块和两个有效的残差通道注意力块组成,从右到左依次为有效的残差通道注意力块,残差上采样块,残差上采样块,有效的残差通道注意力块,从而实现对潜在表示的微调,达到压缩性能提升的目的。
进一步的,本发明的深层分析变换从左到右依次由一个步长为1的3*3卷积,一个步长为2的3*3卷积和一个步长为1的3*3卷积构成,即只进行一次二倍下采样,深层合成变换从右到左依次由一个步长为1的3*3卷积,一个步长为2 的3*3反卷积和一个步长为1的3*3卷积,以及一个用于改变通道数的1×1卷积构成,即只进行一次二倍上采样。
进一步的,本发明提出的有效的残差通道注意力块如图4所示,从左到右依次为步长为1的3*3卷积,Relu激活层,步长为1的3*3卷积,全局池化层,核大小为3的一维卷积和Sigmoid函数构成。具体的定义输入特征为F,使用两个卷积层和一个激活层获得通道注意力的输入X,其中X∈RH×W×C,H,W,C分别表示特征图的高,宽和通道数。然后,使用全局平均池化获得逐通道的统计 y∈RC,表示为:
Figure BDA0003457486740000081
其中yc表示y的第c个通道的元素,xc(i,j)表示第c个通道上位置为(i,j)的值。其次使用卷积核大小为k的一维卷积捕获局部跨通道之间的交互,表示为:ω=σ(C1Dk(y)),其中σ是Sigmoid函数,C1Dk表示卷积核大小为k的一维卷积,在我们的模型中,k的大小选择为3。然后我们获得了最后的通道统计缩放因子ω,并对输入xc进行缩放,表示为:
Figure BDA0003457486740000091
Figure BDA0003457486740000092
因此我们得到了通道注意力的输出
Figure BDA0003457486740000093
最后获得有效残差注意力的输出
Figure BDA0003457486740000094
表示为:
Figure BDA0003457486740000095
其中,
Figure BDA0003457486740000096
Figure BDA0003457486740000097
在第c个通道的特征。
进一步的,在编码阶段使用四舍五入的方式代替量化操作,将特征的值类型转变为整数型以用于熵编码。
根据上述描述,以下是一个具体的实施流程,实现过程包含训练阶段、编码阶段和解码阶段。
训练阶段,使神经网络模型收敛。
步骤1:输入图像预处理,将输入图像随机选取位置裁剪为N×N的块,其中N大于256。
步骤2:将预处理后的图像输入到主分析变换ga,得到潜在表示y,同时将主分析变换不同阶段的特征图送入多尺度特征提取中,得到多尺度表示ym,然后采用添加均匀噪声的方式近似量化,得到量化后的潜在表示
Figure BDA0003457486740000098
步骤3:将多尺度表示ym输入到浅层分析变换ha中,得到浅层超先验z,即第一层边信息,同样量化采用添加均匀噪声的方式近似,得到量化后的浅层超先验
Figure BDA0003457486740000099
步骤4:将浅层超先验z送到深层分析变换da中,得到深层超先验s,即第二层边信息,同样量化采用添加均匀噪声的方式近似,得到量化后的深层超先验
Figure BDA00034574867400000910
步骤5:对于深层超先验s使用因式分解的熵模型,可以得到深层超先验的概率分布,从而可以计算编码s的码率估计,
Figure BDA00034574867400000911
步骤6:将量化后的深层超先验
Figure BDA00034574867400000912
送入深层合成变换ds,得到ψd,同时将量化后的浅层超先验
Figure BDA00034574867400000913
送入浅层超先验上下文模型中,得到
Figure BDA00034574867400000914
将两者同时送入浅层超先验熵参数模型中,得到
Figure BDA0003457486740000101
Figure BDA0003457486740000102
因此可以得到浅层超先验的概率分布,从而可以计算编码z的码率估计,
Figure BDA0003457486740000103
步骤7:将量化后的浅层超先验
Figure BDA0003457486740000104
送入浅层合成变换hs,得到ψh,同时将量化后的潜在表示
Figure BDA0003457486740000105
送入潜在表示上下文模型中,得到
Figure BDA0003457486740000106
将二者同时送入潜在表示熵参数模型中,得到
Figure BDA0003457486740000107
Figure BDA0003457486740000108
因此可以得到潜在表示的概率分布,从而可以计算编码y的码率估计,
Figure BDA0003457486740000109
步骤8:将量化后的浅层超先验
Figure BDA00034574867400001010
送入基于学习的超先验补偿模块,得到
Figure BDA00034574867400001011
此时将量化后的潜在表示
Figure BDA00034574867400001012
和补偿特征
Figure BDA00034574867400001013
进行逐元素加法运算,将求和后的结果送入主合成变换,得到重建图像
Figure BDA00034574867400001014
步骤9:将重建图像与原始输入进行比对,计算误差的程度,表示为
Figure BDA00034574867400001015
误差计算方式提前设定,可以是PSNR或者MS-SSIM等其他度量方法。
步骤10:因此整体网络的损失函数可以表示为
Figure BDA00034574867400001016
λ是拉格朗日乘子,对损失函数值反向传播以优化模型中各层网络权值。
步骤11:重复步骤2-步骤10,直到网络收敛,保存模型,训练过程结束。
编码阶段,将图像压缩并以二进制的形式表示。
步骤1:将一张图像输入到主分析变换ga得到潜在表示y,同时将图像也输入到多尺度分析变换gm中得到多尺度表示ym,在编码阶段量化采用四舍五入的方式,因此得到量化后的潜在表示
Figure BDA00034574867400001017
步骤2:将多尺度表示ym输入到浅层分析变换ha中,得到浅层超先验z,即第一层边信息,量化采用四舍五入的方式,因此得到量化后的浅层超先验
Figure BDA00034574867400001018
步骤3:将浅层超先验z输入到深层分析变换da中,得到深层超先验s,即第二层边信息,量化采用四舍五入的方式,因此得到量化后的深层超先验
Figure BDA00034574867400001019
步骤4:对量化后的深层超先验
Figure BDA00034574867400001020
采用算术编码器进行编码得到第二层边信息的码流3。
步骤5:利用算术解码器对第二层边信息的码流进行解码并将结果送入深层合成变换ds中,得到ψd,同时将量化后的浅层超先验
Figure BDA0003457486740000111
送入浅层超先验上下文模型中,得到
Figure BDA0003457486740000112
将两者同时送入浅层超先验熵参数模型中,得到
Figure BDA0003457486740000113
Figure BDA0003457486740000114
使用算术编码器根据该概率编码得到第一层边信息的码流2。
步骤6:利用算术解码器对第一层边信息的码流进行解码并将结果送入浅层合成变换hs中,得到ψh,同时将量化后的潜在表示送入潜在表示上下文模型中,得到
Figure BDA0003457486740000115
将两者同时送入潜在表示熵参数模型中,得到
Figure BDA0003457486740000116
Figure BDA0003457486740000117
使用算术编码器根据该概率编码得到潜在表示的码流1。
步骤7:步骤4-步骤6输出的码流3,码流2和码流1构成了该图像传输的总码流。编码过程结束。
解码阶段,利用二进制码流重建压缩后的图像。
步骤1:使用算术解码器对码流3进行解码,将解码后的结果送入深层合成变换ds中,得到ψd,将码流2已解码的部分送入浅层超先验上下文模型(首次送入零向量),得到
Figure BDA0003457486740000118
将二者同时送入到浅层超先验熵参数模型中,得到
Figure BDA0003457486740000119
Figure BDA00034574867400001110
使用算术解码器根据该概率依次解码码流2,循环此步直至码流2解码完毕。
步骤2:将码流2解码后的结果送入浅层合成变换hs中,得到ψh,将码流1 已解码的部分送入潜在表示上下文模型(首次送入零向量),得到
Figure BDA00034574867400001111
将二者同时送入到潜在表示熵参数模型中,得到
Figure BDA00034574867400001112
Figure BDA00034574867400001113
使用算术解码器根据该概率依次解码码流1,循环此步直至码流1解码完毕。
步骤3:将解码后的码流2送入基于学习的超先验补偿模块,将结果与码流 1解码后的结果逐元素相加后送入主合成变换中,得到解码后的重建图像。解码过程结束。
图5和图6是本发明方法在Kodak数据集下利用PSNR和MS-SSIM度量的测试结果,其中Kodak数据集包含24张无损图像。实验结果可以看到,我们的方法在不同的度量指标下,与现有的图像压缩方法相比,具有更好的性能。

Claims (6)

1.一种基于学习的超先验边信息补偿图像压缩方法,基于超先验边信息补偿的图像压缩系统,该系统包括主分析变换、主合成变换、浅层分析变换、浅层合成变换、潜在表示上下文模型、潜在表示熵参数模型、浅层超先验上下文模型、浅层超先验熵参数模型、因式分解熵参数模型、算术编器以及算数解码器,所述主分析变换进行四次下采样,其特征在于:还设置了多尺度特征提取、基于学习的超先验补偿、深层分析变换、深层合成变换以及有效的残差通道注意力;
主分析变换和主合成变换用于学习图像的潜在表示;
浅层分析变换,浅层合成变换,潜在表示上下文模型和潜在表示熵参数模型用于学习潜在表示的概率模型;
深层分析变换,深层合成变换,浅层超先验上下文模型和浅层熵参数模型用于学习浅层超先验的概率模型;
由主分析变换和多尺度特征提取组成的多尺度分析变换,浅层分析变换和基于学习的超先验补偿模块主要用于实现对于潜在表示的微调,即补偿作用;
编码阶段具体包括如下步骤,
步骤1:将一张图像输入到主分析变换ga得到潜在表示y,同时输入到多尺度变换gm中得到多尺度表示ym,对潜在表示y进行量化得到量化后的潜在表示
Figure FDA0003457486730000011
步骤2:将多尺度表示ym输入到浅层分析变换ha中,得到浅层超先验z,即第一层边信息,并对浅层超先验z进行量化得到量化后的浅层超先验
Figure FDA0003457486730000012
步骤3:将浅层超先验z输入到深层分析变换da中,得到深层超先验s,即第二层边信息,并对深层超先验s进行量化得到量化后的深层超先验
Figure FDA0003457486730000013
步骤4:对量化后的深层超先验
Figure FDA0003457486730000014
采用算术编码器进行编码得到第二层边信息的码流3;
步骤5:利用算术解码器对第二层边信息的码流3进行解码并将结果送入深层合成变换ds中,得到ψd,同时将量化后的浅层超先验
Figure FDA0003457486730000015
送入浅层超先验上下文模型中,得到
Figure FDA0003457486730000016
将两者同时送入浅层超先验熵参数模型中,得到
Figure FDA0003457486730000017
Figure FDA0003457486730000018
Figure FDA0003457486730000019
表示
Figure FDA00034574867300000110
中每个元素i服从的高斯分布的均值,
Figure FDA00034574867300000111
表示
Figure FDA00034574867300000112
中每个元素i服从的高斯分布的方差,根据
Figure FDA0003457486730000021
Figure FDA0003457486730000022
得到对应的概率,使用算术编码器根据该概率编码得到第一层边信息的码流2;
步骤6:利用算术解码器对第一层边信息的码流2进行解码并将结果送入浅层合成变换hs中,得到ψh,同时将量化后的潜在表示送入潜在表示上下文模型中,得到
Figure FDA0003457486730000023
将两者同时送入潜在表示熵参数模型中,得到
Figure FDA0003457486730000024
Figure FDA0003457486730000025
Figure FDA0003457486730000026
表示
Figure FDA0003457486730000027
中每个元素i服从的高斯分布的均值,
Figure FDA0003457486730000028
表示
Figure FDA0003457486730000029
中每个元素i服从的高斯分布的方差,根据
Figure FDA00034574867300000210
Figure FDA00034574867300000211
得到对应的概率,使用算术编码器根据该概率编码得到潜在表示的码流1;
步骤7:步骤4-步骤6输出的码流3,码流2和码流1构成了该图像传输的总码流,编码过程结束;
解码阶段,利用二进制码流重建压缩后的图像,具体包括以下步骤:
步骤1:使用算术解码器对码流3进行解码,将解码后的结果送入深层合成变换ds中,得到ψd,将码流2已解码的部分送入浅层超先验上下文模型,得到
Figure FDA00034574867300000212
将二者通道拼接后送入到浅层超先验熵参数模型中,得到
Figure FDA00034574867300000213
Figure FDA00034574867300000214
使用算术解码器根据该概率依次解码码流2,循环此步直至码流2解码完毕;
步骤2:将码流2解码后的结果送入浅层合成变换hs中,得到ψh,将码流1已解码的部分送入潜在表示上下文模型,得到
Figure FDA00034574867300000215
将二者同时送入到潜在表示熵参数模型中,得到
Figure FDA00034574867300000216
Figure FDA00034574867300000217
使用算术解码器根据该概率依次解码码流1,循环此步直至码流1解码完毕;
步骤3:将解码后的码流2送入基于学习的超先验补偿模块,将结果与码流1解码后的结果逐元素相加后送入主合成变换中,得到解码后的重建图像,解码过程结束。
2.根据权利要求1所述的一种基于学习的超先验边信息补偿图像压缩方法,其特征在于:
所述的多尺度特征提取由4个并行支路组成,每条支路由一个卷积组成,且四个卷积核大小不同,即大小为9×9,7×7,5×5,3×3,且下采样的步长分别为8、4、2和1,每条支路分别对主分析变换第一到四次下采样后的特征图进行特征提取。
3.根据权利要求1所述的一种基于学习的超先验边信息补偿图像压缩方法,其特征在于:所述的基于学习的超先验补偿模块依次为有效的残差通道注意力块,残差上采样块,残差上采样块,有效的残差通道注意力块。
4.根据权利要求1所述的一种基于学习的超先验边信息补偿图像压缩方法,其特征在于:深层分析变换依次由一个步长为1的3*3卷积,一个步长为2的3*3卷积和一个步长为1的3*3卷积构成,即只进行一次二倍下采样。
5.根据权利要求1所述的一种基于学习的超先验边信息补偿图像压缩方法,其特征在于:深层合成变换依次由一个步长为1的3*3卷积,一个步长为2的3*3反卷积和一个步长为1的3*3卷积,以及一个用于改变通道数的1×1卷积构成,即只进行一次二倍上采样。
6.根据权利要求3所述的一种基于学习的超先验边信息补偿图像压缩方法,其特征在于:所述的有效的残差通道注意力块,依次为步长为1的3*3卷积,Relu激活层,步长为1的3*3卷积,全局池化层,核大小为3的一维卷积和Sigmoid函数构成,具体的,定义输入特征为F,使用步长为1的3*3卷积,Relu激活层,步长为1的3*3卷积获得通道注意力的输入X,其中X∈RH×W×C,H,W,C分别表示特征图的高,宽和通道数;然后,使用全局平均池化获得逐通道的统计y∈RC,表示为:
Figure FDA0003457486730000031
其中yc表示y的第c个元素,xc(i,j)表示第c个特征在位置(i,j)的值;其次使用卷积核大小为3的一维卷积捕获局部跨通道之间的交互,并将卷积输出结果经过Sigmoid函数,表示为:ω=σ(C1Dk(y)),其中σ是Sigmoid函数,C1Dk表示卷积核大小为k的一维卷积,k的大小选择为3;然获得了最后的通道统计缩放因子ω,并对输入xc进行缩放,表示为:
Figure FDA0003457486730000032
因此得到了通道注意力的输出
Figure FDA0003457486730000033
最后获得有效残差注意力的输出
Figure FDA0003457486730000034
表示为:
Figure FDA0003457486730000035
其中,
Figure FDA0003457486730000036
Figure FDA0003457486730000037
在第c个通道的特征。
CN202210011926.5A 2022-01-06 2022-01-06 一种基于学习的超先验边信息补偿图像压缩方法 Active CN114449276B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210011926.5A CN114449276B (zh) 2022-01-06 2022-01-06 一种基于学习的超先验边信息补偿图像压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210011926.5A CN114449276B (zh) 2022-01-06 2022-01-06 一种基于学习的超先验边信息补偿图像压缩方法

Publications (2)

Publication Number Publication Date
CN114449276A true CN114449276A (zh) 2022-05-06
CN114449276B CN114449276B (zh) 2024-04-02

Family

ID=81366844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210011926.5A Active CN114449276B (zh) 2022-01-06 2022-01-06 一种基于学习的超先验边信息补偿图像压缩方法

Country Status (1)

Country Link
CN (1) CN114449276B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115358954A (zh) * 2022-10-21 2022-11-18 电子科技大学 一种注意力引导的特征压缩方法
CN116306322A (zh) * 2023-05-18 2023-06-23 天津中科谱光信息技术有限公司 一种基于高光谱数据的水体总磷浓度反演方法和装置
CN117676149A (zh) * 2024-02-02 2024-03-08 中国科学技术大学 一种基于频域分解的图像压缩方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110602494A (zh) * 2019-08-01 2019-12-20 杭州皮克皮克科技有限公司 基于深度学习的图像编码、解码系统及编码、解码方法
US20200027247A1 (en) * 2018-07-20 2020-01-23 Google Llc Data compression using conditional entropy models
US20200372686A1 (en) * 2019-05-22 2020-11-26 Fujitsu Limited Image coding apparatus, probability model generating apparatus and image decoding apparatus
CN113079378A (zh) * 2021-04-15 2021-07-06 杭州海康威视数字技术股份有限公司 图像处理方法、装置和电子设备
CN113259676A (zh) * 2020-02-10 2021-08-13 北京大学 一种基于深度学习的图像压缩方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200027247A1 (en) * 2018-07-20 2020-01-23 Google Llc Data compression using conditional entropy models
US20200372686A1 (en) * 2019-05-22 2020-11-26 Fujitsu Limited Image coding apparatus, probability model generating apparatus and image decoding apparatus
CN110602494A (zh) * 2019-08-01 2019-12-20 杭州皮克皮克科技有限公司 基于深度学习的图像编码、解码系统及编码、解码方法
CN113259676A (zh) * 2020-02-10 2021-08-13 北京大学 一种基于深度学习的图像压缩方法和装置
CN113079378A (zh) * 2021-04-15 2021-07-06 杭州海康威视数字技术股份有限公司 图像处理方法、装置和电子设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115358954A (zh) * 2022-10-21 2022-11-18 电子科技大学 一种注意力引导的特征压缩方法
CN115358954B (zh) * 2022-10-21 2022-12-23 电子科技大学 一种注意力引导的特征压缩方法
CN116306322A (zh) * 2023-05-18 2023-06-23 天津中科谱光信息技术有限公司 一种基于高光谱数据的水体总磷浓度反演方法和装置
CN116306322B (zh) * 2023-05-18 2023-08-25 天津中科谱光信息技术有限公司 一种基于高光谱数据的水体总磷浓度反演方法和装置
CN117676149A (zh) * 2024-02-02 2024-03-08 中国科学技术大学 一种基于频域分解的图像压缩方法
CN117676149B (zh) * 2024-02-02 2024-05-17 中国科学技术大学 一种基于频域分解的图像压缩方法

Also Published As

Publication number Publication date
CN114449276B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
US11153566B1 (en) Variable bit rate generative compression method based on adversarial learning
Cheng et al. Energy compaction-based image compression using convolutional autoencoder
CN110087092B (zh) 基于图像重构卷积神经网络的低码率视频编解码方法
CN114449276B (zh) 一种基于学习的超先验边信息补偿图像压缩方法
CN111641832B (zh) 编码方法、解码方法、装置、电子设备及存储介质
CN113259676B (zh) 一种基于深度学习的图像压缩方法和装置
CN110024391B (zh) 用于编码和解码数字图像或视频流的方法和装置
Sathiyanathan Medical image compression using view compensated wavelet transform
CN113822147B (zh) 一种协同机器语义任务的深度压缩方法
CN112149652A (zh) 用于高光谱图像有损压缩的空谱联合深度卷积网络方法
Chen et al. Compressive sensing multi-layer residual coefficients for image coding
EP4173292A1 (en) Method and system for image compressing and coding with deep learning
Ahanonu Lossless image compression using reversible integer wavelet transforms and convolutional neural networks
Zebang et al. Densely connected AutoEncoders for image compression
Dardouri et al. Dynamic neural network for lossy-to-lossless image coding
CN117354523A (zh) 一种频域特征感知学习的图像编码、解码、压缩方法
Boopathiraja et al. A near lossless three-dimensional medical image compression technique using 3D-discrete wavelet transform
Di et al. Learned compression framework with pyramidal features and quality enhancement for SAR images
CN112750175B (zh) 基于八度卷积和语义分割的图像压缩方法及系统
Garg et al. Analysis of different image compression techniques: A review
CN115361555A (zh) 图像编码方法、图像编码方法、装置以及计算机存储介质
Yin et al. A co-prediction-based compression scheme for correlated images
Choi et al. Frequency-aware learned image compression for quality scalability
Hussain et al. A Pixel Based Method for Image Compression
Fan et al. Learned Lossless JPEG Transcoding via Joint Lossy and Residual Compression

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant