CN117354523A - 一种频域特征感知学习的图像编码、解码、压缩方法 - Google Patents
一种频域特征感知学习的图像编码、解码、压缩方法 Download PDFInfo
- Publication number
- CN117354523A CN117354523A CN202311276043.8A CN202311276043A CN117354523A CN 117354523 A CN117354523 A CN 117354523A CN 202311276043 A CN202311276043 A CN 202311276043A CN 117354523 A CN117354523 A CN 117354523A
- Authority
- CN
- China
- Prior art keywords
- image
- channel
- super
- feature
- binary code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 230000008447 perception Effects 0.000 title claims abstract description 44
- 238000009826 distribution Methods 0.000 claims abstract description 51
- 230000006835 compression Effects 0.000 claims abstract description 48
- 238000007906 compression Methods 0.000 claims abstract description 48
- 238000010586 diagram Methods 0.000 claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 claims description 37
- 230000007246 mechanism Effects 0.000 claims description 15
- 238000000354 decomposition reaction Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 239000012633 leachable Substances 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 2
- 229920006395 saturated elastomer Polymers 0.000 claims description 2
- 238000004590 computer program Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000013139 quantization Methods 0.000 description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000013332 literature search Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/149—Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/147—Data rate or code amount at the encoder output according to rate distortion criteria
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开一种频域特征感知学习的图像编码、解码、压缩方法,包括:通过频域特征感知学习模块组成的编码网络获取待编码图像的第一和第二特征图;获取第二特征图的超先验特征二进制码流及超先验信息;将第二特征图划分为多个通道分组;将每个通道分组的分布参化建模为高斯分布,通过基于Transformer的通道自回归熵模型来预测高斯分布的均值、方差;根据高斯分布对第二特征图进行概率估计,并进行算术编码,获得每个通道分组的特征二进制码流并合并为特征二进制码流,与超先验特征二进制码流合并,得到压缩图像二进制码流。本发明可以提取更为紧凑的隐变量,能够精确地对三维特征的分布进行建模和估计码率,提升图像压缩的率失真性能。
Description
技术领域
本发明属于图像压缩领域,涉及的是一种端到端图像压缩方法,具体地说,涉及一种基于频域特征感知学习的图像编码、解码以及压缩方法。
背景技术
最近,基于深度学习的图像压缩模型成为图像存储和传输的一种有前景的解决方案,并在速率失真度量中优于传统编解码器。从理论上讲,基于深度学习的图像压缩模型中的非线性变换为多维量化器提供了更适应性的量化单元,超越了变换编码方案的构造限制。因此,为了降低编码后的码率,该非线性变换成为端到端图像压缩中的一个重要课题。
经过对现有技术的文献检索发现,Minnen等人在2018年的Conference andWorkshop on Neural Information Processing Systems会议上发表的“JointAutoregressive and Hierarchical Priors for Learned Image Compression,采用卷积神经网络(CNN)来实现非线性分析和合成变换。然而,CNN的局部感受野限制了其代表能力,并导致冗余的潜在表示。为了解决这个问题,最近的研究采用了注意力模块和Transformer,如Zou等人在2023年Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition会议上发表的”Learned image compressionwith mixed transformer-cnn architectures”,通过Transformer来捕捉非局部的空间关系,从而实现更好的R-D性能。
然而,我们注意到,尽管在传统的图像压缩方法中自然图像的频率特性非常重要,但在基于深度学习的图像压缩模型中,却没有文章对频率其进行针对性的设计。因此容易导致编码冗余,增大了编码开销。
发明内容
本发明针对上述问题,提出了一种频域特征感知学习的图像编码、解码、压缩方法,可以更提取更为紧凑的隐变量,同时能够精确地对三维特征的分布进行建模和估计码率,提升图像压缩的率失真性能。
本发明的第一方面,提出一种频域特征感知学习的图像编码的图像编码方法,包括:
获取待编码图像的第一特征图和第二特征图,其中,所述第一特征图为所述待编码图像通过频率可知Transformer块构成的编码网络获得频率分解特征图;所述第二特征图为将所述第一特征图中的每个特征值量化为整数得到;
获取所述第二特征图的超先验特征二进制码流以及对应的超先验信息;
将所述第二特征图均匀划分为多个通道分组;将每个所述通道分组的分布参数化建模为高斯分布,采用基于Transformer的通道自回归模型来建立各个分组的通道上下文关系,结合超先验信息来预测各个分组的高斯分布的均值、方差;
根据预测的所述高斯分布的均值、方差对每个所述通道分组进行概率估计,根据估计概率进行算术编码,获得每个所述通道分组的特征二进制码流;;
将每个所述通道分组特征二进制码流合并为特征二进制码流,并进一步与所述超先验特征二进制码流合并,得到压缩图像二进制码流。
可选地,所述将待编码图像通过多个频域特征感知学习模块构成的编码网络,获得频率分解特征图,作为第一特征图,包括:
将待编码图像依次通过频域特征感知学习模块,其中第1个频域特征感知学习模块的输入为待编码图像,第k个频域特征感知学习模块的输入为第k-1个频域特征感知学习模块的输出,将最后一个频域特征感知学习模块的输出作为第一特征图,这里k为大于1的正整数。
对任一频域特征感知学习模块,包括:
将输入通过频率可分解的窗口多头注意力机制,所述频率可分解的窗口多头注意力机制将头均匀分为四组,每组采用不同大小的矩形窗口来将输入特征进行窗口划分,并在局部窗口内实施注意力机制来提取特定频率的特征;其中:第一组的头的窗口用于提取高频特征;第二组的头的窗口用于提取低频特征;第三组的头的窗口用于提取横向频率特征;第四组的头的窗口用于提取纵向频率特征;最后将各组的输出进行拼接作为最终的输出;
将将频率可分解的窗口多头注意力机制的输出和输入短接的结果输入到频率选择性前馈网络,所述频率选择性前馈网络首先将输入特征通过一个GELU非线性映射层和两个多层感知机层组成的简单前馈网络,并将该输出进行快速傅立叶变换;将所述分块快速傅立叶变换的结果与可学习滤波器进行点乘,实现自适应频率选择;最后进行快速傅立叶逆变换得到的频率选择特征作为输出;所述可学习滤波器为一个三维的张量,维度为长、宽、通道,通道数为输入特征通道数的两倍;
将不同频率分量特征与所述频率选择特征通过短连接操作,作为频域特征感知学习模块的输出。
可选地,所述将第二特征图依次通过超编码神经网络得到超先验特征二进制码流,将超先验特征二进制码流通过超解码神经网络得到超先验信息,包括:
对第二特征图采用超编码神经网络得到第一超先验特征图;
将所述第一超先验特征图中的每个特征量化为整数,得到第二超先验特征图;
对所述第二超先验特征图建立一个各特征之间相互独立的分布估计,并利用此分布估计对第二超先验特征图进行算术编码,获得超先验特征二进制码流;
利用所述各特征之间相互独立的分布估计对所述超先验特征二进制码流进行算术解码得到恢复的第二超先验特征图;
对所述恢复的第二超先验特征图采用超解码神经网络得到超先验信息。
本发明的第二方面,提供一种频域特征感知学习的图像编码的图像解码方法,用于对应解码上述方法得到的编码,包括:
获得压缩图像二进制码流,分解获得特征二进制码流和超先验特征二进制码流;
利用超解码神经网络从所述超先验特征二进制码流中获得超先验信息;
通过所述基于Transformer的通道自回归模型,来建立各个分组的通道上下文信息,并输出每个分组通道的通道上下文特征;预测用于解码第二特征图每个通道分组中的高斯模型的均值、方差。
所述基于Transformer的通道自回归模型共计L层Transformer网络,第1层Transformer网络的输入是所述第二特征图,其余L-1层的输入为上一层Transformer网络输出;最后一层的输出为最终的每个分组通道的通道上下文特征;任一层Transformer网络包括一个分组掩码的通道多头注意力机制层、一个GELU非线性映射层和两个分组卷积层。所述分组卷积层的组数等于分组的第二特征图的组数。比如,可以有两个分组卷积层,第一个分组卷积层的输出是GELU的输入,GELU的输出是第二个分组卷积层的输入。
可选地,所述分组掩码的通道多头注意力机制层将未解码分组通道对已解码分组通道的注意力权重进行掩码;通过通道注意力机制,已解码分组通道能够为其他分组通道提供上下文信息;所述GELU非线性映射层的主要特点是在输入(GELU前一个分组卷积层的输出)接近于零时,它的输出接近于线性变换;而在输入远离零时,它的输出接近于饱和的非线性变换;
将所述每个分组通道的通道上下文特征和超先验信息进行拼接,通过参数估计网络来预测各个分组的高斯分布的均值、方差;
根据所述高斯模型的均值、方差对特征二进制码流进行算术解码,按照通道分组的顺序逐通道分组获得所述第二特征图;
将所述第二特征图通过解码神经网络,获得重构图像。
本发明的第三方面,提供一种频域特征感知学习的图像编码的图像压缩方法,包括:
获取待压缩图像;
基于上述的基于频率可知Transformer的图像编码方法获得压缩图像二进制码流;
基于上述的基于频率可知Transformer的图像解码方法对所述压缩图像二进制码流进行解压缩,获得重构图像。
本发明的第四方面,提供一种图像压缩系统,所述图像压缩系统包括编码器和解码器,包括:
获取待压缩图像;
所述编码器采用上述基于频率可知Transformer的图像编码方法对所述待压缩图像进行压缩,获得压缩图像二进制码流;
所述解码器采用上述基于频率可知Transformer的图像解码方法对所述压缩图像二进制码流进行解压缩,获得重构图像;
本发明的第五方面,提供一种图像压缩装置,所述图像压缩装置包括存储器和处理器,所述存储器存储一段可由所述处理器执行的程序,所述处理器在执行所述程序时可以执行以下任一种方法:
-上述的频域特征感知学习的图像编码的图像编码方法,或,
-上述的频域特征感知学习的图像编码的图像解码方法,或,
-上述的频域特征感知学习的图像编码的图像压缩方法。
与现有技术相比,本发明实施例具有以下至少一种有益效果:
本发明上述的频域特征感知学习的图像编码的图像编码、解码以及压缩方法,利用基于频率可知Transformer块来提取不同频率成份的特征信息,能够通过产生更加紧凑的隐含表示来降低信息冗余。
本发明上述的频域特征感知学习的图像编码的图像编码、解码以及压缩方法,基于Transformer的通道自回归模型,能够更好的捕捉变化的通道相关信息,从而增加熵码率的效率,实现更好的压缩性能。
本发明上述的频域特征感知学习的图像编码的图像编码、解码以及压缩方法,相比目前方法,在重构图像质量相同的前提下,可以节约2.78%的码流开销,提升了率失真性能。
本发明上述的频域特征感知学习的图像编码的图像编码、解码以及压缩方法,在不同场景下采集的不同分辨率的自然图像上均能提升码率估计的准确度,提升图像压缩率失真性能。本发明具有极强的实际应用价值,尤其是在实际的图像压缩中,能够根据不同的图像内容、不同的计算复杂度限制灵活估计特征图分布,实现码率估计,提升率失真性能。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例中的图像编码方法的流程图。
图2为本发明一较优实施例中的图像编码方法的流程图。
图3为本发明一较优实施例中的图像解码方法的流程图。
图4为本发明一较优实施例中的图像压缩方法的流程图。
图5为本发明一较优实施例中的图像压缩模型训练方法的流程图。
具体实施方式
下面结合具体实施例和附图,对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
参照图1所示,为本发明一实施例中的频域特征感知学习的图像编码方法的流程图。本实施例提供一种频域特征感知学习的图像编码方法,包括步骤S100-S600。具体的:
S100,获取待编码图像的第一特征图和第二特征图;
本步骤中,先确定待编码图像,然后通过编码神经网络来获取待编码图像的第一特征图和第二特征图。具体的,编码神经网络由多个频率可知Transformer块(频域特征感知学习模块)构成。
S200,获取第二特征图的超先验特征二进制码流以及对应的超先验信息;
本步骤中,可以采用神经网络来实现,比如,将第二特征图依次通过超编码神经网络得到超先验特征二进制码流,进一步的,将超先验特征二进制码流通过超解码神经网络得到超先验信息。
S300,将所述第二特征图均匀划分为多个通道分组,得到分组的第二特征图;
S400,将S300每个通道分组的分布参数化建模为高斯分布,基于Transformer的通道自回归模型,来建立各个分组的通道上下文信息,并输出每个分组通道的通道上下文特征;将所述每个分组通道的通道上下文特征和超先验信息进行拼接,通过参数估计网络来预测各个分组的高斯分布的均值、方差;
本步骤中,利用基于Transformer的通道自回归模型来建立各个分组的通道上下文信息,能够更好的捕捉变化的通道相关信息,从而增加熵码率的效率,实现更好的压缩性能;
S500,根据预测的高斯分布的均值、方差对每个通道分组进行概率估计,根据估计概率进行算术编码,获得每个通道分组的特征二进制码流;
S600,将每个通道分组特征二进制码流合并为特征二进制码流,并进一步与超先验特征二进制码流合并,得到压缩图像二进制码流。
本发明上述实施例中,可以精确地对三维特征的分布进行建模和估计码率,可以用于实际的图像压缩中,能够根据不同的图像内容、不同的计算复杂度限制灵活估计特征图分布,实现码率估计,提升率失真性能。当然上述实施例也不要求严格按照上述步骤顺序来实施,比如步骤S200、S300可以不分前后顺序,也能实现本发明的目的。
在一具体实施例中,频率可知Transformer块包括频率可分解的窗口多头注意力机制,频率选择的前馈网络,并进行相应的短连接操作;所述编码网络由多个频率可知Transformer块组成,提取频率分解的第一特征图。
在一些可能的实施方式中,所述频率可分解的窗口多头注意力机制将头均匀分为四组,每组采用不同大小的矩形窗口来将输入特征进行窗口划分,并在局部窗口内实施注意力机制来提取特定频率的特征;比如,第一组的头的窗口大小为4x4,用于提取高频特征;第二组的头的窗口大小为16x16,用于提取低频特征;第三组的头的窗口大小为4x16,用于提取横向频率特征;第四组的头的窗口大小为16x4,用于提取纵向频率特征;最后将各组的输出进行拼接作为最终的输出。当然,在其他实施例中,也可以是其他的窗口大小。
在一些可能的实施方式中,将不同频率分量特征输入频率选择性前馈网络,所述频率选择性前馈网络首先将输入特征通过一个GELU非线性映射层和两个多层感知机层组成的简单前馈网络,并将该输出进行16乘16分块快速傅立叶变换;将所述分块快速傅立叶变换的结果与可学习滤波器进行点乘,实现自适应频率选择;最后进行16乘16的分块快速傅立叶逆变换作为输出;所述可学习滤波器为一个三维的张量,维度为长、宽、通道,其中长为16,宽为9,通道数为输入特征通道数的两倍可选地,将所述第一特征图中的每个特征值量化为整数得到所述第二特征图;将所述第二特征图均匀划分为多个通道分组,得到分组的第二特征图。当然,在其他实施例中,也可以是其他的块的大小。
图2为本发明一较优实施例中的频域特征感知学习的图像编码方法的流程图。该优选实施例中,可以包括步骤S101-S109,具体的:
S101,三维特征提取:待编码图像通过基于频率可知Transformer块构成的编码神经网络,获得频率分解特征;
S102,超先验特征提取、量化:对三维特征采用超编码神经网络得到超先验特征;将超先验特征四舍五入量化为整数;
S103,超先验特征编码:对超先验特征建立一个各特征之间相互独立的分布估计,并利用此分布估计对超先验特征进行算术编码,获得超先验特征二进制码流;
S104,超先验特征解码:对超先验特征二进制码流进行算术解码得到恢复的超先验特征;对恢复的超先验特征采用超解码神经网络得到超先验信息;
S105,量化:将三维特征四舍五入量化为整数;
S106,三维特征通道:将第二特征图沿通道维度均匀地划分通道分组。
S107,基于Transformer的概率熵建模:将每个所述通道分组的分布参数化建模为高斯分布,采用基于Transformer的通道自回归模型来建立各个分组的通道上下文关系,并输出每个分组通道的通道上下文特征;将所述每个分组通道的通道上下文特征和超先验信息进行拼接,通过参数估计网络来预测各个分组的高斯分布的均值、方差;
S108,三维特征编码:根据预测的所述高斯分布的均值、方差对每个所述通道分组进行概率估计,根据估计概率进行算术编码,获得每个所述通道分组的特征二进制码流;
S109,码流合成:将每个通道分组特征二进制码流合并为特征二进制码流,并进一步与超先验特征二进制码流合并,得到压缩图像二进制码流。
本发明上述实施例中,通过特定的三维特征通道分组、基于Transformer的熵模型参数估计,可以更精确地对三维特征的分布进行建模和估计码率,提升图像压缩的率失真性能。
基于相同的发明思路,本发明另一实施例中提供一种频域特征感知学习的图像解码方法,流程图如图3所示,包括:
S201,码流分解:分解压缩图像二进制码流获得特征二进制码流和超先验特征二进制码流;
S202,超先验特征解码:对超先验特征二进制码流进行算术解码,获得恢复的超先验特征;对恢复的超先验特征采用超解码神经网络,获得超先验信息;
S203,基于Transformer的概率熵建模:该模块的结构和参数值与图2所示实施例中的基于Transformer的概率熵建模完全相同。
示例性的,首先用全0张量初始化三维特征;将三维特征沿通道维非均匀地划分为K个通道分组;通过基于Transformer的概率熵建模,来建立各个分组的通道上下文信息,并输出每个分组通道的通道上下文特征;将所述每个分组通道的通道上下文特征和超先验信息进行拼接,通过参数估计网络来预测各个分组的高斯分布的均值、方差。
S204,三维特征解码:根据高斯模型的均值、方差对特征二进制码流进行算术解码,按照通道分组的顺序逐通道分组获得量化后的三维特征。
S205,图像重构:对重构的量化后的三维特征采用解码神经网络,获得重构图像。
本实施例的基于频率可知Transformer的图像解码方法用于对应图2所示的基于频率可知Transformer的图像编码方法,利用基于Transformer的通道自回归模型估计,来建立各个分组的通道上下文信息,结合超先验信息来预测高斯模型的均值和方差,从而得到更准确的分布估计。上述没有详细说明的部分,可以参照图2所示实施例中的对应描述,在此不再赘述。
根据相同的发明思路,在另一实施例中,还提供一种频域特征感知学习的图像压缩方法,以对Kodak测试集中的24张分辨率为512×768的图像进行压缩为例,该方法的流程图如图4所示,包括:
S301获取模块:依次获得待压缩图像;
S302编码器:按照步骤S101—S109对待压缩图像进行编码,获得压缩图像二进制码流。
示例性的,参数如下:三维特征的通道数为320,高度为32,宽度为48,并沿通道维度均匀地划分为K=5个通道分组;基于Transformer的通道自回归模型的预设参数的具体数值为:层数L=12;
S303解码器:按照S201—S205对压缩图像二进制码流进行解压缩,获得重构图像。
其中,三维特征的通道数、高度、宽度、通道分组数以及基于频率可知Transformer的预设参数与编码器完全相同。
本发明上述实施例中的压缩方法,基于图1、2的基于频率可知Transformer的图像编码方法和图3所示的基于频率可知Transformer的图像编码方法来实现,上述没有详细说明的部分,可以参照上述实施例中的对应描述,在此不再赘述。
本发明上述实施例中的压缩方法,可以在不同场景下采集的不同分辨率的自然图像上均能提升码率估计的准确度,提升图像压缩率失真性能,能够根据不同的图像内容、不同的计算复杂度限制灵活估计特征图分布,实现码率估计,提升率失真性能。
基于相同的发明思路,在本发明的其他实施例中提供一种图像压缩方法,包括:获取待压缩图像;采用上述任一项实施例中的频域特征感知学习的图像编码方法获得压缩图像二进制码流;采用上述任一项实施例中的频域特征感知学习的图像解码方法对压缩图像二进制码流进行解压缩,获得重构图像。
对于上述的图像压缩方法,可以通过训练模型的方法来提高压缩效果。示例性的,训练集由在各种自然场景下采集的不同分辨率的一百万张自然图像构成,训练之后的模型可用于实际的图像编码和解码。具体的,如图5所示,在一较优实施例中,图像压缩方法,包括:
S401,三维特征提取:将训练集中的图像随机裁剪成256×256分辨率大小的图像,输入编码神经网络获得三维特征,其中:编码神经网络由一个残差块、两个频率可知Transformer块、一个残差块、两个频率可知Transformer块、一个残差块、两个频率可知Transformer块、一个卷积层依次级联构成;三维特征通道数为320,高度和宽度均为16;当然,本实施例中上述的图像分辨率大小以及三维特征参数都是可以根据实际情况调整的,并不局限于本步骤中所述,以下各步骤中的参数也是如此。相应的,编码神经网络也可以采用其他的网络结构,比如四个卷积层级联等,并不局限于本步骤中的编码神经网络。
S402,超先验特征提取、加噪:将三维特征输入超先验编码神经网络获得超先验特征,为避免量化操作导致的梯度处处为0,对超先验特征添加-0.5到0.5均匀分布的噪声来模拟实际量化,其中:超先验编码神经网络由三个卷积层级联构成;当然,超先验编码神经网络也可以是其他网络结构形式,比如三个残差模块级联等,并不局限于本步骤中的超先验编码神经网络。
S403,超先验特征码率估计:对超先验特征建立一个各特征之间相互独立的分布估计,并利用此分布估计获得超先验特征码率估计;
S404,超先验信息获取:将添加噪声后的超先验特征输入超先验解码神经网络获得超先验信息,其中:超先验解码神经网络由三个卷积层级联构成;
S405,特征加噪:为避免量化操作导致的梯度处处为0,对三维特征添加-0.5到0.5均匀分布的噪声来模拟实际量化;
S406,特征通道:将三维特征沿通道维度均匀地划分为K=5个通道分组
S407,基于Transformer的概率熵建模:该模块的结构与图2所示实施例中的基于Transformer的通道自回归模型完全相同;通过将每个所述通道分组的分布参数化建模为高斯分布,采用基于Transformer的通道自回归模型来建立各个分组的通道上下文关系,并输出每个分组通道的通道上下文特征;将所述每个分组通道的通道上下文特征和超先验信息进行拼接,通过参数估计网络来预测各个分组的高斯分布的均值、方差:层数L=12;
S408,特征码率估计:根据预测的高斯分布的均值、方差和权重获得三维特征每个通道分组的码率估计;将每个通道分组的码率估计相加,获得特征码率估计;
S409,总码率估计:将超先验特征码率估计和特征码率估计相加,获得总码率估计;
S410,图像重构:将加噪后的三维特征输入解码神经网络,获得重构图像,其中:解码神经网络由一个残差块、两个频率可知Transformer块、一个残差块、两个频率可知Transformer块、一个残差块、两个频率可知Transformer块、一个卷积层依次级联构成。
在一些可能的实施方式中,上述的图像压缩方法可以作为一个图像压缩模型,可以进一步用随机梯度下降法优化,其率失真损失函数为:
其中,失真x是待压缩图像,/>是重构图像,λ>0是用于平衡失真和码率的预设参数,码率R根据第二特征图每个通道分组中每个通道分组的高斯分布计算获得:
其中,是第k个通道分组的特征/>是第k个通道分组中的预测分布,θk={φk,ψk}是可学习参数的集合。
实施效果:
在上述实施例中,用ImageNet数据集对基于频率可知Transformer的图像压缩模型进行训练,λ分别设置为0.0018、0.0035、0.0067、0.0130、0.0250和0.0483,分别对应六个不同码率的图像压缩模型,使用Adam优化器进行2000000步优化,最初的1800000步学习率设置为10-4,随后降至3*10-5,最后在1950000步降至10-5。
在上述实施例中,用训练得到的六个基于频率可知Transformer的图像压缩模型的图像编码器对Kodak测试集中的24张分辨率为512×768的图像进行压缩。压缩后的24张图像的平均码率分别为0.1284bpp,0.1983bpp,0.2963bpp,0.4332bpp,0.6108bpp,0.8360bpp;在上述实施例中,用训练得到的六个基于频率可知Transformer的图像压缩模型的图像编码器对Kodak测试集中的24张分辨率为512×768的图像进行压缩,获得重构图像。重构的24张图像的平均峰值信噪比(PSNR)分别为29.650,31.142,32.712,34.430,36.180,37.928;
相比于用基准神经网络的方法,本发明上述实施例中提供的基于频率可知Transformer的图像压缩方法具有更好的率失真性能。具体的,在相同的重构图像失真下,可以节省2.78%的码流开销。本发明实施例基于上述频率可知Transformer的图像压缩方法,在不同场景下采集的不同分辨率的自然图像上均能提升码率估计的准确度,提升图像压缩率失真性能。本发明具有极强的实际应用价值,尤其是在实际的图像压缩中,能够根据不同的图像内容、不同的计算复杂度限制灵活估计特征图分布,实现码率估计,提升率失真性能。
本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下,可以任意组合使用。
Claims (10)
1.一种频域特征感知学习的图像编码方法,其特征在于,包括:
将待编码图像通过多个频域特征感知学习模块构成的编码网络,获得频率分解特征图,作为第一特征图;
将所述第一特征图中的每个特征值量化为整数,获得第二特征图;
获取所述第二特征图的超先验特征二进制码流以及对应的超先验信息;
将所述第二特征图均匀划分为多个通道分组,将每个通道分组的分布参数化建模为高斯分布,采用基于Transformer的通道自回归模型来建立各个分组的通道上下文关系,结合超先验信息来预测各个分组的高斯分布的均值、方差;
根据预测的所述高斯分布的均值、方差对每个所述通道分组进行概率估计,根据估计概率进行算术编码,获得每个所述通道分组的特征二进制码流;
将所有所述通道分组特征二进制码流合并为特征二进制码流,并进一步与所述超先验特征二进制码流合并,得到压缩图像二进制码流。
2.根据权利要求1所述的频域特征感知学习的图像编码方法,其特征在于,所述将待编码图像通过多个频域特征感知学习模块构成的编码网络,获得频率分解特征图,作为第一特征图,包括:
将待编码图像依次通过频域特征感知学习模块,其中第1个频域特征感知学习模块的输入为待编码图像,第k个频域特征感知学习模块的输入为第k-1个频域特征感知学习模块的输出,将最后一个频域特征感知学习模块的输出作为第一特征图,这里k为大于1的正整数;
对任一频域特征感知学习模块,包括:
将输入通过频率可分解的窗口多头注意力机制,所述频率可分解的窗口多头注意力机制将头均匀分为四组,每组采用不同大小的矩形窗口来将输入特征进行窗口划分,并在局部窗口内实施注意力机制来提取特定频率的特征;其中:第一组的头的窗口用于提取高频特征;第二组的头的窗口用于提取低频特征;第三组的头的窗口用于提取横向频率特征;第四组的头的窗口用于提取纵向频率特征;最后将各组的输出进行拼接作为最终的输出;
将频率可分解的窗口多头注意力机制的输出和输入短接的结果输入到频率选择性前馈网络,所述频率选择性前馈网络首先将输入特征通过一个GELU非线性映射层和两个多层感知机层组成的简单前馈网络,并将该输出进行快速傅立叶变换;将所述分块快速傅立叶变换的结果与可学习滤波器进行点乘,实现自适应频率选择;最后进行快速傅立叶逆变换得到频率选择特征作为输出;所述可学习滤波器为一个三维的张量,维度为长、宽、通道,通道数为输入特征通道数的两倍;
将不同频率分量特征与所述频率选择特征通过短连接操作,作为频域特征感知学习模块的输出。
3.根据权利要求1所述的频域特征感知学习的图像编码方法,其特征在于,所述获取所述第二特征图的超先验特征二进制码流以及超先验信息,包括:
对所述第二特征图采用超编码神经网络得到第一超先验特征图;
将所述第一超先验特征图中的每个特征量化为整数,得到第二超先验特征图;
对所述第二超先验特征图建立一个各特征之间相互独立的分布估计,并利用此分布估计对第二超先验特征图进行算术编码,获得超先验特征二进制码流;
利用所述各特征之间相互独立的分布估计对所述超先验特征二进制码流进行算术解码得到恢复的第二超先验特征图;
对所述恢复的第二超先验特征图采用超解码神经网络得到超先验信息。
4.根据权利要求1所述的频域特征感知学习的图像编码方法,其特征在于,所述采用基于Transformer的通道自回归模型来建立各个分组的通道上下文关系,结合超先验信息来预测各个分组的高斯分布的均值、方差,包括:
将所述分组的第二特征图输入到基于Transformer的通道自回归模型,来建立各个分组的通道上下文信息,输出每个分组通道的通道上下文特征;
所述基于Transformer的通道自回归模型包括L层Transformer网络,第1层Transformer网络的输入是所述第二特征图,其余L-1层的输入为上一层Transformer网络输出;最后一层的输出为最终的每个分组通道的通道上下文特征;
将所述每个分组通道的通道上下文特征和超先验信息进行拼接,通过参数估计网络来预测各个分组的高斯分布的均值、方差。
5.根据权利要求4所述的频域特征感知学习的图像编码方法,其特征在于,任一层Transformer网络包括一个分组掩码的通道多头注意力机制层、一个分组卷积层,一个GELU非线性映射层,和一个分组卷积层,其中,
所述分组掩码的通道多头注意力机制层将未解码分组通道对已解码分组通道的注意力权重进行掩码,通过通道注意力机制,已解码分组通道能够为其他分组通道提供上下文信息;
所述GELU非线性映射层在输入接近于零时,它的输出接近于线性变换,在输入远离零时,它的输出接近于饱和的非线性变换;
所述分组卷积层的组数等于分组的第二特征图的组数。比如,有两个分组卷积层,第一个分组卷积层的输出是GELU的输入,GEL U的输出是第二个分组卷积层的输入。
6.一种频域特征感知学习的图像解码方法,用于对应解码权利要求1-5任一项得到的编码,其特征在于,包括:
获得压缩图像二进制码流,对所述压缩图像二进制码流进行分解获得特征二进制码流和超先验特征二进制码流;
利用超解码神经网络从所述超先验特征二进制码流中获得超先验信息;
通过基于Transformer的通道自回归模型得到的通道上下文信息,结合超先验信息来预测用于解码第二特征图每个通道分组中的高斯模型的均值、方差;
根据所述高斯模型的均值、方差和权重对特征二进制码流进行算术解码,按照通道分组的顺序逐通道分组获得所述第二特征图;
将所述第二特征图通过频率可知Transformer块构成的解码神经网络,获得重构图像。
7.一种频域特征感知学习的的图像压缩方法,其特征在于,包括:
获取待压缩图像;
基于权利要求1-5任一项所述的图像编码方法获得压缩图像二进制码流;
基于权利要求6所述的图像解码方法对所述压缩图像二进制码流进行解压缩,获得重构图像。
8.根据权利要求7所述的一种频域特征感知学习的的图像压缩方法,其特征在于,编码神经网络、解码神经网络、超编码神经网络、超解码神经网络、基于Transformer的通道自回归模型的参数通过率失真优化获得:
其中,失真x是待压缩图像,/>是重构图像,λ>0是用于平衡失真和码率的预设参数,码率R根据第二特征图每个通道分组中每个通道分组的高斯分布计算获得:
其中,是第k个通道分组的特征/>是第k个通道分组中的预测分布,θk={φk,ψk}是可学习参数的集合。
9.一种图像压缩系统,其特征在于,包括:
编码器:所述编码器采用权利要求1-5任一项所述的图像编码方法对待压缩图像进行编码获得压缩图像二进制码流;
解码器:所述解码器基于权利要6所述的图像解码方法对所述压缩图像二进制码流进行解码,获得重构图像。
10.一种图像压缩装置,所述图像压缩装置包括存储器和处理器,所述存储器存储一段可由所述处理器执行的程序,其特征在于,所述处理器在执行所述程序时可以执行以下任一种方法:
-权利要求1-5任一项所述的图像编码方法,或,
-权利要求6所述的图像解码方法,或,
-权利要求7-8任一项所述的图像压缩方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311276043.8A CN117354523A (zh) | 2023-09-29 | 2023-09-29 | 一种频域特征感知学习的图像编码、解码、压缩方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311276043.8A CN117354523A (zh) | 2023-09-29 | 2023-09-29 | 一种频域特征感知学习的图像编码、解码、压缩方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117354523A true CN117354523A (zh) | 2024-01-05 |
Family
ID=89367505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311276043.8A Pending CN117354523A (zh) | 2023-09-29 | 2023-09-29 | 一种频域特征感知学习的图像编码、解码、压缩方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117354523A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117676149A (zh) * | 2024-02-02 | 2024-03-08 | 中国科学技术大学 | 一种基于频域分解的图像压缩方法 |
CN117915107A (zh) * | 2024-03-20 | 2024-04-19 | 北京智芯微电子科技有限公司 | 图像压缩系统、图像压缩方法、存储介质与芯片 |
-
2023
- 2023-09-29 CN CN202311276043.8A patent/CN117354523A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117676149A (zh) * | 2024-02-02 | 2024-03-08 | 中国科学技术大学 | 一种基于频域分解的图像压缩方法 |
CN117676149B (zh) * | 2024-02-02 | 2024-05-17 | 中国科学技术大学 | 一种基于频域分解的图像压缩方法 |
CN117915107A (zh) * | 2024-03-20 | 2024-04-19 | 北京智芯微电子科技有限公司 | 图像压缩系统、图像压缩方法、存储介质与芯片 |
CN117915107B (zh) * | 2024-03-20 | 2024-05-17 | 北京智芯微电子科技有限公司 | 图像压缩系统、图像压缩方法、存储介质与芯片 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cheng et al. | Learned image compression with discretized gaussian mixture likelihoods and attention modules | |
Cheng et al. | Energy compaction-based image compression using convolutional autoencoder | |
CN111641832B (zh) | 编码方法、解码方法、装置、电子设备及存储介质 | |
JP4966669B2 (ja) | マッチング追跡を用いたデータ圧縮 | |
CN117354523A (zh) | 一种频域特征感知学习的图像编码、解码、压缩方法 | |
CN110602494A (zh) | 基于深度学习的图像编码、解码系统及编码、解码方法 | |
CN111630570A (zh) | 图像处理方法、设备及计算机可读存储介质 | |
CN114449276B (zh) | 一种基于学习的超先验边信息补偿图像压缩方法 | |
CN113747163B (zh) | 基于上下文重组建模的图像编码、解码方法及压缩方法 | |
Prandoni et al. | Approximation and compression of piecewise smooth functions | |
CN113079378B (zh) | 图像处理方法、装置和电子设备 | |
Ororbia et al. | Learned neural iterative decoding for lossy image compression systems | |
Zhang et al. | A new image compression algorithm based on non-uniform partition and U-system | |
Chen et al. | CNN-optimized image compression with uncertainty based resource allocation | |
CN115361555A (zh) | 图像编码方法、图像编码方法、装置以及计算机存储介质 | |
CN115361559A (zh) | 图像编码方法、图像解码方法、装置以及存储介质 | |
Guz | A novel image compression method based on classified energy and pattern building blocks | |
Gashnikov | Decision-Tree-Based Interpolation for Multidimensional Signal Compression | |
CN117915107B (zh) | 图像压缩系统、图像压缩方法、存储介质与芯片 | |
CN110717948A (zh) | 一种图像后处理方法、系统及终端设备 | |
Hou et al. | Learning-based Intra-Prediction For Point Cloud Attribute Transform Coding | |
CN113393543B (zh) | 高光谱图像压缩方法、装置、设备及可读存储介质 | |
CN117119204A (zh) | 基于条件扩散的概率熵建模图像编码、解码、压缩方法 | |
Rajakumar et al. | Lossy image compression using multiwavelet transform coding | |
CN117278757A (zh) | 基于频率分解的可解释神经网络图像压缩方法、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |