CN113747163B - 基于上下文重组建模的图像编码、解码方法及压缩方法 - Google Patents

基于上下文重组建模的图像编码、解码方法及压缩方法 Download PDF

Info

Publication number
CN113747163B
CN113747163B CN202110940403.4A CN202110940403A CN113747163B CN 113747163 B CN113747163 B CN 113747163B CN 202110940403 A CN202110940403 A CN 202110940403A CN 113747163 B CN113747163 B CN 113747163B
Authority
CN
China
Prior art keywords
feature map
binary code
image
code stream
prior information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110940403.4A
Other languages
English (en)
Other versions
CN113747163A (zh
Inventor
戴文睿
袁亮
李劭辉
李成林
邹君妮
熊红凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202110940403.4A priority Critical patent/CN113747163B/zh
Publication of CN113747163A publication Critical patent/CN113747163A/zh
Application granted granted Critical
Publication of CN113747163B publication Critical patent/CN113747163B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供一种基于上下文重组建模的图像编码、解码方法及压缩方法,其中,采用第一卷积神经网络生成图像的多通道特征图,作为第一特征图;对第一特征图按照通道间相似性分组,重新排列特征通道,输出重组的多通道特征图,作为第二特征图,输出通道索引二进制码流;将第二特征图量化为整数;根据量化后的第二特征图,提取超先验信息,获取超先验信息二进制码流;生成重构超先验信息,利用重构的超先验信息及量化后的第二特征图的上下文信息,获得特征图二进制码流;合并上述三种码流,得到压缩图像二进制码流。本发明可更高效地利用特征图中通道的相关性,通过控制通道分组的组别数在可降低性能的条件下提高编解码效率。

Description

基于上下文重组建模的图像编码、解码方法及压缩方法
技术领域
本发明涉及图像处理技术领域,涉及的是运用三维上下文的端到端图像压缩中实现并行编解码方案,具体地说,是一种基于上下文重组建模的图像编码、解码方法及压缩方法。
背景技术
上下文建模是一种普遍应用于图像压缩的技术,它利用相邻符号的空间相关性进行精确的分布预测和高效的熵编码。在端到端图像压缩中,由于卷积感受野有限,压缩后的特征图也保持了一定的空间相关性。经过对现有技术的文献检索发现,O.Rippel和L.Bourdev在2017年的《International Conference on Machine Learning》(ICML)会议上发表的“Real-Time Adaptive Image Compression”提出了一种聚集显著系数的方法,并在这些系数的二值化位平面上构造了一个上下文模型。G.Toderici在2017年的《IEEEConference on Computer Vision and Pattern Recognition》(CVPR)会议上发表的“FullResolution Image Compression with Recurrent Neural Networks”采用了二维卷积用于提取空间上下文信息和保持解码所需的因果关系。F.Mentzer在2018年的《IEEEConference on Computer Vision and Pattern Recognition》(CVPR)会议上发表的“Conditional Probability Models for Deep Image Compression”设计了一个三维卷积神经网络在提取空间上下文信息的同时来减少信道冗余。
此外,基于变分自编码器的图像压缩方法是目前端到端图像压缩这一领域的主流方法。J.Ballé在2018年的《International Conference on Learning Representation》(ICLR)会议上发表的“Variational Image Compression with a Scale Hyperprior”引入了超先验模型来传送潜在表示的分布。J.Lee在2019年的《International Conference onLearning Representation》(ICLR)上发表的“Context Adaptive Entropy Model forEnd-to-end Optimized Image Compression”将二维上下文模型与超先验模型相结合,提高了端到端图像压缩的率失真性能。D.Minnen和S.Singh在2020年的《InternationalConference on Image Processing》(ICIP)会议上发表的“Channel-wise AutoregressiveEntropy Models for Learned Image Compression”中,提出了基于通道的上下文模型,其中先前解码的通道被视为后一种通道的上下文。然而,由于符号只能按顺序恢复,上下文模型带来了计算复杂度的开销。当使用三维上下文模型时,所需要的编解码时间会大量增加。
发明内容
本发明针对目前应用于图像压缩中上下文模型的不足,提出了一种基于上下文重组建模的图像压缩方法。
本发明的第一方面,提供一种基于上下文重组建模的图像编码方法,包括:
对于待编码的图像,采用第一卷积神经网络生成所述图像的多通道特征图,作为第一特征图;
对所述第一特征图按照通道间相似性分组,并重新排列特征通道,输出重组的多通道特征图,作为第二特征图,并输出通道索引二进制码流;
将所述第二特征图量化为整数,得到量化后的第二特征图;
根据量化后的第二特征图,提取超先验信息,并获取超先验信息二进制码流;
根据所述超先验信息二进制码流生成重构超先验信息,并利用重构的超先验信息及量化后的第二特征图的上下文信息,获得特征图二进制码流;
合并所述通道索引二进制码流、所述超先验信息二进制码流和所述特征图二进制码流,得到压缩图像二进制码流。
可选地,所述根据量化后的第二特征图,提取超先验信息,并获取超先验信息二进制码流,包括:
通过第二卷积神经网络从量化后的第二特征图提取超先验信息;
对所述超先验信息进行量化和算术编码,获得超先验信息二进制码流。
可选地,所述根据所述超先验信息二进制码流生成重构超先验信息,包括:
采用算术解码,从所述超先验信息二进制码流中恢复超先验信息;
通过对应第二卷积神经网络的反卷积神经网络,从恢复的超先验信息中生成重构的超先验信息。
可选地,所述利用重构的超先验信息及量化后的第二特征图的上下文信息,获得特征图二进制码流,包括:
利用重构的超先验信息及量化后的第二特征图的上下文信息,估计用于编码第二特征图的高斯分布均值与方差;
根据所述高斯分布均值与方差对量化后的第二特征图进行算术编码,获得特征图二进制码流。
可选地,对所述第一特征图按照通道间相似性分组,包括:
计算第一特征图的任意两个通道间的相似性,构造相似性矩阵,所述相似性的测度具有对称性且取值在[0,1];
将所述相似性矩阵作为通道间的邻接矩阵来进行谱聚类,对通道进行分组,并记录每个通道的分组索引。
可选地,所述谱聚类,对通道分组的组别数由编解码效率和率失真性能共同决定:在可降低性能的条件下,要求编解码效率越高,则需要设置的组别数越大,且组别数n≥2。
本发明的第二方面,提供一种基于上下文重组建模的图像解码方法,用于对应解码上述方法得到的编码,包括:
分解压缩图像二进制码流,得到通道索引二进制码流、超先验信息二进制码流和特征图二进制码流;
通过算术解码,从所述超先验信息二进制码流中恢复超先验信息;
采用对应第二卷积神经网络的反卷积神经网络,从所述恢复的超先验信息中生成重构的超先验信息;
利用所述重构的超先验信息及渐进恢复的第二特征图的上下文信息,估计用于解码特征图二进制码流所需的高斯分布均值与方差;
根据所述高斯分布均值与方差对特征图二进制码流进行算术解码,得到重构的第二特征图;
利用所述通道索引二进制码流将重构的第二特征图的通道还原到与第一特征图通道顺序一致,获得重构的第一特征图;
用所述重构的第一特征图进行重构,生成重构图像。
本发明的第三方面,提供一种基于上下文重组建模的图像压缩方法,包括:
获取待压缩图像;
基于卷积神经网络对所述图像进行压缩,得到压缩图像二进制码流;
基于卷积神经网络对所述压缩图像二进制码流进行解压缩,得到重构图像;
其中,
采用上述的基于上下文重组建模的图像编码方法实现对所述图像进行压缩;
采用上述的基于上下文重组建模的解码方法实现对所述压缩图像二进制码流进行解压缩。
本发明的第四方面,提供一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现以下任一种方法:
-上述的基于上下文重组建模的编码方法,或,
-上述的基于上下文重组建模的解码方法,或,
-上述的基于上下文重组建模的图像压缩方法。
本发明的第五方面,提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以下任一种方法:
-上述的基于上下文重组建模的编码方法,或,
-上述的基于上下文重组建模的解码方法,或,
-上述的基于上下文重组建模的图像压缩方法。
与现有技术相比,本发明实施例具有如下至少一种有益效果:
本发明上述的基于上下文重组建模的图像编码、解码方法及压缩方法,利用通道间相关性来获得通道维度上的上下文信息,可以更高效地利用特征图中通道的相关性,当使用三维上下文建模时,可以减少编解码时间。
本发明上述的基于上下文重组建模的图像编码、解码方法及压缩方法,可以实现图像压缩中编解码效率和率失真性能两个重要因素的平衡,通过控制通道分组的组别数在可降低性能的条件下提高编解码效率,因此提升了压缩结构的灵活性和可扩展性。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一较优实施例中图像编码方法的流程图;
图2为本发明一较优实施例中图像解码方法的流程图;
图3为本发明一较优实施例中基于上下文重组建模的图像压缩方法流程图;
图4为本发明一较优实施例中基于上下文重组建模的图像压缩系统流程图;
图5为本发明一较优实施例中上下文重组建模模块的流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
目前应用于图像压缩中上下文模型存在不足:当使用二维上下文建模时,不能利用通道间相关性来获得通道维度上的上下文信息,当使用三维上下文建模时,由于序列的因果性只能在通道间串行地编码,导致所需编解码时间过长。针对于此,本发明实施例提出一种基于上下文重组建模的图像编码、解码以及压缩技术,能够很好解决上述问题,同时可以更高效地利用特征图中通道的相关性,并且进一步可以实现图像压缩中编解码效率和率失真性能两个重要因素的平衡。
图1为本发明一实施例中图像编码方法的流程图。参照图1所示,本实施例中基于上下文重组建模的图像编码方法,包括:
S210:特征图提取:输入图像通过第一卷积神经网络,生成图像的多通道特征图,作为第一特征图;
S220:特征通道重组:对S210生成地第一特征图按照通道间相似性分组,并重新排列特征通道,输出重组的多通道特征图,作为第二特征图,并输出通道索引二进制码流;
S230:均匀量化:将S220生成的第二特征图量化为整数;
S240:超先验信息编码:通过第二卷积神经网络从S220生成的第二特征图提取超先验信息,并对超先验信息进行量化和算术编码,获得超先验信息二进制码流;
S250:超先验信息解码:对S240产生的超先验信息二进制码流进行算术解码;
S260:超先验信息重构:通过对应第二卷积神经网络的反卷积神经网络,由S250生成的算术解码结果重构出超先验信息;
S270:上下文重组建模:对S230在均匀量化后的第二特征图进行上下文重组建模。具体的,如图5所示,上下文重组建模包括:
S271:上下文信息提取模块:提取S230经均匀量化后的第二特征图的上下文信息;
S272:熵编码分布估计模块:利用S260得到的超先验信息及S271得到的上下文信息估计用于编码第二特征图所需的高斯分布均值与方差;
S280:特征图编码模块:根据S272生成的编码高斯分布对S230经均匀量化的第二特征图进行算术编码,获得特征图二进制码流;
S290:合并S220产生的通道索引二进制码流、S240产生的超先验信息二进制码流和S280产生的特征图二进制码流,得到压缩图像二进制码流。
本实施例的图像编码方法,利用通道间相关性来获得通道维度上的上下文信息,可以更高效地利用特征图中通道的相关性,当使用三维上下文建模时,可以减少编解码时间。
在上述图1所示的实施例的基础上,在另一实施例中,还对应提供一种基于上下文重组建模的图像编码系统,该系统包括:
特征图提取模块:输入图像通过第一卷积神经网络,生成图像的多通道特征图,作为第一特征图;
特征通道重组模块:对生成地第一特征图按照通道间相似性分组,并重新排列特征通道,输出重组的多通道特征图,作为第二特征图,并输出通道索引二进制码流;
均匀量化模块:将生成的第二特征图量化为整数;
超先验信息编码模块:通过第二卷积神经网络从生成的第二特征图提取超先验信息,并对所述超先验信息进行量化和算术编码,获得超先验信息二进制码流;
第一超先验信息解码模块:对产生的超先验信息二进制码流进行算术解码;
第一超先验信息重构模块:通过对应第二卷积神经网络的反卷积神经网络,由生成的算术解码结果重构出超先验信息;
第一上下文重组建模模块:对均匀量化后的第二特征图进行上下文重组建模;其中,上下文重组建模模块进一步包括:
第一上下文信息提取模块:提取经均匀量化后的第二特征图的上下文信息;
第一熵编码分布估计模块:利用得到的超先验信息及得到的上下文信息估计用于编码第二特征图所需的高斯分布均值与方差;
特征图编码模块:根据生成的编码高斯分布对经均匀量化的第二特征图进行算术编码,获得特征图二进制码流;
合并产生的通道索引二进制码流、超先验信息二进制码流和特征图二进制码流,得到压缩图像二进制码流。
图2为本发明一较优实施例中图像解码方法的流程图。参照图2所示,基于上下文重组建模的图像解码方法,包括:
S310:码流分解:分解压缩图像二进制码流,得到通道索引二进制码流、超先验信息二进制码流和特征图二进制码流;
S320:超先验信息解码:该与S250完全相同,对S310产生的超先验信息二进制码流进行算术解码;
S330:超先验信息重构:该与S260完全相同,通过对应第二卷积神经网络的反卷积神经网络,从S320生成的算术解码结果重构超先验信息;
S340:上下文重组建模:该与S270完全相同,对渐进恢复的第二特征图进行上下文重组建模。
具体的,如图5所示,上下文重组建模包括:
S341:上下文信息提取:该与S271完全相同,提取渐进恢复的第二特征图的上下文信息;
S342:熵编码分布估计:该与S272完全相同,利用S330得到的超先验信息和S341得到的上下文信息估计用于编码第二特征图所需的高斯分布均值与方差;
S350:特征图解码:根据S342产生的高斯分布对S310产生的特征图二进制码流进行算术解码;
S360:特征通道复原:利用S310恢复的通道索引二进制码流将S350解码得到的第二特征图的通道还原到与第一特征图通道顺序一致,获得重构的第一特征图;
S370:图像重构:将所述重构的第一特征图通过对应第一卷积神经网络的反卷积神经网络,获得重构图像。
本实施例的解码方法用于对应图1所示的编码方法,同样的,因为利用通道间相关性来获得通道维度上的上下文信息,可以更高效地利用特征图中通道的相关性,当使用三维上下文建模时,可以减少编解码时间。
在上述图2所示的实施例的基础上,在另一实施例中,还对应提供一种基于上下文重组建模的图像解码系统,该系统包括:
码流分解模块:分解压缩图像二进制码流,得到通道索引二进制码流、超先验信息二进制码流和特征图二进制码流;
第二超先验信息解码模块:该模块与第一超先验信息解码模块完全相同,对产生的超先验信息二进制码流进行算术解码;
第二超先验信息重构模块:该模块与第一超先验信息重构模块完全相同,通过对应第二卷积神经网络的反卷积神经网络,从生成的算术解码结果重构超先验信息;
第二上下文重组建模模块:该模块与第一上下文重组建模模块完全相同,对渐进恢复的第二特征图进行上下文重组建模。具体的,上下文重组建模模块进一步包括:
第二上下文信息提取模块:该模块与第一上下文信息提取模块完全相同,提取渐进恢复的第二特征图的上下文信息;
第二熵编码分布估计模块:该模块与第一熵编码分布估计模块完全相同,利用得到的超先验信息和得到的上下文信息估计用于编码第二特征图所需的高斯分布均值与方差;
特征图解码模块:根据产生的高斯分布对产生的特征图二进制码流进行算术解码;
特征通道复原模块:利用恢复的通道索引二进制码流将解码得到的第二特征图的通道还原到与第一特征图通道顺序一致,获得重构的第一特征图;
图像重构模块:将所述重构的第一特征图通过对应第一卷积神经网络的反卷积神经网络,获得重构图像。
上述实施例中,第二上下文信息提取模块提取渐进恢复的第二特征图的上下文信息,其中渐进恢复指第二特征图中的特征是按照扫描顺序逐个重构的。具体地,对于每个通道分组,按照通道索引以及每个通道中从左上到右下的顺序扫描特征图中的特征。
在上述图1、图2所示实施例基础上,为了更好实现特征通道重组,在另一实施例中,可以优选采用以下操作:计算重组特征图的任意两个通道间的相似性,构造相似性矩阵,其中相似性的测度具有对称性且取值在[0,1],包括但不限于对称Kullback-Leibler(KL)散度;将上述相似性矩阵作为通道间的邻接矩阵来进行谱聚类,对通道进行分组,并记录每个通道的分组索引。进一步的,优选实施例中,谱聚类对通道分组的组别数由编解码效率和率失真性能共同决定:在可降低性能的条件下要求编解码效率越高,则需要设置的组别数越大,且组别数n≥2。通过该操作,可以实现图像压缩中编解码效率和率失真性能两个重要因素的平衡,通过控制通道分组的组别数在可降低性能的条件下提高编解码效率。
在上述图1、图2所示实施例基础上,为了更好实现S340-S370,在另一实施例中,可以优选采用以下对应的操作:
上下文信息提取:提取特征图在通道维度上的上下文信息;
超先验信息提取:提取特征图在空间维度上的边信息,作为超先验信息;
熵编码分布估计:融合上下文信息和超先验信息,估计用于编码的高斯分布的均值和方差,并将其输出到算术编码。
图3为本发明一较优实施例中基于上下文重组建模的图像压缩方法流程图。参照图3所示,本实施例中基于上下文重组建模的图像压缩方法,包括:
S100,获取待压缩图像;
S200,基于卷积神经网络对图像进行压缩,得到压缩图像二进制码流;其中,采用上述的基于上下文重组建模的图像编码方法实现对图像进行压缩;具体的,S200可以采用图1所示的S210-S270来实现;
S300,基于卷积神经网络对压缩图像二进制码流进行解压缩,得到重构图像;其中,采用上述的基于上下文重组建模的解码方法实现对压缩图像二进制码流进行解压缩,具体的,即可以采用图2所示的S310-S370来实现。
在另一优选实施例中,在上述实施例基础上,进一步包括图像压缩模型的训练。压缩模型经过训练,学习得到编码器和解码器,随后用于实际的编解码。具体的,包括:
构造熵估计:根据构造分布,估计带噪的超先验信息编码所需码率LBPP-H
条件熵估计:根据高斯分布均值与方差,估计特征图编码所需码率LBPP-F
利用训练数据集,采用反向梯度传播算法学习深度网络模型;训练数据集中图像重构误差的均方误差其中,N为训练数据集中信号的数目,xi为训练数据集中第i幅图像,/>为第i幅图像的重构图像;将深度网络模型的损失函数定义为L=λ·LMSE+LBPP-H+LBPP-F,其中λ为重构误差与码率间的权重系数,可以用于调节图像压缩模型的目标码率;
将训练获得的深度网络模型作为图像压缩模型,用于图像压缩。
本实施例中,深度神经网络指从训练图像输入到输出重构图像的整个网络,即包括对应上述编解码方法的全部步骤的整个图像压缩模型。
本发明实施例提供的上述基于上下文重组建模的图像压缩方法中,利用通道间相关性来获得通道维度上的上下文信息,可以更高效地利用特征图中通道的相关性,当使用三维上下文建模时,可以减少编解码时间。进一步的,可以实现图像压缩中编解码效率和率失真性能两个重要因素的平衡,通过控制通道分组的组别数在可降低性能的条件下提高编解码效率,因此提升了压缩结构的灵活性和可扩展性。
在其他实施例中,本发明还提供一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现以下任一种方法:
-上述实施例中的基于上下文重组建模的编码方法,或,
-上述实施例中的基于上下文重组建模的解码方法,或,
-上述实施例中的基于上下文重组建模的图像压缩方法。
在其他实施例中,本发明还提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以下任一种方法:
-上述实施例中的基于上下文重组建模的编码方法,或,
-上述实施例中的基于上下文重组建模的解码方法,或,
-上述实施例中的基于上下文重组建模的图像压缩方法。
为了更好理解本发明上述的技术方案,在另一实施例中,利用本发明实施例提供的基于上下文重组建模的图像压缩方法,结合Flicker数据集对图像压缩系统进行训练,具体实施步骤为:
步骤一,特征图提取:将Flicker数据集中的图片裁剪成256×256的图像,将其输入第一卷积神经网络得到多通道特征图作为第一特征图。
步骤二,特征通道重组:对于第一特征图按照通道间的相似性分组。首先计算第一特征图中任意两个通道间的对称Kullback-Leibler散度,得到相似性矩阵D表示为:
其中C代表第一特征图的通道总数,vi代表第i个通道。为第i个通道和第j个通道的对称Kullback-Leibler散度(SKLD),且/>
得到通道间的相似度矩阵D后,将D作为特征图通道间的邻接矩阵,利用谱聚类对通道进行分组并重新排列特征通道,得到重组的多通道特征图,作为第二特征图,并编码通道索引,生成通道索引二进制码流。
本实施例中,谱聚类对通道分组的组别数由编解码效率和率失真性能共同决定:在可降低性能的条件下要求编码效率越高,则所需要设置的组别数越大,且组别数n≥2,经过谱聚类分组后得到G1,G2…Gn-1,Gn一共n组组内相似程度高,组间相似程度低的通道集合。
步骤三,特征可导量化:对于第二特征图,通过添加均匀噪声的方式模拟量化,生成带噪的第二特征图。
步骤四,特征通道复原:对带噪的第二特征图进行通道重排,复原为原第一特征图的排列顺序,得到重构的第一特征图。
步骤五,图像重构:将所述重构的第一特征图通过对应第一卷积神经网络的反卷积神经网络,获得重构图像。
步骤六,超先验信息提取:将所述第二特征图通过第二卷积神经网络,得到超先验信息。
步骤七,超先验可导量化:对于超先验信息,通过添加均匀噪声的方式模拟量化,生成带噪的超先验信息。
步骤八,超先验信息重构:将所述带噪的超先验信息通过对应第二卷积神经网络的反卷积神经网络,得到重构的超先验信息。
步骤九,上下文重组建模:利用所述重构的超先验信息及所述带噪的第二特征图中的局部信息,估计用于熵编码的高斯分布均值与方差。
本实施例中,提取第二特征图中的局部信息时采用的三维掩码卷积大小不能超过G1,G2…Gn-1,Gn这一组通道集合中的最小通道数,且小于11×11×11。
步骤十,构造熵估计:根据构造分布,估计带噪的超先验信息编码所需码率LBPP-H
步骤十一,条件熵估计:根据所述高斯分布均值与方差,估计特征图编码所需码率LBPP-F
步骤十二,模型训练:利用训练数据集,采用反向梯度传播算法学习所述深度网络模型;训练数据集中图像重构误差的均方误差其中,N为训练数据集中信号的数目,xi为训练数据集中第i幅图像,/>为所述第i幅图像的重构图像;将所述深度网络模型的损失函数定义为L=λ·LMSE+LBPP-H+LBPP-F,其中λ为重构误差与码率间的权重系数,可以用于调节图像压缩模型的目标码率;
将训练获得的深度网络模型用于图像压缩系统且作用于以下实施例中的图像编码和解码方法中。
具体的,在一图像编码方法实施例中,利用上述训练得到的图像压缩系统中的图像编码器对Kodak测试集图像进行压缩,得到压缩图像的二进制码流,具体实施步骤为:
步骤一,特征图提取:输入Kodak测试集图像,通过第一卷积神经网络生成图像的多通道特征图,作为第一特征图。
步骤二,特征通道重组:对步骤一生成的第一特征图按照通道间相似性分组,并重新排列特征通道,输出重组的多通道特征图,作为第二特征图,并输出通道索引二进制码流。
步骤三,均匀量化:将第二特征图进行均匀量化为整数。
步骤四,超先验信息编码:通过第二卷积神经网络提取第二特征图的超先验信息,并对所述超先验信息进行量化和算术编码,获得超先验信息二进制码流。
步骤五,超先验信息解码:对步骤四中生成的超先验信息二进制码流进行算术解码。
步骤六,超先验信息重构:通过对应第二卷积神经网络的反卷积神经网络,由步骤五生成的算术解码结果重构出超先验信息。
步骤七,上下文重组建模:提取步骤三经均匀量化后的第二特征图的上下文信息,并结合步骤六重构的超先验信息估计用于编码第二特征图所需的高斯分布均值与方差。
步骤八:特征图编码:根据步骤七生成的高斯分布对步骤三经均匀量化的第二特征图进行算术编码,获得特征图二进制码流。
步骤九:码流合成:合并步骤二产生的通道索引二进制码流、步骤四产生的超先验信息二进制码流和步骤八产生的特征图二进制码流,得到压缩图像二进制码流。
具体的,在另一图像解码方法实施例中,利用上述训练得到的图像压缩系统中的图像解码器,对压缩Kodak测试集图像产生的二进制码流进行解压缩,得到重构图像,具体实施步骤为:
步骤一,码流分解:分解压缩Kodak测试集图像产生的二进制码流,得到通道索引二进制码流、超先验信息二进制码流和特征图二进制码流。
步骤二,超先验信息解码:对步骤一得到的超先验信息二进制码流进行算术解码。
步骤三,超先验信息重构:通过对应第二卷积神经网络的反卷积神经网络,从步骤二生成的算术解码结果得到重构的超先验信息。
步骤四,上下文重组建模:提取渐进恢复的第二特征图的上下文信息并结合步骤三重构的超先验信息估计用于编码第二特征图所需的高斯分布均值与方差。
步骤五,特征图解码:根据步骤四产生的高斯分布对步骤一产生的特征图二进制码流进行算术解码。
步骤六,特征通道复原:利用步骤一恢复的通道索引二进制码流将步骤五解码得到的第二特征图的通道还原到与第一特征图通道顺序一致,获得重构的第一特征图。
步骤七,图像重构:将所述重构的第一特征图通过对应第一卷积神经网络的反卷积神经网络,获得重构图像。
实施效果:
在上述实施例中,利用本发明提供的基于上下文重组建模的图像压缩方法,结合Flicker数据集对图像压缩系统进行训练,设置谱聚类对通道分组的组别数分别为2和4,损失函数中的重构误差与码率间的权重系数λ设置为1024,使用Adam优化器首先在学习率为10-4下训练2000000步,接着降低学习率至10-5训练500000步后,模型收敛,停止训练。
在上述实施例中,利用训练得到的图像压缩系统中的图像编码器对Kodak测试集中的24张图片进行压缩,当谱聚类对通道分组的组别数设置为2时,产生通道索引二进制码流、超先验信息二进制码流和特征图二进制码流,三者码率和的平均值为0.4954bpp。当谱聚类对通道分组的组别数设置为4时,三者码率和的平均值为0.5039bpp。
在上述实施例中,利用训练得到的图像压缩系统中的图像解码器,对压缩Kodak测试集24张图片产生的二进制码流进行解压缩,得到重构图像。当谱聚类对通道分组的组别数设置为2时,重构出的24张图片的平均峰值信噪比(PSNR)为33.5455。当谱聚类对通道分组的组别数设置为4时,重构出的24张图片的平均峰值信噪比为33.5212。
此外,相较于不进行通道分组直接对特征图使用三维上下文建模,本发明提供的基于上下文重组建模的图像压缩方法所需要的编解码时间也大幅减少。具体来说。当谱聚类分组的组别数分别设置为2和4时,实施例2和实施例3所需要的编解码时间可以分别节省26.76%和50.75%。因此可以根据实际要求通过设置不同的谱聚类组别数来平衡编解码效率和率失真性能。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (10)

1.一种基于上下文重组建模的图像编码方法,其特征在于,包括:
对于待编码的图像,采用第一卷积神经网络生成所述图像的多通道特征图,作为第一特征图;
对所述第一特征图按照通道间相似性分组,并重新排列特征通道,输出重组的多通道特征图,作为第二特征图,并输出通道索引二进制码流;
将所述第二特征图量化为整数,得到量化后的第二特征图;
根据量化后的第二特征图,提取超先验信息,并获取超先验信息二进制码流;
根据所述超先验信息二进制码流生成重构超先验信息,并利用重构的超先验信息及量化后的第二特征图的上下文信息,获得特征图二进制码流;
合并所述通道索引二进制码流、所述超先验信息二进制码流和所述特征图二进制码流,得到压缩图像二进制码流。
2.根据权利要求1所述的基于上下文重组建模的图像编码方法,其特征在于,所述根据量化后的第二特征图,提取超先验信息,并获取超先验信息二进制码流,包括:
通过第二卷积神经网络从量化后的第二特征图提取超先验信息;
对所述超先验信息进行量化和算术编码,获得超先验信息二进制码流。
3.根据权利要求1所述的基于上下文重组建模的图像编码方法,其特征在于,所述根据所述超先验信息二进制码流生成重构超先验信息,包括:
采用算术解码,从所述超先验信息二进制码流中恢复超先验信息;
通过对应第二卷积神经网络的反卷积神经网络,从恢复的超先验信息中生成重构的超先验信息。
4.根据权利要求3所述的基于上下文重组建模的图像编码方法,其特征在于,所述利用重构的超先验信息及量化后的第二特征图的上下文信息,获得特征图二进制码流,包括:
利用重构的超先验信息及量化后的第二特征图的上下文信息,估计用于编码第二特征图的高斯分布均值与方差;
根据所述高斯分布均值与方差对量化后的第二特征图进行算术编码,获得特征图二进制码流。
5.根据权利要求1所述的基于上下文重组建模的图像编码方法,其特征在于,对所述第一特征图按照通道间相似性分组,包括:
计算第一特征图的任意两个通道间的相似性,构造相似性矩阵,所述相似性的测度具有对称性且取值在[0,1];
将所述相似性矩阵作为通道间的邻接矩阵来进行谱聚类,对通道进行分组,并记录每个通道的分组索引。
6.根据权利要求5所述的基于上下文重组建模的图像编码方法,其特征在于,所述谱聚类,对通道分组的组别数由编解码效率和率失真性能共同决定:在可降低性能的条件下,要求编解码效率越高,则需要设置的组别数越大,且组别数n≥2。
7.一种基于上下文重组建模的图像解码方法,用于对应解码权利要求1-6任一项的编码,其特征在于,包括:
分解压缩图像二进制码流,得到通道索引二进制码流、超先验信息二进制码流和特征图二进制码流;
通过算术解码,从所述超先验信息二进制码流中恢复超先验信息;
采用对应第二卷积神经网络的反卷积神经网络,从所述恢复的超先验信息中生成重构的超先验信息;
利用所述重构的超先验信息及渐进恢复的第二特征图的上下文信息,估计用于解码特征图二进制码流所需的高斯分布均值与方差;
根据所述高斯分布均值与方差对特征图二进制码流进行算术解码,得到重构的第二特征图;
利用所述通道索引二进制码流将重构的第二特征图的通道还原到与第一特征图通道顺序一致,获得重构的第一特征图;
用所述重构的第一特征图进行重构,生成重构图像。
8.一种基于上下文重组建模的图像压缩方法,其特征在于,包括:
获取待压缩图像;
基于卷积神经网络对所述图像进行压缩,得到压缩图像二进制码流;
基于卷积神经网络对所述压缩图像二进制码流进行解压缩,得到重构图像;
其中,
采用权利要求1-6任一项所述图像编码方法实现对所述图像进行压缩;
采用权利要求7所述解码方法实现对所述压缩图像二进制码流进行解压缩。
9.一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,其特征在于,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现以下任一种方法:
-权利要求1-6任一项所述的编码方法,或,
-权利要求7所述的解码方法,或,
-权利要求8所述的图像压缩方法。
10.一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,其特征在于,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以下任一种方法:
-权利要求1-6任一项所述的编码方法,或,
-权利要求7所述的解码方法,或,
-权利要求8所述的图像压缩方法。
CN202110940403.4A 2021-08-17 2021-08-17 基于上下文重组建模的图像编码、解码方法及压缩方法 Active CN113747163B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110940403.4A CN113747163B (zh) 2021-08-17 2021-08-17 基于上下文重组建模的图像编码、解码方法及压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110940403.4A CN113747163B (zh) 2021-08-17 2021-08-17 基于上下文重组建模的图像编码、解码方法及压缩方法

Publications (2)

Publication Number Publication Date
CN113747163A CN113747163A (zh) 2021-12-03
CN113747163B true CN113747163B (zh) 2023-09-26

Family

ID=78731366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110940403.4A Active CN113747163B (zh) 2021-08-17 2021-08-17 基于上下文重组建模的图像编码、解码方法及压缩方法

Country Status (1)

Country Link
CN (1) CN113747163B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114501034B (zh) * 2021-12-11 2023-08-04 同济大学 基于离散高斯混合超先验和Mask的图像压缩方法及介质
CN114501011B (zh) * 2022-02-22 2023-04-21 北京市商汤科技开发有限公司 图像压缩方法、图像解压缩方法及装置
CN117294854A (zh) * 2022-06-20 2023-12-26 华为技术有限公司 一种图像编码、解码方法及编码、解码装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105676156A (zh) * 2015-12-31 2016-06-15 深圳先进技术研究院 一种基于多通道协作编码的磁共振成像重建方法和装置
CN111009018A (zh) * 2019-12-24 2020-04-14 苏州天必佑科技有限公司 基于深度神经网络的图像降维和重建方法
CN111787323A (zh) * 2020-05-23 2020-10-16 清华大学 一种基于对抗学习的可变比特率生成式压缩方法
CN111868753A (zh) * 2018-07-20 2020-10-30 谷歌有限责任公司 使用条件熵模型的数据压缩
CN112866694A (zh) * 2020-12-31 2021-05-28 杭州电子科技大学 联合非对称卷积块和条件上下文的智能图像压缩优化方法
CN112911288A (zh) * 2019-12-03 2021-06-04 杭州海康威视数字技术股份有限公司 解码方法、编码方法、装置及设备
CN113259676A (zh) * 2020-02-10 2021-08-13 北京大学 一种基于深度学习的图像压缩方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10412414B2 (en) * 2012-08-13 2019-09-10 Gurulogic Microsystems Oy Decoder and method for decoding encoded input data containing a plurality of blocks or packets
KR102412007B1 (ko) * 2017-07-20 2022-06-22 삼성전자주식회사 전자 장치 및 전자 장치에서 하이 다이나믹 레인지 이미지 데이터를 압축하는 방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105676156A (zh) * 2015-12-31 2016-06-15 深圳先进技术研究院 一种基于多通道协作编码的磁共振成像重建方法和装置
CN111868753A (zh) * 2018-07-20 2020-10-30 谷歌有限责任公司 使用条件熵模型的数据压缩
CN112911288A (zh) * 2019-12-03 2021-06-04 杭州海康威视数字技术股份有限公司 解码方法、编码方法、装置及设备
CN111009018A (zh) * 2019-12-24 2020-04-14 苏州天必佑科技有限公司 基于深度神经网络的图像降维和重建方法
CN113259676A (zh) * 2020-02-10 2021-08-13 北京大学 一种基于深度学习的图像压缩方法和装置
CN111787323A (zh) * 2020-05-23 2020-10-16 清华大学 一种基于对抗学习的可变比特率生成式压缩方法
CN112866694A (zh) * 2020-12-31 2021-05-28 杭州电子科技大学 联合非对称卷积块和条件上下文的智能图像压缩优化方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A Cross Channel Context Model for Latents in Deep Image Compression;Changyue Ma等;arXiv;全文 *
Channel-wise Autoregressive Entropy Models for Learned Image Compression;S.Singh等;International Conference on Image Processing;全文 *
Learned Image Compression with Discretized Gaussian Mixture Likelihoods and Attention Modules;Zhengxue Cheng等;2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR);全文 *
Spatial-Channel Context-Based Entropy Modeling for End-to-end Optimized Image Compression;Chongxin Li等;Proceedings of the 2020 IEEE International Conference on Visual Communications and Image Processing (VCIP);全文 *
多模态融合的高分遥感图像语义分割方法;李万琦;李克俭;陈少波;;中南民族大学学报(自然科学版)(第04期);全文 *

Also Published As

Publication number Publication date
CN113747163A (zh) 2021-12-03

Similar Documents

Publication Publication Date Title
CN113747163B (zh) 基于上下文重组建模的图像编码、解码方法及压缩方法
CN109889839B (zh) 基于深度学习的感兴趣区域图像编码、解码系统及方法
CN111641832B (zh) 编码方法、解码方法、装置、电子设备及存储介质
CN109451308B (zh) 视频压缩处理方法及装置、电子设备及存储介质
CN111641826B (zh) 对数据进行编码、解码的方法、装置与系统
CN111246206B (zh) 一种基于自编码器的光流信息压缩方法及装置
CN113079378B (zh) 图像处理方法、装置和电子设备
Zebang et al. Densely connected AutoEncoders for image compression
CN116939226A (zh) 一种面向低码率图像压缩的生成式残差修复方法及装置
CN117354523A (zh) 一种频域特征感知学习的图像编码、解码、压缩方法
Ranjbar Alvar et al. Joint image compression and denoising via latent-space scalability
CN110677644B (zh) 一种视频编码、解码方法及视频编码帧内预测器
CN101467459B (zh) 信号的矢量量化字典生成方法、编解码器及编解码方法
CN112702600B (zh) 一种图像编解码神经网络分层定点化方法
CN107231556B (zh) 一种图像云储存设备
Yadav et al. Flow-MotionNet: A neural network based video compression architecture
CN115393452A (zh) 一种基于非对称自编码器结构的点云几何压缩方法
CN114882133B (zh) 一种图像编解码方法、系统、设备及介质
CN117750021B (zh) 一种视频压缩方法、装置、计算机设备及存储介质
CN114663536B (zh) 一种图像压缩方法及装置
WO2024084660A1 (ja) 画像符号化装置、画像復号装置、画像処理システム、モデル学習装置、画像符号化方法、画像復号方法、および、コンピュータ可読記憶媒体
CN111565314A (zh) 图像压缩方法、编解码网络训练方法、装置及电子设备
CN117915107B (zh) 图像压缩系统、图像压缩方法、存储介质与芯片
US20230239470A1 (en) Video encoding and decoding methods, encoder, decoder, and storage medium
Iliopoulou et al. Learned Image Compression with Wavelet Preprocessing for Low Bit Rates

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant