CN115086673A - 一种多码率与快速熵模型计算的图像编解码方法及装置 - Google Patents
一种多码率与快速熵模型计算的图像编解码方法及装置 Download PDFInfo
- Publication number
- CN115086673A CN115086673A CN202210509904.1A CN202210509904A CN115086673A CN 115086673 A CN115086673 A CN 115086673A CN 202210509904 A CN202210509904 A CN 202210509904A CN 115086673 A CN115086673 A CN 115086673A
- Authority
- CN
- China
- Prior art keywords
- decoding
- entropy
- features
- feature
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012821 model calculation Methods 0.000 title claims abstract description 18
- 238000004458 analytical method Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 16
- 230000009466 transformation Effects 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 238000009826 distribution Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 6
- 238000013139 quantization Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- -1 carrier Substances 0.000 description 1
- 239000000306 component Substances 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000002910 structure generation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/91—Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种多码率与快速熵模型计算的图像编解码方法及装置,本发明通过空间打乱上下文模型,可以利用空间上相邻特征相似度较高的先验,从通道与空间方向对特征进行重新排列,从而获得更多的先验信息,且特征总计只需要1次编码,2次解码,时间复杂度为O(1),可见,时间复杂度远低于现有的自回归模型,可以提升编解码效率;同时,通过多码率模块进行多码率控制,还可以有效的控制码率范围。此外,通过熵参数估计模型融合超先验信息与上下文特征两部分先验信息,且支持添加ResBlock及下采样方式,能够进一步增大网络感受野,得到更好性能。
Description
技术领域
本发明涉及图像编解码技术领域,尤其涉及一种多码率与快速熵模型计算的图像编解码方法及装置。
背景技术
目前的AI图像编解码算法,主要通过一个AutoEncoder(自编码器)网络来实现。具体来说,编码阶段,输入原始图像,通过卷积下采样及非线性激活函数,将图像变换到高维抽象特征空间,获得特征F,接着通过概率模型P,估计该特征F的预测概率用于熵编码;解码阶段,通过概率模型P计算特征的预测概率用于熵解码,之后将解码特征F送入一个上采样网络,得到解码重建图像。
上述概率模型P建模越精确,压缩后的图像码率越小,所以优秀的概率模型设计非常关键。近两年出现了自回归模型(PixelCNN Context Model),利用已编码特征先验,进行上下文建模。图1展示了现有的自回归模型进行上下文建模的原理。对于特征F,白色部分为待编码特征值,虚线框外的灰色部分为已编码特征值。虚线框为一个3*3的Mask卷积,沿着每个特征点进行滑动,其中最深颜色块为下一次即将编码特征值,上方灰色特征块为编码该特征值利用到的先验信息。
通过自回归模型可以利用更多先验信息,可以减少待编码特征信息熵。但是,现有的自回归模型在推理时需要串行解码,时间复杂度为O(N2),可见,其时间复杂度较高,编解码的效率较低,不利于实际部署。
发明内容
本发明的目的是提供一种多码率与快速熵模型计算的图像编解码方法及装置,时间复杂度较低,可以提升编解码效率,并能够有效的控制码率范围。
本发明的目的是通过以下技术方案实现的:
一种多码率与快速熵模型计算的图像编解码方法,包括:
搭建包含分析网络、生成网络、多码率模块、超先验模型、空间打乱上下文模型及熵参数估计模型的图像编解码网络;
输入图像通过所述分析网络获得图像特征F,再经前端的多码率模块进行码率变换获得特征f;
所述特征f输入至所述超先验模型,获得超先验信息;
将所述特征f量化得到的待编码特征输入至空间打乱上下文模型与熵参数估计模型,由所述空间打乱上下文模型将所述待编码特征分解为多个部分,其中一部分特征由所述熵参数估计模型结合所述超先验信息进行无损熵编码与无损熵解码,由所述空间打乱上下文模型将无损熵解码得到的特征作为先验信息,从通道以及空间方向上进行重新排列,获得上下文特征,再由所述熵参数估计模型结合上下文特征与超先验信息对待编码特征中剩余部分的特征进行无损熵编码与无损熵解码,最终获得解码特征;
所述解码特征输入至后端的多码率模块进行码率逆变换,再通过生成网络对特征进行变换,获得重建图像。
一种多码率与快速熵模型计算的图像编解码装置,该装置包括:
网络搭建单元,用于搭建包含分析网络、生成网络、多码率模块、超先验模型、空间打乱上下文模型及熵参数估计模型的图像编解码网络;
图像编解码单元,用于接收输入图像,并利用所述图像编解码网络实现图像编解码,包括:输入图像通过所述分析网络获得图像特征F,再经前端的多码率模块进行码率变换获得特征f;所述特征f输入至所述超先验模型,获得超先验信息;将特征f量化得到的待编码特征输入至空间打乱上下文模型与熵参数估计模型,由所述空间打乱上下文模型将所述待编码特征分解为多个部分,其中一部分特征由所述熵参数估计模型结合所述超先验信息进行无损熵编码与无损熵解码,由所述空间打乱上下文模型将无损熵解码得到的特征作为先验信息,从通道以及空间方向上进行重新排列,获得上下文特征,再由所述熵参数估计模型结合上下文特征与超先验信息对待编码特征中剩余部分的特征进行无损熵编码与无损熵解码,最终获得解码特征;所述解码特征y输入至后端的多码率模块进行码率逆变换,再通过生成网络对特征进行变换,获得重建图像。
一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
由上述本发明提供的技术方案可以看出,一方面,通过空间打乱上下文模型,可以利用空间上相邻特征相似度较高的先验,从通道与空间方向对特征进行重新排列,从而获得更多的先验信息,且时间复杂度较低,可见,时间复杂度远低于现有的自回归模型,可以提升编解码效率;另一方面,通过多码率模块进行多码率控制,可以有效的控制码率范围。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明背景技术提供的现有的自回归模型进行上下文建模的原理图;
图2为本发明实施例提供的一种多码率与快速熵模型计算的图像编解码方法的流程图;
图3为本发明实施例提供的基于本发明图像编解码网络进行图像编解码的示意图;
图4为本发明实施例提供的超先验模型的示意图;
图5为本发明实施例提供的空间打乱熵模型算法原理图;
图6为本发明实施例提供的空间打乱熵模型算法的流程图;
图7为本发明实施例提供的熵参数估计模型的示意图;
图8为本发明实施例提供的一种拓展的空间打乱熵模型算法原理图;
图9为本发明实施例提供的一种多码率与快速熵模型计算的图像编解码装置的示意图;
图10为本发明实施例提供的一种处理设备的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
下面对本发明所提供的一种多码率与快速熵模型计算的图像编解码方法及装置进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
实施例一
本发明实施例提供一种多码率与快速熵模型计算的图像编解码方法,如图2所示,其主要包括如下步骤:
步骤1、搭建包含分析网络(Analysis)、生成网络(Synthesis)、多码率模块、超先验模型、空间打乱上下文模型及熵参数估计模型的图像编解码网络。
步骤2、输入图像通过所述分析网络获得图像特征F,再经前端的多码率模块进行码率变换获得特征f。
步骤3、所述特征f输入至所述超先验模型,获得超先验信息。
步骤4、将所述特征f量化得到的待编码特征输入至空间打乱上下文模型与熵参数估计模型,由所述空间打乱上下文模型将所述待编码特征分解为多个部分,其中一部分特征由所述熵参数估计模型结合所述超先验信息进行无损熵编码与无损熵解码,由所述空间打乱上下文模型将无损熵解码得到的特征作为先验信息,从通道以及空间方向上进行重新排列,获得上下文特征,再由所述熵参数估计模型结合上下文特征与超先验信息对待编码特征中剩余部分的特征进行无损熵编码与无损熵解码,最终获得解码特征。
步骤5、所述解码特征输入至后端的多码率模块进行码率逆变换,再通过生成网络对特征进行变换,获得重建图像。
图3展示了本发明搭建的图像编解码网络的主要结构,以及进行图像编解码的主要流程;左右两个Qunit(全称为Quality unit)分别表示前端的多码率模块与后端的多码率模块,它们都采用一种多码率控制策略,仅需一个变量便可完美控制码率范围(0.05bpp~1.5bpp)。中间部分的Q表示量化操作,Hyper Prior表示超先验模型,Space Shuffle表示空间打乱上下文模型(Space Shuffle Context model)执行的空间打乱熵模型算法,P(enpara)表示熵参数估计模型。如之前步骤5所述,熵编码与熵解码都是无损的,因此,熵编码之前的特征(即待编码特征)与熵解码之后的特征(即解码特征)是完全相同的特征,即图3中的特征y。此外,图3展示的处理流程包含了训练与测试两个阶段的流程,在训练阶段不需要实际的熵编码、熵解码,只需要得到码率估计结果即可。因此,训练阶段,在步骤4量化得到的待编码特征y后仅进行码率估计,接着可以直接执行步骤5;测试阶段,则需要执行前述图2提供的完整流程。
为了便于理解,下面结合附图对图3所示图像编解码网络进行的图像编解码过程做详细的介绍。
1、图像特征提取、码率变换与特征量化。
本发明实施例中,通过分析网络提取图像特征Feature-F(简写为F),通过前端的多码率模块对所述图像特征进行码率变换得到特征f。
本发明实施例中,定义了一个多码率可学习控制变量q,用于码率变换与逆变换,逆变换将在后文进行介绍;此处码率变换的过程可以表示为:
f=F×q
本发明实施例中,多码率控制变量q是一个可学习的变量,可以根据网络训练不断的调整变量值,因此,本发明不对其具体的数值大小进行限定。
特征量化表示为:
y=Round(f)
其中,F表示图像特征,round(.)表示四舍五入量化函数,y表示码率变换并且量化后获得的待编码特征。
Round函数示例:10=Round(9.6)=Round(10.4)。
2、计算超先验信息。
本发明实施例中,通过超先验模型计算超先验信息。图4展示了超先验模型主要结构及其处理流程,主要处理流程包括:
1)特征f输入超先验模型后,通过超先验模型中的Hyper-analysis网络(超先验分析网络)进行卷积处理,卷积处理结果分为两路,其中一路通过量化(图4中的符号Q),获得特征Z,另一路通过拉普拉斯估计模型(LMM)进行建模,基于建模结果获得特征Z的概率分布P(z)。
2)所述特征Z与特征Z的概率分布输入至所述超先验模型中的Hyper-synthesis网络(超先验生成网络),获得超先验信息Hyper。
3、空间打乱熵模型算法、熵编码与熵解码。
本发明实施例中,空间打乱上下文模型与熵参数估计模型会交替工作,因此,一并进行介绍。
本发明实施例中,为了降低时间复杂度,提出了一种空间打乱熵模型算法,特征总计需要1次编码,2次解码,时间复杂度为O(1),图5展示了一种空间打乱熵模型算法原理,使用数字1标记的两部分为第一个解码特征,数字2标记的两部分为第二次解码特征;图6展示了空间打乱熵模型算法的主要流程,包括如下步骤:
1)以一个2*2的特征为例(特征其他位置拆分及组合关系均一致),将所述待编码特征y分解四个部分,依次记为特征y1(左上方特征)、特征y2(右上方特征)、特征y3(左下方特征)与特征y4(右下方特征)。
2)取出在空间位置交错的特征,即特征y1与特征y4,由熵参数估计模型结合所述超先验信息Hyper对所述特征y1与特征y4进行熵编码与熵解码,获得对应的解码特征y1’与解码特征y4’,将解码特征y1’与解码特征y4’在通道方向中进行拼接,获得拼接特征;将所述拼接特征沿通道方向拆分为四份,并在空间方向上进行堆叠,实现通道空间信息混合,获得打乱后的特征(Shuffle feature)。如之前所述,熵编码与熵解码是无损的,因此,y1=y1’,y4=y4’。
3)将打乱后的特征通过两个并行的卷积网络,获得两个不同尺度的先验信息,并进行拼接(concat),获得上下文特征ContextFeature;此处先验信息获取公式为:
CF(x)=W*x+bias
其中,W、bias分别表示权重与偏置参数。x为打乱后的特征Shuffle feature,CF(x)为输出用于拼接的feature。
如之前所述,将待编码特征y分解为特征y1、特征y2、特征y3与特征y4;其中的特征y1与特征y4可以直接通过熵参数估计模型进行熵编码与熵解码,特征y1与特征y4被解码后可以作为特征y2与特征y3的先验信息,通过对空间交错的特征进行分组,先对其中一组空间交错的特征进行熵编码与熵解码,再以此作为先验信息对另一组空间交错的特征进行熵编码与熵解码,从而提升编解码性能。主要过程如下:
1)利用所述超先验信息Hyper对所述特征y1与特征y4进行熵编码与熵解码,获得特征y1与特征y4的概率分布;具体的:超先验信息输入熵参数估计模型后,先通过卷积网络获得概率参数,然后通过拉普拉斯概率模型,得到特征y1与特征y4的概率分布P(y1|hyper)、P(y4|hyper),根据概率分布对所述特征y1与特征y4进行熵编码与熵解码。
拉普拉斯概率模型公式如下:
2)对特征y2与特征y3进行熵编码与熵解码时需要使用超先验信息Hyper与上下文特征ContextFeature。
图7展示了熵参数估计模型结合超先验信息Hyper与上下文特征ContextFeature生成相应概率分布的示意图。所述熵参数估计模型包括:第一卷积层、第二卷积层、K层残差模块与下采样层;所述第一卷积层、第二卷积层的后端均连接分段线性激活函数。以熵编码与熵解码特征y2及特征y3为例,如图7所示,第一卷积层输入超先验信息Hyper与上下文特征ContextFeature,下采样层输出相应的概率参数,同样的,再通过拉普拉斯概率模型(未在图7中示出),得到特征y2与特征y3的概率分布P(y2|prior)与P(y3|prior),根据概率分布对所述特征y2与特征y3进行熵编码与熵解码。综合特征y1~y4的解码特征,得到最终的解码特征y’,由于使用无损熵编码与熵解码,因此,y=y’。
图7右侧展示了残差模块(Resblock)的主要结构,残差模块的数量K为大于等于0的整数,即可以根据需要设置一定数目残差块或不设置残差模块;示例性的,可以设置0≤K≤10。
本发明实施例中,熵参数估计模型融合超先验信息Hyper与上下文特征ContextFeature两部分先验信息,且支持添加ResBlock及下采样方式,能够进一步增大网络感受野,得到更好性能。
类似的,空间打乱熵模型算法可进一步拓展,图7展示了拓展后的空间打乱熵模型算法原理,输入特征被分解为4组特征,共4次解码,标记1~4分别对应特征y1~y4。具体来说:
1)先将所述待编码特征y分解y1~y4四个部分,由熵参数估计模型结合所述超先验信息Hyper对所述特征y1进行熵编码与熵解码,获得对应的解码特征y1’。
2)将解码特征y1’送入空间打乱上下文模型,将解码特征y1’沿通道方向拆分为四份,并在空间方向上进行堆叠,获得打乱后的特征,再通过两个并行的卷积网络获得上下文特征。
3)由熵参数估计模型结合所述超先验信息以及解码特征y1’对应的上下文特征,对所述特征y4进行熵编码与熵解码,得到解码特征y4’。
4)将解码特征y1’与y4’送入空间打乱上下文模型,采用图6所示的方式获得上下文特征。
5)由熵参数估计模型结合解码特征y1’与y4’对应的上下文特征与所述超先验信息对所述特征y2进行熵编码与熵解码,得到解码特征y2’。
6)将解码特征y1’、解码特征y2’与解码特征y4’送入空间打乱上下文模型,在通道方向中进行拼接,获得拼接特征;将所述拼接特征沿通道方向拆分为四份,并在空间方向上进行堆叠,获得打乱后的特征;将打乱后的特征通过两个并行的卷积网络,获得两个不同尺度的先验信息,并进行拼接,获得解码特征y1’、解码特征y2’与解码特征y4’对应的上下文特征。
7)由熵参数估计模型结合解码特征y1’、解码特征y2’与解码特征y4’对应的上下文特征,以及所述超先验信息对所述特征y3进行熵编码与熵解码,获得解码特征y3’。
8)综合解码特征y1’、解码特征y2’、解码特征y3’与解码特征y4’获得解码特征y’。
通过上述拓展的空间打乱熵模型算法,可以进一步提升图像编解码能力。
需要说明的是,使用上述拓展的空间打乱熵模型算法时,熵参数估计模型依然使用图7所示结构生成相关的概率分布进行熵编码与熵解码。
4、图像重建。
如图3所示,解码特征y通过后端的多码率模块进行码率逆变换后,由生成网络进行变换,获得解码重建图像(即图3右侧的解码图像)。
此部分中,后端的多码率模块进行码率逆变换表示为:
fd=y/q
其中,fd表示码率逆变换结果,q表示多码率可学习控制变量。
需要说明的是,相关附图中所涉及的各个卷积层与反卷积层数目仅为示例,并非构成限制,同时,相关附图中所提供的卷积层与反卷积层的参数也仅为示例,并非构成限制;在实际应用中,用户可以根据需要或者经验设定卷积层与反卷积层数目及相关参数。下面对附图中所涉及的各类符号与参数进行说明。
Conv代表卷积操作,Deconv代表反卷积操作,N和M分别代表卷积操作与反卷积操作输出通道数,示例性的,可以设置N=128、M=192(或者256、320等其他超参数);S即Stride代表上下采样倍数。
GDN、iGDN、Relu与leakyrelu均为激活函数,它们都是常规的激活函数,下面以GDN与leakyrelu为例进行介绍。
GDN为泛化可除归一化,计算方式如下:
p[j]=q[j]/sqrt(beta[j]+sum_i(gamma[i,j]*q[i])
其中,其中beta、gamma为训练参数;q为输入特征,p为输出特征,q[i],q[j]为输入特征q第i、j个通道的特征值,p[j]为输出特征p的第j个通道值;beta[j]指对应输出p[j]的第j个参数,gamma[i,j]为对应输出p[j]的第j个参数,每个参数为i维。
leakyrelu为分段线性激活函数,公式如下:
其中,超参数ai一般为4。
本发明实施例提供的上述方案主要获得如下有益效果:
1、通过空间打乱上下文模型,可以获得更多的先验信息,且时间复杂度极低,能够提升编解码效率。
2、通过熵参数估计模型融合超先验信息Hyper与上下文特征ContextFeature两部分先验信息,且支持添加ResBlock及下采样方式,能够进一步增大网络感受野,得到更好性能。
3、通过多码率模块进行多码率控制,仅需一个多码率控制变量q便可有效控制码率范围(0.05bpp~1.5bpp)。
实施例二
本发明还提供一种多码率与快速熵模型计算的图像编解码装置,其主要基于前述实施例一提供的方法实现,如图9所示,该系统主要包括:
网络搭建单元,用于搭建包含分析网络、生成网络、多码率模块、超先验模型、空间打乱上下文模型及熵参数估计模型的图像编解码网络;
图像编解码单元,用于接收输入图像,并利用所述图像编解码网络实现图像编解码,包括:输入图像通过所述分析网络获得图像特征F,再经前端的多码率模块进行码率变换获得特征f;所述特征f输入至所述超先验模型,获得超先验信息;将所述特征f量化得到的待编码特征输入至空间打乱上下文模型与熵参数估计模型,由所述空间打乱上下文模型将所述待编码特征分解为多个部分,其中一部分特征由所述熵参数估计模型结合所述超先验信息进行无损熵编码与无损熵解码,由所述空间打乱上下文模型将无损熵解码得到的特征作为先验信息,从通道以及空间方向上进行重新排列,获得上下文特征,再由所述熵参数估计模型结合上下文特征与超先验信息对待编码特征中剩余部分的特征进行无损熵编码与无损熵解码,最终获得解码特征;所述解码特征输入至后端的多码率模块进行码率逆变换,再通过生成网络对特征进行变换,获得重建图像。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
需要说明的是,上述装置各部分所涉及的技术细节在前述实施例一中已经做了详细的说明,故不再赘述。
实施例三
本发明还提供一种处理设备,如图10所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
输出设备可以为显示终端;
存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
实施例四
本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (10)
1.一种多码率与快速熵模型计算的图像编解码方法,其特征在于,包括:
搭建包含分析网络、生成网络、多码率模块、超先验模型、空间打乱上下文模型及熵参数估计模型的图像编解码网络;
输入图像通过所述分析网络获得图像特征F,再经前端的多码率模块进行码率变换获得特征f;
所述特征f输入至所述超先验模型,获得超先验信息;
将所述特征f量化得到的待编码特征输入至空间打乱上下文模型与熵参数估计模型,由所述空间打乱上下文模型将所述待编码特征分解为多个部分,其中一部分特征由所述熵参数估计模型结合所述超先验信息进行无损熵编码与无损熵解码,由所述空间打乱上下文模型将无损熵解码得到的特征作为先验信息,从通道以及空间方向上进行重新排列,获得上下文特征,再由所述熵参数估计模型结合上下文特征与超先验信息对待编码特征中剩余部分的特征进行无损熵编码与无损熵解码,最终获得解码特征;
所述解码特征输入至后端的多码率模块进行码率逆变换,再通过生成网络对特征进行变换,获得重建图像。
2.根据权利要求1所述的一种多码率与快速熵模型计算的图像编解码方法,其特征在于,经前端的多码率模块进行码率变换获得特征f,所述特征f通过量化,得到待编码特征y表示为:
f=F×q
y=Round(f)
其中,q表示多码率可学习控制变量,round(.)表示四舍五入量化函数。
3.根据权利要求1所述的一种多码率与快速熵模型计算的图像编解码方法,其特征在于,所述特征f输入至所述超先验模型,获得超先验信息的步骤包括:
所述特征f通过所述超先验模型中的超先验分析网络进行卷积处理,卷积处理结果分为两路,其中一路通过量化,获得特征Z,另一路通过拉普拉斯估计模型进行建模,基于建模结果获得特征Z的概率分布;
所述特征Z与特征Z的概率分布输入至所述超先验模型中的超先验生成网络,获得超先验信息。
4.根据权利要求1所述的一种多码率与快速熵模型计算的图像编解码方法,其特征在于,由所述空间打乱上下文模型将所述待编码特征分解为多个部分,其中一部分特征由所述熵参数估计模型结合所述超先验信息进行无损熵编码与无损熵解码,再通过所述空间打乱上下文模型将无损熵解码得到的特征作为先验信息,从通道以及空间方向上进行重新排列,获得上下文特征,再由所述熵参数估计模型结合上下文特征对待编码特征中剩余部分的特征进行无损熵编码与无损熵解码,最终获得解码特征包括:
由所述空间打乱上下文模型将待编码特征y分解四个部分,依次记为特征y1、特征y2、特征y3与特征y4;
取出在空间位置交错的特征y1与特征y4,由熵参数估计模型结合所述超先验信息对所述特征y1与特征y4进行熵编码与熵解码,获得对应的解码特征y1’与解码特征y4’;
将解码特征y1’与解码特征y4’送入空间打乱上下文模型,在通道方向中进行拼接,获得拼接特征;将所述拼接特征沿通道方向拆分为四份,并在空间方向上进行堆叠,获得打乱后的特征;将打乱后的特征通过两个并行的卷积网络,获得两个不同尺度的先验信息,并进行拼接,获得上下文特征;
由所述熵参数估计模型利用所述超先验信息与上下文特征对所述特征y2与特征y3进行熵编码与熵解码,获得解码特征y2’与解码特征y3’;综合解码特征y1’、解码特征y2’、解码特征y3’与解码特征y4’获得解码特征y’。
5.根据权利要求1所述的一种多码率与快速熵模型计算的图像编解码方法,其特征在于,由所述空间打乱上下文模型将所述待编码特征分解为多个部分,其中一部分特征由所述熵参数估计模型结合所述超先验信息进行无损熵编码与无损熵解码,再通过所述空间打乱上下文模型将无损熵解码得到的特征作为先验信息,从通道以及空间方向上进行重新排列,获得上下文特征,再由所述熵参数估计模型结合上下文特征对待编码特征中剩余部分的特征进行无损熵编码与无损熵解码,最终获得解码特征包括:
由所述空间打乱上下文模型将待编码特征分解四个部分,依次记为特征y1、特征y2、特征y3与特征y4;
由熵参数估计模型结合所述超先验信息对所述特征y1进行熵编码与熵解码,获得对应的解码特征y1’;
将解码特征y1’送入空间打乱上下文模型,沿通道方向拆分为四份,并在空间方向上进行堆叠,获得打乱后的特征,将打乱后的特征通过两个并行的卷积网络,获得两个不同尺度的先验信息,并进行拼接,获得解码特征y1’对应的上下文特征;
由熵参数估计模型结合解码特征y1’对应的上下文特征与所述超先验信息,对所述特征y4进行熵编码与熵解码,得到解码特征y4’;
将解码特征y1’与解码特征y4’送入空间打乱上下文模型,在通道方向中进行拼接,获得拼接特征;将所述拼接特征沿通道方向拆分为四份,并在空间方向上进行堆叠,获得打乱后的特征;将打乱后的特征通过两个并行的卷积网络,获得两个不同尺度的先验信息,并进行拼接,获得解码特征y1’与y4’对应的上下文特征;
由熵参数估计模型结合解码特征y1’与y4’对应的上下文特征与所述超先验信息对所述特征y2进行熵编码与熵解码,得到解码特征y2’;
将解码特征y1’、解码特征y2’与解码特征y4’送入空间打乱上下文模型,在通道方向中进行拼接,获得拼接特征;将所述拼接特征沿通道方向拆分为四份,并在空间方向上进行堆叠,获得打乱后的特征;将打乱后的特征通过两个并行的卷积网络,获得两个不同尺度的先验信息,并进行拼接,获得解码特征y1’、解码特征y2’与解码特征y4’对应的上下文特征;
由熵参数估计模型结合解码特征y1’、解码特征y2’与解码特征y4’对应的上下文特征,以及所述超先验信息对所述特征y3进行熵编码与熵解码,获得解码特征y3’;综合解码特征y1’、解码特征y2’、解码特征y3’与解码特征y4’获得解码特征y’。
6.根据权利要求4或5所述的一种多码率与快速熵模型计算的图像编解码方法,其特征在于,所述熵参数估计模型结合上下文特征与超先验信息对待编码特征中剩余部分的特征进行无损熵编码与无损熵解码包括:
所述熵参数估计模型包括:第一卷积层、第二卷积层、K层残差模块与下采样层;所述第一卷积层的输入包括:所述超先验信息与上下文特征;所述第一卷积层、第二卷积层的后端均连接分段线性激活函数;所述下采样层输出概率参数;利用所述概率参数对待编码特征中剩余部分的特征进行无损熵编码与无损熵解码;
其中,所述K为大于等于0的整数。
7.根据权利要求1所述的一种多码率与快速熵模型计算的图像编解码方法,其特征在于,特征y输入至后端的多码率模块进行码率逆变换表示为:
fd=y/q
其中,fd表示码率逆变换结果,q表示多码率可学习控制变量。
8.一种多码率与快速熵模型计算的图像编解码装置,其特征在于,基于权利要求1~7任一项所述的方法实现,该装置包括:
网络搭建单元,用于搭建包含分析网络、生成网络、多码率模块、超先验模型、空间打乱上下文模型及熵参数估计模型的图像编解码网络;
图像编解码单元,用于接收输入图像,并利用所述图像编解码网络实现图像编解码,包括:输入图像通过所述分析网络获得图像特征F,再经前端的多码率模块进行码率变换获得特征f;所述特征f输入至所述超先验模型,获得超先验信息;将特征f量化得到的待编码特征输入至空间打乱上下文模型与熵参数估计模型,由所述空间打乱上下文模型将所述待编码特征分解为多个部分,其中一部分特征由所述熵参数估计模型结合所述超先验信息进行无损熵编码与无损熵解码,由所述空间打乱上下文模型将无损熵解码得到的特征作为先验信息,从通道以及空间方向上进行重新排列,获得上下文特征,再由所述熵参数估计模型结合上下文特征与超先验信息对待编码特征中剩余部分的特征进行无损熵编码与无损熵解码,最终获得解码特征;所述解码特征y输入至后端的多码率模块进行码率逆变换,再通过生成网络对特征进行变换,获得重建图像。
9.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。
10.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210509904.1A CN115086673B (zh) | 2022-05-11 | 2022-05-11 | 一种多码率与快速熵模型计算的图像编解码方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210509904.1A CN115086673B (zh) | 2022-05-11 | 2022-05-11 | 一种多码率与快速熵模型计算的图像编解码方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115086673A true CN115086673A (zh) | 2022-09-20 |
CN115086673B CN115086673B (zh) | 2024-08-13 |
Family
ID=83247763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210509904.1A Active CN115086673B (zh) | 2022-05-11 | 2022-05-11 | 一种多码率与快速熵模型计算的图像编解码方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115086673B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116260969A (zh) * | 2023-05-15 | 2023-06-13 | 鹏城实验室 | 一种自适应的通道渐进式编解码方法、装置、终端及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111009018A (zh) * | 2019-12-24 | 2020-04-14 | 苏州天必佑科技有限公司 | 基于深度神经网络的图像降维和重建方法 |
CN112866694A (zh) * | 2020-12-31 | 2021-05-28 | 杭州电子科技大学 | 联合非对称卷积块和条件上下文的智能图像压缩优化方法 |
CN113747163A (zh) * | 2021-08-17 | 2021-12-03 | 上海交通大学 | 基于上下文重组建模的图像编码、解码方法及压缩方法 |
-
2022
- 2022-05-11 CN CN202210509904.1A patent/CN115086673B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111009018A (zh) * | 2019-12-24 | 2020-04-14 | 苏州天必佑科技有限公司 | 基于深度神经网络的图像降维和重建方法 |
CN112866694A (zh) * | 2020-12-31 | 2021-05-28 | 杭州电子科技大学 | 联合非对称卷积块和条件上下文的智能图像压缩优化方法 |
CN113747163A (zh) * | 2021-08-17 | 2021-12-03 | 上海交通大学 | 基于上下文重组建模的图像编码、解码方法及压缩方法 |
Non-Patent Citations (1)
Title |
---|
王昊威: "基于深度学习的视频压缩", 《硕士电子期刊》, vol. 2022, no. 01, 15 January 2022 (2022-01-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116260969A (zh) * | 2023-05-15 | 2023-06-13 | 鹏城实验室 | 一种自适应的通道渐进式编解码方法、装置、终端及介质 |
CN116260969B (zh) * | 2023-05-15 | 2023-08-18 | 鹏城实验室 | 一种自适应的通道渐进式编解码方法、装置、终端及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115086673B (zh) | 2024-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111932445B (zh) | 对风格迁移网络的压缩方法及风格迁移方法、装置和系统 | |
Lee et al. | Adaptive vector quantization using a self-development neural network | |
CN109451308A (zh) | 视频压缩处理方法及装置、电子设备及存储介质 | |
US20080292028A1 (en) | Method and Apparatus for Signal Processing and Encoding and Decoding Method, and Apparatus Therefor | |
US20040240745A1 (en) | Image encoding apparatus, image encoding method, image encoding program, image decoding apparatus, image decoding method and image decoding program | |
CN110598601A (zh) | 一种基于分布式热力图的人脸3d关键点检测方法及系统 | |
CN115086673A (zh) | 一种多码率与快速熵模型计算的图像编解码方法及装置 | |
CN116112688A (zh) | 点云编码方法和解码方法、编码器、解码器、及存储介质 | |
Wang et al. | Optimization-based post-training quantization with bit-split and stitching | |
Hou et al. | Scalable and compact representation for motion capture data using tensor decomposition | |
CN117354523A (zh) | 一种频域特征感知学习的图像编码、解码、压缩方法 | |
CN115913245A (zh) | 数据编码方法、数据解码方法以及数据处理装置 | |
Ren | The advance of generative model and variational autoencoder | |
Shen et al. | Learned image compression with transformers | |
US20040223657A1 (en) | Image encoding apparatus, image encoding method, image encoding program, image decoding apparatus, image decoding method and image decoding program | |
Liu et al. | Size of the dictionary in matching pursuit algorithm | |
Seiffert | ANNIE—Artificial Neural Network-based Image Encoder | |
Li et al. | GroupedMixer: An Entropy Model with Group-wise Token-Mixers for Learned Image Compression | |
KR20240025629A (ko) | 광학 흐름를 이용한 비디오 압축 | |
CN114501011A (zh) | 图像压缩方法、图像解压缩方法及装置 | |
CN111897995A (zh) | 视频特征提取方法及应用该方法的视频量化方法 | |
Huang et al. | PQ-VAE: Learning Hierarchical Discrete Representations with Progressive Quantization | |
CN114998457B (zh) | 图像压缩方法、图像解压方法及相关设备、可读存储介质 | |
CN115086666A (zh) | 提升图像编解码率失真性能的方法及装置 | |
CN113537485B (zh) | 一种神经网络模型的压缩方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |