CN117036515A - 一种图像主观优化编解码方法 - Google Patents
一种图像主观优化编解码方法 Download PDFInfo
- Publication number
- CN117036515A CN117036515A CN202310758883.1A CN202310758883A CN117036515A CN 117036515 A CN117036515 A CN 117036515A CN 202310758883 A CN202310758883 A CN 202310758883A CN 117036515 A CN117036515 A CN 117036515A
- Authority
- CN
- China
- Prior art keywords
- layer
- image
- residual
- convolution
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000005457 optimization Methods 0.000 title claims abstract description 19
- 238000013139 quantization Methods 0.000 claims abstract description 23
- 230000004913 activation Effects 0.000 claims description 44
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 29
- 230000011218 segmentation Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 9
- 238000005192 partition Methods 0.000 claims description 2
- 238000003860 storage Methods 0.000 abstract description 4
- 230000005540 biological transmission Effects 0.000 abstract description 3
- 238000007906 compression Methods 0.000 abstract description 3
- 230000006835 compression Effects 0.000 abstract description 3
- 230000009466 transformation Effects 0.000 abstract 1
- 230000001131 transforming effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 13
- 239000012634 fragment Substances 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- -1 carrier Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000306 component Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000000059 patterning Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007858 starting material Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/001—Model-based coding, e.g. wire frame
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/154—Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
Abstract
本发明公开了一种图像主观优化编解码方法,包括:编码部分:通过卷积网络提取输入的原始图像数据的初级特征;通过第一量化模块对所述初级特征进行变换,得到二级特征;通过超先验概率模型,对所述二级特征进行概率估计,结合拉普拉斯概率模型得到码率估计结果,通过熵编码算法以及拉普拉斯概率,对二级特征进行无损熵编码,得到比特流;解码部分:通过熵解码算法以及拉普拉斯概率,对所述比特流进行解码,获得二级特征,通过反卷积网络对所述二级特征进行非线性变换,获得重建图像。上述方法通过图像主观优化方式,提升重建图像的质量,并且可以提升压缩性能,减少了图像存储空间,减少了不必要的传输费用。
Description
技术领域
本发明涉及图像编解码技术领域,尤其涉及一种图像主观优化编解码方法。
背景技术
传统的图像编解码中对于图像重构质量对优化大多偏向于客观指标的,例如,使用PSNR(Peak Signal to Noise Ratio,峰值信噪比),它是一种评价图像的客观标准;但是,客观指标并不能代表人眼真正关注的质量。
如图1所示,MSE为均方误差,PSNR与MSE成线性关系,在MSE相同的情况下不同成像的质量参差不齐,因此,客观指标并不能直接代表了人眼主观观察下对重建图像质量的评价。
有鉴于此,有必要引入主观指标来优化图像编解码方案,以提升重建图像的质量。
发明内容
本发明的目的是提供一种图像主观优化编解码方法,可以提升重建图像的质量。
本发明的目的是通过以下技术方案实现的:
一种图像主观优化编解码方法,包括:
构建图像编解码模型;
训练所述图像编解码模型:输入原始图像至所述图像编解码模型,获得重建图像与两个码率估计结果,训练包含三个阶段,第一阶段损失包括:重建图像与原始图像的失真,以及两个码率估计结果计算的率损失;第二阶段损失包括:第一阶段损失,以及重建图像与原始图像的VGG网络处理中间层的L1损失;第三阶段损失包括:第二阶段的损失,以及重建图像与原始图像的GAN网络的损失;每一阶段使用相应阶段的损失训练指定次数后进入下一阶段,第三阶段训练完毕后,获得训练后的图像编解码模型;
利用训练后的图像编解码模型对输入图像进行编解码,获得重建图像。
由上述本发明提供的技术方案可以看出,通过图像主观优化方式,提升重建图像的质量,并且可以提升压缩性能,减少了图像存储空间,减少了不必要的传输费用。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明背景技术提供的MSE相同的情况下不同成像的质量示意图;
图2为本发明实施例提供的一种图像主观优化编解码方法的框架图;
图3为本发明实施例提供的DownResGDNblock的示意图;
图4为本发明实施例提供的DownResCNblock的示意图;
图5为本发明实施例提供的残差块的示意图;
图6为本发明实施例提供的超先验编码器的示意图;
图7为本发明实施例提供的超先验解码器的示意图;
图8为本发明实施例提供的split==1时的channelSplitMaskcnn模块原理图;
图9为本发明实施例提供的split>1时的channelSplitMaskcnn模块原理图;
图10为本发明实施例提供的超先验概率模型中的原理图
图11为本发明实施例提供的UpResGDNblock的示意图;
图12为本发明实施例提供的UpResCNblock的示意图;
图13为本发明实施例提供的ShortResblock的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
除另有明确的规定或限定外,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如:可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本文中的具体含义。
下面对本发明所提供的一种图像主观优化编解码方法进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
本发明实施例提供一种图像主观优化编解码方法,主要包括:构建图像编解码模型、训练所述图像编解码模型,以及利用训练后的图像编解码模型对输入图像进行编解码三部分。
1、构建图像编解码模型。
如图2所示,展示了图像主观优化编解码方法的整体框架,主要包括卷积网络、超先验概率模型与反卷积网络。
2、训练所述图像编解码模型。
本发明实施例中,训练时,利用重建图像与原始图像的失真,并结合码率估计结果,构建率失真损失函数,利用所述率失真损失函数优化卷积网络、超先验概率模型与反卷积网络中的参数;具体而言,需要进行参数优化的部分为图2中除去Quant F、Quant Z、LMM、bit_coder、split、concat之外的所有部分;其中的,Quant F与Quant Z表示两个量化模块,前者输出中间图像特征F,后者输出量化特征Z,LMM表示混合拉普拉斯模型,split表示分割操作,concat表示拼接操作。
1)输入原始图像,通过卷积网络提取图像初级特征,通过卷积网络提取图像初级特征。
2)所述超先验概率模型包含两个支路,两个支路的输入均为图像初级特征;第一个支路中对所述图像初级特征进行量化,获得中间图像特征F,并输入至通道可分割掩码模块(ChannelSplitMaskcnn),由所述通道可分割掩码模块结合来自第二支路的经过分割操作后的辅助信息生成第一概率参数A,利用第一概率参数A对中间图像特征F进行码率估计,获得第一码率估计结果;第二支路中,所述图像初级特征输入至超先验编码器(hyperanalysis),获得超先验特征并通过量化,得到量化特征Z,再经混合拉普拉斯模型(LMM)生成第二概率参数B,利用第二概率参数B对量化特征Z进行码率估计,获得第二码率估计结果,并且还将量化特征Z输入至超先验解码器(hyper synthesis),获得辅助信息,辅助信息经分割操作后输入至通道可分割掩码模块;所述中间图像特征F还输入至反卷积网络,获得重建图像;利用所述重建图像与原始图像损失,以及超先验概率模型中获得的两个码率估计结果构建多阶段训练损失训练所述图像编解码模型;其中,第一阶段损失包括:重建图像与原始图像的失真(即重构损失),以及两个码率估计结果计算的率损失;第二阶段损失包括:第一阶段损失,以及重建图像与原始图像的VGG网络处理中间层的L1损失;第三阶段损失包括:第二阶段的损失,以及重建图像与原始图像的GAN网络的损失;每一阶段使用相应阶段的损失训练指定次数后进入下一阶段,第三阶段训练完毕后,获得训练后的图像编解码模型。
具体的,三个阶段的损失可以分别描述为:
loss 1=rate+λ1*D
loss 2=rate+λ1*D+λ2*A
loss 3=rate+λ1*D+λ2*A+λ3B
其中,loss 1、loss 2、loss 3分别表示第一阶段损失、第二阶段损失、第三阶段损失,rate表示两个码率估计结果计算的率损失,D表示重建图像与原始图像的失真(例如,可使用均方误差损失),A表示重建图像与原始图像VGG网络处理中间层的L1损失,B表示重建图像与原始图像的GAN网络的损失,λ1、λ2与λ3表示相应损失的权重。
上述第二阶段与第三阶段引入的VGG网络与GAN网络主要用于训练阶段的损失函数计算,不参与主体的编解码流程。第二阶段与第三阶段时,将重建图像与原始图像输入至VGG网络与GAN网络,再参照常规方式即可计算相关的损失。
3、利用训练后的图像编解码模型对输入图像进行编解码,获得重建图像。
本步骤的主要流程如下:
1)编码部分:输入原始图像,通过训练后的图像编解码模型中的卷积网络提取图像初级特征;然后,输入至训练后的超先验概率模型中,第一个支路中对所述图像初级特征进行量化,获得中间图像特征F,并输入至通道可分割掩码模块,由所述通道可分割掩码模块结合来自第二支路的经过分割操作后的辅助信息生成第一概率参数A,利用第一概率参数A对中间图像特征F进行算术编码,获得第一比特流;第二支路中,所述图像初级特征输入至超先验编码器,获得超先验特征并通过量化,得到量化特征Z,利用训练后混合拉普拉斯模型提供的第二概率参数B对量化特征Z进行算术编码,获得第二比特流。
2)解码部分:利用所述第二概率参数B对所述第二比特流进行算术解码,获得量化特征Z,再通过超先验解码器,获得辅助信息,辅助信息经分割操作后输入至通道可分割掩码模块;由所述通道可分割掩码模块结合来自第二支路的经过分割操作后的辅助信息生成第一概率参数A,利用第一概率参数A对所述第一比特流进行算术解码,获得中间图像特征F,再通过训练后的图像编解码模型中的反卷积网络,生成解码重建图像。
本步骤属于实际编解码阶段,进入实际编解码阶段表示图像编解码模型已经训练完毕,第二概率参数B为固定的信息,直接存储于编解码端,在需要使用时直接调用即可。
本发明实施例实施例提供的上述方案中,采用三段式主观损失优化训练方式,提升重建图像的质量,并且可以提升压缩性能,减少了图像存储空间,减少了不必要的传输费用。
为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果,下面以具体实施例对本发明实施例所提供的图像主观优化编解码方法进行详细描述。
一、编解码网络介绍。
1、卷积网络。
如图2所示,所述卷积网络主要包括:Space2Depth层、第一残差块、DownResGDNblock、第二残差块、DownResCNblock、第三残差块、DownResGDNblock与第四残差块。
所述Space2Depth层用于将图像尺寸空间维度转换至深度维度。
如图3所示,所述DownResGDNblock(广义除法归一化下采样模块)主要包括:三个卷积层、一个LeakyRelu激活层、一个GDN激活层与残差链接层(add);其中,第一个卷积层和第二个卷积层的输入均为DownResGDNblock前端残差块的输出(也就是输入均为DownResGDNblock的输入),第二个卷积层、LeakyRelu激活层、第三个卷积层、GDN激活层及残差链接层依次连接,并且第一个卷积层还与残差链接层连接;DownResGDNblock前端残差块是指,对于卷积网络中的第一个DownResGDNblock,其前端残差块为第一残差块,对于第二个DownResGDNblock,其前端残差块为第三残差块。
如图4所示,所述DownResCNblock(通道间归一化下采样模块)主要包括:三个卷积层、一个LeakyRelu激活层、一个channelnorm层(通道间归一化层)与一个残差链接层;其中,第一个卷积层和第二个卷积层的输入均为第二残差块的输出,第二个卷积层、LeakyRelu激活层、第三个卷积层、channelnorm层及残差链接层依次连接,并且第一个卷积层还与残差链接层连接。
本发明实施例中,所有残差块(Resblock)都使用相同的结构,如图5所示,残差块包括:两个卷积层、一个LeakyRelu激活层、一个Sigmoid层、一个multiply层与一个残差链接层;其中,第一个卷积层、LeakyRelu激活层、第二个卷积层、multiply层一个残差链接层依次连接,并且,残差链接层还与残差块的输入连接,LeakyRelu激活层还与multiply层连接;其中,multiply层对输入进行点乘计算。
2、超先验概率模型。
如图2所示,超先验概率模型主要包括:第一量化单元(Quant F)、超先验编码器(hyper analysis)、第二量化单元(Quant Z)、混合拉普拉斯模型(LMM)、分割模块(对应的分割操作表示为split)、超先验解码器(hyper synthesis)、通道可分割掩码模块(ChannelSplitMaskcnn)、第一码率估计模块、第二码率估计模块、第一算术编解码器以及第二算术编解码器。其中,第一支路包括:第一量化单元(负责对所述图像初级特征进行量化,)、通道可分割掩码模块(ChannelSplitMaskcnn)、第一码率估计模块(负责利用第一概率参数A对中间图像特征F进行码率估计)与第一算术编解码器(负责利用第一概率参数A对中间图像特征F进行算术编码);第二支路包括:超先验编码器、第二量化单元(负责对超先验特征进行量化)、混合拉普拉斯模型、超先验解码器、分割模块(负责执行分割操作)、第二码率估计模块(负责利用第二概率参数B对量化特征Z进行码率估计)与第二算术编解码器(负责了利用第二概率参数B对量化特征Z进行算术编码)。
两个码率估计模块应用于训练阶段,因此,未在图2中示出,训练完毕后使用两个算术编解码器。主要原因在于:算术编解码器不能够用作训练,因为训练时得到的码流并不重要,但是存储这些码流需要消耗的码字较为重要,因此,训练时两个支路的算术编码器都分别使用一个码率估计模块来替代,第一支路中第一码率估计模块输入为中间图像特征F与第一概率参数A,输出为第一码率估计结果,第二支路中第二码率估计模块输入为量化特征Z与第二概率参数B,输出为第二码率估计结果;并且,训练时,解码网络输入为第一量化单元输出的中间图像特征F。训练完毕后,将两个码率估计模块还原为对应的算术编解码器。前述的第一概率参数A与第二概率参数B的含义相同,区别主要在于参数值不同。
本发明实施例中,算术编解码器(BitCoder)包括:算术编码器(BitEncoder)与算术解码器(BitDecoder),编码端的算术编解码器得到的比特流(二进制码流)传输到解码端后,由解码端对应的算术解码器无损解码出中间图像特征F,再通过解码网络生成重建图像。由于通道可分割掩码模块的存在,实际解码过程为自回归的递归过程。
考虑到算术编解码均属于熵编解码,且属于无损的熵编解码,具体原理可参照常规技术,因此不做赘述。
如图6所示,超先验编码器主要包括:依次设置的一个卷积层与两个downResblock(下采样残差链接模块)。downResblock主要包括:三个卷积层、两个LeakyRelu激活层与一个残差链接层;其中,第一个卷积层与第二个卷积层均连接downResblock的输入,第二个卷积层、第一个LeakyRelu激活层、第三个卷积层、第二个LeakyRelu激活层与残差链接层依次连接,并且第一个卷积层还与残差链接层连接。
如图7所示,超先验解码器主要包括:依次设置的两个upResblock(上采样残差链接模块)与一个卷积层。upResblock主要包括:两个反卷积层、一个卷积层、两个LeakyRelu激活层与一个残差链接层;其中,两个反卷积层均连接upResblock的输入,第二个反卷积层、第一个LeakyRelu激活层、卷积层、第二个LeakyRelu激活层与残差链接层依次连接,并且第一个反卷积层还与残差链接层连接。
本发明实施例中,Conv表示卷积层,Deconv表示反卷积层;Conv A×A(DeconvA×A)表示卷积核(反卷积核)尺寸为A×A,例如,Conv 1×1表示卷积核尺寸为1×1,Deconv1×1表示反卷积核尺寸为1×1;ch=N表示输出通道数目为N;S表示步长(Stride),例如S1表示步长为1,S2表示步长为2。
图8所示展示了channelSplitMaskcnn模块的原理,其本质其实也是类似maskcnn模型(自回归的掩膜卷积网络模型)的一个自回归递归过程,但是,在已有的maskcnn模型的基础上,在空间维度的递归基础上额外增加了一层在channel维度(通道维度)上的递归。
如图8所示,当slice#==1时,channelSplitMaskcnn模块(通道可分割掩码模块)主要流程如下:其输入包括来自超先验解码器的辅助信息(pre_MuSigm)与中间图像特征F(feat),由于此时slice#==1,因此,中间图像特征F不会被分割成多份,中间图像特征F经过多尺度的掩膜卷积层生成的空间上下文信息(maskctx)可以和辅助信息pre_MuSigma一次性送入后续网络,具体的:中间图像特征F通过多尺度的掩膜卷积层分别进行处理(例如,图8展示的3种多尺度的掩膜卷积层357Maskconv),每一尺度的掩膜卷积层的输出融合(concat)后再与辅助信息融合,再输入至多个卷积层(例如,图8展示的3个卷积层,它们可称为entropy_mu_sigma网络)依次进行处理,相邻卷积层之间设有LeakyRelu激活层,最后一个卷积层输出第一概率参数A,即mu(μ),sigam(σ)两个概率参数;第一概率参数A输入至BitCoder,如果是编码阶段,则由BitEncoder利用第一概率参数A对中间图像特征F(feat)进行算术编码,如果是解码阶段,则由BitDecoder利用第一概率参数A对所述第一比特流进行算术解码,获得中间图像特征F。
以上图8是slice数量等于1时的简化流程图,即通道可分割掩码模块在channelsplit数量被指定为1的之后不需要slice的完整流程。
如图9所示,展示了slice#>1时,channelSplitMaskcnn模块主要流程如下:中间图像特征F都进行了分割,具体的中间图像特征F沿通道维度均分为N份,获得N个特征片段。channelSplitMaskcnn模块设有通道分割处理网络(slice_process),后方的数字表示不同的处理阶段,slice_process_N输入为第N个特征片段(feat_slice#N)与已经解码的特征片段,以及对应的辅助信息,slice_process_1输入为第1个特征片段(feat_slice#1)与已经解码的特征片段(此时的已经解码的特征片段为全0的数据),以及输入特征片段对应的辅助信息;slice_process_1输出第1份sigma片段(sigma_slice#1)、第一份mu片段(mu_slice#1)以及优化后的第1个特征片段(refined_feat_slice#1),slice_process_N输出为三份#N表示第N份sigma片段,第N份mu片段以及优化后的第N个特征片段,N份sigma片段(即第1份至第N份sigma片段)融合,获得sigma参数,N份mu片段(即第1份至第N份mu片段)融合,获得mu参数,N份优化后的特征片段(即优化后的第1个特征片段至优化后的第N个特征片段)融合,获得优化解码特征。其中,sigma参数与mu参数共同组成第一概率参数A,图9中的sigma和mu代表了完整的sigma和mu,sigma_slice、mu_slice代表了部分的sigma和mu,由于channel维度的split,所以部分的sigma和mu会被先算出来,从而用来编码/解码部分的特征。图10展示了其中通道分割处理网络的处理流程,主要包括:输入第N个特征片段(feat_slice#N)与已经解码的特征片段(decoded feature slice),以及对应的辅助信息(pre_MuSigm),已经解码的特征片段与对应的辅助信息融合后输入至chnet网络(通道间注意力网络),第N个特征片段输入至掩膜卷积层(maskconv,例如图8中的357Maskconv),掩膜卷积层与chnet的输出(二者输出依次称为空间上下文信息、通道上下文信息)融合后输入至entropy_mu_sigma网络,获得sigma参数与mu参数,经过BitDecode解码出第N个特征片段,并且,将辅助信息(pre_MuSigm)分割开,前半部分为pre_Mu,将其与已经解码的特征片段,以及解码出第N个特征片段融合到一起,再送入lrp网络(特征残差预测网络)生成第N个特征片段的残差补偿,得到优化特征(refined feature),优化特征会被送入到反卷积网络得到最终的重构图。
以上详细介绍了channelSplitMaskcnn模块的原理,它的本质是一个自回归递归过程,总体而言,自回归递归过程可描述为:首先用已经解码的中间图像特征F的特征片段(初始状态没有已解码的特征片段,所以用0来代替)和pre_MuSigma来生成第一份mu和sigma,这部分mu和sigma会被用来编码(或解码)中间图像特征F的第一份特征片段。然后第一份特征片段和pre_musigma被用来生成第二份mu和sigma,这部分mu和sigma会被用来编码(或解码)第二份特征片段片段;以此类推,直到最后一份(第N份)特征片段也被编码(或解码)。
3、反卷积网络。
如图2所示,所述反卷积网络主要包括依次设置的ShortResblock层、第五残差块、UpResGDNblock、第六残差块、UpResCNblock、第七残差块、UpResGDNblock、第八残差块与Depth2Space层;其中,所述ShortResblock层包含依次设置的多个ShortResblock。
所述Depth2Space层负责将最后一个残差块输出特征中的深度维度转换至图像尺寸空间维度。它与卷积网络中的Space2Depth层为互逆操作。
如图11所示,所述UpResGDNblock主要包括:两个反卷积层、一个卷积层、一个LeakyRelu激活层、一个iGDN激活层与一个残差链接层;其中,第一个反卷积层与iGDN激活层的输入均为UpResGDNblock前端残差块的输出(也就是输入均为UpResGDNblock的输入),iGDN激活层、第二个反卷积层、LeakyRelu激活层、卷积层与残差链接层依次连接,并且第一个反卷积层还与残差链接层连接。UpResGDNblock前端残差块是指,对于第一个UpResGDNblock,其前端残差块为第五残差块,对于第二个UpResGDNblock,其前端残差块为第七残差块。
如图12所示,所述UpResCNblock主要包括:两个反卷积层、一个卷积层、一个LeakyRelu激活层、一个iGDN激活层与一个残差链接层;其中,第一个反卷积层与iGDN激活层的输入均为第六残差块的输出,iGDN激活层、第二个反卷积层、LeakyRelu激活层、卷积层与残差链接层依次连接,并且第一个反卷积层还与残差链接层连接。
如图13所示,所述ShortResblock主要包括:两个LeakyRelu激活层、两个卷积层与一个残差链接层;其中,第一个LeakyRelu激活层、第一个卷积层、第二个LeakyRelu激活层、第二个卷积层与残差链接层依次连接,并且,残差链接层还与其所属的ShortResblock的输入连接。
本发明实施例上述方案,除了分三段式的主观损失优化训练方式可以提升图像主观优化效果外,还通过如下方式进一步提升优化效果:a)更好的特征提取和图像重构的主干网络(卷积网络与编码网络部分),使得编码的特征冗余更低,并且得到的特征解码出来的重构图主观质量更亲和人眼;b)更复杂设计更强的超先验概率模型,使得图像编码的码字可以更小。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (9)
1.一种图像主观优化编解码方法,其特征在于,包括:
构建图像编解码模型;
训练所述图像编解码模型:输入原始图像至所述图像编解码模型,获得重建图像与两个码率估计结果,训练包含三个阶段,第一阶段损失包括:重建图像与原始图像的失真,以及两个码率估计结果计算的率损失;第二阶段损失包括:第一阶段损失,以及重建图像与原始图像的VGG网络处理中间层的L1损失;第三阶段损失包括:第二阶段的损失,以及重建图像与原始图像的GAN网络的损失;每一阶段使用相应阶段的损失训练指定次数后进入下一阶段,第三阶段训练完毕后,获得训练后的图像编解码模型;
利用训练后的图像编解码模型对输入图像进行编解码,获得重建图像。
2.根据权利要求1所述的一种图像主观优化编解码方法,其特征在于,所述图像编解码模型包括:卷积网络、超先验概率模型与反卷积网络;通过训练优化卷积网络、超先验概率模型与反卷积网络中的参数。
3.根据权利要求2所述的一种图像主观优化编解码方法,其特征在于,所述卷积网络包括:Space2Depth层、第一残差块、DownResGDNblock、第二残差块、DownResCNblock、第三残差块、DownResGDNblock与第四残差块。
4.根据权利要求3所述的一种图像主观优化编解码方法,其特征在于,
所述DownResGDNblock包括:三个卷积层、一个LeakyRelu激活层、一个GDN激活层与一个残差链接层;其中,第一个卷积层和第二个卷积层的输入均为第一残差块或者第三残差块的输出,第二个卷积层、LeakyRelu激活层、第三个卷积层、GDN激活层及残差链接层依次连接,并且第一个卷积层还与残差链接层连接;
所述DownResCNblock包括:三个卷积层、一个LeakyRelu激活层、一个channelnorm层与一个残差链接层;其中,第一个卷积层和第二个卷积层的输入均为第二残差块的输出,第二个卷积层、LeakyRelu激活层、第三个卷积层、channelnorm层及残差链接层依次连接,并且第一个卷积层还与残差链接层连接。
5.根据权利要求2所述的一种图像主观优化编解码方法,其特征在于,所述反卷积网络包括依次设置的ShortResblock层、第五残差块、UpResGDNblock、第六残差块、UpResCNblock、第七残差块、UpResGDNblock、第八残差块与Depth2Space层;其中,所述ShortResblock层包含依次设置的多个ShortResblock。
6.根据权利要求5所述的一种图像主观优化编解码方法,其特征在于,
所述UpResGDNblock包括:两个反卷积层、一个卷积层、一个LeakyRelu激活层、一个iGDN激活层与一个残差链接层;其中,第一个反卷积层与iGDN激活层的输入均为第五残差块或者第七残差块的输出,iGDN激活层、第二个反卷积层、LeakyRelu激活层、卷积层与残差链接层依次连接,并且第一个反卷积层还与残差链接层连接;
所述UpResCNblock包括:两个反卷积层、一个卷积层、一个LeakyRelu激活层、一个iGDN激活层与一个残差链接层;其中,第一个反卷积层与iGDN激活层的输入均为第六残差块的输出,iGDN激活层、第二个反卷积层、LeakyRelu激活层、卷积层与残差链接层依次连接,并且第一个反卷积层还与残差链接层连接;
所述ShortResblock包括:两个LeakyRelu激活层、两个卷积层与一个残差链接层;其中,第一个LeakyRelu激活层、第一个卷积层、第二个LeakyRelu激活层、第二个卷积层与残差链接层依次连接,并且,残差链接层还与其所属的ShortResblock的输入连接。
7.根据权利要求3或5所述的一种图像主观优化编解码方法,其特征在于,所有残差块的结构相同,均包括:两个卷积层、一个LeakyRelu激活层、一个Sigmoid层、一个multiply层与一个残差链接层;其中,第一个卷积层、LeakyRelu激活层、第二个卷积层、multiply层一个残差链接层依次连接,并且,残差链接层还与残差块的输入连接,LeakyRelu激活层还与multiply层连接。
8.根据权利要求2所述的一种图像主观优化编解码方法,其特征在于,所述输入原始图像至所述图像编解码模型,获得重建图像与两个码率估计结果包括:
输入原始图像,通过卷积网络提取图像初级特征,通过卷积网络提取图像初级特征;
所述超先验概率模型分为两个支路,第一支路包括:第一量化单元、通道可分割掩码模块、第一码率估计模块与第一算术编解码器;第二支路包括:超先验编码器、第二量化单元、混合拉普拉斯模型、超先验解码器、分割模块、第二码率估计模块与第二算术编解码器;其中,第一码率估计模块与第二码率估计模块应用于训练阶段,训练完毕后使用第一算术编解码器与第二算术编解码器;
两个支路的输入均为图像初级特征;第一个支路中的第一量化单元对所述图像初级特征进行量化,获得中间图像特征F,并输入至通道可分割掩码模块,由所述通道可分割掩码模块结合来自第二支路的经过分割操作后的辅助信息生成第一概率参数A,由第一码率估计模块利用第一概率参数A对中间图像特征F进行码率估计,获得第一码率估计结果;第二支路中,所述图像初级特征输入至超先验编码器,获得超先验特征并通过第二量化单元进行量化,得到量化特征Z,再经混合拉普拉斯模型生成第二概率参数B,由第二码率估计模块利用第二概率参数B对量化特征Z进行码率估计,获得第二码率估计结果,并且还将量化特征Z输入至超先验解码器,获得辅助信息,辅助信息经分割模块的分割操作后输入至通道可分割掩码模块;所述中间图像特征F还输入至反卷积网络,获得重建图像。
9.根据权利要求8所述的一种图像主观优化编解码方法,其特征在于,所述利用训练后的图像编解码模型对输入图像进行编解码,获得重建图像包括:
编码部分:输入原始图像,通过训练后的图像编解码模型中的卷积网络提取图像初级特征;然后,输入至训练后的超先验概率模型中,第一个支路中的第一量化单元对所述图像初级特征进行量化,获得中间图像特征F,并输入至通道可分割掩码模块,由所述通道可分割掩码模块结合来自第二支路的经过分割操作后的辅助信息生成第一概率参数A,由第一算术编解码器利用第一概率参数A对中间图像特征F进行算术编码,获得第一比特流;第二支路中,所述图像初级特征输入至超先验编码器,获得超先验特征并通过第二量化单元进行量化,得到量化特征Z,由第二算术编解码器利用训练后混合拉普拉斯模型提供的第二概率参数B对量化特征Z进行算术编码,获得第二比特流;
解码部分:利用所述第二概率参数B对所述第二比特流进行算术解码,获得量化特征Z,再通过超先验解码器,获得辅助信息,辅助信息经分割操作后输入至通道可分割掩码模块;由所述通道可分割掩码模块结合来自第二支路的经过分割操作后的辅助信息生成第一概率参数A,利用第一概率参数A对所述第一比特流进行算术解码,获得中间图像特征F,再通过训练后的图像编解码模型中的反卷积网络,生成重建图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310758883.1A CN117036515A (zh) | 2023-06-26 | 2023-06-26 | 一种图像主观优化编解码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310758883.1A CN117036515A (zh) | 2023-06-26 | 2023-06-26 | 一种图像主观优化编解码方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117036515A true CN117036515A (zh) | 2023-11-10 |
Family
ID=88640116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310758883.1A Pending CN117036515A (zh) | 2023-06-26 | 2023-06-26 | 一种图像主观优化编解码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117036515A (zh) |
-
2023
- 2023-06-26 CN CN202310758883.1A patent/CN117036515A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7813427B2 (en) | Method and apparatus for accomplishing multiple description coding for video | |
KR100889750B1 (ko) | 오디오 신호의 무손실 부호화/복호화 장치 및 그 방법 | |
CN111641832B (zh) | 编码方法、解码方法、装置、电子设备及存储介质 | |
CN101243611B (zh) | 变换块的高效编码和解码 | |
CN104735451A (zh) | 通过使用大变换单元对图像进行编码和解码的方法和设备 | |
CN108174218B (zh) | 基于学习的视频编解码系统 | |
CN111009018A (zh) | 基于深度神经网络的图像降维和重建方法 | |
CN109903351B (zh) | 基于卷积神经网络和传统编码相结合的图像压缩方法 | |
CN111246206B (zh) | 一种基于自编码器的光流信息压缩方法及装置 | |
CN113747163B (zh) | 基于上下文重组建模的图像编码、解码方法及压缩方法 | |
CN110930408B (zh) | 基于知识重组的语义图像压缩方法 | |
KR20080085831A (ko) | 신호 처리 방법 및 장치 | |
CN114449276B (zh) | 一种基于学习的超先验边信息补偿图像压缩方法 | |
Samarawickrama et al. | $ M $-channel multiple description coding with two-rate coding and staggered quantization | |
CN111080729B (zh) | 基于Attention机制的训练图片压缩网络的构建方法及系统 | |
CN117036515A (zh) | 一种图像主观优化编解码方法 | |
Muhsen et al. | Wavelet and optimal requantization methodology for lossy fingerprint compression. | |
CN111131834B (zh) | 可逆自编码器、编解码方法以及图像压缩方法、装置 | |
CN116055727A (zh) | 图像编解码方法、系统、设备及存储介质 | |
CN114663536B (zh) | 一种图像压缩方法及装置 | |
US20230239470A1 (en) | Video encoding and decoding methods, encoder, decoder, and storage medium | |
CN115880379A (zh) | 语义可伸缩图像编码方法、系统、设备及存储介质 | |
CN116758173A (zh) | 基于灰度引导的多光谱遥感影像压缩方法及系统 | |
CN116320419A (zh) | 一种基于特征通道相似度的端到端图像压缩方法 | |
CN117197262A (zh) | 语义可伸缩图像编码方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |