CN115866265A - 一种应用于混合语境中的多码率深度图像压缩系统及方法 - Google Patents

一种应用于混合语境中的多码率深度图像压缩系统及方法 Download PDF

Info

Publication number
CN115866265A
CN115866265A CN202211533749.3A CN202211533749A CN115866265A CN 115866265 A CN115866265 A CN 115866265A CN 202211533749 A CN202211533749 A CN 202211533749A CN 115866265 A CN115866265 A CN 115866265A
Authority
CN
China
Prior art keywords
vector
potential
importance
depth
base layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211533749.3A
Other languages
English (en)
Inventor
雷中岳
洪学敏
石江宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202211533749.3A priority Critical patent/CN115866265A/zh
Publication of CN115866265A publication Critical patent/CN115866265A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明一种应用于混合语境中基于残差增强掩码的多码率深度图像压缩系统,其包括深度图像编解码模块、潜在向量重要性分析模块和隐空间编码模块。其中,隐空间编码模块采用残差方式将隐空间向量分为基础层和增强层,消除了隐空间的冗余度提高了压缩效率;其中,基础层包含了原图像的全局特征,保证重建图像的整体感知效果,且包含了整体语义信息。而且本发明在进行图像压缩编码时,深度编码器进行一次编码得到潜在向量,通过隐空间编码实现码率和语境自适应,使得图像的压缩传输具有更高的实时性。

Description

一种应用于混合语境中的多码率深度图像压缩系统及方法
技术领域
本发明涉及图像压缩技术领域,具体是一种应用于混合语境中基于残差增强掩码的多码率深度图像压缩系统及方法。
背景技术
图像压缩技术使得海量图像信息能够在互联网传播,并节省大量的资源消耗。深度图像压缩算法(Deep image compression,DIC)采用深度神经网络进行图像压缩,其与传统的图像压缩算法有相似的框架。相对于传统的图像压缩算法采用逐一优化编解码过程中的各模块,深度图像压缩采用端到端学习的方式进行压缩算法的全局优化,使得压缩算法达到整体最优。同时,传统的图像压缩算法采用人工设计的压缩表示,而深度图像压缩根据特定应用场景的通过大量数据学习得到压缩表示。所以,在特定的应用场景中,深度图像压缩算法具有更加优越的性能。
将图像接收者对图像的不同用途定义为语境。在当前互联网上图像的传输往往被应用于多个用途,如一张实时的路面交通实况图,接收者可以用于路面拥堵情况判定、交通违规判定和记录保存等不同应用。混合语境下的图像压缩算法可以提高重建图像的效用,同时满足多个应用需求。在通信资源有限的实际应用中,混合语境下图像压缩方法应该具备多码率压缩以适应不同的通信资源。由于深度图像压缩模型在训练完成后,压缩向量的维度是固定的。为了实现多码率压缩,训练一系列的压缩模型显然是笨重、不可行的。当前,采用单个深度图像压缩模型实现多码率深度图像压缩的算法主要由两大类。第一类方法是基于编码器的多码率深度压缩算法,该类方法通过给编码器输入不同的条件生成不同码率下的压缩表示,解码端根据不同的压缩表示生成对应质量的重建图像。第二类方法是基于隐空间编码的多码率深度压缩,该类方法编码器生成统一的隐空间压缩表示,通过隐空间编码生成不同码率下的码流,解码端根据不同码流生成对应质量的重建图像。混合语境中,基于编码器的多码率压缩算法在码率和语境改变的情况下,需要重新生成压缩表示,这带来额外的开销和延迟。当前,基于隐空间编码的图像压缩方法都针对单一语境,无法适用混合语境下多码率的图像压缩需求。
发明内容
针对现有技术存在的问题,本发明的目的在于提供一种应用于混合语境中基于残差增强掩码的多码率深度图像压缩系统及方法,其能够快速适应不同语境不同码率的图像压缩,重建图像在通用的分类器下具有高分类精度以及高质量的视觉效果。
为实现上述目的,本发明采用的技术方案是:
一种应用于混合语境中基于残差增强掩码的多码率深度图像压缩系统,其包括深度图像编解码模块、潜在向量重要性分析模块和隐空间编码模块,
所述深度图像编解码模块包括深度编码器、量化器、熵编码器、熵解码器、潜在向量分层合并单元和深度解码器,深度编码器和深度解码器由训练收敛的深度卷积神经网络构成,深度卷积神经网络的参数采用端到端方式进行训练所得;
所述深度编码器,用于输入原图像x,并提取原图像x的特征生成潜在向量;
所述量化器,用于输入隐空间编码模块输出的待发送向量,并对待发送向量的每个元素进行标量量化处理;
所述熵编码器,用于输入量化后的待发送向量,并对该量化后的待发送向量进行熵编码,生成用于发送的码流;
所述熵解码器,用于接收熵编码器发送的码流,对码流进行熵解码并重建基础层向量和增强层向量;
所述潜在向量分层合并单元,用于输入重建的基础层向量和增强层向量,并将其合并以重建潜在向量;
所述深度解码器,用于输入重建的潜在向量,并对该重建的潜在向量进行深度图像压缩解码得到原图像的重建图像;
所述潜在向量重要性分析模块包括语义重要性分析单元、重建重要性分析单元和重要性映射图融合单元;
所述语义重要性分析单元,用于输入原图像x,并分析原图像中每个像素对图像分类结果的重要性程度并映射到潜在向量的每个平面位置,生成潜在向量的语义重要性映射图;
重建重要性分析单元,用于输入深度编码器输出的潜在向量,并分析潜在向量每个平面位置对图像重建的重要性大小,生成潜在向量的重建重要性映射图;
所述重要性映射图融合单元,用于输入潜在向量的语义重要性映射图和重建重要性映射图,并将两者进行融合处理,生成混合语境下的潜在向量重要性映射图;
所述隐空间编码模块包括潜在向量分层单元、隐空间掩码生成单元和编码单元;
所述潜在向量分层单元,用于输入潜在向量,并采用残差方法将潜在向量分解为基础层向量和增强层向量,基础层向量是原图像整体在隐空间的表示,增强层向量是原图中细节在隐空间的表示,然后根据目标码率的变化范围确定基础层向量和增强层向量的码率;
所述隐空间掩码生成单元,用于输入信道反馈的目标码率r和潜在向量重要性映射图I,计算当前信道资源下允许传送的最大潜在向量的元素个数,然后计算潜在向量重要性映射图二值化的阈值,并把重要性映射图二值化为隐空间掩码M;
所述编码单元,用于输入隐空间掩码、基础层向量和增强层向量,根据隐空间掩码从基础层向量和增强层向量中选择待发送至解码端的元素,生成待发送向量,该待发送向量包括了隐空间掩码、全部的基础层向量、以及增强层中掩码为1位置对应的元素。
所述深度编码器和深度解码器采用端到端方式进行迭代训练,在一次迭代训练过程中先训练鉴别器D,再训练由深度编码器和深度解码器构成的生成器G,训练生成器D时鉴别器G的参数不变,训练鉴别器G时生成器D的参数保持不变;深度编码器和深度解码器网络模型迭代训练的一次过程如下:
步骤S1、从训练集抽样一张输入图像x通过深度编码器生成潜在向量z,潜在向量分层单元基于残差技术将向量z分解为基础层向量zb和增强层向量ze
步骤S2、随机采样与潜在向量平面维度相同的单通道掩码向量,该掩码向量与向量ze每个通道平面相乘得到向量ze1,随机掩码向量、基础层向量zb和向量ze1拼接组成向量
Figure BDA0003975415290000054
对向量/>
Figure BDA0003975415290000055
加噪以模拟量化过程;深度解码器分别输入加噪后的向量/>
Figure BDA0003975415290000056
分别得到重建图像y;
步骤S3、训练基于GAN的鉴别器D,计算鉴别器的每个参数对
Figure BDA0003975415290000057
的梯度,采用Adam优化器优化更新鉴别器D的参数;
步骤S4、训练由深度编码器和深度解码器构成的生成器G,生成器的损失函数为如式子(1)所示,
Figure BDA0003975415290000051
其中,
Figure BDA0003975415290000058
为向量/>
Figure BDA0003975415290000059
的码率,/>
Figure BDA00039754152900000510
为GAN损失项,/>
Figure BDA00039754152900000511
为重建损失项目,/>
Figure BDA00039754152900000512
为语义特征匹配损失项,λR、λMSE、λSFM、λGAN为各个损失项对应的权值;
Figure BDA0003975415290000052
Figure BDA0003975415290000053
其中,x、y为原图和重建图像,(H、W、3)为x、y的维度,ξ(·)为语义特征提取函数,Hξ,Wξ,Cξ分别为语义特征向量的维度;
求解深度编码器和深度解码器每个参数对损失项的梯度,并采用Adam优化器进行参数优化更新。
所述语义重要性分析单元采用基于深度卷积网络分类器对输入图像进行分类,并采用基于梯度的类激活映射方法计算每个像素对分类结果的重要性,再根据卷积神经网络的空间不变性将像素重要性映射到隐空间,得到潜在向量语义重要性映射图。
所述重建重要性分析单元计算潜在向量每个平面位置上所有元素的方差,方差越大表明该位置熵越大,该位置的所有元素对重建越重要,对每个位置的方差值进行归一化得到重建重要性映射图。
一种应用于混合语境中基于残差增强掩码的多码率深度图像压缩方法,所述方法采用如上所述的深度图像压缩系统实现,具体包括以下步骤:
步骤1、将原图像x通过深度编码器生成潜在向量z,将潜在向量z输入到重建重要性分析单元和潜在向量分层单元;
步骤2、隐空间编码模块中潜在向量分层单元基于残差技术将潜在向量z分解为基础层向量zb和增强层向量ze
步骤3、原图像x和潜在向量输入潜在向量重要性分析模块生成潜在向量重要性映射图I;
步骤4、隐空间编码模块根据潜在向量重要分析模块输出的潜在向量重要性映射图I和目标码率r生成隐空间掩码向量M,生成待发送向量
Figure BDA0003975415290000061
步骤5、量化器将待传送向量进行量化得到向量
Figure BDA0003975415290000062
步骤6、熵编码器采用自适应算术编码方法对向量
Figure BDA0003975415290000063
进行熵编码,生成码流,将码流经信道发送到熵解码器中;/>
步骤7、熵解码器对接收到的码流采用自适应算术解码算法并恢复向量M、基础层向量和增强层向量;
步骤8、潜在向量分层合并单元输入基础层向量和增强层向量,并进行重建,生成重建的潜在向量
Figure BDA0003975415290000071
步骤9、深度解码器输入重建的潜在向量和向量M生成重建图像y。
所述步骤3具体如下:
步骤3-1、图像x输入语义重要性分析单元进行潜在向量语义重要性分析得到隐空间潜在向量语义重要性映射图,记为向量e,采用自适应二值化算法将向量e二值化为向量B;
步骤3-2、重建重要性分析单元计算潜在向量z每个平面位置上C个元素值的方差组成潜在向量的方差向量v,将v作为重建重要性映射图;
步骤3-3、重要性映射图融合单元按照以下公式生成潜在向量重要性映射图I;
I=(1+e)B+sigmoid(v)(1-B) (4)。
所述步骤4具体如下:
步骤4-1、隐空间掩码生成单元优先把码率分配给基础层,令α,β分别为待发送的基础层向量和增强层向量,基础层向量的码率为R(α),增强层分配的码率为r':
r'=r-R(α) (5)
其中,R(·)表示码率计算;
步骤4-2、给增强层分配码率时,最小分配粒度为潜在向量一个平面位置的C个元素值,根据当前的目标码率r确定允许传送最多的平面位置数S,将重要性映射图I中第S大的元素作为向量I二值化的阈值,将向量I二值化为掩码向量M;
步骤4-3、隐空间编码单元按照式子(7)提取增强层的元素,
Figure BDA0003975415290000081
其中,
Figure BDA0003975415290000082
为增强层待发送的元素,zi,j,l为ze的元素,Mi,j为M的元素;将增强层提取到的元素、向量M、基础层向量组成待发送向量。
采用上述技术方案后,本发明具有以下有益效果:
1、本发明采用残差方式将隐空间向量分为基础层和增强层,消除了隐空间的冗余度提高了压缩效率;
2、本发明压缩方法中基础层包含了原图像的全局特征,保证重建图像的整体感知效果,且包含了整体语义信息;
3、本发明采用GAN生成模型保证重建图像的分布与原图相近,进一步提升了重建图像的整体感知度;
4、本发明所提方法进行图像压缩编码时,深度编码器进行一次编码得到潜在向量,通过隐空间编码实现码率和语境自适应,使得图像的压缩传输具有更高的实时性。此外,该方式的码率和语境自适应更加适用于多播、广播场景,节省了大量的计算资源。
附图说明
图1是本发明一种应用于混合语境中基于残差增强掩码的渐进深度图像压缩方法的总体框架示意图;
图2是本发明中深度编解码网络模型训练过程示意图;
图3是实施案例深度编解码网络模型图;
下面将结合附图对本发明作进一步的详细说明。
具体实施方式
本发明揭示了一种应用于混合语境中基于残差增强掩码的多码率深度图像压缩系统,其包括深度图像编解码模块、潜在向量重要性分析模块和隐空间编码模块。
其中,深度图像编解码模块包括深度编码器、量化器、熵编码器、熵解码器、潜在向量分层合并单元和深度解码器,深度编码器和深度解码器由训练收敛的深度卷积神经网络构成,深度卷积神经网络的参数采用端到端方式进行训练所得。
深度编码器,用于输入原图像x,并提取原图像x的特征生成潜在向量。具体地,本实施例中,原图像x的维度为(H,W,3),深度编码器对原图像x行8倍下采样,得到维度为
Figure BDA0003975415290000091
的潜在向量。为了适应不同信道情况和不同语境的需求,深度编码器生成的潜在向量需要送入隐空间编码模块进行进一步编码。
量化器,用于输入隐空间编码模块输出的待发送向量,并对待发送向量的每个元素进行标量量化处理,以降低待发送向量的熵以便在通信信道上传输。量化器为标量量化器,且在本实施例中量化级别为5,量化中心为{-2,-1,0,1,2}。
熵编码器,用于输入量化后的待发送向量,并对该量化后的待发送向量进行熵编码,生成用于发送的码流。该熵编码器为自适应算数编码器,此处进行编码是为了取出待发送向量的冗余,提高编码效率,该过程对于待发送向量中的信息是无损的。
熵解码器为自适应算数解码器,用于接收熵编码器发送的码流,对码流进行熵解码并重建基础层向量和增强层向量。
潜在向量分层合并单元,用于输入基础层向量和增强层向量,并将其合并以重建潜在向量。
深度解码器,用于输入重建的潜在向量,并对该重建的潜在向量进行深度图像压缩解码得到原图像的重建图像。具体地,本实施例中,深度解码器对重建的潜在向量进行8倍上采样生成原图像的重建图像。
潜在向量重要性分析模块包括语义重要性分析单元、重建重要性分析单元和重要性映射图融合单元。
其中,语义重要性分析单元,用于输入原图像x,并分析原图像中每个像素对图像分类结果的重要性程度并映射到潜在向量的每个平面位置,生成潜在向量的语义重要性映射图。具体地,本实施例的语义重要性分析单元采用VGG16对输入图像进行分类,并采用基于梯度的类激活映射(Class activation mapping,CAM)方法Grad-CAM++计算每个像素对分类结果的重要性,再根据卷积神经网络的空间不变性将像素重要性映射到隐空间,得到潜在向量语义重要性映射图。
重建重要性分析单元,用于输入深度编码器输出的潜在向量,并分析潜在向量每个平面位置对图像重建的重要性大小,生成潜在向量的重建重要性映射图。具体地,本实施例中,重建重要性分析单元计算潜在向量每个平面位置上所有元素的方差,方差越大表明该位置熵越大,该位置的所有元素对重建越重要,对每个位置的方差值进行归一化得到重建重要性映射图。
重要性映射图融合单元,用于输入潜在向量的语义重要性映射图和重建重要性映射图,并将两者进行融合处理,生成混合语境下的潜在向量重要性映射图。
隐空间编码模块包括潜在向量分层单元、隐空间掩码生成单元和编码单元。
其中,潜在向量分层单元,用于输入潜在向量,并采用残差方法将潜在向量分解为基础层向量和增强层向量,基础层向量是原图像整体在隐空间的表示,增强层向量是原图中细节在隐空间的表示,然后根据目标码率的变化范围确定基础层向量和增强层向量的码率。
隐空间掩码生成单元,用于输入信道反馈的目标码率r和潜在向量重要性映射图I,计算当前信道资源下允许传送的最大潜在向量的元素个数,然后计算潜在向量重要性映射图二值化的阈值,并把重要性映射图二值化为隐空间掩码M。
编码单元,用于输入隐空间掩码、基础层向量和增强层向量,根据隐空间掩码从基础层向量和增强层向量中选择待发送至解码端的元素,生成待发送向量,该待发送向量包括了隐空间掩码、全部的基础层向量、以及增强层中掩码为1位置对应的元素。即掩码为1位置对应的增强层向量元素需要发送至解码端,为0位置则不发送,将提取的增强层向量待发送元素,基础层向量全部元素和掩码拼接送入量化器。
本实施例中,深度编码器和深度解码器采用端到端方式进行迭代训练,所述深度编码器和深度解码器采用端到端方式进行迭代训练,在一次迭代训练过程中先训练鉴别器D,再训练由深度编码器和深度解码器构成的生成器G,训练生成器D时鉴别器G的参数不变,训练鉴别器G时生成器D的参数保持不变;采用ImageNet数据集作为训练集,输入图像的大小都调整为256×256,使用Adam优化器,学习率为2e-4,batchsize为1。如图2所示,深度编码器和深度解码器网络模型迭代训练的一次过程如下:
步骤S1、从训练集抽样一张输入图像x通过深度编码器生成潜在向量z,潜在向量分层单元基于残差技术将向量z分解为基础层向量zb和增强层向量ze
步骤S2、随机采样与潜在向量平面维度相同的单通道掩码向量,该掩码向量与向量ze每个通道平面相乘得到向量ze1,随机掩码向量、基础层向量zb和向量ze1拼接组成向量
Figure BDA0003975415290000121
对向量/>
Figure BDA0003975415290000122
加噪以模拟量化过程;深度解码器分别输入加噪后的向量/>
Figure BDA0003975415290000123
分别得到重建图像y;
步骤S3、训练基于GAN的鉴别器D,训练D时根据实际需求选择不同类型的GAN损失项,如LSGAN、WGAN、infoGAN等,计算鉴别器的每个参数对
Figure BDA0003975415290000124
的梯度,采用Adam优化器优化更新鉴别器D的参数;
步骤S4、训练由深度编码器和深度解码器构成的生成器G,生成器的损失函数为如式子(1)所示,
Figure BDA0003975415290000131
/>
其中,
Figure BDA0003975415290000132
为向量/>
Figure BDA0003975415290000138
的码率,/>
Figure BDA0003975415290000133
为GAN损失项,根据采用的不同GAN有不同的计算方法,/>
Figure BDA0003975415290000134
为重建损失项目,/>
Figure BDA0003975415290000135
为语义特征匹配损失项,λR、λMSE、λSFM、λGAN为各个损失项对应的权值;
Figure BDA0003975415290000136
Figure BDA0003975415290000137
其中,x、y为原图和重建图像,(H、W、3)为x、y的维度,ξ(·)为语义特征提取函数,Hξ,Wξ,Cξ分别为语义特征向量的维度;
求解深度编码器和深度解码器每个参数对损失项的梯度,并采用Adam优化器进行参数优化更新。
继续参照图1并结合图3所示,基于上述系统,本发明还揭示了一种应用于混合语境中基于残差增强掩码的多码率深度图像压缩方法,其包括以下步骤:
步骤1、将原图像x通过深度编码器生成潜在向量z,将潜在向量z输入到重建重要性分析单元和潜在向量分层单元;
步骤2、隐空间编码模块中潜在向量分层单元基于残差技术将潜在向量z分解为基础层向量zb和增强层向量ze
步骤3、原图像x和增强层向量ze输入潜在向量重要性分析模块生成潜在向量重要性映射图I;
步骤3-1、图像x输入语义重要性分析单元进行潜在向量语义重要性分析得到隐空间潜在向量语义重要性映射图,记为向量e,采用自适应二值化算法将向量e二值化为向量B;
步骤3-2、重建重要性分析单元计算潜在向量z每个平面位置上C个元素值的方差组成潜在向量的方差向量v,将v作为重建重要性映射图;
步骤3-3、重要性映射图融合单元按照以下公式生成潜在向量重要性映射图I:
I=(1+e)B+sigmoid(v)(1-B) (4)
步骤4、隐空间编码模块根据潜在向量重要分析模块输出的潜在向量重要性映射图I和目标码率r生成隐空间掩码向量M,生成待发送向量
Figure BDA0003975415290000142
步骤4-1、隐空间掩码生成单元优先把码率分配给基础层,令α,β分别为待发送的基础层向量和增强层向量,基础层向量的码率为R(α),增强层分配的码率为r':
r'=r-R(α) (5)
其中,R(·)表示码率计算;
步骤4-2、给增强层分配码率时,最小分配粒度为潜在向量一个平面位置的C个元素值,根据当前的目标码率r确定允许传送最多的平面位置数S,将重要性映射图I中第S大的元素作为向量I二值化的阈值,将向量I二值化为掩码向量M;
S由式6)得出,
Figure BDA0003975415290000141
/>
其中,P为向量M的元素数目,S为向量M中1位置的数目;
步骤4-3、隐空间编码单元按照式子(7)提取增强层的元素,
Figure BDA0003975415290000151
其中,
Figure BDA0003975415290000152
为增强层待发送的元素,zi,j,l为ze的元素,Mi,j为M的元素;将增强层提取到的元素、向量M、基础层向量组成待发送向量;
步骤5、量化器将待传送向量进行量化得到向量
Figure BDA0003975415290000153
步骤6、熵编码器采用自适应算术编码方法对向量
Figure BDA0003975415290000154
进行熵编码,生成码流,将码流经信道发送到熵解码器中;
步骤7、熵解码器对接收到的码流采用自适应算术解码算法并恢复向量M、基础层向量和增强层向量;
步骤8、潜在向量分层合并单元输入基础层向量和增强层向量重建潜在向量并与向量M拼接生成向量
Figure BDA0003975415290000155
步骤9、深度解码器输入向量
Figure BDA0003975415290000156
生成重建图像y。
综上,本发明具有以下有益效果:
1、本发明采用残差方式将隐空间向量分为基础层和增强层,消除了隐空间的冗余度提高了压缩效率;
2、本发明压缩方法中基础层包含了原图像的全局特征,保证重建图像的整体感知效果,且包含了整体语义信息;
3、本发明采用GAN生成模型保证重建图像的分布与原图相近,进一步提升了重建图像的整体感知度;
4、本发明所提方法进行图像压缩编码时,深度编码器进行一次编码得到潜在向量,通过隐空间编码实现码率和语境自适应,使得图像的压缩传输具有更高的实时性。此外,该方式的码率和语境自适应更加适用于多播、广播场景,节省了大量的计算资源。
以上所述,仅是本发明实施例而已,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (7)

1.一种应用于混合语境中基于残差增强掩码的多码率深度图像压缩系统,其特征在于:包括深度图像编解码模块、潜在向量重要性分析模块和隐空间编码模块,
所述深度图像编解码模块包括深度编码器、量化器、熵编码器、熵解码器、潜在向量分层合并单元和深度解码器,深度编码器和深度解码器由训练收敛的深度卷积神经网络构成,深度卷积神经网络的参数采用端到端方式进行训练所得;
所述深度编码器,用于输入原图像x,并提取原图像x的特征生成潜在向量;
所述量化器,用于输入隐空间编码模块输出的待发送向量,并对待发送向量的每个元素进行标量量化处理;
所述熵编码器,用于输入量化后的待发送向量,并对该量化后的待发送向量进行熵编码,生成用于发送的码流;
所述熵解码器,用于接收熵编码器发送的码流,对码流进行熵解码并重建基础层向量和增强层向量;
所述潜在向量分层合并单元,用于输入重建的基础层向量和增强层向量,并将其合并以重建潜在向量;
所述深度解码器,用于输入重建的潜在向量,并对该重建的潜在向量进行深度图像压缩解码得到原图像的重建图像;
所述潜在向量重要性分析模块包括语义重要性分析单元、重建重要性分析单元和重要性映射图融合单元;
所述语义重要性分析单元,用于输入原图像x,并分析原图像中每个像素对图像分类结果的重要性程度并映射到潜在向量的每个平面位置,生成潜在向量的语义重要性映射图;
重建重要性分析单元,用于输入深度编码器输出的潜在向量,并分析潜在向量每个平面位置对图像重建的重要性大小,生成潜在向量的重建重要性映射图;
所述重要性映射图融合单元,用于输入潜在向量的语义重要性映射图和重建重要性映射图,并将两者进行融合处理,生成混合语境下的潜在向量重要性映射图;
所述隐空间编码模块包括潜在向量分层单元、隐空间掩码生成单元和编码单元;
所述潜在向量分层单元,用于输入潜在向量,并采用残差方法将潜在向量分解为基础层向量和增强层向量,基础层向量是原图像整体在隐空间的表示,增强层向量是原图中细节在隐空间的表示,然后根据目标码率的变化范围确定基础层向量和增强层向量的码率;
所述隐空间掩码生成单元,用于输入信道反馈的目标码率r和潜在向量重要性映射图I,计算当前信道资源下允许传送的最大潜在向量的元素个数,然后计算潜在向量重要性映射图二值化的阈值,并把重要性映射图二值化为隐空间掩码M;
所述编码单元,用于输入隐空间掩码、基础层向量和增强层向量,根据隐空间掩码从基础层向量和增强层向量中选择待发送至解码端的元素,生成待发送向量,该待发送向量包括了隐空间掩码、全部的基础层向量、以及增强层中掩码为1位置对应的元素。
2.根据权利要求1所述的一种应用于混合语境中基于残差增强掩码的多码率深度图像压缩系统,其特征在于:所述深度编码器和深度解码器采用端到端方式进行迭代训练,在一次迭代训练过程中先训练鉴别器D,再训练由深度编码器和深度解码器构成的生成器G,训练生成器D时鉴别器G的参数不变,训练鉴别器G时生成器D的参数保持不变;深度编码器和深度解码器网络模型迭代训练的一次过程如下:
步骤S1、从训练集抽样一张输入图像x通过深度编码器生成潜在向量z,潜在向量分层单元基于残差技术将向量z分解为基础层向量zb和增强层向量ze
步骤S2、随机采样与潜在向量平面维度相同的单通道掩码向量,该掩码向量与向量ze每个通道平面相乘得到向量ze1,随机掩码向量、基础层向量zb和向量ze1拼接组成向量
Figure FDA0003975415280000031
对向量/>
Figure FDA0003975415280000032
加噪以模拟量化过程;深度解码器分别输入加噪后的向量/>
Figure FDA0003975415280000033
分别得到重建图像y;
步骤S3、训练基于GAN的鉴别器D,计算鉴别器的每个参数对
Figure FDA0003975415280000034
的梯度,采用Adam优化器优化更新鉴别器D的参数;
步骤S4、训练由深度编码器和深度解码器构成的生成器G,生成器的损失函数为如式子(1)所示,
Figure FDA0003975415280000035
其中,
Figure FDA0003975415280000036
为向量/>
Figure FDA0003975415280000037
的码率,/>
Figure FDA0003975415280000038
为GAN损失项,/>
Figure FDA0003975415280000039
为重建损失项目,/>
Figure FDA0003975415280000041
为语义特征匹配损失项,λR、λMSE、λSFM、λGAN为各个损失项对应的权值;
Figure FDA0003975415280000042
Figure FDA0003975415280000043
其中,x、y为原图和重建图像,(H、W、3)为x、y的维度,ξ(·为语义特征提取函数,Hξ,Wξ,Cξ分别为语义特征向量的维度;
求解深度编码器和深度解码器每个参数对损失项的梯度,并采用Adam优化器进行参数优化更新。
3.根据权利要求1所述的一种应用于混合语境中基于残差增强掩码的多码率深度图像压缩系统,其特征在于:所述语义重要性分析单元采用基于深度卷积网络分类器对输入图像进行分类,并采用基于梯度的类激活映射方法计算每个像素对分类结果的重要性,再根据卷积神经网络的空间不变性将像素重要性映射到隐空间,得到潜在向量语义重要性映射图。
4.根据权利要求1所述的一种应用于混合语境中基于残差增强掩码的多码率深度图像压缩系统,其特征在于:所述重建重要性分析单元计算潜在向量每个平面位置上所有元素的方差,方差越大表明该位置熵越大,该位置的所有元素对重建越重要,对每个位置的方差值进行归一化得到重建重要性映射图。
5.一种应用于混合语境中基于残差增强掩码的多码率深度图像压缩方法,其特征在于:所述方法采用如权利要求1-4任一所述的深度图像压缩系统实现,具体包括以下步骤:
步骤1、将原图像x通过深度编码器生成潜在向量z,将潜在向量z输入到重建重要性分析单元和潜在向量分层单元;
步骤2、隐空间编码模块中潜在向量分层单元基于残差技术将潜在向量z分解为基础层向量zb和增强层向量ze
步骤3、原图像x和潜在向量输入潜在向量重要性分析模块生成潜在向量重要性映射图I;
步骤4、隐空间编码模块根据潜在向量重要分析模块输出的潜在向量重要性映射图I和目标码率r生成隐空间掩码向量M,生成待发送向量
Figure FDA0003975415280000051
步骤5、量化器将待传送向量进行量化得到向量
Figure FDA0003975415280000052
步骤6、熵编码器采用自适应算术编码方法对向量
Figure FDA0003975415280000053
进行熵编码,生成码流,将码流经信道发送到熵解码器中;
步骤7、熵解码器对接收到的码流采用自适应算术解码算法并恢复向量M、基础层向量和增强层向量;
步骤8、潜在向量分层合并单元输入基础层向量和增强层向量,并进行重建,生成重建的潜在向量
Figure FDA0003975415280000054
步骤9、深度解码器输入重建的潜在向量和向量M生成重建图像y。
6.根据权利要求5所述的一种应用于混合语境中基于残差增强掩码的多码率深度图像压缩方法,其特征在于:所述步骤3具体如下:
步骤3-1、图像x输入语义重要性分析单元进行潜在向量语义重要性分析得到隐空间潜在向量语义重要性映射图,记为向量e,采用自适应二值化算法将向量e二值化为向量B;
步骤3-2、重建重要性分析单元计算潜在向量z每个平面位置上C个元素值的方差组成潜在向量的方差向量v,将v作为重建重要性映射图;
步骤3-3、重要性映射图融合单元按照以下公式生成潜在向量重要性映射图I;
I=(1+e)B+sigmoid(v)(1-B) (4)。
7.根据权利要求5所述的一种应用于混合语境中基于残差增强掩码的多码率深度图像压缩方法,其特征在于:所述步骤4具体如下:
步骤4-1、隐空间掩码生成单元优先把码率分配给基础层,令α,β分别为待发送的基础层向量和增强层向量,基础层向量的码率为R(α),增强层分配的码率为r':
r'=r-R(α) (5)
其中,R(·)表示码率计算;
步骤4-2、给增强层分配码率时,最小分配粒度为潜在向量一个平面位置的C个元素值,根据当前的目标码率r确定允许传送最多的平面位置数S,将重要性映射图I中第S大的元素作为向量I二值化的阈值,将向量I二值化为掩码向量M;
步骤4-3、隐空间编码单元按照式子(7)提取增强层的元素,
Figure FDA0003975415280000061
其中,
Figure FDA0003975415280000062
为增强层待发送的元素,zi,j,l为ze的元素,Mi,j为M的元素;将提取到的增强层元素、向量M、基础层向量组成待发送向量。/>
CN202211533749.3A 2022-12-01 2022-12-01 一种应用于混合语境中的多码率深度图像压缩系统及方法 Pending CN115866265A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211533749.3A CN115866265A (zh) 2022-12-01 2022-12-01 一种应用于混合语境中的多码率深度图像压缩系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211533749.3A CN115866265A (zh) 2022-12-01 2022-12-01 一种应用于混合语境中的多码率深度图像压缩系统及方法

Publications (1)

Publication Number Publication Date
CN115866265A true CN115866265A (zh) 2023-03-28

Family

ID=85669100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211533749.3A Pending CN115866265A (zh) 2022-12-01 2022-12-01 一种应用于混合语境中的多码率深度图像压缩系统及方法

Country Status (1)

Country Link
CN (1) CN115866265A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117527900A (zh) * 2024-01-08 2024-02-06 季华实验室 数据处理方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117527900A (zh) * 2024-01-08 2024-02-06 季华实验室 数据处理方法、装置、设备及存储介质
CN117527900B (zh) * 2024-01-08 2024-05-07 季华实验室 数据处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110517329B (zh) 一种基于语义分析的深度学习图像压缩方法
US20200304865A1 (en) Techniques and apparatus for weighted-median prediction for point-cloud attribute coding
CN110363716B (zh) 一种基于条件生成对抗网络复合降质图像高质量重建方法
CN109889839B (zh) 基于深度学习的感兴趣区域图像编码、解码系统及方法
US10965948B1 (en) Hierarchical auto-regressive image compression system
Patel et al. Saliency driven perceptual image compression
CN111192211B (zh) 一种基于单个深度神经网络的多噪声类型盲去噪方法
CN111147862B (zh) 一种基于目标编码的端到端图像压缩方法
CN113163203B (zh) 深度学习特征压缩和解压缩方法、系统及终端
CN111630570A (zh) 图像处理方法、设备及计算机可读存储介质
CN113767635A (zh) 神经数据压缩的内容自适应优化
US20230216521A1 (en) Method and Apparatus for Neural Network Model Compression/Decompression
CN111970509B (zh) 一种视频图像的处理方法、装置与系统
CN114600457A (zh) 替换式端到端视频编解码
WO2022122965A1 (en) Method and data processing system for lossy image or video encoding, transmission and decoding
CN115866265A (zh) 一种应用于混合语境中的多码率深度图像压缩系统及方法
CN116600119B (zh) 视频编码、解码方法、装置、计算机设备和存储介质
CN115052147B (zh) 基于生成模型的人体视频压缩方法、系统
Li et al. Extreme underwater image compression using physical priors
CN111163320A (zh) 一种视频压缩方法及系统
CN114519750A (zh) 一种人脸图像压缩方法和系统
CN113949880A (zh) 一种极低码率人机协同图像编码训练方法及编解码方法
CN110276728B (zh) 一种基于残差生成对抗网络的人脸视频增强方法
CN113706641A (zh) 一种基于空间和光谱内容重要性的高光谱图像压缩方法
CN115866266A (zh) 一种应用于混合语境中的多码率深度图像压缩系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination