CN115866265A

CN115866265A - 一种应用于混合语境中的多码率深度图像压缩系统及方法

Info

Publication number: CN115866265A
Application number: CN202211533749.3A
Authority: CN
Inventors: 雷中岳; 洪学敏; 石江宏
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2022-12-01
Filing date: 2022-12-01
Publication date: 2023-03-28

Abstract

本发明一种应用于混合语境中基于残差增强掩码的多码率深度图像压缩系统，其包括深度图像编解码模块、潜在向量重要性分析模块和隐空间编码模块。其中，隐空间编码模块采用残差方式将隐空间向量分为基础层和增强层，消除了隐空间的冗余度提高了压缩效率；其中，基础层包含了原图像的全局特征，保证重建图像的整体感知效果，且包含了整体语义信息。而且本发明在进行图像压缩编码时，深度编码器进行一次编码得到潜在向量，通过隐空间编码实现码率和语境自适应，使得图像的压缩传输具有更高的实时性。

Description

一种应用于混合语境中的多码率深度图像压缩系统及方法

技术领域

本发明涉及图像压缩技术领域，具体是一种应用于混合语境中基于残差增强掩码的多码率深度图像压缩系统及方法。

背景技术

图像压缩技术使得海量图像信息能够在互联网传播，并节省大量的资源消耗。深度图像压缩算法(Deep image compression，DIC)采用深度神经网络进行图像压缩，其与传统的图像压缩算法有相似的框架。相对于传统的图像压缩算法采用逐一优化编解码过程中的各模块，深度图像压缩采用端到端学习的方式进行压缩算法的全局优化，使得压缩算法达到整体最优。同时，传统的图像压缩算法采用人工设计的压缩表示，而深度图像压缩根据特定应用场景的通过大量数据学习得到压缩表示。所以，在特定的应用场景中，深度图像压缩算法具有更加优越的性能。

将图像接收者对图像的不同用途定义为语境。在当前互联网上图像的传输往往被应用于多个用途，如一张实时的路面交通实况图，接收者可以用于路面拥堵情况判定、交通违规判定和记录保存等不同应用。混合语境下的图像压缩算法可以提高重建图像的效用，同时满足多个应用需求。在通信资源有限的实际应用中，混合语境下图像压缩方法应该具备多码率压缩以适应不同的通信资源。由于深度图像压缩模型在训练完成后，压缩向量的维度是固定的。为了实现多码率压缩，训练一系列的压缩模型显然是笨重、不可行的。当前，采用单个深度图像压缩模型实现多码率深度图像压缩的算法主要由两大类。第一类方法是基于编码器的多码率深度压缩算法，该类方法通过给编码器输入不同的条件生成不同码率下的压缩表示，解码端根据不同的压缩表示生成对应质量的重建图像。第二类方法是基于隐空间编码的多码率深度压缩，该类方法编码器生成统一的隐空间压缩表示，通过隐空间编码生成不同码率下的码流，解码端根据不同码流生成对应质量的重建图像。混合语境中，基于编码器的多码率压缩算法在码率和语境改变的情况下，需要重新生成压缩表示，这带来额外的开销和延迟。当前，基于隐空间编码的图像压缩方法都针对单一语境，无法适用混合语境下多码率的图像压缩需求。

发明内容

针对现有技术存在的问题，本发明的目的在于提供一种应用于混合语境中基于残差增强掩码的多码率深度图像压缩系统及方法，其能够快速适应不同语境不同码率的图像压缩，重建图像在通用的分类器下具有高分类精度以及高质量的视觉效果。

为实现上述目的，本发明采用的技术方案是：

一种应用于混合语境中基于残差增强掩码的多码率深度图像压缩系统，其包括深度图像编解码模块、潜在向量重要性分析模块和隐空间编码模块，

所述深度图像编解码模块包括深度编码器、量化器、熵编码器、熵解码器、潜在向量分层合并单元和深度解码器，深度编码器和深度解码器由训练收敛的深度卷积神经网络构成，深度卷积神经网络的参数采用端到端方式进行训练所得；

所述深度编码器，用于输入原图像x，并提取原图像x的特征生成潜在向量；

所述量化器，用于输入隐空间编码模块输出的待发送向量，并对待发送向量的每个元素进行标量量化处理；

所述熵编码器，用于输入量化后的待发送向量，并对该量化后的待发送向量进行熵编码，生成用于发送的码流；

所述熵解码器，用于接收熵编码器发送的码流，对码流进行熵解码并重建基础层向量和增强层向量；

所述潜在向量分层合并单元，用于输入重建的基础层向量和增强层向量，并将其合并以重建潜在向量；

所述深度解码器，用于输入重建的潜在向量，并对该重建的潜在向量进行深度图像压缩解码得到原图像的重建图像；

所述潜在向量重要性分析模块包括语义重要性分析单元、重建重要性分析单元和重要性映射图融合单元；

所述语义重要性分析单元，用于输入原图像x，并分析原图像中每个像素对图像分类结果的重要性程度并映射到潜在向量的每个平面位置，生成潜在向量的语义重要性映射图；

重建重要性分析单元，用于输入深度编码器输出的潜在向量，并分析潜在向量每个平面位置对图像重建的重要性大小，生成潜在向量的重建重要性映射图；

所述重要性映射图融合单元，用于输入潜在向量的语义重要性映射图和重建重要性映射图，并将两者进行融合处理，生成混合语境下的潜在向量重要性映射图；

所述隐空间编码模块包括潜在向量分层单元、隐空间掩码生成单元和编码单元；

所述潜在向量分层单元，用于输入潜在向量，并采用残差方法将潜在向量分解为基础层向量和增强层向量，基础层向量是原图像整体在隐空间的表示，增强层向量是原图中细节在隐空间的表示，然后根据目标码率的变化范围确定基础层向量和增强层向量的码率；

所述隐空间掩码生成单元，用于输入信道反馈的目标码率r和潜在向量重要性映射图I，计算当前信道资源下允许传送的最大潜在向量的元素个数，然后计算潜在向量重要性映射图二值化的阈值，并把重要性映射图二值化为隐空间掩码M；

所述编码单元，用于输入隐空间掩码、基础层向量和增强层向量，根据隐空间掩码从基础层向量和增强层向量中选择待发送至解码端的元素，生成待发送向量，该待发送向量包括了隐空间掩码、全部的基础层向量、以及增强层中掩码为1位置对应的元素。

所述深度编码器和深度解码器采用端到端方式进行迭代训练，在一次迭代训练过程中先训练鉴别器D，再训练由深度编码器和深度解码器构成的生成器G，训练生成器D时鉴别器G的参数不变，训练鉴别器G时生成器D的参数保持不变；深度编码器和深度解码器网络模型迭代训练的一次过程如下：

步骤S1、从训练集抽样一张输入图像x通过深度编码器生成潜在向量z，潜在向量分层单元基于残差技术将向量z分解为基础层向量z_b和增强层向量z_e；

步骤S2、随机采样与潜在向量平面维度相同的单通道掩码向量，该掩码向量与向量z_e每个通道平面相乘得到向量z_e1，随机掩码向量、基础层向量z_b和向量z_e1拼接组成向量

对向量/>

加噪以模拟量化过程；深度解码器分别输入加噪后的向量/>

分别得到重建图像y；

步骤S3、训练基于GAN的鉴别器D，计算鉴别器的每个参数对

的梯度，采用Adam优化器优化更新鉴别器D的参数；

步骤S4、训练由深度编码器和深度解码器构成的生成器G，生成器的损失函数为如式子(1)所示，

其中，

为向量/>

的码率，/>

为GAN损失项，/>

为重建损失项目，/>

为语义特征匹配损失项，λ_R、λ_MSE、λ_SFM、λ_GAN为各个损失项对应的权值；

其中，x、y为原图和重建图像，(H、W、3)为x、y的维度，ξ(·)为语义特征提取函数，H_ξ,W_ξ,C_ξ分别为语义特征向量的维度；

求解深度编码器和深度解码器每个参数对损失项的梯度，并采用Adam优化器进行参数优化更新。

所述语义重要性分析单元采用基于深度卷积网络分类器对输入图像进行分类，并采用基于梯度的类激活映射方法计算每个像素对分类结果的重要性，再根据卷积神经网络的空间不变性将像素重要性映射到隐空间，得到潜在向量语义重要性映射图。

所述重建重要性分析单元计算潜在向量每个平面位置上所有元素的方差，方差越大表明该位置熵越大，该位置的所有元素对重建越重要，对每个位置的方差值进行归一化得到重建重要性映射图。

一种应用于混合语境中基于残差增强掩码的多码率深度图像压缩方法，所述方法采用如上所述的深度图像压缩系统实现，具体包括以下步骤：

步骤1、将原图像x通过深度编码器生成潜在向量z，将潜在向量z输入到重建重要性分析单元和潜在向量分层单元；

步骤2、隐空间编码模块中潜在向量分层单元基于残差技术将潜在向量z分解为基础层向量z_b和增强层向量z_e；

步骤3、原图像x和潜在向量输入潜在向量重要性分析模块生成潜在向量重要性映射图I；

步骤4、隐空间编码模块根据潜在向量重要分析模块输出的潜在向量重要性映射图I和目标码率r生成隐空间掩码向量M，生成待发送向量

步骤5、量化器将待传送向量进行量化得到向量

步骤6、熵编码器采用自适应算术编码方法对向量

进行熵编码，生成码流，将码流经信道发送到熵解码器中；/>

步骤7、熵解码器对接收到的码流采用自适应算术解码算法并恢复向量M、基础层向量和增强层向量；

步骤8、潜在向量分层合并单元输入基础层向量和增强层向量，并进行重建，生成重建的潜在向量

步骤9、深度解码器输入重建的潜在向量和向量M生成重建图像y。

所述步骤3具体如下：

步骤3-1、图像x输入语义重要性分析单元进行潜在向量语义重要性分析得到隐空间潜在向量语义重要性映射图，记为向量e，采用自适应二值化算法将向量e二值化为向量B；

步骤3-2、重建重要性分析单元计算潜在向量z每个平面位置上C个元素值的方差组成潜在向量的方差向量v，将v作为重建重要性映射图；

步骤3-3、重要性映射图融合单元按照以下公式生成潜在向量重要性映射图I；

I＝(1+e)B+sigmoid(v)(1-B) (4)。

所述步骤4具体如下：

步骤4-1、隐空间掩码生成单元优先把码率分配给基础层，令α，β分别为待发送的基础层向量和增强层向量，基础层向量的码率为R(α)，增强层分配的码率为r':

r'＝r-R(α) (5)

其中，R(·)表示码率计算；

步骤4-2、给增强层分配码率时，最小分配粒度为潜在向量一个平面位置的C个元素值，根据当前的目标码率r确定允许传送最多的平面位置数S，将重要性映射图I中第S大的元素作为向量I二值化的阈值，将向量I二值化为掩码向量M；

步骤4-3、隐空间编码单元按照式子(7)提取增强层的元素，

其中，

为增强层待发送的元素，z_i,j,l为z_e的元素，M_i,j为M的元素；将增强层提取到的元素、向量M、基础层向量组成待发送向量。

采用上述技术方案后，本发明具有以下有益效果：

1、本发明采用残差方式将隐空间向量分为基础层和增强层，消除了隐空间的冗余度提高了压缩效率；

2、本发明压缩方法中基础层包含了原图像的全局特征，保证重建图像的整体感知效果，且包含了整体语义信息；

3、本发明采用GAN生成模型保证重建图像的分布与原图相近，进一步提升了重建图像的整体感知度；

4、本发明所提方法进行图像压缩编码时，深度编码器进行一次编码得到潜在向量，通过隐空间编码实现码率和语境自适应，使得图像的压缩传输具有更高的实时性。此外，该方式的码率和语境自适应更加适用于多播、广播场景，节省了大量的计算资源。

附图说明

图1是本发明一种应用于混合语境中基于残差增强掩码的渐进深度图像压缩方法的总体框架示意图；

图2是本发明中深度编解码网络模型训练过程示意图；

图3是实施案例深度编解码网络模型图；

下面将结合附图对本发明作进一步的详细说明。

具体实施方式

本发明揭示了一种应用于混合语境中基于残差增强掩码的多码率深度图像压缩系统，其包括深度图像编解码模块、潜在向量重要性分析模块和隐空间编码模块。

其中，深度图像编解码模块包括深度编码器、量化器、熵编码器、熵解码器、潜在向量分层合并单元和深度解码器，深度编码器和深度解码器由训练收敛的深度卷积神经网络构成，深度卷积神经网络的参数采用端到端方式进行训练所得。

深度编码器，用于输入原图像x，并提取原图像x的特征生成潜在向量。具体地，本实施例中，原图像x的维度为(H,W,3)，深度编码器对原图像x行8倍下采样，得到维度为

的潜在向量。为了适应不同信道情况和不同语境的需求，深度编码器生成的潜在向量需要送入隐空间编码模块进行进一步编码。

量化器，用于输入隐空间编码模块输出的待发送向量，并对待发送向量的每个元素进行标量量化处理，以降低待发送向量的熵以便在通信信道上传输。量化器为标量量化器，且在本实施例中量化级别为5，量化中心为{-2,-1,0,1,2}。

熵编码器，用于输入量化后的待发送向量，并对该量化后的待发送向量进行熵编码，生成用于发送的码流。该熵编码器为自适应算数编码器，此处进行编码是为了取出待发送向量的冗余，提高编码效率，该过程对于待发送向量中的信息是无损的。

熵解码器为自适应算数解码器，用于接收熵编码器发送的码流，对码流进行熵解码并重建基础层向量和增强层向量。

潜在向量分层合并单元，用于输入基础层向量和增强层向量，并将其合并以重建潜在向量。

深度解码器，用于输入重建的潜在向量，并对该重建的潜在向量进行深度图像压缩解码得到原图像的重建图像。具体地，本实施例中，深度解码器对重建的潜在向量进行8倍上采样生成原图像的重建图像。

潜在向量重要性分析模块包括语义重要性分析单元、重建重要性分析单元和重要性映射图融合单元。

其中，语义重要性分析单元，用于输入原图像x，并分析原图像中每个像素对图像分类结果的重要性程度并映射到潜在向量的每个平面位置，生成潜在向量的语义重要性映射图。具体地，本实施例的语义重要性分析单元采用VGG16对输入图像进行分类，并采用基于梯度的类激活映射(Class activation mapping，CAM)方法Grad-CAM++计算每个像素对分类结果的重要性，再根据卷积神经网络的空间不变性将像素重要性映射到隐空间，得到潜在向量语义重要性映射图。

重建重要性分析单元，用于输入深度编码器输出的潜在向量，并分析潜在向量每个平面位置对图像重建的重要性大小，生成潜在向量的重建重要性映射图。具体地，本实施例中，重建重要性分析单元计算潜在向量每个平面位置上所有元素的方差，方差越大表明该位置熵越大，该位置的所有元素对重建越重要，对每个位置的方差值进行归一化得到重建重要性映射图。

重要性映射图融合单元，用于输入潜在向量的语义重要性映射图和重建重要性映射图，并将两者进行融合处理，生成混合语境下的潜在向量重要性映射图。

隐空间编码模块包括潜在向量分层单元、隐空间掩码生成单元和编码单元。

其中，潜在向量分层单元，用于输入潜在向量，并采用残差方法将潜在向量分解为基础层向量和增强层向量，基础层向量是原图像整体在隐空间的表示，增强层向量是原图中细节在隐空间的表示，然后根据目标码率的变化范围确定基础层向量和增强层向量的码率。

隐空间掩码生成单元，用于输入信道反馈的目标码率r和潜在向量重要性映射图I，计算当前信道资源下允许传送的最大潜在向量的元素个数，然后计算潜在向量重要性映射图二值化的阈值，并把重要性映射图二值化为隐空间掩码M。

编码单元，用于输入隐空间掩码、基础层向量和增强层向量，根据隐空间掩码从基础层向量和增强层向量中选择待发送至解码端的元素，生成待发送向量，该待发送向量包括了隐空间掩码、全部的基础层向量、以及增强层中掩码为1位置对应的元素。即掩码为1位置对应的增强层向量元素需要发送至解码端，为0位置则不发送，将提取的增强层向量待发送元素，基础层向量全部元素和掩码拼接送入量化器。

本实施例中，深度编码器和深度解码器采用端到端方式进行迭代训练，所述深度编码器和深度解码器采用端到端方式进行迭代训练，在一次迭代训练过程中先训练鉴别器D，再训练由深度编码器和深度解码器构成的生成器G，训练生成器D时鉴别器G的参数不变，训练鉴别器G时生成器D的参数保持不变；采用ImageNet数据集作为训练集，输入图像的大小都调整为256×256，使用Adam优化器，学习率为2e-4，batchsize为1。如图2所示，深度编码器和深度解码器网络模型迭代训练的一次过程如下：

对向量/>

加噪以模拟量化过程；深度解码器分别输入加噪后的向量/>

分别得到重建图像y；

步骤S3、训练基于GAN的鉴别器D，训练D时根据实际需求选择不同类型的GAN损失项，如LSGAN、WGAN、infoGAN等，计算鉴别器的每个参数对

的梯度，采用Adam优化器优化更新鉴别器D的参数；

/>

其中，

为向量/>

的码率，/>

为GAN损失项，根据采用的不同GAN有不同的计算方法，/>

为重建损失项目，/>

继续参照图1并结合图3所示，基于上述系统，本发明还揭示了一种应用于混合语境中基于残差增强掩码的多码率深度图像压缩方法，其包括以下步骤：

步骤3、原图像x和增强层向量z_e输入潜在向量重要性分析模块生成潜在向量重要性映射图I；

步骤3-3、重要性映射图融合单元按照以下公式生成潜在向量重要性映射图I：

I＝(1+e)B+sigmoid(v)(1-B) (4)

r'＝r-R(α) (5)

其中，R(·)表示码率计算；

S由式6)得出，

/>

其中，P为向量M的元素数目，S为向量M中1位置的数目；

步骤4-3、隐空间编码单元按照式子(7)提取增强层的元素，

其中，

为增强层待发送的元素，z_i,j,l为z_e的元素，M_i,j为M的元素；将增强层提取到的元素、向量M、基础层向量组成待发送向量；

步骤5、量化器将待传送向量进行量化得到向量

步骤6、熵编码器采用自适应算术编码方法对向量

进行熵编码，生成码流，将码流经信道发送到熵解码器中；

步骤8、潜在向量分层合并单元输入基础层向量和增强层向量重建潜在向量并与向量M拼接生成向量

步骤9、深度解码器输入向量

生成重建图像y。

综上，本发明具有以下有益效果：

以上所述，仅是本发明实施例而已，并非对本发明的技术范围作任何限制，故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种应用于混合语境中基于残差增强掩码的多码率深度图像压缩系统，其特征在于：包括深度图像编解码模块、潜在向量重要性分析模块和隐空间编码模块，

2.根据权利要求1所述的一种应用于混合语境中基于残差增强掩码的多码率深度图像压缩系统，其特征在于：所述深度编码器和深度解码器采用端到端方式进行迭代训练，在一次迭代训练过程中先训练鉴别器D，再训练由深度编码器和深度解码器构成的生成器G，训练生成器D时鉴别器G的参数不变，训练鉴别器G时生成器D的参数保持不变；深度编码器和深度解码器网络模型迭代训练的一次过程如下：

对向量/>

加噪以模拟量化过程；深度解码器分别输入加噪后的向量/>

分别得到重建图像y；

步骤S3、训练基于GAN的鉴别器D，计算鉴别器的每个参数对

的梯度，采用Adam优化器优化更新鉴别器D的参数；

其中，

为向量/>

的码率，/>

为GAN损失项，/>

为重建损失项目，/>

其中，x、y为原图和重建图像，(H、W、3)为x、y的维度，ξ(·为语义特征提取函数，H_ξ,W_ξ,C_ξ分别为语义特征向量的维度；

3.根据权利要求1所述的一种应用于混合语境中基于残差增强掩码的多码率深度图像压缩系统，其特征在于：所述语义重要性分析单元采用基于深度卷积网络分类器对输入图像进行分类，并采用基于梯度的类激活映射方法计算每个像素对分类结果的重要性，再根据卷积神经网络的空间不变性将像素重要性映射到隐空间，得到潜在向量语义重要性映射图。

4.根据权利要求1所述的一种应用于混合语境中基于残差增强掩码的多码率深度图像压缩系统，其特征在于：所述重建重要性分析单元计算潜在向量每个平面位置上所有元素的方差，方差越大表明该位置熵越大，该位置的所有元素对重建越重要，对每个位置的方差值进行归一化得到重建重要性映射图。

5.一种应用于混合语境中基于残差增强掩码的多码率深度图像压缩方法，其特征在于：所述方法采用如权利要求1-4任一所述的深度图像压缩系统实现，具体包括以下步骤：