CN116939226A

CN116939226A - 一种面向低码率图像压缩的生成式残差修复方法及装置

Info

Publication number: CN116939226A
Application number: CN202310702149.3A
Authority: CN
Inventors: 马展; 孔玉卓; 陆明
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-10-24

Abstract

本发明提出一种面向低码率图像压缩的生成式残差修复方法及装置。该方法包括以下步骤：S1，通过一个端到端的智能图像编码系统得到在低码率时平滑且缺失高频信息的压缩图像；S2，使用生成式残差修复网络对压缩图像与原始图像的残差进行编码，并将解码得到的残差加回到压缩图像上得到重建图像；S3，引入判别器，使用生成对抗网络损失函数对生成式残差修复网络进行优化。本发明实现了更好的主观质量效果。

Description

一种面向低码率图像压缩的生成式残差修复方法及装置

技术领域

本发明涉及图像编码领域，特别涉及一种面向低码率图像压缩的生成式残差修复方法。

背景技术

有损压缩的目的是大幅减少数据量，同时保持一定的保真度，通过这种方式保证高效的存储和传输，因此有损图像压缩在有效管理互联网上爆炸性增长的图像方面起着关键作用。至今经典的图像压缩标准已经被专门开发并大量应用于实际应用，包括JPEG、WebP、BPG，以及最新的Versatile Video Coding(VVC)。而伴随着深度学习技术的精进，智能图像编码系统以卓越的压缩效率取得了令人欣喜的成绩。

但是在实践中，有损压缩不可避免地降低了图像重建的质量，而且随着压缩率的增加，质量急剧恶化，明显呈现出阻塞、带状和/或模糊的伪影。尽管最近的智能图像编码系统在一定程度上改善了图像质量，但是在低比特率下，由于高频分量的损失，特别是对于均方误差损失训练的模型，仍然会出现过度平滑和模糊的失真。

为了提高低比特率下压缩图像的质量，有工作表明使用基于生成对抗网络的损失来训练可以很大程度上保留高频信息，产生视觉上令人愉悦的重建。然而，用于监督图像像素重建的生成对抗损失常常导致假的纹理。

发明内容

本发明从一个新的角度来应对提高低比特率下压缩图像的质量这一挑战。与现有的生成性图像压缩方法不同的是，本发明提出在智能图像编码系统解码后的图像和未压缩的输入之间生成适当的剩余信号，以最好地恢复原始输入。本发明使用向量量化来处理上述的残差，进行高频信息补偿。为此，本发明学习了一个离散矢量码本，以最佳方式表示输入的残差。此外，本发明还加入了对抗性训练技术，以对模型进行微调，使其具有更好的感知质量。

为达到上述目的，本发明采用的技术方案为：

一种面向低码率图像压缩的生成式残差修复方法，该方法包括以下步骤：

S1，通过一个端到端的智能图像编码系统得到在低码率时平滑且缺失高频信息的压缩图像；

S2，使用生成式残差修复网络对压缩图像与原始图像的残差进行编码，并将解码得到的残差加回到所述压缩图像上得到重建图像；

S3，引入判别器，使用生成对抗网络损失函数对生成式残差修复网络进行优化。

进一步地，步骤S2中，所述生成式残差修复网络的具体处理步骤包括：

S21，将智能图像编码系统的输出图像与原始图像相拼接，并送入编码器对其进行非线性变换和降维得到中间向量；

S22，随机初始化一个码本，通过最邻近搜索将中间向量映射为码本中的一个向量，在训练的过程中不断更新码本使得码本中的向量与中间向量的欧式距离达到最小，并对该向量在码本中的索引进行编码得到码流；

S23，在解码端解析码流得到索引，并根据索引值查找码本得到对应的向量，替代成为解码端对应位置的向量。

进一步地，所述步骤S3具体包括：

S31，将步骤S2经过生成式残差修复网络后的残差图像与步骤S1的压缩图像相加得到重建图像，然后将重建图像与原始图像一起送入判别器中进行鉴别；

S32，使用生成对抗网络损失函数监督判别器参数的训练，对生成式残差修复网络进行优化，以产生更好的主观重建结果。

本发明还提供一种面向低码率图像压缩的生成式残差修复装置，该装置包括如下模块：

智能图像编码，用于获得低码率下平滑且缺失高频信息的压缩图像；

生成式残差修复模块，用于获得压缩图像和原始图像所缺失的纹理细节；

残差向量量化模块，用于将压缩图像和原始图像在通道维度进行拼接，得到重建图像。

进一步地，所述生成式残差修复模块包括基础层和增强层；

在基础层中，原始图像经过编码器被提取为高维的图像特征，然后经过量化器对编码器输出的特征向量进行数值量化和类型转换；量化后的特征会进入熵编/解码器对其进行无损编码，在熵模型的监督下去除编码冗余；最后经过解码器对存储着原始图像信息的压缩向量进行升维和非线性变换，最终输出压缩图像；

在增强层中，压缩图像和原始图像在通道维度进行拼接后通过残差向量量化模块得到压缩后的残差，并将其与基础层得到的残差进行相加构成重建图像。

进一步地，所述残差向量量化模块包括编码器、向量量化模块和生成器；编码器将智能图像编码系统的输出图像与原始图像相拼接并进行非线性变换，提取出高维的图像特征，再经过向量量化模块对图像特征进行量化，量化后的特征进入熵编/解码器对其进行无损编码，最后经过生成器对压缩图像进行进一步的恢复。

本发明的创新点以及优点在于：

(1)本发明提出了一个新的观点，即用分层的方法生成压缩图像，以便在低比特率下仍然能进行在保真度和感知度上都令人愉悦的重建。与以前的工作不同，本发明考虑了一种两层的方法，其中基础层使用现有的智能图像编码系统，而增强层通过使用可学习的码本中的离散向量代表基础层的粗略重建和未压缩输入之间的原始残差，来描述高频信息的细化。

(2)本发明在CLIC2020和Kodak等自然场景数据集以及CelebA等人脸数据集上进行了大量实验。结果显示，本发明在使用FID(Fréchet Inception Distance)和LPIPS(Learned Perceptual Image Patch Similarity)等感知指标衡量时表现出了有竞争力的性能，超过了当前最好的生成图像压缩方法。

(3)本发明方法是一个即插即用的方案，并可推广到大多数智能图像编码系统中，而且对低比特率下的不同压缩退化表现出强大的鲁棒性，无需重新训练。

附图说明

图1为本发明方法的系统结构框图；

图2为本发明实施例中生成式残差修复网络的流程图；

图3为本发明实施例中残差向量量化模块的算法流程图；

图4为本发明实施例中生成器中注意力模块和残差模块的具体结构图；

图5为本发明实施例中重建图像与传统压缩方法BPG和最先进的生成图像压缩方法HiFiC的对比图。

具体实施方式

下面参照附图详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

参照图1所示，输入的原始图像首先经过一个智能图像编码系统获得在低码率(通常情况下码率小于0.2bpp认为是低码率)时平滑且缺失高频信息的压缩图像；其次，压缩图像和原始图像拼接后送入生成式残差修复网络从而得到之前缺失的纹理细节；最后将纹理细节重新加回到压缩图像上得到最终的重建图像。主流的智能图像编码系统主要由编码器和解码器组成，与传统编码方式类似，其过程也可以被分为变换、量化、熵编码三个步骤。对于变换步骤，智能图像编码系统采用了深度神经网络将图像从像素域变换到特征域，以去除图像的像素冗余。对于量化步骤，绝大部分智能图像编码都采用了标量量化，并将深度神经网络输出的浮点数采用四舍五入的方式量化成整型数以便后续进行熵编码。智能图像编码系统大多采用算数编码作为熵编码方案，但其对变换域符号概率估计的方式有所不同，有采用可学习的固定概率分布对符号进行概率估计，也有使用超先验模型和自回归上下文模型等方式来进一步提升图像压缩性能。

参照图2所示，是生成式残差修复网络的具体结构图。主要分为基础层和增强层。在基础层中，原始图像经过由卷积层、归一化层和激活层组成的编码器被提取为高维的图像特征，然后经过量化器对编码器输出的特征向量进行数值量化和类型转换。量化后的特征会进入熵编/解码器对其进行无损编码，在熵模型的监督下去除编码冗余。最后经过同样由卷积层、归一化层和激活层组成的解码器对存储着原始图像信息的压缩向量进行升维和非线性变换，最终输出压缩图像。在增强层中，压缩图像和原始图像在通道维度进行拼接后，一起通过残差向量量化模块得到压缩后的残差，并将其与基础层得到的残差进行相加构成重建图像。为了更好的提升图像的主观质量效果，本发明引入判别器来生成尽可能真实的图像。在本发明中真实图像是输入图像，虚假图像是重建图像，生成器(残差向量量化模块中的结构)和判别器之间进行对抗训练，判别器的目标是尽可能准确地区分真实图像和虚假图像，而生成器的目标是尽可能生成能够骗过判别器的逼真图像。这种对抗训练机制促使生成器和判别器相互竞争和提升，最终达到生成高质量样本的目标。

参照图3所示，残差向量量化模块用于增加高频细节，具体的实现方法如下：

首先，原始图像和压缩图像的拼接图像经过编码器的非线性变换得到编码向量其中h和w分别对应原始图像经过四次下采样后的高和宽，d是向量维度。编码器主要包含四个尺度为2的下采样卷积层，每一个卷积层后都与通道归一化层和激活函数层相连接。其次会初始化一个符合高斯分布的长度为L，维度为d的码本/>其中c_k是码本向量，l是码本向量的个数，/>是实数集合。通过最近邻搜索算法来计算每一个编码向量与码本中所有向量欧氏距离，并选取距离最近的码本向量来替代成为解码向量Z_q，其中q表示量化，(i,j)代表位置为第i行第j列的像素，用公式表达为：

在训练的过程中会不断更新码本中的向量，并对该向量在码本中的索引进行编码得到码流。因为码本在编码端和解码端是共享的，所以在解码端解析码流得到索引后，就可以根据索引值查找码本得到对应的解码向量Z_q，解码向量会被送入生成器中以生成重建图像。生成器主要由一个注意力机制模块、五个残差模块和四个尺度为2的上采样卷积层组成。注意力机制模块的具体可以参考图4。

参照图4所示，是生成器中注意力机制模块和残差模块的具体结构。注意力机制模块包含三路并行的残差块，其中注意力机制模块中的激活函数是Sigmoid激活函数，残差模块中的激活函数是LeakyReLU激活函数。

参照图5所示，是为本发明方法的重建图像与使用了HEVC编码标准(HighEfficiency Video Coding)的传统压缩方法BPG(Fabrice Bellard.2014.BPG imageformat.https://bellard.org/bpg)和最先进的生成图像压缩方法HiFiC(FabianMentzer,George D Toderici,Michael Tschannen,and EirikurAgustsson.2020.High-fidelity generative image compression.Advances in Neural InformationProcessing Systems 33(2020),11913–11924)的主观质量对比图，其中剪裁图像下的注释表示整个图像的bpp/PSNR(dB)/MS-SSIM。可以看到，在文字纹理、车轮细节以及衣服条纹等细节上本发明方法的重建效果更好。

本发明提出了一种生成式残差修复方法，用于恢复现有的智能图像编码系统在低比特率下缺失的高频细节。本发明使用一个由离散矢量码字组成的可学习的码本，通过生成式对抗训练成功地紧凑地表示了高频残差。本发明在生成式图像压缩方面表现出令人信服和稳健的性能，并如表1所示，在码率为0.134bpp时在多个指标(如FID、LPIPS、PSNR和MS-SSIM)上定量地超过了最先进的生成图像压缩模型，明显改善了感知质量。此外，本发明可以轻松推广到其他流行的图像压缩模型，无需重新训练，在实践中可以即插即用。

表1本发明与HiFiC方法的客观指标的定量对比

	FID↓	LPIPS↓	MS-SSIM↑	PSNR↑
					HiFiC	20.758	0.094	0.929	27.511
本发明方法	20.243	0.091	0.932	27.874

Claims

1.一种面向低码率图像压缩的生成式残差修复方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种面向低码率图像压缩的生成式残差修复方法，其特征在于，步骤S2中，所述生成式残差修复网络的具体处理步骤包括：

3.根据权利要求1所述的一种面向低码率图像压缩的生成式残差修复方法，其特征在于，所述步骤S3具体包括：

4.一种面向低码率图像压缩的生成式残差修复装置，其特征在于，该装置包括如下模块：

5.根据权利要求4所述的一种面向低码率图像压缩的生成式残差修复装置，其特征在于，所述生成式残差修复模块包括基础层和增强层；

6.根据权利要求4所述的一种面向低码率图像压缩的生成式残差修复装置，其特征在于，所述残差向量量化模块包括编码器、向量量化模块和生成器；

编码器将智能图像编码系统的输出图像与原始图像相拼接并进行非线性变换，提取出高维的图像特征，再经过向量量化模块对图像特征进行量化，量化后的特征进入熵编/解码器对其进行无损编码，最后经过生成器对压缩图像进行进一步的恢复。

7.根据权利要求6所述的一种面向低码率图像压缩的生成式残差修复装置，其特征在于，所述生成器包括一个注意力机制模块、五个残差模块和四个尺度为2的上采样卷积层。