CN117173263B

CN117173263B - 基于增强型多尺度残差生成对抗网络的图像压缩方法

Info

Publication number: CN117173263B
Application number: CN202311421035.8A
Authority: CN
Inventors: 胡峰; 马婷; 刘友鑫; 刘博洋
Original assignee: Zhejiang Shitong Robot Technology Co ltd; Jiangsu Shitong Biotechnology Co ltd
Current assignee: Zhejiang Shitong Robot Technology Co ltd; Jiangsu Shitong Biotechnology Co ltd
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2024-02-02
Anticipated expiration: 2043-10-31
Also published as: CN117173263A

Abstract

本发明公开了基于增强型多尺度残差生成对抗网络的图像压缩方法，涉及图像压缩技术领域。为了解决低码率下更符合人类视觉感知的图像压缩的问题；基于增强型多尺度残差生成对抗网络的图像压缩方法，所述方法包括以下步骤：步骤一：构建图像压缩框架；步骤二：优化图像压缩框架；步骤三：获取压缩结果；在网络框架的自动编码器中，增强型多尺度残差块可以扩大感受野，更容易获得图像的全局信息；同时引入了简易注意力模块，帮助网络更加关注图像复杂的部分，减少简单部分的比特，采用全新的相对平均判别器，在网络框架中使用LPIPS感知损失来减轻图像伪影问题，采用两阶段训练的方式解决引入生成对抗网络导致训练不稳定的问题。

Description

基于增强型多尺度残差生成对抗网络的图像压缩方法

技术领域

本发明涉及图像压缩技术领域，特别涉及基于增强型多尺度残差生成对抗网络的图像压缩方法。

背景技术

随着深度学习技术的飞速发展，基于深度神经网络的图像压缩系统，或简称为深度压缩系统，已成为一个广受关注的研究领域。这些系统通常可以与现代工程编解码器竞争，然而，目前主流的深度压缩系统通常只针对传统失真度量进行优化，当图像压缩比较高时，图像会变得十分模糊。因此，为了进一步提升深度图像压缩系统的性能，使其能在低码率下获得高质量图像，寻找PSNR和MS-SSIM这类传统失真度量之外的新优化目标非常重要。实现这一目标的一个有希望的候选者是对抗性损失。

自从引入GAN以来，GAN在图像生成方面取得了快速进展。此外，对抗性损失还可用于改善基于神经网络压缩算法的图像视觉质量，然而该方法在其损失函数中未使用码率项进行稳定训练，这可能导致次优码率。现有技术中，基于GAN的生成压缩方法，以端到端的方式训练整个编码器和解码器网络，在极低的码率下生成视觉感知上细腻的压缩重建。上述方法改善了基于GAN的网络框架训练困难的问题，然而，这些方法均忽略了压缩导致的图像伪影问题。

发明内容

本发明的目的在于提供基于增强型多尺度残差生成对抗网络的图像压缩方法，由目前最先进的自动编码器和一个判别器所构成网络框架，自动编码器结构中加入了改进的增强型多尺度残差块和简易的注意力模块以提升模型性能，能够在低码率下重建出具有更好感知质量的图像，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

1.基于增强型多尺度残差生成对抗网络的图像压缩方法，其特征在于：所述方法包括以下步骤：

步骤一：构建图像压缩框架：所述框架包括自动编码器和判别器，其中，自动编码器由核心子网和超子网组成，核心子网包括编码器和生成器，超子网包括超编码器和超解码器；

针对步骤一中，所述图像压缩框架，其具体流程过程包括：

输入图像x，通过所述编码器进行网络学习，输出潜在表示为y；

将熵模型学习量化后，获取量化后的潜在表示的概率模型，并将所述概率模型用于熵编码，基于所述熵编码得到量化的图像表示为；

所述超编码器中z为边信息，基于所述熵编码得到对应量化值表示为；

最终经过生成器得到重建图像/>；

输入图像x和重建图像分别输入至判别器中进行判别；

其中，所述编码器包括四个降维作用的卷积层，末端为瓶颈层;

针对步骤一中的判别器，用于预测真实图像比假图像相对更真实的概率，所述判别器损失定义为：

所述生成器的对抗性损失公式呈对称形式：

其中，表示对一批数据中所有真数据取平均值的操作，/>表示对一批数据中所有假数据取平均值的操作，/>的输出是一个矩阵不是单个值，矩阵中的每个值对应于判别器的整个输入图像的一个图像块，所述判别器尝试对图像中的每个图像块进行真假分类，并在图像块的规模上对结构进行惩罚;

针对步骤一中所述图像压缩框架，还包括所述框架的目标损失，具体为：码率损失、失真损失、感知损失和对抗性损失；

对于所述失真损失，即采用均方差损失，其表示为：

对于所述感知损失，即采用学习的学习感知图像块相似度损失；

对于所述对抗性损失，即采用平均相对论损失；

总体目标函数表示为：

其中，指的是码率损失，/>指的是失真损失，/>指的是感知损失，/>指的是对抗损失，/>与/>、/>、/>为超参数;

步骤二：优化图像压缩框架：在所述框架中插入增强型多尺度残差块和简化注意力模块，采用相对平均马尔可夫判别器将压缩模型关注图像细节；

针对步骤二中，在所述框架中插入增强型多尺度残差块，具体为：

在所述增强型多尺度残差块中，包括增强型多尺度残差块的输入M_a与输出M_b，和一个具有不同卷积核大小k的双分支网络；

所述双分支网络获取不同尺度的全局信息，在一级卷积块中引入1*1的卷积块并在所述1*1的卷积块中加入广义分裂的标准化算子，获取所述双分支网络的输出数据，并将所述双分支网络的输出数据连接；

将所述双分支网络的输出数据分别处理后传至下一级卷积块，再次将双分支网络的输出数据连接起来并再次处理，获得最终的输出M_b，同时，添加快捷连接将所述输入M_a加到最终的输出M_b中;

针对步骤二中，简化注意力模块，具体为：

在简化注意力模块中，包括获取注意力模块的通道数N、输入N_a与输出N_b，和多个残差块；

所述注意力模块获取输入N_a，去除部分残差块，基于网络框架训练简化注意力模块，获得最终的输出N_b，同时，添加快捷连接将所述输入N_a加到最终的输出N_b中;

步骤三：获取压缩结果：引入学习的学习感知图像块相似度感知损失来减轻图像伪影，并采用两阶段训练方式进行稳定训练，获取基于增强型多尺度残差生成对抗网络的图像压缩生成的压缩图像;

针对步骤三中，采用两阶段训练方式进行稳定训练，其过程具体包括：

从互联网上收集大量的高分辨率图像组成训练集，将所述训练集中的高分辨率图像缩小至500到1000像素之间的随机大小；

随机裁剪缩小后的所述高分辨率图像生成256*256的统一图像，进行训练；

模型训练完成后，利用独立于训练数据集的基准数据集对所得到的模型进行评估与比较，并验证压缩模型的效果。

进一步的，所述增强型多个残差块通过附加的快捷连接串联，所述增强型多尺度残差块在编码器和生成器中不对称使用，所述编码器采用一级增强型多尺度残差块，所述生成器采用两级增强型多尺度残差块。

进一步的，在训练过程中，将批量大小设置为8，采用优化器训练网络，=0.9，=0.999，初始学习率设置为/>，在500k迭代时减半；

将设置为/>，/>设置为1，/>设置为/>，N=192；

对于不同码率，保持各个相对固定，并调整/>：

设置为[2.2，2.8]，则将低码率约束为0.1；

设置为[1.2，1.6]，则将中等码率约束为0.25；

设置为[0.5，0.8]，则将高码率约束为0.4。

进一步的，针对步骤三中，获取基于增强型多尺度残差生成对抗网络的图像压缩生成的压缩图像后，还包括：

采用学习感知图像块相似度评价指标对所述压缩模型进行评价，所述学习感知图像块相似度评价指标的值越低表示两张图像越相似，反之，则差异越大，所述学习感知图像块相似度评价指标的计算公式为：

基于学习感知图像块相似度评价指标通过调整相关参数得到压缩比的模型，绘制出码率失真曲线和码率感知曲线。

与现有技术相比，本发明的有益效果是：

在网络框架的自动编码器中，增强型多尺度残差块可以扩大感受野，更容易获得图像的全局信息，同时引入了简易注意力模块，帮助网络更加关注图像复杂的部分，减少简单部分的比特，判别器部分采用全新的相对平均判别器，在网络框架中使用LPIPS感知损失来减轻图像伪影问题，采用两阶段训练的方式解决引入生成对抗网络导致训练不稳定的问题，实验结果表明在低码率下所提出模型的有效性，与之前的工作相比，所提出的方法在感知失真指标上表现更加优异，性能提升了65%左右，重建图像更符合人类视觉感知。

通过构件图像压缩框架，在编码器网络中采用了一个阶段的增强型多尺度残差块来提高网络的压缩性能，采用了两个阶段的多尺度残差块来增强生成图像重建效果，以提高生成图像的质量，通过注意力模块帮助网络更加关注具有挑战性的部分，减少简单部分的比特，通过去除非局部块和部分残差块来简化该模块，在复杂度适中的情况下也可以减少损失。

通过使用对抗性训练来充分利用生成器的生成能力并输出更逼真的图像，使用马尔可夫判别器不仅可以重新训练更多的纹理，而且参数更少，可以应用于任意大的图像，采用LPIPS损失可以减轻图像伪影，两阶段训练避免了直接优化在码率、失真和感知之间的三重权衡，在第一阶段之后，生成器可以重建令人信服的图像，第二阶段判别器在开始训练时也不能轻易区分出图片的真假，使对抗训练更加平衡。

实验中通过调整相关参数得到多个不同压缩比的模型，从而绘制出码率失真曲线和码率感知曲线并且与不同的压缩方法进行了对比，学习感知图像块相似度评价指标通过引入生成对抗网络的方法，提升了压缩图像的感知质量，使码率、失真、感知三者达到了比较好的平衡，基于增强型多尺度残差生成对抗网络的图像压缩方法在低码率下仍然能够展现出在感知上高质量、高保真的压缩图像；在适中的率失真情况下，可以生成更加清晰的纹理，产生更加逼真的细节信息,并且压缩伪影的问题也得到了极大的改善。

附图说明

图1为本发明的基于增强型多尺度残差生成对抗网络的图像压缩方法流程图；

图2为本发明的基于生成对抗网络的图像压缩的图像压缩框架图；

图3为本发明的增强型多尺度残差块架构图；

图4为本发明的简化注意力模块架构图；

图5为本发明的不同压缩方法在相近码率下的图像重建效果比较图。

实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决目前主流的深度压缩系统通常只针对传统失真度量进行优化，当图像压缩比较高时，图像会变得十分模糊的技术问题，请参阅图1-图4，本实施例提供以下技术方案：

基于增强型多尺度残差生成对抗网络的图像压缩方法，所述方法包括以下步骤：

所述图像压缩框架，其具体流程过程包括：

最终经过生成器得到重建图像/>；

输入图像x和重建图像分别输入至判别器中进行判别；

其中，所述编码器包括四个降维作用的卷积层，末端为瓶颈层；

在所述框架中插入增强型多尺度残差块，具体为：

所述双分支网络获取不同尺度的全局信息，在所述一级卷积块中引入1x1的卷积块并在所述1x1的卷积块中加入广义分裂的标准化算子，获取所述双分支网络的输出数据，并将所述双分支网络的输出数据连接；

将所述双分支网络的输出数据分别处理后传至下一级卷积块，再次将双分支网络的输出数据连接起来并再次处理，获得最终的输出M_b，同时，添加快捷连接将所述输入M_a加到最终的输出M_b中；

所述增强型多个残差块通过附加的快捷连接串联，所述增强型多尺度残差块在编码器和生成器中不对称使用，所述编码器采用一级增强型多尺度残差块，所述生成器采用两级增强型多尺度残差块；

简化注意力模块，具体为：

所述注意力模块获取输入N_a，去除部分残差块，基于网络框架训练简化注意力模块，获得最终的输出N_b，同时，添加快捷连接将所述输入N_a加到最终的输出N_b中；

步骤三：获取压缩结果：引入学习的学习感知图像块相似度感知损失来减轻图像伪影，并采用两阶段训练方式进行稳定训练，获取基于增强型多尺度残差生成对抗网络的图像压缩生成的压缩图像。

在一个实施例中，所述熵模型采用高斯混合模型，如公式所示：

上述公式通常指的是连续值，但是量化后的离散值；所述熵模型被表述为：

其中，表示服从高斯分布，/>表示混合模型中高斯模型的数量，/>表示不同高斯模型的权重，/>表示高斯模型的均值，/>表示高斯模型的方差。

在一个实施例中，所述多尺度残差块即MSRB，增强型多尺度残差块即EMSRB，学习的学习感知图像块相似度即LPIPS；

具体的，在网络框架的自动编码器中，增强型多尺度残差块可以扩大感受野，更容易获得图像的全局信息，同时引入了简易注意力模块，帮助网络更加关注图像复杂的部分，减少简单部分的比特，判别器部分采用全新的相对平均判别器，在网络框架中使用LPIPS感知损失来减轻图像伪影问题，采用两阶段训练的方式解决引入生成对抗网络导致训练不稳定的问题，实验结果表明在低码率下所提出模型的有效性，与之前的工作相比，所提出的方法在感知失真指标上表现更加优异，性能提升了65%左右，重建图像更符合人类视觉感知；

通过构件图像压缩框架，在编码器网络中采用了一个阶段的增强型多尺度残差块来提高网络的压缩性能，EMSRB在编码器和生成器中不对称地使用，编码器采用一级EMSRB保证其学习能力的情况下降低了网络框架的复杂性，而生成器采用两级EMSRB，采用了两个阶段的多尺度残差块来增强生成图像重建效果，以提高生成图像的质量，通过注意力模块帮助网络更加关注具有挑战性的部分，减少简单部分的比特，非局部注意力模块的训练非常耗时，因此采用简化后的注意力模块，通过去除非局部块和部分残差块来简化该模块，通过简单的网络框架对比训练非局部注意力模块和简化注意力模块，所采用的简化注意力模块训练时间大大缩短，在复杂度适中的情况下也可以减少损失，然后将简化的注意力模块插入核心子网中。

为了解决在现有技术的损失函数中未使用码率项进行稳定训练，这可能导致次优码率的技术问题，请参阅图1-图4，本实施例提供以下技术方案：

所述生成器的对抗性损失公式呈对称形式：

其中，表示对一批数据中所有真数据取平均值的操作，/>表示对一批数据中所有假数据取平均值的操作，/>的输出是一个矩阵不是单个值，矩阵中的每个值对应于判别器的整个输入图像的一个图像块，所述判别器尝试对图像中的每个图像块进行真假分类，并在图像块的规模上对结构进行惩罚；

对于所述失真损失，即采用均方差损失，其表示为：

对于所述对抗性损失，即采用平均相对论损失；

总体目标函数表示为：

其中，指的是码率损失，/>指的是失真损失，/>指的是感知损失，/>指的是对抗损失，/>与/>、/>、/>为超参数；

随机裁剪缩小后的所述高分辨率图像生成256×256的统一图像，进行训练；

在训练过程中，将批量大小设置为8，采用优化器训练网络，=0.9，/>=0.999，初始学习率设置为/>，在500k迭代时减半；

将设置为/>，/>设置为1，/>设置为/>，N=192；

对于不同码率，保持各个相对固定，并调整/>：

设置为[2.2，2.8]，则将低码率约束为0.1；

设置为[1.2，1.6]，则将中等码率约束为0.25；

设置为[0.5，0.8]，则将高码率约束为0.4；

具体的，通过使用对抗性训练来充分利用生成器的生成能力并输出更逼真的图像，使用马尔可夫判别器不仅可以重新训练更多的纹理，而且参数更少，可以应用于任意大的图像，采用LPIPS损失可以减轻图像伪影，通过首先训练一个不包含对抗网络的基准模型，然后利用该基准模型的参数初始化并训练包含对抗网络的完整模型，两阶段训练避免了直接优化在码率、失真和感知之间的三重权衡，通过实验，该模型经过两个阶段训练，对于稳定训练是有效的，并且训练好的基准模型可以用于对比实验，在第一阶段之后，生成器可以重建令人信服的图像，第二阶段判别器在开始训练时也不能轻易区分出图片的真假，使对抗训练更加平衡。

为了解决以端到端的方式训练整个编码器和解码器网络，在极低的码率下生成视觉感知上细腻的压缩重建，忽略了压缩导致的图像伪影问题的技术问题，请参阅图1-图5，本实施例提供以下技术方案：

针对步骤三中，获取基于增强型多尺度残差生成对抗网络的图像压缩生成的压缩图像后，还包括：

在一个实施例中，采用峰值信噪比和多尺度结构相似性以及学习感知图像块相似度评价指标分别对所述压缩模型进行评价；

所述峰值信噪比通过均方差进行定义，在两张m×n的单色图像表示为I和K，若I为K的噪声近似，则定义如下：

均方差定义为：

峰值信噪比定义为：

其中，是表示图像点颜色的最大数值；

所述多尺度结构相似性为计算多个尺度下的结构相似性数值，并汇总所述结构相似性数值得到指标分数，所述结构相似性的公式表示为：

其中，和/>分别代表x和y的平均值，/>和/>分别代表x和y的标准差，/>代表x和y的协方差，/>和/>分别为常数，避免分母为0；

所述多尺度结构相似性指标的数值范围在0-1之间，多尺度结构相似性指标结果的差异性，表示以dB为单位的多尺度结构相似性指标，变换公式如下：

所述峰值信噪比通过计算待评价图像与参考图像之间像素误差的全局大小衡量图像质量好坏，峰值信噪比的值越大，则表明待评价图像与参考图像之间的失真较小，图像质量较好；类似的，所述多尺度结构相似性指标的值越大，表明图像质量越好；所述学习感知图像块相似度评价指标的值越低表示两张图像越相似，反之，则差异越大。

在一个实施例中，采用基于增强型多尺度残差生成对抗网络的图像压缩方法得到的重建图像kodim02大小约为0.102bpp，压缩比约为235:1，kodim04大小约为0.105bpp，压缩比约为229:1，kodim07大小也约为0.105bpp，压缩比约为229:1，kodim21大小约为0.110bpp，压缩比约为218。

具体的，实验中通过调整相关参数得到多个不同压缩比的模型，从而绘制出码率失真曲线和码率感知曲线并且与不同的压缩方法进行了对比，上述峰值信噪比和多尺度结构相似性两类评价指标数值降低是因为加入的对抗网络模型为生成模型，生成的结果往往都是趋于平滑的，而图像平滑又会导致传统评价指标效果变差，而学习感知图像块相似度评价指标在感知质量上有大幅提升，通过引入生成对抗网络的方法，提升了压缩图像的感知质量，尽管图像仍会有一些细微的失真，但使码率、失真、感知三者达到了比较好的平衡，通过实验结果说明，相比之前的传统方法以及最近的基于深度学习的压缩方法，基于增强型多尺度残差生成对抗网络的图像压缩方法在低码率下仍然能够展现出在感知上高质量、高保真的压缩图像；在适中的率失真情况下，可以生成更加清晰的纹理，产生更加逼真的细节信息,并且压缩伪影的问题也得到了极大的改善。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

针对步骤一中，所述图像压缩框架，其具体流程过程包括：

最终经过生成器得到重建图像/>；

输入图像x和重建图像分别输入至判别器中进行判别；

针对步骤一中的判别器，用于预测真实图像比假图像相对更真实的概率，所述判别器损失定义为：所述生成器的对抗性损失公式呈对称形式：/>其中，/>表示对一批数据中所有真数据取平均值的操作，/>表示对一批数据中所有假数据取平均值的操作，/>的输出是一个矩阵不是单个值，矩阵中的每个值对应于判别器的整个输入图像的一个图像块，所述判别器尝试对图像中的每个图像块进行真假分类，并在图像块的规模上对结构进行惩罚;

对于所述失真损失，即采用均方差损失，其表示为：

对于所述对抗性损失，即采用平均相对论损失；

总体目标函数表示为：其中，/>指的是码率损失，/>指的是失真损失，/>指的是感知损失，/>指的是对抗损失，/>与/>、/>、/>为超参数;

针对步骤二中，简化注意力模块，具体为：

2.如权利要求1所述的基于增强型多尺度残差生成对抗网络的图像压缩方法，其特征在于：所述增强型多个残差块通过附加的快捷连接串联，所述增强型多尺度残差块在编码器和生成器中不对称使用，所述编码器采用一级增强型多尺度残差块，所述生成器采用两级增强型多尺度残差块。

3.如权利要求2所述的基于增强型多尺度残差生成对抗网络的图像压缩方法，其特征在于：在训练过程中，将批量大小设置为8，采用优化器训练网络，=0.9，/>=0.999，初始学习率设置为/>，在500k迭代时减半；

将设置为/>，/>设置为1，/>设置为/>，N=192；

对于不同码率，保持各个相对固定，并调整/>：

设置为[2.2，2.8]，则将低码率约束为0.1；

设置为[1.2，1.6]，则将中等码率约束为0.25；

设置为[0.5，0.8]，则将高码率约束为0.4。

4.如权利要求3所述的基于增强型多尺度残差生成对抗网络的图像压缩方法，其特征在于：针对步骤三中，获取基于增强型多尺度残差生成对抗网络的图像压缩生成的压缩图像后，还包括：

采用学习感知图像块相似度评价指标对所述压缩模型进行评价，所述学习感知图像块相似度评价指标的值越低表示两张图像越相似，反之，则差异越大，所述学习感知图像块相似度评价指标的计算公式为：基于学习感知图像块相似度评价指标通过调整相关参数得到压缩比的模型，绘制出码率失真曲线和码率感知曲线。