CN114549673B

CN114549673B - 一种基于学习频域信息预处理图像的图像压缩方法

Info

Publication number: CN114549673B
Application number: CN202210182212.0A
Authority: CN
Inventors: 朱策; 余启航; 姜泽宇; 刘翼鹏
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-02-25
Filing date: 2022-02-25
Publication date: 2023-06-23
Anticipated expiration: 2042-02-25
Also published as: CN114549673A

Abstract

本发明属于图像处理和神经网络技术领域，具体涉及一种基于学习频域信息预处理图像的图像压缩方法。本发明通过深度学习技术，对需要进行压缩的图像进行预先进行处理，随后对预处理后的图像进行压缩，无需对压缩后图像进行进一步的后处理的前提下，可以直接提高对应压缩方法的效果。本发明使用通过神经网络学习输入图像的频域信息，并建立频域信息与图像的可压缩性能之间的对应关系，使神经网络得以在图像可压缩性能和质量损失之间做权衡，从而能够对输入图像进行恰当的预处理来提高压缩的效果。

Description

一种基于学习频域信息预处理图像的图像压缩方法

技术领域

本发明属于图像处理和神经网络技术领域，具体涉及一种基于学习频域信息预处理图像的图像压缩方法。

背景技术

预处理/后处理优化用于图像压缩的原理：将图像编码器当作黑盒子，在压缩前对待压缩图像进行预处理得到预处理后图像，将预处理后图像用于压缩，在解码重建后对重建图像进行后处理操作来提高重建图像的质量。

因此预处理操作用于降低待压缩图像的复杂度，能够用较少的码字(BPP(bitsper pixel，平均每像素比特数，表示一张图像的经过编码后平均每个像素需要用多少比特去表示))来表示该图像压缩后的结果，在解压缩后通过后处理操作往往可以提高重建图像的质量，通过这种方式可以大大提高压缩方法的压缩性能。目前使用这种思路最为常见的例子就是变采样率压缩方法，将下采样操作作为预处理方法，上采样操作作为后处理方法，类似这种方法已经较为成熟，然而其缺陷在于解码端必须要进行上采样(后处理)，并且方法的性能也严重依赖上采样的性能，从而影响到该方法的实用价值。

仅仅只使用预处理，而不在解码后进行后处理的优点显而易见，即算法复杂度的提高，以及对硬件性能的需求仅仅只体现在编码端，二对于解码端只需要将其当成常规的码字进行解码即可，由于不需要再解码端(用户端)进行改动，因此对于用户终端设备而言，复杂度的增加是无感的，同时方法改进的灵活性得到了提升，方法进行迭代更新的阻力也更小。

上述方法的难点在于：给定输入图像I，对其进行预处理后得到图像Ipre，如何确保使用相同的BPP，对Ipre进行压缩后的压缩结果与对I进行压缩的结果相比具有更好的质量，即Ipre相比I变得更好压缩。由于图像被压缩后的BPP在压缩前无从得知，而压缩方法中本身是不可微的过程，所以其梯度无法在神经网络中通过反向传播来学习，因此关键点在于找到一种方法来衡量图像中内容的复杂度，复杂度越低，图像就能用越少的BPP进行表示。

现有的图像预处理方法：

为了解决上述的图像中内容的复杂度估计问题，“Klopp J P,Liu K C,Chen L G,et al.How to Exploit the Transferability of Learned Image Compression toConventional Codecs[C]//Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition.2021:16165-16174.”使用了深度学习图像编解码器作为“替代编解码器”，该图像编解码器由于是完全使用神经网络来对图像进行压缩的，因此其压缩过程也完全可导，从而可以得到用该编码器对于输入图像x的压缩结果的BPP，然后用该数值去代替其他所有的压缩方法的真实BPP值。

L＝R(DeepEnc(I_pre))+Q(I_pre,I)

上式为该方法的损失函数设计，其中DeepEnc表示基于深度学习的图像编解码器，Ipre为输入图像I经过前置预处理网络得到的预处理后图像，Q为图像间的质量评价准则，表示两张图像在某种特定的质量评价维度上的差异。预处理的神经网络学习的目标即在于在Q和R这两项优化目标之间进行权衡，按照优化目标对输入图像进行变换，随后再将输入图像用某种传统图像编解码器进行压缩，以此整体提升传统图像编解码器的质量。相对于传统编解码器对于图像质量评价指标的固定设计，这种基于预处理的图像编解码方法，通过在训练时指定不同的质量评价准则Q，可以按照不同质量评价准则的特点提高传统图像编解码器在不同质量评价准则下的性能。

此外，同样是为了解决图像中内容的复杂度估计问题，“Talebi H,Kelly D,LuoX,et al.Better compression with deep pre-editing[J].IEEE Transactions onImage Processing,2021,30:6673-6685”直接采用了一个可微分的JPEG图像编解码器，该图像编解码器完全由可微分的一系列操作实现，从而可以很自然的估计JPEG编解码器对图像压缩后的BPP，并由此指导对输入图像进行预处理变换的神经网络的学习。

“Klopp J P,Liu K C,Chen L G,et al.How to Exploit the Transferabilityof Learned Image Compression to Conventional Codecs[C]//Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition.2021:16165-16174.”采用基于深度学习的编解码器来近似其余的编解码器，模拟输入图像经过其压缩后的BPP信息，“Talebi H,Kelly D,Luo X,et al.Better compression with deep pre-editing[J].IEEE Transactions on Image Processing,2021,30:6673-6685.”则是直接用可微分的JPEG图像编解码器来帮助预处理网络进行训练，然而这两种方法都只是一种近似的替代方法，只能近似估计图像压缩后的BPP大小，且其估计数值也与图像压缩后的真实BPP数值不具有足够高的相关性。此外，这两种损失函数的复杂度都相对较高，大大增加了网络训练的复杂度。

现有方法在对输入图像进行预处理时普遍是基于图像的空域信息进行直接学习，图像的空域信息可以很好的指导图像的恢复和重建任务。由于现有的各种压缩方法在实际进行压缩时都会将图像从空域转换到频域，因此图像的空域信息即空域的RGB像素数值并不能直接反映图像是否易于压缩，而图像的频域信息，则能够直接的体现图像内容的复杂度，对于图像中平坦的部分，其高频分量就较少，而纹理复杂的部分则对应更多的高频信息。

因此从图像的频域信息出发，探究在某种质量评价准则下哪些频率的信息相对更重要，在码率预算不充分的情况下通过预处理预先保留相对重要的频率信息，舍弃相对不重要的频率信息，可以使后续压缩过程能够以相同的码率预算去保存图像中更加重要的部分。因此，本发明选择通过神经网络利用图像压缩后BPP大小相关密切的图像的频域信息来学习如何预处理待压缩图像来提高原有压缩方法的压缩性能。

发明内容

针对上述问题，本发明提供了一种通过学习频域信息对待压缩图像进行预处理后再进行压缩的图像压缩方法，本发明的技术方案为：

一种基于学习频域信息预处理图像的图像压缩方法，包括以下步骤：

S1、获取待编码的RGB格式图像或图像序列作为训练集；

S2、将待编码RGB图像转换到YCbCr色彩空间中；

S3、对输入图像I进行8×8分块，对每个8×8的输入图像进行DCT变换，得到变换后DCT系数；

S4、对DCT系数进行重排，将重排后的DCT系数矩阵送入神经网络进行学习，具体为：对变换后的每个8×8的DCT矩阵，分别将其每个坐标上对应的数据提取出来聚在一起，定义变换后总共有N个8×8的DCT系数矩阵，则重排后有192组(Y、Cb、Cr三个通道各64组数据)的N个数据，将这N个数据排列成

的二维图像，将DCT系数中的DC系数变换回空域得到原图像DC成分的空域表示，然后将重排的DCT系数送入神经网络，神经网络的输出与原图像直流DC成分的空域表示进行残差连接得到网络输出Ipre；

神经网络采用的损失函数为：

L＝Q+λL_dct+ηL_gate

其中，Q表示网络输出与原图像之间的质量损失，L_dct表示多余的DCT系数损失，用||(1-W_f)×DCT_grouped||₁进行计算，DCT_grouped表示经过重排的DCT系数数据。通过1减去采用通道注意力机制学习的DCT重排系数数据的每个通道的注意力权重W_f得到多余DCT系数的惩罚项，L_gate表示对激活的DCT通道数目的惩罚约束，其表示如下：

其中，G_i表示第i个通道是否被激活。通过该项可以约束网络使用尽可能少的通道数据从而学习到相对重要的通道信息。

神经网络在训练集上通过反向传播进行学习，并在损失函数的指导下网络得以在图像质量和不重要的DCT权重之间进行权衡，用原图像DC成分的空域表示作为变换的基础，学习到哪些频率系数的数据对于复原该图像更加重要，对于相对不重要的频率数据加以惩罚，使得网络最终输出的图像按照Q对不同频率系数的偏好，具有较少的不重要的频率信息。

S5、将需要压缩的图像输入训练好的神经网络，将得到的图像输入对应图像编解码器进行压缩。

本发明的有益效果为：1)使用变换并重组的DCT系数作为网络输入，通过学习频域信息来学习由输入图像的直流分量到预处理后图像的残差，使网络学习图像质量对不同频率信息的偏好，从而使得网络预处理后图像中更重要的频率信息部分得以保留，不重要的频率信息部分能够被预先去除，避免在编码时耗费多余的比特去表示它们，因此压缩方法的性能得到了提升。2)通过网络预处理后的图像能够结合多种不同的图像压缩方法，提高它们的压缩性能，而无需对这些压缩方法的内部算法进行任何的改动，本发明所提出的预处理算法可以基于某个图像质量评价指标同时优化不同的压缩方法，并且算法更新对解码端(用户端)无感知，具有较好的灵活性与泛用性。

附图说明

图1是本发明的方法流程示意图；

图2是本发明使用的神经网络模型结构示意图；

图3是神经网络的特征提取器的结构示意图；

图4是JPEG编码器,MS-SSIM指标评估结果示意；

图5是HEVC编码器,MS-SSIM指标评估结果示意；

图6是WebP编码器,MS-SSIM指标评估结果示意；

图7是JPEG-2000编码器,MS-SSIM指标评估结果示意。

具体实施方式

下面结合附图，对本发明技术方案进行详细描述：

如图1所示，为本发明的主要流程，其中训练流程用虚线部分表示；本发明基于重排的DCT系数，重排后输入数据的每个通道代表DCT8×8系数的一个固定坐标的所有数据，而不同位置的DCT系数正好可以表征图像某个频段的分量的大小，比如位于(0,0)坐标点的DCT系数值就表示原图像的直流DC分量的大小，而靠近右下角的DCT系数值则表征图像高频系数的大小。在各种传统编解码器中都使用了图像的频域信息来帮助编码，比如在JPEG编码标准中，就通过量化表的设计，在量化时表达了对不同位置的DCT系数的偏好，舍弃部分高频系数去除了噪声也尽可能在有损压缩图像时减少对图像视觉观感的影响。同理，重排后的数据在送入神经网络学习，结合现有的通道注意力机制，就可以有选择地学习不同位置系数值地权重，通过人工的手段帮助网络通过DCT频域系数学习图像信息，该方法的有效性在工作“Xu K,Qin M,Sun F,et al.Learning in the frequency domain[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition.2020:1740-1749.”中已经在图像分类任务中得到了验证，本发明也首次将其应用于对输入图像预处理的工作中来，也取得了有效的结果。

本发明采用的神经网络的整体结构和输入输出由图2所示，网络以DCT系数作为输入，首先通过特征提取器作为输入模块，提取输入DCT系数中的特征，随后该特征经过特征学习模块进行学习，最后通过特征重建模块重建为与原始图像尺寸一致的残差图像信息，将残差信息与原始图像进行连接即可得到重建图像。

如图3所示，特征提取器采用部分ResNet-50作为参考，去除了ResNet-50前面的降采样部分以及后面的部分Block，ResNet-50的官方实现中将其结构具体表示成了一个包含10个子模块的列表，这里采用了列表的第5到第7个模块作为特征提取器，并且在输入时使用Gate模块作为一种通道注意力机制针对输入数据的不同通道施加不同的注意力权重进行学习，这里也表示了不同频率的DCT频域对任务的重要程度的不同。

特征学习模块由6个ResNet-Block组成，主要是加深网络结构，对特征提取器提取出的特征进行进一步的学习，学习特征信息到不同特定任务评价指标的映射。

最后对特征学习模块学习到的信息在最后的特征重建模块通过像素重排(PixelShuffle)进行上采样，得到与原始图像数据相同尺寸的残差数据，将其与输入图像进行叠加，即可得到预处理后的图像数据Ipre。

本发明的损失函数设计要解决两个问题：

其一是预处理后图像Ipre与输入图像I在特定任务下的质量差异，所谓特定任务，即可理解为不同的任务下对质量评价的指标偏好的不同，比如部分场景需求直接的PSNR指标，而在一些场景中更加看重人眼视觉观感的质量，于是可以选择一些最新提出的基于神经网络的人眼视觉质量评价指标，也有一些场景并不在乎图像在人眼中的质量，而是需要将图像交给机器去看，机器用来完成图像分类、图像说明等机器视觉任务的质量，通过在不同的任务场景下选择不同的图像质量评价准则训练网络模型，然后压缩其预处理后的图像，使得传统图像编解码器得以针对特定任务进行优化。这个部分的损失函数设计根据具体任务而定，没有固定的定式，将其假定为Q。

其二是对待压缩图像的多余频率系数进行惩罚的惩罚项，本发明直接首先对变换后图像进行8×8的DCT变换，然后对得到的DCT变换系数进行重排，随后对得到的192维系数数据，在网络进行推理时得到的每个通道的注意力权重值，用1减去注意力权重值W_f可得到每个通道的惩罚权重：

L_dct＝||(1-W_f)×DCT_grouped||₁

用惩罚权重对重组后DCT系数进行加权，最后对其取1-范数。

为了避免网络为了损失降低而选择激活所有的通道系数，又对192维通道的系数之和进行了惩罚：

最后，本发明的损失函数可以表示为下式：

L＝Q+λL_dct+ηL_gate

三项损失间通过超参数λ和η进行平衡，λ和η分别设置为1和0.001，在训练过程中尽可能使总损失L达到最小。

本发明在验证时采用MS-SSIM评价指标进行验证，选择的数据集为“Agustsson E,Timofte R.Ntire 2017 challenge on single image super-resolution:Dataset andstudy[C]//Proceedings of the IEEE conference on computer vision and patternrecognition workshops.2017:126-135.”提供的Div-2K数据集，使用其训练集训练网络，并在测试集上进行测试。

采用Adam优化器对网络学习所需参数进行优化，初始网络学习率设置为0.0001，训练过程分为两个步骤，首先仅用损失函数的Q项进行预训练，以使得网络学习到如何在图像的DC分量的基础上添加高频信息来恢复图像，同时在Q项的指导下学习到不同频率的高频信息对于恢复图像的重要性的差别。接着以整体损失函数L进行训练，学习率设置为0.00001，训练10个世代(epoch)后降低到原有的十分之一，总共训练50个世代。训练和测试使用的图像大小均为128×128。

将本发明方法与四种图像压缩方法(HEVC、WEBP、JPEG、JPEG-2000)结合并相对原压缩方法进行对比测试，所得到的测试结果如图4-7所示，图中纵轴表示MS-SSIM指标结果，横轴表示表示图像所用的BPP，“Proposed”表示本发明提出方法对图像预处理后再在相应压缩方法下进行压缩的结果。可以看到本发明提出方法对这四种图像压缩方法均具有提升效果。

Claims

1.一种基于学习频域信息预处理图像的图像压缩方法，其特征在于，包括以下步骤：

S1、获取待编码的RGB格式图像或图像序列作为训练集；

S2、将待编码RGB图像转换到YCbCr色彩空间中；

S4、对DCT系数进行重排，将重排后的DCT系数矩阵送入神经网络进行学习，具体为：对变换后的每个8×8的DCT矩阵，分别将其每个坐标上对应的数据提取出来聚在一起，定义变换后总共有N个8×8的DCT系数矩阵，则重排后有192组的N个数据，将这N个数据排列成

神经网络采用的损失函数为：

L＝Q+λL_dct+ηL_gate

其中，Q表示网络输出与原图像之间的质量损失，L_dct表示多余的DCT系数损失，用||(1-W_f)×DCT_grouped||₁进行计算，DCT_grouped表示经过重排的DCT系数数据，通过1减去采用通道注意力机制学习的DCT重排系数数据的每个通道的注意力权重W_f得到多余DCT系数的惩罚项，L_gate表示对激活的DCT通道数目的惩罚约束，其表示如下：

其中，G_i表示第i个通道是否被激活；

神经网络在训练集上通过反向传播进行学习，并在损失函数的指导下网络得以在图像质量和DCT权重之间进行权衡，从而获得训练好的神经网络；

S5、将需要压缩的图像输入训练好的神经网络，将神经网络输出的图像输入对应图像编解码器进行压缩。