CN114037071A

CN114037071A - 获取用于图像前处理以抵抗jpge压缩失真的神经网络的方法

Info

Publication number: CN114037071A
Application number: CN202111112334.4A
Authority: CN
Inventors: 董理; 王冬华; 鲁宁; 徐哲润
Original assignee: Ningbo University
Current assignee: Ningbo University
Priority date: 2021-09-18
Filing date: 2021-09-18
Publication date: 2022-02-11
Anticipated expiration: 2041-09-18
Also published as: CN114037071B

Abstract

本发明涉及一种获取用于图像前处理以抵抗JPGE压缩失真的神经网络的方法，所述方法包括S1、随机选取训练集中的m个无损图像{x⁽¹⁾，x⁽²⁾，...，x^(m)}输入待训练的神经网络ProNet进行图像预处理，并输出m个预处理图像

其中，所述待训练的神经网络ProNet为具有自编码器结构的神经网络；S2、将m个预处理图像

输入可微分的JPEG模块DJPEG中进行压缩，得到m个压缩图像{x′⁽¹⁾，x′⁽²⁾，...，x′^(m)}；S3、计算无损图像{x⁽¹⁾，x⁽²⁾，...，x^(m)}与压缩图像{x′⁽¹⁾，x′⁽²⁾，...，x′^(m)}之间的损失函数

其中，

为感知损失，

为内容损失，α为权重；S4、依据S3计算出的损失函数更新待训练的神经网络ProNet，得到网络参数θo，o∈[0，Q‑1]；S5、跳转执行S1‑S4进行下一轮迭代，直至完成Q次迭代操作，得到最终的神经网络ProNet的网络参数θ_Q‑1。该方法能提高图像传输压缩质量。

Description

获取用于图像前处理以抵抗JPGE压缩失真的神经网络的方法

技术领域

本发明涉及图像处理领域，尤其涉及一种获取用于图像前处理以抵抗JPGE压缩失真的神经网络的方法。

背景技术

随着智能手机中相机硬件的发展，单张照片所占用的内存也不断增大，当这些照片在信道上传输时，需要占用大量的传输空间和存储空间，增加相关内容服务提供商的存储成本。解决该问题最直接的方式是在传输前对照片进行压缩，以减少照片所占内存。

JPEG压缩技术是图像中最常见也最通用的图像压缩技术，它以不同的压缩因子来控制压缩强度，其具体的压缩流程一般如图1所示，即编码过程首先将RGB格式的图像转换为YCrCb格式，然后进行分块和离散余弦变换(DiscreteCosineTransform，DCT)，再对DCT系数进行量化，最后将量化后的系数进行熵编码。解码过程则是，先进行熵解码得到DCT系数，然后将解码后的DCT系数进行逆DCT变换，转换到像素空间，最后将得到的像素块组成图像，并由YCrCb格式转换回RGB格式，得到JPEG压缩后的图像。

但是，在JPEG压缩流程中，量化操作是有损的，同时也是不可微的，由于量化的影响，每个8*8块的像素区域边界均会出现失真，高强度的压缩因子会极大地损害图像的质量，对图像会造成不可逆的损害，这将极大影响照片再次出现在公共信道中的视觉质量。

为了解决JPEG压缩失真问题，研究者提出了不少解决方案，比如采用神经网络对JPEG压缩图像进行后处理操作、在服务器端设置预处理滤波器而在用户端部署后处理滤波器对JPEG压缩图像进行处理以及采用形变神经网络对原始图像进行预处理等。

然而，这些方法在实际应用场景中，要么对用户层面不友好，要么造成用户端计算量增加，限制了方案实际应用场景，要么会使图像局部结构发生几何形变，造成图像结构不自然的形变，影响用户图片理解。

同时，这些方法没有考虑到，在实际场景中图片由内容提供商决定，用户无法控制被压缩以后的图像，用户想要改变压缩后图像的质量，只能从图像被上传到内容提供商之前对图像进行修改。此外，图像上传到运营商服务器，然后出现在公共信道中，需要经过两次公共信道等问题。

发明内容

鉴于上述问题，本发明的目的在于提供一种获取可对待上传图像进行修改，以使图像能够抵抗公共信号中的压缩，保证上传到内容提供商的图像质量和视觉质量，适用范围广，可操作性强的神经网络的方法。

为了实现上述目的，本发明的技术方案为：一种获取用于图像前处理以抵抗JPGE压缩失真的神经网络的方法，其特征在于：所述方法包括，

S1、随机选取训练集中的m个无损图像{x⁽¹⁾，x⁽²⁾，...，x^(m)}输入待训练的神经网络ProNet进行图像预处理，并输出m个预处理图像

其中，所述待训练的神经网络ProNet为具有自编码器结构的神经网络；

S2、将m个预处理图像

输入可微分的JPEG模块DJPEG中进行压缩，得到m个压缩图像{x′⁽¹⁾，x′⁽²⁾，...x′^(m)}；

S3、计算无损图像{x⁽¹⁾，x⁽²⁾，...x^(m)}与压缩图像{x′⁽¹⁾，x′⁽²⁾，...x′^(m)}之间的损失函数

其中，

为感知损失，

为内容损失，α为权重；

S4、依据S3计算出的损失函数更新待训练的神经网络ProNet，得到网络参数θo，o∈[0，Q-1]；

S5、跳转执行S1-S4进行下一轮迭代，直至完成Q次迭代操作，得到最终的神经网络ProNet的网络参数θ_Q-1。

进一步的，所述神经网络ProNet的编码部分由ResNet18网络模块构成而解码部分由BasicLayer模块和上采样层Upsample模块组成；

所述BasicLayer模块由卷积层和ReLU激活函数组成。

进一步的，所述可微分的JPEG模块DJPEG采用启发性近似量化函数，具体为「x」_approx＝「x」+(x-「x」)³，其中，x指代图像，「·」表示取整函数，其导数为0。

进一步的，所述感知损失

采用VGG网络作为基准模型，其具体计算方式如下，

其中，

和

分别表示图像x和图像

在VGG19第l层的特征图，其中，

Hl、Wl、Cl分别为第l层特征图像的高、宽和通道，

所述内容损失

计算公式为

其中，x_i，j，k表示第k通道中第i行第j列的像素值，i∈[1，224]，j∈[1，224]，k∈[1，3]。

进一步的，所述S4中的更新待训练的神经网络ProNet，得到网络参数θo，具体采用公式

实现，其中，η为学习率，取值为1e-4。

进一步的，所述训练集中的图像由s个无损压缩图像经过数据增强操作得到。

进一步的，所述数据增强操作包括对s个无损压缩图像进行垂直或水平翻转、对s个无损压缩图像进行随机裁剪。

与现有技术相比，本发明的优点在于：

通过将待训练的神经网络与可微分的JPEG操作结合，将输入图像与输出图像进行损失函数计算，根据损失函数更新待训练的神经网络的网络参数，如此，既能通过损失函数直观评判采用神经网络进行图像前处理带来的优越性，又能依赖损失函数对神经网络根据实际情形进行动态优化，提高了神经网络获取的准确性和高效性。

附图说明

图1为目前JPEG压缩流程图。

图2为本申请采用神经网络进行图像前处理和可微分JPEG操作对应的图像压缩流程图。

图3为本申请待训练的神经网络结构图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

图2示出的本申请采用待训练神经网络与可微分JPEG进行图像压缩流程图，该方法获取可对图像进行前处理操作的神经网络的具体过程如下，

S2、将m个预处理图像

输入可微分的JPEG模块DJPEG中进行压缩，得到m个压缩图像{x′⁽¹⁾，x′⁽²⁾，...，x′^(m)}；

S3、计算无损图像{x⁽¹⁾，x⁽²⁾，...，x^(m)}与压缩图像{x′⁽¹⁾，x′⁽²⁾，...，x′^(m)}之间的损失函数

其中，

为感知损失，

为内容损失，α为权重；

本发明的具有自编码器结构的神经网络结构包括编码部分和解码部分，其中，编码部分(左边箭头向下部分)使用了预训练网络ResNet18网络模块，其作用是将高维的图像表示成低维的嵌入，保留图像中最重要的信息；解码部分(右边箭头向上部分)使用了BasicLayer模块与上采样层Upsample组合的卷积块，BasicLayer模块由卷积层和ReLU激活函数组成，解码部分的作用是将低维的图像嵌入表示转换成原始图像，并引入可以抵抗DJPEG压缩的信息。

编码部分和解码部分之间采用了跳跃连接，其作用是实现不同编码层的信息共享，保证图像与原始图像的相似度，具体网络结构如图3所示。图中的“ResNet[i:j]”(或者“ResNet[i]”)指的是使用了ResNet网络中的第i层到第j层(或第i层)的网络层。

由图2可知，本发明的框架包括两个模块，第一个是本发明设计的基于神经网络的预处理模块，第二个是可微分的JPEG模块。传统JPEG压缩过程中的量化操作是不可微分的，无法使用梯度优化算法来更新预处理网络。

为了使量化操作变得可微分，本发明采用启发性近似量化函数替换传统的量化函数，使JPEG压缩的整个过程变的可微分，本申请将这种可微分的JPEG操作称为DJPEG。具体而言，本申请采用近似量化函数如下「x」_approx＝「x」+(x-「x」)³，其中x指图像，「·」表示取整函数，其导数为0；通过以上三阶函数近似函数「x」_approx，使图2中的整个流程变得可微分，进而可使用梯度优化的算法来更新预处理网络ProNet的网络参数θ。

具体而言，我们将图像x输入预处理网络ProNet，得到预处理好的图像

其中，ProNet(x；θ)表示将图像x输入具有网络参数θ的预处理网络ProNet中，将预处理后的图像

输入DJPEG中得到最终的图像x′，目的是寻找到最优的网络参数θ，使下述不等式成立：

D(DJPEG(ProNet(x；θ))，x)<D(DJPEG(x)，x)

其中，D表示两张图像的距离衡量指标，表示经过预处理网络处理的图像再经过JPEG压缩后质量优于直接使用DJPEG对原图进行压缩的质量，为了使得该目的可量化，本申请通过设计损失函数

来对该操作进行约束，即设计了内容损失

和感知损失

两种距离指标来约束ProNet的训练，下面即对损失函数进行详细介绍。

本申请设计的总损失函数为

其中，

是感知损失，用以保证

图像的视觉质量；

是内容损失，用以保证图像x和图像x′内容的尽可能相同。

α为权重，用以控制两个损失之间的重要程度，在本发明中，α是根据感知损失和内容损失的比值设定，例如当感知损失为10，内容损失为1时，那么α就设置为10，通过这种方法保证感知损失和内容损失同在一个量级，在本实施例中，该权重α为0.1。

感知损失

是以符合人类视觉差异的规则对图像一种客观感知衡量标注，该衡量指标用于衡量两张对比图像之间的结构相似性。在本申请中，采用基于VGG网络的LPIPS感知质量指标作为衡量图像感知质量的指标。具体的，

的计算方式如下：

具体而言，将图像x和图像

分别输入VGG19中提取各层的特征图并在通道维度进行归一化得到

和

它们分别表示图像x和图像

在VGG19第l层的特征图，其中

H、W、C分别为第l层特征图像的高、宽和通道；最后利用向量

对缩放通道层级激活值，计算L2范数，最终，将空域和通道级别的和作为损失值，l∈[1，19]。该损失函数利用VGG19网络来分别提取原始图像与经过本发明方法预处理后再压缩的图像之间的中间层特征，从特征层面评估了图像的感知质量，可提升本申请处理后的图像质量。

内容损失

即1范数损失是从统计意义的角度来衡量比较图像之间的内容差异，是像素层级的比较。具体的，

范数损失可以表示成如下形式：

是最小绝对值偏差，其直接计算原始图像与目标图像的绝对值和。通过优化该损失，可以保证图像在像素层面的统计特性，即从像素层面要求处理图像与原始图像的差异尽可能小。

本申请中更新待训练的神经网络ProNet，得到网络参数θo，具体采用公式

实现，其中，η为学习率，取值为1e-4。

同时，本申请的Q取值为100，m取值64。另外需要提及的是，由于经过神经网络处理的图像要抵抗JPEG压缩，所以本申请建议使用无损图像对网络进行训练，以便在计算损失时，利用无损图像能使网络学习到图像中更精细的细节。

但由于目前公开的图像数据集大多经过了压缩，图像质量较差，对于网络的训练帮助较小，因此，本发明采用了数据增强方法对样本数量s进行增强，其中一种方法是对图像进行随机翻转，即垂直翻转或水平翻转，图像随机翻转不会影响图像的质量；第二种方法是对原始图像进行随机裁剪，随机裁剪是指随机选择原始图像中的某一部分，作为新的图像。在本实施例中，该s取值为300。

通过这两种数据增强的方法，本申请能将数据集的数量扩增到10000张无损图像。在训练时，所有的图像均归一化至[0，1]范围内。在进行数据选择时，首先，将数据集按照9：1的比例划分成训练集和测试集，并在测试集中又以8：2的比例将数据集划分成训练集和验证集，然后从训练集中选取m个样本进行步骤S1的操作，具体后续操作已在前文进行了阐述，就不再赘述。

本申请通过将待训练的神经网络与可微分的JPEG操作结合，将输入图像与输出图像进行损失函数计算，根据损失函数更新待训练的神经网络的网络参数，如此，既能通过损失函数直观评判采用神经网络进行图像前处理带来的优越性，又能依赖损失函数对神经网络根据实际情形进行动态优化，提高了神经网络获取的准确性和高效性，操作简便，既能适用于普通用户，可适用于服务提供商。

同时，该神经网络对图像的预处理操作，可以显著提高图像在公共信道被压缩后的质量，而该预处理办法可以适用于不同的压缩算法、图像噪声算法，适用性广。

尽管已经示出和描述了本发明的实施例，本领域技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形，本发明的范围由权利要求及其等同物限定。