CN114820354A

CN114820354A - 基于可逆色调映射网络的传统图像压缩增强方法

Info

Publication number: CN114820354A
Application number: CN202210370645.9A
Authority: CN
Inventors: 颜波; 谭伟敏; 王峻逸
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2022-04-10
Filing date: 2022-04-10
Publication date: 2022-07-29
Anticipated expiration: 2042-04-10
Also published as: CN114820354B

Abstract

本发明属于图像处理技术领域，具体为一种基于可逆色调映射网络的传统图像压缩算法增强方法。本发明以可逆深度神经网络结构为主体，在编码阶段将图像映射到线性空间，降低像素占用比特，在解码阶段建立鲁棒的色调映射还原；采用基于窗口自注意力的滤波模块在编解码阶段对映射图像抑制或增强，从而减轻量化丢失信息带来的影响。本发明是一种自动的传统算法增强方法，能够有效将深度学习方法的模式迁移到传统算法上。实验结果表明，本发明可以在未针对特定传统算法训练的前提下，提升其在非原设计目标的其它指标上的性能表现。

Description

基于可逆色调映射网络的传统图像压缩增强方法

技术领域

本发明属于图像处理技术领域，具体涉及一种传统图像压缩算法增强方法。

背景技术

有损图像压缩旨在尽可能优化设计目标指标并降低码率。传统图像压缩算法主要有JPEG^[1]，WebP^[2]，基于H.265视频编码标准的BPG^[3]，AV1^[4]和基于H.266标准的VVC^[5]。传统图像压缩算法的管线通常由分块转换，量化和算术编码组成。像素占用比特的码率主要由所选量化质量参数QP决定。QP在不同的传统编码中有不同含义，QP越高，JPEG和WebP算法的码率就越高，而BPG、AV1、VVC等算法的码率就越低。基于视频编码标准的算法引入了帧内预测的技术，然而帧内预测的编码单元划分不可避免地会产生块效应和振铃效应，从而降低图像还原质量。

基于深度学习的图像压缩方法大都采用熵编码的自编码器形式。Balle等^[6]提出了尺度超先验结构。Minnen等^[7]在熵模型中引入了自回归模型。Chen等^[8]通过注意力模块和离散高斯混合似然改进了熵模型。Xie等^[9]将可逆神经网络结构^[10]引入了图像压缩来改进理图像空间与特征空间之间的转换。基于生成式对抗网络的方法^[11]可以预测出低码率下难以压缩的图像细节，从而提高视觉感知。Choi等通过^[12]网络预测JPEG量化表的方式来改进JPEG算法。Klopp等^[13]学习了一个前置滤波网络来过滤不重要的图像信息，从而降低传统算法的码率。

总体而言，传统算法受到设计目标指标(通常是PSNR)的限制，在其他评价标准表现不佳。深度学习方法因为流行度和模型大小限制，以及多数使用到不能通过GPU并行计算的自回归模型，目前尚不能完全取代传统算法。本发明提供一种基于可逆色调映射网络的传统图像压缩算法增强方法，可以在训练阶段未接触传统算法的前提下，有效将深度学习方法的模式迁移到大多数传统算法上，提升其在非原设计目标的其它指标上的性能表现。

发明内容

为了克服现有技术的不足，本发明的目的在于提供一种基于可逆色调映射网络的传统图像压缩算法增强方法，提升传统算法在非原设计目标的其它指标上的性能表现。

本发明提供的基于可逆色调映射网络的传统图像压缩算法增强方法，以可逆深度神经网络结构为主体，在编码阶段将图像映射到线性空间，降低像素占用比特；在解码阶段建立鲁棒的色调映射还原；采用基于窗口自注意力的滤波模块在编解码阶段对映射图像抑制或增强，从而减轻量化丢失信息带来的影响。具体步骤包括：

(1)构建可逆色调映射网络，用于在原始图像和线性空间图像之间建立鲁棒的色调映射，正运算得到映射图像I_m，逆运算得到输出图像I_d；

(2)构建梯度代理网络，用于替代无法在深度学习中计算梯度的不可微传统算法，得到优化神经网络的梯度；

(3)构建基于窗口自注意力的滤波模块，用于在编解码阶段对映射图像抑制或增强，得到传统算法编码前和色调映射网络逆运算前的滤波图像。

步骤(1)中，可逆色调映射网络由8组串联的仿射耦合层^[14]构成；每组仿射耦合层包括3个基础模块和1个可逆运算的1x1卷积层^[15]。第一组仿射耦合层输入原始图像I，每组的输出结果传递到下一组作为输入，最后一组输出映射图像I_m。记3个基础模块为s，t1，t2，每个基础模块由3个卷积层构成；对仿射耦合层的当前输入m，在通道维度分为m1和m2，再将运算结果n1和n2合并得到当前输出n，其正运算过程为：

n1＝m1+t1(m2)； (1)

n2＝m2⊙exp(s(n1))+t2(n1)； (2)

其中，⊙表示Hadamard积，exp表示指数运算；相对地，可以对每组仿射耦合层执行逆运算，过程为：

m2＝(n2–t2(n1))⊙exp(-s(n1))； (3)

m1＝n1–t1(m2)； (4)

其中，s(n1)表示基础模块s对n1的操作，t1(m2)表示基础模块t1对m2的操作，t2(n1)表示基础模块t2对n1的操作。

步骤(2)中，梯度代理网络为Minnen等提出的图像压缩网络^[7]，用于替代无法在深度学习中计算梯度的不可微传统算法，获取优化神经网络的梯度，因此在训练阶段无需接触传统算法；测试阶段，将代理网络换回传统算法，通过在少量数据上的尝试找到对目标传统算法量化参数QP(决定像素占用比特的码率)最合适的代理网络参数。

步骤(3)中，滤波模块包括2个基础模块和1个窗口自注意力模块；每个基础模块由4个卷积层构成，搭配步长或双线性插值对图像特征上下采样。窗口自注意力模块受SwinTransformer^[16]的窗口化思想启发，通过通道重组将图像特征划分成不重叠的16x16大小的窗口；每个窗口的神经网络特征通过全连接层进一步得到3个中间特征Q、K、V，窗口自注意力模块的计算过程表示为：

Attention(Q,K,V)＝Softmax(QK^T+B)V， (5)

其中，B为窗口中所有元素的相对位置偏置。

窗口自注意力最后重组回原形状，与输入神经网络特征相加。

编码阶段的滤波模块输入映射图像I_m，输出传统算法编码前的滤波图像。

解码阶段的滤波模块输入传统算法的解码图像，输出色调映射网络逆运算前的滤波图像。

进一步地，选取代理网络的前三层卷积层作为深度学习方法全局去冗余模式的先验提取模块提取先验特征。提取的先验特征通过卷积层和最近邻插值调整通道数和分辨率，在窗口自注意力模块中与神经网络特征级联共同计算自注意力，实现深度学习方法到传统图像压缩算法的迁移。

本发明中，网络训练中，损失函数主要有4部分：

其一，为拉近输入与输出图像，根据本发明提升目标选择对应的cycle损失；若提升MS-SSIM指标，则采用DSSIM损失，即1-MS-SSIM；若提升视觉感知，则采用均方差损失、感知损失^[17]和生成式对抗损失^[18]的加权组合；

其二，为将原始图像映射到能降低像素占用比特的线性空间，预先使用Xing等提出的色调映射网络^[19]生成参考图像I_raw，期望在池化后与映射结果整体接近。对于映射图像I_m，映射损失L_map的计算方式如下：

L_map＝|Pool(I_m)–Pool(I_raw)|， (6)

其中Pool(·)表示池化操作，|·|表示取绝对值。

其三，为尽量区分色调映射网络和两个滤波模块的功能，约束滤波后图像I_f和滤波前图像I_m在各个通道上的均值距离，期望滤波模块更偏重抑制或增强局部细节。滤波损失L_flt的计算方式如下：

L_flt＝|E_HW(I_m–I_f)|， (7)

其中，E_HW(·)表示保留通道维度，在宽高维度上取均值。

其四，以上3个损失函数之和作为失真损失D，由代理网络提供码率损失R，通过权重参数λ控制平衡，计算方式如下：

L＝R+λD， (8)

其中，根据经验，λ可取0.1以下，例如取0.0035、0.0067、0.025或0.0932。

本发明中，网络模型的训练流程如下：

准备20295张自然图像，通过Xing等提出的色调映射网络生成对应的线性空间参考图像用于计算映射损失。将Minnen等提出的图像压缩网络作为代理网络，在网络训练阶段模拟传统图像增强算法的量化行为并提供优化神经网络的梯度。选定率失真参数λ和增强网络提升目标指标对应的损失函数，通过自适应学习率加动量的梯度下降方式最小化损失函数L，得到本发明中可逆色调映射网络和滤波模块的网络参数。

本发明中，测试的操作流程如下：

将代理网络换回传统图像压缩算法，对于一个训练阶段未接触过的传统算法，在少量数据上进行尝试，找到对目标传统算法量化参数QP最合适的代理网络参数；

编码阶段，输入原始图像后，先使用本发明编码部分映射到线性空间，再使用传统算法的编码部分输出压缩文件；

解码阶段，先试用传统算法的解码部分获取映射图像，再使用本发明的解码部分处理得到相比直接使用传统算法更高质量的还原结果。

本发明中，所述传统图像压缩算法或传统算法等，是指非采用深度学习的图像压缩算法或其他算法。

本发明的有益效果在于：本发明设计了一个以可逆结构为主体的深度神经网络，用于增强传统图像压缩算法。编码阶段，本发明能将图像映射到线性空火箭，降低像素占用比特。解码阶段，本发明能建立鲁棒的色调映射还原。本发明可以在训练阶段未接触传统图像压缩算法的前提下，有效将深度学习方法的模式迁移到大多数传统算法上，提升其在非原设计目标的其它指标上的性能表现。

附图说明

图1为本发明的网络框架图。

图2为基于窗口自注意力的滤波模块的详细结构。

图3为本发明在Kodak数据集上的MS-SSIM率失真曲线。

图4为本发明在Tecnick数据集上的MS-SSIM率失真曲线。

图5为本发明对传统算法BPG的增强效果图。

具体实施方式

下面对本发明实施方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

采用图1中的网络结构，使用20295张自然图像训练深度神经网络，获得自动的传统图像压缩算法的增强模型。

具体实施方法是：

(1)训练前，通过Xing等提出的色调映射网络，生成自然图像对应的线性域参考图像。找到Minnen等提出的图像压缩网络的不同率失真参数λ模型作为代理网络。

(2)训练时，随机裁剪图像到224×224。设置初始学习率为0.0001，在40轮后衰减到十分之一。使用Adam优化器，最小化损失函数。批大小设置为4。选定率失真参数λ和增强网络提升目标指标(MS-SSIM、视觉感知等)对应的损失函数，最小化损失函数L得到多套模型。

(3)测试时，将代理网络换回传统图像压缩算法，对于一个增强网络未接触过的传统算法，在小批测试数据上进行尝试，找到与量化参数QP对应的率失真参数λ模型。编码阶段，输入测试图像后，先使用本发明的编码部分映射到线性域，再使用传统算法的编码部分输出压缩文件。解码阶段，先试用传统算法的解码部分获取映射图像，再使用本发明的解码部分处理得到相比直接使用传统算法更高质量的还原结果。

图3为本发明和传统算法在Kodak数据集上的MS-SSIM率失真曲线。可以看到，对于训练阶段未接触过的传统图像压缩算法，本发明有效将深度学习方法的模式迁移到大多数传统算法上。

图4为本发明和传统算法在Tecnick数据集上的MS-SSIM率失真曲线，可以看到，在1200x1200的高分辨率图像上，本发明仍能取得更高质量的还原结果。

图5为本发明对传统方法BPG的增强效果图。其中图5(a)为原图，图5(c)为提升MS-SSIM指标的效果，图5(d)为提升视觉感知的效果；可以看出，对于非原设计指标PSNR的其他指标，本发明的方法可以提升性能表现。

参考文献

[1]Gregory K.Wallace.The jpeg still picture compressionstandard.Commun.ACM,34(4):30–44,1991.

[2]Google.Web picture format.[EB/OL],2010.https://chromium.googlesource.com/webm/libwebp.

[3]Fabrice Bellard.Bpg image format.[EB/OL],2015.https://bellard.org/bpg/.

[4]Alliance of Open Media(AOM).Av1.[EB/OL],2018.https://aomedia.googlesource.com/aom.

[5]Joint Video Experts Team(JVET).Vvc official test model vtm.[EB/OL],2021.https://vcgit.hhi.fraunhofer.de/jvet/VVCSoftware_VTM/-/tree/VTM-14.0.

[6]Johannes Ball′e,David Minnen,Saurabh Singh,Sung Jin Hwang,and NickJohnston.Variational image compression with a scale hyperprior.InInternational Conference on Learning Representations,2018.

[7]David Minnen,Johannes Ball′e,and George Toderici.Jointautoregressive and hierarchical priors for learned image compression.InAdvances in Neural Information Processing Systems,pages10794–10803,2018.

[8]Zhengxue Cheng,Heming Sun,Masaru Takeuchi,and Jiro Katto.Learnedimage compression with discretized gaussian mixture likelihoods and attentionmodules.In Conference on Computer Vision and Pattern Recognition,pages 7936–7945,2020.

[9]Yueqi Xie,Ka Leong Cheng,and Qifeng Chen.Enhanced invertibleencoding for learned image compression.In ACM International Conference onMultimedia,pages 162–170,2021.

[10]Laurent Dinh,Jascha Sohl-Dickstein,and Samy Bengio.Densityestimation using real NVP.In International Conference on LearningRepresentations,2017.

[11]Fabian Mentzer,George Toderici,Michael Tschannen,and EirikurAgustsson.High-fidelity generative image compression.In Advances in NeuralInformation Processing Systems,2020.

[12]Jin Young Choi and Bohyung Han.Task-aware quantization networkfor JPEG image compression.In European Conference on Computer Vision,volume12365,pages 309–324,2020.

[13]Jan P.Klopp,Keng-Chi Liu,Liang-Gee Chen,and Shao-Yi Chien.How toexploit the transferability of learned image compression to conventionalcodecs.In IEEE Conference on Computer Vision and Pattern Recognition,pages16165–16174,2021.

[14]Laurent Dinh,Jascha Sohl-Dickstein,and Samy Bengio.Densityestimation using Real NVP.In International Conference on LearningRepresentations.2017.

[15]Diederik P.Kingma and Prafulla Dhariwal.Glow:Generative flow withinvertible 1x1convolutions.In Advances in Neural Information ProcessingSystems,pages 10236–10245,2018.

[16]Ze Liu,Yutong Lin,Yue Cao,Han Hu,Yixuan Wei,Zheng Zhang,StephenLin,and Baining Guo.Swin transformer:Hierarchical vision transformer usingshifted windows.In International Conference on Computer Vision,2021.

[17]Justin Johnson and Alexandre Alahi and Li Fei-Fei.PerceptualLosses for Real-Time Style Transfer and Super-Resolution.In EuropeanConference on Computer Vision,2016.

[18]Alec Radford,Luke Metz,and Soumith Chintala.UnsupervisedRepresentation Learning with Deep Convolutional Generative AdversarialNetworks.In International Conference on Learning Representations.2016.

[19]Yazhou Xing,Zian Qian,and Qifeng Chen.Invertible image signalprocessing.In IEEE Conference on Computer Vision and Pattern Recognition,pages 6287–6296,2021。

Claims

1.一种基于可逆色调映射网络的传统图像压缩算法增强方法，其特征在于，以可逆深度神经网络结构为主体，在编码阶段将原始图像映射到线性空间，降低像素占用比特；在解码阶段建立鲁棒的色调映射还原；采用基于窗口自注意力的滤波模块在编解码阶段对映射图像抑制或增强，从而减轻量化丢失信息带来的影响；具体步骤为：

2.根据权利要求1所述的传统图像压缩增强方法，其特征在于，步骤(1)中，所述可逆色调映射网络由8组串联的仿射耦合层构成；每组仿射耦合层包括3个基础模块和1个可逆运算的1x1卷积层；其中，第一组仿射耦合层输入为原始图像I，每组的输出结果传递到下一组作为输入，最后一组输出映射图像I_m；依次记3个基础模块为s、t1、t2，每个基础模块由3个卷积层构成；对仿射耦合层的当前输入m，在通道维度分为m1和m2，再将运算结果n1和n2合并得到当前输出n的正运算过程为：

n1＝m1+t1(m2)； (1)

n2＝m2⊙exp(s(n1))+t2(n1)； (2)

m2＝(n2–t2(n1))⊙exp(-s(n1))； (3)

m1＝n1–t1(m2)； (4)

3.根据权利要求2所述的传统图像压缩增强方法，其特征在于，步骤(2)中，所述梯度代理网络为一种预训练的图像压缩网络，用于替代无法在深度学习中计算梯度的不可微传统算法，获取优化神经网络的梯度；测试阶段，将代理网络换回传统算法，通过在少量数据上的尝试找到对目标传统算法量化参数QP最合适的代理网络参数。

4.根据权利要求3所述的传统图像压缩增强方法，其特征在于，步骤(3)中，所述滤波模块包括2个基础模块和1个窗口自注意力模块；每个基础模块由4个卷积层构成，搭配步长或双线性插值对图像特征上下采样；窗口自注意力模块通过通道重组将图像特征划分成不重叠的16x16大小的窗口；每个窗口的神经网络特征通过全连接层进一步得到3个中间特征Q、K、V，窗口自注意力模块的计算过程表示为：

Attention(Q,K,V)＝Softmax(QK^T+B)V， (5)

其中，B为窗口中所有元素的相对位置偏置；

窗口自注意力最后重组回原形状，与输入神经网络特征相加；

编码阶段的滤波模块输入映射图像I_m，输出传统算法编码前的滤波图像；

5.根据权利要求1-4之一所述的传统图像压缩增强方法，其特征在于，选取代理网络的前三层卷积层作为深度学习方法全局去冗余模式的先验提取模块提取先验特征；提取的先验特征通过卷积层和最近邻插值调整通道数和分辨率，在窗口自注意力模块中与神经网络特征级联共同计算自注意力，实现深度学习方法到传统图像压缩算法的迁移。

6.根据权利要求1-4之一所述的传统图像压缩增强方法，其特征在于，网络训练中，损失函数有4部分：

其一，为拉近输入与输出图像，根据提升目标选择对应的cycle损失；若提升MS-SSIM指标，则采用DSSIM损失，即1-MS-SSIM；若提升视觉感知，则采用均方差损失、感知损失和生成式对抗损失的加权组合；

其二，为将原始图像映射到能降低像素占用比特的线性空间，预先使用色调映射网络生成参考图像I_raw，期望在池化后与映射结果整体接近；对于映射图像I_m，映射损失L_map的计算方式如下：

L_map＝|Pool(I_m)–Pool(I_raw)|， (6)

其中Pool(·)表示池化操作，|·|表示取绝对值；

其三，为尽量区分色调映射网络和两个滤波模块的功能，约束滤波后图像I_f和滤波前图像I_m在各个通道上的均值距离，期望滤波模块更偏重抑制或增强局部细节；滤波损失L_flt的计算方式如下：

L_flt＝|E_HW(I_m–I_f)|， (7)

其中，E_HW(·)表示保留通道维度，在宽高维度上取均值；

L＝R+λD， (8)

其中，λ取0.1以下。

7.根据权利要求6所述的传统图像压缩增强方法，其特征在于，网络模型的训练流程如下：

准备20295张自然图像，通过色调映射网络生成对应的线性空间参考图像用于计算映射损失；将图像压缩网络作为代理网络，在网络训练阶段模拟传统图像增强算法的量化行为并提供优化神经网络的梯度；选定率失真参数λ和增强网络提升目标指标对应的损失函数，通过自适应学习率加动量的梯度下降方式最小化损失函数L，得到可逆色调映射网络和滤波模块的网络参数。

8.根据权利要求7所述的传统图像压缩增强方法，其特征在于，测试的操作流程如下：