CN115512199A

CN115512199A - 一种基于图注意和非对称卷积网络的图像压缩模型

Info

Publication number: CN115512199A
Application number: CN202211071956.1A
Authority: CN
Inventors: 王瀚漓; 唐梽森
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2022-09-01
Filing date: 2022-09-01
Publication date: 2022-12-23

Abstract

基于图注意和非对称卷积网络的图像压缩模型，主编码器：在数据集中，给定经数据增强和被裁剪后大小为256×256的图像作为输入x；接着使用卷积神经网络变换输入图像的通道，再将卷积神经网络的输出依次通过非对称卷积网络、下采样因子为2的下采样网络和信息流动注意力网络进行特征提取和采样；量化器Q：量化器旨在解决训练过程中不可微导致梯度无法反传的问题；超先验编码器：其目的是为了提取主编码器输出特征y的边信息z，以进一步捕捉冗余信息；超先验解码器：其目的是对算数解码AD后的边信息

解码，以便预测量化后的特征

的分布参9数；熵模型：其目的是估计

的概率分布参数以计算码率；主解码器：其目的是为了对

进行解码，重建出解码图像。

Description

一种基于图注意和非对称卷积网络的图像压缩模型

技术领域

本发明涉及去除图像冗余信息领域，尤其是涉及一种基于图注意和非对称卷积网络的图像压缩方法。

背景技术

图像压缩任务的主要目的是为了降低图像/视频的存储和传输成本，尽可能地去除图像中的冗余，同时为人眼提供高质量的视觉服务。现有针对图像压缩的任务中主要分为传统编码标准和基于学习的压缩编码两类。传统的编码标准在过去二十多年取得了空前发展，每一代编码标准在编码效率方面都比上一代的编码标准提高了50％左右。但传统混合编码框架中各个手工设计的模块相互独立，其最优性很难得到保证，从而无法准确预测具有复杂纹理的视觉信息，同时还会引入块效应和振铃效应。不同于传统的编码技术，基于端对端的图像压缩方法不依赖于块划分，同时支持全分辨率编码，因此，这些编码方法完全避开了传统编码标准中产生的块效应。目前基于端对端的图像压缩框架主要包含循环神经网络和卷积自编码器两种结构。采用基于循环神经网络的图像压缩仅训练一个模型便能覆盖多个码率点，从而实现可变速率压缩，但这类图像压缩方法无法联合优化码率和失真。基于卷积自编码器的图像压缩将高维数据变换为低维潜在表征，通过对潜在表征量化和熵编码来去除信源的冗余信息，随后通过解码器将量化后的低维表征恢复为高维信号。基于卷积自编码器的图像压缩能够联合地优化码率和失真，但这类方法大多需要针对特定的码率来训练对应的编码模型。

尽管目前基于端对端的图像压缩技术在率失真性能方面已经优于传统编码标准，但仍然面临模型复杂度高、码率分配无法满足人眼视觉感知特性以及远距离目标之间的长程依赖关系无法得到充分压缩等挑战。因此需要在特定码率条件下，研究如何降低编码模型的训练成本、符合人眼视觉感知的码率分配机制以及提高信号保真度极具现实的意义。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于图注意和非对称卷积网络的图像压缩模型，该模型简称为GAACNN。

本发明的目的可以通过以下技术方案来实现：

一种基于图注意和非对称卷积网络的图像压缩模型，组成为：

包括主编码器，在数据集中，给定经数据增强和被裁剪后大小为256×256的图像作为输入x；接着使用卷积神经网络变换输入图像的通道，再将卷积神经网络的输出依次通过非对称卷积网络、下采样因子为2的下采样网络和信息流动注意力网络进行特征提取和采样；该过程将重复3次；其中，第1次过程中的卷积神经网络的输出同时再作为输入传输给主编码器内最后一个信息流动注意力网络，同时每一个信息流动注意力网络的输出进行加权求和以保证注意力信息进行交互；

包括量化器Q，量化器旨在解决训练过程中不可微导致梯度无法反传的问题；

包括超先验编码器，为超先验编码网络h_a，其目的是为了提取主编码器输出特征y的边信息z，以进一步捕捉冗余信息；

包括超先验解码器，为超先验编码网络h_s，其目的是对算数解码AD后的边信息

解码，以便预测量化后的特征

的分布参数；

包括熵模型，其目的是估计

的概率分布参数以计算码率；

包括主解码器，为主解码网络g_s，其目的是为了对

进行解码，重建出解码图像。

与现有技术相比，本发明具有以下优点：

一、解码图像信号保真度高：本发明与以往面向信号保真度重建的图像方法不同，所提出的基于图注意和非对称卷积网络的图像压缩方法可以分别利用非对称卷积网络和图注意网络来关注局部区域细节和长程依赖关系这两种互补信息，以重建出保真度更高的视觉信号。

二、编码的码率增益高：本发明设计的信息流动注意力网络不仅考虑了特征图的空间位置和通道关系，还使得编/解码器和超先验编/解码器中不同注意力网络之间的显著信息进行交互，为不同视觉区域合理地分配码率。因此本方法所编码的图像信号在相似保真度下有更高的码率增益。

三、泛化性强：本发明在Kodak和Tecnick数据集上均取得了较好编码效果，证实了本发明方法可以在一定程度上提高不同分辨率图像的率失真性能。

附图说明

图1为本发明编解码模型的整体架构示意图；

图1-(a)为图1编解码模型中信息流动注意力中的通道注意力网络；

图1-(b)为图1编解码模型中信息流动注意力中的空间注意力网络；

图2为本发明实施例与其他压缩方法在Kodak数据集上的率失真性能对比示意图；

图3为本发明实施例与其他压缩方法在Tecnick数据集上的率失真性能对比示意图；

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本实施例提出了一种基于图注意和非对称卷积网络的图像压缩模型，如图1所示，包括以下组成：

1)主编码器(为主编码网络g_a)，在Flicker 2W数据集中，给定经数据增强和被裁剪后大小为256×256的图像作为输入x。接着使用卷积神经网络变换输入图像的通道，再将卷积神经网络的输出依次通过非对称卷积网络、下采样因子为2的下采样网络和信息流动注意力网络进行特征提取和采样；该过程将重复3次。其中，第1次过程中的卷积神经网络的输出同时再作为输入传输给主编码器内最后一个信息流动注意力网络(第3次过程中的)，同时每一个信息流动注意力网络的输出进行加权求和以保证注意力信息进行交互。

具体地，非对称卷积网络由水平卷积核1×3的卷积Conv1(·)，垂直卷积核3×1的卷积Conv2(·)和3×3的方形卷积Conv3(·)三部分组成，这三部分卷积的输出进行求和作为非对称卷积网络的输出，(·)表示这三部分网络的输入。由于非对称卷积网络中的两个一维非对称卷积可以更好地关注方形卷积核中的局部区域，因此，非对称卷积网络可以细化图像的局部细节；

下采样网络为步幅为2的卷积网络；

信息流动注意力网络由通道注意力网络(如图1-a)和空间注意力网络(如图1-b)构成，其中通道注意力网络和空间注意力网络需要以并行的方式同时对其输入的特征进行特征提取，各自的输出再进行求和作为信息流动注意力网络的输出。

在通道注意力网络中，如图1-a所示，一共包含6个残差卷积网络和1个卷积神经网络，每个残差卷积网络都首先对各自的输入进行卷积、ReLu函数激活和卷积操作(操作后的输出记为O₁)，然后再对O₁进行全局池化、卷积、ReLu函数激活、卷积和Sigmoid函数操作(操作后的输出记为O₂)，随后O₁和O₂相乘的结果再与当前残差卷积网络的输入进行求和作为残差卷积网络的输出，在通道注意力网络中的最后一个残差卷积网络(即第6个残差卷积网络)的输出还需要经过一层卷积神经网络进行特征提取，其提取结果再与通道注意力网络的输入特征进行求和作为通道注意力网络的输出。

与此同时，在空间注意力网络中，如图1-b所示，首先需要对输入特征进行一维水平全局池化和一维垂直全局池化，再对两次池化后的结果进行Concat操作，并使用卷积神经网络进行特征提取，随后再对卷积结果做批归一化BatchNorm和非线性Non-linear处理，其处理后的结果被Split操作拆分为两部分，拆分后的两部分都各自经过卷积神经网络进行特征提取以及使用Sigmoid函数进行激活，最后，将Sigmoid激活后的两部分结果再与空间注意力网络的输入进行特征加权得到输出。

由于信息流动注意力网络包含了通道注意力网络和空间注意力网络，在显著性计算过程中不仅能考虑到不同通道之间的依赖关系，还能考虑到目标空间位置关系，因此，信息流动注意力网络在压缩编码时可以让码率分配遵循人眼视觉感知效果。

上述步骤满足以下公式：

y＝g_a(x；θ_ga)

其中，x表示输入图像，g_a表示主编码网络，θ_ga表示主编码网络的参数。

2)量化器Q，量化器旨在解决训练过程中不可微导致梯度无法反传的问题。接收主编码器的输出作为输入，并对输入的特征图增加噪声值为(-0.5,0.5)之间的均匀噪声来保证模型正常训练。该量化过程可以表示为：

其中，Q为量化器，y为主编码器模块的输出。

表示量化后的y，其通常经算数编码器AE压缩为码流以用于存储和传输系统，当需要解码出图像的时候使用算数解码AD对码流进行解码，并将结果进一步传递至主解码器。

3)超先验编码器(为超先验编码网络h_a)，其目的是为了提取主编码器输出特征y的边信息z，以进一步捕捉冗余信息。

在超先验编码器中，首先使用非对称卷积网络和下采样因子为2的采样网络对y依次进行特征提取和采样，然后使用信息流动注意力和图注意两个网络以并行的方式对采样后的结果进行特征提取，并将这两个网络的输出再进行求和，最后，分别先后使用非对称卷积网络、信息流动注意力网络、下采样因子为2的采样网络和卷积神经网络对求和结果进行特征提取，以获得边信息z。

其中，非对称卷积网络的计算原理与主编码器中的非对称卷积网络相同，超先验编码器中第一个信息流动注意力网络的输出需要与下一个信息流动注意力网络的输出进行求和。

上述提取边信息z计算过程表示为：

其中，y表示主编码器的输出，h_a表示超先验编码网络，

表示超先验编码网络的参数。边信息z经量化器Q量化后得到

再通过算术编码AE压缩为码流以便于存储和传输，当需要使用边信息时再使用算数解码AD对码流进行解码。此外，在超先验编码器中，图注意网络的建模过程首先使用图注意网络中的注意力机制ATT去计算相邻节点的注意力系数，其中特征图中每个通道的同一位置的特征值所构成的向量作为一个节点的表征，该计算过程表示为：

其中W为共享权值矩阵，

和

分别表示输入的第i个节点表征和第j个节点的表征，e_i,j表示第i个节点对第j个节点的影响，即注意力系数。

然后使用softmax函数将注意力系数归一化为权值信息，即：

其中n为图注意网络中输入的节点数量，l表示n个节点中的第l个节点。

接着使用LeakyReLU函数去激活权值信息α_i,j，因此，上述公式可以进一步被表示为：

其中，q在训练过程中是一个可学习参数，符号||表示对不同特征进行拼接。

最后，每个节点更新后的特征被当作最后的输出，更新过程表示为：

通过上述过程，图的边便能建立相邻节点之间的关系，使得图像中远距离目标之间的长程依赖关系可以通过节点之间的关系来表达。

4)超先验解码器(为超先验编码网络h_s)，其目的是对算数解码AD后的边信息

解码，以便预测量化后的特征

的分布参数。

超先验解码器采用与超先验编码器具有镜像关系的网络，首先对

先后采用卷积神经网络、上采样因子为2的采样网络、信息流动注意力网络和非对称卷积网络进行特征提取和采样(其输出结果记为O₃)，随后使用图注意网络和信息流动注意力网络以并行的方式分别对O₃建模长程依赖关系和显著性特征提取，接着将图注意网络的输出和信息流动注意力网络的输出进行求和，并进一步使用上采样因子为2的采样网络对求和结果进行采样，最后采用非对称卷积网络对采样结果进行特征提取，其提取作为超先验解码器的输出。

其中，图注意网络建模长程依赖关系的原理与超先验编码器中的图注意网络相同，非对称卷积网络的计算原理与主编码器中的非对称卷积网络相同，第一个信息流动注意力网络的输出需要与第二个信息流动注意力网络的输出进行加权求和。

超先验解码器的解码过程表示为：

其中，h_s为超先验解码网络，

表示超先验解码网络的参数，F_h表示超先验解码器的输出特征。

5)熵模型，其目的是估计

的概率分布参数以计算码率。采用基于3D卷积神经网络Conv3D作为自回归模型，并同时接收超先验解码器的输出F_h和

作为输入，以自回归对形式预测

的概率分布参数。该预测过程为：

其中，w_i,μ_i,σ_i分别表示第i个高斯模型的权值以及估计的概率分布参数的均值和标准差，本发明一共采用了3个高斯模型。

6)主解码器(为主解码网络g_s)，其目的是为了对

进行解码，重建出解码图像。该过程使用与主编码器具有镜像关系的网络，并接收

输出作为输入。在主解码器中，首先使输入

依次通过信息流动注意力网络、上采样因子为2的采样网络和非对称卷积网络进行特征提取和采样，并继续重复该过程3次之后，最后使用卷积神经网络重建出解码图像。其中，每一个信息流动注意力网络的输出都将与下一个信息流动注意力网络的输出进行加权求和，并且第一个信息流动注意力网络的输出将传输至卷积网络网络作为输入，非对称卷积网络的计算原理同主编码器中的非对称卷积网络。计算过程满足以下公式：

其中，g_s表示主解码网络，θ_gs表示主编码网络的参数，

表示输出的解码图像。

为了验证上述方法的性能，设计了以下实验

本方法在Kodak和Tecnick两个具有挑战性的基准数据集上对所提出的模型进行了评估。这两个数据集分别包含768×512,512×768和1200×1200三种分辨率的图像。解码图像和原图之间的客观质量用PSNR和MS-SSIM来度量，每像素所需的码率用bpp来度量。本发明方法GAACNN与最近最先进的方法进行了比较，在Kodak数据集上PSNR/MS-SSIM vs.bpp的实验结果分别如图2(a)和图2(b)所示。在Tecnick数据集上PSNR/MS-SSIM vs.bpp的实验结果分别如图3(a)和图3(b)所示。

此外，为了比较本发明方法GAACNN与其他图像压缩方法在码率增益和客观质量增益方面的情况，表1和表2分别列出了在Kodak和Tecnick数据集上以JPEG为基准，不同方法关于BD-rate,BD-PSNR和BD-MSSSIM方面的实验结果。

其中，表1在Kodak数据集上以JPEG为基准，本发明方法GAACNN与最先进图像压缩方法的BD-rate,BD-PSNR和BD-MSSSIM结果

表2在Tecnick数据集上以JPEG为基准，本发明方法GAACNN与最先进图像压缩方法的BD-rate,BD-PSNR和BD-MSSSIM结果

(1)数据集Kodak结果：本发明方法与最先进的图像压缩方法在数据集Kodak上的比较结果见图2和表1。由于现有的图像压缩方法忽略了图像局部细节以及远距离的长程依赖关系，本发明分别采用非对称卷积网络和图注意网络去保留图像的局部细节以及捕捉远距离的长程依赖关系。

根据图2的率失真曲线和表1展示的结果表明本发明方法与现有方法相比在率失真性能方面有所改进。

当使用均方差MSE来度量解码图像和原图的客观质量，本发明方法在率失真性能、编码增益和客观质量增益方面的提升优于大部分图像压缩方法，并和VTM取得了相当的性能，具体的编码增益和客观质量增益分别达到了-72.135％和5.839dB。

当使用MS-SSIM来度量解码图像和原图的客观质量，本发明方法在率失真性能，编码增益和客观质量增益方面的提升优于其他现有的图像压缩方法，其编码增益和客观质量增益方面达到了-75.781％和8.203dB。

(2)数据集Tecnick结果：在Tecnick上的率失真性能，编码增益以及客观质量增益的比较结果列在图3和表2中。从图3的率失真曲线和表2的实验结果可以观察到，与最先进的图像压缩方法相比，本发明方法获得了最佳的率失真性能。由MSE优化压缩模型的时候，相比其他图像压缩方法，本发明方法可以取得最大的编码增益和客观质量增益，其分别达到了-68.039％和5.159dB。由MS-SSIM优化压缩模型的时候，本发明方法比其他方法相比可以获得最大的编码增益和客观质量增益，其分别达到了-79.887％和6.930dB。

与现有技术相比，本发明具有以下优点：

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于图注意和非对称卷积网络的图像压缩模型，组成为：

包括超先验解码器，为超先验编码网络_s，其目的是对算数解码AD后的边信息

解码，以便预测量化后的特征

的分布参数；

包括熵模型，其目的是估计

的概率分布参数以计算码率；

包括主解码器，为主解码网络g_s，其目的是为了对

进行解码，重建出解码图像。

2.如权利要求1所述的压缩模型，其特征在于：

具体地，所述主编码器为：非对称卷积网络由水平卷积核1×3的卷积Conv1(·)，垂直卷积核3×1的卷积Conv2(·)和3×3的方形卷积Conv3(·)三部分组成，这三部分卷积的输出进行求和作为非对称卷积网络的输出，(·)表示这三部分网络的输入；由于非对称卷积网络中的两个一维非对称卷积可以更好地关注方形卷积核中的局部区域，因此，非对称卷积网络可以细化图像的局部细节；

下采样网络为步幅为2的卷积网络；

信息流动注意力网络由通道注意力网络和空间注意力网络构成，其中通道注意力网络和空间注意力网络需要以并行的方式同时对其输入的特征进行特征提取，各自的输出再进行求和作为信息流动注意力网络的输出；

在通道注意力网络中，一共包含6个残差卷积网络和1个卷积神经网络，每个残差卷积网络都首先对各自的输入进行卷积、ReLu函数激活和卷积操作，然后再对O₁进行全局池化、卷积、ReLu函数激活、卷积和Sigmoid函数操作，随后O₁和O₂相乘的结果再与当前残差卷积网络的输入进行求和作为残差卷积网络的输出，在通道注意力网络中的最后一个残差卷积网络的输出还需要经过一层卷积神经网络进行特征提取，其提取结果再与通道注意力网络的输入特征进行求和作为通道注意力网络的输出；

与此同时，在空间注意力网络中，首先需要对输入特征进行一维水平全局池化和一维垂直全局池化，再对两次池化后的结果进行Concat操作，并使用卷积神经网络进行特征提取，随后再对卷积结果做批归一化BatchNorm和非线性Non-linear处理，其处理后的结果被Split操作拆分为两部分，拆分后的两部分都各自经过卷积神经网络进行特征提取以及使用Sigmoid函数进行激活，最后，将Sigmoid激活后的两部分结果再与空间注意力网络的输入进行特征加权得到输出；

上述步骤满足以下公式：

y＝g_a(x；θ_ga)

3.如权利要求1所述的压缩模型，其特征在于：

所述量化器设计原理：接收主编码器的输出作为输入，并对输入的特征图增加噪声值为(-0.5,0.5)之间的均匀噪声来保证模型正常训练；该量化过程可以表示为：

其中，Q为量化器，y为主编码器模块的输出；

4.如权利要求1所述的压缩模型，其特征在于：

所述超先验编码器设计原理：在超先验编码器中，首先使用非对称卷积网络和下采样因子为2的采样网络对y依次进行特征提取和采样，然后使用信息流动注意力和图注意两个网络以并行的方式对采样后的结果进行特征提取，并将这两个网络的输出再进行求和，最后，分别先后使用非对称卷积网络、信息流动注意力网络、下采样因子为2的采样网络和卷积神经网络对求和结果进行特征提取，以获得边信息z；

其中，非对称卷积网络的计算原理与主编码器中的非对称卷积网络相同，超先验编码器中第一个信息流动注意力网络的输出需要与下一个信息流动注意力网络的输出进行求和；

上述提取边信息z计算过程表示为：

其中，y表示主编码器的输出，h_a表示超先验编码网络，

表示超先验编码网络的参数；边信息z经量化器Q量化后得到

再通过算术编码AE压缩为码流以便于存储和传输，当需要使用边信息时再使用算数解码AD对码流进行解码；此外，在超先验编码器中，图注意网络的建模过程首先使用图注意网络中的注意力机制ATT去计算相邻节点的注意力系数，其中特征图中每个通道的同一位置的特征值所构成的向量作为一个节点的表征，该计算过程表示为：

其中W为共享权值矩阵，

和

分别表示输入的第i个节点表征和第j个节点的表征，e_i,j表示第i个节点对第j个节点的影响，即注意力系数；

然后使用softmax函数将注意力系数归一化为权值信息，即：

其中n为图注意网络中输入的节点数量，l表示n个节点中的第l个节点；

其中，q在训练过程中是一个可学习参数，符号||表示对不同特征进行拼接；

5.如权利要求1所述的压缩模型，其特征在于：

所述超先验解码器设计原理：采用与超先验编码器具有镜像关系的网络，首先对

先后采用卷积神经网络、上采样因子为2的采样网络、信息流动注意力网络和非对称卷积网络进行特征提取和采样，随后使用图注意网络和信息流动注意力网络以并行的方式分别对O₃建模长程依赖关系和显著性特征提取，接着将图注意网络的输出和信息流动注意力网络的输出进行求和，并进一步使用上采样因子为2的采样网络对求和结果进行采样，最后采用非对称卷积网络对采样结果进行特征提取，其提取作为超先验解码器的输出；

其中，图注意网络建模长程依赖关系的原理与超先验编码器中的图注意网络相同，非对称卷积网络的计算原理与主编码器中的非对称卷积网络相同，第一个信息流动注意力网络的输出需要与第二个信息流动注意力网络的输出进行加权求和；

超先验解码器的解码过程表示为：

其中，h_s为超先验解码网络，

6.如权利要求1所述的压缩模型，其特征在于：

所述熵模型，设计原理：采用基于3D卷积神经网络Conv3D作为自回归模型，并同时接收超先验解码器的输出F_h和

作为输入，以自回归对形式预测

的概率分布参数；该预测过程为：

w_i,μ_i,

其中，w_i,μ_i,σ_i分别表示第i个高斯模型的权值以及估计的概率分布参数的均

值和标准差，本发明一共采用了3个高斯模型。

7.如权利要求1所述的压缩模型，其特征在于：

所述主解码器设计原理：该过程使用与主编码器具有镜像关系的网络，并接收

输出作为输入；在主解码器中，首先使输入

依次通过信息流动注意力网络、上采样因子为2的采样网络和非对称卷积网络进行特征提取和采样，并继续重复该过程3次之后，最后使用卷积神经网络重建出解码图像；其中，每一个信息流动注意力网络的输出都将与下一个信息流动注意力网络的输出进行加权求和，并且第一个信息流动注意力网络的输出将传输至卷积网络网络作为输入，非对称卷积网络的计算原理同主编码器中的非对称卷积网络；计算过程满足以下公式：

其中，g_s表示主解码网络，θ_gs表示主编码网络的参数，

表示输出的解码图像。