CN111080729B

CN111080729B - 基于Attention机制的训练图片压缩网络的构建方法及系统

Info

Publication number: CN111080729B
Application number: CN201911347886.6A
Authority: CN
Inventors: 冯落落; 李锐; 金长新
Original assignee: Shandong Inspur Scientific Research Institute Co Ltd
Current assignee: Shandong Inspur Scientific Research Institute Co Ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2023-06-13
Anticipated expiration: 2039-12-24
Also published as: CN111080729A

Abstract

本发明公开了一种基于Attention机制的训练图片压缩网络的构建方法及系统，属于图像压缩、Attention机制及卷积神经网络领域，本发明要解决的技术问题为如何基于Attention机制去为图片中的每个像素点赋予不同的权值，从而使得深度网络在解压时，生成一个视觉效果上比较好的图片，采用的技术方案为：该方法具体如下：将训练图片进行压缩和解压获取重构图片，同时获取熵编码R；利用改进的Vgg网络生产关于一个图片的Attention map；在训练压缩和解压网络过程中获取损失函数，公式如下：Loss＝R+λD；其中，D是通过训练图片和重构图片之间对应点的MSE获得；λ表示Attention Map矩阵；R表示熵编码参数。该系统包括重构图片获取模块、Attention map生成模块及损失函数获取模块。

Description

基于Attention机制的训练图片压缩网络的构建方法及系统

技术领域

本发明涉及图像压缩、Attention机制及卷积神经网络领域，具体地说是一种基于Attention机制的训练图片压缩网络的构建方法及系统。

背景技术

基于深度学习DNN的图片压缩方法目前已经成为最近研究的主流方向。基于深度学习的图片压缩方法已经成为目前的主流方法的JPEG和BGP的有力竞争者。除了自然的图片上，深度学习方法实现了强有力的压缩率，它们还能都轻松的适应到具体的某个领域，例如立体图像或者医学影像，并且还可以通过图像的压缩表示直接进行索引。深度学习方法也主要在PSNR和MS-SSIM上进行比较。传统的深度学习压缩网络在训练的时候，对于图像中的每一个点都是平等看待，但是实际情况下，我们一般对前景会使用较小的压缩比，对背景使用较大的压缩比，为了实现这种效果，如何基于Attention机制去为图片中的每个像素点赋予不同的权值，从而使得深度网络在解压时，生成一个视觉效果上比较好的图片是目前急需解决的技术问题。

发明内容

本发明的技术任务是提供一种基于Attention机制的训练图片压缩网络的构建方法及系统，来解决如何基于Attention机制去为图片中的每个像素点赋予不同的权值，从而使得深度网络在解压时，生成一个视觉效果上比较好的图片的问题。

本发明的技术任务是按以下方式实现的，一种基于Attention机制的训练图片压缩网络的构建方法，该方法具体如下：

将训练图片进行压缩和解压获取重构图片，同时获取熵编码R；

利用改进的Vgg网络生产关于一个图片的Attention map；

在训练压缩和解压网络过程中获取损失函数，公式如下：

Loss＝R+λD；

其中，D是通过训练图片和重构图片之间对应点的MSE获得；λ表示Attention Map矩阵；R表示熵编码参数。

作为优选，所述获取重构图片，同时获取熵编码R具体如下：

通过编码器对训练图片进行编码，得到编码后的特征图；

通过量化器对特征图进行量化，得到量化后的特征图；

同时通过熵编码器对量化后特征图进行熵编码，得到熵编码参数；

通过解码器对量化后的特征图进行解码，得到重构图片。

更优地，所述编码器使用一个3层的神经网络，每一层包括一个卷积、一个下采样和一个Relu激活函数；

所述解码器使用一个3层的神经网络，每一层包括一个反卷积、一个上采样和一个Relu激活函数。

作为优选，所述Vgg网络的改进具体如下：去掉Vgg中的全连接网络，在最后一个卷积层后面加上一个depthwise_conv2d和一个global pooling层；再接一个全连接层。

更优地，所述Vgg网络使用mageNet数据集进行训练。

作为优选，所述Attention Map矩阵获取过程如下：

对于训练好的Vgg网络，通过输入一张大小为224*224*3的图片，获得该图片的一个Conv_last,大小为14*14*1024；

global pooling层和Fc输出层之间加入W，W表示1024*1000的矩阵，通过转置运算符，获得一个W_transpose为1000*1024；

从W_transpose选择预测类别最大的那一行的1024个元素，转置成为一个1024*1的矩阵；

把Conv_last矩阵进行双线性差值，成为一个224*224*1024的矩阵；

将224*224*1024的矩阵通过reshape操作变成一个50176*1024的矩阵；

把50176*1024的矩阵与1024*1的矩阵相乘，得到一个50176*1的矩阵；

将50176*1的矩阵进行转置变成224*224*1的Attention map矩阵。

一种基于Attention机制的训练图片压缩网络的构建系统，该系统包括，

重构图片获取模块，用于将训练图片进行压缩和解压获取重构图片，同时获取熵编码R；

Attention map生成模块，用于利用改进的Vgg网络生产关于一个图片的Attention map；

损失函数获取模块，用于在训练压缩和解压网络过程中获取损失函数，公式如下：

Loss＝R+λD；

其中，D是通过训练图片和重构图片之间对应点的MSE获得；λ表示Attention Map矩阵；R表示熵编码参数；

作为优选，所述重构图片获取模块包括，

编码器，用于对训练图片进行编码，得到编码后的特征图；编码器使用一个3层的神经网络，每一层包括一个卷积、一个下采样和一个Relu激活函数；

量化器，用于对特征图进行量化，得到量化后的特征图；

熵编码器，用于对量化后特征图进行熵编码，得到熵编码参数；

解码器，用于对量化后的特征图进行解码，得到重构图片；解码器使用一个3层的神经网络，每一层包括一个反卷积、一个上采样和一个Relu激活函数。

作为优选，所述Vgg网络的改进具体如下：去掉Vgg中的全连接网络，在最后一个卷积层后面加上一个depthwise_conv2d和一个global pooling层；再接一个全连接层；其中，Vgg网络使用mageNet数据集进行训练。

作为优选，所述Attention Map矩阵获取过程如下：

把Conv_last矩阵进行双线性差值，成为一个224*224*1024的矩阵；

将224*224*1024的矩阵通过reshape操作变成一个50176*1024的矩阵；

将50176*1的矩阵进行转置变成224*224*1的Attention map矩阵。

本发明的基于Attention机制的训练图片压缩网络的构建方法及系统具有以下优点：

(一)传统方法的深度学习图片压缩方法，损失函数为R+λD，该损失函数对于图片中前景和背景都是利用相同的λ值，本发明中引入图片的Attention Map进行λ的构造，使前景拥有更大的λ值，背景拥有更小的λ，这样不同像素点会对应不同的Attention值，这样使得在同样压缩比的情况下，解压后的图像视觉效果更好；

(二)本发明和其他的传统的方法JPEG、BPG和CNN相比，在更小的压缩比下，还训练图片的效果差不多；

(三)本发明使用一个Attention Map去为图片中的每个像素点赋予不同的权值，从而使得深度网络在解压的时候，生成一个视觉效果上比较好的图片；

(四)本发明主要提出使用Attention进行图片压缩技术，在进行图片压缩时，可以有选择对图片不同区域采用不同的压缩能力，对不是很看重的地方着重进行压缩，对于比较看重的地方，尽可能保持图片的原有信息，为了实现这种效果，引入一个Attention机制，该机制针对不同的像素点生成不同的大小的权重，权重越大代表越看重图片的这部分信息，越小表示图片这部分信息不重要，可以适当的进行缩减。

附图说明

下面结合附图对本发明进一步说明。

附图1为基于Attention机制的训练图片压缩网络的构建方法示意图；

附图2为编码器的示意图；

附图3为解码器的示意图。

具体实施方式

参照说明书附图和具体实施例对本发明的基于Attention机制的训练图片压缩网络的构建方法及系统作以下详细地说明。

实施例1：

如附图1所示，本发明的基于Attention机制的训练图片压缩网络的构建方法,该方法具体如下：

S1、将训练图片进行压缩和解压获取重构图片，同时获取熵编码R；具体如下：

S101、通过编码器对训练图片进行编码，得到编码后的特征图；如附图2所示，编码器使用一个3层的神经网络，每一层包括一个卷积、一个下采样和一个Relu激活函数；

S102、通过量化器对特征图进行量化，得到量化后的特征图；

S103、同时通过熵编码器对量化后特征图进行熵编码，得到熵编码参数；

S104、通过解码器对量化后的特征图进行解码，得到重构图片；如附图3所示，解码器使用一个3层的神经网络，每一层包括一个反卷积、一个上采样和一个Relu激活函数。

S2、利用改进的Vgg网络生产关于一个图片的Attention map；Vgg网络的改进具体如下：去掉Vgg中的全连接网络，在最后一个卷积层后面加上一个depthwise_conv2d和一个global pooling层；再接一个全连接层。Vgg网络使用mageNet数据集进行训练。由于我们使用ImageNet数据集进行训练，因此最后一个全连接层，我们使用1000个神经元。

S3、在训练压缩和解压网络过程中获取损失函数，公式如下：

Loss＝R+λD；

其中，D是通过训练图片和重构图片之间对应点的MSE获得(MSE为训练图片与重构图片相减后的平方和)；

其中，x表示训练图片，

表示重构图片，/>

表示训练图片中像素点和重构图片中对应像素点之间的距离；

λ表示Attention Map矩阵；R表示熵编码参数。其中，Attention Map会在看重的物体地方矩阵点的值比较大，背景处的值比较小，因为λ起到一个trade off的功能，用于平衡码流大小和率失真。如果图片上的某个像素点对应Attention Map上的数值比较大，就使用更大的码流去存储。对应AttentionMap的数值比较小，就使用更小的码流去存储。因此这使得压缩和解压网络增加一定的选择性功能。

其中，Attention Map矩阵获取过程如下：

S301、对于训练好的Vgg网络，通过输入一张大小为224*224*3的图片，获得该图片的一个Conv_last,大小为14*14*1024；

S302、global pooling层和Fc输出层之间加入W，W表示1024*1000的矩阵，通过转置运算符，获得一个W_transpose为1000*1024；

S303、从W_transpose选择预测类别最大的那一行的1024个元素，转置成为一个1024*1的矩阵；

S304、把Conv_last矩阵进行双线性差值，成为一个224*224*1024的矩阵；

S305、将224*224*1024的矩阵通过reshape操作变成一个50176*1024的矩阵；

S306、把50176*1024的矩阵与1024*1的矩阵相乘，得到一个50176*1的矩阵；

S307、将50176*1的矩阵进行转置变成224*224*1的Attention map矩阵。

实施例2：

本发明的基于Attention机制的训练图片压缩网络的构建系统，该系统包括，

重构图片获取模块，用于将训练图片进行压缩和解压获取重构图片，同时获取熵编码R；重构图片获取模块包括，

量化器，用于对特征图进行量化，得到量化后的特征图；

Attention map生成模块，用于利用改进的Vgg网络生产关于一个图片的Attention map；Vgg网络的改进具体如下：去掉Vgg中的全连接网络，在最后一个卷积层后面加上一个depthwise_conv2d和一个global pooling层；再接一个全连接层；其中，Vgg网络使用mageNet数据集进行训练。

Loss＝R+λD；

其中，D是通过训练图片和重构图片之间对应点的MSE获得；λ表示Attention Map矩阵；R表示熵编码参数；Attention Map矩阵获取过程如下：

(1)、对于训练好的Vgg网络，通过输入一张大小为224*224*3的图片，获得该图片的一个Conv_last,大小为14*14*1024；

(2)、global pooling层和Fc输出层之间加入W，W表示1024*1000的矩阵，通过转置运算符，获得一个W_transpose为1000*1024；

(3)、从W_transpose选择预测类别最大的那一行的1024个元素，转置成为一个1024*1的矩阵；

(4)、把Conv_last矩阵进行双线性差值，成为一个224*224*1024的矩阵；

(5)、将224*224*1024的矩阵通过reshape操作变成一个50176*1024的矩阵；

(6)、把50176*1024的矩阵与1024*1的矩阵相乘，得到一个50176*1的矩阵；

(7)、将50176*1的矩阵进行转置变成224*224*1的Attention map矩阵。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于Attention机制的训练图片压缩网络的构建方法，其特征在于，该方法具体如下：

利用改进的Vgg网络生产关于一个图片的Attention map；

在训练压缩和解压网络过程中获取损失函数，公式如下：

Loss=R+λD；

其中，Vgg网络的改进具体如下：去掉Vgg中的全连接网络，在最后一个卷积层后面加上一个depthwise_conv2d和一个global pooling层；再接一个全连接层；Vgg网络使用mageNet数据集进行训练；

Attention Map矩阵获取过程如下：

把Conv_last矩阵进行双线性差值，成为一个224*224*1024的矩阵；

将224*224*1024的矩阵通过reshape操作变成一个50176*1024的矩阵；

将50176*1的矩阵进行转置变成224*224*1的Attention map矩阵。

2.根据权利要求1所述的基于Attention机制的训练图片压缩网络的构建方法，其特征在于，所述获取重构图片，同时获取熵编码R具体如下：

通过编码器对训练图片进行编码，得到编码后的特征图；

通过量化器对特征图进行量化，得到量化后的特征图；

通过解码器对量化后的特征图进行解码，得到重构图片。

3.根据权利要求2所述的基于Attention机制的训练图片压缩网络的构建方法，其特征在于，所述编码器使用一个3层的神经网络，每一层包括一个卷积、一个下采样和一个Relu激活函数；

4.一种基于Attention机制的训练图片压缩网络的构建系统，其特征在于，该系统包括，

Attention map生成模块，用于利用改进的Vgg网络生产关于一个图片的Attentionmap；

Loss=R+λD；

Vgg网络的改进具体如下：去掉Vgg中的全连接网络，在最后一个卷积层后面加上一个depthwise_conv2d和一个global pooling层；再接一个全连接层；其中，Vgg网络使用mageNet数据集进行训练；

Attention Map矩阵获取过程如下：

把Conv_last矩阵进行双线性差值，成为一个224*224*1024的矩阵；

将224*224*1024的矩阵通过reshape操作变成一个50176*1024的矩阵；

将50176*1的矩阵进行转置变成224*224*1的Attention map矩阵。

5.根据权利要求4所述的基于Attention机制的训练图片压缩网络的构建系统，其特征在于，所述重构图片获取模块包括，

量化器，用于对特征图进行量化，得到量化后的特征图；