CN111031312A

CN111031312A - 基于网络实现注意力机制的图像压缩方法

Info

Publication number: CN111031312A
Application number: CN201911288278.2A
Authority: CN
Inventors: 汝佩哲; 李锐; 金长新
Original assignee: Shandong Inspur Artificial Intelligence Research Institute Co Ltd
Current assignee: Shandong Inspur Scientific Research Institute Co Ltd
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-04-17
Anticipated expiration: 2039-12-16
Also published as: CN111031312B

Abstract

本发明提供了一种基于网络实现注意力机制的图像压缩方法，能够提高了图像压缩比例，提升了图像压缩后视觉效果，包括：利用yolo3网络对原始图像进行检测，得到目标矩阵；将原始图像进行压缩并利用卷积神经网络对图像处理得到重构图像，处理包括原始图像进行卷积得到第一特征数据，对第一特征数据量化得离散值向量，离散值向量数据熵编码处理得到码流数据，码流数据解压后反量化的第二特征数据，第二特征数据进行反卷积得到重构图像；原始图像的三通道数值分别作为矩阵M做点乘得到新图像矩阵；新图像矩阵与重构图像计算MSE，并作为损失函数对网络参数进行优化。

Description

基于网络实现注意力机制的图像压缩方法

技术领域

本发明涉及一种图像压缩方法，具体涉及一种基于网络实现注意力机制的图像压缩方法，属于深度学习技术领域。

背景技术

图像压缩是图像处理分析的一个热门领域。图像压缩是通过图像编码改变图像内容格式的过程，目标是减少图像所占用的储存空间。

随着数字化信息时代的到来和宽带移动通信技术的快速普及，移动互联网技术的应用深入到人们生活的各个方面。数字化信息的快速、有效传输将给人们的信息交流带来巨大便利，4G 、5G移动通信技术的推广普及使得高清图像的实时传输在个人移动通信中的应用也越来越普遍。尽管如今网络传输速率大大提高，对于公共网络来说，实现高清图像的实时传输，仍是十分困难的事情，因此需要考虑如何在不失真的情况下更好的对图像进行压缩，以减小图像存储空间，加快图片传输速率。

传统的图像压缩操作以线型转换为基础，通过线性转换方式将数据向量转换为合适的连续值表示形式，然后对这些连续值进行量化并通过熵编码方式进行编码。

发明内容

本发明提供了一种基于网络实现注意力机制的图像压缩方法，能够提高了图像压缩比例，提升了图像压缩后视觉效果。

本发明为实现上述目的，通过以下技术方案实现：

一种基于网络实现注意力机制的图像压缩方法，包括：

（1）利用yolo3网络对原始图像进行检测，得到目标矩阵；

（2）将原始图像进行压缩并利用卷积神经网络对图像处理得到重构图像，处理包括原始图像进行卷积得到第一特征数据，对第一特征数据量化得离散值向量，离散值向量数据熵编码处理得到码流数据，码流数据解压后反量化的第二特征数据，第二特征数据进行反卷积得到重构图像；

（3）原始图像的三通道数值分别作为矩阵M做点乘得到新图像矩阵；

（4）新图像矩阵与重构图像计算MSE，并作为损失函数对网络参数进行优化。

所述基于网络实现注意力机制的图像压缩方法优选方案，目标矩阵获得具体过程如下：初始化一w×h矩阵M，其中w为图像宽度，h为图像高度，对检测到目标区域，设置矩阵M的值为1，对其他区域，设置矩阵M的值为0.1。

所述基于网络实现注意力机制的图像压缩方法优选方案，卷积处理中是将图像数据连接四个卷积层，卷积核大小为3×3，通道数为128，同时进行下采样，步长为2。

所述基于网络实现注意力机制的图像压缩方法优选方案，对卷积后数据连接四个反卷积重制图片，卷积核大小为3×3，前四层反卷积层通道数为128，第五层通道数为3，同时进行上采样，步长为2。

所述基于网络实现注意力机制的图像压缩方法优选方案，前三层卷积层及反卷积层均以ReLU作为激活函数，第四层卷积层及反卷积层不设置激活函数。

所述基于网络实现注意力机制的图像压缩方法优选方案，图像的处理包括压缩和解压，压缩：

1）准备图像文件；

2）利用python中tensorflow_compression包下的SignalConv2D()函数实现四个卷积层，设置strides_down参数为步长；

3）利用python中tensorflow_compression包下的EntropyBottleneck()函数进行量化与熵编码；

4）利用python中tensorflow_compression包下的PackedTensors类中的pack()函数对熵编码后结果进行保存；

解压：

1）利用python中tensorflow_compression包下的PackedTensors类中的unpack()函数读取保存结果；

2）利用python中tensorflow_compression包下的SignalConv2D()函数实现四个反卷积层，设置strides_up参数为步长。

本发明具体原理如下：选择训练图像数据利用yolo3网络进行训练得到压缩模型与解压模型，训练图像数据的选择要具有针对性，尽量是针对某一领域的图像数据，这样能产生更好的压缩效果，如希望压缩监控图像数据，那训练数据应当是尽量多的监控图片数据，通过压缩模型压缩带压缩图像得到压缩文件用于储存，在观看或使用图像时，通过解压模型对压缩文件进行解压得到重构图片。

本发明的优点在于：本发明以非线性转换为基础，通过yolo3网络对图像进行目标检测，并结合卷积神经网络提取图像特征，对提取特征进行量化并通过熵编码进行压缩。本方法使用ReLU作为激活函数实现非线性转换，并通过目标检测方法提取ROI（Region OfInterest）实现注意力机制，本方法结合注意力机制，比传统方法更符合生物视觉系统，提高了图像压缩比例，提升了图像压缩后视觉效果。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明实施例的流程图。

图2为本发明实施例的原始图像数据。

图3为150倍压缩下从左往右依次为jpg位图、jpeg2000位图及本发明方法得到的图像。

图4为45倍压缩下从左往右依次为jpg位图、jpeg2000位图及本发明方法得到的图像。

图5为15倍压缩下从左往右依次为jpg位图、jpeg2000位图及本发明方法得到的图像。

图6为本发明实施例的一个具体目标区域图。

图7为从左往右依次为jpeg2000位图及本发明方法得到的目标区域图。

图8为本发明的原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于网络实现注意力机制的图像压缩方法，包括：

（1）利用yolo3网络对原始图像进行检测，得到目标矩阵，目标矩阵获得具体过程如下：初始化一w×h矩阵M，其中w为图像宽度，h为图像高度，对检测到目标区域，设置矩阵M的值为1，对其他区域，设置矩阵M的值为0.1；

如图像分辨率为1920×1080，则w=1920，h=1080；

参考图6，比如在该512x512的图像中检测到了感兴趣区域（人脸），则生成一个512x512矩阵M，该矩阵在其他位置值为0.1在该位置值为1。

如：

如图7，可以看到本方法在感兴趣区域（脸部）压缩效果更好，更加清晰，平滑，符合人类视觉感知；

矩阵点乘即为维数完全相同的矩阵对应元素逐个相乘，满足交换律。

如：

（4）新图像矩阵与重构图像计算MSE，并作为损失函数对网络参数进行优化；

MSE即为均方误差，在本方法中即为像素点之间作差的平方的均值,

其中

为新图像矩阵像素点值，

为重构图像像素点值。

网络优化方式即为最小化该损失函数。

本实施例中，卷积处理中是将图像数据连接四个卷积层，卷积核大小为3×3，通道数为128，同时进行下采样，步长为2。对卷积后数据连接四个反卷积重制图片，卷积核大小为3×3，前四层反卷积层通道数为128，第五层通道数为3，同时进行上采样，步长为2。

本实施例中，前三层卷积层及反卷积层均以ReLU作为激活函数，第四层卷积层及反卷积层不设置激活函数。

图像的处理包括压缩和解压，压缩：

1）准备图像文件；

解压：

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于网络实现注意力机制的图像压缩方法，其特征在于，包括：

（1）利用yolo3网络对原始图像进行检测，得到目标矩阵；

2.根据权利要求1所述基于网络实现注意力机制的图像压缩方法，其特征在于：目标矩阵获得具体过程如下：初始化一w×h矩阵M，其中w为图像宽度，h为图像高度，对检测到目标区域，设置矩阵M的值为1，对其他区域，设置矩阵M的值为0.1。

3.根据权利要求1所述基于网络实现注意力机制的图像压缩方法，其特征在于：卷积处理中是将图像数据连接四个卷积层，卷积核大小为3×3，通道数为128，同时进行下采样，步长为2。

4.根据权利要求3所述基于网络实现注意力机制的图像压缩方法，其特征在于：对卷积后数据连接四个反卷积重制图片，卷积核大小为3×3，前四层反卷积层通道数为128，第五层通道数为3，同时进行上采样，步长为2。

5.根据权利要求3所述基于网络实现注意力机制的图像压缩方法，其特征在于：前三层卷积层及反卷积层均以ReLU作为激活函数，第四层卷积层及反卷积层不设置激活函数。

6.根据权利要求3所述基于网络实现注意力机制的图像压缩方法，其特征在于：图像的处理包括压缩和解压，

压缩：

1）准备图像文件；

解压：