CN111031312A - 基于网络实现注意力机制的图像压缩方法 - Google Patents

基于网络实现注意力机制的图像压缩方法 Download PDF

Info

Publication number
CN111031312A
CN111031312A CN201911288278.2A CN201911288278A CN111031312A CN 111031312 A CN111031312 A CN 111031312A CN 201911288278 A CN201911288278 A CN 201911288278A CN 111031312 A CN111031312 A CN 111031312A
Authority
CN
China
Prior art keywords
image
network
matrix
realizing
compression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911288278.2A
Other languages
English (en)
Other versions
CN111031312B (zh
Inventor
汝佩哲
李锐
金长新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Scientific Research Institute Co Ltd
Original Assignee
Shandong Inspur Artificial Intelligence Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Artificial Intelligence Research Institute Co Ltd filed Critical Shandong Inspur Artificial Intelligence Research Institute Co Ltd
Priority to CN201911288278.2A priority Critical patent/CN111031312B/zh
Publication of CN111031312A publication Critical patent/CN111031312A/zh
Application granted granted Critical
Publication of CN111031312B publication Critical patent/CN111031312B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供了一种基于网络实现注意力机制的图像压缩方法,能够提高了图像压缩比例,提升了图像压缩后视觉效果,包括:利用yolo3网络对原始图像进行检测,得到目标矩阵;将原始图像进行压缩并利用卷积神经网络对图像处理得到重构图像,处理包括原始图像进行卷积得到第一特征数据,对第一特征数据量化得离散值向量,离散值向量数据熵编码处理得到码流数据,码流数据解压后反量化的第二特征数据,第二特征数据进行反卷积得到重构图像;原始图像的三通道数值分别作为矩阵M做点乘得到新图像矩阵;新图像矩阵与重构图像计算MSE,并作为损失函数对网络参数进行优化。

Description

基于网络实现注意力机制的图像压缩方法
技术领域
本发明涉及一种图像压缩方法,具体涉及一种基于网络实现注意力机制的图像压缩方法,属于深度学习技术领域。
背景技术
图像压缩是图像处理分析的一个热门领域。图像压缩是通过图像编码改变图像内容格式的过程,目标是减少图像所占用的储存空间。
随着数字化信息时代的到来和宽带移动通信技术的快速普及,移动互联网技术的应用深入到人们生活的各个方面。数字化信息的快速、有效传输将给人们的信息交流带来巨大便利,4G 、5G移动通信技术的推广普及使得高清图像的实时传输在个人移动通信中的应用也越来越普遍。尽管如今网络传输速率大大提高,对于公共网络来说,实现高清图像的实时传输,仍是十分困难的事情,因此需要考虑如何在不失真的情况下更好的对图像进行压缩,以减小图像存储空间,加快图片传输速率。
传统的图像压缩操作以线型转换为基础,通过线性转换方式将数据向量转换为合适的连续值表示形式,然后对这些连续值进行量化并通过熵编码方式进行编码。
发明内容
本发明提供了一种基于网络实现注意力机制的图像压缩方法,能够提高了图像压缩比例,提升了图像压缩后视觉效果。
本发明为实现上述目的,通过以下技术方案实现:
一种基于网络实现注意力机制的图像压缩方法,包括:
(1)利用yolo3网络对原始图像进行检测,得到目标矩阵;
(2)将原始图像进行压缩并利用卷积神经网络对图像处理得到重构图像,处理包括原始图像进行卷积得到第一特征数据,对第一特征数据量化得离散值向量,离散值向量数据熵编码处理得到码流数据,码流数据解压后反量化的第二特征数据,第二特征数据进行反卷积得到重构图像;
(3)原始图像的三通道数值分别作为矩阵M做点乘得到新图像矩阵;
(4)新图像矩阵与重构图像计算MSE,并作为损失函数对网络参数进行优化。
所述基于网络实现注意力机制的图像压缩方法优选方案,目标矩阵获得具体过程如下:初始化一w×h矩阵M,其中w为图像宽度,h为图像高度,对检测到目标区域,设置矩阵M的值为1,对其他区域,设置矩阵M的值为0.1。
所述基于网络实现注意力机制的图像压缩方法优选方案,卷积处理中是将图像数据连接四个卷积层,卷积核大小为3×3,通道数为128,同时进行下采样,步长为2。
所述基于网络实现注意力机制的图像压缩方法优选方案,对卷积后数据连接四个反卷积重制图片,卷积核大小为3×3,前四层反卷积层通道数为128,第五层通道数为3,同时进行上采样,步长为2。
所述基于网络实现注意力机制的图像压缩方法优选方案,前三层卷积层及反卷积层均以ReLU作为激活函数,第四层卷积层及反卷积层不设置激活函数。
所述基于网络实现注意力机制的图像压缩方法优选方案, 图像的处理包括压缩和解压,压缩:
1)准备图像文件;
2)利用python中tensorflow_compression包下的SignalConv2D()函数实现四个卷积层,设置strides_down参数为步长;
3)利用python中tensorflow_compression包下的EntropyBottleneck()函数进行量化与熵编码;
4)利用python中tensorflow_compression包下的PackedTensors类中的pack()函数对熵编码后结果进行保存;
解压:
1)利用python中tensorflow_compression包下的PackedTensors类中的unpack()函数读取保存结果;
2)利用python中tensorflow_compression包下的SignalConv2D()函数实现四个反卷积层,设置strides_up参数为步长。
本发明具体原理如下:选择训练图像数据利用yolo3网络进行训练得到压缩模型与解压模型,训练图像数据的选择要具有针对性,尽量是针对某一领域的图像数据,这样能产生更好的压缩效果,如希望压缩监控图像数据,那训练数据应当是尽量多的监控图片数据,通过压缩模型压缩带压缩图像得到压缩文件用于储存,在观看或使用图像时,通过解压模型对压缩文件进行解压得到重构图片。
本发明的优点在于:本发明以非线性转换为基础,通过yolo3网络对图像进行目标检测,并结合卷积神经网络提取图像特征,对提取特征进行量化并通过熵编码进行压缩。本方法使用ReLU作为激活函数实现非线性转换,并通过目标检测方法提取ROI(Region OfInterest)实现注意力机制,本方法结合注意力机制,比传统方法更符合生物视觉系统,提高了图像压缩比例,提升了图像压缩后视觉效果。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明实施例的流程图。
图2为本发明实施例的原始图像数据。
图3为150倍压缩下从左往右依次为jpg位图、jpeg2000位图及本发明方法得到的图像。
图4为45倍压缩下从左往右依次为jpg位图、jpeg2000位图及本发明方法得到的图像。
图5为15倍压缩下从左往右依次为jpg位图、jpeg2000位图及本发明方法得到的图像。
图6为本发明实施例的一个具体目标区域图。
图7为从左往右依次为jpeg2000位图及本发明方法得到的目标区域图。
图8为本发明的原理图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于网络实现注意力机制的图像压缩方法,包括:
(1)利用yolo3网络对原始图像进行检测,得到目标矩阵,目标矩阵获得具体过程如下:初始化一w×h矩阵M,其中w为图像宽度,h为图像高度,对检测到目标区域,设置矩阵M的值为1,对其他区域,设置矩阵M的值为0.1;
如图像分辨率为1920×1080,则w=1920,h=1080;
参考图6,比如在该512x512的图像中检测到了感兴趣区域(人脸),则生成一个512x512矩阵M,该矩阵在其他位置值为0.1在该位置值为1。
如:
Figure DEST_PATH_IMAGE001
(2)将原始图像进行压缩并利用卷积神经网络对图像处理得到重构图像,处理包括原始图像进行卷积得到第一特征数据,对第一特征数据量化得离散值向量,离散值向量数据熵编码处理得到码流数据,码流数据解压后反量化的第二特征数据,第二特征数据进行反卷积得到重构图像;
如图7,可以看到本方法在感兴趣区域(脸部)压缩效果更好,更加清晰,平滑,符合人类视觉感知;
(3)原始图像的三通道数值分别作为矩阵M做点乘得到新图像矩阵;
矩阵点乘即为维数完全相同的矩阵对应元素逐个相乘,满足交换律。
如:
Figure 775219DEST_PATH_IMAGE002
(4)新图像矩阵与重构图像计算MSE,并作为损失函数对网络参数进行优化;
MSE即为均方误差,在本方法中即为像素点之间作差的平方的均值,
Figure 20256DEST_PATH_IMAGE004
其中
Figure DEST_PATH_IMAGE005
为新图像矩阵像素点值,
Figure 924627DEST_PATH_IMAGE006
为重构图像像素点值。
网络优化方式即为最小化该损失函数。
本实施例中,卷积处理中是将图像数据连接四个卷积层,卷积核大小为3×3,通道数为128,同时进行下采样,步长为2。对卷积后数据连接四个反卷积重制图片,卷积核大小为3×3,前四层反卷积层通道数为128,第五层通道数为3,同时进行上采样,步长为2。
本实施例中,前三层卷积层及反卷积层均以ReLU作为激活函数,第四层卷积层及反卷积层不设置激活函数。
图像的处理包括压缩和解压,压缩:
1)准备图像文件;
2)利用python中tensorflow_compression包下的SignalConv2D()函数实现四个卷积层,设置strides_down参数为步长;
3)利用python中tensorflow_compression包下的EntropyBottleneck()函数进行量化与熵编码;
4)利用python中tensorflow_compression包下的PackedTensors类中的pack()函数对熵编码后结果进行保存;
解压:
1)利用python中tensorflow_compression包下的PackedTensors类中的unpack()函数读取保存结果;
2)利用python中tensorflow_compression包下的SignalConv2D()函数实现四个反卷积层,设置strides_up参数为步长。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于网络实现注意力机制的图像压缩方法,其特征在于,包括:
(1)利用yolo3网络对原始图像进行检测,得到目标矩阵;
(2)将原始图像进行压缩并利用卷积神经网络对图像处理得到重构图像,处理包括原始图像进行卷积得到第一特征数据,对第一特征数据量化得离散值向量,离散值向量数据熵编码处理得到码流数据,码流数据解压后反量化的第二特征数据,第二特征数据进行反卷积得到重构图像;
(3)原始图像的三通道数值分别作为矩阵M做点乘得到新图像矩阵;
(4)新图像矩阵与重构图像计算MSE,并作为损失函数对网络参数进行优化。
2.根据权利要求1所述基于网络实现注意力机制的图像压缩方法,其特征在于:目标矩阵获得具体过程如下:初始化一w×h矩阵M,其中w为图像宽度,h为图像高度,对检测到目标区域,设置矩阵M的值为1,对其他区域,设置矩阵M的值为0.1。
3.根据权利要求1所述基于网络实现注意力机制的图像压缩方法,其特征在于:卷积处理中是将图像数据连接四个卷积层,卷积核大小为3×3,通道数为128,同时进行下采样,步长为2。
4.根据权利要求3所述基于网络实现注意力机制的图像压缩方法,其特征在于:对卷积后数据连接四个反卷积重制图片,卷积核大小为3×3,前四层反卷积层通道数为128,第五层通道数为3,同时进行上采样,步长为2。
5.根据权利要求3所述基于网络实现注意力机制的图像压缩方法,其特征在于:前三层卷积层及反卷积层均以ReLU作为激活函数,第四层卷积层及反卷积层不设置激活函数。
6.根据权利要求3所述基于网络实现注意力机制的图像压缩方法,其特征在于: 图像的处理包括压缩和解压,
压缩:
1)准备图像文件;
2)利用python中tensorflow_compression包下的SignalConv2D()函数实现四个卷积层,设置strides_down参数为步长;
3)利用python中tensorflow_compression包下的EntropyBottleneck()函数进行量化与熵编码;
4)利用python中tensorflow_compression包下的PackedTensors类中的pack()函数对熵编码后结果进行保存;
解压:
1)利用python中tensorflow_compression包下的PackedTensors类中的unpack()函数读取保存结果;
2)利用python中tensorflow_compression包下的SignalConv2D()函数实现四个反卷积层,设置strides_up参数为步长。
CN201911288278.2A 2019-12-16 2019-12-16 基于网络实现注意力机制的图像压缩方法 Active CN111031312B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911288278.2A CN111031312B (zh) 2019-12-16 2019-12-16 基于网络实现注意力机制的图像压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911288278.2A CN111031312B (zh) 2019-12-16 2019-12-16 基于网络实现注意力机制的图像压缩方法

Publications (2)

Publication Number Publication Date
CN111031312A true CN111031312A (zh) 2020-04-17
CN111031312B CN111031312B (zh) 2022-02-25

Family

ID=70209395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911288278.2A Active CN111031312B (zh) 2019-12-16 2019-12-16 基于网络实现注意力机制的图像压缩方法

Country Status (1)

Country Link
CN (1) CN111031312B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102036073A (zh) * 2010-12-21 2011-04-27 西安交通大学 基于视觉潜在注意力目标区域的jpeg2000图像编解码方法
CN106254879A (zh) * 2016-08-31 2016-12-21 广州精点计算机科技有限公司 一种应用自编码神经网络的有损图像压缩方法
CN107437099A (zh) * 2017-08-03 2017-12-05 哈尔滨工业大学 一种基于机器学习的特定服饰图像识别与检测方法
CN108898168A (zh) * 2018-06-19 2018-11-27 清华大学 用于目标检测的卷积神经网络模型的压缩方法和系统
CN109145940A (zh) * 2018-07-02 2019-01-04 北京陌上花科技有限公司 图像识别方法和装置
CN109740695A (zh) * 2019-01-28 2019-05-10 太原理工大学 基于自适应全卷积注意力网络的图像识别方法
CN109903228A (zh) * 2019-02-28 2019-06-18 合肥工业大学 一种基于卷积神经网络的图像超分辨率重建方法
CN110059728A (zh) * 2019-03-26 2019-07-26 浙江科技学院 基于注意力模型的rgb-d图像视觉显著性检测方法
CN110248191A (zh) * 2019-07-15 2019-09-17 山东浪潮人工智能研究院有限公司 一种基于深层卷积神经网络的视频压缩方法
CN110348487A (zh) * 2019-06-13 2019-10-18 武汉大学 一种基于深度学习的高光谱图像压缩方法及装置
KR20190127090A (ko) * 2018-05-03 2019-11-13 한국전자통신연구원 주관적 화질 대비 영상 압축률 향상을 위한 부호화 방법 및 장치
CN110458160A (zh) * 2019-07-09 2019-11-15 北京理工大学 一种基于深度压缩神经网络的无人艇水面目标识别算法
CN110569901A (zh) * 2019-09-05 2019-12-13 北京工业大学 一种基于通道选择的对抗消除弱监督目标检测方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102036073A (zh) * 2010-12-21 2011-04-27 西安交通大学 基于视觉潜在注意力目标区域的jpeg2000图像编解码方法
CN106254879A (zh) * 2016-08-31 2016-12-21 广州精点计算机科技有限公司 一种应用自编码神经网络的有损图像压缩方法
CN107437099A (zh) * 2017-08-03 2017-12-05 哈尔滨工业大学 一种基于机器学习的特定服饰图像识别与检测方法
KR20190127090A (ko) * 2018-05-03 2019-11-13 한국전자통신연구원 주관적 화질 대비 영상 압축률 향상을 위한 부호화 방법 및 장치
CN108898168A (zh) * 2018-06-19 2018-11-27 清华大学 用于目标检测的卷积神经网络模型的压缩方法和系统
CN109145940A (zh) * 2018-07-02 2019-01-04 北京陌上花科技有限公司 图像识别方法和装置
CN109740695A (zh) * 2019-01-28 2019-05-10 太原理工大学 基于自适应全卷积注意力网络的图像识别方法
CN109903228A (zh) * 2019-02-28 2019-06-18 合肥工业大学 一种基于卷积神经网络的图像超分辨率重建方法
CN110059728A (zh) * 2019-03-26 2019-07-26 浙江科技学院 基于注意力模型的rgb-d图像视觉显著性检测方法
CN110348487A (zh) * 2019-06-13 2019-10-18 武汉大学 一种基于深度学习的高光谱图像压缩方法及装置
CN110458160A (zh) * 2019-07-09 2019-11-15 北京理工大学 一种基于深度压缩神经网络的无人艇水面目标识别算法
CN110248191A (zh) * 2019-07-15 2019-09-17 山东浪潮人工智能研究院有限公司 一种基于深层卷积神经网络的视频压缩方法
CN110569901A (zh) * 2019-09-05 2019-12-13 北京工业大学 一种基于通道选择的对抗消除弱监督目标检测方法

Also Published As

Publication number Publication date
CN111031312B (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
Cheng et al. Deep convolutional autoencoder-based lossy image compression
US9438930B2 (en) Systems and methods for wavelet and channel-based high definition video encoding
CN110751597B (zh) 基于编码损伤修复的视频超分辨方法
CN111711817B (zh) 一种结合卷积神经网络的hevc帧内编码压缩性能优化方法
CN112053408B (zh) 基于深度学习的人脸图像压缩方法及装置
CN110870310A (zh) 图像编码方法和装置
CN111247797A (zh) 用于图像编解码的方法和装置
CN113079378B (zh) 图像处理方法、装置和电子设备
CN116582685A (zh) 一种基于ai的分级残差编码方法、装置、设备和存储介质
Pinheiro et al. Nf-pcac: Normalizing flow based point cloud attribute compression
CN106559668B (zh) 一种基于智能量化技术的低码率图像压缩方法
CN111031312B (zh) 基于网络实现注意力机制的图像压缩方法
CN111080729A (zh) 基于Attention机制的训练图片压缩网络的构建方法及系统
CN114245126B (zh) 一种纹理协同的深度特征图压缩方法
Huang et al. Multi-channel multi-loss deep learning based compression model for color images
WO2023225808A1 (en) Learned image compress ion and decompression using long and short attention module
CN114693818A (zh) 适用于数字正射影像数据的压缩方法
CN114463453A (zh) 图像重建、编码解码方法、相关装置
Yang et al. Graph-convolution network for image compression
CN113141506A (zh) 基于深度学习的图像压缩神经网络模型、及其方法和设备
CN114067258B (zh) 一种面部通话视频的分层编码方法
Xiong et al. Deep feature compression with collaborative coding of image texture
CN115358954B (zh) 一种注意力引导的特征压缩方法
WO2024078403A1 (zh) 图像处理方法、装置及设备
WO2023246655A1 (zh) 一种图像编码、解码方法及编码、解码装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20211215

Address after: 250000 building S02, No. 1036, Langchao Road, high tech Zone, Jinan City, Shandong Province

Applicant after: Shandong Inspur Scientific Research Institute Co.,Ltd.

Address before: North 6th floor, S05 building, Langchao Science Park, 1036 Langchao Road, hi tech Zone, Jinan City, Shandong Province

Applicant before: SHANDONG INSPUR ARTIFICIAL INTELLIGENCE RESEARCH INSTITUTE Co.,Ltd.

GR01 Patent grant
GR01 Patent grant