CN110880194A - 一种基于卷积神经网络的图像压缩方法 - Google Patents

一种基于卷积神经网络的图像压缩方法 Download PDF

Info

Publication number
CN110880194A
CN110880194A CN201911220220.4A CN201911220220A CN110880194A CN 110880194 A CN110880194 A CN 110880194A CN 201911220220 A CN201911220220 A CN 201911220220A CN 110880194 A CN110880194 A CN 110880194A
Authority
CN
China
Prior art keywords
neural network
convolutional neural
compression method
image compression
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911220220.4A
Other languages
English (en)
Inventor
汝佩哲
李锐
金长新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Artificial Intelligence Research Institute Co Ltd
Original Assignee
Shandong Inspur Artificial Intelligence Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Artificial Intelligence Research Institute Co Ltd filed Critical Shandong Inspur Artificial Intelligence Research Institute Co Ltd
Priority to CN201911220220.4A priority Critical patent/CN110880194A/zh
Publication of CN110880194A publication Critical patent/CN110880194A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明特别涉及一种基于卷积神经网络的图像压缩方法。该基于卷积神经网络的图像压缩方法,以非线性转换为基础,通过多层卷积神经网络提取图像特征,对提取特征进行量化并通过熵编码进行压缩。该基于卷积神经网络的图像压缩方法,比现有的图像压缩方法更符合生物视觉系统,不仅提高了图像压缩比例,同时还提升了图像压缩后视觉效果。

Description

一种基于卷积神经网络的图像压缩方法
技术领域
本发明涉及深度学习技术领域,特别涉及一种基于卷积神经网络的图像压缩方法。
背景技术
图像压缩是图像处理分析的一个热门领域。图像压缩是通过图像编码改变图像内容格式的过程,目标是减少图像所占用的储存空间。
随着数字化信息时代的到来和宽带移动通信技术的快速普及,移动互联网技术的应用逐渐深入到人们生活的各个方面。数字化信息的快速、有效传输将给人们的信息交流带来巨大便利,4G、5G移动通信技术的推广普及使得高清图像的实时传输在个人移动通信中的应用也越来越普遍。尽管如今网络传输速率大大提高,对于公共网络来说,实现高清图像的实时传输,仍是十分困难的事情,因此需要考虑如何在不失真的情况下更好的对图像进行压缩,以减小图像存储空间,加快图片传输速率。
传统的图像压缩操作以线型转换为基础,通过线性转换方式将数据向量转换为合适的连续值表示形式,然后对这些连续值进行量化并通过熵编码方式进行编码。
针对以上情况,本发明提出了一种基于卷积神经网络的图像压缩方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于卷积神经网络的图像压缩方法。
本发明是通过如下技术方案实现的:
一种基于卷积神经网络的图像压缩方法,其特征在于:以非线性转换为基础,通过多层卷积神经网络提取图像特征,对提取特征进行量化并通过熵编码进行压缩。
本发明基于卷积神经网络的图像压缩方法,采用ReLU函数作为激活函数实现非线性转换;通过联合上/下采样和卷积操作提升运算速度。
本发明基于卷积神经网络的图像压缩方法,对图像文件进行压缩操作可以得到压缩文件,所述压缩操作包括以下步骤:
第一步,准备待压缩图像文件,通过卷积操作提取图像特征数据;
第二步,对提取到的图像特征数据进行量化得到离散值向量;
第三步,对量化得到的离散值向量进行熵编码得到压缩文件码流数据,并将压缩文件码流数据进行保存。
所述第一步中,利用python中tensorflow_compression包下的SignalConv2D()函数实现五个卷积层,设置strides_down参数为步长;
输入图像数据连接五个卷积层,卷积核大小为(5×5),通道数为156;同时进行下采样,步长为2;
前四层卷积层以ReLU作为激活函数,第五层卷积层不设置激活函数。
所述第二步和第三步中,利用python中tensorflow_compression包下的EntropyBottleneck()函数进行量化与熵编码。
所述第三步中,利用python中tensorflow_compression包下的PackedTensors类中的pack()函数对熵编码后的结果进行保存。
本发明基于卷积神经网络的图像压缩方法,对压缩文件进行解码操作可以得到重构图像,所述解码操作包括以下步骤:
第一步,将压缩文件码流数据进行解码得到离散值向量;
第二步,将解码得到的离散值向量进行反量化,得到特征数据;
第三步,将特征数据进行反卷积操作,即可得到重构图像。
所述第一步中,首先利用python中tensorflow_compression包下的PackedTensors类中的unpack()函数读取保存的压缩文件码流数据。
所述第二步中,利用python中tensorflow_compression包下的SignalConv2D()函数实现五个反卷积层,设置strides_up参数为步长;
对卷积后数据连接三个反卷积重制图片,卷积核大小为(5×5),前四层反卷积层通道数为156,第五层通道数为3;同时进行上采样,步长为2;
前四层反卷积层以ReLU作为激活函数,第五层卷积层不设置激活函数。
本发明基于卷积神经网络的图像压缩方法,采用MES(均方根误差)作为损失函数对网络参数进行优化。
本发明的有益效果是:该基于卷积神经网络的图像压缩方法,比现有的图像压缩方法更符合生物视觉系统,不仅提高了图像压缩比例,同时还提升了图像压缩后视觉效果。
附图说明
附图1为本发明基于卷积神经网络的图像压缩方法示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明中的技术方案,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚,完整的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
该基于卷积神经网络的图像压缩方法,以非线性转换为基础,通过多层卷积神经网络提取图像特征,对提取特征进行量化并通过熵编码进行压缩。
该基于卷积神经网络的图像压缩方法,采用ReLU函数作为激活函数实现非线性转换;通过联合上/下采样和卷积操作提升运算速度。
所述ReLU函数(Rectified Linear Unit,线性整流函数),又称修正线性单元,是一种人工神经网络中常用的激活函数(activation function),通常指代以斜坡函数及其变种为代表的非线性函数。
相比于传统的神经网络激活函数,诸如逻辑函数(Logistic sigmoid)和tanh等双曲函数,ReLU函数有着以下几方面的优势:
第一、仿生物学原理:相关大脑方面的研究表明生物神经元的信息编码通常是比较分散及稀疏的。通常情况下,大脑中在同一时间大概只有1%-4%的神经元处于活跃状态。使用线性修正以及正则化(regularization)可以对机器神经网络中神经元的活跃度(即输出为正值)进行调试;相比之下,逻辑函数在输入为0时达到1/2,即已经是半饱和的稳定状态,不够符合实际生物学对模拟神经网络的期望。不过需要指出的是,一般情况下,在一个使用修正线性单元(即线性整流)的神经网络中大概有50%的神经元处于激活态。
第二、更加有效率的梯度下降以及反向传播:避免了梯度爆炸和梯度消失问题
第三、简化计算过程:没有了其他复杂激活函数中诸如指数函数的影响;同时活跃度的分散性使得神经网络整体计算成本下降。
该基于卷积神经网络的图像压缩方法,对图像文件进行压缩操作可以得到压缩文件,所述压缩操作包括以下步骤:
第一步,准备待压缩图像文件,通过卷积操作提取图像特征数据;
第二步,对提取到的图像特征数据进行量化得到离散值向量;
第三步,对量化得到的离散值向量进行熵编码得到压缩文件码流数据,并将压缩文件码流数据进行保存。
Python是一种计算机程序设计语言。是一种面向对象的动态类型语言,最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越来越多被用于独立的、大型项目的开发。
所述第一步中,利用python中tensorflow_compression包下的SignalConv2D()函数实现五个卷积层,设置strides_down参数为步长;
输入图像数据连接五个卷积层,卷积核大小为(5×5),通道数为156;同时进行下采样,步长为2;
前四层卷积层以ReLU作为激活函数,第五层卷积层不设置激活函数。
所述第二步和第三步中,利用python中tensorflow_compression包下的EntropyBottleneck()函数进行量化与熵编码。
所述第三步中,利用python中tensorflow_compression包下的PackedTensors类中的pack()函数对熵编码后的结果进行保存。
该基于卷积神经网络的图像压缩方法,对压缩文件进行解码操作可以得到重构图像,所述解码操作包括以下步骤:
第一步,将压缩文件码流数据进行解码得到离散值向量;
第二步,将解码得到的离散值向量进行反量化,得到特征数据;
第三步,将特征数据进行反卷积操作,即可得到重构图像。
所述第一步中,首先利用python中tensorflow_compression包下的PackedTensors类中的unpack()函数读取保存的压缩文件码流数据。
所述第二步中,利用python中tensorflow_compression包下的SignalConv2D()函数实现五个反卷积层,设置strides_up参数为步长;
对卷积后数据连接三个反卷积重制图片,卷积核大小为(5×5),前四层反卷积层通道数为156,第五层通道数为3;同时进行上采样,步长为2;
前四层反卷积层以ReLU作为激活函数,第五层卷积层不设置激活函数。
该基于卷积神经网络的图像压缩方法,采用MES(均方根误差)作为损失函数对网络参数进行优化。
该基于卷积神经网络的图像压缩方法,比现有的图像压缩方法更符合生物视觉系统,不仅提高了图像压缩比例,同时还提升了图像压缩后视觉效果。
以上对本发明实例中的一种基于卷积神经网络的图像压缩方法进行了详细的介绍。本部分采用具体实例对发明的原理及实施方式进行了阐述,以上实例仅用于帮助理解本发明的核心思想,在不脱离本发明原理的情况下,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

Claims (10)

1.一种基于卷积神经网络的图像压缩方法,其特征在于:以非线性转换为基础,通过多层卷积神经网络提取图像特征,对提取特征进行量化并通过熵编码进行压缩。
2.根据权利要求1所述的基于卷积神经网络的图像压缩方法,其特征在于:采用ReLU函数作为激活函数实现非线性转换;通过联合上/下采样和卷积操作提升运算速度。
3.根据权利要求2所述的基于卷积神经网络的图像压缩方法,其特征在于:对图像文件进行压缩操作可以得到压缩文件,所述压缩操作包括以下步骤:
第一步,准备待压缩图像文件,通过卷积操作提取图像特征数据;
第二步,对提取到的图像特征数据进行量化得到离散值向量;
第三步,对量化得到的离散值向量进行熵编码得到压缩文件码流数据,并将压缩文件码流数据进行保存。
4.根据权利要求3所述的基于卷积神经网络的图像压缩方法,其特征在于:所述第一步中,利用python中tensorflow_compression包下的SignalConv2D()函数实现五个卷积层,设置strides_down参数为步长;
输入图像数据连接五个卷积层,卷积核大小为5×5,通道数为156;同时进行下采样,步长为2;
前四层卷积层以ReLU作为激活函数,第五层卷积层不设置激活函数。
5.根据权利要求3所述的基于卷积神经网络的图像压缩方法,其特征在于:所述第二步和第三步中,利用python中tensorflow_compression包下的EntropyBottleneck()函数进行量化与熵编码。
6.根据权利要求3所述的基于卷积神经网络的图像压缩方法,其特征在于:所述第三步中,利用python中tensorflow_compression包下的PackedTensors类中的pack()函数对熵编码后的结果进行保存。
7.根据权利要求2或3所述的基于卷积神经网络的图像压缩方法,其特征在于:对压缩文件进行解码操作可以得到重构图像,所述解码操作包括以下步骤:
第一步,将压缩文件码流数据进行解码得到离散值向量;
第二步,将解码得到的离散值向量进行反量化,得到特征数据;
第三步,将特征数据进行反卷积操作,即可得到重构图像。
8.根据权利要求7所述的基于卷积神经网络的图像压缩方法,其特征在于:所述第一步中,首先利用python中tensorflow_compression包下的PackedTensors类中的unpack()函数读取保存的压缩文件码流数据。
9.根据权利要求7所述的基于卷积神经网络的图像压缩方法,其特征在于:所述第二步中,利用python中tensorflow_compression包下的SignalConv2D()函数实现五个反卷积层,设置strides_up参数为步长;
对卷积后数据连接三个反卷积重制图片,卷积核大小为5×5,前四层反卷积层通道数为156,第五层通道数为3;同时进行上采样,步长为2;
前四层反卷积层以ReLU作为激活函数,第五层卷积层不设置激活函数。
10.根据权利要求4、5、6、8或9所述的基于卷积神经网络的图像压缩方法,其特征在于:采用均方根误差MES作为损失函数对网络参数进行优化。
CN201911220220.4A 2019-12-03 2019-12-03 一种基于卷积神经网络的图像压缩方法 Pending CN110880194A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911220220.4A CN110880194A (zh) 2019-12-03 2019-12-03 一种基于卷积神经网络的图像压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911220220.4A CN110880194A (zh) 2019-12-03 2019-12-03 一种基于卷积神经网络的图像压缩方法

Publications (1)

Publication Number Publication Date
CN110880194A true CN110880194A (zh) 2020-03-13

Family

ID=69730795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911220220.4A Pending CN110880194A (zh) 2019-12-03 2019-12-03 一种基于卷积神经网络的图像压缩方法

Country Status (1)

Country Link
CN (1) CN110880194A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111787321A (zh) * 2020-07-06 2020-10-16 济南浪潮高新科技投资发展有限公司 用于边缘端的基于深度学习的图片压缩、解压缩方法及系统
CN112053408A (zh) * 2020-09-04 2020-12-08 清华大学 基于深度学习的人脸图像压缩方法及装置
CN112149652A (zh) * 2020-11-27 2020-12-29 南京理工大学 用于高光谱图像有损压缩的空谱联合深度卷积网络方法
CN113393543A (zh) * 2021-06-15 2021-09-14 武汉大学 高光谱图像压缩方法、装置、设备及可读存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06164902A (ja) * 1992-11-17 1994-06-10 Mamoru Tanaka ニューラルネットワークによる画像の圧縮再生
CN107301668A (zh) * 2017-06-14 2017-10-27 成都四方伟业软件股份有限公司 一种基于稀疏矩阵、卷积神经网络的图片压缩方法
CN107358576A (zh) * 2017-06-24 2017-11-17 天津大学 基于卷积神经网络的深度图超分辨率重建方法
CN107516304A (zh) * 2017-09-07 2017-12-26 广东工业大学 一种图像去噪方法及装置
CN109862370A (zh) * 2017-11-30 2019-06-07 北京大学 视频超分辨率处理方法及装置
CN109903351A (zh) * 2019-03-02 2019-06-18 复旦大学 基于卷积神经网络和传统编码相结合的图像压缩方法
CN109903228A (zh) * 2019-02-28 2019-06-18 合肥工业大学 一种基于卷积神经网络的图像超分辨率重建方法
US20190206091A1 (en) * 2017-12-29 2019-07-04 Baidu Online Network Technology (Beijing) Co., Ltd Method And Apparatus For Compressing Image
CN110084862A (zh) * 2019-04-04 2019-08-02 湖北工业大学 基于多尺度小波变换与深度学习的图像压缩感知算法
CN110348487A (zh) * 2019-06-13 2019-10-18 武汉大学 一种基于深度学习的高光谱图像压缩方法及装置
CN110363297A (zh) * 2019-07-05 2019-10-22 上海商汤临港智能科技有限公司 神经网络训练及图像处理方法、装置、设备和介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06164902A (ja) * 1992-11-17 1994-06-10 Mamoru Tanaka ニューラルネットワークによる画像の圧縮再生
CN107301668A (zh) * 2017-06-14 2017-10-27 成都四方伟业软件股份有限公司 一种基于稀疏矩阵、卷积神经网络的图片压缩方法
CN107358576A (zh) * 2017-06-24 2017-11-17 天津大学 基于卷积神经网络的深度图超分辨率重建方法
CN107516304A (zh) * 2017-09-07 2017-12-26 广东工业大学 一种图像去噪方法及装置
CN109862370A (zh) * 2017-11-30 2019-06-07 北京大学 视频超分辨率处理方法及装置
US20190206091A1 (en) * 2017-12-29 2019-07-04 Baidu Online Network Technology (Beijing) Co., Ltd Method And Apparatus For Compressing Image
CN109903228A (zh) * 2019-02-28 2019-06-18 合肥工业大学 一种基于卷积神经网络的图像超分辨率重建方法
CN109903351A (zh) * 2019-03-02 2019-06-18 复旦大学 基于卷积神经网络和传统编码相结合的图像压缩方法
CN110084862A (zh) * 2019-04-04 2019-08-02 湖北工业大学 基于多尺度小波变换与深度学习的图像压缩感知算法
CN110348487A (zh) * 2019-06-13 2019-10-18 武汉大学 一种基于深度学习的高光谱图像压缩方法及装置
CN110363297A (zh) * 2019-07-05 2019-10-22 上海商汤临港智能科技有限公司 神经网络训练及图像处理方法、装置、设备和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴娱: "《数字图像处理》", 北京邮电大学出版社, pages: 181 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111787321A (zh) * 2020-07-06 2020-10-16 济南浪潮高新科技投资发展有限公司 用于边缘端的基于深度学习的图片压缩、解压缩方法及系统
CN112053408A (zh) * 2020-09-04 2020-12-08 清华大学 基于深度学习的人脸图像压缩方法及装置
CN112149652A (zh) * 2020-11-27 2020-12-29 南京理工大学 用于高光谱图像有损压缩的空谱联合深度卷积网络方法
CN113393543A (zh) * 2021-06-15 2021-09-14 武汉大学 高光谱图像压缩方法、装置、设备及可读存储介质
CN113393543B (zh) * 2021-06-15 2022-07-01 武汉大学 高光谱图像压缩方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN110880194A (zh) 一种基于卷积神经网络的图像压缩方法
KR20230074137A (ko) 머신 러닝 시스템들을 이용한 인스턴스 적응적 이미지 및 비디오 압축
Zhao et al. Invertible image decolorization
CN111669587A (zh) 一种视频图像的拟态压缩方法、装置、存储介质及终端
WO2023010754A1 (zh) 一种图像处理方法、装置、终端设备及存储介质
CN112991203A (zh) 图像处理方法、装置、电子设备及存储介质
CN112950471A (zh) 视频超分处理方法、装置、超分辨率重建模型、介质
CN113192147B (zh) 显著性压缩的方法、系统、存储介质、计算机设备及应用
CN114820341A (zh) 一种基于增强Transformer的图像盲去噪方法及系统
CN114973049A (zh) 一种统一卷积与自注意力的轻量视频分类方法
CN112203098A (zh) 基于边缘特征融合和超分辨率的移动端图像压缩方法
CN116547969A (zh) 基于机器学习的图像译码中色度子采样格式的处理方法
KR20240016368A (ko) 특징 데이터 인코딩 및 디코딩 방법 및 장치
CN111698508B (zh) 基于超分辨率的图像压缩方法、设备及存储介质
CN113256744B (zh) 一种图像编码、解码方法及系统
US20220303557A1 (en) Processing of Chroma-Subsampled Video Using Convolutional Neural Networks
WO2023225808A1 (en) Learned image compress ion and decompression using long and short attention module
CN115294222A (zh) 图像编码方法及图像处理方法、终端及介质
CN115941966A (zh) 一种视频压缩方法及电子设备
CN114245126A (zh) 一种纹理协同的深度特征图压缩方法
CN114463453A (zh) 图像重建、编码解码方法、相关装置
CN113141506A (zh) 基于深度学习的图像压缩神经网络模型、及其方法和设备
CN111031312B (zh) 基于网络实现注意力机制的图像压缩方法
CN114067258B (zh) 一种面部通话视频的分层编码方法
CN117237259B (zh) 基于多模态融合的压缩视频质量增强方法及装置

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination