CN110782393A - 一种基于可逆网络的图像分辨率压缩及重建方法 - Google Patents

一种基于可逆网络的图像分辨率压缩及重建方法 Download PDF

Info

Publication number
CN110782393A
CN110782393A CN201910959774.XA CN201910959774A CN110782393A CN 110782393 A CN110782393 A CN 110782393A CN 201910959774 A CN201910959774 A CN 201910959774A CN 110782393 A CN110782393 A CN 110782393A
Authority
CN
China
Prior art keywords
image
resolution
network
size
reconstruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910959774.XA
Other languages
English (en)
Inventor
葛洪伟
羊洁明
王双喜
江明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN201910959774.XA priority Critical patent/CN110782393A/zh
Publication of CN110782393A publication Critical patent/CN110782393A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于可逆网络的图像分辨率压缩及重建方法,属于图像处理领域。所述方法利用卷积神经网络与可逆网络构建进行图像分辨率压缩以及重建的网络模型,然后将高分辨率图像输入到进行分辨率压缩的网络中生成低分辨率压缩图像,将压缩图像输入到进行重建的网络中得到高分辨率重建图像,利用压缩图像和重建图像分别与目标低分辨率图像和原始图像之间的差异来设计优化的目标函数,通过最小化该函数的值来对网络模型的参数进行更新,提升网络进行图像分辨率压缩以及重建的能力;解决了图像分辨率压缩及重建模型在压缩图像时无法保存更多的信息以及无法利用压缩过程来指导重建过程,从而导致图像重建效果不佳的问题。

Description

一种基于可逆网络的图像分辨率压缩及重建方法
技术领域
本发明涉及一种基于可逆网络的图像分辨率压缩及重建方法,属于图像处理领域。
背景技术
图像数据量的庞大不利于图像的存储、传输和处理,所以需要对图像进行一定的压缩,图像压缩就是指以较少的比特有损或无损地表示原来的像素矩阵的技术。图像分辨率压缩是属于图像压缩的一种,指的是通过一些方法来减小高分辨率图像的分辨率,从而得到低分辨率图像。
比如,当在网页上快速浏览图像或在一些小型展示设备上浏览图像时,需要对原始高分辨率图像进行分辨率的压缩来匹配这些应用对于图像数据大小的需求,为了更好的浏览效果,压缩后的图像要具有尽可能好的视觉效果。另外,在减小保存图像所需的内存以及在带宽较小的情况下传输图像时,也会对图像进行分辨率的压缩,对于这类应用需要压缩后的图像能够保存尽可能多的原图中的信息,即还原重建后的图像能够和原始高分辨率图像尽可能的相似。
通常,我们利用重采样和简单的插值法(例如双立方差值)进行分辨率的压缩以及高分辨率的还原重建,这些方法虽然计算高效,但是得到的分辨率压缩结果却具有多种视觉伪影,例如混叠和模糊,并且由于压缩后的图像中保留的原图信息较少,还原后的高分辨率图像也往往与原始高分辨率图像相差较大。
上述传统的分辨率压缩方法(即利用重采样和简单的插值法进行分辨率的压缩以及高分辨率的还原重建的方法)也称为图像下采样,主要解决的是压缩后的图像的视觉感知质量问题。例如文献(D.P.Mitchell and A.N.Netravali,“Reconstruction filters incomputer-graphics,” in Proc.ACM SIGGRAPH,1988,pp.221–228.)对图像先进行过滤,再进行分辨率的压缩。但是这些基于过滤的方法通常需要一定的最小内核大小才能有效,并且不能保存小尺度的细节和重复模式。为了能够捕获大多数感知上的重要细节,一些方法(如A.C.and M. Gross,“Perceptually based downscaling of images,”ACMTrans.Graph.,vol.34,no.4,2015, Art.no.77.)通过直接优化原始图像和分辨率压缩图像之间的SSIM指数来构造分辨率压缩图像,该方法可以捕获大多数感知上的重要细节。但同样,该方法也具有传统的图像分辨率压缩方法具有的缺点,即因为传统的图像分辨率压缩方法并没有直接提供一个将压缩分辨率后的图像还原到原始高分辨率的方法,所以如果要将保存和传输后的低分辨率图像还原为原始高分辨率图像,还需要使用一些超分辨率算法来实现。
一般的超分辨率算法被分为三类:基于插值,基于重建和基于学习的算法。其中,基于深度学习的超分辨率算法(C.Dong,C.C.Loy,K.He,and X.Tang,“Learning a deepconvolutional network for image super-resolution,”inProc.Eur.Conf.Comput.Vis.Cham, Switzerland:Springer,2014,pp.184–199.)以其优越的性能吸引了众多研究者的关注。但是该基于深度学习的超分辨率算法尽管具有相对优越的性能,也和其他超分辨率方法一样,都只是对已经经过下采样的低分辨率图像进行高分辨率重建,没有对这个下采样过程本身加以利用,因此无法得到与原图更相似的重建结果。
另外,也有一些方法同时考虑了图像分辨率压缩过程和对应重建过程。例如文献(Li Y, Liu D,Li H,et al.Learning a Convolutional Neural Network for ImageCompact-Resolution[J]. IEEE Transactions on Image Processing,2018:1-1.)提出了利用深度卷积神经网络来进行图像分辨率压缩以及对应的高分辨率重建的方法。但是由于一般的卷积神经网络的传播属于特征提取的过程,往往伴随着信息的丢失,压缩后的低分辨率图像并没有保留较多的原始图像中的信息,并且在对压缩图像进行高分辨率还原时,也没有对信息损失的过程加以利用,而是利用已经损失信息后的图像来‘创造’出原图中的信息,因此得到的高分辨率还原图像与原始图像之间依然存在不小的差异。
发明内容
为了解决目前存在的图像压缩与重建方法得到高分辨率还原图像与原始图像之间存在差异问题,本发明提供了一种图像分辨率压缩及重建方法。
本发明的第一个目的在于提供一种图像分辨率压缩及重建方法,所述方法包括:
建模阶段:利用卷积神经网络与可逆网络构建进行图像分辨率压缩以及重建的网络模型;
选择训练数据集阶段:选择训练数据集,所述训练数据集包括高分辨率图像和对应的目标低分辨率图像;
模型训练阶段:将高分辨率图像输入到进行分辨率压缩的网络中生成低分辨率压缩图像,将与高分辨率图像对应的目标低分辨率图像输入到进行图像分辨率重建的网络中得到高分辨率重建图像;利用生成的低分辨率压缩图像和得到的高分辨率重建图像分别与目标低分辨率图像和高分辨率图像之间的差异设计优化的目标函数,通过最小化该函数的值来对构建的分别进行图像分辨率压缩和重建的网络模型的参数进行更新,提升网络进行图像分辨率压缩以及重建的能力;
图像压缩和重建阶段:利用更新参数后的分别进行图像分辨率压缩和重建的网络模型对待压缩和重建的图像进行相应的压缩和重建。
可选的,所述方法包括:
(1)选择训练数据集D:选择一个用来训练网络模型的数据集D,该数据集需包括多张尺寸为w×h×c的高分辨率图像以及对应的尺寸为的目标低分辨率图像,其中w、 h、c和r分别为原始图像的宽度、高度、通道数以及分辨率压缩的下采样因子;
其中,对应的目标低分辨率图像为对高分辨率图像进行基于双立方插值的下采样得到的压缩图像;
(2)建立可逆模块:可逆模块由改进的加性耦合层组成,其输出由以下步骤得到:
改进的加性耦合层正向过程:对于尺寸为B×W×H×N_C的输入数据x,其中B、W、H和N_C分别表示输入数据的每批次数量、宽度、高度以及通道数,将其沿着通道处分为尺寸为
Figure RE-GDA0002336940380000032
的两个部分x1和x2,利用下述公式(1)和(2)得到输出数据的两个部分y1和y2
y1=x1+f(x2) (1)
y2=x2+g(y1) (2)
其中,f(x2)和g(y1)分别代表没有限制且不改变数据尺寸的非线性映射;将得到的y1和 y2沿着通道拼接成尺寸为B×W×H×N_C的输出y;
所述改进的加性耦合层正向过程的输入数据x是由步骤中(5)中尺寸为B×W×H×C的高分辨率图像批数据IHR_B经过步骤(3)中所述用于分辨率压缩的网络CRRevnet的第一层传播之后得到的尺寸为B×W×H×N_C的中间批数据;
改进的加性耦合层逆向过程:对于尺寸为B×W×H×N_C的输入数据y,将其沿着通道处分为尺寸为的两个部分y′1和y′2,然后利用下述公式(3)和(4)得到输出数据的两个部分x′1和x′2
x′2=y′2-g(y′1) (3)
x′1=y′1-f(x′2) (4)
将得到的x′1和x′2沿着通道拼接成尺寸为B×W×H×N_C的输出x′;
所述改进的加性耦合层逆向过程的输入数据y′是由步骤(6)中得到的尺寸为
Figure RE-GDA0002336940380000034
Figure RE-GDA0002336940380000035
的压缩图像批数据ICR_B经过步骤(3)中所述用于高分辨率重建的网络SRRevnet的第一层传播之后得到的尺寸为B×W×H×N_C的中间批数据;
(3)建立网络模型:网络模型一共由两个网络组成:第一个网络是进行图像分辨率压缩的CRRevnet,其第一层为卷积层,核为3×3,步长为1,输出通道为N_C;然后是由N_R个步骤(2)中的可逆模块组成的中间层;最后一层为一个卷积层,核为3×3,步长为2,输出通道为3;
第二个网络是进行图像高分辨率重建的SRRevnet,其第一层为转置卷积层,核为3×3,步长为2,输出通道为N_C;然后是由N_R个步骤(2)中的可逆模块的逆向过程组成的中间层;最后一层是一个卷积层,核为3×3,步长为1,输出通道为3;
(4)设置训练参数:设置学习率为α,设置迭代次数K的初值为0;
(5)建立批数据:从数据集D中随机选择B张高分辨率图像,然后随机的从里面裁剪出尺寸为W×H×C的图像块,其中W、H和C分别为裁剪图像块的宽度、高度和通道数,然后将B个图像块拼接成尺寸为B×W×H×C的高分辨率图像批数据IHR_B,然后从相应的B张低分辨率图像中裁剪出对应的尺寸为
Figure RE-GDA0002336940380000041
的图像块,拼接成尺寸为
Figure RE-GDA0002336940380000042
的低分辨率图像批数据ILR_B,并将图像批数据IHR_B和ILR_B以0.5的概率同时进行水平翻转;
(6)生成压缩图像:将图像批数据IHR_B输入网络CRRevnet得到尺寸为的低分辨率压缩图像批数据ICR_B
(7)生成重建图像:将图像批数据ICR_B输入网络SRRevnet得到尺寸为B×W×H×C的高分辨率重建图像批数据ISR_B
(8)计算目标损失:利用得到的低分辨率压缩图像批数据ICR_B和目标低分辨率图像批数据ILR_B计算正则化损失lossregul
Figure RE-GDA0002336940380000044
其中,x和y分别表示图像中单个像素的横坐标和纵坐标;
利用得到的高分辨率重建图像批数据ISR_B和原始高分辨率图像批数据IHR_B计算重建损失lossrecon
Figure RE-GDA0002336940380000045
将正则化损失lossregul和重建损失lossrecon进行一个加权得到目标损失loss:
loss=lossrecon+λlossregul (7)
其中λ表示了正则化损失在目标损失中占有的权重;
(9)更新网络模型的参数:利用目标损失loss对网络模型的所有参数Wm进行求导得到Wm关于loss的导数ΔWm,然后利用随机梯度下降法或Momentum梯度下降法并以学习率为α按下述公式(8)对进行网络模型的参数进行更新:
Wm=Wm-α·ΔWm (8)
(10)迭代次数K加1,并判断加1后的迭代次数是否是1万的整数倍,如果是则将学习率α减半,否则不改变学习率α;
(11)判断迭代次数K是否达到了10万次,如果是则结束迭代并保存训练好的网络模型 CRRevnet以及SRRevnet的参数,否则跳转至步骤(5);
(12)将需要进行分辨率压缩的图像输入到训练好的CRRevnet中得到低分辨率压缩图像,将低分辨率压缩图像输入到训练好的SRRevnet中得到高分辨率重建图像。
可选的,所述用来训练网络模型的数据集D中至少包括800张尺寸为w×h×c的高分辨率图像和对应的尺寸为的目标低分辨率图像。
可选的,步骤(3)中网络CRRevnet和SRRevnet中第一层输出通道数N_C的取值范围为 32<N_C<128。
可选的,步骤(3)中网络CRRevnet和SRRevnet中间层里可逆模块的数量N_R的取值范围为3<N_R<13。
可选的,步骤(4)和步骤(9)中梯度下降法初始学习率a取值范围为[0.00005,0.0005]。
可选的,步骤(5)批数据的每批次数量B的取值范围为16<B<36。
可选的,步骤(8)中λ的取值范围为0.01<λ<1。
可选的,步骤(9)中梯度下降法包括随机梯度下降法和Momentum梯度下降法。
本发明的第二个目的在于提供上述图像分辨率压缩及重建方法所建立的网络模型。
本发明的第三个目的在于提供上述图像分辨率压缩及重建方法以及所建立的网络模型在图像处理领域内的应用。
本发明有益效果是:
(1)本发明引入了可逆网络来构建进行图像分辨率压缩以及重建的网络模型,由于两个网络共享一个可逆网络的参数,因此减小了图像分辨率压缩以及重建网络模型的规模,节约了保存模型所需的内存。
(2)基于可逆网络的信息无损传播特性,在得到的低分辨率压缩图像中能够保存更多来自原始高分辨率图像中的信息。
(3)基于可逆网络的双射特性,可以利用分辨率压缩过程的逆过程来指导高分辨率重建,从压缩图像中尽可能多地‘恢复’原始图像中的信息,从而得到与原始图像尽可能相似的重建图像。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明方法的整体流程图。
图2是耦合层中非线性映射的结构示意图。
图3是从set5中选取的由本发明方法得到的压缩及还原图像与其他方法的视觉效果对比图。
图4是从set14中选取的由本发明方法得到的压缩及还原图像与其他方法的视觉效果对比图。
图5是从BSD100中选取的由本发明方法得到的压缩及还原图像与其他方法的视觉效果对比图。
图6是从Urban100中选取的由本发明方法得到的压缩及还原图像与其他方法的视觉效果对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
首先对本申请涉及的可逆网络相关内容进行介绍如下:
可逆网络是具有可逆结构的网络。对于可逆网络来说,输入数据经正向传播得到输出后,可以通过逆向传播由输出以与正向传播相反的过程得到最初的输入数据,在这个过程中输入数据没有任何信息的丢失。
较早前,就有论文应用神经网络中的某些可逆特性,例如利用随机梯度下降的可逆性质对模型的超参数进行微调。近些年,又出现了很多研究与利用可逆网络的论文。NICE(L. Dinh,D.Krueger,Y.Bengio,NICE:Non-linear independent componentsestimation,arXiv)和 RNVP(L.Dinh,S.D.Jascha,S.Bengio.Density estimation usingreal NVP.arXiv)将可逆网络与最大似然估计相结合提出了基于流的生成模型,利用网络的可逆特性,通过最大化生成过程的逆过程得到的潜变量的对数似然函数值来优化模型生成能力与拟合真实数据分布的能力。 NICE提出了一种加性耦合层的结构来实现可逆。在加性耦合层中,每一层的输入x从通道或者空间上被分成两个尺寸相同的部分x1和x2,通过下面公式计算输出:
y1=x1+f(x2) (1)
y2=x2+g(y1) (2)
将y1和y2拼接得到输出y。在网络逆向传播时,将该层输出y以与拼接相反的方式分成两个部分y1和y2,通过下面公式得到输入x:
x′2=y′2-g(y′1) (3)
x′1=y′1-f(x′2) (4)
在RNVP中,作者首先引入了卷积操作,为了保证卷积操作所需的局部相关性,只能对图像进行通道处或空间棋盘式分割。其次,作者提出了更为一般的仿射耦合层。在仿射耦合层中,在每一层输入被分割成两部分x1和x2后,通过下面公式得到输出y的组成部分:
y1=x1 (9)
Figure RE-GDA0002336940380000071
然后将y1和y2沿着通道拼接得到y。在逆向传播时,将y分割成y1和y2,通过下面公式得到输入x的组成部分:
x1=y1 (11)
x2=(y2-G(y1))/exp(F(y1)) (12)
其中
Figure RE-GDA0002336940380000072
和/分别代表了乘积和相除,F(x1)和G(x1)分别代表了没有任何限制且不改变图像尺寸的非线性映射,例如全连接层或者卷积层。NICE和RNVP中为了得到不平凡的变换,使用了交错和随机两种方式打乱耦合顺序,Glow([23]D.P.Kingma,P.Dhariwal,Glow:Generative Flow with Invertible 1x1 Convolutions,in:International Conferenceon Neural Information Processing Systems)中提出了一种可逆1x1卷积打乱耦合顺序,并实验性地证明了可逆1x1卷积相比交错打乱和随机打乱能得到更好的结果。除此外,Glow还采用激活归一化替代了批归一化,取得了更好的结果。可逆网络还能够与对抗生成网络相结合生成真实的图像,在拟合真实数据分布的同时取得更好的视觉结果。
除了应用到生成模型上,研究者们还利用可逆网络来解决神经网络反向传播时需要保存每一层的激活值用以计算梯度的问题以及成对图像翻译的问题。
实施例一:
本实施例提供一种基于可逆网络的图像分辨率压缩及重建方法,参见图1,所述方法包括:
步骤1.选择训练数据集D:
选择一个用来训练网络模型的数据集D,该数据集需要包括多张尺寸为w×h×c的高分辨率图像以及对应的尺寸为
Figure RE-GDA0002336940380000081
的目标低分辨率图像,其中w、h、c和r分别为原始图像的宽度、高度、通道数以及下采样因子。
数据集D中的目标低分辨率图像是通过对高分辨率图像进行基于双立方插值的下采样得到的;
具体的,本实施例提供的用来训练网络模型的数据集D包括800张尺寸为w×h×c的高分辨率图像以及对应尺寸为
Figure RE-GDA0002336940380000082
的目标低分辨率图像,其中的下采样因子r=2。
步骤2.建立可逆模块:
可逆模块由改进的加性耦合层组成,其输出由以下步骤得到:
改进的加性耦合层正向过程:对于尺寸为B×W×H×N_C的输入数据x,其中B、W、H和N_C分别表示输入数据的每批次数量、宽度、高度以及通道数,将其沿着通道处分为尺寸为
Figure RE-GDA0002336940380000083
的两个部分x1和x2,然后利用下述公式(1)和(2)得到输出数据的两个部分y1和y2
y1=x1+f(x2) (1)
y2=x2+g(y1) (2)
其中,f(x2)和g(y1)分别代表没有限制且不改变数据尺寸的非线性映射;将得到的y1和 y2沿着通道拼接成尺寸为B×W×H×N_C的输出y;
实际应用中,正向过程的输入数据x是由步骤中5中尺寸为B×W×H×C的高分辨率图像批数据IHR_B经过步骤3中所述用于分辨率压缩的网络CRRevnet的第一层传播之后得到的尺寸为B×W×H×N_C的中间批数据。
改进的加性耦合层逆向过程:对于尺寸为B×W×H×N_C的输入数据y′,将其沿着通道处分为尺寸为
Figure RE-GDA0002336940380000084
的两个部分y′1和y′2,然后利用下述公式(3)和(4)得到输出数据的两个部分x′1和x′2
x′2=y′2-g(y′1) (3)
x′1=y′1-f(x′2) (4)
将得到的x′1和x′2沿着通道拼接成尺寸为B×W×H×N_C的输出x′。
实际应用中,逆向过程的输入数据y′是由步骤6中得到的尺寸为的压缩图像批数据ICR_B经过步骤3中所述用于高分辨率重建的网络SRRevnet的第一层传播之后得到的尺寸为B×W×H×N_C的中间批数据。
步骤3.建立网络模型:
模型一共由两个网络组成:第一个网络是进行图像分辨率压缩的CRRevnet,其第一层为卷积层,核为3×3,步长为1,输出通道为N_C;然后是由N_R个步骤2中的可逆模块组成的中间层;最后一层为一个卷积层,核为3×3,步长为2,输出通道为3。
第二个网络是进行图像高分辨率重建的SRRevnet,其第一层为转置卷积层,核为3×3,步长为2,输出通道为N_C;然后是由N_R个步骤2中的可逆模块的逆向过程组成的中间层;
最后一层是一个卷积层,核为3×3,步长为1,输出通道为3;
步骤4.设置训练参数:
设置学习率为a以及迭代次数K的初始值为0;
步骤5.建立批数据:
从数据集D中随机选择B张高分辨率图像然后随机的从里面裁剪出尺寸为W×H×C的图像块,其中W、H和C分别为裁剪图像块的宽度、高度和通道数,然后将B个图像块拼接成尺寸为B×W×H×C的高分辨率图像批数据IHR_B,然后从相应的B张低分辨率图像中裁剪出对应的尺寸为
Figure RE-GDA0002336940380000092
的图像块,拼接成尺寸为
Figure RE-GDA0002336940380000093
的低分辨率图像批数据 ILR_B,并将图像批数据IHR_B和ILR_B以0.5的概率同时进行水平翻转;
步骤6.生成压缩图像:将图像批数据IHR_B输入网络CRRevnet得到尺寸为
Figure RE-GDA0002336940380000094
Figure RE-GDA0002336940380000095
的低分辨率压缩图像批数据ICR_B
步骤7.生成重建图像:将图像批数据ICR_B输入网络SRRevnet得到尺寸为B×W×H×C 的高分辨率重建图像批数据ISR_B
步骤8.计算目标损失:利用得到的低分辨率压缩图像批数据ICR_B和目标低分辨率图像批数据ILR_B计算正则化损失lossregul
Figure RE-GDA0002336940380000096
其中,x和y分别表示图像中单个像素的横坐标和纵坐标。
利用得到的高分辨率重建图像批数据ISR_B和原始高分辨率图像批数据IHR_B计算重建损失lossrecon
Figure RE-GDA0002336940380000101
将正则化损失lossregul和重建损失lossrecon进行一个加权得到目标损失:
loss=lossrecon+λlossregul (7)
其中λ表示了正则化损失在目标损失中占有的权重,0.01<λ<1;
步骤9.更新网络模型的参数:利用loss对网络模型的所有参数Wm进行求导得到Wm关于 loss的导数ΔWm,然后利用随机梯度下降法或Momentum梯度下降法并以学习率为α按下述公式(8)对进行网络模型的参数进行更新:
Wm=Wm-α·ΔWm (8)
步骤10.迭代次数K加1,并判断迭代次数是否是1万的整数倍,如果是则将学习率α减半,否则不改变学习率;
步骤11.判断迭代次数是否达到了10万次,如果是则结束迭代并保存训练好的网络模型 CRRevnet以及SRRevnet的参数,否则跳转至步骤(5);
步骤12.将需要进行分辨率压缩的图像输入到训练好的CRRevnet中得到低分辨率压缩图像,将低分辨率压缩图像输入到训练好的SRRevnet中得到高分辨率重建图像。
本发明的效果可通过以下仿真实验进一步说明。
1、仿真条件及参数
在整个实验中,本实施例中采用上述基于可逆网络的图像分辨率压缩及重建方法进行图像压缩的下采样因子为2×,即r为2。训练集的图片来自于DIV2K数据集,其包括了800张高分辨率的训练图像,100张高分辨率的验证图像,100张高分辨率的测试图像,利用训练图像以及验证图像一共900张图像作为训练集中高分辨率的部分,然后将这900张图像进行基于双立方插值的下采样得到长宽各为原来的目标低分辨率图像。
利用如图2所示的结构来实现步骤2中耦合层中的非线性映射f和g,即由两端的卷积层以及中间的ReLU激活函数层构成,其中卷积层的卷积核为3×3,步长为1,输出通道和输入通道相同。
步骤3中网络模型CRRevnet和SRRevnet第一层的输出通道大小设置为N_C=64,它们中间层的可逆模块数量设置为N_R=8。
步骤4以及步骤9中采用的学习率设置为α=0.0001。步骤5中的每批次图像数量设置为 B=24。
步骤8中目标损失里正则化损失的权重设置为λ=0.7。完成训练的模型在set5,set14, BSD100以及Urban100这四个在超分辨率领域广泛使用的基准数据集进行了测试。
2、仿真内容及结果分析
仿真实验中,本发明方法与其他一些能够进行分辨率压缩以及重建的方法进行了对比分析,实验主要从以下方面展开。
实验1:得到的重建图像在评价指标PSNR(峰值信噪比)以及SSIM(结构相似性)上的定量对比:
峰值信噪比PSNR表示信号的强度与背景噪声强度的比值,图像压缩中典型的峰值信噪比值在30dB到40dB之间,愈高愈好。
结构相似性SSIM是一种衡量两幅图像相似度的指标,结构相似性的范围为0到1,当两张图像一模一样时,SSIM的值等于1,因此SSIM越趋近于1则表示所得到的高分辨率还原图像与原始图像越接近,所使用的图像压缩与重建方法越好。
将由本发明方法中训练好的模型生成的重建图像与其他方法得到的重建图像进行了基于评价指标的定量对比:这里其他方法包括Bilinear插值法,Bicubic插值法,Lanczos插值法以及文献(Li Y,Liu D,Li H,et al.Learning a Convolutional NeuralNetwork for Image Compact- Resolution[J].IEEE Transactions on ImageProcessing,2018:1-1.)中分别用于分辨率压缩以及重建的CNN_CR和CNN_SR。
下述表1-表4中“↓”和“↑”分别表示图像分辨率压缩以及重建过程。
表1:本发明方法在Set5数据集上与其他方法的对比
Figure RE-GDA0002336940380000111
表2:本发明方法在Set14数据集上PSNR和SSIM值的对比
Figure RE-GDA0002336940380000112
表3:本发明方法在BSD100数据集上PSNR和SSIM值的对比
表4:本发明方法在Urban100数据集上PSNR和SSIM值的对比
Figure RE-GDA0002336940380000121
由上面表1-表4可知,本发明方法在每个基准数据集上都取得了最好的定量比较结果。
另外,从文献(Li Y,Liu D,Li H,et al.Learning a Convolutional NeuralNetwork for Image Compact-Resolution[J].IEEE Transactions on ImageProcessing,2018:1-1.)中得知, CNN_CR和CNN_SR的参数一共约为151万个。而本发明方法中,由于两个网络共享可逆网络,可逆网络的参数可共享,因而参数大大减少,发明人实验过程中,统计本发明所提出的 CRRevnet和SRRevnet的参数一共约30万个。因此,本发明方法能够在减小模型规模的基础上,提升对于压缩图像的重建能力。
实验2:本发明方法得到的压缩及重建图像与其他方法在视觉效果上的对比
将由本发明方法中训练好的模型生成的压缩以及重建图像与其他方法得到的压缩以及重建图像进行视觉效果上的对比:
图3是本发明方法和其他方法在set5上的视觉效果对比,其中图3(a)为set5中选取的原始高分辨率图像,图3(b)为从原始图像裁剪下来的图像块,图3(c)-图3(g)是由不同方法得到压缩及重建图像块,其中:图3(c)来自bilinear;图3(d)来自bicubic;图3(e)来自lanczos;图 3(f)来自CNN_CR和CNN_SR;图3(g)来自本发明方法;
由图3可以看出:在set5数据集小孩脸图像上,本发明方法得到的重建图像具有更细致的睫毛条纹,纹理也更加锐利。
图4是本发明方法和其他方法在set14上的视觉效果对比,其中图4(a)为set14中选取的原始高分辨率图像,图4(b)为从原始图像裁剪下来的图像块,图4(c)-图4(g)是由不同方法得到压缩及重建图像块,其中:图4(c)来自bilinear;图4(d)来自bicubic;图4(e)来自lanczos;
图4(f)来自CNN_CR和CNN_SR;图4(g)来自本发明方法;
由图4可以看出:在set14数据集女性图像上,本发明方法得到的重建图像在帽子纹理上具有更丰富的细节,与原图更加接近。
图5是本发明方法和其他方法在BSD100上的视觉效果对比,其中图5(a)为BSD100中选取的原始高分辨率图像,图5(b)为从原始图像裁剪下来的图像块,图5(c)-图5(g)是由不同方法得到压缩及重建图像块,其中:图5(c)来自bilinear;图5(d)来自bicubic;图5(e)来自 lanczos;图5(f)来自CNN_CR和CNN_SR;图5(g)来自本发明方法;
由图5可以看出:在BSD100数据集蛇图像上,本发明方法得到的蛇头部图像块具有更多且更锐利的纹理,而其他图像都相对模糊。
图6是本发明方法和其他方法在Urban100上的视觉效果对比,其中图6(a)为Urban100中选取的原始高分辨率图像,图6(b)为从原始图像裁剪下来的图像块,图6(c)-图6(g)是由不同方法得到压缩及重建图像块,其中:图6(c)来自bilinear;图6(d)来自bicubic;图6(e)来自lanczos;图6(f)来自CNN_CR和CNN_SR;图6(g)来自本发明方法;
由图6可以看出:在Urban100数据集地铁站图像上,本发明方法得到的钟表的图像中的刻度与指针都清晰可见,而其他图像却比较模糊,钟表的刻度也不明显。
从图3-6我们也能看出,除了bilinear方法之外,由bicubic、lanczos、CNN_CR以及本发明方法得到的压缩图像都具有较好的视觉效果。
通过在得到的压缩图像以及重建图像上的定性对比,说明本发明方法能够在得到具有良好的视觉效果的低分辨率压缩图像的基础上生成与原图更相似的重建图像。
本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种图像分辨率压缩及重建方法,其特征在于,所述方法包括:
建模阶段:利用卷积神经网络与可逆网络构建进行图像分辨率压缩以及重建的网络模型;
选择训练数据集阶段:选择训练数据集,所述训练数据集包括高分辨率图像和对应的目标低分辨率图像;
模型训练阶段:将高分辨率图像输入到进行分辨率压缩的网络中生成低分辨率压缩图像,将与高分辨率图像对应的目标低分辨率图像输入到进行图像分辨率重建的网络中得到高分辨率重建图像;利用生成的低分辨率压缩图像和得到的高分辨率重建图像分别与目标低分辨率图像和高分辨率图像之间的差异设计优化的目标函数,通过最小化该函数的值来对构建的分别进行图像分辨率压缩和重建的网络模型的参数进行更新,提升网络进行图像分辨率压缩以及重建的能力;
图像压缩和重建阶段:利用更新参数后的分别进行图像分辨率压缩和重建的网络模型对待压缩和重建的图像进行相应的压缩和重建。
2.根据权利要求1所述的方法,其特征在于,所述方法包括:
(1)选择训练数据集D:选择一个用来训练网络模型的数据集D,该数据集需包括多张尺寸为w×h×c的高分辨率图像以及对应的尺寸为的目标低分辨率图像,其中w、h、c和r分别为原始图像的宽度、高度、通道数以及分辨率压缩的下采样因子;
其中,对应的目标低分辨率图像为对高分辨率图像进行基于双立方插值的下采样得到的压缩图像;
(2)建立可逆模块:可逆模块由改进的加性耦合层组成,其输出由以下步骤得到:
改进的加性耦合层正向过程:对于尺寸为B×W×H×N_C的输入数据x,其中B、W、H和N_C分别表示输入数据的每批次数量、宽度、高度以及通道数,将其沿着通道处分为尺寸为
Figure FDA0002228541810000012
的两个部分x1和x2,利用下述公式(1)和(2)得到输出数据的两个部分y1和y2
y1=x1+f(x2) (1)
y2=x2+g(y1) (2)
其中,f(x2)和g(y1)分别代表没有限制且不改变数据尺寸的非线性映射;将得到的y1和y2沿着通道拼接成尺寸为B×W×H×N_C的输出y;
所述改进的加性耦合层正向过程的输入数据x是由步骤中(5)中尺寸为B×W×H×C的高分辨率图像批数据IHR_B经过步骤(3)中所述用于分辨率压缩的网络CRRevnet的第一层传播之后得到的尺寸为B×W×H×N_C的中间批数据;
改进的加性耦合层逆向过程:对于尺寸为B×W×H×N_C的输入数据y′,将其沿着通道处分为尺寸为
Figure FDA0002228541810000021
的两个部分y′1和y′2,然后利用下述公式(3)和(4)得到输出数据的两个部分x′1和x′2
x′2=y′2-g(y′1) (3)
x′1=y′1-f(x′2) (4)
将得到的x′1和x′2沿着通道拼接成尺寸为B×W×H×N_C的输出x′;
所述改进的加性耦合层逆向过程的输入数据y′是由步骤(6)中得到的尺寸为
Figure FDA0002228541810000026
Figure FDA0002228541810000027
的压缩图像批数据ICR_B经过步骤(3)中所述用于高分辨率重建的网络SRRevnet的第一层传播之后得到的尺寸为B×W×H×N_C的中间批数据;
(3)建立网络模型:网络模型一共由两个网络组成:第一个网络是进行图像分辨率压缩的CRRevnet,其第一层为卷积层,核为3×3,步长为1,输出通道为N_C;然后是由N_R个步骤(2)中的可逆模块组成的中间层;最后一层为一个卷积层,核为3×3,步长为2,输出通道为3;
第二个网络是进行图像高分辨率重建的SRRevnet,其第一层为转置卷积层,核为3×3,步长为2,输出通道为N_C;然后是由N_R个步骤(2)中的可逆模块的逆向过程组成的中间层;最后一层是一个卷积层,核为3×3,步长为1,输出通道为3;
(4)设置训练参数:设置学习率为α,设置迭代次数K的初值为0;
(5)建立批数据:从数据集D中随机选择B张高分辨率图像,然后随机的从里面裁剪出尺寸为W×H×C的图像块,其中W、H和C分别为裁剪图像块的宽度、高度和通道数,然后将B个图像块拼接成尺寸为B×W×H×C的高分辨率图像批数据IHR_B,然后从相应的B张低分辨率图像中裁剪出对应的尺寸为
Figure FDA0002228541810000022
的图像块,拼接成尺寸为
Figure FDA0002228541810000023
的低分辨率图像批数据ILR_B,并将图像批数据IHR_B和ILR_B以0.5的概率同时进行水平翻转;
(6)生成压缩图像:将图像批数据IHR_B输入网络CRRevnet得到尺寸为的低分辨率压缩图像批数据ICR_B
(7)生成重建图像:将图像批数据ICR_B输入网络SRRevnet得到尺寸为B×W×H×C的高分辨率重建图像批数据ISR_B
(8)计算目标损失:利用得到的低分辨率压缩图像批数据ICR_B和目标低分辨率图像批数据ILR_B计算正则化损失lossregul
Figure FDA0002228541810000025
其中,x和y分别表示图像中单个像素的横坐标和纵坐标;
利用得到的高分辨率重建图像批数据ISR_B和原始高分辨率图像批数据IHR_B计算重建损失lossrecon
Figure FDA0002228541810000031
将正则化损失lassregul和重建损失lassrecon进行一个加权得到目标损失loss:
loss=lossrecon+λlassregul (7)
其中λ表示了正则化损失在目标损失中占有的权重;
(9)更新网络模型的参数:利用目标损失loss对网络模型的所有参数Wm进行求导得到Wm关于loss的导数ΔWm,然后利用随机梯度下降法或Momentum梯度下降法并以学习率为α按下述公式(8)对进行网络模型的参数进行更新:
Wm=Wm-α·ΔWm (8)
(10)迭代次数K加1,并判断加1后的迭代次数是否是1万的整数倍,如果是则将学习率α减半,否则不改变学习率α;
(11)判断迭代次数K是否达到了10万次,如果是则结束迭代并保存训练好的网络模型CRRevnet以及SRRevnet的参数,否则跳转至步骤(5);
(12)将需要进行分辨率压缩的图像输入到训练好的CRRevnet中得到低分辨率压缩图像,将低分辨率压缩图像输入到训练好的SRRevnet中得到高分辨率重建图像。
3.根据权利要求2所述的方法,其特征在于,所述用来训练网络模型的数据集D中至少包括800张尺寸为w×h×c的高分辨率图像和对应的尺寸为的目标低分辨率图像。
4.根据权利要求2所述的方法,其特征在于,步骤(3)中网络CRRevnet和SRRevnet中第一层输出通道数N_C的取值范围为32<N_C<128。
5.根据权利要求2所述的方法,其特征在于,步骤(3)中网络CRRevnet和SRRevnet中间层里可逆模块的数量N_R的取值范围为3<N_R<13。
6.根据权利要求2所述的方法,其特征在于,步骤(4)和步骤(9)中梯度下降法初始学习率a取值范围为[0.00005,0.0005]。
7.根据权利要求2所述的方法,其特征在于,步骤(5)批数据的每批次数量B的取值范围为16<B<36。
8.根据权利要求2所述的方法,其特征在于,步骤(8)中λ的取值范围为0.01<λ<1。
9.根据权利要求2所述的方法,其特征在于,步骤(9)中梯度下降法包括随机梯度下降法和Momentum梯度下降法。
10.权利要求1-9任一所述的图像分辨率压缩及重建方法在图像处理领域内的应用。
CN201910959774.XA 2019-10-10 2019-10-10 一种基于可逆网络的图像分辨率压缩及重建方法 Pending CN110782393A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910959774.XA CN110782393A (zh) 2019-10-10 2019-10-10 一种基于可逆网络的图像分辨率压缩及重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910959774.XA CN110782393A (zh) 2019-10-10 2019-10-10 一种基于可逆网络的图像分辨率压缩及重建方法

Publications (1)

Publication Number Publication Date
CN110782393A true CN110782393A (zh) 2020-02-11

Family

ID=69385026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910959774.XA Pending CN110782393A (zh) 2019-10-10 2019-10-10 一种基于可逆网络的图像分辨率压缩及重建方法

Country Status (1)

Country Link
CN (1) CN110782393A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111369562A (zh) * 2020-05-28 2020-07-03 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及存储介质
CN111563262A (zh) * 2020-04-15 2020-08-21 清华大学 一种基于可逆深度神经网络的加密方法及系统
CN111951203A (zh) * 2020-07-01 2020-11-17 北京大学深圳研究生院 视点合成方法、装置、设备及计算机可读存储介质
CN113496234A (zh) * 2020-03-19 2021-10-12 中移(上海)信息通信科技有限公司 图像分类模型训练方法、图像分类方法、装置及电子设备
CN113781363A (zh) * 2021-09-29 2021-12-10 北京航空航天大学 去雾效果可调节的图像增强方法
WO2022027818A1 (zh) * 2020-08-07 2022-02-10 深圳先进技术研究院 数据批处理方法及其批处理装置、存储介质
WO2024007977A1 (zh) * 2022-07-07 2024-01-11 维沃移动通信有限公司 图像处理方法、装置及设备
CN117425013A (zh) * 2023-12-19 2024-01-19 杭州靖安防务科技有限公司 一种基于可逆架构的视频传输方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1985514A (zh) * 2004-07-13 2007-06-20 皇家飞利浦电子股份有限公司 空间和snr图像压缩的方法
US20090148056A1 (en) * 2007-12-11 2009-06-11 Cisco Technology, Inc. Video Processing With Tiered Interdependencies of Pictures
US20090196578A1 (en) * 2006-11-13 2009-08-06 Rodriguez Arturo A Conveyance of Picture Information Related To Picture Processing Times
CN110060204A (zh) * 2019-04-29 2019-07-26 江南大学 一种基于可逆网络的单一图像超分辨率方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1985514A (zh) * 2004-07-13 2007-06-20 皇家飞利浦电子股份有限公司 空间和snr图像压缩的方法
US20090196578A1 (en) * 2006-11-13 2009-08-06 Rodriguez Arturo A Conveyance of Picture Information Related To Picture Processing Times
US20090148056A1 (en) * 2007-12-11 2009-06-11 Cisco Technology, Inc. Video Processing With Tiered Interdependencies of Pictures
CN110060204A (zh) * 2019-04-29 2019-07-26 江南大学 一种基于可逆网络的单一图像超分辨率方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
LAURENT DINH ET AL: "NICE: NON-LINEAR INDEPENDENT COMPONENTS ESTIMATION", 《INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS》 *
LI LI ET AL: "Hyperspectral Image Feature Extraction Using Maclaurin Series Function Curve Fitting", 《SPRINGER》 *
Y LI ET AL: "Learning a Convolutional Neural Network for Image Compact-Resolution", 《IEEE TRANSACTIONS ON IMAGE PROCESSING 》 *
李天军: "RBF神经网络及其在锅炉过热汽温控制中的应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
葛洪伟 等: "利用鉴别典型相关的超分辨率稀疏重构方法", 《计算机辅助设计与图形学学报》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113496234A (zh) * 2020-03-19 2021-10-12 中移(上海)信息通信科技有限公司 图像分类模型训练方法、图像分类方法、装置及电子设备
CN111563262A (zh) * 2020-04-15 2020-08-21 清华大学 一种基于可逆深度神经网络的加密方法及系统
CN111563262B (zh) * 2020-04-15 2024-01-23 清华大学 一种基于可逆深度神经网络的加密方法及系统
CN111369562A (zh) * 2020-05-28 2020-07-03 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及存储介质
CN111369562B (zh) * 2020-05-28 2020-08-28 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及存储介质
CN111951203A (zh) * 2020-07-01 2020-11-17 北京大学深圳研究生院 视点合成方法、装置、设备及计算机可读存储介质
WO2022027818A1 (zh) * 2020-08-07 2022-02-10 深圳先进技术研究院 数据批处理方法及其批处理装置、存储介质
CN113781363A (zh) * 2021-09-29 2021-12-10 北京航空航天大学 去雾效果可调节的图像增强方法
CN113781363B (zh) * 2021-09-29 2024-03-05 北京航空航天大学 去雾效果可调节的图像增强方法
WO2024007977A1 (zh) * 2022-07-07 2024-01-11 维沃移动通信有限公司 图像处理方法、装置及设备
CN117425013A (zh) * 2023-12-19 2024-01-19 杭州靖安防务科技有限公司 一种基于可逆架构的视频传输方法和系统
CN117425013B (zh) * 2023-12-19 2024-04-02 杭州靖安防务科技有限公司 一种基于可逆架构的视频传输方法和系统

Similar Documents

Publication Publication Date Title
CN110782393A (zh) 一种基于可逆网络的图像分辨率压缩及重建方法
Nash et al. Generating images with sparse representations
CN110060204B (zh) 一种基于可逆网络的单一图像超分辨率方法
Wen et al. Image recovery via transform learning and low-rank modeling: The power of complementary regularizers
Kuang et al. Image super-resolution with densely connected convolutional networks
Luo et al. Lattice network for lightweight image restoration
Zou et al. Hyperspectral image super-resolution combining with deep learning and spectral unmixing
Zhao et al. Symmetrical lattice generative adversarial network for remote sensing images compression
Yang et al. An image super-resolution network based on multi-scale convolution fusion
CN117575915A (zh) 一种图像超分辨率重建方法、终端设备及存储介质
Wen et al. The power of complementary regularizers: Image recovery via transform learning and low-rank modeling
Yu et al. Scale-aware frequency attention network for super-resolution
CN113962882A (zh) 一种基于可控金字塔小波网络的jpeg图像压缩伪影消除方法
Ye et al. Hyperspectral image denoising using constraint smooth rank approximation and weighted enhance 3DTV
Lin et al. Generative adversarial image super‐resolution network for multiple degradations
Asnaoui Image compression based on block SVD power method
CN108776958B (zh) 混合降质图像的图像质量评价方法和装置
CN116703750A (zh) 基于边缘注意力和多阶微分损失的图像去雾方法及系统
Moeller et al. Image denoising—old and new
CN105513120A (zh) 基于加权局部回归的自适应渲染方法
Yang et al. Remote sensing image super‐resolution based on convolutional blind denoising adaptive dense connection
CN115311144A (zh) 一种基于小波域的标准流超分辨率图像重建方法
Song et al. Vector regression functions for texture compression
Ma et al. De-noising research on terahertz holographic reconstructed image based on weighted nuclear norm minimization method
Yang et al. Image compact‐resolution and reconstruction using reversible network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200211

RJ01 Rejection of invention patent application after publication