CN115984117A - 基于通道注意力的变分自编码图像超分辨率方法及系统 - Google Patents

基于通道注意力的变分自编码图像超分辨率方法及系统 Download PDF

Info

Publication number
CN115984117A
CN115984117A CN202310105929.XA CN202310105929A CN115984117A CN 115984117 A CN115984117 A CN 115984117A CN 202310105929 A CN202310105929 A CN 202310105929A CN 115984117 A CN115984117 A CN 115984117A
Authority
CN
China
Prior art keywords
image
resolution
neural network
network model
channel attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310105929.XA
Other languages
English (en)
Other versions
CN115984117B (zh
Inventor
徐健
赵钰榕
何春梦
雷博
范九伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Posts and Telecommunications
Original Assignee
Xian University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Posts and Telecommunications filed Critical Xian University of Posts and Telecommunications
Priority to CN202310105929.XA priority Critical patent/CN115984117B/zh
Publication of CN115984117A publication Critical patent/CN115984117A/zh
Application granted granted Critical
Publication of CN115984117B publication Critical patent/CN115984117B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于通道注意力的变分自编码图像超分辨率方法及系统,方法包括以下步骤:采集待重建图像,得到原始数据集,并对所述原始数据集进行预处理,得到训练样本;构建神经网络模型;将所述训练样本输入至所述神经网络模型中,进行训练,得到训练好的神经网络模型;基于训练好的所述神经网络模型对待重建图像进行超分辨率重建,并基于重建图像,评价所述神经网络模型。通过搭建神经网络,由于普通的生成对抗网络会存在模式崩塌和训练不稳定导致生成的图像质量不好,所以将基于通道注意力的变分自编码器作用于判别器中,不仅可以提高判别器的判别能力,还可以生成效果更好的图像及更高的PSNR和SSIM值。

Description

基于通道注意力的变分自编码图像超分辨率方法及系统
技术领域
本发明属于图像处理技术领域,具体涉及一种基于通道注意力的变分自编码图像超分辨率方法及系统。
背景技术
在信息化社会,图像是人们存储和传播信息的重要手段之一。图像超分辨率(Super-resolution,SR)技术就是将一张或者多张低分辨率图像(Low-resolution,LR)重建为高分辨率图像(High-resolution,HR),该技术广泛的应用于医疗诊断、卫星遥感、视频监控等领域。分辨率描述的是对客观场景的观察精细程度,由于成像设备、运动模糊等的限制,细节及纹理信息会在模糊和下采样过程中丢失,仅能得到低分辨率图像。高分辨率图像因为包含更多纹理和细节,对人们的生活和工作有重要意义。因此,如何将图像重建为质量更好的高分辨率图像是计算机视觉领域的重要研究任务之一。
图像超分辨率算法目前总体可以分为三类:基于插值、基于重建和基于学习。基于插值的算法用固定的核函数或者插值核估计高分辨率图像中未知像素值,应用最广泛,但是生成的高分辨率图像有人工痕迹并且边缘模糊,因此,通常与基于学习的算法相结合。基于重建的超分辨率算法利用退化模型的逆过程重建高分辨率图像,但由于高频细节的丢失,会出现“一对多”的病态问题。迭代反投影算法是正则化算法中较简单且效率高的一种,应用广泛,但对噪声和奇点缺乏鲁棒性。基于学习的算法是利用已有的高低分辨率图像对训练数据库,学习高低分辨率图像对之间的对应关系,在超分辨率领域可以分为两类:外部学习和自学习。大部分外部学习算法分两个阶段:训练阶段和测试阶段。自学习采用图像本身的多尺度自相似,即在一幅图像上的图像块可能会在自身尺度或其他尺度上有相似性,能较好的恢复细节信息。
自从董超等人首次将卷积神经网络应用于图像超分辨率以来,基于深度学习的神经网络的图像超分辨率算法成为研究热点。但基于卷积神经网络(Convolution NeuralNetwork,CNN)的算法缺乏高频信息,图像过度平滑。之后Christian Ledig等人首次将生成对抗网络(Generative Adversarial Network,GAN)用于图像超分辨率,期望平衡感知和失真,基于生成对抗网络的算法消除了过度平滑的效果和其他卷积神经网络的不利,但有训练不稳定、模式崩塌、梯度消失等问题。变分自编码器(Variational Autoencoder,VAE)作为一种生成模型,能学习输入数据的平滑潜在状态表示,但变分自编码器无判别器,因此生成数据会模糊。通道注意力经过压缩提取对不同的通道赋予其对应的权重,通常是对一个通道内的信息直接全局平均池化。
综上所述,如何将基于通道注意力的变分自编码器作用于生成对抗网络的判别器是本发明要解决的主要问题,也急需要一种基于通道注意力的变分自编码图像超分辨率方法。
发明内容
本发明旨在解决现有技术的不足,提出一种基于通道注意力的变分自编码图像超分辨率方法及系统,能够提高生成对抗网络的判别器的判别能力,也可以获得更高的峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和结构相似度(Structural Similarity,SSIM)指标,在视觉上能产生更好的高分辨率图像。
为实现上述目的,本发明提供了如下方案:一种基于通道注意力的变分自编码图像超分辨率方法,包括以下步骤:
步骤一、采集待重建图像,得到原始数据集,并对所述原始数据集进行预处理,得到训练样本;
步骤二、构建神经网络模型;
步骤三、将所述训练样本输入至所述神经网络模型中,进行训练,得到训练好的神经网络模型;
步骤四、基于训练好的所述神经网络模型对待重建图像进行超分辨率重建,并基于重建图像,评价所述神经网络模型。
优选地,得到所述训练样本的方法包括:
获取待重建图像,得到原始数据集DIV2K;所述原始数据集包含有高分辨率图像和验证图像;
对所述高分辨率图像进行下采样,得到低分辨率图像;
对所述高分辨率图像进行裁剪,裁剪至480*480;对所述低分辨率图像进行裁剪,裁剪至120*120;
裁剪后的所述高分辨率图像和所述低分辨率图像构成训练样本。
优选地,所述神经网络模型包括:基于通道注意力的变分自编码器、生成器和判别器;
所述基于通道注意力的变分自编码器包括有:编码器、通道注意力单元和解码器;
所述生成器包括有:卷积层、残差密集块和跳跃连接块;
所述判别器包括有:若干卷积层、批归一化层、全连接层和LeakyRELU层组成。
优选地,所述基于通道注意力的变分自编码器结构的损失由两部分组成,包括重建损失和KL损失;
所述重建损失的计算方法包括:
Figure BDA0004074796010000041
式中,MSE表示均方误差,x表示输入图像,
Figure BDA0004074796010000042
表示输出图像;
所述KL损失计算方法包括:
Figure BDA0004074796010000043
式中,μ表示均值,σ2表示方差。
优选地,所述生成器的损失包括感知损失、对抗损失和内容损失;
所述感知损失的计算方法包括:
Figure BDA0004074796010000044
式中,Wi,j、Hi,j表示判别网络特征图维度,φi,j表示从判别网络中第i个最大池化层之前的第j个卷积层获得的特征图,IHR表示高分辨率图像,ILR表示低分辨率图像,G(·)表示重建图像,y表示真实图像;
对抗损失的计算方法包括:
Figure BDA0004074796010000045
式中,E表示期望,xr表示真实图像,xf表示假图像,DRa表示相对平均判别器;
内容损失的计算方法包括:
Figure BDA0004074796010000046
优选地,步骤三种对所述神经网络模型训练的方法包括:
将低分辨率图像送入所述生成器,生成超分辨率图像;
将所述超分辨率图像送入所述基于通道注意力的变分自编码器中进行编码,通道注意力,解码得到高分辨率图像;
将所述超分辨率图像和所述高分辨率图像输入至所述判别器中,得到训练好的所述神经网络模型。
优选地,对所述神经网络模型的评价方法包括:
将峰值信噪比和结构相似性作为评价指标来评价所述神经网络模型重建图像的效果。
本发明还提供一种基于通道注意力的变分自编码图像超分辨率方法及系统,包括:采样单元、构建单元、训练单元和评价单元;
所述采样单元与所述训练单元连接,所述采样单元用于采集待重建图像,得到原始数据集,并对所述原始数据集进行预处理,得到训练样本;
所述构建单元与所述训练单元连接,所述构建单元用于构建神经网络模型;
所述训练单元用于将所述训练样本输入至所述神经网络模型中,进行训练,得到训练好的神经网络模型;
所述评价单元与所述训练单元连接,所述评价单元用于基于训练好的所述神经网络模型对待重建图像进行超分辨率重建,并基于重建图像,评价所述神经网络模型。
与现有技术相比,本发明的有益效果为:
(1)本发明公开了一种基于通道注意力的变分自编码图像超分辨率方法及系统,搭建了一个神经网络,包括生成器,基于通道注意力的变分自编码器,判别器。训练过程分为两个阶段:第一阶段通过生成器生成SR图像,然后将生成的图像作为输入,送至基于通道注意力的变分自编码器结构,最后经判别器输出,在恢复出更多高频细节的同时提高PSNR和SSIM指标。本发明在变分自编码器中加入通道注意力单元,使模型提优;为使生成对抗网络更优,本发明在判别器中融入基于通道注意力的变分自编码器结构,提高模型判别能力,以获得更好的训练模型。
(2)本发明中,对原始数据集统一进行预处理,增强样本,以避免欠拟合。
(3)由于普通的生成对抗网络会存在模式崩塌和训练不稳定导致生成的图像质量不好,所以本发明将基于通道注意力的变分自编码器作用于判别器中,可以提高判别器的判别能力。基于通道注意力的变分自编码器经过内部对抗训练,可以使作用在判别器上的判别能力增强,加入通道注意力之后,经过压缩提取对不同的通道赋予其对应的权重,可以实现模型性能提优。
(4)本发明能在提高PSNR和SSIM的同时恢复出效果较好的高分辨率图像。高分辨率图像中因为富含更多的细节和纹理信息,可以为计算机视觉的高层任务提供更好的基础。图像超分辨率技术是计算机视觉底层任务的重要部分,广泛应用于医学成像,遥感成像,公共安防,图像压缩等领域,对于社会的发展有重要作用。综上,本发明的应用范围较广,意义重大。
附图说明
为了更清楚地说明本发明的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的基于通道注意力的变分自编码图像超分辨率方法流程示意图;
图2为本发明实施例的神经网络模型训练方法流程示意图;
图3为本发明实施例神经网络模型的结构示意图;
图4为本发明实施例基于通道注意力的变分自编码器结构示意图;
图5为本发明实施例生成器网络结构示意图;
图6为本发明方法与SRGAN,ESRGAN,RealESRGAN三种方法对Set5数据集中图像1的4×超分结果对比示意图;
图7为本发明方法与SRGAN,ESRGAN,RealESRGAN三种方法对Set14数据集的图像1的4×超分结果对比示意图;
图8为本发明方法与SRGAN,ESRGAN,RealESRGAN三种方法对DIV2K100数据集的图像1的4×超分结果对比示意图;
图9为本发明法与SRGAN,ESRGAN,RealESRGAN三种方法对Urban100数据集的图像2的4×超分结果对比示意图;
图10为本发明实施例基于通道注意力的变分自编码图像超分辨率方法及系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
如图1所示,为本发明实施例一基于通道注意力的变分自编码图像超分辨率方法流程示意图,包括以下步骤:
步骤一、采集待重建图像,得到原始数据集,并对原始数据集进行预处理,得到训练样本;
本实施例中,步骤一包括以下具体步骤:
获取待重建图像,得到原始数据集DIV2K;其中,原始数据集DIV2K包含有高分辨率图像和验证图像;本实施例中,原始数据集DIV2K包含800张高分辨率图像和100张验证图像;原始数据集中图像需进行预处理,才能让后续神经网络模型学到更加真实一致特征。预处理方法包括:
对高分辨率图像进行四分之一倍双三次插值下采样,得到低分辨率图像;
对高分辨率图像进行裁剪,裁剪至480*480;对低分辨率图像进行裁剪,裁剪至120*120;
裁剪后的高分辨率图像和低分辨率图像构成训练样本。
步骤二、构建神经网络模型;
如图3所示,本实施例神经网络模型包括:基于通道注意力的变分自编码器、生成器和判别器;
具体的,生成器可以通过学习训练样本的特征,生成与真实样本尽可能相似的“假样本”,在本实施例中,用于第一阶段的基于PSNR的训练,生成SR图像。如图5所示,生成器主要包括:卷积层、残差密集块(Residual-in-Residual Dense Block,RRDB)和跳跃连接块;其中,第一个卷积层的输入为低分辨率图像,剩余层的输入为前一层的输出,卷积层的输出均为特征图;本实施例中,生成器包括有23个RRDB基础块。为了充分利用图像的内在信息,本实施例引用残差密集块,将低分辨率图像输入至RRDB中,RRDB包括有若干残差块和密集连接块,且无批归一化层,本实施例中,RRDB中密集网络由5个卷积层构建,然后3个密集连接块构成一个RRDB模块。批归一化层有可能在网络较深和在GAN网络训练下带来伪影,因此为稳定训练和一致性去除了批归一化层,此外,去除批归一化层有助于提高泛化能力,减少计算复杂度和内存使用。在本实施例中,密集连接块用于将前面所有层和后面层连接,建立不同层之间的连接关系,充分利用特征,缓解梯度消失问题,加强特征传播,鼓励特征重用,减少参数量;跳跃连接块包括有长跳跃连接块和短跳跃连接块;长跳跃连接块用于将输入的图像与经过基础块得到的结果进行连接;短跳跃连接块用于将各个残差块进行连接,有助于训练过程中的反向传播。
生成器损失包括:感知损失、对抗损失和内容损失;即:
Figure BDA0004074796010000091
式中,Lpercep表示感知损失,
Figure BDA0004074796010000092
表示对抗损失,L1表示内容损失;λ和η是平衡不同损失项的系数。本实施例中,λ=5×10-3,η=1×10-2
其中,感知损失的计算方法包括:
Figure BDA0004074796010000093
式中,Wi,j、Hi,j表示判别网络特征图维度,φi,j表示从判别网络中第i个最大池化层之前的第j个卷积层获得的特征图,IHR表示高分辨率图像,ILR表示低分辨率图像,G(·)表示重建图像,y表示真实图像;
对抗损失的计算方法包括:
Figure BDA0004074796010000094
式中,E表示期望,xr表示真实图像,xf表示假图像,DRa表示相对平均判别器;
内容损失的计算方法包括:
Figure BDA0004074796010000095
基于通道注意力的变分自编码器利用低分辨率图像引起的高分辨率图像的条件分布进行学习;如图4所示,基于通道注意力的变分自编码器包括有:编码器、通道注意力单元和解码器;编码器由3个残差块(卷积层,批归一化层,LeakyRELU层)和2个全连接层组成;解码器由1个全连接层,3个反卷积层和LeakyRELU层,最后经反卷积层,sigmoid组成;通道注意力单元由自适应平均池化层,卷积层和LeakyRELU层组成。将通道注意力单元用于编码器和解码器之间,加强通道间联系,使得模型更聚合。经生成器生成的图像送入基于通道注意力的变分自编码器,加入通道注意力后,经过压缩提取对不同的通道赋予其对应的权重,通常是对一个通道内的信息直接全局平均池化,实现降维。
通道压缩表达式为:
s=Cov(W(Cov(W(GAP(X)))))
式中,X表示图像,GAP表示全局平均池化操作,W表示LeakyRELU操作,Cov为卷积操作,s表示压缩因子。
基于通道注意力的变分自编码器的损失由两部分组成,包括重建损失和KL损失;即,LVAE=Lrecon+KLD;
式中,Lrecon表示重建损失,重建损失使用均方误差损失;KLD表示KL损失;
其中,重建损失的计算方法包括:
Figure BDA0004074796010000101
式中,MSE表示均方误差,x表示输入图像,
Figure BDA0004074796010000102
表示输出图像;
均方误差能反映真实值与预测值之间的差异性,以图像I与图像K为例,计算公式如下:
Figure BDA0004074796010000111
式中:M表示图像I的像素总数,N表示图像K的像素总数,MSE值越小,说明图像越相似。
KL损失计算方法包括:
Figure BDA0004074796010000112
式中,μ表示均值,σ2表示方差。
基于通道注意力的变分自编码器的目标是最小化KL损失和最大化期望,即,使
Figure BDA0004074796010000113
最小,最大化期望通过给定编码器输出的情况下使解码器的值尽可能高,这部分通过基于通道注意力的变分自编码器中的编码器和解码器实现。
判别器可以区分输入的数据是真实的还是生成器生成的假数据,并反馈给生成器;本实施例中,判别器由若干卷积层,批归一化层,全连接层和LeakyRELU层组成;将基于通道注意力的变分自编码器作用于判别器中,提升判别器的判别能力,并反馈给生成器,实现对抗训练。判别器将第一阶段基于PSNR的训练模型作为第二阶段的输入,用于第二阶段的基于GAN的训练。
本实施例判别器使用相对判别器能够生成更锐化的边缘和丰富的细节。其不是单纯的将输出判别为真或者假,而是试图预测真实图像比假图像更真实的概率;
其中,判别器损失计算方法包括:
Figure BDA0004074796010000114
式中,E表示期望,xr表示真实图像,xf表示假图像,DRa表示相对平均判别器;
其中,
Figure BDA0004074796010000121
Figure BDA0004074796010000122
式中,C(x)表示非变换判别器输出,σ表示sigmoid操作。
生成器生成“假数据”,判别器努力识别出生成器生成的“假数据”,往复循环,实现动态平衡,因此生成对抗网络的目标是最大化判别器最小化生成器,用公式描述为:
Figure BDA0004074796010000123
式中,pdata(x)表示真实数据分布,pz(z)表示噪声分布,D(x)表示x来源于真实数据的分布,理想情况下D(x)=1,G(z)表示噪声经过生成器生成后的样本,D(G(z))表示分类器认为生成样本属于真实样本的概率,理想状态下为0。
神经网络模型的工作原理包括:
基于通道注意力的变分自编码器期望最小化KL散度,最大化期望,通过给定编码器输出的情况下使解码器的值尽可能高,这通过构建的基于通道注意力的变分自编码器中的编码器和解码器实现。最后模型实现时,采用重参数技巧,在从N(μ,σ2)中采一个Z时,相当于从N(0,1)中采样一个ε,然后再计算z。这样做是因为采样这个操作不可导,但采样结果是可导的,因此做个参数变换,让z=μ+ε×σ,就可以参与梯度下降,模型就可以训练了。基于通道注意力的变分自编码器的编码用来计算均值和方差,在常规的自编码器的基础上对编码的结果加上了“高斯噪声”,使得解码能对噪声具有鲁棒性;而KL损失(目的是让均值为0,方差为1),相当于对编码的一个正则项,希望编码出来的东西具有零均值,另一个编码是动态的调节噪声强度。当解码器还未训练好时(重构误差远大于KL损失),就会降低噪声(KL损失增加),使拟合更容易一些(重构误差开始下降);反之,若解码器训练还不错时(重构误差小于KL损失),这时噪声就会增加(KL损失减少),使拟合更加困难,这时候解码器就要想办法提升其生成能力了。重构过程希望没有噪声,KL损失是希望有高斯噪声的,两者对立,内部是包含对抗过程的,是混合起来共同进化的。基于通道注意力的变分自编码器,作用于判别器,最终反馈给生成器来训练神经网络模型进而实现对图像的超分。先对低分辨率图像经生成器后上采样后卷积得到超分辨率图像,之后利用基于通道注意力的变分自编码器进行模型提优,同时提升判别器的判别能力,最终反馈给生成器,完成对抗训练。致力于寻找高低分辨率图像对之间的映射关系,最后将训练好的网络模型用于低分辨率图像的超分辨率重建,得到最终的效果较好的重建图像。
步骤三、将训练样本输入至神经网络模型中,进行训练,得到训练好的神经网络模型;
如图2所示,本实施例中,对神经网络模型的训练包括两个阶段,第一阶段是基于PSNR的训练,通过RRDB基础块生成SR图像,损失为L1像素损失,初始学习率为2×10-4,每隔2×105个mini-batch缩小2倍,共迭代1000000次;第二阶段为基于GAN的训练,迭代400000次;优化器使用Adam,β1=0.9,β2=0.999,将第一阶段基于PSNR的训练模型作为第二阶段的输入,最终获得训练好的神经网络模型。
对神经网络模型训练的具体方法包括:
(1)将低分辨率图像送入生成器,经过上采样及卷积层,生成超分辨率图像;
(2)将超分辨率图像通过反向传播算法(Backprogagation,BP)送入基于通道注意力的变分自编码器中进行编码,通道注意力,解码得到高分辨率图像;
在这个过程中,本实施例采用均方误差(Mean Squared Error,MSE)作为损失函数,根据损失函数调整参数大小,迭代1000000次得到上述基于PSNR的第一阶段的模型;然后再经过基于通道自注意力的变分自编码器生成HR图像的信息;基于通道注意力的变分自编码器的损失由KL散度和SR与HR图像间的重建损失构成,重建损失使用MSE损失。
(3)将超分辨率图像和高分辨率图像输入至判别器中,进行第二阶段基于GAN的训练,迭代400000次,得到训练好的神经网络模型。
步骤四、基于训练好的神经网络模型对待重建图像进行超分辨率重建,并基于重建图像,评价神经网络模型。
本实施例中,将峰值信噪比(PSNR)和结构相似性(SSIM)作为评价指标从定性和定量两方面来评价神经网络模型重建图像的效果。
其中,PSNR用于评价噪声水平或图像失真的客观评价指标,计算公式如下:
Figure BDA0004074796010000141
式中,MAX表示图像I像素最大值。
SSIM用于评估两幅图像之间的相似水平,对于图像x和y,结构相似度计算公式如下:
Figure BDA0004074796010000142
式中,μ为均值,σ2为方差,c1和c2为常数,SSIM的范围为0-1,值越接近1,说明图像越相似。
为了验证本发明实施例基于通道注意力的变分自编码器的必要性和有效性,本实施例在数据集Set14上以采样因子4X做了对比试验。三种神经网络结构的峰值信噪比和结构相似度如表1所示:
表1
Figure BDA0004074796010000151
分析表1可知,结构3的PSNR值最高,即当网络应用基于通道注意力的变分自编码器结构时,对图像的超分辨率重建效果更好。
结合图6至图9,不同算法的峰值信噪比和结构相似度比较结果如表2所示:
表2
Figure BDA0004074796010000152
分析表2可知,在数据集Set5、Set14、DIV2K100和Urban100上以采样因子为4对图像进行重建时,本发明的方法相比于SRGAN、ESRGAN、RealESRGAN都有更高的峰值信噪比和结构相似度,使用的范围更广,效果更好。本发明的方法与SRGAN相比,峰值信噪比提高了0.9076-1.0106dB,结构相似度提高了0.0138-0.0349;与ESRGAN相比,峰值信噪比提高了0.1974-1.1056dB,结构相似度提高了0.0255-0.0430;与RealESRGAN相比,峰值信噪比提高了3.7845-6.3826dB,结构相似度提高了0.1099-0.1843。
实施例二
如图10所示,为本发明实施例基于通道注意力的变分自编码图像超分辨率方法及系统结构示意图,包括:采样单元、构建单元、训练单元和评价单元;
其中,采样单元与训练单元连接,采样单元用于采集待重建图像,得到原始数据集,并对原始数据集进行预处理,得到训练样本;
采样单元的具体工作内容包括:
获取待重建图像,得到原始数据集DIV2K;其中,原始数据集DIV2K包含有高分辨率图像和验证图像;本实施例中,原始数据集DIV2K包含800张高分辨率图像和100张验证图像;原始数据集中图像需进行预处理,才能让后续神经网络模型学到更加真实一致特征。预处理方法包括:
对高分辨率图像进行四分之一倍双三次插值下采样,得到低分辨率图像;
对高分辨率图像进行裁剪,裁剪至480*480;对低分辨率图像进行裁剪,裁剪至120*120;
裁剪后的高分辨率图像和低分辨率图像构成训练样本。
构建单元与训练单元连接,构建单元用于构建神经网络模型;
构建单元构建神经网络模型的方法包括:
构建单元构建的神经网络模型包括:基于通道注意力的变分自编码器、生成器和判别器;
具体的,生成器可以通过学习训练样本的特征,生成与真实样本尽可能相似的“假样本”,在本实施例中,用于第一阶段的基于PSNR的训练,生成SR图像。生成器主要包括:卷积层、残差密集块(Residual-in-Residual Dense Block,RRDB)和跳跃连接块;其中,第一个卷积层的输入为低分辨率图像,剩余层的输入为前一层的输出,卷积层的输出均为特征图;为了充分利用图像的内在信息,本实施例引用残差密集块,将低分辨率图像输入至RRDB中,RRDB包括有若干残差块和密集连接块,且无批归一化层,批归一化层有可能在网络较深和在GAN网络训练下带来伪影,因此为稳定训练和一致性去除了批归一化层,此外,去除批归一化层有助于提高泛化能力,减少计算复杂度和内存使用。在本实施例中,密集连接块用于将前面所有层和后面层连接,建立不同层之间的连接关系,充分利用特征,缓解梯度消失问题,加强特征传播,鼓励特征重用,减少参数量;跳跃连接块包括有长跳跃连接块和短跳跃连接块;长跳跃连接块用于将输入的图像与经过基础块得到的结果进行连接;短跳跃连接块用于将各个残差块进行连接,有助于训练过程中的反向传播。
生成器损失包括:感知损失、对抗损失和内容损失;即:
Figure BDA0004074796010000171
式中,Lpercep表示感知损失,
Figure BDA0004074796010000172
表示对抗损失,L1表示内容损失;λ和η是平衡不同损失项的系数。本实施例中,λ=5×10-3,η=1×10-2
其中,感知损失的计算方法包括:
Figure BDA0004074796010000173
式中,Wi,j、Hi,j表示判别网络特征图维度,φi,j表示从判别网络中第i个最大池化层之前的第j个卷积层获得的特征图,IHR表示高分辨率图像,ILR表示低分辨率图像,G(·)表示重建图像,少表示真实图像;
对抗损失的计算方法包括:
Figure BDA0004074796010000174
式中,E表示期望,xr表示真实图像,xf表示假图像,DRa表示相对平均判别器;
内容损失的计算方法包括:
Figure BDA0004074796010000181
式中,G(·)表示重建图像。
基于通道注意力的变分自编码器利用低分辨率图像引起的高分辨率图像的条件分布进行学习;如图4所示,基于通道注意力的变分自编码器包括有:编码器、通道注意力单元和解码器;编码器由3个残差块(卷积层,批归一化层,LeakyRELU层)和2个全连接层组成;解码器由1个全连接层,3个反卷积层和LeakyRELU层,最后经反卷积层,sigmoid组成;通道注意力单元由自适应平均池化层,卷积层和LeakyRELU层组成。将通道注意力单元用于编码器和解码器之间,加强通道间联系,使得模型更聚合。经生成器生成的图像送入基于通道注意力的变分自编码器,加入通道注意力后,经过压缩提取对不同的通道赋予其对应的权重,通常是对一个通道内的信息直接全局平均池化,实现降维。
通道压缩表达式为:
s=Cov(W(Cov(W(GAP(X)))))
式中,X表示图像,GAP表示全局平均池化操作,W表示LeakyRELU操作,Cov为卷积操作,s表示压缩因子。
基于通道注意力的变分自编码器的损失由两部分组成,包括重建损失和KL损失;即,LVAE=Lrecon+KLD;
式中,Lrecon表示重建损失,重建损失使用均方误差损失;KLD表示KL损失;
其中,重建损失的计算方法包括:
Figure BDA0004074796010000182
式中,MSE表示均方误差,x表示输入图像,
Figure BDA0004074796010000194
表示输出图像;
均方误差能反映真实值与预测值之间的差异性,以图像I与图像K为例,计算公式如下:
Figure BDA0004074796010000191
式中:M表示图像I的像素总数,N表示图像K的像素总数,MSE值越小,说明图像越相似。
KL损失计算方法包括:
Figure BDA0004074796010000192
式中,μ表示均值,σ2表示方差。
基于通道注意力的变分自编码器的目标是最小化KL损失和最大化期望,即,使
Figure BDA0004074796010000193
最小,最大化期望通过给定编码器输出的情况下使解码器的值尽可能高,这部分通过基于通道注意力的变分自编码器中的编码器和解码器实现。
判别器可以区分输入的数据是真实的还是生成器生成的假数据,并反馈给生成器;本实施例中,判别器由若干卷积层,批归一化层,全连接层和LeakyRELU层组成;将基于通道注意力的变分自编码器作用于判别器中,提升判别器的判别能力,并反馈给生成器,实现对抗训练。判别器将第一阶段基于PSNR的训练模型作为第二阶段的输入,用于第二阶段的基于GAN的训练。
本实施例判别器使用相对判别器能够生成更锐化的边缘和丰富的细节。其不是单纯的将输出判别为真或者假,而是试图预测真实图像比假图像更真实的概率;
其中,判别器损失计算方法包括:
Figure BDA0004074796010000201
式中,E表示期望,xr表示真实图像,xf表示假图像,DRa表示相对平均判别器;
其中,
Figure BDA0004074796010000202
Figure BDA0004074796010000203
式中,C(x)表示非变换判别器输出,σ表示sigmoid操作。
生成器生成“假数据”,判别器努力识别出生成器生成的“假数据”,往复循环,实现动态平衡,因此生成对抗网络的目标是最大化判别器最小化生成器,用公式描述为:
Figure BDA0004074796010000204
式中,pdata(x)表示真实数据分布,pz(z)表示噪声分布,D(x)表示x来源于真实数据的分布,G(z)表示噪声经过生成器生成后的样本,D(G(z))表示分类器认为生成样本属于真实样本的概率。
训练单元用于将训练样本输入至神经网络模型中,进行训练,得到训练好的神经网络模型;
训练单元训练神经网络模型的方法包括:
对神经网络模型的训练包括两个阶段,第一阶段是基于PSNR的训练,通过RRDB基础块生成SR图像,损失为L1像素损失,初始学习率为2×10-4,每隔2×105个mini-batch缩小2倍,共迭代1000000次;第二阶段为基于GAN的训练,迭代400000次;优化器使用Adam,β1=0.9,β2=0.999,将第一阶段基于PSNR的训练模型作为第二阶段的输入,最终获得训练好的神经网络模型。
训练单元对神经网络模型训练的具体方法包括:
(1)将低分辨率图像送入生成器,经过上采样及卷积层,生成超分辨率图像;
(2)将超分辨率图像通过反向传播算法(Backprogagation,BP)送入基于通道注意力的变分自编码器中进行编码,通道注意力,解码得到高分辨率图像;
在这个过程中,本实施例采用均方误差(Mean Squared Error,MSE)作为损失函数,根据损失函数调整参数大小,迭代1000000次得到上述基于PSNR的第一阶段的模型;然后再经过基于通道自注意力的变分自编码器生成HR图像的信息;基于通道注意力的变分自编码器的损失由KL散度和SR与HR图像间的重建损失构成,重建损失使用MSE损失。
(3)将超分辨率图像和高分辨率图像输入至判别器中,进行第二阶段基于GAN的训练,迭代400000次,得到训练好的神经网络模型。
评价单元与训练单元连接,评价单元用于基于训练好的神经网络模型对待重建图像进行超分辨率重建,并基于重建图像,评价神经网络模型。
评价单元的具体工作过程包括:
将峰值信噪比(PSNR)和结构相似性(SSIM)作为评价指标从定性和定量两方面来评价神经网络模型重建图像的效果。
其中,PSNR用于评价噪声水平或图像失真的客观评价指标,计算公式如下:
Figure BDA0004074796010000211
式中,MAX表示图像I像素最大值。
SSIM用于评估两幅图像之间的相似水平,对于图像x和y,结构相似度计算公式如下:
Figure BDA0004074796010000212
式中,μ为均值,σ2为方差,c1和c2为常数,SSIM的范围为0-1,值越接近1,说明图像越相似。
以上所述的实施例仅是对本发明优选方式进行的描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (8)

1.一种基于通道注意力的变分自编码图像超分辨率方法,其特征在于,包括以下步骤:
步骤一、采集待重建图像,得到原始数据集,并对所述原始数据集进行预处理,得到训练样本;
步骤二、构建神经网络模型;
步骤三、将所述训练样本输入至所述神经网络模型中,进行训练,得到训练好的神经网络模型;
步骤四、基于训练好的所述神经网络模型对待重建图像进行超分辨率重建,并基于重建图像,评价所述神经网络模型。
2.根据权利要求1所述基于通道注意力的变分自编码图像超分辨率方法,其特征在于,得到所述训练样本的方法包括:
获取待重建图像,得到原始数据集DIV2K;所述原始数据集包含有高分辨率图像和验证图像;
对所述高分辨率图像进行下采样,得到低分辨率图像;
对所述高分辨率图像进行裁剪,裁剪至480*480;对所述低分辨率图像进行裁剪,裁剪至120*120;
裁剪后的所述高分辨率图像和所述低分辨率图像构成训练样本。
3.根据权利要求1所述基于通道注意力的变分自编码图像超分辨率方法,其特征在于,所述神经网络模型包括:基于通道注意力的变分自编码器、生成器和判别器;
所述基于通道注意力的变分自编码器包括有:编码器、通道注意力单元和解码器;
所述生成器包括有:卷积层、残差密集块和跳跃连接块;
所述判别器包括有:若干卷积层、批归一化层、全连接层和LeakyRELU层组成。
4.根据权利要求3所述基于通道注意力的变分自编码图像超分辨率方法,其特征在于,所述基于通道注意力的变分自编码器的损失由两部分组成,包括重建损失和KL损失;
所述重建损失的计算方法包括:
Figure FDA0004074795990000021
式中,MSE表示均方误差,x表示输入图像,
Figure FDA0004074795990000022
表示输出图像;
所述KL损失计算方法包括:
Figure FDA0004074795990000023
式中,μ表示均值,σ2表示方差。
5.根据权利要求3所述基于通道注意力的变分自编码图像超分辨率方法,其特征在于,所述生成器的损失包括感知损失、对抗损失和内容损失;
所述感知损失的计算方法包括:
Figure FDA0004074795990000024
式中,Wi,j、Hi,j表示判别网络特征图维度,φi,j表示从判别网络中第i个最大池化层之前的第j个卷积层获得的特征图,IHR表示高分辨率图像,ILR表示低分辨率图像,G(·)表示重建图像,y表示真实图像;
对抗损失的计算方法包括:
Figure FDA0004074795990000031
式中,E表示期望,xr表示真实图像,xf表示假图像,DRa表示相对平均判别器;
内容损失的计算方法包括:
Figure FDA0004074795990000032
6.根据权利要求3所述基于通道注意力的变分自编码图像超分辨率方法,其特征在于,步骤三种对所述神经网络模型训练的方法包括:
将低分辨率图像送入所述生成器,生成超分辨率图像;
将所述超分辨率图像送入所述基于通道注意力的变分自编码器中进行编码,通道注意力,解码得到高分辨率图像;
将所述超分辨率图像和所述高分辨率图像输入至所述判别器中,得到训练好的所述神经网络模型。
7.根据权利要求1所述基于通道注意力的变分自编码图像超分辨率方法,其特征在于,对所述神经网络模型的评价方法包括:
将峰值信噪比和结构相似性作为评价指标来评价所述神经网络模型重建图像的效果。
8.一种基于通道注意力的变分自编码图像超分辨率系统,其特征在于,包括:采样单元、构建单元、训练单元和评价单元;
所述采样单元与所述训练单元连接,所述采样单元用于采集待重建图像,得到原始数据集,并对所述原始数据集进行预处理,得到训练样本;
所述构建单元与所述训练单元连接,所述构建单元用于构建神经网络模型;
所述训练单元用于将所述训练样本输入至所述神经网络模型中,进行训练,得到训练好的神经网络模型;
所述评价单元与所述训练单元连接,所述评价单元用于基于训练好的所述神经网络模型对待重建图像进行超分辨率重建,并基于重建图像,评价所述神经网络模型。
CN202310105929.XA 2023-02-13 2023-02-13 基于通道注意力的变分自编码图像超分辨率方法及系统 Active CN115984117B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310105929.XA CN115984117B (zh) 2023-02-13 2023-02-13 基于通道注意力的变分自编码图像超分辨率方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310105929.XA CN115984117B (zh) 2023-02-13 2023-02-13 基于通道注意力的变分自编码图像超分辨率方法及系统

Publications (2)

Publication Number Publication Date
CN115984117A true CN115984117A (zh) 2023-04-18
CN115984117B CN115984117B (zh) 2023-11-24

Family

ID=85974327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310105929.XA Active CN115984117B (zh) 2023-02-13 2023-02-13 基于通道注意力的变分自编码图像超分辨率方法及系统

Country Status (1)

Country Link
CN (1) CN115984117B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116543377A (zh) * 2023-07-05 2023-08-04 西南民族大学 一种基于多尺度特征的车牌清晰度提升方法
CN116825227A (zh) * 2023-08-31 2023-09-29 桑若(厦门)光伏产业有限公司 一种基于深度生成模型的钙钛矿组分比例分析方法及装置
CN117710216A (zh) * 2024-01-26 2024-03-15 西安邮电大学 一种基于变分自编码器的图像超分辨率重建方法
CN118657662A (zh) * 2024-08-20 2024-09-17 山东远桥信息科技有限公司 一种基于高光谱的智慧城市监控超分辨率增强方法及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113487503A (zh) * 2021-07-01 2021-10-08 安徽大学 一种基于通道注意力生成对抗网络的pet超分辨率方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113487503A (zh) * 2021-07-01 2021-10-08 安徽大学 一种基于通道注意力生成对抗网络的pet超分辨率方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
丁明航等: "基于注意力生成对抗网络的图像超分辨率重建方法", 《计算机系统应用》, vol. 29, no. 2, pages 206 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116543377A (zh) * 2023-07-05 2023-08-04 西南民族大学 一种基于多尺度特征的车牌清晰度提升方法
CN116825227A (zh) * 2023-08-31 2023-09-29 桑若(厦门)光伏产业有限公司 一种基于深度生成模型的钙钛矿组分比例分析方法及装置
CN116825227B (zh) * 2023-08-31 2023-11-14 桑若(厦门)光伏产业有限公司 一种基于深度生成模型的钙钛矿组分比例分析方法及装置
CN117710216A (zh) * 2024-01-26 2024-03-15 西安邮电大学 一种基于变分自编码器的图像超分辨率重建方法
CN117710216B (zh) * 2024-01-26 2024-06-28 西安邮电大学 一种基于变分自编码器的图像超分辨率重建方法
CN118657662A (zh) * 2024-08-20 2024-09-17 山东远桥信息科技有限公司 一种基于高光谱的智慧城市监控超分辨率增强方法及设备

Also Published As

Publication number Publication date
CN115984117B (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
CN115984117A (zh) 基于通道注意力的变分自编码图像超分辨率方法及系统
CN111192200A (zh) 基于融合注意力机制残差网络的图像超分辨率重建方法
CN109949222B (zh) 基于语义图的图像超分辨率重建方法
Ghazel et al. Fractal-wavelet image denoising revisited
CN111681166A (zh) 一种堆叠注意力机制编解码单元的图像超分辨率重建方法
Li et al. Underwater image high definition display using the multilayer perceptron and color feature-based SRCNN
CN110111251B (zh) 一种结合深度监督自编码和感知迭代反投影的图像超分辨率重建方法
Li et al. Example-based image super-resolution with class-specific predictors
CN115880158B (zh) 一种基于变分自编码的盲图像超分辨率重建方法及系统
CN112950480A (zh) 一种融合多感受野和密集残差注意的超分辨率重建方法
CN117710216B (zh) 一种基于变分自编码器的图像超分辨率重建方法
Yang et al. Image super-resolution based on deep neural network of multiple attention mechanism
CN111008938A (zh) 一种基于内容和连续性引导的实时多帧比特增强方法
CN112365422A (zh) 基于深层聚合网络的不规则缺失图像修复方法及其系统
CN116797462B (zh) 基于深度学习的实时视频超分辨率重建方法
US20240054605A1 (en) Methods and systems for wavelet domain-based normalizing flow super-resolution image reconstruction
CN114581304A (zh) 一种基于循环网络的图像超分辨率和去雾融合方法及系统
CN115170915A (zh) 一种基于端到端注意力网络的红外与可见光图像融合方法
CN114140442A (zh) 一种基于频域和图像域退化感知的深度学习稀疏角度ct重建方法
CN113902647A (zh) 一种基于双闭环网络的图像去模糊方法
CN115496659A (zh) 基于单张投影数据的三维ct图像重建方法及装置
CN117726540A (zh) 一种增强门控Transformer的图像去噪方法
CN114022356A (zh) 基于小波域的河道流量水位遥感图像超分辨率方法与系统
CN113628114A (zh) 一种双通道稀疏编码的图像超分辨率重建方法
Zhang et al. Dual-layer image compression via adaptive downsampling and spatially varying upconversion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant