CN115984117A - 基于通道注意力的变分自编码图像超分辨率方法及系统 - Google Patents
基于通道注意力的变分自编码图像超分辨率方法及系统 Download PDFInfo
- Publication number
- CN115984117A CN115984117A CN202310105929.XA CN202310105929A CN115984117A CN 115984117 A CN115984117 A CN 115984117A CN 202310105929 A CN202310105929 A CN 202310105929A CN 115984117 A CN115984117 A CN 115984117A
- Authority
- CN
- China
- Prior art keywords
- image
- resolution
- neural network
- network model
- channel attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 87
- 238000003062 neural network model Methods 0.000 claims abstract description 65
- 230000000694 effects Effects 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000005070 sampling Methods 0.000 claims description 18
- 238000011156 evaluation Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 10
- 230000008447 perception Effects 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 10
- 230000006835 compression Effects 0.000 description 8
- 238000007906 compression Methods 0.000 description 8
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000003042 antagnostic effect Effects 0.000 description 3
- 230000008034 disappearance Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 101100365548 Caenorhabditis elegans set-14 gene Proteins 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000002203 pretreatment Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于通道注意力的变分自编码图像超分辨率方法及系统,方法包括以下步骤:采集待重建图像,得到原始数据集,并对所述原始数据集进行预处理,得到训练样本;构建神经网络模型;将所述训练样本输入至所述神经网络模型中,进行训练,得到训练好的神经网络模型;基于训练好的所述神经网络模型对待重建图像进行超分辨率重建,并基于重建图像,评价所述神经网络模型。通过搭建神经网络,由于普通的生成对抗网络会存在模式崩塌和训练不稳定导致生成的图像质量不好,所以将基于通道注意力的变分自编码器作用于判别器中,不仅可以提高判别器的判别能力,还可以生成效果更好的图像及更高的PSNR和SSIM值。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种基于通道注意力的变分自编码图像超分辨率方法及系统。
背景技术
在信息化社会,图像是人们存储和传播信息的重要手段之一。图像超分辨率(Super-resolution,SR)技术就是将一张或者多张低分辨率图像(Low-resolution,LR)重建为高分辨率图像(High-resolution,HR),该技术广泛的应用于医疗诊断、卫星遥感、视频监控等领域。分辨率描述的是对客观场景的观察精细程度,由于成像设备、运动模糊等的限制,细节及纹理信息会在模糊和下采样过程中丢失,仅能得到低分辨率图像。高分辨率图像因为包含更多纹理和细节,对人们的生活和工作有重要意义。因此,如何将图像重建为质量更好的高分辨率图像是计算机视觉领域的重要研究任务之一。
图像超分辨率算法目前总体可以分为三类:基于插值、基于重建和基于学习。基于插值的算法用固定的核函数或者插值核估计高分辨率图像中未知像素值,应用最广泛,但是生成的高分辨率图像有人工痕迹并且边缘模糊,因此,通常与基于学习的算法相结合。基于重建的超分辨率算法利用退化模型的逆过程重建高分辨率图像,但由于高频细节的丢失,会出现“一对多”的病态问题。迭代反投影算法是正则化算法中较简单且效率高的一种,应用广泛,但对噪声和奇点缺乏鲁棒性。基于学习的算法是利用已有的高低分辨率图像对训练数据库,学习高低分辨率图像对之间的对应关系,在超分辨率领域可以分为两类:外部学习和自学习。大部分外部学习算法分两个阶段:训练阶段和测试阶段。自学习采用图像本身的多尺度自相似,即在一幅图像上的图像块可能会在自身尺度或其他尺度上有相似性,能较好的恢复细节信息。
自从董超等人首次将卷积神经网络应用于图像超分辨率以来,基于深度学习的神经网络的图像超分辨率算法成为研究热点。但基于卷积神经网络(Convolution NeuralNetwork,CNN)的算法缺乏高频信息,图像过度平滑。之后Christian Ledig等人首次将生成对抗网络(Generative Adversarial Network,GAN)用于图像超分辨率,期望平衡感知和失真,基于生成对抗网络的算法消除了过度平滑的效果和其他卷积神经网络的不利,但有训练不稳定、模式崩塌、梯度消失等问题。变分自编码器(Variational Autoencoder,VAE)作为一种生成模型,能学习输入数据的平滑潜在状态表示,但变分自编码器无判别器,因此生成数据会模糊。通道注意力经过压缩提取对不同的通道赋予其对应的权重,通常是对一个通道内的信息直接全局平均池化。
综上所述,如何将基于通道注意力的变分自编码器作用于生成对抗网络的判别器是本发明要解决的主要问题,也急需要一种基于通道注意力的变分自编码图像超分辨率方法。
发明内容
本发明旨在解决现有技术的不足,提出一种基于通道注意力的变分自编码图像超分辨率方法及系统,能够提高生成对抗网络的判别器的判别能力,也可以获得更高的峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和结构相似度(Structural Similarity,SSIM)指标,在视觉上能产生更好的高分辨率图像。
为实现上述目的,本发明提供了如下方案:一种基于通道注意力的变分自编码图像超分辨率方法,包括以下步骤:
步骤一、采集待重建图像,得到原始数据集,并对所述原始数据集进行预处理,得到训练样本;
步骤二、构建神经网络模型;
步骤三、将所述训练样本输入至所述神经网络模型中,进行训练,得到训练好的神经网络模型;
步骤四、基于训练好的所述神经网络模型对待重建图像进行超分辨率重建,并基于重建图像,评价所述神经网络模型。
优选地,得到所述训练样本的方法包括:
获取待重建图像,得到原始数据集DIV2K;所述原始数据集包含有高分辨率图像和验证图像;
对所述高分辨率图像进行下采样,得到低分辨率图像;
对所述高分辨率图像进行裁剪,裁剪至480*480;对所述低分辨率图像进行裁剪,裁剪至120*120;
裁剪后的所述高分辨率图像和所述低分辨率图像构成训练样本。
优选地,所述神经网络模型包括:基于通道注意力的变分自编码器、生成器和判别器;
所述基于通道注意力的变分自编码器包括有:编码器、通道注意力单元和解码器;
所述生成器包括有:卷积层、残差密集块和跳跃连接块;
所述判别器包括有:若干卷积层、批归一化层、全连接层和LeakyRELU层组成。
优选地,所述基于通道注意力的变分自编码器结构的损失由两部分组成,包括重建损失和KL损失;
所述重建损失的计算方法包括:
所述KL损失计算方法包括:
式中,μ表示均值,σ2表示方差。
优选地,所述生成器的损失包括感知损失、对抗损失和内容损失;
所述感知损失的计算方法包括:
式中,Wi,j、Hi,j表示判别网络特征图维度,φi,j表示从判别网络中第i个最大池化层之前的第j个卷积层获得的特征图,IHR表示高分辨率图像,ILR表示低分辨率图像,G(·)表示重建图像,y表示真实图像;
对抗损失的计算方法包括:
式中,E表示期望,xr表示真实图像,xf表示假图像,DRa表示相对平均判别器;
内容损失的计算方法包括:
优选地,步骤三种对所述神经网络模型训练的方法包括:
将低分辨率图像送入所述生成器,生成超分辨率图像;
将所述超分辨率图像送入所述基于通道注意力的变分自编码器中进行编码,通道注意力,解码得到高分辨率图像;
将所述超分辨率图像和所述高分辨率图像输入至所述判别器中,得到训练好的所述神经网络模型。
优选地,对所述神经网络模型的评价方法包括:
将峰值信噪比和结构相似性作为评价指标来评价所述神经网络模型重建图像的效果。
本发明还提供一种基于通道注意力的变分自编码图像超分辨率方法及系统,包括:采样单元、构建单元、训练单元和评价单元;
所述采样单元与所述训练单元连接,所述采样单元用于采集待重建图像,得到原始数据集,并对所述原始数据集进行预处理,得到训练样本;
所述构建单元与所述训练单元连接,所述构建单元用于构建神经网络模型;
所述训练单元用于将所述训练样本输入至所述神经网络模型中,进行训练,得到训练好的神经网络模型;
所述评价单元与所述训练单元连接,所述评价单元用于基于训练好的所述神经网络模型对待重建图像进行超分辨率重建,并基于重建图像,评价所述神经网络模型。
与现有技术相比,本发明的有益效果为:
(1)本发明公开了一种基于通道注意力的变分自编码图像超分辨率方法及系统,搭建了一个神经网络,包括生成器,基于通道注意力的变分自编码器,判别器。训练过程分为两个阶段:第一阶段通过生成器生成SR图像,然后将生成的图像作为输入,送至基于通道注意力的变分自编码器结构,最后经判别器输出,在恢复出更多高频细节的同时提高PSNR和SSIM指标。本发明在变分自编码器中加入通道注意力单元,使模型提优;为使生成对抗网络更优,本发明在判别器中融入基于通道注意力的变分自编码器结构,提高模型判别能力,以获得更好的训练模型。
(2)本发明中,对原始数据集统一进行预处理,增强样本,以避免欠拟合。
(3)由于普通的生成对抗网络会存在模式崩塌和训练不稳定导致生成的图像质量不好,所以本发明将基于通道注意力的变分自编码器作用于判别器中,可以提高判别器的判别能力。基于通道注意力的变分自编码器经过内部对抗训练,可以使作用在判别器上的判别能力增强,加入通道注意力之后,经过压缩提取对不同的通道赋予其对应的权重,可以实现模型性能提优。
(4)本发明能在提高PSNR和SSIM的同时恢复出效果较好的高分辨率图像。高分辨率图像中因为富含更多的细节和纹理信息,可以为计算机视觉的高层任务提供更好的基础。图像超分辨率技术是计算机视觉底层任务的重要部分,广泛应用于医学成像,遥感成像,公共安防,图像压缩等领域,对于社会的发展有重要作用。综上,本发明的应用范围较广,意义重大。
附图说明
为了更清楚地说明本发明的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的基于通道注意力的变分自编码图像超分辨率方法流程示意图;
图2为本发明实施例的神经网络模型训练方法流程示意图;
图3为本发明实施例神经网络模型的结构示意图;
图4为本发明实施例基于通道注意力的变分自编码器结构示意图;
图5为本发明实施例生成器网络结构示意图;
图6为本发明方法与SRGAN,ESRGAN,RealESRGAN三种方法对Set5数据集中图像1的4×超分结果对比示意图;
图7为本发明方法与SRGAN,ESRGAN,RealESRGAN三种方法对Set14数据集的图像1的4×超分结果对比示意图;
图8为本发明方法与SRGAN,ESRGAN,RealESRGAN三种方法对DIV2K100数据集的图像1的4×超分结果对比示意图;
图9为本发明法与SRGAN,ESRGAN,RealESRGAN三种方法对Urban100数据集的图像2的4×超分结果对比示意图;
图10为本发明实施例基于通道注意力的变分自编码图像超分辨率方法及系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
如图1所示,为本发明实施例一基于通道注意力的变分自编码图像超分辨率方法流程示意图,包括以下步骤:
步骤一、采集待重建图像,得到原始数据集,并对原始数据集进行预处理,得到训练样本;
本实施例中,步骤一包括以下具体步骤:
获取待重建图像,得到原始数据集DIV2K;其中,原始数据集DIV2K包含有高分辨率图像和验证图像;本实施例中,原始数据集DIV2K包含800张高分辨率图像和100张验证图像;原始数据集中图像需进行预处理,才能让后续神经网络模型学到更加真实一致特征。预处理方法包括:
对高分辨率图像进行四分之一倍双三次插值下采样,得到低分辨率图像;
对高分辨率图像进行裁剪,裁剪至480*480;对低分辨率图像进行裁剪,裁剪至120*120;
裁剪后的高分辨率图像和低分辨率图像构成训练样本。
步骤二、构建神经网络模型;
如图3所示,本实施例神经网络模型包括:基于通道注意力的变分自编码器、生成器和判别器;
具体的,生成器可以通过学习训练样本的特征,生成与真实样本尽可能相似的“假样本”,在本实施例中,用于第一阶段的基于PSNR的训练,生成SR图像。如图5所示,生成器主要包括:卷积层、残差密集块(Residual-in-Residual Dense Block,RRDB)和跳跃连接块;其中,第一个卷积层的输入为低分辨率图像,剩余层的输入为前一层的输出,卷积层的输出均为特征图;本实施例中,生成器包括有23个RRDB基础块。为了充分利用图像的内在信息,本实施例引用残差密集块,将低分辨率图像输入至RRDB中,RRDB包括有若干残差块和密集连接块,且无批归一化层,本实施例中,RRDB中密集网络由5个卷积层构建,然后3个密集连接块构成一个RRDB模块。批归一化层有可能在网络较深和在GAN网络训练下带来伪影,因此为稳定训练和一致性去除了批归一化层,此外,去除批归一化层有助于提高泛化能力,减少计算复杂度和内存使用。在本实施例中,密集连接块用于将前面所有层和后面层连接,建立不同层之间的连接关系,充分利用特征,缓解梯度消失问题,加强特征传播,鼓励特征重用,减少参数量;跳跃连接块包括有长跳跃连接块和短跳跃连接块;长跳跃连接块用于将输入的图像与经过基础块得到的结果进行连接;短跳跃连接块用于将各个残差块进行连接,有助于训练过程中的反向传播。
其中,感知损失的计算方法包括:
式中,Wi,j、Hi,j表示判别网络特征图维度,φi,j表示从判别网络中第i个最大池化层之前的第j个卷积层获得的特征图,IHR表示高分辨率图像,ILR表示低分辨率图像,G(·)表示重建图像,y表示真实图像;
对抗损失的计算方法包括:
式中,E表示期望,xr表示真实图像,xf表示假图像,DRa表示相对平均判别器;
内容损失的计算方法包括:
基于通道注意力的变分自编码器利用低分辨率图像引起的高分辨率图像的条件分布进行学习;如图4所示,基于通道注意力的变分自编码器包括有:编码器、通道注意力单元和解码器;编码器由3个残差块(卷积层,批归一化层,LeakyRELU层)和2个全连接层组成;解码器由1个全连接层,3个反卷积层和LeakyRELU层,最后经反卷积层,sigmoid组成;通道注意力单元由自适应平均池化层,卷积层和LeakyRELU层组成。将通道注意力单元用于编码器和解码器之间,加强通道间联系,使得模型更聚合。经生成器生成的图像送入基于通道注意力的变分自编码器,加入通道注意力后,经过压缩提取对不同的通道赋予其对应的权重,通常是对一个通道内的信息直接全局平均池化,实现降维。
通道压缩表达式为:
s=Cov(W(Cov(W(GAP(X)))))
式中,X表示图像,GAP表示全局平均池化操作,W表示LeakyRELU操作,Cov为卷积操作,s表示压缩因子。
基于通道注意力的变分自编码器的损失由两部分组成,包括重建损失和KL损失;即,LVAE=Lrecon+KLD;
式中,Lrecon表示重建损失,重建损失使用均方误差损失;KLD表示KL损失;
其中,重建损失的计算方法包括:
均方误差能反映真实值与预测值之间的差异性,以图像I与图像K为例,计算公式如下:
式中:M表示图像I的像素总数,N表示图像K的像素总数,MSE值越小,说明图像越相似。
KL损失计算方法包括:
式中,μ表示均值,σ2表示方差。
判别器可以区分输入的数据是真实的还是生成器生成的假数据,并反馈给生成器;本实施例中,判别器由若干卷积层,批归一化层,全连接层和LeakyRELU层组成;将基于通道注意力的变分自编码器作用于判别器中,提升判别器的判别能力,并反馈给生成器,实现对抗训练。判别器将第一阶段基于PSNR的训练模型作为第二阶段的输入,用于第二阶段的基于GAN的训练。
本实施例判别器使用相对判别器能够生成更锐化的边缘和丰富的细节。其不是单纯的将输出判别为真或者假,而是试图预测真实图像比假图像更真实的概率;
其中,判别器损失计算方法包括:
式中,E表示期望,xr表示真实图像,xf表示假图像,DRa表示相对平均判别器;
其中,
式中,C(x)表示非变换判别器输出,σ表示sigmoid操作。
生成器生成“假数据”,判别器努力识别出生成器生成的“假数据”,往复循环,实现动态平衡,因此生成对抗网络的目标是最大化判别器最小化生成器,用公式描述为:
式中,pdata(x)表示真实数据分布,pz(z)表示噪声分布,D(x)表示x来源于真实数据的分布,理想情况下D(x)=1,G(z)表示噪声经过生成器生成后的样本,D(G(z))表示分类器认为生成样本属于真实样本的概率,理想状态下为0。
神经网络模型的工作原理包括:
基于通道注意力的变分自编码器期望最小化KL散度,最大化期望,通过给定编码器输出的情况下使解码器的值尽可能高,这通过构建的基于通道注意力的变分自编码器中的编码器和解码器实现。最后模型实现时,采用重参数技巧,在从N(μ,σ2)中采一个Z时,相当于从N(0,1)中采样一个ε,然后再计算z。这样做是因为采样这个操作不可导,但采样结果是可导的,因此做个参数变换,让z=μ+ε×σ,就可以参与梯度下降,模型就可以训练了。基于通道注意力的变分自编码器的编码用来计算均值和方差,在常规的自编码器的基础上对编码的结果加上了“高斯噪声”,使得解码能对噪声具有鲁棒性;而KL损失(目的是让均值为0,方差为1),相当于对编码的一个正则项,希望编码出来的东西具有零均值,另一个编码是动态的调节噪声强度。当解码器还未训练好时(重构误差远大于KL损失),就会降低噪声(KL损失增加),使拟合更容易一些(重构误差开始下降);反之,若解码器训练还不错时(重构误差小于KL损失),这时噪声就会增加(KL损失减少),使拟合更加困难,这时候解码器就要想办法提升其生成能力了。重构过程希望没有噪声,KL损失是希望有高斯噪声的,两者对立,内部是包含对抗过程的,是混合起来共同进化的。基于通道注意力的变分自编码器,作用于判别器,最终反馈给生成器来训练神经网络模型进而实现对图像的超分。先对低分辨率图像经生成器后上采样后卷积得到超分辨率图像,之后利用基于通道注意力的变分自编码器进行模型提优,同时提升判别器的判别能力,最终反馈给生成器,完成对抗训练。致力于寻找高低分辨率图像对之间的映射关系,最后将训练好的网络模型用于低分辨率图像的超分辨率重建,得到最终的效果较好的重建图像。
步骤三、将训练样本输入至神经网络模型中,进行训练,得到训练好的神经网络模型;
如图2所示,本实施例中,对神经网络模型的训练包括两个阶段,第一阶段是基于PSNR的训练,通过RRDB基础块生成SR图像,损失为L1像素损失,初始学习率为2×10-4,每隔2×105个mini-batch缩小2倍,共迭代1000000次;第二阶段为基于GAN的训练,迭代400000次;优化器使用Adam,β1=0.9,β2=0.999,将第一阶段基于PSNR的训练模型作为第二阶段的输入,最终获得训练好的神经网络模型。
对神经网络模型训练的具体方法包括:
(1)将低分辨率图像送入生成器,经过上采样及卷积层,生成超分辨率图像;
(2)将超分辨率图像通过反向传播算法(Backprogagation,BP)送入基于通道注意力的变分自编码器中进行编码,通道注意力,解码得到高分辨率图像;
在这个过程中,本实施例采用均方误差(Mean Squared Error,MSE)作为损失函数,根据损失函数调整参数大小,迭代1000000次得到上述基于PSNR的第一阶段的模型;然后再经过基于通道自注意力的变分自编码器生成HR图像的信息;基于通道注意力的变分自编码器的损失由KL散度和SR与HR图像间的重建损失构成,重建损失使用MSE损失。
(3)将超分辨率图像和高分辨率图像输入至判别器中,进行第二阶段基于GAN的训练,迭代400000次,得到训练好的神经网络模型。
步骤四、基于训练好的神经网络模型对待重建图像进行超分辨率重建,并基于重建图像,评价神经网络模型。
本实施例中,将峰值信噪比(PSNR)和结构相似性(SSIM)作为评价指标从定性和定量两方面来评价神经网络模型重建图像的效果。
其中,PSNR用于评价噪声水平或图像失真的客观评价指标,计算公式如下:
式中,MAX表示图像I像素最大值。
SSIM用于评估两幅图像之间的相似水平,对于图像x和y,结构相似度计算公式如下:
式中,μ为均值,σ2为方差,c1和c2为常数,SSIM的范围为0-1,值越接近1,说明图像越相似。
为了验证本发明实施例基于通道注意力的变分自编码器的必要性和有效性,本实施例在数据集Set14上以采样因子4X做了对比试验。三种神经网络结构的峰值信噪比和结构相似度如表1所示:
表1
分析表1可知,结构3的PSNR值最高,即当网络应用基于通道注意力的变分自编码器结构时,对图像的超分辨率重建效果更好。
结合图6至图9,不同算法的峰值信噪比和结构相似度比较结果如表2所示:
表2
分析表2可知,在数据集Set5、Set14、DIV2K100和Urban100上以采样因子为4对图像进行重建时,本发明的方法相比于SRGAN、ESRGAN、RealESRGAN都有更高的峰值信噪比和结构相似度,使用的范围更广,效果更好。本发明的方法与SRGAN相比,峰值信噪比提高了0.9076-1.0106dB,结构相似度提高了0.0138-0.0349;与ESRGAN相比,峰值信噪比提高了0.1974-1.1056dB,结构相似度提高了0.0255-0.0430;与RealESRGAN相比,峰值信噪比提高了3.7845-6.3826dB,结构相似度提高了0.1099-0.1843。
实施例二
如图10所示,为本发明实施例基于通道注意力的变分自编码图像超分辨率方法及系统结构示意图,包括:采样单元、构建单元、训练单元和评价单元;
其中,采样单元与训练单元连接,采样单元用于采集待重建图像,得到原始数据集,并对原始数据集进行预处理,得到训练样本;
采样单元的具体工作内容包括:
获取待重建图像,得到原始数据集DIV2K;其中,原始数据集DIV2K包含有高分辨率图像和验证图像;本实施例中,原始数据集DIV2K包含800张高分辨率图像和100张验证图像;原始数据集中图像需进行预处理,才能让后续神经网络模型学到更加真实一致特征。预处理方法包括:
对高分辨率图像进行四分之一倍双三次插值下采样,得到低分辨率图像;
对高分辨率图像进行裁剪,裁剪至480*480;对低分辨率图像进行裁剪,裁剪至120*120;
裁剪后的高分辨率图像和低分辨率图像构成训练样本。
构建单元与训练单元连接,构建单元用于构建神经网络模型;
构建单元构建神经网络模型的方法包括:
构建单元构建的神经网络模型包括:基于通道注意力的变分自编码器、生成器和判别器;
具体的,生成器可以通过学习训练样本的特征,生成与真实样本尽可能相似的“假样本”,在本实施例中,用于第一阶段的基于PSNR的训练,生成SR图像。生成器主要包括:卷积层、残差密集块(Residual-in-Residual Dense Block,RRDB)和跳跃连接块;其中,第一个卷积层的输入为低分辨率图像,剩余层的输入为前一层的输出,卷积层的输出均为特征图;为了充分利用图像的内在信息,本实施例引用残差密集块,将低分辨率图像输入至RRDB中,RRDB包括有若干残差块和密集连接块,且无批归一化层,批归一化层有可能在网络较深和在GAN网络训练下带来伪影,因此为稳定训练和一致性去除了批归一化层,此外,去除批归一化层有助于提高泛化能力,减少计算复杂度和内存使用。在本实施例中,密集连接块用于将前面所有层和后面层连接,建立不同层之间的连接关系,充分利用特征,缓解梯度消失问题,加强特征传播,鼓励特征重用,减少参数量;跳跃连接块包括有长跳跃连接块和短跳跃连接块;长跳跃连接块用于将输入的图像与经过基础块得到的结果进行连接;短跳跃连接块用于将各个残差块进行连接,有助于训练过程中的反向传播。
其中,感知损失的计算方法包括:
式中,Wi,j、Hi,j表示判别网络特征图维度,φi,j表示从判别网络中第i个最大池化层之前的第j个卷积层获得的特征图,IHR表示高分辨率图像,ILR表示低分辨率图像,G(·)表示重建图像,少表示真实图像;
对抗损失的计算方法包括:
式中,E表示期望,xr表示真实图像,xf表示假图像,DRa表示相对平均判别器;
内容损失的计算方法包括:
式中,G(·)表示重建图像。
基于通道注意力的变分自编码器利用低分辨率图像引起的高分辨率图像的条件分布进行学习;如图4所示,基于通道注意力的变分自编码器包括有:编码器、通道注意力单元和解码器;编码器由3个残差块(卷积层,批归一化层,LeakyRELU层)和2个全连接层组成;解码器由1个全连接层,3个反卷积层和LeakyRELU层,最后经反卷积层,sigmoid组成;通道注意力单元由自适应平均池化层,卷积层和LeakyRELU层组成。将通道注意力单元用于编码器和解码器之间,加强通道间联系,使得模型更聚合。经生成器生成的图像送入基于通道注意力的变分自编码器,加入通道注意力后,经过压缩提取对不同的通道赋予其对应的权重,通常是对一个通道内的信息直接全局平均池化,实现降维。
通道压缩表达式为:
s=Cov(W(Cov(W(GAP(X)))))
式中,X表示图像,GAP表示全局平均池化操作,W表示LeakyRELU操作,Cov为卷积操作,s表示压缩因子。
基于通道注意力的变分自编码器的损失由两部分组成,包括重建损失和KL损失;即,LVAE=Lrecon+KLD;
式中,Lrecon表示重建损失,重建损失使用均方误差损失;KLD表示KL损失;
其中,重建损失的计算方法包括:
均方误差能反映真实值与预测值之间的差异性,以图像I与图像K为例,计算公式如下:
式中:M表示图像I的像素总数,N表示图像K的像素总数,MSE值越小,说明图像越相似。
KL损失计算方法包括:
式中,μ表示均值,σ2表示方差。
判别器可以区分输入的数据是真实的还是生成器生成的假数据,并反馈给生成器;本实施例中,判别器由若干卷积层,批归一化层,全连接层和LeakyRELU层组成;将基于通道注意力的变分自编码器作用于判别器中,提升判别器的判别能力,并反馈给生成器,实现对抗训练。判别器将第一阶段基于PSNR的训练模型作为第二阶段的输入,用于第二阶段的基于GAN的训练。
本实施例判别器使用相对判别器能够生成更锐化的边缘和丰富的细节。其不是单纯的将输出判别为真或者假,而是试图预测真实图像比假图像更真实的概率;
其中,判别器损失计算方法包括:
式中,E表示期望,xr表示真实图像,xf表示假图像,DRa表示相对平均判别器;
其中,
式中,C(x)表示非变换判别器输出,σ表示sigmoid操作。
生成器生成“假数据”,判别器努力识别出生成器生成的“假数据”,往复循环,实现动态平衡,因此生成对抗网络的目标是最大化判别器最小化生成器,用公式描述为:
式中,pdata(x)表示真实数据分布,pz(z)表示噪声分布,D(x)表示x来源于真实数据的分布,G(z)表示噪声经过生成器生成后的样本,D(G(z))表示分类器认为生成样本属于真实样本的概率。
训练单元用于将训练样本输入至神经网络模型中,进行训练,得到训练好的神经网络模型;
训练单元训练神经网络模型的方法包括:
对神经网络模型的训练包括两个阶段,第一阶段是基于PSNR的训练,通过RRDB基础块生成SR图像,损失为L1像素损失,初始学习率为2×10-4,每隔2×105个mini-batch缩小2倍,共迭代1000000次;第二阶段为基于GAN的训练,迭代400000次;优化器使用Adam,β1=0.9,β2=0.999,将第一阶段基于PSNR的训练模型作为第二阶段的输入,最终获得训练好的神经网络模型。
训练单元对神经网络模型训练的具体方法包括:
(1)将低分辨率图像送入生成器,经过上采样及卷积层,生成超分辨率图像;
(2)将超分辨率图像通过反向传播算法(Backprogagation,BP)送入基于通道注意力的变分自编码器中进行编码,通道注意力,解码得到高分辨率图像;
在这个过程中,本实施例采用均方误差(Mean Squared Error,MSE)作为损失函数,根据损失函数调整参数大小,迭代1000000次得到上述基于PSNR的第一阶段的模型;然后再经过基于通道自注意力的变分自编码器生成HR图像的信息;基于通道注意力的变分自编码器的损失由KL散度和SR与HR图像间的重建损失构成,重建损失使用MSE损失。
(3)将超分辨率图像和高分辨率图像输入至判别器中,进行第二阶段基于GAN的训练,迭代400000次,得到训练好的神经网络模型。
评价单元与训练单元连接,评价单元用于基于训练好的神经网络模型对待重建图像进行超分辨率重建,并基于重建图像,评价神经网络模型。
评价单元的具体工作过程包括:
将峰值信噪比(PSNR)和结构相似性(SSIM)作为评价指标从定性和定量两方面来评价神经网络模型重建图像的效果。
其中,PSNR用于评价噪声水平或图像失真的客观评价指标,计算公式如下:
式中,MAX表示图像I像素最大值。
SSIM用于评估两幅图像之间的相似水平,对于图像x和y,结构相似度计算公式如下:
式中,μ为均值,σ2为方差,c1和c2为常数,SSIM的范围为0-1,值越接近1,说明图像越相似。
以上所述的实施例仅是对本发明优选方式进行的描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (8)
1.一种基于通道注意力的变分自编码图像超分辨率方法,其特征在于,包括以下步骤:
步骤一、采集待重建图像,得到原始数据集,并对所述原始数据集进行预处理,得到训练样本;
步骤二、构建神经网络模型;
步骤三、将所述训练样本输入至所述神经网络模型中,进行训练,得到训练好的神经网络模型;
步骤四、基于训练好的所述神经网络模型对待重建图像进行超分辨率重建,并基于重建图像,评价所述神经网络模型。
2.根据权利要求1所述基于通道注意力的变分自编码图像超分辨率方法,其特征在于,得到所述训练样本的方法包括:
获取待重建图像,得到原始数据集DIV2K;所述原始数据集包含有高分辨率图像和验证图像;
对所述高分辨率图像进行下采样,得到低分辨率图像;
对所述高分辨率图像进行裁剪,裁剪至480*480;对所述低分辨率图像进行裁剪,裁剪至120*120;
裁剪后的所述高分辨率图像和所述低分辨率图像构成训练样本。
3.根据权利要求1所述基于通道注意力的变分自编码图像超分辨率方法,其特征在于,所述神经网络模型包括:基于通道注意力的变分自编码器、生成器和判别器;
所述基于通道注意力的变分自编码器包括有:编码器、通道注意力单元和解码器;
所述生成器包括有:卷积层、残差密集块和跳跃连接块;
所述判别器包括有:若干卷积层、批归一化层、全连接层和LeakyRELU层组成。
6.根据权利要求3所述基于通道注意力的变分自编码图像超分辨率方法,其特征在于,步骤三种对所述神经网络模型训练的方法包括:
将低分辨率图像送入所述生成器,生成超分辨率图像;
将所述超分辨率图像送入所述基于通道注意力的变分自编码器中进行编码,通道注意力,解码得到高分辨率图像;
将所述超分辨率图像和所述高分辨率图像输入至所述判别器中,得到训练好的所述神经网络模型。
7.根据权利要求1所述基于通道注意力的变分自编码图像超分辨率方法,其特征在于,对所述神经网络模型的评价方法包括:
将峰值信噪比和结构相似性作为评价指标来评价所述神经网络模型重建图像的效果。
8.一种基于通道注意力的变分自编码图像超分辨率系统,其特征在于,包括:采样单元、构建单元、训练单元和评价单元;
所述采样单元与所述训练单元连接,所述采样单元用于采集待重建图像,得到原始数据集,并对所述原始数据集进行预处理,得到训练样本;
所述构建单元与所述训练单元连接,所述构建单元用于构建神经网络模型;
所述训练单元用于将所述训练样本输入至所述神经网络模型中,进行训练,得到训练好的神经网络模型;
所述评价单元与所述训练单元连接,所述评价单元用于基于训练好的所述神经网络模型对待重建图像进行超分辨率重建,并基于重建图像,评价所述神经网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310105929.XA CN115984117B (zh) | 2023-02-13 | 2023-02-13 | 基于通道注意力的变分自编码图像超分辨率方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310105929.XA CN115984117B (zh) | 2023-02-13 | 2023-02-13 | 基于通道注意力的变分自编码图像超分辨率方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115984117A true CN115984117A (zh) | 2023-04-18 |
CN115984117B CN115984117B (zh) | 2023-11-24 |
Family
ID=85974327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310105929.XA Active CN115984117B (zh) | 2023-02-13 | 2023-02-13 | 基于通道注意力的变分自编码图像超分辨率方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115984117B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116543377A (zh) * | 2023-07-05 | 2023-08-04 | 西南民族大学 | 一种基于多尺度特征的车牌清晰度提升方法 |
CN116825227A (zh) * | 2023-08-31 | 2023-09-29 | 桑若(厦门)光伏产业有限公司 | 一种基于深度生成模型的钙钛矿组分比例分析方法及装置 |
CN117710216A (zh) * | 2024-01-26 | 2024-03-15 | 西安邮电大学 | 一种基于变分自编码器的图像超分辨率重建方法 |
CN118657662A (zh) * | 2024-08-20 | 2024-09-17 | 山东远桥信息科技有限公司 | 一种基于高光谱的智慧城市监控超分辨率增强方法及设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113487503A (zh) * | 2021-07-01 | 2021-10-08 | 安徽大学 | 一种基于通道注意力生成对抗网络的pet超分辨率方法 |
-
2023
- 2023-02-13 CN CN202310105929.XA patent/CN115984117B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113487503A (zh) * | 2021-07-01 | 2021-10-08 | 安徽大学 | 一种基于通道注意力生成对抗网络的pet超分辨率方法 |
Non-Patent Citations (1)
Title |
---|
丁明航等: "基于注意力生成对抗网络的图像超分辨率重建方法", 《计算机系统应用》, vol. 29, no. 2, pages 206 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116543377A (zh) * | 2023-07-05 | 2023-08-04 | 西南民族大学 | 一种基于多尺度特征的车牌清晰度提升方法 |
CN116825227A (zh) * | 2023-08-31 | 2023-09-29 | 桑若(厦门)光伏产业有限公司 | 一种基于深度生成模型的钙钛矿组分比例分析方法及装置 |
CN116825227B (zh) * | 2023-08-31 | 2023-11-14 | 桑若(厦门)光伏产业有限公司 | 一种基于深度生成模型的钙钛矿组分比例分析方法及装置 |
CN117710216A (zh) * | 2024-01-26 | 2024-03-15 | 西安邮电大学 | 一种基于变分自编码器的图像超分辨率重建方法 |
CN117710216B (zh) * | 2024-01-26 | 2024-06-28 | 西安邮电大学 | 一种基于变分自编码器的图像超分辨率重建方法 |
CN118657662A (zh) * | 2024-08-20 | 2024-09-17 | 山东远桥信息科技有限公司 | 一种基于高光谱的智慧城市监控超分辨率增强方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115984117B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115984117A (zh) | 基于通道注意力的变分自编码图像超分辨率方法及系统 | |
CN111192200A (zh) | 基于融合注意力机制残差网络的图像超分辨率重建方法 | |
CN109949222B (zh) | 基于语义图的图像超分辨率重建方法 | |
Ghazel et al. | Fractal-wavelet image denoising revisited | |
CN111681166A (zh) | 一种堆叠注意力机制编解码单元的图像超分辨率重建方法 | |
Li et al. | Underwater image high definition display using the multilayer perceptron and color feature-based SRCNN | |
CN110111251B (zh) | 一种结合深度监督自编码和感知迭代反投影的图像超分辨率重建方法 | |
Li et al. | Example-based image super-resolution with class-specific predictors | |
CN115880158B (zh) | 一种基于变分自编码的盲图像超分辨率重建方法及系统 | |
CN112950480A (zh) | 一种融合多感受野和密集残差注意的超分辨率重建方法 | |
CN117710216B (zh) | 一种基于变分自编码器的图像超分辨率重建方法 | |
Yang et al. | Image super-resolution based on deep neural network of multiple attention mechanism | |
CN111008938A (zh) | 一种基于内容和连续性引导的实时多帧比特增强方法 | |
CN112365422A (zh) | 基于深层聚合网络的不规则缺失图像修复方法及其系统 | |
CN116797462B (zh) | 基于深度学习的实时视频超分辨率重建方法 | |
US20240054605A1 (en) | Methods and systems for wavelet domain-based normalizing flow super-resolution image reconstruction | |
CN114581304A (zh) | 一种基于循环网络的图像超分辨率和去雾融合方法及系统 | |
CN115170915A (zh) | 一种基于端到端注意力网络的红外与可见光图像融合方法 | |
CN114140442A (zh) | 一种基于频域和图像域退化感知的深度学习稀疏角度ct重建方法 | |
CN113902647A (zh) | 一种基于双闭环网络的图像去模糊方法 | |
CN115496659A (zh) | 基于单张投影数据的三维ct图像重建方法及装置 | |
CN117726540A (zh) | 一种增强门控Transformer的图像去噪方法 | |
CN114022356A (zh) | 基于小波域的河道流量水位遥感图像超分辨率方法与系统 | |
CN113628114A (zh) | 一种双通道稀疏编码的图像超分辨率重建方法 | |
Zhang et al. | Dual-layer image compression via adaptive downsampling and spatially varying upconversion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |