CN112215755B - 一种基于反投影注意力网络的图像超分辨率重建方法 - Google Patents

一种基于反投影注意力网络的图像超分辨率重建方法 Download PDF

Info

Publication number
CN112215755B
CN112215755B CN202011171763.4A CN202011171763A CN112215755B CN 112215755 B CN112215755 B CN 112215755B CN 202011171763 A CN202011171763 A CN 202011171763A CN 112215755 B CN112215755 B CN 112215755B
Authority
CN
China
Prior art keywords
image
feature
attention
projection
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011171763.4A
Other languages
English (en)
Other versions
CN112215755A (zh
Inventor
陈晓
孙超文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Xiaoyang Electronic Technology Co ltd
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202011171763.4A priority Critical patent/CN112215755B/zh
Publication of CN112215755A publication Critical patent/CN112215755A/zh
Application granted granted Critical
Publication of CN112215755B publication Critical patent/CN112215755B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20192Edge enhancement; Edge preservation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于反投影注意力网络的图像超分辨率重建方法,包括以下步骤:(1)利用图像退化模型建立数据集;(2)构建多尺度特征融合反投影注意力网络,所述多尺度特征融合反投影注意力网络包括图像特征提取模块、图像特征映射模块、全局注意力模块和图像重建模块;(3)训练多尺度特征融合反投影注意力网络并调整参数;(4)将待重建的图像输入训练好的多尺度特征融合反投影注意力网络得到重建后的图像。本发明仅通过相对较小的训练集就可以获得超越其他先进方法的重建质量,极大节约了训练成本;且使得重建的图像具有更加清晰锐利的边缘特征,更接近真实HR图像。

Description

一种基于反投影注意力网络的图像超分辨率重建方法
技术领域
本发明属于计算机视觉领域和深度学习领域,具体涉及一种基于反投影注意力网络的图像超分辨率重建方法。
背景技术
图像超分辨率重建(Super-resolution,SR)技术是计算机视觉领域中一项重要的图像处理技术,广泛应用于医学成像、安全监控、改善遥感图像质量、图像压缩和目标检测领域。图像超分辨率重建旨在建立一个合适的模型将低分辨率(Low Resolution,LR)图像重建为高分辨率图像(High Resolution,HR)。由于一个给定的LR输入对应多个可能的HR图像,因此SR问题是一个具有挑战性的病态逆问题。
目前,提出的SR方法主要分为三大类,分别为基于插值的方法、基于重建的方法和基于学习的方法。其中,基于深度学习的SR方法以其优越的重建性能近年来受到广泛关注。SRCNN作为深度学习技术SR领域的开山之作,充分展示了卷积神经网络的优越性。因此很多网络以SRCNN架构为基准提出了一系列基于卷积神经网络的SR方法。深度作为一个重要因素可以为网络提供更大的感受野和更多的上下文信息,然而增加深度却极易引发两个问题:梯度消失/爆炸和大量的网络参数。
为了解决梯度问题,研究者提出残差学习,并成功训练了更深的网络,此外,也有一些网络引入密集连接来缓解梯度消失问题并鼓励特征重用;为了减少参数,研究者提出了递归学习来帮助权重共享。得益于这些机制,很多网络都倾向于构造更深更复杂的网络结构以获得更高的评价指标,然而经研究发现,目前很多网络都存在以下问题:
第一、很多SR方法虽然实现了深度网络的高性能,却忽略了网络的训练难度,导致需要花费庞大的训练集,投入更多的训练技巧和时间。
第二、大多数SR方法都以前馈的方式直接从LR输入中学习分层特征表示并映射到输出空间,这种单向映射依赖于LR图像中的有限特征。很多需要预处理操作的前馈网络只适应于单一的放大倍数,迁移到其他倍数需要繁琐的操作极度缺乏灵活性,并且在高倍放大上重建效果不佳。
第三、很多SR方法以单尺度卷积学习特征映射,无法从多个上下文尺度获取图像特征,这易导致图像特征利用不足并引发特征在传播过程中逐渐消失的问题,使得网络恢复高频细节的能力较弱,尤其是在高倍放大中。
发明内容
发明目的:本发明为了解决现有技术中存在的问题,提供一种基于反投影注意力网络的图像超分辨率重建方法,使得重建的图像具有更加清晰锐利的边缘特征,更接近真实HR图像。
技术方案:本发明所述的一种基于反投影注意力网络的图像超分辨率重建方法,包括以下步骤:
(1)利用图像退化模型建立数据集;
(2)构建多尺度特征融合反投影注意力网络,所述多尺度特征融合反投影注意力网络包括图像特征提取模块、图像特征映射模块、全局注意力模块和图像重建模块;
(3)训练多尺度特征融合反投影注意力网络并调整参数;
(4)将待重建的图像输入训练好的多尺度特征融合反投影注意力网络得到重建后的图像。
进一步地,所述步骤(1)实现给过程如下:
给定ILR表示LR图像集,IHR表示相应的HR图像集,将退化过程表示为:
ILR=D(IHR;δ)
对从HR图像生成LR图像的退化映射建模,并将退化建模为单个下采样操作:
Figure GDA0004161348340000021
其中,↓s表示放大倍数s进行下采样操作。
进一步地,所述步骤(2)包括以下步骤:
(21)图像特征提取:使用不同尺度的卷积核在三条支路中分别对输入图像ILR进行卷积操作提取图像初始特征,然后级联初始特征图并设置1×1卷积层进行数据降维和多样化特征跨通道融合,得到浅层LR特征图L0
Figure GDA0004161348340000031
Figure GDA0004161348340000032
Figure GDA0004161348340000033
Figure GDA0004161348340000034
其中,f1×1、f3×3和f5×5分别表示conv(1,n0)、conv(3,n0)和conv(5,n0),n0为初始特征提取阶段的通道数,f0表示conv(1,n),n是多尺度投影单元的输入通道数,f0将总通道数3*n0降为n;
(22)图像特征映射:将初始LR特征L0流入反馈模块产生HR特征图Hg:
Figure GDA0004161348340000035
其中,G表示多尺度投影组的数量即递归次数,
Figure GDA0004161348340000036
表示在第g次递归中多尺度投影组的特征映射过程;当g等于1,表示将初始特征图L0作为第一个多尺度投影组的输入,当g大于1,表示将由前一个多尺度投影组产生的LR特征图Lg-1作为当前输入;
(23)全局注意力模块:将所有特征映射阶段的输出结果H1,H2,…,Hg进行特征级联得到特征图X=[H1,H2,…,Hg],然后进行全局池化操作,逐通道进行分析Z∈Rc,Z的第c个元素可以定义为:
Figure GDA0004161348340000037
其中,Hc(i,j)代表在第c个特征图(i,j)处的特征值xc,HGP(x)表示全局池化操作;全局池化得到zc描述了第c个通道的特征图的全局信息,同时也将第c通道的特征信息映射为一个数值;利用门控函数计算每个通道特征应该分配多少注意力,门控函被定义:
Figure GDA0004161348340000038
其中,f(·)和δ(·)分别表示sigmoid门控单元和ReLU激活函数;WD是卷积层的权重矩阵,卷积层将输入的特征图的维度进行下采样,采样比率为r,用ReLU函数激活;Wu表示上采样卷积层的权重矩阵,采样比率同样是r,同时该卷积层的激活函数使用sigmoid函数,从而得到注意力分配比率;被分配注意力资源的特征图通过下式计算得到:
H′=sc·Hc
其中,sc和Hc分别表示第c通道的特征的注意力分配比率和第c通道的特征图,H′表示被分配注意力资源的特征图;
(24)利用插值算法对图像重建:将多个HR特征图的深度级联进行重建得到残差图像;
IRes=fRM([H1′,H2′,…,Hg′])
其中,[H1,H2,…,Hg]表示多个HR特征图的深度级联,fRM表示重建模块的操作,IRes为残差图像;将插值LR图像经计算后与重建的残差图像IRes相加得到最终的重建图像ISR
ISR=IRes+fUS(ILR)
其中,fuS表示插值上采样操作。
进一步地,步骤(3)所述的中训练多尺度特征融合反投影注意力网络的损失函数为:
Figure GDA0004161348340000041
其中,x为权值参数和偏置参数的集合,i表示整个训练过程中多次迭代训练的序列号。
进一步地,步骤(24)所述的插值算法为双线性插值算法或双三次插值算法
有益效果:与现有技术相比,本发明的有益效果:本发明设计了一种新颖的多尺度特征融合反投影注意力网络,这种模块化的端到端体系结构使得本文方法仅通过较小的参数调整就可以训练灵活地训练不同深度的网络以及任意扩展到其他放大倍数;通过相对较小的训练集就可以获得超越其他先进方法的重建质量,极大节约了训练成本;本发明可以成功执行8倍放大,并在多个基准测试集中均获得了出色的PSNR和SSIM结果;能够有效缓解基于CNN方法固有的振铃效应和棋盘伪影的影响,预测更多的高频细节并抑制平滑分量,使得重建的图像具有更加清晰锐利的边缘特征,更接近真实HR图像。
附图说明
图1为本发明的流程图;
图2为本发明构造的基于多尺度特征融合反投影注意力网络的结构图;
图3为多尺度上投影单元结构示意图;
图4为多尺度下投影单元的结构示意图;
图5为全局注意力机制单元结构示意图。
具体实施方式
下面结合附图以及具体实施例对本发明进行详细说明。
本发明提供一种基于反投影注意力网络的图像超分辨率重建方法,如图1所示,具体包括如下步骤:
步骤1,利用图像退化模型建立数据集。
给定ILR表示LR图像集,IHR表示相应的HR图像集,将退化过程表示为:
ILR=D(IHR;δ)
对从HR图像生成LR图像的退化映射建模,并将退化建模为单个下采样操作:
Figure GDA0004161348340000051
其中,↓s表示放大倍数s进行下采样操作。
采用具有抗锯齿的双三次插值作为下采样操作,获取DIV2K中的800张训练图像作为训练集。选用Set5、Set14、Urban100、BSD100和Manga109作为标准测试集,并使用双三次插值算法分别进行2倍,3倍、4倍和8倍的下采样。
步骤2,构建多尺度特征融合反投影注意力网络,网络结构如图2所示。
(1)图像特征提取:
使用不同尺度的卷积核在三条支路中分别对输入图像ILR进行卷积操作提取图像初始特征,然后级联初始特征图并设置1×1卷积层进行数据降维和多样化特征跨通道融合,得到浅层LR特征图L0
Figure GDA0004161348340000052
Figure GDA0004161348340000053
Figure GDA0004161348340000054
Figure GDA0004161348340000055
其中,f1×1、f3×3和f5×5分别表示conv(1,n0)、conv(3,n0)和conv(5,n0),n0为初始特征提取阶段的通道数,f0表示conv(l,n),n是多尺度投影单元的输入通道数,f0将总通道数3*n0降为n。
(2)图像特征映射:
利用一个多尺度上投影单元和一个多尺度下投影单元构成一个多尺度投影组,实现将多尺度LR特征投影到HR空间再投影回LR空间。
多尺度上投影单元通过以下六个步骤将LR特征映射为HR特征,如图3所示:
1)将之前计算的LR特征图Lg-1作为输入,分别使用核大小不同的反卷积
Figure GDA0004161348340000061
和/>
Figure GDA0004161348340000062
在两条支路上执行上采样操作,得到两个HR特征图/>
Figure GDA0004161348340000063
和/>
Figure GDA0004161348340000064
Figure GDA0004161348340000065
Figure GDA0004161348340000066
Figure GDA0004161348340000067
和/>
Figure GDA0004161348340000068
分别表示Deconv1(k1,n)和Deconv2(k2,n),k1和k2表示反卷积核的大小,n表示通道数。
2)将HR特征图
Figure GDA0004161348340000069
和/>
Figure GDA00041613483400000610
级联,分别使用核大小不同的卷积/>
Figure GDA00041613483400000611
和/>
Figure GDA00041613483400000612
在两条支路上执行下采样操作并生成两个LR特征图/>
Figure GDA00041613483400000613
和/>
Figure GDA00041613483400000614
Figure GDA00041613483400000615
Figure GDA00041613483400000616
Figure GDA00041613483400000617
和/>
Figure GDA00041613483400000618
分别表示Conv1(k1,2n)和Conv2(k2,2n),每条支路的通道数由n变成2n。
3)将LR特征图
Figure GDA00041613483400000619
和/>
Figure GDA00041613483400000620
级联,使用1×1卷积进行特征池化和降维,/>
Figure GDA00041613483400000621
和/>
Figure GDA00041613483400000622
映射为一个LR特征图/>
Figure GDA00041613483400000623
实现了跨通道特征融合。
Figure GDA00041613483400000624
Cu表示Conv(1,n),每条支路的通道数由2n变成n。并且,所有的1×1卷积在前一层的学习表示上添加了非线性激励,提升网络的表达能力。
4)计算输入的LR特征图Lg-1和重建的LR特征图
Figure GDA0004161348340000071
之间的残差/>
Figure GDA0004161348340000072
Figure GDA0004161348340000073
5)利用不同核大小的反卷积
Figure GDA0004161348340000074
和/>
Figure GDA0004161348340000075
分别对残差/>
Figure GDA0004161348340000076
进行上采样操作,LR空间中的残差被映射到HR空间中,从而生成新的HR残差特征/>
Figure GDA0004161348340000077
和/>
Figure GDA0004161348340000078
Figure GDA0004161348340000079
Figure GDA00041613483400000710
Figure GDA00041613483400000711
和/>
Figure GDA00041613483400000712
分别表示反卷积层Deconv1(k1,n)和Deconv2(k2,n),每条支路的通道数依然为n。
6)将残差HR特征
Figure GDA00041613483400000713
和/>
Figure GDA00041613483400000714
串联,并与步骤2中串联的HR特征叠加,通过1×1卷积输出上投影单元最终的HR特征图Hg。
Figure GDA00041613483400000715
Ch表示Conv(l,n),相加后总通道数为2n,通过Conv(1,n)将输出通道数降低为n,与输入通道数保持一致。多尺度投影单元的输入和输出都具有相同的通道数,这种独特的结构允许将多个多尺度投影单元相互交替连接。
多尺度下投影单元通过以下六个步骤将HR特征映射为LR特征,如图4所示:
1)将前面多尺度上投影单元输出的HR特征图Hg作为输入,分别使用核大小不同的卷积
Figure GDA00041613483400000716
和/>
Figure GDA00041613483400000717
在两条支路上执行下采样操作,得到两个LR特征图/>
Figure GDA00041613483400000718
和/>
Figure GDA00041613483400000719
Figure GDA00041613483400000720
Figure GDA00041613483400000721
Figure GDA00041613483400000722
和/>
Figure GDA00041613483400000723
分别表示Conv1(k1,n)和Conv2(k2,n)。
2)将LR特征图
Figure GDA00041613483400000724
和/>
Figure GDA00041613483400000725
级联,分别使用核大小不同的反卷积/>
Figure GDA00041613483400000726
和/>
Figure GDA00041613483400000727
在两条支路上执行上采样操作并生成两个HR特征图/>
Figure GDA00041613483400000728
和/>
Figure GDA00041613483400000729
Figure GDA0004161348340000081
Figure GDA0004161348340000082
Figure GDA0004161348340000083
和/>
Figure GDA0004161348340000084
分别表示Deconv1(k1,2n)和Deconv2(k2,2n),每条支路的通道数由n变成2n。
3)将HR特征图
Figure GDA0004161348340000085
和/>
Figure GDA0004161348340000086
级联,并通过1×1卷积获得HR特征图/>
Figure GDA0004161348340000087
Figure GDA0004161348340000088
Cd表示Conv(1,n),每条支路的通道数由2n变成n。
4)计算输入的HR特征图Hg和重建的HR特征图
Figure GDA0004161348340000089
之间的残差/>
Figure GDA00041613483400000810
Figure GDA00041613483400000811
5)利用不同核大小的卷积
Figure GDA00041613483400000812
和/>
Figure GDA00041613483400000813
分别对残差/>
Figure GDA00041613483400000814
进行下采样操作,HR空间中的残差被映射到LR空间中,从而生成新的LR残差特征/>
Figure GDA00041613483400000815
和/>
Figure GDA00041613483400000816
Figure GDA00041613483400000817
Figure GDA00041613483400000818
Figure GDA00041613483400000819
和/>
Figure GDA00041613483400000820
分别表示卷积层Conv1(k1,n)和Conv2(k2,n),每条支路的通道数依然为n。
6)将残差LR特征
Figure GDA00041613483400000821
和/>
Figure GDA00041613483400000822
串联,并与步骤2中串联的LR特征叠加,通过1×1卷积输出下投影单元最终的LR特征图Lg
Figure GDA00041613483400000823
Cl表示Conv(1,n),相加后总通道数为2n,通过Conv(1,n)将输出通道数减少为n,与输入通道数保持一致。
一个多尺度投影组通过递归学习让输出流入下一次迭代并调整输入形成反馈机制,从而实现特征映射。反馈流在上采样过程和下采样过程之间交替,构成局部残差反馈来迭代地修正投影误差以形成自校正过程。初始LR特征L0流入反馈模块并产生一系列来自不同深度的HR特征图Hg:
Figure GDA0004161348340000091
其中,G表示多尺度投影组的数量即递归次数,
Figure GDA0004161348340000092
表示在第g次递归中多尺度投影组的特征映射过程。当g等于1,表示将初始特征图L0作为第一个多尺度投影组的输入;当g大于1,表示将由前一个多尺度投影组产生的LR特征图Lg-1作为当前输入。
(3)全局注意力模块,如图5所示。
将所有特征映射阶段的输出结果H1,H2,…,Hg进行特征级联得到特征图X=[H1,H2,…,Hg],然后进行全局池化操作,逐通道进行分析Z∈Rc,Z的第c个元素可以定义为:
Figure GDA0004161348340000093
其中:Hc(i,j)代表在第c个特征图(i,j)处的特征值xc,HGP(x)表示全局池化操作。全局池化得到zc描述了第c个通道的特征图的全局信息,同时也将第c通道的特征信息映射为一个数值。之后利用设计的门控函数计算每个通道特征应该分配多少注意力。门控函被定义:
Figure GDA0004161348340000094
其中:f(·)和δ(·)分别表示sigmoid门控单元和ReLU激活函数;WD是卷积层的权重矩阵,该卷积层将输入的特征图的维度进行下采样,采样比率为r,然后用ReLU函数激活;WU表示上采样卷积层的权重矩阵,采样比率同样是r,同时该卷积层的激活函数使用sigmoid函数,从而得到注意力分配比率。最后被分配注意力资源的特征图通过下式计算得到:
H′=sc·Hc
其中,sc和Hc分别表示第c通道的特征的注意力分配比率和第c通道的特征图,H′表示被分配注意力资源的特征图。
(4)图像重建:
将多个HR特征图的深度级联进行重建得到残差图像;
IRes=fRM([H1′,H2′,…,Hg′])
其中,[H1,H2,…,Hg]表示多个HR特征图的深度级联,fRM表示重建模块的操作,IRes为残差图像;
将插值LR图像经计算后与重建的残差图像IRes相加得到最终的重建图像ISR
ISR=IRes+fUS(ILR)
其中,fUS表示插值上采样操作。fUS表示插值上采样操作,首先应用双线性插值将初始LR输入ILR放大至目标尺寸,也可以使用其他插值算法,如双三次插值算法,然后将插值LR图像绕过网络主体部分传输到网络末端与重建的残差图像IRes相加得到最终的重建图像ISR
步骤3,训练多尺度特征融合反投影注意力网络。
将批大小设置为16,并采用旋转和翻转进行数据增强。为了充分利用计算资源,根据放大系数输入不同大小的LR图像块和对应的HR图像块。使用Adam优化网络参数,动量因子为0.9,权重衰减1e-4。将学习率初始值设为0.0001,并且每迭代200次,学习率衰减为原来的一半。
在多尺度投影单元的每个分支中设计不同的核大小和填充并根据相应的放大倍数调整核的大小和步长。为了充分利用图像上下文信息,输入和输出都使用RGB颜色通道。除网络末端的重建层外,PReLU被用作所有卷积和反卷积层后面的激活函数。用步骤1的图像集按步骤2训练网络直至代价损失减少到一定程度且训练达到迭代最大次数。利用L1函数作为损失函数。
Figure GDA0004161348340000101
其中x为权值参数和偏置参数的集合,i表示整个训练过程中多次迭代训练的序列号。
步骤4,测试多尺度特征融合反投影注意力网络并进行图像重建。
将待重建的图像输入训练好的多尺度特征融合反投影注意力网络得到重建后的图像。
将PSNR和SSIM作为评价指标在Set5、Set14、Urban100、BSD100和Manga109这5个标准测试集中评估模型性能,并且所有测试均选用y通道。
为了验证本文所提出方法的有效性与可靠性,在不同的放大倍数上与现有的多个重建方法进行比较。在低倍放大中(×2,×3,×4),将本文方法与12种先进方法进行比较。由于许多模型不适用于高倍放大(×8),因此将本文方法与9种先进方法比较。对于×2放大,本文方法在五个基准数据集中获得最佳的PSNR结果。但是,对于×3,×4和×8的放大,本文方法的PSNR和SSIM优于所有其他模型。随着放大系数的增大,优势相对更加明显,特别是对于×8,证明了本文方法处理高倍放大的有效性。在这五个数据集中,本文方法在PSNR和SSIM方面具有更高的客观评估指标。证明了本文方法不仅倾向于构造规则的人工图案,而且擅长重构不规则的自然图案。本文方法在适应各种场景特征方面具有优势,并且对于具有不同特征的图像具有惊人的SR结果。
引入注意力机制为特征映射阶段产生的特征图以及特征图的各个通道,自动分配不同的注意力资源。使网络模型可以学习到尽可能多的高频信息,并尽量减少上下采样过程产生的误差。本方法不仅注重将低级细节与高级抽象语义相结合,还侧重于局部特征和全局信息的融合。模块化的端到端体系结构使得本文方法仅通过较小的参数调整就可以训练灵活地训练不同深度的网络以及任意扩展到其他放大倍数。通过相对较小的训练集就可以获得超越其他先进方法的重建质量,极大节约了训练成本。本文方法可以成功执行8倍放大,并在多个基准测试集中均获得了出色的PSNR和SSIM结果。本文方法能够有效缓解基于CNN方法固有的振铃效应和棋盘伪影的影响,预测更多的高频细节并抑制平滑分量,使得重建的图像具有更加清晰锐利的边缘特征。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围,包括但不限于用本方法以及其改进和变形方法用于其它图像处理方面,如图像分类、检测、去噪、增强等。

Claims (4)

1.一种基于反投影注意力网络的图像超分辨率重建方法,其特征在于,包括以下步骤:
(1)利用图像退化模型建立数据集;
(2)构建多尺度特征融合反投影注意力网络,所述多尺度特征融合反投影注意力网络包括图像特征提取模块、图像特征映射模块、全局注意力模块和图像重建模块;
(3)训练多尺度特征融合反投影注意力网络并调整参数;
(4)将待重建的图像输入训练好的多尺度特征融合反投影注意力网络得到重建后的图像;
所述步骤(2)包括以下步骤:
(21)图像特征提取:使用不同尺度的卷积核在三条支路中分别对输入图像ILR进行卷积操作提取图像初始特征,然后级联初始特征图并设置1×1卷积层进行数据降维和多样化特征跨通道融合,得到浅层LR特征图L0
Figure QLYQS_1
Figure QLYQS_2
Figure QLYQS_3
Figure QLYQS_4
其中,f1×1、f3×3和f5×5分别表示
Figure QLYQS_5
和/>
Figure QLYQS_6
n0为初始特征提取阶段的通道数,f0表示conv(1,n),n是多尺度投影单元的输入通道数,f0将总通道数3*n0降为n;
(22)图像特征映射:将初始LR特征L0流入反馈模块产生HR特征图Hg
Figure QLYQS_7
其中,G表示多尺度投影组的数量即递归次数,
Figure QLYQS_8
表示在第g次递归中多尺度投影组的特征映射过程;当g等于1,表示将初始特征图L0作为第一个多尺度投影组的输入,当g大于1,表示将由前一个多尺度投影组产生的LR特征图Lg-1作为当前输入;
(23)全局注意力模块:将所有特征映射阶段的输出结果H1,H2,…,Hg进行特征级联得到特征图X=[H1,H2,…,Hg],然后进行全局池化操作,逐通道进行分析Z∈Rc,Z的第c个元素可以定义为:
Figure QLYQS_9
其中,Hc(i,j)代表在第c个特征图(i,j)处的特征值xc,HGP(x)表示全局池化操作;全局池化得到zc描述了第c个通道的特征图的全局信息,同时也将第c通道的特征信息映射为一个数值;利用门控函数计算每个通道特征应该分配多少注意力,门控函被定义:
Figure QLYQS_10
其中,f(·)和δ(·)分别表示sigmoid门控单元和ReLU激活函数;WD是卷积层的权重矩阵,卷积层将输入的特征图的维度进行下采样,采样比率为r,用ReLU函数激活;WU表示上采样卷积层的权重矩阵,采样比率同样是r,同时该卷积层的激活函数使用sigmoid函数,从而得到注意力分配比率;被分配注意力资源的特征图通过下式计算得到:
H′=sc·Hc
其中,sc和Hc分别表示第c通道的特征的注意力分配比率和第c通道的特征图,H′表示被分配注意力资源的特征图;
(24)利用插值算法对图像重建:将多个HR特征图的深度级联进行重建得到残差图像;
IRes=fRM([H1′,H2′,…,Hg′])
其中,[H1,H2,…,Hg]表示多个HR特征图的深度级联,fRM表示重建模块的操作,IRes为残差图像;将插值LR图像经计算后与重建的残差图像IRes相加得到最终的重建图像ISR
ISR=IRes+fUS(ILR)
其中,fUS表示插值上采样操作。
2.根据权利要求1所述的基于反投影注意力网络的图像超分辨率重建方法,其特征在于,所述步骤(1)实现给过程如下:
给定ILR表示LR图像集,IHR表示相应的HR图像集,将退化过程表示为:
ILR=D(IHR;δ)
对从HR图像生成LR图像的退化映射建模,并将退化建模为单个下采样操作:
Figure QLYQS_11
其中,↓s表示放大倍数s进行下采样操作。
3.根据权利要求1所述基于反投影注意力网络的图像超分辨率重建方法,其特征在于,步骤(3)所述的训练多尺度特征融合反投影注意力网络的损失函数为:
Figure QLYQS_12
其中,x为权值参数和偏置参数的集合,i表示整个训练过程中多次迭代训练的序列号。
4.根据权利要求1所述的基于反投影注意力网络的图像超分辨率重建方法,其特征在于,步骤(24)所述的插值算法为双线性插值算法或双三次插值算法。
CN202011171763.4A 2020-10-28 2020-10-28 一种基于反投影注意力网络的图像超分辨率重建方法 Active CN112215755B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011171763.4A CN112215755B (zh) 2020-10-28 2020-10-28 一种基于反投影注意力网络的图像超分辨率重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011171763.4A CN112215755B (zh) 2020-10-28 2020-10-28 一种基于反投影注意力网络的图像超分辨率重建方法

Publications (2)

Publication Number Publication Date
CN112215755A CN112215755A (zh) 2021-01-12
CN112215755B true CN112215755B (zh) 2023-06-23

Family

ID=74057290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011171763.4A Active CN112215755B (zh) 2020-10-28 2020-10-28 一种基于反投影注意力网络的图像超分辨率重建方法

Country Status (1)

Country Link
CN (1) CN112215755B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112862913B (zh) * 2021-01-28 2023-06-20 首都师范大学 一种多尺度带孔密集重建网络及其有限角ct成像方法
CN112950470B (zh) * 2021-02-26 2022-07-15 南开大学 基于时域特征融合的视频超分辨率重建方法及系统
CN113487495B (zh) * 2021-06-02 2022-04-29 湖北地信科技集团股份有限公司 一种基于深度学习的多尺度高分影像抗噪生成方法
CN114429424B (zh) * 2022-04-01 2022-06-24 中国石油大学(华东) 一种适用于退化方式不定的遥感图像超分重建方法
CN114547017B (zh) * 2022-04-27 2022-08-05 南京信息工程大学 一种基于深度学习的气象大数据融合方法
CN116452696B (zh) * 2023-06-16 2023-08-29 山东省计算中心(国家超级计算济南中心) 一种基于双域特征采样的图像压缩感知重构方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108765296A (zh) * 2018-06-12 2018-11-06 桂林电子科技大学 一种基于递归残差注意力网络的图像超分辨率重建方法
CN111598778A (zh) * 2020-05-13 2020-08-28 云南电网有限责任公司电力科学研究院 一种绝缘子图像超分辨率重建方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514580B (zh) * 2013-09-26 2016-06-08 香港应用科技研究院有限公司 用于获得视觉体验优化的超分辨率图像的方法和系统
CN109544451A (zh) * 2018-11-14 2019-03-29 武汉大学 一种基于渐进式迭代反投影的图像超分辨率重建方法和系统
CN109741260B (zh) * 2018-12-29 2023-05-12 天津大学 一种基于深度反投影网络的高效超分辨率方法
CN110033410B (zh) * 2019-03-28 2020-08-04 华中科技大学 图像重建模型训练方法、图像超分辨率重建方法及装置
CN110992270A (zh) * 2019-12-19 2020-04-10 西南石油大学 基于注意力的多尺度残差注意网络图像超分辨率重建方法
CN111161150B (zh) * 2019-12-30 2023-06-23 北京工业大学 一种基于多尺度注意级联网络的图像超分辨率重建方法
CN111192200A (zh) * 2020-01-02 2020-05-22 南京邮电大学 基于融合注意力机制残差网络的图像超分辨率重建方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108765296A (zh) * 2018-06-12 2018-11-06 桂林电子科技大学 一种基于递归残差注意力网络的图像超分辨率重建方法
CN111598778A (zh) * 2020-05-13 2020-08-28 云南电网有限责任公司电力科学研究院 一种绝缘子图像超分辨率重建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Multiscale Recursive Feedback Network for Image Super-Resolution";Xiao Chen, Chaowen Sun;IEEE Access;第10卷;第6393-6406页 *
"基于多尺度特征融合反投影网络的图像超分辨率重建";孙超文,陈晓;自动化学报;第47卷(第7期);第1689-1700页 *

Also Published As

Publication number Publication date
CN112215755A (zh) 2021-01-12

Similar Documents

Publication Publication Date Title
CN112215755B (zh) 一种基于反投影注意力网络的图像超分辨率重建方法
Wu et al. Fast end-to-end trainable guided filter
Ahn et al. Image super-resolution via progressive cascading residual network
CN109035142B (zh) 一种对抗网络结合航拍图像先验的卫星图像超分辨方法
CN110136062B (zh) 一种联合语义分割的超分辨率重建方法
CN111353940B (zh) 一种基于深度学习迭代上下采样的图像超分辨率重建方法
CN111861886B (zh) 一种基于多尺度反馈网络的图像超分辨率重建方法
CN110992270A (zh) 基于注意力的多尺度残差注意网络图像超分辨率重建方法
Zhao et al. Unsupervised degradation learning for single image super-resolution
Li et al. FilterNet: Adaptive information filtering network for accurate and fast image super-resolution
Pan et al. Dual convolutional neural networks for low-level vision
CN110706214B (zh) 融合条件随机与残差的三维U-Net大脑肿瘤分割方法
CN113689517B (zh) 一种多尺度通道注意力网络的图像纹理合成方法及系统
Li et al. Underwater image high definition display using the multilayer perceptron and color feature-based SRCNN
CN115564649B (zh) 一种图像超分辨率重建方法、装置及设备
Cao et al. New architecture of deep recursive convolution networks for super-resolution
CN111091575B (zh) 一种基于强化学习方法的医学图像分割方法
CN108257108A (zh) 一种超分辨率图像重建方法及系统
CN111986092B (zh) 一种基于双重网络的图像超分辨率重建方法及系统
Zhang et al. Deformable and residual convolutional network for image super-resolution
CN115511708A (zh) 基于不确定性感知特征传输的深度图超分辨率方法及系统
CN113538246A (zh) 基于无监督多阶段融合网络的遥感图像超分辨率重建方法
Zhong et al. Deep attentional guided image filtering
Yang et al. Image super-resolution reconstruction based on improved Dirac residual network
CN113240589A (zh) 一种多尺度特征融合的图像去雾方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231123

Address after: 211500 No. 59 Wang Qiao Road, Xiongzhou Street, Liuhe District, Nanjing City, Jiangsu Province

Patentee after: Nanjing Xiaoyang Electronic Technology Co.,Ltd.

Address before: 210044 No. 219 Ning six road, Jiangbei new district, Nanjing, Jiangsu

Patentee before: Nanjing University of Information Science and Technology