CN114897694A - 基于混合注意力和双层监督的图像超分辨率重建方法 - Google Patents

基于混合注意力和双层监督的图像超分辨率重建方法 Download PDF

Info

Publication number
CN114897694A
CN114897694A CN202210503215.XA CN202210503215A CN114897694A CN 114897694 A CN114897694 A CN 114897694A CN 202210503215 A CN202210503215 A CN 202210503215A CN 114897694 A CN114897694 A CN 114897694A
Authority
CN
China
Prior art keywords
ref
image
feature
attention
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210503215.XA
Other languages
English (en)
Inventor
刘昕
李静
崔员宁
都繁杰
高丰
王文亮
羊麟威
陈世伟
时宽治
钱李烽
杨松林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202210503215.XA priority Critical patent/CN114897694A/zh
Publication of CN114897694A publication Critical patent/CN114897694A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于混合注意力和双层监督的图像超分辨率重建方法,包括获取高分辨率的标签图像和参考图像并对其进行下采样,构建得到数据集;对数据集的图像进行多尺度特征提取;利用transformer注意力从参考图像特征中获得对应特征;利用通道注意力对提取的对应特征自适应优化处理得到迁移特征;将迁移特征与低分辨率图像特征通过解码器网络融合实现高质量的图像重建,并采用双层监督信号更新网络参数最小化损失。本发明能够提高超分辨率重建的重建效果和视觉感受。

Description

基于混合注意力和双层监督的图像超分辨率重建方法
技术领域
本发明属于图像处理与计算机视觉技术领域,具体涉及基于混合注意力和双层监督的图像超分辨率重建方法。
背景技术
图像超分辨率(Super-Resolution,SR)是一项基本的计算机视觉任务,旨在从给定的低分辨率图像中恢复出自然的高频细节。图像超分辨率被广泛应用于一些对图像质量要求较高领域,如医学成像、卫星勘测、监视、安全等,除此之外它还有助于改善其他计算机视觉任务。通常图像超分辨率的研究分为两种:单图像超分辨率(SISR)和基于参考的图像超分辨率(Reference-based image super-resolution,RefSR)。其中,SISR主要通过LR-HR图像训练模型获取LR-HR的映射关系来恢复LR图像,但是由于LR和HR图像之间固有的信息缺失,这些经典的单一超分辨率方法往往难以克服恢复出的图像具有较大的视觉伪影和模糊效果的缺陷。
最近,RefSR在SR领域中取得一些成功,其额外引入一张高分辨率图像作为参考图像,通过传输参考图像的纹理特征为LR图像提供更精细的细节从而实现好的重建效果。传统的RefSR方法需要建立在参照图像与低分辨率图像有相似的内容或有良好的对齐的前提上进行特征传输,否则,当参考图片与低分辨图片差别较大时超分辨恢复的效果会严重下降。
现有的RefSR方法可以依靠隐式对应匹配发现LR图像和Ref间的深层特征对应从参考图像(Ref)中传输更准确的HR纹理,以补偿输入图像中的信息损失。然而,低分辨率输入图像和高分辨率参考图像之间的差异仍然影响Ref图像的有效利用,迁移特征中存在的一些噪声信息会在之后与低分辨率图像特征的融合中产生不好的效应,并影响到网络的收敛以及最终效果。因此充分利用Ref图像中的信息来提高SR性能是一个重要的挑战。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供基于混合注意力和双层监督的图像超分辨率重建方法,可解决现有技术对Ref图像高频信息利用不充分的问题。
为实现上述技术目的,本发明采取的技术方案为:
基于混合注意力和双层监督的图像超分辨率重建方法,其特征在于,包括
步骤1:获取高分辨率的标签图像HR和参考图像Ref并对其进行下采样,得到对应的低分辨率图像LR和Ref↓,对HR、Ref、LR和Ref↓进行数据增强后构建得到数据集;
步骤2:多尺度特征提取模块通过编码器网络对数据集的图像进行多尺度特征提取,HR和Ref均获得三种不同的缩放特征,分别记为FHR和FRef,LR和Ref↓分别得到FLR和FRef↓
步骤3:特征选择模块利用transformer注意力,基于LR和Ref的相关性从FRef中获得对应特征F;
步骤4:特征自适应模块利用通道注意力对F进行自适应优化处理,得到优化处理后的迁移特征
Figure BDA0003636273480000021
步骤5:编码重构模块将
Figure BDA0003636273480000022
与FLR通过解码器网络融合得到融合特征Ffusion,将融合后的特征Ffusion补偿到LR中,得到最终的超分辨率图像SR,实现高质量的图像重建,并采用双层监督信号更新网络参数以最小化损失。
为优化上述技术方案,采取的具体措施还包括:
上述的步骤1对HR、Ref、LR和Ref↓采用水平或垂直翻转,再随机旋转90°,180°和270°的操作进行增强数据。
上述的步骤2所述编码器网络包含三个构建块,以提取1×,2×,4×三个分辨率尺度的特征;
通过编码器网络的三个构建块对HR和Ref进行多尺度特征提取,得到相应的三种不同的缩放特征;
通过编码器网络的第一个构建块对LR和Ref↓进行特征提取,得到特征FLR和FRef↓
上述的步骤3所述特征选择模块,先嵌入LR和Ref的相关性,再利用相关性从FRef中提取用于补偿低分辨率图像恢复的信息,作为Ref上对应的要迁移的特征,具体流程如下:
步骤3-1:估计LR特征FLR和Ref↓特征FRef↓之间的相似性来嵌入LR和Ref图像之间的相关性:
将FLR和FRef↓展开成一个个3×3的小块分别记为qi(i∈[1,HLR×WLR])和kj(j∈[1,HRef×WRef]),并通过归一化内积的方式计算小块之间的相关性:
Figure BDA0003636273480000023
ri,j代表LR中第i个位置和Ref中第j个位置的相关性;
步骤3-2:得到的相关性后进一步计算,得到硬注意力图H和软注意力图S:
首先计算一个硬注意力图H,其中第i个元素hi(i∈[1,HLR×WLR])是由相关性ri,j计算出来的:
Figure BDA0003636273480000031
其中,hi的值可以看作是一个索引,表示Ref图像中与LR图像中第i个位置最相关的位置;
然后利用得到的硬注意力图H,对FRef的展开面片V做索引选择操作:
Figure BDA0003636273480000032
ti表示T在第i个图像块的值,该值是从FRef第hi个位置选择的;
最后将所有的ti(i∈[1,HLR×WLR])聚合得到特征匹配后的HR特征T;
为了避免T中每个位置的信息被同等对待,进一步利用qi和kj的相关性ri,j,对特征T的不同位置施加不同的注意力权重,具体的:
首先计算一个软注意力图S,其中第i个元素si(i∈[1,HLR×WLR])通过相关性ri,j计算得到:
Figure BDA0003636273480000033
其中si表示特征T在第i个位置的注意力权重;
步骤3-3:将得到的软注意力图S作用在特征T上得到用于迁移的特征F:
F=T⊙S
其中,运算符⊙表示特征映射之间的逐元素乘法,特征F表示Ref上对应的要迁移的特征。
上述的步骤4所述特征自适应模块,利用残差结构将通道注意力作用于对应特征上,自适应地对特征的每个通道施加不同的关注,得到优化处理后的迁移特征
Figure BDA0003636273480000034
所述通道注意力采用平均池化和最大池化两种通道描述符来聚合特征映射的空间信息,并用一个共享网络将通道描述符以先降维再升维的方式映射为通道权重值。
上述的步骤4中,自适应地对特征的每个通道施加不同的关注,是指通过学习通道间的相互依赖性来自适应缩放通道特征,具体的:
对于大小为C×H×W的特征映射x,首先利用利用平均池化和最大池化操作聚合特征映射的空间信息,生成表示每个通道的通道描述符zavg和zmax,其中第c个元素由该通道的所有元素计算得到:
Figure BDA0003636273480000041
Figure BDA0003636273480000042
其中,xc(i,j)为第c个通道特征在(i,j)处的值,HAP(·)为全局平均池化函数,HMP(·)为全局最大池化函数;
接着通道描述符zavg和zmax通过一个共享网络来自适应地学习权重:
s=σ(MLP(zavg+zmax))=σ(WUδ(WD(zavg+zmax)))
其中,σ(·)和δ(·)分别表示Sigmoid函数和ReLU函数;
WD是激活网络第一层的权重,WU是激活网络第二层的权重;
通道描述符以减小比例r降低通道数,被ReLU激活后,再由信道升尺度层以比例r增加,最后经过Sigmoid函数将每一层的通道权重映射到0,1之间;
得到的各通道权重进一步作用在输入的特征映射x上实现对每个通道产生不同的关注:yc=sc·xc
其中,sc是第c个通道的权重,xc是第c个通道特征;
通过上述的操作对步骤4得到的特征实现通道维度的特征筛选,进而得到优化处理后的迁移特征
Figure BDA0003636273480000048
上述的步骤5双层监督信号更新网络参数:
在中间特征层,采用额外的三重监督损失
Figure BDA0003636273480000043
来最小化HR图像的特征和融合特征的距离:
Figure BDA0003636273480000044
其中IHR表示真实图像,
Figure BDA0003636273480000045
表示编码器的第n层,
Figure BDA0003636273480000046
表示HR图像的特征,Ffusion表示LR特征与迁移特征
Figure BDA0003636273480000047
的融合特征;
在最终图像层,采用重建损失、感知损失和生成对抗损失三种损失来监督限制HR和最后的超分辨率重建图像SR在像素空间、特征空间中的距离,以期望恢复出更真实的纹理;
最终中间特征层和图像层两个层面的监督信号来学习更强大的特征。
本发明具有以下有益效果:
本发明获取高分辨率的标签图像和参考图像并对其进行下采样,构建得到数据集;对数据集的图像进行多尺度特征提取;利用transformer注意力从参考图像特征中获得对应特征;利用通道注意力对提取的对应特征自适应优化处理得到迁移特征;将迁移特征与低分辨率图像特征通过解码器网络融合实现高质量的图像重建,并采用双层监督信号更新网络参数最小化损失。能够提高超分辨率重建的重建效果和视觉感受。
1、本发明将transformer注意力与通道注意力结合来实现更充分地利用参考图像的信息:
首先通过第一阶段的注意力实现高质量的对应匹配,从参考图像中提取用于传输的高分辨率纹理特征,然后得到的纹理特征再经过第二阶段的注意力强化重要特征的学习并抑制噪声信息的传播,通过这种由粗到细的特征选择模式提升了对参考图像特征信息的利用;
2、本发明引入双层监督策略,量化HR图像的深层特征与融合特征在不同尺度上的相似度,将其作用于评价函数和损失函数上,激发网络学到更精确的特征表示,从而恢复出更真实的图像纹理。
附图说明
图1为本发明的整体方案原理图;
图2为本发明实施例混合注意力的结构示意图;
图3为本发明与其他方法超分辨率重建上的效果对比图;
图4为本发明与其他方法的参数对比图;
图5为本发明与其他方法的用户评估图;
图6为本发明方法流程框图。
具体实施方式
以下结合附图对本发明的实施例作进一步详细描述。
本发明提出了基于混合注意力和双层监督的图像超分辨率重建方法,将参考图像上的高频信息迁移到LR图像上来实现高质量的图像重建,整体框架如图1所示,主要通过多尺度特征提取模块、混合注意力模块以及编码重建模块三个部分实现。
参见图6,具体的,本发明方法包括:
步骤1:收集高分辨率的标签图像HR和参考图像Ref并对其进行下采样,得到对应的低分辨率图像LR和Ref↓,对HR、Ref、LR和Ref↓进行数据增强后构建得到数据集;
本发明的HR,LR,Ref,Ref↓,SR分别为高分辨率图像,低分辨率图像,高分辨率参考图像,4×双三次下采样参考图像,最终生成的超分辨率重建图像;
与之前方法不同,本发明还利用HR图像的信息监督本发明的模型学习;
步骤2:多尺度特征提取模块通过编码器网络对数据集的图像进行多尺度特征提取,HR和Ref均获得三种不同的缩放特征,分别记为FHR和FRef,LR和Ref↓分别得到FLR和FRef↓
多尺度特征提取通过编码器网络实现,所述编码器网络包含三个构建块,图像依次通过所述三个构建块可以提取三种不同尺度的特征。HR和Ref提取三种尺度的特征,而LR和Ref↓只经过第一个构建块提取特征。
实施例中,所述编码器网络包含三个构建块,可以提取三个分辨率尺度(1×,2×,4×)的特征。HR和Ref通过编码器网络获得三种不同的缩放特征,而LR和Ref↓只经过编码器网络的第一个块来产生特征FLR和FRef↓
混合注意力模块由两部分组成:一个是实现空间位置注意的特征选择模块,另一个是实现通道注意的特征自适应模块。
步骤3:特征选择模块利用transformer注意力从Ref图像特征中获得对应特征;
特征选择模块可以建立FRef↓和FLR的对应匹配,并通过该对应关系在FRef中搜索可用的纹理特征。
步骤4:特征自适应模块利用通道注意力对所述对应特征进行自适应优化处理;
特征自适应模块可以进一步优化前一部分中搜索的特征,以获得最终的迁移特征
Figure BDA0003636273480000061
步骤5:编码重构模块将迁移特征与LR图像特征通过解码器网络融合,实现高质量的图像重建,并采用双层监督信号更新网络参数最小化损失。
解码重构模块主要通过解码网络实现,该解码网络包含一些卷积层、残差块和上采样层,可以跨分辨率和尺度融合FLR
Figure BDA0003636273480000062
最后,将融合后的特征Ffusion补偿到LR中,得到最终的超分辨率图像。
此外,为了获得更准确的特征表示,本发明施加了两个层面的监控信号:在中间特征层面,本发明限制融合特征和HR特征之间的距离,以期望与HR图像类似的分布;在最终图像层面,本发明用三种损失来限制SR图像和HR图像之间的距离。
图2显示了步骤3、4的具体流程。
步骤3的特征选择包含如下三个阶段:
步骤3-1:Relevance Embedding,相关性嵌入:是通过估计FLR和FRef之间的相似性来嵌入LR和Ref图像之间的相关性。
在该阶段,需要计算出LR图像每个位置与Ref图像所有位置的相关性,以便于寻找LR图像中每个位置迁移信息的来源,由于Ref图像与LR图像存在分辨率差距,本发明用Ref图像的4×双三次下采样后的Ref↓图代替Ref图进行相关性计算:
首先特征FLR和FRef↓被展开成许多个patches,记为qi(i∈[1,HLR×WLR])和kj(j∈[1,HRef×WRef]),每个位置对应一个patch。然后对于FLR中的每个patch qi,通过归一化内积计算它和FRef↓中所有patch kj的相关性:
Figure BDA0003636273480000071
其中ri,j代表LR图像中第i个位置和Ref图像中第j个位置的相关性;
步骤3-2:得到的相关性后进一步计算,得到硬注意力图H和软注意力图S。
Hard-Attention,硬注意力:是通过LR和Ref图像的相关性从Ref中选择要迁移的特征。
具体来说,首先计算一个硬注意力图H,其中第i个元素hi(i∈[1,HLR×WLR])是由相关性ri,j计算出来的:
Figure BDA0003636273480000072
其中,hi的值可以看作是一个索引,它表示Ref图像中与LR图像中第i个位置最相关的位置。
然后利用得到的硬注意力图H,对FRef的展开面片V做索引选择操作:
Figure BDA0003636273480000073
ti表示T在第i个图像块的值,该值是从FRef第hi个位置选择的。最后将所有的ti(i∈[1,HLR×WLR])聚合得到特征匹配后的HR特征T。V是参考图像特征FRef的展开,同FLR和FRef↓的展开一样。
Soft-Attention,软注意力:
为了避免T中每个位置的信息被同等对待,进一步利用qi和kj的相关性ri,j,对特征T的不同位置施加不同的注意力权重。具体来说,首先计算一个软注意力图S,其中第i个元素si(i∈[1,HLR×WLR])通过相关性ri,j计算得到:
Figure BDA0003636273480000081
其中si表示特征T在第i个位置的注意力权重。
步骤3-3:将得到的软注意力图S作用在特征T上得到用于迁移的特征F:
F=T⊙S
其中运算符⊙表示特征映射之间的逐元素乘法。
为了节省GPU的空间,减少计算量,相关性嵌入只应用于最小尺度的特征,并进一步传播到其他尺度。
由于参考图像特征每个通道的信息对于LR的作用是不一样的,如果不加考虑,同等地对待这些通道的信息,会影响网络的收敛和最后的效果,因此需要进一步特征筛选。
本发明步骤4提出特征自适应模块,并通过自适应学习来缩放每个通道的特征达到增强重要特征和削弱噪声的效果。在整个过程中,如何为每个通道产生不同的关注是一个关键步骤。
具体操作如下:
对于大小为C×H×W的特征x,首先利用平均池化和最大池化操作聚合特征映射的空间信息,生成两种不同的通道描述符zavg和zmax,其中第c个元素由第c个通道的所有元素计算得到:
Figure BDA0003636273480000082
Figure BDA0003636273480000083
其中xc(i,j)为第c个通道特征在(i,j)处的值,HAP(·)为全局平均池化函数,HMP(·)为全局最大池化函数。然后这两种通道描述符会通过一个共享网络来自适应地学习权重:
s=σ(MLP(zavg+zmax))=σ(WUδ(WD(zavg+zmax)))
s=σ(MLP(zavg)+MLP(zmax))
=σ(WUδ(WDzavg)+WUδ(WDzmax))
其中s表示特征x的权重向量,σ(·)和δ(·)分别表示Sigmoid函数和ReLU函数,WD是这个共享网络第一层的权重,WU是这个共享网络第二层的权重。首先,两种通道描述符以减小比例r降低通道数,被ReLU激活后,再由共享网络第二层以放大比例r将通道数增大到原来的大小,最后经过Sigmoid函数将每一层的通道权重映射到0,1之间。通过这种将通道维度先降维后升维的方式,减少了网络的参数量,同时通过ReLU和Sigmoid两次激活函数可以更好地学习通道描述符和通道权重的非线性关系。接着将得到的各通道权重进一步作用在输入的特征映射x上实现对每个通道施加不同的关注:
yc=sc·xc
其中sc是第c个通道的权重,xc是第c个通道特征,yc是x的第c个通道特征经过通道维度的放缩得到的新特征。
通过上述的操作对步骤4得到的特征F实现通道维度的特征筛选,进而得到优化处理后的迁移特征
Figure BDA0003636273480000091
因此,特征F经过特征自适应模块实现通道维度特征筛选的过程可以描述为:
Figure BDA0003636273480000092
其中
Figure BDA0003636273480000093
是最终的迁移特征,W1和W2是残差块的两个卷积层的权重,CAM表示上述的通道注意力操作。
进一步的,在步骤5中,将最终的迁移特征与LR图像特征融合实现最后的超分辨重建,融合先应用于最小尺度,并逐次向上传播到其他尺度。
由于基于参考的图像超分辨率模型具有比一般的模型更复杂的网络结构,只利用最终的图像层的监督信号来进行优化学习,导致梯度难以传播,这为网络的训练带来了一定的困难。
本发明提出了一种双层监督学习策略来获取更精确的特征表示。具体来说,在中间特征层,本发明采用了额外的三重监督损失
Figure BDA0003636273480000094
来最小化HR图像的特征
Figure BDA0003636273480000095
和融合特征Ffusion的距离:
Figure BDA0003636273480000096
其中IHR表示真实图像,
Figure BDA0003636273480000097
表示编码器的第n层,
Figure BDA0003636273480000098
表示HR图像的特征,Ffusion表示LR特征与迁移特征
Figure BDA0003636273480000099
的融合特征;
所述的三重监督表示HR图像的特征融合特征的三个尺度4x、2x、1x;
在最终图像层,本发明采用以下三种损失来监督:
Reconstruction loss。
第一个损失是重建损失,用于衡量HR图像与SR图像在像素空间上的差距:
Figure BDA0003636273480000101
其中IHR表示真实图像,ISR表示超分辨率重建图像。
Perceptual loss。
第二个损失是感知损失,感知损失已被证明有助于改善视觉质量,并已在SRGAN中得到应用。它的核心思想是增强预测图像与目标图像在特征空间上的相似性:
Figure BDA0003636273480000102
其中
Figure BDA0003636273480000103
为VGG网络的第i层的特征图,本文使用的是网络的conv5_4层,即VGG网络中最后一个卷积层。
Adversarial loss。
最后一个损失是对抗损失,生成对抗网络在RankSRGAN被证明能够有效地生成清晰且视觉上有利的图像,它的核心思想是利用生成模型G和判别模型D的互相博弈学习来产生较好的输出:
Figure BDA0003636273480000104
Figure BDA0003636273480000105
最后,综合中间特征层和图像层两个层面的监督信号来学习更强大的特征表示:
Figure BDA0003636273480000106
Figure BDA0003636273480000107
表示总损失,
Figure BDA0003636273480000108
表示监督损失,
Figure BDA0003636273480000109
表示重建损失,
Figure BDA00036362734800001010
表示感知损失,
Figure BDA00036362734800001011
表示生成对抗损失,λsupλrecλperλadv分别表示各损失权重。
具体实施例:
在实验中主要使用CUFED5作为训练集,它由11871对训练图像组合而成,每对图像包含一幅原始HR图像和一幅160×160分辨率的参考图像。
为了和其他SR模型进行比较,本发明和大多数方法一样选择对原始HR图像的4倍因子的双三次下采样操作得到LR图像,同时为了增强模型的鲁棒性,在训练时对训练集采用水平和垂直随机翻转以及随机旋转90°,180°和270°等数据增强操作。
在测试阶段,为了验证模型的泛化能力,本发明选取CUFED5测试集、Urban100和Manga109这三个公开的基准数据集进行测试。
CUFED5测试集中共有126幅测试图像,每幅图像对应4幅相似度不同的参考图像,Urban100包含100张没有参考的建筑图像,每幅图像以LR图像本身作为参考,以便网络探索输入图像的自相似性,对于同样缺乏参考图像的Manga109,它的数据集都是由简单线条和平坦的彩色区域所构成,所以随机取样数据集中的一张HR图像作为参考图像。
在训练过程中,选择Adam作为训练优化算法,参数β1和β2分别设置为0.9和0.999,初始学习率设置为10-4,并使用余弦退火策略改变学习率,学习率每500个epochs降低到10-6。权重系数λsupλrecλperλadv分别设置为0.5,1,1和0.005
为了评估本发明的有效性,将本发明与其它先进的SISR和RefSR方法进行了比较。SISR方法包括SRCNN、MDSR、RDN、RCAN、SRGAN、ENet、ESRGAN、RSRGAN,RefSR方法包括SRNTT、TTSR、MASA,所有的方法都在CUFED5训练集上进行训练,并在Urban100、Manga109和CUFED5测试集上进行测试。
表1
Method CUFED5 Urban100 Manga109
SRCNN 25.33/0.745 24.41/0.738 27.12/0.850
MDSR 25.93/0.777 25.51/0.783 28.93/0.891
RDN 25.95/0.769 25.38/0.768 29.24/0.894
RCAN 26.06/0.769 25.42/0.768 29.38/0.895
SRGAN 24.40/0.702 24.07/0.729 25.12/0.802
ENet 24.24/0.695 23.63/0.711 25.25/0.802
ESRGAN 21.90/0.633 20.91/0.620 23.53/0.797
RSRGAN 22.31/0.635 21.47/0.624 25.04/0.803
SRNTT 25.61/0.764 25.09/0.774 27.54/0.862
SRNTT-rec 26.24/0.784 25.50/0.783 28.95/0.885
TTSR 25.53/0.765 24.62/0.747 28.70/0.886
TTSR-rec 27.09/0.804 25.87/0.784 30.09/0.907
MASA 24.92/0.729 23.78/0.712 27.23/0.845
MASA-rec 27.54/0.814 26.09/0.786 30.18/0.908
Ours 25.61/0.758 24.55/0.733 28.25/0.859
Ours-rec 27.63/0.820 26.20/0.790 30.55/0.912
如表1所示,本发明在所有三个测试集上都优于最先进的方法.同时本发明还进一步展示了本发明与其它方法在网络参数方面的比较,如图3所示,在CUFED5数据集上以比例因子4×进行评估,其中红点代表本发明的方法。在参数小于5000K的网络中,本发明的方法可以获得最佳的SR结果。这表明本发明可以很好地平衡参数数量和重建性能。
为了更直观的感受视觉重建的效果,本发明还与其他主流模型ESRGAN、RSRGAN、TTSR、MASA等进行比较,图4展示了几种方法在人脸、建筑物以及数字、字母的重建效果上的比较。如图4中右上角的示例所示,本发明几乎成功地恢复了确切的单词,而其他Ref方法则产生比较严重的伪影或模糊的效果,这可能因为本发明中的注意力模式对参考图像信息的有效利用。
此外,图4中其它示例也显示出本发明恢复的图像在视觉质量方面优于其他方法。
在表2中研究了LR和Ref图像之间的相关性对结果的影响,在CUFED5测试集上进行了实验,该测试集有四种不同相关性等级的参考图像。其中L1与L4代表CUFED5测试集提供的参考图像,L1是最相关级别,L4是最不相关级别。LR指使用输入图像本身作为参考图像。从表2中可以看出,无论哪种参考图像的相关级别,本发明都取得最优的效果,其中以L1作为参考图像的性能最好。
表2
Level SRNTT-rec TTSR-rec MASA-rec Ours-rec
L1 26.15/0.781 26.99/0.800 27.35/0.814 27.49/0.819
L2 26.04/0.776 26.74/0.791 26.91/0.795 26.97/0.799
L3 25.98/0.775 26.64/0.788 26.82/0.793 26.86/0.795
L4 25.95/0.774 26.58/0.787 26.74/0.790 26.78/0.791
LR 25.91/0.776 26.43/0.782 26.59/0.784 26.63/0.790
为了避免对实验结果的主观性判断,实验还进行了一项用户研究,进一步从定性的角度上证明本发明方法的优越性。共有10名用户被要求比较本发明方法和最新技术,包括ESRGAN、RSRGAN、TTSR和MASA在CUFED5数据集的视觉质量。本发明向他们展示两张图像,其中一幅是本发明方法的结果,并要求用户选择一幅提供更好视觉质量的图像。如图5所示,超过80%的用户认为本发明的方法的结果优于现有技术。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (7)

1.基于混合注意力和双层监督的图像超分辨率重建方法,其特征在于,包括:
步骤1:获取高分辨率的标签图像HR和参考图像Ref并对其进行下采样,得到对应的低分辨率图像LR和Ref↓,对HR、Ref、LR和Ref↓进行数据增强后构建得到数据集;
步骤2:多尺度特征提取模块通过编码器网络对数据集的图像进行多尺度特征提取,HR和Ref均获得三种不同的缩放特征,分别记为FHR和FRef,LR和Ref↓分别得到FLR和FRef↓
步骤3:特征选择模块利用transformer注意力,基于LR和Ref的相关性从FRef中获得对应特征F;
步骤4:特征自适应模块利用通道注意力对F进行自适应优化处理,得到优化处理后的迁移特征
Figure FDA0003636273470000011
步骤5:编码重构模块将
Figure FDA0003636273470000012
与FLR通过解码器网络融合得到融合特征Ffusion,将融合后的特征Ffusion补偿到LR中,得到最终的超分辨率图像SR,实现高质量的图像重建,并采用双层监督信号更新网络参数以最小化损失。
2.根据权利要求1所述的基于混合注意力和双层监督的图像超分辨率重建方法,其特征在于,所述步骤1对HR、Ref、LR和Ref↓采用水平或垂直翻转,再随机旋转90°,180°和270°的操作进行增强数据。
3.根据权利要求1所述的基于混合注意力和双层监督的图像超分辨率重建方法,其特征在于,步骤2所述编码器网络包含三个构建块,以提取1×,2×,4×三个分辨率尺度的特征;
通过编码器网络的三个构建块对HR和Ref进行多尺度特征提取,得到相应的三种不同的缩放特征;
通过编码器网络的第一个构建块对LR和Ref↓进行特征提取,得到特征FLR和FRef↓
4.根据权利要求1所述的基于混合注意力和双层监督的图像超分辨率重建方法,其特征在于,步骤3所述特征选择模块,先嵌入LR和Ref的相关性,再利用相关性从FRef中提取用于补偿低分辨率图像恢复的信息,作为Ref上对应的要迁移的特征,具体流程如下:
步骤3-1:估计LR特征FLR和Ref↓特征FRef↓之间的相似性来嵌入LR和Ref图像之间的相关性:
将FLR和FRef↓展开成一个个3×3的小块分别记为qi(i∈[1,HLR×WLR])和kj(j∈[1,HRef×WRef]),并通过归一化内积的方式计算小块之间的相关性:
Figure FDA0003636273470000021
ri,j代表LR中第i个位置和Ref中第j个位置的相关性;
步骤3-2:得到的相关性后进一步计算,得到硬注意力图H和软注意力图S:
首先计算一个硬注意力图H,其中第i个元素hi(i∈[1,HLR×WLR])是由相关性ri,j计算出来的:
Figure FDA0003636273470000022
其中,hi的值可以看作是一个索引,表示Ref图像中与LR图像中第i个位置最相关的位置;
然后利用得到的硬注意力图H,对FRef的展开面片V做索引选择操作:
Figure FDA0003636273470000023
ti表示T在第i个图像块的值,该值是从FRef第hi个位置选择的;
最后将所有的ti(i∈[1,HLR×WLR])聚合得到特征匹配后的HR特征T;
为了避免T中每个位置的信息被同等对待,进一步利用qi和kj的相关性ri,j,对特征T的不同位置施加不同的注意力权重,具体的:
首先计算一个软注意力图S,其中第i个元素si(i∈[1,HLR×WLR])通过相关性ri,j计算得到:
Figure FDA0003636273470000024
其中si表示特征T在第i个位置的注意力权重;
步骤3-3:将得到的软注意力图S作用在特征T上得到用于迁移的特征F:
F=T⊙S
其中,运算符⊙表示特征映射之间的逐元素乘法,特征F表示Ref上对应的要迁移的特征。
5.根据权利要求1所述的基于混合注意力和双层监督的图像超分辨率重建方法,其特征在于,步骤4所述特征自适应模块,利用残差结构将通道注意力作用于特征F上,自适应地对特征的每个通道施加不同的关注,得到优化处理后的迁移特征
Figure FDA0003636273470000025
所述通道注意力采用平均池化和最大池化两种通道描述符来聚合特征映射的空间信息,并用一个共享网络将通道描述符以先降维再升维的方式映射为通道权重值。
6.根据权利要求5所述的基于混合注意力和双层监督的图像超分辨率重建方法,其特征在于,所述步骤4中,自适应地对特征的每个通道施加不同的关注,是指通过学习通道间的相互依赖性来自适应缩放通道特征,具体的:
对于大小为C×H×W的特征映射x,首先利用利用平均池化和最大池化操作聚合特征映射的空间信息,生成表示每个通道的通道描述符zavg和zmax,其中第c个元素由该通道的所有元素计算得到:
Figure FDA0003636273470000031
Figure FDA0003636273470000032
其中,xc(i,j)为第c个通道特征在(i,j)处的值,HAP(·)为全局平均池化函数,HMP(·)为全局最大池化函数;
接着通道描述符zavg和zmax通过一个共享网络来自适应地学习权重:
s=σ(MLP(zavg+zmax))=σ(WUδ(WD(zavg+zmax)))
其中,σ(·)和δ(·)分别表示Sigmoid函数和ReLU函数;
WD是激活网络第一层的权重,WU是激活网络第二层的权重;
通道描述符以减小比例r降低通道数,被ReLU激活后,再由信道升尺度层以比例r增加,最后经过Sigmoid函数将每一层的通道权重映射到0,1之间;
得到的各通道权重进一步作用在输入的特征映射x上实现对每个通道产生不同的关注:yc=sc·xc
其中,sc是第c个通道的权重,xc是第c个通道特征;
通过上述的操作对步骤4得到的特征实现通道维度的特征筛选,进而得到优化处理后的迁移特征
Figure FDA0003636273470000034
7.根据权利要求1所述的基于混合注意力和双层监督的图像超分辨率重建方法,其特征在于,所述步骤5双层监督信号更新网络参数:
在中间特征层,采用额外的三重监督损失
Figure FDA0003636273470000033
来最小化HR图像的特征和融合特征的距离:
Figure FDA0003636273470000041
其中IHR表示真实图像,
Figure FDA0003636273470000042
表示编码器的第n层,
Figure FDA0003636273470000043
表示HR图像的特征,Ffusion表示LR特征与迁移特征
Figure FDA0003636273470000044
的融合特征;
在最终图像层,采用重建损失、感知损失和生成对抗损失三种损失来监督限制HR和最后的超分辨率重建图像SR在像素空间、特征空间中的距离,以期望恢复出更真实的纹理;
最终中间特征层和图像层两个层面的监督信号来学习更强大的特征。
CN202210503215.XA 2022-05-10 2022-05-10 基于混合注意力和双层监督的图像超分辨率重建方法 Pending CN114897694A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210503215.XA CN114897694A (zh) 2022-05-10 2022-05-10 基于混合注意力和双层监督的图像超分辨率重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210503215.XA CN114897694A (zh) 2022-05-10 2022-05-10 基于混合注意力和双层监督的图像超分辨率重建方法

Publications (1)

Publication Number Publication Date
CN114897694A true CN114897694A (zh) 2022-08-12

Family

ID=82721947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210503215.XA Pending CN114897694A (zh) 2022-05-10 2022-05-10 基于混合注意力和双层监督的图像超分辨率重建方法

Country Status (1)

Country Link
CN (1) CN114897694A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115358927A (zh) * 2022-08-22 2022-11-18 重庆理工大学 一种结合空间自适应和纹理转换的图像超分辨重建方法
CN116630386A (zh) * 2023-06-12 2023-08-22 新疆生产建设兵团医院 Cta扫描图像处理方法及其系统
CN116805284A (zh) * 2023-08-28 2023-09-26 之江实验室 基于特征迁移的三维磁共振平面间超分辨重建方法和系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115358927A (zh) * 2022-08-22 2022-11-18 重庆理工大学 一种结合空间自适应和纹理转换的图像超分辨重建方法
CN115358927B (zh) * 2022-08-22 2023-12-26 重庆理工大学 一种结合空间自适应和纹理转换的图像超分辨重建方法
CN116630386A (zh) * 2023-06-12 2023-08-22 新疆生产建设兵团医院 Cta扫描图像处理方法及其系统
CN116630386B (zh) * 2023-06-12 2024-02-20 新疆生产建设兵团医院 Cta扫描图像处理方法及其系统
CN116805284A (zh) * 2023-08-28 2023-09-26 之江实验室 基于特征迁移的三维磁共振平面间超分辨重建方法和系统
CN116805284B (zh) * 2023-08-28 2023-12-19 之江实验室 基于特征迁移的三维磁共振平面间超分辨重建方法和系统

Similar Documents

Publication Publication Date Title
CN106683067B (zh) 一种基于残差子图像的深度学习超分辨率重建方法
CN108510485B (zh) 一种基于卷积神经网络的无参照图像质量评估方法
CN110827213B (zh) 一种基于生成式对抗网络的超分辨率图像修复方法
CN108830796B (zh) 基于谱空结合和梯度域损失的高光谱图像超分辨重构方法
CN114897694A (zh) 基于混合注意力和双层监督的图像超分辨率重建方法
CN109035142B (zh) 一种对抗网络结合航拍图像先验的卫星图像超分辨方法
CN110599401A (zh) 遥感图像超分辨率重建方法、处理装置及可读存储介质
CN111784602A (zh) 一种生成对抗网络用于图像修复的方法
CN110070091B (zh) 用于街景理解的基于动态插值重建的语义分割方法及系统
CN111968053A (zh) 基于门控卷积生成对抗网络的图像修复方法
WO2021022929A1 (zh) 一种单帧图像超分辨率重建方法
CN108932536A (zh) 基于深度神经网络的人脸姿态重建方法
Yang et al. Image super-resolution based on deep neural network of multiple attention mechanism
CN110503614A (zh) 一种基于稀疏字典学习的磁共振图像去噪方法
CN111080591A (zh) 基于编码解码结构结合残差模块的医学图像分割方法
CN113256494B (zh) 一种文本图像超分辨率方法
CN115565056A (zh) 基于条件生成对抗网络的水下图像增强方法及系统
CN112801914A (zh) 一种基于纹理结构感知的二段式图像修复方法
CN113538246A (zh) 基于无监督多阶段融合网络的遥感图像超分辨率重建方法
CN116739899A (zh) 基于saugan网络的图像超分辨率重建方法
CN116740121A (zh) 一种基于专用神经网络和图像预处理的秸秆图像分割方法
CN117115563A (zh) 基于区域语义感知的遥感土地覆盖分类方法及系统
CN111986079A (zh) 基于生成对抗网络路面裂缝图像超分辨率重建方法及装置
CN115375537A (zh) 非线性感知多尺度的超分辨率图像生成系统及方法
CN114936977A (zh) 一种基于通道注意力和跨尺度特征融合的图像去模糊方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination