CN114897694A

CN114897694A - 基于混合注意力和双层监督的图像超分辨率重建方法

Info

Publication number: CN114897694A
Application number: CN202210503215.XA
Authority: CN
Inventors: 刘昕; 李静; 崔员宁; 都繁杰; 高丰; 王文亮; 羊麟威; 陈世伟; 时宽治; 钱李烽; 杨松林
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2022-08-12

Abstract

本发明公开了基于混合注意力和双层监督的图像超分辨率重建方法，包括获取高分辨率的标签图像和参考图像并对其进行下采样，构建得到数据集；对数据集的图像进行多尺度特征提取；利用transformer注意力从参考图像特征中获得对应特征；利用通道注意力对提取的对应特征自适应优化处理得到迁移特征；将迁移特征与低分辨率图像特征通过解码器网络融合实现高质量的图像重建，并采用双层监督信号更新网络参数最小化损失。本发明能够提高超分辨率重建的重建效果和视觉感受。

Description

基于混合注意力和双层监督的图像超分辨率重建方法

技术领域

本发明属于图像处理与计算机视觉技术领域，具体涉及基于混合注意力和双层监督的图像超分辨率重建方法。

背景技术

图像超分辨率(Super-Resolution，SR)是一项基本的计算机视觉任务，旨在从给定的低分辨率图像中恢复出自然的高频细节。图像超分辨率被广泛应用于一些对图像质量要求较高领域，如医学成像、卫星勘测、监视、安全等，除此之外它还有助于改善其他计算机视觉任务。通常图像超分辨率的研究分为两种：单图像超分辨率(SISR)和基于参考的图像超分辨率(Reference-based image super-resolution，RefSR)。其中，SISR主要通过LR-HR图像训练模型获取LR-HR的映射关系来恢复LR图像，但是由于LR和HR图像之间固有的信息缺失，这些经典的单一超分辨率方法往往难以克服恢复出的图像具有较大的视觉伪影和模糊效果的缺陷。

最近，RefSR在SR领域中取得一些成功，其额外引入一张高分辨率图像作为参考图像，通过传输参考图像的纹理特征为LR图像提供更精细的细节从而实现好的重建效果。传统的RefSR方法需要建立在参照图像与低分辨率图像有相似的内容或有良好的对齐的前提上进行特征传输，否则，当参考图片与低分辨图片差别较大时超分辨恢复的效果会严重下降。

现有的RefSR方法可以依靠隐式对应匹配发现LR图像和Ref间的深层特征对应从参考图像(Ref)中传输更准确的HR纹理，以补偿输入图像中的信息损失。然而，低分辨率输入图像和高分辨率参考图像之间的差异仍然影响Ref图像的有效利用，迁移特征中存在的一些噪声信息会在之后与低分辨率图像特征的融合中产生不好的效应，并影响到网络的收敛以及最终效果。因此充分利用Ref图像中的信息来提高SR性能是一个重要的挑战。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足，提供基于混合注意力和双层监督的图像超分辨率重建方法，可解决现有技术对Ref图像高频信息利用不充分的问题。

为实现上述技术目的，本发明采取的技术方案为：

基于混合注意力和双层监督的图像超分辨率重建方法，其特征在于，包括

步骤1：获取高分辨率的标签图像HR和参考图像Ref并对其进行下采样，得到对应的低分辨率图像LR和Ref↓，对HR、Ref、LR和Ref↓进行数据增强后构建得到数据集；

步骤2：多尺度特征提取模块通过编码器网络对数据集的图像进行多尺度特征提取，HR和Ref均获得三种不同的缩放特征，分别记为F_HR和F_Ref，LR和Ref↓分别得到F_LR和F_Ref↓；

步骤3：特征选择模块利用transformer注意力，基于LR和Ref的相关性从F_Ref中获得对应特征F；

步骤4：特征自适应模块利用通道注意力对F进行自适应优化处理，得到优化处理后的迁移特征

步骤5：编码重构模块将

与F_LR通过解码器网络融合得到融合特征F_fusion，将融合后的特征F_fusion补偿到LR中，得到最终的超分辨率图像SR，实现高质量的图像重建，并采用双层监督信号更新网络参数以最小化损失。

为优化上述技术方案，采取的具体措施还包括：

上述的步骤1对HR、Ref、LR和Ref↓采用水平或垂直翻转，再随机旋转90°，180°和270°的操作进行增强数据。

上述的步骤2所述编码器网络包含三个构建块，以提取1×，2×，4×三个分辨率尺度的特征；

通过编码器网络的三个构建块对HR和Ref进行多尺度特征提取，得到相应的三种不同的缩放特征；

通过编码器网络的第一个构建块对LR和Ref↓进行特征提取，得到特征F_LR和F_Ref↓。

上述的步骤3所述特征选择模块，先嵌入LR和Ref的相关性，再利用相关性从F_Ref中提取用于补偿低分辨率图像恢复的信息，作为Ref上对应的要迁移的特征，具体流程如下：

步骤3-1：估计LR特征F_LR和Ref↓特征F_Ref↓之间的相似性来嵌入LR和Ref图像之间的相关性：

将F_LR和F_Ref↓展开成一个个3×3的小块分别记为q_i(i∈[1,H_LR×W_LR])和k_j(j∈[1,H_Ref×W_Ref])，并通过归一化内积的方式计算小块之间的相关性：

r_i,j代表LR中第i个位置和Ref中第j个位置的相关性；

步骤3-2：得到的相关性后进一步计算，得到硬注意力图H和软注意力图S：

首先计算一个硬注意力图H，其中第i个元素h_i(i∈[1,H_LR×W_LR])是由相关性r_i,j计算出来的：

其中，h_i的值可以看作是一个索引，表示Ref图像中与LR图像中第i个位置最相关的位置；

然后利用得到的硬注意力图H，对F_Ref的展开面片V做索引选择操作：

t_i表示T在第i个图像块的值，该值是从F_Ref第h_i个位置选择的；

最后将所有的t_i(i∈[1,H_LR×W_LR])聚合得到特征匹配后的HR特征T；

为了避免T中每个位置的信息被同等对待，进一步利用q_i和k_j的相关性r_i,j，对特征T的不同位置施加不同的注意力权重，具体的：

首先计算一个软注意力图S,其中第i个元素s_i(i∈[1,H_LR×W_LR])通过相关性r_i,j计算得到：

其中s_i表示特征T在第i个位置的注意力权重；

步骤3-3：将得到的软注意力图S作用在特征T上得到用于迁移的特征F：

F＝T⊙S

其中，运算符⊙表示特征映射之间的逐元素乘法，特征F表示Ref上对应的要迁移的特征。

上述的步骤4所述特征自适应模块，利用残差结构将通道注意力作用于对应特征上，自适应地对特征的每个通道施加不同的关注，得到优化处理后的迁移特征

所述通道注意力采用平均池化和最大池化两种通道描述符来聚合特征映射的空间信息，并用一个共享网络将通道描述符以先降维再升维的方式映射为通道权重值。

上述的步骤4中，自适应地对特征的每个通道施加不同的关注，是指通过学习通道间的相互依赖性来自适应缩放通道特征，具体的：

对于大小为C×H×W的特征映射x，首先利用利用平均池化和最大池化操作聚合特征映射的空间信息，生成表示每个通道的通道描述符z_avg和z_max，其中第c个元素由该通道的所有元素计算得到：

其中，x_c(i,j)为第c个通道特征在(i,j)处的值，H_AP(·)为全局平均池化函数，H_MP(·)为全局最大池化函数；

接着通道描述符z_avg和z_max通过一个共享网络来自适应地学习权重：

s＝σ(MLP(z_avg+z_max))＝σ(W_Uδ(W_D(z_avg+z_max)))

其中，σ(·)和δ(·)分别表示Sigmoid函数和ReLU函数；

W_D是激活网络第一层的权重，W_U是激活网络第二层的权重；

通道描述符以减小比例r降低通道数，被ReLU激活后，再由信道升尺度层以比例r增加，最后经过Sigmoid函数将每一层的通道权重映射到0,1之间；

得到的各通道权重进一步作用在输入的特征映射x上实现对每个通道产生不同的关注：y_c＝s_c·x_c

其中，s_c是第c个通道的权重，x_c是第c个通道特征；

通过上述的操作对步骤4得到的特征实现通道维度的特征筛选，进而得到优化处理后的迁移特征

上述的步骤5双层监督信号更新网络参数：

在中间特征层，采用额外的三重监督损失

来最小化HR图像的特征和融合特征的距离：

其中I_HR表示真实图像，

表示编码器的第n层，

表示HR图像的特征，F_fusion表示LR特征与迁移特征

的融合特征；

在最终图像层，采用重建损失、感知损失和生成对抗损失三种损失来监督限制HR和最后的超分辨率重建图像SR在像素空间、特征空间中的距离，以期望恢复出更真实的纹理；

最终中间特征层和图像层两个层面的监督信号来学习更强大的特征。

本发明具有以下有益效果：

本发明获取高分辨率的标签图像和参考图像并对其进行下采样，构建得到数据集；对数据集的图像进行多尺度特征提取；利用transformer注意力从参考图像特征中获得对应特征；利用通道注意力对提取的对应特征自适应优化处理得到迁移特征；将迁移特征与低分辨率图像特征通过解码器网络融合实现高质量的图像重建，并采用双层监督信号更新网络参数最小化损失。能够提高超分辨率重建的重建效果和视觉感受。

1、本发明将transformer注意力与通道注意力结合来实现更充分地利用参考图像的信息：

首先通过第一阶段的注意力实现高质量的对应匹配，从参考图像中提取用于传输的高分辨率纹理特征，然后得到的纹理特征再经过第二阶段的注意力强化重要特征的学习并抑制噪声信息的传播，通过这种由粗到细的特征选择模式提升了对参考图像特征信息的利用；

2、本发明引入双层监督策略，量化HR图像的深层特征与融合特征在不同尺度上的相似度，将其作用于评价函数和损失函数上，激发网络学到更精确的特征表示，从而恢复出更真实的图像纹理。

附图说明

图1为本发明的整体方案原理图；

图2为本发明实施例混合注意力的结构示意图；

图3为本发明与其他方法超分辨率重建上的效果对比图；

图4为本发明与其他方法的参数对比图；

图5为本发明与其他方法的用户评估图；

图6为本发明方法流程框图。

具体实施方式

以下结合附图对本发明的实施例作进一步详细描述。

本发明提出了基于混合注意力和双层监督的图像超分辨率重建方法，将参考图像上的高频信息迁移到LR图像上来实现高质量的图像重建，整体框架如图1所示，主要通过多尺度特征提取模块、混合注意力模块以及编码重建模块三个部分实现。

参见图6，具体的，本发明方法包括：

步骤1：收集高分辨率的标签图像HR和参考图像Ref并对其进行下采样，得到对应的低分辨率图像LR和Ref↓，对HR、Ref、LR和Ref↓进行数据增强后构建得到数据集；

本发明的HR，LR，Ref，Ref↓，SR分别为高分辨率图像，低分辨率图像，高分辨率参考图像，4×双三次下采样参考图像，最终生成的超分辨率重建图像；

与之前方法不同，本发明还利用HR图像的信息监督本发明的模型学习；

多尺度特征提取通过编码器网络实现，所述编码器网络包含三个构建块，图像依次通过所述三个构建块可以提取三种不同尺度的特征。HR和Ref提取三种尺度的特征，而LR和Ref↓只经过第一个构建块提取特征。

实施例中，所述编码器网络包含三个构建块，可以提取三个分辨率尺度(1×，2×，4×)的特征。HR和Ref通过编码器网络获得三种不同的缩放特征，而LR和Ref↓只经过编码器网络的第一个块来产生特征F_LR和F_Ref↓。

混合注意力模块由两部分组成：一个是实现空间位置注意的特征选择模块，另一个是实现通道注意的特征自适应模块。

步骤3：特征选择模块利用transformer注意力从Ref图像特征中获得对应特征；

特征选择模块可以建立F_Ref↓和F_LR的对应匹配，并通过该对应关系在F_Ref中搜索可用的纹理特征。

步骤4：特征自适应模块利用通道注意力对所述对应特征进行自适应优化处理；

特征自适应模块可以进一步优化前一部分中搜索的特征，以获得最终的迁移特征

步骤5：编码重构模块将迁移特征与LR图像特征通过解码器网络融合，实现高质量的图像重建，并采用双层监督信号更新网络参数最小化损失。

解码重构模块主要通过解码网络实现，该解码网络包含一些卷积层、残差块和上采样层，可以跨分辨率和尺度融合F_LR和

最后，将融合后的特征F_fusion补偿到LR中，得到最终的超分辨率图像。

此外，为了获得更准确的特征表示，本发明施加了两个层面的监控信号：在中间特征层面，本发明限制融合特征和HR特征之间的距离，以期望与HR图像类似的分布；在最终图像层面，本发明用三种损失来限制SR图像和HR图像之间的距离。

图2显示了步骤3、4的具体流程。

步骤3的特征选择包含如下三个阶段:

步骤3-1:Relevance Embedding，相关性嵌入：是通过估计F_LR和F_Ref之间的相似性来嵌入LR和Ref图像之间的相关性。

在该阶段，需要计算出LR图像每个位置与Ref图像所有位置的相关性，以便于寻找LR图像中每个位置迁移信息的来源，由于Ref图像与LR图像存在分辨率差距，本发明用Ref图像的4×双三次下采样后的Ref↓图代替Ref图进行相关性计算：

首先特征F_LR和F_Ref↓被展开成许多个patches，记为q_i(i∈[1,H_LR×W_LR])和k_j(j∈[1,H_Ref×W_Ref])，每个位置对应一个patch。然后对于F_LR中的每个patch q_i，通过归一化内积计算它和F_Ref↓中所有patch k_j的相关性:

其中r_i,j代表LR图像中第i个位置和Ref图像中第j个位置的相关性；

步骤3-2：得到的相关性后进一步计算，得到硬注意力图H和软注意力图S。

Hard-Attention，硬注意力：是通过LR和Ref图像的相关性从Ref中选择要迁移的特征。

具体来说，首先计算一个硬注意力图H，其中第i个元素h_i(i∈[1,H_LR×W_LR])是由相关性r_i,_j计算出来的：

其中，h_i的值可以看作是一个索引，它表示Ref图像中与LR图像中第i个位置最相关的位置。

t_i表示T在第i个图像块的值，该值是从F_Ref第h_i个位置选择的。最后将所有的t_i(i∈[1,H_LR×W_LR])聚合得到特征匹配后的HR特征T。V是参考图像特征F_Ref的展开，同F_LR和F_Ref↓的展开一样。

Soft-Attention，软注意力：

为了避免T中每个位置的信息被同等对待，进一步利用q_i和k_j的相关性r_i,j，对特征T的不同位置施加不同的注意力权重。具体来说，首先计算一个软注意力图S,其中第i个元素s_i(i∈[1,H_LR×W_LR])通过相关性r_i,j计算得到：

其中s_i表示特征T在第i个位置的注意力权重。

F＝T⊙S

其中运算符⊙表示特征映射之间的逐元素乘法。

为了节省GPU的空间，减少计算量，相关性嵌入只应用于最小尺度的特征，并进一步传播到其他尺度。

由于参考图像特征每个通道的信息对于LR的作用是不一样的，如果不加考虑，同等地对待这些通道的信息，会影响网络的收敛和最后的效果，因此需要进一步特征筛选。

本发明步骤4提出特征自适应模块，并通过自适应学习来缩放每个通道的特征达到增强重要特征和削弱噪声的效果。在整个过程中，如何为每个通道产生不同的关注是一个关键步骤。

具体操作如下：

对于大小为C×H×W的特征x，首先利用平均池化和最大池化操作聚合特征映射的空间信息，生成两种不同的通道描述符z_avg和z_max，其中第c个元素由第c个通道的所有元素计算得到：

其中x_c(i,j)为第c个通道特征在(i,j)处的值，H_AP(·)为全局平均池化函数，H_MP(·)为全局最大池化函数。然后这两种通道描述符会通过一个共享网络来自适应地学习权重：

s＝σ(MLP(z_avg+z_max))＝σ(W_Uδ(W_D(z_avg+z_max)))

s＝σ(MLP(z_avg)+MLP(z_max))

＝σ(W_Uδ(W_Dz_avg)+W_Uδ(W_Dz_max))

其中s表示特征x的权重向量，σ(·)和δ(·)分别表示Sigmoid函数和ReLU函数，W_D是这个共享网络第一层的权重，W_U是这个共享网络第二层的权重。首先，两种通道描述符以减小比例r降低通道数，被ReLU激活后，再由共享网络第二层以放大比例r将通道数增大到原来的大小，最后经过Sigmoid函数将每一层的通道权重映射到0,1之间。通过这种将通道维度先降维后升维的方式，减少了网络的参数量，同时通过ReLU和Sigmoid两次激活函数可以更好地学习通道描述符和通道权重的非线性关系。接着将得到的各通道权重进一步作用在输入的特征映射x上实现对每个通道施加不同的关注：

y_c＝s_c·x_c

其中s_c是第c个通道的权重，x_c是第c个通道特征，y_c是x的第c个通道特征经过通道维度的放缩得到的新特征。

通过上述的操作对步骤4得到的特征F实现通道维度的特征筛选，进而得到优化处理后的迁移特征

因此，特征F经过特征自适应模块实现通道维度特征筛选的过程可以描述为：

其中

是最终的迁移特征，W₁和W₂是残差块的两个卷积层的权重，CAM表示上述的通道注意力操作。

进一步的，在步骤5中，将最终的迁移特征与LR图像特征融合实现最后的超分辨重建，融合先应用于最小尺度，并逐次向上传播到其他尺度。

由于基于参考的图像超分辨率模型具有比一般的模型更复杂的网络结构，只利用最终的图像层的监督信号来进行优化学习，导致梯度难以传播，这为网络的训练带来了一定的困难。

本发明提出了一种双层监督学习策略来获取更精确的特征表示。具体来说，在中间特征层，本发明采用了额外的三重监督损失

来最小化HR图像的特征

和融合特征F_fusion的距离：

其中I_HR表示真实图像，

表示编码器的第n层，

表示HR图像的特征，F_fusion表示LR特征与迁移特征

的融合特征；

所述的三重监督表示HR图像的特征融合特征的三个尺度4x、2x、1x；

在最终图像层，本发明采用以下三种损失来监督：

Reconstruction loss。

第一个损失是重建损失，用于衡量HR图像与SR图像在像素空间上的差距：

其中I_HR表示真实图像，I_SR表示超分辨率重建图像。

Perceptual loss。

第二个损失是感知损失，感知损失已被证明有助于改善视觉质量，并已在SRGAN中得到应用。它的核心思想是增强预测图像与目标图像在特征空间上的相似性：

其中

为VGG网络的第i层的特征图，本文使用的是网络的conv5_4层，即VGG网络中最后一个卷积层。

Adversarial loss。

最后一个损失是对抗损失，生成对抗网络在RankSRGAN被证明能够有效地生成清晰且视觉上有利的图像，它的核心思想是利用生成模型G和判别模型D的互相博弈学习来产生较好的输出：

最后，综合中间特征层和图像层两个层面的监督信号来学习更强大的特征表示：

表示总损失，

表示监督损失，

表示重建损失，

表示感知损失，

表示生成对抗损失，λ_supλ_recλ_perλ_adv分别表示各损失权重。

具体实施例：

在实验中主要使用CUFED5作为训练集，它由11871对训练图像组合而成，每对图像包含一幅原始HR图像和一幅160×160分辨率的参考图像。

为了和其他SR模型进行比较，本发明和大多数方法一样选择对原始HR图像的4倍因子的双三次下采样操作得到LR图像，同时为了增强模型的鲁棒性，在训练时对训练集采用水平和垂直随机翻转以及随机旋转90°，180°和270°等数据增强操作。

在测试阶段，为了验证模型的泛化能力，本发明选取CUFED5测试集、Urban100和Manga109这三个公开的基准数据集进行测试。

CUFED5测试集中共有126幅测试图像，每幅图像对应4幅相似度不同的参考图像，Urban100包含100张没有参考的建筑图像，每幅图像以LR图像本身作为参考，以便网络探索输入图像的自相似性，对于同样缺乏参考图像的Manga109，它的数据集都是由简单线条和平坦的彩色区域所构成，所以随机取样数据集中的一张HR图像作为参考图像。

在训练过程中，选择Adam作为训练优化算法，参数β₁和β₂分别设置为0.9和0.999，初始学习率设置为10^-4，并使用余弦退火策略改变学习率，学习率每500个epochs降低到10^-6。权重系数λ_supλ_recλ_perλ_adv分别设置为0.5,1,1和0.005

为了评估本发明的有效性，将本发明与其它先进的SISR和RefSR方法进行了比较。SISR方法包括SRCNN、MDSR、RDN、RCAN、SRGAN、ENet、ESRGAN、RSRGAN，RefSR方法包括SRNTT、TTSR、MASA，所有的方法都在CUFED5训练集上进行训练，并在Urban100、Manga109和CUFED5测试集上进行测试。

表1

Method	CUFED5	Urban100	Manga109
				SRCNN	25.33/0.745	24.41/0.738	27.12/0.850
MDSR	25.93/0.777	25.51/0.783	28.93/0.891
				RDN	25.95/0.769	25.38/0.768	29.24/0.894
RCAN	26.06/0.769	25.42/0.768	29.38/0.895
				SRGAN	24.40/0.702	24.07/0.729	25.12/0.802
ENet	24.24/0.695	23.63/0.711	25.25/0.802
				ESRGAN	21.90/0.633	20.91/0.620	23.53/0.797
RSRGAN	22.31/0.635	21.47/0.624	25.04/0.803
				SRNTT	25.61/0.764	25.09/0.774	27.54/0.862
SRNTT-rec	26.24/0.784	25.50/0.783	28.95/0.885
				TTSR	25.53/0.765	24.62/0.747	28.70/0.886
TTSR-rec	27.09/0.804	25.87/0.784	30.09/0.907
				MASA	24.92/0.729	23.78/0.712	27.23/0.845
MASA-rec	27.54/0.814	26.09/0.786	30.18/0.908
				Ours	25.61/0.758	24.55/0.733	28.25/0.859
Ours-rec	27.63/0.820	26.20/0.790	30.55/0.912

如表1所示，本发明在所有三个测试集上都优于最先进的方法.同时本发明还进一步展示了本发明与其它方法在网络参数方面的比较，如图3所示，在CUFED5数据集上以比例因子4×进行评估，其中红点代表本发明的方法。在参数小于5000K的网络中，本发明的方法可以获得最佳的SR结果。这表明本发明可以很好地平衡参数数量和重建性能。

为了更直观的感受视觉重建的效果，本发明还与其他主流模型ESRGAN、RSRGAN、TTSR、MASA等进行比较，图4展示了几种方法在人脸、建筑物以及数字、字母的重建效果上的比较。如图4中右上角的示例所示，本发明几乎成功地恢复了确切的单词，而其他Ref方法则产生比较严重的伪影或模糊的效果，这可能因为本发明中的注意力模式对参考图像信息的有效利用。

此外，图4中其它示例也显示出本发明恢复的图像在视觉质量方面优于其他方法。

在表2中研究了LR和Ref图像之间的相关性对结果的影响，在CUFED5测试集上进行了实验，该测试集有四种不同相关性等级的参考图像。其中L1与L4代表CUFED5测试集提供的参考图像，L1是最相关级别，L4是最不相关级别。LR指使用输入图像本身作为参考图像。从表2中可以看出，无论哪种参考图像的相关级别，本发明都取得最优的效果，其中以L1作为参考图像的性能最好。

表2

Level	SRNTT-rec	TTSR-rec	MASA-rec	Ours-rec
					L1	26.15/0.781	26.99/0.800	27.35/0.814	27.49/0.819
L2	26.04/0.776	26.74/0.791	26.91/0.795	26.97/0.799
					L3	25.98/0.775	26.64/0.788	26.82/0.793	26.86/0.795
L4	25.95/0.774	26.58/0.787	26.74/0.790	26.78/0.791
					LR	25.91/0.776	26.43/0.782	26.59/0.784	26.63/0.790

为了避免对实验结果的主观性判断，实验还进行了一项用户研究，进一步从定性的角度上证明本发明方法的优越性。共有10名用户被要求比较本发明方法和最新技术，包括ESRGAN、RSRGAN、TTSR和MASA在CUFED5数据集的视觉质量。本发明向他们展示两张图像，其中一幅是本发明方法的结果，并要求用户选择一幅提供更好视觉质量的图像。如图5所示，超过80％的用户认为本发明的方法的结果优于现有技术。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.基于混合注意力和双层监督的图像超分辨率重建方法，其特征在于，包括：

步骤5：编码重构模块将

2.根据权利要求1所述的基于混合注意力和双层监督的图像超分辨率重建方法，其特征在于，所述步骤1对HR、Ref、LR和Ref↓采用水平或垂直翻转，再随机旋转90°，180°和270°的操作进行增强数据。

3.根据权利要求1所述的基于混合注意力和双层监督的图像超分辨率重建方法，其特征在于，步骤2所述编码器网络包含三个构建块，以提取1×，2×，4×三个分辨率尺度的特征；

4.根据权利要求1所述的基于混合注意力和双层监督的图像超分辨率重建方法，其特征在于，步骤3所述特征选择模块，先嵌入LR和Ref的相关性，再利用相关性从F_Ref中提取用于补偿低分辨率图像恢复的信息，作为Ref上对应的要迁移的特征，具体流程如下：

r_i,j代表LR中第i个位置和Ref中第j个位置的相关性；

其中s_i表示特征T在第i个位置的注意力权重；

F＝T⊙S

5.根据权利要求1所述的基于混合注意力和双层监督的图像超分辨率重建方法，其特征在于，步骤4所述特征自适应模块，利用残差结构将通道注意力作用于特征F上，自适应地对特征的每个通道施加不同的关注，得到优化处理后的迁移特征

6.根据权利要求5所述的基于混合注意力和双层监督的图像超分辨率重建方法，其特征在于，所述步骤4中，自适应地对特征的每个通道施加不同的关注，是指通过学习通道间的相互依赖性来自适应缩放通道特征，具体的：

s＝σ(MLP(z_avg+z_max))＝σ(W_Uδ(W_D(z_avg+z_max)))

其中，σ(·)和δ(·)分别表示Sigmoid函数和ReLU函数；

W_D是激活网络第一层的权重，W_U是激活网络第二层的权重；

其中，s_c是第c个通道的权重，x_c是第c个通道特征；

7.根据权利要求1所述的基于混合注意力和双层监督的图像超分辨率重建方法，其特征在于，所述步骤5双层监督信号更新网络参数：

在中间特征层，采用额外的三重监督损失

来最小化HR图像的特征和融合特征的距离：

其中I_HR表示真实图像，

表示编码器的第n层，

表示HR图像的特征，F_fusion表示LR特征与迁移特征

的融合特征；