CN112215755B

CN112215755B - 一种基于反投影注意力网络的图像超分辨率重建方法

Info

Publication number: CN112215755B
Application number: CN202011171763.4A
Authority: CN
Inventors: 陈晓; 孙超文
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing Xiaoyang Electronic Technology Co ltd
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2023-06-23
Anticipated expiration: 2040-10-28
Also published as: CN112215755A

Abstract

本发明公开了一种基于反投影注意力网络的图像超分辨率重建方法，包括以下步骤：(1)利用图像退化模型建立数据集；(2)构建多尺度特征融合反投影注意力网络，所述多尺度特征融合反投影注意力网络包括图像特征提取模块、图像特征映射模块、全局注意力模块和图像重建模块；(3)训练多尺度特征融合反投影注意力网络并调整参数；(4)将待重建的图像输入训练好的多尺度特征融合反投影注意力网络得到重建后的图像。本发明仅通过相对较小的训练集就可以获得超越其他先进方法的重建质量，极大节约了训练成本；且使得重建的图像具有更加清晰锐利的边缘特征，更接近真实HR图像。

Description

一种基于反投影注意力网络的图像超分辨率重建方法

技术领域

本发明属于计算机视觉领域和深度学习领域，具体涉及一种基于反投影注意力网络的图像超分辨率重建方法。

背景技术

图像超分辨率重建(Super-resolution,SR)技术是计算机视觉领域中一项重要的图像处理技术，广泛应用于医学成像、安全监控、改善遥感图像质量、图像压缩和目标检测领域。图像超分辨率重建旨在建立一个合适的模型将低分辨率(Low Resolution,LR)图像重建为高分辨率图像(High Resolution,HR)。由于一个给定的LR输入对应多个可能的HR图像，因此SR问题是一个具有挑战性的病态逆问题。

目前，提出的SR方法主要分为三大类，分别为基于插值的方法、基于重建的方法和基于学习的方法。其中，基于深度学习的SR方法以其优越的重建性能近年来受到广泛关注。SRCNN作为深度学习技术SR领域的开山之作，充分展示了卷积神经网络的优越性。因此很多网络以SRCNN架构为基准提出了一系列基于卷积神经网络的SR方法。深度作为一个重要因素可以为网络提供更大的感受野和更多的上下文信息，然而增加深度却极易引发两个问题：梯度消失/爆炸和大量的网络参数。

为了解决梯度问题，研究者提出残差学习，并成功训练了更深的网络，此外，也有一些网络引入密集连接来缓解梯度消失问题并鼓励特征重用；为了减少参数，研究者提出了递归学习来帮助权重共享。得益于这些机制，很多网络都倾向于构造更深更复杂的网络结构以获得更高的评价指标，然而经研究发现，目前很多网络都存在以下问题：

第一、很多SR方法虽然实现了深度网络的高性能，却忽略了网络的训练难度，导致需要花费庞大的训练集，投入更多的训练技巧和时间。

第二、大多数SR方法都以前馈的方式直接从LR输入中学习分层特征表示并映射到输出空间，这种单向映射依赖于LR图像中的有限特征。很多需要预处理操作的前馈网络只适应于单一的放大倍数，迁移到其他倍数需要繁琐的操作极度缺乏灵活性，并且在高倍放大上重建效果不佳。

第三、很多SR方法以单尺度卷积学习特征映射，无法从多个上下文尺度获取图像特征，这易导致图像特征利用不足并引发特征在传播过程中逐渐消失的问题，使得网络恢复高频细节的能力较弱，尤其是在高倍放大中。

发明内容

发明目的：本发明为了解决现有技术中存在的问题，提供一种基于反投影注意力网络的图像超分辨率重建方法，使得重建的图像具有更加清晰锐利的边缘特征，更接近真实HR图像。

技术方案：本发明所述的一种基于反投影注意力网络的图像超分辨率重建方法，包括以下步骤：

(1)利用图像退化模型建立数据集；

(2)构建多尺度特征融合反投影注意力网络，所述多尺度特征融合反投影注意力网络包括图像特征提取模块、图像特征映射模块、全局注意力模块和图像重建模块；

(3)训练多尺度特征融合反投影注意力网络并调整参数；

(4)将待重建的图像输入训练好的多尺度特征融合反投影注意力网络得到重建后的图像。

进一步地，所述步骤(1)实现给过程如下：

给定I_LR表示LR图像集，I_HR表示相应的HR图像集，将退化过程表示为：

I_LR＝D(I_HR；δ)

对从HR图像生成LR图像的退化映射建模，并将退化建模为单个下采样操作：

其中，↓_s表示放大倍数s进行下采样操作。

进一步地，所述步骤(2)包括以下步骤：

(21)图像特征提取：使用不同尺度的卷积核在三条支路中分别对输入图像I^LR进行卷积操作提取图像初始特征，然后级联初始特征图并设置1×1卷积层进行数据降维和多样化特征跨通道融合，得到浅层LR特征图L⁰：

其中，f_1×1、f_3×3和f_5×5分别表示conv(1，n₀)、conv(3，n₀)和conv(5，n₀)，n₀为初始特征提取阶段的通道数，f₀表示conv(1，n)，n是多尺度投影单元的输入通道数，f₀将总通道数3*n₀降为n；

(22)图像特征映射：将初始LR特征L⁰流入反馈模块产生HR特征图Hg：

其中，G表示多尺度投影组的数量即递归次数，

表示在第g次递归中多尺度投影组的特征映射过程；当g等于1，表示将初始特征图L⁰作为第一个多尺度投影组的输入，当g大于1，表示将由前一个多尺度投影组产生的LR特征图L^g-1作为当前输入；

(23)全局注意力模块：将所有特征映射阶段的输出结果H¹，H²，…，H^g进行特征级联得到特征图X＝[H¹，H²，…，H^g]，然后进行全局池化操作，逐通道进行分析Z∈R^c，Z的第c个元素可以定义为：

其中，H_c(i，j)代表在第c个特征图(i，j)处的特征值x_c，HGP(x)表示全局池化操作；全局池化得到z_c描述了第c个通道的特征图的全局信息，同时也将第c通道的特征信息映射为一个数值；利用门控函数计算每个通道特征应该分配多少注意力，门控函被定义：

其中，f(·)和δ(·)分别表示sigmoid门控单元和ReLU激活函数；W_D是卷积层的权重矩阵，卷积层将输入的特征图的维度进行下采样，采样比率为r，用ReLU函数激活；W_u表示上采样卷积层的权重矩阵，采样比率同样是r，同时该卷积层的激活函数使用sigmoid函数，从而得到注意力分配比率；被分配注意力资源的特征图通过下式计算得到：

H′＝s_c·H_c

其中，s_c和H_c分别表示第c通道的特征的注意力分配比率和第c通道的特征图，H′表示被分配注意力资源的特征图；

(24)利用插值算法对图像重建：将多个HR特征图的深度级联进行重建得到残差图像；

I^Res＝f_RM([H^1′，H^2′，…，H^g′])

其中，[H¹，H²，…，H^g]表示多个HR特征图的深度级联，f_RM表示重建模块的操作，I^Res为残差图像；将插值LR图像经计算后与重建的残差图像I^Res相加得到最终的重建图像I^SR：

I^SR＝I^Res+f_US(I^LR)

其中，f_uS表示插值上采样操作。

进一步地，步骤(3)所述的中训练多尺度特征融合反投影注意力网络的损失函数为：

其中，x为权值参数和偏置参数的集合，i表示整个训练过程中多次迭代训练的序列号。

进一步地，步骤(24)所述的插值算法为双线性插值算法或双三次插值算法

有益效果：与现有技术相比，本发明的有益效果：本发明设计了一种新颖的多尺度特征融合反投影注意力网络，这种模块化的端到端体系结构使得本文方法仅通过较小的参数调整就可以训练灵活地训练不同深度的网络以及任意扩展到其他放大倍数；通过相对较小的训练集就可以获得超越其他先进方法的重建质量，极大节约了训练成本；本发明可以成功执行8倍放大，并在多个基准测试集中均获得了出色的PSNR和SSIM结果；能够有效缓解基于CNN方法固有的振铃效应和棋盘伪影的影响，预测更多的高频细节并抑制平滑分量，使得重建的图像具有更加清晰锐利的边缘特征，更接近真实HR图像。

附图说明

图1为本发明的流程图；

图2为本发明构造的基于多尺度特征融合反投影注意力网络的结构图；

图3为多尺度上投影单元结构示意图；

图4为多尺度下投影单元的结构示意图；

图5为全局注意力机制单元结构示意图。

具体实施方式

下面结合附图以及具体实施例对本发明进行详细说明。

本发明提供一种基于反投影注意力网络的图像超分辨率重建方法，如图1所示，具体包括如下步骤：

步骤1，利用图像退化模型建立数据集。

I_LR＝D(I_HR；δ)

其中，↓_s表示放大倍数s进行下采样操作。

采用具有抗锯齿的双三次插值作为下采样操作，获取DIV2K中的800张训练图像作为训练集。选用Set5、Set14、Urban100、BSD100和Manga109作为标准测试集，并使用双三次插值算法分别进行2倍，3倍、4倍和8倍的下采样。

步骤2，构建多尺度特征融合反投影注意力网络，网络结构如图2所示。

(1)图像特征提取：

使用不同尺度的卷积核在三条支路中分别对输入图像I^LR进行卷积操作提取图像初始特征，然后级联初始特征图并设置1×1卷积层进行数据降维和多样化特征跨通道融合，得到浅层LR特征图L⁰：

其中，f_1×1、f_3×3和f_5×5分别表示conv(1，n₀)、conv(3，n₀)和conv(5，n₀)，n₀为初始特征提取阶段的通道数，f₀表示conv(l，n)，n是多尺度投影单元的输入通道数，f₀将总通道数3*n₀降为n。

(2)图像特征映射：

利用一个多尺度上投影单元和一个多尺度下投影单元构成一个多尺度投影组，实现将多尺度LR特征投影到HR空间再投影回LR空间。

多尺度上投影单元通过以下六个步骤将LR特征映射为HR特征，如图3所示：

1)将之前计算的LR特征图L^g-1作为输入，分别使用核大小不同的反卷积

和/>

在两条支路上执行上采样操作，得到两个HR特征图/>

和/>

和/>

分别表示Deconv1(k1，n)和Deconv2(k2，n)，k1和k2表示反卷积核的大小，n表示通道数。

2)将HR特征图

和/>

级联，分别使用核大小不同的卷积/>

和/>

在两条支路上执行下采样操作并生成两个LR特征图/>

和/>

和/>

分别表示Conv1(k1,2n)和Conv2(k2,2n)，每条支路的通道数由n变成2n。

3)将LR特征图

和/>

级联，使用1×1卷积进行特征池化和降维，/>

和/>

映射为一个LR特征图/>

实现了跨通道特征融合。

C_u表示Conv(1，n)，每条支路的通道数由2n变成n。并且，所有的1×1卷积在前一层的学习表示上添加了非线性激励，提升网络的表达能力。

4)计算输入的LR特征图L^g-1和重建的LR特征图

之间的残差/>

5)利用不同核大小的反卷积

和/>

分别对残差/>

进行上采样操作，LR空间中的残差被映射到HR空间中，从而生成新的HR残差特征/>

和/>

和/>

分别表示反卷积层Deconv1(k1，n)和Deconv2(k2,n)，每条支路的通道数依然为n。

6)将残差HR特征

和/>

串联，并与步骤2中串联的HR特征叠加，通过1×1卷积输出上投影单元最终的HR特征图Hg。

C_h表示Conv(l，n)，相加后总通道数为2n，通过Conv(1，n)将输出通道数降低为n，与输入通道数保持一致。多尺度投影单元的输入和输出都具有相同的通道数，这种独特的结构允许将多个多尺度投影单元相互交替连接。

多尺度下投影单元通过以下六个步骤将HR特征映射为LR特征，如图4所示：

1)将前面多尺度上投影单元输出的HR特征图Hg作为输入，分别使用核大小不同的卷积

和/>

在两条支路上执行下采样操作，得到两个LR特征图/>

和/>

和/>

分别表示Conv1(k1，n)和Conv2(k2，n)。

2)将LR特征图

和/>

级联，分别使用核大小不同的反卷积/>

和/>

在两条支路上执行上采样操作并生成两个HR特征图/>

和/>

和/>

分别表示Deconv1(k₁，2n)和Deconv2(k₂，2n)，每条支路的通道数由n变成2n。

3)将HR特征图

和/>

级联，并通过1×1卷积获得HR特征图/>

C_d表示Conv(1，n)，每条支路的通道数由2n变成n。

4)计算输入的HR特征图H^g和重建的HR特征图

之间的残差/>

5)利用不同核大小的卷积

和/>

分别对残差/>

进行下采样操作，HR空间中的残差被映射到LR空间中，从而生成新的LR残差特征/>

和/>

和/>

分别表示卷积层Conv1(k₁，n)和Conv2(k₂，n)，每条支路的通道数依然为n。

6)将残差LR特征

和/>

串联，并与步骤2中串联的LR特征叠加，通过1×1卷积输出下投影单元最终的LR特征图L^g：

C_l表示Conv(1，n)，相加后总通道数为2n，通过Conv(1，n)将输出通道数减少为n，与输入通道数保持一致。

一个多尺度投影组通过递归学习让输出流入下一次迭代并调整输入形成反馈机制，从而实现特征映射。反馈流在上采样过程和下采样过程之间交替，构成局部残差反馈来迭代地修正投影误差以形成自校正过程。初始LR特征L⁰流入反馈模块并产生一系列来自不同深度的HR特征图Hg：

其中，G表示多尺度投影组的数量即递归次数，

表示在第g次递归中多尺度投影组的特征映射过程。当g等于1，表示将初始特征图L⁰作为第一个多尺度投影组的输入；当g大于1，表示将由前一个多尺度投影组产生的LR特征图L^g-1作为当前输入。

(3)全局注意力模块，如图5所示。

将所有特征映射阶段的输出结果H¹，H²，…，H^g进行特征级联得到特征图X＝[H¹，H²，…，H^g]，然后进行全局池化操作，逐通道进行分析Z∈R^c，Z的第c个元素可以定义为：

其中：H_c(i，j)代表在第c个特征图(i，j)处的特征值x_c，HGP(x)表示全局池化操作。全局池化得到z_c描述了第c个通道的特征图的全局信息，同时也将第c通道的特征信息映射为一个数值。之后利用设计的门控函数计算每个通道特征应该分配多少注意力。门控函被定义：

其中：f(·)和δ(·)分别表示sigmoid门控单元和ReLU激活函数；W_D是卷积层的权重矩阵，该卷积层将输入的特征图的维度进行下采样，采样比率为r，然后用ReLU函数激活；W_U表示上采样卷积层的权重矩阵，采样比率同样是r，同时该卷积层的激活函数使用sigmoid函数，从而得到注意力分配比率。最后被分配注意力资源的特征图通过下式计算得到：

H′＝s_c·H_c

其中，s_c和H_c分别表示第c通道的特征的注意力分配比率和第c通道的特征图，H′表示被分配注意力资源的特征图。

(4)图像重建：

将多个HR特征图的深度级联进行重建得到残差图像；

I^Res＝f_RM([H^1′，H^2′，…，H^g′])

其中，[H¹，H²，…，H^g]表示多个HR特征图的深度级联，f_RM表示重建模块的操作，I^Res为残差图像；

将插值LR图像经计算后与重建的残差图像I^Res相加得到最终的重建图像I^SR；

I^SR＝I^Res+f_US(I^LR)

其中，f_US表示插值上采样操作。f_US表示插值上采样操作，首先应用双线性插值将初始LR输入I_LR放大至目标尺寸，也可以使用其他插值算法，如双三次插值算法，然后将插值LR图像绕过网络主体部分传输到网络末端与重建的残差图像I^Res相加得到最终的重建图像I^SR。

步骤3，训练多尺度特征融合反投影注意力网络。

将批大小设置为16，并采用旋转和翻转进行数据增强。为了充分利用计算资源，根据放大系数输入不同大小的LR图像块和对应的HR图像块。使用Adam优化网络参数，动量因子为0.9，权重衰减1e-4。将学习率初始值设为0.0001，并且每迭代200次，学习率衰减为原来的一半。

在多尺度投影单元的每个分支中设计不同的核大小和填充并根据相应的放大倍数调整核的大小和步长。为了充分利用图像上下文信息，输入和输出都使用RGB颜色通道。除网络末端的重建层外，PReLU被用作所有卷积和反卷积层后面的激活函数。用步骤1的图像集按步骤2训练网络直至代价损失减少到一定程度且训练达到迭代最大次数。利用L1函数作为损失函数。

其中x为权值参数和偏置参数的集合，i表示整个训练过程中多次迭代训练的序列号。

步骤4，测试多尺度特征融合反投影注意力网络并进行图像重建。

将待重建的图像输入训练好的多尺度特征融合反投影注意力网络得到重建后的图像。

将PSNR和SSIM作为评价指标在Set5、Set14、Urban100、BSD100和Manga109这5个标准测试集中评估模型性能，并且所有测试均选用y通道。

为了验证本文所提出方法的有效性与可靠性，在不同的放大倍数上与现有的多个重建方法进行比较。在低倍放大中(×2，×3，×4)，将本文方法与12种先进方法进行比较。由于许多模型不适用于高倍放大(×8)，因此将本文方法与9种先进方法比较。对于×2放大，本文方法在五个基准数据集中获得最佳的PSNR结果。但是，对于×3，×4和×8的放大，本文方法的PSNR和SSIM优于所有其他模型。随着放大系数的增大，优势相对更加明显，特别是对于×8，证明了本文方法处理高倍放大的有效性。在这五个数据集中，本文方法在PSNR和SSIM方面具有更高的客观评估指标。证明了本文方法不仅倾向于构造规则的人工图案，而且擅长重构不规则的自然图案。本文方法在适应各种场景特征方面具有优势，并且对于具有不同特征的图像具有惊人的SR结果。

引入注意力机制为特征映射阶段产生的特征图以及特征图的各个通道，自动分配不同的注意力资源。使网络模型可以学习到尽可能多的高频信息，并尽量减少上下采样过程产生的误差。本方法不仅注重将低级细节与高级抽象语义相结合，还侧重于局部特征和全局信息的融合。模块化的端到端体系结构使得本文方法仅通过较小的参数调整就可以训练灵活地训练不同深度的网络以及任意扩展到其他放大倍数。通过相对较小的训练集就可以获得超越其他先进方法的重建质量，极大节约了训练成本。本文方法可以成功执行8倍放大，并在多个基准测试集中均获得了出色的PSNR和SSIM结果。本文方法能够有效缓解基于CNN方法固有的振铃效应和棋盘伪影的影响，预测更多的高频细节并抑制平滑分量，使得重建的图像具有更加清晰锐利的边缘特征。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围，包括但不限于用本方法以及其改进和变形方法用于其它图像处理方面，如图像分类、检测、去噪、增强等。