CN116681592A

CN116681592A - 基于多尺度自适应非局部注意力网络的图像超分辨率方法

Info

Publication number: CN116681592A
Application number: CN202310695717.1A
Authority: CN
Inventors: 张新; 江胜嵊; 殷昱煜; 张伟; 孙茜茜
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-06-13
Filing date: 2023-06-13
Publication date: 2023-09-01

Abstract

本发明公开了一种多尺度自适应非局部注意力网络的图像超分辨率方法，包括：S1全局密集连接、局部残差连接的网络框架；S2非局部注意力模块中的基于自适应稀疏聚合的多尺度非注意力模块；S3非局部注意力模块中的反向残差投影特征融合方法；S4通道注意力模块中的二次通道注意力计算方法；S5基于亚像素卷积算法的上采样层。本发明首先将降采样后的低分辨率图像输入基于注意力机制的超分辨率模型中，经过浅层特征提取、深层特征提取、上采样以及重构后获得超分辨率图像。其中在深层特征提取中本发明设计了自适应稀疏聚合策略以及多尺度非局部注意力计算，使得网络能够关注更相关的特征信息以提升生成的超分辨率图像的精度。

Description

基于多尺度自适应非局部注意力网络的图像超分辨率方法

技术领域

本发明属于基于深度学习神经网络的图像超分辨率领域，具体涉及通过注意力机制挖掘图像中潜在的非局部语义信息以及局部结构特征信息的基于多尺度自适应非局部注意力网络的图像超分辨率方法。

背景技术

图像超分辨率技术，简称超分SR，指的是利用数字图像处理、计算机视觉等领域的相关知识，借由特定的算法和处理流程，从给定的低分辨率图像中复原出高分辨率图像的过程。其旨在克服或补偿由于图像采集系统或采集环境本身的限制，导致的成像图像模糊、质量低下、感兴趣区域不显著等问题。该技术在多个领域都有着广泛的应用范围和研究意义，主要包括：在图像压缩方面，网络传输过程中可以只传输低分辨率的图片，然后通过重建操作得到高分辨率图像。传输低分辨率图像相比高分辨率图像来说，可以减少网络负载；在医学图像方面，可以通过设备得到低分辨率图像，通过重建，能更加清晰地看到组织、细胞的状态；在公安安防方面，通过超分辨率重建可以恢复清晰的车牌号码、人脸；在视频感知领域，通过图像超分辨率重建技术，可以起到聚合视频画质、改善视频的质量，提升用户视觉体验的作用。随着深度学习的发展，基于深度学习的超分辨率方法性能相比传统的方法提升十分显著，并逐渐取代了传统的方法作为主流的超分辨率研究方法。如何设计网络拓扑结构、挖掘图片中潜藏的相关特征成为了学术界和工业界的核心关注点。

目前，国内外学者在基于注意力机制的图像超分领域做出了很多有价值的研究成果。Dai等人使用二阶通道注意(SPCA)模块使用二级特征度量(使用协方差计算通道权重而不是全局平均池化)提取更多的基于通道的数据表示。在此基础上，Woo等人在两种注意力的基础上提出了CBAM，该模块沿着通道和空间两个独立的维度依次推断注意特征图，然后将注意特征图乘以输入特征图进行自适应特征细化。由于非局部注意力会给噪声很大的权重，并且会带来2次的计算复杂度，Xia等人提出了一种新的高效的非局部对比注意(ENLCA)来执行长程视觉建模和利用更相关的非局部特征。

已有的图像超分方法通过残差卷积以及非局部注意力模块提取图像的结构特征，未充分利用图像中的跨尺度乃至多尺度及多级别特征，导致网络会受大量的非相关特征的噪声干扰，使得超分模型生成的高分辨率图像具有纹理紊乱、结构及边界模糊的现象。

发明内容

通过对现有的图像超分辨率模型进行探究，发现大多数基于注意力机制的模型存在以下几点缺陷：不能很好地利用跨尺度之间的空间信息来充分挖掘图片的深层次特征；没有考虑到空间注意力与通道注意力对特征的相互影响；在空间注意力中将噪音权重过于放大，没有突出相似度较大的像素特征。为改善这些问题，本发明提出基于自适应稀疏聚合的多尺度非局部注意力模块，利用反向残差投影将基于自适应稀疏聚合的多尺度非局部注意力模块输出与普通非局部注意力模块输出进行特征融合，并采用二阶通道注意力模块同上述构成的空间注意力模块级联残差块部分，最后采用全局密集连接、局部残差连接的方式作为非线性映射部分的总体网络框架。

本发明提供基于多尺度自适应非局部注意力网络的图像超分辨率方法具体分为以下步骤：

步骤1.提取浅层特征，采用单卷积层实现。分别将I_LR和I_SR作为模型的输入与输出，输入代表低分辨率图像，输出代表模型生成的高分辨率图像。公式为：

F₀＝H_FSE(I_LR)

其中H_FSE(·)表示卷积操作，F₀为浅层特征的提取结果。

步骤2.将提取到的浅层特征图输入到非线性映射层。非线性映射层作为网络设计的主要部分，能够捕获到图像的深层特征。非线性映射层主要由若干个残差组密集连接而成，在残差组内本发明采用长跳跃的残差连接。一方面，这种方式能够有效构建起全局的密集连接从而避免梯度消失和梯度爆炸影响模型性能，另一方面，局部采用长跳跃连接可以有效减小模型的计算复杂度，提高训练模型的效率。在残差组中，本发明设计了基于自适应稀疏聚合的多尺度非局部注意力模块，该模块是在原有的非局部注意力上进行拓展，通过对多个特定尺度的特征图进行跨尺度像素匹配，来评估特征之间的相关性。

通过跨尺度搜索信息可以从多尺度的对应关系中匹配到噪声更低的信号，因为将特征图缩小为更粗粒度的描述符并与之进行匹配可以有效降低噪声影响，而由于跨尺度所代表的内容相似，因此在缩小尺度后的结构信息仍将得到很好的保存。在每一级的跨尺度操作中采用卷积的方法来实现非局部注意力计算，实现方式是将较小尺寸的特征图作为卷积核对较大尺度的特征图进行卷积计算来实现相似度矩阵的获取。最后再利用小尺寸特征图所构成的卷积核对相似度矩阵做反卷积计算即可获得输出结果。

本发明同时设计了一种新的相似度矩阵降噪策略，即自适应稀疏聚合策略。自适应稀疏聚合是对非局部注意力的自相似矩阵进行元素级映射操作，其本质是过滤无关的空间信息，并且扩大相关信息的权重。当自相似矩阵做归一化指数函数操作时元素会根据自身值的大小来决定能否被赋予一个更大的权重。添加自适应稀疏聚合的非局部注意力计算公式可以表示为：

f(x)＝xe^k|x|

其中Q_i、K_j和V_j分别是待计算相似度的特征图，Y_j是计算结果，f(x)是相似度矩阵的映射函数，k是一个大于0的系数。

为了使得基于自适应稀疏聚合的多尺度非局部注意力模块输出的特征图能够赋予相关特征更大的权重，本发明提出了反向残差投影来进行特征融合。反向残差投影是用于对各分支进行特征融合，其中的分支包括多尺度非局部注意力分支、普通单尺度非局部注意力分支、恒等映射分支。传统的解决办法之一是将几个分支的输出特征图连接在一起，再做一个卷积核宽高为1的通道卷积操作压缩通道。而反向残差投影可以充分利用不同分支上的特征间相互作用关系，从而使网络更加关注富信息量特征。

具体来说，反向残差投影分为残差投影和反向投影。残差投影首先对基于自适应稀疏聚合的多尺度非局部注意力模块和普通非局部注意力模块的输出相减获得的相差特征图做一次卷积操作后与基于自适应稀疏聚合的多尺度非局部注意力模块输出的特征图进行长跳跃连接。这样做的目的是使得网络关注两个输入之间的信息差异而绕过输入之间的信息共识。反向投影的灵感则是来源于深度反向投影网络，该部分的输入分别是上述的残差连接的输出以及模块的原输入，即恒等映射。首先分别将两个输入进行上采样，放大到相同尺寸后将二者做相减操作，然后对结果进行卷积操作后将结果进行下采样，最后于残差连接的结果进行长跳跃连接，最终获得输出。

将上述的部分作为空间注意力模块，并同二次通道注意力模块、局部注意力模块进行级联，构成残差分支的部分，而整个整体就是本发明的残差模块组，最后对残差模块组进行密集连接即构建起非线性映射部分的框架。非线性映射部分的计算公式可以表示为：

F₁＝H_DF(F₀)

其中H_DF(·)表示非线性映射模块，F₁为深层特征的提取结果。

步骤3.将非线性映射获取的特征图尺寸依据特定的算法放大到指定的大小。本发明采用亚像素卷积算法来实现特征图尺寸的放大。亚像素卷积算法的主要功能是将低分辨的特征图，通过卷积和多通道间的重组得到高分辨率的特征图。具体来说，亚像素卷积算法将r×r个通道的特征图组合为新的w×r，h×r的上采样结果。其中w和h分别是低分辨率图像的宽和高。上采样的计算公式可以表示为：

F₂＝H_PS(F₁)

其中H_PS(·)表示亚像素卷积模块，F₂为特征图上采样后的输出。

步骤4.将放大尺寸后的特征图通过一个卷积层进行重构，最终生成高分辨率的图像I_SR。重构的计算公式可以表示为：

I_SR＝H_RE(F₂)

其中H_RE(·)表示重构模块的单卷积层。最终本发明的整个模型可以用计算公式表示为：

I_SR＝H_A(I_LR)

其中H_A(·)表示本发明所设计的超分辨率模型。

步骤5.计算损失。本发明采用L₁损失，为了确保初始低像素图像I_LR和生成的高分辨率图像I_SR与真实图像I_HR之间的像素级一致性，以及为了能够比较出网络结构带来的性能提升。计算公式为：

其中，Θ表示该深度学习网络的参数集，N表示输入低分辨率图像的数量。

步骤6.计算超分辨率模型定量评估指标PSNR以及SSIM来量化模型性能；

PSNR值的计算公式为：

其中，M是像素值的最大值，MSE是均方误差，是两幅图像之间每个像素误差的平方和的平均值。

SSIM值的计算公式为：

其中，x和y分别为两幅图像；μ_x和μ_y为两幅图像的均值；和/>为两幅图像的方差；σ_xy为两幅图像的协方差；C₁和C₂为需要进行调整的常数参数。

本发明网络架构由基于自适应稀疏聚合的多尺度非局部注意力模块、反向残差连接特征融合模块、二次通道注意力模块以及局部注意力模块构成。模块之间采用长跳跃的残差连接，并在由其构成的残差模块组之间采用密集跳跃连接，这样做的好处是能够提升模型对全局及局部语义信息、特征信息的提取及表达能力，从而提高模型生成高分辨率图像的视觉质量。本发明采用单一损失函数，从多种不同角度优化生成网络的参数，使得模型能够生成满足人类视觉的高分辨率图像。

附图说明

图1本发明的基于注意力机制的超分辨率模型网络架构图；

图2本发明的基于自适应稀疏聚合的多尺度非局部注意力模块结构图；

图3本发明的反向残差投影特征融合模块结构图；

图4本发明的自适应稀疏聚合策略的说明补充；

图5本发明图1的示例补充。

具体实施方式

实施例1

本发明提出基于多尺度自适应非局部注意力的图像超分辨率技术。如图1所示，整体网络架构由若干残差块密集连接构成。本实例采用5个残差块。其中，每个残差块的残差分支由非局部注意力模块、通道注意力模块和局部注意力模块级联而成。非局部注意力模块由以基于自适应稀疏聚合的多尺度非局部注意力模块、普通非局部注意力模块和恒等映射作为输入的反向残差投影组成。

接下来结合附图具体阐述实施步骤。

基于多尺度自适应非局部注意力的图像超分辨率方法，包括以下步骤：

步骤1.将低分辨率图像输入到超分辨率网络中；

首先输入通过浅层特征提取层；该层由一个3×256×3×3的卷积层构成，将低分辨率图像通道维映射到高维空间；H_FSE表示浅层特征提取过程。计算公式为：

F₀＝H_FSE(I_LR)

步骤2.将上述得到的浅层特征图作为非线性映射层的输入；H_DF表示非线性映射整体过程。计算公式为：

F₁＝H_DF(F₀)

步骤2.1.非线性映射层由若干个残差块RB密集连接而成，所以每一个残差块中的第一个模块RCABP都需要接收前面所有残差块的输出，从而构成密集连接；密集连接通过连接所有先前的层，使得所有层都能够访问之前的特征图；从而提高模型的准确性；实现密集连接的模块分别由由一个(256*n)×256×3×3的卷积层convD、relu函数、一个256×256×3×3的卷积层conv以及通道注意力层CAlayer构成；其中n为残差块的序号，本次示例n取为4；计算公式为：

Out_RCABP＝f_CAlayer(f_conv(relu((f_convD(F₁))))

步骤2.2.RCABP的输出作为非局部注意力模块的输入；非局部注意力将输入分别用基于自适应稀疏聚合的多尺度非局部注意力模块、普通非局部注意力模块和恒等映射进行处理，并通过反向残差投影对三个模块的输出进行特征融合，由图三可以直观体现；

步骤2.2.1.基于自适应稀疏聚合的多尺度非局部注意力模块将输入的特征图等差缩小若干个尺度，本次示例缩小尺度的次数为5，每个相邻尺度从大到小递归进行非局部注意力计算，上一次计算的结果为下一次计算的输入；非局部注意力计算采用卷积的方式实现，将较小尺寸的特征图作为卷积核对较大尺度的特征图进行卷积计算来实现相似度矩阵的获取；最后再利用小尺寸特征图所构成的卷积核对相似度矩阵做反卷积计算即可获得输出结果；在计算相似度矩阵时采用自适应稀疏聚合的策略降噪，自适应稀疏聚合的效果可以从图4直观看出；整个模块的架构图如图2所示。该步骤的计算公式为：

f(x)＝xe^k|x|

其中，d∈D,D＝{d₁,d₂,...,d_r,...,d_R},本次示例的尺寸缩小因子序列D取值为{0.9，0.8，0.7，0.6，0.5}，R是一个超参数，用于决定多尺度非局部注意力中递归计算的层数；Z表示递归过程中上一次输出的特征图作为本轮计算的输入，Z⁰＝X；表示在调整尺度的特征图中的斑块数量，和N之间的关系是/> 表示在d尺度上的特征图中以j为中心、范围为s²的邻域；/>是区域描述符；f(x)是自适应的稀疏聚合操作，x是自相似矩阵中的元素，k是一个超参数；

步骤2.2.2.反向残差投影分为残差投影和反向投影，如图3所示；反向残差投影的优势在于能够充分利用图像中的潜在先验信息，并有效地丰富SR图像中的多层语义细节纹理；反向残差投影有三个输入，分别是Out_CMSNLA，Out_NLA以及Out_IM，Out_CMSNLA是步骤2.2.1中非局部注意力模块的输出，Out_NLA是传统非局部注意力模块的输出，Out_IM是步骤2.1的输出；残差投影首先对基于自适应稀疏聚合的多尺度非局部注意力模块和普通非局部注意力模块的输出相减获得的相差特征图做一次卷积操作后与基于自适应稀疏聚合的多尺度非局部注意力模块进行长跳跃连接；计算公式为：

Out_RP＝f_conv(relu((F_conv(Out_CMSNLA-Out_NLA)))+Out_CMSNLA

该部分的输入分别是上述的残差连接的输出以及模块的原输入，首先分别将两个输入通过6×6转置卷积层进行上采样，然后对结果进行卷积操作后将结果进行下采样，最后于残差连接的结果进行长跳跃连接，最终获得输出；计算公式为：

temp_BP＝downscale(F_conv(upscale(Out_RP)-upscale(Out_IM))

Out_BRP＝temp_BP+Out_RP

步骤2.3.非局部注意力模块的输出作为通道注意力模块的输入；通道注意力模块采用二次通道注意力计算，二阶通道注意力利用二阶统计特征(本示例采用协方差归一化)而不是一阶统计特征(如全局平均池化)来自适应地学习特征之间的相互依赖；这种机制在保证模型能够为相关性更大的通道分配更大的权重的前提下，使得网络专注于更多的信息特征，并提高了模型的信息辨别能力；计算公式为：

Out_RCAB＝f_SCAlayer(f_conv(relu((f_conv(Out_BRP))))

与RCABP不同的是，通道注意力模块RCAB不需要在第一个卷积层中处理密集连接，并采用了二阶通道注意力计算；

步骤2.4.通道注意力模块的输出作为局部注意力模块的输入；局部注意力模块采用两个3×3的卷积层，卷积层中间使用RELU激活函数。计算公式为：

Out_LB＝F_conv(relu((F_conv(Out_RCAB)))

步骤3.将非线性映射部分的输出作为上采样层的输入；上采样层采用亚像素卷积算法来实现特征图的尺寸放大到指定大小；本次示例采用2倍的放大比例；

步骤4.将放大尺寸后的特征图通过一个卷积层进行重构，其中卷积核拥有三个通道分别对应颜色的RGB三个通道，用来将特征图重构成最终的输出SR图像。最终生成高分辨率的图像I_SR。重构的计算公式可以表示为：

I_SR＝H_RE(F₂)

I_SR＝H_A(I_LR)

其中H_A()表示本发明所设计的超分辨率模型。图5阐释了模型输入到输出的结果。

步骤5.采用平均绝对误差作为损失函数计算损失。

损失函数公式为：

其中，N表示图像中特征的总个数，I_LR表示低分辨率图像，I_HR表示高分辨率图像。在优化过程中，将当前批量的数据集作为输入传入模型，然后计算预测值与实际值之间的误差，即损失函数值。接着，根据损失函数的值来更新模型参数，使得损失函数的值下降。重复进行这种迭代的优化过程，直到达到收敛条件为止，最终训练结束得到模型。

PSNR值的计算公式为：

SSIM值的计算公式为：

Claims

1.基于多尺度自适应非局部注意力网络的图像超分辨率方法，其特征在于，包括以下步骤：

步骤1.将低分辨率图像输入到超分辨率网络中；

首先输入通过浅层特征提取层；该层由一个3×256×3×3的卷积层构成，将低分辨率图像通道维映射到高维空间；计算公式为：

F₀＝H_FSE(I_LR)

其中H_FSE表示浅层特征提取过程，I_LR表示低分辨率图像，F₀为浅层特征提取层的输出特征图；

步骤2.将上述得到的浅层特征图作为非线性映射层的输入；计算公式为：

F₁＝H_DF(F₀)

其中H_DF表示非线性映射整体过程，F₁为非线性映射层的输出特征图；

步骤3.将非线性映射部分的输出作为上采样层的输入；上采样层采用亚像素卷积算法来实现特征图的尺寸放大到指定大小；计算公式为：

F₂＝H_PS(F₁)

其中H_PS表示亚像素卷积层，F₂为上采样层的输出特征图；

步骤4.将放大尺寸后的特征图通过一个卷积层进行重构，该卷积核拥有三个通道分别对应颜色的RGB三个通道，生成高分辨率的图像I_SR；重构的计算公式可以表示为：

I_SR＝H_RE(F₂)

其中H_RE表示重构模块的单卷积层；整个模型用计算公式表示为：

I_SR＝H_A(I_LR)

其中H_A()表示本发明所设计的超分辨率模型；

步骤5.采用平均绝对误差作为损失函数计算损失；

损失函数公式为：

其中，N表示图像中特征的总个数，I_LR表示低分辨率图像，I_HR表示高分辨率图像；在优化过程中，将当前批量的数据集作为输入传入模型，然后计算预测值与实际值之间的损失函数值；根据损失函数的值来更新模型参数，使得损失函数的值下降；重复进行这种迭代的优化过程，直到达到收敛条件为止，最终训练结束得到模型；

PSNR值的计算公式为：

其中，M是像素值的最大值，MSE是均方误差，是两幅图像之间每个像素误差的平方和的平均值；

SSIM值的计算公式为：

2.根据权利要求1所述的基于多尺度自适应非局部注意力网络的图像超分辨率方法，其特征在于，步骤2包括以下子步骤：

步骤2.1.非线性映射层由若干个残差块RB密集连接而成，所以每一个残差块RB中的第一个构成模块RCABP都需要接收前面所有残差块的输出，从而构成密集连接；密集连接通过连接所有先前的层，使得所有层都能够访问之前的特征图；实现密集连接的模块分别由由一个(256*n)×256×3×3的卷积层convD、relu函数、一个256×256×3×3的卷积层conv以及通道注意力层CAlayer构成；其中n为残差块的序号，Out_RCABP是RCABP的输出结果，F_conv表示卷积操作，F_convD表示用于处理密集连接的卷积操作；计算公式为：

Out_RCABP＝F_CAlayer(F_conv(relu((F_convD(F₁))))

步骤2.2.RCABP的输出作为非局部注意力模块的输入；非局部注意力将输入分别用基于自适应稀疏聚合的多尺度非局部注意力模块、普通非局部注意力模块和恒等映射进行处理，并通过反向残差投影对三个模块的输出进行特征融合；

步骤2.3.非局部注意力模块的输出作为通道注意力模块的输入；通道注意力模块采用二次通道注意力计算，二阶通道注意力利用二阶统计特征而非一阶统计特征来自适应地学习特征之间的相互依赖；计算公式为：

Out_RCAB＝F_SCAlayer(F_conv(relu((F_conv(Out_BRP))))

其中，Out_RCAB是通道注意力模块的出书结果；与RCABP不同的是，通道注意力模块RCAB不需要在第一个卷积层中处理密集连接，并采用了二阶通道注意力计算；

步骤2.4.通道注意力模块的输出作为局部注意力模块的输入；局部注意力模块采用两个3×3的卷积层，卷积层中间使用RELU激活函数；计算公式为：

Out_LB＝F_conv(relu((F_conv(Out_RCAB)))

其中，Out_LB是局部注意力模块的输出结果。

3.根据权利要求2所述的基于多尺度自适应非局部注意力网络的图像超分辨率方法，其特征在于，所述的步骤2.2中包括以下子步骤：

步骤2.2.1.基于自适应稀疏聚合的多尺度非局部注意力模块将输入的特征图等差缩小若干个尺度，每个相邻尺度从大到小递归进行非局部注意力计算，上一次计算的结果为下一次计算的输入；

非局部注意力计算采用卷积的方式实现，将较小尺寸的特征图作为卷积核对较大尺度的特征图进行卷积计算来实现相似度矩阵的获取；

再利用小尺寸特征图所构成的卷积核对相似度矩阵做反卷积计算获得输出结果；在计算相似度矩阵时采用自适应稀疏聚合的策略降噪；

该步骤的计算公式为：

f(x)＝xe^k|x|

其中，d∈D,D＝{d₁,d₂,...,d_r,...,d_R},R是一个超参数，用于决定多尺度非局部注意力中递归计算的层数；Z表示递归过程中上一次输出的特征图作为本轮计算的输入，Z⁰＝X；表示在调整尺度的特征图中的斑块数量，/>和N之间的关系是/> 表示在d尺度上的特征图中以j为中心、范围为s²的邻域；/>是区域描述符；f(x)是自适应的稀疏聚合操作，x是自相似矩阵中的元素，k是一个超参数；

步骤2.2.2.反向残差投影分为残差投影和反向投影；反向残差投影有三个输入，分别是Out_CMSNLA，Out_NLA以及Out_IM，Out_CMSNLA是步骤2.2.1中非局部注意力模块的输出，Out_NLA是传统非局部注意力模块的输出，Out_IM是步骤2.1的输出；残差投影首先对基于自适应稀疏聚合的多尺度非局部注意力模块和普通非局部注意力模块的输出相减获得的相差特征图做一次卷积操作后与基于自适应稀疏聚合的多尺度非局部注意力模块进行长跳跃连接；计算公式为：

Out_RP＝F_conv(relu((F_conv(Out_CMSNLAOut_NLA)))+Out_CMSNLA

该部分的输入分别是上述的残差连接的输出Out_NLA以及模块的原输入Out_IM，首先分别将两个输入通过6×6转置卷积层进行上采样，然后对结果进行卷积操作后将结果进行下采样，最后于残差连接的结果进行长跳跃连接，最终获得输出；计算公式为：

temp_BP＝dowmscale(F_conv(upscale(Out_RP)-upscale(Out_IM))

Out_BRP＝temp_BP+Out_RP。