CN116188274A

CN116188274A - 一种图像超分辨率重建方法

Info

Publication number: CN116188274A
Application number: CN202310289789.6A
Authority: CN
Inventors: 蔡念; 张旭; 张欢; 陈健; 何兆泉; 张国华
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2023-03-21
Filing date: 2023-03-21
Publication date: 2023-05-30

Abstract

本发明提供一种图像超分辨率重建方法，包括以下步骤：S1：提取要重建的低分辨率图片的浅层特征；S2：将提取到的浅层特征输入混合编解码器转化为深层特征；所述混合编解码器为U型网络结构，包括多个MSACM模块，每个MSACM模块包括若干个混合注意力模块；所述混合注意力模块通过包括多头自注意力分支和空间傅里叶频率模块分支的并行双分支结构来同时建模全局上下文信息和局部纹理信息，空间傅里叶频率模块通过快速傅里叶变换和反傅里叶变换引入频域特性；S3：利用CARAFE上采样算子根据深层特征重构得到高分辨率图片。本发明提供一种图像超分辨率重建方法，解决了现有的SR重建技术在提高重建性能的同时需要占用更大计算资源的问题。

Description

一种图像超分辨率重建方法

技术领域

本发明涉及图像超分辨率重建技术领域，更具体的，涉及一种图像超分辨率重建方法。

背景技术

图像超分辨率(Super Resolution,SR)重建的目标是将退化的低分辨率(LowResolution,LR)图像重建获得相对应的高分辨率(High Resolution,HR)图像。该技术作为计算机视觉领域的一项基础性的底层任务，一直是研究的重点和热点。

通常，图像的分辨率越高，所包含的纹理细节越丰富，视觉效果越清晰，更加适用于图像的后续处理任务。目前，很多设备能够胜任现实场景中对于清晰度的要求，但由于设备成本以及拍摄环境的限制很多场合所获得的图像难以达到高分辨率的要求。SR重建技术在软件层面上解决了上述难题，一方面它能有效地降低硬件的成本，使设备的扩展维护更加灵活；另一方面，软件设计不会受到平台的限制，适用范围更广。因此，SR重建技术在实际应用中拥有巨大的前景，例如，公共安全、医学诊断、遥感观测、视频/图像质量增强等。

近年来，随着深度卷积神经网络(Convolutional Neural Networks,CNNs)研究的爆发式进展，基于深度学习的方法因其出色的学习能力及实时处理的能力而受到广泛的关注。虽然基于CNN的网络在SR任务上取得了巨大成功，但受限其感受野，CNN的特征表示能力仍然有限。尽管增加网络的深度能提高图像SR重建的性能，但与此同时也增加了网络结构的复杂性，而过多的参数需要占用更大的计算资源，这就导致这些方法很难在实际应用领域中得到推广。此外，网络结构的增大也会造成模型的过拟合等问题。

发明内容

本发明为解决现有的SR重建技术在提高重建性能的同时需要占用更大计算资源的问题，提供一种图像超分辨率重建方法。

为解决上述技术问题，本发明的技术方案如下：

一种图像超分辨率重建方法，包括以下步骤：

S1：提取要重建的低分辨率图片的浅层特征；

S2：将提取到的浅层特征输入混合编解码器转化为深层特征；

所述混合编解码器为U型网络结构，包括多个MSACM模块，每个MSACM模块包括若干个混合注意力模块；所述混合注意力模块通过包括多头自注意力分支和空间傅里叶频率模块分支的并行双分支结构来同时建模全局上下文信息和局部纹理信息，空间傅里叶频率模块通过快速傅里叶变换和反傅里叶变换引入频域特性；

S3：利用CARAFE上采样算子根据深层特征重构得到高分辨率图片。

上述方案中，在U型混合编解码器中使用混合注意力模块(HAB)作为主干，利用混合注意力模块(HAB)中并行的多头自注意力分支和空间傅里叶频率模块分支高效提取层级的全局和局部上下文信息的能力，实现对低分辨率图片的高效重建；还采用CARAFE上采样算子根据上下文信息自适应地进行引导上采样，避免增加采样过程中的算力消耗。

优选的，将低分辨率图像通过3×3卷积和ReLU非线性激活函数提取浅层特征F_e，表达式为：

其中，σ(·)表示ReLU非线性激活函数；

表示3×3卷积；I_l表示低分辨率图像。

优选的，所述混合编解码器包括编码器端和解码器端，其中，

在所述编码器端，相邻MSACM模块间通过步幅为2的4×4卷积进行特征下采样；在所述解码器端，相邻MSACM模块间通过3×3的卷积和Pixelshuffle操作进行特征上采样；编码器端的MSACM模块输出的特征通过跳跃连接将特征传输到解码器端的MSACM模块。

优选的，所述多头自注意力分支先通过三分支编码局部信息，分别生成query张量特征、key张量特征和value张量特征，然后通过维度转换操作转换张量特征的维度，query张量特征和key张量特征通过矩阵乘法和Softmax函数生成转置后的注意力特征矩阵，value张量特征再与注意力特征矩阵相乘并经过维度转换和卷积得到多头自注意力分支的输出特征；

多头自注意力分支的过程如下式所示：

其中，

表示维度重塑；/>

表示3×3深度可分离卷积操作；LN(·)表示层归一化操作；/>

表示矩阵乘法操作；F_mDTA表示多头自注意力分支的输出特征；Softmax(·)表示Softmax函数；Attention(·)表示自注意力操作；/>

表示query张量特征；/>

表示key张量特征；/>

表示value张量特征。

优选的，所述空间傅里叶频率模块分支包括空间域分支和频域分支，其中，

在空间域分支，流入空间域分支的特征经过第一次卷积、PReLU激活函数、第二次卷积后与原始流入空间域分支的特征进行通道级相加操作，得到空间域分支的输出特征；

在频域分支，流入频域分支的特征经过第一次卷积加PReLU激活函数、二维快速傅里叶变换、第二次卷积和PReLU激活函数、反二维快速傅里叶变换后与原始流入频域分支的特征进行通道级相加操作，再通过卷积整合，得到频域分支的输出特征；

最后，空间域分支的输出特征和频域分支的输出特征通过concat操作拼接，再经过卷积得到空间傅里叶频率模块分支的输出特征。

优选的，多头自注意力分支的输出特征和空间傅里叶频率模块分支的输出特征通过自适应融合模块进行特征融合，自适应融合模块生成两个可学习的权重张量并分别与多头自注意力分支的输出特征和空间傅里叶频率模块分支的输出特征进行通道级相乘，再通过1×1卷积来整合融合后的特征；

在混合注意力模块的前向反馈模块部分，采用深度门控前向网络进一步学习和传输特征得到混合注意力模块的输出特征F_HAB；

所述深度门控前向网络包括层归一化、卷积、ReLU激活函数、元素级乘法和通道相加操作；流入深度门控前向网络的特征首先经过层归一化，然后流入并行的两分支进行卷积和深度卷积，并且特征通道数量翻倍；其中一个分支的特征先经过ReLU激活函数，然后和另一分支的特征进行元素级乘法来抑制不相关的信息，然后经过1×1卷积再和原始流入深度门控前向网络的特征进行通道级相加操作，整个过程如下式所示：

其中，

表示层归一化；/>

表示通道级相加操作；f_SFB表示空间傅里叶频率模块分支的操作；f_MDTA表示多头自注意力分支的操作；f_AFM表示自适应融合模块的操作；f_GDFN表示深度门控前向网络的操作；/>

表示1×1卷积；F_s表示自适应融合模块输出的特征经过1×1卷积后与F_e进行通道级相加得到的特征。

优选的，通过以下过程得到MSACM模块的输出特征F_MSACM：

其中，

表示第一个混合注意力模块的操作运算，/>

表示第二个混合注意力模块的操作运算，/>

表示第n个混合注意力模块的操作运算。

优选的，步骤S3的具体过程为：

所述混合编解码器的最后一个MSACM模块输出深层特征F_d，F_d通过CARAFE上采样算子和3x3卷积得到上采样后的特征F_t，F_t与经过上采样后的低分辨率图片维度相加得到高分辨率图片I_h，表达式如下：

其中，

表示3×3卷积操作；CARAFE表示CARAFE上采样算子；/>

表示维度相加操作。

优选的，还包括引入考虑人类视觉感知和图像质量评价指标度量值的总损失函数：

L_total＝PSNR(I_h,I_g)+λL_Charbonnier(I_h,I_g)

损失函数L_Charbonnier如下式所示：

其中，PSNR(·)表示PSNR损失函数；I_h,I_g分别表示超分辨率重建后的图像和原始高超分辨率的图像；λ、∈表示不同的常数。

优选的，λ为0.05，∈为0.001。

与现有技术相比，本发明技术方案的有益效果是：

本发明提供了一种图像超分辨率重建方法，在U型混合编解码器中使用混合注意力模块作为主干，利用混合注意力模块中并行的多头自注意力分支和空间傅里叶频率模块分支高效提取层级的全局和局部上下文信息的能力，实现对低分辨率图片的高效重建；还采用CARAFE上采样算子根据上下文信息自适应地进行引导上采样，避免增加采样过程中的算力消耗。

附图说明

图1为本发明的技术方案实施步骤流程图；

图2为本发明的整体框架示意图；

图3为本发明中MSACM模块的框架示意图；

图4为本发明中混合注意力模块的框架示意图；

图5为本发明中MDTA分支的框架示意图；

图6为本发明中SFB分支的框架示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1-4所示，一种图像超分辨率重建方法，包括以下步骤：

S1：提取要重建的低分辨率图片的浅层特征；

所述混合编解码器为U型网络结构，包括多个MSACM模块，每个MSACM模块包括若干个混合注意力模块(HAB)；所述混合注意力模块(HAB)通过包括多头自注意力(MDTA)分支和空间傅里叶频率模块(SFB)分支的并行双分支结构来同时建模全局上下文信息和局部纹理信息，空间傅里叶频率模块通过快速傅里叶变换和反傅里叶变换引入频域特性；

在具体实施过程中，在U型混合编解码器中使用HAB作为主干，利用HAB中并行的MDTA分支和SFB分支高效提取层级的全局和局部上下文信息的能力，实现对低分辨率图片的高效重建；还采用CARAFE上采样算子根据上下文信息自适应地进行引导上采样，避免增加采样过程中的算力消耗。

实施例2

一种图像超分辨率重建方法，包括以下步骤：

S1：提取要重建的低分辨率图片的浅层特征；

更具体的，将低分辨率图像通过3×3卷积和ReLU非线性激活函数提取浅层特征F_e，表达式为：

/>

其中，σ(·)表示ReLU非线性激活函数；

表示3×3卷积；I_l表示低分辨率图像。

更具体的，所述混合编解码器包括编码器端和解码器端，其中，

在所述编码器端，相邻MSACM模块间通过步幅为2的4×4卷积进行特征下采样；在所述解码器端，相邻MSACM模块间通过3×3的卷积和Pixelshuffle操作进行特征上采样；编码器端的MSACM模块输出的特征通过跳跃连接将特征传输到解码器端的MSACM模块；

浅层特征转化为深层特征的过程如下式：

F_d＝F_u(F_e)

F_u(·)表示混合编解码器的处理过程。

更具体的，如图5所示，所述多头自注意力(MDTA)分支先通过三分支进行1×1卷积和3×3深度可分离卷积的操作来编码局部信息，分别生成query张量特征、key张量特征和value张量特征，然后通过维度转换操作转换张量特征的维度，query张量特征和key张量特征通过矩阵乘法和Softmax函数生成转置后的注意力特征矩阵，value张量特征再与注意力特征矩阵相乘并经过维度转换和1×1卷积得到多头自注意力(MDTA)分支的输出特征；

给定

首先通过层归一化操作，然后在多头自注意力分支的MDTA模块中使用1×1卷积和3×3深度卷积来编码通道级的空间上下文；接下来，对查询和关键投影进行点积乘法重构，生成一个转置的注意力图/>

多头自注意力(MDTA)分支的过程如下式所示：

其中，

表示维度重塑；/>

表示3×3深度可分离卷积操作；LN(·)表示层归一化操作；/>

表示矩阵乘法操作；F_MDTA表示多头自注意力(MDTA)分支的输出特征；Softmax(·)表示Softmax函数；Attention(·)表示自注意力操作；/>

表示query张量特征；/>

表示key张量特征；/>

表示value张量特征；/>

在具体实施过程中，MDTA分支跨通道建模全局上下文，其复杂度与输入图像呈线性复杂度。

更具体的，如图6所示，所述空间傅里叶频率模块(SFB)分支基于快速傅里叶卷积(FFC)，包括空间域分支和频域分支，其中，

在空间域分支，流入空间域分支的特征经过第一次3×3卷积、PReLU激活函数、第二次3×3卷积后与原始流入空间域分支的特征进行通道级相加操作，得到空间域分支的输出特征；

在频域分支，流入频域分支的特征经过第一次3×3卷积加PReLU激活函数、二维快速傅里叶变换、第二次3×3卷积和PReLU激活函数、反二维快速傅里叶变换后与原始流入频域分支的特征进行通道级相加操作，再通过1×1卷积整合，得到频域分支的输出特征；

最后，空间域分支的输出特征和频域分支的输出特征通过concat操作拼接，再经过1×1卷积得到空间傅里叶频率模块(SFB)分支的输出特征。

更具体的，步骤S3的具体过程为：

其中，

表示3×3卷积操作；CARAFE表示CARAFE上采样算子；/>

表示维度相加操作。

实施例3

一种图像超分辨率重建方法，包括以下步骤：

S1：提取要重建的低分辨率图片的浅层特征；

其中，σ(·)表示ReLU非线性激活函数；

表示3×3卷积；I_l表示低分辨率图像。

浅层特征转化为深层特征的过程如下式：

F_d＝F_u(F_e)

F_u(·)表示混合编解码器的处理过程。

更具体的，多头自注意力(MDTA)分支跨通道建模全局上下文，其复杂度与输入图像呈线性复杂度。所述多头自注意力(MDTA)分支先通过三分支进行1×1卷积和3×3深度可分离卷积的操作来编码局部信息，分别生成query张量特征、key张量特征和value张量特征，然后通过维度转换操作转换张量特征的维度，query张量特征和key张量特征通过矩阵乘法和Softmax函数生成转置后的注意力特征矩阵，value张量特征再与注意力特征矩阵相乘并经过维度转换和1×1卷积得到多头自注意力(MDTA)分支的输出特征；

给定

多头自注意力(MDTA)分支的过程如下式所示：

其中，

表示维度重塑；/>

表示3×3深度可分离卷积操作；LN(·)表示层归一化操作；/>

表示query张量特征；/>

表示key张量特征；/>

表示value张量特征；/>

更具体的，所述空间傅里叶频率模块(SFB)分支基于快速傅里叶卷积(FFC)，包括空间域分支和频域分支，其中，

在具体实施过程中，空间傅里叶频率模块(SFB)分支利用快速傅里叶卷积来提取频域分支中的全局信息，然后利用空间域分支中基于沙漏的残差模块来增强局部特征表征，并帮助网络提取到图像中有用的信息和学习到更有鉴别性的特征表示。

更具体的，浅层特征F_e首先通过层归一化，然后通过MDTA分支和SFB分支组成的并行双分支结构，多头自注意力(MDTA)分支的输出特征和空间傅里叶频率模块(SFB)分支的输出特征通过自适应融合模块(AFM)进行特征融合，自适应融合模块(AFM)生成两个可学习的权重张量并分别与多头自注意力(MDTA)分支的输出特征和空间傅里叶频率模块(SFB)分支的输出特征进行通道级相乘，再通过1×1卷积来整合融合后的特征；

在混合注意力模块(HAB)的前向反馈模块部分，采用深度门控前向网络(GDFN)进一步学习和传输特征得到混合注意力模块(HAB)的输出特征F_HAB；

所述深度门控前向网络(GDFN)包括层归一化、1×1卷积、ReLU激活函数、元素级乘法和通道相加操作；流入GDFN的特征首先经过层归一化，然后流入并行的两分支进行1×1卷积和3×3深度卷积，并且特征通道数量翻倍；其中一个分支的特征先经过ReLU激活函数，然后和另一分支的特征进行元素级乘法来抑制不相关的信息，然后经过1×1卷积再和原始流入深度门控前向网络(GDFN)的特征进行通道级相加操作，整个过程如下式所示：

其中，

表示层归一化；/>

表示通道级相加操作；f_SFB表示空间傅里叶频率模块(SFB)分支的操作；f_MDTA表示多头自注意力(MDTA)分支的操作；f_AFM表示自适应融合模块(AFM)的操作；f_GDFN表示深度门控前向网络(GDFN)的操作；/>

表示1×1卷积；F_s表示自适应融合模块(AFM)输出的特征经过1×1卷积后与F_e进行通道级相加得到的特征。

更具体的，通过以下过程得到MSACM模块的输出特征F_MSACM：

其中，

表示第一个混合注意力模块(HAB)的操作运算，/>

表示第二个混合注意力模块(HAB)的操作运算，/>

表示第n个混合注意力模块(HAB)的操作运算。

更具体的，步骤S3的具体过程为：

其中，

表示3×3卷积操作；CARAFE表示CARAFE上采样算子；/>

表示维度相加操作。

在具体实施过程中，采用CARAFE上采样算子替代传统超分网络的上采样操作，该算子能根据上下文信息自适应地进行引导上采样，采样过程中的算力消耗与反卷积操作相当。

更具体的，还包括引入考虑人类视觉感知和图像质量评价指标度量值的总损失函数：

L_total＝PSNR(I_h,I_g)+λL_Charbonnier(I_h,I_g)

损失函数L_Charbonnier如下式所示：

更具体的，λ为0.05，∈为0.001。

在具体实施过程中，常数λ和∈可根据经验设置。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种图像超分辨率重建方法，其特征在于，包括以下步骤：

S1：提取要重建的低分辨率图片的浅层特征；

2.根据权利要求1所述的一种图像超分辨率重建方法，其特征在于，将低分辨率图像通过3×3卷积和ReLU非线性激活函数提取浅层特征F_e，表达式为：

其中，σ(·)表示ReLU非线性激活函数；

表示3×3卷积；I_l表示低分辨率图像。

3.根据权利要求1所述的一种图像超分辨率重建方法，其特征在于，所述混合编解码器包括编码器端和解码器端，其中，

4.根据权利要求1所述的一种图像超分辨率重建方法，其特征在于，所述多头自注意力分支先通过三分支编码局部信息，分别生成query张量特征、key张量特征和value张量特征，然后通过维度转换操作转换张量特征的维度，query张量特征和key张量特征通过矩阵乘法和Softmax函数生成转置后的注意力特征矩阵，value张量特征再与注意力特征矩阵相乘并经过维度转换和卷积得到多头自注意力分支的输出特征；

多头自注意力分支的过程如下式所示：

其中，

表示维度重塑；/>

表示3×3深度可分离卷积操作；LN(·)表示层归一化操作；/>

表示query张量特征；/>

表示key张量特征；/>

表示value张量特征。

5.根据权利要求1所述的一种图像超分辨率重建方法，其特征在于，所述空间傅里叶频率模块分支包括空间域分支和频域分支，其中，

6.根据权利要求1所述的一种图像超分辨率重建方法，其特征在于，多头自注意力分支的输出特征和空间傅里叶频率模块分支的输出特征通过自适应融合模块进行特征融合，自适应融合模块生成两个可学习的权重张量并分别与多头自注意力分支的输出特征和空间傅里叶频率模块分支的输出特征进行通道级相乘，再通过1×1卷积来整合融合后的特征；