CN116485654A

CN116485654A - 卷积神经网络与Transformer相结合的轻量级单图像超分辨率重建方法

Info

Publication number: CN116485654A
Application number: CN202310502566.3A
Authority: CN
Inventors: 周东生; 张炜; 樊万姝; 王鹏飞; 张强; 魏小鹏
Original assignee: Dalian University
Current assignee: Dalian University
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2023-07-25

Abstract

本发明提供了一种卷积神经网络与Transformer相结合的轻量级单图像超分辨率重建方法，属于计算机视觉及图像处理领域。首先，对图像超分辨率重建训练集中的原始数据进行预处理，构建出成对的LR‑HR作为最终的训练集；其次，将预处理好的训练集输入到本发明提出的轻量级单图像超分辨率重建网络中，采用L1作为训练损失进行训练，从而得到最终的图像超分辨率重建模型；最后，加载模型，将所要超分的图片输入到训练完的图像超分辨率重建网络模型中，得到低分辨率图像所对应的高分辨率图像。本发明集成了卷积神经网络和Transformer的优点，在模型的大小和性能之间实现很好的平衡，本发明在图像客观评价指标上有显著提高。

Description

卷积神经网络与Transformer相结合的轻量级单图像超分辨率重建方法

技术领域

本发明涉及计算机视觉技术领域及图像处理领域，具体涉及一种将卷积神经网络与Transformer相结合的轻量级单图像超分辨率重建方法。

背景技术

图像超分辨率重建技术指的是将给定的低分辨率图像通过一定的算法恢复成与之对应的高分辨率图像。图像分辨率是一组用于评估图像中蕴含细节信息丰富程度的性能参数，高分辨率图像中往往包含更丰富的纹理细节，并且具有更高的可信赖度。在现实生活中具有广泛的运用，如：对视频监控的图像进行超分辨率重建，可以更好的复原出视频监控中的人和物，从而能够准确的找到所需要的目标。然而，以往的方法虽然取得了令人满意的结果，但是模型大小以及计算复杂度的增加限制了它们在现实世界中的应用。因此，如何实现图像超分辨率重建模型大小和性能之间的平衡成为了一项重要且艰巨的任务。

目前来说，图像超分辨率重建的方法主要分为三种：基于插值的方法、基于重构的方法以及基于学习的方法。在早期，大多数重建方法都是采用的基于插值的方法，最常见的包含双线性插值以及双三次插值法，这类方法计算较为简单、易于理解并且便于实现，但是在最终的重建结果会出现振铃效应以及高频信息丢失严重的问题。在这之后，出现了很多基于重构的方法，这类方法从图像的降质退化模型出发，结合图像的先验知识来约束超分辨率图像的生成。而基于学习的方法则是通过学习过程获得先验知识，来指导高分辨率图像生成。

随着深度学习的流行，出现了很多基于深度学习的图像超分辨率重建算法，一类主要是通过不断增加网络深度与宽度，提高模型的重建性能，从而重建出高质量的重建结果，比如EDSR、RCAN以及SAN等等。这类方法虽然可以获得较高的PSNR，但是网络的参数数量和计算量也大大增加，这限制了它们在现实世界中的应用；另一类是轻量级的图像超分辨率重建网络的研究，比如IMDN、RFDN、SMSR以及LAPAR等等，这类方法可以虽然可以以较低的参数量恢复出部分图像的细节，但是无法在模型的大小和性能之间实现良好的平衡。这些轻量级的超分辨率重建方法往往都是纯卷积神经网络模型，这也代表了这些网络只能提取局部特征，这并不利于图像纹理细节的恢复。

发明内容

针对现有技术中存在的上述问题，本发明提出一种将卷积神经网络与Transformer相结合的轻量级单图像超分辨率重建方法，该方法可以在较低的参数量和计算量的情况下，恢复出更多的细节特征，缓解了现有轻量级图像超分辨率重建方法无法实现模型性能和大小之间的平衡的问题。

为实现上述目的，本发明的技术方案为：

一种将卷积神经网络与Transformer相结合的轻量级单图像超分辨率重建方法，包括以下步骤：

步骤1：对单图像超分辨率重建训练数据集中的原始数据进行预处理，构建出成对的低分辨率图像-高分辨率图像训练数据；

步骤2：构建卷积神经网络与Transformer相结合的轻量级单图像超分辨率重建网络，将预处理好的训练数据输入到网络中；

步骤3：采用L1作为训练损失函数进行训练，得到最终的训练好的超分辨率重建网络模型；

步骤4：加载上述模型，将所需要超分的图片输入到超分辨率重建网络模型中，得到低分辨率图像所对应的高分辨率图像。

进一步地，步骤1具体包括：

步骤1.1：将原始数据集中高分辨率图像(High Resolution,HR)进行裁剪操作，每张图片裁剪若干张128×128的子图，用来扩充数据集；

步骤1.2：通过MATLAB使用双三次核函数对高分辨率图像进行4倍的下采样从而获得低分辨率图像(Low Resolution,LR)，采用成对的LR-HR作为超分辨率重建网络的训练集。

进一步地，步骤2具体包括：

步骤2.1：首先将I_LR输入到非对称卷积模块(Asymmetric Convolution Block,ACB)中进行浅层特征提取，具体的公式如下所示：

F_ACB＝f_ACB(I_LR) (1)

其中F_ACB代表经过ACB模块提取到的浅层特征；f_ACB(·)表示的是ACB模块的功能函数，I_LR代表的是输入的低分辨率图像。

进一步地，步骤2.1具体包括：

以往大多数的单图像超分辨率重建网络都采用单一的3×3标准卷积作为网络的第一层，用来提取浅层特征。但是，这种方法提取到的特征尺度单一并且特征内容不够丰富。本发明在网络的第一层采用了ACB模块(网络结构如图2所示)即使用3×3、1×3以及3×1卷积核来从输入图像中提取浅层特征，与只采用单一3×3卷积核提取特征相比，ACB模块还可以提升模型对图像翻转和旋转的鲁棒性。最后将以上三个卷积层的计算结果进行融合从而获得最终卷积层的输出。ACB模块的完整操作定义如下所示：

F_ACB＝f_3×3(I_LR)+f_1×3(I_LR)+f_3×1(I_LR) (2)

其中，f_3×3(·)、f_1×3(·)和f_3×1(·)分别表示卷积核大小为3×3、1×3和3×1的卷积功能函数。

步骤2.2：将步骤2.1经过浅层特征提取得到的结果输入到本发明的基于多尺度特征融合注意力的卷积神经网络(Multi-scale Feature Fusion CNN,MFF-CNN)当中(网络结构如图3所示)，其计算公式下所示：

F_MFF-CNN＝f_MFF-CNN(F_ACB) (3)

其中，F_MFF-CNN表示的是经过MFF-CNN网络提取得到的局部特征，f_MFF-CNN(·)表示的是MFF-CNN网络的功能函数。

进一步地，步骤2.2具体包括：

步骤2.2.1：MFF-CNN主要由14个多尺度特征融合模块(Multiscale FeatureFusion module,MFFM)构成，将上述提取好的特征F_ACB送入到MFFM模块中，将会首先进入到移动卷积模块(Mobile convolution module,MBConv)，MBConv采用了1×1的卷积以及3×3的反卷积来进行特征提取，其具体计算如下所示：

F_MBConv＝f_1×1(f_SCA(f_d3×3(f_1×1(LN(F_ACB)))))+F_ACB (4)

其中F_MBConv代表经过MBConv模块提取到的局部特征，LN表示的是LayerNorm归一化方法，f_1×1(·)表示的是卷积核大小为1×1的卷积功能函数，f_d3×3(·)表示的是3×3的深度卷积(Depthwise)，f_SCA(·)表示的是高效注意力SCA模块的功能函数，SCA模块是在通道注意力SENet基础上，去掉多余的卷积层以及激活函数，并且为了拥有一定的计算复杂度，将SCA的特征维度调整为原来的4倍。

步骤2.2.2：将以上得到的结果F_MBConv送入到多尺度前馈网络(MultiscaleFeedforward Network,MFFN)中，MFFN采用LN归一化以及两个1×1的卷积进行特征提取，得到输出结果F₁，公式如下：

F₁＝f_1×1(f_1×1(LN(F_MBConv))) (6)

步骤2.2.3：其次将F₁和F_MBConv送入到多尺度通道注意力模块(Multi-ScaleChannel Attention Module,MS-CAM)，得到输出结果F₂，其具体的公式如下所示：

F₂＝f_MS-CAM(F₁+F_MBConv) (7)

Y＝F₁+F_MBConv (9)

其中f_MS-CAM(·)表示的是MS-CAM模块的功能函数，表示的是点积运算，Y表示的是F₁与F_MBConv两者之和。

步骤2.2.4：然后，将上述得到的结果F₁与F₂相加，从而得到最终的输出F_MFFM，其公式如下：

步骤2.2.5：最终，将输入到MFF-CNN网络中的所有输出通过Concat串联起来，得到最终的输出结果F_MFF-CNN，公式如下所示：

在这里，表示第i个MFFM模块的输出，/>表示的是第i个MFFM模块的功能函数，n表示的是MFFM模块的数量，F_MFF-CNN表示MFF-CNN网络的输出，Concat表示的是沿通道的串联操作。

步骤2.3：将经过多尺度特征融合注意力的卷积神经网络提取到的特征F_MFF-CNN送入到多重注意力模块当中，其公式如下：

F_MAB＝f_3×3(f_MAB(f_3×3(F_MFF-CNN))) (14)

其中，F_MAB代表经过MAB模块学习到的特征，f_MAB(·)表示的是MAB模块的功能函数。

进一步地，步骤2.3具体包括：

步骤2.3.1：将F_MFF-CNN首先送入到含有通道注意力和Transformer的模块当中，得到输出结果F_mid，其公式如下所示：

F_mid＝f_MDTA(LN(f_3×3(F_MFF-CNN)))+f_SCA(LN(f_3×3(F_MFF-CNN)))+f_3×3(F_MFF-CNN) (15)

其中，f_MDTA(·)表示原Restormer网络中的MDTA模块的功能函数。

步骤2.3.2：将上述得到的结果F_mid送入到GDFN模块当中，从而得到输出结果F_out，最后送入到一个3×3的卷积当中，从而得到最终的输出结果F_MAB，其计算公式如下：

F_out＝F_mid+f_GDFN(LN(F_mid)) (16)

F_MAB＝f_3×3(F_out) (17)

其中，f_GDFN(·)表示原Restormer网络中的GDFN模块的功能函数。

步骤2.4：将上述得到的输出结果F_MAB以及F_ACB输入到最后的上采样重建模块中，得到最终重建出来的高分辨率图像，并且保存训练模型和评价指标，输出可以用如下公式表示：

I_SR＝f_Sub-pixel(F_MAB+F_ACB) (18)

其中，I_SR代表的是最终网络重建出来的高分辨率图像。

进一步地，所述步骤3具体包括：

在整个网络训练过程中，本发明仅采用了L1作为损失函数。具体来说，对于给定成对的训练数据L1损失函数公式可如下表示：

其中，表示的是本发明所提网络的参数设置，F(I_LR)＝I_SR表示的是最终重建结果图像，N表示的是用来训练图片的数量。

进一步，所述步骤4具体包括：

加载步骤3中训练好的模型model_best，将低分辨率图像输入到模型中，并输出重建的SR图像以及相应的评价指标。

本发明的有益效果：本发明集成了卷积神经网络和Transformer各自的特点，可以有效地提取图像的局部以及全局信息，并且在Transformer中引入通道注意力从而激活更多的像素，能够在保持较低水平的计算量同时提取更多的特征。相比于以往的轻量级图像超分辨率重建方法，本发明能够在较低的参数量以及计算量情况下重建出更多的纹理细节。

附图说明

图1为轻量级的将卷积神经网络与Transformer相结合的图像超分辨率重建网络(MMSR)的完整结构图；

图2为ACB模块具体结构图；

图3为MFFM模块结构图；

图4为MAB结构图。

具体实施方式

本发明的实施例是在以本发明技术方案为前提下进行实施的，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述实施例。

以下结合实施例对本发明做详细的说明，以使本领域普通技术人员参照本说明书后能够据以实施。

本实施例以Windows系统为开发环境，以PyCharm为开发平台，Python为开发语言，采用本发明的将卷积神经网络与Transformer相结合的轻量级单图像超分辨率重建方法，完成低分辨率图像到高分辨率图像的重建。

本实施例中，将卷积神经网络与Transformer相结合的轻量级单图像超分辨率重建方法，包括以下步骤：

步骤2：构建将卷积神经网络与Transformer相结合的轻量级单图像超分辨率重建网络，将预处理好的训练数据输入到网络中(如图1所示)；

步骤4：将所需要超分辨率的图像作为输入，加载步骤3训练完保存的模型，得到低分辨率图像对应的高分辨率图像以及相应的评价指标。将峰值信噪比(Peak Signal toNoise Ratio,PSNR)以及SSIM(the Structural Similarity,SSIM)作为客观评价指标，同时采用参数量(Params)来衡量模型大小，PSNR的计算公式如公式下所示：

这里的表示图像点颜色的最大数值，MSE表示的是均方误差。

根据以上步骤，本发明提出两种不同大小的模型(MMSR和MMSR_L)，并且在五个不同的测试集(Set5、Set14、BSD100、Urban100以及Manga109)上与MADNet模型、AWSRNM模型、LAPAR-A模型、SMSR模型、LBNet模型以及ESRT模型在放大倍率为×2、×3以及×4上进行对比。从表1、表2以及表3中可以看出，本发明提出方法在五个常见的测试集上可以以降低的参数量取得更加优秀的PSNR值。

表1在×2上与最先进的SISR模型的定量比较

注：最好和次好的结果分别被突出显示和下划线标出。

表2在×3上与最先进的SISR模型的定量比较

注：最好和次好的结果分别被突出显示和下划线标出。

表3在×4上与最先进的SISR模型的定量比较

注：最好和次好的结果分别被突出显示和下划线标出。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.一种卷积神经网络与Transformer相结合的轻量级单图像超分辨率重建方法，其特征在于，该方法包括以下步骤：

步骤4：加载步骤3得到的模型，将所需要超分的图片输入到超分辨率重建网络模型中，得到低分辨率图像所对应的高分辨率图像。

2.根据权利要求1所述的方法，其特征在于，所述步骤1具体包括：

步骤1.1：将原始数据集中高分辨率图像HR进行裁剪操作，每张图片裁剪若干张128×128的子图，用来扩充数据集；

步骤1.2：通过MATLAB使用双三次核函数对高分辨率图像进行4倍的下采样从而获得低分辨率图像LR，采用成对的LR-HR作为超分辨率重建网络的训练集。

3.根据权利要求1或2所述的方法，其特征在于，所述步骤2具体包括：

步骤2.1：首先将I_LR输入到非对称卷积模块ACB中进行浅层特征提取，具体的公式如下所示：

F_ACB＝f_ACB(I_LR) (1)

其中F_ACB代表经过ACB模块提取到的浅层特征；f_ACB(·)表示的是ACB模块的功能函数，I_LR代表的是输入的低分辨率图像；

步骤2.2：将步骤2.1经过浅层特征提取得到的结果输入到基于多尺度特征融合注意力的卷积神经网络MFF-CNN中，其计算公式下所示：

F_MFF-CNN＝f_MFF-CNN(F_ACB) (2)

其中，F_MFF-CNN表示的是经过MFF-CNN网络提取得到的局部特征，f_MFF-CNN(·)表示的是MFF-CNN网络的功能函数；

步骤2.3：将经过多尺度特征融合注意力的网络提取到的特征F_MFF-CNN送入到多重注意力模块当中，其公式如下：

F_MAB＝f_3×3(f_MAB(f_3×3(F_MFF-CNN))) (3)

其中，F_MAB代表经过MAB模块学习到的特征，f_MAB(·)表示的是MAB模块的功能函数；

步骤2.4：将得到的输出结果F_MAB以及F_ACB输入到最后的上采样重建模块中，得到最终重建出来的高分辨率图像，并且保存训练模型和评价指标，输出用如下公式表示：

I_SR＝f_Sub-pixel(F_MAB+F_ACB) (4)

其中，I_SR代表的是最终网络重建出来的高分辨率图像。

4.根据权利要求3所述的方法，其特征在于，所述步骤2.1具体包括：

在网络的第一层采用ACB模块，即使用3×3、1×3以及3×1卷积核来从输入图像中提取浅层特征，最后将以上三个卷积层的计算结果进行融合从而获得最终卷积层的输出；ACB模块的完整操作定义如下所示：

F_ACB＝f_3×3(I_LR)+f_1×3(I_LR)+f_3×1(I_LR) (5)

5.根据权利要求3所述的方法，其特征在于，所述步骤2.2具体包括：

步骤2.2.1：MFF-CNN主要由14个多尺度特征融合模块MFFM构成，将提取好的特征F_ACB送入到MFFM模块中，将会首先进入到移动卷积模块MBConv，MBConv采用了1×1的卷积以及3×3的反卷积来进行特征提取，其具体计算如下所示：

F_MBConv＝f_1×1(f_SCA(f_d3×3(f_1×1(LN(F_ACB)))))+F_ACB (6)

其中F_MBConv代表经过MBConv模块提取到的局部特征，LN表示的是LayerNorm归一化技术，f_1×1(·)表示的是卷积核大小为1×1的卷积功能函数，f_d3×3(·)表示的是3×3的深度卷积(Depthwise)，f_SCA(·)表示的是高效注意力SCA模块的功能函数，SCA模块是在通道注意力SENet基础上，去掉多余的卷积层以及激活函数，并且为了拥有一定的计算复杂度，将SCA的特征维度调整为原来的4倍；

步骤2.2.2：将以上得到的结果F_MBConv送入到多尺度前馈网络MFFN中，MFFN采用LN归一化以及两个1×1的卷积进行特征提取，得到输出结果F₁，公式如下：

F₁＝f_1×1(f_1×1(LN(F_MBConv))) (8)

步骤2.2.3：其次将F₁和F_MBConv送入到多尺度通道注意力模块MS-CAM，得到输出结果F₂，其具体的公式如下所示：

F₂＝f_MS-CAM(F₁+F_MBConv) (9)

Y＝F₁+F_MBConv (11)

其中f_MS-CAM(·)表示的是MS-CAM模块的功能函数，表示的是点积运算，Y表示的是F₁与F_MBConv两者之和；

步骤2.2.5：最终，将输入到MFF-CNN网络中的所有输出通过Contact串联起来，得到最终的输出结果F_MFF-CNN，公式如下所示：

在这里，表示第i个MFFM模块的输出，/>表示的是第i个MFFM模块的功能函数，n表示的是MFFM模块的数量，F_MFF-CNN表示MFF-CNN网络的输出，Contact表示的是沿通道的串联操作。

6.根据权利要求3所述的方法，其特征在于，所述步骤2.3具体包括：

F_mid＝f_MDTA(LN(f_3×3(F_MFF-CNN)))+f_SCA(LN(f_3×3(F_MFF-CNN)))+f_3×3(F_MFF-CNN) (16)

其中，f_MDTA(·)表示原Restormer网络中的MDTA模块的功能函数；

步骤2.3.2：其次，将上述得到的结果F_mid送入到GDFN模块当中，从而得到输出结果F_out，最后送入到一个3×3的卷积当中，从而得到最终的输出结果F_MAB，其计算公式如下：

F_out＝F_mid+f_GDFN(LN(F_mid)) (17)

F_MAB＝f_3×3(F_out) (18)

其中，f_GDFN(·)分别表示原Restormer网络中的GDFN模块的功能函数。

7.根据权利要求1、2、4、5或6所述的方法，其特征在于，所述步骤3具体包括：

对于给定成对的训练数据L1损失函数公式如下表示：

其中，表示的是所提网络的参数设置，F(I_LR)＝I_SR表示的是最终重建结果图像，N表示的是用来训练图片的数量。

8.根据权利要求1、2、4、5或6所述的方法，其特征在于，所述步骤4具体包括：