CN115546032A

CN115546032A - 一种基于特征融合与注意力机制的单帧图像超分辨率方法

Info

Publication number: CN115546032A
Application number: CN202211528666.5A
Authority: CN
Inventors: 黄德天; 陈菲杨; 黄诚惕; 许少健; 徐正军; 黄小茜
Original assignee: Quanzhou Blue Collar Internet Of Things Technology Co ltd
Current assignee: Quanzhou Blue Collar Internet Of Things Technology Co ltd
Priority date: 2022-12-01
Filing date: 2022-12-01
Publication date: 2022-12-30
Anticipated expiration: 2042-12-01
Also published as: CN115546032B

Abstract

本发明属于图像处理技术领域，具体涉及一种基于特征融合与注意力机制的单帧图像超分辨率方法，具体包括以下步骤：步骤一、制作数据集与标签；步骤二、构建基于多尺度特征融合的单帧图像超分辨率网络；步骤三、将混合注意力机制引入基于多尺度特征融合单帧图像超分辨率网络，得到基于特征融合与注意力机制的超分辨率网络；步骤四、使用所述基于特征融合与注意力机制的超分辨率网络对待重建的低分辨率图像进行重建，获得网络输出的高分辨率图像。克服了现有技术的不足，在经典超分辨率方法的基础上，引入多尺度特征融合与混合注意力机制，提供多尺度的特征信息，并且剔除冗余特征，以增强模型的深度特征提取能力。

Description

一种基于特征融合与注意力机制的单帧图像超分辨率方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于特征融合与注意力机制的单帧图像超分辨率方法。

背景技术

单帧图像的超分辨率(Single image super resolution, SISR)在计算机视觉领域中应用广泛，例如医学图像、视频监控、遥感图像以及视频传输等等。

SISR是根据已有的低分辨率(Low resolution, LR)图像，通过软件处理生成其对应的高分辨率(High resolution, HR)图像。随着深度学习的发展，基于卷积神经网络(Convolutional neural network, CNN)的方法已经远超了传统的插值算法，并且可以从HR-LR图像块之间学习到更加精准的映射关系，重建的HR图像质量也更高。因此，基于CNN的方法是当前阶段单幅图像的超分辨率研究的主要方法。

基于深度学习的超分辨率方法大致可以分为两类。第一类是以生成对抗网络为基础。这类方法通过优化感知损失，使得生成的HR图像更加符合人类的主观视觉感受。但是，这类方法得到的重建图像的PSNR（峰值信噪比，Peak Signal-to-Noise Ratio）和SSIM（结构相似性，Structural Similarity）指标较低，并且细节纹理上与原始图像差异较大，因此在实际应用中存在的缺陷也较为明显。

第二类是则是更加重视重建图像的细节和纹理特征，其客观指标相对第一种方法也更高。但是，这类方法依然存在一些问题。首先，为了提高重建图像的质量，这类方法对应的模型往往需要堆叠大量的模块，以增加网络的深度，但这导致模型训练难度较大，时间较长。其次，由于大部分这类方法缺乏对特征提取模块的思考与研究，导致提取出的深度特征较弱。例如，这些模型缺乏自适应区分重要特征与次要特征的能力，将所有的特征信息平等看待，因此不可避免地影响了重建图像的高频特征。

发明内容

本发明的目的在于提供一种基于特征融合与注意力机制的单帧图像超分辨率方法，克服原有经典超分辨率模型提取的特征信息过于单一的问题，提供多尺度的特征信息，并且剔除冗余特征。

为解决上述问题，本发明所采取的技术方案如下：

一种基于特征融合与注意力机制的单帧图像超分辨率方法，具体包括以下步骤：

步骤一、制作数据集与标签；

步骤二、构建基于多尺度特征融合的单帧图像超分辨率网络；

步骤三、将混合注意力机制引入基于多尺度特征融合单帧图像超分辨率网络，得到基于特征融合与注意力机制的超分辨率网络；

步骤四、使用所述基于特征融合与注意力机制的超分辨率网络对待重建的低分辨率图像进行重建，获得网络输出的高分辨率图像。

进一步，步骤一中所述制作数据集与标签，具体步骤包括：

S1、从经典的DIV2K数据集中得到800张高分辨率图像用于训练网络，并选择公开的Set5、Set14、B100和Urban100数据集用于测试网络的性能；

S2、取上述数据集中的图像进行下采样操作，得到其指定缩小倍数的低分辨率图像；

S3、将低分辨率图像裁剪成48*48大小的LR图像块，将其作为模型输入，并且将LR图像块对应的HR图像裁剪为（48*scale）*（48*scale）大小，将其作为输入对应的标签；其中scale表示指定的放大倍数；

S4、对训练图像进行随机进行旋转90º、180º、270º和水平翻转中一项操作，增加训练集的图像数量，再重复S2、S3以得到充足的训练图像与对应标签。

进一步，步骤二中所述基于多尺度特征融合的单帧图像超分辨率网络由3个卷积层、深度特征提取模块和基于亚像素卷积的上采样模块组成，所述深度特征提取模块中包含多尺度特征融合模块；

所述深度特征提取模块还包括4个ResNet中的基本残差块与1个卷积层，其中所述基本残差块中的所有归一化操作被移除；

所述多尺度特征融合模块通过多种不同感受野的卷积核、Relu激活操作及Concat操作，得到拥有多尺度信息的特征图。

进一步，所述通过多种不同感受野的卷积核、Relu激活操作及Concat操作，由三个不同感受野的特征提取单元并联组成，分别为第一特征提取单元、第二特征提取单元、第三特征提取单元；

其中，每个特征提取单元由两组Conv+Relu单元组成，第一特征提取单元中Conv卷积核大小为1*1，第二特征提取单元中Conv卷积核大小为3*3，第三特征提取单元中Conv卷积核大小为5*5；且三个特征提取单元的卷积核的数量均为64个；

在每个提取单元中，第1组Conv+Relu单元提取的特征会被输入到所有特征提取单元的第2组Conv+Relu单元，使得不同特征提取单元的特征信息共享互通；

输入第2组Conv+Relu单元的特征信息的初始通道数为192，经过Concat操作后，该特征信息通道数调整为64。

进一步，所述多尺度特征融合模块还包括特征融合单元，且特征融合单元由一个Concat层、1个卷积核大小为1*1的Conv层构成、1个残差连接操作；

具体步骤为：获取由三种不同感受野的特征提取单元分别提取后的三种不同尺度的特征，将三种不同尺度的特征输入Concat层，进行不同尺度信息的特征融合，再经过一个1*1的Conv层，增强特征信息，最后利用残差连接操作，与初始特征信息求和，得到多尺度特征融合模块的输出特征信息。

进一步，步骤三中所述混合注意力机制，具体为：将通道注意力机制与空间注意力机制并联使用，并组合两个注意力机制中前期处理所得的特征信息权重，再进行Sigmoid操作，最终与初始信息求和，得到输出结果。

进一步，所述通道注意力机制与空间注意力机制并联使用，具体为：

通道注意力机制依次由一个全局池化层、一个Conv层、一个Relu激活层、一个Conv层串联组成，且上述Conv层均使用1*1的卷积核，其数量为64；

空间注意力机制依次由一个Conv层、一个Relu激活层、一个Conv层串联组成，且上述Conv层均使用3*3的卷积核，其数量为64。

进一步，步骤四中所述使用所述基于特征融合与注意力机制的超分辨率网络对待重建的低分辨率图像进行重建，具体步骤包括：

将48*48*3维度的低分辨率图像作为输入，经过基于特征融合与注意力机制的超分辨率网络的处理后其输出是一幅（48*scale）*（48*scale）*3维度的高分辨率图像；其中，scale表示指定的放大倍数。

本发明与现有技术相比较，具有以下有益效果：

1.本发明通过引入多尺度特征融合机制，可以提取并融合不同大小尺度的特征，以获得更加有用的图像特征，从而为深度特征提取提供更具指导意义的尺度信息。

2.本发明通过引入混合注意力机制能够动态地优化残差模块来提取深度特征，并有效的剔除冗余特征量，增强网络对深层特征的辨识能力。

附图说明

图1为本发明的流程示意图；

图2为本发明的网络框架示意图；

图3为本发明中深度特征提取模块示意图；

图4为本发明中多尺度特征融合模块示意图；

图5为本发明中混合注意力机制示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1-图5所示，本发明所述一种基于特征融合与注意力机制的单帧图像超分辨率方法，包括以下步骤：

步骤一、制作数据集与标签；

步骤四、使用基于特征融合与注意力机制的超分辨率网络对待重建的低分辨率图像进行重建，获得网络输出的高分辨率图像。

为了进一步解释本发明的技术方案，下面通过具体实施例对本发明进行详细阐述。

1.制作数据集

从经典的DIV2K数据集中得到800张高分辨率图像用于训练网络，并选择公开的Set5、Set14、B100和Urban100数据集用于测试网络的性能。首先，我们将这些数据集中的图像进行下采样操作，得到其指定缩小倍数的低分辨率图像。然后，我们将低分辨率图像裁剪成48*48大小的LR图像块，将其作为模型输入，并且将LR图像块对应的HR图像裁剪为（48*scale）*（48*scale）大小，将其作为输入对应的标签。其中，scale表示指定的放大倍数。最后，我们对训练图像进行随机旋转90º、180º、270º和水平翻转等操作，以增加训练集的图像数量。由此，得到充足的训练图像与对应标签。

2. 构建基于多尺度特征融合的单帧图像超分辨率网络

构建基于多尺度特征融合的单帧图像超分辨率网络，该网络由3个卷积层、深度特征提取模块和基于亚像素卷积的上采样模块组成。其中，深度特征提取模块中包含多尺度特征融合模块(Multi-scale feature fusion block, MSFFB)；

所述深度特征提取模块还包括4个ResNet中的基本残差块与1个卷积层，其中上述基本残差块中的所有归一化操作被移除。

所述多尺度特征融合模块利用多种不同感受野的卷积（Convolution, Conv）、Relu（Rectified Linear Unit）激活操作、Concat操作，从而得到拥有多尺度信息的特征图，有利于图像高频信息的重建。特别的是，与专利CN11433183的方法中简单利用1*1卷积层的做法不同，提出的多尺度特征融合模块分两步利用1*1的卷积层，并将其提取的特征信息参与到特征融合，从而使该感受野下的信息得到有效利用，进而更有利于高质量图像的重建。

利用多种不同感受野的卷积核、Relu激活操作、Concat操作，该过程由3个不同感受野的特征提取单元并联组成，即由第一特征提取单元，第二特征提取单元，第三特征提取单元并联组成。

其中，每个特征提取单元由两组Conv+Relu单元组成，第一特征提取单元中Conv卷积核大小为1*1；第二特征提取单元中Conv卷积核大小为3*3；第三特征提取单元中Conv卷积核大小为5*5；所有特征提取单元的卷积核的数量均为64个。

在每个提取单元中，第1组Conv+Relu单元提取的特征会被输入到所有特征提取单元的第2组Conv+Relu单元，使得不同特征提取单元的特征信息共享互通。输入第2组Conv+Relu单元的特征信息的初始通道数为192，经过特征信息在通道维度叠加操作(Concat)后，该特征信息的通道数会被调整为64。

特征融合单元由一个Concat层、1个卷积核大小为1*1的Conv层构成、1个残差连接操作。

前部3个并联特征提取单元得到3种不同尺度的特征后，先将3种不同尺度的特征输入Concat层，以进行不同尺度信息的特征融合，再经过一个1*1的Conv层，以增强特征信息，最后利用残差连接操作，与初始特征信息求和，得到多尺度特征融合模块的输出特征信息。

3. 将混合注意力机制加入深度特征提取模块尾部。其中，混合注意力机制将混合注意力机制引入基于多尺度特征融合单帧图像超分辨率网络，得到基于特征融合与注意力机制的超分辨率网络

将通道注意力机制与空间注意力机制并联使用，并组合两个注意力机制中前期处理所得的特征信息权重，再进行Sigmoid操作，最终与初始信息求和，得到输出结果。

特别的是，专利CN111192200A的方法中简单串联空间注意力机制与通道注意力机制，并利用两种注意力分两次加权。但是，分两次加权会造成额外的资源使用，不利于权衡性能与效率。而提出的混合注意力机制在一次重新加权的过程中，在sigmoid操作前叠加使用空间注意力机制与通道注意力机制。这样的做法不仅提高了重建图像质量，而且没有耗费过多的计算资源。

通道注意力机制与空间注意力机制并联使用。具体为：通道注意力机制依次由一个全局池化层（Global Pooling）、一个Conv层、一个Relu激活层、一个Conv层串联组成。上述Conv层均使用1*1的卷积核，其数量为64。空间注意力机制依次由一个Conv层、一个Relu激活层、一个Conv层串联组成。上述Conv层均使用3*3的卷积核，其数量为64。

4. 使用基于特征融合与注意力机制的超分辨率网络对待重建的低分辨率图像进行重建，得到重建结果

将48*48*3维度的低分辨率图像作为的一种基于特征融合与注意力机制的单帧图像超分辨率方法的输入，其得到的输出是一幅（48*scale）*（48*scale）*3维度的高分辨率输出。其中，scale表示需要的放大倍数，例如scale为2、3或4。

5.消融实验

在消融实验的过程中，我们在测试一个模块性能时，总是保证同组实验内不同实验项目使用的基本模块与网络结构相同，以稳定非实验变量。

表1

表2

A．在移除多尺度特征融合模块MSFFB后，与加入多尺度融合特征时作对比，结果见表1所示。实验选择的放大倍数为3倍，分别测试了Set5、Set14、B100、以及Urban100的平均PSNR变化。从表1可以得出，在使用多尺度特征融合模块提取图像的融合特征后，可以学习到更多有助于图像重建的多尺度信息，从而使得PSNR有明显的改善，进而也为后续深度特征的提取提供了保证。

B. 从表2可以看出，相比于无使用任何注意力机制的情况，在只引入的空间注意力机制PSNR整体提升较小；在只引入通道注意力机制时，PSNR提升略微改善，其中在Urban100数据集上测试的平均PSNR提升0.05dB，较为明显；在引入混合注意力时，表现最好，尤其是Set5数据集测试的平均PSNR提升了0.08dB，而其他三个数据集也均有所提升，4个基准数据集测试的PSNR总体平均提升0.05dB。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种基于特征融合与注意力机制的单帧图像超分辨率方法，其特征在于：具体包括以下步骤：

步骤一、制作数据集与标签；

步骤四、使用所述基于特征融合与注意力机制的超分辨率网络对待重建的低分辨率图像进行重建，获得网络输出的高分辨率图像；

步骤二中所述基于多尺度特征融合的单帧图像超分辨率网络由3个卷积层、深度特征提取模块和基于亚像素卷积的上采样模块组成，所述深度特征提取模块中包含多尺度特征融合模块；

所述多尺度特征融合模块通过多种不同感受野的卷积核、Relu激活操作及Concat操作，得到拥有多尺度信息的特征图；

所述通过多种不同感受野的卷积核、Relu激活操作及Concat操作，由三个不同感受野的特征提取单元并联组成，分别为第一特征提取单元、第二特征提取单元、第三特征提取单元；

输入第2组Conv+Relu单元的特征信息的初始通道数为192，经过Concat操作后，该特征信息通道数调整为64；

所述多尺度特征融合模块还包括特征融合单元，且特征融合单元由一个Concat层、1个卷积核大小为1*1的Conv层构成、1个残差连接操作；

2.根据权利要求1所述的一种基于特征融合与注意力机制的单帧图像超分辨率方法，其特征在于：步骤一中所述制作数据集与标签，具体步骤包括：

3.根据权利要求1所述的一种基于特征融合与注意力机制的单帧图像超分辨率方法，其特征在于：步骤三中所述混合注意力机制，具体为：将通道注意力机制与空间注意力机制并联使用，并组合两个注意力机制中前期处理所得的特征信息权重，再进行Sigmoid操作，最终与初始信息求和，得到输出结果。

4.根据权利要求3所述的一种基于特征融合与注意力机制的单帧图像超分辨率方法，其特征在于：所述通道注意力机制与空间注意力机制并联使用，具体为：

5.根据权利要求1所述的一种基于特征融合与注意力机制的单帧图像超分辨率方法，其特征在于：步骤四中所述使用所述基于特征融合与注意力机制的超分辨率网络对待重建的低分辨率图像进行重建，具体步骤包括：