CN117218005A

CN117218005A - 基于全距离特征聚合的单帧图像超分辨率方法及系统

Info

Publication number: CN117218005A
Application number: CN202311476526.2A
Authority: CN
Inventors: 朱显丞; 黄德天; 于耀博; 李肖蕊; 曾焕强
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2023-11-08
Filing date: 2023-11-08
Publication date: 2023-12-12
Anticipated expiration: 2043-11-08
Also published as: CN117218005B

Abstract

本发明涉及图像超分辨率的技术领域，公开了一种基于全距离特征聚合的单帧图像超分辨率方法及系统，包括以下步骤：利用通道上采样卷积层，将输入的低分辨率图像转换为通道数为C的浅层特征图；对浅层特征图进行短距离、中距离和长距离的特征提取，并聚合成为全距离特征图；利用基于亚像素卷积的通道下采样卷积层，将全距离特征图的通道数由C下采样至输入的低分辨率图像的通道数。本发明提供的超分辨率方法克服了原有经典超分辨率模型提取的特征信息尺度单一的问题，充分利用多尺度特征信息以复原精细的细节，同时抑制冗余噪声对图像重建的干扰。

Description

基于全距离特征聚合的单帧图像超分辨率方法及系统

技术领域

本发明涉及图像超分辨率技术领域，尤其涉及基于全距离特征聚合的单帧图像超分辨率方法及系统。

背景技术

作为计算机视觉最关键的任务之一，图像超分辨(Super-Resolution, SR)能够通过已有的单幅或多幅低分辨率(Low Resolution, LR)图像重建出具有丰富细节的高分辨率(High Resolution, HR)图像。由于SR可以突破成像器件自身固有分辨率的限制，成为了一种实现高质量图像重建的有效方法，并被广泛应用于医学诊断、遥感成像、视频监控、人脸识别、机器视觉、模式识别等领域。例如，高分辨率的医学影像能有效辅助医生进行医疗疾病的诊断；高分辨率的遥感图像在军事侦察、资源开发、环境检测、灾害研究等领域具有非常重要的应用价值；高分辨率的监控视频有助于提高目标检测与识别的精度，为公安民警提供可靠的线索或罪证，从而提高案件侦察速度。

然而，SR本质上是一个典型的高度不适定问题，这是由于图像降质模型的不确定性与重建约束的不唯一性，大量不同的HR图像都可能映射为一幅相同的LR图像，或者一幅LR图像可能被逆映射为大量不同的HR图像，这使得SR的求解成为了机器视觉领域极具挑战性的问题之一。目前，深度学习由于其强大的特征表达能力，在SR任务中展现了出色的性能。同时，基于深度学习的SR方法由于其没有涉及到传统方法中的图像配准问题，仅使用单幅图像就可以实现HR图像的重建，受到了越来越多研究者的青睐。

现有的基于深度学习的SR方法大多采用均匀特征聚合策略（即通过单一算子的简单堆叠，如卷积层、自注意力模块），仅利用单一尺度的特征来重建图像，却忽略了多尺度特征之间的互补关系，不利于保持重建图像的结构信息并阻碍锐利且自然的细节复原。中国发明专利CN116823610A公开了一种基于深度学习的水下图像超分辨率生成方法，通过简单地利用卷积结构学习短距离依赖关系不同，因为普通的Transformer模块中的Softmax计算会放大噪声信息，因此难以有效避免冗余噪声干扰图像重建，且因为复杂而密集的自注意力计算，复杂度随着窗口尺寸的增加而呈二次方增加，该方法仅能在小尺寸窗口内建模长距离依赖关系。

发明内容

本发明的目的在于解决现有技术中仅利用单一尺度的特征，导致重建图像的结构信息有损且细节还原不足的技术问题，提供一种基于全距离特征聚合的单帧图像超分辨率方法，充分考虑待重建图像在不同尺度上（即，短距离、中距离、长距离）的特征关联，实现高质量且高效的图像复原。

本发明解决其技术问题所采用的技术方案是：一种基于全距离特征聚合的单帧图像超分辨率方法，包括以下步骤：

利用通道上采样卷积层，将输入的低分辨率图像转换为通道数为C的浅层特征图；

对浅层特征图进行短距离、中距离和长距离的特征提取，并聚合成为全距离特征图；

将全距离特征图转换为高分辨率图像，其中，亚像素卷积层确定图像放大倍数，通道下采样卷积层将全距离特征图的通道数由C下采样至输入的低分辨率图像的通道数。

优选的，所述对浅层特征图进行短距离、中距离和长距离的特征提取，并聚合成为全距离特征图，包括以下步骤：

利用短距离混合注意力模块，建立相邻位置的特征关联；

利用中距离稀疏Transformer模块，建立局部区域的特征关联；

利用长距离跨维度Transformer模块，建立全局的特征关联；

串联短距离混合注意力模块、中距离稀疏Transformer模块和长距离跨维度Transformer模块成为全距离特征聚合组，利用多个全距离特征聚合组获得全距离特征图。

优选的，短距离混合注意力模块由局部特征提取单元、通道注意力单元、空间注意力单元和坐标注意力单元构成，所述短距离混合注意力模块表示为：

其中，X1和Y1表示输入和输出，表示中间计算结果；/>表示空间注意力单元的函数，/>表示通道注意力单元的函数；/>表示坐标注意力单元的函数，用于强调输入特征图中有价值的区域；/>表示局部特征提取单元的函数，用于建立通道关联性并实现局部特征提取。

优选的，局部特征提取单元表示如下：

其中，表示缩放因子为2的通道下采样卷积的函数，其将输入特征图的通道数缩小为原来的2倍，/>表示缩放因子为2的通道上采样卷积的函数，其将输入特征图的通道数放大为原来的2倍，/>表示深度卷积的函数，/>表示GELU激活函数。

优选的，坐标注意力单元的处理过程为：

首先，对输入特征图分别执行一维水平平均池化计算和一维垂直平均池化计算，得到水平坐标向量/>和垂直坐标向量/>，其中C表示通道数，H表示特征图的长，W表示特征图的宽；

其次，将和/>拼接，依次经过缩放因子为2的通道下采样卷积层、批标准化层和全连接层得到全坐标向量/>，将/>拆分成中间水平坐标向量和中间垂直坐标向量/>，分别经过缩放因子为2的通道上采样卷积层，转化为水平坐标响应/>和垂直坐标响应/>；

再次，将和/>分别沿着垂直和水平方向复制W倍和H倍，得到水平坐标响应图和垂直坐标响应图/>；

最后，令和/>与/>作像素级相乘，以根据重要性逐像素地为/>赋值不同的权重，输出赋予像素不同权重的特征图。

优选的，中距离稀疏Transformer模块由层标准化单元、稀疏自注意力单元和多层感知单位构成，中距离稀疏Transformer模块表示如下：

其中，X2和Y2表示中距离稀疏Transformer模块的输入和输出，表示中间计算结果；/>表示层标准化层的函数，/>表示多层感知单元的函数，多层感知单位由全连接层-GELU激活函数单元-全连接层构成；/>表示稀疏自注意力单元的函数，用于抑制冗余特征对图像重建的干扰。

优选的，稀疏自注意力单元的处理过程具体为：

首先，将给定输入特征图X2分割为N个尺寸为S×S的非重叠窗口；利用三个全连接层和重排列，将/>转换为查询/>、键/>、值/>；

然后，执行基于Top-K的自注意力计算，表示如下：

其中，T表示转置操作，表示Softmax函数，/>表示关联矩阵；/>表示Top-K特征筛选操作，保留/>每列中数值最大的前K项，其余项均置为概率0；/>表示中间计算结果，/>表示重排列操作，其将/>的数据格式由/>转换为/>，/>表示输出的转换结果。

优选的，所述长距离跨维度Transformer模块由层标准化单元、跨维度自注意力单元和多层感知单位组成，表示如下：

其中，X3和Y3表示长距离跨维度Transformer模块的输入和输出，表示中间计算结果；/>表示层标准化层的函数；/>表示跨维度自注意力单元的函数，用于提取混合特征；/>为多层感知单元的函数，多层感知单元由全连接层-GELU激活函数单元-全连接层构成。

优选的，所述跨维度自注意力单元的执行过程具体为：

首先，以步长为2的方式对给定输入特征图执行稀疏采样，得到4幅尺寸为/>的非重叠网络/>；

其次，通过三个全连接层和重排列，生成查询/>、键/>、值；

再次，压缩K和V的通道维度至，并步长为2的方式对K和V执行空间-通道信息迁移操作，以将2×2非重叠局部区域内的标志的信息由空间维度转移至通道维度，从而获得和/>；

最后，执行自注意力计算如下：

其中，表示中间计算结果，/>表示重排列操作，将/>的数据格式转换为/>，/>为对应的转换结果。

本发明还提供一种基于全距离特征聚合的单帧图像超分辨率系统，用于上述任一方法，包括：

上采样模块，利用通道上采样卷积层，将输入的低分辨率图像转换为通道数为C的浅层特征图；

若干全距离特征聚合组，用于对浅层特征图进行短距离、中距离和长距离的特征提取，并聚合成为全距离特征图；

下采样模块，用于将全距离特征图转换为高分辨率图像，其中，亚像素卷积层确定图像放大倍数，通道下采样卷积层将全距离特征图的通道数由C下采样至输入的低分辨率图像的通道数。

本发明具有以下有益效果：

（1）在基于Transformer的单帧图像超分辨率方法的基础上，引入了全距离特征聚合策略，充分考虑待重建图像在不同尺度上（即短距离、中距离、长距离）的特征关联，实现对不同尺度信息的定制化编码，以增强模型的多尺度特征编码能力。与现有的单帧图像超分辨率方法相比，该方法大大提升了网络的多尺度特征提取能力，能够精细地复原重建图像的边缘纹理细节，同时能够抑制冗余噪声对图像重建的干扰。

（2）短距离混合注意力模块通过联合空间、通道和坐标注意力，充分考虑了局部特征在空间、通道维度上的关联性，能够有效抑制冗余的噪声信息并强调有价值的特征，从而有效提升超分辨率方法的局部建模能力。

（3）中距离稀疏Transformer模块在执行Softmax计算之前，通过Top-K特征筛选操作保留关键信息而去除冗余信息，从而缓解Softmax计算的缺陷。

（4）长距离跨维度Transformer模块应用了稀疏采样策略和跨维度自注意力技术，能够避免复杂而密集的自注意力计算，从而在大尺寸窗口内建模长距离依赖关系，捕捉到更多的全局信息。

以下结合附图及实施例对本发明作进一步详细说明，但本发明不局限于实施例。

附图说明

图1为本发明实施例的方法步骤图；

图2为本发明实施例的短距离混合注意力模块示意图；

图3为本发明实施例的坐标注意力单元示意图；

图4为本发明实施例的中距离稀疏Transformer模块示意图；

图5为本发明实施例的长距离跨维度Transformer模块示意图；

图6为本发明实施例的系统结构图。

具体实施方式

参见图1所示，为本发明实施例的方法步骤图，包括：

S101，利用通道上采样卷积层，将输入的低分辨率图像转换为通道数为C的浅层特征图；

S102，对浅层特征图进行短距离、中距离和长距离的特征提取，并聚合成为全距离特征图；

S103，将全距离特征图转换为高分辨率图像，其中，亚像素卷积层确定图像放大倍数，通道下采样卷积层将全距离特征图的通道数由C下采样至输入的低分辨率图像的通道数。

具体的，所述S102包括以下步骤：

S1021，利用短距离混合注意力模块，建立相邻位置的特征关联；

S1022，利用中距离稀疏Transformer模块，建立局部区域的特征关联；

S1023，利用长距离跨维度Transformer模块，建立全局的特征关联；

S1024，串联短距离混合注意力模块、中距离稀疏Transformer模块和长距离跨维度Transformer模块成为全距离特征聚合组，利用多个全距离特征聚合组获得全距离特征图；本实施例采用10个全距离特征聚合组获得全距离特征图。

参见图2所示，为本发明实施例的短距离混合注意力模块示意图，由局部特征提取单元、通道注意力单元、空间注意力单元和坐标注意力单元构成，所述短距离混合注意力模块表示为：

其中，X1和Y1表示输入和输出，表示中间计算结果；/>表示空间注意力单元的函数，/>表示通道注意力单元的函数；/>表示坐标注意力单元的函数，用于强调输入特征图中有价值的区域；/>表示局部特征提取单元的函数，用于建立通道关联性并实现局部特征提取，表示如下：

具体的，参见图3所示，为本发明实施例的坐标注意力单元示意图，处理过程为：

参见图4所示，为本发明实施例的中距离稀疏Transformer模块示意图，由层标准化单元、稀疏自注意力单元和多层感知单位构成，中距离稀疏Transformer模块表示如下：

具体的，稀疏自注意力单元的处理过程具体为：

首先，将给定输入特征图X2分割为N个尺寸为S×S的非重叠窗口；利用三个全连接层和重排列，将/>转换为查询/>、键/>、值/>；本实施例中，S设置为16；

然后，执行基于Top-K的自注意力计算，表示如下：

其中，T表示转置操作，表示Softmax函数，/>表示关联矩阵；/>表示Top-K特征筛选操作，保留/>每列中数值最大的前K项，其余项均置为概率0；表示中间计算结果，/>表示重排列操作，其将/>的数据格式由/>转换为/>，/>表示输出的转换结果。

参见图5所示，为本发明实施例的长距离跨维度Transformer模块示意图，由层标准化单元、跨维度自注意力单元和多层感知单位组成，表示如下：

具体的，所述跨维度自注意力单元的执行过程具体为：

其次，通过三个全连接层和重排列，生成查询/>、键/>、值；

最后，执行自注意力计算如下：

参见图6所示，为本发明实施例的系统结构图，包括：

上采样模块601，利用通道上采样卷积层，将输入的低分辨率图像转换为通道数为C的浅层特征图；

若干全距离特征聚合组602，用于对浅层特征图进行短距离、中距离和长距离的特征提取，并聚合成为全距离特征图；本实施例设置10个全距离特征聚合组602-1至602-10；

下采样模块601，用于将全距离特征图转换为高分辨率图像，其中，亚像素卷积层确定图像放大倍数，通道下采样卷积层将全距离特征图的通道数由C下采样至输入的低分辨率图像的通道数。

具体的，每个全距离特征聚合组包括串联起来的三个模块，分别为：

短距离混合注意力模块6021，用于建立相邻位置的特征关联；

中距离稀疏Transformer模块6022，用于建立局部区域的特征关联；

长距离跨维度Transformer模块6023，用于建立全局的特征关联。

本实施例中，将一幅尺寸大小为3×H×W的低分辨率图像输入所述基于全距离特征聚合的单帧图像超分辨率系统，其得到的输出是一幅尺寸大小为3×（H×scale）×（W×scale）的高分辨率图像，其中，scale的值为目标放大倍数，一般设置为2、3、4、8或16，通过设置亚像素卷积层的倍数参数来确定scale值。

可见，本发明提出基于全距离特征聚合的单帧图像超分辨率方法及系统，其通过充分考虑待重建图像在不同尺度上（即，短距离、中距离、长距离）的特征关联，实现高质量且高效的图像复原。本发明通过考虑输入特征图在空间、空间维度上的相互依赖关系，有效提升了超分辨率方法的局部建模能力；同时，中距离稀疏Transformer模块的应用有效抑制了冗余噪声对图像重建的不良影响，而长距离跨维度Transformer模块能够有效扩大感受野，从而显著提升长距离依赖关系的学习能力。

以上仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于全距离特征聚合的单帧图像超分辨率方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于全距离特征聚合的单帧图像超分辨率方法，其特征在于，所述对浅层特征图进行短距离、中距离和长距离的特征提取，并聚合成为全距离特征图，包括以下步骤：

利用短距离混合注意力模块，建立相邻位置的特征关联；

利用中距离稀疏Transformer模块，建立局部区域的特征关联；

利用长距离跨维度Transformer模块，建立全局的特征关联；

3.根据权利要求2所述的基于全距离特征聚合的单帧图像超分辨率方法，其特征在于，短距离混合注意力模块由局部特征提取单元、通道注意力单元、空间注意力单元和坐标注意力单元构成，所述短距离混合注意力模块表示为：

；

4.根据权利要求3所述的基于全距离特征聚合的单帧图像超分辨率方法，其特征在于，局部特征提取单元表示如下：

；

5.根据权利要求3所述的基于全距离特征聚合的单帧图像超分辨率方法，其特征在于，坐标注意力单元的处理过程为：

其次，将和/>拼接，依次经过缩放因子为2的通道下采样卷积层、批标准化层和全连接层得到全坐标向量/>，将/>拆分成中间水平坐标向量/>和中间垂直坐标向量/>，分别经过缩放因子为2的通道上采样卷积层，转化为水平坐标响应/>和垂直坐标响应/>；

6.根据权利要求2所述的基于全距离特征聚合的单帧图像超分辨率方法，其特征在于，中距离稀疏Transformer模块由层标准化单元、稀疏自注意力单元和多层感知单位构成，中距离稀疏Transformer模块表示如下：

；

其中，X2和Y2表示中距离稀疏Transformer模块的输入和输出，表示中间计算结果；表示层标准化层的函数，/>表示多层感知单元的函数，多层感知单位由全连接层-GELU激活函数单元-全连接层构成；/>表示稀疏自注意力单元的函数，用于抑制冗余特征对图像重建的干扰。

7.根据权利要求6所述的基于全距离特征聚合的单帧图像超分辨率方法，其特征在于，稀疏自注意力单元的处理过程具体为：

然后，执行基于Top-K的自注意力计算，表示如下：

；

其中，T表示转置操作，表示Softmax函数，/>表示关联矩阵；表示Top-K特征筛选操作，保留/>每列中数值最大的前K项，其余项均置为概率0；表示中间计算结果，/>表示重排列操作，其将/>的数据格式由/>转换为/>，/>表示输出的转换结果。

8.根据权利要求2所述的基于全距离特征聚合的单帧图像超分辨率方法，其特征在于，所述长距离跨维度Transformer模块由层标准化单元、跨维度自注意力单元和多层感知单位组成，表示如下：

；

9.根据权利要求8所述的基于全距离特征聚合的单帧图像超分辨率方法，其特征在于，所述跨维度自注意力单元的执行过程具体为：

首先，以步长为2的方式对给定输入特征图执行稀疏采样，得到4幅尺寸为的非重叠网络/>；

其次，通过三个全连接层和重排列，生成查询/>、键/>、值；

最后，执行自注意力计算如下：

；

10.一种基于全距离特征聚合的单帧图像超分辨率系统，用于实现权利要求1至9任一所述的方法，其特征在于，包括：