CN112862690B

CN112862690B - 一种基于Transformers的低分辨率图像超分辨方法及系统

Info

Publication number: CN112862690B
Application number: CN202110258617.3A
Authority: CN
Inventors: 严灵毓; 叶崇俊; 郑坤鹏; 李可; 高榕; 王春枝; 叶志伟
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2022-08-30
Anticipated expiration: 2041-03-09
Also published as: CN112862690A

Abstract

本发明公开了一种基于Transformers的低分辨率图像超分辨方法及系统，首先基于卷积神经网络和Transformer模块，构建低分辨率图像超分辨网络；然后利用训练数据进行低分辨率图像超分辨网络训练，获得调优的网络参数；最后利用训练好的低分辨率图像超分辨网络对低分辨率图像进行超分辨获得高分辨率图像。本发明自动化程度高，可以大幅度提高效率，降低成本。

Description

一种基于Transformers的低分辨率图像超分辨方法及系统

技术领域

本发明属于低分辨率图像超分辨技术领域，涉及一种低分辨率图像超分辨方法，具体涉及一种基于Transformers的低分辨率图像超分辨方法。

背景技术

随着计算机技术、信息处理技术和视觉通信技术的高速发展，人类进入了一个全新的信息化时代。人们所能能够获取的知识量呈爆炸式的增长，因此迫切的要求信息处理技术不断的完善和发展，以便能够为人们提供更加方便、快捷和多样化的服务。数字图像及其相关处理技术是信息处理技术的重要内容之一，在很多领域得到了越来越广泛的应用。对于数字图像在一些情况下一般要求是高分辨图像，如：医学图像要求能够显示出那些人眼不能辨别出的细微病灶；卫星地面要求卫星图像至少能够辨别出人的脸相甚至是证件；有些检测识别控制装置需要足够高分辨率的图像才能保证测量和控制的精度。因此提高图像分辨率是图像获取领域里追求的一个目标。

具有丰富细节的高分辨率图像对于许多地方的应用至关重要，例如目标检测与识别等。许多研究人员不是致力于物理成像技术，而是致力于使用一种称为超分辨率(Super-Resolution)的图像处理技术从低分辨率图像中恢复高分辨率图像。早期有许多关于图像超分辨率的研究，其中大多数是针对多幅图像设计的，其中使用一系列低分辨率图像来恢复高分辨率图像。最近的一些研究旨在通过学习从低分辨率图像到高分辨率图像的映射函数，并利用大量训练数据中的图像先验知识，从单个低分辨率图像中恢复高分辨率图像。

在遥感图像处理领域中，近年来已经提出了单图像和多图像超分辨率方法。Superresolution for remote sensing images based on a universal hidden Markov treemodel一文中提出了一种多图像超分辨率方法，称为具有最大后验的隐马尔可夫树模型。对于单遥感图像的超分辨率，通常使用自然图像统计的稀疏先验。Super-resolution basedon compressive sensing and structural self-similarity for remote sensingimages文中提出基于压缩感知和结构自相似性从单个低分辨率图像中恢复高分辨率遥感图像。Super resolution image generation using wavelet domain interpolationwith edge extraction via a sparse representation文中采用离散小波变换和稀疏表示相结合的方法来进行遥感图像超分辨。Hyperspectral Image Super-Resolution bySpectral Mixture Analysis and Spatial-Spectral Group Sparsity中探索了光谱和空间域中的稀疏属性，实现了高光谱图像的超分辨率。

尽管上述方法在遥感图像超分辨率领域中起了很大的催化作用，但它们的缺点是显而易见的。首先，它们都是基于低级特征设计的，例如图像边缘和轮廓甚至是原始像素。机器学习本发明的成功通常取决于如何正确表示图像特征，目前，深度卷积神经网络(CNN)已成为一种从数据中自动学习高级特征表示的流行方法，并且在诸如图像分类和目标检测等任务中显示出了巨大的潜力。遥感图像的高度复杂的空间分布表明，更高级别的抽象和更好的数据表示对于诸如遥感目标检测和图像超分辨率等应用至关重要。在自然图像超分辨率等相关领域，一些研究人员提出了基于CNN的单图像超分辨率方法，来学习低分辨率和高分辨率图像之间的端到端映射，并取得了最先进的性能。其次，遥感影像的地面物体通常共享更大范围的尺度，这表示物体本身及其周围环境在其图像模式的联合分布中相互耦合，这是与自然图像相比一个很大的不同点。上面的大多数方法在忽略环境信息的情况下仅在单个对象周围构造字典或数据先验。在典型的CNN模型中，浅层卷积层的神经元共享较小的感受野，并更多地关注局部细节，而在较高卷积层中，则累积较大的感受野，覆盖更大的图像区域。CNN一般通过堆叠卷积层来获得深层语义特征和全局性信息，这时会失去局部的特征表达，FPN结构能够一定程度解决这种问题，但是带来了很大的计算开销。

通过设计基于Transformers的超分辨网络结构，可以打破通过堆叠卷积层的传统方式来获取大的感受野和深层特征，基于Transformers的超分辨网络结构不仅在速度上有较大优势，而且其特殊的自注意力机制可以建立局部特征之间的依赖关系，这和遥感地物局部相似性很高的先验相适应，同时Transformers的结构也可以建立全局信息，基于此可以在提高速度的同时，获得优秀的超分辨视觉效果。

发明内容

本发明致力于提供一种由低分辨图像来重建高分辨图像的超分辨技术。该技术仅利用少许卷积层和Transformer模块就可以有效的捕捉局部和全局特征，提升超分辨的性能，打破了传统的基于CNN堆叠卷积层来获得性能的思维定势，可以显著提升网络的计算速度，在低分辨率图像的超分辨领域具有广泛的应用价值。

本发明的方法所采用的技术方案是：一种基于Transformers的低分辨率图像超分辨方法，包括以下步骤：

步骤1：基于卷积神经网络和Transformer模块，构建低分辨率图像超分辨网络；

所述低分辨率图像超分辨网络，针对输入的低分辨率图像，经过两个下采样的MBM层，数据先并行的流过不同的卷积单元，然后在通道维度拼接到一起，再依次经过卷积层、正则化层和激活层；经过两个下采样的MBM层后，特征图变换维度后经过3个Transformer单元后输出，再次经过维度变换，接着通过一个只改变通道数的MBM层恢复成高分辨率图像的大小；

步骤2：利用训练数据进行低分辨率图像超分辨网络训练，获得调优的网络参数；

其中，从数据库中采集图像，所有的图像先进行下采样预设倍数后作为原始的低分辨率图像，未下采样的图像作为高分辨率参考图像；随机选取每类图像的部分图像组成训练集，其余图像组成验证集；

步骤3：利用训练好的低分辨率图像超分辨网络对低分辨率图像进行超分辨获得高分辨率图像。

本发明的系统所采用的技术方案是：一种基于Transformers的低分辨率图像超分辨系统，其特征在于，包括以下模块：

模块一，用于基于卷积神经网络和Transformer模块，构建低分辨率图像超分辨网络；

模块二，用于利用训练数据进行低分辨率图像超分辨网络训练，获得调优的网络参数；

模块三，用于利用训练好的低分辨率图像超分辨网络对低分辨率图像进行超分辨获得高分辨率图像。

本发明涉及到了卷积神经网络(Convolutional Neural Networks,CNN)和Transformer等技术，利用它们来构建低分辨率图像超分辨模型，可以打破普通卷积神经网络利用卷积层的堆叠来提升精度的思维范式，在保证超分辨重建精度的同时可以提高超分辨的速度。Transformers可以自适应的感知特征之间的相关性，加强对低分辨率图像重建有效特征的表达能力，其中的自注意力机制可以直接提取的长距离依赖的局部特征和全局性特征，实现对低分辨率图像的恢复重建，并拥有良好的视觉效果。

本发明具备以下四个优势：

(1)本发明可移植性强，在本发明的思想下，网络的大小可以进一步调整，可以适应不同的终端平台；

(2)本发明通用性好，对于不同的任务需求，不需要再次设计针对性的网络，可以在原有的网络模型基础上加入该任务需求的数据，进行一定程度的微调就可以达到可观的性能；

(3)本发明的Transformer模块可以对输入的特征进行自适应加权融合，挖掘对超分辨有益的关键特征向量，融合了局部和全局的信息。

(4)本发明性能强大，在有效提升超分辨速度的前提下能够保证很高的重建精度。

附图说明

图1本发明实施例的流程图；

图2本发明实施例的Transformer模块的内部结构图；

图3本发明实施例的基于Transformers的低分辨率图像超分辨网络结构图；

图4本发明实施例的MBM层的结构图；

图5本发明实施例的smooth_L1、L1和L2的函数图像。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明在Pytorch深度学习框架下，使用Python语言编程实现。首先基于少量卷积和Transformer模块完成网络的搭建，并配置相关的参数；再利用训练数据进行网络的训练，获得调优的网络参数；然后利用训练好的网络模型对低分辨率图像进行超分辨获得高分辨率图像。

本发明主要基于Transformer模块实现，其主要的处理流程如图1所示。本发明分为训练阶段和应用阶段，训练阶段是为了利用数据训练网络，得到优化后的网络模型参数，具体的，先读取训练数据的图像对，包括低分辨率图像和其对应的高分辨率图像，再对图像对进行一系列的数据增广操作，包括缩放、裁剪、颜色抖动、翻转、镜像等，并将图像对进行归一化处理，然后将图像对中的低分辨率图像组成一个批量(Batch)送入网络进行前向计算，计算后得到超分辨后的高分辨率图像，并与原图像对中的高分辨率图像求误差损失，然后将误差损失反向传播以更新网络的参数，重复这个过程直至模型在验证集上的重建损失达到最小，然后保存模型参数。应用阶段是为了将训练好的模型部署应用，具体的，先加载训练好的网络参数，然后读取待超分辨的低分辨率图像，并进行预处理，主要包括缩放和归一化，接着送入网络进行前向计算得到高分辨率图像。本技术发明可以对低分辨率遥感图像进行超分辨供下游任务运用，拥有广阔的应用前景。本发明的实验过程中采用的计算平台配置是Intel(R)Core(TM)i7-8700K CPU处理器，主频3.70GHz，内存56GB，NVIDIAGeForce GTX 2080Ti显卡，显存为11GB。

请见图1，本发明提供的一种基于Transformers的低分辨率图像超分辨方法，包括以下步骤：

在本发明的应用场景中，基于Transformer设计低分辨率图像超分辨网络，可以利用其自注意力机制建模不同空间位置特征之间的依赖关系，减少卷积层的堆叠，在保证精度的同时，大幅提高处理速度。单个Transformer模块的具体结构如图2所示，具体的内部结构与论文(Attention is all you need)保持一致，这里用了3层编码和解码结构。

低分辨率图像超分辨网络具体的网络结构图如图3所示，构建网络的具体流程如下，输入为低分辨率图像，图像大小为3×64×64，然后经过两个下采样的MBM层，数据先并行的流过不同的卷积单元，然后在通道维度拼接到一起，再依次经过卷积层、正则化层和激活层，MBM在保证模型轻量的同时可以提供不同大小的感受野，当MBM具备下采样的作用时，它先经过一个步长为2的3×3的卷积层。经过两个下采样的MBM层后，特征图的大小变为1536×16×16，为了适应Transformers的输入，变换维度为256×1536，该向量经过3个Transformer单元后输出为256×1536，再次经过维度变换恢复成6×256×256，接着通过一个只改变通道数的MBM单元恢复成高分辨率图像的大小3×256×256。

请见图4，本实施例的MBM层是借鉴了GoogleNet的结构设计而成的，将前层的特征图并联经过7个卷积块，分别为核大小为1x1的卷积；核大小为1和1x3的卷积；核大小为1和3x1的卷积；核大小为1、1x3和3x1的卷积；核大小为1、3x1空洞为2和1x1的卷积；核大小为1、1x3空洞为2和1x1的卷积；核大小为1、3x3的最大池化和1x1的卷积；并且加入残差网络的shortcut结构，最后的特征图拼接后依次经过1x1的卷积、BN归一化层、Mish激活函数后得到MBM模块的输出。

本实施例中，从现有数据库中采集图像(使用的数据来自UC Merced Land-UseData Set，它是一个用于研究目的的21级土地利用图像遥感数据集，于2010年由UC Merced计算机视觉实验室发布，共有100类图像，提取自USGS National Map Urban Area Imagery系列的大型图像，图像大小为256×256，像素分辨率为0.3米，共包含21类场景图像，每一类有100张，共2100张。在实验过程中，随机选取每类的80％为训练集，其余为验证集。)，所有的图像先进行下采样预设倍数后作为原始的低分辨率图像，未下采样的图像作为高分辨率参考图像；随机选取每类图像的部分图像(随机选取每类的80％为训练集)组成训练集，其余图像组成验证集；

本实施例中，首先需要准备训练数据和测试数据供网络训练和测试，然后使用计算机读取低分辨率图像数据。在实验过程中，随机选取每类的80％为训练集，其余为验证集。所有的图像先进行下采样4倍作为原始的低分辨率图像，未下采样的图像作为高分辨率参考图像。使用峰值信噪比(Peak Signalto Noise Ratio，PSNR[dB])和结构相似性(Structural Similarity Index Measure，SSIM)来评价超分辨重建的性能。读入数据后，在训练阶段需要将图片进行数据增广和零均值处理，在验证阶段只需要将图像进行缩放和零均值处理。

本实施例中，低分辨率图像超分辨网络构造好后，在Pytorch深度学习框架下，利用组成的图像对低分辨率图像超分辨网络进行训练，直至低分辨率图像超分辨网络在验证集上的误差损失最小，网络在该数据集上的性能达到最优，保存此时的网络参数。

本实施例中，步骤2的具体实现包括以下子步骤：

步骤2.1：读取训练数据的图像对，包括低分辨率图像和其对应的高分辨率图像；

步骤2.2：针对图像对进行数据增广操作，包括缩放、裁剪、颜色抖动、翻转和镜像，并将图像对进行归一化处理；

步骤2.3：将图像对中的低分辨率图像组成一个批量Batch送入低分辨率图像超分辨网络进行前向计算，计算后得到超分辨后的高分辨率图像，并与原图像对中的高分辨率图像求误差损失；

步骤2.4：将误差损失反向传播以更新低分辨率图像超分辨网络的参数；

步骤2.5：重复步骤2.1-步骤2.4，直至低分辨率图像超分辨网络在验证集上的重建损失达到最小，然后保存低分辨率图像超分辨网络参数。

在训练过程中，采用的是smooth_L1损失函数。

其中，x为重建的图像，y为标签图像，n为像素点总数，i指每个像素点，x_i为重建图像的第i个像素值，y_i为标签图像的第i个像素值，z_i为中间值。

smooth_L1相比于L1函数而言处处可导，它在0附近收敛缓慢，不至于在最优值附近震荡。请见图5，为本发明实施例的smooth_L1、L1和L2的函数图像。采用训练数据的批量大小为128，初始学习率为0.1，采用余弦退火的训练策略，优化器是SGD。

本实施例中，利用验证集验证低分辨率图像超分辨网络的训练效果，在验证阶段只需要将验证图像进行缩放和零均值处理。

本实施例中，步骤3的具体实现包括以下子步骤：

步骤3.1：将需要处理的低分辨率图像进行数据处理；

所有的图像先进行下采样4倍作为原始的低分辨率图像，未下采样的图像作为高分辨率参考图像。使用峰值信噪比(Peak Signalto Noise Ratio，PSNR[dB])和结构相似性(Structural Similarity Index Measure，SSIM)来评价超分辨重建的性能。

步骤3.2：将处理后的图像输入到低分辨率图像超分辨网络中，进行网络前向计算；

步骤3.3：获得高分辨率图像。

本发明还提供了一种基于Transformers的低分辨率图像超分辨系统，包括以下模块：

低分辨率图像超分辨网络，针对输入的低分辨率图像，经过两个下采样的MBM层，数据先并行的流过不同的卷积单元，然后在通道维度拼接到一起，再依次经过卷积层、正则化层和激活层；经过两个下采样的MBM层后，特征图变换维度后经过3个Transformer单元后输出，再次经过维度变换，接着通过一个只改变通道数的MBM层恢复成高分辨率图像的大小；

本发明通过提出基于Transformers的低分辨率图像超分辨网络，本发明Transformer通过两个空间位置特征之间的关联性来作注意力加权，可以在网络中融入局部特征和全局信息，其结构避免了CNN堆叠卷积层来获取全局信息的模式，可以使得模型有很好的性能表现。本发明的输入为低分辨图像，输出为对应的高分辨率图像，自动化程度高，能够大幅度提高效率，降低成本。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于Transformers的低分辨率图像超分辨方法，其特征在于，包括以下步骤：

所述MBM层，将前层的特征图并联经过7个卷积块，分别为核大小为1x1的卷积，核大小为1和1x3的卷积，核大小为1和3x1的卷积，核大小为1、1x3和3x1的卷积，核大小为1、3x1空洞为2和1x1的卷积，核大小为1、1x3空洞为2和1x1的卷积，核大小为1、3x3的最大池化和1x1的卷积；并且加入残差网络的shortcut结构，最后的特征图拼接后依次经过1x1的卷积、BN归一化层、Mish激活函数后得到MBM层的输出；

2.根据权利要求1所述的基于Transformers的低分辨率图像超分辨方法，其特征在于，步骤2的具体实现包括以下子步骤：

3.根据权利要求1所述的基于Transformers的低分辨率图像超分辨方法，其特征在于：步骤2.5中，采用余弦退火的训练策略，优化器为SGD，smooth_L1损失函数为：

4.根据权利要求1所述的基于Transformers的低分辨率图像超分辨方法，其特征在于，步骤3的具体实现包括以下子步骤：

步骤3.1：将需要处理的低分辨率图像进行数据处理；

所有的图像先进行下采样4倍作为原始的低分辨率图像，未下采样的图像作为高分辨率参考图像；

步骤3.3：获得高分辨率图像。

5.根据权利要求1-4任意一项所述的基于Transformers的低分辨率图像超分辨方法，其特征在于：步骤2中，利用验证集验证低分辨率图像超分辨网络的训练效果，在验证阶段只需要将验证图像进行缩放和零均值处理。

6.一种基于Transformers的低分辨率图像超分辨系统，其特征在于，包括以下模块：