CN115984110A

CN115984110A - 一种基于Swin-Transformer的二阶光谱注意力高光谱图像超分辨率方法

Info

Publication number: CN115984110A
Application number: CN202310015627.3A
Authority: CN
Inventors: 乔保军; 许冰辉; 肖一卓; 林英豪; 谢毅; 左宪禹
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2023-01-05
Filing date: 2023-01-05
Publication date: 2023-04-18

Abstract

本发明涉及图像处理技术领域，具体涉及一种基于Swin‑Transformer的二阶光谱注意力高光谱图像超分辨率方法，该方法包括：获取待处理的低分辨率高光谱图像；构建Swin‑Transformer超分辨率网络模型，将低分辨率图像输入训练完成的Swin‑Transformer超分辨率网络模型中，输出重建图像；其中，Swin‑Transformer超分辨率网络模型的训练集为低分辨率图像，损失函数由原始图像与重建图像的差异得到，基于损失函数得到训练完成的Swin‑Transformer超分辨率网络模型。本发明得到的重建图像效果更好，且网络模型的效率较高，泛化能力强。

Description

一种基于Swin-Transformer的二阶光谱注意力高光谱图像超分辨率方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于Swin-Transformer的二阶光谱注意力高光谱图像超分辨率方法。

背景技术

高光谱成像传感器可以在很宽的光谱覆盖范围内收集数十或数百个光谱带；然而，由于成像相机的局限性，光谱分辨率和空间分辨率存在一定的折衷，因此，具有大量波段的HSI通常具有较低的空间分辨率；由于高光谱图像场景多样，传统的超分辨率方法存在特征能力提取不足，算法时间复杂度高，模型参数敏感，泛化能力差等问题，图像的超分效果较差。

发明内容

为了解决现有模型效率低，超分效果差的问题，本发明的目的在于提供一种基于Swin-Transformer的二阶光谱注意力高光谱图像超分辨率方法，所采用的技术方案具体如下：

本发明一个实施例提供了一种基于Swin-Transformer的二阶光谱注意力高光谱图像超分辨率方法，该方法包括以下步骤：

获取待处理的低分辨率高光谱图像；

构建Swin-Transformer超分辨率网络模型，将所述低分辨率图像输入训练完成的Swin-Transformer超分辨率网络模型中，输出重建图像；

其中，所述Swin-Transformer超分辨率网络模型的训练集为低分辨率图像，损失函数由原始图像与重建图像的差异得到，基于所述损失函数对所述Swin-Transformer超分辨率网络模型训练并更新得到最优参数的Swin-Transformer超分辨率网络模型，最优参数的Swin-Transformer超分辨率网络模型为训练完成的Swin-Transformer超分辨率网络模型。

优选的，所述获取待处理的低分辨率图像的步骤，包括：

将公开训练集中CAVE图像划分为相同大小的重叠块；对每个所述重叠块进行降采样以及高斯模糊生成低分辨率高光谱图像。

优选的，所述Swin-Transformer超分辨率网络模型包括浅层特征提取、深层特征提取以及图像重建。

优选的，所述损失函数为：

其中，L_totαl表示目标损失函数；xⁱ为原始图像；oⁱ为重建图像；α为设定常数；acrcos表示反余弦函数；N表示训练图像的个数；S表示波段数；||*||₁表示L1范数；||*||₂表示L2范数。

优选的，所述输出重建图像之后，还包括：

通过获取标准图像与重建图像之间的峰值信噪比、结构相似性以及光谱角对重建效果进行分析。

优选的，所述峰值信噪比的计算方法为：

其中，PSNR表示峰值信噪比；MSE表示当前图像

与参考图像f(i，j)之间的均方误差；n表示每个像素点比特数；

所述均方误差的计算为：

其中，MSE表示当前图像

与参考图像f(i，j)之间的均方误差；M×N1表示图像的尺寸。

优选的，所述结构相似性的计算方法为：

图像x和图像y之间的结构相似性为：

其中，SSIM(x，y)表示图像x和图像y之间的结构相似性；μ_x表示图像x的平均值；μ_y表示图像y的平均值；

表示图像x的方差；

表示图像y的方差；σ_xy表示图像x和图像y的协方差；c₁和c₂是用于维持稳定的常数。

优选的，所述光谱角的计算方法为：

图像x和图像o之间的光谱角为：

其中，SAM(x，o)表示图像x和图像o的光谱角；N表示训练图像的个数；S表示波段数；||*||₂表示L2范数；acrcos表示反余弦函数。

优选的，所述浅层特征提取是通过卷积核大小为3×3，步长为1的卷积层进行提取；深层特征提取由Swin-Transformer、深度可分离卷积以及二阶光谱注意力组成的RDSATB模块堆叠而成，RDSATB模块接收浅层特征信息后，图像大小进行改变，并通过Swin-Transformer模块提取图像中全局特征信息，Swin-Transformer模块由Encoder编码层和Decoder解码层组成，其中Encoder层由Layer Norm归一化层、W-MSA窗口自注意力层、FeedForward前馈网络层组成的；Decoder层由Layer Norm归一化层、SW-MSA移动窗口自注意力层、Feed Forward前馈网络层组成；Feed Forward前馈网络层由两个Linear mapping线性映射层以及GELU激活函数组成。

优选的，所述深度可分离卷积包含三个卷积，其结构可表示为[SConv_3×3-LeakeyRelu-Conv_1×1-LeakeyRelu-Sconv_3×3]，三个卷积在提取到的全局特征的基础上进一步提取图像的局部特征以及光谱信息；二阶光谱注意力由协方差矩阵COV、深度可分离卷积SConv以及激活函数Sigmoid构成；其结构可表示为[COV-Sconv_n×1-Sigmoid]，其中n为波段数。

本发明具有如下有益效果：本发明实施例是一种基于Swin-Transformer的二阶光谱注意力高光谱图像超分辨率方法，通过利用Swin-Transformer擅长提取全局信息的优势，能够更充分的提取网络的全局-局部空间特征信息，对比传统方法以及CNN等方法本发明在具有高重建图像质量的同时解决了特征能力提取不足，泛化性弱等问题，图像重建效果更好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种基于Swin-Transformer的二阶光谱注意力高光谱图像超分辨率方法流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种基于Swin-Transformer的二阶光谱注意力高光谱图像超分辨率方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种基于Swin-Transformer的二阶光谱注意力高光谱图像超分辨率方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种基于Swin-Transformer的二阶光谱注意力高光谱图像超分辨率方法流程图，该方法包括以下步骤：

步骤S100，获取待处理的低分辨率高光谱图像。

具体的，本发明实施例中首先获取公开训练数据集中CAVE的20张

大小的基础图像，将所有

大小的基础图像划分为3920张

的重叠块，选取所有重叠块中的

张为训练样本构成训练集，其余784张为测试样本构成测试集。

进一步的，为了便于后续分析处理，对划分好的数据集使用降采样以及高斯模糊操作生成

的低分辨率高光谱图像，也即是将3920张

的重叠块均转化为

的低分辨率高光谱图像作为后续Swin-Transformer超分辨率网络模型的输入。

步骤S200，构建Swin-Transformer超分辨率网络模型，将低分辨率图像输入训练完成的Swin-Transformer超分辨率网络模型中，输出重建图像。

具体的，本发明实施例中Swin-Transformer超分辨率网络模型包括浅层特征提取模块、深层特征提取模块和图像重建三部分；浅层特征提取是通过卷积核大小为3×3，步长为1的卷积层进行提取；深层特征提取由Swin-Transformer、深度可分离卷积、以及二阶光谱注意力组成的RDSATB模块堆叠而成，RDSATB模块接收浅层特征信息后，图像大小进行改变，并通过Swin-Transformer模块提取图像中全局特征信息，Swin-Transformer模块由Encoder编码层和Decoder解码层组成，其中Encoder层由Layer Norm归一化层、W-MSA窗口自注意力层、Feed Forward前馈网络层组成的；Decoder层由Layer Norm归一化层、SW-MSA移动窗口自注意力层、Feed Forward前馈网络层组成；Feed Forward前馈网络层由两个Linear mapping线性映射层以及GELU激活函数组成。

浅层特征提取模块采用卷积核大小为3×3，步长为1的单层卷积组成，其中输出通道数设定为384。深层特征提取模块中的RDSATB模块在接收浅层特征信息后，图像大小转变为

依次通过Swin-Transformer超分辨率网络模型的编码层Encoder和解码层Decoder，其中，编码层Encoder由Layer Norm归一化层、W-MSA窗口自注意力层、FeedForward前馈网络层组成；解码层Decoder由Layer Norm归一化层、SW-MSA移动窗口自注意力层、Feed Forward前馈网络层组成，Feed Forward前馈网络层由两个Linear mapping线性映射层以及GELU激活函数组成，最终可得到图像的全局特征信息。

然后，图像大小转变为

进一步由深度可分离卷积模块提取局部信息以及光谱信息，其具体包含三个卷积，结构可表示为[Sconv_3×3-LeakeyRelu-Conv_1×1-LeakeyRelu-Sconv_3×3]。

二阶光谱注意结构由协方差矩阵COV、深度可分离卷积Sconv以及激活函数Sigmoid构成，其结构可以表示为[COV-Sconv_n×1-Sigmoid]，其中n为波段数；最终得到各光谱波段的描述符，分别与其对应波段相乘。

在进行图像重构时，其具体由一个卷积核大小为(2+upscale)×(2+upscale)，步长为upscale的反卷积层构成，其中，upscale表示上采样率，本发明实施例中设置为4。

进一步的，为了使得Swin-Transformer超分辨率网络模型的结果更加准确，构建该网络模型的目标损失函数；本发明实施例中的batchsize大小设置为32，设置网络结构的超参数，设置初始学习速率learning rate为0.0001，深度空洞残差网络迭代次数均为200次；目标损失函数具体为：

其中，L_total表示目标损失函数；xⁱ为原始图像；oⁱ为重建图像；α设置为

acrcos表示反余弦函数；N表示训练图像的个数；S表示波段数；||*||₁表示L1范数；||*||₂表示L2范数。

本发明实施例中优化算法采用Adam算法，基于Adam算法对Swin-Transformer超分辨率网络模型的参数进行训练并更新；根据数据集大小设置调整浅层特征提取卷积通道数，通过训练学习网络模型的最优参数，得到最优Swin-Transformer超分辨率网络模型，将训练好的模型进行保存，保存格式为.pth。

由此，基于训练集中所有的训练样本得到最优的Swin-Transformer超分辨率网络模型，利用已训练好的Swin-Transformer超分辨率网络模型进行图像压缩感知重构，完成高光谱图像的超分辨率重构。

进一步的，本发明实施例中使用评价指标峰值信噪比、结构相似性以及光谱角来验证Swin-Transformer超分辨率网络模型的性能，具体方法为：

首先，获取当前图像和参考图像之间的均方误差，当前图像是指Swin-Transformer超分辨率网络模型得到的重建图像，参考图像是标准图像；均方误差的计算为：

其中，MSE表示当前图像

与参考图像f(i，j)之间的均方误差；M×N1表示图像的尺寸，M表示图像的高度，N1表示图像的宽度。

基于当前图像与参考图像之间的均方误差获取峰值信噪比，峰值信噪比的计算为：

其中，PSNR表示峰值信噪比；MSE表示当前图像

与参考图像f(i，j)之间的均方误差；n表示每个像素点比特数，一般取值为

即像素灰阶数为

单位为dB。

然后，获取结构相似性来度量网络模型的重建效果，结构相似性越大表明网络模型的重建效果越好，对于给定的图像x和图像y，两张图像的结构相似性的计算公式如下：

表示图像x的方差；

表示图像y的方差；σ_xy表示图像x和图像y的协方差；c₁＝(k₁L)²，c₂＝(k₂L)²均是用来维持稳定的常数，L表示像素值的动态范围，k₁＝0.01，k₂＝0.03。

最后，基于光谱角度量网络模型的重建效果，光谱角SAM越小表示重建效果越好，对于给定的图像x和图像o，两张图像的光谱角SAM的计算公式如下：

其中，SAM(x，o)表示图像x和图像o的光谱角。

综上所述，本发明实施例通过获取待处理的低分辨率高光谱图像；构建Swin-Transformer超分辨率网络模型，将低分辨率图像输入训练完成的Swin-Transformer超分辨率网络模型中，输出重建图像；其中，Swin-Transformer超分辨率网络模型的训练集为低分辨率图像，损失函数由原始图像与重建图像的差异得到，基于损失函数对Swin-Transformer超分辨率网络模型训练并更新得到最优参数的Swin-Transformer超分辨率网络模型，最优参数的Swin-Transformer超分辨率网络模型为训练完成的Swin-Transformer超分辨率网络模型；提高了算法的效率和图像超分效果；此外，根据光谱低秩特性设计的二阶光谱注意力模块可以极大的降低光谱损失，保持光谱的一致性；本发明使用的网络结构模型与空间-光谱卷积神经网络SSPSR相比，在Chikusei数据集上PSNR平均提高了

SSIM平均提高了0.0233，SAM平均降低了

在CAVE数据集上PSNR平均提高了

SSIM平均提高了0.03312，SAM平均降低了

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Swin-Transformer的二阶光谱注意力高光谱图像超分辨率方法，其特征在于，该方法包括以下步骤：

获取待处理的低分辨率高光谱图像；

2.根据权利要求1所述的一种基于Swin-Transformer的二阶光谱注意力高光谱图像超分辨率方法，其特征在于，所述获取待处理的低分辨率图像的步骤，包括：

3.根据权利要求1所述的一种基于Swin-Transformer的二阶光谱注意力高光谱图像超分辨率方法，其特征在于，所述Swin-Transformer超分辨率网络模型包括浅层特征提取、深层特征提取以及图像重建。

4.根据权利要求1所述的一种基于Swin-Transformer的二阶光谱注意力高光谱图像超分辨率方法，其特征在于，所述损失函数为：

其中，L_total表示目标损失函数；xⁱ为原始图像；oⁱ为重建图像；α为设定常数；acrcos表示反余弦函数；N表示训练图像的个数；S表示波段数；‖*‖₁表示L1范数；‖*‖₂表示L2范数。

5.根据权利要求1所述的一种基于Swin-Transformer的二阶光谱注意力高光谱图像超分辨率方法，其特征在于，所述输出重建图像之后，还包括：

6.根据权利要求5所述的一种基于Swin-Transformer的二阶光谱注意力高光谱图像超分辨率方法，其特征在于，所述峰值信噪比的计算方法为：

其中，PSNR表示峰值信噪比；MSE表示当前图像

与参考图像f(i,j)之间的均方误差；n表示每个像素点比特数；

所述均方误差的计算为：

其中，MSE表示当前图像

与参考图像f(i,j)之间的均方误差；M×N1表示图像的尺寸。

7.根据权利要求5所述的一种基于Swin-Transformer的二阶光谱注意力高光谱图像超分辨率方法，其特征在于，所述结构相似性的计算方法为：

图像x和图像y之间的结构相似性为：

其中，SSIM(x,y)表示图像x和图像y之间的结构相似性；μ_x表示图像x的平均值；μ_y表示图像y的平均值；

表示图像x的方差；

8.根据权利要求5所述的一种基于Swin-Transformer的二阶光谱注意力高光谱图像超分辨率方法，其特征在于，所述光谱角的计算方法为：

图像x和图像o之间的光谱角为：

其中，SAM(x,o)表示图像x和图像o的光谱角；N表示训练图像的个数；S表示波段数；‖*‖₂表示L2范数；acrcos表示反余弦函数。

9.根据权利要求3所述的一种基于Swin-Transformer的二阶光谱注意力高光谱图像超分辨率方法，其特征在于，所述浅层特征提取是通过卷积核大小为3×3，步长为1的卷积层进行提取；深层特征提取由Swin-Transformer、深度可分离卷积以及二阶光谱注意力组成的RDSATB模块堆叠而成，RDSATB模块接收浅层特征信息后，图像大小进行改变，并通过Swin-Transformer模块提取图像中全局特征信息，Swin-Transformer模块由Encoder编码层和Decoder解码层组成，其中Encoder层由Layer Norm归一化层、W-MSA窗口自注意力层、Feed Forward前馈网络层组成的；Decoder层由Layer Norm归一化层、SW-MSA移动窗口自注意力层、Feed Forward前馈网络层组成；Feed Forward前馈网络层由两个Linear mapping线性映射层以及GELU激活函数组成。

10.根据权利要求9所述的一种基于Swin-Transformer的二阶光谱注意力高光谱图像超分辨率方法，其特征在于，所述深度可分离卷积包含三个卷积，其结构可表示为[Sconv_3×3-LeakeyRelu-Conv_1×1-LeakeyRelu-Sconv_3×3]，三个卷积在提取到的全局特征的基础上进一步提取图像的局部特征以及光谱信息；二阶光谱注意力由协方差矩阵COV、深度可分离卷积SConv以及激活函数Sigmoid构成；其结构可表示为[COV-Sconv_n×1-Sigmoid]，其中n为波段数。