CN114937202A

CN114937202A - 一种双流Swin Transformer遥感场景分类方法

Info

Publication number: CN114937202A
Application number: CN202210372827.XA
Authority: CN
Inventors: 郝思媛; 吴斌; 刘佳璇
Original assignee: Qingdao University of Technology
Current assignee: Qingdao University of Technology
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-08-23

Abstract

本发明提供的是一种双流Swin Transformer的遥感场景分类方法，可以显著提高遥感图像的场景分类精度。提出的方法包括边缘合成图像的生成、原始特征和边缘特征的提取、特征融合三个步骤。边缘合成图像的生成是通过可导的Sobel算子提取边缘图像后与，原始图像的灰度图在通道维度连接；原始特征和边缘特征是通过两个结构相同的Swin Transformer，分别提取原始特征和边缘特征；特征融合是将两个特征串联在一块后，通过全连接，将特征融合在一起，并通过重新设计的损失函数形式，优化网络参数。

Description

一种双流Swin Transformer遥感场景分类方法

技术领域

本发明涉及遥感图像场景分类方法，特别是涉及一种双流Swin Transformer遥感场景分类方法，属于遥感信息处理技术领域。

背景技术

遥感图像是帮助我们进行地球观测的宝贵资源。随着地球观测技术的进步，高分辨率遥感图像的数量急剧增加。因此，理解复杂、海量的遥感图像成为遥感场景分类成为一项重要任务。遥感场景分类技术已经广泛应用于城市规划、地理图像检索、环境检测、植被制图以及地球空间对象检测等众多领域。

在近几十年，许多基于传统手工特征或者深度学习特征的的场景分类方法被提出。深度学习方法依旧是目前主流的场景分类方法。深度学习方法包括深度信念神经网络（DBNN）、卷积神经网络（CNN）以及视觉Transformer。Cheng等人在遥感场景分类任务上首先使用了CNN进行特征提取。Zhou等人通过预训练的CNN完成了端到端的遥感分类任务。

最近，Transformer在自然语言处理（NLP）领域取得了令人瞩目的成就，同时也被引入了图像分类领域。Dosoviskiy等人提出的Vision Transformer（ViT）在图像分类领域取得了优秀成绩。Transformer最近也被引入到了遥感场景分类中，大部分的工作都是基于经典的ViT模型。例如，Bazi等人将预处理的ViT模型与数据增强和网络修建相结合，提高了ViT在遥感场景分类的性能。Deng等人提出了用于场景分类的联合模型CTNet，其中ViT用于提取图像语义特征，CNN用于提取局部结构特征。Zhang等人提出的TRSNet优化了残差网络，增加了Transformer结构，实现了Transformer和CNN更好的交互性，提高了分类性能。

虽然ViT是目前占据主导地位的Transformer解决方案，但是它仍有很多缺点。例如，它的特征图具有单一不变的分辨率，并且自注意力计算复杂度达到了二次方。另外，ViT过度关注了长距离的语义信息，而忽略了局部的结构信息。Liu等人提出的Shift windows（Swin）Transformer通过引入CNN的一些特性并且通过合并图像块来构建分层特征图，解决了以上问题。并且Swin Trannsformer具有线性的自注意力计算复杂度。因此，在本文中，我们选用了Swin Transformer作为框架的骨干网络。

另外，上述方法，都是针对自然图像设计的网络，没有充分考虑遥感图像的特点。遥感图像通常尺寸大、分辨率高，并且覆盖大量地面物体。更为重要的是，由于遥感场景图像是由随机分布的地面物体组合而成，因此更难以有效识别。边缘曲线这种特征，对于遥感场景分类具有极大的帮助。因此，为了有效地提取提取边缘信息，我们提出了一种可微边缘Sobel算子模块。与直接使用Sobel算子进行边缘提取的其他方法不用，我们使用了可微分的Sobel算子来提取边缘。

在此背景下，我们提出了一种具有可导Sobel算子的双流Swin Transformer遥感场景分类方法，通过融合原始特征和边缘特征，提高了遥感场景分类的精度。创新性构建了可导的边缘Sobel算子模块，能够生成具有丰富边缘信息的图像。

发明内容

本发明目的在于提高遥感图像的场景分类精度，提出了一种具有Sobel算子的双流Swin Transformer场景分类方法（表示为TSTNet）。

本发明的第一个目的是提出一种具有Sobel算子的双流Swin Transformer场景分类方法，包括可导的Sobel算子、原始特征提取流、边缘特征提取流以及特征融合四个模块组成。四个模块的技术细节如下：

可导的Sobel算子模块：首先该模块基于传统的边缘检测算法，首先将原始遥感图像T转化为灰度图A，然后将Sobel算子放入3×3卷积核中，通过两个卷积核提取图像在横轴和纵轴上的边缘图像G _x和G _y。另外，卷积核具有梯度，可以进行参数更新。这样的操作实现了Sobel算子的自适应学习。同时为了补充内容信息，将边缘图像G _x、G _y和灰度图A在通道维度连接起来，形成一个三通道图像T(i)。T(i)既有边缘强调信息，也有内容信息，后续输入到边缘流进行特征提取。

边缘特征提取流：边缘特征流由Swin Transformer作为骨干网络，用于提取可导Sobel算子模块生成图像的特征。这些特征主要包含合成图像的边缘强调信息。特征提取首先通过线性映射，将合成的边缘图像构建划分成多个图像块，输入到Swin Transformer中。Swin Transformer通过窗口划分机制，再将图像块划分组合成窗口，在窗口内进行自注意力机制的计算，又通过跨窗口机制，增加了图像块之间的全局交流。因此，各个图像块之间互相融合了其他图像块的关联信息。通过多层分辨率机制，逐层过滤特征。最终生成高质量的边缘特征用于后续的特征融合。

原始特征提取流：原始特征提取流同样使用了Swin Transformer作为骨干网络，用于提取原始遥感影像的特征。提取过程与边缘特征流相同。提取到的原始特征最终与边缘特征相融合，以便于最终进行分类与预测。

特征融合模块：该模块由特征融合和损失函数两部分组成。F ₁和F ₂分别是提取的原始特征和边缘特征。它们分别是维度为d的向量。通过串联的形式，将两个向量连接在一起，形成向量F，然后通过全连接将F映射到F’，最终F’ϵR ⁿ（其中n是任务的分类数目）。两流的特征通过这样的方式进行了融合。同时，为了强调原始特征提取流的重要性，设计了辅助损失函数去扩大原始流的反向传播。通过一个权重系数λ来平衡两个交叉熵损失函数。最终，融合完毕的特征送入softmax函数进行最终的分类预测。

附图说明

图1.一种双流SwinTransformer遥感分类方法的整体结构图(前部分)。

图2.一种双流SwinTransformer遥感分类方法的整体结构图(后部分)。

图3.可导Sobel算子模块。

图4.融合模块和损失函数。

图5.Swin Transformer块的内部结构。

图6.不同数据集的不同训练比例下，对本发明进行了消融实验，使用了AID数据集。

图7.对本发明的网络注意力图进行可视化，对比TSTNet与Swin Transformer的注意力图。

具体实施方式

下面结合附图举例对本发明做更详细地描述。

本发明提出方法包括自适应边缘图像生成、原始特征和边缘特征提取、特征融合三个步骤。具体分析步骤如下：

步骤 S1：自适应边缘图像生成

步骤 S1.1：原始遥感图像T输入到可导Sobel算子模块，如图2所示。

步骤 S1.2：首先将图像转化为灰度图A。

步骤 S1.3：两个常规的Sobel算子在横向和纵向方向的边缘检测图像为：

其中，A代表着原始遥感图像转化的灰度图，两个矩阵分别是在横向和纵向的算子，G _x代表图像在横向的边缘检测图像，G _y代表图像在纵轴的边缘检测图像。

步骤 S1.4：算法在我们方法中的具体实现是通过卷积操作完成。在图2中，两个3×3卷积核的滤波器分别使用Sobel横向算子和纵向算子，卷积核具有梯度，能够进行参数更新。

步骤 S1.5：最终，将G _x和G _y和灰度图A通过在通道维度连接在一起，形成一张三通道的边缘合成遥感图像T(i)。

步骤 S2：原始特征和边缘特征提取；

步骤 S2.1：将原始图像特征T和边缘合成图像T(i)划分为众多图像块，输入到Swin Transformer。如图1所示，上方为原始遥感图像输入到Swin Transformer进行原始特征提取，下方为边缘合成图像输入到Swin Transformer进行边缘特征的提取。

步骤 S2.2：Swin Transformer的特征提取过程；

Swin Transformer的具体结构如图7所示，遥感图像尺寸为H×W×C，其中H代表图像的高，W代表图像的宽，C代表图像的通道数。通过线性映射转化为图像块后，图像转化为N ×C大小的特征，其中N代表图像块的数目，C代表每个图像块的维度。Swin Transformer通过具有窗口机制的自注意力机制进行特征之间的关联计算。连续两个Transformer块的结构如图4所示。具体的运算过程如下：

其中，W-MSA是常规的窗口多头自注意力计算，MLP是多层感知机，SW-MSA是滑动窗口多头自注意力机制。

和z ^l分别是（S）W-MAS和MLP在第l个block的输出。每个输入都需要提前经过层归一化（LN）。

步骤 S3：特征融合；

图3展示了特征融合模块和损失函数的细节。F ₁和F ₂分别是提取到的原始特征和边缘特征，都是维度为d的向量。通过以下方式进行融合：

其中，Concat代表了串联连接，FC代表全连接。通过全连接，将边缘特征和原始特征进行了有效的融合。生成的特征F’融合了原始特征和边缘特征。F’ϵR ⁿ（其中n是任务的分类数目）。

为了强调原始流的重要性，在最终的损失函数中，加入了辅助损失函数。损失函数形式如下：

其中，L _F是融合特征F’的交叉熵损失函数。L _F1是输出特征F ₁的交叉熵损失函数。原始流在最终的分类任务中具有重要作用，因此我们引入权重系数λ（λϵ[0,1]）来平衡两个损失函数。经过实验证明，λ=0.8能够带来更好的性能。

为了说明本发明的有效性，进行如下实验论证。实验数据来自航空图像数据集（AID）的遥感图像，此遥感图像数据集具有较大的图像尺寸和丰富的场景覆盖。这些图像来自不同国家和地区，在不同时间、不同季节收集，覆盖了30个场景。每幅图像的尺寸为600600像素点。

本发明的实验环境：

所有实验均采用了Pytorch1.8深度学习框架，模型在英伟达 RTX 3090 (24GB)GPU上进行训练。Swin Transformer选用了基本类型（Swin-B）。

第一组实验重点研究本发明的各个组成部分对整体分类精度的影响，以证明本发明的有效性。实验结果如图5所示。

Swin-B对比ViT-B：可以观察到，Swin-B的整体分类精度（OA）高于ViT-B。具体来说，在不同训练率的AID数据集上，基于Swin-B的分支比基于ViT-B的分支高了3.2%和1.6%。这一观察说明，Swin-B始终优于ViT-B，因此我们使用了Swin-B作为骨干网络。

可导与不可导Sobel算子对比：具有可导Sobel算子的边缘流的精度始终高于不可导Sobel算子的边缘流。具体来说，在AID数据集上，具有可导Sobel算子的边缘流比具有不可导Sobel算子的边缘流高了0.6%和0.4%。这说明本发明的可导Sobel算子模块是有效的，并且能够提取更好的边缘特征。

权重损失函数和原始损失函数对比：在AID数据集上，本发明TSTNet与TSTNet-add相对比，性能上有了进一步提升。具体来说，TSTNet相比TSTNet-add，在不同训练率下，分别提升了0.3%和0.1%。

有边缘流和无边缘流对比：在两种训练比率的AID数据集上，本发明TSTNet相比较原始流和边缘流，整体分类精度提升了1.8%和1.3%。这说明具有可导Sobel算子的辅助边缘流能够帮助网络实现更好的性能。

第二组实验重点研究本发明对网络注意力的图像。如图6所示，对于机场场景，本发明TSTNet能够更好的将注意力集中到飞机身上，而忽略机场一些干扰因素。总之，本发明能够更加关注场景对象，忽略干扰因素。

第三组实验重点研究本发明与一些先进方法的整体分类精度（OA）对比。在实验中，通过使用AID数据集来进行对比。使用了20%训练样本和50%训练样本，与目前最先进的方法进行了对比。为减少随机因素带来的误差，所有实验均重复进行10次，取平均值和标准差。使用了整体分类精度OA作为衡量标准。结果如表I所示。可以观察到不管是基于CNN的方法还是基于ViT的方法，本发明TSTNet的精度均超过了目前最先进的方法。具体来说，相比较基于Inception-v3的Inception-v3-CapsNet，TSTNet提高了3.41%和2.47%。TSTNet比基于CNN的KFBNet（DenseNet-121）精度提高了1.7%和1.05%。TSTNet相比较基于ViT的TRS，精度分别提高了1.66%和0.22%。综上所述，在只有少量训练数据的情况下，我们的发明依然优于其他基线模型。这表明了我们的发明具有稳健性和有效性。

Claims

1.一种双流Swin Transformer的遥感场景分类方法，其特征在于，包含以下步骤：

S1：处理原始遥感影像X∈R ^H×W×C，其中H、W、C分别是图像的高度、宽度和通道数，将图像进行灰度处理，生成单通道灰度图G；

S2：通过可导的Sobel算子，将生成横轴和纵轴的边缘图像G _x和G _y，与灰度图G在通道维度连接，形成一张三通道的边缘图像T(i)=Concat(G, G _x , G _y )，其中Concat代表串联连接；

S3：将原始遥感图像T和边缘图像T(i)划分为图像块，其中n指的一张图像的图像块数目，

T={x ₁ , x ₂ … x _n }，

T(i)={x ₁ , x ₂ … x _n }；

S4：将原始图像块和边缘图像块分别送入两流的Swin Transformer去分别提取特征，两流的Transformer均具有相同结构，并且它们之间的参数各自单独学习，SwinTransformer对边缘图像提取的特征较为特殊，既含有原始的影像信息，又含有边缘的强调信息；

S5：经过Swin Transformer提取的原始特征和边缘特征分别为F ₁和F ₂，经过以下形式进行融合：

F’=FC(Concat(F ₁ ,F ₂ ))

其中Concat代表串联连接，FC代表全连接，F’代表融合特征；

S6：将融合特征F’送入softmax分类器，进行最终的预测。

2.根据权利要求1所述的一种具有可导Sobel算子的双流Swin Transformer遥感场景分类方法，其特征在于，所述步骤S2采用了可导的Sobel算子，将算子置入卷积核中，通过卷积操作完成边缘提取，卷积核能够在网络的反向传播过程中更新参数，以实现Sobel算子值的自适应学习。

3.根据权利要求1所述的一种具有可导Sobel算子的双流Swin Transformer遥感场景分类方法，其特征在于，所述步骤S5融合特征的同时，也对损失函数进行了重新设计，引入了辅助损失函数，通过权重系数λ控制两个损失函数的平衡，公式为：

L=λL _F +(1-λ)L _F1

其中L _F和L _F1分别是特征F’和F ₁的交叉熵损失函数，L是最终的损失函数。