CN116258914B

CN116258914B - 基于机器学习及局部和全局特征融合的遥感图像分类方法

Info

Publication number: CN116258914B
Application number: CN202310537406.2A
Authority: CN
Inventors: 赵桂新; 曹梦馨; 董祥军
Original assignee: Qilu University of Technology
Current assignee: Jinan Hongjie electric control equipment Co.,Ltd.
Priority date: 2023-05-15
Filing date: 2023-05-15
Publication date: 2023-08-25
Anticipated expiration: 2043-05-15
Also published as: CN116258914A

Abstract

本发明公开了一种基于机器学习及局部和全局特征融合的遥感图像分类方法，涉及高光谱遥感图像分类技术领域。本发明包括以下步骤：S1：构建机器学习架构；S2：获取高光谱数据集，并从高光谱数据集获得训练集和测试集；S3：训练机器学习架构结构；S4：利用测试集对步骤S3得到的训练好的机器学习架构模型进行测试，获取图像分类结果。本申请通过对深层局部特征以及全局特征的提取，能够获得更全面的特征用于最终的分类，分类效果佳，经测试，本申请所述的图像分类方法的总体精度OA、平均精度AA、卡帕系数KAPPA分别能够达到84.36%、91.44%、0.8223。

Description

基于机器学习及局部和全局特征融合的遥感图像分类方法

技术领域

本发明涉及高光谱遥感图像分类技术领域，具体涉及一种基于机器学习及局部和全局特征融合的遥感图像分类方法。

背景技术

高光谱成像仪通过对连续不同波段的特征目标同时成像来获得高光谱图像，高光谱图像信息包括了光谱图像信息以及场景的空间图像信息。高光谱图像分类是高光谱图像处理技术中最关键的技术之一，在遥感领域受到了广泛的关注。目前，高光谱图像分类在城市发展、土地变化监测、场景解释、资源管理等众多领域实现了广泛的应用。

一般来说，高光谱图像分类的过程主要包括图像预处理（如去噪、去云和数据恢复）、降维和特征提取等步骤。而特征提取是高光谱图像分类的关键步骤，对分类结果有很大影响。目前，现有技术中已经存在了许多用于特征提取的模式识别方法，比如神经网络、支持向量机SVM、多元逻辑回归模型、动态子空间以及随机子空间等等。然而，这些现有的模式识别方法纯粹是基于像素特征提取。此外，随着将空间背景信息集成到像素分类器中的需求出现，研发人员又提出了几种基于光谱空间信息的特征提取方法，比如自适应的稀疏表示方法（ASRC）、非负矩阵分解方法（NMF）等。

近年来，将深度学习网络应用于高光谱图像分类越来越受到科研工作者的关注，这主要是由于深度学习网络能够有效提高高光谱图像分类的图像分类效果，比如，基于卷积神经网络的HSI特征提取器在高光谱图像分类中表现良好。尽管深度学习网络能够有效提高高光谱图像分类的图像分类效果，但是，仍存在瓶颈。比如，为了更好地表示光谱空间特征，通过增加深度学习网络的卷积神经网络层的数量来扩展感受野，但是，这可能会过度关注空间序列信息，并给挖掘和分析光谱细节特征带来一些困难；为此，利用Transformer网络对高光谱遥感图像进行图像分类进入了科研工作者的视野。这主要是由于Transformer网络的注意机制能够匹配数据对应的位置码，并对数据的全局序列信息进行有效控制，能够通过计算所有令牌中的自注意来获得全局特征；然而，这也导致利用Transformer网络对高光谱遥感图像进行图像分类时忽略了某些局部特征的提取，并且其计算复杂度高这也导致了图像分类相对低效。而一些具有局部特征提取能力的Transformer网络模型，虽然能够计算窗口中的自注意，并降低计算复杂度，然而，却放弃了全局特征的提取。

因此，能够对局部特征和全局特征进行高效提取，并能将局部特征和全局特征进行进行高效融合的遥感图像分类方法，是目前亟需解决的问题。

发明内容

为了弥补现有技术的不足，本发明提供了一种基于机器学习及局部和全局特征融合的遥感图像分类方法。

本发明的技术方案为：

本申请提供的一种基于机器学习及局部和全局特征融合的遥感图像分类方法，包括以下步骤：

S1：构建机器学习架构，所述机器学习架构由映射层、Transformer网络以及分类头模块组成；其中：

映射层用于对嵌入层输出的数据S进行映射操作；

Transformer网络用于对映射后的数据S的光谱空间特征进行提取；

分类头模块用于对Transformer网络提取的光谱空间特征进行分类。

S2：获取高光谱数据集，并从高光谱数据集获得训练集和测试集；

S3：训练机器学习架构结构，具体包括如下步骤：

S3-1：将高光谱数据集中图像输入至嵌入层，并设置分割单元为5，然后将图像的边缘部分使用镜面映射进行补齐，然后再将图像中每个像素点按分割单元大小进行划分，而后再映射进入特征空间，得到数据S；

S3-2：将数据S输入至Transformer网络以获得局部全局融合光谱特征；

S3-3：构建损失函数，然后利用损失函数计算机器学习架构的总损失，然后优化梯度并反向传播，更新机器学习架构的模型参数；

S3-4：重复步骤S3-2至S3-3，每次完成一个训练段（本申请中一个训练段为10个epoch）后，使用特征提取器提取测试数据集Te特征，实现分类，得到预测的图像分类结果，而后根据图像分类结果与测试数据集Te的标签比对，得出测试精度；如果测试精度大于上一个训练结果则保存当前机器学习架构各层的参数，输出机器学习架构的模型参数；若测试精度小于上一训练段结果，则不保存当前网络参数，继续进行下一个训练段，当训练迭代次数达到预设次数时，结束整个机器学习架构的网络训练；保留在测试集上精度最高的网络模型参数作为最终训练结果，输出机器学习架构的模型和分类精度；

S4：利用测试集对步骤S3得到的训练好的机器学习架构模型进行测试，获取图像分类结果。

优选地，步骤S1中，映射层对嵌入层输出的数据S进行映射操作后，经映射后的数据S的数据维度为5×5×96。

优选地，步骤S1中，所述Transformer网络由1个特征提取器、1个特征融合块LGF以及两个patch merging模块构成，特征提取器包括3个SwinTransformer块和1个Transformer块，其中：

本申请中第一个Swin Transformer块用于将数据S进行提取局部特征处理以得到局部特征X；

位于第一个Swin Transformer块与第二个Swin Transformer块之间的patchmerging模块用于将第一个Swin Transformer块输出的局部特征X中的每组2×2大小的相邻块的特征连接起来，并对连接后的特征在维度上进行线性分层使其维度变为C实现降采样，得到维度为/>的特征；

第二个Swin Transformer块用于对维度为的特征进行特征转换，将分辨率从输入的/>空间维度变为/>空间维度，以得到深层局部特征；

Transformer块用于将深层局部特征处理以得到全局特征，由于该Transformer块的前面不设patch merging模块，因此，其输出的全局特征维度保持在；

特征融合块LGF用于将全局特征以及深层局部特征进行初步特征融合，得到局部全局初步融合特征；本申请中特征融合块LGF的融合机制计算公式，如式（1）所示：

（1）

式（1）中，表示经过特征融合块LGF的融合机制的融合表示，/>表示第二个Swin Transformer块输出的深度局部特征，/>表示Transformer块输出的全局特征，/>为融合函数。

位于Transformer块与第三个Swin Transformer块之间的patch merging模块用于将局部全局初步融合特征进行降采样，以得到维度为的特征；

第三个Swin Transformer块用于将维度为的特征进行深层次融合，得到局部全局融合光谱特征；也就是说，整个Transformer网络输出的是维度为/>的局部全局融合光谱特征。

优选地，步骤S1中，特征融合块LGF由依次连接的二维卷积层(conv2d)、二维池化层(maxpool2d)以及二维卷积层(conv2d)组成。

优选地，步骤S1中，本申请中Swin Transformer块的结构与现有技术中公开的Swin Transformer块的结构相同；本申请中的 Transformer块的结构与现有技术中公开的Transformer块的结构相同；本申请中Swin Transformer块中的移窗机制与现有技术中的Swin Transformer块中的移窗机制相同。

优选地，步骤S1中，第一个Swin Transformer块、第二个Swin Transformer块和第三个Swin Transformer块的结构相同；本申请中每一个Swin Transformer块中的W-MSA模块和SW-MSA模块的注意力机制以及Transformer块中的MSA模块的注意力机制均如公式（2）所示：

（2）

式（2）中，Q代表的是查询矩阵、K代表的是键矩阵、V代表的是值矩阵；d是查询维度或者键维度，K^T表示键矩阵K的转置。

优选地，步骤S2中，所述高光谱数据集是将Indian Pines数据集中的第104-108个波段、第150-163个波段以及第220个波段的剔除之后得到的数据集。

优选地，步骤 S3-1的具体步骤为：

S3-1-1：将高光谱数据集中图像输入至嵌入层，并设置分割单元为5；

S3-1-2：对输入的图像的边缘数据进行镜面翻转，然后将像素进行（分割单元-1）/2倍大小的扩展，即扩展2个像素，对输入的图像进行补齐；

S3-1-3：对输入的图像按分割单元大小进行划分，获得5×5大小的patch输入，然后将patch输入划分训练集和测试集；

S3-1-4：将patch输入映射至特征空间，得到数据S，数据S作为模型的输入预备。

优选地，步骤S3-1-3中，将patch输入划分训练集和测试集的具体方式为：步骤S3-1-3中，将patch输入划分训练集和测试集的方式为：将patch输入中的Corn Notill类别中随机的50个样本、Corn Mintill 类别中随机的50个样本、Corn类别中随机的50个样本、Grass Pasture类别中随机的50个样本、Grass Trees类别中随机的50个样本、HayWindrowed类别中随机的50个样本、Soybean Notill类别中随机的50个样本、SoybeanMintill类别中随机的50个样本、Soybean Clean类别中随机的50个样本、Wheat类别中随机的50个样本、Woods类别中随机的50个样本、Buildings Grass Trees Drives类别中随机的50个样本、Stone Steel Towers类别中随机的50个样本、Alfalfa类别中随机的15个样本、Grass Pasture Mowed类别中随机的15个样本以及Oats类别中随机的15个样本划分为训练集；将patch输入中的Corn Notill类别中随机的1384个样本、Corn Mintill 类别中随机的784个样本、Corn类别中随机的184个样本、Grass Pasture类别中随机的447个样本、GrassTrees类别中随机的694个样本、Hay Windrowed类别中随机的439个样本、Soybean Notill类别中随机的918个样本、Soybean Mintill类别中随机的2418个样本、Soybean Clean类别中随机的564个样本、Wheat类别中随机的162个样本、Woods类别中随机的1244个样本、Buildings GrassTrees Drives类别中随机的330个样本、Stone Steel Towers类别中随机的45个样本、Alfalfa类别中随机的39个样本、Grass Pasture Mowed类别中随机的11个样本以及Oats类别中随机的5个样本划分为测试集。

优选地，步骤S3-2的具体步骤包括：

S3-2-1：将数据S输入至Transformer网络的第一个Swin Transformer块获取局部特征X；

S3-2-2：将局部特征X输入至第一个Swin Transformer块与第二个SwinTransformer块之间的patch merging模块进行降采样，得到维度为的特征，然后将该特征输入至第二个Swin Transformer块得到深层局部特征；

S3-2-3：将深层局部特征输送至Transformer块，得到全局特征；

S3-2-4：将步骤S3-2-3得到的全局特征以及步骤S3-2-3得到的深层局部特征输入至特征融合块LGF进行初步特征融合，得到局部全局初步融合特征；

S3-2-5：将局部全局初步融合特征输入送至第三个Swin Transformer块与Transformer块之间的patch merging模块进行降采样，得到维度为的特征；然后将该特征输入至第三个Swin Transformer块进行深层次融合，得到局部全局融合光谱特征。

优选地，步骤S3-3中，为了提高模型的预测精度，本申请在以交叉熵为损失函数的Transformer网络模型中选用ReLU作为激活函数，本申请中交叉熵损失函数用于评估当前训练得到的概率分布与真实分布的差异情况，交叉熵的值越小，两个概率分布就越接近，交叉熵损失函数可以有效避免梯度消散，交叉熵损失函数的计算公式，如式（3）所示：

（3）

式（3）中，为交叉熵损失函数，F是训练集经特征提取器提取得到的特征，Label表示与训练集经特征提取器提取得到的特征相对应的真实分布。

与现有技术相比，本发明的有益效果如下：

1、本申请在第二个Swin Transformer块之前以及第三个Swin Transformer块之前均设置有patch merging模块，如此设置，可以使得第二个Swin Transformer块与patchmerging模块合作、第三个Swin Transformer块与patch merging模块合作，共同用于扩展感受野；另外，本申请中的第一个Swin Transformer块以及第二个Swin Transformer块还可应用窗口内和窗口间的交互来建立分层注意力，以增强网络的局部感知，提高局部特征的提取效果，从而提高小规模对象的分类精度；

2、本申请通过Transformer块的设置对用于全局特征提取的所有令牌中的自注意进行计算，从而实现对全局特征的高效提取；

3、本申请通过特征融合块LGF的设置，实现局部特征和全局特征之间的信息交互，获得了局部全局初步融合特征，而后第三个Swin Transformer块又对局部全局初步融合特征进行深层次融合，得到局部全局融合光谱特征；本申请得到的局部全局融合光谱特征获得了更全面的特征信息，用于最终的图像分类时，能够获得更高的分类精度；此外，本申请中三个Swin Transformer块中窗口和移窗注意力机制的配合设置又有效捕获了高光谱遥感图像的光谱细节信息，从而进一步提高了图像分类效果；经测试，本申请所述的图像分类方法的总体精度OA、平均精度AA、卡帕系数KAPPA分别能够达到84.36%、91.44%、0.8223。

附图说明

图1 是本发明的总体流程图；

图2是本发明中机器学习架构的结构示意图；

图3是图2中特征融合块LGF的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明中术语解释：

Transformer：是一个利用注意力机制来提高模型训练速度的模型。Transformer可以说是完全基于注意力机制的一个深度学习模型，因为它适用于并行化计算。

swin transformer：是一种视觉transformer的变种，创新性的引入了滑动窗口机制，让模型能够学习到跨窗口的信息，同时通过降采样层，使得模型能够处理超分辨率的图片，节省计算量以及能够关注全局和局部的信息。

本实施例提供的一种基于机器学习及局部和全局特征融合的遥感图像分类方法，其总体流程图，如图1所示，具体包括以下步骤：

S1：在深度学习框架Pytorch中构建机器学习架构，机器学习架构结构，如图2所示，本实施例中构建的机器学习架构由映射层、Transformer网络以及分类头模块组成；

其中，映射层用于对嵌入层输出的数据S进行映射操作，经映射后的数据S的数据维度为5×5×96；

Transformer网络用于对映射后的数据S的光谱空间特征进行提取；其中，Transformer网络由1个特征提取器、1个特征融合块LGF以及两个patch merging模块构成，特征提取器包括3个Swin Transformer块和1个Transformer块，该上述3个SwinTransformer块和1个Transformer块的连接方式，如图2所示，其中：

特征融合块LGF，如图3所示，由依次连接的二维卷积层(conv2d)、二维池化层(maxpool2d)以及二维卷积层(conv2d)组成，用于将全局特征以及深层局部特征进行初步特征融合，得到局部全局初步融合特征；本申请中特征融合块LGF的融合机制计算公式，如式（1）所示：

（1）

式（1）中，表示经过特征融合块LGF的融合机制的融合表示，/>表示第二个Swin Transformer块输出的深度局部特征，/>表示Transformer块输出的全局特征，/>是融合函数。

本申请中Swin Transformer块的结构与现有技术中公开的Swin Transformer块的结构是相同的。本申请Transformer网络中的Swin Transformer块包括四个归一化层LN、两个多层感知机模块（MLP）、四个残差模块、一个窗口注意力机制模块（W-MSA）和一个移窗注意力机制模块(SW-MSA)，其中：

输入Swin Transformer块的特征首先会经过第一个归一化层LN的归一化处理，得到归一化特征A；然后归一化特征A输入到第一个W-MSA,经过窗口注意力机制计算得到初步窗口注意力特征；而后初步窗口注意力特征和输入至Swin Transformer块的特征均输入至第一个残差模块进行第一次残差连接，得到连接数据A；而后连接数据A再经过第二个归一化层LN的归一化处理，得到归一化特征B；而后归一化特征B输入至多层感知机模块（MLP）对特征的序列位置进行转化，得到序列位置转化的特征A；序列位置转化的特征A再与输入第二个归一化层LN的数据输入至第二个残差模块中，进行第二次残差连接，得到连接数据B；而后，连接数据B会再经过第三个归一化层LN的层归一化处理，得到归一化特征C；归一化特征C输入至SW-MSA模块得到初步移窗注意力特征；初步移窗注意力特征会和输入至第三个归一化层LN的数据输入至第三个残差模块中进行第三个残差连接，得到得到连接数据C；而后，连接数据C会再经过归一化层LN的归一化处理，得到归一化特征D；归一化特征D输入至多层感知机模块（MLP），得到序列位置转化的特征B；而后，序列位置转化的特征B会与输入第四个归一化层LN的特征输入至第四个残差模块中进行第四次残差连接，得到连接数据D，连接数据D为窗口-移窗注意力特征。

本申请中第一个Swin Transformer块处理得到的局部特征X、第二个SwinTransformer块处理得到的深层局部特征以及第三个Swin Transformer块处理得到的局部全局融合光谱特征均为窗口-移窗注意力特征。

本申请中的 Transformer块的结构与现有技术中公开的Transformer块的结构是相同的。本申请中的Transformer块由两个归一化层LN、一个注意力机制模块(MSA)、一个多层感知机模块（MLP）以及两个残差模块构成；其中，第二个Swin Transformer块得到的深层局部特征输入到Transformer块时，Transformer块中的第一个归一化层LN会对深层局部特征进行归一化处理，得到归一化特征E；而后归一化特征E会经过注意力机制模块(MSA)的多头注意力处理，得到初步全局特征；而后，初步全局特征会与输入至Transformer块的第一个归一化层LN的数据经过Transformer块中的第一个残差模块进行残差连接，得到连接数据E；而后连接数据E会输入至Transformer块中第二个归一化层LN进行归一化处理，得到归一化特征F，而后归一化特征F会输入至多层感知机模块（MLP）对特征的序列位置进行转化，得到序列位置转化的特征C；而后，序列位置转化的特征C会与输入至Transformer块中第二个归一化层LN的数据输入至Transformer块中第二个残差模块进行残差连接，得到连接数据F，该连接数据F即为全局特征。

而本申请中Swin Transformer块中的移窗机制与现有技术中的SwinTransformer块中的移窗机制也是相同的，本申请中每一个Swin Transformer块中的移窗机制如式（4）至式（7）所示：

（4）

（5）

（6）

（7）

式（4）至式（7）中,表示的是块/> 的窗口注意力机制模块（W-MSA）和移窗注意力机制模块(SW-MSA)的输出特征，/>表示的是块/> 的多层感知机模块（MLP）的输出特征。

本申请中Swin Transformer块的结构与现有技术中公开的Swin Transformer块的结构相同，本申请中Swin Transformer块中的移窗机制与现有技术中的SwinTransformer块中的移窗机制也相同，本申请中的Swin Transformer块中的W-MSA模块和SW-MSA模块的注意力机制以及Transformer块中的MSA模块的注意力机制也与现有技术相同。本申请中每一个Swin Transformer块中的W-MSA模块和SW-MSA模块的注意力机制以及Transformer块中的MSA模块的注意力机制均如公式（2）所示：

（2）

式（2）中，z代表特征，Q代表的是查询矩阵、K代表的是键矩阵、V代表的是值矩阵；d是查询维度或者键维度，K^T表示键矩阵K的转置。

S2：获取高光谱数据集；所述高光谱数据集是将Indian Pines数据集中的第104-108个波段、第150-163个波段以及第220个波段的剔除之后得到的数据集；

S3：训练机器学习架构结构，具体包括如下步骤：

S3-1：将高光谱数据集中图像输入至嵌入层，并设置分割单元为5，然后将图像的边缘部分使用镜面映射进行补齐，然后再将图像中每个像素点按分割单元大小进行划分，而后再映射进入特征空间，得到数据S；步骤 S3-1的具体步骤为；

S3-1-3：对输入的图像按分割单元大小进行划分，获得5×5大小的patch输入，然后将patch输入划分训练集和测试集；其中，将patch输入划分训练集和测试集的方式为：将patch输入中的Corn Notill类别中随机的50个样本、Corn Mintill 类别中随机的50个样本、Corn类别中随机的50个样本、Grass Pasture类别中随机的50个样本、Grass Trees类别中随机的50个样本、Hay Windrowed类别中随机的50个样本、Soybean Notill类别中随机的50个样本、Soybean Mintill类别中随机的50个样本、Soybean Clean类别中随机的50个样本、Wheat类别中随机的50个样本、Woods类别中随机的50个样本、Buildings GrassTreesDrives类别中随机的50个样本、Stone Steel Towers类别中随机的50个样本、Alfalfa类别中随机的15个样本、Grass Pasture Mowed类别中随机的15个样本以及Oats类别中随机的15个样本划分为训练集；将patch输入中的Corn Notill类别中随机的1384个样本、CornMintill 类别中随机的784个样本、Corn类别中随机的184个样本、Grass Pasture类别中随机的447个样本、Grass Trees类别中随机的694个样本、Hay Windrowed类别中随机的439个样本、Soybean Notill类别中随机的918个样本、Soybean Mintill类别中随机的2418个样本、Soybean Clean类别中随机的564个样本、Wheat类别中随机的162个样本、Woods类别中随机的1244个样本、Buildings Grass Trees Drives类别中随机的330个样本、StoneSteel Towers类别中随机的45个样本、Alfalfa类别中随机的39个样本、Grass PastureMowed类别中随机的11个样本以及Oats类别中随机的5个样本划分为测试集，训练集和测试集的地物覆盖类别以及每个类别的样本数量如表1所示；

S3-1-4：将patch输入映射至特征空间，得到数据S，数据S作为模型的输入预备；

S3-2：将数据S输入至Transformer网络以获得局部全局融合光谱特征；步骤S3-2的具体步骤包括：

S3-2-3：将深层局部特征输送至Transformer块，得到全局特征；

S3-2-5：将局部全局初步融合特征输入送至第三个Swin Transformer块与Transformer块之间的patch merging模块进行降采样，得到维度为的特征；然后将该特征输入至第三个Swin Transformer块进行深层次融合，得到局部全局融合光谱特征；

S3-3：构建损失函数，然后利用损失函数计算机器学习架构的总损失，然后优化梯度并反向传播，更新机器学习架构的模型参数。本申请中为了提高模型的预测精度，在以交叉熵为损失函数的Transformer网络模型中选用ReLU作为激活函数，本申请中交叉熵损失函数用于评估当前训练得到的概率分布与真实分布的差异情况，交叉熵的值越小，两个概率分布就越接近，交叉熵损失函数可以有效避免梯度消散，交叉熵损失函数的计算公式，如式（3）所示：

（3）

S3-4：重复步骤S3-2至S3-3，每次完成一个训练段（即10个epoch）后，使用特征提取器提取测试数据集Te特征，实现分类，得到预测的图像分类结果，而后根据图像分类结果与测试数据集Te的标签比对，得出测试精度；如果测试精度大于上一个训练结果则保存当前机器学习架构各层的参数，输出机器学习架构的模型参数；若测试精度小于上一训练段结果，则不保存当前网络参数，继续进行下一个训练段，当训练迭代次数达到预设次数时，结束整个机器学习架构的网络训练；保留在测试集上精度最高的网络模型参数作为最终训练结果，输出机器学习架构的模型和分类精度；本实施例中训练迭代次数的预设次数为200次。

此外，为了对比利用本发明所述基于机器学习及局部和全局特征融合的遥感图像分类方法获得的深度神经网络分类模型相较于现有技术中Support Vector Machine（简称SVM）、 K-nearest neighbor (简称KNN)、One Dimension Convolutional Neural Network（简称1-D CNN）、Two Dimension Convolutional Neural Network（简称2-D CNN）、miniGraphconvolutional networks（简称miniGCN）、Swin transformer、Spectral–spatialfeature tokenization transformer （简称SSFTT）、SpectralFormer等光谱图像分类方法的分类效果优势，本申请分别利用上述八种光谱图像分类方法对本申请实施例中所述的高光谱数据集进行分类获取分类精度，同时也用本申请所述基于机器学习及局部和全局特征融合的遥感图像分类方法（简称LGST）获得的深度神经网络分类模型进一步对本实施例中所涉及的高光谱数据集进行分类精度对比，为对比公平训练集和测试集均保持一致，测试结果如表1和表2所示。表2中，使用总体精度OA、平均精度AA、卡帕系数KAPPA指标分析评价模型，OA、AA、KAPPA指标越高，模型的分类准确性越高。如表2所示，本发明的OA、AA、KAPPA指标均明显高于其他8种分类方法。

由于SVM、KNN、1-D CNN、2-D CNN、miniGCN、Swin transformer、SSFTT、SpectralFormer等光谱图像分类方法均为现有技术，利用该上述现有技术对本申请所述的高光谱数据集进行分类也是现有技术，故利用该上述八种方法对本申请所述的高光谱数据集进行分类的步骤再次不再赘述。

表1

表2

表1展示了Indian Pines数据集的地物种类类别以及针对不同地物种类类别的训练集和测试集的划分的样本数量。其中，表1的第一列表达的是Indian Pines数据集共有16种类别，表1第二列展示的是对应的地物种类；具体每种地物种类类别的训练集和测试集中的样本数量如表1中第三列和第四列所示；表1 中最后一行也就是记载有总数那一行表示的是训练集和测试集的样本总数分别为695和9671。

表2中第一列表示的是Indian Pines数据集中包含的16种类别，该16种类别与表1中第一列和第二列所示的类别以及地物种类一致；表2中第一行记载的SVM、KNN、1-D CNN、2-D CNN、miniGCN、Swin transformer、SSFTT、SpectralFormer以及LGST分别表示的是不同的图像分类方法，第二列与第十列以及第二行至第十七行之间展示的是16种类别对应的训练集和测试集用于对SVM、KNN、1-D CNN、2-D CNN、miniGCN、Swin transformer、SSFTT、SpectralFormer以及LGST等九种图像分类方法进行测试时得到的每种类别的准确率，该准确率是指某一种图像分类方法对某一种分类的测试集进行测试得到的正确分类数量与总数量之间的比值。如表2中第二行与第二列相交位置所示的数值45.45，表示的是利用KNN图像分类方法对类别1所示的具有1384个测试样本的测试集进行测试，实际经过对比发现，KNN图像分类方法正确分类输出的样本数量为629，故此，通过计算可得类别1的准确率为629/1384=45.45%，该45.45%即为第二行与第二列相交位置所示的数值。

表2中最后三行分别代表总体精度OA、平均精度AA、卡帕系数KAPPA。OA、AA、KAPPA指标越高，模型的分类准确性越高。

其中，总体精度OA为模型输出的所有类别正确样本之和与总测试集数量的比值，本申请所述图像分类方法相对于上述所有现有的图像分类方法，拥有最高的精度，相较于该上述现有的图像分类方法所能取得的最高OA值81.76%，本申请所述图像分类方法将OA值相对于该上述最高OA值提高了（（0.8436-0.8176）/0.8176）×100%=3.2%，这说明本申请对样本的正确分类能力突出；

平均精度AA为每个类别的准确率进行平均操作，相对于上述所有现有的图像分类方法，本申请所述图像分类方法测试得到的AA精度最高，相较于该上述现有的图像分类方法所能取得的最高AA精度值87.81%，本申请所述图像分类方法将AA值相对于该上述最高AA值提高了（（0.9144-0.8781）/0.8781）×100%=4.1%；说明本申请所述的图像分类方法，不管要分类的数据集中的地物种类类别数量多少，都能达到较好的分类结果；

而本申请所述图像分类方法相对于上述其他现有的图像分类方法，本申请所述图像分类方法测试得到的KAPPA精度也是最高的，相较于该上述现有的图像分类方法所能取得的最高KAPPA精度值0.7919，本申请所述图像分类方法将AA值相对于该上述最高AA值提高了（（0.8223-0.7919）/0.7919）×100%=3.8%；这说明，本申请所述的图像分类方法进行图像分类时得到的分类类别具有较高的一致性。

Claims

1.一种基于机器学习及局部和全局特征融合的遥感图像分类方法，其特征在于：包括以下步骤：

映射层用于对嵌入层输出的数据S进行映射操作；

Transformer网络用于对映射后的数据S的光谱空间特征进行提取；其中，所述Transformer网络由1个特征提取器、1个特征融合块LGF以及两个patch merging模块构成，特征提取器包括3个Swin Transformer块和1个Transformer块，其中：

第一个Swin Transformer块用于将数据S进行提取局部特征处理以得到局部特征X；

位于第一个Swin Transformer块与第二个Swin Transformer块之间的patch merging模块用于将第一个Swin Transformer块输出的局部特征X中的每组2×2大小的相邻块的特征连接起来，并对连接后的特征在维度上进行线性分层使其维度变为C实现降采样；

第二个Swin Transformer块用于对位于第一个Swin Transformer块与第二个SwinTransformer块之间的patch merging模块输出的特征进行特征转换，以得到深层局部特征；

Transformer块用于将深层局部特征处理以得到全局特征；

特征融合块LGF用于将全局特征以及深层局部特征进行初步特征融合，得到局部全局初步融合特征；所述特征融合块LGF的融合机制计算公式，如式（1）所示：

（1）

式（1）中，表示经过特征融合块LGF的融合机制的融合表示，/>表示第二个SwinTransformer块输出的深度局部特征，/>表示Transformer块输出的全局特征，/>是融合函数；

位于Transformer块与第三个Swin Transformer块之间的patch merging模块用于将局部全局初步融合特征进行降采样；

第三个Swin Transformer块用于将位于Transformer块与第三个Swin Transformer块之间的patch merging模块输出的特征进行深层次融合，得到局部全局融合光谱特征；

分类头模块用于对Transformer网络提取的光谱空间特征进行分类；

S3：训练机器学习架构结构，具体包括如下步骤：

S3-1：将高光谱数据集中图像输入至嵌入层，设置分割单元大小，将图像的边缘部分使用镜面映射进行补齐，将图像中每个像素点按分割单元大小进行划分，而后再映射进入特征空间，得到数据S；

S3-4：重复步骤S3-2至S3-3，每次完成一个训练段后，使用特征提取器提取测试数据集Te特征，实现分类，得到预测的图像分类结果，而后根据图像分类结果与测试数据集Te的标签比对，得出测试精度；如果测试精度大于上一个训练结果则保存当前机器学习架构各层的参数，输出机器学习架构的模型参数；若测试精度小于上一训练段结果，则不保存当前网络参数，继续进行下一个训练段，当训练迭代次数达到预设次数时，结束整个机器学习架构的网络训练；保留在测试集上精度最高的网络模型参数作为最终训练结果，输出机器学习架构的模型和分类精度；

2.根据权利要求1所述的基于机器学习及局部和全局特征融合的遥感图像分类方法，其特征在于：步骤S1中，映射层对嵌入层输出的数据S进行映射操作后，经映射后的数据S的数据维度为5×5×96。

3.根据权利要求1所述的基于机器学习及局部和全局特征融合的遥感图像分类方法，其特征在于：特征融合块LGF由依次连接的二维卷积层、二维池化层以及二维卷积层组成。

4.根据权利要求1所述的基于机器学习及局部和全局特征融合的遥感图像分类方法，其特征在于：第一个Swin Transformer块、第二个Swin Transformer块和第三个SwinTransformer块的结构相同；所述Swin Transformer块中的W-MSA模块、SW-MSA模块的注意力机制以及Transformer块中的MSA模块的注意力机制均如公式（2）所示：

（2）

式（2）中，Q代表的是查询矩阵、K代表的是键矩阵、V代表的是值矩阵；d是查询维度或者键维度，KT表示键矩阵K的转置。

5.根据权利要求1所述的基于机器学习及局部和全局特征融合的遥感图像分类方法，其特征在于：步骤S2中，所述高光谱数据集是将Indian Pines数据集中的第104-108个波段、第150-163个波段以及第220个波段的剔除之后得到的数据集。

6.根据权利要求1所述的基于机器学习及局部和全局特征融合的遥感图像分类方法，其特征在于：步骤 S3-1的具体步骤为：

S3-1-3：对输入的图像按分割单元大小进行划分，获得patch输入，然后将patch输入划分训练集和测试集；

7.根据权利要求6所述的基于机器学习及局部和全局特征融合的遥感图像分类方法，其特征在于：步骤S3-1-3中，将patch输入划分训练集和测试集的方式为：将patch输入中的Corn Notill类别中随机的50个样本、Corn Mintill 类别中随机的50个样本、Corn类别中随机的50个样本、Grass Pasture类别中随机的50个样本、Grass Trees类别中随机的50个样本、Hay Windrowed类别中随机的50个样本、Soybean Notill类别中随机的50个样本、Soybean Mintill类别中随机的50个样本、Soybean Clean类别中随机的50个样本、Wheat类别中随机的50个样本、Woods类别中随机的50个样本、Buildings Grass Trees Drives类别中随机的50个样本、Stone Steel Towers类别中随机的50个样本、Alfalfa类别中随机的15个样本、Grass Pasture Mowed类别中随机的15个样本以及Oats类别中随机的15个样本划分为训练集；将patch输入中的Corn Notill类别中随机的1384个样本、Corn Mintill 类别中随机的784个样本、Corn类别中随机的184个样本、Grass Pasture类别中随机的447个样本、Grass Trees类别中随机的694个样本、Hay Windrowed类别中随机的439个样本、Soybean Notill类别中随机的918个样本、Soybean Mintill类别中随机的2418个样本、Soybean Clean类别中随机的564个样本、Wheat类别中随机的162个样本、Woods类别中随机的1244个样本、Buildings Grass Trees Drives类别中随机的330个样本、Stone SteelTowers类别中随机的45个样本、Alfalfa类别中随机的39个样本、Grass Pasture Mowed类别中随机的11个样本以及Oats类别中随机的5个样本划分为测试集。

8.根据权利要求1所述的基于机器学习及局部和全局特征融合的遥感图像分类方法，其特征在于：步骤S3-2的具体步骤包括：

S3-2-2：将局部特征X输入至第一个Swin Transformer块与第二个Swin Transformer块之间的patch merging模块进行降采样，然后将该上述降采样得到的特征输入至第二个Swin Transformer块得到深层局部特征；

S3-2-3：将深层局部特征输送至Transformer块，得到全局特征；

S3-2-5：将局部全局初步融合特征输入送至第三个Swin Transformer块与Transformer块之间的patch merging模块进行降采样；然后将该上述降采样得到的特征输入至第三个Swin Transformer块进行深层次融合，得到局部全局融合光谱特征。

9.根据权利要求1所述的基于机器学习及局部和全局特征融合的遥感图像分类方法，其特征在于：步骤S3-3中，在以交叉熵为损失函数的Transformer网络模型中选用ReLU作为激活函数，交叉熵损失函数用于评估当前训练得到的概率分布与真实分布的差异情况，交叉熵损失函数的计算公式，如式（3）所示：

（3）