CN116229153A

CN116229153A - 基于光谱空间融合Transformer特征提取的地物分类方法

Info

Publication number: CN116229153A
Application number: CN202310041746.6A
Authority: CN
Inventors: 石翠萍; 廖帝灵; 苗凤娟; 陶佰睿; 王天毅
Original assignee: Qiqihar University
Current assignee: Qiqihar University
Priority date: 2023-01-11
Filing date: 2023-01-11
Publication date: 2023-06-06

Abstract

基于光谱空间融合Transformer特征提取的地物分类方法，本发明涉及地物分类方法。本发明的目的是为了解决现有DL方法一方面，采用局部提取和全局参数共享机制的CNN更关注空间内容信息，从而使学习特征中的频谱序列信息发生扭曲；另一方面，CNN很难描述HSI像素与波段之间的长距离相关性的问题。过程为：一、建立光谱空间融合多头双自注意力Transformer特征提取的分类网络，基于训练集获得训练好的网络；二、将待测图像输入训练好的网络，完成对待测图像的分类；所述光谱空间融合多头双自注意力Transformer特征提取的分类网络包括SpaFormer、SpeFormer、AS²FM和分类器。本发明用于高光谱图像分类领域。

Description

基于光谱空间融合Transformer特征提取的地物分类方法

技术领域

本发明涉及地物分类方法。

背景技术

高光谱图像(Hyperspectral Image，HSI)由机载成像光谱仪捕获而来，且携带大量的光谱和空间信息。近年来，HSI在很多领域起着重要的作用，包括卫生保健[1]、军事[2]、地球勘探[3]、环境保护[4]等。其中，高光谱图像分类是高光谱图像处理的一个重要阶段，且是图像研究热点之一。具体地说，高光谱图像分类就是通过学习先验知识，对图像进行逐像素分类[5]-[7]。

在研究早期，分类方法更关注图像的光谱特征提取，出现了很多经典的方法。包括支持向量机(Support Vector Machines，SVM)[8]、随机森林(Random Forest，RF)[9]和逻辑回归(Logistic Regression，LR)[10]等。同时，考虑到HSI图像光谱维度带来的维数诅咒(dimensionality curse)[11]问题，一些降维(Dimension Reduction，DR)技术被提出。通常，DR包括两个步骤，分别为特征选择和特征提取。其中，主成分分析(PrincipalComponent Analysis，PCA)[12]是最为常见的特征提取DR技术。它将高维的光谱数据投影到低维子空间，并试图寻找最优转换。与特征提取不同，特征选择是通过将光谱维度具有价值或区别较大的波段保留下来，并丢弃没有价值的波段。这种方式不仅能够降低数据维度，避免遭遇维数灾难.问题，同时还能有效地降低计算负担。

HSI除了包含几百个光谱波段，还含有丰富空间信息。结合图像的空间和光谱信息构建分类网络，有助于增强网络的鲁棒性[13]。在[14]，一种复合核(Composite Kernels)方法被提出，它不仅考虑了光谱特征的空间变异性，还考虑了图像的光谱、空间和局部交叉信息。[15]提出的保留边缘滤波方法将整个空间背景整合到高光谱图像分类中，且验证了该方法能够有效提高分类精度。此外，考虑到HSI的盐和胡椒噪声对分类的影响，[16]提出了一种超像素分割技术，它将HSI划分成不同大小的局部均匀区域，增强了空间结构信息的一致性。受到[16]的启发，Zhang等人[17]采用基于超像素的局部重建来过滤HSI，并使用基于PCA的全局特征作为局部特征的补充。

上述传统的方法虽然能够获取图像的基本特征，但是分类性能依然不令人感到满意。此外，这些方法存在较多缺点。例如，太过依赖专业领域的知识、泛化能力较低、所获取的特征表示能力较弱。因此，基于深度学习(Deep Learning，DL)技术在计算机视觉任务中(如分类[18]-[20]、检测[21][22]、分割[23]等)越来越受欢迎，这是由于它不仅能摆脱人工的束缚，还能自适应学习高级语义信息。

近年来，DL技术出现了很多出色的框架，包括卷积神经网络(ConvolutionalNeural Networks)[24]、生成对抗网络(Generative Adversarial Networks，GANs)[25][26]、循环神经网络(Recurrent Neural Networks，RNNs)[27][28]、图神经网络(GraphConvolutional Networks，GCNs)[29][30]、胶囊网络(Capsule Networks，CapsNets)[31]以及视觉Transformers(Visual Transformers，ViTs)[32]。

其中，CNN通过局部连接和全局参数共享机制提高了特征的判决能力，是最受欢迎的DL方法之一。与其他普通图像不同，HSI包含丰富光谱和空间特征，通过构建CNN网络能够很容易挖掘HSI的这两种特征，这也是研究人员致力于CNN构建作为特征提取器的原因。在[33]，Hu等人使用1D-CNN对HSI进行逐像素分类，验证了1D-CNN适用于高光谱图像分类任务。此外，图像具有丰富的空间信息，为了能够整合图像的空间信息，[34]提出了2D-CNN，它采用中心分类像素周围的相邻像素作为训练样本执行分类任务，提高了分类性能。然而，仅使用2D-CNN不足以提取图像的光谱-空间联合特征。因此，Hamida等人[35]将HSI切分为多个3D立体块，并构建3D-CNN提取图像的光谱-空间联合特征，验证了该方法能够有效地改善分类性能。同样地，Roy等人[36]设计了一种基于3D-CNN和2D-CNN的光谱空间混合网络，并证明了该网络的有效性。随着3D-CNN网络深度的逐渐增加，梯度消失和梯度爆炸问题将会发生[37]，且分类精度逐渐降低。为了解决该问题，Zhong等人[38]在设计的空间3D-CNN模块和光谱3D-CNN模块中引入ResNet[39]结构，提取了丰富的空间和光谱特征。此外，Paoletti等人[40]通过更好地利用每个单元上可用信息的潜力，提出了一种光谱-空间高光谱图像分类的深度金字塔残差网络。为了进一步改善分类性能和缓解过拟合问题，注意力机制受到了广泛的关注，并被成功应用在高光谱图像分类中[41]-[44]。例如，He等人[45]提出了一种双全局-局部注意网络(Dual Global–Local Attention Network，DGLANet)。为了减少像素的空间-光谱冗余信息，在[46]，Mei等人提出了一种基于双向长短期记忆(Bidirectional Long Short-Term Memory，Bi-LSTM)的网络，该网络设计了光谱空间注意机制，强调了有效的信息。

过去，Transformer在自然语言处理(Natural Language Processing，NLP)领域受到广泛关注。值得注意的是，最近，Transformer被引入在计算机视觉中，且成功应用于图像分类任务[47]。由于高光谱图像的光谱是序列数据，且通常包含几百个波段，He等人[48]将迁移学习和Transformer框架结合，提出了一种空间-光谱Transformer(Spatial-SpectralTransformer，SST)网络，并证明Transformer能够构建光谱的序列的相关性。同样地，Hong等人[49]从光谱序列属性的角度重新思考了Transformer，提出了一种光谱Transformer(Spectral Transformer，SF)网络，且证实了与经典ViT和先进的骨干网络相比，它具有更为显著的优势。通常，基于CNN的网络获取的高级语义特征比较有限。因此，Sun等人[50]提出了一种基于光谱-空间特征标记化Transformer(Spectral-Spatial FeatureTokenization Transformer，SSFTT)网络，用来捕获光谱-空间特征和高级语义特征。同样地，Zhong等人[51]提出了一种新的光谱-空间Transformer网络(SSTN)，克服了CNN学习长距离依赖关系的能力较弱问题。在[52]，Huang等人提出了一种新的基于3DSwinTransformer的层次对比学习(3D-Swin Transformer-based Hierarchical ContrastiveLearning，3DSwinT-HCL)方法，该方法采用Transformer有效弥补了CNN获取感受野不足和无法捕获数据的顺序属性的缺点。为了解决网络在训练阶段容易受到目标像素周围无关信息的干扰，导致特征提取不准确的问题，Bai等人[53]提出了一种基于多分支注意Transformer网络的高光谱图像分类方法。在[54]，Zou等人提出了局部增强光谱-空间变压器(Local-Enhanced Spectral-Spatial Transformer，LESSFormer)方法，缓解了基于Transformer的分类方法通常从原始HSI的单个光谱或空间维度生成不准确的标记嵌入问题。受计算机视觉瓶颈Transformer的启发，Song等人[55]提出了一种瓶颈空间光谱Transformer(Bottleneck Spatial–Spectral Transformer，BS2T)网络，该网络采用Transformer使提取的特征更具空间位置感知和光谱感知能力。在[56]，Mei等人提出了一种组感知分层变换器(Group-Aware Hierarchical Transformer，GAHT)，用于解决Transformer中多头自注意力(multi-head self-attention，MHSA)提取的特征可能表现出过度分散问题。

尽管上述的DL方法已经广泛应用于高光谱图像的分类中，但依然存在一些挑战。一方面，采用局部提取和全局参数共享的机制的CNN更关注空间内容信息，从而使学习特征中的频谱序列信息发生扭曲[49]。另一方面，CNN很难描述HSI像素与波段之间的长距离相关性。

发明内容

本发明的目的是为了解决现有DL方法一方面，采用局部提取和全局参数共享机制的CNN更关注空间内容信息，从而使学习特征中的频谱序列信息发生扭曲；另一方面，CNN很难描述HSI像素与波段之间的长距离相关性的问题，而提出基于光谱空间融合Transformer特征提取的地物分类方法。

基于光谱空间融合Transformer特征提取的地物分类方法具体过程为：

一、建立光谱空间融合Transformer网络S²FTNet，基于训练集获得训练好的光谱空间融合Transformer网络S²FTNet；

二、将待测图像输入训练好的光谱空间融合Transformer网络S²FTNet，完成对待测图像的分类；

所述光谱空间融合Transformer网络S²FTNet包括空间Transformer模块SpaFormer、光谱Transformer模块SpeFormer、自适应光谱空间融合机制AS²FM和分类器；

所述空间Transformer模块SpaFormer包括三维卷积块、二维卷积块和三个改进的Transformer块一；

所述每个卷积块Conv均包含卷积层、批归一化层和非线性激活层；

所述每个改进的Transformer块一包括位置嵌入、2个层归一化、一个多头双自注意力和多层感知机；

所述光谱Transformer模块SpeFormer包括改进的Transformer块二；

改进的Transformer块二包括两个层归一化、一个多头双自注意力、两个卷积块和一个高斯误差线性单位。

本发明的有益效果为：

本发明提出了基于光谱空间融合Transformer特征提取的地物分类方法(Spectral Spatial Fusion Transformer Network，S²FTNet)。特别是，S²FTNet采用Transformer框架构建空间Transformer模块(Spatial Transformer Module，SpaFormer)和光谱Transformer模块(Spectral Transformer Module，SpeFormer)，以捕获图像空间和光谱中、长距离依赖关系。此外，提出了一种自适应光谱空间融合机制(Adaptive SpectralSpatial Fusion Mechanism，AS²FM)，将所得到的光谱空间高级语义特征进行有效结合。

本发明主要贡献如下：

1)为增强特征的长距离的依赖关系，提出了一种基于多头双自注意力(MHD-SA)的Transformer块。接着，将三个改进的Transformer块并联构建为空间Transformer模块(Spatial Transformer Module，SpaFormer)，以提取不同空间尺寸的图像长距离依赖关系。

2)为学习更多的光谱序列信息，提出了一种光谱Transformer模块(SpectralTransformer Module，SpeFormer)。其中，SpeFormer采用卷积替代了传统Transformer的多层感知机(MLP)，并与提出的MHD-SA相结合。

3)为了更为有效地结合空间分支和光谱分支所提取的高级语义特征，提出了一种自适应光谱空间融合机制(Adaptive Spectral Spatial Fusion Mechanism，AS²FM)。

4)基于Transformer和CNN，我们提出了基于光谱空间融合Transformer网络(Spectral Spatial Fusion Transformer Network，S²FTNet)，该网络采用双分支结构分别提取光谱空间特征，并将两个分支所得到的特征采用自适应融合机制进行结合。通过实验证明，与一些先进的CNNs和Transformers网络相比，具有更好的分类性能。

附图说明

图1为S²FTNet整体网络框架图；

图2为MHD-SA结构图，(a)MHD-SA整体结构图，(b)MHD-SA的单头结构图；

图3为SpeFormer的整体结构图；

图4为不同输入空间大小对OA的影响图；

图5为不同学习率和批处理大小对性能精度OA的影响图，(a)Indian Pines数据集上的实验结果，(b)Pavia数据集上的实验结果，(c)Salinas数据集上的实验结果和，(d)WHU-Hi-LongKou数据集上的实验结果；

图6为不同方法在Indian Pines数据集上获得的分类图，(a)伪彩色图，(b)真实地物图，(c)-(l)分别为2DCNN、3DCNN、Hybrid-SN、PyResNet、ViT、SF、SSFTT、SSTN、GAHT和Proposed的分类图；

图7为不同方法在Pavia数据集上获得的分类图，(a)伪彩色图，(b)真实地物图，(c)-(l)分别为2DCNN、3DCNN、Hybrid-SN、PyResNet、ViT、SF、SSFTT、SSTN、GAHT和Proposed的分类图；

图8为不同方法在Salinas数据集上获得的分类图，(a)伪彩色图，(b)真实地物图，(c)-(l)分别为2DCNN、3DCNN、Hybrid-SN、PyResNet、ViT、SF、SSFTT、SSTN、GAHT和Proposed的分类图；

图9为不同方法在WHU-Hi-LongKou数据集上获得的分类图，(a)伪彩色图，(b)真实地物图，(c)-(l)分别为2DCNN、3DCNN、Hybrid-SN、PyResNet、ViT、SF、SSFTT、SSTN、GAHT和Proposed的分类图；

图10为不同方法在Indian Pines数据集上的T-SNE可视化图，(a)3DCNN，(b)Hybrid-SN，(c)SSTN，(d)Proposed；

图11为不同方法在Pavia数据集上的T-SNE可视化图，(a)3DCNN，(b)Hybrid-SN，(c)SSTN，(d)Proposed；

图12为不同方法在Salinas数据集上的T-SNE可视化图，(a)3DCNN，(b)Hybrid-SN，(c)SSTN，(d)Proposed；

图13为不同方法在WHU-Hi-LongKou数据集上的T-SNE可视化图，(a)3DCNN，(b)Hybrid-SN，(c)SSTN，(d)Proposed；

图14为平衡因子λ与损失值在不同数据集上的变化情况图，(a)IndianPines数据集；(b)WHU-Hi-LongKou数据集。

具体实施方式

具体实施方式一：本实施方式基于光谱空间融合Transformer特征提取的地物分类方法具体过程为：

本发明提出了一种光谱空间融合Transformer网络，它充分考虑了HSI数据的光谱序列性和长距离依赖关系。与传统的基于CNN方法不同的是，本发明所提出方法结合了CNN和Transformer框架，弥补了CNN很难描述HSI长距离相关性的缺点。具体地说，本发明所提出光谱空间融合Transformer网络包含两个分支，分别为空间Transformer分支和光谱Transformer分支。其中，空间Transformer分支采用CNN和改进的Transformer块结合，建立了光谱空间长距离依赖关系，丰富了光谱空间特征。光谱Transformer分支采用保留光谱序列性，结合改进的多头双注意力(MHD-SA)和Conv，探索不同光谱波段之间的长距离依赖关系。由于提取的特征重要程度不同，为了平衡两个分支提取的高级语义特征，本发明还提出了一种自适应光谱空间融合机制。最后，为了验证本发明所提出方法的优越性，本发明选取三个比较经典数据集和一个较新的数据集进行了一系列实验，实验验证了本发明所提出方法的有效性。

一、建立光谱空间融合Transformer网络S²FTNet(Spectral Spatial FusionTransformer Network)，基于训练集获得训练好的光谱空间融合Transformer网络S²FTNet；

所述光谱空间融合Transformer网络S²FTNet包括空间Transformer模块SpaFormer(Spatial Transformer Module，SpaFormer)、光谱Transformer模块SpeFormer(Spectral Transformer Module，SpeFormer)、自适应光谱空间融合机制AS²FM(AdaptiveSpectral Spatial Fusion Mechanism，AS²FM)和分类器；整体网络框架如图1所示；

所述空间Transformer模块SpaFormer包括三维卷积块(3-D Convolution，Conv3D)、二维卷积块(2-D Convolution，Conv2D)和三个改进的Transformer块一；

所述每个改进的Transformer块一包括位置嵌入(Position Embedding，PE)、2个层归一化(Norm)、一个多头双自注意力(Multi-head Double Self Attention，MHD-SA)和多层感知机(Multilayer Perceptron，MLP)；

所述光谱Transformer模块SpeFormer包括改进的Transformer块二；

改进的Transformer块二包括两个层归一化、一个多头双自注意力(MHD-SA)、两个卷积块和一个高斯误差线性单位(Gaussian Error Linear Unit，GELU)。

具体实施方式二：本实施方式与具体实施方式一不同的是，所述一中训练集获取过程为：

获取带类别标签的高光谱图像HSI数据

其中，W和H表示高光谱图像的宽度和高度，L表示高光谱图像的波段数量。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是，所述建立光谱空间融合Transformer网络S²FTNet(Spectral Spatial Fusion Transformer Network)，基于训练集获得训练好的光谱空间融合Transformer网络S²FTNet；具体过程为：

对高光谱图像HSI数据X进行边缘填充策略处理；然后，将填充后得到新图像数据通过两种方式进行块提取：

一种是以填充后得到的新图像的每个像素为中心像素，并与相邻像素结合，组成数据块(得到很多数据块)，称为切块处理，并对组成的数据块进行光谱维主成分分析(Principal Component Analysis，PCA)降维处理，得到数据

另一种是对填充后得到的新图像逐单一像素提取(新图像的每个像素为一个提取块)，得到数据

其中，s×s表示切块后的图像空间大小，b表示经过PCA降维后的光谱波段数量；

接下来，将处理后的两种数据分别作为SpaFormer和SpeFormer模块的输入数据，并将两个模块提取的高级语义特征通过自适应机制级联。最后，将级联后的特征向量输送到分类器中分类。

将数据X_patch输入空间Transformer模块SpaFormer；

将数据X_pixel输入光谱Transformer模块SpeFormer；

将空间Transformer模块SpaFormer和光谱Transformer模块SpeFormer输出数据输入自适应光谱空间融合机制AS²FM进行级联，将级联后的特征向量输入分类器进行分类。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述将数据X_patch输入空间Transformer模块SpaFormer；具体过程为：

近年来，卷积神经网络(Convolutional Neural Networks，CNNs)是最为经典的深度学习框架之一，也同样被广泛应用在高光谱图像分类任务中。CNN的卷积(Convolutional，Conv)采用一种局部连接和全局参数共享的机制，以至于提取过程中更关注图像的局部特征。与Conv相反，Transformer能够构建长距离的依赖关系，弥补了Conv提取特征的缺点。因此，空间Transformer模块(Spatial Transformer Module，SpaFormer)采用上述两种框架建模。

首先，图像数据X_patch先经过三维卷积块(3-D Convolution，Conv3D)，再经过二维卷积块(2-D Convolution，Conv2D)；

每个卷积块中均包含卷积层、批归一化层和非线性激活层；

其中，图像数据X_patch先经过三维卷积块提取图像的光谱空间联合信息，计算过程表示如下

F_3D＝f(δ₁(X_patchΘw^3D+b^3D)) (1)

式(1)中，w^3D表示Conv3D的权重偏置，b^3D表示Conv3D的偏置项，F_3D表示Conv3D的输出；Θ为Conv3D算子，δ₁表示Conv3D的批归一化操作，f(·)表示非线性激活函数ReLU；

为了进一步提取图像空间信息，模块在Conv3D之后引入Conv2D。三维卷积块输出特征经过二维卷积块Conv2D的计算原理与Conv3D相似，公式如下

F_2D＝f(δ₂(F_3D⊙w^2D+b^2D)) (2)

式(2)中，w^2D表示Conv2D的权重偏置，b^2D表示Conv2D的偏置项，F_2D表示Conv2D的输出；⊙为Conv2D算子，δ₂表示Conv2D的批归一化操作；

模块首先通过设计Conv3D和Conv2D提取了图像的光谱空间联合和空间特征，这为提取高级语义特征提供了完备的浅层信息。

接着，将二维卷积块输出分别输入三个改进的Transformer块一；具体过程为：

SpaFormer模块采用三个改进的Transformer块并行探索图像的长距离依赖关系。从图1可以看出，每个改进的Transformer块一包含多个组件，包括位置嵌入(PositionEmbedding，PE)、2个层归一化Norm、多头双自注意力(Multi-head Double SelfAttention，MHD-SA)和多层感知机(Multilayer Perceptron，MLP)；

值得注意的是，SpaFormer包含三个改进的Transformer块一。三个改进的Transformer块一虽然存在相同的结构，但输入数据却不同。

从图1可以看出，第一个改进的Transformer块一的输入数据的空间大小s×s进行pooling＝false操作，输出空间大小为[s/pooling]×[s/pooling]，[·]表示上取整符号；

pooling为池化操作，false表示无池化操作；

举例：输入的空间大小为13×13，当执行pooling＝false操作时，输出空间大小依然是13×13；当执行pooling＝2操作时，输出空间大小向上取整[13/2＝6.5]×[13/2＝6.5]＝7×7；当执行pooling＝4操作时，输出空间大小向上取整[13/4＝3.25]×[13/4＝3.25]＝4×4；

第二个改进的Transformer块一的输入数据的空间大小s×s进行pooling＝2操作，输出空间大小为[s/pooling]×[s/pooling]；

第三个改进的Transformer块一的输入数据的空间大小s×s分别进行pooling＝4操作，输出空间大小为[s/pooling]×[s/pooling]；

不同的空间大小，通过改进的Transformer块一可以探索不同空间的长距离依赖关系，这能够丰富特征的多样性。

每个改进的Transformer块一包括位置嵌入PE(Position Embedding，PE)、2个层归一化(Norm)、一个多头双自注意力(Multi-head Double Self Attention，MHD-SA)和多层感知机(Multilayer Perceptron，MLP)；

为了加强位置之间的相关性，每个改进的Transformer块一首先引入了PE；将输出空间大小为[s/pooling]×[s/pooling]的数据输入了PE；具体为：

将输出空间大小为[s/pooling]×[s/pooling]的数据作为令牌T＝[T₁,T₂,...,T_w]与设定的可学习的分类令牌T₀连接，并将设定的位置信息PE_pos附加在所有令牌上，即

T_PE＝[T₀,T₁,T₂,...,T_w]+PE_pos (3)

将PE输出数据T_PE依次输入归一化层Norm和一个多头双自注意力MHD-SA(Multi-head Double Self Attention，MHD-SA)；

本发明所提出MHD-SA是整个改进的Transformer块一最为重要的组件，其结构如图2中(a)所示。同时，为了方便阐述，MHD-SA的单头结构如图2中(b)所示。MHD-SA通常包含三个特征输入，分别为Query(Q)、Key(K)和Value(V)，且Q、K和V是通过预定义三个权重矩阵W_Q、W_K和W_V线性映射得到；

通常，Transformer范式中包含多个头部自注意力，则多头双自注意力MHD-SA可以表示如下

MHD-SA＝Concat(DSA₁,DSA₂,...,DSA_h)W(6)

其中，Concat(·)表示级联函数，h表示头部的数量，W表示权重参数；

单头的双自注意力(DoubleSelfAttention，DSA)通过Q和K来计算自注意力分数，再将得到的分数加权到V中，即

式中，DSA表示单头的双自注意力，SA表示自注意力值，L_Q(·)、L_K(·)和L_V(·)表示SA值经过线性映射得到的特征，d_k表示K的特征维度；d_LK表示L_K(·)的特征维度；Q、K和V为三个输出特征的表示符号；

将PE的输出和多头双自注意力MHD-SA的输出进行加和，得到第一加和后数据，第一加和后数据依次输入归一化层Norm和MLP；

最后，为了缓解梯度爆炸和梯度消失问题和缩短训练时长，在MHD-SA之后引入了MLP；MLP结构包含两个全连接层，且在两个全连接层之间嵌入一个高斯误差线性单位GELU(GaussianErrorLinearUnit，GELU)。

将第一加和后数据和MLP的输出进行加和处理，得到第二加和后数据，第二加和后数据作为每个改进的Transformer块一的输出；

综上所述，空间分支包含两个卷积块和SpaFormer模块。首先，输入通过两个卷积层提取浅层的空间和光谱特征，提供了完备的浅层信息。然后，并联三个改进的Transformer块一，并采用不同的输入空间大小探索特征长距离依赖关系，丰富了特征的多样性。

将三个改进的Transformer块一的输出进行级联作为空间Transformer模块SpaFormer的输出。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是，所述将数据X_pixel输入光谱Transformer模块SpeFormer；具体过程为：

HSI不仅具有丰富的空间信息，同时还包含几百个光谱波段。提取图像丰富的光谱特征和充分考虑光谱序列性能够提高特征的判别能力，并改善分类性能。因此，受[48]的启发，本发明提出了一种光谱Transformer模块(Spectral Transformer Module，SpeFormer)，整体结构如图3所示。

首先，光谱Transformer模块SpeFormer引入PE；过程为：

图像数据X_patch先经过线性映射降维得到[T′₁,T′₂,...,T′_w]，降维后与设定的可学习令牌T′₀级联；

级联结果再进行位置嵌入，此时得到的特征张量T′_PE包含位置和光谱顺序信息；计算过程与空间Transformer块类似，表示如下

T′_PE＝[T′₀,T′₁,T′₂,...,T′_w]+PE'_pos (7)

式中，[T′₁,T′₂,...,T′_w]表示令牌数量，PE'_pos表示位置信息；

然后，将PE输出数据T′_PE依次输入归一化(Norm)和一个多头双自注意力MHD-SA(Multi-head Double Self Attention，MHD-SA)；

将PE输出数据T′_PE和多头双自注意力MHD-SA的输出进行加和，得到第三加和后数据，第三加和后数据依次输入归一化层Norm、3×3卷积层、批归一化层BN、高斯误差线性单位GELU、3×3卷积层和批归一化层BN，得到BN输出数据；

将第三加和后数据和得到的BN输出数据加和，得到第四加和后数据，第四加和后数据作为光谱Transformer模块SpeFormer的输出。

基于Conv的Transformer块被引入，该Transformer块充分考虑光谱序列之间相关性并能够获取光谱之间的长距离依赖关系。传统的Transformer的MLP包含两个全连接层(Fully Connected，FC)，虽然两层FC一定程度上能够提取光谱非线性特征，但缺乏对局部光谱相关性的考虑。根据[57]的描述，Transformer块的两个FC中，虽然不同位置的线性变换是相同的，但它们使用不同的参数从一层到另一层，可由两个1×1Conv替代。因此，为了能够进一步探索局部光谱相关性，SpeFormer采用两个3×3卷积块(包含一个Conv层和一个批归一化层BN)替代了传统的MLP块中的FC。这种改进的方式能够有效地增大对光谱信息提取的感受野，同时还能避免光谱顺序性不被破坏。因此，改进的Transformer块二包括两个层归一化、一个多头双自注意力(MHD-SA)、两个卷积块和一个GELU。这个过程可表示为

SpeFormer＝δ₂(f₂(g(δ₁(f₁(MHD-SA))))) (8)

式(8)中，f(·)表示Conv函数，δ(·)表示BN函数，g(·)表示GELU，SpeFormer为改进Transformer块二的输出结果。

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是，所述将空间Transformer模块SpaFormer和光谱Transformer模块SpeFormer输出数据输入自适应光谱空间融合机制AS²FM进行级联，将级联后的特征向量输入分类器进行分类；具体过程为：

自适应光谱空间融合机制AS²FM选用交叉熵作为损失函数，并通过反向传播进行网络优化；

其中，交叉熵损失函数表达式为

式(9)中，y'_a和y_a分别表示真实地物标签和模型预测标签，C表示数据集的总类别数量，Loss是每个小批次(mini-batch)观测的平均损失值；a表示类别，r表示类别总数量；

S²FTNet包括两个分支，分别为空间Transformer分支和光谱Transformer分支。然后，这两个分支得到的高级语义特征将被结合，并送至分类器中。在本节，我们将详细介绍如何将这两个分支提取的特征有效结合。

将空间Transformer模块SpaFormer和光谱Transformer模块SpeFormer输出数据输入自适应光谱空间融合机制AS²FM进行级联，过程为：

两种特征会被级联起来，即

F＝Concat(F_Spa,F_Spe) (10)

然而，考虑到两个分支提取的特征两种重要程度不同，引入平衡因子λ进行分数加权；即

F＝Concat(λF_Spa,(1-λ)F_Spe) (11)

式中，F_Spa为空间Transformer模块SpaFormer输出数据，F_Spe为光谱Transformer模块SpeFormer输出数据；Concat为级联；

在反向传播过程中，超参数更新表示为

其中，λ₀为平衡因子随机初始值，η表示学习率；λ为超参数；

通过自适应地确定这两部分的比例，相比特征加权加法，模型获取的数据表示能力更强。

其它步骤及参数与具体实施方式一至五之一相同。

算法实施过程

给出了本发明所提出网络S²FTNet的实施过程，如表1所示。以Pavia数据集为例，即输入数据

X进行边缘填充并分别切块和逐像素提取立体块，得到处理后数据/>

和/>

在空间Transformer分支，首先选择X₁作为输入数据，执行Conv3D和Conv2D。其中，Conv3D和Conv2D分别选用8个7×7×7卷积核和64个7×7卷积核，输出为64个13×13特征图。然后，对输入图像数据空间大小s×s分别进行pooling＝false、pooling＝2和pooling＝4操作，得到三种pooling后输出。其中，三种图像的空间大小分别为13×13、7×7和4×4。接着，为了能够与改进的空间Transformer块适配，将它们进行重塑，并分别作为三个块的输入。在光谱Transformer分支，首先选择X₂作为输入数据，为例降低复杂度，选用dim＝64对数据光谱维度进行线性映射。然后，将线性映射结果执行位置嵌入和改进的光谱Transformer块。值得注意的是，通过引入平衡因子λ，将两个分支提取的高级语义进行分数自适应加权。最后，采用Softmax函数进行分类。

表ⅠS²FTNet实施过程

/>

实验结果与分析

为了验证提出方法的有效性，本发明进行了一系列实验。实验包括网络消融实验、参数优化、定量对比和分类结果可视化。

A.数据集

在本发明，所有实验选用三个经典数据集和一个较新的数据集，分别为IndianPines、Pavia、Salinas和WHU-Hi-LongKou数据集。接下来，在本小节我们将详细介绍每个数据集的类别信息和所提出方法的训练样本数。

IndianPines数据集：它是1992年由机载成像光谱仪AVIRIS在美国印第安纳州一块印度松树捕获而来。其中，土地覆盖类别包含16个，主要有玉米(Corn)、草(Grass)、大豆(Soybean)和森林(Woods)等。图像的空间尺寸为145×145，空间分辨率约为20m，成像的波长范围为0.4-2.5μm，同时还含有220个连续的光谱波段。除了第104-108，第150-163和第220个吸水波段外，剩下200个波段被用于实验。

Pavia数据集：它是2003年由机载成像光谱仪ROSIS-03在意大利帕维亚大学上空捕获而来。图像的空间尺寸为610×340，空间分辨率为1.3m，包含的连续光谱波段为115个。同样，由于个别波段不能被水反射，最后只剩下103个波段。与IndianPines数据集相比，Pavia包含的土地覆盖类别更少，主要类别有树(Trees)、沥青道路(Asphalt)、砖块(Bricks)、牧场(Meadows)等。

Salinas数据集：它是成像光谱仪AVIRIS在美国加利福尼亚州的萨利纳斯山谷上空捕获而来。空间尺寸为512×217，光谱波段数为224。该图像总共有111104个像素，除去背景像素外，还剩下54129个应用于分类任务中。这些像素总共包含16个标记类别，主要类别有休耕地(Fallow)、芹菜(Celery)等。

WHU-Hi-LongKou数据集：它是由DJIMatrice600Pro(DJIM600Pro)无人机平台上携带的8毫米焦距(HeadwallNano-Hyperspec，HNH)成像传感器在中国湖北省龙口镇采集而来。空间尺寸为550×400，空间分辨率约为0.463m，波长范围为0.4um-1um，同时包含270个光谱波段。WHU-Hi-LongKou包含的土地覆盖类别数与Pavia数据集相同，是一个简单的农作物场景，主要类别有水(Water)、圆叶大豆(Broad-leafsoybean)、玉米(Corn)、水稻(Rice)和棉花(Cotton)等。

表Ⅱ四个数据集的详细类别信息

B.实验设置

所有的实验均在Intel(R)Core(TM)i9-9900KCPU、NVIDIA GeForce RTX 2080TiGPU和128G随机存取内存的平台上实现，且采用的语言框架为Pytorch。此外，为了更好地评价模型的分类性能，我们选用三个比较常见的评价指标：整体精度(Overall Accuracy，OA)、平均精度(Average Accuracy，AA)和Kappa系数。其中，OA表示准确分类的样本数量与总样本数量的比值，AA表示每个类别分类精度的平均值，Kappa是一种鲁棒性的衡量指标。

结合CNN和Transformer构建的网络，它更倾向于全局上下文的空间信息。为了分析不同输入空间大小s对最终分类性能的影响，我们选择7-15的输入空间尺寸在四个数据集上进行实验。其中，相邻的空间尺寸间隔为2。实验结果如图4所示。从图4可以看出，IndianPines数据集对于不同的输入空间大小敏感度较高，Pavia和WHU-Hi-LongKou数据集的分类精度OA呈现出先增大后较少的趋势。对于Salinas数据集，随着输入空间尺寸s的增大，OA先增加后趋于稳定。值得注意的是，当s＝13时，这四个数据集都取得了最高的整体精度OA。因此，选择s＝13为所提出网络的输入空间大小。

另外，模型采用不同学习率和批处理大小对性能也有较大的影响。为了探索所提出网络的最佳学习率和批处理大小，进行了一些相关实验，实验结果如图5所示。图5中(a)-(d)分别表示在IndianPines、Pavia、Salinas和WHU-Hi-LongKou数据集上进行实验的结果。其中，不同的等高线颜色表示不同的OA值范围，红色到蓝色表示OA值逐渐降低。可以发现，同一数据集的OA值对模型的不同学习率和批处理大小较为敏感。具体地说，对于IndianPines数据集，如图5中(a)，最佳的学习率和批处理大小分别为5e-4和64。对于Pavia数据，如图5中(b)，当批处理为64或128时，学习率对性能OA的影响不大。同样地，对于Salinas数据集，如图5中(c)所示，当学习率较大且批处理较大时，往往能够取得较好的OA值。对于WHU-Hi-LongKou数据集，如图5中(d)所示，当批处理大小为64时，所选取的学习率均能够取得较优的分类结果。因此，通过模型的参数实验，可以发现，本发明所提出的分类网络最佳的学习率和批处理大小为5e-3和64。

C.消融实验

在所提出的方法中，网络主要包括四部分，分别为Conv2D&3D、SpaFormer、SpeFormer和AdaptiveFuse。为了更好地证明各个部分对分类性能OA值的影响。我们在四个数据集对其进行了消融实验，实验结果表3所示。其中，“√”表示有该模块，“-”表示没有采用该模块，总共有5种情况。从表中可以看出，第一种情况仅包含Conv2D和Conv3D，得到的整体精度OA值较低。第二种情况和第三种情况分别在Conv2D&Conv3D基础上增加了SpaFormer和SpeFormer，可以发现精度OA值得到较大改善。通常，两个分支所提取的特征会采用级联的方式结合，如情况四。为了更好地结合这两种特征，我们引入平衡因子，将两个分支所得到的特征进行融合。实验发现，情况五与情况四相比，前者在四个数据集上的OA值均要高于后者，这也充分证明了这种自适应结合方式的有效性。

表Ⅲ不同模块对网络的OA值影响(％)

D.实验结果分析

为验证所提出分类网络的有效性，我们选择了多种基于CNN和Transformer的先进网络，包括2DCNN、3DCNN、Hybrid-SN、PyResNet、ViT、SF、SSFTT、SSTN、GAHT。

(1)定量分析

表Ⅳ-表Ⅶ给出了所有方法在四个数据集上的OA、AA、Kappa和各类别的分类精度，且最好的分类结果已加粗。从表中可以看到，基于CNN的方法由于其强大的上下文特征提取能力，均获得了较为不错的分类结果。但由于CNN获取的高级全局特征有限，这也使得这类方法容易陷入性能瓶颈。另外，虽然基于Transformer的方法通过构建长距离的依赖关系展现出较大潜力，但仅使用Transformer框架构建的网络获得的分类性能并不令人感到满意，如ViT和SF。然而，通过结合CNN和Transformer框架构建的分类网络获得了较好的分类结果，如SSFTT、SSTN、GAHT和提出的方法。

总的来说，所提出的分类方法的分类精度在四个数据集上均为优于其他对比方法。这种结果不仅得益于所提出方法S²FTNet结合了CNN和Transformer的优势，而且还得益于将提取的空间-光谱高级语义特征有效融合。更具体地说，与对比方法中最好的CNN方法相比(Hybrid-SN)，S²FTNet的OA值在IndianPines、Pavia、Salinas和WHU-Hi-LongKou数据集上分别高出4.12％、1.39％、0.81％和0.79％。与对比方法中最好的Transformer方法相比(SSFTT)，S²FTNet的OA值在IndianPines、Pavia、Salinas和WHU-Hi-LongKou数据集上分别高出1.00％、0.23％、0.39％和0.40％。值得注意的是，我们的方法在一些数据集中的类别精度达到100％准确度。如IndianPines数据集上的类别1(Alfalfa)、类别7(Grass-pasture-mowed)、类被8(Hay-windrowed)、类别9(Oats)和类别13(Wheat)。Pavia数据集上的类别5(Paintedmetalsheets)、类别6(BareSoil)和类别7(Bitumen)。Salinas数据集上的类别1(Brocoil-green-weeds_1)，类别7(Celery)，类别10(Corn-senesced-green-weeds)，类别11(Lettuce-romaine-4wk)，类别12(Lettuce-romaine-5wk)，类被13(Lettuce-romaine-6wk)。

表Ⅳ所有方法在IndianPines数据集上的OA、AA、Kappa和各类别的分类精度，最好的分类结果已加粗；

表Ⅴ所有方法在Pavia数据集上的OA、AA、Kappa和各类别的分类精度，最好的分类结果已加粗；

表Ⅵ所有方法在Salinas数据集上的OA、AA、Kappa和各类别的分类精度，最好的分类结果已加粗

表Ⅶ所有方法在WHU-Hi-LongKou数据集上的OA、AA、Kappa和各类别的分类精度，

最好的分类结果已加粗；

(2)视觉评估

图6-9给出了所有方法在四个数据集上的分类结果图。可以清楚的看到，本发明所提出的方法视觉效果更加接近真实地物图。在IndianPines数据集上，基于CNN的分类方法对边缘类别分类效果较差，而结合CNN和Transformer的分类方法分类结果要好与CNN，这也得益于所提取的特征更为丰富，且包含全局和局部特征。Pavia图像数据集包含的波段较少，建筑分布较为复杂。提出的S²FTNet方法的分类结果图噪声更少，而大部分对比方法在类别“Meadows”上出现较多的分类错误。对于Salinas数据集，比较容易观察的两个类别，Vinyard-untrained和Grapes-untrained，我们的方法视觉效果最好，其次是SSFTT。其中，对比方法中的2DCNN、3DCNN、ViT和SF出现较为严重的错分现象。对于WHU-Hi-LongKou数据集，图像包含的类别主要是农作物，且光谱较为相似。我们的方法通过CNN和Transformer结合，构建了空间和光谱提取模块，很好地将光谱信息与空间信息融合，获得的分类结果图边缘效果更好，类内噪声较少。

为了更清晰的说明所提出S²FTNet方法有效性，本发明比较了多种方法(包括3DCNN、Hybrid-SN、SSTN)在四个数据上获得的特征的T-SNE可视化，实验结果如图10-13所示。不同的颜色表示不同类别的标签，从左到右分别为方法3DCNN、Hybrid-SN、SSTN和Proposed的类别分布结果。更具体地说，在IndianPines数据集上，3DCNN和SSTN方法均出现了严重的标签混合现象。Hybrid-SN虽然获得了特征分布结果要比3DCNN和SSTN方法具有更好的类内距离，但类间距离依然不令人感到满意。然而，本发明方法的具有更为明显的簇，表现出更好的类内和类间距离。对于Pavia数据集，3DCNN和SSTN方法表现较差，类别2(黄色)、类别4(灰色)和类别9(黄色)依然严重混合。与IndianPines数据集相比，Hybrid-SN表现更好一些。然而，本发明方法依然明显更优。对于Salinas数据集，3DCNN、SSTN和Hybrid-SN的类别分布大多数呈条状，类内距离差距较大。然而，本发明的方法类别分布大多数呈簇状，且具有大的类内距离。由于WHU-Hi-LongKou数据集的样本类别数量较大，它的类别分布可视化效果较为丰满，但不难看出，3DCNN、SSTN和Hybrid-SN存在着一些混合类别，且类别分布较为零散。相反，本发明的方法获得了同一类别特征更为聚集，且不同类别分布更为分散。总的来说，本发明所提出方法S²FTNet具有更好类间距离和最小化类内距离，在捕获HSI分类样本之间的关系方面起着重要作用。

(3)模型超参数分析

在设计的网络中，考虑到空间分支和光谱分支提取的特征重要程度不同，对最终分类结果的贡献不同，我们在网络中引入了平衡因子λ，并对两个分支进行分数加权。λ在训练过程中会随着损失值变化逐渐更新。为了观察平衡因子λ与损失值的变化情况，我们选用两种数据集进行实验，分别为IndianPines和WHU-Hi-LongKou数据集。实验的结果如图14中(a)和图14中(b)所示，三角表示平衡因子λ值，加号表示Loss值。横坐标表示的是训练的轮次Epoch，左边和右边的纵坐标量级不同，左边纵坐标为损失Loss值，右边纵坐标为平衡因子λ的值。

可以发现，一方面，两个数据集在训练轮次Epoch为40左右，Loss值接近0，这说明结合这两个分支特征能够是实现较快的收敛。另一方面，平衡因子λ随着Epoch增加缓慢更新并趋于稳定，稳定值约为0.590。以上结果说明空间Transformer分支和光谱Transformer分支所提取的特征重要程度不同，且空间Transformer分支比光谱Transformer分支占比更大，获取的空间光谱特征更为丰富。最后，通过将这两种特征进行自适应融合，能够有效改善分类性能。而对于Indian Pines和WHU-Hi-LongKou数据集，前者类别多，后者空间分辨率较大，空间Transformer分支所提取中、长距离光谱-空间特征均对两个数据集的分类结果贡献较大。

表Ⅷ所有方法在四个数据集上的运行时间对比。

(4)模型效率分析

为了评估所提出方法的运行效率，本发明对所有的方法进行运行效率测试实验，表Ⅷ给出了实验的结果。从表Ⅷ中可以看到，与所需训练时间和测试时间最短的方法SSFTT相比，本发明提出方法S²FTNet所需的训练时间和测试时间要略长一些，这是由于提出方法为双分支的Transformer结构。与其他基于Transformer方法相比，S²FTNet总体上所需运行时间更短。另外，与基于CNN方法相比，基于Transformer方法所需训练时间和测试时间明显短很多。总的来说，基于Transformer的效率要明显高于基于CNN方法。与其他方法相比，本发明提出的S²FTNet所需运行时间与最优方法相对接近。实验充分说明，S²FTNet不仅具有较好的分类精度，同时运行效率也能让人感到满意。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

参考文献

[1]Q.Huang,W.Li,B.Zhang,Q.Li,R.Tao,and N.H.Lovell,“Blood cellclassification based on hyperspectral imaging with modulated gabor and CNN,”IEEE J.Biomed.Health Inform.,vol.24,no.1,pp:160-169,Jan.2020.

[2]Z.Shao,W.Zhou,X.Deng,M.Zhang,and Q.Cheng,“Multilabel remotesensingimage retrieval based on fully convolutional network,”IEEEJ.Sel.TopicsAppl.Earth Observ.Remote Sens.,vol.13,no.1,pp.318-328,Feb.2020.

[3]D.Hong,W.He,N.Yokoya,J.Yao,L.Gao,L.Zhang,J.Chanussot,and X.Zhu,“Interpretable hyperspectral artificial intelligence:When nonconvex modelingmeets hyperspectral remote sensing,”IEEE Geosci.Remote Sens.Mag.,vol.9,no.2,pp.52–87,2021.

[4]B.P.Banerjee,S.Raval,and P.J.Cullen,“UAV-hyperspectral imaging ofspectrally complex environments,”Int.J.Remote Sens.,vol.41,no.11,pp:4136-4159,2020.

[5]L.Mou and X.X.Zhu,“Learning to pay attention on spectral domain:Aspectral attention module-based convolutional network for hyperspectral imageclassification,”IEEE Trans.Geosci.RemoteSens.,vol.58,no.1,pp.110–122,2020.

[6]C.Yu,R.Han,M.Song,C.Liu,and C.-I.Chang,“A simplified 2d-3d cnnarchitecture for hyperspectral image classification based on spatial–spectralfusion,”IEEE J.Sel.Topics Appl.Earth Observ.Remote Sens.,vol.13,pp.2485–2501,2020.

[7]J.He,L.Zhao,H.Yang,M.Zhang,and W.Li,“Hsi-bert:Hyperspectral imageclassification using the bidirectional encoder representation fromtransformers,”IEEE Trans.Geosci.RemoteSens.,vol.58,no.1,pp.165–178,2020.

[8]F.Melgani and L.Bruzzone,“Classification of hyperspectral remotesensing images with support vector machines,”IEEE Trans.Geosci.Remote Sens.,vol.42,no.8,pp.1778–1790,2004.

[9]J.Ham,Y.Chen,M.M.Crawford,and J.Ghosh,“Investigation of the randomforest framework for classification of hyperspectral data,”IEEETrans.Geosci.Remote Sens.,vol.43,no.3,pp.492–501,2005.

[10][J.Li,J.M.Bioucas-Dias,and A.Plaza,“Spectral–spatialhyperspectral image segmentation using subspace multinomial logisticregression and Markov random fields,”IEEE Trans.Geosci.Remote Sens.,vol.50,no.3,pp.809–823,2011.

[11]H.Xu,W.He,L.Zhang,and H.Zhang,“Unsupervised spectral–spatialsemantic feature learning for hyperspectral image classification,”IEEETrans.Geosci.Remote Sens.,vol.60,pp.1–14,2022.

[12]M.D.Farrell and R.M.Mersereau,“On the impact of PCA dimensionreduction for hyperspectral detection of difficult targets,”IEEEGeosci.Remote Sens.Lett.,vol.2,no.2,pp.192–195,2005.

[13]L.He,J.Li,C.Liu,and S.Li,“Recent Advances on Spectral–SpatialHyperspectral Image Classification:An Overview and New Guidelines,”IEEETrans.Geosci.Remote Sens.,vol.56,no.3,pp.1579–1597,2018.

[14]G.Camps-Valls,L.Gomez-Chova,J.

J.Vila-Francés,andJ.Calpe-Maravilla,“Composite kernels for hyperspectral image classification,”IEEE Geosci.Remote Sens.Lett.,vol.3,no.1,pp.93–97,2006.

[15]X.Kang,S.Li,and J.A.Benediktsson,“Spectral–spatial hyperspectralimage classification with edge-preserving filtering,”IEEE Trans.Geosci.RemoteSens.,vol.52,no.5,pp.2666–2677,2013.

[16]Y.Zhang,X.Wang,X.Jiang,and Y.Zhou,“Marginalized Graph Self-Representation for Unsupervised Hyperspectral Band Selection,”IEEETrans.Geosci.Remote Sens.,vol.60,2022.

[17]X.Zhang,X.Jiang,J.Jiang,Y.Zhang,X.Liu,and Z.Cai,“Spectral-Spatialand Superpixelwise PCA for Unsupervised Feature Extraction of HyperspectralImagery,”IEEE Trans.Geosci.Remote Sens.,vol.60,2022,doi:10.1109/TGRS.2021.3057701.

[18]K.He,X.Zhang,S.Ren,and J.Sun,“Deep residual learning for imagerecognition,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2016,pp.770–778.

[19]Y.Chen,J.Li,H.Xiao,X.Jin,S.Yan,and J.Feng,“Dual path networks,”2017,arXiv:1707.01629.[Online].Available:http://arxiv.org/abs/1707.01629

[20]S.Sabour,N.Frosst,and G.E Hinton,“Dynamic routing betweencapsules,”2017,arXiv:1710.09829.[Online].Available:http://arxiv.org/abs/1710.09829

[21]S.Ren,K.He,R.Girshick,and J.Sun,“Faster R-CNN:Towards real-timeobject detection with region proposal networks,”IEEE Trans.PatternAnal.Mach.Intell.,vol.39,no.6,pp.1137–1149,Jun.2017.

[22]C.Li,R.Cong,J.Hou,S.Zhang,Y.Qian,and S.Kwong,“Nested network withtwo-stream pyramid for salient object detection in optical remote sensingimages,”IEEE Trans.Geosci.RemoteSens.,vol.57,no.11,pp.9156–9166,Nov.2019.

[23]E.Shelhamer,J.Long,and T.Darrell,“Fully convolutional networksfor semantic segmentation,”IEEE Trans.Pattern Anal.Mach.Intell.,vol.39,no.4,pp.640–651,Apr.2017.

[24]Y.Chen,H.Jiang,C.Li,X.Jia,and P.Ghamisi,“Deep feature extractionand classification of hyperspectral images based on convolutional neuralnetworks,”IEEE Trans.Geosci.Remote Sens.,vol.54,no.10,pp.6232–6251,2016.

[25]Z.Zhong,J.Li,D.A.Clausi,and A.Wong,“Generative adversarialnetworks and conditional random fields for hyperspectral imageclassification,”IEEE Trans.Cybern.,vol.50,no.7,pp.3318–3329,Jul.2020.

[26]J.Wang,F.Gao,J.Dong,and Q.Du,“Adaptive DropBlock-enhancedgenerative adversarial networks for hyperspectral image classification,”IEEETrans.Geosci.Remote Sens.,vol.59,no.6,pp.5040–5053,Jun.2021.

[27]R.Hang,Q.Liu,D.Hong,and P.Ghamisi,“Cascaded recurrent neuralnetworks for hyperspectral image classification,”IEEE Trans.Geosci.RemoteSens.,vol.57,no.8,pp.5384–5394,Aug.2019.[28]S.Hao,W.Wang,and M.Salzmann,“Geometry-aware deep recurrent neural networks for hyperspectral imageclassification,”IEEE Trans.Geosci.Remote Sens.,vol.59,no.3,pp.2448–2460,Mar.2021.

[29]H.Zhang,J.Zou,and L.Zhang,“EMS-GCN:An end-to-end mixhopsuperpixel-based graph convolutional network for hyperspectral imageclassification,”IEEE Trans.Geosci.Remote Sens.,vol.60,pp.1–16,2022.

[30]Y.Ding,Y.Chong,S.Pan,Y.Wang,and C.Nie,“Spatial–spectral unifiedadaptive probability graph convolutional networks for hyperspectral imageclassification,”IEEE Trans.Neural Netw.Learn.Syst.,earlyaccess,Sep.23,2021,doi:10.1109/TNNLS.2021.3112268.

[31]M.E.Paolettietal.,“Capsule Networks for Hyperspectral ImageClassification,”IEEE Trans.Geosci.Remote Sens.,vol.57,no.4,pp.2145–2160,2019,doi:10.1109/TGRS.2018.2871782.

[32]A.Dosovitskiyetal.,“An image is worth 16x16 words:Transformersfor image recognition at scale,”arXiv Prepr.arXiv2010.11929,2020.

[33]W.Hu,Y.Huang,L.Wei,F.Zhang,and H.Li,“Deep convolutional neuralnetworks for hyperspectral image classification,”Journal of Sensors,vol.2015,2015.

[34]W.Zhaoand S.Du,“Spectral–spatial feature extraction forhyperspectral image classification:A dimension reduction and deep learningapproach,”IEEE Transactions on Geoscience and Remote Sensing,vol.54,no.8,pp.4544–4554,2016.

[35]A.B.Hamida,A.Benoit,P.Lambert,and C.B.Amar,“3-d deep learningapproach for remote sensing image classification,”IEEE Transactions ongeoscience and remote sensing,vol.56,no.8,pp.4420–4434,2018.

[36]S.K.Roy,G.Krishna,S.R.Dubey and B.B.Chaudhuri,"HybridSN:Exploring3-D–2-D CNN Feature Hierarchy for Hyperspectral Image Classification,"in IEEEGeoscience and Remote Sensing Letters,vol.17,no.2,pp.277-281,Feb.2020.

[37]D.Hong,L.Gao,J.Yao,B.Zhang,A.Plaza,and J.Chanussot,“Graphconvolutional networks for hyperspectral image classification,”IEEETrans.Geosci.Remote Sens.,vol.59,no.7,pp.5966–5978,2021.

[38]Z.Zhong,J.Li,Z.Luo and M.Chapman,"Spectral–Spatial ResidualNetwork for Hyperspectral Image Classification:A 3-D Deep LearningFramework,"in IEEE Transactions on Geoscience and Remote Sensing,vol.56,no.2,pp.847-858,Feb.2018.

[39]He,K.,Zhang,X.,Ren,S.,&Sun,J.(2016).Deep residual learning forimage recognition.In Proceedings of the IEEE conference on computer visionand pattern recognition(pp.770-778).

[40]M.E.Paoletti,J.M.Haut,R.Fernandez-Beltran,J.Plaza,A.J.Plaza andF.Pla,"Deep Pyramidal Residual Networks for Spectral–Spatial HyperspectralImage Classification,"in IEEE Transactions on Geoscience and Remote Sensing,vol.57,no.2,pp.740-754,Feb.2019.

[41]J.Hu,L.Shen,and G.Sun,“Squeeze-and-excitation networks,”inProc.IEEE/CVF Conf.Comput.Vis.Pattern Recognit.,Jun.2018,pp.7132–7141.

[42]S.Woo,J.Park,J.-Y.Lee,and I.So Kweon,“CBAM:Convolutional blockattention module,”in Proc.Eur.Conf.Comput.Vis.(ECCV),2018,pp.3–19.

[43]J.Fuetal.,“Dual attention network for scene segmentation,”inProc.IEEE/CVF Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2019,pp.3146–3154.

[44]L.Wang,J.Peng,and W.Sun,“Spatial–spectral squeeze-and-excitationresidual network for hyperspectral image classification,”Remote Sens.,vol.11,no.7,p.884,2019.

[45][45]K.Heetal.,"A Dual Global–Local Attention Network forHyperspectral Band Selection,"in IEEE Transactions on Geoscience and RemoteSensing,vol.60,pp.1-13,2022,Artno.5527613.

[46]Shaohui Mei,Xingang Li,Xiao Liu,Huimin Cai,Qian Du.HyperspectralImage Classification Using Attention-Based Bidirectional Long Short-TermMemory Network.IEEE Transactions on Geoscience and Remote sensing,vol.60,pp.1-12,2022,Art no.5509612.

[47]A.Dosovitskiy et al.,“An image is worth 16×16 words:Transformersfor image recognition at scale,”2020,arXiv:2010.11929.

[48]X.He,Y.Chen,and Z.Lin,"Spatial-spectral transformer forhyperspectral image classification,"Remote Sensing,vol.13,no.3,p.498,2021.

[49]D.Hong et al.,"SpectralFormer:Rethinking Hyperspectral ImageClassification With Transformers,"in IEEE Transactions on Geoscience andRemote Sensing,vol.60,pp.1-15,2022.

[50]L.Sun,G.Zhao,Y.Zheng and Z.Wu,"Spectral–Spatial FeatureTokenization Transformer for Hyperspectral Image Classification,"in IEEETransactions on Geoscience and Remote Sensing,vol.60,pp.1-14,2022.

[51]Z.Zhong,Y.Li,L.Ma,J.Li and W.-S.Zheng,"Spectral–SpatialTransformer Network for Hyperspectral Image Classification:A FactorizedArchitecture Search Framework,"in IEEE Transactions on Geoscience and RemoteSensing,vol.60,pp.1-15,2022.

[52]X.Huang,M.Dong,J.Li and X.Guo,"A 3-D-Swin Transformer-BasedHierarchical Contrastive Learning Method for Hyperspectral ImageClassification,"in IEEE Transactions on Geoscience and Remote Sensing,vol.60,pp.1-15,2022,Art no.5411415.

[53]J.Bai et al.,"Hyperspectral Image Classification Based onMultibranch Attention Transformer Networks,"in IEEE Transactions onGeoscience and Remote Sensing,vol.60,pp.1-17,2022,Art no.5535317.

[54]R.Song,Y.Feng,W.Cheng,Z.Mu and X.Wang,"BS2T:Bottleneck Spatial–Spectral Transformer for Hyperspectral Image Classification,"in IEEETransactions on Geoscience and Remote Sensing,vol.60,pp.1-17,2022,Artno.5532117,doi:10.1109/TGRS.2022.3185640.

[55]R.Song,Y.Feng,W.Cheng,Z.Mu and X.Wang,"BS2T:Bottleneck Spatial–Spectral Transformer for Hyperspectral Image Classification,"in IEEETransactions on Geoscience and Remote Sensing,vol.60,pp.1-17,2022,Artno.5532117.

[56]Mei,Shaohui and Song,Chao and Ma,Mingyang and Xu,Fulin,"Hyperspectral image classification using group-aware hierarchicaltransformer,"in IEEE Transactions on Geoscience and Remote Sensing,vol.60,pp.1-14,2022.

[57]Lin M,Chen Q,Yan S.Network in network[J].arXiv preprint arXiv:1312.4400,2013.

Claims

1.基于光谱空间融合Transformer特征提取的地物分类方法，其特征在于：所述方法具体过程为：

所述光谱Transformer模块SpeFormer包括改进的Transformer块二；

2.根据权利要求1所述的基于光谱空间融合Transformer特征提取的地物分类方法，其特征在于：所述一中训练集获取过程为：

获取带类别标签的高光谱图像HSI数据

3.根据权利要求2所述的基于光谱空间融合Transformer特征提取的地物分类方法，其特征在于：所述建立光谱空间融合Transformer网络S²FTNet，基于训练集获得训练好的光谱空间融合Transformer网络S²FTNet；具体过程为：

一种是以填充后得到的新图像的每个像素为中心像素，并与相邻像素结合，组成数据块，并对组成的数据块进行光谱维主成分分析降维处理，得到数据

另一种是对填充后得到的新图像逐单一像素提取，得到数据

将数据X_patch输入空间Transformer模块SpaFormer；

将数据X_pixel输入光谱Transformer模块SpeFormer；

4.根据权利要求3所述的基于光谱空间融合Transformer特征提取的地物分类方法，其特征在于：所述将数据X_patch输入空间Transformer模块SpaFormer；具体过程为：

首先，图像数据X_patch先经过三维卷积块，再经过二维卷积块；

每个卷积块中均包含卷积层、批归一化层和非线性激活层；

F_3D＝f(δ₁(X_patchΘw^3D+b^3D)) (1)

三维卷积块输出特征经过二维卷积块，公式如下

F_2D＝f(δ₂(F_3D⊙w^2D+b^2D)) (2)

每个改进的Transformer块一包含多个组件，包括位置嵌入、2个层归一化Norm、多头双自注意力和多层感知机；

第一个改进的Transformer块一的输入数据的空间大小s×s进行pooling＝false操作，输出空间大小为[s/pooling]×[s/pooling]，[·]表示上取整符号；

pooling为池化操作，false表示无池化操作；

每个改进的Transformer块一首先引入了PE；具体为：

T_PE＝[T₀,T₁,T₂,...,T_w]+PE_pos (3)

将PE输出数据T_PE依次输入归一化层Norm和一个多头双自注意力MHD-SA；

多头双自注意力MHD-SA表示如下

MHD-SA＝Concat(DSA₁,DSA₂,...,DSA_h)W (4)

式中，DSA表示单头的双自注意力，SA表示自注意力值，L_Q(·)、L_K(·)和L_V(·)表示SA值经过线性映射得到的特征，d_k表示K的特征维度；

表示L_K(·)的特征维度；Q、K和V为三个输出特征的表示符号；

MLP结构包含两个全连接层，且在两个全连接层之间嵌入一个高斯误差线性单位GELU；

5.根据权利要求4所述的基于光谱空间融合Transformer特征提取的地物分类方法，其特征在于：所述将数据X_pixel输入光谱Transformer模块SpeFormer；具体过程为：

首先，光谱Transformer模块SpeFormer引入PE；过程为：

级联结果再进行位置嵌入，计算过程表示如下

T′_PE＝[T′₀,T′₁,T′₂,...,T′_w]+PE′_pos (7)

式中，[T′₁,T′₂,...,T′_w]表示令牌数量，PE′_pos表示位置信息；

然后，将PE输出数据T′_PE依次输入归一化Norm和一个多头双自注意力MHD-SA；

6.根据权利要求5所述的基于光谱空间融合Transformer特征提取的地物分类方法，其特征在于：所述将空间Transformer模块SpaFormer和光谱Transformer模块SpeFormer输出数据输入自适应光谱空间融合机制AS²FM进行级联，将级联后的特征向量输入分类器进行分类；具体过程为：

其中，交叉熵损失函数表达式为

式(9)中，y′_a和y_a分别表示真实地物标签和模型预测标签，C表示数据集的总类别数量，Loss是每个小批次观测的平均损失值；a表示类别，r表示类别总数量；

引入平衡因子λ进行分数加权；即

F＝Concat(λF_Spa,(1-λ)F_Spe) (9)

在反向传播过程中，超参数更新表示为

其中，λ₀为平衡因子随机初始值，η表示学习率；λ为超参数。