CN116416465B

CN116416465B - 一种分层拆分模块与跨域注意力机制结合的高光谱图像分类方法

Info

Publication number: CN116416465B
Application number: CN202310295400.9A
Authority: CN
Inventors: 潘海珠; 刘沫岐; 葛海淼
Original assignee: Qiqihar University
Current assignee: Qiqihar University
Priority date: 2023-03-23
Filing date: 2023-03-23
Publication date: 2023-09-15
Anticipated expiration: 2043-03-23
Also published as: CN116416465A

Abstract

一种分层拆分模块与跨域注意力机制结合的高光谱图像分类方法，涉及一种高光谱图像分类方法。本发明提出了一种分层拆分模块与跨域注意力机制结合的高光谱图像分类方法，以解决上述背景技术中提出的多尺度特征提取不充分，以及跨域信息交互不足的问题。该方法：一、应用PCA去除原始HSI中的冗余噪声频谱带，之后使用滑动窗口获得以标记像素为中心的三维斑块；二、将三维斑块分别送入Spe.MS特征提取分支和Spa.MS特征提取分支，分别得到特征图；三、将Spe.MS分支特征图和Spa.MS分支特征图经自适应特征融合模块，获得具有空‑谱联合特征的特征图，再通过全局平均池化平铺成特征向量后喂入全连接层，得到分类精度。

Description

一种分层拆分模块与跨域注意力机制结合的高光谱图像分类方法

技术领域

本发明涉及一种高光谱图像分类方法。

背景技术

遥感是地球观测技术中基本的组成部分之一，其可以在没有任何直接接触下探测地物。特别是，高光谱遥感因其能够探测地物丰富的光谱信号，引起了人们广泛研究。并且，随着高光谱成像技术和传感器平台的发展，高光谱图像(HSI)的空间信息也变得愈加详细。考虑到HSI丰富的光谱和空间信息，其已被广泛应用于城市规划、农业监测和地质勘探等领域。在这些应用中，分类是最基本的任务。其目的是为HSI中的每个像素分配一个独特的类别标签。然而，HSI固有的复杂性为分类任务带来了挑战。

近年来，由于深度学习具备强大的特征提取能力，其已被广泛应用于HSI分类。其中基于卷积神经网络(CNN)的HSI分类方法备受研究人员关注。虽然目前基于CNN的方法取得了良好的分类效果，但仍有一些不足之处需要改进。一方面，大多数基于CNN的方法仅提取了HSI中单尺度特征，导致某些尺度多变的地物特征很难被充分利用。另一方面，为了使CNN更加关注感兴趣的区域，大多数网络引入了空间域和通道域注意力机制，但其仅考虑了空间和通道各自的关系，并没有充分考虑它们之间的跨域交互信息。

发明内容

针对上述问题，本发明提出了一种分层拆分模块与跨域注意力机制结合的高光谱图像分类方法，以解决上述背景技术中提出的多尺度特征提取不充分，以及跨域信息交互不足的问题。

本发明分层拆分模块与跨域注意力机制结合的高光谱图像分类方法包括以下步骤：

一、应用主成分分析方法(PCA)去除原始高光谱数据(HSI)中的冗余噪声频谱带，之后使用滑动窗口获得以标记像素为中心的三维斑块；

二、将三维斑块分别送入光谱多尺度(Spe.MS)特征提取分支和空间多尺度(Spa.MS)特征提取分支，分别得到特征图；

光谱多尺度特征提取分支包括一个多尺度分层拆分模块(S-Split)和一个跨域注意力模块(CA)；

空间多尺度特征提取分支包括一个多尺度分层拆分模块(S-Split)和一个跨域注意力模块(CA)；

三、将Spe.MS分支特征图和Spa.MS分支特征图经自适应特征融合模块(SKFA)，获得具有空-谱联合特征的特征图，再通过全局平均池化(GAP)平铺成特征向量后喂入全连接层，得到分类精度。

进一步的，多尺度分层拆分模块(S-Split)运行步骤如下：

1.1、根据接收到的三维斑块建立特征图其中H×W表示空间大小，D表示主成分(PC)的数量，C表示通道的数量；

1.2、将输入的特征图沿通道分成G组，每组X_i有通道，表示为i∈{1，2，…，G}；其中，只有第一组特征图直接连接到下一层跨域注意力模块；其它组的特征图先被送入伪三维卷积提取特征，伪三维卷积用Conv_i()，表示；Conv_i()，提取的特征图用Y_i表示；之后沿通道分成两个子组，分别用Y_i，1和Y_i，2表示；其中Y_i，2与下一个分组的X_i+1相连接，然后送入Conv_i+1()，；所有Y_i，1连接起来，形成输出特征图；该过程用公式(1)表示，其中[·]表示沿通道的连接操作；

本发明通过S-Split模块中的各分支提取不同感受野的多尺度特征。本发明S-Split模块中特征图X首先被分成几个独立的子组，更多的子组意味着更大的多尺度表征能力。本发明S-Split模块中特征图Y_i首先被分为两个子组，Y_i，1和Y_i，2；Y_i，1保留了固有的特征，而Y_i，2则用于捕捉更细微的特征。本发明S-Split模块对不同组之间的特征图采用连接操作(如图2所示)，用于加强不同组之间特征图流动；并对所有的特征图Y_i，1进行连接操作，进行合并。

进一步的，所述伪三维卷积分为伪三维光谱卷积和伪三维空间卷积；所述光谱多尺度特征提取分支中配备伪三维光谱卷积；所述空间多尺度特征提取分支中配备伪三维空间卷积；

其中，伪三维光谱卷积操作表示为：

伪三维空间卷积操作表示为：

其中，M(X)为Mish激活函数，表达式为

M(X)＝X×tanh(ln(1+exp(x))) (4)；

卷积核的高度、宽度和深度分别以H_l，、W_l和D_l表示；表示第i个卷积核在第l个卷积层的第m个特征图上的位置(h，w，d)的权重；/>表示第l个伪三维光谱卷积层中第i个特征图上位置(x，y，z)的神经元；/>表示第l个伪三维空间卷积层中第i个特征图上位置(x，y，z)的神经元。

进一步的，跨域注意力模块(CA)分为四个平行的分支，包括通道域的注意力分支、通道与高度域的跨域注意力分支、通道与宽度域的跨域注意力分支和空间域注意力分支。

进一步的，所述通道域的注意力分支：设CA输入特征图为使用最大池化(MaxPool)和平均池化(AvgPool)来融合输入特征图Q的空间特征，融合的特征分别定义为/>和/>然后，用两个1×1的卷积和ReLU激活函数共同组成多层感知器(MLP)；之后MLP的输出向量通过元素相加进行合并；再通过Sigmoid激活函数得到通道注意力权重/>最后，通道域的注意力分支输出特征图/>由公式(8)生成；

通道注意力权重A_c&c(Q)为

其中φ是Sigmoid函数，ζ是ReLU函数，特征图特征图/>

本发明中为了在保持通道分辨率的同时尽量减少参数的数量，将中间层的特征大小设定为

所述通道与高度域的跨域注意力分支：将特征图Q沿H维逆时针旋转90度，生成然后用最大池化和平均池化，将/>的特征沿第0维进行融合，融合后的特征分别定义为/>和/>之后将/>和/>连接，并由带有批归一化(BN)的k×k卷积层进行卷积；而后通道和高度维度权重/> 之间的跨域注意力由Sigmoid激活函数获得；通道与高度域的跨域注意力分支输出特征图/>由公式(10)生成；/>的数学计算方法为

其中φ是Sigmoid函数，f^k×k是带有BN的k×k卷积层；MaxPool是最大池化操作；AvgPool是平均池化操作；

其中，Roared是旋转操作；

通道与宽度域的跨域注意力分支：先将特征图Q沿W维度逆时针旋转90度，新生成的通道和宽度域的跨域注意力数学计算方法为

空间域注意力分支：空间注意图和输出计算公式为

其中，为空间域注意力分支输出特征图；并且，为上述4个分支中的每个分支设计一个可学习的权重参数；CA最终输出为以下数学计算公式

其中，w_i为权重系数，∑w_i＝1；α_i和α_j为初始权重系数。

进一步的，所述SKFA运行步骤如下：融合Spe.MS分支特征图(E_spe)和Spa.MS分支特征图(E_spa)信息构建光谱和空间联合的特征图(E_ss)；之后“选择”操作在汇总原始特征图之前，根据E_ss动态地重新校准不同分支数据。

进一步的，通过元素相加构建相关特征图E_ss，E_ss＝E_spe+E_spa；之后采用GAP将E_ss变成一个全局统计向量再使用带有ReLU激活函数的1×1卷积层进行通道下采样操作；下采样的特征/>尽可能多地保留通道分辨率；而后用两个平行的1×1通道上采样，将特征向量z转换为/>和/>然后将softmax函数分别应用于v_spe和v_spa，生成重新校准权重/>和/>随后用两个权重分别动态的重新校准多尺度特征图E_spe和E_spa；最终，输出的特征图M＝s_spe·E_spe+s_spa·E_spa。

本发明使用主成分分析方法(PCA)降低原始高光谱数据(HSI)的维度，以去除冗余的光谱特征；HSI中的判别特征从而得以保留，网络计算成本也在一定程度上得以降低。为了使训练样本同时包含光谱特征和空间信息，我们使用滑动窗口来获得以标记像素为中心的三维斑块。光谱多尺度(Spe.MS)特征提取分支和空间多尺度(Spa.MS)特征提取分支为双分支对称网络，具有相同的组件多尺度分层拆分模块(S-Split)和跨域注意力模块(CA)。S-Split模块可从不同的感受野提取更丰富的特征(从粗到细)，以提高多尺度特征的代表性。CA模块不仅关注通道域(即(C，C))和空间域(即(H，W))中的有用信息，而且还在通道和空间域(即(C，H)和(C，W))之间建立了跨域互动。在CA模块的每个子域分配了自适应权重，以对其进行不同程度的缩放，从而使该模块能够更好地整合来自各个子域的特征。SKFA动态地自适应融合多尺度光谱及空间特征，使得光谱和空间特征得到充分的利用，进一步提升了本发明方法(MS3Net)的分类精度。

选取四个HSI数据集进行了大量的实验，实验结果表明本发明MS3Net方法的分类精度优于其他方法。

本发明方法(MS3Net)因采用了S-Split模块，为HSI分类挖掘更精细的多尺度光谱和空间特征。设计了伪三维光谱卷积运算和伪三维空间卷积运算，以适应HSI数据的特点，减少网络参数。且提出了新颖的CA注意力模块，其包含四个平行的子域分支；因此，不仅能捕获通道和空间域上的有用信息，还能捕获域与域之间的跨域交互信息。并且由于每个子域分支特征图的重要性不同，本发明为每个子域分支引入了一个自适应加权系数，以更有效地融合四个子域分支的特征图。本发明采用SKFA来动态融合光谱和空间特征使得分类精度得到进一步提高。

一系列的消融实验验证了本发明方法中的多尺度特征提取、增强和融合模块的有效性。考虑了几种最先进的方法，包括HYSN、SSRN、FDSS、DBMA、DBDA、OSDN、SSMNet和HResNet。在四个包含不同场景的基准数据集上的实验结果一致表明，本发明方法能够有效地提取多尺度特征并提高HSI分类的准确性。

附图说明

图1是本发明MS3Net方法的分支程图；其中，“C”代表串联操作，代表矩阵乘法，“⊕”代表元素间的加法运算，“Wi”代表权重系数；

图2是本发明S-split模块的结构图；其中，“C”代表串联操作，“Split”表示根据通道数平均拆分特征图；

图3是本发明CA模块的结构图；其中，“C”代表串联操作，代表矩阵乘法，“⊕”代表元素间的加法运算；“Wi”代表权重系数；

图4是本发明SKFA模块的结构图；

图5是具体实施方式一实验中帕维亚大学数据集上不同方法的假色图像、地面实况和全像素分类图；

图6是具体实施方式一实验中HyRANK数据集上不同方法的假色图像、地面实况和全像素分类图；

图7是具体实施方式一实验中WHU-Hi-HongHu数据集上不同方法的假色图像、地面实况和全像素分类图；

图8是具体实施方式一实验中高峰林场数据集上不同方法的假色图像、地面实况和全像素分类图；

图9是具体实施方式一中不同方法在四个数据集上的分类精度与每类训练样本的不同百分比的对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

具体实施方式一：本实施方式分层拆分模块与跨域注意力机制结合的高光谱图像分类方法包括以下步骤：

二、将三维斑块分别送入光谱多尺度(Spe.MS)特征提取分支和空间多尺度(Spa.MS)特征提取分支，分别得到特征图；光谱多尺度特征提取分支包括一个多尺度分层拆分模块(S-Split)和一个跨域注意力模块(CA)；空间多尺度特征提取分支包括一个多尺度分层拆分模块(S-Split)和一个跨域注意力模块(CA)；

三、将Spe.MS分支特征图和Spa.MS分支特征图，经自适应特征融合模块(SKFA)，获得具有光谱和空间特征的特征图，再通过全局平均池化(GAP)平铺成特征向量后喂入全连接层，得到分类精度。

其中，多尺度分层拆分模块(S-Split)运行步骤如下：

1.2、将输入的特征图沿通道分成G组，每组X_i有通道，表示为i∈{1，2，…，G}；其中，只有第一组特征图直接连接到下一层跨域注意力模块；其它组的特征图先被送入伪三维卷积提取特征，伪三维卷积用Conv_i()，表示；Conv_i()，提取的特征图用Y_i表示；之后沿通道分成两个子组，分别用Y_i，1和Y_i，2表示；其中Y_i，2与下一个分组的X_i+1相连接，然后送入Conv_i+1()，；每个经过处理的Y_i，1连接起来，形成输出特征图；该过程用公式(1)表示，其中[·]表示沿通道的连接操作；

所述伪三维卷积分为伪三维光谱卷积和伪三维空间卷积；所述光谱多尺度特征提取分支中配备伪三维光谱卷积；所述空间多尺度特征提取分支中配备伪三维空间卷积；

其中，伪三维光谱卷积操作表示为：

伪三维空间卷积操作表示为：

其中，M(X)为Mish激活函数，表达式为

M(X)＝X×tanh(ln(1+exp(X))) (4)；

跨域注意力模块(CA)分为四个平行的分支，包括通道域的注意力分支、通道与高度域的跨域注意力分支、通道与宽度域的跨域注意力分支和空间域注意力分支。

所述通道域的注意力分支：设CA输入特征图为使用最大池化(MaxPool)和平均池化(AvgPool)来融合输入特征图Q的空间特征，融合的特征分别定义为和/>然后，用两个1×1卷积和ReLU激活函数来组成多层感知器(MLP)；之后MLP的输出向量通过元素相加进行合并；再通过Sigmoid激活函数得到通道导向的注意力权重/>最后，通道域的注意力分支输出特征图/>由公式(8)生成；

其中，中间层的特征大小被设定为注意力权重A_c&c(Q)为

其中φ是Sigmoid函数，ζ是ReLU函数，特征图特征图/>

所述通道与高度域的跨域注意力分支：将特征图Q沿H维逆时针旋转90度，生成然后用最大池化和平均池化，将/>的特征沿第0维进行融合，融合后的特征分别定义为/>和/>之后将/>和/>连接，并由带有批归一化(BN)的k×k卷积层进行卷积；而后通道和高度维度权重/> 之间的交叉注意力由Sigmoid激活函数获得；通道与高度域的跨域注意力分支输出特征图/>由公式(10)生成；/>的数学计算方法为

其中，Roated是旋转操作；

空间域注意力分支：空间注意图和输出计算公式为

其中，w_i为归一化权重系数，∑w_i＝1；α_i和α_j为初始权重系数。

所述SKFA运行步骤如下：融合Spe.MS分支特征图(E_spe)和Spa.MS分支特征图(E_spa)信息构建光谱和空间相关的特征图(E_ss)；之后“选择”操作在汇总原始特征图之前，根据E_ss动态地重新校准不同分支数据。

通过元素相加构建特征图E_ss，E_SS＝E_spe+E_spa；之后采用GAP将E_ss变成一个全局统计向量再使用带有ReLU激活函数的1×1卷积层进行通道下采样操作；下采样的特征/>尽可能多地保留通道分辨率；而后用两个平行的1×1通道上采样层，将特征向量z转换为/>和/>然后将softmax函数分别应用于v_spe和v_spa，生成重新校准权重/>和/>随后用两个权重分别动态的重新校准多尺度特征图E_spe和E_spa；最终输出的特征图M＝s_spe·E_spe+s_spa·E_spa。

本发明S-Split模块的目的是在细观水平上提取多尺度光谱特征，从而扩大感受野的范围，S-Split模块包含多个拆分和连接操作，以从不同的感受野大小中提取多尺度特征。在提取的特征中，小的感受野可以专注于精细的特征，大的感受野可以专注于大尺度的特征。为了降低计算成本和参数，本发明设计了伪三维光谱卷积和伪三维空间卷积来代替原来的三维卷积。而且，由于S-Split模块采用了伪三维卷积运算，因只在特定的维度上操作，从而减少参数。

S-Split模块提取的特征图被送入CA模块，CA模块自适应地将网络集中在有辨别力的特征上。S-Split模块的输出被定义为S(X，θ)，其中θ表示一个可学习参数，x为特征图；S(X，θ)被发送到CA模块，以计算注意力特征图A(S(X，θ)，τ)，其中τ表示CA模块中的一个可学习参数。应用残差连接生成增强的特征图其保留了原始信息并增强了积极特征。

在前向传播阶段，注意力特征图A(S(X，θ)，τ)可以驱动网络聚焦在感兴趣的区域。在反向传播阶段，CA模块可被视为一个梯度更新器。S-Split模块的梯度计算方法如：

由公式(18)可知，A(S(x，θ)，τ)是S-Split模块的一部分，在训练过程中增强或抑制梯度。本发明CA为软注意机制，在训练过程中反向传播可以更新权重参数。本发明CA中通道域的注意力分支被设计为自适应地重新校准通道域的特征表示能力；通道与高度域的跨域注意力分支被应用于获得通道和高度域之间的跨域交互关系；通道与宽度域的跨域注意力分支通道和宽度域的跨域交互关系与前一个分支的计算过程类似；空间域注意力分支用于自适应地关注来自空间域具有代表性的特征区域。并且，本发明为CA中4个分支中的每个分支设计一个可学习的权重参数，可以进一步提高各个子域特征融合的能力。

实验：

A.数据集描述：为全面评估本发明所提出的HSI分类模型的有效性，在实验中使用了四个著名的HSI数据集，包括三个高分辨率机载HSI数据集(即帕维亚大学数据集、WHU-Hi-HongHu数据集和高峰林场数据集)和一个中等分辨率卫星HSI数据集(即HyRANK数据集)。其中，WHU-Hi-HongHu和高峰林场是两个最近发布的高质量HSI数据集。

1)帕维亚大学数据集。帕维亚大学数据集由反射光学系统成像光谱仪(ROSIS)传感器于2003年在意大利帕维亚大学上空采集。该数据集的空间大小为610×340，包括总共207,400个像素。空间分辨率为每个像素1.3米。每个像素包含115个波段，光谱波长范围为430至860纳米。在剔除了被噪声污染的波段后，用于实验的光谱波段数量为103。标记像素的比例约为21％，被分为9个不同的类别。具体各类别样本数如表1所示。

表1帕维亚大学数据集各类别样本数

2)HyRANK数据集。HyRANK卫星数据集是由地球观测一号上的Hyperion传感器拍摄的，由五张HSI组成，其中两张(即Dioni和Loukia)被用作训练图像，另外三张(即Erato、Kirki和Nefeli)被作为验证图像。在这组HSI图像中，Dioni被选为实验对象，因为它每个类别有超过100个标记样本。该图像的大小为250×1376像素，有176个光谱带，从400到2500纳米，空间分辨率约为每像素30米。只有6％的像素(344,000中的20,024)被标记为12个不同类别。具体各类别样本数如表2所示。

表2HyRANK数据集各类别样本数

3)WHU-Hi-HongHu数据集。WHU-Hi-HongHu数据集是由无人驾驶飞行器(UAV)平台获取的。该图像场景于2017年11月20日在中国湖北省洪湖市的一个复杂的农业区上空拍摄。实验中截取了尺寸为410×475像素的区域。截获的区域是受土地破碎化影响的典型区域，该地区种植了同一作物类型的多种不同的栽培品种，如中国白菜/卷心菜和黄铜/小黄铜等。无人机的飞行高度为100米，具有高质量的空间分辨率，每个像素约0.043米。无人机平台收集了多达270个光谱波段，范围从400到1000纳米。该数据集具有非常高的标记像素比例，约为90％(194,750个中的173,582个)，被标记为19个类别。具体各类别样本数如表3所示。

表3WHU-Hi-HongHu数据集各类别样本数

4)高峰林场数据集。是由AISA Eagle II衍射光栅推帚高光谱成像仪于2018年在中国广西省高峰国有林场的上空获取的。该数据集覆盖了572×906像素的大场景，每个像素的空间分辨率为1米。高丰林场的数据集涵盖了400-1000纳米的光谱范围，有125个波段。该数据集的标记像素比例约为41％(518,232中的214,240)，分为12个不同类别。具体各类别样本数如表4所示。

表4高峰林场数据集各类别样本数

B.实验设置

实验均在深度学习工作站上实现，该工作站拥有2×英特尔至强E5-2680 v4处理器，35M的L3缓存，2.4GHz的时钟速度，14个物理核心/28路多任务处理，且拥有128GB DDR4内存和8×NVIDIA GeForce RTX 2080Ti超级图形处理单元(GPU)，内存为11GB。软件环境是CUDA v11.2，PyTorch 1.10和Python 3.8。对于各数据集，在每个类别中随机选择5％的样本作为训练集和验证集，其余样本作为测试集。为了确保一致性，通过“四舍五入”来选择样本。

为了本发明方法的有效性，选择了十种有代表性的方法进行比较(一种经典的基于机器学习的方法和九种最先进的基于深度学习的方法)。所有实验都是在相同的环境中实现的，使用的是与原始论文相同的超参数。十种方法简述如下：

1)SVM：采用带有径向基函数(RBF)核的SVM来代表传统的基于ML的HSI分类方法。惩罚参数C和RBF核的宽度σ由Grid SearchCV选择，都在(10^-2,10²)的范围内搜索。

2)HYSN：利用三维和二维卷积分别提取HSI的浅层光谱空间和深层空间特征。

3)SSRN：利用残差连接和三维卷积来缓解网络的梯度消失问题，并挖掘HSI的空-谱信息。

4)FDSS：为重用所有卷积层中提取的特征信息，该网络将密集连接与三维卷积运算相结合，用于HSI分类。

5)DBMA：该模型被设计为双分支网络结构，其中每个分支有一个密集块和一个注意力模块。

6)DBDA：具有与DBMA相同的网络结构和特征提取块，但注意模块不同。DANet作为注意力模块被引入该网络，使网络能够集中于感兴趣的区域。

7)OSDN：由光谱特征提取模块、空间特征提取模块和光谱-空间特征融合模块组成；采用了极化注意力来强调有意义的特征。

8)SSMNet：该模型的结构顺序与SSRN相似。第一阶段是学习光谱特征，第二阶段是学习空间特征。不同的是，它在特征图之间插入了一个多尺度的特征提取块。

9)MDBNet：该模型引入了一个多尺度特征提取模块，一个双分支特征融合模块以及一个洗牌注意力模块。前两个特征提取模块可以提取深层的多尺度规格空间特征。随后，洗牌注意力模块使网络能够集中在特征图的重要组成部分上。

10)HResNet：该模型也有两个分支，每个分支包含一个多尺度特征提取块和一个注意力模块。使用与DBDA相同的注意力模块，至于多尺度特征提取块，与MDBNet类似。

上述十种比较方法中除了SVM是一种光谱分类方法外，其余九种基于深度学习的方法都是空-谱结合的分类方法。上述九种基于深度学习的方法中包括三种单尺度的分类方法(即HYSN、SSRN和FDSSC)，三种基于注意力的分类方法(即DBMA、DBDA和OSDN)，以及三种多尺度的分类方法(即SSMNet、MDBNet和HResNet)。通过这种合理的安排，可以更全面的比较本发明方法，以证明其在各个层面的有效性。各实验结果都独立重复六次(在每次实验中，样本和网络参数将被随机初始化)，六次实验的平均值和标准差值被作为最终的分类精度，以避免抽样中的偏斜和边缘化。

C.实验结果与分析

为证明本发明方法(MS3Net)在不同层次上的优越性，对MS3Net在四个数据集上分类精度与十种比较方法进行了定量和定性的评估。

1)帕维亚大学的数据集。如表5所示，首先对各方法在帕维亚大学数据集上的分类结果进行了定量评估，每一行的最佳结果都用粗体字标出。与其他方法相比，MS3Net在大多数情况下在每个类别和三个评价指标上都取得了良好的分类精度。基于深度学习的方法获得的准确度要比SVM高得多。造成这种现象的主要原因有两个。一方面，SVM只使用光谱信息进行分类。另一方面，SVM缺乏获取训练样本的高级特征的能力。此外，C6和C7类别很容易识别，大多数方法都产生了良好的分类精度。特别是MS3Net对这两个类别进行了正确的分类。而SVM对C6和C7类别的识别率较低，分别为86.49％和80.82％。虽然HYSN与SVM相比提高了分类精度，但其特征提取能力仍然受到网络结构的限制，训练策略也需要改进。由于FDSS精心设计的密集连接结构，可以依次提取光谱和空间信息，并在每个卷积层中重用特征图。与基于残差连接块的SSRN相比，OA、AA和k分别提高了0.21％、0.1％和0.25。与上述三种方法相比，DBMA、DBDA和OSDN实现了分类精度的提高，这是因为注意力机制可以驱动网络关注更多的鉴别性特征。SSMNet并没有将注意力机制整合到网络结构中，但其准确率却高于那些基于注意力的模型(即：DBMA、DBDA和OSDN)。这一现象表明，多尺度信息有助于提高分类精度。受益于多尺度特征提取模块和注意力机制，MDBNet和HResNet方法取得了相对较高的分类精度。MDBNet和HResNet方法的区别在于，前者在网络的头部使用了一个多尺度特征提取模块，而后者对光谱和空间多尺度特征使用了一个平行网络结构。MS3Net在大多数类别中取得了最佳分类精度，与最佳对比方法(HResNet)相比，MS3Net的OA、AA和k分别提高了0.12％、0.15％和0.16。分析认为提出的S-Split模块可以通过分层拆分进一步提取更精细的多尺度特征；CA模块可引导S-Split模块通过梯度更新从四个角度关注鉴别性特征。而且在网络的末端，应用SKFL模块而不是简单的特征融合操作来进一步捕捉光谱和空间的交互关系。图5显示了不同方法在帕维亚大学数据集上的假彩色图像、地面实况和全像素分类图。从图5中可以看出，本发明MS3Net产生的分类图比其他分类图更平滑。由于SVM只使用每个像素的光谱特征进行分类，分类结果图中充满了大量的椒盐噪声。尽管基于深度学习的方法使用三维斑块作为网络的输入，这给网络引入了空间信息，产生的分类图中椒盐噪声较少，但在一些方法中仍然存在严重的误分类。例如，HYSN失去了很多空间结构特性。相反，由于精心设计的多尺度光谱空间特征提取、增强和融合策略，MS3Net分类图中的大多数地物分类效果比其他方法在空间上更加一致。

表5所有方法在帕维亚大学数据集上的平均分类结果

2)HyRANK数据集。表6列出了各种方法在HyRANK数据集上的分类准确率。由于HyRANK数据集是由星载高光谱传感器获取的，空间分辨率相对较低，所以分类精度比帕维亚大学的数据集略低。本发明MS3Net方法仍然取得了97.96％的最高OA，比其他方法高0.84％-8.92％。对于与AA和k，MS3Net方法仍然取得了令人满意的精度。对于每一类的精度，MS3Net方法在8个类别中取得了出色的分类精度。在海岸边缘存在两个连续的类似水体，即C11和C12，MS3Net获得了最佳的分类精度。然而，基于光谱的分类方法(即SVM)很难区分这两个类别。由于HYSN的网状结构的限制，其不能获得具有长距离地物特征的边界，误分类现象在这个区域特别明显。C7和C8具有相似的特征类型，但密度尺度不同。基于多尺度的方法对C7和C8类别的识别，明显优于其他基于单一尺度的方法。特别是，在C7和C8类，MS3Net达到了最高的分类精度。不同方法的全像素分类图直观地展现在图6中，MS3Net得到的分类图更加干净、平滑，尤其是C11和C12的对应区域，边界非常清晰。从以上的实验结果可以得出结论，MS3Net在经典的HSI数据集上取得了可以接受的结果。为了进一步验证MS3Net的性能，在最近发布的两个具有高光谱和空间分辨率的无人驾驶飞行器(UAV)生成的HSI数据集上进行了实验。

表6所有方法在HYRANK数据集上的平均分类结果

3)WHU-Hi-HongHu数据集。关于WHU-Hi-HongHu的数据集，其重点是精确的作物分类。不同方法的定量和定性结果分别列于表7和图7。受计算机内存的限制，对于该数据集，截取了一个尺寸为410×475的实验区，其中包含16种作物。由于各种作物的光谱特征差异很小，分类图中充满了椒盐噪声，SVM的OA只有75.76％。HYSN方法的OA比SVM提高了18.06％，但仍然存在非常明显的误分类现象。例如，C7和C12在形态和规格特征上非常相似，导致C12被严重误归为C7。受益于该数据集中90％以上的标记样本，可观察到一些独特的分类现象。例如，尽管这些基于单尺度的分类方法通过考虑空间信息可以提供更平滑的分类图，但在它们的分类图中存在许多孤立的小块。然而，这种现象在基于多尺度的分类方法中被有效地抑制了。SSMNet在不同的数据集之间不能保持稳定的分类精度，与OSDN相比，它减少了0.07％的OA。C2表现出线性分布特征，使得许多方法难以将其与周围的C3区分开来。相比之下，MS3Net不仅减少了分类图中独立斑点的出现，还能很好地识别出人造地物。同时，MS3Net与所有其他方法相比，在三个指标上仍然获得了最好的分类精度。

表7所有方法在WHU-HI-HONGHU数据集上的平均分类结果

4)高峰林场数据集。各方法在高丰林场数据集上的实验结果列于，表8，由于林场中同科同属的不同植物的光谱信息非常接近，尤其是在物种分布稀疏、地形复杂的情况下，大多数现有方法的分类精度较差。鉴于树种之间光谱响应的强相关性，SVM的OA值为68.88％。对于一些特定的类别，如C3和C12，其准确率低于10％。相反，MS3Net精确区分了这两个树种。由于C2和C3类都属于相同的物种，它们的光谱特征非常相似，其他方法对这两类的分类效果较差，而MS3Net仍然获得了最佳的分类精度。10种方法的全像素分类图如图8所示，MS3Net的分类图与地面实况几乎相同。综上所述，实验结果表明，MS3Net在不同场景和分辨率数据集下的分类表现良好。

表8所有方法在高峰林场数据集上的平均分类结果

D.不同训练样本百分比影响分析

本发明方法用深度监督学习方法进行HSI分类，是一种数据驱动的方法，而训练样本的百分比在模型学习过程中起着主导作用。因此，重新减少了训练样本的百分比，以验证本发明MS3Net的实用性和稳健性。由于CNN中权重的初始化和数据抽样存在随机性，实验被不间断地重复了6次。图9显示了不同方法在四个数据集上的平均分类精度和标准差与不同百分比训练样本的对比。随着训练样本比例的增加，可为模型提供更丰富的特征，导致所有方法在四个数据集上的OA逐步提高。从图9曲线上可以看出，SVM方法的OA最低，但其在四个数据集上的分类精度稳定在60％以上。可见，由于SVM引入了结构风险最小化的理论，即使在标注样本有限的情况下，其也能获得良好的分类精度。对于基于深度学习的方法，以帕维亚大学的数据集为例，由于模型参数过多，OA在有限的训练样本中非常不稳定(例如HYSN、SSRN和FDSS方法)。而且，从图9中还看出，多尺度方法比其他单尺度方法要高。与其他方法相比，本发明MS3Net在不同比例的训练样本中始终保持最高的分类精度。

E.模型复杂度和时间效率分析

不同方法在四个数据集上的参数、复杂度和推理时间(包括训练时间和测试时间)，如表9所示。从表9中可以看出，所有四个指标都随着HSI数据集的大小而增加。HYSN方法由于其三层三维卷积运算的级联堆叠，参数和复杂度最大。由于其网络结构简单，推理时间最快，但分类精度是最低。相反，由于其特别设计的卷积核结构，SSRN和FDSS方法在两个指标(即参数和复杂度)上都有一定程度的下降。FDSS的推理时间明显高于SSRN，因为它采用了密集的连接来实现跨卷积层的特征重用。关于DBMA、DBDA和OSDN方法，所有这些方法的网络结构都是双分支的。在这些方法中，OSDN方法由于其轻量级的特征提取模块，在所有四个指标上都取得了积极的表现。其次，对于三种基于多尺度的方法(即SSMNet、MDBNet和HResNet)，其分类精度相对高于其他基于单尺度的方法。然而，SSMNet和MDBNet方法的复杂度高，效率低。值得注意的是，HResNet方法实现了最低的复杂度和最高的效率，但由于其多尺度特征提取模块提取的特征不够精细，在处理复杂场景数据集时，其分类精度较低。尽管本发明MS3Net方法没有达到最低的复杂度和最快的推理时间，但考虑到其多尺度特征提取、增强和融合模块，其在所有四个独特的HSI数据集上取得了令人满意的分类精度。MS3Net的对称网络结构更适合和有效地提取HSI的光谱和空间信息，并产生最好的分类精度，复杂度和推理时间稍高但可以接受。

表9_{各方法在四个不同数据集上参数}、复杂度和推理时间

F.消融实验分析

进行一系列的消融体验来验证本发明各模块的有效性。

1)对多尺度分层拆分模块(S-Split)进行消融分析，本发明中CA模块和SKFA模块不包括在消融模型中，以确保实验的独立性。在表10中“S-Split-0”、“S-Split-1”、“S-Split-2”和“S-Split-3”分别表示没有光谱S-Split和空间S-Split的本发明方法、只有光谱S-Split的本发明方法、只有空间S-Split的本发明方法和完整的本发明方法。比较“S-Split-0”和“S-Split-3”，发现当该模型只应用浅层特征进行分类任务时，并没有达到预期的效果。一旦加入S-Split模块，该模型可以进一步提取深层多尺度特征，从而显著提高分类精度。在四个数据集上，“S-Split-1”的OA比“S-Split-2”高0.12％、0.16％、0.15％和0.3％。实验结果显示，HSI中的光谱维度比空间维度包含更丰富的信息；仅使用“S-Split-1”或“S-Split-2”模型并不能达到良好的分类效果，因为其忽略了HSI内在的空-谱联合数据结构。因此，实验结果一致表明，本发明MS3Net的S-Split模块可以从HSI的光谱和空间维度中提取复杂的多尺度特征，提高模型的分类精度。

表10 MS3NET的多尺度特征提取模块在四个数据集上的消融分析结果

2)注意模块的消融分析。对CA模块进行消融分析，为了保证实验的独立性，只在"S-Split-3"模型中加入CA模块。如表11所示，"Attention-0"作为基本模型，其模型结构与"S-Split-3"相同；"Attention-1"和"Attention-2"分别表示CA模块插入光谱和空间多尺度特征提取分支；而"Attention-3"表示CA模块同时插入光谱和空间分支中。在加入CA模块后每个模型在上述指标上都有所提高；特别是在光谱和空间分支中都应用了CA模块的"Attention-3"模型取得了最好的结果。实验结果表明，CA模块可以引导网络关注更多的鉴别性特征，从而提高分类精度。

表11 MS3NET的注意力模块在四个数据集上的消融分析结果

3)对特征融合模块的消融分析。对SKFA模块进行消融分析，消融分析结果见表12。“Fusion-0”模型的网络结构与"Attention-3"模型保持一致，其光谱-空间特征通过连接操作进行融合。"Fusion-1"模型采用求和操作来融合光谱和空间特征。"Fusion-2"模型使用SKFA模块来动态融合光谱空间特征。实验结果表明，通过求和进行融合有可能改变甚至破坏原始特征图的表达能力。相反，连接的方式都会保持特征图原有的表达能力。由于"Fusion-2"模型引入了SKFA模块，可以建立空间特征和光谱特征之间的联系，动态地融合光谱和空间特征，分类精度得到进一步提高。

表12 MS3NET的特征融合模块对四个数据集的消融分析结果

/>

Claims

1.一种分层拆分模块与跨域注意力机制结合的高光谱图像分类方法，其特征在于：包括以下步骤：

一、应用主成分分析方法去除原始高光谱数据中的冗余噪声频谱带，之后使用滑动窗口获得以标记像素为中心的三维斑块；

二、将三维斑块分别送入光谱多尺度特征提取分支和空间多尺度特征提取分支，分别得到特征图；

光谱多尺度特征提取分支包括一个多尺度分层拆分模块和一个跨域注意力模块；

空间多尺度特征提取分支包括一个多尺度分层拆分模块和一个跨域注意力模块；

三、将光谱多尺度分支特征图和空间多尺度分支特征图经自适应特征融合模块，获得具有光谱和空间特征的特征图，再通过全局平均池化平铺成特征向量后喂入全连接层，得到分类结果；

多尺度分层拆分模块运行步骤如下：

1.2、将输入的特征图沿通道分成G组，每组X_i有通道，表示为/>i∈{1，2，…，G}；其中，只有第一组特征图直接连接到下一层跨域注意力模块；其它组的特征图先被送入伪三维卷积提取特征，伪三维卷积用Conv_i(),表示；Conv_i(),提取的特征图用Y_i表示；之后沿通道分成两个子组，分别用Y_1，1和Y_1，2表示；其中Y_1，2与下一个分组的X_i+1相连接，然后送入Conv_i+1()；每个经过处理的Y_1，1连接起来，形成输出特征图；该过程用公式(1)表示，其中[·]表示沿通道的连接操作；

跨域注意力模块分为四个平行的分支，包括通道域的注意力分支、通道与高度域的跨域注意力分支、通道与宽度域的跨域注意力分支和空间域注意力分支；

所述通道域的注意力分支：设跨域注意力模块输入特征图为使用最大池化和平均池化来融合输入特征图Q的空间特征，融合的特征分别定义为/>和然后，用两个1×1的卷积层与整分支线性单元激活函数来组成多层感知器；之后MLP的输出向量通过元素相加进行合并；再通过sigmoid激活函数得到通道导向的注意力权重/>最后，通道域的注意力分支输出特征图/>由公式(8)生成；

其中，中间层的特征大小被设定为注意力权重A_C&C(Q)为

其中φ是Sigmoid函数，ζ是ReLU函数，特征图特征图/>MaxPool是最大池化操作；AvgPool是平均池化操作；

所述通道与高度域的跨域注意力分支：将特征图Q沿H维逆时针旋转90度，生成然后用最大池化和平均池化，将/>的特征沿第0^th维进行融合，融合后的特征分别定义为/>和/>之后将/>和/>串联，并由带有批归一化(BN)层的k×k卷积层进行卷积；而后通道和高度维度权重之间的交叉注意力由sigmoid激活函数获得；通道与高度域的跨域注意力分支输出特征图/>由公式(10)生成；/>的数学计算方法为

其中Roated是旋转操作；

空间域注意力分支：空间注意图和输出计算公式为

2.根据权利要求1所述的分层拆分模块与跨域注意力机制结合的高光谱图像分类方法，其特征在于：所述伪三维卷积分为伪三维光谱卷积和伪三维空间卷积；所述光谱多尺度特征提取分支中配备伪三维光谱卷积；所述空间多尺度特征提取分支中配备伪三维空间卷积；

其中，伪三维光谱卷积操作表示为：

伪三维空间卷积操作表示为：

其中，M(X)为Mish激活函数，表达式为

M(X)＝X×tanh(ln(1+exp(X))) (4)

卷积核的高度、宽度和深度分别以H_l、W_l和D_l表示；表示第i个卷积核在第l个卷积层的第m个特征图上的位置(h,w,d)的权重；/>表示第l个伪三维光谱卷积层中第i个特征图上位置(x,y,z)的神经元；/>表示第l个伪三维空间卷积层中第i个特征图上位置(x,y,z)的神经元。

3.根据权利要求1所述的分层拆分模块与跨域注意力机制结合的高光谱图像分类方法，其特征在于：所述自适应特征融合模块运行步骤如下：

融合光谱多尺度分支特征图E_spe和空间多尺度分支特征图E_spa信息构建光谱和空间相关的特征图E_ss；之后“选择”操作在汇总原始特征图之前，根据E_ss动态地重新校准。

4.根据权利要求3所述的分层拆分模块与跨域注意力机制结合的高光谱图像分类方法，其特征在于：

通过元素相加构建相关特征图E_ss，E_ss＝E_spe+E_spa；之后采用GAP将E_ss变成一个全局统计向量再使用带有ReLU激活函数的1×1卷积层进行通道下采样操作；下采样的特征/>而后用两个平行的1×1通道上采样层，将特征向量z转换为/>和/>然后将softmax函数分别应用于v_spe和v_spa，生成重新校准权重和/>随后用两个权重分别动态的重新校准多尺度特征图E_spe和E_spa；输出的特征图M＝s_spe·E_spe+s_spa·E_spa。