CN113361485A

CN113361485A - 基于光谱空间注意力融合和可变形卷积残差网络的高光谱图像分类方法

Info

Publication number: CN113361485A
Application number: CN202110774209.3A
Authority: CN
Inventors: 石翠萍; 张甜雨; 王天毅
Original assignee: Qiqihar University
Current assignee: Qiqihar University
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2021-09-07
Anticipated expiration: 2041-07-08
Also published as: CN113361485B

Abstract

基于光谱空间注意力融合和可变形卷积残差网络的高光谱图像分类方法，本发明涉及高光谱图像分类方法。本发明的目的是为了解决现有高光谱图像分类由于高光谱图像包含丰富的信息，故光谱及空间特征提取不充分，以及小样本下的过拟合，导致对高光谱图像分类准确率低的问题。过程为：一、采集高光谱图像数据集和相对应的标签向量数据集；二、建立基于光谱空间注意力融合和可变形卷积残差网络SSAF‑DCR；三、将x¹,x²和Y₁,Y₂输入到网络SSAF‑DCR中，采用Adam算法进行迭代优化，得到最优网络；四、向最优网络中输入x³进行分类结果预测。本发明用于高光谱图像分类领域。

Description

基于光谱空间注意力融合和可变形卷积残差网络的高光谱图像分类方法

技术领域

本发明涉及高光谱图像分类方法。

背景技术

高光谱图像(Hyperspectral Images，HSIs)是由一些搭载高光谱成像仪的航天飞行器获取的图像。图像的每个像元包含数百种不同波段的反射信息，这使得这类图像适用于许多实际应用，例如军事目标探测、矿产勘查、农业生产^[1-4]等。在高光谱图像分析与处理领域，包括在高光谱图像分类方面，已经得到了许多研究成果。然而，高光谱图像分类仍存在三个问题：1)理论上，网络层越深，分类精度越高。但是，对于数据量巨大的高光谱数据来说，太深、太复杂的网络分类效果并不理想；2)相比于自然图像，高光谱数据集通常较小，基于小样本的训练很容易导致过拟合，不利于模型的泛化；3)高光谱图像包含丰富的空间和光谱信息，空谱特征提取不足的问题仍然存在。HSI分类的目的是根据每个像元的空间和光谱特征，将其划分至一个特定类别。故充分利用高光谱图像所包含的空间和光谱信息，是提高高光谱图像分类精度的重要手段。

在高光谱图像分类的早期阶段，大多数方法都集中于提取高光谱图像的光谱特征进行分类^[5]。支持向量机(SVM)^[6]和多项逻辑回归^[7]是解决高光谱图像分类任务的有力工具。尽管可以通过光谱特征来区分不同的物质，但仅基于光谱信息的提取方式限制了高光谱图像的分类性能。在此基础上，后来提出了一些光谱与空间信息相结合的分类方法(如基于超像素的稀疏表示^[8-9]、多核学习^[10]等)，以提高高光谱图像的分类性能。尽管这种空谱信息融合的方式可以提高对高光谱图像的分类精度，但有效的空间特征提取、光谱特征提取以及空间光谱信息融合仍然存在很大的挑战。

与低效率的手工特征提取不同，卷积神经网络(Convolutional NeuralNetworks,CNN)可以自动提取图像特征。近年来，CNN被广泛应用于高光谱图像分类。一些方法是将3D-CNN作为一个整体直接提取光谱-空间特征。例如，陈等人提出了一种基于核采样CNN的深度特征提取架构来提取HSI的光谱空间特征^[11]。一些方法是分别提取空间特征和光谱特征。文献^[12]构建了一个三层结构的CNN，通过光谱特征和双尺度空间特征的级联，从浅层到深层提取空间光谱特征。然后，融合多层空间光谱特征获取互补信息。最后，将融合后的特征和分类器整合到一个统一的网络中，以端到端的方式进行优化。杨等人提出了一种双分支结构的深度卷积神经网络来提取HSIs的联合光谱-空间特征^[13]。

卷积神经网络(Convolutional neural networks，CNNs)在高光谱图像分类中取得了卓越的性能。然而，网络模型的分类性能通常与计算复杂度密切相关。对于包含大量数据的高光谱图像来说，过于复杂的网络并不适用。此外，尽管许多深度学习技术已用于高光谱图像分类，但由于高光谱图像具有较高的空间和光谱分辨率，故空谱特征提取不充分的问题仍然存在。

发明内容

本发明的目的是为了解决现有高光谱图像分类由于高光谱图像包含丰富的信息，故光谱及空间特征提取不充分，以及小样本下的过拟合，导致对高光谱图像分类准确率低的问题，而提出基于光谱空间注意力融合和可变形卷积残差网络的高光谱图像分类方法。

基于光谱空间注意力融合和可变形卷积残差网络的高光谱图像分类方法具体过程为：

步骤一、采集高光谱图像数据集X和相对应的标签向量数据集Y；具体过程为：

步骤一一、从高光谱图像数据集X中以目标像素为中心分别提取9×9×L大小的立方体，其中L是光谱维数；9×9代表长×宽；

步骤一二、将高光谱图像数据集X随机分配成x¹,x²,x³,分别表示训练数据、验证数据和测试数据；

同理，Y包括Y₁、Y₂、Y₃；Y₁是x¹的对应标签向量数据，Y₂是x³的对应标签向量数据，Y₃是x³的对应标签向量数据；

步骤二、建立基于光谱空间注意力融合和可变形卷积残差网络SSAF-DCR；

步骤三、将x¹,x²和Y₁,Y₂输入到建立的基于光谱空间注意力融合和可变形卷积残差网络SSAF-DCR中，采用Adam算法进行迭代优化，得到最优网络SSAF-DCR；

步骤四、向最优网络SSAF-DCR中输入x³进行分类结果预测。

本发明的有益效果为：

针对上述问题，本发明提出了一种轻量级的基于光谱空间注意融合和可变形卷积残差(SSAF-DCR)网络的高光谱图像分类算法。该网络由三部分组成，每个部分顺序连接以提取特征。在第一部分中，利用光谱密集块尽可能多地复用光谱特征，然后采用光谱注意力块进行光谱特征的细化和优化；第二部分分别通过空间密集块和空间注意力块提取及选择空间特征；然后，将前两部分的结果融合后发送到第三部分，通过DCR块深度提取空间特征；最后通过linear层实现分类。在四种常用的高光谱数据集上进行测试，实验结果表明，在训练样本较少的情况下，提出的SSAF-DCR方法优于一些最新的分类方法。

本发明分别提取光谱特征和空间特征的方法可以实现有效的特征提取，但并未充分考虑光谱与空间上下文的相关性。因此，结合两者的优点，并弥补其不足，提出了一种可变形卷积残差(DCR)和光谱空间注意力融合算法。具体创新点如下：

1)提出了一种端到端的深度特征提取和分类网络。与其他的多分支结构不同，该方法增加了网络的深度，能够实现各部分特征的有效提取和融合，从而提升分类性能。

2)提出了一种从高光谱图像中提取光谱空间特征的新方法。先利用三维CNN提取高光谱图像的光谱特征和低层空间特征，再用二维CNN提取高光谱图像的高层空间特征。

3)针对注意力块，设计了一种类似残差的融合方法。能够增强对高光谱图像的空谱特征表示能力，从而有助于准确分类。

4)为了突破传统卷积核固定感受野用于特征提取的局限性，引入了可变形卷积，并设计了DCR模块以进一步提取空间特征。该方法不仅调整了感受野，同时也进一步提高了分类性能，增强了泛化能力。

本发明提出了一种新的基于轻量级SSAF-DCR的高光谱图像分类方法。提出的SSAF-DCR方法首先利用光谱密集块进行有效的光谱特征提取；然后，使用光谱注意块来关注更感兴趣的特征，忽略不重要的信息。同样，空间密集块可以在空间域中提取尽可能多的信息，空间注意力块能够对特征进行选择性过滤和区分。此外，设计了一种类残差融合策略，将从光谱域和空间域提取的有效特征进行融合，进一步增强了对高光谱图像的特征表示。在SSAF-DCR中，还设计了DCR模块，将传统卷积和可变形卷积相结合，并嵌入到残差结构中，以适应未知的空间变化，增强泛化能力。这些设计被集成到一个统一的端到端框架中，以提高对高光谱图像的分类性能。实验结果证明了提出的SSAF-DCR方法的有效性。在后面的工作中，将考虑更有效的联合空间-光谱特征提取架构，以及对应的深度学习模型，以进一步提高对高光谱图像的分类准确率。

附图说明

图1为本发明SSAF-DCR方法的总体框架图，spatial Attention Mechanism为注意力块；图2为光谱密集块的原理图；图3为光谱注意块的原理图；图4为空间注意块的原理图；图5为可变形卷积的实现原理图；

图6a为普通残差块原理图；图6b为本发明提出的DCR块的体系结构图；

图7为不同激活函数的总体分类精度(OA％)图；

图8为本发明提出方法与先进方法获得的IN数据集的完整分类图，(a)为地面真实图，(b)为SVM-RBF(OA＝77.58)，(c)为CDCNN(OA＝62.20)，(d)为SSRN(OA＝93.32)，(e)为FDSSC(OA＝94.79)，(f)为DHCNet(OA＝95.19)，(g)为DBMA(OA＝89.78)，(h)为DBDA(OA＝95.45)，(i)为proposed method(OA＝96.36)；

图9为本发明提出方法与先进方法获得的UP数据集的完整分类图，(a)为地面真实图，(b)为SVM-RBF(OA＝81.84)，(c)为CDCNN(OA＝86.89)，(d)为SSRN(OA＝95.66)，(e)为FDSSC(OA＝94.72)，(f)为DHCNet(OA＝96.29)，(g)为DBMA(OA＝95.72)，(h)为DBDA(OA＝96.47)，(i)为proposed method(OA＝97.43)；

图10为本发明提出方法与先进方法获得的KSC数据集的完整分类图，(a)为地面真实图，(b)为SVM-RBF(OA＝84.97)，(c)为CDCNN(OA＝80.91)，(d)为SSRN(OA＝96.06)，(e)为FDSSC(OA＝97.58)，(f)为DHCNet(OA＝97.41)，(g)为DBMA(OA＝95.07)，(h)为DBDA(OA＝97.59)，(i)为proposed method(OA＝98.41)；

图11为本发明提出方法与先进方法获得的SV数据集的完整分类图，(a)为地面真实图，(b)为SVM-RBF(OA＝86.45)，(c)为CDCNN(OA＝80.51)，(d)为SSRN(OA＝90.11),(e)为FDSSC(OA＝94.60)，(f)为DHCNet(OA＝94.45)，(g)为DBMA(OA＝92.62)，(h)为DBDA(OA＝94.81)，(i)为proposed method(OA＝96.53)；

图12为不同的输入空间大小在四个数据集(IN、UP、KSC、SV数据集)上的总体分类精度比较图；

图13a为不同训练样本在IN数据集上的分类结果图；图13b为不同训练样本在UP数据集上的分类结果图；图13c为不同训练样本在KSC数据集上的分类结果图；图13d为不同训练样本在SV数据集上的分类结果图；

图14a为本发明提出方法在IN数据集上的混淆矩阵示意图；图14b为本发明提出方法在UP数据集上的混淆矩阵示意图；图14c为本发明提出方法在KSC数据集上的混淆矩阵示意图；图14d为本发明提出方法在SV数据集上的混淆矩阵示意图；

图15a为本发明SSAF-DCR网络连接图中部分1图；图15b为本发明SSAF-DCR网络连接图中部分2图。

具体实施方式

具体实施方式一：本实施方式基于光谱空间注意力融合和可变形卷积残差网络的高光谱图像分类方法具体过程为：

光谱信息及空间信息对高光谱图像分类同样重要。许多研究表明，同时考虑这两种特征提取方法比仅依赖其中一种特征提取方法要好得多。根据光谱特征融合的不同阶段，这些方法可以分为三类：基于预处理的网络、集成网络和基于后处理的网络。

基于预处理的网络

基于预处理的分类过程通常包括两个阶段：1)光谱-空间特征提取与融合阶段；2)提取的特征通过不同的分类器(例如SVM)进行分类。第一阶段是确定分类方法性能的关键。对于核空间中的HSI分类，也有一些光谱空间联合分类方法。它们通常通过组合核融合空间和光谱信息，包括基于固定邻域的方法^[14]和基于自适应邻域的方法^[15-16]。而且，双分支双注意(DBDA)网络^[17]是一种典型的基于预处理的网络结构，具有网络轻巧、特征提取准确、参数少的优点。DBDA中设计了两个分支，通道注意力模块和空间注意力模块分别应用于这两个分支，以捕获HSI的大量光谱和空间特征。最后，通过softmax回归进行分类。文献^[18]提出了一种称为CapsNet的全新网络结构，该结构由三层组成：卷积层，主胶囊层(PCL)和数字胶囊层(DCL)。卷积层从HSI中提取特征并将其输入到PCL中。然后DCL接收从PLC中输出的向量，并将结果与权重矩阵相乘，最后通过激活层获得分类结果。

集成网络

与分别获取光谱和空间特征不同，集成网络使用CNN直接从HSI中提取联合的深度光谱空间特征。文献^[19]使用了基于CNN的策略，其中特征提取层和分类层组成统一网络，并且这两层的训练是以集成方式进行的。宋等人提出了一种深度特征融合网络(DFFN)，该网络利用低、中和高三级残差块分别提取特征^[20]。另外，Fang等人提出了一种局部协方差矩阵表示(LCMR)方法，该方法包括三个主要步骤：基于最大噪声分数的降维、基于KNN的相邻像素细化和基于LED核的SVM用于标签分配^[21]。

基于后处理的网络

这种类型的网络通常包括三个阶段：1)提取光谱和空间特征；2)融合特征后，使用二维CNN进一步提取空间特征；3)最后，使用分类器(例如softmax回归，线性回归)进行分类。文献^[22]提出了一种用于HSI分类的复杂度低的混合频谱CNN(HybridSN)。它首先是一个光谱-空间三维CNN，跟随其后的是空间二维CNN。二维CNN在更抽象的层次上学习空间表示。文献^[23]提出了一个S²-DNet。首先，使用k均值聚类对光谱信息进行聚类，然后从聚类结果中选择具有代表性的样本。之后，设计了一个网络来联合提取光谱空间特征，并引入了变形网络来提取深层空间特征。这种类型的网络具有两个优点：1)采用三维卷积和二维卷积相结合的方法来减少参数量。2)都包含了深层的空间特征提取模块，增强了泛化能力。受上述方法启发，本发明提出的方法也是一种典型的基于后处理的网络。首先，通过深度网络提取光谱特征和空间特征，深度网络包含有效的特征提取的密集块和充分考虑光谱-空间上下文相关性的注意块。接着，以类似残差的方式融合空间和光谱特征。然后将融合后的特征发送到DCR块中，进一步提取深层空间特征，最终实现分类。所提出的SSAF-DCR网络的三个部分能够尽可能准确地提取特征，并在训练样本较少的情况下表现出良好的分类性能。

本发明阐述了提出SSAF-DCR网络的总体框架，如图1。该框架包括三个部分：第一部分用于对光谱特征进行有效的提取和选择，突出重要的光谱特征；第二部分是将第一部分的结果输入到一个深层网络中，以充分提取并关注对分类有很大贡献的空间特征；第三部分是设计一个DCR模块以适应未知的变化，调整感受野，进一步提取空间特征。此外，还采用了一系列优化方法来防止过拟合现象，并提高了网络的分类精度。

本发明提出方法的总体结构

本发明提出的SSAF-DCR网络总体结构图，如图1所示。受DenseNet^[24]的基本结构和光谱特征复用思想的启发，利用两个具有三个卷积层的密集块提取光谱特征和空间特征。首先，采用一个具有三层卷积的密集块来实现光谱特征的深度提取。然后，为了从大量的光谱信息中有效地选择出重要特征，引入了DANet^[25]中的通道关注机制，以过滤和选择更有效的光谱特征。在第二部分中，与第一部分类似，将包含有效光谱特征的特征图发送到空间密集块和空间注意力块中，获得有效的空间特征，并基于空间上下文相关性实现特征细化。第三部分，将前两个部分中获得的特征图进行融合。降维后，将结果输入到DCR块中，以进一步提取深层空间特征。最后，将提取的深层特征输入到全局平均池化层(GAP)、完全连接层和线性分类器中，以获得分类概率分布。在本研究中，DCR模块的设计融合了DHCNet^[26]和残差网络(ResNet)^[27]的思想。将可变形卷积层与传统卷积和残差分支相结合，生成DCR块。本节的D部分给出了采用及未采用DCR块得到的高光谱图像分类结果。可见，利用DCR块进一步提取抽象的空间特征，不仅可以更充分地提取空间特征，而且能够防止分类精度随着网络深度的增加而降低。

本发明提出的SSAF-DCR方法描述如下。

步骤四、向最优网络SSAF-DCR中输入x³进行分类结果预测。

具体实施方式二：本实施方式与具体实施方式一不同的是，所述步骤二中基于光谱空间注意力融合和可变形卷积残差网络SSAF-DCR包括：

第一输入层、第一单元、第二输出层、第六批归一化层、第一隐层Dropout、第三输入层、第二单元、第十三三维卷积、第十三批归一化层、第二隐层Dropout、第五输入层、第三单元、全局平均池化层、全连接层；

所述第一单元包括：第一三维卷积层、光谱密集块、第五批归一化层、第五PReLU激活层、第六三维卷积层、光谱注意力块；

所述光谱密集块包括：第一批归一化层、第一PReLU激活层、第二三维卷积层、第二批归一化层、第二PReLU激活层、第三三维卷积层、第三批归一化层、第三PReLU激活层、第四三维卷积层、第四批归一化层、第四PReLU激活层、第五三维卷积层；

所述光谱注意力块包括：第二输入层、第一softmax激活层、第一输出层；

所述第二单元包括：第七批归一化层、第六PReLU激活层、第七三维卷积层、空间密集块、第十二批归一化层、空间注意力块；

所述空间密集块包括：第八批归一化层、第七PReLU激活层、第八三维卷积层、第九批归一化层、第八PReLU激活层、第九三维卷积层、第十批归一化层、第九PReLU激活层、第十三维卷积层、第十一批归一化层、第十PReLU激活层、第十一三维卷积层；

所述空间注意力块包括：第四输入层、第十二三维卷积层、第二softmax激活层、第三输出层；

所述第三单元为DCR模块，DCR模块包括：第十四二维卷积层、第十四批归一化层、第一ReLU激活层、第十五二维可变形卷积层、第十五批归一化层、第二ReLU激活层、第十六二维卷积层、第十六批归一化层、第三ReLU激活层。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是，所述基于光谱空间注意力融合和可变形卷积残差网络SSAF-DCR连接关系为：

第一输入层的输出层连接第一单元中的第一三维卷积层的输入，第一三维卷积层的输出分别作为光谱密集块中的第一批归一化层的输入、第二批归一化层的输入、第三批归一化层的输入和第五批归一化层的输入；

第一批归一化层的输出连接第一PReLU激活层的输入，第一PReLU激活层的输出连接第二三维卷积层的输入，第二三维卷积层的输出分别作为第二批归一化层的输入、第三批归一化层的输入和第四批归一化层的输入；

第二批归一化层的输出连接第二PReLU激活层的输入，第二PReLU激活层的输出连接第三三维卷积层的输入，第三三维卷积层的输出分别作为第三批归一化层的输入、第四批归一化层的输入和第五批归一化层的输入；

第三批归一化层的输出连接第三PReLU激活层的输入，第三PReLU激活层的输出连接第四三维卷积层的输入，第四三维卷积层的输出分别作为第四批归一化层的输入和第五批归一化层的输入；

第四批归一化层的输出连接第四PReLU激活层的输入，第四PReLU激活层的输出连接第五三维卷积层的输入，第五三维卷积层的输出作为第五批归一化层的输入；

第五批归一化层的输出连接第五PReLU激活层的输入，第五PReLU激活层的输出连接第六三维卷积层的输入，第六三维卷积层的输出作为光谱注意力块中第二输入层的输入，对第二输入层的输出进行变形得到特征a，对特征a进行转置得到特征b，将特征a和特征b相乘得到特征c，将特征c作为第一softmax激活层的输入，将第一softmax激活层的输出特征与特征a相乘得到特征d，对特征d进行变形得到特征e，将特征e与光谱注意力块中第二输入层的输出特征相加，通过第一输出层输出；

第一输出层输出特征与第六三维卷积层的输出特征相乘得到特征f，通过第二输出层输出；

第二输出层输出特征作为第六批归一化层的输入，第六批归一化层的输出作为第一Dropout层的输入；

对第二输出层输出特征进行变形得到特征g，特征g作为第三输入层的输入，第三输入层的输出作为第二单元中的第七批归一化层的输入，第七批归一化层的输出连接第六PReLU激活层的输入，第六PReLU激活层的输出连接第七三维卷积层的输入，第七三维卷积层的输出分别作为第八批归一化层的输入、第九批归一化层的输入、第十批归一化层的输入、第十二批归一化层的输入；

第八批归一化层的输出连接第七PReLU激活层的输入，第七PReLU激活层的输出连接第八三维卷积层的输入，第八三维卷积层的输出分别作为第九批归一化层的输入、第十批归一化层的输入、第十一批归一化层的输入；

第九批归一化层的输出连接第八PReLU激活层的输入，第八PReLU激活层的输出连接第九三维卷积层的输入，第九三维卷积层的输出分别作为第十批归一化层的输入、第十一批归一化层的输入、第十二批归一化层的输入；

第十批归一化层的输出连接第十三维卷积层的输入，第十三维卷积层的输出分别作为第十一批归一化层的输入、第十二批归一化层的输入

第十一批归一化层的输出连接第九PReLU激活层的输入，第九PReLU激活层的输出连接第十一三维卷积层的输入，第十一三维卷积层的输出作为第十二批归一化层的输入；

第十二批归一化层的输出作为空间注意力块中第四输入层的输入，第四输入层的输出作为第十二三维卷积层的输入，对第十二三维卷积层的输出特征进行变形，得到特征h，对特征h进行转置得到特征i，将特征h和特征i进行相乘得到特征j，将特征j作为第二softmax激活层的输入，将第二softmax激活层的输出特征与特征h相乘得到特征k，对特征k进行变形得到特征l，将特征l与第四输入层的输出特征相加，通过第三输出层输出；

将第三输出层输出特征与第十二批归一化层的输出特征相乘得到的特征作为第十三三维卷积层的输入，第十三三维卷积层的输出作为第十三批归一化层的输入，第十三批归一化层的输出作为第二Dropout层的输入；

对第一Dropout层的输出特征和第二Dropout层的输出特征进行级联，级联结果输入第五输入层，第五输入层连接第十四二维卷积层，第十四二维卷积层连接第十四批归一化层，第十四批归一化层连接第一ReLU激活层，第一ReLU激活层连接第十五二维可变形卷积层，第十五二维可变形卷积层连接第十五批归一化层，第十五批归一化层连接第二ReLU激活层，第二ReLU激活层连接第十六二维卷积层，第十六二维卷积层连接第十六批归一化层，第十六批归一化层输出结果与第五输入层输出结果相加，相加结果输入第三ReLU激活层，第三ReLU激活层输出结果与第五输入层输出结果输入全局平均池化层，全局平均池化层连接全连接层，全连接层实现分类。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述第一三维卷积层的卷积核大小为1×1×7，卷积核个数为24；

所述第二三维卷积层、第三三维卷积层、第四三维卷积层、第五三维卷积层的卷积核大小为1×1×7，卷积核个数为12；

所述第六三维卷积层的卷积核大小为1×1×((L-6)/2)，卷积核个数为12；

所述第七三维卷积层的卷积核大小为3×3×1，卷积核个数为24；

所述第八三维卷积层、第九三维卷积层、第十三维卷积层、第十一三维卷积层的卷积核大小为3×3×1，卷积核个数为12；

所述第十二三维卷积层的卷积核大小为1×1×1，卷积核个数为7；

所述第十三三维卷积层的卷积核大小为1×1×7，卷积核个数为60；

所述第十四二维卷积层的卷积核大小为3×3，卷积核个数为128；

所述第十五二维可变形卷积层的卷积核大小为3×3，卷积核个数为128；

所述第十六二维卷积层的卷积核大小为3×3，卷积核个数为260。

所述批归一化层的特征图数量跟上一层卷积核个数相同。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是，所述步骤三中最优网络SSAF-DCR对应的调整后的最优参数为PReLU激活函数、学习率(采用采用余弦退火学习率监测机制来动态调整学习速率)、早期止损策略耐心值和概率参数(dropout层中舍弃神经元的概率参数)；

具体过程为：

基于光谱空间注意力融合和可变形卷积残差网络SSAF-DCR中第一单元的具体计算过程为：

根据公式(2)计算光谱密集块和空间密集块，初步获得有效特征；具体过程为：

光谱空间密集块

近年来，卷积神经网络的改进通常是从加深或加宽网络两个方面进行。在卷积层数加深方面，梯度消失是主要的问题。密集块不仅缓解了梯度消失的现象，而且减少了参数的数量。密集块通过在前一层和后一层之间建立密集的连接来实现特征复用。

假设图像x₀在卷积网络中传播。其中l表示层，x_l表示层的输出。传统的前馈网络将l-1层的输出x_l-1作为l层的输入，得到l层的输出x_l，可以表示为

x_l＝H_lx_l-1 (1)

对于密集块，每一层都从所有先前的层中获取额外的输入，并将其自身的特征图传递到后续的层，并通过将特征图的大小彼此直接匹配来连接所有层。可以定义为

x_l＝H_l(x₀,x₁,......,x_l-1) (2)

类似于密集块，运用在光谱域的是三维的光谱密集块，更适合于HSI的结构特征，其中当前层的输入是前一层所有输出的级联。从原始HSI数据X中选择中心像素的邻域像素p×p以生成3-D立方体集。如果目标像素在图像的边缘，则将丢失的相邻像素的值设置为零。然后，获得以标记像素(p×p×L)为中心的图像块，并将其输入到第一部分中。

具有三个卷积层的光谱密集块如图2所示。假设谱密集块包含l(l∈N^*)层，每层实现一个非线性变换H_l(·)。更具体地说，H_l(·)是批标准化(BN)^[28]、PReLU^[31]、三维卷积和dropout^[29]的复合函数。应该注意的是，由于密集块是直接跨通道实现的，因此要求在连接的不同层之前，它们的特征图的大小应该是相同的。图1详细显示了光谱和空间密集块的层数、卷积核的大小和数量。

对于光谱密集块，输入样本是从原始图像中选取的以标记像素为中心的大小为p×p×a的立方体。在该块中，使用1×1×7卷积核进行特征提取，得到其光谱特征，卷积核的个数是12。BN层和PReLU层位于卷积层之后。对于空间密集块，输入样本是从第一部分中选择的以标记的像素为中心，经过整形操作后为

的小块。其中k为卷积核大小，s为步幅。在该块中，使用3×3×1卷积核获取其空间特征。卷积核数、归一化方法、激活函数与光谱密集块相同。

这种密集连接使得光谱-空间特征和梯度的传输更加有效，网络更容易训练。每一层都可以直接利用损失函数的梯度和初始输入特征映射，这是一种隐式的深度监督，从而可以缓解梯度消失的现象。密集卷积块比传统卷积块具有更少的参数，而且它不需要重新学习冗余的特征映射。传统的前馈结构可以看作是一种层间状态传输的算法。每一层接收上一层的状态，并将新状态传递给下一层。密集块改变状态，但它也传递需要保留的信息。

基于光谱空间注意力融合和可变形卷积残差网络SSAF-DCR中第二单元的具体计算过程为：

根据公式(3)、(4)、(5)、(6)选择和过滤特征；

光谱空间注意力块及融合机制；

不同的光谱波段和空间像元对HSI分类的贡献不同。本研究采用注意力机制来强调对分类结果有显著贡献的特征，抑制不重要的信息。根据注意力机制捕获的空间维数和通道维数的特征依赖性，从而使得密集块提取的光谱和空间特征得到细化和优化，更多地关注重要特征，较少地关注不重要信息。图3和图4显示出了注意力块的原理图。在融合阶段，如图1所示，本研究设计了一种类似残差的方法，不仅可以缓解梯度消失的现象，而且可以增强光谱空间的特征表示能力，这对于像素的准确分类至关重要。

对于光谱注意块，每个高阶特征的光谱特征图都可以看作是一类特定的响应。通过挖掘光谱特征图之间的相互依赖关系，可以突出相互依赖强的特征，改善特定语义的特征表示。输入A是大小为p×p×b的特征图，其中p²为输入立方体的空间大小，b为输入通道数。X是直接从原特征图A计算得到的光谱注意图R^b×b，光谱注意图可表示为

其中x_ji衡量第i个光谱特征对第j个光谱特征的影响。输出的计算公式为

β表示比例系数，初始化为0，并逐渐学习分配更大的权重。每个光谱通道的特征E是所有光谱通道特征和原始光谱特征的加权和。

对于空间注意块，通过建立丰富的局部空间特征的上下文关系，将更广泛的上下文信息编码到局部空间特征中，从而提高其表达能力。输入F∈R^h×h×c，其中h为

c为输入通道数。S是由原始空间特征图F计算出的空间注意图R^{(h×h)×(h×h)}。空间注意图和输出的计算公式与光谱注意块的计算公式相似，分别如公式(5)和(6)。

基于光谱空间注意力融合和可变形卷积残差网络SSAF-DCR中第三单元的具体计算过程为：

根据公式(8)和(9)进一步提取空间特征；

高级空间特征提取策略；

CNN通常被认为是一种通过层叠自动学习高级特征的有效方法。然而，高光谱图像中通常存在大量的混合像元，传统的卷积核通常具有固定的大小，这种卷积核的一个严重问题是对未知变化的适应性差，泛化能力弱。因此，仅通过常规卷积很难充分提取高光谱图像的特征。为了解决上述问题，并确保分类精度不随网络的加深而下降，提出了一种DCR块。图5是可变形卷积的实现过程。首先，通过一个传统卷积层获得特征图；然后将得到的结果输入到另一个卷积层中获得偏差特征，分别对应于原始输出特征和偏移特征。输出偏差大小与输入特征映射大小一致。生成的通道维数为2N，即卷积核数的两倍。原始输出特征和偏移特征通过双线性插值反向传播算法同时学习。传统卷积运算的形状是规则的，如下所示

其中，p₀是输出特征图上的像素，p_n是枚举卷积核中的位置。可变形卷积的公式可以改写为

在公式(7)和(8)中，将偏移量Δp_n直接添加到原始位置，w、x和y分别表示权重、输入特征图和输出特征图。原始三层残差块和提出的DCR块的示意图如图6a、图6b所示。将残差学习引入我们的研究，使得深度网络结构具有良好的泛化性能。本研究在两个地方使用残差学习，一个是在DCR块中，另一个是在DCR块前后。这样可以解决由于深度增加而导致的梯度弥散问题，使网络更易于优化。该残留块分为两部分：1)直接映射部分；2)剩余部分。剩余部分可以表示为

x_l+1＝h(x_l)+F(x_l,W_l) (9)

由于x_l和x_l+1的特征图数量相同，因此h(x_l)为恒等映射，即h(x_l)＝x_l；F(x_l,W_l)为残差部分，由两个常规卷积层、一个可变形卷积层、BN层和ReLU^[30]层组成，即图6(b)中左侧的有卷积的部分。此外，还比较了使用DCR块前后每个数据集的分类精度，见表2。由表2可知，采用DCR块后，IN和UP数据集的总体精度(OA)提高了1％，甚至KSC和SV数据集的整体精度提高了2％以上。

表1 DCR模块残差部分的参数设置

表2 DCR模块的效果分析(OA％)

模型优化策略

为了加快训练速度、提高分类精度和防止过拟合，采用激活函数PReLU^[31]、BN、dropout、余弦退火学习率监测机制来优化模型。

1)激活函数PReLU

PReLU是ReLU的改进和推广，它是指带有参数的ReLU。PReLU可以表示为

x_i是第i个通道中非线性激活函数的输入，a_i是激活函数在负方向上的斜率。对于每个通道，都有一个可学习的参数来控制斜率。更新参数a_i时，采用动量法，即

这里，μ是动量系数，lr是学习率。在更新中不使用权重衰减，因为它将使a_i趋于零。此外，初始时刻的a_i均等于0.25。Mish^[32]的公式如下

Mish＝x*tanh(ln(1+e^x)) (12)

其中x表示激活的输入。此外，与ReLU相比，Mish具有更平滑的梯度。图7显示了使用Mish或PReLU对每个数据集的总体分类精度的比较结果。从图7可以看出，使用PReLU激活函数的三个数据集，总体精度均高于使用Mish作为激活函数的数据集。因此，本研究最终采用PReLU激活函数。

2)余弦退火学习率监测机制

学习率是深度神经网络最重要的超参数之一，它控制着权重更新的速度。在训练开始时，高lr是快速接近最优值，但如果后来它不减少，它很可能更新超过最优值的点或在最优点附近振荡。因此，调整lr是在保证准确性的前提下使算法更快的方法。这里采用余弦退火学习率监测机制来动态调整学习速率，可表示为

其中，η_t是获得的新学习率，η_max是初始学习率，η_min表示可以设置的最小学习率，T_cur表示当前迭代次数，T_max表示最大迭代次数，本发明中的最大迭代次数T_max＝10。

3)其他优化方法

BN在深度神经网络训练中得到了广泛的应用；它不仅可以加快模型的收敛速度，更重要的是可以缓解深度网络中特征分布分散的问题。在前向传播过程中，dropout使某一神经元的激活值以一定的概率停止工作，因为它不太依赖于特定的局部特征，使模型更具一般性。dropout层^[33]加在空间注意力块和光谱注意力块之后，其中舍弃神经元的概率参数p＝0.5。早期止损策略使用验证损失来估计止损标准。上限设置为200个epoch。如果验证集中的损失不再下降20个epoch，那么我们将终止训练阶段。最后，将上一次迭代的结果中的参数作为模型的最终参数。

其它步骤及参数与具体实施方式一至四之一相同。

采用以下实施例验证本发明的有益效果：

数据集

本发明利用印度松树(IN)、帕维亚大学(UP)、肯尼迪航天中心(KSC)和萨利纳斯山谷(SV)四个经典HSI数据集验证了该方法的有效性。

IN数据集是由印第安纳州的AVIRIS传感器获得的。该数据大小为145×145，共224个波段，其中有效波段200个，共有16种作物种类；UP数据集由ROSIS传感器获取，常用于高光谱图像分类。该传感器共有115个波段。经过处理，帕维亚大学的面积为610×340,103个波段，共9个地物；KSC数据集于1996年3月23日被位于佛罗里达州肯尼迪航天中心的AVIRIS传感器捕获。该数据大小为512×614，去除水汽噪声后仍保留176个波段，空间分辨率为18米，共13个类别；SV数据集是由加利福尼亚萨利纳斯山谷的AVIRIS传感器拍摄的。该数据的空间分辨率为3.7米，大小为512×217。原始数据为224个波段，去除噪声后仍保留204个波段，共包含16个作物类别。

本发明随机选择IN数据集的3％样本作为训练集，其余97％作为测试集。随机选择0.5％的UP样本作为训练集，其余99.5％作为测试集。SV的训练集和测试集的选择比例与UP的选择比例相同。对于KSC，我们选择了5％的样本用于训练，而95％的样本用于测试。每个数据集的批处理大小为32。众所周知，训练样本越多，准确性越高。在下一部分中，验证了本发明提出的方法在最少训练样本的情况下也表现出了出色的性能。

实验设置与结果

实验硬件平台为Intel(R)Core(TM)i9-9900K CPU、NVIDIA GeForce RTX 2080 TiGPU、32G内存的服务器。实验软件平台基于windows10 Vscode操作系统，采用CUDA10.0、Pytorch1.2.0和Python3.7.4。所有的实验均采用不同的随机选取的训练数据重复十次，并给出平均结果。优化器设置为Adam，学习率为0.0003。本发明选择总体准确度(OA)、平均准确度(AA)和kappa系数(kappa)作为分类评价指标。式中，OA表示正确分类的样本数与样本总数的比率。AA表示每个类别的分类精度。Kappa系数衡量的是结果与地面真实图的一致性。

本发明将提出的方法与当前最新的基于CNN的高光谱图像分类方法，即SVM-RBF^[34]、CDCNN^[35]、SSRN^[36]、FDSSC^[37]、DHCNet^[32]、DBMA^[38]和DBDA^[23]，进行了性能比较。其中SVM-RBF是通过Sklearn实现的。DHCNet的实现采用TensorFlow深度学习框架。其他方法用PyTorch运行。除了SVM-RBF外，CDCNN和SSRN的输入大小分别为5×5和7×7，其他最新方法的输入立方体大小与我们的方法相同。

所有方法在四个数据集上选取的训练样本都是分别相同的。表3-表6列出了所有方法在IN、UP、KSC和SV数据集上得到的各类精度。表中的结果均是十个实验的平均结果。可以观察到，提出的SSAF-DCR方法提供了最好的OA，AA和kappa值，与其它参考方法相比分类精度有显著的提高。在表3中，提出方法在IN数据集上的OA值达到96.36％，比SVM-RBF、CDCNN、SSRN、FDSSC、DHCNet、DBMA和DBDA方法分别提高18.78％、34.16％、3.04％、1.57％、1.17％、6.58％、1.98％和1.04％。SVM-RBF方法没有利用空间上下文信息，故OA值为77.58％。然而，由于网络结构的鲁棒性较差，CDCNN在OA值上比SVM-RBF差15％以上。FDSSC方法使用了密集连接，因此其OA值优于使用残差连接的SSRN方法1.47％。DBMA从两个分支和多注意机制中提取特征，但由于训练样本太少导致严重的过拟合，其结果仍低于FDSSC。DHCNet引入了可变形卷积和可变形下采样，充分考虑了空间上下文信息的依赖性，其OA值比FDSSC高0.4％，AA值比FDSSC高2％以上。双分支双注意的DBDA网络具有相对灵活的特征提取结构，其OA值高于上述网络。由于SSAF-DCR引入了DCR块来进一步提取空间信息，故在性能OA值上SSAF-DCR比DBDA高出1.04％。对于表4-表6中其他三个HSI数据集来说，DBMA的OA值均低于DHCNet、DBDA和提出的SSAF-DCR方法，其他方法的分类结果与表3相似。为进一步验证SSAF-DCR网络的性能，本发明给出了不同方法在四个数据集上的分类图，如图8-11所示。可以看出，SSAF-DCR网络的分类图噪声较小，且对象边界清晰。与其他方法相比，SSAF-DCR网络在四个数据集上的分类图与地面真值图最为接近。以上实验证明了所提出的SSAF-DCR网络的有效性。

表3提出方法与先进方法在3％训练样本的IN数据集上的OA、AA和Kappa值对比

表4提出方法与先进方法在0.5％训练样本的UP数据集上的OA、AA和Kappa值对比

表5提出方法与先进方法在5％训练样本的KSC数据集上的OA、AA和Kappa值对比

表6提出方法与先进方法在0.5％训练样本的SV数据集上的OA、AA和Kappa值对比

注意力块融合策略的效率分析

特征融合的目的是将从图像中提取到的特征进行融合，得到比输入特征更具鉴别能力的特征。根据融合和预测的先后顺序，将特征融合分为早期融合和晚期融合。早期融合是一种常用的经典特征融合方法，即在现有的网络(如内-外网(ION)^[40]或HyperNet^[41])中，采用级联^[42]或加法运算来融合某些层。本研究设计的类残差特征融合策略是一种早期融合策略，它直接连接两个光谱和空间尺度特征。两个输入特征的尺寸相同，输出特征的尺寸是两个维数的总和。表7显示了采用或未采用融合策略的效果分析。结果表明，与未采用特征融合策略相比，特征融合后对高光谱图像分类的效果得到了明显改善。

表7注意块融合策略的有效性分析(OA％)

参数分析：分析了不同的图像空间块大小及不同训练样本数量对分类性能的影响。

目标光谱像元与其周围的空间邻域通常属于同一类别。因此，输入立方体的空间大小对分类性能有很大的影响。如果输入立方体的空间大小过小，用于特征提取的接收域就会不足，导致信息丢失，降低分类能力；如果过大，则无法有效提取局部空间特征，计算成本和内存需求将大幅增加。图12显示了四个数据集在输入不同空间大小下的OA值，从5×5到9×9，间隔为2。从图12中可以看出，随着输入立方体空间大小的增大，IN、UP、KSC三个数据集的OA值在7×7达到最大值后开始下降，分别为96.36％、97.42％、98.41％。对于SV数据集，OA值随着输入立方体空间大小的增加而增加。通过对四组数据集的实验结果分析，7×7的输入空间大小可以得到最好的性能，因此本发明使用7×7作为输入立方体的空间大小。

图13a、13b、13c、13d给出了所有方法在四个数据集上采用不同比例的训练样本获得的分类结果。具体而言，从标记样本中随机选择IN和KSC数据集各类别的1％，5％，10％，15％和20％的训练样本，以及从UP和SV数据集中随机选择各类别的0.5％，5％，10％，15％，20％的训练样本。从图13a、13b、13c、13d可以看出，在最小训练样本的情况下，提出的SSAF-DCR方法在四个数据集上得到的OA值均为最高。随着训练比例的增加，所有方法的OA值都有不同程度的改进，不同模型之间的性能差异也有所减少，但提出方法的OA值依然最高。总体来看，与其他方法相比，基于3D-CNN的模型(包括SSRN，FDSSC，DBMA，DBDA和提出模型)显示出更好的性能。其中，所提出的SSAF-DCR方法在不同的训练样本比率下始终具有最佳的OA值。因此，在有限样本的高光谱数据集上进行训练时，提出方法具有较强的泛化能力。

图14a、14b、14c、14d显示了提出的SSAF-DCR方法在IN、UP、KSC和SV数据集上得到的混淆矩阵。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

参考文献

[1]C.I.Chang,Hyperspectral Data Exploitation:Theory andApplications.Hoboken,NJ,USA:Wiley,2007.

[2]N.K.Patel,C.Patnaik,Sujay Dutta,A M Shekh and A.J.Dave,“Studyofcrop growth parametersusingairborneimaging spectrometer data,”InternationalJournal of Remote Sensing,vol.22,no.12,pp.2401–2411,Aug.2001.

[3]A.Goetz,G.Vane,J.Solomon,andB.Rock,“Imaging spectrometry for earthremotesensing,”science,vol.228,no.4704,pp.1147–1153,1985.

[4]Civco D L,“Artificial neural networks for land-coverclassification and mapping,”International Journal of Geographical InformationSystems,vol.7,no.2,pp.173–186,Feb.2007.

[5]P.Ghamisi,J.A.Benediktsson,and M.O.Ulfarsson,“Spectral-spatialclassification of hyperspectral images based on hidden Markov random fields,”IEEE Trans.Geosci.Remote Sens.,vol.52,no.5,pp.2565–2574,May.2014.

[6]R.A.Farrugia and C.J.Debono,“A robust error detection mechanismfor h.264/avc coded video sequences based on support vector machines,”in IEEETransactions on Circuits and Systems for Video Technology,vol.18,no.12,pp.1766–1770,Dec.2008.

[7]P.Zhong,R.Wang,“Jointly learning the hybrid crf and mlr model forsimultaneous denoising and classification of hyperspectral imagery,”IEEETrans.Neural Netw.Learn.Syst.,vol.25,no.7,pp.1319–1334,Jul.2014.

[8]L.Fang,S.Li,X.Kang,and J.A.Benediktsson,“Spectral-spatialclassification of hyper-spectral images with a superpixel-baseddiscriminative sparse model,”IEEE Trans.Geosci.Remote Sens.,vol.53,no.8,pp.4186–4201,Aug.2015.

[9]W.Fu,S.Li,and L.Fang,“Spectral-spatial hyperspectral imageclassification via superpixel merging and sparse representation,”in Proc.IEEEInt.Geosci.Remote Sens.Symp.(IGARSS),2015,pp.4971–4974.

[10]L.Fang,S.Li,W.Duan,J.Ren,and J.A.Benediktsson,“Classifificationof hyperspectral images by exploiting spectral-spatial information ofsuperpixel via multiple Kernels,”IEEE Trans.Geosci.Remote Sens.,vol.53,no.12,pp.6663–6674,Dec.2015.

[11]Y.Chen,H.Jiang,C.Li,X.Jia,and P.Ghamisi,“Deep feature extractionand classifification of hyperspectral images based on convolutional neuralnetworks,”IEEE Trans.Geosci.Remote Sens.,vol.54,no.10,pp.6232–6251,Oct.2016.

[12]J.Feng,J.Chen,L.Liu,X.Cao,X.Zhang,L.Jiao,and T.Yu,“CNN-basedmultilayer spatial-spectral feature fusion and sample augmentation with localand nonlocal constraints for hyperspectral image classification,”IEEEJ.Sel.Topics Appl.Earth Observ.Remote Sens.,vol.12,no.4,pp.1299–1313,Apr.2019.

[13]J.Yang,Y.-Q.Zhao,and J.C.-W.Chan,“Learning and transferring deepjointspectral-spatial features for hyperspectral classifification,”IEEETrans.Geosci.Remote Sens.,vol.55,no.8,pp.4729–4742,Aug.2017.

[14]G.Camps-Valls,L.Gomez-Chova,J.

-Marí,J.Vila-Francés,andJ.Calpe-Maravilla,“Composite kernels for hyperspectral image classification,”IEEE Geosci.Remote Sens.Lett.,vol.3,no.1,pp.93–97,Jan.2006.

[15]DuanWH，LiST，FangLY,“Superpixel-basedcomposite kernel for hyperspectralimageclassification,”in IGARSS,2015,pp.1698–1701.

[16]B.Zhang,S.Li,X.Jia,L.Gao and M.Peng,“AdaptiveMarkov random fieldapproach for classificationof hyperspectralimagery,”IEEE Geosci.RemoteSens.Lett.,vol.8,no.5,pp.973–977,Sep.2011.

[17]R.Li,S.Zheng,C.Duan,Y.Yang and X.Wang,“Classification ofHyperspectral Image Based on Double-Branch Dual-Attention Mechanism Network,”Remote Sens.,vol.12,no.3,pp.582,Feb.2020.

[18]S.Sabour,N.Frosst,and G.E.Hinton,“Dynamic routing betweencapsules,”in Proc.Adv.Neural Inf.Process.Syst.,2017,pp.3859–3869.

[19]Zhao W Z，Du S H.“Spectral-spatial feature extraction forhyperspectral image classification:a dimension reduction and deep learningapproach,”IEEE Trans.Geosci.Remote Sens.,vol.54,no.8,pp.4544–4554,Aug.2016.

[20]W.Song,S.Li,L.Fang,and T.Lu,“Hyperspectral image classifificationwith deep feature fusion network,”IEEE Trans.Geosci.Remote Sens.,vol.56,no.6,pp.3173–3184,Jun.2018.

[21]L.Fang,N.He,S.Li,A.J.Plaza and J.Plaza,“A New Spatial-SpectralFeature Extraction Method for Hyperspectral Images Using Local CovarianceMatrix Representation,”IEEE Trans.Geosci.Remote Sens.,vol.56,no.6,pp.3534–3546,Jun.2018.

[22]S.K.Roy,G.Krishna,S.R.Dubey,and B.B.Chaudhuri,“HybridSN:Exploring3-D–2-D CNN feature hierarchy for hyperspectral image classification,”IEEEGeosci.Remote Sens.Lett.,vol.17,no.2,pp.277–281,Feb.2020.

[23]B.Zhang,L.Zhao and X.Zhang,“Three-dimensional convolutionalneural network model for tree species classification using airbornehyperspectral images,”Remote Sensing of Environment,vol.247,Jun.2020.

[24]G.Huang,Z.Liu,L.Van Der Maaten and K.Q.Weinberger,“DenselyConnected Convolutional Networks,”in Proc.IEEE Conf.Comput.Vis.PatternRecognit.,2017,pp.2261–2269.

[25]J.Fu,J.Liu,H.Tian,Y.Li,Y.Bao,Z.Fang and H.Lu,“Dual attentionnetwork for scene segmentation,”in Proc.IEEE Conf.Comput.Vis.PatternRecognit.,2019,pp.3146–3149.

[26]J.Zhu,L.Fang and P.Ghamisi,“Deformable convolutional neuralnetworks for hyperspectral image classifification,”IEEE Geosci.RemoteSens.Lett.,vol.15,no.8,pp.1254–1258,Aug.2018.

[27]K.He,X.Zhang,S.Ren and J.Sun,“Deep residual learning for imagerecognition,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.,2016,pp.770–778.

[28]S.Ioffe and C.Szegedy,“Batch normalization:accelerating deepnetwork training by reducing internal covariate shift,”in Proc.32ndInt.Conf.Int.Mach.Learn.,2015,pp.1–11.

[29]A.Krizhevsky,I.Sutskever and G.Hinton,“ImageNet classifificationwith deep convolutional neural networks,”in Proc.Neural Inf.Process.Syst.,2012,pp.1097–1105.

[30]V.Nair and G.E.Hinton,“Rectifified linear units improverestricted Boltzmann machines,”in Proc.27th Int.Conf.Mach.Learn.(ICML),2010,pp.807–814.

[31]K.He,X.Zhang,S.Ren,and J.Sun,“Delving deep into rectififiers:Surpassing human-level performance on ImageNet classifification,”in Proc.IEEEInt.Conf.Comput.Vision,2015,pp.1026–1034.

[32]D.Misra,“Mish:A Self Regularized Non-Monotonic Neural ActivationFunction,”.arXiv preprint arXiv:1908.08681,2019.

[33]N.Srivastava,G.Hinton,A.Krizhevsky,I.Sutskever,R.Salakhutdinov,“Dropout:A simple way to prevent neural networks from overfitting,”J.Mach.Learn.Res.,no.15,pp.1929–1958,Jun.2014.

[34]F.Melgani and L.Bruzzone,"Classification of hyperspectral remotesensing images with support vector machines,"IEEE Trans.Geosci.Remote Sens.,vol.42,no.8,pp.1778–1790,Aug.2004.

[35]H.Lee and H.Kwon,“Going deeper with contextual CNN forhyperspectral image classifification,”IEEE Trans.Image Process.,vol.26,no.10,pp.4843–4855,Oct.2017.

[36]Z.Zhong,J.Li,Z.Luo and M.Chapman,“Spectral-spatial residualnetwork for hyperspectral image classifification:A 3-D deeplearningframework,”IEEE Trans.Geosci.Remote Sens.,vol.56,no.2,pp.847–858,Feb.2018.

[37]W.Wang,S.Dou,Z.Jiang and L.Sun,“A Fast Dense Spectral-SpatialConvolution Network Framework for Hyperspectral Images Classification,”RemoteSens.vol.10,no.7,Jul.2018.

[38]W.Ma,Q.Yang,Y.Wu,W.Zhao and X.Zhang,“Double-Branch Multi-Attention Mechanism Network for Hyperspectral Image Classification,”RemoteSens.vol.11,no.11,pp.1307,Jun.2019

[40]S.Bell,C.L.Zitnick,K.Bala and R.Girshick,“Inside-Outside Net:Detecting Objects in Context with Skip Pooling and Recurrent NeuralNetworks,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.,2016,pp.2874–2883.

[41]T.Kong,A.Yao,Y.Chen and F.Sun,“HyperNet:Towards Accurate RegionProposal Generation and Joint Object Detection,”in Proc.IEEEConf.Comput.Vis.Pattern Recognit.,2016,pp.845–853.

[42]C.Liu and H.Wechsler,“A shape and texture-based enhancedFisherclassifier for face recognition,”IEEE Trans.Image Process.,vol.10,no.4,pp.598–608,Apr.2001.

Claims

1.基于光谱空间注意力融合和可变形卷积残差网络的高光谱图像分类方法，其特征在于：所述方法具体过程为：

Y包括Y₁、Y₂、Y₃；Y₁是x¹的对应标签向量数据，Y₂是x³的对应标签向量数据，Y₃是x³的对应标签向量数据；

步骤四、向最优网络SSAF-DCR中输入x³进行分类结果预测。

2.根据权利要求1所述基于光谱空间注意力融合和可变形卷积残差网络的高光谱图像分类方法，其特征在于：所述步骤二中基于光谱空间注意力融合和可变形卷积残差网络SSAF-DCR包括：

3.根据权利要求2所述基于光谱空间注意力融合和可变形卷积残差网络的高光谱图像分类方法，其特征在于：所述基于光谱空间注意力融合和可变形卷积残差网络SSAF-DCR连接关系为：

4.根据权利要求3所述基于光谱空间注意力融合和可变形卷积残差网络的高光谱图像分类方法，其特征在于：所述第一三维卷积层的卷积核大小为1×1×7，卷积核个数为24；

5.根据权利要求4所述基于光谱空间注意力融合和可变形卷积残差网络的高光谱图像分类方法，其特征在于：所述步骤三中最优网络SSAF-DCR对应的调整后的最优参数为PReLU激活函数、学习率、早期止损策略耐心值和概率参数。