CN113011499B

CN113011499B - 一种基于双注意力机制的高光谱遥感图像分类方法

Info

Publication number: CN113011499B
Application number: CN202110301578.0A
Authority: CN
Inventors: 赵晋陵; 胡磊; 黄林生; 梁栋; 徐超; 黄文江; 翁士状; 张东彦; 郑玲
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2022-02-01
Anticipated expiration: 2041-03-22
Also published as: CN113011499A

Abstract

本发明涉及一种基于双注意力机制的高光谱遥感图像分类方法，与现有技术相比解决了高光谱遥感影像训练样本有限及分类精度不理想的缺陷。本发明包括以下步骤：训练样本的获取；堆栈自编码器的构建和训练；构建混合密集网络；混合密集网络的训练；待分类样本的获取和降维处理；高光谱遥感图像分类结果的获得。本发明在训练样本量更少的情况下，也能得到较理想的高光谱遥感影像分类结果。

Description

一种基于双注意力机制的高光谱遥感图像分类方法

技术领域

本发明涉及高光谱遥感图像技术领域，具体来说是一种基于双注意力机制的高光谱遥感图像分类方法。

背景技术

高光谱遥感影像在光谱和空间维度上都富含丰富的信息，并且已经在环境科学、农业、土地覆盖制图等方面得到了广泛的应用。高光谱图像包含几十甚至几百个连续的光谱波段，标注费时费力，且可用的训练样本数量通常有限。因此由于高光谱“小样本问题”，实现对高光谱影像高精度的分类仍然是一项具有挑战性的任务。

高光谱影像各相邻波段之间存在大量冗余信息，在后续进行分类时会造成存储和计算效率的下降。针对这一问题，在输入分类器之前对高光谱遥感影像进行特征提取，以减少高光谱遥感数据的维数，提升运算效率，同时保留影响分类精度的大部分区别性特征。常用的的线性特征提取方法有Principal Component Analysis(PCA)、Linear DiscriminantAnalysis(LDA)、Independent Component Analysis(ICA)等。

然而传统的降维方法并不能很好的解决高光谱遥感影像存在的非线性问题，并且无法提取更深层次的特征。Stacked Auto-encoder(SAE)经过逐层对权重和偏差参数的训练，将不断学习到的深层特征存储于隐藏层中，可以最大限度的减少信息损失，能够处理更复杂的数据。另外，由于高光谱图像具有的高维性、高度非线性和小样本等特点，要求分类器具有提取和处理深度抽象特征的能力。而传统的分类方法，例如Support VectorMachine(SVM)、Extreme Learning Machine(ELM)、Random forests(RF)等，在缺少深度层次特征的支持下，往往难以取得理想的分类效果。

近年来，由于卷积神经网络强大的自动提取特征的能力，基于深度学习的图像分类方法得到了研究人员的青睐。高光谱图像分类作为遥感领域的研究热点之一，很多研究人员通过搭建卷积神经网络框架，从高光谱遥感图像中自动学习抽象特征，以至于不断创新提高高光谱图像分类精度的理想解决方案。Chen等人首次提出了一种联合空间和光谱特征的深度学习框架，该框架采用堆叠自编码器和深度置信网络作为特征提取器，来获取深层特征以获得更好的分类结果，展示了深度学习在准确分类高光谱数据上的巨大潜力。Zhao等人提出了一种基于光谱-空间特征的分类(SSFC)框架，使用了平衡局部判别嵌入(BLDE)算法与2D-CNN网络分别对降维后的高光谱影像提取光谱和空间信息，叠加后输入分类器中实现分类，一定程度上提高了分类精度。高光谱遥感影像是具有丰富光谱和空间特征的3D数据，根据该特征，Li等人提出了一种三维卷积神经网络(3DCNN)框架，用于精确的HSI分类，相比于2DCNN，3DCNN更能有效的同步提取出原始高光谱影像中深层的空谱融合特征，充分发挥三维高光谱图像的优势。Swalpa等人设计了一种三维二维结合的混合神经网络(HybridSN)，与单独使用3DCNN相比，混合神经网络降低了模型的复杂性，并通过实验验证了混合卷积网络在高光谱分类的潜力。与浅层网络相比，深层网络结构提取的特征更加抽象，分类结果也可以越好。

但随着网络结构的不断加深，梯度在反向传播的过程中会出现弥散或者爆炸等现象，产生网络退化问题。因此，为了解决这些问题，研究人员采用ResNet与DenseNet等网络连接方式，减轻了训练更深网络的难度，缓解了梯度消失问题，提高了分类精度。Zhong等人提出了一种基于3DCNN的端到端空谱残差网络(SSRN)，分别设计了光谱与空间残差模块学习空谱判别特征，缓解了其他深度学习模型精度下降的现象，进一步改善了模型的分类性能。Wang等人将DenseNet引入到他们所提出的快速密集空谱卷积神经网络框架中(FDSSC)，使用多尺度卷积核提取空谱特征，减少了训练时间并提高了分类精度。

SSRN和FDSSC两种方法都是先提取光谱特征，然后再提取空间特征，虽然这两种方法有着较好地分类效果，但由于光谱特征和空间特征属于不同的领域，在提取空间特征过程中光谱特征可能会被破坏。另外，针对基于有限样本的高光谱遥感影像分类问题，Feng等人在混合神经网络HybridSN基础上，引入了残差学习模块及深度可分离卷积，构建了R-HybridSN，在训练样本较少的情况下，利用深度和高效的网络结构，也能得到令人满意的分类效果。但是，由于R-HybridSN中的浅层特征没有被重用，因此可以进一步优化R-HybridSN的网络结构。

作为人类感知中最重要的一部分，注意力机制被引入到卷积神经网络中，使模型能够选择性地筛选出对当前任务目标更关键的特征，忽略一些对分类没有帮助的特征。Fang等人基于DenseNet和光谱注意力机制，提出了一种具有单向注意力机制的端到端三维密集卷积网络(MSDN-SA)用于高光谱图像分类，该网络框架增强了光谱特征的可区分性，在三个数据集上表现良好。然而，它只考虑了光谱方向的注意力，没有考虑空间方向的注意力。受人类视觉系统注意力机制的启发，Mei等人基于ARNN和ACNN，建立了双通道注意力空谱网络，分别在光谱维度和空间维度上训练网络，以提取更高级的空谱联合特征。孙等人提出了一种光谱-空间注意力网络(SSAN)，该网络通过建立一个简单的光谱空间网络(SSN)，并引入注意力模块来抑制干扰像素影响，从而提取具有贡献度大的区别性空谱特征。同样，该方法可能会产生与SSRN、FDSSC同样的问题。

发明内容

本发明的目的是为了解决现有技术中高光谱遥感影像训练样本有限及分类精度不理想的缺陷，提供一种基于双注意力机制的高光谱遥感图像分类方法来解决上述问题。

为了实现上述目的，本发明的技术方案如下：

一种基于双注意力机制的高光谱遥感图像分类方法，包括以下步骤：

训练样本的获取：获取待训练的高光谱影像并进行预处理；

堆栈自编码器的构建和训练：对堆栈自编码器进行构建设定，然后将预处理后的高光谱影像输入堆栈自编码器中进行训练，得到训练完成的堆栈自编码器模型和降维处理后的待训练高光谱影像；

构建混合密集网络：以3D卷积神经网络模型与2D卷积神经网络模型为基础，建立具有两个特征提取分支联合的混合密集网络；

混合密集网络的训练：将待训练的高光谱影像输入混合密集网络，并引入空间注意力及通道注意力，对待训练的高光谱图像中的空谱特征进行选择性训练；

待分类样本的获取和降维处理：获取待分类的高光谱影像并进行预处理，再送入训练后的堆栈自编码器进行降维处理；

高光谱遥感图像分类结果的获得：将降维处理后的高光谱影像输入训练后的混合密集网络，得到高光谱遥感图像分类结果。

所述训练样本的获取包括以下步骤：

从每类地物类别样本中按比例获取高光谱图像数据样本D及标签L，作为待训练样本，样本数据维度为三维，数据尺寸为(W,H,M),标签尺寸为(W,H)，其中，W、H、M分别表示高光谱遥感数据的宽度、高度、光谱维度；

将待训练样本数据G转化为二维矩阵，其数据尺寸为(W×H,M)，其每一行代表一个样本所包含的光谱信息，每列代表不同的光谱维度，标签数据L尺寸大小转化为(W×H，1)一维向量；然后采用归一化操作，将训练样本数据范围放缩至(0，1)区间，加快训练过程，其归一化公式如下所示：

其中，

表示输入的二维向量矩阵中的第t列第k个类别样本，

表示第t列对应的所有类别样本的像素平均值，

表示第t列对应的所有地物的像素标准差值，

表示归一化后输出的二维特征矩阵中第t列第i个地物目标。

所述堆栈自编码器的构建和训练包括以下步骤：

通过堆叠单层的自编码器建立堆栈自编码器：

将单层的基本自编码器网络结构按输入层和隐藏层逐层串联堆叠在一起构成一个堆栈自编码器，

其中，堆栈自编码器的编码部分主要由1个输入层、4个编码隐藏层组成，解码部分主要由4个解码隐藏层、1个输出层组成，在编码和解码部分使用Tanh非线性激活函数，在堆栈自编码器的输出层使用Sigmoid非线性激活函数，以保证输出层与输入层[0,1]数值范围相等，Tanh激活函数公式如下：

其中，j＝{0,1，...，9}为堆栈自编码器层数，e为自然对数函数的底数，为常数；x_j为第j层激活函数的输入数据，f(x_j)为第j层自编器经Tanh激活函数处理后的输出数据；

Sigmoid激活函数公式如下：

其中，x_k为解码器最后一层的输出数据，f(x_k)为经Sigmoid激活函数处理后的输出数据，e为自然对数函数的底数，为常数；设定采用Adam优化算法训练网络参数，并使用均方根误差作为衡量重建数据及真实数据的偏差指标，其计算公式如下：

其中，∑为求和操作，

为开根号操作，Y_RMSE为均方误差的算术平方根值，

为输入数据真实标签分布，

为自编码模型的预测值，上标l为样本中类别的总个数，用于指明相对应真实值与预测值在进行损失计算，N为每一批次的总样本数；

将待训练的高光谱数据输入堆栈编码器中得到映射到隐藏层，并且能代表输入数据的核心特征，完成堆栈自编码器的编码过程，编码过程的表达式如下：

h＝f(W_hx+b_h)，

其中，x为输入数据，h表示中间隐藏层学习到的特征，W_h代表输入层与隐藏层之间的权重矩阵，b_h表示隐藏单元的偏移系数，f代表编码激活函数，通常使用非线性激活函数；

将得到的核心特征输入到堆栈解码器中，核心特征被解压并重构，得到一个与输入数据相近的输出数据，完成堆栈编码器的解码过程，解码过程由下列等式表示：

z＝f′(W_zh+b_z)，

其中，h表示中间隐藏层学习到的特征，z为通过隐藏特征h重建后的数据，W_z代表隐藏层输出的权重，b_z表示输出单元的偏移系数，f代表激活函数；

将待训练的高光谱数据及地物标签输入到堆栈编码器后，采用无监督方式训练第一层自动编码器，把第一层自动编码器的输出作为第二层自动编码器的输入，采用同样的训练方法训练第二层自动编码器，以此类推，逐层完成训练所有的自动编码器，得到训练好的堆栈自编码器神经网络模型，并输出降维处理后的待训练高光谱影像。

所述构建混合密集网络包括以下步骤：

搭建3D卷积神经网络模型，并引入密集连接，创建3D密集网络学习模块，基本密集模块单元的计算公式如下：

X_l＝H_l[X₀,X₁,...,X_l-1]，l∈N⁺

其中，H_l表示第l层的隐藏层，X₀,X₁,...,X_l-1表示先前密集模块生成的特征图，X_l表示经过第l层隐藏层的输出；若每个隐藏层生成t个通道的特征图，则第l层将具有m+t×(l-1)个输入特征图，其中m为输入层的通道数；

首先，采用卷积核大小为a×a×a，通道数为n的3D卷积对输入数据进行空谱特征提取，随后将得到的特征输入到3D密集网络模块中进行更深层次的学习；

3D密集网络模块由三个3D卷积快速连接，其中(w×w×d,n)为输入的高光谱遥感数据尺寸，其中w×w×d分别表示宽度、高度、光谱维度；

设X₀、X₁、X₂分别表示第1层至第3层经3D卷积处理后的输出数据向量，卷积核大小采用a×a×a，每层统一使用m个通道数，并使用边界填充策略不改变输入的高光谱数据尺寸，每一层都与前面层和后面层concatenate连接，从而构建更深的网络结构；

搭建2D卷积神经网络模型，引入密集连接创建2D密集网络学习模块；

首先，采用卷积核大小为a×a，通道数为n的2D卷积对输入数据进行空间特征提取，然后将得到的特征输入到2D密集网络模块中进行进一步的学习；

2D密集网络模块为三个2D卷积的快速连接，其中(w×w,n)为输入的高光谱遥感数据尺寸，其中w×w分别表示宽度、高度；

设X₀′、X₁′、X₂′分别表示第1层至第3层经2D卷积处理后的输出数据向量，卷积核大小采用a×a，每层统一使用m个通道数，并使用边界填充策略不改变输入的高光谱数据尺寸，每一层都与前面层和后面层concatenate连接；

混合密集网络模块在每个卷积层使用修正线性单元ReLU激活函数，其数学表达式如下：

ReLU为分段线性函数，将输入数据x与数值0相比，输出最大值，即把所有的负值全都变为0，同时正值保持不变；

混合密集网络模块在每个卷积层使用批量归一化处理，提高模型训练速度，对于一层具有d′维的输入向量X＝(x⁽¹⁾,x⁽²⁾,..,x^(d′))，对其每一维进行归一化处理：

其中，

为开根号操作，

表示第l层经过批量归一化的输出结果，X^(l)表示第l层的输入向量，E和Var分别表示输入特征向量的期望与方差函数。

所述混合密集网络的训练包括以下步骤：

将降维后的高光谱遥感影像进行边缘填充0操作，以便后续充分提取边缘特征，然后以每个地物样本为中心的邻域像素组成混合密集网络训练数据集，其每个样本大小为w×w×d的3D立方体；

在3D密集网络模块和2D密集网络模块后，分别设立卷积核大小为(1×1×d)、(1×1)，通道数为3m+n的3D和2D卷积层，得到三维与二维路径上输出特征图F_3D∈R^{w×w×c×n′}和F_2D∈R^w×w×n′，其中w×w为特征图尺寸大小，c为光谱维数，n′表示通道数；然后在3D和2D卷积层后设立通道注意力模块与空间注意力模块，分别在通道维与空间维上赋予相应的权重，选择性学习高光谱图像中的特征；

通道注意力模块首先对输入特征图F_3D整体分别进行全局平均池化和全局最大池化，压缩输入特征映射的空间维数，提高了通道注意的效率，生成两种不同的特征描述符

和

其维度均为1×1×n′；

然后，将这两种类型的特征描述符输入到共享网络中，该网络由二层卷积层和一层激活函数层组成，生成维度均为1×1×n′的特征图；

最后，使用元素求和合并输出特征向量，并通过sigmoid激活函数，得到通道注意力图CA(F)，通道注意力图是一个向量，包含各通道的权重系数，其长度与输入特征图的通道数量相同，值在(0，1)范围内，值越大，对应的通道越重要，反之亦然；

通道注意力计算过程用数学表达如下：

其中，F为输入特征图，δ与δ′分别表示sigmoid与relu激活函数，AvgPool为全局平均池化，MaxPool为全局最大池化，SN表示共享网络，W₀与W₁为共享网络的权重；在得到各通道的重要性权重CA(F)后，再将生成的权重向量与原输入特征图相乘，对各个通道的特征图赋予不同的权重，实现对各通道重要性的修正，最终得到输出特征图为F₃′_D∈R^{w×w×c×n′}；

输出特征图F₃′_D计算公式可下所示：

其中，CA(F)代表通道注意力图，

表示矩阵乘法运算；

空间注意力模块首先对输入特征图F_3D整体在通道方向使用全局平均池化和全局最大值池化，生成两种不同的特征描述符：

和

并且这两种特征描述符其维度均为w×w×1；然后，通过联合操作得到一个输出特征描述符

随后，使用一个附带sigmoid函数的卷积层，生成空间注意力图SA(F)；

通道注意力计算过程数学表达如下：

其中，δ表示sigmoid激活函数，f^N×N×N代表卷积运算，卷积核大小为N×N×N；

最后，将空间注意力图与输入特征相乘，以获得聚焦于信息最丰富区域的空间细化特征图，得到输出特征图为F″∈R^{w×w×c×n′}，

输出特征图F″计算公式可如下所示：

其中，SA(F)代表空间注意力图，

表示矩阵乘法运算，F为原输入特征；

对输入特征图F_2D的处理过程与F_3D类似，得到二维路径上的通道注意力输出特征图F′_2D和空间注意力输出特征图F″_2D；

将通道注意力模块与空间注意力模块输出端进行联合，建立双注意力模块；将通道及空间注意力修正后的高层特征与输入特征残差连接，并进行拼接操作，得到最终经残差双注意力模块修正联合后的输出特征F_RDA，计算过程如下所示：

其中，F为输入特征，F′为通道注意力特征，F″为空间注意力特征，得到双注意力模块的输出特征

和

数据尺寸分别为(w×w×1)、(w×w),通道数均为2*(3m+n)；

然后将输出特征经BN-ReLU层，再分别通过Global Average Pooling 3D与GlobalAverage Pooling 2D得到数据尺寸均为(1×160)的空谱特征二维向量；

最后将两分支提取的空谱特征叠加，经过Flatten层展开，并采用Dropout层防止过拟合现象的发生，减少训练参数量，最终采用带有Softmax函数的全连接层，得到分类结果；

在网络训练过程中，通过反向传播机制对网络参数进行更新，具体使用分类交叉熵损失函数，其表达式如下：

其中，∑为求和操作，log为取对数操作，

表示为预测值与真实值间的误差损失；Y_i＝{y₁,y₂,...,y_L}表示真实标签向量，

表示预测标签向量；L为样本数，s为分类数；

将降维后的待训练数据集样本输入到基于双注意力机制的混合密集网络模型中进行训练，分别在空间维与通道维上赋予相应的权重，选择性学习高光谱图像中的特征，对不同特征分配不同的权重，进一步提高网络的特征提取能力,得到训练后的混合密集网络模型。

有益效果

本发明的一种基于双注意力机制的高光谱遥感图像分类方法，与现有技术相比在训练样本量更少的情况下，也能得到较理想的高光谱遥感影像分类结果。

本发明首先使用堆栈自编码器对高光谱影像进行降维处理，减少数据冗余量。然后以3DCNN与2DCNN模型为设计基础，建立了具有两个特征提取分支联合的混合密集网络框架，从高光谱影像中提取大量的光谱特征和空间特征。此外，引入了空间注意力及通道注意力，实现了对高光谱图像中的特征进行选择性的学习，进一步细化特征图，保留更加重要的特征。本发明设计了一种基于双注意力机制的混合密集网络分类模型框架(HDDA)，用于高光谱图像分类。该网络框架包含3D密集网络和2D密集网络两个分支，分别提取由SAE降维后的高光谱影像中的空谱特征和空间特征，并引入残差通道注意力和残差空间注意力对特征图进行细化，抑制不必要信息，再通过连接两分支的输出得到信息增强后的空谱特征，最后使用Softmax函数得到分类结果。在Indian Pines、Salinas、University of Pavia三个公开数据集上，HDDA以较少的训练样本和参数实现了更好的性能。本发明通过建立堆栈自编码器模型，对高光谱影像进行降维处理，减少数据冗余量；通过以3DCNN与2DCNN模型为设计基础，并采用了密集模块加深网络，建立了具有两个特征提取分支联合的混合密集网络框架；另外，在两条特征提取路径上引入双注意力机制，选择性学习高光谱图像中的特征，对不同特征分配不同的权重；本发明避免了梯度消失及过拟合现象的发生，进一步提高了网络的特征提取能力。

附图说明

图1为本发明的方法顺序图；

图2为Indian Pines高光谱数据集伪彩色图像与真实地物分布图；

图3为Pavia University高光谱数据集伪彩色图像与真实地物分布图；

图4为Salinas高光谱数据集伪彩色图像与真实地物分布图；

图5为本发明方法HDDA在不同窗口大小w与不同学习率lr下对分类精度的影响；

图6为本发明方法HDDA在不同数据集上的训练准确率及损失变化曲线；

图7为本发明方法与对比方法对Indian Pines数据集的分类结果图；

图8为本发明方法与对比方法对Pavia University数据集的分类结果图；

图9为本发明方法与对比方法对Salinas数据集的分类结果图；

图10为本发明方法HDDA在不同样本比例下对高光谱图像分类的影响。

具体实施方式

为使对本发明的结构特征及所达成的功效有更进一步的了解与认识，用以较佳的实施例及附图配合详细的说明，说明如下：

如图1所示，本发明所述的一种基于双注意力机制的高光谱遥感图像分类方法，包括以下步骤：

第一步，训练样本的获取：获取待训练的高光谱影像并进行预处理，其中针对高光谱影像的预处理实际获得的样本情况利用现有技术进行处理即可，如归一化处理。

(1)从每类地物样本中按一定比例获取高光谱图像数据样本D及标签L，作为待训练样本，样本数据维度为三维，数据尺寸为(W,H,M),标签尺寸为(W,H)，其中，W、H、M分别表示高光谱遥感数据的宽度、高度、光谱维度；

(2)将待训练样本数据G转化为二维矩阵，其数据尺寸为(W×H,M)，其每一行代表一个样本所包含的光谱信息，每列代表不同的光谱维度，标签数据L尺寸大小转化为(W×H，1)一维向量；然后采用归一化操作，将训练样本数据范围放缩至(0，1)区间，加快训练过程，其归一化公式如下所示：

其中，

表示输入的二维向量矩阵中第t列第k个类别样本，

表示第t列对应的所有类别样本的像素平均值，

表示第t列对应的所有地物的像素标准差值，

表示归一化输出的二维特征矩阵中第t列第i个地物目标。

第二步，堆栈自编码器的构建和训练。对堆栈自编码器进行构建设定，然后将预处理后的高光谱影像输入堆栈自编码器中进行训练，得到训练完成的堆栈自编码器模型和降维处理后的待训练高光谱影像。本发明采用堆叠上述的自编码器建立堆栈自编码器，提取原始高光谱遥感影像数据的特征，实现降维。将单层的基本AE网络结构按输入层和隐藏层逐层串联堆叠在一起即构成一个SAE，堆栈自编码器的编码部分主要由1个输入层，4个编码隐藏层组成，解码部分主要由4个解码隐藏层，1个输出层组成，在编码器和解码器部分使用Tanh非线性激活函数，在输出层使用Sigmoid非线性激活函数，保证输出层与输入层[0,1]数值范围相等，采用均方根误差损失函数(Mean Squared Error，MSE)衡量重建数据与真实数据的偏差，并使用自适应时刻估计方法(Adaptive moment Estimation，Adam)优化算法训练网络参数。随着层数的增加，特征将会越来越抽象，在此过程中不断降低输入数据的维度，将高维的输入数据转化成低维的特征，实现对高光谱遥感影像数据的降维。其具体步骤如下：

(1)通过堆叠单层的自编码器建立堆栈自编码器：

将单层的基本自编码器网络结构按输入层和隐藏层逐层串联堆叠在一起构成一个堆栈自编码器，其中，堆栈自编码器的编码部分主要由1个输入层、4个编码隐藏层组成，解码部分主要由4个解码隐藏层、1个输出层组成，在编码和解码部分使用Tanh非线性激活函数，在堆栈自编码器的输出层使用Sigmoid非线性激活函数，以保证输出层与输入层[0,1]数值范围相等，Tanh激活函数公式如下：

其中，j＝{0,1，...，9}为堆栈自编码器层数，e为自然对数函数的底数，为常数；x_j为第j层激活函数的输入数据，f(x_j)为第j层编码层经Tanh激活函数处理后的输出数据；

Sigmoid激活函数公式如下：

其中，x_k为解码器最后一层的输出数据，f(x_k)为经Sigmoid激活函数处理后的输出数据，e为自然对数函数的底数，为常数；设定采用Adam优化算法训练网络参数，并使用MSE作为衡量重建数据及真实数据的偏差指标，其计算公式如下：

其中，∑为求和操作，

为开根号操作，Y_RMSE为均方误差的算术平方根值，

为输入数据真实标签分布，

为自编码模型的预测值，上标l为样本中类别的总个数，用于指明相对应真实值与预测值在进行损失计算，N为每一批次的总样本数。

(2)将待训练的高光谱数据输入堆栈编码器中得到映射到隐藏层，得到代表输入数据的核心特征，完成堆栈自编码器的编码过程，编码过程的表达式如下：

h＝f(W_hx+b_h)，

其中，x为输入数据，h表示中间隐藏层学习到的特征，W_h代表输入层与隐藏层之间的权重矩阵，b_h表示隐藏单元的偏移系数，f代表编码激活函数，通常使用非线性激活函数。

(3)将得到的核心特征输入到堆栈解码器中，核心特征被解压并重构，得到一个与输入数据相近的输出数据，完成堆栈编码器的解码过程，解码过程由下列等式表示：

z＝f′(W_zh+b_z)，

其中，h表示中间隐藏层学习到的特征，z为通过隐藏特征h重建后的数据，W_z代表隐藏层输出的权重，b_z表示输出单元的偏移系数，f代表激活函数。

(4)将待训练的高光谱数据及地物标签输入到堆栈编码器后，采用无监督方式训练第一层自动编码器，把第一层自动编码器的输出作为第二层自动编码器的输入，采用同样的训练方法训练第二层自动编码器，以此类推，逐层完成训练所有的自动编码器，得到训练好的堆栈自编码器神经网络模型，并输出降维处理后的待训练高光谱影像。

第三步，构建混合密集网络：以3D卷积神经网络模型与2D卷积神经网络模型为基础，建立具有两个特征提取分支联合的混合密集网络。传统的高光谱遥感影像特征提取及分类方法，一般采用人工特征往往不够全面，未能充分运用高光谱自身所包含的丰富光谱特征和空间特征，从而导致分类精度不理想。因此，在没有特征工程的条件下，本发明通过采用3D卷积及2D卷积，建立具有两个特征提取分支的混合网络，能够自适应学习高光谱图像中从底层到高层语义的抽象特征，充分获得大量更容易识别的空谱高级特征。另外，与浅层网络相比，深层网络结构提取的特征更加抽象，分类结果也可以越好。但随着网络结构的不断加深，梯度在反向传播的过程中会出现弥散或者爆炸等现象，产生网络退化问题。因此，本发明采用密集连接方式连接所有层，保证网络各层之间的信息流最大化，从而构建更深网络结构的同时，减轻了训练更深网络的难度，缓解了梯度消失问题。此外，针对高光谱图像的复杂数据结构，以及对深层卷积神经网络的简化计算复杂度、缩短训练时间等问题上，本发明引入了归一化BN层、Dropout层和池化层，并使用ReLU作为神经网络的激活函数，防止了过拟合现象的发生，减少了训练参数量，使得分类模型更快收敛，仅需数百次迭代就可以训练模型。其具体步骤如下：

(1)搭建3D卷积神经网络模型，并引入密集连接，创建3D密集网络学习模块，基本密集模块单元的计算公式如下：

X_l＝H_l[X₀,X₁,...,X_l-1]，l∈N⁺

首先，采用卷积核大小为a×a×a，通道数为n的3D卷积对输入数据进行空谱特征提取，随后将得到的特征输入到3D密集网络模块中进行处理；

设X₀、X₁、X₂分别表示第1层至第3层经3D卷积处理后的输出数据向量，卷积核大小采用a×a×a，每层统一使用m个通道数，并使用边界填充策略不改变输入的高光谱数据尺寸，每一层都与前面层和后面层concatenate连接，从而构建更深的网络结构。

(2)搭建2D卷积神经网络模型，引入密集连接创建2D密集网络学习模块；首先，采用卷积核大小为a×a，通道数为n的2D卷积对输入数据进行空间特征提取，然后将得到的特征输入到2D密集网络模块中进行进一步的学习；

设X₀′、X₁′、X₂′分别表示第1层至第3层经2D卷积处理后的输出数据向量，卷积核大小采用a×a，每层统一使用m个通道数，并使用边界填充策略不改变输入的高光谱数据尺寸，每一层都与前面层和后面层concatenate连接。

(3)混合密集网络模块在每个卷积层使用修正线性单元ReLU激活函数，其数学表达式如下：

ReLU为分段线性函数，将输入数据x与数值0相比，输出最大值，即把所有的负值全都变为0，同时正值保持不变。

(4)混合密集网络模块在每个卷积层使用批量归一化处理，提高模型训练速度，对于一层具有d′维的输入向量X＝(x⁽¹⁾,x⁽²⁾,..,x^(d′))，对其每一维进行归一化处理：

其中，

为开根号操作，

第四步，混合密集网络的训练：将待训练的高光谱影像输入混合密集网络，并引入空间注意力及通道注意力，对待训练的高光谱图像中的空谱特征进行选择性训练。在网络模型训练过程中，学习到的不同特征对分类结果影响不同，而由卷积层输出的像素特征之间被分配的权重是相同的，从而不能有效的区分特征之间的重要程度，降低模型分类性能。因此，区别性地对待不同特征图，聚焦更有用的特征能够帮助提高网络分类模型的特征提取能力，增强模型表达能力。本发明引入了通道注意力和空间注意力机制，建立双通道注意力模块，分别在空间维与通道维上赋予相应的权重，在高光谱图像的众多特征中，选择性地筛选出对当前目标任务更加关键的特征，同时弱化对分类结果无用的特征，让分类效果更好。另外，为了确保如果在双通道注意力模块不起作用的情况下，整个网络能够保持原有的特征信息不被减少，因此本发明通过借鉴ResNet，引入跳跃连接，将通道及空间注意力修正后的高层特征与输入特征残差连接，并进行拼接，建立残差双注意力模块，促进了模型中的信息传递，增强了该模型的稳定性。其具体步骤如下：

(1)将降维后的高光谱遥感影像进行边缘填充0操作，以便后续充分提取边缘特征，然后以每个地物样本为中心的邻域像素组成混合密集网络训练数据集，其每个样本大小为w×w×d的3D立方体。

(2)在3D密集网络模块和2D密集网络模块后，分别设立卷积核大小为(1×1×d)、(1×1)，通道数为3m+n的3D和2D卷积层，得到三维与二维路径上输出特征图F_3D∈R^{w×w×c×n′}和F_2D∈R^w×w×n′，其中w×w为特征图尺寸大小，c为光谱维数，n′表示通道数；然后在3D和2D卷积层后设立通道注意力模块与空间注意力模块，分别在通道维与空间维上赋予相应的权重，选择性学习高光谱图像中的特征；

和

其维度均为1×1×n′；

通道注意力计算过程用数学表达如下：

输出特征图F₃′_D计算公式可下所示：

其中，CA(F)代表通道注意力图，

表示矩阵乘法运算；

和

空间注意力计算过程数学表达如下：

输出特征图F″计算公式可如下所示：

其中，SA(F)代表空间注意力图，

表示矩阵乘法运算，F为原输入特征；

对输入特征图F_2D的处理过程与F_3D类似，得到二维路径上的通道注意力输出特征图F₂′_D和空间注意力输出特征图F₂′_D′_D。

(3)将通道注意力模块与空间注意力模块输出端进行联合，建立双注意力模块；将通道及空间注意力修正后的高层特征与输入特征残差连接，并进行拼接操作，得到最终经残差双注意力模块修正联合后的输出特征F_RDA，计算过程如下所示：

和

数据尺寸分别为(w×w×1)、(w×w),通道数均为2*(3m+n)；

最后将两分支提取的空谱特征叠加，经过Flatten层展开，并采用Dropout层防止过拟合现象的发生，减少训练参数量，最终采用带有Softmax函数的全连接层，得到分类结果。

(4)在网络训练过程中，通过反向传播机制对网络参数进行更新，具体使用分类交叉熵损失函数，其表达式如下：

其中，∑为求和操作，log为取对数操作，

表示预测标签向量；L为样本数，s为分类数。同时使用Adam优化算法，使用动量和自适应学习率，加快收敛速度，更加有效的更新网络权重。

(5)将降维后的待训练数据集样本输入到基于双注意力机制的混合密集网络模型中进行选择性训练，对不同特征分配不同的权重，进一步提高网络的特征提取能力,得到训练后的混合密集网络模型。

第五步，待分类样本的获取和降维处理：获取待分类的高光谱影像并进行预处理，再送入训练后的堆栈自编码器进行降维处理。

第六步，高光谱遥感图像分类结果的获得：将降维处理后的高光谱影像输入训练后的混合密集网络，得到高光谱遥感图像分类结果。

下面结合仿真实验对本发明的效果做进一步的说明：

1.仿真实验条件：本发明实验的计算机硬件环境为Intel Corei5-7300HQ，CPU2.50GHz，GPU为GTX1050Ti，RAM 8GB，软件环境为Windows10(64)位操作系统，编译环境为Spyder，深度学习框架采用Keras。后续所有的训练及测试实验均基于该平台。为了验证本发明提出的HDDA方法的分类性能，本发明在三组遥感影像数据集上进行了验证，分别是：Indiana Pines(IP)数据集，Pavia University(UP)数据集，Salinas(SA)数据集。三组数据集的详细信息如表1所示，假彩色影像及地物真实值分别如图2-4所示。

Table 1.不同数据集的详细信息.

另外，本发明采用基于混淆矩阵的总体精度(Overall Accuracy，OA)、平均精度(Average Accuracy，AA)和Kappa系数作为评价指标。

2.仿真实验内容及结果分析：

实施例一：为了验证本发明所提出方法(HDDA)中不同参数设置对分类精度的影响，重点分析了输入样本窗口大小w、学习率大小lr、Dropout参数。本实施例分别从IP、UP、SA数据集的每类地物中随机选取5％、1％、1％的训练样本训练模型，其余作为测试样本。另外，本发明降维维数d均设置为10，采用MSE损失函数和Adam优化算法训练HDDA网络模型，批量大小统一为64，迭代200次。图5(a)为本发明方法HDDA在不同窗口大小w下对分类精度的影响。若w值较小，则会造成卷积核特征提取的感受野不充分，在局部得不到好的效果。反之，短期占用内存上升，运行速度变慢。由图5(a)可知，设置了六种不同的w，当IP、UP和SA数据集的窗口大小w分别为15、19和15时，OA可以达到更好的分类效果。图5(b)为本发明方法HDDA在不同学习率大小lr下对分类精度的影响。本实施例通过设置四种不同的学习率，探究HDDA方法在不同数据集上的分类表现。由图5(b)可知，当lr为0.001时，HDDA分类方法在IP和SA数据集上表现最好，OA达到最高精度。对于UP数据集，当lr为0.0001时，HDDA分类效果最好。

Table 2.不同数据集在不同Dropout下对OA的影响.

表2为不同数据集在不同Dropout下对OA的影响。由表2可知，当Dropout为0.4时，HDDA分类方法在IP和UP数据集上表现最好，OA分别达到最高的分类精度96.80％与98.28％。SA数据集在Dropout为0.5时，HDDA分类方法得到的OA最高，达到98.85％，此时在IP、UP、SA数据集上的训练准确度及损失值变化分别如图6(a)-(c)所示。

实施例二：为了进一步验证本发明算法的有效性，本实施例采用IP、UP、SA三种数据集进行验证，分别从每类地物中随机选取5％、1％、1％作为训练样本集，其余作为测试样本集。并且使用REF-SVM、3D-CNN、HybridSN、SSRN和R-HybridSN五种高光谱图像分类方法作为对比实验对象，分类结果取十次实验结果的均值，并记录下标准差，从而验证HDDA方法的分类性能。

Table 3.不同的分类方法在IP数据集上的分类精度.

对图2所示的IP高光谱图像进行分类，本发明提出的HDDA分类方法使用5层堆栈自编码器结构对高光谱遥感影像进行降维，每层节点数设置为220-120-80-40-10，然后将降维后的高光谱遥感影像输入HDDA网络中，该网络样本输入窗口大小w设为15×15，学习率lr设为0.001，Dropout为0.4，epoc h设为200。不同的分类方法在IP数据集上的分类精度如表3所示，分类结果图如图7所示。由表3可以看出，在IP数据集上，本发明提出的HDDA方法具有最高的OA、AA和Kappa，分别达到96.80％、95.83％和96.34％。对于个别地物类别训练样本过少，如Grass-pasture-mowed(7)和Oats(9)，传统的使用纯光谱的REF-SVM分类方法对这两种地物类别识别精度过低，而基于深度学习的分类方法显示出处理小样本数据的分类优势，对提取空谱特征进行分类的3D-CNN、HybridSN、SSRN和R-HybridSN方法达到了更好的分类效果，本发明方法对这两种具有少量训练样本的地物分类精度均达到了100％。由于3D卷积提取高光谱立方体数据的优势，3D-CNN通过同时提取空铺特征，与REF-SVM相比，OA提高了13.13％。HybridSN方法混合了3D-CNN与2D-CNN，提高了OA、AA、Kappaa分别至94.24％、87.97％、93.40％。基于HybridSN方法改进的R-HybridSN方法，引入了残差模块结构，加深了网络深度，在训练样本较少的情况下，也能得到满意的分类结果，OA达到了96.46％，与SSRN相比，OA提高1.2％。本发明方法HDDA与R-HybridSN相比，OA、AA、Kappaa分别提升了0.34％、5.23％、0.32％。并且，HDDA对易错分的地物分类上也能达到良好的表现，如在三种corn及三种soybean上分类精度均达到94％以上。由图7可以看出，HDD A方法错分点更少，分类结果更加理想。

Table 4.不同的分类方法在UP数据集上的分类精度.

对图3所示的UP高光谱图像进行分类，本发明方法设置堆栈自编码器每层节点数设置为103-80-60-40-10，再经过HDDA网络进行分类，样本输入窗口大小w设为19×19，学习率lr设为0.0001，Dropout为0.4，200个epoch，分类结果取十次实验结果的均值及标准差。不同的分类方法在UP数据集上的分类精度如表4所示，分类结果图如图8所示。由表4可以看出，在IP数据集上，本发明提出的HDDA方法达到了最佳分类效果，OA、AA、Kaapa分别达到98.28％、97.07％、97.72％，虽然我们的方法不能使每个类的精度达到最佳，但对每个类的分类精度均超过93％，这意味着相比于对比方法，我们的方法更加能够捕获不同类之间的区别特征。由于UP数据集的样本充足，因此传统分类方法REF-SVM的OA也能达到84.80％。但REF-SVM方法在易错分的Gravel(3)及Bitumen(7)地物类型上表现欠佳，而使用空谱残差模块提取更深层次空铺特征的SSRN方法，将这两类地物的分类精度分别提升至76.45％和91.60％。与SSRN相比，R-HybridSN方法将这两类地物识别精度分别提升了10.72％、4.22％。相比于对比试验来说，在对易错分的Gravel(3)及Bitumen(7)地物类型分类识别上，本发明HDDA方法取得更高精度，比R-HybridSN方法分别提升了7.52％、3.28％，OA、AA、Kappa分别提升了1.69％、3.98％、2.16％，且分类结结果更加稳定。从图8可以看出，HDDA方法结果图更加平滑，更加接近原始地物图。

Table 5.不同的分类方法在SA数据集上的分类精度.

对图4所示的SA高光谱图像进行分类，本发明方法设置堆栈自编码器每层节点数设置为224-120-80-40-10，再输入HDDA网络进行分类，样本输入窗口大小w设为15×15，学习率lr设为0.001，Dropout为0.5，epoch设为200，分类结果同样采用十次实验结果的均值及标准差。不同的分类方法在SA数据集上的分类精度如表5所示，分类结果图如图9所示。由表5可以看出，RBF-SVM方法对SA数据的OA达到88.47％，但对于易错分的Vinyard_untrained(15)地物分类精度表现欠佳，仅达到了66.81％。基于深度学习设计的网络模型更易获得深层的高级特征，处理易错分的地物类型更具优势。3DCNN方法将15号地物的分类精度提升至85％，OA、AA、Kappa分别达到94.03％、95.09％、93.14％。HybridSN方法对Vinyard_untrained地物的分类精度达到97％以上，另外，与SSRN与R-HybridSN相比，HybridSN方法在SA数据集上的分类效果更具竞争力，OA、AA、Kappa分别达到98.72％、98.81％、98.54％。本发明所提出的HDDA方法对Vinyard_untrained(15)地物分类精度虽略低于HybridSN，但总体而言，OA、AA、Kappa分别比HybridSN提升0.13％、0.44％、0.18％，可以看出本发明方法表现更优。在SA数据集上各种模型的分类结果图如图9所示，可以看出，本发明HDDA方法噪声点更少，结果如更加平滑。

实施例三：为了进一步验证本发明HDDA分类方法在有限训练样本下的分类性能，本实施例分别在IP、UP、SA数据集上设置了不同的训练样本比例，在IP数据集上分别设置了2％、4％、6％、8％、10％五组训练样本比例，在UP和SA数据集上设置0.2％、0.4％、0.6％、0.8％四组训练样本比例，通过进一步减少训练样本，从而比较本发明分类方法与对比分类方法的总体分类精度。

图10为本发明所述方法HDDA在不同样本比例下对高光谱图像分类的影响。从图10可以看出，本发明提出的HDDA分类方法在三种数据集上不同训练样本比例下的OA、均表现出最佳的分类精度，即使在IP数据集上最低的2％、UP数据集上最低的0.2％、SA数据集上最低的0.2％，其OA也能分别达到88.57％、86.93％、93.22％。并且，随着训练样本不断增加，与其它分类方法相比，HDDA分类方法仍然表现出更出色的分类精度。综上所述，针对高光谱遥感影像标记样本量有限以及现阶段神经网络模型在少量训练样本情况下分类精度欠佳的问题，本发明从网络优化的角度提出了一种基于双注意力机制的高光谱遥感图像分类方法。通过以3DCNN与2DCNN模型为设计基础，建立了具有两个特征提取分支联合的混合密集网络框架，密集模块的使用加深了网络，减少了梯度消失的问题，提取了更加鲁棒的空谱特征。另外，在两条特征提取路径上引入双注意力机制，分别在空间维与通道维上赋予相应的权重，选择性学习高光谱图像中的特征，对不同特征分配不同的权重，进一步提高网络的特征提取能能力。此外，本发明引入了BN层和Dropout层，并使用ReLU作为神经网络的激活函数，防止了过拟合现象的发生，减少了训练参数量，使得HDDA框架更快收敛。本发明提出的分类方法在IP、UP、SA三组数据集上进行了验证，充分实验结果表明，与对比模型的分类性能相比，HDDA分类方法具有更出色的分类效果。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种基于双注意力机制的高光谱遥感图像分类方法，其特征在于，包括以下步骤：

11)训练样本的获取：获取待训练的高光谱影像并进行预处理；

12)堆栈自编码器的构建和训练：对堆栈自编码器进行构建设定，然后将预处理后的高光谱影像输入堆栈自编码器中进行训练，得到训练完成的堆栈自编码器模型和降维处理后的待训练高光谱影像；

13)构建混合密集网络：以3D卷积神经网络模型与2D卷积神经网络模型为基础，建立具有两个特征提取分支联合的混合密集网络；

所述构建混合密集网络包括以下步骤：

131)搭建3D卷积神经网络模型，并引入密集连接，创建3D密集网络学习模块，基本密集模块单元的计算公式如下：

X_l＝H_l[X₀,X₁,...,X_l-1]，l∈N⁺

其中，H_l表示第l层的隐藏层，X₀,X₁,...,X_l-1表示先前密集模块生成的特征图，X_l表示经过第l层隐藏层的输出；若每个隐藏层生成q个通道的特征图，则第l层将具有m₁+q×(l-1)个输入特征图，其中m₁为输入层的通道数；

首先，采用卷积核大小为a×a×a，通道数为n的3D卷积对输入数据进行空间光谱特征提取，随后将得到的特征输入到3D密集网络模块中进行更深层次的学习；

3D密集网络模块由三个3D卷积快速连接，其中(w×w×d,n″)为输入的高光谱遥感数据尺寸，其中w×w×d分别表示宽度、高度、光谱维度；

设x₀”、x₁”、x₂”分别表示第1层至第3层经3D卷积处理后的输出数据向量，卷积核大小采用a×a×a，每层统一使用m个通道数，并使用边界填充策略不改变输入的高光谱数据尺寸，每一层都与前面层和后面层concatenate连接，从而构建更深的网络结构；

132)搭建2D卷积神经网络模型，引入密集连接创建2D密集网络学习模块；

2D密集网络模块为三个2D卷积的快速连接，其中(w×w×d,n″)为输入的高光谱遥感数据尺寸，其中w×w分别表示宽度、高度；

设X′₀、X′₁、X′₂分别表示第1层至第3层经2D卷积处理后的输出数据向量，卷积核大小采用a×a，每层统一使用m个通道数，并使用边界填充策略不改变输入的高光谱数据尺寸，每一层都与前面层和后面层concatenate连接；

133)混合密集网络模块在每个卷积层使用修正线性单元ReLU激活函数，其数学表达式如下：

134)混合密集网络模块在每个卷积层使用批量归一化处理，提高模型训练速度，对于一层具有d′维的输入向量X＝(X⁽¹⁾,X⁽²⁾,..,X^(d′))，对其每一维进行归一化处理：

其中，

为开根号操作，

表示第a层经过批量归一化的输出结果，X^(a)表示第a层的输入向量，E和Var分别表示输入特征向量的期望与方差函数；

14)混合密集网络的训练：将待训练的高光谱影像输入混合密集网络，并引入空间注意力及通道注意力，对待训练的高光谱图像中的空间光谱特征进行选择性训练；

所述混合密集网络的训练包括以下步骤：

141)将降维后的高光谱遥感影像进行边缘填充0操作，以便后续充分提取边缘特征，然后以每个地物样本为中心的邻域像素组成混合密集网络训练数据集，其每个样本大小为w×w×d的3D立方体；

142)在3D密集网络模块和2D密集网络模块后，分别设立卷积核大小为1×1×d、1×1，通道数为3m+n的3D和2D卷积层，得到三维与二维路径上输出特征图F_3D∈R^{w×w×c×n′}和F_2D∈R^w ^×w×n′，其中w×w为特征图尺寸大小，c为光谱维数，n′表示通道数；然后在3D和2D卷积层后设立通道注意力模块与空间注意力模块，分别在通道维与空间维上赋予相应的权重，选择性学习高光谱图像中的特征；

和

其维度均为1×1×n′；

通道注意力计算过程用数学表达如下：

其中，F为输入特征图，δ与δ′分别表示sigmoid与relu激活函数，AvgPool为全局平均池化，MaxPool为全局最大池化，SN表示共享网络，W₀与W₁为共享网络的权重；在得到各通道的重要性权重CA(F)后，再将生成的权重向量与原输入特征图相乘，对各个通道的特征图赋予不同的权重，实现对各通道重要性的修正，最终得到输出特征图为F′_3D∈R^{w×w×c×n′}；

输出特征图F′_3D计算公式如下所示：