CN115439679A

CN115439679A - 一种联合多注意及Transformer的高光谱图像分类方法

Info

Publication number: CN115439679A
Application number: CN202210913725.4A
Authority: CN
Inventors: 陈亚雄; 张波; 师悦天; 张志鹏; 熊盛武
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2022-08-01
Filing date: 2022-08-01
Publication date: 2022-12-06

Abstract

本发明公开了一个联合多注意和Transformer Encoder结构的网络来充分提取HSI的空间光谱特征。多注意模块包括通道注意和空间注意，以进一步关注重要频带和区域的信息。此外，本发明还提出了一种多层密集自适应融合模块，以充分集成浅层、中层和深层信息。使得特征表示和学习后的混合信息包含了多层次的特征。另外，我们提出了一个在标签平滑交叉熵的基础上调整的Lpoly损失来动态地改变地物类别真实预测标签的概率。该网络在三个公共高光谱分类数据集上进行了测试，显示了良好的分类性能。结果表明，该方法对提取高光谱图像中的深层语义信息非常有效。

Description

一种联合多注意及Transformer的高光谱图像分类方法

技术领域

本发明属于高光谱图像分类领域，具体涉及一种联合多注意及Transformer的高光谱图像分类方法。

背景技术

成像技术和光谱技术是传统的光学技术的两个重要方向，成像技术能够获得物体的影像，得到其空间信息；光谱技术能够得到物体的光学信息，进而研究其物质属性。20世纪70年代以前，成像技术和光谱技术是相互独立的学科，随着遥感技术的发展，成像光谱技术迅速发展起来，它是一种快速、无损的检测技术，具有光谱分辨率高、多波段和图谱合一的特点，能在大尺度范围内识别地表并深入研究其地表物质的成分及结构。目前成像光谱技术已经成为遥感技术的发展趋势之一，并在军事侦察、海洋遥感、地质勘探、植被分析等领域得到越来越广泛的应用。

随着成像光谱技术越来越成熟，人们迫切需要利用这些丰富的空间光谱信息来满足各种需要。为了进一步区分出同一场景下相似类别之间的细微空间光谱差异，研究者们将深度学习的方法利用在高光谱图像分类任务中，取得了不错的效果。卷积神经网络作为代表性的深度学习方法，其主要包括：利用一维卷积和二维卷积分别提取光谱信息和空间信息，并将提取的信息融合后用于分类；利用三维卷积直接提取局部空间光谱信息进行分类。近年来，以Transformer架构为代表的深度学习方法受到越来越多的关注，使用这种具备自注意力机制的网络框架来实现高光谱分类也成为不错的选择。

虽然上述深度学习的方法给很大程度上满足了人们将高光谱图像用于地物分类的需要，但也仍然有两点不足：

1)传统三维卷积神经网络虽然比一维和二维卷积神经网络表现普遍更优异，但同时也带来了计算上的巨大开销；

2)高光谱图像分类任务通常可以被视作小样本分类任务，无论是传统卷积神经网络还是Transformer网络架构，都有可能在特征学习和提取的过程中带来过拟合的风险。

发明内容

本发明的目的是针对上述不足，提出一种联合多注意及Transformer的高光谱图像分类方法，通过使用多种注意力机制，将更多的注意力资源关注到更重要的区域，提高计算资源的同时保证网络训练的速度尽可能加快，同时利用Transformer Encoder组合结构提取高光谱图像中丰富的语义信息。对于Encoder组合框架，我们设计了一种多层密集自适应融合的连接方式来缓解可能会产生的过拟合问题。另外，我们基于标签平滑交叉熵损失函数设计了一种改进的损失，通过进一步调整预测标签之间概率来提升分类性能。

本发明解决该问题采用的技术方案为：一种联合多注意及Transformer的高光谱图像分类网络。本发明首先设计了一种结合通道注意、二维卷积层以及空间注意的多注意力模块。该模块先利用通道注意对通道进行选择，不同的通道的权重大小可能不一样，对于分类精度影响较大的通道，其权重更大；反之越小。而空间注意力进一步将注意力资源关注在二维空间内的重要区域部分，并弱化对分类无关区域的关注。接着利用一个高斯加权特征表示器将特征转化为深度语义特征，同时生成语义token，以便于后续TransformerEncoder结构对其进行充分地特征学习和提取。关于Encoder结构部分，我们采用了一种多层密集自适应融合的连接方式，并且将Encoder的层数设置为3。最后将融合后得到的多层次特征经过线性表示层，利用softmax函数对其进行分类。关于损失函数，由于交叉熵损失对于高光谱图像中样本数较少的类别容易产生过拟合的现象，而标签平滑交叉熵相较于交叉熵还考虑了错误类别的概率。因此我们选择在标签平滑交叉熵的基础上添加了一项多项式，用以动态调整地物类别真实预测的概率从而进一步防止过拟合，使网络对于高光谱图像中这些样本数较少的类别具有更强的容错能力以及更好的鲁棒性。具体包括如下步骤：

步骤1，划分训练数据集和测试数据集；

步骤2，针对训练数据集中的原始高光谱数据，对其进行降维；

步骤3，对降维后的数据将其分成若干个数据立方体块并执行三维卷积层，获得三维特征图；

步骤4，执行包含通道注意、二维卷积层和空间注意的多注意力模块，获得二维特征图；

步骤5，将每个二维特征映射展平成一个一维特征向量；

步骤6，通过高斯加权特征表示器模块生成语义标记；

步骤7，将一个全零向量作为可学习分类标记与步骤6中生成的语义标记连接起来形成融合后的语义标记，并在融合后的语义标记上嵌入位置信息；

步骤8，执行多层密集自适应融合模块对嵌入位置信息的融合后的语义标记进行特征提取；

步骤9，将第一个分类标记输入到最后一个线性层；

步骤10，使用softmax函数来识别标签；

步骤11，设计损失函数训练由步骤3-步骤10构成的整体网络，然后针对测试数据集进行测试。

进一步的，步骤2中对于使用主成分分析对高光谱图像执行降维操作，将降维后的频带数设置为40。

进一步的，步骤3中，将每个提取的立方体块的大小设置为13×13×40，三维卷积层使用了16个大小为3×3×3的卷积核，以生成16个大小为11×11×38的特征图。

进一步的，步骤4中通道注意的处理过程如下；

对于输入特征，聚合平均池化层和最大池化层，然后将得到的两个不同的空间上下文描述符F_avg和F_max输入到同一共享的多层感知器MLP中，其中MLP的隐藏激活大小设置为R，然后逐元素求和得到最终的输出特征，该过程用数学公式表示为：

其中Sig为sigmoid函数，W₀∈R^C/r×C，MLP权重W₀和W₁是共享的，ReLU激活函数后面是W₀；

进一步的，步骤4中，在二维卷积层中使用了64个3×3大小的卷积核来获得64个9×9的特征图。

进一步的，对于空间注意力模块部分，首先将输入特征F通过平均池化和最大池化操作分别获取特征

和

将结果特征连接起来，最后使用卷积层生成空间注意特征图；

其中Sig为sigmoid函数，f^3×3表示卷积核大小为3×3的卷积运算。

进一步的，步骤6中生成语义标记的过程如下；

设置其输入的展平特征映射被定义为X∈R^hw×c，其中h为高度，w是宽度，c是通道的数量，将输入的特征X与初始化高斯分布的权重W进行点积操作，然后，将其转置，并使用softmax函数来关注相对重要的语义部分得到A；最后，A与X相乘，生成语义标记，即公式(3)中的T，获得的语义组的大小为T∈R^t×c，其中t表示标记的数量；其中，A用softmax(X*W)^T表示，公式表示如下：

T＝softmax(X*W)^TX (3)

其中，X为输入特征，W表示初始化高斯分布的权矩阵，大小为W∈R^c×t，*表示1×1点积操作。

进一步的，步骤8中的多层密集自适应融合模块包含一个3层的TransformerEncoder结构，另外，采取的跨层连接方式为：先将第一层得到的特征与第三层自适应融合，再将融合后的信息与第二层特征执行自适应融合。

进一步的，步骤11中使用的损失函数是在标签平滑交叉熵的基础上对第一项多项式进行调整，将改进后的loss取名Lpoly loss，设P_t是模型对目标地面真实类别的预测概率，详细推理步骤如下：

首先，(1-P_t)ⁱ的交叉熵(Cross-Entropy,CE)损失的泰勒展开为：

利用梯度下降法优化交叉熵损失需要采用P_t的梯度：

基于标签光滑交叉熵，调整了交叉熵的第一个多项式系数，这样就可以根据任务以及数据集本身的差异性动态地调整地物类别真实预测标签的概率，公式表示如下：

其中CE(i)表示i的标准交叉熵损失，λ是一个小的正数，ε是一个大于-1的数，i是正确的类，N是类的数量，P_t是模型对目标地面真实类的预测概率。

进一步的，训练整体网络时，使用Adam算法进行优化，学习率设置为10^-3，批量大小设置为64，训练300轮迭代，通过训练模型从而得到网络的权重参数W和偏置参数B。

本发明的有益效果是：与现有用于高光谱图像分类任务的网络结构相比，本发明提出的网络框架结合了多种注意力机制，既包括通道以及空间注意力，还包括Encoder架构中的多头自注意力机制；为了融合缓解不同层Encoder对特征提取程度的巨大差异，我们采用了跨层连接的结构，结合长连接以及短连接，将多层次信息融合后再用于后续分类；另外，我们还设计了一种新的损失函数Lpoly loss，进一步防止网络对样本数较少的类别产生过拟合的情况。

附图说明

图1为本发明的网络框架结构图。

图2为本发明中通道注意机制图。

图3为本发明中空间注意机制图。

图4为本发明中高斯加权特征表示器机制图。

图5为本发明中多层密集自适应融合的连接结构图。

图6为本发明中多层密集自适应融合的自适应融合结构图。

图7为本发明使用的高斯加权特征表示器中语义token数量的对比实验结果图。图中(a)、(b)、(c)分别是在语义token数量不同的情况下Indian Pines、Pavia University以及Houston2013数据集上实验的结果。我们在三个数据集上分别测试了token数量分别为50、100、150、200以及250的实验效果，结果显示将语义token的数量设置为200时三个数据集的分类效果较好。

图8为本发明将提出的Lpoly loss使用在不同数据集上时，两个可调节参数λ和ε对整体分类精度的影响，图中(a)、(b)、(c)分别是在损失函数的不同参数下Indian Pines、Pavia University以及Houston2013数据集上实验的结果。根据结果显示，我们在三个数据集上都将λ设置为0.1，在Indian Pines数据集上，我们将ε设置为1，另外两个数据集的ε设置为0.5。

具体实施方式

下面结合附图对本发明的技术方案作进一步描述。

如图1所示，本发明提供的一种联合多注意及Transformer的高光谱图像分类方法，具体步骤如下：

步骤1，划分训练数据集和测试数据集；

步骤2，针对输入的原始高光谱数据利用主成分分析方法对其进行降维；

步骤4，执行包含通道注意(CA)、二维卷积层和空间注意(SA)的CSA模块，获得二维特征图；

步骤5，将每个二维特征映射展平成一个一维特征向量(Flatten Feature)；

步骤6，通过高斯加权特征表示器(Tokenizer)模块生成语义token(即Tokens)；

步骤7，将一个全零向量作为可学习的分类token(Learnable ClassficationToken，T₀)与步骤6中生成的语义标记连接起来形成融合后的语义token，并在语义token上嵌入位置信息(Position Embedding，PE)；

步骤8，执行Encoder多层密集自适应融合(MDAF)模块对融合后的语义token(即嵌入位置信息后的语义token)进行特征提取；

步骤9，将第一个分类token输入到最后一个线性层；

步骤10，使用softmax函数来识别标签；

步骤11，在网络的训练过程中使用的损失函数是在标签平滑交叉熵的基础上对第一项多项式进行调整的改进后的Lpoly loss，另外，训练整体网络模型时，我们使用Adam算法进行优化。该方法在三个通用高光谱分类数据集上进行测试，除Pavia University数据集上我们采用的测试样本占总样本数量的5％，另外两个数据集均为10％。

进一步的，步骤2中对于使用主成分分析对高光谱图像执行降维操作，我们将降维后的频带数设置为40。

进一步的，步骤3中我们将每个提取的立方体块的大小设置为13×13×40，三维卷积层我们使用了16个大小为3×3×3的卷积核，以生成16个大小为11×11×38的特征图。

进一步的，步骤4中对于通道注意的设计，我们采用的具体过程如附图2所示。对于输入特征F，我们聚合了平均池化层和最大池化层。然后将得到的两个不同的空间上下文描述符

和

输入到同一共享的多层感知器(MLP)中，其中MLP的隐藏激活大小设置为R^C/r×1×1，r是缩减比，C是通道数，然后逐元素求和得到最终的输出特征。该过程用数学公式表示为：

其中Sig为sigmoid函数，W₀和W₁是MLP的权重，W₀∈R^C/r×C，W₁∈R^C×C/r。注意，W₀和W₁是共享的，ReLU激活函数后面是W₀。

在二维卷积层中使用了64个3×3大小的卷积核来获得64个9×9的特征图；对于空间注意力模块部分，首先将输入特征F通过平均池化和最大池化操作分别获取特征

和

将结果特征连接起来，最后使用卷积层生成空间注意特征图。具体过程如附图3所示。

其中Sig为sigmoid函数，F为输入特征，f^3×3表示卷积核大小为3×3的卷积运算。

进一步的，步骤6中的语义token产生过程如下：

其输入的展平特征映射被定义为X∈R^hw×c，其中h为高度，w是宽度，c是通道的数量。将输入的特征X与初始化高斯分布的权重W进行点积操作，然后，将其转置，并使用softmax函数来关注相对重要的语义部分得到A，最后，A与X相乘，生成语义Tokens，即公式(3)中的T，获得的语义组的大小为T∈R^t×c，其中t表示token的数量。其中，A用softmax(X*W)^T表示，公式表示如下：

T＝softmax(X*W)^TX (3)

其中，X为输入特征，W表示初始化高斯分布的权重矩阵，大小为W∈R^c×t，*表示1×1点积操作。

最后，我们将生成的语义token数量t设置为200；

进一步的，步骤8中的多层密集自适应融合模块包含一个3层的TransformerEncoder结构。另外，我们采取的跨层连接方式为：先将第一层得到的特征与第三层自适应融合，再将融合后的信息与第二层执行自适应融合，具体的连接结构如附图1所示；对于该过程中使用到的自适应融合(Adaptive Fusion，AF)方法如附图5所示；

进一步的，本网络中使用的损失函数是在标签平滑交叉熵的基础上对第一项多项式进行调整，我们将改进后的loss取名Lpoly loss，设P_t是模型对目标地面真实类别的预测概率，详细推理步骤如下：

首先，(1-P_t)ⁱ的交叉熵(Cross-Entropy,CE)损失的泰勒展开为：

利用梯度下降法优化交叉熵损失需要采用P_t的梯度：

我们基于标签光滑交叉熵(Label Smoothing Cross-Entropy，LSCE)，调整了交叉熵的第一个多项式系数。这样，我们就可以根据任务以及数据集的差异性动态地调整地物类别真实预测标签的概率。该公式表示如下：

进一步的，训练整体网络模型时，使用Adam算法进行优化，学习率设置为10^-3，批量大小设置为64，训练300轮迭代，通过训练模型从而得到网络的权重参数W和偏置参数B。

本实施例采用的环境是Intel Xeon(R)Silver 4210R CPU,64GB RAM,and anNVIDIA Quadro RTX 5000 16GB GPU、linux操作系统，运用Python和开源库pytorch进行开发。

接下来，我们以Indian Pines数据集为例来说明我们设计的高光谱分类网络框架。

使用Indian Pines数据集，选取该数据集的10％作为训练数据集I_train，余下的90％作为测试数据集I_test；

执行PCA降维后并提取每个patch的大小为13×13×40。在第一个三维卷积层中，通过卷积操作，用16个3×3×3个卷积核生成16个13×13×38个特征立方体。这一步使用了三维卷积，因为每个patch中都存储了丰富的光谱信息。这16个特征立方体被重新排列，以生成一个11×11×608特征立方体。

然后，立方体执行一个通道注意模块和一个使用64个3×3的二维卷积层，以获得64个特征图，每个特征图的大小为9×9。紧接着每个特征图展平为一个一维特征向量，从而得到64个大小为1×81的向量。此时，所得到的特征相当于本文中的X∈R^81×64。

下一步，利用Xavier标准正态分布得到初始权值矩阵W_a∈R^64×200，以指导特征分布更规则。将初始化的权值矩阵W_a∈R^64×200乘以特征向量组，得到语义组A∈R^81×200。

然后，将A的转置量乘以X，得到最终的语义Tokens(即T，且T∈R^200×64)。在T中加入一个全零向量作为可学习的分类token，接着嵌入位置信息后得到T_in∈R^201×64，最后输入到MDAF层。

通过MDAF模块处理T，表示语义特征。这个模块具有相同的输入和输出大小。取第一个分类token(即

)的输出作为分类向量。将该向量输入到基于softmax线性分类器中，得到判断的标签。

具体地，本实施例中使用Adam算法进行优化，学习率设置为10^-3，批量大小设置为64，损失函数中λ和ε的值被分别设置为0.1和1，训练300轮迭代，通过训练模型从而得到网络的权重参数W和偏置参数B，至此，完成了本案例实施的流程。

计算检索精度及测试：

使用上述训练的网络计算测试数据集中样本并计算三个评价指标，它们分别是：总体精度(OA)、平均精度(AA)、Kappa系数(κ)。这三个指标的值越大，分类结果就越好。

为了评估本发明方法的有效性，我们在三个公共高光谱分类数据集(IndianPines数据集、Pavia University数据集、Houston2013数据集)上选择了几种具有代表性的方法进行比较实验：SVM，EMAP，1D-CNN、2D-CNN、3D-CNN，SSRN，Cubic-CNN、HybridSN，SSFTT和我们提出的方法。同时，对于不同方法中训练集和测试集的划分，我们保持了一致，以体现对比实验的公平性。

表1

表1是本发明与其他方法在Indian Pines数据集上的比较实验结果。

表2

表2是本发明与其他方法在Pavia University数据集上的比较实验结果。

表3

表3是本发明与其他方法在Houston2013数据集上的比较实验结果。

实验证明，我们设计的高光谱图像分类方法在三个通用的高光谱分类数据集上都展示了最佳的性能。另外，从实验结果中的整体分类精度(AA)指标可以看出我们提出的方法在不同数据集的不同类别上具有较强的鲁棒性。

本发明的实施方案仅仅为了清楚地说明本发明的举例，并不局限上述举例。本领域人员在此方法上的基础上作不同形式的改变或等同替换，但凡与本发明类似的变化都属于本发明权利要求的保护范围之中。

Claims

1.一种联合多注意及Transformer的高光谱图像分类方法，其特征在于，包括如下步骤：

步骤1，划分训练数据集和测试数据集；

步骤5，将每个二维特征映射展平成一个一维特征向量；

步骤6，通过高斯加权特征表示器模块生成语义标记；

步骤7，将一个全零向量作为可学习分类标记与步骤6中生成的语义标记连接起来形成融合后的语义标记，连接起来形成融合后的语义标记，并在融合后的语义标记上嵌入位置信息；

步骤9，将第一个分类标记输入到最后一个线性层；

步骤10，使用softmax函数来识别标签；

2.如权利要求1所述的一种联合多注意及Transformer的高光谱图像分类方法，其特征在于：步骤2中对于使用主成分分析对高光谱图像执行降维操作，将降维后的频带数设置为40。

3.如权利要求1所述的一种联合多注意及Transformer的高光谱图像分类网络，其特征在于：步骤3中，将每个提取的立方体块的大小设置为13×13×40，三维卷积层使用了16个大小为3×3×3的卷积核，以生成16个大小为11×11×38的特征图。

4.如权利要求1所述的一种联合多注意及Transformer的高光谱图像分类方法，其特征在于：步骤4中通道注意的处理过程如下；

其中Sig为sigmoid函数，W₀∈R^C/r×C，MLP权重W₀和W₁是共享的，ReLU激活函数后面是W₀。

5.如权利要求1所述的一种联合多注意及Transformer的高光谱图像分类方法，其特征在于：步骤4中，在二维卷积层中使用了64个3×3大小的卷积核来获得64个9×9的特征图。

6.如权利要求1所述的一种联合多注意及Transformer的高光谱图像分类方法，其特征在于：对于空间注意力模块部分，首先将输入特征F通过平均池化和最大池化操作分别获取特征

和

7.如权利要求1所述的一种联合多注意及Transformer的高光谱图像分类方法，其特征在于：步骤6中生成语义标记的过程如下；

T＝softmax(X*W)^TX (3)

8.如权利要求1所述的一种联合多注意及Transformer的高光谱图像分类方法，其特征在于：步骤8中的多层密集自适应融合模块包含一个3层的Transformer Encoder结构，另外，采取的跨层连接方式为：先将第一层得到的特征与第三层自适应融合，再将融合后的信息与第二层特征执行自适应融合。

9.如权利要求1所述的一种联合多注意及Transformer的高光谱图像分类方法，其特征在于：步骤11中使用的损失函数是在标签平滑交叉熵的基础上对第一项多项式进行调整，将改进后的loss取名Lpoly loss，设P_t是模型对目标地面真实类别的预测概率，详细推理步骤如下：

首先，(1-P_t)ⁱ的交叉熵(Cross-Entropy,CE)损失的泰勒展开为：

利用梯度下降法优化交叉熵损失需要采用P_t的梯度：

10.如权利要求1所述的一种联合多注意及Transformer的高光谱图像分类方法，其特征在于：训练整体网络时，使用Adam算法进行优化，学习率设置为10^-3，批量大小设置为64，训练300轮迭代，通过训练模型从而得到网络的权重参数W和偏置参数B。