CN116091833A

CN116091833A - 注意力与Transformer高光谱图像分类方法及系统

Info

Publication number: CN116091833A
Application number: CN202310138030.8A
Authority: CN
Inventors: 张国锋; 林开梁; 葛灵宇; 孟亚云; 邓惠文; 杨树明
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2023-02-20
Filing date: 2023-02-20
Publication date: 2023-05-09

Abstract

本发明公开了一种注意力与Transformer高光谱图像分类方法及系统，获取高光谱图像数据立方体和地物标签；对数据立方体的维度进行转置；对地物标签矩阵按设定比例逐像素划分；依照地物标签矩阵划分对图像数据进行划分块；采用注意力3D卷积层对划分块的图像进行融合；对经历注意力3D卷积层的数据立方体输入至改进的Transformer编码层，经过解码层输出类别，得到最优模型。该方法无需降维等复杂的前处理即可获取高光谱的局部与全局的空谱信息，使用改进Transformer从全局方向上进行特征提取与融合，使整个网络模型达到良好的分类效果。

Description

注意力与Transformer高光谱图像分类方法及系统

技术领域

本发明属于高光谱图像应用领域，特别是一种基于注意力3D卷积和改进Transformer的高光谱图像分类方法及系统。

背景技术

高光谱图像因其同时具有空间和光谱信息而被广泛于遥感。而分类就是对图像中每个像素进行分类，之后就可以得到影像地区的具体地物信息。因此，如何更好的进行高光谱图像分类一直是高光谱遥感图像领域的研究热点之一。

早期，高光谱图像分类主要利用高光谱图像的光谱特性。这一时期，人们主要关注高维的光谱特征的降维处理以及降维后的分类方法。降维方法主要有：主成分分析降维(PCA)以及线性判别降维(LDA)等算法；分类方法有：支持向量机(SVM)、k近邻以及随机森林法等。之后，随着人工智能的快速发展，深度学习方法也被广泛应用与高光谱图像分类。其大体可分为基于光谱特征的网络、基于空间特征的网络和基于空间-光谱特征的联合网络。从现有研究来看基于空间-光谱特征的联合网络效果往往要好于其中单独一种。而基于空间-光谱特征的联合网络主要有：1、分别从空间以及光谱特征进行处理的双通道网络；2、使用3D卷积同时提取空间与光谱特征的卷积网络。

3D卷积网络可以很好的同时提取空间与光谱信息，但因为卷积核大小的局限性，提取的特征大多是局部信息。对此，Roy等人通过对数据进行前处理来解决相关问题。Lee等人提出了一种上下文卷积网络，利用相邻像素局部空间光谱关系，提升网络对于全局信息的提取。但其提出的方法只能从空间维度进行卷积运算，这使得其无法从不同维度上充分提取空间与光谱信息。同时，3D卷积网络在特征提取之后，多通过2D卷积进行融合。而2D卷积适用于融合空间特征，对于光谱特征的融合效果往往不佳。

中国专利公开号CN114627370A，公布日2022.06.14，公开了一种基于TRANSFORMER特征融合的高光谱影像分类方法；该申请案包括对图像进行预处理，之后将三通道获得的影像分别输入Transformer的三个编码器中，然后利用解码器进行融合，最后通过softma得到分类结果。该申请案利用Transformer提取特征进行融合。在后续的分类问题中，显著地提升了分类精度。但该方法有复杂的前处理，无法端对端的进行分类。且三个通道编码无信息互通，梯度易消失，训练较困难。

发明内容

为解决现有技术中存在的上述缺陷，本发明的目的在于提供一种基于注意力3D卷积和改进Transformer的高光谱图像分类方法及系统，用于解决现有无法同时对全局特征进行提取与融合、训练困难以及无法端对端预测的问题。无需降维等复杂的前处理即可获取高光谱的局部与全局的空谱信息，以及使用改进Transformer从全局方向上进行特征提取与融合，使整个网络模型达到良好的分类效果。

本发明是通过下述技术方案来实现的。

本发明一方面，提供了一种注意力与Transformer高光谱图像分类方法，包括：

获取高光谱图像数据立方体和地物标签；

对数据立方体的维度进行转置；对地物标签矩阵按设定比例逐像素划分；

依照地物标签矩阵划分对图像数据进行划分块；

采用注意力3D卷积层对划分块的图像进行融合；

对经历注意力3D卷积层的数据立方体以光谱维度进行划分块，输入至改进的Transformer编码层，经过解码层输出类别，得到最优模型。

优选的，获取高光谱图像数据立方体是图像的长、宽以及光谱维度，地物标签为图像的长、宽矩阵，矩阵元素值代表对应坐标的类别。

优选的，依照地物标签矩阵划分对图像数据进行子立方体大小划分。

优选的，采用注意力3D卷积层对划分块的图像进行融合，包括：

对模型权重初始化参数设定固定随机种子，采用Adam优化方法以及交叉熵损失函数；

图像子立方体输入模型之前使其第一维度后增加一个维度；

图像子立方体经过注意力3D卷积层经过三次3D卷积块卷积,对光谱与空间信息进行整合。

优选的，对数据立方体以光谱维度输入至改进的Transformer编码层；把数据立方体的空间信息分解为一维向量；进行维度变换与全连接映射；

对数据光谱维度添加绝对位置编码后，输入至Transformer块中，两个Transformer块进行短接。

优选的，使用交叉熵损失函数得到损失，进行梯度回传更新权重，得到最优模型。

本发明另一方面，提供了一种所述方法的注意力与Transformer高光谱图像分类系统，包括注意力3D卷积层、Transformer编码层和解码层；

注意力3D卷积层，包括三个3D卷积块和两个ReLU激活层，用于对划分块的图像进行光谱与空间信息的提取与融合；

Transformer编码层，包括两个Transformer块，Transformer块包括两个LayerNorm层、一个多头注意力机制层和一个MLP块，用于增强模型对于光谱信息的利用，提高高光谱图片的分类精度；

解码层，包括MLP-Head块和softmax层，用于组合提取到的特征，进行类别输出。

三个3D卷积块中，三个3D卷积块中前两个3D卷积块包括一个3D卷积层、一个光谱注意力块和一个Batch Norm层，后一个3D块包括一个3D卷积层和一个光谱注意力块。

光谱注意力块包括全局平均池化层、一维卷积层、全连接层和Sigmoid层。

MLP块包括一个升维的全连接层和GELU激活层；

解码层包括一个MLP-Head块和一个softmax层；

MLP-Head块包括一个降维的全连接层和GELU激活层。

本发明采用以上技术方案，具有以下有益效果：

1.本发明采用3D卷积同时对高光谱图像的空间与光谱信息进行特征提取，在注意力3D卷积块中的光谱维度使用大步长与大卷积核，之后逐步缩小卷积核与步长的策略，以实现局部光谱的信息整合以及数据降维，从而节省数据前处理等步骤；

2.本发明利用光谱注意力机制对光谱全局信息进行整合，以解决3D卷积核大小限制而不能有效获得全局信息的问题；

3.本发明充分利用Transformer的全局信息融合的能力，从光谱维度进行划分块，以替代传统Transformer对图片的空间维度进行分块的方法，提高了模型对光谱信息的利用，提升了高光谱图片的分类精度；

4.本发明改进了Transformer，在多头自注意模块之后进行了短接，以缓解消失梯度，增强特征传播。

5.本方面方案合理，容易实现，能端对端进行训练与预测。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的不当限定，在附图中：

图1是本发明基于注意力3D卷积和改进Transformer的高光谱图像分类系统模型框架示意图；

图2是本发明的光谱注意力块结构示意图；

图3是本发明在Salinas数据集的分类结果图；

图4是本发明在Indian Pines数据集的分类结果图。

具体实施方式

下面将结合附图以及具体实施例来详细说明本发明，在此本发明的示意性实施例以及说明用来解释本发明，但并不作为对本发明的限定。

如图1所示，本发明提供的一种基于注意力3D卷积和改进Transformer的高光谱图像分类系统。其包括注意力3D卷积层、改进的Transformer编码层以及解码层三个模块组成。

其中，注意力3D卷积层由三个3D卷积块以及两个ReLU激活层构成。前两个3D卷积块是由一个3D卷积层、一个光谱注意力块以及一个Batch Norm层组成，最后一个3D卷积块是由一个3D卷积层以及一个光谱注意力块组成。用于对划分块的高光谱图像的空间与光谱信息进行特征提取与融合。

在一个实施例中，3D卷积块对应的3D卷积核大小分别为(7，3，3)、(5，3，3)以及(3，3，3)，步长分别为3、2以及2。

其中，光谱注意力块是由全局平均池化层、一维卷积层、全连接层以及Sigmoid层构成。见图2所示，该光谱注意力块用于对光谱全局信息进行整合，以解决3D卷积核大小限制而不能有效获得全局信息的问题。

改进的Transformer编码层由两个Transformer块构成。Transformer块是由两个Layer Norm层、一个多头注意力机制(Multi-Head Attention)层以及一个MLP块组成。用于增强模型对于光谱信息的利用，提高了高光谱图片的分类精度。

MLP块是由一个升维的全连接层以及GELU激活层构成，用于重塑特征，得到升维的特征向量。

解码层由一个MLP-Head块以及一个softmax层组成，MLP-Head块是由一个降维的全连接层以及GELU激活层构成。用于组合提取到的特征，进行类别输出。

进一步，本发明提出一种基于注意力3D卷积和改进Transformer的高光谱图像分类方法，该方法采用的是逐像素划分块进行分类的方式，整个过程有：数据加载与处理、模型训练与保存以及预测三个步骤。具体包括以下步骤：

步骤1：数据加载与处理

步骤1.1：获取高光谱图像数据立方体以及地物标签。

获得的数据立方体大小为：W×H×C，其中W、H和C分别是图像的长、宽以及光谱维度，地物标签为大小W×H的矩阵，矩阵元素值代表对应坐标的类别。这里采用Salinas数据集。Salinas是一个公开数据集，由AVIRIS传感器拍摄，在一个实施例中，拍摄地点是加州，数据的空间分辨率是3.7米，大小是512×217。原始数据是224个波段，去除水汽吸收严重的波段后，还剩下204个波段，故W×H×C＝512×217×204。

步骤1.2：对数据立方体的维度进行转置。

在本实施例中，数据立方体的维度进行转置后使其大小变为：C×H×H(204×512×217)。

步骤1.3：对地物标签矩阵按设定比例逐像素划分。划分为训练集、验证集以及测试集。在本实施例中，设定比例为：3：1：6。

步骤1.4：依照地物标签矩阵划分对图像数据进行划分块；获取的图像小立方体大小为：C×s×s,其中C为未降维的高光谱图像数据在光谱的维度，s为设定大小，本实施例中，取s取值为22。

步骤2：模型训练与保存

步骤2.1：对系统模型权重初始化参数设定固定随机种子，以保证训练结果可重复。同时，本实施例中，设置batch_size为32，学习率为0.001，采用Adam优化方法以及交叉熵损失函数。

步骤2.2：图像小立方体输入模型之前使其第一维度后增加一个维度。具体如下：

X₁＝X.unsqueeze(1)

其中：X表示增加维度之前的图像小立方体(32×204×22×22)，X₁表示增加维度之后的图像小立方体(32×1×204×22×22)。

步骤2.3：图像小立方体X₁(32×1×204×22×22)经过注意力3D卷积；而注意力3D卷积层由三个3D卷积块以及两个ReLU激活层构成。其中3D卷积块对应的3D卷积核大小分别为(7，3，3)、(5，3，3)以及(3，3，3)，步长分别为3、2以及2；由此，图像小立方体X₁(32×1×204×22×22)经过这三个3D卷积块为：(32×8×66×20×20)、(32×16×31×18×18)以及(32×2×15×16×16)。

3D卷积块中有一个光谱注意力块，用以对光谱全局信息进行整合，以解决3D卷积核大小限制而不能有效获得全局信息的问题。其不改变输入数据大小，具体公式如下：

其中：X表示输入数据，

表示对应元素相乘，GAP(.)表示全局平均池化，Conv1d(.)表示一维卷积，FC(.)表示全连接，Sigmoid(.)表示0～1映射，Prshape(.)表示大小调整，调整为原来尺寸。

步骤2.4：对经历过注意力3D卷积层的数据立方体X(32×2×15×16×16)进行调整，使其变为X(32×30×16×16)。其中30这个维度代表经过局部以及全局提取的光谱信息，16×16为数据立方体的空间信息。

步骤2.5：对数据立方体以光谱维度输入至改进的Transformer编码层；首先，把数据立方体的空间信息分解为一维向量；接着进行维度变换与全连接映射。其大小变换过程如下：

(32×30×16×16)→(32×30×256)→(32×256×30)

→(32×256×768)

步骤2.6：对数据光谱维度添加绝对位置编码后，输入至Transformer块中。

Transformer块是由两个Layer Norm层、一个多头注意力机制层以及一个MLP块组成；其中：MLP块是由一个升维的全连接层以及GELU激活层构成，同时，多头注意力机制层所采用的注意力机制为：

MultiHead(Q,K,V)＝Concat(head₁,…head_h)W^O

其中：Q,K,V分别为查询矩阵、键矩阵以及值矩阵，W^O为拼接融合矩阵，d_k为输入维度，h为分头个数，i取值范围为1～h。

而两个Transformer块之间是进行了短接；这是因为在多头自注意模块之后进行短接，可以缓解消失梯度，增强特征传播。同时，为充分利用Transformer的全局信息融合的能力，从光谱维度进行划分块，以替代传统Transformer对图片的空间维度进行分块的方法，提高了模型对光谱信息的利用，提升了高光谱图片的分类精度。

步骤2.7：最后经过解码层输出类别，而解码层是由一个MLP-Head块以及一个softmax层组成。其具体如下：

Class＝softmax(GELU(FC(X)))

其中，Class代表类别，GELU(.)为激活函数，FC(.)为降维的全连接，softmax(.)为0～1映射，且和为1。

步骤2.8：使用交叉熵损失函数得到损失，进行梯度回传更新权重，得到最优模型。

步骤3：预测。重复步骤1得到图像小立方体，输入最优模型，得到逐像素分类结果。

最终，根据以上操作以及参数设置，训练150epoch得到最优模型。最终，实验结果如表1所示。

表1

	Precision	Recall	F1-score
				Brocoli_green_weeds_1	0.9617	1.0000	0.9805
Brocoli_green_weeds_2	1.0000	0.9732	0.9864
				Fallow	0.9826	1.0000	0.9912
Fallow_rough_plow	0.9541	0.9677	0.9609
				Fallow_smooth	0.9936	0.9652	0.9792
Stubble	0.9785	0.9949	0.9866
				Celery	0.9991	0.9800	0.9884
Grapes_untrained	0.9960	0.9933	0.9947
				Soil_vinyard_develop	1.0000	0.9992	0.9996
Corn_senesced_green	0.9924	0.9995	0.9959
				Lettuce_romaine_4wk	0.9905	0.9782	0.9843
Lettuce_romaine_5wk	0.9772	1.0000	0.9885
				Lettuce_romaine_6wk	0.9870	0.9691	0.9780
Lettuce_romaine_7wk	0.9984	0.9720	0.9850
				Vinyard_untrained	0.9877	0.9970	0.9924
Vinyard_vertical	1.0000	1.0000	1.0000
				Accuracy			0.9905
Macro avg	0.9874	0.9868	0.9870
				Weighted avg	0.9906	0.9905	0.9905

采用的评价指标为准确率、召回率以及F1分数。从表1可以看到各个类别的分类指标以及整体的情况。其中各个类的分类效果较好，F1分数较高。最终，整体精度达到了0.9905，表明模型具有良好的分类效果。

为了验证本发明的先进性，采用另外公开数据集Indian Pines进行实验。IndianPines数据集是由机载可视红外成像光谱仪(AVIRIS)于1992年对美国印第安纳州一块印度松树进行成像，然后截取尺寸为145×145的大小进行标注作为高光谱图像分类测试用途。Salinas数据集的分类结果见图3，Ind ian Pines数据集的分类结果见图4。其实验结果如表2所示：

表2：

从表2中可以看到各类方法的实验结果，各方法有常用的支持向量机(SV M)，一维卷积神经网络(1D-CNN)、二维神经网络(2D-CNN)、三维神经网络(3D-CNN)以及Transformer混合方法。Transformer混合方法为中国专利公开号CN114627370A，公布日2022.06.14，公开的一种基于TRANSFORMER特征融合的高光谱影像分类方法，该方法是采用空间维度划分块的方法输入Transformer层。可以看到本发明准确率不仅优于各类常见方法又优于Transformer混合方法，证明了本发明的先进性。

本发明并不局限于上述实施例，在本发明公开的技术方案的基础上，本领域的技术人员根据所公开的技术内容，不需要创造性的劳动就可以对其中的一些技术特征作出一些替换和变形，这些替换和变形均在本发明的保护范围内。

Claims

1.一种注意力与Transformer高光谱图像分类方法，其特征在于，包括：

获取高光谱图像数据立方体和地物标签；

依照地物标签矩阵划分对图像数据进行划分块；

采用注意力3D卷积层对划分块的图像进行融合；

2.根据权利要求1所述的高光谱图像分类方法，其特征在于，获取高光谱图像数据立方体是图像的长、宽以及光谱维度，地物标签为图像的长、宽矩阵，矩阵元素值代表对应坐标的类别。

3.根据权利要求1所述的高光谱图像分类方法，其特征在于，依照地物标签矩阵划分对图像数据进行子立方体大小划分。

4.根据权利要求3所述的高光谱图像分类方法，其特征在于，采用注意力3D卷积层对划分块的图像进行融合，包括：

图像子立方体输入模型之前使其第一维度后增加一个维度；

5.根据权利要求1所述的高光谱图像分类方法，其特征在于，对数据立方体以光谱维度输入至改进的Transformer编码层；把数据立方体的空间信息分解为一维向量；进行维度变换与全连接映射；

对数据光谱维度添加绝对位置编码后，输入至Transformer块中，两个Tr ansformer块进行短接。

6.根据权利要求1所述的高光谱图像分类方法，其特征在于，使用交叉熵损失函数得到损失，进行梯度回传更新权重，得到最优模型。

7.一种如权利要求1-6任一项所述方法的注意力与ransformer高光谱图像分类系统，其特征在于，包括注意力3D卷积层、Transformer编码层和解码层；

Transformer编码层，包括两个Transformer块，Transformer块包括两个Layer Norm层、一个多头注意力机制层和一个MLP块，用于增强模型对于光谱信息的利用，提高高光谱图片的分类精度；

8.根据权利要求7所述的高光谱图像分类系统，其特征在于，三个3D卷积块中，三个3D卷积块中前两个3D卷积块包括一个3D卷积层、一个光谱注意力块和一个Batch Norm层，后一个3D块包括一个3D卷积层和一个光谱注意力块。

9.根据权利要求8所述的高光谱图像分类系统，其特征在于，光谱注意力块包括全局平均池化层、一维卷积层、全连接层和Sigmoid层。

10.根据权利要求7所述的高光谱图像分类系统，其特征在于，MLP块包括一个升维的全连接层和GELU激活层；

解码层包括一个MLP-Head块和一个softmax层；

MLP-Head块包括一个降维的全连接层和GELU激活层。