CN114863173A

CN114863173A - 一种面向土地资源审计的自互注意力高光谱图像分类方法

Info

Publication number: CN114863173A
Application number: CN202210487088.9A
Authority: CN
Inventors: 周峰; 徐超
Original assignee: NANJING AUDIT UNIVERSITY
Current assignee: NANJING AUDIT UNIVERSITY
Priority date: 2022-05-06
Filing date: 2022-05-06
Publication date: 2022-08-05
Anticipated expiration: 2042-05-06
Also published as: CN114863173B

Abstract

本发明公开了一种面向土地资源审计的自互注意力高光谱图像分类方法，首先构建自互注意力网络，针对高光谱图像中的每个像素点，利用自互注意力网络中的光谱特征模块和空间特征模块提取对应的光谱向量和局部领域，再输出至自互注意力模块，接着利用自互注意力模块使用互注意力机制明确地建模光谱和空间域之间的相互关系；本发明实现了借助互注意力机制实现特征交互，以此突出光谱和空间域的相关性，并在每个域中使用自注意力学习长距离依赖关系，接着在空间和光谱域的两个分类结果上应用加权求和，得到联合分类结果，该自互注意力网络能够获得优于最新先进方法的分类性能，适合被广泛推广和使用。

Description

一种面向土地资源审计的自互注意力高光谱图像分类方法

技术领域

本发明涉及图像分类技术领域，具体涉及一种面向土地资源审计的自互注意力高光谱图像分类方法。

背景技术

土地资源审计需要使用采集到的遥感图像(比如高光谱图像)以及相关部门业务数据，如国土部门的土地规划数据，对目标区域进行分析。其中，审计人员需要逐一核实土地利用等情况是否存在虚报林地建设、植树造林占用基本农田。

传统审计方法无法直接由采集到的高光谱图像数据得到准确的地物信息，需要进行费时费力的实地观测。随着人工智能，尤其是深度学习技术的兴起，可以自动地识别高光谱图像中的地物。但是，目前用于高光谱图像分类的深度学习方法大多以混合了光谱和空间信息的原始高光谱立方体作为输入。因此，它们无法明确地建模光谱和空间域之间的内在相关性(如互补关系)，导致分类性能不足。为了缓解这个问题，需要设计一种面向土地资源审计的自互注意力高光谱图像分类方法。

发明内容

本发明的目的是克服现有技术的不足，为更好的有效解决传统审计方法无法直接由采集到的高光谱图像数据得到准确的地物信息，需要进行费时费力实地观测的问题，提供了一种面向土地资源审计的自互注意力高光谱图像分类方法，其具有分类效果较好的优点。

为了达到上述目的，本发明所采用的技术方案是：

一种面向土地资源审计的自互注意力高光谱图像分类方法，包括以下步骤，

步骤(A)，构建自互注意力网络，用于对土地资源审计过程中的高光谱图像进行分类；

步骤(B)，针对高光谱图像中的每个像素点，利用自互注意力网络中的光谱特征模块和空间特征模块提取对应的光谱向量和局部领域，再输出至自互注意力模块；

步骤(C)，利用自互注意力模块使用互注意力机制明确地建模光谱和空间域之间的相互关系，并同时使用自注意力捕获各个域内的长距离依赖关系，完成对光谱和空间特征的增强；

步骤(D)，使用增强的光谱和空间特征分别得到对应的分类结果，并使用加权求和的方式融合二者，完成土地资源审计过程中高光谱图像的分类作业。

前述的一种面向土地资源审计的自互注意力高光谱图像分类方法，步骤(A)，构建自互注意力网络，用于对土地资源审计过程中的高光谱图像进行分类，其中自互注意力网络包括光谱特征模块、空间特征模块和自互注意力模块；所述光谱特征模块的基础单元包括一维卷积层、一维批量归一化层、ReLU函数和一维最大值池化层，所述空间特征模块的基础单元是光谱特征模块基础单元的二维版本。

前述的一种面向土地资源审计的自互注意力高光谱图像分类方法，步骤(B)，针对高光谱图像中的每个像素点，利用自互注意力网络中的光谱特征模块和空间特征模块提取对应的光谱向量和局部领域，再输出至自互注意力模块，其具体步骤如下，

步骤(B1)，设定一个在高光谱图像中位置为(i,j)的像素点x，再生成对应的光谱向量和局部图像块，其具体生成步骤如下；

步骤(B11)，光谱向量，其能直接从高光谱图像中提取，记作

且B代表高光谱图像的波段个数；

步骤(B12)，局部图像块，以像素点x为中心的局部图像块是由高光谱图像的前三个主成分裁剪得到的，定义为

其中N×N是图像块的空间尺寸；

步骤(B2)，光谱特征模块用于从光谱向量Z中提取光谱初始特征F_se；空间特征模块用于将局部图像块X转换为一个256个通道的特征图F_sa，且空间尺寸为

步骤(B3)，将光谱初始特征F_se和特征图F_sa一起输出至自互注意力模块。

前述的一种面向土地资源审计的自互注意力高光谱图像分类方法，步骤(C)，利用自互注意力模块使用互注意力机制明确地建模光谱和空间域之间的相互关系，并同时使用自注意力捕获各个域内的长距离依赖关系，完成对光谱和空间特征的增强，其中自互注意力模块能对输入的光谱初始特征F_se和特征图F_sa进行处理并得到增强光谱特征E_se和增强空间特征E_sa，具体步骤如下，

步骤(C1)，设已经获得了通道数为256的光谱初始特征

和通道数为256的空间图

再通过使用非线性函数将它们分别映射成三个单独的表征，其中非线性函数由一层一维/二维卷积层、一层一维/二维批量归一化层、以及ReLU函数构成；光谱域的表征定义为维度为

的Q_se、K_se和V_se，而空间域能得到维度为

的表征Q_sa、K_sa和V_sa；

与此同时，F_se和F_sa会映射到同一个空间，再将其融合得到融合特征

如公式(1)所示，

F_f＝tanh(FC(GAP1d(F_se))⊙FC(GAP2d(F_sa))) (1)

其中，GAP1d和GAP2d分别表示一维和二维的全局平均池化操作，FC代表全连接层，“⊙”表示Hadamard乘积，tanh为双曲正切函数；

步骤(C2)，推理出光谱域的光谱互注意力图

其中光谱互注意力图M_se编码了光谱和空间域的相互关系，M_se如公式(2)所示，

其中，

表示矩阵乘法，softmax操作将映射转为概率值；

步骤(C3)，M_se还用于生成第一光谱特征

如公式(3)所示，

步骤(C4)，使用自注意力将长距离依赖关系编码进光谱特征，并得到光谱自注意力图

如公式(4)所示，

步骤(C5)，S_se与V_se相乘，生成另一个第二光谱特征

如公式 (5)所示，

其中，Flatten操作将矩阵延展成向量；

步骤(C6)，通过堆叠E_se1和E_se2能获得最终的增强光谱特征

步骤(C7)，基于增强光谱特征E_se的处理过程，利用公式(2)和公式(4) 得到空间自注意力图

和空间互注意力图

其中将公式中的 Q_se和K_se替换为Q_sa和K_sa；

步骤(C8)，将空间自注意力图S_sa和空间互注意力图M_sa与V_sa相乘，得到第一空间特征

和第二空间特征

再将这两个空间特征进行堆叠，得到最终的增强空间特征

前述的一种面向土地资源审计的自互注意力高光谱图像分类方法，步骤(D)，使用增强的光谱和空间特征分别得到对应的分类结果，并使用加权求和的方式融合二者，完成土地资源审计过程中高光谱图像的分类作业，具体是增强光谱特征E_se和增强空间特征E_sa分别用于生成对应的分类结果

和

其中C是高光谱图像中类别的个数，具体步骤如下，

步骤(D1)，利用光谱和空间信息之间的互补关系，再使用光谱和空间分类结果的平均值作为最终的预测结果

步骤(D2)，对光谱分类结果P_se和空间分类结果P_sa设置监督信息，设真实分类结果图

则自互注意力网络的损失函数Loss定义如公式(6)所示，

前述的一种面向土地资源审计的自互注意力高光谱图像分类方法，所述自互注意力网络的输入为光谱向量Z和局部图像块X，输出为像素点x的类别标签。

本发明的有益效果是：本发明的一种面向土地资源审计的自互注意力高光谱图像分类方法，首先利用自互注意力网络中的光谱特征模块和空间特征模块提取对应的光谱向量和局部领域，再通过自互注意力模块来增强这两种特征；具体而言，其是借助互注意力机制实现特征交互，以此突出光谱和空间域的相关性；与此同时，在每个域中使用自注意力学习长距离依赖关系；最后，在空间和光谱域的两个分类结果上应用加权求和，得到联合分类结果；该自互注意力网络能够获得优于最新先进方法的分类性能，具有方法科学合理、适用性强和效果佳等优点。

附图说明

图1是本发明的自互注意力网络的整体流程示意图；

图2是本发明的自互注意力模块结构示意图；

图3是本发明在IndianPines(第一行)和University of Houston(第二行) 数据集上的伪彩色图和真实分类结果图；

图4是本发明在IndianPines数据集上的分类结果图；

图5是本发明在UniversityofHouston数据集上的分类结果图。

具体实施方式

下面将结合说明书附图，对本发明作进一步的说明。

如图1-5所示，本发明的一种面向土地资源审计的自互注意力高光谱图像分类方法，包括以下步骤，

步骤(A)，构建自互注意力网络，用于对土地资源审计过程中的高光谱图像进行分类，其中自互注意力网络包括光谱特征模块、空间特征模块和自互注意力模块；所述光谱特征模块的基础单元包括一维卷积层、一维批量归一化层、 ReLU函数和一维最大值池化层，所述空间特征模块的基础单元是光谱特征模块基础单元的二维版本；

其中，所述自互注意力网络的输入为光谱向量Z和局部图像块X，输出为像素点x的类别标签。

步骤(B)，针对高光谱图像中的每个像素点，利用自互注意力网络中的光谱特征模块和空间特征模块提取对应的光谱向量和局部领域，再输出至自互注意力模块，其具体步骤如下，

步骤(B11)，光谱向量，其能直接从高光谱图像中提取，记作

且B代表高光谱图像的波段个数；

其中N×N是图像块的空间尺寸；

其中，提取光谱初始特征之后，光谱向量Z的波段数量减少至原来的八分之一；与此同时，光谱向量Z的特征通道数量扩大至256；

步骤(C)，利用自互注意力模块使用互注意力机制明确地建模光谱和空间域之间的相互关系，并同时使用自注意力捕获各个域内的长距离依赖关系，完成对光谱和空间特征的增强，其中自互注意力模块能对输入的光谱初始特征F_se和特征图F_sa进行处理并得到增强光谱特征E_se和增强空间特征E_sa，具体步骤如下，

其中，自互注意力网络的核心部分是自互注意力模块，这个模块能够使用互注意力机制明确地建模光谱和空间域之间的相互关系，并同时使用自注意力捕获各个域内的长距离依赖关系；

步骤(C1)，设已经获得了通道数为256的光谱初始特征

和通道数为256的空间图

的Q_se、K_se和V_se，而空间域能得到维度为

的表征Q_sa、K_sa和V_sa；

如公式(1)所示，

F_f＝tanh(FC(GAP1d(F_se))⊙FC(GAP2d(F_sa))) (1)

步骤(C2)，推理出光谱域的光谱互注意力图

其中，

表示矩阵乘法，softmax操作将映射转为概率值；

步骤(C3)，M_se还用于生成第一光谱特征

如公式(3)所示，

如公式(4)所示，

步骤(C5)，S_se与V_se相乘，生成另一个第二光谱特征

如公式 (5)所示，

其中，Flatten操作将矩阵延展成向量；

步骤(C6)，通过堆叠E_se1和E_se2能获得最终的增强光谱特征

和空间互注意力图

其中将公式中的 Q_se和K_se替换为Q_sa和K_sa；

和第二空间特征

再将这两个空间特征进行堆叠，得到最终的增强空间特征

步骤(D)，使用增强的光谱和空间特征分别得到对应的分类结果，并使用加权求和的方式融合二者，完成土地资源审计过程中高光谱图像的分类作业，具体是增强光谱特征E_se和增强空间特征E_sa分别用于生成对应的分类结果

和

其中C是高光谱图像中类别的个数，具体步骤如下，

其中，增强特征经过一层全连接层、ReLU函数、一层全连接层转换成C维向量，并使用softmax函数将其映射为概率值。

则自互注意力网络的损失函数Loss定义如公式(6)所示，

为了更好的阐述本发明的使用效果，下面具体介绍本发明的一个具体实施例；

(1)为了评估提出的自互注意力网络的分类性能，本发明在两个公开的数据集进行了对比实验。这两个数据集包括IndianPines和UniversityofHouston。 IndianPines数据集由机载可见光/红外成像光谱仪与1992年6月12日在美国印第安纳州西北部的农田拍摄得到。IndianPines高光谱图像空间尺寸为145×145，且包含224个光谱波段(波长覆盖范围为400nm至2500nm)。在本次实验中，去除了水的吸收波段，使用剩下的200个波段。该场景中有三分之二为农作物，三分之一是森林，剩下的是自然地多年生植物。IndianPines的真实分类图主要包含16类地物。总计有10249个带标签样本可供使用。该数据集的伪彩色图和真实分布图如图3第一行所示。在IndianPines数据集上自互注意力网络的详细配置(波段数为200，局部图像块尺寸为32×32)，如表1所示。

表1

(2)UniversityofHouston数据集是由轻便机载光谱成像仪于2012年6月 23日在休斯顿大学校园和周边市区拍摄得到。该数据集总共包含349×1905像素点，覆盖波长范围从380nm至1050nm的光谱波段。该数据集包含15类研究学者感兴趣的地物类别。该数据集可获取的带标签样本数量为15029。该数据集的伪彩色图和真实分布图如图3第二行所示。针对这两个数据集，本发明都采用整体样本数量的5％、2％、以及93％分别作为训练、验证和测试，IndianPines 和UniversityofHouston数据集训练样本、验证样本、以及测试样本的数量如表2 所示。

表2

(3)本发明的自互注意力网络是使用PyTorch框架实现，并在一台CPU为 i7-10700，显卡为NVIDIARTX 3090的计算机上运行。本发明使用Adam算法优化自互注意力网络，总的迭代周期设置为200。值得注意的是，训练自互注意力网络时，使用验证样本上测试其性能。最后，将在验证样本上性能最好的模型参数保存，直接用于测试样本的结果分析。具体而言，Adam算法中的学习率设置为0.001，β₁和β₂分别设置为0.9和0.999，∈设置为1e^-8。在后面的实验中，将自互注意力网络记作SMANet(Self mutual attention network)。本发明使用总体准确率(Overallaccuracy，OA)、平均准确率(Averageaccuracy，AA)、每一类准确率、以及Kappa系数来评估分类方法的性能。OA定义了测试样本中分类准确的样本数量与总的测试样本数量的比值，AA是所有类别分类准确率的平均值，Kappa系数用于检验分类效果的一致性。为了消除随机初始化的影响，所有对比方法的实验都进行了五次，最后记录的是五次实验的平均结果。除此之外，还给出了五次实验结果的标准差，以此衡量不同方法的稳定性。本发明总共选择了五个先进的对比方法，包括3DCNN、DFFN、MorphCNN、HybridSN、以及SSTN。这些对比方法的超参数都设置为默认值。

(4)IndianPines数据集的分类结果如表3所示。

表3

表3列出了所有对比方法在IndianPines数据集上分类结果的指标。从表中可以观察到，3DCNN和HybridSN获得的分类结果是所有方法中最差的，只有不到90％的OA。这主要是因为这两类方法尝试通过三维卷积直接同时提取光谱和空间特征，而这种做法导致无法从杂糅在一起的光谱和空间信息中准确地提取光谱和空间特征。与这两种方法相比，MorphCNN和SSTN获得的OA能够提升至少5％，因为它们分别设置独立的光谱和空间特征提取过程，能够更精确地提取对应域的特征。这个现象也说明了独立提取光谱和空间特征的重要性。值得注意的是DFFN能够获得与SSTN类似的分类结果。具体而言，DFFN分类结果的OA只比SSTN的OA高出了0.1％。DFFN能够取得这样的分类结果，主要由于它设计了非常深的网络结构来提取极具判别性的特征，且同时利用网络中不同层之间的互补以及相关的关系。上述的对比方法都取得了不错的分类性能，但是都直接使用高光谱立方块作为输入。这样的输入会将光谱和空间信息混合在一起，难以建模这两个域之间的相互关系，如互补关系。得益于本发明提出的自互注意力模块，SMANet既能够准确地学习光谱和空间域之间的相互关系，又能同时捕获各个域内的长距离依赖关系。因此，与DFFN相比，SMANet 将OA从94.11％提升至96.23％，AA从85.75％提升至89.34％，Kappa系数从 93.28％提升至95.70％，获得了最佳的分类性能。图4给出了所有方法的分类结果图。从图中可以看出，SMANet获得的分类结果图更加均匀，且地物边缘更加清晰。

(5)University of Houston数据集的分类结果如表4所示。

表4

3DCNN

DFFN

MorphCNN

HybridSN

SSTN

SMANet

OA

92.70±0.38

96.37±0.15

95.59±0.56

93.72±0.46

94.05±1.15

97.92±0.14

AA

92.00±0.60

96.50±0.33

95.97±0.46

93.72±0.62

94.49±1.21

97.94±0.17

Kappa

92.11±0.41

96.07±0.17

95.23±0.61

93.21±0.50

93.57±1.25

97.75±0.14

1

96.64±0.92

98.33±0.72

99.18±0.78

97.83±1.60

99.36±0.51

98.57±1.23

2

97.77±1.41

99.58±0.31

96.31±4.38

97.32±1.74

92.11±5.64

97.65±0.60

3

100.00±0.00

98.34±0.62

99.73±0.17

99.73±0.20

99.61±0.20

100.00±0.00

4

97.12±0.88

96.85±1.40

94.01±0.26

97.99±1.46

92.74±1.20

98.58±1.07

5

99.42±0.23

99.95±0.08

99.24±0.76

99.07±0.24

99.37±1.22

99.97±0.04

6

76.63±5.33

94.69±3.80

94.56±4.31

88.09±4.17

96.70±3.13

97.09±0.65

7

92.25±1.38

93.71±2.14

94.67±2.51

89.88±2.65

96.62±1.22

97.33±0.39

8

78.56±0.99

85.14±1.23

86.09±3.32

80.68±3.32

86.53±5.25

89.73±1.41

9

85.98±1.65

91.11±2.22

91.14±3.99

90.86±1.55

87.51±8.77

98.49±0.74

10

96.09±0.65

99.86±0.20

96.00±4.99

96.23±1.35

91.79±10.34

99.95±0.05

11

91.28±1.74

98.11±0.92

97.05±2.18

88.71±1.56

91.70±5.53

99.56±0.37

12

93.86±2.37

98.48±0.44

96.59±1.45

96.35±1.33

96.30±2.44

98.09±0.32

13

84.35±6.40

93.59±1.12

95.38±0.30

90.22±5.44

89.60±10.27

94.48±0.88

14

98.72±0.88

99.75±0.55

99.31±0.47

97.45±2.75

99.61±0.75

15

91.36±2.41

99.94±0.14

99.84±0.23

93.52±5.25

99.97±0.07

从表4的UniversityofHouston数据集分类结果可以得出类似的结论。DFFN 取得了比其他对比方法更优的OA、AA、以及Kappa系数。与DFFN相比，本发明提出的SMANet将OA提升了1.55％、AA提升了1.44％、Kappa系数提升1.68％了。值得注意的是，与DFFN相比，SMANet在UniversityofHouston数据集对分类性能的提升没有IndianPines数据集那么明显。因为DFFN在 UniversityofHouston数据集上已经取得了较高的分类结果了，想再进一步提升性能非常困难。图5展示的分类结果图中可以看出，与其他方法相比，SMANet 仍然可以获得更均匀、准确的分类结果图，且能够很好地保留地物边缘。

综上所述，本发明的一种面向土地资源审计的自互注意力高光谱图像分类方法，本发明提出的自互注意力网络，以充分挖掘光谱和空间信息之间的相互关系；与现有的基于谱-空特征的分类方法不同的是，自互注意力网络利用高光谱向量和局部图像块分别提取光谱和空间特征；紧接着使用互注意力建模光谱和空间特征的相互关系，以突出最具判别性的特征；与此同时通过自注意力捕获光谱和空间域内的长距离依赖关系；两个公开高光谱图像数据集的实验结果表明，自互注意力网络获得了最好的分类性能。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种面向土地资源审计的自互注意力高光谱图像分类方法，其特征在于：包括以下步骤，

2.根据权利要求1所述的一种面向土地资源审计的自互注意力高光谱图像分类方法，其特征在于：步骤(A)，构建自互注意力网络，用于对土地资源审计过程中的高光谱图像进行分类，其中自互注意力网络包括光谱特征模块、空间特征模块和自互注意力模块；所述光谱特征模块的基础单元包括一维卷积层、一维批量归一化层、ReLU函数和一维最大值池化层，所述空间特征模块的基础单元是光谱特征模块基础单元的二维版本。

3.根据权利要求2所述的一种面向土地资源审计的自互注意力高光谱图像分类方法，其特征在于：步骤(B)，针对高光谱图像中的每个像素点，利用自互注意力网络中的光谱特征模块和空间特征模块提取对应的光谱向量和局部领域，再输出至自互注意力模块，其具体步骤如下，

步骤(B11)，光谱向量，其能直接从高光谱图像中提取，记作

且B代表高光谱图像的波段个数；

其中N×N是图像块的空间尺寸；

4.根据权利要求3所述的一种面向土地资源审计的自互注意力高光谱图像分类方法，其特征在于：步骤(C)，利用自互注意力模块使用互注意力机制明确地建模光谱和空间域之间的相互关系，并同时使用自注意力捕获各个域内的长距离依赖关系，完成对光谱和空间特征的增强，其中自互注意力模块能对输入的光谱初始特征F_se和特征图F_sa进行处理并得到增强光谱特征E_se和增强空间特征E_sa，具体步骤如下，

步骤(C1)，设已经获得了通道数为256的光谱初始特征