CN114708455A

CN114708455A - 高光谱影像和LiDAR数据协同分类方法

Info

Publication number: CN114708455A
Application number: CN202210303072.8A
Authority: CN
Inventors: 薛志祥; 余旭初; 刘冰; 余岸竹; 张鹏强; 谭熊; 吴慎通; 郭迎钢
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2022-07-05

Abstract

本发明属于影像分类技术领域，具体涉及一种高光谱影像和LiDAR数据协同分类方法。该方法将高光谱影像的各波段影像块和主成分影像块、LiDAR数据的波段特征输入至训练好的协同分类模型中，得到土地覆盖分类结果；其中，协同分类模型包括光谱特征提取分支、空间特征提取分支、LiDAR特征提取分支和特征融合阶段，三个分支可得到对应分支的分类特征和特征矩阵，以从多源数据中提取多模态特征；特征融合阶段用于将其中一个分支的类别特征和另一个分类的特征矩阵进行交叉注意力机制运算，得到融合后的类别特征，以上下文感知的方式融合多模态特征，自适应地动态整合异构特征，从而提高了土地覆盖分类性能。

Description

高光谱影像和LiDAR数据协同分类方法

技术领域

本发明属于影像分类技术领域，具体涉及一种高光谱影像和LiDAR数据协同分类方法。

背景技术

使用遥感数据进行地物分类是地球观测任务的一项重要程序。由于遥感数据采集技术的快速发展，同一观察场景中存在多模态的遥感数据。已经研究了许多用于土地覆盖分类的遥感数据分类方法，但大多数只考虑单模态数据，例如高光谱图像(HIS)、多光谱图像(MSI)、合成孔径雷达(SAR)、超高分辨率(VHR)图像或LiDAR数据。同时包含丰富的空间特征和近似连续的光谱信息，HSI在精确地物分类领域具有巨大优势；然而，HSI分类方法难以区分具有相似光谱特征但不同高程的物体(例如，创建屋顶和道路)。相比之下，LiDAR数据具有记录地物高程的天然优势，这可以提供补充信息进一步完善和细化土地覆盖分类。因此，将HSI和LiDAR数据用于联合地物分类是一个有意义的范例。

多模态遥感数据协同土地覆盖分类最重要的任务是如何从多源数据中正确提取多模态特征，并有效地融合这些异构特征进行联合分类。事实是光谱域中的整个光谱信息和空间域中的分层空间特征同时有助于遥感图像的解释。然而，当前的分类方法在处理光谱维度上的长距离依赖和从空间域中提取层次特征方面存在局限性；而且，这些异构特征对于解释多模态数据至关重要，尤其是对于更复杂的数据集。此外，没有合适的统一架构来有效地集成异构特征以进行跨域的协同分类，因为特征级融合模式可能会受到休斯现象和不同特征之间的不平衡问题的影响。以上提到因素在一定程度上限制了高光谱和激光雷达数据的协同分类精度。

发明内容

本发明的目的在于提供一种高光谱影像和LiDAR数据协同分类方法，用以解决现有技术中协同分类精度较低的问题。

为解决上述技术问题，本发明所提供的技术方案以及技术方案对应的有益效果如下：

本发明的一种高光谱影像和LiDAR数据协同分类方法，包括如下步骤：

1)获取同一地区的高光谱影像和LiDAR数据；

2)将高光谱影像的各波段影像块和主成分影像块、LiDAR数据的波段特征输入至训练好的协同分类模型中，得到土地覆盖分类结果；

其中，所述训练好的协同分类模型利用已知分类结果的高光谱影像数据集和LiDAR数据数据集进行训练得到，且所述协同分类模型包括光谱特征提取分支、空间特征提取分支、LiDAR特征提取分支和特征融合阶段；

所述光谱特征提取分支用于对输入的各波段影像块进行处理得到光谱类别特征和光谱特征矩阵；所述空间特征提取分支用于对输入的主成分影像块进行处理得到空间类别特征和空间特征矩阵；所述LiDAR特征提取分支用于对输入的波段特征进行处理得到LiDAR类别特征和LiDAR特征矩阵；

所述特征融合阶段包括一层融合阶段和异构特征融合阶段；所述一层融合阶段用于采用以下两种方法中的任一种方法得到三个交叉注意力机制运算结果：方法①，分别将光谱类别特征和空间特征矩阵、空间类别特征和LiDAR特征矩阵、LiDAR类别特征和光谱特征矩阵进行交叉注意力机制运算，方法②，分别将光谱类别特征和LiDAR特征矩阵、空间类别特征和光谱特征矩阵、LiDAR类别特征和空间特征矩阵进行交叉注意力机制运算；所述异构特征融合阶段用于将依据三个交叉注意力机制运算结果得到的三个融合异构特征进行点乘运算并经过多层感知机层，以得到土地覆盖分类结果。

上述技术方案的有益效果为：本发明从多源数据中提取多模态特征，即设置了三个分支，一个分支用于从高光谱影像中提取光谱类别特征和光谱特征矩阵，第二个分支用于高光谱影像中提取空间类别特征和空间特征矩阵，第三个分类用于从LiDAR数据中提取LiDAR类别特征和LiDAR特征矩阵；进而，有效的融合这些异构特征进行联合分类，具体融合的手段为，将其中一个分支的类别特征和另一个分类的特征矩阵进行交叉注意力机制运算，得到三个融合后的类别特征，以上下文感知的方式融合多模态特征，自适应地动态整合异构特征，从而提高了土地覆盖分类性能。

进一步地，所述特征融合阶段还包括二层融合阶段；所述二层融合阶段用于采用如下方法确定三个融合异构特征：当一层融合阶段采用方法①时，所述二层融合阶段用于将三个交叉注意力机制运算结果相应分别与LiDAR特征矩阵、光谱特征矩阵、空间特征矩阵进行交叉注意力机制运算，得到的结果为三个融合异构特征；当一层融合阶段采用方法②时，所述二层融合阶段用于将三个交叉注意力机制运算结果相应分别与空间特征矩阵、LiDAR特征矩阵、光谱特征矩阵进行交叉注意力机制运算，得到的结果为三个融合异构特征。

上述技术方案的有益效果为：增加了二层融合阶段，进一步融合第三个分支的特征矩阵以得到三个融合异构特征，进一步提高了土地覆盖分类精度。

进一步地，在特征融合阶段，三个融合异构特征为三个交叉注意力机制运算结果。

上述技术方案的有益效果为：在特征融合阶段，仅进行了一层融合，简化了整个协同分类模型的结构，提高了土地覆盖分类效率。

进一步地，所述交叉注意力机制运算为：

将进行交叉注意力机制运算的两个输入进行合并，表示为：

式中，

和

表示交叉注意力机制运算的两个输入，且

为两个输入中的特征矩阵，x^'l表示两个输入合并后的结果；

在两个输入之间进行多头跨注意力机制操作，表示为：

式中，W^q,W^k,W^v∈R^C×(C/h)表示三个可学习的参数矩阵，C表示嵌入特征的维度，h表示跨注意力层中的头数量；

进行如下计算以得到交叉注意力机制运算结果：

式中，

表示交叉注意力机制运算结果，LN(·)表示层归一化处理。

进一步地，所述空间特征提取分支包括依次连接的三个阶段，分别为第一空间特征提取阶段、第二空间特征提取阶段和第三空间特征提取阶段；第一空间特征提取阶段包括N₁个空间特征提取模块，第二空间特征提取阶段包括N₂个空间特征提取模块，第三空间特征提取阶段包括N₃个空间特征提取模块，每个空间特征提取模块包括依次连接的卷积特征嵌入层和卷积Transformer结构；第一空间特征提取阶和第二空间特征提取阶段的卷积特征嵌入层均用于从输入中提取出层次化局部特征，卷积Transformer结构均用于从层次化局部特征中提取出空间层次特征；第三空间特征提取阶段的卷积特征嵌入层用于从输入中提取出层次化局部特征并生成类型向量，卷积Transformer结构用于从层次化局部特征和类型向量中提取空间层次特征和空间类别特征，以最终得到空间特征矩阵和空间类别特征。

上述技术方案的有益效果为：空间特征提取分支利用卷积神经网络的理想尺度和局部不变性特性，同时保持特征提取阶段更好的泛化优点，从多级层次结构下的高光谱中提取层次空间特征。

进一步地，所述LiDAR特征提取分支包括依次连接的三个阶段，分别为第一LiDAR特征提取阶段、第二LiDAR特征提取阶段和第三LiDAR特征提取阶段；第一LiDAR特征提取阶段包括N₁个LiDAR特征提取模块，第二LiDAR特征提取阶段包括N₂个LiDAR特征提取模块，第三LiDAR特征提取阶段包括N₃个LiDAR特征提取模块，每个LiDAR特征提取模块包括依次连接的卷积特征嵌入层和卷积Transformer结构；第一LiDAR特征提取阶和第二LiDAR特征提取阶段的卷积特征嵌入层均用于从输入中提取出层次化局部特征，卷积Transformer结构均用于从层次化局部特征中提取出LiDAR层次特征；第三LiDAR特征提取阶段的卷积特征嵌入层用于从输入中提取出层次化局部特征并生成类型向量，卷积Transformer结构用于从层次化局部特征和类型向量中提取LiDAR层次特征和LiDAR类别特征，以最终得到LiDAR类别特征和LiDAR特征矩阵。

上述技术方案的有益效果为：LiDAR特征提取分支利用卷积神经网络的理想尺度和局部不变性特性，同时保持特征提取阶段更好的泛化优点，从多级层次结构下的LiDAR数据中提取层次化特征。

进一步地，所述光谱特征提取分支包括依次连接的卷积特征嵌入层和Transformer编码器，所述卷积特征嵌入层用于对输入的各波段影像块进行卷积特征嵌入并将投影后的输出作为Transformer编码器的输入，所述Transformer编码器用于得到光谱类别特征和光谱特征矩阵。

上述技术方案的有益效果为：基于自注意力机制的光谱特征提取分支可以处理沿HSI光谱维度的长距离依赖关系，这些全局光谱关系对高光谱数据具有很强的表示能力。

进一步地，光谱特征提取分支的卷积特征嵌入层在进行卷积特征嵌入时，需要在特征序列中增加位置关系信息，使用以下正弦和余弦函数来进行相对位置编码：

式中，pos∈{0,C-1}表示输入特征在特征序列中的位置索引，d_model表示嵌入特征的维数，(2i,2i+1)∈{0,d_model-1}表示沿特征维度的奇偶数索引，PE(pos)表示位置编码结果。

附图说明

图1是本发明的协同分类模型的架构图；

图2是本发明的光谱特征提取分支的结构图；

图3是本发明的空间特征提取分支的结构图；

图4是本发明的交叉注意力机制融合的结构图；

图5(a)是地面实况分类图以及部分放大示意图；

图5(b)是采用SVM进行分类的分类结果图以及部分放大示意图；

图5(c)是采用CDCNN进行分类的分类结果图以及部分放大示意图；

图5(d)是采用SSRN进行分类的分类结果图以及部分放大示意图；

图5(e)是采用DBDA进行分类的分类结果图以及部分放大示意图；

图5(f)是采用TBCNN进行分类的分类结果图以及部分放大示意图；

图5(g)是采用MML进行分类的分类结果图以及部分放大示意图；

图5(h)是采用CNN-DF进行分类的分类结果图以及部分放大示意图；

图5(i)是采用HRWN进行分类的分类结果图以及部分放大示意图；

图5(j)是采用DHViT进行分类的分类结果图以及部分放大示意图；

图5(k)是图5(a)～图5(j)的地面物体类别索引图。

具体实施方式

下面结合附图和实施例，对本发明的一种高光谱影像和LiDAR数据协同分类方法进行详细说明。

方法实施例：

本发明的一种高光谱影像和LiDAR数据协同分类方法，通过融合从HSI和LiDAR数据中提取的异构特征而用于像素级土地覆盖分类。由于局部特征对于图像识别至关重要，而远距离依赖对光谱特征也很重要，但是在低维的局部空间特征和全局光谱特征之间存在很大差异空间。本发明利用多级层次结构从高光谱和LiDAR数据中提取层次空间特征，并使用光谱序列变换器从HSI中提取远程关系，然后通过基于交叉注意的异构特征融合阶段来融合这些高级异构特征。

具体来说，所使用的协同分类模型的架构如图1所示，本实施例中称该模型为DHViT模型，该协同分类模型的架构由三个特征提取分支和一个特征融合阶段组成，三个特征提取分支分别为光谱特征提取分支、空间特征提取分支和LiDAR特征提取分支。在光谱分支中，光谱序列变换器处理沿高光谱数据光谱维度的长距离依赖关系；此外，空间和激光雷达分支中的空间分层变换器分别从HSI和激光雷达数据中提取重要的分层空间特征。特征融合阶段主要用于在提取异构特征后，通过基于交叉注意力机制的特征融合层自适应地整合这些特征以进行协作分类。

1、光谱特征提取分支。

光谱特征提取分支包括依次连接的卷积特征嵌入层和Transformer编码器，卷积特征嵌入层(实际上为一个卷积层)用于对输入的高光谱影像的各波段影像块进行卷积特征嵌入并将投影后的输出作为Transformer编码器的输入，Transformer编码器用于依据输入进行处理得到光谱类别特征和光谱特征矩阵。具体的：

完全依赖于自注意力机制的Transformer结构可以处理高光谱数据的光谱域中的全局依赖性，光谱特征提取分支如图2所示(需说明的是，图2中的“convolutionalprojection of flattened patches”和图1中的“convolutional projection”的意思一致)。由于Transformer以特征序列作为输入，首先需要将高光谱影像块沿光谱维度展开为特征序列。具体来讲，对于光谱影像块x∈R^H×W×C，采用卷积操作将每个波段的影像块转换为一维特征向量，其中，(H,W)表示影像块的空间大小，C表示波段数量。嵌入特征向量的维度为d_model，与Transformer层中的隐藏特征维度相等，特征序列的长度为C。在对高光谱影像块进行卷积特征嵌入后，使用投影后的输出作为后续Transformer编码器的特征输入。

类似于BERT模型，在嵌入特征序列中增加类别特征，其在Transformer编码器输出端的状态作为特征序列的特征表示。为了对特征序列中每个特征的位置进行建模，需要在特征序列中增加位置关系信息，使用以下正弦和余弦函数来进行相对位置编码：

其中，PE(pos)表示位置编码结果，pos∈{0,C-1}表示输入特征在特征序列中的位置索引，d_model表示嵌入特征的维数，(2i,2i+1)∈{0,d_model-1}表示沿特征维度的奇偶数索引。经过上述位置编码以后，每个特征的相对位置由一个维度为d_model的向量表示，位置向量中的值对应交替的正弦和余弦值，这些值在表示相对位置关系时，也尽可能地保持不同值之间的平衡。这些位置编码向量加入到特征序列中，在编码器之前进行一次位置编码操作。

加入类别特征和位置编码以后，嵌入的特征序列送入Transformer编码器进行特征学习，Transformer结构主要由多头自注意力层(MHSA)和多层感知机(MLP)交替组成。多头注意力层使Transformer结构从多个子空间学习不同的依赖关系，公式化表示为：

MultiHead(Q,K,V)＝Concat(y₁,y₂,…,y_h)W^O

其中，h表示多头注意力层中头的数量，W^O表示可学习的变换矩阵，d_k＝d_model/h表示每个头内的特征维数。Q_i＝X_iW_i ^q、K_i＝X_iW_i ^k和V_i＝X_iW_i ^v分别表示子空间中Q，K和V矩阵，W_i ^q、W_i ^k和W_i ^v分别表示三个不同的变换参数矩阵，X_i为第i个子空间的特征值。

在Transformer结构中，在MHSA和MLP操作之前进行层归一化操作，并且在每个自注意力层和多层感知机中引入残差连接，以提高模型的可训练性，并且充分利用不同阶段的特征来进行学习。

而且，本实施例中，Transformer编码器结构中，N设置为12。

2、空间特征提取分支。

空间特征提取分支包括依次连接的三个阶段，分别为第一空间特征提取阶段、第二空间特征提取阶段和第三空间特征提取阶段。第一空间特征提取阶段包括N₁个空间特征提取模块，第二空间特征提取阶段包括N₂个空间特征提取模块，第三空间特征提取阶段包括N₃个空间特征提取模块，每个空间特征提取模块包括依次连接的卷积特征嵌入层和卷积Transformer结构；第一空间特征提取阶和第二空间特征提取阶段的卷积特征嵌入层均用于从输入中提取出层次化局部特征，卷积Transformer结构均用于从层次化局部特征中提取出空间层次特征；第三空间特征提取阶段的卷积特征嵌入层用于从输入中提取出层次化局部特征并生成类型向量，卷积Transformer结构用于从层次化局部特征和类型向量中提取空间层次特征和空间类别特征，以最终得到空间类别特征和空间特征矩阵。本实施例中，N₁＝1，N₂＝2，N₃＝9。具体的：

原始的视觉Transformer将影像划分为不同的子块，很难提取层次化的空间特征，而这些视觉特征对于图像识别非常重要。空间层次Transformer同时利用卷积运算和Transformer结构的优势，利用多层层次结构来提取局部空间层次特征，如图3所示。与原始的Transformer不同，空间层次Transformer主要有两个操作组成，即卷积特征嵌入和卷积投影。

1)卷积特征嵌入。

Transformer中的令牌(token)是一个独立的特征单元，具有正交性和表示性，在视觉Transformer中指特定大小的影像块。卷积特征嵌入的目的在于利用多级层次结构来对局部特征进行层次化建模，这些空间特征包括低级边缘特征到高级语义单元。首先，第i-1层的输出特征转换为2维的特征图

采用卷积算子f(·)将x_i-1转换为新的特征图f(x_i-1)。其中，卷积操作的卷积核为s×s，步长为s-o，填充尺寸为p。根据卷积运算操作，新的特征图

由以下公式进行计算：

然后f(x_i-1)变换为H_iW_i×C_i大小的特征矩阵并且经过层归一化操作作为后续Transformer结构的特征输入。当使用卷积运算进行特征嵌入时，可以通过改变卷积操作中的参数来调整特征向量的数量和维度。通过这种方式，可以逐渐减少特征序列的数量，同时增加特征维度来表示更加复杂的模式。这种特征数量和维度的动态变化能够使特征向量表示不同的视觉模式，从而从图像中提取层次化的局部特征。

2)卷积Transformer结构。

注意力机制中的卷积投影的目的是通过对K和V矩阵进行欠采样来进一步增强空间建模能力。在多头注意力结构中，使用可分离卷积来替换原始的线性投影，输入的特征矩阵转化为2维的特征图，并使用卷积核大小为s×s的可分离卷积进行卷积投影。然后2维的特征图转化为一维的特征向量，并用于后续的特征学习，整个过程公式化表示为：

其中，

表示Q/K/V矩阵的特征输入，x_i表示卷积投影的特征输入，Conv2d表示卷积核为s×s的可分离卷积操作。根据卷积运算，可以通过在深度可分离卷积中设置大于1的步幅来对K和V矩阵进行二次采样。在前两个阶段改变特征向量的维度和数量后，在特征序列中加入类别特征来表示最后一个阶段的抽象特征输出，同时，空间层次Transformer结构中也包含多层感知机和层归一化操作。

3、LiDAR特征提取分支。

从图1中可以看出，LiDAR特征提取分支和空间特征提取分支的结构完全一致，只是处理的数据不同，相应的，最终提取的特征也不同。LiDAR特征提取分支包括依次连接的三个阶段，分别为第一LiDAR特征提取阶段、第二LiDAR特征提取阶段和第三LiDAR特征提取阶段。第一LiDAR特征提取阶段包括N₁个LiDAR特征提取模块，第二LiDAR特征提取阶段包括N₂个LiDAR特征提取模块，第三LiDAR特征提取阶段包括N₃个LiDAR特征提取模块，每个LiDAR特征提取模块包括依次连接的卷积特征嵌入层和卷积Transformer结构；第一LiDAR特征提取阶和第二LiDAR特征提取阶段的卷积特征嵌入层均用于从输入中提取出层次化局部特征，卷积Transformer结构均用于从层次化局部特征中提取出LiDAR层次特征；第三LiDAR特征提取阶段的卷积特征嵌入层用于从输入中提取出层次化局部特征并生成类型向量，卷积Transformer结构用于从层次化局部特征和类型向量中提取LiDAR层次特征和LiDAR类别特征，以最终得到LiDAR类别特征和LiDAR特征矩阵。具体的卷积特征嵌入层和卷积Transformer结构见“2、空间特征提取分支”中的介绍，这里不再赘述。

4、特征融合阶段。

简单的串联或者求和特征融合方法难以解决多模态数据的异构特征之间的不平衡性以及不同特征信息不均衡的特征融合问题。得益于Transformer结构强大的泛化能力，交叉注意力特征融合模式能够通过交换来自不同模态特征的类别特征来融合异构特征。如图4所示，为了动态和自适应地融合异构特征，首先利用来自一个分支的类别特征作为代理与来自另一个分支的特征矩阵交换信息，然后将其投影回自己的分支。因为类别特征包含本分支所有特征向量的抽象特征，与其他分支的信息交换有助于以上下文感知的方式交换信息，从而丰富每个分支的特征信息。

首先将左分支中的类别特征与右分支中的特征矩阵进行合并，表示为：

式中，

表示左分支中的类别向量，

表示右分支中的特征矩阵，x'^l表示合并后的结果。类似于Transformer中的多头自注意力机制，在

和

之间进行多头跨注意力机制操作，公式化表示为如下：

其中，W^q,W^k,W^v∈R^C×(C/h)是三个可学习的参数矩阵，C是嵌入特征的维度，h为跨注意力层中的头数量。

在交叉注意力特征融合中，不使用前馈网络层，包含层归一化和残差连接的交叉注意力特征融合的输出表示为：

这种基于交叉注意力的特征融合模块以上下文感知的方式自适应地集成异构特征。具体的，基于上述介绍的交叉注意力机制可采用如下四种方法实现特征融合阶段所要实现的功能。

方法1)特征融合阶段包括一层融合阶段、二层融合阶段和异构特征融合阶段：

①在一层融合阶段，将光谱类别特征和空间特征矩阵进行上述交叉注意力机制运算，得到的交叉注意力机制运算结果作为一次融后合后的光谱类别特征，而光谱特征矩阵保持不变；将空间类别特征和LiDAR特征矩阵进行上述交叉注意力机制运算，得到的交叉注意力机制运算结果作为一次融后合后的空间类别特征，而空间特征矩阵保持不变；将LiDAR类别特征和光谱特征矩阵进行上述交叉注意力机制运算，得到的交叉注意力机制运算结果作为一次融后合后的LiDAR类别特征，而LiDAR特征矩阵保持不变。

②在二层融合阶段，将一次融后合后的光谱类别特征与LiDAR特征矩阵进行上述交叉注意力机制运算，得到的交叉注意力机制运算结果作为一个融合异构特征；将一次融后合后的空间类别特征与光谱特征矩阵进行上述交叉注意力机制运算，得到的交叉注意力机制运算结果作为第二个融合异构特征；将一次融后合后的LiDAR类别特征与空间特征矩阵进行上述交叉注意力机制运算，得到的交叉注意力机制运算结果作为第三个融合异构特征。

③在异构特征融合阶段，将步骤②中的得到的三个融合异构特征进行点乘运算，然后经过多层感知机层(MLP)，以得到最终的分类结果。

方法2)特征融合阶段包括一层融合阶段、二层融合阶段和异构特征融合阶段：

①在一层融合阶段，将光谱类别特征和LiDAR特征矩阵进行上述交叉注意力机制运算，得到的交叉注意力机制运算结果作为一次融后合后的光谱类别特征，而光谱特征矩阵保持不变；将空间类别特征和光谱特征矩阵进行上述交叉注意力机制运算，得到的交叉注意力机制运算结果作为一次融后合后的空间类别特征，而空间特征矩阵保持不变；将LiDAR类别特征和空间特征矩阵进行上述交叉注意力机制运算，到的交叉注意力机制运算结果作为一次融后合后的LiDAR类别特征，而LiDAR特征矩阵保持不变。

②在二层融合阶段，将一次融后合后的光谱类别特征与空间特征矩阵进行上述交叉注意力机制运算，得到的交叉注意力机制运算结果作为一个融合异构特征；将一次融后合后的空间类别特征与LiDAR特征矩阵进行上述交叉注意力机制运算，得到的交叉注意力机制运算结果作为第二个融合异构特征；将一次融后合后的LiDAR类别特征与光谱特征矩阵进行上述交叉注意力机制运算，得到的交叉注意力机制运算结果作为第三个融合异构特征。

3)特征融合阶段包括一层融合阶段和异构特征融合阶段：

①在一层融合阶段，将光谱类别特征和空间特征矩阵进行上述交叉注意力机制运算，得到的交叉注意力机制运算结果作为一次融后合后的光谱类别特征，而光谱特征矩阵保持不变；将空间类别特征和LiDAR特征矩阵进行上述交叉注意力机制运算，得到的交叉注意力机制运算结果作为一次融后合后的空间类别特征，而空间特征矩阵保持不变；将LiDAR类别特征和光谱特征矩阵进行上述交叉注意力机制运算，到的交叉注意力机制运算结果作为一次融后合后的LiDAR类别特征，而LiDAR特征矩阵保持不变。并将一次融后合后的光谱类别特征、一次融后合后的空间类别特征和一次融后合后的LiDAR类别特征作为三个融合异构特征。

②在异构特征融合阶段，将步骤①中的得到的三个融合异构特征进行点乘运算，然后经过多层感知机层(MLP)，以得到最终的分类结果。

4)特征融合阶段包括一层融合阶段和异构特征融合阶段：

①在一层融合阶段，将光谱类别特征和LiDAR特征矩阵进行上述交叉注意力机制运算，得到的交叉注意力机制运算结果作为一次融后合后的光谱类别特征，而光谱特征矩阵保持不变；将空间类别特征和光谱特征矩阵进行上述交叉注意力机制运算，得到的交叉注意力机制运算结果作为一次融后合后的空间类别特征，而空间特征矩阵保持不变；将LiDAR类别特征和空间特征矩阵进行上述交叉注意力机制运算，到的交叉注意力机制运算结果作为一次融后合后的LiDAR类别特征，而LiDAR特征矩阵保持不变。并将一次融后合后的光谱类别特征、一次融后合后的空间类别特征和一次融后合后的LiDAR类别特征作为三个融合异构特征。

至此，便将整个DHViT模型介绍完毕。下面对基于该DHViT模型实现的一种高光谱影像和LiDAR数据协同分类方法进行介绍。

步骤一，获取大量的高光谱影像集和LiDAR数据集，且拍摄同一地区的一张高光谱影像和LiDAR数据为一组。

步骤二，对大量的高光谱影像集和LiDAR数据集进行预处理。具体的：

由于在光谱特征提取分支中，有一系列光谱序列Transformer来提取沿光谱维度的依赖关系，光谱维度Transformer的数量表示为N，光谱分支的输入是高光谱影像块，影像块的大小为16×16×B，其中B表示光谱波段数量，这些图像块沿着光谱维度展开以进行特征嵌入，因此需要将高光谱影像沿光谱维度展开，得到各波段影像块。

面对空间特征提取分支，需要先对高光谱影像进行主成分(PCA)分析操作，提取三个主成分影像块以作为后续第一空间特征提取阶段的输入，空间补丁的大小为32×32×B。

为了从LiDAR数据中利用更多有用的信息，使用不变属性剖面滤波器(IAP)从LiDAR生成的DSM中提取三个属性剖面特征。即先对提取LiDAR数据的波段特征，并将LiDAR数据的波段特征作为后续第一LiDAR特征提取阶段的输入。

步骤三，构建DHViT模型，将预处理后的高光谱影像集和LiDAR数据集、以及标记的地物类别分为训练集和测试集，对构建的DHViT模型进行训练和测试，以得到训练好的DHViT模型。

步骤四，获取拍摄同一地区的高光谱影像和LiDAR数据，将高光谱影像的各波段影像块和主成分影像块、LiDAR数据的波段特征输入至训练好的DHViT模型中，得到土地覆盖分类结果。

下面将进行仿真试验说明本发明方法的有效性。本发明所提模型使用Python编程语言在PyTorch框架中实现。采用主要的分类评估系数，即总体准确率(OA)、平均准确率(AA)和kappa系数(κ)来定量评估分类性能，还利用分类图来定性评估实验结果。为了增加实验结果的可靠性和可信度，对每个分类实验进行了十次试验。

1)实验数据。

休斯顿2013数据集涵盖休斯顿大学校园和邻近市区，在2013年GRSS数据融合竞赛中公开发布。高光谱数据中总共包含144个光谱带，范围从380nm到1050nm。该数据集包含349×1905个像素，空间分辨率为2.5m。图像覆盖范围内包含15种可区分的地物，土地覆盖类别以及详细的样本数量见表1所示。图5(a)给出了休斯顿2013数据集的样本数据。

表1实验数据样本类别和数量

2)实验设置。

为了评估所提方法的分类性能，使用了几种最先进的方法进行比较实验。这些模型包括基于深度学习的模型(即CDCNN、SSRN、DBDA、TBCNN、MML、CNN-DF和HRWN)以及具有径向基函数核函数的SVM。为了更公平地进行对比实验，在所有方法中使用相同数量的训练样本，并将训练样本的20％设置为验证样本。

3)实验结果和分析。

表2列出了在实验数据集上使用不同分类方法的平均OA、AA、kappa系数和相应方差以及每类地物的分类精度。

表2不同分类方法在休斯顿2013数据集上得到的分类结果(％)

表2展示了不同分类方法在平均OA、AA、kappa以及每种类别准确率方面得到的详细对比实验结果，这些表中还报告了OA、AA和kappa的均方根误差。这些表格中的粗体值表示对应行中的最优值。通过对这些定量实验结果的分析，通过上述定量比较，可以得出以下几个结论：

首先，更深的模型通常具有更好的分类性能。比较不同方法得到的定量分类结果，隐藏层数较多的分类方法(如SSRN、DBDA和HRWN)比隐藏层数较少的模型(如SVM、TBCNN)可以获得更高的分类精度。这种现象背后的原因是更深的模型可以提取更深、更复杂的特征，并且这些特征具有更强的判别性。

其次，决策级融合方法(例如CNN-DF、HRWN和DHViT)可以获得比特征级融合方法(例如SVM、CDCNN和TBCNN)更高的分类精度。原因是决策级融合模式可以有效地融合多模态数据集的互补信息进行协同分类，而特征级融合模型难以解决异构特征之间特征值不平衡的融合问题。

第三，自注意力机制有助于分类性能。利用自注意力机制有两种不同的方式；第一个是在卷积网络结构(即DBDA)中引入独立的注意力块以自适应地突出信息特征，另一个是完全基于自注意力机制的Transformer架构，两种方法都可以在相似的网络结构下提高分类精度，而基于Transformer的结构可以获得更高的分类精度。

此外，交叉注意力融合方法是一种有效的决策级融合模式。在使用相同数量的训练样本的情况下，所提出的方法可以达到最高的协同分类精度。这是因为基于交叉注意力的决策级融合方法可以自适应地动态整合异构特征，从而有效解决多模态数据的异构特征之间的不平衡和不同特征所包含的信息不平等。

除了使用评估指标进行定量评估外，还使用不同模型获得的分类图进行视觉比较。图5(b)～图5(j)展示了通过几种比较方法获得的分类图和所提方法在基准数据集上的分类图，其中还显示了部分放大视图以进行更好的视觉比较。在这些图中，每种灰度颜色对应一个特定的地面物体类别，并且还显示了地面实况图以更好地将分类图与地面对象进行比较。其中，图5(a)是地面实况分类图以及部分放大示意图，图5(b)～图5(j)分别是采用SVM、CDCNN、SSRN、DBDA、TBCNN、MML、CNN-DF、HRWN、DHViT分类方法进行分类的分类结果图以及部分放大示意图，图5(k)是地面物体类别索引图。当将图5(b)～图5(j)中部分放大视图的分类图与地面实况图进行比较时，可以观察到具有决策级融合策略的更深模型可以生成更逼真的分类图；此外，本发明提出的DHViT模型实现了更均匀的分类图，具有最少的噪声像素。从这些分类图的局部放大视图中，发现所提出的方法可以更有效地区分不同的地面特征，从而获得更逼真的分类图。这是因为所提出的基于Transformer的架构可以从高光谱和LiDAR数据中实现异构特征的有效提取和融合，从而减少噪声像素并生成更平滑的分类结果图。

综上，本发明的协同分类方法具有两个主要优点。首先，在遥感数据土地覆盖分类中，不同的数据具有不同的模态特征，例如，光谱特征是一维的，而空间特征是二维的，基于这一事实，本发明利用一种新颖的转换器架构来对遥感数据进行建模，即频谱序列Transformer来处理沿频谱维度的远程依赖关系和空间分层Transformer来提取分层空间特征，而且，空间特征提取阶段利用卷积神经网络的理想尺度和局部不变性特性，在多级层次结构下从高光谱和LiDAR数据中提取层次空间特征。此后，利用Transformer强大的泛化能力，本发明进一步提出了一种基于交叉注意力机制的新型决策级特征融合模式，使用一个分支的分类标记与其他分支交换信息，以上下文感知的方式融合多模态特征，从而自适应融合异构特征进行协同分类。因此，深度层次视觉Transformer模型可以提取更多的判别特征并有效地融合异构特征以进行土地覆盖分类。

Claims

1.一种高光谱影像和LiDAR数据协同分类方法，其特征在于，包括如下步骤：

1)获取同一地区的高光谱影像和LiDAR数据；

其中，所述训练好的协同分类模型利用部分地物类别信息和对应的高光谱影像数据集和LiDAR数据集进行训练得到，且所述协同分类模型包括光谱特征提取分支、空间特征提取分支、LiDAR特征提取分支和特征融合阶段；

2.根据权利要求1所述的高光谱影像和LiDAR数据协同分类方法，其特征在于，所述特征融合阶段还包括二层融合阶段；所述二层融合阶段用于采用如下方法确定三个融合异构特征：当一层融合阶段采用方法①时，所述二层融合阶段用于将三个交叉注意力机制运算结果相应分别与LiDAR特征矩阵、光谱特征矩阵、空间特征矩阵进行交叉注意力机制运算，得到的结果为三个融合异构特征；当一层融合阶段采用方法②时，所述二层融合阶段用于将三个交叉注意力机制运算结果相应分别与空间特征矩阵、LiDAR特征矩阵、光谱特征矩阵进行交叉注意力机制运算，得到的结果为三个融合异构特征。

3.根据权利要求1所述的高光谱影像和LiDAR数据协同分类方法，其特征在于，在特征融合阶段，三个融合异构特征为三个交叉注意力机制运算结果。

4.根据权利要求1～3任一项所述的高光谱影像和LiDAR数据协同分类方法，其特征在于，所述交叉注意力机制运算为：

将进行交叉注意力机制运算的两个输入进行合并，表示为：

式中，

和

表示交叉注意力机制运算的两个输入，且

为两个输入中的特征矩阵，x'^l表示两个输入合并后的结果；

在两个输入之间进行多头跨注意力机制操作，表示为：

进行如下计算以得到交叉注意力机制运算结果：

式中，

表示交叉注意力机制运算结果，LN(·)表示层归一化处理。

5.根据权利要求1所述的高光谱影像和LiDAR数据协同分类方法，其特征在于，所述空间特征提取分支包括依次连接的三个阶段，分别为第一空间特征提取阶段、第二空间特征提取阶段和第三空间特征提取阶段；

第一空间特征提取阶段包括N₁个空间特征提取模块，第二空间特征提取阶段包括N₂个空间特征提取模块，第三空间特征提取阶段包括N₃个空间特征提取模块，每个空间特征提取模块包括依次连接的卷积特征嵌入层和卷积Transformer结构；第一空间特征提取阶和第二空间特征提取阶段的卷积特征嵌入层均用于从输入中提取出层次化局部特征，卷积Transformer结构均用于从层次化局部特征中提取出空间层次特征；第三空间特征提取阶段的卷积特征嵌入层用于从输入中提取出层次化局部特征并生成类型向量，卷积Transformer结构用于从层次化局部特征和类型向量中提取空间层次特征和空间类别特征，以最终得到空间特征矩阵和空间类别特征。

6.根据权利要求1所述的高光谱影像和LiDAR数据协同分类方法，其特征在于，所述LiDAR特征提取分支包括依次连接的三个阶段，分别为第一LiDAR特征提取阶段、第二LiDAR特征提取阶段和第三LiDAR特征提取阶段；

第一LiDAR特征提取阶段包括N₁个LiDAR特征提取模块，第二LiDAR特征提取阶段包括N₂个LiDAR特征提取模块，第三LiDAR特征提取阶段包括N₃个LiDAR特征提取模块，每个LiDAR特征提取模块包括依次连接的卷积特征嵌入层和卷积Transformer结构；第一LiDAR特征提取阶和第二LiDAR特征提取阶段的卷积特征嵌入层均用于从输入中提取出层次化局部特征，卷积Transformer结构均用于从层次化局部特征中提取出LiDAR层次特征；第三LiDAR特征提取阶段的卷积特征嵌入层用于从输入中提取出层次化局部特征并生成类型向量，卷积Transformer结构用于从层次化局部特征和类型向量中提取LiDAR层次特征和LiDAR类别特征，以最终得到LiDAR类别特征和LiDAR特征矩阵。

7.根据权利要求1所述的高光谱影像和LiDAR数据协同分类方法，其特征在于，所述光谱特征提取分支包括依次连接的卷积特征嵌入层和Transformer编码器，所述卷积特征嵌入层用于对输入的各波段影像块进行卷积特征嵌入并将投影后的输出作为Transformer编码器的输入，所述Transformer编码器用于得到光谱类别特征和光谱特征矩阵。

8.根据权利要求7所述的高光谱影像和LiDAR数据协同分类方法，其特征在于，光谱特征提取分支的卷积特征嵌入层在进行卷积特征嵌入时，需要在特征序列中增加位置关系信息，使用以下正弦和余弦函数来进行相对位置编码：