CN117422932A

CN117422932A - 一种基于多模态强化图注意力网络的高光谱图像分类方法

Info

Publication number: CN117422932A
Application number: CN202311542526.8A
Authority: CN
Inventors: 王雪松; 孟祥伟; 程玉虎; 王浩宇; 刘晓敏; 马雨洁
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2023-11-17
Filing date: 2023-11-17
Publication date: 2024-01-19
Anticipated expiration: 2043-11-17
Also published as: CN117422932B

Abstract

本发明属于计算机视觉技术领域，公开了一种基于多模态强化图注意力网络的高光谱图像分类方法。首先，通过强化图构建子网络学习适合分类任务的两模态构图策略，将规则多模态数据转化为不规则的图结构以适应地物复杂的空间分布。然后，通过多模态边缘‑节点图注意力模块，提取空间近邻节点之间的边缘特征以建模节点特征聚合中的各节点重要性，从而捕获多模态数据的空间拓扑信息。最后，通过空间解耦多模态融合模块，将多模态特征解耦为共享部分和非共享部分，通过有针对地挖掘模态之间的共享信息和模态的特定信息提升模型对地物的区分能力。

Description

一种基于多模态强化图注意力网络的高光谱图像分类方法

技术领域

本发明属于图像处理技术领域，尤其涉及一种基于多模态强化图注意力网络的高光谱图像分类方法。

背景技术

高光谱图像和激光雷达是两种关键且常见的遥感数据，两者分别含有丰富的光谱信息和高程信息。高光谱能够揭示地表物体的空间分布以及光谱反射信息，从而为精细地物识别奠定坚实基础。激光雷达可提供地物的高程信息，帮助模型区分具有相同光谱特征但海拔高度不同的地物，如用水泥建造的道路和屋顶。将成像机制不同的高光谱和激光雷达进行信息融合利用两模态的互补性实现更好的地物分类，对人类认识客观世界提供了有力条件。现有相关融合高光谱图像和激光雷达实现高光谱图像分类方法的性能往往受限于：特征提取算子难以适应复杂的空间分布、不同模态间关联性和特异性未被合理利用等问题。目前大多数高光谱图像和激光雷达的数据融合分类方法往往关注于如何设计有效的特征提取算子和多模态数据融合策略。

基于特征提取算子的方法主要分为手工设计和深度学习。第一种方法旨在基于数据固有特性手工设计特征提取算子，帮助模型完成多模态信息融合。基于深度学习的方法旨在利用神经网络强大的特征提取能力，自动从数据中学习高级语义特征。

基于特征提取算子的方法可以充分挖掘模态的数据特性，为多模态数据融合提供判别性信息。多模态数据融合策略可通过建立多模态数据直接的交互，利用多模态信息互补有效提升模型的地物分类性能。多模态数据融合策略主要包含像素级融合，决策级融合，以及特征级融合三种主要形式。

预设规则的特征提取算子限制了前者的性能提升，这是因为其未能充分利用高光谱和激光雷达所提供的丰富的空间拓扑信息。图学习具有捕获不规则空间依赖关系的能力，为充分利用这种空间信息提供了理论可能性。然而，图学习方法往往对于构图策略具有高度依赖性。强化学习可以通过智能体与环境的交互进行自我学习和优化，这种探索特性能够帮助模型发现新的、更有效的构图策略。基于特征级融合的方法对不同模态的空间关联性和差异性缺乏关注，易致使不同模态信息相互干扰。

发明内容

发明目的：针对上述背景技术中存在的问题，本发明提供了一种基于多模态强化图注意力网络的高光谱图像分类方法，采用强化学习方法，将规则的多模态数据转换为不规则的图结构数据，并利用图学习捕获多模态空间拓扑信息，从而显著提升了地物分类的精度。

发明内容：为实现上述目的，本发明采用的技术方案为：一种基于多模态强化图注意力网络的高光谱图像分类方法，包括如下步骤：

步骤1，以最大化奖励信号为目标，学习最优构图策略，对高光谱图像和激光雷达图像进行构图，得到高光谱空间图和激光雷达空间图；

步骤2，利用边缘特征提取器分别捕获高光谱空间图和激光雷达空间图的边特征，将所述边特征进行边缘图注意力学习，获得各邻域节点的重要性权重，利用多头注意力机制捕获更丰富的上下文信息，通过节点特征聚合对两模态空间图的节点特征进行更新；通过显式地考虑了像素间的边关系，捕获高光谱图像和激光雷达数据中的空间拓扑信息；

步骤3，将高光谱和激光雷达空间图中共享节点进行线性映射，得到查询矩阵，键矩阵和值矩阵，利用交叉注意力机制捕获高光谱和激光雷达特征可共享的类辨识信息，为各共享节点赋予注意力权重以减少类无关信息对模型的干扰，进而得到共享特征。将高光谱和激光雷达空间图中非共享节点进行线性映射，并利用自注意力机制捕获两种模态的特定信息，通过多模态融合特征输入分类器，得到预测标签。

进一步的，步骤1还包括，设计了一种基于强化学习的构图新范式，通过优化与任务目标直接相关的奖励函数学习最优的构图策略。由于构图新范式更关注于与任务目标紧密相关的结构信息，能够更准确地捕获像素之间依赖关系。

进一步的，所述根据构图策略对高光谱图像和激光雷达图像进行构图，得到高光谱空间图和激光雷达空间图，具体步骤如下：

步骤1.1，智能体所处像素的特征作为观测信息输入到所述状态观测网络中，得到状态向量s_t。所述状态观测网络包括多层感知机和长短期记忆网络，网络包括多层感知机的输出端连接长短期记忆网络；

步骤1.2，结合智能体所处当前像素的状态向量s_t和已观测的像素状态向量，利用评估网络Q_e(·)对像素选择动作的价值进行评估，并基于ε-greedy策略采取动作a_t，所述动作a_t包括选择该像素，以及不选择该像素；

步骤1.3，智能体转移到下一状态s_t+1；

步骤1.4，利用目标网络Q_t(·)根据智能体状态s_t+1对智能体的未来奖励进行评估，并通过最小化贝尔曼均方误差L优化智能体的当前构图策略，所述贝尔曼均方误差L表示如下：

其中，E表示期望，Q_e(·)表示评估网络，w_e为评估网络参数，ψ为网络的学习目标，表示为：

其中，Q_t(·)为目标网络，w_t为目标网络参数。π(s_t+1)为目标网络对状态s_t+1的未来奖励评估。γ为奖励折扣因子。

最后，利用训练好的智能体对高光谱图像和激光雷达数据中的各像素进行选择，建立像素之间的边关系，得到所述高光谱空间图和激光雷达空间图。

进一步的，步骤2中所述利用边缘特征提取器分别捕获高光谱空间图和激光雷达空间图的边特征，对于每一条边(i,j)，高光谱图像的边特征和激光雷达的边特征/>分别表示为：

其中，和/>分别表示高光谱和激光雷达的边特征，CONCAT(·)表示拼接操作，W^e为可学习的LiDAR边缘特征学习参数。SLM表示光谱学习模块。

进一步的，所述光谱学习模块SLM采用门循环单元GRU处理每个节点的特征序列。对于波段b_l，门循环单元GRU的隐藏状态h_i通过以下方式更新：

其中，⊙是哈达玛积，r_i和z_i是重置门和更新门，W_r,W_z,W_h,U_r,U_z,U_h为权重矩阵，m_r,m_z,m_h为偏置项。

进一步的，步骤2中将所述边特征进行边缘图注意力学习，获得各邻域节点的重要性权重，所述各邻域节点的重要性权重采用注意力分数表示，边缘图注意力模块，通过显式地考虑了像素间的边关系，更有效地捕获高光谱图像和激光雷达数据中的空间拓扑信息

高光谱空间图像节点之间的注意力分数表示为：

激光雷达空间图像节点之间的注意力分数表示为：

进一步的，利用多头注意力机制对各节点特征进行聚合，更新特征如下；

其中，W^q为可学习的节点聚合矩阵，Q为注意力头的数量，表示注意力权重，W^q表示可学习的节点聚合矩阵，h_j表示邻域节点特征，σ表示激活函数。

根据上式，高光谱空间图像的特征表示为F_i ^H，激光雷达空间图像的特征表示为F_i ^L

进一步的，步骤3中所述利用交叉注意力机制捕获两模态的共享特征，具体为：首先，将高光谱图像和激光雷达空间图进行解耦，得到共享节点特征集合和非共享节点特征集合，遍历共享节点集合中的所有高光谱图像和激光雷达的节点对，利用交叉注意力共享节点集合中各节点对的关联权重，从而捕获模态间的潜在关联，学习具有类辨识性的模态共享节点特征。

其中，为激光雷达空间图的节点特征，/>为高光谱图像空间图的节点特征，d为特征维度，W_s ^Q,W_s ^K,W^V分别代表查询向量，键向量和值向量。

步骤3中利用自注意力机制分别捕获高光谱空间图的特定特征和激光雷达空间图的特定特征/>对于非共享节点集合中高光谱图像的空间图节点特征/>和激光雷达的空间图节点特征/>节点特征进行如下更新以捕获类辨识信息：

其中，σ(·)表示激活函数，W_△为可学习的权重矩阵，Nj和N_k分别表示和/>的邻域节点集合。α_jl和α_kn表示注意力权重，可通过下式计算：

其中，W^A为注意力学习参数，W_Γ为映射参数，||表示连接操作。

通过全局平均池化聚合更新后的非共享节点集合中的两模态节点特征，获得模态特定特征：

其中，和/>分别表示两模态的模态特定特征。

将M^s、和/>拼接得到的多模态融合特征输入至分类器以得到预测标签/>可以捕获高光谱图像和激光雷达的共享信息和非共享信息，挖掘两种模态的关联性和特异性。/>表示为：

其中，W_cls为分类器的参数。

由于高光谱图像和激光雷达分别描述了同一地理区域的不同属性，解耦多模态融合模块通过将多模态特征解耦为共享部分和非共享部分以挖掘两种模态的关联性和差异性。

有益效果：本发明提供的一种基于多模态强化图注意力网络的高光谱图像分类方法，该网络能够根据不同的模态特性和任务智能构图以适应复杂的空间分布，并在充分利用不同模态的互补信息时抑制噪声以完成融合分类。具体而言，首先，提出强化图构建子网络学习适合分类任务的两模态构图策略，将规则多模态数据转化为不规则的图结构以适应地物复杂的空间分布。然后，提出多模态边缘-节点图注意力模块，提取空间近邻节点之间的边缘特征以建模节点特征聚合中的各节点重要性，从而捕获多模态数据的空间拓扑信息。最后，提出空间解耦多模态融合模块，将多模态特征解耦为共享部分和非共享部分，通过有针对地挖掘模态之间的共享信息和模态的特定信息提升模型对地物的区分能力。

附图说明

图1是本发明方法原理框图。

具体实施方式

下面结合附图对本发明作更进一步的说明。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的一种基于多模态强化图注意力网络的高光谱图像分类方法，具体原理如图1所示，首先，利用强化学习的自主探索能力自适应地学习适合分类任务的构图策略，构建多模态空间图。然后，利用图学习捕获高光谱图像和激光雷达多模态数据的空间拓扑结构信息，进而提高模型的特征表达能力。最后，通过将多模态数据在空间维度进行解耦，挖掘不同模态的空间关联性和差异性，抑制多模态噪声信息的干扰。

步骤1，选择高光谱图像和激光雷达数据中的像素，构建多模态空间图，包括高光谱空间图和激光雷达空间图，具体包括如下步骤；

首先，使用多层感知机和长短期记忆网络构建状态观测网络，智能体所处像素的特征作为观测信息输入到所述状态观测网络中，得到状态向量s_t。

结合智能体所处当前像素的状态向量s_t和已观测的像素状态向量，利用评估网络Q_e(·)对像素选择动作的价值进行评估，并基于ε-greedy策略采取动作a_t，所述动作a_t包括选择该像素，以及不选择该像素。

接着，根据智能体当前动作a_t，为智能体赋予对应的奖励，并将智能体转移到下一状态s_t+1，即下一个像素。

之后，利用目标网络Q_t(·)根据智能体状态s_t+1对智能体的未来奖励进行评估，并通过最小化贝尔曼均方误差L优化智能体的当前构图策略，所述贝尔曼均方误差L表示如下：

其中，Q_t(·)为目标网络，w_t为目标网络参数，目标网络和当前网络有相同的网络结构，每间隔若干时间步，当前网络的参数会被复制到目标网络中。π(s_t+1)为目标网络对状态s_t+1的未来奖励评估。γ为奖励折扣因子，用来调节短期奖励和长期奖励对智能体的影响。根据以下公式在贝尔曼均方误差L上相对于w进行梯度下降步骤：

最后，利用训练好的智能体对高光谱图像和激光雷达数据中的各像素进行选择，建立像素之间的边关系，将规则的多模态数据转换为不规则的空间图数据。

步骤2，空间图学习；

设定空间图G＝(V,E)，V是节点集，E是边集。

首先，利用边缘特征提取器分别捕获高光谱图像和激光雷达的边特征，对于每一条边(i,j)，高光谱图像的边特征和激光雷达的边特征/>分别表示为：

其中，和/>分别表示高光谱的边特征和激光雷达的边特征，CONCAT(·)表示拼接操作，W^e为可学习的LiDAR边缘特征学习参数。SLM表示光谱学习模块，用以捕获高光谱中波段序列之间的依赖关系。

对于输入到边缘特征提取器的高光谱特征序列n＝{b₁,b₂,...,b_M}，其中M为序列长度。光谱学习模块SLM使用门循环单元GRU来处理每个节点的特征序列。对于波段b_l，GRU的隐藏状态h_i通过以下方式更新：

然后，利用边缘图注意力机制获得节点之间的注意力分数：

高光谱空间图像节点之间的注意力分数表示为：

激光雷达空间图像节点之间的注意力分数表示为：

最后，分别基于注意力分数和/>为高光谱空间图像和激光雷达空间图像各节点分配对应的重要性权重，利用多头注意力机制捕获更丰富的上下文信息，实现高光谱空间图像和激光雷达空间图像中各自节点特征聚合，得到节点特征聚合后的高光谱空间图像和激光雷达空间图，具体特征表示如下：

其中，W^q为可学习的节点聚合矩阵，Q为注意力头的数量。表示注意力权重，W^q表示可学习的节点聚合矩阵，h_j表示邻域节点特征，σ表示激活函数。根据上式，高光谱空间图像的节点特征表示为F_i ^H，激光雷达空间图像的节点特征表示为F_i ^L。

步骤3，地物分类。

将节点特征聚合后的高光谱空间图和激光雷达空间图传入多模态融合模块，将其解耦为共享节点特征集合和非共享节点特征集合。

其中，和/>表示两模态空间图的节点特征集合，J为非共享节点集合中高光谱图像的空间图节点数量，K为非共享节点集合中激光雷达的空间图节点数量，∩表示求交集操作，C表示求补集操作，为两模态空间图的共享节点特征集合，和/>分别为高光谱空间图像和激光雷达空间图的非共享节点特征集合。

然后，遍历共享节点集合中的所有高光谱图像和激光雷达节点对，利用交叉注意力共享节点集合中各节点对的关联权重，从而捕获模态间的潜在关联，学习具有类辨识性的模态共享节点特征。例如，对于高光谱图像和激光雷达的空间图节点对模态共享节点特征/>可表示为：

再通过全局平均池化聚合模态共享节点特征，得到模态共享特征M^s：

其中，E表示共享节点集合中的高光谱图像和激光雷达的空间图节点对数量。

之后，考虑到非共享节点特征集合包含了部分关键的类辨识性特征，其对于融合分类来说也很重要。在多模态信息融合过程中忽略非共享节点集合会导致部分关键类辨识信息的丢失，致使多模态空间信息难被充分利用。因此，对于非共享节点集合中高光谱图像的空间图节点特征和激光雷达的空间图节点特征/>节点特征进行如下更新以捕获类辨识信息：

其中，和/>分别表示两模态的模态特定特征。

最后，将M^s、和/>拼接得到的多模态融合特征输入至分类器以得到预测标签可以捕获高光谱图像和激光雷达的共享信息和非共享信息，挖掘两种模态的关联性和特异性。/>表示为：

其中，W_cls为分类器的参数。

下面结合仿真试验对本发明的效果做进一步的说明：

1.仿真试验条件：

本发明的仿真实验采用的硬件测试平台是：在Intel i7-12700k CPU,RTX 2080tiGPU，和64GB内存的服务器上完成。所有算法使用Adam作为优化器，学习率设置为0.001，weight decay设置为0.0005，batchsize设定为100。

本发明所使用的Trento数据集，该数据集的尺寸为166×600像素，空间分辨率为1米。HSI数据包含了63个光谱波段。整个数据集包含了30214个地面真实样本，涵盖了6个不同的地物类别，分别为Apple trees，Buildings，Ground，Woods，Vineyard，和Roads。

2.仿真实验及结果分析：为说明本发明采用强化图注意力进行多模态高光谱图像分类的优秀分类能力，本发明的仿真试验将与现存的三种高光谱图像分类方法进行对比。三种对比方法分别为：卷积神经网络(CNN)的方法，编码-解码网络(EndNet)的方法和跨通道重建(CCR-Net)的方法。

为了对分类结果进行量化，试验采用了以下三个评价指标：

(1)整体分类精度OA(overall accuracy)，将测试集上正确分类的像素点的个数除以总的像素点的个数，称为总体精度OA，其值在0～100％之间，此值越大说明分类的效果越好。

(2)平均精度AA(average accuracy)，将测试集上每类正确分类的像素点个数除以该分类所有像素的总数，得到该类的正确分类精度，将所有类别的精度的平均值称为平均精度AA，其值在0～100％之间，此值越大说明分类效果越好。

(3)Kappa(Kappa Coefficient)系数，Kappa系数是定义在混淆矩阵X上的一个评价指标，综合考虑混淆矩阵对角线上的元素和偏离对角线的元素，更客观反映了算法的分类性能，Kappa的值在-1～1范围内，此值越大说明分类效果越好。

本发明与三种现有的技术在Trento高光谱数据集上的整体分类精度OA，平均分类精度AA和Kappa系数的对比如表1所示。

表1现有技术与本发明在分类精度上的对比结果

从表1中可以看出，本发明的分类结果在OA，AA和Kappa系数上的试验结果均优于三种现有技术。

本发明采用的强化学习构图策略与分类任务直接相关，能够捕捉具有任务适应性的图结构，设计的模型不仅考虑节点特征，还深入挖掘了地物之间的边缘特征以捕捉更精细的空间拓扑结构。本发明通过整合高光谱图像与激光雷达数据完成地物分类任务，采用强化学习方法将规则的多模态数据转换为不规则的图结构数据，并利用图学习捕获多模态空间拓扑信息，因此在面对具有复杂空间分布的地物分类问题时，发明的分类精度优于其他三个现有的分类方法。

综上所述仿真试验中的结果分析，本发明所提出的方法能够有效地解决传统的特征提取算子难以适应复杂的空间分布以及不同模态间的关联性和特异性未被合理利用的问题，进一步解决了分类精度偏差的问题。

Claims

1.一种基于多模态强化图注意力网络的高光谱图像分类方法，其特征在于，包括如下步骤：

步骤1，学习最优构图策略，对高光谱图像和激光雷达图像进行构图，得到高光谱空间图和激光雷达空间图；

步骤2，利用边缘特征提取器分别捕获高光谱空间图和激光雷达空间图的边特征，将所述边特征进行边缘图注意力学习，获得各邻域节点的重要性权重，并通过节点特征聚合对两模态空间图的节点特征进行更新；

步骤3，利用交叉注意力机制捕获两模态的共享特征，利用自注意力机制分别捕获高光谱空间图和激光雷达空间图的特定特征；通过拼接共享特征和特定特征得到多模态融合特征以完成对地物类别的预测。

2.根据权利要求1所述一种基于多模态强化图注意力网络的高光谱图像分类方法，其特征在于，所述根据构图策略对高光谱图像和激光雷达图像进行构图，得到高光谱空间图和激光雷达空间图，具体步骤如下：

步骤1.1，智能体所处像素的特征作为观测信息输入到状态观测网络中，得到状态向量s_t；

步骤1.3，智能体转移到下一状态s_t+1；

其中，Q_t(·)为目标网络，w_t为目标网络参数；π(s_t+1)为目标网络对状态s_t+1的未来奖励评估；γ为奖励折扣因子；

3.根据权利要求1所述一种基于多模态强化图注意力网络的高光谱图像分类方法，其特征在于，所述状态观测网络包括多层感知机和长短期记忆网络，网络包括多层感知机的输出端连接长短期记忆网络。

4.根据权利要求1所述一种基于多模态强化图注意力网络的高光谱图像分类方法，其特征在于，步骤2中所述利用边缘特征提取器分别捕获高光谱空间图和激光雷达空间图的边特征，对于每一条边(i,j)，高光谱图像的边特征和激光雷达的边特征/>分别表示为：

其中，和/>分别表示高光谱和激光雷达的边特征，CONCAT(·)表示拼接操作，We为可学习的LiDAR边缘特征学习参数，SLM表示光谱学习模块。

5.根据权利要求4所述一种基于多模态强化图注意力网络的高光谱图像分类方法，其特征在于，所述光谱学习模块SLM采用门循环单元GRU处理每个节点的特征序列；对于波段b_l，门循环单元GRU的隐藏状态h_i通过以下方式更新：

6.根据权利要求4所述一种基于多模态强化图注意力网络的高光谱图像分类方法，其特征在于，步骤2中将所述边特征进行边缘图注意力学习，获得各邻域节点的重要性权重，所述各邻域节点的重要性权重采用注意力分数表示；

高光谱空间图像节点之间的注意力分数表示为：

激光雷达空间图像节点之间的注意力分数表示为：

7.根据权利要求6所述一种基于多模态强化图注意力网络的高光谱图像分类方法，其特征在于，利用多头注意力机制对各节点特征进行聚合，更新特征如下；

其中，W^q为可学习的节点聚合矩阵，Q为注意力头的数量，分类器的参数；

根据上式，高光谱空间图像的特征表示为F_i ^H，激光雷达空间图像的特征表示为F_iL。

8.根据权利要求6所述一种基于多模态强化图注意力网络的高光谱图像分类方法，其特征在于，步骤3中所述利用交叉注意力机制捕获两模态的共享特征，具体为：首先，将高光谱图像和激光雷达空间图进行解耦，得到共享节点特征集合和非共享节点特征集合；然后，利用交叉注意力机制捕获两模态的共享节点特征表示为：

其中，为激光雷达空间图的节点特征，/>为高光谱图像空间图的节点特征，d为特征维度，W_sQ,W_sK,W^V分别代表查询向量，键向量和值向量；

步骤3中利用注意力机制分别捕获高光谱空间图和激光雷达空间图的非共享节点特征，对于非共享节点特征进行如下更新：

其中，σ(·)表示激活函数，W_△为可学习的权重矩阵，Nj和N_k分别表示和/>的邻域节点集合，/>和/>分别为高光谱图像和激光雷达的非共享节点集合中的节点；α_jl和α_kn表示注意力权重，通过下式计算：

其中，W^A为注意力学习参数，W_Γ为映射参数，||表示连接操作；

通过拼接共享特征和特定特征得到多模态融合特征以完成对地物类别的预测，表示为：

其中，W_cls为分类器的参数。