CN117422932A - 一种基于多模态强化图注意力网络的高光谱图像分类方法 - Google Patents
一种基于多模态强化图注意力网络的高光谱图像分类方法 Download PDFInfo
- Publication number
- CN117422932A CN117422932A CN202311542526.8A CN202311542526A CN117422932A CN 117422932 A CN117422932 A CN 117422932A CN 202311542526 A CN202311542526 A CN 202311542526A CN 117422932 A CN117422932 A CN 117422932A
- Authority
- CN
- China
- Prior art keywords
- hyperspectral
- network
- attention
- node
- laser radar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000004927 fusion Effects 0.000 claims abstract description 22
- 230000002776 aggregation Effects 0.000 claims abstract description 10
- 238000004220 aggregation Methods 0.000 claims abstract description 10
- 238000010586 diagram Methods 0.000 claims description 51
- 239000003795 chemical substances by application Substances 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 16
- 230000007246 mechanism Effects 0.000 claims description 14
- 230000009471 action Effects 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 8
- 230000002787 reinforcement Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- 230000015654 memory Effects 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000000059 patterning Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 2
- 230000001788 irregular Effects 0.000 abstract description 6
- 238000005065 mining Methods 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 238000004088 simulation Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000011176 pooling Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000000547 structure data Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 244000141359 Malus pumila Species 0.000 description 1
- 235000011430 Malus pumila Nutrition 0.000 description 1
- 235000015103 Malus silvestris Nutrition 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000004568 cement Substances 0.000 description 1
- 238000000701 chemical imaging Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/194—Terrestrial scenes using hyperspectral data, i.e. more or other wavelengths than RGB
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Remote Sensing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Image Processing (AREA)
Abstract
本发明属于计算机视觉技术领域,公开了一种基于多模态强化图注意力网络的高光谱图像分类方法。首先,通过强化图构建子网络学习适合分类任务的两模态构图策略,将规则多模态数据转化为不规则的图结构以适应地物复杂的空间分布。然后,通过多模态边缘‑节点图注意力模块,提取空间近邻节点之间的边缘特征以建模节点特征聚合中的各节点重要性,从而捕获多模态数据的空间拓扑信息。最后,通过空间解耦多模态融合模块,将多模态特征解耦为共享部分和非共享部分,通过有针对地挖掘模态之间的共享信息和模态的特定信息提升模型对地物的区分能力。
Description
技术领域
本发明属于图像处理技术领域,尤其涉及一种基于多模态强化图注意力网络的高光谱图像分类方法。
背景技术
高光谱图像和激光雷达是两种关键且常见的遥感数据,两者分别含有丰富的光谱信息和高程信息。高光谱能够揭示地表物体的空间分布以及光谱反射信息,从而为精细地物识别奠定坚实基础。激光雷达可提供地物的高程信息,帮助模型区分具有相同光谱特征但海拔高度不同的地物,如用水泥建造的道路和屋顶。将成像机制不同的高光谱和激光雷达进行信息融合利用两模态的互补性实现更好的地物分类,对人类认识客观世界提供了有力条件。现有相关融合高光谱图像和激光雷达实现高光谱图像分类方法的性能往往受限于:特征提取算子难以适应复杂的空间分布、不同模态间关联性和特异性未被合理利用等问题。目前大多数高光谱图像和激光雷达的数据融合分类方法往往关注于如何设计有效的特征提取算子和多模态数据融合策略。
基于特征提取算子的方法主要分为手工设计和深度学习。第一种方法旨在基于数据固有特性手工设计特征提取算子,帮助模型完成多模态信息融合。基于深度学习的方法旨在利用神经网络强大的特征提取能力,自动从数据中学习高级语义特征。
基于特征提取算子的方法可以充分挖掘模态的数据特性,为多模态数据融合提供判别性信息。多模态数据融合策略可通过建立多模态数据直接的交互,利用多模态信息互补有效提升模型的地物分类性能。多模态数据融合策略主要包含像素级融合,决策级融合,以及特征级融合三种主要形式。
预设规则的特征提取算子限制了前者的性能提升,这是因为其未能充分利用高光谱和激光雷达所提供的丰富的空间拓扑信息。图学习具有捕获不规则空间依赖关系的能力,为充分利用这种空间信息提供了理论可能性。然而,图学习方法往往对于构图策略具有高度依赖性。强化学习可以通过智能体与环境的交互进行自我学习和优化,这种探索特性能够帮助模型发现新的、更有效的构图策略。基于特征级融合的方法对不同模态的空间关联性和差异性缺乏关注,易致使不同模态信息相互干扰。
发明内容
发明目的:针对上述背景技术中存在的问题,本发明提供了一种基于多模态强化图注意力网络的高光谱图像分类方法,采用强化学习方法,将规则的多模态数据转换为不规则的图结构数据,并利用图学习捕获多模态空间拓扑信息,从而显著提升了地物分类的精度。
发明内容:为实现上述目的,本发明采用的技术方案为:一种基于多模态强化图注意力网络的高光谱图像分类方法,包括如下步骤:
步骤1,以最大化奖励信号为目标,学习最优构图策略,对高光谱图像和激光雷达图像进行构图,得到高光谱空间图和激光雷达空间图;
步骤2,利用边缘特征提取器分别捕获高光谱空间图和激光雷达空间图的边特征,将所述边特征进行边缘图注意力学习,获得各邻域节点的重要性权重,利用多头注意力机制捕获更丰富的上下文信息,通过节点特征聚合对两模态空间图的节点特征进行更新;通过显式地考虑了像素间的边关系,捕获高光谱图像和激光雷达数据中的空间拓扑信息;
步骤3,将高光谱和激光雷达空间图中共享节点进行线性映射,得到查询矩阵,键矩阵和值矩阵,利用交叉注意力机制捕获高光谱和激光雷达特征可共享的类辨识信息,为各共享节点赋予注意力权重以减少类无关信息对模型的干扰,进而得到共享特征。将高光谱和激光雷达空间图中非共享节点进行线性映射,并利用自注意力机制捕获两种模态的特定信息,通过多模态融合特征输入分类器,得到预测标签。
进一步的,步骤1还包括,设计了一种基于强化学习的构图新范式,通过优化与任务目标直接相关的奖励函数学习最优的构图策略。由于构图新范式更关注于与任务目标紧密相关的结构信息,能够更准确地捕获像素之间依赖关系。
进一步的,所述根据构图策略对高光谱图像和激光雷达图像进行构图,得到高光谱空间图和激光雷达空间图,具体步骤如下:
步骤1.1,智能体所处像素的特征作为观测信息输入到所述状态观测网络中,得到状态向量st。所述状态观测网络包括多层感知机和长短期记忆网络,网络包括多层感知机的输出端连接长短期记忆网络;
步骤1.2,结合智能体所处当前像素的状态向量st和已观测的像素状态向量,利用评估网络Qe(·)对像素选择动作的价值进行评估,并基于ε-greedy策略采取动作at,所述动作at包括选择该像素,以及不选择该像素;
步骤1.3,智能体转移到下一状态st+1;
步骤1.4,利用目标网络Qt(·)根据智能体状态st+1对智能体的未来奖励进行评估,并通过最小化贝尔曼均方误差L优化智能体的当前构图策略,所述贝尔曼均方误差L表示如下:
其中,E表示期望,Qe(·)表示评估网络,we为评估网络参数,ψ为网络的学习目标,表示为:
其中,Qt(·)为目标网络,wt为目标网络参数。π(st+1)为目标网络对状态st+1的未来奖励评估。γ为奖励折扣因子。
最后,利用训练好的智能体对高光谱图像和激光雷达数据中的各像素进行选择,建立像素之间的边关系,得到所述高光谱空间图和激光雷达空间图。
进一步的,步骤2中所述利用边缘特征提取器分别捕获高光谱空间图和激光雷达空间图的边特征,对于每一条边(i,j),高光谱图像的边特征和激光雷达的边特征/>分别表示为:
其中,和/>分别表示高光谱和激光雷达的边特征,CONCAT(·)表示拼接操作,We为可学习的LiDAR边缘特征学习参数。SLM表示光谱学习模块。
进一步的,所述光谱学习模块SLM采用门循环单元GRU处理每个节点的特征序列。对于波段bl,门循环单元GRU的隐藏状态hi通过以下方式更新:
其中,⊙是哈达玛积,ri和zi是重置门和更新门,Wr,Wz,Wh,Ur,Uz,Uh为权重矩阵,mr,mz,mh为偏置项。
进一步的,步骤2中将所述边特征进行边缘图注意力学习,获得各邻域节点的重要性权重,所述各邻域节点的重要性权重采用注意力分数表示,边缘图注意力模块,通过显式地考虑了像素间的边关系,更有效地捕获高光谱图像和激光雷达数据中的空间拓扑信息
高光谱空间图像节点之间的注意力分数表示为:
激光雷达空间图像节点之间的注意力分数表示为:
进一步的,利用多头注意力机制对各节点特征进行聚合,更新特征如下;
其中,Wq为可学习的节点聚合矩阵,Q为注意力头的数量,表示注意力权重,Wq表示可学习的节点聚合矩阵,hj表示邻域节点特征,σ表示激活函数。
根据上式,高光谱空间图像的特征表示为Fi H,激光雷达空间图像的特征表示为Fi L
进一步的,步骤3中所述利用交叉注意力机制捕获两模态的共享特征,具体为:首先,将高光谱图像和激光雷达空间图进行解耦,得到共享节点特征集合和非共享节点特征集合,遍历共享节点集合中的所有高光谱图像和激光雷达的节点对,利用交叉注意力共享节点集合中各节点对的关联权重,从而捕获模态间的潜在关联,学习具有类辨识性的模态共享节点特征。
其中,为激光雷达空间图的节点特征,/>为高光谱图像空间图的节点特征,d为特征维度,Ws Q,Ws K,WV分别代表查询向量,键向量和值向量。
步骤3中利用自注意力机制分别捕获高光谱空间图的特定特征和激光雷达空间图的特定特征/>对于非共享节点集合中高光谱图像的空间图节点特征/>和激光雷达的空间图节点特征/>节点特征进行如下更新以捕获类辨识信息:
其中,σ(·)表示激活函数,W△为可学习的权重矩阵,Nj和Nk分别表示和/>的邻域节点集合。αjl和αkn表示注意力权重,可通过下式计算:
其中,WA为注意力学习参数,WΓ为映射参数,||表示连接操作。
通过全局平均池化聚合更新后的非共享节点集合中的两模态节点特征,获得模态特定特征:
其中,和/>分别表示两模态的模态特定特征。
将Ms、和/>拼接得到的多模态融合特征输入至分类器以得到预测标签/>可以捕获高光谱图像和激光雷达的共享信息和非共享信息,挖掘两种模态的关联性和特异性。/>表示为:
其中,Wcls为分类器的参数。
由于高光谱图像和激光雷达分别描述了同一地理区域的不同属性,解耦多模态融合模块通过将多模态特征解耦为共享部分和非共享部分以挖掘两种模态的关联性和差异性。
有益效果:本发明提供的一种基于多模态强化图注意力网络的高光谱图像分类方法,该网络能够根据不同的模态特性和任务智能构图以适应复杂的空间分布,并在充分利用不同模态的互补信息时抑制噪声以完成融合分类。具体而言,首先,提出强化图构建子网络学习适合分类任务的两模态构图策略,将规则多模态数据转化为不规则的图结构以适应地物复杂的空间分布。然后,提出多模态边缘-节点图注意力模块,提取空间近邻节点之间的边缘特征以建模节点特征聚合中的各节点重要性,从而捕获多模态数据的空间拓扑信息。最后,提出空间解耦多模态融合模块,将多模态特征解耦为共享部分和非共享部分,通过有针对地挖掘模态之间的共享信息和模态的特定信息提升模型对地物的区分能力。
附图说明
图1是本发明方法原理框图。
具体实施方式
下面结合附图对本发明作更进一步的说明。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的一种基于多模态强化图注意力网络的高光谱图像分类方法,具体原理如图1所示,首先,利用强化学习的自主探索能力自适应地学习适合分类任务的构图策略,构建多模态空间图。然后,利用图学习捕获高光谱图像和激光雷达多模态数据的空间拓扑结构信息,进而提高模型的特征表达能力。最后,通过将多模态数据在空间维度进行解耦,挖掘不同模态的空间关联性和差异性,抑制多模态噪声信息的干扰。
步骤1,选择高光谱图像和激光雷达数据中的像素,构建多模态空间图,包括高光谱空间图和激光雷达空间图,具体包括如下步骤;
首先,使用多层感知机和长短期记忆网络构建状态观测网络,智能体所处像素的特征作为观测信息输入到所述状态观测网络中,得到状态向量st。
结合智能体所处当前像素的状态向量st和已观测的像素状态向量,利用评估网络Qe(·)对像素选择动作的价值进行评估,并基于ε-greedy策略采取动作at,所述动作at包括选择该像素,以及不选择该像素。
接着,根据智能体当前动作at,为智能体赋予对应的奖励,并将智能体转移到下一状态st+1,即下一个像素。
之后,利用目标网络Qt(·)根据智能体状态st+1对智能体的未来奖励进行评估,并通过最小化贝尔曼均方误差L优化智能体的当前构图策略,所述贝尔曼均方误差L表示如下:
其中,E表示期望,Qe(·)表示评估网络,we为评估网络参数,ψ为网络的学习目标,表示为:
其中,Qt(·)为目标网络,wt为目标网络参数,目标网络和当前网络有相同的网络结构,每间隔若干时间步,当前网络的参数会被复制到目标网络中。π(st+1)为目标网络对状态st+1的未来奖励评估。γ为奖励折扣因子,用来调节短期奖励和长期奖励对智能体的影响。根据以下公式在贝尔曼均方误差L上相对于w进行梯度下降步骤:
最后,利用训练好的智能体对高光谱图像和激光雷达数据中的各像素进行选择,建立像素之间的边关系,将规则的多模态数据转换为不规则的空间图数据。
步骤2,空间图学习;
设定空间图G=(V,E),V是节点集,E是边集。
首先,利用边缘特征提取器分别捕获高光谱图像和激光雷达的边特征,对于每一条边(i,j),高光谱图像的边特征和激光雷达的边特征/>分别表示为:
其中,和/>分别表示高光谱的边特征和激光雷达的边特征,CONCAT(·)表示拼接操作,We为可学习的LiDAR边缘特征学习参数。SLM表示光谱学习模块,用以捕获高光谱中波段序列之间的依赖关系。
对于输入到边缘特征提取器的高光谱特征序列n={b1,b2,...,bM},其中M为序列长度。光谱学习模块SLM使用门循环单元GRU来处理每个节点的特征序列。对于波段bl,GRU的隐藏状态hi通过以下方式更新:
其中,⊙是哈达玛积,ri和zi是重置门和更新门,Wr,Wz,Wh,Ur,Uz,Uh为权重矩阵,mr,mz,mh为偏置项。
然后,利用边缘图注意力机制获得节点之间的注意力分数:
高光谱空间图像节点之间的注意力分数表示为:
激光雷达空间图像节点之间的注意力分数表示为:
最后,分别基于注意力分数和/>为高光谱空间图像和激光雷达空间图像各节点分配对应的重要性权重,利用多头注意力机制捕获更丰富的上下文信息,实现高光谱空间图像和激光雷达空间图像中各自节点特征聚合,得到节点特征聚合后的高光谱空间图像和激光雷达空间图,具体特征表示如下:
其中,Wq为可学习的节点聚合矩阵,Q为注意力头的数量。表示注意力权重,Wq表示可学习的节点聚合矩阵,hj表示邻域节点特征,σ表示激活函数。根据上式,高光谱空间图像的节点特征表示为Fi H,激光雷达空间图像的节点特征表示为Fi L。
步骤3,地物分类。
将节点特征聚合后的高光谱空间图和激光雷达空间图传入多模态融合模块,将其解耦为共享节点特征集合和非共享节点特征集合。
其中,和/>表示两模态空间图的节点特征集合,J为非共享节点集合中高光谱图像的空间图节点数量,K为非共享节点集合中激光雷达的空间图节点数量,∩表示求交集操作,C表示求补集操作,为两模态空间图的共享节点特征集合,和/>分别为高光谱空间图像和激光雷达空间图的非共享节点特征集合。
然后,遍历共享节点集合中的所有高光谱图像和激光雷达节点对,利用交叉注意力共享节点集合中各节点对的关联权重,从而捕获模态间的潜在关联,学习具有类辨识性的模态共享节点特征。例如,对于高光谱图像和激光雷达的空间图节点对模态共享节点特征/>可表示为:
其中,为激光雷达空间图的节点特征,/>为高光谱图像空间图的节点特征,d为特征维度,Ws Q,Ws K,WV分别代表查询向量,键向量和值向量。
再通过全局平均池化聚合模态共享节点特征,得到模态共享特征Ms:
其中,E表示共享节点集合中的高光谱图像和激光雷达的空间图节点对数量。
之后,考虑到非共享节点特征集合包含了部分关键的类辨识性特征,其对于融合分类来说也很重要。在多模态信息融合过程中忽略非共享节点集合会导致部分关键类辨识信息的丢失,致使多模态空间信息难被充分利用。因此,对于非共享节点集合中高光谱图像的空间图节点特征和激光雷达的空间图节点特征/>节点特征进行如下更新以捕获类辨识信息:
其中,σ(·)表示激活函数,W△为可学习的权重矩阵,Nj和Nk分别表示和/>的邻域节点集合。αjl和αkn表示注意力权重,可通过下式计算:
其中,WA为注意力学习参数,WΓ为映射参数,||表示连接操作。
通过全局平均池化聚合更新后的非共享节点集合中的两模态节点特征,获得模态特定特征:
其中,和/>分别表示两模态的模态特定特征。
最后,将Ms、和/>拼接得到的多模态融合特征输入至分类器以得到预测标签可以捕获高光谱图像和激光雷达的共享信息和非共享信息,挖掘两种模态的关联性和特异性。/>表示为:
其中,Wcls为分类器的参数。
下面结合仿真试验对本发明的效果做进一步的说明:
1.仿真试验条件:
本发明的仿真实验采用的硬件测试平台是:在Intel i7-12700k CPU,RTX 2080tiGPU,和64GB内存的服务器上完成。所有算法使用Adam作为优化器,学习率设置为0.001,weight decay设置为0.0005,batchsize设定为100。
本发明所使用的Trento数据集,该数据集的尺寸为166×600像素,空间分辨率为1米。HSI数据包含了63个光谱波段。整个数据集包含了30214个地面真实样本,涵盖了6个不同的地物类别,分别为Apple trees,Buildings,Ground,Woods,Vineyard,和Roads。
2.仿真实验及结果分析:为说明本发明采用强化图注意力进行多模态高光谱图像分类的优秀分类能力,本发明的仿真试验将与现存的三种高光谱图像分类方法进行对比。三种对比方法分别为:卷积神经网络(CNN)的方法,编码-解码网络(EndNet)的方法和跨通道重建(CCR-Net)的方法。
为了对分类结果进行量化,试验采用了以下三个评价指标:
(1)整体分类精度OA(overall accuracy),将测试集上正确分类的像素点的个数除以总的像素点的个数,称为总体精度OA,其值在0~100%之间,此值越大说明分类的效果越好。
(2)平均精度AA(average accuracy),将测试集上每类正确分类的像素点个数除以该分类所有像素的总数,得到该类的正确分类精度,将所有类别的精度的平均值称为平均精度AA,其值在0~100%之间,此值越大说明分类效果越好。
(3)Kappa(Kappa Coefficient)系数,Kappa系数是定义在混淆矩阵X上的一个评价指标,综合考虑混淆矩阵对角线上的元素和偏离对角线的元素,更客观反映了算法的分类性能,Kappa的值在-1~1范围内,此值越大说明分类效果越好。
本发明与三种现有的技术在Trento高光谱数据集上的整体分类精度OA,平均分类精度AA和Kappa系数的对比如表1所示。
表1现有技术与本发明在分类精度上的对比结果
从表1中可以看出,本发明的分类结果在OA,AA和Kappa系数上的试验结果均优于三种现有技术。
本发明采用的强化学习构图策略与分类任务直接相关,能够捕捉具有任务适应性的图结构,设计的模型不仅考虑节点特征,还深入挖掘了地物之间的边缘特征以捕捉更精细的空间拓扑结构。本发明通过整合高光谱图像与激光雷达数据完成地物分类任务,采用强化学习方法将规则的多模态数据转换为不规则的图结构数据,并利用图学习捕获多模态空间拓扑信息,因此在面对具有复杂空间分布的地物分类问题时,发明的分类精度优于其他三个现有的分类方法。
综上所述仿真试验中的结果分析,本发明所提出的方法能够有效地解决传统的特征提取算子难以适应复杂的空间分布以及不同模态间的关联性和特异性未被合理利用的问题,进一步解决了分类精度偏差的问题。
Claims (8)
1.一种基于多模态强化图注意力网络的高光谱图像分类方法,其特征在于,包括如下步骤:
步骤1,学习最优构图策略,对高光谱图像和激光雷达图像进行构图,得到高光谱空间图和激光雷达空间图;
步骤2,利用边缘特征提取器分别捕获高光谱空间图和激光雷达空间图的边特征,将所述边特征进行边缘图注意力学习,获得各邻域节点的重要性权重,并通过节点特征聚合对两模态空间图的节点特征进行更新;
步骤3,利用交叉注意力机制捕获两模态的共享特征,利用自注意力机制分别捕获高光谱空间图和激光雷达空间图的特定特征;通过拼接共享特征和特定特征得到多模态融合特征以完成对地物类别的预测。
2.根据权利要求1所述一种基于多模态强化图注意力网络的高光谱图像分类方法,其特征在于,所述根据构图策略对高光谱图像和激光雷达图像进行构图,得到高光谱空间图和激光雷达空间图,具体步骤如下:
步骤1.1,智能体所处像素的特征作为观测信息输入到状态观测网络中,得到状态向量st;
步骤1.2,结合智能体所处当前像素的状态向量st和已观测的像素状态向量,利用评估网络Qe(·)对像素选择动作的价值进行评估,并基于ε-greedy策略采取动作at,所述动作at包括选择该像素,以及不选择该像素;
步骤1.3,智能体转移到下一状态st+1;
步骤1.4,利用目标网络Qt(·)根据智能体状态st+1对智能体的未来奖励进行评估,并通过最小化贝尔曼均方误差L优化智能体的当前构图策略,所述贝尔曼均方误差L表示如下:
其中,E表示期望,Qe(·)表示评估网络,we为评估网络参数,ψ为网络的学习目标,表示为:
其中,Qt(·)为目标网络,wt为目标网络参数;π(st+1)为目标网络对状态st+1的未来奖励评估;γ为奖励折扣因子;
最后,利用训练好的智能体对高光谱图像和激光雷达数据中的各像素进行选择,建立像素之间的边关系,得到所述高光谱空间图和激光雷达空间图。
3.根据权利要求1所述一种基于多模态强化图注意力网络的高光谱图像分类方法,其特征在于,所述状态观测网络包括多层感知机和长短期记忆网络,网络包括多层感知机的输出端连接长短期记忆网络。
4.根据权利要求1所述一种基于多模态强化图注意力网络的高光谱图像分类方法,其特征在于,步骤2中所述利用边缘特征提取器分别捕获高光谱空间图和激光雷达空间图的边特征,对于每一条边(i,j),高光谱图像的边特征和激光雷达的边特征/>分别表示为:
其中,和/>分别表示高光谱和激光雷达的边特征,CONCAT(·)表示拼接操作,We为可学习的LiDAR边缘特征学习参数,SLM表示光谱学习模块。
5.根据权利要求4所述一种基于多模态强化图注意力网络的高光谱图像分类方法,其特征在于,所述光谱学习模块SLM采用门循环单元GRU处理每个节点的特征序列;对于波段bl,门循环单元GRU的隐藏状态hi通过以下方式更新:
其中,⊙是哈达玛积,ri和zi是重置门和更新门,Wr,Wz,Wh,Ur,Uz,Uh为权重矩阵,mr,mz,mh为偏置项。
6.根据权利要求4所述一种基于多模态强化图注意力网络的高光谱图像分类方法,其特征在于,步骤2中将所述边特征进行边缘图注意力学习,获得各邻域节点的重要性权重,所述各邻域节点的重要性权重采用注意力分数表示;
高光谱空间图像节点之间的注意力分数表示为:
激光雷达空间图像节点之间的注意力分数表示为:
7.根据权利要求6所述一种基于多模态强化图注意力网络的高光谱图像分类方法,其特征在于,利用多头注意力机制对各节点特征进行聚合,更新特征如下;
其中,Wq为可学习的节点聚合矩阵,Q为注意力头的数量,分类器的参数;
根据上式,高光谱空间图像的特征表示为Fi H,激光雷达空间图像的特征表示为FiL。
8.根据权利要求6所述一种基于多模态强化图注意力网络的高光谱图像分类方法,其特征在于,步骤3中所述利用交叉注意力机制捕获两模态的共享特征,具体为:首先,将高光谱图像和激光雷达空间图进行解耦,得到共享节点特征集合和非共享节点特征集合;然后,利用交叉注意力机制捕获两模态的共享节点特征表示为:
其中,为激光雷达空间图的节点特征,/>为高光谱图像空间图的节点特征,d为特征维度,WsQ,WsK,WV分别代表查询向量,键向量和值向量;
步骤3中利用注意力机制分别捕获高光谱空间图和激光雷达空间图的非共享节点特征,对于非共享节点特征进行如下更新:
其中,σ(·)表示激活函数,W△为可学习的权重矩阵,Nj和Nk分别表示和/>的邻域节点集合,/>和/>分别为高光谱图像和激光雷达的非共享节点集合中的节点;αjl和αkn表示注意力权重,通过下式计算:
其中,WA为注意力学习参数,WΓ为映射参数,||表示连接操作;
通过拼接共享特征和特定特征得到多模态融合特征以完成对地物类别的预测,表示为:
其中,Wcls为分类器的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311542526.8A CN117422932B (zh) | 2023-11-17 | 2023-11-17 | 一种基于多模态强化图注意力网络的高光谱图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311542526.8A CN117422932B (zh) | 2023-11-17 | 2023-11-17 | 一种基于多模态强化图注意力网络的高光谱图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117422932A true CN117422932A (zh) | 2024-01-19 |
CN117422932B CN117422932B (zh) | 2024-05-28 |
Family
ID=89526503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311542526.8A Active CN117422932B (zh) | 2023-11-17 | 2023-11-17 | 一种基于多模态强化图注意力网络的高光谱图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117422932B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095409A (zh) * | 2021-04-13 | 2021-07-09 | 西安电子科技大学 | 基于注意力机制和权值共享的高光谱图像分类方法 |
CN114155443A (zh) * | 2021-09-29 | 2022-03-08 | 中国人民解放军火箭军工程大学 | 一种基于多感受野图注意力网络的高光谱图像分类方法 |
CN115222994A (zh) * | 2022-08-12 | 2022-10-21 | 河海大学 | 一种基于混合光谱网络和多头自注意力机制的高光谱图像分类方法 |
CN115240080A (zh) * | 2022-08-23 | 2022-10-25 | 北京理工大学 | 一种多源遥感卫星数据智能解译与分类方法 |
CN116385841A (zh) * | 2023-02-28 | 2023-07-04 | 南京航空航天大学 | 一种基于知识图谱的多模态地物目标识别方法 |
CN116486251A (zh) * | 2023-03-01 | 2023-07-25 | 中国矿业大学 | 一种基于多模态融合的高光谱图像分类方法 |
US20230260279A1 (en) * | 2020-10-07 | 2023-08-17 | Wuhan University | Hyperspectral remote sensing image classification method based on self-attention context network |
CN116740422A (zh) * | 2023-05-24 | 2023-09-12 | 中国科学院空天信息创新研究院 | 基于多模态注意力融合技术的遥感图像分类方法及装置 |
-
2023
- 2023-11-17 CN CN202311542526.8A patent/CN117422932B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230260279A1 (en) * | 2020-10-07 | 2023-08-17 | Wuhan University | Hyperspectral remote sensing image classification method based on self-attention context network |
CN113095409A (zh) * | 2021-04-13 | 2021-07-09 | 西安电子科技大学 | 基于注意力机制和权值共享的高光谱图像分类方法 |
CN114155443A (zh) * | 2021-09-29 | 2022-03-08 | 中国人民解放军火箭军工程大学 | 一种基于多感受野图注意力网络的高光谱图像分类方法 |
CN115222994A (zh) * | 2022-08-12 | 2022-10-21 | 河海大学 | 一种基于混合光谱网络和多头自注意力机制的高光谱图像分类方法 |
CN115240080A (zh) * | 2022-08-23 | 2022-10-25 | 北京理工大学 | 一种多源遥感卫星数据智能解译与分类方法 |
CN116385841A (zh) * | 2023-02-28 | 2023-07-04 | 南京航空航天大学 | 一种基于知识图谱的多模态地物目标识别方法 |
CN116486251A (zh) * | 2023-03-01 | 2023-07-25 | 中国矿业大学 | 一种基于多模态融合的高光谱图像分类方法 |
CN116740422A (zh) * | 2023-05-24 | 2023-09-12 | 中国科学院空天信息创新研究院 | 基于多模态注意力融合技术的遥感图像分类方法及装置 |
Non-Patent Citations (3)
Title |
---|
HAOYU WANG; YUHU CHENG; C. L. PHILIP CHEN; XUESONG WANG: "Broad graph convolutional neural network and its application in hyperspectral image classification", IEEE TRANSACTIONS ON EMERGING TOPICS IN COMPUTATIONAL INTELLIGENCE, vol. 7, no. 2, 30 April 2023 (2023-04-30), pages 610 * |
万升, 杨健, 宫辰: "基于图神经网络的高光谱图像分类研究进展", 电子学报, vol. 51, no. 6, 25 June 2023 (2023-06-25), pages 1687 - 1709 * |
梁婷: "基于深度神经网络和强化学习的高光谱与激光雷达融合分类", 工程科技Ⅱ辑, 31 May 2021 (2021-05-31), pages 028 - 162 * |
Also Published As
Publication number | Publication date |
---|---|
CN117422932B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | An effective automatic system deployed in agricultural Internet of Things using Multi-Context Fusion Network towards crop disease recognition in the wild | |
CN111882040B (zh) | 基于通道数量搜索的卷积神经网络压缩方法 | |
US8331655B2 (en) | Learning apparatus for pattern detector, learning method and computer-readable storage medium | |
Li et al. | A multi-scale cucumber disease detection method in natural scenes based on YOLOv5 | |
CN111339818B (zh) | 一种人脸多属性识别系统 | |
Jiang et al. | Hyperspectral image classification with spatial consistence using fully convolutional spatial propagation network | |
EP4131077A1 (en) | Neural network optimization method and device | |
CN109858451B (zh) | 一种非配合手部检测方法 | |
Ma et al. | DCANet: Learning connected attentions for convolutional neural networks | |
CN113610118B (zh) | 一种基于多任务课程式学习的青光眼诊断方法、装置、设备及方法 | |
Biswas et al. | Hybrid expert system using case based reasoning and neural network for classification | |
Li et al. | SLViT: Shuffle-convolution-based lightweight Vision transformer for effective diagnosis of sugarcane leaf diseases | |
Wang et al. | Knowledge transfer for structural damage detection through re-weighted adversarial domain adaptation | |
Sanida et al. | Tomato leaf disease identification via two–stage transfer learning approach | |
Nagasubramanian et al. | Usefulness of interpretability methods to explain deep learning based plant stress phenotyping | |
Resti et al. | Identification of corn plant diseases and pests based on digital images using multinomial naïve bayes and k-nearest neighbor | |
Tang et al. | A Precise Image-Based Tomato Leaf Disease Detection Approach Using PLPNet | |
Li et al. | A novel hybrid approach of ABC with SCA for the parameter optimization of SVR in blind image quality assessment | |
Chen et al. | Field-road classification for GNSS recordings of agricultural machinery using pixel-level visual features | |
CN117422932B (zh) | 一种基于多模态强化图注意力网络的高光谱图像分类方法 | |
CN116580279A (zh) | 基于混合自注意力机制的番茄病害检测方法及系统 | |
Li et al. | First-order smoothing-based deep graph network for hyperspectral image classification | |
CN116958709A (zh) | 一种轻量级张量卷积长短时记忆网络的高光谱分类方法 | |
Kashyap et al. | Multi-Crop Leaf Disease Detection using Deep Learning Methods | |
Hao et al. | Architecture self-attention mechanism: Nonlinear optimization for neural architecture search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |