CN116863247A

CN116863247A - 一种融合全局和局部信息的多模态遥感数据分类方法

Info

Publication number: CN116863247A
Application number: CN202311056294.5A
Authority: CN
Inventors: 涂兵; 任启; 廖晓龙; 叶井飞; 曹兆楼; 陈云云
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-08-22
Filing date: 2023-08-22
Publication date: 2023-10-10

Abstract

本发明公开了一种融合全局和局部信息的多模态遥感数据分类方法，属于高光谱图像处理技术领域，包括获取待分类的多模态遥感数据集，并输入至预先训练好的多模态遥感数据分类模型；所述多模态遥感数据分类模型基于所述待分类的多模态遥感数据集，输出多模态遥感数据分类结果。本发明解决了现有技术中多模态卷积的可解释性差，对于跨模态特征提取不够充分，且上下文独立的卷积结构难以捕获全局信息的问题，通过特征解耦的方式将多模态信息分解为共有信息和特有信息，实现多模态信息融合，充分挖掘多模态遥感数据的特征，大幅度降低了遥感图像领域中深度学习模型对于训练数据的需求，以此实现更准确的图像分类。

Description

一种融合全局和局部信息的多模态遥感数据分类方法

技术领域

本发明涉及高光谱图像处理技术领域，尤其涉及一种融合全局和局部信息的多模态遥感数据分类方法。

背景技术

高光谱图像能够反映地面物体丰富的空间和光谱细节信息，因此，高光谱在土地覆盖分类中的应用在地质勘探、城市发展规划、森林管理和精准农业等众多领域具有重要的指示作用。而LiDAR数据不仅可以记录观测对象的高程信息，而且具有不易受天气和遮挡等环境因素干扰的优点。由于成像机制的差异，高光谱和LiDAR数据可用于获得地面物体的不同方面，它们的互补信息有利于提高土地覆盖分类任务的性能。因此，高光谱和LiDAR数据的融合可以帮助实现更准确的图像分类，这成为一个热门的研究课题。然而，很难捕捉复杂的局部和全局空间-光谱关联；与此同时，如何在多模态数据之间建立有效的交互是另一个重要问题。

多模态图像融合分类主要是结合各个模态图像的特点实现遥感图像分类任务，如有物理含义的高亮区域和纹理区域。然而，目前多模态主要通过卷积提取特征，但卷积的可解释性差，难以控制，对于跨模态特征提取不够充分，难以提取到模态特有的特征；且上下文独立的卷积结构只能在相对小的感受野内提取到局部信息，难以捕获全局信息；同时网络的前向传播会造成高频信息丢失。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种融合全局和局部信息的多模态遥感数据分类方法，解决现有技术中多模态卷积的可解释性差，难以控制，对于跨模态特征提取不够充分，且上下文独立的卷积结构难以捕获全局信息的问题。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种融合全局和局部信息的多模态遥感数据分类方法，包括：

获取待分类的多模态遥感数据集，并输入至预先训练好的多模态遥感数据分类模型；

所述多模态遥感数据分类模型基于所述待分类的多模态遥感数据集，输出多模态遥感数据分类结果；

所述多模态遥感数据分类模型的训练方法包括：

获取原始高光谱遥感数据和LiDAR数据，对原始高光谱遥感数据进行降维处理，获取低维高光谱特征；

根据确定的训练样本数目，从低维高光谱特征和LiDAR数据中随机筛选出训练集和测试集，搭建初始多模态遥感数据分类模型，并设置多模态遥感数据分类模型的迭代次数和参数；

将低维高光谱特征和LiDAR数据进行多尺度信息融合，获取低维高光谱浅层特征和LiDAR数据浅层特征；

通过双分支Transformer-CNN特征提取器，将低维高光谱浅层特征和LiDAR数据浅层特征分别进行全局信息提取和局部信息提取，获取低维高光谱的低频全局特征和高频局部特征以及LiDAR数据的低频全局特征和高频局部特征；

通过ECA模块融合低维高光谱的低频全局特征和高频局部特征以及LiDAR数据的低频全局特征和高频局部特征，利用训练集循环训练初始多模态遥感数据分类模型；当达到最大迭代次数时，获取最终的多模态遥感数据分类模型。

结合第一方面，进一步的，所述双分支Transformer-CNN特征提取器包括SIM-Transformer模块和INN模块，其中，SIM-Transformer模块用于利用结构信息建模学习处理低频全局特征，INN模块用于提取高频局部特征。

结合第一方面，进一步的，所述将低维高光谱特征和LiDAR数据进行多尺度信息融合，获取低维高光谱浅层特征和LiDAR数据浅层特征，包括：

将高光谱遥感图像H和LiDAR L分别通过3×3、5×5和7×7卷积操作，获取多尺度信息H_3×3、H_5×5、H_7×7、L_3×3、L_5×5和L_7×7；按通道维度，融合三个尺度特征，叠加输入相对应的第j维度，获得叠加特征公式为：

式中，F_c为多尺度空谱特征，k为特征维数，Concat为通道叠加，i为多尺度操作，为叠加特征，j为维度数；

对的通道维度执行元素相加、元素平均和元素最大化，以生成表示不同处理方法和属性的三个特征图/>和/>公式为：

式中，为对/>的通道维度执行元素最大化生成的特征图，/>为对/>的通道维度执行元素平均生成的特征图，/>为对/>的通道维度执行元素相加生成的特征图；

将和/>叠加，进一步通过3×3卷积融合多尺度特征，公式为：

式中，F^j为将和/>叠加并通过卷积融合的特征；

将基于多尺度的三个尺度的k组的特征图级联，以获得最终的具有维度k的低维浅层特征，公式为：

式中，H₁为具有维度k的低维高光谱浅层特征。

结合第一方面，进一步的，所述通过双分支Transformer-CNN特征提取器，将低维高光谱浅层特征和LiDAR数据浅层特征分别进行全局信息提取和局部信息提取，获取低维高光谱的低频全局特征和高频局部特征以及LiDAR数据的低频全局特征和高频局部特征，包括：

将获取到的浅层特征通过线性映射投影到D维嵌入中，引入可学习的cls嵌入令牌，并将其放在输入序列嵌入的开始，将位置信息嵌入添加到输入序列嵌入，以获得第一层SIM-Transformer的输入，则：

式中，z₀为第一层SIM-Transformer的输入，x_cls为可学习的cls嵌入令牌，F(·)为线性映射，E_p为位置信息嵌入，为浅层特征H₁中patch的第N个位置令牌，N是patch数；

则第l个SIM-Transformer的公式为：

z′_l＝LN(MSA(z_l-1)+z_l-1)

z_l＝LN(FFN(z′_l)+z′_l)；

式中，LN(·)为层归一化，FFN为前馈神经网络，MSA为多头注意力机制，z_l为第l个SIM-Transformer，z′_l为第l个SIM-Transformer的中间特征。

引入结构信息学习，将对象空间上下文信息纳入Transformer中，假设Transformer层有H层，Q和K是D维所有令牌的维度查询和密钥向量，具体公式如下：

式中，h＝1，2，...，H和N＝N_H×N_W是patch数，D为维度，Q是D维所有令牌的维度查询，K是D维所有令牌的密钥向量，softmax(.)为激活函数，归一化令牌，K^T表示为K的转置；

提取patch到令牌和每个头部的cls令牌之间的注意力权重，表示为相应的总注意力权重计算为：

式中，A为相应的总注意力权重，为patch到令牌和每个头部的cls令牌之间的注意力权重；

对于不重要patch进行过滤，设置为阈值，新的注意力权重为：

式中，为新的注意力权重，A_(x，y)为在(x，y)位置的patch令牌和cls令牌之间的关系权重，/>为阈值。

具有最高关注权重的patch视为最具判别力的patch，设置为参考patch，给定参考和水平参考方向，patchP_x，y的极坐标定义为：

式中，ρ_x，y是P₀与P_x，y的相对距离，θ_x，y是相对于水平方向的归一化极角，N_H为patch的长，N_W为patch的宽，(x₀，y₀)是N_H×N_W平面的索引，x为N_H×N_W平面的横坐标位置，y为N_H×N_W平面的纵坐标位置；

因此，结构特征通过两层图卷积获得：

S＝σ(Adj×σ(Adj×X×W¹)×W²)；

式中，S为结构特征，W¹和W²为可学习参数，σ为Sigmod激活函数，Adj＝A^new×(A^new)^T为基于A^new的节点之间的边权重，X为patch节点特征；

用INN搭配Afiine Coupling层，每个可逆层的变化为：

式中，⊙为Hadamard乘积，为第k个可逆层的输入特征的第1到第c个通道，k＝1，...，K，ψ_i是任意映射函数，不影响可逆层的无损信息传输，i＝1，...，3，C为局部特征的通道数。

结合第一方面，进一步的，所述通过ECA模块融合低维高光谱的低频全局特征和高频局部特征以及LiDAR数据的低频全局特征和高频局部特征，包括：

通过ECA模块融合高光谱遥感图像的高频局部特征H_h和LiDAR的高频局部特征L_h，得到高频融合特征F_h；

融合高光谱遥感图像的低频全局特征H_l和LiDAR的低频全局特征L_l，得到低频融合特征F_l；

将高频融合特征F_h与低频融合特征F_l融合为最终特征F_end；

通过ECA模块使最终特征F_end实现高频-低频信息跨通道交互融合。

结合第一方面，进一步的，所述最终特征F_end的公式为：

F_end＝Concat(F_h，F_l)；

式中，F_h为高频融合特征，F_l为低频融合特征，F_end为高频融合特征F_h与低频融合特征F_l融合后的最终特征；

所述通过ECA模块使最终特征F_end实现高频-低频信息跨通道交互融合的公式为：

ω＝ρ(C1D_k(F_end))；

式中，ω为高频-低频融合特征，ρ为Sigmod激活函数，C1D为1D卷积。

第二方面，本发明提供一种融合全局和局部信息的多模态遥感数据分类装置，包括：

获取数据模块，用于获取待分类的多模态遥感数据集，并输入至预先训练好的多模态遥感数据分类模型；

输出结果模块，用于所述多模态遥感数据分类模型基于所述待分类的多模态遥感数据集，输出多模态遥感数据分类结果；

所述多模态遥感数据分类模型的训练方法包括：

第三方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如第一方面任一项所述的融合全局和局部信息的多模态遥感数据分类方法。

第四方面，本发明提供一种设备，包括：

存储器，用于存储指令；

处理器，用于执行所述指令，使得所述设备执行实现如第一方面任一项所述的融合全局和局部信息的多模态遥感数据分类方法的操作。

与现有技术相比，本发明所达到的有益效果：

本发明公开了一种融合全局和局部信息的多模态遥感数据分类方法，通过特征解耦的方式将多模态信息分解为共有信息和特有信息，实现多模态信息融合，充分挖掘多模态遥感数据的特征，训练最优多模态遥感数据分类模型，再将获取的待分类多模态遥感数据集输入至预先训练好的多模态遥感数据分类模型；所述多模态遥感数据分类模型基于所述待分类多模态遥感数据集，输出多模态遥感数据分类结果，为深度学习的分类模型提供有效特征支持，并以此实现更准确的图像分类。

附图说明

图1是本发明实施例一提供的一种融合全局和局部信息的多模态遥感数据分类方法的流程图一；

图2是本发明实施例一提供的一种融合全局和局部信息的多模态遥感数据分类方法的流程图二；

图3是本发明实施例二提供的Houston2013高光谱图像；

图4是本发明实施例二提供的Houston2013 LiDAR图像；

图5是本发明实施例二提供的Houston2013高光谱图像真实地物类型示意图；

图6是本发明实施例二提供的对比例HRWN选取的样本下模型的分类结果示意图；

图7是本发明实施例二提供的对比例EndNet选取的样本下模型的分类结果示意图；

图8是本发明实施例二提供的对比例AM3Net选取的样本下模型的分类结果示意图；

图9是本发明实施例二提供的对比例MFT选取的样本下模型的分类结果示意图；

图10是本发明实施例二提供的对比例MAHiDFNet选取的样本下模型的分类结果示意图；

图11是本发明实施例二提供的对比例CGLFN选取的样本下模型的分类结果示意图。

具体实施方式

下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本申请实施例以及实施例中的技术特征可以相互组合。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符"/"，一般表示前后关联对象是一种“或”的关系。

实施例一：

如图1～图2所示，本实施例提供了一种融合全局和局部信息的多模态遥感数据分类方法，包括如下步骤：

步骤一：获取原始高光谱遥感数据和LiDAR数据，利用PCA对原始高光谱遥感数据进行降维处理，获取低维高光谱特征；

步骤二：根据确定的训练样本数目和高光谱遥感图像的地面真值，从低维高光谱特征和LiDAR数据中随机筛选出训练集X和测试集Y，搭建初始多模态遥感数据分类模型，并设置多模态遥感数据分类模型的最大迭代次数λ和参数σ；

步骤三：将低维高光谱特征H和LiDARL分别利用多尺度融合模块进行多尺度信息融合，以此获取获得低维高光谱浅层特征H₁和LiDAR数据浅层特征L₁；

将高光谱遥感图像H和LiDAR L分别通过3×3、5×5和7×7卷积操作，获取多尺度信息H_3×3、H_5×5、H_7×7、L_3×3、L_5×5和L_7×7。同时，特征相邻通道存在相似性，以及光谱维度是连续的。以高光谱遥感图像H为例，按通道维度，融合三个尺度特征，叠加输入相对应的第j维度，获得叠加特征公式为：

式中，F_c为多尺度空谱特征，k为特征维数，Concat为通道叠加，i为多尺度操作，为叠加特征，j为维度数。

对的通道维度执行元素相加、元素平均和元素最大化，以生成表示不同处理方法和属性的三个特征图/>和/>通过这种方式，进一步强调通道特征，具体公式如下：

式中，为对/>的通道维度执行元素最大化生成的特征图，/>为对/>的通道维度执行元素平均生成的特征图，/>为对/>的通道维度执行元素相加生成的特征图。

将和/>叠加，进一步通过3×3卷积融合多尺度特征，具体公式如下：

式中，F^j为将和/>叠加并通过卷积融合的特征。

将基于多尺度的三个尺度的k组的特征图级联，以获得最终的具有维度k的低维浅层特征H₁，具体公式为：

式中，H₁为具有维度k的低维高光谱浅层特征。

同理，按上述过程获取具有维度k的低维LiDAR浅层特征L₁。

步骤四：通过双分支Transformer-CNN特征提取器，将低维高光谱浅层特征H₁和LiDAR数据浅层特征L₁同时输入至SIM-Transformer模块和Invertible Neural Network(INN)模块学习，分别进行全局信息提取和局部信息提取，得到高光谱遥感图像的高频局部特征H_h和低频全局特征H_l，以及LiDAR的高频局部特征L_h和低频全局特征L_l；

具体步骤包括：

将获取到的浅层特征H₁通过线性映射F(·)投影到D维嵌入中。引入可学习的cls嵌入令牌x_cls，并将其放在输入序列嵌入的开始。同时，将位置信息嵌入E_p添加到输入序列嵌入，以获得z₀作为第一层SIM-Transformer的输入，则：

式中，z₀为第一层SIM-Transformer的输入，x_cls为可学习的cls嵌入令牌，F(·)为线性映射，E_p为位置信息嵌入，为浅层特征H1中patch的第N个位置令牌，N是patch数。

SIM-Transformer特征提取器具有L层SIM-Transformer，每层SIM-Transformer由一个多头自注意模块和一个全连接层的前馈神经网络构成。第l个SIM-Transformer计算如下：

z′_l＝LN(MSA(z_l-1)+z_l-1)

z_l＝LN(FFN(z′_l)+z′_l)；

式中，LN(·)为层归一化，FFN为前馈神经网络，MSA为多头注意力机制，z′_l为第l个SIM-Transformer的中间特征，z_l为第l个SIM-Transformer。

虽然Transformer能够实现较好的分类结果，因其利用自注意力机制拥有全局感受野，但容易忽视patch之间的空间关系，这不利于获取具有判别性的pach。因此，引入结构信息学习，将对象空间上下文信息纳入Transformer中，假设Transformer层有H层，Q和K是D维所有令牌的维度查询和密钥向量，具体公式如下：

式中，h＝1，2，...，H和N＝N_H×N_W是patch数，D为维度，Q是D维所有令牌的维度查询，K是D维所有令牌的密钥向量，softmax(.)为激活函数，归一化令牌，K^T表示为K的转置。

提取patch到令牌和每个头部的cls令牌之间的注意力权重，表示为相应的总注意力权重计算如下：

式中，A为相应的总注意力权重，为patch到令牌和每个头部的cls令牌之间的注意力权重。

权重是在(x，y)位置的patch令牌和cls令牌之间关系，表示为A_(x，y)。对于不重要patch进行过滤，设置为阈值，新的注意力权重如下：

具有最高关注权重的patch视为最具判别力的patch，设置为参考patch。给定参考和水平参考方向，其中(x₀，y₀)是N_H×N_W平面的索引，patchP_x，y的极坐标定义为：

式中，ρ_x，y是P₀与P_x，y的相对距离，θ_x，y是相对于水平方向的归一化极角，N_H为patch的长，N_W为patch的宽，(x₀，y₀)为N_H×N_W平面的索引，x为N_H×N_W平面的横坐标位置，y为N_H×N_W平面的纵坐标位置。

因此，结构特征通过两层图卷积获得：

S＝σ(Adj×σ(Adj×X×W¹)×W²)；

式中，S为结构特征，W¹和W²为可学习参数，σ为Sigmod激活函数，Adj＝A^new×(A^new)^T为基于A^new的节点之间的边权重，X为patch节点特征。

与SIM-Transformer相反，考虑到边缘纹理信息在分类任务中也很重要。

因此，INN通过输入和输出能相互生成来确保输入信息被尽可能保留，具体过程为用INN搭配Afiine Coupling层，每个可逆层的变化如下：

考虑到计算消耗和特征提取能力之间的权衡，使用bottleneck residual block(BRB)作为ψ_i。

步骤五：通过ECA(Efficient Channel Attention)模块融合高光谱遥感图像的高频局部特征H_h和LiDAR的高频局部特征L_h，得到高频融合特征F_h，同时融合高光谱遥感图像的低频全局特征H_l和LiDAR的低频全局特征L_l，得到低频融合特征F_l，再通过ECA模块，将高频-低频信息跨通道交互融合；

在本步骤中，将高频融合特征F_h与低频融合特征F_l融合为最终特征F_end，具体公式为：

F_end＝Concat(F_h，F_l)；

式中，F_end为高频融合特征F_h与低频融合特征F_l融合后的最终特征。

最终特征F_end通过ECA模块实现高频-低频信息跨通道交互，具体公式为：

ω＝ρ(C1D_k(F_end))；

步骤六：重复步骤三～步骤五，更新多模态遥感数据分类模型与多模态遥感数据分类模型的参数；

步骤七：利用训练集X循环训练初始多模态遥感数据分类模型，当迭代次数为I次时，获取最终的多模态遥感数据分类模型，并通过最终的多模态遥感数据分类模型对待分类的多模态遥感数据集进行最终分类，得到分类结果。

实施例二：

本实施例采用Houston2013数据集由国家机载激光测图中心于2012年6月在休斯顿大学校园和附近市区拍摄，获取该地区的高光谱和基于DSM的LiDSM，作为2013年GRSS数据融合大赛的数据集。图3展示了Houston2013数据集的高光谱图像，波段范围为0.38到1.05纳米的144个波段。图4展示了Houston2013数据集的基于DSM的LiDAR，空间尺寸为349×1905个像素，地面采样距离为2.5米。图5展示了真实地物类型，包含15个地物类别，标注15029个样本作为地面真值。多模态融合分类对比实验分别采用分层随机游动网络(HRWN)，EndNet，自适应互学习网络(AM³Net)，多模态融合Transformer(MFT)，多注意层次融合网络(MAHiDFNet)和本发明的采样方法(CGLFN)对实施例中Houston2013数据集的高光谱和LiDAR数据融合进行图像分类。

网络学习设置如下：从15类中每类选取20个样本作为训练集D_tr，剩下的样本作为测试集D_te。迭代次数I设置为80。在此条件下，进行了10次重复实验，计算求取平均值，其分类准确率如表1所示。

表1Houston2013数据集图像分类准确率对比

Houton2013数据集包含15种类型的地面物体，一些区域被云和雾遮挡，导致场景复杂度很高。从表1可知，注意力机制对特征级融合有积极影响，如MAHiDFNet和MFT比决策级融合方法表现更好。合适的决策级融合策略优于仅提取一种深度特征EndNet，这表明更多目标特征提取的重要性。相比之下，本发明取得了最好的分类结果。本发明主要通过分层提取各个模态的特征信息，如有物理含义的高亮区域和纹理细节，以及全局语义信息，有效筛选出信息丰富的模态特征，并将提取到的多模态特征进行交互融合，为深度学习分类模型提供高质量的样本特征，从而提高分类性能。

为了可视化分类结果，图6～图10分别展示了HRWN、EndNet、AM³Net、MFT和MAHiDFNet的分类结果图，图11展示了本发明的分类结果图。可以直观看出，在本发明的选取多模态数据的共有特征和独有特征下，分类模型能够精确识别样本所属的地物类别。

以上证实了本发明在多模态数据融合分类上的可行性。本发明大幅度降低了遥感图像领域中深度学习模型对于训练数据的需求，使得在少量训练数据条件下，深度学习模型提取多模态数据的共有特征和独有特征也能发挥出优秀的性能，有效提升高光谱图像分类准确率。

实施例三：

与实施例一基于相同的发明构思，本实施例介绍一种融合全局和局部信息的多模态遥感数据分类装置，包括：

所述多模态遥感数据分类模型的训练方法包括：

上述各模块的具体功能实现参考实施例一方法中的相关内容，不予赘述。

实施例四：

与其它实施例基于相同的发明构思，本实施例介绍一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如实施例一中任一所述的融合全局和局部信息的多模态遥感数据分类方法。

实施例五：

与其它实施例基于相同的发明构思，本实施例介绍一种设备，包括：

存储器，用于存储指令；

处理器，用于执行所述指令，使得所述设备执行实现如实施例一任一项所述的融合全局和局部信息的多模态遥感数据分类方法的操作。

综上实施例，本发明提供了一种融合全局和局部信息的多模态遥感数据分类方法，通过构建分类模型得到融合多模态数据的空谱特征表示，通过设计多模态特征分解和特征融合结构，挖掘多模态数据之间的关系，为深度学习的分类模型提供有效特征支持。本发明通过特征解耦的方式将多模态信息分解为共有信息和特有信息，实现多模态信息融合，充分挖掘多模态遥感数据的特征，以此实现更准确的图像分类，多模态数据分类结果准确率可达到95.76％。并且在实施例二中的实验结果表明，在公开的高光谱分类数据集上，随机选取每类20个标记样本，分类模型的总体精度为95.32％。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种融合全局和局部信息的多模态遥感数据分类方法，其特征在于，包括：

所述多模态遥感数据分类模型的训练方法包括：

2.根据权利要求1所述的融合全局和局部信息的多模态遥感数据分类方法，其特征在于，所述双分支Transformer-CNN特征提取器包括SIM-Transformer模块和INN模块，其中，SIM-Transformer模块用于利用结构信息建模学习处理低频全局特征，INN模块用于提取高频局部特征。

3.根据权利要求2所述的融合全局和局部信息的多模态遥感数据分类方法，其特征在于，所述将低维高光谱特征和LiDAR数据进行多尺度信息融合，获取低维高光谱浅层特征和LiDAR数据浅层特征，包括：

将和/>叠加，进一步通过3×3卷积融合多尺度特征，公式为：

式中，F^j为将和/>叠加并通过卷积融合的特征；

式中，H₁为具有维度k的低维高光谱浅层特征。

4.根据权利要求3所述的融合全局和局部信息的多模态遥感数据分类方法，其特征在于，所述通过双分支Transformer-CNN特征提取器，将低维高光谱浅层特征和LiDAR数据浅层特征分别进行全局信息提取和局部信息提取，获取低维高光谱的低频全局特征和高频局部特征以及LiDAR数据的低频全局特征和高频局部特征，包括：

则第l个SIM-Transformer的公式为：

z′_l＝LN(MSA(z_l-1)+z_l-1)

z_l＝LN(FFN(z_l)+z′_l)；

式中，LN(·)为层归一化，FFN为前馈神经网络，MSA为多头注意力机制，z_l为第l个SIM-Transformer的全局特征，z；_l为第l个SIM-Transformer的中间特征。

式中，和N＝N_H×N_W是patch数，D为维度，Q是D维所有令牌的维度查询，K是D维所有令牌的密钥向量，softmax(.)为激活函数，归一化令牌，K^T表示为K的转置；

具有最高关注权重的patch视为最具判别力的patch，设置为参考patch，给定参考patch P₀＝P_x0，y0和水平参考方向，patchP_x，y的极坐标定义为：

式中，ρ_x，y是P₀与P_x，y的相对距离，θ_x，y是相对于水平方向的归一化极角，N_H为patch的长，N_W为patch的高，(x₀，y₀)是N_H×N_W平面的索引，x为N_H×N_W平面的横坐标位置，.y为N_H×N_W平面的纵坐标位置；

因此，结构特征通过两层图卷积获得：

S＝σ(Adj×σ(Adj×X×W¹)×W²)；

式中，S为结构特征，W¹和W²为可学习参数，σ为激活函数，Adj＝A^new×(A^new)^T为基于A^new的节点之间的边权重，X为patch节点特征；

用INN搭配Afiine Coupling层，每个可逆层的变化为：

5.根据权利要求4所述的融合全局和局部信息的多模态遥感数据分类方法，其特征在于，所述通过ECA模块融合低维高光谱的低频全局特征和高频局部特征以及LiDAR数据的低频全局特征和高频局部特征，包括：

将高频融合特征F_h与低频融合特征F_l融合为最终特征F_end；

6.根据权利要求5所述的融合全局和局部信息的多模态遥感数据分类方法，其特征在于，所述最终特征F_end的公式为：

F_end＝Concat(F_h，F_l)；

ω＝ρ(C1D_k(F_end))；

7.一种融合全局和局部信息的多模态遥感数据分类装置，其特征在于，包括：

所述多模态遥感数据分类模型的训练方法包括：

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现如权利要求1-6中任一项所述的融合全局和局部信息的多模态遥感数据分类方法。

9.一种设备，其特征在于，包括：

存储器，用于存储指令；

处理器，用于执行所述指令，使得所述设备执行实现如权利要求1-6任一项所述的融合全局和局部信息的多模态遥感数据分类方法的操作。