CN116665114A

CN116665114A - 基于多模态的遥感场景识别方法、系统及介质

Info

Publication number: CN116665114A
Application number: CN202310937012.6A
Authority: CN
Inventors: 林聪�; 刘晓昀; 邹利兰; 庄毓源; 伍昊嶂
Original assignee: Guangdong Ocean University
Current assignee: Guangdong Ocean University
Priority date: 2023-07-28
Filing date: 2023-07-28
Publication date: 2023-08-29
Anticipated expiration: 2043-07-28
Also published as: CN116665114B

Abstract

本发明涉及遥感场景识别技术领域，具体涉及一种基于多模态的遥感场景识别方法、系统及介质，方法包括：获取遥感场景的图像集，搭建用于提取遥感地物要素文本模态信息的语义分割网络，通过图像集对语义分割网络进行训练，得到训练好的语义分割网络；搭建包含语义加权模块的多模态场景识别模型，将图像集经过训练好的语义分割模型获取地物要素并转换为文本信息集后，与其一并输入多模态场景识别模型进行训练，得到训练好的多模态场景识别模型；将待分割的遥感图像输入到训练好的语义分割网络获取地物要素并转换为文本信息后，将其与文本信息一并输入训练好的多模态场景识别模型进行场景识别；本发明能够提高遥感图像场景识别精度。

Description

基于多模态的遥感场景识别方法、系统及介质

技术领域

本发明涉及遥感图像识别技术领域，具体涉及一种基于多模态的遥感场景识别方法、系统及介质。

背景技术

遥感成像技术在过去几十年里取得了重大进展。现代航空传感器覆盖了地球表面大面积的区域，提高了空间、光谱和时间的分辨率，进而在许多研究领域里发挥了关键作用，包括生态学、环境科学、土壤科学、水污染、冰川学、土地测量和地壳分析。

遥感场景识别旨在快速的获取空对地拍摄影像的语义内容，在农业生产、灾害预警、国防安全等领域具有很大的应用价值。现有的基于深度学习的遥感场景识别方法集中在挖掘遥感影像中的细节特征，而忽略了遥感场景类别是通过地物要素的组合而构成，这影响了现有方法在遥感场景识别任务上的精确度。遥感图像中包含丰富的纹理特征和地物要素信息，设计基于多模态的深度学习遥感场景识别方法，提升遥感场景识别任务的精度成为亟待解决的问题。

发明内容

本发明目的在于提供一种基于多模态的遥感场景识别方法、系统及介质，能够提高遥感场景识别任务的精度。

为了实现上述目的，本发明提供以下技术方案：

第一方面，本发明实施例提供了一种基于多模态的遥感场景识别方法，所述方法包括以下步骤：

获取遥感场景的图像集，所述图像集包含遥感场景的遥感图像；

搭建用于提取遥感地物要素文本模态信息的语义分割网络，通过所述图像集对所述语义分割网络进行训练，得到训练好的语义分割网络；

搭建包含语义加权模块的多模态场景识别模型，将所述图像集经过训练好的语义分割模型获取地物要素并转换为文本信息集后，与所述图像集一并输入所述多模态场景识别模型进行训练，得到训练好的多模态场景识别模型；

将待分割的遥感图像输入到训练好的语义分割网络获取地物要素并转换为文本信息后，将所述文本信息与待分割的遥感图像一并输入所述训练好的多模态场景识别模型进行场景识别。

可选的，所述搭建用于提取遥感地物要素文本模态信息的语义分割网络，通过所述图像集对所述语义分割网络进行训练，得到训练好的语义分割网络，包括：

构建遥感图像分割图像集搭建基于U-net的语义分割网络/>用以提取遥感图像中的语义要素；

对于所述图像集中的任意输入数据通过语义分割网络/>输出承载语义要素位置坐标的分割结果/>其中/>为输入数据中的分割结果语义数目，利用结果的映射关系可获得承载语义要素内容的文本信息/>使用交叉熵损失函数计算损失值，根据损失值并通过反向传播算法更新语义分割网络/>中的神经网络参数，得到训练好的语义分割网络/>

可选的，所述搭建包含语义加权模块的多模态场景识别模型，将所述图像集经过训练好的语义分割模型获取地物要素并转换为文本信息集后，与所述图像集一并输入所述多模态场景识别模型进行训练，得到训练好的多模态场景识别模型，包括：

搭建基于Vit网络和Bert网络的多模态场景识别模型；该多模态场景识别模型包括图像patch embedding模块、文本text embedding模块、语义加权模块、encoder模块、以及MLP分类模块，其中语义加权模块由全局平均池化和一个全连接层组成，全连接层由Linear函数、ReLU激活函数和Sigmoid函数构成；

基于所述图像集构建用于遥感场景识别的训练集和测试集/>将所述训练集/>输入所述多模态场景识别模型进行训练，将所述测试集/>输入所述多模态场景识别模型进行测试，并在测试通过后得到训练好的多模态场景识别模型。

可选的，所述将待分割的遥感图像输入到训练好的语义分割网络获取地物要素并转换为文本信息后，将所述文本信息与待分割的遥感图像一并输入所述训练好的多模态场景识别模型进行场景识别，包括：

将待分割的遥感图像输入到训练好的语义分割网络以获取图像分割结果/>以及文本信息/>

对所述遥感图像图像分割结果/>以及文本信息/>进行处理，得到多模态输入

将多模态输入与图像分割结果/>输入经过语义加权模块重新分配不同要素的权重，然后依次输入encoder模块、MLP分类模块，得到最终的分类结果。

可选的，所述对所述遥感图像图像分割结果/>以及文本信息/>进行处理，得到多模态输入/>包括：

在patch embedding模块中，首先将遥感图像切分为/>的patch，然后通过Position Embedding操作对输入的遥感图像/>进行位置编码，得到二维向量/>

在text embedding模块中，利用预训练的Bert模型对文本信息进行文本编码，得到二维向量/>

初始化用于分类的class token模块然后将其和/>进行拼接，得到多模态输入/>

可选的，所述将多模态输入与图像分割结果/>输入经过语义加权模块重新分配不同要素的权重，然后依次输入encoder模块、MLP分类模块，得到最终的分类结果，包括：

对多模态输入的特征参数进行全局平均池化，得到池化后的特征参数；

将池化后的特征参数输入由Linear函数、ReLU激活函数和Sigmoid函数构成的全连接层，得到降维后的特征参数；

采用Sigmoid对降维后的特征参数进行处理，得到不同要素的权值

采用权值对多模态输入/>赋权，得到预处理后的多模态输入，将预处理后的多模态输入依次输入encoder模块、MLP分类模块，得到最终的分类结果。

第二方面，本发明实施例提供了一种基于多模态的遥感场景识别系统，所述系统包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如第一方面任一项所述的基于多模态的遥感场景识别方法。

第三方面，本发明实施例还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行如第一方面任一项所述的基于多模态的遥感场景识别方法。

本发明的有益效果是：本发明公开一种基于多模态的遥感场景识别方法、系统及介质，通过语义分割的方法提取到遥感场景图像中的要素信息，然后构建多模态场景识别模型建立要素与全局之间的联系，通过解决现有的识别方式在多模态场景识别模型下缺乏对要素的学习能力，提高了遥感图像场景识别精度，更便于实现多模态变形器模型在遥感图像识别领域中的应用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中基于多模态的遥感场景识别方法的流程示意图；

图2是一实施例中采用相关技术中的场景识别方法对待分类的图像进行语义分割后的效果图；

图3是一实施例中采用本发明的遥感场景识别方法对待分类的图像进行语义分割后的效果图；

图4是本发明实施例中基于多模态的遥感场景识别系统的结构示意图。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本发明的目的、方案和效果。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

相关技术中，关于遥感图像场景识别的方法，一方面采用传统CNN模型的方法，专利号为CN201611070929.7的《融合场景信息和深度特征的遥感图像机场目标识别方法》构建深度卷积神经网络特征提取器，得到遥感图像机场目标识别结果；专利号为CN201710369774.5的《遥感图像场景识别方法及装置》通过基于预训练的深度卷积神经网络,提取遥感图像的深度特征；专利号为CN201910486629.4 的《高分辨率遥感图像的场景识别系统及模型生成方法》实现了网络模型的自行学习,保证了特征信息的完整性,有效地提高了IMFNet网络模型识别目标的准确率。这些方法侧重于运用传统卷积神经网络模型，但是CNN中的局部感受野限制了对图像中的长距离依赖性（例如，远距离部分关系）的建模。此外，卷积是内容无关的，因为卷积滤波器权重是固定的，相同的权重应用于所有输入而不管它们的性质，因此在场景识别精度和效率上仍存在较高的提升空间。另一方面，专利号为CN202211292933.3的《基于CNN-自注意力机制混合架构的遥感图像分类方法》构建了基于CNN-自注意力机制混合架构的遥感图像分类模型；专利号为CN202211105685.7的《一种基于Transformer轻量化模型的遥感图像分类方法》减少了模型计算量,节省了计算资源，提升了分类和识别速度，效果好于经典Transformer模型。这些方法都只是单纯将图像作为要素进行输入，并不能够让网络学习到多模态信息。

参阅图1，图1是本发明提供的一种基于多模态的遥感场景识别方法的流程示意图，所述方法包括以下步骤：

S100，获取遥感场景的图像集，所述图像集包含遥感场景的遥感图像；

S200，搭建用于提取遥感地物要素文本模态信息的语义分割网络，通过所述图像集对所述语义分割网络进行训练，得到训练好的语义分割网络；

S300，搭建包含语义加权模块的多模态场景识别模型，将所述图像集经过训练好的语义分割模型获取地物要素并转换为文本信息集后，与所述图像集一并输入所述多模态场景识别模型进行训练，得到训练好的多模态场景识别模型；

S400，将待分割的遥感图像输入到训练好的语义分割网络获取地物要素并转换为文本信息后，将所述文本信息与待分割的遥感图像一并输入所述训练好的多模态场景识别模型进行场景识别。

本发明提供的实施例实现了多模态场景识别模型在遥感场景识别上的应用，提高了分类精度和效果，充分提取利用了遥感图像所包含的丰富的多模态信息特征。通过在多模态场景识别模型中加入语义权重注意力机制的语义加权模块，使多模态场景识别模型充分学习和利用到语义权重信息，实现了图像和文本信息交互。本发明适用于对各类遥感图像进行分类，相较于传统的卷积神经网络模型大多只应用了简单的卷积和池化操作，本发明的多模态场景识别模型具备更强的学习能力和泛化能力，提高了遥感图像场景识别精度。

在一个优选的实施例中，S200中，所述搭建用于提取遥感地物要素文本模态信息的语义分割网络，通过所述图像集对所述语义分割网络进行训练，得到训练好的语义分割网络，包括：

S210，构建遥感图像分割图像集搭建基于U-net的语义分割网络/>用以提取遥感图像中的语义要素；

S220，对于所述图像集中的任意输入数据通过语义分割网络/>输出承载语义要素位置坐标的分割结果/>其中/>为输入数据中的分割结果语义数目，利用结果的映射关系可获得承载语义要素内容的文本信息/>

S230，使用交叉熵损失函数计算损失值，根据损失值并通过反向传播算法更新语义分割网络中的神经网络参数，得到训练好的语义分割网络/>

在一些实施例中，在训练阶段，对于所述图像集中的任意输入数据通过语义分割网络/>输出承载语义要素位置坐标的分割结果/>

使用交叉熵损失函数计算损失值；

其中，交叉熵损失函数的定义如下：

根据损失值并通过反向传播算法更新语义分割网络中的神经网络参数，得到训练好的语义分割网络/>

其中，反向传播算法的数学模型如下：

其中，z表示带权输入，a表示输出激活值，即输入数据经过激活函数的带权输入，C表示代价函数，L表示语义分割网络/>的神经网络层数，/>表示L层中的输出误差，表示L层中的激活函数的导数，/>表示激活函数σ的导数，/>表示第l+1层的权重，表示第l+1层的误差项，/>表示第i个输入样本的第/>个特征，/>表示第i个样本的误差项；

本实施例中，通过构建用于遥感图像分割训练的图像集搭建遥感图像的语义分割网络/>用以提取遥感图像中的要素。在训练阶段，对于任一输入/>而言，可获取承载语义要素位置坐标的分割结果/>使用交叉熵损失函数计算损失值，并通过反向传播算法训练语义分割网络/>在测试阶段，对于任意输入数据/>将其输入到语义分割网络，可以获得高质量的分割结果/>然后可以用分割结果/>生成承载语义要素内容的文本信息/>

即完成了对多模态语义要素的构建。

在一个优选的实施例中，S300中，所述搭建包含语义加权模块的多模态场景识别模型，将所述图像集经过训练好的语义分割模型获取地物要素并转换为文本信息集后，与所述图像集一并输入所述多模态场景识别模型进行训练，得到训练好的多模态场景识别模型，包括：

S310，搭建基于Vit网络和Bert网络的多模态场景识别模型；该多模态场景识别模型包括图像patch embedding模块、文本text embedding模块、语义加权模块、encoder模块、以及MLP分类模块，其中语义加权模块由全局平均池化和一个全连接层组成，全连接层由Linear函数、ReLU激活函数和Sigmoid函数构成；

本实施例中，多模态场景识别模型用于充分学习遥感场景中的要素和场景类别之间的关联度。

S320，基于所述图像集构建用于遥感场景识别的训练集和测试集/>，将所述训练集/>输入所述多模态场景识别模型进行训练，将所述测试集/>输入所述多模态场景识别模型进行测试，并在测试通过后得到训练好的多模态场景识别模型。

在一个优选的实施例中，S400中，所述将待分割的遥感图像输入到训练好的语义分割网络获取地物要素并转换为文本信息后，将所述文本信息与待分割的遥感图像一并输入所述训练好的多模态场景识别模型进行场景识别，包括：

S410，将待分割的遥感图像输入到训练好的语义分割网络/>以获取图像分割结果/>以及文本信息/>

S420，对所述遥感图像、图像分割结果/>以及文本信息/>进行处理，得到多模态输入/>；

具体地，将遥感图像输入patch embedding模块，将文本信息/>输入文本textembedding模块，对不同模态的输入进行预处理，获得二维向量/>和/>，/>，然后初始化用于分类的classtoken模块

，将所述classtoken模块/>与二维向量/>和/>，进行拼接，获得多模态输入；

S430，将多模态输入与图像分割结果/>输入经过语义加权模块重新分配不同要素的权重，然后依次输入encoder模块、MLP分类模块，得到最终的分类结果。

在一个优选的实施例中，S420中，所述对所述遥感图像、图像分割结果/>以及文本信息/>进行处理，得到多模态输入/>，包括：

S421，在patch embedding模块中，首先将遥感图像切分为/>的patch，然后通过Position Embedding操作对输入的遥感图像/>进行位置编码，得到二维向量/>，；

S422，在text embedding模块中，利用预训练的Bert模型对文本信息进行文本编码，得到多模态输入/>

S423，初始化用于分类的class token模块然后将其和/>进行拼接，得到多模态二维向量/>也就是直接将原来大小为/>的二维图像展平成N个长度为/>的一维向量/>在本实施例中，取H=W=256，S=16，C=3，D=768，/>此外，输入/>经过预训练的Bert模块获得/>其中/>，在本实施例中，/>为图像的语义数目；接着初始化用于分类的class token/>和一维向量/>在第一维度上进行拼接，得到二维向量/>在一实施例中，/>向量大小分别为【196,768】和【40,768】，因此，/>大小为【237，768】：

在一个优选的实施例中，S430中，所述将多模态输入与图像分割结果/>输入经过语义加权模块重新分配不同要素的权重，然后依次输入encoder模块、MLP分类模块，得到最终的分类结果，包括：

S431，对多模态输入的特征参数进行全局平均池化，得到池化后的特征参数；

S432，将池化后的特征参数输入由Linear函数、ReLU激活函数和Sigmoid函数构成的全连接层，得到降维后的特征参数；

也就是通过全连接层对特征参数的维度进行降维。

S433，采用Sigmoid对降维后的特征参数进行处理，得到不同要素的权值

在经过全连接层之后，取一次Sigmoid将数值固定至0-1范围内，得到不同要素的重要程度。

S43，采用权值对多模态输入/>赋权，重新分配/>，的权重，然后依次输入encoder模块、MLP分类模块，得到最终的分类结果。

在获得权值后，进入捷径分支，采用以下数学模型让/>学习到/>，得到预处理后的多模态要素；

本实施例中，将二维向量与图像分割结果/>输入至语义加权模块进行要素加权处理，以分配不同要素的重要程度。在二维向量/>中只需要让Concat拼接前原本属于/>的维度学习到不同要素的重要程度/>让二维向量/>学习到/>，从而得到预处理后的多模态要素。

在一个优选的实施例中，S434中，所述将预处理后的多模态输入依次输入encoder模块、MLP分类模块，得到最终的分类结果，包括：

将输入encoder模块、MLP分类模块；其中，encoder模块包含：Layer Norm（对每个token进行Norm处理）、Multi-Head Attention，Dropout层在MLP分类模块的第一个全连接层，Dropout层将输入节点个数乘以4倍，即

（【197,768】-＞【197,3072】），第二个全连接层会还原为原来节点个数（【197,3072】-＞【197,768】。通过Transformer Encoder模块后输出的维度和输入的维度仍保持不变，输入时是【197,768】则输出时还是【197,768】接着提取出[class]token，即在【197,768】中提取出[class]token所对应的【1,768】，再通过MLP Head得到最终的分类结果。

为了验证本发明的益处，本发明的实施例还提供了以下测试实验：

如图2所示，第1行的图像代表待分类的图像，第2行代表语义分割后的图像。本发明基于对遥感图像多模态要素的提取和学习，显著提高了场景图像的识别准确性。

如图3所示，第1行代表待分类图像，第2行代表本方法的分类结果图。

表1列出了本发明方法与其他现有方法在UCM图像集上的Accuracy结果，表2列出了本发明方法与其他现有方法在AID图像集上的Accuracy结果，表3列出了本发明方法与其他现有方法在NWPU图像集上的Accuracy结果。通过对比这些结果，可以发现本发明方法在识别性能上取得了显著的提升，具有较高的准确率。本发明提高了场景分类的匹配精度。

表1:本发明方法和现有方法在UC-Merced数据上的Accuracy结果

方法	50%用作训练集	80%用作训练集
			ViT-Base[文献1]	93.5	95.8
ViT-Large[文献1]	94.0	96.0
			PVT-Medium[文献2]	96.4	97.2
PVT-Large[文献2]	96.9	97.7
			T2T-ViT-19[文献3]	96.8	97.7
本发明方法	98.7	99.3

表2:本发明方法和现有方法在AID数据上的Accuracy结果

方法	20%用作训练集	50%用作训练集
			ViT-Base[文献1]	91.1	94.4
ViT-Large[文献1]	91.8	95.1
			PVT-Medium[文献2]	92.8	95.9
PVT-Large[文献2]	93.6	96.6
			T2T-ViT-19[文献3]	92.3	95.4
本发明方法	94.6	96.7

表3:本发明方法和现有方法在NWPU数据上的Accuracy结果

方法	10%用作训练集	20%用作训练集
			ViT-Base[文献1]	87.5	90.8
ViT-Large[文献1]	89.1	91.9
			PVT-Medium[文献2]	90.5	92.6
PVT-Large[文献2]	90.5	92.7
			T2T-ViT-19[文献3]	90.3	92.9
本发明方法	92.2	94.9

上述对比例中的文献:

[1] Dosovitskiy, A.; Beyer, L.; Kolesnikov, A.; Weissenborn, D.;Zhai, X.; Unterthiner, T.; Gelly, S. An image is worth 16 × 16 words:Transformers for image recognition at scale. In Proceedings of the ICLR 2021:The Ninth International Conference on Learning Representations, VirtualEvent, 3–7 May 2021.

[2] Wang, W.; Xie, E.; Li, X.; Fan, D.P.; Song, K.; Liang, D.; Shao,L. Pyramid vision transformer: A versatile backbone for dense predictionwithout convolutions. arXiv 2021, arXiv:2102.12122.

[3] Touvron, H.; Cord, M.; Douze, M.; Massa, F.; Sablayrolles, A.; Jégou, H. Training data-efficient image transformers&distillation throughattention. In Proceedings of the International Conference on MachineLearning, Virtual Event, 18–24 July 2021; pp. 10347–10357.

另外，参照图4，本发明的一个实施例还提供了一种基于多模态的遥感场景识别系统，该系统包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上述的方法。

可见，上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

此外，本发明的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个处理器或控制器执行，例如，被上述电子设备实施例中的一个处理器执行，可使得上述处理器执行上述实施例中的基于多模态的遥感场景识别方法。

同样地，上述方法实施例中的内容均适用于本存储介质实施例中，本存储介质实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质（或非暂时性介质）和通信介质（或暂时性介质）。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息（诸如计算机可读指令、数据结构、程序模块或其他数据）的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘（DVD）或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本公开的较佳实施进行了具体说明，但本公开并不局限于上述实施方式，熟悉本领域的技术人员在不违背本公开精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本公开权利要求所限定的范围内。

Claims

1.一种基于多模态的遥感场景识别方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种基于多模态的遥感场景识别方法，其特征在于，所述搭建用于提取遥感地物要素文本模态信息的语义分割网络，通过所述图像集对所述语义分割网络进行训练，得到训练好的语义分割网络，包括：

构建遥感图像分割图像集，搭建基于U-net的语义分割网络/>用以提取遥感图像中的语义要素；

对于所述图像集中的任意输入数据通过语义分割网络/>输出承载语义要素位置坐标的分割结果/>其中j为输入数据中的分割结果语义数目，利用结果的映射关系可获得承载语义要素内容的文本信息/>使用交叉熵损失函数计算损失值，根据损失值并通过反向传播算法更新语义分割网络/>中的神经网络参数，得到训练好的语义分割网络/>。

3.根据权利要求2所述的一种基于多模态的遥感场景识别方法，其特征在于，所述搭建包含语义加权模块的多模态场景识别模型，将所述图像集经过训练好的语义分割模型获取地物要素并转换为文本信息集后，与所述图像集一并输入所述多模态场景识别模型进行训练，得到训练好的多模态场景识别模型，包括：

基于所述图像集构建用于遥感场景识别的训练集和测试集/>将所述训练集输入所述多模态场景识别模型进行训练，将所述测试集/>输入所述多模态场景识别模型进行测试，并在测试通过后得到训练好的多模态场景识别模型。

4.根据权利要求3所述的一种基于多模态的遥感场景识别方法，其特征在于，所述将待分割的遥感图像输入到训练好的语义分割网络获取地物要素并转换为文本信息后，将所述文本信息与待分割的遥感图像一并输入所述训练好的多模态场景识别模型进行场景识别，包括：

将待分割的遥感图像输入到训练好的语义分割网络/>以获取图像分割结果/>以及文本信息/>

对所述遥感图像图像分割结果/>以及文本信息/>进行处理，得到多模态输入/>

5.根据权利要求4所述的一种基于多模态的遥感场景识别方法，其特征在于，所述对所述遥感图像图像分割结果/>以及文本信息/>进行处理，得到多模态输入/>包括：

在patch embedding模块中，首先将遥感图像切分为的patch，然后通过Position Embedding操作对输入的遥感图像/>进行位置编码，得到二维向量/>

初始化用于分类的class token模块然后将其和/>进行拼接，得到多模态输入/>。

6.根据权利要求5所述的一种基于多模态的遥感场景识别方法，其特征在于，所述将多模态输入与图像分割结果/>输入经过语义加权模块重新分配不同要素的权重，然后依次输入encoder模块、MLP分类模块，得到最终的分类结果，包括：

对多模态输入与图像分割结果/>输入经过语义加权模块重新分配不同要素的权重，然后依次输入encoder模块、MLP分类模块，得到最终的分类结果，包括：

7.一种基于多模态的遥感场景识别系统，其特征在于，所述系统包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1至6任一项所述的基于多模态的遥感场景识别方法。

8.一种计算机可读存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令用于执行如权利要求1至6中任意一项所述的基于多模态的遥感场景识别方法。