CN116796038A

CN116796038A - 遥感数据检索方法、装置、边缘处理设备及存储介质

Info

Publication number: CN116796038A
Application number: CN202310558251.0A
Authority: CN
Inventors: 刘瑜; 姜智卓; 张耀华; 李徵; 李耀文; 李劭辉; 何友
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-09-22

Abstract

本发明提供一种遥感数据检索方法、装置、边缘处理设备及存储介质，该方法包括：获取检索输入数据；利用训练好的编码器模型对检索输入数据进行特征提取，得到第一特征数据，训练好的编码器模型用于对检索输入数据进行图像特征提取或文本特征提取；基于第一特征数据和预先构建的特征库中各聚类的聚类中心数据确定目标聚类，目标聚类为所有聚类中聚类中心数据与第一特征数据相似度最高的聚类；基于第一特征数据和目标聚类中的各第二特征数据确定目标遥感数据，目标遥感数据为与第一特征数据相似度最高的第二特征数据对应的遥感数据。由此，能够提高跨模态遥感数据检索的检索效率。

Description

遥感数据检索方法、装置、边缘处理设备及存储介质

技术领域

本发明涉及遥感数据检索技术领域，尤其涉及一种遥感数据检索方法、装置、边缘处理设备及存储介质。

背景技术

近年来，遥感技术的快速发展极大地提高了人们对地球的观测能力，同时遥感图像的数量也呈爆炸性增长。在实际应用中，从海量遥感数据中获取满足人们特定需求的遥感数据的主要方式是：遥感跨模态检索，即通过文本对遥感图像进行检索或者通过图像对遥感文本进行检索。

相关的遥感跨模态检索方式，主要是采用融合编码器模型来实现。融合编码器模型包括了图像编码器、文本编码器以及跨模态特征融合编码器，融合编码器模型通过图像编码器得到图像特征，通过文本编码器得到文本特征，通过跨模态特征融合编码器将图像特征和文本特征进行融合，最后通过融合特征进行遥感数据检索。

采用融合编码器模型进行遥感跨模态检索，在每次进行检索时，均需要进行大量重复的特征提取过程；且在图像检索文本(I2T)任务或文本检索图像(T2I)任务中，由于融合编码器模型的线性时间复杂性，处理海量遥感数据时会非常耗时。例如，在T2I任务中，需要计算检索文本与RS数据库汇总所有图像的相似度，再选择相似度最高的图像。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明提供一种遥感数据检索方法，以提高跨模态遥感数据检索的检索效率。

本发明提供一种遥感数据检索方法，包括：

获取检索输入数据；

利用训练好的编码器模型对所述检索输入数据进行特征提取，得到第一特征数据，所述训练好的编码器模型用于对所述检索输入数据进行图像特征提取或文本特征提取；

基于所述第一特征数据和预先构建的特征库中各聚类的聚类中心数据确定目标聚类，所述目标聚类为所有聚类中聚类中心数据与所述第一特征数据相似度最高的聚类；

基于所述第一特征数据和所述目标聚类中的各第二特征数据确定目标遥感数据，所述目标遥感数据为与所述第一特征数据相似度最高的第二特征数据对应的遥感数据。

在一些可能实现的方式中，所述特征库的构建步骤包括：利用所述训练好的编码器模型对遥感数据库中的各遥感数据进行特征提取，得到各所述遥感数据对应的所述第二特征数据；利用预设聚类算法对所述第二特征数据进行聚类处理，得到各所述聚类；基于各所述聚类构建所述特征库，得到构建好的特征库。

在一些可能实现的方式中，所述编码器模型包括图像编码模块和文本编码模块，所述编码器模型的训练步骤包括：获取训练样本集，所述训练样本集包括多个图像文本对；将所述图像文本对中的图像数据输入至所述图像编码模块中，得到图像特征数据，将所述图像文本对中的文本数据输入至所述文本编码模块中，得到文本特征数据；基于各所述图像特征数据和各所述文本特征数据利用预设损失函数计算总损失值，并根据所述总损失值更新所述编码器模型的参数，直至所述编码器模型收敛，得到训练好的编码器模型。

在一些可能实现的方式中，所述图像编码模块包括图像嵌入层，所述文本编码模块包括文本嵌入层；

所述将所述图像文本对中的图像数据输入至所述图像编码模块中，得到图像特征数据，包括：将所述图像文本对中的图像数据分割为多个图像块，并将各所述图像块输入至所述图像嵌入层，得到所述图像文本对对应的图像嵌入数据，以基于所述图像嵌入数据确定所述图像特征数据；所述将所述图像文本对中的文本数据输入至所述文本编码模块中，得到文本特征数据，包括：将所述图像文本对中的文本数据分割为多个词汇，并将各所述词汇输入至所述文本嵌入层，得到所述图像文本对对应的文本嵌入数据，以基于所述文本嵌入数据确定所述文本特征数据。

在一些可能实现的方式中，所述图像编码模块还包括至少两个图像编码器，各所述图像编码器依次连接，所述文本编码模块还包括至少两个文本编码器，各所述文本编码器依次连接；所述基于所述图像嵌入数据确定所述图像特征数据，包括：将所述图像嵌入数据从所有所述图像编码器中的首个图像编码器中输入，经过至少两个所述图像编码器对所述图像嵌入数据进行图像特征提取，从所有所述图像编码器中的最后一个图像编码器中输出所述图像特征数据；所述基于所述文本嵌入数据确定所述文本特征数据，包括：将所述文本嵌入数据从所有所述文本编码器中的首个文本编码器中输入，经过至少两个所述文本编码器对所述文本嵌入数据进行文本特征提取，从所有所述文本编码器中的最后一个文本编码器中输出所述文本特征数据。

在一些可能实现的方式中，基于各所述图像特征数据和各所述文本特征数据利用预设损失函数计算总损失值，包括：基于各所述图像特征数据和各所述文本特征数据确定第一子损失值和所述第二子损失值，所述第一子损失值用于表征基于图像检索文本的情况下所述编码器模型的损失值，所述第二子损失值用于表征基于文本检索图像的情况下所述编码器模型的损失值；基于所述第一子损失值和所述第二子损失值确定所述总损失值。

在一些可能实现的方式中，所述预设损失函数为：

L^totaI＝L^I2T+L^T2I

其中，L^I2T为所述第一子损失值，B为所述图像文本对的总数量，I_i为第i个图像文本对中的所述图像特征数据，T_i为第i个图像文本对中的所述文本特征数据，T_j为第j个图像文本对中的所述文本特征数据，τ为可学习的温度参数，L^T2I为所述第二子损失值，I_j为第j个图像文本对中的所述图像特征数据，L^total为所述总损失值。

本发明还提供一种遥感数据检索装置，包括：获取模块，用于获取检索输入数据；编码模块，用于利用训练好的编码器模型对所述检索输入数据进行特征提取，得到第一特征数据；聚类确定模块，用于基于所述第一特征数据和预先构建的特征库中各聚类的聚类中心数据确定目标聚类，所述目标聚类为所有聚类中聚类中心数据与所述第一特征数据相似度最高的聚类；遥感数据确定模块，用于基于所述第一特征数据和所述目标聚类中的各第二特征数据确定目标遥感数据，所述目标遥感数据为与所述第一特征数据相似度最高的第二特征数据对应的遥感数据。

本发明还提供一种边缘处理设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述遥感数据检索方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述遥感数据检索方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述遥感数据检索方法。

本发明提供的遥感数据检索方法、装置、边缘处理设备及存储介质，通过利用训练好的编码器模型对检索输入数据进行特征提取，得到第一特征数据；再基于第一特征数据和预先构建的特征库中各聚类的聚类中心数据先确定目标聚类，找到与第一特征数据相似度最高的目标聚类；再基于第一特征数据与目标聚类中的各第二特征数据确定目标遥感数据，从而再进行遥感数据检索时，不需要大量重复地对RS数据库中的遥感数据进行特征提取，且通过离线聚类的方式，先找到与检索输入数据相似度最高的聚类，在确定该聚类中与检索输入数据相似度最高的遥感数据，从而不需要计算检索输入数据与每个遥感数据的相似度，大大提高了跨模态遥感数据检索的检索效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的遥感数据检索方法的场景示例；

图2是本发明实施例的遥感数据检索方法的流程图；

图3是本发明实施例的特征库构建方法的流程图；

图4是本发明实施例的编码器模型的结构示意图；

图5是本发明实施例的编码器模型的训练方法的流程图；

图6是本发明实施例的遥感数据检索装置的方框图；

图7示例了一种边缘处理设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在遥感数据检索技术中，跨模态遥感文本图像检索(RSCTIR)以其高效、灵活地处理海量遥感数据的能力，吸引了研究人员的广泛关注。跨模态遥感文本图像检索主要包括两种检索模式，一种是，基于用户输入的检索图像，在RS数据库中检索相应的遥感文本数据(即I2T任务)；另一种是，基于用户输入的检索文本，在RS数据库中检索相应的遥感图像数据(即T2I任务)。

目前，跨模态遥感文本图像检索技术主要采取了融合编码器模型的结构，来实现跨模态的遥感数据检索。融合编码器模型主要包括图像编码器、文本编码器以及跨模态特征融合编码器，图像编码器与文本编码器均与跨模态特征融合编码器连接。图像编码器用于对输入的图像数据进行特征提取，得到图像特征；文本编码器用于对输入的文本进行特征提取，得到文本特征；跨模态特征融合编码器用于将图像特征和文本特征进行融合，最后利用融合特征进行进行相似度比对。

以T2I任务为例，融合编码器模型实现遥感数据检索的过程为：将检索文本和RS数据库中的各个遥感图像数据输入至融合编码器模型中，融合编码器模型会依次确定检索文本和不同遥感图像数据的融合特征，再基于各个融合特征确定检索文本与各个遥感图像数据的相似度，最后选择融合特征相似度最高的遥感图像数据作为该检索文本对应的检索结果。采用融合编码器模型进行遥感数据的检索，能够在检索精度方面取得良好的效果。

然而，由于RS数据库中大多数遥感数据是没有另一种模态标注的，而融合编码器模型又需要同时输入图像和文本，并对图像和文本进行编码，导致融合编码器模型无法单独对RS数据库中的图像或文本进行特征提取。因此，融合编码器模型无法预先离线对RS数据库中的图像或文本进行特征提取，在实际检索过程中，每进行一次检索，融合编码器模型就需要对RS数据库中的所有遥感数据进行一次特征提取，从而大大降低了检索效率。

另外，在实际检索过程中，需要将用户输入的检索内容与RS数据库中的每个遥感数据进行一次相似度比对，例如，在T2I任务中，需要计算检索文本与RS数据库中所有遥感图像数据的相似度，然后再选择相似度最高的遥感图像数据。由此，可以看出，整个遥感数据检索过程是非常耗时的，检索效率较低。

为此，本发明实施例提供了一种遥感数据检索方法、装置、边缘处理设备及存储介质，以通过跨模态的方式，快速、高效地在海量RS数据库汇总查询到符合用户需求的遥感数据，有效提高跨模态遥感数据检索的检索效率。

为了方便理解，本说明书实施方式提供一种遥感数据检索方法的场景示例，该场景示例应用在如图1所示的应用环境中，其中，包括用户端和服务器端，用户端和服务器端可以通过互联网络等方式建立通讯连接。

在进行遥感数据检索的过程中，用户端用于获取用户输入的检索输入数据。具体地，用户端可以包括一个显示器，显示器用于显示遥感数据检索的用户界面，用户可以在用户界面中将需要检索的内容(即检索输入数据)输入至用户端，由此，用户端能够获取用户输入的检索输入数据。

需要说明的是，用户端110可以包括(但不限于)：移动电话、笔记本电脑、PAD(平板电脑)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。

服务器端可以与RS(遥感)数据库建立连接关系，服务器端用于运行本发明实施例的遥感数据检索方法的程序，并将运行结果反馈至用户端。具体地，用户端在得到检索输入数据之后，可以将该检索输入数据发送至服务器端。服务器端利用训练好的编码器模型对检索输入数据进行特征提取，得到第一特征数据；服务器端再基于第一特征数据和预先构建的特征库中各聚类的聚类中心数据确定目标聚类；最后，服务器端基于第一特征数据和目标聚类中的各第二特征数据确定目标遥感数据。服务器端得到目标遥感数据之后，将该目标遥感数据反馈至用户端，并由用户端的显示器向用户显示该目标遥感数据，从而实现遥感数据检索的过程。

参考前述实施例遥感数据检索方法的场景示例，下面对本发明实施例的遥感数据检索方法进行详细介绍。

图2是本发明实施例的遥感数据检索方法的流程图。如图2所示，该方法可以包括以下步骤：

步骤210：获取检索输入数据。

在本实施例中，检索输入数据可以为图像数据，也可以为文本数据。若检索输入数据为图像数据，则执行基于检索图像检索遥感文本数据的任务(即I2T任务)；若检索输入数据为文本数据，则执行基于检索文本检索遥感图像数据的任务(即T2I任务)。

服务器端可以通过接收用户端发送的检索输入数据，来实现获取检索输入数据。具体地，用户通过用户端上传需要进行检索的检索输入数据，用户端得到该检索输入数据之后，可以通过互联网络将该检索输入数据发送至服务器端，最后由服务器端对该检索输入数据进行处理。示例地，用户可以通过用户端的用户界面输入一段检索文本，该检索文本即为检索输入数据，用户端再将检索文本发送给服务器端。

步骤220：利用训练好的编码器模型对检索输入数据进行特征提取，得到第一特征数据，训练好的编码器模型用于对检索输入数据进行图像特征提取或文本特征提取。

在本实施例中，训练好的编码器模型主要包括两部分，一部分是图像编码模块，另一部分是文本编码模块。图像编码模块用于对图像数据进行图像特征提取，文本编码模块用于对文本数据进行文本特征提取。需要说明的是，在本实施例的编码器模型中，图像编码模块输出的特征和文本编码模块输出的特征是完全独立的。

具体地，若检索输入数据为图像数据，则将检索输入数据输入至本实施例编码器模型中的图像编码模块，得到第一特征数据，该第一特征数据即为图像特征。若检索输入数据为文本数据，则将检索输入数据输入至本实施例编码器模型中的文本编码模块，得到第一特征数据，该第一特征数据即为文本特征。

另外，值得一提的是，本发明实施例的图像编码模块和文本编码模块均是基于transformer模型构架进行构建的。具体地，可以使用CLIP模型中提出的视觉语言模型作为本实施例编码器模型的主干，CLIP模型在4亿个自然图像-文本对上进行了预训练。图像编码模块可以使用ViTL14模型，ViTL14模型是vision transformer模型的一种。文本编码模块可以使用transformer模型，transformer模型能够处理图像和文本两种模态。

已有的跨模态融合编码器模型的图像编码器和文本编码器，分别是基于卷积神经网络(CNN)和递归神经网络(RNN)构建的，采用这种异构的图像编码器和文本编码器，不利于跨模态的特征匹配。

而本发明实施例的编码器模型，图像编码模块和文本编码模块均是基于transformer模型的架构进行构建的，从而来统一图像编码模块和文本编码模块的架构，采用此种方式构建编码器模型，能够更有利于在一个公共特征空间中匹配特征。

步骤230：基于第一特征数据和预先构建的特征库中各聚类的聚类中心数据确定目标聚类，目标聚类为所有聚类中聚类中心数据与第一特征数据相似度最高的聚类。

在本实施例中，预先构建的特征库可以配置在本发明实施例中的服务器端，预先构建的特征库中包含多个聚类和各聚类对应的聚类中心数据，各个聚类下还包括多个第二特征数据。其中，聚类中心数据是在对所有第二特征数据进行聚类时得到的一个聚类中心序列，第二特征数据是指RS数据库中各遥感数据对应的特征序列。

需要说明的是，遥感数据可以为遥感图像数据，也可以为遥感文本数据；对应地，第二特征数据可以为图像特征数据，也可以为文本特征数据。另外，第一特征数据和第二特征数据为不同模态的特征数据。

服务器端在通过训练好的编码器模型得到第一特征数据之后，可以先计算第一特征数据与预先构建的特征库中各个聚类的相似度。具体地，分别计算第一特征数据与各个聚类对应的聚类中心数据之间的相似度，若第一特征数据与某一聚类中心数据具有较高的相似度，则表明第一特征数据与该聚类中心数据对应的聚类具有较高的相似度。

作为一个示例，在T2I任务中，获得的检索输入数据为文本数据，第一特征数据为文本特征数据。预先构建的特征库中包含k个聚类中心数据以及对应的k个聚类，具体可以按照不同场景对RS数据库中遥感图像数据进行聚类处理，得到的k个聚类中心数据以及对应的k个聚类。可以通过下式确定目标聚类：

i^*＝arg max(T_l·C_i) i∈1:k

其中，i^*为目标聚类在预先构建的特征库中的索引，T_l为第一特征数据(文本特征数据)，C_i为第i个聚类的聚类中心数据，k为聚类的总数量，在本实施例中k可以设置为30，即设置30个场景。需要说明的是，arg max算法返回的是索引位置。

作为另一个示例，在I2T任务中，获得的检索输入数据为图像数据，第一特征数据为图像特征数据。预先构建的特征库中包含k个聚类中心数据以及对应的k个聚类，具体可以按照不同场景对RS数据库中遥感文本数据进行聚类处理，得到的k个聚类中心数据以及对应的k个聚类。可以通过下式确定目标聚类：

i^*＝arg max(I_l·C_i) i∈1:k

其中，i^*为目标聚类的索引，I_l为第一特征数据(图像特征数据)，C_i为第i个聚类的聚类中心数据，k为聚类的总数量，在本实施例中k可以设置为30，即设置30个场景。

步骤240：基于第一特征数据和目标聚类中的各第二特征数据确定目标遥感数据，目标遥感数据为与第一特征数据相似度最高的第二特征数据对应的遥感数据。

服务器端在确定了与第一特征数据具有较高相似度的目标聚类之后，再分别计算第一特征数据与目标聚类中各个第二特征数据之间的相似度，并取相似度最高的第二特征数据对应的遥感数据，作为目标遥感数据。服务器端确定了目标遥感数据之后，会将目标遥感数据反馈至用户端，以供用户通过用户端查看。

作为一个示例，在T2I任务中，若确定了目标聚类的索引位置后，根据索引位置在预先构建的特征库中找到目标聚类，得到目标聚类下各个第二特征数据。再分别计算第一特征数据与各第二特征数据之间的相似度，进而确定目标遥感数据。具体可以通过下式计算第一特征数据与各第二特征数据之间的相似度：

j^*＝arg max(T_l·I_i*j) j∈1:m

其中，j^*为与第一特征数据相似度最高的第二特征数据的索引，T_l为第一特征数据(文本特征数据)，I_i*j为C_i*聚类下第j个第二特征数据，m为C_i*聚类下的第二特征数据的总数目。

根据第二特征数据的索引位置，可以在预先构建的特征库中找到对应的第二特征数据；确定了所需的第二特征数据之后，可以再根据第二特征数据在RS数据库中确定相应的遥感数据，该遥感数据即为目标遥感数据。

作为另一个示例，在I2T任务中，具体可以通过下式计算第一特征数据与各第二特征数据之间的相似度：

j^*＝arg max(I_l·T_i*j) j∈1:m

其中，j^*为与第一特征数据相似度最高的第二特征数据的索引，T_l为第一特征数据(文本特征数据)，T_i*j为C_i*聚类下第j个第二特征数据，m为C_i*聚类下的第二特征数据的总数目，T_i*j*即为与第一特征数据相似度最高的第二特征数据。

由此，通过预先对RS数据库中的遥感数据进行特征提取和聚类，构建得到特征库，从而在实际应用时，不需要重复对遥感数据进行特征提取。另外，通过先基于第一特征数据和各聚类中心数据确定目标聚类，再基于第一特征数据和目标聚类下各第二特征数据确定目标遥感数据，从而不需要将检索输入数据依次跟RS数据库中各个遥感数据进行相似度比对，将相似性比较的计算复杂度从O(n)降低到O(n/k)，有效提高跨模态遥感数据检索的检索效率。其中，k是聚类的数量，n是RS数据库中遥感图像数据的数量或者遥感文本数据的数量。

图3是本发明实施例的特征库构建方法的流程图。如图3所示，在一些实施方式中，可以通过以下步骤构建本实施例的特征库：

步骤310：利用训练好的编码器模型对遥感数据库中的各遥感数据进行特征提取，得到各遥感数据对应的第二特征数据。

步骤320：利用预设聚类算法对第二特征数据进行聚类处理，得到各聚类。

步骤330：基于各聚类构建特征库，得到构建好的特征库。

需要说明的是，特征库可以指遥感图像数据对应的特征库，也可以指遥感文本数据对应的特征库，也可以将遥感图像数据对应的特征预遥感文本数据对应的特征放在同一个特征库中。

下面以基于遥感图像数据构建遥感图像数据对应的特征库为例，介绍本实施例的特征库构建方法。

若遥感数据为遥感图像数据，则先利用本发明实施例编码器模型中的图像编码模块，对RS数据库中的各遥感图像数据进行特征提取，得到对应的第二特征数据，此时，第二特征数据为图像特征。

可以理解的是，不仅配对的图像特征和文本特征具有高相似度，处于同一场景下的不同图像特征数据或者文本特征数据也应该具有高相似度。基于此，在预先对RS数据库中的各遥感图像数据进行特征提取，得到对应的第二特征数据之后，可以先利用L2标准化对各个第二特征数据进行归一化。再按照不同的场景对所有归一化后的第二特征数据进行离线聚类处理，生成多个聚类中心序列(即聚类中心数据)，得到多个相应的聚类。需要说明的是，聚类中心序列的数量即为RS数据库所覆盖的场景数量，场景可以为港口、机场、社区、医院等等。

在本实施例中，使用的预设聚类算法可以为k-means++算法、k-means算法等等的聚类算法，此处不对预设聚类算法进行具体限制。可以优先选择k-means++算法作为本实施例的预设聚类算法，k-means++算法为k-means算法的改进，具有更好的初始化参数。

在得到各个聚类以及相应的聚类中心数据之后，可以将各个聚类以及相应的聚类中心数据存储在一个特征库中，其中，各聚类中会包含同一场景下的多个第二特征数据。

由此，通过训练好的编码器模型，将RS数据库中的遥感图像数据(宽×高×通道数：224×224×3)映射得到图像特征数据(1×768)，并基于图像特征数据构建特征库，这些离线图像特征数据只需占用很少的存储空间，却能够有效提高遥感数据的检索速度。

需要说明的是，遥感文本数据对应的特征库的构建步骤可以参考遥感图像数据对应的特征库构建过程，此处不再赘述。

图4是本发明实施例的编码器模型的结构示意图。如图4所述，在一些实施方式中，编码器模型可以包括图像编码模块和文本编码模块。其中，图像编码模块用于对输入至编码器模型的图像数据进行特征提取，文本编码模块用于对输入至编码器模型的文本数据进行特征提取。

图5是本发明实施例的编码器模型的训练方法的流程图。如图5所示，在一些实施方式中，可以通过以下步骤训练本实施例的编码器模型：

步骤510：获取训练样本集，训练样本集包括多个图像文本对。

步骤520：将图像文本对中的图像数据输入至图像编码模块中，得到图像特征数据，将图像文本对中的文本数据输入至文本编码模块中，得到文本特征数据。

步骤530：基于各图像特征数据和各文本特征数据利用预设损失函数计算总损失值，并根据总损失值更新编码器模型的参数，直至编码器模型收敛，得到训练好的编码器模型。

在本实施例中训练样本集可以采用已有的RSICD数据集，RSICD数据集包括10921个图像数据，且每个图像数据均有5个文本描述，另外，RSICD数据集中包含30种不同场景的图像文本对。可以使用RSICD数据集中80％的图像文本对作为本实施例的训练样本集；使用RSICD数据集中10％的图像文本对作为验证集，进行验证过程；使用RSICD数据集中10％的图像文本对作为测试集，进行测试过程。

在一些实施方式中，得到训练样本集之后，可以对训练样本集中的图像数据进行数据增强处理。通过对图像数据进行数据增强处理，可以提高视觉模型(例如，本实施例的编码器模型)的泛化能力，但是，在RSCTIR技术中，若采用不适当或太强的数据增强可能反而会降低模型的性能。

作为一个示例，遥感图像与自然图像有很大不同，遥感图像会包含很多小但重要的目标，因此，若对训练样本集中的图像数据进行随机裁剪操作，则很可能会将图像数据中重要的小目标裁剪去除，导致图像数据与文本数据不匹配，进而影响训练得到的编码器模型的性能。

作为另一个示例，文本数据中经常会出现颜色信息，若对训练样本集中的图像数据进行颜色反转等颜色变化相关的处理，则也会导致图像数据与文本数据不匹配，进而影响训练得到的编码器模型的性能。

基于此，本实施例选择Rand Augment数据增强策略中的部分数据增强策略，作为本实施例的数据增强策略。具体地，本实施例不对训练样本集中的图像数据进行颜色反转操作、剪切操作和Solarize(日光化)操作等，其中，Solarize操作和颜色反转操作会扭曲图像数据的颜色，剪切操作会存在掩盖重要小目标的情况。而本实施例主要进行的数据增强操作包括(但不限于)：调整图像数据的颜色平衡、对比度、亮度以及锐度，还包括对图像数据的旋转、仿射变换、平移以及平衡图像的直方图等。

由此，通过采用本实施例中的数据增强策略，能够针对性地对本应用场景中的图像数据进行数据增强，有效地提升了训练得到的编码器模型的性能。

对图像文本对中的图像数据进行数据增强后，将经过数据增强后的图像文本对输入至编码器模型中，来对编码器模型进行训练。在本实施例中，可以将训练样本集分为多个批次batch，使编码器模型分批次对训练样本集进行处理。

具体地，先将一批次的图像文本对中的图像数据输入至图像编码模块，图像编码模块会对图像数据进行特征提取，得到图像特征数据。将同一批次的图像文本对中的文本数据输入至文本编码模块，文本编码模块会对文本数据进行特征提取，得到文本特征数据。

在通过图像编码模块和文本编码模块，得到同一批次中所有图像文本对对应的图像特征数据和文本特征数据之后，可以利用这一批次的所有图像特征数据和文本特征数据，通过预设损失函数计算总损失值，并根据总损失值更新编码器模型的参数。

更新编码器模型参数后，再将下一批次中所有图像文本对输入至编码器模型中，得到对应的图像特征数据和文本特征数据。根据下一批次中所有图像文本对对应的图像特征数据和文本特征数据计算总损失值，并根据总损失值更新编码器模型的参数，直至编码器模型收敛，得到训练好的编码器模型。其中，可以使用Adam优化器作为优化算法来优化编码器模型的参数。

作为一个示例，可以将Adam优化器的学习率设置为lr＝1e-5，动量设置为m＝0.9，权重衰减设置为0.0001。设置完成后，使用Adam优化器对编码器模型的参数进行更新。重复步骤520和步骤530，以不断降低总损失值来优化编码器模型参数，直至编码器模型收敛(即模型参数最优)。其中，训练次数epoch可以设置为64次，每个批次的大小batch size可以设置为16。

在一些实施方式中，如图4所示，图像编码模块包括图像嵌入层，文本编码模块包括文本嵌入层。其中，图像嵌入层用于对图像数据进行图嵌入处理；文本嵌入层用于对文本数据进行词嵌入处理。

在一些实施方式中，在步骤520中将图像文本对中的图像数据输入至图像编码模块中，得到图像特征数据，包括：将图像文本对中的图像数据分割为多个图像块，并将各图像块输入至图像嵌入层，得到图像文本对对应的图像嵌入数据，以基于图像嵌入数据确定图像特征数据。在步骤520中将图像文本对中的文本数据输入至文本编码模块中，得到文本特征数据，包括：将图像文本对中的文本数据分割为多个词汇，并将各词汇输入至文本嵌入层，得到图像文本对对应的文本嵌入数据，以基于文本嵌入数据确定文本特征数据。

以图像编码模块的图像嵌入层为例，可以将图像文本对中的图像数据I∈R^H×W×C分割为多个图像块S，其中，H为图像数据的高度值，W为图像数据的宽度值，C为图像数据的通道数，(P，P)为每个图像块S的分辨率，N＝H*W/P²，N为图像块的总数量。

得到多个图像块之后，可以将各个图像块输入至图像编码模块的图像嵌入层中，图像嵌入层会将各个图像块展平，并通过线性投影将各个图像块投影到嵌入维度D，得到图像数据对应的图像嵌入数据。通过对图像嵌入数据进行特征提取，可以得到图像特征数据。具体可以通过下式确定图像嵌入数据：

其中，为图像嵌入数据，/>I_class为附加到图像块的类标记，I_class∈R^1*D，E_v为图像块嵌入层，/>E_pos为图像数据的位置嵌入向量，E_pos∈R^(N+1)*D，为第N个图像块序列。需要说明的是，类标记即为类别向量，类标记和位置嵌入向量均是可学习的，即类标记的值和位置嵌入向量的值可以被梯度更新。

在本实施例中，可以将图像文本对中的文本数据分割为多个词汇，再将各个词汇输入至文本编码模块的文本嵌入层，得到文本嵌入数据。需要说明的是，文本编码模块的文本嵌入层的工作过程与图像嵌入层的工作过程相同，文本嵌入层基于各个词汇得到文本嵌入数据的过程可以参考前述实施例中图像嵌入层基于各个图像块得到图像嵌入数据的过程，此处不再赘述。

在一些实施方式中，如图4所示，图像编码模块还包括至少两个图像编码器，且各图像编码器依次连接。文本编码模块还包括至少两个文本编码器，且各文本编码器依次连接。需要说明的是，图像编码器的数量L1和文本编码器的数量L2可以由工作人员根据实际需求人为设置，例如，可以将图像编码器的数量设置24，将文本编码器的数量设置为12。

在一些实施方式中，基于图像嵌入数据确定图像特征数据，可以包括：将图像嵌入数据从所有图像编码器中的首个图像编码器中输入，经过至少两个图像编码器对图像嵌入数据进行图像特征提取，从所有图像编码器中的最后一个图像编码器中输出图像特征数据。基于文本嵌入数据确定文本特征数据，可以包括：将文本嵌入数据从所有文本编码器中的首个文本编码器中输入，经过至少两个文本编码器对文本嵌入数据进行文本特征提取，从所有文本编码器中的最后一个文本编码器中输出文本特征数据。

依旧以图像编码模块为例，所有图像编码器中的首个图像编码器与图像嵌入层相连，图像嵌入层向首个图像编码器输出图像嵌入数据。将图像嵌入数据输入至首个图像编码器之后，首个图像编码器会先对图像嵌入数据进行一次特征提取，得到一个中间特征图；该中间特征图会作为下一个图像编码器的输入，使下一个图像编码器再对该中间特征图进行特征提取，直至最后一个图像编码器输出最终的图像特征数据。

作为一个示例，若图像编码器的数量为3个，将图像嵌入数据先输入至第一个图像编码器中，第一个图像编码器对该图像嵌入数据进行特征提取，可以得到第一个中间特征图。接下来，将第一个中间特征图作为第二个图像编码器的输入，第二个图像编码器对该第一个中间特征图进行特征提取，得到第二个中间特征图。最后，将第二个中间特征图作为第三个图像编码器的输入，第三个图像编码器对第二个中间特征图进行特征提取，得到最终的图像特征数据。

在一些实施方式中，如图4所示，图像编码器主要包括依次连接的：多头自注意层(MSA)、第一层标准化(LN)、全连接层(MLP)以及第二层标准化(LN)，其中，全连接层是一个具有两层的完全连接的神经网络，多头自注意层和全连接层具有残差连接。

以图像编码模块中的第一个图像编码器为例，图像编码器的具体工作原理为：将图像嵌入数据输入至第一个图像编码器之后，多头自注意层会先对图像嵌入数据进行线性投影，得到查询向量Q、键向量K以及值向量V，多头自注意层再将查询向量Q、键向量K以及值向量V分别分离为多个独立头部，即每个独立头部均有不同的子查询向量Q、子键向量K以及子值向量V。接下来，再分别计算每个独立头部的子注意力值，得到每个独立头部的子注意力值之后，再将所有独立头部的子注意力值进行拼接和线性投影，即可得到该图像嵌入数据的注意力值。

在本实施例中，具体可以通过下式计算每个独立头部的子注意力值：

其中，head_f为第f个独立头部的子注意力值，Q_f为第f个子查询向量，K_f为第f个子键向量，V_f为第f个子值向量，d_head表示每个独立头部的通道数，d_head＝D/P，D为维度，P为独立头部的数量，f的取值为[1,P]。

在本实施例中，具体可以通过下式计算一个多头自注意层输出的图像嵌入数据的注意力值：

Hs＝Concat(head₁,…,head_P)W^o

其中，HS为一个多头自注意层输出的注意力值，W^o为线性投影层。

需要说明的是，图像编码模块中每个图像编码器的多头自注意层的工作原理相同，因此，图像数据的注意力值的计算方式也相同，则有：

其中，为第l层图像编码器的多头自注意层输出的注意力值，/>为第l-1层图像编码器输出的特征向量，/>为第l层图像编码器输出的特征向量。

在本实施例中，可以选择最后一个图像编码器输出的特征向量中类标记位置处作为图像特征数据。这里，需要说明的是，类标记附加到图像块序列中，得到图像嵌入数据作为图像编码器的输入，/>图像嵌入数据的维度会自始至终的保持，即无论是第几层图像编码器输出的特征向量，输出的特征向量的维度始终为/>而最终的图像特征数据为一维向量1×D，因此，可以将最后一个图像编码器输出的特征向量中类标记位置处的特征向量取出即可，并将该特征向量作为图像特征数据。/>

在本实施例中，文本编码模块中文本嵌入层的结构和工作过程与图像编码模块中图像嵌入层的结构和工作过程相同；文本编码模块中文本编码器的结构和工作过程与图像编码模块中图像编码器的结构和工作过程相同，因此，文本编码模块的具体结构和工作过程可以参考前述图像编码模块的具体结构和工作过程，此处不再赘述。

在一些实施方式中，步骤530中基于各图像特征数据和各文本特征数据利用预设损失函数计算总损失值，包括：基于各图像特征数据和各文本特征数据确定第一子损失值和第二子损失值，第一子损失值用于表征基于图像检索文本的情况下编码器模型的损失值，第二子损失值用于表征基于文本检索图像的情况下编码器模型的损失值；基于第一子损失值和第二子损失值确定总损失值。

在本实施例中，可以采用InfoNCE对比度损失来优化编码器模型的参数。在通过图像编码模块和文本编码模块，得到同一批次中所有图像文本对对应的图像特征数据和文本特征数据之后，可以先计算基于图像检索文本的情况下，编码器模型的第一损失值。

具体地，同一图像文本对对应的图像特征数据和文本特征数据可以作为正样本，处于不同图像文本对的图像特征数据和文本特征数据可以作为负样本。定义了正样本和负样本之后，就需要通过对比学习的损失函数来指导编码器模型学习。若在图像检索文本的情况下，作为检索输入数据对应的图像特征数据，应该与唯一正样本中文本特征数据相似，且与其余负样本中文本特征数据不相似，此时，编码器模型的损失值是比较低的。反之，如果作为检索输入数据对应的图像特征数据，与唯一正样本中文本特征数据不相似，或者与其余负样本中文本特征数据相似，此时，编码器模型的损失值比较高，从而需要促使编码器模型进行参数更新。

同样地，得到第一子损失值后，再计算基于文本检索图像的情况下，编码器模型的第二子损失值。最后，将第一子损失值和第二子损失值进行加和计算，即可得到编码器模型的总损失值。

在一些实施方式中，预设损失函数可以为：

L^total＝L^I2T+L^T2I

其中，L^I2T为第一子损失值，B为图像文本对的总数量，I_i为第i个图像文本对中的图像特征数据，T_i为第i个图像文本对中的文本特征数据，T_j为第j个图像文本对中的文本特征数据，τ为可学习的温度参数，L^T2I为第二子损失值，I_j为第j个图像文本对中的图像特征数据，L^total为总损失值。需要说明的是，B为一个批次中图像文本对的总数量，在本实施例中，B值可以取16。

值得一提的是，在实际应用中，对RS数据库中的遥感数据进行特征提取和离线聚类处理只需要运行一次，当RS数据库中添加了新的遥感数据时，只需要单独对新的遥感数据进行特征提取，并将新的遥感数据添加到具有较高相似度的聚类中。从而在实际检索过程中，能够大大降低检索运行时间。

由此，本实施例中的编码器模型，图像编码模块和文本编码模块均相互独立，从而能够利用本实施例中的编码器模型预先对RS数据库中的遥感数据进行特征提取，进而大大减少了检索过程中的特征提取计算。其次，通过对各遥感数据对应的第二特征数据进行离线聚类处理，使相似性比较的计算复杂度从O(n)降低到O(n/k)，从而不需要将检索输入数据依次跟RS数据库中各个遥感数据进行相似度比对，进而有效提高了跨模态遥感数据检索的检索效率。最后，通过采用本实施例中的数据增强策略，能够针对性地对本应用场景中的图像数据进行数据增强，有效地提升了训练得到的编码器模型的性能。

图6是本发明实施例的遥感数据检索装置的方框图。

如图6所示，该遥感数据检索装置600包括：用于获取检索输入数据的获取模块610、用于利用训练好的编码器模型对检索输入数据进行特征提取，得到第一特征数据的编码模块620、用于基于第一特征数据和预先构建的特征库中各聚类的聚类中心数据确定目标聚类的聚类确定模块630、用于基于第一特征数据和目标聚类中的各第二特征数据确定目标遥感数据的遥感数据确定模块640。

其中，目标聚类为所有聚类中聚类中心数据与第一特征数据相似度最高的聚类；目标遥感数据为与第一特征数据相似度最高的第二特征数据对应的遥感数据。

由此，通过编码模块620利用训练好的编码器模型对检索输入数据进行特征提取，得到第一特征数据；聚类确定模块630再基于第一特征数据和预先构建的特征库中各聚类的聚类中心数据先确定目标聚类，找到与第一特征数据相似度最高的目标聚类；确定模块640再基于第一特征数据与目标聚类中的各第二特征数据确定目标遥感数据，从而再进行遥感数据检索时，不需要大量重复地对RS数据库中的遥感数据进行特征提取，且通过离线聚类的方式，先找到与检索输入数据相似度最高的聚类，在确定该聚类中与检索输入数据相似度最高的遥感数据，从而不需要计算检索输入数据与每个遥感数据的相似度，大大提高了跨模态遥感数据检索的检索效率。

需要说明的是，本实施例的遥感数据检索装置中未披露的细节，请参照本说明书实施例中遥感数据检索方法的实施例中所披露的细节，此处不再赘述。

图7示例了一种边缘处理设备的实体结构示意图，如图7所示，该边缘处理设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行遥感数据检索方法，该方法包括：获取检索输入数据；利用训练好的编码器模型对检索输入数据进行特征提取，得到第一特征数据，训练好的编码器模型用于对检索输入数据进行图像特征提取或文本特征提取；基于第一特征数据和预先构建的特征库中各聚类的聚类中心数据确定目标聚类，目标聚类为所有聚类中聚类中心数据与第一特征数据相似度最高的聚类；基于第一特征数据和目标聚类中的各第二特征数据确定目标遥感数据，目标遥感数据为与第一特征数据相似度最高的第二特征数据对应的遥感数据。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的遥感数据检索方法，该方法包括：获取检索输入数据；利用训练好的编码器模型对检索输入数据进行特征提取，得到第一特征数据，训练好的编码器模型用于对检索输入数据进行图像特征提取或文本特征提取；基于第一特征数据和预先构建的特征库中各聚类的聚类中心数据确定目标聚类，目标聚类为所有聚类中聚类中心数据与第一特征数据相似度最高的聚类；基于第一特征数据和目标聚类中的各第二特征数据确定目标遥感数据，目标遥感数据为与第一特征数据相似度最高的第二特征数据对应的遥感数据。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的遥感数据检索方法，该方法包括：获取检索输入数据；利用训练好的编码器模型对检索输入数据进行特征提取，得到第一特征数据，训练好的编码器模型用于对检索输入数据进行图像特征提取或文本特征提取；基于第一特征数据和预先构建的特征库中各聚类的聚类中心数据确定目标聚类，目标聚类为所有聚类中聚类中心数据与第一特征数据相似度最高的聚类；基于第一特征数据和目标聚类中的各第二特征数据确定目标遥感数据，目标遥感数据为与第一特征数据相似度最高的第二特征数据对应的遥感数据。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种遥感数据检索方法，其特征在于，所述方法包括：

获取检索输入数据；

2.根据权利要求1所述的遥感数据检索方法，其特征在于，所述特征库的构建步骤包括：

利用所述训练好的编码器模型对遥感数据库中的各遥感数据进行特征提取，得到各所述遥感数据对应的所述第二特征数据；

利用预设聚类算法对所述第二特征数据进行聚类处理，得到各所述聚类；

基于各所述聚类构建所述特征库，得到构建好的特征库。

3.根据权利要求1或2所述的遥感数据检索方法，其特征在于，所述编码器模型包括图像编码模块和文本编码模块，所述编码器模型的训练步骤包括：

获取训练样本集，所述训练样本集包括多个图像文本对；

将所述图像文本对中的图像数据输入至所述图像编码模块中，得到图像特征数据，将所述图像文本对中的文本数据输入至所述文本编码模块中，得到文本特征数据；

基于各所述图像特征数据和各所述文本特征数据利用预设损失函数计算总损失值，并根据所述总损失值更新所述编码器模型的参数，直至所述编码器模型收敛，得到训练好的编码器模型。

4.根据权利要求3所述的遥感数据检索方法，其特征在于，所述图像编码模块包括图像嵌入层，所述文本编码模块包括文本嵌入层；

所述将所述图像文本对中的图像数据输入至所述图像编码模块中，得到图像特征数据，包括：

将所述图像文本对中的图像数据分割为多个图像块，并将各所述图像块输入至所述图像嵌入层，得到所述图像文本对对应的图像嵌入数据，以基于所述图像嵌入数据确定所述图像特征数据；

所述将所述图像文本对中的文本数据输入至所述文本编码模块中，得到文本特征数据，包括：

将所述图像文本对中的文本数据分割为多个词汇，并将各所述词汇输入至所述文本嵌入层，得到所述图像文本对对应的文本嵌入数据，以基于所述文本嵌入数据确定所述文本特征数据。

5.根据权利要求4所述的遥感数据检索方法，其特征在于，所述图像编码模块还包括至少两个图像编码器，各所述图像编码器依次连接，所述文本编码模块还包括至少两个文本编码器，各所述文本编码器依次连接；

所述基于所述图像嵌入数据确定所述图像特征数据，包括：

将所述图像嵌入数据从所有所述图像编码器中的首个图像编码器中输入，经过至少两个所述图像编码器对所述图像嵌入数据进行图像特征提取，从所有所述图像编码器中的最后一个图像编码器中输出所述图像特征数据；

所述基于所述文本嵌入数据确定所述文本特征数据，包括：

将所述文本嵌入数据从所有所述文本编码器中的首个文本编码器中输入，经过至少两个所述文本编码器对所述文本嵌入数据进行文本特征提取，从所有所述文本编码器中的最后一个文本编码器中输出所述文本特征数据。

6.根据权利要求4或5所述的遥感数据检索方法，其特征在于，基于各所述图像特征数据和各所述文本特征数据利用预设损失函数计算总损失值，包括：

基于各所述图像特征数据和各所述文本特征数据确定第一子损失值和所述第二子损失值，所述第一子损失值用于表征基于图像检索文本的情况下所述编码器模型的损失值，所述第二子损失值用于表征基于文本检索图像的情况下所述编码器模型的损失值；

基于所述第一子损失值和所述第二子损失值确定所述总损失值。

7.根据权利要求6所述的遥感数据检索方法，其特征在于，所述预设损失函数为：

L^total＝L^I2T+L^T2I

8.一种遥感数据检索装置，其特征在于，包括：

获取模块，用于获取检索输入数据；

编码模块，用于利用训练好的编码器模型对所述检索输入数据进行特征提取，得到第一特征数据；

聚类确定模块，用于基于所述第一特征数据和预先构建的特征库中各聚类的聚类中心数据确定目标聚类，所述目标聚类为所有聚类中聚类中心数据与所述第一特征数据相似度最高的聚类；

遥感数据确定模块，用于基于所述第一特征数据和所述目标聚类中的各第二特征数据确定目标遥感数据，所述目标遥感数据为与所述第一特征数据相似度最高的第二特征数据对应的遥感数据。

9.一种边缘处理设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述遥感数据检索方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述遥感数据检索方法。