CN116257609A

CN116257609A - 基于多尺度文本对齐的跨模态检索方法及系统

Info

Publication number: CN116257609A
Application number: CN202310037420.6A
Authority: CN
Inventors: 陈亚雄; 杨锴; 黄景灏; 魏志程; 熊盛武
Original assignee: Sanya Science and Education Innovation Park of Wuhan University of Technology
Current assignee: Sanya Science and Education Innovation Park of Wuhan University of Technology
Priority date: 2023-01-09
Filing date: 2023-01-09
Publication date: 2023-06-13

Abstract

本发明提出了基于多尺度文本对齐的跨模态检索方法及系统，首先构建包括图像表示模块、文本表示模块和文本对齐模块的整体网络模型，通过图像表示模块和文本表示模块能有效地捕捉不同小目标之间的细微差异，有效地捕获图像与文本之间的细粒度对应关系；通过文本对齐模块对文本与自然的处理，保留了有效文本信息；整体网络模型的目标函数包括三元组损失函数与InfoNCE损失函数，考虑到了文本与图像之间的先验相似性，大大优化了图像与文本的目标函数，增加了跨模态检索的泛化性，使其特别适合应用于遥感图像与文本的跨模态检索。

Description

基于多尺度文本对齐的跨模态检索方法及系统

技术领域

本发明属于计算机智能设别技术领域，涉及一种跨模态遥感检索方法及系统。

背景技术

随着互联网技术和智能设备的发展，社交网络和其他信息平台出现了多种多样的属于不同模态的海量多媒体数据，如文本、语音、音频、图像和视频。

在如今大数据时代下，获取不同模态数据之间的关系，挖掘海量数据中的潜在价值尤为重要。跨模态检索任务旨在视觉图像和语言文本两种不同的媒体数据之间准确的找到相同语义的实例,因此如何弥补视觉图像和语言文本之间存在的“语义鸿沟”是该任务的主要问题。目前，往往利用深度学习方法解决跨模态图像-文本检索问题，常见的做法是直接通过计算图像和文本之间的相似度来进行跨模态图像-文本检索，但是这种方法有三点不足：一是由于图像的多尺度特性，该方法不能有效地捕捉不同小目标之间的细微差异；二是该方法通常将文本与图像粗略对齐，导致与图像相关的有效文本信息丢失；三是该方法的损失函数基本是衡量文本特征向量与遥感图像特征向量的相似性，忽略了文本与图像之间的先验相似性。

发明内容

为了解决背景技术中所述的问题，本发明提出了基于多尺度文本对齐的跨模态检索方法及系统。

本发明的方法包括以下步骤：

S1)采集包括图像和文本的跨模态数据，并将其划分为训练数据集和测试数据集；

S2)构建包括图像表示模块、文本表示模块和文本对齐模块的整体网络模型；所述图像表示模块包括多尺度融合模块和显著区域学习模块，所述文本表示模块包括词编码器、双向GRU网络和多层感知器MLP网络；

S3)在图像表示模块中，先使用多尺度融合模块通过不同卷积核大小的卷积对训练数据集的图像进行采样，然后通过三个Transformer块、两个Patch Merging块、冗余序列过滤模块和全连接层组成的显著区域学习模块对图像进行提取，得到图像特征；

在文本表示模块中，先使用词编码器将训练数据集的文本单词转为词向量表示，然后利用双向GRU网络和多层感知器MLP网络将词向量表示提取出来，得到文本特征向量；

在文本对齐模块中，依据图像特征得到图像特征向量，计算图像特征向量和文本特征向量之间的相似度关系，通过构造注意权重得到对齐后的文本特征向量；

S4)通过图像特征向量、文本特征向量、图像特征向量和文本特征向量之间的相似度关系以及对齐后的文本特征向量对整体网络模型进行训练，计算得出整体网络模型包括三元组损失函数与InfoNCE损失函数在内的目标函数，并使用Adam算法优化更新整体网络模型的初始参数，得到最终整体网络模型；

S5)使用测试数据集对最终整体网络模型进行查询图像相关的文本检索任务和查询文本相关的图像检索任务的验证评估，得到检索召回率R@K；

S6)若检索召回率R@K未达到要求，重复步骤S2)至S5)，若检索召回率R@K达到要求，输出最终整体网络模型，将其应用于跨模态检索任务。

进一步地，所述步骤S1)中，图像和文本的跨模态数据包括遥感领域常用的RSICD、RSITMD、UCM和SYDNEY图像-文本数据集，选用80％的图像-文本数据集作为训练数据集，剩余20％作为测试数据集。

更进一步地，所述步骤S2)中，显著区域学习模块的Transformer块采用相同步长，通过4×4卷积核、8×8卷积核、16×16卷积核、32×32卷积核对图像进行采样。

更进一步地，所述步骤S3)的文本表示模块中，词编码器将单词映射到d维空间的公式为：

x_j＝W_G(o_j)(j∈[1，J])，

其中，x_j表示词嵌入向量，W_G表示嵌入矩阵，o_j为句子中的单词，J为句子中单词的个数；

之后将词嵌入向量x_j输入到双向GRU网络中，公式为：

其中，

为t时刻正向GRU网络的隐藏状态，

为t时刻反向GRU网络的隐藏状态；

得到初始文本特征向量u_j为：

通过多层感知器MLP网络对初始文本特征向量u_i进行处理，使图像模态和文本模态的特征维度保持一致，得到文本特征向量

更进一步地，所述步骤S3)的文本对齐模块中，先通过线性变换第m个图像I_m的原始特征向量

得到图像特征向量

然后计算文本特征向量与图像特征向量的相似度，公式为：

其中，

表示文本特征向量与图像特征向量的相似度，

为文本特征向量，

表示图像特征向量；

构造注意权重的公式为：

其中，W^IT为注意权重矩阵，θ为Sigmoid函数；

最后得到对齐后的文本特征向量

更进一步地，所述步骤S4)中，整体网络模型目标函数的总表达式为：

其中，

为三元组损失，

为InfoNCE损失，γ为权重参数。

所述三元组损失函数的公式为：

其中，

为三元组损失，α为边缘参数，[x]₊＝max(x，0)，

为对齐后的文本特征向量，

为图像特征向量，

表示文本模态的负样本，

表示图像模态的负样本，S表示某两者之间的相似度；

所述InfoNCE损失函数的公式为：

其中，

为InfoNCE损失，τ为可学习的参数，M为样本数，

为原始特征向量，

为文本特征向量，S表示某两者之间的相似度。

所述步骤S4)中，Adam算法优化的学习率设置为2*10^-4，词向量维度设置为300，批次大小设置为128，学习率的衰减策略为依据验证集的Loss不再下降进行调整；边缘参数α设置为0.2，权重参数γ设置为0.1，参数τ设置为0.1，通过训练整体网络模型从而得到初始参数：权重参数W和偏置参数B。

本发明的系统包括数据采集模块、模型构建模块、模型训练模块和模型验证应用模块。

所述数据采集模块用于采集包括图像和文本的跨模态数据，并将其划分为训练数据集和测试数据集。

所述模型构建模块用于构建包括图像表示模块、文本表示模块和文本对齐模块的整体网络模型，所述图像表示模块包括多尺度融合模块和显著区域学习模块，所述文本表示模块包括词编码器、双向GRU网络和多层感知器MLP网络。

所述模型训练模块中，在图像表示模块中，先使用多尺度融合模块通过不同卷积核大小的卷积对训练数据集的图像进行采样，然后通过三个Transformer块、两个PatchMerging块、冗余序列过滤模块和全连接层组成的显著区域学习模块对图像进行提取，得到图像特征；在图像表示模块中，先使用词编码器将训练数据集的文本单词转为词向量表示，然后利用双向GRU网络和多层感知器MLP网络将词向量表示提取出来，得到文本特征向量；在文本对齐模块中，依据图像特征得到图像特征向量，计算图像特征向量和文本特征向量之间的相似度关系，通过构造注意权重得到对齐后的文本特征向量；最后通过图像特征向量、文本特征向量、图像特征向量和文本特征向量之间的相似度关系以及对齐后的文本特征向量对整体网络模型进行训练，计算得出包括三元组损失函数与InfoNCE损失函数在内的整体网络模型目标函数，并使用Adam算法优化更新整体网络模型的初始参数，得到最终整体网络模型。

所述模型验证应用模块中，使用测试数据集对最终整体网络模型进行查询图像相关的文本检索任务和查询文本相关的图像检索任务的验证评估，得到检索召回率R@K；若检索召回率R@K未达到要求，重复进行模型构建和训练，若检索召回率R@K达到要求，输出最终整体网络模型，将其应用于跨模态检索任务。

本发明还提出了基于多尺度文本对齐的跨模态检索方法的计算机设备，其包括存储器、处理器和存储在存储器中可供处理器运行的程序指令，其中所述处理器执行所述程序指令以实现上述所述方法中的步骤和上述所述的系统。

本发明还提出了一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述所述方法中的步骤和上述所述的系统。

本发明与现有技术相比，将包括图像和文本的跨模态数据划分为训练数据集和测试数据集，然后构建包括图像表示模块、文本表示模块和文本对齐模块的整体网络模型，接着将训练数据集输入整体网络模型的各个模块中，得到图像特征向量、文本特征向量、图像特征向量和文本特征向量之间的相似度关系以及对齐后的文本特征向量，对整体网络模型进行训练，得出整体网络模型的目标函数，并使用Adam算法更新整体网络模型的初始参数，得到最终整体网络模型，最终整体网络模型评估达到要求后即可应用于跨模态检索任务。本发明提出的方法通过图像表示模块和文本表示模块能有效地捕捉不同小目标之间的细微差异，有效地捕获图像与文本之间的细粒度对应关系；通过文本对齐模块对文本与自然的处理，保留了有效文本信息；整体网络模型的目标函数包括三元组损失函数与InfoNCE损失函数，考虑到了文本与图像之间的先验相似性，大大优化了图像与文本的目标函数，增加了跨模态检索任务的泛化性，使其特别适合应用于遥感图像与文本的跨模态检索。

附图说明

图1为本发明的方法流程图和系统架构图。

图2为本发明的系整体网络模型的训练流程图。

具体实施方式

下面结合附图详细说明本发明的实施情况，但它们并不构成对本发明的限定，仅做举例而已，同时通过说明，将更加清楚地理解本发明的优点。本领域的普通的技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。实施例中所述的位置关系均与附图所示一致，实施例中其他未详细说明的部分均为现有技术。

本发明提出了基于多尺度文本对齐的跨模态检索方法，流程图如图1所示，具体步骤如下：

S1)采集包括图像和文本的跨模态数据，并将其划分为训练数据集和测试数据集。

其中，图像和文本的跨模态数据包括遥感领域常用的RSICD、RSITMD、UCM和SYDNEY图像-文本数据集，选用80％的图像-文本数据集作为训练数据集，剩余20％作为测试数据集。

S2)构建包括图像表示模块、文本表示模块和文本对齐模块的整体网络模型，其中，图像表示模块包括多尺度融合模块和显著区域学习模块，文本表示模块包括词编码器、双向GRU网络和多层感知器MLP网络。

其中，文本对齐模块是基于图像引导构建的。显著区域学习模块的Transformer块采用相同步长，通过4×4卷积核、8×8卷积核、16×16卷积核、32×32卷积核对图像进行采样。

S3)在图像表示模块中，先使用多尺度融合模块通过不同卷积核大小的卷积对训练数据集的图像进行采样，然后通过三个Transformer块、两个Patch Merging块、冗余序列过滤模块和全连接层组成的显著区域学习模块对图像进行提取，得到图像特征。

在文本表示模块中，先使用词编码器将训练数据集的文本单词转为词向量表示，然后利用双向GRU网络和多层感知器MLP网络将词向量表示提取出来，得到文本特征向量。

在文本对齐模块中，依据图像特征得到图像特征向量，计算图像特征向量和文本特征向量之间的相似度关系，通过构造注意权重得到对齐后的文本特征向量。

具体地，在文本表示模块中，词编码器将单词映射到d维空间的公式为：

x_j＝W_G(o_j)(j∈[1，J])，

之后将词嵌入向量x_j输入到双向GRU网络中，公式为：

其中，

为t时刻正向GRU网络的隐藏状态，

为t时刻反向GRU网络的隐藏状态；

得到初始文本特征向量u_j为：

具体地，在文本对齐模块中，先通过线性变换第m个图像I_m的原始特征向量

得到图像特征向量

然后计算文本特征向量与图像特征向量的相似度，公式为：

其中，

表示文本特征向量与图像特征向量的相似度，

为文本特征向量，

表示图像特征向量；

构造注意权重的公式为：

其中，W^IT为注意权重矩阵，θ为Sigmoid函数；

最后得到对齐后的文本特征向量

S4)通过图像特征向量、文本特征向量、图像特征向量和文本特征向量之间的相似度关系以及对齐后的文本特征向量对整体网络模型进行训练，计算得出包括三元组损失函数与InfoNCE损失函数在内的整体网络模型目标函数，并使用Adam算法优化更新整体网络模型的初始参数，得到最终整体网络模型。

整体网络模型的训练流程图如图2所示。

具体地，整体网络模型的目标函数的总表达式为：

其中，

为三元组损失，

为InfoNCE损失，γ为权重参数。

三元组损失函数的公式为：

其中，

为三元组损失，α为边缘参数，[x]₊＝max(x，0)，

为对齐后的文本特征向量，

为图像特征向量，

表示文本模态的负样本，

表示图像模态的负样本，S表示某两者之间的相似度。

InfoNCE损失函数的公式为：

其中，

为InfoNCE损失，τ为可学习的参数，M为样本数，

为原始特征向量，

为文本特征向量，S表示某两者之间的相似度。

Adam算法优化中，学习率设置为2*10，词向量维度设置为300，批次大小设置为128，学习率的衰减策略为依据验证集的Loss不再下降进行调整；边缘参数α设置为0.2，权重参数γ设置为0.1，参数τ设置为0.1，通过训练整体网络模型从而得到初始参数：权重参数W和偏置参数B。

S5)使用测试数据集对最终整体网络模型进行查询图像相关的文本检索任务和查询文本相关的图像检索任务的验证评估，得到检索召回率R@K。

S6)若检索召回率R@K未达到要求，重复上述步骤，若检索召回率R@K达到要求，输出最终整体网络模型，将其应用于跨模态检索任务。

一般地，本发明的检索召回率R@K要求大于传统的跨模态检索方法的检索召回率R@K即可。

本发明还提出了基于多尺度文本对齐的跨模态检索系统，如图1所示，由数据采集模块、模型构建模块、模型训练模块和模型验证应用模块组成。

数据采集模块用于采集包括图像和文本的跨模态数据，并将其划分为训练数据集和测试数据集。

模型构建模块用于构建包括图像表示模块、文本表示模块和文本对齐模块的整体网络模型，所述图像表示模块包括多尺度融合模块和显著区域学习模块，所述文本表示模块包括词编码器、双向GRU网络和多层感知器MLP网络。

模型训练模块中，在图像表示模块中，先使用多尺度融合模块通过不同卷积核大小的卷积对训练数据集的图像进行采样，然后通过三个Transformer块、两个PatchMerging块、冗余序列过滤模块和全连接层组成的显著区域学习模块对图像进行提取，得到图像特征；在图像表示模块中，先使用词编码器将训练数据集的文本单词转为词向量表示，然后利用双向GRU网络和多层感知器MLP网络将词向量表示提取出来，得到文本特征向量；在文本对齐模块中，依据图像特征得到图像特征向量，计算图像特征向量和文本特征向量之间的相似度关系，通过构造注意权重得到对齐后的文本特征向量；最后通过图像特征向量、文本特征向量、图像特征向量和文本特征向量之间的相似度关系以及对齐后的文本特征向量对整体网络模型进行训练，计算得出包括三元组损失函数与InfoNCE损失函数在内的整体网络模型目标函数，并使用Adam算法优化更新整体网络模型的初始参数，得到最终整体网络模型。

模型验证应用模块中，使用测试数据集对最终整体网络模型进行查询图像相关的文本检索任务和查询文本相关的图像检索任务的验证评估，得到检索召回率R@K；若检索召回率R@K未达到要求，重复进行模型构建和训练，若检索召回率R@K达到要求，输出最终整体网络模型，将其应用于跨模态检索任务。

该系统中部各个模块的具体实现过程见上述方法中所述，此处不再赘述。

基于上述方法和系统，本发明还提出了基于多尺度文本对齐的跨模态检索方法的计算机设备，其包括存储器、处理器和存储在存储器中可供处理器运行的程序指令，其中所述处理器执行所述程序指令以实现上述所述方法中的步骤和上述所述的系统。本发明还提出了一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述所述方法中的步骤和上述所述的系统。

为了评估本发明方法的有效性，将本发明方法与传统的跨模态检索方法进行了比较，传统的跨模态检索方法有：VSE++、SCAN t2i、SCAN i2t、CAMP-triplet、CAMP-bce、MTFN、LW-MCR和AMFMN。

采用RSICD、RSITMD、UCM和SYDNEY图像-文本数据集。传统的跨模态检索方法中，VSE++分别通过VGG19网络和双向GRU提取图像和文本特征，再利用对比损失进行模型学习，SCAN t2i、SCAN i2t、CAMP-triplet、CAMP-bce、MTFN、LW-MCR和AMFMN方法按原文执行。

表1是本发明与传统的跨模态检索方法在RSICD数据集上跨模态检索任务的比较实验结果；表2是本发明与传统的跨模态检索方法在RSITMD数据集上跨模态检索任务的比较实验结果；表3是本发明与传统的跨模态检索方法在UCM数据集上跨模态检索任务的比较实验结果；表4是本发明与传统的跨模态检索方法在SYDNEY数据集上跨模态检索任务的比较实验结果；其中R@K为检索召回率，MR表示多个R@K的平均值。从表1-表4的结果可知，本发明的检索召回率R@K均高于传统的跨模态检索方法。

表1

表2

表3

表4

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.基于多尺度文本对齐的跨模态检索方法，其特征在于，包括以下步骤：

S2)构建包括图像表示模块、文本表示模块和文本对齐模块的整体网络模型，所述图像表示模块包括多尺度融合模块和显著区域学习模块，所述文本表示模块包括词编码器、双向GRU网络和多层感知器MLP网络；

S4)通过图像特征向量、文本特征向量、图像特征向量和文本特征向量之间的相似度关系以及对齐后的文本特征向量对整体网络模型进行训练，计算得出包括三元组损失函数与InfoNCE损失函数在内的整体网络模型目标函数，并使用Adam算法优化更新整体网络模型的初始参数，得到最终整体网络模型；

2.根据权利要求1所述的基于多尺度文本对齐的跨模态检索方法，其特征在于：所述步骤S1)中，图像和文本的跨模态数据包括遥感领域常用的RSICD、RSITMD、UCM和SYDNEY图像-文本数据集，选用80％的图像-文本数据集作为训练数据集，剩余20％作为测试数据集。

3.根据权利要求2所述的基于多尺度文本对齐的跨模态检索方法，其特征在于：所述步骤S2)中，显著区域学习模块的Transformer块采用相同步长，通过4×4卷积核、8×8卷积核、16×16卷积核、32×32卷积核对图像进行采样。

4.根据权利要求3所述的基于多尺度文本对齐的跨模态检索方法，其特征在于：所述步骤S3)的文本表示模块中，词编码器将单词映射到d维空间的公式为：

x_j＝W_G(o_j)(j∈[1,J])，

之后将词嵌入向量x_j输入到双向GRU网络中，公式为：

其中，

为t时刻正向GRU网络的隐藏状态，

为t时刻反向GRU网络的隐藏状态；

得到初始文本特征向量u_j为：

通过多层感知器MLP网络对初始文本特征向量u_j进行处理，使图像模态和文本模态的特征维度保持一致，得到文本特征向量

5.根据权利要求4所述的基于多尺度文本对齐的跨模态检索方法，其特征在于：所述步骤S3)的文本对齐模块中，先通过线性变换第m个图像I_m的原始特征向量

得到图像特征向量

然后计算文本特征向量与图像特征向量的相似度，公式为：

其中，

表示文本特征向量与图像特征向量的相似度，

为文本特征向量，

为图像特征向量；

构造注意权重的公式为：

其中，W^IT为注意权重矩阵，θ为Sigmoid函数；

最后得到对齐后的文本特征向量

6.根据权利要求5所述的基于多尺度文本对齐的跨模态检索方法，其特征在于：所述步骤S4)中，整体网络模型目标函数的总表达式为:

其中，

为三元组损失，

为InfoNCE损失，γ为权重参数；

所述三元组损失函数的公式为：

其中，

为三元组损失，α为边缘参数，[x]₊＝max(x,0)，

为对齐后的文本特征向量，

为图像特征向量，

表示文本模态的负样本，

表示图像模态的负样本，S表示某两者之间的相似度；

所述InfoNCE损失函数的公式为：

其中，

为InfoNCE损失，τ为可学习的参数，M为样本数，

为原始特征向量，

为文本特征向量，S表示某两者之间的相似度。

7.根据权利要求6所述的基于多尺度文本对齐的跨模态检索方法，其特征在于：所述步骤S4)中，Adam算法优化的学习率设置为2*10^-4，词向量维度设置为300，批次大小设置为128，学习率的衰减策略为依据验证集的Loss不再下降进行调整；边缘参数α设置为0.2，权重参数γ设置为0.1，参数τ设置为0.1，通过训练整体网络模型从而得到初始参数：权重参数W和偏置参数B。

8.基于多尺度文本对齐的跨模态检索系统，其特征在于：包括数据采集模块、模型构建模块、模型训练模块和模型验证与应用模块；

所述数据采集模块用于采集包括图像和文本的跨模态数据，并将其划分为训练数据集和测试数据集；

所述模型构建模块用于构建包括图像表示模块、文本表示模块和文本对齐模块的整体网络模型，所述图像表示模块包括多尺度融合模块和显著区域学习模块，所述文本表示模块包括词编码器、双向GRU网络和多层感知器MLP网络；

所述模型训练模块中，在图像表示模块中，先使用多尺度融合模块通过不同卷积核大小的卷积对训练数据集的图像进行采样，然后通过三个Transformer块、两个PatchMerging块、冗余序列过滤模块和全连接层组成的显著区域学习模块对图像进行提取，得到图像特征；在图像表示模块中，先使用词编码器将训练数据集的文本单词转为词向量表示，然后利用双向GRU网络和多层感知器MLP网络将词向量表示提取出来，得到文本特征向量；在文本对齐模块中，依据图像特征得到图像特征向量，计算图像特征向量和文本特征向量之间的相似度关系，通过构造注意权重得到对齐后的文本特征向量；最后通过图像特征向量、文本特征向量、图像特征向量和文本特征向量之间的相似度关系以及对齐后的文本特征向量对整体网络模型进行训练，计算得出包括三元组损失函数与InfoNCE损失函数在内的整体网络模型目标函数，并使用Adam算法优化更新整体网络模型的初始参数，得到最终整体网络模型；

9.基于多尺度文本对齐的跨模态检索方法的计算机设备，其包括存储器、处理器和存储在存储器中可供处理器运行的程序指令，其中所述处理器执行所述程序指令以实现权利要求1至7中任一项所述方法中的步骤和权利要求8所述系统。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法和权利要求8所述系统。