CN114780777B

CN114780777B - 基于语义增强的跨模态检索方法及装置、存储介质和终端

Info

Publication number: CN114780777B
Application number: CN202210376785.7A
Authority: CN
Inventors: 黄�俊; 潘浩; 魏鑫燏; 朱智聪
Original assignee: Shanghai Advanced Research Institute of CAS
Current assignee: Shanghai Advanced Research Institute of CAS
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-12-20
Anticipated expiration: 2042-04-06
Also published as: CN114780777A

Abstract

本发明公开了一种基于语义增强的跨模态检索方法及装置、存储介质和终端，其中方法包括构建跨模态检索模型，并基于图文检索数据训练集对跨模态检索模型进行训练以获取训练后的跨模态检索模型；确定目标查询数据和目标模态数据集，基于训练后的跨模态检索模型获取目标查询数据与每个目标模态数据之间的整体语义相似度；在目标模态数据集中依据整体语义相似度从大到小的顺序选取预设个数的整体语义相似度对应的目标模态数据，并确定检索结果。本发明方法充分挖掘了图像模态数据和文本模态数据的多层语义信息，将语义信息用于增强多模态数据的特征表示，并在多层语义的基础上实现细粒度的跨模态对齐，从而增强多模态数据之间的语义相关性。

Description

基于语义增强的跨模态检索方法及装置、存储介质和终端

技术领域

本发明涉及跨模态检索技术领域，尤其涉及一种基于语义增强的跨模态检索方法及装置、存储介质和终端。

背景技术

随着互联网和社交媒体的发展，文本和图像等多模态数据呈现爆炸式的增长，面对如此庞大且内容丰富的多模态数据，用户不仅希望能够做到单模态的数据搜索(例如用文本搜索文本或者用图像搜索图像)，更希望能够用一种模态数据取检索出另一种模态的数据，即跨模态检索。同时计算机要想更好的理解环境，就需要具备解析多模态信息的能力。跨模态检索能够促进传统搜索引擎的发展，提升用户的搜索体验，因此对跨模态检索问题展开研究具有重要意义。

不同于单模态检索任务，跨模态检索任务既需要使用计算机视觉技术理解视觉图像，也需要使用自然语言处理技术实现对文本的理解，因此存在较大的挑战。跨模态检索的主要难点是增强多模态数据的语义判别度，减小多模态数据之间的语义鸿沟。随着深度学习技术的发展，目前研究者已经提出多种方法用于实现跨模态检索任务。比如基于全局的跨模态检索方法：该方法通过端到端的方式将原始的图像和文本映射到公共的子空间，并在子空间中直接计算图像和文本特征之间的相似度，然而这些方法只简单的建立了图像和文本的全局上下文对齐，忽略了图像区域和文本单词之间细粒度的对齐。再比如基于局部的跨模态检索方法：相比于仅仅使用全局的语义信息，这类方法将图像用目标检测器提取出区域特征，将文本用文本编码器提取出单词级的特征，并建立局部的多模态语义信息，然而这些方法忽略了建立多层的语义信息，从而缺少关系推理和属性认知能力。最后比如基于图神经网络的跨模态检索方法：该方法将图像构建成图的形式，通过信息游走将邻居节点的信息集成到中心节点上，从而增强模型的关系推理能力，然而这些方法只关注于图像的关系语义，忽略了建立文本的关系信息。

发明内容

本发明所要解决的技术问题是现有跨模态检索方法对多模态数据的语义信息挖掘不充分、特征表示能力差、跨模态对齐粒度不够精细，进而导致检索准确度较低。

为了解决上述技术问题，本发明提供了一种基于语义增强的跨模态检索方法，包括：

构建跨模态检索模型，并基于图文检索数据训练集对所述跨模态检索模型进行训练以获取训练后的跨模态检索模型；

确定目标查询数据和目标检索数据库中的目标模态数据集，基于所述训练后的跨模态检索模型获取所述目标查询数据与所述目标模态数据集中每个目标模态数据之间的整体语义相似度；

在所述目标模态数据集中依据所述整体语义相似度从大到小的顺序选取预设个数的所述整体语义相似度对应的所述目标模态数据，并将预设个数的目标模态数据按对应所述整体语义相似度从大到小的顺序作为检索结果；

其中，所述图文检索数据训练集包括多个图像模态数据和多个文本模态数据，所述目标查询数据的模态与所述目标模态数据集中目标模态数据的模态不同；

所述跨模态检索模型包括特征提取单元、语义增强单元、细粒度跨模态对齐单元和语义相似度单元，所述特征提取单元包括图像特征提取子单元和文本特征提取子单元，所述语义增强单元包括图像语义增强子单元和文本语义增强子单元；

所述图像特征提取子单元，用于对图像模态数据进行特征提取，以获取所述图像模态数据的图像区域特征、图像关系语义和图像属性语义；

所述文本特征提取子单元，用于对文本模态数据进行特征提取，以获取所述文本模态数据的文本单词特征、文本关系语义和文本属性语义；

所述图像语义增强子单元，用于将所述图像关系语义集成到所述图像区域特征上，以获取所述图像模态数据的关系语义增强的图像特征，并将所述图像属性语义集成到所述图像区域特征上，以获取所述图像模态数据的属性语义增强的图像特征；

所述文本语义增强子单元，用于将所述文本关系语义集成到所述文本单词特征上，以获取所述文本模态数据的关系语义增强的文本特征，并将所述文本属性语义集成到所述文本单词特征上，以获取所述文本模态数据的属性语义增强的文本特征；

所述细粒度跨模态对齐单元，用于将所述关系语义增强的图像特征和所述关系语义增强的文本特征进行跨模态对齐，以获取对应的关系层表示，并将所述属性语义增强的图像特征和所述属性语义增强的文本特征进行跨模态对齐，以获取对应的属性层表示；

所述语义相似度单元，用于基于所述图像模态数据的关系语义增强的图像特征及其对应的对齐后的关系层表示、属性语义增强的图像特征及其对应的对齐后的属性层表示，获取对应的图像模态数据和文本模态数据之间的整体语义相似度，或基于所述文本模态数据的关系语义增强的文本特征及其对应的对齐后的关系层表示、属性语义增强的文本特征及其对应的对齐后的文本层表示，获取对应的图像模态数据和文本模态数据之间的整体语义相似度。

优选地，所述图像特征提取子单元对图像模态数据进行特征提取，以获取所述图像模态数据的图像区域特征、图像关系语义和图像属性语义，过程包括：

通过目标检测器提取所述图像模态数据中的区域目标特征和区域位置特征，并将所述区域目标特征通过全连接层映射为所述图像模态数据的图像区域特征；

基于所述区域位置特征建立所述区域目标特征中所有图像区域之间的相对位置关系，并将所述相对位置关系通过全连接层和激活函数映射为所述图像模态数据的隐式关系语义；

通过场景图模型将所述图像模态数据解析为图结构，所述图结构包括边特征和节点特征，所述图结构的节点特征即为所述图像模态数据的图像区域特征，所述图结构的边特征通过词编码矩阵映射为边关系向量，所述边关系向量即为所述图像模态数据的显式关系语义；

通过属性检测器预测所述图像模态数据的图像类别和图像属性，并将所述图像类别和所述图像属性通过词编码矩阵分别映射为类别向量和属性向量，将所述类别向量和所述属性向量进行拼接以获取拼接向量，并将所述拼接向量通过所述全连接层映射为图像属性语义。

优选地，所述图像语义增强子单元将所述图像关系语义集成到所述图像区域特征上，以获取所述图像模态数据的关系语义增强的图像特征，并将所述图像属性语义集成到所述图像区域特征上，以获取所述图像模态数据的属性语义增强的图像特征，过程包括：

基于所述图像模态数据的隐式关系语义和所述区域目标特征，通过预设工具获取隐式关系语义增强的图像特征；

基于所述图像模态数据的显式关系语义和所述图结构的节点特征，通过预设工具获取显示关系语义增强的图像特征；

基于所述隐式关系语义增强的图像特征和所述显示关系语义增强的图像特征，通过预设工具获取整体关系语义增强的图像特征；

基于所述图像属性语义，通过预设工具获取属性语义增强的图像特征；

其中，所述预设工具为Transformer。

优选地，所述文本特征提取子单元对文本模态数据进行特征提取，以获取所述文本模态数据的文本单词特征、文本关系语义和文本属性语义过程包括：

将所述文本模态数据通过词编码矩阵映射为文本向量表示，并通过循环神经网络将所述文本向量表示映射为具有上下文信息的文本单词特征；

通过句法解析工具对所述文本模态数据进行关系抽取，以获取所述文本模态数据的所有关系三元组，将所有所述关系三元组中代表关系的单词通过词编码矩阵映射为文本关系语义；

通过句法解析工具对所述文本模态数据进行属性抽取，以获取所述文本模态数据的所有属性二元组，并基于所有所述二元组获取所述文本模态数据的文本属性语义。

优选地，所述文本语义增强子单元将所述文本关系语义集成到所述文本单词特征上，以获取所述文本模态数据关系语义增强的文本特征，并将所述文本属性语义集成到所述文本单词特征上，以获取所述文本模态数据属性语义增强的文本特征，过程包括：

基于所述文本单词特征和所述文本关系语义，通过图注意力网络获取关系语义增强的文本特征；

基于所述文本单词特征和所述文本属性语义，通过图注意力网络获取属性语义增强的文本特征。

优选地，所述细粒度跨模态对齐单元将所述关系语义增强的图像特征和所述关系语义增强的文本特征进行跨模态对齐，以获取对应的关系层表示，并将所述属性语义增强的图像特征和所述属性语义增强的文本特征进行跨模态对齐，以获取对应的属性层表示，过程包括：

计算所述关系语义增强的图像特征和所述关系语义增强的文本特征之间的余弦相似分数作为关系余弦相似分数，基于所述关系余弦相似分数通过Softmax函数获取关系权重分布，基于所述关系权重分布和所述关系语义增强的文本特征获取图像对齐文本后的关系层表示，并基于所述关系权重分布和所述关系语义增强的图像特征获取文本对齐图像后的关系层表示；

计算所述属性语义增强的图像特征和所述属性语义增强的文本特征之间的余弦相似分数作为属性余弦相似分数，基于所述属性余弦相似分数通过Softmax函数获取属性权重分布，基于所述属性权重分布和所述属性语义增强的文本特征获取图像对齐文本后的属性层表示，并基于所述属性权重分布和所述属性语义增强的图像特征获取文本对齐图像后的属性层表示。

优选地，所述语义相似度单元基于所述图像模态数据的关系语义增强的图像特征及其对应的对齐后的关系层表示、属性语义增强的图像特征及其对应的对齐后的属性层表示，获取对应的图像模态数据和文本模态数据之间的整体语义相似度过程包括：

计算所述关系语义增强的图像特征与其对应的对齐后所述关系层表示的关系语义相似度，并计算所述属性语义增强的图像特征与其对应的对齐后所述属性层表示的属性语义相似度，再基于所述图像模态数据对应的关系语义相似度和属性语义相似度获取对应的图像模态数据和文本模态数据之间的整体语义相似度；

所述语义相似度单元基于所述文本模态数据的关系语义增强的文本特征及其对应的对齐后的关系层表示、属性语义增强的文本特征及其对应的对齐后的文本层表示，获取对应的图像模态数据和文本模态数据之间的整体语义相似度过程包括：

计算所述关系语义增强的文本特征与其对应的对齐的所述关系层表示的关系语义相似度，并计算所述属性语义增强的文本特征与其对应的对齐的所述属性层表示的属性语义相似度，再基于所述文本模态数据对应的关系语义相似度和属性语义相似度获取对应的图像模态数据和文本模态数据之间的整体语义相似度。

优选地，基于图文检索数据训练集对所述跨模态检索模型进行训练过程中，通过三元损失函数来优化模型参数；

其中，所述三元损失函数的表达式为：

其中，I表示图文检索数据训练集某数据组中的图像模态数据，T表示图文检索数据训练集某数据组中的文本模态数据，(I，T^-)和(I^-，T)均表示负样本对，T^-表示当前数据组中与I不匹配的文本模态数据，I^-表示当前数据组中与T不匹配的图像模态数据，G()表示整体语义相似度计算，m表示预先设置的阈值。

为了解决上述技术问题，本发明还提供了一种基于语义增强的跨模态检索装置，包括训练模块、整体语义相似度计算模块和检索结果确定模块；

所述训练模块，用于构建跨模态检索模型，并基于图文检索数据训练集对所述跨模态检索模型进行训练以获取训练后的跨模态检索模型；

所述整体语义相似度计算模块，用于确定目标查询数据和目标检索数据库中的目标模态数据集，基于所述训练后的跨模态检索模型获取所述目标查询数据与所述目标模态数据集中每个目标模态数据之间的整体语义相似度；

所述检索结果确定模块，用于在所述目标模态数据集中依据所述整体语义相似度从大到小的顺序选取预设个数的所述整体语义相似度对应的所述目标模态数据，并将预设个数的目标模态数据按对应所述整体语义相似度从大到小的顺序作为检索结果；

为了解决上述技术问题，本发明还提供了一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现基于语义增强的跨模态检索方法。

为了解决上述技术问题，本发明还提供了一种终端，其特征在于，包括：处理器以及存储器，所述存储器与所述处理器之间通信连接；

所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行基于语义增强的跨模态检索方法。

与现有技术相比，上述方案中的一个或多个实施例可以具有如下优点或有益效果：

应用本发明实施例提供的基于语义增强的跨模态检索方法，充分挖掘了图像模态数据和文本模态数据的多层语义信息，将语义信息用于增强多模态数据的特征表示，并在多层语义的基础上实现细粒度的跨模态对齐，从而增强多模态数据之间的语义相关性。进一步即本方法分别通过多个分支提取多模态数据的实例层语义、关系层语义和属性层语义，增强多模态数据之间的语义判别度，并且在多层语义分支基础上实现细粒度的跨模态对齐，从而进一步减小多模态数据之间的语义鸿沟，提升检索的精度。

本发明的其它特征和优点将在随后的说明书中阐述，并且部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1示出了本发明实施例一中跨模态检索模型的模型框架图；

图2示出了本发明实施例一基于语义增强的跨模态检索方法的流程示意图；

图3示出了本发明实施例一中基于语义感知Transformer的结构示意图；

图4示出了本发明实施例一中跨域的Transformer的结构示意图；

图5示出了本发明实施例一中常规的Transformer的结构示意图；

图6示出了本发明实施例二基于语义增强的跨模态检索装置的结构示意图；

图7示出了本发明实施例四终端的结构示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

现有的跨模态检索方法虽然在一定程度上提升了跨模态检索的精度，但是忽略了建立多模态数据多层的语义信息，如将实例层语义、关系层语义和属性层语义同时集成到统一的深度学习框架中。因此，建立多模态数据的多层语义信息，增强语义表示并建立细粒度的跨模态对齐是进一步提升跨模态检索精度的关键。

实施例一

为解决现有技术中存在的技术问题，本发明实施例提供了一种基于语义增强的跨模态检索方法。

图2示出了本发明实施例一基于语义增强的跨模态检索方法的流程示意图；参考图2所示，本发明实施例基于语义增强的跨模态检索方法包括如下步骤。

步骤S101，获取目标查询数据，并基于目标查询数据模态确定目标检索数据库中的目标模态数据集，目标查询数据的模态与目标模态数据集中目标模态数据的模态不同。

具体地，获取待查询的数据，并将待查询的数据作为目标查询数据。确定目标查询数据后，需基于目标查询数据的模态确定目标检索数据库中的目标模态数据集。进一步地，目标查询数据的模态可以为图像模态数据或文本模态数据，相对应的目标检索数据库即包括图像模态数据集和文本模态数据集。当目标查询数据模态为图像模态数据时，目标模态数据集即为文本模态数据集，当目标查询数据模态为文本模态数据集时，目标模态数据集即为图像模态数据集。即目标查询数据的模态与目标模态数据集中目标模态数据的模态需保持不一致，进而以用来实现数据的跨模态检索。

步骤S102，基于训练后的跨模态检索模型中的特征提取单元对目标查询数据进行特征提取，以获取目标查询数据的查询特征数据，并基于训练后的跨模态检索模型中的特征提取单元对目标模态数据集中所有目标模态数据分别进行特征提取，以获取每个目标模态数据的目标特征数据。

具体地，基于训练后的跨模态检索模型中的特征提取单元对目标查询数据进行特征提取，以获取目标查询数据的查询特征数据，同时还需基于训练后的跨模态检索模型中的特征提取单元对目标模态数据集中的所有目标模态数据分别进行特征提取，以获取每个目标模态数据的目标特征数据。需要说明的是，当通过训练后的跨模态检索模型中的特征提取单元进行特征提取的数据为图像模态数据时，所提取到的特征数据包括图像区域特征、图像关系语义和图像属性语义；而当通过训练后的跨模态检索模型中的特征提取单元进行特征提取的数据模态为文本模态数据时，所提取到的特征数据包括文本单词特征、文本关系语义和文本属性语义。具体特征提取单元对图像模态数据和文本模态数据进行特征提取的过程后续会详细说明，在此先不对其进行赘述。

步骤S103，基于训练后的跨模态检索模型中的语义增强单元对查询特征数据中的查询特征分别进行关系语义增强和属性语义增强，以获取目标查询数据的关系语义增强的查询特征和属性语义增强的查询特征，并基于训练后的跨模态检索模型中的语义增强单元对每个目标特征数据的目标特征分别进行关系语义增强和属性语义增强，以获取每个目标模态数据的关系语义增强的目标特征和属性语义增强的目标特征。

具体地，基于训练后的跨模态检索模型中的语义增强单元对查询特征数据中的查询特征分别进行关系语义增强和属性语义增强，以获取目标查询数据的关系语义增强的查询特征和属性语义增强的查询特征；同时还需基于训练后的跨模态检索模型中的语义增强单元分别对每个目标特征数据的目标特征进行关系语义增强和属性语义增强，以获取每个目标模态数据的关系语义增强的目标特征和属性语义增强的目标特征。需要说明的是，当通过训练后的跨模态检索模型中的语义增强单元进行关系语义增强和属性语义增强的数据模态为图像模态数据时，所获取的即为关系语义增强的图像特征和属性语义增强的图像特征，而当通过训练后的跨模态检索模型中的语义增强单元进行关系语义增强和属性语义增强的数据模态为文本模态数据时，所获取的即为关系语义增强的文本特征和属性语义增强的文本特征。具体语义增强单元对图像模态数据和文本模态数据进行关系语义增强和属性语义增强的过程后续会详细说明，在此先不对其进行赘述。

步骤S104，基于训练后的跨模态检索模型中的细粒度跨模态对齐单元将关系语义增强的查询特征分别与每个关系语义增强的目标特征进行跨模态对齐，以获取每个目标模态数据对应的关系层表示，并基于训练后的跨模态检索模型中的细粒度跨模态对齐单元将属性语义增强的查询特征分别与每个属性语义增强的目标特征进行跨模态对齐，以获取每个目标模态数据对应的属性层表示。

具体地，通过训练后的跨模态检索模型中的细粒度跨模态对齐单元，获取关系语义增强的查询特征分别与每个目标模态数据关系语义增强的目标特征之间跨模态对齐后的关系层表示，每个关系层表示即为各自对应目标模态数据所对应的关系层表示。同理还需通过训练后的跨模态检索模型中的细粒度跨模态对齐单元，获取属性语义增强的查询特征分别与每个目标模态数据属性语义增强的目标特征之间跨模态对齐后的属性层表示，每个属性层表示即为各自对应目标模态数据所对应的属性层表示。具体细粒度跨模态对齐单元进行跨模态对齐的过程后续会详细说明，在此先不对其进行赘述。

步骤S105，基于训练后的跨模态检索模型中的语义相似度单元计算关系语义增强的查询特征分别与每个目标模态数据对应关系层表示的关系语义相似度，并基于训练后的跨模态检索模型中的语义相似度单元计算属性语义增强的查询特征分别与每个目标模态数据对应属性层表示的属性语义相似度，基于每个目标模态数据对应的关系语义相似度和属性语义相似度获取对应目标模态数据和目标查询数据之间的整体语义相似度。

具体地，通过训练后的跨模态检索模型中的语义相似度单元，获取关系语义增强的查询特征分别与每个目标模态数据对应关系层表示之间的关系语义相似度，即每个目标模态数据均有一个对应的、与目标查询数据之间的关系语义相似度；同理还需通过训练后的跨模态检索模型中的语义相似度单元，获取属性语义增强的查询特征分别与每个目标模态数据对应属性层表示之间的关系语义相似度，即每个目标模态数据均有一个对应的、与目标查询数据之间的属性语义相似度。而后再基于每个目标模态数据对应的关系语义相似度和属性语义相似度对应获取每个目标模态数据和目标查询数据之间的整体语义相似度。具体语义相似度单元进行关系语义相似度和属性语义相似度的过程后续会详细说明，在此先不对其进行赘述。

步骤S106，在目标模态数据集中依据整体语义相似度从大到小的顺序选取预设个数的整体语义相似度对应的目标模态数据，并将预设个数的目标模态数据按对应整体语义相似度从大到小的顺序作为检索结果。

具体地，依据整体语义相似度从大到小的顺序从目标模态数据集中选取预设个数的整体语义相似度对应的目标模态数据作为检索结果，且所有的检索结果也需按照对应整体语义相似度从大到小的顺序进行排序。此时即实现了目标查询数据的跨模态检索。

进一步地，上述训练后的跨模态检索模型的获取过程包括：构建跨模态检索模型，而基于图文检索数据训练集对跨模态检索模型进行训练以获取训练后的跨模态检索模型。其中需要说明的是，图文检索数据训练集需包括图像模态数据模态的数据和文本模态数据模态的数据，且为了使训练完成的训练后的跨模态检索模型在跨模态检索过程获取的检索结果更加精准，图文检索数据训练集中需包含大量的图像模态数据和文本模态数据。且构建的跨模态检索模型包括特征提取单元、语义增强单元、细粒度跨模态对齐单元和语义相似度单元，特征提取单元包括图像特征提取子单元和文本特征提取子单元；进一步语义增强单元包括图像语义增强子单元和文本语义增强子单元。

图1示出了本发明实施例一中跨模态检索模型的模型框架图；训练过程可参考图1所示。基于图文检索数据训练集对跨模态检索模型进行训练以获取训练后的跨模态检索模型包括：将图文检索数据训练集划分为多个批次的数据组，每个数据组中均包括多个图像模态数据和多个文本模态数据；依次基于每个数据组分别对跨模态检索模型进行训练，在每次训练时均会需基于损失函数计算的损失值对跨模态检索模型中各个参数进行调整，因此基于多个数据组的训练过程即实现了跨模态检索模型中参数多次优化的过程；重复多轮上述依次基于每个数据组分别对跨模态检索模型进行训练的过程，即可得到训练完成的跨模态检索模型，我们将训练完成的跨模态检索模型作为训练后的跨模态检索模型。

需要说明的是，特征提取单元中的图像特征提取子单元和文本特征提取子单元、语义增强单元中的图像语义增强子单元和文本语义增强子单元、细粒度跨模态对齐单元以及语义相似度单元在跨模态检索模型和训练后的跨模态检索模型中的工作原理相同，训练后的跨模态检索模型中的各个单元实际即是跨模态检索模型中各个单元经过图文检索数据训练集对其进行训练后反复调整各类参数获得的。因此下文在介绍跨模态检索模型中各个单元的工作原理时，同时也介绍了训练后的跨模态检索模型中各个单元的工作原理。

其中图像特征提取子单元主要用于对图像模态数据进行特征提取，以获取图像模态数据的图像区域特征、图像关系语义和图像属性语义。具体地，图像特征提取子单元需通过目标检测器提取图像模态数据中的区域目标特征F＝{f₁，f₂，...f_n}和区域位置特征B＝{b₁，b₂，...b_n}，而后再将区域目标特征F＝{f₁，f₂，...f_n}通过全连接层映射为v＝{v₁，v₂，...v_n}，v＝{v₁，v₂，...v_n}即为图像模态数据的图像区域特征，其中区域位置特征中的位置特征表示为b_i＝(x_i，y_i，w_i，h_i)，区域目标特征中的图像区域为矩形结构，因此x_i，y_i，w_i，h_i分别表示对应矩形区域的左上角坐标以及矩形区域的宽和高，f_i表示第i个图像区域的目标特征，b_i表示第i个图像区域的位置特征，v_i表示第i个图像区域的区域特征，n为图像模态数据中区域个数。且优选地，目标检测器可为预训练的Faster-RCNN。

图像关系语义包括隐式关系语义和显示关系语义，图像特征提取子单元进行隐式关系语义的提取过程包括：基于区域位置特征B建立区域目标特征中所有图像区域之间的相对位置关系

其中p_ij的计算公式如下：

其中，d_b可以为4。

进一步图像特征提取子单元还需将相对位置关系P通过全连接层和激活函数映射为高维关系向量

即为图像模态数据的隐式关系语义。优选地，激活函数为ReLU。全连接层将维度从4维映射为64维，因此d_l为64，当然d₁也可以设置为其他合理数值。

图像特征提取子单元进行显式关系语义的提取过程包括：通过场景图模型将图像模态数据解析为图结构，图结构包括边特征和节点特征，其中图结构的节点特征实际上即为图像模态数据的图像区域特征。图结构的边特征通过预训练的词编码矩阵映射为高维的边关系向量

边关系向量R^E即为图像模态数据的显式关系语义，图结构的节点特征表示为O＝{o₁，o₂，...，o_n}。优选地，场景图模型可以为Visual Genome数据集上预训练的场景图模型，且节点特征的维度可设置为1024维，关系向量的维度设置为300维，即d_e为300。

图像特征提取子单元进行图像属性语义提取过程包括：先利用属性检测器预测图像模态数据的图像类别和图像属性，再将得到的图像类别和图像属性通过预训练的词编码矩阵分别映射为高维的类别向量S＝{s₁，s₂，...s_n}和属性向量A＝{a₁，a₂，...a_n}，对类别向量S和属性向量A进行拼接以获取拼接向量，并将拼接向量通过全连接层映射为图像属性语义U＝{u₁，u₂，...u_n}。其中，o_i表示第i个节点的特征向量，s_i表示第i个图像区域的类别向量，a_i表示第i个图像区域的属性向量，u_i表示第i个图像区域的属性语义。优选地，属性检测器可选取在Visual Genome上预训练的属性检测器，且S和A的维度都是300维，拼接后的拼接向量维度为600维，全连接层将维度从600维映射为1024维。

需要说明的是，无论是在训练过程中还是实际检索过程中，图像特征提取子单元均是通过上述方式对图像模态数据进行特征提取的。

文本特征提取子单元主要用于对文本模态数据进行特征提取，以获取文本模态数据的文本单词特征、文本关系语义和文本属性语义。具体地，将文本模态数据通过预训练的词编码阵映射为文本向量表示E＝{e₁，e₂，...e_k}，并通过循环神经网络将文本向量表示映射为具有上下文信息的文本单词特征T＝{t₁，t₂，...t_k}，其中E的维度为300维，T的维度为1024维，k为文本模态数据(即句子)中单词个数。其中，e_i表示第i个单词编码后的向量表示，t_i表示第i个单词的特征向量。优选地，循环神经网络为双向门控循环单元Bi-GRU。

文本特征提取子单元对文本模态数据进行文本关系语义的提取过程包括：先通过句法解析工具对文本模态数据进行关系抽取，以获取文本模态数据的所有关系三元组，将所有关系三元组中代表关系的单词通过预训练的词编码矩阵映射为高维的文本关系语义

其中如果文本模态数据中的第i个单词和第j个单词在同一个关系三元组中，则将连接这两个单词的关系单词进行编码，否则用0填充这个编码。其中，R^s的维度为300维，即d_e的维度也为300。且优选地，句法解析工具可以选取Stanford Parser。

文本特征提取子单元对文本模态数据进行文本属性语义的提取过程包括：通过句法解析工具对文本模态数据进行属性抽取，以获取文本模态数据的所有属性二元组，并基于所有二元组获取文本模态数据的文本属性语义。其中文本属性语义表示为邻接矩阵

如果文本模态数据中的第i个单词和第j个单词在同一个属性二元组中，则m_ij＝1；否则m_ij＝0。优选地，句法解析工具可以选取Stanford Parser。

步骤S102中特征提取单元对图像模态数据和文本模态数据进行特征提取过程即是通过上述图像特征提取子单元和文本特征提取子单进行特征提取的过程实现的。且无论是在训练过程中还是实际检索过程中，文本特征提取子单元均是通过上述方式对文本模态数据进行特征提取的。

图像语义增强子单元主要用于将图像关系语义集成到图像区域特征上，以获取图像模态数据的关系语义增强的图像特征，并将图像属性语义集成到图像区域特征上，以获取图像模态数据的属性语义增强的图像特征。具体地，基于图像模态数据的隐式关系语义和区域目标特征，通过预设工具获取隐式关系语义增强的图像特征；更近一步地，参考图3所示，该过程是基于语义感知的Transformer实现的，首先需利用多头注意力机制得到注意力结果；其中单个头部的注意力计算方式为，将图像模态数据的隐式关系语义R^L通过一层全连接层和ReLU激活函数映射为

其中，FC表示全连接层，它将特征维度从64维映射为1维；而后将目标特征V通过三个独立的全连接层分别映射为Q_V，K_V和V_V，再将Q_V和K_V的缩放点积值与

相加，并把相加后的值通过Softmax函数得到单个头部的注意力权重，得到的权重与V_V进行加权求和获得单个头部的注意力结果；

其中，d_h代表单个头部的输出维度，其值可设置为128。

通过计算多个单头注意力的结果并进行拼接可得到多头注意力结果；

H＝[h₁，h₂，...，h_c] (3)

其中，c表示使用c个头部，其值可设置为8。

然后将多头注意力结果通过跳远连接(即将H与目标特征V相加)和归一化层用于稳定训练并得到输出

最后将

依次通过前馈层、跳远连接和归一化层得到隐式关系语义增强的图像特征

其中，

表示第i个图像区域经过隐式关系语义增强后的特征向量。

基于图像模态数据的显式关系语义和图结构的节点特征，通过预设工具获取显示关系语义增强的图像特征。进一步地，类似于图像隐式关系语义增强获取过程，对于图像显式关系语义增强，同样使用基于语义感知的Transformer方法，将图像模态数据的节点特征O和隐式关系语义R^E作为基于语义感知的Transformer方法的输入，得到显式关系语义增强的图像特征：

上述整个显式关系语义增强的图像特征的过程可用如下公式表示：

其中，

表示第i个图像区域经过显式关系语义增强后的特征向量。

基于隐式关系语义增强的图像特征和显示关系语义增强的图像特征，通过预设工具获取整体关系语义增强的图像特征。进一步地，参考图4所示，该过程是基于跨域的Transformer实现的，首先将V^L通过一层全连接层映射得到

将O^E通过两个独立的全连接层映射得到

和

将

和

进行缩放点积后通过Softmax函数得到跨域注意力权重，并将注意力权重与

进行加权求和得到单个头部的跨域注意力结果；通过计算多个单头注意力的结果并进行拼接可得到多头注意力结果；然后将多头注意力结果通过跳远连接和归一化层用于稳定训练并得到输出

最后将

依次通过前馈层、跳远连接和归一化层得到整体关系语义增强的图像特征

上述整体关系语义增强的图像特征的过程可用如下公式表示：

其中，

表示第i个图像区域经过关系语义增强后的特征向量。

基于图像属性语义，通过预设工具获取属性语义增强的图像特征。进一步地，参考图5所示，该过程是基于常用的Transformer实现的，首先将属性语义U通过三个独立的全连接层分别映射为Q_U，K_U和V_U。将Q_U和K_U进行缩放点积后通过Softmax函数得到单个头部的注意力权重，并将注意力权重与V_U进行加权求和得到单个头部的注意力结果；通过计算多个单头注意力的结果并进行拼接可得到多头注意力结果；然后将多头注意力结果通过跳远连接和归一化层用于稳定训练并得到输出

最后将

依次通过前馈层、跳远连接和归一化层得到属性语义增强的图像特征

上述整个属性语义增强的图像特征的过程可用如下公式表示：

其中，

表示第i个图像区域经过属性语义增强后的特征向量。

需要说明的是，无论是在训练过程中还是实际检索过程中，图像语义增强子单元均是通过上述方式获取图像模态数据的关系语义增强的图像特征和属性语义增强的图像特征的。

文本语义增强子单元主要用于将文本关系语义集成到为文本单词特征上，以获取文本模态数据关系语义增强的文本特征，并将文本属性语义集成到文本单词特征上，以获取文本模态数据属性语义增强的文本特征。具体地，将文本单词特征T和文本关系语义R^s同时送入图注意力网络中，得到关系语义增强的文本特征

其计算公式如下所示：

其中，

表示第i个单词经过关系语义增强后的特征向量。

其中，

是节点t_i的邻居节点，W是权值矩阵，α_ij表示节点i和j之间的权重值。

将文本单词特征T和文本属性语义M同时送入图卷积力网络中，得到属性语义增强的文本特征

其计算公式为：

其中，

表示第i个单词经过属性语义增强后的特征向量，

是节点t_i的邻居节点，W是权值矩阵，β_ij表示节点i和j之间的权重值。

步骤S103中语义增强单元对图像模态数据和文本模态数据进行关系语义增强和属性语义增强的过程即是通过上述图像语义增强子单元和文本语义增强子单元进行关系语义增强和属性语义增强的过程实现的，且无论是在训练过程中还是实际检索过程中，文本语义增强子单元均是通过上述方式获取文本模态数据的关系语义增强的文本特征和属性语义增强的文本特征的。

细粒度跨模态对齐单元主要用于将关系语义增强的图像特征和关系语义增强的文本特征进行跨模态对齐，以获取对应的关系层表示，并将属性语义增强的图像特征和属性语义增强的文本特征进行跨模态对齐，以获取对应的属性层表示。具体地，计算关系语义增强的图像特征V^R和关系语义增强的文本特征T^R之间的余弦相似分数作为关系余弦相似分数，基于关系余弦相似分数通过Softmax函数获取关系权重分布，基于关系权重分布和关系语义增强的文本特征V^R进行加权求和，得到图像对齐文本后的关系层表示

并基于关系权重分布和关系语义增强的图像特征V^R进行加权求和，得到文本对齐图像后的关系层表示

其具体的计算公式为：

其中，

表示第i个图像区域经过对齐后的关系层表示，

表示第j个文本单词经过对齐后的关系层表示，且将图像对齐文本后的关系层表示作为对应关系语义增强的图像特征所对应的对齐后的关系层表示，将文本对齐图像后的关系层表示作为对应关系语义增强的文本特征所对应的对齐后的关系层表示。

需要说明的是，由上可知关系层表示具有其对应的关系语义增强的图像特征和关系语义增强的文本特征，而关系语义增强的图像特征具有其对应的图像模态数据，关系语义增强的文本特征也具有其对应的文本模态数据，因此可知关系层表示即有其对应的图像模态数据和文本模态数据；同理属性层表示也有其对应的图像模态数据和文本模态数据。

同理计算属性语义增强的图像特征U^A和属性语义增强的文本特征T^A之间的余弦相似分数作为属性余弦相似分数，基于属性余弦相似分数通过Softmax函数获取关系权重分布，基于关系权重分布和属性语义增强的文本特征T^A进行加权求和，得到图像对齐文本后的属性层表示

并基于关系权重分布和属性语义增强的图像特征进行加权求和，得到文本对齐图像后的属性层表示

其计算公式为：

其中，

表示第i个图像区域经过对齐后的属性层表示，

表示第j个文本单词经过对齐后的属性层表示，且将图像对齐文本后的属性层表示作为对应属性语义增强的图像特征所对应的对齐后的属性层表示，将文本对齐图像后的属性层表示作为对应属性语义增强的文本特征所对应的对齐后的属性层表示。

在实际检索过程中，当目标查询数据模态为文本模态数据时，细粒度跨模态对齐单元仅需通过上述方式获取目标查询数据分别与每个目标模态数据之间的文本对齐图像后的关系层表示和文本对齐图像后的属性层表示即可；而当目标查询数据模态为图像模态数据时，细粒度跨模态对齐单元仅需通过上述方式获取目标查询数据分别与每个目标模态数据之间的图像对齐文本后的关系层表示和图像对齐文本后的属性层表示即可。即步骤S104中细粒度跨模态对齐单元进行跨模态对齐的过程即是通过上述细粒度跨模态对齐单元进行跨模态对齐的过程实现的。

而在训练过程中，细粒度跨模态对齐单元需通过上述方式获取每个数据组中任意一对图像模态数据与文本模态数据之间的图像对齐文本后的关系层表示、文本对齐图像后的关系层表示、图像对齐文本后的属性层表示和文本对齐图像后的属性层表示。

语义相似度单元主要用于基于图像模态数据的关系语义增强的图像特征及其对应的对齐后的关系层表示、属性语义增强的图像特征及其对应的对齐后的属性层表示，获取对应图像模态数据和文本模态数据之间的整体语义相似度，基于文本模态数据的关系语义增强的文本特征及其对应的对齐后的关系层表示、属性语义增强的文本特征及其对应的对齐后的文本层表示，获取对应图像模态数据和文本模态数据之间的整体语义相似度。

具体地，计算关系语义增强的图像特征V^R与其对应对齐后的关系层表示C^R的关系语义相似度；并计算属性语义增强的图像特征U^A与其对应对齐后的属性层表示C^A的属性语义相似度，再基于图像模态数据对应的关系语义相似度和属性语义相似度获取对应的图像模态数据和文本模态数据之间的整体语义相似度。其计算公式为：

其中，上述公式中的I表示图像模态数据，T表示文本模态数据，s()表示余弦相似度计算。

同理，计算关系语义增强的文本特征V^R与其对应对齐后的关系层表示C^R的关系语义相似度；并计算属性语义增强的图像特征T^A与其对应对齐后的属性层表示C^A的属性语义相似度，再基于文本模态数据对应的关系语义相似度和属性语义相似度获取对应的图像模态数据和文本模态数据之间的整体语义相似度。其计算公式为：

在实际检索过程中，当目标查询数据模态为文本模态数据时，语义相似度单元仅需通过公式(26)的方式获取目标查询数据分别与每个目标模态数据之间的整体语义相似度即可；而当目标查询数据模态为图像模态数据时，语义相似度单元仅需通过公式(25)的方式获取目标查询数据分别与每个目标模态数据之间的整体语义相似度即可。步骤S105中语义相似度单元进行关系语义相似度和属性语义相似度计算的过程即是通过上述语义相似度单元进行关系语义相似度和属性语义相似度计算的过程实现的。

而在训练过程中，语义相似度单元针对每个数据组中任意一对图像模态数据与文本模态数据，均需通过公式(25)的方式获取图像模态数据与文本模态数据之间的整体语义相似度G_T→I，并需通过公式(26)的方式获取图像模态数据与文本模态数据之间的整体语义相似度G_I→T，而后再通过公式(27)获取该对图像模态数据与文本模态数据之间的全面语义相似度。图像模态数据与文本模态数据之间的全面语义相似度计算公式如下：

G(I，T)＝G_I→T+G_T→I (27)

更近一步地，基于图文检索数据训练集对跨模态检索模型进行训练过程中，通过三元损失函数来优化模型参数；其中，三元损失函数的表达式为：

其中，I表示图文检索数据训练集数据组中的图像模态数据，T表示图文检索数据训练集数据组中的文本模态数据(IT^-)和(I^-，T)均表示负样本对，T^-表示当前数据组中与I不匹配的文本模态数据，I^-表示当前数据组中与T不匹配的图像模态数据，m表示预先设置的阈值，[x]₊＝max(x，0)，G()表示全面语义相似度计算。

本发明实施例提供的基于语义增强的跨模态检索方法，充分挖掘了图像模态数据和文本模态数据的多层语义信息，将语义信息用于增强多模态数据的特征表示，并在多层语义的基础上实现细粒度的跨模态对齐，从而增强多模态数据之间的语义相关性。进一步即本方法分别通过多个分支同时提取多模态数据的实例层语义、关系层语义和属性层语义，增强多模态数据之间的语义判别度，并且在多层语义分支基础上实现细粒度的跨模态对齐，从而进一步减小多模态数据之间的语义鸿沟，提升检索的精度。

实施例二

为解决现有技术中存在的技术问题，本发明实施例提供了一种基于语义增强的跨模态检索装置。

图6示出了本发明实施例二基于语义增强的跨模态检索装置的结构示意图；参考图6所示，本发明实施例基于语义增强的跨模态检索装置包括训练模块、整体语义相似度计算模块和检索结果确定模块。

训练模块用于构建跨模态检索模型，并基于图文检索数据训练集对跨模态检索模型进行训练以获取训练后的跨模态检索模型。

整体语义相似度计算模块用于确定目标查询数据和目标检索数据库中的目标模态数据集，基于训练后的跨模态检索模型获取目标查询数据与目标模态数据集中每个目标模态数据之间的整体语义相似度。

检索结果确定模块用于在目标模态数据集中依据整体语义相似度从大到小的顺序选取预设个数的整体语义相似度对应的目标模态数据，并将预设个数的目标模态数据按对应整体语义相似度从大到小的顺序作为检索结果。

其中，图文检索数据训练集包括多个图像模态数据和多个文本模态数据，目标查询数据的模态与目标模态数据集中目标模态数据的模态不同。

跨模态检索模型包括特征提取单元、语义增强单元、细粒度跨模态对齐单元和语义相似度单元，特征提取单元包括图像特征提取子单元和文本特征提取子单元，语义增强单元包括图像语义增强子单元和文本语义增强子单元。

图像特征提取子单元用于对图像模态数据进行特征提取，以获取图像模态数据的图像区域特征、图像关系语义和图像属性语义。

文本特征提取子单元用于对文本模态数据进行特征提取，以获取文本模态数据的文本单词特征、文本关系语义和文本属性语义。

图像语义增强子单元用于将图像关系语义集成到图像区域特征上，以获取图像模态数据的关系语义增强的图像特征，并将图像属性语义集成到图像区域特征上，以获取图像模态数据的属性语义增强的图像特征。

文本语义增强子单元用于将文本关系语义集成到文本单词特征上，以获取文本模态数据的关系语义增强的文本特征，并将文本属性语义集成到文本单词特征上，以获取文本模态数据的属性语义增强的文本特征。

细粒度跨模态对齐单元用于将关系语义增强的图像特征和关系语义增强的文本特征进行跨模态对齐，以获取对应的关系层表示，并将属性语义增强的图像特征和属性语义增强的文本特征进行跨模态对齐，以获取对应的属性层表示。

语义相似度单元用于基于图像模态数据的关系语义增强的图像特征及其对应的关系层表示、属性语义增强的图像特征及其对应的属性层表示，获取对应的关系层表示所对应的图像模态数据和文本模态数据之间的整体语义相似度，或基于文本模态数据的关系语义增强的文本特征及其对应的关系层表示、属性语义增强的文本特征及其对应的文本层表示，获取对应的关系层表示所对应的图像模态数据和文本模态数据之间的整体语义相似度。

本发明实施例提供的基于语义增强的跨模态检索装置，充分挖掘了图像模态数据和文本模态数据的多层语义信息，将语义信息用于增强多模态数据的特征表示，并在多层语义的基础上实现细粒度的跨模态对齐，从而增强多模态数据之间的语义相关性。进一步即本装置分别通过多个分支同时提取多模态数据的实例层语义、关系层语义和属性层语义，增强多模态数据之间的语义判别度，并且在多层语义分支基础上实现细粒度的跨模态对齐，从而进一步减小多模态数据之间的语义鸿沟，提升检索的精度。

实施例三

为解决现有技术中存在的上述技术问题，本发明实施例还提供了一种存储介质，其存储有计算机程序，该计算机程序被处理器执行时可实现实施例一基于语义增强的跨模态检索方法中的所有步骤。

基于语义增强的跨模态检索方法的具体步骤以及应用本发明实施例提供的可读存储介质获取的有益效果均与实施例一相同，在此不在对其进行赘述。

需要说明的是：存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

实施例四

为解决现有技术中存在的上述技术问题，本发明实施例还提供了一种终端。

图7示出了本发明实施例四终端结构示意图，参照图7，本实施例终端包括相互连接的处理器及存储器；存储器用于存储计算机程序，处理器用于执行存储器存储的计算机程序，以使终端执行时可实现实施例一基于语义增强的跨模态检索方法中的所有步骤。

基于语义增强的跨模态检索方法的具体步骤以及应用本发明实施例提供的终端获取的有益效果均与实施例一相同，在此不在对其进行赘述。

需要说明的是，存储器可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。同理处理器也可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于语义增强的跨模态检索方法，包括：

2.根据权利要求1所述的检索方法，其特征在于，所述图像特征提取子单元对图像模态数据进行特征提取，以获取所述图像模态数据的图像区域特征、图像关系语义和图像属性语义过程包括：

通过场景图模型将所述图像模态数据解析为图结构，所述图结构包括边特征和节点特征，所述图结构的边特征通过词编码矩阵映射为边关系向量，所述边关系向量即为所述图像模态数据的显式关系语义；

3.根据权利要求2所述的检索方法，其特征在于，所述图像语义增强子单元将所述图像关系语义集成到所述图像区域特征上，以获取所述图像模态数据的关系语义增强的图像特征，并将所述图像属性语义集成到所述图像区域特征上，以获取所述图像模态数据的属性语义增强的图像特征过程包括：

其中，所述预设工具为Transformer。

4.根据权利要求1所述的检索方法，其特征在于，所述文本特征提取子单元对文本模态数据进行特征提取，以获取所述文本模态数据的文本单词特征、文本关系语义和文本属性语义过程包括：

5.根据权利要求1所述的检索方法，其特征在于，所述文本语义增强子单元将所述文本关系语义集成到所述文本单词特征上，以获取所述文本模态数据关系语义增强的文本特征，并将所述文本属性语义集成到所述文本单词特征上，以获取所述文本模态数据属性语义增强的文本特征过程包括：

6.根据权利要求1所述的检索方法，其特征在于，所述细粒度跨模态对齐单元将所述关系语义增强的图像特征和所述关系语义增强的文本特征进行跨模态对齐，以获取对应的关系层表示，并将所述属性语义增强的图像特征和所述属性语义增强的文本特征进行跨模态对齐，以获取对应的属性层表示过程包括：

7.根据权利要求1所述的检索方法，其特征在于，所述语义相似度单元基于所述图像模态数据的关系语义增强的图像特征及其对应的对齐后的关系层表示、属性语义增强的图像特征及其对应的对齐后的属性层表示，获取对应的图像模态数据和文本模态数据之间的整体语义相似度过程包括：

8.根据权利要求1所述的检索方法，其特征在于，基于图文检索数据训练集对所述跨模态检索模型进行训练过程中，通过三元损失函数来优化模型参数；

其中，所述三元损失函数的表达式为：

其中，I表示图文检索数据训练集某数据组中的图像模态数据，T表示图文检索数据训练集某数据组中的文本模态数据，

表示正样本对，

和

均表示负样本对，

表示当前数据组中与I不匹配的文本模态数据，

表示当前数据组中与T不匹配的图像模态数据，G()表示整体语义相似度计算，m表示预先设置的阈值。

9.一种基于语义增强的跨模态检索装置，其特征在于，包括训练模块、整体语义相似度计算模块和检索结果确定模块；

所述语义相似度单元，用于基于所述图像模态数据的关系语义增强的图像特征及其对应的关系层表示、属性语义增强的图像特征及其对应的属性层表示，获取对应的图像模态数据和文本模态数据之间的整体语义相似度，或基于所述文本模态数据的关系语义增强的文本特征及其对应的关系层表示、属性语义增强的文本特征及其对应的文本层表示，获取对应的图像模态数据和文本模态数据之间的整体语义相似度。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至8中任一项基于语义增强的跨模态检索方法。

11.一种终端，其特征在于，包括：处理器以及存储器，所述存储器与所述处理器之间通信连接；

所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行如权利要求1至8中任一项基于语义增强的跨模态检索方法。