CN116737979A

CN116737979A - 基于上下文引导多模态关联的图像文本检索方法及系统

Info

Publication number: CN116737979A
Application number: CN202310728307.2A
Authority: CN
Inventors: 刘峥; 裴新蕾; 高珊珊; 迟静; 王靖瑶; 李常浩; 徐君豪
Original assignee: Shandong University of Finance and Economics
Current assignee: Shandong University of Finance and Economics
Priority date: 2023-06-19
Filing date: 2023-06-19
Publication date: 2023-09-12

Abstract

本公开提供了基于上下文引导多模态关联的图像文本检索方法及系统，涉及跨模态图文互检索技术领域，方法包括获取不同模态图像和文本数据的细粒度特征序列；构建上下文引导多模态关联学习网络，分别获取图像模态的区域空间性增强的视觉上下文感知表示和文本模态的单词时序性增强的文本上下文感知表示；构建上下文引导多模态关联三分支，对不同语义层面的上下文感知表示进行跨模态相似度学习，利用向量型相似函数学习跨模态关联，设计目标函数，基于联合学习语义一致性损失函数和跨模态匹配损失函数分别实现模态内不同语义层面的互补和不同模态数据之间的语义精准对齐；本公开能够实现不同模态之间的精准对齐。

Description

基于上下文引导多模态关联的图像文本检索方法及系统

技术领域

本公开涉及跨模态图文互检索技术领域，具体涉及一种基于上下文引导多模态关联的图像文本检索方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

近年来，随着互联网上多媒体数据的爆炸性增长，对于从这些数据中高效准确地检索信息的需求也日益增加。为了实现更高效、更有效的信息检索，跨模态检索被提出用于在不同的模态之间搜索相关数据。跨模态检索研究的重要性在于它能够弥合不同模态之间的语义鸿沟。视觉和语言是人类理解现实世界的两类重要媒介，图像-文本检索成为跨模态检索中的一个重要分支。现有的方法已经进行大量的研究来连接视觉模态和语言模态，图像-文本检索旨在搜索与给定查询文本相关的图像，或检索与给定查询图像相关的文本，已经成为计算机视觉和自然语言处理中的一个重要研究领域。

图像-文本检索面临的主要挑战是“异构鸿沟”，指的是不同模态(如图像和文本)之间表示和分布的不一致性。为了弥合这一鸿沟，早期的图像-文本检索研究主要集中在将图像和文本特征在全局层面映射到一个共同的嵌入空间中。

然而，这类方法主要关注全局层面的实例，忽视了局部层面片段中存在的详细语义信息。为了解决这一局限性并更全面地捕捉语义信息，最近的研究开始将注意力转向局部层面细粒度片段。具体而言，图像的细粒度片段可以通过均匀分块或显著对象检测获得，而文本的细粒度片段可以通过将文本切割成几个句子或单词来生成。尽管利用局部层面片段的图像-文本检索方法具有对齐模态间细粒度片段的潜力，但大多数方法可能缺乏有效挖掘模态内上下文关系的能力，例如图像中区域之间的空间依赖性和文本中单词之间的顺序依赖性。因此，这些方法往往难以突破性能瓶颈。

为了提高图像-文本相似度学习的性能，在一个考虑上下文关系的统一框架中有效整合图像和文本的全局实例和局部片段是至关重要的。通过采用这个框架，可以有效地学习图像和文本之间的相似度，从而为图像-文本检索提供更准确的结果。然而，尽管图像-文本检索技术取得了进展，但由于以下问题的存在，该任务仍然具有挑战性：综上，发明人发现现有技术还存在以下问题：

1)现有方法忽略了模态内的推理，没有利用单个模态(图像或文本)内的信息来理解和检索相关信息。

2)现有方法忽略了模态间的对齐，无法从每个模态中挖掘互补的信息，并用于改进对数据的整体理解。

发明内容

本公开为了解决上述问题，提出了基于上下文引导多模态关联学习的图像文本检索方法及系统，提出一种上下文引导的多模态关联学习网络(Context-guided Multi-modal Correlation Learning，简称CMCL)，分为“感知，推理，对齐”三个阶段，同时挖掘模态内关联关系和模态间关联关系，以更准确地学习跨模态相似度；有效挖掘和融合全局和局部层面不同模态之间的互补性，以学习精确的多模态对齐。

根据一些实施例，本公开采用如下技术方案：

基于上下文引导多模态关联的图像文本检索方法，包括：

获取不同模态的图像和文本数据，分别提取不同模态的图像和文本数据的细粒度特征序列；构建上下文引导多模态关联学习网络框架，利用不同模态的细粒度特征序列，基于自注意力机制和门控机制捕捉模态内部的互补语义关系，分别获取图像模态的区域空间性增强的视觉上下文感知表示和文本模态的序列性增强的文本上下文感知表示；

在所述上下文引导多模态关联学习网络框架中设计全局模态间关联挖掘分支、局部模态间关联挖掘分支，以及局部模态内关联挖掘分支；在全局模态间关联挖掘分支中，对图像和文本的全局层面特征向量进行跨模态相似度学习；在局部模态间关联挖掘分支中，利用交叉注意机制充分捕捉图像区域和文本单词之间的多模态相关性，在局部层面学习图像和文本之间的相似度；在局部模态内关联挖掘分支中，构建图模型以及采用图卷积网络在图中的节点之间传递和更新信息，使用GRU来整合和推理不同模态之间的关系；在混合损失函数中提出跨模态一致性项以及跨模态对齐项实现不同模态之间的有效对齐。

根据一些实施例，本公开采用如下技术方案：

基于上下文引导多模态关联的图像文本检索系统，包括：

模态数据表示模块，获取不同模态的图像和文本数据，分别提取不同模态的图像和文本数据的细粒度特征序列；构建上下文引导多模态关联学习网络框架，利用不同模态的细粒度特征序列，基于自注意力机制和门控机制捕捉模态内部的互补语义关系，分别获取图像模态的区域空间性增强的视觉上下文感知表示和文本模态的序列性增强的文本上下文感知表示；

三分支多模态关联关系挖掘模块，用于在所述上下文引导多模态关联学习网络框架中设计全局模态间关联挖掘分支、局部模态间关联挖掘分支以及局部模态内关联挖掘分支；在全局模态间关联挖掘分支中，对图像和文本的全局层面向量进行跨模态相似度学习；在局部模态间关联挖掘分支中，利用交叉注意机制充分捕捉图像区域和文本单词之间的多模态相关性，在局部层面学习图像和文本之间的相似度；在局部模态内关联挖掘分支中，构建图模型以及采用图卷积网络在图中的节点之间传递和更新信息，使用GRU来整合和推理不同模态之间的关系；

对齐模块，用于在混合损失函数中提出跨模态一致性项以及跨模态对齐项实现不同模态之间的有效对齐。

与现有技术相比，本公开的有益效果为：

本公开提出基于上下文引导的多模态关联学习(CMCL)框架，同时解决图像-文本检索中的模态内推理和模态间对齐问题。CMCL遵循“感知，推理，和对齐”的关键思想，探索和整合内模态内和模态间关系，以学习更准确的图像-文本相似度。引入自注意力和门控机制，自适应地学习每个模态的上下文感知的细粒度嵌入。然后，深入挖掘模态内部关系，在同一模态内不同信息之间建立连接、推理和关联。为了充分捕捉不同模态之间的关联，分别从全局和局部层面学习更完整的模态间对齐。此外，通过优化包含跨模态一致性项和跨模态对齐项的混合损失，有效地集成图像-文本相似度，同时实现两个目标：不同类型跨模态相似度的有效互补和不同模态样本的精确对齐。

本公开在Flickr 30K和MS-COCO两个基准数据集上与现有方法对比，本公开提出的解决方案被证明是有效的，消融实验进一步证明了网络中每个关键模块的有效性。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例的上下文引导的多模态关联学习的总体框架图；

图2为本公开实施例的上下文感知单元的结构图；

图3为本公开实施例的向量维度对Flickr 30K测试集上跨模态检索性能的影响；

图4为本公开实施例的向量维度对MS-COCO 5K测试集上跨模态检索性能的影响；

图5为本公开实施例的图像区域上下文关系注意力可视化示例；图5中的(A)为可视化示例A，图5中的(B)为可视化示例B；

图6为本公开实施例的CMCL在MS-COCO数据集上I→T和T→I的一些检索示例；图6中的(A)为列举了三组I→T的检索示例；图6中的(B)中包含了三组T→I的检索示例。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1

本公开的一种实施例中提供了一种基于上下文引导多模态关联的图像文本检索方法，包括：

步骤一：获取不同模态的图像和文本数据，分别提取不同模态的图像和文本数据的细粒度特征序列；构建上下文引导多模态关联学习网络框架，利用不同模态的细粒度特征序列，基于自注意力机制和门控机制捕捉模态内部的互补语义关系，分别获取图像模态的区域空间性增强的视觉上下文感知表示和文本模态的序列性增强的文本上下文感知表示；

步骤二：在所述上下文引导多模态关联学习网络框架中设计全局模态间关联挖掘分支、局部模态间关联挖掘分支以及局部模态内关联挖掘分支；在全局模态间关联挖掘分支分支中，对图像和文本的全局层面向量进行跨模态相似度学习；在局部模态间关联挖掘分支分支中，利用交叉注意机制充分捕捉图像区域和文本单词之间的多模态相关性，在局部层面学习图像和文本之间的相似度；在局部模态内关联挖掘分支分支中，构建图模型以及采用图卷积网络在图中的节点之间传递和更新信息，使用GRU(Gated Recurrent Unit，门控循环单元，简称GRU)来整合和推理不同模态之间的关系；

步骤三：在混合损失函数中提出跨模态一致性项以及使用跨模态对齐项实现不同模态之间的有效对齐。

作为一种实施例，本公开的基于上下文引导多模态关联学习网络框架包括三个部分组成：1)上下文引导机制，2)多模态关联学习，3)混合损失函数优化。

上下文引导机制旨在感知图像和文本中的上下文信息，并获得上下文感知的视觉和文本表示。特别地，利用自然语言处理工具包Stanford CoreNLP来解析单词之间的语义依赖关系，有助于生成更精细的特征表示。包括上下文感知单元(Context-PerceivedCell，简称CPC)，上下文感知单元利用自注意力机制和门控机制来充分利用模态内部的互补语义关系，并有效地捕捉每个模态内的上下文信息。通过抑制细粒度特征之间的无信息交互，获得图像和文本模态的区域的视觉上下文感知表示和词的文本上下文感知表示。

所述上下文感知单元集成自注意力机制和门控机制，基于注意力机制和门控机制捕捉模态内上下文关系的过程为：利用全连接层分别得到自注意力机制的三种输入特征集合Q、K、V，通过计算Q和K之间的点积相似度来挖掘模态内部的上下文信息，所述门控机制自适应调节模态内的信息流动，抑制模态内无用的交互关系。

如图2所示，上下文感知单元集成了自注意力机制和门控机制，用于自适应地获取模态内细粒度信息的上下文感知表示。

假设上下文感知单元的输入特征序列为其中L表示序列长度，d表示特征维度。利用全连接层(Fully Connected layers，简称FC)分别得到自注意力机制的三种输入特征集合，即Q(Query)，K(Key)，V(Value)：

Q＝YW_Q

K＝YW_K

V＝YW_V (1)

其中，是需要训练的权重矩阵。自注意力机制通过计算Q和K之间的点积相似度来挖掘模态内部的上下文信息，其定义表示为：

其中，A包含了原始自注意力机制输出的模态内上下文信息，但Q和K中可能包含噪声干扰，为了有效捕获细粒度特征的互补语义信息，我们采用门控机制自适应地调节模态内的信息流动，抑制模态内无用的交互关系。

首先，为Q和K执行融合操作：

U＝Q⊙K (3)

其中，U是融合后的结果，⊙表示逐元素乘积(Element-wiseproduct)。然后，通过全连接层和sigmoid函数分别得到Q和K的门控掩码矩阵G_Q和G_K：

其中，σ表示sigmoid函数，和/>分别是全连接层中需要学习的权重矩阵和偏置项。最后，将得到的门控掩码矩阵用于控制Q和K的信息流动，得到：

利用更新后的和/>对模态内的互补语义信息进行有效挖掘，式(2)更新为：

其中，包含了模态内更有意义的上下文信息，设置d_K＝d_V＝d。因此，上下文感知单元(Context-Perceived Cell，简称CPC)的原理可以表述为：

作为一种实施例，所述获取图像模态的区域空间性增强的视觉上下文感知表示的过程为：将图像模态在具有自上而下注意力机制的目标检测模型Faster R-CNN中提取显著区域，并提取显著区域的特征，利用全连接层映射到公共嵌入空间，获取显著区域的位置向量，利用位置向量学习区域的绝对位置特征，集成每个显著区域的特征和显著区域对应的位置特征，然后利用上下文感知单元捕获视觉区域的上下文信息。

具体的，对于每幅图像I，使用在Visual Genome数据集上预训练的具有自下而上注意力(Bottom-up attention)的目标检测模型Faster R-CNN提取其中前n个置信度最高的显著区域，并使用Resnet-101提取这些区域的特征，表示其中d_F表示特征的维度。然后，利用全连接层将它们映射到d维的公共嵌入空间中：

其中，b_F分别是需要学习的权重矩阵和偏置项，/>是图像I新的区域特征。

与之前使用区域相对位置特征的研究不同，提出使用区域的绝对位置特征，以从全局角度学习不同区域的空间互补关系。具体来说，首先，假设图像I的左上角(top-left)和右下角(bottom-right)的坐标分别为(x^tl,y^tl)和(x^br,y^br)，n个图像区域的位置特征表示为第i个区域的位置向量/>表示为：其中，/>和分别表示第i个区域的左上角和右下角的坐标。接下来，利用全连接层和sigmoid函数学习区域的绝对位置特征/>

其中，b_S分别是需要学习的权重矩阵和偏置项。因此，图像I中所有区域新的位置特征表示为/>

最后，为了充分挖掘不同区域之间的互补语义信息，首先集成每个区域的特征和其对应的位置特征，再利用上下文感知单元捕获视觉区域的上下文信息：

其中，⊙表示逐元素相乘，是空间性增强的视觉上下文感知表示(Spatial-enhanced Visual Context-perceived Representation)。

使用预训练的BERT(Bidirectional Encoder Representations fromTransformers)模型来处理文本模态，以获取上下文相关的双向特征表示。具体来说，对于一个包含m个单词的句子S，首先利用WordPiece分词器进行分词，然后利用BERT提取相应的词特征，表示为类似地，我们利用全连接层将它们映射到d维的公共嵌入空间中：

其中，b_E分别是需要学习的权重矩阵和偏置项，/>是图像I新的区域特征。

最后，利用上下文感知单元进一步整合文本中单词序列的上下文信息：

其中，是序列性增强的文本上下文感知表示(Sequential-enhanced Textual Context-Aware Representation)。

作为一种实施例，在步骤二中，在上下文引导多模态关联学习网络框架中构建全局模态间关联挖掘分支、局部模态间关联挖掘分支以及局部模态内关联挖掘分支，具体的实施过程包括：

基于图像模态和文本模态的上下文感知表示，在所述上下文引导多模态关联网络学习框架中构建全局层面的模态间关联挖掘分支、全局层面的模态间关联挖掘分支、全局层面的模态间关联挖掘分支，所述全局层面的模态间关联挖掘分支和局部层面的模态间关联挖掘分支分别从全局层面和局部层面挖掘不同模态之间的相关性，而局部层面的模态内关联挖掘分支则是对模态内关联关系的学习。

为了捕获不同模态特征之间更详细的互补关系，在三种对齐模块中都使用了向量型相似度函数(Vector Similarity Function，简称VSF)。假设有向量和/>它们之间的向量相似度定义为：

其中，|·|²和||·||₂分别表示逐元素平方(Element-wise square)和l₂范数，是需要训练的权重矩阵。特别地，三种对齐模块中学习的相似度向量的维数都设置为P。

1)全局层面的模态间关联学习分支对齐模块：为每个不同模态的实例学习一个特征向量，它反映了图像和文本在全局水平上的模态间相关性。对于视觉上下文感知表示和文本上下文感知表示同时得到最大池化特征和平均池化特征，前者突出了判别性特征的重要性，后者保证了模态内信息的完整性，将其分别融合，利用全连接对融合后的特征进行学习。

具体地，为不同模态的实例分别学习一个全局层面的向量，它反映了图像和文本在全局水平上的模态间相关性。对于视觉上下文感知表示和文本上下文感知表示/>首先同时得到它们的最大池化(Max Pooling)特征和平均池化(Average Pooling)特征/>前者突出了判别性特征的重要性，后者保证了模态内信息的完整性，将它们分别融合：

然后，进一步利用全连接层对融合后的特征进行学习，分别得到图像和文本最终的全局层面向量和/>

其中，和b_v,b_t分别是全连接层的权重矩阵和偏置项。

最后，通过计算v^S和t^S之间的相似度，学习图像I和文本S在全局层面的模态间关联关系：

sim^S＝VSF(v^S,t^S,W^S) (16)

2)局部层面的模态间关联学习对齐模块：由于细粒度碎片可以提供重要的互补语义信息，该分支通过交叉注意机制充分捕捉图像区域和单词之间的多模态相关性，从而在局部层面学习图像和文本之间的相似度。

对于输入的视觉上下文感知表示和文本上下文感知表示，首先计算区域-单词相似度矩阵，然后在视觉上下文感知表示到文本上下文感知表示和文本上下文感知表示到视觉上下文感知表示两个方向使用交叉注意力，获取区域和单词之间的互补关系，在视觉上下文感知表示到文本上下文感知表示方向，为每一个区域学习一个文本中所有单词的融合向量，然后计算每一个区域和相对应的单词的融合向量之间的相似度，得到视觉上下文感知表示到文本上下文感知表示方向上图像和文本的相似度。同时获取文本上下文感知表示到视觉上下文感知表示方向上图像和文本的相似度，将从两个方向获得的相似度相加，用于学习局部层面的模态间关联关系。

具体的，为了挖掘多模态数据之间更加丰富的局部层面互补信息，利用交叉注意力(cross-attention)机制充分捕获图像区域和单词之间的细粒度对齐。

对于输入的视觉上下文感知表示和文本上下文感知表示首先计算区域-单词相似度(Region-word similarity)矩阵M，其中M_ij表示区域v_i与单词t_j之间的余弦相似度。然后，在V→T和T→V两个方向应用交叉注意力，充分挖掘区域和单词之间的互补关系。在V→T方向，为每一个区域v_i学习一个文本中所有单词的融合向量/>其中ω_ij是交叉注意力权值，计算方式如下：

其中，是将M中的元素沿列维度归一化得到的结果。然后，计算每个区域v_i和相对应的单词融合向量/>之间的相似度，并将得到的所有相似度的平均值作为V→T方向上图像I和文本S的相似度：

同理，通过对单词-区域相似度矩阵M进行上述处理，可以得到T→V方向上图像I和文本S的相似度：

最后，将从两个方向获得的相似度向量相加，用于将图像I和文本S在目标层面对齐，以学习局部层面的模态间关联关系：

3)局部层面的模态内关联学习对齐模块：在局部层面的模态内关联学习中，基于视觉上下文感知表示构建视觉图，基于文本上下文感知表示构建文本图，获取文本中单词之间的语法依赖性矩阵，计算文本图中节点之间的亲和度矩阵；采用图卷积网络在图中的节点之间传递和更新信息。最后，使用GRU来整合和推理不同模态之间的关系。

具体的，前两个分支模块分别从全局层面和局部层面整合模态内互补语义信息，无法学习模态中不同对象及其关系、属性层面的对应关系。因此，它们有两个局限性：(1)由于对象的对应关系过多，很难学习关系和属性的对应关系；(2)没有描述性关系和属性的引导，对象容易对应错误的范畴。一方面，对于图像模态来说，区域的位置特征很好的描述了图像中不同对象的空间属性，可以利用图模型有效捕获区域之间空间关系信息。首先为图像和文本分别构建视觉图和文本图，再利用图卷积网络对图中节点之间的信息进行传递和更新，以及利用GRU对不同模态之间的关系进行整合和推理。

视觉图的构建：基于视觉上下文感知表示将每幅图像表示为一个全连通的无向图G₁＝(V₁,E₁)，其中V₁是图中所有节点的集合，E₁是图中所有边的集合。具体来说，图中节点与图像区域一一对应，用v_i表示第i个节点的特征，并且所有节点之间都有边相连，意味着所有图像区域之间都可以进行信息传递。为了准确描述不同图像区域之间的关系，提出计算它们之间的亲和度作为图中边上的权重：

其中，ξ(v_i)＝W_ξv_i和是两种嵌入特征，/>是需要训练的映射矩阵，将/>作为图中第i个节点和第j个节点之间边上的权重。因此，可以得到视觉图的边权矩阵/>

文本图的构建：如图1所示，给定一个句子“Aman leads a white and blackpuppy.”，其中“man”和“puppy”是目标实体(名词)，“a”、“white”和“black”是实体“puppy”的属性(形容词/副词)，而“leads”则是“man”的一个动作(动词)。可以发现，文本中存在可解释的语法依赖关系，所以为其构建全连通图并不适用，因为可能会增加错误的关联关系，从而使后续节点之间的关系推理受到噪声干扰。因此，使用Stanford CoreNLP解析文本中的语法依赖关系以构建文本图G₂＝(V₂,E₂)，图中节点的特征使用的是文本上下文感知表示另外由Stanford CoreNLP得到了文本中单词之间的语法依赖性矩阵W^D，其中若单词t_i与单词t_j之间存在语法依赖关系，则/>否则/>与视觉图类似，计算文本图中节点之间的亲和度矩阵W^T，以强调单词之间的内在关系：

其中，ξ′(·)和也是两种需要利用映射矩阵学习的嵌入特征，将得到的亲和度矩阵W^T与语法依赖性矩阵W^D相融合作为文本图的边权矩阵：

其中，⊙表示逐元素乘积，是文本图的边权矩阵。

图卷积神经网络(Graph Convolutional Networks，简称GCN)是一种应用于图上的模型，在更新节点特征时通过边权矩阵聚合邻居节点的信息，从而可以捕获不同节点之间的潜在关系。为了充分挖掘模态内细粒度特征之间的关系互补性，利用残差图卷积网络(Residual Graph Convolutional Networks，简称RGCN)推理图中节点之间的关联关系。

具体来说，给定一个有N个节点的图G＝(V,E)，定义其节点特征矩阵为边权矩阵为/>利用RGCN更新节点特征的过程如下：

其中，是图卷积网络中需要训练的参数矩阵，/>是残差结构矩阵，更新后的节点特征矩阵/>蕴含了节点之间的推理关系。

因此，在视觉图G₁＝(V₁,E₁)和文本图G₂＝(V₂,E₂)上的节点关系推理过程分别如下：

其中，和/>分别是视觉图中的参数矩阵和残差结构矩阵，和/>分别是文本中的参数矩阵和残差结构矩阵。通过利用图更新节点特征，我们分别获得模态内邻居关系增强的区域特征/>和单词特征

为了进一步选择每种模态中有判别性的细粒度交互关系信息并过滤掉冗余的部分，首先将分支1中学习到的一种模态的全局层面向量(即和/>)与另一种模态的邻居关系增强特征组合起来，然后将它们输入到GRU中，以同时融合模态间和模态内的关系互补性。具体来说，将得到的/>和中的特征分别依次输入到GRU中：

其中，和/>是GRU最后一层隐藏状态的特征，将它们分别作为图像的全局关系向量和文本的全局关系向量。

最后，计算v^R和t^R之间的相似度，以学习模态内关联关系：

sim^R＝VSF(v^R,t^R,W^R) (27)

进一步的，在充分挖掘不同模态之间的互补语义信息后，将对不同分支对齐模块学习到的跨模态相似度进行准确优化。

一方面，由于跨模态相似度本质上取决于不同模态数据之间的共享属性，在不同的嵌入空间中这些属性不应该有变化，所以不同模块学习到的跨模态相似度不应相差过大，因此我们创新性地提出跨模态一致性项，用于约束不同模块学习到的跨模态相似度的差异性。另一方面，我们希望相匹配的图像和文本之间的跨模态相似度要高于不匹配的图像和文本之间的跨模态相似度，因此使用跨模态对齐项实现不同模态之间的有效对齐。通过集成这两项得到混合损失函数，实现对跨模态相似度的精准优化。

具体来说，首先利用三组参数共享的多层感知机(Multi-Layer Perceptron，简称MLP)将多分支对齐模块得到的三种相似度向量(即：sim^S，sim^O，sim^R)分别映射为标量(即：s^S，s^O，s^R)。多层感知机由两层全连接神经网络构成，并且在最后一层之后通过softmax激活函数输出学习到的跨模态相似度，用s和s分别代表输入和输出，学习过程如下：

s＝σ(W₂[W₁s+b₁]₊+b₂) (28)

其中，[·]₊＝max(·,0)，σ(·)是softmax函数，和b₁,b₂分别是需要学习的权值矩阵和偏置项。

跨模态一致性项

由于跨模态相似度计算依赖于基于共享语义信息连接不同模态，因此我们的三个分支学习到的嵌入空间之间的差异应该尽量小。因此，我们提出了一个跨模态一致性项来限制不同嵌入空间之间的差异。具体而言，图像-文本相似度x和y之间的差异性定义为：

D(x,y)＝(x-y)² (29)

所以，前面学习到的图像I和文本S之间的三种类型的跨模态相似度(即：s^S，s^O，s^R)的差异性如下：

D(I,S)＝D(s^S,s^O)+D(s^S,s^R)+D(s^O,s^R) (30)

因此，对于训练过程中的每批次数据跨模态一致性项定义为：

跨模态对齐项

为了实现不同模态之间的语义对齐，首先将图像I和文本S之间的跨模态相似度F(I,S)定义为上述三种相似度的平均值：

然后，使用铰链式的双向三元组损失函数对跨模态相似度进行优化，并且为了提高计算效率，在训练过程中的每个批次(Batch)，即采用困难负样本挖掘(Hardnegative sample mining)策略。跨模态对齐损失函数的定义如下：

其中，B是批尺寸(Batch size)的大小，F(I_i,S_i)表示其中第i个图像和第i个文本之间的相似度，[·]₊＝max(·,0)，和/>是本批次中与当前查询项最相似的负例，Δ是预定义的间隔系数。

最后，将跨模态对齐损失函数和语义一致性损失函数结合，作为总的目标函数：

L＝L_t+λL_c (34)

其中，λ是平衡因子。

本公开在Flickr30K和MS-COCO两个基准数据集上进行了一系列实验，并与多种近期提出的先进方法进行性能比较，验证了CMCL的优越性。此外，还对CMCL中涉及到的超参数进行了详细的参数分析，以及通过消融实验证明了CMCL中各个模块的有效性。最后，形象化地展示了一些注意力可视化结果和检索示例结果，如图3和图4。

如图5所示，展示了A、B两幅视觉对象数量较多、关系较为复杂的原始图像和相应的区域注意力可视化后的图像，另外给出了每幅图像所对应的句子。从图像区域上下文关系的注意力可视化中，可以发现CMCL生成的图像表示很好地捕捉了图像中的关键对象及其上下文关系。比如第一组示例中的对象“Skiers”与相关的“on their skis”，以及“ride onthe slope”之间的上下文关系；第二组实例中的对象“man”与相关的“in red shirt and ared hat”，以及“on a motorcycle”之间的上下文关系都得到了很好的体现。

另外，图6展示了CMCL在MS-COCO数据集上I→T和T→I的一些检索示例。图6中的(A)中列举了三组I→T的检索示例，对于每幅查询图像，展示了CMCL检索结果中排名前五(Rank1-Rank5)的文本，图6中的(B)中包含了三组T→I的检索示例，对于每个文本查询，展示了CMCL检索结果中排名前五(Rank1-Rank5)的图像。

实施例2

本公开的一种实施例中提供了一种基于上下文引导多模态关联的图像文本检索系统，包括：

模态数据表示模块，获取不同模态的图像和文本数据，分别提取不同模态的图像和文本数据的细粒度特征序列；构建上下文引导多模态关联网络框架，利用不同模态的细粒度特征序列，基于自注意力机制和门控机制捕捉模态内部的互补语义关系，分别获取图像模态的区域空间性增强的视觉上下文感知表示和文本模态的序列性增强的文本上下文感知表示；

三分支多模态关联关系挖掘模块，用于在所述上下文引导多模态关联学习网络框架中设计全局模态间关联挖掘分支、局部模态间关联挖掘分支以及局部模态内关联挖掘分支；在全局模态间关联挖掘分支中，对图像和文本的全局层面向量进行跨模态相似度学习；在局部模态间关联分支中，利用交叉注意机制充分捕捉图像区域和文本单词之间的多模态相关性，在局部层面学习图像和文本之间的相似度；在局部模态内关联挖掘分支中，构建图模型以及采用图卷积网络在图中的节点之间传递和更新信息，使用GRU来整合和推理不同模态之间的关系；

对齐模块，用于在混合损失函数中提出跨模态一致性项以及使用跨模态对齐项实现不同模态之间的有效对齐。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.基于上下文引导多模态关联的图像文本检索方法，其特征在于，包括：

2.如权利要求1所述的基于上下文引导多模态关联的图像文本检索方法，其特征在于，所述上下文引导的多模态关联学习网络框架包括上下文感知单元，所述上下文感知单元集成自注意力机制和门控机制，基于自注意力机制和门控机制捕捉每个模态内上下文关系的过程为：利用全连接层分别得到自注意力机制的三种输入特征集合Q、K、V，通过计算Q和K之间的点积相似度来挖掘模态内部的上下文信息，采用门控机制自适应调节模态内的信息流动，抑制模态内无用的交互关系。

3.如权利要求1所述的基于上下文引导多模态关联的图像文本检索方法，其特征在于，获取图像模态的区域空间性增强的视觉上下文感知表示的过程为：将图像模态在具有自上而下注意力机制的目标检测模型中提取显著区域，并提取显著区域的特征，利用全连接层映射到公共嵌入空间，获取显著区域的位置向量，利用位置向量学习区域的绝对位置特征，集成每个显著区域的特征和显著区域对应的位置特征，然后利用上下文感知单元捕获视觉区域的上下文信息。

4.如权利要求1所述的基于上下文引导多模态关联的图像文本检索方法，其特征在于，所述文本模态的序列性增强的文本上下文感知表示的获取过程为：首先对文本进行分词，利用BERT提取相应的词特征，利用全连接层将其映射到公共嵌入空间，最后，利用上下文感知单元进一步整合文本中单词序列的上下文信息。

5.如权利要求1所述的基于上下文引导多模态关联的图像文本检索方法，其特征在于，在所述上下文引导多模态关联网络框架中构建全局层面的模态间关联挖掘分支、全局层面的模态间关联挖掘分支、全局层面的模态间关联挖掘分支，所述全局层面的模态间关联挖掘分支和局部层面的模态间关联挖掘分支分别从全局层面和局部层面挖掘不同模态之间的相关性，而局部层面的模态内关联挖掘分支则是对模态内关联关系的学习。

6.如权利要求1所述的基于上下文引导多模态关联的图像文本检索方法，其特征在于，利用三组参数共享的多层感知机将全局层面的模态间关联挖掘分支、全局层面的模态间关联挖掘分支以及全局层面的模态间关联挖掘分支中学习到的跨模态相似度进行优化。

7.如权利要求6所述的基于上下文引导多模态关联的图像文本检索方法，其特征在于，利用三组参数共享的多层感知机将多分支对齐模块得到的三种相似度向量分别映射为标量，多层感知机由两层全连接神经网络构成，并且在最后一层之后通过softmax激活函数输出学习到的跨模态相似度。

8.如权利要求7所述的基于上下文引导多模态关联的图像文本检索方法，其特征在于，提出一个跨模态一致性项来限制不同嵌入空间之间的差异，对图像和文本相似度之间的差异性进行定义。

9.如权利要求6所述的基于上下文引导多模态关联的图像文本检索方法，其特征在于，实现不同模态之间的语义对齐，首先将图像和文本之间的跨模态相似度定义为三种相似度的平均值，使用铰链式的双向三元组损失函数对跨模态相似度进行优化，在训练过程中的每个批次采用困难负样本挖掘策略；将跨模态对齐损失函数和语义一致性损失函数结合，作为总的目标函数。

10.基于上下文引导多模态关联的图像文本检索系统，其特征在于，包括：