CN114625910B

CN114625910B - 基于负感知注意力框架的图像文本跨模态检索方法

Info

Publication number: CN114625910B
Application number: CN202210516499.6A
Authority: CN
Inventors: 毛震东; 张勇东; 郭俊波; 张坤; 郭文歆
Original assignee: University of Science and Technology of China USTC; People Co Ltd
Current assignee: University of Science and Technology of China USTC; Konami Sports Club Co Ltd
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2022-08-19
Anticipated expiration: 2042-05-13
Also published as: CN114625910A

Abstract

本发明公开了一种基于负感知注意力框架的图像文本跨模态检索方法，与现有的仅关注匹配片段而削弱或消除不匹配片段作用效果的方法相比，同时关注了图像‑文本对中的匹配和不匹配片段，通过高效的迭代优化策略最大限度地挖掘负面的不匹配片段，生成更具区分性和鲁棒性的负面作用。并且，本发明提出的双分支匹配机制，能够显式地利用片段带来的正面作用和负面作用，精确地衡量出片段的相似度与不相似度，用以共同推断出图文之间的整体相似度，因此可以实现更准确的检索效果。

Description

基于负感知注意力框架的图像文本跨模态检索方法

技术领域

本发明涉及图像文本跨模态检索领域，具体涉及一种基于负感知注意力框架的图像文本跨模态检索方法。

背景技术

如今，来自于移动社交网络的多媒体数据呈爆炸式增长，进而涌现出大量对于不同类型数据处理和利用的需求。其中，图像和文本是人们日常生活中最普遍出现的两种截然不同的信息模态，如何使计算机理解并关联两种异构数据是近年来跨模态领域的研究热点和难点。图像-文本跨模态检索，即通过图像检索对应的文本（或通过文本检索对应的图像）是该领域最基础的任务之一，其通过衡量图像和文本之间的语义相似程度，致力于弥合视觉与语言两个模态之间的语义鸿沟，从而实现高准确率的图文检索方法，在工业应用以及学术研究上都有着重要的价值。

现有的图文检索方法通常有两种模式。1）全局模式：模型直接学习整个图像和全文本之间的语义关联，从而衡量图文相似度。但是这种模式无法进一步学习图像的局部区域与文本中的单词之间的交互，其检索精度的提升空间有限。2）局部模式：考虑更细粒度的图像区域和文本单词的语义关联，通过计算所有图像区域和文本单词组成的“区域-单词”对相似度来衡量整体的图文相似度。并且近年来，基于注意力机制的检索方法已经成为该模式的主流。然而，在现有局部模式方法中，图文相似度通常由高相似度的区域-单词对决定，而低相似度的区域-单词对则被削弱或忽略。虽然现有局部模式检索取得很好的效果，但它们都忽略了：低相似度的区域-单词对同样是证明图像文本不匹配的重要线索，例如文本中出现与图像无关的单词，则直接表明文本与图像不匹配。因此不匹配片段在图文检索中也存在关键作用。

一个图像和一个文本组成图像-文本对，图像中的一个区域和文本中的一个单词组成区域-单词对，也称为片段。如果区域和单词的相似度高于阈值，则该区域和单词称为匹配片段，否则称为不匹配片段。

对于一个图像和一个包含多个单词的文本，如果文本中任意一个单词可以在该图像中找到至少一个区域组成匹配片段，则该图像为该文本的匹配图像，该文本和该图像组成匹配的图像-文本对；如果该文本中任意一个单词与该图像中的所有区域都无法组成匹配片段，则该图像为该文本中的不匹配图像，该文本和该图像为不匹配的图像-文本对。

发明内容

为解决上述技术问题，本发明提供一种新颖的、对不匹配片段的负面作用感知的检索方法，称之为负感知注意力框架。

为解决上述技术问题，本发明采用如下技术方案：

一种基于负感知注意力框架的图像文本跨模态检索方法，其训练过程包括以下步骤：

步骤一：图像V和包含m个单词的文本U组成图像-文本对（U，V），通过预训练模型提取图像V每个区域的特征向量

、文本U每个单词的特征向量

；

步骤二：一个区域和一个片段组成的区域-单词对称为片段，设置区分边界t_k，相似度大于t_k的片段视为匹配片段，相似度小于或者等于t_k的片段视为不匹配片段；

步骤三：计算文本所有单词u_i与图像V所有区域

的相似度

，i∈[1,m]，j∈[1,n]；计算各单词u_i，i∈[1,m]与图像V所有区域

的相似度与区分边界t_k的差值的最大值，作为各单词的匹配程度

；对各单词的匹配程度进行模态内传播，得到单词的模态内增强匹配程度

；其中

表示第i个和第

个单词之间的语义关系，λ是比例因子；则图像-文本对（U，V）中第i个单词所带来的负面作用

；其中

为掩码函数，当输入为负数时输出为1，否则输出为0，

表示点积运算；

步骤四：第i个单词在图像中的共享语义可以被聚合为图像相关语义特征

；其中

是单词 u_i和区域v_j的语义关联；

为掩码函数，当输入为正数时输出与输入相等，否则输出-∞；单词u_i的特征相似度为

；语义相关度权重加权的分数相似度

，j∈[1,n]；图像-文本对（U，V）中第i个单词所带来的正面作用

；

步骤五：图像-文本对（U，V）的相似度

。

具体地，步骤一中，通过预训练模型提取图像V每个区域的特征向量时，通过预训练的Faster R-CNN检测出图像V的候选区域，对每个区域利用预训练的ResNet-101进行均值池卷积特征提取并经过一个全连接层，得到每个区域的特征向量

。

具体地，步骤一中，通过预训练模型提取文本U每个单词的特征向量时，每个单词首先被表示为一个300维的GloVe向量，然后使用双向门控循环单元BiGRU对GloVe向量进行处理，最终使用双向隐藏状态的平均值作为每个单词的特征向量

。

具体地，步骤二中设置区分边界t_k时，通过如下交替优化方法得到t_k：

对于一个匹配的图像-文本对，该文本中的单词u_i，i∈[1,m]，和该图像所有区域

中相似度最高的区域组成匹配片段；

对于一个不匹配的图像-文本对，该文本中的单词u_i，i∈[1,m]和该图像所有区域

中相似度最高的区域组成不匹配片段；

则匹配片段的相似度

，不匹配片段的相似度

；并构造如下集合：

，

其中，其中

和

分别表示不匹配片段的相似度

的集合和匹配片段的相似度

的集合，

和

在训练过程中动态更新，k为更新的轮数；

基于构造出的集合

和

，分别建立匹配片段相似度s的概率密度函数

和不匹配片段的相似度s的概率密度函数

：

其中，

和

分别是两种概率分布的均值和标准差；

当：

，

优化问题

具有最优解；即此时的 t_k使得不匹配片段和匹配片段区分错误的概率最低，其中t是该优化问题的决策变量，α是惩罚参数，

。

本发明中，还可以通过人为选择的方式设置区分边界t_k；通过对训练过程中匹配和不匹配片段语义相关程度的观察先验，可以人为地设置固定的区分边界，这种离线的固定值，虽然不影响利用匹配片段的正面作用和不匹配片段的负面作用实现跨模态检索，但无法实现本发明中交替优化方法自适应在线的动态调整，存在部分局限性。

与现有技术相比，本发明的有益技术效果是：

本发明首次显式地同时利用图像区域与文本单词中匹配片段的正面作用和不匹配片段的负面作用，从而联合衡量图像和文本的相似性。1）具体的，本发明提出了一种新颖的双分支的匹配模块，其包含两种不同的掩码注意力机制，一方面关注匹配片段的相似度，另一方面精确计算不匹配片段的不相似度，联合利用前者的正面作用和后者的负面作用进行图像和文本之间的跨模态检索；2）此外，本发明还提出一种全新的交替优化方法来显示的挖掘不匹配片段，首先通过建模匹配片段和不匹配片段的相似度分布，然后通过优化两个分布的最小错分概率求解最优的相似度区分阈值，从而尽可能的区分不匹配片段。通过本发明提出的方法，能够得到更全面、可解释的图文相似度衡量，实现更精确的图像-文本跨模态检索。

附图说明

图1为本发明基于负感知注意力框架的图文检索流程框图一；

图2为本发明基于负感知注意力框架的图文检索流程框图二；

图3为本发明匹配片段与不匹配片段相似度分布建模示意图。

具体实施方式

下面结合附图对本发明的一种优选实施方式作详细的说明。

如图1和图2所示，本发明提出一种基于负感知注意力框架的图像文本跨模态检索方法，基于负感知注意力框架包括：不匹配片段挖掘模块和正负双分支匹配模块。检索方法的训练过程如下：

1.基于预训练模型的图像与文本特征提取

1.1图像特征提取

Faster R-CNN是一个预训练的目标检测框架，具有很好的检测速度和检测精度。本发明中，对于给定的图像V，选择Faster R-CNN检测出的前36个候选区域，利用预训练的 ResNet-101进行均值池卷积特征提取，最后经过一个全连接层，得到每个区域的特征向量

，特征长度设置为1024。

1.2文本特征提取

给定一个包含m个单词的文本U，每个单词首先被表示为一个300维的GloVe向量，然后使用双向门控循环单元BiGRU对这些向量进行处理，整合前后的上下文信息，最终使用双向隐藏状态的平均值作为每个单词的特征向量

，特征长度同样为1024。

2.不匹配片段挖掘模块

2.1区域-单词对的相似度建模。

在一个图像-文本对中包含大量的匹配和不匹配的片段，我们需要充分利用这两种类型的信息来实现更精确的检索性能。在实际匹配的过程中，计算出区域-单词对的相似度后，需要一个边界来决定它是匹配片段还是不匹配片段，现有的方法通常隐式地以固定值0作为区分边界。为了更准确地区分匹配片段和不匹配片段，我们对两者的相似度进行采样，然后显式地、自适应地建模两者的相似度分布，继而找到一个最优的区分边界，实现有效的不匹配片段挖掘。考虑到缺乏关于片段级的区域-单词是否匹配的先验信息，并且图像中含有大量背景区域，我们从文本的角度出发，设计了一种采样策略：对于一个匹配的图像-文本对，该文本的单词一定可以在该文本匹配图像中找到至少一个匹配区域，我们视一个文本的单词u_i，i∈[1,m]和该文本匹配图像的所有区域

中相似度最高的为匹配片段，进而做出采样：

；

另一方面，对于一个不匹配的图像-文本对，文本中的不匹配单词与图像中的所有区域都不匹配，此时单词u_i，i∈[1,m]和文本的不匹配图像的所有区域

中，相似度最高的区域可以代表不匹配片段的相似度上界，由此做出采样：

，

并构造如下集合：

，

其中

和

分别表示不匹配片段的相似度

和匹配片段的相似度

的集合，它们会在训练过程中动态更新，k即为更新的轮数。基于构造出的两个集合，可以分别建立匹配片段和不匹配片段的相似度s的概率密度函数：

其中，

和

分别是两种概率分布的均值和标准差。

2.2交替优化更新策略

分别得到两个相似度分布建模后，可以用一个显式的边界t_k在匹配片段和不匹配片段之间进行区分，如图3所示，相似度大于t_k的区域-单词对被视为匹配片段，反之则为不匹配片段。其中，有两种区分错误的情况：将实际上不匹配的片段区分为匹配的（如图3中的αE₁），或者将实际上匹配的片段误认为是不匹配的（如图3中的E₂）。我们的目的是最大限度的挖掘出不匹配片段，需要找出一个最优的边界t_k，使得区分错误的概率最低，保证识别的准确性，即解决如下优化问题：

，s.t. t≥0，

其中t是该问题的决策变量，α是惩罚参数；该问题的最优解为：

，

其中

。

值得强调的是，在训练期间，首先从匹配片段和不匹配片段的相似度分布中学习到显式边界t_k，随即t_k被整合到注意力匹配过程中，用以调整两个相似度分布，使之更有区分度，这便形成一个交替的优化过程，最终可以最大限度的分离两个分布，使得不匹配片段产生更强的负面影响。

3.正负双分支匹配模块

在正负双分支匹配模块中，我们同时考虑图像-文本对之间的匹配片段和不匹配片段，通过使用正面和负面两种不同的注意力掩码，分别从两个分支精确衡量它们的积极和消极作用。我们首先计算所有区域-单词对之间的相似度：

依然从文本的角度出发，计算一个文本的单词u_i，i∈[1,m]和一个图像所有区域

的相似度与区分边界t_k的差值，其中的最大值体现了这个单词的匹配程度：

；

考虑到单词在文本内的语义内关系，使语义相似的单词获得相同的匹配关系，进一步对每个单词的匹配程度进行一次模态内传播：

，

其中

表示第i个和第

个单词之间的语义关系，λ是比例因子。

由此，可以衡量出一个图像-文本对（U，V）中第i个单词所带来的负面作用为：

，

其中

为掩码函数，当输入为负数时输出为1，否则为0，

表示点积运算。

另一方面，衡量图像-文本对的相似程度时，我们首先关注跨模态的共享语义，第i个单词在图像中相关的共享语义可以被聚合为：

；

其中

是单词u_i和区域v_j的语义关联，

为掩码函数，当输入为正数时输出与输入相等，否则输出-∞；这样使得不相关的图像区域

的注意力权重被削减至0。由此，单词u_i的特征相似度为

。另外，区域与单词间的相关度分数

也反应了图文间的相似程度，得到由相关度权重加权的相似度

，j∈[1,n]。因此，一个图像-文本对（U， V）中第i个单词所带来的正面作用为：

；

最终，图像-文本对（U，V）的相似度由正面作用和负面作用共同决定：

。

本发明中的图像文本跨模态检索方法的训练损失函数为双向三元组排序损失：

，

其中

是超参数边距；

，其中p 表示与文本U不匹配的任意图像，q表示与图像V不匹配的任意文本，V’和U’表示对于一个图像-文本对（U，V）而言最难以区分的不对齐样本。图像文本跨模态检索方法的训练优化过程采用Adam作为优化器，学习率初始化为0.0005，边距参数

设置为0.2，比例因子λ设置为 20，惩罚参数α初始化为2.0。

4.数据集使用Flickr30K和MS-COCO。Flickr30K中共含有31000张图片和155000个句子，一张图片与五个句子检索，数据集的划分情况为：1000张图片作为测试，1000张图片作为验证，29000张图片作为训练；MS-COCO包含有123287张图片和616435个句子，划分情况为：5000张图片作为测试，5000张图片作为验证，113287张图片作为训练。

本发明中的实验评估指标为Recall at K (R@K, K=1, 5, 10)和rSum，R@K表示在检索到的前K个结果中检索正确的结果所占的百分比，rSum表示所有R@K结果的总和，体现了整体的检索性能。大量实验结果表明，本发明提出的框架能够最大限度地挖掘出不匹配片段的负面作用，且通过联合利用不匹配片段负面作用和匹配片段正面作用的方式，能够明显有效地提升图像文本检索的精度，较好地体现了本发明在图文检索任务上的优势。

本发明的模型架构如图1和图2所示，对于一张图像和一个句子，首先进行特征提取（长度为1024的特征向量），然后计算图像区域和句子中单词的片段间相似度，并进行抽样和建模，利用匹配片段和不匹配片段的相似度分布学习出区分两者的最优边界t_k，根据t_k的区分结果分别从正面作用和负面作用两个分支进行匹配，最终将其合成为图像与句子的整体相似度，根据排序判断是否匹配。

本发明的匹配片段与不匹配片段相似度分布建模如图3所示，其中虚线表示不匹配片段的相似度分布，实线表示匹配片段的相似度分布。

将一个图像-文本对输入到网络中，利用本发明中的检索方法进行不匹配片段挖掘和双分支匹配，最后能够得出这对图像和文本的相似度。给定一个图像作为查询，本发明能够得到该图像与所有文本的相似度，排序靠前的文本即与图像匹配；同理，给定文本作为查询，本发明能够检索出与之对应的图像。

本发明能够应用于各类网络应用，如搜索引擎、智能推荐系统等，可以在图像和文本之间进行精确的检索，因而具有较强的应用价值。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立技术方案，说明书的这种叙述方式仅仅是为了清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于负感知注意力框架的图像文本跨模态检索方法，其训练过程包括以下步骤：

、文本U每个单词的特征向量

；

步骤三：计算文本所有单词u_i与图像V所有区域

的相似度

，i∈ [1,m]，j∈[1,n]；计算各单词u_i，i∈[1,m]与图像V所有区域

的相似度与区分边界 t_k的差值的最大值，作为各单词的匹配程度

；其中

表示第i个和第

；其中

为掩码函数，当输入为负数时输出为1，否则输出为0，

表示点积运算；

；其中

是单词 u_i和区域v_j的语义关联；

；语义相关度权重加权的分数相似度

；

步骤五：图像-文本对（U，V）的相似度

。

2.根据权利要求1所述的基于负感知注意力框架的图像文本跨模态检索方法，其特征在于，步骤一中，通过预训练模型提取图像V每个区域的特征向量时，通过预训练的Faster R-CNN检测出图像V的候选区域，对每个区域利用预训练的ResNet-101进行均值池卷积特征提取并经过一个全连接层，得到每个区域的特征向量