CN113094533B

CN113094533B - 一种基于混合粒度匹配的图文跨模态检索方法

Info

Publication number: CN113094533B
Application number: CN202110373838.5A
Authority: CN
Inventors: 盛律; 徐东; 魏云飞
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-04-07
Filing date: 2021-04-07
Publication date: 2022-07-08
Anticipated expiration: 2041-04-07
Also published as: CN113094533A

Abstract

本发明公开了一种基于混合粒度匹配的图文跨模态检索方法，该方法包括构建数据库、提取文本、提取图像、构建模型、验证模型、评估模型以及图文检索等步骤。该方法利用多跳图神经网络对不同模态特征中混合粒度的语义信息进行捕捉，从而实现混合粒度的跨模态匹配。同时，该方法采用近邻信息敏感匹配模块代替传统方法中直接采用余弦距离计算相似度的方式，匹配分数的预测过程更加灵活、准确，进而显著提高了跨模态检索方法的精确度和稳定性。

Description

一种基于混合粒度匹配的图文跨模态检索方法

技术领域

本发明涉及图文跨模态数据检索技术领域，更具体的说是涉及一种基于混合粒度匹配的图文跨模态检索方法。

背景技术

传统的信息检索系统主要有单模态检索和跨模态检索两种方式，单模态检索的查询数据和查询结果仅包含一种模态的数据，跨模态检索则能够实现两种不同模态数据间的互相检索。由于多模态数据所呈现出的多样性、复杂性与随意性，理解和校准多模态数据的语义内容尤为重要。

目前主流的跨模态检索有粗粒度和细粒度检索两种方法。基于粗粒度的跨模态检索只考虑了图像的全局特征，无法较好捕捉图像的局部信息。而基于细粒度的跨模态检索当前主要存在以下两个问题：

第一，未考虑细粒度级别语义上的非单一对应性，即在文本和图像的匹配中存在一个单词对应图像的多个区域，或是一个视觉区域对应多个单词的情况。

第二，现在广泛应用的对不同模态特征直接使用余弦距离计算相似度的方法，不能自适应地捕捉特征表示的显著方面，预测特征相似度的方法依然有可以改进的空间。

不难发现，现有的跨模态检索方法对文本和图像的复杂语义信息不能很好地捕捉和匹配，导致检索结果的准确性和稳定性难以满足实际需求。

因此，如何提供一种更加精确、稳定的图文跨模态检索方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于混合粒度匹配的图文跨模态检索方法，该方法有效解决了现有的跨模态检索方法对文本和图像的复杂语义信息不能很好地捕捉和匹配，导致检索结果的准确性和稳定性难以满足实际需求的问题。

为了实现上述目的，本发明采用如下技术方案：

一种基于混合粒度匹配的图文跨模态检索方法，该方法包括：

构建数据库：构建样本数据库，样本数据库中的样本数据包含成对的图像和文本，并将所述样本数据库中的样本数据划分为训练集、验证集和测试集；

提取文本：将所述训练集中的文本输入预先构建的文本编码模型进行文本序列编码，得到文本特征；

提取图像：将所述训练集中的图片输入预训练的图像特征提取模型，提取得到图像区域特征；

构建模型：构建跨模态匹配模型，并分别将所述文本特征和所述图像区域特征输入所述跨模态匹配模型进行训练，输出匹配分数；

验证模型：通过所述验证集对训练好的所述跨模态匹配模型进行验证，并提取最优模型；

评估模型：通过所述测试集对所述最优模型进行测试，并对所述最优模型的检索精度进行评估；

图文检索：利用测试和评估后的最优模型进行图文跨模态检索。

本发明中图像特征提取模型具体采用预训练的Faster RCNN提取图片中的显著区域特征，文本编码模型使用门控循环神经网络对文本序列进行编码。上述构建的跨模态匹配模型可以计算图像与文本间的相似度，进而实现图文跨模态检索。

进一步地，所述验证模型步骤执行之前，还包括：

优化模型：计算跨模态匹配模型训练过程的损失，并对所述文本编码模型和所述跨模态匹配模型进行优化。

更进一步地，所述跨模态匹配模型训练过程的损失通过Triplet Loss(即三元组损失函数)计算得到，计算公式为：

式中，m为预设的三元组损失函数的边界值，S(V，T)为匹配的图像和文本的相似度分数，S(V，T′)和S(V′，T)分别为图像到文本方向和文本到图像方向的不匹配的图像和文本的相似度分数，[·]₊表示取括号内的值与0之间的最大值，V为图像特征，T为与之匹配的文本特征，T′表示与V不匹配的文本特征，V′表示与T不匹配的图像特征。

进一步地，所述跨模态匹配模型包括图像多跳图神经网络、文本多跳图神经网络、跨模态注意力机制、视觉侧近邻信息敏感匹配模块以及文本侧近邻信息敏感匹配模块；

所述图像多跳图神经网络的输入端与所述图像特征提取模型连接，所述文本多跳图神经网络的输入端与所述文本编码模型连接，所述图像多跳图神经网络的输出端和所述文本多跳图神经网络的输出端均与所述跨模态注意力机制的输入端连接，所述跨模态注意力机制的输出端分别与所述视觉侧近邻信息敏感匹配模块和所述文本侧近邻信息敏感匹配模块连接。

更进一步地，所述构建模型步骤中，对所述跨模态匹配模型进行训练的过程，具体包括：

将所述图像区域特征输入所述图像多跳图神经网络，获得相应的图像混合粒度表达，并将所述文本特征输入所述文本多跳图神经网络，获得相应的文本混合粒度表达；

通过所述跨模态注意力机制将所述图像混合粒度表达和所述文本混合粒度表达分别映射到对方的空间，得到图像映射表示和文本映射表示；

将所述图像区域特征和所述文本映射表示输入所述视觉侧近邻信息敏感匹配模块，计算得到视觉侧匹配分数，并将所述文本特征和所述图像映射表示输入所述文本侧近邻信息敏感匹配模块，计算得到文本侧匹配分数；

将所述视觉侧匹配分数和所述文本侧匹配分数相加，得到最终的匹配分数。

本发明中跨模态注意力机制采用如下公式所示的注意力机制进行两个模态特征信息的互相映射，将异构的信息映射到相同的特征空间上，以方便下一步匹配。

具体地，所述图像映射表示的计算公式为：

式中，V^*为图像映射表示，

为图像多跳图神经网络输出的图像混合粒度表达，M为注意力映射矩阵；

所述文本映射表示的计算公式为：

式中，T^*为文本映射表示，

为文本多跳图神经网络输出的文本混合粒度表达，M^T为注意力映射矩阵的转置。

更进一步地，所述注意力映射矩阵具体为：

式中，M为注意力映射矩阵，

为文本多跳图神经网络输出的文本混合粒度表达，

为图像多跳图神经网络输出的图像混合粒度表达，W_t和W_v分别为线性映射矩阵，d为文本多跳图神经网络和图像多跳图神经网络输出的文本混合粒度表达和图像混合粒度表达的维度。

本发明通过近邻信息敏感匹配模块代替原来大部分方法中所使用的直接采用余弦距离计算相似度的方式，使得语义相似度的计算更加灵活和准确。

进一步地，所述图文检索步骤，具体包括：

将待查询的图片或文本分别进行特征提取后输入测试和评估后的最优模型，输出另一模态对应的文本或图片的匹配分数，例如输入待查询信息为图片，则候选为文本数据库，查询得到与所有文本的匹配分数；

将得到的文本或图片的匹配分数按照从大到小的顺序进行排序，并将文本或图片对应的原始内容和匹配分数按照排序顺序输出，得到检索结果。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于混合粒度匹配的图文跨模态检索方法，该方法利用多跳图神经网络对不同模态特征中混合粒度的语义信息进行捕捉，从而实现混合粒度的跨模态匹配。同时，该方法采用近邻信息敏感匹配模块代替传统方法中直接采用余弦距离计算相似度的方式，匹配分数的预测过程更加灵活、准确，进而显著提高了跨模态检索方法的精确度和稳定性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种基于混合粒度匹配的图文跨模态检索方法的实现流程示意图；

图2为本发明实施例中跨模态匹配部分的实现原理示意图；

图3为本发明实施例中多跳图神经网络的网络结构示意图；

图4为本发明实施例中跨模态检索的整体实现原理示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见附图1，本发明实施例公开了一种基于混合粒度匹配的图文跨模态检索方法，该方法包括：

S1：构建数据库：构建样本数据库，并将样本数据库中的样本数据划分为训练集、验证集和测试集。

用于训练和评估的多模态数据集包含成对的图像和文本，本实施例将数据集划分为训练集、验证集和测试集三部分。

S2：提取文本：将训练集中的文本输入预先构建的文本编码模型进行文本序列编码，得到文本特征。

本实施例使用NLTK(Natural Language Toolkit，自然语言处理工具包)对文本进行分词，并保存得到的token(即文本特征)。

S3：提取图像：将训练集中的图片输入预训练的图像特征提取模型，提取得到图像区域特征。

本实施例对图像特征提取模型在MS-COCO数据集上进行预训练，图像特征提取模型采用预训练的Faster RCNN提取图片中的显著区域特征。

S4：构建模型：构建跨模态匹配模型，并分别将文本特征和图像区域特征输入跨模态匹配模型进行训练，输出匹配分数。

参见附图2，跨模态匹配模型主要由图像多跳图神经网络、文本多跳图神经网络、跨模态注意力机制、视觉侧近邻信息敏感匹配模块以及文本侧近邻信息匹配模块组成。

其中，图像多跳图神经网络和文本多跳图神经网络采用相同的网络结构，具体网络结构如附图3所示，但两个模态的多跳图神经网络参数不同。图3中A为邻接矩阵，由各图节点特征自身做点积运算得到；A¹与A²分别是临接矩阵A的1次幂和2次幂，为多跳图神经网络通过图示方式提取构建的视觉图和文本图在不同纬度下的信息。W₁和W₂分别是不同跳数下的参数矩阵。最后采用拼接的方式将两跳得到的特征组合，得到具有混合粒度的上下文信息。

跨模态注意力机制采用如下公式所示的注意力机制进行两个模态特征信息的互相映射，将异构的信息映射到相同的特征空间上以方便下一步匹配。

其中，V^*为图像映射表示，

表示图像多跳图神经网络输出的图像特征，T^*为文本映射表示，

表示文本多跳图神经网络输出的文本特征。M为注意力映射矩阵，M^T为注意力映射矩阵的转置，W_t和W_v分别是线性映射矩阵，d表示多跳图神经网络输出的文本和图像特征的维度。

本实施例通过两个近邻信息敏感匹配模块代替原来大部分方法中所使用的直接采用余弦距离计算相似度的方式，使得语义相似度的计算更加灵活和准确，近邻信息敏感匹配模块首先将两个模态的特征分段为32个块，然后进行对应块的预先距离计算得到分数向量，最后将得到的分数向量通过一个两层的多层线性感知机并进行平均，得到最终的匹配分数。

S5：验证模型：通过验证集对训练好的跨模态匹配模型进行验证，并提取最优模型。迭代进行S2至S4，每隔500步迭代在验证集上进行一次测试，并保留表现最好的模型。

S6：评估模型：通过测试集对最优模型进行测试，并对最优模型的检索精度进行评估。

具体地，将预处理好的测试集输入训练得到的最优模型，测试同时评估文本到图片和图片到文本两个方向的检索精度。比较查询得到的结果和真实标注的结果的差异，并计算召回率作为模型的评估指标。

S7：图文检索：利用测试和评估后的最优模型进行图文跨模态检索。

更优地，上述S5执行之前，还包括：

S8：优化模型：计算跨模态匹配模型训练过程的损失，并对文本编码模型和跨模态匹配模型进行优化。具体地，采用Triplet Loss计算损失，并通过梯度下降对文本编码模型和跨模态匹配模型进行优化。

本实施例中跨模态匹配模型的训练采用Triplet Loss进行监督，公式如下：

其中，m是预设的Triplet Loss的边界值，S(V，T)表示匹配的图像和文本的相似度分数，S(V，T′)和S(V′，T)表示图像到文本方向和文本到图像方向的不匹配的图像和文本的相似度分数，[·]₊表示取括号内的值与0之间的最大值，V为图像特征，T为与之匹配的文本特征，T′表示与V不匹配的文本特征，V′表示与T不匹配的图像特征。

参见附图4，本实施例中整个跨模态检索框架主要由两大部分组成，一部分是跨模态匹配部分，该部分主要由图像特征提取模型、文本编码模型以及跨模态匹配模型组成，另一部分是后处理部分，整个跨模态检索框架通过计算图像与文本间的相似度来实现图文跨模态检索。

在模型训练阶段，每次随机将预处理好的训练集中若干个图片-文本对作为一批分两路输入跨模态匹配部分，对图片采用预训练的图像特征提取模型提取图像区域特征，文本采用文本编码模型转为文本特征，将得到的图像区域特征和文本特征输入跨模态匹配模型，经过模型输出得到匹配分数。

在图文检索阶段，首先，输入待检索查询的图片或文本，将其与样本数据库中对应另一模态的所有样本数据分别配对，经过上述跨模态匹配部分进行相似度分数(即匹配分数)的计算，如输入查询为图片，则候选为文本数据库，得到查询与所有文本的匹配分数。

然后，将得到的所有匹配分数输入到后处理部分中，后处理部分对匹配分数从大到小进行排序，并直接输出其前若干条结果的原始内容及其匹配分数，即检索结果，实现图文跨模态检索。

下面通过一个具体的实例详细说明上述方法的实现流程：

本实施例使用的数据集包含150000个图片-文本数据对，每一对图片-文本数据包含一张图片以及一条与其相匹配的文本。基于如附图2所示的方案结构，包括以下步骤：

第一步：在MS-COCO数据集上预训练图像特征提取模型Faster RCNN。

第二步：使用NLTK工具包对文本进行分词并保存得到文本token。

第三步：将数据集划分为训练集、验证集和测试集，其中训练集包含140000个图片-文本对，验证集和测试集分别包含5000个图片-文本对。

第四步：将文本token输入文本编码模型，生成文本的特征表示T，并使用预训练的图像特征提取模型对图片进行提取得到图像区域特征V。

第五步：分别将提取得到的图像区域特征和文本特征输入各自的多跳图神经网络，得到图像和文本的混合粒度表达

和

。

第六步：使用跨模态注意力机制将图像和文本的混合粒度表达

和

分别映射到对方的空间，分别得到图像和文本的映射表示V^*和T^*。

第七步：将图像基于每个区域的混合粒度表达特征

和文本的映射表示T输入视觉侧近邻信息敏感匹配模块，文本的混合粒度表达

和图像映射表示V^*输入文本侧近邻信息敏感匹配模块，分别计算得到相应的匹配分数。将两个分支的匹配分数相加作为最终的匹配分数。

第八步：在训练中，采用Triplet Loss计算损失，并通过梯度下降对文本编码模型和跨模态匹配模型进行优化。选择验证集上表现最好的模型。

第九步：在测试中，使用预处理好的测试集数据输入选择的最优模型，同时在文本到图片和图片到文本两个方向上进行评估，使用召回率作为模型评价指标。

第十步：将检索框架按上述第五步部署，并设定最大检索结果数为10。输入图片，框架会输出数据库中与之最匹配的前10条文本及其匹配分数；输入文本，框架会输出数据库中与之最匹配的前10张图片及其匹配分数。

不难发现，本实施例提供的基于混合粒度匹配的图文跨模态检索方法，与现有技术相比，具有如下优点：

1、利用多跳图神经网络对不同模态特征中的混合粒度的语义信息进行捕捉，从而实现混合粒度的跨模态匹配。

2、采用新的更为灵活的分数预测方式对匹配分数进行预测，即采用近邻信息敏感匹配模块代替传统方法中直接采用余弦距离计算相似度的方式，显著提高了跨模态检索方法的精确度和稳定性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于混合粒度匹配的图文跨模态检索方法，其特征在于，包括：

构建数据库：构建样本数据库，并将所述样本数据库中的样本数据划分为训练集、验证集和测试集；

构建模型：构建跨模态匹配模型，并分别将所述文本特征和所述图像区域特征输入所述跨模态匹配模型进行训练，输出匹配分数；所述跨模态匹配模型包括图像多跳图神经网络、文本多跳图神经网络、跨模态注意力机制、视觉侧近邻信息敏感匹配模块以及文本侧近邻信息敏感匹配模块；

所述图像多跳图神经网络的输入端与所述图像特征提取模型连接，所述文本多跳图神经网络的输入端与所述文本编码模型连接，所述图像多跳图神经网络的输出端和所述文本多跳图神经网络的输出端均与所述跨模态注意力机制的输入端连接，所述跨模态注意力机制的输出端分别与所述视觉侧近邻信息敏感匹配模块和所述文本侧近邻信息敏感匹配模块连接；

所述构建模型步骤中，将所述文本特征和所述图像区域特征输入所述跨模态匹配模型进行训练，输出匹配分数的过程具体包括：

将所述视觉侧匹配分数和所述文本侧匹配分数相加，得到最终的匹配分数；

2.根据权利要求1所述的一种基于混合粒度匹配的图文跨模态检索方法，其特征在于，所述验证模型步骤执行之前，还包括：

3.根据权利要求2所述的一种基于混合粒度匹配的图文跨模态检索方法，其特征在于，所述跨模态匹配模型训练过程的损失通过三元组损失函数计算得到，计算公式为：

式中，m为预设的三元组损失函数的边界值，S(V,T)为匹配的图像和文本的相似度分数，S(V,T')和S(V',T)分别为图像到文本方向和文本到图像方向的不匹配的图像和文本的相似度分数，[·]₊表示取括号内的值与0之间的最大值，V为图像特征，T为与之匹配的文本特征，T'表示与V不匹配的文本特征，V'表示与T不匹配的图像特征。

4.根据权利要求1所述的一种基于混合粒度匹配的图文跨模态检索方法，其特征在于，所述图像映射表示的计算公式为：

式中，V^*为图像映射表示，

所述文本映射表示的计算公式为：

式中，T^*为文本映射表示，

5.根据权利要求4所述的一种基于混合粒度匹配的图文跨模态检索方法，其特征在于，所述注意力映射矩阵具体为：

式中，M为注意力映射矩阵，

为文本多跳图神经网络输出的文本混合粒度表达，

6.根据权利要求1所述的一种基于混合粒度匹配的图文跨模态检索方法，其特征在于，所述图文检索步骤，具体包括：

将待查询的图片或文本分别进行特征提取后输入测试和评估后的最优模型，输出另一模态对应的文本或图片的匹配分数；