CN111026894B

CN111026894B - 基于可信度自适应匹配网络的跨模态图像文本检索方法

Info

Publication number: CN111026894B
Application number: CN201911272473.6A
Authority: CN
Inventors: 丁贵广; 陈辉
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2021-11-26
Anticipated expiration: 2039-12-12
Also published as: CN111026894A

Abstract

本发明公开了基于可信度自适应匹配网络的跨模态图像文本检索方法，属于计算机多媒体领域，包括以下步骤：S1：给定图像‑文本数据集，进行数据准备，包括图像特征抽取以及文本的分词和id表示，S2：构建可信度自适应匹配网络模型，S3：模型在训练集上充分训练，S4：检索性能测试。该基于可信度自适应匹配网络的跨模态图像文本检索方法通过引入可信度评估可以有效解决传统的细粒度检索方法中的相似度估计偏差问题，获得了性能上的提升，在Flickr30k上，图像检索文本任务上最大可以提升1.7％(Recall@5)，文本检索图像任务上最大可以提升7.7％(Recall@5)，在MSCOCO上，图像检索文本可以最大提升1.3％，而在文本检索图像上可以提升2.8％。

Description

基于可信度自适应匹配网络的跨模态图像文本检索方法

技术领域

本发明涉及计算机多媒体领域，具体为基于可信度自适应匹配网络的跨模态图像文本检索方法。

背景技术

随着互联网和多媒体技术的快速发展，跨媒体数据以前所未有的速度增长，给人类行为研究带来了巨大的挑战和要求。跨模态图像-文本检索旨在挖掘图像和文本之间的潜在语义关联关系，有助于大规模跨模态数据的关联分析。但是由于图像和文本数据之间天然存在的异构鸿沟，使得跨模态信息检索变得极具挑战。

为了解决模态差异带来的异构鸿沟，目前的跨模态图像-文本检索技术通常采用信息嵌入技术来解决。具体来说，图像和文本首先各自表示为隐藏空间的向量特征，然后通过嵌入技术在一个共享的潜在语义空间中进行语义信息对齐，使得相似的图像和文本互相靠近，而不相似的图像文本互相分离。

为了将图像特征和文本在共享空间实现对齐匹配，目前的工作可以分为两种方法：一对一粗粒度匹配和多对多细粒度匹配。一对一匹配的核心思想是图像和文本可以看成是语义空间中的点，距离相近的点表示关联的图像和文本语义相似，而距离较远的点表示不相似。所以这种方式通常学习两个独立的向量来表示图像信息和文本信息，然后通过线性变换或者非线性变换使得两者在共享空间中进行匹配。但是这种方式忽略了语义特征表达的复杂性，一维向量不足以充分表示图像和文本的语义信息量，属于粗粒度匹配方法。另外一种方式是多对多细粒度匹配，它的原理是图像和文本是一种高层语义表达的载体，可以看成是许多底层语义的复杂组会，比如一段文本是由不同的词汇构成，每个词有不同的意思，单独的一个词可能意思不清楚，但是组合起来就能形成语义清楚的一句话；又比如图像是由不同的对象区域组成(对象区域指出现了有语义表达意义的实体的像素块)。基于这一原理，跨模态检索技术从细粒度特征匹配出发，实现了通过词和图像区域之间的关联匹配来实现图像和文本的特征匹配。

尽管目前的细粒度匹配方法取得了令人兴奋的进展，但是目前基于注意力模型的细粒度匹配模型只能将匹配的语义线索关联在一起。也就说是，目前的细粒度匹配模型是基于图像和文本中能够匹配的信息进行匹配的，而没有考虑到那些不能或者部分匹配的信息，而这种忽视造成了相似度估计的一种偏差。比如说明书附图图4所展示的例子，文本1和文本2都包含了图像的全部信息，即一个男人抱着一个婴儿，但是文本2还包含了图像不具备的语义“吃”，而这个信息在目前的匹配模型中并没有考虑到。

综合来看，目前的匹配模型还是在尽力挖掘可匹配信息来估计两者的相似度，对于那些无法匹配的信息，模型并没有加以重视，而这种不匹配信息对于相似度的估计是必不可少的，仍然需要进一步的研究。

为此，提出基于可信度自适应匹配网络的跨模态图像文本检索方法。

发明内容

本发明的目的在于提供基于可信度自适应匹配网络的跨模态图像文本检索方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：基于可信度自适应匹配网络的跨模态图像文本检索方法，包括以下步骤：

S1：给定图像-文本数据集，进行数据准备，包括图像特征抽取以及文本的分词和id表示，具体为以下内容：

图像特征表示：采用基于深度学习的对象检测模型Faster R-CNN来抽取图像信息；具体来说，将给定图像I输入到Faster R-CNN中，Faster R-CNN会自动检测图像中出现实体的区域，通过极大抑制法，抽取了36个区域特征，并通过线性变换得到图像特征表示，用V＝{v_i∈R^d|i∈[1，36]}表示，其中每个v_i都是一个1024维度的向量；为了便于下文描述，称V为图像的局部特征集，通过平均池化操作得到图像的全局特征，即

文本特征表示：采用双向门控循环单元(Bi-GRU)来抽取每个词的特征；给定含有m个词的文本，Bi-GRU可以从两个方向(前向和后向)得到每个词的特征，用

和

分别表示第j个词的前向特征和后向特征；然后将这两种特征平均得到最终的每个词的特征，用t_j来表示，则有

用大写T＝{t_j|j∈[1，m]，t_j∈R^d}表示词特征集合，其中每个t_j特征维度是1024；进一步地，将第一个词的后向特征和最后一个词的前向特征平均得到文本特征，即

S2：构建可信度自适应匹配网络模型，具体为以下内容：

本发明提出的基于可信度自适应匹配网络的跨模态特征匹配方法首先使用注意力模型捕捉词和图像区域的依赖关系，然后使用一种模态的全局信息去监督另外一种模态的局部信息，使得在做相似度估计的时候不遗漏不匹配的关键语义信息；不同于别的方法只用注意力模型来捕捉局部的细粒度关系，本发明的方法引入了可信度匹配网络来对这种局部关系的建模方式进行可信度的评价，使得最终的相似度估计能够考虑不配对的语义信息；此外，本发明的基于可信度的自适应匹配网络可以构建在不同的局部关系建模模型之上；这里，具体阐述两种：基于图像空间的可信度自适应匹配网络以及基于文本空间的可信度自适应匹配网络；

基于图像空间的可信度自适应匹配网络(如图2所示)：首先使用注意力模型得到局部关系；具体来说，从S1的跨模态特征表示方法中，得到了图像的区域特征集合V＝{v_i∈R^d|i∈[1，n]}以及文本的词特征集合{t_j|j∈[1，m]，t_j∈R^d}，利用cosine函数计算每个区域v_i和每个词t_j的关系，即s_ij＝cosine(v_i，t_j)；经过规范化后的关系系数为

可以给每个v_i计算得到文本上下文信息，

其中

接着，为每个v_i定义一个相关性得分，

使用文本的全局特征

来衡量每个v_i的可信度，并把可信度得分加权到相关性得分中来得到最终的相似性估计；v_i的可信度可以定义为

其中sigmoid是一个带有sigmoid激活函数的门控非线性层；则图像I和文本S的相似度可以为：

基于文本空间的可信度自适应匹配网络(如图3所示)；首先利用cosine函数计算每个区域v_i和每个词t_j的关系，即s_ij＝cosine(v_i，t_j)；经过规范化后的关系系数为

可以给每个t_j计算得到图像上下文信息，

其中

接着，为每个t_j定义一个相关性得分，

使用图像的全局特征

来衡量每个t_j的可信度，并把可信度得分加权到相关性得分中来得到最终的相似性估计；t_j的可信度可以定义为

S3：模型在训练集上充分训练，具体为以下内容：

初始化可信度自适应匹配网络所有可学参数，每次从训练集中随机采样一个128个图像文本对(实际操作时拿到的数据是图像的特征和经过id化后的文本组成的一对数据)，组成一个batch数据，输入到可信自适应匹配网络中得到一个128x128维的相似度评分矩阵，矩阵的每个元素表示图像和文本的相似度得分；然后使用基于最难负例的三元组损失函数(triplet loss)训练模型，损失函数中Δ是一个可调参数，默认设置为0.2；网络使用Adam作为优化器进行训练，Flickr30k上学习率设置为2e-4，训练15轮后衰减为2e-5，总共训练30轮；COCO上学习率设置为5e-4，训练10轮后衰减为5e-5，总共训练20轮；

S4：检索性能测试，具体为以下内容：

对于图像检索文本任务，首先构建一个文本库，然后给定一张图片作为测试样例，利用训练好的可信度自适应匹配网络从文本库中检索出相似度最高的10个文本，计算对应的召回率指标；为了测试的便利，保证每张图片在文本库中都有对应的匹配的文本；对于文本检索图像任务，构建图像库，给定一个文本，利用训练好的可信度自适应匹配网络从图像库中检索出相似度最高的10个图像，计算对应的召回率指标；同样，保证每个文本在图像库中都有对应的匹配图像。

优选的，在S3中，训练时通过最小化一种基于最难负例的三元组损失函数来优化模型参数，使得在共享的潜在语义空间中，相似的图像和文本距离小，而不相似的图像和文本距离大；给定配对图像I和文本S，首先在采样得到的batch中找到其各自的最难负例I^h和S^h，满足：

和

其中I′表示在采样得到的batch中的图片，S′表示在采样得到的batch中的文本，然后计算损失函数为：L(I，S)＝max(0，Δ-F(I，S)+F(I，S^h))+max(0，Δ-F(I，S)+F(I^h，S))，Δ控制正例的相似度比最难负例大的程度。

优选的，在S2中，基于不同的局部关系建模模型，对每一种局部关系进行可信度度量，并把度量结果加入到最终的相似度估计过程中，降低了估计偏差。

优选的，在S2中，基于图像空间的可信度自适应匹配网络首先通过计算机每个图像区域和每个词的关系，并通过注意力模型得到每个图像区域对应的文本上下文特征，接着计算每个图像区域特征和对应的文本上下文特征的相关性得分，此外，通过sigmoid门函数计算图像区域特征和文本全局特征的关系得到每个图像区域的可信度度量，最后将对可信度度量和相关性得分乘积并累加得到图像和文本的相似性估计。

优选的，在S2中，基于文本空间的可信度自适应匹配网络首先通过计算每个图像区域和每个词的关系，并通过注意力模型得到每个词对应的图像上下文特征，接着计算每个词特征和对应的图像上下文特征的相关性得分，此外，通过sigmoid门函数计算词特征和图像全局特征的关系得到每个词的可信度度量，最后将对可信度度量和相关性得分乘积并累加得到图像和文本的相似性估计。

优选的，基于图像空间的可信度自适应匹配网络与基于文本空间的可信度自适应匹配网络单独训练，测试时可以单独使用，也可以使用组合使用。

与现有技术相比，本发明的有益效果是：

本发明提出的基于可信度自适应匹配网络的跨模态检索方法通过引入可信度评估可以有效解决传统的细粒度检索方法中的相似度估计偏差问题。在目前常用的两个跨模态图像-文本检索数据集，Flickr30k和MS COCO获得了性能上的提升。采用召回率Recall@K来衡量检索模型的性能，在Flickr30k上，图像检索文本任务上最大可以提升1.7％(Recall@5)，文本检索图像任务上最大可以提升7.7％(Recall@5)，在MSCOCO上。图像检索文本可以最大提升1.3％，而在文本检索图像上可以提升2.8％。

附图说明

图1为本发明的整体流程图；

图2为本发明的基于图像空间的可信度自适应匹配网络图；

图3为本发明的基于文本空间的可信度自适应匹配网络图

图4为本发明的不匹配信息对相似度计算所造成的的偏差图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种技术方案：基于可信度自适应匹配网络的跨模态图像文本检索方法，包括以下步骤：

和

S2：构建可信度自适应匹配网络模型，具体为以下内容：

本发明提出的基于可信度自适应匹配网络的跨模态特征匹配方法首先使用注意力模型捕捉词和图像区域的依赖关系，然后使用一种模态的全局信息去监督另外一种模态的局部信息，使得在做相似度估计的时候不遗漏不匹配的关键语义信息；不同于别的方法只用注意力模型来捕捉局部的细粒度关系，本发明的方法引入了可信度匹配网络来对这种局部关系的建模方式进行可信度的评价，使得最终的相似度估计能够考虑不配对的语义信息；此外，本发明的基于可信度的自适应匹配网络可以构建在不同的局部关系建模模型之上；这里，具体阐述两种：基于图像空间的可信度自适应匹配网络以及基于文本空间的可信度自适应匹配网络，这两种网络单独训练，测试时可以单独使用，也可以使用组合使用；

基于图像空间的可信度自适应匹配网络(框架图见附图二)：首先使用注意力模型得到局部关系；具体来说，从S1的跨模态特征表示方法中，得到了图像的区域特征集合V＝{v_i∈R^d|i∈[1，n]}以及文本的词特征集合{t_j|j∈[1，m]，t_j∈R^d}，利用cosine函数计算每个区域v_i和每个词t_j的关系，即s_ij＝cosine(v_i，t_j)；经过规范化后的关系系数为

可以给每个v_i计算得到文本上下文信息，

其中

接着，为每个v_i定义一个相关性得分，

使用文本的全局特征

基于文本空间的可信度自适应匹配网络(框架图见附图三)；首先利用cosine函数计算每个区域v_i和每个词t_j的关系，即s_ij＝cosine(v_i，t_j)；经过规范化后的关系系数为

可以给每个t_j计算得到图像上下文信息，

其中

接着，为每个t_j定义一个相关性得分，

使用图像的全局特征

基于不同的局部关系建模模型，对每一种局部关系进行可信度度量，并把度量结果加入到最终的相似度估计过程中，降低了估计偏差；

基于图像空间的可信度自适应匹配网络首先通过计算机每个图像区域和每个词的关系，并通过注意力模型得到每个图像区域对应的文本上下文特征，接着计算每个图像区域特征和对应的文本上下文特征的相关性得分，此外，通过sigmoid门函数计算图像区域特征和文本全局特征的关系得到每个图像区域的可信度度量，最后将对可信度度量和相关性得分乘积并累加得到图像和文本的相似性估计；基于文本空间的可信度自适应匹配网络首先通过计算每个图像区域和每个词的关系，并通过注意力模型得到每个词对应的图像上下文特征，接着计算每个词特征和对应的图像上下文特征的相关性得分，此外，通过sigmoid门函数计算词特征和图像全局特征的关系得到每个词的可信度度量，最后将对可信度度量和相关性得分乘积并累加得到图像和文本的相似性估计；

S3：模型在训练集上充分训练，具体为以下内容：

训练时通过最小化一种基于最难负例的三元组损失函数来优化模型参数，使得在共享的潜在语义空间中，相似的图像和文本距离小，而不相似的图像和文本距离大；给定配对图像I和文本S，首先在采样得到的batch中找到其各自的最难负例Ih和Sh，满足：

和

其中I′表示在采样得到的batch中的图片，S′表示在采样得到的batch中的文本，然后计算损失函数为：L(I，S)＝max(0，Δ-F(I，S)+F(I，S^h))+max(0，Δ-F(I，S)+F(I^h，S))，Δ控制正例的相似度比最难负例大的程度；

S4：检索性能测试，具体为以下内容：

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定，本发明不受上述实施例的限制，在不脱离本发明精神和范围的前提下会有各种改进和变化，因此，这意味着在所附权利要求中包括属于本发明范围内的所有变化和修改。

Claims

1.基于可信度自适应匹配网络的跨模态图像文本检索方法，其特征在于，包括以下步骤：

文本特征表示：采用双向门控循环单元来抽取每个词的特征；给定含有m个词的文本，Bi-GRU可以从两个方向得到每个词的特征，用

和

S2：构建可信度自适应匹配网络模型，具体为以下内容：

提出的基于可信度自适应匹配网络的跨模态特征匹配方法首先使用注意力模型捕捉词和图像区域的依赖关系，然后使用一种模态的全局信息去监督另外一种模态的局部信息，使得在做相似度估计的时候不遗漏不匹配的关键语义信息；不同于别的方法只用注意力模型来捕捉局部的细粒度关系，该方法引入了可信度匹配网络来对这种局部关系的建模方式进行可信度的评价，使得最终的相似度估计能够考虑不配对的语义信息；此外，基于可信度的自适应匹配网络可以构建在不同的局部关系建模模型之上；这里，具体阐述两种：基于图像空间的可信度自适应匹配网络以及基于文本空间的可信度自适应匹配网络；

基于图像空间的可信度自适应匹配网络：首先使用注意力模型得到局部关系；具体来说，从S1的跨模态特征表示方法中，得到了图像的区域特征集合V＝{v_i∈R^d|i∈[1，n]}以及文本的词特征集合{t_j|j∈[1，m]，t_j∈R^d}，利用cosine函数计算每个区域v_i和每个词t_j的关系，即s_ij＝cosine(v_i，t_j)；经过规范化后的关系系数为

可以给每个v_i计算得到文本上下文信息，

其中

接着，为每个v_i定义一个相关性得分，

使用文本的全局特征

基于文本空间的可信度自适应匹配网络；首先利用cosine函数计算每个区域v_i和每个词t_j的关系，即s_ij＝cosine(v_i，t_j)；经过规范化后的关系系数为

可以给每个t_j计算得到图像上下文信息，

其中

接着，为每个t_j定义一个相关性得分，

使用图像的全局特征

S3：模型在训练集上充分训练，具体为以下内容：

初始化可信度自适应匹配网络所有可学参数，每次从训练集中随机采样一个128个图像文本对，组成一个batch数据，输入到可信自适应匹配网络中得到一个128x128维的相似度评分矩阵，矩阵的每个元素表示图像和文本的相似度得分；然后使用基于最难负例的三元组损失函数训练模型，损失函数中Δ是一个可调参数，默认设置为0.2；网络使用Adam作为优化器进行训练，Flickr30k上学习率设置为2e-4，训练15轮后衰减为2e-5，总共训练30轮；COCO上学习率设置为5e-4，训练10轮后衰减为5e-5，总共训练20轮；

S4：检索性能测试，具体为以下内容：

2.根据权利要求1所述的基于可信度自适应匹配网络的跨模态图像文本检索方法，其特征在于：在S3中，训练时通过最小化一种基于最难负例的三元组损失函数来优化模型参数，使得在共享的潜在语义空间中，相似的图像和文本距离小，而不相似的图像和文本距离大；给定配对图像I和文本S,首先在采样得到的batch中找到其各自的最难负例I^h和S^h，满足：

和

其中I’表示在采样得到的batch中的图片，S’表示在采样得到的batch中的文本，然后计算损失函数为：L(I，S)＝max(0，Δ-F(I，S)+F(I，S^h))+max(0，Δ-F(I，S)+F(I^h，S)),Δ控制正例的相似度比最难负例大的程度。

3.根据权利要求1所述的基于可信度自适应匹配网络的跨模态图像文本检索方法，其特征在于：在S2中，基于不同的局部关系建模模型，对每一种局部关系进行可信度度量，并把度量结果加入到最终的相似度估计过程中，降低了估计偏差。

4.根据权利要求1所述的基于可信度自适应匹配网络的跨模态图像文本检索方法，其特征在于：在S2中，基于图像空间的可信度自适应匹配网络首先通过计算每个图像区域和每个词的关系，并通过注意力模型得到每个图像区域对应的文本上下文特征，接着计算每个图像区域特征和对应的文本上下文特征的相关性得分，此外，通过sigmoid门函数计算图像区域特征和文本全局特征的关系得到每个图像区域的可信度度量，最后将对可信度度量和相关性得分乘积并累加得到图像和文本的相似性估计。

5.根据权利要求1所述的基于可信度自适应匹配网络的跨模态图像文本检索方法，其特征在于：在S2中，基于文本空间的可信度自适应匹配网络首先通过计算每个图像区域和每个词的关系，并通过注意力模型得到每个词对应的图像上下文特征，接着计算每个词特征和对应的图像上下文特征的相关性得分，此外，通过sigmoid门函数计算词特征和图像全局特征的关系得到每个词的可信度度量，最后将对可信度度量和相关性得分乘积并累加得到图像和文本的相似性估计。

6.根据权利要求1所述的基于可信度自适应匹配网络的跨模态图像文本检索方法，其特征在于：基于图像空间的可信度自适应匹配网络与基于文本空间的可信度自适应匹配网络单独训练，测试时可以单独使用或组合使用。