CN115344736A

CN115344736A - 一种渐进式的图像文本匹配方法

Info

Publication number: CN115344736A
Application number: CN202210968167.1A
Authority: CN
Inventors: 杨阳; 宾燚; 李灏轩; 韩孟群
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2022-11-15

Abstract

本发明公开了一种渐进式的图文匹配方法，考虑到现有方法中，基于模态内交互的方法分别独立的编码图像与文本特征，致使在检索时十分高效，但由于缺乏足够的模态间交互，而性能不甚理想；而基于模态间交互的方法，通过大量的模态间交互，达到了优秀的检索性能，但也正是因为此，造成了检索延迟，而人类在进行图文检索的直觉一般是，先是粗略的对检索样本进行过滤，将很不相关的样本剔除，接着在候选集的基础上再进行更精确的匹配，最终寻找到匹配项，以这样的人类直觉为引导方向，将基于模态内和基于模态间的方法以渐近的方式相结合，最终实现本发明所提出的图文匹配方法。

Description

一种渐进式的图像文本匹配方法

技术领域

本发明属于视觉与文本匹配技术领域，更为具体地讲，是一种渐进式的图像文本匹配方法。

背景技术

图像文本匹配任务是视觉与文本领域中一个基本但十分关键且具有挑战性的任务，其目标为在给定的模态查询中检索出精确的另一个模态匹配，即以图搜文，以文搜图。

现有的图像文本匹配方法，可以根据模态交互的不同，分为基于模态内交互与基于模态间交互。基于模态内交互的方法采用了独立的图像和文本编码器来理解和探索每个模态内的语义线索。现有的工作通常先将图像和文本转化为场景图，然后再使用图卷积网络来进行模态内交互，或者直接采用最近十分流行且有效的自注意力机制来得出相应模态的最终表示。但这样的模态内交互框架由于缺乏模态间的信息交互，导致最终性能不甚理想。因此，基于模态间的方法被提出，其通常采用一个有着大量模态间交互操作的深度网络，将图像和文本作为输入，全面的去探索它们之间的相互作用，实现效果更加优秀的图像文本匹配。

基于模态内交互的方法可以离线提取候选者的表征，这使得它十分高效，但由于缺乏丰富的模态间的交互，所以性能不甚理想，而基于模态间的方法，虽然因为大量的模态间交互操作，使得性能令人印象深刻，但也正是因为此，大大的增加了推理过程中的计算成本，最终导致了高检索延迟。

发明内容

本发明的目的在于克服现有技术的不足，提供了一种渐进式的图像文本匹配方法。其在大量的数据上进行图像文本匹配时，会首先过滤掉一些很不相关的样本，接着，再在过滤后剩下的候选集上进行更精确更细致的匹配。

为实现上述发明目的，本发明一种渐进式的图像文本匹配方法，其特征在于，包括以下步骤：

(1)、建立检索数据库；

选取一张待检索图像I，将包含有图像I匹配文本的所有文本组成文本集合，最后将图像I及对应文本集合作为检索数据库；

(2)、提取图像文本特征；

(2.1)、提取图像特征；

采用预训练好的Faster-RCNN目标检测模型对图像I进行图像区域特征提取，并为每一个图像区域进行置信度打分，然后根据检测置信度得分，选择得分最高的前m个图像区域作为图像特征；

(2.2)、提取文本特征；

采用预训练好的BERT(基于Transformer的双向编码器)模型对检索文本库中的所有文本进行特征提取，提取文本中每个单词的特征表示，从而构成文本单词特征；

(2.3)、图像文本特征的映射；

采用全连接层将图像特征和每一个文本特征映射到同一个维度空间，得到映射后的图像特征V＝{v_i|v₁,v₂,…,v_m}与每一个文本的特征

其中，v_i表示第i个图像区域的特征，

表示第t个文本中第j个单词的特征表示，n表示文本中的单词数量；

(2)、构建候选文本库

(2.1)、设置多头自注意力层中每个单头自注意力模块的模型；

其中，Q,K,P表示注意力操作中的向量，上标T表示转置，d表示Q,K的维度大小；

(2.2)、将图像特征V和文本特征W^t分别输入至多头自注意力层，通过将多个单头自注意力模块的输出拼接，得到完整特征MH(X)：

MH(X)＝[H₁,H₂,…,H_l,…,H_h]

H_l＝Attention(XW_l ^Q,XW_l ^K,XW_l ^P)

其中，X表示输入的图像特征或文本特征，H_l表示第l个单头自注意力模块的输出，h表示单头自注意力模块个数，W_l ^Q,W_l ^K,W_l ^P表示待学习参数；

(2.3)、利用前馈全连接层对特征MH(X)进行非线性映射，得到特征FFN(MH(X))：

FFN(MH(X))＝σ(MH(X)W₁+b₁)W₂+b₂

其中，b₁,b₂为常数，W₁,W₂为待学习参数，σ(·)为sigmoid函数；

(2.4)、图像特征和文本特征通过步骤(2.2)-(2.3)的处理后，得到图像特征

与文本特征

接着再通过平均池化操作得到图像特征的整体语义表示c_v与文本特征的整体语义表示

其中，

为

中第i个区域特征，

为

中第j个单词特征；

(2.5)、计算图像特征

与每一个文本特征

的整体语义表示的余弦相似度：

其中，S_t表示图像特征

与第t个文本特征

的整体语义表示的余弦相似度，||·||表示求L2范数，上标T表示转置；

(2.6)、将所有的相似度按从大到小排列，选取前K个相似度最大对应的文本构成候选文本库

(3)、精确匹配；

(3.1)、位置信息与短语级语义的捕捉；

找出候选文本库

中各个候选文本对应的原始文本特征，其中，第

个原始文本特征记为

使用全连接层与图像区域所处位置信息为图像特征V添加了空间位置信息，再使用卷积网络为原始文本特征

捕捉了短语级信息，得到了加强后的图像文本特征

(3.2)、交互式引导单元；

(3.2.1)、利用全局引导单元引导图像特征捕捉到图像与文本间的全局语义对应信息；

对加强后的文本特征

进行平均池化操作，得到文本全局特征

其中，

为第

个文本

中第j个单词特征；

使用全连接层获取

中每一个区域特征

的全局引导方向d_i，再通过d_i进行缩放来引导局部视觉表征

其中，⊙为矩阵点积，L₂(·)归一化，W_g为待学习参数，b_g为常数；

(3.2.2)、利用局部引导单元引导图像特征捕捉到图像与文本间的局部语义对应信息；

通过交叉注意力机制聚集单词表征来获取局部引导信息

其中，s_ij为图像中第i个区域与文本中第j个单词的余弦相似度，λ为超参数；

通过全连接层对局部引导信息

进行投影，得到相应的缩放向量γ_i和移位向量β_i：

其中，FC_γ(·)与FC_β(·)为两个全连接层；

最后，通过前馈全连接层和残差连接来完成图像区域的引导：

其中，

表示第i个区域引导后的图像特征，FFN(·)表示前馈全连接层。

(3.2.3)完成匹配；

将每个区域进行局部与全局引导的结果求和，其中，第i个区域引导后求和得：

对各区域求和后的特征进行平均池化操作，得到图像全局表示V_e；

计算候选文本库中的所有文本进行相似度S_e；

最后选择相似度最大的文本作为匹配结果。

本发明的发明目的是这样实现的：

本发明提出一种渐进式的图文匹配方法，考虑到现有方法中，基于模态内交互的方法分别独立的编码图像与文本特征，致使在检索时十分高效，但由于缺乏足够的模态间交互，而性能不甚理想；而基于模态间交互的方法，通过大量的模态间交互，达到了优秀的检索性能，但也正是因为此，造成了检索延迟，而人类在进行图文检索的直觉一般是，先是粗略的对检索样本进行过滤，将很不相关的样本剔除，接着在候选集的基础上再进行更精确的匹配，最终寻找到匹配项，以这样的人类直觉为引导方向，将基于模态内和基于模态间的方法以渐近的方式相结合，最终实现本发明所提出的图文匹配方法。

同时，本发明一种渐进式的图像文本匹配方法还具有以下有益效果：

(1)、现有的图像文本匹配方法都是单一的基于模态内交互或者单一的基于模态间交互，其虽各有优点，但也同时具有缺点。前者十分高效，但因缺少丰富的模态间的信息交互，导致性能不甚理想。后者性能优秀，但在推理过程中却存在效率低下的问题。本发明将粗略过滤器和精确匹配器以渐近的方式相结合，以实现人类直觉般的匹配，其在保持高性能的同时，依旧高效。

(2)、本发明通过渐近的方式结合了所提出的粗略过滤器与精确匹配器，而这两者则分别属于基于模态内与基于模态间的方法。前者只进行模态内交互操作，主要探索图像文本的浅显表征，而后者则有着大量的模态间交互操作，能够探索到图像文本间的细微表征。这样的特点也符合图文检索时的人类直觉，粗略过滤时，为了快速，只关注比较浅显的特征，而在精确匹配时，为了找到匹配项，会关注更多的细微关系与特征。所以本专利所提出方法在特征探索层面上也符合人类直觉。

附图说明

图1是本发明一种渐进式的图像文本匹配方法流程图；

图2是交互式引导单元示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明一种渐进式的图像文本匹配方法流程图。

在本实施例中，如图1所示，本发明一种渐进式的图像文本匹配方法，可以通过以图搜文或以文搜图的方式进行图像文本匹配，其匹配的原理过程一致，下面我们以图搜文为例进行分析说明，具体包括以下步骤：

S1、建立检索数据库；

S2、提取图像文本特征；

S2.1、提取图像特征；

采用预训练好的Faster-RCNN目标检测模型对图像I进行图像区域特征提取，并为每一个图像区域进行置信度打分，然后根据检测置信度得分，选择得分最高的前m＝36个图像区域作为图像特征；

S2.2、提取文本特征；

S2.3、图像文本特征的映射；

采用全连接层将图像特征和每一个文本特征映射到同一个维度空间，维度大小为2048，得到映射后的图像特征V＝{v_i|v₁,v₂,…,v_m}与每一个文本的特征

其中，v_i表示第i个图像区域的特征，

S2、构建候选文本库

S2.1、为了实现人类直觉般的快速过滤无关样本，本实施例采用了自注意力机制的粗滤过滤器模块来进行筛选过滤，设置多头自注意力层中每个单头自注意力模块的模型为：

S2.2、将图像特征V和文本特征W^t分别输入至多头自注意力层，通过将多个单头自注意力模块的输出拼接，得到完整特征MH(X)：

MH(X)＝[H₁,H₂,…,H_l,…,H_h]

H_l＝Attention(XW_l ^Q,XW_l ^K,XW_l ^P)

其中，X表示输入的图像特征或文本特征，H_l表示第l个单头自注意力模块的输出，h表示单头自注意力模块个数，具体为16，W_l ^Q,W_l ^K,W_l ^P表示待学习参数；

S2.3、利用前馈全连接层对特征MH(X)进行非线性映射，得到特征FFN(MH(X))：

FFN(MH(X))＝σ(MH(X)W₁+b₁)W₂+b₂

S2.4、图像特征和文本特征通过步骤S2.2-S2.3的处理后，得到图像特征

与文本特征

其中，

为

中第i个区域特征，

为

中第j个单词特征；

S2.5、计算图像特征

与每一个文本特征

的整体语义表示的余弦相似度：

其中，S_t表示图像特征

与第t个文本特征

S2.6、将所有的相似度按从大到小排列，选取前K个相似度最大对应的文本构成候选文本库

S3、精确匹配；

经过步骤S2的粗略过滤之后，在候选文本库上采用具有丰富模态间交互的引导单元进行类似人类直觉的更进一步的精确匹配，具体过程如下：

S3.1、位置信息与短语级语义的捕捉；

找出候选文本库

中各个候选文本对应的原始文本特征，其中，第

个原始文本特征记为

捕捉了短语级信息，得到了加强后的图像文本特征

S3.2、交互式引导单元；

将图像文本特征传入交互式引导单元，这里所采用的有两种交互式引导单元，即局部引导单元与全局引导单元，两个引导单元并行排列，再通过堆叠的方式进行深层次的信息探索与语义对齐，具体引导过程如下：

S3.2.1、如图2(a)所示，利用全局引导单元引导图像特征捕捉到图像与文本间的全局语义对应信息；

对加强后的文本特征

进行平均池化操作，得到文本全局特征

其中，

为第

个文本

中第j个单词特征；

使用全连接层获取

中每一个区域特征

的全局引导方向d_i，再通过d_i进行缩放来引导局部视觉表征

S3.2.2、如图2(b)所示，利用局部引导单元引导图像特征捕捉到图像与文本间的局部语义对应信息；

通过交叉注意力机制聚集单词表征来获取局部引导信息

通过全连接层对局部引导信息

进行投影，得到相应的缩放向量γ_i和移位向量β_i：

其中，FC_γ(·)与FC_β(·)为两个全连接层；

其中，

表示第i个区域引导后的图像特征，FFN(·)表示前馈全连接层；

S3.2.3完成匹配；

如图1右下角所示，堆叠的交互式引导模块每一层的输入都是上一层局部与全局引导单元输出的加和，因此，将每个区域进行局部与全局引导的结果求和，其中，第i个区域引导后求和得：：

计算候选文本库中的所有文本进行相似度S_e；

最后选择相似度最大的文本作为匹配结果。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种渐进式的图像文本匹配方法，其特征在于，包括以下步骤：

(1)、建立检索数据库；

(2)、提取图像文本特征；

(2.1)、提取图像特征；

(2.2)、提取文本特征；

采用预训练好的BERT模型对检索文本库中的所有文本进行特征提取，提取文本中每个单词的特征表示，从而构成文本单词特征；

(2.3)、图像文本特征的映射；

其中，v_i表示第i个图像区域的特征，

(2)、构建候选文本库

MH(X)＝[H₁,H₂,…,H_l,…,H_h]

H_l＝Attention(XW_l ^Q,XW_l ^K,XW_l ^P)

FFN(MH(X))＝σ(MH(X)W₁+b₁)W₂+b₂

与文本特征

其中，

为

中第i个区域特征，

为

中第j个单词特征；

(2.5)、计算图像特征

与每一个文本特征

的整体语义表示的余弦相似度：

其中，S_t表示图像特征

与第t个文本特征

的整体语义表示的余弦相似度，·表示求L2范数，上标T表示转置；

(3)、精确匹配；

(3.1)、位置信息与短语级语义的捕捉；

找出候选文本库

中各个候选文本对应的原始文本特征，其中，第

个原始文本特征记为

捕捉了短语级信息，得到了加强后的图像文本特征

(3.2)、交互式引导单元；

对加强后的文本特征

进行平均池化操作，得到文本全局特征

其中，

为第

个文本

中第j个单词特征；

使用全连接层获取

中每一个区域特征

的全局引导方向d_i，再通过d_i进行缩放来引导局部视觉表征

通过交叉注意力机制聚集单词表征来获取局部引导信息

通过全连接层对局部引导信息

进行投影，得到相应的缩放向量γ_i和移位向量β_i：

其中，FC_γ(·)与FC_β(·)为两个全连接层；

其中，

(3.2.3)完成匹配；

计算候选文本库中的所有文本进行相似度S_e；

最后选择相似度最大的文本作为匹配结果。