CN115344735A

CN115344735A - 一种层次化对齐的图像文本检索方法

Info

Publication number: CN115344735A
Application number: CN202210968147.4A
Authority: CN
Inventors: 杨阳; 宾燚; 李灏轩; 史文浩
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2022-11-15

Abstract

本发明公开了一种层次化对齐的图像文本检索方法，采用了统一的Transformer架构来提取与学习图像与文本特征，并且引入一个分层对齐策略，在Transformer的不同层次捕捉更多，更丰富的语义信息。因此图像文本均采用统一的Transformer模型，且层次性充分的利用了Transformer结构所得到的模态特征，所以最终通过统一的模型架构得到了兼容性更好的表征，完成了更好的语义对齐，实现图像文本检索。

Description

一种层次化对齐的图像文本检索方法

技术领域

本发明属于跨模态检索技术领域，更为具体地讲，是一种层次化对齐的图像文本检索方法。

背景技术

跨模态检索任务是多模态领域的基本任务和常见任务之一，其目标是通过一个模态的样本能够准确检索到另一个模态所对应的样本。这里研究最重要且最普遍的两种模态，即视觉信息与文本数据间的检索任务。

现有的跨模态检索方法，可以分为全局对齐方法与局部对齐方法。全局对齐方法是通过将图像与文本整体映射到一个统一的语义空间以进行度量来探索其相关性。通常使用CNN(Convolutional Neural Network)卷积神经网络来进行图像特征的提取，RNN(Recurrent Neural Network)循环神经网络来进行文本特征的提取。但是这样的方法忽略了图像区域与文本单词间的局部线索。因此，局部对齐方法被提出，其通过提取图像文本的局部特征来进行建模，以完成图像文本间的对齐。通常使用Faster RCNN(快速区域卷积神经网络)进行图像区域特征的提取，Bi-GRU(Bi-Gate Recurrent Unit)双向门控循环单元等RNN进行文本单词的提取。尽管局部对齐的跨模态检索方法能够有效的利用图像区域与文本单词间的细微线索，进一步完成更好的图像文本间的对齐。但无论是局部对齐，还是全局对齐，其在进行特征提取时，对于不同模态所采用的架构都是不相同的。即对于图像数据，采用具有多尺度，局部性和平移不变性等与图像相关的归纳偏置的卷积神经网络来进行特征信息的提取，而对于文本数据，则采用具有时序性等与语言相关的归纳偏置的循环神经网络来进行特征信息的提取。这样的特征提取方式虽然各自符合其所对应模态信息的特性，但在跨模态检索任务中，其关键在于对于公共空间的建模与度量。因此，不同的模型架构会造成两点不足，(1)不同的架构可能会引起不同的语义分布空间，使得最终学习到的表征在语义映射和相似性测量中不太兼容。(2)通过不同架构进行特征提取，无法进行全方面的，从浅入深的提取所需信息。捕捉不到不同语义层次的对应关系。

发明内容

本发明的目的在于克服现有技术的不足，提供一种层次化对齐的图像文本检索方法。具体为采用一个统一的结构，层次性充分的利用了Transformer(深度自注意力转换模型)结构所得到的模态特征，从而得到了兼容性更好的表征，完成了更好的语义对齐。

为实现上述发明目的，本发明一种层次化对齐的图像文本检索方法，其特征在于，包括以下步骤：

(1)、建立检索库；

选取一张待检索图像I，将包含有图像I匹配文本的所有文本T_t组成文本集合，最后将图像I及对应文本集合作为检索库，其中，t表示第t个文本；

(2)、提取图像文本特征；

(2.1)、提取图像特征；

将12个Transformer模块组成Swin-Transformer(移动窗口Transformer)模型，12个Transformer模块划分为低、中、高3个阶段，Swin-Transformer模型预训练完成后对图像I进行图像区域的特征提取，得到低、中、高3个阶段的特征输出图，分别记为V^low,V^middle,V^high，从而将分层特征V_h表示为：

V_h＝{V^low,V^middle,V^high}

其中，

表示低、中、高三个阶段所划分出的第k、第m、第g个图像区域的图像特征，K、M、G为不同阶段所划分出区域数量；

(2.2)、提取文本特征；

将12个Transformer模块组成BERT(基于Transformer的双向编码器)模型，12个Transformer模块划分为低、中、高3个阶段，BERT模型预训练完成后对所有文本进行文本特征提取，得到低、中、高3个阶段的文本特征T_t，分别记为W_t ^low,W_t ^middle,W_t ^high，从而将分层特征

表示为：

其中，l＝1,2,…,L，

表示第t个文本中低、中、高三个阶段所提取的第l个单词特征，L为第t个文本中单词数量；

(3)、层次化对齐；

(3.1)、计算第p个图像区对应第t个文本中第q个单词的交叉注意力权重S_pq：

其中，||·||表示L2范数操作；

泛指其中的一种特征；

泛指其中的一种特征；上标T表示转置；

(3.2)、基于注意力交叉权重，计算第p个图像区对应第t个文本中第q个单词的权重a_pq；

(3.3)、将第p个图像区对应第t个文本中所有单词按照权重求和，得到第p个图像区域对应的加权求和后单词特征a_p；

其中，

为S_pq的归一化值，λ为温度超参数；

(3.4)、计算第p个图像区的特征v_p与对应的加权求和后单词特征a_p的余弦相似度cos(v_p,a_p)；

(3.5)、将低、中、高三个阶段中同一阶段内的所有图像区域与对应的加权求和后单词特征的余弦相似度通过相加的方式得到各个阶段的相似度，分别记为S^low,S^middle,S^high

其中，S∈S^low,S^middle,S^high；

(3.6)、将各个阶段的相似度相加，作为图像I与第t个文本的检索值；

(4)、获取图像文本检索结果；

遍历检索文本库中所有的文本，获取图像I与每个文本的检索值，将所有检索值从大到小排列，再将排列第一的文本作为检索结果。

本发明一种层次化对齐的图像文本检索方法，采用了统一的Transformer架构来提取与学习图像与文本特征，并且引入一个分层对齐策略，在Transformer的不同层次捕捉更多，更丰富的语义信息。因此图像文本均采用统一的Transformer模型，且层次性充分的利用了Transformer结构所得到的模态特征，所以最终通过统一的模型架构得到了兼容性更好的表征，完成了更好的语义对齐，实现图像文本检索。

同时，本发明一种层次化对齐的图像文本检索方法还具有以下有益效果：

(1)、相较于原先的传统方法，本专利采用了统一的Transformer架构来提取与学习图像与文本特征。相同的模型架构，能够学习到在语义空间中更具兼容性的模态特征，实现更好的模态间语义对齐。

(2)、图像文本特征提取均采用相同的Transformer模型架构，所以本发明通过将模型架构层次化引入一个分层对齐策略，在Transformer的不同层次捕捉更多，更丰富的语义信息，以实现更优秀的模态间语义对齐。

附图说明

图1是本发明一种层次化对齐的图像文本检索方法流程图；

图2是Transformer模块的结构图；

图3是图像和文本特征进行数据降维实现了可视化示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明一种渐进式的图像文本匹配方法流程图。

在本实施例中，如图1所示，本发明一种层次化对齐的图像文本检索方法，可以通过以图像检索文本或以文本检索图像的方式进行图像文本检索，其检索的原理过程一致，下面我们以图像检索文本为例进行分析说明，具体包括以下步骤：

S1、建立检索库；

S2、提取图像文本特征；

S2.1、提取图像特征；

将12个Transformer模块组成Swin-Transformer(移动窗口Transformer)模型，12个Transformer模块划分为低、中、高3个阶段，Swin-Transformer(移动窗口Transformer)模型预训练完成后对图像I进行图像区域的特征提取，得到低、中、高3个阶段的特征输出图，分别记为V^low,V^middle,V^high，从而将分层特征V_h表示为：

V_h＝{V^low,V^middle,V^high}

其中，

S2.2、提取文本特征；

将12个Transformer模块组成BERT模型，12个Transformer模块划分为低、中、高3个阶段，BERT(基于Transformer的双向编码器)模型预训练完成后对所有文本进行文本特征提取，得到低、中、高3个阶段的文本特征T_t，分别记为W_t ^low,W_t ^middle,W_t ^high，从而将分层特征

表示为：

其中，l＝1,2,…,L，

在本实施例中，对于图像特征的提取，与之前传统的基于卷积神经网络的模型不同，受到最近视觉Transformer快速发展的启发，本实施例采用基于Transformer的架构来对图像特征进行学习与提取，并与文本架构形成互补统一的关系，得到兼容性更好的模态表征。具体来说，采用最近十分成功的Swin-Transformer模型作为图像骨干，其性能明显优于卷积神经网络，并在许多视觉任务中显示出了巨大的潜力。其通过滑动窗口的方式进行注意力的计算，使得计算复杂性与图像大小成线性关系，并通过构建分层的特征图实现多尺度信息的捕捉。

如图2所示，在每个Transformer模块中用基于滑动窗的自注意力机制取代标准的多头自注意力机制。具体来说，标准的Transformer实现了全局的自注意力，以探索一个查询标记和所有其他标记之间的关系，而这导致了相对于标记数量的平方计算复杂性。而由于图像的高分辨率，这使得它难以用于许多视觉应用。为了在视觉中有效地模拟自注意力过程，Swin-Transformer模型将图像以不重叠的方式分成几个窗口，只计算每个窗口内的多头自我注意，这样多头自注意力的计算复杂度降低。

为了捕捉更为丰富的模态信息。本专利采用图像与文本特征提取架构中多个阶段的输出特征图作为各自模态的分层表示。具体来说，Swin-Transformer模型通过补丁分割操作划分为四个阶段的模块，而由于第一阶段其大量标记所带来的计算成本，所以实施例只采用2，3，4阶段作为低，中，高三个层次的语义，以实现图像的多层次语义分割。在BERT(结构中类似，其具有与Swin-Transformer相同的层数，所以采用第4，10，12层的输出实现文本的多层次语义分割。

S3、层次化对齐；

为了实现更细粒度的语义对齐，本发明提出在不同层级的语义模态信息上进行交叉注意力操作，以显著提高跨模态检索性能。

S3.1、计算第p个图像区对应第t个文本中第q个单词的交叉注意力权重S_pq：

其中，||·||表示L2范数操作；

泛指其中的一种特征；

泛指其中的一种特征；上标T表示转置；

S3.2、基于注意力交叉权重，计算第p个图像区对应第t个文本中第q个单词的权重a_pq；

S3.3、将第p个图像区对应第t个文本中所有单词按照权重求和，得到第p个图像区域对应的加权求和后单词特征a_p；

其中，

为S_pq的归一化值，λ为温度超参数；

S3.4、计算第p个图像区的特征v_p与对应的加权求和后单词特征a_p的余弦相似度cos(v_p,a_p)；

S3.5、将低、中、高三个阶段中同一阶段内的所有图像区域与对应的加权求和后单词特征的余弦相似度通过相加的方式得到各个阶段的相似度，分别记为S^low,S^middle,S^high

其中，S∈S^low,S^middle,S^high；

S3.6、将各个阶段的相似度相加，作为图像I与第t个文本的检索值；

S4、获取图像文本检索结果；

综述，本发明所提出的层次化对齐的统一Transformer架构可以有效的学习不同模态数据的特征与公共语义空间，使得最终的表征在语义映射和相似性度量中更为兼容，进一步提升了跨模态检索任务的精度。为了评估模型的性能，本发明将层次化统一模型应用于常用数据集MSCOCO与Flickr 30K，两个数据集中都是每张图片有五个描述句子。本专利采用K处的召回率(Recall K)来作为评价指标。召回率衡量的是在列表前K个排名中，真实命中率的百分比。召回率越高表明性能越好。实验结果列在表1，2中，从实验结果可以看出本专利所提出的方法，在两个数据集中均优于所有的基线模型。这些结果证明了本专利提出的层次化对齐统一模型在跨模式检索任务中的优越性。可以观察到文本到图像检索的性能提升，与图像到文本检索相比，提升更大。这种现象主要是由于文本到图像检索的整体性能不如图像到文本检索，导致其数值较小，有更大的提升空间。

最终还通过t-SNE(t分布-随机近邻嵌入)方法对图像和文本特征进行数据降维实现了可视化，如图3所示，可以看到图像文本均采用Transformer架构的a和b，学到了类似的图像文本特征分布。而模型架构不同的c和d则表现出非常不同的分布模式。这些观察进一步支持了统一的结构，能够使编码器学习到更为兼容的表征分布。

表1.在MSCOCO数据集上的实验结果

表2.在Flickr 30K数据集上的实验结果

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种层次化对齐的图像文本检索方法，其特征在于，包括以下步骤：

(1)、建立检索库；

(2)、提取图像文本特征；

(2.1)、提取图像特征；

将12个Transformer模块组成Swin-Transformer模型，12个Transformer模块划分为低、中、高3个阶段，Swin-Transformer模型预训练完成后对图像I进行图像区域的特征提取，得到低、中、高3个阶段的特征输出图，分别记为V^low,V^middle,V^high，从而将分层特征V_h表示为：

V_h＝{V^low,V^middle,V^high}