CN112269892A

CN112269892A - 一种基于多模态多层次统一交互的短语定位识别方法

Info

Publication number: CN112269892A
Application number: CN202011127854.8A
Authority: CN
Inventors: 刘偲; 余天予; 惠天瑞; 廖越; 余志浩
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-10-11
Filing date: 2020-10-11
Publication date: 2021-01-26
Anticipated expiration: 2040-10-11
Also published as: CN112269892B

Abstract

本发明公开了一种基于多模态多层次统一交互的短语定位识别方法，包括：构建预训练机器阅读模型和预训练目标检测模型；获取图片和针对图片的文字说明；利用预训练机器阅读模型提取文字说明中各个短语基于上下文的文本特征；利用预训练目标检测模型提取图片中的多个图像候选位置，并对图像候选位置对应的低维特征进行优化处理；利用注意力算法模拟各个短语与各个图像候选位置之间的交互；基于交互结果计算各个短语与图像候选位置之间的特征相似度，并以特征相似度作为键值确定各个短语的定位决策结果；利用深度集合模型对各个短语的定位决策结果进行整合和正则化处理。本发明大大提高短语定位识别的精确度，且更具鲁棒性。

Description

一种基于多模态多层次统一交互的短语定位识别方法

技术领域

本发明涉及计算机视觉技术和深度学习技术领域，更具体的说是涉及一种基于多模态多层次统一交互的短语定位识别方法。

背景技术

多模态机器学习是指通过机器学习的方法实现处理和理解多源模态信息的能力，如图像、视频、音频、语义之间的多模态学习。现有技术中，图像和文字之间的交互仅仅单纯考虑了图像信息内部的交互或文字信息内部的交互，并没有将语言和图像信息之间的跨模态交互和多个短语的决策过程之间的彼此交互考虑进来，因此，现有技术中，在文字描述或者图像信息较为复杂时，无法准确找到输入短语在图像中的定位。

因此，如何提供一种你能够实现短语在图像中的定位识别的基于多模态多层次统一交互的短语定位识别算法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于多模态多层次统一交互的短语定位识别方法，将文本和图像信息之间的跨模态交互以及多个输入短语的定位决策之间的相互作用纳入了最终定位决策过程的考虑范围内，从而更好地应对复杂或高难度输入的情况，同时能够大大提高短语定位识别的精确度。

为了实现上述目的，本发明采用如下技术方案：

一种基于多模态多层次统一交互的短语定位识别方法，包括：

构建预训练机器阅读模型和预训练目标检测模型；

获取图片和针对所述图片的文字说明；

利用所述预训练机器阅读模型提取所述文字说明中各个短语基于上下文的文本特征；

利用所述预训练目标检测模型提取所述图片中的多个图像候选位置，并对所述图像候选位置对应的低维特征进行优化处理；

利用注意力算法模拟各个所述短语与各个所述图像候选位置之间的交互；

基于交互结果计算各个所述短语与所述图像候选位置之间的特征相似度，并以所述特征相似度作为键值确定各个所述短语的定位决策结果；

利用深度集合模型对各个所述短语的定位决策结果进行整合和正则化处理。

经由上述的技术方案可知，与现有技术相比，本发明具有以下有益效果：

首先，在文字信息部分，利用预训练机器阅读模型提取基于上下文的文本特征，从而能够高效地将文本信息映射到低维空间中并充分利用每个短语的上下文信息。

其次，在图像信息部分，利用预训练目标检测模型为图像提取出多个候选位置及其低维特征表示，再通过局部和全局注意力机制优化候选位置的低维特征，补全因为预训练模型不足导致缺失的特征信息，从而避免预训练目标检测模型的缺陷过多地影响到后续的决策过程。

再次，基于文字和图像这两个模态的信息，利用注意力算法模拟短语和图像候选位置之间的交互。利用注意力算法计算得到的注意力图，为每一个短语和每一个图像侯选位置生成了其在另一个模态对应的上下文信息，并利用这一上下文信息优化特征。

最后，本发明利用上一步的交互结果计算各个短语和图像候选位置的特征相似度，并以此作为键值对候选进行定位。同时，将所有输入短语的定位结果利用深度集合模型整合起来做正则化处理。通过正则化处理方式，不同短语的定位结果能够同时影响到正则化处理的优化目标，从而将这些短语的定位决策之间的互动纳入了优化范围。这样，深度集合模型不再仅仅针对独立的短语定位进行优化，而是以同时定位所有短语为目标，这使得本发明算法更具鲁棒性。

优选的，在上述一种基于多模态多层次统一交互的短语定位识别方法中，所述预训练机器阅读模型为在海量无标注文本上训练得到的BERT模型。

优选的，在上述一种基于多模态多层次统一交互的短语定位识别方法中，所述预训练目标检测模型为在Visual-Genome数据库上预训练得到的，并使用ResNet-101作为backbone。

优选的，在上述一种基于多模态多层次统一交互的短语定位识别方法中，利用局部注意力机制和全局注意力机制优化所述图像候选位置的低维特征。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的基于多模态多层次统一交互的短语定位识别方法流程图；

图2附图为本发明提供的基于多模态多层次统一交互的短语定位识别方法的跨模态交互过程的整体结构示意图；

图3附图为本发明提供的基于多模态多层次统一交互的短语定位识别方法的第一阶段中图像模态内部的交互过程的结构示意图；

图4附图为本发明提供的基于多模态多层次统一交互的短语定位识别方法的第一阶段中文字模态内部的交互过程的结构示意图；

图5附图为本发明提供的第二阶段中跨模态交互过程的结构示意图；

图6附图为本发明提供的第三阶段决策结果的计算过程的结构示意图；

图7附图为本发明提供的基于多模态多层次统一交互的短语定位识别方法的可视化跨模态交互结果；

图8附图为本发明提供的基于多模态多层次统一交互的短语定位识别方法在Flickr30K数据集和ReferItGame数据集上的接地识别结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例公开了一种基于多模态多层次统一交互的短语定位识别方法，包括以下步骤：

S1、构建预训练机器阅读模型和预训练目标检测模型；

S2、获取图片和针对图片的文字说明；

S3、利用预训练机器阅读模型提取文字说明中各个短语基于上下文的文本特征；

S4、利用预训练目标检测模型提取图片中的多个图像候选位置，并对图像候选位置对应的低维特征进行优化处理；

S5、利用注意力算法模拟各个短语与各个图像候选位置之间的交互；

S6、基于交互结果计算各个短语与图像候选位置之间的特征相似度，并以特征相似度作为键值确定各个短语的定位决策结果；

S7、利用深度集合模型对各个短语的定位决策结果进行整合和正则化处理。

具体的，S1中预训练机器阅读模型为在海量无标注文本上训练得到的BERT模型。预训练目标检测模型为在Visual-Genome数据库上预训练得到的，并使用ResNet-101作为backbone。

S4中，利用局部注意力机制和全局注意力机制优化图像候选位置的低维特征。

其中，利用局部注意力机制优化图像候选位置的低维特征的计算公式如下：

l_i表示第i个图像区域的局部上下文信息，其中R_i为该图像区域的原始特征(由预训练目标检测模型产生)，

为该图像区域的k近邻的原始图像信息(由预训练的目标检测模型产生)。

表示两个图像区域的原始特征相似度的归一化结果(利用softmax进行归一化)；

为利用该归一化的相似度结果作为权重对k近邻特征加权求和的结果；

为将图像区域的原始特征和局部上下文特征合并后进行线性变化的结果。

利用全局注意力机制优化图像候选位置的低维特征的计算公式如下：

公式(3)为将图像区域的像素特征

和空间特征s_i相加后利用自注意力算法处理得到的新的图像区域特征。公式为(4)为自注意力算法，att表示注意力。

S5中跨模态交互过程的计算过程如下：

上式中，公式(5)表示将图像区域特征v_i和文本单元特征w_j通过线性变化映射到同一线性空间中。s_ij表示第i个图像区域对第j个短语的响应度。

公式(7)表示将上面得到的响应度分别按照图像区域和按照单词进行归一化(基于softmax)，从而得到图像到文本的注意力图A^V→L和文本到图像的注意力图的A^L→V。最后利用这两个响应度矩阵作为权重，可以得到图像区域和单词的跨模态上下文

然后将这一上下文信息和图像区域或者单词的原始特征合并，得到每个区域和单词的最终表示。

S6中各个短语与图像候选位置之间的特征相似度的计算过程如下：

c＝MLP([w₁，w_N]) (10)；

S_ij＝<I^c，c> (11)。

上式中，公式(9)表示计算图像区域i和短语j的匹配度。其中v_i，w_i分别为图像区域和短语的特征。W₁，W₂，S_ij为训练参数。公式(10)中，w₁和w_N表示输入的第一个和最后一个短语在预训练的BERT模型中的输出结果，MLP为一个可训练的多层感知机模型，然后利用公式

得到图像的表示，其中

为对第k个单词响应最高的top-3图像区域中的随机一个的图像特征。()表示DeepSet模型，即将这k个图像区域的特征输入给DeepSet模型。公式(11)表示图片和文本的匹配度，<>表示余弦距离。

如图2所示，为本发明跨模态交互过程中的整体结构，其中，第一阶段(a)和(b)分别在图像和文字模态内部模拟信息单元的交互并生成上下文信息。第二阶段(c)利用两个模态的信息模拟跨模态信息交互。第三阶段(d)对所有短语的定位决策交互进行建模并优化。

(e)表示本发明的任务示例，下方的单词短语被定位到了其上方图像框对应的位置。

如图3所示，表示本发明第一阶段中图像模态内部的交互过程。首先利用每个图像候选位置的临近候选位置的特性信息优化特征，减少检测器带来的错误。然后模拟全局的图像候选位置交互，进一步完善图像特征信息。

如图4所示，表示本发明第一阶段中文字模态内部的交互过程，使用预训练的BERT模型提取文本特征。

如图5所示，表示本发明第二阶段的跨模态交互过程。本发明利用来自两个模态的图像和文字特征信息进行交互并得到所有输入短语和图像候选位置的多模态特征。此多模态特征被用来计算短语和图像候选位置之间的相似度得分并得到定位决策结果。

如图6所示，表示本发明第三阶段决策结果的计算过程，I表示图像特征，c表示文本特征。Sim(I，c)表示图像特征和文本特征之间的相似性。根据第二阶段得到的定位决策结果，应用DeepSet模型得到基于决策结果的全图图像特征表示和文本特征表示。利用这两个特征优化图像取回任务的损失函数，即将决策结果之间的交互纳入了优化范围。

下面利用Flickr30K数据集和ReferItGame数据集对本发明提供的基于多模态多层次统一交互的短语定位识别方法进行评估。

Flickr30k数据集是基于句子的图像描述的标准，包含海量的图像和针对图像的描述语言，共包含31873个图像和相应的语言描述。在训练、验证和测试分割中，图像的数量分别为29873、1000、1000。每个图像与5个标题相关联，且有276K注释包围框引用360K查询短语，它们是对应于图像区域的片段标题。所有查询的词汇表大小为17150，查询短语的最大长度为19个单词。

ReferItGame数据集包含19894张自然场景照片中的96654个不明确的对象。查询的词汇表大小为8800，最大查询长度为19个单词，与Flickr30K数据集相同。

具体实验过程如下：

视觉特征提取：首先应用以ResNet-101网络作为基础的Faster-RCNN模型提取图片中的所有目标对象和对应的原始图像特征。对于Flickr30K数据集和ReferItGame数据集，选择对象最大检测置信度等于或大于0.05的图像区域作为我们采用的输入。如果合格的图像区域数量小于10，选择排名前10的检测置信度的区域作为输入。如果合格区域的数量大于100，我们选择排名前100检测置信度的区域作为输入。

评价指标：为了评估本发明，从输入区域中选择前1、5、10个区域作为正区域来计算召回率。如果选择的图像区域和标注区域的IoU等于或大于0.5，则预测被认为是正确的。

现将本发明与现有技术中的几种模型进行比较，比较结果如表1和表2所示。

表1 在F1ickr30k数据集上评估本发明与现有模型

模型种类	结果(％)
		Similarity Network	51.05
RPN+QRN	53.48
		IGOP	53.97
SPC+PPC	55.49
		SS+QRN	55.99
CITE	59.27
		SeqGROUND	61.60
G3RAPHGROUND++	66.93
		Visual-BERT	71.33
Contextual Grounding	71.36
		本发明	77.51

表1表示本发明方法在Flickr30k数据集测试拆分上的性能。可以得出：本发明方法优于最先进的结果，本发明精度为77.66％，较Contextual Grounding提高了6.15％。与Visual-BERT相比，本发明计算方法的准确率提高了6.18％。

表2 在ReferItGame数据集上评估本发明与现有模型

表2表示本发明计算方法在ReferItGame数据集上测试拆分上的结果。本发明将精度提高到66.16％，远远高于现有技术中的模型。虽然ReferitGame中输入的是单独的短语，而不是句子，但本发明计算方法也可以学习图像区域和查询短语之间的对应关系，证明本发明适应不同情况，鲁棒性更佳。

如图7所示，对于给定的短语，本发明能够区分相关的图像区域和其他区域。例如，在7(a)中，短语“A parking lot”对右边相应的候选区域有一个重要的响应，几乎没有响应到任何其他区域，在7(b)短语“white tennis shoes”与右栏中的两个相应的区域准确相关。此外，本发明还能够捕捉短语和图像区域之间的对应关系，即使给定的短语不是名词短语。例如，在7(a)中，“fun”这个形容词对含有笑脸的区域的注意力分数要高得多。

例如，在图8(d)中，本发明能够区分站在海滩上的人和亭子里的人。在图8(j)中，本发明可以很好理解输入的文本信息，并从许多建筑区域中找到“biggest building”的对应区域。在图8(a)中，本发明能够识别到靠近窗户的黑色椅子，即便图片中还有另一个椅子存在。

此外，本发明提供的方法在Flickr30K数据集和ReferItGame数据集上的接地识别精度有了很大的提高，分别为6.15％和21.25％。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于多模态多层次统一交互的短语定位识别方法，其特征在于，包括：

构建预训练机器阅读模型和预训练目标检测模型；

获取图片和针对所述图片的文字说明；

2.根据权利要求1所述的一种基于多模态多层次统一交互的短语定位识别方法，其特征在于，所述预训练机器阅读模型为在海量无标注文本上训练得到的BERT模型。

3.根据权利要求1所述的一种基于多模态多层次统一交互的短语定位识别方法，其特征在于，所述预训练目标检测模型为在Visual-Genome数据库上预训练得到的，并使用ResNet-101作为backbone。

4.根据权利要求1所述的一种基于多模态多层次统一交互的短语定位识别方法，其特征在于，利用局部注意力机制和全局注意力机制优化所述图像候选位置的低维特征。