CN111241326A

CN111241326A - 基于注意力金字塔图网络的图像视觉关系指代定位方法

Info

Publication number: CN111241326A
Application number: CN201911370245.2A
Authority: CN
Inventors: 王瀚漓; 朱健
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-06-05
Anticipated expiration: 2039-12-26
Also published as: CN111241326B

Abstract

本发明涉及一种基于注意力金字塔图网络的图像视觉关系指代定位方法，该方法通过一注意力金字塔图网络模型对将输入图片进行处理，获得相应图像视觉关系指代实体定位图，实现指代定位；所述注意力金字塔图网络模型包括注意力特征金字塔网络和关系传导图网络，其中，所述注意力特征金字塔网络用于从输入图像中获取多尺度注意力特征图，所述关系传导图网络基于所述多尺度注意力特征图获得最终的视觉关系指代实体定位图。与现有技术相比，本发明具有定位精度高、鲁棒性高等优点。

Description

基于注意力金字塔图网络的图像视觉关系指代定位方法

技术领域

本发明涉及一种图像视觉关系指代定位方法，尤其是涉及一种基于注意力金字塔图网络的图像视觉关系指代定位方法。

背景技术

近年来，表达指代理解得到了计算机视觉和自然语言处理领域越来越多的关注。该任务旨在定位特定的指代实体，这项技术可以帮助消除相同类别实体之间的歧义，从而在安防领域图像检索和机器人人机交互等应用场景发挥重要作用。但是，传统的表达指代理解任务需要对模型的自然语言和计算机视觉模块分别进行评估，因此很难判断错误是由语言模块还是由视觉模块引起的。为了减轻对复杂自然语言建模的需求，研究者提出了视觉关系指代定位任务，它根据更结构化的视觉关系三元组<subject,relationship,traget>，在图像中定位指代的实体。

先前的工作探索了使用实体共现统计方法、空间转移模型、基于语言先验的卷积神经网络模型，效果都不是非常理想。目前最先进的技术是一种称为对称堆叠注意力转移的方法。该方法基于视觉关系中的一个实体，通过对视觉关系进行建模来迭代地学习将模型注意力从该实体转移到另一个实体，并且能取得优于上述方法的结果。尽管如此，由于视觉关系三元组中往往包含大量具有小尺寸和难以区分特征的实体。对称堆叠注意力转移方法利用单一小尺度的注意力特征图可能无法有效定位这些小尺寸实体。另外，对称堆叠注意力转移方法基于图像中的视觉特征对关系进行建模，而视觉关系三元组中某一特定的关系类别的视觉特征类内方差较大，使用视觉特征使模型的学习难度较大，且难以对视觉关系进行区分。

发明内容

本发明的目的在于克服上述现有技术存在的缺陷而提供一种定位精度高的基于注意力金字塔图网络的图像视觉关系指代定位方法。

本发明的目的可以通过以下技术方案来实现：

一种基于注意力金字塔图网络的图像视觉关系指代定位方法，该方法通过一注意力金字塔图网络模型对将输入图片进行处理，获得相应图像视觉关系指代实体定位图，实现指代定位；

所述注意力金字塔图网络模型包括注意力特征金字塔网络和关系传导图网络，其中，所述注意力特征金字塔网络用于从输入图像中获取多尺度注意力特征图，所述关系传导图网络基于所述多尺度注意力特征图获得最终的视觉关系指代实体定位图。

进一步地，所述多尺度注意力特征图的获取过程具体为：

以基于ResNet-50网络的特征金字塔对输入图像进行特征提取，基于特征金字塔的输出形成各实体的多尺度特征图，使用实体类别嵌入特征对每一张特征图进行软注意力机制，得到多尺度注意力特征图。

进一步地，选取所述特征金字塔的最后三个卷积模块的输出形成各实体的所述多尺度特征图。

进一步地，所述关系传导图网络获得最终的视觉关系指代实体定位图的具体步骤包括：

101)基于多尺度注意力特征图生成注意力特征图网络，该网络中每一个节点代表一张注意力特征图；

102)构建注意力特征图网络的权重矩阵；

103)使用权重矩阵在注意力特征图网络中进行关系信息传递，对网络中的各节点进行聚合与提纯；

104)对提纯后的实体多尺度注意力特征进行拼接，映射成与图像尺寸一致的特征权重，与图像特性相乘，生成新图像特征；

105)对新图像特征使用基于实体嵌入特征的注意力机制得到最后的视觉关系指代实体定位图。

进一步地，基于视觉关系三元组嵌入特征获得所述权重矩阵。

进一步地，对所述注意力金字塔图网络模型进行训练的过程具体为：

生成基准定位图，以构建的注意力金字塔图网络模型对训练样本获得的视觉关系指代实体定位图与基准定位图进行对比，并计算损失函数进行回传以更新模型。

进一步地，所述基准定位图中，每一张定位图对应一组视觉关系三元组中的一个实体，具体生成过程包括：

1a)选取一张图像和图像中的一对视觉关系三元组，在图中寻找视觉关系指代实体的检测框的标注。

1b)定义一张与上述图像尺寸相同的定位图，在检测框中的位置的像素置1，检测框外的置0；

1c)若一张图像中有完全一致的若干组视觉关系三元组，则将它们叠加在首次出现该三元组的定位图中；

1d)重复步骤1a)、1b)和1c)多次，将数据集中所有视觉关系都生成视觉关系指代实体定位图。

进一步地，所述损失函数的表达式为：

式中，N为训练批次数，Θ为网络参数，D(x_i；Θ)为输入图片x_i经注意力金字塔图网络模型处理后生成的定位图，D(x_i)^GT为输入图片x_i的基准定位图。

与现有技术相比，本发明具有如下有益效果：

1、本发明通过特征金字塔提取特征，可以利用注意力金字塔网络能较为有效地为视觉关系中尺度迥异的实体进行建模，更好地区分视觉关系，以提高定位精度。

2、本发明采用的关系传导图网络基于视觉关系三元组嵌入特征进行建模，能有效地避免模型被视觉关系中视觉特征较大的类内方差影响。此外，该结构还能为视觉关系三元组的主客体进行尺寸匹配，进一步提升模型精度。

附图说明

图1为本发明的流程示意图；

图2为本发明在CLVER、Visual Genome和VRD数据集中的部分结果可视化图示。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本实施例提供一种基于注意力金字塔图网络的图像视觉关系指代定位方法，该方法通过一注意力金字塔图网络模型对将输入图片进行处理，获得相应图像视觉关系指代实体定位图，实现指代定位。

该方法中，注意力金字塔图网络模型的结构如图1所示，包括注意力特征金字塔网络(Attentipn Pyramid Networks)和关系传导图网络(Relationship Conduction GraphNetworks)，注意力特征金字塔网络用于从输入图像中获取多尺度注意力特征图，关系传导图网络基于所述多尺度注意力特征图获得最终的视觉关系指代实体定位图。

1、注意力特征金字塔网络

本实施例中，注意力特征金字塔网络采用基于ResNet-50网络的特征金字塔，对输入图像进行特征提取，并选取特征金字塔的最后三个卷积模块的输出形成各实体的多尺度特征图；将视觉关系三元组的实体类别进行向量嵌入，其后使用一层全连接网络得到实体类别嵌入特征(s_emb_f、o_emb_f)，再使用实体类别嵌入特征对每一张特征图进行软注意力机制(soft attention)，得到多尺度注意力特征图。

2、关系传导图网络

关系传导图网络获得最终的视觉关系指代实体定位图的具体步骤包括：

101)基于维度规范化(dimension normalization)后的多尺度注意力特征图生成注意力特征图网络，该网络中每一个节点代表一张注意力特征图；

102)将视觉关系三元组的实体类别、关系类别进行向量嵌入，经过全连接层处理后将特征连接，得到视觉关系三元组嵌入特征(rt_emb_f)。将D维嵌入特征复制N*N次，形成一张N*N*D维的特征图，其后使用一系列卷积层学习得到注意力特征图网络的维度为N*N的权重矩阵(Weight matrix)；

105)对新图像特征使用基于实体嵌入特征的注意力机制(subject attention和object attention)得到最后的视觉关系指代实体定位图。

3、注意力金字塔图网络模型的训练

对所述注意力金字塔图网络模型进行训练的过程包括：

201)对数据集进行预处理，生成相应的视觉关系指代实体定位图作为基准定位图。

每一张定位图对应一组视觉关系三元组中的一个实体，具体过程如下：

21a)选取一张图像和图像中的一对视觉关系三元组，在图中寻找视觉关系指代实体的检测框的标注。

21b)定义一张与上述图像尺寸相同的定位图，在检测框中的位置的像素置1，检测框外的置0；

21c)若一张图像中有完全一致的若干组视觉关系三元组，则将它们叠加在首次出现该三元组的定位图中；

21d)重复步骤21a)、21b)和21c)多次，将数据集中所有视觉关系都生成视觉关系指代实体定位图。

202)以数据集对注意力金字塔图网络模型进行训练。

输入图像的大小为224×224，输出的定位图的触发阈值为0.5。该注意力金字塔图网络模型通过RMSprop优化算法在数据集上进行训练。如果训练中反向传播的梯度的值超过3，则对其进行裁剪。学习率将初始化为0.0001，当连续3个周期的验证损失不再下降时，学习率将下降20％。在将多尺度注意力特征图送入关系传导图网络之前，首先会将其映射到512维特征向量。此外，所有实体和关系的类别都被嵌入到一个512维特征空间中。

训练过程中，以网络得到的视觉关系指代实体定位图与基准定位图进行对比并计算相关损失函数进行回传。所述损失函数的表达式为：

式中，N为训练批次数，Θ为网络参数，D(x_i；Θ)为输入图片x_i的生成的定位图，D(x_i)^GT为输入图片x_i的基准定位图。

203)在测试集上，使用步骤202)获得的注意力金字塔图网络模型对图片进行视觉关系指代定位图生成。

为了验证上述方法的性能，设计了以下实验，测试结果使用Mean IoU(MeanIntersection over Union，平均重叠度)进行评价，Mean IoU定义如下：

其中，N为样本数目，Area of Overlap为模型预测生成的定位图与基准定位图的集合部分，Area of Union为模型预测生成的定位图与基准定位图的重合部分，Mean IoU越大代表结果越好。

实验选取CLEVR、Visual Genome和Vrd数据集将注意力金字塔图网络模型与其他模型进行了对比实验，实验结果如图2和表1所示。其中SSAS是目前效果最好的方法，由表1可知，本发明方法与其相比仍具有一定的精度优势。

表1 CLEVR、Visual Genome和Vrd数据集注意力金字塔图网络模型与其他模型的对比实验结果

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由本发明所确定的保护范围内。

Claims

1.一种基于注意力金字塔图网络的图像视觉关系指代定位方法，其特征在于，该方法通过一注意力金字塔图网络模型对将输入图片进行处理，获得相应图像视觉关系指代实体定位图，实现指代定位；

2.根据权利要求1所述的基于注意力金字塔图网络的图像视觉关系指代定位方法，其特征在于，所述多尺度注意力特征图的获取过程具体为：

3.根据权利要求2所述的基于注意力金字塔图网络的图像视觉关系指代定位方法，其特征在于，选取所述特征金字塔的最后三个卷积模块的输出形成各实体的所述多尺度特征图。

4.根据权利要求1所述的基于注意力金字塔图网络的图像视觉关系指代定位方法，其特征在于，所述关系传导图网络获得最终的视觉关系指代实体定位图的具体步骤包括：

102)构建注意力特征图网络的权重矩阵；

5.根据权利要求4所述的基于注意力金字塔图网络的图像视觉关系指代定位方法，其特征在于，基于视觉关系三元组嵌入特征获得所述权重矩阵。

6.根据权利要求1所述的基于注意力金字塔图网络的图像视觉关系指代定位方法，其特征在于，对所述注意力金字塔图网络模型进行训练的过程具体为：

7.根据权利要求6所述的基于注意力金字塔图网络的图像视觉关系指代定位方法，其特征在于，所述基准定位图中，每一张定位图对应一组视觉关系三元组中的一个实体，具体生成过程包括：

8.根据权利要求6所述的基于注意力金字塔图网络的图像视觉关系指代定位方法，其特征在于，所述损失函数的表达式为：