CN113139423A

CN113139423A - 一种用于场景图检测的关系图学习方法

Info

Publication number: CN113139423A
Application number: CN202110256665.9A
Authority: CN
Inventors: 俞俊; 张昊文; 李亚楠
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2021-07-20
Anticipated expiration: 2041-03-09
Also published as: CN113139423B

Abstract

本发明公开了一种用于场景图检测的关系图学习方法。本发明步骤：1、对于大型数据集中的图像，按照标准数据集处理方法，提取出现频次最高的150个目标和50个关系作为数据集Ⅰ的目标和关系；2、分别对数据集Ⅰ中的每张图像用目标检测网络Faster R‑CNN来提取目标，并获得每对目标之间的关系建议，提取的目标和关系建议构成关系数据；3、利用关系提取网络对得到的关系数据进行筛选，过滤冗余信息关系和无效性关系；4、构建一个关系图注意力网络，该网络由两部分组成：视觉‑空间图注意力子网络和语义‑空间图注意力子网络；通过融合两个子网络的结果获得最终关系图。本发明实验结果表明比现有的最优方法效果提升数个百分点。

Description

一种用于场景图检测的关系图学习方法

技术领域

本发明提到了一种用于场景图检测的关系图学习方法(Relationship GraphLearning Network For Scene Graph Detection)，主要涉及一种利用图注意力网络，对得到图片中的视觉信息、语义信息、空间信息进行融合从而学习预测目标之间关系的方法，以构建一个与人工评价结果更加一致的准确率较高的场景图关系检测方法。

背景技术

视觉关系检测的目的是检测图像中的物体并预测物体之间的关系。近年来,视觉关系检测一直是一个热门话题,在视觉关系检测中,关系一般表示为主语、谓词和宾语的三元组,例如,女人-戴-帽子。

大多数视觉关系检测方法仅利用两个物体之间的特征来计算两个物体之间的关系。然而，这些方式忽略了整个图像的全局信息。最近，视觉关系检测方法通常专注于探索图像组件之间的相关性。图像组件包含图像里对象和对象之间的关系。然而,大多数当前的方法只利用了对象之间的相关性,和他们仍然忽视关系之间的相关性。因此这些方法可以建模对象之间的相关性，比如利用图像中女人的共现，但是不能建模关系之间的相关性，比如从刀-在-桌，与盘子-在-桌这两对三元组去推测出盘子-相邻-刀，据我们所知，只有少数方法试图探索对象之间关系的相关性，然而大多数这些方法，没有达到令人满意的结果。如何有效地建模对象之间的关系仍然是一个挑战。

发明内容

本发明的目的是针对现有技术的不足，提供一种利用图注意力网络进行建模用于场景图关系检测的方法。对两个个大型目标检测数据集VG,VRD上进行了有效性验证。实验结果表明比现有的最优方法效果提升数个百分点。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤(1)数据预处理

对于大型数据集中的图像，按照标准数据集处理方法，提取出现频次最高的150个目标和50个关系作为数据集Ⅰ的目标和关系，忽略其余目标和关系；

步骤(2)目标提取和关系检测

分别对数据集Ⅰ中的每张图像用目标检测网络Faster R-CNN来提取目标，并获得每对目标之间的关系建议，提取的目标和关系建议构成关系数据；

步骤(3)关系提取

利用关系提取网络对步骤(2)得到的关系数据进行筛选，过滤冗余信息关系和无效性关系，从而提高时间有效性；

步骤(4)关系图学习

构建一个关系图注意力网络，该网络由两部分组成：视觉-空间图注意力子网络和语义-空间图注意力子网络；通过融合两个子网络的结果获得最终关系图。

进一步的，步骤(1)所述的数据预处理：

1-1、VRD数据集是一个包含5000多张图片、100种目标、70种关系的目标检测数据集；

1-2、VG数据集是一个包含108000多张图片，且每张图片平均包含38种目标、22种关系的大型目标检测数据集；由于VG数据集包含大量稀疏的目标和关系，为了降低数据的稀疏性，根据目标和关系出现的频次进行筛选；筛选后的VG数据集包含150个目标和50个关系；

1-3、按照标准数据集划分方法，将VRD数据集和筛选后的VG数据集，随机取80％的图片作为训练集，其余20％的数据集作为测试集。

进一步的，步骤(2)所述的目标提取和关系检测：

2-1、通过Faster R-CNN网络对每张图像进行目标提取和关系检测；Faster R-CNN网络主要包含4部分内容：

2-2、Conv Layers：将Conv Layers作为CNN网络目标检测的方法，提取图像的特征；Conv Layers主要包含了13个卷积层和13个激活层和4个池化层，并且所有的卷积都做了扩边处理，确保卷积层输入和输出矩阵的大小不变；

2-3、Region Proposal Networks即区域判断网络：RPN网络用于生成区域提议；该RPN网络通过softmax判断锚点属于真或者假，再利用边界框回归修正锚点获得精确的区域提议；

2-4、Roi Pooling：该层通过收集输入的图像特征和区域提议，综合生成区域提议特征；

2-5、Classification：利用区域提议特征在全连接层中计算提议目标类别，同时再次通过边界框回归获得检测框最终的精确位置。

进一步的，步骤(3)所述的关系提取：

首先假设(O_i,O_j)是一对目标，将该对目标中每个目标的语义特征和视觉特征进行拼接，得到拼接特征；将两个拼接特征分别通过两个全连接网络映射到一个低纬度的特征表示空间；然后对映射完后的两个特征表示进行点乘运算得到

同时根据得到的该对目标的空间特征输入到第三个全连接网络中得到

将

和

两值相加后送入sigmoid层得出最终评分；对所有得到的评分进行排序，然后选取前面K个评分，并进行进一步条件筛选。

进一步的，步骤(4)所述的关系图学习：

4-1、首先定义关系图注意力网络，网络由两部分组成分别是视觉-空间图注意力子网络和语义-空间图注意力子网络；

4-2、在视觉-空间图注意力子网络中，每一个关系提议都由视觉特征和空间特征进行初始化；视觉特征由Faster R-CNN得到的目标框特征和区域特征点乘得到，而空间特征由成对目标的相对位置和区域相对位置计算得出；利用图注意力网络去建模所得到的关系提议的相关性，最终通过sigmoid层得到关系分数；

4-3、在语义-空间图注意力子网络中，每一个关系提议都由语义特征和空间特征进行初始化；首先根据Faster R-CNN得到目标的类别，其次通过将类别送入Glove得到语义特征，一对目标的语义特征是由该对目标对应的两个目标的语义特征拼接得到；而空间特征由成对目标的相对位置和区域相对位置计算得出；然后利用图注意网络去建模所得到的关系提议的相关性，最终通过sigmoid层得到关系分数；

4-4、最终关系分数为上面两个子网络得到关系分数的点乘结果，根据最终关系分数确定关系；

4-5、最终实验结果在VRD数据集上，phrase detection R@50任务比当前的最优结果高1.2％，relation detection R@50任务比当前最优结果高0.5％；实验结果在VG数据集上，scene graph detection R@50任务比当前最优结果高2.8％。

进一步的，所述的空间特征计算如下：

假设有一个三元组(s,o,u),其中s,o,u分别表示目标1、关系、目标2，则此时定义位置信息为(x¹ _s,y¹ _s,x² _s,y² _s),(x¹ _o,y¹ _o,x² _o,y² _o),(x¹ _u,y¹ _u,x² _u,y² _u)其中上标1，2分别代表目标框的左上角和与右下角，则此关系的空间特征为:

本发明有益效果如下：

本发明达到了目前目标检测中多个任务的最优结果，并且大型目标检测数据集VG上表现也十分优异，因此在做相关工作时，利用本发明在目标检测工作上可以获得较高的正确率，与人类主观评分的一致性也较强。本发明最终实验结果在VRD数据集上，phrasedetection R@50任务比当前的最优结果高1.2％，relation detection R@50任务比当前最优结果高0.5％；实验结果在VG数据集上，scene graph detection R@50任务比当前最优结果高2.8％；

附图说明

图1是利用图注意力网络进行场景图检测的流程示意图；

图2是利用模型具体学习到的结果；

具体实施细节

下面结合附图对本发明做进一步说明。

如图1所示，一种用于场景图检测的关系图学习方法，具体包括如下步骤：