CN109726718B

CN109726718B - 一种基于关系正则化的视觉场景图生成系统及方法

Info

Publication number: CN109726718B
Application number: CN201910004817.9A
Authority: CN
Inventors: 宋井宽; 郭昱宇; 高联丽
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-01-03
Filing date: 2019-01-03
Publication date: 2022-09-16
Anticipated expiration: 2039-01-03
Also published as: CN109726718A

Abstract

本发明涉及视觉场景图生成技术，其公开了一种基于关系正则化的视觉场景图生成系统及方法，快速有效地判断物体间是否存在关系，有利于增强物体检测模型的探测效果。该系统，包括：物体检测器、物体标签精练器和物体关系生成器；通过物体检测器，探测图像中的物体，获得物体的标签、物体边框特征和联合边框特征；利用物体标签精练器对物体的标签进行精练，利用物体关系生成器获取物体之间的关系，生成最终的视觉场景图。本发明适用于视觉场景图的生成。

Description

一种基于关系正则化的视觉场景图生成系统及方法

技术领域

本发明涉及视觉场景图生成技术，具体涉及一种基于关系正则化的视觉场景图生成系统及方法。

背景技术

视觉场景图(Visual Scene Graph)是对图像内容的高度概括，它由一系列结点(图像中的实体)和边(实体与实体之间的关系)组成。视觉场景图生成任务是指输入一张图片，模型不仅要探测出图像所包含的物体(边框以及类别)，还要探测出物体与物体之间的关系。

因为视觉场景图生成需要探测图像中包含的物体，所以大多数方法都使用了一个很有效的物体检测模型—Faster R-CNN去检测物体的边框以及类别。但是之前的工作都只是利用Faster R-CNN的检测结果再去判断物体间的关系，很少有人去考虑物体间的关系对物体检测的影响。而且之前的工作也揭示了一个现象：如果已知两物体间的确存在关系，那么判断具体是什么关系就会容易许多。所以如何判断物体间是否存在关系以及如何利用这种信息去增强模型的效果就成为了一个问题。

发明内容

本发明所要解决的技术问题是：提出一种基于关系正则化的视觉场景图生成系统及方法，快速有效地判断物体间是否存在关系，有利于增强物体检测模型的探测效果。

本发明解决上述技术问题所采用的技术方案是：

基于关系正则化的视觉场景图生成系统，包括：

物体检测器、物体标签精练器和物体关系生成器；

所述物体检测器，用于探测图像中的物体，获得物体的标签、物体边框特征和联合边框特征；

所述物体标签精练器，包括关系正则化的标签编码器和标签解码器；

所述关系正则化的标签编码器，用于编码物体检测器探测出的物体边框特征，获得全局特征，并基于全局特征获得关系仿射矩阵，融合物体间的仿射关系获得关系正则化的特征；所述标签解码器，用于基于关系正则化的标签编码器的输出来解码物体的标签，获得精练后的标签；

所述物体关系生成器，包括关系正则化的关系编码器和关系解码器；

所述关系正则化的关系编码器，用于编码标签解码器的输出，获得关系正则化的关系特征：所述关系解码器，对关系特征进行解码，获得物体间的关系。

作为进一步优化，所述关系正则化的标签编码器和关系正则化的关系编码器中均包括Bi-LSTMs网络以及GCNs网络；通过Bi-LSTMs网络来获取包含全局上下文信息的特征，再利用这种特征获取物体间的仿射关系来判断任意物体间存在关系的可能性；最后利用GCNs网络融合仿射关系来获得关系正则化的特征。

作为进一步优化，所述关系正则化的标签编码器采用拼接关系正则化的特征和全局特征作为输出。

此外，本发明还提供了一种基于关系正则化的视觉场景图生成方法，其包括：

a.探测物体：

探测图像中的物体，获得物体的标签、物体边框特征和联合边框特征；

b.对物体的标签进行精练：

编码探测出的物体边框特征，获得全局特征，并基于全局特征获得关系仿射矩阵，融合物体间的仿射关系获得关系正则化的特征；基于关系正则化的标签编码器的输出来解码物体的标签，获得精练后的标签；

c.获取物体间的关系：

编码标签解码器的输出，获得关系正则化的关系特征；对关系特征进行解码，获得物体间的关系。

作为进一步优化，步骤a中，采用基于ResNet101的Faster R-CNN网络探测图像中的物体，所述Faster R-CNN网络为在视觉基因数据集上预训练获得。

作为进一步优化，步骤b具体包括：

b1.采用带有高速连接的Bi-LSTM网络编码Faster R-CNN探测出的物体边框特征，获得全局特征H＝{h₁,...,h_N}；h_i表示物体i融合全局信息后的特征；

b2.基于全局特征H获得一个图的关系仿射矩阵

表示物体i和物体j存在关系的可能性；

b3.通过两个全连接层将h_i映射到一个主体空间和一个客体空间：

和

指两个全连接网络，

和

分别表示映射到主体和客体空间后的特征；

b4.利用DistMult模型来构建仿射矩阵：

其中，

为一个对角参数矩阵；

是一个由主体i和客体j特化的偏差；σ是一个激活函数，能将输出映射到0至1；u_i,j是指物体i和物体j的联合特征；

b5.调整仿射矩阵

到一个对称矩阵

b6.使用GCNs网络编码全局特征H生成关系正则化的特征

O＝{o₁,...,o_N}：

O＝ReLU(D^sA^sHW^G)

ReLU表示线性整流函数；W^G是模型需要学习的参数；

s是一个对角矩阵用来归一化A^s；

b7.拼接H和O作为关系正则化编码器的输出：

o′_i＝[o_i,h_i]

b8.采用LSTM网络来解码每个物体的标签：

LSTM表示标准的长短期记忆网络；

表示长短期记忆模型的第i步输出；其中l_i是来自Faster R-CNN的先验标签；

是第i步精炼后的标签。

作为进一步优化，步骤c具体包括：

c1.采用关系正则化的关系编码器编码上层的输出：

{A^r,Z}＝R2_Encoder([O′,W^LL^d]|W^z)；

为上层输出的精练后的标签，W^l是由语言模型Glove初始化的映射矩阵，W^z代表编码模块中的所有需要学习的参数；

c2.获得关系正则化后的关系特征：

Z＝{z₁,…,z_N}；

c3.采用两个全连接层将Z映射到主体空间和客体空间：

c4.使用DistMult模型生成关系分数：

r′_m,i,j是指以物体i作为主体，以物体j作为客体属于关系m的分数；

是需要学习对角参数矩阵；

是指偏差项，它由物体i、物体j以及关系m共同指定；u_i,j是指物体i和物体j的联合特征；

c5.使用softmax函数将分数映射到0至1：

D_r是数据集中包含的表示关系单词的数量；

最终获得映射到0至1的关系分数

本发明的有益效果是：

在很好地利用全局上下文信息的同时，能够充分地发掘并利用物体间的仿射关系。模型将仿射关系通过GCNs融合，得到了关系正则化的特征，从而同时增强了物体标签识别以及场景图生成的效果。

附图说明

图1为本发明中的基于关系正则化的视觉场景图生成系统原理图。

具体实施方式

本发明旨在提出一种基于关系正则化的视觉场景图生成系统及方法，快速有效地判断物体间是否存在关系，有利于增强物体检测模型的探测效果。

为了实现上述目的，本发明设计了基于关系正则的网络来生成视觉场景图。由于之前有工作证明了物体的标签对最后的场景图有非常大的影响，所以我们提出了物体标签精炼模块用来改善Faster R-CNN生成的物体标签。之后又使用了关系生成模块用来生成最终的视觉场景图。每个模块都由双向长短时记忆模型(Bi-LSTMs)以及图卷积网络(GCNs)构成，通过Bi-LSTMs来获取包含全局上下文信息的特征，再利用这种特征获取一个关系矩阵来判断任意物体间存在关系的可能性，最后利用GCNs将这种信息融合来获得关系正则化的特征。通过这种方式来判断物体间是否存在关系并且利用这种信息去增强模型效果。

如图1所示，本发明中的基于关系正则化的视觉场景图生成系统整体框架包括三个部分：物体检测器、物体标签精炼器以及物体关系生成器。

下面将详细介绍各个部分的功能及实现方案。

由于视觉场景图生成任务中，首先需要尽可能多地探测出图像的物体。所以与其他工作类似，我们使用了一种在物体检测任务中非常有效的模型Faster R-CNN来探测图像中的物体。我们首先在视觉基因(Visual Genome)数据集上预训练了基于ResNet101的Faster R-CNN。之后使用这种Faster R-CNN来处理图像(如图1的物体检测器部分所示)，从而获得物体的以下信息：

a)一系列标签的分布L＝{l₁,...,l_N}，此处

D_l是数据集中包含物体类别的总数。

b)对应物体边框特征F＝{f₁,...,f_N}，此处

D_f是特征的维度。

c)以及一系列联合边框的特征U＝{u_1,1,...,u_N,N}，此处

一个联合边框是指一对物体的边框合并后的最小边框。

正如其他工作中的实验所展示的，物体的标签对最终场景图的生成有很大影响。所以，我们首先使用物体标签精炼器来改善从Faster R-CNN生成的标签。如图1所示物体标签精炼器包含两部分：关系正则化的标签编码器和标签解码器。

由于Faster R-CNN是孤立地探测每个区域出现的物体，并没有考虑图像中的全局上下文信息，所以我们使用带有高速连接(highway)的Bi-LSTM(双向长短期记忆模型)去编码Faster R-CNN探测出的物体边框特征F：

此处x_k,t是指第k层的LSTM的第t步输入。i_k,t、s_k,t、o_k,t、c_k,t、h_k,t分别表示第k层中第t步输入门、遗忘门、输出门、记忆单元和隐藏状态。σ表示sigmoid函数，tanh表示双曲函数。

表示拼接

和x_k,t向量。

和

是指LSTM中需要学习的参数。ο是指两向量逐元素相乘即哈达马积。δ_k是指第k层LSTM的方向。具体来说我们按如下方式设置第k层的LSTM的x_k,t和δ_k：

此处的f_t是指第t步的输入。由于我们使用的是双向的LSTM，所以模型对输入的顺序不敏感，简单起见我们按照物体从左到右的顺序去排列物体特征F并将其作为Bi-LSTM的输入。

图卷积网络(GCNs)能够根据图(Graph)的邻接矩阵优化图中结点的特征。而且我们认为探索物体间的关系对物体的识别是有帮助的。所以我们首先利用物体特征F作为Bi-LSTM的输入，获得全局特征H＝{h₁,...,h_N}，此处h_i表示物体i融合全局信息后的特征。再基于全局特征H获得一个图的关系仿射矩阵

此处

表示物体i和物体j存在关系的可能性。由于一个物体在关系中可能出现为客体也可能出现为主体，所以我们通过两个全连接层将h_i映射到一个主体空间和一个客体空间：

和

指两个全连接网络，

和

分别表示映射到主体和客体空间后的特征。之后利用一种在知识图谱中有效的关系学习模型--DistMult来构建我们的仿射矩阵：

其中

为一个对角参数矩阵。

是一个由主体i和客体j特化的偏差。σ是一个激活函数能将输出映射到0至1。u_i,j是指物体i和物体j的联合特征。另外给定两个物体我们很难确定信息是从主体流向客体还是从客体流向主体，所以我们调整仿射矩阵

到一个对称矩阵

之后我们就可以使用GCNs编码全局特征H用来生成我们的关系正则化的特征O＝{o₁,...,o_N}：

O＝ReLU(D^sA^sHW^G) (7)

ReLU表示线性整流函数，其中W^G是模型需要学习的参数，

s是一个对角矩阵用来归一化A^s；

最后我们拼接H和O作为我们关系正则化编码器的输出：

o′_i＝[o_i,h_i] (9)

为了简便起见我们表示我们的关系正则化的标签编码器如下：

{A^e,O′}＝R2_Encoder(F|W^o) (10)

R2_Encoder表示从公式(1)到公式(9)整个模型。F表示输入的特征，A^e表示我们获得的放射矩阵，O′表示关系正则化后的物体特征，W^o代表编码模块中的所有需要学习的参数。

最后我们使用了一层LSTM来解码每个物体的标签，从而改善Faster R-CNN生成的标签：

LSTM表示标准的长短期记忆网络，

表示长短期记忆模型的第i步输出，其中l_i是来自Faster R-CNN的先验标签，

是第i步精炼后的标签。此外我们将<BOS>作为开始解码的信号。

至此，我们已经得到了精炼后的物体标签L^d，之后我们就进入第二阶段--物体关系生成器来生成图像中物体与物体的关系。如图1所示物体关系生成器也包含两部分：关系正则化的关系编码器和关系解码器。我们使用了关系正则化的关系编码器编码上层的输出：

{A^r,Z}＝R2_Encoder([O′,W^LL^d]|W^z) (12)

此处

标签精炼模块输出的物体标签，W^l是由语言模型Glove初始化的映射矩阵，W^z代表编码模块中的所有需要学习的参数。之后我们就得到了关系正则化后的关系特征Z＝{z₁,…,z_N}。

最后我们就进入了关系解码阶段，同样我们还是要用两个全连接层将Z映射到主体空间和客体空间：

之后再次使用DistMult模型去生成关系分数：

此处r′_m,i,j是指以物体i作为主体，以物体j作为客体属于关系m的分数。

是需要学习对角参数矩阵，

是指偏差项，它由物体i、物体j以及关系m共同指定。u_i,j是指物体i和物体j的联合特征。°是指两向量逐元素相乘即哈达马积。最后我们使用softmax函数将分数映射到0至1：

r′_m,i,j是指初始化的分数如公式(14)描述，e是自然对数函数的底数，此处D_r是数据集中包含的表示关系单词的数量。最后我们得到了映射到0至1的关系分数R＝{r_1,1,1,...,r_Dr,N,N}。

对于损失函数的构建，首先在标签精炼阶段，我们构建了标签损失函数和第一个仿射矩阵损失函数，两者形式都是交叉熵：

在关系生成阶段：

其中L^d、A^e、A^r以及R分别是公式(11)、(5)、(12)以及(15)的输出。L^g、A^g、以及R^g分别是数据集中真实的物体标签、邻接矩阵以及关系标签。我们构建真实邻接矩阵的方式是判断两物体间是否存在关系若存在就为1，若不存在关系就为0。最后我们将四个损失函数求和作为模型整体的损失函数。