CN111462282A

CN111462282A - 一种场景图生成方法

Info

Publication number: CN111462282A
Application number: CN202010253468.7A
Authority: CN
Inventors: 莫宏伟; 田朋; 姜来浩; 许贵亮; 杨帆
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2020-07-28
Anticipated expiration: 2040-04-02
Also published as: CN111462282B

Abstract

本发明公开了一种场景图生成方法，将物体检测、视觉关系检测和图像区域描述三种不同层次的语义任务进行相互连接，以端到端的方式共同解决场景理解的不同语义层次的视觉任务。首先将物体、视觉关系和图像区域描述根据其空间特征和语义连接与特征信息传递图对齐，然后通过特征信息传递图将特征信息传递到三个不同层级的语义任务以实现语义特征的同时迭代更新。该方法利用场景图像不同层次的语义特征连接来实现物体检测和视觉关系检测以生成场景图像对应的场景图，并对场景图像的主要区域使用自然语言进行图像描述，同时将图像区域描述作为场景图生成的一种监督方法以提升场景图生成的准确率。

Description

一种场景图生成方法

技术领域

本发明涉及一种场景图生成方法，特别是一种基于多级语义任务的场景图生成方法，属于物体检测、视觉关系检测和图像区域描述领域。

背景技术

场景理解是计算机视觉研究的热点问题之一，视觉场景理解包含多个不同层次的语义任务：物体检测和识别、预测被检测对象之间的视觉关系以及使用自然语言对场景图像所要表示的内容进行描述等。由于物体类别及其视觉关系的复杂多样性，视觉场景理解依然是一个难题，良好的视觉场景理解系统不仅能够识别出不同图像所表示内容的差别，而且还能对不同之处进行重点关注或者表示。理解视觉场景图像的关键是能够将场景图像中的物体及其之间的语义关系进行表示，这些表示不仅能够为场景理解的基本视觉认知任务提供上下文线索，而且可以为高级别的语义视觉任务提供帮助。现有传统的场景图生成方法只对整个场景图像中的部分内容进行物体检测和关系预测，而无法有针对性的对场景图像中的主要内容进行理解的问题。现阶段都是使用卷积神经网络和循环神经网络结构生成图像描述，现有的图像描述方法只是基于场景图像中的目标物体并结合自然语言处理生成对图像内容的整体语言描述，并没有利用场景图的相关信息，也没有突出的显示图像所要表达的物体之间的视觉关系。

发明内容

针对上述现有技术存在的问题，本发明要解决的技术问题是提供一种能够有针对性的对场景图像中的主要内容进行理解，提升图像理解的准确率的场景图生成方法。

为解决上述技术问题，本发明的一种场景图生成方法，包括以下步骤：

S1：针对场景理解中的物体检测、视觉关系检测、图像区域描述这三种不同层次的语义视觉任务对应产生三组不同的提议，包括：

物体区域提议：使用Faster R-CNN网络对输入图像进行物体检测，从输入图像中检测提取出一组候选区域集合B＝{b₁,b₂,…,b_n}，对于每一个区域，模型提取边界框b_i表示物体的位置，使用ROI池化层提取出目标物体的特征向量v_i送入到后续的网络进行推理；

视觉关系区域提议：对于物体区域提议密集度超过给定值的区域，使用非极大值抑制对物体提议进行选择性删除，将被检测到的物体提议使用有向边进行连接以表示物体之间的视觉关系，将物体区域的边界真实边界框进行集成以生成图像区域描述的区域提议边界框；

图像描述区域提议：将物体真实边界框和视觉关系提议进行组合以生成图像区域描述对应的区域提议；

S2：构造信息传递图来对目标物体、视觉关系和图像区域描述之间的联系进行建模，具体包括：

S2.1：场景图建模：

场景图由物体、物体的类别标签和物体对之间的关系所组成，场景图G由一个三元组G＝{B，O，R}表示：B＝{b₁，b₂，...，b_n}是区域候选集合，其中的元素b_i表示边界框的第i区域；O＝{O₁，O₂，...，o_n}是物体集合，其中元素o_i表示关于区域b_i对应的类标签；R＝{r_1→2，r_1→3，...，r_n→n-1}是物体对之间的关系集合，根据物体之间的视觉关系，每个物体节点都将会有两种连接：主体-关系和关系-对象，边集合R包含物体对与视觉关系之间的有向边集合，这些物体节点及将其连接的有向边所组成的拓扑图就是场景图像所对应的场景图；

S2.2：构建信息传递图：

基于不同语义任务之间的语义连接和空间关系动态地建立特征信息传递图，在构建视觉关系提议的同时将构建的视觉关系和物体进行连接，每个视觉关系提议可视为一个主语-谓词-宾语三元组，并与两个物体提议进行连接，视觉关系提议和图像区域描述提议使用它们之间的相对空间关系进行连接；

S3：将物体、视觉关系和图像区域描述视为场景图像理解的不同语义层次，并根据不同的语义空间和语义关系建立不同层级语义之间的联系，通过信息传递图将不同语义层中的节点进行连接，信息能够通过图中的边在不同的语义特征之间进行传递以对不同层级的语义信息进行特征联合迭代更新，三种不同层次的语义任务分别对应三个特征信息迭代更新：物体特征信息更新，视觉关系特征信息更新和图像区域描述特征信息更新，通过对特征更新过程进行不断的迭代直到语义层的特征收敛，三个不同层次的视觉任务对应三个并行网络分支，将视觉任务各自对应的特征送入到对应的池化层，使用两个全连接层对每个分支网络的输出进行分类，以使得不同的网络分支学习对应视觉任务的特征；

S4：采用图像区域描述对场景图生成进行监督，以检测生成的场景图与图像的内容是否匹配，选取目标物体对应的特征向量以及解码器中长短期记忆网络上一时刻的隐藏状态来决定当前时刻选取的特征向量的权重，将图像中提取到的物体和显著视觉区域的位置和名称信息整合处理后送入解码器，根据长短期记忆网络的隐藏状态从图像局部特征向量集合中动态选择与当前时刻生成单词有关的图像局部特征来指导当前时刻单词的生成，具体为：

S4.1：选取输入图像中目标物体对应的特征向量v＝{v₁，v₂，...，v_n}和名称属性向量以及解码器中LSTM网络上一时刻的隐藏状态h_i-1来决定当前时间选取的特征向量的权重α_ij。

e_ij＝f_att(h_i-1，v_j)

其中，注意机制模型f_att是一个多层感知机模型，上一时刻的隐藏状态h_i-1决定各个图像区域特征向量的权重，权重代表模型对图像各区域的重视程度；

S4.2：根据前一时刻的输出y_i-1和隐藏状态h_i-1以及视觉上下文z_i计算得到当前时刻的隐藏状态h_i：

h_i＝LSTM(y_i-1，h_i-1，z_i)

S4.3：依据当前时刻的隐藏状态h_i、视觉上下文z_i以及前一时刻的输出y_i-1通过一个全连接层可以得到当前输出单词的概率分布：

p(y_i|z_i，y_i-1)＝softmax(Ey_i-1+L_hh_i+L_zz_i)

S5：使用更新的语义特征对目标物体和视觉关系进行分类并生成图像区域描述，使用目标物体和预测的视觉关系生成场景图像对应的场景图。

本发明还包括：

1.S3中物体特征信息更新具体为：

每个目标物体节点有两种关系连接：主体-谓词和谓词-对象，目标物体特征更新过程如下：

其中

表示物体节点接收到信息，

是对应于候选物体的特征向量，

表示两个具有视觉关系的物体之间的关系特征，

代表物体节点的邻域，M^O→O和M^R→O是从物体节点特性中提取有用信息的消息处理函数，上标表示信息传递的方向，G^O和G^R表示物体集成信息的收集函数，U^O是物体的更新函数。

2.S3中视觉关系特征信息更新具体为：

物体的分类特征有助于进行物体之间的关系检测，每个视觉关系节点分别与主语(物体)节点和对象(物体)节点连接形成一个(主语-谓词-宾语)三元组，物体对之间的视觉关系特征更新如下所示：

其中，

表示两个具有视觉关系的物体接收到的信息，M^O→R是从节点特征中提取有用信息的消息处理函数，G^R表示视觉关系的集成信息收集函数，U^R表示视觉关系的更新函数；

3.S3中图像区域描述特征信息更新具体为：

图像区域描述中的每个描述节点会连接多个视觉关系节点，更新具体为：

其中，

表示描述区域接受的信息，M^R→C表示从描述区域提取有用信息的消息处理函数，G^C表示描述区域集成信息的收集函数，U^C是描述区域的更新函数。

本发明的有益效果：1、本发明基于多级语义任务的场景图生成方法，将场景理解任务分为物体检测、视觉关系检测和图像区域描述三个不同的语义层次，将上述三种不同层次的语义层进行相互连接，能够有针对性的对场景图像中的主要内容进行理解，提升图像理解的准确率。

2、现阶段都是使用卷积神经网络和循环神经网络结构生成图像描述，现有的图像描述方法只是基于场景图像中的目标物体并结合自然语言处理生成对图像内容的整体语言描述，并没有利用场景图的相关信息，也没有突出的显示图像所要表达的物体之间的视觉关系。本发明提出的模型将针对场景图像内容生成对应结构化的场景图，选取目标对应的特征向量进行整合后送入解码器以提升生成图像描述的准确性，图像描述任务也可以提供其他的附加信息有助于场景图的生成。

附图说明

图1是本发明多级语义任务的场景图生成方法的原理示意图。

具体实施方式

下面结合附图对本发明具体实施方式做进一步说明。

参照图1具体说明本实施方式，本实施方式所述的基于多级语义任务的场景图生成方法，主要包括Faster R-CNN物体特征提取、信息传递图、特征信息迭代更新、图像区域描述以及场景图生成。

1.针对场景理解中的物体检测、视觉关系检测、图像区域描述这三种不同层次的语义视觉任务对应产生三组不同的提议：

物体区域提议：使用Faster R-CNN网络对输入图像进行物体检测，从输入图像中检测提取出一组候选区域集合B＝{b₁，b₂，...，b_n}。对于每一个区域，模型不仅提取边界框b_i表示物体的位置，而且还会使用ROI池化层提取出目标物体的特征向量v_i送入到后续的网络进行推理。

视觉关系区域提议：对于物体区域提议较为密集的区域，使用非极大值抑制(NMS)对物体提议进行选择性删除。将被检测到的多个物体提议使用有向边进行连接以表示物体之间的视觉关系。将多个物体区域的边界真实边界框进行集成以生成图像区域描述的区域提议边界框。

图像描述区域提议：将多个物体真实边界框和视觉关系提议进行组合以生成图像区域描述对应的区域提议。

2.场景图是图像内容的结构化表示，由物体、物体的类别标签和物体对之间的视觉关系所组成，场景图中的节点表示物体，节点之间使用有向边进行连接表示物体之间的视觉关系。根据物体之间的视觉关系为每个物体提议构建视觉关系提议，同时将构建的视觉关系和物体进行连接，基于不同语义任务之间的语义连接和空间关系动态地建立特征信息传递图，视觉关系提议和图像区域描述提议使用它们之间的相对空间关系进行连接。通过上述过程，可以构造一个信息传递图来对目标物体、视觉关系和图像区域描述之间的联系进行建模。

步骤一：场景图建模

场景图由物体、物体的类别标签和物体对之间的关系所组成，场景图G可用一个三元组G＝{B，O，R}表示：B＝{b₁，b₂，...，b_n}是区域候选集合，其中的元素b_i表示边界框的第i区域；O＝{o₁，o₂，...，o_n}是物体集合，其中元素o_i表示关于区域b_i对应的类标签；R＝{r_1→2，r_1→3，...，r_n→n-1}是物体对之间的关系集合。根据物体之间的视觉关系，每个物体节点都将会有两种连接：主体-谓词和谓词-对象，边集合R包含物体对与视觉关系之间的有向边集合，这些物体节点及将其连接的有向边所组成的拓扑图就是场景图像所对应的场景图。

步骤二：构建信息传递图

由于场景图像内容的差异性，所对应场景图的拓扑结构也不尽相同，因此，基于不同语义任务之间的语义连接和空间关系动态地建立特征信息传递图，在构建视觉关系提议的同时将构建的视觉关系和物体进行连接，每个视觉关系提议可视为一个(主语-谓词-宾语)三元组，并与两个物体提议进行连接，视觉关系提议和图像区域描述提议使用它们之间的相对空间关系进行连接。通过上述过程，可以构造一个信息传递图来对目标物体提议、视觉关系提议和图像描述区域提议之间的联系进行建模。

3.将物体、视觉关系和图像区域描述视为场景图像理解的不同语义层次，并根据不同的语义空间和语义关系建立不同层级语义之间的联系。通过信息传递图将不同语义层中的节点进行连接，信息能够通过图中的边在不同的语义特征之间进行传递以对不同层级的语义信息进行特征联合迭代更新。三种不同层次的语义任务分别对应三个特征信息迭代更新：物体特征信息更新，视觉关系特征信息更新和图像区域描述特征信息更新，通过对特征更新过程进行不断的迭代直到语义层的特征收敛。三个不同层次的视觉任务对应三个并行网络分支，将视觉任务各自对应的特征送入到对应的池化层，使用两个全连接层对每个分支网络的输出进行分类，以使得不同的网络分支学习对应视觉任务的特征。

步骤一：物体特征更新

其中

表示物体节点接收到信息，

是对应于候选物体的特征向量，

表示两个具有视觉关系的物体之间的关系特征，

代表物体节点的邻域,M^O→O和M^R→O是从物体节点特性中提取有用信息的消息处理函数。上标表示信息传递的方向(例如：R→O表示从关系到物体)。G^O和G^R表示物体集成信息的收集函数，U^O是物体的更新函数。

步骤二：视觉关系特征更新

物体的分类特征有助于进行物体之间的关系检测，每个视觉关系节点分别与主语(物体)节点和对象(物体)节点连接形成一个(主语-谓词-宾语)三元组，其特征更新过程与目标物体类似。物体对之间的视觉关系特征更新如下所示：

其中，

表示两个具有视觉关系的物体接收到的信息，M^O→R是从节点特征中提取有用信息的消息处理函数，G^R表示视觉关系的集成信息收集函数，U^R表示视觉关系的更新函数。

步骤三：图像区域描述特征更新

图像区域描述中的每个描述节点会连接多个视觉关系节点，其特征更新过程与上述目标物体和视觉关系类似。

其中，

通过这种特征信息传递更新机制使得物体检测、视觉关系和图像区域描述这三个不同层次语义任务的特征进行更新，通过信息传递更新过程，更新后的特征信息将被用于做出预测。

4.场景图是图像内容的一种结构化表示方法，而图像区域描述能更准确的表示图像所展示的内容信息，因此可以将图像区域描述作为场景图生成的一种监督方法，以检测生成的场景图与图像的内容是否匹配。

为了更好地学习图像区域描述的特征以增加图像区域描述的准确性，选取目标物体对应的特征向量以及解码器中长短期记忆网络上一时刻的隐藏状态来决定当前时刻选取的特征向量的权重，将图像中提取到的物体和显著视觉区域的位置和名称信息整合处理后送入解码器，根据长短期记忆网络(LSTM)的隐藏状态从图像局部特征向量集合中动态选择与当前时刻生成单词有关的图像局部特征来指导当前时刻单词的生成。

步骤一：选取输入图像中目标物体对应的特征向量v＝{v₁，v₂，...，v_n}和名称属性向量以及解码器中LSTM网络上一时刻的隐藏状态h_i-1来决定当前时间选取的特征向量的权重α_ij。

e_ij＝f_att(h_i-1，v_j) (7)

其中：注意机制模型f_att是一个多层感知机模型，上一时刻的隐藏状态h_i-1决定了各个图像区域特征向量的权重，这些权重就表示了模型对图像各区域的重视程度。

步骤二：根据前一时刻的输出y_i-1和隐藏状态h_i-1以及视觉上下文z_i计算得到当前时刻的隐藏状态h_i：

h_i＝LSTM(y_i-1，h_i-1，z_i) (9)

步骤三：依据当前时刻的隐藏状态h_i、视觉上下文z_i以及前一时刻的输出y_i-1通过一个全连接层可以得到当前输出单词的概率分布：

p(y_i|z_i,y_i-1)＝softmax(Ey_i-1+L_hh_i+L_zz_i) (11)

5.场景图中不同语义层次之间通过信息传递图来更新物体、视觉关系和图像区域描述的表示。在对物体、视觉关系和图像区域描述进行多级任务学习的基础之上，使用更新的语义特征对目标物体和视觉关系进行分类并生成图像区域描述，使用目标物体和预测的视觉关系生成场景图像对应的场景图，不同层次的语义信息相互补充可以提升场景图生成的准确度。

本发明属于视觉关系检测和图像区域描述领域的场景图生成方法，将场景理解任务划分为物体检测、视觉关系检测和图像区域描述三种不同语义层次的视觉任务，以提高场景图生成的准确度。本发明提出一种基于多级语义任务生成场景图方法，将物体检测、视觉关系检测和图像区域描述三种不同层次的语义任务进行相互连接，以端到端的方式共同解决场景理解的不同语义层次的视觉任务。首先将物体、视觉关系和图像区域描述根据其空间特征和语义连接与特征信息传递图对齐，然后通过特征信息传递图将特征信息传递到三个不同层级的语义任务以实现语义特征的同时迭代更新。该方法利用场景图像不同层次的语义特征连接来实现物体检测和视觉关系检测以生成场景图像对应的场景图，并对场景图像的主要区域使用自然语言进行图像描述，同时将图像区域描述作为场景图生成的一种监督方法以提升场景图生成的准确率。

本发明提出一个新的网络模型来检测场景理解视觉任务中的不同语义层次的特征，同时对物体检测、视觉关系检测和图像区域描述这三个视觉任务进行求解；构建一个可以在多级语义层之间传递信息以对不同语义特征同时进行更新的信息传递图，可以将物体检测、视觉关系检测和图像区域描述对齐到图像中；通过信息传递图在不同的语义层次之间传递信息以实现不同层次语义特征的迭代更新，使用信息传递机制将物体检测、视觉关系检测和图像区域描述三个不同的视觉任务集成到一个模型中，实现同时对不同语义层的特征进行迭代更新的作用。

本发明使用一个新的网络模型来检测视觉任务中不同语义层次的特征信息，同时对物体检测、视觉关系检测和图像区域描述进行求解。

本发明构建一个可以在多级语义层之间传递信息以对不同语义特征同时进行更新的信息传递图，可以将物体检测、视觉关系检测和图像区域描述对齐到图像中。

本发明通过信息传递图在不同的语义层次之间传递信息以实现不同层次语义特征的迭代更新，使用信息传递机制将物体检测、视觉关系检测和图像区域描述三个不同的视觉任务集成到一个模型中，实现同时对不同语义层的特征进行迭代更新的作用。

本发明不局限于上述最佳实施方式，任何人应该得知在本发明的启示下作出的结构变化或方法改进，凡是与本发明具有相同或相近的技术方案，均落入本发明的保护范围之内。