CN112464016A

CN112464016A - 一种基于深度关系自注意力网络的场景图生成方法

Info

Publication number: CN112464016A
Application number: CN202011500013.7A
Authority: CN
Inventors: 俞俊; 李娉; 余宙
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-03-09
Anticipated expiration: 2040-12-17
Also published as: CN112464016B

Abstract

本发明公开了一种基于深度关系自注意力网络的场景图生成方法。本发明步骤如下：1、数据预处理及数据集的划分，2、使用预训练的目标检测网络对图像提取特征，3、构建目标的空间特征，4、构建目标的语言特征，5、构建相对关系特征，6、构建深度神经网络，7、损失函数，8、训练模型、9、网络预测值计算。本发明用于同时建模目标上下文和关系上下文的RSAN网络在场景图生成的任务上取得了显著性的提升效果，超越了该任务上的大部分主流方法。并且本发明的RSAN网络在其他跨模态相关领域中如图像内容问答和视觉关系检测中也具有十分重要的应用价值和巨大的潜力。

Description

一种基于深度关系自注意力网络的场景图生成方法

技术领域

本发明提出一种基于深度关系自注意力网络(Relational Self-AttentionNetworks)的场景图生成方法(Scene Graph Generation)。

背景技术

场景图生成是一项多媒体领域的新兴任务，该任务旨在建模目标和目标之间关系的上下文信息，并生成图像对应的场景图。具体来讲是输入一张图片，通过模型后生成这个图像抽象出来的场景图，场景图中包含结点和边信息，结点和边分别表示目标和目标间的关系。例如,图像内容为一个带着帽子的人提着木桶在喂马，其中可能包含有“人戴着眼镜”、“人喂马”、“人提着木桶”、“马从木桶中吃食物”、“人站在地上”等语义信息。当给出一个图像时，场景图生成模型需要根据图像的语义信息生成该图像对应的场景图。为了得到更准确的预测，机器需要深入理解图像的内容，并在此基础上对目标上下文信息和目标之间的关系上下文信息进行融合以最大程度地挖掘目标之间的关系。对比单纯的关系检测，场景图可以被理解为具有同时建模目标上下文信息和关系上下文信息的任务，如何同时建模好它们的上下文信息，并利用好上下文信息进行场景图生成也是研究场景图领域的关键。

深度学习自2006年产生之后就受到科研机构、工业界的高度关注，发展至今已收获诸多优秀的网络模型和各种有效的训练方法。目标检测的丰富研究支撑起场景图的研究，使得场景图相关任务逐渐成为一个主流研究方向。同时场景图更符合真实的生活场景，具有丰富的研究意义和实际价值。场景图作为近几年来逐渐兴起的研究媒体，结合语义信息预测，形成了图像语义信息理解的研究方向，其中场景图生成是其中一个较为丰富的方向，在目标检测的同时完成场景图生成，让计算机根据输入的图像自动预测出包含丰富语义关系的场景图是一个值得深入探索的研究问题。

多年来，在图像研究领域中已经认识到理解场景图的重要性，并尝试挖掘图像中丰富的上下文信息。在场景图生成任务中，主要的模型分为两类，一类是基于卷积神经网络的模型，一类是基于循环神经网络的模型，也有部分研究开始注意到基于注意力机制的模型。由于场景图生成需要建立在对目标上下文信息和关系上下文信息的充分利用的基础上，无论是目标上下文信息或者关系上下文信息，都存在更多值得挖掘的有效信息，对上下文信息的建模无疑有助于加深场景图的理解进而增强最终场景图生成的表达能力。

在实际应用方面，场景图生成算法具有广泛的应用场景。在娱乐场景下，如用户输入一张图片，机器就能生成这个图片对应的场景图，便于用户更加深入理解的图片场景。在银行系统中，在根据大量用户的消费记录及信用记录，建立用户和用户之间的关系，预测某类用户贷款还款能力以及银行贷款风险，在一定的准确度下，可大大节省人力及时间成本，具有十分良好的研究前景及重要的研究意义。

综上所述,场景图生成是一个值得深入研究的课题，本专利拟从该任务中几个关键点切入展开探讨，解决目前方法存在的难点和重点，形成一套完整的场景图生成系统。

场景图的标签一般来自不同的标注者，具有较高的自由度，不具备统一固定的语义信息。同时，自然场景下的图片载体主题多样，内容复杂富于变化，目标与目标间可能具有较高的差异性，而这使得场景图生成面临巨大的挑战。具体而言，主要存在如下两方面的难点：

(1)如何对目标上下文信息进行有效建模：目标和目标之间一般具有较高的差异性，该问题主要是通过注意力机制进行处理，得到有效的目标上下文特征表达。建模有效的富含上下文信息的目标特征一直是场景图领域中一个必不可少的环节，通过注意力机制特征建模将目标和所有其他的目标之间的信息进行交互，得到可有效表达目标上下文的特征，参与场景图生成的结果预测。基于深度学习理论提出了一系列的建模目标上下文信息的方法包括循环神经网络、卷积神经网络和基于此的注意力机制等。因此，如何让算法自动学习到目标和其他目标之间的关系，并生成更有效的目标上下文的表达特征，是场景图生成算法中的难点，也是影响结果性能的根本原因。

(2)如何对场景图语义信息更加深层次的进行建模，以更好获得丰富的上下文信息：大部分的方法是分开建模目标上下文信息和关系上下文信息，并且没有对建模上下文信息的网络进行深度堆叠处理，该方式可能会出现的问题是不能很好的有效的建模目标上下文信息和关系上下文信息，因为目标上下文信息和关系上下文信息是相互影响的，所以我们这里采用的是同时建模目标上下文信息和关系上下文信息，并且通过将网络深度堆叠来获得更丰富的上下文信息。由于上下文信息对场景图的正确生成尤为重要，因此该任务对上下文信息的有效性更加敏感，对上下文信息的建模依赖性更高。

发明内容

本发明的目的是针对现有技术的不足，提供一种基于注意力机制的场景图生成方法。本发明主要包含两点：

1、将目标上下文信息和关系上下文信息的特征同时进行建模，充分发掘上下文的信息，并引入相对空间关系特征，得到更有效的上下文信息。

2、提出深层的关系注意力方法，将网络通过深度堆叠来更好的对上下文信息进行充分建模，充分理解场景图的上下文信息和目标相关性，得到包含目标上下文信息和关系上下文信息的有效表达。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤(1)、数据集的预处理及划分

首先对数据集中的图像进行预处理，然后划分数据集；

步骤(2)：使用训练好的目标检测网络(FasterRCNN)对预处理后的数据集中图像提取特征；

对于一张输入图像，使用训练好的目标检测网络计算出图像中包含物体的m个候选框；针对每一个候选框，将该候选框在图像中对应的区域输入到目标检测网络中，并提取目标检测网络中某一层的输出作为该候选框的视觉特征

将一张图像中所有候选框的特征拼接成总体视觉特征

表示自然实数集，d_v代表候选框的特征维度；

步骤(3)：构建候选框的空间特征

针对每张图像，根据步骤(2)中得到的m个候选框来计算每个候选框的空间特征

将每张图像中所有候选框的空间特征拼接成总空间特征为

d_s代表候选框的特征维度；

步骤(4)：构建候选框的语言特征

根据预先训练好的词向量模型，将候选框对应的分类转换为包含语义信息的词向量

也就是将离散的候选框的分类转换为连续语言特征，将每张图像中的所有候选框的语言特征拼接成总语言特征为

步骤(5)：构建相对关系特征

根据图像中的任意两个候选框生成相对关系特征

将一张图像中所有的候选框都构建成总相对关系特征为

步骤(6)：构建深度神经网络

将图像的视觉特征V、位置特征S、语言特征L拼接成最终的图像特征

将该图像特征输入到深度神经网络，结合相对关系特征F，根据自注意力机制将图像特征和相对关系特征F一起映射到隐藏特征空间，产生特征向量

最后将图像特征Z输入到全连接函数及激活函数中，输出的预测值是m个候选框的分类分数向量

同时预测m×m对候选框之间的关系分类分数向量

步骤(7)：损失函数

将步骤(6)中输出的两个预测的分类分数向量和关系分类分数向量分别同对应的标签向量一起输入到相应的损失函数中，并分别输出两个损失值；

所述的标签向量是步骤(1)数据集自带；

步骤(8)：训练深度神经网络模型

根据步骤(7)中的损失函数产生的损失值，利用反向传播算法对步骤(6)中构建的深度神经网络的模型参数进行梯度回传，不断优化，直至整个网络模型收敛；

步骤(9)：深度神经网络模预测值计算

将候选框的分类分数向量进行排序，选择最高分数对应的分类作为其预测分类；将候选框的关系分类分数向量进行排序，选择最高分数对应的关系作为其关系分类。

进一步的，步骤(1)具体实现如下：

剔除一些低质量的图片数据，并且使用最常见的150个目标类别和50个关系类别；还有数据集的划分，将数据集中70％的数据用于训练，剩下的30％用于测试。

进一步的，步骤(2)所述的用目标检测网络对图像提取特征，具体如下：

提取目标检测网络中某一层的输出作为该候选框的特征

每张图像选取m个候选框，将图像中所有的候选框拼接成总体视觉特征

具体公式如下：

V＝[υ¹，υ²，...，υⁱ，...，υ^m] (公式1)。

进一步的，步骤(3)所述的构建目标的空间特征，具体如下：

每个候选框的空间位置坐标为(x_min，y_min，x_max，y_max)，(x_min，y_min)表示候选框的左上角点的位置坐标，(x_max，y_max)表示候选框的右下角点的位置坐标，每个候选框的空间特征s公式如下：

其中，W、H表示图像的宽和高；w、h表示对应的候选框的宽和高；

将一张图像中的所有候选框的空间特征拼接成总体空间特征

具体公式如下：

S＝[s¹，s²，...，sⁱ，...，s^m] (公式3)。

进一步的，步骤(4)所述的构建目标的语言特征，具体如下：

每张图像中的所有候选框的语言特征拼接成总语言特征为

具体公式如下：

L＝[l¹，l²，...，lⁱ，...，l^m] (公式4)。

进一步的，步骤(5)所述的构建相对关系特征，具体如下：

由于候选框的空间特征建模了单个候选框的位置信息，因此通过任意两个候选框之间的相对位置信息进行建模生成关系特征

将第i个候选框的空间位置定义为(x_i，y_i，w_i，h_i)，该四维坐标分别表示候选框的中心点横坐标、纵坐标、宽、高；第i个候选框和第j个候选框之间的关系特征定义为：

将图像中的所有候选框的关系特征拼接成总关系特征为

具体公式如下：

进一步的，步骤(6)所述的构建深度神经网络，具体如下：

6-1.融合视觉特征、空间特征、语言特征；

视觉特征V、空间特征S、语言特征L是候选框的多种角度的特征，它们自然对齐所以方便融合；将空间特征S、语言特征L先经过全连接层转换到和视觉特征V一样的维度，然后三种特征拼接后的融合特征

公式如下：

Z＝[V，S，L] (公式7)

6-2.构建关系自注意力网络(RSA)

融合特征Z经过全连接映射转化为融合特征向量

公式如下：

X＝Linear(Z) (公式8)

将为融合特征向量X和关系特征F作为关系自注意力网络RSA的输入，输出特征向量

B′＝LN(X+RMHA(X，X，X，F)) (公式9)

B＝LN(B′+FFN(B′)) (公式10)

其中，RMHA的输入是融合特征向量X和关系特征F，输出是富含上下文信息特征向量

公式如下：

Q＝Linear(X) (公式11)

K＝Linear(X) (公式12)

V＝Linear(X) (公式13)

其中Q、K、V分别由融合特征Z经过全连接层映射得到，其中，

φ(F)＝log(MIP(F)+∈)，∈＝1e^-6，MLP是两层感知机，ReLU是激活函数；

其中，FFN结构，输入是上下文信息特征向量B′，公式如下：

FFN(B′)＝FC_d(Drop(ReLU(FC_4d(B′)))) (公式15)

其中，LN是归一化函数；

6-3.深度堆叠RSA网络

以融合特征Z和关系特征F作为深度堆叠RSA网络[RSA⁽¹⁾，RSA⁽²⁾，...，RSA^(N)]的输入；将第n层RSA⁽ⁿ⁾的输出特征Z⁽ⁿ⁾和关系特征F作为第n+1层RSA⁽ⁿ⁺¹⁾的输入，迭代往复，公式如下：

Z⁽ⁿ⁾＝RSA⁽ⁿ⁾(Z^(n-1)，F) (公式16)

其中，Z⁽⁰⁾＝Z，对不同层的RSA，关系特征F保持不变；

6-4.候选框分类优化

将输出特征Z⁽ⁿ⁾经过全连接层映射到分类分数向量

c代表选框的分类数目，公式如下：

O＝Linear(Z⁽ⁿ⁾) (公式17)

6-5.多头注意力关系预测

将输出特征Z⁽ⁿ⁾作为输入，经过全连接层映射输出单头p_j，公式如下：

p_j＝Linear(Z⁽ⁿ⁾)Linear(Z⁽ⁿ⁾)^T (公式18)

将输出特征Z⁽ⁿ⁾和关系特征F作为多头注意力关系预测器的输入，关系分类分数向量

作为其输出，r代表关系分类数目，公式如下：

P＝([p₁，p₂，...，p_j，...，p_head]+MLP(F))W_r (公式19)

其中，head代表注意力头的数目，MLP代表二层感知机，

进一步的，步骤(7)所述的损失函数，具体如下：

7-1.计算候选框预测分类分数o_i与真实标签o_i ^*之间的差距，使用交叉熵计算如下：

7-2.计算候选框的预测关系分类分数与标签向量中真实值之间的差距，使用交叉熵计算如下：

7-3.深度神经网络的总损失，具体公式如下：

Loss＝Loss_obj+λLoss_rel (公式23)

本发明有益效果如下：

本发明核心方法为提出深层关系自注意力网络(RSAN)，用来对目标上下文信息和目标间的关系上下文信息的有效建模，并在场景图生成这一深度学习任务中验证该模型的优越性。本方法首次提出在对目标上下文信息和目标间关系上下文信息进行建模，由此得到的上下文信息不仅获得了目标间的上下文信息，同时建立了关系间的上下文信息的深层次理解和交互。在RSAN模型表现优异的前提下，本发明进一步地提出深度关系自注意力机制的方法，该方法将自注意力机制延伸到场景图生成，不再局限于机器翻译等应用。实验中将图像的目标特征和相对关系特征输入RSAN模型，在RSAN模型中完成了目标和关系上下文信息的深层理解和交互，进而得到了更好的实验结果，这证明了该方法的普适通用性，可在其他关系推理的任务中充分发挥价值。

本发明所提出的一种算法，尤其是用于同时建模目标上下文和关系上下文的RSAN网络在场景图生成的任务上取得了显著性的提升效果，超越了该任务上的大部分主流方法。并且本发明的RSAN网络在其他跨模态相关领域中如图像内容问答和视觉关系检测中也具有十分重要的应用价值和巨大的潜力。

附图说明

图1：关系自注意力模块

图2：关系自注意力网络架构(RSAN)

具体实施方式

下面对本发明的详细参数做进一步具体说明。

如图1、2所示，本发明提供一种基于深度关系自注意力网络的场景图生成方法。

步骤(1)具体实现如下：

步骤(2)所述使用训练好的目标检测网络对图像提取特征，具体如下：

每个候选框对应图像区域的特征p_f，其中

，每张图片选取64个候选框，将一张图片中所有的候选框拼接成总体特征

步骤(3)所述根据目标的空间位置坐标来构建空间特征，具体如下：

每个回归框的空间位置坐标为(x_min，y_min，x_max，y_max)，(x_min，y_min)表示目标框的左上角点的位置坐标，(x_max，y_max)表示目标框的右下角点的位置坐标。

将一张图片中的所有目标空间特征拼接成总体空间特

步骤(4)所述构建目标语言特征，具体如下：

使用预训练好的词向量嵌入模型来将离散的目标分类转换为连续语言特征

将m个候选框的语言特征拼接成总体语言特征向量

步骤(5)所述的构建相对关系特征，具体如下：

目标的空间特征建模了单个目标的位置信息，则任意两个候选框之间的相对位置进行建模来生成关系特征

将第i个目标空间位置定义为(x_i，y_i，w_i，h_i)，该四维坐标分别表示目标的中心点横纵坐标、宽、高。

将一张图片中的所有目标关系对特征拼接成总关系特征为

具体公式如下：

步骤(6)所述的构建深度神经网络，具体如下：

6-1.融合视觉特征、空间特征、语言特征；

6-2.构建关系自注意力网络(RSA)

将为融合特征向量X和关系特征F作为关系自注意力网络RSA的输入，输出特征向量，其中Q、K、V分别由Z经过全连接层映射得到，

以Q、K、V、F作为输入，经过RSA网络输出为富含上下文信息的特征向量

6-3.深度堆叠RSA网络

以融合后的特征Z和关系特征F作为输入，深度堆叠RSA网络[RSA⁽¹⁾，RSA⁽²⁾，...，RSA⁽ⁿ⁾]，这里的n可以取1，2，3，4。将第n层RSA⁽ⁿ⁾的输出特征和关系特征F作为第n+1层RSA⁽ⁿ ⁺¹⁾的输入，迭代往复.

其中，Z⁽⁰⁾＝Z，对不同层的RSA，关系特征F保持不变。

6-4.目标分类优化

将6-3.的输出Z⁽ⁿ⁾经过全连接层映射到

6-5.多头注意力关系预测

将6-3.的输出Z⁽ⁿ⁾作为输入，经过全连接层输出单头p_j。

以6-3.的输出Z⁽ⁿ⁾和关系特征F作为多头注意力关系预测器的输入，关系预测结果P作为其输出，

其中，MLP代表二层感知机，

步骤(7)所述的损失函数，具体如下：

7-1.计算目标预测分类分数o_i与真实标签o_i ^*之间的差距，这里使用交叉熵(softmax cross entropy)。

7-2.计算目标关系对的预测分数与真实值之间的差距，这里使用交叉熵(sigmoidcross entropy)。

7-3.模型总损失，具体公式如下：

Loss＝Loss_obj+λLoss_rel (公式18)

其中，λ是用来平衡两个损失值的超参数，可以取0.1、1、10或100。

步骤(8)所述的训练模型，具体如下：

根据步骤(7)中的损失函数产生的损失值利用反向传播算法对步骤(6)中神经网络的模型参数进行梯度回传，不断优化，直至整个网络模型收敛。

步骤(9)所述网络预测值，具体如下：

9-1.根据步骤(6)的6-4输出的候选框的分类分数向量O进行排序，选择最高分数对应的分类作为其预测分类；。

9-2.根据步骤(6)的6-5输出的候选框的关系分类分数向量P进行排序，选择最高分数对应的关系作为其关系分类。。

Claims

1.一种基于深度关系自注意力网络的场景图生成方法，其特征在于包括如下步骤：

步骤(1)、数据集的预处理及划分

首先对数据集中的图像进行预处理，然后划分数据集；

步骤(2)：使用训练好的目标检测网络对预处理后的数据集中图像提取特征；

将一张图像中所有候选框的特征拼接成总体视觉特征

表示自然实数集，d_v代表候选框的特征维度；

步骤(3)：构建候选框的空间特征

将每张图像中所有候选框的空间特征拼接成总空间特征为

d_s代表候选框的特征维度；

步骤(4)：构建候选框的语言特征

步骤(5)：构建相对关系特征

根据图像中的任意两个候选框生成相对关系特征

将一张图像中所有的候选框都构建成总相对关系特征为

步骤(6)：构建深度神经网络

将图像的视觉特征V、位置特征

语言特征L拼接成最终的图像特征

同时预测m×m对候选框之间的关系分类分数向量

步骤(7)：损失函数

所述的标签向量是步骤(1)数据集自带；

步骤(8)：训练深度神经网络模型

步骤(9)：深度神经网络模预测值计算

2.根据权利要求1所述的一种基于深度关系自注意力网络的场景图生成方法，其特征在于步骤(2)所述的用目标检测网络对图像提取特征，具体如下：

提取目标检测网络中某一层的输出作为该候选框的特征

具体公式如下：

V＝[v¹，v²，...，vⁱ，....，v^m] (公式1)。

3.根据权利要求2所述的一种基于深度关系自注意力网络的场景图生成方法，其特征在于步骤(3)所述的构建目标的空间特征，具体如下：

将一张图像中的所有候选框的空间特征拼接成总体空间特征

具体公式如下：

4.根据权利要求书3所述的一种基于深度关系自注意力网络的场景图生成方法，其特征在于步骤(4)所述的构建目标的语言特征，具体如下：

每张图像中的所有候选框的语言特征拼接成总语言特征为

具体公式如下：

L＝[l¹，l²，...，lⁱ，...，l^m] (公式4)。

5.根据权利要求书4所述的一种基于深度关系自注意力网络的场景图生成方法，其特征在于步骤(5)所述的构建相对关系特征，具体如下：

将图像中的所有候选框的关系特征拼接成总关系特征为

具体公式如下：

6.根据权利要求书5所述的一种基于深度关系自注意力网络的场景图生成方法，其特征在于步骤(6)所述的构建深度神经网络，具体如下：

6-1.融合视觉特征、空间特征、语言特征；

公式如下：

Z＝[V，S，L] (公式7)

6-2.构建关系自注意力网络(RSA)

融合特征Z经过全连接映射转化为融合特征向量

公式如下：

X＝Linear(Z) (公式8)

B′＝LN(X+RMHA(X，X，X，F)) (公式9)

B＝LN(B′+FFN(B′)) (公式10)

公式如下：

Q＝Linear(X) (公式11)

K＝Linear(X) (公式12)

V＝Linear(X) (公式13)

其中Q、K、V分别由融合特征Z经过全连接层映射得到，其中，

φ(F)＝log(MLP(F)+∈)，∈＝1e^-6，MLP是两层感知机，ReLU是激活函数；

其中，FFN结构，输入是上下文信息特征向量B′，公式如下：

FFN(B′)＝FC_d(Drop(ReLU(FC_4d(B′)))) (公式15)

其中，LN是归一化函数；

6-3.深度堆叠RSA网络

以融合特征Z和关系特征F作为深度堆叠RSA网络

[RSA⁽¹⁾，RSA⁽²⁾，...，RSA^(N)]的输入；将第n层RSA⁽ⁿ⁾的输出特征Z⁽ⁿ⁾和关系特征F作为第n+1层RSA⁽ⁿ⁺¹⁾的输入，迭代往复，公式如下：

Z⁽ⁿ⁾＝RSA⁽ⁿ⁾(Z^(n-1)，F) (公式16)

其中，Z⁽⁰⁾＝Z，对不同层的RSA，关系特征F保持不变；

6-4.候选框分类优化

将输出特征Z⁽ⁿ⁾经过全连接层映射到分类分数向量

c代表选框的分类数目，公式如下：

O＝Linear(Z⁽ⁿ⁾) (公式17)

6-5.多头注意力关系预测

p_j＝Linear(Z⁽ⁿ⁾)Linear(Z⁽ⁿ⁾)^T (公式18)

作为其输出，r代表关系分类数目，公式如下：

P＝([p₁，p₂，...，p_j，...，p_head]+MLP(F))W_r (公式19)

其中，head代表注意力头的数目，MLP代表二层感知机，

7.根据权利要求书6所述的一种基于深度关系自注意力网络的场景图生成方法，其特征在于步骤(7)所述的损失函数，具体如下：

7-3.深度神经网络的总损失，具体公式如下：

Loss＝Loss_obj+λLoss_rel (公式23)

其中，λ是用来平衡两个损失的超参数。