CN112989927B

CN112989927B - 一种基于自监督预训练的场景图生成方法

Info

Publication number: CN112989927B
Application number: CN202110151201.1A
Authority: CN
Inventors: 俞俊; 余宙; 李娉
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2024-03-05
Anticipated expiration: 2041-02-03
Also published as: CN112989927A

Abstract

本发明公开了一种基于自监督预训练的场景图生成方法。本发明步骤如下：1、数据预处理及数据集的划分，2、使用训练好的目标检测网络对图像提取特征，3、构建目标的空间特征，4、构建自监督预训练网络模型，5、训练自监督预训练网络模型，6、构建自监督预训练和微调模型的场景图生成模型，7、训练场景图生成模型，8、网络预测值计算。本发明尤其是用于同时建模目标上下文和关系上下文在场景图生成的任务上取得了显著性的提升效果，超越了该任务上的大部分主流方法。并且本发明的基于自监督预训练的场景图生成方法在其他跨模态相关领域中如图像内容问答和视觉关系检测中也具有十分重要的应用价值和巨大的潜力。

Description

一种基于自监督预训练的场景图生成方法

技术领域

本发明提出一种基于自监督预训练的场景图生成方法。

背景技术

场景图生成是新兴任务，主要应用在跨媒体领域。场景图生成任务主要是通过建模目标间的上下文信息来生成场景图。具体来讲是输入一张图片，模型深入理解图像内容，生成这个图像抽象出来的场景图，场景图中包含结点和边信息，结点和边分别表示目标和目标间的关系。例如,图像内容为一个带着头盔的人在街上骑车摩托车，其中可能包含有“人戴着头盔”、“人骑车”、“车在街上”、“头盔在人头上”。为了得到更准确的预测，机器需要深入理解图像的内容，先进行准确的目标检测，并在此基础上对目标上下文信息和目标之间的关系上下文信息进行融合以最大程度地挖掘目标之间的关系。和单纯的关系检测任务比起来，场景图生成可以被理解为具有同时建模目标上下文信息和关系上下文信息的任务，此任务的关键是如何同时建模好视觉信息及利用好上下文信息。

自监督预训练是利用原始数据作为监督来源，它已经被广泛应用在很多计算机视觉任务中，如图像着色、拼图解决、图像修复、旋转预测、相对位置预测等任务，此外自监督预训练对自然语言处理任务的研究有很大的推动作用。最近，将自监督预训练方法应用到多模态任务中越来越受到关注，方法是对大规模图像/视频和文本对进行预训练，然后对下游任务进行微调。

随着图像领域研究的推进，场景图相关任务也越来越受到重视。在场景图生成任务中，主流方法主要分为两种，一种是循环神经网络，一种是是基于卷积神经网络的模型，也有部分研究开始注意到基于注意力机制的模型，但是很少有涉及到将自监督预训练方法。自监督预训练主要是基于对大规模数据的预训练，然后对下游任务进行微调。由于自监督预训练的权重富含图片相关信息，有效的建模视觉信息对场景图生成任务尤为重要，所以，将自监督预训练和场景图生成任务相结合无疑有助于加深场景图的理解进而增强最终场景图生成的表达能力。

在落地应用中，场景图生成任务应用广泛，比如智能驾驶中通过判断驾驶员的手和方向盘的关系，判断驾驶员是否不规范驾驶；再者，在医学领域中，可以通过场景图生成的方法，来构造药物分子结构，具有十分良好的研究前景及重要的研究意义。

综上所述,场景图生成是一个非常值得深入研究的课题，本专利拟从该任务中几个关键点切入展开探讨，解决目前方法存在的难点和重点，形成一套完整的基于自监督预训练的场景图生成系统。

场景图标签一般是由不同的标注者完成的，差异性可能比较大；同时，图像载体主题多样，语义信息复杂差异大，这使得场景图生成面临巨大的挑战。具体而言，主要存在如下两方面的难点：

(1)如何对目标上下文信息进行有效建模：场景图数据集由于标注问题及实际情况，差异性比较大，呈现长尾分布，那么如何更加有效的建模视觉信息来避免长尾分布和先验带来的影响及干扰，解决这个问题尤为重要。为了能够对目标的视觉信息更好的进行建模，这里引入自监督预训练权重，这些自监督预训练的权重是在大量图片中进行自监督预训练的，包含大量图片的视觉信息。再者，数据集中的长尾分布，影响场景图生成的效果，这里主要根据目标的视觉信息来生成场景图，来尽量避免数据集中的干扰，使得生成的场景图更加准确。

(2)如何更深层的建模场景图语义信息，以更好获得丰富的上下文信息：大部分的方法是分开建模目标上下文信息和关系上下文信息，而且未对建模上下文信息的网络进行深度堆叠处理，这些方法可能会出现的问题是不能很好的有效的建模目标上下文信息和关系上下文信息，因为目标上下文信息和关系上下文信息是相互影响的，所以我们这里采用的是同时建模目标上下文信息和关系上下文信息，并且通过将网络深度堆叠来获得更丰富的上下文信息。目标和目标之间一般具有较高的差异性，该问题主要是通过注意力机制进行处理，得到有效的目标上下文特征表达。建模有效的富含上下文信息的目标特征，并通过注意力机制特征建模将目标和所有其他的目标之间的信息进行交互，得到可有效表达目标上下文的特征，更好的预测场景图生成。由于上下文信息对场景图的正确生成尤为重要，因此该任务对上下文信息的有效性更加敏感，对上下文信息的建模依赖性更高，所以如何让算法自动学习到目标和其他目标之间的关系，并生成更有效的目标上下文的表达特征，是场景图生成算法中的难点，也是影响结果性能的根本原因。

发明内容

本发明提供了一种基于自监督预训练的场景图生成方法。本发明主要包含两点：

1、提出一种基于自监督预训练的场景图生成方法，将网络权重在大量图片自监督预训练好的权重来初始化，对上下文信息进行充分建模，充分理解场景图的上下文信息和目标相关性，得到包含目标上下文信息和关系上下文信息的有效表达。

2、将目标上下文信息和关系上下文信息的特征同时进行建模，充分发掘上下文的信息，得到更有效的上下文信息。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤(1)、数据预处理及数据集的划分

对于场景图生成的数据集Ⅰ和预训练的数据集Ⅱ中的图像进行预处理，并且对预处理后的数据集Ⅰ和数据集Ⅱ均划分训练数据集和测试数据集。

步骤(2)：使用训练好的目标检测网络(Faster RCNN)对预处理后的数据集I和数据集II中的图像提取特征；

对于一张图像，使用训练好的目标检测网络计算出图像中包含物体的m个候选框；针对每一个候选框，将该候选框在图像中对应的区域输入到目标检测网络中，并提取目标检测网络中某一层的输出作为该候选框的视觉特征将一张图像中所有候选框的特征拼接成总体视觉特征/> 表示自然实数集，d_v代表候选框的特征维度；

步骤(3)：构建候选框的空间特征

针对每张图像，根据步骤(2)中得到的m个候选框来计算每个候选框的空间特征将每张图像中所有候选框的空间特征拼接成总空间特征为/>d_s代表候选框的特征维度；

步骤(4)：构建自监督预训练网络模型

将图像特征中视觉特征V、空间特征S来生成最终的图像特征将该图像特征Z输入到自监督预训练网络模型进行自监督预训练，根据多层自注意力机制将图像特征Z映射到隐藏特征空间，产生特征向量/>最后将特征向量A输入到掩码区域重建模块中，来重建被掩码的图像区域，输出重建后预测向量/>将预测向量与对应的目标向量(已知标签向量)一起输入到相应的损失函数中，输出损失值I。

步骤(5)：训练自监督预训练网络模型

根据步骤(4)中的损失函数产生的损失值I，利用反向传播算法对步骤(4)的自监督预训练网络模型的参数进行梯度回传，不断优化，直至整个网络模型收敛。

步骤(6)：构建基于自监督预训练的场景图生成模型

在自监督预训练网络模型的基础上，加入场景图生成模块。将自监督预训练网络模型输出的特征向量输入到场景图生成模块，预测m×m对候选框之间的预测关系/>将输出的预测关系与对应的目标关系(已知标签关系)一起输入到相应的损失函数中，输出损失值Ⅱ。

步骤(7)：训练场景图生成模型

将步骤(5)中自监督预训练好的权重作为场景图生成模型的初始化权重，来替代随机初始化的权重，根据步骤(6)中的损失函数产生的损失值Ⅱ，利用反向传播算法对步骤(6)的场景图生成模型的参数进行梯度回传，不断优化，直至整个网络模型收敛。

所述的自监督预训练好的权重，是由预训练的数据集Ⅱ中的训练数据集经过自监督预训练网络模型得出的权重。

步骤(8)：网络预测值计算

对场景图生成模型输出的预测关系中的关系分数p进行排序，选择分数最高的作为该预测关系的分类。

步骤(1)具体实现如下：

先处理场景图生成任务的数据集，剔除一些低质量的图片数据，并且使用最常见的150个目标类别和50个关系类别；还有数据集的划分，将数据集中70％的数据用于训练，剩下的30％用于测试。

预训练的数据集很庞大，包含大量的数据，其中包含COCO、Visual Genome、Conceptual Captions，SBU Captions，这四个数据集，剔除一些重合的数据，其中对于COCO数据集，95％用于训练集，5％用于验证集；对于Visual Genome数据集，98％用于训练集，2％用于验证集；对于Conceptual Captions数据集，99％用于验证集，1％用于测试集；对于SBU Captions数据集，99％用于训练集，1％用于验证集。

步骤(2)所述使用训练好的目标检测网络对图像提取特征，具体如下：

进一步的，步骤(2)所述的用目标检测网络对图像提取特征，具体如下：

提取目标检测网络中某一层的输出作为该候选框的特征每张图像选取m个候选框，将图像中所有的候选框拼接成总体视觉特征/>具体公式如下：

V＝[v¹，v²，...，vⁱ，...，v^m] (公式1)。

进一步的，步骤(3)所述的构建目标的空间特征，具体如下：

每个候选框的空间位置坐标为(x_min，y_min，x_max，y_max)，(x_min，y_min)表示候选框的左上角点的位置坐标，(x_max，y_max)表示候选框的右下角点的位置坐标，每个候选框的空间特征s公式如下：

其中，W、H表示图像的宽和高；w、h表示对应的候选框的宽和高；

将一张图像中的所有候选框的空间特征拼接成总体空间特征具体公式如下：

S＝[s¹，s²，...，sⁱ，...，s^m] (公式3)。

步骤(4)所述构建自监督预训练网络模型，具体如下：

4-1.融合视觉特征、空间特征

视觉特征V、空间特征S看作是目标的多种角度的特征，它们自然对齐，故可以方便融合。因为各特征信息差异较大，所以先将各特征先经过全连接层转换到一样的维度d_z，并且将这两种特征相加得到图像特征为公式如下：

Z＝V+S (公式4)

4-2.构建自监督预训练网络模型的基础网络结构SA：

图像特征Z经过全连接映射转化为特征向量公式如下：

X＝Linear(Z) (公式5)

将特征向量X作为自监督预训练网络模型的输入，输出特征向量

A′＝LN(X+MHA(X，X，X)) (公式6)

A＝LN(A′+FFN(A′)) (公式7)

其中，MHA是多头注意力模块中的一个函数，其输入是X，输出是富含上下文信息的特征向量公式如下：

Q＝Linear(X) (公式8)

K＝Linear(X) (公式9)

V′＝Linear(X) (公式10)

其中，Q、K、V′分别由Z经过全连接层映射得到，其中， MLP是两层感知机，ReLU是激活函数。

其中，FFN结构，输入是特征向量A′，公式如下：

FFN(A′)＝FC_d(Drop(ReLU(FC_4d(A′)))) (公式12)

其中，LN是归一化函数。

4-3.深度堆叠基础网络结构SA

将融合后的图像特征Z作为基础网络结构SA[SA⁽¹)^，SA⁽²⁾，...，SA^(N)]的输入。将第n层SA(n)的输出特征作为第n+1层SA⁽ⁿ⁺¹⁾的输入，迭代往复，公式如下：

Z⁽ⁿ⁾＝SA⁽ⁿ⁾(Z^(n-1)) (公式13)

其中，Z⁽⁰⁾＝Z。

4-4.掩码区域重建模块

将步骤4-3的输出Z⁽ⁿ⁾经过全连接层映射得到预测向量d_c代表目标的视觉特征的维度，公式如下：

C＝Linear(Z⁽ⁿ⁾) (公式14)

损失函数，具体如下：

计算经过掩码区域重建模块重建后的视觉特征c_i与真实标签c_i ^*之间的差距，这里使用SmoothL1Loss损失函数，具体公式如下：

所述的真实标签c_i ^*为已知标签向量的一个元素。

步骤(6)所述的构建自监督预训练和微调模型的场景图生成模型，具体如下：

将步骤4-3的输出Z⁽ⁿ⁾作为场景图生成模型的输入，经过全连接层输出单头p_j，公式如下：

p_j＝Linear(Z⁽ⁿ⁾)Linear(Z⁽ⁿ⁾)^T (公式16)

将步骤4-3的输出Z⁽ⁿ⁾作为多头注意力关系预测器的输入，预测关系作为其输出，r代表关系分类数目，公式如下：

P＝([p₁，p₂，...，p_j，...，p_h])W_r (公式17)

其中，h代表注意力头的数目，

损失函数，具体如下：

计算输出的预测关系与对应的目标关系(已知标签关系)之间的差距，即计算预测分数p_i(预测分数是预测关系中的元素)与真实值p_i ^*(真实值是目标关系中的元素)之间的差距，这里使用交叉熵(sigmoid cross entropy)，具体公式如下：

本发明有益效果如下：

本发明核心方法为将自监督预训练应用到场景图生成任务中，用在大量图片数据中自监督预训练好的权重作为场景图生成模型的初始化权重，并在场景图生成这一深度学习任务中验证该模型的优越性。本方法首次将自监督预训练应用到场景图生成，将在大量图片中自监督预训练后的网络权重应用到场景图生成中，能有效的建模目标上下文信息和目标间关系上下文信息，同时建立了关系间的上下文信息的深层次理解和交互。本发明提出基于自监督预训练的场景图生成方法，同时将自注意力机制应用到场景图生成，使其不仅仅只适用于机器翻译等自然语言任务。实验中将图像的目标特征输入自监督预训练网络结构，在模型中完成了目标和关系上下文信息的深层理解和交互，进而得到了更好的实验结果，证明该方法普适性强，同时可在关系推理等多模态任务中充分发挥价值。

本发明尤其是用于同时建模目标上下文和关系上下文在场景图生成的任务上取得了显著性的提升效果，超越了该任务上的大部分主流方法。并且本发明的基于自监督预训练的场景图生成方法在其他跨模态相关领域中如图像内容问答和视觉关系检测中也具有十分重要的应用价值和巨大的潜力。

附图说明

图1：自注意力模块

图2：自监督预训练与微调模型图

具体实施方式

下面对本发明的详细参数做进一步具体说明。

如图1和图2所示，本发明提供一种基于深度关系自注意力网络的场景图生成方法。

步骤(1)、数据预处理及数据集的划分

对于场景图生成的数据集I和预训练的数据集II中的图像进行预处理，并且对预处理后的数据集I和数据集II均划分训练数据集和测试数据集。

步骤(3)：构建候选框的空间特征

步骤(4)：构建自监督预训练网络模型

步骤(5)：训练自监督预训练网络模型

步骤(6)：构建基于自监督预训练的场景图生成模型

在自监督预训练网络模型的基础上，加入场景图生成模块。将自监督预训练网络模型输出的特征向量输入到场景图生成模块，预测m×m对候选框之间的预测关系/>将输出的预测关系与对应的目标关系(已知标签关系)一起输入到相应的损失函数中，输出损失值II。

步骤(7)：训练场景图生成模型

将步骤(5)中自监督预训练好的权重作为场景图生成模型的初始化权重，来替代随机初始化的权重，根据步骤(6)中的损失函数产生的损失值II，利用反向传播算法对步骤(6)的场景图生成模型的参数进行梯度回传，不断优化，直至整个网络模型收敛。

所述的自监督预训练好的权重，是由预训练的数据集II中的训练数据集经过自监督预训练网络模型得出的权重。

步骤(8)：网络预测值计算

步骤(1)具体实现如下：

剔除一些低质量的图片数据，并且使用最常见的150个目标类别和50个关系类别；还有数据集的划分，将数据集中70％的数据用于训练，剩下的30％用于测试。

每个候选框对应图像区域的特征p_f，其中每张图片选取64个候选框，将一张图片中所有的候选框拼接成总体特征/>

步骤(3)所述根据目标的空间位置坐标来构建空间特征，具体如下：

每个回归框的空间位置坐标为(x_min，y_min，x_max，y_max)，(x_min，y_min)表示目标框的左上角点的位置坐标，(x_max，y_max)表示目标框的右下角点的位置坐标。

将一张图片中的所有目标空间特征拼接成总体空间特

步骤(4)所述构建自监督预训练网络模型，具体如下：

4-1.融合视觉特征、空间位置特征

视觉特征V、空间位置特征S可以看作是目标的多种角度的特征，它们自然对齐，故可以方便融合。因为各特征信息差异较大，所以先将各特征先经过全连接层转换到一样的维度d_z为768，并且将这两种特征相加得到特征为

4-2.构建自监督预训练网络模型的基础网络结构SA

特征Z经过全连接映射转化为特征向量将特征向量X作为自监督预训练网络模型的输入，输出/>MHA的输入是X，输出是富含上下文信息的特征向量/>其中Q、K、V′分别由Z经过全连接层映射得到，其中，/>MLP是两层感知机，ReLU是激活函数。

4-3.深度堆叠SA网络

以融合后的特征Z作为输入，深度堆叠SA网络[SA⁽¹⁾，SA⁽²⁾，...，SA^(N)]。将第n层SA⁽ⁿ⁾的输出特征作为第n+1层SA⁽ⁿ⁺¹⁾的输入，迭代往复，其中n取12层。

4-4.掩码区域建模模块

将4-3.的输出Z⁽ⁿ⁾经过全连接层映射到d_c代表目标的视觉特征的维度为2048。

4-5.自监督预训练网络模型的损失函数

计算重建的视觉特征c_i与真实标签c_i ^*之间的差距，这里使用SmoothL1Loss损失函数.

步骤(5)所述的自监督预训练网络模型的训练，具体如下：

根据步骤(4)中的损失函数产生的损失值利用反向传播算法对步骤(4)中神经网络的模型参数进行梯度回传，不断优化，直至整个网络模型收敛。

将4-3的输出Z⁽ⁿ⁾作为输入，经过全连接层输出单头p_j。以4-3的输出Z⁽ⁿ⁾和关系特征F作为多头注意力关系预测器的输入，关系预测结果作为其输出，r代表关系分类数目为51，其中，h代表注意力头的数目为12.损失函数，具体如下：

计算目标关系对的预测分数与真实值之间的差距，这里使用交叉熵(sigmoidcross entropy)。

步骤(7)所述的训练模型，具体如下：

根据步骤(6)中的损失函数产生的损失值利用反向传播算法对步骤(6)中神经网络的模型参数进行梯度回传，不断优化，直至整个网络模型收敛。

步骤(8)所述的网络预测值计算，具体如下：

根据步骤(7)输出的关系预测分数P进行排序，取分数最高的分类作为目标关系对的最终关系分类。

Claims

1.一种基于自监督预训练的场景图生成方法，其特征在于包括如下步骤：

步骤(1)、数据预处理及数据集的划分；

对于场景图生成的数据集I和预训练的数据集II中的图像进行预处理，并且对预处理后的数据集I和数据集II均划分训练数据集和测试数据集；

步骤(2)：使用训练好的目标检测网络对预处理后的数据集I和数据集II中的图像提取特征；

对于一张图像，使用训练好的目标检测网络计算出图像中包含物体的m个候选框；针对每一个候选框，将该候选框在图像中对应的区域输入到目标检测网络中，并提取目标检测网络中某一层的输出作为该候选框的视觉特征将一张图像中所有候选框的特征拼接成总体视觉特征/> 表示自然实数集，d_v代表候选框的侯选框的视觉特征维度；

步骤(3)：构建候选框的空间特征；

针对每张图像，根据步骤(2)中得到的m个候选框来计算每个候选框的空间特征将每张图像中所有候选框的空间特征拼接成总空间特征为/>d_s代表候选框的侯选框的空间特征维度；

步骤(4)：构建自监督预训练网络模型；

将图像特征中视觉特征V、空间特征S来生成最终的图像特征将该图像特征Z输入到自监督预训练网络模型进行自监督预训练，根据多层自注意力机制将图像特征Z映射到隐藏特征空间，产生特征向量/>最后将特征向量A输入到掩码区域重建模块中，来重建被掩码的图像区域，输出重建后预测向量/>将预测向量与对应的目标向量一起输入到相应的损失函数中，输出损失值I；

步骤(5)：训练自监督预训练网络模型；

根据步骤(4)中的损失函数产生的损失值I，利用反向传播算法对步骤(4)的自监督预训练网络模型的参数进行梯度回传，不断优化，直至整个网络模型收敛；

步骤(6)：构建基于自监督预训练的场景图生成模型；

在自监督预训练网络模型的基础上，加入场景图生成模块；将自监督预训练网络模型输出的预测向量输入到场景图生成模块，预测m×m对候选框之间的预测关系r表示关系分类数目；将输出的预测关系与对应的目标关系一起输入到相应的损失函数中，输出损失值II；

步骤(7)：训练场景图生成模型；

将步骤(5)中自监督预训练好的权重作为场景图生成模型的初始化权重，来替代随机初始化的权重，根据步骤(6)中的损失函数产生的损失值II，利用反向传播算法对步骤(6)的场景图生成模型的参数进行梯度回传，不断优化，直至整个网络模型收敛；

所述的自监督预训练好的权重，是由预训练的数据集II中的训练数据集经过自监督预训练网络模型得出的权重；

步骤(8)：网络预测值计算；

2.根据权利要求1所述的一种基于自监督预训练的场景图生成方法，其特征在于步骤4具体实现如下：

4-1.融合视觉特征、空间特征

将视觉特征V、空间特征S看作是目标的多种角度的特征，先将各特征先经过全连接层转换到一样的维度d_z，并且将这两种特征相加得到图像特征为公式如下：

Z＝V+S (1)

4-2.构建自监督预训练网络模型的基础网络结构SA：

图像特征Z经过全连接映射转化为特征向量公式如下：

X＝Linear(Z) (2)

A′＝LN(X+MHA(X，X，X)) (3)

A＝LN(A′+FFN(A′)) (4)

Q＝Linear(X) (5)

K＝Linear(X) (6)

V′＝Linear(X) (7)

其中，Q、K、V′分别由Z经过全连接层映射得到，其中， MLP是两层感知机，ReLU是激活函数；

其中，FFN结构，输入是特征向量A′，公式如下：

FFN(A′)＝FC_d(Drop(ReLU(FC_4d(A′)))) (9)

其中，LN是归一化函数；

4-3.深度堆叠基础网络结构SA

将融合后的图像特征Z作为基础网络结构SA[SA⁽¹⁾，SA⁽²⁾，...，SA^(N)]的输入；将第n层SA⁽ⁿ⁾的输出特征作为第n+1层SA⁽ⁿ⁺¹⁾的输入，迭代往复，公式如下：

Z⁽ⁿ⁾＝SA⁽ⁿ⁾(Z^(n-1)) (10)

其中，Z⁽⁰⁾＝Z；

4-4.掩码区域重建模块

C＝Linear(Z⁽ⁿ⁾) (11)

损失函数，具体如下：

所述的真实标签c_i ^*为已知标签向量的一个元素。

3.根据权利要求1所述的一种基于自监督预训练的场景图生成方法，其特征在于步骤(6)所述的构建自监督预训练和微调模型的场景图生成模型，具体如下：

p_j＝Linear(Z⁽ⁿ⁾)Linear(Z⁽ⁿ⁾)^T (13)

P＝([p₁，p₂，...，p_j，...，p_h])W_r (14)

其中，h代表注意力头的数目，

损失函数，具体如下：

计算输出的预测关系与对应的目标关系之间的差距，即计算预测分数p_i与真实值p_i ^*之间的差距，这里使用交叉熵，具体公式如下：