CN113065587A

CN113065587A - 一种基于超关系学习网络的场景图生成方法

Info

Publication number: CN113065587A
Application number: CN202110309285.7A
Authority: CN
Inventors: 俞俊; 陈志�; 刘晓鹏; 张健; 张驰; 詹忆冰
Original assignee: PEOPLE S DAILY PRESS; Hangzhou Dianzi University
Current assignee: PEOPLE S DAILY PRESS; Hangzhou Dianzi University
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2021-07-02
Anticipated expiration: 2041-03-23
Also published as: CN113065587B

Abstract

本发明公开了一种基于超关系学习的场景图生成方法。本发明包括以下步骤：1、通过目标自注意力网络加强目标交互，融合目标的特征。2、通过目标‑关系注意力网络加强目标和关系的交互，融合目标和关系之间的特征。3、通过超关系注意力网络去整合超关系的传递推理。4、模型训练，将目标损失函数和关系损失函数放入优化器，通过反向传播算法对网络参数进行梯度回传和更新。本发明提出一种针对场景图生成的深度神经网络，特别是提出一种超关系学习网络，充分利用目标和关系之间的交互和传递推理，提高了场景图生成中关系的推理能力，并且在场景图生成领域中的性能得到了很大的提升。

Description

一种基于超关系学习网络的场景图生成方法

技术领域

本发明提出一种基于超关系学习(Hyper-relationship Learning Network)的场景图生成方法(HLN)。HLN起源于超图，使用多层的注意力网络是目标之间相互作用。进一步提出了目标关系注意力网络(OR-GAT)去自主在目标和关系之间相互作用，融合特征。本发明首次提出了超关系注意力网络去整合超关系的传递推理。其中超关系指的是三个目标之间关系的子集。通过目标之间相互作用，目标和关系之间的相互作用以及超关系的传递推理明显的提升了关系的预测效果。

背景技术

场景图生成(SGG)目的是为了检测物体并预测对象关系。然后，这些检测到的对象和关系构成图像的场景图。场景图生成不仅能基于视觉内容提供去理解图像的关系，也同样有益于那些高层次的视觉应用的知识表示，例如视觉问答。场景图生成任务的目标就是让计算机能自动生成一种语义化的图结构，从而作为图像的表示。图像中的目标对应场景图中的节点，目标间的关系对应场景图中的边，边也能表示目标的各种属性，如颜色等。相对于向量表示来说，这种结构化表示的方法显得更加直观，场景图也可以看成是小型的知识图谱，因此能广泛的应用于知识管理、推理、检索、推荐等领域。除此之外，场景图的表示方法是模态无关的，自然语言、视频、语音等数据同样可以表示成类似结构，因此对于融合多模态信息很有潜力。

早期的视觉关系检测工作将视觉关系三元组作为整体进行检测，即同时预测主语-谓语-宾语。然而由于视觉关系类别众多，这类方法需要大量的训练数据，且受限于早期标注数据规模和模型计算能力，其预测关系类别有限、精度不高，比如Sadeghi等人提出的视觉关系检测方法仅能对13种常见的简单关系进行预测，而Desai等人提出的人与周围环境互动方法仅能检测8种简单的人的动作。2016年， Lu等人将视觉关系检测任务拆分为目标检测和谓语检测两个子任务，并分别采用不同的模块进行处理。此时，目标检测模块仅需要获取目标类别的训练数据，而谓语检测模块仅需要获取谓语类别的训练数据。这种策略将原本的乘积式训练标注空间，转换为相加式的训练标注空间，不仅降低了视觉关系检测方法对数据标注的依赖，并且由于不同模块负责不同的子任务，有效地提升了检测结果。Lu等人的方法将视觉关系检测类别提升到了70类。直到现在，几乎所有的视觉关系检测方法均采用这种做法。

另一类视觉关系检测方法则注重于挖掘主语和宾语信息本身的关联。Zhang等人提出的VTransE方法中，利用VGG-16网络提取主语和宾语的视觉特征，利用Faster R-CNN目标识别网络获取主语和宾语的类别信息，同时结合主语和宾语在图像中的位置提取空间信息，然后采用文本中的词嵌入模型，将主语和宾语进行嵌入组合获取最终的关系预测。而Zoom-Net网络则充分利用主语和宾语之间的空间特性，构建多尺度金字塔网络，对主语、宾语、以及主语宾语联合目标提取视觉信息并融合，充分利用主语和宾语的视觉特性获取最终的预测结果。而Liang等人则利用张量理论对现有的关系对进行分解，从而在获取主语和宾语目标类别基础上，直接预测两者之间的关系。Jae 等人则构建了强化学习网络，同时利用目标属性这一额外信息联合训练预测关系。Dai等人构建深度神经网络对目标的关系进行深度融合，从而获取最终的预测结果。

随着科技的不断发展，计算机视觉应用和需求的愈加深入和广泛，当前的计算机视觉研究已经不仅限于识别视觉数据个体自身信息，如图像分类(Image Classification)和目标检测(Object Detection) 等，同时扩展到理解数据和数据之间的关联推理研究，如图像场景描述(Image Captioning)和视觉问答(Visual Question Answering)等。视觉关系检测(Visual Relationship Detection)指检测视觉场景中两个不同目标之间的关系，这些被检测的关系不仅可以作为视觉场景信息表示以辅助并加深视觉场景的理解，同时可以作为视觉的关联性知识指导并应用于计算机视觉领域中其他的相关任务，如细粒度目标检测、图像描述、视觉问答等。随着卷积神经网络(Convolutional Neural Network，CNN)、图神经网络(Graph Neural Network，GNN) 等深度学习方法的不断进步，视觉基因数据库(Visual Genome，VG)、开放图像库(Open Image)等大规模跨媒体知识库的逐步建立，视觉关系检测得到了飞速地发展，且已经成为了当前计算机视觉领域中一项基本且重要的研究。在视觉关系检测方法中，视觉关系通常以三元组的形式表示，即主语-谓语-宾语(Subject-Predicate-Object)。主语和宾语表示两个不同的目标，而谓语则描述主语和宾语这一目标对之间的关系，比如人-穿-衣服、人-骑-马等。

综上所述,场景图生成领域是一个值得深入研究的课题，本专利拟从该任务中几个关键点切入展开探讨，解决目前方法存在的难点和重点，形成一套完整的场景图生成方法。

场景图生成提供了整个图像的简要图。因此，场景图生成的一个关键点就是建模并且利用目标与目标之间的关系。但是，大多数场景图生成方法无法理解关系和目标的交互。相对很少有工作探讨了关系交互，不幸的是，这些方法都丢失了有价值信息并且需要很高的时间复杂度。具体而言，主要存在如下两方面的难点：

(1)当前大多数场景图生成方法利用目标之间相互作用进行关系预测，但这些方法仅是利用对象之间的简单交互。所以，如何更好的利用目标与目标之间的相互作用去融合目标之间的特征，为之后的关系预测传递更有效的特征是一个影响关系预测算法性能的重要因素。

(2)最近关于无偏差场景图生成的研究将关系预测问题归咎于训练集的偏差。这些研究提出了采用无偏策略的无偏场景图生成方法。然而，现有的无偏SGG方法仍然忽略关系连接。因为大多数他们忽略了关系的内在联系，在需要考虑周围关系的关系预测中，大多数场景图生成方法可以利用对象的交互作用，并且表现不佳。但是，他们无法理解关系交互。相对很少有工作探讨了关系交互，不幸的是，这些方法都丢失了有价值信息并且需要很高的时间复杂度。所以，如何利用关系和目标之间的内在联系是关系预测中的一个难点问题。

(3)目前，没有任何的方法考虑关系的高层次连接，即传递的推断。传递推断是指通过合并两个目标和另一个中间目标之间的关系来推断两个目标之间的关系。利用传递推理可以更好地组织和整合周围的关系。但是，关系的高层次连接对关系预测的性能影响尤为显著。所以如何进行关系的高层次连接也是关系预测中的一个难点。

发明内容

本发明提供了一种基于超关系学习网络的场景图生成方法。本发明主要包含三点：1、使用目标自注意力网络作为目标分类的方法。选择注意力网络是因为注意力机制能对输入的目标的交互进行建模。能够考虑全局的目标的影响，将关系隐含在目标当中。

2、提出目标-关系注意力网络使目标和关系交互。首先通过目标 -关系注意力机制使关系的信息传递给目标，其中使用遮掩机制，只传递和该目标有关的关系的信息。之后，使用目标-关系注意力网络将目标的信息传递给关系。通过这种目标和关系的信息的相互传递，能有效的融合目标和关系的特征。

3、以往的场景图生成方法一般忽略了关系之间的交互和传递推断。所以我们在关系预测网络中考虑了目标和关系之间的交互和传递推断，然后预测关系。

本发明解决其技术问题所采用的的技术方案包括如下步骤：

构建超关系学习网络，超关系学习网络包括目标框生成网络、目标分类网络和关系预测网络；具体的：超关系学习网络首先通过目标框生成网络得到目标框；然后目标分类网络基于目标之间的相互作用，使用自注意力机制预测每个目标的位置和类别；最后在关系预测网络中，先将两个被检测的目标组成一个关系对，其次通过目标-关系注意力层使目标和关系交互，使用超关系注意力层探索目标-关系的传递推理。

步骤(1)、构建目标框生成网络

使用Faster R-CNN作为目标框生成网络；给定一幅图像I，目标框生成网络生成目标框的集合B＝{b_i}，i∈[N]；对于每个目标框b_i，目标框生成网络提供一个空间特征p_i∈R⁹、一个视觉特征

和一个目标类别概率

空间特征p_i包括相对边界的目标框坐

目标框的中心坐标

和相对比例

其中(x_it，y_it，x_i2，y_i2)是目标框b_i的左上角和右下角的坐标；w和h是图像I的宽和高；d_v表示视觉特征的维度；c₀+1是目标的类别总数，其中包括一个背景类；R⁹表示一个9 维的实数矩阵；

表示d_v维度的实数矩阵。

步骤(2)、构建目标分类网络

使用自注意力机制预测每个目标的位置和类别，选择自注意力层是因为自注意力机制能对输入的目标的交互进行建模。

步骤(3)、构建关系预测网络

先将两个被检测的目标组成一个关系对，其次通过目标-关系注意力层使目标和关系交互，使用超关系注意力层探索目标-关系的传递推理。

步骤(4)、对超关系学习网络模型进行训练

将图像标注的真实目标类别和目标分类网络预测的64个目标类别，放入softmax交叉熵损失中计算损失；并计算真实目标框和预测目标框的回归损失，由L2损失计算；将给定的真实关系和预测得到的256个预测关系，放入二值交叉熵损失中计算损失；并利用反向传播算法对超关系学习网络模型中目标分类网络和关系预测网络的各个参数进行梯度回传，不断优化，直至整个超关系学习网络模型收敛。

进一步的，步骤(1)所述的构建目标框生成网络，具体实现如下：

1-1、首先使用FPN多尺度结构提取图像中各个候选框的特征， FPN结构自顶向下共有4层，每层提取2000个候选框；

1-2、然后使用Roi Align操作提取每个候选框在图像上对应的特征，再使用非极大值抑制方法筛选出1000个候选框及其对应的特征；

1-3、最后使用正负样本1:3的比例在这1000个候选框中采样 64个目标框；并且得到这64个目标框的空间特征p_i∈R⁹、视觉特征

和目标类别概率

进一步的，步骤(2)所述的构建目标分类网络，具体如下：

2-1、目标初始化

假设给定一个目标框集合B＝{b_i}，i∈[N]，那么目标o_i的初始化特征x_i通过融合视觉特征

目标类别概率

和空间特征p_i而成，这些特征均从相对应的目标框b_i得到，所以目标o_i的特征x_i表示为：

其中FC_o(*)＝W_o(*)+b_o表示一个线性变换函数，W_o和b_o分别是权重矩阵这偏置；σ表示一个非线性变换函数，使用ReLU函数；”||”表示连接符号；Emb_o(*)是基于预先训练好的word2vec 模型的词嵌入参数。

2-2、使用目标自注意力网络进行目标的交互

输入目标的特征集合为

其中d_o是目标的特征集合X 的特征维度，N表示特征集合X中目标的个数；使用一个自注意力层去更新目标特征的过程表示为：

X′＝FFN_o(SA_o(X)) (2)

其中X′表示更新后的目标的特征集合；SA_o(*)就是进行目标之间交互的一个自注意力网络层；这个自注意力网络层被定义为：

其中Q_o(*)、K_o(*)、V_o(*)是三个同维度的线性变换函数，分别表示自注意力机制过程中的query、key、value；

是Q_o(*)和 K_o(*)输出的维度，

则是一个比例因子；FFN_o(*)是一个由两个全连接层组成的前馈神经网络：

自注意力网络中采用了多头的策略，同时还使用残差连接和归一化的方式添加到每个自注意力网络和前馈神经网络中，即：

X＝X+LN(Fun(X)) (5)

其中，公式(5)右边的X是输入的目标的特征集合，公式(5)左边的X表示经过一轮残差连接和归一化处理后的特征集合，LN(*)表示层归一化方法，Fun(*)代表的是每一个注意力网络或者前馈神经网络。

2-3、目标分类

在经过多层自注意力网络层后，最后使用交叉熵损失函数进行目标分类。

进一步的，步骤(3)所述的构建关系预测网络，具体如下：

3-1、目标和关系的初始化

在经过目标分类网络后，已知有N个被检测的目标类别O＝(o_i) 和N个被检测到的目标框B＝{b_i}，i∈[N]；那么目标o_i的特征

就可以初始化为：

其中，

和

分别是目标o_i的视觉特征和空间特征，

是目标分类网络中经过最后一层自注意力网络得到的语义特征；Emb_r(l'_i)是基于目标分类网络中预测每一个类别l′_i的词嵌入向量，并且它是一个 one-hot向量；

任意两个目标o_i和o_j的关系框v_ij的特征

表示为：

其中，FC_v3，FC_v1，FC_v2均表示线性变换函数；y_i表示目标o_i经过初始化后的特征，y_j表示目标o_j经过初始化后的特征。

3-2、目标-关系注意力网络

记经过步骤3-1初始化后目标的特征集合

关系的特征集合为

d_r是每一个关系的特征维度；使用目标-关系注意力网络在关系和目标之间进行交互之后就能将信息在关系和目标之间进行传递；

首先，目标-关系注意力网络将信息从关系传递到目标来更新目标的特征，这个过程表示为：

Y′＝FFN_r1(MA_r1(Y，Z，M_r1)) (8)

其中，Y′就是被更新之后目标的特征集合，FFN_r1是一个由两个全连接层组成的前馈神经网络；MA_r1(*)是一个带掩盖的注意力网络，而这个掩盖注意力网络表示为：

其中，M_r1就是一个N×N²的掩盖函数，它的作用就是让关系的特征集合Z中只和目标的特征集合Y有关的关系向目标的特征集合Y传递信息，其他的关系不向该目标传递信息；与公式(3)类似， Q_r1(*)是对目标的特征集合Y的线性变换函数，K_r1(*)和V_r1(*)是对关系的特征集合Z的线性变换函数，

则是目标和关系特征集合的一个比例因子。

然后，目标-关系注意力网络再通过更新特征之后的目标向关系传递信息去更新关系的特征集合，这个信息传递的过程表示为：

Z'＝FFN_r2(AT_r2(Y′，Z)) (10)

其中Z′是被更新之后的关系特征集合，FFN_r2(*)是一个由两个全连接层组成的前馈神经网络，AT_r2(*)是一个注意力网络，该网络表示为：

而从目标到关系传递信息的注意力网络不需要掩盖函数，是将所有目标的信息都传递给每一个关系；类似公式(9)，Q_r2(*)是对关系的特征集合Z的线性变换函数，K_r2(*)和V_r2(*)是对更新后的目标特征集合Y′的线性变换函数，

则是关系和目标特征集合的一个比例因子。

通过目标-关系注意力网络这种可选择的自主选择融合方式，既融合了目标的特征也融合了关系的特征，最重要的是还加强了关系和目标之间的相互作用；相比于直接使用关系-关系的注意力网络，目标-关系-的注意力网络极大的降低了网络的时间复杂度，从N²×N²的时间复杂度降低为N×N²的时间复杂度。

3-3、超关系注意力网络

在经过目标-关系注意力网络的特征融合之后，通过超关系注意力网络整合目标和关系的信息进行传递推理；具体来说，对于一个给定的关系r_ij，超关系注意力网络首先要获得相对应的超关系E_ijk，其中k∈[N]；根据传递推理方法，基于两个目标o_i和o_j的关系以及一个中间目标o_k就可以组成超关系进行从E_ijk到r_ij的传递推理；所以从E_ijk到r_ij的传递推理过程表示为：

其中σ是LeakyReLU函数；其中，超关系

表示3个目标o_i，o_j，o_k组成的关系子集；

表示目标o_i为主语，目标o_k为宾语的关系对，

表示目标o_k为主语，目标o_i为宾语的关系对；

表示目标o_j为主语，目标o_k为宾语的关系对；

表示o_k为主语，目标o_j为宾语的关系对；通过

组成的超关系传递推理关系目标o_i和目标o_j的关机，即关系

和关系

FC_h(*)表示一个线性变换函数。

使用

表示关系集合r_ij的超关系集合，d_h是超关系的特征维度；使用注意力网络去整合超关系集合H_ij并且将信息传递到关系集合r_ij，这个过程可以表示为：

其中ffN_h(*)是一个由两个全连接层组成的前馈神经网络， AT_h(*)是一个关于超关系的注意力网络，定义为：

Q_h(*)是对关系的特征集合Z的线性变换函数，K_h(*)和V_h(*) 是对超关系特征集合H_ij的线性变换函数，

则是关系和超关系特征集合的一个比例因子。

所述的目标-关系注意力网络和超关系注意力网络均采用多头的策略以及残差连接方式。

3-4、关系预测

在经过了目标-关系注意力网络融合目标和关系的特征以及超关系注意力网络去传递推理关系特征之后，最后去预测关系的类别；在关系预测中，将两个目标的联合框生成的联合特征以及频率偏差添加到关系预测中；在目标-关系注意力网络和超关系注意力网络之后使用联合特征以及频率偏差，主要是因为计算联合特征和频率偏差需要消耗很大的空间，也有很大的时间复杂度；最后使用二值交叉熵损失进行关系预测。

进一步的，步骤(4)所述的训练模型，具体如下：

在目标分类的训练过程中，根据图像标注的真实目标类别和我们预测的64个目标类别，将其放入softmax交叉熵损失中计算损失，该损失可表示为：

其中，N是目标集合的个数，

是真实目标类别概率的指数，

是所有预测目标类别概率的指数和，L_loss1则表示目标类别分类的交叉熵损失。

计算真实目标框和预测的框的回归损失，由L2损失计算，该损失表示为：

L_loss2＝(y-f(x))² (16)

其中，y是真实目标框空间坐标集合，f(x)是预测目标框的空间位置集合，L_loss2表示真实目标框和预测的框的L2损失。

在关系预测的过程中，根据给定的真实关系和预测的256个关系，将其放入二值交叉熵损失中计算损失，该损失可表示为：

其中，y_i表示真实的关系类别，

表示预测的关系类别概率，L_loss3表示真实关系和预测的256个关系的二值交叉熵损失。

所以，最终的损失函数为这三个损失之和：

L_loss＝L_loss1+L_loss2+L_loss3 (18)

利用反向传播算法，在每次迭代获取步骤(2)和步骤(3)中神经网络的模型的各个参数进行梯度回传，在不断迭代中训练至网络模型收敛。

本发明有益效果如下：

本发明提出一种超关系学习网络去探索和利用场景图中目标之间的交互，关系和目标的交互以及超关系的传递推理。具体来说，超关系学习网络将场景图建模成超图，设计目标-关系注意力网络去结合目标和关系的交互，然后在设计超关系注意力网络去整合超关系的传递推理。我们在Visual Genome数据集上进行了综合的实验和分析。实验结果证明了当关系预测需要推断周围环境的关系时，超关系学习网络具有很高的推理和整合能力。例如“Walking In，Playing， Painted on”，这些关系在其他的方法中基本不会出现，但是超关系学习网络能够很好的预测这些复杂的关系。

本发明参数量，效果显著，通过高效的分布式训练实现，有利于部署于内存受限的特定硬件。

附图说明

图1：超关系学习网络流程图

图2：目标自注意力网络图

图3：目标-关系注意力网络图

图4：超关系注意力网络图

具体实施方式

下面对本发明的详细参数做进一步具体说明。

如图1、2、3和4所示，本发明提供一种基于超关系学习 (Hyper-relationshipLearning Network)的场景图生成方法 (HLN)。

步骤(1)所述的目标框生成网络，具体如下：

1-1.主干网络采用ResNetXt-101-FPN的方法。通过主干网络提取的特征维度为256。并且不采用数据增强的效果，即不采用图片翻转的方式。

1-2.区域生成网络(Region Proposal Network)的候选框尺寸在(32,64,128,256,512)中选取。在训练和测试中的FPN的每层都选取1000个候选框，共4层。经过区域生成网络后的框提取的特征维度为256。

1-3.在目标框的采样过程中，从1000个候选框中按照正负样本 1:3的比例采样64个目标框。以IOU>0.5表示为正样本，IOU<0.3为负样本，在此期间，去除重复的框。

步骤(2)基于超关系学习方法(Hyper-relationship Learning Network)对目标的特征相互融合，具体如下：

2-1.首先初始64个目标框的视觉特征维度为256，初始的空间特征维度为9，初始的语义特征维度为200。将空间特征的维度使用一个线性变换函数将维度变成32，之后使用归一化操作，再使用一个线性变换将维度升至128，最后加上一个非线性函数ReLU得到变换后的空间特征。将其与视觉特征和语义特征连接起来得到的融合维度为584，之后通过线性变换操作，并加上ReLU和Dropout操作， Dropout采用0.1，得到融合特征的维度为768。

2-2.将2-1中得到的特征先进行三个同维度的线性变换操作。得到Query、Key和Value，维度都是768。将Query和Key进行点乘操作，得到64×64的相似度矩阵，再把相似度矩阵和Value做矩阵乘法，就得到了768维的新的特征。在此，我们使用多头机制，头数为8。接着通过层归一化和Dropout操作(Dropout＝0.1)以及残差连接操作。最后使用一个前馈神经网络，即两层的线性层，第一层的维度为1536，第二层的维度为768。就得到了目标自注意力网络后的特征。

2-3.将2-2中得到的特征进行一层线性变换操作，维度为151，之后直接进行目标的分类。

步骤(3)所述的关系预测网络，具体如下：

3-1.和目标分类的初始化相似，首先初始64个目标框的视觉特征维度为256，初始的空间特征维度为9，初始的语义特征维度为200。将空间特征的维度使用一个线性变换函数将维度变成32，之后使用归一化操作，再使用一个线性变换将维度升至128，最后加上一个非线性函数ReLU得到变换后的空间特征。将其与视觉特征和语义特征以及目标自注意力网络得到的特征连接起来得到的融合维度为1352。再初始化一个关系特征为4096×768的大小。

3-2.将3-1中的目标特征和关系特征输入目标-关系注意力网络中得到新的目标特征为768维。再将新的目标特征和初始化的关系特征输入目标-关系注意力网络中得到新的关系特征，维度为768。

3-3.将3-2中的关系特征输入到超关系注意力网络中，在4096 个关系中取出其中的256个关系。得到更新后的关系特征，维度为 768。

3-4.将3-3中的关系特征先使用一个线性层，得到维度为256，之后和联合特征做点乘得到视觉特征，维度为256。之后视觉特征再经过一个线性层得到一个关系特征，维度为50，经过超关系注意力网络得到的关系特征也经过一个线性层得到另一个关系特征，维度为 50，两个关系特征相加后直接进行分类操作。

3-5.我们在目标分类使用softmax交叉熵损失，在关系预测中使用二值交叉熵损失。在训练阶段使用动量为0.9的SGD优化器。学习率设置为0.001，并在前5000个轮次使用warm-up策略，在18000 和26000个轮次学习率乘以0.1，总轮次为34000。Batch size的大小为12。

步骤(4)所述的训练模型，具体如下：

4-1、在目标分类的训练过程中，根据图像标注的真实目标类别和我们预测的64个目标类别，将其放入softmax交叉熵损失中计算损失，该损失可表示为：

L_loss2＝(y-f(x))² (16)

4-2、在关系预测的过程中，根据给定的真实关系和预测的256 个关系，将其放入二值交叉熵损失中计算损失，该损失可表示为：

4-3、所以，最终的损失函数为这三个损失之和：

L_loss＝L_loss1+L_loss2+L_loss3 (18)

Claims

1.一种基于超关系学习的场景图生成方法，其特征在于：

构建超关系学习网络，超关系学习网络包括目标框生成网络、目标分类网络和关系预测网络；超关系学习网络首先通过目标框生成网络得到目标框；然后目标分类网络基于目标之间的相互作用，使用自注意力机制预测每个目标的位置和类别；最后在关系预测网络中，先将两个被检测的目标组成一个关系对，其次通过目标-关系注意力层使目标和关系交互，使用超关系注意力层探索目标-关系的传递推理；具体的：

步骤(1)、构建目标框生成网络

和一个目标类别概率

空间特征p_i包括相对边界的目标框坐

目标框的中心坐标

和相对比例

其中(x_i1，y_i1，x_i2，y_i2)是目标框b_i的左上角和右下角的坐标；w和h是图像I的宽和高；d_v表示视觉特征的维度；c₀+1是目标的类别总数，其中包括一个背景类；R⁹表示一个9维的实数矩阵；

表示d_v维度的实数矩阵；

步骤(2)、构建目标分类网络

使用自注意力机制预测每个目标的位置和类别，选择自注意力层是因为自注意力机制能对输入的目标的交互进行建模；

步骤(3)、构建关系预测网络

先将两个被检测的目标组成一个关系对，其次通过目标-关系注意力层使目标和关系交互，使用超关系注意力层探索目标-关系的传递推理；

步骤(4)、对超关系学习网络模型进行训练

2.根据权利要求1所述的一种基于超关系学习的场景图生成方法，其特征在于步骤(1)所述的构建目标框生成网络，具体实现如下：

1-1、首先使用FPN多尺度结构提取图像中各个候选框的特征，FPN结构自顶向下共有4层，每层提取2000个候选框；

1-3、最后使用正负样本1∶3的比例在这1000个候选框中采样64个目标框；并且得到这64个目标框的空间特征p_i∈R⁹、视觉特征

和目标类别概率

3.根据权利要求1所述的一种基于超关系学习的场景图生成方法，其特征在于步骤(2)所述的构建目标分类网络，具体如下：

2-1、目标初始化

目标类别概率

其中FC_o(*)＝W_o(*)+b_o表示一个线性变换函数，W_o和b_o分别是权重矩阵这偏置；σ表示一个非线性变换函数，使用ReLU函数；”||”表示连接符号；Emb_o(*)是基于预先训练好的word2vec模型的词嵌入参数；

2-2、使用目标自注意力网络进行目标的交互

输入目标的特征集合为

其中d_o是目标的特征集合X的特征维度，N表示特征集合X中目标的个数；使用一个自注意力层去更新目标特征的过程表示为：

X′＝FFN_o(SA_o(X)) (2)

是Q_o(*)和K_o(*)输出的维度，

X＝X+LN(Fun(X)) (5)

其中，公式(5)右边的X是输入的目标的特征集合，公式(5)左边的X表示经过一轮残差连接和归一化处理后的特征集合，LN(*)表示层归一化方法，Fun(*)代表的是每一个注意力网络或者前馈神经网络；

2-3、目标分类

4.根据权利要求1所述的一种基于超关系学习的场景图生成方法，其特征在于步骤(3)所述的构建关系预测网络，具体如下：

3-1、目标和关系的初始化

在经过目标分类网络后，已知有N个被检测的目标类别O＝(o_i)和N个被检测到的目标框B＝{b_i}，i∈[N]；那么目标o_i的特征

就可以初始化为：

其中，

和

分别是目标o_i的视觉特征和空间特征，

是目标分类网络中经过最后一层自注意力网络得到的语义特征；Emb_r(l′_i)是基于目标分类网络中预测每一个类别l′_i的词嵌入向量，并且它是一个one-hot向量；

任意两个目标o_i和o_j的关系框v_ij的特征

表示为：

其中，FC_v3，FC_v1，FC_v2均表示线性变换函数；y_i表示目标o_i经过初始化后的特征，y_j表示目标o_j经过初始化后的特征；

3-2、目标-关系注意力网络

记经过步骤3-1初始化后目标的特征集合

关系的特征集合为

Y′＝FFN_r1(MA_r1(Y，Z，M_r1)) (8)

其中，M_r1就是一个N×N²的掩盖函数，它的作用就是让关系的特征集合Z中只和目标的特征集合Y有关的关系向目标的特征集合Y传递信息，其他的关系不向该目标传递信息；与公式(3)类似，Q_r1(*)是对目标的特征集合Y的线性变换函数，K_r1(*)和V_r1(*)是对关系的特征集合Z的线性变换函数，

则是目标和关系特征集合的一个比例因子；

Z′＝FFN_r2(AT_r2(Y′，Z)) (10)

则是关系和目标特征集合的一个比例因子；

通过目标-关系注意力网络这种可选择的自主选择融合方式，既融合了目标的特征也融合了关系的特征，最重要的是还加强了关系和目标之间的相互作用；相比于直接使用关系-关系的注意力网络，目标-关系-的注意力网络极大的降低了网络的时间复杂度，从N²×N²的时间复杂度降低为N×N²的时间复杂度；

3-3、超关系注意力网络

其中σ是LeakyReLU函数；其中，超关系

表示3个目标o_i，o_j，o_k组成的关系子集；

表示目标o_i为主语，目标o_k为宾语的关系对，

表示目标o_k为主语，目标o_i为宾语的关系对；

表示目标o_j为主语，目标o_k为宾语的关系对；

表示o_k为主语，目标o_j为宾语的关系对；通过

组成的超关系传递推理关系目标o_i和目标o_j的关机，即关系

和关系

FC_h(*)表示一个线性变换函数；

使用

其中FFN_h(*)是一个由两个全连接层组成的前馈神经网络，AT_h(*)是一个关于超关系的注意力网络，定义为：

Q_h(*)是对关系的特征集合Z的线性变换函数，K_h(*)和V_h(*)是对超关系特征集合H_ij的线性变换函数，

则是关系和超关系特征集合的一个比例因子；

所述的目标-关系注意力网络和超关系注意力网络均采用多头的策略以及残差连接方式；

3-4、关系预测

5.根据权利要求1所述的一种基于超图关系学习的场景图生成方法，其特征在于步骤(4)所述的训练模型，具体如下：

其中，N是目标集合的个数，

是真实目标类别概率的指数，

是所有预测目标类别概率的指数和，L_loss1则表示目标类别分类的交叉熵损失；

L_loss2＝(y-f(x))² (16)

其中，y是真实目标框空间坐标集合，f(x)是预测目标框的空间位置集合，L_loss2表示真实目标框和预测的框的L2损失；

其中，y_i表示真实的关系类别，

表示预测的关系类别概率，L_loss3表示真实关系和预测的256个关系的二值交叉熵损失；

所以，最终的损失函数为这三个损失之和：

L_loss＝L_loss1+L_loss2+L_loss3 (18)