CN109359564B

CN109359564B - 一种图像场景图生成方法及装置

Info

Publication number: CN109359564B
Application number: CN201811149481.7A
Authority: CN
Inventors: 林倞; 余伟浩; 陈添水; 王青
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2022-06-24
Anticipated expiration: 2038-09-29
Also published as: CN109359564A

Abstract

本发明公开了一种图像场景图生成方法及装置，所述方法包括：步骤S1，对输入图像进行处理，找出该图像中可能存在物体的各个物体候选区域；步骤S2，统计物体共存的概率，构建物体共存概率矩阵，并根据该图像候选框的数量，动态地构建嵌入了所述物体共存概率矩阵先验知识的知识图网络，利用该知识图网络对图像中各个候选区域进行物体分类；步骤S3，统计物体关系分布的概率，构建关系概率矩阵，并根据该图像候选框的数量和类别，动态地构建嵌入关系概率矩阵先验信息的知识图网络，利用该知识图网络对图像中候选区域两两之间的关系进行分类；步骤S4，整合步骤S3和S4的结果，生成场景图，本发明可提高图像场景图生成的准确率，提升小样本关系分类的准确率。

Description

一种图像场景图生成方法及装置

技术领域

本发明涉及计算机视觉、模式识别领域，特别是涉及一种图像场景图生成方法及装置。

背景技术

场景图是图像内容的结构化表示，不仅提供场景中各个物体的语义和空间信息，还捕获每对物体之间的关系。近年来，推断这种图形已经越来越受到关注，因为它对图像有了更深入的理解，以促进从基本识别和检测到高级任务的各种视觉任务。

视觉场景中的对象自然地符合一些通用的结构化配置。例如，人们倾向于穿衣服，而汽车则倾向于有车轮。对Visual Genome数据集的统计分析表明，直接预测对与给定物体类别标签的最频繁关系的基线方法优于大多数现有的最先进方法。因此，对物体和关系之间的这些统计共存信息进行建模对于场景图生成是至关重要的。另一方面，场景中关系和上下文对象的相互作用也起着重要作用，尤其是在区分相似物体对的关系时。例如，给定一个人和马站在附近的场景，像桶一样的容器对于区分人在喂马还是人站在马旁边是至关重要的。

经分析发现，关系和对象之间的统计共存关系可以由结构化知识图网络来明确表示，并且这两个因素之间的相互作用可以通过在图中节点传播消息来捕获，同样，上下文提示也可以通过具有适当消息传播的类似图网络来挖掘。目前的研究虽然也注意到了统计知识，但它们只是通过关系和对象对的迭代消息传播或者通过编码对象和关系的全局上下文来隐式地挖掘这些信息

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种图像场景图生成方法及装置，以提高图像场景图生成的准确率，提升小样本关系分类的准确率。

为达上述及其它目的，本发明提出一种图像场景图生成方法，包括如下步骤：

步骤S1，对输入图像进行处理，找出该图像中可能存在物体的各个物体候选区域；

步骤S2，统计物体共存的概率，构建物体共存概率矩阵，并根据该图像的候选框的数量，动态地构建嵌入了所述物体共存概率矩阵先验知识的知识图网络，利用该知识图网络对图像中各个候选区域进行物体分类；

步骤S3，统计物体关系分布的概率，构建关系概率矩阵，并根据该图像候选框的数量和类别，动态地构建嵌入关系概率矩阵先验信息的知识图网络，利用该知识图网络对图像中候选区域两两之间的关系进行分类；

步骤S4，整合步骤S3和S4的结果，生成场景图。

优选地，于步骤S1中，对输入图像利用深度神经网络获取该图像的特征图，并利用区域建议网络找出图片中可能存在物体的各个物体候选区域。

优选地，步骤S2进一步包括：

步骤S200，计算目标数据集的训练集上来自不同类别的物体的统计共存概率，构建物体共存概率矩阵；

步骤S201，基于所述物体共存概率矩阵关联来自物体候选区域集的区域；

步骤S202，基于步骤S201的关联结果，根据该图像候选框的数量，动态构建嵌入了物体共存概率矩阵先验知识、连接所有区域的知识图网络，并利用该知识图网络对图像中各个候选区域进行物体分类。

优选地，所述物体共存概率矩阵为二维矩阵，行数和列数等于所需识别的物体类别数，矩阵的元素代表某类别物体存在的情况下，存在另一类别物体的概率。

优选地，所述知识图网络，其邻接矩阵由所述物体共存概率矩阵和该图像的候选区域数量动态构建而成，该邻接矩阵的行数和列数等于该图像的候选区域数量乘以所需识别的物体类别数量，该知识图网络的初始输入为各个候选区域的特征，输出为各个候区域的类别。

优选地，步骤S202进一步包括：

步骤S202a，根据该图像的候选框的数量，动态构建嵌入了物体共存概率矩阵先验知识的知识图网络，所述嵌入了物体共存概率矩阵先验知识的知识图网络为使用门控循环更新机制的图网络；

步骤S202b,在每个时间步t，每个节点根据图结构聚合来自其邻居的信息

步骤S202c,以

及其先前的隐状态作为输入，通过类似于门控循环单元的门控机制更新其隐藏状态；

步骤S202d，在T_o步骤之后，通过平均池化得到聚合全局信息的特征，并使用分类器来实现物体分类。

优选地，步骤S3进一步包括：

步骤S300，计算目标数据集的训练集上的统计共存概率来表示物体的相关性，构建关系概率矩阵，并动态地构建嵌入关系概率矩阵先验信息的知识图网络；

步骤S301，学习使用相同的图门控循环更新来探索所述知识图网络的节点交互机制，并利用该知识图网络对图像中候选区域两两之间的关系进行分类。

优选地，所述关系概率矩阵为三维矩阵，第一维长度和第二维长度等于所需识别物体类别数量，第三维长度等于所需识别的关系类别数量，矩阵的元素代表已知主语物体和宾语物体类别的情况下，其关系类别属于某类别的概率。

优选地，所述嵌入关系概率矩阵先验信息的知识图网络，其邻接矩阵由所述关系概率矩阵和该图像的两两候选区域类别动态构建而成，该邻接矩阵的行数和列数等于所需识别的关系类别数量加二，该知识图网络的输入为主语物体区域的特征，宾语物体区域的特征，和主语物体与宾语物体区域合并的区域的特征，输出为两两主语物体和宾语物体之间的关系类别。

为达到上述目的，本发明还提供一种图像场景图生成装置，包括：

物体候选区域获取单元，用于对输入图像进行处理，找出该图像中可能存在物体的各个物体候选区域；

物体分类单元，用于统计物体共存的概率，构建物体共存概率矩阵，并根据该图像候选框的数量，动态地构建嵌入了物体共存概率矩阵先验知识的知识图网络，利用该知识图网络对图像中各个候选区域进行物体分类；

关系分类单元，用于统计物体关系分布的概率，构建关系概率矩阵，并根据该图像候选框的数量和类别，动态地构建嵌入关系概率矩阵先验信息的知识图网络，利用该知识图网络对图像中候选区域两两之间的关系进行分类；

整合单元，用于整合所述物体分类单元与关系分类单元的结果，生成场景图。

与现有技术相比，本发明一种图像场景图生成方法及装置通过利用Faster RCNN检测器对输入图像生成物体候选区域，然后构建根据统计物体共存矩阵来关联这些区域，构建嵌入了先验知识的采用知识图网络并采用传播网络通过图来扩散节点信息以学习带有全局信息的特征表示以及预测关于每个区域的类别标签，对于具有预测标签的每个物体对，构建知识图网络，并采用传播网络来探索关系和相应物体之间的相互作用来预测它们之间的关系，进而生成整个场景图，本发明通过将嵌入了先验知识的知识图网络应用到图像场景图生成中，提高了图像场景图生成的准确率，特别是显著提升了小样本关系分类的准确率。

附图说明

图1为本发明一种图像场景图生成方法的步骤流程图；

图2为本发明一种图像场景图生成装置的系统架构图；

图3为本发明具体实施例之图像场景图生成装置的工作过程图；

图4(a)为本发明具体实施例中图片中各区域关联的图结构；

图4(b)为本发明具体实施例中给定主语物体类别，宾语物体类别的图结构。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种图像场景图生成方法的步骤流程图。如图1所示，本发明一种图像场景图生成方法，包括如下步骤：

步骤S1，对输入图像进行处理，找出该图像中可能存在物体的各个物体候选区域。在本发明具体实施例中，对输入图像利用深度神经网络获取该图像的特征图，并利用区域建议网络找出图片中可能存在物体的各个候选区域。

也就是说，于步骤S1中，利用Faster RCNN卷积神经网络对输入图像I生成物体候选区域集B＝{b₁,b₂,...,b_n}，对于每个区域，除了表示其位置的边界框b_i∈R⁴之外，利用卷积神经网络对各个候选框提取特征，然后利用Faster RCNN的区域建议网络找出图片中可能存在物体的各个候选区域。

一般地，场景图是图像中内容的结构化表示。它由类标签和各个对象的位置以及每个对象之间的关系组成，可以定义为3元组

B＝{b₁,b₂,...,b_n}是候选区域集，其元素b_i∈R⁴表示第i个候选区域的候选框；

O＝{o₁,o₂,...,o_n}是物体集合，其中o_i∈N表示对应候选区域b_i的物体标签列别；

R＝{r_1→2,r_1→3,...,r_n→n-1}表示对应的关系集合，其中r_i→j是主语物体(b_i,o_i)∈B×O，宾语物体(b_j,o_j)∈B×O和关系标签

的三元组；

其中，

是所有关系类别的集合，包含没有关系这种标签。

在本发明具体实施例中，给定一个图像I，将场景图

的概率分布分解为三个部分：

在上述等式中，边界框部分p(B|I)生成一组候选区域，覆盖输入图像大多数关键图像，该部分由广泛使用的Faster RCNN卷积神经网络实现，物体部分p(O|B,I)则预测关于每个检测到的区域的物体类别标签。

步骤S2，统计物体共存的概率，构建物体共存概率矩阵，并根据步骤S1得到的该图像的候选框的数量，动态地构建嵌入了物体共存概率矩阵先验知识的知识图网络，利用该知识图网络对图像中各个候选区域进行物体分类。

物体共存概率的统计信息是关联图像中的物体和规范物体标签预测的关键线索。在本发明具体实施例中，通过构建一个图，根据该些统计相关性关联图像中检测到的区域，并使用图神经网络通过图表传播信息，以学习全局信息并预测每个区域的物体类别标签。具体地，步骤S2进一步包括：

步骤S200，计算目标数据集的训练集上来自不同类别的物体的统计共存概率，构建物体共存概率矩阵。具体地说，对于c和c'这两类，统计对一张图片，当物体类别c存在的情况下，物体类别c'存在的概率，并将该概率表示为m_cc′，计算所有类别对的这些共存概率并获得物体共存概率矩阵M_c∈R^C×C，其中C是对象类别的数量，并且行c和列c'处的元素是m_cc′，即，该物体共存概率矩阵M_c为二维矩阵，行数和列数等于所需识别的物体类别数，矩阵的元素代表某类别物体存在的情况下，存在另一类别物体的概率。

步骤S201，基于物体共存概率矩阵M_c关联来自物体候选区域集B的区域。具体地，给定b_i和b_j的两个区域，将b_i复制C次以获得C节点{b_i1,b_i2,...,b_iC}，其中节点b_ic表示区域b_i与类别c的相关性，并且对b_j执行相同的过程。直观地，m_cc′可以用于将节点b_jc'与b_ic相关联，反之亦然。因此M_c可以用于关联区域b_i的节点和b_j的节点。通过这种方式，可以关联所有区域并构建图形。

步骤S202，基于步骤S201的关联结果，根据该图像的候选框的数量，动态构建嵌入了物体共存概率矩阵先验知识、连接所有区域的知识图网络，并利用该知识图网络对图像中各个候选区域进行物体分类。所述知识图网络，其邻接矩阵由所述物体共存概率矩阵和图像的候选区域数量动态构建而成，该邻接矩阵的行数和列数等于该图像的候选区域数量乘以所需识别的物体类别数量。该知识图网络的初始输入为各个候选区域的特征，输出为各个候区域的类别。

具体地，步骤S202进一步包括：

步骤S202a，根据该图像候选框的数量，动态构建嵌入了物体共存概率矩阵先验知识的知识图网络，所述嵌入了物体共存概率矩阵先验知识的知识图网络为使用门控循环更新机制的图网络。

在本发明具体实施例中，受图门控神经网络的启发，本发明通过使用门控循环更新机制的图来传播信息。具体地，每个节点b_ic在时间步t处具有隐状态

因为每个节点对应特定区域，将该特征与该区域的初始分类得分向量一起用于初始化t＝0处的隐状态，表示为：

其中，φ_s表示将得分向量转换为特征向量的简单转换，通过简单的全连接层实现，另一个转换φ_o进一步将此向量和f_i的串联映射成初始隐状态，并且它还由全连接层实现。

步骤S202b,在每个时间步t，每个节点根据图结构聚合来自其邻居的信息：

步骤S202c，以

及其先前的隐状态作为输入，通过类似于门控循环单元的门控机制更新其隐藏状态：

通过这种方式，每个节点可以聚合来自其邻居的信息，同时将其信息传递给其邻居，从而实现图中所有节点之间的交互。

步骤S202d，在T_o步骤之后，节点信息已经通过图传播并获得每个区域，也就是

的最终隐状态，通过平均池化得到聚合全局信息的特征，并使用分类器来实现物体分类：

全局信息c_i和预测的物体类别o_i＝argmax(o_i)将被用于下一步的关系推断。

步骤S3，统计物体关系分布的概率，构建关系概率矩阵，并根据该图像候选框的数量和类别，动态地构建嵌入关系概率矩阵先验信息的知识图网络，利用该知识图网络对图像中候选区域两两之间的关系进行分类。

在本发明具体实施例中，以结构图的形式表示物体对及其关系的相关性，并采用另一个图神经网络来探索这两个因素的相互作用来推断关系。因此，步骤S3进一步包括：

步骤S300，计算目标数据集的训练集上的统计共存概率来表示物体的相关性，构建关系概率矩阵，并动态地构建嵌入关系概率矩阵先验信息的知识图网络。具体地说，计算给定类别c的主题和类别c'的对象的所有可能关系的概率，并将它们表示为{m_cc'1,m_cc'2,...,m_cc'K}，其中K是关系编号。对于从物体集O中获取的主题o_i和对象o_j，构造具有主语物体节点，宾语物体节点和K关系节点的图，使用

来表示o_i和关系节点k之间以及o_j和关系节点k之间的相关性，通过这种方式，构建了嵌入了关系概率矩阵先验信息的知识图网络。在本发明具体实施例中，所述关系概率矩阵为三维矩阵，第一维长度和第二维长度等于所需识别物体类别数量，第三维长度等于所需识别的关系类别数量，矩阵的元素代表已知主语物体和宾语物体类别的情况下，其关系类别属于某类别的概率。

步骤S301，学习使用相同的图门控循环更新来探索所述知识图网络的节点交互机制，并利用该知识图网络对图像中候选区域两两之间的关系进行分类。在本发明具体实施例中，所述嵌入关系概率矩阵先验信息的知识图网络，其邻接矩阵由所述关系概率矩阵和该图像的两两候选区域类别动态构建而成，该邻接矩阵的行数和列数等于所需识别的关系类别数量加二，该知识图网络的输入为主语物体区域的特征，宾语物体区域的特征，和主语物体与宾语物体区域合并的区域的特征，输出为两两主语物体和宾语物体之间的关系类别。

在本发明具体实施例中，所述知识图网络学习使用相同的图门控循环更新来探索节点交互机制。类似地，每个节点v∈V＝{o_i,o_j,1,2,...,K}在时间步t处有隐状态

并相应地初始化它们。具体来说，使用输入具有全局信息的特征向量初始化物体节点，并使用两个物体的联合区域框中的特征及其空间信息初始化关系节点：

其中

和

是两个简单的变换，两者都是由两个堆叠的全连接层实现的。f_ij是一个特征向量，它编码b_i和b_j的联合区域的视觉特征以及空间信息。在每个时间步t，关系节点聚合来自物体节点的消息，而物体节点聚合来自关系节点的消息：

然后，将这些聚合特征与先前隐藏状态合并，以使用门控机制更新每个节点的隐藏状态，迭代重复T_r次并到达每个节点的最终隐藏状态，即

本发明使用由全连接层实现输出节点特征，并聚合这些特征以推断关系：

其中，

是通过全连接实现的关系分类器。

步骤S4，整合步骤S3和S4的结果即可生成场景图。

图2为本发明一种图像场景图生成装置的系统架构图，图3为本发明具体实施例之图像场景图生成装置的工作过程图。如图2及图3所示，本发明一种图像场景图生成装置，包括：

物体候选区域获取单元20，用于对输入图像进行处理，找出该图像中可能存在物体的各个物体候选区域。在本发明具体实施例中，物体候选区域获取单元20对输入图像利用深度神经网络获取该图像的特征图，并利用区域建议网络找出图片中可能存在物体的各个候选区域。

也就是说，物体候选区域获取单元20利用Faster RCNN卷积神经网络对输入图像I生成物体候选区域集B＝{b₁,b₂,...,b_n}，对于每个区域，除了表示其位置的边界框b_i∈R⁴之外，利用卷积神经网络对各个候选框提取特征，然后利用Faster RCNN的区域建议网络找出图片中可能存在物体的各个候选区域。

具体地，场景图是图像中内容的结构化表示。它由类标签和各个对象的位置以及每个对象之间的关系组成，可以定义为3元组

的三元组；

其中，

是所有关系类别的集合，包含没有关系这种标签。

给定一个图像I，将场景图

的概率分布分解为三个部分：

在上述等式中，边界框部分p(B|I)生成一组候选区域，覆盖输入图像大多数关键图像，该组件由广泛使用的Faster RCNN卷积神经网络实现，物体部分p(O|B,I)预测关于每个检测到的区域的物体类别标签。

物体分类单元21，用于统计物体共存的概率，构建物体共存概率矩阵，并根据物体候选区域获取单元20获得的该图像的候选框的数量，动态地构建嵌入了物体共存概率矩阵先验知识的知识图网络，利用该知识图网络对图像中各个候选区域进行物体分类。

物体共存概率的统计信息是关联图像中的物体和规范物体标签预测的关键线索。在本发明具体实施例中，物体分类单元21通过构建一个图，根据该些统计相关性关联图像中检测到的区域，并使用图神经网络通过图表传播信息，以学习全局信息并预测每个区域的物体类别标签。具体地，物体分类单元21进一步包括：

物体共存概率矩阵构建单元210，用于计算目标数据集的训练集上来自不同类别的物体的统计共存概率，构建物体共存概率矩阵。具体地说，对于c和c'这两类，统计对一张图片，当物体类别c存在的情况下，物体类别c'存在的概率，并将该概率表示为m_cc′，计算所有类别对的这些共存概率并获得物体共存概率矩阵M_c∈R^C×C，其中C是对象类别的数量，并且行c和列c'处的元素是m_cc′，即，该物体共存概率矩阵M_c为二维矩阵，行数和列数等于所需识别的物体类别数，矩阵的元素代表某类别物体存在的情况下，存在另一类别物体的概率。

关联单元211，用于基于物体共存概率矩阵M_c关联来自物体候选区域集B的区域。具体地，给定b_i和b_j的两个区域，将b_i复制C次以获得C节点{b_i1,b_i2,...,b_iC}，其中节点b_ic表示区域b_i与类别c的相关性，并且对b_j执行相同的过程。直观地，m_cc′可以用于将节点b_jc'与b_ic相关联，反之亦然。因此M_c可以用于关联区域b_i的节点和b_j的节点。通过这种方式，可以关联所有区域并构建图形。

知识图网络构建及分类单元212，用于基于关联单元211的关联结果，根据该图像候选框的数量，动态构建嵌入了物体共存概率矩阵先验知识、连接所有区域的知识图网络，并利用该知识图网络对图像中各个候选区域进行物体分类。所述知识图网络，其邻接矩阵由所述物体共存概率矩阵和该图像的候选区域数量动态构建而成，该邻接矩阵的行数和列数等于该图像的候选区域数量乘以所需识别的物体类别数量，该知识图网络的初始输入为各个候选区域的特征，输出为各个候区域的类别。

知识图网络构建及分类单元212具体用于：

基于关联单元的关联结果，根据该图像的候选框的数量，动态构建嵌入了物体共存概率矩阵先验知识的知识图网络，所述嵌入了物体共存概率矩阵先验知识的知识图网络为使用门控循环更新机制的图网络。

在每个时间步t，每个节点根据图结构聚合来自其邻居的信息：

以

在T_o步骤之后，节点信息已经通过图传播并获得每个区域，也就是

关系分类单元22，用于统计物体关系分布的概率，构建关系概率矩阵，并根据该图像候选框的数量和类别，动态地构建嵌入关系概率矩阵先验信息的知识图网络，利用该知识图网络对图像中候选区域两两之间的关系进行分类。

在本发明具体实施例中，以结构图的形式表示物体对及其关系的相关性，并采用另一个图神经网络来探索这两个因素的相互作用来推断关系。因此，关系分类单元22进一步包括：

关系概率矩阵构建单元221，用于计算目标数据集的训练集上的统计共存概率来表示物体的相关性，构建关系概率矩阵，进而动态地构建嵌入关系概率矩阵先验信息的知识图网络。具体地说，计算给定类别c的主题和类别c'的对象的所有可能关系的概率，并将它们表示为{m_cc'1,m_cc'2,...,m_cc'K}，其中K是关系编号。对于从物体集O中获取的主题o_i和对象o_j，构造具有主语物体节点，宾语物体节点和K关系节点的图，使用

学习及关系分类单元222，用于学习使用相同的图门控循环更新来探索所述知识图网络的节点交互机制，并利用该知识图网络对图像中候选区域两两之间的关系进行分类。

其中

和

其中，

是通过全连接实现的关系分类器。

整合单元23，用于整合物体分类单元21与关系分类单元22的结果，生成场景图。

以下将通过一具体实施例来说明本发明：

在本发明具体实施例中，给定一个图像I，本发明将场景图

的概率分布分解为三个部分：

在上述等式中，边界框部分p(B|I)生成一组候选区域，覆盖输入图像大多数关键图像，该组件由广泛使用的Faster RCNN检测器实现，然后，物体部分p(O|B,I)预测关于每个检测到的区域的物体类别标签。在这里，将不同区域与统计物体共存信息相关联，并基于这些相关性创建连接所有区域的知识图网络(如图4(a)所示)，然后，学习知识图网络以通过图传播信息，通过这种方式，本发明可以通过信息传播学习每个区域的带有全局信息的表示，并在物体共存的统计信息的约束下实现更好的物体标签预测。在预测物体标签的条件下，关系分量p(R|O,B,I)推断出每个物体对的关系，并最终生成整个场景图。对于具有预测标签的每个物体对，本发明也构造一个知识图网络，其中物体和关系的节点以及边表示相应物体对与所有关系之间的统计共存概率(参见图4(b)所示)，类似地，学习另一个图神经网络来探索关系和物体之间的相互作用，最后，聚合来自所有节点的特征以预测关系，通过本发明，可以为每个物体对执行此过程并生成整个场景图。

综上所述，本发明一种图像场景图生成方法及装置通过利用Faster RCNN检测器对输入图像生成物体候选区域，然后构建根据统计物体共存矩阵来关联这些区域，构建嵌入了先验知识的采用知识图网络并采用传播网络通过图来扩散节点信息以学习带有全局信息的特征表示以及预测关于每个区域的类别标签，对于具有预测标签的每个物体对，构建知识图网络，并采用传播网络来探索关系和相应物体之间的相互作用来预测它们之间的关系，进而生成整个场景图，本发明通过将嵌入了先验知识的知识图网络应用到图像场景图生成中，提高了图像场景图生成的准确率，特别是显著提升了小样本关系分类的准确率。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种图像场景图生成方法，包括如下步骤：

步骤S3，统计物体关系分布的概率，构建关系概率矩阵，并根据该图像的候选框的数量和类别，动态地构建嵌入关系概率矩阵先验信息的知识图网络，利用该知识图网络对图像中候选区域两两之间的关系进行分类；

步骤S4，整合步骤S2和S3的结果，生成场景图；

步骤S2进一步包括：

步骤S202，基于步骤S201的关联结果，根据该图像的候选框的数量，动态构建嵌入了物体共存概率矩阵先验知识、连接所有区域的知识图网络，并利用该知识图网络对图像中各个候选区域进行物体分类；

所述物体共存概率矩阵为二维矩阵，行数和列数等于所需识别的物体类别数，矩阵的元素代表某类别物体存在的情况下，存在另一类别物体的概率；

步骤S3进一步包括：

步骤S301，学习使用相同的图门控循环更新来探索所述知识图网络的节点交互机制，并利用该知识图网络对图像中候选区域两两之间的关系进行分类；

所述关系概率矩阵为三维矩阵，第一维长度和第二维长度等于所需识别物体类别数量，第三维长度等于所需识别的关系类别数量，矩阵的元素代表已知主语物体和宾语物体类别的情况下，其关系类别属于某类别的概率。

2.如权利要求1所述的一种图像场景图生成方法，其特征在于：于步骤S1中，对输入图像利用深度神经网络获取该图像的特征图，并利用区域建议网络找出图片中可能存在物体的各个物体候选区域。

3.如权利要求1所述的一种图像场景图生成方法，其特征在于：所述知识图网络，其邻接矩阵由所述物体共存概率矩阵和该图像的候选区域数量动态构建而成，该邻接矩阵的行数和列数等于该图像的候选区域数量乘以所需识别的物体类别数量，该知识图网络的初始输入为各个候选区域的特征，输出为各个候区域的类别。

4.如权利要求1所述的一种图像场景图生成方法，其特征在于：所述嵌入关系概率矩阵先验信息的知识图网络，其邻接矩阵由所述关系概率矩阵和该图像的两两候选区域类别动态构建而成，该邻接矩阵的行数和列数等于所需识别的关系类别数量加二，该知识图网络的输入为主语物体区域的特征，宾语物体区域的特征，和主语物体与宾语物体区域合并的区域的特征，输出为两两主语物体和宾语物体之间的关系类别。

5.一种图像场景图生成装置，包括：

物体分类单元，用于统计物体共存的概率，构建物体共存概率矩阵，并根据该图像的候选框的数量，动态地构建嵌入了物体共存概率矩阵先验知识的知识图网络，利用该知识图网络对图像中各个候选区域进行物体分类；

关系分类单元，用于统计物体关系分布的概率，构建关系概率矩阵，并根据图像候选框的数量和类别，动态地构建嵌入关系概率矩阵先验信息的知识图网络，利用该知识图网络对图像中候选区域两两之间的关系进行分类；

整合单元，用于整合所述物体分类单元与关系分类单元的结果，生成场景图；

在物体分类单元中，按照以下步骤运行：

在关系分类单元中，按照以下步骤运行：