CN109146786A

CN109146786A - 场景图生成方法及装置、电子设备和存储介质

Info

Publication number: CN109146786A
Application number: CN201810893159.9A
Authority: CN
Inventors: 李怡康; 欧阳万里; 周博磊; 石建萍; 张超; 王晓刚
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2018-08-07
Filing date: 2018-08-07
Publication date: 2019-01-04

Abstract

本公开涉及一种场景图生成方法及装置、电子设备和存储介质，所述方法包括：根据图像中各对象的区域框确定对象交互区域，根据对象交互区域和各对象的区域框构建所述图像的全连接图；将重叠率大于重叠阈值的对象交互区域进行融合，得到所述图像的子图；根据所述子图和各对象的区域框生成所述图像的场景图。在本公开实施例中，由于子图的数量相较于对象交互区域大幅下降，使得生成场景图的计算量小，占用系统的资源小，计算时间短，占用显存的需求小，可以更加高效的生成图像的场景图。

Description

场景图生成方法及装置、电子设备和存储介质

技术领域

本公开涉及计算机视觉技术领域，尤其涉及一种场景图生成方法及装置、电子设备和存储介质。

背景技术

随着计算机视觉技术的发展，对于图图像识别的需求更加关注图像中物体之间的交互。场景图是将一张图像抽象成一系列物体及物体之间的关系组成的图结构。通过构建场景图，能够得到图像抽象化的表示，并且能够更加高效准确的索引图像。在传统的场景图生成方法中，采用穷举的方式来识别图像中物体之间的关系，由于物体之间的关系随着物体数量的增加成平方关系增长，导致传统的场景图生成方法需要大量的中间运算和显存，无法处理图像中物体较多的情形，在实际应用中存在极大的局限性。

发明内容

本公开提出了一种场景图生成技术方案。

根据本公开的一方面，提供了一种场景图生成方法，包括：

根据图像中各对象的区域框确定对象交互区域，根据对象交互区域和各对象的区域框构建所述图像的全连接图；

将重叠率大于重叠阈值的对象交互区域进行融合，得到所述图像的子图；

根据所述子图和各对象的区域框生成所述图像的场景图。

在一种可能的实现方式中，根据图像中各对象的区域框确定对象交互区域，包括：

根据图像中各对象的区域框和所述区域框的第一置信度，确定对象交互区域和所述对象交互区域的第二置信度，所述第二置信度根据所述第一置信度计算得到；

将重叠率大于重叠阈值的对象交互区域进行融合，得到所述图像的子图，包括：

根据所述第二置信度将重叠率大于重叠阈值的对象交互区域进行融合，得到所述图像的子图。

在一种可能的实现方式中，根据所述子图和各对象的区域框生成所述图像的场景图，包括：

将所述子图进行兴趣区域池化处理，得到所述子图的子图特征，将各对象的区域框进行兴趣区域池化处理，得到各对象的对象特征；

根据所述子图的子图特征和各对象的对象特征得到各所述对象之间的关联关系；

根据各所述对象之间的关联关系和各所述对象生成所述图像的场景图。

在一种可能的实现方式中，根据所述子图的子图特征和各对象的对象特征得到各所述对象之间的关联关系，包括：

根据所述子图的子图特征更新各对象的对象特征，得到各对象的对象空间特征；

根据各对象的对象空间特征、所述子图的子图特征得到各对象之间的关联关系。

在一种可能的实现方式中，根据所述子图的子图特征更新各对象的对象特征，得到各对象的对象空间特征，包括：

将对应目标对象的子图特征进行聚合，得到与所述目标对象对应的第一聚合特征，所述目标对象为任一所述对象；

根据所述第一聚合特征和所述目标对象的对象特征，得到注意力向量；

以所述注意力向量为权重，对所述第一聚合特征进行加权求和，得到第一待融合特征；

根据所述第一待融合特征更新所述目标对象的对象特征，得到所述目标对象的对象空间特征。

根据各对象的对象特征更新所述子图的子图特征的不同区域，得到所述子图的子图加权特征；

根据各对象的对象特征、所述子图的子图加权特征得到各对象之间的关联关系。

在一种可能的实现方式中，根据各对象的对象特征更新所述子图的子图特征的不同区域，得到所述子图的子图加权特征，包括：

将对应目标子图特征的对象特征进行聚合，得到与所述目标子图特征对应的第二聚合特征，所述目标子图特征为任一子图特征；

以所述对象特征为卷积核对所述目标子图特征进行卷积运算，得到注意力图；

根据所述注意力图为权重对所述第二融合特征进行聚合运算，得到所述第二待融合特征；

根据所述第二待融合特征更新所述目标子图特征的不同区域，得到所述子图的子图加权特征。

在一种可能的实现方式中，所述对象包括主语对象和宾语对象，根据所述子图的子图特征和各对象的对象特征得到各所述对象之间的关联关系，包括：

以所述主语对象的对象特征为卷积核，对所述子图的子图特征进行卷积运算，得到主语待融合特征；

以所述宾语对象的对象特征为卷积核，对所述子图的子图特征进行卷积运算，得到宾语待融合特征；

根据所述主语待融合特征、所述宾语待融合特征和所述子图的子图特征，得到各所述对象之间的关联关系。

在一种可能的实现方式中，根据所述主语待融合特征、所述宾语待融合特征和所述子图的子图特征，得到各所述对象之间的关联关系，包括：

根据所述主语待融合特征在所述子图的子图特征中对应的位置，确定所述主语待融合特征的权重；

根据所述宾语待融合特征在所述子图的子图特征中对应的位置，确定所述宾语待融合特征的权重；

将所述主语待融合特征、所述宾语待融合特征和所述子图的子图特征进行全连接处理，得到与所述主语对象和所述宾语对象关联的谓语识别结果。

根据本公开的一方面，提供了一种场景图生成装置，包括：

全连接图生成模块，用于根据图像中各对象的区域框确定对象交互区域，根据对象交互区域和各对象的区域框构建所述图像的全连接图；

子图生成模块，用于将重叠率大于重叠阈值的对象交互区域进行融合，得到所述图像的子图；

场景图生成模块，用于根据所述子图和各对象的区域框生成所述图像的场景图。

在一种可能的实现方式中，所述全连接图生成模块，包括：

置信度子模块，用于根据图像中各对象的区域框和所述区域框的第一置信度，确定对象交互区域和所述对象交互区域的第二置信度，所述第二置信度根据所述第一置信度计算得到；

所述子图生成模块，包括：

第一子图生成子模块，用于根据所述第二置信度将重叠率大于重叠阈值的对象交互区域进行融合，得到所述图像的子图。

在一种可能的实现方式中，所述场景图生成模块，包括：

特征获取子模块，用于将所述子图进行兴趣区域池化处理，得到所述子图的子图特征，将各对象的区域框进行兴趣区域池化处理，得到各对象的对象特征；

关联关系获取子模块，用于根据所述子图的子图特征和各对象的对象特征得到各所述对象之间的关联关系；

场景图生成子模块，用于根据各所述对象之间的关联关系和各所述对象生成所述图像的场景图。

在一种可能的实现方式中，关联关系获取子模块，包括：

对象空间特征获取单元，用于根据所述子图的子图特征更新各对象的对象特征，得到各对象的对象空间特征；

第一关联关系获取单元，用于根据各对象的对象空间特征、所述子图的子图特征得到各对象之间的关联关系。

在一种可能的实现方式中，所述对象空间特征获取单元，用于：

在一种可能的实现方式中，关联关系获取子模块，包括：

子图加权特征获取单元，用于根据各对象的对象特征更新所述子图的子图特征的不同区域，得到所述子图的子图加权特征；

第二关联关系获取单元，用于根据各对象的对象特征、所述子图的子图加权特征得到各对象之间的关联关系。

在一种可能的实现方式中，所述子图加权特征获取单元，用于：

在一种可能的实现方式中，所述对象包括主语对象和宾语对象，所述关联关系获取子模块，还包括：

主语待融合特征获取单元，用于以所述主语对象的对象特征为卷积核，对所述子图的子图特征进行卷积运算，得到主语待融合特征；

宾语待融合特征获取单元，用于以所述宾语对象的对象特征为卷积核，对所述子图的子图特征进行卷积运算，得到宾语待融合特征；

第三关联关系获取单元，用于根据所述主语待融合特征、所述宾语待融合特征和所述子图的子图特征，得到各所述对象之间的关联关系。

在一种可能的实现方式中，所述第三关联关系获取单元，用于：

根据本公开的一方面，提供了一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行上述场景图生成方法。

根据本公开的一方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述场景图生成方法。

在本公开实施例中，可以将重叠率大于重叠阈值的对象交互区域进行融合，得到图像的子图。可以根据子图和各对象的区域框生成图像的场景图。由于子图的数量相较于对象交互区域大幅下降，使得生成场景图的计算量小，占用系统的资源小，计算时间短，占用显存的需求小，可以更加高效的生成图像的场景图。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1是根据示例性实施例示出的一种场景图生成方法的流程图；

图2是根据示例性实施例示出的一种场景图生成方法中全连接图的生成示意图；

图3是根据示例性实施例示出的一种场景图生成方法中子图的生成示意图；

图4是根据示例性实施例示出的一种场景图生成方法的流程图；

图5是根据示例性实施例示出的一种场景图生成方法的流程图；

图6是根据示例性实施例示出的一种场景图生成方法中步骤S32的流程图；

图7是根据示例性实施例示出的一种场景图生成方法中根据子图特征更新对象特征的示意图；

图8是根据示例性实施例示出的一种场景图生成方法中步骤S32的流程图；

图9是根据示例性实施例示出的一种场景图生成方法中根据对象特征更新子图特征的示意图；

图10是根据示例性实施例示出的一种场景图生成方法中步骤S32的流程图；

图11是根据示例性实施例示出的一种场景图生成方法中确定关联关系的示意图；

图12是根据示例性实施例示出的一种场景图生成方法中生成谓语识别结果的示意图；

图13是根据示例性实施例示出的一种场景图生成装置的框图；

图14是根据示例性实施例示出的一种场景图生成装置的框图；

图15是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

图1是根据示例性实施例示出的一种场景图生成方法的流程图，如图1所示，所述场景图生成方法包括：

步骤S10，根据图像中各对象的区域框确定对象交互区域，根据对象交互区域和各对象的区域框构建所述图像的全连接图。

在一种可能的实现方式中，图像可以包括RGB(Red Green Blue,红绿蓝)图像等各种类型的图像。对象可以包括人、动物、植物、建筑物、日用品、交通工具等不同类型的对象，可以根据需求确定需要在图像中识别的对象。区域框可以包括将对象在图像中所占的区域进行标识的框。可以利用人工标注或图像识别的方式，识别图像中的各对象并确定各对象在图像中的区域框。可以将图像输入RPN(Region Proposal Network，区域推荐网络)确定图像中各对象的区域框。本公开不限定图像中各对象的区域框的获取方式和表现形式。

在一种可能的实现方式中，全连接图可以用于表示图像中各对象之间所有可能存在的关系。可以将图像中对象的区域框进行两两组合，若图像中有N个对象，则在全连接图中共有N(N-1)个关系。可以将图像中包括两个对象的区域框的最小矩形区域，确定为对象交互区域。可以根据各对象的区域框和各对象间的对象交互区域，生成全连接图。

图2是根据示例性实施例示出的一种场景图生成方法中全连接图的生成示意图。如图2所示，图2中左侧的图像1中包括三个对象的区域框，分别为棒球选手、棒球帽和球棍的区域框。图2中右侧的下方为图像1的全连接图。其中，灰色圆表示各对象的区域框，白色圆代表各对象间的对象交互区域。图2中右侧的上方为图像1的全连接图的图片示意图。其中，各对象的区域框的图片及对象交互区域的图片，都是图像1中的部分图像。如图2所示，针对图像1中的三个对象，全连接图中的对象交互区域共有六个，分别为：棒球帽与球棍之间的对象交互区域、球棍与棒球帽之间的对象交互区域、棒球选手与棒球帽之间的对象交互区域、棒球帽与棒球选手之间的对象交互区域、球棍与棒球选手之间的对象交互区域、棒球选手与球棍之间的对象交互区域。当图像中的对象增多时，对象交互区域呈平方数关系增长，导致场景图生成的计算效率低、计算时间长，不利于场景图的生成。

步骤S20，将重叠率大于重叠阈值的对象交互区域进行融合，得到所述图像的子图。

在一种可能的实现方式中，如图2所示，图像中的对象交互区域之间有重叠。例如球棍与棒球帽之间的对象交互区域，和棒球选手与球棍之间的对象交互区域之间有重叠。可以将重叠率大于重叠阈值的对象交互区域进行融合，并根据融合后的区域确定图像的子图。

在一种可能的实现方式中，可以利用交并比(Intersection-over-Union，IoU)计算对象交互区域之间的重叠率，即利用两个对象交互区域的交集与并集的比值，计算对象交互区域的重叠率。本公开不限定重叠率的计算方法。

图3是根据示例性实施例示出的一种场景图生成方法中子图的生成示意图。如图3所示，图3中左侧下方为图像1的全连接图，图3中左侧上方为图像1的全连接图的图片示意图。可以利用本公开实施例中的方法，计算对象交互区域的六个图片的之间的重叠率，经过计算可以将对象交互区域的六个图片融合为一个子图，得到图3中右侧上方中间位置的子图的图片。并得到图3中右侧下方为图像1基于子图的连接表示。如图3所示，利用一个子图便可以将三个对象之间的关系表达出来。对象之间的关系表达数量大幅下降。

步骤S30，根据所述子图和各对象的区域框生成所述图像的场景图。

在一种可能的实现方式中，子图的数量相对于对象交互区域的数量，大幅下降。基于图像中的多个对象，可以生成多个子图。由此，基于子图和各对象的区域框生成图像的场景图，计算量大幅下降。

在本实施例中，可以将重叠率大于重叠阈值的对象交互区域进行融合，得到图像的子图。可以根据子图和各对象的区域框生成图像的场景图。由于子图的数量相较于对象交互区域大幅下降，使得生成场景图的计算量小，占用系统的资源小，计算时间短，占用显存的需求小，可以更加高效的生成图像的场景图。

图4是根据示例性实施例示出的一种场景图生成方法的流程图，如图4所示，所述场景图生成方法中步骤S10，包括：

步骤S11，根据图像中各对象的区域框和所述区域框的第一置信度，确定对象交互区域和所述对象交互区域的第二置信度，所述第二置信度根据所述第一置信度计算得到。

在一种可能的实现方式中，此处的第一和第二仅用于区分不同的置信度。在确定图像中各对象的区域框时，可以得到各区域框的第一置信度。可以根据各对象的区域框的第一置信度，得到对象交互区域的第二置信度。可以将两个对象的区域框的第一置信度相乘后，得到对象交互区域的第二置信度。

例如，如图2所示的图像1中，棒球帽的区域框的第一置信度为0.6、球棍的区域框的第一置信度为0.8，则棒球帽与球棍之间的对象交互区域的第二置信度为0.6*0.8＝0.48、球棍与棒球帽之间的对象交互区域的第二置信度也为0.6*0.8＝0.48。

步骤S20，包括：

步骤S21，根据所述第二置信度将重叠率大于重叠阈值的对象交互区域进行融合，得到所述图像的子图。

在一种可能的实现方式中，当多个对象交互区域的重叠率较大时，可以利用其中第二置信度较高的对象交互区域来代表其他的，作为多个对象的子图所在的区域。

在一种可能的实现方式中，步骤S21，包括：

根据所述第二置信度，利用非极大值抑制算法将重叠率大于重叠阈值的对象交互区域进行融合，得到所述图像的子图

在一种可能的实现方式中，非极大值抑制算法(Non-Maximum-Suppression，NMS)可以搜索局部极大值，抑制非极大值元素。可以利用非极大值抑制算法，在重叠率大于重叠阈值的对象交互区域中，搜索第二置信度中的极大值，并抑制非极大值，根据查找到第二置信度的极大值所对应的对象交互区域确定子图。

在本实施例中，在重叠率大于重叠阈值的对象交互区域中，根据所述第二置信度确定所述图像的子图。根据第二置信度确定出的子图，也具有较大的置信度，能够使得最终的场景图具有更高的准确率。

图5是根据示例性实施例示出的一种场景图生成方法的流程图，如图5所示，所述方法中步骤S30，包括：

步骤S31，将所述子图进行兴趣区域池化处理，得到所述子图的子图特征，将各对象的区域框进行兴趣区域池化处理，得到各对象的对象特征。

在一种可能的实现方式中，兴趣区域池化(Region of Interest pooling，RoI)的输入为特征和一系列的区域，可以将每个区域均匀划分成n×m的小区域，并对每个小区域做最大池化，从而得到一个n×m的输出。因此不管输入区域的大小，RoI都将可以将其池化成固定大小输出。

在一种可能的实现方式中，可以将所述子图进行兴趣区域池化处理，得到所述子图的子图特征，可以利用其中的卷积操作保留子图特征的空间信息。

在一种可能的实现方式中，将各对象的区域框进行兴趣区域池化处理，得到各对象的对象特征，其中，可以将根据对象的区域框提取到的对象特征，利用全连接层转化为特征向量。

步骤S32，根据所述子图的子图特征和各对象的对象特征得到各所述对象之间的关联关系。

在一种可能的实现方式中，可以根据子图的子图特征和各对象的对象特征，进行关系推理，预测各对象之间的关联关系。例如，如果需要确定对象1和对象2之间的关联关系，可以根据对象1的对象特征、对象2的对象特征，以及与对象1和对象2都相关的子图特征，得到对象1与对象2之间的关联关系。

步骤S33，根据各所述对象之间的关联关系和各所述对象生成所述图像的场景图。

在一种可能的实现方式中，可以确定出的各对象之间的关联关系，以及图像中的对象，生成图像的场景图。

在本实施例中，根据对象的区域框和子图，得到各对象的对象特征及子图的子图特征后，可以根据对象特征和子图特征得到各对象之间的关联关系，并根据关联关系和各对象生成图像的场景图。根据兴趣区域池化处理得到的对象特征和子图特征，能够使得各对象之间的关联关系更加准确，也使得最终生成的场景图更加的准确。

图6是根据示例性实施例示出的一种场景图生成方法中步骤S32的流程图，如图6所示，所述方法中步骤S32，包括：

步骤S321，根据所述子图的子图特征更新各对象的对象特征，得到各对象的对象空间特征；

步骤S322，根据各对象的对象空间特征、所述子图的子图特征得到各对象之间的关联关系。

在一种可能的实现方式中，子图特征可以涉及对象的不同语义级别。根据子图特征更新对象特征得到的对象空间特征，可以使得对象特征学习到子图特征中的空间信息。可以根据各对象的对象空间特征、所述子图的子图特征得到更加准确的各对象之间的关联关系，

在本实施例中，根据各对象的对象空间特征、所述子图的子图特征，能够得到更加准确的各对象之间的关联关系，最终得到更加准确的场景图。

在一种可能的实现方式中，步骤S321，包括：

在一种可能的实现方式中，对于目标对象，可以将与之对应的子图特征进行聚合，得到第一聚合特征。第一聚合特征中可以包括多个子图特征。子图特征为二维特征图，对象特征为零维特征向量。可以将第一聚合特征中的各子图特征处理为零维特征向量后，与目标对象的对象特征进行融合，得到第一待融合特征。第一待融合特征中可以包括子图特征的空间信息，根据第一待融合特征更新的目标对象的对象特征，可以使得目标对象的对象空间特征携带与之对应的子图特征的空间信息。将与目标对象对应的子图特征进行聚合，可以更有针对性地根据子图特征更新对象特征，提高特征更新的效率。

在一种可能的实现方式中，第一聚合特征中的各子图特征为二维特征图，对象特征为零维特征向量。可以将第一聚合特征中的各子图特征进行平均合并运算得到第一中间结果。图7是根据示例性实施例示出的一种场景图生成方法中根据子图特征更新对象特征的示意图。如图7所示，可以将第一聚合特征中的二维的各子图特征(subgraph features)(m×512×5×5中，m为子图特征的数量，512×5×5为维度，不再赘述)进行平均合并运算后，得到零维的第一中间结果(avg-pooled features)。

在一种可能的实现方式中，可以根据所述第一中间结果和所述目标对象的对象特征(object features)，得到注意力向量。如图7所示，可以将第一中间结果(avg-pooledfeatures)和目标对象的对象特征(object features)进行卷积运算，得到注意力向量(attention vector)。注意力向量中可以携带目标对象的对象特征在子图特征中对应位置的信息。

在一种可能的实现方式中，可以以注意力向量为权重，对第一中间结果进行加权求和，得到第一待融合特征。如图7所示，由于注意量向量中可以包括对象特征的位置的信息，可以以注意力向量为权重，将注意力向量(attention vector)与第一中间结果(avg-pooled features)进行加权求和运算，得到第一待融合特征(merged features)。

在一种可能的实现方式中，如图7所示，可以利用第一待融合特征(mergedfeatures)更新目标对象的对象特征(object features)，得到目标对象的对象空间特征(refined features)。

在本实施例中，根据第一聚合特征和目标对象的对象特征得到注意力向量，利用注意力向量为权重，对第一聚合特征进行加权求和，可以得到第一待融合特征。通过注意力向量，可以使得第一待融合特征中保留子图特征中的空间信息，学习到与其它对象之间相互作用的关联关系。

图8是根据示例性实施例示出的一种场景图生成方法中步骤S32的流程图，如图8所示，所述方法中步骤S32，包括：

步骤S323，根据各对象的对象特征更新所述子图的子图特征的不同区域，得到所述子图的子图加权特征。

步骤S324，根据各对象的对象特征、所述子图的子图加权特征得到各对象之间的关联关系。

在一种可能的实现方式中，根据对象特征更新子图特征，可以根据对象特征在子图特征中对应的位置进行加权运算，得到的子图加权特征。子图加权特征可以在对象特征对应位置更好的学习到对象特征的特征表示。

在本实施例中，根据各对象的对象特征、所述子图的子图加权特征，能够得到更加准确的各对象之间的关联关系，最终得到更加准确的场景图。

在一种可能的实现方式中，步骤S323，包括：

在一种可能的实现方式中，可以将与目标子图特征对应的对象特征进行聚合后，得到第二聚合特征。第二聚合特征中可以包括多个对象特征。可以利用第二聚合特征中的对象特征，对子图特征进行卷积运算，得到第二待融合特征。第二待融合特征中可以包括对象特征的特征信息。根据第二待融合特征更新子图特征得到的子图加权特征，也携带对象特征中的特征信息。由于第二待融合特征中携带对象特征的特征信息，可以使得更新后的子图加权特征也携带对象特征的特征信息。

在一种可能的实现方式中，对象特征对应于子图特征中的不同区域，将对象特征与子图特征进行聚合运算时，可以根据对象特征的位置确定权重。

图9是根据示例性实施例示出的一种场景图生成方法中根据对象特征更新子图特征的示意图。如图9所示，可以以对象特征(object features)为卷积核，对子图特征(subgraph features)进行卷积运算，得到注意力图(attention maps)。再将注意力图(attention maps)为权重，对对象特征(object features)进行聚合运算，得到第二待融合特征(merged features)。

在一种可能的实现方式中，如图9所示，可以以第二待融合特征(mergedfeatures)更新子图特征(subgraph features)，得到子图的子图加权特征(refinedfeatures)。

在本实施例中，以所述对象特征为卷积核对所述目标子图特征进行卷积运算，得到注意力图；根据所述注意力图为权重对所述第二融合特征进行聚合运算，得到所述第二待融合特征。通过注意力图，可以根据对象特征在子图特征中的不同位置确定其权重，使得更新后的子图特征中能够更好的学习到对象特征。

图10是根据示例性实施例示出的一种场景图生成方法中步骤S32的流程图，所述对象包括主语对象和宾语对象，如图10所示，所述方法中步骤S32，包括：

步骤S325，以所述主语对象的对象特征为卷积核，对所述子图的子图特征进行卷积运算，得到主语待融合特征。

步骤S326，以所述宾语对象的对象特征为卷积核，对所述子图的子图特征进行卷积运算，得到宾语待融合特征。

步骤S327，根据所述主语待融合特征、所述宾语待融合特征和所述子图的子图特征，得到各所述对象之间的关联关系。

在一种可能的实现方式中，主语对象或宾语对象可以为图像中的任一对象。所生成图像的场景图，可以包括图像中的主语对象和宾语对象之间的关联关系。可以利用各对象的对象空间特征和图像的子图加权特征，得到更加准确的主语对象和宾语对象之间的关联关系。

在一种可能的实现方式中，由上述实施例可知，对象的对象空间特征为根据子图特征更新后的对象特征，子图的子图加权特征为根据对象特征更新后的子图特征。在本实施例中，主语对象的对象特征或宾语对象的对象特征，可以是更新后的对象空间特征。子图的子图特征也可以是更新后的子图加权特征。

在一种可能的实现方式中，可以利用主语对象的对象空间特征、宾语对象的对象空间特征和子图的子图加权特征，得到各所述对象之间的关联关系；也可以利用主语对象的对象空间特征、宾语对象的对象空间特征和子图的子权特征，得到各所述对象之间的关联关系；还可以利用主语对象的对象特征、宾语对象的对象特征和子图的子图加权特征，得到各所述对象之间的关联关系。本公开对此不作限定。以下仅以对象的对象特征和子图的子图特征为例进行阐述。

图11是根据示例性实施例示出的一种场景图生成方法中确定关联关系的示意图。为更加方便的表示，图11中的主语对象(subject)和宾语对象(object)可以分别为图7中根据子图特征更新后得到的对象空间特征(refined features)。图11中的子图特征(subgraph features)可以为图9中根据对象特征更新后得到子图加权特征(refinedfeatures)。

在一种可能的实现方式中，如图11所示，可以以图11中的主语对象(subject)的对象特征为卷积核(conv kernel)，对子图特征(subgraph features)进行卷积运算，得到主语待融合特征(图11中中间位置中上面的白色方块)。以图11中的宾语对象(object)的对象特征为卷积核(conv kernel)，对子图特征(subgraph features)进行卷积运算，得到宾语待融合特征(图11中中间位置中下面的灰色方块)。可以根据得到的主语待融合特征和宾语待融合特征，与子图特征(subgraph features)进行连接，得到连接特征(concatenate)。可以根据连接特征(concatenate)得到主语对象和宾语对象之间的关联关系(predicate)，从而可以得到图像中各对象之间的关联关系。

在本实施例中，可以分别以主语对象和宾语对象的对象空间特征，对子图的子图加权特征进行卷积运算，并根据得到的结果和子图的子图加权特征，得到各对象之间的关联关系。利用主语对象和宾语对象分别对子图特征进行卷积运算，可以使得主语对象和宾语对象的空间特征，在最终的关联关系中得到更好的表示。

在一种可能的实现方式中，所述方法中的步骤S327，包括

在一种可能的实现方式中，可以将主语待融合特征、所述宾语待融合特征和所述子图的子图特征，输入全连接层进行全连接处理，得到主语对象和宾语对象之间的关联关系，即得到可以连接主语对象和宾语对象的谓语识别结果。

在一种可能的实现方式中，图12是根据示例性实施例示出的一种场景图生成方法中生成谓语识别结果的示意图。如图12所示，图12中左侧上部为对象特征(objectfeatures vectors)，下部为子图特征(subgraph features maps)，将对象特征和子图特征相互更新后，得到子图加权特征和对象空间特征。

在一种可能的实现方式中，在图12中，可以将子图加权特征和对象空间特征输入图12中右侧后，确定主语对象和宾语对象之间的关联关系，如图12中右侧上部所示，根据主语对象的对象特征、宾语对象的对象特征和子图特征，得到谓语识别结果。将主语待融合特征、宾语待融合特征和图加权特征进行全连接处理，可以得到对象中对象的关联关系。

在一种可能的实现方式中，如图12中右侧下部所示，对于图像中各对象的关联关系(object inference)，当以person为主语对象时，对于宾语对象helment，可以确定出的谓语识别结果为wear，即“人戴头盔”，对于宾语对象bat，可以确定出的谓语识别结果为hold，即“人拿着棒球棍”。

在一种可能的实现方式中，可以根据主语待融合特征在子图加权特征中对应的位置，确定主语待融合特征的权重。根据宾语待融合特征在在子图加权特征中对应的位置，确定宾语待融合特征的权重。最终可以根据得到的权重、主语待融合特征、宾语待融合特征和子图加权特征，得到与所述主语对象和所述宾语对象关联的谓语识别结果。

在本实施中，根据主语待融合特征或宾语待融合特征，在子图加权特征中对应的位置，确定其权重，可以使得主语待融合特征或宾语待融合特征，在最终的关联关系中，更好的学习到主语对象或宾语对象的特征表示。

应用实例：

一、生成子图

可以将图像输入候选区域提取网络(RPN)，得到图像中各对象的区域框。可以根据各对象的区域框，得到图像中的对象交互区域。

可以将图像中重叠率大于重叠阈值的对象交互区域进行融合，得到图像的子图。

二、根据子图特征更新对象特征

可以利用公式(1)得到与对象i相关的子图特征，得到与对象i对应的第一聚合特征

其中，为对象i对应的子图特征的集合，为需要传递至对象i的第一待融合特征。s_k为图像的子图特征集合S_k中的子图特征，p_i(S_k)可以根据公式(2)计算得到：

其中，o_i为对象i的子图特征，FC^(att_s)为将子图特征s_k传送至对象i的对象特征o_i，ReLU为的激活函数。

可以利用公式(3)，根据子图特征更新对象特征，得到对象i的子图加权特征

其中，FC^(s→o)为将第一待融合特征和对象i的对象特征进行全连接处理，将第一待融合特征的特征表示传递至对象i的对象特征。

三、根据对象特征更新子图特征

可以利用对象i的位置(x,y)，确定与子图特征对应的对象i的对象特征集合如公式(4)所示，

其中，O_k为与子图k对应的特征对象的集合，P_k(o_i)(x，y)可以利用公式(5)计算得到：

其中，s_k(x，y)为子图待征s_k中(x，y)的位置，FC^（att_o)为将o_i转换至s_k(x，y)的目标域的全连接处理。

可以利用公式(6)，根据对象特征集合更新子图特征，得到子图加权特征

其中，Conv^(o→s)为将对象特征转换为子图特征的卷积运算。

四、空间敏感关系推断

对于对象i和对象j，可以利用对象i的更新后的对象空间特征o_i、对象j的更新后的对象空间特征o_j，和子图加权特征S_k，得到对象i和对象j之间的关联关系p^{<i，k，j>}：

p^{<i，k，j>}＝f(o_i，S_k，o_j) (7)

其中，S_k可以根据公式(8)计算得到：

p^{<i，k，j>}可以根据公式(9)计算得到：

由此，可以得到图像中任意一对对象之间的关联关系。

可以理解，本公开提及的上述各个方法实施例，在不违背原理逻辑的情况下，均可以彼此相互结合形成结合后的实施例，限于篇幅，本公开不再赘述。

此外，本公开还提供了图像处理装置、电子设备、计算机可读存储介质、程序，上述均可用来实现本公开提供的任一种图像处理方法，相应技术方案和描述和参见方法部分的相应记载，不再赘述。

图13是根据示例性实施例示出的一种场景图生成装置的框图，如图13所示，所述场景图生成装置包括：

全连接图生成模块10，用于根据图像中各对象的区域框确定对象交互区域，根据对象交互区域和各对象的区域框构建所述图像的全连接图；

子图生成模块20，用于将重叠率大于重叠阈值的对象交互区域进行融合，得到所述图像的子图；

场景图生成模块30，用于根据所述子图和各对象的区域框生成所述图像的场景图。

图14是根据示例性实施例示出的一种场景图生成装置的框图，如图14所示，在一种可能的实现方式中，所述全连接图生成模块10，包括：

置信度子模块11，用于根据图像中各对象的区域框和所述区域框的第一置信度，确定对象交互区域和所述对象交互区域的第二置信度，所述第二置信度根据所述第一置信度计算得到；

所述子图生成模块20，包括：

第一子图生成子模块21，用于根据所述第二置信度将重叠率大于重叠阈值的对象交互区域进行融合，得到所述图像的子图。

在一种可能的实现方式中，所述场景图生成模块30，包括：

特征获取子模块31，用于将所述子图进行兴趣区域池化处理，得到所述子图的子图特征，将各对象的区域框进行兴趣区域池化处理，得到各对象的对象特征；

关联关系获取子模块32，用于根据所述子图的子图特征和各对象的对象特征得到各所述对象之间的关联关系；

场景图生成子模块33，用于根据各所述对象之间的关联关系和各所述对象生成所述图像的场景图。

在一种可能的实现方式中，关联关系获取子模块32，包括：

在一种可能的实现方式中，所述对象包括主语对象和宾语对象，所述关联关系获取子模块32，还包括：

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述

本公开实施例还提出一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是非易失性计算机可读存储介质。

本公开实施例还提出一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为上述方法。电子设备可以被提供为终端、服务器或其它形态的设备。

图15是根据一示例性实施例示出的一种电子设备1900的框图。例如，电子设备1900可以被提供为一服务器。参照图15，电子设备1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述方法。

电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理，一个有线或无线网络接口1950被配置为将电子设备1900连接到网络，和一个输入输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器1932，上述计算机程序指令可由电子设备1900的处理组件1922执行以完成上述方法。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种场景图生成方法，其特征在于，所述方法包括：

根据所述子图和各对象的区域框生成所述图像的场景图。

2.根据权利要求1所述的方法，其特征在于，根据图像中各对象的区域框确定对象交互区域，包括：

3.根据权利要求1或2所述的方法，其特征在于，根据所述子图和各对象的区域框生成所述图像的场景图，包括：

4.根据权利要求3所述的方法，其特征在于，根据所述子图的子图特征和各对象的对象特征得到各所述对象之间的关联关系，包括：

5.一种场景图生成装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述全连接图生成模块，包括：

所述子图生成模块，包括：

7.根据权利要求5或6所述的装置，其特征在于，所述场景图生成模块，包括：

8.根据权利要求7所述的装置，其特征在于，关联关系获取子模块，包括：

9.一种电子设备，其特征在于，包括：处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行权利要求1至4中任意一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至4中任意一项所述的方法。