CN112528500A

CN112528500A - 一种场景图构造模型的评估方法及评估设备

Info

Publication number: CN112528500A
Application number: CN202011456244.2A
Authority: CN
Inventors: 陈海波; 曹东
Original assignee: Deep Blue Technology Shanghai Co Ltd
Current assignee: Shenlan Artificial Intelligence Application Research Institute Shandong Co ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-03-19
Anticipated expiration: 2040-12-11
Also published as: CN112528500B

Abstract

本申请公开了一种场景图构造模型的评估方法及评估设备，该方法包括：采用正交试验方式通过场景图构造模型分别对所述任一图像进行实体检测处理以及进行实体关系预测处理，确定所述任一图像对应的多个第一预测结果和多个第二预测结果；基于所述各个实体的真实边界框、所述多个第一预测结果，计算得到所述任一图像对应的多个MAP；采用预设规则对所述多个第二预测结果分别进行处理，得到所述任一图像对应的多个第一召回率；对所述任一图像对应的多个MAP、多个第一召回率进行综合评估处理，得到评估结果，可以确定场景图构造模型的各个结构和/或组合结构的影响程度，可以系统、正确、有效的评估场景图的构造效果，可以提高构造场景图的精准性。

Description

一种场景图构造模型的评估方法及评估设备

技术领域

本申请涉及人工智能和视觉智能算法技术领域，尤指一种场景图构造模型的评估方法及评估设备。

背景技术

为视觉场景构造结构化的表示形式是视觉智能领域中一个较为突出的问题。场景图作为一个图结构，为真实世界的图像提供了语义的理解和总结。由于视觉场景存在多交互的实体对象，且场景的前景和背景都对图像的语义理解起重要作用。因此，合理且准确地描述场景是后续视觉推理的核心条件，进而衡量场景图构造效果成为后续推理应用的一个重要前提，比如视觉场景中对象位置的准确率，对象类别的准确率，对象关系的准确率等。

然而，目前还未有相对系统的、正确的、有效的评估场景图构造效果的方法。因此，如何提供一种相对系统的、正确的、有效的评估场景图的构造效果的方法成为目前亟需解决的问题。

发明内容

本申请实施例提供一种场景图构造模型的评估方法及评估设备，用以解决现有技术中存在还未有相对系统的、正确的、有效的评估场景图构造效果的方法的问题。

第一方面，本申请实施例提供一种场景图构造模型的评估方法，包括：

获取多个图像中的任一图像包含的各个实体的真实边界框，所述实体为所述任一图像中包含的人或物品，所述多个图像对应多个场景；

采用正交试验方式通过场景图构造模型分别对所述任一图像进行实体检测处理，以确定所述任一图像对应的多个第一预测结果，所述第一预测结果包括所述各个实体的预测边界框；

基于所述各个实体的真实边界框、所述多个第一预测结果，计算得到所述任一图像对应的多个平均精度均值MAP，所述MAP用于表征所述场景构造模型预测所述各个实体的类别的准确程度；

采用所述正交试验方式通过所述场景图构造模型对所述各个实体进行实体关系预测处理，以获得所述任一图像对应的多个第二预测结果，并采用预设规则对所述多个第二预测结果分别进行处理，得到所述任一图像对应的多个第一召回率；所述第二预测结果包括所述任一图像对应的类别数召回率、各个实体之间的关系数召回率、三元组件的组件数召回率，所述三元组件为由所述各个实体构成的客体、主体以及所述客体与所述主体之间的关系组成的；

对所述任一图像对应的多个MAP、多个第一召回率进行综合评估处理，得到评估结果，所述评估结果用于确定所述场景图构造模型中的各个结构和/或组合结构对构造场景图的影响程度。

在一种可能的设计中，对所述任一图像对应的多个MAP、多个第一召回率进行综合评估处理，得到评估结果，包括：

分别将所述任一图像对应的多个MAP、多个第一召回率一一对应的输入归一化模型中，得到所述任一图像对应的多个评估指标，所述评估指标用于表征所述场景图构造模型构造所述任一图像的准确程度；

分别将所述任一图像对应的多个评估指标输入几何平均模型中，得到所述场景图构造模型的多个综合指标，所述综合指标用于表征所述场景图构造模型构造所述任一图像的综合准确程度；

对所述多个综合指标进行综合评估处理，得到所述评估结果。

在一种可能的设计中，对所述多个综合指标进行评估处理，得到所述评估结果，包括：

根据最终正交表中的结构变量以及所述多个综合指标进行极差与方差的分析，得到所述评估结果，所述最终正交表为采用所述正交试验方式时使用的正交表。

在一种可能的设计中，基于所述各个实体的真实边界框、所述多个第一预测结果，计算得到所述任一图像对应的多个平均精度均值MAP，包括：

确定所述任一图像对应的多个交并比IOU，所述多个IOU与所述多个第一预测结果一一对应，所述多个IOU中的任一IOU由所述各个实体的真实边界框与所述任一IOU对应的第一预测结果包括的所述各个实体的预测边界框计算得到，所述任一IOU用于表示所述各个实体的真实边界框和与所述任一IOU对应的第一预测结果包括的所述各个实体的预测边界框之间的重合程度；

基于所述多个IOU，确定所述任一图像对应的多个MAP，所述多个MAP与所述多个IOU一一对应。

在一种可能的设计中，采用预设规则对所述多个第二预测结果分别进行处理，得到所述任一图像对应的多个第一召回率，包括：

对所述任一图像对应的多个类别数召回率、各个实体之间的多个关系数召回率、三元组件的多个组件数召回率进行归一化处理，得归一化后的任一图像对应的多个类别数召回率、各个实体之间的多个关系数召回率、三元组件的多个组件数召回率；

获取预设的激活参数，所述激活参数包括三个第一权重参数和三个偏置参数，所述三个第一权重参数中的任一第一权重参数用于表征实体类别、实体关系、三元组件中的一个对所述场景图构造模型的结构变量的贡献程度，所述三个偏置参数中的任一偏置参数用于表征实体类别、实体关系、三元组件中的一个与所述场景图构造模型的正相关偏移的程度；

将所述归一化后的任一图像对应的多个类别数召回率、各个实体之间的多个关系数召回率、三元组件的多个组件数召回率以及所述三个第一权重参数和所述三个偏置参数，分别对应的输入所述任一图像对应的实体类别、实体关系、三元组件各自对应的激活模型，得到激活后的任一图像对应的多个类别数召回率、各个实体之间的多个关系数召回率、三元组件的多个组件数召回率；

基于所述激活参数以及所述归一化后的任一图像对应的多个类别数召回率、各个实体之间的多个关系数召回率、各个实体之间的多个组件数召回率，获得所述任一图像对应的实体类别、实体关系、实体组件分别对应的激活模型的多个相关系数矩阵；

基于所述任一图像对应的实体类别、实体关系、实体组件分别对应的激活模型的多个相关系数矩阵，计算得到所述激活后的任一图像对应的类别数召回率、各个实体之间的关系数召回率、三元组的组件数召回率各自对应的第二权重参数；

基于所述激活后的任一图像对应的多个类别数召回率、各个实体之间的多个关系数召回率、三元组件的多个组件数召回率，以及所述激活后的任一图像对应的类别数召回率、各个实体之间的关系数召回率、三元组件的组件数召回率各自对应的第二权重参数，计算得到所述任一图像对应的多个第一召回率。

在一种可能的设计中，所述多个第一预测结果中的任一第一预测结果还包括所述任一图像包含的各个实体的预测类别、所述预测类别对应的第一置信度以及所述预测边界框对应的第二置信度，所述第一置信度用于表征所述预测类别的最低正确程度，所述第二置信度用于表征所述预测边界框的最低正确程度；

采用所述正交试验方式通过所述场景构造图模型对所述任一图像包含的各个实体进行实体关系预测处理，以获得所述任一图像对应的多个第二预测结果，包括：

从所述多个第一预测结果中选择出第一置信度或第二置信度排序在前的K个第一预测结果，K为大于1的整数；

确定所述场景图构造模型中用于进行实体关系预测的第一子模型、第二子模型和第三子模型；其中，所述第一子模型的输入参数包含所述任一图像和所述任一图像包含的各个实体的真实边界框、类别，所述第二子模型、所述第三子模型的输入参数包含所述任一图像；

采用所述正交试验方式通过所述第一子模型对所述K个第一预测结果对应的K个图像中的每个图像包含的各个实体之间的关系进行预测，得到所述K个图像中的每个图像对应的各个实体之间的多个关系数召回率；

采用所述正交试验方式通过所述第二子模型对所述K个图像中的每个图像进行所述三元组件以及所述三元组件的整体边界框进行预测，以及通过所述第三子模型对所述K个图像中的每个图像进行所述三元组件以及所述三元组件中的客体和主体各自的边界框进行预测，得到任一图像对应的多个类别召回率、三元组件的多个组件数召回率；其中，所述任一图像对应的多个类别召回率、三元组件的多个组件数召回率以及各个实体之间的多个关系数召回率构成所述多个第二预测结果。

在一种可能的设计中，采用正交试验方式通过场景图构造模型对所述多个图像进行实体检测处理，以确定所述任一图像对应的多个第一预测结果之前，还包括：

确定所述场景图构造模型的第一结构变量以及所述第一结构变量的水平，并基于所述第一结构变量以及所述第一结构变量的水平，生成第一正交表；

确定得到所述评估结果之前需要使用的除去所述场景图构造模型之外的其他模型对应的第二结构变量和所述第二结果变量的水平；

将所述第二结果变量和所述第二结果变量对应的水平映射到所述第一正交表中，得到第二正交表；所述第二正交表中的每一行的各个结构因素的水平构成一个实验用例；

在所述第二正交表中增加可疑的实验用例组合，生成采用所述正交试验方式时使用的最终正交表，所述可疑的实验用例组合为所述第二正交表中不包含的，全排列组合中包含的实验用例，所述全排列组合由所述第一结构变量、所述第一结构变量的水平以及所述第二结构变量和所述第二结构变量的水平构成的全排列组合。

在一种可能的设计中，获取任一图像包含的各个实体的真实边界框，包括：

获取经过人工清洗后的第一图像语义数据集，所述第一图像语义数据集包括所述任一图像对应的标注，所述标注包含任一图像的各个实体的真实边界框；

对所述任一图像对应的标注格式进行统一处理，得到统一所述任一图像对应的标注格式后的第二图像语义数据集；

基于所述第二图像语义数据集，确定所述任一图像包含的各个实体的真实边界框。

第二方面，本申请实施例提供一种评估设备，包括：

获取单元，用于获取多个图像中的任一图像包含的各个实体的真实边界框，所述实体为所述任一图像中包含的人或物品，所述多个图像对应多个场景；

预测单元，用于采用正交试验方式通过场景图构造模型分别对所述任一图像进行实体检测处理，以确定所述任一图像对应的多个第一预测结果，所述第一预测结果包括所述各个实体的预测边界框；

计算单元，用于基于所述各个实体的真实边界框、所述多个第一预测结果，计算得到所述任一图像对应的多个平均精度均值MAP，所述MAP用于表征所述场景构造模型预测所述各个实体的类别的准确程度；

所述预测单元，还用于采用所述正交试验方式通过所述场景图构造模型对所述各个实体进行实体关系预测处理，以获得所述任一图像对应的多个第二预测结果，并采用预设规则对所述多个第二预测结果分别进行处理，得到所述任一图像对应的多个第一召回率；所述第二预测结果包括所述任一图像对应的类别数召回率、各个实体之间的关系数召回率、三元组件的组件数召回率，所述三元组件为由所述各个实体构成的客体、主体以及所述客体与所述主体之间的关系组成的；

评估单元，用于对所述任一图像对应的多个MAP、多个第一召回率进行综合评估处理，得到评估结果，所述评估结果用于确定所述场景图构造模型中的各个结构和/或组合结构对构造场景图的影响程度。

在一种可能的设计中，所述评估单元在用于对所述任一图像对应的多个MAP、多个第一召回率进行综合评估处理，得到评估结果时，可以具体用于：

在一种可能的设计中，所述评估单元在用于对所述多个综合指标进行评估处理，得到所述评估结果时，可以具体用于：

在一种可能的设计中，所述计算单元在用于基于所述各个实体的真实边界框、所述多个第一预测结果，计算得到所述任一图像对应的多个平均精度均值MAP时，可以具体用于：

在一种可能的设计中，所述预测单元在用于采用预设规则对所述多个第二预测结果分别进行处理，得到所述任一图像对应的多个第一召回率时，可以具体用于：

所述预测单元在用于采用所述正交试验方式通过所述场景构造图模型对所述任一图像包含的各个实体进行实体关系预测处理，以获得所述任一图像对应的多个第二预测结果时，可以具体用于：

在一种可能的设计中，所述预测单元在用于采用正交试验方式通过场景图构造模型对所述多个图像进行实体检测处理，以确定所述任一图像对应的多个第一预测结果之前，还可以用于：

在一种可能的设计中，所述获取单元在用于获取任一图像包含的各个实体的真实边界框时，可以具体用于：

第三方面，本申请实施例提供一种评估设备，包括：至少一个处理器和存储器；其中，所述存储器用于存储一个或多个计算机程序；当所述存储器存储的一个或多个计算机程序被所述至少一个处理器执行时，使得所述评估设备能够执行上述第一方面或上述第一方面的任意一种可能的设计的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得所述计算机能够执行上述第一方面或上述第一方面的任意一种可能的设计的方法。

第五方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被计算机执行时，使所述计算机执行第一方面或上述第一方面的任意一种可能的设计的方法。

本申请有益效果如下：

在本申请实施例提供的技术方案中，获取多个图像中的任一图像包含的各个实体的真实边界框，所述实体为所述任一图像中包含的人或物品，所述多个图像对应多个场景；进一步的，采用正交试验方式通过场景图构造模型分别对所述任一图像进行实体检测处理，可以确定所述任一图像对应的多个第一预测结果，所述第一预测结果包括所述各个实体的预测边界框；进一步的，基于所述各个实体的真实边界框、所述多个第一预测结果，可以计算得到所述任一图像对应的多个平均精度均值MAP，所述MAP用于表征所述场景构造模型预测所述各个实体的类别的准确程度；进一步的，采用所述正交试验方式通过所述场景图构造模型对所述各个实体进行实体关系预测处理，可以获得所述任一图像对应的多个第二预测结果，采用预设规则对所述多个第二预测结果分别进行处理，可以得到所述任一图像对应的多个第一召回率；所述第二预测结果包括所述任一图像对应的类别数召回率、各个实体之间的关系数召回率、三元组件的组件数召回率，所述三元组件为由所述各个实体构成的客体、主体以及所述客体与所述主体之间的关系组成的；进一步的，对所述任一图像对应的多个MAP、多个第一召回率进行综合评估处理，得到评估结果，所述评估结果用于确定所述场景图构造模型中的各个结构和/或组合结构对构造场景图的影响程度。通过这种方式，可以针对场景图构造模型执行的每个阶段的特点，针对性地计算出每个阶段对应的评估指标，再根据每个阶段的评估指标综合可以得出场景图构造模型的评估结果，可以用于系统的、正确的以及有效的对场景图的构造效果进行评估，例如可以确定场景图构造模型中的各个结构和/或组合结构对构造场景图的影响程度，进一步的，可以确定场景图构造模型的各个结构和/或组合结构中影响程度最大的结构以及组合结构，从而可以为后续场景图构造模型优化提供支持，还可以减少仅依赖三元组件的召回率造成的过度错误惩罚，可以提高构造场景图的精准性。

附图说明

图1为本申请实施例提供的一种场景图构造效果的评估方法的流程示意图；

图2为本申请实施例提供的一种设计多个场景的图像语义数据集的过程示意图；

图3为本申请实施例提供的一种设置用于进行正交试验的正交表的过程示意图；

图4为本申请实施例提供的一种评估设备获得场景图构造模型的评估结果的过程示意图；

图5为本申请实施例提供的一种评估设备的结构示意图；

图6为本申请实施例提供的一种评估设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

附图中各部件的形状和大小不反映真实比例，目的只是示意说明本申请内容。

本申请实施例中，“第一”、“第二”是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例中，“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本申请实施例中的字符“/”，一般表示前后关联对象是一种“或”的关系。

本申请实施例中，“多个”可以表示至少两个，例如可以是两个、三个或者更多，本申请实施例不限定。

由前述内容可知，目前还未有相对系统的、正确的、有效的评估场景图构造效果的方法。鉴于此，本申请实施例提供了一种场景图构造效果的评估方法，用于提供一种相对系统的、正确的、有效的评估场景图的构造效果的方法，以提高构造场景图的精准性。

下面结合说明书附图介绍本申请实施例提供的技术方案。

示例性的，请参考图1所示，为本申请实施例提供的一种场景图构造效果的评估方法的流程示意图。其中，图1所示的方法流程可以适用于家居场景、校园场景、商场场景、体育馆场景、户外场景等任何需要构造场景图的场景，本申请实施例对此不作限定。如图1所示，该方法流程包括：

S101、获取多个图像中的任一图像包含的各个实体的真实边界框。

其中，本申请实施例中所涉及的实体，可以为任一图像中包含的人或物品，例如桌子、剪刀、衣物等。多个图像可以对应多个场景，具体的，一个或多个图像可以对应一个场景。

S102、采用正交试验方式通过场景图构造模型分别对所述任一图像进行实体检测处理，以确定所述任一图像对应的多个第一预测结果。

其中，第一预测结果可以包括所述各个实体的预测边界框。

S103、基于所述各个实体的真实边界框、所述多个第一预测结果，计算得到所述任一图像对应的多个平均精度均值(Mean Average Precision，MAP)。

其中，MAP可以用于表征场景构造模型预测各个实体的类别的准确程度。

S104、采用所述正交试验方式通过所述场景图构造模型对所述各个实体进行实体关系预测处理，以获得所述任一图像对应的多个第二预测结果。

其中，所述第二预测结果可以包括所述任一图像对应的类别数召回率、各个实体之间的关系数召回率、三元组件的组件数召回率，三元组件为由所述各个实体构成的客体、主体以及所述客体与所述主体之间的关系组成的。

S105、采用预设规则对所述多个第二预测结果分别进行处理，得到所述任一图像对应的多个第一召回率。

S106、对所述任一图像对应的多个MAP、多个第一召回率进行综合评估处理，得到评估结果。

其中，该评估结果可以用于确定所述场景图构造模型中的各个结构和/或组合结构对构造场景图的影响程度。

在一些实施例中，由于场景图构造模型的效果好坏不仅依赖于场景图构造模型本身，还取决于数据集的好坏，可以理解为数据集的质量决定场景图构造模型预测的效果上限。在本申请实施例中，为了提高场景图构造模型的准确性和稳健性，在执行步骤S101之前，需要设计多个场景的图像语义数据集。

下面介绍设计多个场景的图像语义数据集的具体过程。如图2所示，以评估设备为执行主体为例，该过程可以包括：

S201、准备第一图像语义数据集。

其中，第一图像语义数据集可以包括多个场景各自对应的图像语义数据集。

在一些实施例中，多个场景可以包括家居场景、校园场景、商场场景、体育馆场景、户外场景等任何需要构造场景图的场景中的多个，本申请实施例对此不作限定。

在一些实施例中，一个场景可以对应一个或多个图像。每个场景对应的图像语义数据集可以包括该场景对应的一个或多个图像和这一个或多个图像各自对应的图像标注。可选的，单个图像对应的图像标注可以包括该图像中的各个实体的真实边界框，其中，各个实体的真实边界框可以用于表示各个实体在该图像中的位置。

在具体的实现过程中，单个图像对应的图像标注还可以包括该图像中的各个实体的类别、属性以及各个实体间的关系标签等。其中，实体的类别用于表示这个实体是什么，例如是桌子；实体的属性用于表示这个实体是什么样的，例如是木制的；各个实体之间的关系标签可以是位置关系、某个操作对应的客体和主体之间的关系等。例如，以两个实体为椅子和桌子为例，椅子和桌子之间的位置关系可以是椅子位于桌子下面，或者以两个实体以椅子和人为例，拿椅子操作的主体可以是人，客体可以是椅子。

S202、通过人工清洗第一图像语义数据集，并统计清洗信息。

在一些实施例中，可以通过人工删除第一图像语义数集中的无效边界框，合并重复的边界框以及更新模糊的标签表示，清洗第一图像语义数据集。具体的，无效边界框可以是没有合适圈出实体的边界框，例如边界框对应的区域相较于实体所处的区域过大或过小；重复的边界框可以是至少两次对同一个实体圈出了边界框；模糊的标签表示可以是标注的实体不具体，例如将真实的笔标成了棍子。

在一些实施例中，评估设备还可以统计第一图像语义数据集的清洗信息。例如，删除哪个图像中的无效边界框、对哪个图像中的重复边界框进行了合并，更正了哪个图像中的模糊的标签表示等。

本申请实施例中，通过人工清洗第一图像语义数据集，可以根据具体情况具体分析，相较于算法清洗(清洗规则是固定的)而言，比较灵活，可以确保清洗后的第一图像语义数据集的质量。

S203、统一清洗后的第一图像语义数据集的标注格式。

在一些实施例中，由于场景图构造模型的输入数据需要统一，通过将清洗后的第一图像语义数据集的标注格式，使得第一图像语义数据集所包括的多个场景各自对应的图像语义数据集可以适用于同一个场景图构造模型进行相应的计算。

S204、统计清洗后的第一图像语义数据集中的实体的真实边界框数、实体类别数和各个实体的关系类别数。

本申请实施例中，评估设备通过执行S204，可以便于后续获得场景图构造模型的评估结果。

需要说明的数据，本申请实施例不限定上述S203和S204的执行顺序，比如，评估设备可以同时执行S203和S204，或者可以先执行S203后执行S204，或者也可以先执行S204后执行S203。

在一些实施例中，当设计好第一图像语义数据集后，评估设备可以开始执行S101，即获取多个图像中的任一图像包含的各个实体的真实边界框。

在一些实施例中，评估设备可以获取经过人工清洗后的第一图像语义数据集。若经过人工清洗后的第一图像语义数据集中的标注格式不适用于当前的场景图构造模型，评估设备可以对经过人工清洗后的第一图像语义数据包括的多个图像中的任一图像对应的标注格式进行统一处理，得到统一该任一图像对应的标注格式后的第二图像语义数据集。之后，评估设备可以基于第二图像语义数据集，确定该任一图像包含的各个实体的真实边界框。或者，评估设备可以基于获取到的经过人工清洗后的第一图像语义数据集，确定该任一图像包含的各个实体的真实边界框。之后，若确定经过人工清洗后的第一图像语义数据集中的标注格式不适用于当前的场景图构造模型，评估设备可以对经过人工清洗后的第一图像语义数据包括的多个图像中的任一图像对应的标注的格式进行统一处理，得到第二图像语义数据集。

在本申请实施例中，通过统计经过人工清洗后的第一图像语义数据集中的任一图像包含的各个实体的边界框，可以避免第一图像语义数据集中的无效边界框、重复的边界框以及模糊的标签表示对后续计算得到的评估结果影响，导致评估场景图构造模型的精准性降低的现象。

一般而言，正交试验设计是研究多因素、多水平的试验方法，可以通过少数试验替代全面试验，例如可以根据正交性挑选适量的代表性数据进行试验。由于这些代表性数据具备“均匀分散，整齐可比”的特点，可以得到显著有效的结构变量。在本申请实施例中，为了比较不同场景各自对应的图像语义数据集对场景图构造模型的影响，以及实现以最少的试验次数达到与大量全面试验等效的效果，在执行S102之前，可以先设置用于进行正交试验的正交表。

下面介绍设置用于进行正交试验的正交表的具体过程。

如图3所示，该过程可以包括：

S301、确定场景图构造模型的第一结构变量以及第一结构变量的水平。

比如，当场景图构造模型的第一结构变量包括注意力机制结构变量、池化类型结构变量和语义迭代结构变量时，注意力机制结构变量对应的水平可以为2，例如是和否，池化类型结构变量对应的水平可以为3，例如无池化、平均池化和最大池化，语义迭代结构变量对应的水平可以为2，例如是和否。

S302、基于第一结构变量以及第一结构变量的水平，生成第一正交表。

在具体的实现过程中，由于不同的结构变量的水平不一致，可以基于第一结构变量和第一结构变量的水平，采用混合正交方式，通过相应的正交表工具(例如minilab软件工具)或者查找正交表生成第一正交表。

示例性的，当第一结构变量包括注意力机制结构变量、池化类型结构变量和语义迭代结构变量时，第一正交表的示例可以如表1所示。

表1

实验用例	注意力机制	池化类型	语义迭代
				1	是	无池化	是
2	否	无池化	否
				3	是	平均池化	否
4	否	平均池化	是
				5	是	最大池化	是
6	否	最大池化	否

S303、确定算法模型对应的第二结构变量和第二结果变量的水平，并第二结果变量和第二结果变量的水平映射到第一正交表中，得到第二正交表。

其中，算法模型为得到场景图构造模型对应的评估结果之前需要使用的，除去场景图构造模型之外的其他模型。第二正交表中的每一行的各个结构因素的水平构成一个实验用例。其中，第二正交表和第一正交表的表现方式类似，具体可以参见上述表1，在此不再重复赘述。

本申请实施例中，由于不同的算法模型可能会场景图构造模型产生不同的影响，通过算法模型对应的第二结构变量和第二结果变量的水平映射到正交表中，可以综合考虑不同算法模型对场景图构造模型的影响。

S304、在第二正交表中增加可疑的实验用例组合，生成采用正交试验方式时使用的最终正交表。

其中，可疑的实验用例组合为第二正交表中不包含的，全排列组合中包含的实验用例。可选的，全排列组合为由第一结构变量、第一结构变量的水平以及第二结构变量和第二结果变量的水平构成的全排列组合。

在具体的实现过程中，可以对最终正交表中的结构变量的水平进行编码，比如，可以用L_n(m^k)表示。其中，L用于表示正交，n用于表示试验次数，k用于表示结构变量个数，m用于表示结构变量的水平。最终正交表可以要求每个结构变量列中的不同结构变量出现次数相等，且任意两列的有序组合对出现次数相同。

本申请实施例中，通过增加可疑的实验用例组合，相较于直接采用第二正交表进行正交试验而言，可以减少实验误差。

在一些实施例中，当评估设备完成设置用于进行正交试验的正交表时，可以开始执行步骤S102，即采用正交试验方式通过场景图构造模型分别对所述任一图像进行实体检测处理，以确定所述任一图像对应的多个第一预测结果。比如，评估设备可以采用正交试验方式基于区域卷积神经网络(Region-Convolutional Neural Networks,R-CNN)算法模型以及上述图3所示的最终正交表，对所述任一图像进行实体检测处理，从而可以获得所述任一图像对应的多个第一预测结果。当然，评估设备还可以采用正交试验方式基于其它算法模型以及上述图3所示的最终正交表，对所述任一图像进行实体检测处理，以获得所述任一图像对应的多个第一预测结果，本申请实施例对此不作限定。

在一些实施例中，由于场景图构造模型是分阶段顺序执行的，例如可以分目标检测阶段、关系预测阶段。在本申请实施例中，为了评估场景图构造模型在不同阶段的表现，在对场景图构造模型进行评估过程中，可以根据每个阶段的特点设计指标，以获得场景图构造模型的评估结果。比如，在目标检测阶段，计算所述任一图像对应的多个MAP；在关系预测阶段，计算所述任一图像对应的多个第一召回率。之后，根据目标检测阶段获得的所述任一图像对应的多个MAP和关系预测阶段获得的所述任一图像对应的多个第一召回率，可以获得该评估结果。

下面介绍评估设备获得场景图构造模型的评估结果的具体过程。

如图4所示，评估设备获得场景图构造模型的评估结果过程可以包括如下步骤：

S401、计算所述任一图像在目标阶段对应的MAP。

在一些实施例中，评估设备获得所述任一图像对应的多个第一预测结果后，可以开始执行S401，换言之，开始执行S103，即基于所述各个实体的真实边界框、所述多个第一预测结果，计算得到所述任一图像对应的多个MAP。

在一些实施例中，评估设备可以确定所述任一图像对应的多个交并比(Intersection-over-Union，IOU)。其中，多个IOU与多个第一预测结果一一对应，多个IOU中的任一IOU由所述各个实体的真实边界框与该任一IOU对应的第一预测结果包括的所述各个实体的预测边界框计算得到，该任一IOU用于表示所述各个实体的真实边界框和与该任一IOU对应的第一预测结果包括的所述各个实体的预测边界框之间的重合程度，可以作为场景构造模型预测边界框的正确性的度量指标。其中，在具体的实现过程中，该任一IOU可以表示为：

其中，“预测边界框∩真实边界框”用于表示所述各个实体的真实边界框和与该任一IOU对应的第一预测结果包括的所述各个实体的预测边界框之间的交集，“预测边界框∪真实边界框”用于表示所述各个实体的真实边界框和与该任一IOU对应的第一预测结果包括的所述各个实体的预测边界框之间的并集。

在一些实施例中，评估设备可以基于所述任一图像对应的多个IOU，确定得到所述任一图像对应的多个MAP。其中，多个MAP与多个IOU一一对应。

在具体的实现过程中，由于IOU的值大于0.5才被认为实体边界框的正确匹配与预测，评估设备可以设定所述各个实体的真实边界框和与该任一IOU对应的第一预测结果包括的所述各个实体的预测边界框之间的IOU值，例如，固定该IOU取值为0.5，或者取值大于0.5任一数值。之后，电子设备可以确定该任一IOU对应的MAP。可选的，该任一IOU对应的MAP可以表示为：

其中，TP(Ture Position)表示为预测边界框与真实边界框保持了一致，但是还没有被正确的检测出来，即将要成功预测。FP(False Position)表示为预测边界框与真实边界框不符合，比如，预测边界框的对象为桌子，但是该预测边界框对应的真实边界框的对象为椅子。

S402、计算所述任一图像在关系预测阶段对应的初始召回率。

在一些实施例中，评估设备还可以采用正交试验方式通过场景图构造模型对所述任一图像包含的各个实体进行实体关系预测处理，以获得所述任一图像对应的多个第二预测结果，即执行S104。比如，评估设备可以采用正交试验方式基于其它算法模型以及上述图3所示的最终正交表对所述各个实体进行实体关系预测处理，以获得所述任一图像对应的多个第二预测结果。

在一些实施例中，上述多个第一预测结果中的任一第一预测结果还可以包括所述任一图像包含的各个实体的预测类别、该预测类别对应的第一置信度以及预测边界框对应的第二置信度，第一置信度用于表征预测类别的最低正确程度，第二置信度用于表征预测边界框的最低正确程度。在具体的实现过程中，评估设备可以从多个第一预测结果中选择出第一置信度或第二置信度排序在前的K个第一预测结果，K为大于1的整数。其中，K的取值可以根据实际需求进行设定，本申请实施例对此不作限定。

在一些实施例中，评估设备可以确定场景图构造模型中用于进行实体关系预测的第一子模型、第二子模型和第三子模型，以确定所述任一图像的关系预测指标。其中，第一子模型的输入参数包含所述任一图像和所述任一图像包含的各个实体的真实边界框、类别，第二子模型、第三子模型的输入参数包含所述任一图像。比如，在具体的实现过程中，评估设备可以采用正交试验方式通过第一子模型对选出的K个第一预测结果对应的K个图像中的每个图像包含的各个实体之间的关系进行预测，得到K个图像中的每个图像对应的各个实体之间的多个关系数召回率。评估设备可以采用正交试验方式通过第二子模型对K个图像中的每个图像进行三元组件以及三元组件的整体边界框进行预测，以及通过第三子模型对K个图像中的每个图像进行三元组件以及三元组件中的客体和主体各自的边界框进行预测，可以得到所述任一图像对应的多个类别召回率、三元组件的多个组件数召回率。其中，所述任一图像对应的多个类别召回率、三元组件的多个组件数召回率以及各个实体之间的多个关系数召回率，为所述任一图像在关系预测阶段对应的初始召回率，可以构成多个第二预测结果。比如，所述任一图像对应的一个类别召回率、三元组件的一个组件数召回率以及各个实体之间的一个关系数召回率构成多个第二预测结果中的一个第二预测结果。

可选的，在具体的实现过程中，多个关系召回率中的任一关系召回率可以表示为

多个类别召回率中的任一类别召回率可以表示为

三元组件的多个组件数召回率中的任一组件召回率可以表示为

其中，Pre表示K个图像中预测(包括预测实体类别或预测实体关系或预测三元组件)正确的数量，GT表示真实(包括真实实体类别或真实实体关系或真实三元组件)的数量，i表示所述任一图像，r表示实体关系，o表示实体类别，t表示三元组件。

本申请实施例中，采用正交试验方式通过第一子模型、第二子模型和第三子模型进行预测，可以获得所有图像的关系预测指标。

S403、对所述任一图像对应的初始召回率进行归一化和激活处理，得到所述任一图像对应的激活后的召回率。

在一些实施例中，在获得所述任一图像对应的多个第二预测结果后，可以开始执行S403，换言之，可以开始执行S105，即采用预设规则对所述多个第二预测结果分别进行处理，得到所述任一图像对应的多个第一召回率。

在一些实施例中，评估设备可以获取预设的激活参数，该激活参数可以包括三个第一权重参数和三个偏置参数，其中，三个第一权重参数中的任一第一权重参数用于表征实体类别、实体关系、三元组件中的一个对场景图构造模型的结构变量的贡献程度，三个偏置参数中的任一偏置参数用于表征实体类别、实体关系、三元组件中的一个与场景图构造模型的正相关偏移的程度。比如，三个第一权重参数可以是W₁、W₂和W₃，W₁用于表示实体类别对场景图构造模型的结构变量的贡献程度，W₂用于表示实体关系对场景图构造模型的结构变量的贡献程度，W₃用于表示三元组件对场景图构造模型的结构变量的贡献程度。三个偏置参数可以是b₁、b₂和b₃，b₁用于表征实体类别与场景图构造模型的正相关偏移的程度，b₂用于表征实体关系与场景图构造模型的正相关偏移的程度，b₃用于表征三元组件与场景图构造模型的正相关偏移的程度。

在一些实施例中，评估设备可以对所述任一图像对应的多个类别数召回率、各个实体之间的多个关系数召回率、三元组件的多个组件数召回率进行归一化处理，得归一化后的任一图像对应的多个类别数召回率、各个实体之间的多个关系数召回率、三元组件的多个组件数召回率。之后，评估设备可以将归一化后的任一图像对应的多个类别数召回率、各个实体之间的多个关系数召回率、三元组件的多个组件数召回率以及三个第一权重参数和三个偏置参数，分别对应的输入所述任一图像对应的实体类别、实体关系、三元组件各自对应的激活模型，得到激活后的任一图像对应的多个类别数召回率、各个实体之间的多个关系数召回率、三元组件的多个组件数召回率，即所述任一图像对应的激活后的召回率。在具体的实现过程中，所述任一图像对应的实体类别、实体关系、三元组件分别对应的激活模型可以表示为：

本申请实施例中，通过对所述任一图像对应的多个类别数召回率、各个实体之间的多个关系数召回率、三元组件的多个组件数召回率进行激活处理，可以解决非线性问题。

S404、基于所述任一图像对应的激活后的召回率，计算所述任一图像对应的综合召回率。

在一些实施例中，评估设备可以基于激活参数以及归一化后的任一图像对应的多个类别数召回率、各个实体之间的多个关系数召回率、各个实体之间的多个组件数召回率，获得所述任一图像对应的实体类别、实体关系、实体组件分别对应的激活模型的多个相关系数矩阵。之后，评估设备可以基于所述任一图像对应的实体类别、实体关系、实体组件分别对应的激活模型的多个相关系数矩阵，计算得到激活后的任一图像对应的类别数召回率、各个实体之间的关系数召回率、三元组的组件数召回率各自对应的第二权重参数。之后，评估设备可以基于激活后的任一图像对应的多个类别数召回率、各个实体之间的多个关系数召回率、三元组件的多个组件数召回率，以及激活后的任一图像对应的类别数召回率、各个实体之间的关系数召回率、三元组件的组件数召回率各自对应的第二权重参数，计算得到所述任一图像对应的多个第一召回率，多个第一召回率中的任一第一召回率即为所述任一图像对应的一个综合召回率。在具体的实现过程中，多个第一召回率中的任一第一召回率C_recall@K_i可以表示为：

C_recall@K_i＝W_o*recall@K′_io+W_r*recall@K′_ir+W_t*recall@K′_it

其中，W_o表示激活后的任一图像对应的类别数召回率对应的第二权重参数，W_r表示激活后的任一图像对应的各个实体之间的关系数召回率对应的第二权重参数，W_t表示激活后的任一图像对应的三元组的组件数召回率对应的第二权重参数。

S405、基于所述任一图像在目标阶段对应的MAP和所述任一图像对应的综合召回率进行综合评估处理，得到场景图构造模型的评估结果。

在一些实施例中，评估设备获得所述任一图像对应的多个MAP、多个第一召回率后，可以开始执行S405，换言之，开始执行S106，即对所述任一图像对应的多个MAP、多个第一召回率进行综合评估处理，得到评估结果。

在一些实施例中，评估设备可以分别将所述任一图像对应的多个MAP、多个第一召回率一一对应的输入归一化模型中，得到所述任一图像对应的多个评估指标。其中，评估指标可以用于表征场景图构造模型构造所述任一图像的准确程度。在具体的实现过程中，该归一化模型可以表示为：

Eva_sg_i＝f(MAP_i+C_recall@K_i)

其中，Eva_sg_i表示所述任一图像对应的多个评估指标中的任一评估指标，MAP_i表示所述任一图像对应的多个MAP中的任一MAP，C_recall@K_i表示所述任一图像对应的多个第一召回率中的任一第一召回率。

在一些实施例中，评估设备可以分别将所述任一图像对应的多个评估指标输入几何平均模型中，得到场景图构造模型的多个综合指标。其中，综合指标可以用于表征场景图构造模型构造所述任一图像的综合准确程度。在具体的实现过程中，该几何平均模型可以表示为：

其中，Eva_sg表示场景图构造模型的多个综合指标中的一个综合指标，n表示多个图像对应的数值，Eva_sg_i表示所述任一图像对应的多个评估指标中的任一评估指标。

在一些实施例中，评估设备可以对多个综合指标进行综合评估处理，得到该评估结果。比如，评估设备可以根据最终正交表中的结构变量以及多个综合指标进行极差与方差的分析，得到该评估结果，从而可以确定场景图构造模型中的各个结构和/或组合结构对构造场景图的影响程度，进一步的，可以确定场景图构造模型的各个结构和/或组合结构中影响程度最大的结构以及组合结构，可以为后续场景图构造模型优化提供支持。

本申请实施例中，通过针对场景图构造模型执行的每个阶段的特点，针对性地计算出每个阶段对应的评估指标，再根据每个阶段的评估指标综合可以得出场景图构造模型的评估结果，可以用于系统的、正确的以及有效的对场景图的构造效果进行评估，进一步的，可以减少仅依赖三元组件的召回率造成的过度错误惩罚，可以提高构造场景图的精准性。

基于同一发明构思下，本申请实施例提供了一种评估设备。请参考图5所示，为本申请实施例提供的一种评估设备的结构示意图。

如图5所示，评估设备500包括：

获取单元501，用于获取多个图像中的任一图像包含的各个实体的真实边界框，所述实体为所述任一图像中包含的人或物品，所述多个图像对应多个场景；

预测单元502，用于采用正交试验方式通过场景图构造模型分别对所述任一图像进行实体检测处理，以确定所述任一图像对应的多个第一预测结果，所述第一预测结果包括所述各个实体的预测边界框；

计算单元503，用于基于所述各个实体的真实边界框、所述多个第一预测结果，计算得到所述任一图像对应的多个平均精度均值MAP，所述MAP用于表征所述场景构造模型预测所述各个实体的类别的准确程度；

所述预测单元502，还用于采用所述正交试验方式通过所述场景图构造模型对所述各个实体进行实体关系预测处理，以获得所述任一图像对应的多个第二预测结果，并采用预设规则对所述多个第二预测结果分别进行处理，得到所述任一图像对应的多个第一召回率；所述第二预测结果包括所述任一图像对应的类别数召回率、各个实体之间的关系数召回率、三元组件的组件数召回率，所述三元组件为由所述各个实体构成的客体、主体以及所述客体与所述主体之间的关系组成的；

评估单元504，用于对所述任一图像对应的多个MAP、多个第一召回率进行综合评估处理，得到评估结果，所述评估结果用于确定所述场景图构造模型中的各个结构和/或组合结构对构造场景图的影响程度。

在一种可能的设计中，所述评估单元504在用于对所述任一图像对应的多个MAP、多个第一召回率进行综合评估处理，得到评估结果时，可以具体用于：

在一种可能的设计中，所述评估单元504在用于对所述多个综合指标进行评估处理，得到所述评估结果时，可以具体用于：

在一种可能的设计中，所述计算单元503在用于基于所述各个实体的真实边界框、所述多个第一预测结果，计算得到所述任一图像对应的多个平均精度均值MAP时，可以具体用于：

在一种可能的设计中，所述预测单元502在用于采用预设规则对所述多个第二预测结果分别进行处理，得到所述任一图像对应的多个第一召回率时，可以具体用于：

所述预测单元502在用于采用所述正交试验方式通过所述场景构造图模型对所述任一图像包含的各个实体进行实体关系预测处理，以获得所述任一图像对应的多个第二预测结果时，可以具体用于：

在一种可能的设计中，所述预测单元502在用于采用正交试验方式通过场景图构造模型对所述多个图像进行实体检测处理，以确定所述任一图像对应的多个第一预测结果之前，还可以用于：

在一种可能的设计中，所述获取单元501在用于获取任一图像包含的各个实体的真实边界框时，可以具体用于：

本申请实施例中的评估设备500与前述图1所示的场景图构造模型的评估方法是基于同一构思下的发明，通过前述对场景图构造模型的评估方法的详细描述，本领域技术人员可以清楚的了解本实施例中评估设备500的实施过程，所以为了说明书的简洁，在此不再赘述。

基于同一发明构思下，本申请实施例提供了一种评估设备。请参考图6所示，为本申请实施例提供的一种评估设备的结构示意图。

如图6所示，评估设备600包括：

存储器601，用于存储一个或多个计算机指令；

至少一个处理器602，用于读取存储器601中的计算机指令，使得评估设备600能够实现图1所示的实施例中的全部或部分步骤。

可选地，存储器601可以包括高速随机存取存储器，还可以包括非易失存储器，例如磁盘存储器件、闪存器件或其他非易失性固态存储器件等，本申请实施例不作限定。

可选地，处理器602可以是通用的处理器(central processing unit，CPU)，或ASIC，或FPGA，也可以是一个或多个用于控制程序执行的集成电路。

在一些实施例中，存储器601和处理器602可以在同一芯片上实现，在另一些实施例中，它们也可以在独立的芯片上分别实现，本申请实施例不作限定。

基于同一发明构思下，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，当计算机指令被计算机执行时，使计算执行上述场景图构造模型的评估方法的步骤。

基于同一发明构思下，本申请实施例提供了一种计算机程序产品，计算机程序产品存储有计算机程序，计算机程序包括程序指令，程序指令当被计算机执行时，使得计算机执行上述场景图构造模型的评估方法的步骤。由于本实施例中的计算机程序产品与前述图1所示的场景图构造模型的评估方法是基于同一构思下的发明，通过前述对场景图构造模型的评估方法的详细描述，本领域技术人员可以清楚的了解本实施例中计算机程序产品的实施过程，所以为了说明书的简洁，在此不再赘述。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种场景图构造模型的评估方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，对所述任一图像对应的多个MAP、多个第一召回率进行综合评估处理，得到评估结果，包括：

3.如权利要求2所述的方法，其特征在于，对所述多个综合指标进行评估处理，得到所述评估结果，包括：

4.如权利要求1所述的方法，其特征在于，基于所述各个实体的真实边界框、所述多个第一预测结果，计算得到所述任一图像对应的多个平均精度均值MAP，包括：

5.如权利要求1所述的方法，其特征在于，采用预设规则对所述多个第二预测结果分别进行处理，得到所述任一图像对应的多个第一召回率，包括：

6.如权利要求5所述的方法，其特征在于，所述多个第一预测结果中的任一第一预测结果还包括所述任一图像包含的各个实体的预测类别、所述预测类别对应的第一置信度以及所述预测边界框对应的第二置信度，所述第一置信度用于表征所述预测类别的最低正确程度，所述第二置信度用于表征所述预测边界框的最低正确程度；

7.如权利要求1-6任一项所述的方法，其特征在于，采用正交试验方式通过场景图构造模型对所述多个图像进行实体检测处理，以确定所述任一图像对应的多个第一预测结果之前，还包括：

8.如权利要求1-6任一项所述的方法，其特征在于，获取任一图像包含的各个实体的真实边界框，包括：

9.一种评估设备，其特征在于，包括：

10.一种评估设备，其特征在于，所述评估设备包括至少一个处理器和存储器；

所述存储器用于存储一个或多个计算机程序；

当所述存储器存储的一个或多个计算机程序被所述至少一个处理器执行时，使得所述评估设备执行如权利要求1-8任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得所述计算机执行如权利要求1-8任一项所述的方法。

12.一种计算机程序产品，其特征在于，所述计算机程序产品存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被计算机执行时，使所述计算机执行如权利要求1-8中任一所述的方法。