CN113632097A

CN113632097A - 对象间的关联性的预测方法、装置、设备和存储介质

Info

Publication number: CN113632097A
Application number: CN202180001682.6A
Authority: CN
Inventors: 刘春亚; 张学森; 王柏润; 陈景焕
Original assignee: Sensetime International Pte Ltd
Current assignee: Sensetime International Pte Ltd
Priority date: 2021-03-17
Filing date: 2021-06-01
Publication date: 2021-11-09
Anticipated expiration: 2041-06-01
Also published as: AU2021204583A1; US11941838B2; KR20220130568A; US20220301219A1; CN113632097B

Abstract

本申请提出一种对象间的关联性的预测方法、装置、设备和存储介质。该方法可以包括检测目标图像中的第一对象、第二对象以及第三对象。其中，上述第一对象、上述第二对象表征不同的人体部位，上述第三对象为人体对象。确定包围上述第一对象、上述第二对象以及上述第三对象的联合边界框。基于上述目标图像中上述联合边界框对应的区域，预测上述第一对象和上述第二对象的关联性。

Description

对象间的关联性的预测方法、装置、设备和存储介质

相关公开的交叉引用

本申请要求2021年3月17日递交的、申请号为10202102717U的新加坡专利申请的优先权，其全部内容通过引用并入本文。

技术领域

本申请涉及计算机技术，具体涉及一种对象间的关联性的预测方法、装置、设备和存储介质。

背景技术

智能视频分析技术可以帮助人类了解物理空间中的对象的状态以及对象之间的关系。在智能视频分析的一个应用场景中，需要根据视频中出现的人体部位识别出该部位对应的人员身份。

人体部位与人员身份的关系可以通过一些中介信息来辨别。例如，中介信息可以是与人体部位和人员的身份均存在比较明确的关联关系的对象的信息。例如，当需要确认图像中检测到的手部所属人员的身份时，可以通过与手部互为关联对象、且指示人员身份的人脸来确定。其中，关联对象，可以是指两个对象与同一个第三对象具有归属关系，或者具有相同的身份信息属性。两个人体部位互为关联对象，可以认为两个人体部位属于同一人员。

通过将图像中的人体部位关联，可以进一步帮助分析多人场景中个体的行为和状态，以及多人之间的关系。

发明内容

有鉴于此，本申请至少公开一种对象间的关联性的预测方法，上述方法包括：检测目标图像中的第一对象、第二对象以及第三对象，其中，上述第一对象、上述第二对象表征不同的人体部位，上述第三对象为人体对象；确定包围上述第一对象、上述第二对象以及上述第三对象的联合边界框；基于上述目标图像中上述联合边界框对应的区域，预测上述第一对象和上述第二对象的关联性。

在示出的一些实施例中，上述确定包围上述第一对象、上述第二对象以及上述第三对象的联合边界框，包括：根据上述第一对象和上述第二对象的检测结果确定包围上述第一对象和上述第二对象的第一包围框；根据上述第一包围框以及上述第三对象的检测结果，生成包围上述第一对象、第二对象和第三对象的联合边界框。

在示出的一些实施例中，上述根据上述第一对象和上述第二对象的检测结果确定包围上述第一对象和上述第二对象的第一包围框，包括：对检测出的至少一个第一对象分别与检测出的至少一个第二对象进行组合，得到至少一个对象对；分别确定包围各上述对象对的第一包围框；和/或，上述根据上述第一包围框以及上述第三对象的检测结果，生成包围上述第三对象以及上述对象对中的第一对象和第二对象的联合边界框，包括：将至少一个对象对分别与至少一个第三对象进行组合，得到至少一个三元对象组，上述对象对由检测出的第一对象和第二对象组合得到；根据上述三元对象组中的对象对的第一包围框以及上述三元对象组中的第三对象的检测结果，生成包围上述三元对象组中的联合边界框。

在示出的一些实施例中，上述检测结果包括边界框；上述根据上述第一包围框以及上述第三对象的检测结果，生成包围上述第一对象、第二对象和第三对象的联合边界框，包括：将检测出的各第三对象的边界框中，与上述第一包围框的重合范围最大的边界框，作为上述第一包围框对应的目标边界框；根据上述第一包围框以及上述目标边界框，生成包围上述第一对象、第二对象和第三对象的联合边界框。

在示出的一些实施例中，上述第一包围框包括包围上述第一对象和上述第二对象的包围框中面积最小的包围框；和/或，上述联合边界框包括与上述第一包围框外接的外接联合边界框。

在示出的一些实施例中，上述联合边界框包括与上述第三对象的边界框外接的外接联合边界框；或者，上述联合边界框包括与上述第一包围框和上述第三对象的边界框外接的外接联合边界框。

在示出的一些实施例中，上述基于上述目标图像中上述联合边界框对应的区域，预测上述第一对象和上述第二对象的关联性，包括：将上述联合边界框，上述联合边界框包围的第一对象与第二对象对应的边界框分别输入区域特征提取单元，得到上述联合边界框的区域特征，以及上述联合边界框内包围的第一对象与第二对象分别对应的区域特征；将上述联合边界框的区域特征，上述联合边界框包围的第一对象与第二对象分别对应的区域特征以及上述联合边界框包围的第一对象与第二对象分别对应的位置特征进行特征拼接，得到预设长度的拼接特征；基于上述拼接特征，预测上述第一对象和上述第二对象的关联性。

在示出的一些实施例中，上述方法还包括：基于上述第一对象和上述第二对象的关联性的预测结果确定上述目标图像中的关联对象。

在示出的一些实施例中，上述关联性的预测结果包括关联性预测分数，上述基于上述第一对象和上述第二对象的关联性的预测结果确定上述目标图像中的关联对象，包括：按照关联性预测分数由高到低的顺序，依次将各上述对象对确定为当前对象对，并执行：基于已确定的关联对象，确定与当前对象对内的第一对象互为关联对象的第二对象的数量是否达到第一预设阈值，以及确定与当前对象对内的第二对象互为关联对象的第一对象的数量是否达到第二预设阈值；响应于与当前对象对内的第一对象互为关联对象的第二对象的数量未达到上述第一预设阈值，且与当前对象对内的第二对象互为关联对象的第一对象的数量未达到上述第二预设阈值，将上述当前对象对内的第一对象与第二对象确定为上述目标图像中的关联对象。

在示出的一些实施例中，上述方法还包括：输出上述目标图像中的关联对象的检测结果。

在示出的一些实施例中，上述预测上述第一对象和上述第二对象的关联性包括：预测上述第一对象与上述第二对象属于同一人体对象的置信度。

在示出的一些实施例中，上述第一对象包括人脸对象；上述第二对象包括人手对象。

在示出的一些实施例中，上述检测目标图像中的第一对象、第二对象以及第三对象，包括：利用目标对象检测模型检测目标图像中的第一对象、第二对象以及第三对象；上述基于上述目标图像中上述联合边界框对应的区域，预测上述第一对象和上述第二对象的关联性，包括：基于上述目标图像中上述联合边界框对应的区域，利用关联性预测模型预测上述第一对象和上述第二对象的关联性；其中，上述目标对象检测模型和上述关联性预测模型按照如下方式训练得到：基于第一训练样本集对上述目标对象检测模型进行训练；其中，上述第一训练样本集包含具有第一标注信息的训练样本；上述第一标注信息包括第一对象，第二对象以及第三对象分别对应的边界框；基于第二训练样本集对上述目标对象检测模型以及上述关联性预测模型进行联合训练；其中，上述第二训练样本集包含具有第二标注信息的训练样本；上述第二标注信息包括上述第一对象，上述第二对象和上述第三对象分别对应的边界框，以及上述第一对象与上述第二对象之间关联性标注信息。

本申请还提出一种对象间的关联性的预测装置，上述装置包括：对象检测模块，用于检测目标图像中的第一对象、第二对象以及第三对象，其中，上述第一对象、上述第二对象表征不同的人体部位，上述第三对象为人体对象；确定模块，用于确定包围上述第一对象、上述第二对象以及上述第三对象的联合边界框；关联性预测模块，用于基于上述目标图像中上述联合边界框对应的区域，预测上述第一对象和上述第二对象的关联性。

在示出的一些实施例中，上述确定模块包括：确定子模块，用于根据上述第一对象和上述第二对象的检测结果确定包围上述第一对象和上述第二对象的第一包围框；生成模块，用于根据上述第一包围框以及上述第三对象的检测结果，生成包围上述第一对象、第二对象和第三对象的联合边界框。

在示出的一些实施例中，上述确定子模块具体用于：对检测出的至少一个第一对象分别与检测出的至少一个第二对象进行组合，得到至少一个对象对；分别确定包围各上述对象对的第一包围框；和/或，上述生成模块具体用于：针对每个所述对象对，将所述对象对与至少一个第三对象进行组合，得到至少一个三元对象组；针对每个所述三元对象组，根据上述对象对的第一包围框以及上述三元对象组中的第三对象的检测结果，生成包围上述三元对象组的联合边界框。

在示出的一些实施例中，上述检测结果包括边界框；上述根据上述生成模块具体用于：将检测出的各第三对象的边界框中，与上述第一包围框的重合范围最大的边界框，作为上述第一包围框对应的目标边界框；根据上述第一包围框以及上述目标边界框，生成包围上述第一对象、第二对象和第三对象的联合边界框。

在示出的一些实施例中，上述关联性预测模块包括：输入模块，用于将上述联合边界框，上述联合边界框包围的第一对象与第二对象对应的边界框分别输入区域特征提取单元，得到上述联合边界框的区域特征，以及上述联合边界框内包围的第一对象与第二对象分别对应的区域特征；特征拼接模块，用于将上述联合边界框的区域特征，上述联合边界框包围的第一对象与第二对象分别对应的区域特征以及上述联合边界框包围的第一对象与第二对象分别对应的位置特征进行特征拼接，得到预设长度的拼接特征；预测子模块，用于基于上述拼接特征，预测上述第一对象和上述第二对象的关联性。

在示出的一些实施例中，上述装置还包括：关联对象预测模块，基于上述第一对象和上述第二对象的关联性的预测结果确定上述目标图像中的关联对象。

在示出的一些实施例中，上述关联性的预测结果包括关联性预测分数，上述关联对象预测模块具体用于：按照关联性预测分数由高到低的顺序，依次将各上述对象对确定为当前对象对，所述对象对由检测出的任意第一对象和任意第二对象进行组合得到，并执行：基于所述目标图像中已确定的关联对象，确定与当前对象对内的第一对象互为关联对象的第二对象的数量作为第一数量，以及确定与当前对象对内的第二对象互为关联对象的第一对象的数量作为第二数量；响应于第一数量未达到上述第一预设阈值，且第二数量未达到上述第二预设阈值，将上述当前对象对内的第一对象与第二对象确定为上述目标图像中的关联对象。

在示出的一些实施例中，上述装置还包括：输出模块，用于输出上述目标图像中的关联对象的检测结果。

在示出的一些实施例中，上述第一对象和上述第二对象的关联性包括：上述第一对象与上述第二对象属于同一人体对象的置信度。

在示出的一些实施例中，上述对象检测模块具体用于：利用目标对象检测模型检测目标图像中的第一对象、第二对象以及第三对象；上述关联性预测模块具体用于：基于上述目标图像中上述联合边界框对应的区域，利用关联性预测模型预测上述第一对象和上述第二对象的关联性；其中，上述目标对象检测模型和上述关联性预测模型按照如下方式训练得到：基于第一训练样本集对上述目标对象检测模型进行训练；其中，上述第一训练样本集包含具有第一标注信息的训练样本；上述第一标注信息包括第一对象，第二对象以及第三对象分别对应的边界框；基于第二训练样本集对上述目标对象检测模型以及上述关联性预测模型进行联合训练；其中，上述第二训练样本集包含具有第二标注信息的训练样本；上述第二标注信息包括上述第一对象，上述第二对象和上述第三对象分别对应的边界框，以及上述第一对象与上述第二对象之间关联性标注信息。

本申请还提出一种电子设备，上述设备包括：处理器；用于存储上述处理器可执行指令的存储器；其中，上述处理器被配置为调用上述存储器中存储的可执行指令，实现前述任一实施例示出的对象间的关联性的预测方法。

本申请还提出一种计算机可读存储介质，上述存储介质存储有计算机程序，上述计算机程序用于执行前述任一实施例示出的对象间的关联性的预测方法。

本申请还提出一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码在设备中的处理器上运行时，所述处理器执行前述任一实施例示出的对象间的关联性的预测方法。

在上述技术方案中，在进行第一对象与第二对象关联性确定时，该方法通过使用包围第一对象，第二对象以及人体对象的联合边界框所对应的图像区域，对上述第一对象与上述第二对象进行关联性预测，从而可以引入上述联合边界框内的对判断第一对象与第二对象之间关联性有用的人体对象信息，进而提升了关联性预测的精确性。

需要说明的是，上述联合边界框内包含的有用信息还可以包括除人体对象之外的其它部位信息。例如，包括但不限于：手肘、肩膀、大臂、小臂等中的至少一项对应的特征信息。

应当理解的是，以上述的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请一个或多个实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请示出的一种对象间的关联性的预测方法的方法流程图；

图2为本申请示出的用于检测目标图像中的第一对象、第二对象以及第三对象的目标检测方法的一个流程示意图；

图3为本申请示出的一种联合边界框示意图；

图4为本申请示出的用于预测第一对象和第二对象的关联性方法的一种流程示意图；

图5为本申请示出的预测第一对象和第二对象的关联性的具体实施方式的一种流程示意图；

图6为本申请示出的一种模型训练方法的流程示意图；

图7为本申请示出的一种对象间的关联性的预测装置的结构示意图；

图8为本申请示出的一种电子设备的硬件结构图。

具体实施方式

下面将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的设备和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“上述”和“该”也旨在可以包括多数形式，除非上述下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。还应当理解，本文中所使用的词语“如果”，取决于语境，可以被解释成为“在……时”或“当……时”或“响应于确定”。

本申请旨在提出一种对象间的关联性的预测方法。在进行第一对象与第二对象关联性确定时，该方法通过使用包围第一对象，第二对象以及人体对象的联合边界框所对应的图像区域，对上述第一对象与上述第二对象进行关联性预测，从而可以引入上述联合边界框内的对判断第一对象与第二对象之间关联性有用的人体对象信息，进而提升关联性预测的精确性。

请参见图1，图1为本申请示出的一种对象间的关联性的预测方法的方法流程图。如图1所示，上述方法可以包括：

S102，检测目标图像中的第一对象、第二对象以及第三对象，其中，上述第一对象、上述第二对象表征不同的人体部位，上述第三对象为人体对象。

S104，确定包围上述第一对象、上述第二对象以及上述第三对象的联合边界框。

S106，基于上述目标图像中上述联合边界框对应的区域，预测上述第一对象和上述第二对象的关联性。

上述关联性的预测方法可以应用于电子设备中。其中，上述电子设备可以通过搭载与该方法对应的软件系统执行上述方法。本申请实施例中，上述电子设备的类型可以是笔记本电脑，计算机，服务器，手机，PAD终端等，在本申请中不作特别限定。

可以理解的是，上述方法既可以仅通过客户端设备或服务端设备单独执行，也可以通过客户端设备与服务端设备配合执行。

例如，上述方法可以集成于客户端设备。该设备在接收到关联性预测请求后，可以通过自身硬件环境提供的算力执行上述方法。

又例如，上述方法可以集成于服务端设备。该设备在接收到关联性预测请求后，可以通过自身硬件环境提供的算力执行上述方法。

还例如，上述方法可以分为获取目标图像与对目标图像进行处理两个任务。其中，获取目标图像的任务可以由客户端设备执行，对目标图像进行处理的任务可以由服务端设备执行。上述客户端设备可以在获取到目标图像后向上述服务端设备发起关联性预测请求。上述服务端设备在接收到关联性预测请求后，可以响应于上述请求对上述目标图像执行上述方法。

以下以执行主体为电子设备(以下简称设备)为例进行说明。

上述目标图像是指需要进行图像处理以提取其中的有用信息的图像。该目标图像中可以包括若干被检测对象。例如，在桌面游戏场景中，上述目标图像可以包括若干围绕在该桌面附近的人员以及人员包括的人脸对象、人手对象与人体对象。

在一些例子中，上述设备可以通过与用户进行交互，获取用户输入的目标图像。例如，上述设备可以通过其搭载的界面为用户提供输入待处理目标图像的窗口，供用户输入图像。用户可以基于该窗口完成目标图像的输入。

在一些例子中，上述设备还可以与被采集场景现场部署的图像采集设备进行连接，以获取该设备采集到的图像作为目标图像。

上述设备在获取到目标图像后，可以对目标图像进行目标检测，检测出其中的第一对象，第二对象以及第三对象。第一对象和第二对象表征不同的人体部位，第三对象为人体对象。

以桌面游戏场景为例，可以从部署在桌面周边或上方的图像采集设备处获取目标图像。然后对上述目标图像进行目标检测，检测出该目标图像包括的人脸对象，人手对象以及人体对象。

在本步骤中，可以将目标图像输入目标对象检测模型中进行目标检测。可以理解的是，针对目标图像进行目标检测得到的结果可以包括第一对象和第二对象的边界框及边界框的位置信息。边界框的位置信息可以包括其中至少一个顶点的坐标及边界框的长度信息和宽度信息。

上述目标对象检测模型，具体用于执行目标检测任务。例如，上述模型可以是基于RCNN(Region Convolutional Neural Networks，区域卷积神经网络)、FAST-RCNN(FastRegion Convolutional Neural Networks，快速区域卷积神经网络)或FASTER-RCNN(Faster Region Convolutional Neural Networks，更快速的区域卷积神经网络)构建的神经网络模型。

在实际应用中，在使用该目标对象检测模型进行目标检测前，可以基于若干具有第一对象和第二对象的位置标注信息的训练样本对该模型进行训练，直至该模型收敛。

请参见图2，图2为本申请示出的用于检测目标图像中的第一对象、第二对象以及第三对象的目标检测方法的一个流程示意图。需要说明的是，图2仅对目标检测方法的流程进行示意性说明，不对本申请做出特别限定。

如图2所示，上述目标对象检测模型可以是FASTER-RCNN模型。该模型可以至少包括Backbone(骨干网络)，RPN(Region Proposal Network，候选框生成网络)，以及RCNN(Region-based Convolutional Neural Network，基于区域的卷积神经网络)。

其中，骨干网络可以对目标图像进行若干次卷积运算得到该目标图像的目标特征图。然后，可以将目标特征图输入上述RPN网络得到与目标图像中的各目标对象分别对应的anchors(锚框)。之后，可以将该锚框以及上述目标特征图输入对应的RCNN网络进行bbox(bounding boxes，边界框)回归和分类，得到上述目标图像包含的第一对象，第二对象以及第三对象分别对应的边界框。

需要说明的是，本实施例的方案可以采用同一个目标对象检测模型执行两类不同的人体部位对象及人体对象的检测，在训练中分别标注样本图像中第一人体部位对象、第二人体部位对象人体对象的类别及位置，则在执行目标检测任务时，目标对象检测模型可以输出不同类别的人体部位对象以及人体对象的检测结果。

在确定上述第一对象，第二对象以及第三对象分别对应的边界框后，可以执行S104，确定包围上述第一对象、上述第二对象以及上述第三对象的联合边界框。

上述联合边界框，具体是指包围上述第一对象的边界框、上述第二对象的边界框以及上述第三对象的边界框的包围框，或者指与上述第一对象的边界框、第二对象的边界框、第三对象的边界框中的至少一个外接且包围第一对象、第二对象和第三对象的包围框。需要说明的是，上述联合边界框的形状可以是圆形、椭圆形、矩形等，在此不作特别限定。以下以矩形为例进行说明。

请参见图3，图3为本申请示出的一种联合边界框示意图。

图3示出的目标图像中，第一对象的边界框为框1；第二对象的边界框为框2；第三对象的边界框为框3。包围第一对象、第二对象与第三对象的联合边界框为框4。

在一些例子中，边界框为矩形，可以提取上述第一对象的边界框、上述第二对象的边界框以及上述第三对象的边界框对应的12个顶点的位置特征，例如获取各顶点的位置坐标。然后，确定12个顶点的位置坐标中横坐标与纵坐标上的极值。若X代表横坐标，Y代表纵坐标，横坐标的极小值与极大值分别为X_min和X_max，纵坐标的极小值和极大值分别为Y_min和Y_max。之后，依次将横坐标极小值和横坐标极大值，分别与纵坐标极大值、纵坐标极小值进行组合，得到上述第一边界框与上述第二边界框的外接框的4个顶点坐标，即(X_min，Y_min)、(X_min，Y_max)、(X_max，Y_min)、(X_max，Y_max)。再然后，根据预设的联合边界框与上述外接框之间的距离D，确定上述联合边界框上的4个顶点分别对应的位置坐标。例如，上述联合边界框上的4个顶点对应的位置坐标可以是(X_min-D，Y_min-D)、(X_min-D，Y_max+D)、(X_max+D，Y_min-D)、(X_max+D，Y_max+D)。在确定上述4个点对应的位置坐标后，即可将由上述4个顶点确定的矩形边框确定为上述联合边界框。

在一些例子中，执行S104时，可以先根据上述第一对象和上述第二对象的检测结果确定包围上述第一对象和上述第二对象的第一包围框，然后再根据上述第一包围框以及上述第三对象的检测结果，生成包围上述第一对象、第二对象和第三对象的联合边界框。

实践中，在第一对象为人脸对象，第二对象为人手对象的情况下，根据人脸对象边界框与人手对象边界框对应的8个顶点坐标，使用前述的确定外接框的方法，确定上述第一包围框。然后再基于类似方法，确定包围上述第一包围框与上述人体对象边界框的联合边界框。

在实际场景中，虽然人手对象和人脸对象都包含于人体对象，但在执行人手对象、人脸对象及人体对象三种不同的对象的检测时，由于三种对象的边界预测策略存在差异，检测出的人体边界框不一定与人手边界框和人脸边界框有绝对的包含关系，例如人脸边界框可能与人体边界框部分交叠，本实施例中为了降低检测出的边界框的精度对关联性预测结果的影响，首先计算出包围第一对象和第二对象的包围框，再根据该包围框与第三对象的边界框确定包围第一对象、第二对象和第三对象的联合边界框，可以精确地确定出包围人脸对象、人手对象以及人体对象的联合边界框，减少与人手和人体相关的人体关键信息在预测人手人脸之间的关联性中的信息缺失。

在一些例子中，可以先执行S1042，对检测出的至少一个第一对象分别与检测出的至少一个第二对象进行组合，得到至少一个对象对。然后，分别确定包围各对象对的第一包围框。

例如，假设目标图像包括3个第一对象，以及3个第二对象。此时，可以确定9个包含第一对象与第二对象的对象对。之后可以分别将每个对象对依次作为当前对象对，确定包围当前对象对内的第一对象的边界框和第二对象的边界框的第一包围框。

在一些例子中，上述第一包围框可以是包围上述第一对象和上述第二对象的包围框中面积最小的包围框。

例如，在桌面游戏场景中，上述第一包围框可以是包围人脸对象和人手对象的包围框中面积最小的包围框，由此一方面，可以控制第一包围框的面积大小，从而控制模型的运算量；另一方面，减少了在上述第一包围框中引入的对关联性预测无用的信息，从而影响关联性预测的精确性。

在确定各组合结果对应的第一包围框后，可以执行S1044，将至少一个对象对分别与至少一个第三对象进行组合，得到至少一个三元对象组。然后，根据上述三元对象组中的对象对的第一包围框以及上述三元对象组中的第三对象的检测结果，生成包围上述三元对象组的联合边界框。

可以先对上述目标图像中的人脸对象与人手对象进行组合得到组合对，然后确定组合对的第一包围框。之后，由各组合对与上述目标图像中各的人体对象分别进行组合得到至少一个三元对象组，每个三元对象组包括一个第一对象、一个第二对象和一个第三对象。然后再确定联合边界框，这种方式可以遍历目标图像中检测出的任意人脸对象、任意人手对象以及任意人体对象的三元对象组，确定每个多对象组的联合边界框，不会造成遗漏。进而在后续关联性检测的步骤中可以，遍历目标图像中检测出的任意人脸对象和任意人手对象的组合，全面地检测出图像中存在关联关系的人脸对象和人手对象。

在一些例子中，为了去除无效的组合结果，减少无效运算，提升关联性预测效率，在根据上述第一包围框以及上述第三对象的检测结果，生成包围上述第一对象、第二对象和第三对象的联合边界框时，可以执行以下步骤：

第一步，将检测出的各第三对象的边界框中，与上述第一包围框的重合范围最大的边界框，作为上述第一包围框对应的目标边界框。

在执行该步骤时，可以分别根据检测出的各第三对象的边界框的位置特征，以及上述第一包围框的位置特征，计算二者的重合面积。然后按照计算出的重合面积，对各第三对象边界框进行排序，并将重合面积最大的第三对象边界框确定为上述第一包围框对应的目标边界框。

在一些例子中，也可以采用IoU(Intersection over Union，交并比)算法，将检测出的各第三对象所对应的第三对象边界框中，与上述第一包围框之间的IoU值最大的第三对象边界框确定为上述目标边界框。

具体地，可以确定上述第一包围框与各第三对象边界框的重合范围。然后再确定上述第一包围框与各第三对象边界框的合并范围。然后，基于IoU算法公式，得到上述第一包围框与各第三对象边界框对应的IoU值。之后按照计算出的各IoU值，对各第三对象边界框进行排序，并将IoU值最大的第三对象边界框确定为上述第一包围框对应的目标边界框。

第二步，根据上述第一包围框以及上述目标边界框，生成包围上述第一对象、第二对象和第三对象的联合边界框。

在一些例子中，上述联合边界框可以包括与上述第一包围框和/或，上述第三对象的边界框外接的外接联合边界框。由此可以控制联合边界框的面积，从而控制运算量；另一方面，使用上述外接连接框减少了引入的无用信息，有助于提升关联性预测结果的准确性。

上述方法并不是将目标图像中包括的所有人脸对象、人手对象以及人体对象进行随机组合，而是将与上述人脸对象以及上述人手对象有可能属于同一人员的人体对象进行了组合，从而减少了三元对象组的数量，减少了无效运算，提升了关联性预测效率。

在确定各对象对对应的联合边界框后，可以执行S106，基于上述目标图像中上述联合边界框对应的区域，预测上述第一对象和上述第二对象的关联性。

上述关联性预测，具体是指确定目标图像中检测出的第一对象与第二对象属于同一人体对象的置信度。在一些例子中，可以通过基于神经网络构建的关联性预测模型进行上述关联性预测，得到表征上述第一对象与上述第二对象属于同一人体对象的置信度。

在一些例子中，可以通过预测分数量化置信度。预测分数越高，表示两个部位属于同一人体的可能性越高。

上述关联性预测模型，具体可以是基于区域特征提取单元构建的回归模型或分类模型。该预测模型可以包括全连接层，最终输出关联性预测分数。

其中，上述全连接层具体可以是基于诸如线性回归，最小二乘回归等算法构建的计算单元。该计算单元可以对区域特征进行特征映射，得到对应的关联性预测分数值。

在实际应用中，可以基于若干具有第一对象与第二对象的关联性标注信息的训练样本对该计算单元进行训练。

在构建训练样本时，可以先获取若干原始图像，然后利用标注工具对原始图像中的第一对象与第二对象进行随机组合，得到多个组合，之后针对各组合内的第一对象与第二对象进行关联性标注。如果组合内的人脸对象与人手对象具有关联性(属于同一人员)，则可以标注1，否则标注0；或者，在针对原始图像标注时，可以标注其中各人脸对象与各人手对象所归属的人员对象的信息(如人员标识)，由此可以根据所归属的人员对象的信息是否一致来确定组合内的人脸对象与人手对象是否具有关联性。

请参见图4，图4为本申请示出的用于预测第一对象和第二对象的关联性方法的一种流程示意图。

示意性的，图4示出的关联性预测模型可以包括区域特征提取单元和全连接层。

其中，区域特征提取单元可以基于联合边界框以及与目标图像对应的目标特征图，得到区域特征。

例如，上述区域特征提取单元可以是RoI Align(Region of interest Align，感兴趣区域特征对齐)单元或RoI pooling(Region of interest pooling，感兴趣区域特征池化)单元。

上述全连接层具体可以是基于诸如线性回归，最小二乘回归等算法构建的单元。该单元可以对区域特征(像素矩阵)进行特征映射(矩阵运算)，得到对应的关联性预测分数值。

在执行本步骤时，可以将上述联合边界框，以及上述目标图像对应的目标特征图输入区域特征提取单元，得到上述联合边界框的区域特征。

然后，将上述联合边界框的区域特征输入全连接层进行计算得到关联性预测分数。

由于上述联合边界框除了包括人脸对象与人手对象以外，还包括人体，脖子，手肘，肩膀，大臂，小臂等位于人脸和人手之间的身体部位的相关信息，因此，在基于上述联合边界框所对应的区域特征对人手对象以及人脸对象进行关联性预测时，引入了对判断人脸对象与人手对象之间关联性有用的信息，进而提升关联性预测精确性。

在一些例子中，为了提升关联性预测精确性，在执行S106时，还可以结合第一对象的特征、第二对象的特征等更多对第一对象和第二对象之间的关联性预测有用的信息，提升关联性预测精确性。

在实际应用中，可以基于上述联合边界框对应的区域特征，以及与上述联合边界框内包含的第一对象与第二对象所分别对应的区域特征和/或位置特征，预测上述第一对象和上述第二对象的关联性。

可以理解的是，上述步骤实际包含了三种方案，以下针对基于上述联合边界框对应的区域特征，以及与上述联合边界框对应的组合结果内包含的第一对象与第二对象所分别对应的区域特征和位置特征，预测上述第一对象和上述第二对象的关联性的方案进行详细说明。

请参见图5，图5为本申请示出的预测第一对象和第二对象的关联性的具体实施方式的一种流程示意图。

示意性的，图5示出的关联性预测模型可以包括区域特征提取单元以及全连接层。

如图5所示，在执行完S102-S104，得到上述联合边界框之后，可以将上述联合边界框，上述联合边界框包围的第一对象与第二对象的边界框分别输入区域特征提取单元，得到上述联合边界框的区域特征，以及上述联合边界框内包围的第一对象和第二对象所分别对应的区域特征。

然后，可以将上述联合边界框的区域特征，上述联合边界框内包围的第一对象和第二对象所分别对应的区域特征以及上述联合边界框包围的第一对象与第二对象分别对应的位置特征进行特征拼接，得到预设长度的拼接特征。

最后，可以将上述拼接特征输入全连接层进行关联性预测，得到上述第一对象和上述第二对象的关联性预测分数。

上述实施方式除了引入上述联合边界框对应的区域特征包括的信息以外，还引入了人脸对象与人手对象对应的区域特征和位置特征等对关联性预测有用的信息，从而进一步提升了关联性预测精确性。

在一些例子中，本申请还可以预测上述目标图像中的关联对象。该方法先利用前述任一实施例示出的对象间的关联性的预测方法，预测出目标图像中的第一对象和第二对象之间的关联性。然后，再基于上述第一对象和上述第二对象的关联性的预测结果确定上述目标图像中的关联对象。

当目标图像中仅包括一对第一对象与第二对象时，可以判断上述第一对象与第二对象之间的关联性预测分数是否达到预设的分数阈值。如果上述关联性预测分数达到上述预设的分数阈值，则可以确定第一对象与第二对象为上述目标图像中的关联对象。否则可以确定第一对象和第二对象不是关联对象。

其中，上述预设的分数阈值具体是可以根据实际情形进行设定的经验阈值。例如，该预设分数阈值可以是0.95。

当上述目标图像包括多个第一对象与第二对象时，在确定上述目标图像中的关联对象时，可以对检测出的任意第一对象与任意第二对象进行组合，得到多个对象对。然后，可以分别确定上述多个对象对的第一包围框。之后，可以针对每一个对象对，将检测出的各第三对象的边界框中，与上述对象对的第一包围框的重合范围最大的边界框，作为目标边界框，并根据上述对象对的第一包围框以及上述目标边界框，生成包围上述对象对与上述第三对象的联合边界框。

在确定多个对象对分别对应的联合边界框后，可以分别基于上述多个对象对中的各对象对的联合边界框对应的区域特征，确定上述多个对象对分别对应的关联性预测结果。其中，上述关联性预测结果包括关联性预测分数。

具体的，可以将各对象对的联合边界框对应的区域特征，以及该对象对内的第一对象与第二对象的区域特征和位置特征，输入关联性预测模型，得到上述各对象对分别对应的关联性预测分数。可以理解的是，各对象对分别对应的关联性预测分数即为各对象对内的第一对象与第二对象之间的关联性的预测分数。

在实际情形中，通常一个人脸对象最多只能与两个人手对象对应并且一个人手对象最多只能与一个人脸对象对应。

在一些例子中，可以按照关联性预测分数由高到低的顺序，依次将各上述对象对确定为当前对象对，并执行以下第一步和第二步：

第一步，基于已确定的关联对象，确定与当前对象对内的第一对象互为关联对象的第二对象的数量是否达到第一预设阈值，以及确定与当前对象对内的第二对象互为关联对象的第一对象的数量是否达到第二预设阈值。

上述第一预设阈值具体是可以根据实际情形进行设定的经验阈值。在这里，第一对象为人脸对象，第二对象为人手对象，上述第一预设阈值可以为2。

上述第二预设阈值具体是可以根据实际情形进行设定的经验阈值。在这里，第一对象为人脸对象，第二对象为人手对象，上述第二预设阈值可以为1。

在一些例子中，可以按照关联性预测分数由高到低的顺序，依次将关联性预测分数达到预设的分数阈值的组合确定为当前对象对。

在本实施例中，可以将关联性预测分数达到预设的分数阈值的组合确定为当前对象对进行关联性判断，由此可以提升关联性预测结果的准确性。

在一些例子中，可以为各第一对象和各第二对象分别维护一个计数器，每当确定与任一第一对象互为关联对象的第二对象时，将上述第一对象对应的计数器上的值加1。此时，可以通过两个计数器确定与上述第一对象互为关联对象的第二对象的数量是否达到第一预设阈值，以及确定与当前对象对内的第二对象互为关联对象的第一对象的数量是否达到第二预设阈值。

第二步，响应于与当前对象对内的第一对象互为关联对象的第二对象的数量未达到上述第一预设阈值，且与当前对象对内的第二对象互为关联对象的第一对象的数量未达到上述第二预设阈值，将上述当前对象对内的第一对象与第二对象确定为上述目标图像中的关联对象。

在上述方案中，可以在复杂场景(例如，目标图像涉及人脸、肢体、人手有交叠的多人)中，避免预测出一个人脸对象与超过两个人手对象相关联以及一个人手对象与超过一个人脸对象相关联等不合理的情形。例如在多人桌面游戏场景中，不同人的手部之间或面部之间存在遮挡或交叠，上述方案可以较准确地将人脸和对应的人手关联。

在一些例子中，可以输出该目标图像中的关联对象的检测结果。

例如，在桌面游戏场景中，可以在图像输出设备(例如显示器)上输出包含上述关联对象指示的人脸对象与人手对象的外接框。通过在图像输出设备上输出关联对象的检测结果可以使观察人员方便直观确定图像输出设备上展示的目标图像中的关联对象，进而便于对关联对象的检测结果进行进一步的人工校验。

以下以桌面游戏场景为例，进行实施例说明。可以理解的是，其他场景下的实施可以参照本申请对桌面游戏场景实施例的说明，在此不作详述。

在桌面游戏场景中，通常设置有游戏桌，游戏参与人员围绕在游戏桌周围。可以在桌面游戏场景中部署用于采集桌面游戏现场图像的图像采集设备。该现场图像中可以包括游戏参与人员的人脸、人手以及人体。在该场景中，需要确定现场图像中出现的互为关联对象的人手与人脸，从而可以依据与图像中出现的人手关联的人脸确定该人手所属的人员身份信息。

在这里，人手和人脸互为关联对象，或者人手和人脸关联，是指二者归属于同一个人体，即二者是同一个人的人手和人脸。

在该场景中，还可以部署用于检测人脸和人手之间的关联性的检测设备。该设备可以从图像采集设备中获取现场图像，并确定上述现场图像中的关联对象。

上述电子设备可以搭载经过训练的人脸、人手以及人体对象检测网络与人脸-人手关联性预测网络。

其中，上述人脸、人手以及人体对象检测网络可以是基于FSTER-RCNN网络构建的神经网络。该网络可以从现场图像中检测出人脸对象、人手对象以及人体对象。

上述人脸-人手关联性预测网络，可以是基于区域特征提取单元以及全连接层构建的神经网络。该网络可以提取包含人脸对象、人手对象以及人体对象的联合边界框的区域特征，并结合该联合边界框内的人脸对象与人手对象的区域特征和位置特征，确定上述人脸对象与上述人手对象的关联性预测分数。

在本例中，上述电子设备可以响应于用户操作或定时从上述图像采集设备中获取现场图像。

然后，可以利用上述对象检测网络检测出上述现场图像包括的人脸对象、人手对象以及人体对象。

然后，可以对检测出的任意人脸对象与任意人手对象进行组合，得到多个对象对，并分别确定上述多个对象对的第一包围框。其中，上述第一包围框为包围上述对象对的矩形框中面积最小的，因此，可以减少运算量。

之后，可以针对每一个对象对，将检测出的各人体对象的边界框中，与上述对象对的第一包围框的重合范围最大的边界框，作为目标边界框，并根据上述对象对的第一包围框以及上述目标边界框，生成包围上述对象对与上述人体对象的联合边界框。其中，上述联合边界框为上述第一包围框以及上述目标边界框的外接框，因此，可以减少运算量。需要说明的是，确定联合边界框的具体步骤可以参照前述内容，在此不作详述。

进一步的，可以分别将上述多个对象对中的各对象对的联合边界框对应的区域特征，以及该对象对内的人脸对象与人手对象的区域特征和位置特征输入人手-人脸关联性预测网络中，得到上述各个对象对分别对应的关联性预测分数。

由于上述联合边界框中除了包含人脸部位与人手部位外还包含人体，脖子，手肘，肩膀，大臂，小臂等身体部位，因此，可以引入对判断人脸对象与人手对象之间关联性有用的信息，进而提升关联性预测精确性。

在上述检测设备中，还可以为各人脸对象和各人手对象分别维护一个计数器，每当确定与任一人脸对象互为关联对象的人手对象时，将上述人脸对象对应的计数器上的值加1。此时，可以通过两个计数器确定与上述人脸对象互为关联对象的人手对象的数量是否达到第一预设阈值，以及确定与当前对象对内的人手对象互为关联对象的人脸对象的数量是否达到第二预设阈值。

进一步，可以分别可以按照关联性预测分数由高到低的顺序，依次将各上述对象对确定为当前对象对，并执行：

从与当前对象对内的人脸对象对应的计数器中获取第一数值，并确定上述第一数值是否达到2，以及从与当前对象对内的人手对象对应的计数器中获取第二数值，并确定上述第二数值是否达到1。

如果上述第一数值未达到2，且上述第二数值未达到1，则说明与上述人脸对象关联的人手对象数量还不足2个，与上述人手对象关联的人脸对象数量还不足1个，因此可以将上述当前对象对的人脸对象与人手对象确定为上述现场图像中的关联对象。

在上述方案中，可以在复杂场景(例如，目标图像涉及人脸、肢体、人手有交叠的多人)中，避免预测出一个人脸对象与超过两个人手对象相关联以及一个人手对象与超过一个人脸对象相关联等不合理的情形。

上述电子设备还搭载了显示模块。

该显示模块可以在电子设备搭载的显示器上输出包含上述关联对象指示的人脸对象与人手对象的外接框。通过在显示器上输出关联对象的检测结果可以使观察人员方便直观确定图像输出设备上展示的现场图像中的关联对象，进而便于对关联对象的检测结果进行进一步的人工校验。

上述电子设备还可以实时获取现场图像，并从现场图像中确定出相关联的人手对象与人脸对象。

上述电子设备还可以识别现场图像中的人手对象正在执行的动作或正在触碰的区域。如果电子设备识别出该人手对象执行了诸如取/放游戏道具的动作，或触碰了预置的游戏区后，可以通过与该人手对象关联的人脸对象，确定相关人员的人员身份。之后，可以将确定人员身份输出以便于桌面游戏管理人员进行相关管理。

以上述是对本申请示出的确定目标图像中的关联对象的方案的介绍，以下介绍该方案中使用的目标对象检测模型与关联性预测模型的训练方法。

其中，上述目标对象检测模型与上述关联性预测模型可以共用相同的骨干网络。

在本申请中，为了提升具有关联性的第一对象与第二对象的确定结果的精确性，可以采用分段训练的方式对各模型进行训练。其中，第一段为针对目标对象检测模型的训练；第二段为针对上述各模型的联合训练。

请参见图6，图6为本申请示出的一种模型训练方法的流程示意图。

如图6所示，该方法包括：

S602，基于第一训练样本集对上述目标对象检测模型进行训练；其中，上述第一训练样本集包含具有第一标注信息的训练样本；上述第一标注信息包括第一对象，第二对象以及第三对象分别对应的边界框。

在执行本步骤时，可以采用人工标注或机器辅助标注的方式对原始图像进行真值标注。例如，在桌面游戏场景中，在获取到原始图像后，可以使用图像标注工具对原始图像中包括的人脸对象边界框，人手对象边界框以及人体对象边界框进行标注，以得到若干训练样本。需要说明的是，在对训练样本进行编码时，可以采用one-hot编码(独热编码)等方式进行编码，本申请不对编码的具体方式进行限定。

之后，可以基于预设的损失函数对目标对象检测模型进行训练，直至该模型收敛。

在该目标对象检测模型收敛后，可以执行S604，基于第二训练样本集对上述目标对象检测模型以及上述关联性预测模型进行联合训练；其中，上述第二训练样本集包含具有第二标注信息的训练样本；上述第二标注信息包括上述第一对象，上述第二对象和上述第三对象分别对应的边界框，以及上述第一对象与上述第二对象之间关联性标注信息。

可以采用人工标注或机器辅助标注的方式对原始图像进行真值标注。例如，在获取到原始图像后，可以使用图像标注工具对原始图像中包括的人脸对象边界框以及人手对象边界框进行标注。另一方面，可以利用标注工具对原始图像中的人脸对象与人手对象进行随机组合，得到多个组合结果。然后再针对各组合内的人脸对象与人手对象进行关联性标注得到关联性标注信息。在一些例子中，如果人体部位组合内的人脸对象与人手对象互为关联对象(属于同一人员)，则标注1，否则标注0。

在确定第二训练样本集后，可以基于目标预测模型以及关联性预测模型各自对应的损失函数确定联合学习损失函数。

在一些例子中，可以将目标预测模型以及关联性预测模型各自对应的损失函数相加、或者求加权和得到上述联合学习损失函数。

需要说明的是，在本申请中还可以为上述联合学习损失函数增加正则化项等超参数。在此不对添加的超参数的类型进行特别限定。

之后，可以基于上述联合学习损失函数以及上述第二训练样本集对上述目标对象检测模型以及关联性预测模型进行联合训练，直至目标对象检测模型与关联性预测模型收敛。

由于上述模型训练中采用了有监督式的联合训练方法，因此，可以对目标对象检测模型与关联性预测模型进行同时训练，使得目标对象检测模型与关联性预测模型之间在训练过程中可以既可以相互约束，又可以相互促进，从而一方面提高两个模型的收敛效率；另一方面促进两个模型的共用的骨干网络，使得该骨干网络可以提取到对关联性预测更有用的特征，从而提升关联性预测精确性。

与上述任一实施例相对应的，本申请还提出一种对象间的关联性的预测装置。请参见图7，图7为本申请示出的一种对象间的关联性的预测装置的结构示意图。

如图7所示，上述装置70可以包括：对象检测模块71，用于检测目标图像中的第一对象、第二对象以及第三对象，其中，上述第一对象、上述第二对象表征不同的人体部位，上述第三对象为人体对象；确定模块72，用于确定包围上述第一对象、上述第二对象以及上述第三对象的联合边界框；关联性预测模块73，用于基于上述目标图像中上述联合边界框对应的区域，预测上述第一对象和上述第二对象的关联性。

在示出的一些实施例中，上述确定模块72包括：确定子模块，用于根据上述第一对象和上述第二对象的检测结果确定包围上述第一对象和上述第二对象的第一包围框；生成模块，用于根据上述第一包围框以及上述第三对象的检测结果，生成包围上述第一对象、第二对象和第三对象的联合边界框。

在示出的一些实施例中，上述联合边界框包括与上述第三对象的边界框外接的外接联合边界框；或者，上述联合边界框包括与上述第一包围框和第三对象的边界框外接的外接联合边界框。

在示出的一些实施例中，上述关联性预测模块73包括：输入模块，用于将上述联合边界框，上述联合边界框包围的第一对象与第二对象对应的边界框分别输入区域特征提取单元，得到上述联合边界框的区域特征，以及上述联合边界框内包围的第一对象与第二对象分别对应的区域特征；特征拼接模块，用于将上述联合边界框的区域特征，上述联合边界框包围的第一对象与第二对象分别对应的区域特征以及上述联合边界框包围的第一对象与第二对象分别对应的位置特征进行特征拼接，得到预设长度的拼接特征；预测子模块，用于基于上述拼接特征，预测上述第一对象和上述第二对象的关联性。

在示出的一些实施例中，上述装置70还包括：关联对象预测模块74，基于上述第一对象和上述第二对象的关联性的预测结果确定上述目标图像中的关联对象。

在示出的一些实施例中，上述关联性的预测结果包括关联性预测分数，上述关联对象预测模块74具体用于：按照所述关联性预测分数由高到低的顺序，依次将各对象对确定为当前对象对，所述对象对由检测出的任意第一对象和任意第二对象进行组合得到，并执行：基于所述目标图像中已确定的关联对象，确定与当前对象对内的第一对象互为关联对象的第二对象的数量作为第一数量，以及确定与当前对象对内的第二对象互为关联对象的第一对象的数量作为第二数量；响应于所述第一数量未达到上述第一预设阈值，且与所述第二数量未达到上述第二预设阈值，将上述当前对象对内的第一对象与第二对象确定为上述目标图像中的关联对象。

在示出的一些实施例中，上述装置70还包括：输出模块，用于输出上述目标图像中的关联对象的检测结果。

在示出的一些实施例中，上述对象检测模块71具体用于：利用目标对象检测模型检测目标图像中的第一对象、第二对象以及第三对象；上述关联性预测模块73具体用于：基于上述目标图像中上述联合边界框对应的区域，利用关联性预测模型预测上述第一对象和上述第二对象的关联性；其中，上述目标对象检测模型和上述关联性预测模型按照如下方式训练得到：基于第一训练样本集对上述目标对象检测模型进行训练；其中，上述第一训练样本集包含具有第一标注信息的训练样本；上述第一标注信息包括第一对象，第二对象以及第三对象分别对应的边界框；基于第二训练样本集对上述目标对象检测模型以及上述关联性预测模型进行联合训练；其中，上述第二训练样本集包含具有第二标注信息的训练样本；上述第二标注信息包括上述第一对象，上述第二对象和上述第三对象分别对应的边界框，以及上述第一对象与上述第二对象之间关联性标注信息。

本申请示出的对象间的关联性的预测装置的实施例可以应用于电子设备上。相应地，本申请公开了一种电子设备，该设备可以包括：处理器。用于存储处理器可执行指令的存储器。其中，上述处理器被配置为调用上述存储器中存储的可执行指令，实现如上述任一实施例示出的对象间的关联性的预测方法。

请参见图8，图8为本申请示出的一种电子设备的硬件结构图。

如图8所示，该电子设备可以包括用于执行指令的处理器，用于进行网络连接的网络接口，用于为处理器存储运行数据的内存，以及用于存储对象间的关联性的预测装置对应指令的非易失性存储器。

其中，对象间的关联性的预测装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，除了图8所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的电子设备通常根据该电子设备的实际功能，还可以包括其他硬件，对此不再赘述。

可以理解的是，为了提升处理速度，对象间的关联性的预测装置对应指令也可以直接存储于内存中，在此不作限定。

本申请提出一种计算机可读存储介质，上述存储介质存储有计算机程序，上述计算机程序用于执行上述第一方面任一上述的对象间的关联性的预测方法。

本申请还提出一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码在设备中的处理器上运行时，所述处理器执行上述第一方面任一上述的对象间的关联性的预测方法。

本领域技术人员应明白，本申请一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本申请一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(可以包括但不限于磁盘存储器、CD-ROM、光学存储器等)上述实施的计算机程序产品的形式。

本申请中的“和/或”表示至少具有两者中的其中一个，例如，“A和/或B”可以包括三种方案：A、B、以及“A和B”。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、可以包括本申请中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本申请中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上述以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上述，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本申请中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。上述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机可以包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件可以包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将可以包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质可以包括所有形式的非易失性存储器、媒介和存储器设备，例如可以包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本申请包含许多具体实施细节，但是这些不应被解释为限制任何公开的范围或所要求保护的范围，而是主要用于描述特定公开的具体实施例的特征。本申请内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上述仅为本申请一个或多个实施例的较佳实施例而已，并不用以限制本申请一个或多个实施例，凡在本申请一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请一个或多个实施例保护的范围之内。

Claims

1.一种对象间的关联性的预测方法，其特征在于，所述方法包括：

检测目标图像中的第一对象、第二对象以及第三对象，其中，所述第一对象、所述第二对象表征不同的人体部位，所述第三对象为人体对象；

确定包围所述第一对象、所述第二对象以及所述第三对象的联合边界框；

基于所述目标图像中所述联合边界框对应的区域，预测所述第一对象和所述第二对象的关联性。

2.根据权利要求1所述的方法，其特征在于，所述确定包围所述第一对象、所述第二对象以及所述第三对象的联合边界框，包括：

根据所述第一对象和所述第二对象的检测结果确定包围所述第一对象和所述第二对象的第一包围框；

根据所述第一包围框以及所述第三对象的检测结果，生成包围所述第一对象、第二对象和第三对象的联合边界框。

3.根据权利要求2所述的方法，其特征在于，

所述根据所述第一对象和所述第二对象的检测结果确定包围所述第一对象和所述第二对象的第一包围框，包括：

对检测出的至少一个第一对象分别与检测出的至少一个第二对象进行组合，得到至少一个对象对；

分别确定包围各所述对象对的第一包围框；和/或，

针对每个所述对象对，所述根据所述第一包围框以及所述第三对象的检测结果，生成包围所述第一对象、第二对象和第三对象的联合边界框，包括：

将所述对象对与至少一个第三对象进行组合，得到至少一个三元对象组，所述对象对由检测出的第一对象和第二对象组合得到；

针对每个所述三元对象组，根据所述对象对的第一包围框以及所述三元对象组中的第三对象的检测结果，生成包围所述三元对象组的联合边界框。

4.根据权利要求2所述的方法，其特征在于，

所述检测结果包括边界框；

所述根据所述第一包围框以及所述第三对象的检测结果，生成包围所述第一对象、第二对象和第三对象的联合边界框，包括：

将检测出的各第三对象的边界框中，与所述第一包围框的重合范围最大的边界框，作为所述第一包围框对应的目标边界框；

根据所述第一包围框以及所述目标边界框，生成包围所述第一对象、第二对象和第三对象的联合边界框。

5.根据权利要求2或3所述的方法，其特征在于，

所述第一包围框包括包围所述第一对象和所述第二对象的包围框中面积最小的包围框；和/或，

所述联合边界框包括与所述第一包围框外接的外接联合边界框。

6.根据权利要求4所述的方法，其特征在于，

所述联合边界框包括与所述第三对象的边界框外接的联合边界框；或者

所述联合边界框包括与所述第一包围框外接且与所述第三对象的边界框外接的联合边界框。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述基于所述目标图像中所述联合边界框对应的区域，预测所述第一对象和所述第二对象的关联性，包括：

将所述联合边界框，所述联合边界框包围的第一对象与第二对象对应的边界框分别输入区域特征提取单元，得到所述联合边界框的区域特征，以及所述联合边界框内包围的第一对象与第二对象分别对应的区域特征；

将所述联合边界框的区域特征，所述联合边界框包围的第一对象与第二对象分别对应的区域特征以及所述联合边界框包围的第一对象与第二对象分别对应的位置特征进行特征拼接，得到预设长度的拼接特征；

基于所述拼接特征，预测所述第一对象和所述第二对象的关联性。

8.根据权利要求1-7任一所述的方法，其特征在于，所述方法还包括：

基于所述第一对象和所述第二对象的关联性的预测结果确定所述目标图像中的关联对象。

9.根据权利要求8所述的方法，其特征在于，

所述关联性的预测结果包括关联性预测分数，

所述基于所述第一对象和所述第二对象的关联性的预测结果确定所述目标图像中的关联对象，包括：

按照所述关联性预测分数由高到低的顺序，依次将各对象对确定为当前对象对，所述对象对由检测出的任意第一对象和任意第二对象进行组合得到，并执行：

基于所述目标图像中已确定的关联对象，确定与当前对象对内的第一对象互为关联对象的第二对象的数量作为第一数量，以及确定与当前对象对内的第二对象互为关联对象的第一对象的数量作为第二数量；

响应于所述第一数量未达到第一预设阈值，且所述第二数量未达到第二预设阈值，将所述当前对象对内的第一对象与第二对象确定为所述目标图像中的关联对象。

10.根据权利要求7-9任一所述的方法，其特征在于，所述方法还包括：

输出所述目标图像中的关联对象的检测结果。

11.根据权利要求1-10任一项所述的方法，其特征在于，所述第一对象和所述第二对象的关联性包括所述第一对象与所述第二对象属于同一人体对象的置信度。

12.根据权利要求1-11任一所述的方法，其特征在于，所述第一对象包括人脸对象；所述第二对象包括人手对象。

13.根据权利要求1-12任一所述的方法，其特征在于，

所述检测目标图像中的第一对象、第二对象以及第三对象，包括：

利用目标对象检测模型检测目标图像中的第一对象、第二对象以及第三对象；

所述基于所述目标图像中所述联合边界框对应的区域，预测所述第一对象和所述第二对象的关联性，包括：

基于所述目标图像中所述联合边界框对应的区域，利用关联性预测模型预测所述第一对象和所述第二对象的关联性；

其中，所述目标对象检测模型和所述关联性预测模型按照如下方式训练得到：

基于第一训练样本集对所述目标对象检测模型进行训练；其中，所述第一训练样本集包含具有第一标注信息的训练样本；所述第一标注信息包括第一对象，第二对象以及第三对象分别对应的边界框；

基于第二训练样本集对所述目标对象检测模型以及所述关联性预测模型进行联合训练；其中，所述第二训练样本集包含具有第二标注信息的训练样本；所述第二标注信息包括所述第一对象，所述第二对象和所述第三对象分别对应的边界框，以及所述第一对象与所述第二对象之间关联性标注信息。

14.一种对象间的关联性的预测装置，其特征在于，所述装置包括：

对象检测模块，用于检测目标图像中的第一对象、第二对象以及第三对象，其中，所述第一对象、所述第二对象表征不同的人体部位，所述第三对象为人体对象；

确定模块，用于确定包围所述第一对象、所述第二对象以及所述第三对象的联合边界框；

关联性预测模块，用于基于所述目标图像中所述联合边界框对应的区域，预测所述第一对象和所述第二对象的关联性。

15.一种电子设备，其特征在于，所述设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器中存储的可执行指令，实现权利要求1至13中任一项所述的对象间的关联性的预测方法。

16.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行权利要求1至13中任一项所述的对象间的关联性的预测方法。

17.一种计算机程序产品，包括计算机可读代码，其特征在于，当所述计算机可读代码在设备中的处理器上运行时，所述处理器执行用于实现权利要求1至13任意一项所述的方法的指令。