CN113557546B

CN113557546B - 图像中关联对象的检测方法、装置、设备和存储介质

Info

Publication number: CN113557546B
Application number: CN202180001700.0A
Authority: CN
Inventors: 刘春亚; 张学森; 王柏润; 陈景焕
Original assignee: Sensetime International Pte Ltd
Current assignee: Sensetime International Pte Ltd
Priority date: 2021-03-17
Filing date: 2021-06-07
Publication date: 2024-04-09
Anticipated expiration: 2041-06-07
Also published as: KR20220130567A; CN113557546A; US20220300774A1; AU2021204584A1

Abstract

本申请提出图像中关联对象的检测方法、装置、设备和存储介质。其中，上述方法可以包括，检测目标图像中的人脸对象，人手对象以及预设人体部位对象。其中，上述预设人体部位对象表征人脸与人手之间的预设连接部位。对检测出的人脸对象与预设人体部位对象，以及预设人体部位对象与人手对象分别进行关联性预测，得到人脸对象与预设人体部位对象的第一关联性预测结果，以及预设人体部位对象与人手对象的第二关联性预测结果。根据上述第一关联性预测结果以及上述第二关联性预测结果，确定上述目标图像中的关联对象。

Description

图像中关联对象的检测方法、装置、设备和存储介质

相关公开的交叉引用

本申请为2021年6月7日提交申请号为PCT/IB2021/054953的PCT申请的国家阶段申请，并且该PCT申请要求2021年3月17日递交的、申请号为10202102716Y的新加坡专利申请的优先权，其全部内容通过引用并入本文。

技术领域

本申请涉及计算机技术，具体涉及图像中关联对象的检测方法、装置、设备和存储介质。

背景技术

智能视频分析技术可以帮助人类了解物理空间中的对象的状态以及对象之间的关系。在智能视频分析的一个应用场景中，需要根据视频中出现的人体部位识别出该部位对应的人员身份。

人体部位与人员身份的关系可以通过一些中介信息来辨别。其中，中介信息可以是与人体部位和人员的身份均存在比较明确的关联关系的对象的信息。例如，人脸信息可以作为用于标识人员的身份的生物信息。当需要确认图像中检测到的手部所属人员的身份时，可以通过与手部互为关联对象的人脸来确定。其中，关联对象，可以是指两个对象与同一个第三对象具有归属关系，或者具有相同的身份信息属性。两个人体部位互为关联对象，可以认为两个人体部位属于同一人员。

通过将图像中的人体部位关联，可以进一步帮助分析多人场景中个体的行为和状态，以及多人之间的关系。

发明内容

有鉴于此，本申请至少公开一种图像中关联对象的检测方法，上述方法包括：检测目标图像中的人脸对象，人手对象以及预设人体部位对象，其中，上述预设人体部位对象表征人脸与人手之间的预设连接部位；对检测出的人脸对象与预设人体部位对象，以及预设人体部位对象与人手对象分别进行关联性预测，得到人脸对象与预设人体部位对象的第一关联性预测结果，以及预设人体部位对象与人手对象的第二关联性预测结果；根据上述第一关联性预测结果以及上述第二关联性预测结果，确定上述目标图像中的关联对象。

本申请还提出一种图像中关联对象的检测装置，上述装置包括：检测模块，用于检测目标图像中的人脸对象，人手对象以及预设人体部位对象，其中，上述预设人体部位对象表征人脸与人手之间的预设连接部位；第一关联性预测模块，用于对检测出的人脸对象与预设人体部位对象，以及预设人体部位对象与人手对象分别进行关联性预测，得到人脸对象与预设人体部位对象的第一关联性预测结果，以及预设人体部位对象与人手对象的第二关联性预测结果；确定模块，用于根据上述第一关联性预测结果以及上述第二关联性预测结果，确定上述目标图像中的关联对象。

本申请还提出一种电子设备，包括：处理器；用于存储上述处理器可执行指令的存储器；其中，上述处理器被配置为调用上述存储器中存储的可执行指令，实现如前述任一实施例示出的图像中关联对象的检测方法。

一种计算机可读存储介质，上述存储介质存储有计算机程序，上述计算机程序用于执行如前述任一实施例示出的图像中关联对象的检测方法。

在上述方案中，通过将表征人脸与人手之间的预设连接部位的预设人体部位对象作为中介，分别预测人脸对象与该预设人体部位对象之间的关联性，以及该预设人体部位对象与人手对象之间的关联性，然后再根据人脸对象与该预设人体部位对象之间的预测结果以及该预设人体部位对象与人手对象之间的预测结果，确定检测出的人脸对象与人手对象之间的关联性，与直接预测人脸与人手关联性相比，通过引入与人脸和人手均联系紧密的上述预设人体部位对象作为中介，可以确定更准确的人脸对象与人手对象之间的关联性，并且在预测人脸与人手关联性时可以引入较少的干扰信息，提升关联性预测准确性。

应当理解的是，以上述的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请一个或多个实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请示出的一种图像中关联对象的检测方法的方法流程图；

图2为本申请示出的用于检测目标图像中的人脸对象、人手对象以及预设人体部位对象的目标检测方法的一个流程示意图；

图3为本申请示出用于预测人脸对象与预设人体部位对象关联性方法的一种流程示意图；

图4为本申请示出用于预测人脸对象与预设人体部位对象关联性方法的一种流程示意图；

图5为本申请示出的一种关联对象检测方法的流程示意图；

图6为本申请示出的一种预测结果调整方法的方法流程图；

图7为本申请一个实施例的关联对象的检测方法中的神经网络的训练方法的流程图；

图8为本申请示出的一种图像中关联对象的检测装置的结构示意图；

图9为本申请示出的一种电子设备的硬件结构示意图。

具体实施方式

下面将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的设备和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“上述”和“该”也旨在可以包括多数形式，除非上述下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。还应当理解，本文中所使用的词语“如果”，取决于语境，可以被解释成为“在……时”或“当……时”或“响应于确定”。

本申请提出了一种图像中关联对象的检测方法。该方法通过将表征人脸与人手之间的预设连接部位的预设人体部位对象作为中介，分别预测人脸对象与该预设人体部位对象之间的关联性，以及该预设人体部位对象与人手对象之间的关联性，然后再根据人脸对象与该预设人体部位对象之间的预测结果以及该预设人体部位对象与人手对象之间的预测结果，确定检测出的人脸对象与人手对象之间的关联性，与直接预测人脸与人手关联性相比，通过引入与人脸和人手均联系紧密的上述预设人体部位对象作为中介，可以确定更准确的人脸对象与预设人体部位对象之间的关联性，以及预设人体部位对象与对象之间的关联性，从而在根据预测人脸与人手关联性时可以引入较少的干扰信息，提升关联性预测准确性。

请参见图1，图1为本申请示出的一种图像中关联对象的检测方法的方法流程图。如图1所示，上述方法可以包括：

S102，检测目标图像中的人脸对象，人手对象以及预设人体部位对象，其中，上述预设人体部位对象表征人脸与人手之间的预设连接部位。

S104，对检测出的人脸对象与预设人体部位对象，以及预设人体部位对象与人手对象分别进行关联性预测，得到人脸对象与预设人体部位对象的第一关联性预测结果，以及预设人体部位对象与人手对象的第二关联性预测结果。

S106，根据上述第一关联性预测结果以及上述第二关联性预测结果，确定上述目标图像中的关联对象。

上述检测方法可以应用于电子设备中。其中，上述电子设备可以通过搭载与该方法对应的软件系统执行上述方法。本申请实施例中，上述电子设备的类型可以是笔记本电脑，计算机，服务器，手机，PAD终端等，在本申请中不作特别限定。

可以理解的是，上述方法既可以仅通过客户端设备或服务端设备单独执行，也可以通过客户端设备与服务端设备配合执行。

例如，上述方法可以集成于客户端设备。该设备在接收到关联性对象检测请求后，可以通过自身硬件环境提供的算力执行上述方法。

又例如，上述方法可以集成于服务端设备。该设备在接收到关联性对象检测请求后，可以通过自身硬件环境提供的算力执行上述方法。

还例如，上述方法可以包括获取目标图像和对目标图像进行关联对象检测两个步骤。其中，获取目标图像的步骤可以由客户端设备执行，对目标图像进行关联性对象检测的步骤可以由服务端设备执行。上述客户端设备可以在获取到目标图像后向上述服务端设备发起关联对象检测请求。上述服务端设备在接收到上述请求后，可以响应于上述请求对上述目标图像执行关联对象检测。

以下以执行主体为电子设备(以下简称设备)为例进行说明。

上述目标图像是指需要进行图像处理以提取其中的有用信息的图像。该目标图像中可以包括若干被检测对象。例如，在桌面游戏场景中，上述目标图像可以包括若干围绕在该桌面附近的人员以及人员包括的人脸对象、人手对象与预设人体部位对象(比如，手肘)。

在一些例子中，上述设备可以通过与用户进行交互，获取用户输入的目标图像。例如，上述设备可以通过其搭载的界面为用户提供输入待处理目标图像的窗口，供用户输入图像。用户可以基于该窗口完成目标图像的输入。

在一些例子中，上述设备还可以与被采集场景现场部署的图像采集设备进行连接，以获取该设备采集到的图像作为目标图像。

在获取到目标图像后，可以执行上述S102，检测目标图像中的人脸对象，人手对象以及预设人体部位对象。

其中，上述预设人体部位对象，可以表征人脸与人手之间的预设连接部位。与直接预测人脸与人手关联性相比，通过引入与人脸和人手联系更紧密的上述预设人体部位对象作为中介，可以更准确地判断人脸对象与人手对象之间的关联性。

在一些例子中，上述预设人体部位可以是指胳膊上的某一预设人体部位对象。在一些例子中，为了提升关联性预测精度，上述预设人体部位对象可以包括比较容易从目标图像中检测出来的肩膀对象、手肘对象、手腕对象中的至少之一。

在本步骤中，可以将目标图像输入目标对象检测网络中进行目标检测，得到该目标图像包含的人脸对象、人手对象以及预设人体部位对象。

可以理解的是，针对目标图像进行目标检测得到的结果可以包括人脸对象、人手对象以及预设人体部位对象的位置信息。其中位置信息可以包括边界框和边界框的位置信息。其中，当边界框为矩形框时，边界框的位置信息可以包括其中至少一个顶点的坐标及边界框的长度信息和宽度信息。

上述目标对象检测网络，具体用于执行目标检测任务，可以是基于RCNN(RegionConvolutional Neural Networks，区域卷积神经网络)、FAST-RCNN(Fast RegionConvolutional Neural Networks，快速区域卷积神经网络)或FASTER-RCNN(FasterRegion Convolutional Neural Networks，更快速的区域卷积神经网络)构建的神经网络。

在实际应用中，在使用该目标对象检测网络进行目标检测前，可以基于若干标注了人脸对象、人手对象和预设人体部位对象的位置标注信息的训练样本对该网络进行训练，直至该网络收敛。

请参见图2，图2为本申请示出的用于检测目标图像中的人脸对象、人手对象以及预设人体部位对象的目标检测方法的一个流程示意图。需要说明的是，图2仅对目标检测方法进行示意性说明，不对本申请做出特别限定。

如图2所示，上述目标对象检测网络可以是FASTER-RCNN，至少包括Backbone(骨干网络)，RPN(Region Proposal Network，候选框生成网络)，以及RCNN(Region-basedConvolutional Neural Network，基于区域的卷积神经网络)。

其中，骨干网络可以对目标图像进行若干次卷积运算得到该目标图像的目标特征图。RPN网络用于对目标特征图进行处理得到与目标图像中的各目标对象分别对应的anchors(锚框)。RCNN网络用于根据RPN网络输出的锚框和骨干网络输出的目标特征图进行bbox(bounding boxes，边界框)回归和分类，得到上述目标图像包含的人脸对象、人手对象以及预设人体部位对象分别对应的边界框。

需要说明的是，本实施例的方案可以采用同一个目标对象检测网络执行三类不同的人体部位对象的检测，在训练中分别标注样本图像中人脸对象、人手对象以及预设人体部位对象的类别及位置，则在执行目标检测任务时，目标对象检测网络可以输出不同类别的人体部位对象以及人体对象的检测结果。

在确定人脸对象，人手对象以及预设人体部位对象分别对应的边界框后，可以执行S104，对检测出的人脸对象与预设人体部位对象，以及预设人体部位对象与人手对象分别进行关联性预测，得到人脸对象与预设人体部位对象的第一关联性预测结果，以及预设人体部位对象与人手对象的第二关联性预测结果。

上述关联性预测，具体是指检测两个对象之间的关联性。在实践中，可以通过确定两个对象属于同一人体对象的概率或置信度来检测二者之间的关联性。其中，上述两个对象可以包括人脸对象和预设人体部位对象，或者预设人体部位对象和人手对象。

在一些例子中，可以根据图像中两个对象之间的距离、相对位置关系、颜色关联度等特征以及实际场景中两个关联的对象距离、相对位置关系、颜色等先验知识，计算图像中检测出的人脸对象与检测出的预设人体部位对象属于同一人体对象的概率，以及检测出的预设人体部位对象与检测出的人手对象属于同一人体对象的概率，分别作为上述第一关联性预测结果和第二关联性预测结果。

在一些例子中，可以通过基于神经网络构建的关联性预测模型进行上述关联性预测，得到表征上述两个对象属于同一人体对象的置信度。

在一些例子中，可以通过预测分数量化置信度。预测分数越高，表示两个部位属于同一人体的可能性越高。

可以理解的是，一些情况下目标图像可能包括多个人脸对象，多个人手对象以及多个预设人体部位对象，本实施例的方法可以将人脸对象随机地与人手对象组合形成多个第一组合，分别针对每个第一组合进行人脸对象与人手对象的关联性预测。此时在预测上述第一关联性预测结果时，可以先执行S1042，将检测出的各人脸对象，分别与各预设人体部位对象进行组合，得到多个第二组合。

在执行S1042前，可以为检测出的各人脸对象，各人手对象以及各预设人体部位对象分别创建唯一标识。

在一些例子中，可以根据各对象的类别以及整数编号列表为各对象创建唯一标识。例如，创建的标识可以是人脸对象F1，人脸对象F2，人手对象H1，预设人体部位对象E1等，其中“F”、“H”和“E”分别用于标识人脸对象的类别、人手对象的类别和预设人体部位对象的类别。

在标识创建完毕后，可以按照标识依次将各人脸对象作为目标人脸对象，与各预设人体部位对象进行组合，得到多个第二组合。可以理解的是本申请涉及的对象组合方法均可以参照上述第二组合的组合方法，在后续中不再详述。

在得到多个第二组合后，可以执行S1044，根据各第二组合内的人脸对象与预设人体部位对象的视觉特征，对各第二组合内的人脸对象与预设人体部位对象进行关联性预测，得到各第二组合内的人脸对象与预设人体部位对象之间的第一关联性预测结果。

在一些例子中，可以通过关联性预测模型进行关联性预测。上述关联性预测模型具体可以是基于视觉特征提取单元构建的回归模型或分类模型。该预测模型可以包括全连接层，最终输出关联性预测分数。

其中，上述全连接层具体可以是基于诸如线性回归，最小二乘回归等算法构建的计算单元。该计算单元可以对视觉特征进行特征映射，得到对应的关联性预测分数值。

在实际应用中，可以基于若干具有人脸对象与预设人体部位对象的关联性标注信息的训练样本对该计算单元进行训练。

在构建训练样本时，可以先获取若干原始图像，然后利用标注工具对原始图像中的人脸对象与预设人体部位对象进行随机组合，得到多个组合，之后针对各组合内的人脸对象与预设人体部位对象进行关联性标注。如果组合内的人脸对象与预设人体部位对象具有关联性(属于同一人员)，则可以标注1，否则标注0；或者，在针对原始图像标注时，可以标注其中各人脸对象与各预设人体部位对象所归属的人员对象的信息(如人员标识)，由此可以根据所归属的人员对象的信息是否一致来确定组合内的人脸对象与预设人体部位对象是否具有关联性。

请参见图3，图3为本申请示出用于预测人脸对象与预设人体部位对象关联性方法的一种流程示意图。

示意性的，图3示出的关联性预测模型可以包括视觉特征提取单元和全连接层。

其中，视觉特征提取单元可以基于边界框以及与目标图像对应的目标特征图，得到区域特征。

例如，上述视觉特征提取单元可以是RoI Align(Region of interest Align，感兴趣视觉特征对齐)单元或RoI pooling(Region of interest pooling，感兴趣视觉特征池化)单元。

上述全连接层具体可以是基于诸如线性回归，最小二乘回归等算法构建的单元。该单元可以对特征区域(像素矩阵)进行特征映射(矩阵运算)，得到对应的关联性预测分数值。

在使用上述关联性预测模型进行预测时，可以将各第二组合内的人脸对象与预设人体部位对象的边界框，以及上述目标图像对应的目标特征图输入上述视觉特征提取单元，得到上述人脸对象与上述预设人体部位对象对应的视觉特征。

然后，再将上述视觉特征输入上述全连接层进行计算，得到上述第一关联性预测结果。

在一些例子中，为了提升关联性预测精确性，在进行第一关联性预测分数预测时，可以针对各第二组合，利用上述关联性预测模型，根据各第二组合内的人脸对象与预设人体部位对象的视觉特征以及位置特征，对各第二组合内的人脸对象与预设人体部位对象进行关联性预测，得到各第二组合内的人脸对象与预设人体部位对象之间的第一关联性预测结果。其中，视觉特征例如包括颜色和/或纹理等特征，位置特征例如包括坐标位置、与其他对象的相对位置关系等特征。

请参见图4，图4为本申请示出用于预测人脸对象与预设人体部位对象关联性方法的一种流程示意图。

如图4所示，在通过视觉特征提取单元提取到人脸对象与预设人体部位对象分别对应的视觉特征后，还可以将人脸对象位置特征(例如，坐标)以及预设人体部位对象位置特征(例如，坐标信息)进行特征拼接(例如，单核卷积操作，叠加等)，得到拼接后的特征。

在得到拼接后的特征后，可以将该拼接后的特征输入上述全连接层进行特征映射(矩阵运算)，得到第一关联性预测结果。

由于在进行关联性预测时，除了使用人脸对象视觉特征以及预设人体部位对象视觉特征外，还使用了人脸对象边界框和预设人体部位对象边界框分别对应的位置特征，从而可以提取出人体部位之间潜在的位置关系等信息，引入了对人体部位对象之间的关联性预测有益的信息，从而提升了关联性预测结果的精确性。

然后，可以执行S1046，将检测出的各预设人体部位对象，分别与各人手对象进行组合，得到多个第三组合。

S1048，根据各第三组合内的预设人体部位对象与人手对象的视觉特征以及位置特征，对各第三组合内的预设人体部位对象与人手对象进行关联性预测，得到各第三组合内的预设人体部位对象与人手对象之间的第二关联性预测结果。

可以理解的是，S1046-S1048的步骤说明可以参照对S1042-S1044的步骤说明，在此不作详述。

需要说明的是，本申请不对确定第一关联性预测结果与第二关联性预测结果的执行顺序进行特别限定。例如，可以先执行S1042-S1044或先执行S1046-S1048，或者同步进行第一关联性预测结果与第二关联性预测结果的预测。

在得到多个第一关联性预测结果以及多个第二关联性预测结果后，可以继续执行S106，根据上述第一关联性预测结果以及上述第二关联性预测结果，确定上述目标图像中的关联对象。

在一些例子中，可以根据上述第一关联性预测结果和上述第二关联性预测结果，确定与同一预设人体部位对象之间的关联性满足预设条件的人脸对象和人手对象为上述目标图像中的关联对象。

上述预设条件可以根据实际业务需求进行设定。在一些例子中，上述预设条件可以是与同一预设人体部位对象之间的关联性置信度达到预设阈值(经验阈值)。

在一些例子中，可以先从上述多个第一关联性预测结果中筛选出达到第一预设阈值(经验阈值)的第一关联性预测结果，并将筛选出的第一关联性预测结果对应的人脸对象与预设人体部位对象确定为初步关联的一对人脸对象与预设人体部位对象。

之后，可以确定与同一预设人体部位对象初步关联的人脸对象数量。

如果与同一预设人体部位对象初步关联的人脸对象数量为1，则确定该人脸对象与该人手对象关联。

如果与同一预设人体部位对象初步关联的人脸对象数量大于1时，则从与该预设人体部位对象初步关联的多个人脸对象中，确定出与该预设人体部位对象关联性最强的人脸对象，并将该人脸对象确定为与该预设人体部位对象关联的人脸对象。

然后，可以基于类似的方法，确定与上述预设人体部位对象关联的人手对象。

在确定与同一预设人体部位对象关联的人脸对象与人手对象后，则可以将该人脸对象与该人手对象确定为属于同一人体对象的一对关联对象。

在上述方案中，由于该预设人体部位对象为人脸与人手之间的预设连接部位，因此该预设人体部位对象与人手和人脸对象均有紧密联系，因此在进行人脸对象与人手对象关联预测的过程中，可以通过中介信息将实际关联的人脸对象与人手对象关联，提升了关联对象检测结果的准确性。

在一些例子中，为了提升关联性预测精确性，在执行S106时，可以先对检测出的人脸对象以及人手对象进行关联性预测，得到第三关联性预测结果。然后，可以从上述第一关联性预测结果与上述第二关联性预测结果中提取出人脸对象和人手对象的关联性预测有益的辅助信息，对上述第三关联性预测结果进行调整，并根据调整后的第三关联性预测结果，确定上述目标图像中的关联对象，进而提升关联性预测精确性。

以下结合附图对上述步骤进行说明。

请参见图5，图5为本申请示出的一种关联对象检测方法的流程示意图。

图5示出的流程中至少包括目标对象检测网络，以及第一预设网络和第二预设网络。其中目标对象检测网络用于检测目标图像中的人脸对象、人手对象以及预设人体部位对象；第一预设网络用于预测人脸对象和人手对象之间的关联性，得到第三关联性预测结果；第二预设网络用于预测上述人脸对象和预设人体部位对象之间的关联性、以及预设人体部位对象和人手对象之间的关联性，得到第一关联性预测结果和第二关联性预测结果。

如图5所示，在进行关联性预测时，可以先将目标图像输入目标对象检测网络，执行目标检测，得到上述目标图像中的人脸对象，人手对象以及预设人体部位对象的边界框。

然后，可以利用上述第一预设网络，对检测出的人脸对象以及人手对象进行关联性预测，得到第三关联性预测结果。可以理解的是，预测上述第三关联性预测结果的步骤的说明可以参照前述S1042-S1044的步骤说明，在此不作详述。

然后，可以利用上述第二预设网络，针对检测出的人脸对象与预设人体部位对象，以及预设人体部位对象与人手对象分别进行关联性预测，得到人脸对象与预设人体部位对象的第一关联性预测结果，以及预设人体部位对象与人手对象的第二关联性预测结果。

之后，可以根据上述第一关联性预测结果以及上述第二关联性预测结果，对上述第三关联性预测结果进行调整。在一些可选的实现方式中，可以使用第一关联性预测结果和第二关联性预测结果对第三关联性预测结果进行验证，在验证通过的情况下增大第三关联性预测结果的可信度，否则减小第三关联性预测结果的可信度或将第三关联性预测结果调整为“不关联”。

作为示例，若基于第一关联性预测结果确定人脸对象F1与预设人体部位对象E1关联，基于第二关联性预测结果确定预设人体部位对象E1与人手对象H1不关联，而基于第三关联性预测结果确定人脸对象F1和人手对象H1关联，则可以确定人脸对象F1和人手对象H1的第三关联性预测结果为：不关联。

在一些例子中，上述关联性预测结果可以包括关联性预测分数。

请参见图6，图6为本申请示出的一种预测结果调整方法的方法流程图。

如图6所示，可以依次将检测出的各预设人体部位对象作为目标人体部位对象，并执行以下操作：

S602，确定与上述目标人体部位对象之间的第一关联性预测分数最高的目标人脸对象。

在一些例子中，可以按照关联性预测分数由高到低的顺序，对上述目标人体部位对象对应的第一关联性预测分数进行排序。可以将排在首位的第一关系预测分数对应的人脸对象确定为上述目标人脸对象。

由此即可得到与上述目标人体部位对象关联性最强的人脸对象。

在一些例子中，可以确定与上述目标人体部位对象之间的第一关联性预测分数大于预设阈值的候选人脸对象。然后，再从候选人脸对象中确定与上述目标人体部位对象之间的第一关联性预测分数最高的作为目标人脸对象。

上述预设阈值为经验阈值。若两个人体对象的关联性预测分数达到上述预设阈值，即可以说明上述两个对象属于同一人员的概率较大。

在上述例子中，如果人脸对象与预设人体部位对象之间的第一关联性预测分数低于上述预设阈值，则无法确定出候选人脸对象，此时可以说明上述人脸对象与预设人体部位对象不属于同一人员(可能是由于与该人脸对象属于同一人员的预设人体部位被遮挡了造成的)，因此无需基于上述第一关联性预测分数对该人脸对象对应的第三关联性预测分数进行调整，从而一方面减少了模型运算量，提升了关联对象检测效率；另一方面，避免了无益修正，提高了关联对象检测准确性。

然后，可以执行S604，确定与上述目标人体部位对象之间的第二关联性预测分数最高的目标人手对象。

在一些例子中，可以按照关联性预测分数由高到低的顺序，对上述目标人体部位对象对应的第二关联性预测分数进行排序。可以将排在首位的第二关系预测分数对应的人手对象确定为上述目标人手对象。

由此即可得到与上述目标人体部位对象关联性最强的人手对象。

在一些例子中，可以确定与上述目标人体部位对象之间的第二关联性预测分数大于预设阈值的候选人手对象。可以从候选人手对象中确定与上述目标人体部位对象之间的第二关联性预测分数最高的作为目标人手对象。

在上述例子中，如果人手对象与预设人体部位对象之间的第二关联性预测分数低于上述预设阈值，则无法确定出候选人手对象，此时可以说明上述人手对象与预设人体部位对象不属于同一人员(可能是由于与该人手对象属于同一人员的预设人体部位被遮挡了造成的)，因此无需基于上述第一关联性预测分数对该人脸对象对应的第三关联性预测分数进行调整，从而一方面减少了模型运算量，提升了关联对象检测效率；另一方面，避免了无益修正，提高了关联对象检测准确性。

最后可以执行S606，基于上述目标人脸对象与上述目标人体部位对象之间的第一关联性预测分数，以及上述目标人体部位对象与上述目标人手对象之间的第二关联性预测分数，对上述目标人脸对象与上述目标人手对象之间的第三关联性预测分数进行调整。

在一些例子中，可以先确定上述目标人脸对象与上述目标人体部位对象之间的第一关联性预测分数、以及上述目标人体部位对象与上述目标人手对象之间的第二关联性预测分数的均值。

然后，再对上述目标人脸对象与上述目标人手对象之间的第三关联性预测分数与上述均值进行求和，得到调整后的第三关联性预测分数。

在此需要说明的是，对上述第三关联性预测分数进行调整的方式还可以有很多种。例如，直接将第一关联性预测分数、第二关联性预测分数以及第三关联性预测分数之和确定为调整后的第三关联性预测分数。再例如，仅将第一关联性预测分数或第二关联性预测分数，与第三关联性预测分数之和确定为调整后的第三关联性预测分数。在本申请中，不对上述第三关联性预测分数的调整方式进行穷尽式列举。

在完成第三关联性预测结果的调整之后，可以基于调整后的第三关联性预测结果，确定检测出的人脸对象与人手对象之间的关联性。其中，可以根据第三关联性预测结果来判断图像中的人脸对象是否与人手对象关联，例如根据表征第三关联性预测结果的关联性预测分数是否超过阈值来判断人脸对象和人手对象是否关联。

在本步骤中，还可以按照第三关联性预测分数由高到低的排序，依次将各第三关联性预测分数对应的人脸对象与人手对象的组合确定为当前组合，并执行以下第一步与第二步：

第一步，基于上述目标图像中的已确定的关联对象，确定与当前组合内的人脸对象互为关联对象的人手对象的数量是否达到第一预设阈值，以及确定与当前组合内的人手对象互为关联对象的人脸对象的数量是否达到第二预设阈值。

上述第一预设阈值具体是可以根据实际情形进行设定的经验阈值。在这里，上述第一预设阈值可以为2。

上述第二预设阈值具体是可以根据实际情形进行设定的经验阈值。在这里，上述第二预设阈值可以为1。

在一些例子中，可以按照第三关联性预测分数由高到低的顺序，依次将关联性预测分数达到预设的分数阈值的组合确定为当前对象对。

在本实施例中，可以将关联性预测分数达到预设的分数阈值的组合确定为当前对象对进行关联性判断，由此可以提升关联性预测结果的准确性。

在一些例子中，可以为各人脸对象和各人手对象分别维护一个计数器，每当确定与任一人脸对象互为关联对象的人手对象时，将上述人脸对象对应的计数器上的值加1。此时，可以通过两个计数器确定与上述人脸对象互为关联对象的人手对象的数量是否达到第一预设阈值，以及确定与当前对象对内的人手对象互为关联对象的人脸对象的数量是否达到第二预设阈值。

第二步，在与当前组合内的人脸对象互为关联对象的人手对象的数量未达到上述第一预设阈值，且与当前组合内的人手对象互为关联对象的人脸对象的数量未达到上述第二预设阈值的情况下，将当前组合内的人脸对象与人手对象确定为上述目标图像中的关联对象。

在上述例子中，可以在复杂场景(例如，目标图像涉及人脸、肢体、人手有交叠的多人)中，避免出现预测出一个人脸对象与超过两个人手对象相关联以及一个人手对象与超过一个人脸对象相关联等不合理的情形。例如在多人桌面游戏场景中，不同人的人手之间或人脸之间存在遮挡或交叠，上述方案仍可以较准确地将人脸和对应的人手关联。

由于与同一预设人体部位对象关联性较强的人脸对象与人手对象，在实际情形中属于同一人员的可能性也很大，因此，基于上述调整后的第三关联性预测分数进行关联对象检测，可以有效的提升关联性预测精确性。

在一些例子中，可以输出该目标图像中的关联对象的检测结果。

例如，在桌面游戏场景中，可以在图像输出设备(例如显示器)上输出包含上述关联对象指示的人脸对象与人手对象的外接框。通过在图像输出设备上输出关联对象的检测结果可以使观察人员方便直观确定图像输出设备上展示的目标图像中的关联对象，进而便于对关联对象的检测结果进行进一步的人工校验。

以下以桌面游戏场景为例，进行实施例说明。可以理解的是，其他场景下的实施可以参照本申请对桌面游戏场景实施例的说明，在此不作详述。

在桌面游戏场景中，通常设置有游戏桌，游戏参与人员围绕在游戏桌周围。可以在桌面游戏场景中部署用于采集桌面游戏现场图像的图像采集设备。该现场图像中可以包括游戏参与人员的人脸、人手以及手肘。在该场景中，需要确定现场图像中出现的互为关联对象的人手与人脸，从而可以依据与图像中出现的人手关联的人脸确定该人手所属的人员身份信息。

在这里，人手和人脸互为关联对象，或者人手和人脸关联，是指二者归属于同一个人体，即二者是同一个人的人手和人脸。

在该场景中，还可以部署用于检测人脸和人手之间的关联性的检测设备。该设备可以从图像采集设备中获取现场图像，并确定上述现场图像中的关联对象。

上述检测设备可以搭载经过训练的人脸、人手以及手肘对象检测网络与人脸-人手关联性预测网络，人脸-手肘-人手关联性预测网络。其中，关联性预测网络的输入可以包括人脸、人手以及手肘对象检测网络的输出。

上述人脸、人手以及手肘对象检测网络可以包括基于FASTER-RCNN网络构建的神经网络。该网络可以从现场图像中检测出人脸对象、人手对象以及手肘对象分别对应的边界框。

上述人脸-人手关联性预测网络与人脸-手肘-人手关联性预测网络可以是基于区域特征提取单元以及全连接层构建的神经网络。

其中，上述人脸-人手关联性预测网络可以提取人脸与人手对应的视觉特征，并结合对象检测网络检测出的人脸与人手对应的边界框位置特征预测该人脸与该人手之间的第三关联性预测分数。

上述人脸-手肘-人手关联性预测网络可以包括人脸-手肘关联性预测网络以及手肘-人手关联性预测网络。上述人脸-手肘-人手关联性预测网络可以分别预测检测出的人脸与手肘之间的第一关联性预测分数以及检测出的手肘与人手之间的第二关联性预测分数。

在本例中，上述检测设备可以响应于用户操作或定时从上述图像采集设备中获取现场图像。

然后，可以利用上述对象检测网络检测出上述现场图像包括的人脸对象、人手对象以及手肘对象。

然后，可以对检测出的任意人脸对象与任意人手对象进行组合，得到多个第一组合，然后利用上述人脸-人手关联性预测网络，对各第一组合内的人脸与人手进行关联性预测，得到各第一组合内的人脸与人手之间的第三关联性预测分数。

同理，可以分别对检测出的任意人脸与任意手肘，以及任意手肘与任意人手进行组合，得到多个第二组合与多个第三组合，并利用上述人脸-手肘-人手关联性预测网络分别预测出各第二组合内的人脸与手肘之间的第一关联性预测分数以及各第三组合内的手肘与人手之间的第二关联性预测分数。

由于与同一手肘对象关联性较强的人脸对象与人手对象，在实际情形中属于同一人员的可能性也很大，因此，基于上述调整后的第三关联性预测分数进行关联对象检测，可以有效的提升关联性预测精确性。

之后，可以依次将检测出的各手肘作为目标手肘，并执行以下步骤：

确定与上述目标手肘之间达到第一预设阈值并且数值最高的第一关联性预测分数以及达到第二预设阈值并且数值最高的第二关联性预测分数。然后分别将确定的第一关联性预测分数与第二关联性预测分数对应的人脸与人手确定为目标人脸与目标人手。之后，可以确定上述第一关联性预测分数、以及上述第二关联性预测分数的均值，并对上述目标人脸与上述目标人手之间的第三关联性预测分数与上述均值进行求和，得到调整后的第三关联性预测分数。

在上述检测设备中，还可以为各人脸对象和各人手对象分别维护一个计数器，每当确定与任一人脸对象互为关联对象的人手对象时，将上述人脸对象对应的计数器上的值加1。此时，可以通过两个计数器确定与上述人脸对象互为关联对象的人手对象的数量是否达到第一预设阈值，以及确定与当前对象对内的人手对象互为关联对象的人脸对象的数量是否达到第二预设阈值。

进一步，可以按照第三关联性预测分数由高到低的顺序，依次将各上述第三组合确定为当前组合，并执行：

从与当前组合内的人脸对象对应的计数器中获取第一数值，并确定上述第一数值是否达到2，以及从与当前组合内的人手对象对应的计数器中获取第二数值，并确定上述第二数值是否达到1。

如果上述第一数值未达到2，且上述第二数值未达到1，则说明与上述人脸对象关联的人手对象数量还不足2个，与上述人手对象关联的人脸对象数量还不足1个，因此可以将上述当前对象对的人脸对象与人手对象确定为上述现场图像中的关联对象。

在上述方案中，可以在复杂场景(例如，目标图像涉及人脸、肢体、人手有交叠的多人)中，避免预测出一个人脸对象与超过两个人手对象相关联以及一个人手对象与超过一个人脸对象相关联等不合理的情形。

上述检测设备还搭载了显示模块。

该显示模块可以在检测设备搭载的显示器上输出包含上述关联对象指示的人脸对象与人手对象的外接框。通过在显示器上输出关联对象的检测结果可以使观察人员方便直观确定图像输出设备上展示的现场图像中的关联对象，进而便于对关联对象的检测结果进行进一步的人工校验。

上述检测设备还可以实时获取现场图像，并从现场图像中确定出相关联的人手对象与人脸对象。上述检测设备可以识别现场图像中的人手对象正在执行的动作或正在触碰的区域。如果检测设备识别出该人手对象执行了诸如取/放游戏道具的动作，或触碰了预置的游戏区后，可以通过与该人手对象关联的人脸对象，确定相关人员的人员身份。之后，可以将确定人员身份输出以便于桌面游戏管理人员进行相关管理。

以上是对本申请示出的确定目标图像中的关联对象的方案的介绍，以下介绍该方案中使用的目标对象检测网络与关联性预测模型的训练方法。

在本申请中，为了提升具有关联性的人脸对象与人手对象的确定结果的精确性，可以采用分段训练的方式对各模型进行训练。其中，第一段为针对目标对象检测网络的训练；第二段为针对目标对象检测网络与关联性预测模型的联合训练。

请继续参见图5。如图5所示，可以包括目标对象检测网络、第一预设网络以及第二预设网络。其中，上述目标对象检测网络用于检测目标图像中的人脸对象，人手对象以及预设人体部位对象。上述第一预设网络用于预测人脸对象与人手对象之间的第三关联性预测结果。上述第二预设网络用于预测人脸对象与预设人体部位对象之间的第一关联性预测结果以及预设人体部位对象与人手对象之间的第二关联性预测结果。

其中，上述第一预设网络包括人脸-人手关联性检测模型；上述第二预设网络包括人脸-预设人体部位关联性检测模型以及预设人体部位-人手关联性检测模型。上述目标对象检测网络、上述人脸-人手关联性检测模型、上述人脸-预设人体部位关联性检测模型以及预设人体部位-人手关联性检测模型共用同一骨干网络。

请参见图7，图7为本申请一个实施例的关联对象的检测方法中的神经网络的训练方法的流程图。

如图7所示，该方法包括：

S702，基于第一训练样本集对上述目标对象检测网络进行训练；其中，上述第一训练样本集包含多个包括第一标注信息的训练样本；上述第一标注信息包括人脸对象，人手对象以及预设人体部位对象的位置标注信息。在一些例子中，上述位置标注信息可以包括边界框位置标注信息。

在执行本步骤时，可以采用人工标注或机器辅助标注的方式对原始图像进行真值标注。例如，在桌面游戏场景中，在获取到原始图像后，可以使用图像标注工具对原始图像中包括的人脸对象边界框，人手对象边界框以及预设人体部位对象边界框分别对应的位置标注信息进行标注，以得到若干训练样本。需要说明的是，在对训练样本进行编码时，可以采用one-hot编码(独热编码)等方式进行编码，本申请不对编码的具体方式进行限定。

之后，可以基于预设的损失函数对目标对象检测网络进行训练，直至该网络收敛。

然后可以执行S704，基于第二训练样本集对上述目标对象检测网络、上述人脸-人手关联性检测模型、上述人脸-预设人体部位关联性检测模型以及上述预设人体部位-人手关联性检测模型进行联合训练；其中，上述第二训练样本集包含多个包括第二标注信息的训练样本；上述第二标注信息包括人脸对象，人手对象以及预设人体部位对象的位置标注信息，以及人脸对象、预设身体部位对象和人手对象三者的关联性标注信息。

在执行本步骤时，可以采用人工标注或机器辅助标注的方式对原始图像进行真值标注。例如，在获取原始图像后，一方面，可以使用图像标注工具对原始图像中包括的人脸对象边界框，人手对象边界框以及预设人体部位对象(例如手肘)边界框分别对应的位置标注信息进行标注。另一方面，可以利用标注工具对原始图像中包括的人脸对象与预设人体部位对象进行随意组合，对原始图像中包括的人脸对象与人手对象进行随意组合以及对原始图像中包括的预设人体部位对象与人手对象进行随意组合，得到多个组合结果。然后再针对各组合内的两个部位进行关联性结果标注。在一些例子中，如果组合内的两个部位具有关联性(属于同一人员)，则标注1，否则标注0。

在确定第二训练样本集后，可以基于各模型各自对应的损失函数确定联合学习损失函数。

在一些例子中，可以将各模型各自对应的损失函数相加得到上述联合学习损失函数。

需要说明的是，在本申请中还可以为上述联合学习损失函数增加正则化项等超参数。在此不对添加的超参数的种类进行特别限定。

之后，可以基于上述联合学习损失函数以及上述第二训练样本集对上述各模型进行联合训练，直至各模型收敛。

由于上述模型训练中采用了有监督式的联合训练方法，因此，可以对各模型进行同时训练，使得各模型之间在训练过程中可以既可以相互约束，又可以相互促进，从而一方面提高两个模型的收敛效率；另一方面促进各模型共用的骨干网络可以提取到对关联性预测更有益的特征，从而提升关联性预测精确性。

与上述任一实施例相对应的，本申请还提出一种图像中关联对象的检测装置80。

请参见图8，图8为本申请示出的一种图像中关联对象的检测装置的结构示意图。

如图8所示，上述装置80包括：检测模块81，用于检测目标图像中的人脸对象，人手对象以及预设人体部位对象，其中，上述预设人体部位对象表征人脸与人手之间的预设连接部位；第一关联性预测模块82，用于对检测出的人脸对象与预设人体部位对象，以及预设人体部位对象与人手对象分别进行关联性预测，得到人脸对象与预设人体部位对象的第一关联性预测结果，以及预设人体部位对象与人手对象的第二关联性预测结果；确定模块84，用于根据上述第一关联性预测结果以及上述第二关联性预测结果，确定上述目标图像中的关联对象。

在示出的一些实施例中，上述装置80还包括：第二关联性预测模块83，用于对检测出的人脸对象以及人手对象进行关联性预测，得到第三关联性预测结果；上述确定模块84包括：调整子模块，用于根据上述第一关联性预测结果以及上述第二关联性预测结果，对上述第三关联性预测结果进行调整；确定子模块，用于基于调整后的第三关联性预测结果，确定上述目标图像中的关联对象。

在示出的一些实施例中，上述目标图像包括多个人脸对象和多个人手对象；上述第二关联性预测模块83具体用于：将检测出的各人脸对象，分别与各人手对象进行组合，得到多个第一组合；根据各第一组合内的人脸对象和人手对象的视觉特征以及位置特征，对各第一组合内的人脸对象与人手对象进行关联性预测，得到各上述第一组合内的人脸对象与人手对象之间的第三关联性预测结果。

在示出的一些实施例中，上述目标图像还包括多个预设人体部位对象；上述第一关联性预测模块82具体用于：将检测出的各人脸对象，分别与各预设人体部位对象进行组合，得到多个第二组合；根据各第二组合内的人脸对象与预设人体部位对象的视觉特征以及位置特征，对各第二组合内的人脸对象与预设人体部位对象进行关联性预测，得到各第二组合内的人脸对象与预设人体部位对象之间的第一关联性预测结果；将检测出的各预设人体部位对象，分别与各人手对象进行组合，得到多个第三组合；根据各第三组合内的预设人体部位对象与人手对象的视觉特征以及位置特征，对各第三组合内的预设人体部位对象与人手对象进行关联性预测，得到各第三组合内的预设人体部位对象与人手对象之间的第二关联性预测结果。

在示出的一些实施例中，上述关联性预测结果包括关联性预测分数；上述确定子模块具体用于：依次将检测出的各预设人体部位对象作为目标人体部位对象，并执行以下操作；确定与上述目标人体部位对象之间的第一关联性预测分数最高的目标人脸对象；确定与上述目标人体部位对象之间的第二关联性预测分数最高的目标人手对象；基于上述目标人脸对象与上述目标人体部位对象之间的第一关联性预测分数，以及上述目标人体部位对象与上述目标人手对象之间的第二关联性预测分数，对上述目标人脸对象与上述目标人手对象之间的第三关联性预测分数进行调整。

在示出的一些实施例中，上述确定子模块具体用于：确定与上述目标人体部位对象之间的第一关联性预测分数大于预设阈值的候选人脸对象；从候选人脸对象中确定与上述目标人体部位对象之间的第一关联性预测分数最高的作为目标人脸对象；和/或，上述确定与上述目标人体部位对象之间的第二关联性预测分数最高的目标人手对象，包括：确定与上述目标人体部位对象之间的第二关联性预测分数大于预设阈值的候选人手对象；从候选人手对象中确定与上述目标人体部位对象之间的第二关联性预测分数最高的作为目标人手对象。

在示出的一些实施例中，上述确定子模块具体用于：确定上述目标人脸对象与上述目标人体部位对象之间的第一关联性预测分数、以及上述目标人体部位对象与上述目标人手对象之间的第二关联性预测分数的均值；对上述目标人脸对象与上述目标人手对象之间的第三关联性预测分数与上述均值进行求和，得到调整后的第三关联性预测分数。

在示出的一些实施例中，上述确定子模块具体用于：按照第三关联性预测分数由高到低的排序，依次将各关联性预测分数对应的人脸对象与人手对象的组合确定为当前组合，并执行：基于上述目标图像中的已确定的关联对象，确定与当前组合内的人脸对象互为关联对象的人手对象的数量是否达到第一预设阈值，以及确定与当前组合内的人手对象互为关联对象的人脸对象的数量是否达到第二预设阈值；在与当前组合内的人脸对象互为关联对象的人手对象的数量未达到上述第一预设阈值，且与当前组合内的人手对象互为关联对象的人脸对象的数量未达到上述第二预设阈值的情况下，将当前组合内的人脸对象与人手对象确定为上述目标图像中的关联对象。

在示出的一些实施例中，上述确定模块84具体用于：根据上述第一关联性预测结果和上述第二关联性预测结果，确定与同一预设人体部位对象之间的关联性满足预设条件的人脸对象和人手对象为上述目标图像中的关联对象。

在示出的一些实施例中，上述装置80还包括：输出模块，输出上述目标图像中的关联对象的检测结果。

在示出的一些实施例中，上述预设人体部位对象包括肩膀对象、手肘对象、手腕对象中的至少之一。

在示出的一些实施例中，上述目标图像中的人脸对象，人手对象以及预设人体部位对象通过目标对象检测网络对上述目标图像进行检测得出；上述第三关联性预测结果通过第一预设网络检测得出；上述第一关联性预测结果和上述第二关联性预测结果通过第二预设网络检测得出；其中，上述第一预设网络包括人脸-人手关联性检测模型；上述第二预设网络包括人脸-预设人体部位关联性检测模型以及预设人体部位-人手关联性检测模型；上述目标对象检测网络、上述人脸-人手关联性检测模型、上述人脸-预设人体部位关联性检测模型以及上述预设人体部位-人手关联性检测模型按照如下方式训练得到：基于第一训练样本集对上述目标对象检测网络进行训练；其中，上述第一训练样本集包含多个包括第一标注信息的训练样本；上述第一标注信息包括人脸对象，人手对象以及预设人体部位对象的位置标注信息；基于第二训练样本集对上述目标对象检测网络、上述人脸-人手关联性检测模型、上述人脸-预设人体部位关联性检测模型以及上述预设人体部位-人手关联性检测模型进行联合训练；其中，上述第二训练样本集包含多个包括第二标注信息的训练样本；上述第二标注信息包括人脸对象，人手对象以及预设人体部位对象的位置标注信息，以及人脸对象、预设身体部位对象和人手对象三者的关联性标注信息。

本申请示出的图像中关联对象的检测装置的实施例可以应用于电子设备上。相应地，本申请公开了一种电子设备，该设备可以包括：处理器。用于存储处理器可执行指令的存储器。其中，上述处理器被配置为调用上述存储器中存储的可执行指令，实现如上述任一实施例示出的图像中关联对象的检测方法。

请参见图9，图9为本申请示出的一种电子设备的硬件结构示意图。

如图9所示，该电子设备可以包括用于执行指令的处理器，用于进行网络连接的网络接口，用于为处理器存储运行数据的内存，以及用于存储图像中关联对象的检测装置对应指令的非易失性存储器。

其中，图像中关联对象的检测装置的实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，除了图9所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的电子设备通常根据该电子设备的实际功能，还可以包括其他硬件，对此不再赘述。

可以理解的是，为了提升处理速度，与图像中关联对象的检测装置对应指令也可以直接存储于内存中，在此不作限定。

本申请提出一种计算机可读存储介质，上述存储介质存储有计算机程序，上述计算机程序用于执行如前述任一实施例示出的图像中关联对象的检测方法。

本领域技术人员应明白，本申请一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本申请一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(可以包括但不限于磁盘存储器、CD-ROM、光学存储器等)。

本申请中的“和/或”表示至少具有两者中的其中一个，例如，“A和/或B”可以包括三种方案：A、B、以及“A和B”。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、可以包括本申请中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本申请中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上述以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上述，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本申请中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。上述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机可以包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件可以包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将可以包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质可以包括所有形式的非易失性存储器、媒介和存储器设备，例如可以包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD-ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本申请包含许多具体实施细节，但是这些不应被解释为限制任何公开的范围或所要求保护的范围，而是主要用于描述特定公开的具体实施例的特征。本申请内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上述仅为本申请一个或多个实施例的较佳实施例而已，并不用以限制本申请一个或多个实施例，凡在本申请一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请一个或多个实施例保护的范围之内。

Claims

1.一种图像中关联对象的检测方法，其特征在于，所述方法包括：

检测目标图像中的人脸对象，人手对象以及预设人体部位对象，其中，所述预设人体部位对象表征人脸与人手之间的预设连接部位；

对检测出的人脸对象与预设人体部位对象，以及预设人体部位对象与人手对象分别进行关联性预测，得到人脸对象与预设人体部位对象的第一关联性预测结果，以及预设人体部位对象与人手对象的第二关联性预测结果；

对检测出的人脸对象以及人手对象进行关联性预测，得到第三关联性预测结果；

根据所述第一关联性预测结果以及所述第二关联性预测结果，确定所述目标图像中的关联对象，包括：

根据所述第一关联性预测结果以及所述第二关联性预测结果，对所述第三关联性预测结果进行调整；

基于调整后的第三关联性预测结果，确定所述目标图像中的关联对象。

2.根据权利要求1所述的方法，其特征在于，

所述目标图像包括多个人脸对象和多个人手对象；

所述对检测出的人脸对象以及人手对象进行关联性预测，得到第三关联性预测结果，包括：

将检测出的各人脸对象，分别与检测出的各人手对象进行组合，得到多个第一组合；

根据各第一组合内的人脸对象和人手对象的视觉特征以及位置特征，对各第一组合内的人脸对象与人手对象进行关联性预测，得到各所述第一组合内的人脸对象与人手对象之间的第三关联性预测结果。

3.根据权利要求2所述的方法，其特征在于，

所述目标图像还包括多个预设人体部位对象；

所述对检测出的人脸对象与预设人体部位对象，以及预设人体部位对象与人手对象分别进行关联性预测，得到人脸对象与预设人体部位对象的第一关联性预测结果，以及预设人体部位对象与人手对象的第二关联性预测结果，包括：

将检测出的各人脸对象，分别与各预设人体部位对象进行组合，得到多个第二组合；

根据各第二组合内的人脸对象与预设人体部位对象的视觉特征以及位置特征，对各第二组合内的人脸对象与预设人体部位对象进行关联性预测，得到各第二组合内的人脸对象与预设人体部位对象之间的第一关联性预测结果；

将检测出的各预设人体部位对象，分别与各人手对象进行组合，得到多个第三组合；

根据各第三组合内的预设人体部位对象与人手对象的视觉特征以及位置特征，对各第三组合内的预设人体部位对象与人手对象进行关联性预测，得到各第三组合内的预设人体部位对象与人手对象之间的第二关联性预测结果。

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一关联性预测结果以及所述第二关联性预测结果，对所述第三关联性预测结果进行调整，包括：

确定与所述预设人体部位对象之间的所述第一关联性预测结果中的第一关联性预测分数最高的目标人脸对象；

确定与所述预设人体部位对象之间的所述第二关联性预测结果中的第二关联性预测分数最高的目标人手对象；

基于所述目标人脸对象与所述预设人体部位对象之间的第一关联性预测分数，以及所述预设人体部位对象与所述目标人手对象之间的第二关联性预测分数，对所述目标人脸对象与所述目标人手对象之间的所述第三关联性预测结果中的第三关联性预测分数进行调整。

5.根据权利要求4所述的方法，其特征在于，

所述确定与所述预设人体部位对象之间的所述第一关联性预测分数最高的目标人脸对象，包括：

确定与所述预设人体部位对象之间的第一关联性预测分数大于预设阈值的候选人脸对象；

从候选人脸对象中确定与所述预设人体部位对象之间的第一关联性预测分数最高的作为目标人脸对象；和/或,

所述确定与所述预设人体部位对象之间的所述第二关联性预测分数最高的目标人手对象，包括：

确定与所述预设人体部位对象之间的第二关联性预测分数大于预设阈值的候选人手对象；

从候选人手对象中确定与所述预设人体部位对象之间的第二关联性预测分数最高的作为目标人手对象。

6.根据权利要求4所述的方法，其特征在于，所述基于所述目标人脸对象与所述预设人体部位对象之间的第一关联性预测分数，以及所述预设人体部位对象与所述目标人手对象之间的第二关联性预测分数，对所述目标人脸对象与所述目标人手对象之间的所述第三关联性预测结果中的第三关联性预测分数进行调整，包括：

确定所述目标人脸对象与所述预设人体部位对象之间的第一关联性预测分数、以及所述预设人体部位对象与所述目标人手对象之间的第二关联性预测分数的均值；

对所述目标人脸对象与所述目标人手对象之间的第三关联性预测分数与所述均值进行求和，得到调整后的第三关联性预测分数。

7.根据权利要求6所述的方法，其特征在于，所述基于调整后的第三关联性预测结果，确定所述目标图像中的关联对象，包括：

按照第三关联性预测分数由高到低的排序，依次将各第三关联性预测分数对应的人脸对象与人手对象的组合确定为当前组合，并执行：

基于所述目标图像中的已确定的关联对象，确定与当前组合内的人脸对象互为关联对象的人手对象的第一数量，以及确定与当前组合内的人手对象互为关联对象的人脸对象的第二数量；

在所述第一数量未达到第一预设阈值，且所述第二数量未达到第二预设阈值的情况下，将当前组合内的人脸对象与人手对象确定为所述目标图像中的关联对象。

8.根据权利要求1所述的方法，其特征在于，所述根据所述第一关联性预测结果以及所述第二关联性预测结果，确定所述目标图像中的关联对象，包括：

根据所述第一关联性预测结果和所述第二关联性预测结果，确定与同一预设人体部位对象之间的关联性满足预设条件的人脸对象和人手对象为所述目标图像中的关联对象。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

输出所述目标图像中的关联对象的检测结果。

10.根据权利要求1所述的方法，其特征在于，所述预设人体部位对象包括肩膀对象、手肘对象、手腕对象中的至少之一。

11.根据权利要求1所述的方法，其特征在于，

所述目标图像中的人脸对象，人手对象以及预设人体部位对象通过目标对象检测网络对所述目标图像进行检测得出；

所述第三关联性预测结果通过第一预设网络检测得出，所述第一预设网络包括人脸-人手关联性检测模型；

所述第一关联性预测结果和所述第二关联性预测结果通过第二预设网络检测得出，所述第二预设网络包括人脸-预设人体部位关联性检测模型以及预设人体部位-人手关联性检测模型；

所述目标对象检测网络、所述人脸-人手关联性检测模型、所述人脸-预设人体部位关联性检测模型以及所述预设人体部位-人手关联性检测模型按照如下方式训练得到：

基于第一训练样本集对所述目标对象检测网络进行训练；其中，所述第一训练样本集包含多个包括第一标注信息的训练样本；所述第一标注信息包括人脸对象，人手对象以及预设人体部位对象的位置标注信息；

基于第二训练样本集对所述目标对象检测网络、所述人脸-人手关联性检测模型、所述人脸-预设人体部位关联性检测模型以及所述预设人体部位-人手关联性检测模型进行联合训练；其中，所述第二训练样本集包含多个包括第二标注信息的训练样本；所述第二标注信息包括人脸对象，人手对象以及预设人体部位对象的位置标注信息，以及人脸对象、预设身体部位对象和人手对象三者的关联性标注信息。

12.一种图像中关联对象的检测装置，其特征在于，所述装置包括：

检测模块，用于检测目标图像中的人脸对象，人手对象以及预设人体部位对象，其中，所述预设人体部位对象表征人脸与人手之间的预设连接部位；

第一关联性预测模块，用于对检测出的人脸对象与预设人体部位对象，预设人体部位对象与人手对象，以及人脸对象与人手对象分别进行关联性预测，得到人脸对象与预设人体部位对象的第一关联性预测结果，预设人体部位对象与人手对象的第二关联性预测结果，以及人脸对象与人手对象的第三关联性预测结果；

确定模块，用于根据所述第一关联性预测结果以及所述第二关联性预测结果，对所述第三关联性预测结果进行调整；以及基于调整后的第三关联性预测结果，确定所述目标图像中的关联对象。

13.一种电子设备，其特征在于，所示设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器中存储的可执行指令，实现如权利要求1至11中任一项所述的图像中关联对象的检测方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行如权利要求1至11中任一项所述的图像中关联对象的检测方法。