CN116137914A

CN116137914A - 一种人脸和人手的关联度检测方法、装置、设备及存储介质

Info

Publication number: CN116137914A
Application number: CN202180002800.5A
Authority: CN
Inventors: 刘春亚; 张学森; 王柏润; 陈景焕
Original assignee: Sensetime International Pte Ltd
Current assignee: Sensetime International Pte Ltd
Priority date: 2021-09-16
Filing date: 2021-09-26
Publication date: 2023-05-19
Also published as: JP7446338B2; KR20230042192A; US20230082671A1; JP2023545221A; US11847810B2

Abstract

提供了一种人脸和人手的关联度检测方法、装置、设备及存储介质，其中，所述方法包括：获取待检测图像；基于对所述待检测图像进行人脸和人手检测的结果，确定所述待检测图像的人脸特征集合和人手特征集合，基于目标人脸的人脸特征和所述人手特征集合，确定所述目标人脸的第一交互特征；基于目标人手的人手特征和所述人脸特征集合，确定所述目标人手的第二交互特征；基于所述第一交互特征和所述第二交互特征，确定所述目标人脸和所述目标人手之间的关联度。

Description

一种人脸和人手的关联度检测方法、装置、设备及存储介质

相关申请的交叉引用

本申请要求在2021年9月16日提交新加坡知识产权局、申请号为10202110217V的新加坡专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及图像处理技术领域，涉及但不限于一种人脸和人手的关联度检测方法、装置、设备及存储介质。

背景技术

基于图像或视频进行对象之间的关系分析是计算机视觉的一个重要应用场景，其中，人体部位之间内的关系分析旨在明确图像中出现的人体部位是否归属于同一人体，尤其在人脸和人手的关联关系分析中，可以基于人手的动作以及人手与人脸之间的关联关系明确执行特定操作的人员的身份。

在人数较多的复杂场景中，存在人与人之间遮挡或手臂之间相互交错的现象。在相关技术中，采用经过训练的神经网络提取人脸区域的视觉特征和人手区域的视觉特征，进而预测图像中人脸和人手的关联度，以判断人脸和人手是否归属同一人体，该方法对人手和人脸的关联度的预测精度有待提升。

发明内容

本申请实施例提供一种人脸和人手的关联度检测技术方案。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种人脸和人手的关联度检测方法，所述方法包括：

获取待检测图像；

基于对所述待检测图像进行人脸和人手检测的结果，确定所述待检测图像的人脸特征集合和人手特征集合，其中，所述人脸特征集合中的每个人脸特征分别对应于所述待检测图像的画面中的一个人脸；所述人手特征集合中的每个人手特征分别对应于所述待检测图像的画面中的一只人手；

基于目标人脸的人脸特征和所述人手特征集合，确定所述目标人脸的第一交互特征；其中，所述目标人脸为所述待检测图像的画面中的任一人脸；

基于目标人手的人手特征和所述人脸特征集合，确定所述目标人手的第二交互特征；其中，所述目标人手为所述待检测图像的画面中的任一人手；

基于所述第一交互特征和所述第二交互特征，确定所述目标人脸和所述目标人手之间的关联度。

在一些实施例中，所述基于对所述待检测图像进行人脸和人手检测的结果，确定所述待检测图像的人脸特征集合和人手特征集合，包括：基于对所述待检测图像进行人脸和人手检测的结果，确定所述待检测图像的画面中的每一人脸的人脸检测框和每一人手的人手检测框；基于所述每一人脸的人脸检测框提取所述每一人脸的特征，得到所述人脸特征集合；基于所述每一人手的人手检测框提取所述每一人手的特征，得到所述人手特征集合。如此，能够提高对待检测图像中的人脸和人手进行目标检测的准确度。

在一些实施例中，所述基于目标人脸的人脸特征和所述人手特征集合，确定所述目标人脸的第一交互特征，包括：基于所述目标人脸和所述画面中的所述每一人手，构建第一无向图，所述第一无向图包括对应于目标人脸的第一节点和与所述每一人手一一对应的第二节点、以及与所述第二节点一一对应的第一边，每一条所述第一边用于连接所述第一节点与一个所述第二节点；确定所述第一无向图中，每一条第一边所连接的所述第二节点对应的人手的人手特征与所述目标人脸的人脸特征之间的第一关联度；基于所述目标人脸的人脸特征、所述画面中的所述每一人手的人手特征和对应的第一关联度，确定所述第一交互特征。如此，通过将待检测图像中的目标人脸周围的多个人手特征均融入到人脸特征中，有利于提高对目标人脸与人手进行关联的准确度。

在一些实施例中，所述确定所述第一无向图中，每一条第一边连接的第二节点对应的人手的人手特征与所述目标人脸的人脸特征之间的第一关联度，包括：基于每一条第一边连接的第二节点对应的人手的人手特征和所述目标人脸的人脸特征，确定所述每一条第一边连接的第二节点对应的人手和所述目标人脸属于同一人体的第一置信度；对所述第一无向图中各条第一边连接的第二节点对应的人手和目标人脸属于同一人体的第一置信度进行归一化，得到所述每一条第一边连接的第二节点对应的人手的人手特征与所述目标人脸的人脸特征之间的所述第一关联度。如此，通过将第一无向图输入图注意力网络中，能够更加准确的预测每一条第一边上人手与目标人脸的关联度。

在一些实施例中，所述基于所述目标人脸的人脸特征、所述画面中的所述每一人手的人手特征和对应的第一关联度，确定所述第一交互特征，包括：基于所述每一人手对应的第一关联度对所述每一人手的人手特征进行调整，得到所述每一人手的已调特征；将所述画面中的各所述人手的已调特征和所述目标人脸的人脸特征进行融合，得到所述第一交互特征。如此，能够优化目标人脸和目标人手之间的关联度的精确度。

在一些实施例中，所述基于目标人手的人手特征和所述人脸特征集合，确定所述目标人手的第二交互特征，包括：基于所述目标人手和所述画面中的每一人脸，构建第二无向图，所述第二无向图包括对应于所述目标人手的第三节点和与所述每一人脸一一对应的第四节点、以及与所述第四节点一一对应的第二边，每一条所述第二边用于连接所述第三节点与一个所述第四节点；确定所述第二无向图中，每一条第二边连接的第四节点对应的人脸的人脸特征和所述目标人手的人手特征之间的第二关联度；基于所述目标人手的人手特征、所述画面中的所述每一人脸的人脸特征和对应的第二关联度，确定所述第二交互特征。如此，对于多个人手中的每一人手，对目标人手的人手特征与图像中的人脸特征以及其他身体部位的特征进行加权融合，使得到的第二交互特征能够有效代表目标人手的周围信息。

在一些实施例中，所述确定所述第二无向图中，每一条第二边连接的第四节点对应的人脸的人脸特征与所述目标人手的人手特征之间的第二关联度，包括：基于每一条第二边连接的第四节点对应的人脸的人脸特征和所述目标人手的人手特征，确定所述每一条第二边连接的第四节点对应的人脸和所述目标人手属于同一人体的第二置信度；对所述第二无向图中各条第二边连接的第四节点对应的人脸和目标人手属于同一人体的第二置信度进行归一化，得到所述每一条第二边连接的第四节点对应的人脸的人脸特征与所述目标人手的人手特征之间的第二关联度。如此，通过将第二无向图输入图注意力网络中，能够更加准确的预测每一条第二边上人脸与目标人手的关联度。

在一些实施例中，所述基于所述目标人手的人手特征、所述画面中的所述每一人脸的人脸特征和对应的第二关联度，确定所述第二交互特征，包括：基于所述每一人脸对应的第二关联度对所述每一人脸的人脸特征进行调整，得到所述每一人脸的已调特征；将所述画面中的各所述人脸的已调特征和所述目标人手的人手特征进行融合，得到所述第二交互特征。如此，能够优化目标人脸和目标人手之间的关联度的精确度。

在一些实施例中，所述基于所述第一交互特征和所述第二交互特征，确定所述目标人脸和所述目标人手之间的关联度，包括：基于所述第一交互特征和所述第二交互特征，确定所述目标人脸和所述目标人手属于同一人体的第三置信度；将所述第三置信度，确定为所述目标人脸和所述目标人手之间的关联度。如此，通过采用串联的两个全连接层预测目标人脸和目标人手是否属于同一人体，能够提高对待检测图像中的目标人脸和目标人手之间的关联结果的预测精度。

在一些实施例中，在所述待检测图像中还包括其他身体部位的情况下，所述方法还包括：基于对所述所述待检测图像进行其他身体部位检测的结果，确定所述待检测图像的其他身体部位的身体特征集合，其中，所述身体特征集合中的每一个身体特征分别对应于所述待检测图像的画面中的一个所述其他身体部位；所述基于目标人脸的人脸特征和所述人手特征集合，确定所述目标人脸的第一交互特征，包括：基于所述目标人脸的人脸特征、所述身体特征集合和所述人手特征集合，确定所述第一交互特征；所述基于目标人手的人手特征和所述人脸特征集合，确定第二交互特征，包括：基于所述目标人手的人手特征、所述身体特征集合和所述人脸特征集合，确定所述第二交互特征。如此，使得第一交互特征和第二交互特征能够更加有效地表示图像中其他身体部位的特征。

本申请实施例提供一种人脸和人手的关联度检测装置，所述装置包括：

第一获取模块，用于获取待检测图像；

第一确定模块，用于基于对所述待检测图像进行人脸和人手检测的结果，确定所述待检测图像的人脸特征集合和人手特征集合，其中，所述人脸特征集合中的每个人脸特征分别对应于所述待检测图像的画面中的一个人脸；所述人手特征集合中的每个人手特征分别对应于所述待检测图像的画面中的一只人手；

第二确定模块，用于基于目标人脸的人脸特征和所述人手特征集合，确定所述目标人脸的第一交互特征；其中，所述目标人脸为所述待检测图像的画面中的任一人脸；

第三确定模块，用于基于目标人手的人手特征和所述人脸特征集合，确定所述目标人手的第二交互特征；其中，所述目标人手为所述待检测图像的画面中的任一人手；

第四确定模块，用于基于所述第一交互特征和所述第二交互特征，确定所述目标人脸和所述目标人手之间的关联度。

本申请实施例提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令被执行后，能够实现上述的人脸和人手的关联度检测方法。

本申请实施例提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时能够实现上述的人脸和人手的关联度检测方法。

本申请实施例提供一种人脸和人手的关联度检测方法、装置、设备及存储介质，对于获取的至少包括人脸和人手的待检测图像，通过首先对待检测图像进行特征提取，得到人脸特征集合和人手特征集合；然后，对于人脸中的任一目标人脸，通过融合图像中的人手的人手特征集合，得到能够表征目标人脸周围的人手特征的第一交互特征；同时，对于人手中的任一目标人手，通过融合图像中的人脸的人脸特征集合，得到能够表征目标人手周围的人脸特征的第二交互特征；最后，通过包含代表周围信息特征的第一交互特征和第二交互特征，能够更加准确地预测出目标人脸和目标人手的关联度。

附图说明

图1为本申请实施例提供的人脸和人手的关联度检测方法的实现流程示意图；

图2为本申请实施例提供的人脸和人手的关联度检测方法的另一实现流程示意；

图3为本申请实施例人脸和人手关联的网络模型的训练框架示意图；

图4为本申请实施例提供的图注意力网络的实现框架示意图；

图5为本申请实施例人脸和人手的关联度检测装置的结构组成示意图；

图6为本申请实施例计算机设备的组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对发明的具体技术方案做进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)计算机视觉(Computer Vision)是一门研究如何使机器“看”的科学，是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量，并进一步做图像处理。

2)图注意力网络(Graph Attention Networks，GAT)，训练数据是一个图，不是之前的直接用欧式空间随意表征的数据。最简单的输入数据也要包括邻接矩阵和节点特征两部分，且图的节点不仅仅是加权，还有很多特征。图注意力网络作为一种代表性的图卷积网络，引入了注意力机制来实现更好的邻居聚合。通过学习邻居的权重，GAT可以实现对邻居的加权聚合。因此，GAT不仅对于噪音邻居较为鲁棒，注意力机制也赋予了模型一定的可解释性。

3)特征图金字塔网络(Feature Pyramid Networks，FPN)是一种网络，主要解决的是物体检测中的多尺度问题，在不同特征层独立进行预测，通过简单的网络连接改变，在基本不增加原有模型计算量的情况下，大幅度提升了小物体检测的性能。

下面说明本申请实施例提供的人脸和人手的关联度检测的设备的示例性应用，本申请实施例提供的设备可以实施为具有图像采集功能的笔记本电脑，平板电脑，台式计算机，相机，移动设备(例如，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。下面，将说明设备实施为终端或服务器时示例性应用。

该方法可以应用于计算机设备，该方法所实现的功能可以通过计算机设备中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中，可见，该计算机设备至少包括处理器和存储介质。

本申请实施例提供一种人脸和人手的关联度检测方法，如图1所示，结合如图1所示步骤进行说明：

步骤S101，获取待检测图像。

在一些实施例中，待检测图像可以是彩色图像，也可以是灰度图像。人脸和人手可以位于待检测图像的前景区域、中景区域和背景区域中。该待检测图像的画面中包括至少一个人类和至少一只人手，其中，待检测图像中的人脸指代能够在待检测图像中呈现全部或部分人脸信息的画面；相应地，待检测图像中的人手可以指代呈现在待检测图像中左手信息、右手信息以及左右手信息等。该待检测图像可以是在任意场景下采集到的图像，比如，在包括多个玩家和玩家手部的游戏场所中采集到的图像，其中，人脸为玩家人脸，人手为玩家手部。待检测图像中的人脸至少为一个，人手至少为两个。

在一些实施例中，至少一个人脸在待检测图像中呈现的状态可以是：完整的一张脸、半张人脸、清晰或不清晰的人脸等；相应地，人手在待检测图像中呈现的姿态可以是：打开或闭合，还可以是部分闭合等。

在一些实施例中，待检测图像的画面内容包括但不限于人脸和人手，比如，待检测图像中还可以包括其他身体部位(比如，手腕、手肘、腰部和脖子等)待检测图像可以是画面内容中人脸和人手可以处于任一场景，比如：教室、公园、办公室或游戏场所等；同时，待检测图像中的画面内容包括人脸的数量和人手可以是一个，两个及以上；相应地，待检测图像的画面内容中的人脸和人手的相对位置关系可以是：左右、前后、上下等。

步骤S102，基于对所述待检测图像进行人脸和人手检测的结果，确定所述待检测图像的人脸特征集合和人手特征集合。

在一些实施例中，通过对所述待检测图像进行人脸检测和人手检测，得到对待检测图像进行人脸和人手检测的结果，并采用人体检测框标记检测到的人脸，采用人手检测框标记检测到的所述人手。其中，人脸特征集合中的每个人脸特征分别对应于待检测图像的画面中的一个人脸；人手特征集合中的每个人手特征分别对应于待检测图像的画面中的一只人手。在一些可能的实现方式中，首先，采用检测模型预测待检测图像中每一人脸的人脸检测框和人手的人手检测框；然后，通过在每一人脸检测框和每一人手检测框中进行特征提取，得到人脸特征集合和人手特征集合。如果待检测图像中还包括除人脸和人手外的其他身体部位，采用检测模型预测该其他身体部位的身体检测框，得到身体特征集合。

在一些可能的实现方式中，首先，采用主干网络提取待检测图像的图像信息，生成特征图，其中主干网络可以包括用于对图像进行卷积处理的卷积模块；其次，将特征图输入特征金字塔网络，得到不同分辨率的图像特征；再次，将不同分辨率的图像特征输入到区域生成网络，确定待检测图像中的区域候选；最后，将区域候选输入具有卷积神经网络特征的区域网络(Regions with CNN，RCNN)，得到每一个区域候选中的人脸的人脸检测框和人手的人手检测框，在检测框中对人脸和人手进行特征提取，得到人脸特征集合和人手特征集合。上述主干网络、特征金字塔网络、区域网络可以是经过训练的神经网络。

步骤S103，基于目标人脸的人脸特征和所述人手特征集合，确定所述目标人脸的第一交互特征。

在一些实施例中，目标人脸为待检测图像的画面中的任一人脸。将目标人脸的特征和待检测图像中包括的每一人手的人手特征通过拼接或叠加等方式进行融合，得到第一交互特征。如果待检测图像中还包括其他身体部位，那么将该其他身体部位的特征和每一人手的人手特征均融合到目标人脸的人脸特征中，得到第一交互特征；从而使得第一交互特征能够有效表达该目标人脸周围的身体信息。

在一些可能的实现方式中，通过以目标人脸为中心节点，将表示目标人脸的中心节点与表示每一人手的节点相连接，构建无向图；将构建的无向图作为图注意力网络的输入，图注意力网络对于无向图中的每一条边均确定各个人手与目标人脸之间的关联度；从而通过该关联度将待检测图像中全部的人手与该目标人脸进行融合，得到第一交互特征。

步骤S104，基于目标人手的人手特征和所述人脸特征集合，确定所述目标人手的第二交互特征。

在一些实施例中，目标人手为所述待检测图像的画面中的任一人手。将目标人手的特征和待检测图像中包括的每一人脸的人脸特征进行融合，得到第二交互特征；如果待检测图像中还包括其他身体部位，那么将该其他身体部位的特征和每一人脸的人脸特征均融合到目标人手的人手特征中，得到第二交互特征，从而使得第二交互特征能够有效表达该目标人脸周围的人脸特征以及身份信息。

在一些可能的实现方式中，通过以目标人手为中心节点，将表示目标人手的中心节点与表示每一人脸的节点相连接，形成无向图；将构建的无向图作为图注意力网络的输入，图注意力网络对于无向图中的每一条边均确定各个人脸与目标人手之间的关联度；从而通过该关联度将待检测图像中全部的人脸与该目标人手进行融合，得到第二交互特征。

步骤S105，基于所述第一交互特征和所述第二交互特征，确定所述目标人脸和所述目标人手之间的关联度。

在一些实施例中，通过将图注意力网络输出的第一交互特征，以及另一图注意力网络输出的第二交互特征，输入双头网络(Pair Head)对第一交互特征和第二交互特征是否属于同一人体进行预测，得到表示目标人脸和目标人手是否属于同一人体的关联度。其中双头网络(Pair Head)可以是用于分类的神经网络，其可以预先训练。

在一些可能的实现方式中，通过采用两层全连接层实现双头网络，即将两层全连接网络进行串联，通过对输入的第一交互特征和第二交互特征进行连续两次的全连接层处理，，之后通过激活函数预测一交互特征和第二交互特征的关联结果。

在本申请实施例中，对于获取的待检测图像，首先通过对待检测图像人脸和人手检测，确定人脸特征集合和人手特征集合；然后，对于人脸中的任一目标人脸，通过融合图像中的人手的人手特征集合，得到能够表征目标人脸周围的人手特征的第一交互特征；同时，对于人手中的任一目标人手，通过融合图像中的人脸的人脸特征集合，得到能够表征目标人手周围的人脸特征的第二交互特征；最后，通过有效代表人体周围信息特征第一交互特征和第二交互特征，能够更加准确地预测出目标人脸和目标人手的关联度。

在一些实施例中，为提高对待检测图像中的人脸和人手进行特征提取的准确度，通过采用RCNN网络预测待检测图像中的人脸和人手的检测框，进而得到人脸特征和人手特征，即上述步骤S102可以通过以下步骤实现：

步骤S121，基于对所述待检测图像进行人脸和人手检测的结果，确定所述待检测图像的画面中的每一人脸的人脸检测框和每一人手的人手检测框。

在一些实施例中，首先采用主干网络提取待检测图像的图像特征，生成图像特征图；然后，将图像特征图输入特征金字塔网络，从而能够得到分辨率不同的多个图像特征的图像特征；最后，将不同分辨率的多个图像特征输入RCNN网络中，进行人脸和人手检测，以检测出中每一人脸的人脸检测框和每一人手的人手检测框。

步骤S122，基于所述每一人脸的人脸检测框提取所述每一人脸的特征，得到所述人脸特征集合。

在一些实施例中，对人脸检测框所标记的图像区域进行特征提取，得到人脸特征；这样，对每一人脸的人脸检测框所在的图像区域进行特征提取，得到人脸特征集合。

步骤S123，基于所述每一人手的人手检测框提取所述每一人手的特征，得到所述人手特征集合。

在一些实施例中，对人手检测框所标记的图像区域进行特征提取，得到人手特征；这样，对每一人手的人手检测框所在的图像区域进行特征提取，得到人手特征集合。如此，通过将特征金字塔网络输出的不同分别率的图像特征作为RCNN的输入，以预测待检测图像中的人脸和人手的检测框，进而能够提高对待检测图像中的人脸和人手进行目标检测的准确度。

在一些实施例中，通过按照RCNN检测出的人脸检测框和人手检测框，构建第一无向图，从而使用图注意力网络能够为目标人脸的人脸特征融合图像中更多的其他身份部位的特征。即，上述步骤S103可以通过图2所示的步骤实现，图2为本申请实施例提供的人脸和人手的关联度检测方法的另一实现流程示意，结合图1和2进行以下说明：

步骤S201，基于所述目标人脸和所述画面中的所述每一人手，构建第一无向图。

在一些实施例中，第一无向图包括对应于目标人脸的第一节点和与所述每一人手一一对应的第二节点、以及与所述第二节点一一对应的第一边，每一条所述第一边用于连接所述第一节点与一个所述第二节点。以所述目标人脸的人脸检测框为中心即第一节点，以每一人手的人手检测框为第二节点，将第一节点分别连接每一人手的第二节点，形成多条第一边，得到所述第一无向图。在一些可能的实现方式中，将目标人脸和每一人手均作为一个节点，即待检测图像中包括几只人手，将设定人手的几个第二节点；如果待检测图像中还包括其他身体部位，那么将该身份其他部位也作为一个节点；这样，以目标人脸的第一节点为中心，分别连接每一人手的第二节点，以及其他身体部位的节点，创建第一无向图；如此，第一无向图中每一条第一边的两端中一端为目标人脸的第一节点，另一端为一人手的第一节点或其他身体部位的节点；这样在创建的第一无向图中能够为目标人脸更加充分地考虑到待检测图像中的人手特征和各个身体部位的特征。

步骤S202，确定所述第一无向图中，每一条第一边所连接的所述第二节点对应的人手的人手特征与所述目标人脸的人脸特征之间的第一关联度。

在一些实施例中，将第一无向图输入已训练好的图注意力网络中，对于第一无向图中的每一条第一边，通过图注意力网络的全连接层和激活函数，预测这一条第一边上两端的目标人脸和人手属于同一人体的置信度，通过图注意力网络中的归一化函数对置信度进行归一化，得到第一关联度。

在一些可能的实现方式中，利用图注意力网络，预测第一无向图中任一条第一边上两个节点之间的关联度，即上述步骤S202可以通过以下步骤S221和222(图示未示出)实现：

步骤S221，基于每一条第一边连接的第二节点对应的人手的人手特征和所述目标人脸的人脸特征，确定所述每一条第一边连接的第二节点对应的人手和所述目标人脸属于同一人体的第一置信度。

在一些实施例中，对于每一条第一边，将边两端的人手特征和目标人脸的人脸特征输入到图注意力网络的全连接层和预设激活函数中进行处理，从而确定这一条第一边上人手和目标人脸属于同一人体的第一置信度。在一些可能的实现方式中，预设激活函数可以是leaky激活函数；将全连接层输出的特征，输入leaky激活函数中。首先，采用全连接层对每一条第一边连接的第二节点对应的人手的人手特征和目标人脸的人脸特征进行特征变换，例如，将多维的人脸特征和人手特征转换为一维特征；然后，将转换后的人脸特征和人手特征输入到leaky激活函数中，预测第二节点对应的人手和所述目标人脸属于同一人体的第一置信度。比如，采用全连接层和该预设激活函数对人手特征和目标人脸的人脸特征是否属于同一个人体进行分类，从而得到人手特征和所述目标人脸的人脸特征属于同一个人体的置信度。比如，以人脸特征和人手特征的维度均为3136为例，对于每一条第一边来说，输入是人脸特征和人手特征，即输入的特征维度为2*3136；通过采用全连接层对2*3136的人脸特征和人手特征进行卷积运算，输出维度为1*3136的特征；将该1*3136的特征输入预设激活函数中，预测出该第一边上人手和目标人脸属于同一人体的第一置信度。

步骤S222，对所述第一无向图中各条第一边连接的第二节点对应的人手和目标人脸属于同一人体的第一置信度进行归一化，得到所述每一条第一边连接的第二节点对应的人手的人手特征与所述目标人脸的人脸特征之间的所述第一关联度。

在一些可能的实现方式中，可以采用归一化激活函数(例如softmax)将第一置信度映射到(0，1)之间，从而实现对第一置信度的归一化，得到每一条第一边的第一关联度。比如，待检测图像中有5只人手，6个其他身体部位，那么创建的第一无向图中以表示目标人脸的第一节点为中心，分别连接5只人手的第二节点以及6个其他身体部位的节点，得到11条第一边；即这11条第一边分别连接5只人手对应的第二节点，6个其他身体部位对应的节点，对于这11条边中的每一条第一边均确定出第一关联度。

步骤S203，基于所述目标人脸的人脸特征、所述画面中的所述每一人手的人手特征和对应的第一关联度，确定所述第一交互特征。

在一些实施例中，在每一条第一边上，首先，将这一条第一边对应的第一关联度与端点对应节点的人手特征(或其他身体部位)相乘；然后，将多条第一边的相乘结果进行逐元素求和；最后，将求和的结果与人脸特征再进行求和，将求和后的平均值作为第一交互特征，这样第一交互特征中便能够有效表征图像中目标人脸周围的信息(比如，目标人脸周围的人手或者其他身体部位)。如此，通过将待检测图像中的目标人脸周围的多个人手特征均融入到人脸特征中，使得第一交互特征能够表示图像中目标人脸周围的图像信息，进而有利于提高对目标人脸与人手进行关联的准确度。

在一些可能的实现方式中，通过将第一无向图中每一人手的人手特征与目标人脸的人脸特征进行融合，得到第一交互特征。即，上述步骤S203可以通过以下步骤S231和232(图示未示出)实现：

步骤S231，基于所述每一人手对应的第一关联度对所述每一人手的人手特征进行调整，得到所述每一人手的已调特征。

这里，将这一条第一边的第一关联度与端点的人手特征(或其他身体部位)进行逐元素相乘，得到该人手的已调特征。这样，对于第一无向图中的每一条第一边均能够得到该第一边上的人手的已调特征；如在待检测图像中还包括其他身体部位的情况下，还能够得到第一无向图中某一条边上连接的其他身体部位的已调特征。

步骤S232，将所述画面中的各所述人手的已调特征和所述目标人脸的人脸特征进行融合，得到所述第一交互特征。

这里，在待检测图像中还包括人脸和人手外的其他身体部位的情况下，画面中的各人手的已调特征、其他身体部位的已调特征融入目标人脸的人脸特征，得到第一交互特征。比如，首先，分别将画面中的各人手的已调特征进行逐元素求和，将其他身体部位的已调特征进行逐元素求和；然后，将两个求和结果与目标人脸的人脸特征进行逐元素求和，并求平均值得到第一交互特征。如此，利用图注意力网络对人脸和人手的特征进行人体各个部位节点之间的加权，使得人脸和人手的特征更有效的表示人体周围的信息，从而优化目标人脸和目标人手之间的关联度的精确度。

在一些实施例中，通过按照RCNN检测出的人脸检测框和人手检测框，构建第二无向图，从而使用图注意力网络能够为目标人手的人手特征融合图像中更多的其他身份部位的特征；即上述步骤S104可以通过以下步骤S141至S143(图示未示出)实现：

步骤S141，基于所述目标人手和所述画面中的每一人脸，构建第二无向图。

在一些可能的实现方式中，以目标人手的人手检测框为中心，连接画面中各人脸的人脸检测框，得到第二无向图。所述第二无向图包括对应于所述目标人手的第三节点和与所述每一人脸一一对应的第四节点、以及与所述第四节点一一对应的第二边，每一条所述第二边用于连接所述第三节点与一个所述第四节点。创建第二无向图的方式与创建第一无向图的方式类似，即如上述步骤S201的类似方式创建第二无向图。比如，通过RCNN对待检测图像中的人手和人脸检测得到的人手检测框和人脸检测框；将图像中的人手和人脸均设定为节点；如果待检测图像中还包括其他身体部位，将该其他身体部位也设置为节点，以表示所述目标人手的人手检测框的第三节点为中心，以每一人脸的人脸检测框为第四节点，将第三节点分别连接各第四节点，形成多条边，即第二边，得到第二无向图。

步骤S142，确定所述第二无向图中，每一条第二边连接的第四节点对应的人脸的人脸特征和所述目标人手的人手特征之间的第二关联度。

在一些实施例中，将第二无向图输入已训练好的图注意力网络中，对于第二无向图中的每一条第二边，通过图注意力网络的全连接层和leaky激活函数，预测该第二边上两端的目标人手和人手属于同一人体的置信度(如果待检测图像中还包括其他身体部位，确定目标人手和其他身体部位属于同一人体的置信度)；通过图注意力网络中的归一化函数对置信度进行归一化，得到每一条第二边上目标人手与人脸或者其他身体部位属于同一人体的第二关联度。

在一些可能的实现方式中，利用图注意力网络，预测第二无向图中任一条第二边上两个节点之间的关联度，即上述步骤S142可以通过以下步骤实现：

第一步，基于每一条第二边连接的第四节点对应的人脸的人脸特征和所述目标人手的人手特征，确定所述每一条第二边连接的第四节点对应的人脸和所述目标人手属于同一人体的第二置信度。

在一些可能的实现方式中，对于每一条第二边，将第二边两端的节点对应的人脸特征和目标人手的人手特征输入到图注意力网络的全连接层和预设激活函数中进行处理，从而确定这一条第一边上人手人手和人脸属于同一人体的第二置信度。在一些可能的实现方式中，首先，采用全连接层对每一条第二边连接的第四节点对应的人脸的人脸特征与目标人手的人手特征进行特征变换；然后，将转换后的人脸特征和人手特征输入到leaky激活函数中，预测第四节点对应的人脸和目标人手属于同一人体的第二置信度。

第二步，对所述第二无向图中各条第二边连接的第四节点对应的人脸和目标人手属于同一人体的第二置信度进行归一化，得到所述每一条第二边连接的第四节点对应的人脸的人脸特征与所述目标人手的人手特征之间的第二关联度。

在一些可能的实现方式中，可以采用归一化激活函数(例如softmax)将第二置信度映射到(0，1)之间，从而实现对第二置信度的归一化，得到每一条第二边的第二关联度。比如，待检测图像中有2个人脸，4个其他身体部位，那么创建的第二无向图中以表示目标人手的第三节点为中心，分别与2个人脸的第四节点，以及其他身体部位的4个节点进行连接，得到6条第二边，对于这6条第二边中的每一条第二边均确定出第二关联度。

步骤S143，基于所述目标人手的人手特征、所述画面中的所述每一人脸的人脸特征和对应的第二关联度，确定所述第二交互特征。

在一些实施例中，在第二无向图的每一条第二边上，首先，将这一条第二边对应的第二关联度与该第二边端点对应节点的人脸特征(或其他身体部位)进行逐元素相乘；然后，将多条第二边的相乘结果进行逐元素求和；最后，将求和的结果与人手特征再进行求和，将求和后的平均值作为第二交互特征，这样第二交互特征中便能够有效表征图像中目标人手周围的信息(比如，目标人手周围的人脸或者其他身体部位)。如此，通过将待检测图像中的目标人手周围的多个人脸特征均融入到人手特征中，使得第二交互特征能够表示图像中目标人脸周围的图像信息，进而有利于提高对目标人脸与人手进行关联的准确度。

在一些可能的实现方式中，通过将第二无向图中每一人脸的人脸特征与目标人手的人手特征进行融合，得到第二交互特征，即上述步骤S143可以通过以下步骤实现：

第一步，基于所述每一人脸对应的第二关联度对所述每一人脸的人脸特征进行调整，得到所述每一人脸的已调特征。

在一些可能的实现方式中，将这一条第二边对应的第二关联度与端点的人脸特征(或其他身体部位)进行逐元素相乘，得到该人脸的已调特征。这样，对于第二无向图中的每一条第二边均能够得到该第二边上的人脸的已调特征；在待检测图像中还包括其他身体部位的情况下，还能够得到第二无向图中某一条第二边上连接的其他身体部位的已调特征。

第二步，将所述画面中的各所述人脸的已调特征和所述目标人手的人手特征进行融合，得到所述第二交互特征。

在一些可能的实现方式中，在待检测图像中还包括其他身体部位的情况下，画面中的各人脸的已调特征、其他身体部位的已调特征融入目标人手的人手特征，得到第二交互特征。比如，首先，分别将画面中的各人脸的已调特征进行逐元素求和，将其他身体部位的已调特征进行逐元素求和；然后，将两个求和结果与目标人手的人手特征进行逐元素求和，并求平均值得到第二交互特征。如此，利用图注意力网络对人脸和人手的特征进行人体各个部位节点之间的加权，使得人脸和人手的特征更有效的表示人体周围的信息，从而优化目标人脸和目标人手之间的关联度的精确度。

在本申请实施例中，对于多个人手中的每一人手，通过采用图注意力网络，对目标人手的人手特征与图像中的人脸特征以及其他身体部位的特征进行加权融合，从而使得到的第二交互特征能够有效代表目标人手的周围信息。

在一些实施例中，通过采用由两层全连接层组成的双头网络预测目标人脸和所述目标人手之间的关联度，即上述步骤S105可以通过以下步骤S151和152(图示未示出)实现：

步骤S151，基于所述第一交互特征和所述第二交互特征，确定所述目标人脸和所述目标人手属于同一人体的第三置信度。

在一些实施例中，首先，采用串联的两个全连接层和对应的激活函数，确定所述第一交互特征和所述第二交互特征属于同一人体的第三置信度。将图注意力网络输出的第一交互特征和第二交互特征输入双头网络中；该双头网络由串联的第一全连接层和第二全连接层组成，采用第一全连接层，对所述第一交互特征和所述第二交互特征所属的人体进行降维、连接等操作；将第一全连接层的输出特征作为该层对应的激活函数的输入，采用该激活函数确定第一全连接层的输出特征的第一分类结果；其中，第一分类结果中包括第一交互特征对应的目标人脸属于图像中每一个人体的概率，以及第二交互特征对应的目标人手属于图像中每一个人体的概率；然后，将第一分类结果输入到第二全连接层；采用第二全连接层对第一分类结果进行降维、连接等操作，得到第二全连接层的输出结果；将输出结果输入第二全连接层对应的激活函数中，采用该激活函数将第二全连接层输出的特征转换为对应于各个类别的第三置信度。

步骤S152，将所述第三置信度，确定为所述目标人脸和所述目标人手之间的关联度。

在一些实施例中，将串联的两个全连接层的第二全连接层输出的第一交互特征与第二交互特征属于同一人体的置信度，作为目标人脸和目标人手属于同一人体的置信度，从而确定目标人脸和所述目标人手之间的关联度。

在本申请实施例中，通过采用串联的两个全连接层预测目标人脸和目标人手是否属于同一人体，能够提高对待检测图像中的目标人脸和目标人手之间的关联结果的预测精度。

在一些实施例中，在所述待检测图像中还包括人脸和人手以外的其他身体部位的情况下，第一交互特征和第二交互特征中，均融入其他身体部位的特征，其中，第一交互特征和第二交互特征可以通过以下步骤确定：

第一步，基于对所述所述待检测图像进行其他身体部位检测的结果，确定所述待检测图像的其他身体部位的身体特征集合。

这里，身体特征集合中的每一个身体特征分别对应于所述待检测图像的画面中的一个其他身体部位。在待检测图像中还包括其他身体部位的情况下，采用RCNN对待检测图像中的人手、人脸和其他身体部位进行检测，从而得到人手检测框、人脸检测框和其他身体部位的检测框，进而通过对检测框中的特征进行提取，可得到人手特征集合、人脸特征集合以及身体特征集合。

第二步，基于所述目标人脸的人脸特征、所述身体特征集合和所述人手特征集合，确定所述第一交互特征。

这里，在待检测图像中还包括其他身体部位的情况下，对于每一个人脸，将该人脸作为目标人脸，以目标人脸对应的节点为中心，分别连接每一人手和其他身体部位对应的节点，从而构建第一无向图；通过将这样的第一无向图输入图注意力网络中，将身体特征和每一人手的人手特征均融入目标人脸的人脸特征中，得到第一交互特征。

上述第一步和第二步提供了一种得到目标人脸的第一交互特征的过程，通过将待检测图像中的其他身体部位的特征与人手的人手特征均融合到目标人脸的人脸特征中，使得第一交互特征能够表征待检测图像中目标人脸周围的身体特征。

第三步，基于所述目标人手的人手特征、所述身体特征集合和所述人脸特征集合，确定所述第二交互特征。

这里，在待检测图像中还包括其他身体部位的情况下，对于每一个人手，将该人手作为目标人手，以目标人手对应的节点为中心，分别连接每一人脸和其他身体部位对应的节点，从而构建第二无向图；通过将这样的第二无向图输入图注意力网络中，将身体特征和每一人脸的人脸特征均融入目标人手的人手特征中，得到第二交互特征。

上述第三步和第二步可以是同时进行的，即通过将待检测图像中的其他身体部位的特征与人脸的人脸特征均融合到目标人手的人手特征中，使得第二交互特征能够表征待检测图像中目标人手周围的身体特征；从而有利于提高对目标人脸和目标人手进行关联的准确度。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用，以游戏场所为例，对游戏场所中的玩家的人体和人手进行关联为例，进行说明。

人体和人手关联算法在游戏场所等场景具有较大的应用价值。在游戏场所等复杂场景中，由于视野范围内的人体数量较多，手臂交叉情况往往比较复杂，使用人体-人手关联算法或关键点检测算法难以取得良好的预测结果。

在相关技术中，通过首先，使用Faster RCNN框架获得人手人体的检测框。然后，随机选择一些人手人体对，使用对应的视觉特征拼接。最后，基于对应的人手人体对是否是同一个人来训练分类器。这样，在关联预测网络中使用人脸和人手的区域视觉特征，这种情况下，特征与画面周围的关系不密切，而关联匹配中，往往需要人脸到人手之间的图像信息。

基于此，本申请实施例采用基于图注意力网络特征加权的人脸人手关联，在关联预测中，可以对整个人体建图，每个人体部位代表一个节点；利用图注意力网络对人脸和人手的特征进行节点之间的加权，使得人脸和人手的特征更有效的表示周围人体的信息，从而优化关联的预测精度，可以通过以下过程实现：

第一步，对图像进行人脸人手检测。

基于快速RCNN(Faster-RCNN)检测框架，先进行人脸人手及人体部位检测，得到人脸，人手与人体各部位对应的检测框坐标信息，并提取人体各个部位的区域视觉特征。对图像中的人脸人手是否关联进行预测的网络模型，如图3所示，图3为本申请实施例人脸和人手关联的网络模型的训练框架示意图，从图3可以看出，对该网络模型的训练过程为：

首先，将图像301输入主干网络(backbone)302进行特征提取，得到图像特征。

其次，将图像特征输入到特征金字塔网络303(Feature Pyramid Networks，FPN)中，对图像特征进行处理，得到包括分辨率不同的多个图像特征的图像特征。

在一些可能的实现方式中，首先，采用特征图金字塔网络，对图像以自底向上的进行特征提取；其次，采用自上而下的方式对提取到的高层特征图进行上采样；再次，通过横向连接，将上采样的结果和自底向上生成的相同大小的特征图进行融合；并，将低分辨率的特征图做2倍上采样(或者，采用最近邻上采样)。最后，通过按元素相加，将上采样映射与相应的自底而上映射合并。这个过程是迭代的，直到生成最终的分辨率图，即得到图像特征。

在其他实施例中，还可以是通过获取所述待处理图像在不同分辨率下的多个图像，对这多个图像进行特征提取，得到包括分辨率不同的多个图像特征的图像特征集合。比如，将图像转换为在多个不同分辨率下的图像，该不同分辨率的数量的设定可以是与特征金字塔网络的层数相匹配，即特征金字塔网路如果有4层，那么可以设定5个不同的由大到小的分辨率。在一个具体例子中，可以采用固定的缩放比例对待处理图像进行缩放，从而得到不同分辨率下的多个图像特征。

再次，将特征金字塔网络303输出的不同分辨率下的多个图像特征输入(RegionProposal Network，RPN)区域生成网络304中，得到表征可能存在人手或人脸的区域候选框。

再次，将不同分辨率下的多个图像特征和区域候选框输入到RCNN 305中，进行目标检测，以检测区域候选中是否包括人脸或人手，得到人脸和人手的检测框。

最后，将人脸和人手的检测框输入到图注意力网络306中，即进入第二步。

第二步，利用图注意力网络对特征进行交互计算。

在一些实施例中，首先，对图像中人体各个部位建图，人体部分中需要关联部分的无向图，每个部位作为一个节点；其次，使用全连接层和Leaky激活函数预测每个节点与节点之间的权重；再次，对图中的所有边进行归一化，使用softmax函数进行权重的计算和归一化；最后，针对每个节点，利用权重进行加权，表示当前节点的特征。图注意力网络306的实现过程如图4所示，图4为本申请实施例提供的图注意力网络的实现框架示意图；其中：

首先，将特征维度为3136的人脸特征401输入图注意力网络402中，得到维度为3136的第一交互特征403。第一交互特征403表示一个人脸与其他人手之间的关联度。同时，将特征维度为3136的人手特征411输入图注意力网络412中，得到维度为3136的第二交互特征413。第二交互特征413表示一个人手与其他人脸之间的关联度。

在一些实施例中，图注意力网络402对输入的人脸特征401的处理过程如框404中所示，无向图405表示一个人脸特征与三个人手特征之间的连接；首先，通过将每一条边上连接的人手特征和人脸特征输入全连接层和Leaky激活函数，预测这一条边上的人手特征和人脸特征之间的权重，从而得到三条边的权重分别为S1，S2和S3；然后，对S1，S2和S3进行归一化，对应得到e1，e2和e3；最后，将ei(i＝1，2，3)与对应边上的特征进行逐元素相乘，得到第一交互特征。比如，先是将e1与对应边上连接的人手特征进行逐元素相乘，将e2与对应边上连接的人手特征进行逐元素相乘，e3与对应边上连接的人手特征进行逐元素相乘；然后，将得到的三个相乘结果进行逐元素求和，将求和结果与人脸特征进行求和并除以2，得到第一交互特征，该第一交互特征能够有效表示该人脸特征的周围特征。

然后，将第一交互特征和第二交互特征输入(Pair head)双头网络420，得到表示人脸和人手是否属于同一个人体的关联结果421，即进入第三步。

第三步，将经过图注意力网络模型的特征送入到双头网络420中计算预测，得到关联结果421。

在一个具体例子中，待检测图像为在游戏场所中采集的图像，其中，人脸为玩家人体，人手为玩家人手。通过上述第一步至第三步，首先，通过对待检测图像中的人脸和人手进行检测，确定每一个玩家人脸的人脸特征得到人脸特征集合，以及每一个玩家人手的人手特征得到人手特征集合；其次，基于检测到的人手的检测框和人脸的检测框，分别创建以目标人脸为中心的第一无向图和以目标人手为中心的第二无向图；再次，分别将第一无向图和第二无向图输入图注意力网络中，分别在目标人脸的人脸特征中融入每一人手的人手特征以及其他身体部位的特征，在目标人手的人手特征中融入每一人脸的人脸特征以及其他身体部位的特征。这样，得到的第一交互特征和第二交互特征中均能够有效表示图像中的其他身份部位的信息；最后，将第一交互特征和第二交互特征输入采用双头网络，以预测目标人脸和目标人手是否属于同一个人体；这样，对于复杂的游戏场所中的玩家人手和人脸进行匹配，能够更加有效的监控游戏过程中玩家发游戏币或者支付等过程。

在本申请实施例中，在使用图像的信息特征时，通过增加人脸人手区域特征与周围特征的交互，使得人脸人手特征有效表达周围特征。这样在使用人脸和人手区域视觉特征时，利用图注意力网络对人脸和人手的特征进行人体各个部位节点之间的加权，使得人脸和人手的特征更有效的表示人体周围的信息，从而优化关联的预测精度。

本申请实施例提供一种人脸和人手的关联度检测装置，图5为本申请实施例人脸和人手的关联度检测装置的结构组成示意图，如图5所示，所述人脸和人手的关联度检测装置500包括：

第一获取模块501，用于获取待检测图像；

第一确定模块502，用于基于对所述待检测图像进行人脸和人手检测的结果，确定所述待检测图像的人脸特征集合和人手特征集合，其中，所述人脸特征集合中的每个人脸特征分别对应于所述待检测图像的画面中的一个人脸；所述人手特征集合中的每个人手特征分别对应于所述待检测图像的画面中的一只人手；

第二确定模块503，用于基于目标人脸的人脸特征和所述人手特征集合，确定所述目标人脸的第一交互特征；其中，所述目标人脸为所述待检测图像的画面中的任一人脸；

第三确定模块504，用于基于目标人手的人手特征和所述人脸特征集合，确定所述目标人手的第二交互特征；其中，所述目标人手为所述待检测图像的画面中的任一人手；

第四确定模块505，用于基于所述第一交互特征和所述第二交互特征，确定所述目标人脸和所述目标人手之间的关联度。

在一些实施例中，所述第一确定模块502，包括：

第一确定子模块，用于基于对所述待检测图像进行人脸和人手检测的结果，确定所述待检测图像的画面中的每一人脸的人脸检测框和每一人手的人手检测框；

第一提取子模块，用于基于所述每一人脸的人脸检测框提取所述每一人脸的特征，得到所述人脸特征集合；

第二提取子模块，用于基于所述每一人手的人手检测框提取所述每一人手的特征，得到所述人手特征集合。

在一些实施例中，所述第二确定模块503，包括：

第一构建子模块，用于基于所述目标人脸和所述画面中的所述每一人手，构建第一无向图，所述第一无向图包括对应于目标人脸的第一节点和与所述每一人手一一对应的第二节点、以及与所述第二节点一一对应的第一边，每一条所述第一边用于连接所述第一节点与一个所述第二节点；

第二确定子模块，用于确定所述第一无向图中，每一条第一边所连接的所述第二节点对应的人手的人手特征与所述目标人脸的人脸特征之间的第一关联度；

第三确定子模块，用于基于所述目标人脸的人脸特征、所述画面中的所述每一人手的人手特征和对应的第一关联度，确定所述第一交互特征。

在一些实施例中，所述第二确定子模块，包括：

第一确定单元，用于基于每一条第一边连接的第二节点对应的人手的人手特征和所述目标人脸的人脸特征，确定所述每一条第一边连接的第二节点对应的人手和所述目标人脸属于同一人体的第一置信度；

第一归一化单元，用于对所述第一无向图中各条第一边连接的第二节点对应的人手和目标人脸属于同一人体的第一置信度进行归一化，得到所述每一条第一边连接的第二节点对应的人手的人手特征与所述目标人脸的人脸特征之间的所述第一关联度。

在一些实施例中，所述第三确定子模块，包括：

第一调整单元，用于基于所述每一人手对应的第一关联度对所述每一人手的人手特征进行调整，得到所述每一人手的已调特征；

第一融合单元，用于将所述画面中的各所述人手的已调特征和所述目标人脸的人脸特征进行融合，得到所述第一交互特征。

在一些实施例中，所述第三确定模块504，包括：

第二构建子模块，用于基于所述目标人手和所述画面中的每一人脸，构建第二无向图，所述第二无向图包括对应于所述目标人手的第三节点和与所述每一人脸一一对应的第四节点、以及与所述第四节点一一对应的第二边，每一条所述第二边用于连接所述第三节点与一个所述第四节点；

第四确定子模块，用于确定所述第二无向图中，每一条第二边连接的第四节点对应的人脸的人脸特征和所述目标人手的人手特征之间的第二关联度；

第五确定子模块，用于基于所述目标人手的人手特征、所述画面中的所述每一人脸的人脸特征和对应的第二关联度，确定所述第二交互特征。

在一些实施例中，所述第四确定子模块，包括：

第二确定单元，用于基于每一条第二边连接的第四节点对应的人脸的人脸特征和所述目标人手的人手特征，确定所述每一条第二边连接的第四节点对应的人脸和所述目标人手属于同一人体的第二置信度；

第一归一化单元，用于对所述第二无向图中各条第二边连接的第四节点对应的人脸和目标人手属于同一人体的第二置信度进行归一化，得到所述每一条第二边连接的第四节点对应的人脸的人脸特征与所述目标人手的人手特征之间的第二关联度。

在一些实施例中，所述第五确定子模块，包括：

第二调整单元，用于基于所述每一人脸对应的第二关联度对所述每一人脸的人脸特征进行调整，得到所述每一人脸的已调特征；

第二融合单元，用于将所述画面中的各所述人脸的已调特征和所述目标人手的人手特征进行融合，得到所述第二交互特征。

在一些实施例中，所述第四确定模块505，包括：

第六确定子模块，用于基于所述第一交互特征和所述第二交互特征，确定所述目标人脸和所述目标人手属于同一人体的第三置信度；

第七确定子模块，用于将所述第三置信度，确定为所述目标人脸和所述目标人手之间的关联度。

在一些实施例中，在所述待检测图像中还包括其他身体部位的情况下，所述装置还包括：

第五确定模块，用于基于对所述所述待检测图像进行其他身体部位检测的结果，确定所述待检测图像的其他身体部位的身体特征集合，其中，所述身体特征集合中的每一个身体特征分别对应于所述待检测图像的画面中的一个所述其他身体部位，所述其他身体部位为人脸和人手以外的身体部位；

所述第二确定模块，还用于：基于所述目标人脸的人脸特征、所述身体特征集合和所述人手特征集合，确定所述第一交互特征；

所述第三确定模块，还用于：

基于所述目标人手的人手特征、所述身体特征集合和所述人脸特征集合，确定所述第二交互特征。

需要说明的是，以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的人脸和人手的关联度检测方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是终端、服务器等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、运动硬盘、只读存储器(Read OnlyMemory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

本申请实施例再提供一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，该计算机可执行指令被执行后，能够实现本申请实施例提供的人脸和人手的关联度检测方法。

本申请实施例再提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，所述该计算机可执行指令被处理器执行时实现上述实施例提供的人脸和人手的关联度检测方法。

本申请实施例提供一种计算机设备，图6为本申请实施例计算机设备的组成结构示意图，如图6所示，所述计算机设备600包括：一个处理器601、至少一个通信总线、通信接口602、至少一个外部通信接口和存储器603。其中，通信接口602配置为实现这些组件之间的连接通信。其中，通信接口602可以包括显示屏，外部通信接口可以包括标准的有线接口和无线接口。其中所述处理器601，配置为执行存储器中图像处理程序，以实现上述实施例提供的人脸和人手的关联度检测方法。

以上人脸和人手的关联度检测装置、计算机设备和存储介质实施例的描述，与上述方法实施例的描述是类似的，具有同相应方法实施例相似的技术描述和有益效果，限于篇幅，可案件上述方法实施例的记载，故在此不再赘述。对于本申请人脸和人手的关联度检测装置、计算机设备和存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ReadOnly Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种人脸和人手的关联度检测方法，包括：

获取待检测图像；

2.根据权利要求1所述的方法，其中，所述基于对所述待检测图像进行人脸和人手检测的结果，确定所述待检测图像的人脸特征集合和人手特征集合，包括：

基于对所述待检测图像进行人脸和人手检测的结果，确定所述待检测图像的画面中的每一人脸的人脸检测框和每一人手的人手检测框；

基于所述每一人脸的人脸检测框提取所述每一人脸的特征，得到所述人脸特征集合；

基于所述每一人手的人手检测框提取所述每一人手的特征，得到所述人手特征集合。

3.根据权利要求1或2所述的方法，其中，所述基于目标人脸的人脸特征和所述人手特征集合，确定所述目标人脸的第一交互特征，包括：

基于所述目标人脸和所述画面中的所述每一人手，构建第一无向图，所述第一无向图包括对应于目标人脸的第一节点和与所述每一人手一一对应的第二节点、以及与所述第二节点一一对应的第一边，每一条所述第一边用于连接所述第一节点与一个所述第二节点；

确定所述第一无向图中，每一条第一边所连接的所述第二节点对应的人手的人手特征与所述目标人脸的人脸特征之间的第一关联度；

基于所述目标人脸的人脸特征、所述画面中的所述每一人手的人手特征和对应的第一关联度，确定所述第一交互特征。

4.根据权利要求3所述的方法，其中，所述确定所述第一无向图中，每一条第一边连接的第二节点对应的人手的人手特征与所述目标人脸的人脸特征之间的第一关联度，包括：

基于每一条第一边连接的第二节点对应的人手的人手特征和所述目标人脸的人脸特征，确定所述每一条第一边连接的第二节点对应的人手和所述目标人脸属于同一人体的第一置信度；

对所述第一无向图中各条第一边连接的第二节点对应的人手和目标人脸属于同一人体的第一置信度进行归一化，得到所述每一条第一边连接的第二节点对应的人手的人手特征与所述目标人脸的人脸特征之间的所述第一关联度。

5.根据权利要求3或4所述的方法，其中，所述基于所述目标人脸的人脸特征、所述画面中的所述每一人手的人手特征和对应的第一关联度，确定所述第一交互特征，包括：

基于所述每一人手对应的第一关联度对所述每一人手的人手特征进行调整，得到所述每一人手的已调特征；

将所述画面中的各所述人手的已调特征和所述目标人脸的人脸特征进行融合，得到所述第一交互特征。

6.根据权利要求1所述的方法，其中，所述基于目标人手的人手特征和所述人脸特征集合，确定所述目标人手的第二交互特征，包括：

基于所述目标人手和所述画面中的每一人脸，构建第二无向图，所述第二无向图包括对应于所述目标人手的第三节点和与所述每一人脸一一对应的第四节点、以及与所述第四节点一一对应的第二边，每一条所述第二边用于连接所述第三节点与一个所述第四节点；

确定所述第二无向图中，每一条第二边连接的第四节点对应的人脸的人脸特征和所述目标人手的人手特征之间的第二关联度；

基于所述目标人手的人手特征、所述画面中的所述每一人脸的人脸特征和对应的第二关联度，确定所述第二交互特征。

7.根据权利要求6所述的方法，其中，所述确定所述第二无向图中，每一条第二边连接的第四节点对应的人脸的人脸特征与所述目标人手的人手特征之间的第二关联度，包括：

基于每一条第二边连接的第四节点对应的人脸的人脸特征和所述目标人手的人手特征，确定所述每一条第二边连接的第四节点对应的人脸和所述目标人手属于同一人体的第二置信度；

对所述第二无向图中各条第二边连接的第四节点对应的人脸和目标人手属于同一人体的第二置信度进行归一化，得到所述每一条第二边连接的第四节点对应的人脸的人脸特征与所述目标人手的人手特征之间的第二关联度。

8.根据权利要求6或7所述的方法，其中，所述基于所述目标人手的人手特征、所述画面中的所述每一人脸的人脸特征和对应的第二关联度，确定所述第二交互特征，包括：

基于所述每一人脸对应的第二关联度对所述每一人脸的人脸特征进行调整，得到所述每一人脸的已调特征；

将所述画面中的各所述人脸的已调特征和所述目标人手的人手特征进行融合，得到所述第二交互特征。

9.根据权利要求1至8任一项所述的方法，其中，所述基于所述第一交互特征和所述第二交互特征，确定所述目标人脸和所述目标人手之间的关联度，包括：

基于所述第一交互特征和所述第二交互特征，确定所述目标人脸和所述目标人手属于同一人体的第三置信度；

将所述第三置信度，确定为所述目标人脸和所述目标人手之间的关联度。

10.根据权利要求1至9任一项所述的方法，其中，在所述待检测图像中还包括其他身体部位的情况下，所述方法还包括：

基于对所述所述待检测图像进行其他身体部位检测的结果，确定所述待检测图像的其他身体部位的身体特征集合，其中，所述身体特征集合中的每一个身体特征分别对应于所述待检测图像的画面中的一个所述其他身体部位，所述其他身体部位为人脸和人手以外的身体部位；

所述基于目标人脸的人脸特征和所述人手特征集合，确定所述目标人脸的第一交互特征，包括：

基于所述目标人脸的人脸特征、所述身体特征集合和所述人手特征集合，确定所述第一交互特征；

所述基于目标人手的人手特征和所述人脸特征集合，确定第二交互特征，

包括：

11.一种计算机存储介质，其中，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令被执行以：

获取待检测图像；

12.一种计算机设备，其中，所述计算机设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时配置为：

获取待检测图像；

13.根据权利要求12所述的计算机设备，其中，在基于对所述待检测图像进行人脸和人手检测的结果，确定所述待检测图像的人脸特征集合和人手特征集合时，所述处理器配置为：

14.根据权利要求12或13所述的计算机设备，其中，在基于目标人脸的人脸特征和所述人手特征集合，确定所述目标人脸的第一交互特征时，所述处理器配置为：

15.根据权利要求14所述的计算机设备，其中，在确定所述第一无向图中，每一条第一边连接的第二节点对应的人手的人手特征与所述目标人脸的人脸特征之间的第一关联度时，所述处理器配置为：

16.根据权利要求14或15所述的计算机设备，其中，在基于所述目标人脸的人脸特征、所述画面中的所述每一人手的人手特征和对应的第一关联度，确定所述第一交互特征时，所述处理器配置为：

17.根据权利要求12所述的计算机设备，其中，在基于目标人手的人手特征和所述人脸特征集合，确定所述目标人手的第二交互特征时，所述处理器配置为：

18.根据权利要求17所述的计算机设备，其中，在确定所述第二无向图中，每一条第二边连接的第四节点对应的人脸的人脸特征与所述目标人手的人手特征之间的第二关联度时，所述处理器配置为：

19.根据权利要求17或18所述的计算机设备，其中，在基于所述目标人手的人手特征、所述画面中的所述每一人脸的人脸特征和对应的第二关联度，确定所述第二交互特征时，所述处理器配置为：

20.一种计算机程序，包括可由电子设备执行的计算机指令，其中，所述计算机指令在被所述电子设备中的处理器执行时配置为：

获取待检测图像；