CN110909663A

CN110909663A - 一种人体关键点识别方法、装置及电子设备

Info

Publication number: CN110909663A
Application number: CN201911141033.7A
Authority: CN
Inventors: 刘思阳
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2020-03-24
Anticipated expiration: 2039-11-20
Also published as: CN110909663B

Abstract

本发明实施例提供了一种人体关键点识别方法、装置及电子设备，应用于图像处理技术领域。该人体关键点识别方法包括：获得待识别人体关键点的目标图像；获得所述目标图像的人像蒙版；利用预先训练的神经网络模型，以所述目标图像的人像蒙版作为先验信息，对所述目标图像进行关键点信息识别，得到所述目标图像中每个人体关键点的热度图；其中，所述神经网络模型为利用样本图像和所述样本图像中每个人体关键点的真值热度图，并以所述样本图像的人像蒙版作为先验信息，所训练的模型；基于所述目标图像中每个人体关键点的热度图，确定所述目标图像中每个人体关键点的坐标。通过本方案可以提高人体关键点的识别速率。

Description

一种人体关键点识别方法、装置及电子设备

技术领域

本发明涉及图像处理技术领域，特别是涉及一种人体关键点识别方法、装置及电子设备。

背景技术

人体关键点识别是动作识别、异常行为检测、安防等的实现基础，其主要用于从给定的图像中定位人体的身体关键部位，例如头部、颈部、肩部、手部等部位。

现有技术中，在识别人体关键点时，将待识别人体关键点的目标图像输入至预先训练完成的神经网络模型，得到目标图像中每个人体关键点的热度图heat map；进而，基于每个人体关键点的热度图，计算每个人体关键点的坐标。其中，任一人体关键点的热度图为该人体关键点可能存在的位置的概率分布图。

发明人在实现本发明的过程中发现，现有技术至少存在如下问题：

神经网络模型的处理速率较低，最终导致人体关键点的识别速率较低。

发明内容

本发明实施例的目的在于提供一种人体关键点识别方法、装置及电子设备，以实现提高人体关键点的识别速率的目的。具体技术方案如下：

第一方面，本发明实施例提供了一种人体关键点识别方法，包括：

获得待识别人体关键点的目标图像；

获得所述目标图像的人像蒙版；

利用预先训练的神经网络模型，以所述目标图像的人像蒙版作为先验信息，对所述目标图像进行关键点信息识别，得到所述目标图像中每个人体关键点的热度图；其中，所述神经网络模型为利用样本图像和所述样本图像中每个人体关键点的真值热度图，并以所述样本图像的人像蒙版作为先验信息，所训练的模型；

基于所述目标图像中每个人体关键点的热度图，确定所述目标图像中每个人体关键点的坐标。

可选地，所述神经网络模型的训练过程包括：

获得多个样本图像，以及，每个样本图像的人像蒙版和每个样本图像中每个人体关键点的坐标；

针对每个样本图像，利用该样本图像中每个人体关键点的坐标，生成该样本图像中每个人体关键点的真值热度图；

针对每个样本图像，以该样本图像的人像蒙版作为先验信息，利用该样本图像对训练中的所述神经网络模型进行训练，得到该样本图像中每个人体关键点的预测热度图；

基于每个样本图像中每个人体关键点的真值热度图与预测热度图的差异，计算综合损失值；

基于所述综合损失值，判断训练中的所述神经网络模型是否收敛，如果收敛，结束训练，得到训练完成的所述神经网络模型；否则，调整训练中的所述神经网络模型的网络参数，继续训练所述神经网络模型。

可选地，针对每个样本图像，以该样本图像的人像蒙版作为先验信息，利用该样本图像对训练中的所述神经网络模型进行训练，得到该样本图像中每个人体关键点的预测热度图的步骤，包括：

针对每个样本图像，将该样本图像和该样本图像的人像蒙版进行关于通道维度的矩阵拼接，得到该样本图像对应的第一拼接矩阵；

分别将每个样本图像对应的第一拼接矩阵输入至训练中的所述神经网络模型，以使训练中所述神经网络模型分别对每个样本图像对应的第一拼接矩阵进行特征提取，得到每个样本图像的特征矩阵，对每个样本图像的特征矩阵进行热度图分析处理，得到每个样本图像中每个人体关键点的预测热度图；

所述利用预先训练的神经网络模型，以所述目标图像的人像蒙版作为先验信息，对所述目标图像进行关键点信息识别，得到所述目标图像中每个人体关键点的热度图，包括：

将所述目标图像和所述目标图像的人像蒙版进行关于通道维度的矩阵拼接，得到所述目标图像对应的第一拼接矩阵；

将所述目标图像对应的第一拼接矩阵输入至预先训练的神经网络模型，以使所述神经网络模型对所述目标图像对应的第一拼接矩阵进行特征提取，得到所述目标图像的特征矩阵，对所述目标图像的特征矩阵进行热度图分析处理，得到所述目标图像中每个人体关键点的热度图。

可选地，所述针对每个样本图像，将该样本图像和该样本图像的人像蒙版进行关于通道维度的矩阵拼接，得到该样本图像对应的第一拼接矩阵，包括：

针对每个样本图像，将该样本图像的图像尺寸调整为第一尺寸，得到尺寸调整后的该样本图像，以及将该样本图像的图像尺寸调整为所述第一尺寸，得到该样本图像的第一人像蒙版；；并将尺寸调整后的该样本图像的矩阵和该样本图像的第一人像蒙版的矩阵进行数据拼接，得到该样本图像对应的第一拼接矩阵；

其中，所述第一尺寸为所述神经网络模型的用于特征提取的输入内容的尺寸；

所述将所述目标图像和所述目标图像的人像蒙版进行关于通道维度的矩阵拼接，得到所述目标图像对应的第一拼接矩阵的步骤，包括：

将所述目标图像的图像尺寸调整为所述第一尺寸，得到尺寸调整后的所述目标图像；

将所述目标图像的人像蒙版的图像尺寸调整所述第一尺寸，得到所述目标图像的第一人像蒙版；

将尺寸调整后的所述目标样本图像的矩阵和所述目标图像的第一人像蒙版的矩阵进行数据拼接，得到所述目标图像对应的第一拼接矩阵。

可选地，所述分别将每个样本图像对应的第一拼接矩阵输入至训练中的所述神经网络模型之前，所述训练过程还包括：

针对每个样本图像，将该样本图像的人像蒙版的图像尺寸调整为第二尺寸，得到该样本图像的第二人像蒙版；其中，所述第二尺寸为所述特征矩阵的尺寸；

所述分别将每个样本图像对应的第一拼接矩阵输入至训练中的所述神经网络模型，以使训练中的所述神经网络模型分别对每个样本图像对应的第一拼接矩阵进行特征提取，得到每个样本图像的特征矩阵，对每个样本图像的特征矩阵进行热度图分析处理，得到每个样本图像中每个人体关键点的预测热度图的步骤，包括：

分别将每个样本图像对应的第一拼接矩阵和相应第二人像蒙版输入至训练中的所述神经网络模型，以使训练中的所述神经网络模型分别对每个样本图像对应的第一拼接矩阵进行特征提取，得到每个样本图像的特征矩阵，并将每个样本图像的特征矩阵与相应第二人像蒙版的矩阵进行数据拼接，得到每个样本图像对应的第二拼接矩阵，对每个样本图像对应的第二拼接矩阵进行热度图分析处理，得到每个样本图像中每个人体关键点的预测热度图；

所述将所述目标图像对应的第一拼接矩阵输入至预先训练的神经网络模型之前，所述方法还包括：

将所述目标图像的人像蒙版的图像尺寸调整为所述第二尺寸，得到所述目标图像的第二人像蒙版；

所述将所述目标图像对应的第一拼接矩阵输入至预先训练的神经网络模型，以使所述神经网络模型对所述目标图像对应的第一拼接矩阵进行特征提取，得到所述目标图像的特征矩阵，对所述目标图像的特征矩阵进行热度图分析处理，得到所述目标图像中每个人体关键点的热度图，包括：

将所述目标图像对应的第一拼接矩阵和所述目标图像的第二人像蒙版输入至预先训练的神经网络模型，以使所述神经网络模型对所述目标图像对应的第一拼接矩阵进行特征提取，得到所述目标图像的特征矩阵，并将所述目标图像的特征矩阵与所述目标图像的第二人像蒙版进行数据拼接，得到所述目标图像对应的第二拼接矩阵，对所述目标图像的第二拼接矩阵进行热度图分析处理，得到所述目标图像中每个人体关键点的热度图。

第二方面，本发明实施例提供了一种人体关键点识别装置，包括：

图像获得模块，用于获得待识别人体关键点的目标图像；

人像蒙版获得模块，用于获得所述目标图像的人像蒙版；

数据处理模块，用于利用预先训练的神经网络模型，以所述目标图像的人像蒙版作为先验信息，对所述目标图像进行关键点信息识别，得到所述目标图像中每个人体关键点的热度图；其中，所述神经网络模型为利用样本图像和所述样本图像中每个人体关键点的真值热度图，并以所述样本图像的人像蒙版作为先验信息，所训练的模型；

信息确定模块，用于基于所述目标图像中每个人体关键点的热度图，确定所述目标图像中每个人体关键点的坐标。

可选地，所述神经网络模型通过训练模块所训练；所述训练模块包括：

数据获得子模块，用于获得多个样本图像，以及，每个样本图像的人像蒙版和每个样本图像中每个人体关键点的坐标；

真值生成子模块，用于针对每个样本图像，利用该样本图像中每个人体关键点的坐标，生成该样本图像中每个人体关键点的真值热度图；

训练子模块，用于针对每个样本图像，以该样本图像的人像蒙版作为先验信息，利用该样本图像对训练中的所述神经网络模型进行训练，得到该样本图像中每个人体关键点的预测热度图；

损失值计算子模块，用于基于每个样本图像中每个人体关键点的真值热度图与预测热度图的差异，计算综合损失值；

判断子模块，用于基于所述综合损失值，判断训练中的所述神经网络模型是否收敛，如果收敛，结束训练，得到训练完成的所述神经网络模型；否则，调整训练中的所述神经网络模型的网络参数，继续训练所述神经网络模型。

可选地，所述训练子模块包括：

拼接处理单元，用于针对每个样本图像，将该样本图像和该样本图像的人像蒙版进行关于通道维度的矩阵拼接，得到该样本图像对应的第一拼接矩阵；

训练单元，用于分别将每个样本图像对应的第一拼接矩阵输入至训练中的所述神经网络模型，以使训练中的所述神经网络模型分别对每个样本图像对应的第一拼接矩阵进行特征提取，得到每个样本图像的特征矩阵，对每个样本图像的特征矩阵进行热度图分析处理，得到每个样本图像中每个人体关键点的预测热度图；

所述数据处理模块，包括：

第一处理子模块，用于将所述目标图像和所述目标图像的人像蒙版进行关于通道维度的矩阵拼接，得到所述目标图像对应的第一拼接矩阵；

第二处理子模块，用于将所述目标图像对应的第一拼接矩阵输入至预先训练的神经网络模型，以使所述神经网络模型对所述目标图像对应的第一拼接矩阵进行特征提取，得到所述目标图像的特征矩阵，对所述目标图像的特征矩阵进行热度图分析处理，得到所述目标图像中每个人体关键点的热度图。

可选地，所述拼接处理单元具体用于：

所述第一处理子模块具体用于：将所述目标图像的图像尺寸调整为所述第一尺寸，得到尺寸调整后的所述目标图像；

可选地，所述拼接处理单元还用于在所述训练单元分别将每个样本图像对应的第一拼接矩阵输入至训练中的所述神经网络模型之前，针对每个样本图像，将该样本图像的人像蒙版的图像尺寸调整为第二尺寸，得到该样本图像的第二人像蒙版；其中，所述第二尺寸为所述特征矩阵的尺寸；

所述训练单元具体用于：分别将每个样本图像对应的第一拼接矩阵和相应第二人像蒙版输入至训练中的所述神经网络模型，以使训练中的所述神经网络模型分别对每个样本图像对应的第一拼接矩阵进行特征提取，得到每个样本图像的特征矩阵，并将每个样本图像的特征矩阵与相应第二人像蒙版的矩阵进行数据拼接，得到每个样本图像对应的第二拼接矩阵，对每个样本图像对应的第二拼接矩阵进行热度图分析处理，得到每个样本图像中每个人体关键点的预测热度图；

所述第一处理子模块还用于在所述第二处理子模块将所述目标图像对应的第一拼接矩阵输入至预先训练的神经网络模型之前，将所述目标图像的人像蒙版的图像尺寸调整为所述第二尺寸，得到所述目标图像的第二人像蒙版；

所述第二处理子模块具体用于：

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一人体关键点识别方法的步骤。

第四方面，本发明实施还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一人体关键点识别方法的步骤。

第五方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一人体关键点识别方法的步骤。

本发明实施例所提供方案中，当需要识别目标图像中人体关键点时，利用预先训练的神经网络模型，以目标图像的人像蒙版作为先验信息，对目标图像进行关键点信息识别，得到目标图像中每个人体关键点的热度图；并基于该目标图像中每个人体关键点的热度图，确定该目标图像中每个人体关键点的坐标。由于以目标图像的人像蒙版作为先验信息，因此，神经网络模型可以结合目标图像的人像蒙版对目标图像的人体区域进行定位，而无需对整张目标图像进行数据分析处理，这样使得神经网络模型的处理速率得到提升，最终实现提高人体关键点的识别速率的目的。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的一种人体关键点识别方法的流程图；

图2为本发明实施例所提供的一种神经网络模型的训练过程的流程图；

图3(a)为本发明实施例示例性给出的一种神经网络模型的训练过程的原理图；

图3(b)为本发明实施例示例性给出的一种神经网络模型的训练过程的另一原理图；

图4为本发明实施例所提供的一种人体关键点识别装置的结构示意图；

图5为本发明实施例所提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了实现提高人体关键点的识别速率的目的，本发明实施例提供了一种人体关键点识别方法、装置及电子设备。

下面首先对本发明实施例所提供的一种人体关键点识别方法进行介绍。

其中，本发明实施例所提供的一种人体关键点识别方法的执行主体可以为一种人体关键点识别装置。该人体关键点识别装置可以应用于电子设备中。在具体应用中，该电子设备可以为终端设备或者服务器，这都是合理的。并且，该人体关键点识别装置可以为专门的应用软件或者现有应用软件中的插件。

另外，本发明实施例所涉及的人体关键点用于定位人体的身体关键部位，例如：头部、颈部、肩部、手部、腿部和/或脚部等部位；并且，针对任一身体关键部位，在定位该身体关键部位时，所需要的人体关键点可以为一个或多个。在不同的场景中，由于需要定位的身体关键部位不同，因此，人体关键点的具体位置以及数量可以不同，本发明实施例对此不做限定。

如图1所示，本发明实施例所提供的一种人体关键点识别方法可以包括如下步骤：

S101，获得待识别人体关键点的目标图像；

其中，待识别人体关键的图像可以为视频中的视频帧，也可以为任意的存在人体关键点识别需求的图像，本发明实施例对此不做限定。

并且，该待识别人体关键点的图像的获得方式可以为：人工手动上传的方式，也可以为从视频中或者多张图像中自动抽取的，这都是合理的。

S102，获得该目标图像的人像蒙版；

为了实现提高人体关键点的识别速率的目的，在获得待识别人体关键点的目标图像后，本方案并非直接将目标图像输入至预先训练完成的神经网络模型，而是获得该目标图像的人像蒙版。后续该目标图像的人像蒙版可以作为目标图像的先验信息，连同目标图像一并输入至预先训练完成的神经网络模型。这样，神经网络模型可以结合目标图像的人像蒙版对目标图像的人体区域进行定位，而无需对整张目标图像进行数据分析处理，使得神经网络模型的处理速率得到提升，最终实现提高人体关键点的识别速率的目的。

可以理解的是，上述的该目标图像的人像蒙版为：关于该目标图像的、选区为该目标图像的人像区域的蒙版。示例性的，该目标图像的人像蒙版的生成方式可以包括：对目标图像进行人像分割，得到人像区域，将人像区域内的像素点的像素值设置为第一数值，而人像区域以外的像素点的像素值设为第二数值，从而得到该目标图像的人像蒙版，其中，第一数值可以为1，第二数值可以为0，当然并不局限于此。

在一种实现方式中，该人体关键点识别装置可以对目标图像进行上述的关于人像蒙版的生成处理，从而得到该目标图像的人像蒙版。

当然，在具体应用中，由于该人体关键点识别装置以外的其他智能装置或模块，可能对该目标图像已经执行过人像蒙版的生成处理或人像分割处理，因此，该人体关键点识别装置可以从其他智能装置或模块处获取该目标图像的人像蒙版或人像分割结果。这样，由于无需生成人像蒙版或人像分割结果，因此，可以减少计算量，避免电子设备由于计算量较高而造成的发热、功耗过高等问题。举例而言：同一APP中提供有很多特效工具，例如AI(Artificial Intelligence，人工智能)换背景，AI瘦身，AI长腿等功能工具，在这些工具背后，各种AI算法对其进行支撑，比如人像分割和人体关键点识别；因此，在某一AI模块进行人体关键点识别时，可以从其他AI模块中获取人像蒙版或人像分割结果，这样使得人体关键点识别的计算量减少。

S103，利用预先训练的神经网络模型，以该目标图像的人像蒙版作为先验信息，对该目标图像进行关键点信息识别，得到该目标图像中每个人体关键点的热度图；

其中，该神经网络模型为利用样本图像和该样本图像中每个人体关键点的真值热度图，并以该样本图像的人像蒙版作为先验信息，所训练的模型。可以理解的是，该神经网络模型在训练过程中，可以结合样本图像的人像蒙版对样本图像的人体区域进行定位，而无需对整张样本图像进行数据分析处理，使得神经网络模型的处理速率得到提升。

可以理解的是，神经网络模型的网络结构可以为多种。示例性的，在一种实现方式中，神经网络模型可以包括：用于提取图像特征的特征提取网络和用于基于图像特征生成热度图的热度图提取网络，该热度图提取网络可以通过卷积组实现。其中，图像特征具体可以为特征矩阵，而该热度图提取网络可以为由多个卷积构成的卷积组。并且，特征提取网络可以包括但不局限于如下网络：LeNet、AlexNet、VGG、GoogLeNet、ResNet、MobileNet等特征提取网络。

为了方案清楚及布局清晰，后续对神经网络模型的训练过程进行介绍，以及神经网络模型对目标图像和目标图像的人像蒙版的处理进行介绍。

S104，基于该目标图像中每个人体关键点的热度图，确定该目标图像中每个人体关键点的坐标。

在获得该目标图像中每个人体关键点的热度图后，可以基于预设的识别方式，基于该目标图像中每个人体关键点的热度图，确定该目标图像中每个人体关键点的坐标。

可以理解的是，基于该目标图像中每个人体关键点的热度图，确定该目标图像中每个人体关键点的具体实现方式存在多种。示例性的，在一种实现方式中，基于该目标图像中每个人体关键点的热度图，确定该目标图像中每个人体关键点可以包括如下步骤：

按照预定的第一计算公式，基于该目标图像中每个人体关键点的热度图，确定该目标图像中每个人体关键点的坐标；

其中，该预定的第一计算公式可以包括：

I_x＝h_x×s1；

I_y＝h_y×s2；

其中，I_x和I_y分别为人体关键点I的横坐标和纵坐标，h_x和h_y分别为人体关键点I的热度图中取值最大的像素点的横坐标和纵坐标；s1为x轴方向上该神经网络模型的输出内容相对于用于特征提取的输入内容的缩小系数，s2为y轴方向上该神经网络模型的输出内容相对于用于特征提取的输入内容的缩小系数。需要说明的是，本方案所给出的该神经网络模型的输出内容为热度图，用于特征提取的输入内容为作为特征提取网络的输入的图像。

示例性的，在另一种实现方式中，还可以按照对第一计算公式修正后的公式，基于该目标图像中每个人体关键点的热度图，确定该目标图像中每个人体关键点的坐标。其中，对第一计算公式修正后的公式，具体可以为：I_x＝h_x×s1+R1；I_y＝h_y×s2+R2；其中，R1和R2为预设的修正因子。

为了方案清楚以及布局清晰，下面示例性的介绍神经网络模型的训练过程。

可选地，如图2所示，所述数据生成模型的训练过程可以包括：

S201，获得多个样本图像，以及，每个样本图像的人像蒙版和每个样本图像中每个人体关键点的坐标；

其中，样本图像的尺寸可以为神经网络模型的用于特征提取的输入内容的尺寸，也可以不为神经网络模型的用于特征提取的输入内容的尺寸，这都是合理的。并且，每个样本图像的人像蒙版的尺寸与样本图像的尺寸可以相同。

另外，每个样本图像的人像蒙版的生成方式可以为任一种能够生成人像蒙版的方式，例如：可以通过人工标注人像轮廓的方式，生成样本图像的人像蒙版，当然并不局限于此。而每个样本图像中每个人体关键点的坐标可以通过人工标注方式获得，或者，任一种能够识别关键点的方式所获得，当然并不局限于此。

S202，针对每个样本图像，利用该样本图像中每个人体关键点的坐标，生成该样本图像中每个人体关键点的真值热度图；

其中，针对每个样本图像，利用该样本图像中每个人体关键点的坐标，生成该样本图像中每个人体关键点的真值热度图的具体实现方式存在多种。为了方案清楚及布局清晰，后续示例性的介绍针对每个样本图像，利用该样本图像中每个人体关键点的坐标，生成该样本图像中每个人体关键点的真值热度图的具体实现方式。

S203，针对每个样本图像，以该样本图像的人像蒙版作为先验信息，利用该样本图像对训练中的所述神经网络模型进行训练，得到该样本图像中每个人体关键点的预测热度图；

为了方案清楚及布局清晰，后续对S203的具体实现方式进行介绍。

S204，基于每个样本图像中每个人体关键点的真值热度图与预测热度图的差异，计算综合损失值；

可选地，在一种实现方式中，基于每个样本图像中每个人体关键点的真值热度图与预测热度图的差异，计算综合损失值，可以包括步骤A1-A3：

步骤A1，针对每一样本图像，基于该样本图像中每个人体关键点的真值热度图与预测热度图的差异，得到该样本图像中每个人体关键点的损失值；

步骤A2，针对每个人体关键点，基于该人体关键点的各个损失值，确定该人体关键点的关于热度图的损失值；

由于各个样本图像中人体关键点的数量以及所处位置相同，因此，可以认为每一样本图像的人体关键点为同一组人体关键点。那么，在执行完毕步骤A1后，该组人体关键点中的每一人体关键点会对应多个损失值。进而，可以针对每个人体关键点，利用所对应的多个损失值，计算关于热度图的损失值。

步骤A3，对每个人体关键点的关于热度图的损失值进行加权，得到综合损失值。

其中，计算每个人体关键点的损失值所利用的损失函数可以包括但不局限于：平方损失函数、对数损失函数或指数损失函数，等等。另外，针对每一人体关键点而言，关于热度图的损失值，可以采用求平均方式，求和方式，或者，加权方式，等等，在此不做限定。并且，每个人体关键点的关于热度图的损失值进行加权所利用权重，可以根据实际情况设定，在此不做限定。

S205，基于综合损失值，判断训练中的神经网络模型是否收敛，如果收敛，结束训练，得到训练完成的神经网络模型；否则，调整训练中的所述神经网络模型的网络参数，继续训练该神经网络模型。

其中，基于该综合损失值，判断训练中的该神经网络模型是否收敛具体可以为：判断该综合损失值是否小于预设阈值，如果小于，判定训练中的该神经网络模型收敛，否则，判定训练中的该神经网络模型未收敛。当判定训练中的该神经网络模型未收敛时，可以调整该神经网络模型的网络参数，继续训练该神经网络模型。所谓继续训练该神经网络模型，即返回S203。

为了方案清楚及布局清晰，下面针对每个样本图像，利用该样本图像中每个人体关键点的坐标，生成该样本图像中每个人体关键点的真值热度图的实现方式进行举例介绍。

示例性的，在一种实现方式中，针对每个样本图像，利用该样本图像中每个人体关键点的坐标，生成该样本图像中每个人体关键点的真值热度图，可以包括：

针对每一样本图像，按照预定的真值热度图生成方式，利用该样本图像中每个人体关键点的坐标，生成该样本图像中每个人体关键点的真值热度图；

其中，所述真值热度图生成方式，包括：

针对待生成真值热度图的每一人体关键点，生成一个矩阵M，该矩阵M的尺寸与待生成真值热度图的尺寸相同；

遍历该矩阵M中的每一元素，在遍历到每一元素时，按照预定的第二计算公式，计算该元素的取值参考值，如果该元素的取值参考值大于预定阈值，将该元素在该矩阵M中的取值设置为0，否则，按照预定的第三计算公式，计算该元素的取值，将该元素在该矩阵M中的取值设置为所计算的取值；

在遍历完毕该矩阵M中所有元素后，将当前的该矩阵M，作为该人体关键点的真值热度图；

所述第二计算公式包括：

其中，d_ab为该矩阵M中元素P(b,a)的取值参考值，a为该元素P所在行的序号，b为该元素P所在列的序号，

(x_i′,y_i′)为人体关键点i在所属样本图像中的坐标，round()为用于四舍五入运算的函数；α1为x轴方向上该神经网络模型的输出内容相对于用于特征提取的输入内容的缩小系数，α2为y轴方向上该神经网络模型的输出内容相对于用于特征提取的输入内容的缩小系数；所述人体关键点i为待生成真值热度图的人体关键点；

该第三计算公式包括：

其中，M[a][b]为该元素P的取值。

其中，该矩阵M的尺寸与真值热度图的尺寸相同。并且，该矩阵M中每个点的初始值可以为0，当然并不局限于此，例如：初始值可以为1、10、100等等，这都是合理的。

另外，x轴方向上该神经网络模型的输出内容相对于用于特征提取的输入内容的缩小系数即为：该神经网络模型的用于特征提取的输入内容的横向尺寸/该神经网络模型的输出内容的横向尺寸；而y轴方向上该神经网络模型的输出内容相对于用于特征提取的输入内容的缩小系数即为：该神经网络模型的用于特征提取的输入内容的纵向尺寸/该神经网络模型的输出内容的纵向尺寸。在具体应用中，α1和α2可以取值相同或不同。

为了方案清楚及布局清晰，下面介绍所述针对每个样本图像，以该样本图像的人像蒙版作为先验信息，利用该样本图像对训练中的该神经网络模型进行，得到该样本图像中每个人体关键点的预测热度图的具体实现方式，以及所述利用预先训练的神经网络模型，以所述目标图像的人像蒙版作为先验信息，对所述目标图像进行关键点信息识别，得到所述目标图像中每个人体关键点的热度图的具体实现方式。

示例性的，在一种实现方式中，所述针对每个样本图像，以该样本图像的人像蒙版作为先验信息，利用该样本图像对训练中的该神经网络模型进行训练，得到该样本图像中每个人体关键点的预测热度图的步骤，可以包括步骤B1-B2：

步骤B1，针对每个样本图像，将该样本图像和该样本图像的人像蒙版进行关于通道维度的矩阵拼接，得到该样本图像对应的第一拼接矩阵；

步骤B2，分别将每个样本图像对应的第一拼接矩阵输入至训练中的该神经网络模型，以使训练中的该神经网络模型分别对每个样本图像对应的第一拼接矩阵进行特征提取，得到每个样本图像的特征矩阵，对每个样本图像的特征矩阵进行热度图分析处理，得到每个样本图像中每个人体关键点的预测热度图。

相应的，利用预先训练的神经网络模型，以该目标图像的人像蒙版作为先验信息，对该目标图像进行关键点信息识别，得到该目标图像中每个人体关键点的热度图，可以包括：

将该目标图像和该目标图像的人像蒙版进行关于通道维度的矩阵拼接，得到该目标图像对应的第一拼接矩阵；

将该目标图像对应的第一拼接矩阵输入至预先训练的神经网络模型，以使该神经网络模型对该目标图像对应的第一拼接矩阵进行特征提取，得到该目标图像的特征矩阵，对该目标图像的特征矩阵进行热度图分析处理，得到该目标图像中每个人体关键点的热度图。

可以理解的是，对于样本图像的尺寸与神经网络模型的用于特征提取的输入内容的尺寸相同的情况，针对每个样本图像，可以直接将该样本图像的矩阵和该样本图像的人像蒙版的矩阵进行数据拼接，得到该样本图像对应的第一拼接矩阵。

而对于样本图像的尺寸与神经网络模型的用于特征提取的输入内容的尺寸不同的情况，针对每个样本图像，将该样本图像和该样本图像的人像蒙版进行关于通道维度的矩阵拼接，得到该样本图像对应的第一拼接矩阵，可以包括：

其中，该第一尺寸为所述神经网络模型的用于特征提取的输入内容的尺寸。

相应的，将该目标图像和所述目标图像的人像蒙版进行关于通道维度的矩阵拼接，得到该目标图像对应的第一拼接矩阵的步骤，包括：

将该目标图像的图像尺寸调整为该第一尺寸，得到尺寸调整后的该目标图像；

将该目标图像的人像蒙版的图像尺寸调整该第一尺寸，得到该目标图像的第一人像蒙版；

将尺寸调整后的该目标样本图像的矩阵和该目标图像的第一人像蒙版的矩阵进行数据拼接，得到该目标图像对应的第一拼接矩阵。

其中，可以采用线性插值的方式，将样本图像和样本图像的人像蒙版的图像尺寸调整为第一尺寸，该线型插值的方式可以为双线性插值的方式，当然并不局限于此。类似的，可以采用线性插值的方式，将目标图像和目标图像的人像蒙版的图像尺寸调整为第一尺寸，该线性插值的方式可以为双线性插值的方式，当然并不局限于此。

针对该种实现方式，为了便于理解方案，对上述的训练过程中所涉及的各个矩阵以及相应的处理过程进行示例性的解释说明：

(1)对于样本图像的尺寸与神经网络模型的用于特征提取的输入内容的尺寸相同的情况：

假设样本图像的图像尺寸为w_in×h_in，神经网络模型的输入内容的尺寸为w_in×h_in，神经网络模型的输出内容的尺寸为w_h×h_h；

那么，样本图像的矩阵的维度为：w_in×h_in×3；

样本图像的人像蒙版的矩阵的维度为：w_in×h_in×1；

样本图像对应的第一拼接矩阵的维度为：w_in×h_in×4；

特征矩阵的维度为：w_h×h_h×k，其中，k为样本图像中人体关键点的数量。

并且，将w_in×h_in×3维度的样本图像的矩阵和w_in×h_in×1维度的第一人像蒙版的矩阵的拼接为：在第三轴的拼接，即关于图像尺寸的两轴不变，在关于通道维度的一轴进行拼接。

(2)对于样本图像的尺寸与神经网络模型的用于特征提取的输入内容的尺寸不同的情况：

假设样本图像的图像尺寸为w_i×h_i，神经网络模型的输入内容的尺寸为w_in×h_in，神经网络模型的输出内容的尺寸为w_h×h_h；

那么，样本图像的矩阵的维度为：w_i×h_i×3；

尺寸调整后的样本图像的矩阵的维度为：w_in×h_in×3；

样本图像的第一人像蒙版的矩阵的维度为：w_in×h_in×1；

样本图像对应的第一拼接矩阵的维度为：w_in×h_in×4；

并且，将w_in×h_in×3维度的尺寸调整后的样本图像的矩阵和w_in×h_in×1维度的样本图像的第一人像蒙版的矩阵的拼接为：在第三轴的拼接，即关于图像尺寸的两轴不变，在关于通道维度的一轴进行拼接。

另外，针对存在对样本图像和样本图像的人像蒙版进行尺寸调整的方案而言，以包括特征提取网络和热度图提取网络的神经网络模型为例，图3(a)给出了模型训练过程的原理示意图。其中，第一预处理用于将样本图像的图像尺寸调整为第一尺寸，而第二预处理用于将样本图像的人像蒙版的尺寸调整为第一尺寸。

可见，在该种实现方式中，该神经网络模型在训练过程中，由于结合样本图像的第一人像蒙版对样本图像的人体区域进行定位，而无需对整张样本图像进行数据分析处理，因此，可以使得神经网络模型的处理速率得到提升。进一步的，在利用神经网络模型识别目标图像中人体关键点时，关于目标图像的人体关键点的识别速率得到提升。并且，由于增加了人像蒙版作为先验信息，那么，神经网络模型中用于提取特征矩阵的网络可以得到有效简化，而且模型训练的收敛速度也可以提升。

在将人像蒙版作为先验信息的同时，可以将人像蒙版作为热度图输出的进一步约束，从而进一步提升神经网络模型的处理速率。同时神经网络模型的收敛速度也进一步得到提升。示例性的，在第二种实现方式中，针对每个样本图像，以该样本图像的人像蒙版作为先验信息，利用该样本图像对训练中的该神经网络模型进行训练，得到该样本图像中每个人体关键点的预测热度图的步骤，可以包括步骤C1-C3：

步骤C1，针对每个样本图像，将该样本图像和该样本图像的人像蒙版进行关于通道维度的矩阵拼接，得到该样本图像对应的第一拼接矩阵；

其中，对于样本图像的尺寸与神经网络模型的用于特征提取的输入内容的尺寸相同以及不同的情况，将该样本图像和该样本图像的人像蒙版进行关于通道维度的矩阵拼接的具体实现方式参照上述实现方式的相应内容，在此不做赘述。

步骤C2，针对每个样本图像，将该样本图像的人像蒙版的图像尺寸调整为第二尺寸，得到该样本图像的第二人像蒙版；

其中，该第二尺寸为所述特征矩阵的尺寸。步骤C3，分别将每个样本图像对应的第一拼接矩阵和相应第二人像蒙版输入至训练中的该神经网络模型，以使训练中的该神经网络模型分别对每个样本图像对应的第一拼接矩阵进行特征提取，得到每个样本图像的特征矩阵，并将每个样本图像的特征矩阵与相应第二人像蒙版的矩阵进行数据拼接，得到每个样本图像对应的第二拼接矩阵，对每个样本图像对应的第二拼接矩阵进行热度图分析处理，得到每个样本图像中每个人体关键点的预测热度图。

将该目标图像的人像蒙版的图像尺寸调整为该第二尺寸，得到该目标图像的第二人像蒙版；

将该目标图像对应的第一拼接矩阵和该目标图像的第二人像蒙版输入至预先训练的该神经网络模型，以使该神经网络模型对该目标图像对应的第一拼接矩阵进行特征提取，得到该目标图像的特征矩阵，对该目标图像的特征矩阵和该目标图像的第二人像蒙版进行数据拼接，得到目标图像对应的第二拼接矩阵，并对该目标图像的第二拼接矩阵进行热度图分析处理，得到该目标图像中每个人体关键点的热度图。

那么，样本图像的矩阵的维度为：w_in×h_in×3；

样本图像的人像蒙版的矩阵的维度为：w_in×h_in×1；

样本图像对应的第一拼接矩阵的维度为：w_in×h_in×4；

特征矩阵的维度为：w_h×h_h×k，其中，k为样本图像中人体关键点的数量；

样本图像的第二人像蒙版的矩阵的维度为：w_h×h_h×1；

样本图像对应的第二拼接矩阵的维度为：w_h×h_h×(k+1)。

假设样本图像的图像尺寸为w_i×h_i，神经网络模型的输入内容的像尺寸为w_in×h_in，神经网络模型的输出内容的尺寸为w_h×h_h。

那么，样本图像的矩阵的维度为：w_i×h_i×3；

尺寸调整后的样本图像的矩阵的维度为：w_in×h_in×3；

样本图像的第一人像蒙版的矩阵的维度为：w_in×h_in×1；

样本图像对应的第一拼接矩阵的维度为：w_in×h_in×4；

特征矩阵的维度为：w_h×h_h×k，其中，k为人体关键点的数量；

样本图像的第二人像蒙版的矩阵的维度为：w_h×h_h×1；

样本图像对应的第二拼接矩阵的维度为：w_h×h_h×(k+1)。

其中，通过线性插值的方式，可以将w_i×h_i×3维度的样本图像调整为：w_in×h_in×3维度的样本图像，以及将w_i×h_i×1维度的样本图像的人像蒙版图像调整为：w_in×h_in×1维度的样本图像的第一人像蒙版，以及w_h×h_h×1维度的样本图像的第二人像蒙版，当然并不局限于线性插值的方式。在具体应用中，该线性插值的方式可以为双线性插值的方式，当然并不局限于此。另外，关于w_in×h_in×3维度的样本图像和w_in×h_in×1维度的样本图像的第一人像蒙版的拼接为在第三轴的拼接，即关于图像尺寸的两轴不变，在关于通道维度的一轴进行拼接；类似的，关于w_h×h_h×k维度的样本图像的特征矩阵与w_h×h_h×1维度的样本图像的第二人像蒙版的拼接为在第三轴的拼接，即关于图像尺寸的两轴不变，在关于通道维度的一轴进行拼接。

另外，针对该种实现方式中，针对存在对样本图像和样本图像的人像蒙版进行尺寸调整的方案方案而言，以包括特征提取网络和热度图提取网络的神经网络模型为例，图3(b)给出了模型训练过程的原理示意图。其中，第一预处理用于将样本图像的图像尺寸调整为第一尺寸，第二预处理用于将样本图像的人像蒙版的尺寸调整为第一尺寸，而第三预处理用于样本图像的人像蒙版调整为第二尺寸。

可见，在该种实现方式中，该神经网络模型在训练过程中，由于结合样本图像的人像蒙版对样本图像的人体区域进行定位，而无需对整张样本图像进行数据分析处理，同时，将人像蒙版作为输出热度图的约束，因此，可以使得神经网络模型的处理速率得到提升。进一步的，在利用神经网络模型识别目标图像中人体关键点时，关于目标图像的人体关键点的识别速率得到提升。并且，由于增加了人像蒙版作为先验信息，那么，神经网络模型中用于提取特征矩阵的网络可以得到有效简化，而且模型训练的收敛速度也可以提升。

相应于上述方法实施例，本发明实施例还提供了一种人体关键点识别装置。如图4所示，该人体关键点识别装置可以包括：

图像获得模块410，用于获得待识别人体关键点的目标图像；

人像蒙版获得模块420，用于获得所述目标图像的人像蒙版；

数据处理模块430，用于利用预先训练的神经网络模型，以所述目标图像的人像蒙版作为先验信息，对所述目标图像进行关键点信息识别，得到所述目标图像中每个人体关键点的热度图；其中，所述神经网络模型为利用样本图像和所述样本图像中每个人体关键点的真值热度图，并以所述样本图像的人像蒙版作为先验信息，所训练的模型；

信息确定模块440，用于基于所述目标图像中每个人体关键点的热度图，确定所述目标图像中每个人体关键点的坐标。

可选地，所述训练子模块包括：

所述数据处理模块430，包括：

可选地，所述拼接处理单元具体用于：

所述第二处理子模块具体用于：

另外，本发明实施例还提供了一种电子设备，如图5所示，包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信，

存储器503，用于存放计算机程序；

处理器501，用于执行存储器503上所存放的程序时，实现本发明实施例所提供的任一人体关键点识别方法的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended IndustryStandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一人体关键点识别方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一人体关键点识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备及存储介质而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种人体关键点识别方法，其特征在于，包括：

获得待识别人体关键点的目标图像；

获得所述目标图像的人像蒙版；

2.根据权利要求1所述的方法，其特征在于，所述神经网络模型的训练过程包括：

3.根据权利要求2所述的方法，其特征在于，针对每个样本图像，以该样本图像的人像蒙版作为先验信息，利用该样本图像对训练中的所述神经网络模型进行训练，得到该样本图像中每个人体关键点的预测热度图的步骤，包括：

4.根据权利要求3所述的方法，其特征在于，所述针对每个样本图像，将该样本图像和该样本图像的人像蒙版进行关于通道维度的矩阵拼接，得到该样本图像对应的第一拼接矩阵，包括：

5.根据权利要求3所述的方法，其特征在于，所述分别将每个样本图像对应的第一拼接矩阵输入至训练中的所述神经网络模型之前，所述训练过程还包括：

6.一种人体关键点识别装置，其特征在于，包括：

图像获得模块，用于获得待识别人体关键点的目标图像；

人像蒙版获得模块，用于获得所述目标图像的人像蒙版；

7.根据权利要求6所述的装置，其特征在于，所述神经网络模型通过训练模块所训练；所述训练模块包括：

8.根据权利要求7所述的装置，其特征在于，所述训练子模块包括：

所述数据处理模块，包括：

9.根据权利要求8所述的装置，其特征在于，所述拼接处理单元具体用于：

10.根据权利要求8所述的装置，其特征在于，所述拼接处理单元还用于在所述训练单元分别将每个样本图像对应的第一拼接矩阵输入至训练中的所述神经网络模型之前，针对每个样本图像，将该样本图像的人像蒙版的图像尺寸调整为第二尺寸，得到该样本图像的第二人像蒙版；其中，所述第二尺寸为所述特征矩阵的尺寸；

所述第二处理子模块具体用于：

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。