CN111027412B

CN111027412B - 一种人体关键点识别方法、装置及电子设备

Info

Publication number: CN111027412B
Application number: CN201911141773.0A
Authority: CN
Inventors: 刘思阳
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2024-03-08
Anticipated expiration: 2039-11-20
Also published as: CN111027412A

Abstract

本发明实施例提供了一种人体关键点识别方法、装置及电子设备，应用于图像处理领域。该方法包括：获得视频中待识别人体关键点的目标视频帧；对目标视频帧进行人体图提取处理，得到待利用的目标人体图；利用预先训练完成的神经网络模型，以位于目标视频帧之前的视频帧的预定人体图像信息作为辅助信息，对目标人体图进行关键点信息识别，得到目标人体图中每个人体关键点的关键点信息；基于目标人体图中每个人体关键点的关键点信息，确定目标视频帧中每个人体关键点的坐标。通过本方案，可以实现提高人体关键点识别的精准度的目的。

Description

一种人体关键点识别方法、装置及电子设备

技术领域

本发明涉及图像处理技术领域，特别是涉及一种人体关键点识别方法、装置及电子设备。

背景技术

人体关键点识别是动作识别、异常行为检测、安防等的实现基础，其主要用于从给定的图像中定位人体的身体关键部位，例如头部、颈部、肩部、手部等部位。

现有技术中，在识别视频帧中的人体关键点时，从该视频帧中提取待利用的人体图，将人体图输入至预先训练的神经网络模型，得到每个人体关键点的关键点信息，进而，基于所得到的每个人体关键点的关键点信息，确定该视频帧中每个人体关键点的坐标。其中，任一人体关键点的关键点信息包括但不局限于：热度图，或者，热度图加其他辅助图，等等。

发明人在实现本发明的过程中发现，现有技术至少存在如下问题：

对于人体运动幅度较大的情况，各个视频帧均存在运动模糊。那么，在利用现有技术识别视频帧的人体关键点时，由于所依赖的待识别人体关键点的视频帧存在运动模糊，这样无疑导致人体关键点识别的精准度较低。

发明内容

本发明实施例的目的在于提供一种人体关键点识别方法、装置及电子设备，以实现提高人体关键点识别的精准度的目的。具体技术方案如下：

第一方面，本发明实施例提供了一种人体关键点识别方法，包括：

获得视频中待识别人体关键点的目标视频帧；

对所述目标视频帧进行人体图提取处理，得到待利用的目标人体图；

利用预先训练完成的神经网络模型，以位于所述目标视频帧之前的视频帧的预定人体图像信息作为辅助信息，对所述目标人体图进行关键点信息识别，得到所述目标人体图中每个人体关键点的关键点信息；其中，所述神经网络模型为利用样本人体图和所述样本人体图中每个人体关键点的真值关键点信息，以及以位于所述样本人体图所属视频帧之前的视频帧的所述预定人体图像信息作为辅助信息，所训练得到的模型；所述样本人体图为从样本视频的视频帧中提取的图像；

基于所述目标人体图中每个人体关键点的关键点信息，确定所述目标视频帧中每个人体关键点的坐标。

可选地，在一种实现方式中，所述利用预先训练完成的神经网络模型，以位于所述目标视频帧之前的视频帧的预定人体图像信息作为辅助信息，对所述目标人体图进行关键点信息识别，得到所述目标人体图中每个人体关键点的关键点信息的步骤，包括：

利用预先训练完成的神经网络模型，以所述目标视频帧的上一帧的预定人体图像信息作为辅助信息，对所述目标人体图进行关键点信息识别，得到每个人体关键点的热度图和位移图；其中，任一人体关键点的位移图中的每个点，与所述目标人体图中的一个区域块具有唯一映射关系，且每个点用于表征该点所映射的区域块或该点相对于该人体关键点的偏移量；

所述基于所述目标人体图中每个人体关键点的关键点信息，确定所述目标视频帧中每个人体关键点的坐标，包括：

基于所述目标人体图中每个人体关键点的热度图和位移图，确定所述目标视频帧中每个人体关键点的坐标。

可选地，在一种实现方式中，所述基于所述目标人体图中每个人体关键点的热度图和位移图，确定所述目标视频帧中每个人体关键点的坐标，包括：

按照预定的识别规则，基于所述目标人体图中每个人体关键点的热度图和位移图，确定所述目标人体图中每个人体关键点的坐标；其中，所述预定的识别规则为：针对每一人体关键点，基于该人体关键点的热度图确定候选区域并基于该人体关键点的位移图从所述候选区域中确定该人体关键点的坐标的规则；

基于所述目标人体图中每个人体关键点的坐标，确定所述目标视频帧中每个人体关键点的坐标。

可选地，在一种实现方式中，所述上一帧的预定人体图像信息为：通过对所述上一帧中每个人体关键点的热度图进行蒙版生成处理所得到的，所述上一帧中每个人体关键点的蒙版图；其中，所述蒙版生成处理包括：将不为0的像素点调整为1。

可选地，在一种实现方式中，所述利用预先训练完成的神经网络模型，以所述目标视频帧的上一帧的预定人体图像信息作为辅助信息，对所述目标人体图进行关键点信息识别，得到每个人体关键点的热度图和位移图的步骤，包括：

将所述目标人体图的矩阵和所述上一帧中每个人体关键点的蒙版图的矩阵进行矩阵拼接，得到所述目标人体图的拼接矩阵；

将所述目标人体图的拼接矩阵输入至预先训练完成的神经网络模型，得到所述目标人体图中每个人体关键点的热度图和位移图。

可选地，在一种实现方式中，所述神经网络模型的训练过程包括：

获得多个样本人体图，以及每一样本人体图中每个人体关键点的坐标；

针对每一样本人体图，利用该样本人体图中每个人体关键点的坐标，生成该样本人体图中每个人体关键点的真值热度图和真值位移图；

针对每一样本人体图，获得该样本人体图所属视频帧的上一帧中，每个人体关键点的样本蒙版图，并将所获得样本蒙版图的矩阵与该样本人体图的矩阵进行矩阵拼接，得到该样本人体图的拼接矩阵；

分别将每一样本人体图的拼接矩阵输入至训练中的所述神经网络模型，得到每一样本人体图中每个人体关键点的预测热度图和预测位移图；

基于每一样本人体图中每个人体关键点的真值热度图与预测热度图的差异，以及真值位移图与预测位移图的差异，计算综合损失值；

基于所述综合损失值，判断训练中的所述神经网络模型是否收敛，如果收敛，结束训练，得到训练完成的所述神经网络模型；否则，调整所述神经网络模型的网络参数，继续训练所述神经网络模型。

第二方面，本发明实施例提供了一种人体关键点识别装置，所述装置包括：

视频帧提取模块，用于获得视频中待识别人体关键点的目标视频帧；

人体图提取模块，用于对所述目标视频帧进行人体图提取处理，得到待利用的目标人体图；

信息识别模块，用于利用预先训练完成的神经网络模型，以位于所述目标视频帧之前的视频帧的预定人体图像信息作为辅助信息，对所述目标人体图进行关键点信息识别，得到所述目标人体图中每个人体关键点的关键点信息；其中，所述神经网络模型为利用样本人体图和所述样本人体图中每个人体关键点的真值关键点信息，以及以位于所述样本人体图所属视频帧之前的视频帧的所述预定人体图像信息作为辅助信息，所训练得到的模型；所述样本人体图为从样本视频的视频帧中提取的图像；

坐标确定模块，用于基于所述目标人体图中每个人体关键点的关键点信息，确定所述目标视频帧中每个人体关键点的坐标。

可选地，在一种实现方式中，所述信息识别模块包括：

信息识别子模块，用于利用预先训练完成的神经网络模型，以所述目标视频帧的上一帧的预定人体图像信息作为辅助信息，对所述目标人体图进行关键点信息识别，得到每个人体关键点的热度图和位移图；其中，任一人体关键点的位移图中的每个点，与所述目标人体图中的一个区域块具有唯一映射关系，且每个点用于表征该点所映射的区域块或该点相对于该人体关键点的偏移量；

所述坐标确定模块包括：

坐标确定子模块，用于基于所述目标人体图中每个人体关键点的热度图和位移图，确定所述目标视频帧中每个人体关键点的坐标。

可选地，在一种实现方式中，所述坐标确定子模块具体用于：

可选地，在一种实现方式中，所述上一帧的预定人体图像信息为：

通过对所述上一帧中每个人体关键点的热度图进行蒙版生成处理所得到的，所述上一帧中每个人体关键点的蒙版图；其中，所述蒙版生成处理包括：将不为0的像素点调整为1。

可选地，在一种实现方式中，所述信息识别子模块具体用于：

可选地，在一种实现方式中，所述神经网络模型通过模型训练模块训练得到，所述模型训练模块包括：

信息获得子模块，用于获得多个样本人体图，以及每一样本人体图中每个人体关键点的坐标；

信息生成子模块，用于针对每一样本人体图，利用该样本人体图中每个人体关键点的坐标，生成该样本人体图中每个人体关键点的真值热度图和真值位移图；

矩阵获得子模块，用于针对每一样本人体图，获得该样本人体图所属视频帧的上一帧中，每个人体关键点的样本蒙版图，并将所获得样本蒙版图的矩阵与该样本人体图的矩阵进行矩阵拼接，得到该样本人体图的拼接矩阵；

训练子模块，用于分别将每一样本人体图的拼接矩阵输入至训练中的所述神经网络模型，得到每一样本人体图中每个人体关键点的预测热度图和预测位移图；

损失值计算子模块，用于基于每一样本人体图中每个人体关键点的真值热度图与预测热度图的差异，以及真值位移图与预测位移图的差异，计算综合损失值；

判断子模块，用于基于所述综合损失值，判断训练中的所述神经网络模型是否收敛，如果收敛，结束训练，得到训练完成的所述神经网络模型；否则，调整所述神经网络模型的网络参数，继续训练所述神经网络模型。

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一人体关键点识别方法的步骤。

本发明实施还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一人体关键点识别方法的步骤。

本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一人体关键点识别方法的步骤。

本发明实施例所提供的方案中，在从目标视频帧中提取到待利用的目标人体图后，利用预先训练完成的神经网络模型，以位于该目标视频帧之前的视频帧的预定人体图像信息作为辅助信息，对该目标人体图进行关键点信息识别，得到该目标人体图中每个人体关键点的关键点信息；其中，该神经网络模型为利用样本人体图和该样本人体图中每个人体关键点的真值关键点信息，以及以位于该样本人体图所属视频帧之前的视频帧的所述预定人体图像信息作为辅助信息，所训练得到的模型；该样本人体图为从样本视频的视频帧中提取的图像；进而，基于该目标人体图中每个人体关键点的关键点信息，确定该目标视频帧中每个人体关键点的坐标。可见，本方案在对目标视频帧进行人体关键点识别时，不但考虑目标视频帧本身的图像信息，同时考虑了视频帧间的时序信息。这样，在目标视频帧存在运动模糊时，相对于仅仅依赖目标视频帧而言，由于本方案中人体关键点识别所依赖的有效信息更加丰富，因此，本方案可以实现提高人体关键点识别的精准度的目的。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的一种人体关键点识别方法的流程图；

图2为本发明实施例所提供的一种人体关键点识别方法的另一流程图；

图3为本发明实施例所提供的用于识别热度图和位移图的神经网络模型的训练过程的流程图；

图4(a)为本发明实施例的利用热度图、位移图和蒙版图进行人体关键点识别的原理图；

图4(b)为本发明实施例所提供的用于识别热度图和位移图的一种神经网络模型的结构示意图；

图4(c)为本发明实施例所提供的基于热度图和用于表征全局偏移量的位移图进行关键点识别的原理示意图；

图4(d)为本发明实施例所提供的基于热度图和用于表征局部偏移量的位移图进行关键点识别的原理示意图；

图4(e)为本发明实施例所提供的用于识别热度图和位移图的神经网络模型的训练过程的示意图；

图4(f)为本发明实施例所提供的用于识别热度图和位移图的神经网络模型的训练过程的示意图；

图5为本发明实施例所提供的一种人体关键点识别装置的结构示意图；

图6为本发明实施例所提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了实现提高人体关键点识别的精准度的目的，本发明实施例提供了一种人体关键点识别方法、装置及电子设备。

下面首先对本发明实施例所提供的一种人体关键点识别方法进行介绍。

其中，本发明实施例所提供的一种人体关键点识别方法的执行主体可以为一种人体关键点识别装置。该人体关键点识别装置可以应用于电子设备中。在具体应用中，该电子设备可以为终端设备或者服务器，这都是合理的。

另外，本发明实施例所涉及的人体关键点用于定位人体的身体关键部位，例如：头部、颈部、肩部、手部、腿部和/或脚部等部位；并且，针对任一身体关键部位，在定位该身体关键部位时，所需要的关键点可以为一个或多个。在不同的场景中，由于需要定位的身体关键部位不同，因此，人体关键点的具体位置以及数量可以不同，本发明实施例对此不做限定。

可以理解的是，针对视频中人体运动幅度较大的情况，尽管视频帧存在运动模糊的问题，但是各个视频帧之间存在关联信息。因此，为了解决现有技术问题，本方案的处理思路为：在利用待识别关键点的目标视频帧本身的信息的基础上，考虑视频帧间的时序信息，从而提高关键点识别所依赖有效信息的丰富性。这样，相对于现有技术仅仅依赖目标视频帧而言，可以提高人体关键点识别的精准度。

如图1所示，本发明实施例提供了一种人体关键点识别方法，可以包括如下步骤：

S101，获得视频中待识别人体关键点的目标视频帧；

由于在识别人体关键点时，依赖视频帧之间的时序信息，因此，本步骤中，所获得的目标视频帧为：视频中存在人体区域的视频帧序列中的非首帧。其中，关于存在人体区域的视频帧序列中的首帧的关键点识别方法可以采用任一种能够实现人体关键点识别的方法，在此不做限定。

可以理解的是，针对视频中存在人体区域的视频帧序列而言，可以按照视频帧顺序，依次将首帧以外的各个视频帧作为目标视频帧。

并且，视频中存在人体区域的视频帧序列的首帧可以为视频的首帧，也可以不为视频的首帧，这都是合理的。

S102，对该目标视频帧进行人体图提取处理，得到待利用的目标人体图；

由于人体关键点均位于目标视频帧中的人体区域中，因此，在获得待识别人体关键点的目标视频帧后，为了识别人体关键点，可以对该目标视频帧进行人体图提取处理，得到待利用的目标人体图。其中，所谓待利用的目标人体图即为待输入至后续所所提及的神经网络模型的人体图，该待利用的目标人体图的尺寸与该神经网络模型的输入图像的尺寸相同。

可以理解的是，对该目标视频帧进行人体图提取处理，得到待利用的目标人体图的具体实现方式可以存在多种。示例性的，在一种实现方式中，对该目标视频帧进行人体图提取处理，得到待利用的目标人体图可以包括：

对该目标视频帧进行人体区域检测；

从该目标视频帧中提取所检测到的人体区域，并将所提取到的人体区域进行尺寸调整处理，得到待利用的目标人体图，该尺寸调整处理用于将尺寸调整为该神经网络模型的输入图像的尺寸。

其中，对该目标视频帧进行人体区域检测所采用的具体实现方式可以为任一种能够从图像中检测人体区域的方式。例如：利用预先训练的人体区域检测模型，从该目标视频帧中检测人体区域，当然并不局限于此。

并且，由于从目标视频帧中所检测到的人体区域的大小不确定，而神经网络模型的输入图像为固定的尺寸，因此，为了作为神经网络模型的有效输入内容，在从该目标视频帧中提取所检测到的人体区域后，可以将所提取到的人体区域进行尺寸调整处理，得到待利用的目标人体图。所谓的尺寸调整处理所采用的算法可以为插值算法，该插值算法可以双线性插值或最邻近插值算法，当然并不局限于此。

S103，利用预先训练完成的神经网络模型，以位于该目标视频帧之前的视频帧的预定人体图像信息作为辅助信息，对该目标人体图进行关键点信息识别，得到该目标人体图中每个人体关键点的关键点信息；

其中，该神经网络模型为利用样本人体图和该样本人体图中每个人体关键点的真值关键点信息，以及以位于该样本人体图所属视频帧之前的视频帧的该预定人体图像信息作为辅助信息，所训练得到的模型；该样本人体图为从样本视频的视频帧中提取的图像。并且，每个人体关键点的关键点信息可以包括：热度图、热度图加辅助图，或者，关键点的坐标，等等，这都是合理的。另外，位于该目标视频帧之前的视频帧可以为：该目标视频帧的上一帧，或者，该目标视频帧之前的至少两帧。

本步骤中，利用预先训练完成的神经网络模型，以位于该目标视频帧之前的视频帧的预定人体图像信息作为辅助信息，对该目标人体图进行关键点信息识别，得到该目标人体图中每个人体关键点的关键点信息，具体指：将该目标人体图，以及位于该目标视频帧之前的视频帧的预定人体图像信息，输入至预先训练的神经网络模型，得到该目标人体图中每个人体关键点的关键点信息。

并且，该预定人体图像信息的具体类型可以存在多种。可选地，在一种实现方式中，该预定人体图像信息可以为图像类的信息，此时，所谓的将该目标人体图，以及位于该目标视频帧之前的视频帧的预定人体图像信息，输入至预先训练的神经网络模型，具体可以为：将该目标人体图的矩阵和该预定人体图像信息的矩阵进行拼接，进而，将该拼接所得的矩阵，输入至预先训练的神经网络模型。当然，该预定人体图像信息并不局限于图像类的信息，例如：该预定人体图像信息可以为人体关键点的坐标。

另外，该预定人体图像信息具体可以根据关键点信息的具体类型所确定。示例性的，在该关键点信息包括热度图时，该预定人体图像信息可以为：人体关键点的热度图，或者，基于人体关键点热度图所确定的用于表征关键点信息的图像。

并且，该神经网络模型的训练思路为：将样本人体图，以及位于该样本人体图所属视频帧之前的视频帧的该预定人体图像信息，输入至训练中的神经网络模型，得到样本人体图中每个人体关键点的预测关键点信息，并基于样本人体图中每个人体关键点的预测关键点信息和真值关键点信息的差异，计算综合损失值，进而利用综合损失值判断该神经网络模型是否收敛。其中，该神经网络模型的具体结构以及训练过程，与关键点信息的具体类型相关。后续结合具体的实施例，对该神经网络模型的具体结构和训练过程进行介绍。

S104，基于该目标人体图中每个人体关键点的关键点信息，确定该目标视频帧中每个人体关键点的坐标。

在获得该目标人体图中每个人体关键点的关键点信息后，根据该关键点息的具体类型，可以采用预定的确定方式，来确定该目标视频帧中每个人体关键点的坐标。

可选地，在一种实现方式中，如果该目标人体图中每个人体关键点的关键信息包括热度图，或者，热度图加辅助图，那么，可以基于热度图，或者，热度图加辅助图，来确定该目标人体图中每个人体关键点的坐标，进而，基于该目标人体图中每个人体关键点的坐标，以及结合目标人体图是否为对人体区域尺寸调整后的图像，确定目标视频帧中每个人体关键点的坐标。其中，在目标人体图为对人体区域进行尺寸调整后的图像时，可以首先将该目标人体图中每个人体关键点的坐标，映射到该目标人体图对应的人体区域，得到该人体区域中每个人体关键点的坐标，进而，将该人体区域中每个人体关键点的坐标，映射到目标视频帧，得到目标视频帧中每个人体关键点的坐标。当然，在目标人体图为未对人体区域进行尺寸调整后的图像，那么，可以直接将目标人体图中每个人体关键点的坐标，映射到目标视频帧，得到目标视频帧中每个人体关键点的坐标。

可选地，在另一种实现方式中，如果该目标人体图中每个人体关键点的关键点信息包括：关键点的坐标，那么，可以基于该目标人体图中每个人体关键点的坐标，结合目标人体图是否为对人体区域尺寸调整后的图像，确定目标视频帧中每个人体关键点的坐标，并且，具体确定方式与上述实现方式中所给出的确定方式相同。

下面结合具体实施例，对本发明实施例所提供的一种人体关键点识别方法进行介绍。如图2所示，本发明实施例所提供的一种人体关键点识别方法，可以包括如下步骤：

S201，获得视频中待识别人体关键点的目标视频帧；

S202，对该目标视频帧进行人体图提取处理，得到待利用的目标人体图；

本实施例中，S201-S202的具体实现方式，与上述的S101-S102相同。

S203，利用预先训练完成的神经网络模型，以该目标视频帧的上一帧的预定人体图像信息作为辅助信息，对该目标人体图进行关键点信息识别，得到每个人体关键点的热度图和位移图；

其中，任一人体关键点的位移图中的每个点，与该目标人体图中的一个区域块具有唯一映射关系，且每个点用于表征该点所映射的区域块或该点相对于该人体关键点的偏移量。其中，该神经网络模型为利用样本人体图和该样本人体图中每个人体关键点的真值热度图和真值位移图，以及以该样本人体图所属视频帧上一帧的该预定人体图像信息作为辅助信息，所训练得到的模型；该样本人体图为从样本视频的视频帧中提取的图像。

并且，任一人体关键点的位移图为与该人体关键点相关的偏移距离的分布图。具体的，任一人体关键点的位移图包括x轴方向的位移图和y轴方向的位移图。那么，任一人体关键点的x轴方向的位移图中每个点用于表征：x轴方向上，该点所映射的区域块或该点相对于该人体关键点的偏移量；而任一人体关键点的y轴方向的位移图中每个点用于表征：y轴方向上，该点所映射的区域块或该点相对于该人体关键点的全局偏移量。

另外，在具体应用中，为了保证较低的计算量，每一真值热度图的尺寸小于样本人体图的尺寸。在x轴方向上，每一真值热度图相对于样本人体图的缩小系数为第一缩小系数，y轴方向上，每一真值热度图相对于样本人体图的缩小系数为第二缩小系数，其中，第一缩小系数和第二缩小系数可以相同或不同。示例性的，假设样本人体图的尺寸为w*h，那么，每一真值热度图的尺寸可以为其中，u1和u2的取值可以相同或不同。另外，该第一缩小系数和该第二缩小系数可以称为步长；并且，当第一缩小系数和第二缩小系数相同时，可以认为真值热度图相对于样本人体图具有一缩小系数或者一步长，即不区分x轴和y轴方向。

类似的，每一真值位移图的尺寸小于样本人体图的尺寸。在x轴方向上，每一真值位移图相对于人体样本图的缩小系数为第三缩小系数，y轴方向上，每一真值位移图相对于人体样本图的缩小系数为第四缩小系数，其中，第三缩小系数和第四缩小系数可以相同或不同。示例性的，假设样本人体图的尺寸为w*h，那么，每一真值位移图的尺寸可以为其中，u3和u4的取值可以相同或不同。另外，该第三缩小系数和该第四缩小系数可以称为步长；并且，当第三缩小系数和第四缩小系数相同时，可以认为真值热度图相对于样本人体图具有一缩小系数或者一步长，即不区分x轴和y轴方向。

另外，本步骤中，该上一帧的预定人体图像信息可以存在多种。示例性的，在一种实现方式中，为了保证较低的计算量，该上一帧的预定人体图像信息为：通过对该上一帧中每个人体关键点的热度图进行蒙版生成处理所得到的，该上一帧中每个人体关键点的蒙版图；其中，该蒙版生成处理包括：将不为0的像素点调整为1；

相应的，所述利用预先训练完成的神经网络模型，以该目标视频帧的上一帧的预定人体图像信息作为辅助信息，对该目标人体图进行关键点信息识别，得到每个人体关键点的热度图和位移图的步骤，可以包括：

将该目标人体图的矩阵和该上一帧中每个人体关键点的蒙版图的矩阵进行矩阵拼接，得到该目标人体图的拼接矩阵；

将该目标人体图的拼接矩阵输入至预先训练完成的神经网络模型，得到该目标人体图中每个人体关键点的热度图和位移图。

其中，所谓的矩阵拼接为第三轴的拼接。具体的，假设目标人体图的矩阵为：w_f×h_f×3，任一人体关键点的蒙版图的矩阵为：w_f×h_f×1，并且，人体关键点的数量为k，那么，拼接矩阵为：w_f×h_f×(3+k)。为了方案清楚，针对该上一帧的预定人体图像信息为：该上一帧中每个人体关键点的蒙版图而言，图4(a)给出了人体关键点识别过程的原理示意图。

可以理解的是，上述的该上一帧的预定人体图像信息的具体类型仅仅作为示例，并不应该构成对本发明实施例的限定。例如：该上一帧的预定人体图像信息也可以为：该上一帧中每个人体关键点的热度图，此时，可以将该目标人体图的矩阵和该上一帧中每个人体关键点的热度图的矩阵进行矩阵拼接，得到该目标人体图的拼接矩阵；将该目标人体图的拼接矩阵输入至预先训练完成的神经网络模型，得到该目标人体图中每个人体关键点的热度图和位移图。

在具体应用中，本发明实施例所利用的神经网络模型的模型结构可以为多种。示例性的，在一种实现方式中，参见图4(b)所示，神经网络模型可以包括：特征提取网络和两个卷积组：卷积组1和卷积组2，这样，将某一图像输入特征提取网络，得到特征矩阵，即图像特征，然后，将特征矩阵分别输入两个卷积组，得到所输入图像中每个人体关键点的热度图和位移图。其中，特征提取网络可以包括但不局限于如下网络：LeNet、AlexNet、VGG、GoogLeNet、ResNet、MobileNet等特征提取网络。而卷积组1和卷积组2可以由多个卷积组成，具体数量可以根据实际情况设定。

为了方案清楚，以图4(b)所示的神经网络模型为例，示例性的介绍神经网络模型对图像的处理流程：

将w_f×h_f×3的图像输入至特征提取网络，输出的特征矩阵，其中，3为图像的通道数，512为特征矩阵的数量，α为预设的缩小系数，α越小网络精度越高；

将的特征矩阵，输入至卷积组1，输出即输出n张的热度图，其中，n是关键点的个数；

将的特征矩阵，输入至卷积组2，输出即输出n张的x轴方向的位移图以及n张的y轴方向的位移图。

该示例中，在x轴方向和y轴方向上，热度图相对于输入图像的缩小系数相同，均为α；并且，热度图和位移图的尺寸相同。

上述的介绍的神经网络模型的结构以及对图像的处理流程，仅仅作为示例，并不应该构成对本发明实施例的限定。

为了方案清楚及布局清晰，后续对关于上述的神经网络模型的训练过程进行举例介绍。

S204，按照预定的识别规则，基于该目标人体图中每个人体关键点的热度图和位移图，确定该目标人体图中每个人体关键点的坐标；

其中，该预定的识别规则为：针对每一人体关键点，基于该人体关键点的热度图确定候选区域并基于该人体关键点的位移图从所述候选区域中确定该人体关键点的坐标的规则。

本步骤中，由于任一人体关键点的热度图为人体关键点可能存在的位置的概率分布图，因此，通过该热度图中概率最大的像素点，可以推理出人体关键点在目标人体图中的一个候选区域。而由于任一人体关键点的位移图用于表征与该人体关键点相关的偏移距离的分布图，因此，可以在确定出候选区域后，利用位移图中的偏移量，来进一步确定出人体关键点。

并且，如果位移图中每个点用于表征该点所映射的区域块相对于该人体关键点的偏移量，即表征全局偏移量，那么，该预定的识别规则具体为：针对每一人体关键点，基于该人体关键点的热度图确定候选区域并基于该人体关键点的位移图所表征的全局偏移量，从所述候选区域中确定该人体关键点的坐标的规则。针对位移图表征全局偏移量而言，通过热度图和位移图确定关键点的坐标原理，可以参见图4(c)，其中，浅灰色区域为候选区域，深灰色区域为最终所确定的关键点，箭头表征位置偏移的方向。

而如果位移图中每个点用于表征该点相对于该人体关键点的偏移量，即表征局部偏移量，那么，该预定的识别规则具体为：针对每一人体关键点，基于该人体关键点的热度图确定候选区域并基于该人体关键点的位移图所表征的局部偏移量，从所述候选区域中确定该人体关键点的坐标的规则。针对位移图表征局部偏移量而言，通过热度图和位移图确定关键点的坐标原理，可以参见图4(d)，其中，浅灰色区域为候选区域，深灰色区域为最终所确定的关键点，箭头表征位置偏移的方向。

示例性的，所述按照预定的识别规则，基于该目标人体图中每个人体关键点的热度图和位移图，确定该目标人体图中每个人体关键点的坐标的步骤，可以包括：

按照预定的第一计算公式，基于该目标人体图中每个人体关键点的热度图和位移图，确定该目标人体图中每个人体关键点的坐标。

如果位移图中每个点用于表征该点所映射的区域块相对于该人体关键点的偏移量，即表征全局偏移量，那么，该第一计算公式可以包括：

I_x＝h_x×s1+ox；

I_y＝h_y×s2+oy；

其中，(I_x，I_y)为人体关键点I的坐标，(h_x，h_y)为该人体关键点I的热度图中取值最大的像素点的坐标，ox为该人体关键点I的x轴方向的位移图中，取值的绝对值最小的列的序号，oy为该人体关键点I的y轴方向的位移图中，取值的绝对值最小的行的序号；s1为x轴方向上该神经网络模型所输出热度图相对于所输入图像的缩小系数，s2为y轴方向上该神经网络模型所输出热度图相对于所输入图像的缩小系数。

如果位移图中每个点用于表征该点相对于该人体关键点的偏移量，即表征局部偏移量，那么，该第一计算公式可以包括：

I_x＝h_x×s1+ox×t1；

I_y＝h_y×s2+oy×t2；

其中，(I_x，I_y)为人体关键点I的坐标，(h_x，h_y)为该人体关键点I的热

度图中取值最大的像素点的坐标，ox为所述关键点I的x轴方向的位移图中，取值为0的列的序号，oy为该关键点I的y轴方向的位移图中，取值为0的行的序号；s1为x轴方向上该神经网络模型所输出热度图相对于所输入图像的缩小系数，s2为y轴方向上该神经网络模型所输出热度图相对于所输入图像的缩小系数；t1为x轴方向上该神经网络模型所输出位移图相对于所输出热度图的缩小系数，t2为y轴方向上该神经网络模型所输出位移图相对于所输出热度图的缩小系数。

S205，基于该目标人体图中每个人体关键点的坐标，确定该目标视频帧中每个人体关键点的坐标。

对于目标人体图是目标视频帧中的人体区域进行尺寸调整后所得到的图像，所述基于该目标人体图中每个人体关键点的坐标，确定该目标视频帧中每个人体关键点的坐标的过程可以包括：首先将目标人体图中每个人体关键点的坐标映射到该目标视频帧的人体区域中，进而，将该人体区域的人体关键点的坐标，映射到该目标视频帧中，得到该目标视频帧中每个人体关键点的坐标。

其中，将目标人体图中每个人体关键点的坐标映射到该目标视频帧的人体区域中的具体实现方式，可以采用如下方式：将两个尺寸的图像之间坐标点进行映射方式。举例而言：目标人体图的尺寸为m*n，人体区域的尺寸为(m/d1)*(n/d2)，对于目标人体图中的点k1(x1,y1)，将k1点映射到人体区域中，点k1在人体区域的映射点的坐标为(x1/d1,y1/d2)。

而将该人体区域的人体关键点的坐标，映射到该目标视频帧中的实现方式可以采用坐标偏移方式。举例而言：人体区域在目标视频帧中的位置信息为(x_bbox,y_bbox,w_bbox,h_bbox)，那么，对于人体区域中的点k2(x2,y2)，将k2映射到该目标视频帧中，点k2在该目标视频帧的映射点的坐标为(x2+x_bbox,y1+y_bbox)。

另外，对于目标人体图是目标视频帧中的人体区域，所述基于该目标人体图中每个人体关键点的坐标，确定该目标视频帧中每个人体关键点的坐标的过程可以包括：将目标人体图中每个人体关键点的坐标映射到该目标视频帧中，得到该目标视频帧中每个人体关键点的坐标。

本方案在对目标视频帧进行人体关键点识别时，不但考虑目标视频帧本身的图像信息，同时考虑了视频帧间的时序信息。这样，在目标视频帧存在运动模糊时，相对于仅仅依赖目标视频帧而言，由于本方案中人体关键点识别所依赖的有效信息更加丰富，因此，本方案可以实现提高人体关键点识别的精准度的目的。并且，采用热度图和位移图的结合的方式，使得在热度图尺寸较小而确定出较大候选区域的情况下，可以通过位移图进一步在候选区域中定位关键点。因此，通过本方案可以实现在模型复杂度较低的情况下，保证人体关键点识别的识别精准度的目的。

下面对图2所示实施例所利用的神经网络模型的训练过程进行介绍。如图3所示，所述神经网络模型的训练过程可以包括：

S301，获得多个样本人体图，以及每一样本人体图中每个人体关键点的坐标；

其中，样本人体图的尺寸为神经网络模型的输入图像的尺寸。并且，样本人体图可以为：对从样本图像中提取的人体区域进行尺寸调整后所得到的图像，该样本图像为视频中的非首帧的视频帧。

可以理解的是，样本人体图中每个人体关键点的坐标可以通过人工标注方式来确定，即通过人工标注方式，在样本人体图中标注出各个人体关键点，从而获得样本人体图中各个人体关键点的坐标。当然，由于样本人体图可以为：对从样本图像中提取的人体区域进行尺寸调整后所得到的图像，因此，在一种实现方式中，样本人体图中每个人体关键点的坐标的确定方式可以包括：

步骤一，确定样本图像中每个人体关键点的坐标：令P＝{P₁,P₂,P₃,...,P_n}为样本图像的人体关键点的组合，其中，n为关键点的个数，P_i＝(x_i,y_i)为第i个坐标；

步骤二，确定样本图像中人体区域的区域信息：令区域信息为(x_bbox,y_bbox,w_bbox,h_bbox)；

步骤三，将样本图像中每个人体关键点映射到人体区域中，得到人体区域中每个人体关键点的坐标：令P^′＝{P′₁,P′₂,P′₃,...,P′_n}为样本人体图的每个关键点的组合，P′_i＝(x′_i,y′_i)为第i个坐标，x′_i＝x_i-x_bbox，y′_i＝y_i-y_bbox；

步骤四，将人体区域中每个人体关键点映射到该人体区域对应的样本人体图中，得到样本人体图中每个人体关键点的坐标。

关于人体关键点的映射方式可以参照上述的S204的映射方式，在此不做赘述。

可以理解的是，样本图像中每个人体关键点的坐标可以通过人工标定方式来得到。

S302，针对每一样本人体图，利用该样本人体图中每个人体关键点的坐标，生成该样本人体图中每个人体关键点的真值热度图和真值位移图；

为了方案清楚及布局清晰，后续示例性的介绍人体关键点的真值热度图和真值位移图的生成方式。

S303，针对每一样本人体图，获得该样本人体图所属视频帧的上一帧中，每个人体关键点的样本蒙版图，并将所获得样本蒙版图的矩阵与该样本人体图的矩阵进行矩阵拼接，得到该样本人体图的拼接矩阵；

其中，任一人体关键点的样本蒙版图可以为将该人体关键点的热度图进行蒙版生成处理所得到的图像；其中，该蒙版生成处理包括：将不为0的像素点调整为1。

并且，将所获得样本蒙版图的矩阵与该样本人体图的矩阵进行矩阵拼接，得到该样本人体图的拼接矩阵具体为：在第三轴的拼接。具体的，假设样本人体图的矩阵为：w_f×h_f×3，任一人体关键点的样本蒙版图的矩阵为：w_f×h_f×1，并且，人体关键点的数量为k，那么，拼接矩阵为：w_f×h_f×(3+k)。

S304，分别将每一样本人体图的拼接矩阵输入至训练中的该神经网络模型，得到每一样本人体图中每个人体关键点的预测热度图和预测位移图；

在将每一样本人体图的拼接矩阵输入至训练中的该神经网络模型后，该神经网络模型针对每一样本人体图的拼接矩阵进行关键点信息识别。具体的，该神经网络模型对所接收到的样本人体图的拼接矩阵提取特征矩阵，进而基于所提取的特征矩阵，生成该样本人体图中每个人体关键点的预测热度图和预测位移图。

以图4(b)所示的模型结构为例，对神经网络模型处理所接收到的样本人体图的拼接矩阵的过程进行介绍：

神经网络模型中的特征提取网络对该样本人体图的拼接矩阵进行特征提取，得到特征矩阵，并将该特征矩阵分别输入至卷积组1和卷积组2，使得卷积组1对特征矩阵进行卷积处理，得到该样本人体图中每个人体关键点的预测热度图，同时，使得卷积组2对特征矩阵进行卷积处理，得到该样本人体图中每个人体关键点的预测位移图。

S305，基于每一样本人体图中每个人体关键点的真值热度图与预测热度图的差异，以及真值位移图与预测位移图的差异，计算综合损失值；

其中，基于每一样本人体图中每个人体关键点的真值热度图与预测热度图的差异，以及真值位移图与预测位移图的差异，计算综合损失值的实现方式存在多种。

可选地，在第一种实现方式中，基于每一样本人体图中每个人体关键点的真值热度图与预测热度图的差异，以及真值位移图与预测位移图的差异，计算综合损失值的步骤，可以包括：

步骤A1，针对每一样本人体图，基于该样本人体图中每个人体关键点的真值热度图与预测热度图的差异，得到该样本人体图中每个人体关键点的第一类损失值，以及基于该样本人体图中每个人体关键点的真值位移图与预测位移图的差异，得到该样本人体图中每个人体关键点的第二类损失值；

步骤A2，针对每个人体关键点，基于该人体关键点的各个第一类损失值，确定该人体关键点的关于热度图的损失值，基于该人体关键点的各个第二类损失值，确定该人体关键点的关于位移图的损失值；

由于各个样本人体图中的人体关键点的数量以及所处位置相同，因此，可以认为每一样本人体图中的人体关键点为同一组人体关键点。那么，在执行完毕步骤A1后，该组人体关键点中的每一人体关键点会对应多个第一类损失值以及多个第二类损失值。进而，可以针对每个人体关键点，利用所对应的多个第一类损失值和多个第二类损失值，计算关于热度图的损失值和关于位移图的损失值。

步骤A3，对每个人体关键点的关于热度图的损失值和关于位移图的损失值进行加权，得到综合损失值。

其中，计算第一类损失值和第二类损失值的所利用的损失函数可以包括但不局限于：平方损失函数、对数损失函数或指数损失函数，等等。另外，针对每一人体关键点而言，关于热度图的损失值和关于位移图的计算方式，可以采用求平均方式，求和方式，或者，加权方式，等等，在此不做限定。并且，每个人体关键点的关于热度图的损失值和关于位移图的损失值进行加权所利用权重，可以根据实际情况设定，在此不做限定。

可选地，在另一种实现方式中，所述基于每一样本人体图中每个人体关键点的真值热度图与预测热度图的差异，以及真值位移图与预测位移图的差异，计算综合损失值的步骤，可以包括：

步骤B1，针对每一样本人体图，对该样本人体图中每个人体关键点的真值热度图进行预定的蒙版生成处理，得到该样本人体图中每个人体关键点的真值蒙版图，以及对该样本人体图中每个人体关键点的预测热度图进行该蒙版生成处理，得到该样本人体图中每个人体关键点的预测蒙版图；其中，该蒙版生成处理包括：将不为0的像素点调整为1；

步骤B2，针对每一样本人体图，将该样本人体图中每个人体关键点的真值位移图，与同一人体关键点的真值蒙版图进行元素级相乘，得到该样本人体图中每个人体关键点的调整后的真值位移图，以及，将该样本人体图中每个人体关键点的预测位移图，与同一人体关键点的预测蒙版图进行元素级相乘，得到该样本人体图中每个人体关键点的调整后的预测位移图；

步骤B3，基于每一样本人体图中每个人体关键点的真值热度图与预测热度图的差异，以及调整后的真值位移图与调整后的预测位移图的差异，计算综合损失值。

该种实现方式中，通过增加蒙版层，对预测位移图和真值位移图的损失进行约束，使得模型训练更容易收敛。

并且，上述的步骤B3的具体实现方式存在多种。示例性的，在一种实现方式中，上述的步骤B3的具体实现，可以与上述步骤A1-步骤A3类似，区别点在于，步骤B3中为调整后的真值位移图和调整后的预测位移图，而上述步骤A1-步骤A3中为真值位移图和预测位移图。

S306，基于该综合损失值，判断训练中的所述神经网络模型是否收敛，如果收敛，结束训练，得到训练完成的所述神经网络模型；否则，调整该神经网络模型的网络参数，继续训练该神经网络模型。

其中，基于该综合损失值，判断训练中的该神经网络模型是否收敛具体可以为：判断该综合损失值是否小于预设阈值，如果小于，判定训练中的该神经网络模型收敛，否则，判定训练中的该神经网络模型未收敛。当判定训练中的该神经网络模型未收敛时，可以调整该神经网络模型的网络参数，继续训练该神经网络模型。所谓继续训练该神经网络模型，即返回执行分别将每一样本人体图的拼接矩阵输入至训练中的该神经网络模型，得到每一样本人体图中每个人体关键点的预测热度图和预测位移图的步骤。另外，在该神经网络模型未收敛时，可以调整的网络参数可以包括但不局限于：卷积核权重，以及全连接层权重；并且，调整网络参数时所利用的调整方式可以存在多种，例如：梯度调节方式，或者，反向传播方式，等等。

针对计算综合损失值的第一种实现方式，关于神经网络模型的训练过程可以参见图4(e)所示的示意图。其中，如图4(e)所示，神经网络模型输出预测热度图和预测位移图后，基于人体关键点的预测热度图与真值热度图的差异，得到关于热度图的损失值；基于人体关键点的预测位移图与真值位移图的差异，得到关于位移图的损失值；进而，根据关于热度图的损失值和关于位移图的损失值，得到综合损失值。

针对计算综合损失值的第二种实现方式，关于神经网络模型的训练过程可以参见图4(f)所示的示意图。其中，如图4(f)所示，神经网络模型输出预测热度图和预测位移图后，基于预测热度图，确定预测蒙版图，并基于预测蒙版图和预测位移图，确定调整后的预测位移图；进而，基于人体关键点的预测热度图与真值热度图的差异，得到关于热度图的损失值；基于人体关键点的调整后的预测位移图与调整后的真值位移图的差异，得到关于位移图的损失值；进而，根据关于热度图的损失值和关于位移图的损失值，得到综合损失值。

下面对所述针对每一样本人体图，利用该样本人体图中每个人体关键点的坐标，生成该样本人体图中每个人体关键点的真值热度图和真值位移图的具体实现方式，进行举例介绍。

可选地，在一种实现方式中，针对每一样本人体图，利用该样本人体图中每个人体关键点的坐标，生成该样本人体图中每个人体关键点的真值热度图的方式，包括：

针对每一样本人体图，按照预定的真值热度图生成方式，利用该样本人体图中每个人体关键点的坐标，生成该样本人体图中每个人体关键点的真值热度图；

其中，所述真值热度图生成方式，包括：

针对待生成真值热度图的人体关键点，生成一个矩阵M，该矩阵M的尺寸与待生成真值热度图的尺寸相同；

遍历该矩阵M中的每一元素，在遍历到每一元素时，按照预定的第二计算公式，计算该元素的取值参考值，如果该元素的取值参考值大于预定阈值，将该元素在该矩阵M中的取值设置为0，否则，按照预定的第三计算公式，计算该元素的取值，将该元素在该矩阵M中的取值设置为所计算的取值；

在遍历完毕该矩阵M中所有元素后，将当前的该矩阵M，作为该人体关键点的真值热度图；

所述第二计算公式包括：

其中，d_ab为该矩阵M中元素P(b,a)的取值参考值，a为该元素P所在行的序号，b为所述元素P所在列的序号，(x_i′,y_i′)为待生成真值热度图的人体关键点i的坐标，round()为用于四舍五入运算的函数；α1为x轴方向上该神经网络模型所输出热度图相对于所输入图像的缩小系数，α2为y轴方向上该神经网络模型所输出热度图相对于所输入图像的缩小系数；

该第三计算公式包括：其中，M[a][b]为该元素P的取值。

其中，该矩阵M的尺寸与真值热度图的尺寸相同。并且，该矩阵M中每个点的初始值可以为0，当然并不局限于此，例如：初始值可以为1、10、100等等，这都是合理的。

可选地，一种实现方式中，针对每一样本人体图，利用该样本人体图中每个人体关键点的坐标，生成该样本人体图中每个人体关键点的真值位移图的方式，包括：

针对每一样本人体图，按照预定的真值位移图生成方式，利用该样本人体图中每个人体关键点的坐标，生成该样本人体图中每个人体关键点的真值位移图；

其中，所述真值位移图生成方式，包括：

针对待生成真值位移图的人体关键点，生成两个尺寸相同的矩阵M_x和M_y，该矩阵M_x和M_y的尺寸与待生成真值位移图的尺寸相同；

遍历该矩阵M_x中的每一元素，在遍历到每一元素时，利用预定的第四计算公式，计算该元素的取值，并将该元素在该矩阵M_x中的取值设置为所计算的取值；在遍历完毕所述矩阵M_x中所有元素后，将当前的该矩阵M_x作为该人体关键点的x轴方向的真值位移图；

遍历该矩阵M_y中的每一元素，在遍历到每一元素时，利用预定的第五计算公式，计算该元素的取值，将该元素在该矩阵M_y中的取值设置为所计算的取值；在遍历完毕该矩阵M_y中所有元素后，将当前的该矩阵M_y作为该人体关键点的y轴方向的真值位移图。

示例性的，在一种实现方式中，针对位移图的每个点用于表征该点所映射的区域块相对于该人体关键点的偏移量，即表征全局偏移量，那么，所述第四计算公式包括：

M_x[a][b]＝b×β1-x_i′；

所述第五计算公式包括：

M_y[a][b]＝a×β2-y_i′；

其中，M_x[a][b]为该矩阵M_x中元素P(b,a)的取值，M_y[a][b]为该矩阵M_y中元素P(b,a)的取值，a为元素P所在行的序号，b为元素P所在列的序号；(x_i′,y_i′)为待生成真值位移图的人体关键点i的坐标，β1为x轴方向上该神经网络模型所输出位移图相对于所输入图像的缩小系数，β2为y轴方向该神经网络模型所输出位移图相对于所输入图像的缩小系数。

其中，矩阵M_x和M_y的尺寸为真值位移图的尺寸。并且，矩阵M_x和M_y中每个点的初始值可以为0，当然并不局限于此，例如：初始值可以为1、10、100等等，这都是合理的。

示例性的，在另一种实现方式中，位移图中每个点用于表征该点相对于该人体关键点的偏移量，即表征局部偏移量，那么，该第四计算公式包括：

M_x[a][b]＝b-xi；

该第五计算公式包括：

M_y[a][b]＝a-yi；

其中，M_x[a][b]为矩阵M_x中点P(b,a)的取值，M_y[a][b]为矩阵M_y中点P(b,a)的取值，a为点P所在行的序号，b为点P所在列的序号； (x_i′,y_i′)为待生成真值位移图的关键点i在样本人体图中的坐标，round()为用于四舍五入运算的函数，β1为x轴方向上该神经网络模型所输出位移图相对于所输入图像的缩小系数，β2为y轴方向该神经网络模型所输出位移图相对于所输入图像的缩小系数。

上述所给出的任一人体关键点的真值热度图和真值位移图的生成方法仅仅作为示例，并不应该构成对本发明实施例的限定。

相应于上述方法实施例，本发明实施例提供了一种人体关键点识别装置。如图5所示，本发明实施例所提供的一种人体关键点识别装置，可以包括：

视频帧提取模块510，用于获得视频中待识别人体关键点的目标视频帧；

人体图提取模块520，用于对所述目标视频帧进行人体图提取处理，得到待利用的目标人体图；

信息识别模块530，用于利用预先训练完成的神经网络模型，以位于所述目标视频帧之前的视频帧的预定人体图像信息作为辅助信息，对所述目标人体图进行关键点信息识别，得到所述目标人体图中每个人体关键点的关键点信息；其中，所述神经网络模型为利用样本人体图和所述样本人体图中每个人体关键点的真值关键点信息，以及以位于所述样本人体图所属视频帧之前的视频帧的所述预定人体图像信息作为辅助信息，所训练得到的模型；所述样本人体图为从样本视频的视频帧中提取的图像；

坐标确定模块540，用于基于所述目标人体图中每个人体关键点的关键点信息，确定所述目标视频帧中每个人体关键点的坐标。

可选地，在一种实现方式中，所述信息识别模块530可以包括：

所述坐标确定模块540可以包括：

可选地，所述神经网络模型通过模型训练模块训练得到，所述模型训练模块包括：

本发明实施例还提供了一种电子设备，如图6所示，包括处理器601、通信接602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现上述任一人体关键点识别方法的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一人体关键点识别方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一人体关键点识别方法的步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、存储介质等实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种人体关键点识别方法，其特征在于，所述方法包括：

获得视频中待识别人体关键点的目标视频帧；

基于所述目标人体图中每个人体关键点的关键点信息，确定所述目标视频帧中每个人体关键点的坐标；

所述神经网络模型的训练过程包括：

针对每一样本人体图，对该样本人体图中每个人体关键点的真值热度图进行预定的蒙版生成处理，得到该样本人体图中每个人体关键点的真值蒙版图，以及对该样本人体图中每个人体关键点的预测热度图进行该蒙版生成处理，得到该样本人体图中每个人体关键点的预测蒙版图；

针对每一样本人体图，将该样本人体图中每个人体关键点的真值位移图，与同一人体关键点的真值蒙版图进行元素级相乘，得到该样本人体图中每个人体关键点的调整后的真值位移图，以及，将该样本人体图中每个人体关键点的预测位移图，与同一人体关键点的预测蒙版图进行元素级相乘，得到该样本人体图中每个人体关键点的调整后的预测位移图；

基于每一样本人体图中每个人体关键点的真值热度图与预测热度图的差异，以及调整后的真值位移图与调整后的预测位移图的差异，计算综合损失值；

2.根据权利要求1所述的方法，其特征在于，所述利用预先训练完成的神经网络模型，以位于所述目标视频帧之前的视频帧的预定人体图像信息作为辅助信息，对所述目标人体图进行关键点信息识别，得到所述目标人体图中每个人体关键点的关键点信息的步骤，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述目标人体图中每个人体关键点的热度图和位移图，确定所述目标视频帧中每个人体关键点的坐标，包括：

4.根据权利要求2所述的方法，其特征在于，所述上一帧的预定人体图像信息为：通过对所述上一帧中每个人体关键点的热度图进行蒙版生成处理所得到的，所述上一帧中每个人体关键点的蒙版图；其中，所述蒙版生成处理包括：将不为0的像素点调整为1。

5.根据权利要求4所述的方法，其特征在于，所述利用预先训练完成的神经网络模型，以所述目标视频帧的上一帧的预定人体图像信息作为辅助信息，对所述目标人体图进行关键点信息识别，得到每个人体关键点的热度图和位移图的步骤，包括：

6.一种人体关键点识别装置，其特征在于，所述装置包括：

坐标确定模块，用于基于所述目标人体图中每个人体关键点的关键点信息，确定所述目标视频帧中每个人体关键点的坐标；

所述神经网络模型的训练过程包括：

7.根据权利要求6所述的装置，其特征在于，所述信息识别模块包括：

所述坐标确定模块包括：

8.根据权利要求7所述的装置，其特征在于，所述坐标确定子模块具体用于：

9.根据权利要求7所述的装置，其特征在于，所述上一帧的预定人体图像信息为：

10.根据权利要求9所述的装置，其特征在于，所述信息识别子模块具体用于：

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。