CN114863473B

CN114863473B - 一种人体关键点检测方法、装置、设备及存储介质

Info

Publication number: CN114863473B
Application number: CN202210323217.0A
Authority: CN
Inventors: 杨黔生
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-03-29
Filing date: 2022-03-29
Publication date: 2023-06-16
Anticipated expiration: 2042-03-29
Also published as: CN114863473A

Abstract

本公开提供了一种人体关键点检测方法、装置、设备及存储介质，涉及人工智能技术领域，具体涉及深度学习和计算机视觉技术领域，可应用于3D视觉、增强现实和虚拟现实等场景。具体实现方案为：获取待检测视频帧序列；对所述待检测视频帧序列中的待检测视频帧进行人体关键点检测，得到所述待检测视频帧对应的人体关键点之间的向量和人体关键点热图；根据所述人体关键点之间的向量和所述人体关键点热图，确定所述待检测视频帧中人体关键点的位置信息。通过上述技术方案，可以高效且精准定位视频帧中人体的关键点。

Description

一种人体关键点检测方法、装置、设备及存储介质

技术领域

本公开涉及人工智能技术领域，具体涉及深度学习和计算机视觉技术领域，可应用于3D视觉、增强现实和虚拟现实等场景。

背景技术

随着人工智能技术的发展，短视频、直播、在线教育等行业不断的兴起，在各种交互场景中，基于人体关键点信息进行互动的功能需求越来越多。那么，如何精准且高效定位人体关键点至关重要。

发明内容

本公开提供了一种人体关键点检测方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种人体关键点检测方法，该方法包括：

获取待检测视频帧序列；

对所述待检测视频帧序列中的待检测视频帧进行人体关键点检测，得到所述待检测视频帧对应的人体关键点之间的向量和人体关键点热图；

根据所述人体关键点之间的向量和所述人体关键点热图，确定所述待检测视频帧中人体关键点的位置信息。

根据本公开的另一方面，提供了一种电子设备，该电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开任一实施例所述人体关键点检测方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行本公开任一实施例所述的人体关键点检测方法。

根据本公开的技术，能够提高人体关键点的检测精准度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例提供的一种人体关键点检测方法的流程图；

图2是根据本公开实施例提供的另一种人体关键点检测方法的流程图；

图3是根据本公开实施例提供的一种关键点检测模型的示意图；

图4是根据本公开实施例提供的又一种人体关键点检测方法的流程图图；

图5是根据本公开实施例提供的再一种人体关键点检测方法的流程图；

图6是根据本公开实施例提供的一种人体图结构中关键点的示意图；

图7是根据本公开实施例提供的一种人体关键点检测装置的结构示意图；

图8是用来实现本公开实施例的人体关键点检测方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本公开实施例提供的一种人体关键点检测方法的流程图，该方法适用于如何对人体关键点进行检测的情况。该方法可以由人体关键点检测装置来执行，该装置可以采用软件和/或硬件的方式实现，并可集成于承载人体关键点检测功能的电子设备中。如图1所示，本实施例的人体关键点检测方法可以包括：

S101，获取待检测视频帧序列。

本实施例中，待检测视频帧序列为需要进行人体关键点检测的视频帧序列。其中，视频帧序列即为各视频帧按照采集时间所组成的序列。

具体的，可以从短视频、直播和在线教育等交互场景的视频中，获取待检测视频帧序列。

S102，对待检测视频帧序列中的待检测视频帧进行人体关键点检测，得到待检测视频帧对应的人体关键点之间的向量和人体关键点热图。

本实施例中，人体关键点为用于表征人体的关键点，可以包括但不限于人体中心点、头部(头顶)、鼻子(或脸部中心)、脖子、右肩、右肘、右手腕、左肩、左肘、左手腕、胸部、盆骨、左髋、右髋、左膝盖、左脚踝、右膝盖和右脚踝等关键点。

进一步的，可以根据预设的人体结构连接关系，确定人体关键点之间的连接关系，例如头部(头顶)与鼻子(或脸部中心)相连，鼻子(或脸部中心)与脖子相连，脖子与右肩相连，脖子与胸部相连，胸部与人体中心点相连，人体中心点与盆骨相连等。

所谓人体关键点之间的向量用于表征相连两个人体关键点之间的距离关系，可以是相连两个人体关键点之间的位置坐标之差，例如头部与鼻子之间的位置坐标之差、人体中心点与胸部之间的位置坐标之差、右肩与胸部之间的位置坐标之差、以及右肩与右肘之间的位置坐标之差等。

所谓人体关键点热图为人体关键点的二维位置在图像中的热力图，包含人体关键点的二维位置信息；可选的，每一个人体关键点对应于一个人体关键点热图，比如头部对应于头部热图，人体中心点对应于人体中心点热图等。

一种可选方式，可以基于关键点检测模型，对待检测视频帧序列中的待检测视频帧进行人体关键点检测，经过模型处理，得到待检测视频帧对应的人体关键点之间的向量和人体关键点热图。其中，关键点检测模型为采用训练样本，基于机器学习算法预先训练得到的。

S103，根据人体关键点之间的向量和人体关键点热图，确定待检测视频帧中人体关键点的位置信息。

具体的，可以基于解码模型，对人体关键点之间的向量和人体关键点热图进行处理，得到待检测视频帧中人体关键点的位置信息。其中，解码模型基于机器学习算法预先训练得到。

本公开实施例的技术方案，通过对获取的待检测视频帧序列中的待检测视频帧进行人体关键点检测，可得到待检测视频帧对应的人体关键点之间的向量和人体关键点热图，进而根据人体关键点之间的向量和人体关键点热图，可确定待检测视频帧中人体关键点的位置信息。上述技术方案，在人体关键点检测过程中，引入视频帧对应的人体关键点之间的向量，相比于现有的人体关键点检测方式比如高斯热图方式而言，提高了人体关键点检测精准度；进一步的，尤其是在多人场景下，本方案也可高效且精准定位每一人体的关键点。

图2是根据本公开实施例提供的另一种人体关键点检测方法的流程图；本实施例在上述实施例的基础上，对“对待检测视频帧序列中的待检测视频帧进行人体关键点检测，得到待检测视频帧对应的人体关键点之间的向量和人体关键点热图”进一步优化，提供了一种可选实施方案。如图2所示，本实施例的人体关键点检测方法可以包括：

S201，获取待检测视频帧序列。

S202，将待检测视频帧序列输入到关键点检测模型中的第一特征提取网络，得到待检测视频帧序列中待检测视频帧对应的第一特征。

本实施例中，关键点检测模型可以包括第一特征提取网络、第二特征提取网络和关键点检测网络。其中，第一特征提取网络用于提取待检测视频帧的高级语义特征即第一特征，例如可以是卷积神经网络(比如ResNet50)；第二特征提取网络用于提取待检测视频帧序列的帧间信息，例如可以是双向递归神经网络(比如双向RNN)；关键点检测网络用于提取待检测视频帧对应的人体关键点之间的向量和人体关键点热图，例如可以是掩膜循环卷积神经网络(Mask-RCNN)等。

此外，需要说明的是，关键点检测模型是预先根据训练样本数据，进行训练得到的。具体的，可以采用训练样本数据对初始第一特征提取网络、初始第二特征提取网络和初始关键点检测网络进行联合训练，得到关键点检测模型。进一步的，在进行模型训练之前，还可以对训练样本数据进行不同尺度缩放、旋转角度、彩色空间的扰动增强，以提高模型的泛化能力。

具体的，可以将待检测视频帧序列输入到关键点检测模型中的第一特征提取网络，经过第一特征提取网络处理，得到待检索视频帧序列中每一待检测视频帧对应的第一特征。

S203，将第一特征输入到关键点检测模型中的第二特征提取网络，得到待检测视频帧对应的目标特征。

本实施例中，目标特征相比于第一特征而言，能够更好地表征待检测视频帧序中人体的相关特征。

具体的，将各待检测视频帧对应的第一特征输入到关键点检测模型中的第二特征提取网络，经过第二特征提取网络处理，可得到每一待检测视频帧对应的目标特征。

S204，将目标特征输入到关键点检测模型中的关键点检测网络，得到待检测视频帧对应的人体关键点之间的向量和人体关键点热图。

具体的，可以将每一待检测视频帧对应的目标特征输入到关键点检测模型中的关键点检测网络，经过关键点检测网络处理，可得到每一待检测视频帧对应的人体关键点之间的向量和人体关键点热图。

S205，根据人体关键点之间的向量和人体关键点热图，确定待检测视频帧中人体关键点的位置信息。

本公开实施例的技术方案，通过获取待检测视频帧序列，之后将待检测视频帧序列输入到关键点检测模型中的第一特征提取网络，得到待检测视频帧序列中待检测视频帧对应的第一特征，并将第一特征输入到关键点检测模型中的第二特征提取网络，得到待检测视频帧对应的目标特征，进而将目标特征输入到关键点检测模型中的关键点检测网络，得到待检测视频帧对应的人体关键点之间的向量和人体关键点热图，最后根据人体关键点之间的向量和人体关键点热图，确定待检测视频帧中人体关键点的位置信息。上述技术方案，通过采用两层级的特征提取网络来提取待检测视频帧的特征，保证了特征提取的全面性和准确性，使得人体关键点之间的向量和人体关键点热图的确定更加准确，从而进一步提高了人体关键点的检测精准度。

由于在对待检测视频帧进行人体关键点检测时，不同视频帧中的同一关键点可能在某一视频帧出现丢失的情况，导致待检测视频帧的目标特征不准确，因此，为了使得待检测视频帧对应的目标特征更加准确，作为本公开实施例的一种可选方式，如图3所示，关键点检测模型包括第一特征提取网络、第二特征提取网络和关键点检测网络；进一步的，第二特征提取网络优选为双向RNN，可以包括正向特征提取网络和反向特征提取网络，其中，正向特征提取网络用于按照待检测视频帧序列中待检测视频帧之间的正向顺序(即采集顺序)，对待检测视频帧对应的第一特征进行处理；相应的，反向特征提取网络用于按照待检测视频帧序列中待检测视频帧之间的反向顺序，对待检测视频帧对应的第一特征进行处理。

相应的，将第一特征输入到关键点检测模型中的第二特征提取网络，得到待检测视频帧对应的目标特征还可以是，分别将第一特征输入到正向特征提取网络和反向特征提取网络，得到待检测视频帧对应的正向特征和反向特征；将正向特征和反向特征进行融合，得到待检测视频帧对应的目标特征。

具体的，可以分别将各待检测视频帧对应的第一特征输入至正向特征提取网络和方向特征提取网络，经过正向特征提取网络和反向特征提取网络处理，可以得到每一待检测视频帧对应的正向特征和反向特征；之后对于每一待检测视频帧，可以将该待检测视频帧对应的正向特征和反向特征进行融合，例如可以将正向特征可反向特征进行拼接，得到该待检测视频帧对应的目标特征。

可以理解的是，通过正向特征提取网络和反向特征提取网络对第一特征进行处理，得到目标特征，充分考虑了待检测视频序列中视频帧之间的帧间关系，使得所确定的目标特征更加准确，为后续人体关键点定位提供了保障。

图4是根据本公开实施例提供的又一种人体关键点检测方法的流程图图；本实施例在上述实施例的基础上，对“根据人体关键点之间的向量和人体关键点热图，确定待检测视频帧中人体关键点的位置信息”进一步优化，提供了一种可选实施方案。如图4所示，本实施例提供的人体关键点检测方法可以包括：

S401，获取待检测视频帧序列。

S402，对待检测视频帧序列中的待检测视频帧进行人体关键点检测，得到待检测视频帧对应的人体关键点之间的向量和人体关键点热图。

S403，根据人体关键点热图中的人体中心点热图，确定待检测视频帧中人体中心点的二维坐标信息。

本实施例中，人体关键点可以分为人体中心点和非人体中心点；可选的，可以根据预先标注的信息，从人体关键点中确定人体中心点和非人体中心点。示例性的，可以为每一个人体关键点分配一个标识信息，进而可以根据每一人体关键点的标识信息，确定人体中心点和非人体中心点，比如可以检测到18个人体关键点，分别以序号1-18标注表示，若预先规定腹部对应的关键点标识为1，则将标识为1的人体关键点(腹部)作为人体中心点，其余人体关键点为非人体中心点。进一步的，人体中心点热图为人体中心点对应的热图，非人体中心点热图为非人体中心点对应的热图。

一种可选方式，可以根据人体关键点的标识信息，从人体关键点热图中确定人体中心点热图，进而可以将人体中心点热图的位置信息，作为人体中心点的二维坐标信息。需要说明的是，若待检测视频中包含一个人体，则人体中心点热图中只有一个人体中心点的热力图；若待检测视频帧中包含多个人体，则人体中心点热图中包括多个人体中心点的热力图，即该热图中包含多个子热图，进而将每一子热图的位置信息，作为对应的人体中心点的二维坐标信息。

S404，根据人体中心点的二维坐标信息、人体关键点之间的向量和人体关键点热图中的非人体中心点热图，确定待检测视频帧中非人体中心点的二维坐标信息。

一种可选方式，可以基于预设规则并结合人体结构图，根据人体中心点的二维坐标信息、人体关键点之间的向量和人体关键点热图中的非人体中心点热图，确定待检测视频帧中非人体中心点的二维坐标信息。

例如，对于每一待检测视频帧，若该待检测视频帧中只包含单个人体，则可以直接根据每一非人体中心点热图，来确定该待检测视频帧中每一非人体中心点的二维坐标信息；或者，对于每一非人体中心点，可以结合人体结构图和预设规则，根据人体中心点的二维坐标信息和人体关键点之间的向量，推算出该非人体中心点的预测坐标信息，之后根据该非人体中心点的预测坐标信息和该非人体中心点对应的非人体中心点热图中的位置信息，确定该非人体中心点的二维坐标信息。具体可以是，计算该非人体中心点的预测坐标信息和该非人体中心点对应的非人体中心点热图中的位置信息之间的中点，将该中点的位置信息作为该非人体中心点的二维坐标信息。

再如，对于每一待检测视频帧，若该待检测视频帧中包含多个人体，则对于每一人体中心点，根据该人体中心点的二维坐标信息、关联的人体关键点之间的向量和对应的非人体中心点热图，确定该人体中心点对应的非人体中心点的二维坐标信息。

本公开实施例的技术方案，通过获取待检测视频帧序列，之后对待检测视频帧序列中的待检测视频帧进行人体关键点检测，得到待检测视频帧对应的人体关键点之间的向量和人体关键点热图，进而根据人体关键点热图中的人体中心点热图，确定待检测视频帧中人体中心点的二维坐标信息，并根据人体中心点的二维坐标信息、人体关键点之间的向量和人体关键点热图中的非人体中心点热图，确定待检测视频帧中非人体中心点的二维坐标信息。上述技术方案，以人体中心点为切入点，基于人体关键点之间的向量等，可以高效且精准的定位人体关键点。

图5是根据本公开实施例提供的再一种人体关键点检测方法的流程图。本实施例在上述实施例的基础上，对“根据人体中心点的二维坐标信息、人体关键点之间的向量和人体关键点热图中的非人体中心点热图，确定待检测视频帧中非人体中心点的二维坐标信息”进一步优化，提供了一种可选实施方案。如图5所示，本实施例提供的人体关键点检测方法可以包括：

S501，获取待检测视频帧序列。

S502，对待检测视频帧序列中的待检测视频帧进行人体关键点检测，得到待检测视频帧对应的人体关键点之间的向量和人体关键点热图。

S503，根据人体关键点热图中的人体中心点热图，确定待检测视频帧中人体中心点的二维坐标信息。

S504，根据人体关键点中非人体中心点与人体中心点之间的连接关系，将非人体中心点分为第一关键点和第二关键点。

具体的，将非人体中心点中与人体中心点相连的关键点，作为第一关键点。将非人体中心点中除去第一关键点之外的关键点，也即未与人体中心点直接相连的关键点，作为第二关键点。

S505，根据人体中心点的二维坐标信息、第一关键点热图和第一关键点与人体中心点之间的向量，确定第一关键点的二维坐标信息。

本实施例中，第一关键点热图为第一关键点对应的热图。

具体的，根据人体中心点的二维坐标信息和第一关键点与人体中心点之间的向量，确定第一关键点的预测坐标信息，根据第一关键点的预测坐标信息和第一关键点热图，确定第一关键点的二维坐标信息。

S506，根据第一关键点的二维坐标信息、第二关键点热图、第一关键点与第二关键点之间的向量和不同第二关键点之间的向量，确定第二关键点的二维坐标信息。

具体的，可以根据第一关键点的二维坐标信息，以及第一关键点与第二关键点之间的向量，确定与第一关键点相连的第二关键点的预测坐标信息，之后根据该预测坐标信息和对应的第二关键点热图中的位置信息，确定与第一关键点相连的第二关键点的二维坐标信息；进而根据该第二关键点的二维坐标信息、与该第二关键点相连的其他第二关键点的第二关键点热图、该第二关键点与该第二关键点相连的其他第二关键点之间的向量，确定与该第二关键点相连的其他第二关键点的二维坐标信息；以此类推，依次确定剩余所有第二关键点的二维坐标信息。

本公开实施例的技术方案，通过获取待检测视频帧序列，之后对待检测视频帧序列中的待检测视频帧进行人体关键点检测，得到待检测视频帧对应的人体关键点之间的向量和人体关键点热图，并根据人体关键点热图中的人体中心点热图，确定待检测视频帧中人体中心点的二维坐标信息，进而根据人体关键点中非人体中心点与人体中心点之间的连接关系，将非人体中心点分为第一关键点和第二关键点，并根据人体中心点的二维坐标信息、第一关键点热图和第一关键点与人体中心点之间的向量，确定第一关键点的二维坐标信息，最后根据第一关键点的二维坐标信息、第二关键点热图、第一关键点与第二关键点之间的向量和不同第二关键点之间的向量，确定第二关键点的二维坐标信息。上述技术方案，引入第一关键点和第二关键点，可以更高效且准确的确定非人体中心点的坐标信息。

一个具体的例子，结合图6给出的人体结构树形图，设定人体中心点为腹部1，其余关键点2-18为非人体中心点，其中第一关键点为胸部2和盆骨3，其余关键点为第二关键点，以人体中心点腹部1、第一关键点为胸部2、第二关键点为第一关键点为右肩4、右肘5、右手腕6为例，详细说明人体中心点和非人体中心点的二维坐标信息确定过程：

将腹部1对应的人体中心点热图中的位置信息，作为腹部1(人体中心点)的二维坐标信息，之后根据腹部1的二维坐标信息、胸部2与腹部1之间的向量、胸部1对应的第一关键点热图，确定胸部2的二维坐标信息，进而，根据胸部2(第一关键点)的二维坐标信息、胸部2与右肩4之间的向量、右肩4对应的第二关键点热图，确定右肩4的二维坐标信息，并根据右肩4的二维坐标信息、右肩4与右肘5之间的向量、以及右肘5对应的第二关键点热图，确定右肘5的二维坐标信息；根据右肘5的二维坐标信息、右肘5与右手腕6之间的向量、以及右手腕6对应的第二关键点热图，确定右手腕6的二维坐标信息。以相同的思路，依次可以确定其他第一关键点和第二关键点的二维坐标信息。

在上述实施例的基础上，作为本公开的一种可选方式，若人体中心点为至少两个，则每一人体中心点关联的第一关键点的第一关键点热图中包括至少两个子热图；进一步的，对于相同的第一关键点而言，各人体中心点关联的第一关键点的第一关键点热图相同。比如，人体中心点有两个，分别记为中心点1和中心点2；第一关键点为胸部，对应的，第一关键点热图为胸部热图，中心点1关联的胸部和中心点2关联的胸部，均关联此胸部热图。进一步的，胸部热图中包括两个子热图，即中心点1关联的胸部所对应的热力图和中心点2关联的胸部所对应的热力图。

相应的，根据人体中心点的二维坐标信息、第一关键点热图和第一关键点与人体中心点之间的向量，确定第一关键点的二维坐标信息还可以是，根据每一人体中心点的二维坐标信息，以及该人体中心点关联的第一关键点与该人体中心点之间的向量，确定该人体中心点关联的第一关键点的预测坐标信息；根据预测坐标信息，从该人体中心点关联的第一关键点热图的至少两个子热图中选择目标子热图；根据目标子热图，确定该人体中心点关联的第一关键点的二维坐标信息。

具体的，对于每一人体中心点，对该人体中心点的二维坐标信息，以及该人体中心点关联的第一关键点与该人体中心点之间的向量进行相加，将相加后的结果作为该人体中心点关联的第一关键点的预测坐标信息；之后，分别计算预测坐标信息，与该人体中心点关联的第一关键点热图每一子热图之间的距离，将最小距离对应的子热图，作为目标子热图(即与该人体中心点关联的第一关键点相匹配的热力图)；进而将目标子热图中的位置信息，作为该人体中心点关联的第一关键点的二维坐标信息。

可以理解的是，本方案在多人场景下，也可更高效且准确的定位每一人体关键点的坐标信息。

进一步的，在多人场景下，每一人体中心点关联的第二关键点的第二关键点热图中也包括至少两个子热图。进而对于每一人体中心点，在确定该人体中心点关联的第一关键点的二维坐标信息之后，可以根据该人体中心点关联的第一关键点的二维坐标信息、该人体中心点关联的第二关键点的第二关键点热图、该人体中心点关联的第一关键点与第二关键点之间的向量，以及该人体中心点关联的不同第二关键点之间的向量，确定该人体中心点关联的第二关键点的二维坐标信息。

具体可以是，对于与第一关键点直接相连的第二关键点(即第一子关键点)，可以根据该人体中心点关联的第一关键点的二维坐标信息，以及该人体中心点关联的第二关键点与第一关键点之间的向量，确定该人体中心点关联的第二关键点的预测坐标信息；根据预测坐标信息，从该人体中心点关联的第二关键点热图的至少两个子热图中选择目标子热图；根据目标子热图，确定该人体中心点关联的第二关键点的二维坐标信息。

以此类推，可以根据该人体中心点关联的第一子关键点的二维坐标信息、以及不同第二关键点之间的向量、该人体中心点关联的第二子关键点(即与第一关键点不直接相连的第二关键点)热图，确定人体中心点关联的第二子关键点的二维坐标信息。

在上述实施例的基础上，作为本公开实施例的一种可选方式，在3D场景下，对待检测视频帧序列进行人体关键点检测可以是，对待检测视频帧序列中的待检测视频帧进行人体关键点检测，得到待检测视频帧对应的人体中心点的深度信息、人体关键点之间的向量和人体关键点热图，之后根据人体关键点热图中的人体中心点热图，确定待检测视频帧中人体中心点的二维坐标信息，进而根据人体中心点的二维坐标信息和深度信息，确定人体中心点的三维坐标信息；根据人体中心点的深度信息和人体关键点之间的向量，确定非人体中心点的深度信息；根据非人体中心点的二维坐标信息和深度信息，确定非人体中心点的三维坐标信息。

需要说明的是，此时人体关键点之间的向量为三维向量。

示例性的，根据人体中心点的二维坐标信息和深度信息，确定人体中心点的三维坐标信息可以是，对于每一待检测视频帧，无论该待检测视频帧中包含单个人体还是多个人体，对于每一人体中心点，都可以根据该人体中心点的二维坐标信息和深度信息，确定人体中心点的三维坐标信息。具体可以是，将深度信息作为z轴坐标，将二维坐标信息作为分别作为x轴坐标和y轴坐标，以得到人体中心点的三维坐标信息。

示例性的，对于每一非人体中心点，可以根据人体中心点的深度信息和人体关键点之间的向量，确定该非人体中心点的深度信息，进而根据该非人体中心点的二维坐标信息和深度信息，确定非人体中心点的三维坐标信息。比如，非人体中心点为胸部，从人体中心点和胸部之间的向量中提取z轴分量，将人体中心点的深度信息和z轴分量相加，作为胸部的深度信息，进而根据胸部的二维坐标信息和深度信息，确定胸部的三维坐标信息，即将胸部的深度信息作为三维坐标信息中的z轴坐标。

可以理解的是，引入深度信息和人体关键点之间的向量，来确定人体关键点的三维坐标信息，可以在3D场景下，高效且精准的定位人体关键点。

需要说明的是，在3D场景下，人体关键点之间的向量为三维向量，因此在确定非人体中心点的二维坐标信息时，根据人体中心点的二维坐标信息，以及人体关键点之间的向量中的x轴和y轴分量，来确定非人体中心点的二维坐标信息。

图7是根据本公开实施例提供的一种人体关键点检测装置的结构示意图。本公开实施例适用于如何基于知识蒸馏技术，对学生模型进行训练的情况。该装置可以采用软件和/或硬件来实现，该装置可以实现本公开任意实施例的人体关键点检测方法。如图7所示，该人体关键点检测装置700包括：

视频帧序列获取模块701，用于获取待检测视频帧序列；

关键点检测模块702，用于对待检测视频帧序列中的待检测视频帧进行人体关键点检测，得到待检测视频帧对应的人体关键点之间的向量和人体关键点热图；

位置信息确定模块703，用于根据人体关键点之间的向量和人体关键点热图，确定待检测视频帧中人体关键点的位置信息。

本公开实施例的技术方案，通过获取待检测视频帧序列，之后对待检测视频帧序列中的待检测视频帧进行人体关键点检测，得到待检测视频帧对应的人体关键点之间的向量和人体关键点热图，进而根据人体关键点之间的向量和人体关键点热图，确定待检测视频帧中人体关键点的位置信息。上述技术方案，在人体关键点检测过程中，引入视频帧对应的人体关键点之间的向量，相比于现有的人体关键点检测方式比如高斯热图方式而言，提高了人体关键点检测精准度；进一步的，尤其是在多人场景下，本方案可高效且精准定位每一人体的关键点。

进一步地，关键点检测模块702包括：

第一特征确定单元，用于将待检测视频帧序列输入到关键点检测模型中的第一特征提取网络，得到待检测视频帧序列中待检测视频帧对应的第一特征；

目标特征确定单元，用于将第一特征输入到关键点检测模型中的第二特征提取网络，得到待检测视频帧对应的目标特征；

热图确定单元，用于将目标特征输入到关键点检测模型中的关键点检测网络，得到待检测视频帧对应的人体关键点之间的向量和人体关键点热图。

进一步地，关键点检测模型中的第二特征提取网络包括正向特征提取网络和反向特征提取网络；

相应的，目标特征确定单元具体用于：

分别将第一特征输入到正向特征提取网络和反向特征提取网络，得到待检测视频帧对应的正向特征和反向特征；

将正向特征和反向特征进行融合，得到待检测视频帧对应的目标特征。

进一步地，位置信息确定模块703包括：

第一坐标确定单元，用于根据人体关键点热图中的人体中心点热图，确定待检测视频帧中人体中心点的二维坐标信息；

第二坐标确定单元，用于根据人体中心点的二维坐标信息、人体关键点之间的向量和人体关键点热图中的非人体中心点热图，确定待检测视频帧中非人体中心点的二维坐标信息。

进一步地，第二坐标确定单元包括：

关键点划分子单元，用于根据人体关键点中非人体中心点与人体中心点之间的连接关系，将非人体中心点分为第一关键点和第二关键点；

第一坐标确定子单元，用于根据人体中心点的二维坐标信息、第一关键点热图和第一关键点与人体中心点之间的向量，确定第一关键点的二维坐标信息；

第二坐标确定子单元，用于根据第一关键点的二维坐标信息、第二关键点热图、第一关键点与第二关键点之间的向量和不同第二关键点之间的向量，确定第二关键点的二维坐标信息。

进一步地，若人体中心点为至少两个，则每一人体中心点关联的第一关键点的第一关键点热图中包括至少两个子热图；

相应的，第一坐标确定子单元具体用于：

根据每一人体中心点的二维坐标信息，以及该人体中心点关联的第一关键点与该人体中心点之间的向量，确定该人体中心点关联的第一关键点的预测坐标信息；

根据预测坐标信息，从该人体中心点关联的第一关键点热图的至少两个子热图中选择目标子热图；

根据目标子热图，确定该人体中心点关联的第一关键点的二维坐标信息。

进一步地，位置信息确定模块还包括：

第三坐标确定单元，用于根据人体中心点的二维坐标信息和深度信息，确定人体中心点的三维坐标信息；

深度信息确定单元，用于根据人体中心点的深度信息和人体关键点之间的向量，确定非人体中心点的深度信息；

第四坐标确定单元，用于根据非人体中心点的二维坐标信息和深度信息，确定非人体中心点的三维坐标信息。

本公开的技术方案中，所涉及的视频帧序列等的获取、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，电子设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储电子设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

电子设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如人体关键点检测方法。例如，在一些实施例中，人体关键点检测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的人体关键点检测方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行人体关键点检测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。

云计算(cloud computing)，指的是通过网络接入弹性可扩展的共享物理或虚拟资源池，资源可以包括服务器、操作系统、网络、软件、应用和存储设备等，并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术，可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种人体关键点检测方法，包括：

获取待检测视频帧序列；

根据所述人体关键点热图中的人体中心点热图，确定所述待检测视频帧中人体中心点的二维坐标信息；

根据所述人体关键点中非人体中心点与所述人体中心点之间的连接关系，将所述非人体中心点分为第一关键点和第二关键点；

根据人体中心点的二维坐标信息和所述第一关键点与所述人体中心点之间的向量，确定所述第一关键点的预测坐标信息；

根据所述第一关键点的预测坐标信息和第一关键点热图，确定所述第一关键点的二维坐标信息；

根据所述第一关键点的二维坐标信息、第一关键点与第二关键点之间的向量、以及与第一关键点相连的第二关键点的第二关键点热图，确定与第一关键点相连的第二关键点的二维坐标信息；根据该第二关键点的二维坐标信息、与该第二关键点相连的其他第二关键点的第二关键点热图、该第二关键点与该第二关键点相连的其他第二关键点之间的向量，确定与该第二关键点相连的其他第二关键点的二维坐标信息；以此类推，依次确定剩余所有第二关键点的二维坐标信息。

2.根据权利要求1所述的方法，其中，所述对所述待检测视频帧序列中的待检测视频帧进行人体关键点检测，得到所述待检测视频帧对应的人体关键点之间的向量和人体关键点热图，包括：

将所述待检测视频帧序列输入到关键点检测模型中的第一特征提取网络，得到所述待检测视频帧序列中待检测视频帧对应的第一特征；

将所述第一特征输入到所述关键点检测模型中的第二特征提取网络，得到所述待检测视频帧对应的目标特征；

将所述目标特征输入到所述关键点检测模型中的关键点检测网络，得到所述待检测视频帧对应的人体关键点之间的向量和人体关键点热图。

3.根据权利要求2所述的方法，其中，所述关键点检测模型中的第二特征提取网络包括正向特征提取网络和反向特征提取网络；

相应的，所述将所述第一特征输入到所述关键点检测模型中的第二特征提取网络，得到所述待检测视频帧对应的目标特征，包括：

分别将所述第一特征输入到所述正向特征提取网络和所述反向特征提取网络，得到所述待检测视频帧对应的正向特征和反向特征；

将所述正向特征和所述反向特征进行融合，得到所述待检测视频帧对应的目标特征。

4.根据权利要求1所述的方法，其中，若所述人体中心点为至少两个，则每一人体中心点关联的第一关键点的第一关键点热图中包括至少两个子热图；

相应的，所述根据所述第一关键点的预测坐标信息和第一关键点热图，确定所述第一关键点的二维坐标信息，包括：

根据每一人体中心点关联的第一关键点的预测坐标信息，从该人体中心点关联的第一关键点热图的至少两个子热图中选择目标子热图；

根据所述目标子热图，确定该人体中心点关联的第一关键点的二维坐标信息。

5.根据权利要求1所述的方法，还包括：

根据所述人体中心点的二维坐标信息和深度信息，确定所述人体中心点的三维坐标信息；

根据所述人体中心点的深度信息和所述人体关键点之间的向量，确定所述非人体中心点的深度信息；

根据所述非人体中心点的二维坐标信息和深度信息，确定所述非人体中心点的三维坐标信息。

6.一种人体关键点检测装置，包括：

视频帧序列获取模块，用于获取待检测视频帧序列；

关键点检测模块，用于对所述待检测视频帧序列中的待检测视频帧进行人体关键点检测，得到所述待检测视频帧对应的人体关键点之间的向量和人体关键点热图；

位置信息确定模块，包括：

第一坐标确定单元，用于根据所述人体关键点热图中的人体中心点热图，确定所述待检测视频帧中人体中心点的二维坐标信息；

第二坐标确定单元，包括：

关键点划分子单元，用于根据所述人体关键点中非人体中心点与所述人体中心点之间的连接关系，将所述非人体中心点分为第一关键点和第二关键点；

第一坐标确定子单元，用于根据人体中心点的二维坐标信息和所述第一关键点与所述人体中心点之间的向量，确定所述第一关键点的预测坐标信息；根据所述第一关键点的预测坐标信息和第一关键点热图，确定所述第一关键点的二维坐标信息；

第二坐标确定子单元，用于根据所述第一关键点的二维坐标信息、第一关键点与第二关键点之间的向量、以及与第一关键点相连的第二关键点的第二关键点热图，确定与第一关键点相连的第二关键点的二维坐标信息；根据该第二关键点的二维坐标信息、与该第二关键点相连的其他第二关键点的第二关键点热图、该第二关键点与该第二关键点相连的其他第二关键点之间的向量，确定与该第二关键点相连的其他第二关键点的二维坐标信息；以此类推，依次确定剩余所有第二关键点的二维坐标信息。

7.根据权利要求6所述的装置，其中，所述关键点检测模块包括：

第一特征确定单元，用于将所述待检测视频帧序列输入到关键点检测模型中的第一特征提取网络，得到所述待检测视频帧序列中待检测视频帧对应的第一特征；

目标特征确定单元，用于将所述第一特征输入到所述关键点检测模型中的第二特征提取网络，得到所述待检测视频帧对应的目标特征；

热图确定单元，用于将所述目标特征输入到所述关键点检测模型中的关键点检测网络，得到所述待检测视频帧对应的人体关键点之间的向量和人体关键点热图。

8.根据权利要求7所述的装置，其中，所述关键点检测模型中的第二特征提取网络包括正向特征提取网络和反向特征提取网络；

相应的，所述目标特征确定单元具体用于：

9.根据权利要求6所述的装置，其中，若所述人体中心点为至少两个，则每一人体中心点关联的第一关键点的第一关键点热图中包括至少两个子热图；

相应的，所述第一坐标确定子单元具体用于：

10.根据权利要求6所述的装置，其中，所述位置信息确定模块还包括：

第三坐标确定单元，用于根据所述人体中心点的二维坐标信息和深度信息，确定所述人体中心点的三维坐标信息；

深度信息确定单元，用于根据所述人体中心点的深度信息和所述人体关键点之间的向量，确定所述非人体中心点的深度信息；

第四坐标确定单元，用于根据所述非人体中心点的二维坐标信息和深度信息，确定所述非人体中心点的三维坐标信息。

11. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的人体关键点检测方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-5中任一项所述的人体关键点检测方法。