CN114022684B

CN114022684B - 人体姿态估计方法及装置

Info

Publication number: CN114022684B
Application number: CN202210003055.2A
Authority: CN
Inventors: 王金桥; 陈盈盈; 周鲁; 王海鑫
Original assignee: Objecteye Beijing Technology Co Ltd
Current assignee: Objecteye Beijing Technology Co Ltd
Priority date: 2022-01-05
Filing date: 2022-01-05
Publication date: 2022-04-05
Anticipated expiration: 2042-01-05
Also published as: CN114022684A

Abstract

本发明提供一种人体姿态估计方法及装置，该方法包括获取待识别图像；将待识别图像输入姿态估计模型，获取姿态估计模型输出的待识别图像中每一人体实例的姿态；其中，姿态估计模型，用于从待识别图像中确定多个关键点，基于各关键点对应的身份信息和尺度信息对待识别图像进行人体姿态估计，尺度信息基于对应关键点在待识别图像对应的特征嵌入图中的嵌入向量确定，身份信息基于嵌入向量在所处空间中的位置确定。本发明提供的人体姿态估计方法及装置，能在待识别图像中至少一个人体实例被遮挡的情况下，更准确的获取待识别图像中每一人体实例的姿态，对待识别图像进行人体姿态估计的鲁棒性更强。

Description

人体姿态估计方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种人体姿态估计方法及装置。

背景技术

基于2D图像的人体姿态估计，指利用图像处理和机器学习方法，通过找出待识别图像中人体实例的关键点（头部、肘部、手腕、肩部、膝盖以及脚踝等）的位置，获取待识别图像中人体实例的姿态的技术。高效、准确的人体姿态估计是行人重识别、行为分析、人机交互等各类下游视觉应用的基础。

现有的人体姿态估计方法可以包括自顶向下的人体姿态估计方法和自底向上的人体姿态估计方法。但是，在待识别图像中的人体实例被遮挡的情况下，基于现有的人体姿态估计方法，难以准确地获取待识别图像中每一人体实例的姿态。

发明内容

本发明提供一种人体姿态估计方法及装置，用以解决现有技术中在待识别图像中的人体实例被遮挡的情况下，难以准确地获取待识别图像中每一人体实例的姿态的缺陷，实现更准确的获取待识别图像中每一人体实例的姿态。

本发明提供一种人体姿态估计方法，包括：

获取待识别图像；

将所述待识别图像输入姿态估计模型，获取所述姿态估计模型输出的所述待识别图像中每一人体实例的姿态；

其中，所述姿态估计模型，是基于样本图像以及所述样本图像中每一人体实例的姿态，进行训练后得到的；

所述姿态估计模型，用于从所述待识别图像中确定多个关键点，基于各所述关键点对应的身份信息和尺度信息对所述待识别图像进行人体姿态估计，所述尺度信息基于对应关键点在所述待识别图像对应的特征嵌入图中的嵌入向量确定，所述身份信息基于所述嵌入向量在所处空间中的位置确定。

根据本发明提供的一种人体姿态估计方法，所述姿态估计模型包括特征提取层、关键点检测层、特征嵌入层、第一数据处理层以及结果输出层；

相应地，所述将所述待识别图像输入姿态估计模型，获取所述姿态估计模型输出的所述待识别图像中每一人体实例的姿态，具体包括：

将所述待识别图像输入所述特征提取层，获取所述特征提取层输出的所述待识别图像的特征图；

将所述特征图分别输入所述关键点检测层和所述特征嵌入层，获取所述关键点检测层输出的每一所述关键点的位置信息以及所述特征嵌入层输出的所述特征嵌入图；

将每一所述关键点的位置信息和所述特征嵌入图输入所述第一数据处理层，获取所述第一数据处理层输出的每一所述关键点的尺度信息和身份信息；

将每一所述关键点的尺度信息和身份信息输入所述结果输出层，获取所述结果输出层输出的所述待识别图像中每一人体实例的姿态。

根据本发明提供的一种人体姿态估计方法，所述关键点检测层包括热力图生成层和第二数据处理层；

相应地，将所述特征图输入所述关键点检测层，获取所述关键点检测层输出的每一所述关键点的位置信息，具体包括：

将所述特征图输入所述热力图生成层，获取所述热力图生成层输出的热力图；

将所述热力图输入所述第二数据处理层，获取所述第二数据处理层输出的每一所述关键点的位置信息。

根据本发明提供的一种人体姿态估计方法，所述姿态估计模型的损失函数包括热力图损失函数；

所述热力图损失函数是基于所述样本图像的热力图标签，以及所述样本图像的预测热力图确定的，所述预测热力图是将所述样本图像输入至训练中的姿态估计模型，由所述训练中的姿态估计模型的热力图生成层输出的。

根据本发明提供的一种人体姿态估计方法，所述样本图像的热力图标签，是基于高斯函数生成的；所述高斯函数中标准差的修正值，是基于所述样本图像对应的预测特征嵌入图中每一像素点的预测嵌入向量确定的，所述预测嵌入向量是将所述样本图像输入所述训练中的姿态估计模型，由所述训练中的姿态估计模型的特征嵌入层输出的预测特征嵌入图确定的。

根据本发明提供的一种人体姿态估计方法，所述姿态估计模型的损失函数包括分组损失函数；

所述分组损失函数，是基于所述样本图像中每一人体实例中的每一关键点在所述样本图像对应的预测特征嵌入图中的预测嵌入向量确定的，所述预测嵌入向量是将所述样本图像输入训练中的姿态估计模型，由所述训练中的姿态估计模型的特征嵌入层输出的预测特征嵌入图确定的。

根据本发明提供的一种人体姿态估计方法，所述将每一所述关键点的位置信息和所述特征嵌入图输入所述第一数据处理层，获取所述第一数据处理层输出的每一所述关键点的尺度信息和身份信息，具体包括：

将每一所述关键点的位置信息和所述特征嵌入图输入所述第一数据处理层，由所述第一数据处理层基于每一所述关键点的位置信息，确定每一所述关键点在所述特征嵌入图中的嵌入向量，将所述嵌入向量在所处空间中的位置确定为对应关键点的身份信息，将所述嵌入向量绝对值的归一化值确定为对应关键点的尺度信息，获得所述第一数据处理层输出的每一所述关键点的尺度信息和身份信息。

根据本发明提供的一种人体姿态估计方法，所述姿态估计模型的损失函数包括尺度损失函数；

所述尺度损失函数，是基于所述样本图像中每一关键点的预测尺度信息以及所述每一关键点的尺度信息标签确定的，所述预测尺度信息，是将所述样本图像输入训练中姿态估计模型，由所述训练中的姿态估计模型中的第一数据处理层输出的，所述尺度信息标签是基于对应关键点所在人体实例的外接矩形框确定的，所述外接矩形框用于标注所述人体实例。

本发明还提供一种人体姿态估计装置，包括：

图像获取模块，用于获取待识别图像；

姿态估计模块，用于将所述待识别图像输入姿态估计模型，获取所述姿态估计模型输出的所述待识别图像中每一人体实例的姿态；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述人体姿态估计方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述人体姿态估计方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述人体姿态估计方法的步骤。

本发明提供的人体姿态估计方法及装置，通过将待识别图像输入训练好的姿态估计模型，由姿态估计模型从待识别图像中确定多个关键点，基于每一关键点在待识别图像对应的特征嵌入图中的嵌入向量确定每一关键点的尺度信息，基于上述每一嵌入向量在所处空间中的位置确定每一关键点的身份信息，基于每一关键点的尺度信息和身份信息对待识别图像进行人体姿态估计，进而获取训练好的姿态估计模型输出的待识别图像中每一人体实例的姿态，能在待识别图像中至少一个人体实例被遮挡的情况下，更准确的获取待识别图像中每一人体实例的姿态，对待识别图像进行人体姿态估计的鲁棒性更强。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的人体姿态估计方法的流程示意图之一；

图2是本发明提供的人体姿态估计方法的流程示意图之二；

图3是本发明提供的人体姿态估计方法中人体姿态估计模型的结构示意图；

图4是本发明提供的人体姿态估计装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

需要说明的是，在待识别图像中包括多个人体实例的情况下，传统的人体姿态估计方法主要包括自顶向下的人体姿态估计方法和自底向上的人体姿态估计方法。

自顶向下的人体姿态估计方法，首先通过目标检测方法对待识别图像中的每一人体实例进行定位，并用检测框标记待识别图像中的每一人体实例，进而再分别确定每一人体实例中各关键点的位置，从而基于每一人体实例中各关键点的位置，获取待识别图像中每一人体实例的姿态。

自底向上的人体姿态估计方法，首先对待识别图像进行关键点检测，确定待识别图像中所有关键点的位置，进而对检测到的各关键点进行分组，将每一关键点划分至对应的人体实例中，从而基于每一人体实例中各关键点的位置，获取待识别图像中每一人体实例的姿态。

相较于自底向上的人体姿态估计方法，自顶向下的人体姿态估计方法有如下缺点：一方面，自顶向下的人体姿态估计方法中，需要为定位得到的每一人体实例分别执行姿态估计算法，随着待识别图像中人体实例数量的增加，自顶向下的人体姿态估计方法的计算复杂度呈线性增加，计算时长较长，计算效率较低；另一方面，若待识别图像中有至少一个人体实例被遮挡，则可能出现某一检测框中包括多个人体实例或人体实例的遗漏，导致无法正确定位待识别图像中的每一人体实例，从而导致难以准确的获取待识别图像中每一人体实例的姿态。而自底向上的人体姿态估计方法无需对待识别图像中的每一人体实例进行定位，在待识别图像中有至少一个人体实例被遮挡的情况下具有更高的鲁棒性，且计算效率受待识别图像中人体实例的数量的影响不大。

对此，本发明基于传统的自底向上的人体姿态估计方法的技术框架，提供了一种人体姿态估计方法，该方法可以在待识别图像中的一个或多个人体实例被遮挡的情况下，更准确的获取待识别图像中每一人体实例的姿态。

图1是本发明提供的人体姿态估计方法的流程示意图之一。下面结合图1描述本发明的人体姿态估计方法。如图1所示，该方法包括：步骤101、获取待识别图像。

具体地，待识别图像为需要进行人体姿态估计的图像。

可选地，可以通过多种方式获取待识别图像，例如：可以利用视觉传感器，获取目标场景的图像作为待识别图像。

步骤102、将待识别图像输入姿态估计模型，获取姿态估计模型输出的待识别图像中每一人体实例的姿态。

其中，姿态估计模型，是基于样本图像以及样本图像中每一人体实例的姿态，进行训练后得到的。

姿态估计模型，用于从待识别图像中确定多个关键点，基于各关键点对应的身份信息和尺度信息对待识别图像进行人体姿态估计，尺度信息基于对应关键点在待识别图像对应的特征嵌入图中的嵌入向量确定，身份信息基于嵌入向量在所处空间中的位置确定。

图2是本发明提供的人体姿态估计方法的流程示意图之二，如图2所示，在将待识别图像输入姿态估计模型，获取姿态估计模型输出的待识别图像中每一人体实例的姿态之前，可以预先对姿态估计模型进行训练，获得训练好的姿态估计模型。

可选地，可以通过如下方式对姿态估计模型进行训练：首先，获取样本场景的图像作为样本图像。其中，样本图像的数量可以为多张，且样本图像的数量越多，训练得到的姿态估计模型的准确度越高；其次，可以对样本图像进行标注，标注出样本图像中的每一人体实例以及每一人体实例中的每一关键点；再次，可以基于标注后的样本图像，获取样本图像中的每一人体实例的姿态；最后，基于样本图像以及样本图像中每一人体实例的姿态对姿态估计模型进行训练，从而得到训练好的姿态估计模型。需要说明的是，此处的姿态估计模型是基于传统的自底向上的人体姿态估计方法的技术框架构建的。

需要说明的是，可以通过目视编译等方式，在样本图像中标注每一人体实例以及每一人体实例中各预设类型的人体关键点。其中，样本图像中同一人体实例的任意两个关键点之间的距离较近，而任一人体实例中的各关键点与另一人体实例中的各关键点之间的距离较远。任一人体实例中的各关键点与另一人体实例中的各关键点之间的距离，可以用任一实例中各关键点的中心位置与另一人体实例中各关键点的中心位置之间的距离表示。

需要说明的是，传统的自底向上的人体姿态估计方法通常基于待识别图的局部语义或特征嵌入的方式实现各关键点的分组，在待识别图像中至少一个人体实例被遮挡的情况下，一方面被遮挡的人体实例的局部语义信息（例如肢体连接）会变得模糊，进而导致难以准确的获取到上述人体实例的姿态；另一方面，获取待识别图像中各关键点的位置的过程中，若各关键点的尺度不同，则易出现关键点的漏检和误检。

若基于特征嵌入的方式进行各关键点的分组，则在嵌入向量仅携带有全局特征的情况下，上述特征嵌入的方法会导致训练好的姿态估计模型对待识别图像中人体实例的数量较为敏感。对此，本发明实施例中的嵌入向量在携带有全局特征的同时还携带有不同尺度的局部特征，可以降低训练好的姿态估计模型对待识别图像中人体实例的数量的敏感程度，并增强嵌入特征的语义，可以在待识别图像中至少一个人体实例被遮挡的情况下，提高各关键点分组的准确度。相应地，姿态估计模型还可以是基于特征嵌入的技术框架构建的。

获得训练好的姿态估计模型之后，可以加载模型参数，并将待识别图像输入训练好的姿态估计模型。

训练好的姿态估计模型可以用于从待识别图像中确定多个关键点，获取上述每一关键点对应的身份信息和尺度信息，并基于上述各关键点对应的身份信息和尺度信息对上述各关键点进行分组，基于分组结果对待识别图像进行人体姿态估计，从而可以获取训练好的姿态估计模型输出的待识别图像中每一人体实例的姿态。其中，对于待识别图像中的每一关键点，该关键点对应的尺度信息是基于该关键点在待识别图像对应的特征嵌入图中的嵌入向量确定的，该关键点对应的身份信息是基于上述嵌入向量在所处空间中的位置确定的。上述嵌入向量携带有待识别图像的全局特征以及该关键点不同尺度的局部特征。上述嵌入向量在携带有全局特征的同时还携带有不同尺度的局部特征。

本发明实施例通过将待识别图像输入训练好的姿态估计模型，由姿态估计模型从待识别图像中确定多个关键点，基于每一关键点在待识别图像对应的特征嵌入图中的嵌入向量确定每一关键点的尺度信息，基于上述每一嵌入向量在所处空间中的位置确定每一关键点的身份信息，基于每一关键点的尺度信息和身份信息对待识别图像进行人体姿态估计，进而获取训练好的姿态估计模型输出的待识别图像中每一人体实例的姿态，能在待识别图像中至少一个人体实例被遮挡的情况下，更准确的获取待识别图像中每一人体实例的姿态，对待识别图像进行人体姿态估计的鲁棒性更强。

图3是本发明提供的人体姿态估计方法中人体姿态估计模型的结构示意图，如图3所示，姿态估计模型包括特征提取层、关键点检测层、特征嵌入层、第一数据处理层以及结果输出层。

相应地，将待识别图像输入姿态估计模型，获取姿态估计模型输出的待识别图像中每一人体实例的姿态，具体包括：将待识别图像输入特征提取层，获取特征提取层输出的待识别图像的特征图。

具体地，对于待识别图像，特征提取层可以用于提取待识别图像中的特征，进而生成并输出待识别图像的特征图。

可选地，本发明实施例中可以采用HRNet作为特征提取层，使得特征提取层在提取待识别图像的特征时，通过多个阶段的尺度融合，在提取全局特征的同时保留一定的局部特征，从而获取并输出可以更好适用于后续的密集预测的待识别图像的特征图。

需要说明的是，特征提取层提取待识别图像中的特征时，可以对待识别图像进行降采样。相应地，待识别图像的特征图的分辨率低于待识别图像的分辨率。

将待识别图像的特征图分别输入关键点检测层和特征嵌入层，获取关键点检测层输出的每一关键点的位置信息以及特征嵌入层输出的特征嵌入图。

具体地，获取特征提取层输出的待识别图像的特征图之后，可以将待识别图像的特征图分别输入关键点检测层和特征嵌入层。

关键点检测层可以用于基于待识别图像的特征图，对待识别图像进行关键点检测，从待识别图像中确定多个关键点，进而获取并输出上述每一关键点的位置信息。

需要说明的是，可以通过坐标的形式标识上述特征图中的每一像素点，并可以将每一关键点在上述特征图中对应的像素点的坐标，作为每一关键点的位置信息。还可以通过坐标的形式表示待识别图像中每一像素点，并可以基于上述特征图与待识别图像的位置对应关系，获取每一关键点在待识别图像中对应的像素点的坐标，作为每一关键点的位置信息。

可选地，特征嵌入层可以用于基于待识别图像的特征图，为待识别图像的特征图中的每一像素点嵌入对应的嵌入向量t，进而获取并输出待识别图像对应的特征嵌入图。其中，上述特征嵌入图可以用

表示，H和W分别表示上述特征嵌入图

的长度和宽度，K表示人体关键点的预设类型的数量，M表示上述嵌入向量t的维度数量。

可以理解的是，上述特征嵌入图

的分辨率与上述特征图的分辨率相同。上述特征嵌入图

中的像素点与上述特征图中的像素点一一对应。

需要说明的是，在对姿态估计模型进行训练的过程中，将样本图像输入训练中的姿态估计模型，可以获取训练中的姿态估计模型的特征嵌入层输出的样本图像对应的预测嵌入图。对于上述预测嵌入图中的预先确定的每一关键点，该关键点在上述预测嵌入图中的预测嵌入向量携带有全局特征，基于上述预测嵌入向量可以获取该关键点的预测身份信息标签，并可以根据上述预测身份信息标签的相对值定义损失函数，促使姿态估计模型学习到样本图像中所有关键点的全局特征。上述预测嵌入向量还携带有该关键点不同尺度的局部特征，避免因关键点的尺度不同，出现关键点的漏检和误检。训练好的姿态估计模型可以依据待识别图像的全局特征以及每一关键点不同尺度的局部特征，确定待识别图像中每一关键点的身份信息和尺度信息，实现上述各关键点的分组，受局部语义信息模糊的影响较小，更适合待识别图像中至少一个人体实例被遮挡的情况下，获取待识别图像中每一人体实例的姿态。

将每一关键点的位置信息和特征嵌入图输入第一数据处理层，获取第一数据处理层输出的每一关键点的尺度信息和身份信息。

具体地，获取关键点检测层输出的待识别图像中每一关键点的位置信息，以及特征嵌入层输出的待识别图像对应的特征嵌入图之后，可以将上述每一关键点的位置信息和上述特征嵌入图输入第一数据处理层。

第一数据处理层可以用于对上述每一关键点的位置信息和上述特征嵌入图进行数据处理，进而获取并输出上述每一关键点的尺度信息和身份信息。

将每一关键点的尺度信息和身份信息输入结果输出层，获取结果输出层输出的待识别图像中每一人体实例的姿态。

具体地，获取第一数据处理层输出的待识别图像中每一关键点的尺度信息和身份信息之后，可以将上述每一关键点的尺度信息和身份信息输出结果输出层。

结果输出层可以用于基于上述每一关键点的尺度信息和身份信息对上述各关键点进行分组，将同属一个人体实例的各关键点分为一组，进而基于各关键点的分组结果，获取并输出待识别图像中每一人体实例的姿态。

可选地，结果输出层可以用于基于上述每一关键点的尺度信息和身份信息，通过二分图最大匹配的经典匈牙利算法，对上述各关键点进行分组。

本发明实施例基于姿态估计模型中的特征提取层、关键点检测层、特征嵌入层、第一数据处理层和结果输出层，获取待识别图像的特征图，并基于上述特征图获取待识别图像中每一关键点的位置信息以及待识别图像对应的特征嵌入图，基于上述每一关键点的位置信息和上述特征嵌入图，获取上述每一关键点的尺度信息和身份信息，基于每一关键点的尺度信息和身份信息，对上述各关键点进行分组，并基于分组结果对待识别图像进行人体姿态估计，获取姿态估计模型输出的待识别图像中每一人体实例的姿态，能通过同时嵌入全局特征以及多尺度的局部特征，提高从待识别图像中确定关键点的准确度以及对各关键点进行分组的准确度，从而能进一步提高对待识别图像进行人体姿态估计的准确度。

基于上述各实施例的内容，关键点检测层包括热力图生成层和第二数据处理层。

相应地，将特征图输入关键点检测层，获取关键点检测层输出的每一关键点的位置信息，具体包括：将特征图输入热力图生成层，获取热力图生成层输出的热力图。

具体地，如图3所示，热力图生成层可以用于基于待识别图像的特征图，获取上述特征图中每一像素点的置信度，进而可以基于上述各像素点的置信度生成并输出热力图。其中，上述置信度，可以用于描述上述特征图中的像素点为关键点的可信程度。

可选地，上述热力图可以是由各预设类型的人体关键点的类别热力图堆叠构成的。其中，各预设类型的人体关键点可以包括头、右膝、肩部以及右手等。

任一预设类型的人体关键点的类别热力图，可以是通过在上述特征图中以渐变颜色的形式反映每一像素点的类别置信度生成的。其中，上述类别置信度，可以用于描述上述特征图中的像素点为该预设类型的人体关键点的可信程度。

可以理解的是，任一预设类型的人体关键点的类别热力图的分辨率与上述特征图的分辨率相同，且该类别热力图中的像素点与上述特征图中的像素点一一对应。相应地，任一预设类型的人体关键点的类别热力图的分辨率与待识别图像对应的特征嵌入图的分辨率相同，且该类别热力图中的像素点与上述特征图中的像素点一一对应。

将热力图输入第二数据处理层，获取第二数据处理层输出的每一关键点的位置信息。

具体地，获取热力图生成层输出的热力图之后，可以将上述热力图输入第二数据处理层。

第二数据处理层可以用于基于上述热力图中每一像素点的置信度，通过预设的阈值对上述热力图中的背景像素点进行过滤，将保留下的像素点作为候选关键点，通过局部的非极大值抑制算法剔除冗余的候选关键点，得到多个关键点，进而获取并输出上述每一关键点的位置信息。

本发明实施例基于姿态估计模型中的热力图生成层和第二数据处理层，获取热力图，并基于上述热力图获取待识别图像中每一关键点的位置信息，能更简单、更高效和更准确的从待识别图像中确定多个关键点，进而能提高对待识别图像进行人体姿态估计的计算效率和准确度。

基于上述各实施例的内容，将每一关键点的位置信息和特征嵌入图输入第一数据处理层，获取第一数据处理层输出的每一关键点的尺度信息和身份信息，具体包括：将每一关键点的位置信息和特征嵌入图输入第一数据处理层，由第一数据处理层基于每一关键点的位置信息，确定每一关键点在特征嵌入图中的嵌入向量，将嵌入向量在所处空间中的位置确定为对应关键点的身份信息，将嵌入向量绝对值的归一化值确定为对应关键点的尺度信息，获得第一数据处理层输出的每一关键点的尺度信息和身份信息。

具体地，将待识别图像中每一关键点的位置信息和待识别图像对应的特征嵌入图输入第一数据处理层之后，第一数据处理层可以基于上述每一关键点的位置信息，在上述特征嵌入图中进行检索，获取上述每一关键点对应的像素点，并将上述像素点的嵌入向量，作为上述每一关键点在上述特征嵌入图中的嵌入向量。

第一数据处理层获取上述每一关键点在上述特征嵌入图中的嵌入向量之后，对于每一关键点，可以将该关键点在上述特征嵌入图中的嵌入向量在所处空间中的位置确定为该关键点的身份信息，还可以获取上述嵌入向量绝对值的归一化值，并将上述嵌入向量绝对值的归一化值确定为该关键点的尺度信息。

可以理解的是，上述各关键点在上述特征嵌入图中的嵌入向量中，属于待识别图像中同一人体实例的各关键点在上述特征嵌入图中的嵌入向量之间的距离较近，属于待识别图像中不同人体实例的各关键点在上述特征嵌入图中的嵌入向量之间的距离较远。

需要说明的是，上述嵌入向量所处空间的每一维度可以对应一个尺度。上述任一关键点在上述特征嵌入图中的嵌入向量绝对值的归一化值，可以作为该关键点不同尺度的局部特征的离散分布。

本发明实施例基于姿态估计模型的第一数据处理层，通过基于待识别图像中每一关键的位置信息确定上述每一关键点在待识别图像对应的特征嵌入图中的嵌入向量，将上述嵌入向量在所处空间中的位置确定为对应关键点的身份信息，将上述嵌入向量绝对值的归一化值确定为对应关键点的尺度信息，从而获得第一数据处理层输出的上述每一关键点的尺度信息和身份信息，能基于同时携带有全局特征和不同尺度的局部特征的嵌入向量，更简单、更准确的获取待识别图像中每一关键点的尺度信息和身份信息，从而能更准确的对待识别图像中各关键点进行分组，能提高对待识别图像进行人体姿态估计的准确度。

基于上述各实施例的内容，姿态估计模型的损失函数包括分组损失函数。

分组损失函数，是基于样本图像中每一人体实例中的每一关键点在样本图像对应的预测特征嵌入图中的预测嵌入向量确定的，预测嵌入向量是将样本图像输入训练中的姿态估计模型，由训练中的姿态估计模型的特征嵌入层输出的预测特征嵌入图确定的。

具体地，为了使得待识别图像对应的特征嵌入图中，同一人体实例中的每两个关键点在上述特征嵌入图中的嵌入向量之间的距离最小化，任一人体实例中的各关键点在上述特征嵌入图中的嵌入向量的均值与另一人体实例中的各关键点在上述特征嵌入图中的嵌入向量的均值之间的距离最大化，在将待识别图像的特征图输入特征嵌入层之前，可以基于分组损失函数

对姿态估计模型进行训练，训练目标为

最小化。

可选地，分组损失函数

可以通过如下公式表示：

（1）

其中，n和m为样本图像中人体实例的标识，且n与m不同，例如：样本图像中的第n个人体实例、样本图像中第m个人体实例；n={1,2,…,N}，m={1,2,…,N}；N表示样本图像中人体实例的总数；k为任一人体实例中关键点的标识，例如：第n个人体实例的第k个关键点，k= {1,2,…,K}；

表示上述第n个人体实例中第k个关键点在样本图像对应的预测特征嵌入图中的预测嵌入向量；

表示上述第n个人体实例中的所有关键点在上述预测特征嵌入图中的预测嵌入向量的均值；

表示上述第m个人体实例中的所有关键点在上述预测特征嵌入图中的预测嵌入向量的均值。

需要说明的是，在对姿态估计模型进行训练的过程中，将样本图像输入训练中的姿态估计模型，可以获取训练中的姿态估计模型的特征嵌入层输出的样本图像对应的预测嵌入图。基于上述预测嵌入图，可以获取样本图像中每一人体实例中的每一关键点在上述预测嵌入图中的预测嵌入向量。

本发明实施例基于分组损失函数对人体姿态模型进行训练，能使得待识别图像对应的特征嵌入图中，同一人体实例中的每两个关键点在上述特征嵌入图中的嵌入向量之间的距离最小化，任一人体实例中的各关键点在上述特征嵌入图中的嵌入向量的均值与另一人体实例中的各关键点在上述特征嵌入图中的嵌入向量的均值之间的距离最大化，从而能更准确的对待识别图像中各关键点进行分组，能提高对待识别图像进行人体姿态估计的准确度。

基于上述各实施例的内容，姿态估计模型的损失函数包括尺度损失函数。

尺度损失函数，是基于样本图像中每一关键点的预测尺度信息以及每一关键点的尺度信息标签确定的，预测尺度信息，是将样本图像输入训练中姿态估计模型，由训练中的姿态估计模型中的第一数据处理层输出的，尺度信息标签是基于对应关键点所在人体实例的外接矩形框确定的，外接矩形框用于标注人体实例。

具体地，为了使得第一数据处理层输出的待识别图像中每一关键的尺度信息和身份信息更准确，在将上述每一关键点的位置信息以及待识别图像对应的特征嵌入图输入第一数据处理层之前，可以基于尺度损失函数

对姿态估计模型进行训练，训练目标为

最小化，从而可以使得在没有精确的尺度信息标签的情况下，姿态估计模型更容易收敛。

可选地，尺度损失函数

可以通过如下公式表示：

（2）

其中，

表示

绝对值的归一化值；

表示样本图像中第n个人体实例中第k 个关键点的尺度信息标签；

表示

与

的内积。

需要说明的是，可以通过外接矩形框标注样本图像中的每一人体实例。

可选地，可以基于样本图像中用于标注每一人体实例的每一外接矩形框，预先获取

。相较于直接标注样本图像中每一关键点的尺度，基于外接矩形框获取

有以下优点：一方面，关键点的尺度具有较强的不确定性，人工难以直接获取并标注关键点尺度的准确数值，而外接矩形框可以提供近似的尺度信息；另一方面，通过外接矩形框可以更简单、更高效且更低成本的标注样本图像中的每一人体实例。

可选地，

可以通过如下公式计算得到：

（3）

（4）

（5）

其中，

表示样本图像中第n个人体实例的外接矩形框的面积；

表示样本图像的面积；M表示嵌入向量的维度；

表示向量；

表示向量

在不同维度的取值。

本发明实施例基于尺度损失函数对人体姿态模型进行训练，能基于待识别图像中每一关键点在待识别图像对应的特征嵌入图中的嵌入向量，更高效、更准确的获取上述每一关键点的尺度信息，能提高对待识别图像进行人体姿态估计的准确度。

基于上述各实施例的内容，姿态估计模型的损失函数包括热力图损失函数。

热力图损失函数是基于样本图像的热力图标签，以及样本图像的预测热力图确定的，预测热力图是将样本图像输入至训练中的姿态估计模型，由训练中的姿态估计模型的热力图生成层输出的。

具体地，为了使得姿态估计模型的热力图生成层输出的热力图更精确，在将待识别图像的特征图输入热力图生成层之前，可以基于热力图损失函数

对姿态估计模型进行训练，训练目标为

最小化。

可选地，热力图损失函数

可以通过如下公式表示：

（6）

其中，

表示预测热力图；

表示样本图像的热力图标签。

需要说明的是，基于样本图像中预先标注的每一人体实例以及每一人体实例中各预设类型的人体关键点，可以预先生成上述热力图标签。热力图标签可以是由各预设类型的人体关键点的类别热力图标签堆叠构成的。

可选地，将未标注每一人体实例以及每一人体实例中各预设类型的人体关键点的样本图像输入至训练中的姿态估计模型，训练中的姿态估计模型的热力图生成层可以基于上述样本图像生成每一预设类型的人体关键点的预测类别热力图，进而可以获取训练中的姿态估计模型的热力图生成层输出的由上述各预测类别热力图堆叠构成的预测热力图。在预设类型的数量为K种的情况下，预测类别热力图的数量为K张。

本发明实施例基于热力图损失函数对人体姿态模型进行训练，能基于训练好的热力图损失函数获取更精确的热力图，从而能更准确的获取待识别图像中每一关键点的位置信息，能提高对待识别图像进行人体姿态估计的准确度。

基于上述各实施例的内容，样本图像的热力图标签，是基于高斯函数生成的；高斯函数中标准差的修正值，是基于样本图像对应的预测特征嵌入图中每一像素点的预测嵌入向量确定的，预测嵌入向量是将样本图像输入训练中的姿态估计模型，由训练中的姿态估计模型的特征嵌入层输出的预测特征嵌入图确定的。

具体地，可以基于未归一化的高斯函数获取样本图像的热力图标签。对于样本图像中已标注的每一关键点，上述高斯函数的输入为上述关键点与样本图像中其他任一像素点之间的距离，输出为上述像素点的置信度。上述关键点与上述像素点之间的距离越近，得到的上述像素点的置信度越高，上述关键点与上述像素点之间的距离越远，得到的上述像素点的置信度越低。

可选地，用于生成样本图像的热力图标签的高斯函数可以通过如下公式表示：

（7）

其中，

表示高斯函数的标准差；

表示高斯函数值标准差

的修正值；e表示自然对数；

表示预测嵌入特征图中坐标为{i,j}的像素点对应的尺度因子。

可以基于预测嵌入特征图中坐标为{i,j}的像素点的预测嵌入向量计算获得，其值等于尺度级别离散分布的期望值。

可选地，

可以通过如下公式计算得到：

（8）

基于

可以对自适应的对上述高斯函数中的标准差

进行修正，得到高斯函数中标准差

的修正值，从而可以使得样本图像中不同尺度的关键点，对应的热力图标签不同，训练好的姿态估计模型的热力图生成层输出的热力图对于尺度变化的鲁棒性更强。

本发明实施例通过高斯函数获取样本图像的热力图标签，并基于样本图像对应的预测特征嵌入图中每一像素点的预测嵌入向量确定上述高斯函数中标准差的修正值，能使得样本图像中不同尺度的关键点对应的类别热力图标签不同，对待识别图像进行人体姿态估计的鲁棒性更强。

图4是本发明提供的人体姿态估计装置的结构示意图。下面结合图4对本发明提供的人体姿态估计装置进行描述，下文描述的人体姿态估计装置与上文描述的本发明提供的人体姿态估计方法可相互对应参照。如图4所示，该装置包括：图像获取模块401和姿态估计模块402。

图像获取模块401，用于获取待识别图像。

姿态估计模块402，用于将待识别图像输入姿态估计模型，获取姿态估计模型输出的待识别图像中每一人体实例的姿态。

具体地，图像获取模块401和姿态估计模块402电连接。

图像获取模块401可以通过多种方式获取待识别图像，例如：可以利用视觉传感器，获取目标场景的图像作为待识别图像。

获得训练好的姿态估计模型之后，姿态估计模块402可以加载模型参数，并将待识别图像输入训练好的姿态估计模型。训练好的姿态估计模型可以用于从待识别图像中确定多个关键点，获取上述每一关键点对应的身份信息和尺度信息，并基于上述各关键点对应的身份信息和尺度信息对上述各关键点进行分组，基于分组结果对待识别图像进行人体姿态估计，从而可以获取训练好的姿态估计模型输出的待识别图像中每一人体实例的姿态。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行人体姿态估计方法，该方法包括：获取待识别图像；将待识别图像输入姿态估计模型，获取姿态估计模型输出的待识别图像中每一人体实例的姿态；其中，姿态估计模型，是基于样本图像以及样本图像中每一人体实例的姿态，进行训练后得到的；姿态估计模型，用于从待识别图像中确定多个关键点，基于各关键点对应的身份信息和尺度信息对待识别图像进行人体姿态估计，尺度信息基于对应关键点在待识别图像对应的特征嵌入图中的嵌入向量确定，身份信息基于嵌入向量在所处空间中的位置确定。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的人体姿态估计方法，该方法包括：获取待识别图像；将待识别图像输入姿态估计模型，获取姿态估计模型输出的待识别图像中每一人体实例的姿态；其中，姿态估计模型，是基于样本图像以及样本图像中每一人体实例的姿态，进行训练后得到的；姿态估计模型，用于从待识别图像中确定多个关键点，基于各关键点对应的身份信息和尺度信息对待识别图像进行人体姿态估计，尺度信息基于对应关键点在待识别图像对应的特征嵌入图中的嵌入向量确定，身份信息基于嵌入向量在所处空间中的位置确定。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的人体姿态估计方法，该方法包括：获取待识别图像；将待识别图像输入姿态估计模型，获取姿态估计模型输出的待识别图像中每一人体实例的姿态；其中，姿态估计模型，是基于样本图像以及样本图像中每一人体实例的姿态，进行训练后得到的；姿态估计模型，用于从待识别图像中确定多个关键点，基于各关键点对应的身份信息和尺度信息对待识别图像进行人体姿态估计，尺度信息基于对应关键点在待识别图像对应的特征嵌入图中的嵌入向量确定，身份信息基于嵌入向量在所处空间中的位置确定。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种人体姿态估计方法，其特征在于，包括：

获取待识别图像；

所述姿态估计模型，用于从所述待识别图像中确定多个关键点，基于各所述关键点对应的身份信息和尺度信息对所述待识别图像进行人体姿态估计，所述尺度信息基于对应关键点在所述待识别图像对应的特征嵌入图中的嵌入向量确定，所述身份信息基于所述嵌入向量在所处空间中的位置确定；

所述姿态估计模型包括特征提取层、关键点检测层、特征嵌入层、第一数据处理层以及结果输出层；

将每一所述关键点的尺度信息和身份信息输入所述结果输出层，获取所述结果输出层输出的所述待识别图像中每一人体实例的姿态；所述关键点检测层包括热力图生成层和第二数据处理层；

将所述热力图输入所述第二数据处理层，获取所述第二数据处理层输出的每一所述关键点的位置信息；所述姿态估计模型的损失函数包括热力图损失函数；

2.根据权利要求1所述的人体姿态估计方法，其特征在于，所述样本图像的热力图标签，是基于高斯函数生成的；所述高斯函数中标准差的修正值，是基于所述样本图像对应的预测特征嵌入图中每一像素点的预测嵌入向量确定的，所述预测嵌入向量是将所述样本图像输入所述训练中的姿态估计模型，由所述训练中的姿态估计模型的特征嵌入层输出的预测特征嵌入图确定的。

3.根据权利要求1所述的人体姿态估计方法，其特征在于，所述姿态估计模型的损失函数包括分组损失函数；

4.根据权利要求1所述的人体姿态估计方法，其特征在于，所述将每一所述关键点的位置信息和所述特征嵌入图输入所述第一数据处理层，获取所述第一数据处理层输出的每一所述关键点的尺度信息和身份信息，具体包括：

5.根据权利要求4所述的人体姿态估计方法，其特征在于，所述姿态估计模型的损失函数包括尺度损失函数；

6.一种人体姿态估计装置，其特征在于，

图像获取模块，用于获取待识别图像；

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述人体姿态估计方法的步骤。