CN113989283A

CN113989283A - 3d人体姿态估计方法、装置、电子设备与存储介质

Info

Publication number: CN113989283A
Application number: CN202111617338.8A
Authority: CN
Inventors: 王金桥; 陈盈盈; 周鲁
Original assignee: Objecteye Beijing Technology Co Ltd
Current assignee: Objecteye Beijing Technology Co Ltd
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-01-28
Anticipated expiration: 2041-12-28
Also published as: CN113989283B

Abstract

本发明提供一种3D人体姿态估计方法、装置、电子设备与存储介质，所述方法包括：对人体图像序列进行2D姿态估计，得到2D人体关键点序列；基于2D人体关键点序列，确定2D肢干向量序列；将2D人体关键点序列和2D肢干向量序列输入至3D姿态估计模型，得到3D姿态估计模型输出的3D人体关键点；其中，3D姿态估计模型是基于样本2D人体关键点序列，样本2D肢干向量序列以及对应的样本3D人体关键点训练得到的。本发明提供的方法、装置、电子设备与存储介质，应用3D姿态估计模型结合2D人体关键点序列和2D肢干向量序列进行3D人体姿态估计，实现了3D人体姿态的精确估计，同时提升了3D人体姿态估计的鲁棒性和泛化性。

Description

3D人体姿态估计方法、装置、电子设备与存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种3D人体姿态估计方法、装置、电子设备与存储介质。

背景技术

3D（Three Dimensions，三维）人体姿态估计技术是计算机视觉和模式识别领域中的一个重要研究方向，它需要预测给定人体图像的3D人体关键点坐标。然而3D人体姿态估计存在诸多问题，3D人体姿态估计数据的获得通常具有局限性，大部分场景为室内，且动作范式有限，限制了3D人体姿态数据的多样性。近年来，随着深度学习的发展，3D人体姿态估计取得了长足的进步。

目前，单目3D人体姿态估计主要分为单阶段预测和双阶段预测两种方式。单阶段的方法以人体图像作为输入，通过卷积神经网络提取特征进而实现3D人体关键点的预测。双阶段的方法以人体图像作为输入，首先通过2D（Two Dimensions，二维）人体姿态估计网络提取2D人体关键点，之后通过2D-3D关键点的映射，获得3D人体关键点。然而，现有的3D人体姿态估计方法大多只关注不同帧人体关键点之间的语义关联，导致3D人体姿态估计的精度较差。

发明内容

本发明提供一种3D人体姿态估计方法、装置、电子设备与存储介质，用以解决现有技术中3D人体姿态估计精度差的缺陷，实现提升3D人体姿态估计的精度。

本发明提供一种3D人体姿态估计方法，包括：

对人体图像序列进行2D姿态估计，得到2D人体关键点序列；

基于所述2D人体关键点序列，确定2D肢干向量序列；

将所述2D人体关键点序列和所述2D肢干向量序列输入至3D姿态估计模型，得到所述3D姿态估计模型输出的3D人体关键点；其中，所述3D姿态估计模型是基于样本2D人体关键点序列，样本2D肢干向量序列以及对应的样本3D人体关键点训练得到的。

根据本发明提供的一种3D人体姿态估计方法，所述3D姿态估计模型包括关键点网络分支、肢干网络分支和3D姿态估计层；

所述将所述2D人体关键点序列和所述2D肢干向量序列输入至3D姿态估计模型，得到所述3D姿态估计模型输出的3D人体关键点，包括：

将所述2D人体关键点序列输入至所述关键点网络分支，得到所述关键点网络分支输出的关键点表示序列；

将所述2D肢干向量序列输入至所述肢干网络分支，得到所述肢干网络分支输出的肢干表示序列；

将所述关键点表示序列和所述肢干表示序列输入至3D姿态估计层，得到所述3D人体关键点。

根据本发明提供的一种3D人体姿态估计方法，所述关键点网络分支包括差分层、编码层和关键点变换层；

所述将所述2D人体关键点序列输入至所述关键点网络分支，得到所述关键点网络分支输出的关键点表示序列，包括：

将所述2D人体关键点序列输入至所述差分层，得到所述差分层输出的运动向量序列；

将所述2D人体关键点序列和所述运动向量序列分别输入至所述编码层，得到所述编码层输出的初始关键点表示序列和运动表示序列；

将所述初始关键点表示序列和所述运动表示序列输入至所述关键点变换层，得到所述关键点表示序列。

根据本发明提供的一种3D人体姿态估计方法，所述3D姿态估计层包括融合变换层、特征分离层和关键点回归层；

所述将所述关键点表示序列和所述肢干表示序列输入至3D姿态估计层，得到所述3D人体关键点，包括：

将所述关键点表示序列和所述肢干表示序列输入至所述融合变换层，得到所述融合变换层输出的最终特征表示；

将所述最终特征表示输入至所述特征分离层，得到所述特征分离层输出的关键点特征和肢干特征；

将所述关键点特征输入至所述关键点回归层，得到所述关键点回归层输出的3D人体关键点。

根据本发明提供的一种3D人体姿态估计方法，所述3D姿态估计层还包括肢干回归层；

所述将所述最终特征表示输入至所述特征分离层，得到所述特征分离层输出的关键点特征和肢干特征，之后还包括：

将所述肢干特征输入至所述肢干回归层，得到所述肢干回归层输出的3D人体肢干。

根据本发明提供的一种3D人体姿态估计方法，所述3D姿态估计模型的损失函数包括循环一致性损失函数；

所述循环一致性损失函数是基于第一预测3D人体肢干与第二预测3D人体肢干之间的一致性确定的；

其中，所述第一预测3D人体肢干和预测3D人体关键点是所述3D姿态估计模型基于所述样本2D人体关键点序列和所述样本2D肢干向量序列确定的，所述第二预测3D人体肢干是基于所述预测3D人体关键点确定的。

根据本发明提供的一种3D人体姿态估计方法，所述第二预测3D人体肢干是基于如下步骤确定的：

基于所述预测3D人体关键点，确定各肢干类型对应的预测人体关键点；

基于所述各肢干类型对应的预测人体关键点，确定所述各肢干类型对应的预测肢干向量；

基于所述各肢干类型对应的预测肢干向量，确定所述第二预测3D人体肢干。

本发明还提供一种3D人体姿态估计装置，包括：

估计模块，用于对人体图像序列进行2D姿态估计，得到2D人体关键点序列；

确定模块，用于基于所述2D人体关键点序列，确定2D肢干向量序列；

输入模块，用于将所述2D人体关键点序列和所述2D肢干向量序列输入至3D姿态估计模型，得到所述3D姿态估计模型输出的3D人体关键点；其中，所述3D姿态估计模型是基于样本2D人体关键点序列，样本2D肢干向量序列以及对应的样本3D人体关键点训练得到的。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述3D人体姿态估计方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述3D人体姿态估计方法的步骤。

本发明提供的3D人体姿态估计方法、装置、电子设备与存储介质，通过在得到高精度的2D人体关键点序列之后，确定出具有更高阶人体结构信息的2D肢干向量序列，并应用3D姿态估计模型结合2D人体关键点序列和2D肢干向量序列进行3D人体姿态估计，既可以捕捉到不同帧关键点之间的结构语义关联，还可以捕捉到不同帧肢干之间的结构语义关联，从而可以得到高精度的3D人体关键点，进而实现了3D人体姿态的精确估计，同时提升了3D人体姿态估计的鲁棒性和泛化性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的3D人体姿态估计方法的流程示意图；

图2是本发明提供的3D人体姿态估计方法的总体框架图；

图3是本发明提供的3D姿态估计模型的网络结构图；

图4是本发明提供的3D人体姿态估计装置的结构图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，单目3D人体姿态估计主要分为单阶段预测和双阶段预测两种方式。单阶段的方法以人体图像作为输入，通过卷积神经网络提取特征进而实现3D人体关键点的预测。双阶段的方法以人体图像作为输入，首先通过2D人体姿态估计网络提取2D人体关键点，之后通过2D-3D关键点的映射，获得3D人体关键点。

双阶段的方法能充分利用已有的高精度的2D人体姿态估计网络的2D人体关键点预测，因此得到了更广泛的关注。其中，有相关文献引入分层图卷积网络，同时结合对角占优图卷积层和非局部层的特征提取网络块来实现特征的增强，以减少2D到3D映射过程中的歧义性；还有相关文献提出一种神经网络搜索方法，为每组关键点分配一种神经网络结构，针对不同的关键点进行优化，以提升3D人体姿态估计的精度。然而，现有的3D人体姿态估计方法大多只关注不同帧人体关键点之间的语义关联，缺乏对更高阶人体结构诸如人体肢干的关注和建模，导致3D人体姿态估计的精度仍然较差。

对此，本发明实施例提供了一种3D人体姿态估计方法。图1是本发明提供的3D人体姿态估计方法的流程示意图，如图1所示，该方法包括：

步骤110，对人体图像序列进行2D姿态估计，得到2D人体关键点序列；

步骤120，基于2D人体关键点序列，确定2D肢干向量序列；

步骤130，将2D人体关键点序列和2D肢干向量序列输入至3D姿态估计模型，得到3D姿态估计模型输出的3D人体关键点；其中，3D姿态估计模型是基于样本2D人体关键点序列，样本2D肢干向量序列以及对应的样本3D人体关键点训练得到的。

具体地，人体图像序列包括多帧人体图像，每帧人体图像可以来自于预先拍摄并存储的视频，也可以来自于实时采集的视频流，本发明实施例对此不作具体限定。多帧人体图像按照视频或视频流中的时间顺序排列，从而形成人体图像序列。对人体图像序列中各帧人体图像进行2D姿态估计，可以提取到各帧人体图像中的2D人体关键点，并按照时间顺序排列得到2D人体关键点序列。此处，2D姿态估计的方式具体可以通过高精度的2D人体姿态估计网络进行2D人体关键点检测实现。

随即，可以根据人体关键点与人体肢干之间的对应关系，将各帧人体图像中提取出的2D人体关键点，转化为各帧人体图像中的2D肢干向量，由此即可得到2D肢干向量序列。此处，人体肢干可以包括与姿态相关的背、上臂、前臂、大腿、小腿等人体部件，2D肢干向量即对应人体图像中人体肢干的向量表示。在此基础上，将2D人体关键点序列和2D肢干向量序列输入至3D姿态估计模型，3D姿态估计模型可以结合2D人体关键点序列和2D肢干向量序列进行3D人体姿态估计，从而得到高精度的3D人体关键点。

需要说明的是，现有的3D人体姿态估计方法中，只关注不同帧人体关键点之间的语义关联，缺乏对更高阶人体结构的关注和建模，导致3D人体姿态估计的精度仍然较差。而本发明实施例中3D姿态估计模型基于输入的序列既可以获取到关键点层级的人体结构信息，还可以获取到肢干层级的人体结构信息，从而在执行3D人体姿态估计时，既可以捕捉到不同帧关键点之间的结构语义关联，还可以捕捉到不同帧更高阶人体结构即肢干之间的结构语义关联，由此得到高精度的3D人体关键点，进而实现了3D人体姿态的精确估计，同时提升了3D人体姿态估计的鲁棒性和泛化性。

另外，在执行步骤130之前，还可以预先训练得到3D姿态估计模型，具体可通过如下方式训练得到3D姿态估计模型：首先，收集大量样本2D人体关键点序列，并确定对应的样本2D肢干向量序列以及样本3D人体关键点。随即，采用样本2D人体关键点序列，样本2D肢干向量序列以及对应的样本3D人体关键点，对初始模型进行训练，从而得到3D姿态估计模型。

本发明实施例提供的方法，在得到高精度的2D人体关键点序列之后，确定出具有更高阶人体结构信息的2D肢干向量序列，并应用3D姿态估计模型结合2D人体关键点序列和2D肢干向量序列进行3D人体姿态估计，既可以捕捉到不同帧关键点之间的结构语义关联，还可以捕捉到不同帧肢干之间的结构语义关联，从而可以得到高精度的3D人体关键点，进而实现了3D人体姿态的精确估计，同时提升了3D人体姿态估计的鲁棒性和泛化性。

基于上述任一实施例，3D姿态估计模型包括关键点网络分支、肢干网络分支和3D姿态估计层；

步骤130中，将2D人体关键点序列和2D肢干向量序列输入至3D姿态估计模型，得到3D姿态估计模型输出的3D人体关键点，包括：

将2D人体关键点序列输入至关键点网络分支，得到关键点网络分支输出的关键点表示序列；

将2D肢干向量序列输入至肢干网络分支，得到肢干网络分支输出的肢干表示序列；

将关键点表示序列和肢干表示序列输入至3D姿态估计层，得到3D人体关键点。

具体地，为了实现通过建模不同帧间不同层级的人体结构关系，提升3D人体姿态估计的鲁棒性和泛化性，本发明实施例中针对3D姿态估计模型设计了一种基于双流变换器的神经网络结构。3D姿态估计模型包括关键点网络分支和肢干网络分支，利用关键点网络分支基于输入的2D人体关键点序列，捕捉不同帧人体关键点间的结构语义关联，得到关键点表示序列，并利用肢干网络分支基于输入的2D肢干向量序列，捕捉不同帧人体肢干间的结构语义关联，得到肢干表示序列，从而实现获取不同层级的人体结构信息。此处，关键点表示序列和肢干表示序列可以分别仅根据2D人体关键点序列和2D肢干向量序列进行编码等处理得到，也可以结合位置信息、运动信息等其他信息得到，本发明实施例对此不作具体限定。

基于此，为了更好地利用双流特征，促进不同帧不同层级人体部件间特征的信息传递，本发明实施例设计了3D姿态估计层来建模不同帧不同层级人体部件之间的语义关联。将关键点网络分支和肢干网络分支两个分支的输出一起输入到3D姿态估计层进行3D姿态估计，由此结合关键点表示序列和肢干表示序列，来建模不同帧关键点特征和肢干特征之间的语义关联，从而得到具有更强鲁棒性的3D姿态估计结果，即3D人体关键点。

本发明实施例提供的方法，利用肢干网络分支捕捉不同帧人体肢干间的结构语义关联，利用肢干网络分支捕捉不同帧人体肢干间的结构语义关联，增强了特征的鲁棒性，同时利用3D姿态估计层来建模不同帧关键点特征和肢干特征之间的语义关联，提升了关系建模的有效性，进一步增强了特征的鲁棒性。

基于上述任一实施例，关键点网络分支包括差分层、编码层和关键点变换层；

将2D人体关键点序列输入至关键点网络分支，得到关键点网络分支输出的关键点表示序列，包括：

将2D人体关键点序列输入至差分层，得到差分层输出的运动向量序列；

将2D人体关键点序列和运动向量序列分别输入至编码层，得到编码层输出的初始关键点表示序列和运动表示序列；

将初始关键点表示序列和运动表示序列输入至关键点变换层，得到关键点表示序列。

具体地，考虑到对于同一个2D人体姿态，受遮挡和深度歧义的影响，其可以对应多个3D人体姿态，因此，仅根据2D人体姿态数据进行3D人体姿态的估计是不准确的，存在不适定问题。针对这一问题，本发明实施例在关键点网络分支中嵌入了运动信息，具体可以通过如下方式实现：

关键点网络分支包括差分层、编码层和关键点变换层，首先由差分层对输入的2D人体关键点序列进行差分运算，得到运动向量序列，从而利用不同帧人体关键点在时间维度上体现的差异性，获取到能够表征在原始视频中人体姿态的运动信息的运动向量；再将2D人体关键点序列和运动向量序列分别输入到编码层中进行特征编码，从而可以得到映射到高维空间的特征表示，即初始关键点表示序列和运动表示序列；在此基础上，即可将初始关键点表示序列和运动表示序列一起输入到关键点变换层中，从而得到融合了关键点信息和运动信息的关键点表示序列。可选地，关键点变换层可以采用Transformer架构的网络，从而可以实现全局关系建模，充分捕捉不同帧人体关键点间的结构语义关联。

本发明实施例提供的方法，利用关键点变换层捕捉不同帧人体关键点间的结构语义关联，同时利用差分层和编码层引入运动信息的编码，从而为关键点变换层提供显示的运动语义先验信息。需要说明的是，运动信息的嵌入对于2D人体关键点到3D人体关键点的映射发挥着重要的作用，能够有效缓解不适定带来的问题，从而可以进一步提高了3D人体姿态估计的精度。

基于上述任一实施例，类似地，为了有效缓解不适定带来的问题，在肢干网络分支中也可以嵌入运动信息。肢干网络分支可以包括肢干差分层、肢干编码层和肢干变换层，由肢干差分层对输入的2D肢干向量序列进行差分运算，从而得到肢干对应的运动向量序列，再将2D肢干向量序列和肢干对应的运动向量序列分别输入到肢干编码层中，从而得到肢干编码层输出的初始肢干表示序列和肢干对应的运动表示序列，在此基础上，即可将初始肢干表示序列和肢干对应的运动表示序列一起输入到肢干变换层中，从而得到融合了肢干信息和运动信息的肢干表示序列。

本发明实施例提供的方法，利用肢干变换层捕捉不同帧人体肢干间的结构语义关联，同时利用肢干差分层和肢干编码层引入运动信息的编码，从而为肢干变换层提供显示的肢干运动语义先验。进一步地，本发明实施例分别在关键点网络分支和肢干网络分支中嵌入运动信息，从而实现提供不同层级的运动语义先验，极大地提高了3D人体姿态估计的精度。

基于上述任一实施例，3D姿态估计层包括融合变换层、特征分离层和关键点回归层；

将关键点表示序列和肢干表示序列输入至3D姿态估计层，得到3D人体关键点，包括：

将关键点表示序列和肢干表示序列输入至融合变换层，得到融合变换层输出的最终特征表示；

将最终特征表示输入至特征分离层，得到特征分离层输出的关键点特征和肢干特征；

将关键点特征输入至关键点回归层，得到关键点回归层输出的3D人体关键点。

具体地，3D姿态估计层可以包括融合变换层、特征分离层和关键点回归层。其中，融合变换层用于对输入的两个序列即关键点表示序列和肢干表示序列进行融合变换，建模不同帧关键点特征和肢干特征之间的语义关联，从而得到融合变换层输出的最终特征表示。可选地，融合变换层可以采用Transformer架构的网络，从而可以充分捕捉不同帧关键点特征和肢干特征之间的全局语义关联。

特征分离层用于对输入的最终特征表示进行特征分离，从而得到关键点特征和肢干特征；关键点回归层用于对输入的关键点特征进行回归运算，从而得到3D人体关键点，至此即完成了3D人体关键点的预测。可以理解的是，该3D人体关键点既是关键点回归层的输出，也是整个3D姿态估计模型最终的输出。

基于上述任一实施例，3D姿态估计层还包括肢干回归层；

将最终特征表示输入至特征分离层，得到特征分离层输出的关键点特征和肢干特征，之后还包括：

将肢干特征输入至肢干回归层，得到肢干回归层输出的3D人体肢干。

具体地，3D姿态估计层还可以包括肢干回归层，将特征分离层输出的肢干特征输入至肢干回归层，由肢干回归层对该肢干特征进行回归运算，得到肢干回归层输出的3D人体肢干，从而实现了3D人体肢干的预测。

进一步地，图2是本发明提供的3D人体姿态估计方法的总体框架图，如图2所示，2D人体姿态估计网络可以采用HRNet（High-Resolution Network，高分辨率网络），将人体图像序列输入至HRNet中进行2D姿态估计，得到2D人体关键点序列，并根据2D人体关键点序列得到2D肢干向量序列，随即，将2D人体关键点序列和2D肢干向量序列分别输入至关键点网络分支和肢干网络分支，再经由3D姿态估计层，即可得到关键点回归层输出的3D人体关键点，以及肢干回归层输出的3D人体肢干。

基于上述任一实施例，3D姿态估计模型的损失函数包括循环一致性损失函数；

循环一致性损失函数是基于第一预测3D人体肢干与第二预测3D人体肢干之间的一致性确定的；

其中，第一预测3D人体肢干和预测3D人体关键点是3D姿态估计模型基于样本2D人体关键点序列和样本2D肢干向量序列确定的，第二预测3D人体肢干是基于预测3D人体关键点确定的。

具体地，考虑到人体关键点和人体肢干属于不同层级的人体部件，人体不同层级预测之间存在不对齐的现象，从而会影响3D姿态估计模型的收敛。为了保证肢干网络分支和关键点网络分支的预测一致性，对齐两分支的预测结果，本发明实施例中3D姿态估计模型的损失函数包括循环一致性损失函数，循环一致性损失函数是基于第一预测3D人体肢干与第二预测3D人体肢干之间的一致性确定得到的。其中，第一预测3D人体肢干和预测3D人体关键点是3D姿态估计模型基于样本2D人体关键点序列和样本2D肢干向量序列确定的，第二预测3D人体肢干是基于预测3D人体关键点确定的。

在3D姿态估计模型的训练阶段，循环一致性损失函数可以使得第一预测3D人体肢干与第二预测3D人体肢干之间的相似度逐渐升高，从而达到第一预测3D人体肢干与第二预测3D人体肢干一致的训练目标。在训练过程中，3D姿态估计模型可以放大并学习第一预测3D人体肢干与对应的第二预测3D人体肢干之间的一致性，即第一预测3D人体肢干与第二预测3D人体肢干之间的共性特征，进而可以实现对齐关键点和肢干的预测结果，提升3D人体关键点的预测精度。

本发明实施例提供的方法，引入循环一致性损失函数来对齐肢干网络分支和关键点网络分支的预测结果，能够得到更加准确的3D人体关键点，进一步提升了3D人体姿态估计的精度。

基于上述任一实施例，3D姿态估计模型的损失函数包括监督损失函数，监督损失函数采用MPJPE（Mean Per Joint Position Error），具体表示如下：

其中，L表示关键点监督损失函数，

表示肢干监督损失函数，

表示3D姿态估计模型预测得到的预测3D人体关键点，

为第j个关键点的监督，即样本3D人体关键点，J表示关键点的个数。

表示3D姿态估计模型预测得到的第一预测3D人体肢干，

表示第b个肢干的监督，即样本3D人体肢干，B代表肢干的数量。

为了对齐肢干网络分支和关键点网络分支的预测结果，本发明实施例引入了循环一致性损失函数来进一步提升肢干和关键点的预测精度，具体地，利用预测的3D人体关键点获得第二预测3D人体肢干，可表示为

，循环一致性损失函数可以表示为：

通过循环一致性损失函数，由关键点构成的人体肢干预测逐渐合理，对3D人体关键点的预测起到很好的约束作用。

从而，3D姿态估计模型的总体损失函数可表示为：

其中，

为平衡网络损失的超参数。鉴于网络训练初始肢干预测和关键点预测都不稳定，此处，本发明实施例采用动态修改

取值的方式，即

其中，

表示迭代次数，

，

为常量。通过该调整，网络能够逐步调整循环一致性损失函数的权重，待网络训练稳定后逐步加入循环一致性损失函数。

基于上述任一实施例，第二预测3D人体肢干是基于如下步骤确定的：

基于预测3D人体关键点，确定各肢干类型对应的预测人体关键点；

基于各肢干类型对应的预测人体关键点，确定各肢干类型对应的预测肢干向量；

基于各肢干类型对应的预测肢干向量，确定第二预测3D人体肢干。

具体地，在3D姿态估计模型的训练阶段，将样本2D人体关键点序列和样本2D肢干向量序列输入到3D姿态估计模型中，可以得到模型输出的第一预测3D人体肢干和预测3D人体关键点。接着，可以统计人体肢干类型，然后根据3D姿态估计模型预测得到的预测3D人体关键点，找到各个肢干类型对应的预测人体关键点，并根据各个肢干类型对应的预测人体关键点的坐标，计算各肢干类型对应肢干的空间向量表示即预测肢干向量，最后，即可根据各肢干类型对应的预测肢干向量，得到第二预测3D人体肢干。类似地，也可以通过上述方式得到步骤120中的2D肢干向量序列。

基于上述任一实施例，3D姿态估计模型包括关键点网络分支、肢干网络分支和3D 姿态估计层。图3是本发明提供的3D姿态估计模型的网络结构图，如图3所示，对于3D姿态估计模型中的关键点网络分支，可以首先将2D人体关键点序列

（其中f表示输入序列的帧数，J表示关键点的个数）输入至关键点网络分支中的差分层，得到运动向量序列

，其中，

之后，通过编码层包括的运动向量编码层，将关键点对应的运动向量序列映射至高维空间获得运动表示序列

，E^mo为编码器结构；通过编码层包括的关键点编码层，将输入X映射至高维空间获得人体关键点序列的时间表达，即初始关键点表示序列

，C表示序列的特征维度，E为编码器结构；类似于常规变换器，此处，为了加入位置信息，在关键点变换层的输入中加入自学习的位置信息编码

，此时关键点变换层的输入

可表示为：

关键点变换层可以采用Transformer架构的网络，其核心是利用自注意力机制来关联输入序列，通过查询矩阵

，键矩阵

，值矩阵

获得自注意力矩阵，N为输入序列的长度。其中，

,

为映射矩阵，注意力矩阵可表示为：

进一步地，可以用多头自注意力机制（Multi-headed Self-attention，MSA）来代替注意力机制：

其中，h为注意力头的个数，

为可学习的全连接层网络参数。关键点变换层一共包含L层，具体表示为：

其中，MLP为多层感知机，由多个全连接层构成，

为层归一化操作。经过关键点变换层之后，最终获得关键点表示序列

。

类似地，对于3D姿态估计模型中的肢干网络分支，肢干网络分支的输入为2D肢干向量序列

，B代表肢干的数量。通过肢干编码层，将

映射至高维空间获得

。位置信息编码可表示为

，对于肢干依然可以提取其对应的运动向量序列

，其中，

并将

映射至高维空间中可以获得

。此时肢干变换层的输入可以表示为：

类似地，经过肢干变换层之后，最终获得肢干表示序列

。

对于3D姿态估计模型中的3D姿态估计层，将关键点表示序列和肢干表示序列进行拼接，同时送入融合变换层中进行变换处理，从而实现不同帧肢干特征和关键点特征之间的语义交互。具体地，融合后的输入特征可表示为：

其中，

为拼接操作。将

输入到融合变换层中，可表示为：

表示最终特征表示。将

输入至特征分离层，由特征分离层沿着时间轴对

进行拆分，分别获得关键点特征

和肢干特征

。分别经过关键点回归层和肢干回归层进行回归运算之后，可获得关键点的预测结果即3D人体关键点，以及肢干的预测结果即3D人体肢干，具体表示如下：

其中，

表示3D人体关键点，

表示3D人体肢干，

为关键点回归层，

为肢干回归层。

需要说明的是，本发明实施例设计了一种基于双流变换器的3D姿态估计模型，3D姿态估计模型包括关键点网络分支和肢干网络分支，能够建模不同帧关键点间的语义关联和不同帧肢干间的语义关联，并且，为了更好地利用双流特征，3D姿态估计模型还包括3D姿态估计层，能够建模不同帧不同层级人体部件之间的语义关联，从而扩大了信息传递的范围。

关键点网络分支包括关键点变换层，肢干网络分支包括肢干变换层，3D姿态估计模型包括融合变换层。关键点变换层，肢干变换层以及融合变换层这三个变化器可以采用Transformer架构的网络，具有较强的长序列建模能力，从而可以实现建模不同帧关键点特征间和肢干特征间的全局关联，以及建模不同帧不同层级人体部件之间的全局关联。本发明实施例提供的方法，在3D人体姿态估计问题上实现了较低的度量误差。

下面对本发明提供的3D人体姿态估计装置进行描述，下文描述的3D人体姿态估计装置与上文描述的3D人体姿态估计方法可相互对应参照。

基于上述任一实施例，图4是本发明提供的3D人体姿态估计装置的结构图，该装置包括：

估计模块410，用于对人体图像序列进行2D姿态估计，得到2D人体关键点序列；

确定模块420，用于基于所述2D人体关键点序列，确定2D肢干向量序列；

输入模块430，用于将所述2D人体关键点序列和所述2D肢干向量序列输入至3D姿态估计模型，得到所述3D姿态估计模型输出的3D人体关键点；其中，所述3D姿态估计模型是基于样本2D人体关键点序列，样本2D肢干向量序列以及对应的样本3D人体关键点训练得到的。

本发明实施例提供的装置，在得到高精度的2D人体关键点序列之后，确定出具有更高阶人体结构信息的2D肢干向量序列，并应用3D姿态估计模型结合2D人体关键点序列和2D肢干向量序列进行3D人体姿态估计，既可以捕捉到不同帧关键点之间的结构语义关联，还可以捕捉到不同帧肢干之间的结构语义关联，从而可以得到高精度的3D人体关键点，进而实现了3D人体姿态的精确估计，同时提升了3D人体姿态估计的鲁棒性和泛化性。

将2D人体关键点序列和2D肢干向量序列输入至3D姿态估计模型，得到3D姿态估计模型输出的3D人体关键点，包括：

基于上述任一实施例，3D姿态估计层还包括肢干回归层；

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行3D人体姿态估计方法，该方法包括：对人体图像序列进行2D姿态估计，得到2D人体关键点序列；基于所述2D人体关键点序列，确定2D肢干向量序列；将所述2D人体关键点序列和所述2D肢干向量序列输入至3D姿态估计模型，得到所述3D姿态估计模型输出的3D人体关键点；其中，所述3D姿态估计模型是基于样本2D人体关键点序列，样本2D肢干向量序列以及对应的样本3D人体关键点训练得到的。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的3D人体姿态估计方法，该方法包括：对人体图像序列进行2D姿态估计，得到2D人体关键点序列；基于所述2D人体关键点序列，确定2D肢干向量序列；将所述2D人体关键点序列和所述2D肢干向量序列输入至3D姿态估计模型，得到所述3D姿态估计模型输出的3D人体关键点；其中，所述3D姿态估计模型是基于样本2D人体关键点序列，样本2D肢干向量序列以及对应的样本3D人体关键点训练得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的3D人体姿态估计方法，该方法包括：对人体图像序列进行2D姿态估计，得到2D人体关键点序列；基于所述2D人体关键点序列，确定2D肢干向量序列；将所述2D人体关键点序列和所述2D肢干向量序列输入至3D姿态估计模型，得到所述3D姿态估计模型输出的3D人体关键点；其中，所述3D姿态估计模型是基于样本2D人体关键点序列，样本2D肢干向量序列以及对应的样本3D人体关键点训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种3D人体姿态估计方法，其特征在于，包括：

对人体图像序列进行2D姿态估计，得到2D人体关键点序列；

基于所述2D人体关键点序列，确定2D肢干向量序列；

2.根据权利要求1所述的3D人体姿态估计方法，其特征在于，所述3D姿态估计模型包括关键点网络分支、肢干网络分支和3D姿态估计层；

3.根据权利要求2所述的3D人体姿态估计方法，其特征在于，所述关键点网络分支包括差分层、编码层和关键点变换层；

4.根据权利要求2所述的3D人体姿态估计方法，其特征在于，所述3D姿态估计层包括融合变换层、特征分离层和关键点回归层；

5.根据权利要求4所述的3D人体姿态估计方法，其特征在于，所述3D姿态估计层还包括肢干回归层；

6.根据权利要求1至5中任一项所述的3D人体姿态估计方法，其特征在于，所述3D姿态估计模型的损失函数包括循环一致性损失函数；

7.根据权利要求6所述的3D人体姿态估计方法，其特征在于，所述第二预测3D人体肢干是基于如下步骤确定的：

8.一种3D人体姿态估计装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述3D人体姿态估计方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述3D人体姿态估计方法的步骤。