CN112766120B

CN112766120B - 基于深度点云的三维人体姿态估计方法与系统

Info

Publication number: CN112766120B
Application number: CN202110032051.2A
Authority: CN
Inventors: 夏时洪; 张子豪; 胡磊
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2021-01-11
Filing date: 2021-01-11
Publication date: 2023-06-02
Anticipated expiration: 2041-01-11
Also published as: CN112766120A

Abstract

本发明提供一种基于深度点云的三维人体姿态估计方法，其包括：步骤1、由捕获的当前帧的深度图像估计得到二维人体姿态、深度点云块以及初始三维人体姿态；步骤2、依据点云密度对深度点云块中的深度点云进行采样；步骤3、由采样得到的深度点云估计得到三维人体姿态特征向量；步骤4、将三维人体姿态特征向量回归初始三维人体姿态到最终三维人体姿态之间的偏移向量，并得到最终三维人体姿态。

Description

基于深度点云的三维人体姿态估计方法与系统

技术领域

本发明涉及计算机视觉领域，特别涉及一种基于深度点云的三维人体姿态估计方法与系统。

背景技术

从深度图像中估计三维人体姿态是计算机视觉中的一个重要问题，并且在虚拟现实/增强现实、人机交互、机器人技术以及自动驾驶技术中具有广泛的应用。从点云进行三维人体姿势估计在技术上是更加可靠的，因为三维点云相较于彩色图像包含更多的空间信息，且三维点云的获取不受光照的影响，即使在黑暗的环境中也能保证系统的正常运行。

但是，从点云进行人体姿势估计仍然具有挑战性。首先，现有的基于点云的方法，对于点云的表示尚存在一些分歧。采用三维散点表示容易丢失点云的一些局部的邻接信息，采用二维深度图表示容易损失一些全局的空间信息。其次，现有的基于点云的方法中的点云采样策略主要是基于规则，人工指定的，对于人体姿势估计任务而言并非最佳。更重要的，现有的方法通常采用单个点云框架来估计人体姿势，这可能会忽略固有的运动平滑先验性，并导致估计结果产生抖动的情况。

发明内容

本发明的目的在于克服上述现有技术的缺陷，提供一种基于深度点云的三维人体姿态估计方法与系统，从捕获的深度图像中实时在线地估计三维人体姿态。

为了实现上述目的，本发明提供了一种基于深度点云的三维人体姿态估计方法，其包括：步骤1、由捕获的当前帧的深度图像估计得到二维人体姿态、深度点云块以及初始三维人体姿态；步骤2、依据点云密度对所述深度点云块中的深度点云进行采样；步骤3、由采样得到的所述深度点云估计得到三维人体姿态特征向量；步骤4、将所述三维人体姿态特征向量回归所述初始三维人体姿态到最终三维人体姿态之间的偏移向量，并得到所述最终三维人体姿态。

上述的基于深度点云的三维人体姿态估计方法，其中，所述步骤2包括：步骤21、由所述深度点云块生成过渡点云采样中心；步骤22、预测所述过渡点云采样中心附近的K个原始点云的权重；步骤23、依据所述权重对所述K个原始点云进行加权投影，并得到最终点云采样中心；步骤24、提取所述最终点云采样中心附近的K个所述深度点云。

上述的基于深度点云的三维人体姿态估计方法，其中，所述K个原始点云或所述K个深度点云可由K近邻方法获得，所述权重由所述原始点云所处位置及是否为人体点云确定。

上述的基于深度点云的三维人体姿态估计方法，其中，所述深度点云块对应人体骨架的关节。

上述的基于深度点云的三维人体姿态估计方法，其中，所述人体骨架的关节包括：根关节、左/右肩关节、左/右肘关节、左/右腕关节、颈关节、头关节、左/右股骨关节、左/右膝关节或者左/右踝关节。

上述的基于深度点云的三维人体姿态估计方法，其中，所述步骤1中的所述二维人体姿态可通过二维人体姿态估计方法估计得到，所述深度点云块以及所述初始三维人体姿态分别由所述二维人体姿态的关节及其周围若干像素的深度图像投影到三维空间得到。

上述的基于深度点云的三维人体姿态估计方法，其中，所述二维人体姿态估计方法包括通过层叠沙漏模型的估计方法或者通过深度高分辨率表示学习的估计方法。

上述的基于深度点云的三维人体姿态估计方法，其中，所述步骤3包括：由所述深度点云提取得到人体姿态相关的特征向量，并将所述特征向量与初始三维人体姿态相结合得到所述三维人体姿态特征向量。

上述的基于深度点云的三维人体姿态估计方法，其中，通过PointNet或者PointNet++提取所述人体相关的特征向量。

上述的基于深度点云的三维人体姿态估计方法，其中，所述步骤4包括：以所述三维人体姿态特征向量作为长短期记忆网络的当前帧状态，结合上一帧状态的隐变量，得到含有时序信息的所述三维人体姿态特征向量，并将所述含有时序信息的三维人体姿态特征向量作为下一帧状态的所述隐变量，并通过全连接网络模型回归所述初始三维人体姿态到所述最终三维人体姿态之间的所述偏移向量，得到所述最终三维人体姿态。

为了实现上述目的，本发明还提供了一种基于深度点云的三维人体姿态估计系统，其包括：二维姿态估计模块，用于将捕获的当前帧的深度图像估计得到二维人体姿态、深度点云块以及初始三维人体姿态；点云采样模块，用于依据点云密度对所述深度点云块中的深度点云进行采样点云特征提取模块，用于由采样得到的所述深度点云估计得到三维人体姿态特征向量；三维姿态估计模块，用于将所述三维人体姿态特征向量回归所述初始三维人体姿态到最终三维人体姿态之间的偏移向量，并得到所述最终三维人体姿态。

上述的基于深度点云的三维人体姿态估计系统，其中，所述点云采样模块包括：原始点云采样子模块，用于由所述深度点云块生成过渡点云采样中心，并预测所述过渡点云采样中心附近K个原始点云的权重；深度点云采样子模块，用于依据所述权重对所述K个原始点云进行加权投影得到最终点云采样中心，并提取所述最终点云采样中心附近的K个所述深度点云。

上述的基于深度点云的三维人体姿态估计系统，其中，所述K个原始点云或所述K个深度点云可由K近邻方法获得，所述权重由所述原始点云所处位置及是否为人体点云确定。

上述的基于深度点云的三维人体姿态估计系统，其中，所述深度点云块对应人体骨架的关节。

上述的基于深度点云的三维人体姿态估计系统，其中，所述人体骨架的关节包括：根关节、左/右肩关节、左/右肘关节、左/右腕关节、颈关节、头关节、左/右股骨关节、左/右膝关节或者左/右踝关节。

上述的基于深度点云的三维人体姿态估计系统，其中，所述二维姿态估计模块为HRNet或者层叠沙漏网络模型。

上述的基于深度点云的三维人体姿态估计系统，其中，所述点云特征提取模块为PointNet网络或者PointNet++网络。

附图说明

图1为本发明实施例的基于深度点云的三维人体姿态估计方法的流程图。

图2为对应图1所示方法的框架示意图。

图3为本发明实施例的人体相关点云采样过程示意图。

图4为本发明实施例的三维人体姿态估计结果示意图。

具体实施方式

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

发明人在进行基于深度点云的人体姿态估计研究时发现，导致现有技术中存在上述缺陷的原因具有以下三点：第一，仅考虑点云的三维表示或二维表示，丢失了部分数据中隐含的信息，其原因主要在于对于二维表示和三维表示难以以一种统一的方式进行学习；第二，对于点云的三维表示，在降采样的过程中，仅考虑采用距离约束的规则，该方法对于人体点云表现并不佳，其原因主要在于基于距离的采样，对于带状、条状等分布较为扁平的点云采样效果并不好；第三，在估计人体姿态的过程中，仅考虑基于单张图像进行估计，其原因主要在于欠缺对时序信息的考虑。

发明人经过理论模型探究以及实验验证研究发现，解决上述缺陷可以通过以下方案来实现。第一，采样“两步法”处理点云信息，即先学习二维表示中的全局信息，再学习三维表示中的局部信息，兼备二者优势；第二，在三维点云采样过程中，额外考虑基于点云的密度进行采样，此方法能够进一步地保证采样结果在三维空间中形成一个密度较高的簇，进而弥补基于距离采样带来点云稀疏的弱势；第三，通过LSTM机制引入人体姿态时序信息，并进一步通过约束生成姿态序列关节移动的速度，生成更加平滑的结果。

在本发明的一个实施例中，提出了一种基于深度点云的三维人体姿态估计方法。该方法可以从捕获的深度图像中提取与人体肢体段具有对应关系的关节点，例如但不限于根关节、左/右肩关节、左/右肘关节、左/右腕关节、颈关节、头关节、左/右股骨关节、左/右膝关节、左/右踝关节。深度图像可通过深度相机，例如但不限于Kinect捕获得到，其中像素点对应三维空间中的人体表面点云以及环境中其余物体的点云。另外需要说明的是，在本发明的实例中采用的点云不包含环境的点云以及噪声点，因此需要对该类型点进行剔除，进而依据干净的人体表面点云，估计得到最终三维人体姿态。

在本实施例中，例如采用微软Kinect V2.0深度相机来捕获深度图像，其以30帧/秒的帧率，实时获取分辨率为512*424的深度图像序列；通常在已知相机参数时，可以自动将获取的单帧深度图像转换为三维深度点云数据。当使用者(即运动对象)在Kinect V2.0深度相机的镜头前例如约1.5-4.5米的远近范围内随意做任何动作时，可自动从KinectV2.0深度相机实时获取相关的深度图像数据。应指出，本发明的方法对于用作数据输入设备的相机具有较强的可扩展性，可以是单目深度相机，也可以是同步的多目深度相机，而且当扩展为多目深度相机时，该方法能捕获得到更高精度的人体运动姿态的深度图像。

下面结合图1及图2来具体介绍根据本发明实施例的三维人体姿态估计方法的各个步骤。

本实施例的基于深度点云的三维人体姿态估计方法方法主要包括4个步骤：步骤1，由捕获的当前帧的深度图像估计得到二维人体姿态、深度点云块以及初始三维人体姿态；步骤2，依据点云密度对步骤1估计得到的深度点云块中的深度点云进行采样；步骤3，由步骤2采样得到的深度点云提取得到三维人体姿态特征向量；以及步骤4，将步骤3提取得到的三维人体姿态特征向量回归初始三维人体姿态到最终三维人体姿态之间的偏移向量，并得到最终三维人体姿态。

在步骤1中，将捕获的当前帧的深度点云作为二维的深度图像，例如可通过二维人体姿态估计方法，估计得到人体二维姿态；其中，在一个实施例中，可通过层叠沙漏模型(Stacked Hourglass Network)对人体姿态进行估计；在另一个实施例中，也可通过用于人体姿势估计的深度高分辨率表示学习(Scale-recurrent Network for Deep ImageDeblurring，HRNet)对二维人体姿态进行估计。在本实施例中，同时提取估计得到二维人体姿态的关节点及其周围若干像素的深度图像，并通过深度相机的内参矩阵，将二维人体姿态的关节点及其周围若干像素的深度图像投影到三维空间中，并分别作为初始三维人体姿态以及深度点云块。

在步骤2中，对步骤1采样得到的深度点云块，依据点云密度对深度点云块中的深度点云进行采样；具体地，可包括以下步骤：

步骤21，由深度点云块生成过渡点云采样中心。生成过渡点云采样中心是为了获得深度点云块的子集以作为采样中心。在本实施例中，为了获得有效的过渡点云采样中心，发明人考虑了采样中心点及其邻域之间的关系，并设计了密度引导的注意力机制来自适应地生成采样结果，密度引导的注意力机制是基于人体是一个连续整体这一观点提出的，作为一个连续整体的人体点云应当是连通互达的，即人体任意两个部位之间至少存在一条路径可以连通(如人体的头部到脚部必定可以经过颈部、胸部、腹部等连结起来)，基于上述的性质，便可以利用密度机制将人体部分点云和背景或噪声进行更好的分割。如图3所示，在采样环节，发明人提出两个关键概念，即核心点和边界点，核心点通常是人体表面内部的点，边界点通常属于人体边界，一个点称为核心点，则其∈邻域U⁰(r，∈)内存在大于M个点，即|U⁰(r，∈)|＞M，一个点称为边界点，则其∈邻域U⁰(r，∈)内至少有一个核心点。其中核心点是密度聚集的点，并且核心点用于刻画身体的内部，而边界点是用于刻画身体的边界，另外非核心点或边界点便将其视为噪声点；前景点云表示属于人体的点云，背景点云表示本发明不关心的噪声点，本发明的目标是对原始点云进行采样，因此利用神经网络模块生成的核心点以及边界点作为过渡点云采样中心进行采样得到投影点(投影回原始点云，使得最终点云采样中心为原始点云的子集)。

步骤22，预测过渡点云采样中心附近的K个原始点云的权重。在上述过渡点云采样中心生成过程中，同时对过渡点云采样中心附近K个原始点云，预测各自权重w^pred，其中权重w^pred由原始点云所处位置及是否为人体点云所确定，预测权重和生成过渡点云采样中心可共享同一组参数；

步骤23，依据权重对K个原始点云进行加权投影，并得到最终点云采样中心。由于过渡采样中心只是原始点云的近似子集，因此为了获得最终点云采样中心，发明人使用了软投影操作，软投影操作如图2中所示，即根据步骤22中得到权重w^pred对步骤21中得到的过渡点云采样中心附近K个原始点云进行加权重投影，得到最终点云采样中心。

步骤24，提取最终点云采样中心附近K个深度点云。

在步骤3中，由采样得到的深度点云估计得到三维人体姿态特征向量。发明人对步骤2中估计得到的深度点云进行特征提取操作，得到姿态相关的特征向量，并将姿态相关的特征向量与初始三维人体姿态相结合，得到三维人体姿态特征向量。在一个实施例中，可通过PointNet或者PointNet++来提取姿态相关的特征向量。

在步骤4中，将三维人体姿态特征向量回归初始三维人体姿态到最终三维人体姿态之间的偏移向量，并得到最终三维人体姿态。发明人将上述步骤3中得到的三维人体姿态特征向量，作为长短期记忆网络(LSTM)的当前状态，结合上一帧状态的隐变量，得到含有时序信息的三维人体姿态特征向量，并将此作为下一帧状态的隐变量，最后例如可通过一个全连接网络模型，回归初始三维人体姿态到最终三维人体姿态之间的偏移向量，并得到最终的三维人体姿态。

相较于现有方法，本发明提供的基于深度点云的三维人体姿态方法能够以更高的精度以及更快的速度对场景中人体姿态进行估计。如图4所示，给出了本发明实施例的估计方法在数据集ITOP以及NTU-RGBD下测试结果示意图。如下表1所示，给出了现有方法(弱监督方法、体素方法)与本发明方法在精度以及速度上的对比。无论在精度上，还是在速度上，本发明的估计方法均优于现有方法。

表1

以下为与上述方法实施例对应的系统实施例，本实施例的系统可与上述实施例的方法互相配合实施。上述实施方式中提到的相关技术细节在本实施例的系统中依然有效，为了减少重复，在此不再赘述。

本发明的实施例还提供一种基于深度点云的三维人体姿态估计系统，其特征在于，其包括：二维姿态估计模块，用于将捕获的当前帧的深度图像估计得到二维人体姿态、深度点云块以及初始三维人体姿态；点云采样模块，用于依据点云密度对深度点云块中的深度点云进行采样；点云特征提取模块，用于由采样得到的深度点云提取得到三维人体姿态特征向量；三维姿态估计模块，用于将三维人体姿态特征向量回归初始三维人体姿态到最终三维人体姿态之间的偏移向量，并得到最终三维人体姿态。

于一实施例中，上述的点云采样模块包括：原始点云采样子模块，用于由深度点云块生成过渡点云采样中心，并预测过渡点云采样中心附近K个原始点云的权重；深度点云采样子模块，用于依据权重对K个原始点云进行加权投影得到最终点云采样中心，并提取最终点云采样中心附近的K个深度点云。其中，K个原始点云或K个深度点云可由K近邻方法获得，权重由原始点云所处位置及是否为人体点云确定。

于一实施例中，深度点云块对应人体骨架的关节，人体骨架的关节包括：根关节、左/右肩关节、左/右肘关节、左/右腕关节、颈关节、头关节、左/右股骨关节、左/右膝关节或者左/右踝关节。

于一实施例中，上述的二维姿态估计模块为HRNet或者层叠沙漏网络模型。

于一实施例中，上述的点云特征提取模块为PointNet网络或者PointNet++网络。

综上，本发明实施例提供的基于深度点云的三维人体姿态估计方法与系统，具有以下关键点：第一，依据点云密度对点云进行可微采样，可以有效地对带状、条状的点云进行更加均匀的采样，以及可以用后续目标函数进一步优化当前点云采样的参数；第二，将时序信息引入深度图像的三维人体姿态估计，可以保证估计得到的三维人体姿态在时域上更加平滑，避免结果抖动。总之，本发明的技术方案利用点云之间的密度约束，在点云采样过程中，得到合理和准确的三维人体相关的点云，而且采样过程中涉及的网络参数均可以通过反向传播进行优化；另外，引入了时序信息，同时对估计结果的速度、加速度进行约束，从而得到更加平滑的估计结果。

Claims

1.一种基于深度点云的三维人体姿态估计方法，其特征在于，包括：

步骤1、由捕获的当前帧的深度图像估计得到二维人体姿态、深度点云块以及初始三维人体姿态；

步骤2、依据点云密度对所述深度点云块中的深度点云进行采样；

步骤3、由采样得到的所述深度点云提取得到三维人体姿态特征向量；

步骤4、将所述三维人体姿态特征向量回归所述初始三维人体姿态到最终三维人体姿态之间的偏移向量，并得到所述最终三维人体姿态；

所述步骤1中的所述二维人体姿态可通过二维人体姿态估计方法估计得到，所述深度点云块以及所述初始三维人体姿态分别由所述二维人体姿态的关节及其周围若干像素的深度图像投影到三维空间得到；

所述步骤2包括：

步骤21、由所述深度点云块生成过渡点云采样中心，利用神经网络模块生成的核心点以及边界点作为所述过渡点云采样中心；

步骤22、预测所述过渡点云采样中心附近的K个原始点云的权重；

步骤23、依据所述权重对所述K个原始点云进行加权投影，并得到最终点云采样中心；

步骤24、提取所述最终点云采样中心附近的K个所述深度点云；

所述步骤4包括：以所述三维人体姿态特征向量作为长短期记忆网络的当前帧状态，结合上一帧状态的隐变量，得到含有时序信息的所述三维人体姿态特征向量，并将所述含有时序信息的三维人体姿态特征向量作为下一帧状态的所述隐变量，并通过全连接网络模型回归所述初始三维人体姿态到所述最终三维人体姿态之间的所述偏移向量，得到所述最终三维人体姿态。

2.如权利要求1所述的基于深度点云的三维人体姿态估计方法，其特征在于，所述K个原始点云或所述K个深度点云可由K近邻方法获得，所述权重由所述原始点云所处位置及是否为人体点云确定。

3.如权利要求1或2所述的基于深度点云的三维人体姿态估计方法，其特征在于，所述深度点云块对应人体骨架的关节。

4.如权利要求3所述的基于深度点云的三维人体姿态估计方法，其特征在于，所述人体骨架的关节包括：根关节、左/右肩关节、左/右肘关节、左/右腕关节、颈关节、头关节、左/右股骨关节、左/右膝关节或者左/右踝关节。

5.如权利要求1所述的基于深度点云的三维人体姿态估计方法，其特征在于，所述二维人体姿态估计方法包括通过层叠沙漏模型的估计方法或者通过深度高分辨率表示学习的估计方法。

6.如权利要求1或2所述的基于深度点云的三维人体姿态估计方法，其特征在于，所述步骤3包括：由所述深度点云提取得到人体姿态相关的特征向量，并将所述特征向量与初始三维人体姿态相结合得到所述三维人体姿态特征向量。

7.如权利要求6所述的基于深度点云的三维人体姿态估计方法，其特征在于，通过PointNet网络或者PointNet++网络提取所述人体相关的特征向量。

8.一种基于深度点云的三维人体姿态估计系统，其特征在于，包括：

二维姿态估计模块，用于将捕获的当前帧的深度图像估计得到二维人体姿态、深度点云块以及初始三维人体姿态；

点云采样模块，用于依据点云密度对所述深度点云块中的深度点云进行采样

点云特征提取模块，用于由采样得到的所述深度点云提取得到三维人体姿态特征向量；

三维姿态估计模块，用于将所述三维人体姿态特征向量回归所述初始三维人体姿态到最终三维人体姿态之间的偏移向量，并得到所述最终三维人体姿态；

所述二维姿态估计模块中的所述二维人体姿态可通过二维人体姿态估计方法估计得到，所述深度点云块以及所述初始三维人体姿态分别由所述二维人体姿态的关节及其周围若干像素的深度图像投影到三维空间得到；

所述点云采样模块包括：

原始点云采样子模块，用于由所述深度点云块生成过渡点云采样中心，利用神经网络模块生成的核心点以及边界点作为所述过渡点云采样中心，并预测所述过渡点云采样中心附近K个原始点云的权重；

深度点云采样子模块，用于依据所述权重对所述K个原始点云进行加权投影得到最终点云采样中心，并提取所述最终点云采样中心附近的K个所述深度点云；

所述三维姿态估计模块包括：以所述三维人体姿态特征向量作为长短期记忆网络的当前帧状态，结合上一帧状态的隐变量，得到含有时序信息的所述三维人体姿态特征向量，并将所述含有时序信息的三维人体姿态特征向量作为下一帧状态的所述隐变量，并通过全连接网络模型回归所述初始三维人体姿态到所述最终三维人体姿态之间的所述偏移向量，得到所述最终三维人体姿态。

9.如权利要求8所述的基于深度点云的三维人体姿态估计系统，其特征在于，所述K个原始点云或所述K个深度点云可由K近邻方法获得，所述权重由所述原始点云所处位置及是否为人体点云确定。

10.如权利要求8或9所述的基于深度点云的三维人体姿态估计系统，其特征在于，所述深度点云块对应人体骨架的关节。

11.如权利要求10所述的基于深度点云的三维人体姿态估计系统，其特征在于，所述人体骨架的关节包括：根关节、左/右肩关节、左/右肘关节、左/右腕关节、颈关节、头关节、左/右股骨关节、左/右膝关节或者左/右踝关节。

12.如权利要求8所述的基于深度点云的三维人体姿态估计系统，其特征在于，所述二维姿态估计模块为HRNet或者层叠沙漏网络模型。

13.如权利要求8所述的基于深度点云的三维人体姿态估计系统，其特征在于，所述点云特征提取模块为PointNet网络或者PointNet++网络。