CN110222580A

CN110222580A - 一种基于三维点云的人手三维姿态估计方法和装置

Info

Publication number: CN110222580A
Application number: CN201910384210.8A
Authority: CN
Inventors: 邓小明; 窦毅坤; 朱玉影; 王宏安
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2019-09-10
Anticipated expiration: 2039-05-09
Also published as: CN110222580B

Abstract

本发明涉及一种基于三维点云的人手三维姿态估计方法和装置。本发明主要解决的问题是如何从单张深度图得到的人手点云中恢复人手三维姿态，其主要技术难点在于点云排列无序并且存在较高的噪声问题，人手丰富的手势变化以及由于拍摄角度导致的人手自遮挡等。本发明提出了基于深度神经网络的人手姿态估计算法，能够从丰富的训练数据中自适应提取特征。并且本发明在实时回归人手关节点的三维位置的同时，能够预测点云的局部以及全局特征，利用关节标注的内在联系，帮助网络提高泛化能力，缓解单任务网络提取的特征泛化能力差的问题。经过实际使用验证，本发明具有自动化程度高、精度高和实时性的优点，可满足专业的或者大众化的应用需求。

Description

一种基于三维点云的人手三维姿态估计方法和装置

技术领域

本发明属于计算机视觉、计算机图像处理领域，具体涉及一种基于三维点云的人手三维姿态估计方法和装置。

背景技术

近年来，随着计算机视觉技术的发展和计算机算力的大幅度提升，基于视觉的人机交互得到了长足的发展。通过图像或视频处理使计算机具有了“看”的能力，采用了依赖大规模数据的统计方法可以使计算机具备理解分析的能力，这是人机交互中最为自然方便的一种方式。其中，基于肢体动作的交互时视觉人机交互的核心问题之一，包括姿态估计、手势识别、人脸识别、面部表情识别和三维重建等。

人手作为肢体动作中最灵活的部分，操作起来自然、快捷、方便，传递的信息量丰富，应用范围十分广泛，如现在的智能手机、平板电脑，任天堂的Wii，微软的Surface、Kinect等，都使用了拖拽、点击等来实现特定功能。手势交互和手语识别有广泛的应用场景，并且通常需要精确的手部姿态作为基础，但是基于单视角图像的三维人手姿态估计在准确率方面还达不到精细领域的操作要求。因此，精确的人手姿态估计成为了视觉人机交互发展的瓶颈。

近年来，随着机器学习和模式识别的发展，特别是深度学习的带动，使得人手姿态估计有了突破性的进展，但受限于训练数据的质量以及人手形变、模糊、自遮挡等问题，人手姿态估计的精确性、实时性、稳定性等方面还存在明显的不足，因此基于点云的人手姿态估计具有较高的研究和应用价值。

三维人手姿态估计方法分为传统的非视觉算法和视觉类算法，非视觉类算法主要以基于数据手套方法为主，该方法的思路是借助一些常用的传感器来对人手关键点进行检测和跟踪，此类方法缺点明显：造价昂贵、交互方式不自然、关键点易脱离等。视觉类算法分为模型驱动和数据驱动两种类型，其中基于模型的方法需要在高维的参数空间中采用高效的优化算法来使其快速收敛到全局最优，而一般优化的目标函数都是非凸函数，这需要一个较好的初始化权重，否则容易陷入局部最优；另一方面，优化过程需要大量的迭代运算，导致实时性得不到保证，目前只能运用于一些离线型环境中。基于数据驱动的方法有传统方法和深度学习方法，传统方法中的图像特征法思路是：先对图像进行特征的提取，比如边缘特征提取等等，并用最近邻搜索的方法在标注的人手姿态数据库中找到一个最相近的姿态作为最终的估计结果，该方法的局限性也比较明显：过分依赖于数据库的完整性，不能得到数据库里不存在的姿态。深度学习方法使用卷积神经网络对图像进行特征的提取，再使用分类或者回归得到三维关节点的位置，由于深度学习的方法有大规模的数据特征支持，能得到精度优于其他方法的结果。

发明内容

为了满足视觉人机交互的需要，本发明提供了一种基于三维点云的人手三维姿态估计方法和装置。

本发明的一种基于三维点云的人手三维姿态估计方法，包括以下步骤：

构建两阶段级联神经网络，用于回归粗糙的与精细的人手三维关节点位置；第一阶段通过点云神经网络回归粗糙的人手三维关节点位置，第二阶段利用第一阶段的神经网络得到的粗糙的人手三维关节点在人手点云中进行采样聚类，进一步回归精细的人手三维关节点位置；

利用关节点恢复损失对所述两阶段级联神经网络进行训练；

将待估计的深度图像输入训练完成的所述两阶段级联神经网络，得到人手三维关节点坐标。

进一步地，对所述两阶段级联神经网络进行训练之前进行数据预处理，对点云进行方向与大小的归一化。

下面依次介绍采用的数据预处理方法，网络的具体结构，采用的损失函数，以及网络的具体实现方法。

本发明所提出的方法包括以下步骤：

步骤1，数据预处理。

第一步，利用深度相机获得人手三维信息，通过相机的参数将二维的深度图像转化为点云数据。深度图与点云转换公式如下：

其中，z_c为深度值，u,v为深度图中的图像坐标系下的任意坐标点。u₀,v₀是相机坐标系下的的中心坐标，x_w,y_w,z_w是相机坐标系下的三维坐标点。f/dx，f/dy为相机的内参。

第二步，将点云数据下采样，得到1024维点云数据，并对数据进行主成分分析，通过获得人手方向对人手点云进行旋转，得到一个正交的坐标系，对点云进行方向归一化，消除旋转带来的数据多样性。

第三步，对人手数据进行统计，将不同大小的人手点云归一化到[-1,1]，并计算每一点的法向量。优选地，对点云x轴上的大小进行统计，将每一点坐标的三维坐标值除以1.2倍的x轴上的人手长度。

步骤2，网络的具体结构。

采用一种级联式神经网络进行人手的姿态估计。通过两阶段网络先从点云中恢复粗略的人手关节点位置。之后将粗糙的人手关节点与原始点云结合输入第二阶段网络。整个网络经过三次关节点回归最终得到最精确的关节点位置。每一阶段的人手特征提取网络与关节回归网络都会通过标注好的人手关节信息进行监督。

针对点云特征提取中缺少局部信息的缺点，网络设计了采样聚类层。将K个邻近的点云组成点云簇，先在点云簇中提取局部特征之后再提取整体特征。其中，第一、二次采样聚类是经过最远距离采样得到的采样点，第三次采样聚类是利用上一阶段得到的人手关节进行聚类采样。

输入的点云首先进行采样。采样时第一步在点云序列中随机选取一个点作为起始点，在剩余点云中选取距离此点最远的一个点。第二步将此点加入到起始点中，形成起始点序列。第三步在剩余点云序列中寻找一个距离起始点序列中各个点距离之和最远的一个点，并将此点加入起始点序列中。第四步，重复第三步直至采样到需要的点数。

采样之后点云将进行聚类，聚类时运用K近邻算法，求每一点点云欧式空间上最近邻的64维点云，并把这64维点云信息融合到采样点云中，在第一次与第三次采样聚类时融合的是欧式空间上的三维坐标信息。第二次采样聚类是是将网络得到的高维信息进行融合。这里的融合是指将K个点的信息绑定到采样点上。

采样聚类之后将对点云进行特征提取，将每一个采样点聚类后的点云称为点云簇。点云簇将经过多重感知机(Multi-Layer Perceptron，MLP)特征提取层进行特征提取。多层感知机是由输入层、输出层与中间隐层构成。多重感知机模型每一层之间是全连接的，即上一层任何一个神经元与下一层所有神经元进行连接。多重感知机特征提取层，是一个适合处理点云数据的网络结构。它对输入的每一维点云数据进行独立的特征提取。针对点云无序的特征，特征提取层设计了最大池化将得到点云簇的高维信息进行特征融合，通过全局信息表达人手来消除点云无序性带来的影响。

将经过第一个采样聚类层得到的组织好的512维点云簇输入第一个多重感知机特征提取层。之后同时将第一个多重感知机特征提取层的输出项输入第二个采样聚类层与一个全连接层。通过全连接层，网络回归到第一套人手三维关节，此时得到的第一套人手关节将于标注的人手关节点进行作差，通过二者之间的误差回传优化网络参数。与此同时第一个多重感知机特征提取层的输出将输入第二个采样聚类层后产生的128维点云簇先后经过第二个多重感知机特征提取层与全连接层。

通过全连接层网络将得到第二套人手三维关节，通过此套人手关节点坐标与标注好的人手关节点坐标进行作差，通过两者之间的误差进行回传将此段网络参数进行优化。利用第二套人手三维关节在原始点云当中通过第三个采样聚类层进行第三次聚类采样得到基于关节的点云簇，之后将此点云簇输入第三个多重感知机特征提取层，之后将特征提取的结果输入全连接层，得到最终精准地人手关节坐标，同时此套关节也将于标准的人手关节点标注作差得到，通过二者之间的误差回传将这部分网络优化。

步骤3，网络的损失函数。

在训练阶段，损失函数由三部分组成，每一部分是计算预测关节坐标和真实关节坐标之间的平方和误差和。具体公式如下所示：

L_total(J_pred)＝αL₁(J_pred,J_gt)+βL₂(J_pred,J_gt)+δL₃(J_pred,J_gt)

其中，L_total表示总的损失函数，J_pred表示预测所得的人手关节点位置，J_gt表示标准的人手关节点。L₁、L₂和L₃表示第一次，第二次与第三次全连接网络回归后预测所得的人手关节位置与标准人手关节点位置的差，此处运用的是L2损失函数。α，β，δ表示三部分损失函数的权重分布。

步骤4，网络具体实现和训练方法。

本发明的网络所用优化器是Adam，学习率初始设置为0.001，随着训练步数增多而指数衰减。

步骤5，对新输入的深度图像进行人手三维姿态估计。将待估计的深度图像输入步骤1进行数据预处理，之后通过步骤3计算预测损失函数值，最后输入步骤4训练完成的神经网络，通过该神经网络得到人手三维关节点坐标，即为人手三维姿态估计结果。

与上面方法对应地，本发明还提供一种基于三维点云的人手三维姿态估计装置，其包括：

网络构建模块，负责构建两阶段级联神经网络，用于回归粗糙的与精细的人手三维关节点位置；第一阶段通过点云神经网络回归粗糙的人手三维关节点位置，第二阶段利用第一阶段的神经网络得到的粗糙的人手三维关节点在人手点云中进行采样聚类，进一步回归精细的人手三维关节点位置；

网络训练模块，负责利用三组不同的关节点恢复损失对所述两阶段级联神经网络进行训练；

人手三维姿态估计模块，负责将待估计的深度图像输入训练完成的所述两阶段级联神经网络，得到人手三维关节点坐标。

进一步地，上述装置还包括数据预处理模块，用于在对所述多任务级联神经网络进行训练之前进行数据预处理，包括方向与大小归一化。

本发明的优点和有益效果是：

本发明主要解决的问题是如何从单张深度图得到的人手点云中恢复人手三维姿态，该问题主要的技术难点在于点云排列无序并且存在较高的噪声问题，人手丰富的手势变化以及由于拍摄角度导致的人手自遮挡等。本发明提出了基于深度神经网络的人手姿态估计算法，能够从丰富的训练数据中自适应提取特征，并且该方法在实时回归人手关节点的三维位置的同时，能够预测点云的局部以及全局特征，利用关节标注的内在联系，帮助网络提高泛化能力，缓解单任务网络提取的特征泛化能力差的问题。经过实际使用验证，本发明具有自动化程度高、精度高和实时性的优点，可满足专业的或者大众化的应用需求。

附图说明

图1是本发明的整体网络流程一览图。

图2是将人手深度图像转化为点云数据的示意图。其中(a)为深度图像，(b)为点云数据。

图3是两次下采样之后点云聚类示意图。

图4是点云特征提取层结构示意图。

图5是本发明在二阶段点云聚类示意图。

具体实施方式

为使本发明的上述目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进行详细说明。

S1.本实施例提供一种基于三维点云的人手三维姿态估计方法，其总体框架和流程如图1所示，该方法包括以下步骤：

步骤1，对深度图数据进行预处理，根据相机参数将深度图数据转化为点云数据。

步骤2，并对点云数据进行预处理，预处理过程分为下采样，点云数据的方向归一化与大小归一化。

步骤3，将点云数据输入第一阶段网络(关节点粗略回归网络)，利用随机采样、聚类和多重感知机对点云进行特征提取，并利用全连接层回归粗糙的人手关节三维坐标。之后将粗糙的人手关节三维坐标和原始点云输入第二阶段网络(关节点精细化回归网络)，利用关节点作为采样点进行采样，聚类，并用多重感知机对点云进行特征提取，并利用全连接层回归精准的人手关节点三维坐标。

步骤4，运用大量数据进行训练，优化网络参数。

S2.根据流程S1所述方法，所述步骤1中点云数据的转化进一步包括以下步骤：

步骤1.1，针对一张任意大小的深度图像，利用分割算法，将前景与背景相分离，其中前景为人手(不包含手臂)，背景为所处的环境，人体其他部分等。

步骤1.2，将分割后的人手深度图转化为点云数据，深度图与三维点云都可表示物体的三维信息，但两者的坐标系不同，需要通过坐标系变换将深度图数据转化为点云数据。变换公式如下：

其中,u,v为深度图中的图像坐标系下的任意坐标点。u₀,v₀是相机坐标系下的的中心坐标，x_w,y_w,z_w是相机坐标系下的三维坐标点,f/dx，f/dy为相机的内参。坐标系转化后点云数据如图2所示。

S3.根据流程S1所述方法，所述步骤2中点云数据预处理进一步包括以下步骤：

步骤2.1，将人手点云数据进行下采样处理，点云数据转化后是一组稠密的点云。稠密点云信息冗余，并且在输入网络后会占用大量的计算资源。因此本发明将点云数据进行随机下采样，组成一组稀疏点云。

步骤2.2，将点云数据进行大小归一化。考虑到人手在不同相机位置下的差异与个体间的差异，本发明采取大小归一化的处理将人手点云每一维的点云放缩到一个[-1,1]的区间内。

步骤2.3，将点云数据进行方向归一化。考虑到人手点云由于旋转产生的差异，本发明采取方向归一化的方法，将所有的人手旋转到同一方向上。采样主成分分析的方法，本发明将下采样后的点云数据进行主成分分析，得到两个正交的方向d_x与d_y，之后利用向量叉乘d_z＝d_x×d_y，求得与前两者正交的第三方主方向d_z。将三个主方向组成旋转矩阵[d_x,d_y,d_z]与点云相乘，得到归一化的点云数据。

S4.根据流程S1所述方法，所述步骤3中网络设计进一步包括以下步骤：

步骤3.1，整个网络分为两个阶段，第一阶段为粗糙人手关节回归网络，第二阶段为精准人手关节回归网络。

步骤3.1.1，为保证提取到的点云特征既包含局部特征又包含全局特征，将输入的点云进行采样与聚类。采样时采用最远距离采样法：在点云中随机选取一点放入采样列表中，之后在剩余点云中选取距离采样列表中所有点距离和最远的一个点之后将这点再放入采样列表中。之后反复在点云中采样并加入采样列表。聚类时采样最近邻采样法：将距离采样点最近的K个点放入此采样点的聚类列表中，聚类时聚类点可以反复使用。

步骤3.1.2，将聚类得到的点云数据输入多重感知机特征提取层，多重感知机特征提取层将对点云数据进行特征提取后利用最大池化层进行特征融合，求得每个点云簇的全局特征，此过程如图4所示。

步骤3.1.3，本方法采取了串联网络的方法，将步骤3.1.2所述的网络过程进行串联处理。每次点云采样聚类与特征提取后，得到的点云簇特征将成为采样点的特征输入到下一层网络中，如图3所示。网络串联时，两次次采样点数分别是512,128；聚类时选取的近邻点数为64。

步骤3.1.4，在网络中加入中间监督信息，将每一次特征提取后经过最大池化层的的点云输入全连接层，回归为人手关节，并用标注的人手关节进行监督。

步骤3.2，在第二阶段，网络将采用第一阶段最后回归的人手关节作为采样点进行采样聚类，并且进行特征提取最终回归人手三维关节点提取，得到精准的人手关节点三维坐标。由于标注的关节点大多在手指上，为保证人手整体信息的完整性，本方法在每一个手指根关节与手腕关节之间增加一个采样点，如图5所示。

S5.根据流程S1所述方法，所述步骤4中网络训练进一步包括以下步骤：

步骤4.1，本方法可利用现有的包含人手关节点标注的深度图或点云数据集进行训练。

步骤4.2，训练时采用Adam优化器，随着训练的进行，当梯度无法下降时，将学习率缩小。当缩小学习率无法降低梯度时训练结束。训练时将所有数据进行随机打乱以保证训练结果的鲁棒性。

本发明的上述技术方案中，未详细描述的部分(如多重感知机等)，可以采用现有技术实现。

本发明的方法在两个公开数据集(NYU数据集，MSRA数据集)进行网络训练并在其测试集上进行测试。以平均误差作为评价标准本方法在两个数据集上的测试结果分别为：8.48mm(NYU数据集)，8.48mm(MSRA数据集)。

本发明的方案可以通过软件的方式实现，也可以通过硬件的方式来实现，比如：

在一个实施例中，提供一种基于点云的人手三维姿态估计装置，其包括：

数据预处理模块，负责在对所述多任务级联神经网络进行训练之前进行数据预处理，包括方向与大小归一化；

网络构建模块，负责构建两阶段级联神经网络，用于回归粗糙的与精细的人手三维关节点位置；

在另一个实施例中，提供一种计算机/服务器，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行上面所述方法中各步骤的指令。

在另一个实施例中，提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现上面所述方法的步骤。

本发明的方案可以同步应用于人脸关节点与人体关节点检测当中。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于三维点云的人手三维姿态估计方法，其特征在于，包括以下步骤：

构建两阶段级联神经网络，第一阶段通过点云神经网络回归粗糙的人手三维关节点位置，第二阶段利用第一阶段的神经网络得到的粗糙的人手三维关节点在人手点云中进行采样聚类，进一步回归精细的人手三维关节点位置；

利用关节点恢复损失对所述两阶段级联神经网络进行训练；

2.根据权利要求1所述方法，其特征在于，对所述两阶段级联神经网络进行训练之前进行数据预处理，对点云进行方向与大小的归一化。

3.根据权利要求2所述方法，其特征在于，所述数据预处理包括：

1)对点云数据进行下采样到1024维，再对采样后的点云数据进行主成分分析，得到一个正交的坐标系，对点云进行方向归一化；

2)对人手数据进行统计，将不同大小的人手点云归一化到[-1,1]，并计算每一点的法向量。

4.根据权利要求1所述方法，其特征在于，所述两阶段级联神经网络，以点云为输入，在第一阶段神经网络中，利用采样聚类得到点云簇，之后利用多重感知机对点云进行特征提取，并利用全连接层回归粗糙的人手关节三维坐标；在第二阶段神经网络专利，利用第一阶段神经网络得到的粗糙的人手关节点在人手点云中进行采样聚类，并用多重感知机对点云进行特征提取，并利用全连接层回归精准的人手关节点三维坐标；在第一阶段和第二阶段神经网络中利用多层感知机对点云数据进行特征提取，并利用最大池化层对局部点云特征进行融合，以消除点云无序性带来的影响。

5.根据权利要求4所述方法，其特征在于，所述第一阶段神经网络包括第一采样聚类层、第一多重感知机特征提取层、第一全连接层、第二采样聚类层、第二多重感知机特征提取层、第二全连接层；所述第二阶段神经网络包括第三采样聚类层、第三多重感知机特征提取层、第三全连接层。

6.根据权利要求5所述方法，其特征在于，所述关节点恢复损失的损失函数由两个阶段组成，第一阶段含有的两个损失函数是第一阶段回归的两个粗糙人手关节的均方差误差，第二阶段的损失函数是最终回归到的精细化人手关节的均方差误差，总的损失函数由两阶段共三个损失函数求和所得。

7.根据权利要求6所述方法，其特征在于，所述总的损失函数的计算公式为：

L_total(J_pred)＝αL₁(J_pred,J_gt)+βL₂(J_pred,J_gt)+δL₃(J_pred,J_gt)

8.根据权利要求5所述方法，其特征在于，所述两阶段级联神经网络中，第一阶段神经网络对点云数据进行两次采样聚类，分别下采样到512维与128维，每次聚类时聚集最近邻的64个点。

9.一种基于三维点云的人手三维姿态估计装置，其特征在于，包括：

网络构建模块，负责构建两阶段级联神经网络，第一阶段通过点云神经网络回归粗糙的人手三维关节点位置，第二阶段利用第一阶段的神经网络得到的粗糙的人手三维关节点在人手点云中进行采样聚类，进一步回归精细的人手三维关节点位置；

10.根据权利要求9所述的装置，其特征在于，还包括数据预处理模块，用于在对所述多任务级联神经网络进行训练之前进行数据预处理，包括方向与大小归一化。