CN111368733B

CN111368733B - 一种基于标签分布学习的三维手部姿态估计方法、存储介质及终端

Info

Publication number: CN111368733B
Application number: CN202010142945.2A
Authority: CN
Inventors: 王旭鹏; 李晓瑜; 李伟强; 雷航
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2022-12-06
Anticipated expiration: 2040-03-04
Also published as: CN111368733A

Abstract

本发明涉及一种基于标签分布学习的三维手部姿态估计方法、存储介质及终端，所述方法包括：通过最远点采样法和基于OBB的点云归一化法对点云数据进行预处理；采样特征学习网络将输入点云数据进行处理得到点云数据在高纬度的特征向量；通过标签分布学习网络将手部姿态各关节点的位置抽象为其概率密度的空间位置分布，并根据各关节点在空间位置部分的概率密度的大小实现对手部姿态各关节点的估计。本发明的优点在于：可以充分利用3D空间信息，可以近似表示3D体素，使得复杂度大大降低，复杂度与分辨率成一维线性关系；通过OBB归一化可以使初始点云数据在整体方向上保持一致，而一般归一化只是在简单归一化到0和1之间，增加对输入数据的鲁棒性。

Description

一种基于标签分布学习的三维手部姿态估计方法、存储介质及终端

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于标签分布学习的三维手部姿态估计方法、存储介质及终端。

背景技术

近年来，使用深度相机进行实时3D手部姿势估计的研究稳步增长，因为该技术可以在各种人机交互应用程序中发挥重要作用，尤其是在虚拟现实和增强现实应用程序中。然而，由于3D手势的高维度，手势的变化大，使得3D手势估计仍遭受准确性和鲁棒性的问题。

目前对手部姿态进行估计的现有技术存在缺点有：1、以2D图像作为输入的2D CNN无法充分利用深度图像中的3D空间信息；2、将手部深度图像编码为3D体素，并应用3D CNN推断3D手部姿势；但是，3D CNN的时间和空间复杂度随输入3D体素的分辨率呈立方增长，计算量过大。因此，如何降低计算量、减少计算的复杂度，使得手部姿态估计更加精确，是目前需要解决的问题。

发明内容

本发明的目的在于克服现有技术的缺点，提供了一种基于标签分布学习的三维手部姿态估计方法、存储介质及终端，解决了目前对手部姿态进行估计的方法中存在的问题。

本发明的目的通过以下技术方案来实现：一种基于标签分布学习的三维手部姿态估计方法，所述方法包括：

通过最远点采样法和基于OBB的点云归一化法对点云数据进行预处理；

采样特征学习网络将输入点云数据进行处理得到点云数据在高纬度的特征向量；

通过标签分布学习网络将手部姿态各关节点的位置抽象为其概率密度的空间位置分布，并根据各关节点在空间位置部分的概率密度的大小实现对手部姿态各关节点的估计。

所述方法还包括在进行最远点采样法和基于OBB的点云归一化法对点云数据进行预处理之前，需要将采集到的手部三维散点深度图像的原始数据转换为三维点云数据的步骤。

所述通过最远点采样法对点云数据进行预处理步骤包括：

从初始点集P＝{p₀,p₁,…,p_n}中选取任意一点p_i，并从剩余点中取出与该点距离最远的p_ij加入到新的采样点集P_sa中；

以新加入的采样点集P_sa中的点p_ij为基准继续从剩余点钟取出与到采样点集P_sa距离最远的点继续放入到采样点集P_sa中；迭代直到采样到目标数量N截止。

所述基于OBB的点云归一化法对点云数据进行预处理步骤包括：

对输入的点云数据进行PCA主成分分析，得到输入点云数据的特征向量矩阵；

将原始数据乘以特征向量矩阵得到OBB坐标系下的原始数据旋转矩阵；

并根据点云数据在OBB坐标系下各个坐标方向最大值进行归一化。

为保证输入输出数据在物理意义上相同，在训练阶段各手部关节点的三维坐标经过

公式映射到OBB参考坐标系中；在测试阶段根据

公式将OBB参考坐标系中的各手部关节点的三维位置坐标系坐标变换回相机参考坐标系。

所述采样特征学习网络将输入点云数据进行处理得到点云数据再高纬度的特征向量包括：

将输入点云N个点进行第一次最远点采样得到N₁个点，并根据采样点进行球查询，按照指定半径下N₁个点周围的K个点为一个采样组，得到N₁×D×K的点云数据，通过三个卷积核数量为64、64、128的1×1卷积层，将点云数据从D维变为128维，变为了点云数据高纬度的表示，再通过最大池化层得到每个采样点的特征；此时维度为N₁×128、物理意义为N₁个采样点的128维特征向量，代表了采样点及周围点的特征；

对N₁个点进行第二次最远点采样并通过球查询的方式，获得N₂×K个点，将每个点对应1中的128维特征向量与该点原始坐标信息合并得到N₂×(d+128)×K特征集合，通过三个卷积核数量为128、128、256的1×1卷积层，将特征维度变为256维，再通过最大池化层；此时维度为N₂×256、物理意义为N₂个采样点的256维特征向量；

将N₂个采样点的256维特征与采样点原始坐标信息合并成为N₂×(d+256)特征集合，通过三个卷积核数量为256、512、1024的1×1卷积层，将特征维度变为1024维，再通过最大池化层，得到整体点云的特征；此时维度为1024，从而得到点云数据的1024维特征向量。

所述特征学习网络包括PointNet++网络模型，通过在采样时使用最远点采样法以保证局部特征能够被充分学习。

所述通过标签分布学习网络将手部姿态各关节点的位置抽象为其概率密度的空间位置分布，并根据各关节点在空间位置部分的概率密度的大小实现对手部姿态各关节点的估计包括：

将OBB空间进行网格化划分，并将手部各关节点在三维坐标中的空间内的概率密度分布表示为

分别计算x,y,z每个维度上的概率密度分布，并将每个维度的概率密度分布当做一个标签；

根据关节点标签的概率密度分布得到关节点标签位置的概率密度最大点，用该点表示标签信息，也就是x,y,z的坐标信息，即关节点位置信息；

确定预测估计的关节点位置信息与真实关节点位置信息之间距离差值大小，距离差值越小则预测估计结果越准确。

一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序运行时执行一种基于标签分布学习的三维手部姿态估计方法的步骤。

一种终端，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于标签分布学习的三维手部姿态估计的控制程序，所述基于标签分布学习的三维手部姿态估计的控制程序运行时执行一种基于标签分布学习的三维手部姿态估计方法的步骤。

本发明具有以下优点：一种基于标签分布学习的三维手部姿态估计方法、存储介质及终端，可以充分利用3D空间信息，可以近似表示3D体素，使得复杂度大大降低，复杂度与分辨率成一维线性关系；通过OBB归一化可以使初始点云数据在整体方向上保持一致，而一般归一化只是在简单归一化到0和1之间，增加对输入数据的鲁棒性；相较于传统PointNet网络模型不能有效表示局部特征，通过使用PointNet++网络模型能够有效解决局部特征学习的问题。

附图说明

图1为本发明的整体框架示意图；

图2为特征学习网络结构示意图；

图3为特征提取示意图；

图4为手部关节点标签分布示意图。

具体实施方式

下面结合附图对本发明做进一步的描述，但本发明的保护范围不局限于以下所述。

如图1所示，一种基于标签分布学习的三维手部姿态估计方法，所述方法包括：

S1、通过最远点采样法和基于OBB的点云归一化法对点云数据进行预处理；

S2、采样特征学习网络将输入点云数据进行处理得到点云数据在高纬度的特征向量；

S3、通过标签分布学习网络将手部姿态各关节点的位置抽象为其概率密度的空间位置分布，并根据各关节点在空间位置部分的概率密度的大小实现对手部姿态各关节点的估计。

三维手部姿态估计是根据给定的手部深度图

来预测相机参考坐标系下各手部关节点的位置信息

其中J是要预测的手部关节点总数。本发明使用

表示训练样本集合，其中M表示训练样本总数。数据预处理步骤给出了手部三维点云数据的生成方法。特征学习网络采用PointNet++网络模型。PointNet++直接处理点云数据，并已被成功应用于目标分类、检测和场景分割等任务。标签分布学习网络采用全连接网络回归手部关节点的空间位置概率分布。

进一步地，深度传感器采集的是特定视角下的手部的三维散点深度图像，然而因为特征学习网络的输入是点云数据，所以需要将原始数据转换成三维点云数据；传感器保存的深度图像是以像素点的方式组织的。由深度图片中的任意像素点(u,v)∈D转换成相机参考坐标系中点云p坐标(x,y,z)，如下式所示：

其中(u₀,v₀)是深度图像的像素中点坐标，即原点坐标；f_x,f_y是深度传感器的内部参数，分别为水平和垂直焦距；d是像素点(u,v)处的深度值。

深度学习端到端神经网络要求输入数据的维度一致，使用下采样方法将相机参考坐标系下的点云数据将数据点数量进行统一；三维手部姿态估计存在手部全局方位变化大的问题，使用归一化方法将原始点云经过旋转归一化处理映射到手部点云方向一致的标准坐标系，即 OBB坐标系下，如图1中(a)部分所示

所述通过最远点采样法对点云数据进行预处理步骤包括：

A1、从初始点集P＝{p₀,p₁,…,p_n}中选取任意一点p_i，并从剩余点中取出与该点距离最远的p_ij加入到新的采样点集P_sa中；

A2、以新加入的采样点集P_sa中的点p_ij为基准继续从剩余点钟取出与到采样点集P_sa距离最远的点继续放入到采样点集P_sa中；迭代直到采样到目标数量N截止。

A3、采样点集P_sa＝{p_i1,p_i1,…,p_iN}，其中点到点集P_sa距离为到P_sa中每一点距离的最小值。最远点采样的优点在于相较随机采样，在给定采样点个数的情况下，对于整个点集有着更好的覆盖范围。

B1、对输入的点云数据进行PCA主成分分析，得到输入点云数据的特征向量矩阵；

B2、将原始数据乘以特征向量矩阵得到OBB坐标系下的原始数据旋转矩阵；

B3、并根据点云数据在OBB坐标系下各个坐标方向最大值进行归一化。

基于OBB的点云归一化方法对于输入手的全局方向具有健壮性。OBB是紧密包裹手部输入点云的一个长方体边界框。通过对于输入点云的三维坐标进行PCA主成分分析来确定 OBB的方向。根据公式

将点云所在相机参考坐标系映射到OBB参考坐标系下，然后将点平移到以均值为原点的坐标系中，并缩放至单位大小。

其中p^cam和p^obb分别是点云在相机参考坐标系和OBB参考坐标系中的三维坐标，

是相机参考坐标系中OBB的旋转矩阵，

是点云图中采样的N个点在OBB参考坐标系中的平均坐标位置，L_obb是OBB框的最大边长。

公式映射到OBB参考坐标系中；在测试阶段根据

其中

表示第j个关节点在OBB参考坐标系中三维位置坐标的预测值，

表示对应相机参考坐标系中三维位置坐标的预测值。

如图2所示，所述采样特征学习网络将输入点云数据进行处理得到点云数据再高纬度的特征向量包括：

S21、将输入点云N个点进行第一次最远点采样得到N₁个点，并根据采样点进行球查询，按照指定半径下N₁个点周围的K个点为一个采样组，得到N₁×D×K的点云数据，通过三个卷积核数量为64、64、128的1×1卷积层，将点云数据从D维变为128维，变为了点云数据高纬度的表示，再通过最大池化层得到每个采样点的特征；此时维度为N₁×128、物理意义为N₁个采样点的128维特征向量，代表了采样点及周围点的特征；

S22、对N₁个点进行第二次最远点采样并通过球查询的方式，获得N₂×K个点，将每个点对应1中的128维特征向量与该点原始坐标信息合并得到N₂×(d+128)×K特征集合，通过三个卷积核数量为128、128、256的1×1卷积层，将特征维度变为256维，再通过最大池化层；此时维度为N₂×256、物理意义为N₂个采样点的256维特征向量；

S23、将N₂个采样点的256维特征与采样点原始坐标信息合并成为N₂×(d+256)特征集合，通过三个卷积核数量为256、512、1024的1×1卷积层，将特征维度变为1024维，再通过最大池化层，得到整体点云的特征；此时维度为1024，从而得到点云数据的1024维特征向量。

与Pointnet不同的是在采样和分组时，采样使用最远点采样方法，在进行点集映射的时候用分组集合

代替了直接使用点集P，其中g_i＝{p_i0,p_i1,…,p_ik}是由p_i点通过k近邻算法选取的周围的点表示的g_i分组。

此外，对于分组后的点云数据依旧采用多层感知机的方式进行特征学习。如图3所示，点集的某一层特征是由两部分特征向量组成，左边是每个分组所表示的原始采样点的原始特征向量，右边是本层每个分组的从上一层学习到的特征向量。以图1中(b)部分中第二个部分举例，图中N₁×(D+C₁)中N₁表示采样点个数，D表示本层采样点的原始特征向量，C₁代表本层分组的特征向量。在学习过程中，同时学习了整体和局部的特征。

S31、将OBB空间进行网格化划分，每个维度88等分，整个空间被划分为88³个空间立方体，并将手部各关节点在三维坐标中的每个空间立方体内的概率密度分布表示为

S32、分别计算x,y,z每个维度上的概率密度分布，并将每个维度的概率密度分布当做一个标签；其目的是由于关节点位置信息可以表示为x、y、z方向上的值，即每个维度的值。我们将直接学习x、y、z的值(x、y、z可视为三个不同标签)变成学习关节点在x、y、z上的概率分布(即将每个维度的概率分布当做是一个标签)，使得深度学习的非线性降低，使得网络学习更加容易，更加精确。

S33、根据关节点标签的概率密度分布得到关节点标签位置的概率密度最大点，用该点表示标签信息，也就是X,Y,Z的坐标信息，即关节点位置信息；

S34、确定预测估计的关节点位置信息与真实关节点位置信息之间距离差值大小，距离差值越小则预测估计结果越准确。

其中(x_j,y_j,z_j)是第j个关节点的真实位置，σ＝1.7是高斯分布的标准差。由于为了方便神经网络快速收敛，故H的概率密度和不为1，而是最大概率密度为1。为了减小网络的空间复杂度，根据公式：

H(x,y,z)在x,y,z三个维度上是独立同分布的，所以可以分别计算x,y,z每个维度上的概率密度分布。每个维度的概率分布是一个标签，关节点标签分布如图4所示，该图分别选取了两个不同手部姿态下两个不同关节点的下x,y,z标签概率分布情况，由于实际所用网格划分数量较多，该图采用求均值方式降低了网格数量。图中明亮的格子表示概率密度较高。采用均方误差作为损失函数引导网络进行学习，Loss如下：

其中H_j和

分别是第j个关节点概率分布的真实值和预测值。

本发明最后一层的复杂度由88³×J降低为3×88×J，如图1中(c)部分所示，本模块的网络采用多个全连接网络相连接的方式对标签进行学习，使用包含2048、4096、3×88×J个神经元的全连接网络相连接的方式构成标签分布学习网络。

本发明的另一实施例包括一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序运行时执行一种基于标签分布学习的三维手部姿态估计方法的步骤。

本发明的又一实施例包括一种终端，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于标签分布学习的三维手部姿态估计的控制程序，所述基于标签分布学习的三维手部姿态估计的控制程序运行时执行一种基于标签分布学习的三维手部姿态估计方法的步骤。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于标签分布学习的三维手部姿态估计方法，其特征在于：所述方法包括：

通过标签分布学习网络将手部姿态各关节点的位置抽象为其概率密度的空间位置分布，并根据各关节点在空间位置部分的概率密度的大小实现对手部姿态各关节点的估计；

确定预测估计的关节点位置信息与真实关节点位置信息之间距离差值大小，距离差值越小则预测估计结果越准确；

所述采样特征学习网络将输入点云数据进行处理得到点云数据在高纬度的特征向量包括：

将N₂个采样点的256维特征与采样点原始坐标信息合并成为N₂×(d+256)特征集合，通过三个卷积核数量为256、512、1024的1×1卷积层，将特征维度变为1024维，再通过最大池化层，得到整体点云的特征；此时维度为1024，从而得到点云数据的1024维特征向量；

2.根据权利要求1所述的一种基于标签分布学习的三维手部姿态估计方法，其特征在于：所述方法还包括在进行最远点采样法和基于OBB的点云归一化法对点云数据进行预处理之前，需要将采集到的手部三维散点深度图像的原始数据转换为三维点云数据的步骤。

3.根据权利要求1所述的一种基于标签分布学习的三维手部姿态估计方法，其特征在于：所述通过最远点采样法对点云数据进行预处理步骤包括：

4.根据权利要求1所述的一种基于标签分布学习的三维手部姿态估计方法，其特征在于：所述基于OBB的点云归一化法对点云数据进行预处理步骤包括：

5.根据权利要求4所述的一种基于标签分布学习的三维手部姿态估计方法，其特征在于：为保证输入输出数据在物理意义上相同，在训练阶段各手部关节点的三维坐标经过

公式映射到OBB参考坐标系中；在测试阶段根据

6.一种存储介质，其特征在于：所述存储介质上存储有计算机程序，所述计算机程序运行时执行如权利要求1-5中任意一项所述的一种基于标签分布学习的三维手部姿态估计方法的步骤。

7.一种终端，其特征在于：包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于标签分布学习的三维手部姿态估计的控制程序，所述基于标签分布学习的三维手部姿态估计的控制程序运行时执行如权利要求1-5中任意一项所述的一种基于标签分布学习的三维手部姿态估计方法的步骤。