CN110286749A

CN110286749A - 基于深度数据的手部姿势估计和追踪方法

Info

Publication number: CN110286749A
Application number: CN201910447174.5A
Authority: CN
Inventors: 杨梦婷; 姚璜; 魏艳涛; 张羽
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2019-09-27
Anticipated expiration: 2039-05-27
Also published as: CN110286749B

Abstract

本发明公开了一种基于深度数据的手部姿势估计与追踪方法，通过深度传感器得到的手部深度图像利用变分自动编码器(VAE)与生成对抗网络(GAN)结合的半监督手部姿势估计方法得到手部参数估计，然后利用基于符号距离函数(SDF)的手势跟踪方法得到手部动作参数化时间序列数据。在实际应用中本发明计算效率高，姿势估计的实时性强。可以在少量标记样本和大量非标记样本约束下得到精度较高的手势估计结果和鲁棒性较好的手部快速跟踪并且可以节约计算资源和时间。

Description

基于深度数据的手部姿势估计和追踪方法

技术领域

本发明涉及一种手部运动姿势估计和追踪方法，尤其是涉及一种基于深度数据的手部运动姿势估计，主要适用于人机交互领域的各种应用。

背景技术

早期的手部运动跟踪主要有基于穿戴设备的方法和基于视觉的方法。以穿戴设备为基础的手部姿势追踪最典型的代表设备是数据手套，手套里面的传感器把手部相关姿态及运动信息转化为电信号传送给计算机处理。虽然基于数据手套的方法具有快速准确等优点，但该方法要求使用者穿戴复杂的数据手套和位置跟踪器，这不符合自然人机交互的要求，并且数据手套的价格昂贵，目前只适用于实验室研究和一些特殊场合，而且基于数据手套的手势识别更适用于远程操控。而早期的基于视觉的手部运动跟踪的核心在于根据采集序列数据建立手部表观特征空间变化轨迹，以此作为进一步分析的基础，这一过程通常独立于手部姿势估计而存在。近年来，以Kinect，Realsense等为代表的消费级深度数据采集设备的出现为人体动作分析研究提供实时、高效的2.5维几何空间信息，由于深度图像可以有效解决单目RGB输入中存在的复杂背景干扰问题[2]，手势估计任务几乎完全转为仅使用深度数据[1]作为输入。因此利用深度时间序列影像进行手部跟踪的相关研究多将实时人手姿势估计作为需要解决的核心问题。在目前的手部姿势跟踪研究中，结合基于学习[3]和基于生成模型[4]优势的混合方法，由于可以同时兼顾效率和算法的鲁棒性，是当前手部运动姿势估计与跟踪研究的主流方法；而在混合方法[5]的框架下，如何采用半监督方法解决基于学习方法所面临的手部姿势样本空间过大、人工标记费时费力等困难是当前需要解决的问题。

因此，本发明主要解决以下两种问题：(1)实验环境中学习者手部行为存在大量的局部微小动作，准确地捕捉这些微小动作需要采用对细微变化更加敏感的基于模型的手部姿态估计方法，但是这类方法通常受到计算效率不高的影响，难以满足实时性的要求，尤其是手部动作通常较肢体动作更加敏捷，在实施跟踪时容易丢失目标。(2)相对于虚实融合实验环境中手部姿态的多样性，可用于训练的标记样本不足已成为制约基于学习方法在手势估计中准确度的重要因素，误差较大的初始化和重初始化会导致基于模型的手势估计方法消耗更多的计算资源和时间，破坏跟踪算法的实时性。

相关参考文献如下：

[1]Quach K G,Duong C N,Luu K,et al.Depth-based 3D hand pose tracking[C]//International Conference on Pattern Recognition.IEEE,2017.

[2]Sridhar S,Mueller F,M,et al.Real-Time Joint Tracking of aHand Manipulating an Object from RGB-D Input[J].2016.

[3]Zimmermann C,Brox T.Learning to Estimate 3D Hand Pose from SingleRGB Images[J].2017:4913-4921.

[4]Makris A,Kyriazis N,Argyros A A.Hierarchical particle filteringfor 3D hand tracking[C]//Computer Vision and Pattern RecognitionWorkshops.IEEE,2015:8-17.

[5]Tang D,Taylor J,Kohli P,et al.Opening the Black Box:HierarchicalSampling Optimization for Estimating Human Hand Pose[C]//IEEE InternationalConference on Computer Vision.IEEE Computer Society,2015:3325-3333.

发明内容

为了解决手部运动姿势估计与追踪的实时性以及准确性，并且同时兼顾效率和算法的鲁棒性，本发明提供了一种基于学习与基于模型结合的深度数据的手部运动姿势估计方法，该方法不仅可以高准确率的估计出手部姿势，并且可以实时的，在遮挡情况下不影响实时追踪。

本发明的上述技术问题主要是通过下述技术方案得以解决的：基于深度图像的手部姿势估计和追踪的方法，包括如下步骤：

步骤1，通过深度传感器得到的手部深度图像，利用变分自动编码器(VAE) 与生成对抗网络(GAN)结合的半监督手部姿势估计方法得到手部参数估计，具体包括如下子步骤，

步骤1.1，VAE/GAN手势估计网络构建，所述VAE/GAN手势估计网络利用 VAE对输入的手势深度图像编码，并使用GAN的判别器来替代原始VAE中衡量图像相似度的平方误差，通过从隐变量空间到显性手势参数之间的映射，输出对应当前输入深度图像包含的手部姿态的显性描述；

步骤1.2，隐变量后验概率学习，通过衡量根据隐变量合成的图像与原始图像的差异，对学习误差进行反向传播获得隐变量的编码形式，并通过损失函数确定隐变量编码是否准确地描述手部姿势的变化；

步骤二，利用基于符号距离函数(SDF)的手势跟踪方法得到手部参数化时间序列数据，具体包括如下子步骤，

步骤2.1，初始姿态下有符号距离场的建立，获得手部模型表面；

步骤2.2，任意给定姿态下空间位置点到手部模型表面最短距离的计算；

步骤2.3，加入相关约束项进行能量函数建模，并对最短距离进行最小化求解。

进一步的，步骤1.2中所述损失函数包括如下内容，

对于编码任务而言：

L_Enc＝L_smooth+L_prior

L_prior表示隐变量的先验分布；L_Enc表示编码后的向量分布接近隐变量的先验分布；L_smooth表示在生成器和判别器中，为了使隐变量空间平滑的平滑项；

对于解码任务，生成和原始图像相近的合成图：

L_Dec＝L_smooth-L_gan

L_Dec表示生成和原始图像相近的合成图，以保证解码后的图像尽量避免被判别器认出，L_gan表示GAN的损失项；

对于判别任务，使用L_gan作为衡量指标，在获得手势深度图隐变量空间后，再遵循从隐变量空间到显性手势参数之间的映射用最小化的方式，通过标记训练数据求得从隐变量空间到手部显性参数的映射；

其中，L_pos表示隐变量后验概率的损失，N表示手部显性参数的数量；pos(X_l) 表示将深度图像X的训练数据映射到相应的共享隐变量向量Z；Z_l表示通过VAE 所获得的隐空间的一组目标位置，Z_l是Z的一个子集；X_l表示一组标记的深度图像。

进一步的，步骤2.1的具体实现方式如下，

利用Blender软件在手部骨架数据(通过深度相机标记得到)的基础上使用线性混合蒙皮构建三角网以建立手部模型表面；之后通过加密三角网表面并通过穷举计算空间体元(指构建的三角网的每个三角形的边和顶点)到手部模型表面的距离得到有符号距离场；其后，用原始的三角网经膨胀操作后使用TetGen 方法以膨胀后网格上的点为定点构建成一组包含零交叉面的四面体。

进一步的，步骤2.2的具体实现方式如下，

令初始手部姿势参数θ₀，当前给定的姿态参数为θ；记x为三维空间点的坐标， D(x，θ)为点x到θ所描述的手部模型表面的距离，对于任意给定的四面体τ，其四个顶点的三维坐标构成的矩阵为V^τ(θ)∈R^3×4，令为四面体中距离 x最近的点的质心坐标，

其中B为一个4维向量几何，其中任意一个向量β的每个元素的取值在0-1 之间，并满足β^Tβ＝1；在获得之后，重建在初始状态下该最近点的坐标：

由于初始手部姿态下的有符号距离函数已知，将B^τ(x，θ)带入以求得此最近点到手部模型表面的距离将其与给定点x到最近点B^τ(x，θ)的距离求和，则得到x与手部模型表面的距离：

其中q^τ(x，θ)为最近点的坐标，

进一步的，步骤2.3的具体实现方式如下，

通过加入一些相关约束项构建能量函数，其中约束项包括：

法方向约束：

其中，为有符号距离场在x_n处的法向量，为通过深度传感器采集到的深度数据和骨骼数据在x_n处估计得到的法向量；

姿态先验约束：E_prior(θ)＝(ψ(θ)-μ)^TΣ^-1(ψ(θ)-μ)

假定姿态先验是一个多元高斯分布，其均值向量和协方差矩阵分别为μ和Σ；ψ(θ)表示关节点的角度向量；

关节点约束：

其中M为关节点参数数量，而分别是第i个关节点参数的取值上下界，I(.)是一个示性函数；

将这些约束项和数据项结合得到最终的能量函数：

E(θ)＝E_data(θ)+λ_normalE_normal(θ)+λ_priorE_prior(θ)+λ_limitE_limit(θ)

E_data(θ)通过最小化能量来减少从每个数据点到表面的平方距离的数据项；λ_normal＝1，λ_prior＝1，λ_limit＝10²；之后利用Levenberg-Marquardt(LM)方法最小化求解。

与现有技术相比，本发明的优点和有益效果：在实际应用中本发明计算效率高，姿势估计的实时性强。可以在少量标记样本和大量非标记样本约束下得到精度较高的手势估计结果和鲁棒性较好的手部快速跟踪，并且可以节约计算资源和时间。

附图说明

图1是本发明实施例中VAE/GAN手势估计网络。

图2是本发明实施例技术路线图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步说明。

如图2所示，本发明提供一种基于深度图像的手部姿势估计和追踪的方法，通过深度传感器得到的手部深度图像利用变分自动编码器(VAE)与生成对抗网络(GAN)结合的半监督手部姿势估计方法得到手部参数估计，然后利用基于符号距离函数(SDF)的手势跟踪方法得到手部动作参数化时间序列数据；具体实施步骤如下：

步骤一，VAE与GAN结合的半监督手部姿势估计方法，这个方法利用VAE能够准确逼近输入变量的真实分布的特点对输入的手势深度图像编码，并使用 GAN的判别器来替代原始VAE中衡量图像相似度的平方误差，隐变量后验概率学习使VAE编码能够更准确地描述手势参数改变而带来的深度图像特征的变化。如图1所示，就是用两个生成式神经网络的结合来对生成手部深度图像的隐参数空间建模，从而得到对深度图像的低维描述，再在此基础上建立隐参数与描述手部关节运动的显性参数之间的映射关系，从而得到参数化手势。图1中，Encoder 表示编码任务，Decoder表示解码任务，pos(X)表示隐变量到显性参数的映射，表示解码后生成的与原始图像相似的合成图，Dis(X)表示原始图在判别器上的判别结果，表示合成图在判别器的判别结果，表示原始图和合成图的平滑结果。具体包括如下子步骤：

步骤1.1，VAE/GAN手势估计网络构建：给定一幅深度图像，输入网络后被前向传递，通过VAE/GAN结合的手势估计网络后输出合成的手势深度图，通过从隐变量空间到显性手势参数之间的映射输出对应当前输入深度图像包含的手部姿态的显性描述。

步骤1.2，隐变量后验概率学习：通过衡量根据隐变量合成的图像与原始图像的差异，对学习误差进行反向传播可以获得隐变量的编码形式，损失函数的形式决定了隐变量编码是否能够准确地描述手部姿势的变化。

手部运动姿势估计的损失函数构成包括以下内容：

对于编码任务而言：

L_Enc＝L_smooth+L_prior

L_prior表示隐变量的先验分布；L_Enc表示编码后的向量分布接近隐变量的先验分布；L_smooth表示在生成器和判别器中，为了使隐变量空间平滑的平滑项。

对于解码任务，生成和原始深度图像相近的合成图：

L_Dec＝L_smooth-L_gan

L_Dec表示生成和原始深度图像相近的合成图，以保证解码后的图像尽量避免被判别器认出，L_gan表示GAN的损失项。

对于判别任务，本发明直接使用常用的L_gan作为衡量指标，在获得手势深度图隐变量空间后，再遵循从隐变量空间到显性手势参数(手部22个关节点的参数)之间的映射用最小化的方式，通过标记训练数据求得从隐变量空间到手势显性参数的映射。

其中，L_pos表示隐变量后验概率的损失，N表示显性手势参数(手部关键点) 的数量；pos(X_l)表示将深度图像X的训练数据映射到相应的共享隐变量向量Z； Z_l表示通过VAE所获得的隐变量空间的一组目标位置，Z_l是Z的一个子集；X_l表示一组标记的深度图像。

步骤二，基于符号距离函数的手势跟踪方法包括：

步骤2.1，初始姿态下有符号距离场的建立：利用Blender软件在手部骨架数据(通过深度相机标记得到)的基础上使用线性混合蒙皮构建三角网以建立手部模型表面；之后通过加密三角网表面并通过穷举计算空间体元(指构建的三角网的每个三角形的边和顶点)到手部模型表面的距离得到有符号距离场[6]；其后，用原始的三角网经膨胀操作后使用TetGen方法以膨胀后网格上的点为定点构建成一组包含零交叉面的四面体。

[6]Taylor J,Tankovich V,Tang D,et al.Articulated distance fields forultra-fast tracking of hands interacting[J].ACM Transactions on Graphics(TOG),2017,36(6): 244.

步骤2.2，任意给定姿态下空间位置点到手部模型表面最短距离计算：令初始手部姿势参数θ₀，当前给定的姿态参数为θ；记x为三维空间点的坐标，D(x，θ) 为点x到θ所描述的手部模型表面的距离。对于任意给定的四面体τ，其四个顶点的三维坐标构成的矩阵为V^τ(θ)∈R^3×4，令为四面体中距离x最近的点的质心坐标，

其中B为一个4维向量几何，其中任意一个向量β的每个元素的取值在0-1 之间，并满足β^Tβ＝1。在获得之后，即可重建在初始状态下该最近点的坐标：

B^τ(x，θ)＝V^τ(θ₀)β^τ(x，θ)

由于初始手部姿态下的有符号距离函数已知[7]，可以将B^τ(x，θ)带入以求得此最近点到手部模型表面的距离将其与给定点三维空间x到最近点B^τ(x，θ)的距离求和，则得到x与手部模型表面的距离：

其中q^τ(x，θ)为最近点的坐标，

[7]Lekien F,Marsden J.Tricubic interpolation in three dimensions[J].International Journal for Numerical Methods in Engineering,2005,63(3):455-471.

步骤2.3，能量函数建模与最小化求解：在求得手部深度数据各空间点与手部模型表面的最小化距离之和后，可以直接通过优化手部姿态参数的方法最小化该距离，为了避免局部最小值问题，本发明中加入一些相关约束项，包括：

法方向约束：

其中，为有符号距离场在x_n处的法向量，N表示显性手势参数的数量，为通过采集的数据(即深度传感器采集到的深度数据和骨骼数据)在x_n处估计得到的法向量。

姿态先验约束：E_prior(θ)＝(ψ(θ)-μ)^TΣ^-1(ψ(θ)-μ)

假定姿态先验是一个多元高斯分布，其均值向量和协方差矩阵分别为μ和Σ，ψ(θ)表示关节点的角度向量。

关节点约束：

其中M为关节点参数数量，而分别是第i个关节点参数的取值上下界，I(·)是一个示性函数。

将这些约束项和数据项结合可以得到最终的能量函数：

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.基于深度图像的手部姿势估计和追踪的方法，其特征在于，包括如下步骤：

步骤1，通过深度传感器得到的手部深度图像，利用变分自动编码器(VAE)与生成对抗网络(GAN)结合的半监督手部姿势估计方法得到手部参数估计，具体包括如下子步骤，

步骤1.1，VAE/GAN手势估计网络构建，所述VAE/GAN手势估计网络利用VAE对输入的手势深度图像编码，并使用GAN的判别器来替代原始VAE中衡量图像相似度的平方误差，通过从隐变量空间到显性手势参数之间的映射，输出对应当前输入深度图像包含的手部姿态的显性描述；

2.如权利要求1所述的基于深度图像的手部姿势估计和追踪的方法，其特征在于：步骤1.2中所述损失函数包括如下内容，

对于编码任务而言：

L_Enc＝L_smooth+L_prior

对于解码任务，生成和原始图像相近的合成图：

L_Dec＝L_smooth-L_gan

其中，L_pos表示隐变量后验概率的损失，N表示手部显性参数的数量；pos(X_l)表示将深度图像X的训练数据映射到相应的共享隐变量向量Z；Z_l表示通过VAE所获得的隐空间的一组目标位置，Z_l是Z的一个子集；X_l表示一组标记的深度图像。

3.如权利要求1或2所述的基于深度图像的手部姿势估计和追踪的方法，其特征在于：步骤2.1的具体实现方式如下，

利用Blender软件在手部骨架数据(通过深度相机标记得到)的基础上使用线性混合蒙皮构建三角网以建立手部模型表面；之后通过加密三角网表面并通过穷举计算空间体元(指构建的三角网的每个三角形的边和顶点)到手部模型表面的距离得到有符号距离场；其后，用原始的三角网经膨胀操作后使用TetGen方法以膨胀后网格上的点为定点构建成一组包含零交叉面的四面体。

4.如权利要求3所述的基于深度图像的手部姿势估计和追踪的方法，其特征在于：步骤2.2的具体实现方式如下，

令初始手部姿势参数θ₀，当前给定的姿态参数为θ；记x为三维空间点的坐标，D(x，θ)为点x到θ所描述的手部模型表面的距离，对于任意给定的四面体τ，其四个顶点的三维坐标构成的矩阵为V^τ(θ)∈R^3×4，令为四面体中距离x最近的点的质心坐标，

其中B为一个4维向量几何，其中任意一个向量β的每个元素的取值在0-1之间，并满足β^Tβ＝1；在获得之后，重建在初始状态下该最近点的坐标：

其中q^τ(x，θ)为最近点的坐标，

5.如权利要求4所述的基于深度图像的手部姿势估计和追踪的方法，其特征在于：步骤2.3的具体实现方式如下，

通过加入一些相关约束项构建能量函数，其中约束项包括：

法方向约束：

姿态先验约束：E_prior(θ)＝(ψ(θ)-μ)^TΣ^-1(ψ(θ)-μ)

关节点约束：

将这些约束项和数据项结合得到最终的能量函数：