CN105389539A

CN105389539A - 一种基于深度数据的三维手势姿态估计方法及系统

Info

Publication number: CN105389539A
Application number: CN201510670919.6A
Authority: CN
Inventors: 程洪; 李昊鑫; 姬艳丽; 况逸群
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2015-10-15
Filing date: 2015-10-15
Publication date: 2016-03-09
Anticipated expiration: 2035-10-15
Also published as: CN105389539B

Abstract

本发明公开了一种基于深度数据的三维手势姿态估计方法及系统，方法包括以下步骤：S1：对拍摄的数据进行手部ROI检测，获取手部深度数据：（1）能够获取骨骼点信息，通过手掌单个骨骼点对手部ROI检测；（2）无法获取骨骼点信息，采用基于肤色的方式对手部ROI检测；S2：手部三维全局方向初步估计，S21：特征提取；S22：根据分类器R₁实现手部全局方向的回归；S3：三维手势的关节姿态估计：S31：根据分类器R₂实现手部姿态估计；S32：姿态校正。本发明首先采用两种方式相互配合完成对手部ROI数据的分割，接着在此基础上采用回归算法完成手部全局方向估计，最后以此数据为辅助再次利用回归算法实现三维手势姿态估计，算法简单，具有良好的实用价值。

Description

一种基于深度数据的三维手势姿态估计方法及系统

技术领域

本发明涉及机器人视觉领域，涉及一种基于深度数据的三维手势姿态估计方法及系统。

背景技术

随着人们对人机交互需求的不断提高，新的交互技术正在逐渐呈现开来，手势以其自然、便利的特性成为最具潜力的交互方式技术之一。相比于其他关节部位，手具有丰富的姿态以及灵活的操控，在人们的日常生活中发挥着巨大的作用，因此基于手势姿态的交互技术将会有着广泛的应用，如虚拟现实中通过手势操作虚拟物体；利用手势来操控机器人抓取物体；基于手势的手语识别；通过手势技术在交互界面进行操作指令的输入等。这些源自实际生活的需求进一步促进着手姿态建模技术的研究与发展。

对于静态手势的研究与比较成熟，但是具有较大的局限性，近年来三维手势成为热点之一，手势姿态估计是三维手势的核心基础之一，正逐步从接触式的方法转向以视觉为主的非接触式方法。接触式的方法主要是通过佩戴数据手套来获取用户手势的关节姿态，这种方式准确性较高，但是实现成本较大，同时用户的舒适性也不佳。近几年基于视觉的三维手势估计技术正在迅速发展，应用的前景也较为广阔，同时市场上出现了LeapMotion为代表的手势产品，利用手势实现交互、游戏等，但是这种产品的适用距离太小，手与检测装置的距离超出一定的范围就无法使用了，在实际的应用中如机器人手势控制等场景下，有很多局限性。为此还需要尝试新的方法来应对这方面的不足，以满足实际的应用需求。

基于视觉的三维手势姿态估计技术，分为判别式与产生式。其中产生式方法计算量大，精确性往往较低，判别式速度较快，但是估计的结果有一定的误差，且姿态受限，但是相比于产生式的模型拟合方法，具有能够实际应用的前景。

与本发明部分技术类似的发明包括以下三个：

1.手检测方法和装置，申请号为201210236446.5

此发明提出了一种手检测方法和装置，主要通过相邻帧的肤色区域之差和分类器进行手检测。这种方式适用于静态手势，对于三维手势，其手的角度和外观都会发生变换，因此这种方法具有一定的局限性，适用的场合较为简单，并且实现的方式和本发明也不同。

2.基于视觉的手势遥控系统，申请号为201210121832.X

此发明提出了基于视觉的手势识别与遥控系统，其中在手势识别模块，主要包括手部检测，手部跟踪以及手势识别。在手的检测中采用基于灰度图像的级联分类器来检测手，这种手检测的方式很难应对手部姿态与角度的变化情况，还是一种静态单一的手检测方式。而对于手势的识别，采用的是基于手部轮廓的模板匹配，未采用检测手势姿态的方式，因此其整体方法与本发明不同。

3.手检测方法和设备，申请号为201410001215.5

此发明提出了基于深度图的手检测方法，此方法首先通过深度阈值进行前景分割，然后通过直线检测的方式检测出小臂，然后在确定小臂的方向上检测手的所在，这种方法对小臂所在的位置有特定的要求，且直线检测容易产生误检测，同时这个方法只是检测出了手的位置所在，并未对手的姿态情况进行估计，无论方法与目的都与本发明不同。

本发明提出了一种基于深度数据的三维手势估计方法。该方法为判别式方法，基于RGBD数据，首先采用两种方式相互配合完成对手部ROI数据的分割，接着在此基础上采用回归算法完成手部全局方向估计，最后以此数据为辅助再次利用回归算法实现三维手势姿态估计。本发相比其他方法不仅算法较为简单，同时不需要依赖额外的用户佩戴装置，在满足一定可用的精度下具有良好的实用价值。

发明内容

本发明的目的在于克服现有技术的不足，针对目前三维手势技术在这方面应用的局限性，提供一种基于深度数据的三维手势姿态估计方法及系统，主要用于提升家用机器人的交互体验，结合手部ROI检测的基础上，利用机器学习方法对手部姿态进行回归，并对估计的结果加以约束，最终实现手部姿态的快速估计。

本发明的目的是通过以下技术方案来实现的：一种基于深度数据的三维手势姿态估计方法，它包括以下步骤：

S1：对拍摄的数据进行手部ROI检测，获取手部深度数据：

(1)当能够获取手掌的单个骨骼点信息时，通过手掌单个骨骼点对手部ROI检测，获取手部深度数据；

(2)当无法获取手掌的单个骨骼点信息时，采用基于肤色的方式对手部ROI检测，获取手部深度数据；

其中，所述的ROI为感兴趣区域；

S2：手部三维全局方向初步估计，包括以下子步骤：

S21：对步骤S1得到的手部ROI数据进行特征提取；

S22：根据预先训练好的手部全局方向回归的分类器R₁，实现手部全局方向的回归；

S3：三维手势的关节姿态估计，包括以下子步骤：

S31：根据预先训练好的关节姿态估计的分类器R₂实现手部姿态估计；

S32：姿态校正：根据手部尺寸对步骤S31得到的结果进行校正。

步骤S1中，当能够获取手掌的单个骨骼点信息时的情况包括以下子步骤：

S111：根据图像采集设备采集的图像，获取手掌的骨骼点P₀的三维位置；

S112：将三维位置投影到二维深度图像P'₀，初步得到手部深度值D(P'₀)；

S113：基于骨骼点P₀为中心的矩形区域，计算所述矩形区域内的深度信息直方图；所述矩形区域的大小根据距离设置；

S114：根据步骤S113得到的直方图找到峰值对应的深度，并将深度作为手部中心的实际深度值H；

S115：利用深度值H与深度误差范围s对图像进行阈值化处理，保留下来的深度h满足H-s≤h≤H+s；

S116：对深度图像对应的二值图进行轮廓检测，并对轮廓中尺寸小于一定阈值的轮廓，对对应的深度图像位置进行背景填补，去除噪声轮廓；噪声轮廓的阈值根据手部到图像采集设备的距离设定。

步骤S1中，当无法获取手掌的单个骨骼点信息时的情况包括以下子步骤：

S121：根据图像采集设备获取的彩色图像进行肤色检测，对非肤色区域进行置0，此时图像上只含有肤色区域；

S122：对肤色区域对应的像素置1，得到肤色区域对应的二值图；

S123：进行轮廓检测，将轮廓周长小于一定阈值的轮廓进行填补，此时图像中含有多个肤色轮廓区域；

S124：对于每个肤色轮廓区域，计算每个轮廓的形心，形心的计算公式为：

x = \frac{m_{10}}{m_{00}}, y = \frac{m_{01}}{m_{00}};

式中，m代表图像的几何矩，m₁₀、m₀₁、m₀₀代表几何矩的其中三个顶点；

S125：记形心中心为P(x,y)，将形心中心P(x,y)变换到对应的深度图像上为点Q；

S126：对每个轮廓进行相同的形心点变换之后，比较深度值H，将深度值较小的形心变换点Qi作为手部的位置所在；

S127：以点Q_i对应的深度值对图像进行阈值化，深度误差值为s，保留下来的深度h满足H-s≤h≤H+s；

S128：对深度图像对应的二值图进行轮廓检测，并对轮廓中尺寸小于一定阈值的轮廓，对对应的深度图像位置进行背景填补，去除噪声轮廓；噪声轮廓的阈值根据手部到图像采集设备的距离设定。

所述的步骤S21包括以下子步骤：

S211：对手部立方体划分，包括以下子步骤：

S2111：以手部的宽度方向作为X轴，手部的长度方向作为Y轴，手掌的厚度方向作为Z轴，形成三维坐标系；

S2112：以手部的宽度L、手部的长度H和手掌的厚度D组成立方体，所述立方体的中心位于三维坐标系的原点之上；

S2113：将立方体进行X、Y、Z方向的立方体分割，在X、Y、Z方向分隔分别得到x、y、z等分，分割后的小立方体格数为x*y*z；

S212：将手部深度数据投影到立方体上，包括以下子步骤：

S2121：根据步骤S1得到的手部ROI深度数据，对于非背景点，将手部深度数据变换到图像采集设备坐标系下；

S2122：在全部变换完成后，计算出手部深度数据的三维中心；

S2123：基于步骤S211得到的划分的手部立方体，令手部立方体的中心为深度数据的中心，计算各个深度值对应的手部立方体划分；相当于得到有深度值的划分立方体，划分立方体的值为深度像素点的个数，否则为0；

S2124：在步骤S2123完成之后，得到所有的深度点云之后，得到手部立方体特征，对手部立方体的各个值进行归一化之后，以固定顺序变换为维度为x*y*z的特征向量X_i，即得到X_i＝{x₁,x₂,......,x_i},i＝x*y*z；

步骤S2的前提是真实的手处于标准姿态，所述的标准姿态为手掌正对摄像机，手指方向指向上方。

所述的训练好的手部全局方向回归的分类器R₁的训练步骤包括以下子步骤：

S201：采集大量手部姿态对应的数据作为训练样本，样本的标签为真实的手部Y、Z方向的值，所述的真实的手部Y、Z方向的值通过手工进行标注；具体地Y、Z方向以手部的宽度方向作为X轴，手部的长度方向作为Y轴，手掌的厚度方向作为Z轴，形成三维坐标系；

S202：在得到大量的手部数据样本以及手部全局方向标签之后，训练手部全局方向回归的分类器R1：对于每个手部数据样本，采用与步骤S21相同的步骤进行特征提取，并结合样本的标签进行分类器训练。

步骤S22采用随机森林进行回归，所述的步骤S22包括以下子步骤：

S221：将随机森林的叶子节点的标签作为手部方向，标签为真实的手部Y、Z方向的值，包括六个维度Y＝{x,y,z}，Z＝{x,y,z}；将随机森林的树的个数和停止的样本个数预先设定；

S222：在分类器R₁(x)的基础上，进行在线手部方向回归，包括：根据步骤S21的步骤提取特征向量X₁和训练好的分类器R₁(x)，得到手部全局方向：(Y,Z)＝R₁(X₁)。

所述的预先训练好的关节姿态估计的分类器R₂的训练步骤包括提取特征子步骤S301、提取标签子步骤S302和训练子步骤S303；所述的提取标签子步骤S301包括以下子步骤：

S3011：采集大量的数据作为手势样本M_i，计算得到当前手势样本M_i对应的全局向量(Y_i,Z_i)，公式如下：

Y_i＝T_yi*Y₀，

Z_i＝T_zi*Z₀；

式中，Y₀和Z₀分别表示标准姿态的手全局方向参数，T_yi、T_zi分别表示；T_yi表示将Y₀的三维方向旋转到Y_i方向的旋转矩阵，T_zi表示将Z₀三维方向旋转到Z_i方向的旋转矩阵；

S3012：计算出当前手势样本M_i与标准手部姿态的全局方向(Y₀,Z₀)变换关系φ_i，公式如下：

φ_i＝T_yi*T_zi；

S3013：计算标准姿态变换到手势样本M_i的全局方向下的姿态θⁱ⁰，公式如下：

θⁱ⁰＝φ_i*θ⁰；

式中，θ⁰表示手部标准姿态对应的关节姿态位置为θ⁰＝{θ₁,θ₂,θ₃,.......,θ_n}，其中n为手部关节点的数量；

S3014：在标准姿态变换到全局方向后，计算全局方向下的姿态θⁱ⁰和真实手部姿态θ⁰的残差Δi，公式如下：

Δi＝θⁱ⁰-θ⁰；

所述的提取特征子步骤S302包括以下子步骤：

S3021：对手势样本M_i中的所有手部立方体划分，包括以下子步骤：

S30211：以手部的宽度方向作为X轴，手部的长度方向作为Y轴，手掌的厚度方向作为Z轴，形成三维坐标系；

S30212：以手部的宽度L、手部的长度H和手掌的厚度D组成立方体，所述立方体的中心位于三维坐标系的原点之上；

S30213：将立方体进行X、Y、Z方向的立方体分割，在X、Y、Z方向分隔分别得到x、y、z等分，分割后的小立方体格数为x*y*z；

S3022：将手部深度数据投影到立方体上，包括以下子步骤：

S30221：根据步骤S1得到的手部ROI深度数据，对于非背景点，将手部深度数据变换到图像采集设备坐标系下；

S30222：在全部变换完成后，计算出手部深度数据的三维中心；

S30223：基于步骤S3021得到的划分的手部立方体，令手部立方体的中心为深度数据的中心，计算各个深度值对应的手部立方体划分；相当于得到有深度值的划分立方体，划分立方体的值为深度像素点的个数，否则为0；

S30224：在步骤S30223完成之后，得到所有的深度点云之后，得到手部立方体特征，对手部立方体的各个值进行归一化之后，以固定顺序变换为维度为x*y*z的特征向量X，即得到X₂＝{x₁,x₂,......,x_i},i＝x*y*z；

所述的训练子步骤S303以下子步骤：将步骤S301中得到的残差Δi作为手势样本M_i的标签，并结合步骤S302中得到的特征向量X进行分类器R₂训练。

所述的步骤S32包括：根据步骤S1得到的手部深度ROI数据、步骤S2得到的提取特征X_i、步骤S2得到的全局方向(Y_i,Z_i)，利用分类器R₂回归残差，更新最终姿态θ^ir，θ^ir＝R₂(X_i)+θⁱ⁰。

所述的步骤S33包括：根据V(x,y,z)和L的关系表，按照标准手势关节姿态位置θ⁰的各个手指关节比例，对θ^ir对应的关节比例进行校正，包括对相邻两根关节的长度比、单个关节的长度、每个手指的三根关节之间的夹角、手指之间的相邻关节间夹角进行校正；其中，V(x,y,z)代表两个关节之间的方向，L表示距离。

一种基于深度数据的三维手势姿态估计系统，它包括：

图像采集设备：用于采集用户手掌图像，包括手掌骨骼点和肤色；

用户手部ROI检测模块：用于根据图像采集设备采集到的图像，检测出用户手部深度数据；

手部三维全局方向初步估计模块：用于根据用户手部ROI检测模块得到的手部深度数据，进行特征提取、离线训练第一分类器、并结合第一分类器实现手部三维全局方向的回归；

三维手势的关节姿态估计模块：用于根据用户手部ROI检测模块得到的手部深度数据和手部三维全局方向初步估计模块得到的手部关节三维全局方向，实现离线训练第二分类器、结合第二分类器进行关节姿态在线回归和手势姿态校正，以得到手部关节姿态位置。

本发明的有益效果是：

(1)本发明提出了一种基于深度数据的三维手势估计方法。该方法为判别式方法，基于RGBD数据，首先采用两种方式相互配合完成对手部ROI数据的分割，接着在此基础上采用回归算法完成手部全局方向估计，最后以此数据为辅助再次利用回归算法实现三维手势姿态估计。本发相比其他方法不仅算法较为简单，同时不需要依赖额外的用户佩戴装置，在满足一定可用的精度下具有良好的实用价值。

(2)两次分类器的训练可以采用同一组训练样本进行，节省了工作量与复杂度。

(3)在最后采用姿态校正模块对手部关节点进行轻微校正，使得估计结果更加合理。

附图说明

图1为本发明方法流程图；

图2为步骤S1流程图；

图3为步骤S2流程图；

图4为步骤S3流程图；

图5为标准手势及姿态的关节位置；

图6为本发明系统框图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案：、

如图1所示，一种基于深度数据的三维手势姿态估计方法，它包括以下步骤：

在本实施例中，图像采集设备采用Kinect2，Kinect2传感器具有能够估计人体关节点的功能，但是并未实现对手部的关节点，只给出了少量的2个点来表示手部关节，同时Kinect2能够较为准确的在复杂环境下获取人体骨骼信息，因此提出了基于手掌单个骨骼点的手部ROI数据获取。此外Kinect2受人的距离、姿态等会存在无法获取骨骼信息的情况，为此针对这种情况提出了基于肤色检测的手部ROI获取。计算流程如图2所示。

S1：对拍摄的数据进行手部ROI检测，获取手部深度数据：

(1)当能够获取手掌的单个骨骼点信息时，通过手掌单个骨骼点对手部ROI检测，获取手部深度数据：

S111：根据Kinect2采集的图像，获取手掌的骨骼点P₀的三维位置；

S113：基于骨骼点P₀为中心的矩形区域，矩形的区域可以按照远近来设置，一般可以为正方形或长方形，大小根据距离设置为5-10像素。

计算所述矩形区域内的深度信息直方图；所述矩形区域的大小根据距离设置；

S115：利用深度值H与深度误差范围5对图像进行阈值化处理，保留下来的深度h满足H-5≤h≤H+5；

S116：对深度图像对应的二值图进行轮廓检测，并对轮廓中尺寸小于一定阈值的轮廓，对对应的深度图像位置进行背景填补，去除噪声轮廓；对于噪声轮廓阈值，一般可以设置为25，可以根据手部到相机的距离进行调整。

通过以上步骤得到的轮廓区域就是鲁棒的手部ROI区域。

(2)当无法获取手掌的单个骨骼点信息时，采用基于肤色的方式对手部ROI检测，获取手部深度数据：

S123：进行轮廓检测，将轮廓周长小于一定阈值如25的轮廓进行填补，此时图像中含有多个肤色轮廓区域；

x = \frac{m_{10}}{m_{00}}, y = \frac{m_{01}}{m_{00}};

关于几何矩m：图像的p+q阶几何矩(标准矩)定义为：

m_{p q} = {&Integral;}_{- \infty}^{\infty} {&Integral;}_{- \infty}^{\infty} x^{p} y^{q} f (x, y) d x d y;

m₁₀、m₀₁、m₀₀分别代表图像的1+0阶几何矩、0+1阶几何矩以及0阶几何矩，实际是图像中轮廓特征中更具体的计算方式。

S126：对每个轮廓进行相同的形心点变换之后，比较深度值H，将深度值较小(距离Kinect更近)的形心变换点Q_i作为手部的位置所在，因为在交互的时候默认手部相比其他部位离摄像机更近一些；

S127：以点Q_i对应的深度值对图像进行阈值化，深度误差值为5，保留下来的深度h满足H-5≤h≤H+5；

此方法主要针对用户仅外漏手掌的情况，当整个胳膊都被检测到时，这种情况下手部的深度数据获取将不理想。

其中，所述的ROI为感兴趣区域。

经过步骤一之后可以获取手部的ROI数据，步骤二在此基础上对手部的全局方向进行估计。对于手部全局姿态，令从手掌中心到中指指尖的方向为Y＝{x,y,z}方向，从手掌射出的法向量方向为Z＝{x,y,z}，例如当手掌正对摄像机，手指方向指向上方，此时记为Y＝{0,1,0}，Z＝{0,1,0}，记这种姿态为标准手部姿态。那么整个手掌所处的任何姿态可由Y、Z两个方向向量表示得到。而对于任意一个手掌全局方向的估计，本方法采用机器学习中回归的方式计算，其主要步骤即为特征提取、手部全局方向回归。计算流程如图3所示。

S2：手部三维全局方向初步估计，包括以下子步骤：

针对手势的三维变化性，传统的2D图像特征无法满足要求。为此采用真实的三维空间信息进行当前手势的特征提取。

S21：对步骤S1得到的手部ROI数据进行特征提取；

S211：对手部立方体划分，包括以下子步骤：

S2112：以手部的宽度L(小拇指跟到大拇指尖的长度)、手部的长度H(手腕到中指指尖的长度)和手掌的厚度D组成立方体，所述立方体的中心位于三维坐标系的原点之上；

S2113：将立方体进行X、Y、Z方向的立方体分割，在X、Y、Z方向分隔分别得到x、y、z等分，分割后的小立方体格数为x*y*z；一般地，总个数设置为500个，x、y、z的取值可以根据实际请款选择，也可以采取x＝10，y＝10，z＝5的空间划分形式。

S212：将手部深度数据投影到立方体上，包括以下子步骤：

S2121：根据步骤S1得到的手部ROI深度数据，对于非背景点，将手部深度数据变换到Kinect坐标系下；

S2124：在步骤S2123完成之后，得到所有的深度点云之后，得到手部立方体特征，对手部立方体的各个值进行归一化之后，以固定顺序变换为维度为500的特征向量X_i，即得到X_i＝{x₁,x₂,......,x_i},i＝500；

手部全局方向的估计，本发明采用的是回归的方式，因此需要先进行分类器的训练，然后再采用此分类器进行方向回归。为此需要拍摄手部姿态对应的数据作为训练样本，同时样本的标签即为真实的手部Y、Z方向的值，这两个值要手工进行标注。在得到大量的手部数据样本以及其手全局方向标签之后，开始训练手部全局方向回归的分类器。对于每个手部数据样本，采用上述手部立方体特征进行特征提取，并结合样本的标签进行分类器训练。在实际实现中，需要采用繁华能力较强的分类器，随机森林进行回归。

S221：将随机森林的叶子节点的标签作为手部方向，标签为真实的手部Y、Z方向的值，包括六个维度Y＝{x,y,z}，Z＝{x,y,z}；将随机森林的树的个数设定为10，停止的样本个数设定为10；

S222：在分类器R₁(x)的基础上，进行在线手部方向回归，包括：根据步骤S21的步骤提取特征向量X1和训练好的分类器R₁(x)，得到手部全局方向：(Y,Z)＝R₁(X₁)。

在经过前两步骤得到手部深度数据以及手部全局方向之后，第三步开始对手势三维姿态进行回归。对于手部姿态的估计，即估计手部关节点的姿态位置。此步骤仍然采用机器学习当中的回归的方式进行。如果直接将各个关节点的位置作为回归的目标进行估计，其误差往往较大，因此采用GBDT的算法框架，回归的目标是基于全局方向变换的标准手部姿态与真实姿态位置之间的残差，即手部标准骨架与真实姿态的拟合过程，其计算过程如图4所示。包括离线训练部分与在线回归部分，得到初步的三维手姿态后，还需要姿态校正步骤，对回归出的手部姿态关节比例、角度进行校正。

训练过程与训练分类器R₁的方法类似，首先需要采集大量的数据作为训练样本，来训练分类器。为此训练的样本可以和上面所述手部全局方向回归采用相同的样本数据，节省了工作量与复杂性。对于训练样本，即通过Kinect2传感器拍摄并进行手部ROI提取得到的手部数据，而手部数据对应的样本标签即为图像中手部关节点的姿态位置，这个姿态位置需要进行手工标定。

首先手部标准姿态如图5所示，对应的关节姿态位置为θ⁰＝{θ₁,θ₂,θ₃,.......,θ_n}，其中n为手部关节点的数量，可以根据实际应用的复杂度进行增加或减少，一般而言真实的手掌对应的关节点数量为n＝21，单个手指4个关节点，手腕一个。因此对于图像样本中的真实手部姿态可以记为θⁱ。在得到训练样本的基础上，需要计算每个样本图像的真实姿态与变换后的标准姿态之间的姿态残差。

S3：三维手势的关节姿态估计，包括以下子步骤：

S31：根据预先训练好的关节姿态估计的分类器R₂实现手部姿态估计：

Y_i＝T_yi*Y₀，

Z_i＝T_zi*Z₀；

式中，Y₀和Z₀分别表示标准姿态的手全局方向参数，T_yi表示将Y₀的三维方向旋转到Y_i方向的旋转矩阵，T_zi表示将Z₀三维方向旋转到Z_i方向的旋转矩阵；

T_yi、T_zi代表两个三维旋转矩阵，在计算机图形学中，一个三维向量进行三维旋转，往往是对这个向量乘以旋转矩阵。因此T_yi表示将Y₀三维方向旋转到Y_i方向的旋转矩阵；T_zi同理；关于三维旋转矩阵的计算方式，可以通过由Y₀、Y_i得到四元数，再降四元数变换为三维旋转矩阵。

S3012：计算出当前手势样本M_i与标准手部姿态的全局方向(Y₀,Z₀)变换关系φi，公式如下：

φ_i＝T_yi*T_zi；

θⁱ⁰＝φ_i*θ⁰；

Δi＝θⁱ⁰-θ⁰；

记θⁱ⁰与θ⁰之间的残差为Δi，由GBDT算法的平方误差函数的形式，Δi＝θⁱ⁰-θ⁰。

将标准姿态变换到全局方向x_i下后计算θⁱ⁰与θ⁰的残差，这比通过θⁱ与θ⁰计算得到的残差要小很多，使得分类器对姿态进行回归时得到的残差也小。

所述的提取特征子步骤S302采用与步骤S2中的提取相同的步骤；

因此对于分类器而言，手势训练样本进行上述的三维立方体特征得到X，标签为Δi。

根据步骤S1得到的手部深度ROI数据、步骤S2得到的提取特征X_i、步骤S2得到的全局方向(Y_i,Z_i)，利用分类器R₂回归残差，更新最终姿态θ^ir，θ^ir＝R₂(X_i)+θⁱ⁰。

回归的姿态中，往往因为残差的误差，导致关节比例失调，采用基于标准骨架的手部尺寸对结果进行校正。其示意图如图五所示，对于相邻的关节点姿态,其关系表(V(x,y,z)，L)代表两个关节之间的方向，L为距离，因此对于回归的结果，按照标准手势关节姿态位置θ⁰的各个手指关节(两个关节之间的连线)比例，对θ^ir对应的关节比例进行校正，其中每个手指包括三个关节，采用从手指根部到手指之间的方式，逐步对每个关节的比例进行校正；比如相邻两根关节的长度比、单个关节的长度等。对于角度校正，包括每根手指的三根关节之间的夹角和手指之间的相邻关节间夹角，一般实际的角度在一定的范围之内[0,T]，可以通过手工估算的方式估计出各个关节间的校准夹角，并对估计的手部姿态进行约束，最终得到较为合理的手部姿态估计结果。

所述的步骤S32包括：根据V(x,y,z)和L的关系表，按照标准手势关节姿态位置θ⁰的各个手指关节比例，对θ^ir对应的关节比例进行校正，包括对相邻两根关节的长度比、单个关节的长度、每个手指的三根关节之间的夹角、手指之间的相邻关节间夹角进行校正；其中，V(x,y,z)代表两个关节之间的方向，L表示距离。

如图6所示，一种基于深度数据的三维手势姿态估计系统，它包括：

Claims

1.一种基于深度数据的三维手势姿态估计方法，其特征在于：它包括以下步骤：

S1：对拍摄的数据进行手部ROI检测，获取手部深度数据：

其中，所述的ROI为感兴趣区域；

S2：手部三维全局方向初步估计，包括以下子步骤：

S21：对步骤S1得到的手部ROI数据进行特征提取；

S3：三维手势的关节姿态估计，包括以下子步骤：

2.根据权利要求1所述的一种基于深度数据的三维手势姿态估计方法，其特征在于：步骤S1中，当能够获取手掌的单个骨骼点信息时的情况包括以下子步骤：

3.根据权利要求1所述的一种基于深度数据的三维手势姿态估计方法，其特征在于：步骤S1中，当无法获取手掌的单个骨骼点信息时的情况包括以下子步骤：

x = \frac{m_{10}}{m_{00}}, y = \frac{m_{01}}{m_{00}};

式中，m代表图像的几何矩，，m₁₀、m₀₁、m₀₀代表几何矩的其中三个顶点；；

S126：对每个轮廓进行相同的形心点变换之后，比较深度值H，将深度值较小的形心变换点Q_i作为手部的位置所在；

4.根据权利要求1所述的一种基于深度数据的三维手势姿态估计方法，其特征在于：所述的步骤S21包括以下子步骤：

S211：对手部立方体划分，包括以下子步骤：

S212：将手部深度数据投影到立方体上，包括以下子步骤：

5.根据权利要求4所述的一种基于深度数据的三维手势姿态估计方法，其特征在于：所述的训练好的手部全局方向回归的分类器R₁的训练步骤包括以下子步骤：

S202：在得到大量的手部数据样本以及手部全局方向标签之后，训练手部全局方向回归的分类器R₁：对于每个手部数据样本，采用与步骤S21相同的步骤进行特征提取，并结合样本的标签进行分类器训练。

6.根据权利要求4所述的一种基于深度数据的三维手势姿态估计方法，其特征在于：步骤S22采用随机森林进行回归，所述的步骤S22包括以下子步骤：

7.根据权利要求4所述的一种基于深度数据的三维手势姿态估计方法，其特征在于：所述的预先训练好的关节姿态估计的分类器R₂的训练步骤包括提取特征子步骤S301、提取标签子步骤S302和训练子步骤S303；所述的提取标签子步骤S301包括以下子步骤：

Y_i＝T_yi*Y₀，

Z_i＝T_zi*Z₀；

φ_i＝T_yi*T_zi；

θⁱ⁰＝φ_i*θ⁰；

Δi＝θⁱ⁰-θ⁰；

残差Δi作为分类器R₂的标签；

所述的提取特征子步骤S302包括以下子步骤：

S3022：将手部深度数据投影到立方体上，包括以下子步骤：

8.根据权利要求7所述的一种基于深度数据的三维手势姿态估计方法，其特征在于：所述的步骤S31包括：根据步骤S1得到的手部深度ROI数据、步骤S2得到的提取特征X_i、步骤S2得到的全局方向(Y_i,Z_i)，利用分类器R₂回归残差，更新最终姿态θ^ir，θ^ir＝R₂(X_i)+θⁱ⁰。

9.根据权利要求8所述的一种基于深度数据的三维手势姿态估计方法，其特征在于：所述的步骤S32包括：根据V(x,y,z)和L的关系表，按照标准手势关节姿态位置θ⁰的各个手指关节比例，对θ^ir对应的关节比例进行校正，包括对相邻两根关节的长度比、单个关节的长度、每个手指的三根关节之间的夹角、手指之间的相邻关节间夹角进行校正；其中，V(x,y,z)代表两个关节之间的方向，L表示距离。

10.一种基于深度数据的三维手势姿态估计系统，其特征在于：它包括：