CN103500010B

CN103500010B - 一种视频人手指尖定位方法

Info

Publication number: CN103500010B
Application number: CN201310462133.6A
Authority: CN
Inventors: 杨维信; 钟铮杨; 张鑫; 王鹏伟; 熊晨霖; 金连文
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2013-09-29
Filing date: 2013-09-29
Publication date: 2016-10-05
Anticipated expiration: 2033-09-29
Also published as: CN103500010A

Abstract

本发明公开了一种以Kinect为摄像工具的视频人手指尖定位方法,步骤如下：（1）从摄像头获取彩色和深度图像；（2）手部分割；（3）手部的三视图投影；（4）手指定位；（5）指尖定位；计算每个手指候选点与前臂点在拳部中心所构成的夹角值，移除小于90°的候选点，再从剩下的候选点中取距离拳部中心最远的点作为指尖点。本发明具有很大的拓展空间、适用于深度摄像头下通用物体的辅助识别以及节省了后续的计算量和提高最终的准确率等优点。

Description

一种视频人手指尖定位方法

技术领域

本发明涉及一种计算机图像处理及模式识别技术，特别涉及一种视频人手指尖定位方法。

背景技术

近年来，基于人手的智能人机交互技术由于其灵活、自然等特性变得越来越受关注。相比于传统的需要接触硬件设备的技术手段，基于人手的空中人机交互更加接近于自然人机交互的核心理念，有更好的用户体验。而指尖的高自由度和灵活性使其蕴含了相对人手其他部分更加丰富的内涵。因此绝大部分的人机交互技术都会涉及到指尖的定位。

当前指尖定位的技术总体可以分为两种方法：基于二维视觉的方法还有基于三维建模的方法。前者的主流算法是模板匹配法还有局部曲率最大法，这些方法依赖于人手分割的结果，对局部噪声敏感。另外，它们无法处理指尖正对着摄像头的情况，此时手指在图像中只有非常小的一个区域。而三维建模的方法可以取得精确的定位结果，但是传统的三维建模依赖于高精度的摄像头如TOF相机，或者特殊的仪器如特殊的手套等。由于设备高昂的价格，这种方法难以成为一种普遍实用的应用技术。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种视频人手指尖定位方法，该方法借助微软的Kinect传感器来捕捉视角内的用户手部彩色图信息和深度图信息，分割人手和定位指尖位置，鲁棒性好，指尖定位过程中主要利用了深度信息生成三视图，综合不同视图的数据，可根据手部不同部位的厚度区别来定位手指区域。然后根据在空中写字时，手指与前臂所构成的角度大于90°的观察结果，移除被错认为手指点的拳部点。再从筛选剩下的手指点中选取距离拳部中心点最远的点，即为指尖点。

本发明的目的通过下述技术方案实现：一种视频人手指尖定位方法，包括如下步骤：

（1）通过Kinect捕捉视频信息；

（2）通过分析视频信息，将用户的手部从背景中分割出来；手部分割是基于空中写字时手部距离摄像头最近的假设，从最前点向后一个深度阈值内的点即为分割出的手部区域，该深度阈值是多次尝试所得的经验值；

（3）在人手分割的结果上对手部进行三视图投影；将正视图的深度数据逐点转换成右视图和俯视图的深度数据，并统计分割出手部在图像中的不同行、列的厚度；

（4）在投影的结果上，利用不同视图的信息计算出手指的像素点；

（5）手指的区域内具有若干候选手指像素，从候选手指像素中定位指尖点。

所述步骤（1）中，所述视频信息包括彩色图像和深度图像；同时，OpenNI的标示当前帧的用户区域的功能将用户从复杂背景中分离出来。

所述步骤（3）中，所述三视图投影的投影方法为：正视图的每一点转换成右视图中相同高度的一行，该点在正视图中的深度即为其在右视图中到最左边（即靠近摄像头）的距离，逐行地、从左到右地将正视图的点转换到右视图，在右视图即为从远到近地给像素赋值，并且较近的点会覆盖较远的点，生成俯视图过程与之相似，正视图的每一点转换成俯视图中的一列，该点在正视图中的深度即为其在俯视图中到最前边（即靠近摄像头）的距离，从左到右地将正视图的点转换到俯视图，在俯视图即为从远到近地给像素赋值，并且较近的点会覆盖较远的点，通过深度信息采用所述用三视图投影的投影方法生成任意方向的投影视图，依据需要选取投影图。

所述步骤（3）中，在生成所述右视图和俯视图的过程中，统计手部不同厚度的像素数，在生成右视图的投影过程中，正视图每一行中的点从左到右地扫描，当遇到前景像素（分割出的手部）时开始计数，再次遇到背景像素时停止计数，该计数值即为手部在该行的厚度；处理俯视图时，正视图每一列中的点从上到下地扫描，当遇到前景像素时开始计数，再次遇到背景像素时停止计数，该计数值即为手部在该列的厚度。

所述步骤（3）中，利用厚度直方图来区分所述手部的拳部和伸出的手指。

所述步骤（5）包括以下步骤：

（A）将每个候选点与拳部中心点和前臂点连接构成一个夹角，并利用手部弯曲在物理上的约束将构成夹角小于90°的候选手指像素移除；

（B）从剩下的候选手指像素中选取距离拳部中心点最远的点，作为指尖点。

所述步骤（A）中，所述前臂点利用了加大步骤（2）中用于分割出手部的深度阈值来获得；利用Kinect获得的深度图以及OpenNI的提取用户区域功能，获得用户区域深度图；基于人体在深度上连续的这一特性，先在最前点使用一个经验的深度阈值将人手第一次分割出来，之后通过增加深度阈值的数值将人手第二次分割，第一次分隔出来的人手与第二次分割出来的人手的差值属于手臂的一部分，所述差值的中心点即为前臂点。

所述步骤（B）中，选取手指上离拳部中心点最远的点作为指尖点；首先计算拳部所有像素点三维空间上坐标的平均值定义为拳部中心点，然后从步骤（A）筛选剩下的候选手指像素中，选取距离拳部中心点最远的点，作为指尖点。

所述步骤(A)中，将每个候选点与拳部中心点和前臂点连接构成一个夹角θ，将构成夹角小于90°的候选手指像素移除；所述构成夹角小于90°的候选手指像素是拳部的具有手指的厚度特征的特殊点，利用手部弯曲的物理约束移除后，剩下的候选点即为正确的手指区域点。该方法基于以下观察结果：在空中写字时，手指与前臂所构成的角度大于90°。

本发明可运用到如下应用领域：

1、体感游戏中手势控制交互。

2、空中虚拟手写绘画。

3、虚拟键盘。

本发明相对于现有技术具有如下的优点及效果：

1、手臂点定位使用了一种深度阈值二次分割的定位方法。该方法在定位手部位置后，只需要增加手部分割的阈值来做二次分割就能获得手臂像素点，像素点求均值后获得手臂点。该方法方便快捷，节省了手臂点定位的计算量，有利于实时的定位；同时，只要手臂前伸状态下，该方法都能够准确定位手臂点位置，具有很好的鲁棒性。通过定位手臂点，手臂点指向掌心点的矢量就可以作为描述手部方向形态的一个重要信息。

2、充分利用Kinect摄像头提供的深度信息。本发明考虑到现有技术中对Kinect摄像头提供的深度信息利用不足，因此提出利用深度信息生成多视图投影来辅助后续定位。本发明主要用三视图投影方法，通过摄像头获得的正面深度图生成侧视与俯视的深度图后，可以综合三个视图的信息使获得的手指位置更准确。针对深度摄像头的深度信息使用多视图投影的方法，提供了一种新的观察和使用深度信息的角度，不仅可以用于本发明中的人手指尖定位，而且具有很大的拓展空间，适用于深度摄像头下通用物体的辅助识别。

3、本发明为了提高定位准确率，在获得候选的手指点后，进一步利用手部弯曲的物理约束，通过候选手指点与前臂所构成的角度来移除错误的像素点，使筛选后的点位于正确的手指区域的准确率大幅提高。利用手部弯曲的物理约束相当于引入了先验知识，能够自然又快速地缩小手指区域的搜索范围，为进一步的指尖识别提供了更加精确的范围，节省了后续的计算量和提高最终的准确率。

附图说明

图1是本发明的视频人手指尖定位方法的定位流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，通过Kinect获取用户手写视频后，进行人手分割，将手部这一感兴趣区域从背景中分离。通过二次深度阈值分割方法得到手臂点。然后在人手分割的结果上对手部进行三视图投影，并在投影的结果上利用不同视图的信息计算出手指的像素点。再应用统计厚度的直方图中出现的分别对应手指和拳部的两个峰值，选取厚度较小的峰值附近的像素点作为手指点的候选像素。获得候选手指点后，将每个候选点与拳部中心点和前臂点连接构成一个夹角，并将构成夹角小于90°的候选手指像素移除。从剩下的候选手指像素中选取距离拳部中心点最远的点，作为指尖点。

具体通过如下主要步骤实现：

1、获取用户手写视频；本发明的第一步是获取用户的手写视频，系统采用了微软的Kinect作为视频采集的传感器，它提供了帧率为30fps的大小为640*480的彩色图信息和深度图信息，可以满足一个实时手写系统的需求，深度信息的引入可以更好地辅助人手分割和指尖的定位，同时，利用OpenNI库的标示当前成像位置里面哪些像素属于用户这一功能，这帮助将用户由复杂背景中分离出来；

2、人手分割；手部分割是基于空中写字时手部距离摄像头最近的假设，从最前点向后一个深度阈值内的点即为分割出的手部区域，该阈值是多次尝试所得的经验值；

3、利用深度信息进行三视图投影；正视图的每一点转换成右视图中相同高度的一行，该点在正视图中的深度即为其在右视图中到最左边（即靠近摄像头）的距离，从左到右地将正视图的点转换到右视图，在右视图即为从远到近地给像素赋深度值，并且较近的点会覆盖较远的点。生成俯视图的过程与之类似，正视图的每一点转换成俯视图中的一列，该点在正视图中的深度即为其在俯视图中到最前边（即靠近摄像头）的距离，从左到右地将正视图的点转换到俯视图，在俯视图即为从远到近地给像素赋深度值，并且较近的点会覆盖较远的点；

4、在生成右视图与俯视图的过程中统计手部不同厚度的像素数；在生成右视图的投影过程中，正视图每一行中的点从左到右地扫描，当遇到前景像素（分割出的手部）时开始计数，再次遇到背景像素时停止计数，该计数值即为手部在该行的厚度。俯视图的统计过程与之类似，正视图每一列中的点从上到下地扫描，当遇到前景像素时开始计数，再次遇到背景像素时停止计数，该计数值即为手部在该列的厚度；

5、利用厚度直方图来区分拳部和伸出的手指；本方法应用于单个手指伸出时的空中手写情况，在该情况中手指的厚度比拳部的厚度小，统计厚度的直方图会出现分别对应手指和拳部的两个峰值，厚度较小的峰值即为手指的厚度，选取附近的像素点作为手指点的候选像素；侧视的厚度直方图中有两个峰值，厚度值较小的对应手指，厚度值较大的对应拳部；

6、加大深度阈值以获得前臂点；利用Kinect获得的深度图以及OpenNI的提取用户区域功能，可获得用户区域深度图，基于人体在深度上连续的这一特性，先在最前点使用一个经验的深度阈值将人手分割出来，之后通过增加这一阈值再次分割，前后两次的差值属于手臂的一部分，计算其中心即为前臂点，

7、将每个候选点与拳部中心点和前臂点连接构成一个夹角θ，将构成夹角小于90°的候选手指像素移除；这些像素是拳部的一些具有手指的厚度特征的特殊点，将它们移除后，剩下的候选点即为真正的手指区域。该方法基于以下观察结果：在空中写字时，手指与前臂所构成的角度大于90°，θ_A大于90°，而θ_B小于90°，所以保留A点，移除B点；

8、选取手指上离拳部中心点最远的点作为指尖点；首先计算拳部所有像素点坐标的平均值定义为拳部中心点，然后从前一步骤筛选剩下的候选手指像素中选取距离拳部中心点最远的点，作为指尖点。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种视频人手指尖定位方法，其特征在于，包括如下步骤：

(1)通过Kinect捕捉视频信息；

(2)通过分析视频信息，将用户的手部从背景中分割出来；手部分割是基于空中写字时手部距离摄像头最近的假设，从最前点向后一个深度阈值内的点即为分割出的手部区域；

(3)在人手分割的结果上对手部进行三视图投影；将正视图的深度数据逐点转换成右视图和俯视图的深度数据，并统计分割出手部在图像中的不同行、列的厚度；

(4)在投影的结果上，利用不同视图的信息计算出手指的像素点；

(5)手指的区域内具有若干候选手指像素，从候选手指像素中定位指尖点；

所述步骤(3)中，所述三视图投影的投影方法为：正视图的每一点转换成右视图中相同高度的一行，该点在正视图中的深度即为其在右视图中到最左边的距离，逐行地、从左到右地将正视图的点转换到右视图，在右视图即为从远到近地给像素赋值，并且较近的点会覆盖较远的点，生成俯视图过程与之相似，正视图的每一点转换成俯视图中的一列，该点在正视图中的深度即为其在俯视图中到最前边的距离，从左到右地将正视图的点转换到俯视图，在俯视图即为从远到近地给像素赋值，并且较近的点会覆盖较远的点，通过深度信息采用所述用三视图投影的投影方法生成任意方向的投影视图，依据需要选取投影图。

2.根据权利要求1所述的视频人手指尖定位方法，其特征在于，步骤(1)中，所述视频信息包括彩色图像和深度图像；同时，OpenNI的标示当前帧的用户区域的功能将用户从复杂背景中分离出来。

3.根据权利要求1所述的视频人手指尖定位方法，其特征在于，步骤(3)中，在生成所述右视图和俯视图的过程中，统计手部不同厚度的像素数，在生成右视图的投影过程中，正视图每一行中的点从左到右地扫描，当遇到前景像素时开始计数，再次遇到背景像素时停止计数，该计数值即为手部在该行的厚度；处理俯视图时，正视图每一列中的点从上到下地扫描，当遇到前景像素时开始计数，再次遇到背景像素时停止计数，该计数值即为手部在该列的厚度。

4.根据权利要求1所述的视频人手指尖定位方法,其特征在于，所述步骤(3)中，利用厚度直方图来区分所述手部的拳部和伸出的手指。

5.根据权利要求1所述的视频人手指尖定位方法，其特征在于，所述步骤(5)包括以下步骤：

(A)将每个候选点与拳部中心点和前臂点连接构成一个夹角，并利用手部弯曲在物理上的约束将构成夹角小于90°的候选手指像素移除；

(B)从剩下的候选手指像素中选取距离拳部中心点最远的点，作为指尖点。

6.根据权利要求5所述的视频人手指尖定位方法，其特征在于，所述步骤(A)中，所述前臂点利用了加大步骤(2)中用于分割出手部的深度阈值来获得；利用Kinect获得的深度图以及OpenNI的提取用户区域功能，获得用户区域深度图；基于人体在深度上连续的这一特性，先在最前点使用一个深度阈值将人手第一次分割出来，之后通过增加深度阈值的数值将人手第二次分割，第一次分隔出来的人手与第二次分割出来的人手的差值属于手臂的一部分，所述差值的中心点即为前臂点。

7.根据权利要求5所述的视频人手指尖定位方法，其特征在于，所述步骤(B)中，选取手指上离拳部中心点最远的点作为指尖点；首先计算拳部所有像素点三维空间上坐标的平均值定义为拳部中心点，然后从步骤(A)筛选剩下的候选手指像素中，选取距离拳部中心点最远的点，作为指尖点。

8.根据权利要求5所述的视频人手指尖定位方法，其特征在于，所述步骤(A)中，将每个候选点与拳部中心点和前臂点连接构成一个夹角θ，将构成夹角小于90°的候选手指像素移除；所述构成夹角小于90°的候选手指像素是拳部的具有手指的厚度特征的特殊点，利用手部弯曲的物理约束移除后，剩下的候选点即为正确的手指区域点。