CN103226388A

CN103226388A - 一种基于Kinect的手写方法

Info

Publication number: CN103226388A
Application number: CN2013101180740A
Authority: CN
Inventors: 金连文; 叶植超; 张鑫
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2013-04-07
Filing date: 2013-04-07
Publication date: 2013-07-31
Anticipated expiration: 2033-04-07
Also published as: CN103226388B

Abstract

本发明公开了一种基于Kinect的手写方法，主要包括如下步骤：步骤1、捕捉视频信息；步骤2、分析处理并分割视频信息，分割得到每一帧图像里面用户的手部；步骤3、分割后的视频信息分为两个模块：手写轨迹定位和字符识别模块与手势识别和响应模块。具有书写的自由度高、使用方便和实用性强等优点。

Description

一种基于Kinect的手写方法

技术领域

本发明涉及一种计算机图像处理及模式识别技术，特别涉及一种基于Kinect的手写方法，该方法是一种空中虚拟手写的识别和交互的方法。

背景技术

纵观人机交互的发展史，我们一直在为创造一种更为自然的、用户友好的交互系统而努力，但是在现存的手写系统中，受限于硬件和软件上的制约，依然没有完全达到一种人性化的交互要求：一方面，传统的手写输入系统都需要凭借一定的介质设备，比如键盘、鼠标、电子笔、触摸屏，这种手写的行为与硬件“捆绑”在一起，一定程度上制约着我们手写的自由和应用场合；另一方面，目前国内外在类似的虚拟手写领域的尝试和研究也有不少，但是他们某种层面而言都存在一定的局限性，比如说，对应用场景要有严格的控制，要求背景干净和稳定不变；又或者需要高昂的电子设备，如高精度TOF相机、数据手套等，这些制约着他们的应用方案成为一种实用性的系统；可见现有的手写技术使用的限制很多，使用不方便，实用性差。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于Kinect的手写方法，该方法具有人性化程度高、用户操作友好、可以空中虚拟手写的特点。

本发明的目的通过下述技术方案实现：一种基于Kinect的手写方法，包括如下步骤：

步骤1、捕捉视频信息；

步骤2、分析处理并分割视频信息，分割得到每一帧图像里面用户的手部；

步骤3、分割后的视频信息分为两个模块：手写轨迹定位和字符识别模块与手势识别和响应模块。

所述步骤3中：

所述手写轨迹定位和字符识别模块的工作过程包括如下步骤：

（A）在人手分割的结果上进行指尖定位，并且存储定位得到的指尖位置；

（B）将一次书写检测得到的所有指尖点位置拼接起来得到一个完整字符的连笔进行字符重构，并把重构后的字符输入到字符识别引擎，以得到识别结果输出；

所述手势识别和响应模块的工作过程包括如下步骤：

（a）在人手分割的结果上提取手部信息特征，所述手部信息特征作为手势识别的输入，如果提取的所述手部信息特征的变化与预先设定的手势的变化规则一致，则可被判定为所述手势正在进行书写，所述手势识别和响应模块检测用户的手势变化作为人机交互的指令并输入手写系统从而实现手写系统的基本功能，所述手写系统包括：用户登入、落笔、抬笔、选择、删除和注销；

（b）系统检测到手势，界面做出相应响应。

所述步骤1中，采用微软的Kinect传感器来采集视频信息，所述视频信息包括彩色图像和深度图像；并利用Kinect将用户从复杂背景中分离出来。

所述步骤2中，所述分析处理并分割视频信息采用了一种混合模型的算法，所述混合模型的算法对肤色模型、深度模型和背景模型分别进行建模；所述肤色模型的分割结果、深度模型的分割结果和背景模型的分割结果被输入到神经网络的评价系统，神经网络输出肤色模型的置信系数、深度模型的置信系数和背景模型的置信系数，分割结果取决于肤色模型、深度模型和背景模型经由置信系数加权之后的综合，所述加权之后的综合指：所述肤色模型的分割结果、深度模型的分割结果和背景模型的分割结果分别乘以各自的置信系数得到三个二值图，然后把所述的三个二值图进行累加，最后把累加的结果经过一个阈值得到最终分割结果。

所述步骤2中，所使用的神经网络是一个三层感知器模型，分为输入层、隐藏层和输出层；所述肤色模型、深度模型和背景模型这三个模型分割结果的两两重叠率输入所述神经网络的输入层，重叠率越高意味着分割的结果越好，即吻合度越高；所述肤色模型的置信系数、深度模型的置信系数和背景模型的置信系数由神经网络的输出层输出，置信系数越大意味着相对应模型的可靠性越高（在最终分割结果里面占据更重要的成分）；隐藏层具有20个神经元，神经网络的激活函数是sigmod函数。

所述步骤（A）中，所述指尖定位采用了双模式切换的指尖定位算法，所述双模式切换的指尖定位算法通过手部的物理模型来决定选用的模式，对不同形态角度的手部自适应地采用相应的指尖定位算法。

所述步骤（B）中，在字符重构之后，轨迹点集经由一个均值滤波做平滑，消除因为局部噪声造成的影响；对于一个完整的字符在空中手写系统中，其指尖定位算法采样为n个点，则整个字符可视作n维向量，用字母c表示，所述整个字符的表达式如下：

c=(P₁,P₂,P₃,...,P_n)，

假设P_i为第i个采样点，平滑策略为该点与邻近6个采样点取均值。经由均值滤波器得到的平滑后轨迹在每个点上的数值为：

P_{i} = \{\begin{matrix} \frac{(P_{i - 3} + P_{i - 2} + P_{i - 1} + P_{i} + P_{i + 1} + P_{i + 2} + P_{i + 3})}{7} \\ P_{i} \end{matrix},

当4≤i≤n-3时，

当i>n-3或i<4时P_i=P_i。所述步骤（a）中，所述提取手部信息特征采用如下特征：手心与手腕连线和垂直线形成的角度特征、手张开指尖的数目特征、掌心的位置特征和当前时间特征这4个特征，这4个特征描述了当前手的角度、手掌形态、位置还有运动状况。

所述步骤（a）中，在所述系统检测用户的手势时，自定义类似身体语言的手势动作，所述手势动作包括手的张开停顿、单指与多指的互相变换、挥手、抓取和放开。

所述步骤（a）中，自定义用户登入手势操作和注销手势操作，所述登入手势操作用于记录当前操作用户的ID并且屏蔽手势的背景，所述注销手势操作用于去掉当前操作用户的ID并且接受下一位用户的登入使用。

本发明可运用到如下应用领域：

1、体感游戏中的字符输入，如用户名，游戏角色名称，档案记录名字等。

2、未来智能电视的远程控制操作，如切换频道，搜索内容时输入关键字。

3、会议和展示中的非接触式书写和控制。

除上述的领域，本发明还可以运用到需要远程操控的其他手写输入应用的场合。

本发明的工作原理：本发明的手写系统借助微软的Kinect传感器来捕捉视角内的用户手写RGB图信息和深度图信息，分割人手和定位指尖位置，并以此还原手写轨迹，通过一个字符识别引擎输出识别的候选字，进一步地，通过检测特定的手势来实现手写系统；

本发明相对于现有技术具有如下的优点及效果：

1、书写的自由度高，使用方便；本发明的手写系统实现了一种空中虚拟手写系统，提高了手写的自由度和用户体验，更加符合自然的人机交互理念，用户可以将手指当成虚拟笔尖在空中高自由度地书写而无需接触任何硬件。

2、应用范围广，对应用场景的要求更加宽松，用户可以在Kinect的有效视场内这个大范围里面空中书写，可以抵抗复杂背景和旁人的干扰。

3、采用混合模型分割人手有利于解决传统基于视觉的分割算法面临的光线变化、脸手交叠的影响，同时也对Kinect自身采样时候彩色图信息和深度图不同步的问题有鲁棒性。

4、采用双模式切换的指尖定位算法，它可以定位高自由度的手部指尖位置。

5、定义了一套符合人的肢体语言的动作作为这个空中手写系统的人机交互手势，容易被用户掌握和使用。

6、实用性强；系统使用了当前字符识别领域主流的算法和识别引擎，它支持6763个常用汉字，26个英文（大小写）和10个数字的识别，完全可以应对正常的字符输入场合，实用性非常强。

附图说明

图1为本发明的整体框图。

图2为本发明的重构后的字符轨迹示意图。

图3为本发明的经由均值滤波器之后的字符轨迹示意图。

图4为本发明定义的空中手写系统交互手势示意图。

图5为本发明的手势检测状态转移示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，为本发明的整体框图，通过Kinect获取用户手写视频后，进行人手分割，将手部这一感兴趣区域从背景中分离，此后系统分为两个模块：手写轨迹定位与字符识别模块和手势识别与响应模块，在手写轨迹定位与字符识别模块中，对分割出来的手部进行指尖定位并且视为字符的一系列离散节点，完成一个字符的手写后，将这些节点拼接起来重构得到恢复的字符笔画，它被输入到一个字符识别引擎从而输出候选字；在手势识别与响应模块中，对分割出来的手部提取形态特征，这些特征被用来作为手势检测的依据，一旦检测到指定的手势动作，系统将做出相应的响应操作。

本实施例主要包括以下技术特征：

1、获取用户手写视频。

本发明的第一步是获取用户的手写视频，系统采用了微软的Kinect作为视频采集的传感器，它提供了帧率为30fps的大小为640*480的彩色图信息和深度图信息，可以满足一个实时手写系统的需求。深度信息的引入可以更好地辅助人手分割和指尖的定位；同时，Kinect向外提供API调用,其中包括标示当前成像位置里面哪些像素属于用户这一功能，这帮助将用户由复杂背景中分离出来。

2、人手分割。

为实现有效而鲁棒性好的人手分割，本发明采用是采用了一种混合模型的分割算法，它对肤色模型、深度模型和背景模型分别建模；鉴于肤色模型、深度模型和背景模型这三个模型各自有着自己的优点和缺陷。本系统的分割结果是三个模型的有机融合；为了评判每个模型的分割好坏，三个模型的分割结果被输入到一个神经网络的评价系统；这个神经网络的输入是三个模型分割结果的两两重叠率，重叠率越高意味着分割的结果越好，即吻合度越高。神经网络的输出是三个模型各自的置信系数，这个系数越大意味着对应模型的可靠性越高（在最终分割结果里面占据更重要的成分）。结构上，这个神经网络包括三层：输入层，隐藏层和输出层。训练阶段输入三模型分割结果的两两重叠率，输出端则通过有监督的方式指定置信系数。置信系数的选择是由人工判读决定最优解。隐藏层包括20个神经元，激活函数是sigmod函数。一旦神经网络模型训练完成，即可用作评定三模型分割结果，对不同的输入（即重叠率的不同取值），输出相应的三模型置信系数。最终的分割结果取决于三个模型经由置信系数加权之后的综合，所述加权之后的综合指：所述肤色模型的分割结果、深度模型的分割结果和背景模型的分割结果分别乘以各自的置信系数得到三个二值图，然后把所述的三个二值图进行累加，最后把累加的结果经过一个阈值得到最终分割结果。

3、手写轨迹定位与字符识别模块的指尖定位。

在指尖定位部分，采用了一种双模式切换的指尖定位算法，包括（1）“最远模式”，这种情况下，指尖可确定是在人手分割得到的结果上，有着距离手臂最大二维欧式距离的点；（2）“最前模式”，这种情况下，指尖可确定是在人手分割得到的结果上，有着距离Kinect最近距离的点。在观测和实验的基础上，通过构造一个手部的物理模型来决定选用的模式，对不同形态角度的手部自适应地采用不同的指尖定位算法。

4、手写轨迹定位与字符识别模块的轨迹重构。

在书写轨迹重构部分，将一次字符书写检测得到的所有指尖点位置拼接起来得到一个完整字符。之后点集经由一个均值滤波做平滑，消除因为局部噪声造成的影响，假设一个完整的字符在空中手写系统中被指尖定位算法采样为n个点，则整个字符可视作一个n维向量：

c=(P₁,P₂,P₃,...,,P_n)，

当4≤i≤n-3时，当i>n-3或i<4时P_i=P_i。

这种平滑处理可以有效消除因为上一步指尖定位错误而引起的局部噪声，如图2所示，重构后的字符存在着一些细节局部的噪声，经由均值滤波后噪声被消除（如图3所示），但是字符的整体分布结构依然得到保留。这有利于最终的字符识别。

5、手写轨迹定位与字符识别模块的字符识别。

字符识别部分把上一步重构并经过平滑得到的手写轨迹作为输入。本系统使用了当前主流的修正的二次判决函数（MQDF）分类器，识别引擎先提取书写轨迹的8方向特征得到1024维特征向量，并经由线性判别分析（LDA）减至160维，经由压缩的MQDF分类器得到最后的识别候选字，它支持6763个常用汉字，26个英文（大小写）和10个数字的识别，完全可以应对正常的字符输入场合。

6、手势识别和响应模块模块中手的形态特征提取。

在手势识别与响应模块，首先需要提取手的形态特征，本发明提取了4个特征作为用户手的当前形态的描述：手心与手腕连线和垂直线形成的角度、手张开指尖的数目、掌心的位置和当前帧的时间。它覆盖了手的角度、手掌的形态、手掌的位置还有动态的描画，这些特征在前后帧的变化形成了一种手的动态描述：角度的改变展示了手的挥动动作，指尖数目的变化反映了手的张合，

掌心位置的变动意味着手的移动。

7、手势识别和响应模块模块的手势检测。

系统检测用户的手势作为人机交互的指令从而完成一个手写系统的基本功能，包括：用户登入、落笔、抬笔、选择、删除、注销。如图4所示，展示了空中手写系统交互手势示意图。其中登入和注销手势要求用户保持手部张开放到指定位置持续一段时间；落笔手势表示用户开始书写一个字符，相应的手势是由多指变成单指；抬笔手势表示用户书写一个字符完成，相应的手势是由单指变成多指；删除手势是用户的挥手动作，通过检测手的角度的变化和持续时间来实现；选择动作是用户把手放到候选字的选区然后抓取和放开，这通过检测掌心的位置，指尖数目的变化动态来实现；如图5所示，展示了本发明的手势检测的状态转移图，圆圈里面为手势，矩形是落笔和抬笔手势确定的用户书写阶段。

8、手势识别和响应模块中系统的交互响应。

系统检测到指定手势时候，将在界面上做出响应，例如输出候选字符，删除字符。

本实施例主要通过以下步骤实现：（1）通过Kinect捕捉视频信息，包括彩色图像，还有深度图像；（2）通过分析处理视频信息，分割得到每一帧图像里面用户的手部；分割之后分为两个模块：手写轨迹定位和字符识别模块还有手势识别和响应模块。其中手写轨迹定位和字符识别模块的步骤如下：（A）在人手分割的结果上进行指尖定位，并且存储位置；（B）将一次书写检测得到的所有指尖点位置拼接起来得到一个完整字符的连笔，输入到字符识别引擎得到识别结果输出。手势识别和响应模块的步骤如下：（a）在人手分割的结果上提取手部信息特征。这些特征作为用户手的当前状况的描述，被当做手势识别的输入特征向量。系统检测用户的手势作为人机交互的指令从而完成一个手写系统的基本功能，如图4所示，包括：用户登入、落笔、抬笔、选择、删除、注销;（b）系统检测到手势，界面做出相应响应。

上述技术方案中，所述步骤（2）的对视频人手分割的操作是采用了一种混合模型的算法，它对肤色模型、深度模型和背景模型分别建模。三个模型的分割结果被输入到一个神经网络的评价系统，神经网络输出三个模型各自的置信系数。最终的分割结果取决于三个模型经由置信系数加权之后的综合，所述加权之后的综合指：所述肤色模型的分割结果、深度模型的分割结果和背景模型的分割结果分别乘以各自的置信系数得到三个二值图，然后把所述的三个二值图进行累加，最后把累加的结果经过一个阈值得到最终分割结果。

所述步骤（2）中，所使用的神经网络是一个三层感知器模型，分为输入层、隐藏层和输出层。这个神经网络的输入是三个模型分割结果的两两重叠率，重叠率越高意味着分割的结果越好，即吻合度越高。神经网络的输出是三个模型各自的置信系数，这个系数越大意味着对应模型的可靠性越高（在最终分割结果里面占据更重要的成分），隐藏层包括20个神经元，激活函数是现有的sigmod函数。

所述手写轨迹定位和字符识别模块的步骤（A）在人手的指尖定位上采用了一种双模式切换的指尖定位算法。它通过一个手部的物理模型来决定选用的模式，对不同形态角度的手部自适应地采用不同的指尖定位算法。

所述手写轨迹定位和字符识别模块的步骤（B）在重构字符之后，轨迹点集会经由一个均值滤波做平滑，消除因为局部噪声造成的影响。假设一个完整的字符在空中手写系统中被指尖定位算法采样为n个点，则整个字符可视作一个n维向量：

c=(P₁,P₂,P₃,...,P_n)，

当4≤i≤n-3时，

当i>n-3或i<4时P_i=P_i。

所述手势识别和响应模块的步骤（a）在手势检测中提取人手的形态特征时候采用了如下4个：手心与手腕连线和垂直线形成的角度、手张开指尖的数目、掌心的位置和当前时间。这4个特征描述了当前手的角度、手掌形态、位置还有运动状况。

所述手势识别和响应模块的步骤（a）在系统检测用户手势阶段，自定义了一套类似身体语言的手势动作，这些手势动作包括手的张开停顿、单指与多指的互相变换、挥手、抓取和放开。

所述手势识别和响应模块的步骤（a）定义了一个用户登入的手势操作。它记录当前操作用户的ID并且屏蔽其他背景人物的动作。注销手势去掉这个标志ID并且接受下一位用户的登入使用。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于Kinect的手写方法，其特征在于，包括如下步骤：

步骤1、捕捉视频信息；

步骤3、把分割后的视频信息分为两个模块：手写轨迹定位和字符识别模块与手势识别和响应模块。

2.根据权利要求1所述的手写方法，其特征在于，步骤3中：

（A）在人手分割的结果上进行指尖定位，并且定位得到的指尖位置；

（B）将书写检测得到的所有指尖点位置拼接起来得到完整字符的连笔进行字符重构，并把重构后的字符输入到字符识别引擎，得到识别结果，并输出识别结果；

所述手势识别和响应模块的工作过程包括如下步骤：

（a）在人手分割的结果上提取手部信息特征，所述手部信息特征作为手势识别的输入，如果提取的所述手部信息特征的变化与预先设定的手势的变化规则一致，则可被判定为所述手势正在进行书写，所述手势识别和响应模块检测用户的手势变化输入手写系统，所述手写系统包括：用户登入手势操作、落笔手势操作、抬笔手势操作、选择手势操作、删除手势操作和注销手势操作；

（b）系统检测到手势，界面做出相应响应。

3.根据权利要求1所述的手写方法，其特征在于，步骤1中，采用微软的Kinect传感器来采集视频信息，所述视频信息包括彩色图像深度图像；并利用Kinect将用户的手部从背景中分离出来。

4.根据权利要求1所述的手写方法，其特征在于，步骤2中，所述分析处理并分割视频信息采用了一种混合模型的算法，所述混合模型的算法对肤色模型、深度模型和背景模型分别进行建模；所述肤色模型的分割结果、深度模型的分割结果和背景模型的分割结果分别被输入到神经网络的评价系统，所述神经网络输出肤色模型的置信系数、深度模型的置信系数和背景模型的置信系数，所述分割结果取决于肤色模型、深度模型和背景模型经由置信系数加权之后的综合，所述加权之后的综合指：所述肤色模型的分割结果、深度模型的分割结果和背景模型的分割结果分别乘以各自的置信系数得到三个二值图，然后把所述的三个二值图进行累加，最后把累加的结果经过阈值得到最终分割结果。

5.根据权利要求4所述的手写方法，其特征在于，4所述神经网络是感知器模型，所述感知器模型分为输入层、隐藏层和输出层，所述肤色模型、深度模型和背景模型这三个模型分割结果的两两重叠率输入所述神经网络的输入层，所述肤色模型的置信系数、深度模型的置信系数和背景模型的置信系数由神经网络的输出层输出，所述隐藏层具有神经元，所述神经网络的激活函数是sigmod函数。

6.根据权利要求2所述的手写方法，其特征在于，步骤（A）中，所述指尖定位采用了双模式切换的指尖定位算法，所述双模式切换的指尖定位算法通过手部的物理模型来决定选用的模式，对形态角度的手部自适应地采用相应的指尖定位算法。

7.根据权利要求2所述的手写方法，其特征在于，步骤（B）中，在字符重构之后，轨迹点集经由一个均值滤波做平滑，消除因为局部噪声造成的影响；对于一个完整的字符在空中手写系统中，其指尖定位算法采样为n个点，则整个字符可视作n维向量，用字母c表示，所述整个字符的表达式如下：

c=(P₁,P₂,P₃,...,P_n)，

假设P_i为第i个采样点，平滑策略为该点与邻近6个采样点取均值，经由均值滤波器得到的平滑后轨迹在每个点上的数值为：

P_{i} = \{\begin{matrix} \frac{(P_{i - 3} + P_{i - 2} + P_{i - 1} + P_{i} + P_{i + 1} + P_{i + 2} + P_{i + 3})}{7} \\ P_{i} \end{matrix},

当4≤i≤n-3时，

当i>n-3或i<4时P_i=P_i。

8.根据权利要求2所述的手写方法，其特征在于，步骤（a）中，提取的所述手部信息特征包括：手心与手腕连线和垂直线形成的角度特征、手张开指尖的数目特征、掌心的位置特征和当前时间特征。

9.根据权利要求2所述的手写方法，其特征在于，步骤（a）中，在所述系统检测用户的手势时，自定义类似身体语言的手势动作，所述手势动作包括手的张开停顿、单指与多指的互相变换、挥手、抓取和放开。

10.根据权利要求2所述的手写方法，其特征在于，步骤（a）中，自定义所述用户登入手势操作和注销手势操作，所述用户登入手势操作用于记录当前操作用户的ID并且屏蔽手势的背景，所述注销手势操作用于去掉当前操作用户的ID并且接受下一位用户的登入使用。