CN104571482A

CN104571482A - 一种基于体感识别的数字设备操控方法

Info

Publication number: CN104571482A
Application number: CN201310500501.1A
Authority: CN
Inventors: 杨成; 吴晓雨; 冯琦; 李卓嘉; 王友文; 张仲一; 李卉
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2013-10-22
Filing date: 2013-10-22
Publication date: 2015-04-29
Anticipated expiration: 2033-10-22
Also published as: CN104571482B

Abstract

本发明公开了一种基于体感识别的数字设备操控方法，包括：用户权限管理步骤，当检测到用户发出的获取控制权限的请求时，在数字设备的显示区域内显示与用户对应的操作控制框，并基于权限管理机制来给该用户分配数字设备的控制权限；用户动作识别步骤，根据用户在操作控制框内的动作的识别来判断是否要进行按键操作，如果是，在所述操作控制框内布局键盘，并接下来基于用户针对布局的键盘发出的第一类动作进行识别；如果否，则接下来基于用户发出的第二类动作进行识别；控制步骤，基于识别的结果按照预先设定的动作与数字设备操作之间的对应关系来实现对数字设备的控制。本发明能够实现对数字设备的复杂操作，操作简单，用户体验好。

Description

一种基于体感识别的数字设备操控方法

技术领域

本发明涉及自然人机交互技术领域，具体地说，涉及一种基于体感识别的数字设备操控方法。

背景技术

随着电子技术和数字多媒体技术的发展，越来越多的数字设备进入到人们的生活当中，为人们提供丰富的数据信息和生活上的舒适。

电视作为最早进入人们生活的电子设备也在进行着数字化发展，近年来数字电视产业的迅速发展为人们带来了越来越清晰的视频画面和越来越丰富的音视频内容。但是，用户如何控制数字电视已成为产业内关注的重要问题，甚至关乎数字电视产业的进一步发展。

现有最为普遍的电视控制方式是通过传统的红外遥控器进行控制。该方法更多的是用于实现频道跳转和音量调整，因其价格低廉和技术成熟的优势被广泛使用。但如果用户需要对电视进行如文字输入等更加复杂的控制操作，该方法就需要用户进行繁琐的操作，显得力不从心。

为解决传统红外遥控器无法进行文字输入等复杂控制操作的问题，又出现了通过带有扩展按键的红外遥控器对电视进行控制的方法。该方法对传统的红外遥控器作了进一步的改进，增加了类似计算机键盘或手机键盘的按键，这些按键可以用于文字输入等复杂操作，简化了操作过程。但该方法中的红外遥控器由于配制了大量的按键，体积较大，成本较高。

同时还有通过新型无线设备进行控制。该方法放弃传统的或带有扩展按键的红外遥控器，而是使用基于蓝牙或Wi-Fi数据通信的控制器，亦或是直接使用安装有控制数字电视应用的智能手机等。该方法扩大了数字电视的控制范围，但其对无线环境和控制器要求较高。

随着RGB-D传感器的兴起，数字电视的体感控制技术应运而生。该方法对数字电视的操作控制不需要任何的手持设备，但是其操作多是基于时间停留的控制，用户体检不佳。

基于上述情况，亟需一种操作方便、用户体验好、能够实现复杂控制操作的数字设备操控方法。

发明内容

为解决上述问题，本发明提供了一种基于体感识别的数字设备操控方法，其包括以下步骤：

用户权限管理步骤，当检测到有用户发出的获取控制权限的请求时，在数字设备的显示区域内显示与该用户对应的操作控制框，并基于权限管理机制来给该用户分配针对数字设备的控制权限；

用户动作识别步骤，根据用户在所述操作控制框内的动作的识别来判断是否要进行按键操作，如果是，在所述操作控制框内布局键盘，并接下来基于用户针对布局的键盘发出的第一类动作进行识别；如果不是按键操作，则接下来基于用户发出的第二类动作进行识别；

控制步骤，基于识别的结果按照预先设定的动作与数字设备操作之间的对应关系来实现对数字设备的体感控制。

根据本发明的一个实施例，在用户权限管理步骤中，用户发出的获取控制权限的请求为挥手姿势，当对应于用户的操作手在操作控制框上停顿一预定的时间后，给该用户分配控制权限，而当对应于用户的操作手离开操作控制框另一预定的时间后，收回给该用户分配的控制权限。

根据本发明的一个实施例，控制权限在同一时间里只能分配给一个用户。

根据本发明的一个实施例，在数字设备的显示区域内还分配了显示监控视频界面的区域，用于实时显示用户信息以及与操作控制框的交互动态。

根据本发明的一个实施例，在用户动作识别步骤中，当用户发出的动作达到静态动作识别的时间阈值后，采集用户的动作数据，对发出具体动作的部位的图像进行分割来定位，对定位得到的图像基于特征提取和预先建立的静态动作模型进行识别。

根据本发明的一个实施例，发出具体动作的部位为手部，预先建立的静态动作模型为手势模型，手势模型是通过采用Adaboost学习算法对获取的样本库进行分类训练而得到的。

根据本发明的一个实施例，在用户动作识别步骤中，第一类动作为手指点击动作，并按照以下步骤识别手指点击动作：

手部图像二值化步骤，基于从体感器得到的掌心点三维位置对发出动作的手部进行定位，并基于从体感器得到的深度信息来对定位的图像进行分割，从而得到手部区域的二值图像；

手掌轮廓提取步骤，对得到的二值图像进行轮廓搜寻并基于手掌阈值确定得到手掌轮廓图像，对手掌轮廓图像进行边缘拟合平滑处理，

指尖点检测步骤，基于葛立恒扫描法来得到轮廓图像的凸包点，并基于以下两种方式中的任何一种来筛选出指尖点：

a、根据手指长度筛选，相邻的两个凸包点与凹点构成一个夹角，其两边边长之和应大于手长的一半；

b、根据手指夹角筛选，相邻的两个凸包点与凹点构成一个夹角，其夹角要小于60度；

指尖点标记步骤，按以下两种方式中的任何一种对指尖点进行标记以用于区分每一根手指的点击操作：

c、以掌心点为中心建立坐标系，计算筛选出的指尖点与掌心的连线与X轴的夹角度数大小，然后将计算出来的结果进行排序进行标记；

d、通过筛选出的指尖点相对掌心的相对位置将其按顺序标记；

点击识别步骤，按以下两种方式中的任何一种或者二者的结合进行点击动作的识别：

e、通过判断相邻指尖点和所述相邻指尖点之间的凹陷点连线的夹角值是否大于点击阈值，如果是，则判断为点击事件；或/和

f、计算连续帧上指尖点深度信息的运动方差，根据所述运动方差的波动来判断点击事件。

根据本发明的一个实施例，在用户动作识别步骤中，第二类动作为动态手势动作，并按照以下步骤识别所述动态手势动作：

有效动态手势提取步骤，以动态手势的运动、静止和转折作为动态手势轨迹提取起始和结束的依据，根据动态手势轨迹点数量阈值提取有效手势，并对有效手势轨迹进行归一化处理；

动态手势特征值提取步骤，对相邻帧内掌心点连线的向量方向角的角度进行方向量化编码，以量化编码作为动态手势的特征值；

动态手势识别步骤，基于动态手势特征值与预先建立的动态手势模型进行动态手势识别。

根据本发明的一个实施例，方向量化编码为12个方向均匀量化编码，每量化为一个方向。

根据本发明的一个实施例，动态手势模型是改进的HMM模型，其能够排除HMM模型无法排除的无效手势，改进的HMM模型是按以下方式中的任何一种或多种的结合进行改进的：

g、利用统计学规律设置样本轨迹的概率范围；

h、设置动态手势轨迹点的个数范围；

i、设置动态手势方向量化编码的种数；

j、设置动态手势第一个编码的编码范围。

本发明带来了以下有益效果：

用户可以方便快捷的对数字设备完成包括文字输入等复杂操控在内的多种操控，在操控的过程中无需手持设备，操控简单，用户体验好。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要的附图做简单的介绍：

图1是根据本发明的一个实施例中基于体感识别的数字设备操控方法的整体流程图；

图2是根据本发明的一个实施例中基于体感识别的数字设备操控方法的流程图；

图3a～图3d是根据本发明的一个实施例中数字电视的显示界面；

图4是根据本发明的一个实施例中静态手势模型的训练流程图；

图5是根据本发明的一个实施例中采用Adaboost学习算法的静态手势模型训练流程图；

图6是根据本发明的一个实施例中静态手势识别的流程图；

图7是根据本发明的一个实施例中手指点击动作识别的流程图；

图8是根据本发明的一个实施例中动态手势的组合操作机制图；

图9是根据本发明的一个实施例中动态手势模型的训练流程图；

图10是根据本发明的一个实施例中动态手势样本库的训练流程；

图11是根据本发明的一个实施例中识别动态手势的流程图；

图12是根据本发明的一个实施例中基于改进的HMM模型来识别动态手势的流程图；

图13是根据本发明的一个实施例中动态手势的识别率数据；

图14是根据本发明的一个实施例中用户手势识别结果与实际电视操控的对应关系图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明提供了一种基于体感识别的数字设备操控方法，图1示出了本实施例中基于体感识别的数字设备操控方法的整体流程图。

本实施例中，数字设备为数字电视，如图1所示，首先在步骤S101中确认用户控制权限，当检测到有用户发出的获取控制权限的请求时，在数字电视的显示区域内显示与该用户对应的操作控制框，并基于权限管理机制来给该用户分配针对数字电视的控制权限。

本实施例中，用户发出的获取控制权限的请求动作为主动挥手，体感设备能够捕获用户的挥手动作，并基于体感设备的API函数例如OpenNI库函数来确认用户ID，根据用户ID判断该用户是否能够申请数字电视的控制权限。根据权限管理机制，数字电视的控制权限同一时间只能分配给一个用户。

当用户的控制权限申请得到确认后，数字电视的显示区域内会显示出监控视频界面，同时该监控视频界面内还会绘制出与该用户对应的操作控制框。操作控制框能够随着用户的位置实时调整大小和位置，用户的各种操控动作都需要在操作控制框内完成。

当对应于用户的操作手在上述操作控制框内停顿达到一预定的时间后，就向该用户分配控制权限，该用户就可以对数字电视进行控制。而当对应于用户的操作手离开上述操作控制框达到另一预定的时间后，收回给该用户分配的控制权限，该用户将无法继续对数字电视进行操控，视频监视窗口关闭，本次操控结束。

如图1所示，当用户的控制权限得到确认后，进行用户动作识别。在步骤S102中根据用户在操作控制框内的动作的识别结果来判断是否要进行虚拟按键操作。如果是，在上述操作控制框内布局虚拟按键键盘，并接下来在步骤S103a中基于用户针对布局的虚拟按键键盘发出的第一类动作进行识别；如果不需要进行按键操作，则接下来在步骤S103b中基于用户发出的第二类动作进行识别。本实施例中，用户发出具体的识别动作的部位为手部，体感设备捕获的感兴趣的区域均为用户的手部区域。

本实施例中，在步骤S102a中进行操作类型判别时，当达到静态动作识别的时间阈值后，采集用户动作，对发出具体动作的部位的图像进行分割来定位，对定位得到的图像基于特征提取和预先建立的静态动作模型进行识别。随后根据步骤S102a的识别结果判断是否需要进行按键操作，如果静态动作的识别结果为虚拟按键唤醒手势，则认为用户需要进行按键操作，在操作控制框内布局虚拟按键键盘，此过程是在步骤S102b中完成。

随后在步骤S103中，完成对第一类动作和/或第二类动作的识别。本实施例中，第一类动作为手指点击动作，第二类动作为动态手势动作，用户可以通过这两类动作来实现对数字电视的复杂操作和便捷控制。

最后，通过控制步骤S104来实现用户对数字电视的控制。在步骤S104中，基于步骤S103中各种动作的识别结果按照预先设定的动作与数字电视操作之间的对应关系来实现对数字电视的控制。

图2示出了本实施例中基于体感识别的数字设备操控方法的具体流程图。如图2所示，用户主动挥手申请获取数字电视的控制权限，在步骤S201a中捕捉用户的挥手动作，并基于体感设备的API函数例如OpenNI库函数得到该用户的ID，最后根据用户的ID判断用户是否能够申请数字电视的控制权限。

根据权限管理机制，数字电视的控制权限同一时间只能分配给一个用户。如果数字电视当前存在操控用户，其他用户将无法申请获取数字电视的控制权限，对于其他用户的挥手动作数字电视将不作响应；如果数字电视当前没有操控用户，则该挥手用户能够申请获取数字电视的控制权限，执行步骤S201b。

当用户能够申请获取数字电视的控制权限时，在步骤S201b中，数字电视的显示区域内会开启视频监视窗口，同时在该视频监视窗口中绘制操作控制框。本实施例中，该视频监视窗口位于数字电视显示屏的右下方，视频监视窗口中会显示该挥手用户的实时视频图像，同时该视频图像上会显示出一些图形用于直观地提示用户进行体感操控。操作控制框绘制也出现在该视频监视窗口中，其绘制在视频图像中用户身体旁边，该操作控制框能够随着用户的位置在视频显示窗口中实时的更新大小和位置，用户对数字电视的各种操作手势都需要在该操作控制框内完成。

随后在步骤S201c中进行用户控制权限获取，对申请控制的用户，当用户将操作手在上述操作控制框内停顿达到一预定时间后，就向该用户分配数字电视的控制权限，然后执行步骤S201d。在步骤S201d中，如果该用户长时间未获取控制权，则表示该用户释放控制权限；对已有控制权的用户，当其操作手在上述操作控制框外达到一预定时间、或是其它放弃控制权的条件达到时，则同样表示用户释放控制权限。在S201d中如果判断用户释放了控制，则关闭数字电视显示屏上的视频监视窗口，本次操控结束；如果用户没有释放控制则执行步骤S202a。

在步骤S202a中对当前是否处于按键操作状态进行判断，如果处于按键操作状态，则认为当前为某一按键操作过程中的时间点，用户将继续当前按键操作，执行步骤S203b；如果不处于按键操作状态，则执行步骤S202b。在步骤S202b中，判断该用户手势是否达到静态手势识别的时间阈值，如果达到，则获取操作控制框内用户的手势，并在步骤S202c中对静态手势进行识别；如果没有达到，则认为该手势为动态手势，并在步骤S204中对动态手势进行识别。

对静态手势的识别在步骤S202c中完成，静态手势的识别首先需要进行静态手势模型的训练，随后将被识别手势与训练得到的静态手势模型进行匹配以获得识别结果。静态手势的识别过程将会在下文中进行详细描述。

在步骤S202d中对静态手势的识别结果进行判断，如果识别结果为“Victory”手势，本实施中，该手势为开启虚拟按键键盘进行按键操作的标志手势，通过该手势判断用户需要进行按键操作，并在步骤S203a中在视频监视窗口中布局虚拟按键键盘，以便用户进行按键操作；如果识别结果不为“Victory”手势，则执行步骤S204，对用户的动态手势进行识别，动态手势的识别流程将在下文中进行描述。

当在步骤S203a中对虚拟按键键盘布局完成后，用户就能够进行按键操作。在步骤S203b中，对用户执行的按键操作时用到的手指点击动作进行识别。本实施例中，手指点击动作的识别是通过连续帧中指尖点深度信息的运动方差和/或手指夹角来进行手指点击动作的判断的。手指点击动作的识别的详细流程将在下文中进行描述。

当一次手指点击动作完成后，在步骤S203c中判断用户是否结束当前按键操作。如果用户结束当前按键操作，则在步骤S203d中关闭虚拟按键键盘，数字电视显示屏中重新显示视频监视窗口；如果用户没有结束当前按键操作，则执行步骤S205。

在步骤S205中，统一处理体感操作的识别结果，并将各种体感操作的识别结果按照预先设定的动作与数字电视操作之间的对应关系来实现对数字电视的体感控制。

图3a～图3d示出了用户对数字电视进行操控时，数字电视显示屏显示的视频监视窗口和操作控制框，以及用户在进行按键操作的过程中数字电视显示屏中虚拟按键键盘的布局界面。当用户对数字电视进行操控时，视频监视窗口中的界面会根据用户的不同操控动作进行调整，以使用户能够对数字电视进行便捷直观地操作与控制。

本发明中体感识别的是识别用户发出的动作，本实施例中用户发出动作的部位均为手部，所以本实施例中的所有动作均为手势动作，其包括静态手势动作、手指点击动作和动态手势动作。

其中当用户需要进行文本输入等复杂操控时，数字电视显示屏中视频监视窗口区域会布局虚拟按键键盘，而虚拟按键键盘的布局是通过识别预定义的静态手势动作来实现的，静态手势的识别在图2所述的步骤S202c中执行。

对静态手势进行识别首先需要建立静态手势模型。本实施例中，静态手势模型是通过采用Adaboost学习算法对获取的样本库进行分类训练得到的。同时本实施例中，静态手势分为“Victory”手势和“Open”手势。当识别到“Victory”手势时判断用户需要进行按键操作，在视频监视窗口布局虚拟按键键盘。“Open”手势为预留手势，用于以后的功能扩展。

图4示出了训练静态手势模型的流程。如图所示，在步骤S401中，构建由正负样本组成的样本库。训练样本库对于静态手势识别的性能有着重要的影响，静态手势样本库的构造需要在采集正负样本。采集约150个人左右手的“Open”和“Victory”手势图像作为正样本。由于人的左右手只存在一些大小或细节上的差异，只进行右手的模型训练。为了增加训练样本和训练结果的准确度，把左手镜像为右手，这样可以得到368张右手正样本图片。负样本由在Pascal VOC09中随机选取了约1500张图片构成。

随后对采集到的正样本进行归一化。为消除正样本之间的差异性，首先进行正样本的归一化。在采集的手势图片上标注6个点进行位置校准，这6个点分别是手势最左、最右、最上、最下四个点，及表示倾斜角度的两个点。依据这6个点就可以裁减出手势图片，之后对裁减出的图片进行旋转、缩放的变化，得到统一大小的校准图像。样本的归一化不仅在一定程度上获得了手势表示的几何不变性，而且消除了一些背景的干扰。“Open”手势和“Victory”手势规定的校准图片大小为56×64。

在对静态手势证样本进行归一化后，在步骤S402中进行特征提取。梯度方向直方图特征(Histogram of Oriented Gradient，简称为HOG)是利用局部梯度边缘方向的分布表示对象局部形状和轮廓，可以较好地描述局部的形状信息，同时HOG特征对局部区域较小的平移和旋转运动具有一定的不变性、对光照变化较鲁棒，因此本实施例中采用HOG特征来描述静态手势。

HOG特征提取首先需要将图像分割成重叠的快，每个块又分成4个单元。随手计算每个像素的梯度值以及梯度方向，采用积分直方图的方法快速统计每单元的0°至180°范围的9个方向梯度直方图,再从每个块可以提取4×9维的特征向量，并采用L1范数对块特征向量进行归一化，最终得到静态手势的HOG特征。

最后通过步骤S403来分类训练得到手势模型。

图5示出了基于Adaboost学习算法的静态手势模型的训练流程,。首先在步骤S501中，将样本集作为输入，从特征库中选择所有特征原型，计算并获得特征值集。步骤S501中得到的特征集被随机分成n组，并将每一组特征集作为输入，分别根据给定的弱学习算法，确定阈值，得到与相应特征一一对应的弱分类器，获得n组弱分类器集，此过程做步骤S502中完成。在步骤S503中将该n组弱分类器集作为输入，利用阈值挑选出较优的弱分类器组合成n个较强分类器。而在步骤S504中将得到的较强分类器作为输入，利用Adaboost算法挑选出最优的较强分类器组合成强分类器集，并在步骤S505中将得到的强分类器组合成级联分类器；

最后在步骤S506中，以非预定义手势图片集为输入，组合强分类器为临时的级联分类器，筛选并补充负样本。

在得到静态手势模型后，就能够进行静态手势识别。图6示出了静态手势的识别流程，其中包括以下步骤：

在步骤S601中首先读取视频流，经过该步骤可以从RGB-D传感器中读入深度和彩色数据流，以便进行进一步的分析处理。

随后在步骤S602中进行人手定位。因深度受光照变化和背景复杂性影响较小，所以本实施例中利用深度信息实现人手的分割，从而确定人手在当前数据帧的位置。以深度获得的用户ID作为阈值，进行用户和背景的二值化分离。由于人手在交互过程中基本都是位于身体前部，所以可以选定一个深度阈值作为手手和身体分离的门限值，以此确定深度图中人手区域。进行二值化分离时图像像素点的灰度值的计算公式为：

其中，D _z（x,y）表示任意像素点的深度值，q_z表示人体质心点的深度值，F（x,y）表示输出的像素点灰度值。

由于分割得到的深度图精度不高无法满足识别要求，所以需要经彩色图像和深度图像中的像素校正，再把对应的彩色图像中人手区域作为感兴趣的识别区域进行手势识别。

在定位后的人手区域内，提取手势的HOG特征，此过程在步骤S603中完成。静态手势的HOG特征提取过程与上述静态手势模型训练过程中的步骤S402相同，在此不作赘述。

随后在步骤S604中进行静态手势的识别。首先，在步骤S604a中将步骤S603提取出的静态手势HOG特征与静态手势模型进行匹配，分别得到“Victory”手势和“Open”手势的匹配分数值，并在步骤S604b中对两个匹配分数值进行比较，取其中较大的匹配分数值。步骤S604c中，将该较大的匹配分数值与预先设定的匹配分数阈值作比较。如果该较大的匹配分数值大于阈值，则该较大的匹配分数值所代表的的静态手势即为识别出的手势，并在步骤S604d中输出识别结果；如果该较大的匹配分数值小于阈值，则认定定位出的人手区域没有定义的手势。

最后使用200张“Open”手势图片和200张“Victory”手势图片构成的测试样本库对本实施例中静态手势识别的性能进行评估，“Open”手势的识别率为93.64%，误检率为3.12%,“Victory”手势识别率为85.9%，误检率1.01%,漏检率为13.9%。而现有公开的Marcel的复杂背景下静态手势测试库中，提出的静态手势识别算法的平均识别率是87.8%，较Marcel提出的算法平均识别率提高10.6%。对于实时的输入视频，在CPU为AMD ATHLON II x22503.01GHZ，内存为4G的机器上运行，每帧花费的时间大约为0.089s。

本发明中的第一类动作为手指点击动作，当用户需要进行按键操作时，数字电视的显示屏上的视频监视窗口会布局虚拟按键键盘，此时需要在图2的步骤S203b中对用户的手指点击动作进行识别。图7示出了手指点击动作识别的流程图，其包括以下步骤：

首先在步骤S701中对手部图像进行二值化，基于从体感器得到的掌心点三维位置对发出动作的手部进行定位，并基于从体感器得到的深度信息来对定位的图像进行分割，从而得到手部区域的二值图像。手部图像的定位与二值化过程与静态手势识别中步骤S602相同，在此不再赘述。

随后进行手掌轮廓提取，此过程在步骤S702中完成。首先对得到的二值图像进行轮廓搜寻并基于手掌阈值确定得到手掌轮廓图像，对所述手掌轮廓图像进行边缘拟合平滑处理。

轮廓扫描目的是为了找到感兴趣区域（手部）与背景区域的闭合曲线，本实施例中采用Freeman链码搜索算法对二值化的图像像素点进行轮廓搜寻，并且使用链码轮廓的信息来去除干扰点同时对空洞点填充起来。根据几何信息系统只留下闭合面积大于一定阈值的轮廓线，其他细小轮廓线就被视为干扰源进行丢弃。

经过链码提取的轮廓已经将手前景图像进行了初步分割，但边缘仍存在干扰像素引起的锯齿或者凹凸，因此进一步通过等分抽取手轮廓边缘点进行分段三次样条曲线拟合方法对边缘进行拟合和平滑，处理后的轮廓视觉上更加合理同时也将更加有利于手指的精确定位。

由于分割出的图像边缘的不同部分有不同的曲率，曲率变化频繁的部分，如指尖部位，就需更精细的拟合，所以可以采用对样条曲线曲率阈值进行判定的自适应算法来进一步拟合手图像的边缘。首先计算出相邻的两型值点及其构造的样条曲线段的中值点所确定的圆的曲率半径，并将计算值与对应的边缘分割线上相邻两个等分点及其中点所确定圆的曲率半径进行比较，若差值大于设定的阈值，则对该段三次样条曲线段进行型值点的内插以及三次样条曲线段的重构。边缘分割线上曲率变化越频繁的地方，其所抽取的型值点就越密集，因而选取这样的型值点序列来构三次样条曲线将有利于对边缘分割线的拟合，可以实现优化的自适应选择拟合。

如图7所示，得到手部图像的轮廓后，在步骤S703中进行指尖点检测。本实施例中基于葛立恒扫描法来得到手部轮廓图像的凸包点，并基于以下两种方式中的任何一种来筛选出指尖点：

b、根据手指夹角筛选，相邻的两个凸包点与凹点构成一个夹角，其夹角要小于60度。

在检测出手部的指尖点后需要对得到的指尖点进行标记，以对不同手指的指尖进行区分。步骤S704中完成指尖点标记步骤，按以下两种方式中的任何一种对指尖点进行标记以用于区分每一根手指的点击操作：

d、通过筛选出的指尖点相对掌心的相对位置将其按顺序标记。

最后在步骤S705中完成指尖点击动作的识别，按以下两种方式中的任何一种或者二者的结合进行点击动作的识别：

手指夹角是由两个相邻指尖与二者之间的一个的凹陷点组成的夹角结构，这个夹角位于由手部的指尖点数据、凹陷点数据和掌心点数据建立的一个手型点击的基本数据单元内。计算上述夹角结构的大小，也就是手指方向向量在Y-Z投影平面的夹角大小。通过对希望触发点击事件时，手指动作数据的统计分析，得到上述手指夹角的一个合理的阈值。当检测到这个夹角结构的大小大于阈值时，则判断手指点击动作发生。

同时，当用户的手指点击动作发生在于屏幕垂直的方向上，即Z轴方向上时，还可以通过计算多个连续帧上同一指尖点的运动方差来对手指点击动作进行判断。

以指尖点Z轴方向抖动方差数值的大小变化，作为判断指尖点击的依据。实时保存指尖点的25个深度值，分析指尖点的方差的波动情况，设置合理阈值判断决定指尖点击的发生。方差计算公式为：

S = \frac{Σ_{i = 1}^{n} {(z_{i} - E (z))}^{2}}{n} - - - (2)

其中，n为取样本的个数，z_i表示第i个样本的深度值，E(z)表示n个样本的平均值，S为计算的n个样本的方差。

通过对每个手指100次指尖点击动作的统计，本实施例中，拇指和食指的点击检测率可以到95%左右，中指和无名指的检测准确率大概在90%上下，小拇指的检测准确率能达到90%以上。

同时，通过用户掌心点的深度信息来识别手掌前推手势，其识别方法与Z轴上的手指点击动作识别方法相同，在此不再赘述。本发明中的第二类动作为动态手势动作，用户通过动态手势动作来完成对数字电视的简便、快速的操控，以下将详细介绍图2中步骤S204中所执行的动态手势识别过程。本实施例中，动态手势主要分为方向手势和非方向手势。方向手势包括向上、向下、向左和向右；非方向手势包括“S”、“O”、“E”手势。

根据人对方向操作的习惯，考虑到操作的自然性，本实施例建立了一种手势组合操作机制，对方向手势操作进行了组合。例如用户手势向左再返回视为向左的手势操作，其中这个往返的动作包含两个方向的手势，即先向左再向右。如果一次操作被视为方向手势，则对该手指结果不立即进行输出，而是标记为组合手势识别并保存第一次方向识别的结果。当再一次进行动态手势识别时，如果标记前一次识别为组合手势识别，那么根据第二次手势识别的结果与保存的前一次识别结果组合得到最终的方向手势操作结果；如果第二次手势识别结果为非方向手势，则输出非方向手势的识别结果。

动态手势的组合操作机制如图8所示。

首先在步骤S801中进行有效轨迹提取，提取得到动态手势的有效轨迹。

随后在步骤S802中根据组合方向手势标记判断是否进行组合方向手势识别。如果当前不存在组合方向手势标记，则判定不需要进行组合方向手势识别，并执行步骤S803；如果当前存在组合方向手势标记，则判定需要进行组合方向手势识别，并执行步骤S806。

在步骤S803中对步骤S801中提取到的有效轨迹进行手势识别，并在步骤S804中对识别结果进行判别。如果是方向手势，则执行步骤S805a，保存该方向手势的识别结果，并添加为组合方向手势识别标记，并返回步骤S801；如果不是方向手势，则执行步骤S805b，输出本次动态手势识别的结果，本实施例中，该识别结果可以为“S”、“O”、“E”中的某一个。

当在步骤S802中判定需要进行组合方向手势识别时，在步骤S806中对该手势进行识别，并在步骤S807中判断步骤S806得到的识别结果是否为方向手势。如果是方向手势，则在步骤S808a中将此次识别结果与前次手势识别结果组合，从而得到组合方向手势的识别结果，本实施例中，该结果可以为“上”、“下”、“左”、“右”四种方向手势中的某一个；如果不是方向手势，则表示前次手势识别结果为方向手势，而本次识别结果为非方向手势，无法进行组合，此时执行步骤S808b，不输出识别结果，并将组合方向手势标记强清除。

最后在步骤S809中对最后的动态手势识别结果进行输出。

在对动态手势进行识别前需要先训练获得动态手势模型，本实施例中，动态手势模型使用改进的HMM模型。图9示出了动态手势模型的训练流程，其步骤为：

在步骤S901中，采集坐标数据。在本实施例中，分别采集向上、向下、向左、向右、“S”、“O”、“E”七种定义样式的动态手势样本各30个作为训练样本。同时利用包括上述七种定义手势和一种非定义手势构成的八种动态手势样本各15个作为测试样本。

提取特征值在步骤S902中完成。动态手势的提取特征值是提取一些具有代表性的信息来表征这幅图像。本实施例中使用手势轨迹在不同时刻的切线角度变化作为轨迹特征。动态手势的特征值提取首先需要计算相邻帧内掌心点连线向量的方向角，设在t时刻掌心点坐标为（x_t,y_t），t+1时刻掌心点坐标为(x_t+1,y_t+1)，则有：

θ = \arctan \frac{y_{t + 1} - y_{t}}{x_{t + 1} - x_{t}} - - - (3)

其中，θ表示相邻帧内掌心点连线向量的方向角。

随后对角度进行编码，本实施例中采用12个方向的均匀量化编码，每量化为一个方向，最终提取出动态手势的特征值。

在步骤S903中，训练样本库模型。本实施例中，对每一张轨迹的坐标样本，利用Baum-Welch算法分别训练成HMM模型。

归一化成HMM模型在步骤S904中完成。在步骤904中，对Baum-Welch的结果进行累加，并且归一化为HMM的模型参数，并分别将得到的七个HMM模型存于七个txt文件中，其分别为：left.text，right.text，up.text，down.text，open.text，stop.text，end.text，这七个文件即为HMM的模型样本库。

最后在步骤S905对HMM模型进行改进得到改进的HMM模型。

图10示出了HMM模型样本库的训练流程。

一个完整的HMM模型可以表示为：

λ＝{N,M,π,A,B} (4)

其中，N为模型中Markov链的状态数目，M为每个状态对应的可能出现的观测数目，π表示初始装填的概率适量，A表示状态的转移矩阵，B表示观测值的概率矩阵。本实施例中N取12，表示特征值可以取0到11之间的值，M取5，初始概率π=（1.00.00.00.00.0）。

这六个参数存在一定的联系，在A,B确认后，它们的维度确定，N，M成为已知数，因此，通常HMM模型可以简化为：

λ＝{π,A,B} (5)

\hat{λ} = {\bar{π}, \bar{A}, \bar{B}} - - - (6)

首先在步骤S1001中初始化参数，将矩阵A初始化为一个随机矩阵，初始概率π=（1.00.00.00.00.0）。

随后在步骤S1002中输入采集样本，并在步骤S1003中利用当前样本计算前向概率P(O|λ)。在步骤S1004中利用Baum-Welch算法重估下一样本并在步骤S1005中计算前向概率

在步骤S1006中，比较P(O|λ)与的大小以判断P(O|λ)是否递增。如果P(O|λ)大于则返回步骤S1003；如果P(O|λ)小于则执行步骤S1007。

在步骤S1007中，判断是否为最后一个样本。如果当前是最后一个样本，则

本实施例中共对HMM模型进行了四个方面的改进，得到的HMM模型可以是以下方式中的任何一种或多种的结合：

g、利用统计学规律设置样本轨迹的概率范围，以此来排除无效手势。

首先利用前后向（Forward-Backward）算法分别统计每个手势的概率，然后组成概率组，再根据统计学规律得出每个手势概率的大致范围，其中该范围可以适当放宽。随后修改前后向（Forward-Backward）算法，并利用修改后的前后向算法计算被识别手势的概率，如果被识别手势的概率不在规定的手势概率范围内则被认为是无效手势。最后在设置好有效手势的概率范围后，再输入相应的有效手势和无效手势来检测该范围是否合理。

h、利用动态手势轨迹点的个数范围来排除无效手势

对于一些特定手势，需要利用动态手势轨迹点的个数范围来进行排除。利用动态手势轨迹点的个数范围能够游戏排除与有效手相似的手势，例如利用以上方法，手势轨迹“C”会被识别为手势轨迹“O”，而利用手势轨迹点的个数范围则能够有效地进行识别。

利用动态手势轨迹点的个数范围来排除无效手势，首先需要根据统计学规律，分别统计每个有效手势轨迹点个数的大致范围，随后修改前后向（Forward-Backward）算法，传入手势轨迹点的个数，当手势轨迹点的个数不在有效手势轨迹点的个数范围内的时候就认为是无效手势，最后设置好有效手势轨迹点的个数范围后，再输入相应的有效手势和那些特定的无效手势来检测该轨迹点的个数范围是否合适。

i、利用动态手势编码种数来降低误检率。

对于一些无效手势，需要利用动态手势编码的种数来进一步处理。利用动态手势编码钟来降低误检率首先需要根据统计学规律，统计出各个有效动态手势的编码种数，随后修改前后向（Forward-Backward）算法，传入手势编码种数，当手势编码种数不在有效手势编码种数范围内的时候就认为是无效手势，最后当设置号有效动态手势编码的种数范围后，在输入有效动态手势和相应的与其相似的无效手势来检测该手势编码种数范围的设置是否合适。

j、利用动态手势的第一个编码来降低误检率。

对于一些特定动态手势，需要用到该动态手势的第一个编码来进行排除。本实施例中，利用以上方法动态手势“3”还会被错误地识别为“E”，而利用动态手势的第一个编码则能够有效地进行识别。

利用手势的的第一个编码来降低误检率，首先需要统计出有效动态手势第一个编码的范围，随后修改前后向（Forward-Backward）算法，并传入手势第一个编码的值，当手势第一个编码的值不在有效手势第一个编码值范围内的时候就认为是无效手势。当前后向算法修改好后，再输入有效动态手势与其相似的相应的无效手势来检测该编码的范围是否合适。

图11示出了利用改进的HMM模型识别动态手势的流程图。

在步骤S1101中进行有效手势提取。用户在操作控制框内进行手势轨迹的绘制，然后对该轨迹进行审核，审核结果为有效手势的才进行手势的识别。

如何将用户有意识手势从保存的运动轨迹中分离出来，是进行手势识别的基础，也是难点之一，本发明将运动、静止和转折作为轨迹提取起始、结束的依据。RGB-D设备获取的是控制者的帧图像，其中得到的手点也是一帧一帧进行获取的，判断相邻两帧内手心结点的距离来定义控制手是运动还是静止。动态手势动作的状态判别公式如下所示：

其中，d是相邻两帧中掌心点的距离，其可以由如下公式得到：

d = \sqrt{{(x_{1} - x_{0})}^{2} + {(y_{1} - y_{0})}^{2}} - - - (8)

其中，（x₀,y₀）和（x₁,y₁）分别为两个相邻帧中掌心点的坐标。

将每帧图像都与前一帧获取的掌心点比较，得到当前状态是运动还是停止，如果停止次数达到阈值10次表示用户手处于静止状态。根据对停止和运动的转变，分析得到第三种转折状态点。

对于动态轨迹识别，为了排除用户的误操作，对手势轨迹数量做了限定。通过统计得出用户做每一种手势，轨迹点的数量，然后制定一个范围的阈值，点数在阈值内的轨迹被视为有效手势。

在步骤S1102中对有效手势进行预处理，其中包括手势轨迹的归一化，由此得到大小为400×400的手势轨迹图像。

为了消除手势轨迹大小和形状的影响，需要对图像进行归一化。具体做法是将每种手势的X轴最小值和最大值，Y轴最小值和最大值分别记录下来，然后将相同手势轨迹的图像归一化成相同大小。

例如，所有“O”形手势中的X_min=190，X_max=340，Y_min=150，Y_max=350，本实施例中需要将其归一化成400×400的图像，则“O”形手势轨迹中X₀=X_max-X_min=150，Y₀=Y_max-Y_min=200，那么将“O”中所有轨迹的坐标X，Y都做相应处理：

X_{now} = \frac{(X - 190) \times 400}{150} - - - (9)

Y_{now} = \frac{(Y - 200) \times 400}{200} - - - (10)

所以动态手势图像可以按照如下公式进行归一化处理：

X_{now} = \frac{(X - X_{\min}) \times 400}{X_{0}} - - - (11)

Y_{now} = \frac{({Y - Y}_{\min}) \times 400}{Y_{0}} - - - (12)

其中X_now、Y_now为归一化后的轨迹坐标，X_min表示手势在X轴的最小值，Y_min表示手势在Y轴的最小值，X₀、Y₀为手势最大最小坐标的差值，X、Y为要进行归一化的轨迹坐标。

随后在步骤S1103中对归一化的手势轨迹图像进行特征值提取，该步骤与前述步骤S902相同，在此不作赘述。

在步骤S1104中基于改进的HMM模型来进行动态手势识别。通过将提取出的特征值代入到改进的HMM模型中，计算后向概率，最终得到识别出的动态手势结果。

最后在步骤S1105中输出动态手势的识别结果。

图12示出了基于改进HMM模型进行动态手势识别的流程图，首先在步骤S1201中提取有效手势轨迹，并在步骤S1202中对提取到的有效手势轨迹使用上述方法提取特征值。随后在步骤S1203中将提取出的特征值代入到上述改进的HMM模型中，计算得到后向概率，并在步骤S1204中对计算得到的后向概率进行比较得到最大值，最大值所对应的手势即为需要识别的手势，最后将识别结果在步骤S1205中进行输出。

按照本实施例中的方法对动态手势进行识别，分别识别三个人的动态手势，每个人分别按照七种定义手势轨迹和一种非定义手势轨迹进行手掌移动，每种手势先后识别15次。图13示出了本实施例中基于HMM模型和改进的HMM模型的上述八种动态手势的识别率。

本发明的目的是使用户能够对数字设备进行操控，表1示出了本实施例中用户的手势动作与其对应的识别结果的对应关系，图14示出了本实施例中用户手势动作的识别结构与实际电视操控的对应关系。

如图14所示，本实施例中用户对数字电视的体感操作的识别结果主要有九种，包括：“左”、“右”、“上”、“下”、“S”、“D”、“E”、“Click”、“Victory”。其中“S”手势用于返回主界面，在主界面内会显示导航菜单；“O”手势用于实现现有遥控器中的确认键功能；“E”手势用于返回当前播放，用于实现现有遥控器中的返回键功能。方向手势“左”、“右”、“上”、“下”和“Click”手势根据数字电视的当前播放状态而实现不同的功能，当数字电视处于点播状态时，四种方向手势分别对应快退、快进、增加音量、减小音量的功能，“Click”手势对应暂停当前播放功能；当数字电视处于直播状态时，四种方向手势分别对应向前切换频道、向后切换频道、增加音量、减小音量的功能，“Click”手势对应静音功能。

通过这种对应关系，可以直观地看出用户的操控动作所能达成的对数字电视的操控效果。

表1

手势动作	识别结果
		向左挥手	左
向右挥手	右
		向上挥手	上
向下挥手	下
		手画“S”形	S
手画“O”形	O
		手画“E”形	E
双手指“V”手势	Victory
		手掌向前推	Click
手指点击	键盘操作

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于体感识别的数字设备操控方法，其特征在于，所述方法包括以下步骤：

用户权限管理步骤，当检测到有用户发出的获取控制权限的请求时，在数字设备的显示区域内显示与所述用户对应的操作控制框，并基于权限管理机制来给该用户分配针对数字设备的控制权限；

控制步骤，基于识别的结果按照预先设定的动作与数字设备操作之间的对应关系来实现对数字设备的控制。

2.如权利要求1所述的方法，其特征在于，在所述用户权限管理步骤中，用户发出的获取控制权限的请求为挥手姿势，当对应于用户的操作手在所述操作控制框上停顿一预定的时间后，给该用户分配控制权限，而当对应于用户的操作手离开所述操作控制框另一预定的时间后，收回给该用户分配的控制权限。

3.如权利要求2所述的方法，其特征在于，所述控制权限在同一时间里只能分配给一个用户。

4.如权利要求1所述的方法，其特征在于，在数字设备的显示区域内还分配了显示监控视频界面的区域，所述监控视频界面用于实时显示用户信息以及与所述操作控制框的交互动态。

5.如权利要求1-4中任一项所述的方法，其特征在于，在所述用户动作识别步骤中，当用户发出的动作达到静态动作识别的时间阈值后，采集用户的动作数据，对发出具体动作的部位的图像进行分割定位，对定位得到的图像基于特征提取和预先建立的静态动作模型进行识别。

6.如权利要求5所述的方法，其特征在于，发出具体动作的部位为手部，预先建立的静态动作模型为手势模型，所述手势模型是通过采用Adaboost学习算法对获取的样本库进行分类训练而得到的。

7.如权利要求1-6中任一项所述的方法，其特征在于，在所述用户动作识别步骤中，所述第一类动作为手指点击动作，并按照以下步骤识别所述手指点击动作：

手掌轮廓提取步骤，对所述二值图像进行轮廓搜寻并基于手掌阈值确定得到手掌轮廓图像，对所述手掌轮廓图像进行边缘拟合平滑处理，

指尖点检测步骤，基于葛立恒扫描法来得到所述轮廓图像的凸包点，并基于以下两种方式中的任何一种来筛选出指尖点：

8.如权利要求1-6中任一项所述的方法，其特征在于，在所述用户动作识别步骤中，所述第二类动作为动态手势动作，并按照以下步骤识别所述动态手势动作：

有效动态手势提取步骤，以动态手势的运动、静止和转折作为动态手势轨迹提取起始和结束的依据，根据动态手势轨迹点数量阈值提取有效动态手势，并对所述有效动态手势进行归一化处理；

动态手势特征值提取步骤，利用归一化后的所述动态手势在相邻帧内的掌心点构造向量，并对所述向量的方向角进行方向量化编码，以所述编码作为所述动态手势的特征值；

动态手势识别步骤，基于所述动态手势特征值与预先建立的动态手势模型进行动态手势识别。

9.如权利要求8所述的方法，其特征在于，所述方向量化编码为12个方向均匀量化编码，每量化为一个方向。

10.如权利要求8所述的方法，其特征在于，所述动态手势模型是改进的HMM模型，其能够排除HMM模型无法排除的无效手势，所述改进的HMM模型是按以下方式中的任何一种或多种的结合进行改进的：

g、设置样本轨迹的概率范围；

h、设置动态手势轨迹点的个数范围；

i、设置动态手势方向量化编码的种数；

j、设置动态手势第一个编码的编码范围。