CN103098076B

CN103098076B - 电视机控制用手势识别系统

Info

Publication number: CN103098076B
Application number: CN201180043241.9A
Authority: CN
Inventors: 黄光满; 刘明昌; 余良吟
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-09-17
Filing date: 2011-07-26
Publication date: 2016-06-22
Anticipated expiration: 2031-07-26
Also published as: CN103098076A; US20120069168A1; EP2601615A4; US9213890B2; KR20130043222A; EP2601615B1; WO2012036790A1; EP2601615A1

Abstract

一种利用与运动信息结合的基于肤色的方法，实现实时分割的手势识别系统。利用Kalman滤波器跟踪手部的质心。计算提取的手部掩膜的手掌中心，手掌底部，以及从手掌中心到轮廓的最大距离。随后比较计算的距离和阈值，以确定当前姿势是“张开”还是“握紧”。在优选实施例中，“张开”姿势和“握紧”姿势之间的转变确定当前手势是处于“选择”状态还是“抓取”状态。

Description

电视机控制用手势识别系统

相关申请的交叉引用

本申请要求2010年9月17日提交的美国专利申请12/885072的优先权，通过引用将其全部内容并入于此。

受版权保护的素材公告

技术领域

本发明涉及手势识别，更具体地说，涉及遥控用手势识别。

背景技术

手势识别是一种新兴技术，它能够提供更直接的人机交互方法。手势识别与空间和时间信息有关，可用于为未来的应用替代传统的控制设备。已尝试了手势识别系统，例如，美国专利No.5,534,917。不过，这些系统通常涉及计算密集的复杂分析和/或需要昂贵的硬件。

因而，本发明的目的是一种能够从典型的HD照相机获得输入，和利用一组简单的手势使计算力降至最低的手势识别系统。在下面的说明中，将满足这些目标中的至少一些目标。

发明内容

本发明包含处理作为输入的运动手部的视频，并输出每个图像中的当前手势状态和手部位置的系统和方法。在每个图像中，从背景中分割手部区域，并根据一个或多个参数，将其分类为“张开的手部”或“握紧的手部”。系统结合肤色模型和运动中的一个或多个，以获得实时手部分割性能。典型的应用包括(但不限于)用于基本电视机控制，电视机上的照片和web浏览，和计算机的手势识别。

本发明在仅仅利用单个HD照相机的同时，以较低的计算复杂性，实现用于电视机控制的实时并且用户友好的手势识别系统。

系统利用小型传感器进行手势识别，可利用简单手势，在3米以上的距离控制电视机、计算机或其它设备。组合肤色模型和运动，以便从背景中分离手部区域

操作中，提取几个参数，比如手部大小，手掌中心和手部底部。这些参数被用于把当前手势分成“张开的手部”或“握紧的手部”。系统随后利用不同手势状态之间的转变来控制设备。有益的是，所述方法只利用单个HD照相机获得作为输入的视频序列，同时能够以较低的计算复杂性获得实时性能。

本发明的系统和方法不需要任何昂贵和特殊的传感器。通过利用肤色模型和运动，所述系统能够在没有深度图的情况下，从背景中分割手部区域。本发明的手势组用户友好（易于记住），足以覆盖电视机控制的基本功能。

本发明实用地实现电视机的手势控制，使实时电视机特征成为可能。另外，就本发明的系统来说，不需要使用两部照相机或者一部3D照相机。

在说明书的以下各个部分中，将阐明本发明的其它各个方面，其中，详细说明用于充分公开本发明的优选实施例，而不是对本发明加以限制。

附图说明

参考仅仅用于举例说明的以下附图，可更充分地理解本发明：

图1是按照本发明的手势识别系统的示意图。

图2是图解说明图1的手势识别模块的组件概况的示意图。

图3是按照本发明的分割模块的示意图。

图4是按照本发明，应用于图像的用于前景/背景分离的限界框的例示。

图5A-5E图解说明按照本发明，关于不同手势的成功手部分割结果的图像。

图6A-E图解说明非最佳手部分割的图像。

图7图解说明按照本发明的分割图像帧的二元手部掩膜和计算的参数。

图8图解说明为了得出中心-轮廓距离而评估的图7的掩膜。

图9图解说明按照本发明的用于电视机控制的例证手势组。

图10图解说明按照本发明，可用于特定操作的序列手势组。

图11表示应用于图像的手部限界框的相邻限界框。

图12表示根据分割模型的结果，转换成指示符矩阵的手部图像。

图13图解说明遮挡发生的图像和相应的分割模型。

图14图解说明遮挡发生的另一个图像和相应的分割模型。

图15图解说明脱离遮挡的手部的图像和分割模型。

具体实施方式

更具体地参考附图，出于举例说明的目的，下面用图1-图15中所示的设备具体体现本发明。要理解设备可在结构方面，以及在各个部分的细节方面发生变化，并且方法可在具体步骤和顺序方面发生变化，而不脱离这里公开的基本原理。

图1图解说明本发明的手势识别系统10的示意图。系统10包括传感器12(例如，HD格式照相机等)，其输出耦接到接收传感器输入并运行手势识别软件模块18的处理器14。手势识别模块18分析来自传感器12的输入，并提供发送给设备控制应用程序或者用户界面软件16的命令或操作，所述设备控制应用程序或者用户界面软件16可用于控制音量、频道、节目或者设备的其它特征。要理解设备控制应用程序16可被配置成控制电视机、机顶盒、计算机或者其它组件。

图2关于系统10的操作，图解说明手势识别模块18的基本组件。手势识别模块18一般包含3个阶段。在第一阶段中，在分割模块20和跟踪模块22处理来自设备12的输入或拍摄的图像，从而从背景中分割手部区域，以便跟踪。

在第二阶段中，系统10执行特征提取模块24，以便从检测的手部区域中提取必要的特征。

在第三阶段中，通过把提取的特征输入用于姿势/手势识别26的分类器，系统10执行手势识别模块18。手势识别模块18的结果随后被输出给特定的应用程序16，以便控制设备。

阶段1：手部分割

图像分割一般包括向图像中的像素分配标记，以致具有相同标记的像素共有某些视觉特性。本发明的系统10最好利用基于肤色的方法。这种方法以在每个单独的图像内，肤色始终如一(例如，数值不存在重大变化)的假定为基础。这种结构把色度分量和亮度分量分开，以降低对光变化的敏感性。这种方法为低计算复杂性和实时性能创造条件。在优选结构中，来自设备12的输入图像为YCbCr444平面颜色格式。

如图3中图解所示，分割模块20一般包含3个步骤：包含前景/背景分离的第一步骤30，包含模型训练的第二步骤32，和包含像素分类的第三步骤34。

图4图解说明检测手部44位置和大小的前景/背景分离步骤30。在检测到手部44之后，输出手部限界框48。最好利用触发模块(未示出)触发本发明的系统10启动(例如，通过用户举起手部44)。限界框48围绕前景区域40，把背景区42定义为被包围在外框或者搜索区46中的周围图像。这里，搜索区长度被表示成3倍于限界框48的长度L，以覆盖手部44的运动。不过，可以理解其它比率也是适用的。

在模型训练步骤32中，最好利用K-均值聚类（clustering）训练在手部限界框48内的图像40的3-分量高斯混合模型(最好只使用Cb，Cr颜色通道)。K-均值聚类还用于训练在背景区域42内的图像的3-分量高斯混合模型(只使用Cb，Cr颜色通道)。尽管可以使用其它方法(例如，基于直方图的方法)，不过优选K-均值算法，因为其它方法通常较慢，并且更加计算密集。

K-均值算法是用于把图像分成K个聚类的迭代技术。K-均值算法通常包括1)随机地或者根据某种试探，挑选K个聚类中心，2)把图像中的每个像素分配给使该像素和聚类中心之间的距离最小化的聚类，3)通过求聚类中的所有像素的平均值，重新计算聚类中心，和4)重复步骤2和3，直到达到收敛为止(例如，没有像素改变聚类)。通常，所述距离是像素和聚类中心之间的平方差或者绝对值差。所述差值可以基于像素颜色、亮度、纹理和位置，或者这些因素的加权组合。

本发明的系统10最好利用基于肤色的方法。这种方法以在每个单独的图像内，肤色始终如一(例如，数值不存在重大变化)的假定为基础。这种结构对光变化敏感，可通过把色度分量和亮度分量分开，加以改善。这种方法为低计算复杂性和实时性能创造条件。在优选结构中，来自设备12的输入图像为YCbCr444平面颜色格式。

为了修正前景40颜色模型，除去不在一般皮肤模型的范围(77≤Cb≤127，133≤Cr≤173)内的所有分量。

如果3个分量都在(或者都不在)皮肤模型范围之内，那么我们根据前景高斯模型，确定最接近任意背景分量的分量，随后除去该分量。剩余的分量随后被用于表示前景区域40。

最好利用GMM和Bayesian决策规则，进行像素分类步骤34。对于每个当前的手部图像，我们利用前一个图像的相同部分作为基准。满足以下标准(关于运动的等式1和2，和关于肤色的等式3)任意之一的像素被视为手部像素(否则，像素被分类为背景像素)（以下公式中，hand表示手，background表示背景）：

1.运动和肤色:

|Cb(x,y)-Cb_ref(x,y)|>5或|Cr(x,y)-Cr_ref(x,y)|>5等式1

和

2*P_hand×P(c|hand)>(1-P_hand)×P(c|background)等式2

2.肤色：

P_hand×P(c|hand)>(1-P_hand)×P(c|background)等式3

像素分类步骤34随后最好继之以形态学膨胀和侵蚀算子，以修正获得的二元手部掩膜。

如下利用等式4、5和6，计算像素分类步骤34中的概率：

P (c | hand) = Σ_{k = 1}^{K} p_{k} g_{hand} (c; μ_{k}, σ_{k})

等式4

其中P_hand是先前的手部区域与背景区域42之比，P(c|hand)是像素c属于前景(手部)区域40的概率，g_hand是像素c属于前景高斯混合模型的第k个分量的概率，p_k是第k个分量的先验概率(在模型训练步骤32中训练p_k，均值μ_k和协方差矩阵σ_k)。

P (c | background) = Σ_{k = 1}^{K} p_{k} g_{background} (c; μ_{k}, σ_{k})

等式5

其中P(c|background)是像素c属于背景区域的概率，g_background是像素c属于背景高斯混合模型的第k个分量的概率，p_k是第k个分量的先验概率(在模型训练步骤32中训练p_k，均值μ_k和协方差矩阵σ_k)。

利用等式6，计算像素c属于GMM分量的概率：

g (c; μ_{k}, σ_{k}) = \frac{1}{{(\sqrt{2 π} σ_{k})}^{2}} e^{- \frac{1}{2} {(\frac{| | c - μ_{k} | |}{σ_{k}})}^{2}}

等式6

图5A-5E图解说明按照本发明，关于不同手势的成功手部分割结果。对应地，图6A-E中的图像图解说明非最佳的手部分割，其中某些手势的图像具有局部特征，缺少的，不正确的和/或不连续的解剖体，如包围的区域中所示。

跟踪步骤22跟踪作为观察点的分割图像的手掌中心。利用下面详细说明的基于图像的方法，获得手掌中心。

跟踪步骤把Kalman滤波器用于下一帧的实际手部位置和速度的预测和计算(根据对当前帧的观察)。

等式7和8中表示了利用较少计算的例证Kalman滤波器：

X_k=F_kX_k-1+B_kU_k+W_k等式7

其中F_k是应用于前一个状态X_k-1的状态转变模型，B_k是应用于控制向量U_K的控制输入模型，W_k是假定从具有协方差Q_k的零均值多元正态分布得到的处理噪声。

Z_k=H_kX_k+V_k,V_k～N(o,R_k)等式8

其中H_k是把真实状态空间映射到观察空间的观察模型，V_k是被假定为具有协方差R_k的零均值高斯白噪声的观察噪声。

随后输出每个图像中的手部位置(例如，手掌中心的2D位置)，并保存为输出结构的一部分。

阶段2：特征提取

图7-8图解说明特征提取模块24的第二阶段的操作。

图7图解说明每个分割的图像帧的二元手部掩膜60。手部掩膜60包括根据原始掩膜和侵蚀掩膜(未示出)之间的差异产生的提取轮廓62，和骨架64。侵蚀掩膜是利用现有技术中一般可用的侵蚀算法获得的，所述侵蚀算法使原始掩膜细化（thin）一个像素。根据把从轮廓62获得的二元形状转换成1像素宽的线条的形态学细化算法，生成骨架64。所述方法可包含本领域中通常已知的任何细化算法，不过通常涉及反复删除轮廓形状62内的像素，以在不缩短轮廓形状62或者分裂轮廓形状62的情况下，收缩轮廓形状62。

随后相对于骨架64分析提取的轮廓62，从而获得手掌中心C_p，手掌中心C_p被定义和计算为骨架64上，距手部轮廓的距离为最大距离r的点。

随后手掌底部B_p被计算为骨架64上，距离手掌中心C_p(在手掌中心C_p下面)r个像素的点。

在对于每个手部掩膜60确定了手掌中心C_p和手掌底部B_p点之后，方向向量V_B被计算为通过手掌中心C_p和手掌底部B_p这两个点的线条。

随后计算在方向向量V_B的±60°范围内，具有距手掌中心C_p(或者作为替换方案，手掌底部B_p)的最大距离D的轮廓点66(通常是中指指尖)。根据平均解剖学，通常使用±60°的范围。不过，可以相应地改变该范围。

阶段3：手势识别

对于手势识别模块26，通过比较距离D和阈值T，随后把每个手部图像分类成“张开”或“握紧”。阈值T是借助校准步骤获得的，在校准步骤中，分割前5个“张开的手部”图像，获得距离D和手掌半径r的值。随后利用平均值AVE(D+1.5r)/2，计算阈值。

在每个视频中，具有5帧大小的滑动窗口将识别“张开的”或者“握紧的”手势。

“张开”：如果在最近5帧内，存在3个或者更多的张开姿势，那么认为当前姿势是“张开”。

“握紧”：如果在最近5帧内，存在3个或者更多的握紧姿势，那么认为当前姿势是“握紧”。

图9图解说明本发明的手势识别模块26的某些关键功能。“张开”姿势和“握紧”姿势之间的转变可用于指示何时触发了手势“选择”或者“抓取”。

例如，为了触发手势识别系统初始化，可在传感器12的视场内的区域中举起手部44，并以张开手部姿势保持1-2秒，如步骤70中所示。

一旦系统被初始化，在步骤72，就可通过跟踪自由手部运动(例如，手掌中心)，把张开的手部用于控制光标(在操作的电视机或设备(例如，机顶盒等)的监视器屏幕上，光标是可见的)。

通过利用手势与不同定时的组合，可以执行特殊的命令，例如，抓取/附着操作74或者选择/检查操作76。图10图解说明可用于抓取/附着操作74或者选择/检查操作76的序列。第一步骤90包括张开手部手势44，该手势可把光标指引到期望的位置(例如，用户界面屏幕上的位置)，以便进行检查或选择。借助握紧拳头姿势80，手指向前手势82或者手指捏紧手势84，可以启动第二步骤92，以选择或检查期望的特征。一旦已选择，第三步骤94中的张开手掌姿势44恢复光标的自由移动。

类似地进行抓取/附着操作74，不过，用户应该保持步骤2中的手势80、82或84之一，等待物品附着上。

现在参考图11-15，本发明的系统10最好包括手部-面部遮挡程序，以处理当手部44越过或者非常接近面部102时的情况。

遮挡情况通常受以下假定限制：1)手部具有远远大于面部的运动，2)不存在靠近面部的任何其它的肤色团块，在遮挡期间，不存在手势的变化，3)在遮挡期间，手部在y方向没有任何较大的运动。

如图11中所示，对于每个当前的手部限界框48，通过利用两个矩形94和96，生成在框48的左右两侧的相邻区域。每个矩形94和96高度为1.5L，宽度为L，其中L是限界框48长度。框48、94和96的底部被对齐，以致左右相邻框94和96延伸高过框481/2L。

相邻区域94，96中的所有像素被分类为皮肤像素或非皮肤像素(通过利用先前训练的高斯混合模型)。随后计数每个正方形区域中的皮肤像素的数目。如果所述数目大于阈值(例如，在校准步骤中计算的张开的手部的2/3)，那么该正方形被认为包含会导致遮挡的对象。

如图12中所示，根据分割模型104的结果，每个手部图像100被转换成指示符矩阵106。包含对象的框被赋值“1”，否则被赋值“0”。如图12中所示，左侧的相邻框94不满足阈值皮肤像素，从而被赋值“0”，而手部限界框48和右侧相邻框96满足阈值像素计数，从而被赋值“1”。

之后，计算并记录对象C_O的质心。检测每对相邻的指示符矩阵(沿着时间轴)。具有1→0的转变的任何位置指示以下之一：1)附近的对象(面部102)合并于手部44，或者2)手部44正在离开对象(例如，面部102)。

测量手部的当前位置与先前记录的对象质心C_O的距离，以确定手部44是正在接触该对象，还是正在远离该对象(例如，如果所述距离小于指定百分率(例如，60-75%)的限界框长度L，那么发生遮挡)。

图13图解说明遮挡发生的图像112和相应的分割模型114。如果发生遮挡，那么定义接近于当前质心C_c的位置的备用区域110(具有与质心相同的y)。备用区域110的大小与手部限界框48相同，例如长度L。

图14图解说明遮挡发生的另一个图像116，和相应的分割模型118。在该遮挡期间，整个二元掩膜120(手部44加面部102)的质心C_c被用作预测位置。

图15图解说明脱离遮挡(例如，在备用区域110中检测到对象)的手部44的图像122和分割模型124。对象的质心C_c随后被用作当前手部位置，并重新开始运动跟踪。

总之，本发明的系统10和方法应用与运动信息结合的基于肤色的方法来实现实时分割。利用Kalman滤波器跟踪手部的质心。计算提取的手部掩膜的手掌中心，手掌底部，以及从手掌中心到轮廓的最大距离。随后比较计算的距离和阈值，以确定当前姿势是“张开”还是“握紧”。在优选实施例中，“张开”姿势和“握紧”姿势之间的转变确定当前手势是处于“选择”状态还是“抓取”状态。

参考按照本发明的实施例的方法和系统的流程图，说明了本发明的实施例。这些方法和系统也可被实现成计算机程序产品。在这点上，流程图的每个方框或步骤，和流程图中的各个方框(和/或各个步骤)的组合可用各种装置，比如硬件、固件和/或包括用计算机可读程序代码逻辑具体体现的一个或多个计算机程序指令的软件实现。可以理解，任何这样的计算机程序指令可被加载到计算机，包括(但不限于)通用计算机或专用计算机，或者其它可编程处理设备，从而产生机器，以致在计算机或其它可编程处理设备上执行的计算机程序指令产生实现在一个或多个流程图的一个或多个方框中指定的功能的装置。

因而，流程图的方框支持完成指定功能的装置的组合，实现指定功能的步骤的组合，和实现指定功能的计算机程序指令，比如用计算机可读程序代码逻辑装置具体体现的计算机程序指令。另外显然流程图的每个方框，和流程图中的各个方框的组合可用完成指定功能或步骤的基于专用硬件的计算机系统，或者专用硬件和计算机可读程序代码逻辑装置的组合实现。

此外，这些计算机程序指令，比如用计算机可读程序代码逻辑具体体现的计算机程序指令也可被保存在计算机可读存储器中，所述计算机程序指令可指令计算机或其它可编程处理设备按照特定方式工作，以致保存在计算机可读存储器中的指令产生制品，所述制品包括实现在一个或多个流程图的一个或多个方框中指定的功能的指令装置。计算机程序指令也可被加载到计算机或者其它可编程处理设备上，使得在计算机或其它可编程处理设备上执行一系列的操作步骤，从而产生计算机实现的处理，以致在计算机或其它可编程处理设备上执行的指令提供实现在一个或多个流程图的一个或多个方框中指定的功能的步骤。

于是可以看出，本发明包括以下发明实施例：

1.一种用于遥控设备的手势识别系统，包括：在所述设备附近的位置，捕捉用户的手部的视频数据的传感器；处理捕捉的所述手部的视频数据的处理器；可在所述处理器上运行，以执行以下步骤的程序：根据肤色，分割捕捉的视频中的每个手部图像；提取分割的手部图像的一个或多个参数；跟踪手部图像中的一个或多个参数中的至少一个参数；根据所述一个或多个参数，把手势分类成“张开”或“握紧”；和根据所述手势的识别和所述一个或多个参数的跟踪，操纵所述设备。

2、如在实施例1中所述的系统，其中分割每个手部图像包括：把与所述手部相关的前景区域和围绕所述前景区域的背景区域分开；训练背景区域和前景区域的3分量混合模型；和根据运动和肤色中的一个或多个，对图像像素分类。

3、如在实施例1中所述的系统，其中只利用Cb和Cr颜色通道，分割图像。

4、如在实施例1中所述的系统，其中提取一个或多个参数包括：根据提取的手部的轮廓和骨架，获得用户的手部的手掌中心位置。

5、如在实施例4中所述的系统，其中跟踪一个或多个参数包括利用Kalman滤波器，跟踪手掌中心位置。

6、如在实施例4中所述的系统，其中提取一个或多个参数还包括：获得手掌底部位置；和测量手掌中心位置与提取的图像轮廓上的最远轮廓点之间的距离；所述最远轮廓点在通过手掌底部位置和手掌中心位置的向量的预定角度范围内。

7、如在实施例6中所述的系统，其中把手势分类成“张开”或“握紧”包括：比较到最远轮廓点的距离和阈值；如果到最远轮廓点的距离超出阈值，那么把图像分类成“张开”；如果到最远轮廓点的距离低于阈值，那么把图像分类成“握紧”。

8、如在实施例1中所述的系统，其中设备包含与显示器耦接的用户界面，所述用户界面是在所述显示器上输出的；其中操纵所述设备包括根据所述手势的识别，和所述一个或多个参数的跟踪，向用户界面发送命令。

9、如在实施例8中所述的系统，其中“张开”手势和“握紧”手势之间的转变被用于确定“选择”或“抓取”命令是否被发送给用户界面。

10、如在实施例9中所述的系统，其中张开手势的跟踪被用于确定光标在用户界面上的位置。

11、一种用于遥控设备的手势识别系统，所述设备具有在显示器上显现的用户界面，所述系统包括：在所述设备附近的位置，捕捉用户的手部的视频数据的传感器；处理捕捉的所述手部的视频数据的处理器；可在所述处理器上运行，以执行以下步骤的程序：根据肤色，分割捕捉的视频中的每个手部图像；提取分割的手部图像的一个或多个参数；跟踪手部图像中的所述一个或多个参数；根据所述一个或多个参数，把手势分类成“张开”或“握紧”；和根据所述手势的识别和所述一个或多个参数的跟踪，操纵所述设备；其中操纵所述设备包括根据所述手势的识别，和跟踪所述一个或多个参数的位置，向用户界面发送命令。

12、如在实施例11中所述的系统，其中分割每个手部图像包括：把与所述手部相关的前景区域和围绕所述前景区域的背景区域分开；训练背景区域和前景区域的只包含Cb和Cr颜色通道的3分量混合模型；和根据运动和肤色中的一个或多个，对图像像素分类。

13、如在实施例11中所述的系统，其中提取一个或多个参数包括：根据提取的手部的轮廓和骨架，获得用户的手部的手掌中心位置；根据手掌中心位置，获得手部的手掌底部位置；和测量手掌中心位置与提取的图像轮廓上的最远轮廓点之间的距离；所述最远轮廓点在通过手掌底部位置和手掌中心位置的向量的一定角度范围内。

14、如在实施例13中所述的系统，其中跟踪所述一个或多个参数包括利用Kalman滤波器，跟踪手掌中心位置。

15、如在实施例13中所述的系统，其中把手势分类成“张开”或“握紧”包括：比较到最远轮廓点的距离和阈值；如果到最远轮廓点的距离超出阈值，那么把图像分类成“张开”；如果到最远轮廓点的距离低于阈值，那么把图像分类成“握紧”。

16、如在实施例15中所述的系统，其中“张开”手势和“握紧”手势之间的转变被用于确定“选择”或“抓取”命令是否被发送给用户界面。

17、如在实施例16中所述的系统，其中张开手势的跟踪被用于确定光标在用户界面上的位置。

18、一种利用手势，遥控设备的方法，所述设备具有在显示器上显现的用户界面，所述方法包括：用在所述设备附近位置的传感器，捕捉用户的手部的视频；根据肤色，分割捕捉的视频中的每个手部图像；提取分割的手部图像的一个或多个参数；跟踪手部图像中的所述一个或多个参数中的至少一个参数；根据所述一个或多个参数，把手势分类成“张开”或“握紧”；根据所述手势的识别和所述一个或多个参数的跟踪，操纵所述设备；根据所述手势的识别，和所述一个或多个参数的跟踪，向用户界面发送命令；和在显示器上输出发送的命令，以便操纵所述设备。

19、如在实施例18中所述的方法，其中提取一个或多个参数包括：根据提取的手部的轮廓和骨架，获得用户的手部的手掌中心位置；根据手掌中心位置，获得手部的手掌底部位置；和测量手掌中心位置与提取的图像轮廓上的最远轮廓点之间的距离；所述最远轮廓点在通过手掌底部位置和手掌中心位置的向量的一定角度范围内，其中把手势分类成“张开”或“握紧”包括：比较到最远轮廓点的距离和阈值；如果到最远轮廓点的距离超出阈值，那么把图像分类成“张开”；如果到最远轮廓点的距离低于阈值，那么把图像分类成“握紧”。

20、如在实施例19中所述的方法，其中“张开”手势和“握紧”手势之间的转变被用于确定“选择”或“抓取”命令是否被发送给用户界面；其中张开手势的手掌中心的跟踪被用于确定光标在用户界面上的位置。

虽然上面的说明包含许多细节，不过这些细节不应被理解为限制本发明的范围，而应被理解为仅仅提供本发明的一些目前优选的实施例的例示。于是，要理解本发明的范围完全包含对本领域的技术人员来说显而易见的其它实施例，本发明的范围因而仅仅由附加的权利要求限定，其中除非另有说明，否则对元件的单数引用并不意味“有且仅有一个”，而是“一个或多个”。本领域的普通技术人员已知的上述优选实施例的元件的所有结构、化学或功能等同物引用地明确包含于其中，被权利要求所覆盖。此外，设备或方法不必解决试图由本发明解决的每一个问题，因为它将被权利要求所覆盖。此外，本公开中的元件、组件或方法步骤都不意图贡献给公众，与是否在权利要求中明确地记载了所述元件、组件或方法步骤无关。不应按照35U.S.C.112，第6段的规定解释权利要求的任何要素，除非该要素是利用短语“用于……的装置”明确记载的。

Claims

1.一种用于遥控设备的手势识别系统，包括：

(a)在所述设备附近的位置处，捕捉用户的手部的视频数据的传感器；

(b)处理捕捉的所述手部的视频数据的处理器；以及

(c)能够在所述处理器上运行以执行多个步骤的程序，所述多个步骤包括：

根据肤色，分割捕捉的视频中的每个手部图像；

提取分割的手部图像的一个或多个参数；

跟踪手部图像中的所述一个或多个参数；

根据所述一个或多个参数，把手势分类成“张开”或“握紧”；和

根据所述手势的识别和对所述一个或多个参数的位置的跟踪，操纵所述设备，

其中提取一个或多个参数包括：

根据提取的手部的轮廓和骨架，获得用户的手部的手掌中心位置；和

根据手掌中心位置，获得手部的手掌底部位置。

2.按照权利要求1所述的系统，其中分割每个手部图像包括：

把与所述手部相关的前景区域和围绕所述前景区域的背景区域分开；

训练背景区域和前景区域的3分量混合模型；和

根据运动和肤色中的一个或多个，对图像像素分类。

3.按照权利要求1所述的系统，其中只利用Cb和Cr颜色通道分割图像。

4.按照权利要求1所述的系统，其中跟踪一个或多个参数包括利用Kalman滤波器，跟踪手掌中心位置。

5.按照权利要求1所述的系统，其中提取一个或多个参数还包括：

测量手掌中心位置与提取的图像轮廓上的最远轮廓点之间的距离；和

所述最远轮廓点在通过手掌底部位置和手掌中心位置的矢量的预定角度范围内。

6.按照权利要求5所述的系统，其中把手势分类成“张开”或“握紧”包括：

比较到最远轮廓点的距离和阈值；

如果到最远轮廓点的距离超过所述阈值，那么把图像分类成“张开”；以及

如果到最远轮廓点的距离低于所述阈值，那么把图像分类成“握紧”。

7.按照权利要求1所述的系统，

其中所述设备包含与显示器耦接的用户界面，所述用户界面是在所述显示器上输出的；以及

其中操纵所述设备包括根据所述手势的识别和所述一个或多个参数的跟踪，向用户界面发送命令。

8.按照权利要求7所述的系统，其中“张开”手势和“握紧”手势之间的转变被用于确定“选择”或“抓取”命令是否被发送给用户界面。

9.按照权利要求8所述的系统，其中张开手势的跟踪被用于确定光标在用户界面上的位置。

10.一种用于遥控设备的手势识别系统，所述设备具有在显示器上显现的用户界面，所述手势识别系统包括：

(a)在所述设备附近的位置，捕捉用户的手部的视频数据的传感器；

(b)处理捕捉的所述手部的视频数据的处理器；

根据肤色，分割捕捉的视频中的每个手部图像；

提取分割的手部图像的一个或多个参数；

跟踪手部图像中的所述一个或多个参数；

根据所述手势的识别和所述一个或多个参数的跟踪，操纵所述设备；

其中操纵所述设备包括根据所述手势的识别和对所述一个或多个参数的位置的跟踪，向用户界面发送命令，

其中提取一个或多个参数包括：

根据手掌中心位置，获得手部的手掌底部位置。

11.按照权利要求10所述的系统，其中分割每个手部图像包括：

训练背景区域和前景区域的只包含Cb和Cr颜色通道的3分量混合模型；和

根据运动和肤色中的一个或多个，对图像像素分类。

12.按照权利要求10所述的系统，其中提取一个或多个参数还包括：

所述最远轮廓点在通过手掌底部位置和手掌中心位置的矢量的一定角度范围内。

13.按照权利要求12所述的系统，其中跟踪所述一个或多个参数包括利用Kalman滤波器跟踪手掌中心位置。

14.按照权利要求12中所述的系统，其中把手势分类成“张开”或“握紧”包括：

比较到最远轮廓点的距离和阈值；

15.按照权利要求14所述的系统，其中“张开”手势和“握紧”手势之间的转变被用于确定“选择”或“抓取”命令是否被发送给用户界面。

16.按照权利要求15所述的系统，其中张开手势的跟踪被用于确定光标在用户界面上的位置。

17.一种利用手势遥控设备的方法，所述设备具有在显示器上显现的用户界面，所述方法包括：

用在所述设备附近位置的传感器，捕捉用户的手部的视频；

根据肤色，分割捕捉的视频中的每个手部图像；

提取分割的手部图像的一个或多个参数；

跟踪手部图像中的所述一个或多个参数中的至少一个参数；

根据所述一个或多个参数，把手势分类成“张开”或“握紧”；

根据所述手势的识别和所述一个或多个参数的跟踪，向用户界面发送命令；和

在显示器上输出发送的命令，以便操纵所述设备，

其中提取一个或多个参数包括：

根据手掌中心位置，获得手部的手掌底部位置。

18.按照权利要求17所述的方法，

其中提取一个或多个参数还包括：

测量手掌中心位置与提取的图像轮廓上的最远轮廓点之间的距离；

所述最远轮廓点在通过手掌底部位置和手掌中心位置的矢量的一定角度范围内，其中把手势分类成“张开”或“握紧”包括：

比较到最远轮廓点的距离和阈值；

19.按照权利要求18所述的方法，其中“张开”手势和“握紧”手势之间的转变被用于确定“选择”或“抓取”命令是否被发送给用户界面；以及

其中对张开手势的手掌中心的跟踪被用于确定光标在用户界面上的位置。