CN103926999A

CN103926999A - 手掌开合手势识别方法和装置、人机交互方法和设备

Info

Publication number: CN103926999A
Application number: CN201310016169.1A
Authority: CN
Inventors: 熊怀欣
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2013-01-16
Filing date: 2013-01-16
Publication date: 2014-07-16
Anticipated expiration: 2033-01-16
Also published as: US9104242B2; US20140198031A1; JP2014137818A; CN103926999B

Abstract

提供了一种手掌开合手势识别方法和装置，用于通过图像处理识别手掌从开到合或从合到开的手势。该方法包括如下步骤：获得按照时间顺序的多个图像；从多个图像中分割出手掌形状图像；特征抽取步骤，从多个手掌形状图像中的每个抽取出描述手掌姿态的多个特征，其中每个特征从手掌开合手势过程中的取值变化过程看具有取值递增或递减的单调特性；计算最大差异特征向量；以及基于该最大差异特征向量来判断该多个图像中是存在手掌开手势、手掌合手势还是不存在手掌开合手势。还提供了包括上述手掌开合手势识别方法（装置）的人机交互方法（装置）。该手掌开合手势识别技术具有较高的手势识别速度，而且能够在滑动窗口长度固定情况下自适应于手势动作帧数的变化。

Description

手掌开合手势识别方法和装置、人机交互方法和设备

技术领域

本发明总体地涉及图像处理和机器视觉人机交互，更具体地涉及手掌开合手势识别方法和装置、人机交互方法和设备。

背景技术

手势作为一种自然直观的交流方式，它并不需要额外的设备的辅助，就能被广泛的用于与电子设备的交互。基于计算机视觉的手势识别技术已经广泛用于人机交互。基于计算机视觉的手势识别技术接受可视化图像输入，向外输出手势姿态或手势动作的类型，由此那些受计算机控制的设备就能将不同的手势姿态或手势动作解释为不同的命令来完成交互的操作，比如开/关,点击，触摸与否或电视频道的切换等。

专利文献1，美国专利US7821541B2公开了一种对手的2个状态进行识别的方法。这个2个手的状态分别是握住的拳头状态（a closed fist）和打开的手掌状态。这里的识别是对于手指状态的识别，分别对应于静态的开合手掌姿态。其中，只有单一的静态特征被用到，比如它是通过检测是否有3个连续的手指临近到另外一个手指的直观规则来判断是否为“开”状态。由于在实际的系统里，获得清晰的手的外形图像并不是件容易的事情（通常受距离，设备精度和光照条件影响），因此该方法并不鲁棒。此外该方法只是基于单帧图像来是识别姿态。

在非专利文献1，作者为Zhou Ren的文章“Robust Hand GestureRecognition Based on Finger-Earth Mover’s Distance with a Commodity DepthCamera”,Proceedings of the19th ACM international conference on Multi-media,MM′11,ACM,New York,NY,USA,2011,pp.1093–1096中，采用了时间序列曲线（time-series curve）来表述手的形状信息，该时间序列曲线记录了手掌轮廓上每个点到手掌中心点的相对距离。另外，该文章还定义了FEMD（Finger-Earth Mover’s Distance）距离度量算子来计算2个手形状的相似性。本质上，该方法是用模板匹配技术来实现手掌姿态的识别。

在手掌姿态等的识别中，除了模板匹配和直观的规则外，另一种常用的方法是基于机器学习的分类器技术，基于机器学习的分类器技术能提供鲁棒的识别效果，这是因为它综合的考虑了各种特征对分类的影响，因此，分类器技术已经被广泛用于静态姿态和动态手势识别。

在专利文献2，发明人为章鹏的申请号为CN201200147172的专利申请中，公开了一种基于分类器的手势识别方法，该方法采用所谓的深度差分布算子来从几帧相邻的图像里抽取出CDDD特征来表述动作发生时前后深度差的分布规律。该CDDD是一组高维的特征向量，其维数随手势识别单元里所采用的图像的帧数而增加。比如3帧图像作为一个手势识别单元的话将对应于128维的特征向量，如果是4帧图像则为192维。对于该技术，一方面高维的特征向量必然要求大量的样本用于分类器的学习，另一方面，象这样用固定图像帧数作为识别单元来描述深度差分布的方法，通常不能很好解决帧数变化的手势的识别问题。此外该方法只适用于深度图像，这限制了该方法在传统彩色图像上的应用。

发明内容

本发明关注手掌开合手势动作。和静态手掌姿态不同，手掌开合手势动作是指手掌从姿态“开”到姿态“合”或从“合”到“开”的状态变化序列，包括在这两者最终状态间变化的中间状态。本发明中的姿态“合”既指五指回缩成拳头状，也指五指弯曲汇聚一点成“爪”状。

根据本发明的实施例，提供了一种手掌开合手势识别方法，用于通过图像处理识别手掌从开到合或从合到开的手势，包括如下步骤：多个图像获得步骤，获得按照时间顺序的多个图像；手掌形状分割步骤，从多个图像中分割出手掌形状图像；特征抽取步骤，从多个手掌形状图像中的每个抽取出描述手掌姿态的多个特征，其中每个特征从手掌开合手势过程中的取值变化过程看具有取值递增或递减的单调特性；最大差异特征向量计算步骤，对于该多个特征中的每个特征，计算该多个手掌形状图像在该特征上的最大差异量，该最大差异量由该多个手掌形状图像中的两个手掌形状图像按照预定顺序做差得到，具有符号和幅度两属性，且该最大差异量的绝对值是该多个手掌形状图像中的任意两个手掌形状图像在该特征上的差的绝对值中取值最大的，以及由上述多个特征的各个特征的最大差异量组成最大差异特征向量；以及手掌开合手势判定步骤，基于该最大差异特征向量来判断该多个图像中是存在手掌开手势、手掌合手势还是不存在手掌开合手势。

根据本发明的另一实施例，提供了一种手掌开合手势识别装置，用于通过图像处理识别手掌从开到合或从合到开的手势，包括如下部件：多个图像获得部件，获得按照时间顺序的多个图像；手掌形状分割部件，从多个图像中分割出手掌形状图像；特征抽取部件，从多个手掌形状图像中的每个抽取出描述手掌姿态的多个特征，其中每个特征从手掌开合手势过程中的取值变化过程看具有取值递增或递减的单调特性；最大差异特征向量计算部件，对于该多个特征中的每个特征，计算该多个手掌形状图像在该特征上的最大差异量，该最大差异量由该多个手掌形状图像中的两个手掌形状图像按照预定顺序做差得到，具有符号和幅度两属性，且该最大差异量的绝对值是该多个手掌形状图像中的任意两个手掌形状图像在该特征上的差的绝对值中取值最大的，以及由上述多个特征的各个特征的最大差异量组成最大差异特征向量；以及手掌开合手势判定部件，基于该最大差异特征向量来判断该多个图像中是存在手掌开手势、手掌合手势还是不存在手掌开合手势。

根据上述实施例的手掌开合手势识别方法和装置，采用取值随手势动作过程具有递增或递减单调特性的特征，确定基于各个特征的最大差异特征向量，并基于最大差异特征向量进行手掌开合判定，能够获得至少下述好处：直观地描述了手势动作的单调变化特征，不仅因其维数低能加速分类器学习和识别的速度，而且更主要地能够在滑动窗口长度固定情况下自适应于手势动作帧数的变化。（此处手势动作帧数是指手势从开始到结束时所在的时间段里图像采集设备所采集到的图像个数，由于不同操作者动作习惯快慢不同以及图像采集设备采集速率不同，使得手势动作帧数并不固定长度。在30帧/秒的速率下，实验统计结果表明“开”“合”手势帧长大致集中在2到6帧间）。

另外根据本发明实施例的手掌开合手势识别方法和装置，还可以在判断存在手掌开或手掌合手势的情况下，确定手势的起始帧和终止帧；其中确定和每个特征的最大差异量相关联的两个图像，并将该两个图像作为从该每个特征视角看的手势的候选起始帧和候选终止帧；以及基于各个特征的权重以及从各个特征视角得到的手势候选起始帧和候选终止帧，确定手势起始帧和终止帧。根据上述实施例来确定手掌开合手势的起始帧和终止帧，可以得到手势动作的起始帧和终止帧的时间，这为手势应用到诸如“handMouse”这样的系统精确地回溯光标位置提供了精确的信息。

另外根据本发明实施例的手掌开合手势识别方法和装置，沿图像序列移动滑动窗口的位置；对移动后的滑动窗口内的多个图像执行所述手掌形状分割步骤、特征抽取步骤、最大差异特征向量计算步骤和手掌开合手势判定步骤；以及如果移动前后的滑动窗口内的多个图像的手势识别结果得到相同的手掌开合手势，则合并该手掌开合手势识别结果为一个手掌开合手势，并相应地修正起始帧和终止帧。根据上述实施例的方法，可以合并相邻识别单元的手势分类结果，更准确地给出手掌开合手势动作的起始帧和结束帧，从而更恰当地进行人机交互。

根据本发明的再一实施例，提供了一种人机交互方法，包括下述步骤：根据手的运动和前一手势的状态控制何时开启手掌开合手势识别；当控制开启手掌开合手势识别时，通过前述方法进行手掌开合手势识别；以及当识别到手掌开合手势时，将手掌开合手势对应到控制命令，并执行对应的控制命令，以控制显示设备上对象的操作和显示。

根据本发明的又一实施例，提供了一种人机交互设备，所述人机交互设备包括：前述手掌开合手势识别装置；手势识别控制装置，用于根据手的运动和前一手势的状态来控制何时开启手掌开合手势识别装置进行手势识别；手势-命令对应装置，用于将手掌开合手势对应到控制命令，并且当识别到手掌开合手势时，执行对应的控制命令。

根据本发明实施例的人机交互方法和人机交互设备，能够减少由于手在快速运动过程中运动模糊对手势识别产生的虚警错误，同时也确保了不遗漏任何一感兴趣手势的识别。

附图说明

图1示出了本发明实施例的一个典型应用场景示例的示意图。

图2示出了根据本发明实施例的手掌开合手势动作的示意说明图。

图3示出了根据本发明第一实施例的手掌开合手势识别方法的总体流程图。

图4(a)示意了在采样率为30帧/秒下一个手掌开合手势周期内图像帧数的分布直方图；图4(b)示意性示出了是对应于图4(a)的概率分布图。

图5(a)示意性示出了沿手掌主方向覆盖手掌的最小矩形；图5(b)示意性示出了手掌轮廓线所在凸包多边形；图5(c)示意性示出了手掌轮廓线。

图6示意了在K帧图像序列里如何从K个m维特征向量中计算最大差异特征向量。

图7给出了根据本发明一个实施例的包括合并相邻识别单元的手势分类结果的手掌开合手势动作识别过程的示意图。

图8示出了根据本发明一个实施例的手势动作合并判别方法的流程图。

图9示出了根据本发明实施例的手掌开合手势识别装置的配置的功能框图。

图10示出了根据本发明一个实施例的人机交互设备的配置框图。

图11示出手势识别控制装置基于手掌位置不动状态检测器的检测结果来控制何时开启手掌开合手势识别装置进行手势识别的手势识别控制方法的流程图。

图12示出了根据本发明一个实施例的人机交互方法的流程图。

图13是示出按照本发明实施例的手掌开合手势识别（人机交互）系统的总体硬件框图。

具体实施方式

为了使本领域技术人员更好地理解本发明，下面结合附图和具体实施方式对本发明作进一步详细说明。

将按下列顺序进行描述：

1、应用场景示意

2、手掌开合手势识别方法示例

2.1、手掌开合手势识别示例性方法的总体流程

2.2、手掌开合手势的起始帧和终止帧的确定方法示例

2.3、相邻手势识别单元的手掌开合手势动作合并方法示例

3、手掌开合手势识别装置

4、人机交互设备配置示例

5、人机交互方法示例

6、系统硬件配置

7、总结

1、应用场景示意

为便于理解，图1示出了本发明实施例的一个典型应用场景示例的示意图。在操作者的正前方正对操作者位置放置一相机(深度相机或传统相机),操作者面对显示设备,运用他的手进行各种非接触式远程操作，如本发明所关注的手掌开合手势动作。在这个交互过程中，无需任何诸如鼠标红外笔等特定的外部辅助设备，只是使用手势并结合当前操作上下文信息即可。

显然，该场景仅为一个应用示例，这里显示屏可以为例如液晶显示屏、投影屏、手机屏幕、平板电脑屏幕乃至电视屏幕等。而且，显示屏也非必需的，操作者甚至可以对冰箱（可以具有显示屏也可以不具有显示屏）进行手掌开合手势动作来进行对冰箱的操作控制。

图2示出了根据本发明实施例的手掌开合手势动作的示意说明图。此处的手掌开合手势动作是一个手掌从姿态“开”到姿态“合”或从“合”到“开”的状态变化序列，包括在这两者最终状态间逐步变化的半开半合中间状态。本发明中的姿态“合”既指五指回缩成拳头状，也指五指弯曲汇聚一点成“爪”状。在一个手势周期内通常经历的图像帧数不等，这主要依赖于操作者动作快慢的习惯和相机的采样速率。以正常的操作速度和30帧/秒采样率计算，一个手势周期所经历的图像帧数一般从2帧到6帧不等。

2、手掌开合手势识别方法示例

下面将参考附图描述根据本发明实施例的手掌开合手势识别方法示例。

2.1、手掌开合手势识别示例性方法的总体流程

图3示出了根据本发明第一实施例的手掌开合手势识别方法100的总体流程图。

下面结合图3描述根据本发明第一实施例的手掌开合手势识别方法100的总体流程。

如图3所示，在步骤S110中，输入图像序列，即获得按照时间顺序的多个图像。

这里输入的图像序列，可以是直接从拍摄图像或拍摄视频的本地摄像机按时间顺序输入的，也可以是远程通过有线或无线网络输入的等等。另外，这里的图像可以是深度图像也可以是普通彩色图像。

这里进行手掌开合手势动作识别所需的图像帧数，或者一般所谓的滑动窗口的大小（由于手势动作一般是发生在输入图像序列上的一个连续过程，常规处理方法是取一固定长度的滑动窗口在输入的图像序列上滑动，用以选择相邻的几帧图像来作为一个动作识别单元）可以根据经验确定，也可以基于统计手段等确定。

根据一个实施例，所述多个图像的数目可以通过开合手势图像帧数频率直方图及所指定的置信水平共同决定。

下面参考图4(a)和4(b)描述如何通过开合手势图像帧数频率直方图及所指定的置信水平确定用作手势识别单元的图像帧的数目，或者说确定滑动窗口的大小。

图4(a)示意了在采样率为30帧/秒下一个手掌“开”或“合”手势周期内图像帧数的分布直方图，其中每个竖直柱下面的数字表示图像帧数，竖直柱的高度表示一个手掌开合手势动作需要该图像帧数的统计数值，按从左到右的图面顺序，各个竖直柱分别表示一个手掌“开”“合”手势恰好在一帧图像内完成的情况的统计数值、一个手掌开合手势恰好在2帧图像内完成的情况的统计数值、一个手掌开合手势恰好在3帧图像内完成的情况的统计数值、一个手掌开合手势恰好在4帧图像内完成的情况的统计数值、一个手掌开合手势恰好在5帧图像内完成的情况的统计数值、一个手掌开合手势恰好在6帧图像内完成的情况的统计数值。从图4(a)可见，大部分情况下，一个手掌开合手势动作会在3到4帧间完成。

图4(b)示意性示出了是对应于图4(a)的概率分布图。从图4(b)中可见，在纵轴上指定一个置信水平,沿水平方向与概率分布图交点所对应的帧数K,可作为滑动窗口的长度来选择K帧图像进行手势识别。比如对置信水平0.9其对应着5帧/手势。此处的置信水平代表了多大程度上一个开/合手势能在K帧图像中完成，例如0.9置信水平意味着90%的情况下能覆盖住真实的手势开合情况。

根据上述示例的基于指定置信水平和开合手势图像帧数频率直方图来确定一个手势动作识别单元的帧数，能够提高手势识别的效率和准确度。

在步骤S110中获得多个图像之后，前进到步骤S120。

在步骤S120中，进行手掌形状分割，即从多个图像中分割出手掌形状图像。

在提取特征前须先完成对手掌图像的前景分割。诸如肤色检测、基于深度阈值的方法，或连通域分析的方法等诸多技术能用来实现手掌图像的分割。无论采用何种分割技术或使用何种类型的图像，经过分割后，背景或非手掌部分的影响能从输入的图上去除掉，最终得到比较干净的手掌图像（手腕之上的部分），以便于从中抽取表征手掌姿态的特征量。

在完成手掌形状分割后，前进到步骤S130。

在步骤S130中，进行特征抽取，即从多个手掌形状图像中的每个抽取出描述手掌姿态的多个特征，其中每个特征从手掌开合手势过程中取值变化过程看具有取值递增或递减的单调特性。

由于相机精度的不足和被摄物体离距镜头有一定距离的影响（操作者通常保持离相机1米之外），所得到的手掌图像一般在采集到的图像中所占面积比例较小同时也包含了较多噪音。为得到鲁棒的识别结果，本发明人提出了抽取在手掌开合过程中取值具有递增或递减单调性的特征的想法，以便增大手掌开合姿态之间的各自特征差异。

这里特征的取值的单调特性是指，对于手掌从姿态“开”到姿态“合”的状态变化序列（即手掌合手势动作），与该状态变化序列相关联的特征取值序列满足单调递增或者单调递减，反之对于手掌从姿态“合”到姿态“开”的状态变化序列（即手掌开手势动作），与该状态变化序列相关联的特征取值序列满足单调递减或者单调递增。

作为示例，发明人创造性地采用了与手掌前景图像相关的几何形状来计算不同姿态的特征，由此能更好的区分这两种姿态的不同。本发明人所用到的2类几何形状是(i)沿手掌主方向覆盖手掌的最小矩形，如图5(a)所示；(ii)手掌轮廓线所在凸包多边形，如图5(b)所示。

沿手掌主方向覆盖手掌的最小矩形是有两条边与手掌主方向平行且能覆盖住手掌图像的面积最小的矩形。其中手掌主方向（图5(a)中标号501指示的手掌内的直线指示的方向）可通过主成分析PCA方法计算得到。图5(a)中左侧示出了手掌合状态下的沿手掌主方向覆盖手掌的最小矩形，图5(a)中右侧示出了手掌开状态的沿手掌主方向覆盖手掌的最小矩形。

此处凸包多边形定义为组成手掌轮廓线的点集Q的最小凸多边形P,点集Q中的任一点要么在凸多边形P的边上，要么在P的内部。手掌轮廓线可以作为上述步骤S120中分割手掌形状的操作的结果得到，图5(c)中左侧示意性示出了手掌合状态下的手掌轮廓线，图5(c)中右侧示意性示出了手掌开状态下的手掌轮廓线。图5(b)中左侧示出了手掌合状态下的手掌轮廓线的最小凸包多边形，图5(b)中右侧示出了手掌开状态下的手掌轮廓线的最小凸包多边形，

基于沿手掌主方向覆盖手掌的最小矩形和手掌轮廓线所在凸包多边形，在一个示例中，遵循人类从粗到细的认知习惯，可以从单帧图像不同的抽象层提取出如下几何特征来描述手掌姿态的不同：

在最粗层上，得到沿手掌主方向覆盖手掌的最小矩形（如图5(a)所示），计算出它的宽f1、高f2和面积f3作为特征；

在中间层，得到手掌轮廓线的最小凸包多边形（如图5(b)所示），计算出它的周长f4、面积f5和缺陷值f6作为特征；

在精细层上，得到手掌轮廓线（（如图5(c)所示）），计算出它的长度f7，轮廓线所围成的手掌面积f8作为特征；

上述在中间层从手掌轮廓线的最小凸包多边形计算的凸包缺陷值f6是指凸包所有缺陷线长度的总和，其中缺陷线见图5(b)中手掌开姿态图片中从凸包线上两手指相连线段的中点引向手指相连处低凹处所在示意线，如标号502指示的。计算上述特征量所需的全部函数实现均可在开源项目OpenCV中找到。

从上述三个层面抽取出的八个特征f1-f8，从手掌开合手势姿态变化序列的角度看都满足取值的单调特性。

根据本发明优选实施例的与手掌前景图像相关的两种几何形状（手掌轮廓线凸包多边形和沿手掌主方向最小覆盖的四边形）来计算不同姿态的特征，拉大了这开合两姿态之间的特征差异，以便能更好的区分这两种开合姿态的不同，由此能够更好解决识别中噪音影响的问题。

不过上述特征f1-f8仅为可抽取的优选单调性特征示例，并非排他性或者限制性的，可以根据需要设计和选用任何从手掌开合手势姿态变化序列的角度看都满足取值的单调特性的、描述手掌姿态的特征。

在步骤S130中抽取特征完成之后，前进到步骤S140中。

在步骤S140中，计算最大差异特征向量计算，即对于该多个特征中的每个特征，计算该多个手掌形状图像在该特征上的最大差异量，该最大差异量由该多个手掌形状图像中的两个手掌形状图像按照预定顺序做差得到，具有符号和幅度两属性，且该最大差异量的绝对值是该多个手掌形状图像中的任意两个手掌形状图像在该特征上的差的绝对值中取值最大的，以及由上述多个特征的各个特征的最大差异量组成最大差异特征向量。

滑动窗口选出K帧图像作为手势识别单元，每一帧图像上，例如抽出上述8个特征f1到f8作为一组特征来表述手掌姿态。将从这K组特征量中计算出最大差异特征向量来进一步描述在一个手势识别单元里手掌姿态的变化，该最大差异特征向量的每一维分量表征来在该维度上一个手势识别单元中的最大差异。

图6示意了在K帧图像序列里如何从K个m维特征向量（步骤S130中提取的每个特征作为特征向量的一维）中计算最大差异特征向量。

此处的最大差异特征描述了一个特征的取值在K帧序列里的变化，更具体地，它描述了每个用于姿态描述的特征的取值在一个手势识别单元里的单向最大变化。因此最大差异特征向量的维数只依赖于单帧上所提取出的特征的个数，而与识别单元里图像帧的个数是无关的。

对一个具体的实施例，以特征f1为例来示意说明如何在K帧图像（K组特征向量）中去计算其对应的最大差异。此处f1是沿手掌方向最小四边形覆盖的宽度，直观地，f1的取值在手掌合的过程中会逐步减小，在手掌开的过程中则会逐步增大。事实上，上述的8个特征量（f1,…,f8)从手掌开合手势姿态变化序列的角度看去都满足取值的单调特性。

对应于特征f1的在K帧图像（K组特征向量）中的最大差异d1计算定义为如下：

d1=f1(s)–f1(e),其中|f1(s)–f1(e)|=Max(|f1(i)–f1(j)|) (1)

其中，i,j是图像帧的下标,满足0<i,j<=K和i<j

公式(1)表明最大差异的计算是基于K帧图像组内单向特征差异计算的所有可能组合的结果。因为有取值单调性的保障，故而最大差异特征d1直观的表达了手掌开到合或从合到开的变化规律（变化的方向和变化的幅度）。

同样地能够遵循和d1类似的计算定义来计算出别的特征所对应的最大差异特征值dm(m=1,..,8),组合这些特征的最大差异量d1,d2,…,dm就得到了用于手势动作识别的最大差异特征向量{d1,d2,…,dm}

这里，需要说明的是，由上述公式(1)可见，各个特征f1,f2,…,fm的最大差异量是具有符号的一维向量。例如对于上述示例中的特征f1-f8的每个在从手掌开到合的过程中取值满足单调递减，因此理想情况下，在其中做出了手掌合手势的图像序列中，最大差异特征向量的每一维应该为带有负号的向量；相反上述示例中的特征f1-f8的每个在从手掌合到开的过程中取值满足单调递减，因此理想情况下，在其中做出了手掌开手势的图像序列中，最大差异特征向量的每一维应该为带有正号的向量。

另外，需要说明的是，在公式(1)中，对于一维特征，是通过用下标小的图像帧减去下标大的图像帧来计算最大差异量，不过反过来用下标大的图像帧减去下标小的图像帧来计算最大差异量也是可行的。

此外，关于上述最大差异特征向量的计算，在滑动窗口长度固定情况下无论手势动作是在K帧完成还是K中一部分完成的，均能得到接近等量的最大差异特征量，由此在特征描述和提取上获得了自适应于手势动作帧数变化的良好效果。

在步骤S140中计算得到最大差异向量后，前进到步骤S150。

在步骤S150中，进行手掌开合手势判定，即基于该最大差异特征向量来判断该多个图像中是存在手掌开手势、手掌合手势还是不存在手掌开合手势。

在一个示例中，通过机器学习技术，更具体地，分类器来对最大差异特征向量{d1,d2,…,dm}进行分类来得到该手势识别单元的手势分类结果。可以用数字标签来表示手势的分类结果，例如，0为无姿态变化，1为手掌闭合，2为手掌张开。许多种类的分类器可以用于这里的分类，诸如决策树分类器、随机森林分类器、AdaBoost、支撑向量机SVM和BP神经网络等。分类器一般分为训练过程和识别过程，其中在训练过程中，利用训练样本集合来训练分类器，或者说来确定分类器的有关参数或形式，例如，训练样本具有如下的形式【L,d1,d2,…,dm】,L是分类标签；而在识别过程中，则对类别未知的待识别的样本进行分类，并且输出分类结果，即手势动作识别结果。这里，分类结果的形式根据所采用的分类器的样式或者需要而可以不同，可以为简单的类别归类，如该样本即最大特征差异向量分类为0，即无姿态变化，也就是不是手掌开合手势；或者为1，即表示为手掌闭合手势；或者为2，即为手掌张开；分类结果也可以为属于各个类别的概率等等。

上面以利用分类器为例说明了基于该最大差异特征向量来判定多个图像中的手掌开合手势情况，不过这仅为示例，并非用于限制本发明。作为替代方式，也可以例如基于规则来进行手掌开合手势判定，例如，可以制定如下规则，当该最大差异特征向量的8个特征分量中取值大于预定取值阈值例如0.5的特征分量的个数大于预定个数阈值例如5时，确定存在手掌开手势，当该最大差异特征向量的8个特征分量中取值小于预定取值阈值例如-0.5的特征分量的个数大于预定个数阈值例如5时，确定存在手掌合手势，反之则认为不存在手掌开合手势。当然这仅为出于说明方便给出的简单示例，而且实际上，广义上说来，上述基于规则的方法也可以归于基于分类器的方法，例如基于规则的方法可以转化为决策树分类器等。另外，也可以利用模板匹配的方法来基于最大差异特征向量来判定多个图像中的手掌开合手势情况。不过，同样从广义上来说，基于模板匹配的方法也可以转化为分类器实现，例如最近邻分类器。除非特别区分，否则本发明的分类器含义是广义的，包括基于规则和基于模板匹配的判别方法。

根据上述实施例的手掌开合手势识别方法，提出了采用取值随手势动作过程具有单调性的特征，从而确定了基于各个特征的最大差异特征向量，并基于最大差异特征向量进行手掌开合判定，能够获得至少下述好处：直观地描述了手势动作的单调变化特征，不仅因其维数低能加速分类器学习和识别的速度，而且更主要地能够在滑动窗口长度固定情况下从特征提取的角度自适应于手势动作帧数的变化。

2.2、手掌开合手势的起始帧和终止帧的确定方法示例

上述结合图1描述的手掌开合手势识别方法，给出了是存在手掌开手势、手掌合手势还是不存在手掌开合手势的识别结果。不过，在一些手势控制系统中，比如“HandMouse”采用手的移动即手的跟踪点来控制光标移动并结合手掌开合动作来模拟鼠标按键的这样的系统，需明确地检测到一个手势动作的起始点和终止点时间。这是因为伴随手掌开合手势变化相应的手跟踪点也会发生变化从而导致在开合手势间光标也会随之漂移，因而需在手势结束的时刻回溯光标到手势开始的时刻来执行对应的手势命令。这样的问题在以前的技术中未给出合理的解决方案或未提及。

下面描述根据本发明一个实施例的手掌开合手势的起始帧和终止帧的确定方法示例。

根据一个实施例，例如在判定存在手掌开或手掌合手势的情况下，如下确定手势的起始帧和终止帧：

首先，确定和每个特征的最大差异量相关联的两个图像，并将该两个图像作为从该每个特征视角看的手势的候选起始帧和候选终止帧。

然后，基于各个特征的权重以及从各个特征视角得到的手势候选起始帧和候选终止帧，确定手势起始帧和终止帧。

例如，参见上述计算最大差异量d1的公式(1)，可以得到相对于d1而言最可能的手势起始帧序号(s)和结束帧序号(e)，记为“s(1)”和“e(1)”。同样地也能得到相对于d2而言最可能的手势起始帧序号和结束帧序号s(2)、e(2)，以及直至相对于dm而言最可能的手势起始帧序号和结束帧序号s(m)、e(m)。假设将第i个最大差异特征对手势识别的重要度表示为权重w_i.那么通过对各个特征相关联的手势起始帧序号和结束帧序号s(i)、e(i)加权和投票后，能够得到对最大差异特征向量{d1,d2,…,dm}而言最可能的手势起始帧序号s和结束帧序号e,从而为手掌开合手势应用到诸如“handMouse”这样的系统来精确地回溯光标位置提供了精确的信息。在一个示例实施例中，最大差异特征向量的每一维特征分量和相关联的起始帧和结束帧相关联地存储。

表格1示例性示出了如何从最大差异特征向量的计算中确定最可能的手势起始帧。在该示例中，滑动窗口大小为3，即用于一次手掌开合手势识别的图像的数目为3，各帧图像用第一列中的第1帧、第1帧、第3帧指示，即要基于最大差异特征向量{d1,d2,…,dm}的各维特征分量d1、d2…dm所指示的最可能的手势起始帧序号和结束帧序号以及基于各维特征的权重，来确定最可能的手势起始帧和结束帧。表1中的d1所在的列指示了特征分量d1指示的手势起始帧为1（即对于d1，公式1中的f1(s)中的s为1，即对于第1维特征，由第1帧与另一帧相减得到该特征相关的最大差异量d1），以及特征分量d1相关联的特征的权重为w1，因此，基于特征分量d1，可以得到第1帧作为手势起始帧的评估分数1*w1，而对第2帧、第3帧可以得到作为手势起始帧的评估分数均为0*w1。类似地，可以看出，基于特征分量d2，可以得到第1帧作为手势起始帧的评估分数1*w2，而得到第2帧、第3帧作为手势起始帧的评估分数均为0*w2；而特征分量d3相关联的手势起始帧为第2帧，因此，基于特征分量d3，可以得到第2帧作为手势起始帧的评估分数1*w3，而得到第1帧、第3帧作为手势起始帧的评估分数均为0*w3。将第1帧所在行的所有各维特征分量给出的作为手势起始帧的评估分数相

加，即得到了总计的第1帧作为手势起始帧的评估分数1*w1+1*w2+0*w3+1*w4+0*w5+1*w6+0*w7+1*w8，在所有特征对于手势识别的权重相等均为1的情况下，该总计值为5。类似地，在所有特征对于手势识别的权重相等均为1的情况下，可以得到第2帧作为手势起始帧的评估分数总计值为3，以及第3帧作为手势起始帧的评估分数总计值为0。从而可以选择作为手势起始帧的评估分数总计值最高的帧即第1帧作为手掌开合手势的起始帧。

可以采用类似的方法来确定手掌开合手势的终止帧。

表1

根据上述实施例来确定手掌开合手势的起始帧和终止帧，可以得到手势动作的起始帧和终止帧的时间，这为手势应用到诸如“handMouse”这样的系统精确地回溯光标位置提供了精确的信息。

另外，上述最大差异特征向量的计算及手势起始帧下标的确认，表明在滑动窗口长度固定情况下无论手势动作是在K帧完成还是K中一部分完成的，均能得到等量的最大差异特征量，由此在特征描述和提取上完成了自适应于手势动作帧数变化的问题。

2.3、相邻手势识别单元的手掌开合手势动作合并方法示例

在很多情况下，手掌开合手势动作识别是个持续进行的过程，即滑动窗口在输入的图像序列上来选择K帧图像组成一个识别单元，对该识别单元执行手掌开合手势识别操作，然后滑动窗口在输入的图像序列向后滑动（一般逐帧移动）到下一位置以再选择K帧图像来作为另一个识别单元，对该另一个识别单元执行手掌开合手势识别操作，等等。因此每个识别单元都与它近邻的识别单元具有部分重叠的帧图像，故而优选地在一个实施例中，在对各个识别单元分类之后进行进一步处理，以在分类结果的基础上最终去判定手势动作，以完成从帧图像到动作层面的手势动作判断。这步的处理主要方法是制定一些规则去合并相邻识别单元的手势分类结果。

根据一个示例实施例，图3所示的手掌开合手势识别方法可以包括：沿图像序列移动滑动窗口的位置；对移动后的滑动窗口内的第二多个图像执行所述手掌形状分割步骤、特征抽取步骤、最大差异特征向量计算步骤和手掌开合手势判定步骤；以及如果移动前后的滑动窗口内的多个图像的手势识别结果得到相同的手掌开合手势，则合并该手掌开合手势识别结果为一个手掌开合手势，并相应地修正起始帧和终止帧。

下面参考图7描述包括合并相邻识别单元的手势分类结果的手掌开合手势动作识别过程的示例。

图7给出了根据本发明一个实施例的包括合并相邻识别单元的手势分类结果的手掌开合手势动作识别过程的示意图。如图7所示，相机采集到图像序列按时间顺序送到手势识别系统中，首先经过一个长度为K（图7中，K=3）的滑动窗口从图像序列里依次取出K帧图像组成一个手势识别单元进到下一步处理。接着在单帧图像抽取出取值在手势过程中满足单调性的特征的基础上，从K帧图像组成的单元里计算出最大差异特征向量（标号701指示的阶段）。然后将最大差异特征量送到手势分类器里得到分类结果，如标号702所示的阶段，其中将分类结果对应到标签0,1和2。然后前进到手势动作合并判别阶段，如标号703所示，其中基于分类结果序列中进一步判定并输出手势动作的最终结果。

下面参考图8描述根据本发明一个实施例的手势动作合并判别方法800。该手势动作合并判别方法800可以应用于图7所示的手势动作合并判别阶段703。

图8示出了根据本发明一个实施例的手势动作合并判别方法800的流程图。

如图8所示，输入一个识别单元通过分类器得到的分类结果标签(S801)。然后首先判断是否存在候选动作（S802），是否存在候选动作可用一个标志设置或复位来表示，如Fcandidate=0（不存在候选动作），Fcandidate=1(存在候选动作)，最初为不存在候选动作即最初Fcandidate=0。如果不存在候选动作（S802中的N条件处理分支），则判断所输入的分类结果标签是否为1或2，即是否被分类为开手势或合手势（S811）。如果标签既不是1也不是2，即分类结果不是开手势或合手势（S811中的N条件处理分支），则返回到步骤S801，输入下一分类标签。如果标签是1或2，即分类结果是开手势或合手势（S811中的Y条件处理分支），则开始当前新的候选动作，例如设置Fcandidate=1，并存储当前候选动作标签为该标签，并记录下当前候选动作的起始和结束时间（S812）。如果在S802中确定存在候选动作（步骤S802中的Y条件处理分支），则检查该输入的分类结果标签是否与当前候选动作标签（即，前一识别单元的结果）相同(S802)。如果不同（S803中的N条件处理分支），则我们闭合当前的候选动作(S808)，设置Fcandidate=0,即放弃继续处理当前候选动作，然后判断输入的分类结果标签是否为1或2，即是否被分类为开手势或合手势（S809）。如果标签既不是1也不是2，即分类结果不是开手势或合手势（S809中的N条件处理分支），则返回到步骤S801，输入下一分类标签。如果标签是1或2，即分类结果是开手势或合手势（S809中的Y条件处理分支），则开始当前新的候选动作，例如设置Fcandidate=1，并存储当前候选动作标签为该标签，并记录下当前候选动作的起始和结束时间（S810），并返回到步骤S801等待输入下一识别单元的分类结果；如果当前标签与前一单元识别结果相同（S803中的Y条件处理分支），则更新当前候选动作的数据（更新结束时间）（S804），然后检查当前候选的动作是否满足手势动作的条件(S805)。如果符合手势动作的条件，则产生一个手势动作发生的消息以便和外部设备进行交互(S806)，并结束当前的候选动作，例如设置Fcandidate=0（S807），返回到步骤S801。如果在步骤S805判断当前候选的动作不满足手势动作的条件，则返回到步骤S801。在上述过程中，无论手势是否被检测出，都继续处理下一单元分类识别的结果，即下一分类标签的输入。

图8中的步骤S805，检测候选动作是否满足动作条件，由此过滤掉不合适候选，例如，使用完成一个手势动作所需的时间条件约束来过滤掉不合适后续，例如，一个手势动作的时间应该足够长，如果时间长度不够，例如小于1/5秒，则不认为这是一个合格动作，只有当时间长度足够时，才判定其是合格动作，并进行相应人机交互；再例如，在某些应用示例中，手势动作起始时的跟踪点位置与手势动作结束时的跟踪点位置应该接近，因而可以根据跟踪点位置是否接近来过滤掉不合适的候选动作。

根据上述实施例的方法，可以合并相邻识别单元的手势分类结果，更准确地给出手掌开合手势动作的起始帧和结束帧，从而更恰当地进行人机交互。

3、手掌开合手势识别装置

下面参考图9描述根据本发明示例性实施例的手掌开合手势识别装置的配置。

图9示出了根据本发明实施例的手掌开合手势识别装置900的配置的功能框图。

如图9所示，手掌开合手势识别装置900用于通过图像处理识别手掌从开到合或从合到开的手势，包括如下部件：多个图像获得部件910，获得按照时间顺序的多个图像；手掌形状分割部件920，从多个图像中分割出手掌形状图像；特征抽取部件930，从多个手掌形状图像中的每个抽取出描述手掌姿态的多个特征，其中每个特征从手掌开合手势过程中的取值变化过程看具有取值的递增或递减的单调特性；最大差异特征向量计算部件940，对于该多个特征中的每个特征，计算该多个手掌形状图像在该特征上的最大差异量，该最大差异量由该多个手掌形状图像中的两个手掌形状图像按照预定顺序做差得到，具有符号和幅度两属性，且该最大差异量的绝对值是该多个手掌形状图像中的任意两个手掌形状图像在该特征上的差的绝对值中取值最大的，以及由上述多个特征的各个特征的最大差异量组成最大差异特征向量；以及手掌开合手势判定部件950，基于该最大差异特征向量来判断该多个图像中是存在手掌开手势、手掌合手势还是不存在手掌开合手势。上述多个图像获得部件910、手掌形状分割部件920、特征抽取部件930、最大差异特征向量计算部件940和手掌开合手势判定部件950的具体功能和操作可以参考上述和图1到图8相关的描述。这里省略有关重复描述。

4、人机交互设备配置示例

下面参考图10描述根据本发明一个实施例的人机交互设备1000的配置。

图10示出了根据本发明一个实施例的人机交互设备1000的配置框图。

如图10所示，人机交互设备100可以包括：手掌开合手势识别装置1200，其可以由图9所示的手掌开合手势识别装置900实现；手势识别控制装置1100，用于根据手的运动和前一手势的状态来控制何时开启手掌开合手势识别装置进行手势识别；手势-命令对应装置1300，用于将手掌开合手势对应到控制命令，并且当识别到手掌开合手势时，执行对应的控制命令，例如控制计算机中运行的应用程序、计算机控制下的外部设备等等。另外，可选地，人机交互设备100还可以包括手掌位置不动状态检测器1400（由虚线框指示），用于检测手掌位置是否不动，其中所述手势识别控制装置基于手掌位置不动状态检测器的检测结果来控制何时开启手掌开合手势识别装置进行手势识别。

此处手势识别控制装置1100目的是减少由于手在快速运动过程中运动模糊对手势识别产生的虚警错误，同时也确保了不遗漏任何一感兴趣手势的识别。手势识别控制装置1100基于2个操作习惯来执行控制，一是在执行手掌合的动作时通常手臂都保持静止的习惯，另一个习惯是手掌“开”的动作总是跟随着“合”的动作，换言之这“开”和“合”这两种手势总是成对出现的。

手势识别控制提出的一个动机是考虑如下应用：用手的动作来模拟鼠标的拖放操作，手张开状态对应于鼠标移动状态，手闭合状态对应于按住鼠标左键状态；手张开状态下可将光标移动到要抓取的对象上，手闭合则相当于抓取了对象（选择了对象），手闭合状态下移动，则相当于拖动对象，然后手张开，则相当于放下对象。由此实现了对象的拖放操作。

初始状态下，只有手的位置基本不变（手腕静止）时，才开始检测手势，这样可以过滤掉一些模糊动作，而且当检测到合手势后，因为手闭合状态移动后会有一个张开的手势，因此紧接着进行开手势的检测，当检测到开手势时，将继续监控检测手位置是否处于基本静止状态，只有在检测到手位置基本静止后，才检测手势（合手势）。

在一个示例中，手掌位置不动状态检测器1400可以通过分析手运动路径曲线，判断最近时刻区间内该曲线的长度和变化半径是否小于预设值来判定手掌位置是否基本不变。此处手的运动路径曲线是指手运动中最近预定M个手运动跟踪点构成的路径。

下面参考图11描述手势识别控制装置1100基于手掌位置不动状态检测器1400的检测结果来控制何时开启手掌开合手势识别装置1200进行手势识别的过程示例。

图11示出手势识别控制装置1100基于手掌位置不动状态检测器1400的检测结果来控制何时开启手掌开合手势识别装置1200进行手势识别的手势识别控制方法1100的流程图，该过程包含如下步骤:

(a)初始化一标志量“bFlag”为“false”(S1110)，该标志bFlag指示手掌类型是否为合；

(b)判断标志量bFlag是TURE还是FALSE(S1120),如果FALSE,则调用手静止状态检测器(S1130)检测当前手是处于不动还是运动状态(S1140)；

(c)如果bFlag是TRUE或当前手被判断为静止状态，则调用手势识别器进行手势动作识别(S1150)；

(d)如果识别出的手势类型为“合”(S1160中的Y),则对标志变量“bFlag”赋值为TRUE(S1170),否则如果手势类型被识别为“开”(S1160中的N),则对“bFlag”赋值“FALSE”(S1180)；

(e)随着下一组图像序列的输入，依次重复上述步骤(b)-(d)。

从图11流程图中可知，此处的控制策略是只有当手处于静止状态（或运动不是很快）时才进行手势“合”的检测。一旦手势“合”被检查到，则继续监视手势动作的变化直到手势“开”被检测到。这样的控制策略能减少由于手在快速运动过程中对手势识别产生的虚警错误，同时也确保了不遗漏任何一感兴趣手势的识别。

5、人机交互方法示例

下面参考图12描述根据本发明一个实施例的人机交互方法的流程。

图12示出了根据本发明一个实施例的人机交互方法1200的流程图。

如图12所示，在步骤S1210中，根据手的运动和前一手势的状态控制何时开启手掌开合手势识别。关于步骤S1210的具体实施，可以利用结合图11描述的手掌识别控制过程实现。

在步骤S1220中，当控制开启手掌开合手势识别时，通过前文参考图3到8描述的方法进行手掌开合手势识别。

在步骤S1230中，当识别到手掌开合手势时，将手掌开合手势对应到控制命令，并执行对应的控制命令，以控制显示设备上对象的操作和显示。

6、系统硬件配置

本发明还可以通过一种手掌开合手势识别（人机交互）硬件系统来实施。图13是示出按照本发明实施例的手掌开合手势识别（人机交互）系统1300的总体硬件框图。如图13所示，物体检测系统1000可以包括：输入设备1100，用于从外部输入有关图像或信息，例如立体摄像机或者彩色摄像机拍摄的图像或视频流等，例如可以包括键盘、鼠标器、以及通信网络及其所连接的远程输入设备等等；处理设备1200，用于实施上述的按照本发明实施例的手掌开合手势识别（人机交互）方法，或者实施为上述的手掌开合手势识别（人机交互），例如可以包括计算机的中央处理器或其它的具有处理能力的芯片等等，可以连接到诸如因特网的网络（未示出），根据处理过程的需要向远程传送处理后的结果如人机交互命令等等；输出设备1300，用于向外部输出实施上述手掌开合手势识别（人机交互）过程所得的结果，例如可以包括显示器、打印机、以及通信网络及其所连接的远程输出设备等等；以及存储设备1400，用于以易失或非易失的方式存储上述手掌开合手势识别（人机交互）过程所涉及的诸如图像、特征量、最大差异特征向量、手势起始帧、手势终止帧、阈值等数据，例如可以包括随机存取存储器（RAM）、只读存储器（ROM）、硬盘、或半导体存储器等等的各种易失或非易失性存储器。

7、总结

根据本发明的实施例，提供了一种手掌开合手势识别方法，用于通过图像处理识别手掌从开到合或从合到开的手势，包括如下步骤：多个图像获得步骤，获得按照时间顺序的多个图像；手掌形状分割步骤，从多个图像中分割出手掌形状图像；特征抽取步骤，从多个手掌形状图像中的每个抽取出描述手掌姿态的多个特征，其中每个特征从手掌开合手势过程中的取值变化过程看具有取值的递增或递减的单调特性；最大差异特征向量计算步骤，对于该多个特征中的每个特征，计算该多个手掌形状图像在该特征上的最大差异量，该最大差异量由该多个手掌形状图像中的两个手掌形状图像按照预定顺序做差得到，具有符号和幅度两属性，且该最大差异量的绝对值是该多个手掌形状图像中的任意两个手掌形状图像在该特征上的差的绝对值中取值最大的，以及由上述多个特征的各个特征的最大差异量组成最大差异特征向量；以及手掌开合手势判定步骤，基于该最大差异特征向量来判断该多个图像中是存在手掌开手势、手掌合手势还是不存在手掌开合手势。。

根据上述实施例的手掌开合手势识别方法和装置，采用取值随手势动作过程具有单调性的特征，确定基于各个特征的最大差异特征向量，并基于最大差异特征向量进行手掌开合判定，能够获得至少下述好处：直观地描述了手势动作的单调变化特征，不仅因其维数低能加速分类器学习和识别的速度，而且更主要地能够在滑动窗口长度固定情况下从特征提取的角度自适应于手势动作帧数的变化。

另外根据本发明实施例的手掌开合手势识别方法和装置，沿图像序列移动滑动窗口的位置；对移动后的滑动窗口内的第二多个图像执行所述手掌形状分割步骤、特征抽取步骤、最大差异特征向量计算步骤和手掌开合手势判定步骤；以及如果移动前后的滑动窗口内的多个图像的手势识别结果得到相同的手掌开合手势，则合并该手掌开合手势识别结果为一个手掌开合手势，并相应地修正起始帧和终止帧。根据上述实施例的方法，可以合并相邻识别单元的手势分类结果，更准确地给出手掌开合手势动作的起始帧和结束帧，从而更恰当地进行人机交互。

根据本发明的又一实施例，提供了一种人机交互方法，包括下述步骤：根据手的运动和前一手势的状态控制何时开启手掌开合手势识别；当控制开启手掌开合手势识别时，通过前述方法进行手掌开合手势识别；以及当识别到手掌开合手势时，将手掌开合手势对应到控制命令，并执行对应的控制命令，以控制显示设备上对象的操作和显示。

上述本发明实施例的手掌开合手势识别方法和装置、人机交互方法和人机交互设备既适用于深度图像，也适用于传统彩色图像。

前述描述仅为说明性的，可以进行很多添加、修改和/或替换。

例如，前述示例的手掌开合手势识别方法中，描述了对于一个手势识别单元仅从各个特征计算最大差异特征向量，然后仅基于最大差异特征向量来判定手掌开合手势情况。不过这仅为示例，“基于最大差异特征向量”的含义是开放式的，而不是排他性的，基于可以基于最大差异特征向量以及其它因素来一起进行手掌开合手势情况判定，例如还可以分析计算每个特征在一个手势识别单元中的变化过程，并分析各个特征的变化走势是否一致等来结合最大差异特征向量进行手势判定。

再例如，前文示例性描述中，所基于的单调性特征集合为沿手掌主方向覆盖手掌的最小矩形的宽f1、高f2和面积f3，手掌轮廓线的最小凸包多边形的周长f4、面积f5和缺陷值f6，手掌轮廓线的长度f7和所围成的手掌面积f8，但是这仅为示例，而不作为本发明的限制，所选择的特征可以多于8个或少于8个，而且不限于上述8个特征，也可以根据需要设计和选用任何从手掌开合手势姿态变化序列的角度看都满足取值的单调特性的、描述手掌姿态的特征。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置（包括处理器、存储介质等）或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

还需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行，以及某些步骤可以并行或彼此独立地执行。这些都不构成对本发明的限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种手掌开合手势识别方法，用于通过图像处理识别手掌从开到合的合手势或从合到开的开手势，包括如下步骤：

多个图像获得步骤，获得按照时间顺序的多个图像；

手掌形状分割步骤，从多个图像中分割出手掌形状图像；

特征抽取步骤，从多个手掌形状图像中的每个抽取出描述手掌姿态的多个特征，其中每个特征从手掌开合手势过程中的取值变化过程看具有取值的单调特性；

最大差异特征向量计算步骤，对于该多个特征中的每个特征，计算该多个手掌形状图像在该特征上的最大差异量，该最大差异量由该多个手掌形状图像中的两个手掌形状图像按照预定顺序做差得到，具有符号和幅度两属性，且该最大差异量的绝对值是该多个手掌形状图像中的任意两个手掌形状图像在该特征上的差的绝对值中取值最大的，以及由上述多个特征的各个特征的最大差异量组成最大差异特征向量；以及

手掌开合手势判定步骤，基于该最大差异特征向量来判断该多个图像中是存在手掌开手势、手掌合手势还是不存在手掌开合手势。

2.根据权利要求1的手掌开合手势识别方法，还包括：

在判断存在手掌开或手掌合手势的情况下，确定手势的起始帧和终止帧；

其中确定和每个特征所在的最大差异量相关联的两个图像，并将该两个图像作为从该每个特征视角看去的手势的候选起始帧和候选终止帧；以及

基于各个特征的权重以及从各个特征视角得到的手势候选起始帧和候选终止帧，确定手势起始帧和终止帧。

3.根据权利要求1的手掌开合手势识别方法，其中所述多个图像的数目通过开合手势图像帧数频率直方图及所指定的置信水平共同决定。

4.根据权利要求1的手掌开合手势识别方法，其中所述多个图像是通过滑动窗口从输入的图像序列中依次选择的，

所述手掌开合手势识别方法还包括：

沿图像序列依次移动滑动窗口的位置；

对移动后的滑动窗口内的多个图像执行所述手掌形状分割步骤、特征抽取步骤、最大差异特征向量计算步骤和手掌开合手势判定步骤；以及

如果移动前后的滑动窗口内的多个图像的手势识别结果得到相同的手掌开合手势，则合并该手掌开合手势识别结果为一个手掌开合手势，并相应地修正起始帧和终止帧。

5.根据权利要求1的手掌开合手势识别方法，其中，所述特征抽取步骤中抽取的多个特征选自下列各项：包括沿手掌主方向覆盖手掌的最小矩形的长度，宽度和面积；手掌轮廓线所在凸包的凸包线长度，凸包面积和凸包缺陷；以及手掌轮廓线的长度和轮廓线所围成手掌形状的面积

6.一种手掌开合手势识别装置，用于通过图像处理识别手掌从开到合的合手势或从合到开的开手势，包括如下部件：

多个图像获得部件，获得按照时间顺序的多个图像；

手掌形状分割部件，从多个图像中分割出手掌形状图像；

特征抽取部件，从多个手掌形状图像中的每个抽取出描述手掌姿态的多个特征，其中每个特征从手掌开合手势过程中的取值变化过程看具有取值递增或递减的单调特性；

最大差异特征向量计算部件，对于该多个特征中的每个特征，计算该多个手掌形状图像在该特征上的最大差异量，该最大差异量由该多个手掌形状图像中的两个手掌形状图像按照预定顺序做差得到，具有符号和幅度两属性，且该最大差异量的绝对值是该多个手掌形状图像中的任意两个手掌形状图像在该特征上的差的绝对值中取值最大的，以及由上述多个特征的各个特征的最大差异量组成最大差异特征向量；以及

手掌开合手势判定部件，基于该最大差异特征向量来判断该多个图像中是存在手掌开手势、手掌合手势还是不存在手掌开合手势。

7.一种人机交互设备，所述人机交互设备包括：

权利要求6所述的手掌开合手势识别装置；

手势识别控制装置，用于根据手的运动和前一手势的状态来控制何时开启手掌开合手势识别装置进行手势识别；

手势-命令对应装置，用于将手掌开合手势对应到控制命令，并且当识别到手掌开合手势时，执行对应的控制命令。

8.根据权利要求7的人机交互设备，还包括，手掌位置不动状态检测器，用于检测手掌位置是否不动，其中所述手势识别控制装置基于手掌位置不动状态检测器的检测结果来控制何时开启手掌开合手势识别装置进行手势识

别。

9.根据权利要求8的人机交互设备，其中所述手势识别控制装置基于手掌位置不动状态检测器的检测结果来控制何时开启手掌开合手势识别装置进行手势识别包括：

(a)初始化一标志“bFlag”为“false”；

(b)判断标志bFlag是TURE还是FALSE，如果FALSE，则调用手静止状态检测器检测当前手掌位置是处于不动还是运动状态；

(c)如果标志bFlag是TRUE或者当前手掌位置被判断为静止状态，则调用手势识别控制装置进行动作识别；

(d)如果识别出的手势为“合”,则对标志变量“bFlag”赋值为TRUE,否则如果手势被识别为“开”,则对“bFlag”赋值“FALSE”；

(e)随着下一组图像序列的输入，依次重复上述步骤(b)-(d)。

10.一种人机交互方法，包括下述步骤：

根据手的运动和前一手势的状态控制何时开启手掌开合手势识别；

当控制开启手掌开合手势识别时，通过权利要求1到6任一项所述的方法进行手掌开合手势识别；以及

当识别到手掌开合手势时，将手掌开合手势对应到控制命令，并执行对应的控制命令，以控制显示设备上对象的操作和显示。