CN104766038A

CN104766038A - 手掌开合动作识别方法和装置

Info

Publication number: CN104766038A
Application number: CN201410001511.5A
Authority: CN
Inventors: 熊怀欣
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2014-01-02
Filing date: 2014-01-02
Publication date: 2015-07-08
Anticipated expiration: 2034-01-02
Also published as: CN104766038B

Abstract

本发明提供了一种手掌开合动作识别方法。该方法包括：采用滑动窗口沿着输入图像序列移动，依次选择预定数量的连续图像序列作为一个识别单元；从每一帧图像中分割出手掌形状图像；从手掌形状图像中抽取出代表手掌姿态的多个特征以便形成属于对应手掌图像的特征向量，并将属于同一识别单元的手掌形状图像的所抽取的特征向量的序列作为隐马尔科夫模型HMM的观察量序列；将所述观察量序列输入多个HMM中的每个独立手势HMM，计算出所述观察量序列属于对应HMM的概率；以及将所计算的概率作为特征输入分类器识别手势。

Description

手掌开合动作识别方法和装置

技术领域

本发明涉及一种机器视觉人机交互领域，特别地，它提供了一种从输入的图像序列或视频中识别手掌开合手势动作的方法。

背景技术

手势作为一种自然直观的交流方式，它并不需要额外的设备的辅助，就能被广泛的用于与电子设备的交互。基于计算机视觉的手势识别技术已经广泛用于人机交互。基于计算机视觉的手势识别技术接收可视化图像输入，向外输出手势姿态或手势动作的类型，由此那些受计算机控制的设备就能将不同的手势姿态或手势动作解释为不同的命令来完成交互的操作，比如开/关,点击，触摸与否或电视频道的切换等。

在专利文献1中，美国专利US7821541B2公开了一种对手的2个状态进行识别的方法。这个2个手的状态分别是握住的拳头状态（a closed fist）和打开的手掌状态。这里的识别是对静态的开合手掌姿态的识别。其中，只有单一的静态特征被用到，比如它是通过检测是否有3个连续的手指临近到另外一个手指的直观规则来判断是否为“开”状态。由于在实际的系统里，获得清晰的手的外形图像并不是件容易的事情（通常受距离，设备精度和光照条件影响），因此该方法并不鲁棒。此外该方法只是基于单帧图像来是识别姿态。

在非专利文献1中，作者为Zhou Ren的文章“Robust Hand GestureRecognition Based on Finger-Earth Mover’s Distance with a Commodity DepthCamera”,Proceedings of the19th ACM international conference on Multi-media,MM'11,ACM,New York,NY,USA,2011,pp.1093–1096中，采用了时间序列曲线（time-series curve）来表述手的形状信息，该时间序列曲线记录了手掌轮廓上每个点到手掌中心点的相对距离。另外，该文章还定义了FEMD（Finger-Earth Mover’s Distance）距离度量算子来计算2个手形状的相似性。本质上，该方法是用模板匹配技术来实现手掌姿态的识别。虽然比起美国专利“US7821541B2”，它能识别更多的姿态，但其不足之处却是相同的。

在非专利文献2中，作者为Nguyen Dang Binh的文章“Real-Time HandTracking and Gesture Recognition System”(by Nguyen Dang Binh,KyushuInstitute of Technology),采用了伪二维隐马尔科夫模型(P2-DHMMs)来识别静态手势。这个P2-DHMM包含5个超级状态（super-states），每个超级状态下又对手掌图像的行序列进行建模，超级状态模型的拓扑结构是线性的，只允许自己状态向自己转移或转向下一个超级状态。而这篇文章的方法是对空域中对不同姿态下子区域图像的关系进行建模，而不是对时间域里的姿态转移进行建模。

以上的方法主要解决了静态手势识别，而手掌开合手势动作有别于静态手掌姿态，它是个动态的过程，由一系列的姿态序列从姿态“开”到“合”或从“合”到“开”组成，包括这开合状态转换过程中的半开半合的中间状态。为了识别动态手势，最重要的事情就是从特征抽取的角度或从模型的角

度来完成对姿态在姿态序列中的变化进行描述或建模。

在专利文献2中，发明人为章鹏的申请号为CN201200147172的专利申请中，公开了一种基于分类器的手势识别方法，该方法采用所谓的深度差分布算子来从几帧相邻的图像里抽取出CDDD特征来表述动作发生时前后深度差的分布规律。该CDDD是一组高维的特征向量，其维数随手势识别单元里所采用的图像的帧数而增加。比如3帧图像作为一个手势识别单元的话将对应于128维的特征向量，如果是4帧图像则为192维。一方面高维的特征向量必然要求大量的样本用于分类器的学习，另一方面，象这样用固定图像帧数作为识别单元来描述深度差分布的方法，并不能很好解决帧数变化的手势的识别问题。此外该方面只适用于深度图像，这也限制了该方法在传统彩色图像上的应用。

在专利文献3(中国申请号CN2013100161691.1)中，作为本申请同一发明人的熊怀欣为了解决帧数长度变化着的动态手势识别，从特征抽取的角度提出一种自适应帧长开合手势识别的方法。该方法计算用来描述开合手势姿态特征在图像序列中的最大单向差异量。此处被采用进行最大差异特征量计算的手势姿态特征从开合手势过程看去必须具有特征取值单调性的特性。

动态手势通常表现为时间序列下一系列姿态或位置不同的图片，为识别动态手势，常规处理方法是取一固定长度的滑动窗口在输入的图像序列上滑动，用以选择相邻的几帧图像来作为一个动作识别单元。理想情况下，滑动窗口的长度恰好等同于完成一个手势动作所需的图像帧数。但事实上，手势动作的帧长并不是固定的而是随手势操作者不同而不同，即使对同一个操作者，手势动作的长度也不尽是相同的。而且图像设备的采样速率也能影响到手势单元的长度（如果采样率高，则完成一个手势所需的图像帧多，反之则少）。因此将滑动窗口的长度简单的设置为一个手势平均所用的帧数并不是最有效的方式，这将为手势的识别带去较多的虚警错误或漏检错误。由此，在滑动窗口长度不变情况下如何有效的处理手掌开合手势动作所对应的图像帧数变化的情况在手势的识别过程是一个需要面对的问题。

此外，在一些手势控制系统中，比如“HandMouse”采用手的移动来控制光标移动并结合手掌开合动作来模拟鼠标按键的这样的系统，在开合手势动作过程中通常因手跟踪点发生位移而导致光标位置的改变，因而需明确的检测到一个手势动作的起始点和终止点时间，这样才能在手势结束的时刻回溯光标到手势开始的时刻来执行对应的手势命令。这样的问题在以前的技术中未给出合理的解决方案或未提及。

发明内容

为了解决上述问题，本发明提出了一种基于隐马尔科夫模型（HMM）技术能简单快速且保持高识别率地实现手掌开合手势动作识别的方法。它不仅能自适应于手势帧数变化的情况而且能给出手势动作的起始和终止时刻。

根据本发明的一个方面，提供了一种手掌开合动作识别方法，包括：采用滑动窗口沿着输入图像序列移动，依次选择预定数量的连续图像序列作为一个识别单元；从作为所述识别单元的连续输入图像序列中的每一帧图像中分割出手掌形状图像；从每个所分割的手掌形状图像中抽取出代表手掌姿态的多个特征以便形成属于对应手掌图像的特征向量，并将属于同一识别单元的手掌形状图像的所抽取的特征向量的序列作为隐马尔科夫模型HMM的观察量序列；将所述观察量序列输入多个HMM中的每个独立手势HMM，计算出所述观察量序列属于对应HMM的概率；以及将所计算的概率作为特征输入分类器识别手势。

根据本发明的手掌开合动作识别方法，其中，所述手掌开合动作为手掌从闭合姿态到张开姿态的变化过程或从张开姿态到闭合姿态的变化过程，所述变化过程包括在闭合姿态和张开姿态之间的中间姿态。

根据本发明的手掌开合动作识别方法，其中，所述代表手掌姿态的特征是基于沿手掌主方向所在最小覆盖的四边形及手掌轮廓线所在凸包多边形的特征。

根据本发明的手掌开合动作识别方法，其中，所述特征量被量化为多个级别，每个特征值对应于一个量化的级别，并且量化后的特征向量对应于观测空间中的一观测状态。

根据本发明的手掌开合动作识别方法，其中，所述观察量序列的长度由开合手势图像帧数频率直方图及所指定的置信水平共同决定。

根据本发明的手掌开合动作识别方法，其中，所述多个HMM包括至少三个独立手势HMM，分别为开手势动作HMM、合手势动作HMM以及姿态没变化时的非开非合HMM。

根据本发明的手掌开合动作识别方法，其中，所述每个独立手势HMM包含N个隐状态分别对应于手掌开/合手势动作过程中的N种姿态，包括起始姿态、终止姿态及中间N-2个的过渡姿态，其中N为大于2的正整数。

根据本发明的手掌开合动作识别方法，其中，所述每个独立手势HMM都具有自身的拓扑结构来表明从一个隐状态到另外隐状态或到自身隐状态的状态转移关系。

根据本发明的另一个方面，提供了一种检测手掌开合手势动作起始帧和结束帧的方法，包括：根据上述手掌开合动作识别方法识别手掌开合动作；根据所述手掌开合动作的识别结果，解码该手势HMM模型来获得与被识别的观察序列匹配的最优的隐状态序列；以及从所获得的最优的隐状态序列确定出开合手势的起始帧和结束帧。

根据本发明的另一个方面，提供了一种手掌开合动作识别系统，包括：手掌图像分割单元，接收由图像采集单元输入的连续图像帧，采用滑动窗口沿着输入图像序列移动，依次选择预定数量的连续图像序列作为一个识别单元，并从所选择的每帧图像中分割出手掌图像；手掌姿态特征提取单元，从每个所分割的手掌形状图像中抽取出代表手掌姿态的多个特征以便形成属于对应手掌图像的特征向量，并将属于同一识别单元的手掌形状图像的所抽取的特征向量的序列作为隐马尔科夫模型HMM的观察量序列；HMM概率评估单元，将所述观察量序列输入多个HMM中的每个独立手势HMM，计算出所述观察量序列属于对应HMM的概率；以及手势分类器分类单元1050，将所计算的概率作为特征输入分类器识别手势。

附图说明

通过阅读结合附图考虑的以下本发明的优选实施例的详细描述，将更好地理解本发明的以上和其他目标、特征、优点和技术及工业重要性。

图1示出了本发明实施例的一个典型应用场景示例的示意图；

图2示出了根据本发明实施例的手掌开合手势动作的示意说明图；

图3示出了根据本发明实施例的基于隐马尔科夫模型（HMM）进行手掌开合动作识别方法的总体流程图；

图4A示出了在一定采样率下手掌“开”或“合”手势周期内图像帧数的分布直方图的一个实例；

图4B示意性示出了是对应于图4A的概率分布图；

图5A-5F示意性描述了提取描述手掌姿态的特征量的过程；

图6示意性表示了一合手势动作过程为例示意性表示HMM隐状态的定义；

图7示意性显示了3个不同手势HMM模型中隐状态转移的拓扑结构；

图8示意性描述了手势识别过程；

图9示出了根据本发明一个实施例的手势动作合并判别方法的流程图；

图10是示出按照本发明实施例的手掌开合手势识别（人机交互）系统的总体硬件框图。

具体实施方式

为了使本领域技术人员更好地理解本发明，下面结合附图和具体实施方式对本发明作进一步详细说明。

图1示出了本发明实施例的一个典型应用场景示例的示意图。。在操作者的正前方正对操作者位置放置一相机(深度相机或传统相机),操作者面对显示设备,运用他的手进行各种非接触式远程操作，如本发明所关注的手掌开合手势动作。在这个交互过程中，无需任何诸如鼠标红外笔等特定的外部辅助设备，只是使用手势并结合当前操作上下文信息即可。

图2示出了根据本发明实施例的手掌开合手势动作的示意说明图。此处的手掌开合手势动作是一个手掌从姿态“开”到姿态“合”或从“合”到“开”的状态变化序列，包括在这两者最终状态间逐步变化的半开半合中间状态。“开”姿态为五指张开，“合”为五指闭合为拳头状或五指汇聚为一点呈爪状。在一个手势周期内通常经历的图像帧数不等，这主要依赖于操作者动作快慢的习惯和相机的采用速率。以正常的操作速度和30帧/秒采样率计算，完成单个开/合手手势的图像帧数从2帧到6帧不等。

图3示出了根据本发明实施例的基于隐马尔科夫模型（HMM）（将在后面进行简单介绍）进行手掌开合动作识别方法的总体流程图。如图3所示，在采用该方法的系统启动之后，开始本发明识别方法。首先，在步骤S31处，通过图像采集单元1010（将在下面参照图10描述），诸如摄像机，拍摄手掌所在区域的场景的图像，并将连续拍摄的图像输入到手掌图像分割单元或模块1020（将在下面参照图10描述）。这里输入的图像序列，可以是直接从拍摄图像或拍摄视频的本地摄像机按时间顺序输入的，也可以是远程通过有线或无线网络输入的等等。另外，这里的图像可以是深度图像也可以是普通彩色图像。

随后，要识别图像中手掌的手势，需要先将手掌从图像中分割出来。因此，从所接收的图像序列里分割出手掌图像是提取特征前须先完成的步骤。因此，在步骤S32处，手掌图像分割单元或模块1020接收从图像采集单元1010发送来的连续图像序列，并从所接收的图像序列里分割出手掌图像，并经过一个长度为K的滑动窗口从手掌图像序列里依次取出K帧图像组成一个手势识别单元输送到手掌姿态特征提取单元1030（将在下面参照图10描述）。分割出手掌图像可以采用在深度图上基于深度阈值的方法进行前景分割，也可以采用诸如肤色检测、或连通域分析的方法等诸多技术来实现手掌图像的分割。无论采用何种分割技术或使用何种类型的图像，经过分割后，背景或非手掌部分的影响能从输入的图上去除掉，最终得到比较干净的手掌图像（手腕之上的部分），以便于从中抽取表征手掌姿态的特征量。作为本发明的示例，采用了在深度图上基于深度阈值的方法从图像中分割出手掌图像。

之所以采用滑动窗口依次在输入的图像序列上移动以选择出几帧图像当作一个手势识别单元，是因为开合手势动作是个手掌姿态变化序列。具体而言，本发明是为了识别一个动作过程，而不是一个瞬间姿态，因此，需要每次识别代表一个动作过程的一组图像。为此，本发明针对连续的图像帧设置了一个滑动窗口来输入待识别的包含多个连续图像的识别单元。

滑动窗口的长度也就是图像观测序列的长度，该长度是根据一个手势周期内图像帧数分布图和一给定的置信水平来确定。图4A显示了在采样率为30帧/秒下一个手掌“开”或“合”手势周期内图像帧数的分布直方图的示意图。对于不同采样率，直方图的分布会有所不同。如图4A所示，其中每个竖直柱下面的数字表示图像帧数，竖直柱的高度表示一个手掌开合手势动作需要该图像帧数的统计数值，按从左到右的图面顺序，各个竖直柱分别表示一个手掌“开”“合”手势恰好在1帧图像内完成的情况的统计数值、一个手掌开合手势恰好在2帧图像内完成的情况的统计数值、一个手掌开合手势恰好在3帧图像内完成的情况的统计数值、一个手掌开合手势恰好在4帧图像内完成的情况的统计数值、一个手掌开合手势恰好在5帧图像内完成的情况的统计数值、一个手掌开合手势恰好在6帧图像内完成的情况的统计数值。如图4A所示，在采样率为30帧/秒的情况下，一个手掌开合手势动作会在3到4帧间完成的统计值明显高于其他帧数的统计值。图4B示意性示出了是对应于图4A的概率分布图。从图4A的实验结果可知，表明通常大部分开/合手势均能在3到4帧间完成，不同的图像帧数对应于不同的概率。如图4B所示，在纵轴上指定一个置信水平,沿水平方向与概率分布图交点所对应的帧数K,可作为滑动窗口的长度来选择K帧图像进行手势识别。比如，对置信水平0.9，其对应着5帧/手势。此处，置信水平代表了多大程度上一个开/合手势能在K帧图像中完成。例如0.9置信水平，意味着90%的情况下能覆盖住真实的手势开合情况，

根据如上所述方式基于指定置信水平和开合手势图像帧数频率直方图来确定一个手势动作识别单元的帧数，能够提高手势识别的效率和准确度。

因此，如图4B所示，在一具体实施例中可选5或6帧(K=5或6)图像为一手势识别单元。因此每个识别单元对应一个长度为5或6的观测量序列。接下来我们将依据这个观测序列的特性通过隐马尔科夫模型来识别出手势动作。

为了识别手掌的手势，在步骤S33处，手掌姿态特征提取单元1030从所接收的一个观测量序列（K帧）的手掌图像的每一帧图像上提取描述手掌姿态的特征量作为隐马尔科夫模型（HMM）的观测量。

尽管隐马尔科夫模型是现在常用的一种数学工具，但是为了便于理解以及更好的描述本发明的方法，下面简单介绍一下隐马尔科夫模型，然后再根据本发明的实施例介绍如何利用隐马尔科夫模型实现手势的识别。

首先，隐马尔科夫模型源于马尔科夫模型（Markov Model），是马尔科夫链的一种，两者都一种统计模型，广泛应用语音识别，行为识别，文字识别以及故障诊断等领域。隐马尔科夫模型是马尔科夫链的一种，其所要还原的状态不能直接观察到，但能通过观测向量序列观察到。举例而言，在一个典型的通信系统中，如果s1，s2，s3...表示信息源发出的信号，而o1,o2,o3...是接受器接收到的信号。通信中的解码就是根据接收到的信号o1,o2,o3...还原出发送的信号s1，s2，s3...。但是，信息源发出的信号通常是接受器所不能直接获得的，因此人们提出了一种叫做“隐马尔科夫模型（HiddenMarkovModel）”来解决还原原始发送信号的问题。

因此，通常，隐马尔科夫模型（HMM）是定义为包含有限状态S=S₁…S_N的离散随机过程，并具有确定的状态转移概率分布a_ij=_p(q_t+1=S_j|q_t=S_i)（表示从状态S_i过渡到S_j的可能性），此处的Q=(q₀,...,q_T)是对应于时间t=0,1,...,T.的状态序列。初始状态的概率分布表示为π=(π₀,...,π_N)，此处π_i=p(q₀=S_i)。这个过程中状态是不能被直接观测的，因此称之为隐状态。虽然隐状态不可直接观测到，但可通过观测向量序列间接获取。这里每个观测量都是通过某些概率密度分布表现为各种状态，每一个观测量具有仅依赖于当前状态的相应概率密度分布，记为b_j(m)=b_j,m=p(O_t=m|q_t=S_j),m=0,1,...,M。隐马尔科夫模型假定p(q_t+1|q_t,q_t-1,...q₀)=p(q_t+1|q_t),p(O_t|q_t,q_t-1,...q₀)=p(O_t|q_t).即状态转移概率不随时间变化。

一个隐马尔科夫模型可记为λ=(N,M,a_i,j,b_jm,π)，给定一个HMM模型λ和观测序列O,我们可计算出该观测序列最可能匹配某个动态系统的的出现概率，同时也能根据Viterbi算法推算出最可能产生观测序列O的隐状态状态序列S(s₀,...,s_T)，还能定出最可能产生出对应观测序列的HMM模型的最优参数(a_i,j,b_jm,π)。以本发明所提到的手势识别为例，当机器接收到到一系列图像中的连续的手势姿态图像观测序列O（o1,o2,o3…）时，要根据这组图像序列来推测所拍摄到的这只手在被拍摄的这段时间内实际上所作出的动作过程s1,s2,s3…。很显然，人们的某种手势的变化起于何种姿态，结束于何种姿态，中间经过何种姿态，其组合非常多，但是究竟是那种组合导致了我们所接收到的手势图像序列，就需要通过一种方式来推测最有可能性的一个手势组合。用数学语言来描述，就是在已知o1,o2,o3,...的情况下，求使得信号s1，s2，s3...的条件概率，例如P(s1,s2,s3,...|o1,o2,o3....)达到最大值的那个句子s1,s2,s3,...。其中P(o1,o2,o3,...|s1,s2,s3....)，在本发明中表示原始手势信号s1,s2,s3...被显示为图像序列o1,o2,o3,...的可能性。s1,s2,s3,...就是一个马尔科夫链，也就是说，si只由si-1决定，并且第i时刻的接收信号oi只由发送信号si决定（又称为独立输出假设,即P(o1,o2,o3,...|s1,s2,s3....)=P(o1|s1)*P(o2|s2)*P(o3|s3)...，最终，就可以很容易利用算法Viterbi找出上面式子的最大值，进而找出要识别的句子s1,s2,s3,...。上述这种模型就叫隐马尔科夫模型。之所以用“隐”这个词，是因为原始状态s1,s2,s3,...是无法直接观测到的。在利用隐马尔科夫模型解决语言处理问题前，先要进行模型的训练。

很显然，要采用HMM模型通过图像中的手势图像序列来获取手势的原始动作过程就需要从手势图像序列中提出描述手掌姿态的特征量。图5A-5F示意性描述了提取描述手掌姿态的特征量的过程。

通常，由于相机精度的不足和被摄物体离距镜头有一定距离的影响（操作者的手通常保持离相机1米之外），因此，所得到的手掌图像在输入图像中所占据的面积既小同时也包含了较多噪音。为得到鲁棒的识别结果，本发明基于增大手掌“开”和“合”姿态之间各自特征差异，采用了与手掌前景图像相关的两种几何形状来计算不同姿态的特征，由此我们能更好的区分这两种姿态的不同。本发明所用到的3类几何形状是：（i）沿手掌主方向所在手掌最小覆盖的四边形，如图5A和5D所示，其是指能覆盖住手掌图像的面积最小的四边形，其中手的主方向可通过主成分析PCA方法计算得到；（ii）手掌轮廓线所在凸包多边形，如图5B和5E所示，此处凸包定义为点集Q的最小凸多边形P,点集Q中的任一点要么在凸多边形P的边上，要么在P的内部；以及（iii）手掌的轮廓线，如图5C和5F示出了手掌“合”和“开”状态下的手掌轮廓线。很显然，图5A-5C显示手的“合”的姿态，而图5D-5F显示了手的“开”的姿态。

本发明从每一帧图像不同的抽象层提取出几个几何特征量来描述手掌姿态的不同。

抽取如下特征来描述手掌的姿态，分别为：

f1=Wb/Hb，其中Wb和Hb是沿手掌主方向轴得到最小覆盖四边形的宽和高；

f2=Lc/Lp，其中Lc手掌轮廓线的凸包多边形长度,Lp则是手掌轮廓线长度；以及

f3=Ac/Ap,此处Ac是手掌轮廓线的凸包多边形面积，Ap是手掌轮廓线围成的面积。

计算上述特征量所需的全部函数实现均可在开源项目OpenCV中找到，因此不在此详细描述这些阐述的获取过程。

上述三个特征量组成的向量{f1,f2,f3}描述了手掌在开合中的不同姿态，该向量只依赖于被描述手掌的姿态。考虑到该向量{f1,f2,f3}中每个分量是连续的比值，为了更好的映射到离散的观测空间里去，每个分量都会被量化几个量化级，由此每个连续的比值分量值就对应于一个离散的量化值或符号。此处量化的方法可为等间隔量化或等量量化。

对向量{f1,f2,f3}而言，每个分量都有其从最小到最大取值的范围。等间隔量化方法是将这取值范围等分为几份，比如，如果一分量的取值范围为{0.8,1.3}，我们可把其分为5个等长部分，每部分长度为0.1，它们依次为{0.8,0.9}{0.9,1.0},{1.0,1.1},{1.1,1.2},{1.2,1.3}.

同样的，向量{f1,f2,f3}中每个分量都有着其各自的频率分布直方图，等量量化方法是确定每个量化区间的长度以确保每个量化的区间具有等量的数目。通常，每个量化的区间长度不同，除非该分量服从均匀分布。

每个特征分量可量化为5个级别，因此对向量{f1,f2,f3}而言一共有125(5x5x5)观测状态。因此，每帧图像中的手势将对应于这125个观测状态中的一个状态。

以上针对图5A-5F描述了从每帧分割出的手势图像中提取表达该手势的特征向量的过程。如此，通过对K帧滑动窗口内每帧图像提取特征观测量，每帧图像对应于一个观测量，K帧图像就形成一个长度为K的观测序列。

接着，在步骤S34中，HMM概率评估单元1040（将在下面参照图10描述）评估所接收的观测量序列在各个手势所对应着的HMM模型中出现的概率。具体而言，从K帧图像里提取出的观测序列被分别送到3个HMM手势模型中进行概率评估。此处每个HMM都对应于一个确定的手势动作。在本申请中，至少有3个HMM模型用于实现手掌开合手势的识别，分别是“开”手势动作HMM,、“合”手势动作HMM、以及姿态没变化时即非开非合所对应着的HMM。通过HMM概率评估，能获得该观察序列从属于各个手势动作的概率。

很显然，在采取步骤S34来评估每个观测量序列在各个手势所对应着的HMM模型中出现的概率之前，需要先准备对应的HMM模型。

图6示意性表示了一合手势动作过程为例示意性表示HMM隐状态的定义。如图6所示，N个典型的手掌姿态被选作手掌开合手势动作HMM模型的隐状态，包括起始姿态、终止姿态及中间N-2个的过渡姿态。此处，为简化图像表示，N=4。但是在其优化实例中，N可等于5或6。如图中所示，不同的姿态转换路径形成了不同的手势。图6示意显示合手势动作的状态可能转移路径，图中的上一行显示了手势合过程，其表示了手势的隐状态序列，其中采用4帧表示。下面一行的序号1、2、3、4这四个序号分别表示对应的隐状态Si，并通过箭头表示了可能的变化路径。图6所示的过程也定义了一种手掌合手势的HMM模型，其对应的状态转换概率矩阵如下：

A = [\begin{matrix} a 11 & a 12 & a 13 & a 14 \\ 0 & a 22 & a 23 & a 24 \\ 0 & 0 & a 33 & a 34 \\ 0 & 0 & 0 & a 44 \end{matrix}]

根据图6所示，对一个图像序列长度为5帧（K=5）的合手势路径可以为如下状态转移中的任何一条：

S₂→S ₂ →S ₄→S₄→S₄(2),S₁→S₁→S ₁ →S ₃ →S ₄(3)

S ₁ →S ₂ →S ₃ →S ₄→S₄(4),S ₁ →S ₂ →S ₂ →S ₃ →S ₄(5),…

此处每条路径括号里的数字表明有效的手势帧长度（下划线部分正是合手势的有效帧）。

显然地，采用HMM隐马尔科夫模型能从建模角度描述帧序列长度变化的手势，从而进一步实现手势的识别。

图6仅仅描述了一种手势变化的模型，每种手势都对应着一个特有的HMM模型。而对于手势开合的识别，至少需3个HMM模型，分别为“开”手势动作HMM、“合”手势动作HMM、以及姿态没变化时即非开非合所对应着的HMM。图7示意性显示了3个不同手势HMM模型中隐状态转移的拓扑结构。如图7所示，同样，N个典型的手掌姿态被选作手掌开合手势动作HMM模型的隐状态，包括起始姿态、终止姿态及中间N-2个的过渡姿态。此处，为简化图像表示，N=4。图中的上一行图片显示了手势的N个隐状态，其隐状态分别用下面三行中的序号1、2、3、4来表示，这三行中从上到下第一行表示与图6中所示的合手势转移状态一样，第二行表示开手势转移状态，而第三行表示动作无变化时的状态转移。

因此，如图7所示，

对合手势而言其状态转移概率矩阵为如下：

A = [\begin{matrix} a 11 & a 12 & a 13 & a 14 \\ 0 & a 22 & a 23 & a 24 \\ 0 & 0 & a 33 & a 34 \\ 0 & 0 & 0 & a 44 \end{matrix}]

对开手势而言其状态转移概率矩阵为如下：

A = [\begin{matrix} a 11 & 0 & 0 & 0 \\ a 21 & a 22 & 0 & 0 \\ a 31 & a 32 & a 33 & 0 \\ a 41 & a 42 & a 43 & a 44 \end{matrix}],

对姿态没变化时的手势其状态转移概率矩阵可表示为如下：

A = [\begin{matrix} a 11 & a 12 & 0 & 0 \\ a 21 & a 22 & a 23 & 0 \\ 0 & a 32 & a 33 & a 34 \\ 0 & 0 & a 43 & a 44 \end{matrix}]

如上所述，其中a_ij=_p(q_t+1=S_j|q_t=S_i)，表示从状态S_i过渡到S_j的可能性。

一旦隐状态数目N、观测状态数M、观测序列长度K、以及每种手势HMM模型的拓扑结构被确定下来，就可在训练集上对HMM参数进行训练确定。所有的训练集样本已经被提前人工分好类，每个样本都是序列长度为K的图像序列。对HMM模型的训练目标是调整模型的参数λ=(a_i,j,b_jm,π)以最大化观测序列出现的概率p(O|λ)。训练采用Baum-Welch算法进行，是个迭代的过程。

在对每帧图像提取特征量并对特征进行量化后，每帧手掌图像将对应于M(M=125)个观测状态中的其中一个。K帧图像就形成了长度为K的观测序列O。对于步骤S34中进行概率评估，具体来说，就是将每个观测序列O送入到3个已经训练好的手势HMM模型中计算该观测序列O从属于对应手势的概率。这个概率的计算采用前向算法（公知的技术）进行。最终我们将分别得到3个手势的概率値p(O|λ_i),i=1,2,3，这将是进一步进行手势变化过程识别的基础。

从这3个概率值p(O|λ_i)去判断手势的常规做法是找到最大那个概率，以最大概率所对应着的手势通常被看做最可能的手势结果。考虑到每个手势HMM模型都是独立的评价系统，因此一种更好的方式是建立综合评价模型来给出最终的识别结果。

最后，在步骤S35处，手势分类器分类单元1050（将在下面参照图10描述）基于各个HMM模型概率评估结果用训练好的分类器进行手势识别。

本发明中，基于HMM概率评估结果，分类器技术被应用来完成这最终的手势识别。作为分类器输入的是是这3个概率值p(O|λ_i)和其它的特征，其它特征比如在国内专利“201200147172”中提到的最大差异化特征。此处的其它特征是可选的非必须。分类器给出的输入就是手势的类型，用数字标签来表示手势的分类结果，0为无姿态变化，1为手掌闭合，2为手掌张开。

实现对一个识别单元的分类获得手势标签，可对此处进行分类的分类器较多，诸如决策树分类器，随机森林分类器，AdaBoost,支撑向量机SVM和BP神经网络等。在分类识别前，我们完成对分类器的训练。训练是通过3个阶段来实现的。对每个训练样本（长度为K的图像序列），首先是完成从图像序列里提取出手掌姿态特征序列即获得HMM观测序列,然后将这观测序列依次送到训练好的3个手势HMM中计算其各自的概率p(O|λ_i)，最后这3个概率值(如利用其它特征，则其它特征也一起提取出来，和HMM概率值一起组成输入特征量)和其对应的人工标定的手势分类标签一起组成分类器的训练样本送入分类器里进行训练。

图8示意性描述了手势识别过程。如图8所示，其简单地分成三列，每列表达了一个步骤。如上针对第一实施例所述，相机采集到图像序列按时间顺序送到手势识别系统中，首先经过一个长度为K的滑动窗口在输入的图像序列上依次移动来选择K帧图像组成一个识别单元进到下一步处理。接着，在每单帧图像上提取出手掌姿态的特征，这些特征可看作为手势HMM模型的观测量，如此，每帧图像对应于一个观测量，K帧图像就形成一个长度为K的观测序列。从K帧图像里提取出的观测序列被分别送到3个HMM手势模型中进行概率评估。此处，每个HMM都对应于一个确定的手势动作。在本发明中至少有3个HMM模型用于实现手掌开合手手势的识别，分别是开手势动作HMM、“合”手势动作HMM、以及姿态没变化时即非开非合所对应着的HMM。通过HMM概率评估，能获得该观察序列从属于各个手势动作的概率。最后，这些概率评估的结果（3个概率值）将作为输入被送到训练好的分类器里进行分类来实现手势的识别。

进一步，在实现了手势识别之后，如果一个观测序列O被识别为标签1（合手势）或标签2（开手势），根据隐马尔科夫模型理论，我们可采用Viterbi算法（公知技术）解码出HMM的隐状态获得与观测序列匹配的最优的姿态序列，进而我们能从这姿态序列里确定出开合手势的起止帧序号和终止帧序号。比如，如果一个被评定为合手势的HMM解码后的隐状态序列为S1→S1→S1→S3→S4,，显然地第3帧是手势的起始帧而末尾帧为手势的终止帧。这些信息为类似HandMouse系统里回溯光标位置提供了精确的信息。

由于滑动窗口在输入的图像序列上依次移动来选择K帧图像组成一个识别单元，因此每个识别单元都与它近邻的识别单元具有部分重叠的帧图像，故而我们需要最后一步处理，即在分类结果的基础上最终去判定手势动作，以完成从帧图像到动作层面的手势动作判断。这步的处理主要方法是制定一些规则去合并相邻识别单元的手势分类结果，比如使用完成一个手势动作所需的时间条件约束（一个手势动作的持续时间应在临界值t1,t2之间，t1<t2，t1,t2可通过统计给出）。

总体而言，当一个识别单元通过分类器得到分类结果标签后，首先检查该分类结果标签是否与前一识别单元的结果相同。如果不同，则我们闭合前一个候选动作，立刻开启一个新的候选动作，并记录下新的候选动作的起始和结束时间，并等待下一识别单元分类结果出来；如果当前标签与前一单元识别结果相同，则更新当前候选动作的数据（更新结束时间）并检查当前候选的动作是否满足手势动作的条件。如果符合手势动作的条件，则我们产生一个手势动作发生的消息以便和外部设备进行交互，并从新开始下一个新的动作候选。无论手势是否被检测出，我们都继续处理下一单元分类识别的结果，即下一分类标签的输入。

图9示出了根据本发明一个实施例的手势动作合并判别方法的流程图。具体而言，如图9所示，动作判定单元1060（将在下面参照图10描述）接收一个识别单元通过分类器得到的分类结果标签(S901)。

首先，动作判定单元1060判断是否存在候选动作（S902）。所谓的“候选动作”表示将被用来作出人机交互的操作动作。是否存在候选动作可用一个标志设置或复位来表示，如Fcandidate=0（不存在候选动作），Fcandidate=1(存在候选动作)。在初始状态下，为不存在候选动作，即，最初Fcandidate=0。

如果不存在候选动作（S902中的“否”条件处理分支），则判断所输入的分类结果标签是否为1或2，即，是否被分类为开手势或合手势（S911）。如果标签既不是1也不是2，即分类结果不是开手势或合手势（S911中的“否”条件处理分支），则返回到步骤S901，输入下一分类标签。如果标签是1或2，即分类结果是开手势或合手势（S911中的“是”条件处理分支），则开始当前新的候选动作，例如设置Fcandidate=1，并存储当前候选动作标签为该标签，并记录下当前候选动作的起始和结束时间（S912）。

如果在S902中确定存在候选动作（步骤S902中的“是”条件处理分支），则检查该输入的分类结果标签是否与当前候选动作标签（即，前一识别单元的结果）相同(S903)。

如果在S903中确定该输入的分类结果标签与当前候选动作标签不同（S903中的“否”条件处理分支），则闭合当前的候选动作(S908)，设置Fcandidate=0,即，放弃继续处理当前候选动作。然后判断输入的分类结果标签是否为1或2，即是否被分类为开手势或合手势（S909）。如果标签既不是1也不是2，即分类结果不是开手势或合手势（S909中的“否”条件处理分支），则返回到步骤S901，输入下一分类标签。如果标签是1或2，即分类结果是开手势或合手势（S909中的“是”条件处理分支），则开始当前新的候选动作，例如设置Fcandidate=1，并存储该标签为当前候选动作标签，并记录下当前候选动作的起始和结束时间（S910），并返回到步骤S901等待输入下一识别单元的分类结果。

如果在S903中确定该输入的分类结果标签与当前候选动作标签相同（S903中的“是”条件处理分支），则更新当前候选动作的数据（更新结束时间）（S904），然后检查当前候选的动作是否满足手势动作的条件（S905）。如果符合手势动作的条件，则产生一个手势动作发生的消息以便和外部设备进行交互（S906），并结束当前的候选动作，例如设置Fcandidate=0（S907），返回到步骤S901。如果在步骤S905判断当前候选的动作不满足手势动作的条件，则返回到步骤S901。在上述过程中，无论手势是否被检测出，都继续处理下一单元分类识别的结果，即下一分类标签的输入。

图9中的步骤S905，检测候选动作是否满足动作条件，由此过滤掉不合适候选，例如，使用完成一个手势动作所需的时间条件约束来过滤掉不合适后续，例如，一个手势动作的时间应该足够长，如果时间长度不够，例如小于1/10秒，则不认为这是一个合格动作，只有当时间长度足够时，才判定其是合格动作，并进行相应人机交互；再例如，在某些应用示例中，手势动作起始时的跟踪点位置与手势动作结束时的跟踪点位置应该接近，因而可以根据跟踪点位置是否接近来过滤掉不合适的候选动作。

根据上述实施例的方法，可以合并相邻识别单元的手势分类结果，更准确地给出手掌开合手势动作的起始帧和结束帧，从而更恰当地进行人机交互。

图10是示出按照本发明实施例的手掌开合手势识别（人机交互）系统100的总体硬件框图。如图10所示，手掌开合手势识别系统10包括：手掌图像分割单元1020，接收由图像采集单元1010输入的连续图像帧，并从所接收的图像中分割出手掌图像；手掌姿态特征提取单元1030，从所接收的一个观测量序列（K帧）的手掌图像的每一帧图像上提取描述手掌姿态的特征量作为隐马尔科夫模型（HMM）的观测量；HMM概率评估单元1040，评估所接收的观测量序列在各个手势所对应着的HMM模型中出现的概率；手势分类器分类单元1050，基于各个HMM模型概率评估结果用训练好的分类器进行手势识别；动作判定单元1060，判断候选动作是否符合手势动作的条件；手势命令解释单元1070，将符合手势动作的条件的候选动作解释为具体的计算机操作命令。图像采集单元1010，诸如摄像机，拍摄手掌所在区域的场景的图像，其可以包含在手掌开合手势识别系统10中，也可以作为单独的设备与手掌开合手势识别系统10相连来实现人机交互。

综上所述，本发明的主要思想是采用马尔科夫链来对手势姿态转变序列进行建模并采用隐马尔科夫模型(HMM)来对评估输入的观察序列从属于某种手势的概率。每个确定的手势均对应一个隐马尔科夫模型(HMM)，每个HMM均包括N个隐状态分别对应于开合手势动作过程中的N个姿态，包括起始姿态，终止姿态及中间N-2个的过渡姿态。同时每个特定手势的HMM具有自身独特的拓扑结构来表明对该手势而言的可能的从一个隐状态到另外或到自身隐状态的状态转移关系。从每个输入图像中抽取出的描述手势姿态的特征将被当做为HMM与隐状态关联着的观测量，由此我们能从建模的角度来实现对帧长变化着的手势的运动描述。

考虑到每个手势的HMM模型是个独立的评估系统，在各个HMM概率评估的基础上，本发明也采用了分类器技术综合考量来实现手势动作的最终识别。

由于手势HMM模型中每个隐状态都对应于手掌的姿态，通过威特比（Viterbi）算法可完成对HMM模型的解码获得与观察序列关联着的最优姿态序列。从解码后的姿态序列里，我们可确定出开合手势的起始和终止时刻在输入序列里的图像帧位置。

除了使用隐马尔科夫模型技术，增大开合手姿态之间的特征差异也是本发明的一个重要思想。不管是采用最新的3D深度相机还是传统的相机，由于被摄物体距离远近不同和设备精度限制，所采集到的手掌图像通常都包含较多的噪音。尽管对手掌开合姿态而言，前景面积的大小不同是最明显的区别特征，但考虑到图像噪音的影响，单纯手掌面积的差异并不是足以区分出这两者的姿态。因此本发明创造性的采用了与手掌前景图像相关的两种几何形状来计算不同姿态的特征，由此我们能更好的区分这两种姿态的不同。本发明种所用到的2类几何形状是(i)手掌轮廓线所在凸包多边形(ii)沿手掌主方向所在手掌最小覆盖的四边形。

本发明的最大突出特性就是使用了马尔科夫链来对开合手势姿态转换序列进行建模，这使得我们不单能从模型的角度来解决帧长变化着的手势的描述问题，同时也能基于隐马尔科夫模型（HMM）对观察序列作出概率评估并据此结果来正确完成手势的识别分类。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置（包括处理器、存储介质等）或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

还需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种手掌开合动作识别方法，包括：

采用滑动窗口沿着输入图像序列移动，依次选择预定数量的连续图像序列作为一个识别单元；

从作为所述识别单元的连续输入图像序列中的每一帧图像中分割出手掌形状图像；

从每个所分割的手掌形状图像中抽取出代表手掌姿态的多个特征以便形成属于对应手掌图像的特征向量，并将属于同一识别单元的手掌形状图像的所抽取的特征向量的序列作为隐马尔科夫模型HMM的观察量序列；

将所述观察量序列输入多个HMM中的每个独立手势HMM，计算出所述观察量序列属于对应HMM的概率；以及

将所计算的概率作为特征输入分类器以识别手势动作，并为识别出的手势动作赋予对应的标签。

2.如权利要求1所述的手掌开合动作识别方法，还包括：

当两个连续手势识别结果的标签不同并且这两个标签中的后一标签表示为开手势或合手势时，将后一标签所对应的手势动作作为候选输出动作；以及

当两个连续手势识别结果的标签相同时，采用后一标签表示的手势结束时间更新前一手势的结束时间从而对候选输出动作进行更新，并且在更新后的候选输出动作的时间长度大于一个预定时间阈值时，通知发生手势动作。

3.如权利要求2所述的手掌开合动作识别方法，其中，

所述手掌开合动作为手掌从闭合姿态到张开姿态的变化过程或从张开姿态到闭合姿态的变化过程，所述变化过程包括在闭合姿态和张开姿态之间的中间姿态。

4.如权利要求1或2所述的手掌开合动作识别方法，其中，所述代表手掌姿态的特征是基于沿手掌主方向所在最小覆盖的四边形及手掌轮廓线所在凸包多边形的特征。

5.如权利要求1或2所述的手掌开合动作识别方法，其中，所述特征量被量化为多个级别，每个特征值对应于一个量化的级别，并且量化后的特征向量对应于观测空间中的一观测状态。

6.如权利要求1或2所述的手掌开合动作识别方法，其中，所述多个HMM包括至少三个独立手势HMM，分别为开手势动作HMM、合手势动作HMM以及姿态没变化时的非开非合HMM。

7.如权利要求1或2所述的手掌开合动作识别方法，其中，所述每个独立手势HMM包含N个隐状态分别对应于手掌开/合手势动作过程中的N种姿态，包括起始姿态、终止姿态及中间N-2个的过渡姿态，其中N为大于2的正整数。

8.如权利要求1或2所述的手掌开合动作识别方法，其中，所述每个立手势HMM都具有自身的拓扑结构来表明从一个隐状态到另外或到自身隐状态的状态转移关系。

9.一种检测手掌开合手势动作起始帧和结束帧的方法，包括：

根据权利要求1-8之一所述的手掌开合动作识别方法识别手掌开合动作；

根据所述手掌开合动作的识别结果，解码该手势HMM模型来获得与被识别的观察序列匹配的最优的隐状态序列；以及

从所获得的最优的隐状态序列确定出开合手势的起始帧和结束帧。

10.一种手掌开合动作识别系统，包括：

手掌图像分割单元，接收由图像采集单元输入的连续图像帧，采用滑动窗口沿着输入图像序列移动，依次选择预定数量的连续图像序列作为一个识别单元，并从所选择的每帧图像中分割出手掌图像；

手掌姿态特征提取单元，从每个所分割的手掌形状图像中抽取出代表手掌姿态的多个特征以便形成属于对应手掌图像的特征向量，并将属于同一识别单元的手掌形状图像的所抽取的特征向量的序列作为隐马尔科夫模型HMM的观察量序列；

HMM概率评估单元，将所述观察量序列输入多个HMM中的每个独立手势HMM，计算出所述观察量序列属于对应HMM的概率；以及

手势分类器分类单元，将所计算的概率作为特征输入分类器识别手势。