CN103593680A

CN103593680A - 一种基于隐马尔科夫模型自增量学习的动态手势识别方法

Info

Publication number: CN103593680A
Application number: CN201310585572.6A
Authority: CN
Inventors: 申富饶; 胡孟; 赵金熙
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2013-11-19
Filing date: 2013-11-19
Publication date: 2014-02-19
Anticipated expiration: 2033-11-19
Also published as: CN103593680B

Abstract

本发明公开了一种基于隐马尔科夫模型自增量学习的动态手势识别方法，包括以下步骤：(1)手势检测与跟踪；(2)特征提取与矢量量化；(3)模型训练与手势识别；(4)增量学习。本发明通过使用本发明提出的基于隐马尔科夫模型增量学习的动态手势识别方法，可以准确地识别手势操作人在摄像头前完成的动态手势操作，并能将识别后的手势数据用于旧模型的增量学习以调整模型参数中，从而使旧模型能动态适应未来手势数据中产生的新变化，对手势数据中的调整与更变能有更好的适应性，使得模型能不断随着手势数据的调整，对将来未知的手势识别有更好的鲁棒性。

Description

一种基于隐马尔科夫模型自增量学习的动态手势识别方法

技术领域

本发明涉及计算机视觉、图像处理、模式识别等领域，特别是一种基于隐马尔科夫模型自增量学习的动态手势识别方法。

背景技术

随着科学技术的飞速进步与发展，计算机科学也随之迅速腾飞。当前，计算机领域朝着更高速、更高效、更高计算速率方向发展的同时，也向着更便利、更简洁、更舒适的人机交互领域阔步前进。

特别是伴随着手机、平板电脑等一系列电子消费产品的火热销售，提供更好的人机接口，方便人们与计算机更加自然和谐的沟通与交流，成为了计算机领域中一个相当有潜力的经济引爆点。

当前，在数码产品及数码设备领域，越来越多的产品采用崭新的技术与理念，向消费者提供了更加方便快捷的交互方式，从而也获得了消费者极大地青睐。例如，在数码照相机领域，人脸识别、笑脸识别等技术已经走向成熟和商业化，广泛地应用在数码照相机中，通过使用这些应用，可以更加实时精准地捕获拍摄对象瞬间动作和表情；在游戏领域，美国微软公司2011年推出的kinect体感游戏设备能准确捕捉游戏玩家的手势及身体移动等操作，进而控制游戏中的角色完成一系列任务；在移动通信设备领域，韩国三星电子公司2013年3月推出的Galaxy S4拥有了基于手机上普通摄像头的手势控制系统，可以通过简单的手势控制，完成拍照、阅读邮件、打开文件夹等功能，极大地方便了人机交互，相信在不久的未来，基于手机普通摄像头的各种应用和游戏也将速度丰富起来，而手势控制和手势识别在移动通信设备上的巨大潜力和市场又将反向促进手势控制和手势识别技术的不断深入发展。

目前，动态手势识别技术已在工业界和学术界展开了深入的研究和使用，并取得了非常好的经济效益和学术成果。

在工业界，腾讯研究院2012年发布的基于普通摄像头的手势控制PPT操作的“手势达人”软件，能较好的通过手势控制PPT的简单操作，但计算机能识别的指令不多，且识别效果一般；微软公司通过kinect体感设备中的三维摄像头和红外感应设备，能实时、准确地跟踪操作人的动作，进而识别出操作人的一系列动作指令，目前基于kinect摄像头的体感游戏在游戏玩家圈内极度风靡一时；韩国三星电子公司发布拥有基于普通手机摄像头的动态手势识别和控制软件的Galaxy S4手机，更是让三星电子一举超过美国苹果公司，坐上了全球手机销售数量及销售额第一的宝座。

在学术界，动态手势识别技术也是一个充满挑战，并引起科研人员长期关注和研究的领域。在国内科研机构中，东北大学信息科学与工程学院的覃文军、吴东成等通过使用基于傅里叶描述子-BP神经网络，实现了静态手势的识别；重庆邮电大学智能系统及机器人研究所的张毅、张娇等利用Camshift跟踪和Kalman预测实现手部跟踪，进而通过动态手势的识别结果控制轮椅运动；在国外科研机构中，日本的J.Yamato、J.Ohya、K.Ishii率先使用隐马尔科夫模型识别网球运动员的六种不同的姿势，取得了不错的识别率；埃及的Mahmoud Elmezain、Ayoub Al-Hamadi利用深度摄像头完成更准确的手部跟踪，并利用隐马尔科夫模型完成动态手势识别。这些方法都可以实现比较好效果的手势识别，但它们中间有些项目使用的并非普通摄像头来提高识别率，使用普通摄像头的项目在复杂背景、存在手和脸部干扰时效果不甚理想，进而影响识别率的问题。这些缺点在本发明中都进行了有效地解决，并取得了良好的效果。

与此同时，随着人工智能和模式识别研究的不断深入，增量学习也成为了一个热门的研究领域。增量学习(Incremental Learning,IL)是指一种学习方法能够保留以前学习到的旧知识的情况下，持续接受外界新样本并从中学习到新的知识。增量学习并不是一种具体的学习算法，而是一种学习思想，可以应用到绝大多数的传统机器学习算法上。

在传统的基于HMM的动态手势识别系统中，有以下两个弊端：

(1)经过多样本训练的模型以及其中的参数，往往在训练完毕后，就一直持续保持原有数据，不再发生改变，当需要调整模型参数时，只能将原来所有的训练样本再次重新训练模型；

(2)新识别的样本一旦完成识别任务后，将不会再有其他作用，系统无法根据新加入的样本实时调整模型参数，使之更加适应新的情景。而此时若对所有样本(包括已有的训练样本和新的识别样本)的重新训练以适应新的情景，又将花费大量的时间和精力。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种基于隐马尔科夫模型自增量学习的动态手势识别方法。

为了解决上述技术问题，本发明公开了一种基于隐马尔科夫模型自增量学习的动态手势识别方法，包括以下步骤：

(1)手势检测与跟踪；

(2)特征提取与矢量量化；

(3)模型训练与手势识别；

(4)增量学习。

本发明手势检测与跟踪包括以下步骤：

S1：通过摄像头或已存在的视频文件获取包含手势的视频流；

S2：对视频流中的每一个图像帧P₀作如下处理以检测与跟踪图像帧中的手势：

S2.1：调整每一个图像帧P₀大小至统一尺寸(480*360像素)，并对图像帧P₀进行中值滤波，得到图像帧P₁；

S2.2：将滤波后的图像帧P₁从RGB色彩空间转换至YCrCb色彩空间，其中R、G、B分别表示红、绿、蓝三个通道；Y表示亮度分量，Cb指蓝色色度分量，而Cr指红色色度分量；

S2.3：分离Cr、Cb通道图像，根据阈值二值化Cr、Cb通道图像，阈值为133≤Cr≤173，77≤Cb≤127；

S2.4：将Cr、Cb通道的二值图像并集求和，得到二值图像帧P₂；

S2.5：对二值图像帧P₂做腐蚀、膨胀操作，得到二值图像帧P₃；

S2.6：去除二值图像帧P₃中小于面积阈值的区域，面积阈值为二值图像帧P₃面积的5%，将剩余的区域组成二值图像帧P₄；

S2.7：在步骤S2.1得到的图像帧P₁中框选出对应二值图像帧P₄的矩形区域，框选的矩形区域内为图像帧P₁中原始RGB色彩空间的图像，区域外的图像赋值为纯黑色，得到图像帧P₅；

S2.8：将步骤S2.7得到的图像帧P₅通过灰度变换转为单通道灰度图像，再将灰度图像直方图均衡化，灰度图像为单一通道，得到图像帧P₆；

S2.9：将步骤S2.8中得到的图像帧P₆通过adaboost算法分类器检测并标定人体头部区域；

S2.10：在步骤S2.7的图像帧P₅去除中步骤S2.9中检测到的人体头部区域，得到图像帧P₇，图像帧P₇中除处于阈值133≤Cr≤173和77≤Cb≤127的区域外，其余区域为纯黑色；

S2.11：将步骤S2.10的图像帧P₇从RGB色彩空间转换至HSV色彩空间，并分离出H空间，得到图像帧P₈；

S2.12：计算步骤S2.11分离出的H空间的图像帧的直方图方向投影；

S2.13：根据步骤S2.13的结果计算直方图反向投影，结合Camshift跟踪算法，跟踪动态的手势，选出手部区域，得到图像帧P₉；

S2.14：提取图像帧P₉中手部区域中心点的坐标。

本发明步骤S2.6中，区域面积计算采用连通像素点求和的统计方法，使用队列的数据结构逐点统计图像帧中的每一个点，去除小于面积阈值的区域，并同时计算检测到的剩余的区域的顶、底、左、右四个边界的坐标和区域面积。

本发明特征提取与矢量量化包括以下步骤：

S3：根据步骤S2.1～S2.14得到视频流中的每一幅图像帧的手部区域中心点的坐标，将视频流所有图像帧中手部区域中心点的坐标组成手部运动轨迹的时间序列，该时间序列即为捕获到的手势运动轨迹的特征向量；

S4：将S3中的特征向量序列矢量量化，得到一个整型符号序列，该整型符号序列即模型训练与手势识别采用的手势动作序列输入样本。

本发明步骤S4中，采用的矢量量化方法为，根据连续两个图像帧中的手部区域中心点的坐标的纵、横坐标值之差的绝对值，将纵坐标之差的绝对值除以横坐标之差的绝对值，获取二者的tan值，并反向利用arctan函数求得角度，并将该角度除以20，得到量化为0～17的整型符号值，对于N帧图像的N个连续的手部运动中心点坐标，得到一个包含N-1个整型符号值的整型符号序列。

本发明模型训练与手势识别阶段操作包括以下步骤：

S5：对于一个手势动作采集到80个以上的视频流，对每个视频流进行步骤(1)和步骤(2)的处理得到对应的整型符号序列用于模型的训练中作为样本训练；

S6：将输入的样本逐个训练，包括如下步骤：

S6.1：对每一个训练样本的整型符号序列，利用baum-welch算法训练，进而调整隐马尔科夫模型中的参数，在相邻两次整型符号序列训练得到的模型的训练样本输出概率之差的绝对值小于设定阈值后，进入下一个样本的训练；

S6.2：得到每一个样本所对应的训练模型；

S7：将所有训练模型中的参数逐项相加，并归一化各个参数；

S8：对于每一个手势动作，重复步骤S1～S7的操作，得到每一个手势动作的隐马尔科夫模型；

S9：对于待识别的一个手势动作序列，重复步骤(1)和步骤(2)的处理得到该手势动作序列的视频流对应的整型符号序列；

S10：利用隐马尔科夫模型中的forward算法，计算步骤S9中得到手势动作序列在步骤S8中训练得到的所有隐马尔科夫模型中的输出概率；

S11：求出在这些模型中求得的概率中的最大概率，将该最大概率所对应的隐马尔科夫模型作为识别结果；

S12：根据识别结果完成操作。

本发明增量学习阶段包括：

S13：将步骤S11中的最大概率与阈值比较，若大于阈值，则进行增量学习；

S14：增量学习具体步骤为：

S14.1：根据步骤S9识别的整型符号序列，利用baum-welch方法训练隐马尔科夫模型中各个参数，得到一个新的模型；

S14.2：将原有模型与步骤S14.1新的模型各个参数相加进行融合，在融合之前将新的模型乘以学习率η；

S14.3：将融合后的模型参数归一化，即完成了一轮增量学习操作。

本发明通过使用本发明提出的基于隐马尔科夫模型(Hidden Markov Models,HMMs)增量学习(Incremental Learning,IL)的动态手势识别(Dynamic Hand GestureRecognition)方法，可以准确地识别手势操作人在摄像头前完成的动态手势操作，并能将识别后的手势数据用于旧模型的增量学习以调整模型参数中，从而使旧模型能动态适应未来手势数据中产生的新变化，对手势数据中的调整与更变能有更好的适应性，使得模型能不断随着手势数据的调整，对将来未知的手势识别有更好的鲁棒性。实验结果证明，本方法最终对手势的识别取得了良好的识别效果和较高的识别率。

本发明中提出的基于隐马尔科夫模型增量学习的动态手势识别系统，它能在准确识别未知样本所属类别后，根据阈值判定结果，利用该识别样本调整其所属类别HMM模型中的参数，使系统在不忘记旧知识(旧样本)的同时，有效根据新加入知识(新样本)调整模型参数，从而能够随时动态地、灵活地和外部环境交互，而且新知识的训练并不需要旧知识的参与，这样就能大幅度的减少对时间和精力的消耗，并能有效提高识别准确度。

本发明将跟踪算法、训练与识别算法、增量学习方法有机结合。发明能解决复杂背景、光照、遮挡等对手势分割造成的影响，同时将手部区域和头部区域进行了有效分割，去除了头部区域对手势识别造成的干扰，能够实现对手部的准确检测和跟踪；准确跟踪的手势运动轨迹矢量量化后，投入模型的训练与识别中；并针对传统隐马尔科夫模型设计出一套增量学习的算法，它可以根据反馈的识别结果决定是否利用增量学习来动态调整模型，可以克服传统方法中模型一旦训练完成，模型中的参数就不再发生改变的缺点，且增量学习的过程快速高效，在不完全抛弃已有模型的前提下，又能对新环境有很好的适应性。整个系统流程清晰明了，并取得了较理想的识别效果。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1为本发明中基于隐马尔科夫模型增量学习的动态手势识别系统的四模块示意图。

图2为本发明中动态手势检测与跟踪效果图。

图3为本发明中手势轨迹矢量量化示意图。

图4为本发明中多样本模型训练流程图。

图5为本发明中识别阶段样本增量学习流程图。

图6为本发明中系统整体流程图。

具体实施方式

如图1所示，本发明分为四个模块：

(1)手势检测与跟踪：基于普通摄像头的单手动态手势检测，有效地去除背景和头部等因素的干扰，并实时准确地跟踪手部运动轨迹。

(2)特征提取与矢量量化：提取特征向量精确描述手势运动轨迹，并将这些特征向量量化、压缩成手势训练和识别的输入样本。

(3)模型训练与手势识别：选取合适的模型建模多个手势样本，并根据这些手势样本训练出精确描述手势运功轨迹的模型，并利用训练好的模型识别未知所属类别的测试样本。

(4)增量学习：根据识别结果(测试样本在所有模型下的最大输出概率所对应的模型)判定该模型是否增量学习，进而可以动态调整模型参数，使模型更好的适应新的环境。

本发明的流程为：通过手势建模，利用训练好的模型识别普通摄像头所捕获的手势运动轨迹，并为手势模型设计一套增量学习算法，该算法可以根据识别结果增量学习，调整模型中的参数，使模型更好的适应新的环境变化，最后根据识别结果完成预设定的指令。

如图6所示，本发明包括以下具体步骤：

(1)手势检测与跟踪阶段操作

S2.2：将滤波后的图像帧P₁从RGB色彩空间转换至YCrCb色彩空间，其中R、G、B分别表示红、绿、蓝三个通道；Y表示亮度分量，Cb指蓝色色度分量，Cr指红色色度分量；

S2.9：将步骤S2.8中得到的图像帧P₆基于haar-like（参见P Viola,M Jones.Rapidobject detection using a boosted cascade of simple features.Computer Vision and PatternRecognition,2001.CVPR.I-511-I-518vol.1）矩形特征通过adaboost算法（参见Bo Wu,Haizhou Ai,Chang Huang,Shihong Lao.Fast rotation invariant multi-view face detectionbased on real Adaboost.Automatic Face and Gesture Recognition,2004.79-84）分类器检测并标定人体头部区域；

S2.13：根据步骤S2.13的结果计算直方图反向投影，结合Camshift跟踪算法（参见John G.Allen,Richard Y.D.Xu,Jesse S.Jin.Object tracking using camshift algorithm and multiplequantized feature spaces.the Pan-Sydney Area Workshop on Visual Information Processing.2007.），跟踪动态的手势，选出手部区域，得到图像帧P₉；

S2.14：提取图像帧P₉中手部区域中心点的坐标。

动态手势检测与跟踪的效果图如图2所示。

在步骤S2.6中，类肤色区域的面积计算采用连通像素点求和的统计方法，使用队列的数据结构逐点统计图像帧中的每一个点。小于面积阈值的区域被认为是一些杂质的干扰，可以认为是非手部区域；并同时求得检测到的手部区域的顶、底、左、右四个边界的坐标和区域面积。

在步骤S2.7中，采用此种截取图像区域方法的原因是为了缩小图像内容检索范围，加快系统对手势的检索和跟踪速度。

在步骤S2.9中，adaboost算法是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。

在人脸检测adaboost算法的实现上，采用的是输入图像的矩形特征，即haar-like特征。在adaboost算法中，通过对大量包含头部的测试图片训练，得到若干个不同的弱分类器，再将这些弱分类器集合起来构成一个更加强大的强分类器，该强分类器包含了人脸的主要特征。使用adaboost分类器可以排除一些不必要的训练数据特征，并将重点放在关键的训练数据上面。

由于手部变化的多样性，难以利用一个普适的模型描述手部特征，这使得利用adaboost分类器检测手势存在着一定的难度，而人脸由于其没有变化的多样性，以一个刚性、不可变的方式呈现在图像中，故而可以很好地训练出包含人脸特征的adaboost分类器，进而完成图像帧中人脸的识别工作。这样，将检测到的人脸区域排除在类肤色区域之外，就可以有效地排除人脸区域对手势跟踪与检测的干扰了。

此外，当手部与头部在图像帧中重合时，由于检测不到头部区域，故不会去除头部区域上的手部，进而并不影响后期的手部检测工作。

进一步，在步骤S2.13中，Camshift跟踪算法（参见John G.Allen,Richard Y.D.Xu,JesseS.Jin.Object tracking using camshift algorithm and multiple quantized feature spaces.the Pan-SydneyArea Workshop on Visual Information Processing.2007.），即“Continuously Apative Mean-Shift”算法，它是一种运动跟踪算法，它主要通过视频图像中运动物体的颜色信息来达到跟踪的目的。Camshift跟踪算法将视频图像的所有帧作Meanshift运算，并将上一帧的结果（即search window的中心和大小）作为下一帧Meanshift算法的search window的初始值，如此迭代下去，就可以完成手势的动态跟踪。

(2)特征提取与矢量量化阶段操作

S3：对视频流中的每一幅图像帧重复上述S2.1～S2.15步骤操作后，将得到一个手部运动区域中心点的坐标(中心点在图像中，以左上角为(0,0)点，所生成的x、y轴坐标)的时间序列，该时间序列即为捕获到的手势轨迹的特征向量；

S4：将S3中的特征向量序列矢量量化，得到一个整型符号序列，该序列也即训练和识别时采用的输入样本；

进一步，在步骤S3中，本发明重点考虑手势的连续运动所形成的轨迹序列，并识别出该轨迹序列。因此，手势的绝对位置、手形、手势运动速度将不在本发明的考虑范围之内，只考虑手势的相对位置信息。

进一步，在步骤S4中，采用的矢量量化方法为，求得连续两帧所捕获的手势区域中心点，即S3中捕获的手势序列点的纵、横坐标值之差的绝对值，将纵坐标之差的绝对值除以横坐标之差的绝对值，获取二者的tan值，并反向利用arctan函数求得角度(0°～359°之间)，并将该角度除以20，这样可以量化为0～17的符号值。这样，N个连续的手部运动中心点坐标，通过转换后可以得到一个包含N-1个符号值的符号序列。

手势轨迹矢量量化示意图如图3所示。

(3)模型训练与手势识别阶段操作

S5：将采集到的多样本符号序列用于模型的训练中。在本发明中采用的训练和识别动态手势轨迹的模型为隐马尔科夫模型(Hidden Markov Models,HMMs)，该模型对处理时间序列的序列时，有很好的识别效果。

S6：将输入的多样本逐个样本训练，训练方式如下：

S6.1：对每一个输入的符号序列样本，利用baum-welch算法训练该样本，进而调整HMM中模型的参数（参见LR Rabiner.A tutorial on hidden Markov models and selectedapplications in speech recognition.Proceedings of the IEEE,1989.257-286）。在相邻两次整型符号序列训练得到的模型的训练样本输出概率之差的绝对值小于设定阈值后，进入下一个样本的训练；相邻两次整型符号序列训练得到的模型的训练样本输出概率之差采用forward算法计算。

S6.2：对于每一个样本，重复S6.1的训练过程，这样可以得到多个训练样本所对应的多个训练模型；

S7：将得到的多个训练模型中的参数逐项相加，并归一化各个参数，这样得到的模型也即根据多个样本训练求得的模型，这个多样本训练得到的模型可以有效地表达这些符号序列样本；

多样本的模型训练流程图如图4所示。

S8：对于每个动作对应的模型的训练过程，重复S1～S7的操作，这样，最后得到每一个动态手势序列集合的隐马尔科夫模型。

S11：求出在这些模型中求得的概率中的最大概率，将该最大概率所对应的隐马尔科夫模型作为识别结果；最大概率说明对应模型能最佳输出该显式状态序列，此模型能与序列最佳匹配；

S12：根据识别结果完成预定义操作；

进一步，在步骤S5中，隐马尔科夫模型用于处理时间序列的符号具有很好的效果，它包含隐式状态数目，显式状态数目，初始状态转移矩阵，隐式状态转移矩阵，隐式显示状态转移矩阵等五个参数。

隐马尔科夫模型(Hidden Markov Models)包含四个算法，用以解决以下三个问题：

①给定模型和显式状态序列，计算模型输出该显式状态序列的概率，计算方法可以使用forward/backward算法实现；

②给定模型和显式状态序列，计算模型中所对应的隐式状态序列能最佳(也即最大概率)表达该显式状态序列，计算方法可以使用viterbi算法实现；

③给定显式状态序列，调整模型参数，求得最能表达该显式状态序列的模型，计算方法可以使用baum-welch算法实现。

在步骤S5中，即采用③中的baum-welch算法完成模型的训练工作。

进一步，在步骤S10中，识别过程除了使用forward算法之外，还可以使用viterbi算法求得显式状态序列所对应的最佳隐式状态序列的输出概率，二者的不同之处在于：forward算法求得的是模型中所有隐式状态序列输出该显式状态序列的概率之和；而viterbi算法求得的是这些隐式状态序列中能最大概率输出该显式状态序列所对应的隐式状态序列和此序列的输出概率。在本发明中，使用forward算法来求得识别结果。

(4)增量学习阶段操作

S13：将S11步骤中求得的最大概率与阈值比较，若大于预定义阈值，说明该识别结果有较大置信度，可以用于该隐马尔科夫模型的增量学习中；

S14：增量学习过程为：

S14.1：已识别并且利用forward算法求得的输出概率值置信度大于对应识别结果的阈值的显式状态序列，再次利用baum-welch训练HMM中各个参数，通过训练求得一个新的模型；阈值是步骤S10所有训练样本的输出概率的算数平均值；

S14.2：将原有模型与新的模型各个参数相加进行融合，新的模型将乘以一个预定义权值，即为学习率η，学习率η取值范围0～1，通过设定不同的大小的权值，可以使模型在保有原有知识和适应新知识中有效的权衡；

S14.3：将融合后的模型参数归一化，即完成了一轮增量学习操作；

S15：一轮增量学习过程完成，系统重新转入S9步骤中，完成下一轮的识别与增量学习过程中；

识别阶段样本增量学习流程图如图5所示。

进一步，在步骤S13中，使用的阈值是根据在步骤S6，S7中对训练样本使用forward算法，求得的识别输出概率，再根据所有训练样本的识别输出概率，求得的这些输出概率的均值。

进一步，在步骤S14中，隐马尔科夫模型的增量学习中，除了有S14所介绍的单个样本增量学习之外，还有块增量学习方法，也即多个识别样本训练出多个新的模型后，这些模型先融合并归一化为一个新的模型后，再与原有模型融合并归一化，生成最终的增量学习后的模型。这些都是样本增量学习的概念。

增量学习方法不仅可以使模型具有更好的鲁棒性和适应性，而且在小样本训练生成模型后，可以根据后期识别结果继续训练模型，使得模型更加完善，从而大大节约了时间和精力上的开支。

S16：至此，完成了(1)～(4)步骤的所有操作.

实施例

在实施例中，识别0～9一共10个阿拉伯数字的手势操作运动轨迹。操作人在摄像头前利用人手在空间区域上模拟10个阿拉伯数字笔画的轨迹，这些量化后的手势轨迹用来模型训练、手势识别与增量学习。

在训练阶段，每个阿拉伯数字使用40段视频流，也即40个训练样本进行训练，这样训练样本的总数为400个。

在识别阶段，每个阿拉伯数字的识别样本数目从70～100个不等(注：姿势“1”由于在实验时用做测试视频，所以录制了大量的样本库)，实验中训练样本与识别样本数目如表1所示：

表1实验中训练样本与识别样本数目列表

	0	1	2	3	4	5	6	7	8	9
											训练样本数	40	40	40	40	40	40	40	40	40	40
识别样本数	87	171	77	80	85	71	90	86	78	93

在隐马尔科夫模型的增量学习中，如步骤S14.2所示，增量学习中涉及学习率η，也即新旧模型融合的权值。该权值反应的是模型在保留旧知识与适应新知识之间的权衡，在实验中将测试系统在不同学习率条件下模型的识别率，这样，可以为用户在识别率与学习率之间的进行一个选择的参考。

模型在不同学习率情况下对应的识别率如表2所示：

表2不同学习率时模型的识别率(%)

表2不同学习率时模型的识别率(%)--(续)

由表2统计的识别结果可知，不同训练样本在不同学习率下，有不同的识别率。姿势“0”、“1”、“8”在学习率η较小时，可以达到最高识别率，但学习率η较大时，识别率反而降低了，呈现出过学习的状态，故而姿势“0”、“1”、“8”应该过多地保留旧知识。

姿势“3”、“4”、“5”“9”在相对较大的学习率η时，也可以达到很高的识别率，并且学习率η降低时，它们的识别率并未降低。

姿势“2”、“6”、“7”在学习率处于0.06、0.1时，可以达到最高识别率，在学习率过大或过小时，识别率都将会有所降低

由表2得到的每个阿拉伯数字在不同学习率下对应的最高识别率用蓝色加以突出显示，并由此生成的增量学习模型识别率列表如表3所示：

表3隐马尔科夫模型增量学习对0～9数字的识别率(%)

实验同样对未使用增量学习方法的基于隐马尔科夫模型手势识别系统进行了识别实验，识别结果如表4所示：

表4未使用增量学习的隐马尔科夫模型手势识别率(%)

通过与表3比较可以发现，使用增量学习方法后，识别率得到了提升，在姿势“0”、“1”、“3”、“6”中，使用增量学习方法后，识别率都得到了提高。

实验表明，本发明中提出的基于隐马尔科夫模型增量学习的动态手势识别方法快速准确可靠，能准确地识别出动态手势轨迹，对传统方法有一定的改进，并对识别结果有很好地提升。

Claims

1.一种基于隐马尔科夫模型自增量学习的动态手势识别方法，其特征在于，包括以下步骤：

(1)手势检测与跟踪；

(2)特征提取与矢量量化；

(3)模型训练与手势识别；

(4)增量学习。

2.根据权利要求1所述的一种基于隐马尔科夫模型自增量学习的动态手势识别方法，其特征在于，手势检测与跟踪包括以下步骤：

S2.1：调整每一个图像帧P₀大小至统一尺寸，并对图像帧P₀进行中值滤波，得到图像帧P₁；

S2.14：提取图像帧P₉中手部区域中心点的坐标。

3.根据权利要求2所述的一种基于隐马尔科夫模型自增量学习的动态手势识别方法，其特征在于，步骤S2.6中，区域面积计算采用连通像素点求和的统计方法，使用队列的数据结构逐点统计图像帧中的每一个点，去除小于面积阈值的区域，并同时计算检测到的剩余的区域的顶、底、左、右四个边界的坐标和区域面积。

4.根据权利要求2所述的一种基于隐马尔科夫模型自增量学习的动态手势识别方法，其特征在于，特征提取与矢量量化包括以下步骤：

5.根据权利要求4所述的一种基于隐马尔科夫模型自增量学习的动态手势识别方法，其特征在于，在步骤S4中，采用的矢量量化方法为，根据连续两个图像帧中的手部区域中心点的坐标的纵、横坐标值之差的绝对值，将纵坐标之差的绝对值除以横坐标之差的绝对值，获取二者的tan值，并反向利用arctan函数求得角度，并将该角度除以20，得到量化为0～17的整型符号值，对于N帧图像的N个连续的手部运动中心点坐标，得到一个包含N-1个整型符号值的整型符号序列。

6.根据权利要求5所述的一种基于隐马尔科夫模型自增量学习的动态手势识别方法，其特征在于，模型训练与手势识别阶段操作包括以下步骤：

S6：将输入的样本逐个训练，包括如下步骤：

S6.1：对每一个样本的整型符号序列，利用baum-welch算法训练，进而调整隐马尔科夫模型中的参数，在相邻两次整型符号序列训练得到的模型的训练样本输出概率之差的绝对值小于设定阈值后，进入下一个样本的训练；

S6.2：得到每一个样本所对应的训练模型；

S10：利用隐马尔科夫模型中的forward算法，计算步骤S9中得到手势动作序列在步骤S8中训练得到的所有手势动作的隐马尔科夫模型中的输出概率；

S11：将所有输出概率中的最大概率所对应的隐马尔科夫模型作为识别结果；

S12：根据识别结果完成操作。

7.根据权利要求6所述的一种基于隐马尔科夫模型自增量学习的动态手势识别方法，其特征在于，增量学习阶段包括：

S14：增量学习具体步骤为：