CN104484645A

CN104484645A - 一种面向人机交互的“1”手势识别方法与系统

Info

Publication number: CN104484645A
Application number: CN201410653665.2A
Authority: CN
Inventors: 桑农; 李思敏; 高常鑫; 王洪智; 罗松; 胡杨; 徐俊
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2014-11-14
Filing date: 2014-11-14
Publication date: 2015-04-01
Anticipated expiration: 2034-11-14
Also published as: CN104484645B

Abstract

本发明公开了一种面向人机交互的“1”手势识别方法，可应用于手机、电脑、电视等电子产品的操控。该方法步骤如下：人脸检测，拳头检测，肤色标记，亮度计算。本发明在手势识别过程中，将摄像头采集到的YUV视频帧图像中的亮度信息Y与颜色信息UV独立开来，先利用UV通道信息进行肤色的点的采集以及标记，再利用Y通道亮度信息进行进一步的判断；其中UV通道信息将肤色点与非肤色点区分开，Y通道信息将与肤色点相近的背景点与肤色区域区分开来，从而完成识别。本发明还提供了相应的手势识别系统。

Description

一种面向人机交互的“1”手势识别方法与系统

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种面向人机交互的“1”手势识别方法与系统，主要用于进行“1”手势识别。

背景技术

“人机交互”的核心课题是基于视觉的接口问题，其中计算机跟踪与识别自然人手是一项重要内容。基于视觉的手势识别技术，涉及图像处理、模式识别和计算机视觉等研究内容，是当前的热点研究课题，国内外学者在手势识别领域，已开展诸多研究工作。现有的手势识别算法有以下几种：

(1)基于人工神经网络的手势识别

神经网络在静态手势的识别中应用较多，其特点为抗干扰、自组织、自学习和抗噪声能力强，可处理不完成的模式并进行模式推广，但对时间序列的处理能力不强，因此在静态手势的识别中使用较多，不用于动态手势的识别。

(2)基于隐马尔科夫模型的手势识别

隐马尔可夫模型是一种统计分析模型，能非常细致的描述手势信号的时空变化，适用于动态手势的识别。诸多手语识别系统均采用HMM作为识别技术。HMM拓扑结构具有一般性，使得对手语信号的分析过于复杂，计算量过大，速度过慢，故而大多采用离散HMM。

(3)基于几何特征的手势识别

基于几何特征的手势识别方法包括手势分割法和几何特征法。手势分割的2种主要方法为单目视觉和立体视觉。手势的几何特征指手势的边缘和手势区域特征。基于几何特征的手势识别技术，大多采用距离公式进行模板匹配。几何特征识别方法主要有3种：模板匹配法、神经网络法、统计分析法。

然而，现有的技术存在三个主要问题：(1)受光照的影响，当手部所受的光照不均匀时，手部的特征不均匀，在进行识别的时候，非常影响识别的结果；(2)当背景中存在与肤色相近的颜色时，这些地方会影响基于肤色进行手势识别的系统的识别率，增大了系统的误识率；(3)基于特征的手势识别系统需要对手进行特征提取，方法所需的时间较长，实时性不好。

发明内容

为了解决上述技术问题，本发明提供了一种面向人机交互的“1”手势识别方法与系统，能够对视频帧以及视频帧序列中的“1”手势进行识别。

按照本发明的一个方面，提供了一种面向人机交互的“1”手势识别方法，包括以下步骤：

(1)视频采集：通过摄像头采集手势视频信号，得到YUV视频，读入YUV视频序列的第K帧图像；

(2)人脸检测：在Y通道视频帧图像上进行人脸检测，得到人脸的跟踪框，获取其位置信息；

(3)拳头检测：基于检测到的人脸跟踪框的位置信息得到人手位置范围，在人手位置范围内进行拳头检测，得到拳头的检测框；

(4)肤色标记：基于检测到的拳头，取其中心部分像素点，统计UV直方图，标记肤色的UV值，再统计拳头上方部分的UV直方图，对于UV值在肤色UV值范围内的像素点进行标记；

(5)亮度计算：标记过肤色点后的区域进行长方形扫描，找到手指所在的位置，计算手指所在的长方形区域中的肤色像素点亮度与手指所在长方形区域周边与其面积相同区域的肤色点亮度的差异，差异超过设定阈值，则检测到“1”手势。

进一步地，所述方法还包括：

(6)视频帧序列中“1”手势的检测：对连续的x帧视频帧分别进行上述五步处理，得到每一帧的判断结果，如果在连续的x帧视频帧中，有y帧检测到“1”手势，则判断在此视频序列中用户手势为“1”，其中x、y值根据需要确定。

本发明的一个实施例中，所述步骤(2)具体为：在Y通道视频帧上进行基于Haar特征和级联式Adaboost分类器的人脸检测，得到人脸位置信息。

本发明的一个实施例中，所述步骤(3)具体为：

基于检测到的人脸位置信息在最小错误率贝叶斯决策框架下建立肤色模型，利用肤色模型得到视频帧中含有肤色的部分，再利用检测到的人脸的跟踪框，在其右方或者左方，将人脸跟踪框的大小进行扩大，得到人手的范围，在此范围中，进行基于Haar特征和级联式Adaboost分类器的拳头检测，从而得到拳头的检测框。

本发明的一个实施例中，所述步骤(4)具体包括如下子步骤：

(4.1)肤色点采集以及统计：取拳头检测框正中心，大小为拳头检测框x分之一的部分作为肤色目标，对其进行UV直方图的统计，根据公式H＝U*z+V计算得到其对应的H值；

(4.2)肤色特征值提取：对目标上所有像素点的H值进行计数，计数完成后得到关于H值的一维直方图；取统计宽度为wid，wid为经验值，找到在wid宽度内直方图总和最大的位置，标记此宽度内的H值为肤色点对应的H值，其对应的U、V值即为肤色特征值；

(4.3)肤色点标记：在肤色目标锁定框紧邻的上方，取宽高与肤色目标锁定框成设定比例的区域作为肤色检测区域，进行肤色点的扫描，即对区域中的每一个像素点，取其U、V值进行H值的计算，若其H值处于肤色H值范围内，则判断该像素点标记为肤色点。

本发明的一个实施例中，所述步骤(5)具体包括如下子步骤：

(5.1)肤色点扫描：对标记了肤色像素点之后的肤色检测区域，进行扫描，扫描的基本单位为宽n个像素点与检测区域同高的长条形，其中n值大小根据距离摄像头的距离而定，扫描步长s根据需要确定，其中s越小，扫描精度越高，s大则计算速度快，若在扫描的长条形中，肤色像素点个数占整个长条形总像素点达到设定比例，则预判该处有手指；

(5.2)亮度值计算：在判断有手指的地方，计算其长条形区域中肤色像素点亮度值Y的均值Y1，长条形区域左右各外扩其宽度一半的区域(背景区域)中的非肤色像素点的亮度均值Y2，利用Y1与Y2差的绝对值除以背景区域的非肤色像素点亮度与Y2差值的平方和，若计算所得的结果值大于设定阈值，则判断此处有手指，检测到“1”手势。

按照本发明的另一方面，还提供了一种面向人机交互的“1”手势识别系统，包括视频采集模块、人脸检测模块、拳头检测模块、肤色标记模块、亮度计算模块，其中：

所述视频采集模块，用于通过摄像头采集手势视频信号，得到YUV视频，读入YUV视频序列的第K帧图像；

所述人脸检测模块，用于在Y通道视频帧图像上进行人脸检测，得到人脸的跟踪框，获取其位置信息；

所述拳头检测模块，用于基于检测到的人脸跟踪框的位置信息得到人手位置范围，在人手位置范围内进行拳头检测，得到拳头的检测框；

所述肤色标记模块，用于基于检测到的拳头，取其中心部分像素点，统计UV直方图，标记肤色的UV值，再统计拳头上方部分的UV直方图，对于UV值在肤色UV值范围内的像素点进行标记；

所述亮度计算模块，用于对标记过肤色点后的区域进行长方形扫描，找到手指所在的位置，计算手指所在的长方形区域中的肤色像素点亮度与手指所在长方形区域周边与其面积相同区域的肤色点亮度的差异，差异超过设定阈值，则检测到“1”手势。

在本发明的一个实施例中，所述系统还包括视频帧序列检测模块，用于对连续的x帧视频帧分别进行上述五步处理，得到每一帧的判断结果，如果在连续的x帧视频帧中，有y帧检测到“1”手势，则判断在此视频序列中用户手势为“1”，其中x、y值根据需要确定。

在本发明的一个实施例中，所述肤色标记模块具体包括肤色点采集以及统计子模块、肤色特征值提取子模块以及肤色点标记子模块，其中：

所述肤色点采集以及统计子模块，用于取拳头检测框正中心，大小为拳头检测框x分之一的部分作为肤色目标，对其进行UV直方图的统计，根据公式H＝U*z+V计算得到其对应的H值；

所述肤色特征值提取子模块，用于对目标上所有像素点的H值进行计数，计数完成后得到关于H值的一维直方图；取统计宽度为wid，wid为经验值，找到在wid宽度内直方图总和最大的位置，标记此宽度内的H值为肤色点对应的H值，其对应的U、V值即为肤色特征值；

所述肤色点标记子模块，用于在肤色目标锁定框紧邻的上方，取宽高与肤色目标锁定框成设定比例的区域作为肤色检测区域，进行肤色点的扫描，即对区域中的每一个像素点，取其U、V值根据公式H＝U*z+V进行H值的计算，若其H值处于肤色H值范围内，则判断该像素点标记为肤色点。

在本发明的一个实施例中，所述亮度计算模块具体包括肤色点扫描子模块以及亮度值计算子模块，其中：

所述肤色点扫描子模块，用于对标记了肤色像素点之后的肤色检测区域，进行扫描，扫描的基本单位为宽n个像素点与检测区域同高的长条形，其中n值大小根据距离摄像头的距离而定，扫描步长s根据需要确定，其中s越小，扫描精度越高，s大则计算速度快，若在扫描的长条形中，肤色像素点个数占整个长条形总像素点达到设定比例，则预判该处有手指；

所述亮度值计算子模块，用于在判断有手指的地方，计算其长条形区域中肤色像素点亮度值Y的均值Y1，长条形区域左右各外扩其宽度一半的区域中的非肤色像素点的亮度均值Y2，利用Y1与Y2差的绝对值除以背景区域的非肤色像素点亮度与Y2差值的平方和，若计算所得的结果值大于设定阈值，则判断此处有手指，检测到“1”手势。

通过本发明所构思的以上技术方案，与现有技术相比，本发明具有以下有益效果：

(1)将摄像头采集到的YUV视频帧图像中的YUV通道信息分开处理，利用UV通道的信息对肤色点进行采集以及标记。将亮度信息Y与颜色信息UV独立开来，使得在手部光照不均匀的时候，对于肤色点的采集以及标记不受影响。

(2)将摄像头采集到的YUV视频帧图像中的YUV通道信息分开处理，利用Y通道的信息对标记过肤色点的区域进行亮度的相关统计以及计算。利用Y通道的信息，使得在背景点与肤色点的颜色相近或者一致的时候，Y通道所包含的亮度信息能够对背景点与肤色点进行区分，从而达到较好的识别效果。

(3)原理简单，识别效果准确，实时性好。

附图说明

图1是本发明一种面向人机交互的“1”手势识别方法的流程图；

图2是进行检测的“1”手势示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的面向人机交互的“1”手势识别方法具体包括以下步骤：

(1)视频采集，通过摄像头采集手势视频信号，得到YUV视频，读入YUV视频序列的第K帧图像。

(2)人脸检测，在Y通道视频帧序列上进行人脸检测，得到人脸的跟踪框，获取其位置信息。

具体实施过程如下：

在Y通道视频帧上进行基于Haar特征和级联式Adaboost分类器的人脸检测，得到人脸位置信息。

(3)拳头检测，基于检测到的人脸跟踪框的位置信息得到人手位置范围，在人手位置范围内进行拳头检测，得到拳头的检测框。

具体实施过程如下：

基于检测到的人脸在最小错误率贝叶斯决策框架下建立肤色模型，利用肤色模型得到视频帧中含有肤色的部分，再利用检测到的人脸的跟踪框，在其右方(或者左方)，将人脸跟踪框的大小进行适当的扩大，得到人手的大致范围，在此范围中，进行基于Haar特征和级联式Adaboost分类器的拳头检测，从而得到拳头的检测框。

(4)肤色标记，基于检测到的拳头，取其中心部分像素点，统计UV直方图，标记肤色的UV值，再统计拳头上方部分的UV直方图，对于UV值在肤色UV值范围内的像素点进行标记；

具体包含如下子步骤：

(4.1)肤色点采集以及统计

具体地，取拳头检测框正中心，大小为拳头检测框x分之一的部分作为肤色目标，对其进行UV直方图的统计，统计的目的是确认肤色点的U、V值范围，为后面的肤色点标记做准备。统计过程中，将UV通道的值分别分为y、z个bin，取bin的宽度为1，由于U、V通道的值阈为0～255，故此时y＝z＝256(其中x为经验值，例如取二分之一，取值小，计算速度快，取值大标记效果好，可根据具体需要取值)；统计肤色目标UV直方图时，取各像素点的U、V值，根据计算公式H＝U*z+V得到其对应的H值；

(4.2)肤色特征值提取

具体地，对目标上所有像素点的H值进行计数，计数完成后得到关于H值的一维直方图；取统计宽度为wid(wid为经验值，例如8,4等)，找到在wid宽度内直方图总和最大的位置，标记此宽度内的H值为肤色点对应的H值，其对应的U、V值即为肤色特征值；

(4.3)肤色点标记

具体地，在肤色目标锁定框紧邻的上方，取宽高与肤色目标锁定框成设定比例(例如宽为其三倍，高为其两倍，具体的倍数关系根据需要以及锁定框的大小确定)的区域作为肤色检测区域，进行肤色点的扫描，即对区域中的每一个像素点，取其U、V值根据公式H＝U*z+V进行H值的计算，若其H值处于肤色H值范围内，则判断该像素点标记为肤色点。

(5)亮度计算，标记过肤色点后的区域进行长方形扫描，找到手指所在的位置，计算手指所在的长方形区域中的肤色像素点亮度与手指所在长方形区域周边与其面积相同区域的肤色点亮度的差异，差异超过设定阈值，则检测到“1”手势。

具体包含如下子步骤：

(5.1)肤色点扫描

具体地，对标记了肤色像素点之后的肤色检测区域，进行扫描，扫描的基本单位为宽n个像素点(n值大小根据距离摄像头的距离而定，一般取值2、3、4)与检测区域同高的长条形，扫描步长s根据需要确定(s越小，扫描精度越高，s大则计算速度快)，若在扫描的长条形中，肤色像素点个数占整个长条形总像素点达到设定比例(例如60％，可根据需要调整)，则预判该处有手指；

(5.2)亮度值计算

具体地，在判断有手指的地方，计算其长条形区域中肤色像素点亮度值Y的均值Y1，长条形区域左右各外扩其宽度一半的区域(背景区域)中的非肤色像素点的亮度均值Y2，利用Y1与Y2差的绝对值除以背景区域的非肤色像素点亮度与Y2差值的平方和，若计算所得的结果值大于设定阈值(即背景亮度值与前景亮度值存在较大的差异，具体值可以根据实验以及需要调整)则判断此处有手指，检测到“1”手势。

(6)视频帧序列中“1”手势的检测

具体地，对连续的x帧视频帧分别进行上述五步处理，得到每一帧的判断结果，如果在连续的x帧视频帧中，有y帧检测到“1”手势，则判断此时用户手势为“1”(x、y值可以根据需要确定)。

进一步地，本发明还提供了一种面向人机交互的“1”手势识别系统，包括视频采集模块、人脸检测模块、拳头检测模块、肤色标记模块、亮度计算模块，其中：

进一步地，所述系统还包括视频帧序列检测模块，用于对连续的x帧视频帧分别进行上述五步处理，得到每一帧的判断结果，如果在连续的x帧视频帧中，有y帧检测到“1”手势，则判断在此视频序列中用户手势为“1”，其中x、y值根据需要确定。

进一步地，所述肤色标记模块具体包括肤色点采集以及统计子模块、肤色特征值提取子模块以及肤色点标记子模块，其中：

进一步地，所述亮度计算模块具体包括肤色点扫描子模块以及亮度值计算子模块，其中：

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向人机交互的“1”手势识别方法，其特征在于，所述方法包括如下步骤：

(5)亮度计算：对标记过肤色点后的区域进行长方形扫描，找到手指所在的位置，计算手指所在的长方形区域中的肤色像素点亮度与手指所在长方形区域周边与其面积相同区域的肤色点亮度的差异，差异超过设定阈值，则检测到“1”手势。

2.如权利要求1所述的方法，其特征在于，还包括：

3.如权利要求1或2所述的方法，其特征在于，所述步骤(2)具体为：在Y通道视频帧上进行基于Haar特征和级联式Adaboost分类器的人脸检测，得到人脸位置信息。

4.如权利要求1或2所述的方法，其特征在于，所述步骤(3)具体为：

基于检测到的人脸信息在最小错误率贝叶斯决策框架下建立肤色模型，利用肤色模型得到视频帧中含有肤色的部分，再利用检测到的人脸的跟踪框，在其右方或者左方，将人脸跟踪框的大小进行扩大，得到人手的范围，在此范围中，进行基于Haar特征和级联式Adaboost分类器的拳头检测，从而得到拳头的检测框。

5.如权利要求1或2所述的方法，其特征在于，所述步骤(4)具体包括如下子步骤：

(4.3)肤色点标记：在肤色目标锁定框紧邻的上方，取宽高与肤色目标锁定框成设定比例的区域作为肤色检测区域，进行肤色点的扫描，即对区域中的每一个像素点，取其U、V值根据公式H＝U*z+V进行H值的计算，若其H值处于肤色H值范围内，则判断该像素点标记为肤色点。

6.如权利要求1或2所述的方法，其特征在于，所述步骤(5)具体包括如下子步骤：

(5.2)亮度值计算：在判断有手指的地方，计算其长条形区域中肤色像素点亮度值Y的均值Y1，长条形区域左右各外扩其宽度一半的区域中的非肤色像素点的亮度均值Y2，利用Y1与Y2差的绝对值除以背景区域的非肤色像素点亮度与Y2差值的平方和，若计算所得的结果值大于设定阈值，则判断此处有手指，检测到“1”手势。

7.一种面向人机交互的“1”手势识别系统，其特征在于，所述系统包括视频采集模块、人脸检测模块、拳头检测模块、肤色标记模块、亮度计算模块，其中：

8.如权利要求7所述的手势识别系统，其特征在于，所述系统还包括视频帧序列检测模块，用于对连续的x帧视频帧分别进行上述五步处理，得到每一帧的判断结果，如果在连续的x帧视频帧中，有y帧检测到“1”手势，则判断在此视频序列中用户手势为“1”，其中x、y值根据需要确定。

9.如权利要求7或8所述的手势识别系统，其特征在于，所述肤色标记模块具体包括肤色点采集以及统计子模块、肤色特征值提取子模块以及肤色点标记子模块，其中：

10.如权利要求7或8所述的手势识别系统，其特征在于，所述亮度计算模块具体包括肤色点扫描子模块以及亮度值计算子模块，其中：

所述亮度值计算子模块，用于在系统判断有手指的地方，计算其长条形区域中肤色像素点亮度值Y的均值Y1，长条形区域左右各外扩其宽度一半的区域中的非肤色像素点的亮度均值Y2，利用Y1与Y2差的绝对值除以背景区域的非肤色像素点亮度与Y2差值的平方和，若计算所得的结果值大于设定阈值，则判断此处有手指，检测到“1”手势。