CN107798296A

CN107798296A - 一种应用于复杂背景场景的快速运动手势识别方法

Info

Publication number: CN107798296A
Application number: CN201710894579.4A
Authority: CN
Inventors: 杨滨
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2017-09-28
Filing date: 2017-09-28
Publication date: 2018-03-13
Anticipated expiration: 2037-09-28
Also published as: CN107798296B

Abstract

本发明公开了一种应用于复杂背景场景的快速运动手势识别方法，包括采集手势动作视频，通过去除YCrCb模式下的图像的亮度干扰，并转换为灰度模式图像进行手势分割，并输入到深度置信网络中进行训练；和手机采集手势视频，获得手势轮廓图像通过深度置信网络实现手势识别的手势判断的步骤。因此，本发明运算速度较快，易于在复杂背景下识别快速运动的物体。深度置信网络作为一种深度学习模型，在特征选择与特征学习方面有着显著的优势，并能够进行分类特征学习，充分挖掘灰度求和图像的特征信息。

Description

一种应用于复杂背景场景的快速运动手势识别方法

技术领域

本发明属于人机交互技术领域，特别是涉及一种应用于复杂背景场景的快速运动手势识别方法。

背景技术

人机交互的发展过程就是从人适应计算机到计算机逐步适应人的过程,人机交互的发展经历了早期的手工操作阶段、作业控制语言及交互命令语言阶段、图形用户界面(GUI)阶段、网络用户界面阶段、多通道与多媒体智能人机交互阶段。手作为身体上最灵活的部位，是最早用来进行人与人之间肢体交流的工具。动态手势识别是人机交互领域中的重要研究课题，具有重要的理论研究意义以及广泛的应用前景。

国外对基于视觉的动态手势识别技术的研究起步比较早，在该领域的研究中有着丰富的经验，并取得了一定的研究成果。M.Elmezain等人通过融合Camshift算法和Kalman滤波算法来提高动态手势跟踪的效果，然后对相应的动态手势轨迹特征进行提取，最后通过HMM算法识别数字0～9的轨迹，识别率达到95.87％。M.Al-Rousan和K.Assaleh对动态手势识别做了深入研究，他们首先从视频中分割出手部，然后采用HMM模型对阿拉伯手语进行识别，最终该手势识别系统的在线识别率达到90.6％。R.Shrivastava利用Hu矩和手势轨迹方向角作为特征进行提取，然后使用HMM算法进行手势轨迹的识别，提高了识别速度，并且平均识别率达到了90％以上。R L.Vieriu等人利用HMM算法对手势轮廓的序列点进行判断分类，实现了9个不同角度手势的识别。华南理工大学的常亚南在经典HMM算法的基础上，提出了一种基于HMM的阈值模型的动态手势识别方法，最终完成了动态手势轨迹的识别，并且对典型动态手势轨迹的识别率达到97.87％。国内大连理工大学的杨青通过定位手势指尖的方法提取轨迹特征，最终利用HMM算法实现26个英文字母的动态手势轨迹的识别，其识别率可达85％以上。电子科技大学的杜晓川提出了一种基于外接椭圆中心距离的跟踪算法，并通过HMM算法进行轨迹的识别，平均识别率达到87％。中科院自动化研究所的单彩峰等人开发出了基于动态手势识别的智能轮椅控制系统，通过改进的粒子滤波算法实现对动态手势的实时跟踪，并在提取动态手势轨迹特征后，利用训练好的手势轨迹模型对待识别手势轨迹进行识别，最后将识别结果转化为控制轮椅的指令，从而实现对轮椅的运动控制。近年来，随着人工智能、模式识别、机器学习技术的快速发展。越来越多手势识别方法应用了人工神经网络和SVM等技术。马风力提出了一种基于MLP神经网络的手势识别方法。

从上述介绍可以知道，基于手势识别的人机交互方法已经吸引了国内外众多学者的兴趣并取得了比较丰富的成果，但是已有的基于机器学习的算法在效率及通用性等方面仍存在许多亟待解决的问题。

发明内容

本发明目的在于针对现有基于机器学习的手势交互方法的缺陷，提供一种运算速度较快，应用于复杂背景场景的快速运动手势识别方法。

本发明为实现上述目的，采用如下技术方案：

一种应用于复杂背景场景的快速运动手势识别方法，其特征在于包括下述步骤：

(1)训练神经网络：

1.1从视频库中获取一段手势动作帧序列，假设总帧数为n；

1.2获取第i帧图像Ii转换为YCrCb色彩模型，对原图像每个像素点，执行以下公式运算，得到每个像素点的Y、Cr、Cb通道值：

其中R、G、B分别表示像素点的红绿蓝通道值；

1.3在YCrCb模式下的图像Ii去掉Y通道内容，以Cr通道信息为主，Cb通道信息为辅，把Cr，Cb通道合并为一个通道图像Iig，公式如下值：

I_ig＝α*Cr+(1-α)*Cb

其中α＝0.92；

1.4通过以下公式计算出图像Iig的均值μig和方差σig：

1.5参照一维正态分布的概率密度分布表，得到在[μ-2.9δ,μ+2.9δ]范围内的概率非常接近1，将像素值处于该范围内的像素点看作肤色点，执行以下公式把图像变成灰度图像Iib：

1.6如果第i帧是最后一帧，则执行步骤1.7，否则，则i＝i+1，跳转到步骤1.2；

1.7对所有灰度图像I_ib执行通道求和操作，得到求和图像I_b；

1.8把图像I_b输入到深度置信网络中进行训练，输入下个视频，跳转到步骤1.1；

1.9对训练库里的所有视频执行步骤1.1-1.7后，得到训练好的神经网络；

(2)手势判断：

2.1通过摄像头拍摄获取到一段手势动作帧序列，假设总帧数为n；

2.2执行训练神经网络步骤中的1.2-1.7步骤，得到图像S；

2.3把图像S输入到训练好的深度置信网络中，判断出输入的手势动作属性什么类型手势；

2.4输出结果，进行相应手势操作。

其进一步特征在于：在步骤1.1和步骤1.2之间对图像Ii进项中值滤波去噪操作，提高鲁棒性。

所述步骤1.3中α值根据1000张图像测试得到。

本发明通过去除YCrCb模式下的图像的亮度干扰，并转换为灰度模式图像进行手势分割。因此运算速度较快，易于在复杂背景下识别快速运动的物体。深度置信网络作为一种深度学习模型，在特征选择与特征学习方面有着显著的优势，并能够进行分类特征学习，充分挖掘灰度求和图像的特征信息。

附图说明

图1为本发明方法流程示意图。

具体实施方式

如图1所示一种应用于复杂背景场景的快速运动手势识别方法，主要分为训练神经网络和手势交互识别两个步骤。

一、训练神经网络的步骤如下：

1.从视频库中获取一段手势动作帧序列，假设总帧数为n。

2.对帧序列内的所有图像进项中值滤波去噪，提高鲁棒性。

3.获取第i帧图像I_i转换为YCrCb色彩模型，对原图像每个像素点，执行以下公式运算，得到每个像素点的Y、Cr、Cb通道值：

其中R、G、B分别表示像素点的红绿蓝通道值。

4.由于要排除亮度的干扰，在YCrCb模式下的图像I_i可以简单的通过去掉Y通道内容以实现，因此去掉Y通道内容。由于人的肤色信息主要集中在Cr通道中，因此以Cr通道信息为主，Cb通道信息为辅方式，把Cr，Cb通道合并为一个通道图像I_ig以减少计算量。公式如下：

I_ig＝α*Cr+(1-α)*Cb

其中α＝0.92(根据1000张图像测试得到的结果)。

5.通过以下公式计算出图像I_ig的均值μ_ig和方差σ_ig：

6.参照一维正态分布的概率密度分布表，可以得到在[μ-2.9δ,μ+2.9δ]范围内的概率非常接近1，所以像素值处于该范围内的像素点基本上可以被看作肤色点。执行以下公式把图像变成灰度图像I_ib：

7.如果第i帧是最后一帧，则执行步骤8，否则，则i＝i+1，跳转到步骤3；

8.对所有灰度图像I_ib执行通道求和操作，得到求和图像I_b；

9.把图像I_b输入到深度置信网络中进行训练，输入下个视频，跳转到步骤1；

10.对训练库里的所有视频执行步骤1-8后，得到训练好的深度置信网络结构。

二、手势判断的步骤如下：

1.通过摄像头拍取到一段手势动作帧序列，假设总帧数为n。

2.执行训练步骤一中的2-8小步骤，得到图像S。

3.把图像S输入到训练好的深度置信网络中，判断出输入的手势动作属性什么类型手势。

4.输出结果，进行相应手势操作。

Claims

1.一种应用于复杂背景场景的快速运动手势识别方法，其特征在于包括下述步骤：

(1)训练神经网络：

1.1从视频库中获取一段手势动作帧序列，假设总帧数为n；

其中R、G、B分别表示像素点的红绿蓝通道值；

I_ig＝α*Cr+(1-α)*Cb

其中α＝0.92；

1.4通过以下公式计算出图像Iig的均值μig和方差σig：

1.5参照一维正态分布的概率密度分布表，得到在[μ-2.96，μ+2.9δ]范围内的概率非常接近1，将像素值处于该范围内的像素点看作肤色点，执行以下公式把图像变成灰度图像Iib：

<mrow> <msub> <mi>I</mi> <mrow> <mi>i</mi> <mi>b</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>I</mi> <mi>N</mi> <mi>T</mi> <mrow> <mo>(</mo> <mn>256</mn> <mo>*</mo> <mi>i</mi> <mo>/</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>I</mi> <mrow> <mi>i</mi> <mi>g</mi> </mrow> </msub> <mo>&Element;</mo> <mrow> <mo>&lsqb;</mo> <mrow> <mi>&mu;</mi> <mo>-</mo> <mn>2.9</mn> <mi>&delta;</mi> <mo>,</mo> <mi>&mu;</mi> <mo>+</mo> <mn>2.9</mn> <mi>&delta;</mi> </mrow> <mo>&rsqb;</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>e</mi> <mi>l</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>;</mo> </mrow>

1.7对所有灰度图像I_ib执行通道求和操作，得到求和图像I_b；

(2)手势判断：

2.2执行训练神经网络步骤中的1.2-1.7步骤，得到图像S；

2.4输出结果，进行相应手势操作。

2.根据权利要求1所述的应用于复杂背景场景的快速运动手势识别方法，其特征在于：在步骤1.1和步骤1.2之间对图像Ii进项中值滤波去噪操作，提高鲁棒性。

3.根据权利要求1所述的应用于复杂背景场景的快速运动手势识别方法，其特征在于：所述步骤1.3中α值根据1000张图像测试得到。