CN107798296A - 一种应用于复杂背景场景的快速运动手势识别方法 - Google Patents

一种应用于复杂背景场景的快速运动手势识别方法 Download PDF

Info

Publication number
CN107798296A
CN107798296A CN201710894579.4A CN201710894579A CN107798296A CN 107798296 A CN107798296 A CN 107798296A CN 201710894579 A CN201710894579 A CN 201710894579A CN 107798296 A CN107798296 A CN 107798296A
Authority
CN
China
Prior art keywords
mtd
mrow
mtr
gesture
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710894579.4A
Other languages
English (en)
Other versions
CN107798296B (zh
Inventor
杨滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN201710894579.4A priority Critical patent/CN107798296B/zh
Publication of CN107798296A publication Critical patent/CN107798296A/zh
Application granted granted Critical
Publication of CN107798296B publication Critical patent/CN107798296B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Social Psychology (AREA)
  • Multimedia (AREA)
  • Psychiatry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种应用于复杂背景场景的快速运动手势识别方法,包括采集手势动作视频,通过去除YCrCb模式下的图像的亮度干扰,并转换为灰度模式图像进行手势分割,并输入到深度置信网络中进行训练;和手机采集手势视频,获得手势轮廓图像通过深度置信网络实现手势识别的手势判断的步骤。因此,本发明运算速度较快,易于在复杂背景下识别快速运动的物体。深度置信网络作为一种深度学习模型,在特征选择与特征学习方面有着显著的优势,并能够进行分类特征学习,充分挖掘灰度求和图像的特征信息。

Description

一种应用于复杂背景场景的快速运动手势识别方法
技术领域
本发明属于人机交互技术领域,特别是涉及一种应用于复杂背景场景的快速运动手势识别方法。
背景技术
人机交互的发展过程就是从人适应计算机到计算机逐步适应人的过程,人机交互的发展经历了早期的手工操作阶段、作业控制语言及交互命令语言阶段、图形用户界面(GUI)阶段、网络用户界面阶段、多通道与多媒体智能人机交互阶段。手作为身体上最灵活的部位,是最早用来进行人与人之间肢体交流的工具。动态手势识别是人机交互领域中的重要研究课题,具有重要的理论研究意义以及广泛的应用前景。
国外对基于视觉的动态手势识别技术的研究起步比较早,在该领域的研究中有着丰富的经验,并取得了一定的研究成果。M.Elmezain等人通过融合Camshift算法和Kalman滤波算法来提高动态手势跟踪的效果,然后对相应的动态手势轨迹特征进行提取,最后通过HMM算法识别数字0~9的轨迹,识别率达到95.87%。M.Al-Rousan和K.Assaleh对动态手势识别做了深入研究,他们首先从视频中分割出手部,然后采用HMM模型对阿拉伯手语进行识别,最终该手势识别系统的在线识别率达到90.6%。R.Shrivastava利用Hu矩和手势轨迹方向角作为特征进行提取,然后使用HMM算法进行手势轨迹的识别,提高了识别速度,并且平均识别率达到了90%以上。R L.Vieriu等人利用HMM算法对手势轮廓的序列点进行判断分类,实现了9个不同角度手势的识别。华南理工大学的常亚南在经典HMM算法的基础上,提出了一种基于HMM的阈值模型的动态手势识别方法,最终完成了动态手势轨迹的识别,并且对典型动态手势轨迹的识别率达到97.87%。国内大连理工大学的杨青通过定位手势指尖的方法提取轨迹特征,最终利用HMM算法实现26个英文字母的动态手势轨迹的识别,其识别率可达85%以上。电子科技大学的杜晓川提出了一种基于外接椭圆中心距离的跟踪算法,并通过HMM算法进行轨迹的识别,平均识别率达到87%。中科院自动化研究所的单彩峰等人开发出了基于动态手势识别的智能轮椅控制系统,通过改进的粒子滤波算法实现对动态手势的实时跟踪,并在提取动态手势轨迹特征后,利用训练好的手势轨迹模型对待识别手势轨迹进行识别,最后将识别结果转化为控制轮椅的指令,从而实现对轮椅的运动控制。近年来,随着人工智能、模式识别、机器学习技术的快速发展。越来越多手势识别方法应用了人工神经网络和SVM等技术。马风力提出了一种基于MLP神经网络的手势识别方法。
从上述介绍可以知道,基于手势识别的人机交互方法已经吸引了国内外众多学者的兴趣并取得了比较丰富的成果,但是已有的基于机器学习的算法在效率及通用性等方面仍存在许多亟待解决的问题。
发明内容
本发明目的在于针对现有基于机器学习的手势交互方法的缺陷,提供一种运算速度较快,应用于复杂背景场景的快速运动手势识别方法。
本发明为实现上述目的,采用如下技术方案:
一种应用于复杂背景场景的快速运动手势识别方法,其特征在于包括下述步骤:
(1)训练神经网络:
1.1从视频库中获取一段手势动作帧序列,假设总帧数为n;
1.2获取第i帧图像Ii转换为YCrCb色彩模型,对原图像每个像素点,执行以下公式运算,得到每个像素点的Y、Cr、Cb通道值:
其中R、G、B分别表示像素点的红绿蓝通道值;
1.3在YCrCb模式下的图像Ii去掉Y通道内容,以Cr通道信息为主,Cb通道信息为辅,把Cr,Cb通道合并为一个通道图像Iig,公式如下值:
Iig=α*Cr+(1-α)*Cb
其中α=0.92;
1.4通过以下公式计算出图像Iig的均值μig和方差σig:
1.5参照一维正态分布的概率密度分布表,得到在[μ-2.9δ,μ+2.9δ]范围内的概率非常接近1,将像素值处于该范围内的像素点看作肤色点,执行以下公式把图像变成灰度图像Iib:
1.6如果第i帧是最后一帧,则执行步骤1.7,否则,则i=i+1,跳转到步骤1.2;
1.7对所有灰度图像Iib执行通道求和操作,得到求和图像Ib
1.8把图像Ib输入到深度置信网络中进行训练,输入下个视频,跳转到步骤1.1;
1.9对训练库里的所有视频执行步骤1.1-1.7后,得到训练好的神经网络;
(2)手势判断:
2.1通过摄像头拍摄获取到一段手势动作帧序列,假设总帧数为n;
2.2执行训练神经网络步骤中的1.2-1.7步骤,得到图像S;
2.3把图像S输入到训练好的深度置信网络中,判断出输入的手势动作属性什么类型手势;
2.4输出结果,进行相应手势操作。
其进一步特征在于:在步骤1.1和步骤1.2之间对图像Ii进项中值滤波去噪操作,提高鲁棒性。
所述步骤1.3中α值根据1000张图像测试得到。
本发明通过去除YCrCb模式下的图像的亮度干扰,并转换为灰度模式图像进行手势分割。因此运算速度较快,易于在复杂背景下识别快速运动的物体。深度置信网络作为一种深度学习模型,在特征选择与特征学习方面有着显著的优势,并能够进行分类特征学习,充分挖掘灰度求和图像的特征信息。
附图说明
图1为本发明方法流程示意图。
具体实施方式
如图1所示一种应用于复杂背景场景的快速运动手势识别方法,主要分为训练神经网络和手势交互识别两个步骤。
一、训练神经网络的步骤如下:
1.从视频库中获取一段手势动作帧序列,假设总帧数为n。
2.对帧序列内的所有图像进项中值滤波去噪,提高鲁棒性。
3.获取第i帧图像Ii转换为YCrCb色彩模型,对原图像每个像素点,执行以下公式运算,得到每个像素点的Y、Cr、Cb通道值:
其中R、G、B分别表示像素点的红绿蓝通道值。
4.由于要排除亮度的干扰,在YCrCb模式下的图像Ii可以简单的通过去掉Y通道内容以实现,因此去掉Y通道内容。由于人的肤色信息主要集中在Cr通道中,因此以Cr通道信息为主,Cb通道信息为辅方式,把Cr,Cb通道合并为一个通道图像Iig以减少计算量。公式如下:
Iig=α*Cr+(1-α)*Cb
其中α=0.92(根据1000张图像测试得到的结果)。
5.通过以下公式计算出图像Iig的均值μig和方差σig
6.参照一维正态分布的概率密度分布表,可以得到在[μ-2.9δ,μ+2.9δ]范围内的概率非常接近1,所以像素值处于该范围内的像素点基本上可以被看作肤色点。执行以下公式把图像变成灰度图像Iib
7.如果第i帧是最后一帧,则执行步骤8,否则,则i=i+1,跳转到步骤3;
8.对所有灰度图像Iib执行通道求和操作,得到求和图像Ib
9.把图像Ib输入到深度置信网络中进行训练,输入下个视频,跳转到步骤1;
10.对训练库里的所有视频执行步骤1-8后,得到训练好的深度置信网络结构。
二、手势判断的步骤如下:
1.通过摄像头拍取到一段手势动作帧序列,假设总帧数为n。
2.执行训练步骤一中的2-8小步骤,得到图像S。
3.把图像S输入到训练好的深度置信网络中,判断出输入的手势动作属性什么类型手势。
4.输出结果,进行相应手势操作。

Claims (3)

1.一种应用于复杂背景场景的快速运动手势识别方法,其特征在于包括下述步骤:
(1)训练神经网络:
1.1从视频库中获取一段手势动作帧序列,假设总帧数为n;
1.2获取第i帧图像Ii转换为YCrCb色彩模型,对原图像每个像素点,执行以下公式运算,得到每个像素点的Y、Cr、Cb通道值:
<mrow> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mi>Y</mi> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>C</mi> <mi>r</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>C</mi> <mi>b</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <mn>128</mn> </mtd> </mtr> <mtr> <mtd> <mn>128</mn> </mtd> </mtr> </mtable> </mfenced> <mo>+</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mn>0.299</mn> </mtd> <mtd> <mn>0.587</mn> </mtd> <mtd> <mn>0.114</mn> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>-</mo> <mn>0.1687</mn> </mrow> </mtd> <mtd> <mrow> <mo>-</mo> <mn>0.3313</mn> </mrow> </mtd> <mtd> <mn>0.5</mn> </mtd> </mtr> <mtr> <mtd> <mn>0.5</mn> </mtd> <mtd> <mrow> <mo>-</mo> <mn>0.4187</mn> </mrow> </mtd> <mtd> <mrow> <mo>-</mo> <mn>0.0813</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mi>R</mi> </mtd> </mtr> <mtr> <mtd> <mi>G</mi> </mtd> </mtr> <mtr> <mtd> <mi>B</mi> </mtd> </mtr> </mtable> </mfenced> </mrow>
其中R、G、B分别表示像素点的红绿蓝通道值;
1.3在YCrCb模式下的图像Ii去掉Y通道内容,以Cr通道信息为主,Cb通道信息为辅,把Cr,Cb通道合并为一个通道图像Iig,公式如下值:
Iig=α*Cr+(1-α)*Cb
其中α=0.92;
1.4通过以下公式计算出图像Iig的均值μig和方差σig:
1.5参照一维正态分布的概率密度分布表,得到在[μ-2.96,μ+2.9δ]范围内的概率非常接近1,将像素值处于该范围内的像素点看作肤色点,执行以下公式把图像变成灰度图像Iib:
<mrow> <msub> <mi>I</mi> <mrow> <mi>i</mi> <mi>b</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>I</mi> <mi>N</mi> <mi>T</mi> <mrow> <mo>(</mo> <mn>256</mn> <mo>*</mo> <mi>i</mi> <mo>/</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>I</mi> <mrow> <mi>i</mi> <mi>g</mi> </mrow> </msub> <mo>&amp;Element;</mo> <mrow> <mo>&amp;lsqb;</mo> <mrow> <mi>&amp;mu;</mi> <mo>-</mo> <mn>2.9</mn> <mi>&amp;delta;</mi> <mo>,</mo> <mi>&amp;mu;</mi> <mo>+</mo> <mn>2.9</mn> <mi>&amp;delta;</mi> </mrow> <mo>&amp;rsqb;</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>e</mi> <mi>l</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>;</mo> </mrow>
1.6如果第i帧是最后一帧,则执行步骤1.7,否则,则i=i+1,跳转到步骤1.2;
1.7对所有灰度图像Iib执行通道求和操作,得到求和图像Ib
1.8把图像Ib输入到深度置信网络中进行训练,输入下个视频,跳转到步骤1.1;
1.9对训练库里的所有视频执行步骤1.1-1.7后,得到训练好的神经网络;
(2)手势判断:
2.1通过摄像头拍摄获取到一段手势动作帧序列,假设总帧数为n;
2.2执行训练神经网络步骤中的1.2-1.7步骤,得到图像S;
2.3把图像S输入到训练好的深度置信网络中,判断出输入的手势动作属性什么类型手势;
2.4输出结果,进行相应手势操作。
2.根据权利要求1所述的应用于复杂背景场景的快速运动手势识别方法,其特征在于:在步骤1.1和步骤1.2之间对图像Ii进项中值滤波去噪操作,提高鲁棒性。
3.根据权利要求1所述的应用于复杂背景场景的快速运动手势识别方法,其特征在于:所述步骤1.3中α值根据1000张图像测试得到。
CN201710894579.4A 2017-09-28 2017-09-28 一种应用于复杂背景场景的快速运动手势识别方法 Active CN107798296B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710894579.4A CN107798296B (zh) 2017-09-28 2017-09-28 一种应用于复杂背景场景的快速运动手势识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710894579.4A CN107798296B (zh) 2017-09-28 2017-09-28 一种应用于复杂背景场景的快速运动手势识别方法

Publications (2)

Publication Number Publication Date
CN107798296A true CN107798296A (zh) 2018-03-13
CN107798296B CN107798296B (zh) 2020-06-12

Family

ID=61533921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710894579.4A Active CN107798296B (zh) 2017-09-28 2017-09-28 一种应用于复杂背景场景的快速运动手势识别方法

Country Status (1)

Country Link
CN (1) CN107798296B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110401978A (zh) * 2019-07-19 2019-11-01 中国电子科技集团公司第五十四研究所 基于神经网络和粒子滤波多源融合的室内定位方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060098846A1 (en) * 2004-11-05 2006-05-11 Fuji Xerox Co., Ltd. Movement analysis apparatus
US20070242873A1 (en) * 2006-04-17 2007-10-18 Rakesh Gupta Classification of composite actions involving interaction with objects
CN102289660A (zh) * 2011-07-26 2011-12-21 华南理工大学 一种基于手部姿态跟踪的违规驾驶行为检测方法
CN103226708A (zh) * 2013-04-07 2013-07-31 华南理工大学 一种基于Kinect的多模型融合视频人手分割方法
US20140267833A1 (en) * 2013-03-12 2014-09-18 Futurewei Technologies, Inc. Image registration and focus stacking on mobile platforms
CN104380248A (zh) * 2012-06-29 2015-02-25 英特尔公司 用于基于手势的管理的系统和方法
CN104392210A (zh) * 2014-11-13 2015-03-04 海信集团有限公司 一种手势识别方法
CN106909883A (zh) * 2017-01-17 2017-06-30 北京航空航天大学 一种基于ros的模块化手部区域检测方法和装置
CN106991372A (zh) * 2017-03-02 2017-07-28 北京工业大学 一种基于混合深度学习模型的动态手势识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060098846A1 (en) * 2004-11-05 2006-05-11 Fuji Xerox Co., Ltd. Movement analysis apparatus
US20070242873A1 (en) * 2006-04-17 2007-10-18 Rakesh Gupta Classification of composite actions involving interaction with objects
CN102289660A (zh) * 2011-07-26 2011-12-21 华南理工大学 一种基于手部姿态跟踪的违规驾驶行为检测方法
CN104380248A (zh) * 2012-06-29 2015-02-25 英特尔公司 用于基于手势的管理的系统和方法
US20140267833A1 (en) * 2013-03-12 2014-09-18 Futurewei Technologies, Inc. Image registration and focus stacking on mobile platforms
CN103226708A (zh) * 2013-04-07 2013-07-31 华南理工大学 一种基于Kinect的多模型融合视频人手分割方法
CN104392210A (zh) * 2014-11-13 2015-03-04 海信集团有限公司 一种手势识别方法
CN106909883A (zh) * 2017-01-17 2017-06-30 北京航空航天大学 一种基于ros的模块化手部区域检测方法和装置
CN106991372A (zh) * 2017-03-02 2017-07-28 北京工业大学 一种基于混合深度学习模型的动态手势识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XING Y.等: "A Robust Hand Gesture Recognition Method via Convolutional Neural Network", 《2016 6TH INTERNATIONAL CONFERENCE ON DIGITAL HOME (ICDH)》 *
吴杰: "基于深度学习的手势识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王龙 等: "结合肤色模型和卷积神经网络的手势识别方法", 《计算机工程与应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110401978A (zh) * 2019-07-19 2019-11-01 中国电子科技集团公司第五十四研究所 基于神经网络和粒子滤波多源融合的室内定位方法
CN110401978B (zh) * 2019-07-19 2020-10-09 中国电子科技集团公司第五十四研究所 基于神经网络和粒子滤波多源融合的室内定位方法

Also Published As

Publication number Publication date
CN107798296B (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN103593680B (zh) 一种基于隐马尔科夫模型自增量学习的动态手势识别方法
CN104573731B (zh) 基于卷积神经网络的快速目标检测方法
CN107679491B (zh) 一种融合多模态数据的3d卷积神经网络手语识别方法
CN102831404B (zh) 手势检测方法及系统
WO2020108362A1 (zh) 人体姿态检测方法、装置、设备及存储介质
CN105139039B (zh) 视频序列中人脸微表情的识别方法
CN102880865B (zh) 基于肤色与形态特征的动态手势识别方法
CN102270348B (zh) 基于视频流的对变形手势进行跟踪的方法
CN107808376B (zh) 一种基于深度学习的举手检测方法
CN106909887A (zh) 一种基于cnn和svm的动作识别方法
CN103198330B (zh) 基于深度视频流的实时人脸姿态估计方法
CN103440645A (zh) 一种基于自适应粒子滤波和稀疏表示的目标跟踪算法
CN107885327A (zh) 一种基于Kinect深度信息的指尖检测方法
CN109446922B (zh) 一种实时鲁棒的人脸检测方法
CN104298354A (zh) 一种人机交互的手势识别方法
CN107516316A (zh) 一种在fcn中引入聚焦机制对静态人体图像进行分割的方法
CN104167006B (zh) 一种任意手形的手势跟踪方法
CN103020614B (zh) 基于时空兴趣点检测的人体运动识别方法
CN105046278B (zh) 基于Haar特征的Adaboost检测算法的优化方法
CN107609509A (zh) 一种基于运动显著性区域检测的动作识别方法
CN101923637A (zh) 一种移动终端及其人脸检测方法和装置
CN106529441A (zh) 基于模糊边界分片的深度动作图人体行为识别方法
CN106503683A (zh) 一种基于动态注意中心的视频显著目标检测方法
CN113705579A (zh) 一种视觉显著性驱动的图像自动标注方法
CN111291713A (zh) 一种基于骨架的手势识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant