CN105354532A - 一种基于手部运动帧数据的手势识别方法 - Google Patents
一种基于手部运动帧数据的手势识别方法 Download PDFInfo
- Publication number
- CN105354532A CN105354532A CN201510621536.XA CN201510621536A CN105354532A CN 105354532 A CN105354532 A CN 105354532A CN 201510621536 A CN201510621536 A CN 201510621536A CN 105354532 A CN105354532 A CN 105354532A
- Authority
- CN
- China
- Prior art keywords
- gesture
- hand
- frame data
- hcnf
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于手部运动帧数据的手势识别方法,包括:采集不同手势的手部运动帧数据序列作为初始手部运动帧数据序列;将手势数据集分为训练数据集和测试数据集;按单手或者双手运动手势分为单手手势训练数据集和双手手势数据训练集;分别根据单手手势训练数据集和双手手势训练数据集建立两个相应的隐条件神经场HCNF模型;手部动作帧数据的手势识别;将判断完成后的观察序列,输入对应的HCNF模型中,即若为单手手势数据序列则输入到单手手势动作HCNF模型中,否则输入到双手手势动作HCNF模型中,最终得到输入手部运动帧数据序列的运动手势类型。本发明具有较高的手势识别的准确性。
Description
技术领域
本发明属于计算机视觉和模式识别领域,特别涉及一种基于手部运动帧数据的手势识别方法。
背景技术
根据手势数据的输入方式不同,手势识别技术主要可以分为两类:基于数据手套的手势识别和基于计算机视觉的手势识别。基于数据手套的手势识别,主要优点是输入数据量小,能够实时地获得手在空间的三维信息和手指的运动信息,但是这种输入方式需要用户穿戴复杂的数据手套和位置跟踪器,给操作者带来很大不便,而且输入设备昂贵,很难在市场上进行推广。基于计算机视觉的手势识别,即利用摄象机输入手势,其优点是不干扰用户,成本较低,但容易受光线等外界环境影响,对手部细节动作的实时重建较为困难。
在现有的体感设备中,LeapMotion通过红外LED和摄像头以不同于其他运动控制技术的方式来完成对手指手势的追踪的捕获,LeapMotion通过绑定视野范围内的手、手指或者工具来提供实时数据,这些数据通过集合或者帧数据提供,每一帧都包含了一系列的基本绑定数据,比如手、手指或者工具的数据。因此,LeapMotion较为适合基于计算机视觉的手势识别的研究。
基于计算机视觉的手势识别技术主要包括一下几种:1)模板匹配:基于模板匹配的手势识别方法是一种较为简单的手势识别技术,将输入手势的特征点与各标准手势的特征点进行匹配,通过计算两者之间的相似度来实现识别,识别正确率较低;2)几何特征:基于几何特征的手势识别方法是利用手势的边缘特征和手势区域特征作为识别特征;3)隐马尔可夫模型:隐马尔科夫模型联合了马尔科夫链的时序演化模型和贝叶斯网络的概率模型能够应用于连续的语音识别、手写体识别等领域,但由于模型要求样本空间尽可能大,模型构建比较复杂,同时HMM模型假设的局部观察值独立性特点与手势动作序列的真实结构出现不符。
发明内容
本发明的目的是提供一种基于手部运动帧数据的手势识别方法,可以提高手势识别准确率。本发明的技术方案如下:
一种基于手部运动帧数据的手势识别方法,包括以下步骤:
(1)采集LeapMotion体感传感器输出的不同手势的手部运动帧数据序列作为初始手部运动帧数据序列;
(2)对初始手部运动帧数据序列进行帧数据预处理后构成手势数据集,并将手势数据集分为训练数据集和测试数据集;
(3)使用步骤(2)中的训练数据集按单手或者双手运动手势分为单手手势训练数据集和双手手势数据训练集;
(4)分别根据单手手势训练数据集和双手手势训练数据集建立两个相应的隐条件神经场HCNF模型;
(5)取出测试数据集中手势运动帧数据序列作为观察序列,通过观察序列的长度可将观察序列判断为单手或是双手运动手势,若为单手手势,则输入单手手势动作HCNF模型;若为双手手势,则输入双手手势动作HCNF模型,输入各自模型后,采用置信度扩散算法计算出类别标签y*,即为输入观察序列X的预测标签,即完成手部动作帧数据的手势识别;
(6)将判断完成后的观察序列,输入对应的HCNF模型中,即若为单手手势数据序列则输入到单手手势动作HCNF模型中,否则输入到双手手势动作HCNF模型中,最终得到输入手部运动帧数据序列的运动手势类型。
所述步骤(4)的方法可为:
1)建立隐条件神经场(HCNF)的条件概率模型;
2)根据单手手势运动训练数据集,不断调整窗长度ω和隐状态个数n,并用梯度下降算法计算得到隐条件神经场(HCNF)模型的最优参数θ*,以建立单手手势的HCRF模型;按照同样的方法建立双手手势的HCRF模型。
本方法使用隐条件神经场(HCNF)对手部运动数据进行自动识别,提高了手势识别的准确性。
附图说明
图1为一种基于手部运动帧数据的手势识别方法的流程图。
具体实施方式
在文献[1]中,Yasuhisa等人提出了隐条件神经场(HCNF),该模型是将门函数引入到隐条件随机场(HCRF)中得到的,不仅能够考虑特征之间的非线性,而且具有隐条件随机场(HCRF)的优点。该文将此种模型用于语音识别。本发明的手势识别方法,提取特征需要考虑特征之间的非线性,借鉴文献1,将Yasuhisa等人提出的隐条件神经场(HCNF)引入手势识别,提出基于隐条件神经场(HCNF)的手势识别方法,隐条件神经场(HCNF)是在条件神经场(CNF)的基础上提出的,提高了手势识别的准确性。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述:
(1)不同手势运动帧数据序列的采集;
通过HTML、CSS、JavaScript编写web应用对LeapMotion体感传感器输出的不同手势动作帧数据序列进行存储,构成初始手势动作帧数据序列。
(2)对初始手势帧数据序列进行删减无关数据的预处理;
LeapMotion手势每帧数据含有四个对象,分别为id,hands,pointables,interactionBox。其中的一些数据与手势识别没有关联,可以将其删除,如id对象,interactionBox对象。
id对象表示每一帧数据编号,每一帧数据只有唯一一个的id号,且输出的手势帧数据的id号是递增的;interactionBox对象表示在LeapMotion视野范围内的一个完整长方体,称为互动框,互动框是一个轴对齐的矩形棱柱,对于不同手势,互动框的大小和位置是不变的。因此,id与interactionBox对象中的数据对于手势识别并没有作用,可以将这两类数据删除。
完成预处理后的手势帧数据序列即为输入观察序列X。
(3)将处理完成后的手势帧数据序列构成手势数据库;
将手势数据集分为训练数据库和测试数据库,训练数据集D由观察序列-类别标签数据对{(Xi,Yi)}组成,即D={(Xi,Yi)},其中Yi=Y,i=1,2,…,N,Xi={xi,1,xi,2,…,xi,m},N为训练集中的样本个数,m为观察值序列的帧数。
训练数据集用于训练与建立隐条件神经场(HCNF)模型,测试数据集用于测试手势识别的正确率。
(4)构建单手手势和双手手势的训练数据集;
例如单手手势动作,选取所有单手手势动作帧数据序列构建单手手势动作的训练数据集。第i个手势帧数据序列Wi含有wi个手势帧数据,得到wi个手势帧数据的观察序列集合再将第i个手势帧数据序列的手势类别标签标注为Yw,i,对所有W个单手手势帧数据序列进行上述操作,得到W个单手手势帧数据序列的观察值序列集合{Xw,1,Xw,2,…,Xw,W}与类别标签集合{Yw,1,Yw,2,…,Yw,W},其中YW为所有可能画圈手势动作的类别标签,观察序列集合和类别标签集合共同构成画圈手势动作的训练数据集{(Xw,Yw)},w=1,2,…,W。
使用上述方法同理,可以得到N个双手手势帧数据序列的训练数据集{(Xn,Yn)},n=1,2,…,N。
(5)根据单手或双手手势训练数据集建立两个相应的隐条件神经场(HCNF)模型;
1)隐条件神经场(HCNF)模型的定义:
根据双手手势训练集中的观测序列X={x1,x2,…,xN},类别标签序列Y={y1,y2,…,yN}以及隐变量序列S={s1,s2,…,sN},可以定义隐条件神经场(HCNF)的条件概率模型为:
其中κ为拉伸系数,Z(X)为分割函数,其公式为:
Φn(X,Y,S)为观测函数,表示原始观察特征,Ψn(X,Y,S)为变换函数,表示转换后的特征,分别为:
其中φ(X,Y,S,t)表示从第t帧数据中提取的原始特征,ψj(X,Y,S,t,t-1)表示从第t帧和第t-1帧数据中提取的转换特征,h(x)为门函数,即表示门函数所对应的权重,uj表示函数所对应的权重,θy,s,g表示y,s,g对应的三维权重向量,K表示计算Φn(X,Y,S)时,使用具有非线性特征的门函数的集合。
2)HCNF模型学习:
双手手势动作训练集中包含N个样本(Xi,Yi),根据HCNF模型的定义,通过对数似然概率L(θ)和模型参数计算公式可学习得到最优参数θ*,对数似然概率L(θ)为:
其中,N表示训练集中共有N帧,δ2可以由求得。对于上式所示最优化问题,可以使用梯度下降法计算模型参数计算公式的最优值,获得最优参数θ*后,可以建立双手手势动作的HCNF模型。
根据以上两个步骤可以建立双手手势动作的HCNF模型。同理,可以建立单手手势动作的HCNF模型。
(6)运用步骤(5)中得到的两个隐条件神经场(HCNF)模型进行手势识别;
1)单手手势帧数据的长度为L;双手手势帧数据的长度为2L,根据手势帧数据的长度对测试数据集中的观察序列X进行判断,若为单手手势,则输入单手手势动作HCNF模型;若为双手手势,则输入双手手势动作HCNF模型;
2)将测试数据集中的观察序列X作为对应单手或者双手手势动作HCNF模型的输入,采用置信度扩散算法计算出类别标签y*,y*=argmaxP(Y|X,θ*);
3)类别标签y*为输入观察序列X的预测标签,即完成了LeapMotion手部动作帧数据的手势识别。
实验结果如下表所示:
分类器 | 准确率 |
条件随机场(CRF)[2] | 73.15% |
隐条件随机场(HCRF)[3] | 77.78% |
隐条件神经场(HCNF) | 85.19% |
4)由上表可知,相较其他分类器,隐条件神经场(HCNF)对于识别由LeapMotion采集的手势数据具有更好的效果。因此在动态手势识别中使用隐条件神经场(HCNF)可以提高手势动作的识别准确率。
相关文献:
[1].YasuhisaFujii;KazumasaYamamoto;SeiichiNakagawa.AutomaticspeechrecognitionusingHiddenConditionalNeuralFields[C].Proceedingsofthe2011IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP),2011:5036-5039.
[2].J.Lafferty,A.McCallum,andF.Pereira,“Conditionalrandomfields:Probabilisticmodelsforsegmentingandlabelingsequencedata,”Proceedingsofthe2001InternationalConferenceonMachineLearning(ICML),2001:282-289.
[3].A.Quattoni,M.Collins,andT.Darrell,“Conditionalrandomfieldsforobjectrecognition,”Proceedingsofthe2004ConferenceonNeuralInformationProcessingSystems(NIPS),2004.
Claims (2)
1.一种基于手部运动帧数据的手势识别方法,包括以下步骤:
(1)采集LeapMotion体感传感器输出的不同手势的手部运动帧数据序列作为初始手部运动帧数据序列;
(2)对初始手部运动帧数据序列进行帧数据预处理后构成手势数据集,并将手势数据集分为训练数据集和测试数据集;
(3)使用步骤(2)中的训练数据集按单手或者双手运动手势分为单手手势训练数据集和双手手势数据训练集;
(4)分别根据单手手势训练数据集和双手手势训练数据集建立两个相应的隐条件神经场HCNF模型;
(5)取出测试数据集中手势运动帧数据序列作为观察序列,通过观察序列的长度可将观察序列判断为单手或是双手运动手势,若为单手手势,则输入单手手势动作HCNF模型;若为双手手势,则输入双手手势动作HCNF模型,输入各自模型后,采用置信度扩散算法计算出类别标签y*,即为输入观察序列X的预测标签,即完成手部动作帧数据的手势识别;
(6)将判断完成后的观察序列,输入对应的HCNF模型中,即若为单手手势数据序列则输入到单手手势动作HCNF模型中,否则输入到双手手势动作HCNF模型中,最终得到输入手部运动帧数据序列的运动手势类型。
2.根据权利要求1所述的基于手部运动帧数据的手势识别方法,其特征在于,所述步骤(4)的方法为:
1)建立隐条件神经场(HCNF)的条件概率模型;
2)根据单手手势运动训练数据集,不断调整窗长度ω和隐状态个数n,并用梯度下降算法计算得到隐条件神经场(HCNF)模型的最优参数θ*,以建立单手手势的HCRF模型;按照同样的方法建立双手手势的HCRF模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510621536.XA CN105354532A (zh) | 2015-09-25 | 2015-09-25 | 一种基于手部运动帧数据的手势识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510621536.XA CN105354532A (zh) | 2015-09-25 | 2015-09-25 | 一种基于手部运动帧数据的手势识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105354532A true CN105354532A (zh) | 2016-02-24 |
Family
ID=55330500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510621536.XA Pending CN105354532A (zh) | 2015-09-25 | 2015-09-25 | 一种基于手部运动帧数据的手势识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105354532A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108921101A (zh) * | 2018-07-04 | 2018-11-30 | 百度在线网络技术(北京)有限公司 | 基于手势识别控制指令的处理方法、设备及可读存储介质 |
CN109521877A (zh) * | 2018-11-08 | 2019-03-26 | 中国工商银行股份有限公司 | 移动终端人机交互方法及系统 |
CN110059580A (zh) * | 2019-03-27 | 2019-07-26 | 长春理工大学 | 一种基于leap motion的动态手势识别增强方法 |
CN110362264A (zh) * | 2019-06-28 | 2019-10-22 | 武汉海微科技有限公司 | 一种基于触摸板的动态手势识别方法、装置和系统 |
CN112149607A (zh) * | 2020-10-08 | 2020-12-29 | 吉林大学 | 基于贝叶斯算法的远程智能运维方法 |
US11321967B2 (en) * | 2019-02-01 | 2022-05-03 | Chengdu Siwuige Technology Co., Ltd. | Motion capture device and method for the multi-point receiving array based on the non-propagating electromagnetic field |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102024151A (zh) * | 2010-12-02 | 2011-04-20 | 中国科学院计算技术研究所 | 手势动作识别模型的训练方法和手势动作识别方法 |
CN103778407A (zh) * | 2012-10-23 | 2014-05-07 | 南开大学 | 一种迁移学习框架下基于条件随机场的手势识别算法 |
-
2015
- 2015-09-25 CN CN201510621536.XA patent/CN105354532A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102024151A (zh) * | 2010-12-02 | 2011-04-20 | 中国科学院计算技术研究所 | 手势动作识别模型的训练方法和手势动作识别方法 |
CN103778407A (zh) * | 2012-10-23 | 2014-05-07 | 南开大学 | 一种迁移学习框架下基于条件随机场的手势识别算法 |
Non-Patent Citations (4)
Title |
---|
KONSTANTINOS BOUSMALIS 等: "Infinite Hidden Conditional Random Fields for Human Behavior Analysis", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 * |
YASUHISA FUJII 等: "Automatic speech recognition using Hidden Conditional Neural Fields", 《2011 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING》 * |
侯亭亭 等: "基于动态贝叶斯网络的手势识别", 《国外电子测量技术》 * |
潘佳佳 等: "基于Leap Motion的三维自由手势操作", 《中国科技论文》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108921101A (zh) * | 2018-07-04 | 2018-11-30 | 百度在线网络技术(北京)有限公司 | 基于手势识别控制指令的处理方法、设备及可读存储介质 |
US11061479B2 (en) | 2018-07-04 | 2021-07-13 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, device and readable storage medium for processing control instruction based on gesture recognition |
CN109521877A (zh) * | 2018-11-08 | 2019-03-26 | 中国工商银行股份有限公司 | 移动终端人机交互方法及系统 |
US11321967B2 (en) * | 2019-02-01 | 2022-05-03 | Chengdu Siwuige Technology Co., Ltd. | Motion capture device and method for the multi-point receiving array based on the non-propagating electromagnetic field |
CN110059580A (zh) * | 2019-03-27 | 2019-07-26 | 长春理工大学 | 一种基于leap motion的动态手势识别增强方法 |
CN110362264A (zh) * | 2019-06-28 | 2019-10-22 | 武汉海微科技有限公司 | 一种基于触摸板的动态手势识别方法、装置和系统 |
CN110362264B (zh) * | 2019-06-28 | 2022-06-10 | 武汉海微科技有限公司 | 一种基于触摸板的动态手势识别方法、装置和系统 |
CN112149607A (zh) * | 2020-10-08 | 2020-12-29 | 吉林大学 | 基于贝叶斯算法的远程智能运维方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Soleimani et al. | Cross-subject transfer learning in human activity recognition systems using generative adversarial networks | |
CN105354532A (zh) | 一种基于手部运动帧数据的手势识别方法 | |
Hatami et al. | Classification of time-series images using deep convolutional neural networks | |
Li et al. | Deep Fisher discriminant learning for mobile hand gesture recognition | |
CN109492227A (zh) | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 | |
CN102938070B (zh) | 一种基于动作子空间与权重化行为识别模型的行为识别方法 | |
CN111950455B (zh) | 一种基于lffcnn-gru算法模型的运动想象脑电信号特征识别方法 | |
Sun et al. | Deep LSTM networks for online Chinese handwriting recognition | |
CN104616028B (zh) | 基于空间分割学习的人体肢体姿势动作识别方法 | |
CN105069413A (zh) | 一种基于深度卷积神经网络的人体姿势识别方法 | |
CN110414009B (zh) | 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置 | |
Zheng et al. | Cross-modal surface material retrieval using discriminant adversarial learning | |
Katılmış et al. | ELM based two-handed dynamic turkish sign language (TSL) word recognition | |
CN111461201A (zh) | 基于相空间重构的传感器数据分类方法 | |
CN113946685B (zh) | 一种融合规则和深度学习的渔业标准知识图谱构建方法 | |
CN105549885A (zh) | 滑屏操控中用户情绪的识别方法和装置 | |
Guo et al. | Sign language recognition based on adaptive hmms with data augmentation | |
CN111797622B (zh) | 用于生成属性信息的方法和装置 | |
CN109753897A (zh) | 基于记忆单元强化-时序动态学习的行为识别方法 | |
CN105956603A (zh) | 一种基于张量时域关联模型的视频序列分类方法 | |
CN111444488A (zh) | 一种基于动态手势的身份认证方法 | |
Sharma et al. | Trbaggboost: An ensemble-based transfer learning method applied to Indian Sign Language recognition | |
CN110490107A (zh) | 一种基于胶囊神经网络的指纹识别技术 | |
CN116110119A (zh) | 基于自注意力的主动对比编码的人类行为识别方法及系统 | |
CN117152788A (zh) | 基于知识蒸馏与多任务自监督学习的骨架行为识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160224 |