CN109190443A - 一种误识手势检测和纠错方法 - Google Patents

一种误识手势检测和纠错方法 Download PDF

Info

Publication number
CN109190443A
CN109190443A CN201810682051.5A CN201810682051A CN109190443A CN 109190443 A CN109190443 A CN 109190443A CN 201810682051 A CN201810682051 A CN 201810682051A CN 109190443 A CN109190443 A CN 109190443A
Authority
CN
China
Prior art keywords
gesture
error correction
channel
picture
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810682051.5A
Other languages
English (en)
Inventor
冯志全
孙凯云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Jinan
Original Assignee
University of Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Jinan filed Critical University of Jinan
Priority to CN201810682051.5A priority Critical patent/CN109190443A/zh
Publication of CN109190443A publication Critical patent/CN109190443A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种误识手势检测和纠错方法,属于手势识别领域。所述误识手势检测和纠错方法将任意一张手势的图片i输入到卷积神经网络进行识别得到类别号m,然后提取该图片i在卷积神经网络中的第5层卷积层的特征,计算第6通道和第58通道上的三维曲面峰值,通过对三维曲面峰值的判断实现对误识手势检测和纠错。本发明方法与传统的方法相比准确率提高了20%左右。

Description

一种误识手势检测和纠错方法
技术领域
本发明属于手势识别领域,具体涉及一种误识手势检测和纠错方法。
背景技术
静态手势识别是指从单一的手势图像或者从视频流的某一帧图像中,检测出手势的区域,并且判断出该手势所表达的信息的一种图像识别方法。静态手势识别是动态手势识别的重要组成部分,静态手势识别的研究成果可以应用在动态手势识别中。
机器学习的方法是静态手势识别中一种常见的应用手段。Papamarkos等人对手势的几何形态进行了研究,采用神经网络的方法查找出手指的区域,通过手指的区域定位手势的质心,实验表明该方法具有良好的识别效果。Georganas等人对手势进行分割和二值化处理后,采用Haar-like方法提取手势的特征,并结合AdaBost算法对特征进行训练,该方法简单有效,具有良好的实时性。Muller等人采用贝叶斯方法识别手势,该方法可识别出手势的多种形态。Wangenheim等人对比了各种基于机器学习的手势识别技术,最后表明基于支持向量机的特征训练方法对手势的识别率较高。Ja1ab等人采用小波变换提取手势的特征,并结合神经网络方法进行训练,对六种手势取得了较好的识别效果。浙江大学的王修阵等人通过建立手势特征库,对手势采用自适应遗传算法与特征库进行匹配实现手势识别。东北大学的覃文军等人将傅立叶描述子和BP神经网络结合起来,实现了手势的识别。浙江工业大学的姚明海等人采用PCA方法对手势进行在线识别,通过在线的不断更新,能够对手势实现较高的识别率。
基于几何特征的手势识别方法也是手势识别中的常用算法。Priyal等人采用矩特征来识别手势的几何形态,并对特征进行归一化,该方法对手势的扭曲具有一定的鲁棒性。Akhte等人提取手势的轮廓并将其映射到三维向量空间中进行识别,该方法可以识别十种手势。同济大学的王晓年等把二值化的手势图像分割成多个区域,计算出每个区域内目标的分布来识别手势。湖南大学的张汗灵等采用梯度方向直方图方法描述手势的局部边缘信息,并采用Zernike矩描述手势的整体信息,实验证明该方法对光照和尺度缩放具有鲁棒性。总体来说,静态手势识别方法依赖于手势鲁棒特征的选取以及机器学习中模型参数的训练,而鲁棒的手势特征对训练模型的泛化能力又具有举足轻重的地位,但在实际应用中,由于手势具有千差万别的变化形态,使得手势识别的准确率受到了影响。
动态手势的识别方法与静态手势不同,动态手势的识别需要获取目标运动的速度、角度和方向等信息(可参考文献“闯跃龙,陈岭,陈根才.基于层次化BoF模型和Spectral—HIK过滤的手势识别算法[J].浙江大学学报:工学版,2013(9):1531-1536”)。基于隐马尔科夫模型(HMM)的手势识别方法是动态手势识别的常用方法。Michaelis等利用HMM模型对手势的动态轨迹进行了识别。Stergiopoulou等人将神经网络方法和HMM方法结合使用,可以提高动态手势的识别效果,并且该方法具有光照鲁棒性。Shrivastava将手势图像映射到Lab色彩空间下,提取手势的矩特征和运动方向特征,之后基于隐马尔科夫模型对手势进行识别,具有较好的识别效果。中国科学院的王西颖等将模糊神经网络与隐马尔科夫模型相结合,该方法对动态手势的识别效果较好。
动态时间规整算法(DTW,Dynamic Time Warping)也是动态手势识别中的常用算法。上海交通大学的刘江华等人采用光流法识别手势的运动方向,并用主成分分析法进行降维,最后结合DTW方法来识别手势。在其它的动态手势识别方法中,Signoriello等人在动态手势识别中融入静态手势识别的技术,可以实现简单的人机交互。东南大学的包加桐等人将surf特征用于动态手势的识别中,识别速度较快,但是该方法容易受到应用场景的影响。祝远新等人对基于表观特征的动态手势进行建模及识别。动态的手势识别,在每一帧图像对运动手势的手型的分析与识别中,离不开静态手势识别的研究成果,因而静态手势识别是动态手势识别的重要组成部分,可以融合静态手势识别的方法来提高其准确率。
在智能高速发展的今天,智能纠错算法已应用到生活的很多领域,例如,吉林大学的王愚(可参考文献“王愚,基于图像特征提取的开关安装智能纠错系统的设计与实现[D].吉林大学,2016”)提出基于图像特征提取的开关安装智能纠错,通过工业摄像机对开关面板进行拍照,提取图像特征,通过与事先设置好的模板图像的数据进行匹配,以此来判断开关按键的安装是否正确。叶旸(可参考文献“叶旸,张雪凡,刘源,王臣,黄庆.可穿戴式智能音乐纠错系统[J].电子测量技术,2017,40(08):240-245”)设计了一种可穿戴式智能音乐纠错系统,能够及时地提醒音乐练习者的演奏错误。该系统能实时采集演奏者弹奏的乐音信息,由短时平均能量法找出乐音端点后对端点间信号做FFT和次谐波求和提取基频作为频域特征,将两乐音端点间时间差作为时域特征,通过与标准乐音对比找出演奏过程中的错误所在,系统及时提醒演奏者并将错误记录。中国科技大学郑文曦(可参考文献“郑文曦,包西林,郭辰,姚倩,吴敏.自动拼写校对的算法设计和系统实现[J].科技和产业,2013,13(02):144-148”)提出通过统计CLEC(Chinese Learner English Corpus)中的单词信息而建立了一个基于CLEC的语言模型,以该算法对检查出为错误的单词给出纠错建议,提出英语单词的自动拼写纠错算法。Suhm(可参考文献“B.Suhm,B.Myers,A.Waibel.MultimodalError Correction for Speech User Interfaces[J].ACM transactions on computer-human interaction(TOCHI),2001,8(1):60-98”)提出多模式纠错方法,使用户无需键盘输入即可有效纠正识别错误。通过使用上下文信息来校正输入的识别算法。Samir(可参考文献“A.Samir,M.Aboul-Ela.Error Detection and Correction Approach for ArabicSign Language Recognition[C].Computer Engineering&Systems(ICCES),IEEE,2012:117-123.[43]K.Katsuragawa,A.Kamal,E.Lank.Effect of Motion-Gesture RecognizerError Pattern on User Workload and Behavior[C].Proceedings ofthe22ndInternational Conferenceon IntelligentUser Interfaces.ACM,2017:439-449”)提出了一种基于自然语言处理规则的后处理模块,用于检测和纠正识别系统产生的预期误差。提出了一种语义导向的方法,可以纠正语义层面的错误以及词法错误,尤其对于领域特定的手语识别错误检测和纠正更为准确。
然后在这些研究中,目前还没有成果是用来对识别出错的手势进行纠错处理的。
发明内容
本发明的目的在于解决上述现有技术中存在的难题,提供一种误识手势检测和纠错方法,提高手势识别的准确率。
本发明是通过以下技术方案实现的:
一种误识手势检测和纠错方法,将任意一张手势的图片i输入到卷积神经网络进行识别得到类别号m,然后提取该图片i在卷积神经网络中的第5层卷积层的特征,计算第6通道和第58通道上的三维曲面峰值,通过对三维曲面峰值的判断实现对误识手势检测和纠错。
所述方法包括:
(1)将任意一张手势的图片i输入到训练好的卷积神经网络中,输出卷积神经网络识别出的类别号m;
(2)提取图片i在第5层卷积层的特征值;
(3)计算图片i在第6通道上和第58通道上的三维曲面峰值w(i,6),w(i,58);
(4)利用所述三维曲面峰值w(i,6)、w(i,58)实现对误识手势检测和纠错。
所述步骤(2)中的第5层卷积层是卷积神经网络caffenet的第5层;采用python接口获得图片i在第5层卷积层的特征值。
所述步骤(3)的操作包括:
利用下式计算图片i在第6通道上和第58通道上的三维曲面峰值:
W(i,j)=max(max(Zi,j)),i∈m,j∈256 (2)
其中,Zi,j是采用下式计算得到的:
Z=griddata(x,y,z,X,Y,'v4') (1)
其中z=f(x,y),曲面拟合有不规则的数据向量x,y,z;griddata()将返回曲面z在点(X,Y)处的插值。
所述步骤(4)的操作包括:
提供类别的判断条件,如果图片i对应的手势与该类别相似,则将类别调整成该类别,如果不相似,则输出卷积神经网络识别出的类别号m。
所述类别的判断条件为:第6通道上的第一类手势F类的识别区域DF6、第6通道上的第二类手势S类的识别区域DS6、第58通道上的第一类手势F类的识别区域DF58、第58通道上的第二类手势S类的识别区域DS58
DF6为(7.4,11];
DS6为[4,7.4];
DF58为[4.4,7);
DS58为[3,4.4)。
所述如果图片i对应的手势与该类别相似,则将类别调整成该类别,如果不相似,则输出卷积神经网络识别出的类别号m的操作包括:
如果w(i,6)∈DF6并且w(i,58)∈DF58,则识别出的新类别号n等于第一类手势F类;
如果w(i,6)∈DS6并且w(i,58)∈DS58,则识别出的新类别号n等于第二类手势S类;
如果上述条件都不满足,则识别出的新类别号n等于m。
与现有技术相比,本发明的有益效果是:实验结果表明,本发明方法与传统的方法相比准确率提高了20%左右。
附图说明
图1卷积神经网络模型的示意图
图2本发明方法的步骤框图
图3(a)A集合中图片对应的三维曲面的分布
图3(b)B集合中图片对应的三维曲面的分布
图4(a)集合Ar在第6通道上的直方图
图4(b)集合Br在第6通道上的直方图
图4(c)集合Ar在第58通道上的直方图
图4(d)集合Br在第58通道上的直方图
图5本发明方法的步骤框图
图6数据库
图7(a)R1的直方图分布
图7(b)W1的直方图分布
图7(c)R2的直方图分布
图7(d)W2的直方图分布
图8实验的步骤框图。
具体实施方式
下面结合附图对本发明作进一步详细描述:
在利用卷积神经网络模型训练常用静态手势的实验中,发现存在几种手势容易彼此混淆。为了解决误识手势的误识机理以及自动纠错,本发明研究了基于CNN的手势误识机理及纠错算法。研究表明,有2种手势容易被卷积神经网络算法混淆。针对这种情况,本发明把两种手势根据识别情况分成4类,并且提取最后一层卷积层的特征进行分析。为了保证特征点之间的位置信息,本发明提出用三维曲面表示这个特征点。在对每个通道的曲面观察时,发现曲面的峰值是一个比较特殊的信息。因此,用直方图来描述每个通道的峰值分布,根据中心极限定理,把这种分布看成高斯分布。并在这个过程中提出区分特征的四个重要区域,提出改进误识手势的方法。
本发明提出基于卷积神经网络的误识手势检测与纠错方法,具体如下:首先,提取各个卷积层各个通道的特征;然后,为了保留特征的位置信息以及关联特性,用三维曲面描述特征的分布。比较不同手势的三维曲面,发现区分误识手势的一个重要特征--三维曲面的峰值,定义这个特征为误识发现特征。为了证明这个特征的有效性,进行了3000次的统计实验,并用直方图来描述误识发现特征的分布规律。从大数据角度看,同一种手势在同一通道上对应的曲面的峰值总趋向于固定的区域。并且不同手势类型对应的区域是不同的。基于这个规律,本发明提出了误识发现及自动纠错算法。实验结果表明,本发明方法与传统的卷积神经网络算法相比准确率提高了20%左右。
本发明利用卷积神经网络结构,训练了17种常用静态手势模型。在实验过程中发现了一个现象:存在几种手势容易混淆,譬如,大拇指这个手势易被识别为食指这个手势。这种现象的存在极大影响了智能手势的应用。因此,为了解决这个问题,提高手势的准确率,本发明对此展开了研究。
针对手势的卷积神经网络如下:
CNN(卷积神经网络)的基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率。
如图1所示,本发明的网络的框架由卷积层和采样层交替组成,最后一层为输出层。卷积层中具有多个不同的特征图,一个特征图表示提取图像的一种特征,不同的特征图使用不同的卷积核。本网络模型采用的5层卷积,3层池化层,2层全连接层。分别为96@11*11的卷积层、3*3的池化层、256@5*5的卷积层、3*3的池化层、384@3*3的卷积层、384@3*3的卷积层、256@3*3的卷积层、3*3的池化层,2个全连接层。
本发明是采用卷积神经网络算法进行手势识别。在识别过程中,存在几种手势容易被CNN混淆,为了寻找识别过程出错的规律性,本发明提出了误识手势纠错方法,方法的步骤如图2所示。
基于高斯分布的误识手势特征
本发明在误识手势中筛选了大拇指和食指这两种手势,然后进行了大量统计聚类实验。m张食指手势图片构成集合A,n张大拇指手势图片形成集合B。为了追溯它们的差异性特征,提取了卷积层的特征进行了分析实验。本发明所采用的网络模型中第5层卷积层共有256个通道,每个通道上有144个特征值。每张图片提取特征后,集合A対映256个m×144维的矩阵。集合B対映256个n×144维的矩阵。为了保留特征的位置信息以及特征点之间的关系,对于矩阵中每一行的数据采用三维点表示。为了描述特征点之间的关系,用样条函数内插方法拟合成光滑曲面,如公式所示:
Z=griddata(x,y,z,X,Y,'v4') (1)
其中z=f(x,y),曲面拟合有不规则的数据向量x,y,z。griddata()将返回曲面z在点(X,Y)处的插值。曲面总是经过这些数据点(x,y,z)的。输入参量(X,Y)通常是规则的格点。X可以是一行向量,这时X指定一有常数列向量的矩阵。类似地,Y可以是一列向量,它指定一有常数行向量的矩阵。(x,y)是坐标点,z为特征值。调整形如z=f(x,y)的曲面,使之与非等间距矢量(x,y,z)中的数据吻合。griddata函数在指定的(X,Y)点处插补此曲面,生成Z.此曲面一定通过这些数据点。X和Y构成均匀网格(与meshgrid函数生成的相同).X是行矢量,确定一个具有固定列数的矩阵。与之类似,Y是列矢量,确定一个具有固定行数的矩阵。'V4'为:MATLAB4格点样条函数内插。
经过上述曲面拟合,集合A对应产生256×m幅曲面图。集合B对应产生256×n幅曲面图。同一个通道上的曲面进行比较对照。如图3(a)和图3(b)所示,这是在第6通道上两张图片对应的三维曲面,其中图3(a)来源于集合A,图3(b)来源于集合B。由于第5层卷积层的特征以12×12×256大小的三维矩阵的形式存储,所以x方向代表特征的第一维信息,取值范围1~12;y方向代表特征的第二维信息,取值范围1~12;z方向代表特征值。左右对比,可以发现两张曲面的峰值取值上是不同的,左图峰值是5.22,右图峰值是9.48。并用以下公式求曲面的峰值:
W(i,j)=max(max(Zi,j)),i∈m,j∈256 (2)
q(k,j)=max(max(Zk,j)),k∈n,j∈256
其中W(i,j)表示第i张图片在第j通道上的峰值。q(k,j)表示第k张图片在第j通道上的峰值。
经过上述步骤,每张图片对应256个值,即曲面的峰值,用直方图来描述A和B集合每个通道上峰值的分布情况,见公式(3):
hist(w(:,i)),i=1,2,3,...,256
hist(q(:,i)),i=1,2,3,...,256 (3)
依据CNN识别对错,把集合A中被CNN识别正确的定义为集合Ar,被CNN识别错误的定义为Aw。相应的集合B分为Br和Bw。经过上述公式,四个集合都对应256张直方图,对应通道进行比较实验。图4(a)到图4(d)是集合Ar和集合Br在第6通道和第58通道上对应的直方图。横坐标表示峰值,纵坐标表示个数,直方图统计了不同峰值的个数分布情况。图4(a)和图4(b)是同一个通道不同手势类型的直方图,图4(c)和图4(d)是同一个通道。
根据中心极限定理,图4(a),图4(b),图4(c),图4(d)分布上可以近似看作高斯分布。从中可以明显看出同一通道上不用类型的手势期望值是不同的。因此本发明得到一个规律:峰值的分布趋于正态分布,并且不同手势类型峰值的期望值μ是有差别的。因此本发明用期望值来区分不同手势类型。
本发明方法基于第6通道与第58通道上峰值的直方图分布展开。根据中心极限定理,直方图看作高斯分布,因此设定在6通道上识别正确的第一种手势(图4(a))的期望值为9.2,假设区域DF6为(7.4,11]。在6通道上识别正确的第二种手势(图4(b))的期望值为5.7,假设区域DS6为[4,7.4]。在58通道上识别正确的第一种手势(图4(c))的期望值为5.7,假设区域DF58为[4.4,7)。在58通道上识别正确的第二种手势(图4(d))的期望值为3.7,假设区域DS58为[3,4.4)。这四个区域含盖了百分之70以上的图片。所以为了提高纠错的准确性,本发明同时判断了两个通道,增加了时间复杂度,但是提高了准确率。
假设第i张图片被卷积神经网络识别为类别m,假设n是经过本算法后输出的新的类别号。首先,这张图片调用CNN模型输出并保存结果,并提取第5层卷积层的特征。然后,计算第6通道和第58通道上的三维曲面峰值,判断峰值是否都在DF6和DF58这两个区域内,如果满足则纠正结果为1;如果不满足,则继续判断是否都在区域DS6和DS58,是的话纠正结果为2。否则输出CNN结果。本发明方法的详细步骤如图5所示,具体如下:
输入:随机一张手势的图片i;
输出:手势被识别的类别号n;
1.用建立的数据库训练卷积神经网络模型
2.输出手势被已建立的网络模型识别的类别号m
3.提取i(i是输入的一张图片,m是指被卷积神经网络模型识别的结果,因为只有两类手势,假设用数字1和2来表示手势类别的话,这个结果可能是1或者2)在第5层卷积层的特征值(第5层卷积是我所用的网络模型结构。网络结构本文用的caffenet,是固定的。特征值的获取用的python接口实现);
4.计算i在第6通道上和第58通道上的三维曲面峰值w(i,6),w(i,58)(是用公式2得到的。Zi,j的值就是通过公式一得到的。即公式一中的Z就是这个Zi,j。这里为了区分所以加了下标。);
5.如果w(i,6)∈DF6并且w(i,58)∈DF58
6.输出n等于F类(F类指第一类手势)
7.如果w(i,6)∈DS6并且w(i,58)∈DS58
8.输出n等于S类(S类指第二类手势)
9.如果上述条件都不满足
10.输出n等于m(m是被卷积神经网络识别的类别)
本发明发现存在已被卷积神经网络混淆的手势种类,即大拇指这个手势和食指这个手势。首先,随机一张图片调用卷积神经网络模型,保存下被识别的结果m,然后,再调用本发明的方法,在这个方法中,有判断这个手势和哪一类手势相似的条件,如果相似则调整成该类(用数字表示类别,即1,2)。如果不相似,则输出被卷积神经网络测试的结果。
实验结果和分析如下:本发明所用的数据是实验室采集的2000名学生建立的数据库。在本次试验中共用了以下5种手势,其中2种手势类型见图6,每种手势训练集达到1万5千张;每类手势测试集达到3000张。在研究过程中,为了减少网络需要训练的数据量,并同时保留足够多的数据图像细节信息,将实验数据库中的手势统一成大小为200*200尺寸。在建立的数据库上验证本实验算法。
基于该数据库的卷积神经网络模型的测试结果如下:
该实验中用每类15000万张图片做训练集;训练的批处理数量为256;显示频率为50;最大的迭代次数为20万;权重衰减项设置为0.0005,防止过拟合的一个参数。设置完训练用的参数进行调用。训练的目的是为了得到最佳模型,它可以很好地学习到手势的特征,识别新的手势。测试过程需要用到以下文件:
(1)类名文件,即标定分类名称的txt文件
(2)测试图片
(3)网络模型
(4)网络架构说明文件,与训练网络结构相对应
(5)分类器
以上文件中测试图片每类图片数量为3000;网络模型是迭代180000次时的caffemodel;测试的网络结构与训练时的网络结构相比,没有卷积层、全连接层的参数设置,以及准确率层与损失层的设置。但是为了评估图片属于各个分类的概率,测试文件需要的添加概率层。分类器采用caffe提供的c++分类器接口。
每类手势大约3000张图片进行测试。测试结果做简单的统计实验,发现食指手势和大拇指手势极易混淆,称之为误识手势。食指手势称为类别1,大拇指手势称为类别2。最终类别1和类别2测试结果的准确率见表1。
类别 准确率
1 49%
2 48%
表1
基于该数据库的本发明方法的测试结果:
根据CNN识别结果,类别1简单分为正确类R1和错误类W1;类别2划分为正确类R2和错误类W2。在同一通道上比较被CNN识别成正确和错误两类的峰值变化。首先,提取这四个区域的特征,并利用公式(1),(2),(3)做对应的三维曲面。再用直方图表示各自峰值的分布规律。图7(a)-图7(d)代表了第6通道上这四个区域的分布。W1在区域DF6(7.4,11]上的百分比大于百分之50。W2在区域DS6[4,7.4]的百分比大于百分之50。这说明同一个通道上错误手势的峰值取值和正确类手势的取值范围是相近的。同样的,在第58通道上也满足这样的规律。在这种情况下,就能以50%以上的概率纠错,纠错效果是显著的。
为了与CNN算法相比较,本发明提出的算法在原来的测试数据库加以验证。假设用aij来表示第i类第j张图片,首先,测试第一类手势,用aij做索引定位到第一类手势所在的文件位置。由于一类手势总共3000张数据,所以如果j小于3000,则先调用CNN模型,再调用本发明提出的纠错方法。然后,设置一个计数器,如果输出结果为1,计数器加1。否则,测试下一张图片直到大于3000张,此时,图片定位到第二类手势所在位置,并输出计数器的值然后清零。循环以上过程直到大于3000,,输出第二类手势的识别正确的个数。对输出结计算准确率,流程图如图8所示。与卷积神经网路算法相比,实验准确率分别提高了29%,25%。见表2。
类别 准确率
1 78.6%
2 73.4%
表2
综上分析,发现了三个规律:从大数据角度,手势在第5层卷积的曲面峰值纵趋向固定区域;不同手势类型对应峰值是有差异的;被CNN识别出错的手势的峰值范围和正确手势是相交关系。基于这些规律,本发明提出纠错方法。为了保证CNN识别正确的手势不会被误判,同时对识别出错的手势进行纠正,本发明提出多种通道并行比较。根据试验结果看,本发明方法是有效的,可靠的。
上述技术方案只是本发明的一种实施方式,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施方式所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。

Claims (8)

1.一种误识手势检测和纠错方法,其特征在于:所述方法将任意一张手势的图片i输入到卷积神经网络进行识别得到类别号m,然后提取该图片i在卷积神经网络中的第5层卷积层的特征,计算第6通道和第58通道上的三维曲面峰值,通过对三维曲面峰值的判断实现对误识手势检测和纠错。
2.根据权利要求1所述的误识手势检测和纠错方法,其特征在于:所述方法包括:
(1)将任意一张手势的图片i输入到训练好的卷积神经网络中,输出卷积神经网络识别出的类别号m;
(2)提取图片i在第5层卷积层的特征值;
(3)计算图片i在第6通道上和第58通道上的三维曲面峰值w(i,6),w(i,58);
(4)利用所述三维曲面峰值w(i,6)、w(i,58)实现对误识手势检测和纠错。
3.根据权利要求2所述的误识手势检测和纠错方法,其特征在于:所述步骤(2)中的第5层卷积层是卷积神经网络caffenet的第5层;采用python接口获得图片i在第5层卷积层的特征值。
4.根据权利要求2所述的误识手势检测和纠错方法,其特征在于:所述步骤(3)的操作包括:
利用下式计算图片i在第6通道上和第58通道上的三维曲面峰值:
W(i,j)=max(max(Zi,j)),i∈m,j∈256 (2)
其中,Zi,j是采用下式计算得到的:
Z=griddata(x,y,z,X,Y,'v4') (1)
其中z=f(x,y),曲面拟合有不规则的数据向量x,y,z;griddata()将返回曲面z在点(X,Y)处的插值。
5.根据权利要求4所述的误识手势检测和纠错方法,其特征在于:所述步骤(4)的操作包括:
提供类别的判断条件,如果图片i对应的手势与该类别相似,则将类别调整成该类别,如果不相似,则输出卷积神经网络识别出的类别号m。
6.根据权利要求5所述的误识手势检测和纠错方法,其特征在于:所述类别的判断条件为:第6通道上的第一类手势F类的识别区域DF6、第6通道上的第二类手势S类的识别区域DS6、第58通道上的第一类手势F类的识别区域DF58、第58通道上的第二类手势S类的识别区域DS58
7.根据权利要求6所述的误识手势检测和纠错方法,其特征在于:
DF6为(7.4,11];
DS6为[4,7.4];
DF58为[4.4,7);
DS58为[3,4.4)。
8.根据权利要求7所述的误识手势检测和纠错方法,其特征在于:所述如果图片i对应的手势与该类别相似,则将类别调整成该类别,如果不相似,则输出卷积神经网络识别出的类别号m的操作包括:
如果w(i,6)∈DF6并且w(i,58)∈DF58,则识别出的新类别号n等于第一类手势F类;
如果w(i,6)∈DS6并且w(i,58)∈DS58,则识别出的新类别号n等于第二类手势S类;
如果上述条件都不满足,则识别出的新类别号n等于m。
CN201810682051.5A 2018-06-27 2018-06-27 一种误识手势检测和纠错方法 Pending CN109190443A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810682051.5A CN109190443A (zh) 2018-06-27 2018-06-27 一种误识手势检测和纠错方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810682051.5A CN109190443A (zh) 2018-06-27 2018-06-27 一种误识手势检测和纠错方法

Publications (1)

Publication Number Publication Date
CN109190443A true CN109190443A (zh) 2019-01-11

Family

ID=64948561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810682051.5A Pending CN109190443A (zh) 2018-06-27 2018-06-27 一种误识手势检测和纠错方法

Country Status (1)

Country Link
CN (1) CN109190443A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948682A (zh) * 2019-03-12 2019-06-28 湖南科技大学 基于正态随机抽样分布的激光雷达点云电力线分类方法
CN109993108A (zh) * 2019-03-29 2019-07-09 济南大学 一种增强现实环境下的手势纠错方法、系统及装置
CN110222645A (zh) * 2019-06-10 2019-09-10 济南大学 一种手势误识特征发现方法
CN110348323A (zh) * 2019-06-19 2019-10-18 广东工业大学 一种基于神经网络优化的穿戴式设备手势识别方法
CN112101236A (zh) * 2020-09-17 2020-12-18 济南大学 一种面向老年陪护机器人的智能纠错方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948682A (zh) * 2019-03-12 2019-06-28 湖南科技大学 基于正态随机抽样分布的激光雷达点云电力线分类方法
CN109993108A (zh) * 2019-03-29 2019-07-09 济南大学 一种增强现实环境下的手势纠错方法、系统及装置
CN110222645A (zh) * 2019-06-10 2019-09-10 济南大学 一种手势误识特征发现方法
CN110222645B (zh) * 2019-06-10 2022-09-27 济南大学 一种手势误识特征发现方法
CN110348323A (zh) * 2019-06-19 2019-10-18 广东工业大学 一种基于神经网络优化的穿戴式设备手势识别方法
CN110348323B (zh) * 2019-06-19 2022-12-16 广东工业大学 一种基于神经网络优化的穿戴式设备手势识别方法
CN112101236A (zh) * 2020-09-17 2020-12-18 济南大学 一种面向老年陪护机器人的智能纠错方法及系统

Similar Documents

Publication Publication Date Title
CN109190443A (zh) 一种误识手势检测和纠错方法
CN109325454B (zh) 一种基于YOLOv3的静态手势实时识别方法
US10679146B2 (en) Touch classification
Kumar et al. Sign language recognition
CN106096538B (zh) 基于定序神经网络模型的人脸识别方法及装置
US10372328B2 (en) Intelligent touchscreen keyboard with finger differentiation
CN110458059B (zh) 一种基于计算机视觉的手势识别方法及识别装置
CN103400105B (zh) 一种姿态归一化的非正面人脸表情识别方法
CN107103326A (zh) 基于超像素聚类的协同显著性检测方法
CN109948542A (zh) 手势识别方法、装置、电子设备和存储介质
CN103971102A (zh) 基于手指轮廓和决策树的静态手势识别方法
Wu et al. Vision-based fingertip tracking utilizing curvature points clustering and hash model representation
CN108846356B (zh) 一种基于实时手势识别的手心追踪定位的方法
CN104834941A (zh) 基于计算机输入下的稀疏自编码的脱机手写体识别方法
CN104156690B (zh) 一种基于图像空间金字塔特征包的手势识别方法
CN109033978A (zh) 一种基于纠错策略的cnn-svm混合模型手势识别方法
Jiang A review of the comparative studies on traditional and intelligent face recognition methods
Agha et al. A comprehensive study on sign languages recognition systems using (SVM, KNN, CNN and ANN)
CN110032948B (zh) 一种基于交互时序信息的草图手势识别方法
Nguyen et al. Online feature selection based on fuzzy clustering and its applications
Hu et al. Attention‐guided evolutionary attack with elastic‐net regularization on face recognition
Bandera et al. Fast gesture recognition based on a two-level representation
Yu et al. An identity authentication method for ubiquitous electric power Internet of Things based on dynamic gesture recognition
Bai et al. Dynamic hand gesture recognition based on depth information
CN113947683B (zh) 指尖点检测方法、系统及指尖点运动轨迹识别方法、系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190111