CN110046603A

CN110046603A - 一种中国普乐手语编码的手势动作识别方法

Info

Publication number: CN110046603A
Application number: CN201910339115.6A
Authority: CN
Inventors: 成娟; 魏馥琳; 刘羽; 陈勋; 李畅; 宋仁成
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2019-07-23
Anticipated expiration: 2039-04-25
Also published as: CN110046603B

Abstract

本发明公开了一种中国普乐手语编码的手势动作识别方法，其步骤包括：1首先用摄像头捕获中国普乐手语编码手势动作视频，得到分帧RGB图像序列；2对每一帧图像进行颜色空间转换并确定手势区域；3根据提取的手形边缘轮廓点序列极小值确定拟合圆，并替代掌心区域，再检测出指尖和指根；4以圆心和竖直向下的单位向量为标准，提取每个轮廓点的角度及距离特征；5采用动态时间规整算法对特征进行映射变换，获取某一手势的相似距离特征；6采用多种分类器对手语动作进行识别。本发明能有效识别中国普乐手语编码手势动作，为连续、大规模词汇量的中国手语识别系统提供一种解决方案，同时对推广规范的中国手语具有重要意义。

Description

一种中国普乐手语编码的手势动作识别方法

技术领域

本发明属于中国手语手势动作识别的技术领域，具体涉及一种中国普乐手语编码的手势动作识别方法，主要应用于手语识别系统和人机交互等相关领域。

背景技术

手势动作是人机交互的一种重要输入方式，以其丰富多变的含义、灵活的执行方式被应用于各种信息交流过程。手势识别是指利用计算机来检测、分析和解释人所执行的手势动作，如手臂、手腕、手指等的动作方式，用力大小,从而判断动作意图并提供相应的服务，手势识别技术被广泛应用于手语识别、康复训练、人机交互、家电控制、智能汽车等领域。

手语是一种结构化和标准化的手势动作集合，由手形动作、手势位置、掌心朝向、运动轨迹以及面部表情和身体姿态等五大要素构成，其中手形动作是手语的核心要素。手语通过手势的变化来模拟形象或者音节，从而构成特定的意思或词语，能够自然地表达出意思且具有较直观的视觉效果，是聋哑人之间、或聋哑人与健听人之间思想交流的一种重要方式。S码PL型中国普乐手语是一种语言文字型手语，根据聋人看人说话口形和汉字的字音、字型特点约定而成，约定在口边用左右手分别打出P型简拼手语手势拼出声韵母，再在肩下左右两边分别打出表示字型的L型首尾部件码手势来区分同音字，涉及指上、指横、指下3个方向的13类编码手势动作(Juan C,Xun C,Aiping L,et al.A Novel Phonology-andRadical-Coded Chinese Sign Language Recognition Framework Using Accelerometerand Surface Electromyography Sensors[J].Sensors,2015,15(9):23303-23324.葛遂元.中国手语两派之争解谈[J].绥化学院学报,2012(3):20-26.)。中国普乐手语是一种标准规范的手语，有利于聋人建立汉语思维，在学会手语的同时学会查字、打字、注音等，而通过识别手语动作，将其结果用有声或者文本的方式展现出来，有助于聋人和健听人之间的交流。

常见的手势动作数据捕获方式有基于加速度传感器、肌电传感器、数据手套、计算机视觉等方式。相比于其他方式，基于计算机视觉的手语识别技术是一种自然、直观的人机交互方式，采用摄像头的非接触式数据采集方式更加方便实用、处理速度快、成本较低，因此该数据捕获方式近些年得到了广泛的关注与发展。然而，根据普乐手语的约定，在不同的方向执行相同的手形动作表征不同的含义，3个方向执行13类手势共形成39类动作。目前，用于识别多方向相同手势动作的方法主要有两大类：1)采用包含方向信息，能够表征方向的特征，如梯度方向直方图(Histogram of Oriented Gradient,HOG)，局部二值模式(Local Binary Pattern,LBP)，径向直方图(Radial Histogram,RH)，Krawtchouk矩等；2)寻找一种特定的特征来矫正图像方向，保证初始图像在同一主方向再进行后续处理，如采用最小二乘法对Kinect摄像头采集的RGBD数据进行平面拟合来矫正方向，保证基于深度信息的手势平面在空间方向上与X-Y平面平行，指尖向上(Lewis J P,Cordner M,FongN.Pose Space Deformation:A Unified Approach to Shape Interpolation andSkeleton-Driven Deformation[C]//Proceedings of the 27th annual conference onComputer graphics and interactive techniques.DBLP,2000.邓瑞,周玲玲,应忍冬.基于Kinect深度信息的手势提取与识别研究[J].计算机应用研究,2013,30(4).)；采用椭圆拟合胳膊和手掌部分的区域，根据椭圆的长短轴判断手势大致方向，再将手势图像旋转调整到手掌垂直向上的方向(朱煜.深度图像手势分割及HOG-SVM手势识别方法研究[J].计算机应用与软件,2016(12).)；根据手腕是从胳膊肘到指尖区域最细的几何特征来定位手腕位置，再进行方向矫正(Padam Priyal S,Bora P K.A robust static hand gesturerecognition system using geometry based normalizations and Krawtchouk moments[J].Pattern Recognition,2013,46(8):2202-2219.)等。采用上述的手势识别方法对中国普乐手语识别时，无法达到很好的识别效果，因为所述的方向矫正方法在使用常规摄像头或穿着长袖时不再适应，而常用的HOG特征的维度较高，无法满足实时高效的需求，因此不适合中国普乐手语编码手势动作识别。

发明内容

本发明为了克服上述现有技术所存在的不足，提出了一种中国普乐手语编码的手势动作识别方法，以期在较短的时间内实现对中国普乐手语编码的手势动作的有效识别，从而为连续、大规模词汇量的中国手语手势动作识别系统的应用提供一种解决方案。

本发明为解决技术问题，采用如下技术方案：

本发明一种中国普乐手语编码的手势动作识别方法的特点包括如下步骤：

步骤一：利用摄像头捕获中国普乐手语编码的C类手势动作视频并进行分帧处理，得到C类手势动作的手势视频图像帧序列，将任意一类手势动作的手势视频图像帧序列记为F＝[f₁,f₂,…,f_i,…,f_M]，f_i表示任意一类手势动作的第i帧手势视频图像，i＝1,2,...,M；M表示任意一类手势动作的手势动作视频的图像总帧数；

步骤二：对所述第i帧手势视频图像f_i从RGB彩色空间转换到HSV空间，得到所述第i帧手势视频图像f_i的色调H分量、饱和度S分量和亮度V分量；

根据所述第i帧手势视频图像f_i的肤色特征，设置色调H分量的阈值Th1和饱和度S分量的阈值Th2；

根据所述阈值Th1和Th2判断所述第i帧手势视频图像f_i的手势区域：

若所述第i帧手势视频图像f_i中的任意一个像素点的色调小于阈值Th1且饱和度大于阈值Th2，则判定相应像素点为手势区域的像素点，并令手势区域的像素点的像素值为“1”；否则，判定相应像素点为非手势区域的像素点，并令非手势区域的像素点的像素值为“0”；从而将第i帧手势视频图像f_i进行二值化处理，得到二值化后的手势视频图像b_i；

步骤三：对所述二值化后的手势视频图像b_i进行形态学处理和平滑处理，从而裁剪出手势区域，并将裁剪后的手势区域进行尺度归一化处理，得到手势区域图像I_i；

步骤四：提取尺度归一化后的手势区域图像I_i的手形边缘轮廓点序列S_i＝[s_i,1,s_i,2,…,s_i,p,…,s_i,P]，s_i,p表示手势区域图像I_i的第p个手势边缘轮廓点，p＝1,2,...,P，P表示手势区域图像I_i中手势边缘轮廓点的总数；

根据手势边缘轮廓点序列S_i的极小值确定拟合圆，并得到拟合圆的圆心(x_i,0,y_i,0)即为所述尺度归一化后的手势区域图像I_i中手势区域的掌心位置；

步骤五：用所述拟合圆替代所述尺度归一化后的手势区域图像I_i中的手掌区域，从而生成替代后的手势区域图像I_i′；

检测所述替代后的手势区域图像I_i′中满足手指图像像素特性的连通域个数，并作为执行动作时伸出的手指个数N_i；

当N_i≥1时，执行步骤六到步骤十；当N_i＝0时，表示无伸出的手指，并执行步骤十一；

步骤六：对所述替代后的手势区域图像I_i′重新提取边缘轮廓，得到新的手势边缘轮廓点序列S_i′＝[s′_i，1,s′_i，2,…,s′_i,q,…,s′_i,Q]，s′_i,q表示所述替代后的手势区域图像I_i′的第q个手势边缘轮廓点，q＝1,2,...,Q，Q表示所述替代后的手势区域图像I_i′中手势边缘轮廓点的总数；

步骤七：将所述新的手形边缘轮廓点序列S_i′中圆心(x_i,0,y_i,0)正下方处，且距离圆心(x_i,0,y_i,0)最远的轮廓点作为起始点，按照顺时针方向对所述新的手势边缘轮廓点序列S_i′重排序，得到重排序后的手势边缘轮廓点序列S_i″＝[s″_i，1,s″_i,2,…,s″_i,q,…,s″_i,Q]，s″_i,q表示重排序后的手势边缘轮廓点序列S_i″中第q个重排序后的手势边缘轮廓点；并有s″_i,q＝(x″_i,q,y″_i,q)，x″_i,q和y″_i,q分别表示第q个重排序后的手势边缘轮廓点s″_i,q所在像素点的横坐标和纵坐标；

步骤八：以竖直向下的单位向量和圆心(x_i,0,y_i,0)为参考，利用式(1)提取第q个重排序后的手势边缘轮廓点s″_i,q的余弦夹角信息θ_i(q)，并利用式(2)提取第q个重排序后的手势边缘轮廓点s″_i,q的距离信息dist_i(q)，从而根据像素点位置的对应关系，得到与重排序后的手势边缘轮廓点序列S_i″一一对应的余弦夹角序列θ_i＝[θ_i(1),θ_i(2),…,θ_i(q),…,θ_i(Q)]和距离序列Dist_i＝[dist_i(1),dist_i(2),…,dist_i(q),…,dist_i(Q)]：

步骤九：对所述距离序列Dist_i＝[dist_i(1),dist_i(2),…,dist_i(q),…,dist_i(Q)]进行极大值检测，将距离序列中的N_i个极大值判断为N_i个满足手指图像像素特性的指尖位置距离值，并分别沿着任意一个指尖位置的左右两侧各自检测极大值对应波峰的起点和终点，从而得到相应指尖位置所对应的左右两个指根位置距离值，进而得到N_i个指尖位置所对应的2N_i个指根位置距离值；

从任意一个指尖位置分别与其对应的左右两个指根位置之间等间隔选取m个点所代表的距离值，从而选取出M＝2m+3个距离值表征执行动作时伸出的一个手指，进而选出执行动作时伸出的N_i个手指，并形成R＝N_i×M点的指尖指根距离值序列Dist_i'＝[dist_i'(1),dist_i'(2),…,dist_i'(r),…,dist_i'(R)]，r＝1,2,…R；R表示指尖指根距离值序列Dist_i'中距离值的总个数；

根据像素点位置的对应关系，从余弦夹角序列θ_i＝[θ_i(1),θ_i(2),…,θ_i(q),…,θ_i(Q)]中挑选出与指尖指根距离值序列Dist_i'对应的R个余弦夹角值，从而形成指尖指根余弦夹角序列θ_i'＝[θ_i'(1),θ_i'(2),…,θ_i'(r),…,θ_i'(R)]；

步骤十：以所述指尖指根距离值序列Dist_i'和指尖指根余弦夹角序列θ_i'为基础，分别将两个序列中第r个指尖指根距离值dist_i'(r)和指尖指根余弦夹角值θ_i'(r)对应相乘，从而得到手指角度距离特征ADOF的第r个特征值ft_i,r，进而得到所述第i帧手势视频图像f_i的手指角度距离特征ADOF的R个特征值，记为Ft_ADOF(i)＝[ft_i,1,ft_i,2,…,ft_i,r,…,ft_i,R]，并作为第i帧手势视频图像f_i的第一类特征；

根据拟合圆的半径，从所述距离序列Dist_i＝[dist_i(1),dist_i(2),…,dist_i(q),…,dist_i(Q)]中找到手掌区域的距离值，按照等间隔取点的方式从所找出的手掌区域的距离值中选取T个手掌区域的距离值，并与所述R个指尖指根距离值合并，从而形成D＝R+T个包含手掌区域距离值和指尖指根距离值的手势角度距离特征ADOH；记为Fh_ADOH(i)＝[fh_i,1,fh_i,2,…,fh_i,d,…,fh_i,D]，并作为第i帧手势视频图像f_i的第二类特征，其中，fh_i,d表示手势角度距离特征ADOH中第d个特征值，d＝1,2,…D,D表示手势角度距离特征ADOH的总个数；

步骤十一：对所述尺度归一化后的手势区域图像I_i提取Harris角点序列；然后利用式(1)和(2)对所述Harris角点序列中第v个序列点提取余弦夹角信息θ_i(v)和距离信息dist_i(v)；

再根据步骤十中手指角度距离特ADOF和手势角度距离特征ADOH的构建方式，得到无手指伸出时手势动作的手指角度距离特ADOF和手势角度距离特征ADOH并分别作为第i帧手势视频图像f_i的第一类特征和第二类特征；

步骤十二：根据步骤二至步骤十一的处理方法，得到手势视频图像帧序列F中每一帧手势视频图像的第一类特征和第二类特征；

步骤十三：采用动态时间规整算法DTW对第i帧和第j帧手势视频图像的第一类特征Ft_ADOF(i)和Fh_ADOF(j)计算相似距离，得到第i帧和第j帧手势视频图像的手指角度相似距离DADOF_i,j，同时对第i帧和第j帧手势视频图像的第二类特征Ft_ADOH(i)和Ft_ADOH(j)计算相似距离，得到第i帧和第j帧手势视频图像的手势角度相似距离DADOH_i,j；

步骤十四：从任意一类手势动作的手势视频图像帧序列F选取K帧手势视频图像作为参考样本，从而得到C类手势动作的N_R＝C×K个参考样本；

从任意一类手势动作的手势视频图像帧序列F选取除参考样本以外的T帧手势视频图像作为训练样本，从而得到C类手势动作的N_Train＝C×T个训练样本；

计算第t个训练样本的第一类特征分别与N_R个参考样本的第一类特征的DTW距离，得到第t个训练样本的手指角度相似距离集合；从而得到N_Train个训练样本的手指角度相似距离集合；

计算第t个训练样本的第二一类特征分别与N_R个参考样本的第二类特征的DTW距离，得到第t个训练样本的手势角度相似距离集合；从而得到N_Train个训练样本的手势角度相似距离集合；

步骤十五：将N_Train训练样本的手指角度相似距离集合和手势角度相似距离集合分别输入分类器中进行训练，得到手指角度分类器模型和手势角度分类器模型；从而利用所述手指角度分类器模型和手势角度分类器模型实现C类手势动作的识别。

与现有技术相比，本发明的有益效果在于：

1、普乐手语采用音形和部件码编码手势动作表达汉字，其编码手势动作规模小且数量恒定，易于词汇量可扩展，本发明有效识别了中国普乐手语编码手势动作，根据执行动作时伸出手指的个数来提取手势特征，再采用动态时间规整算法将提取的特征映射变换为与各类手势动作参考样本的相似距离，本发明提出的特征提取方法与特征映射方法，简单有效，处理速度快，鲁棒性强，为连续大规模词汇量中国手语识别系统提供解决方案；

2、本发明中步骤八到十四中提取的手指角度距离信息特征结合动态时间规整算法映射有助于提取对指向敏感的信息，有效表征了相同方向的不同动作，以及不同方向的相同手势动作，有助于中国普乐手语编码手势动作的正确识别；

3、本发明中步骤十三、十四采用动态时间规整算法，将特征映射转化为规整路径最小累积距离，进一步了消除由于个体手部解剖生理差异，以及在视频图像采集过程中由于距离摄像头距离，偏转角度等不一致因素导致的手势大小差异，提高了特征用户无关特性的一致性；

4、本发明提出的两类表征手势动作的特征ADOF和ADOH特征维度较低，同时包含了手势边缘轮廓点与竖直向下的单位向量的余弦夹角信息，和对应轮廓点像素点到掌心的距离信息，结合了按照手指个数的分层策略能够进一步减少每一层中分类识别的手势动作个数，有利于进一步运算时间，保证了高效识别中国普乐手语编码手势动作。

综上所述，本发明充分利用了手势动作边缘轮廓点的距离信息、余弦夹角信息，以及动态时间规整算法衡量两个序列相似度的能力，增强了特征表征手势动作的能力，解决了中国普乐手语编码手势动作的识别问题，为连续大规模词汇量的中国普乐手语编码手势动作识别系统提供一种解决方案，在手语识别系统、人机交互方面有一定应用前景，尤其对于推广规范的中国手语具有重要意义。

附图说明

图1为本发明方法流程图；

图2a为本发明从视频中截取的一帧RGB彩色图像；

图2b为本发明根据肤色分割出的手部区域图；

图2c为本发明裁剪出的手部区域，并归一化为256×256后的示意图；

图3为本发明检测出的指尖及指根位置图；

图4a为本发明提取第一类特征ADOF的像素点对应位置图；

图4b为本发明提取第二类特征ADOH的像素点对应位置图。

具体实施方式

本实施例中，一种中国普乐手语编码的手势动作识别方法包括：1首先用摄像头捕获中国普乐手语编码手势动作视频，得到分帧RGB图像序列；2对每一帧图像进行颜色空间转换并确定手势区域；3根据提取的手形边缘轮廓点序列极小值确定拟合圆，并替代掌心区域，再检测出指尖和指根；4以圆心和竖直向下的单位向量为标准，提取每个轮廓点的角度及距离特征；5采用动态时间规整算法对特征进行映射变换，获取某一手势的相似距离特征；6采用多种分类器对手语动作进行识别。

本实施例中，为了通过实验方式验证本发明识别中国普乐手语编码手势动作的效果，下面将以中国普乐手语手势动作为例，对比传统动态时间规整算法分类手势和本发明采用动态时间规整算法映射距离方向特征再分类得到的识别结果，并结合附图和具体实施来对本发明做进一步说明。

具体实施中，如图1所示，一种中国普乐手语编码手势动作识别方法是按如下步骤进行：

步骤一：利用摄像头捕获11名受试者执行39类中国普乐手语编码的手势动作视频，并进行分帧处理，得到39类手势动作的手势视频图像帧序列，将任意一类手势动作的手势视频图像帧序列记为F＝[f₁,f₂,…,f_i,…,f_M]，f_i表示任意一类手势动作的第i帧手势视频图像，i＝1,2,...,M；M表示任意一类手势动作的手势动作视频的图像总帧数，实验中取M为50，其中某一帧的手势图像如图2a所示；

步骤二：对第i帧手势视频图像f_i从RGB彩色空间转换到HSV空间，得到第i帧手势视频图像f_i的色调H分量、饱和度S分量和亮度V分量；

根据第i帧手势视频图像f_i的肤色特征，设置色调H分量的阈值Th1＝0.1和饱和度S分量的阈值Th2＝0.2；

根据阈值Th1和Th2判断第i帧手势视频图像f_i的手势区域：

若第i帧手势视频图像f_i中的任意一个像素点的色调小于阈值Th1且饱和度大于阈值Th2，即图像中单个像素点在同时满足(Th1＜0.1)&&(Th2＞0.2)时，则判定相应像素点为手势区域的像素点，并令手势区域的像素点的像素值为“1”；否则，判定相应像素点为非手势区域的像素点，并令非手势区域的像素点的像素值为“0”；从而将第i帧手势视频图像f_i进行二值化处理，得到二值化后的手势视频图像b_i，结果如图2b所示；

步骤三：对二值化后的手势视频图像b_i进行形态学处理和引导滤波平滑处理，平滑手势边缘的同时保持边界，从而裁剪出手势区域，并将裁剪后的手势区域进行尺度归一化处理为256×256大小，得到手势区域图像I_i，如图2c所示；

步骤四：采用八邻域轮廓跟踪方法提取尺度归一化后的手势区域图像I_i的手形边缘轮廓点序列S_i＝[s_i,1,s_i,2,…,s_i,p,…,s_i,P]，s_i,p表示手势区域图像I_i的第p个手势边缘轮廓点，p＝1,2,...,P，P表示手势区域图像I_i中手势边缘轮廓点的总数；

根据手势边缘轮廓点序列S_i的极小值确定拟合圆，并得到拟合圆的圆心(x_i,0,y_i,0)即为尺度归一化后的手势区域图像I_i中手势区域的掌心位置；

步骤五：用拟合圆替代尺度归一化后的手势区域图像I_i中的手掌区域，从而生成替代后的手势区域图像I_i′；

检测替代后的手势区域图像I_i′中满足手指图像像素特性的连通域个数，并作为执行动作时伸出的手指个数N_i；

步骤六：对替代后的手势区域图像I_i′重新提取边缘轮廓，得到新的手势边缘轮廓点序列S_i′＝[s′_i，1,s′_i，2,…,s′_i,q,…,s′_i,Q]，s_i′_,q表示替代后的手势区域图像I_i′的第q个手势边缘轮廓点，q＝1,2,...,Q，Q表示替代后的手势区域图像I_i′中手势边缘轮廓点的总数；

步骤七：将新的手形边缘轮廓点序列S_i′中圆心(x_i,0,y_i,0)正下方处，且距离圆心(x_i,0,y_i,0)最远的轮廓点作为起始点，即对所有满足x_i,j＝x_i,0,y_i,j＞y_i,0的像素点(x_i,j,y_i,j)，取max(y_i,j)对应的唯一像素点(x_i,j,y_i,j)作为序列起始点，第二起始点选取初始点优先选择初始点左侧的像素点，若无像素点再考虑其正上方的点，最后考虑其右侧的像素点，对八邻域像素点以距离最近优先重排序，按照顺时针方向对新的手势边缘轮廓点序列S_i′重排序，得到重排序后的手势边缘轮廓点序列S″_i＝[s″_i，1,s″_i,2,…,s″_i,q,…,s″_i,Q]，s″_i,q表示重排序后的手势边缘轮廓点序列S_i″中第q个重排序后的手势边缘轮廓点；并有s″_i,q＝(x″_i,q,y″_i,q)，x″_i,q和y″_i,q分别表示第q个重排序后的手势边缘轮廓点s″_i,q所在像素点的横坐标和纵坐标；

步骤九：对距离序列Dist_i＝[dist_i(1),dist_i(2),…,dist_i(q),…,dist_i(Q)]进行极大值检测，将距离序列中的N_i个极大值判断为N_i个满足手指图像像素特性的指尖位置距离值，并分别沿着任意一个指尖位置的左右两侧各自检测极大值对应波峰的起点和终点，从而得到相应指尖位置所对应的左右两个指根位置距离值，进而得到N_i个指尖位置所对应的2N_i个指根位置距离值；如图3所示；

从任意一个指尖位置分别与其对应的左右两个指根位置之间等间隔选取m个点所代表的距离值，实验中取m＝1，从而选取出5(M＝2m+3)个距离值表征执行动作时伸出的一个手指，进而选出执行动作时伸出的N_i个手指，并形成R＝N_i×5点的指尖指根距离值序列Dist_i'＝[dist_i'(1),dist_i'(2),…,dist_i'(r),…,dist_i'(R)]，r＝1,2,…R；R表示指尖指根距离值序列Dist_i'中距离值的总个数；

步骤十：以指尖指根距离值序列Dist_i'和指尖指根余弦夹角序列θ_i'为基础，分别将两个序列中第r个指尖指根距离值dist_i'(r)和指尖指根余弦夹角值θ_i'(r)对应相乘，从而得到手指角度距离特征ADOF的第r个特征值ft_i,r，进而得到第i帧手势视频图像f_i的手指角度距离特征ADOF的R个特征值，记为Ft_ADOF(i)＝[ft_i,1,ft_i,2,…,ft_i,r,…,ft_i,R]，并作为第i帧手势视频图像f_i的第一类特征，因为ADOF特征仅包含手指的余弦夹角信息和距离信息，R＝N_i×5，所以ADOF特征的特征维度R由伸出手指的个数N_i决定；

根据拟合圆的半径，从距离序列Dist_i＝[dist_i(1),dist_i(2),…,dist_i(q),…,dist_i(Q)]中找到手掌区域的距离值，按照等间隔取点的方式从所找出的手掌区域的距离值中选取T个手掌区域的距离值，并与R个指尖指根距离值合并，从而形成D＝R+T个包含手掌区域距离值和指尖指根距离值的手势角度距离特征ADOH；记为Fh_ADOH(i)＝[fh_i,1,fh_i,2,…,fh_i,d,…,fh_i,D]，并作为第i帧手势视频图像f_i的第二类特征，其中，fh_i,d表示手势角度距离特征ADOH中第d个特征值，d＝1,2,…D,D表示手势角度距离特征ADOH的总个数，实验中固定D为40；

两类特征ADOF和ADOH的特征点在图像中的对应位置如图4a和图4b所示；

步骤十一：对尺度归一化后的手势区域图像I_i提取Harris角点序列；然后利用式(1)和(2)对Harris角点序列中第v个序列点提取余弦夹角信息θ_i(v)和距离信息dist_i(v)；

再根据步骤十中手指角度距离特ADOF和手势角度距离特征ADOH的构建方式，对于AODH特征需要通过插值、抽取使特征点个数统一为40个，与ADOH特征点数保持一致，减少计算量，得到无手指伸出时手势动作的手指角度距离特ADOF和手势角度距离特征ADOH，并分别作为第i帧手势视频图像f_i的第一类特征和第二类特征；

步骤十三：采用动态时间规整算法DTW对第i帧和第j帧手势视频图像的第一类特征Ft_ADOF(i)和Fh_ADOF(j)计算相似距离，得到第i帧和第j帧手势视频图像的手指角度相似距离DADOF_i,j，同时对第i帧和第j帧手势视频图像的第二类特征Ft_ADOH(i)和Ft_ADOH(j)计算相似距离，得到第i帧和第j帧手势视频图像的手势角度相似距离DADOH_i,j，采用欧式距离来衡量两个序列的相似程度，距离越小表示序列相似程度越高；

步骤十四：从某一受试者的任意一类手势动作的手势视频图像帧序列F选取K帧手势视频图像作为参考样本，实验中K取5，从而得到39类手势动作的195个参考样本；

从其余10名受试者任意一类手势动作的手势视频图像帧序列F选取T帧手势视频图像作为训练样本，从而得到C类手势动作的N_Train＝C×T个训练样本；同时从任意一类手势动作的手势视频图像帧序列F选取剩余的M-T帧手势视频图像作为测试样本，从而得到C类手势动作的N_Test＝C×(M-T)个测试样本；

计算第t个训练样本的第一类特征分别与N_R个参考样本的第一类特征的DTW距离，得到第t个训练样本的手指角度相似距离集合；从而得到N_Train个训练样本的手指角度相似距离集合；同时采用DTW计算得到N_Test个测试样本的手指角度相似距离集合；

计算第t个训练样本的第二一类特征分别与N_R个参考样本的第二类特征的DTW距离，得到第t个训练样本的手势角度相似距离集合；从而得到N_Train个训练样本的手势角度相似距离集合；同时采用DTW计算得到N_Test个测试样本的手势角度相似距离集合；

步骤十五：将N_Train训练样本的手指角度相似距离集合和手势角度相似距离集合分别输入分类器中进行训练，得到手指角度分类器模型和手势角度分类器模型；将N_Test个测试样本的手指角度相似距离集合和手势角度相似距离集合分别输入相应的分类器中进行测试，从而利用手指角度分类器模型和手势角度分类器模型实现C类手势动作的识别。

实验采用MATLAB Classification Learner工具箱中包含的多种分类器，对10名受试者部分映射变换后的39类中国普乐手语编码的手势动作特征训练，获取对应的参数，其余手势动作特征用于测试，得到中国普乐手语编码的手势动作识别的结果。工具箱中提供决策树、线性判别方法、支持向量机、最近邻分类器、集成学习等22种分类器，参数可调，本实验中选取默认参数。以中等精度的最近邻分类器(medium KNN)为例，第一类特征ADOF特征映射后，结合分类器获得的平均识别率为96.51％，而使用传统的直接DTW距离分类得到的平均结果为79.73％，对应伸出的手指个数N为0-5时的具体结果如表1所示。第二类特征ADOH特征映射后，结合分类器获得的平均识别率为96.54％，而使用传统的直接DTW距离分类得到的平均结果为52.14％，对应伸出的手指个数N为0-5时的具体结果如表2所示。由此可以看出，本发明提出的两类角度距离特征ADOF或ADOH，经过DTW映射变换为最小累积相似距离后，结合分类器可以识别出3个方向的13类中国普乐手语编码手势动作，且识别率明显提升，对应ADOF和ADOH特征依次提升16.78％和44.40％。

表1第一类特征ADOF，采用DTW映射结合分类器与传统DTW分类的识别结果

手指个数/个	0	1	2	3	4	5	平均
								DTW+分类器	80.70	99.19	99.80	99.46	99.96	99.95	96.51
传统DTW	63.26	67.99	76.38	73.04	97.72	100	79.73

表2第二类特征ADOH，采用DTW映射结合分类器与传统DTW分类的识别结果

手指个数/个	0	1	2	3	4	5	平均
								DTW+分类器	86.55	98.52	99.02	99.38	98.78	96.98	96.54
传统DTW	59.43	32.85	33.66	38.03	74.69	74.18	52.14

综上，本发明有效识别了39类中国普乐手语编码手势动作，提出的两类角度距离特征ADOF和ADOH特征严格限制特征的维度，有利于减少运算时间，经过DTW映射变换，提取每一个动作与所有动作参考样本的相似距离后，可以消除个体手部差异与摄像头拍摄的距离的差异，且相比于传统手势分类直接采用DTW的准确率有明显提升。本发明提出的特征提取和映射方法简单有效，提供了一种中国普乐手语编码的手势动作识别策略，为连续、大规模词汇量的中国手语识别系统提供了一种解决方案，在手语识别系统、人机交互方面有一定应用前景，对于推广规范的中国手语具有重要意义。

Claims

1.一种中国普乐手语编码的手势动作识别方法，其特征包括如下步骤：

步骤五：用所述拟合圆替代所述尺度归一化后的手势区域图像I_i中的手掌区域，从而生成替代后的手势区域图像I′_i；

检测所述替代后的手势区域图像I′_i中满足手指图像像素特性的连通域个数，并作为执行动作时伸出的手指个数N_i；

步骤六：对所述替代后的手势区域图像I′_i重新提取边缘轮廓，得到新的手势边缘轮廓点序列S′_i＝[s′_i，1,s′_i，2,…,s′_i,q,…,s′_i,Q]，s′_i,q表示所述替代后的手势区域图像I′_i的第q个手势边缘轮廓点，q＝1,2,...,Q，Q表示所述替代后的手势区域图像I′_i中手势边缘轮廓点的总数；

步骤七：将所述新的手形边缘轮廓点序列S′_i中圆心(x_i,0,y_i,0)正下方处，且距离圆心(x_i,0,y_i,0)最远的轮廓点作为起始点，按照顺时针方向对所述新的手势边缘轮廓点序列S′_i重排序，得到重排序后的手势边缘轮廓点序列S″_i＝[s″_i，1,s″_i,2,…,s″_i,q,…,s″_i,Q]，s″_i,q表示重排序后的手势边缘轮廓点序列S″_i中第q个重排序后的手势边缘轮廓点；并有s″_i,q＝(x″_i,q,y″_i,q)，x″_i,q和y″_i,q分别表示第q个重排序后的手势边缘轮廓点s″_i,q所在像素点的横坐标和纵坐标；

步骤八：以竖直向下的单位向量和圆心(x_i,0,y_i,0)为参考，利用式(1)提取第q个重排序后的手势边缘轮廓点s″_i,q的余弦夹角信息θ_i(q)，并利用式(2)提取第q个重排序后的手势边缘轮廓点s″_i,q的距离信息dist_i(q)，从而根据像素点位置的对应关系，得到与重排序后的手势边缘轮廓点序列S″_i一一对应的余弦夹角序列θ_i＝[θ_i(1),θ_i(2),…,θ_i(q),…,θ_i(Q)]和距离序列Dist_i＝[dist_i(1),dist_i(2),…,dist_i(q),…,dist_i(Q)]：