CN110956099A

CN110956099A - 一种动态手势指令识别方法

Info

Publication number: CN110956099A
Application number: CN201911109920.6A
Authority: CN
Inventors: 张智; 翁宗南; 光正慧; 肖绍桐; 刘中华; 高广; 姚海波
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2020-04-03
Anticipated expiration: 2039-11-14
Also published as: CN110956099B

Abstract

本发明公开了一种动态手势指令识别方法，包括以下步骤：制作5种基础样本类；进行HSV空间肤色分割，得到二值图，并调整大小；进行区域生长选出最大肤色区域；将HOG检测算法提取并保存图片像素梯度归一化后的特征信息作为样本进行训练；基于基础样本类，设计27种动态手势指令；结合CFDP的思想进行手势跟踪，对区域生长后的图像进行计算处理，得到手势质心和边缘；结合静态模型对每组手势指令进行相应的特征提取；每组指令得到一个61维的特征矩阵，经过对特征整合，再次利用SVM分类器进行分类，得出Model_2。本发明在实现了实时高效的手势指令识别的前提下，既结合了新的跟踪算法又避免了采用时间序列算法的繁琐。

Description

一种动态手势指令识别方法

技术领域

本发明属于图像处理技术领域，具体是涉及一种动态手势指令识别方法。

背景技术

现阶段的手势识别技术按照实现途径可以分为基于数据手套的手势识别和基于计算机视觉的手势识别两大类。对于前者，是利用数据手套和位置跟踪器测量手势在空间的运动的轨迹和时序信息，识别率较高，但是系统需要使用者穿戴复杂的数据手套和位置跟踪器，给使用者造成一定不方便，且现阶段设备比较昂贵，很难大量推广；相对的基于手势指令的识别具有非接触式的特点更加能满足用户的需求，从而成为当前研究的主要方向。

清华大学计算机科学与技术系的祝远新等人提出了一种新的基于表观的手势识别技术，并指出了一条如何将运动、形状、颜色和纹理等信息统一起来进行手势识别的途径；且实现了对12种手势进行在线识别的实验系统，识别率超过90％。而在动态手势的识别过程中，运用了光流法结合模板匹配的方法，但是该方法需要应用具有深度信息的相机才可以实现。

发明内容

针对上述现有技术，本发明要解决的技术问题是提供一种在不使用深度相机的情况下即可得出识别结果、操作简便且对使用场景无要求的动态手势指令识别方法。

为解决上述技术问题，本发明的一种动态手势指令识别方法，包括以下步骤：

步骤一：制作5种基础样本类，包括五指张开，即Five类、翘起拇指，即Thumb类、倾斜食指与中指，即Two类、拳头，即Fist类、杂乱手型，即Else类；

步骤二：对样本图片进行HSV空间的肤色分割，并得到二值图:利用区域生长对原始图进行肤色分割后的二值图进行处理，采集图片时保证手部占据最大部分图像，进行区域生长选出最大肤色区域，选择最大肤色区域作为新的样本，然后调整样本尺寸进行特征提取；

步骤三：利用梯度方向直方图提取区域生长得到的二值图的特征，将图像均匀的分成相邻的小块，结合有重叠的矩形HOG以及最简单的[-1，0，1]算子提取特征；

步骤四：将HOG检测算法提取并保存图片像素梯度归一化后的特征信息作为样本进行训练：统一图片尺寸为(64，128)，每个图片可以得到105个Block，每个Block包含36维向量，归一化之后每幅图片可以得到3780维HOG特征，将5类训练数据的HOG特征传入到SVM训练器中，选择参数获取对待测样本犯错最少的预测支持向量机；

步骤五：利用上述除杂乱手型外的4种静态手势结合手势的运动方向，设计出27种动态手势指令，每组手势指令样本包含30帧静态手势；动态手势识别基于上述27种指令进行特征提取、模型构建、分类、测试，所述27组指令方案的每组指令采集100组数据，共计2700组数据，每个指令方案的100组数据包括10个不同人的手掌采集的数据，每个人采集10组数据，利用2700组数据进行训练测试；

步骤六：对区域生长后的图像从像素点的局部密度以及相对距离两个方面进行计算处理：利用聚类原理，找出最大的聚类中心即默认为手势的质心位置，寻找出手势边界位置用于框出手势轮廓；相对距离用于排除小区域肤色部分带来的干扰，与其他聚类中心距离越大误差越小，给定一张图片，

d_ij＝dis(x_i,x_j)表示像素点x_i和x_j之间的距离，对S中的任何一个像素点x_i，求出该点的局部密度ρi和相对距离σi；

步骤七：加载静态手势分类器得出的模型Model_1，得出每一帧属于哪一种静态手势基础类别，其次对每一帧数据信息进行手势质心提取，进而每一组动态手势指令可以得到一组包含每一帧手势基础类别、质心横坐标、质心纵坐标的30x3的矩阵，数据经过对手势类别进行归一化、对质心的横纵坐标分别进行求方差操作、计算相邻帧间的坐标角度差值三步操作后传进分类器；

步骤八：利用SVM分类器进行分类，通过步骤七的操作，每一组指令可以得到一个61维的特征矩阵；将此矩阵传入SVM多分类器中，构建出一个27类的分类器，并得出Model_2。

本发明还包括：

1.步骤二所述的进行区域生长选出最大肤色区域具体包括：

S2.1：肤色分割后得到二值图像，肤色区域为白色，其余均为黑色，以第一次扫描到的白色像素点为生长点，并设为当前点(x₀,y₀)；

S2.2：以当前点(x₀,y₀)为中心对其8邻域的像素点进行生长，对满足的点进行标记并计数，将其压入堆栈中；

S2.3：从堆栈中取出像素点并设置为当前点(x₀,y₀)，重复步骤S2.2；

S2.4：当堆栈中所有点取完后，返回步骤S2.1，继续对图像进行遍历，直至遍历完整个图像；

得到每一块独立区域的像素点个数，并根据标记得到各个区域的边界，从各个独立的区域中选出像素点个数最多的即为手势区域。

2.步骤三所述的利用梯度方向直方图提取区域生长得到的二值图的特征具体为：特征提取时以8*8像素的Cell为单位，2*2的Block为单位进行，图像归一化后，提取每一个像素点的梯度信息，建立以Block为单位的梯度直方图，对直方图归一化得到图片特征。

3.步骤六所述局部密度ρi满足：

其中：d_c表示截断距离，由用户指定，I_S表示集合S；

其中，x表示的是像素点x_i和x_j之间的距离与截断距离的差值

所述相对距离σi满足：对所有的数据点根据局部密度ρi从大到小进行排序，对于局部密度最大的点，相对距离σi为除该点之外的局部密度最大值作为该点的相对距离；对于其他点，则从所有局部密度大于该点的数据点中，离该点最近的距离作为相对距离。

本发明的有益效果：本发明主要围绕动态手势指令跟踪识别以及人机交互展开研究，在深入分析动态手势指令跟踪识别的需求：实时性、准确性、指令多样性的基础上，对已有的手势识别算法进行改进整合，提出能够满足对静态、动态等手势指令的识别跟踪的研究策略，主要采用传统的SVM分类器对进行了HOG特征提取后的静态图像进行分类，通过结合区域生长与Clustering by fast search and find of density peaks聚类算法提出一种新的跟踪方法，利用此种跟踪方案可以实时准确的对手势进行定位，同时为二次使用SVM分类器提供了很好的特征元素，利用双层SVM算法在二维空间进行特征提取，可以在不使用深度相机的情况下得出识别结果，操作简便且对使用场景无要求，同时对静态的识别平均准确率为95％左右，动态识别平均准确率为91％左右。

利用本发明的方法可以在保证实时检测手势并分类的前提下，利用普通摄像头亦可稳定检测不必采用价格昂贵的数据手套和深度摄像头等设备，此外避免了时间复杂度过高导致的检测不连续问题。

附图说明

图1为HOG原理图；

图2为CFDP算法效果图；

图3为手势识别流程图；

图4为实验效果图。

具体实施方式

下面结合附图对本发明做进一步说明。

本发明是一种高效实时的动态手势指令识别以及人机交互策略研究方法。现阶段在手势识别领域大多数以基本的简单的静态手势姿势识别或者是图片手势识别，对于动态的手势实时跟踪手势指令识别大多需要基于穿戴设备，并且对摄像机有严格要求。本发明实现的是基于简单的单目摄像机通过基于静态手势识别应用于动态指令识别。本发明提出利用区域生长和Clustering by fast search and find of density peaks聚类算法(以下简称CFDP)的思想进行实时定位跟踪，对静态以及动态手势指令的特征均采用较为简单易行的SVM分类器，实现双层SVM分类器进行手势指令跟踪识别。

本发明主要涉及静态和动态手势两方面识别，其中动态手势识别是基于静态手势识别结果进行的视频序列识别。主要流程如图3所示。对单帧的静态手势图进行尺寸预处理、特征提取、SVM分类器分类从而得出静态手势模型model，将静态手势模型导入动态手势识别中，在视频指令序列中加载model，用于得到视频序列每一帧的手势类别，将每一帧的手势类别和手势质心以及质心运动的方向角进行归一化得到手势指令特征序列，利用SVM分类器对手势指令特征序列进行分类，得出model2.

本发明包括以下步骤：

静态手势：1)根据需求，制作5种基础样本类。2)对样本图片进行HSV空间的肤色分割，并得到二值图，并对样本进行大小调整。3)对肤色分割得出的图像结果，进行区域生长选出最大肤色区域。4)将HOG检测算法提取并保存图片像素梯度归一化后的特征信息，作为样本进行训练。

动态手势：1)利用上述4种静态手势结合手势可能的运动方向，设计出27种动态手势指令。2)结合CFDP的思想进行手势跟踪，对区域生长后的图像从像素点的局部密度以及相对距离两个方面进行计算处理，得到手势质心和边缘。3)结合静态模型Model_1对每组手势指令进行相应的特征提取。4)每组指令得到一个61维的特征矩阵，经过对特征整合，再次利用SVM分类器进行分类，得出Model_2。

本发明在实现了实时高效的手势指令识别的前提下，既结合了新的跟踪算法又避免了采用时间序列算法的繁琐。

结合图3，本发明具体包括以下步骤：

I、静态手势识别

步骤一、根据需求，制作了5类样本图片，分别是五指张开(下简称Five)类、翘起拇指(下简Thumb)类、倾斜食指与中指(下简Two)类、拳头(下简Fist)类、杂乱手型(下简Else)类。考虑到样本的广泛性，采集了10个人在不同场景下的不同动作共计5000张训练集，3000张测试集。

步骤二、利用HSV空间对原始图片进行肤色分割，由RGB空间HSV空间，对应转换关系为：

上述式子(1)、(2)、(3)、(4)中R、G、B分别为图像在这三个通道的分量，色调H用角度度量，取值范围为0°～360°，从红色开始按逆时针方向计算，红色为0°，绿色为120°,蓝色为240°。它们的补色是：黄色为60°，青色为180°,品红为300°；饱和度S表示颜色接近光谱色的程度，明度V明度表示颜色明亮的程度，对于光源色，明度值与发光体的光亮度有关；对于物体色，此值和物体的透射比或反射比有关。不要求颜色归一化并且对光照鲁棒性很强，条件同时满足才会被分割成皮肤,实现条件：

对样本图片进行HSV空间的肤色分割，并得到二值图。利用区域生长的对原始图进行肤色分割后的二值图进行处理，由于采集图片时保证手部占据绝大部分图像，选择区域生长后最大的区域作为新的样本，然后将样本尺寸调整为(64，128)以便进行特征提取。

步骤三、对肤色分割得出的图像结果，进行区域生长选出最大肤色区域。具体步骤如下：

1、肤色分割后得到二值图像，肤色区域为白色，其余均为黑色，以第一次扫描到的白色像素点为生长点，并设为当前点(x₀,y₀)。

2、以当前点(x₀,y₀)为中心对其8邻域的像素点进行生长，对满足的点进行标记并计数，将其压入堆栈中。

3、从堆栈中以此取出像素点并设置为当前点(x₀,y₀)，重复步骤2。

4、当堆栈中所有点取完后，返回步骤1，继续对图像进行遍历，直至遍历完整个图像。

通过以上步骤我们可以得到每一块独立区域的像素点个数，并根据标记可以得到各个区域的边界。从各个独立的区域中选出像素点个数最多的即为手势区域(初始情况默认手势中的肤色占据图像中绝大部分)。

步骤四、利用梯度方向直方图提取图像特征，将图像均匀的分成相邻的小块，采用有重叠和无重叠两种方式对所有小块进行块内直方图统计，本发明结合有重叠的矩形HOG以及最简单的[-1，0，1]算子提取特征。特征提取示意图如图1所示。

特征提取时以8*8像素的细胞为单位，2*2的块为单位进行，图像归一化后，提取每一个像素点的梯度信息，建立以块为单位的梯度直方图，对直方图归一化得到图片特征。

步骤五、SVM原本是二分类器，寻找出一条超平面将数据分为正负两类。本发明利用SVM的OVO方法用来多分类。在任意两类样本之间设计一个SVM分类器，因此k类的样本就需要设计k(k-1)/2个SVM分类器。当对一个未知样本进行分类时，最后得票最多的类别即为该未知样本的类别。

将HOG检测算法提取并保存图片像素梯度归一化后的特征信息，作为样本进行训练。统一图片尺寸为64*128，每个图片可以得到105个块，每个块包含36维向量，归一化之后每幅图片可以得到3780维HOG特征。将5类训练数据的HOG特征传入到SVM训练器中，选择合适的参数获取能够对待测样本犯错较少的预测支持向量机。实验结果如图4所示。

II、动态手势识别

步骤一、利用上述4种静态手势结合手势可能的运动方向，设计出27种动态手势指令，每组手势指令样本包含30帧静态手势。动态手势识别基于上述27种指令进行特征提取、模型构建、分类、测试。其中这27种指令分别为：

1、Five->Fist(左下->右上) 2、Five->Fist(左上->右下)

3、Five->Fist(右下->左上) 4、Five->Fist(右上->左下)

5、Five->Fist(左->右) 6、Five->Fist(右->左)

7、Fist->Five(左下->右上) 8、Fist->Five(右下->左上)

9、Fist->Five(左上->右下) 10、Fist->Five(右上->左下)

11、Fist->Five(左->右) 12、Fist->Five(右->左)

13、Five->Thumb(左->右) 14、Five->Thumb(右->左)

15、Fist->Two(左下->右上) 16、Fist->Two(右下->左上)

17、Fist->Two(左->右) 18、Fist->Two(右->左)

19、Five->Two(左下->右上) 20、Five->Two(右下->左上)

21、Five->Two(左->右) 22、Five->Two(右->左)

23、Fist->Thumb(左->右) 24、Fist->Thumb(右->左)

25、Two->Thumb(左->右) 26、Two->Thumb(右->左)

27、Else类别

基于这27组指令方案，分别对10个不同人的手掌进行数据采集，每组指令采集100组，共计2700组数据，利用这些数据进行训练测试。

步骤二、结合CFDP的思想进行手势跟踪，算法效果如图2。对区域生长后的图像从像素点的局部密度以及相对距离两个方面进行计算处理。利用聚类原理，聚类中心的密度越大围绕这个中心的点就越多，寻找出最大的聚类中心即默认为手势的质心位置，寻找出手势边界位置用于框出手势轮廓。相对距离用于排除小区域肤色部分带来的干扰，与其他聚类中心距离越大误差越小。给定一张图片，

d_ij＝dis(x_i,x_j)表示像素点x_i和x_j之间的距离，对S中的任何一个像素点x_i，都可以求出该点的局部密度ρi和相对距离σi。

其中函数：

其中d_c表示截断距离，由用户指定。这种方式可以看成是一种hard mapping，计算围绕着某个点附近的数据点的数量，类似以某个点为中心，以d_c为半径画了一个圆圈，计算落在圈里的点数，式(6)中I_S表示集合S，式(7)中x表示的是像素点x_i和x_j之间的距离与截断距离的差值。除了局部密度之外，另外一个指标就是相对距离σi。相对距离，就是先根据上面的局部密度，可以对所有的数据点根据密度从大到小进行排序，然后对于密度最大的那个点，其相对距离就取除改点之外的局部密度最大值作为该点的相对距离，而其他的点，就从所有局部密度大于该点的数据点中，离该点最近的距离作为相对距离。最终选取局部密度较大且距离其他聚类中心较远的点作为手势区域的质心。再利用区域生长得到的手势边界，便可以实时跟踪手势走向，并能随手势大小变换跟踪框的大小。

步骤三、动态手势分类的特征需结合静态手势分类方法，首先判断每一帧属于哪一种静态手势基础类别，其次对每一帧数据信息进行手势质心提取，进而每一组动态手势指令可以得到一组包含每一帧手势基础类别、质心横坐标、质心纵坐标的30x3的矩阵。数据需要进一步处理才能更加直观的反应各组的特征，处理步骤如下：

i.对手势类别进行归一化；

ii.对质心的横纵坐标分别进行求方差操作；

iii.计算相邻帧间的坐标角度差值。

公式如下：

其中sx,sy分别为横纵坐标方差，xi,yi为各帧手势质心坐标，x,y分别为横纵坐标均值。i<j，angleerror_ij表示第i帧的质心坐标与第j帧的质心坐标的角度差，xi,yi,xj,yj分别为第i，j帧的质心坐标。

步骤四、再次利用SVM分类器进行分类，通过上述步骤三的特征提取，每一组指令可以得到一个61维的特征矩阵。将此矩阵传入SVM多分类器中，构建出一个27类的分类器。

本发明具体实施方式还包括：

本发明包括以下步骤：

I、静态手势：

静态手势识别流程如图3中，得出Model_1即为静态过程。具体步骤如下：

步骤一、根据需求，制作5种基础样本类，分别是五指张开(下简称Five)类、翘起拇指(下简Thumb)类、倾斜食指与中指(下简Two)类、拳头(下简Fist)类、杂乱手型(下简Else)类。

步骤二、对样本图片进行HSV空间的肤色分割，并得到二值图。利用区域生长的对原始图进行肤色分割后的二值图进行处理，由于采集图片时保证手部占据绝大部分图像，选择区域生长后最大的区域作为新的样本，然后将样本尺寸调整为(64，128)以便进行特征提取。

步骤三、对肤色分割得出的图像结果，进行区域生长选出最大肤色区域。利用梯度方向直方图提取区域生长得到的二值图的特征，将图像均匀的分成相邻的小块，结合有重叠的矩形HOG以及最简单的[-1，0，1]算子提取特征。

步骤四、将HOG检测算法提取并保存图片像素梯度归一化后的特征信息，作为样本进行训练。统一图片尺寸为(64，128)，每个图片可以得到105个块，每个块包含36维向量，归一化之后每幅图片可以得到3780维HOG特征，原理如图1。将5类训练数据的HOG特征传入到SVM训练器中，选择合适的参数获取能够对待测样本犯错较少的预测支持向量机。

II、动态手势：

手势识别流程如图3，Model_2得出的预测结果即为动态指令预测结果。具体步骤如下：

步骤一、利用上述4种静态手势结合手势可能的运动方向，设计出27种动态手势指令，每组手势指令样本包含27帧静态手势。动态手势识别基于上述27种指令进行特征提取、模型构建、分类、测试。基于这27组指令方案，分别对10个不同人的手掌进行数据采集，每组指令采集100组，共计2700组数据，利用这些数据进行训练测试。

步骤二、结合CFDP的思想进行手势跟踪，算法效果如图2，其中图二左边为类的概率分布，右边为随着样本点增加错误指派点的比率。对区域生长后的图像从像素点的局部密度以及相对距离两个方面进行计算处理。利用聚类原理，聚类中心的密度越大围绕这个中心的点就越多，寻找出最大的聚类中心即默认为手势的质心位置，寻找出手势边界位置用于框出手势轮廓。相对距离用于排除小区域肤色部分带来的干扰，与其他聚类中心距离越大误差越小。给定一张图片，

步骤三、动态手势分类的特征需加载静态手势分类器得出的模型Model_1，得出每一帧属于哪一种静态手势基础类别，其次对每一帧数据信息进行手势质心提取，进而每一组动态手势指令可以得到一组包含每一帧手势基础类别、质心横坐标、质心纵坐标的30x3的矩阵。数据需要进行对手势类别进行归一化、对质心的横纵坐标分别进行求方差操作、计算相邻帧间的坐标角度差值三步操作才能传进分类器。

Claims

1.一种动态手势指令识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种动态手势指令识别方法，其特征在于：步骤二所述的进行区域生长选出最大肤色区域具体包括：

3.根据权利要求1所述的一种动态手势指令识别方法，其特征在于：步骤三所述的利用梯度方向直方图提取区域生长得到的二值图的特征具体为：特征提取时以8*8像素的Cell为单位，2*2的Block为单位进行，图像归一化后，提取每一个像素点的梯度信息，建立以Block为单位的梯度直方图，对直方图归一化得到图片特征。

4.根据权利要求1所述的一种动态手势指令识别方法，其特征在于：步骤六所述局部密度ρi满足：

其中：d_c表示截断距离，由用户指定，I_S表示集合S；

其中，x表示的是像素点x_i和x_j之间的距离与截断距离的差值