CN104834894B

CN104834894B - 一种结合二进制编码和类-Hausdorff距离的手势识别方法

Info

Publication number: CN104834894B
Application number: CN201510151404.5A
Authority: CN
Inventors: 冯志全; 杨学文
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2015-04-01
Filing date: 2015-04-01
Publication date: 2018-09-25
Anticipated expiration: 2035-04-01
Also published as: CN104834894A

Abstract

本发明的结合手势二进制编码和类‑Hausdorff距离的手势识别方法，特征在于：首先将手势图像标准化，并将其等分为多个子区域；通过比较手势库中手势图像与待识别手势图像，选取手势库中与待识别手势图像最为接近的前l个作为候选手势；然后通过计算候选手势图像与待识别手势图像的类‑Hausdorff距离，使类‑Hausdorff距离取最小值的动态手势即为识别结果。本发明的手势识别方法，解决了基于视觉的动态手势识别方法受旋转、平移、缩放的影响大，识别实时性不高，对相近手势区分度较小的问题，手势识别过程中待识别图像与手势库中图像的对比计算量适中，识别效率和准确性高，有益效果显著，便于应用推广。

Description

一种结合二进制编码和类-Hausdorff距离的手势识别方法

技术领域

本发明涉及一种手势识别方法，更具体的说，尤其涉及一种结合手势二进制编码和类-Hausdorff距离的手势识别方法。

背景技术

随着计算机的发展与应用，人与计算机的交互越来越密切。手势交互在人机交互领域内的重要性越发突出，其中基于视觉的手势识别技术已成为手势交互领域内的一个研究热点。从手势的运动特点出发，基于视觉的手势识别可分为动态手势识别和静态手势识别两大类。静态手势识别只与手势的位置、轮廓、纹理等相关；而动态手势是静态手势的时间序列，随着时间的变化手势的形状和位置也发生着相应的改变。因此，识别效果容易受到手势轮廓、时空位置、移动速率等因素的影响。在基于虚拟人机交互的场景中，我们主要用手来完成对虚拟界面上不同物体的抓取，移动并释放。因此，需要大量的动态手势来完成对物体的操作，同时保证手势识别的实时性，但是目前动态手势识别方法不能满足相应的需要。

王西颖等提出了一种HMM-FNN模型结构，先把复杂手势分解为手型变化、2D平面运动与Z轴方向运动三个部分，再用HMM进行建模，最后通过FNN模糊规则推理得到最终的手势分类类别，该方法降低了运算复杂度。张建忠等提出了一种区间分布概率矩阵模型，首先用加速度传感器获取手势动作的数据，再对这些数据进行预处理得到数据观测点，最后根据观测点处的区间分布概率矩阵进行手势识别，该方法能够对动态手势进行快速识别，但是实验者需在手指上佩戴加速度传感器，从而影响了交互的自然性。Kuremoto等提出了一种基于动态规划(DP)的手势识别方法，首先用hsv-rgb滤波器对肤色区域进行分割，然后用retina-v1模型在8邻域内对手势进行简单的运动估计，最后用DP算法进行手势识别。Zhou等提出了一种基于核稀疏表示的手势识别方法，通过核化技术，将字典原子分解为稀疏编码算法并且在内核空间中将非线性数据转化为线性关系，该方法克服了在多变量时间序列中长度不一致的问题、提高了手势变化的鲁棒性。Li等提出了一种利用分层弹性图匹配(HEGM)的手势识别方法，用Boosting算法来确定一个给定的图形的层次结构，利用梯度方向直方图(HOG)提取视觉特征，该方法的手势识别率高达99.85％。Wang等利用深度传感器捕获的深度图进行手势识别，该方法利用潜在的活性区(PAR)保证有效的手轨迹避免了额外的时间消耗，手势识别率达到90％。Lin等提出一种基于梯度方向直方图(HOG)和手势运动轨迹的手势识别方法，通过提取手势运动轨迹的时空特征信息并建立标准手势库，最后用马氏距离进行手势识别，该方法对复杂手势识别率较差。Dardas N H等通过对图像进行尺度不变性特征变换和矢量化特征提取，然后用特征包和多类支持向量机对手势进行识别，该方法可以得到较好的手势识别效果，但是由于SIFT算法的计算复杂度高导致识别速度较慢，实时性差。闯跃龙等提出一种层次化Bag-of-Features(BoF)的模型，通过对人手区域进行划分和利用水平和垂直轴投影提取图像特征的空间分布信息，最后用直方图交叉核的算法对手势进行识别，对简单背景下的手势识别率可达99.79％，而对复杂背景下的识别率为80.01％。王修晖等提出Tortoise模型表征人手部的基本特征，结合遗传算法在几何与纹理混合特征空间内实现手势识别，其方法提高了实时性，但其只对几种区分度较大的手势进行了实验。李文生等提出了一种基于机器视觉的动态多点手势识别方法，通过多目标检测跟踪指尖，最后利用指尖的运动轨迹进行动态手势识别，该方法对硬件要求低、实时性高、识别准确度高，但是该方法通过带颜色的指套对指尖加以标记，给用户体验带来了不便。何力等提出一种基于最大似然准则Hausdorff距离的手势识别算法，搜索策略采用类似于Rucklidg提出的多分辨率搜索方法，缩短了搜索时间，同时也能较好地识别字母手势，但是对部分变形(旋转和缩放)手势识别效果不好。杨波等提出一种空间分布特征的手势识别算法，将手势的整体表观特征与手势的关节变化特性结合起来提取手势的空间分布特征(HDF)，该方法对差异较大的手势有较高的识别率，但对区分度较小的手势，识别率不高。

发明内容

本发明为了克服上述技术问题的缺点，提供了一种结合手势二进制编码和类-Hausdorff距离的手势识别方法。

本发明的结合手势二进制编码和类-Hausdorff距离的手势识别方法，其特别之处在于：首先将待识别的动态手势图像与样本手势库中的动态手势图像归一化至同一大小，并将手势图像等分为多个子区域；通过比较手势库中手势图像与待识别手势图像，选取手势库中子区域的像素分布与待识别手势图像子区域的像素分布最为接近的前l个动态手势作为候选手势；然后通过计算候选手势图像与待识别手势图像的类-Hausdorff距离，使类-Hausdorff距离取最小值的动态手势即为识别结果。

本发明的结合手势二进制编码和类-Hausdorff距离的手势识别方法，具体通过以下步骤来实现：

a).手势图像的标准化，首先利用肤色分布模型将手势从背景图像中分割出来，然后把图像的像素尺寸统一到相同大小；b).求手势的主方向，对于步骤a)中获取的标准化手势图像，利用公式(1)求出手势的重心点

式中，R表示手势图像中手势像素区域；

然后，求出图像中离手势重心最远的像素点M，向量作为手势的主方向；

c).手势图像的等分，首先以手势重心点为坐标原点，手势主方向为Y轴正方向，沿Y轴正方向顺时针旋转90度为X轴正方向，建立二维手势直角坐标系；然后沿手势主方向顺时针把手势图像等分为N个图像子区域；d).计算邻接区域描述子，从第一个子区域开始依次比较相邻两个子区域内像素点个数，如果当前子区域内像素点的个数大于下一个子区域内像素点的个数，则这个子区域的二进制位为1，否则为0，邻接区域描述子Q_p通过公式(2)进行求取：

公式(2)中q(p,i)通过公式(3)进行求取：

其中，N为手势图像子区域的个数，p为标准化手势图像，p(i)为第i个子区域内手势像素点的个数；

如图3所示，给出了在手势图像中所建立的二维坐标系和所分割出的8个子区域。

e).计算平均区域描述子和二进制描述子，求出N个子区域中像素点个数的平均值avg，比较当前子区域内像素点个数与平均值的大小，如果当前子区域像素点的个数大于平均像素点的个数，则这个区域的二进制位为1，否则为0，其通过计算公式(4)、(5)和(6)来求取：

通过公式(7)将邻接区域描述子与平均区域描述子连接起来，

B＝2^NQ_p+R_p (7)

得到手势图像的二进制描述子B；

f).建立特征向量，首先获取手势像素点的点集，统计手势图像中每个图像子区域中的像素点，记为图像子区域的点集p_i；然后建立如表达式(8)所示的用于表征空间手势坐标点分布的特征向量：

其中，1≤i≤N；

g).动态手势样本库的建立，采集标准的、表征具体含义的三维动态手势图像的视频流，将视频流划分为k帧，k≥2，对于每帧图像按照步骤a)至步骤f)进行处理，建立起每种动态手势的样本库，设动态手势样本库中动态手势的个数为M；h).待识别动态手势的采集和处理，采集待识别手势图像的视频流，并从视频流中依次获取k帧图像，每帧图像均按照步骤a)至步骤f)进行处理；i).求汉明距离，根据公式(9)求取待识别手势图像与手势样本库中每种动态手势的汉明距离HD(D,G_m)：

HD(D,G_m)＝HD(DB₁,GB_m1)+HD(DB_k′,GB_mk′) (9)

其中，D表示待识别的动态手势，G_m表示动态手势样本库中第m种手势，1≤m≤M，2≤k＇≤k；DB₁、DB_k′分别表示待识别动态手势第一帧图像、第k′帧图像的二进制描述子，GB_m1、GB_mk′分别表示动态手势样本库中第m种手势的第一帧图像、第k′帧图像的二进制描述子；HD(DB₁,GB_m1)表示待识别动态手势图像第一帧图像的汉明距离，HD(DB_k′,GB_mk′)表示第k′帧图像的汉明距离；汉明距离为两个二进制描述子异或运算结果中1的个数；

j).候选手势的选取，根据步骤i)中计算出的M个汉明距离HD(D,G₁)、HD(D,G₂)、...、HD(D,G_m)，从小到大选取前l个汉明距离所对应的样本库中的手势为候选手势，候选手势记为G_n，1≤n≤l；k).计算类-Hausdorff距离，通过公式(10)依次计算当前动态手势D与l个候选手势G_n的类-Hausdorff距离：

LD(D,G_n)＝LD(PD₁,PG_n1)+LD(PD_k′,GB_nk′) (10)

其中，PD₁、PD_k′表示待识别动态手势的第一帧、第k′帧手势图像；PG_n1、PG_nk′表示第n个候选手势的第一帧、第k′帧手势图像；LD(PD₁,PG_n1)表示PD₁、PG_n1这两幅图像的类-Hausdorff距离，LD(PD_k′,GB_nk′)表示PD_k′、PG_nk′这两幅图像的类-Hausdorff距离，其分别通过公式(11)和(12)求取：

式中，p_i表示手势图像PD₁中的第i个点集，q_i表示手势图像PG_n1中的第i个点集；HL(p_i,q_i)表示点集p_i与点集q_i的类-Hausdorff距离；

式中，p_i表示手势图像PD_k中的第i个点集，q_i表示手势图像PG_nk中的第i个点集；

l).给出动态手势识别结果，根据公式(13)从步骤k)中求取的l个类-Hausdorff距离中，选取出最小的类-Hausdorff距离：

LD(D,G_j)＝Min{LD(D,G₁),...,LD(D,G_l)} (13)

式中，1≤j≤l；使类-Hausdorff距离取最小值的手势图像G_j所对应的动态手势即为识别结果。

本发明的结合手势二进制编码和类-Hausdorff距离的手势识别方法，步骤a)中所述的手势图像的标准化通过以下步骤来实现：

a-1).图像初步处理，按照手势在图像中的分布，求出手势图像的最小外接正方形，将手势图像分割出来；

如图1所示，给出了利用外接正方形将手势图像分割出来的原理图；

a-2).图像的标准化处理，根据缩放公式(14)将步骤a-1)中获取的图像转化至标准化图像的大小：

式中，(x′,y′)为标准化图像中像素点的坐标值，(x,y)为原图像中像素点的坐标值，zoom＝Newwide/Wide；zoom为缩放比率，Newwide为标准化图像的边长，Wide为原图像的边长。

如图2所示，给出了标准化后的手势图像。

本发明的结合手势二进制编码和类-Hausdorff距离的手势识别方法，所述标准化图像的大小为32像素×32像素。

本发明的结合手势二进制编码和类-Hausdorff距离的手势识别方法，步骤c)中手势图像的等分子区域的数目N为8个；动态手势图像视频流划分为10帧，k′＝k/2＝5。

本发明的结合手势二进制编码和类-Hausdorff距离的手势识别方法，步骤k)中的两点集之间的类-Hausdorff距离HL(p_i,q_i)通过以下步骤来求取：

设点集p_i、点集q_i分别用点集A和点集B来表示，则HL(p_i,q_i)通过公式(15)进行求取：

HL(p_i,q_i)＝HL(A,B)＝h(A,B)+h(B,A) (15)

式中，h(A,B)表示点集A中每一点到点集B中最近一点距离的均值，h(B,A)表示点集B中每一点到点集A中最近一点距离的均值，其分别通过公式(16)和公式(17)进行求取：

式中，N_A、N_B分别表示点集A、点集B中特征点的个数，a、b分别为点集A、点集B中具体的特征点，||a-b||表示特征点a、b之间的欧式距离，其通过公式(18)进行求取：

式中，a∈A,b∈B。

本发明的有益效果是：本发明的手势识别方法，解决了基于视觉的动态手势识别方法受旋转、平移、缩放的影响大，识别实时性不高，对相近手势区分度较小的问题，首先根据手势像素点个数的变化规律和手势二进制描述子匹配方法对动态手势进行初步识别，选取N种相近的候选样本；最后用类-Hausdorff距离模板匹配的思想，从N种候选样本中识别出最终的手势。手势识别过程中待识别图像与手势库中图像的对比计算量适中，识别效率和准确性高，有益效果显著，便于应用推广。

附图说明

图1为本发明中利用外接正方形将手势图像分割出来的原理图；

图2为本发明中标准化后的手势图像；

图3为本发明中将手势图像划分为8个子区域的原理图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

手势识别算法步骤如下：

输入：摄像头获取的BMP图像；i←0。

输出：识别后的三维动态手势图像。

Step1.i＝i％10，i←i+1；从视频流中获取第i帧图像。

Step2.用肤色分布模型把目标手势从图像中分割出来。

Step3.把分割后的手势图像转化为标准化手势图像。

Step4.计算出标准化手势图像的手势主方向，并建立二维手势直角坐标系，然后求出HCDF中的每个特征向量(见公式(8))。

Step5.i>4？如果是，转到Step6；否则，转到Step1。

Step6.i＝5？如果是，转到Step7；否则，转到Step14。

Step7.根据前五帧图像中手势像素点个数的变化规律，识别出动态手势类型。

Step8.计算第1帧图像的汉明距离HD(DB₁,GB_m1)，和第5帧图像的汉明HD(DB₅,GB_m5)，此时的k′＝5。汉明距离为两个二进制描述子异或运算结果中1的个数。DB₁表示当前动态手势第一帧手势图像的手势二进制描述子，GB_m1表示动态手势样本库中第m种手势第一帧的手势二进制描述子，DB₅表示当前动态手势第五帧手势图像的手势二进制描述子，GB_m5表示动态手势样本库中第m种手势第五帧的手势二进制描述子。其中m＝1,…,M，M为动态手势样本库中动态手势的个数。

Step9.求出最终的汉明距离HD(D,G_m)。

HD(D,G_m)＝HD(DB₁,GB_m1)+HD(DB₅,GB_m5) (9)

D表示待识别的动态手势，G_m表示动态手势样本库中第m种手势，1≤m≤M，2≤k′≤k。

Step10.根据汉明距离HD(D,G_m)，从小到大选取出l(本实施例中l取4)个候选手势G_n。其中，G_n表示第n个最小手势，m>4,n＝1,…,l。

Step11.依次计算当前动态手势和l个候选手势G_n的类-Hausdorff距离LD(D,G_n)。

LD(D,G_n)＝LD(PD₁,PG_n1)+LD(PD₅,GB_n5) (10)

式中，PD₁表示当前动态手势的第一帧手势图像，PG_n1表示第n个候选手势的第一帧手势图像，LD(PD₁,PG_n1)表示这两幅图像的类-Hausdorff距离，PD₅表示当前动态手势的第五帧手势图像，PG_n5表示第n个候选手势的第五帧手势图像，LD(PD₅,GB_n5)表示这两幅图像的类-Hausdorff距离。

式中，p_i为手势图像PD1中的第i个点集，q_i为手势图像PG_n1中的第i个点集。

式中，p_i表示手势图像PD_k中的第i个点集，q_i表示手势图像PG_nk中的第i个点集。

Step12.求出LD(D,G_j)，与之对应的样本库里的动态手势G_j就是最终的识别结果。

LD(D,G_j)＝Min{LD(D,G₁),...,LD(D,G_l)} (13)

式中，1≤j≤l。

Step13.输出前五帧的三维动态手势图像。

Step14.i＝10？如果是，转到Step1；否则，转到Step15。

Step15.输出第i帧的三维动态手势图像。

Claims

1.一种结合手势二进制编码和类-Hausdorff距离的手势识别方法，其特征在于：首先将待识别的动态手势图像与样本手势库中的动态手势图像归一化至同一大小，并将手势图像等分为多个子区域；通过比较手势库中手势图像与待识别手势图像，选取手势库中子区域的像素分布与待识别手势图像子区域的像素分布最为接近的前l个动态手势作为候选手势；然后通过计算候选手势图像与待识别手势图像的类-Hausdorff距离，使类-Hausdorff距离取最小值的动态手势即为识别结果；

具体通过以下步骤来实现：

a).手势图像的标准化，首先利用肤色分布模型将手势从背景图像中分割出来，然后把图像的像素尺寸统一到相同大小；

b).求手势的主方向，对于步骤a)中获取的标准化手势图像，利用公式(1)求出手势的重心点

式中，R表示手势图像中手势像素区域；i、j分别表示像素点的横坐标和纵坐标，(i，j)表示横坐标为i、纵坐标为j的像素点，f(i，j)表示像素点(i，j)的像素值；

c).手势图像的等分，首先以手势重心点为坐标原点，手势主方向为Y轴正方向，沿Y轴正方向顺时针旋转90度为X轴正方向，建立二维手势直角坐标系；然后沿手势主方向顺时针把手势图像等分为N个图像子区域；

d).计算邻接区域描述子，从第一个子区域开始依次比较相邻两个子区域内像素点个数，如果当前子区域内像素点的个数大于下一个子区域内像素点的个数，则这个子区域的二进制位为1，否则为0，邻接区域描述子Q_p通过公式(2)进行求取：

公式(2)中q(p,i)通过公式(3)进行求取：

其中，N为手势图像子区域的个数，p为标准化手势图像，p(i)为第i个子区域内手势像素点的个数；i％N、(i+1)％N为取余运算；

e).计算平均区域描述子和二进制描述子，

求出N个子区域中像素点个数的平均值avg，比较当前子区域内像素点个数与平均值的大小，如果当前子区域像素点的个数大于平均像素点的个数，则这个区域的二进制位为1，否则为0，其通过计算公式(4)、(5)和(6)来求取：

其中，R_p为平均区域描述子，r(p,i)为子区域p(i)的二进制位；

通过公式(7)将邻接区域描述子与平均区域描述子连接起来，

B＝2^NQ_p+R_p (7)

得到手势图像的二进制描述子B；

其中，1≤i≤N；

g).动态手势样本库的建立，采集标准的、表征具体含义的三维动态手势图像的视频流，将视频流划分为k帧，k≥2，对于每帧图像按照步骤a)至步骤f)进行处理，建立起每种动态手势的样本库，设动态手势样本库中动态手势的个数为M；

h).待识别动态手势的采集和处理，采集待识别手势图像的视频流，并从视频流中依次获取k帧图像，每帧图像均按照步骤a)至步骤f)进行处理；

i).求汉明距离，根据公式(9)求取待识别手势图像与手势样本库中每种动态手势的汉明距离HD(D,G_m)：

HD(D,G_m)＝HD(DB₁,GB_m1)+HD(DB_k′,GB_mk′) (9)

其中，D表示待识别的动态手势，G_m表示动态手势样本库中第m种手势，1≤m≤M，2≤k′≤k；DB₁、DB_k′分别表示待识别动态手势第一帧图像、第k′帧图像的二进制描述子，GB_m1、GB_mk′分别表示动态手势样本库中第m种手势的第一帧图像、第k′帧图像的二进制描述子；

HD(DB₁,GB_m1)表示待识别动态手势图像第一帧图像的汉明距离，HD(DB_k′,GB_mk′)表示第k′帧图像的汉明距离；汉明距离为两个二进制描述子异或运算结果中1的个数；

j).候选手势的选取，根据步骤i)中计算出的M个汉明距离HD(D,G₁)、HD(D,G₂)、...、HD(D,G_m)，从小到大选取前l个汉明距离所对应的样本库中的手势为候选手势，候选手势记为G_n，1≤n≤l；

k).计算类-Hausdorff距离，通过公式(10)依次计算当前动态手势D与l个候选手势G_n的类-Hausdorff距离：

LD(D,G_n)＝LD(PD₁,PG_n1)+LD(PD_k′,GB_nk′) (10)

LD(D,G_j)＝Min{LD(D,G₁),...,LD(D，G_l)} (13)

2.根据权利要求1所述的结合手势二进制编码和类-Hausdorff距离的手势识别方法，其特征在于，步骤a)中所述的手势图像的标准化通过以下步骤来实现：

3.根据权利要求2所述的结合手势二进制编码和类-Hausdorff距离的手势识别方法，其特征在于：所述标准化图像的大小为32像素×32像素。

4.根据权利要求1或2所述的结合手势二进制编码和类-Hausdorff距离的手势识别方法，其特征在于：步骤c)中手势图像的等分子区域的数目N为8个；动态手势图像视频流划分为10帧，k′＝k/2＝5。

5.根据权利要求1或2所述的结合手势二进制编码和类-Hausdorff距离的手势识别方法，其特征在于：步骤k)中的两点集之间的类-Hausdorff距离HL(p_i,q_i)通过以下步骤来求取：

HL(p_i,q_i)＝HL(A,B)＝h(A,B)+h(B,A) (15)

式中，a∈A,b∈B，a_x、b_x分别为特征点a、b的横坐标，a_y、b_y分别为特征点a、b的纵坐标。