CN109344689A

CN109344689A - 一种基于Kinect的哑语手势识别方法

Info

Publication number: CN109344689A
Application number: CN201810892065.XA
Authority: CN
Inventors: 王映辉; 刘远胜; 陈晨; 宁小娟
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2018-08-07
Filing date: 2018-08-07
Publication date: 2019-02-15

Abstract

本发明公开了一种基于Kinect的哑语手势识别方法，具体按照以下步骤实施：首先，提取哑语手势区域；其次，提取哑语手势的距离特征和曲率特征；最后，利用哑语手势的距离特征和曲率特征进行哑语手势的识别。该方法是基于Kinect的哑语手势识别方法，结合视觉知识，提出了距离特征和曲率特征；其特征区分度高，提取简单，能够较好的区分被测手势；结合神经网络算法，与其他手势识别方法相比，其识别率高，识别效果好，尤其是针对哑语手势识别，有独特的效果。

Description

一种基于Kinect的哑语手势识别方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于Kinect的哑语手势识别方法。

背景技术

哑语手势识别的目的是通过计算机提供一种有效而准确的机制，将哑语手势翻译成文本或语音，使聋人与正常人之间的交流更加方便、快捷。手语识别已经变成人机交互领域的一项非常重要的研究内容，引起了越来越多专家学者的关注。目前我国有2800多万聋哑人，对哑语手势识别的研究，将直接造福聋哑患者，为他们提供一种更加流畅、更加快捷的与人交流的途径，以便于他们能更好的生活，这也对构建和谐社会、美好生活产生积极影响。目前手势识别研究以初具规模，主要有基于传感器的数据手套法和位置跟踪传感器法，以及基于视觉的识别方法。

发明内容

本发明的目的是提供一种基于Kinect的哑语手势识别方法，以距离特征和曲率特征进行哑语手势的识别，提高了哑语手势的识别率。

本发明所采用的技术方案是，一种基于Kinect的哑语手势识别方法，具体按照以下步骤实施：

步骤1，提取哑语手势区域；

步骤2，经步骤1后，提取哑语手势的距离特征和曲率特征；

步骤3，经步骤2后，利用哑语手势的距离特征和曲率特征进行哑语手势的识别。

本发明的特点还在于，

步骤1中，提取哑语手势区域，具体步骤如下：

步骤1.1，对哑语手势进行粗粒度分割：深度图像f(x,y,z)中手势区域与背景区域属于不同的距离集合，即一个手势区域集合和一个背景区域集合，如式(1)所示，当区域g(x,y,z)＝1时，属于手势区域；当区域g(x,y,z)＝0时，属于背景区域；

式(1)中，T为手腕与传感器的间距；s为距离常数，s＝8；

步骤1.2，将经步骤1.1后得到的手势区域进行细粒度，得到手势图像，具体步骤如下：

步骤1.21，将哑语手势区域的图像的RGB空间转换到YC_bC_r空间中，如式(2)所示：

式(2)中，Y为亮度；C_b为蓝色色差；C_r为红色色差；R为红色分量；G为绿色分量；B为蓝色分量；

步骤1.22，在YC_bC_r空间中建立哑语手势区域图像的高斯模型；

步骤1.23，经步骤1.22后，计算哑语手势区域中每个像素点的肤色的概率，当肤色概率大于或者等于0.9时，该像素点为强肤色点，则保留；当肤色概率小于0.9时，该像素点为弱肤色点，则去除。

步骤1.23中，像素点肤色的概率计算公式，如式(3)所示：

P(C_b,C_r)＝exp{-0.5(x-m)^TC^-1(x-m)} (3)；

式(3)中，x＝(C_b,C_r)^T；m为像素点的统计均值，m＝E(x)；C为像素点的统计协方差矩阵，C＝E{(x-m)(x-m)^T}。

步骤2中，提取哑语手势的距离特征和曲率特征，具体步骤如下：

步骤2.1，提取哑语手势的质心特征：在经步骤1.2后得到的手势图像中，将多连通区域按像素密度大小排序，选取像素密度最大的连通区域，即为手掌连通域S，计算手掌连通域S的质心坐标(x₀·y₀)，即为哑语手势质心；若最大手掌连通域有多个时，则先计算每个手掌连通域的质心坐标(x₀·y₀)，再将每个手掌连通域的质心坐标相连成多边形，之后再计算多边形的中心，即为哑语手势质心；

步骤2.2，将经步骤1后得到的哑语手势图像进行高斯滤波降噪，得到平滑的哑语手势图像；

步骤2.3，将经步骤2.3后得到的哑语手势图像使用Canny算子边缘检测算法，得到哑语手势轮廓线；

步骤2.4，经步骤2.3后，提取哑语手势的距离特征，具体步骤如下：

步骤2.41，计算每两个强边缘像素点之间的欧式距离；

步骤2.42，经步骤2.41后，以哑语手势质心为原点，以欧式距离最大且两个强边缘像素点都在轮廓线上的线段为X轴，将垂直于X轴且两个强边缘像素点都在轮廓线上的线段作为Y轴，建立二维坐标系；

步骤2.43，经步骤2.42后，选取X轴正半轴重合的射线，将该射线逆时针旋转360°，每次旋转5°，计算射线与轮廓线相交的点和原点之间的距离，即得到哑语手势的距离特征；

步骤2.5，经步骤2.4后，提取哑语手势的曲率特征，具体步骤如下：

步骤2.51，分别以每个强边缘像素点为圆心，再以该强边缘像素点沿着哑语手势轮廓线的5个像素点的欧式距离、8个像素点的欧式距离、12个像素点的欧式距离为半径，形成三个同心圆；

步骤2.52，经步骤2.51后，计算三个同心圆的面积S_f和哑语手势区域落在三个同心圆的面积S_b，得到每个强边缘像素点的曲率K，形成哑语手势的曲率特征；

其中，强边缘像素点的曲率K的计算公式，如式(7)所示：

步骤2.53，将经步骤2.52后得到的每个强边缘像素点的曲率K与阈值T₁进行比较；

若该强边缘像素点的曲率K小于阈值T₁，则该强边缘像素点的哑语手势轮廓线为凸起；

若该强边缘像素点的曲率K大于阈值T₁，则该强边缘像素点的哑语手势轮廓线为凹陷；

若该强边缘像素点的曲率K等于阈值T₁，则该强边缘像素点的哑语手势轮廓线为平直。

步骤2.1中，手掌连通域S质心坐标(x₀·y₀)的计算公式，如式(4)及式(5)所示；

式(4)及式(5)中，N_s为像素个数。

步骤2.3具体为：

步骤2.31，计算哑语手势图像中每个像素点的梯度和方向；

步骤2.32，将经步骤2.31后得到的每个像素点的梯度与正负梯度方向上的两个像素点的梯度进行比较，如果该像素点的梯度大于等于任意一个正负梯度方向上的像素点的梯度时，则保留该像素点；否则去除该像素点；

步骤2.33，将经步骤2.32后得到的像素点的梯度与阈值T₂进行比较，若大于或者等于阈值T₂时，则该像素点是强边缘像素点，否则去除；强边缘像素点形成哑语手势轮廓线；

其中，阈值T₂的计算公式，如式(6)所示：

T₂＝(P×Row×Col)÷64 (6)；

式(6)中，P为非边缘像素的百分比；Row为图像的高度；Col为图像宽度。

步骤3具体为：使用来自20个不同个体的哑语手势的10幅图像，共12200张样本图像训练多层神经网络，将哑语手势的距离特征与曲率特征作为多层神经网络的输入，在多层神经网络中，输入层和隐藏层，隐藏层和隐藏层，隐藏层和输出之间的权重矩阵用随机值进行初始化；将输出数据与所需标签进行比较并计算误差；再利用外部循环达到可接受的性能，当正确率高于99％时，即误差小于1％，循环停止并保存结果，完成测试；之后使用哑语手势测试图像进行测试，得到哑语手势识别结果。

本发明的有益效果是，

该方法是基于Kinect的哑语手势识别方法，结合视觉知识，提出了距离特征和曲率特征；其特征区分度高，提取简单，能够较好的区分被测手势；结合神经网络算法，与其他手势识别方法相比，其识别率高，识别效果好，尤其是针对哑语手势识别，有独特的效果；为未来聋哑人与机器的交流提供了技术支持，为人机交互增加了新的思路。

附图说明

图1是本发明一种基于Kinect的哑语手势识别方法的流程图；

图2是本实施例中对哑语手势进行粗粒度分割的结果图；

图3是本实施例中对哑语手势进行细粒度分割的结果图；

图4是本实施例中对哑语手势质心提取结果图；

图5是本实施例中提取哑语手势轮廓线的结果图；

图6是本实施例中提取哑语手势距离特征的结果图；

图7是本实施例中提取哑语手势距离特征的曲线图；

图8是本实施例中提取手势曲率特征的示意图一；

图9是本实施例中提取手势曲率特征的示意图二。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于Kinect的哑语手势识别方法，如图1所示，具体按照以下步骤实施：

步骤1，提取哑语手势区域，具体步骤如下：

步骤1.1，对哑语手势进行粗粒度分割：深度图像f(x,y,z)中手势区域与背景区域属于不同的距离集合，即一个手势区域集合和一个背景区域集合，用距离阈值T来分割手势区域和背景区域，如式(1)所示，当区域g(x,y,z)＝1时，属于手势区域；当区域g(x,y,z)＝0时，属于背景区域；

式(1)中，T为手腕与传感器的间距；s为距离常数，s＝8；

步骤1.23，经步骤1.22后，计算哑语手势区域中每个像素点的肤色的概率，当肤色概率大于或者等于0.9时，该像素点为强肤色点，则保留；当肤色概率小于0.9时，该像素点为弱肤色点，则去除；

其中，像素点肤色的概率计算公式，如式(3)所示：

P(C_b,C_r)＝exp{-0.5(x-m)^TC^-1(x-m)} (3)；

式(3)中，x＝(C_b,C_r)^T；m为像素点的统计均值，m＝E(x)；C为像素点的统计协方差矩阵，C＝E{(x-m)(x-m)^T}；

步骤2，经步骤1后，提取哑语手势的距离特征和曲率特征，具体步骤如下：

其中，手掌连通域S质心坐标(x₀·y₀)的计算公式，如式(4)及式(5)所示；

式(4)及式(5)中，N_s为像素个数；

步骤2.3，将经步骤2.3后得到的哑语手势图像使用Canny算子边缘检测算法，得到哑语手势轮廓线；具体步骤如下：

步骤2.31，计算哑语手势图像中每个像素点的梯度和方向；

其中，阈值T₂的计算公式，如式(6)所示：

T₂＝(P×Row×Col)÷64 (6)；

式(6)中，P为非边缘像素的百分比；Row为图像的高度；Col为图像宽度；

步骤2.41，计算每两个强边缘像素点之间的欧式距离；

其中，强边缘像素点的曲率K的计算公式，如式(7)所示：

若该强边缘像素点的曲率K等于阈值T₁，则该强边缘像素点的哑语手势轮廓线为平直；

步骤3，经步骤2后，利用哑语手势的距离特征和曲率特征进行哑语手势的识别；

具体为：使用来自20个不同个体的哑语手势的10幅图像，共12200张样本图像训练多层神经网络，将哑语手势的距离特征与曲率特征作为多层神经网络的输入，在多层神经网络中，输入层和隐藏层，隐藏层和隐藏层，隐藏层和输出之间的权重矩阵用随机值进行初始化；将输出数据与所需标签进行比较并计算误差；再利用外部循环达到可接受的性能，当正确率高于99％时，即误差小于1％，循环停止并保存结果，完成测试；之后使用哑语手势测试图像进行测试，得到哑语手势识别结果。

实施例

一种基于Kinect的哑语手势识别方法，具体按照以下步骤实施：

步骤1，提取哑语手势区域，具体步骤如下：

步骤1.1，对哑语手势进行粗粒度分割：深度图像f(x,y,z)中手势区域与背景区域属于不同的距离集合，即一个手势区域集合和一个背景区域集合，如式(1)所示，当区域g(x,y,z)＝1时，属于手势区域；当区域g(x,y,z)＝0时，属于背景区域，其分割结果如图2所示；

式(1)中，T为手腕与传感器的间距；s为距离常数，s＝8；

步骤1.2，将经步骤1.1后得到的手势区域进行细粒度，得到手势图像，如图3所示，具体步骤如下：

其中，像素点肤色的概率计算公式，如式(3)所示：

P(C_b,C_r)＝exp{-0.5(x-m)^TC^-1(x-m)} (3)；

步骤2.1，提取哑语手势的质心特征：在经步骤1.2后得到的手势图像中，将多连通区域按像素密度大小排序，选取像素密度最大的连通区域，即为手掌连通域S，计算手掌连通域S的质心坐标(x₀·y₀)，即为哑语手势质心；若最大手掌连通域有多个时，则先计算每个手掌连通域的质心坐标(x₀·y₀)，再将每个手掌连通域的质心坐标相连成多边形，之后再计算多边形的中心，即为哑语手势质心，如图4所示；

式(4)及式(5)中，N_s为像素个数；

步骤2.3，将经步骤2.3后得到的哑语手势图像使用Canny算子边缘检测算法，得到哑语手势轮廓线，如图5所示；具体步骤如下：

步骤2.31，计算哑语手势图像中每个像素点的梯度和方向；

其中，阈值T₂的计算公式，如式(6)所示：

T₂＝(P×Row×Col)÷64 (6)；

步骤2.4，经步骤2.3后，提取哑语手势的距离特征，如图6所示，具体步骤如下：

步骤2.41，计算每两个强边缘像素点之间的欧式距离；

步骤2.43，经步骤2.42后，选取X轴正半轴重合的射线，将该射线逆时针旋转360°，每次旋转5°，计算射线与轮廓线相交的点和原点之间的距离，即得到哑语手势的距离特征，进而得到哑语手势距离特征的曲线图，如图7所示；

步骤2.51，分别以每个强边缘像素点为圆心，再以该强边缘像素点沿着哑语手势轮廓线的5个像素点的欧式距离、8个像素点的欧式距离、12个像素点的欧式距离为半径，形成三个同心圆，如图8及图9所示；

其中，强边缘像素点的曲率K的计算公式，如式(7)所示：

步骤3，经步骤2后，利用哑语手势的距离特征和曲率特征进行哑语手势的识别，该哑语手势表示的含义为“五”。

Claims

1.一种基于Kinect的哑语手势识别方法，其特征在于，具体按照以下步骤实施：

步骤1，提取哑语手势区域；

步骤2，经步骤1后，提取哑语手势的距离特征和曲率特征；

2.根据权利要求1所述的一种基于Kinect的哑语手势识别方法，其特征在于，所述步骤1中，提取哑语手势区域，具体步骤如下：

式(1)中，T为手腕与传感器的间距；s为距离常数，s＝8；

3.根据权利要求2所述的一种基于Kinect的哑语手势识别方法，其特征在于，所述步骤1.23中，像素点肤色的概率计算公式，如式(3)所示：

P(C_b,C_r)＝exp{-0.5(x-m)^TC^-1(x-m)} (3)；

4.根据权利要求1所述的一种基于Kinect的哑语手势识别方法，其特征在于，所述步骤2中，提取哑语手势的距离特征和曲率特征，具体步骤如下：

步骤2.41，计算每两个强边缘像素点之间的欧式距离；

其中，强边缘像素点的曲率K的计算公式，如式(7)所示：

5.根据权利要求4所述的一种基于Kinect的哑语手势识别方法，其特征在于，所述步骤2.1中，手掌连通域S质心坐标(x₀·y₀)的计算公式，如式(4)及式(5)所示；

式(4)及式(5)中，N_s为像素个数。

6.根据权利要求4所述的一种基于Kinect的哑语手势识别方法，其特征在于，所述步骤2.3具体为：

步骤2.31，计算哑语手势图像中每个像素点的梯度和方向；

其中，阈值T₂的计算公式，如式(6)所示：

T₂＝(P×Row×CoI)÷64 (6)；

7.根据权利要求1所述的一种基于Kinect的哑语手势识别方法，其特征在于，所述步骤3具体为：使用来自20个不同个体的哑语手势的10幅图像，共12200张样本图像训练多层神经网络，将哑语手势的距离特征与曲率特征作为多层神经网络的输入，在多层神经网络中，输入层和隐藏层，隐藏层和隐藏层，隐藏层和输出之间的权重矩阵用随机值进行初始化；将输出数据与所需标签进行比较并计算误差；再利用外部循环达到可接受的性能，当正确率高于99％时，即误差小于1％，循环停止并保存结果，完成测试；之后使用哑语手势测试图像进行测试，得到哑语手势识别结果。