CN109614922A

CN109614922A - 一种动静态手势识别方法和系统

Info

Publication number: CN109614922A
Application number: CN201811493321.4A
Authority: CN
Inventors: 吴凡; 刘海峰; 赵阳; 辛学颖; 钟静连
Original assignee: Nanjing Fujitsu Nanda Software Technology Co Ltd
Current assignee: Nanjing Fujitsu Nanda Software Technology Co Ltd
Priority date: 2018-12-07
Filing date: 2018-12-07
Publication date: 2019-04-12
Anticipated expiration: 2038-12-07
Also published as: CN109614922B

Abstract

本发明公开了一种动静态手势识别方法，包括：S1：采集手势图像以获取图像序列；S2：对采集到手势图像采用均值滤波方法去除图像噪声；S3：将采集到的手势图像从RGB色彩空间转换成YCrCb空间，并建立椭圆模型，进行肤色检测，分割出手势区域并做二值化处理；S4：构建卷积神经网络模型及其参数优化器，并利用训练数据得到一个性能最优的分类器；S5：根据识别队列中的手势信息，执行手势静态识别；S6：根据识别队列中的手势信息，执行手势动态识别。本发明能够通过普通摄像头采集手势数据，采用手势分割，卷积神经网络分类及运动轨迹约束来提高手势识别的准确性及稳定性。

Description

一种动静态手势识别方法和系统

技术领域

本发明涉及图像处理技术领域，具体而言涉及一种动静态手势识别方法和系统。

背景技术

手势识别是一种自然，便捷，友好的人机交互方式。通过特定感知设备捕捉手势数据，用图像识别，机器学习，模式识别等技术，识别和理解手势的类别及其含义，以此完成对执行设备的操作和控制。手势识别技术在人机交互，移动终端，娱乐设备，智能家居，汽车电子等领域具有广泛的应用前景。

在现有的手势识别技术中，基于接触式手势识别方法，具有识别精度高、速度快的优点，但使用起来并不友好；基于穿戴设备的手势识别技术，需要特定的穿戴设备，成本高且准备过程麻烦；而目前基于视觉的手势识别技术，大多需要人工提取特征，再进行分类，识别的精度和稳定性不佳，再有一部分视觉手势识别系统采用带有深度信息的双目摄像头作为手势采集设备，这种设备价格相对较高，且深度信息的算法比较复杂，计算耗时。

公开为CN107688773A专利文件公开了一种基于深度学习的手势识别方法，包括以下步骤：对采集到的手势图像使用最近邻内插法来统一图像的尺寸大小，设计了包括高分辨率网络和低分辨率网络的卷积网络分类器，采用了以最大似然函数为损失函数，随机梯度下降法作为收敛方法的网络模型训练和优化方法。在VIVA数据集上取得较好的识别结果，精度超过了以往的传统方法。该方法中并没有包括对手势区域定位和分割的方法，对于手势目标在图中占比过小的情况下，该方法的识别效果并不好。

公开为CN108388348A专利文件公开了一种基于深度学习和注意力机制的肌电信号手势识别方法，包括以下步骤：首先对采集到的手势肌电信号做降噪滤波，然后使用滑动窗口对每个窗口数据提取一个经典特征集，并构建新的基于特征的肌电图像；设计了一种基于卷积神经网络、循环神经网络和注意力机制的深度学习框架，并对其网络结构参数进行优化，使用设计好的深度学习框架和训练数据训练得到分类器模型,将测试数据输入到训练好的深度学习网络模型中,根据最后一层输出的似然,最大似然对应的类别作为识别的类别。该方法是使用肌电信号来进行手势识别，需要佩戴特定的采集设备，且由于个体差异，电极位置等影响，其分类难度很大。

发明内容

本发明目的在于提供一种动静态手势识别方法和系统，通过普通摄像头采集手势数据，采用手势分割，卷积神经网络分类及运动轨迹约束来提高手势识别的准确性及稳定性。

为达成上述目的，结合图1，本发明提出一种动静态手势识别方法，所述方法包括：

S1：采集手势图像以获取图像序列。

S2：对采集到手势图像采用均值滤波方法去除图像噪声。

S3：将采集到的手势图像从RGB色彩空间转换成YCrCb空间，并建立椭圆模型，进行肤色检测，分割出手势区域并做二值化处理。

S4：构建卷积神经网络模型及其参数优化器，并利用训练数据得到一个性能最优的分类器。

S5：根据识别队列中的手势信息，执行手势静态识别，如果识别成功，进入步骤S7，否则，进入步骤S6；

S6：根据识别队列中的手势信息，执行手势动态识别；

S7：结束流程。

进一步的实施例中，步骤S2中，所述对采集到手势图像采用均值滤波方法去除图像噪声的方法还包括：

S21：设手势图像上的其中一个像素点的红色、绿色、蓝色三个分量的像素值分别为R、G、B。

S22：将所述像素点的红色分量的像素值替换成以该像素点为中心、W₁×W₁范围内的其他点的红色分量的像素值的平均值，将所述像素点的绿色分量的像素值替换成以该像素点为中心、W₁×W₁范围内的其他点的绿色分量的像素值的平均值，将所述像素点的蓝色分量的像素值替换成以该像素点为中心、W₁×W₁范围内的其他点的蓝色分量的像素值的平均值。

S23：重复步骤S21至步骤S22，直至完成对所述手势图像中所有像素点的降噪处理。

进一步的实施例中，步骤S3中，将采集到的手势图像从RGB色彩空间转换成YCrCb空间，并建立椭圆模型，进行肤色检测，分割出手势区域并做二值化处理的方法包括：

S31：设手势图像上的其中一个像素点的红色、绿色、蓝色三个分量的像素值分别为R、G、B，采用下述公式将手势图像从RGB色彩空间转换成YCrCb空间：

S32：提取C_r、C_b两个分量作为肤色检测的特征量，建立肤色检测的椭圆模型，数学表达如下：

其中，

S33：将手势图像上的每个像素点的(C_r，C_b)代入椭圆模型进行计算，将计算结果小于等于1的像素点标记为手部区域，将计算结果大于1的像素点标记为非手部区域，然后利用连通域标记法分割出手势区域。

S34：根据连通域标记结果，将手部区域像素值置为1，非手部区域像素值置为0，以对分割出的手势区域做二值化处理。

进一步的实施例中，步骤S4中，构建卷积神经网络模型及其参数优化器，并利用训练数据得到一个性能最优的分类器的方法包括：

建立含有多个隐含层的卷积神经网络模型，将含有手势区域的二值图像输入到神经网络模型中，进行逐层训练和微调，得到整个神经网络模型的权重和偏移参数。

进一步的实施例中，所述方法还包括：

对采集到的手势样本做扩展，包括对图像的裁剪，翻转，旋转。

进一步的实施例中，步骤S5中，根据识别队列中的手势信息，执行手势静态识别的方法包括：

S51：创建手势信息结构体H＝{local,width,height,hType},其中local表示当前手势区域的中心坐标，width和height表示手势区域的宽和高，hType表示手势的类别。

S52：创建手势信息队列QH。

S53：记第i帧的识别结果为h_i，在第i帧神经网络模型识别完成后，将识别结果h_i加入到手势信息队列QH中，队列长度为n，即QH＝{h₀,h₁,…,h_n-1}。

S54：调取手势信息队列中最新的k帧识别结果，以执行手势静态识别。

进一步的实施例中，步骤S54中，调取手势信息队列中最新的k帧识别结果，以执行手势静态识别的方法包括：

S541：计算队列中两两手势间的距离Dis_ij：

Dis_ij＝‖h_i.local-h_j.local‖²

其中，h_i.local代表第i个手势的坐标，h_j.local代表第j个手势的坐标。

获取所述k帧识别结果中两两手势间的最大距离MaxDis:

MaxDis＝Max{Dis_n-k,n-k+1,Dis_n-k,n-k+2,…,Dis_i,j,…,Dis_n-2,n-1}

其中，i∈[n-k,n-1],j∈[n-k,n-1]。

如果最大距离MaxDis小于等于预先设定的距离阈值DisThreshold，则判定所述k帧识别结果满足距离约束，否则判定所述k帧识别结果不满足距离约束。

S541：计算队列中各手势类别出现的次数，获取次数最多的类别hType以及其次数c，

如果所述k帧识别结果满足下述公式，则判定所述k帧识别结果满足类别约束，否则判定所述k帧识别结果不满足类别约束：

其中，TypeThreshold为类别阈值。

S541：如果所述k帧识别结果同时满足距离约束和类型约束，则判定当前帧手势为静态手势，且手势结果为hType。

进一步的实施例中，步骤S6中，根据识别队列中的手势信息，执行手势动态识别的方法包括：

S61：创建手势信息结构体H＝{local,width,height,hType},其中local表示当前手势区域的中心坐标，width和height表示手势区域的宽和高，hType表示手势的类别。

S62：创建手势信息队列QH。

S63：记第i帧的识别结果为h_i，在第i帧神经网络模型识别完成后，将识别结果h_i加入到手势信息队列QH中，队列长度为n，即QH＝{h₀,h₁,…,h_n-1}。

S64：调取手势信息队列中所有帧的识别结果，以执行手势动态识别。

进一步的实施例中，步骤S64中，所述调取手势信息队列中所有帧的识别结果，以执行手势动态识别的方法包括：

S641：从队尾开始搜寻队列QH中第一个存在手势目标帧的索引L,作为起始帧，从L帧开始，向队头搜索存在手势目标的帧，得到队列QH的子队列，记为QHSub:

QHSub＝{h_L,h_L+1,…,h_L+m-1}

其中，m为队列长度。

S642：当m>num_Threshold时，其中，num_Threshold为预先设定的长度阈值，在X方向上计算每一帧与第L帧的距离DisX_i,L：

DisX_i,L＝‖h_i.local.x-h_L.local.x‖²

其中，i∈[L+1,L+m-1]。

取最大距离MaxX，MaxX＝max{DisX_L+1,L,DisX_L+2,L,…,DisX_L+m-1,L}。

如果MaxX≥threshold_dis_x，其中,threshold_dis_x为X方向上的水平移动阈值，则判定当前手势为相对于起始点位置的水平方向上的动态手势，具体的，如果h_L+m-1.x-h_L.x<0，判定动态手势为向左滑动，如果h_L+m-1.x-h_L.x>0，判定动态手势为向右滑动。

在Y方向上计算每一帧与第L帧的距离DisY_i,L：

DisY_i,L＝‖h_i.local.y-h_L.local.y‖²

其中，i∈[L+1,L+m-1]。

取最大距离MaxY＝max{DisY_L+1,L,DisY_L+2,L,…,DisY_L+m-1,L}。

如果MaxY≥threshold_dis_y，其中，threshold_dis_y为Y方向上的垂直移动阈值，则判定当前手势为相对于起始点位置的垂直方向上的动态手势，具体的，如果h_L+m-1.y-

h_L.y<0，判定动态手势为向上滑动，如果h_L+m-1.y-h_L.y>0，判定动态手势为向下滑动。

结合图9，基于前述方法，本发明还提及一种动静态手势识别系统，所述系统包括手势图像预处理模块、分类器设计与训练模块、手势识别模块。

所述手势图像预处理模块包括用于采集手势图像以获取图像序列、对采集到手势图像采用均值滤波方法去除图像噪声，以及将采集到的手势图像从RGB色彩空间转换成YCrCb空间，并建立椭圆模型，进行肤色检测，分割出手势区域并做二值化处理。

所述分类器设计与训练模块用于构建卷积神经网络模型及其参数优化器，并利用训练数据得到一个性能最优的分类器。

所述手势识别模块用于根据识别队列中的手势信息，分别执行手势静态识别和手势动态识别。

本发明具体的方案流程图如图1所示，首先通过普通的彩色摄像头的采集待检测的手势图像，然后采用均值滤波器对手势图像做均值滤波，降低噪声对识别效果的影响，接着将采集图像从RGB颜色空间转换到YCrCb空间，并采用椭圆模型做肤色检测，分割出手势区域并做二值化处理。随后做手势分类器的设计与训练，先将手势图像组成可用于训练的格式，然后设计卷积神经网络模型的结构，利用训练数据调整模型中的参数，确定一个效果最优的卷积神经网络模型结构和参数。最后，将手势位置，长宽大小以及手势类别更新到手势信息队列中，根据队列信息做静态手势识别和动态手势识别。

本发明一共包含三大模块：手势图像预处理模块，分类器设计与训练模块以及手势识别模块。首先通过手势预处理模块组织好训练数据，然后通过分类器设计与训练模块训练出一个最优的卷积神经网络模型，最后通过手势识别模块识别出静态手势或者动态手势。

在手势图像预处理模块中，首先通过普通的彩色摄像头采集手势图像，然后采用均值滤波器做降噪处理。

设图像上像素点(i,j)处的红、绿、蓝三个分量的像素值分别为R、G、B,经均值滤波器滤波后，点(i,j)的R分量像素值被以该点为中心，W₁×W₁领域内的其他点的R分量像素值的平均值所替代。选取的W₁×W₁个像素为：

R(i-(W₁-1)/2,j-(W₁-1)/2),R(i-(W₁-1)/2+1,j-(W₁-1)/2+1),..,R(i+(W₁-1)/2,j+(W₁-1)/2)

G(i-(W₁-1)/2,j-(W₁-1)/2),G(i-(W₁-1)/2+1,j-(W₁-1)/2+1),..,G(i+(W₁-1)/2,j+(W₁-1)/2)

B(i-(W₁-1)/2,j-(W₁-1)/2),B(i-(W₁-1)/2+1,j-(W₁-1)/2+1),..,B(i+(W₁-1)/2,j+(W₁-1)/2)

G分量、B分量处理过程与R分量类似。

优选的，W₁选取值为3。

接着将滤波后的手势图像从RGB色彩空间转换到YCrCb色彩空间，具体的，设图像上像素点(i,j)处红，绿，蓝三个分量的值分别为R、G、B，则转换到YCrCb色彩空间的过程是：

结合图2、图3，，随后，提取C_r、C_b两个分量作为肤色检测的特征量，建立肤色检测的椭圆模型，数学表达如下：

其中，

将(C_r，C_b)带入公式中，若计算结果小于等于1，标记该像素点为手部区域，若计算结果大于1则标记该像素到点为非手部区域，然后利用连通域标记法分割出手势区域。

对手势区域二值化处理过程如下：根据连通域标记结果，将手部区域像素值置1，非手势区域像素值置0，得到仅包含手势区域的二值化图像。

结合图4，在分类器设计与训练模块中，将包含手势区域的二值图像进行神经网络模型学习：建立含有多个隐含层的卷积神经网络模型，将含有手势区域的二值图像输入到神经网络模型中，进行逐层训练和微调，得到整个神经网络模型的权重和偏移参数。

结合图5，将二值图像输入到神经网络时，需要将数据处理成固定大小，以满足卷积网络输入层的输入要求：

1.利用最近邻插值法，调整输入图像的尺寸大小，重复或丢弃部分像素，将图像尺寸调整为D×D(优选的，D选取值为28)。

2.在一个训练周期中同时向神经网络中送入N张图像(优选的，N取值为32)，即神经网络的输入层的数据输入维度为D×D×N。

为了提高神经网络模型的泛化能力，对采集到的手势样本做扩展，包括对图像的裁剪，翻转，旋转。

神经网络模型结构包括：两个卷积层，两个全连接层，且每个卷积层都有卷积，激活函数，池化三个操作。卷积的过程是:设定卷积核的尺寸为H×H,设点(i,j)处卷积核的值为h(i,j)，则图像上点(u,v)处，经卷积操作后结果为g(u,v)＝∑I(v-i，u-j)×H(i,j)，再加上偏移量，则为g(u,v)＝∑I(v-i，u-j)×H(i,j)+b。

激活函数选用ReLU函数，即f(x)＝max(0,x),其中x为自变量，若x小于等于0则f(x)＝0,若x大于0，则f(x)＝x。则经卷积后，点(u，v)处的激活值为f(g(u,v))＝max(0,∑I(v-i，u-j)×H(i,j)+b)。

在一些例子中，网络的输出层是一个softmax层。

对神经网络模型的参数训练设计优化器：

(1)选用交叉熵函数作为损失函数。

(2)选用随机梯度下降法作为收敛方法。

(3)设置学习率为A％，优选的，A＝0.01。

(4)设置第一个全连接层概率为B％的随机失活函数，防止模型过拟合。

在识别过程中,将包含手势的二值图像输入神经网络，在输出层取输出最高的类别作为分类结果。

在手势识别模块中，为了识别的稳定性，需创建手势信息结构体H＝{local,width

,height,hType},其中local表示当前手势区域的中心坐标，width和height表示手势区域的宽和高，hType表示手势的类别。

记第i帧的识别结果为h_i，在第i帧神经网络模型识别完成后，将识别结果h_i加入到手势信息队列QH中，队列长度为n，即QH＝{h₀,h₁,…,h_n-1}，优选的，n＝15。

在动静态手势判定过程中，首先判定静态手势，然后判定动态手势。

在判定静态手势过程中，将最近k帧的结果作为判定依据，具体判定过程如下：

步骤A：计算队列中两两手势间的距离Dis_ij：

Dis_ij＝‖h_i.local-h_j.local‖²

获取所述k帧识别结果中两两手势间的最大距离MaxDis:

MaxDis＝Max{Dis_n-k,n-k+1,Dis_n-k,n-k+2,…,Dis_i,j,…,Dis_n-2,n-1}

其中，i∈[n-k,n-1],j∈[n-k,n-1]。

步骤B：计算队列中各手势类别出现的次数，获取次数最多的类别hType以及其次数c，如果所述k帧识别结果满足下述公式，则判定所述k帧识别结果满足类别约束，否则判定所述k帧识别结果不满足类别约束：

其中，TypeThreshold为类别阈值。

如果所述k帧识别结果同时满足距离约束和类型约束，则判定当前帧手势为静态手势，且手势结果为hType。

在动态手势判定过程中，利用整个队列信息作为判定依据，具体判定过程如下：

步骤a,从队尾开始搜寻队列QH中第一个存在手势目标帧的索引L,作为起始帧，从L帧开始，向队头搜索存在手势目标的帧，得到队列QH的子队列，记为QHSub：

QHSub＝{h_L,h_L+1,…,h_L+m-1}

其中，m为队列长度。

步骤b，当m>num_Threshold时，其中，num_Threshold为预先设定的长度阈值，在X方向上计算每一帧与第L帧的距离DisX_i,L：

DisX_i,L＝‖h_i.local.x-h_L.local.x‖²

其中，i∈[L+1,L+m-1]。

取最大距离MaxX，MaxX＝max{DisX_L+1,L,DisX_L+2,L,…,DisX_L+m-1,L}。

在Y方向上计算每一帧与第L帧的距离DisY_i,L：

DisY_i,L＝‖h_i.local.y-h_L.local.y‖²

其中，i∈[L+1,L+m-1]。

取最大距离MaxY＝max{DisY_L+1,L,DisY_L+2,L,…,DisY_L+m-1,L}。

以上本发明的技术方案，与现有相比，其显著的有益效果在于，本发明提出的方法具有很高的识别率，特别是在静态手势识别情况下，采用卷积神经网络模型提取特征，可以学习到高层次的手势特征，从而具备高达98.5％的识别能力。由于采用了基于椭圆模型的肤色检测算法，本发明可以从图像视野中分割出手势区域，大大提高了手势识别的应用场景。实验表明，本发明提出的手势识别方法简单，识别率高，识别效果稳定。

应当理解，前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。另外，所要求保护的主题的所有组合都被视为本公开的发明主题的一部分。

结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见，或通过根据本发明教导的具体实施方式的实践中得知。

附图说明

附图不意在按比例绘制。在附图中，在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见，在每个图中，并非每个组成部分均被标记。现在，将通过例子并参考附图来描述本发明的各个方面的实施例，其中：

图1是本发明的动静态手势识别方法的流程图。

图2是本发明的椭圆模型二值查询图。

图3是本发明的手势区域分割及二值化结果图。

图4是本发明的卷积神经网络训练数据结构图。

图5是本发明的卷积神经网络模型结构图。

图6是本发明的手势信息队列示意图。

图7是本发明的具体实施例二中10种静态手势的示意图。

图8是本发明的具体实施例二中4种动态手势的示意图。

图9是本发明的动静态手势识别系统的示意图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

具体实施例一

第1步：通过普通摄像头采集手势图片。

第2步：通过均值滤波方法，分别对图像的三个通道RGB做降噪处理。

第3步：将手势图像从RGB色彩空间转换到YCrCb色彩空间。

第4步：采用椭圆模型肤色检测方法，根据公式做成二值查询图，如图2所示，图中像素值为255表示为肤色像素点，像素值为0表示非肤色像素点。设手势图像像素点P(i,j)处，C_r，C_b的值分别为C_rp，C_bp,则若在图二中点(C_rp，C_bp)处像素值为255，则标记P点为肤色区域，否则标记为非肤色区域。

第5步：根据标记做连通域分析，提取最大面积的轮廓作为手势轮廓，并计算其最大外接矩形，分割出手势区域，将肤色区域像素值标记为1，非肤色区域像素值标记为0，得到手势的二值化图像。手势分割过程如图3所示。

第6步：将手势区域的中心点(手势轮廓的最大外接矩形)local(x,y)，宽width，高height作为手势信息h_i更新到手势信息队列QH＝{h₀,h₁,…,h_n-1}中，队列的长度为15。

第7步：设计了10中静态手势和4动态手势。其中静态手势包含的有0,1,2,3,4,5,6,7,8,9，如图6所示，动态手势包含的有，向左滑动，向右滑动，向上滑动和向下滑动，如图7所示。

第8步：根根步骤1～步骤5的方法，每个静态手势采集100张样本图片，共计1000张样本图片，进行数据扩展方法如下：

以图像中心为旋转原点，将图像旋转-30°，-15°，15°，30°。

将图像做水平和垂直方向上的镜面翻转。

第9步：采用最近邻插值法，将样本图片调整到大小为28×28尺寸，并将样本图片构造成立方体的形式，如图4所示。

第10步：设计卷积神经网络结构及其参数：

(1)网络结构

实验发现，随着网络模型层数的增加，其学习能力也越来越强，但对计算设备的性能要求也越来越高，通过实验，本发明的网络模型结构确定如表1。

表1

(2)学习率

设定学习率大小为0.0001。

(3)节点失活概率

为了防止网络过拟合，导致模型的泛化能力弱，在全连接阶段，随机地的从网络中去除一些节点，设置该概率值为0.5。

(4)参数初始值

设置个卷积核的初始值为随机值，偏置值为0.1。

(5)训练次数

由于输入的数据量较大，为了训练出一个性能较好的模型，将训练次数设置为1000次。

第11步：保存训练好的模型结构及其参数。

第12步：将第5步得到的二值图像调整大小后送入卷积神经网络模型，得到手势的的类别hType，并将结果更新到手势信息队列中。

第13步：根据手势信息队列中最近8帧信息做静态手势判定。过程如下：

1)计算队列中两两手势间的距离：

Dis_ij＝‖h_i.local-h_j.local‖²

若MaxDis＝Max{Dis_7,8,Dis_7,9,…,Dis_i,j,…,Dis_13,14}，其中，i∈[7,14],j∈[7,14]。

设距离阈值DisThreshold＝30，且有MaxDis小于等于预先设定的距离阈值DisThreshold，则满足距离约束。

2)计算队列中各手势类别出现的次数，得到次数最多的类别hType，其次数为c。设类别阈值为TypeThreshold＝0.7，若则满足类别约束。

若同时满足距离约束和类别约束，则判定该帧手势为静态手势，手势类别为hType，否则转入动态手势判定。

第14步：根据手势队列中15帧信息做动态手势判定。过程如下：

从队尾开始搜寻队列QH中第一个存在手势目标帧的索引L,作为起始帧，从L帧开始，向队头搜索存在手势目标的帧，得到队列QH的子队列，记为QHSub，QHSub＝

{h_L,h_L+1,…,h_L+m-1}，队列长度为m。

当m>num_Threshold时，其中，num_Threshold为预先设定的长度阈值，此处的num_Threshold＝5，即m>5时，在X方向上计算每一帧与第L帧的距离DisX_i,L＝‖h_i.local.x-h_L.local.x‖²，取最大距离MaxX＝max{DisX_L+1,L,DisX_L+2,L,…,DisX_L+m-1,L}，设水平移动阈值为threshold_dis_x＝300，若MaxX≥threshold_dis_x，则判定当前手势为相对于起始点位置的水平方向上的动态手势，具体的，如果h_L+m-1.x-h_L.x<0，判定动态手势为向左滑动，如果h_L+m-1.x-h_L.x>0，判定动态手势为向右滑动。

在Y方向上计算每一帧与第L帧的距离DisY_i,L：

DisY_i,L＝‖h_i.local.y-h_L.local.y‖²

取最大距离MaxY＝max{DisY_L+1,L,DisY_L+2,L,…,DisY_L+m-1,L}。

如果MaxY≥threshold_dis_y，其中，threshold_dis_y为Y方向上的垂直移动阈值,假设threshold_dis_y＝250,即MaxY≥250时，则判定当前手势为相对于起始点位置的垂直方向上的动态手势，具体的，如果h_L+m-1.y-h_L.y<0，判定动态手势为向上滑动，如果

h_L+m-1.y-h_L.y>0，判定动态手势为向下滑动。

具体实施例二

本发明分别在10个静态手势和4个动态手势上做出识别实验，其中静态手势每组200例，动态手势每组40例，详细的识别效果见表2和表3。

表2静态手势识别率统计表

手势	测试数	正确数	识别率
				0	200	200	100％
1	200	199	99.5％
				2	200	198	99％
3	200	198	99％
				4	200	197	98.5％
5	200	199	99.5％
				6	200	197	98.5％
7	200	199	99.5％
				8	200	200	100％
9	200	197	98.5％

表3动态手势识别率统计表

手势	测试数	正确数	识别率
				向左滑动	50	49	98％
向右滑动	50	50	100％
				向上滑动	50	50	100％
向下滑动	50	49	98％

结合表2和表3的实验结果可以看出，本发明提出的方法具有很高的识别率，特别是在静态手势识别情况下，采用卷积神经网络模型提取特征，可以学习到高层次的手势特征，从而具备高达98.5％的识别能力。由于采用了基于椭圆模型的肤色检测算法，本发明可以从图像视野中分割出手势区域，大大提高了手势识别的应用场景。实验表明，本发明提出的手势识别方法简单，识别率高，识别效果稳定。

在本公开中参照附图来描述本发明的各方面，附图中示出了许多说明的实施例。本公开的实施例不必定义在包括本发明的所有方面。应当理解，上面介绍的多种构思和实施例，以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施，这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种动静态手势识别方法，其特征在于，所述方法包括：

S1：采集手势图像以获取图像序列；

S2：对采集到手势图像采用均值滤波方法去除图像噪声；

S3：将采集到的手势图像从RGB色彩空间转换成YCrCb空间，并建立椭圆模型，进行肤色检测，分割出手势区域并做二值化处理；

S4：构建卷积神经网络模型及其参数优化器，并利用训练数据得到一个性能最优的分类器；

S6：根据识别队列中的手势信息，执行手势动态识别；

S7：结束流程。

2.根据权利要求1所述的动静态手势识别方法，其特征在于，步骤S2中，所述对采集到手势图像采用均值滤波方法去除图像噪声的方法还包括：

S21：设手势图像上的其中一个像素点的红色、绿色、蓝色三个分量的像素值分别为R、G、B；

S22：将所述像素点的红色分量的像素值替换成以该像素点为中心、W₁×W₁范围内的其他点的红色分量的像素值的平均值，将所述像素点的绿色分量的像素值替换成以该像素点为中心、W₁×W₁范围内的其他点的绿色分量的像素值的平均值，将所述像素点的蓝色分量的像素值替换成以该像素点为中心、W₁×W₁范围内的其他点的蓝色分量的像素值的平均值；

3.根据权利要求1所述的动静态手势识别方法，其特征在于，步骤S3中，将采集到的手势图像从RGB色彩空间转换成YCrCb空间，并建立椭圆模型，进行肤色检测，分割出手势区域并做二值化处理的方法包括：

其中，

S33：将手势图像上的每个像素点的(C_r，C_b)代入椭圆模型进行计算，将计算结果小于等于1的像素点标记为手部区域，将计算结果大于1的像素点标记为非手部区域，然后利用连通域标记法分割出手势区域；

4.根据权利要求1所述的动静态手势识别方法，其特征在于，步骤S4中，构建卷积神经网络模型及其参数优化器，并利用训练数据得到一个性能最优的分类器的方法包括：

5.根据权利要求1或者4所述的动静态手势识别方法，其特征在于，所述方法还包括：

6.根据权利要求1至4任意一项中所述的动静态手势识别方法，其特征在于，步骤S5中，根据识别队列中的手势信息，执行手势静态识别的方法包括：

S51：创建手势信息结构体H＝{local,width,height,hType},其中local表示当前手势区域的中心坐标，width和height表示手势区域的宽和高，hType表示手势的类别；

S52：创建手势信息队列QH；

S53：记第i帧的识别结果为h_i，在第i帧神经网络模型识别完成后，将识别结果h_i加入到手势信息队列QH中，队列长度为n，即QH＝{h₀,h₁,…,h_n-1}；

7.根据权利要求6所述的动静态手势识别方法，其特征在于，步骤S54中，调取手势信息队列中最新的k帧识别结果，以执行手势静态识别的方法包括：

S541：计算队列中两两手势间的距离Dis_ij：

Dis_ij＝‖h_i.local-h_j.local‖²

其中，h_i.local代表第i个手势的坐标，h_j.local代表第j个手势的坐标；

获取所述k帧识别结果中两两手势间的最大距离MaxDis:

MaxDis＝Max{Dis_n-k,n-k+1,Dis_n-k,n-k+2,…,Dis_i,j,…,Dis_n-2,n-1}

其中，i∈[n-k,n-1],j∈[n-k,n-1]；

如果最大距离MaxDis小于等于预先设定的距离阈值DisThreshold，则判定所述k帧识别结果满足距离约束，否则判定所述k帧识别结果不满足距离约束；

S541：计算队列中各手势类别出现的次数，获取次数最多的类别hType以及其次数c，如果所述k帧识别结果满足下述公式，则判定所述k帧识别结果满足类别约束，否则判定所述k帧识别结果不满足类别约束：

其中，TypeThreshold为类别阈值；

8.根据权利要求1至4任意一项中所述的动静态手势识别方法，其特征在于，步骤S6中，根据识别队列中的手势信息，执行手势动态识别的方法包括：

S61：创建手势信息结构体H＝{local,width,height,hType},其中local表示当前手势区域的中心坐标，width和height表示手势区域的宽和高，hType表示手势的类别；

S62：创建手势信息队列QH；

S63：记第i帧的识别结果为h_i，在第i帧神经网络模型识别完成后，将识别结果h_i加入到手势信息队列QH中，队列长度为n，即QH＝{h₀,h₁,…,h_n-1}；

9.根据权利要求8所述的动静态手势识别方法，其特征在于，步骤S64中，所述调取手势信息队列中所有帧的识别结果，以执行手势动态识别的方法包括：

QHSub＝{h_L,h_L+1,…,h_L+m-1}

其中，m为队列长度；

DisX_i,L＝‖h_i.local.x-h_L.local.x‖²

其中，i∈[L+1,L+m-1]；

取最大距离MaxX，MaxX＝max{DisX_L+1,L,DisX_L+2,L,…,DisX_L+m-1,L}；

如果MaxX≥threshold_dis_x，其中,threshold_dis_x为X方向上的水平移动阈值，则判定当前手势为相对于起始点位置的水平方向上的动态手势，具体的，如果h_L+m-1.x-h_L.x<0，判定动态手势为向左滑动，如果h_L+m-1.x-h_L.x>0，判定动态手势为向右滑动；

在Y方向上计算每一帧与第L帧的距离DisY_i,L：

DisY_i,L＝‖h_i.local.y-h_L.local.y‖²

其中，i∈[L+1,L+m-1]；

取最大距离MaxY＝max{DisY_L+1,L,DisY_L+2,L,…,DisY_L+m-1,L}；

如果MaxY≥threshold_dis_y，其中，threshold_dis_y为Y方向上的垂直移动阈值，则判定当前手势为相对于起始点位置的垂直方向上的动态手势，具体的，如果h_L+m-1.y-h_L.y<0，判定动态手势为向上滑动，如果h_L+m-1.y-h_L.y>0，判定动态手势为向下滑动。

10.一种动静态手势识别系统，其特征在于，所述系统包括手势图像预处理模块、分类器设计与训练模块、手势识别模块；

所述手势图像预处理模块包括用于采集手势图像以获取图像序列、对采集到手势图像采用均值滤波方法去除图像噪声，以及将采集到的手势图像从RGB色彩空间转换成YCrCb空间，并建立椭圆模型，进行肤色检测，分割出手势区域并做二值化处理；

所述分类器设计与训练模块用于构建卷积神经网络模型及其参数优化器，并利用训练数据得到一个性能最优的分类器；