CN109948498A

CN109948498A - 一种基于3d卷积神经网络算法的动态手势识别方法

Info

Publication number: CN109948498A
Application number: CN201910186468.7A
Authority: CN
Inventors: 谢斌; 宋迪; 喻仲斌
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2019-06-28

Abstract

首次提出了一种基于3D卷积神经网络的算法进行动态手势识别。基于3D卷积神经网络的动态手势别与传统动态手势识别方法相比，不需要人为提取手势特征，通过3D卷积神经网络，自动提取手势特征；3D卷积神经网络与常见的2D卷积神经网络最大的不同在于3D卷积神经网络采用3D卷积核和3D池化窗口，这样卷积神经网络进行卷积操作不仅可以提取空间特征，而且可以提取时间特征；此发明能够利用卷积层自动学习手势特征，克服了人工提取特征的弊端以及常见卷积神经网络提取特征不够精细全面及稳定性欠佳等缺点，相比之下识别精度更高，训练时间相当；且此方法灵活性强，适用性广。

Description

一种基于3D卷积神经网络算法的动态手势识别方法

技术领域

本发明属于运用深度学习进行图像处理的技术领域，涉及本文提出了一种基于3D卷积神经网络的算法进行动态手势识别。

背景技术

随着计算机技术、通讯技术、硬件设备等的飞速发展，人机交互已经在生活中越来越频繁，人类非语言沟通(手势，身体姿势和面部表情的沟通)占人类所有沟通的三分之二。并且手势具有自然、直观、易学等优点，成为了研究的热点。将手势识别应用人机交互如：智能电视的操控，车载多媒体交互等上时，都需要用到动态手势识别。

与静态手势相比，动态手势的识别需要同时结合时间信息和空间信息，这使得动态手势识别难度更大。动态手势识别的过程本质上讲就是识别手在空间中的运动信息。传统的动态手势识别方法依赖于手势特征的选取，大部分动态手势识别是利用手在空间中的运动轨迹作为特征来实现动态手势的识别。下面我们将分析常用的几种传统动态手势识别方法的优劣。

隐马尔科夫模型是一种统计模型，创立于20世纪，并在语音识别领域、模式识别领域取得了许多重要的成果。基于隐马尔科夫模型的动态手势识别方法是把手形及运动轨迹作为手势识别的特征进行识别。通过对人手轮廓的跟踪，获得手部形状和多自由度(手心空间坐标(x,y,z)以及欧式位姿(alpha，beta，theta))的手势的运动轨迹，这样就实现了对视频中手势特征的提取。将提取的动态手势特征作为隐马尔科夫模型的观察值序列，并作为训练好的隐马尔科夫模型的输入值，通过前向算法求出最大似然值，然后输出识别的手势。基于隐马尔科夫模型的动态手势识别将每一种手势对应一个隐马尔科夫模型，其优点是对复杂的手势动作识别精度较高，新增手势时容易添加或修改手势库。但是随着手势数量的增多，隐马尔科夫模型越来越复杂，训练难度越来越大。

基于压缩时间轴的动态手势识别方法，首先将手从各帧图像中分割出来，然后将这一系列的图像进行归一化处理，形成一张静态的图片。然后通过静态手势识别的方法进行动态手势的识别。这种手势识别的好处是能够很好的识别手型不同的手势，但是由于丢失了很多手势的空间特征，这导致这种手势识别的方法对空间变化复杂的手势识别率很低。

动态时间规整算法本质上是一种模板匹配算法。由于在动态手势识别的过程中每一个手势的时间序列长度都不一样，所以在计算测试模板和参考模板的相似性的时候采用动态时间规整算法克服手势时间序列长度不一致的情况。动态时间规整算法将手势运动轨迹作为动态手势特征，通过计算测试样本与参考样本之间的欧式距离实现对动态手势的识别。与基于隐马尔科夫模型的动态手势识别相比动态时间规整算法实现简单，计算量较小，但是基于动态时间规整的手势识别算法对复杂手势识别率较低。

随着卷积神经网络的发展，卷积神经网络从最开始的单纯的对图片分类发展出了对视频的处理的能力。本发明首次提出基于3D卷积神经网络的算法进行动态手势识别方法，利用卷积层自动学习手势特征，克服了人工提取特征的弊端的同时又更加准确的表示了图像。此种动态手势识别方法尚未见相关文献报道。

发明内容

本发明要解决的问题是：现有基于图像处理的手势识别技术存在不足，如受外界环境影响大、人工提取手势特征繁琐、提取特征不够精细及稳定性欠佳等。因此本章将从卷积神经网络对视频分类处理上着手，并结合动态手势识别的特点，提出一种双卷积神经网络的动态手势识别方法。

本发明的技术方案为：首先对于动态数据进行采集与预处理，数据分为训练数据与测试数据；在获得了数据之后进行实验测试环境的搭建，分为硬件与软件的搭建，硬件环境是采用Nvidia的GTX1060显卡和Intel的6代i7处理器，软件环境采用的Ubuntu16.04系统和伯克利视觉和学习中心(BVLC)开发的Caffe框架；其次进行3D神经网络的结构设计；然后把经过标记的训练数据放入此网络结构中进行学习；最后输入测试数据样本进行测试，得出最后的动态识别精度；具体过程如下：

步骤1：动态手势样本采集，本方法采用的数据集是VIVA(Vision forIntelligent Vehicles and Applications)数据集；VIVA数据集考虑了与驾驶员，乘员，车辆动力学和车辆周围环境以及交通基础设施相关的参数的感测，分析，建模和预测中的问题；这个数据集包含19个动态手势，2920个动态手势视频片段，包含彩色视频信息和深度信息。VIVA手势数据集是在变化的照明条件下收集的数；。VIVA动态手势集部分数据如图(2)所示；由于数据量不足，采用虚拟样本生成方法是对已有样本集进行几何变换，加入噪声对数据集进行扩充；

步骤2：数据预处理，在VIVA手势数据集中，不同的手势视频有不同的长度，本发明输入采用的是32帧长度的视频，需要对数据进行预处理，使得数据长度符合神经网络的输入要求；通过使用最近邻域法丢弃或重复帧使得每个手势的视频长度都为32帧；

步骤3：搭建测试实验环境，在拥有了数据的基础上，硬件环境是采用Nvidia的GTX1060显卡和Intel的6代i7处理器，GTX1060显卡具有6.1的算力、6G显存容量，能够为深度卷积神经网络提供强大的计算能力；软件环境采用的Ubuntu16.04系统和伯克利视觉和学习中心(BVLC)开发的Caffe框架；Ubuntu16.04是基于Debian发行版和GNOME桌面环境开发的一款Linux操作系统，具有友好的交互界面和良好的稳定性；Caffe框架是目前最流行的深度学习框架，Caffe框架具有灵活的框架结构与良好的性能；

步骤4：3D卷积神经网络的设计；

2D卷积神经网络作用在单帧图像上输出单张图，因此2D卷积神经网络进行卷积运算之后就丢失输入信号的时间信息；同样，2D池化也和2D卷积一样，也会丢失时间信息；2D卷积神经网络作用在多帧也是输出单张图片，因此在进行第一次卷积之后时间信息也会丢失；只有3D卷积神经网络保留了输入视频中的时间信息；本发明采用采用的缓慢融合网络结构，将视频帧分成三份，分别转换成3维矩阵输入到卷积神经网络中进行操作；与早期融合网络结构和晚期融合结构相比，采用缓慢融合网络结构能够充分的提取时空特征，对时空信息的利用率大大提升，最终设计的卷积神经网络结构如图(3)所示，Conv表示卷积层，FC表示全连接层，softmax层的输出结果表示为一个一维向量P，P计算公式如下：

j代表第j个输出神经元；z代表softmax层的加权输入；q代表神经元数量；

步骤5：对数据样本进行训练，卷积神经网络的训练其实是通过优化卷积神经网络的参数使得代价函数值越来越小；代价函数采用log-likelihood函数：

n代表数据集大小，Pi表示分类器的输出值；通过随机梯度下降方法对参数进行更新，并通过Nesterov加速梯度法对随机梯度进行优化；随机梯度下降法在深度学习中得到广泛的运用，与批量梯度下降法相比，随机梯度下降法收敛速度更快，而且不容易陷入局部最小值；但是随机梯度也存在难点，就是学习率的设定，当学习率设置太小，会导致收敛速度太慢；当学习率设置过大容易出现代价函数震荡，甚至发散的情况；通过引入Nesterov加速梯度法对随机梯度下降法进行优化，Nesterov加速梯度法引入一个动量参数vi来使随机梯度加速前进，减少在极小值附近的震荡；参数跟新具体实现如下：

w表示参数；vi表示动量参；γ表示常数，取0.9；L是代价函数；λ表示学习率；n表示随机梯度法中mini-batches样本数量，本发明设置的mini-batches大小为50；

Dropout层中Bernoulli(p)函数中参数p我们设定为0.5；dropout层参数在反向传播中没有激活的神经元不参与参数的更新；

步骤6：对测试样本进行测试，把测试样本放入多尺度卷积神经网络结构中进行测试；

步骤7：得出识别精度，完成测试之后软件算出最后的动态手势识别精度。

本发明具有以下优点：

1.首次提出一种3D卷积神经网络的动态手势识别方法，使得能够利用卷积层自动学习手势特征，克服了人工提取特征的弊端；

2.识别精度高于普通识别方法，克服了提取特征不够精细全面及稳定性欠佳等缺点，同时网络训练所需的时间并没有大幅度增加；

附图说明

图1为本发明方法流程图；

图2为动态手势数据部分集示意图；

图3为本发明的卷积网络结构示意图；

具体实施方式

实施例1首先对动态手势数据集进行采集与预处理，数据分为训练数据与测试数据；在获得了数据之后进行实验测试环境的搭建，分为硬件与软件的搭建，硬件环境是采用Nvidia的GTX1060显卡和Intel的6代i7处理器，软件环境采用的Ubuntu16.04系统和伯克利视觉和学习中心(BVLC)开发的Caffe框架；其次进行3D卷积神经网络的设计；然后把训练数据放入此网络结构中进行学习；最后输入测试数据样本进行测试，得出最后的动态手势识别精度；本发明方法流程图如图(1)所示；具体过程如下：

步骤1：动态手势样本采集，本方法采用VIVA手势数据集并进行了扩充；这个数据集包含19个动态手势，2920个动态手势视频片段，扩充后的手势集训练样本数量达到了19*300个，测试样本集19*80个；

步骤2：图像预处理，，本发明输入采用的是32帧长度的视频，需要对数据进行预处理，使得数据长度符合神经网络的输入要求；通过使用最近邻域法丢弃或重复帧使得每个手势的视频长度都为32帧；

步骤3：搭建测试实验环境，在拥有了数据的基础上，硬件环境是采用Nvidia的GTX1060显卡和Intel的6代i7处理器，软件环境采用的Ubuntu16.04系统和伯克利视觉和学习中心(BVLC)开发的Caffe框架；

步骤4：3D卷积神经网络的设计；

3D卷积神经网络结构时间信息融合采用缓慢融合方式，先用三个卷积层对视频进行一次卷积操作，然后合并输入下一个卷积层，合并之后再经过四个卷积层和两个全连接层，最后输入Softmax层进行分类识别；在图(3)中的的卷积层包含卷积操作和池化两个操作。第一个卷积层的卷积核大小都为3×3×3，都只有一个卷积核，采用均值池化方法，池化窗口大小为2×2×2,；第二个卷积层的卷积核大小是3×3×2，一共有4个核和池化窗口大小是2×2×2，采用均值池化方法；第三个卷积层的卷积核大小是5×5×3，一共有8个核和池化窗口大小是2×2×2，采用均值池化方法；第四个卷积层的卷积核大小是5×5×3，一共有32个核和池化窗口大小是1×2×1，采用均值池化方法；第五个卷积层的卷积核大小是3×5×3，一共有64个核和池化窗口大小是2×2×1，采用均值池化方法；经过两个全连接网络，再将结果输入到softmax层；

步骤5：对数据样本进行训练；训练样本数据量为19*300，每个手势分别包含300个样本；

步骤6：对测试样本进行测试，把测试样本放入3D卷积神经网络结构中进行测试；共19*80个，进行批量测试；

步骤7：得出识别精度，我们定义了19个手势，每个手势输入80个测试样本进行测试，各手势识别情况如下表1所示：

表1各手势识别表

上表1-19分别代表19种手势，从上面各手势的识别结果可以看出，识别率最高的手势是握拳、缩小和放大动作，手势识别率最低的手势是上挥、下挥、画V、画叉和画加号；识别率低的手势与手势识别率高的手势相比，最大的不同在于空间运动更复杂，并且手势之间存在很大的相似性如画加号和画叉；由于VIVA数据集采集的动态手势视频完全是在车载环境中采集的，环境光变化很大，这就导致基于3D卷积神经网的手势识别精度只有80％左右；如果扩充数据集增加网络的层数，卷积神经网络能够学习更深层手势特征，手势识别精度将会更高。

Claims

1.一种基于3D卷积神经网络的算法进行动态手势识别方法，其特征在于，包括：

利用卷积层自动学习手势特征，克服了人工提取特征的弊端的同时又更加准确的表示了图像。

2.根据权利要求1所述的方法，其特征在于，所述动态手势识别方法的方案步骤包括：

1)对于动态手势数据进行采集与预处理，数据分为训练数据与测试数据；

2)在获得了数据之后进行实验测试环境的搭建，分为硬件与软件的搭建；

3)其次进行基于3D卷积神经网络的设计，即：确定神经网络层数，选择合适的尺度特征，避免过拟合；

4)然后把经过标记的训练数据放入此网络结构中进行学习；

5)最后输入测试数据样本进行测试；

6)得出最后的动态手势识别精度。

3.根据权利要求2所述的方法，其特征在于，所述手势样本采集包括：

采用VIVA动态手势数据集并进行了扩充；该手势集定义了19个手势。

4.根据权利要求2所述的方法，其特征在于，所述图像预处理包括：

数据预处理，在VIVA手势数据集中，不同的手势视频有不同的长度，本发明输入采用的是32帧长度的视频，需要对数据进行预处理，使得数据长度符合神经网络的输入要求；通过使用最近邻域法丢弃或重复帧使得每个手势的视频长度都为32帧。

5.根据权利要求2所述的方法，其特征在于，所述测试实验环境的搭建包括：

硬件环境是采用Nvidia的GTX1060显卡和Intel的6代i7处理器，软件环境采用的Ubuntu16.04系统和伯克利视觉和学习中心(BVLC)开发的Caffe框架；Caffe框架具有灵活的框架结构与良好的性能。

6.根据权利要求2所述的方法，其特征在于，所述3D卷积神经网络的设计包括：

1)基于卷积层：卷积神经网络与普通神经网络最大的不同在于卷积神经网络拥有卷积层，能够直接对输入图片进行图像特征提取；在一个卷积层中通常有多个卷积核，每一个卷积核对应输出一张特征图；

2)基于池化层：池化层是对卷积层输出的特征图进行下采样计算，但仍然保留图中最重要的信息；池化的方法有：最大值池化，平均值池化；池化可减少特征图的维度、网络对能存的消耗、神经网络中的参数数量、计算量；图像中平移、失真等影响；

3)基于全连层：全连接层相当于传统的多层感知器；在全连接层中，每个神经元都与前一层的每个神经元相连；输入图像经过多层的卷积、池化操作，再与全连接层相连时已经呈现出高层特征，全连接层使用这些高层特征进行图像分类。

7.根据权利要求6所述的方法，其特征在于，所述多尺度卷积神经网络的设计难点的解点为：

3D卷积神经网络结构时间信息融合采用缓慢融合方式，先用三个卷积层对视频进行一次卷积操作，然后合并输入下一个卷积层，合并之后再经过四个卷积层和两个全连接层，最后输入Softmax层进行分类识别；在图(3)中的的卷积层包含卷积操作和池化两个操作。第一个卷积层的卷积核大小都为3×3×3，都只有一个卷积核，采用均值池化方法，池化窗口大小为2×2×2,；第二个卷积层的卷积核大小是3×3×2，一共有4个核和池化窗口大小是2×2×2，采用均值池化方法；第三个卷积层的卷积核大小是5×5×3，一共有8个核和池化窗口大小是2×2×2，采用均值池化方法；第四个卷积层的卷积核大小是5×5×3，一共有32个核和池化窗口大小是1×2×1，采用均值池化方法；第五个卷积层的卷积核大小是3×5×3，一共有64个核和池化窗口大小是2×2×1，采用均值池化方法；经过两个全连接网络，再将结果输入到softmax层。