CN107590432A

CN107590432A - 一种基于循环三维卷积神经网络的手势识别方法

Info

Publication number: CN107590432A
Application number: CN201710625653.2A
Authority: CN
Inventors: 袁家政; 刘宏哲; 邓智方
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2017-07-27
Filing date: 2017-07-27
Publication date: 2018-01-16

Abstract

本发明提供一种基于循环三维卷积神经网络的手势识别方法，包括数据预处理，还包括以下步骤，循环三维卷积神经网络分类器设计，所述循环三维卷积神经网络分类器预训练，所述循环三维卷积神经网络分类器训练，所述循环三维卷积神经网络分类器优化，输出分类标签，测试所述分类器的分类效果。本发明使得手势识别的效果更为精确，能够对SKIG和ChaLearn2014数据集中的手势进行较为准确的识别，其精确度超过了以往的传统的方法。

Description

一种基于循环三维卷积神经网络的手势识别方法

技术领域

本发明涉及人机智能交互的技术领域，特别是一种基于循环三维卷积神经网络的手势识别方法。

背景技术

手势识别是计算机科学和语言技术中的一个主题，目的是通过数学算法使计算机能够识别人类手势，实现人与计算机之间的有效交流与控制。手势以其直观、自然和易于学习的人机交互的优势和不需要专门的硬件配合的情况下实现智能化的信息交换和处理，受到了越来越多的企业及学者的关注，其中目前应用于无人驾驶以及VR领域中手势识别就是一种简单的手势识别。它是一种通过深度学习技术，能够理解用户的手势，并提供对应应答或指令操作的人工智能系统。

公开号为CN104182772A的专利文件公开了一种基于循环三维卷积神经网络的手势识别方法，，包括以下步骤：对采集到的手势图像进行降噪处理、消除手势图像中的色彩偏移现象；采用帧间差分方法和颜色特征检测方法锁定手势在图像中的所在区域，采用CamShift算法对手势进行跟踪，获取手势目标；对手势目标图像进行深度学习；将获取的待识别手势图像输入训练后的深度信念网络模型中，完成手势的识别分类。该方法对于手势的前期预处理相对较为繁琐，且依然需要对手势部位进行跟踪。

公开号为CN105654037A的专利文件公开了一种基于深度学习和特征图像的肌电信号手势识别方法，首先对采集手势肌电原始信号进行预处理；其次进行特征提取，通过不同尺寸和概率的采样窗口提取出包括时域、时频域的特征，并将这些特征转换成图像；然后将特征图像和其对应的动作标签一起输入到深度神经网络中进行训练，得到网络模型；最后将测试数据和训练得到的网络模型输入深度卷积神经网络中进行预测，得到每段动作所有图像的预测标签，将这些标签按照多数同意规则进行投票，票数最高者为该段动作类别。该申请是基于肌电信号来进行手势识别的，由于集群结构的复杂性，肌电信号的个体差异电极位置等影响，其分类难度很大。

发明内容

为了解决上述的技术问题，本发明提出了一种基于循环三维卷积神经网络的手势识别方法，使得手势识别的效果更为精确，能够对SKIG和ChaLearn2014数据集中的手势进行较为准确的识别，其精确度超过了以往的传统的方法。

本发明提供一种基于循环三维卷积神经网络的手势识别方法，包括数据预处理，还包括以下步骤：

步骤1：循环三维卷积神经网络分类器设计；

步骤2：所述循环三维卷积神经网络分类器预训练；

步骤3：所述循环三维卷积神经网络分类器训练；

步骤4：所述循环三维卷积神经网络分类器优化；

步骤5：输出分类标签，测试所述分类器的分类效果。

优选的是，所述循环三维卷积神经网络分类器由三维卷积神经网络和循环神经网络组成。

在上述任一方案中优选的是，所述数据预处理是指将获取到的数据处理成固定大小的且满足循环三维卷积神经网络输入层输入的规格需求。

在上述任一方案中优选的是，所述数据预处理的步骤如下：

步骤01：对输入的数据进行裁剪，随机裁剪的生成尺寸为A×A；

步骤02：进行数据增强，对每个视频进行随机空间旋转和缩放；

步骤03：对所述视频进行随机时间缩放和抖动；

步骤04：得到满足CNN输入的数据。

在上述任一方案中优选的是，所述随机空间旋转的角度为±B°，缩放±C％。

在上述任一方案中优选的是，所述随机时间缩放±D％，抖动±E帧。

在上述任一方案中优选的是，所述分类器的设计方法包括以下步骤：

步骤11：计算ω类的类条件概率；

步骤12：所述三维卷积神经网络将所述视频片段转换成特征表示f_t；

步骤13：将时空滤波器应用于所述视频片段，计算隐藏状态向量h_t；

步骤14：softmax层将所述隐藏状态向量h_t转换为ω类的类条件概率s_t。

在上述任一方案中优选的是，所述ω类的类条件概率的计算公式为其中为权重矩阵，h_t为隐藏状态向量，b为偏差，

在上述任一方案中优选的是，将所述视频片段转换成所述特征表示f_t的计算公式为其中，视频片段定义为在时间t结束的具有大小为k×l个像素的c个通道的m≥1个连续帧的体积

在上述任一方案中优选的是，所述隐藏状态向量h_t的计算公式为其中，和是权重矩阵，

在上述任一方案中优选的是，所述ω类的类条件概率s_t的转换公式为：其中为权重矩阵，h_t为隐藏状态向量，b为偏差，

在上述任一方案中优选的是，所述步骤2为通过大型Sport-1M人类动作识别数据集训练出的三维卷积神经网络来初始化所述三维卷积神经网络，并微调。

在上述任一方案中优选的是，所述分类器优化的方法包括以下步骤：

步骤41：选择负对数似然函数为损失函数；

步骤42：选择随机梯度下降法作为收敛方法；

步骤43：将权重衰减设为F％，使用概率为N的随机失活函数；

步骤44：输出概率并输出最大概率的手势类别。

在上述任一方案中优选的是，所述负对数似然函数的公式为其中，是由循环3D卷积神经网络预测的给予手势视频的手势标签的概率。

在上述任一方案中优选的是，所述步骤5为输出概率并输出最大概率的手势类别。

在上述任一方案中优选的是，所述输出概率的计算公式为其中为权重矩阵， h_t为隐藏状态向量，b为偏差，

本发明提出的方法具有简单易行、设备成本低廉的优点，是完全基于视觉的手势识别属于非接触手势识别，非接触手势识别更为方便，舒适和自然。

附图说明

图1为按照本发明的基于循环三维卷积神经网络的手势识别方法的一优选实施例的流程图。

图2为按照本发明的基于循环三维卷积神经网络的手势识别方法的数据预处理方法的一优选实施例的流程图。

图3为按照本发明的基于循环三维卷积神经网络的手势识别方法的分类器设计方法的一优选实施例的流程图。

图4为按照本发明的基于循环三维卷积神经网络的手势识别方法的分类器优化方法的一优选实施例的流程图。

图5为按照本发明的基于循环三维卷积神经网络的手势识别方法的整体系统的一优选实施例的构架图。

图6为按照本发明的基于循环三维卷积神经网络的手势识别方法的运用循环三维卷积神经网络进行手势识别的一优选实施例的流程图。

图6a为按照本发明的基于循环三维卷积神经网络的手势识别方法的如图6所示实施例的原始数据图。

图6b为按照本发明的基于循环三维卷积神经网络的手势识别方法的如图6所示实施例的手势裁剪图。

图6c为按照本发明的基于循环三维卷积神经网络的手势识别方法的如图6所示实施例的数据增强图。

图6d为按照本发明的基于循环三维卷积神经网络的手势识别方法的如图6所示实施例的模型分类器图。

图6e为按照本发明的基于循环三维卷积神经网络的手势识别方法的如图6所示实施例的分类结果图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的阐述。

实施例一

如图1所示，执行步骤100，进行数据预处理，用于将获取到的数据处理成固定大小的，满足循环三维卷积神经网络输入层输入的规格需求。如图2所示，顺序执行步骤200和步骤210，对输入数据进行裁剪，随机裁剪生成尺寸为A×A(在本实施例中设定A＝112)。执行步骤220，为了增加训练样本的多样性，需要进行数据增强。对每个视频进行随机空间旋转和缩放，空间旋转的角度为±B°(在本实施例中设定B＝15)，缩放大小为±C％(在本实施例中设定C＝20)。执行步骤230，对每个视频进行随机时间缩放和抖动，缩放大小为±D％(在本实施例中设定D＝20)，抖动幅度为±E帧(在本实施例中设定E＝3)。执行步骤240，得到满足CNN输入规格的数据。

执行步骤110，循环三维卷积神经网络分类器设计，用于将输入数据进行分类，以输出正确的类标签，识别出输入的手势类别。循环三维卷积神经网络分类器由三维卷积神经网络和循环神经网络组成。如图3所示，执行步骤300，根据以下公式可得出ω类的类条件概率：

(其中为权重矩阵，h_t为隐藏状态向量，b为偏差，)。执行步骤310，三维卷积神经网络根据以下公式将每个视频片段转换成特征表示f_t：其中，视频片段定义为在时间t结束的具有大小为k×l个像素的c个通道的m≥1个连续帧的体积执行步骤320，将时空滤波器应用于片段。循环层利用以下公式和先前片段之后的隐藏状态h_t-1以及当前片段的特征表示f_t的函数，计算隐藏状态向量h_t。执行步骤330，softmax层利用以下公式将隐藏状态向量h_t转换为ω类的类条件概率st：其中，和是权重矩阵，

执行步骤120，对循环三维卷积神经网络分类器进行预训练，通过大型Sport-1M人类动作识别数据集训练出的三维卷积神经网络来初始化三维卷积神经网络，并微调。执行步骤130，对分类器进行训练，用于将分类器中的参数进行不断地微调，以达到分类的最佳效果。训练的方法是将输入数据输入分类器，然后输出标签与实际标签对比，计算出损失函数，然后进行调试参数。

执行步骤140，对循环三维卷积神经网络分类器进行优化，用于防止出现过拟合导致分类不准确，从而对网络结构和参数等细节进行微调优化。如图4所示，执行步骤400，选择如以下公式所示的负对数似然函数为损失函数，其中，是由循环3D卷积神经网络预测的给予手势视频的手势标签的概率。执行步骤410，选择随机梯度下降法作为其收敛方法；执行步骤320，为防止过拟合，将权重衰减设为F％，使用概率为N的随机失活函数(在本实施例中设定F＝0.5、N＝0.75).执行步骤430，由于数据集数据较少，采用数据增强方法对数据进行增强。

执行步骤150，输出分类标签，测试循环三维卷积神经网络分类器的分类效果，输出概率并利用以下公式计算概率并输出最大概率的手势类别，其中为权重矩阵，h_t为隐藏状态向量，b为偏差，

实施例二

如图5所示，整体的系统构架有四部分组成：数据输入模块500、数据预处理模块510、循环三维卷积神经网络分类器520和输出类标签530。循环三维卷积神经网络分类器520可以分解为：循环三维卷积神经网络分类器设计子模块521、循环三维卷积神经网络分类器预训练子模块522、循环三维卷积神经网络分类器训练子模块523、循环三维卷积神经网络分类器优化子模块524和测试子模块525。

本实施例提出了一种基于循环三维卷积神经网络的手势识别的方法，包括在数据输入模块500中导入视频数据，在数据预处理模块510进行数据预处理，在循环三维卷积神经网络分类器设计子模块 521进行分类器设计，在循环三维卷积神经网络分类器预训练子模块522中进行分类器预训练，在循环三维卷积神经网络分类器训练子模块523中进行分类器训练，在循环三维卷积神经网络分类器优化子模块524分类器优化，在测试子模块525中生成手势识别结果。数据预处理，用于在训练之前对获得的数据进行处理，以满足循环三维卷积神经网络输入层对数据的需求；循环三维卷积神经网络分类器设计，用于将输入数据进行分类，输出正确的类标签；循环三维卷积神经网络分类器预训练阶段，将参数导入三维卷积神经网络，并微调；循环三维卷积神经网络分类器训练阶段，将循环三维卷积神经网络中的参数不断地进行微调，以达到分类的最佳效果；优化循环三维卷积神经网络分类器，则是为了防止出现过拟合导致分类不准确，从而对网络结构和参数的细节进行微调优化，从而使分类器达到最优效果。

实施例三

如图6所示，执行步骤600，通过摄像头采集图像数据(如图6a所示)。执行步骤620，对采集到的数据进行手势裁剪，去掉多余的部分，分割手势图像(如图6b所示)。将图像分为两个阶段进行处理，分别是循环三维卷积神经网络模型训练阶段和循环三维卷积神经网络模型测试阶段。在循环三维卷积神经网络模型训练阶段中，执行步骤620，运用数据增强的技巧对数据进行增强处理，处理结果如图6c所示。执行步骤630，对数据进行预处理，提取清晰的关键帧。执行步骤640，先对三维卷积神经进行训练，然后再对整体模型训练。如图6d所示，训练的方法是将视频进行裁剪，得到若干张图片，随机裁剪生成尺寸为112×112。将裁剪得到的图片发送到局部时空建模(local spatio-temporal modeling)中，通过3D-CNN(三维卷积神经网络)得到特征表示f_t，特征表示f_t的计算公式为其中，视频片段定义为在时间t结束的具有大小为k×l 个像素的c个通道的m≥1个连续帧的体积将得到的特征表示f_t发送到全局时间建模 (glocal temporalmodeling)中，特征表示f_t与h_t-1在递归神经网络(RNN)融合，得到隐藏状态向量h_t，隐藏状态向量h_t的计算公式为其中，和是权重矩阵，再将隐藏状态向量h_t发送到softmax(siftmax为一个函数，公式为)中，得到ω类的类条件概率s_t，ω类的类条件概率s_t的转换公式为：其中为权重矩阵，h_t为隐藏状态向量，b为偏差，将裁剪得到的图片发送到局部时空建模中，通过3D-CNN得到特征表示f_t+1。将得到的特征表示f_t+1发送到全局时间建模中，特征表示f_t+1与h_t在RNN(递归神经网络)融合，得到h_t+1，再将h_t+1发送到softmax中，得到s_t+1。以此类推，将裁剪得到的图片发送到局部时空建模中，通过3D-CNN得到特征表示f_t+N。将得到的特征表示f_t+N发送到全局时间建模中，特征表示f_t+N与h_t+N-1在RNN(递归神经网络)融合，得到h_t+N，再将h_t+N发送到softmax中，得到s_t+N。将s_t、s_t+1到s_t+N引入到连接时空分类(connectionist temporal classification)中得到手势库训练模型。在循环三维卷积神经网络模型测试阶段中，执行步骤650，分割手部图像之后，对数据进行预处理。执行步骤660，提取清晰的关键帧。执行步骤 670，将提取到的关键帧股送到训练好的模型中进行分类。执行步骤680，与手势库训练的模型进行匹配，找到最相似的手势(如图6e所示)执行步骤690，输出对应手势的语义标签，即手势的对应标签为“耶”和“抓东西”。

为了更好地理解本发明，以上结合本发明的具体实施例做了详细描述，但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改，均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本发明的方法、装置和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种基于循环三维卷积神经网络的手势识别方法，包括数据预处理，还包括以下步骤：

步骤1：循环三维卷积神经网络分类器设计；

步骤2：所述循环三维卷积神经网络分类器预训练；

步骤3：所述循环三维卷积神经网络分类器训练；

步骤4：所述循环三维卷积神经网络分类器优化；

步骤5：输出分类标签，测试所述分类器的分类效果。

2.如权利要求1所述的基于循环三维卷积神经网络的手势识别方法，其特征在于：所述循环三维卷积神经网络分类器由三维卷积神经网络和循环神经网络组成。

3.如权利要求2所述的基于循环三维卷积神经网络的手势识别方法，其特征在于：所述数据预处理是指将获取到的数据处理成固定大小的且满足循环三维卷积神经网络输入层输入的规格需求。

4.如权利要求3所述的基于循环三维卷积神经网络的手势识别方法，其特征在于：所述数据预处理的步骤如下：

步骤03：对所述视频进行随机时间缩放和抖动；

步骤04：得到满足CNN输入的数据。

5.如权利要求4所述的基于循环三维卷积神经网络的手势识别方法，其特征在于：所述随机空间旋转的角度为±B°，缩放±C％。

6.如权利要求4所述的基于循环三维卷积神经网络的手势识别方法，其特征在于：所述随机时间缩放±D％，抖动±E帧。

7.如权利要求2所述的基于循环三维卷积神经网络的手势识别方法，其特征在于：所述分类器的设计方法包括以下步骤：

步骤11：计算ω类的类条件概率；

8.如权利要求7所述的基于循环三维卷积神经网络的手势识别方法，其特征在于：所述ω类的类条件概率的计算公式为其中为权重矩阵，h_t为隐藏状态向量，b为偏差,一个softmax函数为S：

9.如权利要求7所述的基于循环三维卷积神经网络的手势识别方法，其特征在于：将所述视频片段转换成所述特征表示f_t的计算公式为其中，视频片段定义为在时间t结束的具有大小为k×l个像素的c个通道的m≥1个连续帧的体积表示将这个连续帧的切片转换为一个特征表示。而表示转换后的特征的空间表示。

10.如权利要求7所述的基于循环三维卷积神经网络的手势识别方法，其特征在于：所述隐藏状态向量h_t的计算公式为

其中，和是权重矩阵，