CN111860238A

CN111860238A - 一种基于卷积神经网络的动态手势识别方法及系统

Info

Publication number: CN111860238A
Application number: CN202010646082.2A
Authority: CN
Inventors: 李东洁; 赵洪月
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2020-10-30

Abstract

本发明公开了一种基于卷积神经网络的动态手势识别方法及系统，包括：首先选用VIVA数据集，使用光流法对视频的关键帧提取和统计，然后进行样本数据扩增，增扩后样本数量变为原来的六倍，减少了训练网络过程中的过拟合；为提高训练效率，提高识别准确率，本发明构建了基于卷积神经网络的动态手势识别模型，并提出多模态联合训练方法和多向3D训练方法进行网络训练；最后利用训练好的样本模型进行动态手势识别。

Description

一种基于卷积神经网络的动态手势识别方法及系统

技术领域：

本发明涉及计算机视觉和模式识别技术领域，具体涉及一种基于卷积神经网络的动态手势识别方法及系统。

背景技术：

人机交互技术在计算机领域一直以来都是重点研究内容。目前，基于手势识别的人机交互技术广泛应用于各种智能终端中，比如虚拟现实(VR)、增强现实(AR)、智能驾驶系统中以及网络在线教育中。

手势识别的关键技术在于手势动作的跟踪以及手势动作的识别。目前手势识别主要有两种方式，分别是基于数据手套的手势识别和基于视觉的手势识别。基于数据手套的手势识别需要用户必须佩戴智能手套，通过分析、跟踪标记人手的位置以及其运动轨迹来识别动态手势；基于视觉的手势识别通过摄像头来获取静态手势图像或者动态手势视频，然后通过分类算法处理完成手势的分类。

基于数据手套的手势识别方法成本高，穿戴繁琐，价格昂贵，影响了用户在使用手势进行交互时的自然性与舒适性；基于视觉的手势识别方法，对光线的要求较高，而且容易受到背景肤色和类肤色的影响，不能感知动态手势之间连续的变化，识别率低。

为此，提出了一种基于卷积神经网络的动态手势识别方法，该方案在3D卷积神经网络的基础上提出了两种数据扩增的方法、关键帧提取算法、多模态联合训练以及多向3D卷积神经网络的特征提取方法。在VIVA数据集上达到了较高的识别准确率。

发明内容：

本发明所要解决的技术问题是现有的动态手势识别方法的识别率不高的问题。为了解决上述问题，本发明所使用的技术方案是提供一种基于卷积神经网络的动态手势识别方法，包括以下步骤：

1、扩增VIVA数据集

2、构建3D卷积神经网络模型

3、进行卷积神经网络的训练

4、进行手势识别测试

优选的，所述步骤1中扩增数据集，使用VIVA数据集，通过视频时域剪裁和视频镜像翻转的方法增扩数据集，样本数据包含RGB模态和Depth模态，图像分辨率为115×250。手势包括手和手指动作；使用光流法对视频进行关键帧提取。具体采用Horn-Schunck算法计算视频光流。

优选的，所述步骤2中，构建3D卷积神经网络模型，整个网络由4个卷积层、4个池化层、4个BN层外加2个全连接层构成。该网络的结构分成3个子网络部分：从上方提取特征(Top-Net)的网络，从左方提取特征(Left-Net)和从正前方提取特征(Front-Net)，通过串联融合的方法对三个方向提取的特征进行特征融合。

优选的，所述步骤3中进行卷积神经网络的训练，首先利用Xavier方法对卷积神经网络的权重和偏置进行初始化，使得权重和偏置服从

的均匀分布，n_i和n_o分别为该层输入和输出神经元个数。mini_batch的尺寸为32，网络的最大迭代次数为8850，最初学习率设置为0.01。经过3000次迭代后变为0.001，经过5000次迭代后变成0.0001，经过6000次迭代后变成0.00001。然后使用带动量的小批量随机梯度下降算法来优化3D卷积神经网络。

附图说明:

图1是本发明中基于卷积神经网络的搭建训练方法流程图；

图2是本发明中所使用的3D卷积神经网络的结构图示意图；

具体实施方式:

为使本发明的目的、技术方案和优点更加清楚明白，参照附图，对本发明进一步详细说明。

步骤S1:使用VIVA数据集，经过数据增扩生成训练样本数据集，样本数据包含RGB模态和Depth模态，图像分辨率为115×250。手势包括手和手指动作；

步骤S2:设计基于3D卷积神经网络的动态手势识别模型；

步骤S3:利用训练集对手势进行训练；

步骤S4:进行动态手势识别测试

本发明的有益效果:

本发明提供的基于卷积神经网络的动态手势识别方法及系统，具有以下突出的优点：

(1)直接将动态手势视频数据通过卷积神经网络测试，提高了动态手势识别的效率。

(2)本发明，可以消除背景肤色和类肤色的干扰，鲁棒性强。

(3)在网络模型中通过多模态联合训练的方式训练网络，提高了模型训练的效率。

(4)对训练样本集中的每段视频进行时预剪裁和视频镜像翻转的方式进行数据扩增，增加了样本量的同时，减少了采集的工作量。

(5)选用多向3D卷积神经网络模型，对前方，左方，上方进行时空特征提取，并在得分层运用串联融合的方式极大提高了动态手势识别的准确率。

本发明并不局限于上述最佳实施方式，任何人应该得知在本发明的启示下做出的结构变化，凡是与本发明具有相同或相近的技术方案，均落入本发明的保护范围之内。

Claims

1.一种基于卷积神经网络的动态手势识别方法及系统，包括以下几个步骤.

A、使用VIVA数据集，该数据集含有19个动态手势类别，包含RGB和Depth两个模态；

B、设计基于卷积神经网络的3D动态手势模型；

C、使用串联融合的方式对3D卷积神经网络在三个方向提取出来的特征进行特征融合；

D、运用训练好的卷积神经网络模型进行动态手势的识别测试。

2.根据权利要求1所述的方法，其特征在于，使用视频时域剪裁和视频镜像翻转的方法对样本进行扩充，与原始样本一起组成训练样本集。

3.根据权利要求1所述的方法，其特征在于，3D卷积神经网络结构，整个网络由4个卷积层、4个池化层、4个BN层外加2个全连接层构成。该网络的结构分成3个子网络部分：从上方提取特征(Top-Net)的网络，从左方提取特征(Left-Net)和从正前方提取特征(Front-Net)。将三个方向提出的特征进行特征融合。

4.根据权利要求1所示的方法，其特征在于，网络训练的具体方法如下。

A、利用Xavier方法对卷积神经网络的权重和偏置进行初始化，使得权重和偏置服从

的均匀分布，nⁱ和n_o分别为该层输入和输出神经元个数。mini_batch的尺寸为32，网络的最大迭代次数为8850，最初学习率设置为0.01。经过3000次迭代后变为0.001，经过5000次迭代后变成0.0001，经过6000次迭代后变成0.00001。

B、使用带动量的小批量随机梯度下降算法来优化3D卷积神经网络。