CN109871781B

CN109871781B - 基于多模态3d卷积神经网络的动态手势识别方法及系统

Info

Publication number: CN109871781B
Application number: CN201910080484.8A
Authority: CN
Inventors: 杨明强; 李�杰; 王德强; 刘玉鹏; 程琦
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2020-11-06
Anticipated expiration: 2039-01-28
Also published as: CN109871781A

Abstract

本公开公开了基于多模态3D卷积神经网络的动态手势识别方法及系统，包括：对获取的实际视频数据进行分帧处理，分为若干帧图像；从所述若干帧图像中提取若干关键帧图像；对每个关键帧图像进行灰度化处理得到灰度图像，对每个关键帧图像的灰度图像进行Gabor变换得到gabor图像，对每个关键帧图像的灰度图像进行边缘提取得到边缘图像；将每个关键帧图像所对应的灰度图像输入到预先训练好的第一、第二和第三3D卷积神经网络，分别输出第一、第二和第三分类结果；第一、第二和第三3D卷积神经网络的输出端同时连接到一个输出层，所述输出层对第一、第二和第三分类结果进行融合，输出最终的分类结果。

Description

基于多模态3D卷积神经网络的动态手势识别方法及系统

技术领域

本公开涉及一种基于多模态3D卷积神经网络的动态手势识别方法及系统。

背景技术

本部分的陈述仅仅是提到了与本公开相关的背景技术，并不必然构成现有技术。

随着近年来深度学习，人工智能的高速发展，也带动了人机交互向更智能，更方便，更人性化的方向发展，比如智能手机中的指纹解锁，指纹支付，人脸识别解锁和人脸支付等。手势相比其他人机交互方式，其表现方式更加自然多变，因此携带信息量也更加多元。目前基于手势识别的人机交互已经广泛应用于智能电视，VR，车载智能交互等。手势识别分为静态手势识别和动态手势识别，静态手势识别强调手在空间中的表现形式，所以识别相对简单。而动态手势识别不仅要关注手势在空间中的变化，更重要的是要手势在时间上的轨迹与变化。

发明内容

为了解决现有技术的不足，本公开提供了基于多模态3D卷积神经网络的动态手势识别方法及系统，其使用光流法提取视频关键帧；将关键帧生成后的视频图像做gabor变换和边缘提取；防止训练过拟合的数据时域增扩以及最主要的多模态3D卷积神经网络的融合。

第一方面，本公开提供了基于多模态3D卷积神经网络的动态手势识别方法；

基于多模态3D卷积神经网络的动态手势识别方法，包括：

对获取的实际视频数据进行分帧处理，分为若干帧图像；

从所述若干帧图像中提取若干关键帧图像；

对每个关键帧图像进行灰度化处理得到灰度图像，对每个关键帧图像的灰度图像进行Gabor变换得到gabor图像，对每个关键帧图像的灰度图像进行边缘提取得到边缘图像；

将每个关键帧图像所对应的灰度图像输入到预先训练好的第一3D卷积神经网络，输出第一分类结果；

将每个关键帧图像所对应的gabor图像输入到预先训练好的第二3D卷积神经网络，输出第二分类结果；

将每个关键帧图像所对应的边缘图像输入到预先训练好的第三3D卷积神经网络，输出第三分类结果；

第一、第二和第三3D卷积神经网络的输出端同时连接到一个输出层，所述输出层对第一、第二和第三分类结果进行融合，输出最终的分类结果。

作为一种可能的实现方式，所述对获取的实际视频数据进行分帧处理，分为若干帧图像具体步骤为，将视频的每一帧作为一帧图像。

作为一种可能的实现方式，从所述若干帧图像中提取若干关键帧图像的具体方式为：

对视频进行分帧处理后，得到若干帧图像；

按照时间顺序，将所述若干帧图像划分为K个视频段，每个视频段中均包括N帧图像；

然后，对每个视频段均采用Horn-Schunck光流法提取视频的关键帧图像；最后得到关键帧图像序列。

作为一种可能的实现方式，对每个视频段均采用Horn-Schunck光流法提取视频的关键帧图像的具体步骤为：

提取每个视频段中每一帧图像的手势运动信息量，根据每一帧图像中手势运动信息量从大到小进行排序，选择排序靠前的P帧图像作为关键帧图像；

所述手势运动信息量，是由图像中每一个像素点光流的水平分量和垂直分量累加而得到。

关键帧提取的有益效果是，可以提升识别的精度，因为提取的是关键帧图像，关键帧图像相比其余帧图像更具有代表性，其特征信息量也与其余帧图像多。

作为一种可能的实现方式，对每个关键帧图像的灰度图像进行Gabor变换得到gabor图像的具体步骤为：

设置m个波长，设置n个角度，对不同的波长和不同的角度进行排列组合，假设得到m*n种组合形式，使用所有的m*n种组合对每个关键帧图像的灰度图像进行Gabor滤波，生成m*n个滤波后的图像，最后对m*n个滤波后的图像像素进行加和，求平均，生成gabor图像；

作为一种可能的实现方式，对每个关键帧图像的灰度图像进行边缘提取得到边缘图像的具体步骤为：

使用canny边缘检测算法对每个关键帧图像的灰度图像进行边缘提取，生成边缘图像。

首先用3*3的高斯核对每个关键帧图像的灰度图像进行滤波消除噪声的影响，然后用3*3的canny算子对消除噪声影响的的灰度图像做边缘提取生成最终边缘图像C。

作为一种可能的实现方式，第一、第二和第三3D卷积神经网络采用同样的结构，该结构包括：依次连接的输入层、第一卷积层、第一池化层、第一激活函数层、第二卷积层、第二池化层、第二激活函数层、第三卷积层、第三池化层、第三激活函数层、第四卷积层、第四池化层、第四激活函数层、第一全连接层、第二全连接层和softmax层；

所述第一、第二和第三3D卷积神经网络的softmax层均连接到同一个融合输出层上。

图像在输入到神经网络之前，还需要进行高度和宽度的缩小和随机裁剪，提高识别模型的泛化能力和降低过拟合。

作为一种可能的实现方式，预先训练好的第一3D卷积神经网络的具体训练步骤为：

对获取的训练视频数据进行分帧处理，分为若干帧训练图像；

从所述若干帧训练图像中提取若干关键帧图像；

对每个关键帧图像进行灰度化处理得到灰度图像；

对灰度图像进行训练数据扩增；

将每个关键帧图像所对应的灰度图像输入到第一3D卷积神经网络，对第一3D卷积神经网络进行训练，得到训练好的第一3D卷积神经网络。

作为一种可能的实现方式，预先训练好的第二3D卷积神经网络的具体训练步骤为：

对获取的训练视频数据进行分帧处理，分为若干帧图像；

从所述若干帧图像中提取若干关键帧图像；

对每个关键帧图像进行灰度化处理得到灰度图像，对每个关键帧图像的灰度图像进行Gabor变换得到gabor图像；

对gabor图像进行训练数据扩增；

将每个关键帧图像所对应的gabor图像输入到第二3D卷积神经网络，对第二3D卷积神经网络进行训练，得到训练好的第二3D卷积神经网络。

为一种可能的实现方式，预先训练好的第三3D卷积神经网络的具体训练步骤为：

对获取的训练视频数据进行分帧处理，分为若干帧图像；

从所述若干帧图像中提取若干关键帧图像；

对每个关键帧图像进行灰度化处理得到灰度图像，对每个关键帧图像的灰度图像进行边缘提取得到边缘图像；

对边缘图像进行训练数据扩增；

将每个关键帧图像所对应的边缘图像输入到第三3D卷积神经网络，对第三3D卷积神经网络进行训练，得到训练好的第三3D卷积神经网络。

作为一种可能的实现方式，所述数据扩增，包括以下方式之一或任意种组合的方式：

时域裁剪、水平翻转、添加噪声或仿射变换。

所述时域裁剪，是指，假设提取关键帧的个数为Q帧，然后从Q帧中裁剪前q帧，中间q帧和末尾q帧；

所述水平翻转，是指，先将每一帧关键帧图像做镜像翻转，然后，将帧序逆转，即将原来的第一帧作为最后一帧，将原来的第二帧作为倒数第二帧，依次类推，将原来的最后一帧作为第一帧。

所述添加噪声，是指添加高斯白噪声。

所述仿射变换，是指将所有关键帧图像进行设定角度的旋转，并且进行水平平移和垂直平移。

作为一种可能的实现方式，所述输出层对第一、第二和第三分类结果进行融合的具体步骤为：

每个模态的识别结果由网络的Softmax层给出，假设有S个类别的手势，则softmax输出的结果为属于S个手势类别的概率，手势识别结果为最大概率对应的手势类别。

每个模态的网络都给出一个概率向量P，设定第一3D卷积神经网络、第二3D卷积神经网络和第三3D卷积神经网络的输出分别对应为P1、P2和P3；

采用相乘的方法融合三个模态的输出，即

P＝P₁*P₂*P₃

然后根据P的元素最大值所对应的手势类别，来识别样本所对应的手势类别。

因此，在申请实施例中，使用光流法提取视频关键帧，可以提升识别的精度，因为提取的是关键帧图像，关键帧图像相比其余帧图像更具有代表性，其特征信息量也与其余帧图像多；将关键帧生成后的视频图像做gabor变换和边缘提取，多模态图像数据的输入为手势的精确识别提供基础；采用数据时域增扩，防止训练过拟合；3D卷积神经网络的融合，实现较高的识别精度。

第二方面，本公开还提供了基于多模态3D卷积神经网络的动态手势识别系统；

基于多模态3D卷积神经网络的动态手势识别系统，包括：

分帧处理模块，对获取的实际视频数据进行分帧处理，分为若干帧图像；

关键帧提取模块，从所述若干帧图像中提取若干关键帧图像；

图像处理模块，对每个关键帧图像进行灰度化处理得到灰度图像，对每个关键帧图像的灰度图像进行Gabor变换得到gabor图像，对每个关键帧图像的灰度图像进行边缘提取得到边缘图像；

训练模块，将每个关键帧图像所对应的灰度图像输入到预先训练好的第一3D卷积神经网络，输出第一分类结果；将每个关键帧图像所对应的gabor图像输入到预先训练好的第二3D卷积神经网络，输出第二分类结果；将每个关键帧图像所对应的边缘图像输入到预先训练好的第三3D卷积神经网络，输出第三分类结果；

输出模块，第一、第二和第三3D卷积神经网络的输出端同时连接到一个输出层，所述输出层对第一、第二和第三分类结果进行融合，输出最终的分类结果。

第三方面，本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面任一可能的实现方式中的方法。

第四方面，本公开还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面任一可能的实现方式中方法的步骤。

与现有技术相比，本公开的有益效果是：

1、使用光流法提取视频关键帧，可以提升识别的精度，因为提取的是关键帧图像，关键帧图像相比其余帧图像更具有代表性，其特征信息量也与其余帧图像多；

2、将关键帧生成后的视频图像做gabor变换和边缘提取，多模态图像数据的输入为手势的精确识别提供基础；

3、采用数据时域增扩，防止训练过拟合；

4、3D卷积神经网络的融合，实现较高的识别精度。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为一个或多个实施方式的方法流程图；

图2为一个或多个实施方式的视频帧运动信息量变化曲线；

图3(a)为一个或多个实施方式的灰度图像；

图3(b)为一个或多个实施方式的gabor图像；

图3(c)为一个或多个实施方式的边缘图像；

图4(a)为边缘图像的扩增示意图；

图4(b)为边缘图像的扩增示意图；

图4(c)为边缘图像的扩增示意图；

图4(d)为边缘图像的扩增示意图；

图4(e)为边缘图像的图像翻转扩增示意图；

图4(f)为边缘图像的图像翻转扩增示意图；

图4(g)为边缘图像的图像翻转扩增示意图；

图4(h)为边缘图像的图像翻转扩增示意图；

图5为3D卷积神经网络的结构示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1，如图1所示，

样本

样本的形式为一段视频，或者是一段连续的视频帧序列。

光流法提取视频关键帧

在静态手势识别中，我们的识别对象是一张包含手的静态图片，而在动态手势识别中，识别对象是由许多连续视频帧组成的一段视频。针对一个动态手势，不同的人有不同的表现形式，即使是同一个人在每次表现时也会有手的姿势和手运动速度上的不同，这造成每一段视频中包含数量不一的帧。因此需要提取一段视频中的关键帧来代替原始视频，关键帧的提取不仅会去除原有视频中的冗余帧使每一段视频具有固定的帧数，而且也方便后续的3D卷积神经网络的训练提取更紧致的时域特征。关键帧的提取方法有很多主要包括三种：1)基于采样的视频关键帧提取；2)基于聚类的关键帧提取；3)基于运动信息的关键帧提取。我们采用的是第三种基于运动信息的关键帧提取，Horn-Schunck光流法可以有效的提取出视频中目标的运动信息，所以采用光流法来提取每一帧手势的运动信息量，根据每一帧信息量的大小对所有的视频帧进行排序，最终选取12帧作为关键帧，并且根据这12帧图像在原有视频中的顺序构成新的视频。

具体的计算方法如下：在Horn-Schunck算法中首先假设连续两帧图像的亮度是恒定的，即

E(x,y,t)＝E(x+Δx,y+Δy,t+Δt)⑴

E(x，y，t)表示在t时刻，图像上一点(x,y)处的亮度。对(1)应用三维的一阶泰勒展开可以得到

因为亮度一致性，通过(1)和(2)，可以得到

公式(3)两边同时除以dt，并且令

得到

E_xu+E_yv+E_t＝0 ⑷

然后通过Horn-Schunck能量方程和离散的欧拉-拉格朗日方程可以得到光流的水平分量和垂直分量的迭代公式：

α为权重参数，n为迭代次数。然后我们定义了一种基于光流法的运动信息量的计算方式

T(t)为t时刻图像的运动信息，t＝1,2,3....，由图像中每一个像素点光流的水平分量和垂直分量累加而成。然后对T(t)进行排序，选择最大的12个T(t)所对应的视频帧为关键帧。

如图2所示，横线之上是我们选取的视频中的关键帧。

Gabor变换和边缘提取

通过gabor变换和canny边缘提取生成多模态图像。原始的视频图像是灰度图像，受光照的影响较大，如果只使用原始图像作为训练样本去训练我们搭建的3D卷积神经网络架构，生成的模型识别率低，所以我们使用gabor变换和canny边缘提取分别生成gabor图像和边缘图像，然后将灰度图像，gabor图像，边缘图像分别送入3D卷积神经网络进行训练，生成三个识别模型。在识别动态手势时，将这三个模型的识别结果进行加权融合构成最终的识别结果。

生成gabor图像。在生成gabor图像时有两个参数要设置，波长λ和角度θ，令λ＝5,10；θ＝0,45,90,135；这样λ和θ一共有8种组合分别为[λ＝5,θ＝0]，[λ＝5,θ＝45]，[λ＝5,θ＝90]，[λ＝5,θ＝135]，[λ＝10,θ＝0]，[λ＝10,θ＝45]，[λ＝10,θ＝90]，[λ＝10,θ＝135]。使用这8种组合对原始灰度图像进行gabor滤波，生成8个对应滤波后的图像[G₁，G₂，G₃，G₄，G₅，G₆，G₇，G₈]，g最后

G＝(G₁+G₂+G₃+G₄+G₅+G₆+G₇+G₈)/8 ⑹

G为最终生成的gabor图像。

生成边缘图像。我们选择使用canny边缘检测算法对原始图像进行边缘提取，生成边缘图像。首先用3x3的高斯核对灰度图像进行滤波消除噪声的影响，然后用3x3的canny算子对灰度图做边缘提取生成最终边缘图像C。

图3(a)为提取后的关键帧，图3(b)为gabor图像，图3(c)为边缘图像。

数据增扩

在训练阶段，制作完数据集后，对数据集进行扩增，提高卷积神经网络的识别准确率同时也是为了减少训练过拟合。我们针对视频样本引入了一种新的数据增扩方式—时域裁剪。在提取关键帧后，每个视频包含12帧，然后我们将其裁剪为8帧，具体方式是从第1帧到第8帧，第3帧到第10帧，第5帧到第12帧，样本扩充为原来的3倍。然后对扩充后的样本再做视频的水平翻转：第一步将视频中的每一帧做镜像翻转，然后将帧序逆转，即原来的第1帧作为最后一帧，第2帧作为倒数第二帧，一直到第8帧作为第1帧。这样便生成一个新的视频并且与原来的视频具有相同的标签，到这里样本已经扩充为原来的6倍。图4(a)到图4(h)为样本扩充流程。

采用两种方法对样本做空间增扩：1)添加高斯白噪声，分别添加μ＝0，σ＝1.0，k＝16，和μ＝0，σ＝1.0，k＝32的高斯白噪声，其中μ为高斯分布的均值，σ为高斯分布标准差，k为高斯系数，k越大，高斯噪声越大。此时通过添加高斯噪声，样本变为原来的18倍；2)仿射变换，对一个样本视频中的所有帧旋转±10°，水平平移±5像素，垂直平移±10像素。此时样本扩充为原来的36倍。

多模态3D卷积神经网络训练

图5为我们设计的多模态3D卷积网络模型，我们的输入有三个模态分别为灰度图，gabor图和边缘图，每种模态都通过3D卷积层，3Dpooling层，ReLu层，这3个层交替重复4次，然后连接两个全连接层，最后是softmax层输出每个模态的预测得分，最终融合三个模态的得分完成动态手势的分类。

输入：经过前期的关键帧提取和数据扩增，输入样本的尺寸为HxWxL，即H,W分别为视频的高度，宽度和长度。为了减少训练时内存的使用和提高训练速度，将视频的高度和宽度缩小为75x75，长度设置为8，然后再做一个空间上的随机裁剪，即将视频裁剪为70x70，用来提高识别模型的泛化能力和降低过拟合。所以最终网络的输入为70x70x8。

卷积层参数设置，每个卷积层有四个参数需要设置，分别为卷积核的高度H,宽度W,深度D，卷积核个数N。

第一个卷积层参数为H＝3，W＝3，D＝3，N＝4；

第二个卷积层参数为H＝3，W＝3，D＝3，N＝8；

第三个卷积层参数为H＝3，W＝3，D＝3，N＝16；

第四个卷积层参数为H＝3，W＝3，D＝3，N＝32；

Pooling(池化)层参数设置，每个pooling层有四个参数需要设置，分别为池化的高度H,宽度W,深度D，空间步长S和时间步长T_S。

第一个pooling层参数为H＝2，W＝2，D＝1，S＝2，T_S＝1；

第二个pooling层参数为H＝2，W＝2，D＝2，S＝2，T_S＝2；

第三个pooling层参数为H＝2，W＝2，D＝2，S＝2，T_S＝2；

第四个pooling层参数为H＝2，W＝2，D＝2，S＝2，T_S＝2；

全连接层参数设置，全连接有一个参数需要设置，即神经元个数N。

第一个全连接层FC1中N＝256

第二个全连接层FC2中N＝512

Softmax层参数设置，softmax层有一个参数需要设置，即分类的个数N，加入在识别的任务中有10类手势，则N＝10.

动态手势识别

每个模态的识别结果由网络的Softmax层给出，假设有10个类别的手势，则softmax输出的结果为属于10个手势类别的概率，那个类别的概率最大，则被判定为该类别。所以每个模态的网络都会给出一个概率向量P，我们设定亮度模态网络，gabor模态网络，边缘模态网络的输出分别为P1，P2，P3。我们采用相乘的方法融合三个模态的输出，即

P＝P₁*P₂*P₃

然后根据P的值来识别样本属于哪个手势类别。例如假设P＝[0,0,0.1,0.1,0.1,0.7,0,0.1,0,0],因为P[6]＝0.7，概率最大，所以该手势为第6个手势。

实施例2：

基于多模态3D卷积神经网络的动态手势识别系统，包括：

训练模块，将每个关键帧图像所对应的灰度图像输入到预先训练好的第一卷积神经网络，输出第一分类结果；将每个关键帧图像所对应的gabor图像输入到预先训练好的第二卷积神经网络，输出第二分类结果；将每个关键帧图像所对应的边缘图像输入到预先训练好的第三卷积神经网络，输出第三分类结果；

输出模块，第一、第二和第三卷积神经网络的输出端同时连接到一个输出层，所述输出层对第一、第二和第三分类结果进行融合，输出最终的分类结果。

实施例3：

本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成方法中的各个操作，为了简洁，在此不再赘述。

应理解，在本公开中，该处理器可以是中央处理单元CPU，该处理器还算可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本公开所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外一点，所显示或讨论的相互之间的耦合或者直接耦合或者通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于多模态3D卷积神经网络的动态手势识别方法，其特征是，包括：

对获取的实际视频数据进行分帧处理，分为若干帧图像；

从所述若干帧图像中提取若干关键帧图像；

2.如权利要求1所述的方法，其特征是，从所述若干帧图像中提取若干关键帧图像的具体方式为：

对视频进行分帧处理后，得到若干帧图像；

3.如权利要求2所述的方法，其特征是，对每个视频段均采用Horn-Schunck光流法提取视频的关键帧图像的具体步骤为：

4.如权利要求1所述的方法，其特征是，对每个关键帧图像的灰度图像进行Gabor变换得到gabor图像的具体步骤为：

设置m个波长，设置n个角度，对不同的波长和不同的角度进行排列组合，假设得到m*n种组合形式，使用所有的m*n种组合对每个关键帧图像的灰度图像进行Gabor滤波，生成m*n个滤波后的图像，最后对m*n个滤波后的图像像素进行加和，求平均，生成gabor图像。

5.如权利要求1所述的方法，其特征是，对每个关键帧图像的灰度图像进行边缘提取得到边缘图像的具体步骤为：

使用canny边缘检测算法对每个关键帧图像的灰度图像进行边缘提取，生成边缘图像；

对每个关键帧图像的灰度图像进行边缘提取得到边缘图像的具体步骤为：

首先用3*3的高斯核对每个关键帧图像的灰度图像进行滤波消除噪声的影响，然后用3*3的canny算子对消除噪声影响的灰度图像做边缘提取生成最终边缘图像C。

6.如权利要求1所述的方法，其特征是，预先训练好的第一3D卷积神经网络的具体训练步骤为：

从所述若干帧训练图像中提取若干关键帧图像；

对每个关键帧图像进行灰度化处理得到灰度图像；

对灰度图像进行训练数据扩增；

将每个关键帧图像所对应的灰度图像输入到第一3D卷积神经网络，对第一3D卷积神经网络进行训练，得到训练好的第一3D卷积神经网络；

所述数据扩增，包括以下方式之一或任意种组合的方式：

时域裁剪、水平翻转、添加噪声或仿射变换；

所述水平翻转，是指，先将每一帧关键帧图像做镜像翻转，然后，将帧序逆转，即将原来的第一帧作为最后一帧，将原来的第二帧作为倒数第二帧，依次类推，将原来的最后一帧作为第一帧；

所述添加噪声，是指添加高斯白噪声；

7.如权利要求1所述的方法，其特征是，所述输出层对第一、第二和第三分类结果进行融合的具体步骤为：

每个模态的识别结果由网络的Softmax层给出，假设有S个类别的手势，则softmax输出的结果为属于S个手势类别的概率，手势识别结果为最大概率对应的手势类别；

采用相乘的方法融合三个模态的输出，即

P＝P ₁*P₂*P₃

8.基于多模态3D卷积神经网络的动态手势识别系统，其特征是，包括：

9.一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的方法。