CN113255602A

CN113255602A - 基于多模态数据的动态手势识别方法

Info

Publication number: CN113255602A
Application number: CN202110726159.1A
Authority: CN
Inventors: 孙俊; 张艺楠; 毛力; 吴豪; 方伟; 吴小俊; 陈祺东; 李超; 冒钟杰
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-08-13

Abstract

基于多模态数据的动态手势识别方法，属于手势识别领域。本发明以3D卷积神经网络结构为基础，提出了一种多模态数据驱动的深度网络框架。首先，对于不同模态的输入数据，结合并优化多种有效的特征提取机制，大幅度压缩了网络规模，实现从连续图像序列中同时获得动态手势的空间和时域特征。其次，引入了一种新颖的并行分类器结构，能够充分利用所提取的多模态数据特征，从而有效提高模型的鲁棒性和识别准确率。为了验证所提出的网络框架的有效性，在多模态公开数据集SKIG上进行实验，达到了99.40％的识别准确率。结果表明，对于动态手势识别任务，该网络结构在较小的参数规模下实现了较好的识别能力。

Description

基于多模态数据的动态手势识别方法

技术领域

本发明属于手势识别领域，具体涉及一种基于多模态数据的动态手势识别方法。

背景技术

手势识别是计算机视觉领域的一个重要研究分支，近年来，因其在人机交互、自动驾驶等领域发展迅速，受到国内外学者的广泛关注。然而，由于人的手部具有较多关节，因此产生的动作复杂多变，许多拥有相同含义的动态手势，因速度、位置以及个人习惯等原因，也存在着差异。而对于不同含义的手部动作，期间可能存在多个时刻的静态手势十分相似，所以将空间特征和时域特征同时进行考虑是一个较大的挑战。此外，在不同场景下，由于复杂的背景环境和光照条件等因素的影响，识别也将变得更加困难。

传统的基于视觉的手势识别任务主要利用人工经验进行特征提取。Yang等人[Yang S,Yu G,Wang P,et al.A Kinect based gesture recognition algorithm usingGMM and HMM[C]//International Conference on Biomedical Engineering&Informatics.IEEE,2013.]使用高斯混合模型和隐马尔科夫模型对手势进行建模，实现了预定义的手势识别，达到94.36％的识别率。Huang等人[Huang Z X,Peng B,Juan W U,etal.Gesture Recognition Based on DTW and Combined Discriminative FeatureDetector[J].Computer Engineering,2014.]提出了一种基于动态时间规整(DynamicTime Warping，DTW)和混合判别特征检测器的手势识别算法，将手势特征的概率分布转换为二进制分段线性函数进行分类，实验过程中的手势平均识别率达到91.2％。Ruan等人[Ruan X,Tian C.Dynamic gesture recognition based on improved DTW algorithm[C]//IEEE International Conference on Mechatronics&Automation.IEEE,2015.]通过距离加权法建立手势的数学模型，然后将改进的DTW算法用于动态手势识别，有效提高了算法的速度和准确性。然而，传统的特征提取和选择工作往往需要耗费大量的时间和人力资源，而且要有相关领域的专业知识才能更好地保证分类特征的有效性。同时，由于动态手势复杂多变，人工的特征提取方法缺乏一定的泛化能力，训练过程中仍需要对大量参数进行调整。

近年来，深度学习的快速发展对计算机视觉等领域产生了深远的影响，卷积神经网络(Convolutional Neural Network，CNN)在图像分类、目标检测、语义分割等研究方向得到了广泛应用。与传统方法相比，深度学习能够自动提取数据特征并实现分类，形成端到端的学习架构，一定程度上避免了人工经验特征提取的主观性，在识别任务上也有所提升。Liang等人[Liang Z,Zhu G,Shen P,et al.Learning Spatiotemporal Features Using3DCNN and Convolutional LSTM for Gesture Recognition[C]//2017IEEEInternational Conference on Computer Vision Workshops(ICCVW).IEEE,2017.]使用3D卷积神经网络(3D Convolutional Neural Network，3DCNN)和双向卷积长短时记忆(Convolutional Long ShortTerm Memory，CLSTM)网络学习2D时空特征图，可以同时编码全局时间信息和局部空间信息，然后进一步学习更高级别的时空特征用于最终的手势识别。Ravi等人[Ravi S,Suman M,Kishore P,et al.Multi Modal Spatio Temporal Co-Trained CNNs with Single Modal Testing on RGB–D based Sign Language GestureRecognition[J].Journal of Computer Languages,2019.]利用多模态特征共享机制和多流CNN进行手语识别。Lai等人[Lai K,Yanushkevich S N.CNN+RNN Depth and Skeletonbased Dynamic Hand Gesture Recognition[J].2020.]结合CNN和循环神经网络两种深度学习技术，融合深度和骨架数据以提取时空信息进行自动手势识别，在Dynamic HandGesture 14/28数据集[Smedt Q D,Wannous H,Vandeborre J P.Skeleton-Based DynamicHand Gesture Recognition[C]//2016 IEEE Conference on Computer Vision andPattern Recognition Workshops(CVPRW).IEEE,2016.]上达到85.46％的总体准确率。虽然目前基于深度学习的网络框架在动态手势的特征提取和分类方面有一定的进展，但大多数模型仍然受限于较大的网络规模。此外，对于多模态数据驱动的网络模型，特征的处理和利用对识别的效果也有着很大的影响。

发明内容

本发明旨在提出一种基于多模态数据的深度网络框架，对于动态手势识别任务，将3DCNN结构应用于特征提取模块，可以同时获取空间和时域维度上的分布式特征。针对不同模态的输入数据的性质，结合并优化多种特征提取机制，大幅度减少深度网络的参数数量，加快模型收敛速度，提高识别效率。分类阶段引入的并行分类器结构，能够更加充分地利用所提取的多模态数据特征，并对决策结果进行有效融合，提高了网络性能和识别准确率。

本发明的技术方案：

基于多模态数据的动态手势识别方法，步骤如下：

步骤一、对数据集进行预处理；具体处理的过程为：首先，提取动态手势视频的帧序列，按照一定的时间间隔将主要手势区间采样为16帧；然后，将可见光模态的数据标准化为96×96像素，每个样本规格为16×96×96×3；将深度模态的数据标准化为64×64像素，每个样本规格为16×64×64×1，每组多模态样本对应一个手势类别标签；最后，合并所有样本和标签，得到三个数组：可见光模态的维度为M×16×96×96×3，深度模态的维度为M×16×64×64×1，对应的标签的维度为M×1，其中M表示动态手势样本数量；

步骤二、建立动态手势识别深度神经网络模型

所述的深度神经网络模型包括TCE特征提取模块、SCE特征提取模块和并行分类器；

所述的TCE特征提取模块所包含的层按序为：含有16个卷积核的3D卷积层，核尺寸为5×5×5，步长为2×2×2，填充方式为“SAME”；3D最大池化层，核尺寸为3×3×3，步长为2×2×2，填充方式为“SAME”；残差块1(N＝16，n＝1)；残差块2(N＝32，n＝2)；残差块3(N＝64，n＝2)；含有64个卷积核的3D卷积层，核尺寸为1×6×6，填充方式为“VALID”；其中，每个残差块包含两个3D卷积层，第一层的卷积核数量为N，核尺寸为3×3×3，步长为n×n×n，填充方式为“SAME”；第二层的卷积核数量为N，核尺寸为3×3×3，步长为1×1×1，填充方式为“SAME”，残差块中输入数据将与经过两次卷积操作的输出进行融合；所有的卷积层后均要经过批标准化和ReLU非线性激活函数；

所述的SCE特征提取模块所包含的层按序为：卷积块1(N＝8)；卷积块2(N＝16)；卷积块3(N＝32)；卷积块4(N＝64)；含有64个卷积核的3D卷积层，核尺寸为1×4×4，填充方式为“VALID”；其中，卷积块结构按序为：两层含有N个卷积核的3D卷积层，核尺寸为3×3×3，步长为1×1×1，填充方式为“SAME”；3D最大池化层，核尺寸为2×2×2，步长为2×2×2，填充方式为“SAME”；所有的卷积层后均要经过批标准化和ReLU非线性激活函数；

所述的并行分类器中的子分类器为全连接网络，隐含层使用ReLU激活函数，最后一层使用SoftMax激活函数；子分类器的数量与所提取的特征数量相关，对于两种模态数据对应的两组特征，独立和融合条件下存在的3种状态则对应3个子分类器，将各分类器得到的分类结果进行线性组合得到最终的动态手势分类结果；

步骤三、利用TCE特征提取模块、SCE特征提取模块进行特征提取具体过程为：输入数据每经过3D卷积层和3D池化层后将会得到尺寸更小、维度更高的特征图，经过训练的深度神经网络能够自动获取动态手势的高层特征，最后输出相应模态数据的特征向量；

步骤四、将TCE特征提取模块、SCE特征提取模块提取的两组特征输入并行分类器进行分类，得到动态手势的类成员概率，取概率最高者为最终的手势分类结果；

步骤五、完成动态手势识别。

本发明的有益效果：本发明针对多模态数据驱动的动态手势识别任务，提出了一种深度网络框架。对于不同类型的输入数据之间存在的差异，设计了不同的特征提取模块并对网络规模进行了优化。所引入的并行分类器结构，可以充分利用所提取的多组特征，有效融合每个子分类器得到的决策结果，进一步实现了多模态数据之间的优势互补。实验结果表明，所提出的网络结构在参数量和识别准确率方面均有一定的优势。在后续的研究中，还需要对网络结构做进一步的优化，实现更复杂的特征学习，完善在手势识别方面的应用。

附图说明

图1为深度网络框架示意图。

图2为TCE特征提取模块示意图。

图3为SCE特征提取模块示意图。

图4为并行分类器结构示意图。

图5为SKIG数据集包含的手势类别。

图6为在SKIG数据集上的准确率变化曲线图。

具体实施方式

以下根据实施例及附图对本发明的技术方案进行进一步陈述。

1.深度网络模型

所提出的深度网络框架如图1所示，该模型的目的是利用来自多个模态的信息将动态手势进行分类。首先，针对各模态的输入数据特点，使用3DCNN结构开发相应的特征提取模块，从图像序列中提取空间和时域维度的深层特征。随后，该模型中引入的并行分类器结构对各模态的特征进行充分利用，得到手势的判别结果，在结果张量中，每个数据分别表示当前动态手势类别的置信度。

1.1 3D卷积神经网络

卷积神经网络是受到生物思考方式启发的多层感知器的变种，有着不同类别的层，并且各层的工作方式和作用也有所差异，目标是实现特征提取。其权值共享网络结构更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量，这种优势在网络的输入是多维图像时表现得更为明显，避免了传统识别算法中复杂的特征提取和数据重建过程。

3D卷积基于2D卷积操作得到发展，被广泛应用于动作识别领域，当处理基于连续图像数据分析的动作识别任务时，能够同时捕获多个连续图像的空间信息和运动信息。本发明采用3DCNN结构优化网络性能，在卷积阶段应用3D算子，以同时提取空间和时域维度特征。3D卷积是通过将3D核在多个连续图像堆叠在一起构成的立方体中滑动并计算输出而实现的。利用这种结构，卷积层中的特征映射与上一层中的多个连续图像连接，从而达到捕获运动信息的效果。其中3D卷积通过公式(1)计算：

其中，f_xyz表示3D卷积操作的输出，I表示输入的连续图像数据，x和y分别代表输入样本的空间维度，z代表时间维度，w是连接到前一层中的特征映射参数，p、q、r分别代表本次卷积操作的三个维度，b为偏置项，σ是为了增强卷积表达能力而引入的一种非线性激活函数。

由于卷积核在整个立方体中滑动时，权值都是共享的，因此对于每个3D卷积核，仅能提取相同类型的特征。在设计CNN体系结构的过程中，基本原则是增加下一层特征映射的数量，以实现从同一组较低层的特征映射中生成多种类型的不同特征。

1.2特征提取模块

不同模态的输入数据可以提供不同的信息特征。可见光数据可以突出体现细节特征，包括颜色、形状和纹理以及背景和环境等信息。而深度信息则可以在很多复杂的光照和背景条件下，实现较为稳定的成像结果。针对不同模态数据各自的特点，本发明给出了两种特征提取模块。

对于可见光模态，考虑提取更深层的特征，但常规的网络堆叠反而有可能得到更差的结果。随着网络的加深，梯度消失的现象就会越来越明显。残差结构能够有效避免这一现象发生，其原理是通过在浅层网络的基础上使用恒等映射，直接将较低层网络的输出传到深层网络进行融合，使得网络随着深度的增加而避免发生退化，进而达到网络训练过程的优化效果。本发明对标准3D残差网络结构的特征提取部分进行了一定程度的调整和优化，得到TCE特征提取模块，如图2所示。该模块具有较小的宽度和深度，在网络规模方面有明显的优势。

本发明将每个动态手势标准化为16帧的图像序列，要求可见光模态的输入尺寸为96×96像素。应用图2所示的TCE特征提取模块，在每次迭代过程中，首先经过包含16个卷积核的3D卷积层，其中的核尺寸为5×5×5，步长为2×2×2，然后利用窗口大小为3×3×3，步长为2×2×2的最大池化层缩小时间和空间维度，得到16个4×24×24的特征图。随后，分别经过卷积核数量N为16、32、64的3D残差模块“ResidualBlock”，得到64个1×6×6的特征图，其中ResidualBlock-1模块的步长参数n＝1，其余的残差模块(ResidualBlock-2、ResidualBlock-3)的步长参数取值为n＝2。最后，经过64个卷积核大小为1×6×6的3D卷积层，得到最终的特征提取结果。需要注意的是，该特征提取模块中除了最后一个卷积层的填充方式使用“VALID”，其余层均使用“SAME”。

深度数据能够与可见光模态相互补偿，从而提高复杂环境下深度网络的鲁棒性。相比之下，这类数据包含较少的环境信息，基于这一特点，本发明给出了SCE特征提取模块，如图3所示。相比于TCE模块，该结构的复杂程度较低，具有更少的参数数量。

SCE特征提取模块要求输入数据为64×64像素的深度图像序列。每次迭代过程中，输入数据分别经过卷积核数量N为8、16、32、64的“ConvBlock”，该结构中含有两个卷积层和一个最大池化层，各层中卷积核的大小为3×3×3，步长为1×1×1，填充方式采用“SAME”，每个卷积层后带有批标准化和ReLU激活函数，以提高网络性能，最大池化层的窗口大小为2×2×2，步长为2×2×2，用来逐步缩小图像序列的时间和空间维度。SCE模块的最后是64个卷积核大小为1×4×4的卷积层，填充方式为“VALID”，用来缩小特征图尺寸。

1.3并行分类器结构

模态可以理解为信息的表示方式，多模态融合则是两种及以上模态的不同形式的组合，不同模态的表现方式不同，所以相互之间存在交叉或互补的信息。目前对于大多数的多分支卷积神经网络结构，都是先将特征提取模块所提取的特征向量沿着某个维度进行拼接实现特征融合，然后输入至分类器得到最终的分类结果。考虑到从多种不同模态的输入数据获取的特征向量，独立状态的特征对应的分类器无法获取其他特征所包含的信息，而融合后的特征存在信息冗余问题，所对应的分类器具有较弱的定向性。

可见光数据和深度数据所包含的信息之间可以相互补充，经过3D卷积神经网络提取到的特征能较好的表示手部动作特点。为了更充分地利用所提取的特征，本发明提出了一种并行分类器结构，分别针对各个特征的独立和融合状态设置对应的分类器，实现优势互补，提高网络性能。如图4所示，对于本发明的网络架构在特征提取阶段输出的两个特征向量，并行分类器所包含的三个子分支分别针对独立和融合的三种状态的特征同时进行分类。

每个子分类器之间相互独立，均使用ReLU作为激活函数，最终通过Softmax函数得到类别预测。对于各分类器得到的分类结果，本发明的融合策略是将得到的类成员概率进行线性组合，从而得到并行分类器的最终分类结果，如公式(2)所示：

其中，X表示各特征提取模块得到的所有特征向量，C为动作类别，ρ_i(X)为其中的一组独立特征或融合特征，θ_i表示对应分类器的参数，α_i表示该分类器的权重系数，m为子分类器数量。

为了提高模型的泛化能力，降低训练过程中的不稳定程度，本发明在经验风险最小化原则上加入了l₂正则化项，如公式(3)所示：

其中，L表示模型的原损失函数，λ||ω||²为l₂范数的正则化项，λ为正则化参数，用来约束正则化强度。

2.实验及结果分析

2.1 SKIG数据集

本发明选用SheffieldKinectGesture(SKIG)公开数据集进行实验分析。该数据集由Li等人[Li L,Ling S.Learning discriminative representations from RGB-D videodata[C]//International Joint Conference on Artificial Intelligence.AAAIPress,2013.]建立，包含2160个动态手势样本，其中有1080个RGB视频序列和1080个深度信息视频序列。每个样本包含一种独立的手势，共计10个类别，如图5所示。该数据集在收集过程中考虑了真实情况下的复杂背景环境和不同的光照情况，由6名执行者分别在3种背景(木纹、白纸和带字符的纸)和两种光照(强光、弱光)条件下使用3种姿态(握拳、手掌和索引)来完成。因此，对于动态手势识别任务来说，SKIG数据集具有较大的挑战性。

2.2数据预处理

由于SKIG数据集的原始数据具有较大的分辨率，为了节省计算资源并且尽量保留更多的有效信息，本发明将可见光模态的数据标准化为96×96像素，而深度模态包含较少的细节信息，则将其标准化为64×64像素。此外，不同的动作类别或执行者个体之间存在不同程度的差异，每个动态手势在时间维度上存在较大差别，因此需要对原始数据进行时间维度标准化处理。

一般来说，有两种方法可以解决这个问题：其一是将每个手势序列分割为固定长度的剪辑，但这样的剪辑通常不能完整地表示一个手势；另一种方法是将手势序列按照固定长度进行下采样。本发明所提出的框架要求输入数据为16帧，因此对于每个动作应用基于抽样的关键帧提取方法，按照一定的时间间隔进行采样，在保留了核心运动信息的同时，有效压缩了数据量。

2.3实验及结果分析

本发明在SKIG公开数据集上进行实验的过程中采用K折交叉验证[Rodriguez JD,Perez A,Lozano J A.Sensitivity Analysis of k-Fold Cross Validation inPrediction Error Estimation[J].IEEE Trans Pattern Anal Mach Intell,2010,32(3):569-575.]的方法，每次使用五名执行者的数据样本做训练集，其余一名执行者的样本用作测试集，直到每组数据均做过训练集和测试集为止。实验采用Adam优化算法，学习率设为0.0002，使用交叉熵损失函数并且加入l₂正则化项。模型在每次迭代过程中随机打乱数据样本，将8个多模态样本作为一组数据进行网络参数更新。为了防止过拟合，使用Dropout方法[Hinton G E,Srivastava N,Krizhevsky A,et al.Improving neural networks bypreventing co-adaptation of feature detectors[J].Computer Science,2012,3(4):págs.212-223.]抑制部分网络节点，在减少计算量的同时增强了网络的泛化能力。

多模态融合前后的网络模型在训练过程中的准确率变化情况如图6所示。可见光数据包含较多的细节信息，模型在训练过程中的学习速度较慢，经过30个迭代周期后开始收敛，而深度模态的训练速度相对较快。本发明所提出的深度网络模型能够有效结合多个模态的数据特征，进一步提高训练过程中的收敛速度和准确率，模型在训练初期就达到了较好的效果，经过10次左右的迭代后便开始趋于稳定。

各种公开方法在SKIG数据集上的识别结果如表1所示。首先，对于单一模态的实验结果进行分析可以看出，基于深度信息的模型往往比基于可见光模态的模型具有更高的识别率，这表明环境与背景信息对于特征提取来说仍然存在较大的影响，同时，当手部颜色与背景相近时，深度特征将存在更大的优势。

表1在SKIG数据集上的结果比较

从实验方法来看，RGGP为基于图的受限遗传编程自适应学习方法，实现从数据中自动提取时空特征，对动态手势进行了有效分类。DLEH²是基于传统方法提出的一种特征描述符，可以有效获取局部纹理信息和边缘信息以及手部的时空变化。然而在特征提取阶段，深度神经网络往往会有一定的优势，对于动态手势识别具有更高的泛化能力。MRNN使用多个长短期记忆单元流来融合多个时间模态。R3DCNN+CTC应用一种用于动态手势识别的循环3D卷积神经网络分类器，实现了有效的通道融合以及弱分割视频的训练，而该网络如果在特征提取过程中未调整预训练的C3D网络规模，将使得多模态模型的参数量大幅度增加。3DCNN+ConvLSTM+SPP将3D卷积和卷积长短时记忆网络用于多模态手势识别，并在分类器之前使用了空间金字塔池化，有效减少了参数量。DenseNet+BLSTM应用密集网络结构学习空间特征，并选择双向长短时记忆网络进行长期时间特征学习，在参数量和准确率方面均有所提升。本发明对于不同模态的输入数据，有针对性地设计优化多种有效的特征提取模块，大幅度减少训练参数，并在分类阶段充分利用所提取的时空特征，因此在SKIG数据集上的准确率也得到了进一步的提高。

Claims

1.基于多模态数据的动态手势识别方法，其特征在于，步骤如下：

步骤二、建立动态手势识别深度神经网络模型

步骤五、完成动态手势识别。

2.根据权利要求1所述的基于多模态数据的动态手势识别方法，其特征在于，所述的3D卷积通过公式(1)计算：

3.根据权利要求1或2所述的基于多模态数据的动态手势识别方法，其特征在于，将各分类器得到的分类结果进行线性组合得到最终的动态手势分类结果：如公式(2)所示：

4.根据权利要求1或2所述的基于多模态数据的动态手势识别方法，其特征在于，为降低训练过程中的不稳定程度，在经验风险最小化原则上加入了l₂正则化项，如公式(3)所示：

5.根据权利要求3所述的基于多模态数据的动态手势识别方法，其特征在于，为降低训练过程中的不稳定程度，在经验风险最小化原则上加入了l₂正则化项，如公式(3)所示：