CN109919057A

CN109919057A - 一种基于高效卷积神经网络的多模态融合手势识别方法

Info

Publication number: CN109919057A
Application number: CN201910142252.0A
Authority: CN
Inventors: 陈靖; 王靖尧; 樊蕾; 乔媛媛; 任杰
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-02-26
Filing date: 2019-02-26
Publication date: 2019-06-21
Anticipated expiration: 2039-02-26
Also published as: CN109919057B

Abstract

本发明公开了一种基于高效卷积神经网络的多模态融合手势识别方法，利用帧差替代光流作为额外模态并在数据层进行融合，在精度相当的前提下，大幅提高运行速度；本发明方法能够对普通摄像头捕获的手势序列进行高精度分类，可以达到每秒处理33.2个视频序列的速度，分类精度可实现与目前该数据集上最佳算法相近的效果。在虚拟/增强现实、智能驾驶等多种任务中可以得到广泛应用。

Description

一种基于高效卷积神经网络的多模态融合手势识别方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于高效卷积神经网络的多模态融合手势识别方法。

背景技术

手势识别系统是人机交互领域中一项重要的研究议题，在虚拟/增强现实、智能驾驶、智能家居等领域有着广泛应用。考虑到价格和普及性，普通彩色摄像头是手势识别系统的主流设备。在实际使用过程中，由手型和运动轨迹混淆带来的错误分类不可避免的降低了手势分类的精度，对一些鲁棒性与精度要求极高的应用造成了诸多不便。因此在保证实时性的前提下，降低易混淆手势的错误率，提高手势分类的精度有着非常重要的应用前景。

目前的二维手势识别算法通常是从视频序列中提取特征并将视频序列对应到正确的类别。因此在一定程度上，手势识别也可视为视频分类问题。提取视频序列上的特征，该过程大致可分为传统方法和基于神经网络的方法。传统方法主要是从视频序列中提取一些手工特征，比如方向梯度直方图、密集轨迹算法等，但由于手势和周围环境的复杂性，这些方法很难满足于实际应用的需求。另一种方法主要基于神经网络，比如三维卷积神经网络、循环神经网络、双流卷积神经网络、时序分割卷积神经网络等。这些方法通常使用光流作为额外模态补充运动信息，然而在一些资源受限环境，无法实时提取光流。2018年提出的高效卷积神经网络使用二维卷积网络提取空间信息，并将特征融合输入到三维卷积网络提取运动信息，该网络每秒大约可处理35.3个视频序列。然而，由于仅使用彩色视频序列作为输入，高效卷积网络对于易混淆手势的分类精度不高。

发明内容

有鉴于此，本发明的目的是提供一种基于高效卷积神经网络的多模态融合手势识别方法，可以获得更好的手势识别分类效果，并提高运行速度。

一种基于高效卷积神经网络的多模态融合手势识别方法，包括如下步骤：

步骤1、视频序列预处理：将数据集中的一段手势视频序列V平均分割为多段片段，再从每段片段中随机选择一帧彩色图像形成新的彩色图像序列F；然后将视频序列V逐帧做帧差生成帧差序列M；

步骤2、数据层融合：针对彩色图像序列F中的各帧彩色图像，在帧差序列M找到相同索引值的帧差图像，将该帧差图像以及该帧差图像的前m-1帧的帧差图像并连同该彩色图像，按索引值次序组成一帧具有(3+m)通道数的多通道融合图像；m取值范围为1至4；遍历彩色图像序列F中的每一帧彩色图像后，最终形成一段具有N张多通道融合图像的序列{F¹,F²,...,F^N}；

步骤3、将步骤2获得的多段具有N张多通道融合图像的序列以及各自的分类结果输入到高效卷积神经网络中，对网络进行训练，得到训练好的高效卷积神经网络；

步骤4、手势识别：针对输入的未知类别的手势视频，按照步骤1和步骤2的方法，获得该段视频对应的具有N张多通道融合图像的序列，将其输入到步骤3训练好的高效卷积神经网络中，对手势进行分类。

进一步的，对所述步骤2获得的通道融合图像的序列进行数据增强，以扩充数据量。

较佳的，所述数据增强的方法包括：(a)随机对图像尺寸做一定范围的调整；(b)随机对图像做一定角度的旋转操作；(c)随机选取图像的一部分，再放大到要求的尺寸。

本发明具有如下有益效果：

本发明基于高效卷积神经网络提出一种新的多模态数据融合的手势识别方法，利用帧差替代光流作为额外模态并在数据层进行融合，在精度相当的前提下，大幅提高运行速度；本发明方法能够对普通摄像头捕获的手势序列进行高精度分类，可以达到每秒处理33.2个视频序列的速度，分类精度可实现与目前该数据集上最佳算法相近的效果。在虚拟/增强现实、智能驾驶等多种任务中可以得到广泛应用。

附图说明

图1为本发明的方法架构图；

图2为本发明与高效卷积神经网络的各类别分类精度对比图；

图3为本发明与高效卷积神经网络的混淆手势对比示意图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

如图1所示，本发明是一种基于高效卷积神经网络的多模态融合手势识别方法，包括如下步骤：

步骤1、视频序列预处理：将数据集中的一段手势视频序列V平均分割为N段片段{K₁，K₂，…，K_N}，再从每段片段中随机选择一帧彩色图像形成新的彩色图像序列F：{F₁，F₂，…，F_N}。然后将视频序列V逐帧做帧差生成帧差序列M，生成帧差与光流的时间消耗对比如表1所示：

表1为帧差与光流提取时间对比：

帧差可在CPU上以每秒1991.5帧的速度生成，大幅提高运行速度。

步骤2、数据层融合：针对彩色图像序列F中的各帧彩色图像，在帧差序列M中找到相同索引值的帧差图像，将该帧差图像以及该帧差图像的前m-1帧帧差图像连同该彩色图像，按索引值次序组成一帧具有(3+m)通道数的多通道融合图像；m取值范围为1至4。遍历彩色图像序列F中的每一帧彩色图像后，最终形成一段具有N张多通道融合图像的序列{F¹,F²,...,F^N}；并为该段视频展示的手势进行分类；获得多段手势视频，每段视频均按照步骤1和2的方法进行处理后，得到多段具有N张多通道融合图像的序列。

步骤3、将步骤2获得的多段具有N张多通道融合图像的序列以及各自的分类结果输入到高效卷积神经网络中，对网络进行训练，得到训练好的高效卷积神经网络。

步骤4、手势识别：针对输入未知类别的手势视频，按照步骤1和步骤2的方法，获得该段视频对应的具有N张多通道融合图像的序列，将其输入到步骤3训练好的高效卷积神经网络中，对手势进行分类。

其中，本发明采用的高效卷积神经网络如下：

二维卷积网络：网络结构如图1所示，具体操作如表2所示。

表2为高效卷积神经网络具体结构：

本发明先将输入尺寸调整至[BS×N，C，224，224]，其中BS为批大小，C为通道数。第一层二维卷积层的卷积核为7×7，步长为2×2。第二层二维卷积层的卷积核为3×3，步长为2×2。所有的卷积层后都加入了池化层，批归一化层和ReLU层。然后网络使用BN-Inception网络的3a层、3b层和3c层。其中3a层分为以下四部分：①64个1×1的卷积核，输出为[BS×N，64，28，28]；②96个1×1的卷积核，作为3×3卷积核之前的降维，变成[BS×N，96,28,28]，然后进行ReLU计算，再进行128个3×3的卷积，输出[BS×N，128，28，28]；③16个1×1的卷积核，作为5×5卷积核之前的降维，变成[BS×N，16，28，28]，进行ReLU计算后，再进行32个5×5的卷积，输出[BS×N，32，28，28]；④池化层，使用3×3的卷积核，输出[BS×N，192，28，28]，然后进行32个1×1的卷积，输出[BS×N，32，28，28]。对这四部分输出结果的第二维并联，即64+128+32+32＝256，最终输出[BS×N，256，28，28]。3b、3c与3a类似，在此不再重复。二维卷积网络的输出尺寸为[BS×N，96，28，28]。

三维卷积网络:本发明使用ResNet3D-18网络的3_x、4_x和5_x层以提取运动信息。首先将二维卷积网络的输出调整至[BS，96，N，28，28],然后将其输入至三层的三维残差网络，每个残差网络包括四个卷积核为3×3×3的三维卷积，并且特征图的数量每层加一倍。三维卷积网络的输出为[BS，512，N/4，7，7]。

全连接层：将三维卷积网络的输出输入至核为1×7×7的三维平均池化层，其输出的每一个节点与最终的类别数(27类)相连，随机丢弃率设为0.8，最终得到分类结果。

深度学习通常需要大量数据作为支持，数据增强是一种基于现有数据集增加数据多样性的方法。在步骤2完成数据融合后，本发明进行数据增强，以扩充数据量。本发明将输入数据进行以下变换：(a)随机对图像尺寸做一定范围(±20％)的调整；(b)随机对图像做一定角度(小于20°)的旋转操作；(c)随机选取图像(256×256)的一部分，裁剪区域的大小从{256，224，192，168}随机选择，然后将其缩放到224×224。

实验中使用Pytorch搭建神经网络，使用JESTER手势识别公开数据集进行训练。损失函数为交叉熵损失。在训练阶段，使用带动量的随机梯度下降法，动量设定为0.9。初始学习率和权重衰减分别设定为0.001和0.0005，并且分别在第15、25、40轮减少10倍，训练在第60轮结束。训练结果如表3所示：

表3为不同参数对网络精度和时间消耗的影响对比：

表3中，表示视频分割段数以及融合的帧差图像数量对网络精度和时间消耗的影响对比(N_c_fd_m表示视频分割为N段，每段中融合一帧彩色图像和m张帧差图作为输入)；结果表明将视频序列分割为16段，每帧彩色图像附加两帧帧差图分类精度最优，本发明中的方法在验证集上精度可达到96.22％。

对高效卷积神经网络进行测试时使用JESTER数据集中的测试集进行测试。本发明中的方法在测试集上精度为95.96％，并可每秒处理33.2段平均帧数为36帧的视频序列，可以满足实时性的要求。图2为本发明与高效卷积神经网络的各类别识别精度对比，图3显示了本发明与高效卷积网络的混淆手势对比效果。图3.(a)(b)(c)是由手形差异引起的混淆，(d)(e)是由运动轨迹引起的混淆，(f)是由手指微小运动引起的混淆；图3(a)视频序列标签为Swiping Down，本发明将其识别为Swiping Down的概率为99.89％；高效卷积神经网络的识别概率为51.93％；(b)标签为Zooming In With Two Fingers；本发明将其识别为Zooming In With Two Fingers的概率为99.70％；高效卷积神经网络将其识别为ZoomingIn With Full Hand类别，概率为65.94％；(c)标签为Sliding Two Fingers Right的数据，本发明将其识别为Sliding Two Fingers Right的概率为99.84％，高效卷积神经网络将其识别为类别Swiping Right，概率为58.52％；(d)标签为Stop Sign的数据，本发明将其识别为Stop Sign的概率为92.60％，高效卷积神经网络将其识别为Pushing Hand Away，概率为79.03％；(e)标签为Sliding Two Fingers Up的数据，本发明将其识别为Sliding TwoFingers Up的概率为97.49％，高效卷积神经网络将其识别为Sliding Two Fingers Down，概率为74.04％；(f)标签为Drumming Fingers，本发明的概率为97.49％；高效卷积神经网络则将其识别为Stop Sign，概率为51.93％；(g)标签为Turning Hand Clockwise，本发明将其识别为Turning Hand Counterclockwise，概率为52.45％，高效卷积神经网络将其识别为Turning Hand Clockwise，概率为76.50％；(h)标签为Turning HandCounterclockwise，本发明的概率为99.87％，高效卷积神经网络的概率为97.12％；由此可以看出，本发明对这些易混淆手势有较好的分类效果，但是对于(g)(h)中所示的“顺时针转动”和“逆时针转动”无较大提升，由于左手和右手的对称性，不同手做相同的动作时手型相反，因此，这两种手势的分类具有挑战性。自此，就实现了基于高效卷积神经网络的多模态融合手势识别算法。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于高效卷积神经网络的多模态融合手势识别方法，其特征在于，包括如下步骤：

步骤2、数据层融合：针对彩色图像序列F中的各帧彩色图像，在帧差序列M找到相同索引值的帧差图像，将该帧差图像以及该帧差图像的前m-1帧的帧差图像并连同该彩色图像，按索引值次序组成一帧具有(3+m)通道数的多通道融合图像；m取值范围为1至4；遍历彩色图像序列F中的每一帧彩色图像后，最终形成一段具有N张多通道融合图像的序列{F¹,F²,...,F^N}；N表示手势视频序列V被分成的段数；

2.如权利要求1所述的一种基于高效卷积神经网络的多模态融合手势识别方法，其特征在于，对所述步骤2获得的通道融合图像的序列进行数据增强，以扩充数据量。

3.如权利要求2所述的一种基于高效卷积神经网络的多模态融合手势识别方法，其特征在于，所述数据增强的方法包括：(a)随机对图像尺寸做一定范围的调整；(b)随机对图像做一定角度的旋转操作；(c)随机选取图像的一部分，再放大到要求的尺寸。