CN114360067A

CN114360067A - 一种基于深度学习的动态手势识别方法

Info

Publication number: CN114360067A
Application number: CN202210031076.5A
Authority: CN
Inventors: 李公法; 吴雄; 江都; 陶波; 孙瑛; 孔建益; 蒋国璋; 童锡良; 徐曼曼; 云俊童; 刘颖; 刘鑫; 赵国军
Original assignee: Wuhan University of Science and Engineering WUSE
Current assignee: Wuhan University of Science and Engineering WUSE
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-04-15

Abstract

本发明属于利用深度学习方法进行动态手势识别领域，本文提出了一种基于三维卷积神经网络的算法进行动态手势识别。现有基于深度学习的动态手势识别方法中，因为需要对视频空间信息和时序信息进行提取，网络输入信息量较大，导致其参数和计算量都十分庞大，网络结构复杂，实时性不高。本发明针对手势识别模型训练前人工提取特征繁琐和提取特征不够精细的问题，提出了利用关键帧提取特征的方式，提高了特征提取的效率和精度。针对现有基于图像处理的手势识别技术受外界环境影响大和稳定性欠佳等问题，设计三维卷积网络融合了图像的时空信息，减小了信息输入的损失，具有更好的稳定性和实时性。

Description

一种基于深度学习的动态手势识别方法

技术领域

本发明属于利用深度学习方法进行动态手势识别领域，涉及本文提出了一种基于三维卷积神经网络的算法进行动态手势识别。

背景技术

手势又分为静态手势和动态手势，静态手势识别只是对一幅图片中的手型做出分类，例如对“OK”这种手势进行分类，在学习特征时只关注手势的空间特征。动态手势识别则是对图像序列组成的手势进行识别，在特征提取时不但要提取空间特征，更要提取时间特征。相较于静态手势识别，动态手势更贴近人的表达习惯、有更丰富的信息表达、更具有现实意义。目前，研究人员已经提出了多种动态手势识别的算法，有动态手势特征提取算法如MEI算法，HOG算法和HOF算法，也有分类算法如隐马尔科夫模型等。而随着深度学习技术的发展，也有很多视频分类算法如C三维，双流卷积网络和LSTM等被应用于动态手势识别，并得到了较高的识别率。在现有基于深度学习的动态手势识别方法中，因为需要对视频空间信息和时序信息进行提取，网络输入信息量较大，导致其参数和计算量都十分庞大，网络结构复杂，实时性不高。如果能对网络输入进行优化筛选，并对改进现有的特征提取方法，就可以实现动态手势识别效果的提高。

发明内容

本发明要解决的问题是：现有基于图像处理的手势识别技术存在不足，如受外界环境影响大、人工提取手势特征繁琐、提取特征不够精细及稳定性欠佳等。因此，本发明利用卷积神经网络实现手势视频定位分类，并结合动态手势特点，提出了一种三维卷积神经网络的动态手势识别方法。

本发明的技术方案为：首先对于动态手势数据进行采集与预处理，数据分为训练数据与测试数据；在获得了数据之后进行实验测试环境的搭建，分为硬件与软件的搭建，所有的实验都是在windows10系统下进行的，其中显卡为NVIDIA GTX3060Ti 8G，所运行软件环境配置为：python3.6，pytorch-1.3.0+torchvision-0.5.0，opencv-python-4.5.0等其他辅助Python库；其次进行神经网络的结构设计；然后把经过标记的训练数据放入此网络结构中进行学习；最后输入测试数据样本进行测试，得出最后的动态识别精度；包括如下步骤

步骤1：动态手势样本采集，采用EgoGesture手势数据集中50个动态手势视频片段进行实验。EgoGesture手势数据集包含50个不同主题的2,081个RGB-D视频，24,161个手势样本和2,953,224帧。每个视频样本都由Intel RealSense SR300相机拍摄，数据格式为RDB-D，每帧视频以640×480像素的分辨率和30fps录制。其中有33种静态和50种动态手势，为满足本方法训练测试要求，需要对数据进行动作区域切分提取操作，将每个动作依据发生时间区间和类别进行提取，获得50*300*2个包含深度和彩色的动态手势片段。对于双模态的数据库样本，分别随机将其中60％作为训练集，20％作为验证集，20％作为测试集。

步骤2：图像预处理，输入采用的是16帧长度的视频，对数据进行预处理，使得数据长度符合神经网络的输入要求。

步骤3：搭建实验平台；

步骤4：三维卷积神经网络设计。

步骤5：模型训练。将50类动态手势的训练集和测试集输入模型进行训练，使用带动量的小批量随机梯度下降算法对三维卷积神经网络进行优化，其中训练步数为101步，批量大小为16，初始学习率为0.01，学习率衰减因子为每3000次迭代衰减0.1，在训练模型时，每隔20步对模型进行一次验证调整，保证模型的准确率和泛化性。

步骤6：实验与结果。将50种动态手势的验证集按模型正向传播方法进行准确度测试，得到各类动态手势识别精度

进一步地，步骤2具体为：首先利用RGB-D图像对手势区域进行分割提取，获得去除背景的手部图像，然后利用相邻图像像素标准差算法对图像序列中相邻图像帧差进行计算，然后对帧差大小进行排序，完成关键帧提取。在帧差值计算中，以帧间差分标准差L_n为关键帧的评价标准。预设关键帧的数量K，计算第n帧图像灰度值变化的标准差。设输入视频序列的连续帧图像分别为f_n，f_n+1，图像上像素点为(x,y)，该点在两帧图像上所对应灰度值分别为f_n(x,y)，f_n+1(x,y)，根据公式1计算帧间距离，

表示第n张图像第i个像素点的灰度值。然后，计算帧差的最大值和最小值，并根据公式2计算出中间值mid(L)。然后移除所有val≤mid(L)的局部极值，剩余极值点数量为m。最后，对提取到m个极值点进行排序，并选择前K个m所对应的视频帧作为关键帧。如果一个视频中总极值点数量m≤K时，保持m个视频帧，并对最后一个视频帧进行复制填充。

mid(L)＝(max(L)+min(L))/2 (2)

进一步地，步骤3中所有的实验都是在windows10系统下进行的，其中显卡为NVIDIA GTX3060Ti 8G，所运行软件环境配置为：python3.6，pytorch-1.3.0+torchvision-0.5.0，opencv-python-4.5.0等其他辅助Python库。

进一步地，步骤4中在三维卷积神经网络中加入了相邻帧时间维度信息的卷积操作，三维卷积的计算公式分别下所示。

式中：

为第i层第j个特征图在位置(x,y)上的输出；m代表参与卷积的特征图；P_i和Q_i分别表示三维卷积核的长度和宽度；T_i为三维卷积核在时间维度上的长度；

为当前层卷积核(p,q,t)位置的权值；b_ij为第i层，第j个卷积核输出特征的偏差；relu表示激活函数。

使用RGB图像和Depth图像的数据联合输入，设计了一种基于注意力机制的三维卷积神经网络(CBAM-C三维)的动态手势识别算法。本方法提出的CBAM-C三维算法是在传统C三维网络结构进行优化。在卷积层(三维Conv)中添加BN层和Relu层，卷积层的数字代表卷积核的个数，全连接层和最大池化层后衔接CBAM网络对特征进行优化。通过这种融合网络既可以减少输入信息的传输损失，又能够自动学习得到图像中包含重要的时空信息，然后根据信息的重要程度对特征进行筛选，从而实现特征权重的自适应校准，通过添加CBAM注意力机制，可以帮助网络更好的学习到图像的重要通道特征和空间位置。

设计卷积神经网络共8层，先用2个卷积层对视频进行一次卷积操作，然后合并输入下一个卷积层，合并之后在经过三个卷积层和三个全连接层，最后输入Softmax层进行分类识别，网络结构如图3。在前两个卷积层中，卷积核的大小为3×3×3，只有一个卷积核，采用三维最大池化方法，池化窗口大小为2×2×2；第三，四，五层卷积核大小为3×3×2，有两个卷积核，采用三维最大池化方法，池化窗口大小为2×2×2；经过三个全连接层，最后将结果输入Softmax层。

与现有技术相比，本发明具备以下有益效果：

本发明利用关键帧提取特征的方式，避免了人工提取特征繁琐和提取特征不够精细的问题。本发明的网络融合了图像的时空信息，减小了信息输入的损失。本发明对手势识别具有更好的稳定性。

附图说明

图1为本发明方法流程图

图2为动态手势关键帧提取流程图

图3为三维卷积神经网络结构图

图4为50类动态手势识别结果混淆矩阵

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施方式为，首先对动态手势数据集进行采集与预处理，将数据分为训练数据与测试数据；然后把训练数据放入基于注意力机制的三维卷积神经网络结构进行学习；最后输入测试数据样本进行测试，得出最后的动态手势识别精度。本发明方法流程图如图1所示，具体过程如下：

步骤1：动态手势样本采集，本方法采用EgoGesture手势数据集中50个动态手势视频片段进行实验。EgoGesture数据特点是一段视频包含一个人间隔完成多个手势动作，并有表格描述该段视频中动作出现时间帧和动作类别。EgoGesture手势数据集包含50个不同主题的2,081个RGB-D视频，24,161个手势样本和2,953,224帧。每个视频样本都由IntelRealSense SR300相机拍摄，数据格式为RDB-D，每帧视频以640×480像素的分辨率和30fps录制。其中有33种静态和50种动态手势，为满足本方法训练测试要求，需要对数据进行动作区域切分提取操作，将每个动作依据发生时间区间和类别进行提取，获得50*300*2个包含深度和彩色的动态手势片段。对于双模态的数据库样本，分别随机将其中60％作为训练集，20％作为验证集，20％作为测试集。

步骤2：图像预处理，本发明输入采用的是16帧长度的视频，需要对数据进行预处理，使得数据长度符合神经网络的输入要求。本方法对传统帧差法进行优化，实现准确的关键帧图像提取，具体流程如图2所示。首先利用RGB-D图像对手势区域进行分割提取，获得去除背景的手部图像，然后利用相邻图像像素标准差算法对图像序列中相邻图像帧差进行计算，然后对帧差大小进行排序，完成关键帧提取。在帧差值计算中，以帧间差分标准差L_n为关键帧的评价标准。例如预设关键帧的数量K，计算第n帧图像灰度值变化的标准差。如设输入视频序列的连续帧图像分别为f_n，f_n+1，图像上像素点为(x,y)，该点在两帧图像上所对应灰度值分别为f_n(x,y)，f_n+1(x,y)，根据公式1计算帧间距离，

mid(L)＝(max(L)+min(L))/2 (2)

步骤3：搭建实验平台，所有的实验都是在windows10系统下进行的。其中显卡为NVIDIA GTX3060Ti 8G，所运行软件环境配置为：python3.6，pytorch-1.3.0+torchvision-0.5.0，opencv-python-4.5.0等其他辅助Python库。

步骤4：三维卷积神经网络设计。三维卷积神经网络(三维-CNN)是为了弥补CNN在处理图像时域关系较强场景下的不足而提出的，与二维卷积神经网络不同的是三维-CNN使用三维的卷积核，在二维卷积核的基础上增加了时间维度上的计算，可以同时提取序列图像中的图像特征以及时域特征。原始的图像序列或者视频经过三维卷积后生成特征立方体(2D卷积生成特征图)，特征立方体再依次经过后续的三维卷积层提取时空特征生成新的特征立方体。三维卷积神经网络中加入了相邻帧时间维度信息的卷积操作，三维卷积的计算公式分别下所示。

式中：

本文使用RGB图像和Depth图像的数据联合输入，设计了一种基于注意力机制的三维卷积神经网络(CBAM-C三维)的动态手势识别算法。本方法提出的CBAM-C三维算法是在传统C三维网络结构进行优化。在卷积层(三维Conv)中添加BN层和Relu层，卷积层的数字代表卷积核的个数，全连接层和最大池化层后衔接CBAM网络对特征进行优化。通过这种融合网络既可以减少输入信息的传输损失，又能够自动学习得到图像中包含重要的时空信息，然后根据信息的重要程度对特征进行筛选，从而实现特征权重的自适应校准，通过添加CBAM注意力机制，可以帮助网络更好的学习到图像的重要通道特征和空间位置。

本方法设计卷积神经网络共8层，先用2个卷积层对视频进行一次卷积操作，然后合并输入下一个卷积层，合并之后在经过三个卷积层和三个全连接层，最后输入Softmax层进行分类识别，网络结构如图3。在前两个卷积层中，卷积核的大小为3×3×3，只有一个卷积核，采用三维最大池化方法，池化窗口大小为2×2×2；第三，四，五层卷积核大小为3×3×2，有两个卷积核，采用三维最大池化方法，池化窗口大小为2×2×2；经过三个全连接层，最后将结果输入Softmax层。

步骤5：模型训练。将50类动态手势的训练集和测试集输入模型进行训练，本方法使用了带动量的小批量随机梯度下降算法对三维卷积神经网络进行优化，其中训练步数为101步，批量大小为16，初始学习率为0.01，学习率衰减因子为每3000次迭代衰减0.1，在训练模型时，每隔20步对模型进行一次验证调整，保证模型的准确率和泛化性。

步骤6：实验与结果。将50种动态手势的验证集按模型正向传播方法进行准确度测试，得到各类动态手势识别精度，具体识别结果如图4所示。图中纵坐标为50种手势的标签，横坐标为预测的50种标签，格子的深浅表示对应预测标签的置信度。以图的每一行作为基准，可以看出每个手势与其对应的预测标签匹配度最高。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种三维卷积神经网络的动态手势识别方法，其特征在于，所述方法包括如下步骤：

步骤1：动态手势样本采集，采用EgoGesture手势数据集中50个动态手势视频片段进行实验；EgoGesture手势数据集包含50个不同主题的2,081个RGB-D视频，24,161个手势样本和2,953,224帧；每个视频样本都由Intel RealSense SR300相机拍摄，数据格式为RDB-D，每帧视频以640×480像素的分辨率和30fps录制；其中有33种静态和50种动态手势，为满足本方法训练测试要求，需要对数据进行动作区域切分提取操作，将每个动作依据发生时间区间和类别进行提取，获得50*300*2个包含深度和彩色的动态手势片段；对于双模态的数据库样本，分别随机将其中60％作为训练集，20％作为验证集，20％作为测试集；

步骤2：图像预处理，输入采用的是16帧长度的视频，对数据进行预处理，使得数据长度符合神经网络的输入要求；

步骤3：搭建实验平台；

步骤4：三维卷积神经网络设计；

步骤5：模型训练；将50类动态手势的训练集和测试集输入模型进行训练，使用带动量的小批量随机梯度下降算法对三维卷积神经网络进行优化，其中训练步数为101步，批量大小为16，初始学习率为0.01，学习率衰减因子为每3000次迭代衰减0.1，在训练模型时，每隔20步对模型进行一次验证调整，保证模型的准确率和泛化性；

步骤6：实验与结果；将50种动态手势的验证集按模型正向传播方法进行准确度测试，得到各类动态手势识别精度。

2.如权利要求1所述的一种三维卷积神经网络的动态手势识别方法，其特征在于，步骤2具体为：首先利用RGB-D图像对手势区域进行分割提取，获得去除背景的手部图像，然后利用相邻图像像素标准差算法对图像序列中相邻图像帧差进行计算，然后对帧差大小进行排序，完成关键帧提取；在帧差值计算中，以帧间差分标准差L_n为关键帧的评价标准；预设关键帧的数量K，计算第n帧图像灰度值变化的标准差；设输入视频序列的连续帧图像分别为f_n，f_n+1，图像上像素点为(x,y)，该点在两帧图像上所对应灰度值分别为f_n(x,y)，f_n+1(x,y)，根据公式1计算帧间距离，

表示第n张图像第i个像素点的灰度值；然后，计算帧差的最大值和最小值，并根据公式2计算出中间值mid(L)；然后移除所有val≤mid(L)的局部极值，剩余极值点数量为m；最后，对提取到m个极值点进行排序，并选择前K个m所对应的视频帧作为关键帧；如果一个视频中总极值点数量m≤K时，保持m个视频帧，并对最后一个视频帧进行复制填充；

mid(L)＝(max(L)+min(L))/2 (2)。

3.如权利要求1所述的一种三维卷积神经网络的动态手势识别方法，其特征在于，步骤3中所有的实验都是在windows10系统下进行的，其中显卡为NVIDIA GTX3060Ti 8G，所运行软件环境配置为：python3.6，pytorch-1.3.0+torchvision-0.5.0，opencv-python-4.5.0等其他辅助Python库。

4.如权利要求1所述的一种三维卷积神经网络的动态手势识别方法，其特征在于，步骤4中在三维卷积神经网络中加入了相邻帧时间维度信息的卷积操作，三维卷积的计算公式分别下所示；

式中：

为当前层卷积核(p,q,t)位置的权值；b_ij为第i层，第j个卷积核输出特征的偏差；relu表示激活函数；

使用RGB图像和Depth图像的数据联合输入，设计了一种基于注意力机制的三维卷积神经网络CBAM-C三维的动态手势识别算法；在卷积层中添加BN层和Relu层，卷积层的数字代表卷积核的个数，全连接层和最大池化层后衔接CBAM网络对特征进行优化；通过这种融合网络既可以减少输入信息的传输损失，又能够自动学习得到图像中包含重要的时空信息，然后根据信息的重要程度对特征进行筛选，从而实现特征权重的自适应校准，通过添加CBAM注意力机制，可以帮助网络更好的学习到图像的重要通道特征和空间位置；

设计卷积神经网络共8层，先用2个卷积层对视频进行一次卷积操作，然后合并输入下一个卷积层，合并之后在经过三个卷积层和三个全连接层，最后输入Softmax层进行分类识别，网络结构如图3；在前两个卷积层中，卷积核的大小为3×3×3，只有一个卷积核，采用三维最大池化方法，池化窗口大小为2×2×2；第三，四，五层卷积核大小为3×3×2，有两个卷积核，采用三维最大池化方法，池化窗口大小为2×2×2；经过三个全连接层，最后将结果输入Softmax层。