CN107679491B

CN107679491B - 一种融合多模态数据的3d卷积神经网络手语识别方法

Info

Publication number: CN107679491B
Application number: CN201710909671.3A
Authority: CN
Inventors: 廖盛斌; 梁智杰; 杨宗凯; 刘三女牙; 左明章; 刘攀; 吴琼; 郭丰
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2020-05-19
Anticipated expiration: 2037-09-29
Also published as: CN107679491A

Abstract

本发明公开了一种基于多模态数据的3D卷积神经网络动态手语识别方法，具体为：构建深度神经网络，分别针对手势红外图像和轮廓图像从视频的空间维度和时间维度进行特征提取，融合两个基于不同数据格式的网络输出进行最终的手语分类。本发明对两种不同数据格式中的肢体运动轨迹信息进行准确的提取，有效降低了模型的计算复杂度，并采用深度学习策略融合两个网络的分类结果，有效解决了单个分类器由于数据丢失所引起的分类错误问题，使模型对不同场景的光照和背景噪声干扰有较好的鲁棒性。

Description

一种融合多模态数据的3D卷积神经网络手语识别方法

技术领域

本发明属于教育信息化技术领域，更具体的涉及一种基于3D卷积神经网络的动态手语识别方法及系统,可应用于科技馆环境下面向聋哑人特殊群体的体感互动。

背景技术

手语是聋哑人互相交流以及聋哑人与正常人交流最有利的工具，也是聋哑人群获取信息服务从而平等地参与社会生活、共享社会物质文化成果最重要最自然的途径。同时，动态手语因具有很强的视觉效果以及形象、直观的特点，在人机交互领域具有相当高的应用价值。

现有的手势识别方法都是遵循以下两个步骤：(1)从原始的输入数据中提取出复杂的特征；(2)基于提取到的特征训练出分类器。然而，人工的特征提取和选择是一件非常耗时耗力的工作，必须要有非常深厚的专业知识和经验才能确保分类特征的正确性。同时，人工选取的特征也很难适应动态手势的多变性。

中国专利申请号为201410795071.5的发明专利申请公开了一种基于主元分析和K均值聚类的手势识别方法，其主要技术方案为：人工标记视频流中的手势区域为感兴趣区域；利用肤色分割对感兴趣的区域进行边缘处理提取手部轮廓；最后利用PCA分析得到一个新的向量，通过比较新向量与训练得到的手势聚类中心之间的距离来判定该向量代表哪种手势。该方法采用K-Means无监督学习模型进行手势识别，所以前期的人工特征提取和选择情况会影响到系统的整体性能。

卷积神经网络(Convolutional Neural Networks,CNNs)是目前机器学习研究中一个新的热点，其优点在于通过多个串行的卷积层和池化层间隔排列，将原样本数据逐层变换到一个新的特征空间中，从而实现特征的自动提取。但是，传统的卷积神经网络是为了识别二维图像而设计的多层架构，现有算法在应对动态手势识别任务时无法考虑多帧之间的相关性，而时序特征恰恰是动态视频识别区别于静态图像识别的关键，这导致卷积神经网络在基于视频的动态手势识别方面的效果较差。

中国专利申请号为201710031563.0的发明专利申请公开了一种基于递归模型的手势识别方法，该方法的基本步骤包括：1.对静态、动态手势图像进行预处理；2.提取静态、动态手势空间序列；3.根据手势空间序列构造手势递归模型；4.通过手势递归模型进行手势分类。该方法采用RGB-D图像来训练深度网络模型，由于数据量比较大，计算分析数据慢，且算法复杂度较高，对于手部运动速度过快或肢体范围变化较大的动态手语，分类效果不够理想。

发明内容

针对上述现有技术中存在的不足，本发明提供了一种融合多模态数据的3D卷积神经网络的动态手语识别方法。该方法将传统的卷积神经网络(CNNs)进行了3D扩展，从视频的空间维度和时间维度进行特征提取，以捕捉到连续帧之间的肢体运动信息；根据不同的数据输入格式，分别训练两个3D卷积神经网络并将输出结果进行概率融合，从而达到复杂度低，实时性高、正确率高的目的。

为了实现上述任务，本发明采用以下技术方案：

一种基于多模态数据的3D卷积神经网络动态手语识别方法，包括以下步骤：

(1)提取待识别的手势红外图像和轮廓图像；

(2)将待识别的手势红外图像和轮廓图像分别输入两个3D卷积神经网络分类器，两个3D卷积神经网络分类器输出手势分类结果；

(3)对两个3D卷积神经网络输出手势分类结果进行加权计算得到融合分类结果；

所述步骤(2)中的两个3D卷积神经网络结构相同，均按照以下方式训练得到：

所述3D卷积神经网络结构包括输入层、至少两次交互堆叠的卷积层和池化层、softmax分类层；输入层将样本手势红外图像或样本轮廓图像输入交互堆叠的卷积层和池化层，得到用于手势分类的图像特征；softmax分类层依据图像特征进行分类输出手势类别结果；计算softmax分类层输出的手势分类结果与实际手势类别之间的误差，依据计算得到的误差反向传播计算每一层参数的梯度，进而依据梯度对连接每一层参数进行调整，该过程循环进行，直到使每一层参数达到分类输出的误差极小点而停止迭代；

所述卷积层表示为：

式中，

表示卷积层输出结果，

表示输入的样本图像数据，下标中(l-1)m表示第l-1层中的第m个特征图，上标中x和y代表输入样本的空间维度，z代表输入样本的时间维度，p,q,r分别是卷积操作中三个维度的大小；

是卷积核连接到前面第m个特征图中坐标为(i,j,m)的参数；P_i,Q_i,R_i代表卷积核的大小；

表示l层中的第j个特征图的偏置参数；σ(·)是神经网络的激活函数；

所述池化层表示为：

式中，

为三维输入向量即卷积层输出结果，pool_max为池化后得到的输出，n和l分别代表池化操作在空间维度和时间维度上的大小。

进一步地，所述依据计算得到的误差反向传播计算每一层参数的梯度的具体实现方式为：

式中，▽f(θ_t)表示使用一个批量的样本数据训练后得到的误差L对于前一个迭代周期参数θ_t-1的梯度，v_t是动量项，表示当前迭代累计的参数调整惯性，μ是冲量系数，ε表示学习速率。

进一步地，所述计算softmax分类层输出的手势分类结果与实际手势类别之间的误差的具体实现方式为：

式中，y'是真实的手势类别离散分布，f(x',θ)是神经网络结构预测的概率分布，L(y',f(x',θ))是损失函数，代表神经网络结构的分类结果与真实值的偏差，x'是输入的图像数据样本，θ是待优化的神经网络结构参数，直至达到一个全局最优或者局部最优解。

进一步地，所述步骤(3)对两个3D卷积神经网络输出手势分类结果进行加权计算得到融合分类结果的具体实现方式为：

P(C|x')∝a*P(C|x_I,W_I)+(1-a)*P(C|x_c,W_C)

式中，P(C|x')表示以所有图像数据x'作为输入数据对应的输出手势类别C的概率，P(C|x_I,W_I)表示第一个参数为W_I，以红外图像x_I作为输入数据子网络输出的所属手势类别C的概率，P(C|x_c,W_C)表示第二个参数为W_C，以轮廓图像x_c作为输入数据的子网络输出所属手势类别C的概率，权值a的值介于0和1之间。

本发明与现有技术方案相比，具有以下明显的优势和有益的效果：

1.使用深度学习策略，逐层抽取到更为抽象和宏观的特征。本发明通过对原始输入数据进行3D卷积操作从空间维度和时间维度上进行提取特征，使得模型能从相邻的帧之间高效地抽取出手语的静态特征和动态特征，有效克服了现有技术中人工特征提取费时费力、精确度不高的缺陷。

2.使用单通道的红外和轮廓图像来训练两个子网络，有效降低了模型的计算复杂度，且对不同场景的光照和背景噪声干扰有较好的鲁棒性。

3.提出了有效的融合策略，实现了在数据丢失时对单个分类器分类错误的补偿，使模型的分类准确率更高。

附图说明

图1是本发明方法流程图；

图2是本发明所采用的一个多模态数据样本；

图3是动态手语分割过程图；

图4是2D卷积和3D卷积的示意图；

图5是输入网络中的四种图像；

图6是本发明的网络总体结构图；

图7是本方法在科技馆手语数据集的分类正确率。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的技术思路是：使用单通道的红外和轮廓数据来分别训练两个神经子网络，网络对原始输入数据进行3D卷积操作从空间维度和时间维度上提取特征，使得模型能从相邻的帧之间高效地抽取出手语的静态特征和动态特征，最后再对两个神经子网络的输出进行有效融合。本发明对两种不同数据格式中的肢体运动轨迹信息进行准确的提取，有效降低了模型的计算复杂度，并采用深度学习策略融合两个网络的分类结果，有效解决了在单个分类器由于数据丢失时所引起的分类错误问题，使模型对不同场景的光照和背景噪声干扰有较好的鲁棒性。

两个3D卷积神经子网络结构相同，包括输入层、至少两次的交互堆叠的卷积层和池化层、softmax分类层。本发明使用的3D卷积神经网络的构造和训练包含以下环节：

第一步，前向传播

参照附图4，前向传播过程中的3D卷积操作实现如下式：

上式中，

表示输入的样本图像数据，下标中(l-1)m表示第l-1层中的第m个特征图，上标中x和y代表输入样本的空间维度，z代表时间维度，p,q,r分别是卷积操作中三个维度的大小。

是卷积核连接到前面第m个特征图中坐标为(i,j,m)的权值参数，P_i,Q_i,R_i代表卷积核的大小。

表示l层中的第j个特征图的偏置参数。

表示卷积层输出结果。σ(·)是神经网络的激活函数，传统的S型(sigmoid)和双正切tanh激活函数导数的值域都小于1，在经过每一层传递都会不断衰减，当网络层数很深时，会出现梯度消失问题，因此这里优选使用Rectified linear unit(ReLUs)作为激活函数，公式如下：

rectifier(X)＝max(0,X)

上式中，当输入的X值小于等于0时，强制X等于0；当输入的X值大于0时则不做改变。这样可以使输出具有一定的稀疏性从而加快网络训练的收敛速度。

每一个3D卷积层之后紧随的是池化层。传统基于图片的卷积神经网络的池化操作，可以使数据量急剧减小从而加速后面的计算，同时也保证了网络具有一定的不变形。而转移至基于视频的分类任务中时，在时间域上也同样需要一定的不变形，因此本发明将池化操作也拓展到了三维，3D的重叠最大池化定义为：

上式中，

为三维输入向量，即卷积操作后的输出，pool_max为池化后得到的输出，n代表池化操作在空间维度上的窗口大小，对二维的单帧图像不同n*n块内的所有特征提取最大值，这样特征图的尺寸缩小了n倍；l代表池化操作在时间维度上的大小，池化后的特征图数量将减小l倍，同时，网络对时间域上的变化更加鲁棒。

针对多个手势的分类任务，在最后的输出层使用了softmax分类器，即把可以判定为某个类的特征求一个加权和，然后把这些特征转化为判定是某一类的概率。这里，对于k个标量x₁,...,x_k，softmax函数定义为：

上式中，x_i表示输出层第i个神经元的输出。这样，可以将k个标量x₁,...,x_k转换为一个概率分布：p₁,...,p_k，满足

也就是分类器计算出每个样本属于第i类的概率，且所有概率之和为1。

第二步，定义损失函数

考虑到手语的多分类任务，预测目标y'为离散的类别而神经网络结构输出f(x',θ)为每个类的条件概率，为了计算出神经网络输出和实际手语标签之间的误差值，这里对交叉熵损失函数进行了改进：

假设y'∈{1,...C}，神经网络结构预测的第i个类的条件概率P(y'＝i|x')＝f_i(x',θ)，则f(x',θ)满足

考虑到计算问题，使用了负对数似然损失函数，定义如下式：

上式中，x'是输入的图像数据样本，y'是真实的手势类别离散分布，f(x',θ)是神经网络结构预测的概率分布，L(y',f(x',θ))是损失函数，用来判断神经网络结构对真实概率分布估计的准确程度，θ表示待训练的神经网络结构参数，可以直接用改进的梯度下降算法来优化。而训练的目的是通过优化θ的值，从而不断将L(y',f(x',θ))减小，直到达到一个全局最优或者局部最优解。

第三步，改进的梯度下降优化算法

由损失函数计算得到的误差来反向传播从而计算每一层参数的梯度，按照下式进行神经网络参数的更新：

θ_t+1＝θ_t+v_t+1

上式中，▽f(θ_t)表示使用一个批量(batch)的数据训练后得到的损失函数L对于前一个迭代周期参数θ_t-1的梯度，且第t次迭代时的参数更新依赖于发生在第t-1次迭代时的更新。ε表示学习速率，初始值指定为0.003；为了防止过拟合，在迭代过程中如果损失函数误差值的减小速率没有达到10％，则每一个周期对ε进行5％的衰减，从而保证参数更新不断减小，使学习过程向着复杂决策面的反方向偏置。v_t是动量项，表示当前迭代累计的参数调整惯性，μ是冲量系数设为0.9，在迭代的初期，使用前一次的梯度进行加速；而在迭代后期优化到达收敛值附近时，因为两次更新方向基本相反，使得梯度逐渐缩小。

这里的参数更新法则与随机梯度下降(Stochastic gradient descent,SGD)的方法类似，不同点是这里在计算梯度的时候，求解权重加上了冲量(momentum)的梯度▽f(θ_t+μv_t)，而SGD中只是简单的计算当前权重的梯度▽f(θ_t)，所以收敛速度相比SGD有了很大的提升。

为了进一步提高3D CNNs系统对手语的识别准确率，本发明对网络结构进一步做了改进，采用了一种由2个结构相同但输入数据不同的双列深度3D CNNs结构，融合模型按照下式结合从两个子网络估计出的所属类别概率来计算手语分类的最终输出：

P(C|x')∝a*P(C|x_I,W_I)+(1-a)*P(C|x_c,W_C)

上式中，P(C|x_I,W_I)表示第1个以红外图像作为输入数据的子网络输出的所属类别概率，P(C|x_c,W_C)表示第2个以轮廓图像作为输入数据的子网络输出的所属类别概率。a的值介于0和1之间，是用来控制两种模式对分类结果影响的权重系数，并通过交叉验证优化其值。

下面结合附图1和实例对本发明的具体方法具体描述：

步骤1：体感数据采集

为了有效抑制光照和场景噪声的干扰，本发明摒弃了以往传统的使用RGB图像作为训练样例的方法，而是基于Kinect V2for Windows开发了多模态数据采集系统“SignLanguage Recorder"，该系统从红外图像、轮廓图像中独立的进行特征提取，在自然光照条件下，采集动态手语视频6800个共计20类，视频分辨率为512*424，并利用骨骼数据从上述两种图像中分割出手部区域和上肢的动态轨迹。如附图2是所采集样本的示例。

步骤2：数据预处理

第一步，手语时间维度的分割。参照附图3，使用窗口滑动法，将视频长度标准化为固定长度(譬如32帧)。如果采集的视频长度大于32帧，则删除两端的多余帧；反之，则重复某些帧。

为原手语样例视频x的起始帧，

为原手语样本视频x的结束帧，

为手语样例视频x的长度。

若L_x＞32，则

这里

为分割后的手语样例x新的起始帧。

这里

为分割后的手语样例x新的结束帧。

若L_x≤32，则

仍作为分割后的手语样例x的起始帧。

这里

为分割后的手语样例x新的结束帧。

第二步，按照人体区域范围将每一帧图像剪切为64*64像素，得到统一分辨率的视频。

步骤3：构造深度网络模型

构建两个3D卷积神经子网络，每个子网络结构相同，包括输入层、卷积层、池化层和softmax分类层以及最终的输出层。参照附图6，网络的深度共计11层。

其中,softmax的权重初始化使用了Xavier初始化器创建了一个

范围内的均匀分布，使权重满足0均值，同时方差为

这里，n_in是输入节点的数量，n_out是输出节点的数量。

本发明实例的3DCNNs结构如附图6所示，一共有三次卷积和池化组合构成了卷积层C1，池化层P1，卷积层C2，池化层P2，卷积层C3，池化层P3。紧随其后的softmax分类器由传统的3层神经网络构成，网络最终的手语分类层由20个节点构成，对应20种手语分类。因此，包含输入层网络的深度是11层。

网络的输入由连续32帧动态手势图像组成，每帧图像大小为64*64，因此输入数据大小为64*64*32，卷积层C1的3D卷积核数目为16个，3D卷积核的大小为5*5*5，每个3D卷积核的权重均设置相同。输入数据经过卷积后得到16幅大小为60*60*28的特征图，池化层P1使用大小为2*2*2的窗口进行降维采样，因此得到16幅大小为30*30*14的特征图。同理，C2层3D卷积核数目为32个，大小为5*5*5，经过卷积后得到32幅大小为26*26*10的特征图，然后池化后得到32幅大小为13*13*5的特征图。第三次卷积操作C3将卷积核的大小设置为4*4*4，得到48幅大小为10*10*2的特征图，经过池化操作后得到48幅大小为5*5*1的特征图。

3DCNNs通过堆叠连续的多帧图像组成一个连续帧图像立方体，然后使用3D卷积核对多帧立方体进行卷积操作，卷积层中每一个特征图都与上一层中的多张图像连接，因此输入的视频经过三维的卷积操作后，连续帧中的肢体运动信息就会被捕捉到。

步骤4：数据输入

第一步，利用骨骼数据信息，将预处理后的视频图像裁切成两部分：上身图像和手部图像。这里，如果手语使用双手完成的话，就随机跟踪左、右任意一个手的轨迹形成连续的视频。

第二步，使用阈值法去除红外图像背景中的噪声，在网络的前两层使用(Localcontrast normalization,LCN)进行归一化处理。最后输入网络的数据有四种图像构成：上身红外图、手部红外图、上身轮廓图、手部轮廓图，如附图5所示。

步骤5：逐层提取特征向量

经过前期多模态数据的预处理，得到了4种数据格式；按照存储图像格式(红外、轮廓)的不同，参照附图6，分别输入到网络中进行训练。

第一步：输入的样本视频分辨率为64*64*32，其中64*64表示图像的分辨率，32表示连续的帧数。

第二步：使用16个尺寸为5*5*5的不同3D卷积核进行3D卷积操作，其中5*5是指在空间维度上的卷积核尺寸，同时在时间维度上卷积核的大小为5，从而得到含有8倍于通道数量的feature map。

第三步：紧接卷积操作之后为池化操作，在各feature map空间域上进行采样单元为2*2的下采样，在时间域上进行采样单元为2的下采样，得到数量相同但时空分辨率减小的feature map，作为网络第三层。

第四步：对第三层的每个feature map采用尺寸为5*5*5的32个不同的3D卷积核进行3D卷积，得到2倍于第三层数量的feature map。

第五步：紧接卷积操作之后，在各feature map的空间域上进行尺寸为2*2的下采样操作，时间域上进行采样单元为2的下采样，得到网络第五层。

第六步：对网络进行第3次卷积和下采样操作。与前两次操作不同，采用尺寸为4*4*4的48个不同的3D卷积核，得到1.5倍于第五层数量的feature map，紧随其后进行2*2*2的下采样操作，得到网络的第七层。

步骤6：对特征向量进行分类

结束3次卷积和下采样的特征提取操作之后，使用传统的3层全链接softmax作为分类器进行最后的分类工作。网络的第八层为1200个尺寸为1*1的feature map，每个feature map与第七层的所有feature map全链接，作为三层神经网络分类器的输入层。中间隐藏层节点个数为512。

步骤7：输出分类结果

网络的输出层包含20个输出节点，对应20种手语分类结果的标签，分别得到两个子网络输出的概率P(C|x_I,W_I)和P(C|x_C,W_C)。采用反向传播算法(Back-Propagation,BP)对训练样本集进行在线训练，并使用加速梯度(Nesterov’s accelerated gradient,NAG)算法进行参数的调整。

步骤8：多模态融合

后期的融合模型按照下式结合从两个子网络估计出的所属类别概率来计算手语分类的最终输出：

P(C|x')∝a*P(C|x_I,W_I)+(1-a)*P(C|x_c,W_C)

P(C|x_I,W_I)表示第1个以红外图像作为输入数据的子网络输出的所属类别概率，P(C|x_c,W_C)表示第2个以轮廓图像作为输入数据的子网络输出的所属类别概率。a是用来控制两种模式对分类结果影响的权重系数。

为了验证本方法的有效性，本发明分别在公开数据集和自主设计的科技馆参观手语数据库上进行了实验验证：

实验使用了2014年手势识别竞赛Chalearn LAP的动态手语公共数据集，本方法的识别精度达到了90.3％，比Chang J Y等提出的基于HOG特征和MRF分类器的识别精确率高了7.6％，比Necati C等提出的基于模板匹配和Random Forest分类器的识别精度高了15.6％，比Monnier C等提出的基于HOG特征和Boosted classifier分类的识别精度高了8.1％。

在自主设计的聋哑人科技馆参观手语数据库上，分别进行了两组实验。首先选用Baccouche M等人提出的基于传统CNNs模型的方法对该数据集进行分类，识别精度是63.8％；而使用本发明提出的算法，识别精度达到了68.7％，提升了4.9％。同时，实验还表明本发明提出的算法可以对数据丢失时单个分类器分类的错误进行补偿，使模型的分类准确率更高。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模态数据的3D卷积神经网络动态手语识别方法，其特征在于，包括以下步骤：

(1)提取待识别的手势红外图像和轮廓图像；

所述3D卷积神经网络结构包括输入层、至少两次交互堆叠的卷积层和池化层、softmax分类层；输入层将样本手势红外图像或样本轮廓图像输入交互堆叠的卷积层和池化层，得到用于手势分类的图像特征；softmax分类层依据图像特征进行分类输出手势类别结果；计算softmax分类层输出的手势分类结果与实际手势类别之间的误差，依据计算得到的误差反向传播计算每一层参数的梯度，进而依据梯度对连接每一层参数进行调整，该调整过程循环进行，直到使每一层参数达到分类输出的误差极小点而停止迭代；

所述卷积层表示为：

式中，

表示卷积层输出结果，

所述池化层表示为：

式中，

为三维输入向量即卷积层输出结果，pool_max为池化后得到的输出，n代表池化操作在空间维度上的窗口大小，l代表池化操作在时间维度上的大小。

2.根据权利要求1所述的基于多模态数据的3D卷积神经网络动态手语识别方法，其特征在于，所述依据计算得到的误差反向传播计算每一层参数的梯度的具体实现方式为：

θ_t+1＝θ_t+v_t+1

式中，θ_t表示当前计算周期，batch表示训练数据的一个批量，δL表示由损失函数计算得到的误差，

表示使用一个批量的样本数据训练后得到的误差L对于前一个迭代周期参数θ_t-1的梯度，v_t是动量项，表示当前迭代累计的参数调整惯性，μ是冲量系数，ε表示学习速率。

3.根据权利要求1或2所述的基于多模态数据的3D卷积神经网络动态手语识别方法，其特征在于，所述计算softmax分类层输出的手势分类结果与实际手势类别之间的误差的具体实现方式为：

式中，y'是真实的手势类别离散分布，f(x',θ)是神经网络结构预测的概率分布，L(y',f(x',θ))是损失函数，代表神经网络结构的分类结果与真实值的偏差，x'是输入的图像数据样本，θ是待优化的神经网络结构参数，通过迭代优化直至达到一个全局最优或者局部最优解。

4.根据权利要求1或2所述的基于多模态数据的3D卷积神经网络动态手语识别方法，其特征在于，所述步骤(3)对两个3D卷积神经网络输出手势分类结果进行加权计算得到融合分类结果的具体实现方式为：

P(C|x')∝a*P(C|x_I,W_I)+(1-a)*P(C|x_c,W_C)