CN106991372B - 一种基于混合深度学习模型的动态手势识别方法 - Google Patents
一种基于混合深度学习模型的动态手势识别方法 Download PDFInfo
- Publication number
- CN106991372B CN106991372B CN201710120922.XA CN201710120922A CN106991372B CN 106991372 B CN106991372 B CN 106991372B CN 201710120922 A CN201710120922 A CN 201710120922A CN 106991372 B CN106991372 B CN 106991372B
- Authority
- CN
- China
- Prior art keywords
- gesture
- mvrbm
- frame
- model
- cnn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于混合深度学习模型的动态手势识别方法包括:训练阶段,首先基于构成手势视频的图像集训练CNN,然后利用训练好的CNN逐帧提取动态手势视频序列每帧的空间特征;对待识别的每个手势视频序列,将CNN学习到的各帧级特征按时间顺序组织成矩阵;把该矩阵输入到MVRBM以学习融合时空属性的手势动作时空特征;引入具有判别性的NN;即把MVRBM看作NN模型参数的预训练过程,把MVRBM学到的网络权值和偏置作为NN的权值和偏置的初值,并通过反向传播算法微调NN权值和偏置;测试阶段,同样基于CNN逐帧提取动态手势视频序列每帧特征并拼接,输入前述训练好的NN进行手势识。采用本发明的技术方案,实现对3D动态手势视频序列的有效时空表示。
Description
技术领域
本发明属于计算机视觉与机器学习领域,具体地涉及一种基于混合深度学习模型的动态手势识别方法。
背景技术
手势识别在可视交流、人机交互、增强现实等领域有重要应用。不过由于手势的复杂多变性以及光照、个体变化等因素影响,手势识别研究仍是一个具有挑战性的问题。基于视觉的手势识别通常包括特征提取和分类器设计两个方面。常用分类器包括神经网络(NN)、隐马尔可夫模型(HMM)等。手势特征表示方法通常包括:手形、手部重心位置、矩特征、尺度不变特征变换(Scale-invariant feature transform,SIFT)特征,方向梯度直方图(Histogram of Oriented Gradient,HOG)特征等。但人工选取的特征通常需要先验知识,而且有不能自适应数据等局限性。近来,深度学习方法在图像特征提取及分类识别领域有很好的优势。深度学习的一个典型模型是受限玻尔兹曼机(Restricted BoltzmannMachine,RBM),它是面向向量数据输入输出的概率模型。对于2D,3D等高维数据,显然向量化的操作会破坏2D图像,3D视频等的内部结构,导致损失了结构中隐藏的交互信息,在传统基于向量变量的受限玻尔兹曼机研究基础上,齐光磊等针对图像等高维数据提出了基于矩阵变量的受限波尔兹曼机(Matrix Variable Restricted Boltzmann Machine,MVRBM),该模型能够更好地建模2D数据,不过RBM以及MVRBM模型都是无监督的。在深度学习领域,另一个广受关注的模型是卷积神经网络(Convolutional Neural Network,CNN),CNN已被成功应用于定位、检测以及识别分类等各图像分析与理解领域,也有方法基于CNN以及其变体3DCNN建模视频序列的时间轴进行视频分类,这是一个困难而复杂的任务,模型参数大、难以训练,并且要求训练数据多。
发明内容
本发明提供一种动态手势识别方法,该发明面向动态手势识别问题,利用CNN和MVRBM的优势,设计了一种基于CNN-MVRBM混合模型预训练NN模型的方法。该方法整合了CNN对图像的表达能力以及MVRBM对2D信号的降维表示及预训练能力,从而一方面实现了对3D动态手势视频序列的有效时空表示,另一方面提升了传统NN的识别性能。
为实现上述目的,本发明采用如下的技术方案:
一种基于混合深度学习模型的动态手势识别方法,包括以下步骤:
训练阶段:
1.1、针对输入的动态手势视频,首先基于Canny边缘检测进行去光照预处理;
1.2、基于全部视频所包含的预处理后的手势静态图像训练CNN模型;
1.3、定义训练数据中每个手势动作视频用T帧描述,接着将预处理好的手势视频T帧序列图像逐一地输入到CNN中,提取视频序列每一帧的特征;
1.4、假定基于CNN提取的每一帧图像的特征为M维,对每个待识别的手势动作视频单元,按时间顺序逐行顺次排列这些图像帧特征,这样,一个视频动作的特征可以表示为T行M列的矩阵形式;
1.5、将大小为TxM的视频特征输入到MVRBM模型中进行训练,通过不断的调整参数训练出最优的MVRBM模型;
1.6、此时所有的预训练阶段已经结束,接下来建模NNet,NNet的输入和隐层节点数对应MVRBM的输入和输出矩阵的向量化的维度,MVRBM模型的权重参数作为NNet网络的输入到隐层权重参数的初始值,MVRBM的输入向量化作为NNet的输入,然后通过反向传播算法不断调节NNet网络参数使得手势识别的误差最小;
测试阶段:
2.1、同样地,与训练阶段(1.1)(1.2)(1.3)步骤一样,对测试数据进行处理,即对每个T帧的视频序列,提取每一帧M维的特征;
2.2、依次串联每个视频序列中的所有帧的特征,得到维度为T*M大小的向量,这样,每个视频数据都可以用T*M大小的向量特征表示;
2.3、将(2.2)中向量作为训练好的NNet网络的输入,进行测试及分类。
作为优选,基于矩阵变量玻尔兹曼机(MVRBM)的时空建模过程如下:
首先定义了MVRBM相应的能量函数:
其中,V=[vij]是二进制可见层矩阵变量,对应20×64的手势时空二维表示,H=[hkl]是二进制隐藏层矩阵变量,对应提取出的手势时空特征,假设独立变量vij和hkl从{0,1}中取值;为模型参数变量,权重是连接可见层V和隐藏层H的四阶张量参数,B=[bij]和C=[Ckl]分别是可见层和隐藏层的偏置矩阵;
为了减少自由参数的数量和节省计算复杂度,假定可见层单元和隐藏层单元的连接权值有如下关系:wijkl=xkiylj,通过两个新的矩阵X=[xki]∈RK×I和Y=[ylj]∈RL×J,可以把能量函数(1)改写为如下形式,
E(V,H;θ)=-tr(XTHYVT)-tr(VTB)-tr(HTC) (2)
其中,矩阵X和Y共同定义了输入矩阵V和隐含矩阵H的连接权,这样,Θ中的自由参数减少为I×K+K×L+L×J+J×I个,基于公式(2),V和H的联合分布概率为:
其中,Θ表示所有的模型参数X,Y,B和C,归一化常量Z(Θ)定义为:
Z(θ)=∑X∈x,Y∈y exp{-E(X,Y;Θ)} (4)假定手势图像样本集D={E1,...,EN},根据公式(3)样本集D的对数似然函数为:
MVRBM的具体训练过程如下:
(1.1)、定义矩阵型训练手势图像样本集D={E1,...,EN},最大迭代次数Z,动量系数γ,学习率α,权值正则项β,每组训练样本数,CD算法K步;
(1.2)、随机初始化模型参数变量X和Y,令偏置变量B=C=0,随机梯度ΔX=ΔY=ΔB=ΔC=0;
(1.3)、迭代步数z=1→Z进行;
(1.4)、随机将D={E1,...,EN}分成M组D1...DM,大小为b;
(1.5)、组m=1→M进行;
(1.6)、对所有手势图像样本数据在当前模型参数下进行吉布斯采样V(0)=v∈Dm;
(1.7)、k=0→K-1进行;
(1.8)根据公式(5)对手势图像样本H(k)进行采样
(1.9)根据公式(6)对手势图像样本V(k)进行采样
(1.10)根据公式(7)进行梯度的更新
(1.11)根据公式θ=θ+Δθ更新模型参数θ∈Θ;
(1.12)结束。
附图说明
图1、CNN-MVRBM-NN模型的训练过程;
图2、CNN-MVRBM-NN模型的测试过程
图3、CNN模型的示意图;
图4、九种不同的动态手势序列的示意图;
图5、图4的五种不同的光照示意图。
具体实施方式
本发明实施例提供一种动态手势识别方法,该发明面向动态手势识别问题,利用CNN和MVRBM的优势,设计了一种基于CNN-MVRBM混合模型预训练NN模型的方法。该方法整合了CNN对图像的表达能力以及MVRBM对2D信号的降维表示及预训练能力,从而一方面实现了对3D动态手势视频序列的有效时空表示,另一方面提升了传统NN的识别性能。
CNN-MVRBM-NN混合深度学习模型包括训练和测试两个阶段。训练阶段,综合了CNN有效的图像特征提取能力,MVRBM对2D信号的建模能力,以及NN的有监督分类特性。识别阶段,基于前述训练好的CNN和NN模型,可有效进行动态手势识别。具体地,训练阶段,首先基于构成手势视频的图像集训练CNN,然后利用训练好的CNN逐帧提取动态手势视频序列每帧的空间特征;接下来,对待识别的每个手势视频序列,将CNN学习到的各帧级特征按时间顺序组织成矩阵;进一步地,把该矩阵输入到MVRBM以学习融合时空属性的手势动作时空特征。不过由于MVRBM模型是无监督的,我们引入具有判别性的NN;即把MVRBM看作NN模型参数的预训练过程,把MVRBM学到的网络权值和偏置作为NN的权值和偏置的初值,并通过反向传播算法微调NN权值和偏置。NN模型的构建依赖于MVRBM,即NN的输入和隐层节点大小对应MVRBM的向量化的输入和输出节点数。NN的输入数据源于向量化的MVRBM的输入。测试阶段,同样基于CNN逐帧提取动态手势视频序列每帧特征并拼接,输入前述训练好的NN进行手势识别。我们所提出的方法在剑桥手势数据集上的测试表明,其具有非常好的动态手势识别率。
手势是一种三维空间动作,基于视频的动态手势序列由一帧帧的图像序列表示。一种最直接的想法就是首先提取视频序列的每一帧特征,然后建模各序列帧的时间属性。所以,本发明首先基于在图像特征表示领域广受推崇的CNN进行单帧特征提取。为了基于CNN进行单帧特征提取,我们首先基于组成视频序列的所有手势图像训练CNN模型。对于待识别的手势视频单元,经过CNN获得每一帧特征后,为了进一步建模时间属性,我们引入MVRBM,即把CNN获得的各帧特征按时间顺序逐行叠加排列成矩阵从而获得一个2D的表示。在此生成的矩阵中,行数表示时间维度,列数表示每帧的空间特征维度。我们将该矩阵表征的手势时空特征输入到MVRBM,进一步提取动态手势的高层语义特征,这样融合的CNN-MVRBM可表示动态手势序列的时空特征。为了使生成式的MVRBM模型对于动态手势特征具有判别能力,我们加入了NNet网络。新的混合模型CNN-MVRBM-NN可更好地训练动态手势特征,该特征也更有判别性,更易于对动态手势视频进行识别。
本发明的步骤如下:
训练阶段(如图1所示):
(1)针对输入的动态手势视频,首先基于Canny边缘检测进行去光照预处理;
(2)基于全部视频所包含的预处理后的手势静态图像训练CNN模型;
(3)定义训练数据中每个手势动作视频用T帧描述,接着将预处理好的手势视频T帧序列图像逐一地输入到CNN中,提取视频序列每一帧的特征;
(4)假定基于CNN提取的每一帧图像的特征为M维,对每个待识别的手势动作视频单元,按时间顺序逐行顺次排列这些图像帧特征,这样,一个视频动作的特征可以表示为T行M列的矩阵形式;
(5)将大小为TxM的视频特征输入到MVRBM模型中进行训练,通过不断的调整参数训练出最优的MVRBM模型;
(6)此时所有的预训练阶段已经结束。接下来建模NNet,NNet的输入和隐层节点数对应MVRBM的输入和输出矩阵的向量化的维度。MVRBM模型的权重参数作为NNet网络的输入到隐层权重参数的初始值,MVRBM的输入向量化作为NNet的输入,然后通过反向传播算法不断调节NNet网络参数使得手势识别的误差最小。
测试阶段(如图2所示):
(1)同样地,与训练阶段(1)(2)(3)步骤一样,对测试数据进行处理,即对每个T帧的视频序列,提取每一帧M维的特征;
(2)依次串联每个视频序列中的所有帧的特征,得到维度为T*M大小的向量,这样,每个视频数据都可以用T*M大小的向量特征表示;
(3)将(2)中向量作为训练好的NNet网络的输入,进行测试及分类。
CNN-MVRBM-NN混合模型中的每一步的具体建模过程如下:1、基于卷积神经网络模型(CNN)的单层空间特征提取
为了更好地表示手势的单帧空间特征,本文引入了卷积神经网络模型。一般来说,卷积神经网络的底层是卷积层和下采样层的交替,用于提取局部特征,顶层是一个全链接层,表示全局和高质量的语义特征。本发明采用的卷积神经网络模型结构类似于2012年ImageNet比赛上Hinton团队所用的卷积神经网络模型,主要由五层卷积层、三层最大池化层、两层全连接层和一层分类层(softmax层)组成。模型采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。在此架构模型的基础上,结合手势的特点,对模型参数进行了调整(如图3所示),包括CNN卷积核的核大小、步长参数和全连接层节点数。我们经过实验验证64维更能表示手形的特征。最终,我们用训练好的CNN提取动态手势序列中每一帧的特征,就每个视频而言,我们选择20帧来表示该动作序列,因此,每个动态手势视频由20个64维的特征向量来表示。
2、基于矩阵变量玻尔兹曼机(MVRBM)的时空建模
MVRBM是经典RBM的延伸,其模型变量是矩阵形式,用来描述二维变量之间的依赖关系。MVRBM是通过能量函数定义可见层及隐藏层的联合分布及可见层的边缘分布的,因此,我们首先定义了MVRBM相应的能量函数:
其中,V=[vij]是二进制可见层矩阵变量,对应前述的20×64的手势时空二维表示,H=[hkl]是二进制隐藏层矩阵变量,对应进一步提取出的手势时空特征,简单起见,假设独立变量vij和hkl从{0,1}中取值;为模型参数变量,权重是连接可见层V和隐藏层H的四阶张量参数,B=[bij]和C=[ckl]分别是可见层和隐藏层的偏置矩阵。
因为模型的参数变量Θ中一共有I×J×K×L+I×J+K×L个自由参数。即使在I,J,K,L很小时,Θ也将是一个很大的数,这样就会需要大量的训练样本和很长的时间。为了减少自由参数的数量和节省计算复杂度,假定可见层单元和隐藏层单元的连接权值有如下关系:Wijkl=Xkiylj。即通过两个新的二阶矩阵参数变量X=[xki]∈RK×I和Y=[ylj]∈RL×J来表示上述的四阶张量参数因此可以把能量函数(1)改写为如下形式,
E(V,H;θ)=-tr(XTHYVT)-tr(VTB)-tr(HTC) (2)其中,矩阵X和Y共同定义了输入矩阵V和隐含矩阵H的连接权,这样,Θ中的自由参数减少为I×K+K×L+L×J+J×I个。基于公式(2),V和H的联合分布概率为:
其中,Θ表示所有的模型参数X,Y,B和C,归一化常量Z(Θ)定义为:
Z(Θ)=∑X∈x,Y∈y exp{-E(X,y;Θ)} (4)
假定手势图像样本集D={E1,...,EN},根据公式(3)样本集D的对数似然函数为:
MVRBM的具体训练过程如下:
(1.1)、定义矩阵型训练手势图像样本集D={E1,...,EN},最大迭代次数Z,动量系数γ,学习率α,权值正则项β,每组训练样本数,CD算法K步;
(1.2)、随机初始化模型参数变量X和Y,令偏置变量B=C=0,随机梯度ΔX=ΔY=ΔB=ΔC=0;
(1.3)、迭代步数z=1→Z进行;
(1.4)、随机将D={E1,...,EN}分成M组D1...DM,大小为b;
(1.5)、组m=1→M进行;
(1.6)、对所有手势图像样本数据在当前模型参数下进行吉布斯采样V(0)=v∈Dm;
(1.7)、k=0→K-1进行;
(1.8)根据公式(5)对手势图像样本H(k)进行采样
(1.9)根据公式(6)对手势图像样本V(k)进行采样
(1.10)根据公式(7)进行梯度的更新
(1.11)根据公式θ=θ+Δθ更新模型参数θ∈Θ;
(1.12)结束。
3、神经网络(NNet)的训练和分类
前述MVRBM模型是生成式模型,即它是一种无监督的模型。为了使它对于动态手势特征具有判别能力,我们引入了经过MVRBM预训练的NNet(Nerual network)进行特征的学习和分类。NNet包括模型设计和初始化两个过程。我们设计NNet模型包括一个输入层,一个隐层和一个输出层。模型的输入节点数对应MVRBM的可视层矩阵向量化后的维度,模型的隐层节点数对应MVRBM的隐藏层矩阵向量化后的维度。NNet的初始化也是基于MVRBM的输入和MVRBM模型的权重和偏置,也就是说,NNet的输入层为MVRBM输入层节点数据的向量化,NNet中输入到隐层的权重为MVRBM中权重参数X和Y进行两个矩阵的Kronecker乘积运算后得到的矩阵值。NNet的输出节点数量为被分类的手势视频数据的类别数。我们设置它的非线性激活函数为tanh_opt,初始动量参数为0.5,学习率为2,softmax为它的分类器。在NNet模型中用反向传播算法(Backpropagation)进行参数的更新以及权值的调节。通过不断的调节参数使训练数据的分类误差变小,最后用训练好的模型进行测试和分类。
上述方法在公开的剑桥手势数据集上进行验证,旨在评估所提出的方法对动态手势识别的鲁棒性。未来评估所提出的CNN-MVRBM-NN模型性能并了解不同参数对CNN-MVRBM-NN的影响,我们进行了一系列的实验。如下将阐述实验数据、实验方案以及实验结果。
数据库:
该实验所用到的数据库为剑桥动态手势库。如图4、5所示,剑桥动态手势库由900个视频动作组成,共分为9类,其中每一类为100个视频动作。在五种不同的光照环境下,9种不同的动作序列不断重复组成了所有的视频样本。数据库被标记为set1、set2、set3、set4和set5总共5个子集,每个set里包含180个视频样本。(每类20个样本)。我们使用set5作为训练,其余用作测试集。
实验1:MVRBM预训练的性能评价
为了验证基于MVRBM进行NNet预训练的重要性以及优势,我们设计了如下三个对比实验,依次是没有预训练的NNet,基于RBM预训练的NNet以及基于MVRBM预训练的NNet,实验结果对比如表1所示。可以看出有预训练的NNet模型的性能远高于没有预训练的NNet模型的性能,同时我们也看出,基于MVRBM预训练的NNet的性能高于基于RBM进行预训练的性能。
表1三种实验对比结果
Method | Set1 | Set2 | Set3 | Set4 | Total |
CNN-NN | 84.17% | 86.94% | 90.56% | 93.89% | 88.89+3.67% |
CNN-RBM-NN | 96.39% | 91.94% | 97.50% | 96.11% | 95.49+2.44% |
CNN-MVRBM—NN | 99.17% | 95.00% | 98.89% | 98.06% | 97.78+1.91% |
三个实验的具体设计实现如下:
实验1.1:首先测试NNet没有预训练情况下的性能,即直接把CNN提取的手势视频各帧特征串联组合作为NNet的输入进行训练,即CNN-NN实验。训练好的CNN提取的每帧特征为64维,累计20帧视频表征一个手势语义,因此拼接后的手势特征为20x64=1280维,因此设定NNet模型的输入层大小为1280,通过多次实验验证隐层大小为100时NNet模型效果最佳,输出层大小为9,输出层维度对应手势的类别数。另外,当迭代次数为100,批大小的数量为50时,效果最好。
实验1.2:测试以RBM预训练NNet得到的CNN-RBM-NN模型的性能。由于RBM是面向向量变量的,因此基于训练好的CNN模型提取手势视频各帧特征后,串联序列帧特征,输入到RBM模型进行预训练。RBM的可见层节点数对应输入手势视频特征的维度,即20*64=1280,隐层节点数对RBM的性能有很大影响,表2展示了具有不同隐藏层节点数的RBM预训练对识别结果的影响以及在不同数据set里最好识别结果。训练时,我们固定迭代次数为100次,批大小数量为10。
表2不同的RBM隐层节点数对手势识别性能的影响
实验1.3:测试基于CNN-MVRBM预训练的NNet性能。对于CNN-MVRBM-NN,我们通过已训练好的CNN提取64维的单帧特征,用20帧的特征来表示一个动态手势序列。也就是说,用20x64的矩阵特征作为MVRBM的输入。经实验验证,MVRBM模型的最佳参数设置如下:固定动量系数为0.5,学习率为0.05,批大小为100,权重初始化设为0.01。另外,隐藏节点的数量和训练的迭代次数对识别结果有影响。因此,我们做了两种实验来进行验证,第一个固定隐藏节点的大小为4X4,而迭代次数由50到250进行变化。第二个是固定迭代次数为200,而改变隐层的大小。大量的实验结果表明,隐层的大小为方阵时会比为矩阵时的效果好,迭代次数为200次,隐藏层的大小为4X4时效果最好。
实验2:CNN特征优于预定义特征
在新模型上,为了验证基于CNN提取的特征优于传统的HOG和SIFT特征,我们分别进行了如下实验:HOG-MVRBM-NN,SIFT-HOG-MVRBM-NN和CNN-MVRBM-NN。对于每个手势序列中的每一帧,我们提取96维的HOG特征,然后根据视频帧数进行对齐,最终,我们把形成的特征矩阵作为MVRBM的输入。类似的,我们同样提取9维HOG和50维SIFT融合成59维的向量特征来表示单帧。上面两个基本的提特征方法都是基于已预处理好的图像,在所有实验里,没有特殊说明,所有的方法都是用已经过canny算子处理过的数据。根据表3可以知道,CNN-MVRBM-NN模型的特征表示和分类结果优于其它手动提特征的方法。结果如表3所示:
表3三种实验对比结果
在动态剑桥手势库上,我们的模型CNN-MVRBM-NN也与其他基线方法进行了对比,结果均优于它们。具体结果展示如表4所示。
表4剑桥手势库上的实验对比
Method | Set1 | Set2 | Set3 | Set4 | Total |
TCCA | 81.00% | 81.00% | 78.00% | 86.00% | 81.50+3.32% |
PM | 93.00% | 89.00% | 91.00% | 94.00% | 91.75+2.22% |
kgLLC | 96.00% | 94.00% | 96.00% | 98.00% | 96.00+1.63% |
CNN-HMM | 83.00% | 80.00% | 82.00% | 85.00% | 82.50+2.08% |
CNN-MVRBM-NN | 99.17% | 95.00% | 98.89% | 98.06% | 97.78+1.91% |
为了验证我们提出的方法,我们也实验了two-stream CNN用于手势识别,为了提高two-stream CNN模型的识别率,我们融合了图像空间和视频序列的光流空间特征,而不是原来的包含光流的原始单帧图像。结果表明该模型也具有很高的识别率,但是依旧低于我们的CNN-MVRBM-NN方法。结果展示如表5所示。
表5 Two stream CNN与CNN-MVRBM-NN的实验对比
Method | Set1 | Set2 | Set3 | Set4 | Total |
Two stream CNN | 96.67% | 87.78% | 92.78% | 95.00% | 93.06+3.86% |
CNN-MVRBM-NN | 99.17% | 95.00% | 98.89% | 98.06% | 97.78+1.91% |
Claims (2)
1.一种基于混合深度学习模型的动态手势识别方法,其特征在于,包括以下步骤:
训练阶段:
1.1、针对输入的动态手势视频,首先基于Canny边缘检测进行去光照预处理;
1.2、基于全部视频所包含的预处理后的手势静态图像训练CNN模型;
1.3、定义训练数据中每个手势动作视频用T帧描述,接着将预处理好的手势视频T帧序列图像逐一地输入到CNN中,提取视频序列每一帧的特征;
1.4、假定基于CNN提取的每一帧图像的特征为M维,对每个待识别的手势动作视频单元,按时间顺序逐行顺次排列这些图像帧特征,这样,一个视频动作的特征可以表示为T行M列的矩阵形式;
1.5、将大小为TxM的视频特征输入到MVRBM模型中进行训练,通过不断的调整参数训练出最优的MVRBM模型;
1.6、此时所有的预训练阶段已经结束,接下来建模NNet,NNet的输入和隐层节点数对应MVRBM的输入和输出矩阵的向量化的维度,MVRBM模型的权重参数作为NNet网络的输入到隐层权重参数的初始值,MVRBM的输入向量化作为NNet的输入,然后通过反向传播算法不断调节NNet网络参数使得手势识别的误差最小;
测试阶段:
2.1、同样地,与训练阶段(1.1)(1.2)(1.3)步骤一样,对测试数据进行处理,即对每个T帧的视频序列,提取每一帧M维的特征;
2.2、依次串联每个视频序列中的所有帧的特征,得到维度为T*M大小的向量,这样,每个视频数据都可以用T*M大小的向量特征表示;
2.3、将(2.2)中向量作为训练好的NNet网络的输入,进行测试及分类。
2.如权利要求1所述的基于混合深度学习模型的动态手势识别方法,其特征在于,基于矩阵变量玻尔兹曼机(MVRBM)的时空建模过程如下:
首先定义了MVRBM相应的能量函数:
其中,V=[vij]是二进制可见层矩阵变量,对应20×64的手势时空二维表示,H=[hkl]是二进制隐藏层矩阵变量,对应提取出的手势时空特征,假设独立变量vij和hkl从{0,1}中取值;Θ={ω,B,C}为模型参数变量,权重ω=[wijkl]是连接二进制可见层矩阵变量V和隐藏层H的四阶张量参数,B=[bij]和C=[Ckl]分别是可见层和隐藏层的偏置矩阵;
为了减少自由参数的数量和节省计算复杂度,假定可见层单元和隐藏层单元的连接权值有如下关系:wijkl=xkiylj,通过两个新的矩阵X=[xki]∈RK×I和Y=[ylj]∈RL×J,可以把能量函数(1)改写为如下形式,
E(V,H;θ)=-tr(XTHYVT)-tr(VTB)-tr(HTC) (2)
其中,矩阵X和Y共同定义了二进制可见层矩阵变量V和隐含矩阵H的连接权,这样,Θ中的自由参数减少为I×K+K×L+L×J+J×I个,基于公式(2),V和H的联合分布概率为:
其中,Θ表示所有的模型参数X,Y,B和C,归一化常量Z(Θ)定义为:
Z(Θ)=∑X∈x,Y∈yexp{-E(X,Y;Θ)} (4)
假定手势图像样本集D={E1,...,EN},根据公式(3)样本集D的对数似然函数为:
MVRBM的具体训练过程如下:
(1.1)、定义矩阵型训练手势图像样本集D={E1,...,EN},最大迭代次数Z,动量系数γ,学习率α,权值正则项β,每组训练样本数,CD算法K步;
(1.2)、随机初始化模型参数变量X和Y,令偏置变量B=C=0,随机梯度ΔX=ΔY=ΔB=ΔC=0;
(1.3)、迭代步数z=1→Z进行;
(1.4)、随机将D={E1,...,EN}分成M组D1...DM,大小为b;
(1.5)、组m=1→M进行;
(1.6)、对所有手势图像样本数据在当前模型参数下进行吉布斯采样V(0)=v∈Dm;
(1.7)、k=0→K-1进行;
(1.8)根据公式(5)对手势图像样本H(k)进行采样
(1.9)根据公式(6)对手势图像样本V(k)进行采样
(1.10)根据公式(7)进行梯度的更新
(1.11)根据公式θ=θ+Δθ更新模型参数θ∈Θ;
(1.12)结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710120922.XA CN106991372B (zh) | 2017-03-02 | 2017-03-02 | 一种基于混合深度学习模型的动态手势识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710120922.XA CN106991372B (zh) | 2017-03-02 | 2017-03-02 | 一种基于混合深度学习模型的动态手势识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106991372A CN106991372A (zh) | 2017-07-28 |
CN106991372B true CN106991372B (zh) | 2020-08-28 |
Family
ID=59411506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710120922.XA Active CN106991372B (zh) | 2017-03-02 | 2017-03-02 | 一种基于混合深度学习模型的动态手势识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106991372B (zh) |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR112020001729A8 (pt) * | 2017-08-01 | 2023-04-11 | Huawei Tech Co Ltd | Método, aparelho e dispositivo de reconhecimento de gestos |
CN107483813B (zh) * | 2017-08-08 | 2020-11-17 | 深圳市明日实业有限责任公司 | 一种根据手势进行跟踪录播的方法、装置及存储装置 |
CN107526438B (zh) * | 2017-08-08 | 2020-11-13 | 深圳市明日实业有限责任公司 | 根据举手动作进行跟踪录播的方法、装置及存储装置 |
CN107967441B (zh) * | 2017-09-19 | 2021-03-30 | 北京工业大学 | 一种基于双通道3d-2d rbm模型的视频行为识别方法 |
CN109543139B (zh) * | 2017-09-22 | 2021-09-17 | 杭州海康威视数字技术股份有限公司 | 卷积运算方法、装置、计算机设备及计算机可读存储介质 |
CN107590477A (zh) * | 2017-09-22 | 2018-01-16 | 成都考拉悠然科技有限公司 | 一种监控视频异常事件的检测装置及其方法 |
CN107798296B (zh) * | 2017-09-28 | 2020-06-12 | 江南大学 | 一种应用于复杂背景场景的快速运动手势识别方法 |
TWI670628B (zh) * | 2017-11-15 | 2019-09-01 | 財團法人資訊工業策進會 | 動作評量模型生成裝置及其動作評量模型生成方法 |
CN107993012B (zh) * | 2017-12-04 | 2022-09-30 | 国网湖南省电力有限公司娄底供电分公司 | 一种时间自适应的电力系统在线暂态稳定评估方法 |
CN108053120B (zh) * | 2017-12-15 | 2020-09-01 | 阿里巴巴集团控股有限公司 | 一种模型整合方法及装置 |
CN108449295A (zh) * | 2018-02-05 | 2018-08-24 | 西安电子科技大学昆山创新研究院 | 基于rbm网络和bp神经网络的联合调制识别方法 |
CN108388882B (zh) * | 2018-03-16 | 2021-09-21 | 中山大学 | 基于全局-局部rgb-d多模态的手势识别方法 |
CN108921284B (zh) * | 2018-06-15 | 2020-11-17 | 山东大学 | 基于深度学习的人际交互肢体语言自动生成方法及系统 |
CN109101876A (zh) * | 2018-06-28 | 2018-12-28 | 东北电力大学 | 基于长短时记忆网络的人体行为识别方法 |
CN110956059B (zh) * | 2018-09-27 | 2023-08-01 | 深圳云天励飞技术有限公司 | 一种动态手势识别方法、装置和电子设备 |
CN111077783A (zh) * | 2018-10-18 | 2020-04-28 | 珠海格力电器股份有限公司 | 家电自定义控制系统、方法、自定义动作处理系统、方法 |
CN111338461A (zh) * | 2018-12-18 | 2020-06-26 | 鸿合科技股份有限公司 | 一种手势操作方法及装置、电子设备 |
CN109858380A (zh) * | 2019-01-04 | 2019-06-07 | 广州大学 | 可扩展手势识别方法、装置、系统、手势识别终端和介质 |
CN109961005B (zh) * | 2019-01-28 | 2021-08-31 | 山东大学 | 一种基于二维卷积网络的动态手势识别方法及系统 |
CN109902729B (zh) * | 2019-02-18 | 2020-10-16 | 清华大学 | 基于序列状态演进的行为预测方法及装置 |
CN111723620A (zh) * | 2019-03-22 | 2020-09-29 | 浙江大学 | 一种基于深度学习的悬浮动态手势人机交互系统 |
CN110047096B (zh) * | 2019-04-28 | 2019-11-22 | 中南民族大学 | 一种基于深度条件随机场模型的多目标跟踪方法和系统 |
CN110134241A (zh) * | 2019-05-16 | 2019-08-16 | 珠海华园信息技术有限公司 | 基于单目摄像头的动态手势交互方法 |
CN110765967B (zh) * | 2019-10-30 | 2022-04-22 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的动作识别方法和相关装置 |
CN110769314B (zh) * | 2019-11-20 | 2022-05-13 | 三星电子(中国)研发中心 | 一种视频播放方法、装置和计算机可读存储介质 |
CN113071438B (zh) * | 2020-01-06 | 2023-03-24 | 北京地平线机器人技术研发有限公司 | 控制指令的生成方法和装置、存储介质、电子设备 |
CN111209861B (zh) * | 2020-01-06 | 2022-03-18 | 浙江工业大学 | 一种基于深度学习的动态手势动作识别方法 |
CN111401141B (zh) * | 2020-02-25 | 2022-07-15 | 浙江大学 | 一种基于骨架的3d手势估计方法 |
CN111291713B (zh) * | 2020-02-27 | 2023-05-16 | 山东大学 | 一种基于骨架的手势识别方法及系统 |
CN113673280A (zh) * | 2020-05-14 | 2021-11-19 | 索尼公司 | 图像处理装置、图像处理方法和计算机可读存储介质 |
CN112016682B (zh) * | 2020-08-04 | 2024-01-26 | 杰创智能科技股份有限公司 | 视频表征学习、预训练方法及装置、电子设备、存储介质 |
CN112906634B (zh) * | 2021-03-18 | 2023-09-01 | 西北大学 | 基于vss的视频段序列预测模型建立、序列预测方法及系统 |
CN113239824B (zh) * | 2021-05-19 | 2024-04-05 | 北京工业大学 | 一种基于3D-Ghost模块的多模态训练单模态测试的动态手势识别方法 |
CN113435335B (zh) * | 2021-06-28 | 2022-08-12 | 平安科技(深圳)有限公司 | 微观表情识别方法、装置、电子设备及存储介质 |
CN115291730B (zh) * | 2022-08-11 | 2023-08-15 | 北京理工大学 | 一种可穿戴生物电设备及生物电动作识别与自校准方法 |
CN116229569B (zh) * | 2023-02-03 | 2023-10-27 | 兰州大学 | 一种手势识别方法、装置、设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9294662B2 (en) * | 2013-10-16 | 2016-03-22 | Broadcom Corporation | Depth map generation and post-capture focusing |
CN104766038B (zh) * | 2014-01-02 | 2018-05-18 | 株式会社理光 | 手掌开合动作识别方法和装置 |
CN104965589A (zh) * | 2015-06-13 | 2015-10-07 | 东莞市微模式软件有限公司 | 一种基于人脑智慧和人机交互的人体活体检测方法与装置 |
CN105740833B (zh) * | 2016-02-03 | 2019-03-22 | 北京工业大学 | 一种基于深度序列的人体行为识别方法 |
-
2017
- 2017-03-02 CN CN201710120922.XA patent/CN106991372B/zh active Active
Non-Patent Citations (3)
Title |
---|
"Matrix Variate Restricted Boltzmann Machine";Guanglei Qi et al.;《Proceedings of IEEE International Joint Conference on Neural Networks》;20160727;第389-395页 * |
"无监督特征学习结合神经网络应用于图像识别";敖道敢;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150115(第01期);第5,38-39页 * |
"视频中人体行为识别若干问题研究";裴利沈;《中国博士学位论文全文数据库 信息科技辑》;20170215(第02期);第22,60-62页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106991372A (zh) | 2017-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106991372B (zh) | 一种基于混合深度学习模型的动态手势识别方法 | |
Jiang et al. | A pedestrian detection method based on genetic algorithm for optimize XGBoost training parameters | |
Hasani et al. | Spatio-temporal facial expression recognition using convolutional neural networks and conditional random fields | |
US10713563B2 (en) | Object recognition using a convolutional neural network trained by principal component analysis and repeated spectral clustering | |
Wang et al. | Unsupervised learning of visual representations using videos | |
US20190228268A1 (en) | Method and system for cell image segmentation using multi-stage convolutional neural networks | |
AlDahoul et al. | Real‐Time Human Detection for Aerial Captured Video Sequences via Deep Models | |
Mao et al. | Deep residual pooling network for texture recognition | |
Yan et al. | Multi-attributes gait identification by convolutional neural networks | |
US20150235079A1 (en) | Learning device, learning method, and program | |
CN111652236A (zh) | 弱监督场景下跨层特征交互的轻量级细粒度图像识别方法 | |
Mishra et al. | Multiscale parallel deep CNN (mpdCNN) architecture for the real low-resolution face recognition for surveillance | |
Chu et al. | Stacked Similarity-Aware Autoencoders. | |
Mudunuri et al. | GenLR-Net: Deep framework for very low resolution face and object recognition with generalization to unseen categories | |
US20200304729A1 (en) | Video processing using a spectral decomposition layer | |
Shang et al. | Image spam classification based on convolutional neural network | |
CN107967441B (zh) | 一种基于双通道3d-2d rbm模型的视频行为识别方法 | |
CN112733627A (zh) | 一种基于融合局部与全局特征网络的指静脉识别方法 | |
John et al. | Real-time hand posture and gesture-based touchless automotive user interface using deep learning | |
Prabhu et al. | Facial Expression Recognition Using Enhanced Convolution Neural Network with Attention Mechanism. | |
Giraddi et al. | Flower classification using deep learning models | |
Li et al. | Spatial-temporal dynamic hand gesture recognition via hybrid deep learning model | |
US20230076290A1 (en) | Rounding mechanisms for post-training quantization | |
CN111860056A (zh) | 基于眨眼的活体检测方法、装置、可读存储介质及设备 | |
Yadav et al. | Design of CNN architecture for Hindi Characters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |