CN106991372A - 一种基于混合深度学习模型的动态手势识别方法 - Google Patents

一种基于混合深度学习模型的动态手势识别方法 Download PDF

Info

Publication number
CN106991372A
CN106991372A CN201710120922.XA CN201710120922A CN106991372A CN 106991372 A CN106991372 A CN 106991372A CN 201710120922 A CN201710120922 A CN 201710120922A CN 106991372 A CN106991372 A CN 106991372A
Authority
CN
China
Prior art keywords
mvrbm
gesture
sigma
cnn
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710120922.XA
Other languages
English (en)
Other versions
CN106991372B (zh
Inventor
施云惠
淮华瑞
李敬华
王立春
孔德慧
尹宝才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201710120922.XA priority Critical patent/CN106991372B/zh
Publication of CN106991372A publication Critical patent/CN106991372A/zh
Application granted granted Critical
Publication of CN106991372B publication Critical patent/CN106991372B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于混合深度学习模型的动态手势识别方法包括:训练阶段,首先基于构成手势视频的图像集训练CNN,然后利用训练好的CNN逐帧提取动态手势视频序列每帧的空间特征;对待识别的每个手势视频序列,将CNN学习到的各帧级特征按时间顺序组织成矩阵;把该矩阵输入到MVRBM以学习融合时空属性的手势动作时空特征;引入具有判别性的NN;即把MVRBM看作NN模型参数的预训练过程,把MVRBM学到的网络权值和偏置作为NN的权值和偏置的初值,并通过反向传播算法微调NN权值和偏置;测试阶段,同样基于CNN逐帧提取动态手势视频序列每帧特征并拼接,输入前述训练好的NN进行手势识。采用本发明的技术方案,实现对3D动态手势视频序列的有效时空表示。

Description

一种基于混合深度学习模型的动态手势识别方法
技术领域
本发明属于计算机视觉与机器学习领域,具体地涉及一种基于混合深度学习模型的动态手势识别方法。
背景技术
手势识别在可视交流、人机交互、增强现实等领域有重要应用。不过由于手势的复杂多变性以及光照、个体变化等因素影响,手势识别研究仍是一个具有挑战性的问题。基于视觉的手势识别通常包括特征提取和分类器设计两个方面。常用分类器包括神经网络(NN)、隐马尔可夫模型(HMM)等。手势特征表示方法通常包括:手形、手部重心位置、矩特征、尺度不变特征变换(Scale-invariant feature transform,SIFT)特征,方向梯度直方图(Histogram of Oriented Gradient,HOG)特征等。但人工选取的特征通常需要先验知识,而且有不能自适应数据等局限性。近来,深度学习方法在图像特征提取及分类识别领域有很好的优势。深度学习的一个典型模型是受限玻尔兹曼机(Restricted BoltzmannMachine,RBM),它是面向向量数据输入输出的概率模型。对于2D,3D等高维数据,显然向量化的操作会破坏2D图像,3D视频等的内部结构,导致损失了结构中隐藏的交互信息,在传统基于向量变量的受限玻尔兹曼机研究基础上,齐光磊等针对图像等高维数据提出了基于矩阵变量的受限波尔兹曼机(Matrix Variable Restricted Boltzmann Machine,MVRBM),该模型能够更好地建模2D数据,不过RBM以及MVRBM模型都是无监督的。在深度学习领域,另一个广受关注的模型是卷积神经网络(Convolutional Neural Network,CNN),CNN已被成功应用于定位、检测以及识别分类等各图像分析与理解领域,也有方法基于CNN以及其变体3DCNN建模视频序列的时间轴进行视频分类,这是一个困难而复杂的任务,模型参数大、难以训练,并且要求训练数据多。
发明内容
本发明提供一种动态手势识别方法,该发明面向动态手势识别问题,利用CNN和MVRBM的优势,设计了一种基于CNN-MVRBM混合模型预训练NN模型的方法。该方法整合了CNN对图像的表达能力以及MVRBM对2D信号的降维表示及预训练能力,从而一方面实现了对3D动态手势视频序列的有效时空表示,另一方面提升了传统NN的识别性能。
为实现上述目的,本发明采用如下的技术方案:
一种基于混合深度学习模型的动态手势识别方法,包括以下步骤:
训练阶段:
1.1、针对输入的动态手势视频,首先基于Canny边缘检测进行去光照预处理;
1.2、基于全部视频所包含的预处理后的手势静态图像训练CNN模型;
1.3、定义训练数据中每个手势动作视频用T帧描述,接着将预处理好的手势视频T帧序列图像逐一地输入到CNN中,提取视频序列每一帧的特征;
1.4、假定基于CNN提取的每一帧图像的特征为M维,对每个待识别的手势动作视频单元,按时间顺序逐行顺次排列这些图像帧特征,这样,一个视频动作的特征可以表示为T行M列的矩阵形式;
1.5、将大小为TxM的视频特征输入到MVRBM模型中进行训练,通过不断的调整参数训练出最优的MVRBM模型;
1.6、此时所有的预训练阶段已经结束,接下来建模NNet,NNet的输入和隐层节点数对应MVRBM的输入和输出矩阵的向量化的维度,MVRBM模型的权重参数作为NNet网络的输入到隐层权重参数的初始值,MVRBM的输入向量化作为NNet的输入,然后通过反向传播算法不断调节NNet网络参数使得手势识别的误差最小;
测试阶段:
2.1、同样地,与训练阶段(1.1)(1.2)(1.3)步骤一样,对测试数据进行处理,即对每个T帧的视频序列,提取每一帧M维的特征;
2.2、依次串联每个视频序列中的所有帧的特征,得到维度为T*M大小的向量,这样,每个视频数据都可以用T*M大小的向量特征表示;
2.3、将(2.2)中向量作为训练好的NNet网络的输入,进行测试及分类。
作为优选,基于矩阵变量玻尔兹曼机(MVRBM)的时空建模过程如下:
首先定义了MVRBM相应的能量函数:
其中,V=[vij]是二进制可见层矩阵变量,对应20×64的手势时空二维表示,H=[hkl]是二进制隐藏层矩阵变量,对应提取出的手势时空特征,假设独立变量vij和hkl从{0,1}中取值;为模型参数变量,权重是连接可见层V和隐藏层H的四阶张量参数,B=[bij]和C=[Ckl]分别是可见层和隐藏层的偏置矩阵;
为了减少自由参数的数量和节省计算复杂度,假定可见层单元和隐藏层单元的连接权值有如下关系:wijkl=xkiylj,通过两个新的矩阵X=[xki]∈RK×I和Y=[ylj]∈RL×J,可以把能量函数(1)改写为如下形式,
E(V,H;θ)=-tr(XTHYVT)-tr(VTB)-tr(HTC) (2)
其中,矩阵X和Y共同定义了输入矩阵V和隐含矩阵H的连接权,这样,Θ中的自由参数减少为I×K+K×L+L×J+J×I个,基于公式(2),V和H的联合分布概率为:
其中,Θ表示所有的模型参数X,Y,B和C,归一化常量Z(Θ)定义为:
Z(θ)=∑X∈x,Y∈y exp{-E(X,Y;Θ)} (4)
假定手势图像样本集D={E1,...,EN},根据公式(3)样本集D的对数似然函数为:
MVRBM的具体训练过程如下:
(1.1)、定义矩阵型训练手势图像样本集D={E1,...,EN},最大迭代次数Z,动量系数γ,学习率α,权值正则项β,每组训练样本数,CD算法K步;
(1.2)、随机初始化模型参数变量X和Y,令偏置变量B=C=0,随机梯度ΔX=ΔY=ΔB=ΔC=0;
(1.3)、迭代步数z=1→Z进行;
(1.4)、随机将D={E1,...,EN}分成M组D1...DM,大小为b;
(1.5)、组m=1→M进行;
(1.6)、对所有手势图像样本数据在当前模型参数下进行吉布斯采样V(0)=v∈Dm
(1.7)、k=0→K-1进行;
(1.8)根据公式(5)对手势图像样本H(k)进行采样
(1.9)根据公式(6)对手势图像样本V(k)进行采样
(1.10)根据公式(7)进行梯度的更新
(1.11)根据公式θ=θ+Δθ更新模型参数θ∈Θ;
(1.12)结束。
附图说明
图1、CNN-MVRBM-NN模型的训练过程;
图2、CNN-MVRBM-NN模型的测试过程
图3、CNN模型的示意图;
图4、九种不同的动态手势序列的示意图;
图5、图4的五种不同的光照示意图。
具体实施方式
本发明实施例提供一种动态手势识别方法,该发明面向动态手势识别问题,利用CNN和MVRBM的优势,设计了一种基于CNN-MVRBM混合模型预训练NN模型的方法。该方法整合了CNN对图像的表达能力以及MVRBM对2D信号的降维表示及预训练能力,从而一方面实现了对3D动态手势视频序列的有效时空表示,另一方面提升了传统NN的识别性能。
CNN-MVRBM-NN混合深度学习模型包括训练和测试两个阶段。训练阶段,综合了CNN有效的图像特征提取能力,MVRBM对2D信号的建模能力,以及NN的有监督分类特性。识别阶段,基于前述训练好的CNN和NN模型,可有效进行动态手势识别。具体地,训练阶段,首先基于构成手势视频的图像集训练CNN,然后利用训练好的CNN逐帧提取动态手势视频序列每帧的空间特征;接下来,对待识别的每个手势视频序列,将CNN学习到的各帧级特征按时间顺序组织成矩阵;进一步地,把该矩阵输入到MVRBM以学习融合时空属性的手势动作时空特征。不过由于MVRBM模型是无监督的,我们引入具有判别性的NN;即把MVRBM看作NN模型参数的预训练过程,把MVRBM学到的网络权值和偏置作为NN的权值和偏置的初值,并通过反向传播算法微调NN权值和偏置。NN模型的构建依赖于MVRBM,即NN的输入和隐层节点大小对应MVRBM的向量化的输入和输出节点数。NN的输入数据源于向量化的MVRBM的输入。测试阶段,同样基于CNN逐帧提取动态手势视频序列每帧特征并拼接,输入前述训练好的NN进行手势识别。我们所提出的方法在剑桥手势数据集上的测试表明,其具有非常好的动态手势识别率。
手势是一种三维空间动作,基于视频的动态手势序列由一帧帧的图像序列表示。一种最直接的想法就是首先提取视频序列的每一帧特征,然后建模各序列帧的时间属性。所以,本发明首先基于在图像特征表示领域广受推崇的CNN进行单帧特征提取。为了基于CNN进行单帧特征提取,我们首先基于组成视频序列的所有手势图像训练CNN模型。对于待识别的手势视频单元,经过CNN获得每一帧特征后,为了进一步建模时间属性,我们引入MVRBM,即把CNN获得的各帧特征按时间顺序逐行叠加排列成矩阵从而获得一个2D的表示。在此生成的矩阵中,行数表示时间维度,列数表示每帧的空间特征维度。我们将该矩阵表征的手势时空特征输入到MVRBM,进一步提取动态手势的高层语义特征,这样融合的CNN-MVRBM可表示动态手势序列的时空特征。为了使生成式的MVRBM模型对于动态手势特征具有判别能力,我们加入了NNet网络。新的混合模型CNN-MVRBM-NN可更好地训练动态手势特征,该特征也更有判别性,更易于对动态手势视频进行识别。
本发明的步骤如下:
训练阶段(如图1所示):
(1)针对输入的动态手势视频,首先基于Canny边缘检测进行去光照预处理;
(2)基于全部视频所包含的预处理后的手势静态图像训练CNN模型;
(3)定义训练数据中每个手势动作视频用T帧描述,接着将预处理好的手势视频T帧序列图像逐一地输入到CNN中,提取视频序列每一帧的特征;
(4)假定基于CNN提取的每一帧图像的特征为M维,对每个待识别的手势动作视频单元,按时间顺序逐行顺次排列这些图像帧特征,这样,一个视频动作的特征可以表示为T行M列的矩阵形式;
(5)将大小为TxM的视频特征输入到MVRBM模型中进行训练,通过不断的调整参数训练出最优的MVRBM模型;
(6)此时所有的预训练阶段已经结束。接下来建模NNet,NNet的输入和隐层节点数对应MVRBM的输入和输出矩阵的向量化的维度。MVRBM模型的权重参数作为NNet网络的输入到隐层权重参数的初始值,MVRBM的输入向量化作为NNet的输入,然后通过反向传播算法不断调节NNet网络参数使得手势识别的误差最小。
测试阶段(如图2所示):
(1)同样地,与训练阶段(1)(2)(3)步骤一样,对测试数据进行处理,即对每个T帧的视频序列,提取每一帧M维的特征;
(2)依次串联每个视频序列中的所有帧的特征,得到维度为T*M大小的向量,这样,每个视频数据都可以用T*M大小的向量特征表示;
(3)将(2)中向量作为训练好的NNet网络的输入,进行测试及分类。
CNN-MVRBM-NN混合模型中的每一步的具体建模过程如下:1、基于卷积神经网络模型(CNN)的单层空间特征提取
为了更好地表示手势的单帧空间特征,本文引入了卷积神经网络模型。一般来说,卷积神经网络的底层是卷积层和下采样层的交替,用于提取局部特征,顶层是一个全链接层,表示全局和高质量的语义特征。本发明采用的卷积神经网络模型结构类似于2012年ImageNet比赛上Hinton团队所用的卷积神经网络模型,主要由五层卷积层、三层最大池化层、两层全连接层和一层分类层(softmax层)组成。模型采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。在此架构模型的基础上,结合手势的特点,对模型参数进行了调整(如图3所示),包括CNN卷积核的核大小、步长参数和全连接层节点数。我们经过实验验证64维更能表示手形的特征。最终,我们用训练好的CNN提取动态手势序列中每一帧的特征,就每个视频而言,我们选择20帧来表示该动作序列,因此,每个动态手势视频由20个64维的特征向量来表示。
2、基于矩阵变量玻尔兹曼机(MVRBM)的时空建模
MVRBM是经典RBM的延伸,其模型变量是矩阵形式,用来描述二维变量之间的依赖关系。MVRBM是通过能量函数定义可见层及隐藏层的联合分布及可见层的边缘分布的,因此,我们首先定义了MVRBM相应的能量函数:
其中,V=[vij]是二进制可见层矩阵变量,对应前述的20×64的手势时空二维表示,H=[hkl]是二进制隐藏层矩阵变量,对应进一步提取出的手势时空特征,简单起见,假设独立变量vij和hkl从{0,1}中取值;为模型参数变量,权重是连接可见层V和隐藏层H的四阶张量参数,B=[bij]和C=[ckl]分别是可见层和隐藏层的偏置矩阵。
因为模型的参数变量Θ中一共有I×J×K×L+I×J+K×L个自由参数。即使在I,J,K,L很小时,Θ也将是一个很大的数,这样就会需要大量的训练样本和很长的时间。为了减少自由参数的数量和节省计算复杂度,假定可见层单元和隐藏层单元的连接权值有如下关系:Wijkl=Xkiylj。即通过两个新的二阶矩阵参数变量X=[xki]∈RK×I和Y=[ylj]∈RL×J来表示上述的四阶张量参数因此可以把能量函数(1)改写为如下形式,
E(V,H;θ)=-tr(XTHYVT)-tr(VTB)-tr(HTC) (2)
其中,矩阵X和Y共同定义了输入矩阵V和隐含矩阵H的连接权,这样,Θ中的自由参数减少为I×K+K×L+L×J+J×I个。基于公式(2),V和H的联合分布概率为:
其中,Θ表示所有的模型参数X,Y,B和C,归一化常量Z(Θ)定义为:
Z(Θ)=∑X∈x,Y∈y exp{-E(X,y;Θ)} (4)
假定手势图像样本集D={E1,...,EN},根据公式(3)样本集D的对数似然函数为:
MVRBM的具体训练过程如下:
(1.1)、定义矩阵型训练手势图像样本集D={E1,...,EN},最大迭代次数Z,动量系数γ,学习率α,权值正则项β,每组训练样本数,CD算法K步;
(1.2)、随机初始化模型参数变量X和Y,令偏置变量B=C=0,随机梯度ΔX=ΔY=ΔB=ΔC=0;
(1.3)、迭代步数z=1→Z进行;
(1.4)、随机将D={E1,...,EN}分成M组D1...DM,大小为b;
(1.5)、组m=1→M进行;
(1.6)、对所有手势图像样本数据在当前模型参数下进行吉布斯采样V(0)=v∈Dm
(1.7)、k=0→K-1进行;
(1.8)根据公式(5)对手势图像样本H(k)进行采样
(1.9)根据公式(6)对手势图像样本V(k)进行采样
(1.10)根据公式(7)进行梯度的更新
(1.11)根据公式θ=θ+Δθ更新模型参数θ∈Θ;
(1.12)结束。
3、神经网络(NNet)的训练和分类
前述MVRBM模型是生成式模型,即它是一种无监督的模型。为了使它对于动态手势特征具有判别能力,我们引入了经过MVRBM预训练的NNet(Nerual network)进行特征的学习和分类。NNet包括模型设计和初始化两个过程。我们设计NNet模型包括一个输入层,一个隐层和一个输出层。模型的输入节点数对应MVRBM的可视层矩阵向量化后的维度,模型的隐层节点数对应MVRBM的隐藏层矩阵向量化后的维度。NNet的初始化也是基于MVRBM的输入和MVRBM模型的权重和偏置,也就是说,NNet的输入层为MVRBM输入层节点数据的向量化,NNet中输入到隐层的权重为MVRBM中权重参数X和Y进行两个矩阵的Kronecker乘积运算后得到的矩阵值。NNet的输出节点数量为被分类的手势视频数据的类别数。我们设置它的非线性激活函数为tanh_opt,初始动量参数为0.5,学习率为2,softmax为它的分类器。在NNet模型中用反向传播算法(Backpropagation)进行参数的更新以及权值的调节。通过不断的调节参数使训练数据的分类误差变小,最后用训练好的模型进行测试和分类。
上述方法在公开的剑桥手势数据集上进行验证,旨在评估所提出的方法对动态手势识别的鲁棒性。未来评估所提出的CNN-MVRBM-NN模型性能并了解不同参数对CNN-MVRBM-NN的影响,我们进行了一系列的实验。如下将阐述实验数据、实验方案以及实验结果。
数据库:
该实验所用到的数据库为剑桥动态手势库。如图4、5所示,剑桥动态手势库由900个视频动作组成,共分为9类,其中每一类为100个视频动作。在五种不同的光照环境下,9种不同的动作序列不断重复组成了所有的视频样本。数据库被标记为set1、set2、set3、set4和set5总共5个子集,每个set里包含180个视频样本。(每类20个样本)。我们使用set5作为训练,其余用作测试集。
实验1:MVRBM预训练的性能评价
为了验证基于MVRBM进行NNet预训练的重要性以及优势,我们设计了如下三个对比实验,依次是没有预训练的NNet,基于RBM预训练的NNet以及基于MVRBM预训练的NNet,实验结果对比如表1所示。可以看出有预训练的NNet模型的性能远高于没有预训练的NNet模型的性能,同时我们也看出,基于MVRBM预训练的NNet的性能高于基于RBM进行预训练的性能。
表1三种实验对比结果
Method Set1 Set2 Set3 Set4 Total
CNN-NN 84.17% 86.94% 90.56% 93.89% 88.89+3.67%
CNN-RBM-NN 96.39% 91.94% 97.50% 96.11% 95.49+2.44%
CNN-MVRBM—NN 99.17% 95.00% 98.89% 98.06% 97.78+1.91%
三个实验的具体设计实现如下:
实验1.1:首先测试NNet没有预训练情况下的性能,即直接把CNN提取的手势视频各帧特征串联组合作为NNet的输入进行训练,即CNN-NN实验。训练好的CNN提取的每帧特征为64维,累计20帧视频表征一个手势语义,因此拼接后的手势特征为20x64=1280维,因此设定NNet模型的输入层大小为1280,通过多次实验验证隐层大小为100时NNet模型效果最佳,输出层大小为9,输出层维度对应手势的类别数。另外,当迭代次数为100,批大小的数量为50时,效果最好。
实验1.2:测试以RBM预训练NNet得到的CNN-RBM-NN模型的性能。由于RBM是面向向量变量的,因此基于训练好的CNN模型提取手势视频各帧特征后,串联序列帧特征,输入到RBM模型进行预训练。RBM的可见层节点数对应输入手势视频特征的维度,即20*64=1280,隐层节点数对RBM的性能有很大影响,表2展示了具有不同隐藏层节点数的RBM预训练对识别结果的影响以及在不同数据set里最好识别结果。训练时,我们固定迭代次数为100次,批大小数量为10。
表2不同的RBM隐层节点数对手势识别性能的影响
实验1.3:测试基于CNN-MVRBM预训练的NNet性能。对于CNN-MVRBM-NN,我们通过已训练好的CNN提取64维的单帧特征,用20帧的特征来表示一个动态手势序列。也就是说,用20x64的矩阵特征作为MVRBM的输入。经实验验证,MVRBM模型的最佳参数设置如下:固定动量系数为0.5,学习率为0.05,批大小为100,权重初始化设为0.01。另外,隐藏节点的数量和训练的迭代次数对识别结果有影响。因此,我们做了两种实验来进行验证,第一个固定隐藏节点的大小为4X4,而迭代次数由50到250进行变化。第二个是固定迭代次数为200,而改变隐层的大小。大量的实验结果表明,隐层的大小为方阵时会比为矩阵时的效果好,迭代次数为200次,隐藏层的大小为4X4时效果最好。
实验2:CNN特征优于预定义特征
在新模型上,为了验证基于CNN提取的特征优于传统的HOG和SIFT特征,我们分别进行了如下实验:HOG-MVRBM-NN,SIFT-HOG-MVRBM-NN和CNN-MVRBM-NN。对于每个手势序列中的每一帧,我们提取96维的HOG特征,然后根据视频帧数进行对齐,最终,我们把形成的特征矩阵作为MVRBM的输入。类似的,我们同样提取9维HOG和50维SIFT融合成59维的向量特征来表示单帧。上面两个基本的提特征方法都是基于已预处理好的图像,在所有实验里,没有特殊说明,所有的方法都是用已经过canny算子处理过的数据。根据表3可以知道,CNN-MVRBM-NN模型的特征表示和分类结果优于其它手动提特征的方法。结果如表3所示:
表3三种实验对比结果
在动态剑桥手势库上,我们的模型CNN-MVRBM-NN也与其他基线方法进行了对比,结果均优于它们。具体结果展示如表4所示。
表4剑桥手势库上的实验对比
Method Set1 Set2 Set3 Set4 Total
TCCA 81.00% 81.00% 78.00% 86.00% 81.50+3.32%
PM 93.00% 89.00% 91.00% 94.00% 91.75+2.22%
kgLLC 96.00% 94.00% 96.00% 98.00% 96.00+1.63%
CNN-HMM 83.00% 80.00% 82.00% 85.00% 82.50+2.08%
CNN-MVRBM-NN 99.17% 95.00% 98.89% 98.06% 97.78+1.91%
为了验证我们提出的方法,我们也实验了two-stream CNN用于手势识别,为了提高two-stream CNN模型的识别率,我们融合了图像空间和视频序列的光流空间特征,而不是原来的包含光流的原始单帧图像。结果表明该模型也具有很高的识别率,但是依旧低于我们的CNN-MVRBM-NN方法。结果展示如表5所示。
表5 Two stream CNN与CNN-MVRBM-NN的实验对比
Method Set1 Set2 Set3 Set4 Total
Two stream CNN 96.67% 87.78% 92.78% 95.00% 93.06+3.86%
CNN-MVRBM-NN 99.17% 95.00% 98.89% 98.06% 97.78+1.91%

Claims (2)

1.一种基于混合深度学习模型的动态手势识别方法,其特征在于,包括以下步骤:
训练阶段:
1.1、针对输入的动态手势视频,首先基于Canny边缘检测进行去光照预处理;
1.2、基于全部视频所包含的预处理后的手势静态图像训练CNN模型;
1.3、定义训练数据中每个手势动作视频用T帧描述,接着将预处理好的手势视频T帧序列图像逐一地输入到CNN中,提取视频序列每一帧的特征;
1.4、假定基于CNN提取的每一帧图像的特征为M维,对每个待识别的手势动作视频单元,按时间顺序逐行顺次排列这些图像帧特征,这样,一个视频动作的特征可以表示为T行M列的矩阵形式;
1.5、将大小为TxM的视频特征输入到MVRBM模型中进行训练,通过不断的调整参数训练出最优的MVRBM模型;
1.6、此时所有的预训练阶段已经结束,接下来建模NNet,NNet的输入和隐层节点数对应MVRBM的输入和输出矩阵的向量化的维度,MVRBM模型的权重参数作为NNet网络的输入到隐层权重参数的初始值,MVRBM的输入向量化作为NNet的输入,然后通过反向传播算法不断调节NNet网络参数使得手势识别的误差最小;
测试阶段:
2.1、同样地,与训练阶段(1.1)(1.2)(1.3)步骤一样,对测试数据进行处理,即对每个T帧的视频序列,提取每一帧M维的特征;
2.2、依次串联每个视频序列中的所有帧的特征,得到维度为T*M大小的向量,这样,每个视频数据都可以用T*M大小的向量特征表示;
2.3、将(2.2)中向量作为训练好的NNet网络的输入,进行测试及分类。
2.如权利要求1所述的基于混合深度学习模型的动态手势识别方法,其特征在于,基于矩阵变量玻尔兹曼机(MVRBM)的时空建模过程如下:
首先定义了MVRBM相应的能量函数:
E ( V , H ; Θ ) = Σ i = 1 I Σ j = 1 J Σ k = 1 K Σ l = 1 L v i j w i j k l h k l + Σ i = 1 I Σ j = 1 J v i j b i j + Σ k = 1 K Σ l = 1 L h k l c k l - - - ( 1 )
其中,V=[vij]是二进制可见层矩阵变量,对应20×64的手势时空二维表示,H=[hkl]是二进制隐藏层矩阵变量,对应提取出的手势时空特征,假设独立变量vij和hkl从{0,1}中取值;为模型参数变量,权重是连接可见层V和隐藏层H的四阶张量参数,B=[bij]和C=[ckl]分别是可见层和隐藏层的偏置矩阵;
为了减少自由参数的数量和节省计算复杂度,假定可见层单元和隐藏层单元的连接权值有如下关系:wijkl=xkiylj,通过两个新的矩阵X=[xki]∈RK×I和Y=[ylj]∈RL×J,可以把能量函数(1)改写为如下形式,
E(V,H;θ)=-tr(XTHYVT)-tr(VTB)-tr(HTC) (2)
其中,矩阵X和Y共同定义了输入矩阵V和隐含矩阵H的连接权,这样,Θ中的自由参数减少为I×K+K×L+L×J+J×I个,基于公式(2),V和H的联合分布概率为:
P ( V , H ; Θ ) = 1 z ( Θ ) exp { - E ( V , H ; Θ ) } - - - ( 3 )
其中,Θ表示所有的模型参数X,Y,B和C,归一化常量Z(Θ)定义为:
Z(Θ)=∑X∈x,Y∈yexp{-E(X,Y;θ)} (4)
假定手势图像样本集D={E1,…,EN},根据公式(3)样本集D的对数似然函数为:
l = 1 N Σ n = 1 N l o g ( Σ h ∈ H exp { - E ( E n , h ) } ) - log Z ( Θ ) - - - ( 5 )
MVRBM的具体训练过程如下:
(1.1)、定义矩阵型训练手势图像样本集D={E1,…,EN},最大迭代次数Z,动量系数γ,学习率α,权值正则项β,每组训练样本数,CD算法K步;
(1.2)、随机初始化模型参数变量X和Y,令偏置变量B=C=0,随机梯度ΔX=ΔY=ΔB=ΔC=0;
(1.3)、迭代步数z=1→Z进行;
(1.4)、随机将D={E1,…,EN}分成M组D1…DM,大小为b;
(1.5)、组m=1→M进行;
(1.6)、对所有手势图像样本数据在当前模型参数下进行吉布斯采样V(0)=v∈Dm
(1.7)、k=0→K-1进行;
(1.8)根据公式(5)对手势图像样本H(k)进行采样
p ( h k l = 1 | V ; Θ ) = σ ( Σ i = 1 I Σ i = 1 J x k i v i j y l j + c k l ) - - - ( 6 )
(1.9)根据公式(6)对手势图像样本V(k)进行采样
p ( v i j = 1 | H ; Θ ) = σ ( Σ k = 1 K Σ l = 1 L x k i h k l y l j + b i j ) - - - ( 7 )
(1.10)根据公式(7)进行梯度的更新
Δ X = γ Δ X + α ( - ∂ l ∂ X | D m , D m ( k ) - β X )
Δ Y = γ Δ Y + α ( - ∂ l ∂ Y | D m , D m ( k ) - β Y )
Δ B = γ Δ B + α ( - ∂ l ∂ B | D m , D m ( k ) )
Δ C = γ Δ C + α ( - ∂ l ∂ C | D m , D m ( k ) ) - - - ( 8 )
(1.11)根据公式θ=θ+Δθ更新模型参数θ∈Θ;
(1.12)结束。
CN201710120922.XA 2017-03-02 2017-03-02 一种基于混合深度学习模型的动态手势识别方法 Active CN106991372B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710120922.XA CN106991372B (zh) 2017-03-02 2017-03-02 一种基于混合深度学习模型的动态手势识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710120922.XA CN106991372B (zh) 2017-03-02 2017-03-02 一种基于混合深度学习模型的动态手势识别方法

Publications (2)

Publication Number Publication Date
CN106991372A true CN106991372A (zh) 2017-07-28
CN106991372B CN106991372B (zh) 2020-08-28

Family

ID=59411506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710120922.XA Active CN106991372B (zh) 2017-03-02 2017-03-02 一种基于混合深度学习模型的动态手势识别方法

Country Status (1)

Country Link
CN (1) CN106991372B (zh)

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107483813A (zh) * 2017-08-08 2017-12-15 深圳市明日实业股份有限公司 一种根据手势进行跟踪录播的方法、装置及存储装置
CN107526438A (zh) * 2017-08-08 2017-12-29 深圳市明日实业股份有限公司 根据举手动作进行跟踪录播的方法、装置及存储装置
CN107590477A (zh) * 2017-09-22 2018-01-16 成都考拉悠然科技有限公司 一种监控视频异常事件的检测装置及其方法
CN107798296A (zh) * 2017-09-28 2018-03-13 江南大学 一种应用于复杂背景场景的快速运动手势识别方法
CN107967441A (zh) * 2017-09-19 2018-04-27 北京工业大学 一种基于双通道3d-2d rbm模型的视频行为识别方法
CN107993012A (zh) * 2017-12-04 2018-05-04 国网湖南省电力有限公司娄底供电分公司 一种时间自适应的电力系统在线暂态稳定评估方法
CN108388882A (zh) * 2018-03-16 2018-08-10 中山大学 基于全局-局部rgb-d多模态的手势识别方法
CN108449295A (zh) * 2018-02-05 2018-08-24 西安电子科技大学昆山创新研究院 基于rbm网络和bp神经网络的联合调制识别方法
CN109101876A (zh) * 2018-06-28 2018-12-28 东北电力大学 基于长短时记忆网络的人体行为识别方法
WO2019023921A1 (zh) * 2017-08-01 2019-02-07 华为技术有限公司 一种手势识别方法、装置及设备
CN109543139A (zh) * 2017-09-22 2019-03-29 杭州海康威视数字技术股份有限公司 卷积运算方法、装置、计算机设备及计算机可读存储介质
CN109784133A (zh) * 2017-11-15 2019-05-21 财团法人资讯工业策进会 动作评量模型生成装置及其动作评量模型生成方法
CN109858380A (zh) * 2019-01-04 2019-06-07 广州大学 可扩展手势识别方法、装置、系统、手势识别终端和介质
CN109902729A (zh) * 2019-02-18 2019-06-18 清华大学 基于序列状态演进的行为预测方法及装置
CN109961005A (zh) * 2019-01-28 2019-07-02 山东大学 一种基于二维卷积网络的动态手势识别方法及系统
CN110047096A (zh) * 2019-04-28 2019-07-23 中南民族大学 一种基于深度条件随机场模型的多目标跟踪方法和系统
CN110134241A (zh) * 2019-05-16 2019-08-16 珠海华园信息技术有限公司 基于单目摄像头的动态手势交互方法
WO2019237708A1 (zh) * 2018-06-15 2019-12-19 山东大学 基于深度学习的人际交互肢体语言自动生成方法及系统
CN110769314A (zh) * 2019-11-20 2020-02-07 三星电子(中国)研发中心 一种视频播放方法、装置和计算机可读存储介质
CN110765967A (zh) * 2019-10-30 2020-02-07 腾讯科技(深圳)有限公司 一种基于人工智能的动作识别方法和相关装置
CN110956059A (zh) * 2018-09-27 2020-04-03 深圳云天励飞技术有限公司 一种动态手势识别方法、装置和电子设备
CN111077783A (zh) * 2018-10-18 2020-04-28 珠海格力电器股份有限公司 家电自定义控制系统、方法、自定义动作处理系统、方法
CN111209861A (zh) * 2020-01-06 2020-05-29 浙江工业大学 一种基于深度学习的动态手势动作识别方法
TWI696124B (zh) * 2017-12-15 2020-06-11 香港商阿里巴巴集團服務有限公司 模型整合方法及裝置
CN111291713A (zh) * 2020-02-27 2020-06-16 山东大学 一种基于骨架的手势识别方法及系统
CN111338461A (zh) * 2018-12-18 2020-06-26 鸿合科技股份有限公司 一种手势操作方法及装置、电子设备
CN111401141A (zh) * 2020-02-25 2020-07-10 浙江大学 一种基于骨架的3d手势估计方法
CN111723620A (zh) * 2019-03-22 2020-09-29 浙江大学 一种基于深度学习的悬浮动态手势人机交互系统
CN112016682A (zh) * 2020-08-04 2020-12-01 杰创智能科技股份有限公司 视频表征学习、预训练方法及装置、电子设备、存储介质
CN112906634A (zh) * 2021-03-18 2021-06-04 西北大学 基于vss的视频段序列预测模型建立、序列预测方法及系统
CN113071438A (zh) * 2020-01-06 2021-07-06 北京地平线机器人技术研发有限公司 控制指令的生成方法和装置、存储介质、电子设备
CN113239824A (zh) * 2021-05-19 2021-08-10 北京工业大学 一种基于3D-Ghost模块的多模态训练单模态测试的动态手势识别方法
CN113435335A (zh) * 2021-06-28 2021-09-24 平安科技(深圳)有限公司 微观表情识别方法、装置、电子设备及存储介质
WO2021227933A1 (zh) * 2020-05-14 2021-11-18 索尼集团公司 图像处理装置、图像处理方法和计算机可读存储介质
CN115291730A (zh) * 2022-08-11 2022-11-04 北京理工大学 一种可穿戴生物电设备及生物电动作识别与自校准方法
CN116229569A (zh) * 2023-02-03 2023-06-06 兰州大学 一种手势识别方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150103200A1 (en) * 2013-10-16 2015-04-16 Broadcom Corporation Heterogeneous mix of sensors and calibration thereof
CN104766038A (zh) * 2014-01-02 2015-07-08 株式会社理光 手掌开合动作识别方法和装置
CN104965589A (zh) * 2015-06-13 2015-10-07 东莞市微模式软件有限公司 一种基于人脑智慧和人机交互的人体活体检测方法与装置
CN105740833A (zh) * 2016-02-03 2016-07-06 北京工业大学 一种基于深度序列的人体行为识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150103200A1 (en) * 2013-10-16 2015-04-16 Broadcom Corporation Heterogeneous mix of sensors and calibration thereof
CN104766038A (zh) * 2014-01-02 2015-07-08 株式会社理光 手掌开合动作识别方法和装置
CN104965589A (zh) * 2015-06-13 2015-10-07 东莞市微模式软件有限公司 一种基于人脑智慧和人机交互的人体活体检测方法与装置
CN105740833A (zh) * 2016-02-03 2016-07-06 北京工业大学 一种基于深度序列的人体行为识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GUANGLEI QI ET AL.: ""Matrix Variate Restricted Boltzmann Machine"", 《PROCEEDINGS OF IEEE INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS》 *
敖道敢: ""无监督特征学习结合神经网络应用于图像识别"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
裴利沈: ""视频中人体行为识别若干问题研究"", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019023921A1 (zh) * 2017-08-01 2019-02-07 华为技术有限公司 一种手势识别方法、装置及设备
CN110959160A (zh) * 2017-08-01 2020-04-03 华为技术有限公司 一种手势识别方法、装置及设备
US11450146B2 (en) 2017-08-01 2022-09-20 Huawei Technologies Co., Ltd. Gesture recognition method, apparatus, and device
EP3651055A4 (en) * 2017-08-01 2020-10-21 Huawei Technologies Co., Ltd. METHOD, APPARATUS AND DEVICE FOR GESTURE RECOGNITION
CN107526438A (zh) * 2017-08-08 2017-12-29 深圳市明日实业股份有限公司 根据举手动作进行跟踪录播的方法、装置及存储装置
CN107483813A (zh) * 2017-08-08 2017-12-15 深圳市明日实业股份有限公司 一种根据手势进行跟踪录播的方法、装置及存储装置
CN107526438B (zh) * 2017-08-08 2020-11-13 深圳市明日实业有限责任公司 根据举手动作进行跟踪录播的方法、装置及存储装置
CN107967441A (zh) * 2017-09-19 2018-04-27 北京工业大学 一种基于双通道3d-2d rbm模型的视频行为识别方法
CN107967441B (zh) * 2017-09-19 2021-03-30 北京工业大学 一种基于双通道3d-2d rbm模型的视频行为识别方法
US11645357B2 (en) 2017-09-22 2023-05-09 Hangzhou Hikvision Digital Technology Co., Ltd. Convolution operation method and apparatus, computer device, and computer-readable storage medium
CN109543139A (zh) * 2017-09-22 2019-03-29 杭州海康威视数字技术股份有限公司 卷积运算方法、装置、计算机设备及计算机可读存储介质
CN107590477A (zh) * 2017-09-22 2018-01-16 成都考拉悠然科技有限公司 一种监控视频异常事件的检测装置及其方法
CN107798296A (zh) * 2017-09-28 2018-03-13 江南大学 一种应用于复杂背景场景的快速运动手势识别方法
CN109784133A (zh) * 2017-11-15 2019-05-21 财团法人资讯工业策进会 动作评量模型生成装置及其动作评量模型生成方法
CN109784133B (zh) * 2017-11-15 2021-11-02 财团法人资讯工业策进会 动作评量模型生成装置及其动作评量模型生成方法
TWI670628B (zh) * 2017-11-15 2019-09-01 財團法人資訊工業策進會 動作評量模型生成裝置及其動作評量模型生成方法
US11397471B2 (en) 2017-11-15 2022-07-26 Institute For Information Industry Action evaluation model building apparatus and action evaluation model building method thereof
CN107993012B (zh) * 2017-12-04 2022-09-30 国网湖南省电力有限公司娄底供电分公司 一种时间自适应的电力系统在线暂态稳定评估方法
CN107993012A (zh) * 2017-12-04 2018-05-04 国网湖南省电力有限公司娄底供电分公司 一种时间自适应的电力系统在线暂态稳定评估方法
TWI696124B (zh) * 2017-12-15 2020-06-11 香港商阿里巴巴集團服務有限公司 模型整合方法及裝置
CN108449295A (zh) * 2018-02-05 2018-08-24 西安电子科技大学昆山创新研究院 基于rbm网络和bp神经网络的联合调制识别方法
CN108388882A (zh) * 2018-03-16 2018-08-10 中山大学 基于全局-局部rgb-d多模态的手势识别方法
CN108388882B (zh) * 2018-03-16 2021-09-21 中山大学 基于全局-局部rgb-d多模态的手势识别方法
WO2019237708A1 (zh) * 2018-06-15 2019-12-19 山东大学 基于深度学习的人际交互肢体语言自动生成方法及系统
CN109101876A (zh) * 2018-06-28 2018-12-28 东北电力大学 基于长短时记忆网络的人体行为识别方法
CN110956059B (zh) * 2018-09-27 2023-08-01 深圳云天励飞技术有限公司 一种动态手势识别方法、装置和电子设备
CN110956059A (zh) * 2018-09-27 2020-04-03 深圳云天励飞技术有限公司 一种动态手势识别方法、装置和电子设备
CN111077783A (zh) * 2018-10-18 2020-04-28 珠海格力电器股份有限公司 家电自定义控制系统、方法、自定义动作处理系统、方法
CN111338461A (zh) * 2018-12-18 2020-06-26 鸿合科技股份有限公司 一种手势操作方法及装置、电子设备
CN109858380A (zh) * 2019-01-04 2019-06-07 广州大学 可扩展手势识别方法、装置、系统、手势识别终端和介质
CN109961005A (zh) * 2019-01-28 2019-07-02 山东大学 一种基于二维卷积网络的动态手势识别方法及系统
CN109961005B (zh) * 2019-01-28 2021-08-31 山东大学 一种基于二维卷积网络的动态手势识别方法及系统
CN109902729A (zh) * 2019-02-18 2019-06-18 清华大学 基于序列状态演进的行为预测方法及装置
CN111723620A (zh) * 2019-03-22 2020-09-29 浙江大学 一种基于深度学习的悬浮动态手势人机交互系统
CN110047096A (zh) * 2019-04-28 2019-07-23 中南民族大学 一种基于深度条件随机场模型的多目标跟踪方法和系统
CN110047096B (zh) * 2019-04-28 2019-11-22 中南民族大学 一种基于深度条件随机场模型的多目标跟踪方法和系统
CN110134241A (zh) * 2019-05-16 2019-08-16 珠海华园信息技术有限公司 基于单目摄像头的动态手势交互方法
CN110765967A (zh) * 2019-10-30 2020-02-07 腾讯科技(深圳)有限公司 一种基于人工智能的动作识别方法和相关装置
CN110765967B (zh) * 2019-10-30 2022-04-22 腾讯科技(深圳)有限公司 一种基于人工智能的动作识别方法和相关装置
CN110769314A (zh) * 2019-11-20 2020-02-07 三星电子(中国)研发中心 一种视频播放方法、装置和计算机可读存储介质
CN111209861A (zh) * 2020-01-06 2020-05-29 浙江工业大学 一种基于深度学习的动态手势动作识别方法
CN113071438A (zh) * 2020-01-06 2021-07-06 北京地平线机器人技术研发有限公司 控制指令的生成方法和装置、存储介质、电子设备
CN113071438B (zh) * 2020-01-06 2023-03-24 北京地平线机器人技术研发有限公司 控制指令的生成方法和装置、存储介质、电子设备
CN111209861B (zh) * 2020-01-06 2022-03-18 浙江工业大学 一种基于深度学习的动态手势动作识别方法
CN111401141A (zh) * 2020-02-25 2020-07-10 浙江大学 一种基于骨架的3d手势估计方法
CN111291713A (zh) * 2020-02-27 2020-06-16 山东大学 一种基于骨架的手势识别方法及系统
CN111291713B (zh) * 2020-02-27 2023-05-16 山东大学 一种基于骨架的手势识别方法及系统
WO2021227933A1 (zh) * 2020-05-14 2021-11-18 索尼集团公司 图像处理装置、图像处理方法和计算机可读存储介质
CN112016682A (zh) * 2020-08-04 2020-12-01 杰创智能科技股份有限公司 视频表征学习、预训练方法及装置、电子设备、存储介质
CN112016682B (zh) * 2020-08-04 2024-01-26 杰创智能科技股份有限公司 视频表征学习、预训练方法及装置、电子设备、存储介质
CN112906634B (zh) * 2021-03-18 2023-09-01 西北大学 基于vss的视频段序列预测模型建立、序列预测方法及系统
CN112906634A (zh) * 2021-03-18 2021-06-04 西北大学 基于vss的视频段序列预测模型建立、序列预测方法及系统
CN113239824B (zh) * 2021-05-19 2024-04-05 北京工业大学 一种基于3D-Ghost模块的多模态训练单模态测试的动态手势识别方法
CN113239824A (zh) * 2021-05-19 2021-08-10 北京工业大学 一种基于3D-Ghost模块的多模态训练单模态测试的动态手势识别方法
CN113435335B (zh) * 2021-06-28 2022-08-12 平安科技(深圳)有限公司 微观表情识别方法、装置、电子设备及存储介质
CN113435335A (zh) * 2021-06-28 2021-09-24 平安科技(深圳)有限公司 微观表情识别方法、装置、电子设备及存储介质
CN115291730A (zh) * 2022-08-11 2022-11-04 北京理工大学 一种可穿戴生物电设备及生物电动作识别与自校准方法
CN115291730B (zh) * 2022-08-11 2023-08-15 北京理工大学 一种可穿戴生物电设备及生物电动作识别与自校准方法
CN116229569B (zh) * 2023-02-03 2023-10-27 兰州大学 一种手势识别方法、装置、设备及存储介质
CN116229569A (zh) * 2023-02-03 2023-06-06 兰州大学 一种手势识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN106991372B (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN106991372A (zh) 一种基于混合深度学习模型的动态手势识别方法
Su et al. Convolutional tensor-train LSTM for spatio-temporal learning
Chen et al. A deep learning framework for time series classification using Relative Position Matrix and Convolutional Neural Network
Gadde et al. Superpixel convolutional networks using bilateral inceptions
Srinivas et al. A taxonomy of deep convolutional neural nets for computer vision
Zhang et al. Salient object detection with lossless feature reflection and weighted structural loss
US20190228268A1 (en) Method and system for cell image segmentation using multi-stage convolutional neural networks
Mao et al. Deep residual pooling network for texture recognition
Wang et al. Learnable histogram: Statistical context features for deep neural networks
Oktar et al. A review of sparsity-based clustering methods
CN108960304B (zh) 一种网络交易欺诈行为的深度学习检测方法
CN112861936B (zh) 一种基于图神经网络知识蒸馏的图节点分类方法及装置
Li et al. ROSA: Robust salient object detection against adversarial attacks
Zhao et al. Semantic parts based top-down pyramid for action recognition
CN109086886A (zh) 一种基于极限学习机的卷积神经网络学习算法
CN106485259A (zh) 一种基于高约束高分散主成分分析网络的图像分类方法
Islam et al. A CNN based approach for garments texture design classification
Moayedi et al. Structured sparse representation for human action recognition
Bawa et al. Emotional sentiment analysis for a group of people based on transfer learning with a multi-modal system
CN112183602B (zh) 一种带有并行卷积块的多层特征融合细粒度图像分类方法
Javanmardi et al. Unsupervised total variation loss for semi-supervised deep learning of semantic segmentation
CN106803105B (zh) 一种基于稀疏表示字典学习的图像分类方法
Aygun et al. Exploiting convolution filter patterns for transfer learning
Giraddi et al. Flower classification using deep learning models
CN111310820A (zh) 基于交叉验证深度cnn特征集成的地基气象云图分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant