CN107967441B - 一种基于双通道3d-2d rbm模型的视频行为识别方法 - Google Patents
一种基于双通道3d-2d rbm模型的视频行为识别方法 Download PDFInfo
- Publication number
- CN107967441B CN107967441B CN201710845449.1A CN201710845449A CN107967441B CN 107967441 B CN107967441 B CN 107967441B CN 201710845449 A CN201710845449 A CN 201710845449A CN 107967441 B CN107967441 B CN 107967441B
- Authority
- CN
- China
- Prior art keywords
- model
- rbm
- video
- hog
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 239000011159 matrix material Substances 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims description 29
- 230000003287 optical effect Effects 0.000 claims description 24
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 208000011231 Crohn disease Diseases 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 16
- 230000006399 behavior Effects 0.000 description 12
- 238000002474 experimental method Methods 0.000 description 8
- 230000033001 locomotion Effects 0.000 description 8
- 239000000284 extract Substances 0.000 description 7
- 238000005286 illumination Methods 0.000 description 4
- 238000005111 flow chemistry technique Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 101100042371 Caenorhabditis elegans set-3 gene Proteins 0.000 description 1
- 241000283070 Equus zebra Species 0.000 description 1
- 102100029768 Histone-lysine N-methyltransferase SETD1A Human genes 0.000 description 1
- 101000865038 Homo sapiens Histone-lysine N-methyltransferase SETD1A Proteins 0.000 description 1
- 101150104646 SET4 gene Proteins 0.000 description 1
- 101150117538 Set2 gene Proteins 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000000407 epitaxy Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于双通道3D‑2DRBM模型的视频行为识别方法,提出了3D张量到2D矩阵变量的受限玻尔兹曼机,即输入为3阶张量变量,输出为2阶矩阵变量的RBM,称其为3D‑2D RBM;该模型解决了前两个模型在处理3D视频数据上的劣势,也更好地保存了3D视频数据的时空信息,可以得到了较好的动态手势识别率。
Description
技术领域
本发明属于计算机视觉与机器学习领域,具体地涉及一种基于双通道3D-2DRBM模型的视频行为识别方法。
背景技术
受限玻尔兹曼机(RBM)是一个无向概率图模型。RBM模型通过一组样本学习可见层和隐藏层之间的连接权值和偏置值,使在最优的一组模型参数下,所有样本发生的概率最大,进而得到输入数据的有效表示。RBM强大的特征提取以及表达能力,使其在模式识别、机器学习等领域广受欢迎。不过传统的受限玻尔兹曼机(RBM)通常是基于向量形式的输入输出数据或者变量,但来源于现实中的数据多为更一般的高阶结构,如2D图像,3D视频等。传统的RBM方法在处理上述结构时通常进行高阶数据的向量化处理,这样的处理会破坏图像/视频的空间或时空结构信息。齐光磊等提出了矩阵变量受限玻尔兹曼机(MVRBM),MVRBM是面向2D数据提出的,该模型的输入和输出数据变量都是基于矩阵形式的,该模型解决了传统的RBM的不足,使模型在训练和测试过程中能够保持2D矩阵数据的空间信息,能够很好地处理二维图像数据。但在处理3D视频数据时,需要先把3D数据表示成2D数据,这样的处理必然会损失原始3D数据的时空信息,不能保证数据的完整性。
动态手势识别是模式识别以及计算机视觉领域的一个热点研究课题,研究重心通常包括特征提取和分类器设计两个方面。分类器设计方面包括神经网络、隐马尔科夫模型等。特征提取方面通常包括手工定义的外观特征和运动特征,外观特征如手形、手部重心位置、S I FT特征、矩特征以及HOG特征等;运动特征如光流、轨迹特征等。手工定义的特征提取方法已取得很大成功,但通常需要先验知识,特别地,该方法提取的特征多为底层特征,不能反映信号的高层语义信息。近年来,深度学习方法受到广泛关注,在图像分类、对象定位等中取得很好成绩。本发明拟结合传统方法和学习方法的优势,提出新的动态手势识别方法。
发明内容
在传统的受限玻尔兹曼机(RBM)以及改进的矩阵变量受限玻尔兹曼机(MVRBM)模型的共同启发下,本发明提供一种基于双通道3D-2DRBM模型的视频行为识别方法,可以得到较好的动态手势识别率。
为实现上述目的,本发明采用如下的技术方案:
一种基于双通道3D-2DRBM模型的视频行为识别方法,包括以下步骤:
步骤一、训练阶段:
(1.1)针对输入的多组动态手势视频数据,分别进行计算光流特征提取处理和Canny算子去边缘处理;
(1.2)对于光流和Canny处理后得到的全部视频中的每一帧手动提取矩阵形式MxS大小的2D HOG特征,得到FLOW-HOG和Canny-HOG双通道特征,定义训练数据中每个手势动作视频用T帧描述,一个视频动作的每个通道特征可以表示为TxMxS的3阶张量形式;
(1.3)将大小为TxMxS的FLOW-HOG特征和Canny-HOG特征分别输入到3D-2D RBM模型中进行训练,通过不断的调整参数各自训练出最优的3D-2D RBM模型;
(1.4)以3D-2D RBM初始化NN模型,NN的输入和隐层节点数对应3D-2D RBM的输入和输出的向量化的维度;3D-2D RBM模型的三个矩阵形式的权重参数的克罗内克积作为NN网络的输入到隐层权重参数的初始值,通过反向传播算法不断调节NN的网络参数。
步骤二、测试阶段:
(2.1)与训练阶段(1.1)(1.2)一样,首先对测试数据进行同样的光流和Canny算子的处理;
(2.2)对于每个T帧的光流视频序列和Canny算子视频序列,分别提取每一帧为M*S大小的HOG特征;
(2.3)依次串联每个视频序列中的所有帧的特征,得到维度为T*M*S大小的向量,每个视频数据都可以用T*M*S大小的向量特征表示;
(2.4)输入上述特征向量到训练好的NN模型以进行分类。
作为优选,3D-2D RBM定义如下:
首先,定义为二进制可见层3阶张量变量,对应视频中行为动作的时空3D表示;Y=[ylm]∈RL×M为二进制隐含层2阶张量变量,对应进一步提取出的行为动作的高层语义特征;S=[sijklm]∈RI×J×K×L×M为五阶张量参数,是可见层与隐含层之间的连接权重;和C=[clm]∈RL×M分别是可见层和隐含层的偏置张量,首先定义如下的能量函数:
其中,为模型参数;假定隐含层单元和可见层单元的连接权值有如下关系:sijklm=ulivmjw1k。通过定义三个新的矩阵U=[uli]∈RL×I,V=[vmj]∈RM×J和w=[w1k]∈R1×K,可以把公式(3-1)的能量函数改写成
即:
对于任意参数Θ,都可以求得似然函数导数,
根据CD-K算法的思想,通过一个较短的马尔科夫链实现近似计算,公式(7)的似然函数改写为
其中,k表示CD-K算法中的第k步Gibbs采样。
对于3D-2D RBM模型中的五个变量参数,分别对能量函数求导为
同理,其他四个变量也可以求得
所以,对于五阶张量的第一个权值矩阵U来说,似然函数的梯度公式为
其中,第一项是在可见层已知条件下的隐藏层的概率分布,第二项是可视层与隐藏层的联合概率分布;
同理可以得到其他参数对于似然函数的梯度:
附图说明
图1 3D-2D张量变量受限玻尔兹曼机模型图;
图2基于双通道3D-2D RBM的动态手势识别系统框架;
图3五种不同的光照;
图4九种不同的动态手势序列。
具体实施方式
本发明提供一种基于双通道3D-2DRBM模型的视频行为识别方法,提出了3D张量到2D矩阵变量的受限玻尔兹曼机,即输入为3阶张量变量,输出为2阶矩阵变量的RBM,我们称其为3D-2D RBM。该模型解决了RBM-RBM和MVRBM-MVRBM两个模型在处理3D视频数据上的劣势,也更好地保存了3D视频数据的时空信息。基于该模型,本发明也给出了其在基于视频的手势识别中的应用解决方案,提出一种基于双流3D-2D RBM的动态手势识别方法。该方法基于3D-2DRBM模型进一步学习基于传统方法提取的表征手势外观和运动的HOG特征和光流特征,进而得到了较好的动态手势识别率。
包括:
1、3D-2D RBM模型
3D-2D RBM模型的框架结构如下图1所示,3D-2D RBM的可见层单元表示为立方体结构,隐含层表示为圆柱结构。
该模型的定义如下:
首先,定义X=[xijk]∈RI×J×K为二进制可见层3阶张量变量,对应视频中行为动作的时空3D表示,Y=[ylm]∈RL×M为二进制隐含层2阶张量变量。对应进一步提取出的行为动作的高层语义特征。假设独立变量xijk和ylm从{0,1}中取值。S=[sijklm]∈RI×J×K×L×M为五阶张量参数,是可见层与隐含层之间的连接权重。B=[bijk]∈RI×J×K和C=[clm]∈RL×M分别是可见层和隐含层的偏置张量,首先定义如下的能量函数:
其中,为模型参数。Θ中一共有I×J×K×L×M+I×J×K+L×M个自由参数。即使在I,J,K,L,M都很小时Θ也将是一个很大的数,这样就会需要大量的训练样本和很长的时间。为了减少自由参数的输出和节省计算复杂度,假定隐含层单元和可见层单元的连接权值有如下关系:sijklm=ulivmjw1k。通过定义三个新的矩阵U=[uli]∈RL×I,V=[vmj]∈RM×J和w=[w1k]∈R1×K,可以把公式(3-1)的能量函数改写成
即:
对于任意参数Θ,都可以求得似然函数导数,
表示在可见单元限定为已知的训练样本时,隐层的概率分布,故(7)式中的前一项比较容易计算。表示可见单元与隐单元的联合分布,由于归一化因子Z(Θ)的存在,该分布很难获,导致我们无法直接计算(7)式中的第二项,只能通过一些采样方法获取其近似值。本发明使用对比散度(CD)算法进行近似计算。
根据CD-K算法的思想,通过一个较短的马尔科夫链实现近似计算。公式(7)的似然函数改写为
其中,k表示CD-K算法中的第k步Gibbs采样。
对于3D-2D RBM模型中的五个变量参数,分别对能量函数求导为
同理,其他四个变量也可以求得
所以,对于五阶张量的第一个权值矩阵U来说,似然函数的梯度公式为
其中,第一项是在可见层已知条件下的隐藏层的概率分布,第二项是可视层与隐藏层的联合概率分布。
同理可以得到其他参数对于似然函数的梯度:
张量变量受限玻尔兹曼机(3D-2D RBM)模型的训练阶段(如表1所示)::
表1 3D-2D RBM模型的CD-K训练算法
之后,张量变量受限玻尔兹曼机(3D-2D RBM)模型被用于初始化NN,以改进NN的判别性能。
2、基于双通道3D-2D RBM模型的动态手势识别
以行为识别中的手势识别为例,动态手势由连续的三维空间动作表达,这种三维数据兼具时间和空间上的相关性。鉴于前述3D-2D RBM模型的特点,应用到动态行为识别时最直接的想法就是把3D视频数据直接作为输入进行训练和测试。不过当把视频原始数据直接输入该模型时,实验结果并不理想。这可能是由于原始视频维度高,直接输入模型会导致模型的复杂度较高,而样本不多,所以影响了训练。本发明考虑结合先验知识,即对原始数据进行预处理后再输入该模型建模。考虑HOG和光流在手势空间和运动特征描述方面的优势,本发明首先提取视频序列每一帧的HOG特征表达手势的空间特征,为了去除变光照的影响,在提取HOG特征之前做了基于Canny边缘检测的去光照处理。本发明同时提取了原始手势视频的光流特征以表达手势的运动特征,由于光流的稠密性,进一步对光流进行了HOG特征提取。通常的HOG特征是一维的,通过串联各块(BLOCK)特征来表征一个对象,本发明中为更好保持空间特征,引入2D HOG特征描述视频序列的每一帧,这样我们就得到了描述3D视频序列的Canny-2D HOG光流-2D HOG特征。
上述获得的Canny-2D HOG特征序列和光流-2D HOG特征序列分别表征了动态手势的底层空间外观和运动特征,为了进一步提取表征动态手势的高层语义信息,本发明分别对这两个序列进行了进一步的特征提取,即分别输入到3D-2D RBM模型进行进一步基于学习的特征提取。由于3D-2D RBM是无监督的学习算法,更适用于高层特征表示,为了增强判别性,本文引入了神经网络(NN),以3D-2D RBM的权重作为NN的初值,并通过反向传播算法进行NN的权值的微调。动态手势由空间外观和运动两方面特征共同表示,因此本发明在决策层融合两者进行识别分类。具体地,对于每个通道的数据,得到输入相对各类别的概率,并通过实验获得两个通道的相对可信概率,最后基于两个通道的可信概率和类别概率的乘积和的最大值进行分类。
系统框架如图2所示。
本发明提出的双通道3D-2D RBM模型方法的具体步骤表示为:
训练阶段:
(1)针对输入的多组动态手势视频数据,分别进行计算光流特征提取处理和Canny算子去边缘处理;为了使得两通道的3D数据的结构保持一致,对于同一组手势视频数据,本方法要求光流之后的动态手势帧与Canny之后的帧数一致;
(2)对于光流和Canny处理后得到的全部视频中的每一帧手动提取矩阵形式MxS大小的2D HOG特征,得到FLOW-HOG和Canny-HOG双通道特征,定义训练数据中每个手势动作视频用T帧描述,那么一个视频动作的每个通道特征可以表示为TxMxS的3阶张量形式;
(3)将大小为TxMxS的FLOW-HOG特征和Canny-HOG特征分别输入到3D-2D RBM模型中进行训练,通过不断的调整参数各自训练出最优的3D-2D RBM模型;
(4)以训练好的3D-2D RBM初始化NN,NN的输入和隐层节点数对应3D-2D RBM的输入和输出的向量化的维度。3D-2D RBM模型的三个矩阵形式的权重参数的克罗内克积作为NN网络的输入到隐层权重参数的初始值,之后通过反向传播算法不断调节NN网络参数来进行分类。
测试阶段:
(1)与训练阶段(1)(2)一样,首先对测试数据进行同样的光流和Canny算子的处理。
(2)对于每个T帧的光流视频序列和Canny算子视频序列,分别提取每一帧为M*S大小的HOG特征。
(3)依次串联每个视频序列中的所有帧的特征,得到维度为T*M*S大小的向量,这样,每个视频数据都可以用T*M*S大小的向量特征表示;
(4)对于每个通道的数据,分别输入到NN网络后,都会有一个相对各类别的概率大小,本发明设置两个通道的可信概率分别为0.5,然后基于融合后的概率来进行动态手势分类。
实施例1:
上述方法在公开的剑桥手势数据集上进行实验,证明提出的3D-2D RBM模型的可行性以及对于动态手势识别的有效性。下面将阐述实验数据、实验方案以及实验结果。
实验数据:
该实验所用到的数据库为剑桥动态手势库。剑桥动态手势库由900个视频动作组成,共分为9类,其中每一类为100个视频动作。在五种不同的光照环境下,9种不同的动作序列不断重复组成了所有的视频样本。数据库被标记为Set1、Set2、Set3、Set4和Set5总共5个子集,每个Set里包含360个视频样本。(每类40个样本,每个样本为20帧)。该实验使用Set5作为训练,其余用作测试集。图3展示了五种不同的光照,图4展示了9类不同的动态手势动作。
实验方案及结果:
为了验证3D-2D RBM模型的预训练性能,本发明分别进行了如下实验:HOG-RBM-NN,HOG-MVRBM-NN和HOG-3D-2D RBM–NN实验。基于HOG-RBM-NN模型,对于每个手势序列中的每一帧,我们提取96维的HOG特征,然后把每个视频样本的20帧HOG特征拼接成20*96=1920维的HOG特征,把它作为RBM的输入。不断调节模型参数使结果达到最好。就HOG-MVRBM-NN而言,同样地,提取每一帧为96维的HOG特征,然后根据视频帧数进行对齐,我们把形成的特征矩阵作为MVRBM的输入。就HOG-3D-2D RBM-NN模型来说,对样本中的每一帧提取矩阵形式的HOG特征,这里,我们提取4x24维的HOG矩阵。然后,把大小为4x24x20的视频手势作为3D-2DRBM模型的输入。三个实验都是在实验数据进行Canny算子处理完成后进行的。可以看出,3D-2D RBM能更好地保留结构信息特性,因而有相对RBM和MVRBM更好的识别性能。
表2基于RBM变体的单通道手势识别准确率对比
为了验证双通道3D-2D RBM-NN模型的性能,本发明进行了与双通道MVRBM-NN以及上述单通道HOG-3D-2D RBM-NN的对比实验。就双通道3D-2D RBM-NN来说,首先分别对剑桥手势数据进行Canny算子处理和光流处理,由于光流处理之后每一个样本中的帧数都减少为18帧,为了保持两个通道的一致性,将其扩充为与Canny一样的20帧。然后对样本中的每一帧提取矩阵形式的HOG特征,这里,我们提取4x24维的HOG矩阵。最后,把大小为4x24x20的视频手势作为3D-2D RBM模型的输入。通过大量的实验,我们确定3D-2D RBM模型参数设置当学习率为0.05,权重惩罚项为0.1,动量为0.5,批处理大小为10,迭代次数为50时,结果最好。经过不断的测试,最终我们设置两个通道的可信概率为0.5。
双通道MVRBM-NN模型的实现同上类似,不同的是,提取的是1D的HOG和光流HOG特征,然后逐行拼接成矩阵,最后输入到MVRBM-NN进行训练。最优参数设置为:隐层节点数4x4,学习率0.05,权重惩罚项0.01,动量0.5,批处理大小100,迭代次数10。两个通道融合的可信概率通过实验测试定为0.5。根据表3可以知道,双通道3D-2D RBM-NN模型的分类结果更好。
表3双通道手势识别的准确率评价
Claims (2)
1.一种基于双通道3D-2DRBM模型的视频行为识别方法,其特征在于,包括以下步骤:
步骤一、训练阶段:
(1.1)针对输入的多组动态手势视频数据,分别进行计算光流特征提取处理和Canny算子去边缘处理;
(1.2)对于光流和Canny处理后得到的全部视频中的每一帧手动提取矩阵形式MxS大小的2D HOG特征,得到FLOW-HOG和Canny-HOG双通道特征,定义训练数据中每个手势动作视频用T帧描述,T帧的每个通道特征表示为TxMxS的3阶张量形式;
(1.3)将大小为TxMxS的FLOW-HOG特征和Canny-HOG特征分别输入到3D-2D RBM模型中进行训练,通过不断的调整参数各自训练出最优的3D-2D RBM模型;
(1.4)以3D-2D RBM初始化NN模型,NN的输入和隐层节点数对应3D-2D RBM的输入和输出的向量化的维度;3D-2D RBM模型的三个矩阵形式的权重参数的克罗内克积作为NN网络的输入到隐层权重参数的初始值,通过反向传播算法不断调节NN的网络参数;
步骤二、测试阶段:
(2.1)与训练阶段(1.1)(1.2)一样,首先对测试数据进行同样的光流和Canny算子的处理;
(2.2)对于每个T帧的光流视频序列和Canny算子视频序列,分别提取每一帧为M*S大小的HOG特征;
(2.3)依次串联每个视频序列中的所有帧的特征,得到维度为T*M*S大小的向量,每个视频数据都用T*M*S大小的向量特征表示;
(2.4)输入上述特征向量到训练好的NN模型以进行分类。
2.如权利要求1所述的基于双通道3D-2DRBM模型的视频行为识别方法,其特征在于,3D-2D RBM定义如下:
首先,定义为二进制可见层3阶张量变量,对应视频中行为动作的时空3D表示;Y=[ylm]∈RL×M为二进制隐含层2阶张量变量,对应进一步提取出的行为动作的高层语义特征;为五阶张量参数,是可见层与隐含层之间的连接权重;和C=[clm]∈RL×M分别是可见层和隐含层的偏置张量,首先定义如下的能量函数:
其中,为模型参数;假定隐含层单元和可见层单元的连接权值有如下关系:sijklm=ulivmjw1k;通过定义所述的三个矩阵U=[uli]∈RL×I,V=[vmj]∈RM×J和w=[w1k]∈R1 ×K,可以把公式(1)的能量函数改写成
即:
对于任意参数Θ,都可以求得似然函数导数,
根据CD-K算法的思想,通过一个较短的马尔科夫链实现近似计算,公式(7)的似然函数改写为
其中,k表示CD-K算法中的第k步Gibbs采样;
对于3D-2D RBM模型中的五个变量参数,分别对能量函数求导为
同理,其他四个变量也可以求得
所以,对于五阶张量的第一个权值矩阵U来说,似然函数的梯度公式为
其中,第一项是在可见层已知条件下的隐藏层的概率分布,第二项是可视层与隐藏层的联合概率分布;
同理可以得到其他参数对于似然函数的梯度:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710845449.1A CN107967441B (zh) | 2017-09-19 | 2017-09-19 | 一种基于双通道3d-2d rbm模型的视频行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710845449.1A CN107967441B (zh) | 2017-09-19 | 2017-09-19 | 一种基于双通道3d-2d rbm模型的视频行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107967441A CN107967441A (zh) | 2018-04-27 |
CN107967441B true CN107967441B (zh) | 2021-03-30 |
Family
ID=61996561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710845449.1A Active CN107967441B (zh) | 2017-09-19 | 2017-09-19 | 一种基于双通道3d-2d rbm模型的视频行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107967441B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902547B (zh) * | 2018-05-29 | 2020-04-28 | 华为技术有限公司 | 动作识别方法和装置 |
CN109977989B (zh) * | 2019-01-17 | 2021-04-20 | 北京工业大学 | 一种图像张量数据的处理方法 |
CN110147754A (zh) * | 2019-05-17 | 2019-08-20 | 金陵科技学院 | 一种基于vr技术的动态手势识别方法 |
CN110765860B (zh) * | 2019-09-16 | 2023-06-23 | 平安科技(深圳)有限公司 | 摔倒判定方法、装置、计算机设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106991372A (zh) * | 2017-03-02 | 2017-07-28 | 北京工业大学 | 一种基于混合深度学习模型的动态手势识别方法 |
-
2017
- 2017-09-19 CN CN201710845449.1A patent/CN107967441B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106991372A (zh) * | 2017-03-02 | 2017-07-28 | 北京工业大学 | 一种基于混合深度学习模型的动态手势识别方法 |
Non-Patent Citations (2)
Title |
---|
"An introduction to restricted";FISCHER A, IGEL C.;《Lecture Notes in Computer》;20121231;全文 * |
"基于视频的人体行为识别关键技术研究";于成龙;《中国博士学位论文全文数据库 信息科技辑》;20160315(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107967441A (zh) | 2018-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106991372B (zh) | 一种基于混合深度学习模型的动态手势识别方法 | |
Wang et al. | Dividing and aggregating network for multi-view action recognition | |
CN109919031B (zh) | 一种基于深度神经网络的人体行为识别方法 | |
CN110188239B (zh) | 一种基于跨模态注意力机制的双流视频分类方法和装置 | |
CN107967441B (zh) | 一种基于双通道3d-2d rbm模型的视频行为识别方法 | |
Ding et al. | Violence detection in video by using 3D convolutional neural networks | |
CN106778796B (zh) | 基于混合式协同训练的人体动作识别方法及系统 | |
CN109190479A (zh) | 一种基于混合深度学习的视频序列表情识别方法 | |
Zhang et al. | Multi-instance multi-label action recognition and localization based on spatio-temporal pre-trimming for untrimmed videos | |
CN112784929B (zh) | 一种基于双元组扩充的小样本图像分类方法及装置 | |
CN113158723A (zh) | 一种端到端的视频动作检测定位系统 | |
Chenarlogh et al. | A multi-view human action recognition system in limited data case using multi-stream CNN | |
CN111339849A (zh) | 一种融合行人属性的行人重识别的方法 | |
Arora et al. | Deep embeddings for rare audio event detection with imbalanced data | |
Ye et al. | Embedding sequential information into spatiotemporal features for action recognition | |
CN112183240A (zh) | 一种基于3d时间流和并行空间流的双流卷积行为识别方法 | |
CN111462173B (zh) | 基于孪生网络判别特征学习的视觉跟踪方法 | |
Sharmili et al. | Earthworm Optimization with Improved SqueezeNet Enabled Facial Expression Recognition Model. | |
Hu et al. | Deep learning for distinguishing computer generated images and natural images: A survey | |
CN105956604B (zh) | 一种基于两层时空邻域特征的动作识别方法 | |
Sun et al. | Weak supervised learning based abnormal behavior detection | |
WO2023185074A1 (zh) | 一种基于互补时空信息建模的群体行为识别方法 | |
CN108491751B (zh) | 一种基于简单动作的探索特权信息的复杂动作识别方法 | |
CN116311504A (zh) | 一种小样本行为识别方法、系统及设备 | |
Khokher et al. | Crowd behavior recognition using dense trajectories |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |