CN107967441B - 一种基于双通道3d-2d rbm模型的视频行为识别方法 - Google Patents

一种基于双通道3d-2d rbm模型的视频行为识别方法 Download PDF

Info

Publication number
CN107967441B
CN107967441B CN201710845449.1A CN201710845449A CN107967441B CN 107967441 B CN107967441 B CN 107967441B CN 201710845449 A CN201710845449 A CN 201710845449A CN 107967441 B CN107967441 B CN 107967441B
Authority
CN
China
Prior art keywords
model
rbm
video
hog
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710845449.1A
Other languages
English (en)
Other versions
CN107967441A (zh
Inventor
李敬华
淮华瑞
王立春
孔德慧
闫会霞
尹宝才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201710845449.1A priority Critical patent/CN107967441B/zh
Publication of CN107967441A publication Critical patent/CN107967441A/zh
Application granted granted Critical
Publication of CN107967441B publication Critical patent/CN107967441B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于双通道3D‑2DRBM模型的视频行为识别方法,提出了3D张量到2D矩阵变量的受限玻尔兹曼机,即输入为3阶张量变量,输出为2阶矩阵变量的RBM,称其为3D‑2D RBM;该模型解决了前两个模型在处理3D视频数据上的劣势,也更好地保存了3D视频数据的时空信息,可以得到了较好的动态手势识别率。

Description

一种基于双通道3D-2D RBM模型的视频行为识别方法
技术领域
本发明属于计算机视觉与机器学习领域,具体地涉及一种基于双通道3D-2DRBM模型的视频行为识别方法。
背景技术
受限玻尔兹曼机(RBM)是一个无向概率图模型。RBM模型通过一组样本学习可见层和隐藏层之间的连接权值和偏置值,使在最优的一组模型参数下,所有样本发生的概率最大,进而得到输入数据的有效表示。RBM强大的特征提取以及表达能力,使其在模式识别、机器学习等领域广受欢迎。不过传统的受限玻尔兹曼机(RBM)通常是基于向量形式的输入输出数据或者变量,但来源于现实中的数据多为更一般的高阶结构,如2D图像,3D视频等。传统的RBM方法在处理上述结构时通常进行高阶数据的向量化处理,这样的处理会破坏图像/视频的空间或时空结构信息。齐光磊等提出了矩阵变量受限玻尔兹曼机(MVRBM),MVRBM是面向2D数据提出的,该模型的输入和输出数据变量都是基于矩阵形式的,该模型解决了传统的RBM的不足,使模型在训练和测试过程中能够保持2D矩阵数据的空间信息,能够很好地处理二维图像数据。但在处理3D视频数据时,需要先把3D数据表示成2D数据,这样的处理必然会损失原始3D数据的时空信息,不能保证数据的完整性。
动态手势识别是模式识别以及计算机视觉领域的一个热点研究课题,研究重心通常包括特征提取和分类器设计两个方面。分类器设计方面包括神经网络、隐马尔科夫模型等。特征提取方面通常包括手工定义的外观特征和运动特征,外观特征如手形、手部重心位置、S I FT特征、矩特征以及HOG特征等;运动特征如光流、轨迹特征等。手工定义的特征提取方法已取得很大成功,但通常需要先验知识,特别地,该方法提取的特征多为底层特征,不能反映信号的高层语义信息。近年来,深度学习方法受到广泛关注,在图像分类、对象定位等中取得很好成绩。本发明拟结合传统方法和学习方法的优势,提出新的动态手势识别方法。
发明内容
在传统的受限玻尔兹曼机(RBM)以及改进的矩阵变量受限玻尔兹曼机(MVRBM)模型的共同启发下,本发明提供一种基于双通道3D-2DRBM模型的视频行为识别方法,可以得到较好的动态手势识别率。
为实现上述目的,本发明采用如下的技术方案:
一种基于双通道3D-2DRBM模型的视频行为识别方法,包括以下步骤:
步骤一、训练阶段:
(1.1)针对输入的多组动态手势视频数据,分别进行计算光流特征提取处理和Canny算子去边缘处理;
(1.2)对于光流和Canny处理后得到的全部视频中的每一帧手动提取矩阵形式MxS大小的2D HOG特征,得到FLOW-HOG和Canny-HOG双通道特征,定义训练数据中每个手势动作视频用T帧描述,一个视频动作的每个通道特征可以表示为TxMxS的3阶张量形式;
(1.3)将大小为TxMxS的FLOW-HOG特征和Canny-HOG特征分别输入到3D-2D RBM模型中进行训练,通过不断的调整参数各自训练出最优的3D-2D RBM模型;
(1.4)以3D-2D RBM初始化NN模型,NN的输入和隐层节点数对应3D-2D RBM的输入和输出的向量化的维度;3D-2D RBM模型的三个矩阵形式的权重参数的克罗内克积作为NN网络的输入到隐层权重参数的初始值,通过反向传播算法不断调节NN的网络参数。
步骤二、测试阶段:
(2.1)与训练阶段(1.1)(1.2)一样,首先对测试数据进行同样的光流和Canny算子的处理;
(2.2)对于每个T帧的光流视频序列和Canny算子视频序列,分别提取每一帧为M*S大小的HOG特征;
(2.3)依次串联每个视频序列中的所有帧的特征,得到维度为T*M*S大小的向量,每个视频数据都可以用T*M*S大小的向量特征表示;
(2.4)输入上述特征向量到训练好的NN模型以进行分类。
作为优选,3D-2D RBM定义如下:
首先,定义
Figure GDA0001519893790000041
为二进制可见层3阶张量变量,对应视频中行为动作的时空3D表示;Y=[ylm]∈RL×M为二进制隐含层2阶张量变量,对应进一步提取出的行为动作的高层语义特征;S=[sijklm]∈RI×J×K×L×M为五阶张量参数,是可见层与隐含层之间的连接权重;
Figure GDA0001519893790000042
和C=[clm]∈RL×M分别是可见层和隐含层的偏置张量,首先定义如下的能量函数:
Figure GDA0001519893790000043
其中,
Figure GDA0001519893790000044
为模型参数;假定隐含层单元和可见层单元的连接权值有如下关系:sijklm=ulivmjw1k。通过定义三个新的矩阵U=[uli]∈RL×I,V=[vmj]∈RM×J和w=[w1k]∈R1×K,可以把公式(3-1)的能量函数改写成
Figure GDA0001519893790000045
即:
Figure GDA0001519893790000046
U、V和w共同定义了输入张量
Figure GDA0001519893790000047
和隐含矩阵Y的连接权,基于上述公式,
Figure GDA0001519893790000048
和Y的联合分布概率为:
Figure GDA0001519893790000049
其中,Θ表示所有的模型参数U,V,w,
Figure GDA00015198937900000410
和C;归一化常量Z(Θ)定义为:
Figure GDA00015198937900000411
假设给定一组动态行为训练数据
Figure GDA00015198937900000412
根据公式(4)它的极大似然函数为:
Figure GDA0001519893790000051
对于任意参数Θ,都可以求得似然函数导数,
Figure GDA0001519893790000052
Figure GDA0001519893790000053
表示在可见单元限定为已知的训练样本
Figure GDA0001519893790000054
时,隐层的概率分布,
Figure GDA0001519893790000055
表示可见单元与隐单元的联合分布;
根据CD-K算法的思想,通过一个较短的马尔科夫链实现近似计算,公式(7)的似然函数改写为
Figure GDA0001519893790000056
其中,k表示CD-K算法中的第k步Gibbs采样。
对于3D-2D RBM模型中的五个变量参数,分别对能量函数求导为
Figure GDA0001519893790000057
同理,其他四个变量也可以求得
Figure GDA0001519893790000058
Figure GDA0001519893790000061
Figure GDA0001519893790000062
所以,对于五阶张量的第一个权值矩阵U来说,似然函数的梯度公式为
Figure GDA0001519893790000063
其中,第一项是在可见层已知条件下的隐藏层的概率分布,第二项是可视层与隐藏层的联合概率分布;
同理可以得到其他参数对于似然函数的梯度:
Figure GDA0001519893790000064
Figure GDA0001519893790000065
Figure GDA0001519893790000066
Figure GDA0001519893790000071
附图说明
图1 3D-2D张量变量受限玻尔兹曼机模型图;
图2基于双通道3D-2D RBM的动态手势识别系统框架;
图3五种不同的光照;
图4九种不同的动态手势序列。
具体实施方式
本发明提供一种基于双通道3D-2DRBM模型的视频行为识别方法,提出了3D张量到2D矩阵变量的受限玻尔兹曼机,即输入为3阶张量变量,输出为2阶矩阵变量的RBM,我们称其为3D-2D RBM。该模型解决了RBM-RBM和MVRBM-MVRBM两个模型在处理3D视频数据上的劣势,也更好地保存了3D视频数据的时空信息。基于该模型,本发明也给出了其在基于视频的手势识别中的应用解决方案,提出一种基于双流3D-2D RBM的动态手势识别方法。该方法基于3D-2DRBM模型进一步学习基于传统方法提取的表征手势外观和运动的HOG特征和光流特征,进而得到了较好的动态手势识别率。
包括:
1、3D-2D RBM模型
3D-2D RBM模型的框架结构如下图1所示,3D-2D RBM的可见层单元表示为立方体结构,隐含层表示为圆柱结构。
该模型的定义如下:
首先,定义X=[xijk]∈RI×J×K为二进制可见层3阶张量变量,对应视频中行为动作的时空3D表示,Y=[ylm]∈RL×M为二进制隐含层2阶张量变量。对应进一步提取出的行为动作的高层语义特征。假设独立变量xijk和ylm从{0,1}中取值。S=[sijklm]∈RI×J×K×L×M为五阶张量参数,是可见层与隐含层之间的连接权重。B=[bijk]∈RI×J×K和C=[clm]∈RL×M分别是可见层和隐含层的偏置张量,首先定义如下的能量函数:
Figure GDA0001519893790000081
其中,
Figure GDA0001519893790000082
为模型参数。Θ中一共有I×J×K×L×M+I×J×K+L×M个自由参数。即使在I,J,K,L,M都很小时Θ也将是一个很大的数,这样就会需要大量的训练样本和很长的时间。为了减少自由参数的输出和节省计算复杂度,假定隐含层单元和可见层单元的连接权值有如下关系:sijklm=ulivmjw1k。通过定义三个新的矩阵U=[uli]∈RL×I,V=[vmj]∈RM×J和w=[w1k]∈R1×K,可以把公式(3-1)的能量函数改写成
Figure GDA0001519893790000083
即:
Figure GDA0001519893790000084
U、V和w共同定义了输入张量
Figure GDA0001519893790000085
和隐含矩阵Y的连接权,基于上述公式,
Figure GDA0001519893790000086
和Y的联合分布概率为:
Figure GDA0001519893790000091
其中,Θ表示所有的模型参数U,V,w,
Figure GDA0001519893790000092
和C。归一化常量Z(Θ)定义为:
Figure GDA0001519893790000093
假设给定一组动态行为训练数据
Figure GDA0001519893790000094
根据公式(4)它的极大似然函数为:
Figure GDA0001519893790000095
对于任意参数Θ,都可以求得似然函数导数,
Figure GDA0001519893790000096
Figure GDA0001519893790000097
表示在可见单元限定为已知的训练样本
Figure GDA0001519893790000098
时,隐层的概率分布,故(7)式中的前一项比较容易计算。
Figure GDA0001519893790000099
表示可见单元与隐单元的联合分布,由于归一化因子Z(Θ)的存在,该分布很难获,导致我们无法直接计算(7)式中的第二项,只能通过一些采样方法获取其近似值。本发明使用对比散度(CD)算法进行近似计算。
根据CD-K算法的思想,通过一个较短的马尔科夫链实现近似计算。公式(7)的似然函数改写为
Figure GDA00015198937900000910
其中,k表示CD-K算法中的第k步Gibbs采样。
对于3D-2D RBM模型中的五个变量参数,分别对能量函数求导为
Figure GDA0001519893790000101
同理,其他四个变量也可以求得
Figure GDA0001519893790000102
Figure GDA0001519893790000103
Figure GDA0001519893790000104
所以,对于五阶张量的第一个权值矩阵U来说,似然函数的梯度公式为
Figure GDA0001519893790000105
其中,第一项是在可见层已知条件下的隐藏层的概率分布,第二项是可视层与隐藏层的联合概率分布。
同理可以得到其他参数对于似然函数的梯度:
Figure GDA0001519893790000111
Figure GDA0001519893790000112
Figure GDA0001519893790000113
Figure GDA0001519893790000114
张量变量受限玻尔兹曼机(3D-2D RBM)模型的训练阶段(如表1所示)::
表1 3D-2D RBM模型的CD-K训练算法
Figure GDA0001519893790000115
Figure GDA0001519893790000121
之后,张量变量受限玻尔兹曼机(3D-2D RBM)模型被用于初始化NN,以改进NN的判别性能。
2、基于双通道3D-2D RBM模型的动态手势识别
以行为识别中的手势识别为例,动态手势由连续的三维空间动作表达,这种三维数据兼具时间和空间上的相关性。鉴于前述3D-2D RBM模型的特点,应用到动态行为识别时最直接的想法就是把3D视频数据直接作为输入进行训练和测试。不过当把视频原始数据直接输入该模型时,实验结果并不理想。这可能是由于原始视频维度高,直接输入模型会导致模型的复杂度较高,而样本不多,所以影响了训练。本发明考虑结合先验知识,即对原始数据进行预处理后再输入该模型建模。考虑HOG和光流在手势空间和运动特征描述方面的优势,本发明首先提取视频序列每一帧的HOG特征表达手势的空间特征,为了去除变光照的影响,在提取HOG特征之前做了基于Canny边缘检测的去光照处理。本发明同时提取了原始手势视频的光流特征以表达手势的运动特征,由于光流的稠密性,进一步对光流进行了HOG特征提取。通常的HOG特征是一维的,通过串联各块(BLOCK)特征来表征一个对象,本发明中为更好保持空间特征,引入2D HOG特征描述视频序列的每一帧,这样我们就得到了描述3D视频序列的Canny-2D HOG光流-2D HOG特征。
上述获得的Canny-2D HOG特征序列和光流-2D HOG特征序列分别表征了动态手势的底层空间外观和运动特征,为了进一步提取表征动态手势的高层语义信息,本发明分别对这两个序列进行了进一步的特征提取,即分别输入到3D-2D RBM模型进行进一步基于学习的特征提取。由于3D-2D RBM是无监督的学习算法,更适用于高层特征表示,为了增强判别性,本文引入了神经网络(NN),以3D-2D RBM的权重作为NN的初值,并通过反向传播算法进行NN的权值的微调。动态手势由空间外观和运动两方面特征共同表示,因此本发明在决策层融合两者进行识别分类。具体地,对于每个通道的数据,得到输入相对各类别的概率,并通过实验获得两个通道的相对可信概率,最后基于两个通道的可信概率和类别概率的乘积和的最大值进行分类。
系统框架如图2所示。
本发明提出的双通道3D-2D RBM模型方法的具体步骤表示为:
训练阶段:
(1)针对输入的多组动态手势视频数据,分别进行计算光流特征提取处理和Canny算子去边缘处理;为了使得两通道的3D数据的结构保持一致,对于同一组手势视频数据,本方法要求光流之后的动态手势帧与Canny之后的帧数一致;
(2)对于光流和Canny处理后得到的全部视频中的每一帧手动提取矩阵形式MxS大小的2D HOG特征,得到FLOW-HOG和Canny-HOG双通道特征,定义训练数据中每个手势动作视频用T帧描述,那么一个视频动作的每个通道特征可以表示为TxMxS的3阶张量形式;
(3)将大小为TxMxS的FLOW-HOG特征和Canny-HOG特征分别输入到3D-2D RBM模型中进行训练,通过不断的调整参数各自训练出最优的3D-2D RBM模型;
(4)以训练好的3D-2D RBM初始化NN,NN的输入和隐层节点数对应3D-2D RBM的输入和输出的向量化的维度。3D-2D RBM模型的三个矩阵形式的权重参数的克罗内克积作为NN网络的输入到隐层权重参数的初始值,之后通过反向传播算法不断调节NN网络参数来进行分类。
测试阶段:
(1)与训练阶段(1)(2)一样,首先对测试数据进行同样的光流和Canny算子的处理。
(2)对于每个T帧的光流视频序列和Canny算子视频序列,分别提取每一帧为M*S大小的HOG特征。
(3)依次串联每个视频序列中的所有帧的特征,得到维度为T*M*S大小的向量,这样,每个视频数据都可以用T*M*S大小的向量特征表示;
(4)对于每个通道的数据,分别输入到NN网络后,都会有一个相对各类别的概率大小,本发明设置两个通道的可信概率分别为0.5,然后基于融合后的概率来进行动态手势分类。
实施例1:
上述方法在公开的剑桥手势数据集上进行实验,证明提出的3D-2D RBM模型的可行性以及对于动态手势识别的有效性。下面将阐述实验数据、实验方案以及实验结果。
实验数据:
该实验所用到的数据库为剑桥动态手势库。剑桥动态手势库由900个视频动作组成,共分为9类,其中每一类为100个视频动作。在五种不同的光照环境下,9种不同的动作序列不断重复组成了所有的视频样本。数据库被标记为Set1、Set2、Set3、Set4和Set5总共5个子集,每个Set里包含360个视频样本。(每类40个样本,每个样本为20帧)。该实验使用Set5作为训练,其余用作测试集。图3展示了五种不同的光照,图4展示了9类不同的动态手势动作。
实验方案及结果:
为了验证3D-2D RBM模型的预训练性能,本发明分别进行了如下实验:HOG-RBM-NN,HOG-MVRBM-NN和HOG-3D-2D RBM–NN实验。基于HOG-RBM-NN模型,对于每个手势序列中的每一帧,我们提取96维的HOG特征,然后把每个视频样本的20帧HOG特征拼接成20*96=1920维的HOG特征,把它作为RBM的输入。不断调节模型参数使结果达到最好。就HOG-MVRBM-NN而言,同样地,提取每一帧为96维的HOG特征,然后根据视频帧数进行对齐,我们把形成的特征矩阵作为MVRBM的输入。就HOG-3D-2D RBM-NN模型来说,对样本中的每一帧提取矩阵形式的HOG特征,这里,我们提取4x24维的HOG矩阵。然后,把大小为4x24x20的视频手势作为3D-2DRBM模型的输入。三个实验都是在实验数据进行Canny算子处理完成后进行的。可以看出,3D-2D RBM能更好地保留结构信息特性,因而有相对RBM和MVRBM更好的识别性能。
表2基于RBM变体的单通道手势识别准确率对比
Figure GDA0001519893790000161
为了验证双通道3D-2D RBM-NN模型的性能,本发明进行了与双通道MVRBM-NN以及上述单通道HOG-3D-2D RBM-NN的对比实验。就双通道3D-2D RBM-NN来说,首先分别对剑桥手势数据进行Canny算子处理和光流处理,由于光流处理之后每一个样本中的帧数都减少为18帧,为了保持两个通道的一致性,将其扩充为与Canny一样的20帧。然后对样本中的每一帧提取矩阵形式的HOG特征,这里,我们提取4x24维的HOG矩阵。最后,把大小为4x24x20的视频手势作为3D-2D RBM模型的输入。通过大量的实验,我们确定3D-2D RBM模型参数设置当学习率为0.05,权重惩罚项为0.1,动量为0.5,批处理大小为10,迭代次数为50时,结果最好。经过不断的测试,最终我们设置两个通道的可信概率为0.5。
双通道MVRBM-NN模型的实现同上类似,不同的是,提取的是1D的HOG和光流HOG特征,然后逐行拼接成矩阵,最后输入到MVRBM-NN进行训练。最优参数设置为:隐层节点数4x4,学习率0.05,权重惩罚项0.01,动量0.5,批处理大小100,迭代次数10。两个通道融合的可信概率通过实验测试定为0.5。根据表3可以知道,双通道3D-2D RBM-NN模型的分类结果更好。
表3双通道手势识别的准确率评价
Figure GDA0001519893790000171

Claims (2)

1.一种基于双通道3D-2DRBM模型的视频行为识别方法,其特征在于,包括以下步骤:
步骤一、训练阶段:
(1.1)针对输入的多组动态手势视频数据,分别进行计算光流特征提取处理和Canny算子去边缘处理;
(1.2)对于光流和Canny处理后得到的全部视频中的每一帧手动提取矩阵形式MxS大小的2D HOG特征,得到FLOW-HOG和Canny-HOG双通道特征,定义训练数据中每个手势动作视频用T帧描述,T帧的每个通道特征表示为TxMxS的3阶张量形式;
(1.3)将大小为TxMxS的FLOW-HOG特征和Canny-HOG特征分别输入到3D-2D RBM模型中进行训练,通过不断的调整参数各自训练出最优的3D-2D RBM模型;
(1.4)以3D-2D RBM初始化NN模型,NN的输入和隐层节点数对应3D-2D RBM的输入和输出的向量化的维度;3D-2D RBM模型的三个矩阵形式的权重参数的克罗内克积作为NN网络的输入到隐层权重参数的初始值,通过反向传播算法不断调节NN的网络参数;
步骤二、测试阶段:
(2.1)与训练阶段(1.1)(1.2)一样,首先对测试数据进行同样的光流和Canny算子的处理;
(2.2)对于每个T帧的光流视频序列和Canny算子视频序列,分别提取每一帧为M*S大小的HOG特征;
(2.3)依次串联每个视频序列中的所有帧的特征,得到维度为T*M*S大小的向量,每个视频数据都用T*M*S大小的向量特征表示;
(2.4)输入上述特征向量到训练好的NN模型以进行分类。
2.如权利要求1所述的基于双通道3D-2DRBM模型的视频行为识别方法,其特征在于,3D-2D RBM定义如下:
首先,定义
Figure FDA0002905466380000028
为二进制可见层3阶张量变量,对应视频中行为动作的时空3D表示;Y=[ylm]∈RL×M为二进制隐含层2阶张量变量,对应进一步提取出的行为动作的高层语义特征;
Figure FDA0002905466380000029
为五阶张量参数,是可见层与隐含层之间的连接权重;
Figure FDA00029054663800000210
和C=[clm]∈RL×M分别是可见层和隐含层的偏置张量,首先定义如下的能量函数:
Figure FDA0002905466380000021
其中,
Figure FDA0002905466380000022
为模型参数;假定隐含层单元和可见层单元的连接权值有如下关系:sijklm=ulivmjw1k;通过定义所述的三个矩阵U=[uli]∈RL×I,V=[vmj]∈RM×J和w=[w1k]∈R1 ×K,可以把公式(1)的能量函数改写成
Figure FDA0002905466380000023
即:
Figure FDA0002905466380000024
U、V和w共同定义了输入张量
Figure FDA00029054663800000211
和隐含矩阵Y的连接权,基于上述公式,
Figure FDA0002905466380000025
和Y的联合分布概率为:
Figure FDA0002905466380000026
其中,Θ表示所有的模型参数U,V,w,
Figure FDA0002905466380000027
和C;归一化常量Z(Θ)定义为:
Figure FDA0002905466380000031
假设给定一组动态行为训练数据
Figure FDA0002905466380000032
根据公式(4)它的极大似然函数为:
Figure FDA0002905466380000033
对于任意参数Θ,都可以求得似然函数导数,
Figure FDA0002905466380000034
Figure FDA0002905466380000035
表示在可见单元限定为已知的训练样本
Figure FDA0002905466380000036
时,隐层的概率分布,
Figure FDA0002905466380000037
表示可见单元与隐单元的联合分布;
根据CD-K算法的思想,通过一个较短的马尔科夫链实现近似计算,公式(7)的似然函数改写为
Figure FDA0002905466380000038
其中,k表示CD-K算法中的第k步Gibbs采样;
对于3D-2D RBM模型中的五个变量参数,分别对能量函数求导为
Figure FDA0002905466380000039
这里,X(i)是张量
Figure FDA0002905466380000041
的第i模式展开矩阵;
同理,其他四个变量也可以求得
Figure FDA0002905466380000042
Figure FDA0002905466380000043
Figure FDA0002905466380000044
所以,对于五阶张量的第一个权值矩阵U来说,似然函数的梯度公式为
Figure FDA0002905466380000045
其中,第一项是在可见层已知条件下的隐藏层的概率分布,第二项是可视层与隐藏层的联合概率分布;
同理可以得到其他参数对于似然函数的梯度:
Figure FDA0002905466380000046
Figure FDA0002905466380000047
Figure FDA0002905466380000048
Figure FDA0002905466380000049
CN201710845449.1A 2017-09-19 2017-09-19 一种基于双通道3d-2d rbm模型的视频行为识别方法 Active CN107967441B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710845449.1A CN107967441B (zh) 2017-09-19 2017-09-19 一种基于双通道3d-2d rbm模型的视频行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710845449.1A CN107967441B (zh) 2017-09-19 2017-09-19 一种基于双通道3d-2d rbm模型的视频行为识别方法

Publications (2)

Publication Number Publication Date
CN107967441A CN107967441A (zh) 2018-04-27
CN107967441B true CN107967441B (zh) 2021-03-30

Family

ID=61996561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710845449.1A Active CN107967441B (zh) 2017-09-19 2017-09-19 一种基于双通道3d-2d rbm模型的视频行为识别方法

Country Status (1)

Country Link
CN (1) CN107967441B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902547B (zh) * 2018-05-29 2020-04-28 华为技术有限公司 动作识别方法和装置
CN109977989B (zh) * 2019-01-17 2021-04-20 北京工业大学 一种图像张量数据的处理方法
CN110147754A (zh) * 2019-05-17 2019-08-20 金陵科技学院 一种基于vr技术的动态手势识别方法
CN110765860B (zh) * 2019-09-16 2023-06-23 平安科技(深圳)有限公司 摔倒判定方法、装置、计算机设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991372A (zh) * 2017-03-02 2017-07-28 北京工业大学 一种基于混合深度学习模型的动态手势识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991372A (zh) * 2017-03-02 2017-07-28 北京工业大学 一种基于混合深度学习模型的动态手势识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"An introduction to restricted";FISCHER A, IGEL C.;《Lecture Notes in Computer》;20121231;全文 *
"基于视频的人体行为识别关键技术研究";于成龙;《中国博士学位论文全文数据库 信息科技辑》;20160315(第03期);全文 *

Also Published As

Publication number Publication date
CN107967441A (zh) 2018-04-27

Similar Documents

Publication Publication Date Title
CN106991372B (zh) 一种基于混合深度学习模型的动态手势识别方法
Wang et al. Dividing and aggregating network for multi-view action recognition
CN109919031B (zh) 一种基于深度神经网络的人体行为识别方法
CN110188239B (zh) 一种基于跨模态注意力机制的双流视频分类方法和装置
CN107967441B (zh) 一种基于双通道3d-2d rbm模型的视频行为识别方法
Ding et al. Violence detection in video by using 3D convolutional neural networks
CN106778796B (zh) 基于混合式协同训练的人体动作识别方法及系统
CN109190479A (zh) 一种基于混合深度学习的视频序列表情识别方法
Zhang et al. Multi-instance multi-label action recognition and localization based on spatio-temporal pre-trimming for untrimmed videos
CN112784929B (zh) 一种基于双元组扩充的小样本图像分类方法及装置
CN113158723A (zh) 一种端到端的视频动作检测定位系统
Chenarlogh et al. A multi-view human action recognition system in limited data case using multi-stream CNN
CN111339849A (zh) 一种融合行人属性的行人重识别的方法
Arora et al. Deep embeddings for rare audio event detection with imbalanced data
Ye et al. Embedding sequential information into spatiotemporal features for action recognition
CN112183240A (zh) 一种基于3d时间流和并行空间流的双流卷积行为识别方法
CN111462173B (zh) 基于孪生网络判别特征学习的视觉跟踪方法
Sharmili et al. Earthworm Optimization with Improved SqueezeNet Enabled Facial Expression Recognition Model.
Hu et al. Deep learning for distinguishing computer generated images and natural images: A survey
CN105956604B (zh) 一种基于两层时空邻域特征的动作识别方法
Sun et al. Weak supervised learning based abnormal behavior detection
WO2023185074A1 (zh) 一种基于互补时空信息建模的群体行为识别方法
CN108491751B (zh) 一种基于简单动作的探索特权信息的复杂动作识别方法
CN116311504A (zh) 一种小样本行为识别方法、系统及设备
Khokher et al. Crowd behavior recognition using dense trajectories

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant