CN111339845B - 区分并增强时空特征的图卷积神经网络人体动作识别方法 - Google Patents

区分并增强时空特征的图卷积神经网络人体动作识别方法 Download PDF

Info

Publication number
CN111339845B
CN111339845B CN202010089473.9A CN202010089473A CN111339845B CN 111339845 B CN111339845 B CN 111339845B CN 202010089473 A CN202010089473 A CN 202010089473A CN 111339845 B CN111339845 B CN 111339845B
Authority
CN
China
Prior art keywords
neural network
vector
human body
distinguishing
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010089473.9A
Other languages
English (en)
Other versions
CN111339845A (zh
Inventor
柯逍
柯力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202010089473.9A priority Critical patent/CN111339845B/zh
Publication of CN111339845A publication Critical patent/CN111339845A/zh
Application granted granted Critical
Publication of CN111339845B publication Critical patent/CN111339845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种自动区分并增强时空特征的图卷积神经网络的人体动作识别方法,首先是基于神经网络自编码器的构造;其次通过一种新的表示无监督学习训练原理实现自动编码器的人体骨架信息压缩和自动编码降维;然后设计一种机制来在任何给定的时间步生成参考向量,将能够相对于生成的参考旋转隐藏状态;接着对旋转储存器网络模型构建原理及实现;最后对旋转储存器网络模型的激活函数进行分析和选择并对自动区分并增强时空特征的图卷积神经网络模型构建。本发明可以有效的提高人体动作识别的准确率。

Description

区分并增强时空特征的图卷积神经网络人体动作识别方法
技术领域
本发明涉及模式识别与计算机视觉领域,尤其涉及一种自动区分并增强时空特征的图卷积神经网络的人体动作识别方法。
背景技术
近年来,已经提出了多种动作表示方法,包括基于时间和空间变化的局部和全局特征,基于关键点跟踪的轨迹特征,动作基于深度信息而变化,动作特征基于人的姿势变化等。随着深度学习在图像分类和目标检测中的成功应用,许多研究人员也将深度学习应用于人体动作识别。这样可以从视频数据中自动学习动作特征。另外,也有一些研究回顾了这些动作识别方法。但是,这些文献仅讨论了特定方面,例如,基于空间时空兴趣点(STIP)的人类动作识别方法,人类步行分析方法和基于深度学习的方法。最近许多研究者提出了一些创新性的研究思路,特别是在将深度学习方法应用于特征学习方面。在最新的研究成果中,包括动作分类,人-物体交互识别和动作检测方法。将动作分类方法概括为基于手工特征的方法和基于特征学习的方法。这些方法可以应用于不同类型的数据。
随着深度相机的发展,深度数据现已广泛用于许多计算机视觉任务中,尤其是对人体的姿态估计进行人体骨架数据的提取。此外,有关RGB视频中的人体检测和姿态估计的最新研究结果表明,基于深度学习的方法可以在复杂场景中实现多人姿态估计。还提出了几种基于深度序列和骨架数据的人体动作识别技术。这些方法在一定程度上解决了RGB摄像机或视频对人体动作识别的一些问题,并表现出良好的识别性能。Ye等人总结了使用深度数据和Presti等人的人类动作识别方法并讨论了基于3D骨架数据的人体动作识别方法,在一定程度上肯定了他们的研究方向。
基于骨架数据的人体动作识别存在的如下问题:
(1)传统的骨架建模人体动作识别模型在时空建模时,会产生大量的信息人体骨架信息,这些时空信息不仅对识别模型没有帮助,甚至还会识别模型有负面的影响,即冗余。并且,在实际的应用场景,特别在安防场景下,因为要计算这些时空信息,会消耗大量的计算资源。
(2)不同的动作在人体中具体表现部位是各有不同的,例如拍肩膀的动作,应该注重的是手部以上的信息,而手部以下的信息可以忽略不计,在传统的模型中,并没有对这点进行考虑和分析,导致模型识别的准确率和鲁棒性无法提升。
发明内容
针对上述问题,本发明提供一种自动区分并增强时空特征的图卷积神经网络的人体动作识别方法。目的在于解决传统的骨架建模人体动作识别模型在时空建模的信息冗余和无法关注重点的骨架信息等问题。在其实现的过程中,首先是基于神经网络自编码器的构造;其次通过一种新的表示无监督学习训练原理实现自动编码器的人体骨架信息压缩和自动编码降维;然后设计一种机制来在任何给定的时间步生成参考向量,将能够相对于生成的参考旋转隐藏状态;接着对旋转储存器网络模型构建原理及实现;最后对旋转储存器网络模型的激活函数进行分析和选择并对自动区分并增强时空特征的图卷积神经网络模型构建。本发明可以有效的提高人体动作识别的准确率。
为实现上述目的,本发明具体采用以下技术方案:一种自动区分并增强时空特征的图卷积神经网络的人体动作识别方法,包括以下步骤:
一种自动区分并增强时空特征的图卷积神经网络的人体动作识别方法,其特征在于,包括以下步骤:
步骤S1:将神经网络产生的骨架肢体信息输入到基于神经网络的自动编码器中,将通道数和骨架信息进行压缩降维;
步骤S2:将降维之后的通道数和骨架信息输入到旋转存储器网络中,针对不同的动作类别产生不同的注意力权重;
步骤S3:采用激活函数进行动作分类,根据预测出的每个动作进行打分,使用投票的方法产生一个最终预测的动作。
优选地,在步骤S1中,所述自动编码器的处理过程具体包括:
步骤S11:所述自动编码器将每个训练数据x(i)视为输入向量x∈[0,1]d,通过一个由θ={W,b}参数化的确定映射函数y=fθ(x)=F(Wx+b),将其映射到一个隐藏表示y∈[0,1]d′;其中,W是d×d′的权重矩阵,b是一个偏差向量,F是一个映射函数,d是权重矩阵的行数,d′是权重矩阵的列数;
步骤S12:将通过步骤S11获得的隐藏表示y映射回重构向量z∈[0,1]d所在的输入空间z=gθ′(y)=F(W′y+b′)中;其中,参数θ′={W′y+b′},W′是反向映射权重矩阵,b′是一个偏差向量;
由于反向映射的权重矩阵W′选择性地被W′=WT约束,所述自动编码器具有绑定的权重;每个训练x(i)经过自动编码器被映射到相应的y(i)和重构z(i),其中x表示输入向量,y表示其映射的一个隐藏向量,z表示重构向量,i表示训练次数。
优选地,所述自动编码器的参数经过以最小化平均重建误差优化后为:
Figure GDA0003613985400000031
其中,θ和θ′为参数,i表示当前训练的次数,n表示训练的总次数,L是损失函数,gθ′表示输入的空间向量,fθ表示映射函数。
优选地,所述自动编码器为神经网络概率编码器
Figure GDA0003613985400000032
生成模型的后验逼近pξ(t|j),并不断优化变分参数
Figure GDA0003613985400000033
和生成模型参数ξ,使模型达到最佳效果;其中,t表示未观测变量,j表示生成的数据点,对训练数据进行压缩降维的具体过程如下:
步骤S13:设潜变量上以先验为中心各向同性多元高斯函数为pξ(t)=η(t;0,I);I表示高斯分布的最大值;
步骤S14:设pξ(t|j)为多元高斯或伯努利,其分布参数由t和单隐式全连接神经网络计算得出;假定真实的后部具有近似对角协方差的高斯形式,使变分近似后验为一个具有对角协方差结构的多元高斯:
Figure GDA0003613985400000034
其中,i表示当前的训练次数,近似后验的均值和平均方差分别为μ(i)和σ2(i),是编码单隐式全连接神经网络的输出,即数据点x(i)的非线性函数及其变分参数
Figure GDA0003613985400000035
步骤S15:从后验样本中提取样本,当样本ε(l)~η(0,I)时,使用
Figure GDA0003613985400000036
其中⊙表示两个元素的乘积,得到提取样本
Figure GDA0003613985400000037
在这个模型中,pξ(t)和
Figure GDA0003613985400000038
都是高斯的;该模型和数据点x(i)的估计量H为:
Figure GDA0003613985400000041
其中,c、C、l和L表示累加的参数,t(i,l)=μ(i)(i)⊙ε(l)并且ε(l)~ω(0,I);解码项logpξ(j(i)|t(i,l))是伯努利或高斯单隐式全连接神经网络。
优选地,通过控制和调节所述神经网络概率编码器的层数,控制调节通道数和骨架信息压缩降维之后的维度。
优选地,在步骤S2中,所述旋转存储器网络在任何给定的时间步生成参考向量,相对于生成的参考旋转隐藏状态。
优选地,所述旋转存储器网络在任何给定的时间步生成参考向量,相对于生成的参考旋转隐藏状态具体包括以下步骤:
步骤S21:将hk看作Nh-维欧几里德空间中的实向量,其中,k是时间步;hk是隐藏态;Nh是隐藏态
Figure GDA0003613985400000042
的维数;隐藏态由幅度和相位表征;
步骤S23:通过线性嵌入RNN,输入
Figure GDA0003613985400000043
到一个嵌入的输入
Figure GDA0003613985400000044
步骤S24:通过获得目标存储器τk作为投影在隐藏空间中的当前输入xk和线性变换后的先前记录的hk-1的线性组合;
步骤S25:通过函数旋转:
Figure GDA0003613985400000045
旋转取一对列向量(α,β),并将旋转矩阵ω从α旋转到β:如果α和β具有相同的方向,则ω是单位矩阵;否则,这两个向量形成一个平面跨度(α,β),其中,α和β分别表示旋转的角度。
优选地,在步骤S2中,所述旋转存储器网络的具体结构和运行机制为:
所述旋转储存器网络包含一个更新门
Figure GDA0003613985400000046
旋转储存器将输入向量
Figure GDA0003613985400000047
嵌入到
Figure GDA0003613985400000048
中,得到
Figure GDA0003613985400000049
旋转编码的嵌入式输入和目标,累积在联想记忆单元
Figure GDA0003613985400000051
之中;旋转储存器通过更新门u计算新的隐藏状态;
对于非线性的旋转储存器,使用的是梯度更新的分析激活函数,设代价函数为D,对于K步,通过链式法则计算偏导数:
Figure GDA0003613985400000052
其中,r表示当前步数,D(r)是点态非线性雅可比矩阵对于一个标准的RNN,W≡Rk是一个旋转矩阵,并对矩阵使用谱范数;通过正交性,得到
Figure GDA0003613985400000053
优选地,在步骤S3中,所述激活函数采用softmax。
优选地,所述激活函数采用ReLU。
本发明及其优选方案可以有效的提高人体动作识别的准确率,解决了传统的骨架建模人体动作识别模型在时空建模的信息冗余和无法关注重点的骨架信息等问题。
附图说明
图1是本发明实施例总体方案构建流程示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
如图1所示,为了将本发明的整体内容和特点进行更为清楚的说明,本实施例提供本发明最终获得的自动区分并增强时空特征的图卷积神经网络的人体动作识别方法的设计和构建过程的展示,其具体包括以下步骤:
步骤A1:基于神经网络自编码器的构造;
在本实施例中,步骤A1具体包括:
步骤A11:所述自动编码器将每个训练数据x(i)视为输入向量x∈[0,1]d,通过一个由θ={W,b}参数化的确定映射函数y=fθ(x)=F(Wx+b),将其映射到一个隐藏表示y∈[0,1]d′;其中,W是d×d′的权重矩阵,b是一个偏差向量,F是一个映射函数,d是权重矩阵的行数,d′是权重矩阵的列数;
步骤A12:将得到采用潜在表示的y映射回重构向量z∈[0,1]d所在的输入空间z=gθ′(y)=F(W′y+b′)中,此时参数θ′={W′y+b′},同理W′是反向映射权重矩阵,b′是一个偏差向量;
步骤A13:反向映射的权重矩阵W′可以选择性地被W′=WT约束,此时,自动编码器被称为具有绑定的权重。因此,每个训练x(i)被映射到相应的y(i)和重构z(i),x表示输入向量,y表示其映射的一个隐藏向量,z表示重构向量,i表示训练次数;
步骤A14:这个该模型的参数经过以最小化平均重建误差优化后为:
Figure GDA0003613985400000061
其中,θ和θ′为参数,i表示当前训练的次数,n表示训练的总次数,L是损失函数,例如传统的平方误差L(x,z)=||x-z||2,gθ′表示输入的空间向量,fθ表示映射函数。
步骤A2:通过一种新的表示无监督学习训练原理实现自动编码器的人体骨架信息压缩和自动编码降维;
在本实施例中,步骤A2具体包括:
步骤A21:使用一个神经网络概率编码器
Figure GDA0003613985400000062
生成模型的后验逼近pξ(t|j),并不断优化变分参数
Figure GDA0003613985400000063
和生成模型参数ξ,使模型达到一个最好的效果,其中,t表示未观测变量,j表示生成的数据点;
步骤A22:设潜变量上以先验为中心各向同性多元高斯函数为pξ(t)=η(t;0,I)。I表示高斯分布的最大值,在这种情况下,先前的缺少参数需要注意处理;
步骤A23:设pξ(t|j)为多元高斯(实值数据)或伯努利(二进制数据),其分布参数由t和单隐式全连接神经网络计算得出。此时,真正的后部pξ(t|j)是难以处理的。虽然
Figure GDA0003613985400000064
的形式有很大的自由度,但假定真实的(但难处理的)后部具有近似对角协方差的高斯形式。则可以使变分近似后验成为一个具有对角协方差结构的多元高斯:
Figure GDA0003613985400000065
其中,i表示当前的训练次数,近似后验的均值和平均方差分别为μ(i)和σ2(i),是编码单隐式全连接神经网络的输出,即数据点x(i)的非线性函数及其变分参数
Figure GDA0003613985400000071
步骤A24:从后验样本中提取样本,当样本ε(l)~η(0,I)时,使用
Figure GDA0003613985400000072
其中⊙表示两个元素的乘积,得到提取样本
Figure GDA0003613985400000073
在这个模型中,pξ(t)和
Figure GDA0003613985400000074
都是高斯的。该模型和数据点x(i)的估计量H为:
Figure GDA0003613985400000075
其中,c、C、l和L表示累加的参数,t(i,l)=μ(i)(i)⊙ε(l)并且ε(l)~ω(0,I)。解码项logpξ(j(i)|t(i,l))是伯努利或高斯单隐式全连接神经网络,这取决于正在建模的数据类型。
步骤A3:设计一种机制来在任何给定的时间步生成参考向量,将能够相对于生成的参考旋转隐藏状态;
在本实施例中,步骤A3具体包括:
步骤A31:对于成功的RNN需要在时间步k处对隐藏态hk进行精心设计的操作。将hk看作Nh-维欧几里德空间中的实向量,从数学上处理这个问题,其中Nh是隐藏态
Figure GDA0003613985400000076
的维数;
步骤A32:可以将一个独特的角度与某个参考向量的hk相关联。因此,隐藏状态可以由幅度(即L2范数)和相位(即相对于参考向量的角度)来表征。所以,假设设计一种机制来在任何给定的时间步生成参考向量,将能够相对于生成的参考旋转隐藏状态;
步骤A33:通过将线性嵌入RNN输入
Figure GDA0003613985400000077
到一个嵌入的输入
Figure GDA0003613985400000078
步骤A34:通过获得目标存储器τk作为当前输入xk(投影在隐藏空间中)和先前记录的hk-1(线性变换后)的线性组合;
步骤A35:提出了一个函数旋转:
Figure GDA0003613985400000081
实现了这一个思想。旋转取一对列向量(α,β),并将旋转矩阵ω从α旋转到β。如果α和β具有相同的方向,则ω是单位矩阵;否则,这两个向量形成一个平面跨度(α,β),其中,α和β分别表示旋转的角度。
步骤A4:旋转储存器网络模型构建原理及实现;
在本实施例中,步骤A4具体包括:
步骤A41:旋转储存器(RUM)网络包含一个更新门
Figure GDA0003613985400000082
其功能与GRU中的更新门相同。该模型代替重置门的是学习记忆目标
Figure GDA0003613985400000083
旋转储存器同时将输入向量
Figure GDA0003613985400000084
嵌入到
Figure GDA0003613985400000085
中,得到
Figure GDA0003613985400000086
步骤A42:旋转编码的嵌入式输入和目标,都累积在联想记忆单元
Figure GDA0003613985400000087
(最初初始化为身份矩阵)之中。旋转储存器通过更新门u计算新的隐藏状态,就像在GRU中一样。正交矩阵在概念上代替了作用于GRU中隐藏态的权核;
步骤A43:对于非线性的RUM,使用的是梯度更新的分析激活函数,设代价函数为D,对于K步,通过链式法则计算偏导数:
Figure GDA0003613985400000088
其中,r表示当前步数,D(r)是点态非线性雅可比矩阵对于一个标准的RNN。为了清楚起见,考虑RUM的一个简化版本,其中W≡Rk是一个旋转矩阵,并对矩阵使用谱范数。通过正交性,得到
Figure GDA0003613985400000089
步骤A5:对旋转储存器网络模型的激活函数进行分析和选择;
在本实施例中,步骤A5具体包括:
步骤A51:ReLU函数是常见的激活函数中的一种,表达形式如下:
Q(v)=max(0,v)
其中,max表示取两数之间的最大值函数,v表示输入的数值,ReLU函数其实是分段线性函数,把所有的负值都变为0,而正值不变,这种操作被成为单侧抑制。也就是说:在输入是负值的情况下,它会输出0,那么神经元就不会被激活。这意味着同一时间只有部分神经元会被激活,从而使得网络很稀疏,进而对计算来说是非常有效率的。正因为有了这单侧抑制,才使得神经网络中的神经元也具有了稀疏激活性。尤其体现在深度神经网络模型(如CNN)中,当模型增加N层之后,理论上ReLU神经元的激活率将降低2的N次方倍。
步骤A52:Sigmoid函数又称logistic函数,在逻辑回归中经常出现,表达形式如下:
Figure GDA0003613985400000091
其中,M(λ)表示Sigmoid函数,λ表示神经网络的输入。Sigmoid函数常被用作神经网络的阈值函数,将变量映射到0和1之间,该函数单调递增且以(0,0.5)对称,在两端变化速度较慢,它是神经网络中的激活函数,其作用就是引入非线性;
步骤A53:tanh是双曲函数中的一个,为双曲正切。在数学中,双曲正切是由基本双曲函数双曲正弦和双曲余弦推导而来,公式如下:
Figure GDA0003613985400000092
其中,χ表示神经网络的输入,其函数图像为过原点并且穿越Ⅰ、Ⅲ象限的严格单调递增曲线;
步骤A54:SoftSign也是一种类似tanh的激活函数,以0点为中心反对称,取值范围为(-1,1),除了在0点的导数难计算外,训练速度也比较快,计算公式如下:
Figure GDA0003613985400000093
其中,α表示神经网络的输入,Y(α)表示SoftSign激活函数;
步骤A55:根据试验实测,激活函数的最佳选择是softmax。同时由于旋转储存器网络模型需要在某个值为正,导数为1,则通过上述步骤的分析,ReLU也是一个不错的选择。
步骤A6:自动区分并增强时空特征的图卷积神经网络模型构建。
在本实施例中,步骤A6具体包括:
步骤A61:将神经网络产生的256维的通道数,1350个骨架肢体信息输入到基于神经网络的自动编码器中,将通道数和骨架信息进行压缩降维;
步骤A62:通过控制和调节神经网络自编码器的层数,进而控制调节压缩降维之后的维度;
步骤A63:将降维之后的通道数和骨架信息输入到旋转存储器(RUM)中,主要是针对不同的动作类别产生不同的注意力权重;
步骤A64:采用softmax或ReLU进行动作分类,根据预测出的每个动作进行打分,使用投票的方法产生一个最终预测的动作。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (8)

1.一种区分并增强时空特征的图卷积神经网络人体动作识别方法,其特征在于,包括以下步骤:
步骤S1:将神经网络产生的骨架肢体信息输入到基于神经网络的自动编码器中,将通道数和骨架信息进行压缩降维;
步骤S2:将降维之后的通道数和骨架信息输入到旋转存储器网络中,针对不同的动作类别产生不同的注意力权重;
步骤S3:采用激活函数进行动作分类,根据预测出的每个动作进行打分,使用投票的方法产生一个最终预测的动作;
所述自动编码器为神经网络概率编码器
Figure FDA0003613985390000011
生成模型的后验逼近pξ(t|j),并不断优化变分参数
Figure FDA0003613985390000012
和生成模型参数ξ,使模型达到最佳效果;其中,t表示未观测变量,j表示生成的数据点,对训练数据进行压缩降维的具体过程如下:
步骤S13:设潜变量上以先验为中心各向同性多元高斯函数为pξ(t)=η(t;0,I);
步骤S14:设pξ(t|j)为多元高斯或伯努利,其分布由参数t和单隐式全连接神经网络计算得出;假定真实的后验具有近似对角协方差的高斯形式,使变分近似后验为一个具有对角协方差结构的多元高斯:
Figure FDA0003613985390000013
其中,i表示当前的训练次数,近似后验的均值和平均方差分别为μ(i)和σ2(i)
Figure FDA0003613985390000014
是编码单隐式全连接神经网络的输出,即数据点x(i)的非线性函数输出,其中
Figure FDA0003613985390000015
为变分参数;
步骤S15:从后验样本中提取样本,当样本ε(l)~η(t;0,I)时,使用
Figure FDA0003613985390000016
其中⊙表示两个元素的乘积,得到提取样本
Figure FDA0003613985390000017
在这个模型中,pξ(t)和
Figure FDA0003613985390000018
都是高斯的;该模型和数据点x(i)的估计量H为:
Figure FDA0003613985390000021
其中,c、C、l和L表示累加的参数,t(i,l)=μ(i)(i)⊙ε(l)并且ε(l)~η(t;0,I);解码项logpξ(j(i)|t(i,l))是伯努利或高斯单隐式全连接神经网络;
在步骤S2中,所述旋转存储器网络的具体结构和运行机制为:
所述旋转存储器网络包含一个更新门
Figure FDA0003613985390000022
旋转存储器将输入向量
Figure FDA0003613985390000023
嵌入到
Figure FDA0003613985390000024
中,得到
Figure FDA0003613985390000025
旋转编码的嵌入式输入和目标,累积在联想记忆单元
Figure FDA0003613985390000026
之中;旋转存储器通过更新门u计算新的隐藏状态;
对于非线性的旋转存储器,使用的是梯度更新的分析激活函数,设代价函数为D,对于K步,通过链式法则计算偏导数:
Figure FDA0003613985390000027
其中,r表示当前步数,D(r)是点态非线性雅可比矩阵对于一个标准的RNN,W≡Rk是一个旋转矩阵,并对矩阵使用谱范数;通过正交性,得到
Figure FDA0003613985390000028
2.根据权利要求1所述的区分并增强时空特征的图卷积神经网络人体动作识别方法,其特征在于,在步骤S1中,所述自动编码器的处理过程具体包括:
步骤S11:所述自动编码器将每个数据点x(i)视为输入向量x∈[0,1]d,通过一个由θ={W,b}参数化的确定映射函数y=fθ(x)=F(Wx+b),将其映射到一个隐藏向量y,其表示y∈[0,1]d′;其中,W是d×d′的权重矩阵,b是一个偏差向量,F是一个映射函数,d是权重矩阵的行数,d′是权重矩阵的列数;
步骤S12:将通过步骤S11获得的隐藏表示y映射回重构向量z∈[0,1]d所在的输入空间z=gθ′(y)=F(W′y+b′)中;其中,参数θ′={W′y+b′},W′是反向映射权重矩阵,b′是一个偏差向量;
由于反向映射的权重矩阵W′选择性地被W′=WT约束,所述自动编码器具有绑定的权重;每个训练数据点x(i)经过自动编码器被映射到相应的y(i)和重构向量z(i),其中x表示输入向量,y表示其映射的一个隐藏向量,z表示重构向量。
3.根据权利要求2所述的区分并增强时空特征的图卷积神经网络人体动作识别方法,其特征在于:
所述自动编码器的参数经过最小化平均重建误差优化后为:
Figure FDA0003613985390000031
其中,θ和θ′为参数,n表示训练的总次数,Loss是损失函数,gθ′表示输入的空间向量,fθ表示映射函数。
4.根据权利要求1所述的区分并增强时空特征的图卷积神经网络人体动作识别方法,其特征在于:通过控制和调节所述神经网络概率编码器的层数,控制调节通道数和骨架信息压缩降维之后的维度。
5.根据权利要求1所述的区分并增强时空特征的图卷积神经网络人体动作识别方法,其特征在于:在步骤S2中,所述旋转存储器网络在任何给定的时间步生成参考向量,相当于生成参考旋转的隐藏状态。
6.根据权利要求5所述的区分并增强时空特征的图卷积神经网络人体动作识别方法,其特征在于:所述旋转存储器网络在任何给定的时间步生成参考向量,相对于生成的参考旋转隐藏状态具体包括以下步骤:
步骤S21:将hk看作Nh-维欧几里德空间中的实向量,其中,k是时间步;hk是隐藏态;Nh是隐藏态
Figure FDA0003613985390000032
的维数;隐藏态由幅度和相位表征;
步骤S23:通过线性嵌入RNN,将
Figure FDA0003613985390000041
输入到一个嵌入的输入
Figure FDA0003613985390000042
步骤S24:通过获得目标存储器τk作为投影在隐藏空间中的当前输入xk和线性变换后的先前记录的hk-1的线性组合;
步骤S25:通过函数旋转:
Figure FDA0003613985390000043
旋转取一对列向量(α,β),并将旋转矩阵ω从α旋转到β:如果α和β具有相同的方向,则ω是单位矩阵;否则,这两个向量形成一个平面跨度(α,β),其中,α和β分别表示旋转的角度。
7.根据权利要求1所述的区分并增强时空特征的图卷积神经网络人体动作识别方法,其特征在于:在步骤S3中,所述激活函数采用softmax。
8.根据权利要求1所述的区分并增强时空特征的图卷积神经网络人体动作识别方法,其特征在于:在步骤S3中,所述激活函数采用ReLU。
CN202010089473.9A 2020-02-13 2020-02-13 区分并增强时空特征的图卷积神经网络人体动作识别方法 Active CN111339845B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010089473.9A CN111339845B (zh) 2020-02-13 2020-02-13 区分并增强时空特征的图卷积神经网络人体动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010089473.9A CN111339845B (zh) 2020-02-13 2020-02-13 区分并增强时空特征的图卷积神经网络人体动作识别方法

Publications (2)

Publication Number Publication Date
CN111339845A CN111339845A (zh) 2020-06-26
CN111339845B true CN111339845B (zh) 2022-06-10

Family

ID=71183867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010089473.9A Active CN111339845B (zh) 2020-02-13 2020-02-13 区分并增强时空特征的图卷积神经网络人体动作识别方法

Country Status (1)

Country Link
CN (1) CN111339845B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950485B (zh) * 2020-08-18 2022-06-17 中科人工智能创新技术研究院(青岛)有限公司 一种基于人体骨架的人体行为识别方法及系统
CN113011555B (zh) * 2021-02-09 2023-01-31 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及存储介质
CN113610125B (zh) * 2021-07-23 2023-12-22 北京航空航天大学 一种基于编码器-解码器图神经网络的高光谱分类方法
CN114037930B (zh) * 2021-10-18 2022-07-12 苏州大学 基于时空增强网络的视频动作识别方法
CN114298183B (zh) * 2021-12-20 2024-04-05 江西洪都航空工业集团有限责任公司 飞行动作智能识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106384093A (zh) * 2016-09-13 2017-02-08 东北电力大学 一种基于降噪自动编码器和粒子滤波的人体动作识别方法
CN108961366A (zh) * 2018-06-06 2018-12-07 大连大学 基于卷积自编码器和流形学习人体运动编辑方法
CN110490035A (zh) * 2019-05-17 2019-11-22 上海交通大学 人体骨架动作识别方法、系统及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7925081B2 (en) * 2007-12-12 2011-04-12 Fuji Xerox Co., Ltd. Systems and methods for human body pose estimation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106384093A (zh) * 2016-09-13 2017-02-08 东北电力大学 一种基于降噪自动编码器和粒子滤波的人体动作识别方法
CN108961366A (zh) * 2018-06-06 2018-12-07 大连大学 基于卷积自编码器和流形学习人体运动编辑方法
CN110490035A (zh) * 2019-05-17 2019-11-22 上海交通大学 人体骨架动作识别方法、系统及介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Ge Pan et al..Combining Pose and Trajectory for Skeleton Based Action Recognition using Two-Stream RNN.《2019 Chinese Automation Congress (CAC)》.2019, *
宋宪.基于时空图卷积网络的人体运动状态识别研究.《第十一届全国体育科学大会论文摘要汇编》.2019, *
董安等.基于图卷积的骨架行为识别.《现代计算机》.2020,(第02期), *
陈星宏.基于3D骨架的肢体动作识别研究.《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》.2020, *
黄友文等.基于深度学习的人体行为识别算法.《电子技术应用》.2018,(第10期), *

Also Published As

Publication number Publication date
CN111339845A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN111339845B (zh) 区分并增强时空特征的图卷积神经网络人体动作识别方法
Wang et al. Trajectory predictor by using recurrent neural networks in visual tracking
Ranzato et al. Video (language) modeling: a baseline for generative models of natural videos
Kavukcuoglu et al. Learning convolutional feature hierarchies for visual recognition
Cheon et al. Natural facial expression recognition using differential-AAM and manifold learning
Hong et al. Image-based three-dimensional human pose recovery by multiview locality-sensitive sparse retrieval
Pisharady et al. Attention based detection and recognition of hand postures against complex backgrounds
Chen et al. Efficient movement representation by embedding dynamic movement primitives in deep autoencoders
Bai et al. Sequence SAR image classification based on bidirectional convolution-recurrent network
Charalampous et al. On-line deep learning method for action recognition
Lucas et al. Posegpt: Quantization-based 3d human motion generation and forecasting
Zheng et al. Principal characteristic networks for few-shot learning
CN110889865B (zh) 一种基于局部加权稀疏特征选择的视频目标跟踪方法
CN113159072B (zh) 基于一致正则化的在线超限学习机目标识别方法及系统
Zhang et al. Robust visual tracking via incremental low-rank features learning
CN110689049A (zh) 基于黎曼核字典学习算法的视觉分类方法
Zhang et al. Skip-attention encoder–decoder framework for human motion prediction
Chen et al. Deep autoencoders in pattern recognition: a survey
Ben Mahjoub et al. An efficient end-to-end deep learning architecture for activity classification
CN110135253B (zh) 一种基于长期递归卷积神经网络的手指静脉认证方法
Lv et al. Sparse decomposition for data glove gesture recognition
Syrris et al. A lattice-based neuro-computing methodology for real-time human action recognition
Sun et al. Robust visual tracking based on convolutional neural network with extreme learning machine
Saratchandran et al. Curvature-aware training for coordinate networks
Liu et al. Discriminative self-adapted locality-sensitive sparse representation for video semantic analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant