CN111339845B

CN111339845B - 区分并增强时空特征的图卷积神经网络人体动作识别方法

Info

Publication number: CN111339845B
Application number: CN202010089473.9A
Authority: CN
Inventors: 柯逍; 柯力
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-02-13
Filing date: 2020-02-13
Publication date: 2022-06-10
Anticipated expiration: 2040-02-13
Also published as: CN111339845A

Abstract

本发明公开了一种自动区分并增强时空特征的图卷积神经网络的人体动作识别方法，首先是基于神经网络自编码器的构造；其次通过一种新的表示无监督学习训练原理实现自动编码器的人体骨架信息压缩和自动编码降维；然后设计一种机制来在任何给定的时间步生成参考向量，将能够相对于生成的参考旋转隐藏状态；接着对旋转储存器网络模型构建原理及实现；最后对旋转储存器网络模型的激活函数进行分析和选择并对自动区分并增强时空特征的图卷积神经网络模型构建。本发明可以有效的提高人体动作识别的准确率。

Description

区分并增强时空特征的图卷积神经网络人体动作识别方法

技术领域

本发明涉及模式识别与计算机视觉领域，尤其涉及一种自动区分并增强时空特征的图卷积神经网络的人体动作识别方法。

背景技术

近年来，已经提出了多种动作表示方法，包括基于时间和空间变化的局部和全局特征，基于关键点跟踪的轨迹特征，动作基于深度信息而变化，动作特征基于人的姿势变化等。随着深度学习在图像分类和目标检测中的成功应用，许多研究人员也将深度学习应用于人体动作识别。这样可以从视频数据中自动学习动作特征。另外，也有一些研究回顾了这些动作识别方法。但是，这些文献仅讨论了特定方面，例如，基于空间时空兴趣点(STIP)的人类动作识别方法，人类步行分析方法和基于深度学习的方法。最近许多研究者提出了一些创新性的研究思路，特别是在将深度学习方法应用于特征学习方面。在最新的研究成果中，包括动作分类，人-物体交互识别和动作检测方法。将动作分类方法概括为基于手工特征的方法和基于特征学习的方法。这些方法可以应用于不同类型的数据。

随着深度相机的发展，深度数据现已广泛用于许多计算机视觉任务中，尤其是对人体的姿态估计进行人体骨架数据的提取。此外，有关RGB视频中的人体检测和姿态估计的最新研究结果表明，基于深度学习的方法可以在复杂场景中实现多人姿态估计。还提出了几种基于深度序列和骨架数据的人体动作识别技术。这些方法在一定程度上解决了RGB摄像机或视频对人体动作识别的一些问题，并表现出良好的识别性能。Ye等人总结了使用深度数据和Presti等人的人类动作识别方法并讨论了基于3D骨架数据的人体动作识别方法，在一定程度上肯定了他们的研究方向。

基于骨架数据的人体动作识别存在的如下问题：

(1)传统的骨架建模人体动作识别模型在时空建模时，会产生大量的信息人体骨架信息，这些时空信息不仅对识别模型没有帮助，甚至还会识别模型有负面的影响，即冗余。并且，在实际的应用场景，特别在安防场景下，因为要计算这些时空信息，会消耗大量的计算资源。

(2)不同的动作在人体中具体表现部位是各有不同的，例如拍肩膀的动作，应该注重的是手部以上的信息，而手部以下的信息可以忽略不计，在传统的模型中，并没有对这点进行考虑和分析，导致模型识别的准确率和鲁棒性无法提升。

发明内容

针对上述问题，本发明提供一种自动区分并增强时空特征的图卷积神经网络的人体动作识别方法。目的在于解决传统的骨架建模人体动作识别模型在时空建模的信息冗余和无法关注重点的骨架信息等问题。在其实现的过程中，首先是基于神经网络自编码器的构造；其次通过一种新的表示无监督学习训练原理实现自动编码器的人体骨架信息压缩和自动编码降维；然后设计一种机制来在任何给定的时间步生成参考向量，将能够相对于生成的参考旋转隐藏状态；接着对旋转储存器网络模型构建原理及实现；最后对旋转储存器网络模型的激活函数进行分析和选择并对自动区分并增强时空特征的图卷积神经网络模型构建。本发明可以有效的提高人体动作识别的准确率。

为实现上述目的，本发明具体采用以下技术方案：一种自动区分并增强时空特征的图卷积神经网络的人体动作识别方法，包括以下步骤：

一种自动区分并增强时空特征的图卷积神经网络的人体动作识别方法，其特征在于，包括以下步骤：

步骤S1：将神经网络产生的骨架肢体信息输入到基于神经网络的自动编码器中，将通道数和骨架信息进行压缩降维；

步骤S2：将降维之后的通道数和骨架信息输入到旋转存储器网络中，针对不同的动作类别产生不同的注意力权重；

步骤S3：采用激活函数进行动作分类，根据预测出的每个动作进行打分，使用投票的方法产生一个最终预测的动作。

优选地，在步骤S1中，所述自动编码器的处理过程具体包括：

步骤S11：所述自动编码器将每个训练数据x⁽ⁱ⁾视为输入向量x∈[0,1]^d，通过一个由θ＝{W,b}参数化的确定映射函数y＝f_θ(x)＝F(Wx+b)，将其映射到一个隐藏表示y∈[0,1]^d′；其中，W是d×d′的权重矩阵，b是一个偏差向量，F是一个映射函数，d是权重矩阵的行数，d′是权重矩阵的列数；

步骤S12：将通过步骤S11获得的隐藏表示y映射回重构向量z∈[0,1]^d所在的输入空间z＝g_θ′(y)＝F(W′y+b′)中；其中，参数θ′＝{W′y+b′}，W′是反向映射权重矩阵，b′是一个偏差向量；

由于反向映射的权重矩阵W′选择性地被W′＝W^T约束，所述自动编码器具有绑定的权重；每个训练x⁽ⁱ⁾经过自动编码器被映射到相应的y⁽ⁱ⁾和重构z⁽ⁱ⁾，其中x表示输入向量，y表示其映射的一个隐藏向量，z表示重构向量，i表示训练次数。

优选地，所述自动编码器的参数经过以最小化平均重建误差优化后为：

其中，θ和θ′为参数，i表示当前训练的次数，n表示训练的总次数，L是损失函数，g_θ′表示输入的空间向量，f_θ表示映射函数。

优选地，所述自动编码器为神经网络概率编码器

生成模型的后验逼近p_ξ(t|j)，并不断优化变分参数

和生成模型参数ξ，使模型达到最佳效果；其中，t表示未观测变量，j表示生成的数据点，对训练数据进行压缩降维的具体过程如下：

步骤S13：设潜变量上以先验为中心各向同性多元高斯函数为p_ξ(t)＝η(t；0,I)；I表示高斯分布的最大值；

步骤S14：设p_ξ(t|j)为多元高斯或伯努利，其分布参数由t和单隐式全连接神经网络计算得出；假定真实的后部具有近似对角协方差的高斯形式，使变分近似后验为一个具有对角协方差结构的多元高斯：

其中，i表示当前的训练次数，近似后验的均值和平均方差分别为μ⁽ⁱ⁾和σ²⁽ⁱ⁾，是编码单隐式全连接神经网络的输出，即数据点x⁽ⁱ⁾的非线性函数及其变分参数

步骤S15：从后验样本中提取样本，当样本ε^(l)～η(0,I)时，使用

其中⊙表示两个元素的乘积，得到提取样本

在这个模型中，p_ξ(t)和

都是高斯的；该模型和数据点x⁽ⁱ⁾的估计量H为：

其中，c、C、l和L表示累加的参数，t^(i,l)＝μ⁽ⁱ⁾+σ⁽ⁱ⁾⊙ε^(l)并且ε^(l)～ω(0,I)；解码项logp_ξ(j⁽ⁱ⁾|t^(i,l))是伯努利或高斯单隐式全连接神经网络。

优选地，通过控制和调节所述神经网络概率编码器的层数，控制调节通道数和骨架信息压缩降维之后的维度。

优选地，在步骤S2中，所述旋转存储器网络在任何给定的时间步生成参考向量，相对于生成的参考旋转隐藏状态。

优选地，所述旋转存储器网络在任何给定的时间步生成参考向量，相对于生成的参考旋转隐藏状态具体包括以下步骤：

步骤S21：将h_k看作N_h-维欧几里德空间中的实向量，其中，k是时间步；h_k是隐藏态；N_h是隐藏态

的维数；隐藏态由幅度和相位表征；

步骤S23：通过线性嵌入RNN，输入

到一个嵌入的输入

步骤S24：通过获得目标存储器τ_k作为投影在隐藏空间中的当前输入x_k和线性变换后的先前记录的h_k-1的线性组合；

步骤S25：通过函数旋转：

旋转取一对列向量(α,β)，并将旋转矩阵ω从α旋转到β：如果α和β具有相同的方向，则ω是单位矩阵；否则，这两个向量形成一个平面跨度(α,β)，其中，α和β分别表示旋转的角度。

优选地，在步骤S2中，所述旋转存储器网络的具体结构和运行机制为：

所述旋转储存器网络包含一个更新门

旋转储存器将输入向量

嵌入到

中，得到

旋转编码的嵌入式输入和目标，累积在联想记忆单元

之中；旋转储存器通过更新门u计算新的隐藏状态；

对于非线性的旋转储存器，使用的是梯度更新的分析激活函数，设代价函数为D，对于K步，通过链式法则计算偏导数：

其中，r表示当前步数，D^(r)是点态非线性雅可比矩阵对于一个标准的RNN，W≡R_k是一个旋转矩阵，并对矩阵使用谱范数；通过正交性，得到

优选地，在步骤S3中，所述激活函数采用softmax。

优选地，所述激活函数采用ReLU。

本发明及其优选方案可以有效的提高人体动作识别的准确率，解决了传统的骨架建模人体动作识别模型在时空建模的信息冗余和无法关注重点的骨架信息等问题。

附图说明

图1是本发明实施例总体方案构建流程示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

如图1所示，为了将本发明的整体内容和特点进行更为清楚的说明，本实施例提供本发明最终获得的自动区分并增强时空特征的图卷积神经网络的人体动作识别方法的设计和构建过程的展示，其具体包括以下步骤：

步骤A1：基于神经网络自编码器的构造；

在本实施例中，步骤A1具体包括：

步骤A11：所述自动编码器将每个训练数据x⁽ⁱ⁾视为输入向量x∈[0,1]^d，通过一个由θ＝{W,b}参数化的确定映射函数y＝f_θ(x)＝F(Wx+b)，将其映射到一个隐藏表示y∈[0,1]^d′；其中，W是d×d′的权重矩阵，b是一个偏差向量，F是一个映射函数，d是权重矩阵的行数，d′是权重矩阵的列数；

步骤A12：将得到采用潜在表示的y映射回重构向量z∈[0,1]^d所在的输入空间z＝g_θ′(y)＝F(W′y+b′)中，此时参数θ′＝{W′y+b′}，同理W′是反向映射权重矩阵，b′是一个偏差向量；

步骤A13：反向映射的权重矩阵W′可以选择性地被W′＝W^T约束，此时，自动编码器被称为具有绑定的权重。因此，每个训练x⁽ⁱ⁾被映射到相应的y⁽ⁱ⁾和重构z⁽ⁱ⁾，x表示输入向量，y表示其映射的一个隐藏向量，z表示重构向量，i表示训练次数；

步骤A14：这个该模型的参数经过以最小化平均重建误差优化后为：

其中，θ和θ′为参数，i表示当前训练的次数，n表示训练的总次数，L是损失函数，例如传统的平方误差L(x,z)＝||x-z||²，g_θ′表示输入的空间向量，f_θ表示映射函数。

步骤A2：通过一种新的表示无监督学习训练原理实现自动编码器的人体骨架信息压缩和自动编码降维；

在本实施例中，步骤A2具体包括：

步骤A21：使用一个神经网络概率编码器

生成模型的后验逼近p_ξ(t|j)，并不断优化变分参数

和生成模型参数ξ，使模型达到一个最好的效果，其中，t表示未观测变量，j表示生成的数据点；

步骤A22：设潜变量上以先验为中心各向同性多元高斯函数为p_ξ(t)＝η(t；0,I)。I表示高斯分布的最大值，在这种情况下，先前的缺少参数需要注意处理；

步骤A23：设p_ξ(t|j)为多元高斯(实值数据)或伯努利(二进制数据)，其分布参数由t和单隐式全连接神经网络计算得出。此时，真正的后部p_ξ(t|j)是难以处理的。虽然

的形式有很大的自由度，但假定真实的(但难处理的)后部具有近似对角协方差的高斯形式。则可以使变分近似后验成为一个具有对角协方差结构的多元高斯：

步骤A24：从后验样本中提取样本，当样本ε^(l)～η(0,I)时，使用

其中⊙表示两个元素的乘积，得到提取样本

在这个模型中，p_ξ(t)和

都是高斯的。该模型和数据点x⁽ⁱ⁾的估计量H为：

其中，c、C、l和L表示累加的参数，t^(i,l)＝μ⁽ⁱ⁾+σ⁽ⁱ⁾⊙ε^(l)并且ε^(l)～ω(0,I)。解码项logp_ξ(j⁽ⁱ⁾|t^(i,l))是伯努利或高斯单隐式全连接神经网络，这取决于正在建模的数据类型。

步骤A3：设计一种机制来在任何给定的时间步生成参考向量，将能够相对于生成的参考旋转隐藏状态；

在本实施例中，步骤A3具体包括：

步骤A31：对于成功的RNN需要在时间步k处对隐藏态h_k进行精心设计的操作。将h_k看作N_h-维欧几里德空间中的实向量，从数学上处理这个问题，其中N_h是隐藏态

的维数；

步骤A32：可以将一个独特的角度与某个参考向量的h_k相关联。因此，隐藏状态可以由幅度(即L2范数)和相位(即相对于参考向量的角度)来表征。所以，假设设计一种机制来在任何给定的时间步生成参考向量，将能够相对于生成的参考旋转隐藏状态；

步骤A33：通过将线性嵌入RNN输入

到一个嵌入的输入

步骤A34：通过获得目标存储器τ_k作为当前输入x_k(投影在隐藏空间中)和先前记录的h_k-1(线性变换后)的线性组合；

步骤A35：提出了一个函数旋转：

实现了这一个思想。旋转取一对列向量(α,β)，并将旋转矩阵ω从α旋转到β。如果α和β具有相同的方向，则ω是单位矩阵；否则，这两个向量形成一个平面跨度(α,β)，其中，α和β分别表示旋转的角度。

步骤A4：旋转储存器网络模型构建原理及实现；

在本实施例中，步骤A4具体包括：

步骤A41：旋转储存器(RUM)网络包含一个更新门

其功能与GRU中的更新门相同。该模型代替重置门的是学习记忆目标

旋转储存器同时将输入向量

嵌入到

中，得到

步骤A42：旋转编码的嵌入式输入和目标，都累积在联想记忆单元

(最初初始化为身份矩阵)之中。旋转储存器通过更新门u计算新的隐藏状态，就像在GRU中一样。正交矩阵在概念上代替了作用于GRU中隐藏态的权核；

步骤A43：对于非线性的RUM，使用的是梯度更新的分析激活函数，设代价函数为D，对于K步，通过链式法则计算偏导数：

其中，r表示当前步数，D^(r)是点态非线性雅可比矩阵对于一个标准的RNN。为了清楚起见，考虑RUM的一个简化版本，其中W≡R_k是一个旋转矩阵，并对矩阵使用谱范数。通过正交性，得到

步骤A5：对旋转储存器网络模型的激活函数进行分析和选择；

在本实施例中，步骤A5具体包括：

步骤A51：ReLU函数是常见的激活函数中的一种，表达形式如下：

Q(v)＝max(0,v)

其中，max表示取两数之间的最大值函数，v表示输入的数值，ReLU函数其实是分段线性函数，把所有的负值都变为0，而正值不变，这种操作被成为单侧抑制。也就是说：在输入是负值的情况下，它会输出0，那么神经元就不会被激活。这意味着同一时间只有部分神经元会被激活，从而使得网络很稀疏，进而对计算来说是非常有效率的。正因为有了这单侧抑制，才使得神经网络中的神经元也具有了稀疏激活性。尤其体现在深度神经网络模型(如CNN)中，当模型增加N层之后，理论上ReLU神经元的激活率将降低2的N次方倍。

步骤A52：Sigmoid函数又称logistic函数，在逻辑回归中经常出现，表达形式如下：

其中，M(λ)表示Sigmoid函数，λ表示神经网络的输入。Sigmoid函数常被用作神经网络的阈值函数，将变量映射到0和1之间，该函数单调递增且以(0，0.5)对称，在两端变化速度较慢，它是神经网络中的激活函数，其作用就是引入非线性；

步骤A53：tanh是双曲函数中的一个，为双曲正切。在数学中，双曲正切是由基本双曲函数双曲正弦和双曲余弦推导而来，公式如下：

其中，χ表示神经网络的输入，其函数图像为过原点并且穿越Ⅰ、Ⅲ象限的严格单调递增曲线；

步骤A54：SoftSign也是一种类似tanh的激活函数，以0点为中心反对称，取值范围为(-1,1)，除了在0点的导数难计算外，训练速度也比较快，计算公式如下：

其中，α表示神经网络的输入，Y(α)表示SoftSign激活函数；

步骤A55：根据试验实测，激活函数的最佳选择是softmax。同时由于旋转储存器网络模型需要在某个值为正，导数为1，则通过上述步骤的分析，ReLU也是一个不错的选择。

步骤A6：自动区分并增强时空特征的图卷积神经网络模型构建。

在本实施例中，步骤A6具体包括：

步骤A61：将神经网络产生的256维的通道数，1350个骨架肢体信息输入到基于神经网络的自动编码器中，将通道数和骨架信息进行压缩降维；

步骤A62：通过控制和调节神经网络自编码器的层数，进而控制调节压缩降维之后的维度；

步骤A63：将降维之后的通道数和骨架信息输入到旋转存储器(RUM)中，主要是针对不同的动作类别产生不同的注意力权重；

步骤A64：采用softmax或ReLU进行动作分类，根据预测出的每个动作进行打分，使用投票的方法产生一个最终预测的动作。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种区分并增强时空特征的图卷积神经网络人体动作识别方法，其特征在于，包括以下步骤：

步骤S3：采用激活函数进行动作分类，根据预测出的每个动作进行打分，使用投票的方法产生一个最终预测的动作；

所述自动编码器为神经网络概率编码器

生成模型的后验逼近p_ξ(t|j)，并不断优化变分参数

步骤S13：设潜变量上以先验为中心各向同性多元高斯函数为p_ξ(t)＝η(t；0,I)；

步骤S14：设p_ξ(t|j)为多元高斯或伯努利，其分布由参数t和单隐式全连接神经网络计算得出；假定真实的后验具有近似对角协方差的高斯形式，使变分近似后验为一个具有对角协方差结构的多元高斯：

其中，i表示当前的训练次数，近似后验的均值和平均方差分别为μ⁽ⁱ⁾和σ²⁽ⁱ⁾，

是编码单隐式全连接神经网络的输出，即数据点x⁽ⁱ⁾的非线性函数输出，其中

为变分参数；

步骤S15：从后验样本中提取样本，当样本ε^(l)～η(t；0,I)时，使用

其中⊙表示两个元素的乘积，得到提取样本

在这个模型中，p_ξ(t)和

都是高斯的；该模型和数据点x⁽ⁱ⁾的估计量H为：

其中，c、C、l和L表示累加的参数，t^(i,l)＝μ⁽ⁱ⁾+σ⁽ⁱ⁾⊙ε^(l)并且ε^(l)～η(t；0,I)；解码项logp_ξ(j⁽ⁱ⁾|t^(i,l))是伯努利或高斯单隐式全连接神经网络；

在步骤S2中，所述旋转存储器网络的具体结构和运行机制为：

所述旋转存储器网络包含一个更新门

旋转存储器将输入向量

嵌入到

中，得到

旋转编码的嵌入式输入和目标，累积在联想记忆单元

之中；旋转存储器通过更新门u计算新的隐藏状态；

对于非线性的旋转存储器，使用的是梯度更新的分析激活函数，设代价函数为D，对于K步，通过链式法则计算偏导数：

2.根据权利要求1所述的区分并增强时空特征的图卷积神经网络人体动作识别方法，其特征在于，在步骤S1中，所述自动编码器的处理过程具体包括：

步骤S11：所述自动编码器将每个数据点x⁽ⁱ⁾视为输入向量x∈[0,1]^d，通过一个由θ＝{W,b}参数化的确定映射函数y＝f_θ(x)＝F(Wx+b)，将其映射到一个隐藏向量y，其表示y∈[0,1]^d′；其中，W是d×d′的权重矩阵，b是一个偏差向量，F是一个映射函数，d是权重矩阵的行数，d′是权重矩阵的列数；

由于反向映射的权重矩阵W′选择性地被W′＝W^T约束，所述自动编码器具有绑定的权重；每个训练数据点x⁽ⁱ⁾经过自动编码器被映射到相应的y⁽ⁱ⁾和重构向量z⁽ⁱ⁾，其中x表示输入向量，y表示其映射的一个隐藏向量，z表示重构向量。

3.根据权利要求2所述的区分并增强时空特征的图卷积神经网络人体动作识别方法，其特征在于：

所述自动编码器的参数经过最小化平均重建误差优化后为：

其中，θ和θ′为参数，n表示训练的总次数，Loss是损失函数，g_θ′表示输入的空间向量，f_θ表示映射函数。

4.根据权利要求1所述的区分并增强时空特征的图卷积神经网络人体动作识别方法，其特征在于：通过控制和调节所述神经网络概率编码器的层数，控制调节通道数和骨架信息压缩降维之后的维度。

5.根据权利要求1所述的区分并增强时空特征的图卷积神经网络人体动作识别方法，其特征在于：在步骤S2中，所述旋转存储器网络在任何给定的时间步生成参考向量，相当于生成参考旋转的隐藏状态。

6.根据权利要求5所述的区分并增强时空特征的图卷积神经网络人体动作识别方法，其特征在于：所述旋转存储器网络在任何给定的时间步生成参考向量，相对于生成的参考旋转隐藏状态具体包括以下步骤：

的维数；隐藏态由幅度和相位表征；

步骤S23：通过线性嵌入RNN，将

输入到一个嵌入的输入

步骤S25：通过函数旋转：

7.根据权利要求1所述的区分并增强时空特征的图卷积神经网络人体动作识别方法，其特征在于：在步骤S3中，所述激活函数采用softmax。

8.根据权利要求1所述的区分并增强时空特征的图卷积神经网络人体动作识别方法，其特征在于：在步骤S3中，所述激活函数采用ReLU。