CN104615983A

CN104615983A - 基于递归神经网络和人体骨架运动序列的行为识别方法

Info

Publication number: CN104615983A
Application number: CN201510043587.9A
Authority: CN
Inventors: 王亮; 王威; 杜勇
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2015-01-28
Filing date: 2015-01-28
Publication date: 2015-05-13
Anticipated expiration: 2035-01-28
Also published as: CN104615983B

Abstract

本发明公开一种基于递归神经网络的人体骨架运动序列行为识别方法，包括以下步骤：对已经提取好的人体骨架姿态序列中节点坐标进行归一化，以消除人体所处绝对空间位置对识别过程的影响，利用简单平滑滤波器对骨架节点坐标滤波以提高信噪比，最后将平滑后的数据送入一个层次化双向递归神经网络进行深度特征提取及识别，同时提供了一种层次化单向递归神经网络模型以应对实际中的实时在线分析需求。该方法主要优点是根据人体结构特征及运动的相对性，设计端到端的分析模式，在实现高精度识别率的同时避免复杂的计算，便于实际应用。该发明对于基于深度摄像机技术的智能视频监控、智能交通管理及智慧城市等领域具有重要意义。

Description

基于递归神经网络和人体骨架运动序列的行为识别方法

技术领域

本发明涉及计算机视觉、模式识别和神经网络技术领域，特别涉及一种利用递归神经网络实现端到端的基于人体骨架运动序列的行为识别方法。

背景技术

随着人工智能技术的发展，智能机器人，如谷歌的无人驾驶汽车、百度的无人驾驶自行车等，即将走入人们的生活,以及智慧城市、智能交通及智能监控领域等，这些都需要计算机对人的行为进行自动分析。近年来，深度摄像技术结合高精度的人体骨架估计算法，可以提供人体运动过程对应的骨架运动信息，基于骨架运动序列可以进行精确的行为识别。

当前基于骨架节点的行为识别算法主要是在手工特征提取的基础上设计分类器来实现行为识别，其中运动动态信息的手工提取非常麻烦，不利于实际应用。而且，传统方法的训练及测试多是在小数据集上进行，当数据量增大时，其整体计算复杂度对于一般的硬件条件将难以承受，难以发挥基于骨架的行为识别在实际应用中的价值。

发明内容

为了解决上述现有技术中存在的问题，本发明的目的是提供一种端到端的基于递归神经网络和人体骨架运动序列的行为识别方法，不需要复杂的处理，即可根据人体骨架运动序列对其行为进行识别。

本发明提出的一种利用递归神经网络解决基于骨架节点的行为识别方法包括以下步骤：

步骤S1，从训练深度视频中估计得到人体运动对应的人体骨架运动序列；

步骤S2，对于所述人体骨架运动序列进行归一化；

步骤S3，对于归一化后的人体骨架运动序列进行滤波；

步骤S4，将所述人体骨架运动序列数据划分为M个部分，并将其分别送入相应数量的并行的单隐含层双向递归神经网络中进行特征提取；

步骤S5，对于M个单隐含层双向递归神经网络在同一时刻的输出进行局部融合，得到N个序列值，输入到下一层N个并行的单隐含层双向递归神经网络中进行特征提取，提取得到的特征即为N个单隐含层双向递归神经网络的输出，其中，N<M；

步骤S6，对于得到的新的特征重复步骤S5进行局部融合，直至得到一个关于整个人体运动的序列值，并将其送入一个由LSTM神经元构成的双向递归神经网络，以得到对于人体运动动态的表达；

步骤S7，将所述步骤S6得到的网络输出送入全连接层，并根据所述全连接层的输出得到类属概率；

步骤S8，根据所述步骤S7中得到的类属概率的最大值来判定输入序列所述的类别；

步骤S9：如所述步骤S1-S3所述，得到待识别深度视频的人体骨架运动序列，并对其进行归一化和滤波；

步骤S10：如所述步骤S4-S8所述，将归一化和滤波后的人体骨架运动序列送入层次化双向递归神经网络，得到所述人体骨架运动序列的类属概率；

步骤S11：根据所述步骤10得到的类属概率最大值判定所述待识别深度视频所属的行为类别。

本发明方法的主要优点是根据人体结构特征及运动的相对性，设计端到端的分析模式，在实现高精度识别率的同时避免复杂的计算，便于实际应用。近年来随着深度摄像技术的发展，可以很容易地获取人体运动的深度图像序列，同时结合高精度的骨架估计算法，可以轻易获取人体骨架运动序列，基于这些序列，可以实现高精度的行为识别，对智能视频监控、智能交通管理及智慧城市建设等具有重要意义。

附图说明

图1是本发明基于递归神经网络和人体骨架运动序列的行为识别方法流程图。

图2是利用一种常用的人体骨架估计算法得到的骨架节点含义及其所对应的人体位置示意图。

图3是本发明基于递归神经网络和人体骨架运动序列的行为识别方法的模型框架示意图。

图4是本发明一实施例采用的一种特殊神经元—长短时记忆神经元(Long-Short Term Memory)的结构示意图。

图5是本发明一实施例采用的双向递归神经网络(BidirectionalRecurrent Neural Network，BRNN)的结构示意图。

图6是用于证明本发明有效性的三个数据库所提供的人体骨架节点及四肢和躯干划分示意图，三个数据库为MSR Action3D、Berkeley MHAD和HDM05。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图1是本发明基于递归神经网络和人体骨架运动序列的行为识别方法流程图，如图1所示，所述行为识别方法包括训练和识别两个过程，整个行为识别模型包含9个网络层，其中包括4个BRNN层(bl₁-bl₄)，3个特征融合层(fl₁-fl₃)，一个全连接层和一个Softmax层，另外，将其中的双向递归神经网络(BRNN)替换为单向递归神经网络，便构成单向层次化递归神经网络，其可用于基于人体骨架运动序列的实时在线行为识别。

所述训练过程可以描述为：对于已经提取得到的人体骨架序列进行适当降采样，再经节点坐标归一化和滤波之后，送入层次化递归神经网络进行模型训练，使网络在有监督情况下自主学习人体行为骨架运动特征的层次化表达。所述识别过程可以描述为：对于新的人体骨架运动序列，对其进行坐标归一化和滤波(当原始数据精度较高时无需平滑滤波处理)之后，送入所述层次化递归神经网络进行分析，即可得到新的人体骨架运动序列所属的行为类别。

具体地，所述训练过程进一步包括以下步骤：

步骤S1，从训练深度视频中估计得到人体运动对应的人体骨架运动序列，其中，所述人体骨架运动序列由不同时刻的人体骨架节点坐标值组成，这些骨架节点运动信息可以由运动捕获系统从训练深度视频中直接获取，也可以利用人体骨架估计算法从训练深度视频中提取得到。当采用人体骨架估计算法获取人体骨架节点坐标时，算法的设置不同，估计得到的人体骨架所包含的节点数目也不尽相同，其中一种常用的设置包含20个节点，即：头部，左右肩膀，左右肩膀中心点，左右肘关节，左右腕关节，左右手掌，脊柱中心点，脊柱下端点，左右髋关节，左右膝关节，左右踝关节，以及左右脚掌，如图2所示。也就是说，人体骨架运动序列的获取属于现有技术，本发明对其不再赘述。但需要注意的一点是，训练样本越多，最终训练得到的模型性能也就越强。

在本发明一实施例中，为了在不影响识别算法正确率的情况下减少运算量，所述步骤1还对于所述人体骨架运动序列进行降采样，需要注意的是，经过降采样后的帧率最好不低于15帧每秒。另外，所述人体骨架运动序列的序列长度需要保证能够准确地反映对应运动的特征信息。

步骤S2，对于所述人体骨架运动序列进行归一化，以消除人体所处绝对空间位置变动对识别结果的影响；

考虑到通常得到的人体骨架节点坐标采用的是屏幕坐标系或是数据提供者自行设定的空间坐标系，而人的行为独立于其所处的绝对空间位置，因此，为了消除人所处屏幕位置对识别结果的影响，需要对原始数据进行坐标归一化，具体操作为：以人体骨架的左右髋关节节点和脊柱下端点(位于左右髋关节中心点正上方)构成的三角形的几何中心作为新的坐标系原点：O＝(J_{hip_center}+J_{hip_left}+J_{hip_right})/3，对于所述人体骨架运动序列中的各节点坐标值进行平移，得到归一化后的人体骨架节点坐标值，其中，J_{hip_center}表示脊柱下端点坐标值，J_{hip_left}表示左髋关节节点的坐标值，J_{hip_right}表示右髋关节节点的坐标值。

步骤S3，对于归一化后的人体骨架运动序列进行滤波，以提高网络输入数据信噪比；

考虑到经典的人体骨架估计算法是基于单帧图像来估计人体的骨架节点坐标，其精度通常不高，为了提高骨架节点轨迹的信噪比，同时避免复杂的预处理，本发明对于归一化后的人体骨架运动序列进行滤波处理。

在本发明一实施例中，采用简单的Savitzky-Golay五点三次平滑滤波器来对归一化后的人体骨架运动序列数据进行平滑滤波，Savitzky-Golay五点三次平滑滤波器函数表示为：

f_i＝(-3X_i-2+12X_i-1+17X_i+12X_i+1-3X_i+2 ⁾/35，

其中，f_i为第i时刻滤波器的输出，X_i＝(x_i,y_i,z_i)表示第i时刻骨架节点的坐标值。

步骤S4，根据人体物理结构，将所述人体骨架运动序列数据划分为M个部分，并将其分别送入相应数量的并行的单隐含层双向递归神经网络中进行特征提取；

在本发明一实施例中，根据人体的物理结构，结合人体运动的相对性，将所述人体骨架运动序列数据中每一帧对应的数据分为五个部分：两条胳膊，两条腿和躯干，并将经过滤波后的骨架节点坐标按照这五个部分依次排列，其中单个节点的x、y、z坐标分量也依次进行排列。然后将分割好后的数据分别同步地送入五个并行的单隐含层双向递归神经网络进行局部运动特征提取，需要说明的是，这里的“运动特征”是由自组织网络通过非线性映射关系提取的，整个提取过程是自适应的，不需要任何先验知识，不同于传统的手工特征设计，这里可以直观地认为每个子网络都是一个黑盒子，给定一个输入，就会对应一个输出，对于输出中包含物理量，只能定性地估计应该是包含了低阶和高阶统计量。如图3所示，每个单隐含层双向递归神经网络包含9个层，4个双向递归神经网络(BRNN)层(bl₁-bl₄)，3个特征融合层(fl₁-fl₃)，一个全连接层(fc)和一个Softmax层，其中，BRNN层bl₁-bl₃由具有双曲正切激活函数(tanh)的神经元构成，BRNN层bl₄由长短时记忆(LSTM)神经元构成。假设单隐含层双向递归神经网络中第i个BRNN层(i＝1,2,3)中第q个子网络的输入为网络前向层和反向层的隐含状态分别为和则有：

{\overset{&RightArrow;}{h}}_{i_{q}}^{t} = \tanh (W_{I_{i_{q}} {\overset{&RightArrow;}{h}}_{i_{q}}} I_{i_{q}}^{t} + W_{{\overset{&RightArrow;}{h}}_{i_{q}} {\overset{&RightArrow;}{h}}_{i_{q}}} {\overset{&RightArrow;}{h}}_{i_{q}}^{t - 1} + b_{{\overset{&RightArrow;}{h}}_{i_{q}}}) - - - (1)

{\overset{&LeftArrow;}{h}}_{i_{q}}^{t} = \tanh (W_{I_{i_{q}} {\overset{&LeftArrow;}{h}}_{i_{q}}} I_{i_{q}}^{t} + W_{{\overset{&LeftArrow;}{h}}_{i_{q}} {\overset{&LeftArrow;}{h}}_{i_{q}}} {\overset{&LeftArrow;}{h}}_{i_{q}}^{t + 1} + b_{{\overset{&LeftArrow;}{h}}_{i_{q}}}) - - - (2)

其中，表示第i个BRNN层中第q个子网络前向迭代时的输出，tanh(·)表示神经元采用的双曲正切激活函数，表示第i个BRNN层中第q个子网络同其输入之间的连接权重，表示第i个BRNN层中第q个子网络在t时刻的输入，表示第i个BRNN层中第q个子网络输出反馈到其输入端时的连接权重，表示第i个BRNN层中第q个子网络反向迭代时的输出，表示第i个BRNN层中第q个子网络的前向连接权重，i＝1对应图3中第一个BRNN层(bl₁)。

其中，所述局部融合具体为：以M个部分中的其中一个为中心，将M个单隐含层双向递归神经网络在同一时刻的输出进行串接，在本发明一实施例中，以躯干为中心，将所述步骤S4得到的bl₁层的5个子网络在同一时刻的输出序列进行串接，形成左胳膊-躯干、右胳膊-躯干、左腿-躯干和右腿-躯干4个序列表达，并将其作为第(i+1)层4个BRNN的输入：

I_{{(i + l)}_{p}}^{t} = {\overset{&RightArrow;}{h}}_{i_{j}}^{t} &CirclePlus; {\overset{&LeftArrow;}{h}}_{i_{j}}^{t} &CirclePlus; {\overset{&RightArrow;}{h}}_{i_{k}}^{t} &CirclePlus; {\overset{&LeftArrow;}{h}}_{i_{k}}^{t}

其中，⊕表示串接操作，和分别为bl_i中第j个子网络在t时刻前向层和反向层的输出，和分别为bl_i中第k个子网络在t时刻前向层和反向层的输出。

然后将串接得到的4个序列表达送入4个独立的BRNN，以提取四肢和躯干间相对运动的序列表达。

步骤S6，对于得到的新的特征值重复步骤S5进行局部融合，直至得到一个关于整个人体运动的序列值，并将其送入一个由LSTM神经元构成的BRNN，以得到对于人体运动动态的表达；

重复步骤S5进行局部融合时，所采用的步长可根据实际应用的需要进行调整，比如，在本发明一实施例中，在得到4组特征后，对其进行进一步的融合，得到关于人体上半身和下半身的序列表达，然后将这两部分序列表达送入两个独立的BRNN进行运动特征提取，然后对于得到的2组特征做最后的融合，得到关于整个人体运动的序列表达，然后将其送入一个由LSTM神经元构成的BRNN，以获得对人体运动动态的整体表达。

采用LSTM网络层的目的在于解决网络训练过程的梯度消失(vanishing gradient)和权值膨胀(error blowing up)问题。LSTM神经元的结构如图4所示，设该层的输入为I，其迭代过程(为简化书写，在此只给出单向迭代描述，双向迭代过程以此类推)表示为：

i^t＝σ(W_IiI^t+W_hih^t-1+W_cic^t-1+b_i)

f^t＝σ(W_IfI^t+W_hfh^t-1+W_cfc^t-1+b_f)

c^t＝f^tc^t-1+i^ttanh(W_IcI^t+W_hch^t-1+b_c)

o^t＝σ(W_IoI^t+W_hoh^t-1+W_coc^t+b_o)

h^t＝o^ttanh(c^t)

其中，i,o,f,c分别表示输入控制门(Input gate)状态、输出控制门(Outputgate)状态、遗忘门(Forget gate)状态和记忆单元(cell)状态，i^t、f^t、o^t分别为输入控制门、遗忘门和输出控制门的在t时刻的输出，W_Ii、W_If、W_Io、W_Ic分别为输入I和输入控制门、遗忘门、输出控制门及神经元输入端之间的连接权重，W_hi、W_hf、W_ho、W_hc分别为神经元输出和输入控制门、遗忘门、输出控制门及神经元输入端的连接权重，W_ci、W_cf、W_co分别为记忆单元同输入控制门、遗忘门及输出控制门间的连接权重，I^t为t时刻神经元的输入，h^t为神经元在t时刻的输出，c^t为t时刻记忆单元状态，b_i、b_f、b_o、b_c分别为输入控制门、遗忘门、输出控制门和神经元输出的偏置，σ(·)、tanh(·)分别为逻辑回归函数和双曲正切函数。

本发明一实施例采用的双向递归神经网络(Bidirectional RecurrentNeural Network，BRNN)的结构示意图如图5所示。

步骤S7，将所述步骤S6得到的网络输出送入全连接层(可见图1中的Layer 8)，并根据所述全连接层的输出得到类属概率函数；

其中，所述全连接层的输出可表示为：

O^{t} = W_{{\overset{&RightArrow;}{h}}_{{bl}_{4}}} {\overset{&RightArrow;}{h}}_{{bl}_{4}}^{t} + W_{{\overset{&LeftArrow;}{h}}_{{bl}_{4}}} {\overset{&LeftArrow;}{h}}_{{bl}_{4}}^{t},

其中，和分别为bl₄的前向迭代层和反向迭代层输出同全连接层之间的连接权重。

然后将全连接层的输出沿时间轴进行累加，即得到：

A = Σ_{t = 0}^{T - 1} O^{t},

其中，T为当前网络输入序列的长度。

最后经过Softmax层得到该骨架运动序列的类属概率，即：

p (C_{k}) = \frac{e^{A_{k}}}{Σ_{i = 0}^{C - 1} e^{A_{i}}},

其中，C表示行为类别，p(C_k)表示当前输入骨架序列在所有C个类别中属于类别k的概率，A_i表示全连接层第i个神经元的输出沿时间轴累加后的结果。

步骤S8，根据所述步骤S7中得到的类属概率的最大值来判定输入序列所述的类别，并根据判定结果对于所述神经网络进行优化。

在本发明一实施例中，采用的优化目标为最小化最大似然损失函数：

L (Ω) = - Σ_{m = 0}^{M - 1} \ln Σ_{k = 0}^{C - 1} δ (k - r) p (C_{k} | Ω_{m}),

其中，δ(·)为Kronecker函数，Ω为整个训练样本集，r为样本Ω_m对应的行为类别，M为训练集Ω中的样本总数。

然后采用BPTT(Back-Propagation Through Time)算法来实现网络输出误差的反向传播及网络权值更新。

所述识别过程进一步包括以下步骤：

接下来，借助实验结果来验证本发明方法的有效性。实验在三个标准的公开数据库上进行，其分别是微软的MSR Action3D数据库，美国加州大学伯克利分校公开的Berkeley MHAD数据库，以及德国伯恩大学公布的HDM05数据库。其中，MSR Action3D数据库是由和微软的Kinect深度摄像机类似的设备采集的，帧率为15帧每秒，共557个行为序列，隶属20个行为类别，共22077帧，其提供的人体骨架数据含20个节点，如图6所示。Berkeley MHAD数据库是由运动捕获系统采集的，含659个序列，隶属于11个行为类别，数据帧率为480帧每秒，其所提供的人体骨架含35个节点。HDM05同样是由运动捕获系统采集，共2337个行为序列，隶属于65个行为类别(原始行为类别为130个，由于划分不合理，经调整后为65个)，帧率为120帧每秒，其所提供的人体骨架含31个节点。实验中，MSR Action3D数据库帧率不变，通过降采样将BerkeleyMHAD和HDM05两个数据库帧率均调整为30帧每秒，所有实验均采用标准实验设置。实验结果及对比数据如下，其中HBRNN为层次化双向递归神经网络(Hierarchical Bidirectional Recurrent Neural Network)，HURNN为层次化单向递归神经网络(Hierarchical Unidirectional Recurrent NeuralNetwork)：

表1在MSR Action3D数据库上的实验结果

方法	精度(％)	方法	精度(％)
				Li等，2010	74.7	Vemulapalli等，2014	92.46
Chen等，2013	90.47	HURNN	93.57
				Gowayyed等，2013	91.26	HBRNN	94.49

表2在数据库Berkeley MHAD上的实验精度

方法	精度(％)	方法	精度(％)
				Ofli等，2014	95.37	Chaudhry等，2013	99.27
Vantigodi等，2013	96.06	Chaudhry等，2013	100
				Vantigodi等，2014	97.58	HURNN	99.64
Kapsouras等，2014	98.18	HBRNN	100

表3在数据库HDM05上的实验精度

方法	平均精度(％)	方差
			Cho and Chen，2013	95.59	0.76
HURNN	96.70	0.41

HBRNN

96.92

0.50

实验表明，本发明方法在三个公开数据库上均达到当前最好精度，而且操作简单，便于实际应用。

综上，本发明提出了一种端到端的基于人体骨架运动轨迹的行为识别方法。本发明无需经过复杂的处理，可以直接根据骨架运动轨迹对人的行为进行识别。尤其是层次化单向递归神经网络(Hierarchical UnidirectionalRecurrent Neural Network，HURNN)模型可以直接与深度摄像机技术衔接起来实现实时自动行为识别。本发明能很好地根据骨架序列的运动轨迹对人的行为进行识别，为未来的实际应用提供了算法条件。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于递归神经网络和人体骨架运动序列的行为识别方法，其特征在于，该方法包括以下步骤：

步骤S2，对于所述人体骨架运动序列进行归一化；

步骤S3，对于归一化后的人体骨架运动序列进行滤波；

2.根据权利要求1所述的方法，其特征在于，所述步骤S1还包括对于所述人体骨架运动序列进行降采样的步骤。

3.根据权利要求1所述的方法，其特征在于，所述步骤S2中的归一化为：以人体骨架的左右髋关节节点和脊柱下端点构成的三角形的几何中心作为新的坐标系原点，对于所述人体骨架运动序列中的各节点坐标值进行平移。

4.根据权利要求1所述的方法，其特征在于，所述人体骨架运动序列数据中每一帧对应的数据分为五个部分：两条胳膊，两条腿和躯干。

5.根据权利要求1所述的方法，其特征在于，每个单隐含层双向递归神经网络包含9个层：4个双向递归神经网络层(bl₁-bl₄)，3个特征融合层(fl₁-fl₃)，一个全连接层(fc)和一个Softmax层。

6.根据权利要求5所述的方法，其特征在于，bl₁-bl₃层由具有双曲正切激活函数的神经元构成，bl₄层由长短时记忆神经元构成。

7.根据权利要求1所述的方法，其特征在于，所述局部融合为：以M个部分中的其中一个为中心，将M个单隐含层双向递归神经网络在同一时刻的输出进行串接。

8.根据权利要求1所述的方法，其特征在于，所述类属概率表示为：

p (C_{k}) = \frac{e^{A_{k}}}{Σ_{i = 0}^{C - 1} e^{A_{i}}},

9.根据权利要求1所述的方法，其特征在于，所述步骤S8还包括根据判定结果对于所述神经网络进行优化的步骤。

10.根据权利要求9所述的方法，其特征在于，采用的优化目标为最小化最大似然损失函数：

L (Ω) = - Σ_{m = 0}^{M - 1} 1 n Σ_{k = 0}^{C - 1} δ (k - r) p (C_{k} | Ω_{m}),