CN107679522B

CN107679522B - 基于多流lstm的动作识别方法

Info

Publication number: CN107679522B
Application number: CN201711043801.6A
Authority: CN
Inventors: 韩云; 吕小英
Original assignee: Neijiang Normal University
Current assignee: Neijiang Normal University
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2020-10-13
Anticipated expiration: 2037-10-31
Also published as: CN107679522A

Abstract

本发明公开了基于多流LSTM的动作识别方法；获取由关节点表示的人体动作序列；对所述动作序列进行视角预处理，并对视角预处理结果进行特征提取；对所述动作序列进行动态属性萃取，并对动态属性萃取结果进行特征提取；分别对所述视角预处理结果和动态属性萃取结果进行特征提取，并对提取的特征进行特征融合；分别利用提取的特征以及融合的特征进行动作识别；再对识别结果进行决策融合，最终得到动作的识别结果；本发明整合了动作序列的空间特性和时间特性，融合了动作的静态特性和动态特性，动作识别的精度高，稳定性好，所需的训练数据少，收敛性速度快，适合处理复杂的动作类型。

Description

基于多流LSTM的动作识别方法

技术领域

本发明涉及视频图像处理领域，具体涉及一种基于多流LSTM的动作识别方法，用于对动作进行识别。

背景技术

目前，动作识别方法可分为两类：一类是以传统机器学习为基础的方法，该类方法的核心是人工构建出描述动作属性的特征，然后训练分类器，最后进行动作分类；另一类是基于深度学习的方法，该类方法以目标为导向，通过数据训练，自动学习特征，往往具有更好的区分性。

传统动作识别方法的主要缺点是必须人工构建动作特征，且无法保证特征的区分效果。

目前，动作识别基于深度学习的方法主要有两类：一类是以RGB信息为输入，采用CNN(卷积神经网络)构架的方法；另一类主要以深度相机获取的人体骨架关节点数据为输入，采用基于LSTM(长短期记忆)的RNN(循环神经网络)架构的方法。

基于深度学习的方法，训练模型所需的数据量较大，而实际可用的数据往往较少；基于CNN的方法主要获取动作的静态特性，无法获取动作的时序特性；基于LSTM的方法虽获取了动作的时序特性，但无法萃取肢体变化所带来的动态特性，而动态特性在动作识别中具有重要的作用；动作的静态特性和动态特性在动作识别上各自具有优势和局限，目前采用的方法无法有效整合这两类特性，导致动作识别效率低、识别效果差。

发明内容

本发明的目的在于：提供一种基于多流LSTM的动作识别方法，解决了无法有效整合动作的静态特性和动态特性导致动作识别效率低、识别效果差的技术问题。

本发明采用的技术方案如下：

基于多流LSTM的动作识别方法，包括以下步骤：

步骤1：利用深度相机对人体骨架关节点的坐标数据进行采集，得到由所述关节点表示的动作序列；

步骤2：对所述动作序列进行视角预处理，并利用特征提取模型A对视角预处理结果进行特征提取；

步骤3：对所述动作序列进行动态属性萃取，并利用特征提取模型B对动态属性萃取结果进行特征提取；

步骤4：利用特征提取模型C分别对所述视角预处理结果和动态属性萃取结果进行特征提取，并对提取的特征进行特征融合；

步骤5：分别利用所述步骤2和步骤3提取的特征以及步骤4中融合的特征进行动作识别；

步骤6：对所述步骤5得到的识别结果进行决策融合，最终得到动作的识别结果。

进一步的，所述特征提取模型A、特征提取模型B、特征提取模型C的获取方法如下：

S001：利用深度相机采集人体骨架关节点的坐标数据，得到训练样本；

S002：对所述训练样本进行视角预处理，以视角预处理结果为输入，构建三层LSTM网络，并对所述三层LSTM网络进行训练，得到特征提取模型A；

S003：对所述训练样本进行动态属性萃取，以动态属性萃取结果为输入，构建三层LSTM网络，并对所述三层LSTM网络进行训练，得到特征提取模型B；

S004：以视角预处理结果为输入，构建三层LSTM网络；以动态属性萃取结果为输入，构建三层LSTM网络；构建融合该步骤中两个三层LSTM网络输出特征的特征融合框架；对该步骤中的两个三层LSTM网络和特征融合框架进行联合训练，得到特征提取模型C。

进一步的，所述步骤2具体为：

S201：利用人体骨架关节点的坐标数据得到旋转矩阵，所述旋转矩阵公式如下：

R^c'→h(t)＝[s₁ s₂ s₃]^T (1),

其中，

s₃＝s₁×s₂ (4)；

t表示时间变量，h表示人体骨架坐标系，c表示相机坐标系，c'表示中间坐标系，

表示以相机坐标系为基准的人体左肩在t时刻的3D坐标，

表示以相机坐标系为基准的人体右肩在t时刻的3D坐标，

表示以相机坐标系为基准的人体躯心在t时刻的3D坐标；

S202：计算每个关节点的3D坐标

获得视角预处理结果，

其中，k表示人体关节点的序号，

表示以骨架坐标系为基准的人体第k个关节点在时间t的3D坐标，

表示以相机坐标系为基准的人体关节点k在t时刻的3D坐标；

S203：利用特征提取模型A提取步骤S202中视角预处理结果的特征。

进一步的，所述步骤3具体为：

S301：对所述动作序列进行动态属性萃取，动态属性萃取为追踪每个关节点在两个固定时间间隔d间的位置变化信息，获得萃取结果f(t+d)-f(t)(6)，其中，d表示固定时间间隔，f(t)表示在t时刻人体关节点的3D坐标；

S302：利用特征提取模型B提取步骤S301中动态属性萃取结果的特征。

进一步的，所述步骤4的具体内容如下：

S401：利用特征模型C分别对步骤2的视角预处理结果和步骤3的动态属性萃取结果进行特征提取；

S402：对步骤S401提取的特征进行特征融合，特征融合采用的公式如下：

其中，L代表融合输出的特征数量，

或

表示加成权重，M×L表示加成权重α的大小，N×L表示加成权重β的大小，a_m和b_n分别表示需要融合的两类特征，m∈(1,M)，n∈(1,N)分别表示需要融合的两类特征的维度，C_L表示特征融合后得到的特征。

进一步的，所述步骤5中动作识别具体为：将步骤2提取的特征、步骤3提取的特征和步骤4融合的特征分别依次输入各自的全连接层和softmax进行动作识别。

进一步的，所述步骤6中决策融合具体为：将所述步骤5得到的3个识别结果进行连乘，连乘结果所代表的类型就是最终动作识别的结果。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.本发明整合了动作序列的静态特性和动态特性，动作识别的精度高，稳定性好；利用NTU RGB+D数据库的测试结果如下：采用传统的动作识别方法，精度在30％-80％之间，其中最优的方法是STA-LSTM，精度约为80％；而采用本方案，动作识别的精度提高至86.6％。

2.采用视角预处理和构建人体动作动态属性萃取为基础的诱导方法，降低了深度学习框架的训练难度，使得训练所需的数据量较小，收敛速度快。

3.本发明能够识别更加复杂的动作类型，可以适应更复杂的应用场景。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是本发明的整体结构图；

图2是本发明构建的萃取动作序列动态属性的原理图；

图3是本发明中以多层权重为基础的特征融合结构图；

图4是本发明中特征融合的结构图。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

下面结合图1-4对本发明作详细说明。

基于多流LSTM的动作识别方法，包括以下步骤：

步骤0：获取特征提取模型A、特征提取模型B、特征提取模型C；

具体如下：

S001：利用深度相机采集人体骨架关节点的3D坐标数据，得到训练样本；

步骤1：利用深度相机采集待识别目标的人体骨架关节点的3D坐标数据，得到由所述关节点表示的动作序列。

步骤2：对所述动作序列进行视角预处理，并对视角预处理结果进行特征提取；

具体为：

R^c'→h(t)＝[s₁ s₂ s₃]^T (8),

其中，

s₃＝s₁×s₂ (11)；

表示以相机坐标系为基准的人体左肩在t时刻的3D坐标，

表示以相机坐标系为基准的人体右肩在t时刻的3D坐标，

表示以相机坐标系为基准的人体躯心在t时刻的3D坐标；

S202：计算每个关节点的3D坐标

获得视角预处理结果，

其中，k表示人体关节点的序号，

表示以相机坐标系为基准的人体关节点k在t时刻的3D坐标；

步骤3：对所述动作序列进行动态属性萃取，并对动态属性萃取结果进行特征提取；

具体为：

S301：对所述动作序列进行动态属性萃取，动态属性萃取为追踪每个关节点在两个固定时间间隔d间的位置变化信息，获得萃取结果f(t+d)-f(t)(13)，其中，d表示固定时间间隔，f(t)表示在t时刻人体关节点的3D坐标；

步骤4：分别对所述视角预处理结果和动态属性萃取结果进行特征提取，并对提取的特征进行特征融合；

具体为：

其中，L代表融合输出的特征数量，

或

该公式的具体解释如下：(1)权重加成：对每一个特征里面的每一个元素，额外赋予一个可训练的加成权重

或

将这些权重与原始输出相乘，进行辨识力的提升或抑制，接着将加权后的数值全部加总得到一个标量，代表着该神经网络依照此权重加乘后的效果。(2)点积融合C：将前一步得到的不同特征的综述权值进行点乘(pair-wise Product)得到新的输出C，然而此处的C仅有单一的数值，代表着不同特征经过权重加成后融合的结果。(3)多层特征输出C_L：在同一时间会使用多组的点积融合结果当作最后的融合输出，越多组的融合结果，也就代表具有越高的的辨识力，L代表融合输出的特征数量，也是该融合网络唯一的超参数，L设置为(M+N)/4，结构如图3所示，分别连接需要融合的两个特征流，然后经过融合得到融合好的特征数据。

具体为：将步骤2提取的特征、步骤3提取的特征和步骤4融合的特征分别依次输入各自的全连接层和softmax进行动作识别。

步骤6：对所述步骤5得到的识别结果进行决策融合，最终得到动作的识别结果；

具体为：将所述步骤5得到的3个识别结果进行连乘，连乘结果所代表的类型就是最终动作识别的结果。