CN111274908B

CN111274908B - 一种人体动作识别方法

Info

Publication number: CN111274908B
Application number: CN202010046088.6A
Authority: CN
Inventors: 杨剑宇; 黄瑶
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2023-04-14
Anticipated expiration: 2040-01-16
Also published as: CN111274908A

Abstract

本发明提出一种人体动作识别方法，获取动作样本的动态特征；获取每个骨骼关节点的运动特征并进行聚类；将每个动作样本分成N₁个片段；得到每个片段的直方图表达；关节点按身体部位分为五组，获取每个部位在同一时间片段的运动特征；提取所有动作样本每个部位的初始运动特征序列，并对运动特征进行聚类；将每个动作样本的每个部位的运动特征序列分成N₂个片段；得到每个部位每个片段的直方图表达；将五个身体部位同一时间片段的直方图连接，作为该时间片段的身体特征；提取所有动作样本的初始身体特征序列，对身体特征进行聚类；得到身体特征的直方图表达；构成并训练时空层级软量化网络，将测试样本输入至网络模型，实现动作识别。

Description

一种人体动作识别方法

技术领域

本发明涉及一种人体动作识别方法，属于人体动作识别技术领域。

背景技术

动作识别是计算机视觉和多媒体领域的一个重要研究课题。它在视频监控、人机交互、病人监护和机器人等领域有着广泛的应用。和基于RGB视频和光流的方法相比，基于骨骼的方法计算效率更高，具有视角不变性，对遮挡不敏感，对杂乱的背景鲁棒。随着对深度视频以及RGB视频中的骨骼进行估计的方法的发展，动作视频中人体骨骼关节点的3D位置能够很容易的被实时获取。

大部分现有的动作识别方法尝试对骨骼序列中的空间关系进行建模，忽略了关节点之间的协作关系。但是，在日常生活中，人们依靠手和身体各部分协作完成特定动作。这些身体部分之间的协作关系是区分不同动作的重要线索。

因此，针对上述动作识别算法的问题，提出一种人体动作识别方法。

发明内容

本发明是为解决现有技术中的问题而提出的，技术方案如下，

一种人体动作识别方法，该方法包括以下步骤：

步骤一、提取动作样本的每个骨骼关节点在相邻帧之间的运动作为该动作样本的动态特征；

步骤二、获取每个骨骼关节点的运动特征，对所有训练样本的每个骨骼关节点的运动特征进行聚类，得到聚类中心；

步骤三、将每个动作样本分成N₁个片段；对于每个骨骼关节点，将每个骨骼关节点的每个片段中所有帧的特征向量输入至对应的每个骨骼关节点构建的概率分布神经元，累加每个概率分布神经元上的所有输出，得到每个骨骼关节点的每个片段的直方图表达；

步骤四、将全部骨骼关节点按身体部位分为五组，对于每个身体部位的每个片段，连接每个身体部位中的每个骨骼关节点的同一时间片段的直方图表达，作为每个身体部位在该时间片段的运动特征；

步骤五、提取所有动作样本每个身体部位的初始运动特征序列，对每个身体部位的初始运动特征序列的所有运动特征进行聚类；

步骤六、将每个动作样本的每个身体部位的运动特征序列分成N₂个片段；将每个身体部位的每个片段的所有特征向量输入至构建的概率分布神经元，累加每个概率分布神经元上的所有输出，得到每个身体部位的每个片段的直方图表达；

步骤七、将五个身体部位同一时间片段的直方图连接，作为该时间片段的身体特征，同时获得每个动作样本的每个身体部位在所有时间片段的身体特征序列；提取所有动作样本的初始身体特征序列，对所有动作样本的初始身体特征序列的所有身体特征进行聚类；

步骤八、将每个动作样本的身体特征序列中的特征向量输入至构建的概率分布神经元，累加每个概率分布神经元上的所有输出，得到每个动作样本的身体特征的直方图表达；

步骤九、构成时空层级软量化网络；训练时空层级软量化网络，将测试样本输入至训练好的网络模型中，实现动作识别。

优选的，所述步骤一中，提取动作样本的动态特征的方法为：

每一个动作样本是由人体所有骨骼关节点所有帧的三维坐标组成，对于任一动作样本A来说：

其中，

为骨骼关节点j在第f帧的三维坐标，J是骨骼关节点总数，F是动作样本A的总帧数；

骨骼关节点j在第f帧至第f+1帧的动态特征

表示为：

则动作样本A的动态特征M表示为：

进一步的，所述步骤二中，获取每个骨骼关节点的运动特征，对所有训练样本的每个骨骼关节点的运动特征进行聚类，得到聚类中心的方法为：

获取每个骨骼关节点的运动特征，第j个骨骼关节点的运动特征为：

提取所有训练样本每个骨骼关节点的所有帧的运动特征，使用K-means算法进行聚类；对于第j个骨骼关节点来说，得到

个聚类中心：

一共J个骨骼关节点，则一共有

个聚类中心。

进一步的，所述步骤三中，将动作样本分成N₁个片段的方法为：

对每个动作样本，使用长度为

的窗口以步长为

将每个动作样本沿时间顺序分成N₁个片段，第n₁个片段的第j个骨骼关节点的运动特征

表示为：

第j个骨骼关节点的运动特征Q^j可表示为：

对于每个骨骼关节点，将每个骨骼关节点的每个片段中所有帧的特征向量输入至每个骨骼关节点对应构建的概率分布神经元，首先要对每个骨骼关节点构建对应的概率分布神经元组，构建方法如下：

根据每个骨骼关节点的运动特征的聚类结果进行参数初始化，需要初始化的参数包括尺度缩放系数，尺度缩放系数是指对于一个聚类中心所在的簇，其中所有特征向量之间的平均距离；以聚类得到的各个聚类中心向量以及尺度缩放系数作为各个神经元的初始参数；

对于第j个骨骼关节点来说，尺度缩放系数为

个概率分布神经元，构建成一个概率分布神经元组；对于第k₁个簇来说，第k₁个簇中的所有特征向量集合为

其中包含

个向量：

计算特征向量间的欧式距离d_t,n：

其中，[e_t]_l表示向量e_t的第l维数据，

L表示特征向量的维度；则第k₁个簇的尺度缩放系数

为：

对于特征向量v，将其输入至第k₁个概率分布神经元得到的输出

为：

对特征向量v输入至第k₁个概率分布神经元得到的输出进行归一化：

对于第j个骨骼关节点的第n₁个片段来说，将第j个骨骼关节点的第n₁个片段中的每一帧的特征向量都输入至对应的第k₁个概率分布神经元中，并对该概率分布神经元的输出进行累加，得到：

所有概率分布神经元的累加值构成了第j个骨骼关节点在第n₁个片段中的动作特征的软量化直方图表达

则动作样本A关于第j个骨骼关节点的直方图表达可表示成

所有骨骼关节点的概率分布元组以及对概率分布元组的输出进行累加的累加层构成了骨骼关节点特征软量化层，骨骼关节点特征软量化层的输入为动作样本每个骨骼关节点的每个片段中的所有帧的特征向量，输出为每个骨骼关节点的直方图表达。

进一步的，所述步骤四中，全部骨骼关节点按身体部位分为五组，分别为四肢的骨骼关节点以及躯干的骨骼关节点；对于每个身体部位，将组成每个身体部位的骨骼关节点的同一时间片段的直方图表达连接，作为每个身体部位在该片段的运动特征；对于第n₁个片段的第p个身体部位，设该身体部位由k_p个关节点组成，则该身体部位在第n₁个片段的运动特征表示为

则N₁个片段的第p个身体部位的运动特征可组成动作样本关于该身体部位的运动特征序列

进一步的，所述步骤五中，所有动作样本每个身体部位的初始运动特征序列是根据骨骼关节点特征软量化层初始的尺度缩放系数和概率分布神经元提取的，对每个身体部位的初始运动特征序列的所有运动特征使用K-means算法进行聚类；对于第p个身体部位来说，得到

个聚类中心：

一共5个身体部位，则一共有

个聚类中心。

进一步的，所述步骤六中，将动作样本分成N₂个片段的方法为：

对每个动作样本的每个身体部位的运动特征序列，使用长度为

的窗口以步长为

将该身体部位的运动特征序列分成N₂个片段，第p个身体部位在第n₂个片段的特征

表示为：

对每个身体部位构建对应的概率分布神经元组，构建的方法与对每个骨骼关节点构建对应的概率分布神经元组方法相同；对于第p个身体部位来说，尺度缩放系数为

个概率分布神经元，构建成一个概率分布神经元组；

将每个身体部位的每个片段的所有特征向量输入至对应概率分布神经元组的各个概率分布神经元，累加每个概率分布神经元上的所有输出，得到每个身体部位的每个片段的直方图表达；记第p个身体部位的第n₂个片段的直方图表达为

则动作样本A关于第p个身体部位的直方图表达可表示成

所有身体部位概率分布元组以及对概率分布元组的输出进行累加的累加层构成了身体部位特征软量化层，身体部位特征软量化层的输入为动作样本每个身体部位的每个片段中的所有特征向量，输出为每个身体部位的直方图表达。

进一步的，所述步骤七中，第n₂个同一时间片段的身体特征可表示为

则动作样本A的身体特征序列可表示成

根据骨骼关节点特征软量化层和身体部位特征软量化层初始的尺度缩放系数和概率分布神经元，提取所有动作样本的初始身体特征序列，对所有的身体特征使用K-means算法进行聚类，得到

个聚类中心：

进一步的，所述步骤八中，将每个动作样本的身体特征序列中的特征向量输入至构建的概率分布神经元，首先要对身体特征构建对应的概率分布神经元组，构建的方法与对每个骨骼关节点构建对应的概率分布神经元组方法相同；尺度缩放系数为

个概率分布神经元，构建成一个概率分布神经元组；

将每个动作样本的身体特征序列中的特征向量输入至概率分布神经元组的各个概率分布神经元，累加每个概率分布神经元上的所有输出，得到每个动作样本的身体特征的直方图表达；记第k₃个概率分布神经元的输出累加值为

则动作样本A的身体特征的直方图表达可表示成

身体特征概率分布元组以及对身体特征概率分布元组的输出进行累加的累加层构成了身体特征软量化层，身体特征软量化层的输入为动作样本身体特征序列中的特征向量，输出为身体特征的直方图表达。

进一步的，所述步骤九中，时空层级软量化网络包括关节点特征软量化层、身体部位特征软量化层、身体特征软量化层、多层感知器，可根据具体问题调整软量化层的层数，皆在本发明保护范围之内；多层感知器包括全连接层、隐层和输出层，隐层共有N_D个神经元，与身体特征直方图C所在的累加层的所有输出单元通过全连接层全连接，多层感知器的输出层有N_O个神经元，表示动作类别号；累加层与隐层间的权重表示为

隐层与输出层间的权重表示为

隐层神经元的输出D的计算方式如下：

其中，φ_elu是elu激活函数，

是隐层的偏置向量；

多层感知器的输出层输出O为：

其中，φ_softmax为softmax激活函数，

是输出层的偏置向量，每一个输出层的神经元都表示对应的一个动作类别；

时空层级软量化网络的损失函数L为：

其中，

是多层感知器的输出向量，

是期望的输出向量，其中第t维数据定义为：

其中，I是训练样本总数量，l_i是第i个样本的标签值；

将所有训练样本输入至时空层级软量化网络，对时空层级软量化网络模型进行训练，将测试样本输入进已训练好的时空层级软量化网络模型中，输出向量中最大值对应的动作类别即判断为该测试样本的动作类型，实现动作识别。

本发明提出的时空层级软量化网络是端到端的神经网络，样本标签可以监督整个网络。每一层得到的特征是可解释的，反映了骨骼关节点之间、身体部位之间的协作关系。网络中的训练参数较少，降低了计算成本。

附图说明

图1是本发明一种人体动作识别方法的工作流程图。

图2是本发明动作样本的动态特征提取示意图。

图3是本发明时空层级软量化网络示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种人体动作识别方法，包括如下流程：

1、动作样本集总样本数为200，共10个动作类别，每个动作类别有20个样本。每个动作类别中随机选取四分之三的样本划入训练集，剩下的四分之一划入测试集，得到共150个训练样本，50个测试样本。每一个动作样本由人体所有骨骼关节点所有帧的三维坐标组成，以第一个动作样本A为例：

其中，

为骨骼关节点j在第f帧的三维坐标，该动作样本共有40帧，每帧包含20个骨骼关节点的三维坐标。

如图2所示，提取每个骨骼关节点在相邻帧之间的运动作为动作的动态特征，以骨骼关节点j为例，其在第f帧至第f+1帧的动态特征

表示为：

则动作样本A的动态特征M表示为：

2、获取每个骨骼关节点的运动特征，第j个骨骼关节点的运动特征为：

对每个骨骼关节点的运动特征分别进行聚类，得到聚类中心的方法为：

提取所有训练样本每个骨骼关节点的所有帧的运动特征，使用K-means算法进行聚类。对于第j个骨骼关节点来说，得到512个聚类中心：

3、对每个动作样本，使用长度为4的窗口以步长为2将该动作样本沿时间顺序分成19个片段，第n₁个片段的第j个骨骼关节点的运动特征

表示为：

第j个骨骼关节点的运动特征Q^j可表示为：

对每个骨骼关节点构建对应的概率分布神经元组。以第一个骨骼关节点为例，该骨骼关节点聚类得到512个聚类中心：

对于每一个聚类中心所在的簇，计算其中所有特征向量之间的平均距离作为尺度缩放系数：

特征向量即运动特征向量。

以第1个簇中的所有特征向量的集合E₁为例，其中包含45个向量：

E₁＝{e₁,e₂,…,e₄₅}。

计算特征向量间的欧式距离，以e₁和e₂间的欧式距离d_1,2为例：

其中，[e₁]_l表示特征向量e₁的第l维数据。

则第1个簇的尺度缩放系数σ₁为：

概率分布神经元共512个，以聚类得到的各个聚类中心向量以及尺度缩放系数作为各个神经元的初始参数。

为：

将每个骨骼关节点的每个片段中的所有帧的运动特征向量输入至对应概率分布神经元组的各个概率分布神经元，累加每个概率分布神经元上的所有输出，得到每个骨骼关节点的每个片段的直方图表达。

对于骨骼关节点j的第n₁个片段来说，将骨骼关节点j的第n₁个片段中的每一帧的运动特征向量都输入至对应的第k₁个概率分布神经元中，并对该概率分布神经元的输出进行累加，得到：

所有概率分布神经元的累加值构成了骨骼关节点j在第n₁个片段中的动作特征的软量化直方图表达

则动作样本A关于骨骼关节点j的直方图表达可表示成

所有骨骼关节点概率分布元组以及对概率分布元组的输出进行累加的累加层构成了关节点特征软量化层，关节点特征软量化层的输入为动作样本每个骨骼关节点的每个片段中的所有帧的运动特征向量，输出为每个骨骼关节点的直方图表达。

4、将J个骨骼关节点按身体部位分为五组，分别为四肢的骨骼关节点以及躯干的骨骼关节点。对于每个身体部位，将组成每个身体部位的骨骼关节点的同一时间片段的直方图表达连接，作为每个身体部位的该片段的运动特征。对于第n₁个片段的第p个身体部位，假设每个身体部位由k_p个骨骼关节点组成，则每个身体部位在第n₁个片段的运动特征表示为

则512个片段的第p个身体部位的运动特征可组成动作样本关于该身体部位的运动特征序列

5、根据骨骼关节点特征软量化层初始的尺度缩放系数和概率分布神经元，提取所有动作样本每个身体部位的初始特征序列，对每个身体部位的所有运动特征使用K-means算法进行聚类。对于第p个身体部位来说，得到256个聚类中心：

一共5个身体部位，则一共有5×256个聚类中心。

6、对每个动作样本的每个身体部位的运动特征序列，使用长度为2的窗口以步长为1将每个身体部位运动特征序列分成18个片段，第p个身体部位在第n₂个片段的运动特征

表示为：

对每个身体部位构建对应的概率分布神经元组，构建的方法与对每个骨骼关节点构建对应的概率分布神经元组方法相同。对于第p个身体部位来说，尺度缩放系数为

共有256个概率分布神经元，构建成一个概率分布神经元组。

将每个身体部位的每个片段的所有特征向量输入至对应概率分布神经元组的各个概率分布神经元，累加每个概率分布神经元上的所有输出，得到每个身体部位的每个片段的直方图表达。记第p个身体部位的第n₂个片段的直方图表达为

则动作样本A关于第p个身体部位的直方图表达可表示成

7、将五个身体部位同一时间片段的直方图连接，作为该时间片段的身体特征。对于第n₂个片段，身体特征可表示成

则动作样本A的身体特征序列可表示成

根据骨骼关节点特征软量化层和身体部位特征软量化层初始的尺度缩放系数和概率分布神经元，提取所有动作样本的初始身体特征序列，对所有的身体特征使用K-means算法进行聚类，得到128个聚类中心：

对身体特征构建对应的概率分布神经元组，构建的方法与对每个骨骼关节点构建对应的概率分布神经元组方法相同。尺度缩放系数为

共有128个概率分布神经元，构建成一个概率分布神经元组。

8、将身体特征序列中的特征向量输入至概率分布神经元组的各个概率分布神经元，累加每个概率分布神经元上的所有输出，得到身体特征的直方图表达。记第k₃个概率分布神经元的输出累加值为

则动作样本A的身体特征的直方图表达可表示成C＝(C₁,C₂,…,C₁₂₈)。

身体特征概率分布元组以及对概率分布元组的输出进行累加的累加层构成了身体特征软量化层，身体特征软量化层的输入为动作样本身体特征序列中的特征向量，输出为身体特征的直方图表达。

9.如图3所示，将身体特征直方图作为向量输入至具有单隐层的多层感知器，构成时空层级软量化网络。隐层共有512个神经元，与身体特征直方图C所在的累加层的所有输出单元通过全连接层全连接，多层感知器的输出层有10个神经元，表示动作类别号；累加层与隐层间的权重表示为

隐层与输出层间的权重表示为

隐层神经元的输出D的计算方式如下：

其中，φ_elu是elu激活函数，

是隐层的偏置向量；

多层感知器的输出层输出O为：

其中，φ_softmax为softmax激活函数，

时空层级软量化网络的损失函数L为：

其中，

是多层感知器的输出向量，

是期望的输出向量，其中第t维数据定义为：

其中，训练样本总数量为150，l_i是第i个样本的标签值。

尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种人体动作识别方法，其特征在于：该方法包括以下步骤：

步骤二、基于该动作样本的动态特征获取每个骨骼关节点的运动特征，对所有训练样本的每个骨骼关节点的运动特征进行聚类，得到聚类中心；

步骤九、构成时空层级软量化网络；训练时空层级软量化网络，将测试样本输入至训练好的网络模型中，实现动作识别；

所述步骤九中，时空层级软量化网络包括关节点特征软量化层、身体部位特征软量化层、身体特征软量化层、多层感知器；多层感知器包括全连接层、隐层和输出层，隐层共有N_D个神经元，与步骤八直方图表达的身体特征直方图C所在的累加层的所有输出单元通过全连接层全连接，多层感知器的输出层有N_O个神经元，表示动作类别号；累加层与隐层间的权重表示为

隐层与输出层间的权重表示为

为概率分布神经元个数；

隐层神经元的输出D的计算方式如下：

其中，

是elu激活函数，

是隐层的偏置向量；

多层感知器的输出层输出O为：

其中，

为softmax激活函数，

时空层级软量化网络的损失函数L为：

其中，

是多层感知器的输出向量，

是期望的输出向量，其中第t维数据定义为：

其中，I是训练样本总数量，l_i是第i个样本的标签值；

2.根据权利要求1所述的一种人体动作识别方法，其特征在于：所述步骤一中，提取动作样本的动态特征的方法为：

其中，

骨骼关节点j在第f帧至第f+1帧的动态特征

表示为：

则动作样本A的动态特征M表示为：

3.根据权利要求2所述的一种人体动作识别方法，其特征在于：所述步骤二中，获取每个骨骼关节点的运动特征，对所有训练样本的每个骨骼关节点的运动特征进行聚类，得到聚类中心的方法为：

个聚类中心：

一共J个骨骼关节点，则一共有

个聚类中心。

4.根据权利要求3所述的一种人体动作识别方法，其特征在于：所述步骤三中，将动作样本分成N₁个片段的方法为：

对每个动作样本，使用长度为

的窗口以步长为

表示为：

第j个骨骼关节点的运动特征Q^j可表示为：

对于第j个骨骼关节点来说，尺度缩放系数为

其中包含

个向量：

计算特征向量间的欧式距离d_t,n：

其中，[e_t]_l表示向量e_t的第l维数据，

L表示特征向量的维度；则第k₁个簇的尺度缩放系数

为：

为：

则动作样本A关于第j个骨骼关节点的直方图表达可表示成

5.根据权利要求4所述的一种人体动作识别方法，其特征在于：所述步骤四中，全部骨骼关节点按身体部位分为五组，分别为四肢的骨骼关节点以及躯干的骨骼关节点；对于每个身体部位，将组成每个身体部位的骨骼关节点的同一时间片段的直方图表达连接，作为每个身体部位在该片段的运动特征；对于第n₁个片段的第p个身体部位，设该身体部位由k_p个关节点组成，则该身体部位在第n₁个片段的运动特征表示为