CN110119707B

CN110119707B - 一种人体动作识别方法

Info

Publication number: CN110119707B
Application number: CN201910387635.4A
Authority: CN
Inventors: 杨剑宇; 黄瑶; 朱晨
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2019-05-10
Filing date: 2019-05-10
Publication date: 2021-02-02
Anticipated expiration: 2039-05-10
Also published as: CN110119707A

Abstract

本发明提出一种人体动作识别方法，提取动作样本每个骨骼关节点在相邻帧之间的运动作为该动作样本的动态特征；对动态特征进行空间多尺度划分，得到各个子特征集；对于每个子特征集，将同一帧所有骨骼关节点的运动特征组成向量；提取所有训练样本的该子特征集的帧特征向量，进行聚类，得到聚类中心；将动作样本所有帧的特征向量输入至各个子特征集构建的概率分布神经元，累加每个概率分布神经元上的所有输出，得到直方图表达；对该子特征集进行时间多尺度划分，得到时间多尺度直方图；组成时空多尺度软量化直方图；构成时空多尺度软量化网络；训练时空多尺度软量化网络，将测试样本输入至训练好的网络模型中，实现动作识别。

Description

一种人体动作识别方法

技术领域

本发明涉及一种人体动作识别方法，属于人体动作识别技术领域。

背景技术

人体动作识别是机器视觉领域的一个重要研究方向，在人机交互、虚拟现实、视频检索和安防监控等领域中有着十分广泛的应用。随着深度相机及人体骨架提取算法的发展，人们可以便捷地获取人体骨骼关节点信息。由于人体可以被视为刚性骨骼关节点之间相互连接构建的系统，基于人体骨骼关节点的动作识别相较于基于图像的动作识别有着显著的优越性。

近年来，有许多基于聚类与统计模型的方法被提出，用于动作识别任务。通过聚类所有样本的特征获得码本，各个聚类中心作为码字，用直方图的形式进行量化实现动作描述。然而，传统的硬量化方法难以衡量和优化聚类结果，特征只能单一地属于某一个聚类中心，使得动作描述不够灵活。此外，聚类和直方图量化过程是分开的两个阶段，使得这类型方法不是端到端的，训练过程没法受到样本标签的监督，这也降低了动作描述的有效性和区分度。因此，动作识别方法应当能较为灵活地量化特征，将其按一定权重分配至不同的聚类中心，也应当使用端到端的训练过程，充分利用样本标签的监督。

针对上述动作识别算法的问题，提出一种人体动作识别方法。

发明内容

本发明是为解决现有技术中的问题而提出的，技术方案如下，

一种人体动作识别方法，该方法包括以下步骤：

步骤一、提取动作样本的每个骨骼关节点在相邻帧之间的运动作为该动作样本的动态特征；

步骤二、对动态特征进行空间多尺度划分，得到各个子特征集；

步骤三、对于每个子特征集，将同一帧的所有骨骼关节点的运动特征组成向量；

步骤四、提取所有训练样本的各子特征集下每一帧的特征向量，按各子特征集进行聚类，得到聚类中心；

步骤五、针对各子特征集构建对应的概率分布神经元组，根据聚类结果进行参数初始化；将动作样本的各子特征集下每一帧的特征向量输入至对应的概率分布神经元组，并进行归一化；

步骤六、将每一子特征集中所有帧的特征向量输入至对应概率分布神经元组的各个概率分布神经元，累加每个概率分布神经元上的所有输出，得到直方图表达；

步骤七、对每一子特征集进行时间多尺度划分，不同时间尺度上共享该子特征集对应的概率分布神经元组，得到时间多尺度直方图；

步骤八、将所有子特征集的时间多尺度直方图结合，组成时空多尺度软量化直方图；

步骤九、将时空多尺度软量化直方图作为向量输入至多层感知器，构成完整的时空多尺度软量化网络；

步骤十、训练时空多尺度软量化网络，将测试样本输入至训练好的时空多尺度软量化网络模型中，实现动作识别。

优选的，所述步骤一中，提取动作样本的动态特征的方法为：

每一个动作样本是由人体所有骨骼关节点所有帧的三维坐标组成，对于任一动作样本A来说，

其中，

为骨骼关节点j在第f帧的三维坐标，J是骨骼关节点总数，F是动作样本A的总帧数；

骨骼关节点j在第f帧至第f+1帧的动态特征

表示为：

则动作样本A的动态特征M表示为：

进一步的，所述步骤二中，对动态特征进行空间多尺度划分，得到各个子特征集的具体方法为：

对动作样本A的动态特征M进行空间多尺度划分，共分为三级：

在第一级空间尺度中，动作特征R¹为整个人体所有骨骼关节点的动态特征：

在第一级空间尺度中的动态特征集合M¹为：

M¹＝R¹；

在第二级空间尺度中，将全部骨骼关节点按身体部位分为五组，分别为四肢的骨骼关节点以及躯干的骨骼关节点，各个分组的骨骼关节点标号的集合分别为P¹，P²，P³，P⁴，P⁵，

五个身体部位的动态特征分别为：

则在第二级空间尺度中的动作特征集合M²为：

M²＝{G¹,G²,G³,G⁴,G⁵}；

在第三级空间尺度中，每个骨骼关节点单独作为一组，则第j个骨骼关节点的运动特征为：

则在第三级空间尺度中的动作特征集合M³为：

M³＝{Q¹,Q²,…,Q^J}；

对初始动态特征M(所有骨骼关节点特征)进行空间多尺度划分后，将其重新表示为三层动态特征，其中第一层特征即为所有骨骼关节点特征，因此R¹＝M¹，并且与初始的M相同，第二层为五个肢体部位的特征，第三层为各个骨骼关节点的特征。

至此，将动作样本A的动态特征M划分为空间多尺度动态特征集合T：

T＝{M^s|s∈[1,S]}，

其中，S为空间多尺度划分的总级别数，S的值为3，空间多尺度动态特征T可以表示为所有空间尺度上各个子特征集的组合：

T＝{R¹,G¹,…,G⁵,Q¹,…,Q^J}。

进一步的，所述步骤三中，对于每个子特征集R¹,G¹,…,G⁵,Q¹,…,Q^J，将同一帧的所有骨骼关节点的运动特征组成向量，对于子特征集R¹来说，第f帧的特征向量v_f为全部J个骨骼关节点的动态特征：

其中，

对于子特征集G¹,…,G⁵来说，第f帧的特征向量v_f为各个身体部位的J/5个骨骼关节点的动态特征，则第二级空间尺度中第p个子特征集G^p第f帧的特征向量v_f为：

其中，

p∈[1,5]；

对于子特征集Q¹,…,Q^J来说，第f帧的特征向量v_f为单个骨骼关节点的动态特征，则第三级空间尺度中第j个子特征集Q^j第f帧的特征向量v_f为：

其中，

j∈[1,J]；

所述步骤四中，提取所有训练样本的各子特征集R¹,G¹,…,G⁵,Q¹,…,Q^J下每一帧的特征向量，按各子特征集进行聚类，得到聚类中心的方法为：

提取所有训练样本的子特征集R¹,G¹,…,G⁵,Q¹,…,Q^J的所有帧的特征向量，使用K-means算法按各子特征集进行聚类，对于子特征集R¹来说，得到K_R个聚类中心：{c_k|k∈[1,K_R]}，对于子特征集G¹,…,G⁵来说，分别得到K_G个聚类中心：{c_k|k∈[1,K_G]}，对于子特征集Q¹,…,Q^J来说，得到K_Q个聚类中心：{c_k|k∈[1,K_Q]}，所有聚类中心的维度与对应子特征集中的特征向量v_f的维度相等。

进一步的，所述步骤五中，概率分布神经元组的概率分布神经元的初始化参数包括尺度缩放系数，所述尺度缩放系数是指对于一个聚类中心所在的簇，其中所有特征向量之间的平均距离；对于子特征集R¹来说，尺度缩放系数为：{σ_k|k∈[1,K_R]}，共有K_R个概率分布神经元，构建成一个概率分布神经元组，对于第k个簇来说，第k个簇中的所有特征向量集合为E_k，其中包含N_k个向量：

计算向量间的欧式距离d_t,n：

其中，[e_t]_l表示向量e_t的第l维数据，t∈[1,N_k-1]，n∈[t+1,N_k]；则第k个簇的尺度缩放系数σ_k为：

对于特征向量v_f，将其输入至第k个概率分布神经元得到的输出W_k(v_f)为：

W_k(v_f)＝exp(-||v_f-c_k||₂/σ_k)，

对特征向量v_f输入至第k个概率分布神经元得到的输出进行归一化：

对于各子特征集G¹,…,G⁵,Q¹,…,Q^J来说，尺度缩放系数与归一化的计算方法与子特征集R¹的相同；对于各子特征集G¹,…,G⁵，分别构建成五个概率分布神经元祖，每组概率分布神经元的数量相同，都为K_G；对于各子特征集Q¹,…,Q^J，分别构建成J个概率分布神经元组，每组概率分布神经元的数量相同，都为K_Q。

进一步的，所述步骤六中，得到直方图表达的方法为：对于子特征集R¹来说，将子特征集R¹中每一帧的特征向量都输入至对应的第k个概率分布神经元中，并对该概率分布神经元的输出进行累加，得到：

所有概率分布神经元的累加值构成了动作特征的软量化直方图表达H：

对于各子特征集G¹,…,G⁵,Q¹,…,Q^J来说，构成直方图表达的方法与子特征集R¹的相同。

进一步的，所述步骤七中，对每一子特征集进行时间多尺度划分，得到时间多尺度直方图的方法为：

对于子特征集R¹，进一步对其进行时间多尺度划分，共分为3级，不同时间尺度上共享该子特征集的概率分布神经元组：

在第一级时间尺度中，将子特征集R¹所有帧的特征向量输入至概率分布神经元组并进行累加，得到直方图表达H¹(R¹)：

其中，

在第二级时间尺度中，将子特征集R¹所有帧的特征向量按时间顺序均分为两组，分别输入至概率分布神经元组并进行累加，得到直方图表达H²(R¹)和H³(R¹)：

其中，

在第三级时间尺度中，将动作特征R¹所有帧的特征向量按时间顺序均分为四组，分别输入至概率分布神经元组并进行累加，得到直方图表达H⁴(R¹)、H⁵(R¹)、H⁶(R¹)和H⁷(R¹)：

其中，

至此，将直方图H¹(R¹)、H²(R¹)、H³(R¹)、H⁴(R¹)、H⁵(R¹)、H⁶(R¹)和H⁷(R¹)相连，组成子特征集R¹的时间多尺度软量化直方图表达H(R¹)：

H(R¹)＝(H¹(R¹),H²(R¹),H³(R¹),H⁴(R¹),H⁵(R¹),H⁶(R¹),H⁷(R¹))；

对于各子特征集G¹,…,G⁵,Q¹,…,Q^J来说，组成时间多尺度软量化直方图表达的方法与子特征集R¹的相同，分别对应得到时间多尺度软量化直方图表达H(G¹)、…、H(G⁵)、H(Q¹)、…、H(Q^J)。

进一步的，所述步骤八中，时空多尺度软量化直方图是将各子特征集对应的时间多尺度软量化直方图表达组合构成的，时空多尺度软量化直方图B：

其中，N_K＝K_R+K_G×5+K_Q×J。

进一步的，所述步骤九中的多层感知器包括全连接层、隐层和输出层，所述隐层共有N_D个神经元，与时空多尺度软量化直方图B所在的累加层的所有输出单元通过全连接层全连接，多层感知器的输出层有N_C个神经元，表示动作类别号；累加层与隐层间的权重表示为

隐层与输出层间的权重表示为

隐层神经元的输出D的计算方式如下：

其中，φ_elu是elu激活函数，

是隐层的偏置向量；

多层感知器的输出层输出O为：

其中，φ_softmax为softmax激活函数，

是输出层的偏置向量，每一个输出层的神经元都表示对应的一个动作类别；

时空多尺度软量化网络的损失函数L为：

其中，

是多层感知器的输出向量，

是期望的输出向量，其中第t维数据定义为：

其中，I是总样本数量，l_i是第i个样本的标签值。

进一步的，所述步骤十中实现动作识别的具体方法为：将所有训练样本输入至时空多尺度软量化网络，对时空多尺度软量化网络模型进行训练，将测试样本输入进已训练好的时空多尺度软量化网络模型中，输出向量中最大值对应的动作类别即判断为该测试样本的动作类型，实现动作识别。

本发明提出了一种新的时空多尺度软量化方法，可以学习得到动作特征的灵活表示；提出的时空多尺度软量化网络是端到端的神经网络，样本标签可以监督整个网络；在三个空间尺度和三个时间尺度上对骨骼关节点的运动特征进行软量化，捕获了足够多的动作信息，有效增加人体动作描述的区分度；在时间尺度上共享概率分布神经元，减少了参数的数量，提高了方法的效率。

附图说明

图1是本发明一种人体动作识别方法的工作流程图。

图2是本发明动作样本的动态特征提取示意图。

图3是本发明动作样本的第二级空间尺度中骨骼关节点分组示意图。

图4是本发明动作样本的第三级空间尺度中骨骼关节点分组示意图。

图5是本发明时空多尺度软量化网络示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种人体动作识别方法，包括如下流程：

1、动作样本集总样本数为200，共10个动作类别，每个动作类别有20个样本。每个动作类别中随机选取四分之三的样本划入训练集，剩下的四分之一划入测试集，得到共150个训练样本，50个测试样本。每一个动作样本由人体所有骨骼关节点所有帧的三维坐标组成，以第一个动作样本A为例：

其中，

为骨骼关节点j在第f帧的三维坐标，该动作样本共有40帧，每帧包含20个骨骼关节点的三维坐标。

2、如图2所示，提取每个骨骼关节点在相邻帧之间的运动作为动作的动态特征，以骨骼关节点j为例，其在第f帧至第f+1帧的动态特征

表示为：

则动作样本A的动态特征M表示为：

3、对动作样本A的动态特征M进行空间多尺度划分，共分为三级：

在第一级空间尺度中的动态特征集合M¹为：

M¹＝R¹。

在第二级空间尺度中，将全部骨骼关节点按身体部位分为五组，分别为四肢的骨骼关节点以及躯干的骨骼关节点，如图3所示。各个分组的骨骼关节点标号的集合分别为P¹＝{1,2,3,4}，P²＝{5,6,7,8}，P³＝{9,10,11,12}，P⁴＝{13,14,15,16}，P⁵＝{17,18,19,20}。

五个身体部位的动态特征分别为：

则在第二级空间尺度中的动作特征集合M²为：

M²＝{G¹,G²,G³,G⁴,G⁵}。

在第三级空间尺度中，每个骨骼关节点单独作为一组，如图4所示，则第j个骨骼关节点的运动特征为：

则在第三级空间尺度中的动作特征集合M³为：

M³＝{Q¹,Q²,…,Q²⁰}。

至此，将动作样本A的动态特征M划分为空间多尺度动态特征T：

T＝{M^s|s∈[1,S]}，

T＝{R¹,G¹,…,G⁵,Q¹,…,Q²⁰}。

4、对于空间多尺度动态动作特征集合T的每一个子特征集，构建一组概率分布神经元，形成一个概率分布神经元组，以子特征集R¹为例：

第一步：将子特征集R¹中的同一帧的特征组成特征向量，以第f帧的特征向量v_f为例：

其中，

第二步：提取所有150个训练样本的子特征集R¹的所有帧的特征向量，共5850帧，使用K-means算法进行聚类，得到256个聚类中心：{c_k|k∈[1,256]}，所有聚类中心的维度与特征向量v_f的维度相等，都是60维。

对于每一个聚类中心所在的簇，计算其中所有特征向量之间的平均距离作为尺度缩放系数：{σ_k|k∈[1,256]}。

以第1个簇中的所有特征向量的集合E₁为例，其中包含45个向量：

E₁＝{e₁,e₂,…,e₄₅}。

计算向量间的欧式距离，以e₁和e₂间的欧式距离d_1,2为例：

其中，[e₁]_l表示向量e₁的第l维数据。

则第1个簇的尺度缩放系数σ₁为：

第三步：构建一组概率分布神经元，共256个，以聚类得到的各个聚类中心向量以及尺度缩放系数作为各个神经元的初始参数。

第四步：对于特征向量v_f，将其输入至第k个概率分布神经元得到的输出W_k(v_f)为：

W_k(v_f)＝exp(-||v_f-c_k||₂/σ_k)。

第五步：对特征向量v_f输入至第k个概率分布神经元的输出进行归一化：

第六步：将子特征集R¹中每一帧的特征向量都输入至概率分布神经元组中，对于第k个概率分布神经元，将所有帧的特征向量输入至该神经元的输出进行累加，得到：

H＝(h₁(R¹),h₂(R¹),…,h₂₅₆(R¹))。

5、对于子特征集R¹，进一步对其进行时间多尺度划分，共分为3级，不同时间尺度上共享该子特征集的概率分布神经元组：

在第一级时间尺度中，将动作特征R¹所有帧的特征向量输入至概率分布神经元组并进行累加，得到直方图表达H¹(R¹)：

其中，

在第二级时间尺度中，将动作特征R¹所有帧的特征向量按时间顺序均分为两组，分别输入至概率分布神经元组并进行累加，得到直方图表达H²(R¹)和H³(R¹)：

其中，

其中，

在以上累加概率分布神经元输出的公式中，当计算求和符号上下的数字，也即累加的起始帧和结束帧标号出现小数时，选择向上取整。

H(R¹)＝(H¹(R¹),H²(R¹),H³(R¹),H⁴(R¹),H⁵(R¹),H⁶(R¹),H⁷(R¹))。

6、对于空间多尺度动态动作特征集合M的每一个子特征集，重复步骤4与步骤5，得到各个子特征集的时间多尺度软量化直方图表达：H(R¹)、H(G¹)、…、H(G⁵)、H(Q¹)、…、H(Q²⁰)。

将以上各个直方图表达组合，构成时空多尺度软量化直方图B：

其中，N_K＝2176＝256+128×5+64×20。第二级别空间尺度中的五个特征子集(G¹、G²、G³、G⁴、G⁵)对应的5组概率分布神经元的数量相同，都为128。第三级别空间尺度中的20个特征子集(Q¹、Q²、…、Q²⁰)对应的20组概率分布神经元的数量相同，都为64。

7、如图5所示，将时空多尺度软量化直方图B作为向量输入至具有单隐层的多层感知器，组成时空多尺度软量化网络。

隐层共有512个神经元，与时空多尺度软量化直方图B所处的累加层的所有输出单元通过全连接层全连接，多层感知器的输出层有10个神经元，表示动作类别号。累加层与隐层间的权重表示为

隐层与输出层间的权重表示为

隐层神经元组的输出D的计算方式如下：

其中，φ_elu是elu激活函数，

是隐层的偏置向量。

多层感知器的输出层输出O为：

其中，φ_softmax为softmax激活函数，

是输出层的偏置向量，每一个输出层的神经元都表示对应的一个动作类别。

网络的损失函数L为：

其中，

是多层感知器的输出向量，

是期望的输出向量，其中第t维数据定义为：

其中，训练样本总数量为150，l_i是第i个样本的标签值。

8、将所有训练样本输入至时空多尺度软量化网络，对时空多尺度软量化网络模型进行训练。将测试样本输入进已训练好的网络模型中，输出向量中最大值对应的动作类别即判断为该测试样本的动作类型，实现动作识别。

尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种人体动作识别方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述的一种人体动作识别方法，其特征在于：所述步骤一中，提取动作样本的动态特征的方法为：

每一个动作样本是由人体所有骨骼关节点所有帧的三维坐标组成，对于任一动作样本A来说：

其中，

骨骼关节点j在第f帧至第f+1帧的动态特征

表示为：

则动作样本A的动态特征M表示为：

3.根据权利要求2所述的一种人体动作识别方法，其特征在于：所述步骤二中，对动态特征进行空间多尺度划分，得到各个子特征集的具体方法为：

在第一级空间尺度中的动态特征集合M¹为：

M¹＝R¹；

五个身体部位的动态特征分别为：

则在第二级空间尺度中的动作特征集合M²为：

M²＝{G¹,G²,G³,G⁴,G⁵}；

则在第三级空间尺度中的动作特征集合M³为：

M³＝{Q¹,Q²,…,Q^J}；

T＝{M^s|s∈[1,S]}，

T＝{R¹,G¹,…,G⁵,Q¹,…,Q^J}。

4.根据权利要求3所述的一种人体动作识别方法，其特征在于：所述步骤三中，对于每个子特征集R¹,G¹,…,G⁵,Q¹,…,Q^J，将同一帧的所有骨骼关节点的运动特征组成向量，对于子特征集R¹来说，第f帧的特征向量v_f为全部J个骨骼关节点的动态特征：

其中，

其中，

p∈[1,5]；

其中，

j∈[1,J]；

5.根据权利要求4所述的一种人体动作识别方法，其特征在于：所述步骤五中，概率分布神经元组的概率分布神经元的初始化参数包括尺度缩放系数，所述尺度缩放系数是指对于一个聚类中心所在的簇，其中所有特征向量之间的平均距离；对于子特征集R¹来说，尺度缩放系数为：{σ_k|k∈[1,K_R]}，共有K_R个概率分布神经元，构建成一个概率分布神经元组，对于第k个簇来说，第k个簇中的所有特征向量集合为E_k，其中包含N_k个向量：

计算向量间的欧式距离d_t,n：

W_k(v_f)＝exp(-||v_f-c_k||₂/σ_k)，

6.根据权利要求5所述的一种人体动作识别方法，其特征在于：所述步骤六中，得到直方图表达的方法为：对于子特征集R¹来说，将子特征集R¹中每一帧的特征向量都输入至对应的第k个概率分布神经元中，并对该概率分布神经元的输出进行累加，得到：

7.根据权利要求6所述的一种人体动作识别方法，其特征在于：所述步骤七中，对每一子特征集进行时间多尺度划分，得到时间多尺度直方图的方法为：

其中，

其中，

其中，

8.根据权利要求7所述的一种人体动作识别方法，其特征在于：所述步骤八中，时空多尺度软量化直方图是将各子特征集对应的时间多尺度软量化直方图表达组合构成的，时空多尺度软量化直方图B：

其中，N_K＝K_R+K_G×5+K_Q×J。

9.根据权利要求8所述的一种人体动作识别方法，其特征在于：所述步骤九中的多层感知器包括全连接层、隐层和输出层，所述隐层共有N_D个神经元，与时空多尺度软量化直方图B所在的累加层的所有输出单元通过全连接层全连接，多层感知器的输出层有N_C个神经元，表示动作类别号；累加层与隐层间的权重表示为

隐层与输出层间的权重表示为

隐层神经元的输出D的计算方式如下：

其中，φ_elu是elu激活函数，

是隐层的偏置向量；

多层感知器的输出层输出O为：

其中，φ_softmax为softmax激活函数，

时空多尺度软量化网络的损失函数L为：

其中，

是多层感知器的输出向量，

是期望的输出向量，其中第t维数据定义为：

其中，I是总样本数量，l_i是第i个样本的标签值。

10.根据权利要求9所述的一种人体动作识别方法，其特征在于：所述步骤十中实现动作识别的具体方法为：将所有训练样本输入至时空多尺度软量化网络，对时空多尺度软量化网络模型进行训练，将测试样本输入进已训练好的时空多尺度软量化网络模型中，输出向量中最大值对应的动作类别即判断为该测试样本的动作类型，实现动作识别。