CN112101243A

CN112101243A - 一种基于关键姿势和dtw的人体动作识别方法

Info

Publication number: CN112101243A
Application number: CN202010982823.4A
Authority: CN
Inventors: 吴亚东; 蔡琳; 赵思蕊; 王赋攀; 易思恒
Original assignee: Southwest University of Science and Technology; Sichuan University of Science and Engineering
Current assignee: Southwest University of Science and Technology; Sichuan University of Science and Engineering
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2020-12-18

Abstract

本发明涉及动作识别相关技术领域，尤其为一种基于关键姿势和DTW的人体动作识别方法，包括以下步骤，S10、利用深度传感器采集得到人体动作3D骨架关节坐标数据后，再利用特征关节相对距离描述静态姿势；S20、利用基于时间约束X‑Means聚类算法，对原始动作姿势序列提取关键姿势帧进行描述。本发明针对利用聚类算法提取关键帧存在的关键帧个数难以自动确定，朴素聚类会破坏动作时序的问题，提出了一种基于3D骨架关节点空间距离特征和时间约束X‑Means聚类的动作关键帧的提取方法；实验结果表明，该方法能根据动作姿势序列的内容自动确定关键帧数目，并能保存动作的时序特征，提取出的动作关键姿势帧，在视觉上能有效的表征动作姿势序列的内容。

Description

一种基于关键姿势和DTW的人体动作识别方法

技术领域

本发明涉及动作识别相关技术领域，尤其涉及一种基于关键姿势和DTW的人体动作识别方法。

背景技术

人体动作识别是人体动作分析研究的重要工作，是实现自然人机交互的前提；当前人体动作识别研究主要是围绕着视角受限或不受限的、实时的或者离线的、已分割的或者连续的、单人或多人的动作模式识别；人体动作识别研究属于模式识别范畴，在对动作姿势特征进行数学模型描述后，主要包括标准动作分类器设计和动作分类识别两个基本任务。

人体动作可以看作是多个姿势在时间轴上的组合，姿势序列的长度取决于用户动作空间的复杂度和动作的持续时间；一个持续时间较长的动作将会产生大量的姿势数据，如果直接采用深度传感器获取得到的25个骨架关节点坐标数据描述姿势，不仅计算量大，而且也破坏了人体动作关节点之间固有的联系，所以需要将原始关节点的坐标数据转换为人体结构特征描述量；在人体运动过程中，四肢关节是整个身体变化最为明显的部分，所以利用人体四肢(左上肢、右上肢、左下肢、右下肢)关节点的变化特征来描述动作姿态是一种合理和有效的方式；考虑到四肢边缘关节点的坐标数据易受噪声等因素的影响，所以选择运动过程中肢体中变化最为稳定的10个关节点作为特征关节点，如图1所示。

动作关键帧提取技术是动作抽象描述的主要方法，三维人体动作关键姿势帧，是指动作中最能体现动作变化的，且利用3D骨架关节坐标数据表示的姿势；其中的关键姿势帧序列能对动作姿势序列进行摘要表示，对于连续动作的压缩、检索、编辑以及语义分析起着重要的作用；当前3D动作数据的关键帧提取方法主要分为两类，均匀采样提取和自适应采样提取；其中适应采样提取中的聚类提取方法是将该方法将每一个动作姿势序列当做一个待聚类的样本，样本元素根据特征相似度进行划分集合，通常将聚类得到类中心点或者聚类簇的首帧作为关键帧，这种方法提取关键帧最大的优点就是可以很好的表示原始样本的内容；然而原始聚类方法缺少考虑样本之间的时序性，容易导致动作分析序列失真，并且对动作数据的长度敏感；此外，聚类算法大多需要人为设定聚类中心的个数，即动作姿势序列关键帧的个数，这种方式受人为主观性影响较大。

发明内容

本发明的目的在于提供一种基于关键姿势和DTW的人体动作识别方法，以解决上述背景技术中提出的现有的原始聚类方法缺少考虑样本之间的时序性，容易导致动作分析序列失真，并且对动作数据的长度敏感；此外，聚类算法大多需要人为设定聚类中心的个数，即动作姿势序列关键帧的个数，这种方式受人为主观性影响较大的问题。

为了实现以上目的，本发明采用的技术方案为：一种基于关键姿势和DTW的人体动作识别方法，包括以下步骤，

S10、利用深度传感器采集得到人体动作3D骨架关节坐标数据后，再利用特征关节相对距离描述静态姿势；

S20、利用基于时间约束X-Means聚类算法，对原始动作姿势序列提取关键姿势帧进行描述；

S30、建立标准动作模板库，基于DTW算法计算组成待识别动作的关键姿势帧序列与标准动作模板库中的动作关键姿势帧序列之间的相似度距离，将待识别的动作划分为与之相似度距离最小的动作类型；

其中，由所述S10借助深度传感器深度传感器跟踪和捕获人体动作关节点的3D空间坐标数据，采用特征关节相对空间距离对动作姿势进行描述；然后利用所述S20中基于时间约束的X-Means算法对动作姿势序列进行聚类筛选，得到最终的关键帧姿势序列组合；最后由所述S30，建立标准动作模板库，基于DTW算法计算组成待识别动作的关键姿势帧序列与标准动作模板库中的动作关键姿势帧序列之间的相似度距离，将待识别的动作划分为与之相似度距离最小的动作类型。

进一步的，所述S10中获取3D人体骨架序列和特征姿势包括：

S101、由于基于深度传感器获取得到的人体骨架关节数据是在设备笛卡尔坐标系下的，并且在运动过程中，人体也很难保持与设备空间平面垂直，因此需要将人体运动原始骨架关节坐标数据从深度传感器空间坐标系O′X′Y′Z′映射到人体空间坐标系OXYZ，如图2中所示；

S102、考虑到四肢边缘关节点的坐标数据易受噪声等因素的影响，所以选择运动过程中肢体中变化最为稳定的10个关节点作为特征关节点，如图1中所示；

S103、将动作骨架序列中每一个静态姿势的特征向量可以按照S102的方法获得，即一个姿势使用10个特征距离进行描述，则将整个动作姿势序列可以看做是如下公式矩阵的数据集。

进一步的，所述S20中利用基于时间约束X-Means聚类算法，对原始动作姿势序列提取关键姿势帧进行描述包括：

S201、通过S10获得动作姿势特征数据集后，将动作姿势的时序属性当做一个姿势特征，参与到聚类中，即一个姿势Pose采用1个时间特征和10个距离特征进行描述；

S202、在X-Means算法步骤中，每次利用K-Means算法聚类时，进行三点限制：1)选择动作数据序列K均等分后的各个部分的时序中心点作为聚类簇的初始中心点；2)在每一次使用K-Means聚类后，在各个簇内使用距离特征与中心点欧式距离最近的一个姿势代表该聚类簇；3)在计算每个姿势帧样本与聚类中心的距离时，仅仅计算与该姿势帧时序相邻的两个聚类中心的距离，并将该姿势帧样本划分到满足距离最近的簇中去，从而能够保证动作姿势的时序性；

S203、对原始动作姿势序列使用限制X-Means算法来提取关键姿势帧。

进一步的，所述S30中利用DTW进行动作识别包括：

S301、建立标准动作模板；当前动作标准模板建立主要有2种方法：方法一，以某一个动作姿势序列样本作为标准，该方法受人为主观性影响比较大，但能够快速建立动作模板；方法二，利用DTW计算同一语义的多个样本中各个样本同其他动作样本的距离，然后利用与其他动作样本距离之和最小的一个作为标准动作模板，该方法相对于方法一充分考虑了动作的类内差异，但往往需要大量的动作样本；本发明利用S20的X-Means聚类算法提取关键帧，然后利用方法二建立动作标准库；

S302、用DTW算法进行动作匹配识别。

进一步的，所述S302、用DTW算法进行动作匹配识别包括：

S3021、输入待识别的姿势序列S和标准的动作姿势模板库T；

S3022、初始化相似度阀值τ，并按照S3023～S3024分别计算S与T中参考动作姿势序列R⁽ⁱ⁾的距离d⁽ⁱ⁾并构成识别距离集合D＝{d⁽¹⁾，d⁽²⁾，…，d^(M)}；

S3023、分别计算S中每一个元素s_i与R⁽ⁱ⁾中的每一个元素r_j的欧式距离d(s_i，r_j)构造一个n*m的距离矩阵Matrix＝(d(s_i，r_j))，i∈[1，m]，j∈[1，n]；

S3024、基于距离矩阵Matrix，采用局部最优找到一条代价最小的规整路径W＝{W₁，W₂，…，W_K}，且K∈[max(m，n)，m+n-1]，K为路径的长度，路径代价函数见下式，

此时式中W_k＝d(s_i，r_j)_k为路径上的第k个元素，且d(s_i，r_j)为Matrix矩阵中第i行和第j列的元素(i，j)值。假设γ(i，j)是从起点(1，1)到Matrix中元素(i，j)的累加距离，则可通过d(s_i，r_j)求累加距离见下式：

γ(i，j)＝d(s_i，r_j)+min{γ(i-1，j-1)，γ(i-1，j)，γ(i，j-1)}

则S与R⁽ⁱ⁾的相似度距离d⁽ⁱ⁾＝γ(m，n)，即W₁到W_K的距离，将d⁽ⁱ⁾加入识别距离集合D；

S3025、查找出集合D的最小值d⁽ⁱ⁾ _min，如果d⁽ⁱ⁾ _min＜θ，则将动作S归类为模板库T中的第i种动作，否则将S视为未知动作类型；

S3026、输出S的动作类型，动作识别完毕。

本发明的有益效果为：

本发明针对利用聚类算法提取关键帧存在的关键帧个数难以自动确定，朴素聚类会破坏动作时序的问题，提出了一种基于3D骨架关节点空间距离特征和时间约束X-Means聚类的动作关键帧的提取方法；实验结果表明，该方法能根据动作姿势序列的内容自动确定关键帧数目，并能保存动作的时序特征，提取出的动作关键姿势帧，在视觉上能有效的表征动作姿势序列的内容。

并且本发明还针对利用原始姿势序列和DTW匹配的动作识别方法存在的识别率低、识别速率慢、鲁棒性弱的问题，提出了基于关键姿势和DTW的人体动作识别方法，实验结果表明，该方法相比于基于原始姿势序列的DTW识别方法具有更高的识别准确率，更快的识别速率和更好的鲁棒性。

附图说明

图1为一种基于关键姿势和DTW的人体动作识别方法的10个人体动作姿势特征结构示意图。

图2为一种基于关键姿势和DTW的人体动作识别方法的Kinect空间坐标系与人体空间坐标系的转换结构示意图。

图3为一种基于关键姿势和DTW的人体动作识别方法的DTW算法的算法原理结构示意图。

图4为一种基于关键姿势和DTW的人体动作识别方法的3D人体骨架模型结构示意图。

具体实施方式

为了使本领域技术人员更好地理解本发明的技术方案，下面结合附图对本发明进行详细描述，本部分的描述仅是示范性和解释性，不应对本发明的保护范围有任何的限制作用。

如图1-图4所示，本发明的具体结构为：一种基于关键姿势和DTW的人体动作识别方法，包括以下步骤，

优选的，所述S10中获取3D人体骨架序列和特征姿势包括：

具体的，在S101中，两个空间坐标的具体转换过程如下：

考虑到人体重心是整个身体位置变化最稳定的点，所以人体坐标系0XYZ以人体重心，即如图4的“SpineBase”节点作为原点0，并以右手方向为X轴正方向，以头部正上方为Y轴正方向，以人体正前方为Z轴正方向；设P′(x′，y′，z′)为关节点在设备空间坐标系O′X′Y′Z′下的3D坐标，P(x，y，z)为P′对应在人体空间坐标系OXYZ下的坐标，则根据3D图形空间坐标的平移和旋转变换：

得到：

式中x₀′，y₀′，z₀′分别对应“SpineBase”节点O在深度传感器空间坐标系下的坐标量，α表示人体相对XOY平面的旋转角度，且α∈[-70，+70]，可通过标定特定关节点获取，由于“HipLeft”和“HipRight”相对Y轴对称，所以选择这两个点为标定点，假设它们在O′X′Y′Z′坐标系下的坐标分别为(x₁′，z₁′)和(x_r′，z_r′)，则α＝arctan((x_r′-x₁′)/(z_r′-z₁′))。

优选的，所述S20中利用基于时间约束X-Means聚类算法，对原始动作姿势序列提取关键姿势帧进行描述包括：

具体的，在S20中提到的X-Means是一种针对K-Means存在的计算规模受限、聚类的个数K必须由人为指定等问题改进得到的聚类算法；它根据贝叶斯信息准则(BayesianInformationCriterion，BIC)确定聚类的个数：通过反复使用K-Means进行聚类，每次聚类完成后根据BIC评分值决定聚类后得到簇是否为了更好的适应这个数据集而继续进行划分，此外，该算法通过嵌入树型的数据集以及将节点存储为统计变量的方式来大幅度提高算法的执行速度。

优选的，所述S30中利用DTW进行动作识别包括：

S302、用DTW算法进行动作匹配识别。

具体的，S30中的DTW算法是一种把时间规整和距离测量相结合的非线性规整技术，常用于测量两个长度不相等的时间序列数据的相似度；算法原理如图3所示，采用动态规划(DP)的思想，DTW通过特定的时间弯折函数在测试序列T与参考序列R之间查找一条非线性弯折路径，沿着该路径两个序列之间的距离最小，则相似度最高；DTW算法是现有技术。

优选的，所述S302、用DTW算法进行动作匹配识别包括：

S3021、输入待识别的姿势序列S和标准的动作姿势模板库T；

S3023、分别计算S中每一个元素s_i与R⁽ⁱ⁾中的每一个元素r_j的欧式距离d(s_i，r_j)构造一个n*m的距离矩阵Matrix＝(d(s_i，r_j))，i∈[1，m]，j^∈[1，n]；

γ(i，j)＝d(s_i，r_j)+min{γ(i-1，j-1)，γ(i-1，j)，γ(i，j-1)}

S3026、输出S的动作类型，动作识别完毕。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实例的说明只是用于帮助理解本发明的方法及其核心思想。以上所述仅是本发明的优选实施方式，应当指出，由于文字表达的有限性，而客观上存在无限的具体结构，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进、润饰或变化，也可以将上述技术特征以适当的方式进行组合；这些改进润饰、变化或组合，或未经改进将发明的构思和技术方案直接应用于其它场合的，均应视为本发明的保护范围。

Claims

1.一种基于关键姿势和DTW的人体动作识别方法，其特征在于：包括以下步骤，

2.根据权利要求1所述的一种基于关键姿势和DTW的人体动作识别方法，其特征在于：所述S10中获取3D人体骨架序列和特征姿势包括：

3.根据权利要求1所述的一种基于关键姿势和DTW的人体动作识别方法，其特征在于：所述S20中利用基于时间约束X-Means聚类算法，对原始动作姿势序列提取关键姿势帧进行描述包括：

4.根据权利要求1和3所述的一种基于关键姿势和DTW的人体动作识别方法，其特征在于：所述S30中利用DTW进行动作识别包括：

S302、用DTW算法进行动作匹配识别。

5.根据权利要求4所述的一种基于关键姿势和DTW的人体动作识别方法，其特征在于：所述S302、用DTW算法进行动作匹配识别包括：

S3021、输入待识别的姿势序列S和标准的动作姿势模板库T；

γ(i，j)＝d(s_i，r_j)+min{γ(i-1，j-1)，γ(i-1，j)，γ(i，j-1)}

S3026、输出S的动作类型，动作识别完毕。