CN102651072A

CN102651072A - 一种面向三维人体运动数据的分类方法

Info

Publication number: CN102651072A
Application number: CN2012101000809A
Authority: CN
Inventors: 肖俊; 胡文渊; 庄越挺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2012-04-06
Filing date: 2012-04-06
Publication date: 2012-08-29

Abstract

本发明公开了一种面向三维人体运动数据的分类方法。包括如下步骤：1）利用三维人体的运动数据特征，基于稀疏表达的方法，设计计算三维人体运动片段中各帧的稀疏表达系数

；2）基于步骤1）的稀疏表达系数，对各帧的稀疏表达系数进行重建，分析残差进行分类识别。本发明利用计算机运动数据编辑和稀疏表达的知识，实现了对于三维人体运动数据自动智能分类识别。利用稀疏表达的思路对运动数据进行分类，最终结果可以达到较高的分类正确率。

Description

一种面向三维人体运动数据的分类方法

技术领域

本发明涉及一种面向三维人体运动数据的分类方法，属于计算机运动捕获和运动数据编辑的综合领域。

背景技术

现有技术通过一些光学或者机械传感器来实时捕获人体的运动从而驱动动画角色。运动捕获技术的日益成熟和广泛使用产生了大量的三维运动数据，这些数据已被越来越广泛地应用在计算机动画、电影制作以及3D游戏中。在实际应用中，最大限度的重用已有三维人体运动数据能够有效提高动画制作效率并降低制作成本。三维人体运动数据的自动识别与分类是对其进行有效管理与重用的基础，也是该领域的难点问题之一。

2009年在会议SCA上发表的《Efficient and robust annotation ofmotion capture data》公布了一种模板匹配方法，每个人体姿态都由一组人体关节之间的相对位置关系特征的布尔值表示，从而将运动序列表示成一系列0，1矩阵的集合，新来的测试运动序列通过DTW等方法进行匹配识别。该方法的优势是将原始三维特征转化为语义上可以理解的人体关节之间的相对位置关系特征，降低了语义上相似的运动在数据表达上的差别所带来的影响。但是，模板的建立需要额外地进行计算处理，同时其匹配过程对噪声也比较敏感。

近年来，机器学习也被广泛地应用到运动数据分类中。如2006年在计算机期刊上发表的《lndexing of motion capture data for efficient and fastsimilarity search》公开了一种利用SVD提取出运动特征，并通过SVM进行分类识别的方法。另外，基于降维方法的运动识别技术也被提出，如2005年在SCA上发表的《An efficient search algorithm for motion data usingweighted pca》公布了权重PCA方法，2010年在CVPR上发表的《Sufficientdimension reduction for visual sequence classification》公布了SDR方法。总体来看，他们的主旨思想是将原始特征空间投影到特定的子空间中，进而对于子空间中的低维特征使用传统方法(如SVM，KN N等)进行分类。但是这些方法需要对所有数据进行训练，计算量大，同时正确率还需要提高。

发明内容

本发明的目的是为了克服目前运动数据编辑中对于三维人体运动片段管理和重用的复杂性和主观性，提供一种面向三维人体运动数据的分类方法。

面向三维人体运动数据的分类方法包括如下步骤：

1)利用三维人体的运动数据特征，基于稀疏表达的方法，设计计算三维人体运动片段中各帧的稀疏表达系数x₀；

2)基于步骤1)的稀疏表达系数，对各帧的稀疏表达系数进行重建，分析残差进行分类识别。

所述的利用三维人体的运动数据特征，基于稀疏表达的方法，设计计算三维人体运动片段中各帧的稀疏表达系数的步骤：

(a)输入标准格式的运动捕获数据，所有姿态的根节点被平移并旋转至坐标原点，同时让左肩与右肩的关节连线平行于Y轴，并将所有姿态的朝向转到Z轴正方向，得到训练数据集和测试数据集；

(b)输入测试集中任意未知类别的运动片段Y，运动片段Y由一系列时序相关的姿态帧来表示，即Y＝[y₁，y₂，，...，y_m]；其中任意一个姿态y，均基于训练运动数据集定义的一个过完备字典矩阵A对姿态y进行线性表示，A包含k个类别的n′个姿态，过完备字典矩阵A是训练数据集的一个子集，即：

A = [A_{1}, A_{2}, . . ., A_{k}] = [f_{1,1}, . . ., f_{1, n_{1}^{'}}, f_{2,1}, . . ., f_{2, n_{2}^{'}}, . . ., f_{k, 1}, . . ., f_{k, n_{k}^{'}}]

其中，过完备字典矩阵A的选择采取均匀采样的方法，减少计算量的同时保证过完备字典矩阵A具有有效的数据代表性；

姿态y由过完备字典矩阵A中的少量数据线性组合得到：

y＝Ax₀ 2

其中，

x_{0} = {[a_{1,1}, . . . a_{1, n_{1}^{'}}, . . . a_{i, 1}, . . . a_{i, n_{i}^{'}}, . . . a_{k, 1}, . . . a_{k, n_{k}^{'}}]}^{T};

考虑到在实际的三维人体运动分类识别中的噪声，测试数据不可能准确得由过完备字典矩阵A稀疏地表达，所以x₀最终通过优化求解以下形式求出：

x₀＝argmin||x||₁ s.t.||Ax-y||₂≤ε 3

对于运动片段Y，通过遍历求解每一帧的稀疏表达系数，获得人体运动序列Y＝[y₁，y₂，，...，y_m]所对应的稀疏表达系数集合X＝[x₁，x，...，x_m]。

所述的基于步骤1)的稀疏表达系数计算方法，对各帧的稀疏表达系数进行重建，分析残差进行分类识别的步骤如下：

(c)获得人体运动序列Y＝[y₁，y₂，，...，y_m]所对应的稀疏表达系数集合X＝[x₁，x，...，x_m]后，对于k个类别中的每一类，都相应设计了一个函数δ_i，用于从稀疏表达系数中取出对应的系数，而将其他k-1个类别对应的系数标为0，如此，重建出测试姿态y，记为接下来，遍历每一类别，计算y与y_i的残差，通过求残差的最小值来获得待测试姿态y的类别标签：

其中δ_k就是定义的选择函数，用来选择跟第k个类别相关的系数；

获得运动序列Y＝[y₁，y₂，，...，y_m]中每个姿态的类别后，通过统计计算所有的类别标签来最终获得该运动序列Y的类别。

本发明利用计算机运动数据编辑和稀疏表达的知识，实现了对于三维人体运动数据自动智能分类识别。利用稀疏表达的思路对运动数据进行分类，最终结果可以达到较高的分类正确率。

附图说明

图1是面向三维人体运动数据的分类方法的流程图。

具体实施方式

面向三维人体运动数据的分类方法包括如下步骤：

A = [A_{1}, A_{2}, . . ., A_{k}] = [f_{1,1}, . . ., f_{1, n_{1}^{'}}, f_{2,1}, . . ., f_{2, n_{2}^{'}}, . . ., f_{k, 1}, . . ., f_{k, n_{k}^{'}}]

姿态y由过完备字典矩阵A中的少量数据线性组合得到：

y＝Ax₀ 2

其中，

x_{0} = {[a_{1,1}, . . . a_{1, n_{1}^{'}}, . . . a_{i, 1}, . . . a_{i, n_{i}^{'}}, . . . a_{k, 1}, . . . a_{k, n_{k}^{'}}]}^{T};

x₀＝argmin||x||₁ s.t.||Ax-y||₂≤ε 3

(c)获得人体运动序列Y＝[y₁，y₂，，...，y_m]所对应的稀疏表达系数集合X＝[x₁，x，...，x_m]后，对于k个类别中的每一类，都相应设计了一个函数δ_i，用于从稀疏表达系数中取出对应的系数，而将其他k-1个类别对应的系数标为0，如此，重建出测试姿态y，记为

接下来，遍历每一类别，计算y与y_i的残差，通过求残差的最小值来获得待测试姿态y的类别标签：

实施例

(1)输入标准格式的运动捕获数据，在本实施例中输入近红外光学捕获系统所获得的人体运动标准.bvh格式的文件，所有姿态的hip(root)节点被平移并旋转至坐标原点，同时让左肩与右肩的关节连线平行于Y轴，并将所有姿态的朝向转到Z轴正方向；训练数据集和测试数据集均通过该运算过程来获得。

输入测试集中任意未知类别的运动片段Y，其由一系列时序相关的姿态帧来表示，即Y＝[y₁，y₂，，...，y_m]；其中任意一个姿态y，均可以基于训练运动数据集定义的一个过完备字典矩阵A对其进行线性表示，A包含k个类别的n′个姿态，该集合是训练运动数据集的一个子集，即：

A = [A_{1}, A_{2}, . . ., A_{k}] = [f_{1,1}, . . ., f_{1, n_{1}^{'}}, f_{2,1}, . . ., f_{2, n_{2}^{'}}, . . ., f_{k, 1}, . . ., f_{k, n_{k}^{'}}]

其中，过完备字典的选择采取均匀采样的方法，减少计算量的同时保证该字典具有有效的数据代表性。

姿态y可以由矩阵A中的少量数据线性组合得到：

y＝Ax₀ 2

其中，

x_{0} = {[a_{1,1}, . . . a_{1, n_{1}^{'}}, . . . a_{i, 1}, . . . a_{i, n_{i}^{'}}, . . . a_{k, 1}, . . . a_{k, n_{k}^{'}}]}^{T} .

x₀是个稀疏向量(称之为稀疏表达系数)，为了求出x₀，需要解决L₀范式最小化问题。

考虑到在实际的三维人体运动分类识别中的噪声，测试数据不可能准确得由训练基稀疏地表达，所以最终通过优化求解以下形式求出：

s.t.||Ax-y||₂≤ε 3

(2)所述的基于步骤1)的稀疏表达系数计算方法，对各帧的稀疏表达系数进行重建，分析残差进行分类识别的步骤如下：

获得人体运动序列Y＝[y₁，y₂，，...，y_m]所对应的稀疏表达系数集合X＝[x₁，x，...，x_m]后，对于k个类别中的每一类，都相应设计了一个函数δ_i，用于从稀疏表达系数中取出该类别所对应的系数，而将其他类别对应的系数标为0。如此，可以重建出测试姿态y，记为

接下来，遍历每一类别，都可以计算y与y_i的残差，通过求残差的最小值来获得待测试姿态y的类别标签：

其中δ_k就是定义的选择函数，用来选择跟第k个类别相关的系数。

获得运动序列Y＝[y₁，y₂，,...，y_m]中每个姿态的类别后，通过统计计算所有的类别标签来获得该运动序列Y的类别。比较结果见表1。

表1本方法与其它五种传统分类算法的比较结果

方法	姿态分类正确率	运动分类正确率
			我们的方法	86.74	91.16
L2	80.43	87.87
			SVM	80.25	86.42
KNN	79.37	87.30
			PCA	79.39	87.40
LapRLS	82.63	90.36

Claims

1.一种面向三维人体运动数据的分类方法，其特征在于包括如下步骤：

2.根据权利要求1所述的一种面向三维人体运动数据的分类方法，其特征在于：所述的利用三维人体的运动数据特征，基于稀疏表达的方法，设计计算三维人体运动片段中各帧的稀疏表达系数的步骤：

A = [A_{1}, A_{2}, . . ., A_{k}] = [f_{1,1}, . . ., f_{1, n_{1}^{'}}, f_{2,1}, . . ., f_{2, n_{2}^{'}}, . . ., f_{k, 1}, . . ., f_{k, n_{k}^{'}}]

姿态y由过完备字典矩阵A中的少量数据线性组合得到：

y＝Ax₀ 2

其中，

x_{0} = {[a_{1,1}, . . . a_{1, n_{1}^{'}}, . . . a_{i, 1}, . . . a_{i, n_{i}^{'}}, . . . a_{k, 1}, . . . a_{k, n_{k}^{'}}]}^{T};

x₀＝argmin||x||₁ s.t.||Ax-y||₂≤ε 3

3.根据权利要求1所述的一种面向三维人体运动数据的分类方法，其特征在于：所述的基于步骤1)的稀疏表达系数计算方法，对各帧的稀疏表达系数进行重建，分析残差进行分类识别的步骤如下：

，接下来，遍历每一类别，计算y与y_i的残差，通过求残差的最小值来获得待测试姿态y的类别标签：