CN103023510B

CN103023510B - 一种基于稀疏表达的运动数据压缩方法

Info

Publication number: CN103023510B
Application number: CN201210466612.0A
Authority: CN
Inventors: 肖俊; 齐天; 庄越挺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2012-11-16
Filing date: 2012-11-16
Publication date: 2015-10-07
Anticipated expiration: 2032-11-16
Also published as: CN103023510A

Abstract

本发明为一种基于稀疏表达的运动数据压缩方法，该方法首先对输入的运动数据进行分析生成稀疏表达字典；然后基于稀疏表达字典对运动数据中的每一帧进行稀疏线性表达；最后用K-SVD算法对字典和稀疏表示进行迭代优化。本方法在将重建误差控制在合理范围的前提下，可以达到较高的压缩比，特别适用于对较短运动数据的压缩。

Description

一种基于稀疏表达的运动数据压缩方法

技术领域

本发明涉及动画制作、运动捕获以及机器学习领域，特别涉及一种对运动数据进行压缩的方法。

背景技术

随着动画产业的发展，动画制作中越来越多的用到运动数据(其格式以bvh、trc等为主)，这些数据多来源于运动捕获系统。运动数据文件中一般包括角色模型信息、运动片段总帧数、采样率等基础信息以及大量的运动数据信息(角色模型每个关节点的三维坐标或旋转角度，依文件格式而不同)。由于运动数据的采样率普遍较高，因此运动数据中冗余度也相对较高，重复性较强，在需要大量运动数据时会消耗过多的磁盘空间。因此，对运动数据的压缩成为了一个有意义的实际问题。

随着人体运动数据在科研和生产应用中的普及以及用于科研与商用目的的大型三维人体运动数据库的出现，对运动数据的高效压缩与存储正逐渐被大家所重视。2008年在EURASIP Journal on Image and Video Processing发表的《Compression of Human Motion Animation Using the Reduction of InterjointCorrelation》，该方法公开了一种通过正向和反向运动学对运动序列中的关节点进行表示，基于反向运动学的预测对运动数据进行压缩的方法。与之类似，在2009年的Computer Graphics上发表的《Motion compression using principalgeodesics analysis》，公开了一种基于PGA(Principal Geodesics Analysis)构建的简化骨骼模型，并通过储存人体骨骼根结点和所有末端节点轨迹代替原始数据，从而实现运动数据压缩效果的方法。此外，数据降维的方法也被引入到运动数据压缩中，例如基于PCA和CPCA的运动数据压缩方法。此外，另一类减少数据重复性的思路是信号处理方法，例如小波变换等。然而实验表明，仅用一些简单的数据降维和信号处理方法对运动数据进行压缩，其效果并不理想。

随着可用运动数据的不断增加，采用数据驱动方法实现运动数据压缩成为一个可行的思路。2008年在Computer Graphics上发表的《Compression of humanmotion capture data using motion pattern indexing》，该方法先将三维人体运动数据进行结构化处理，并在数据库中识别具有相似特征的数据，然后将结构化人体运动数据用数据库中已有的样本进行表达，用数据库索引替代原始数据以实现压缩目的。这种运动特征索引的思路也在其他一些方法中有所体现，如2007年在IEEE Transaction on Visualization and Computer Graphics上发表的《Humanmotion capture data compression by model-based indexing:A power awareapproach》。基于数据驱动的运动数据压缩方法确实能达到较好的压缩效果，但从大量训练数据中提取特征和生成模型是计算复杂且耗时的过程。此外，数据驱动的压缩过程还需要一定规模的数据库支持，且在很大程度其重建效果还依赖于所选择的训练样本，这与数据压缩的目的相悖。

在以上这些运动数据压缩方法中，大多数只适用于较长运动序列，或需要对数据库中所有运动数据片段拼接形成一个超长运动序列后再对其进行压缩。然而，如前文所述，由于运动捕获流程中采集的运动片段一般都不超过几分钟，短时长的运动序列应用更为广泛，且拼接成的整段超长运动序列不利于对增量数据库和数据变更的处理。遗憾的是，目前仍没有一种适用于短时长运动序列的压缩方法。

发明内容

本发明的目的在于针对现有技术的不足，提供了一种基于稀疏表达的运动数据压缩方法。

本发明的目的是通过以下技术方案来实现的：一种基于稀疏表达的运动数据压缩方法，该方法包括如下步骤：

(1)运动数据采集：采集人体运动时的关节点运动轨迹，并存为bvh或trc格式的运动数据文件；

(2)解析运动数据文件：将文件中运动数据Y和其他数据H(包括模型信息、帧数、采样率等)进行区分；

(3)运动数据字典生成：通过K-means聚类算法聚为K类，生成初始化的运动数据字典D⁽⁰⁾，其中，K为字典大小；

(4)稀疏表达求解：对运动数据Y中每一帧的信息用步骤3中生成的初始化的运动数据字典D⁽⁰⁾进行线性表达，并用Sparse方法求解运动数据Y的稀疏表达矩阵A，该稀疏表达矩阵A即为运动数据Y的压缩形式；

(5)应用K-SVD优化方法对步骤3生成的初始化的运动数据字典D⁽⁰⁾和步骤4生成的稀疏表达矩阵A进行迭代优化，得到优化后的运动数据字典D_优化和优化后的稀疏表达矩阵A_优化，减小步骤4带来的数据重建误差；

(6)后续无损编码压缩：该步骤对步骤2中抽取的其他数据H、步骤5中生成的优化后的运动数据字典D_优化和优化后的稀疏表达矩阵A_优化进行无损数学编码压缩，压缩过程采用Huffman编码，得到最终压缩后的二进制数据文件，压缩过程完成。

本发明的有益效果是，本发明公开了一种针对运动数据的压缩方法，利用生成字典的线性组合来表达每一帧的运动数据，实现了高效的运动数据压缩。本方法可以达到较高的压缩比，同时保证恢复后的重建误差控制在一个相对很低的水平。此外，这一方法对较短运动数据效果良好，解决了该领域其他方法对于较短运动数据无法有效压缩的难题；因此还可有效支持增量式的运动数据库，为动画制作等相关应用领域提供了极大的方便，在实际生产中具有重大意义。

具体实施方式

下面对本方法具体步骤及涉及的预备知识进行详细描述，本发明的内容将变得更加易于理解。

一、K-means聚类算法

K-means聚类算法将给定的n个数据对象自动划分为k个聚类(k为输入量)，使得每个数据对象被分配到欧氏距离最近的聚类中。具体实现步骤如下：

1)从n个数据对象随机选择k个对象作为初始聚类中心(默认为随机选择，也可以指定k个对象或指定k个初始聚类中心点坐标，在本方法中由于自动化流程的需要，只能随机选择k个对象，因此聚类结果会存在较小的误差)。

2)根据每个聚类对象的均值(中心对象)，计算每个对象与这些中心对象的距离，并根据最小距离重新对相应对象进行划分。

3)重新计算每个聚类的均值(中心对象)。

4)循环2)到3)直到每个聚类不再发生变化为止。

二、Sparse方法

对于给定原始数据列向量b，字典L/K＝K/n(L≥2)，Sparse方法旨在求解下面方程：

\min {| | b - φx | |}_{2}^{2}, s . t . {| | b | |}_{0} \leq L;

其中，L是指定的参数，用来约束每一组字典的线性组合b中非零元素的个数上限，是约束表达式x稀疏性的参数。

解决Sparse问题的算法有很多，本方法中用到的是OMP算法，具体方法如下：

输入：矩阵φ，向量b，稀疏度m。

初始化：定义余向量r₀＝b。

循环执行下列步骤，循环变量t＝1～m

A.在φ中找出与余向量最相关的列向量ω_t：

B.解下列最小二乘问题并更新余向量r_t：

y_t＝arg min||b-Φ_ty||₂，

r_t＝b-Φ_ty_t，

其中，

输出：系数表达向量

本发明基于稀疏表达的运动数据压缩方法，包括如下步骤：

1、运动数据采集

运动数据是逐帧存储的人体骨骼关节点信息的数据，在动画制作、3D游戏、交互娱乐、运动仿真等领域都有广泛应用。运动数据的采集一般通过对演员关节部位贴标记点，并通过多视角的专业运动捕获设备，在专门的场景中采集演员运动时的关节点运动轨迹，并存为通用格式(包括bvh、trc等)的运动数据文件。

本发明中所用的运动数据通过运动捕获系统采集得到。使用Vicon运动捕获系统(http://www.vicon.com/)，对贴于人体关节处的marker点的轨迹信息进行捕捉，为了与数据库中的数据保持一致，我们也使用CMU(Carnegie MellonUniversity，卡耐基梅隆大学)的marker点集配置方案(参考http://mocap.cs.cmu.edu/markerPlacementGuide.pdf)。这样可以保证数据库与待处理数据具有相同维度和关节对应关系。

2、解析运动数据文件

这一步为预处理步骤。一般运动数据文件格式包括bvh、trc等。对运动数据文件的解析是将文件中运动数据Y(数据矩阵形式)和其他数据H(包括模型信息、帧数、采样率等)进行区分，以方便后续处理。

3、运动数据字典生成

本步骤对步骤2中抽取的运动数据Y进行处理，通过K-means聚类算法聚为K类，生成初始化的运动数据字典D⁽⁰⁾，其中，K为字典大小。

4、稀疏表达(Sparse Coding)求解

对运动数据中每一帧的信息用步骤3中生成初始化的运动数据字典D⁽⁰⁾进行线性表达，并用Sparse方法(OMP算法)求解运动数据Y的稀疏表达矩阵A，该稀疏表达矩阵A即为运动数据Y的压缩形式。

这一步的求解过程是有损的，但步骤5的优化过程可使得数据重建误差控制在很低的范围内。

5、应用K-SVD优化方法对步骤3生成的初始化的运动数据字典D⁽⁰⁾和步骤4生成的稀疏表达矩阵A进行迭代优化，优化后的运动数据字典D_优化和优化后的稀疏表达矩阵A_优化，减小步骤4带来的数据重建误差。

本步骤基于Sparse理论及其求解方法，并用K-means和K-SVD方法对字典生成过程进行处理和优化，具体如下：

输入：运动数据Y，字典大小K，稀疏表达上限L，循环次数J。

输出：优化后的运动数据字典D_优化，优化后的稀疏表达矩阵A_优化。

初始化：

用K-means算法将运动数据Y聚类为K类，令D⁽⁰⁾为每类中心位置向量的集合。对D⁽⁰⁾做归一化处理。

循环执行下列步骤，循环变量j＝1～J；

(1)用Sparse方法(OMP算法)求解下列方程，计算稀疏表达矩阵A^(j)：

\min_{a_{i}} {| | y_{i} - {Da}_{i} | |}_{2}^{2}, i = 1,2, . . ., n; s . t . {| | x_{i} | |}_{0} \leq L;

其中，a_i为A^(j)的第i列，y_i为Y的第i列。

(2)循环执行下列步骤，循环变量k＝1～K；

(a)定义其中是矩阵A的第k行；

(b)定义Ω_k为一个n×|ω_k|矩阵，其中第(ω_k(i),i)个元素为1，其余均为0；

(c)计算全局误差矩阵

(d)计算全局误差表达矩阵

(e)对进行SVD分解：

(f)更新D^(j)的第k行，

(g)更新A^(j)的参数向量，

返回D_优化＝D^(j)，A_优化＝A^(j)，算法结束。

关于本方法步骤中的参数选取，经过大量实验，得到经验数据如下：L为循环迭代次数，一般取值5；K和L均为Sparse方法约束参数，取值越大压缩精度越高，但压缩率越低，反之亦然。K和L存在相关性，其经验公式为：

L/K＝K/n(L≥2)。

其中，n为运动数据总帧数。

6、后续无损编码压缩

该步骤对步骤2中抽取的其他数据H、步骤5中生成的优化后的运动数据字典D_优化和优化后的稀疏表达矩阵A_优化进行无损数学编码压缩，压缩过程采用Huffman编码，得到最终压缩后的二进制数据文件，压缩过程完成。

对应用本发明的方法压缩后的二进制数据文件进行解压的过程如下：先解码Huffman编码，得到运动数据文件的其他数据、运动数据字典和稀疏表达矩阵。再利用运动数据字典和稀疏表达矩阵计算得到运动数据。最后将解压后的运动数据和原运动数据文件中的其他数据按照运动数据文件格式进行重建，得到重建恢复后的运动数据文件，解压过程完成。

本文提出了一种基于稀疏表达的方法有效解决背景技术中存在的问题。字典的生成只源于运动序列本身，无需额外数据库的支持；而稀疏线性表达和优化方法可保证压缩的有效性。这一轻量级的方法对运动数据的压缩十分有效，尤其适用于短时长的运动序列。

Claims

1.一种面向运动数据的压缩方法，其特征在于，该方法包括如下步骤：

(2)解析运动数据文件：将运动数据文件中的运动数据Y和其他数据H进行区分；所述其他数据H包括模型信息、帧数和采样率；

(3)运动数据字典生成：通过K-means聚类算法将运动数据Y聚为K类，生成初始化的运动数据字典D⁽⁰⁾，其中，K为字典大小；

(4)稀疏表达求解：对运动数据Y中每一帧的信息用步骤(3)中生成的初始化的运动数据字典D⁽⁰⁾进行线性表达，并用Sparse方法求解运动数据Y的稀疏表达矩阵A，该稀疏表达矩阵A即为运动数据Y的压缩形式；

(5)应用K-SVD优化方法对步骤(3)生成的初始化的运动数据字典D⁽⁰⁾和步骤

(4)生成的稀疏表达矩阵A进行迭代优化，得到优化后的运动数据字典D_优化和优化后的稀疏表达矩阵A_优化，减小步骤(4)带来的数据重建误差；

(6)后续无损编码压缩：该步骤对步骤(2)中抽取的其他数据H、步骤(5)中生成的优化后的运动数据字典D_优化和优化后的稀疏表达矩阵A_优化进行Huffman编码压缩，得到最终压缩后的二进制数据文件，压缩过程完成。