CN105224669A

CN105224669A - 一种基于gmm语义特征的运动检索方法

Info

Publication number: CN105224669A
Application number: CN201510653832.8A
Authority: CN
Inventors: 肖俊; 齐天; 张翰之; 庄越挺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2015-10-10
Filing date: 2015-10-10
Publication date: 2016-01-06
Anticipated expiration: 2035-10-10
Also published as: CN105224669B

Abstract

本发明公开了一种基于GMM语义特征的运动检索方法。首先，对训练数据进行关键帧提取，并基于关键帧利用高斯混合模型建立“关键姿态”模型，用来对所有运动数据的姿态计算语义特征。接着，姿态粒度的语义特征通过统计合并生成序列粒度的语义特征，用于运动序列的比较。最后，给定待检索运动序列及其特征，采用了稀疏编码方法代替传统的K近邻方法对数据库进行相似运动检索，按相似度列出检索结果。本方法检索效果准确，计算高效，满足了动画师制作动画时快速检索近似运动的需求。

Description

一种基于GMM语义特征的运动检索方法

技术领域

本发明涉及三维人体运动数据检索技术，高斯混合模型和稀疏编码算法，尤其涉及采用GMM语义特征进行运动检索方法。

背景技术

随着运动捕获技术的发展以及诸如多目摄像机和微软Kinect深度摄像机这样的运动捕获设备的商业化普及，人体运动数据被越来越广泛的应用于多种领域。在最近几年的相关研究中，学者们往往把目光集中在运动数据的应用，而不断增长的运动数据本身却往往被忽略。因此，目前的现状是，动画师在制作动画时会采集或合成大量的人体运动数据，却很少合理的把已有的运动重用到新的电影或游戏制作中去。而造成这种资源浪费的主要原因，正是缺乏这样一种可以有效的从海量数据库中检索运动数据的搜索引擎。

在动画领域中，最常见的数据检索方法是文本标签的检索，例如给定“跳”、“打架”这样的标签，查找数据库中被标为相同标签的运动。尽管这种方式只需要进行简单的文本匹配和检索因而十分高效，但单纯的文本标签无法完整的描述一整段运动，并且对运动数据库的分割和标注需要投入大量的人工成本。近年来流行的一种检索方式是基于手绘草图或轨迹线的检索，通过动画师手工绘制的运动草图来检索数据库得到想要的运动。但是这类方法需要对动画师进行大量的专业技能训练，才能保证手绘图的准确性；此外，不同动画师绘画风格的差异也会对检索结果产生很大影响，这在领域内是一个十分棘手的问题。因此，目前主流的检索均以样本运动作为输入。

我们知道，一段运动中往往存在若干个姿态，它们组合在一起可以表示整段运动，我们称这样的一些姿态为“关键姿态”。不同组“关键姿态”可以描述不同种类的运动，即同类运动可共享同一组“关键姿态”。基于这样的观察结果，我们采用了高斯混合模型(GMM)来对“关键姿态”进行建模，并生成基于这些关键姿态的概率特征来描述一段运动。该特征可在语义层面描述运动，可以在运动检索过程中更容易匹配到近似的运动。

发明内容

本发明的目的是为了解决动画师在制作动画时无法快速准确的检索需要的运动这一问题，提供一种基于GMM语义特征的运动检索方法包括如下步骤：

一种基于GMM语义特征的运动检索方法包括如下步骤：

1)对任意给定的三维人体运动数据集进行类别标注与训练样本集划分,对数据集中全部运动序列中的每个姿态进行旋转、平移对齐处理，使其中心点固定为坐标原点，身体平面前方朝向统一；

2)对数据集中的运动序列提取关键帧，其方法为：对给定运动序列s＝{f₁，f₂，...，f_n}，其中f_i为运动序列中的某一帧，n为运动序列总帧数，先用k-means聚类算法中全部帧进行聚类，根据类别编号对整段运动序列进行分割，同一连续聚类编号的为一段；然后从分割后的每一个子片段中选取最靠近该片段平均位置的一帧作为关键帧，则运动序列的关键帧集合其中为提取的关键帧，n_s为该序列中提取的关键帧总数；

3)假设每个运动类别C_j，j＝1，2，...，m包含L个“关键姿态”，m为运动类别总数，每个关键姿态可用一个正态分布来描述：q_k＝N(μ_k，σ_k)，k＝1，2，...，L，利用高斯混合模型为类别C_j包含的全部关键帧建模，设Θ为高斯混合模型中的参数集合，初始化每个正态分布的权重p(q_k|Θ)＝1/L，则对每个关键帧，其中为C_j包含的关键帧总数，x_i属于q_k的概率为：

p (q_{k} | x_{i}, Θ) = \frac{p (q_{k} | Θ) \cdot p (x_{i} | q_{k}, Θ)}{p (x_{i} | Θ)} - - - (1)

每个正态分布参数组可迭代优化更新如下：

μ_{k}^{(n e w)} = \frac{Σ_{i} x_{i} \cdot p (q_{k} | x_{i}, Θ)}{Σ_{i} p (q_{k} | x_{i}, Θ)} - - - (2)

σ_{k}^{(n e w)} = \frac{Σ_{i} p (q_{k} | x_{i}, Θ) \cdot (x_{i} - μ_{k}^{(n e w)}) \cdot {(x_{i} - μ_{k}^{(n e w)})}^{T}}{Σ_{i} p (q_{k} | x_{i}, Θ)} - - - (3)

p {(q_{k} | e)}^{(n e w)} = \frac{1}{N_{C_{j}}} Σ_{i} p (q_{k} | x_{i}, Θ) - - - (4)

μ_{k} = μ_{k}^{(n e w)}, σ_{k} = σ_{k}^{(n e w)}, p (q_{k} | Θ) = p {(q_{k} | Θ)}^{(n e w)} - - - (5)

迭代重复公式(2)至(5)直到收敛；

4)对给定姿态f，可由步骤3)得到的模型计算出一系列概率值p_jk，j＝1，2，...，m，k＝1，2，...L，表示该姿态属于类别C_j中第k个关键姿态的概率，可由对应的正态分布N(μ_k，σ_k)计算得出，p_jk可拼接为f对应的姿态粒度语义特征：

t＝{p₁₁，...，p_1L，...，p_jk，...，p_mL}(6)

对于一段给定的运动序列s＝{f₁，f₂，...，f_n}，先按公式(6)计算其每一帧f_i的姿态特征t⁽ⁱ⁾，再求平均，得到运动序列特征：

\overset{&OverBar;}{t} = Σ_{i} t^{(i)} / n - - - (7)

5)利用稀疏编码对给定运动序列特征进行重建，得到选择向量：

v = \arg \min | D v - \overset{&OverBar;}{t} | |_{2}^{2} + λ | | v | |_{1} - - - (8)

其中，λ为正则化参数，D是一个d×N的字典矩阵，包含了数据库中所有运动序列

特征；d表示特征的维数，N为数据库中运动序列的个数，公式(8)可用l1-ls算法求解；

6)取选择向量v中最大的K个系数，K为需要返回的相似运动段数，其所对应的运动序列为重建过程中贡献度最大的运动，也即作为最终检索结果。

本发明所提出的方法与传统运动检索方法相比，具有以下优势：

1.提取的特征为基于GMM的语义特征，可以对运动序列在“关键姿态”层面进行统计概率上的语义描述，在相似度匹配过程中可以获得更好的效果。

2.检索方法用稀疏编码(SparseCoding)代替传统的K近邻方法，以稀疏重建的思想进行检索，按重建系数大小进行相似度排序，使检索结果更加准确。

附图说明

图1是提取关键帧步骤示意图。

具体实施方式

如图1所示，一种基于GMM语义特征的运动检索方法包括如下步骤：

3)假设每个运动类别C_j，j＝1，2，...，m包含L个“关键姿态”，m为运动类别总数，每个关键姿态可用一个正态分布来描述：q_k＝N(μ_k，σ_k)，k＝1，2，...，L利用高斯混合模型为类别C_j包含的全部关键帧建模，设Θ为高斯混合模型中的参数集合，初始化每个正态分布的权重p(q_k|Θ)＝1/L，则对每个关键帧其中为C_j包含的关键帧总数，x_i属于q_k的概率为：

p (q_{k} | x_{i}, Θ) = \frac{p (q_{k} | Θ) \cdot p (x_{i} | q_{k}, Θ)}{p (x_{i} | Θ)} - - - (1)

每个正态分布参数组可迭代优化更新如下：

μ_{k}^{(n e w)} = \frac{Σ_{i} x_{i} \cdot p (q_{k} | x_{i}, Θ)}{Σ_{i} p (q_{k} | x_{i}, Θ)} - - - (2)

σ_{k}^{(n e w)} = \frac{Σ_{i} p (q_{k} | x_{i}, Θ) \cdot (x_{i} - μ_{k}^{(n e w)}) \cdot {(x_{i} - μ_{k}^{(n e w)})}^{T}}{Σ_{i} p (q_{k} | x_{i}, Θ)} - - - (3)

p {(q_{k} | e)}^{(n e w)} = \frac{1}{N_{C_{j}}} Σ_{i} p (q_{k} | x_{i}, Θ) - - - (4)

μ_{k} = μ_{k}^{(n e w)}, σ_{k} = σ_{k}^{(n e w)}, p (q_{k} | Θ) = p {(q_{k} | Θ)}^{(n e w)} - - - (5)

迭代重复公式(2)至(5)直到收敛；

t＝{p₁₁，...，p_1L，...，p_jk，...，p_mL}(6)

\overset{&OverBar;}{t} = Σ_{i} t^{(i)} / n - - - (7)

v = \arg \min | D v - \overset{&OverBar;}{t} | |_{2}^{2} + λ | | v | |_{1} - - - (8)

Claims

1.一种基于GMM语义特征的运动检索方法，其特征在于包括如下步骤：

3)假设每个运动类别C_j，j＝1，2，...，m包含L个“关键姿态”，m为运动类别总数，每个关键姿态可用一个正态分布来描述：q_k＝N(μ_k，σ_k)，k＝1，2，...，L，利用高斯混合模型为类别C_j包含的全部关键帧建模，设Θ为高斯混合模型中的参数集合，初始化每个正态分布的权重p(q_k|Θ)＝1/L，则对每个关键帧其中为C_j包含的关键帧总数，x_i属于q_k的概率为：

p (q_{k} | x_{i}, Θ) = \frac{p (q_{k} | Θ) \cdot p (x_{i} | q_{k}, Θ)}{p (x_{i} | Θ)} - - - (1)

每个正态分布参数组可迭代优化更新如下：

μ_{k}^{(n e w)} = \frac{Σ_{i} x_{i} \cdot p (q_{k} | x_{i}, Θ)}{Σ_{i} p (q_{k} | x_{i}, Θ)} - - - (2)

σ_{k}^{(n e w)} = \frac{Σ_{i} p (q_{k} | x_{i}, Θ) \cdot (x_{i} - μ_{k}^{(n e w)}) \cdot {(x_{i} - μ_{k}^{(n e w)})}^{T}}{Σ_{i} p (q_{k} | x_{i}, Θ)} - - - (3)

p {(q_{k} | Θ)}^{(n e w)} = \frac{1}{N_{c j}} Σ_{i} p (q_{k} | x_{i}, Θ) - - - (4)

μ_{k} = μ_{k}^{(n e w)}, σ_{k} = σ_{k}^{(n e w)}, p (q_{k} | Θ) = p {(q_{k} | Θ)}^{(n e w)} - - - (5)

迭代重复公式(2)至(5)直到收敛；

t＝{p₁₁，...，p_1L，...，p_jk，...，p_mL}(6)

\overset{&OverBar;}{t} = Σ_{i} t^{(i)} / n - - - (7)

v = \arg \min | | D v - \overset{&OverBar;}{t} | |_{2}^{2} + λ | | v | |_{1} - - - (8)

其中，λ为正则化参数，D是一个d×N的字典矩阵，包含了数据库中所有运动序列特征；d表示特征的维数，N为数据库中运动序列的个数，公式(8)可用l1-ls算法求解；