CN105224669B - 一种基于gmm语义特征的运动检索方法 - Google Patents

一种基于gmm语义特征的运动检索方法 Download PDF

Info

Publication number
CN105224669B
CN105224669B CN201510653832.8A CN201510653832A CN105224669B CN 105224669 B CN105224669 B CN 105224669B CN 201510653832 A CN201510653832 A CN 201510653832A CN 105224669 B CN105224669 B CN 105224669B
Authority
CN
China
Prior art keywords
motion sequence
motion
key
feature
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510653832.8A
Other languages
English (en)
Other versions
CN105224669A (zh
Inventor
肖俊
齐天
张翰之
庄越挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201510653832.8A priority Critical patent/CN105224669B/zh
Publication of CN105224669A publication Critical patent/CN105224669A/zh
Application granted granted Critical
Publication of CN105224669B publication Critical patent/CN105224669B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people

Abstract

本发明公开了一种基于GMM语义特征的运动检索方法。首先,对训练数据进行关键帧提取,并基于关键帧利用高斯混合模型建立“关键姿态”模型,用来对所有运动数据的姿态计算语义特征。接着,姿态粒度的语义特征通过统计合并生成序列粒度的语义特征,用于运动序列的比较。最后,给定待检索运动序列及其特征,采用了稀疏编码方法代替传统的K近邻方法对数据库进行相似运动检索,按相似度列出检索结果。本方法检索效果准确,计算高效,满足了动画师制作动画时快速检索近似运动的需求。

Description

一种基于GMM语义特征的运动检索方法
技术领域
本发明涉及三维人体运动数据检索技术,高斯混合模型和稀疏编码算法,尤其涉及采用GMM语义特征进行运动检索方法。
背景技术
随着运动捕获技术的发展以及诸如多目摄像机和微软Kinect深度摄像机这样的运动捕获设备的商业化普及,人体运动数据被越来越广泛的应用于多种领域。在最近几年的相关研究中,学者们往往把目光集中在运动数据的应用,而不断增长的运动数据本身却往往被忽略。因此,目前的现状是,动画师在制作动画时会采集或合成大量的人体运动数据,却很少合理的把已有的运动重用到新的电影或游戏制作中去。而造成这种资源浪费的主要原因,正是缺乏这样一种可以有效的从海量数据库中检索运动数据的搜索引擎。
在动画领域中,最常见的数据检索方法是文本标签的检索,例如给定“跳”、“打架”这样的标签,查找数据库中被标为相同标签的运动。尽管这种方式只需要进行简单的文本匹配和检索因而十分高效,但单纯的文本标签无法完整的描述一整段运动,并且对运动数据库的分割和标注需要投入大量的人工成本。近年来流行的一种检索方式是基于手绘草图或轨迹线的检索,通过动画师手工绘制的运动草图来检索数据库得到想要的运动。但是这类方法需要对动画师进行大量的专业技能训练,才能保证手绘图的准确性;此外,不同动画师绘画风格的差异也会对检索结果产生很大影响,这在领域内是一个十分棘手的问题。因此,目前主流的检索均以样本运动作为输入。
我们知道,一段运动中往往存在若干个姿态,它们组合在一起可以表示整段运动,我们称这样的一些姿态为“关键姿态”。不同组“关键姿态”可以描述不同种类的运动,即同类运动可共享同一组“关键姿态”。基于这样的观察结果,我们采用了高斯混合模型(GMM)来对“关键姿态”进行建模,并生成基于这些关键姿态的概率特征来描述一段运动。该特征可在语义层面描述运动,可以在运动检索过程中更容易匹配到近似的运动。
发明内容
本发明的目的是为了解决动画师在制作动画时无法快速准确的检索需要的运动这一问题,提供一种基于GMM语义特征的运动检索方法包括如下步骤:
一种基于GMM语义特征的运动检索方法包括如下步骤:
1)对任意给定的三维人体运动数据集进行类别标注与训练样本集划分,对数据集中全部运动序列中的每个姿态进行旋转、平移对齐处理,使其中心点固定为坐标原点,身体平面前方朝向统一;
2)对数据集中的运动序列提取关键帧,其方法为:对给定运动序列s={f1,f2,...,fn},其中fi为运动序列中的某一帧,n为运动序列总帧数,先用k-means聚类算法中全部帧进行聚类,根据类别编号对整段运动序列进行分割,同一连续聚类编号的为一段;然后从分割后的每一个子片段中选取最靠近该片段平均位置的一帧作为关键帧,则运动序列的关键帧集合其中为提取的关键帧,ns为该序列中提取的关键帧总数;
3)假设每个运动类别Cj,j=1,2,...,m包含L个“关键姿态”,m为运动类别总数,每个关键姿态可用一个正态分布来描述:qk=N(μk,σk),k=1,2,...,L,利用高斯混合模型为类别Cj包含的全部关键帧建模,设Θ为高斯混合模型中的参数集合,初始化每个正态分布的权重p(qk|Θ)=1/L,则对每个关键帧,其中为Cj包含的关键帧总数,xi属于qk的概率为:
每个正态分布参数组可迭代优化更新如下:
迭代重复公式(2)至(5)直到收敛;
4)对给定姿态f,可由步骤3)得到的模型计算出一系列概率值pjk,j=1,2,...,m,k=1,2,...L,表示该姿态属于类别Cj中第k个关键姿态的概率,可由对应的正态分布N(μk,σk)计算得出,pjk可拼接为f对应的姿态粒度语义特征:
t={p11,...,p1L,...,pjk,...,pmL} (6)
对于一段给定的运动序列s={f1,f2,...,fn},先按公式(6)计算其每一帧fi的姿态特征t(i),再求平均,得到运动序列特征:
5)利用稀疏编码对给定运动序列特征进行重建,得到选择向量:
其中,λ为正则化参数,D是一个d×N的字典矩阵,包含了数据库中所有运动序列
特征;d表示特征的维数,N为数据库中运动序列的个数,公式(8)可用l1-ls算法求解;
6)取选择向量v中最大的K个系数,K为需要返回的相似运动段数,其所对应的运动序列为重建过程中贡献度最大的运动,也即作为最终检索结果。
本发明所提出的方法与传统运动检索方法相比,具有以下优势:
1.提取的特征为基于GMM的语义特征,可以对运动序列在“关键姿态”层面进行统计概率上的语义描述,在相似度匹配过程中可以获得更好的效果。
2.检索方法用稀疏编码(Sparse Coding)代替传统的K近邻方法,以稀疏重建的思想进行检索,按重建系数大小进行相似度排序,使检索结果更加准确。
附图说明
图1是提取关键帧步骤示意图。
具体实施方式
如图1所示,一种基于GMM语义特征的运动检索方法包括如下步骤:
1)对任意给定的三维人体运动数据集进行类别标注与训练样本集划分,对数据集中全部运动序列中的每个姿态进行旋转、平移对齐处理,使其中心点固定为坐标原点,身体平面前方朝向统一;
2)对数据集中的运动序列提取关键帧,其方法为:对给定运动序列s={f1,f2,...,fn},其中fi为运动序列中的某一帧,n为运动序列总帧数,先用k-means聚类算法中全部帧进行聚类,根据类别编号对整段运动序列进行分割,同一连续聚类编号的为一段;然后从分割后的每一个子片段中选取最靠近该片段平均位置的一帧作为关键帧,则运动序列的关键帧集合其中为提取的关键帧,ns为该序列中提取的关键帧总数;
3)假设每个运动类别Cj,j=1,2,...,m包含L个“关键姿态”,m为运动类别总数,每个关键姿态可用一个正态分布来描述:qk=N(μk,σk),k=1,2,...,L利用高斯混合模型为类别Cj包含的全部关键帧建模,设Θ为高斯混合模型中的参数集合,初始化每个正态分布的权重p(qk|Θ)=1/L,则对每个关键帧其中为Cj包含的关键帧总数,xi属于qk的概率为:
每个正态分布参数组可迭代优化更新如下:
迭代重复公式(2)至(5)直到收敛;
4)对给定姿态f,可由步骤3)得到的模型计算出一系列概率值pjk,j=1,2,...,m,k=1,2,...L,表示该姿态属于类别Cj中第k个关键姿态的概率,可由对应的正态分布N(μk,σk)计算得出,pjk可拼接为f对应的姿态粒度语义特征:
t={p11,...,p1L,...,pjk,...,pmL} (6)
对于一段给定的运动序列s={f1,f2,...,fn},先按公式(6)计算其每一帧fi的姿态特征t(i),再求平均,得到运动序列特征:
5)利用稀疏编码对给定运动序列特征进行重建,得到选择向量:
其中,λ为正则化参数,D是一个d×N的字典矩阵,包含了数据库中所有运动序列
特征;d表示特征的维数,N为数据库中运动序列的个数,公式(8)可用l1-ls算法求解;
6)取选择向量v中最大的K个系数,K为需要返回的相似运动段数,其所对应的运动序列为重建过程中贡献度最大的运动,也即作为最终检索结果。

Claims (1)

1.一种基于GMM语义特征的运动检索方法,其特征在于包括如下步骤:
1)对任意给定的三维人体运动数据集进行类别标注与训练样本集划分,对数据集中全部运动序列中的每个姿态进行旋转、平移对齐处理,使其中心点固定为坐标原点,身体平面前方朝向统一;
2)对数据集中的运动序列提取关键帧,其方法为:对给定运动序列s={f1,f2,...,fn},其中fi为运动序列中的某一帧,n为运动序列总帧数,先用k-means聚类算法中全部帧进行聚类,根据类别编号对整段运动序列进行分割,同一连续聚类编号的为一段;然后从分割后的每一个子片段中选取最靠近该片段平均位置的一帧作为关键帧,则运动序列的关键帧集合其中为提取的关键帧,ns为该序列中提取的关键帧总数;
3)假设每个运动类别Cj,j=1,2,...,m包含L个“关键姿态”,m为运动类别总数,每个关键姿态可用一个正态分布来描述:qk=N(μk,σk),k=1,2,...,L,利用高斯混合模型为类别Cj包含的全部关键帧建模,设Θ为高斯混合模型中的参数集合,初始化每个正态分布的权重p(qk|Θ)=1/L,则对每个关键帧其中为Cj包含的关键帧总数,xi属于qk的概率为:
每个正态分布参数组可迭代优化更新如下:
迭代重复公式(1)至(5)直到收敛;
4)对给定姿态f,可由步骤3)得到的模型计算出一系列概率值pjk,j=1,2,...,m,k=1,2,...L,表示该姿态属于类别Cj中第k个关键姿态的概率,可由对应的正态分布N(μk,σk)计算得出,pjk可拼接为f对应的姿态粒度语义特征:
t={p11,...,p1L,...,pjk,...,pmL} (6)
对于一段给定的运动序列s={f1,f2,...,fn},先按公式(6)计算其每一帧fi的姿态特征t(i),再求平均,得到运动序列特征:
5)利用稀疏编码对给定运动序列特征进行重建,得到选择向量:
其中,λ为正则化参数,D是一个d×N的字典矩阵,包含了数据库中所有运动序列特征;d表示特征的维数,N为数据库中运动序列的个数,公式(8)可用l1-ls算法求解;
6)取选择向量v中最大的K个系数,K为需要返回的相似运动段数,其所对应的运动序列为重建过程中贡献度最大的运动,也即作为最终检索结果。
CN201510653832.8A 2015-10-10 2015-10-10 一种基于gmm语义特征的运动检索方法 Active CN105224669B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510653832.8A CN105224669B (zh) 2015-10-10 2015-10-10 一种基于gmm语义特征的运动检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510653832.8A CN105224669B (zh) 2015-10-10 2015-10-10 一种基于gmm语义特征的运动检索方法

Publications (2)

Publication Number Publication Date
CN105224669A CN105224669A (zh) 2016-01-06
CN105224669B true CN105224669B (zh) 2018-11-30

Family

ID=54993637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510653832.8A Active CN105224669B (zh) 2015-10-10 2015-10-10 一种基于gmm语义特征的运动检索方法

Country Status (1)

Country Link
CN (1) CN105224669B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528586A (zh) * 2016-05-13 2017-03-22 上海理工大学 一种人体行为视频识别方法
CN108363724B (zh) * 2018-01-04 2021-12-10 浙江大学 一种利用图像正则化及数据重建解决特征提取任务的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1967525A (zh) * 2006-09-14 2007-05-23 浙江大学 三维人体运动数据关键帧提取方法
CN1997114A (zh) * 2006-09-14 2007-07-11 浙江大学 一种基于轮廓时空特征的视频对象标注方法
CN101216949A (zh) * 2008-01-14 2008-07-09 浙江大学 一种基于区域分割和分段学习的三维人脸动画制作的方法
CN101276370A (zh) * 2008-01-14 2008-10-01 浙江大学 基于关键帧的三维人体运动数据检索方法
CN103023510A (zh) * 2012-11-16 2013-04-03 浙江大学 一种基于稀疏表达的运动数据压缩方法
CN104156980A (zh) * 2014-07-26 2014-11-19 佳都新太科技股份有限公司 一种基于颜色和区域协方差矩阵的运动目标检索方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1967525A (zh) * 2006-09-14 2007-05-23 浙江大学 三维人体运动数据关键帧提取方法
CN1997114A (zh) * 2006-09-14 2007-07-11 浙江大学 一种基于轮廓时空特征的视频对象标注方法
CN101216949A (zh) * 2008-01-14 2008-07-09 浙江大学 一种基于区域分割和分段学习的三维人脸动画制作的方法
CN101276370A (zh) * 2008-01-14 2008-10-01 浙江大学 基于关键帧的三维人体运动数据检索方法
CN103023510A (zh) * 2012-11-16 2013-04-03 浙江大学 一种基于稀疏表达的运动数据压缩方法
CN104156980A (zh) * 2014-07-26 2014-11-19 佳都新太科技股份有限公司 一种基于颜色和区域协方差矩阵的运动目标检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
a human motion feature based on semi-supervised learning og GMM;齐天等;《multimedia systems》;20141231;正文第85-92页 *
human motion retrieval based on freehand sketch;肖俊等;《computer animation and virtual worlds》;20141231;正文第273-279页 *

Also Published As

Publication number Publication date
CN105224669A (zh) 2016-01-06

Similar Documents

Publication Publication Date Title
CN103390063B (zh) 一种基于蚁群算法和概率超图的相关反馈图像检索方法
CN103207910B (zh) 基于分层特征和遗传规划相关反馈的图像检索方法
CN108764308A (zh) 一种基于卷积循环网络的行人重识别方法
CN105354593B (zh) 一种基于nmf的三维模型分类方法
CN110070116B (zh) 基于深度树状训练策略的分段式选择集成图像分类方法
CN108062421A (zh) 一种大规模图片多尺度语义检索方法
CN110866134B (zh) 一种面向图像检索的分布一致性保持度量学习方法
CN104461000B (zh) 一种基于少量缺失信号的在线连续人体运动识别方法
CN105912991A (zh) 基于3d点云与关键骨骼节点的行为识别
CN107730542A (zh) 锥束计算机断层扫描图像对应与配准方法
CN110210462A (zh) 一种基于卷积神经网络的仿生海马认知地图构建方法
Chi et al. Two-stream video classification with cross-modality attention
CN107316005A (zh) 基于稠密轨迹核协方差描述子的行为识别方法
CN113688894A (zh) 一种融合多粒度特征的细粒度图像分类方法
CN105224669B (zh) 一种基于gmm语义特征的运动检索方法
Martin et al. 3D attention mechanism for fine-grained classification of table tennis strokes using a Twin Spatio-Temporal Convolutional Neural Networks
Chen et al. Learning to focus: cascaded feature matching network for few-shot image recognition
Hu et al. Beyond one-to-one: Rethinking the referring image segmentation
Pang et al. Analysis of computer vision applied in martial arts
CN103778439B (zh) 基于动态时空信息挖掘的人体轮廓重构方法
CN107220597B (zh) 一种基于局部特征和词袋模型人体动作识别过程的关键帧选取方法
Peng et al. Attention-guided fusion network of point cloud and multiple views for 3D shape recognition
CN104700439B (zh) 基于单张目标画像的人脸画像合成方法
CN107045520A (zh) 一种基于位置信息加权词汇树的车辆图像检索方法
CN109857886A (zh) 一种基于极小极大值博弈理论视图逼近的三维模型检索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant