CN105741323A - 一种基于单目视频的人体骨架跟踪方法 - Google Patents

一种基于单目视频的人体骨架跟踪方法 Download PDF

Info

Publication number
CN105741323A
CN105741323A CN201610078307.2A CN201610078307A CN105741323A CN 105741323 A CN105741323 A CN 105741323A CN 201610078307 A CN201610078307 A CN 201610078307A CN 105741323 A CN105741323 A CN 105741323A
Authority
CN
China
Prior art keywords
skeleton
frame
outline
monocular video
next frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610078307.2A
Other languages
English (en)
Inventor
童若锋
聂迎
陈可立
李承扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201610078307.2A priority Critical patent/CN105741323A/zh
Publication of CN105741323A publication Critical patent/CN105741323A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • G06T2207/10021Stereoscopic video; Stereoscopic image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于单目视频的人体骨架跟踪方法。该方法包含如下步骤:在训练阶段:a.定义特征描述符:利用基于距离的方法量化剪影与初始骨架的差异;b.特征提取和分类:通过基于相关性的random fern方法提取出与回归目标有最大相关性的特征并分类,得到决定当前阶段骨架调整幅度的回归子;c.骨架调整:根据加法模型调整骨架适当的次数并输出级联回归子。在测试阶段:a.输入单目视频首帧的剪影和初始化骨架;b.根据训练得到的级联回归子逐步调整初始化骨架至最终骨架;c.在数据库中搜索与当前帧预测骨架最相似的五个骨架分别进行回归,取回归的均值骨架作为下一帧的初始化骨架进行下一帧的骨架预测。本方法可有效实时地实现骨架的跟踪,并避免跟踪过程中出现的误差积累现象。

Description

一种基于单目视频的人体骨架跟踪方法
技术领域
本发明属于计算机视觉领域,特别涉及到一种基于单目视频的人体骨架跟踪方法。
背景技术
三维人体骨架跟踪是当前计算机视觉领域的研究热点,广泛应用于视频监控、人机交互、行为理解、智能动画合成、虚拟现实等领域,具有广泛的应用前景。对它的研究涉及计算机视觉、计算机图形学、机器学习、图像处理及人工智能等学科领域,是一个跨学科的挑战性研究课题。
骨架跟踪的定义是“estimatinghumanposesfromframetoframe,trackingisusedtoensuretemporalcoherencebetweenposesovertime”。骨架重建的定义是“estimatinghumanposesfromimages”。骨架重建是骨架跟踪的基础,在一些基于学习的方法中,好的骨架重建方法是骨架跟踪的保障(骨架重建方法用于第一帧图像的骨架初始化)。相比较而言,已有的工作更多强调于骨架重建。根据是否预先构建人体模型可将方法分为两类:Model-free和Model-based.Model-free方法不需要预先定义人体模型,而是直接建立图像序列与人体姿态的联系。主要包含两种方法:learning-based和example-based。在基于学习的方法中,根据训练数据学习从视频序列到人体姿态的映射函数,实现实时的骨架跟踪。基于样本的方法首先构造包含姿态样本和对应图像的集合,定义“matchingindexesbetweentheposedescriptionsandtheimagedescriptions”,对于一个输入的图像,根据匹配系数寻找候选的姿态样本并进行插值处理形成最终的估计姿态。Model-based方法首先构建人体模型,包含人体形状和运动结构的精确几何表示,通过优化模型投影和视频序列的相似性来估计人体的姿态。可以分为Top-down和Bottom-up两种,Top-down是根据视频序列直接得到完整人体模型,Bottom-up是先定位人体各部位,再将各部位组合起来得到完整人体模型。
发明内容
本发明需要解决的技术问题是针对现有骨架跟踪技术严重依赖图像深度信息、难以满足实时性等问题,提出一种基于单目视频的骨架跟踪方法。该方法先在所构建的包含剪影和真实骨架的人体姿态数据库上采用回归算法进行训练,根据加法模型得到级联回归子以决定初始化骨架的调整幅度。在测试过程中,我们输入单目视频第一帧所对应的剪影和初始化骨架,利用训练得到的级联回归子逐步调整骨架,并以此为基础计算下一帧的初始化骨架,实现对单目视频人体骨架的跟踪。
为了实现本发明的目的,我们依靠以下技术方案来实现:
在训练阶段:
a.定义特征描述符:利用基于距离的方法量化剪影与初始骨架的差异;
b.特征提取和分类:通过基于相关性的randomfern方法提取出与回归目标有最大相关性的特征并分类,得到决定当前阶段骨架调整幅度的回归子;
c.骨架调整:根据加法模型调整骨架适当的次数并输出级联回归子。
在测试阶段:
d.输入单目视频首帧的剪影和初始化骨架;
e.根据训练得到的级联回归子逐步调整初始化骨架至最终骨架;
f.在数据库中搜索与当前帧预测骨架最相似的五个骨架分别进行回归,取回归的均值骨架作为下一帧的初始化骨架进行下一帧的骨架预测。
本发明的有益效果为:本方法可以基于传统的不含深度信息的单目视频实时地进行人体骨架的跟踪。本方法通过定义一种高保真的特征描述符,并采用基于相关性的randomfern方法提取与回归目标有最大相关性的特征并分类,在所构建的包含剪影和骨架的数据库中训练得到从剪影和初始化骨架到真实骨架的映射级联回归子。在测试时,只要输入单目视频首帧的剪影和初始化骨架,即可自动实时地实现对人体骨架的跟踪。总的来说,本方法为低成本、实时地跟踪人体骨架提供了一个全新的解决方案。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明:
图1为在姿态数据库中采用回归的方法进行训练的过程流程图
图2为基于单目视频进行测试的过程流程图
图3为跟踪误差统计直方图
图4第100帧视频对应的预测骨架、真实骨架和数据库中对应的5个相似骨架对比图
图5第4000帧视频对应的预测骨架、真实骨架和数据库中对应的5个相似骨架对比图
具体实施方式
参照图1,表示利用所构建的姿态数据库采用回归的方法进行训练的过程流程图,图中表示的步骤为:
a.定义特征描述符:利用基于距离的方法量化剪影与初始骨架的差异,以初始骨架关节点的二维投影点作为原点发出射线,直到与剪影轮廓线相交或超出图像范围为止,取射线的长度作为特征值。此外,当二维投影点在剪影内时,其特征值为正值,反之则为负值。具体计算公式为:
f ( o r i g i n ) = d i s i f o r i g i n i s i n s i d e o f c o n t o u r - d i s i f o r i g i n i s o u t s i d e o f c o n t o u r - - - ( 1 )
b1.将真实骨架与初始化骨架的差值随机投影到某个方向上产生一个常量,根据Johnson-Lindenstrauss引理可知,该方法是一种有效的降维方法,即如果高维空间中的点被随机投影到低维空间上,那么这些点的相似性会被近似保留。
b2.计算皮尔逊相关系数并选取与该常量具有最大相关性的一对特征的索引。具体计算
公式为:
ρ X , Y = cov ( X , Y ) σ X σ Y = E ( ( X - μ X ) ( Y - μ Y ) ) σ X σ Y = E ( X Y ) - E ( X ) E ( Y ) E ( X 2 ) - E 2 ( X ) E ( Y 2 ) - E 2 ( Y ) - - - ( 2 )
即:
ρ X , Y = Σ X Y - Σ X Σ Y N ( ΣX 2 - ( Σ X ) 2 N ) ( ΣY 2 - ( Σ Y ) 2 N ) - - - ( 3 )
其中X为特征空间,Y为真实骨架与初始化骨架的差异常量空间。为简化运算量,令X=A-B,公式(2)可变形为:
ρ A - B , Y = cov ( A , Y ) - cov ( B , Y ) [ δ A 2 + δ B 2 - 2 cov ( A , B ) ] δ Y 2 - - - ( 4 )
b3.遍历所有训练样本确定具有b2中所确定的索引特征的最大值和最小值,在最大值和最小值之间随机取一值作为临界值,并基于该临界值划分特征空间。
b4.根据所有特征索引和临界值划分训练样本,并计算每块样本空间的真实骨架与初始化骨架的残差均值作为一个调整骨架幅度的回归子。具体计算公式为:
δT b = 1 1 + β / | Ω b | Σ i ∈ Ω b ( T i - T i j ) | Ω b | - - - ( 5 )
其中,|Ωb|为在b块中的训练样本数量,β是一个为了避免过拟合现象而设置的自由伸缩参数。
c1.根据加法模型和b4中得到的回归子逐步调整骨架,具体公式为:Ti j=Ti j+δTb(6)
直至与真实骨架之间的差异小于预设的阈值或者调整步骤达到预设的步骤。
c2.输出级联回归子,级联回归子决定了初始骨架到真实骨架逐步调整的幅度和次数。
参照图2,表示本发明基于单目视频进行测试的过程流程图。图中表示的步骤为:
a.根据视频得到首帧的剪影,由kinect得到视频第一帧的初始化骨架。
b.根据训练所得到的级联回归子逐步调整初始化骨架,输出当前帧的预测骨架。
c.在数据库中利用快速排序算法搜索与当前帧预测骨架最相似的五个骨架分别进行回归,取回归的均值骨架作为下一帧的初始化骨架并结合下一帧的剪影进行下一帧的人体骨架预测,直至视频结束。
采用本方法进行训练之后,在包含有4500帧的单目视频进行人体骨架跟踪,平均每帧的测试时间为19.43ms,显然可以满足实时性要求。所有关节点最大误差和为2.1147m,最小误差为0m,平均误差为0.2102m,得到的跟踪误差统计直方图如图3所示,第100帧视频和第4000帧视频对应的预测骨架、真实骨架和数据库中对应的5个相似骨架对比图分别为图4和图5所示。

Claims (3)

1.一种基于单目视频的人体骨架跟踪方法,其特征在于:该方法包含如下步骤:
在训练阶段:
a.定义特征描述符:为了量化剪影与初始骨架的差异,利用基于距离的方法最大程度量化这种差异;
b.特征提取和分类:通过基于相关性的randomfern方法提取出与回归目标有最大相关性的特征并分类,得到决定当前阶段骨架调整幅度的回归子;
c.骨架调整:根据加法模型调整骨架适当的次数并输出级联回归子;
在测试阶段:
d.输入单目视频首帧的剪影和初始化骨架;
e.根据训练得到的级联回归子逐步调整初始化骨架至最终骨架;
f.在数据库中搜索与当前帧预测骨架最相似的五个骨架分别进行回归,取回归的均值骨架作为下一帧的初始化骨架进行下一帧的骨架预测。
2.根据权利要求1所述的基于单目视频的人体骨架跟踪方法,其特征在于:利用基于距离的方法量化剪影与初始骨架的差异,以初始骨架关节点的二维投影点作为原点发出射线,直到与剪影轮廓线相交或超出图像范围为止,取射线的长度及投影点是否在剪影内决定的正负号作为其特征值。
3.根据权利要求1所述的基于单目视频的人体骨架跟踪方法,其特征在于:为了避免误差积累现象,在测试的初始化过程中不是简单地将当前帧的预测骨架作为下一帧的初始化骨架,而是在数据库中搜索与当前帧预测骨架最相似的五个骨架分别进行回归,取回归的均值骨架作为下一帧的初始化骨架进行下一帧的骨架预测。
CN201610078307.2A 2016-02-03 2016-02-03 一种基于单目视频的人体骨架跟踪方法 Pending CN105741323A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610078307.2A CN105741323A (zh) 2016-02-03 2016-02-03 一种基于单目视频的人体骨架跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610078307.2A CN105741323A (zh) 2016-02-03 2016-02-03 一种基于单目视频的人体骨架跟踪方法

Publications (1)

Publication Number Publication Date
CN105741323A true CN105741323A (zh) 2016-07-06

Family

ID=56244955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610078307.2A Pending CN105741323A (zh) 2016-02-03 2016-02-03 一种基于单目视频的人体骨架跟踪方法

Country Status (1)

Country Link
CN (1) CN105741323A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644201A (zh) * 2017-08-31 2018-01-30 成都通甲优博科技有限责任公司 一种基于随机森林的骨架线提取方法及其装置
CN113159007A (zh) * 2021-06-24 2021-07-23 之江实验室 一种基于自适应图卷积的步态情感识别方法
WO2022226724A1 (en) * 2021-04-26 2022-11-03 Intel Corporation Method and system of image processing with multi-skeleton tracking

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102074034A (zh) * 2011-01-06 2011-05-25 西安电子科技大学 多模型人体运动跟踪方法
US20110234589A1 (en) * 2009-10-07 2011-09-29 Microsoft Corporation Systems and methods for tracking a model
CN102402288A (zh) * 2010-09-07 2012-04-04 微软公司 用于快速且概率性的骨架跟踪的系统
CN102591456A (zh) * 2010-12-20 2012-07-18 微软公司 对身体和道具的检测
CN102693413A (zh) * 2011-02-18 2012-09-26 微软公司 运动识别

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110234589A1 (en) * 2009-10-07 2011-09-29 Microsoft Corporation Systems and methods for tracking a model
CN102402288A (zh) * 2010-09-07 2012-04-04 微软公司 用于快速且概率性的骨架跟踪的系统
CN102591456A (zh) * 2010-12-20 2012-07-18 微软公司 对身体和道具的检测
CN102074034A (zh) * 2011-01-06 2011-05-25 西安电子科技大学 多模型人体运动跟踪方法
CN102693413A (zh) * 2011-02-18 2012-09-26 微软公司 运动识别

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ABHISHEK KAR: "Skeletal tracking using microsoft kinect", 《METHODOLOGY》 *
李恒: "基于Kinect骨骼跟踪功能的骨骼识别系统研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644201A (zh) * 2017-08-31 2018-01-30 成都通甲优博科技有限责任公司 一种基于随机森林的骨架线提取方法及其装置
CN107644201B (zh) * 2017-08-31 2021-02-26 成都通甲优博科技有限责任公司 一种基于随机森林的骨架线提取方法及其装置
WO2022226724A1 (en) * 2021-04-26 2022-11-03 Intel Corporation Method and system of image processing with multi-skeleton tracking
CN113159007A (zh) * 2021-06-24 2021-07-23 之江实验室 一种基于自适应图卷积的步态情感识别方法

Similar Documents

Publication Publication Date Title
CN106649542B (zh) 用于视觉问答的系统和方法
CN108537269B (zh) 一种弱交互式的物体检测深度学习方法及其系统
CN106778796B (zh) 基于混合式协同训练的人体动作识别方法及系统
Badrinarayanan et al. Semi-supervised video segmentation using tree structured graphical models
CN104680559B (zh) 基于运动行为模式的多视角室内行人跟踪方法
Wang et al. Sparse observation (so) alignment for sign language recognition
CN107944443A (zh) 一种基于端到端深度学习进行对象一致性检测方法
CN104200203B (zh) 一种基于动作字典学习的人体动作检测方法
CN105809672A (zh) 一种基于超像素和结构化约束的图像多目标协同分割方法
CN104408760A (zh) 一种基于双目视觉的高精度虚拟装配系统算法
CN116524593A (zh) 一种动态手势识别方法、系统、设备及介质
Kang et al. Robust visual tracking via nonlocal regularized multi-view sparse representation
CN104616005A (zh) 一种领域自适应的人脸表情分析方法
Zhao et al. BiTNet: a lightweight object detection network for real-time classroom behavior recognition with transformer and bi-directional pyramid network
CN103093211B (zh) 基于深度核信息图像特征的人体运动跟踪方法
CN105741323A (zh) 一种基于单目视频的人体骨架跟踪方法
CN107330363B (zh) 一种快速的互联网广告牌检测方法
CN112507904A (zh) 一种基于多尺度特征的教室人体姿态实时检测方法
Ionescu et al. Structural SVM for visual localization and continuous state estimation
Yang et al. Robust visual tracking via multi-graph ranking
Yuan et al. Research on simulation of 3D human animation vision technology based on an enhanced machine learning algorithm
CN106503647A (zh) 基于低秩逼近结构化稀疏表示的异常事件检测方法
CN103839280A (zh) 一种基于视觉信息的人体姿态跟踪方法
CN105335703A (zh) 基于运动重构技术的交通场景异常检测方法
CN102663369B (zh) 基于surf高效匹配核的人体运动跟踪方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160706

RJ01 Rejection of invention patent application after publication