CN105741323A

CN105741323A - 一种基于单目视频的人体骨架跟踪方法

Info

Publication number: CN105741323A
Application number: CN201610078307.2A
Authority: CN
Inventors: 童若锋; 聂迎; 陈可立; 李承扬
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2016-02-03
Filing date: 2016-02-03
Publication date: 2016-07-06

Abstract

本发明公开了一种基于单目视频的人体骨架跟踪方法。该方法包含如下步骤：在训练阶段：a.定义特征描述符：利用基于距离的方法量化剪影与初始骨架的差异；b.特征提取和分类：通过基于相关性的random fern方法提取出与回归目标有最大相关性的特征并分类，得到决定当前阶段骨架调整幅度的回归子；c.骨架调整：根据加法模型调整骨架适当的次数并输出级联回归子。在测试阶段：a.输入单目视频首帧的剪影和初始化骨架；b.根据训练得到的级联回归子逐步调整初始化骨架至最终骨架；c.在数据库中搜索与当前帧预测骨架最相似的五个骨架分别进行回归，取回归的均值骨架作为下一帧的初始化骨架进行下一帧的骨架预测。本方法可有效实时地实现骨架的跟踪，并避免跟踪过程中出现的误差积累现象。

Description

一种基于单目视频的人体骨架跟踪方法

技术领域

本发明属于计算机视觉领域，特别涉及到一种基于单目视频的人体骨架跟踪方法。

背景技术

三维人体骨架跟踪是当前计算机视觉领域的研究热点，广泛应用于视频监控、人机交互、行为理解、智能动画合成、虚拟现实等领域，具有广泛的应用前景。对它的研究涉及计算机视觉、计算机图形学、机器学习、图像处理及人工智能等学科领域，是一个跨学科的挑战性研究课题。

骨架跟踪的定义是“estimatinghumanposesfromframetoframe，trackingisusedtoensuretemporalcoherencebetweenposesovertime”。骨架重建的定义是“estimatinghumanposesfromimages”。骨架重建是骨架跟踪的基础，在一些基于学习的方法中，好的骨架重建方法是骨架跟踪的保障(骨架重建方法用于第一帧图像的骨架初始化)。相比较而言，已有的工作更多强调于骨架重建。根据是否预先构建人体模型可将方法分为两类：Model-free和Model-based.Model-free方法不需要预先定义人体模型，而是直接建立图像序列与人体姿态的联系。主要包含两种方法：learning-based和example-based。在基于学习的方法中，根据训练数据学习从视频序列到人体姿态的映射函数，实现实时的骨架跟踪。基于样本的方法首先构造包含姿态样本和对应图像的集合，定义“matchingindexesbetweentheposedescriptionsandtheimagedescriptions”，对于一个输入的图像，根据匹配系数寻找候选的姿态样本并进行插值处理形成最终的估计姿态。Model-based方法首先构建人体模型，包含人体形状和运动结构的精确几何表示，通过优化模型投影和视频序列的相似性来估计人体的姿态。可以分为Top-down和Bottom-up两种，Top-down是根据视频序列直接得到完整人体模型，Bottom-up是先定位人体各部位，再将各部位组合起来得到完整人体模型。

发明内容

本发明需要解决的技术问题是针对现有骨架跟踪技术严重依赖图像深度信息、难以满足实时性等问题，提出一种基于单目视频的骨架跟踪方法。该方法先在所构建的包含剪影和真实骨架的人体姿态数据库上采用回归算法进行训练，根据加法模型得到级联回归子以决定初始化骨架的调整幅度。在测试过程中，我们输入单目视频第一帧所对应的剪影和初始化骨架，利用训练得到的级联回归子逐步调整骨架，并以此为基础计算下一帧的初始化骨架，实现对单目视频人体骨架的跟踪。

为了实现本发明的目的，我们依靠以下技术方案来实现：

在训练阶段：

a.定义特征描述符：利用基于距离的方法量化剪影与初始骨架的差异；

b.特征提取和分类：通过基于相关性的randomfern方法提取出与回归目标有最大相关性的特征并分类，得到决定当前阶段骨架调整幅度的回归子；

c.骨架调整：根据加法模型调整骨架适当的次数并输出级联回归子。

在测试阶段：

d.输入单目视频首帧的剪影和初始化骨架；

e.根据训练得到的级联回归子逐步调整初始化骨架至最终骨架；

f.在数据库中搜索与当前帧预测骨架最相似的五个骨架分别进行回归，取回归的均值骨架作为下一帧的初始化骨架进行下一帧的骨架预测。

本发明的有益效果为：本方法可以基于传统的不含深度信息的单目视频实时地进行人体骨架的跟踪。本方法通过定义一种高保真的特征描述符，并采用基于相关性的randomfern方法提取与回归目标有最大相关性的特征并分类，在所构建的包含剪影和骨架的数据库中训练得到从剪影和初始化骨架到真实骨架的映射级联回归子。在测试时，只要输入单目视频首帧的剪影和初始化骨架，即可自动实时地实现对人体骨架的跟踪。总的来说，本方法为低成本、实时地跟踪人体骨架提供了一个全新的解决方案。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明:

图1为在姿态数据库中采用回归的方法进行训练的过程流程图

图2为基于单目视频进行测试的过程流程图

图3为跟踪误差统计直方图

图4第100帧视频对应的预测骨架、真实骨架和数据库中对应的5个相似骨架对比图

图5第4000帧视频对应的预测骨架、真实骨架和数据库中对应的5个相似骨架对比图

具体实施方式

参照图1，表示利用所构建的姿态数据库采用回归的方法进行训练的过程流程图，图中表示的步骤为：

a.定义特征描述符：利用基于距离的方法量化剪影与初始骨架的差异，以初始骨架关节点的二维投影点作为原点发出射线，直到与剪影轮廓线相交或超出图像范围为止，取射线的长度作为特征值。此外，当二维投影点在剪影内时，其特征值为正值，反之则为负值。具体计算公式为：

f (o r i g i n) = \{\begin{matrix} d i s & i f o r i g i n i s i n s i d e o f c o n t o u r \\ - d i s & i f o r i g i n i s o u t s i d e o f c o n t o u r \end{matrix} - - - (1)

b1.将真实骨架与初始化骨架的差值随机投影到某个方向上产生一个常量，根据Johnson-Lindenstrauss引理可知，该方法是一种有效的降维方法,即如果高维空间中的点被随机投影到低维空间上，那么这些点的相似性会被近似保留。

b2.计算皮尔逊相关系数并选取与该常量具有最大相关性的一对特征的索引。具体计算

公式为：

ρ_{X, Y} = \frac{cov (X, Y)}{σ_{X} σ_{Y}} = \frac{E ((X - μ_{X}) (Y - μ_{Y}))}{σ_{X} σ_{Y}} = \frac{E (X Y) - E (X) E (Y)}{\sqrt{E (X^{2}) - E^{2} (X)} \sqrt{E (Y^{2}) - E^{2} (Y)}} - - - (2)

即：

ρ_{X, Y} = \frac{Σ X Y - \frac{Σ X Σ Y}{N}}{\sqrt{({ΣX}^{2} - \frac{{(Σ X)}^{2}}{N}) ({ΣY}^{2} - \frac{{(Σ Y)}^{2}}{N})}} - - - (3)

其中X为特征空间，Y为真实骨架与初始化骨架的差异常量空间。为简化运算量，令X＝A-B，公式(2)可变形为：

ρ_{A - B, Y} = \frac{cov (A, Y) - cov (B, Y)}{\sqrt{[{δ_{A}}^{2} + {δ_{B}}^{2} - 2 cov (A, B)] {δ_{Y}}^{2}}} - - - (4)

b3.遍历所有训练样本确定具有b2中所确定的索引特征的最大值和最小值，在最大值和最小值之间随机取一值作为临界值，并基于该临界值划分特征空间。

b4.根据所有特征索引和临界值划分训练样本，并计算每块样本空间的真实骨架与初始化骨架的残差均值作为一个调整骨架幅度的回归子。具体计算公式为：

{δT}_{b} = \frac{1}{1 + β / | Ω_{b} |} \frac{Σ i &Element; Ω_{b} (T_{i} - T_{i}^{j})}{| Ω_{b} |} - - - (5)

其中，|Ω_b|为在b块中的训练样本数量，β是一个为了避免过拟合现象而设置的自由伸缩参数。

c1.根据加法模型和b4中得到的回归子逐步调整骨架，具体公式为：T_i ^j＝T_i ^j+δT_b(6)

直至与真实骨架之间的差异小于预设的阈值或者调整步骤达到预设的步骤。

c2.输出级联回归子，级联回归子决定了初始骨架到真实骨架逐步调整的幅度和次数。

参照图2，表示本发明基于单目视频进行测试的过程流程图。图中表示的步骤为:

a.根据视频得到首帧的剪影，由kinect得到视频第一帧的初始化骨架。

b.根据训练所得到的级联回归子逐步调整初始化骨架，输出当前帧的预测骨架。

c.在数据库中利用快速排序算法搜索与当前帧预测骨架最相似的五个骨架分别进行回归，取回归的均值骨架作为下一帧的初始化骨架并结合下一帧的剪影进行下一帧的人体骨架预测，直至视频结束。

采用本方法进行训练之后，在包含有4500帧的单目视频进行人体骨架跟踪，平均每帧的测试时间为19.43ms，显然可以满足实时性要求。所有关节点最大误差和为2.1147m,最小误差为0m，平均误差为0.2102m，得到的跟踪误差统计直方图如图3所示，第100帧视频和第4000帧视频对应的预测骨架、真实骨架和数据库中对应的5个相似骨架对比图分别为图4和图5所示。

Claims

1.一种基于单目视频的人体骨架跟踪方法，其特征在于：该方法包含如下步骤：

在训练阶段：

a.定义特征描述符：为了量化剪影与初始骨架的差异，利用基于距离的方法最大程度量化这种差异；

c.骨架调整：根据加法模型调整骨架适当的次数并输出级联回归子；

在测试阶段：

d.输入单目视频首帧的剪影和初始化骨架；

2.根据权利要求１所述的基于单目视频的人体骨架跟踪方法，其特征在于：利用基于距离的方法量化剪影与初始骨架的差异，以初始骨架关节点的二维投影点作为原点发出射线，直到与剪影轮廓线相交或超出图像范围为止，取射线的长度及投影点是否在剪影内决定的正负号作为其特征值。

3.根据权利要求１所述的基于单目视频的人体骨架跟踪方法，其特征在于：为了避免误差积累现象，在测试的初始化过程中不是简单地将当前帧的预测骨架作为下一帧的初始化骨架，而是在数据库中搜索与当前帧预测骨架最相似的五个骨架分别进行回归，取回归的均值骨架作为下一帧的初始化骨架进行下一帧的骨架预测。