CN108416796A

CN108416796A - 双向马尔可夫蒙特卡罗粒子滤波器的人体运动跟踪方法

Info

Publication number: CN108416796A
Application number: CN201810149640.7A
Authority: CN
Inventors: 叶龙; 余安安; 钟微; 方力; 张勤
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2018-02-13
Filing date: 2018-02-13
Publication date: 2018-08-17

Abstract

本发明公开了一种基于双向马尔可夫蒙特卡罗粒子滤波器的人体运动跟踪方法，包括：建立视频时空体模型，并对视频时空体模型分别提取模型特征；选取目标视频时空体中的一帧图像，通过马尔可夫蒙特卡罗粒子滤波器对其进行双向粒子滤波，得到一组解，将得到的解分别与每个视频时空体模型的模型特征模型匹配，根据匹配的最优解进行运动类型的预测；将预测的运动类型反馈到相邻帧图像对其运动类型进行更新，然后返回继续滤波，以此循环直到对目标视频时空体的全部图像完成粒子滤波为止。本发明将运动类型和运动状态一起进行预测，实现跟踪和识别同时进行，从而达到良好的跟踪结果和准确的识别结果。

Description

双向马尔可夫蒙特卡罗粒子滤波器的人体运动跟踪方法

技术领域

本发明涉及人体运动跟踪技术领域，具体地，涉及一种基于双向马尔可夫蒙特卡罗粒子滤波器的人体运动跟踪方法。

背景技术

人体运动跟踪目前是人工智能领域和计算机视觉领域的研究热点。近年来，有很多跟踪的方法，特别是粒子滤波器(PF)，实现了良好的跟踪性能。但在粒子滤波器系统中，后验概率密度的准确性取决于粒子的有效性，提高粒子有效性效率一个非常有效的方法是进行全局搜索。然而，全局搜索将会带来非常大的计算量，增加运行时间。

为了解决这个问题，目前用的较多且有效的方法是使用人体运动预测模型。有了人体运动模型的引导，搜索空间可以尽可能地被限制在有效区域，状态空间维度也会被减小。一般来说，人体运动模型可以分为两大类：弱预测模型和强预测模型。弱预测模型是指事先对运动类型未知的情况下，采用普适的人体运动预测模型对目标进行跟踪。但是，正是因为模型的普适性，对于任意一种运动，这些模型可能不是最佳选择。因此，跟踪的时候很容易陷入局部最优的情况，从而导致跟踪结果不准确。强预测模型通常是已知运动的类型，然后将该运动类型数学训练后得到的模型整合到粒子滤波器中。基于已知了每种运动的类型，它将有利于跟踪性能的提高。尽管强预测模型非常直观，但这些模型形式太死板，无法应对突然的运动变化。所以，当目标的运动不按照模型的规律运动时，就容易丢失跟踪目标。更重要的是，正是由于每个模型的形式是已经固定的，强预测模型不适用于跟踪一组包含不同运动的视频。

为了应对运动的变化和运动类型的未知，交互多模型理念(IMM)被应用于运动跟踪中，将交互多模型理念与粒子滤波器相结合，形成新的滤波器——交互多模式粒子滤波器(IMMPF)，来用于跟踪。

然而，传统的跟踪方法中，没有进行识别过程，或是先进行跟踪过程后进行识别过程。

发明内容

鉴于以上问题，本发明的目的是提供一种基于双向马尔可夫蒙特卡罗粒子滤波器的人体运动跟踪方法，本发明在运动类型未知的情况下，通过对运动类型的预测估计，利用人体运动强预测模型减小搜索空间，保证跟踪性能，提高运行速度；采用多个人体运动强预测模型(视频时空体模型)，通过对运动类型和运动状态的预测估计，将预测和观测过程进行耦合，最终得到跟踪和识别结果。

为了实现上述目的，本发明采用以下技术方案：

一种基于双向马尔可夫蒙特卡罗粒子滤波器的人体运动跟踪方法，包括如下步骤：建立视频时空体模型，包括：采集与多种运动类型分别对应的多个运动训练数据，对所述多个运动训练数据分别进行模型训练、拟合，从而建立多个所述视频时空体模型，并对多个所述视频时空体模型分别提取多个模型特征；选取目标视频时空体中的一帧图像，通过马尔可夫蒙特卡罗粒子滤波器对所述一帧图像进行双向粒子滤波，得到一组解，将得到的所述一组解分别与每个视频时空体模型的所述模型特征进行模型匹配，根据模型匹配的最优解进行所述目标视频时空体的运动类型的预测；将预测的运动类型反馈到所述目标视频时空体的进行粒子滤波的图像的相邻帧图像对其运动类型进行更新，然后返回步骤S2，以此循环直到对目标视频时空体的全部图像完成粒子滤波为止。

优选地，在步骤S1中，多个运动训练数据为多种运动的关节位置世界坐标数据，利用最小距离模型法进行训练，然后用自回模型进行拟合成曲线，从而建立多个所述视频时空体模型。

优选地，在步骤S2中，在对所述目标视频时空体中进行双向粒子滤波之前，通过所述马尔可夫蒙特卡罗粒子滤波器将所述目标视频时空体的图像初始化，得到每帧图像的粒子及其权重。

优选地，在步骤S2中，选取目标视频时空体中的一帧图像之后，对所述一帧图像的相邻图像进行固定。

优选地，在步骤S2中，维护每帧图像的粒子和相邻帧图像之间粒子的连接关系。

优选地，在步骤S3中，所述相邻帧为上一帧或下一帧，在对一个目标视频时空体的全部图像的粒子滤波过程中，反馈的相邻帧图像均为上一帧或均为下一帧。

与现有技术相比，本发明具有以下优点和有益效果：

本发明将运动类型作为状态变量和运动状态一起进行双向马尔可夫蒙特卡罗的视频时空体预测估计，预测估计过程是动态耦合的，实现跟踪和识别同时进行，从而达到良好的跟踪结果和准确的识别结果。

附图说明

图1是本发明人体运动跟踪方法的示意图；

图2是视频时空体模型的优选实施例的示意图；

图3是通过马尔可夫蒙特卡罗粒子滤波器进行双向滤波的示意图。

具体实施方式

下面将参考附图，对本发明做进一步详细的说明，以便于本发明更加清楚和易于理解。本领域的普通技术人员可以认识到，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式或其组合对所描述的实施例进行修正。因此，附图和描述在本质上是说明性的，而不是用于限制权利要求的保护范围。此外，在本说明书中，附图未按比例画出，并且相同的附图标记表示相同的部分。

下面结合图1-3详细说明本发明的实施例。

参照图1，本发明的人体运动跟踪方法包括如下步骤：

S1建立视频时空体模型，包括：采集与多种运动类型分别对应的多个运动训练数据1-N，对多个运动训练数据分别进行模型训练、拟合，从而建立多个视频时空体模型1-N，并对多个视频时空体模型分别提取多个模型特征1-N，N为大于1的自然数；

S2选取目标视频时空体中的一帧图像，通过马尔可夫蒙特卡罗粒子滤波器对该帧图像进行双向粒子滤波，得到一组解(即运动跟踪)，一组解可为一个或多个解，将得到的解分别与每个视频时空体模型的模型特征进行模型匹配，根据模型匹配的最优解进行目标视频时空体的运动类型的预测(即运动识别)；

S3将预测的运动类型反馈到目标视频时空体的进行粒子滤波的图像的相邻帧(上一帧或下一帧)图像对其运动类型进行更新，然后返回步骤S2根据相邻帧图像中的运动类型和运动状态通过双向马尔可夫蒙特卡罗粒子滤波器对相邻帧图像进行粒子滤波，得到另一组解，然后将另一组解分别与每个视频时空体模型的模型特征进行模型匹配，再次进行目标视频时空体的运动类型的预测，然后进入步骤S3将再次预测的运动类型反馈到该相邻帧图像的相同方向的相邻帧图像对其运动类型进行更新，再次返回步骤S2，以此循环直到对目标视频时空体的全部图像完成粒子滤波为止。

在步骤S1中，每个视频时空体模型表示一种运动类型(例如跑步、走路、打网球等)的关节运动轨迹，每条轨迹包含一段时间内关节点的空间变化信息。优选地，如图2所示，将每种运动的关节位置世界坐标数据(x,y,z)利用最小距离模型法进行训练，然后用自回模型进行拟合成曲线，从而得到每种运动的视频时空体模型。

优选地，在步骤S2中，首先通过双向马尔可夫蒙特卡罗粒子滤波器将目标视频时空体的图像初始化，得到每帧图像的粒子及其权重。然后循环选取或者随机选取目标视频时空体的一帧图像t，固定它的上一帧相邻图像(t-1)和/或下一帧相邻图像(t+1)，然后对图像t进行双向粒子滤波。如图3所示，每帧图像中的粒子有m列，m列粒子之间连续的连线表示一个解，以第1帧为例，第1帧中连接每列粒子的横向的粗线表示一个解，在第1帧中不仅有一个解。对每帧图像进行采样是对每帧图像进行解析的过程。其中，m为大于1的自然数。

在步骤2和3的循环过程中，维护每帧图像的粒子和相邻帧图像之间粒子的连接关系。当对目标视频时空体的全部图像(在图3中为n帧图像)完成粒子滤波为止，即粒子滤波的过程收敛之后，得到了一组服从后验分布的粒子组合1-n。值得注意的是，这里每一个连接第1帧的粒子和第n帧的粒子的通路都是一个解析图，如图3所示。其中，n为大于1的自然数。

对要得到其中的典型的解，我们需要再次对这一组粒子进行采样，最终得到一组可用的解。随着解析的图像帧数上升，总的粒子个数线性上升，表示的解的个数却是指数上升的。由于本发明允许多重连接，所以能产生更多的排列组合，提高粒子的有效性。比仅有一组可用的解增大了寻找全局最优解的可能性。

优选地，在步骤S3中，在根据运动类型进行粒子滤波时，重点关注预测的运动类型，也不完全忽略其他运动类型。形象的说，对于预测的运动类型多撒一些粒子，对于其他运动类型少撒一些粒子。

本发明基于双向马尔可夫蒙特卡罗粒子滤波器，将运动类型和运动状态一起进行滤波，不仅在跟踪性能上可以优于之前跟踪方法的5％左右，耗时减少，还可以提供识别的结果，并且识别结果的准确率同现有技术持平。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于双向马尔可夫蒙特卡罗粒子滤波器的人体运动跟踪方法，包括如下步骤：

S1建立视频时空体模型，包括：采集与多种运动类型分别对应的多个运动训练数据，对所述多个运动训练数据分别进行模型训练、拟合，从而建立多个所述视频时空体模型，并对多个所述视频时空体模型分别提取多个模型特征；

S2选取目标视频时空体中的一帧图像，通过马尔可夫蒙特卡罗粒子滤波器对所述一帧图像进行双向粒子滤波，得到一组解，将得到的所述一组解分别与每个视频时空体模型的所述模型特征进行模型匹配，根据模型匹配的最优解进行所述目标视频时空体的运动类型的预测；

S3将预测的运动类型反馈到所述目标视频时空体的进行粒子滤波的图像的相邻帧图像对其运动类型进行更新，然后返回步骤S2，以此循环直到对目标视频时空体的全部图像完成粒子滤波为止。

2.根据权利要求1所述的人体运动跟踪方法，在步骤S1中，多个运动训练数据为多种运动的关节位置世界坐标数据，利用最小距离模型法进行训练，然后用自回模型进行拟合成曲线，从而建立多个所述视频时空体模型。

3.根据权利要求1所述的人体运动跟踪方法，在步骤S2中，在对所述目标视频时空体中进行双向粒子滤波之前，通过所述马尔可夫蒙特卡罗粒子滤波器将所述目标视频时空体的图像初始化，得到每帧图像的粒子及其权重。

4.根据权利要求1所述的人体运动跟踪方法，在步骤S2中，选取目标视频时空体中的一帧图像之后，对所述一帧图像的相邻图像进行固定。

5.根据权利要求1所述的人体运动跟踪方法，在步骤S2中，维护每帧图像的粒子和相邻帧图像之间粒子的连接关系。

6.根据权利要求1所述的人体运动跟踪方法，在步骤S3中，所述相邻帧为上一帧或下一帧，在对一个目标视频时空体的全部图像的粒子滤波过程中，反馈的相邻帧图像均为上一帧或均为下一帧。