CN108257156B

CN108257156B - 一种从视频中自动追踪目标物体的方法

Info

Publication number: CN108257156B
Application number: CN201810069464.6A
Authority: CN
Inventors: 袁春; 林之冠
Original assignee: Shenzhen Graduate School Tsinghua University
Current assignee: Shenzhen Graduate School Tsinghua University
Priority date: 2018-01-24
Filing date: 2018-01-24
Publication date: 2021-05-04
Anticipated expiration: 2038-01-24
Also published as: CN108257156A

Abstract

本发明公开了一种从视频中自动追踪目标物体的方法，包括初始化；选取目标物体的运动集合

作为目标物体的运动状态s_t；采用系统模型计算时刻t‑1的目标物体的运动状态为s_t‑1的条件下时刻t的目标物体的运动状态为s_t的先验条件概率p(s_t|s_t‑1)，采用观测模型计算目标物体的运动状态为s_t的条件下观测值为z_t的后验条件概率p(z_t|s_t)，观测值z_t为时刻t的视觉信息；根据迭代关系式

计算得到p(s_t|z_1：t)，其中p(z_t|z_1：t‑1)是常数，z_1：t为时刻1到时刻t的观测值；根据

计算得到当前时刻t的目标物体的位置为

依次进行迭代。本发明在物体形变、旋转和背景干扰的场景下，仍然能够准确追踪目标物体。

Description

一种从视频中自动追踪目标物体的方法

技术领域

本发明涉及视频处理领域，尤其涉及一种从视频中自动追踪目标物体的方法。

背景技术

视频追踪是计算机视觉中的一个基础问题，其目的是用来确定我们感兴趣的目标在视频序列中连续的位置，并且为进一步理解目标和完成更高级的任务打下基础，该技术可广泛应用于自动监控、人机交互、无人驾驶、军事侦察、交通监控等领域，物体追踪结果的准确性和鲁棒性对以上应用场景有重要影响。

其中视频追踪问题可以具体地定义为：在视频的第一帧预先用矩形窗框出需要追踪的目标，要求在后续的每帧设计算法用矩形窗自动的框出目标。如图1a所示，第一帧灰色框给出了要追踪的物体，如图1b和1c所示，后续帧中的白色框是采用视频追踪方法标记出的相应的追踪结果，后续帧中的灰色框为数据集标记的物体真实结果；也即在后续帧中白色框越接近灰色框，则表明该视频追踪方法的结果越接近真实。

目前大多数追踪器都采用判别类方法，判别类方法一般由候选窗采样、特征抽取和候选窗评估三步组成。其中候选窗采样包括：在上一帧算法追踪到的结果附近采样一定数量的候选窗，作为下一帧目标潜在位置的候选，采样方式可以为密集采样(固定尺度、步长后范围内所有矩形)或随机采样(给定一个概率分布，用此分布采取一定数量的候选窗)。特征抽取包括：将候选框所框选的图块转化为特征向量，常用的特征抽取方式有用HOG算法将3通道图像转化为31维特征向量，或者用神经网络卷积部分将图像转化为卷积层的激活值。选窗评估包括：判别类方法将追踪目标的过程视为二元分类问题，该方法学习一个表面模型的分类器，将第二步抽取的特征作为分类器的输入，输出为候选窗评估的分值，分值越高，则候选窗越可能是目标；分值越低，则越可能是背景。

传统的判别类追踪方法在目标形变、旋转和背景干扰的场景下，表现不佳，主要原因包括：(1)在目标形变、旋转的情形下，两帧之间目标的图像变化剧烈，导致抽取出的相应特征有很大区别，表面模型会误判目标为背景，导致追踪失败；(2)在背景干扰的场景下，背景与目标之前的图像会很相似，导致抽取出的相应特征区别不大，表面模型会把背景误判为目标，导致追踪失败。

以上背景技术内容的公开仅用于辅助理解本发明的构思及技术方案，其并不必然属于本专利申请的现有技术，在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下，上述背景技术不应当用于评价本申请的新颖性和创造性。

发明内容

鉴于此，本发明提出一种从视频中自动追踪目标物体的方法，能够有效解决传统的判别类追踪器的缺点，在物体形变、旋转和背景干扰的场景下，仍然能够准确追踪目标物体。

为了达到上述目的，本发明采用以下技术方案：

本发明公开了一种从视频中自动追踪目标物体的方法，包括以下步骤：

S1：时刻t＝1，初始化

设定目标物体的初始位置为(x₁，y₁)；

S2：t＝t+1，选取目标物体的运动集合

作为目标物体的运动状态s_t；

S3：采用系统模型计算时刻t-1的目标物体的运动状态为s_t-1的条件下时刻t的目标物体的运动状态为s_t的先验条件概率p(s_t|s_t-1)，采用观测模型计算目标物体的运动状态为s_t的条件下观测值为z_t的后验条件概率p(z_t|s_t)，观测值z_t为时刻t的视觉信息；

S4：根据迭代关系式

计算得到p(s_t|z_1：t)，其中p(z_t|z_1：t-1)是常数，z_1：t为时刻1到时刻t的观测值；

S5：根据

计算得到当前时刻t的目标物体的位置为

S6：返回步骤S2，进入下一时刻。

优选地，步骤S2中目标物体的运动状态s_t为目标物体的中心在时刻t-1到时刻t的相对位移幅度：

x_t、y_t分别为目标物体的矩形框中心在时刻t的位置的坐标值，w、h分别为目标物体的矩形框的宽和高。

优选地，步骤S3中的系统模型中设定目标物体每个时刻的运动都与过去的运动无关，且目标物体在x轴和y轴方向的运动是相互独立的，则有：p(s_t|s_t-1)＝p(s_t)＝p(Δx，Δy)＝px(Δx)p_y(Δy)。

优选地，步骤S3中的系统模型中采用拉普拉斯分布对目标物体的运动进行拟合得到p_x(Δx)＝0.1905e^-29.02|Δx|，p_y(Δy)＝0.2652e^-43.32|Δy|；则有：p(s_t|s_t-1)＝ae^{-b|Δx|-c|Δy|}，其中a＝0.0505，b＝29.02，c＝43.42。

优选地，步骤S3中的观测模型为：根据先验条件概率p(s_t|s_t-1)得到目标物体的运动状态s_t，结合目标物体的运动状态s_t和观测值z_t采样n个候选窗，然后将n个候选窗分别进行特征抽取，并将所述目标物体进行特征抽取，将特征抽取的结果都输入到分类器中，输出n个所述候选窗分别与所述目标物体在图像特征上的相似度v¹、v²、…、vⁿ，最后根据相似度v¹、v²、…、vⁿ计算得到后验条件概率p(z_t|s_t)。

优选地，采用带权的softmax函数将相似度v¹、v²、…、vⁿ转换为后验条件概率p(z_t|s_t)：

其中，

等价于目标物体在时刻t的第i个候选窗，vⁱ为第i个候选窗与目标物体在图像特征上的相似度，αⁱ是第i个候选窗的超参数。

优选地，步骤S3中的观测模型采用了DCF、fDSST、CFNet、HCF、MDNet中的任意一个追踪器。

与现有技术相比，本发明的有益效果在于：本发明的从视频中自动追踪目标物体的方法通过引入一个系统模型计算先验条件概率来先验地预测目标物体运动，再根据观测模型得到后验条件概率，其中由于目标物体的运动信息是独立于观测模型的，可以有效解决传统的判别类追踪器的缺点，在物体形变、旋转和背景干扰的场景下，仍然能够准确追踪目标物体。

附图说明

图1a是在视频的第一帧中框出目标物体的示意图；

图1b和图1c是在视频的后续帧中框出目标物体的真实位置和根据视频追踪方法追踪得到的结果的示意图；

图2是本发明优选实施例的从视频中自动追踪目标物体的方法的过程示意图；

图3a是采用拉普拉斯分布对目标物体的x坐标的运动状态进行拟合的示意图；

图3b是采用拉普拉斯分布对目标物体的y坐标的运动状态进行拟合的示意图；

图4是本发明优选实施例的从视频中自动追踪目标物体的方法的观测模型的过程示意图。

具体实施方式

下面对照附图并结合优选的实施方式对本发明作进一步说明。

本发明的优选实施例公开了一种从视频中自动追踪目标物体的方法，包括以下步骤：

S1：时刻t＝1，初始

设定目标物体的初始位置为(x₁，y₁)；

S2：t＝t+1，选取目标物体的运动集合

作为目标物体的运动状态s_t；

S3：采用系统模型计算时刻t-1的目标物体的运动状态为s_t-1的条件下时刻t的目标物体的运动状态为s_t的先验条件概率p(s_t|s_t-1)，采用观测模型计算目标物体的运动状态为s_t的条件下观测值为z_t的后验条件概率p(z_t|s_t)；

S4：根据迭代关系式

S5：根据

计算得到当前时刻t的目标物体的位置为

S6：返回步骤S2，进入下一时刻。

下述对本发明的追踪方法的步骤进一步说明。

第一，本发明的从视频中自动追踪目标物体的方法将视觉追踪问题带入到贝叶斯滤波框架中考虑，贝叶斯滤波框架定义了一个状态空间用于估计动态时序系统的在各时刻的状态值，该状态空间包含各时刻的系统状态和观测值；其中系统状态在状态空间中是不可直接被测量到的。然而，系统状态会相对应地影响到一个外部的可被观测的观察值，从而可以通过观察值间接推导系统状态。在视觉追踪问题中，本发明中定义一个系统状态s_t为从时刻t-1到时刻t的目标物体的位置变化，定义观测值z_t为时刻t的视觉信息，即目标位置附近的图像值和图像提取出的图像特征值；通过视觉信息反向推导目标物体的位置变化。这样的状态空间模型如图2所示，由一对模型组成：

系统模型(system model)描述了相邻时刻之间状态的演化，表现为一阶马尔可夫链，数学公式为时刻t-1的状态为s_t-1的条件下时刻t的状态为s_t的先验条件概率p(s_t|s_t-1)＝p(s_t|s_t-1，z_1：t-1)；

观察模型(observation model)描述了系统状态对观察值的影响，数学上表示为当前状态为s_t下观测值为z_t的条件概率p(z_t|s_t)。

第二，其中的系统模型(system model)描述了相邻时刻之间物体运动的变化，也即计算时刻t-1的状态为s_t-1的条件下时刻t的状态为s_t的先验条件概率p(s_t|s_t-1)。

首先定义目标物体在时刻t的运动s_t为目标物体的中心在时刻t-1到时刻t的相对位移幅度(Δx，Δy)，即

其中s_t为时刻t-1到时刻t目标物体位置的变化，x_t、y_t分别为目标物体的矩形框中心在时刻t的位置坐标值，w、h分别为目标物体的矩形框的宽和高。

设定目标物体每时刻的运动是与过去的运动无关的，且目标物体在x轴和y轴方向运动是相互独立的，即p(s_t|s_t-1)＝p(s_t)＝p(Δx，Δy)＝px(Δx)p_y(Δy)。

本发明中对大量视频序列数据中目标物体运动数据进行了统计，并对比决定系数R²，得出最适合表示物体运动的是拉普拉斯分布，如图3a和图3b是统计物体运动直方图的结果，采用拉普拉斯分布拟合直方图的结果来表示目标物体的运动，即p_x(Δx)＝0.1905e^-29.02|Δx|，p_y(Δy)＝0.2652e^-43.32|Δy|；所以系统模型为：p(s_t|s_t-1)＝ae^{-b|Δx|-c|Δy|}，其中a＝0.0505，b＝29.02，c＝43.42。

第三，其中的建立观测模型(observation model)描述了系统状态对观察值的影响，也即计算当前状态为s_t的条件下观测值为z_t的后验条件概率p(z_t|s_t)。

在视频追踪任务里，p(z_t|s_t)衡量的是在s_t位置的候选窗中的视觉图像是目标物体的可能性。

如图4所示，根据系统模型中的先验条件概率p(s_t|s_t-1)得到追踪到的当前状态s_t，根据追踪到的当前状态s_t得到

并根据观测值z_t来进行相应裁剪采样，得到候选窗1、候选窗2、…、候选窗n；然后将n个候选窗进行特征抽取，并将目标物体进行特征抽取，将特征抽取的结果都输入到分类器中，输出各个候选窗与目标物体在图像特征上的相似度v¹、v²、…、vⁿ，其中相似度越高，则候选窗越可能是目标物体，即p(z_t|s_t)越大。

在本发明优选优选实施例中，采用带权的softmax函数将目标相似度转换为后验条件概率p(z_t|s_t)，即：

其中，

是目标物体在时刻t的第i个候选窗，vⁱ为第i个候选窗与目标物体在图像特征上的相似度，αⁱ是第i个候选窗的超参数。

第四，追踪过程。

由于视觉追踪任务的目标物体的位置在第一帧已经给定，而之前的位置不存在，所以初始状态可以任意设置。

将初始时刻状态s₁直接设定为(x₁/w，y₁/h)，根据

目标物体的位置

因此，视觉追踪问题可以看作时刻t下的最优状态估计问题：

其中，p(s_t|z_1：t)表示时刻1到时刻t的观测值z_1：t的条件下时刻t的状态为s_t的条件概率。

最终，目标物体的估计位置为

其中，初始状态

是已知的，如果求得p(s_t-1|z_1：t-1)到p(s_t|z_1：t)的迭代关系，则任意时刻t下的p(s_t|z_1：t)均可求得。

根据贝叶斯公式：

根据全概率公式：

结合贝叶斯公式和全概率公式得到p(s_t-1|z_1：t-1)到p(s_t|z_1∶t)的迭代关系为：

其中，对于任意的s_t，p(z_t|z_1：t-1)是常数，所以只需求得

即可，该分子根据系统模型计算得到的p(s_t|s_t-1)和观测模型算得到的p(z_t|s_t)即可计算得到。

通过上述迭代关系可以求得任意时刻的p(s_t|z_1：t)，并进一步根据求得目标物体的估计位置

下列以具体实例对本发明的从视频中自动追踪目标物体的方法的效果作进一步说明，其中以现有的有代表性的追踪器，包括DCF、fDSST、CFNet、HCF、MDNet为对比例，再将这些追踪器应用于本发明的追踪方法中的观测模型以通过本发明的追踪方法来进行追踪，选取OTB100的数据集进行实验，将传统的追踪方法与本发明的追踪方法进行比较，如下表1和表2。

表1传统追踪方法和本发明的追踪方法追踪到的结果的预测准确率

表2传统追踪方法和本发明的追踪方法追踪到的结果的中心准确率

实验结果表明，本发明的追踪方法比传统的追踪器有所提升，并且超过了当前最先进的追踪器的性能。

本发明优选实施例的从视频中自动追踪目标物体的方法，基于贝叶斯滤波框架，将判别类追踪器作为观测模型，结合物体运动信息建立系统模型预测物体运动，由于运动信息是独立于观测模型的，因此本发明的追踪方法能够有效地解决传统判别类追踪器的缺点。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种从视频中自动追踪目标物体的方法，其特征在于，包括以下步骤：

S1：时刻t＝1，初始化

设定目标物体的初始位置为(x₁，y₁)；

S2：t＝t+1，选取目标物体的运动集合

作为目标物体的运动状态s_t，其中，目标物体的运动状态s_t为目标物体的中心在时刻t_1到时刻t的相对位移幅度：

x_t、y_t分别为目标物体的矩形框中心在时刻t的位置的坐标值，w、h分别为目标物体的矩形框的宽和高；

S3：采用系统模型计算时刻t-1的目标物体的运动状态为s_t-1的条件下时刻t的目标物体的运动状态为s_t的先验条件概率p(s_t|s_t-1)，设定目标物体每个时刻的运动是与过去的运动无关的，且目标物体在x轴和y轴方向运动是相互独立的，则有p(s_t|s_t-1)＝p(s_t)＝p(Δx，Δy)＝px(Δx)p_y(Δy)；并采用DCF、fDSST、CFNet、HCF、MDNet中的任意一个追踪器作为观测模型来计算目标物体的运动状态为s_t的条件下观测值为zt的后验条件概率p(z_t|s_t)，观测值zt为时刻t的视觉信息；

S4：根据迭代关系式

S5：根据

计算得到当前时刻t的目标物体的位置为

S6：返回步骤S2，进入下一时刻。

2.根据权利要求1所述的从视频中自动追踪目标物体的方法，其特征在于，步骤S3中的系统模型中采用拉普拉斯分布对目标物体的运动进行拟合得到p_x(Δx)＝0.1905e^-29.02|Δx|，p_y(Δy)＝0.2652e^-43.32|Δy|；则有：p(s_t|s_t-1)＝ae^{-b|Δx|-c|Δy|}，其中a＝0.0505，b＝29.02，c＝43.42。

3.根据权利要求1所述的从视频中自动追踪目标物体的方法，其特征在于，步骤S3中的观测模型为：根据先验条件概率p(s_t|s_t-1)得到目标物体的运动状态s_t，结合目标物体的运动状态s_t和观测值z_t采样n个候选窗，然后将n个候选窗分别进行特征抽取，并将所述目标物体进行特征抽取，将特征抽取的结果都输入到分类器中，输出n个所述候选窗分别与所述目标物体在图像特征上的相似度v¹、v²、…、vⁿ，最后根据相似度v¹、v²、…、vⁿ计算得到后验条件概率p(z_t|s_t)。

4.根据权利要求3所述的从视频中自动追踪目标物体的方法，其特征在于，采用带权的softmax函数将相似度v¹、v²、…、vⁿ转换为后验条件概率p(z_t|s_t)：

其中，