CN103761747A

CN103761747A - 一种基于加权分布场的目标跟踪方法

Info

Publication number: CN103761747A
Application number: CN201310751523.5A
Authority: CN
Inventors: 宁纪锋; 赵耀博; 石武祯
Original assignee: Northwest A&F University
Current assignee: Northwest A&F University
Priority date: 2013-12-31
Filing date: 2013-12-31
Publication date: 2014-04-30
Anticipated expiration: 2033-12-31
Also published as: CN103761747B

Abstract

本发明公开了一种基于加权分布场的目标跟踪方法，结合目标前景和背景信息的加权分布场目标表示方法，同时基于相关系数的模板匹配算法与提出的加权分布场目标表示结合，克服了原始分布场算法在跟踪过程中忽略背景等有用信息的缺点，排除了跟踪过程中目标的旋转、缩放，光照变化，快速运动，背景干扰等复杂场景的影响。

Description

一种基于加权分布场的目标跟踪方法

技术领域

本发明属于模式识别和计算机视觉领域，具体涉及一种基于加权分布场的目标跟踪方法。

背景技术

目标跟踪是在一段视频序列中寻找与目标最相似区域的过程。视频分析的三个关键步骤分别是感兴趣区域的检测、运动目标的跟踪、目标行为的自动分析。其中，目标检测是目标跟踪的前提，而目标跟踪是进行模式识别或行为分析的基础。当前，高性能的计算机，高性价比的摄像机使视频目标的自动分析和监控的需求显著增加。总的来说，与视频序列跟踪技术有密切关系的应用领域主要有：

(1)自动监控：监控一个场景，检测令人可疑的行为，它在商业、军事上有广泛的应用。

(2)视频检索：在多媒体数据库中，感兴趣内容的自动提取和检索。

(3)人机交互：比如姿势识别，眼睛运动的自动跟踪识别。

(4)交通监控：如车流量的实时统计。

(5)车辆导航：基于视频的自动驾驶和障碍物躲避。

虽然目标跟踪有着广泛的应用领域，但是它也是非常复杂的一个难题，原因主要有以下几点：

(1)目标信息的损失。因为将三维目标投影成二维图像，不可避免地会损失一部分信息。

(2)图像中的噪音对目标跟踪的干扰。

(3)目标的复杂运动，使得一般的跟踪算法很难对其建立模型。

(4)目标的非刚体运动，使得目标部分特征发生变化时，易造成目标跟丢。

(5)场景的光照变化，改变了目标特征，使得跟踪器难以识别。

(6)目标和背景相似时，一般的目标表示方法难以有效建模。

(7)实时目标跟踪要求跟踪算法必须相对简单，占用尽可能少的系统资源，但是同时也可能降低跟踪效果。

为了简化问题，通常的跟踪算法总是假定目标的运动是光滑和渐变的。一些应用中甚至假设目标的尺寸和个数已知，或基于先验信息约束目标以恒定的速度或加速度运动。虽然这些算法在特定领域中可能会取得较好的结果，但是也降低了算法的通用性，不能适用于复杂情况下的目标跟踪。同样许多跟踪算法都假定初始目标能够较好地反映目标的特征。在实际中，初始的目标一般都需要通过某种方法检测，如果检测的区域包含较多噪音，那么即使再好的跟踪算法，也难以有效地进行跟踪目标。

传统的Mean Shift跟踪算法利用颜色或纹理直方图表示目标，对形变、姿势变化等不敏感，可以在一定程度上避免漂移。但是，直方图保存目标的空间信息有限，当目标与背景相似度较高时，该方法表现力下降。Viola等将采用积分图计算的Haar-like特征应用于人脸检测，具有实时性。鉴于Haar-Like特征在人脸检测领域的巨大成功，Babenko等通过构建多示例学习分类器，在线挑出能将目标和背景进行分离的判别式Haar-like特征集，用于表示目标，在目标跟踪领域取得了极大的影响。但是，Haar特征对边缘、线段等比较敏感，且只能描述特定走向的特征，因此表示目标具有一定的局限性。Tuzel等提出了协方差矩阵描述子，可以反映图像像素的内在关联程度，实现了目标多特征融合，对旋转、尺度缩放以及亮度变化都有很强的适应性，并将其成功应用于目标检测、跟踪和纹理分类中。但协方差描述子计算复杂度高，跟踪速度较慢。

在众多的跟踪方法中，一种称之为分布场（DFs）的算法由于其跟踪效果的准确性和鲁棒性受到了广泛的关注。首先通过对图像自然分层，分布场算法很好地保留了原始图像的基本信息；然后通过对图像各层以及层间进行高斯平滑，在目标表示中引入了“模糊性”，在一定程度上克服了形变和光照等变化的影响，保证了算法的鲁棒性；最后，基于分布场的目标表示，该方法利用L1距离和梯度下降算法进行了跟踪。然而分布场算法没有考虑背景，忽略了很多有用的信息。

总的来说，由于跟踪过程中各种复杂场景的变化和不确定性，现有各种跟踪算法在效率、准确性、鲁棒性方面很难达到令人满意的效果。

发明内容

本发明解决的问题在于提供一种基于加权分布场的目标跟踪方法，能够解决跟踪过程中各种复杂场景的变化和不确定性，提高跟踪效率、准确性和鲁棒性。

本发明是通过以下技术方案来实现：

一种基于加权分布场的目标跟踪方法，包括以下步骤：

1）将视频图像转化为灰度图像，对于第一帧视频图像转化的灰度图像，利用Kronecker delta函数将其转化为一个分布场d；然后对分层后的图像进行高斯平滑，包括x和y方向上的图像域平滑和第三维上的特征域平滑，高斯平滑后分布场各像素每一列积分为1；

2）对第一帧图像进行手动标记目标位置：以一个矩形框划定目标区域，标记出矩形框左上角坐标（x，y），以及矩形框的宽度、高度；并将目标模板设定为d_t(i,j,k)，其中i和j分别索引图像的行和列，k表示所在的分布场的层数；

3）按照步骤1）的方法将目标所在帧之后的一帧视频图像转化为分布场；然后分别在目标区域周围选定目标候选区域，在距离目标区域一定距离的位置作为背景区域并采集大量背景样本，其中目标候选区域是位于目标区域和背景区域之间环形区域；背景样本在目标候选区域之外随机采集，大小与目标区域相同；

4）利用基于相关系数的模板匹配方法和加权分布场跟踪方法进行目标表示，并根据候选块区域的各分布场层与目标、与背景相应层的相似度，为有判别力的分布场层赋予更大的权重，与目标越相似，与背景越相异，则权重越大，反之则越小；然后对候选区域块与目标区域相应层的相关系数进行加权，与目标越相似，与背景越相异，则权重越大，反之则越小；最后各分布场层相关系数加权和最大的候选块即为目标位置；

5）在目标位置下次定位之前对目标模板进行更新；

6）重复步骤3）到5）的方法，直到视频序列结束，完成跟踪。

所述的步骤1）中是利用以下公式进行转化，将图像转换为一个分布场d：

其中，i和j分别索引了图像的行和列，K表示要分的层数，k＝1,2,…,K，表示各层的序号，固定深度为k的箱格集合称为“一层”。

所述的步骤1）中高斯平滑是采用以下公式进行的：

d_{mode l} = explode (I) * h_{σ_{s}} * h_{σ_{f}}

其中

是一个标准差为σ_s的2D高斯核，

是一个标准差为σ_f的1D高斯核，“*”为卷积符号。

所述的步骤3）中背景样本在目标候选区域之外随机采集，大小与目标模板相同，然后计算其平均图像。

所述的步骤4）中基于相关系数的模板匹配算法为：首先设待搜索图像S的尺寸为W×H，模板T的尺寸为m×n，模板T在图像S上平移，搜索窗口所覆盖的子图记为S_ij，其中，i、j为子图左上角顶点在图S中的坐标，i、j的搜索范围为1≤i≤W-m，1≤j≤H-n，通过比较T和S_ij的相似性，即相关系数的大小，完成模板匹配过程，归一化模板匹配的相关系数R(i,j)由以下公式计算：

R (i, j) = \frac{Σ_{m = 1}^{M} Σ_{n = 1}^{N} S_{ij} (m, n) \times T (m, n)}{\sqrt{Σ_{m = 1}^{M} Σ_{n = 1}^{N} {[S_{ij} (m, n)]}^{2}} \sqrt{Σ_{m = 1}^{M} Σ_{n = 1}^{N} {[T (m, n)]}^{2}}} .

所述的步骤4）中加权分布场跟踪方法过程如下：

首先，将在第一帧中手动标记的目标模板记为T(K)，目标候选区域记为S(K)，对于候选区域中的每个候选块S_ij(K)与目标模板T(K)各相应层根据下式计算相关系数R_ij(k),k＝1,2,…,K：

R (i, j) = \frac{Σ_{m = 1}^{M} Σ_{n = 1}^{N} S_{ij} (m, n) \times T (m, n)}{\sqrt{Σ_{m = 1}^{M} Σ_{n = 1}^{N} {[S_{ij} (m, n)]}^{2}} \sqrt{Σ_{m = 1}^{M} Σ_{n = 1}^{N} {[T (m, n)]}^{2}}};

考虑到相关系数本身即是对相似性的度量，则候选块S_ij(K)与目标模板T(K)各层的相关系数R_ij(k),k＝1,2,…,K即是两者相似性的评价标准；将背景模板转化为分布场后计算候选块与其各层的相关系数B_ij(k),k＝1,2,…,K；则权重w_ij(k),k＝1,2,...,K用以下公式表示：

w_ij(k)＝R_ij(k)/B_ij(k)

则候选块S_ij(K)与目标模板T(K)各层相关系数加权和C_ij用以下公式表示：

C_{ij} = Σ_{k = 1}^{K} w_{ij} (k) R_{ij} (k) = Σ_{k = 1}^{K} R_{ij} {(k)}^{2} / B_{ij} (k)

最终C_ij最大的候选块即为目标位置。

所述在跟踪过程中目标模板的更新是按照下式进行的：

d_t+1(i,j,k)＝ρd_t(i,j,k)+(1-ρ)d_t-1(i,j,k)

其中，ρ表示学习率，以控制模板更新的速度。

与现有技术相比，本发明具有以下有益的技术效果：

本发明提供的基于加权分布场的目标跟踪方法，由于采用了加权分布场方法，有效利用了背景信息，为有判别力的层赋予更大的权重，提高了当目标前景和背景在某些层具有共享特征时分布场算法的区分性，改进了跟踪性能；而且结合目标前景和背景信息的加权分布场目标表示方法，克服了原始分布场算法在跟踪过程中忽略背景等有用信息的缺点；同时将基于相关系数的模板匹配算法与提出的加权分布场目标表示结合，实现一种新的目标跟踪方法，采用了基于相关系数的模板匹配的搜索策略，既克服了利用L1距离度量相似性简单粗糙，易受噪声影响的缺点，又能准确搜索到全局最优值，避免了原算法使用梯度下降搜索极易陷入局部最小值的问题。

本发明提供的基于加权分布场的目标跟踪方法，排除跟踪过程中目标的旋转、缩放，光照变化，快速运动，背景干扰等复杂场景的影响，提高了效率、准确性和鲁棒性。

附图说明

图1为本发明的将图像转化为分布场的示意图；

图2为本发明的基于相关系数的模板匹配算法的示意图；

图3为视频序列中心误差图；

图4为视频序列上的跟踪结果比较图。

具体实施方式

下面结合具体的实施例对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

一种基于加权分布场的目标跟踪方法，包括分布场构建方法和基于相关系数的模板匹配方法，包括以下操作：

（1）将第一帧视频图像转化为分布场。其中分布场的构建过程如下：

对于一幅灰度图像I，可以利用Kronecker delta函数将其转化为一个分布场d，如公式（1）所示：

然后，对分层后的图像进行高斯平滑，包括x和y方向上的图像域平滑和第三维上的特征域平滑。高斯平滑如公式（2）所示：

d_{mode l} = explode (I) * h_{σ_{s}} * h_{σ_{f}} - - - (2)

其中

是一个标准差为σ_s的2D高斯核，

是一个标准差为σ_f的1D高斯核，“*”为卷积符号。

图1就是将图像“cliffbar”转化为分布场的结果。其中，左图为原始图片，中间为将原始图片分层的结果，右图为平滑后的分布场。

高斯平滑后分布场各像素每一列积分为1。事实上，这正是分布场最重要的性质。因此，由公式（3）将两个分布场结合将是可行的。而且提出，这可以用来在跟踪过程中更新目标模型。

d_t+1(i,j，k)＝ρd_t(i,j,k)+(1-ρ)d_t-1(i,j,k) （3）

（2）在第一帧手动标记目标位置。即以一个矩形框划定目标区域，需要标记出矩形框左上角坐标（x，y）和矩形框的宽度、高度。并将目标模板设定为d_t(i,j,k)，其中i和j分别索引图像的行和列，k表示所在的分布场的层数；

（3）将随后的一帧转化为分布场，方法同步骤（1）。然后分别在目标周围和距离目标合适距离的位置选定目标候选区域和采集大量背景样本，其中目标候选区域是位于目标和背景区域之间环形区域。背景样本在目标候选区域之外随机采集，大小与目标模板相同，然后计算其平均图像。

（4）利用基于相关系数的模板匹配方法和分布场的目标表示，根据候选块各层与目标、与背景相应层的相似度，为有判别力的分布场层赋予更大的权重，即与目标越相似，与背景越相异，则权重越大，反之则越小。其中基于相关系数的模板匹配方法如图2所示。

基于相关系数的模板匹配算法简单准确，适用面广，抗噪性好。假设待搜索图像S的尺寸为W×H，模板T的尺寸为m×n，模板T在图像S上平移，搜索窗口所覆盖的子图记为S_ij，其中，i、j为子图左上角顶点在图S中的坐标。很显然，i，j的搜索范围应该为1≤i≤W-m，1≤j≤H-n。最终通过比较T和S_ij的相似性，即相关系数的大小，完成模板匹配过程。

在跟踪过程中，考虑到候选区域块可能会包含与背景相似的成分，或者说候选块各层可能与目标和背景相应层的相似度不同，有些与目标更相似，有些则与背景更相似，而跟踪的成功要求尽可能排除背景成分的干扰。因此，可以对候选块与目标相应层的相关系数进行加权，与目标越相似，与背景越相异，则权重越大，反之则越小。最后，各层相关系数加权和最大的候选块即为目标位置。加权分布场跟踪方法过程如下：

首先，将在第一帧中手动标记的目标模板记为T(K)，目标候选区域记为S(K)。之后，对于候选区域中的每个候选块S_ij(K)与目标模板T(K)各相应层根据下式计算相关系数R_ij(k),k＝1,2,…,K。

R (i, j) = \frac{Σ_{m = 1}^{M} Σ_{n = 1}^{N} S_{ij} (m, n) \times T (m, n)}{\sqrt{Σ_{m = 1}^{M} Σ_{n = 1}^{N} {[S_{ij} (m, n)]}^{2}} \sqrt{Σ_{m = 1}^{M} Σ_{n = 1}^{N} {[T (m, n)]}^{2}}}

考虑到相关系数本身即是对相似性的度量，则候选块S_ij(K)与目标模板T(K)各层的相关系数R_ij(k),k＝1,2,…,K即是两者相似性的评价标准。同样地，将背景模板转化为分布场后计算候选块与其各层的相关系数B_ij(k),k＝1,2,…,K。则权重w_ij(k),k＝1,2,...,K用公式（4）表示：

w_ij(k)＝R_ij(k)/B_ij(k) （4）

则候选块S_ij(K)与目标模板T(K)各层相关系数加权和C_ij用公式（5）表示：

C_{ij} = Σ_{k = 1}^{K} w_{ij} (k) R_{ij} (k) = Σ_{k = 1}^{K} R_{ij} {(k)}^{2} / B_{ij} (k) - - - (5)

最终C_ij最大的候选块即为目标位置。

（5）利用公式（3）对目标模板进行更新。其中ρ表示学习率，控制模板更新的速度。这主要是因为跟踪认为目标是渐变和平滑的，防止视频的某些帧跳变而导致跟踪失败。

（6）循环往复，直到视频序列结束，完成跟踪。

整个视觉跟踪方法流程如下所示：

输入：V=视频序列。

I=第1帧标记的目标块。

σ_s=空间平滑参数。

σ_f=特征平滑参数。

K=分布场的层数。

ρ=学习率。

输出：(x,y)_f，视频序列V每一帧f中目标的位置。

1：初始化

d_{mode l} = explode (I) * h_{σ_{s}} * h_{σ_{f}} .

2：初始化目标位置(x,y)到目标块I的左上角。

3：forf＝2-＞|V|do

4：

d_{f} = explode (I) * h_{σ_{s}} * h_{σ_{f}}

5：(x′,y′)＝argmax_(x,y)C(d_f(x,y),d_model)

6：(x,y)＝(x′,y′)

7：d_model＝ρd_model+(1-ρ)d_f(x,y)

8：end for

为了评估跟踪方法的性能，本发明在由Babenko等提供的一系列视频上进行了测试。这些极具挑战的视频序列涵盖了视觉跟踪领域多方面的困难，比如严重遮挡、目标形变、平面内外的旋转、光照变化、大小变化、快速运动、复杂背景等，并选择目前对上述视频序列跟踪效果良好的其它三种跟踪算法作为对比，分别是原始的分布场（DF），多示例学习（MIL）和实时压缩感知跟踪（CT）。算法是在基于Windows7系统的Matlab2010b上实现，计算机配置是Inter(R)Core(TM)i5-2400CPU3.10GHz，6.00GB RAM。算法跟踪速度与目标模板和目标候选区域的大小有关，但总体上能满足实时性的要求。

参数的设置：

作为对比的跟踪算法使用作者发布的代码和其在文章中所提供的参数。由于MIL和CT算法包含一些随机性，对每个视频序列运行5次并求其平均值作为跟踪结果。提出的方法参数设置如下：

对于分布场的层数K，考虑到实时性的要求，将其设置成8层。空间域高斯平滑的参数与目标大小有关。总体上，目标越大，参数越大，反之则越小。特征域高斯平滑的参数也同样适用。考虑跟踪速度和精度的要求，候选区域的搜索半径各个视频因目标大小和目标运动幅度从10～15像素略有不同。背景样本的采集区域为对各视频从20～33像素不等。背景样本的个数设置为200。最后，目标模型更新时学习率ρ设置为0.95（除了David视频为0.85）。

定量分析：

使用两种不同策略来分析跟踪结果，加权分布场、分布场、多示例和压缩感知四种算法，分别是对12个视频序列中某些帧的跟踪效果跟踪结果与真实位置的中心距离（表1）和准确跟踪帧占视频序列的百分比（表2）。对于一个视频帧，如果

就认为它被准确跟踪，其中A表示跟踪结果矩形框，B表示目标位置真实值矩形框。由表1和表2可以看出，对于大部分视频序列，本发明提出的加权分布场方法比其余三种算法得到了更好的跟踪效果。图3展示了跟踪结果和目标位置真实值之间的相对位置错误（以像素为单位）。

表1跟踪结果与真实位置中心距离

斜体并加粗字体表示最好的结果，而仅加粗字体表示第二好的结果；

表2准确跟踪帧占视频序列的百分比

定性分析：

图4展示了加权分布场与分布场、多示例和压缩感知三种算法在12个视频序列中某些帧的跟踪效果对比。

Tiger1和tiger2这两个视频序列包含许多挑战性，包括多次遮挡，快速运动造成的模糊等，这使许多算法都发生了漂移，而提出的算法则取得了最好的表现。

David和sylvester这两个视频包含了光照、目标大小和姿势等变化。对于David，分布场算法和提出的算法取得了不错的表现，但是由表1可知，提出的算法具有更小的中心误差。对于sylvester，提出的算法尽管前期很长时间内跟踪效果良好，但后期略有漂移，不过整体上与分布场算法效果差别不大。

Girl，cliffbar和twinings这三个视频难度很大，包含了多次和长时间由旋转引起的形变和缩放（girl、twinings），复杂或与目标相似的背景（girl、cliffbar）。可以看出，提出的算法极大地提高了跟踪的性能，而其余三种算法则表现不佳。这三个视频充分体现了加权分布场算法在处理复杂场景时的优越性。

Occluded face和occluded face2这两个视频主要测试算法对长时间和大范围遮挡的处理效果。提出的算法和分布场算法都取得了最好的表现。这可能是因为分布场目标表示方法比Haar特征更好地捕获了目标的特征。

Dollar这个视频包含了目标的形变和相似物体的干扰。同样地，提出的算法和分布场算法取得了最好的表现。

Coke11和surfer这两个视频中目标的大尺度旋转、快速运动、外观变化和噪音等增加了跟踪的难度。加权分布场算法对coke11算法跟踪效果一般；但对于surfer，加权分布场算法和CT算法跟踪效果最好。

总的来说，加权分布场算法能够克服遮挡、旋转、外观和光照变化等引起的跟踪困难，在四种算法中，取得了最好的跟踪结果。

Claims

1.一种基于加权分布场的目标跟踪方法，其特征在于：包括以下步骤：

5）在目标位置下次定位之前对目标模板进行更新；

2.根据权利要求1所述的基于加权分布场的目标跟踪方法，其特征在于：所述的步骤1）中是利用以下公式进行转化，将图像转换为一个分布场d：

3.根据权利要求1所述的基于加权分布场的目标跟踪方法，其特征在于：所述的步骤1）中高斯平滑是采用以下公式进行的：

d_{mode l} = explode (I) * h_{σ_{s}} * h_{σ_{f}}

其中

是一个标准差为σ_s的2D高斯核，

是一个标准差为σ_f的1D高斯核，“*”为卷积符号。

4.根据权利要求1所述的基于加权分布场的目标跟踪方法，其特征在于：所述的步骤3）中背景样本在目标候选区域之外随机采集，大小与目标模板相同，然后计算其平均图像。

5.根据权利要求1所述的基于加权分布场的目标跟踪方法，其特征在于：所述的步骤4）中基于相关系数的模板匹配算法为：首先设待搜索图像S的尺寸为W×H，模板T的尺寸为m×n，模板T在图像S上平移，搜索窗口所覆盖的子图记为S_ij，其中，i、j为子图左上角顶点在图S中的坐标，i、j的搜索范围为1≤i≤W-m，1≤j≤H-n，通过比较T和S_ij的相似性，即相关系数的大小，完成模板匹配过程，归一化模板匹配的相关系数R(i,j)由以下公式计算：

R (i, j) = \frac{Σ_{m = 1}^{M} Σ_{n = 1}^{N} S_{ij} (m, n) \times T (m, n)}{\sqrt{Σ_{m = 1}^{M} Σ_{n = 1}^{N} {[S_{ij} (m, n)]}^{2}} \sqrt{Σ_{m = 1}^{M} Σ_{n = 1}^{N} {[T (m, n)]}^{2}}} .

6.根据权利要求1所述的基于加权分布场的目标跟踪方法，其特征在于：所述的步骤4）中加权分布场跟踪方法过程如下：

R (i, j) = \frac{Σ_{m = 1}^{M} Σ_{n = 1}^{N} S_{ij} (m, n) \times T (m, n)}{\sqrt{Σ_{m = 1}^{M} Σ_{n = 1}^{N} {[S_{ij} (m, n)]}^{2}} \sqrt{Σ_{m = 1}^{M} Σ_{n = 1}^{N} {[T (m, n)]}^{2}}};

w_ij(k)＝R_ij(k)/B_ij(k)

C_{ij} = Σ_{k = 1}^{K} w_{ij} (k) R_{ij} (k) = Σ_{k = 1}^{K} R_{ij} {(k)}^{2} / B_{ij} (k)

最终C_ij最大的候选块即为目标位置。

7.根据权利要求1所述的基于加权分布场的目标跟踪方法，其特征在于：在跟踪过程中目标模板的更新是按照下式进行的：

d_t+1(i,j,k)＝ρd_t(i,j,k)+(1-ρ)d_t-1(i,j,k)

其中，ρ表示学习率，以控制模板更新的速度。