CN104537694A

CN104537694A - 一种基于关键帧的在线学习的离线视频跟踪方法

Info

Publication number: CN104537694A
Application number: CN201510010227.9A
Authority: CN
Inventors: 张笑钦; 刘飞; 王迪; 叶修梓; 蒋红星
Original assignee: Wenzhou University
Current assignee: Wenzhou University
Priority date: 2015-01-09
Filing date: 2015-01-09
Publication date: 2015-04-22
Anticipated expiration: 2035-01-09
Also published as: CN104537694B

Abstract

本发明公开了一种基于关键帧的在线学习的离线视频跟踪方法，包括以下步骤：对于给定的离线视频，选择一定数量的关键帧进行标注，并由此构建完备的模板字典，在跟踪过程中，对于每一个候选图像区域，计算其与纯净模板子块之间的距离，从而有效对纯净模板子块进行选择，提高计算效率；为了减少跟踪误差的积累，采用循环跟踪的策略将开环问题转化为闭环问题，从而有效地提高目标跟踪的鲁棒性；利用跟踪的结果，对动态模板进行在线地半监督学习，以适应目标表观的变化。在跟踪过程中对目标模板字典进行有效地在线学习，从而避免每次模板更新所带来的误差累积；采用循环跟踪的策略将开环问题转化为闭环问题，从而有效的提高目标跟踪的鲁棒性。

Description

一种基于关键帧的在线学习的离线视频跟踪方法

技术领域

本发明涉及计算机视觉跟踪技术领域，具体涉及一种基于关键帧的在线学习的离线视频跟踪方法。

背景技术

根据视频来源的不同可以简单地把视频目标跟踪分为两大类：在线视频目标跟踪和离线视频目标跟踪。在线视频的目标跟踪只有当前帧之前的视频数据，因此在线视频的目标跟踪问题是一个开环控制系统，使得误差不可避免地发生积累。而离线视频的目标跟踪在跟踪之前已具有完整的视频，因此可以通过对少量的关键帧进行标注，从将开环控制系统转化为闭环控制系统，使得离线视频跟踪可以用于视频标注、视频检索、事件分析以及基于运动目标的视频压缩等。

总的来说，目前的目标跟踪算法主要两个关键性的问题：(1)表观模型；(2)跟踪框架。表观模型就是如何对目标物体进行有效的表达，并且进行实时的更新。因此，如何构建一个好的表观模型对目标视觉跟踪起着至关重要的作用。

目标灰度模板，是一种最直接的目标建模方法，不过该模型缺乏判别性和鲁棒性。尽管目标区域的颜色直方图对于目标尺度、旋转以及非刚性形变较为鲁棒，但是由于其忽略了目标表观的颜色空间分布信息，存在一定的缺陷。虽然基于核密度估计的表观模型很好的解决了这一缺陷，不过换来的代价是计算与存储复杂度的增长。另外，基于条件随机场的表观模型通过马尔可夫随机场来建模邻近像素之间的内在关系，但是其训练代价非常巨大。基于子空间学习的表观模型由于其子空间不变假设更为合理，因而被广泛地应用于视觉跟踪领域。但是该模型在训练时需要足够多的样本，在实际运用中很难达到实时性的要求。基于此，Levy和Lindenbaum提出了序列KL(Sequential Karhunen-Loeve)变换算法用于增量地学习图像的特征基。Lim等扩展了序列KL变换算法，同时对目标图像的均值和特征基进行增量更新，并将该算法首次应用于目标的视觉跟踪。而后，鲁棒估计策略，Yang的基于数据驱动的加强自适应方法，Liao的基于鲁棒卡尔曼滤波的跟踪方法以及Gai和Stevenson基于动态模型的方法，虽然在某些特定的场景中获得了较好的跟踪性能，但是有一定的不足之处：即上述所有基于子空间的跟踪算法首先要将图像展成一维向量，目标表观的空间分布信息几乎完全丢失，从而使得模型对目标表观的全局性变化以及噪音非常敏感。针对这一缺点，Hu等引入张量思想，在一定程度上起到了效用。不过由于其在使用R-SVD更新过程中只保留了前R个较大特征值所对应的特征向量，从而带来了一定的误差，并且随着跟踪的进行，误差会逐步累计，导致模型漂移。虽然基于动态张量分析的模型避免了上述误差，得到了更加精确的结果，但是由于小样本问题使得计算得到的协方差矩阵无法描述样本的分布情况，从而导致子空间的计算退化。

近年来，基于L1正则化稀疏表示的目标表观模型受到人们的广泛关注。稀疏表示模型描述了以下问题：给定一个候选的目标区域，用尽量少的模板对其进行重构。在稀疏表示的框架下，模板字典由一系列目标模板(object template)和自定义的辅助模板(trivial template)组成，新的候选样本将通过模板字典的线性稀疏重构来表示。目标模板表示的是待跟踪目标的视觉特征，自定义的辅助模板是为了表示噪声和遮挡，每个辅助模板只有一个元素的值为1，其他元素均为0，因此不同的辅助模板对应着目标模板不同位置的像素。如果某个辅助模板的重构系数不为零，则表明其对应位置的像素有可能被噪声污染或者被其他物体遮挡。所以在稀疏表示的框架下，通过辅助模板与目标模板的组合，可以有效地处理图像噪声和遮挡，而不需要采用其他额外的策略。

尽管基于稀疏表示的表观模型在处理遮挡和噪声方面取得了巨大的成功，然而该模型还是存在如下问题：模板字典中目标模板的数量过少(一般为10)，远远没有达到稀疏表示理论对字典模板过完备(over-complete)的要求。此外，传统的稀疏表示跟踪算法只是简单的用最新得到的跟踪结果去代替旧的目标模板，很容易将跟踪结果中的误差(如噪声、遮挡引起的)引入到模板字典中，当误差积累到一定程度就会导致模型漂移问题(model drifting)。对于在线视频跟踪，由于无法获取整段视频，建立过完备字典是很难的；而离线视频在目标跟踪之前提供所有视频数据，为构建一个完备充分的目标模板字典提供了基础。在跟踪过程中字典的更新也是重要环节，在线跟踪字典的更新是根据当前跟踪到的区域与已有字典进行相似性度量，如果大于预先设定的阀值就更新，否则就不更新。这样的字典更新方法也可能导致误差积累，如果更新频率过快误差累积量就大。而另一方面，如果更新太慢，则难以适应目标表观的变化。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种可以避免每次模板更新所带来的误差累积，采用循环跟踪的策略将开环问题转化为闭环问题，从而有效的提高目标跟踪的鲁棒性的基于关键帧的在线学习的离线视频跟踪方法。

为实现上述目的，本发明提供了如下技术方案：一种基于关键帧的在线学习的离线视频跟踪方法，包括以下步骤：

(1)对于给定的离线视频，选择一定数量的关键帧进行标注，并由此构建完备的模板字典，该模板字典包含三个部分：纯净模板、动态模板和辅助模板；

(2)在跟踪过程中，对于每一个候选图像区域，计算其与纯净模板子块之间的距离，从而有效对纯净模板子块进行选择，提高计算效率；

(3)为了减少跟踪误差的积累，采用循环跟踪的策略将开环问题转化为闭环问题，从而有效地提高目标跟踪的鲁棒性；

(4)利用跟踪的结果，对动态模板进行在线地半监督学习，以适应目标表观的变化。

通过采用上述技术方案，在跟踪过程中对目标模板字典进行有效地在线学习，从而避免每次模板更新所带来的误差累积；采用循环跟踪的策略将开环问题转化为闭环问题，从而有效的提高目标跟踪的鲁棒性。

本发明进一步设置为：所述的步骤(1)具体包括以下子步骤：

(1.1)，从整个视频中选择一定数量的关键帧，手工标定目标区域；

(1.2)，在每个关键帧标定的区域中，上下左右各扰动1-2个像素产生十个纯净模板；相邻关键帧之间，由对应的纯净模板线性组合生产一系列动态模板；

(1.3)，构建产生一系列辅助模板，每个辅助模板只有一个元素的值为1，其他元素均为0，不同的辅助模板对应着目标模板不同位置的像素；如某个辅助模板的重构系数不为零，则表明其对应的像素有可能被噪声污染或者被其他物体遮挡。

本发明还进一步设置为：

所述的步骤(2)具体包括以下子步骤：

(2.1)，将纯净模板根据产生它的关键帧分成不同的子块；

(2.2)，对于每一个候选图像区域，计算其与纯净模板子块之间的距离；

(2.3)，只要候选区域与纯净模板子块中任一模板之间的距离小于一定的阈值，就采用该纯净模板子块对候选区域进行稀疏重构；否则就不采用该纯净模板子块对候选区域进行稀疏重构。

本发明还进一步设置为：所述的步骤(3)具体包括以下子步骤：

(3.1)，将整段视频序列根据关键帧分成若干段子序列；

(3.2)，在每段子序列上，从两个关键帧节点开始，分别进行跟踪，在跟踪过程中，采用步骤(2)中所选择的模板字典进行对所有候选区域进行稀疏重构，按重构误差从小到大排序，选择重构误差最小的候选区域作为跟踪结果；

(3.3)，将两个关键帧节点循环跟踪的结果进行比较，选择跟踪结果误差最小的帧作为循环跟踪的交点，并由此获得整个子序列的跟踪结果。

本发明还进一步设置为：所述的步骤(4)具体包括以下子步骤：

(4.1)，将当前帧之前5帧的跟踪结果中重构误差最小的候选区域作为有标签的样本数据；

(4.2)，从重构误差较小，重构误差排序前k的候选区域选取一些候选区域作为无标签的样本数据；

(4.3)，根据上述样本数据集合，采用基于保持稀疏重构的半监督字典学习方法，对模板字典中的动态模板进行选择性更新。

与现有技术相比，本发明有益效果是：在跟踪过程中对目标模板字典进行有效地在线学习，从而避免每次模板更新所带来的误差累积；采用循环跟踪的策略将开环问题转化为闭环问题，从而有效的提高目标跟踪的鲁棒性。

(1)构建有效的目标模板字典。目标模板字典包含三个部分：纯净模板、动态模板和辅助模板。纯净模板用于防止目标在跟踪过程中的漂移问题，动态模板用于适应目标表观的变化，辅助模板用于处理图像噪声污染或者目标被其他物体遮挡。

(2)跟踪方式的改进。传统的目标跟踪方法按照时间顺序对视频序列进行跟踪，该跟踪方式从本质上来说是一个开环系统，跟踪误差不可避免地发生积累。本发明采用循环跟踪策略，即关键帧两端同时相向跟踪，将两个方向循环跟踪的结果进行比较，选择跟踪结果误差最小的帧作为循环跟踪的交点，从获得整段子序列的跟踪结果。循环跟踪的策略将开环问题转化为闭环问题，从而有效地提高目标跟踪的鲁棒性。

(3)纯净模板的选择性使用。由于本发明构建了一个较为完备的模板字典，因此模板数量较大。在跟踪过程中，如果用全部的模板进行稀疏重构，会导致计算过程缓慢，实时性较差。本发明对纯净模板子块进行选择，提高了计算效率。

(4)动态模板的半监督学习。由于跟踪过程没有任何目标状态的真实数据(ground truth)做参照，很难判断跟踪结果是否是目标本身。如果跟踪的结果存在噪音、遮挡或者不是目标本身时，用这些跟踪结果直接更新模板字典必然会导致跟踪漂移。另一方面，目标表观在短期内的差异较小，因此它们倾向于在同一个子空间中，并且共享若干少量的字典模板。由此，本发明提出了一种基于保持稀疏重构的半监督字典学习方法，对目标的模板字典进行更新。基于保持稀疏重构的思想，迫使跟踪结果中确实是目标本身的数据共享少量字典模板，采用半监督字典学习的方法，实现对跟踪结果中非目标样本的剔除，同时使得模型对目标本身所带的噪音和遮挡为鲁棒。

下面结合说明书附图和具体实施例对本发明作进一步说明。

附图说明

图1为本发明实施例的跟踪系统的整体框架；

图2为本发明实施例的循环跟踪示意图。

具体实施方式

参见图1和图2，本发明公开的一种基于关键帧的在线学习的离线视频跟踪方法，包括以下步骤：

在跟踪过程中对目标模板字典进行有效地在线学习，从而避免每次模板更新所带来的误差累积；采用循环跟踪的策略将开环问题转化为闭环问题，从而有效的提高目标跟踪的鲁棒性。

所述的步骤(1)具体包括以下子步骤：

所述的步骤(2)具体包括以下子步骤：

(2.1)，将纯净模板根据产生它的关键帧分成不同的子块；

所述的步骤(3)具体包括以下子步骤：

(3.1)，将整段视频序列根据关键帧分成若干段子序列；

所述的步骤(4)具体包括以下子步骤：

本发明实施过程中需要一台3.2G赫兹中央处理器和4G字节的英特尔酷睿i7计算机，每次实验时都需要对关键帧图像进行手工标记物体的三个坐标，分别为左上角、左下角和右上角，实验过程中的每个关键帧图像产生的纯净模板数取10个，实验的粒子数设置为300个。

实现本发明的方法，本发明基于关键帧的模板字典构建与在线学习的离线视频跟踪方法，下面详细说明：

(1)初始化目标模板。

首先，在视频序列中选取n(5-10)幅关键帧，进行人工标注。对于每个标注的关键帧，在标注的目标区域上下左右各扰动1-2个像素，产生纯净的目标模板由此获得所有关键帧的纯净模板

其次，采用纯净的模板生成动态模板生成方式是：相邻关键帧之间，由对应的纯净模板线性组合生产一系列动态模板，动态模板的作用是在跟踪过程中目标表观和环境发生变化时，有效地适应目标表观的变化。

再次，辅助模板的引进，在跟踪过程中不可避免的有各种的噪声或者遮挡出现。为了有效地处理噪声和遮挡，引入辅助模板D_f＝[i₁,i₂,…,i_d]∈R^d×d。每个辅助模板只有一个元素的值为1，其他元素均为0，即表示只有第k个位置是1，其余都为零。因此不同的辅助模板对应着目标模板不同位置的像素。如果某个辅助模板的重构系数不为零，则表明其对应位置的像素有可能被噪声污染或者被其他物体遮挡。

最后，根据上面定义的纯净模板、动态模板和辅助模板的建立，此刻我们就构建了一个过完备的字典D＝[D_p,D_v,D_f]。其中D_p、D_v、D_f分别为纯净模板、动态模板和辅助模板的集合。

(2)视频序列的循环跟踪。

本发明采用传统的粒子滤波作为跟踪框架，从上一帧传播过程中选定候选目标模板中抽取若干粒子，选择过程服从高斯分布规律，按照仿射变换进行传播，产生一系列与粒子相对应的目标候选区域。对于每个候选目标区域y，如果用全部的模板字典进行稀疏重构，会导致计算过程缓慢，实时性较差。为了提高计算效率，本项目对纯净模板子块进行选择，对跟踪城中模板数量做一定的压缩，具体操作如下：

在跟踪第i个关键帧和第i+1个关键帧之间的子序列时，我们选择这两个关键帧产生的纯净模板、动态模板和辅助模板，形成字典

为提高跟踪的准确率，我们采取从中选取与候选目标区域y相近的模板，具体过程如下：计算候选目标区域y与上述字典中的每个模板之间的相似度sim<y,d_i>，计算结果按升序排列，选取前l个作为待添加的模板最后将加入到字典集合里形成对候选目标区域y进行重构的模板字典上述选择标准的含义是：只要候选区域y与纯净模板子块中任一模板之间的距离小于一定的阈值，就采用该纯净模板子块对候选区域进行稀疏重构；否则就不采用该纯净模板子块对候选区域进行稀疏重构。

其次，在理想情况下，候选区域y均可以用目标模板(除辅助模板外)进行线性地表达，y＝D'a＝a₁·d₁+a₂·d₂+…+a_m·d_m。但是，在实际情况中往往存在图像噪声和遮挡，使得上述线性模型无法精准地表示候选区域，因此需要引入噪声项y＝D'a＝a₁·d₁+a₂·d₂+…+a_m·d_m+ζ，而且ζ可以用辅助模板线性表述ζ＝D_f·e＝e₁·i₁+e₂·i₂+e₃·i₃+…+e_d·i_d，此刻我们的候选区域就可以表示为

y = [D^{'}, D_{f}] [\begin{matrix} a \\ e \end{matrix}] = Dp .

利用L₁正则化的约束，上述表示模型的重构稀疏可以通过如下优化问题获得：

\begin{matrix} \hat{p} = \arg \min_{p} {| | p | |}_{1} & subject & to & Dp = y \end{matrix}

而候选区域y与目标模型的相似度可以用重构误差来衡量||y-D'a||₂。

在计算所有粒子对应的候选区域的重构误差后，选择误差最小的候选区域作为跟踪结果。

最后，如图2所示，本发明在跟踪过程中采取循环的方式跟踪，在两个关键帧之间，首先从第一个关键帧出发沿着正方向对视频序列进行跟踪，另外从第二个关键帧出发沿着反方向对视频序列进行跟踪，以这种方式进行循环跟踪，直到跟踪完这两个关键帧之间的子序列为止。将两个方向循环跟踪的结果进行比较，选择跟踪结果误差最小的帧作为循环跟踪的交点，从而获得整段子序列的跟踪结果。

(3)动态模板字典的半监督学习。

首先，将当前帧之前5帧的跟踪结果(重构误差最小的候选区域)作为有标签的样本数据,其构成的集合记为X_label；从重构误差较小(重构误差排序前k的候选区域)选取一些候选区域作为无标签的样本数据，其构成的集合记为X_unlabel。

其次，记X＝[X_unlabelX_label]，X在当前字典D下的稀疏表示矩阵为A＝[A_unlabelA_label]。记G为原始数据的稀疏重构系数矩阵，即G的第i行表示样本x_i在X中的稀疏重构系数(其中要求x_i不能用它本身来表示，即g_ii≠0)。

最后，利用矩阵L₁和L_2,1正则化约束，通过求解以下半监督字典学习框架来实现目标模板字典的更新。其中||A_label||_2,1表示同一类样本共享若干少量的字典模板；由于X_unlabel中有可能包含目标样本，也有可能包含非目标样本，因此可以有效地去除非目标样本对字典模板的影响；表达了稀疏系数之间仍然保持了数据之间的重构关系，通过这一项约束就迫使无标签样本中的目标样本与X_label共享那些少量的字典模板，这样就将无标签样本的信息也融入到优化问题中。由此所更新出来的字典D可以有效地去除噪声、遮挡等问题的影响，实现目标本质特征模板的更新。

上述实施例对本发明的具体描述，只用于对本发明进行进一步说明，不能理解为对本发明保护范围的限定，本领域的技术工程师根据上述发明的内容对本发明作出一些非本质的改进和调整均落入本发明的保护范围之内。

Claims

1.一种基于关键帧的在线学习的离线视频跟踪方法，其特征在于，包括以下步骤：

(3)采用循环跟踪的策略将开环问题转化为闭环问题；

2.根据权利要求1所述的一种基于关键帧的在线学习的离线视频跟踪方法，其特征在于：所述的步骤(1)具体包括以下子步骤：

3.根据权利要求1所述的一种基于关键帧的在线学习的离线视频跟踪方法，其特征在于：所述的步骤(2)具体包括以下子步骤：

(2.1)，将纯净模板根据产生它的关键帧分成不同的子块；

4.根据权利要求1所述的一种基于关键帧的在线学习的离线视频跟踪方法，其特征在于：所述的步骤(3)具体包括以下子步骤：

(3.1)，将整段视频序列根据关键帧分成若干段子序列；

5.根据权利要求1所述的一种基于关键帧的在线学习的离线视频跟踪方法，其特征在于：所述的步骤(4)具体包括以下子步骤：