CN106570884A

CN106570884A - 基于在线更新字典模型的目标跟踪方法

Info

Publication number: CN106570884A
Application number: CN201610879754.8A
Authority: CN
Inventors: 杨嘉琛; 许茹; 姜斌; 王焕玲
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2016-09-30
Filing date: 2016-09-30
Publication date: 2017-04-19

Abstract

本发明涉及一种基于在线更新字典模型的目标跟踪方法，包括：根据给定的初始目标位置，在视频的前N帧，利用最近邻算法KNN实现初始跟踪，获得每一帧对应的目标区域。将每个目标区域分为大小相同的一些图像子块，将得到的图像子块进行组合得到字典。根据字典P进行跟踪：根据当前帧的目标位置，在下一帧以其为中心在周围进行随机采样，以字典元素为基，对每个候选目标区域进行基于稀疏表示的重建，抽取稀疏表示的系数矩阵C。选取最稀疏矩阵对应的区域为最佳目标区域，作为跟踪结果。在跟踪过程中，对字典进行更新。本发明具有较高的鲁棒性、准确性和实时性。

Description

基于在线更新字典模型的目标跟踪方法

技术领域

本发明属视频处理领域，涉及一种基于在线更新字典模型的目标跟踪方法。

背景技术

视觉目标跟踪是计算机视觉研究领域中的一个重要课题。目标跟踪是对图像序列中的目标进行检测，提取、识别和跟踪，从而获得目标的运动参数，例如位置、速度和加速度等信息，为对目标做进一步的分析与理解提供帮助。随着计算机技术的不断发展，计算能力得到了极大提高、廉价高性能摄像头的广泛应用、以及自动视频分析需求的不断增长，基于视觉的目标跟踪方法研究成为计算机视觉中的研究热点。该技术被广泛应用于机器人控制、视频监控、驾驶助理、动作识别和人机交互等领域中。

在目标跟踪过程中，跟踪目标的运动突变，跟踪目标和场景的模式变化、非刚体形变、目标与目标以及背景间的遮挡和图像采集设备的运动等都会影响目标的跟踪效果，在目标的背景、形态、姿势、大小和光照条件发生强烈变化的情况下，对目标进行稳健、实时的跟踪有一定的难度，因此需要提高目标跟踪方法在复杂环境下的鲁棒性、准确性和实时性。

发明内容

本发明的目的在于提供一种在复杂环境下具有较高的鲁棒性、准确性和实时性的目标跟踪方法。本发明利用字典模型将目标分为子块进行建模，更加注重局部特征，另外利用在线更新实现跟踪对于目标外形变化、光照等问题的适应性，提高跟踪算法的稳定性和准确性。技术方案如下：

一种基于在线更新字典模型的目标跟踪方法，包括下列步骤：

第一步：根据给定的初始目标位置，在视频的前N帧，利用最近邻算法KNN实现初始跟踪，获得每一帧对应的目标区域。其中N可以自由设定。

第二步：将第一步得到的每个目标区域分为大小相同的一些图像子块，将得到的图像子块进行组合得到字典P。

第三步：得到字典P之后，根据字典P进行跟踪：根据当前帧的目标位置，在下一帧以其为中心在周围进行随机采样，以字典元素为基，对每个候选目标区域进行基于稀疏表示的重建，抽取稀疏表示的系数矩阵C。

第四步：选取最稀疏矩阵对应的区域为最佳目标区域，作为跟踪结果。

第五步：在跟踪过程中，每隔L帧进行一次稀疏表示系数矩阵C的检测，得到系数质量q作为是否更新字典的标志；预设一个更新阈值，若q较小，小于此阈值，则系数矩阵比较稀疏，则表明现有字典信息完备，字典不需要更新；否则，q较大，大于此阈值，系数矩阵呈现值小而密集的特征，表明字典需要进行更新，其中，系数质量定义为：

其中表示c_i中第j个系数，表示矩阵C中所有非零系数的数量，表示取值大于阈值thr的系数的数量。

第六步：在形成字典的N个目标区域中，选取前N/10个目标区域为静态部分，它们在跟踪过程中不会发生变化；剩余部分为字典的动态部分，它们会随着跟踪过程中目标的变化而变化，若根据第五步，字典需要更新，则添加新捕捉的目标区域所对应的图像子块到字典的最后，并删除动态部分的最前一个目标区域对应的图像子块。

第三步中，稀疏表示系数矩阵C的计算方法可以如下：

对于一个新的候选目标区域Y，将其分为相同大小的一些子块[y₁,y₂...,y_n]∈R^m ^×n，其中n是子块数目，y_i∈R^m×1是第i个子块对应的向量，每一个子块可表示成字典中基元素的线性组合：

y_i＝P·c_i+e_i (1)

其中c_i是稀疏表示的系数，e_i是表示误差，候选目标区域Y可以表示为

Y＝PC+E (2)

其中C＝[c₁,c₂,...,c_n]∈R^(N×n)×n是系数矩阵，E＝[e₁,e₂,...,e_n]∈R^m×n表示由遮挡或者形变等引起的误差，系数矩阵C通过求解下列最优化问题得到，其中λ为调整系数：

本发明涉及字典学习和稀疏表示，提出基于在线更新字典模型的目标跟踪方法，既可以存储目标的最原始信息以防止跟踪过程中的漂移，又可以在线更新以实现对目标变化的适应。本发明所提出的基于在线更新字典模型的目标跟踪方法能够很好地实现目标跟踪，并且能够适应光照，形变和尺度变换等问题，在应用中具有鲁棒性。

附图说明

图1跟踪流程。第一行的步骤实现初始阶段跟踪，第二行步骤实现基于字典的跟踪并实现在线更新。

图2字典形成示意图。第一列为不同帧的目标区域，第二列为归一化之后的图像块，第三列为分块处理之后的各子块示意，所有子块形成字典，字典元素分为静态和动态两部分。

图3候选目标区域的稀疏表示系数。(a)系数稀疏(b)系数稠密

具体实施方式

本发明提出一种基于字典表示和在线更新的目标跟踪方法，建立字典模型对跟踪目标进行基于稀疏表示和系数统计的建模表示，为了适应物体在运动中的变化，引入在线更新方法对字典进行更新。包括以下步骤：

第一步：在视频的前N帧，根据给定的初始目标位置，利用最近邻算法KNN实现初始跟踪，得到每一帧对应的目标区域为T_i，其中i对应帧数，组合得到集合[T₁,T₂,...,T_N]作为形成字典的模板元素。

第二步：对于一个目标区域T，将其分为相同大小的一些子块[p₁,p₂,...,p_n]∈R^m ^×n，其中n是子块数目，p_i∈R^m×1是一个子块对应的向量。根据第一步，前N帧得到N个目标区域，将每个区域进行分块处理，得到的所有图像子块字典P

P＝[p₁₁,p₁₂,...,p_1n,p₂₁,p₂₂,...,p_N1,p_N2,...,p_Nn]∈R^m×(N×n) (1)

其中p_ij表示第i帧目标区域的第j个子块。

第三步：字典形成之后，跟踪过程基于字典实现。根据当前帧的位置，在下一帧以其为中心在其周围进行随机采样，作为候选目标区域，计算每个候选目标区域基于字典的稀疏表示矩阵C。计算方法如下：

对于一个新的候选目标区域Y，将其分为相同大小的一些子块[y₁,y₂...,y_n]∈R^m ^×n，其中n是子块数目，y_i∈R^m×1是第i个子块对应的向量。每一个子块可以表示成字典中基元素的线性组合，

y_i＝P·c_i+e_i (2)

其中c_i是稀疏表示的系数，e_i是表示误差。由此，候选目标区域Y可以表示为

Y＝PC+E (3)

其中C＝[c₁,c₂,...,c_n]∈R^(N×n)×n是系数矩阵，E＝[e₁,e₂,...,e_n]∈R^m×n表示由遮挡或者形变等引起的误差。系数矩阵C可以通过求解下列最优化问题得到

第四步：对于给定的目标区域集合Z＝[z₁,z₂,...,z_t],根据贝叶斯跟踪在第三步随机采样得到的所有区域中寻找拥有最大后验概率的候选目标区域x_t，即

其中p(x_t|Z)表示后验概率，表示状态估计。p(x_t|Z)可以用下式进行估计，

其中p(x_t|x_t-1)表示连续两帧之间的动态模型，p(z_t|x_t)表示在给定状态x_t的情况下出现z_t的概率。其中，p(x_t|x_t-1)＝N(x_t；x_t-1,Σ)，N表示正态分布，其中对角矩阵Σ的元素是仿射变换参数的方差。仿射变换用于估计两帧之间的运动。p(z_t|x_t)可以利用字对其进行建模。计算方法如下：

(1)由于字典元素排列有序，所以对于候选目标区域的一个子块y_i，它对应的系数c_i可以被分成几个部分其中是第k个模板的系数矩阵。

(2)由此计算

其中u_i∈R^N×1是第i个图像子块，A是归一化因子。

(3)将一个参考目标区域所有图像子块的u_i组合形成矩阵U＝[u₁,u₂,...,u_n]，然后提取每个u_i的最大值作为候选目标区域的特征f

f＝[u_1max,u_2max,...,u_nmax] (8)

其中u_imax表示u_i中的最大值。由此可得，

第五步：在跟踪过程中，每隔L帧进行一次系数质量检测，并且此次检查之前的L个目标区域会作为一组数据暂时保存，供更新使用。得到的系数矩阵如果比较稀疏，则表明现有字典信息完备，可以利用有限元素完全表达新的候选目标区域，则当前字典不需要更新；否则，系数矩阵呈现值小而密集的特征，则表明新的候选目标区域含有字典内没有包含的信息，此时字典需要进行更新。系数质量定义为：

其中表示c_i中第j个系数，表示矩阵C中所有非零系数的数量，表示取值大于thr的系数的数量。

第六步：如果q大于设定的阈值，则更新字典。在形成字典的N个模板中，选取前N/10个模板为静态部分，此部分在跟踪过程中不会发生变化；剩余模板元素为字典的动态部分，这一部分会随着跟踪过程中目标的变化而变化。计算方法如下：

利用增量更新方法对存储的L个目标区域进行计算可以得到

Y＝M+BC_new (11)

其中Y是候选目标区域,M是L个目标区域之间的公共部分,B是基向量矩阵，C_new是目标变化部分所对应的系数矩阵。根据稀疏表示原理，得到C'和重建的目标，重建目标用来替换动态字典部分最原始的模板元素，至此一次更新完成，回到步骤三重复执行即可。

Claims

1.一种基于在线更新字典模型的目标跟踪方法，包括下列步骤：

第一步：根据给定的初始目标位置，在视频的前N帧，利用最近邻算法KNN实现初始跟踪，获得每一帧对应的目标区域，其中N可以自由设定；

第二步：将第一步得到的每个目标区域分为大小相同的一些图像子块，将得到的图像子块进行组合得到字典P；

第三步：得到字典P之后，根据字典P进行跟踪：根据当前帧的目标位置，在下一帧以其为中心在周围进行随机采样，以字典元素为基，对每个候选目标区域进行基于稀疏表示的重建，抽取稀疏表示的系数矩阵C；

第四步：选取最稀疏矩阵对应的区域为最佳目标区域，作为跟踪结果；

\begin{matrix} q = \frac{n u m (c_{i}^{(j)} &GreaterEqual; t h r)}{n u m (c_{i}^{(j)} &NotEqual; 0)} & w h e r e & i &Element; [1, n], j &Element; [1, N \times n] \end{matrix}

其中表示c_i中第j个系数，表示矩阵C中所有非零系数的数量，表示取值大于阈值thr的系数的数量；

2.根据权利要求1所述的基于在线更新字典模型的目标跟踪方法，其特征在于，第三步中，稀疏表示系数矩阵C的计算方法如下：

对于一个新的候选目标区域Y，将其分为相同大小的一些子块[y₁,y₂...,y_n]∈R^m×n，其中n是子块数目，y_i∈R^m×1是第i个子块对应的向量，每一个子块可表示成字典中基元素的线性组合：

y_i＝P·c_i+e_i

Y＝PC+E

\begin{matrix} \min_{c_{i}} & | | y_{i} - {Pc}_{i} | |_{2}^{2} + λ | | c_{i} | |_{1} & s . t . & c_{i} &GreaterEqual; 0 \end{matrix}