CN106056627A

CN106056627A - 一种基于局部鉴别性稀疏表示的鲁棒目标跟踪方法

Info

Publication number: CN106056627A
Application number: CN201610370411.9A
Authority: CN
Inventors: 王鑫; 沈思秋; 徐玲玲; 张春燕; 沈洁; 朱行成
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2016-05-30
Filing date: 2016-05-30
Publication date: 2016-10-26
Anticipated expiration: 2036-05-30
Also published as: CN106056627B

Abstract

本发明公开了一种基于局部鉴别性稀疏表示模型的鲁棒目标跟踪算法，首先，从第一帧图像中截取待跟踪目标的多个不同模板，对各模板进行分块，并将所有模板中处于相同对应位置的子块视为一个样本类别；其次，用HOG特征提取方法对各图像块进行特征提取，并用LC‑KSVD算法进行鉴别性字典学习；然后，将局部鉴别性稀疏表示模型加入到均值漂移框架中来预测目标所在的位置；最后，为了克服在跟踪过程中目标外观的变化，提出了一种字典在线更新方法，以实现对目标的持续性建模。本发明不仅利用了目标图像块各自本身的特征，还通过引入不同类别图像块之间的鉴别信息来对目标外观进行建模以实现对目标的跟踪，故具有更强的鲁棒性。

Description

一种基于局部鉴别性稀疏表示的鲁棒目标跟踪方法

技术领域

本发明涉及一种在目标姿势发生变化、受背景杂波干扰且目标被部分遮挡的情况下，对视频序列中的目标进行有效且鲁棒性跟踪的方法，属于计算机视觉技术领域。

背景技术

目标跟踪是计算机视觉领域中的重要研究内容，它能够为视频监控、人机交互、车辆导航以及机器人学科等诸多应用领域作出重要贡献。尽管众多研究学者正在对该问题进行着深入的研究与探索，但是目标外观以及尺度的变化、光照、背景杂波以及目标被部分遮挡等干扰因素的影响使得现有的目标跟踪算法仍然无法达到令人满意的效果。

近年来，随着稀疏表示理论的不断发展，很多研究学者将稀疏表示理论应用于目标跟踪问题。其中，构建稀疏表示模型和局部稀疏表示模型是两类常见的算法。基于稀疏表示模型的方法在对建模过程中将整个目标视为一个整体，而基于局部稀疏表示模型的方法则是首先将目标进行分块，然后在利用各图像块来对目标进行稀疏建模。

公开号CN104361609A一种基于稀疏表示的目标跟踪方法，它通过充分利用遮挡的空间连续性和先验信息对遮挡进行稀疏学习，并在此基础上，通过更新后的稀疏表示模型来实现对目标的精确跟踪。这种方法虽然可以有效的提高目标被遮挡时的跟踪性能，但是当目标的外观发生明显变化时通常无法取得理想的跟踪结果。

公开号CN104484890A基于复合稀疏模型的视频目标跟踪方法，该方法基于复合稀疏表观模型在粒子滤波框架下,将所有粒子观测的联合稀疏系数矩阵分为组稀疏性、元素稀疏性和异常稀疏性三部分组成,代表了粒子在字典上的共享和非共享特征以及加性稀疏噪声，并使用范数和范数正则化实现复合稀疏性,并采用变方向乘子法求解优化问题，从而实现对目标的跟踪。但是，当目标受背景杂波影响较大以及目标被长时间遮挡时，该方法也会导致跟踪发生漂移现象。

Liu等人在2013年IEEE Transactions on Pattern Analysis and MachineIntelligence上发表论文“Robust visual tracking using local sparse appearancemodel and k-selection”，该文献提出一种基于K-selection的字典学习方法和一个稀疏约束正则化ES模型来对目标进行跟踪。但是，当目标的外观发生较大变化时，不能获得理想的跟踪结果。

总之，现有的目标跟踪方法，其存在的诸多局限性主要表现在：

(1)当待跟踪目标被长时间部分遮挡时或者目标的外观发生显著变化时，通常无法对目标进行良好的建模，从而导致跟踪器飘离目标；

(2)当目标周围的背景杂波较强时，由于受到背景杂波的干扰，很多算法也无法对目标进行精确的建模，从而导致跟踪结果不理想。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种基于局部鉴别性稀疏表示的鲁棒目标跟踪方法。该方法可以有效克服目标外观发生变化、目标被部分遮挡以及目标受背景杂波的干扰所带来的影响，大大提高目标跟踪的精度。

技术方案：一种基于局部鉴别性稀疏表示的鲁棒目标跟踪方法，包括如下步骤：

(1)步骤一：从第一帧图像中截取待跟踪目标的多个不同模板，对各模板进行分块，并将所有模板中处于相同对应位置的子块视为一个样本类别。

首先，用一个大小为m×n的滑动窗口在待跟踪视频序列的第一帧图像I中目标区域进行多次截取，从而得到一组目标模板集T＝[t₁,...,t_N]。其中，t_i代表第i个目标模板。

接着，对每个目标模板进行分块处理，从而得到r个不重叠的图像块，即：

t_i＝[y_i,1,...,y_i,r]

其中，y_i,j代表第i个模板中的第j个图像块。由于每个图像块均包含了目标某一部分的信息，故将来自模板同一位置的所有图像块视为一个类别，而将来自模板不同位置的图像块看做不同的类别，故最后可以得到待跟踪目标的r个类别信息：

classall＝[class₁,...,class_r]

其中，class_j＝[y_1,j,...,y_N,j]。

(2)步骤二：用HOG(Histogram of Oriented Gradient)特征提取方法对各图像块进行特征提取，并用LC-KSVD(Label Consistent K-SVD算法进行鉴别性字典学习。

下面首先介绍一下LC-KSVD算法。该算法的目标函数如下：

\begin{matrix} < D, A, X > = \arg \underset{D, A, X}{m i n} | | Y - D X | |_{2}^{2} + α | | Q - A X | |_{2}^{2} & s . t . & &ForAll; i, | | x_{i} | |_{0} \leq T \end{matrix}

其中，D为鉴别性字典，A为一个线性变换矩阵，它能够将稀疏编码系数X映射为具有高类鉴别能力的鉴别向量。Q为输入信号Y的鉴别性稀疏编码，它可以用于分类。矩阵Q的行号代表字典中对应位置的原子，列号代表训练样本集中对应位置的样本。矩阵元素值设置如下：将代表同一类目标的字典原子和该类样本对应处的值设为1，其余部分设为0。代表鉴别性稀疏编码误差，它使得AX的乘积有效的逼近Q。α是一个正常数，它可以控制重建误差和鉴别性稀疏编码误差这两项的权重。T为稀疏度阈值，它代表每个信号在字典下的稀疏编码系数x_i中的非零元素个数不超过T个。基于LC-KSVD算法的鉴别性字典学习过程如下：

首先，对于每一个类别class_j(1≤j≤r)，用HOG特征描述子对其进行特征提取，得到其HOG特征集feat_j，feat_j中包含了同一个类别信息中所有图像块的HOG特征向量，即：

feat_j＝[feature_1,j,...,feature_N,j]

其中，feature_i,j(1≤i≤N,1≤j≤r)为第i个模板中第j个图像块的HOG特征向量。最终，可以得到所有类别图像块的总特征集featset＝[feat₁,...,feat_r]。

接着，初始化字典D和变换矩阵A。对于字典D，用K-SVD算法分别对特征集feat_j,j∈{1,...,r}进行训练，得到各自的子字典D_j,j∈{1,...,r}。然后，将这些子字典横向连接，从而得到初始字典D_init，即：

D_init＝[D₁,...,D_r]

得到D_init后，用OMP算法求取整个HOG特征集在字典D_init下的稀疏编码系数X。进而，根据编码系数X来计算初始变换矩阵A，即A_init＝QX^t(XX^t+γI)^-1。其中，γ是一个正则化参数，I是一个单位矩阵，X^t表示X矩阵的转置。

然后，将类鉴别信息加入到K-SVD模型中进行字典学习，从而得到鉴别性字典。

(a)初始化此时，LC-KSVD算法的目标函数为s.t.||x_i||₀≤T。

(b)用K-SVD方法对目标函数进行优化迭代，从而得到更新后的其中A_train和D_train分别与D_init和具有相同的尺寸，它们分别代表经K-SVD算法优化迭代后得到的鉴别性字典和变换矩阵。

(c)对D_train和A_train中的每个列向量分别进归一化，从而得到最终的鉴别性字典D_final和变换矩阵A_final。

(3)步骤三：将局部鉴别性稀疏表示模型加入到均值漂移框架中来预测目标所在的位置。

1)在当前帧图像中采集多个目标候选区域。

首先，输入当前帧图像。如果该帧是视频序列的第一帧图像，则人工截取目标并记录其中心位置l^*。否则，令R_p区域中心等于前一帧中提取到的目标中心位置l^*，并将其向四周进行扩展，得到一个尺度为R_p区域两倍大小的目标候选区域搜寻范围R_s。

然后，为了克服跟踪过程中目标的尺度变化，用一个多尺度滑动窗口扫描区域R_s，从而得到多个目标候选区域。

最后，可以得到当前帧图像的目标候选区域集C：

C＝[c₁,...,c_M]

其中，c_i(1≤i≤M)代表第i个目标候选区域。M代表候选区域的数量。

2)将每个候选区域进行分块，并提取每个图像块的HOG特征。

首先，为了确保特征的维数相同，首先将每个候选区域尺寸归一化为32×32像素。

接着，将每个候选区域分割为r个不重叠的图像块。

然后，提取所有候选区域中每个图像块的HOG特征f_i,j。其中，f_i,j(1≤i≤M,1≤j≤r)代表第i个候选区域中第j个图像块的HOG特征向量。

3)用鉴别性稀疏表示模型对图像块的类别进行识别。

首先，用OMP算法求取f_i,j在鉴别性字典D_final下的稀疏编码系数x_i,j。

然后，通过线性变换矩阵A_final将稀疏编码系数x_i,j映射为具有高类鉴别能力的鉴别向量，即：

q＝A_finalx_i,j

因为q中的元素值可能为正，也可能为负，故利用鉴别向量q中元素的绝对值进行分类识别工作。

最后，统计每个候选区域被准确识别的子块个数，并将其存入集合Right，即：

Right＝[Right₁,...,Right_M]

其中，Right_i(1≤i≤M)代表第i个候选区域被正确识别的图像块数，M为目标候选区域的数量。

4)选取被准确识别的图像块数最多的候选区域并用MS模型计算待跟踪目标在当前帧中的位置。

首先，选取被准确识别的图像块数最多的候选区域，将它们作为理想区域。由于理想区域的数量通常不止1个，故先将选取的理想区域存入理想候选区域集idealset＝[ideal₁,...,ideal_s]。其中，s代表理想候选区域的数量。

接着，求取每个理想区域中所有图像块的鉴别度比值之和，即：

{sum}_{i} = Σ_{j = 1}^{r} \frac{q_{i, j}^{j}}{q_{i, j}^{1} + ... + q_{i, j}^{r}}

其中，sum_i(1≤i≤s)为第i个理想区域所有图像块的鉴别度比值总和，代表第i个理想区域中第j个图像块的鉴别向量中第p部分元素的类别标签值。

然后，求取每个理想区域的鉴别度比值总和的权重，即：

w_{i} = \frac{{sum}_{i}}{Σ_{j = 1}^{s} {sum}_{j}}, i = 1, ..., s

最后，通过ES模型预测当前帧图像目标可能的位置l，即：

l = Σ_{i = 1}^{s} w_{i} \times l_{i}

其中，l_i代表第i个理想区域的位置。

5)通过迭代更新当前帧图像中目标的位置。

令l为第iter次迭代中预测到的当前帧的目标位置。如果iter＝iterthr(其中iterthr是一个预先设定的阈值)，则将l视为当前帧图像的最终目标位置。如果iter＜iterthr，则令iter＝iter+1，并在预测结果l的基础上重复执行步骤(1-5)。

(4)步骤四：利用一种字典在线更新方法对鉴别性字典进行持续性的更新。

1)提取当前帧目标跟踪结果区域的HOG特征。

首先，将当前帧图像目标跟踪结果其分割为r个不重叠的图像块。

然后，提取每个图像块的HOG特征向量fcur_i。其中，fcur_i(1≤i≤r)代表当前帧目标跟踪结果区域第i个图像块的HOG特征向量。

2)判断当前帧的目标跟踪结果是否受到污染。

首先，将当前帧目标跟踪结果区域各图像块的HOG特征向量进行纵向连接，得到特征向量feat_cur，即：

{feat}_{c u r} = (\begin{matrix} {fcur}_{1} \\ \cdot \\ \cdot \\ \cdot \\ {fcur}_{r} \end{matrix}) &Element; R^{d \times 1}

其中，d代表特征向量feat_cur的维数。

然后，将模板特征集按如下方式进行结合，得到特征集featall，即：

其中，feature_i,j(1≤i≤N,1≤j≤r)代表第i个模板中第j个图像块的HOG特征向量。

接着，计算feat_cur和featall中第i个列向量夹角的余弦值sim_i，从而得到一个相似性向量：

S＝[sim₁,...,sim_N]

最后，从S中选出最大值sim_ma＝max(sim₁,...,sim_N)，并将其与阈值进行比较。如果sim_ma＜η，则判定当前帧的目标跟踪结果受到了污染。因此不用它来对字典进行更新；否则，用当前帧的目标跟踪结果对模板特征集进行更新。

3)如果当前帧跟踪结果没有受到污染，则用它来进行模板特征集的更新。

首先，在featall中找出跟feat_cur相似度最小的特征列向量f_mi。

然后，由于f_mi与feat_cur的相似性最小，故featall的所有特征列向量中，f_mi对当前帧目标跟踪结果的建模能力最差，故用feat_cur替换featall中的f_mi。

4)每隔一定帧数对鉴别性字典进行更新。

每隔numfra帧，用更新后的特征集featall对鉴别性字典进行更新。参数numfra的不同取值对算法的性能以及效率均有重要影响。如果numfra取值过大，则鉴别性字典无法及时对外观不断变化着的目标进行良好的建模，这会导致跟踪结果发生漂移；反之，如果numfra取值过小，则会显著增加算法的运算量。综合考虑算法的性能和效率，取numfra＝8。

本发明采用上述技术方案，具有以下有益效果：

(1)本发明的方法利用局部鉴别性稀疏表示模型来对目标进行建模，从而可以有效地克服目标被部分遮挡时所带来的干扰。

(2)本方法不仅利用了每个图像块各自的特征，还加入了这些图像块之间的鉴别信息来对目标外观进行建模，这可以进一步加强模型的鲁棒性。

附图说明

图1为本发明实施例的框架图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，进一步的详细描述如下：

首先，用LC-KSVD算法进行局部鉴别性字典学习。具体包括如下步骤：

(1)用一个大小为m×n的滑动窗口在待跟踪视频序列的第一帧图像I中目标区域进行多次截取，从而得到一组目标模板集T＝[t₁,...,t_N]。其中，t_i代表第i个目标模板。

(2)对每个目标模板进行分块处理，从而得到r个不重叠的图像块，即：

t_i＝[y_i,1,...,y_i,r]

classall＝[class₁,...,class_r]

其中，class_j＝[y_1,j,...,y_N,j]。

(3)对于每一个类别class_j(1≤j≤r)，用HOG特征描述子对其进行特征提取，得到其HOG特征集feat_j，feat_j中包含了同一个类别信息中所有图像块的HOG特征向量，即：

feat_j＝[feature_1,j,...,feature_N,j]

(4)用LC-KSVD算法进行鉴别性字典学习，得到鉴别性字典D_final和变换矩阵A_final。

然后，将局部鉴别性稀疏表示模型加入到均值漂移框架中来预测目标所在的位置。具体步骤如下：

(5)在当前帧图像中采集多个目标候选区域。

最后，可以得到当前帧图像的目标候选区域集C：

C＝[c₁,...,c_M]

(6)将每个候选区域进行分块，并提取每个图像块的HOG特征。

接着，将每个候选区域分割为r个不重叠的图像块。

(7)用鉴别性稀疏表示模型对图像块的类别进行识别。

q＝A_finalx_i,j

Right＝[Right₁,...,Right_M]

(8)选取被准确识别的图像块数最多的候选区域并用MS模型计算待跟踪目标在当前帧中的位置。

{sum}_{i} = Σ_{j = 1}^{r} \frac{q_{i, j}^{j}}{q_{i, j}^{1} + ... + q_{i, j}^{r}}

然后，求取每个理想区域的鉴别度比值总和的权重，即：

w_{i} = \frac{{sum}_{i}}{Σ_{j = 1}^{s} {sum}_{j}}, i = 1, ..., s

最后，通过ES模型预测当前帧图像目标可能的位置l，即：

l = Σ_{i = 1}^{s} w_{i} \times l_{i}

其中，l_i代表第i个理想区域的位置。

(9)通过迭代更新当前帧图像中目标的位置。

令l为第iter次迭代中预测到的当前帧的目标位置。如果iter＝iterthr(其中iterthr是一个预先设定的阈值)，则将l视为当前帧图像的最终目标位置。如果iter＜iterthr，则令iter＝iter+1，并在预测结果l的基础上重复执行步骤(5-9)。

最后，利用一种字典在线更新方法对鉴别性字典进行持续性的更新。具体步骤如下：

(10)提取当前帧目标跟踪结果区域的HOG特征。

(11)判断当前帧的目标跟踪结果是否受到污染。

{feat}_{c u r} = (\begin{matrix} {fcur}_{1} \\ \cdot \\ \cdot \\ \cdot \\ {fcur}_{r} \end{matrix}) &Element; R^{d \times 1}

其中，d代表特征向量feat_cur的维数。

S＝[sim₁,...,sim_N]

(12)如果当前帧跟踪结果没有受到污染，则用它来进行模板特征集的更新。

首先，在featall中找出跟feat_cur相似度最小的特征列向量f_mi。

(13)每隔一定帧数对鉴别性字典进行更新。

Claims

1.一种基于局部鉴别性稀疏表示的鲁棒目标跟踪方法，其特征在于，包括如下步骤：

步骤一：从第一帧图像中截取待跟踪目标的多个不同模板，对各模板进行分块，并将所有模板中处于相同对应位置的子块视为一个样本类别；

步骤二：用HOG特征提取方法对各图像块进行特征提取，并用LC-KSVD算法进行鉴别性字典学习；

步骤三：将局部鉴别性稀疏表示模型加入到均值漂移框架中来预测目标所在的位置；

步骤四：为了克服在跟踪过程中目标外观的变化，提出了一种模型在线更新方法，以实现对目标的持续性建模。

2.根据权利要求1所述的基于局部鉴别性稀疏表示的鲁棒目标跟踪方法，其特征在于，从第一帧图像中截取待跟踪目标的多个不同模板，对各模板进行分块，并将所有模板中处于相同对应位置的子块视为一个样本类别，其操作过程如下：

首先，用一个大小为m×n的滑动窗口在待跟踪视频序列的第一帧图像I中目标区域进行多次截取，从而得到一组目标模板集T＝[t₁,...,t_N]；其中，t_i代表第i个目标模板；

t_i＝[y_i,1,...,y_i,r]

其中，y_i,j代表第i个模板中的第j个图像块；由于每个图像块均包含了目标某一部分的信息，故将来自模板同一位置的所有图像块视为一个类别，而将来自模板不同位置的图像块看做不同的类别，故最后可以得到待跟踪目标的r个类别信息：

classall＝[class₁,...,class_r]

其中，class_j＝[y_1,j,...,y_N,j]。

3.根据权利要求1所述的基于局部鉴别性稀疏表示的鲁棒目标跟踪方法，其特征在于，用HOG特征提取方法对各图像块进行特征提取，并用LC-KSVD算法进行鉴别性字典学习；其操作过程如下：

feat_j＝[feature_1,j,...,feature_N,j]

其中，feature_i,j(1≤i≤N,1≤j≤r)为第i个模板中第j个图像块的HOG特征向量；

接着，初始化字典D和变换矩阵A。对于字典D，用K-SVD算法分别对特征集feat_j,j∈{1,...,r}进行训练，得到各自的子字典D_j,j∈{1,...,r}；然后，将这些子字典横向连接，从而得到初始字典D_init，即：

D_init＝[D₁,...,D_r]

得到D_init后，用OMP算法求取整个HOG特征集在字典D_init下的稀疏编码系数X；进而，根据编码系数X来计算初始变换矩阵A，即A_init＝QX^t(XX^t+γI)^-1。其中，γ是一个正则化参数，I是一个单位矩阵；

然后，将类鉴别信息加入到K-SVD模型中进行字典学习，从而得到鉴别性字典；

(a)初始化此时，LC-KSVD算法的目标函数为

(b)用K-SVD方法对目标函数进行优化迭代，从而得到更新后的其中A_train和D_train分别与D_init和具有相同的尺寸；

4.根据权利要求1所述的基于局部鉴别性稀疏表示的鲁棒目标跟踪方法，其特征在于，将局部鉴别性稀疏表示模型加入到均值漂移框架中来预测目标所在的位置，其操作过程如下：

1)在当前帧图像中采集多个目标候选区域；

首先，输入当前帧图像。如果该帧是视频序列的第一帧图像，则人工截取目标并记录其中心位置l^*。否则，令R_p区域中心等于前一帧中提取到的目标中心位置l^*，并将其向四周进行扩展，得到一个尺度为R_p区域两倍大小的目标候选区域搜寻范围R_s；

然后，为了克服跟踪过程中目标的尺度变化，用一个多尺度滑动窗口扫描区域R_s，从而得到多个目标候选区域；

最后，可以得到当前帧图像的目标候选区域集C：

C＝[c₁,...,c_M]

其中，c_i(1≤i≤M)代表第i个目标候选区域。M代表候选区域的数量；

2)将每个候选区域进行分块，并提取每个图像块的HOG特征；

首先，为了确保特征的维数相同，首先将每个候选区域尺寸归一化为32×32像素；

接着，将每个候选区域分割为r个不重叠的图像块；

然后，提取所有候选区域中每个图像块的HOG特征f_i,j；其中，f_i,j(1≤i≤M,1≤j≤r)代表第i个候选区域中第j个图像块的HOG特征向量；

3)用鉴别性稀疏表示模型对图像块的类别进行识别；

首先，用OMP算法求取f_i,j在鉴别性字典D_final下的稀疏编码系数x_i,j；

q＝A_finalx_i,j

因为q中的元素值可能为正，也可能为负，故利用鉴别向量q中元素的绝对值进行分类识别工作；

Right＝[Right₁,...,Right_M]

其中，Right_i(1≤i≤M)代表第i个候选区域被正确识别的图像块数，M为目标候选区域的数量；

4)选取被准确识别的图像块数最多的候选区域并用MS模型计算待跟踪目标在当前帧中的位置；

首先，选取被准确识别的图像块数最多的候选区域，将它们作为理想区域；由于理想区域的数量通常不止1个，故先将选取的理想区域存入理想候选区域集idealset＝[ideal₁,...,ideal_s]；其中，s代表理想候选区域的数量；

{sum}_{i} = Σ_{j = 1}^{r} \frac{q_{i, j}^{j}}{q_{i, j}^{1} + ... + q_{i, j}^{r}}

然后，求取每个理想区域的鉴别度比值总和的权重，即：

w_{i} = \frac{{sum}_{i}}{Σ_{j = 1}^{s} {sum}_{j}}, i = 1, ..., s

最后，通过ES模型预测当前帧图像目标可能的位置l，即：

l = Σ_{i = 1}^{s} w_{i} \times l_{i}

其中，l_i代表第i个理想区域的位置；

5)通过迭代更新当前帧图像中目标的位置；

5.根据权利要求1所述的基于局部鉴别性稀疏表示的鲁棒目标跟踪方法，其特征在于，利用一种字典在线更新方法对鉴别性字典进行持续性的更新，其操作过程如下：

1)提取当前帧目标跟踪结果区域的HOG特征；

首先，将当前帧图像目标跟踪结果其分割为r个不重叠的图像块；

然后，提取每个图像块的HOG特征向量fcur_i。其中，fcur_i(1≤i≤r)代表当前帧目标跟踪结果区域第i个图像块的HOG特征向量；

2)判断当前帧的目标跟踪结果是否受到污染；

{feat}_{c u r} = (\begin{matrix} {fcur}_{1} \\ \cdot \\ \cdot \\ \cdot \\ {fcur}_{r} \end{matrix}) &Element; R^{d \times 1}

其中，d代表特征向量feat_cur的维数；

其中，feature_i,j(1≤i≤N,1≤j≤r)代表第i个模板中第j个图像块的HOG特征向量；

S＝[sim₁,...,sim_N]

最后，从S中选出最大值sim_ma＝max(sim₁,...,sim_N)，并将其与阈值进行比较；如果sim_ma＜η，则判定当前帧的目标跟踪结果受到了污染。因此不用它来对字典进行更新；否则，用当前帧的目标跟踪结果对模板特征集进行更新；

3)如果当前帧跟踪结果没有受到污染，则用它来进行模板特征集的更新；

首先，在featall中找出跟feat_cur相似度最小的特征列向量f_mi；

然后，由于f_mi与feat_cur的相似性最小，故featall的所有特征列向量中，f_mi对当前帧目标跟踪结果的建模能力最差，故用feat_cur替换featall中的f_mi；

4)每隔一定帧数对鉴别性字典进行更新；

每隔numfra帧，用更新后的特征集featall对鉴别性字典进行更新。