CN111915647B

CN111915647B - 一种对象标签引导的自适应视频目标跟踪方法

Info

Publication number: CN111915647B
Application number: CN202010685128.1A
Authority: CN
Inventors: 张焕龙; 张�杰; 李林伟; 聂国豪; 陈志武; 陈青华; 杨光露; 安小宇; 陈宜滨; 张建伟
Original assignee: Zhengzhou University of Light Industry
Current assignee: Zhengzhou University of Light Industry
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2021-08-13
Anticipated expiration: 2040-07-16
Also published as: CN111915647A

Abstract

本发明提出了一种对象标签引导的自适应视频目标跟踪方法，其步骤为：1）采用一个已经训练好的深度特征提取网络对输入的帧与目标的外观进行表征；2）通过深度特征建立深度特征空间采样来维持跟踪器的效率；3）通过区域建议网络获得当前帧的对象信息，并对冗余对象信息进行过滤与选择；4）将对象信息转化为对象标签引导一个Wang‑langau蒙特卡洛抽样算法来预测目标下一帧的位置；5）利用自适应更新的目标模板选择性的更新目标信息。本本发明利用对象信息为采样提供了引导，减少总体样本数量，保证了跟踪的效率，增强跟踪方法的在全局的探索能力；通过改进的自适应模板更新机制，减少跟踪框架在面对目标不确定运动时的更新误差，提高跟踪精度。

Description

一种对象标签引导的自适应视频目标跟踪方法

技术领域

本发明涉及目标跟踪的技术领域，特别是指一种对象标签引导的自适应视频目标跟踪方法。

背景技术

视觉对象跟踪是在第一帧指定的视频中，用一个边界框表示位置和大小，对任意移动对象进行定位的过程。这是一个广泛的视觉应用的基本任务，如监视、机器人和智能交通。这些应用主要依赖于对目标位置的可靠估计。然而，当目标位置在两帧之间发生快速变化时，传统跟踪方法往往难以适应。同时对解决伴随位置变化的变形、模糊等具有挑战性的因素仍然是一项艰巨的任务。

目前大多数基于相关滤波及孪生网络的方法一般都是根据先前预测的目标位置是一个搜索半径内搜索潜在的目标位置。目标出现在前一帧的位置附近的假设可能并不总是有效的，特别是对于不确定的移动对象，如快速运动、相机切换和视野外。在这种情况下，目标会随机出现在整个帧中的任何位置，导致跟踪失败。尽管如此，现有的跟踪器避免使用更大的搜索半径的一个重要原因是来自背景的潜在干扰，这可能会降低跟踪精度。与此同时，扩展的搜索半径可能会导致跟踪器更新和速度问题。在基于随机采样的方法中，粒子滤波能够处理目标分布的非高斯性和多模态然，获得好的跟踪效果。然而当目标发生位移时，扩大至全局的采样空间带来的计算效率问题导致粒子滤波在实际应用上受到限制。基于马尔可夫链蒙特卡罗的跟踪方法能够以较为高效的方式在高维状态空间中进行采样，提高了跟踪效率。然而普通的马尔可夫链蒙特卡罗方法在目标分布能量场较强的情况下，往往会陷入局部最优解。为了使算法适应突变运动问题，自适应马尔可夫链蒙特卡罗方法、哈密顿蒙特卡罗方法、Wang-landau蒙特卡罗等被应用于鲁棒跟踪并获得了一定效果。然而，基于随机采样的办法虽然表现出对目标的这种较大位移的适应性，但仍然存在较多问题。这类方法通常基于目标的特征表示来预测目标位置，特征的好坏直接影响跟踪性能。传统方法通常基于手工特征来表征目标外观，通常只能表达目标的一种特性，表征能力较弱。其次，随机产生的样本缺乏先验知识的引导，导致新样本的质量不高，从而影响跟踪效率。

因此，必须设计一种既能覆盖全局适应目标突变运动问题，又能保证算法的运行效率，同时，跟踪方法应拥有良好外观表征能力，保证跟踪精度。

发明内容

针对传统基于随机采样的视频目标跟踪方法外观表征能力低、适应目标具有较大位移跟踪场景的能力不足的问题，本发明提出了一种对象标签引导的自适应视频目标跟踪方法，以提高目标跟踪的鲁棒性。

本发明的技术方案是这样实现的：

一种对象标签引导的自适应视频目标跟踪方法，其步骤如下：

步骤一：利用人工标注的方式标注出视频序列中的第一帧图像的目标图像块，并利用VGG16深度网络提取目标图像块的深度特征，将目标图像块的深度特征作为目标模板；

步骤二：读取视频序列的下一帧图像作为当前帧图像，利用VGG16深度网络提取当前帧图像的深度特征，将当前帧图像的深度特征作为当前帧图像在特征空间的特征图；

步骤三：利用RPN网络将当前帧图像转化到图像空间上，得到图像空间下的全局对象信息集，并对全局对象信息集中的对象进行筛选得到当前帧图像在图像空间的对象信息集；

步骤四：根据当前帧图像在图像空间的对象信息集利用Wang-Landau蒙特卡洛对特征空间的特征图进行采样，得到样本集；

步骤五：根据样本集中每个样本与目标模板之间的似然值对样本进行最大后验估计，得到当前帧图像在特征空间的目标；

步骤六：计算第2帧图像到当前帧图像的前一帧图像的目标对应的似然值的平均值M，并判断当前帧图像在特征空间的目标对应的似然值M_t是否大于0.8*M，若是，用当前帧图像在特征空间的目标更新目标模板，并将目标模板对应到图像空间中输出跟踪结果，否则，返回步骤二，直至遍历完视频序列。

所述步骤三中对全局对象信息集中的对象进行筛选得到当前帧图像在图像空间的对象信息集的方法为：

S31、根据目标图像块的尺寸计算目标的面积：s_t＝w×h，其中，s_t为目标图像块的面积，w为目标图像块的宽度，h为目标图像块的高度；

S32、计算全局对象信息集中所有对象的面积：

其中，

为第i个对象D_i的面积，D_i为第i个对象，w_i为第i个对象的宽度，h_i为第i个对象的高度，i＝1,2,…,Q'为对象的索引值，Q'为全局对象信息集中对象的数量；

S33、构建对象的面积的约束条件，筛选满足约束条件的对象得到当前帧图像在图像空间的对象信息集。

所述对象的面积的约束条件为：

其中，r^*是对象信息集的对象信息，η为面积下限的系数，γ为面积上限的系数。

所述根据当前帧图像在图像空间的对象信息集利用Wang-Landau蒙特卡洛对特征空间的特征图进行采样，得到样本集的方法为：

S41、初始化特征空间下Wang-landau蒙特卡洛的采样参数：设置初始采样次数k＝1、最大采样次数iter、高斯方差为σ、修正因子f；将特征空间的特征图[m,n,G]均匀分成d个子区域，子区域的大小均为[x,y,G]，建立各子区域的直方图

i'＝1,2,…,d为子区域的索引值，并初始化每个子区域的态密度为1、子区域似然度为1/d、直方图为0，其中，m为特征图的宽度，n为特征图的高度，G为特征图的维度，x为子区域的宽度，y为子区域的高度；

S42、根据当前帧图像的上一帧图像的目标位置初始化当前帧图像在特征空间中第一个样本，并将第一个样本加入样本集；

S43、根据样本集中的新加入的一个样本的高斯分布在特征空间上采用大方差高斯分布生成当前帧图像的候选样本位置，候选样本位置满足如下方程：

其中，

为横坐标方向的高斯分布的条件概率，

为纵坐标方向的高斯分布的条件概率，G(·)表示高斯分布函数，

为候选样本的横坐标，

为候选样本的纵坐标，

为上一个样本的横坐标，

为上一个样本的纵坐标，

为特征空间中横坐标方向的高斯分布的方差，

为特征空间中纵坐标方向的高斯分布的方差；

S44、将图像空间下对象信息集的对象信息r^*与特征空间一一对应，计算候选样本所属子区域的对象标签：

其中，Obj(S_i'')为候选样本所属子区域的对象标签，Z_t为归一化系数，

为候选样本，V(X_t')为候选样本X_t'的对象得分，S_i'为候选样本X_t'所处的子区域，τ为调节系数；

S45、利用子区域的对象标签对Wang-landau蒙特卡洛的采样公式进行改进，得到接收函数：

其中，a为候选样本X_t'的接受概率，p(B_t,X_t')为当前帧图像下的目标模板B_t与候选样本X_t'之间的似然值，p(B_t,X_t)为当前帧图像下的目标模板B_t与上一个样本X_t之间的似然值，

Obj(S_i')为上一个样本所属子区域的对象标签，g(S_i'')为子区域S_i''的态密度值，g(S_i')为子区域S_i'的态密度值，Q(X_t；X_t')，Q(X_t'；X_t)均为高斯分布的条件概率；

S46、判断候选样本X_t'的接受概率a是否大于一个在[0,1]范围内产生的随机数，若是，将候选样本X_t'添加入样本集中，执行步骤S47，否则，删除候选样本，执行步骤S48；

S47、对加入样本集后的样本所处子区域的态密度进行更新：

g(S_i')←g(S_i')×f，

其中，修正因子f大于1；若本次采样使直方图h(S_i)平坦，则通过

对修正因子进行调整，同时直方图被清零，若本次采样未使直方图平坦，则对直方图进行更新：h(S_i')←h(S_i')+1，其中，h(S_i')为直方图；

S48、采样次数k＝k+1，判断k是否达到最大采样次数iter，若是，结束采样，得到当前帧图像的样本集，否则，返回步骤S43。

所述当前帧图像下的目标模板B_t与候选样本X_t'之间的似然值p(B_t,X_t')的计算方法为：

其中，f(·)为特征值，★为互相关操作。

所述根据样本集中每个样本与目标模板之间的似然值对样本进行最大后验估计，得到当前帧图像在特征空间的目标的方法为：计算每个样本与目标模板之间的似然值，利用最大后验估计筛选出当前帧图像在特征空间的目标：P_t＝argmax(p(B_t,X_t'))，其中，P_t为最大后验估计的样本似然值。

所述利用当前帧图像在特征空间的目标更新目标模板的方法为：f(B_t+1)＝f(P_t)·ξ+f(B_t)·(1-ξ)，其中，f(·)为特征值，ξ为更新速率，P_t为最大后验估计的样本似然值，B_t为t帧图像对应的目标模板，B_t+1为t+1帧图像对应的目标模板。

本技术方案能产生的有益效果：

(1)本发明采用深度特征空间采样方法将预训练的学习特征引入以加强目标表征，同时特征提取过程在深度空间种被加速，使在提高目标表征的同时减少效率的损失；

(2)本发明通过区域建议网络获得全局对象信息表示，指示可能存在物体的信息，同时对象信息被转化为对象标签，与采样过程融合，进一步提高跟踪效果；

(3)对象信息先验在全局范围内提供可能是目标的物体信息，保证跟踪器探索全局的能力，其次先验信息引导迭代方向，提高样本质量，减少计算消耗，保证跟踪效率；

(4)基于自适应模板更新，建立一种新的跟踪算法框架，能够兼顾平滑和突变两种运动模式下的目标持续性跟踪；

(5)本发明在针对由目标不确定运动带来的跟踪失败，跟踪器漂移等问题可以显著改善跟踪效果，基于深度特征表征方式，使其对环境因素不敏感，适用于各种复杂背景、光照变化等场景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程图；

图2为本发明的特征空间采样示意图；

图3为本发明的对象标签映射示意图；

图4为本发明与其他算法在OTB2013、OTB2015测试库中比较示意图；其中，(a)为OTB100数据集精度图，(b)为OTB100数据集成功率图，(c)OTB500数据集精度图，(d)OTB50数据集成功率图；

图5为本发明与其他算法的跟踪效果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的主要内容如下：1)采用一个已经训练好的深度特征提取网络(VGG16深度网络)对输入的帧与目标的外观进行表征；2)通过深度特征建立深度特征空间采样来维持跟踪器的效率；3)通过区域建议网络获得当前帧的对象信息，并对冗余对象信息进行过滤与选择；4)将对象信息转化为对象标签引导一个Wang-langau蒙特卡洛抽样算法来预测目标下一帧的位置；5)利用自适应更新的目标模板选择性的更新目标信息。图1为本发明的流程图，将学习特征引入随机采样跟踪算法中，提出特征空间随机抽样方法，在提高外观模型表征能力的同时维持效率；提出对象信息转化为对象标签方法，利用对象信息引导随机抽样进行，增强跟踪方法的在全局的探索能力。同时，高质量的先验信息为采样提供了引导，减少总体样本数量，保证了跟踪的效率；提出自适应模板更新机制，减少跟踪框架在面对目标不确定运动时的更新误差，提高跟踪精度。

本发明的思想在于：(1)将深度特征引入随机采样跟踪方法中，在保证全局搜索能力的同时，提高目标外观表征能力并维持一定抽样效率。(2)基于对象信息，将其转化为对象标签引入跟踪器，增强跟踪器全局探索能力。(3)基于自适应模板更新，建立一种新的跟踪算法框架，能够兼顾平滑和突变两种运动模式下的目标持续性跟踪。

本发明实验的硬件环境为：Intel(R)Core(TM)i3-8100 cpu 3.6GHz计算机、8GB内存。运行的软件环境是：Matlab 2017a和Windows10。使用的数据为网站http://visualtracking.net上获得。

如图1所示，本发明实施例提供了一种对象标签引导的自适应视频目标跟踪算法，具体步骤如下：

步骤一：利用人工标注的方式标注出视频序列中的第一帧图像的目标图像块，并利用VGG16深度网络提取目标图像块的深度特征，将目标图像块的深度特征作为目标模板；视频序列预处理，特征提取神经网络及区域建议神经网络预训练。将视频序列按每秒25帧处理成连续单帧图像，其中初始帧中目标位置由目标的横轴坐标、纵轴坐标、宽、高[x，y，w，h]确定。特征提取网络使用VGG16网络第5层输出，区域建议网络由RPN网络构建，深度网络均使用训练集离线训练获得。

步骤二：读取视频序列的下一帧图像作为当前帧图像，利用VGG16深度网络提取当前帧图像的深度特征，将当前帧图像的深度特征作为当前帧图像在特征空间的特征图[m,n,G]；初始化第一帧跟踪目标，对初始目标使用神经网络提取卷积特征作为目标模板。使用特征提取网络提取初始帧深度特征，根据特征空间与图像空间位置对应关系，截取初始帧中目标的深度特征作为目标初始模板。

步骤三：利用RPN网络将当前帧图像转化到图像空间上，得到图像空间下的全局对象信息集，并对全局对象信息集中的对象进行筛选得到当前帧图像在图像空间的对象信息集；对象信息被描述为空间中潜在对象的位置。根据对象位置由其左上角横、纵坐标、宽、高及对象性得分分别为[x，y，w，h，o]的矩形包围框构成。为了避免冗余包围框影响跟踪，对全局对象信息进行筛选。首先，根据对象性得分对产生的包围框进行非极大抑制，合并位置接近的包围框并保留最高对象的分。使用得分最高的前300个对象D_i作为有效建议。然后，为了进一步减少图像中冗余对象信息，对有效建议进行目标上下文筛选。具体方法为：

S32、计算全局对象信息集中所有对象的面积：

其中，

为第i个对象D_i的面积，w_i为第i个对象的宽度，h_i为第i个对象的高度，i＝1,2,…,Q'为对象的索引值，Q'为全局对象信息集中对象的数量；

S33、构建对象的面积的约束条件，筛选满足约束条件的对象得到当前帧图像在图像空间的对象信息集，以减少不符合目标大小的对象信息。所述对象的面积的约束条件为：

步骤四：根据当前帧图像在图像空间的对象信息集利用Wang-Landau蒙特卡洛对特征空间的特征图进行采样，得到样本集；如图2所示，区别于传统图像控件的采样方法，本发明提取当前帧整幅图像的卷积特征作为采样特征空间。当前帧图像首先通过特征提取网络获得特征空间表示，表述为宽、高、特征深度分别为[m,n,G]的三维矩阵。具体方法为：

S41、初始化特征空间下Wang-landau蒙特卡洛的采样参数：设置初始采样次数k＝1，最大采样次数iter，高斯方差为σ，修正因子f；将特征空间的特征图[m,n,G]均匀分成d个子区域，子区域的大小均为[x,y,G]，建立各子区域的直方图

S42、根据上一帧图像的目标位置初始化当前帧图像在特征空间中第一个样本，并将第一个样本加入样本集；

其中，

样本横坐标方向的高斯分布的条件概率，

为样本横坐标方向的高斯分布的条件概率，均服从高斯分布G，

为候选样本的横坐标，

为候选样本的纵坐标，

为上一个样本的横坐标，

为上一个样本的纵坐标，

为特征空间中横坐标方向的高斯分布的方差，

为特征空间中纵坐标方向的高斯分布的方差；利用大方差的高斯分布可以有效的将样本分布至全局，以覆盖目标的不确定运动。

S44、如图3所示，将对象信息r^*转化为特征空间中的对象标签以作为先验信息引导特征空间采样。对象标签大小与采样空间一致，其中r^*包围框内区域根据下式设立对象权重以提高采样器到达该区域的概率。将图像空间下对象信息集的对象信息r^*与特征空间一一对应，计算候选样本所属子区域的对象标签：

为候选样本，V(X_t')为候选样本X_t'的对象得分，当样本所处区域不存在建议对象时该地区标签权重为零，S_i'为候选样本X_t'所处的子区域，τ为调节系数，调节标签值的大小范围；

Obj(S_i')为上一个样本所属子区域的对象标签，g(S_i'')为子区域S_i''的态密度值，g(S_i')为子区域S_i'的态密度值，Q(X_t；X_t')，Q(X_t'；X_t)为高斯分布的条件概率，当分布为对称分布时两者可以抵消；

其中，f(·)为特征值，★为互相关操作。

S46、当该区域存在潜在对象时，接受概率变大，否则变小。对象信息帮助算法接受可能存在目标区域的样本，保证该对该地区的充分开发。判断候选样本X_t'的接受概率a是否大于一个在[0,1]范围内产生的随机数，若是，将候选样本X_t'添加入样本集中，执行步骤S47，否则，删除候选样本，执行步骤S48；

S47、对加入样本集后的样本所处子区域的态密度进行更新：

g(S_i')←g(S_i')×f，

对修正因子进行调整，以获得更精细的态密度分布，同时直方图被清零。若本次采样未使直方图平坦，则对直方图进行更新：h(S_i')←h(S_i')+1，其中，h(S_i')为直方图。

步骤五：根据样本集中每个样本与目标模板之间的似然值对样本进行最大后验估计，得到当前帧图像在特征空间的目标；计算每个样本与目标模板之间的似然值，利用最大后验估计筛选出当前帧图像在特征空间的目标：P_t＝argmax(p(B_t,X_t'))，其中，P_t为最大后验估计的样本似然值。

步骤六：计算第2帧图像到当前帧图像的前一帧图像的目标对应的似然值的平均值M，并判断当前帧图像在特征空间的目标对应的似然值M_t是否大于0.8*M，若是，利用当前帧图像在特征空间的目标更新目标模板，并将目标模板对应至图像空间中输出跟踪结果，否则，返回步骤二，直至遍历完视频序列。

利用当前帧图像在特征空间的目标更新目标模板的方法为：f(B_t+1)＝f(P_t)·ξ+f(B_t)·(1-ξ)，其中，f(·)为特征值，ξ为更新速率，P_t为最大后验估计的样本似然值，B_t为t帧图像对应的目标模板，B_t+1为t+1帧图像对应的目标模板。

采用定性和定量两种方式评价本发明的有效性。定性评价方式采用本发明方法和各种代表性方法在部分帧内的跟踪效果图如图5所示。图5分别是Bird1、DragonBaby、Ironman、MotorRolling四个视频在部分帧内的跟踪效果图。其中，在Bird1出现目标在视野内丢失后再出现，而DragonBaby、Ironman、MotorRolling序列中的目标都发生了超过35像素的大范围位移，这些突变运动产生的帧间大位移使得其他算法表现出不适应，甚至跟踪失败，而本发明提出的方法获得了好的跟踪效果。定量评价方式采用了OTB2013和OTB2015两个通用的跟踪算法评价数据集，其分别包含50和100个序列，其采用中心误差率与重叠率标定算法的跟踪效果。距离精度DP是指依据设定的阈值图像序列中能够成功跟踪目标的帧数与总帧数的比值。其中，阈值是通过跟踪结果与真实结果的中心误差值确定的，本发明设置阈值为0.5。中心误差是通过计算跟踪目标的中心位置和真实位置之间的欧氏距离，一般其值越小说明跟踪结果比较优。目标重叠率OP是指跟踪结果与真实目标区域面积与操作和并操作的比值，其值越大，说明跟踪结果越好。如图4(a)～(d)所示，本发明与ECO-HC、HDT、HCFT、CNN-SVM、SRDCF等代表性跟踪方法的跟踪结果显示，本发明OURS获得了最优或次优的成绩。综合图5结果表示，本发明提供的目标跟踪方法能够获得了较好地跟踪表现。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种对象标签引导的自适应视频目标跟踪方法，其特征在于，其步骤如下：

为子区域的索引值，并初始化每个子区域的态密度为1、子区域似然度为1/d、直方图为0，其中，m为特征图的宽度，n为特征图的高度，G为特征图的维度，x为子区域的宽度，y为子区域的高度；

其中，

为横坐标方向的高斯分布的条件概率，

为候选样本的横坐标，

为候选样本的纵坐标，

为上一个样本的横坐标，

为上一个样本的纵坐标，

为特征空间中横坐标方向的高斯分布的方差，

为特征空间中纵坐标方向的高斯分布的方差；

其中，Obj(S_i’’)为候选样本所属子区域的对象标签，Z_t为归一化系数，

为候选样本，

为候选样本的横坐标，

为候选样本的纵坐标，V(X_t')为候选样本X_t'的对象得分，S_i'为候选样本X_t'所处的子区域，τ为调节系数；

为上一个样本的横坐标，

为上一个样本的纵坐标，Obj(S_i')为上一个样本所属子区域的对象标签，g(S_i’’)为子区域S_i’’的态密度值，g(S_i')为子区域S_i'的态密度值，Q(X_t；X_t')，Q(X_t'；X_t)均为高斯分布的条件概率；

S47、对加入样本集后的样本所处子区域的态密度进行更新：

g(S_i')←g(S_i')×f，

S48、采样次数k＝k+1，判断k是否达到最大采样次数iter，若是，结束采样，得到当前帧图像的样本集，否则，返回步骤S43；

2.根据权利要求1所述的对象标签引导的自适应视频目标跟踪方法，其特征在于，所述步骤三中对全局对象信息集中的对象进行筛选得到当前帧图像在图像空间的对象信息集的方法为：

S32、计算全局对象信息集中所有对象的面积：

其中，

3.根据权利要求2所述的对象标签引导的自适应视频目标跟踪方法，其特征在于，所述对象的面积的约束条件为：

4.根据权利要求3所述的对象标签引导的自适应视频目标跟踪方法，其特征在于，所述当前帧图像下的目标模板B_t与候选样本X_t'之间的似然值p(B_t,X_t')的计算方法为：

其中，f(·)为特征值，★为互相关操作。

5.根据权利要求4所述的对象标签引导的自适应视频目标跟踪方法，其特征在于，所述根据样本集中每个样本与目标模板之间的似然值对样本进行最大后验估计，得到当前帧图像在特征空间的目标的方法为：计算每个样本与目标模板之间的似然值，利用最大后验估计筛选出当前帧图像在特征空间的目标：P_t＝argmax(p(B_t,X_t'))，其中，P_t为最大后验估计的样本似然值。

6.根据权利要求1所述的对象标签引导的自适应视频目标跟踪方法，其特征在于，所述利用当前帧图像在特征空间的目标更新目标模板的方法为：f(B_t+1)＝f(P_t)·ξ+f(B_t)·(1-ξ)，其中，f(·)为特征值，ξ为更新速率，P_t为最大后验估计的样本似然值，B_t为t帧图像对应的目标模板，B_t+1为t+1帧图像对应的目标模板。