CN106127798A

CN106127798A - 基于自适应模型的稠密时空上下文目标跟踪方法

Info

Publication number: CN106127798A
Application number: CN201610414060.7A
Authority: CN
Inventors: 朱征宇; 郑加琴; 李帅; 徐强; 袁闯
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2016-06-13
Filing date: 2016-06-13
Publication date: 2016-11-16
Anticipated expiration: 2036-06-13
Also published as: CN106127798B

Abstract

本发明提出了一种基于自适应模型的稠密时空上下文目标跟踪方法，包括如下步骤：S1，用户指定并给出视频第一帧初始矩形框的跟踪目标，并用于初始化得到STC常规模板，然后立即对该常规模板进行一次快照保存得到第一个历史快照模板并将其加入快照模板组中；S2，当t帧到来时，同时使用历史快照模板组和STC常规模板对t帧进行跟踪估计；S3，然后取出快照模板组中估计得到的最高置信度代入公式中判断，若历史快照模板的适应性强于常规模板时，则将历史快照模板对常规进行快照回滚，最后将帧索引值代入公式Index_frame％φ＝＝0中判断是否达到了快照采集的间隔阈值来采集新的快照，从而始终保持准确跟踪目标。

Description

基于自适应模型的稠密时空上下文目标跟踪方法

技术领域

本发明涉及计算机领域，尤其涉及一种基于自适应模型的稠密时空上下文目标跟踪方法。

背景技术

计算机视觉是指利用计算机及相关成像设备作为硬件基础收集图像信息，然后利用计算机方法等软件对收集到的图像信息进行处理，获取其中的目标或者语义等内容，以实现对生物视觉系统的仿真模拟。其中成像设备作为视觉器官的替代用于对周围环境的图像信息进行采集，计算机方法则作为人脑的替代对收集到的信息进行加工处理得到其中感兴趣的场景信息和内容。

其中视频内目标跟踪作为计算机视觉领域中重要的问题之一，不仅需要攻克的技术难点较多，而且它还是一系列后续工作任务的基础，如车牌识别、目标行为估计、运动估计、智能交通流量管理及限制等，所以视频目标跟踪作为一项具有挑战性的基础性工作，受到了世界各地研究者的高度关注和研究。视频目标跟踪是对输入的视频流的每一帧，通过前向帧积累的目标特征信息(如颜色、纹理、形状等)，再对新输入的一帧进行采样分析找出和前向帧的目标在当前帧中的位置内容信息(如坐标位置、尺度大小等)，最后对连续帧分析到的结果相关联，从而进一步对目标的相关信息进行估计和获取，如运动速度、方向等。截止目前为止，计算机视觉已经经过了半个世纪的研究和发展，已经涌现了许许多多高效可靠的方法，并也已应用在了人们生活的方方面面。

①人机交互：20世纪计算机被发明，截止21世纪，计算机已经发展了半个多世纪，极大了解放了人类的生物劳动。但这之前人类主要用鼠标、键盘及触摸板等硬件设备与计算机进行交互。随着科技进步，人类迫切希望在不需要直接物理硬件的条件下与计算机进行交互，操作并控制计算机。其中利用成像设备捕捉人类的肢体语言信号并利用方法加以分析解读，借此来实现与计算机交互。

②智能交通监控：随着城市化的加剧和经济发展以及城市人口密度的增加，间接促进汽车的普及，给城市公共交通带来了巨大压力，对人们的日常生活也产生了干扰。如何有效的利用道路视频监控分析道路交通压力，并加以调节，合理的对交通进行控制分流也已经是一项迫切解决的问题。

③视觉导航：近年来，无人控制设备行业呈现茁壮发展的局面，包括无人机，无人驾驶汽车等新技术，新产品的不断问世。而这些产品需要解决的一个重要问题就是如何合理有效的解读出无人设备捕获的图像信息中包含的各种信息，如此便可针对各种干扰因素作用下的环境做出最合理最正确的动作反应。

④违章识别：在现实生活中，本已拥挤不堪的马路不时有不遵守规章制度的车辆，如超速、违规停车等。如果利用道路监控系统对这些违章行为有效的识别，一方面可以规范驾驶人员，保障人们的生命财产安全，另一方面又可以有效减少车管所工作人员的工作负荷。而这需要一个强大、实时、可靠的视频目标跟踪及运动估计方法。

此外，精密定位系统、应急人员疏散和管理等众多方面也广泛需要可靠的视频目标跟踪技术，因而开发一款满足高鲁棒性、实时性好的优秀方法具有巨大的现实和生活意义。但由于实际应用中的目标跟踪往往会受到各种不同因素的干扰，给方法的开发带来巨大的挑战。

STC方法的缺点

STC方法框架中，STC方法是一个纯粹的基于线性贝叶斯滤波框架的方法，虽然这个框架可以方便地通过先序Markov链传播后验概率知识，同时不可避免的带入了跟踪漂移问题，即易发生模型漂移。

尽管视频目标跟踪方法已经研究发展了数十年，并且已有各式各样的方法被提出，但是目前常见的跟踪方法依然是基于线性结构模型，其中分为时间线性结构模型和贝叶斯平均结构模型。时间线性结构模型是一种比较简单且可靠的选择，因为它能很好的适应在线跟踪类型的框架且后验概率密度传播也非常简单，计算量小，但是模型过于简单，其仅使用了前一帧结果进行概率密度传播来估计新帧的结果，忽略了目标在时间轴上变化的连贯性，在某些场景下其估计的结果会不可靠，如突然的外观变化、快速运动以及遮挡等，因此不能处理复杂环境下的目标跟踪。贝叶斯平均结构模型是对前一种线性结构模型的优化结构，该模型同时使用所有前向帧的概率密度对新帧进行估计并得到结果，但却盲目的对所有前向帧的概率密度进行平均处理，忽略了跟踪过程中可能引入的误差，造成误差累积致使最终丢失目标。

以上两种模型均是基于马尔科夫时间平滑假设前提下的结构模型。即认为当时间足够短时，在时间上相邻的两帧中的目标的变化比较微小，包括位置、外观等，虽然基于这种假设可以有效的减少在新帧中估计目标位置时的搜索空间，但是低估了复杂环境条件下的目标跟踪可能出现的漂移以及潜在的采样误差等。当方法继续学习这些带有少量误差的样本时，随着误差积累，方法的跟踪过程将不可避免的出现偏差和目标漂移，而以上两种框架均未此进行处理，并全盘肯定了前向帧的估计结果并加以学习。随着跟踪过程的继续处理，误差将被逐渐积累直至模板彻底混淆了前景目标与背景干扰，致使跟踪的目标出现漂移直至完全丢失。

如图1所示，STC方法属于基于贝叶斯平均结构模型，因此也存在先天抗漂移能力弱情况。FaceOcc1视频在STC方法下的跟踪结果中，目标在受到遮挡时，STC方法的估计结果出现了漂移，而且STC方法不加选择的全盘学习了被背景污染的结果，使得有部分背景信息被吸收到了目标模板中。随着时间的推移，STC不断的学习和积累背景信息，直至模板彻底混淆了前景目标和背景干扰，最终将背景干扰判定为了前景。这样出现的结果就是目标在跟踪过程中出现漂移，然后目标一点一点的偏出方法估计的结果中心直至完全丢失。

时间线性结构模型和贝叶斯平均模型，这两种模型存在着先天缺陷：

1)首先基于时间线性结构模型的方法过于简单，忽略了待跟踪目标在时间轴上变化的连贯性，而基于贝叶斯平均模型的方法则盲目的对所有前向帧的概率密度函数进行了平均；

2)其次截止目前为止，还未有完美的方法能够在每一帧的预测估计都能得到最完美的结果，尤其在多种干扰并存的复杂场景下的跟踪；

3)此外还包括潜在的采样误差。

因此有许多帧的目标估计均会不可避免的包含背景信息在内。而由于这两种基于时间平滑假设的模型均忽视了方法估计引入的误差，导致这些误差信息均会被学习到方法模板中积累，最终引起目标跟踪发生漂移直至丢失。

因STC方法属于基于贝叶斯平均模型的方法，所以必然存在着同类型模型方法存在的易发生模型漂移的先天缺陷。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种基于自适应模型的稠密时空上下文目标跟踪方法。

为了实现本发明的上述目的，本发明提供了一种基于自适应模型的稠密时空上下文目标跟踪方法，包括如下步骤：

S1，用户指定并给出视频第一帧初始矩形框的跟踪目标，并用于初始化得到STC常规模板，然后立即对该常规模板进行一次快照保存得到第一个历史快照模板并将其加入快照模板组中；

S2，当t帧到来时，同时使用历史快照模板组和STC常规模板对t帧进行跟踪估计；

S3，然后取出快照模板组中估计得到的最高置信度代入公式中判断，若历史快照模板的适应性强于常规模板时，则将历史快照模板对常规进行快照回滚，最后将帧索引值代入公式Index_frame％φ＝＝0中判断是否达到了快照采集的间隔阈值来采集新的快照，从而始终保持准确跟踪目标。

所述的基于自适应模型的稠密时空上下文目标跟踪方法，优选的，所述S1包括：

S1-1，打开视频文件的输入流in并初始化图形窗口Window；

S1-2，从输入流in中读取第一帧F₁，并由用户手工输入第一帧初始矩形框

Rect₁＝(x₁,y₁,width₁,height₁)，初始化尺度变量更新间隔阈值常量n、快照模板抓取间隔常量φ以及快照模板组容量其中x为目标中心横坐标、y为目标中心纵坐标，width为目标宽度、height为目标高度；

S1-3，使用F₁和Rect₁初始化STC模型并得到STC常规模板T₁ ^nor；

S1-4，对当前STC常规模板进行一次快照保存并加入快照模板组中得到其中，上标S1为快照模板组中的第一个快照，下标F1表示该历史快照模板保存的是第一帧时刻的快照。

所述的基于自适应模型的稠密时空上下文目标跟踪方法，优选的，所述S1-3包括：

S1-3-1，初始化尺度参数σ₁＝0.5*(width₁+height₁)，尺度变量Scale₁＝1，局部上下文区域大小

S1-3-2，根据公式

b是一个规范化常数，α是尺度参数，β是形状参数，初始化标准置信图矩阵m(x)，

S1-3-3，根据公式

其中F^-1代表反FFT变换，得到的空间上下文模型h^sc学习了不同像素之间的相对空间关系，计算第一帧F₁的空间上下文模型并用之初始化第二帧的时空上下文模型I(x)为像素强度，ω(x-x^*)是高斯权重函数，x^*为目标中心坐标，β是形状参数。

所述的基于自适应模型的稠密时空上下文目标跟踪方法，优选的，所述S2中历史快照模板组包括：

假设F_t-1帧已经跟踪完成，当前待跟踪的视频帧为F_t，t＝2，3，….，n，其中n为待跟踪视频最后一帧的序号，此时已知t-1帧的目标框Rect_t-1＝(x_t-1,y_t-1,width_t-1,height_t-1)，尺度参数σ_t-1，尺度变量Scale_t-1，其中，STC常规模板历史快照模板组

所述的基于自适应模型的稠密时空上下文目标跟踪方法，优选的，所述S2还包括：

输入，待跟踪的第t帧图像的矩阵数据F_t；

S2-1，更新尺度参数σ_t＝σ_t-1*Scale_t-1；

S2-2，使用STC常规模板组对t帧进行估计；

S2-3，使用历史快照模板组对t帧进行估计；

S2-4，将常规置信度和快照模板组最高置信度代入公式中进行适应性判断，若STC常规模板的适应性满足则转入S2-6，否则转入S2-5；

S2-5，此时STC常规模板的适应性已弱于历史快照模板组中最优秀的模板，假设历史快照模板组中最优秀的是第j个模板，则使用第j个历史快照模板对STC常规模板进行快照回滚；

S2-6，此时STC常规模板的适应性仍然足够，采纳STC常规模板对t帧的估计结果作为最终的结果，分别为和

S2-7，更新常规STC模板和必要的参数；

S2-8、输出Rect_t到外部文件并将其绘制到t帧图像矩阵F_t上，最后将图像矩阵F_t绘制到图形窗口window中，如果t＜n，则更新t＝t+1，并转入S2-1，否则转入S2-9；

S2-9、跟踪结束。

所述的基于自适应模型的稠密时空上下文目标跟踪方法，优选的，所述S2-2包括：

S2-2-1，根据公式

其中I(g)是像素强度，用于表示上下文外观，以及矩形框Rect_t-1计算上下文先验概率模型

S2-2-2，将t帧时空上下文模型以及上下文先验概率模型代入公式计算得到置信图矩阵

S2-2-3，将置信度代入公式计算得到t帧对应的矩形框

S2-2-4，根据公式以及矩形框计算上下文先验概率模型

S2-2-5，将t帧时空上下文模型以及上下文先验概率模型代入公中计算得到置信图矩阵。

S2-2-3，将置信度代入公式计算得到t帧对应的置信度

所述的基于自适应模型的稠密时空上下文目标跟踪方法，优选的，所述S2-3包括：

S2-3-1，依次使用快照模板组中的快照模板对t帧进行估计并得到对应的置信度和目标框

S2-3-2，从中找出快照模板组所估计计算得到的最高置信度假设最高置信度模板对应的索引计数为j，即

Index_max＝j，则其对应的目标框

所述的基于自适应模型的稠密时空上下文目标跟踪方法，优选的，所述S2-5包括：

S2-5-1，使用第j个历史快照模板对STC常规模板进行重置恢复，即STC常规模板

S2-5-2，对第j个历史快照模板使用数加一，并对快照模板组中快照按最近使用时间重排序，便于之后按照LRU原则剔除过时快照模板；

S2-5-3，采纳第j个历史快照模板对t帧估计的结果作为最终的结果，包括置信度和跟踪目标框结果，分别为和转入S2-7。

所述的基于自适应模型的稠密时空上下文目标跟踪方法，优选的，所述S2-7包括：

S2-7-1，此时无论STC模板是否经过回滚重置都已经是适应性最强的模板，只需将其简单的学习t帧的内容特征后即可，其中ρ为学习参数，其值越大表示更新速度越快；

S2-7-2，如果t％n＝＝0，使用公式计算并更新Scale_t，否则Scale_t＝Scale_t-1，其中s_t′是连续两个相邻帧之间的估计尺度，为全部帧平均估计尺度，σ为尺度参数，λ为尺度学习参数；

S2-7-3，如果t％φ＝＝0，对STC常规模板抓取一次快照并将其加入到快照模板组SnapSet中，之后检查快照模板的数量是否超出了容量上限若超出限制则采用LRU最近最少使用原则进行剔除。

S2A，若S2‐4中公式成立说明STC常规模板的适应性已不如快照模板，或由于STC常规模板积累了过多的背景信息特征，或目标状态发生变化回到一个历史上相似的状态使得历史快照模板更加契合，此时使用快照模板对STC常规模板进行覆盖，并对该快照模板使用计数值+1；

S2B，否则说明STC常规模板的适应性仍然最好无需替换，继续使用该常规模板完成t帧的跟踪；

S2C，最后STC常规模板无论是否发生回滚，都已经是适应性最强的模板，可以继续学习t帧最新的内容特征；

所述S3还包括：

S3A，若S2‐7‐3中t％φ＝＝0公式成立，则对STC常规模板抓取一次快照并加入历史快照模板组中；

S3B，若快照模板组中的数量超出容量上限则根据LRU原则进行剔除，如此往复直至完成整个视频序列的跟踪。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

在Boy视频序列的实验中，本发明所提出的ASTC方法实现了最好的效果，达到了95％的成功率，STC和CT的成功率分别为67％和37％，且平均中心坐标误差也同时优于CT的85.38和STC的42。这是由于本发明提出了一个新的适用于在线学习类型跟踪的自适应结构模型，在一定程度上否定了马尔科夫时间平滑假设，通过保存多个历史快照模板同时对新帧进行预测估计，当检测到历史模板比常规模板具有更佳的适应性时立即进行替换，实现常规模板的快照回滚，丢弃了之前一段时间内学习积累的背景特征，使得更加适合于当前时刻的跟踪，因而获得了更好的跟踪效果。

针对当前STC方法中存在的易发生模型漂移问题进行了改进，通过采用一种新的自适应结构模型，本发明研究提出了一种改进的上下文目标跟踪方法ASTC。由于STC方法使用了贝叶斯平均结构模型，其模型基于Markov时间平滑假设，对于估计到的每一帧的结果都全盘采纳并学习，并且由于潜在的采样误差等，极易造成STC方法模板的误差积累，导致估计结果出现漂移直至丢失。而本发明改进方法ASTC所提出的自适应结构模型是在适用于离线方法的树状结构模型的基础上，对在线方法进行了适应性改进，使其不但遵从时间变化，且不会过多影响在线方法的实时性。自适应模型通过保存多个历史快照模板，且同时使用快照组和常规模板进行跟踪，当检测到历史快照模板的适应性高于常规模板时，立即对常规模板进行回滚，丢弃之前一段时间内学习积累的误差，以实现更加鲁棒的跟踪。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是现有技术中FaceOcc1视频序列在STC方法下的部分跟踪结果截图；

图2是本发明基于自适应结构的时空上下文目标跟踪方法(ASTC)流程图。

图3是本发明所提出的自适应结构模型的图解模型。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

STC最终将跟踪问题转化为在置信图中寻找置信度最高的点作为目标中心：

m(x)＝P(x|o) (1.1)

其中m(x)即为待求置信图，x∈i²代表了目标坐标，o代表目标外观表示。公式(1.1)等价于后验概率P(o|x)因为STC使用了一致的先验概率P(o)用于简化目标表示。x^*作为待跟踪目标中心的坐标，则定义当前帧的上下文特征集合表示为：X^c＝{c(z)＝(I(z),z)|z∈Ω_c(x^*)}，其中I(z)表示z坐标处的像素强度，Ω_c(x^*)表示以x^*坐标为中心，两倍于原始目标框范围的局部上下文区域。最后结合一些概率公式，公式(1.1)的置信图的计算可以化简表示为

\begin{matrix} m (x) = P (x | o) q \\ = Σ_{c (z) &Element; X^{c}} P (x, c (z) | o) \\ = Σ_{c (z) &Element; X^{c}} P (x | c (z), o) P (c (z) | o) \end{matrix} - - - (1.2)

其中条件概率函数P(x|c(z),o)是对目标坐标及它的上下文信息之间的空间关系进行建模，并且这个建模信息可以帮助我们解决由于对图像低层级处理带来的歧义，P(c(z)|o)是对局部上下文区域建模得到的上下文先验概率模型，P(x|c(z),o)的主要作用用于连结目标坐标和它的空间上下文。

空间上下文建模

在公式(1.2)中的条件概率函数P(x|c(z),o)被定义为

P(x|c(z),o)＝h^sc(x-z) (1.3)

其中函数h^sc(x-z)代表了目标坐标x和它的局部上下文坐标z之间的相对空间距离和相对方向，因此能够对目标和它的空间上下文的相对空间关系进行编码，作为空间上下文模型。

注意到h^sc(x-z)不是一个对称的放射函数，并且它把目标及它的局部上下文之间的不同的空间关系都考虑在内。这会帮助解决当有和目标相似的背景出现且和目标距离较近时带来的歧义性。

上下文先验概率模型

在公式(1.2)中，上下文先验概率模型是与上下文外观相关的，且可以简化为

P(c(z)|o)＝I(z)ω_σ(z-x^*) (1.4)

其中I(g)是像素强度，用于表示上下文外观，ω_σ(g)是一个高斯权重函数，其定义为

ω_{σ} (z - x^{*}) = {ae}^{- \frac{{| z - x^{*} |}^{2}}{σ^{2}}} - - - (1.5)

其中a是一个规范化常数，σ是尺度参数。

在公式(1.4)中，STC采用该公式进行建模是受到生物视觉系统激发影响，这样可以对图像中心区域进行更精确的分析。越接近目标中心x^*坐标的上下文区域的点z，就对预测未来帧的目标中心越重要，将被赋予更高的权重。

置信图

根据对象坐标建模得到的置信图函数表示为

m (x) = P (x | o) = {be}^{- {| \frac{x - x^{*}}{α} |}^{β}} - - - (1.6)

其中b是一个规范化常数，α是尺度参数，β是形状参数。

公式(1.6)中的置信图矩阵m(x)考虑了目标坐标的先验信息在内，可有效处理坐标带来的歧义性。目标坐标歧义性经常发生在视频目标跟踪过程中，这会极大的影响跟踪效果。越接近当前帧跟踪位置的坐标，越容易发生歧义。在STC方法中，通过选取一个合适的形状参数β来解决这个坐标歧义问题。当β选取较大时(如β＝2)会导致置信图在目标中心附近区域过度平滑，不能很好的处理坐标导致的歧义性。另一方面，当β选取较小时(如β＝0.5)会导致在目标中心附近区域过度尖锐，导致当在学习空间上下文模型时不能得到足够的正样本。最终通过实验验证选取β＝1时可得到最鲁棒的结果。

空间上下文模型的计算

基于置信图函数(1.6)和上下文先验概率模型(1.4)，STC将公式(1.3)、(1.4)、(1.5)、(1.6)代入公式(1.2)中可以得到

\begin{matrix} m (x) = {be}^{- {| \frac{x - x^{*}}{α} |}^{β}} \\ = Σ_{z &Element; Ω_{c} (x^{*})} h^{s c} (x - z) I (z) ω_{σ} (z - x^{*}) \\ = h^{s c} (x) &CircleTimes; (I (x) ω (x - x^{*})) \end{matrix} - - - (1.7)

其中表示卷积运算。

对于公式(1.7)，由于卷积运算计算复杂度较高，运算比较耗时，STC通过使用FFT(Fast Fourier Transform)变换将运算进行转换，这样可以大幅降低计算复杂度，节约时间。经过FFT变换后的公式为

\begin{matrix} F ({be}^{- {| \frac{x - x^{*}}{α} |}^{β}}) = F (h^{s c} (x)) e & F (I (x) ω (x - x^{*})) \end{matrix} - - - (1.8)

其中F代表FFT运算，e代表按对应元素相乘，因此最终的运算进一步转换为

h^{s c} (x) = F^{- 1} (\frac{F ({be}^{- {| \frac{x - x^{*}}{α} |}^{β}})}{F (I (x) ω (x - x^{*}))}) - - - (1.9)

其中F^-1代表反FFT变换。这里得到的空间上下文模型h^sc学习了不同像素之间的相对空间关系。

STC的跟踪过程

在这之后STC的跟踪任务就格式为一个检测的过程。首先STC假定第一帧的目标坐标已经由人为手工划定且给出。第t帧时，STC通过公式(1.6)已经学习得到了空间上下文模型并将其用于更新并得到t+1帧时空上下文模型如此可减少由于目标外观变化导致的噪声。然后将t+1帧的时空上下文模型用于t+1帧目标中心位置的侦测。当t+1帧到来时，STC根据t帧的目标中心坐标在t+1帧上裁剪得到局部上下文区域并构造得到对应的上下文特征集合待求取的t+1帧的目标中心坐标可以通过求t+1帧置信图的最大值得到，其公式为

x_{t + 1}^{*} = \arg \underset{x &Element; Ω_{x} (x_{t}^{*})}{{maxm}_{t + 1}} (x) - - - (1.10)

其中m_t+1(x)为t+1帧的置信图，根据公式(1.7)可得到其计算公式为

m_{t + 1} (x) = H_{t + 1}^{s t c} (x) &CircleTimes; (I_{t + 1} (x) ω_{σ_{t}} (x - x_{t}^{*})) - - - (1.11)

其中时空上下文模型可由空间上下文模型经过低通时间滤波处理得到，因此可在一定程度上减少因为突然的目标外观变化而导致t+1帧的像素强度I_t+1变化，进而减少引入的噪声污染。对于该公式，同样可以使用FFT变换加速运算，所以最终的计算公式为

m_{t + 1} (x) = F^{- 1} (F (H_{t + 1}^{s t c} (x)) e F (I_{t + 1} (x) ω_{σ_{t}} (x - x^{*}))) - - - (1.12)

时空上下文模型的更新

时空上下文模型的更新公式定义为

H_{t + 1}^{s t c} = (1 - ρ) - H_{t}^{s t c} + {ρk}_{t}^{s c} - - - (1.13)

其中参数ρ为学习速率，其值越大表示更新速度越快，保留之前的特征也越少；是由公式(1.9)计算得到的t帧的空间上下文模型。对于公式(1.13)而言，相当于进行了一次低通时间滤波处理过程，其对应在频域的处理公式为

H_{ω}^{s t c} = F_{ω} h_{ω}^{s c} - - - (1.14)

其中对应的时间傅里叶变换公式为时间滤波函数F_ω可用公式表示为

F_{ω} = \frac{ρ}{e^{j ω} - (1 - ρ)} - - - (1.15)

其中j表示虚数单位。很容易可以证实公式(1.15)是一个低通滤波处理。因此STC可以很好的过滤出由于图像外观变化而引入的噪声，并得到更加鲁棒的结果。

尺度更新

根据公式(1.12)可以得到当前帧中的目标中心坐标，但是并不能获得尺度信息。然而目标的尺度也在随时发生在变化，因此公式(1.5)中的尺度参数σ也应该被相应的更新。STC提出了自己的尺度更新机制，其对应公式为

\{\begin{matrix} s_{t}^{'} = \sqrt{\frac{m_{t} (x_{t}^{*})}{m_{t - 1} (x_{t - 1}^{*})}}, \\ {\overset{&OverBar;}{s}}_{t} = \frac{1}{n} Σ_{i = 1}^{n} s_{t - i}^{'}, \\ s_{t + 1} = (1 - λ) s_{t} + λ {\overset{&OverBar;}{s}}_{t}, \\ σ_{t + 1} = s_{t} σ_{t}, \end{matrix} - - - (1.16)

其中m_t(g)是有公式(1.12)计算得到的t帧的置信度，s_t′是连续两个相邻帧之间的估计尺度，λ＞0是一个滤波参数，类似于公式(1.13)中的学习参数ρ。STC为了增强估计鲁棒性以及减少估计误差引入的噪声，目标估计尺度s_t+1将使用连续n个相邻帧的平均估计尺度进行一次滤波处理后得到。

如图2所示，基于自适应模型的稠密时空上下文目标跟踪方法ASTC(VisualTracking using Adaptive Structure Model based on Spatio-temporal Context)的算法流程图

新模型通过保存固定数量的历史模板快照，每当新的一帧到来时，同时使用快照模板和常规模板进行估计，当快照模板估计得到足够好的结果时，即快照模板的适应性高于常规模板，此时我们认为常规模板可能积累了太多的误差信息，已经不适合继续使用用于接下来的跟踪，则我们采纳快照模板跟踪得到的结果并用快照模板对常规模板进行替换，实现常规模板的快照式回滚，相当于丢弃了从保存快照时刻开始到现在的这段时间间隔内的学习积累的潜在的背景特征内容。

此外，针对模板快照替换准则，本发明提出一个适应性公式用于判断，其公式如下：

\frac{C_{{snap}^{\max}}^{k} - C_{n o r m a l}^{k}}{C_{n o r m a l}^{k}} > ξ - - - (1)

其中表示快照模板组中对第k帧估计得到的最大置信度，是常规模板对第k帧估计得到的置信度，ξ为常数阈值。该公式表示当快照模板组中估计的最大置信度对常规模板估计的置信度的超出幅度达到了一定阈值时即认为常规模板的适应性过低，需使用快照模板对常规模板进行替换。

目前本发明方法采集快照模板策略是设定一个间隔常量φ，即每间隔φ帧就对常规模板采集一次快照并加入快照模板组，其公式如下：

Index_frame％φ＝＝0 (2)

其中Index_frame表示视频帧序号，φ为间隔常量。每当快照模板组中的某个模板被使用于对常规模板回滚时，将对该快照模板使用计数加一或者重排序，便于接下来的应用。

由于本发明的方法主要应用于基于在线学习类型的框架，因此对实时性要求较高，快照组的容量必须进行限制，否则将影响跟踪的实时性。本发明设快照模板组的容量为其对应公式为：

其中Size_snap为快照模板组当前的大小，是常量，为快照模板组的最大容量限制。当新采集的快照模板加入进来使得时，本发明根据LRU(Least RecentlyUsed，最近最少使用)原则进行剔除，这样可以最大程度的保存最优质的模板便于必要时刻用于对常规模板进行替换。

图3为本发明提出的自适应结构模型的图解模型。其中设φ＝1,即快照模板保存间隔为1，快照模板组容量为4。假设第一帧由手工给定且初始化完毕，此时快照模板组状态为其中s1表示快照模板组中序号为1，F1表示保存的快照模板只包含第一帧的内容特征，常规模板状态为T₁ ^nor。当第二帧到来时，常规模板估计得到最好的结果，并将第二帧的结果进行学习得到为表示此模板中包含了第一帧和第二帧的特征信息，此时对常规模板进行一次快照采集并加入快照模板组中得到第三帧的处理结果同上，此时快照模板组和常规模板的状态分别为和第四帧到来时，假设快照模板组中估计结果最好的是第二份快照且经过公式判断后证明它的适应性比常规模板要高，此时进行快照替换，替换后的快照模板组再进行一次重排序，状态为常规模板状态为此时的常规模板已经发生了回滚，相当于丢弃了第三帧学习的内容特征，这时常规模板能对第四帧估计能得到和一样最好的结果，之后将第四帧的内容学习并再次采集快照模板，最后快照模板组和常规模板的状态分别为和当第5帧到来时，常规模板完成估计和学习后的状态为此时，所采集一次快照并加入快照模板组中的时候的状态为集合超出了快照模板组的容量上限，根据LRU原则进行一次剔除，剔除后的快照模板组状态为如此往复直至完成所有视频帧的跟踪。

其中改进方法ASTC的形式化描述

本发明改进方法ASTC中提出了一个适用于在线学习类型跟踪方法的新结构模型，称为自适应结构模型。该模型不再拘泥于之前同类方法所基于的Markov时间平滑假设，因为该假设存在先天不足，导致基础方法对新帧的内容不加判断就进行学习，极有可能学习并积累错误的背景信息导致跟踪漂移。所提出的改进方法通过保持一定数量的快照模板组，让历史快照模板组和常规模板同时对新帧进行跟踪，当某一个历史快照模板得到比常规模板更好的跟踪结果时，立即用该快照模板对常规模板进行覆盖实现快照式回滚，使得常规模板更佳契合对当前帧的跟踪，有效增强跟踪鲁棒性。

首先第一帧的初始目标跟踪框由用户指定并给出，并使用该初始信息初始化STC方法并得到对应模板称之为STC方法的常规模板，然后立即对该常规模板进行一次快照保存得到第一个历史快照模板并将其加入快照模板组中。当t帧到来时，同时使用历史快照模板组和STC常规模板对t帧进行跟踪估计。然后取出快照模板组中估计得到的最高置信度代入公式中判断，若成立说明STC常规模板的适应性已不如该快照模板，或STC常规模板积累了过多的背景信息特征，或目标状态发生变化回到一个历史上相似的状态使得历史快照模板更加契合，此时使用该快照模板对STC常规模板进行覆盖，并对该快照模板使用计数值+1；否则说明STC常规模板的适应性仍然最好无需替换，继续使用该常规模板完成t帧的跟踪。此时STC常规模板无论是否发生回滚，都已经是适应性最强的模板，然后继续学习t帧最新的内容特征。最后将帧索引值代入公式Index_frame％φ＝＝0中判断是否达到了快照采集的间隔阈值，若未达到则继续下一帧的跟踪；若已达到，则对STC常规模板抓取一次快照并加入历史快照模板组中，若快照模板组中的数量超出容量上限，则根据LRU原则进行剔除。如此往复直至完成整个视频序列的跟踪。

改进方法ASTC的形式化描述如下：

初始化：

1、根据指定参数打开对应视频文件的输入流in并初始化图形窗口Window；

2、从输入流in中读取第一帧F₁，输入第一帧初始矩形框

Rect₁＝(x₁,y₁,width₁,height₁)，初始化尺度变量更新间隔阈值常量n、快照模板抓取间隔常量φ以及快照模板组容量其中x为目标中心横坐标、y为目标中心纵坐标，width为目标宽度、height为目标长度；

3、使用F₁和Rect₁初始化STC模型并得到STC常规模板T₁ ^nor：

(1)、初始化尺度参数σ₁＝0.5*(width₁+height₁)，尺度变量Scale₁＝1，局部上下文区域大小

(2)、根据公式

b是一个规范化常数，α是尺度参数，β是形状参数。初始化标准置信图矩阵m(x)，

(3)、根据公式

其中F-1代表反FFT变换。得到的空间上下文模型h^sc学习了不同像素之间的相对空间关系。计算第一帧F₁的空间上下文模型并用之初始化第二帧的时空上下文模型I(x)为像素强度，ω(x-x^*)是高斯权重函数，x^*为目标中心坐标，β是形状参数；

4、对当前STC常规模板进行一次快照保存并加入快照模板组中得到其中，上标S1为快照模板中的序号，下标F1表示该历史快照模板保存的是第一帧时刻的快照，

跟踪过程：

假设F_t-1帧已经跟踪完成，当前待跟踪的视频帧为F_t，t＝2，3，….，n，其中n为待跟踪视频最后一帧的序号。此时已知t-1帧的目标框Rect_t-1＝(x_t-1,y_t-1,width_t-1,height_t-1)，尺度参数σ_t-1，尺度变量Scale_t-1，STC常规模板历史快照模板组

输入：待跟踪的第t帧图像的矩阵数据F_t；

Step 1、更新尺度参数σ_t＝σ_t-1*Scale_t-1；

Step 2、使用STC常规模板组对t帧进行估计：

(1)、根据公式

(2)、将t帧时空上下文模型以及上下文先验概率模型代入公式计算得到置信图矩阵

(3)、将置信度代入公式计算得到t帧对应的矩形框

(4)、根据公式以及矩形框计算上下文先验概率模型

(5)、将t帧时空上下文模型以及上下文先验概率模型代入公式中计算得到置信图矩阵

(6)、将置信度代入公式计算得到t帧对应的置信度

Step 3、使用历史快照模板组对t帧进行估计：

(1)、依次使用快照模板组中的快照模板对t帧进行估计并得到对应的置信度和目标框

(2)、从中找出快照模板组所估计计算得到的最高置信度假设最高置信度模板对应的索引计数为j，即

Index_max＝j，则其对应的目标框

Step 4、将常规置信度和快照模板组最高置信度代入公式中进行适应性判断，若STC常规模板的适应性满足则转入Step6，否则转入Step 5；

Step 5、此时STC常规模板适应性已弱于历史快照模板组中的第j个模板的适应性，对STC常规模板进行快照回滚：

(1)、使用第j个历史快照模板对STC常规模板进行重置恢复，即STC常规模板

(2)、对第j个历史快照模板使用数加一，并对快照模板组中快照按最近使用时间重排序，便于之后按照LRU原著剔除旧快照模板；

(3)、采纳第j个历史快照模板对t帧估计的结果作为最终的结果，包括置信度和跟踪目标框结果，分别为和

(4)、转入步骤7；

Step 6、此时STC常规模板的适应性仍然足够，采纳STC常规模板对t帧的估计结果作为最终的结果，分别为和

Step 7、更新常规STC模板和必要的参数：

(1)、此时无论STC模板是否经过回滚重置都已经是适应性最强的模板，只需将其简单的学习t帧的内容特征后即可，其中ρ为学习参数，其值越大表示更新速度越快；

(2)、如果t％n＝＝0，使用公式计算并更新Scale_t，否则Scale_t＝Scale_t-1，其中s_t′是连续两个相邻帧之间的估计尺度，为全部帧平均估计尺度，σ为尺度参数，λ为尺度学习速率；

(3)、如果t％φ＝＝0，对STC常规模板抓取一次快照并将其加入到快照模板组SnapSet中，之后检查快照模板的数量是否超出了容量上限若超出限制则采用LRU最近最少使用原则进行剔除；

Step 8、输出Rect_t到外部文件并将其绘制到t帧图像矩阵F_t上，最后将图像矩阵F_t绘制到图形窗口window中，如果t＜n，则更新t＝t+1，并转入Step1，否则转入Step 9；

Step 9、跟踪结束。

我们使用了三个评价标准对实验结果进行定量评判：分别为成功率(SR)、中心坐标误差(CLE)以及帧速(FPS)，前两者均是与手工标注的基准数据对比得出。

SR(success rate)的计算方法为：首先计算每一帧跟踪的得分score，其计算公式定义为：

s c o r e = \frac{a r e a (R_{t} \cap R_{g})}{a r e a (R_{t} \cup R_{g})} - - - (4)

其中R_t表示方法在每一帧计算得出的目标框，R_g表示手工标注的精确的目标框，area(R)为R区域的面积，当score＞0.5时，我们就认为这一帧跟踪成功；然后使用跟踪成功的帧数除以视频的总帧数并乘以100％即可得到SR。故而SR越高，即越接近1，表示方法的跟踪精确性越高，效果越好。

CLE(the center location error)定义为每一帧方法得到目标中心与手工标注的目标中心的欧式距离，其计算公式定义为：

{CLE}_{t} = \sqrt{{(x_{t} - x_{g t})}^{2} + {(y_{t} - y_{g t})}^{2}} - - - (5)

其中CLE_t表示待计算的第t帧的中心坐标误差，x_t表示方法得到的第t帧结果的目标中心的x坐标，x_gt表示手工标注的第t帧目标中心的x坐标。该参数体现了方法在目标跟踪过程中估计得到的结果与真实结果之间的漂移程度，故而CLE越低，表示方法跟踪效果越好，稳定性越高。一段视频序列包含了不定长数量的视频帧，其对应的ACLE(the averateof center location error，平均中心坐标误差)的计算公式为：

A C L E = \frac{Σ_{i = 1}^{n} {CLE}_{i}}{n} - - - (6)

其中ACLE即为所求的平均中心坐标误差，n为对应视频长度，即视频帧的总数。CLE定量展示了每一帧的跟踪情况，ACLE则展示了一段视频的整体跟踪情况。

FPS(frame per second)为方法每秒处理的帧数，其值越高越好，说明方法的处理速度越快，效率越高，实时性越好。注意，本发明在计算FPS时由于代码未做优化，同时为了利于肉眼观看及方便帧速计算，均对每一帧的处理都加入了一定的延时，故而FPS只可作为相对参考对比，不可作为绝对参考数值。

提出的基于自适应模型的时空上下文目标跟踪方法(ASTC)、当前Spatio-temporal Context Tracking(STC)方法和现有Compressive Tracking(CT)方法三个方法进行了对比。

快速运动、面内旋转及运动模糊

Boy视频序列，在该视频中待跟踪目标受到了包括快速运动、面内旋转以及运动模糊等因素的干扰，给目标跟踪带来相当大的挑战。在图像帧中，CT方法的估计结果已经出现了严重的漂移，至后续帧，CT方法已经彻底丢失了目标，再也未能找回并恢复跟踪，因此仅实现了约37％的成功率。对于STC方法而言，该视频序列前期并未受到剧烈的干扰，因此跟踪效果较好，但在#407帧附近发生了一次极快速的面外旋转及运动模糊，STC的跟踪开始出现漂移，截止#416帧已经彻底丢失了待跟踪的目标，完全被背景内容所吸引，实现了67％的成功率。Boy视频序列对应的跟踪中心坐标误差曲线图中可以看出，CT和STC分别在对应帧附近出现了跟踪漂移，而后完全丢失了跟踪目标，并且在干扰结束后也未能恢复跟踪，究其原因在于这两者方法均基于Markov时间平滑假设，完全依赖新帧的跟踪结果，不加判断的学习，导致方法模板积累了过多的背景内容特征，完全混淆了前景目标特征和背景特征。在该视频序列中，本发明所提出的ASTC方法实现了最好的效果，达到了95％的成功率，且仅为3.1的平均中心坐标误差也同时优于CT的85.38和STC的42。这是由于本发明提出了一个新的适用于在线学习类型跟踪的自适应结构模型，在一定程度上否定了马尔科夫时间平滑假设，通过保存多个历史快照模板同时对新帧进行预测估计，当检测到历史模板比常规模板具有更佳的适应性时立即进行替换，实现常规模板的快照回滚，丢弃了之前一段时间内学习积累的背景特征，使得更加适合于当前时刻的跟踪。Boy视频序列对应的跟踪中心坐标误差曲线中可以看出本发明提出的ASTC方法同样后续帧附近的强干扰下出现了短暂漂移，但是在干扰结束后及时通过历史快照模板进行了修正，因而获得了更好的跟踪效果。

运动模糊及背景混乱

在Deer视频序列中，目标受到了剧烈的运动模糊和背景混乱干扰。待跟踪目标为一只小鹿的头部，而小鹿的整个身体均是一致的毛色，同时周围还有别的同样纹理特征的干扰鹿，给目标跟踪带来了相当严峻的考验，因而在该视频上实验结果表明包括CT和STC在内的两个方法的跟踪效果均不甚理想，分别只有8％和6％的成功率，而且平均中心坐标误差也分别达到了150.18和374.38。在#7帧可以明显看出，STC方法已经由于漂移彻底丢失了目标，ASTC虽也出现了一定程度的漂移，但到后续帧时可以看出，ASTC经过历史快照模板的修正丢弃帧之间学习到的错误背景特征，已经重新找回了目标并恢复了正确的跟踪，而STC由于学习并积累了过多了背景内容特征，已无可能恢复跟踪。在#11帧附近，由于待跟踪目标的一次快速运动以及背景混乱，CT方法的跟踪开始出现漂移，CT方法已丢失了目标。而本发明所提出的ASTC方法由于采用了新的自适应结构模型，当常规模板因积累过多背景信息导致适应性降低时，该模型可以通过适应性公式检测到这种情况，，并及时用历史快照模板进行了重置回滚，丢弃了积累的错误背景内容特征，增强了跟踪稳定性和鲁棒性，实现了最好的跟踪效果，达到了83％的成功率和9.7的平均中心坐标误差。

遮挡状态

遮挡问题是视频跟踪领域常谈常新的一个问题，不仅是因为它是一个最常见的干扰因素，而且它同时对跟踪方法带来了巨大的挑战，因而是当前衡量一款跟踪方法性能和鲁棒性的关键要素。

FaceOcc1视频，在该序列中，目标不断受到各种不同程度的遮挡，因此如何处理遮挡过程中的跟踪以及遮挡后的恢复是跟踪方法亟待解决的问题。在FaceOcc1的视频序列的后续帧附近发生了一次时间较长且严重的遮挡，从#170帧开始直到后续帧附近才完全结束遮挡。在如此长时间且严重的遮挡干扰下，完全基于Markov时间平滑假设的STC方法由于不间断的学习导致积累过多的遮挡物特征，已经将前景目标特征与背景特征相混淆，从视频帧可以看出，STC已经被遮挡物的特征所吸引，故而STC方法仅实现了25％的成功率和327.86的平均中心坐标误差。

对于CT方法而言，该方法同样基于Markov时间平滑假设，故而也容易出现跟踪漂移问题。在FaceOcc1视频序列上，在帧与帧期间又发生了一次长时间的严重遮挡。从图像帧遮挡物开始移出至后续帧完全移出的过程中，CT的跟踪结果被遮挡物的特征所吸引也随着遮挡物向下移，由于CT方法限定结果目标框必须处于视频内容范围，因此当前跟踪结果未能滑出视频画面；同样的从图像帧期间，遮挡物重新出现，CT再次将遮挡物判定为前景目标并跟随遮挡物上移，歪打正着的估计出正确结果；再次在图像帧期间，CT的跟踪结果同样被遮挡物吸引，又一次随着遮挡物左移。由此说明同样基于Markov时间平滑假设的CT方法也由于过多学习背景特征而混淆了前景目标特征和背景遮挡物特征。但由于FaceOcc1视频序列分辨率较低，待跟踪目标本身较大，且CT方法的结果目标框必须在视频内容内，因而即便CT结果出现漂移也能包含部分正确目标区域不至于导致中心坐标误差过大，或当人脸目标被严重遮挡时CT由于正确估计出遮挡物而歪打正着估计得到正确的结果，故此CT的成功率和平均中心坐标误差分别达到了75％和31.84。

对于FaceOcc1视频序列，本发明所提出的ASTC方法取得了最佳的实验效果，正确率和平均中心坐标误差分别达到了98％和12.72。究其原因在于ASTC采用了新的自适应结构模型，通过对STC常规模板结果进行适应性检查，当检测到STC常规模板适应性弱于历史快照模板时，及时使用历史快照模板对STC常规模板进行重置恢复，使STC常规模板回滚到历史上的某一时刻，丢弃了一段时间内学习积累的错误遮挡物特征，提高了STC常规模板的适应性，使其更加适合当前时刻的跟踪，有效增强了跟踪鲁棒性。在FaceOcc1视频序列实际实验中发生常规模板快照回滚的图像帧时刻状态。在该状态下快照模板组中共保存了4张快照模板，分别在图像帧时刻，可以明显看出，ASTC方法估计的结果也同样由于连续不断学习遮挡物的特征，被遮挡物所吸引，并随着遮挡物的移除而向下移。至历史快照模板估计到了比STC常规模板更好的结果，本发明所提出的ASTC方法有效抑制了跟踪漂移，增强了STC常规模板的鲁棒性，提升了跟踪效果。

FaceOcc2视频序列，从图像帧可以明显看出STC被遮挡物所吸引出现漂移直至完全丢失，而CT方法虽较好的估计到正确目标但由于不支持尺度变化导致其成功率并不高，仅为56％，只有本发明的ASTC方法较好的完成了跟踪，实现了98％的成功率。从图像帧可以看出CT和STC方法均出现了一定程度的漂移，自图像帧左右开始出现了严重遮挡，STC已完全跟丢且未能在遮挡结束后恢复，而本发明的ASTC则能较好的完成了跟踪。CT方法已被遮挡物所吸引导致跟踪丢失，图像帧再次出现了遮挡并且更为严重，STC开始出现漂移直至丢失，ASTC方法则通过适应性检查及时修正了常规模板中积累的误差，实现了最好的跟踪，达到了86％的成功率和5.32的平均中心坐标误差。

光照变化及面内外旋转

Sylvester视频序列包含了光照变化、面内外旋转以及尺度缩放等多种因素的干扰。CT的跟踪已发生漂移并完全丢失目标，而STC方法也由于待跟踪目标不断受到多种因素干扰的情况不能及时修正模板积累的误差，出现了明显的漂移，仅实现了54％的成功率。对于本发明所提出的ASTC方法由于及时丢弃了常规模板中积累的误差并回滚到历史上更加适合当前目标状态的跟踪模板，有效提升了成功率，达到了85％。

跟踪丢失后的目标寻回

CT方法属于局部候选搜索方法，其搜索半径限定在上一帧目标中心半径25个像素距离的范围内；同样的对于STC方法也是局部搜索候选搜索方法，STC方法的搜索范围是限定在初始目标框两倍大小的局部上下文区域内。因此当目标重新出现的位置超出了局部搜索范围是无可能重新找回目标的，CT、STC均被遮挡物所吸引，至图像帧目标重新完整出现后已完全超出了其候选目标中心的搜索范围，是无可能重新找回，因而CT和STC分别仅实现了16％和17％的成功率。同样对于Jogging2视频序列，本发明所提出的ASTC方法实现了最好的效果，成功率达到了99％，究其原因在于ASTC完整保存了历史快照模板的各项参数信息，包括位置估计等，有效增大了候选搜索区域，并通过对常规模板进行历史回滚进而丢弃了之前学习积累的遮挡物的内容特征，增强了跟踪鲁棒性，故而实现了最好的实验效果。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于自适应模型的稠密时空上下文目标跟踪方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于自适应模型的稠密时空上下文目标跟踪方法，其特征在于，所述S1包括：

S1-1，打开视频文件的输入流in并初始化图形窗口Window；

S1-2，从输入流in中读取第一帧F₁，并由用户手工输入第一帧初始矩形框Rect₁＝(x₁,y₁,width₁,height₁)，初始化尺度变量更新间隔阈值常量n、快照模板抓取间隔常量φ以及快照模板组容量其中x为目标中心横坐标、y为目标中心纵坐标，width为目标宽度、height为目标高度；

3.根据权利要求2所述的基于自适应模型的稠密时空上下文目标跟踪方法，其特征在于，所述S1-3包括：

S1-3-2，根据公式

S1-3-3，根据公式

其中F^-1代表反FFT变换，得到的空间上下文模型h^sc学习了不同像素之间的相对空间关系，计算第一帧F₁的空间上下文模型h₁ ^sc，并用之初始化第二帧的时空上下文模型I(x)为像素强度，ω(x-x^*)是高斯权重函数，x^*为目标中心坐标，β是形状参数。

4.根据权利要求1所述的基于自适应模型的稠密时空上下文目标跟踪方法，其特征在于，所述S2中历史快照模板组包括：

假设F_t-1帧已经跟踪完成，当前待跟踪的视频帧为F_t，t＝2，3，….，n，其中n为待跟踪视频最后一帧的序号，此时已知t-1帧的目标框 Rect_t-1＝(x_t-1,y_t-1,width_t-1,height_t-1)，尺度参数σ_t-1，尺度变量Scale_t-₁，其中，STC常规模板历史快照模板组

5.根据权利要求1所述的基于自适应模型的稠密时空上下文目标跟踪方法，其特征在于，所述S2还包括：

输入，待跟踪的第t帧图像的矩阵数据F_t；

S2-1，更新尺度参数σ_t＝σ_t-1*Scale_t-1；

S2-2，使用STC常规模板组对t帧进行估计；

S2-3，使用历史快照模板组对t帧进行估计；

S2-7，更新常规STC模板和必要的参数；

S2-9、跟踪结束。

6.根据权利要求5所述的基于自适应模型的稠密时空上下文目标跟踪方法，其特征在于，所述S2-2包括：

S2-2-1，根据公式

S2-2-3，将置信度代入公式计算得到t帧对应的矩形框

S2-2-4，根据公式以及矩形框计算上下文先验概率模型P_t ^{^2}

S2-2-5，将t帧时空上下文模型以及上下文先验概率模型P_t ^{^2}代入公式中计算得到置信图矩阵。

S2-2-3，将置信度代入公式计算得到t帧对应的置信度。

7.根据权利要求5所述的基于自适应模型的稠密时空上下文目标跟踪方法，其特征在于，所述S2-3包括：

Index_max＝j，则其对应的目标框

8.根据权利要求5所述的基于自适应模型的稠密时空上下文目标跟踪方法，其特征在于，所述S2-5包括：

9.根据权利要求5所述的基于自适应模型的稠密时空上下文目标跟踪方法，其特征在于，所述S2-7包括：

S2-7-2，如果t％n＝＝0，使用公式计算并更新Scale_t，否则Scale_t＝Scale_t-1，其中s′_t是连续两个相邻帧之间的估计尺度，为全部帧平均估计尺度，σ为尺度参数，λ为尺度学习参数；

10.根据权利要求1所述的基于自适应模型的稠密时空上下文目标跟踪方法，其特征在于，所述S2还包括：

所述S3还包括：