CN107423702B

CN107423702B - 基于tld跟踪系统的视频目标跟踪方法

Info

Publication number: CN107423702B
Application number: CN201710595737.6A
Authority: CN
Inventors: 赵亦工; 宗家辉
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2017-07-20
Filing date: 2017-07-20
Publication date: 2020-06-23
Anticipated expiration: 2037-07-20
Also published as: CN107423702A

Abstract

本发明属于目标检测和目标跟踪领域，公开了一种基于TLD跟踪系统的视频目标跟踪方法，包括：在跟踪目标的起始帧，根据给出所需要跟踪目标的位置和大小信息，生成子图像窗口，并对CSK跟踪器和检测器进行初始化；跟踪器根据上一帧跟踪到的目标以及当前帧跟踪到的目标估计出本帧图像中目标的位置；用检测器找到在当前帧中所有可能出现的目标区域；对跟踪器和检测器的结果进行综合，判断出当前帧是否存在目标，如果不存在目标，则对下一帧进行处理；如果存在目标，就判断目标是否有效；如果有效，则进入学习模块，完成检测器和跟踪器的在线更新，并开始对下一帧进行处理；能够解决目标出现遮挡时对目标进行有效检测的问题。

Description

基于TLD跟踪系统的视频目标跟踪方法

技术领域

本发明属于目标检测和目标跟踪技术领域，尤其涉及一种基于TLD(Tracking-Learning-Detection，跟踪学习检测)跟踪系统的视频目标跟踪方法。

背景技术

运动目标的检测和跟踪是计算机视觉领域重要的研究内容之一。通过人眼将运动的目标从视频序列中分析识别出来是非常容易的，但是对于计算机来说却是很困难的，因为跟踪目标的形态变化、背景混杂以及光照变化都会对跟踪带来巨大的干扰。运动的目标跟踪与检测是利用数字图像处理以及视频分析等相关技术对视频序列图像进行处理分析，最终使计算机理解视频序列中的客观背景和目标。实时跟踪已经在监控安防、智能机器人、遥感探测和航天航空等领域发挥着重要作用，研究此问题具有重要的应用价值。

运动目标检测与跟踪在工业上安防、航天航空、遥感探测、智能机器人等领域发挥着重要作用。未来基于计算机视觉的目标跟踪系统不仅在电子技术、工业检测等传统行业具有巨大的市场，在基础设施的配套工程，如：城市道路监控，以及自动驾驶汽车、无人飞机等新型产业将迎来广阔的应用前景。因此，研究具有稳定性、实时性、精确性的目标跟踪算法有着十分重要的应用价值，同时也会面临着严峻的挑战。

在对TLD研究和测试的过程中，TLD算法对于遮挡的目标跟踪效果并不理想。

发明内容

针对上述现有技术的缺点，本发明的目的在于提供一种基于TLD跟踪系统的视频目标跟踪方法，在原有TLD框架中的引入CSK(Circulant-Structure-Kernel循环矩阵结构)跟踪器并对原有的检测框架进行修改，能够解决目标出现遮挡时对目标进行有效检测的问题。

为达到上述目的，本发明采用如下技术方案予以实现。

一种基于TLD跟踪系统的视频目标跟踪方法，所述视频目标跟踪方法基于视频目标跟踪系统实现，所述视频目标跟踪系统包含：跟踪滤波器，重合度检测器，随机森林分类器，以及最近邻分类器；所述视频目标跟踪方法包括如下步骤：

步骤1，获取视频中的第一帧图像，人为标定目标区域，在所述第一帧图像中获取以所述目标区域为中心，所述目标区域N倍大小的图像片；所述人为标定的目标区域为矩形区域；

步骤2，根据所述图像片的大小构造二维高斯分布函数以及汉明窗，进而根据所述图像片、所述二维高斯分布函数以及所述汉明窗，分别对跟踪滤波器的第一参数、第二参数进行初始化；

步骤3，以所述目标区域的大小为基准，构造多个不同尺度的矩形框；

第一尺度矩形框从所述第一帧图像的左上角开始，每次移动一个像素位置，从左往右，从上往下，依次遍历整个第一帧图像；在所述第一尺度矩形框遍历整个第一帧图像的过程中，记录该第一尺度矩形框的所有位置以及第一尺度矩形框在每个位置时与目标区域的重合度；所述第一尺度矩形框为多个不同尺度的矩形框中的任意一个矩形框；重合度的值大于0且小于1；

采用集合grid记录多个不同尺度的矩形框遍历所述第一帧图像过程中的所有位置以及每个尺度矩形框在每个位置时与目标区域的重合度，完成对重合度检测器的初始化；

步骤4，设置第一重合度阈值，第二重合度阈值，且第一重合度阈值大于第二重合度阈值；

对于集合grid，将其中重合度大于所述第一重合度阈值的矩形框对应的信息记录在集合good-boxes中，将其中重合度小于所述第二重合度阈值的矩形框对应的信息记录在集合bad-boxes中，将其中重合度最大的一个矩形框对应的信息记录在集合best-box中；矩形框对应的信息至少包含该矩形框的变换尺度，该矩形框的位置以及该矩形框与目标区域的重合度；

步骤5，将集合best-box中的矩形框对应的图像片进行归一化并缩小得到正样本图像片，将所述正样本图像片存储在集合pEx中作为一个正样本；矩形框对应的图像片是指该矩形框在第一帧图像中框定的图像区域；

将集合bad-boxes中的每个矩形框对应的图像片进行归一化并缩小得到负样本图像片，将得到的所有负样本图像片存储在集合nEx中作为负样本；

选取集合good-boxes中重合度较大的前t个矩形框，并将所述前t个矩形框对应的图像片分别进行f次仿射变换，得到f*t个正样本图像片；分别提取所述f*t个正样本图像片的特征值并存储于集合pX中，将每个正样本图像片的特征值的标记符记为1，标记符记为1表示该标记符对应的特征值为正样本的特征值；

分别提取集合bad-boxes中的每个矩形框对应的图像片的特征值并存储于集合nX中，并将每个矩形框对应的图像片的特征值的标记符记为0，标记符记为0表示该标记符对应的特征值为负样本的特征值；

将集合pX中的所有特征值与集合nX中的一半特征值组成一个含有正负样本特征值的集合fern-data；将集合pEx中的一个正样本图像片与集合nEx中的一半负样本图像片组成一个含有正负样本图像片的集合nn-data，且集合pEx中的一个正样本图像片为集合nn-data中的第一个元素；

步骤6，初始化随机森林分类器：遍历集合fern-data中的所有样本特征值，若特征值的标记符为1，则确定该特征值为正样本特征值的后验概率；若特征值的标记符为0，则确定该特征值为负样本特征值的后验概率；

步骤7，初始化最近邻分类器：构造集合pxx和集合nxx，集合pxx用于存储训练好的正样本，集合nxx用于存储训练好的负样本；

设置相关相似度分类阈值，将集合nn-data中的第一个元素存放在集合pxx中，将集合nn-data中的第二个元素存放在集合nxx中，从集合nn-data中的第三个元素开始遍历，计算集合nn-data中从三个元素开始的每个元素的相关相似度；

若集合nn-data中从三个元素开始的每个元素的相关相似度大于所述相关相似度分类阈值，则将该元素存储于集合nxx中，否则，不做处理；

步骤8，获取需要进行目标跟踪的图像帧，采用跟踪滤波器对所述需要进行目标跟踪的图像帧进行跟踪，得到跟踪到的目标中心位置，从而确定跟踪到的目标区域；

采用跟踪到的目标区域对所述跟踪滤波器的第一参数、第二参数进行更新；

步骤9，采用重合度检测器对所述需要进行目标跟踪的图像帧进行检测，得到需要进行目标跟踪的图像帧中所有可能的目标区域；

步骤10，采用随机森林分类器对所有可能的目标区域分别进行检测，确定每个可能的目标区域中是否存在目标，从而得到可能存在目标的图像区域；

步骤11，采用最近邻分类器计算每个可能存在目标的图像区域的相关相似度，从而确定存在潜在目标的图像区域；

步骤12，对跟踪器跟踪到的目标区域和所述最近邻分类器确定的存在潜在目标的图像区域进行综合处理，得到目标跟踪结果图像块；

步骤13，根据所述目标跟踪结果图像块，对所述重合度检测器、所述随机森林分类器以及所述最近邻分类器进行更新学习；

步骤14，重复执行步骤8值步骤13，直到处理完视频中所有需要进行目标跟踪的图像帧，完成视频目标跟踪过程。

本方案增强了跟踪目标的准确性，减少了目标在复杂背景下运动和在发生遮挡时跟踪丢失的概率，实现了对TLD跟踪算法中检测模块的优化，检测模块耗时更少。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的视频目标跟踪系统的框架结构示意图；

图2为本发明实现之后对目标在复杂背景下进行跟踪的效果图；

图3为本发明实现之后对目标发生遮挡时进行跟踪的效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种基于TLD跟踪系统的视频目标跟踪方法，参考图1，所述视频目标跟踪方法基于视频目标跟踪系统实现，所述视频目标跟踪系统包含：跟踪滤波器，重合度检测器，随机森林分类器，以及最近邻分类器；所述视频目标跟踪方法包括如下步骤：

步骤1，获取视频中的第一帧图像，人为标定目标区域，在所述第一帧图像中获取以所述目标区域为中心，所述目标区域N倍大小的图像片；所述人为标定的目标区域为矩形区域。

示例性的，N可取2-3倍。

步骤2，根据所述图像片的大小构造二维高斯分布函数以及汉明窗，进而根据所述图像片、所述二维高斯分布函数以及所述汉明窗，分别对跟踪滤波器的第一参数、第二参数进行初始化。

步骤2具体包括如下子步骤：

(2a)构造与所述图像片小大相同的矩形框sz，以及与所述图像片小大相同的汉明窗cos_win，所述汉明窗cos_win中位于(i_c，j_c)处的函数值cos_win(i_c，j_c)为：

其中，i_c∈(1，height_sz)，j_c∈(1，width_sz)，height_sz表示所述矩形框sz的高，width_sz表示所述矩形框sz的宽；

(2b)构造与所述矩形框sz大小相同的第一矩阵y_r和第二矩阵y_c，所述第一矩阵y_r中元素的值为：

所述第二矩阵y_c中元素的值为：

其中，r_h∈(1，height_ry)，r_l∈(1，width_ry)，height_ry表示所述第一矩阵y_r的高，width_ry表示所述第一矩阵y_r的宽；c_h∈(1，height_cy)，c_l∈(1，width_cy)，height_cy表示所述第二矩阵y_c的高，width_cy表示所述第二矩阵y_c的宽；

(2c)根据所述第一矩阵y_r和第二矩阵y_c，得到二维高斯分布函数y，其中所述二维高斯分布函数y中位于(m_y，n_y)处的函数值

其中，m_y∈(1，height_sz)，n_y∈(1，width_sz)，height_sz表示所述矩形框sz的高，width_sz表示所述矩形框sz的宽；output_sigma为预设参数，

(2d)将所述图像片转换为灰度图像，并将所述灰度图像的像素值与所述汉明窗对应位置处的函数值分别相乘，得到临时矩阵，对所述临时矩阵进行归一化后(归一化在(-0.5-0.5)之间)得到矩阵x_init，将矩阵x_init作为跟踪滤波器的第一参数z_init；

(2e)分别求得矩阵x_init的DFT变换矩阵xf_init，以及矩阵z_init的DFT变换矩阵zf_init，将矩阵x_init的DFT变换矩阵xf_init与矩阵z_init的DFT变换矩阵zf_init对应位置元素点乘得到矩阵xzf_init，然后对xzf_init进行逆傅里叶变换得到xz_init；

从而求得核函数k_init：所述核函数k_init为height_initk行width_initk列的矩阵；

其中，k_init(m_initk，n_initk)表示核函数k_init中第(m_initk，n_initk)位置处的函数值，m_initk∈(1，height_initk)，n_initk∈(1，width_initk)，height_initk表示核函数k_init的行数，width_initk表示核函数k_init的列数，xx表示矩阵x_init的二范数，zz表示矩阵z_init的二范数，xz_cul表示矩阵xz_init的循环移位；

(2f)确定跟踪滤波器的第二参数

其中，F(y)表示二维高斯分布函数y的DFT变换，F(k)表示核函数k_init的DFT变换。

步骤3，以所述目标区域的大小为基准，构造多个不同尺度的矩形框；(具体的，多个不同尺度的矩形框可以为18个到21个之间)。

采用集合grid记录多个不同尺度的矩形框遍历所述第一帧图像过程中的所有位置以及每个尺度矩形框在每个位置时与目标区域的重合度，完成对重合度检测器的初始化。

步骤4，设置第一重合度阈值Threshod_good(取值为0.6)，第二重合度阈Threshod_bad(取值为0.2)值，且第一重合度阈值大于第二重合度阈值；

对于集合grid，将其中重合度大于所述第一重合度阈值的矩形框对应的信息记录在集合good-boxes中，将其中重合度小于所述第二重合度阈值的矩形框对应的信息记录在集合bad-boxes中，将其中重合度最大的一个矩形框对应的信息记录在集合best-box中；矩形框对应的信息至少包含该矩形框的变换尺度，该矩形框的位置以及该矩形框与目标区域的重合度。

具体的，以下提到的所有对图像片进行归一化并缩小，是指将图像片归一化为均值为0大小为n*n(n取值为15)的小图像块。

选取集合good-boxes中重合度较大的前t(t取值为10-15，优选取值为10)个矩形框，并将所述前t个矩形框对应的图像片分别进行f次(20次)仿射变换，得到f*t个正样本图像片；分别提取所述f*t个正样本图像片的特征值并存储于集合pX中，将每个正样本图像片的特征值的标记符记为1，标记符记为1表示该标记符对应的特征值为正样本的特征值；

将集合pX中的所有特征值与集合nX中的一半特征值组成一个含有正负样本特征值的集合fern-data；将集合pEx中的一个正样本图像片与集合nEx中的一半负样本图像片组成一个含有正负样本图像片的集合nn-data，且集合pEx中的一个正样本图像片为集合nn-data中的第一个元素。

步骤5中，分别提取所述f*t个正样本图像片的特征值并存储于集合pX中，具体包括：

(5a)对于每个尺度的矩形框，在每个尺度的矩形框中随机选择S(S可取130)个坐标对，根据所述S个坐标对从每个矩形框对应的图像片中获取S个像素对，将S个像素对分为D(D可取10)组，每组d(d可取13)个像素对，且S＝D*d；

(5b)提取f*t个正样本图像片的特征值：根据每个正样本图像片对应的矩形框从每个正样本图像片中获取S个像素对，且所述S个像素对包含D组像素对，每组像素对包含d个像素对，若d个像素对中每个像素对的前一个像素大于后一个像素，则产生二进制数1，否则产生二进制数0，从而d个像素对产生d位二进制数，从而每个正样本图像片产生D组d位二进制数，将得到的D组d位二进制数作为对应正样本图像片的特征值。

步骤6，初始化随机森林分类器：遍历集合fern-data中的所有样本特征值，若特征值的标记符为1，则确定该特征值为正样本特征值的后验概率；若特征值的标记符为0，则确定该特征值为负样本特征值的后验概率。

步骤6具体包括如下子步骤：

(6a)构造后验概率模型posteriors作为随机森林分类器，所述后验概率模型posteriors为一个包含D个元素的集合，且每个元素包含2^d个小集合，每个小集合的初值为0；

构造第一集合pcounter和第二集合ncounter，所述第一集合pcounter和所述第二集合ncounter分别包含D个元素，每个元素包含2^d个小集合，每个小集合的初值为0；

(6b)集合fern-data中的每个元素都是由D个d位二进制数组成的，每个d位二进制数的大小在0至2^d-1之间；

(6c)获取集合fern-data中的第i_fern个元素pn＝fern_data[i_fern]，令pn＝fern_data[i_fern]；

fern_data[i_fern]表示集合fern-data中的第i_fern个元素，记为集合pn，集合pn包含D个元素，每个元素是一个d位二进制数，且其d位二进制数的大小在0至2d-1之间，i_fern∈(1，Q)；Q表示集合fern-data中的元素总个数；i_fern的初值为1；

(i)若fern_data[i_fern]是标记为1的正样本特征值：

(a1)确定该特征值为正样本特征值的后验概率vote1＝vote+posteriors[i_p][pn[i_p]]

其中，vote的初值为0，i_p表示遍历后验概率模型posteriors中元素、集合pn中元素的变量，i_p∈(1，D)，i_p的初值为1；

其中，posteriors[i_p][pn[i_p]]表示集合posteriors中第i_p个元素的第pn[i_p]个集合的值，pn[i_p]表示集合pn中第i_p个元素的值，pn[i_p]的数值范围在0至2^d-1之间；

(b1)将vote1的值赋给vote，且i_p的值加1，重复执行子步骤(a1)，直到i_p的值大于D，得到该特征值为正样本特征值的后验概率vote1；

设置第一后验概率阈值Threshold_vote(取值为6)；

(c1)若后验概率vote1的值小于所述第一后验概率阈值，则对第一集合pcounter中第p个元素的第pn[p]个集合pcounter[p][pn[p]]的值加1；

p的初值为1，p∈(1，D)，pn[p]表示集合pn中第p个元素的值，pn[p]的数值范围在0至2^d-1之间，pcounter[p][pn[p]]表示第一集合pcounter中第p个元素的第pn[p]个集合的值；

令：

posteriors[p][pn[p]]＝pcounter[p][pn[p]]/(pcounter[p][pn[p]]+ncounter[p][pn[p]])

其中，posteriors[p][pn[p]]表示集合posteriors中第p个元素的第pn[p]个集合的值，ncounter[p][pn[p]]表示第二集合ncounter中第p个元素的第pn[p]个集合的值；

(d1)令p的值加1，重复执行子步骤(c1)，直到p的值大于D；

(ii)若得到标记为0的负样本特征值：

(a2)确定该特征值为负样本特征值的后验概率vote2＝vote+posteriors[i_n][pn[i_n]]；

其中，vote的初值为0，i_n表示遍历后验概率模型posteriors中元素、集合pn中元素的变量，i_n∈(1，D)，i_n的初值为1；

其中，posteriors[i_n][pn[i_n]]表示集合posteriors中第i_n个元素的第pn[i_n]个集合的值，pn[i_n]表示集合pn中第i_n个元素的值，pn[i_n]的数值范围在0至2^d-1之间；

(b2)将vote2的值赋给vote，且i_n的值加1，重复执行子步骤(a2)，直到i_n的值大于D，得到该特征值为负样本特征值的后验概率vote2；

设置第二后验概率阈值Threshold_nvote(取值为5)；

(c2)若后验概率vote2的值大于所述第二后验概率阈值，则对第二集合ncounter中第in个元素的第pn[in]个集合ncounter[in][pn[in]]的值加1；

in的初值为1，in∈(1，D)，pn[in]表示集合pn中第in个元素的值，pn[in]的数值范围在0至2^d-1之间，ncounter[in][pn[in]]表示第二集合ncounter中第in个元素的第pn[in]个集合的值；

令：

posteriors[in][pn[in]]＝ncounter[in][pn[in]]/(pcounter[in][pn[in]]+ncounter[in][pn[in]])

其中，posteriors[in][pn[in]]表示集合posteriors中第in个元素的第pn[in]个集合的值，ncounter[in][pn[in]]表示第二集合ncounter中第in个元素的第pn[in]个集合的值；

(d2)令in的值加1，重复执行子步骤(c2)，直到in的值大于D；

(6d)令i_fern的值加1，重复执行子步骤(6c)，直到i_fern＞Q，遍历完集合fern-data中的所有元素，完成对后验概率模型posteriors的初始化。

设置相关相似度分类阈值Threshold_conf(取值为0.5)，将集合nn-data中的第一个元素存放在集合pxx中，将集合nn-data中的第二个元素存放在集合nxx中，从集合nn-data中的第三个元素开始遍历，计算集合nn-data中从三个元素开始的每个元素的相关相似度；

若集合nn-data中从三个元素开始的每个元素的相关相似度大于所述相关相似度分类阈值，则将该元素存储于集合nxx中，否则，不做处理。

步骤7中，从集合nn-data中的第三个元素开始遍历，计算集合nn-data中从三个元素开始的每个元素的相关相似度，具体包括如下子步骤：

(7a)获取集合nn-data中的第三个样本图像片，将第三个样本图像片与集合pxx中的每个样本图像片分别进行模板匹配，得到第三个样本图像片与集合pxx中的每个样本图像片的相关系数NCC：

其中，M_ncc为样本图像片的宽度，N_ncc为样本图像片的高度，图像片souimg是从集合nn-data中获取的样本图像片，图像片是temp是集合pxx中的样本图像片，i_ncc∈(1，M_ncc)，j_ncc∈(1，N_ncc)；

(7b)根据集合nn-data中的第三个样本图像片与集合pxx中的每个样本图像片的相关系数，从而确定第一最大的相关系数maxP；

(7c)得到集合nn-data中的第三个样本图像片与集合nxx中的每个样本图像片的相关系数，从而确定第二最大的相关系数maxN；

(7d)设置第一参数dP＝1-maxP，第二参数dN＝1-maxN，从而得到集合nn-data中的第三个样本图像片的相关相似度conf＝dN/(dN+dP)；

(7e)遍历集合nn-data中的第三个样本图像片之后的每个样本图像片，得到集合nn-data中每个样本图像片的相关相似度。

采用跟踪到的目标区域对所述跟踪滤波器的第一参数、第二参数进行更新。

步骤8具体包括如下子步骤：

(8a)获取需要进行目标跟踪的图像帧，将所述需要进行目标跟踪的图像帧转换为灰度图像，得到所述灰度图像中以上一帧图像目标位置为中心，与矩形框sz大小相同的图像片，将与矩形框sz大小相同的图像片的像素值与所述汉明窗对应位置处的函数值分别相乘，得到临时矩阵，对所述临时矩阵进行归一化后得到矩阵x_i，从而求得本帧图像对应的核函数，将本帧图像对应的核函数带入跟踪器的第二参数中，求得响应最大值点的位置max_i，将其作为跟踪滤波器跟踪到的目标中心位置，下标i表示需要进行目标跟踪的图像帧为第i帧图像；

(8b)在需要进行目标跟踪的图像帧中，获取以max_i为中心，大小与矩形框sz相同的图像片，将其与汉明窗相乘得到的矩阵进行归一化，得到矩阵x_i ^c，令new_z_i＝x_i ^c；从而根据矩阵x_i ^c和矩阵new_z_i求得新的核函数kc_i，再根据新的核函数k^c _i求得new_alphaf_i；

(8c)根据下式对跟踪滤波器的第一参数z_i和第二参数alphaf_i进行更新：

z_i＝(1-λ)z_i-1+λ×new_z_i

alphaf_i＝(1-λ)alphaf_i-1+λ×new_aphaf_i

其中，λ为学习率，z_i-1为第i-1帧图像中跟踪滤波器的第一参数值，alphaf_i-1为第i-1帧图像中跟踪滤波器的第二参数值，当i＝2时，z_i-1＝z_init。

然后根据上一帧的目标位置与本帧计算的max_i求得两帧中目标的重合度，如果重合度大于Threshoid_overlap(取值为0.3)，认为是CSK跟踪滤波器追踪到了目标。如果重合度小于Threshoid_overlap，认为CSK跟踪滤波器追踪到的目标是错误的，CSK跟踪滤波器追踪失败。

当重合度大于Threshoid_overlap以后，取出CSK跟踪滤波器追踪到的图像片(就是追踪到的目标块)，把这个图像块归一化并缩小，对这个图像片分别对集合pxx和nxx进行模板匹配，可以求得该图像块的相关相似度。如果这个相关相似度大于Thre_rec(取值为0.5)，会最终判定CSK跟踪滤波器追踪到的目标是有效的。如果tcon小于Thre_rec，就认为CSK跟踪滤波器追踪到的目标是无效的。

步骤9，采用重合度检测器对所述需要进行目标跟踪的图像帧进行检测，得到需要进行目标跟踪的图像帧中所有可能的目标区域。

步骤9具体包括：

获取重合度检测器中集合grid记录的多个不同尺度的矩形框，确定所述多个不同尺度的矩形框中重合度大于预设重合度的矩形框，根据重合度大于预设重合度的矩形框的位置，确定每个重合度大于预设重合度的矩形框在需要进行目标跟踪的图像帧中框定的图像区域，将其作为需要进行目标跟踪的图像帧中所有可能的目标区域。

步骤10，采用随机森林分类器对所有可能的目标区域分别进行检测，确定每个可能的目标区域中是否存在目标，从而得到可能存在目标的图像区域。

获取步骤9中通过检测的矩形框所对应的图像块，在每个图像块中都会选取S对坐标对(此处选取的坐标对与初始化选取的坐标对位置是一样的)，S个坐标对会有S对像素值，分成D个组，一个组由d个像素对，d个像素对相减会产生d个二进制的数(如果一个坐标对中靠前的坐标像素值小于后面的像素值，则为0，如果前面的像素值大于后面的像素值，则为1)。因为d位二进制数可以表示成一个数字。所以可以将这D个数分别带入公式vote＝vote+posteriors[e][pn[e]]求和得到vote。此时如果vote大于Threshold_vote(取值为6)，认为该图像块有前景目标，也就是存在目标，如果vote小于Threshold_vote，认为该图像块没有目标，这就是随机森林检测器。

步骤11，采用最近邻分类器计算每个可能存在目标的图像区域的相关相似度，从而确定存在潜在目标的图像区域。

通过步骤10第二次检测的图像块也可能有很多也可能是零。如果检测到的图像块为0，就认为目标已经消失在视频帧上。如果不等于零，这时候选取前SUM(取值为100)个最大vote的图像块作为前两次检测的结果(个数不到SUM的就按照检测到的真实个数算)。以上通过前两次的检测的图像块称为ims，对ims进行最终的最近邻检测器的检测，首先先将图像ims全部归一化为均值为0，大小为n*n的图像块imgs，然后计算每个图像块imgs[i_img]的相关相似度rconf[i_rconf](rconf[i_rconf]就是图像块imgs[i_img]求得的相关相似度，i_img代表的是用于遍历通过前两个检测器的图像块集合imgs的变量，初始值为1，i_rconf代表的是用于遍历集合rconf时的变量，初始值为1)，如果rconf[i_rconf]大于T_rconf(取值为0.65)，认为这个图像块是潜在的目标。

需要说明的是，检测器由三个小的检测器级联而成；分别是重合度检测器、随机森林分类器以及最近邻分类器。检测器会用不同尺度大小的窗口遍历整个视频帧，当窗口与上一帧图像中目标的重合度大于0.2时，就可以通过重合度检测器，进入随机森林检测器。这样可以避免遍历整幅图像来寻找潜在目标。

步骤12，对跟踪器跟踪到的目标区域和所述最近邻分类器确定的存在潜在目标的图像区域进行综合处理，得到目标跟踪结果图像块。

对跟踪器和检测器的结果进行综合处理，由上一步结果可以知道，最终通过所有检测器的图像块all_imgs的数量可能不止等于1，这时首先把这些图像块all_imgs进行分类，如果图像块all_imgs的数量等于1，就认为那唯一一个图像块就是最终的检测器检测到的图像块。图像块all_imgs的数量等于2，计算这两个图像块的重合度，如果两个图像块的重合度小于THRE_overlap(取值为0.5)，认为检测到了两个不同类别的图像块，如果重合度大于THRE_overlap，认为检测到的是同一个类别的图像块。同理，如果检测到的图像块all_imgs的数量大于等于三个，同样可以用重合度的计算原理来把这些图像块分为几类。然后按类别分别求得每个类别的平均值图像块；

例如：最终有A个类别，每个类别有B个图像块，分别对每个类别的图像块求一个平均的图像块，即可代表这个类别：

B代表每个类别有B个图像块，width_wi ^a代表的是第a类别的第wi个图像块的宽度，wi∈(1，B)，初始值为1，width_a代表的是第a类别图像块的平均宽度，a∈(1，A)，a的初始值为1。

B代表每个类别有B个图像块，height_hi ^a代表的是第a类别的第hi个图像块的高度，hi∈(1，B)，初始值为1，height_a代表的是第a类别图像块的平均高度，a∈(1，A)，a的初始值为1。

B代表每个类别有B个图像块，X_xxi代表的是第a类别的第xxi个图像块的横坐标，xxi∈(1，B)，初始值为1，X_a代表的是a类别图像块的平均横坐标，a∈(1，A)，a的初始值为1。

B代表每个类别有B个图像块，Y_yyi代表的是第a类别的第yyi个图像块的纵坐标，yyi∈(1，B)，初始值为1，Y_a代表的是a类别图像块的平均纵坐标，a∈(1，A)，a的初始值为1。

到此，每个类别的均值图像块都已经求到。

如果追踪器追踪到目标：用CSK跟踪器跟踪到的目标与检测器检测到的A个类别的图像块分别进行重合度计算，如果重合度小于ThreC_ovlap(取值为0.5)，且检测器检测到的图像块的相关相似度大于CSK追踪到的图像块的相关相似度，说明检测器和追踪器有歧义。最后累计求和得到KK个有歧义的图像块，如果KK＝1，说明检测器检测到的图像块比追踪器追踪到的图像块更加准确，检测器检测到的图像块就是最终TLD系统在当前帧追踪到的目标，如果KK的值大于1，只需要求得追踪器追踪到的图像块与检测器检测到的图像块的重合度(此时检测器检测到的图像块是通过三个检测器而且还没有分类别的图像块)，求得重合度大于ThreD_ovlap(取值为0.7)的图像块的个数，如果个数大于0，就把追踪到的图像块与检测到的图像块进行加求平均求得最终的跟踪目标的图像块。

如果跟踪器没有跟踪到目标，检测器检测到了cbb个类别的图像块，对每个类别的图像块求平均图像块，此时，如果cbb的大小等于1，TLD跟踪到的目标就是检测器检测到的目标，如果cbb的个数大于1，说明目标不在图像中。

步骤13，根据所述目标跟踪结果图像块，对所述重合度检测器、所述随机森林分类器以及所述最近邻分类器进行更新学习。

根据追踪和检测到的目标进行在线更新学习，记由上述步骤最终追踪到的目标块为current，重新求得集合grid中每个矩形框与当前追踪到的图像块current的重合度，用于下一帧图像的检测。

然后把图像块current归一化为均值为0，大小为n*n的图像块current_object。求得图像块current_object的相关相似度c_conf，如果c_conf小于Thrd_con(取值为0.5)，认为该样本不值得让检测器学习，直接返回，准备处理下一帧。如果c_conf大于Thrd_con，则接下来让检测器学习：把集合good_boxes，集合bad_boxes和best_box全部清空，然后重新遍历集合gird，求得重合度最大的矩形框即为best_box，把重合度大于Threshod_good的矩矩形框存放在good_boxes，重合度小于Threshod_bad的矩形框存放在bad_boxes中。

对于上述中获得的good_boxes，选取重合度最大的前ten个作为最终的good_boxes。然后对good_boxes中的每个矩形框进行f次仿射变换。经过f次仿射变换之后就会有ten*f个正样本。对每个正样本进行特征提取，先将初始pX进行清空，特征值存储在pX中。并把每个样本获得的特征值标记为1，认为是正样本。把bad_boxes里面的负样本和集合pX里面的样本全部存放在fern_pxx的集合中，此时fern_pxx集合中有正负样本。然后通过fern_pxx对随机森林检测器进行训练，过程跟初始化是一样(就是把初始化时的fern_data换成刚刚得到的fern_pxx)即可完成更新训练，将正样本pEx和负样本bad_boxes存放在集合nn_nxx中，然后对最近邻分类器进行训练，其中过程跟初始化最近邻分类器是一样的(把初始化用的nn_data换成nn_nxx)完成更新训练。

由图2可以看出，目标车辆在背景复杂(周围的环境很复杂)的情况下依然可以进行良好的跟踪，同时也并不影响在简单背景下的跟踪；图3可以看到跟踪目标在发生遮挡(前面有别的球员挡住)的时候，TLD同样也可以准确的跟踪到目标，结合这两个效果图，改进的TLD可以更准确的追踪目标。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于TLD跟踪系统的视频目标跟踪方法，其特征在于，所述TLD跟踪系统包含：跟踪滤波器，重合度检测器，随机森林分类器，以及最近邻分类器；所述视频目标跟踪方法包括如下步骤：

步骤1，获取视频中的第一帧图像，在所述第一帧图像中人为标定目标区域，在所述第一帧图像中获取以所述目标区域为中心，且大小为所述目标区域N倍的图像片；所述人为标定的目标区域为矩形区域；

具体包括如下子步骤：

(2a)构造与所述图像片小大相同的矩形框sz，以及与所述图像片小大相同的汉明窗cos_win，所述汉明窗cos_win中位于(i_c,j_c)处的函数值cos_win(i_c,j_c)为：

其中，i_c∈(1,height_sz)，j_c∈(1,width_sz)，height_sz表示所述矩形框sz的高，width_sz表示所述矩形框sz的宽；

(2b)构造与所述矩形框sz大小相同的第一矩阵y_r和第二矩阵y_c，所述第一矩阵y_r中位于(r_h,r_l)处的元素的值为：

所述第二矩阵y_c中位于(c_h,c_l)处的元素的值为：

其中，r_h∈(1,height_ry)，r_l∈(1,width_ry)，height_ry表示所述第一矩阵y_r的高，width_ry表示所述第一矩阵y_r的宽；c_h∈(1,height_cy)，c_l∈(1,width_cy)，height_cy表示所述第二矩阵y_c的高，width_cy表示所述第二矩阵y_c的宽；

(2c)根据所述第一矩阵y_r和第二矩阵y_c，得到二维高斯分布函数y，其中所述二维高斯分布函数y中位于(m_y,n_y)处的函数值

其中，m_y∈(1,height_sz)，n_y∈(1,width_sz)，height_sz表示所述矩形框sz的高，width_sz表示所述矩形框sz的宽；output_sigma为预设参数，

(2d)将所述图像片转换为灰度图像，并将所述灰度图像的像素值与所述汉明窗对应位置处的函数值分别相乘，得到临时矩阵，对所述临时矩阵进行归一化后得到矩阵x_init，将矩阵x_init作为跟踪滤波器的第一参数z_init；

(2e)分别求得矩阵x_init的DFT变换矩阵xf_init，以及矩阵z_init的DFT变换矩阵zf_init，将矩阵x_init的DFT变换矩阵xf_init与矩阵z_init的DFT变换矩阵zf_init对应位置元素点乘得到矩阵xzf_init，然后对xzf_init进行逆傅里叶变换得到矩阵xz_init；

其中，k_init(m_initk,n_initk)表示核函数k_init中第(m_initk,n_initk)位置处的函数值，m_initk∈(1,height_initk)，n_initk∈(1,width_initk)，height_initk表示核函数k_init的行数，width_initk表示核函数k_init的列数，sigma表示指数系数，取值为0.2，xx表示矩阵x_init的二范数，zz表示矩阵z_init的二范数，xz_cul表示矩阵xz_init的循环移位；

(2f)确定跟踪滤波器的第二参数

其中，F(y)表示二维高斯分布函数y的DFT变换，F(k)表示核函数k_init的DFT变换；

步骤4，设置第一重合度阈值、第二重合度阈值，且第一重合度阈值大于第二重合度阈值；

对于集合grid，将其中重合度大于所述第一重合度阈值的矩形框对应的信息记录在集合good-boxes中，将其中重合度小于所述第二重合度阈值的矩形框对应的信息记录在集合bad-boxes中，将其中重合度最大的一个矩形框对应的信息记录在集合best-box中；矩形框对应的信息至少包含该矩形框的变换尺度、该矩形框的位置以及该矩形框与目标区域的重合度；

设置相关相似度分类阈值，将集合nn-data中的第一个元素存放在集合pxx中，将集合nn-data中的第二个元素存放在集合nxx中，从集合nn-data中的第三个元素开始遍历，计算集合nn-data中从第三个元素开始的每个元素的相关相似度；

具体包括如下子步骤：

其中，M_ncc为样本图像片的宽度，N_ncc为样本图像片的高度，图像片souimg是从集合nn-data中获取的样本图像片，图像片temp是集合pxx中的样本图像片，i_ncc∈(1,M_ncc)，j_ncc∈(1,N_ncc)；souimg(i_ncc,j_ncc)表示图像片souimg中位于(i_ncc,j_ncc)处的像素值，temp(i_ncc,j_ncc)表示图像片temp中位于(i_ncc,j_ncc)处的像素值；

(7e)遍历集合nn-data中的第三个样本图像片之后的每个样本图像片，得到集合nn-data中每个样本图像片的相关相似度；

若集合nn-data中从第三个元素开始的每个元素的相关相似度大于所述相关相似度分类阈值，则将该元素存储于集合nxx中，否则，不做处理；

步骤8，获取需要进行目标跟踪的图像帧，采用跟踪滤波器对所述需要进行目标跟踪的图像帧进行跟踪，得到跟踪到的目标中心位置，从而确定跟踪滤波器跟踪到的目标区域；

具体包括如下子步骤：

(8b)在需要进行目标跟踪的图像帧中，获取以max_i为中心，大小与矩形框sz相同的图像片，将其与汉明窗相乘得到的矩阵进行归一化，得到矩阵x_i ^c，令new_z_i＝x_i ^c；从而根据矩阵x_i ^c和矩阵new_z_i求得新的核函数k^c _i，再根据新的核函数k^c _i求得new_alphaf_i；

z_i＝(1-λ)z_i-1+λ×new_z_i

alphaf_i＝(1-λ)alphaf_i-1+λ×new_aphaf_i

其中，λ为学习率，z_i-1为第i-1帧图像中跟踪滤波器的第一参数值，alphaf_i-1为第i-1帧图像中跟踪滤波器的第二参数值，当i＝2时，z_i-1＝z_init；

步骤12，对跟踪滤波器跟踪到的目标区域和所述最近邻分类器确定的存在潜在目标的图像区域进行综合处理，得到目标跟踪结果图像块；

步骤14，重复执行步骤8至步骤13，直到得到视频中所有需要进行目标跟踪的图像帧的目标跟踪结果图像块，完成视频目标跟踪过程。

2.根据权利要求1所述的一种基于TLD跟踪系统的视频目标跟踪方法，其特征在于，步骤5中，分别提取所述f*t个正样本图像片的特征值并存储于集合pX中，具体包括：

(5a)对于每个尺度的矩形框，在每个尺度的矩形框中随机选择S个坐标对，根据所述S个坐标对从每个矩形框对应的图像片中获取S个像素对，将S个像素对分为D组，每组d个像素对，且S＝D*d；

(5b)提取f*t个正样本图像片的特征值：根据每个正样本图像片对应的矩形框从每个正样本图像片中获取S个像素对，且所述S个像素对包含D组像素对，每组像素对包含d个像素对，若d个像素对中每个像素对的第一个像素大于第二个像素，则产生二进制数1，否则产生二进制数0，从而d个像素对产生d位二进制数，从而每个正样本图像片产生D组d位二进制数，将得到的D组d位二进制数作为对应正样本图像片的特征值。

3.根据权利要求2所述的一种基于TLD跟踪系统的视频目标跟踪方法，其特征在于，步骤6具体包括如下子步骤：

fern_data[i_fern]表示集合fern-data中的第i_fern个元素，记为集合pn，集合pn包含D个元素，每个元素是一个d位二进制数，且其d位二进制数的大小在0至2^d-1之间，i_fern∈(1,Q)；Q表示集合fern-data中的元素总个数；i_fern的初值为1；

(i)若fern_data[i_fern]是标记为1的正样本特征值：

其中，vote的初值为0，i_p表示遍历后验概率模型posteriors中元素、集合pn中元素的变量，i_p∈(1,D)，i_p的初值为1；

设置第一后验概率阈值；

p的初值为1，p∈(1,D)，pn[p]表示集合pn中第p个元素的值，pn[p]的数值范围在0至2^d-1之间，pcounter[p][pn[p]]表示第一集合pcounter中第p个元素的第pn[p]个集合的值；

令：

(d1)令p的值加1，重复执行子步骤(c1)，直到p的值大于D；

(ii)若得到标记为0的负样本特征值：

其中，vote的初值为0，i_n表示遍历后验概率模型posteriors中元素、集合pn中元素的变量，i_n∈(1,D)，i_n的初值为1；

设置第二后验概率阈值；

in的初值为1，in∈(1,D)，pn[in]表示集合pn中第in个元素的值，pn[in]的数值范围在0至2^d-1之间，ncounter[in][pn[in]]表示第二集合ncounter中第in个元素的第pn[in]个集合的值；

令：

(d2)令in的值加1，重复执行子步骤(c2)，直到in的值大于D；(6d)令i_fern的值加1，重复执行子步骤(6c)，直到i_fern>Q，遍历完集合fern-data中的所有元素，完成对后验概率模型posteriors的初始化。

4.根据权利要求1所述的一种基于TLD跟踪系统的视频目标跟踪方法，其特征在于，步骤9具体包括：