CN105825525A

CN105825525A - 一种基于Mean-shift模型优化的TLD目标跟踪方法及其装置

Info

Publication number: CN105825525A
Application number: CN201610150074.2A
Authority: CN
Inventors: 孟思明; 罗笑南
Original assignee: National Sun Yat Sen University
Current assignee: National Sun Yat Sen University
Priority date: 2016-03-16
Filing date: 2016-03-16
Publication date: 2016-08-03

Abstract

本发明实施例公开了一种基于Mean‑shift模型优化的TLD目标跟踪方法及其装置，其中，该方法包括：标记第一帧所要的跟踪目标，并对选中区域的灰度颜色进行均匀划分，得到相同区间构成的灰度直方图，并获得目标模型；在第t帧的跟踪时，根据第t‑1帧的目标中心位置f₀，并以f₀为搜索窗口中心，得到的候选目标中心位置坐标为f，并获得候选模型；对目标模型和候选模型进行相似度计算，获得相似度结果；根据相似度结果对目标模型候选进行迭代计算，获得新的目标区域。在本发明实施例中，过将Mean‑shift算法跟踪得到的目标区域与TLD模型跟踪器得到的目标区域进行融合，最终使得跟踪模型在形态旋转及部分遮掩时依然具有较好的跟踪效果，可以提高跟踪器的跟踪效果，并提高模型的抗遮掩能力以及对相似目标的辨别能力。

Description

一种基于Mean-shift模型优化的TLD目标跟踪方法及其装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于Mean-shift模型优化的TLD目标跟踪方法及其装置。

背景技术

标准的TLD模型由于其核心内部的跟踪器与检测器自身所使用的模型，导致了在整体TLD模型也会具有核心内部的明显缺陷。其中跟踪器是最大的问题所在，由于使用了光流法对目标进行跟踪，该模型对光照较为敏感。当跟踪目标的形态发生了旋转时，跟踪器会逐渐远离对目标的跟踪，并且只有当目标再次以被学习过的形态出现时，跟踪器才会被重新初始化。且当背景区域出现相似度较高的对象时，光流法容易预测出错，导致了检测器训练样本含有错误的正样本对象。故如视频内部长期出现越多的相似对象时，其检测器的正样本中则含有越多的错误信息，进而使检测器在长时间跟踪过程中也会因为累计误差的原因导致初始化出错。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种基于Mean-shift模型优化的TLD目标跟踪方法及其装置，可以提高跟踪器的跟踪效果，并提高模型的抗遮掩能力以及对相似目标的辨别能力。

为了解决上述问题，本发明提出了一种基于Mean-shift模型优化的TLD目标跟踪方法，所述方法包括：

标记第一帧所要的跟踪目标，并对选中区域的灰度颜色进行均匀划分，得到相同区间构成的灰度直方图，并获得目标模型；

在第t帧的跟踪时，根据第t-1帧的目标中心位置f₀，并以f₀为搜索窗口中心，得到的候选目标中心位置坐标为f，并获得候选模型；

对目标模型和候选模型进行相似度计算，获得相似度结果；

根据相似度结果对目标模型候选进行迭代计算，获得新的目标区域。

优选地，所述获得目标模型的步骤，包括：

在目标模型中进行加权处理；

将跟踪窗进行分块，对各子块使用改进目标模型的Mean-shift算法进行跟踪；

通过匹配度最大的两个子块加权获得目标区域。

优选地，在所述通过匹配度最大的两个子块加权获得目标区域的步骤之后，还包括：

将Mean-shift算法跟踪得到的目标区域与TLD模型跟踪器得到的目标区域进行融合。

优选地，所述将Mean-shift算法跟踪得到的目标区域与TLD模型跟踪器得到的目标区域进行融合的步骤，包括：

通过Mean-shift算法得到的预测窗口与TLD跟踪器得到的预测窗口进行耦合处理。

优选地，所述通过Mean-shift算法得到的预测窗口与TLD跟踪器得到的预测窗口进行耦合处理的步骤，包括：

分别对TLD模型的跟踪器得到的区域与Mean-shift模型预测得到的区域进行相似度比较，当TLD跟踪框的巴氏系数比较高时，将TLD输出的目标中心位置作为Mean-shfit跟踪迭代的起始点。

相应地，本发明还提供一种基于Mean-shift模型优化的TLD目标跟踪装置，所述装置包括：

目标模型获取模块，用于标记第一帧所要的跟踪目标，并对选中区域的灰度颜色进行均匀划分，得到相同区间构成的灰度直方图，并获得目标模型；

候选模型获取模块，在第t帧的跟踪时，根据第t-1帧的目标中心位置f₀，并以f₀为搜索窗口中心，得到的候选目标中心位置坐标为f，并获得候选模型；

相似度计算模块，用于对目标模型和候选模型进行相似度计算，获得相似度结果；

迭代模块，用于根据相似度结果对目标模型候选进行迭代计算，获得新的目标区域。

优选地，所述目标模型获取模块包括：

加权处理单元，用于在目标模型中进行加权处理；

分块单元，用于将跟踪窗进行分块，对各子块使用改进目标模型的Mean-shift算法进行跟踪；

获得单元，用于通过匹配度最大的两个子块加权获得目标区域。

优选地，所述目标模型获取模块还包括：

融合单元，用于将Mean-shift算法跟踪得到的目标区域与TLD模型跟踪器得到的目标区域进行融合。

优选地，所述融合单元还用于通过Mean-shift算法得到的预测窗口与TLD跟踪器得到的预测窗口进行耦合处理。

优选地，所述融合单元还用于分别对TLD模型的跟踪器得到的区域与Mean-shift模型预测得到的区域进行相似度比较，当TLD跟踪框的巴氏系数比较高时，将TLD输出的目标中心位置作为Mean-shfit跟踪迭代的起始点。

在本发明实施例中，基于Mean-shift模型优化TLD模型的目标跟踪核心，通过将Mean-shift算法跟踪得到的目标区域与TLD模型跟踪器得到的目标区域进行融合，最终使得跟踪模型在形态旋转及部分遮掩时依然具有较好的跟踪效果，可以提高跟踪器的跟踪效果，并提高模型的抗遮掩能力以及对相似目标的辨别能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例的基于Mean-shift模型优化的TLD目标跟踪方法的流程示意图；

图2是本发明实施例中部分实验视频数据的相关帧图像示意图；

图3是本发明实施例中部分视频跟踪结果示意图；

图4a、图4b是本发明实施例中各视频前100帧跟踪过程的中心偏移及重叠度指标曲线变化示意图；

图5是本发明实施例中Carchase视频部分遮掩跟踪分析结果示意图；

图6是本发明实施例中Motocross视频针对目标出现部分遮掩的跟踪结果示意图；

图7是本发明实施例中基于人脸局部变形的跟踪结果示意图；

图8是本发明实施例的基于Mean-shift模型优化的TLD目标跟踪装置的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例的基于Mean-shift模型优化的TLD目标跟踪方法的流程示意图，如图1所示，该方法包括：

S1，标记第一帧所要的跟踪目标，并对选中区域的灰度颜色进行均匀划分，得到相同区间构成的灰度直方图，并获得目标模型；

S2，在第t帧的跟踪时，根据第t-1帧的目标中心位置f₀，并以f₀为搜索窗口中心，得到的候选目标中心位置坐标为f，并获得候选模型；

S3，对目标模型和候选模型进行相似度计算，获得相似度结果；

S4，根据相似度结果对目标模型候选进行迭代计算，获得新的目标区域。

其中，S1进一步包括：

在目标模型中进行加权处理；

通过匹配度最大的两个子块加权获得目标区域。

无参数密度估计也叫做非参数估计，属于数理统计的一个分支，其与参数密度估计共同构成了概率密度估计系统。其中参数密度估计方法要求特征空间服从一个已知的概率密度函数，在实际的应用中这个条件很难达到。而无参数密度估计方法对先验知识要求最少，完全依靠训练数据进行估计，并且可以用于任意形状的密度估计。其中常用的无参数密度估计方法有：直方图法、最近邻域法和核密度估计法。

而Mean-shift算法属于核密度估计法，它不需要任何先验知识而完全依靠特征空间中样本点来计算其密度函数值，在采样充分的情况下，能够渐进地收敛于任意的密度函数，即可以对服从任何分布的数据进行密度估计。其中Mean-shift算法对跟踪目标的建模过程步骤分别如下：

在S1中，通过人工标记第一帧所要的跟踪目标，并对选中区域的灰度颜色进行均匀划分，得到相同区间构成的灰度直方图。其中假设目标模型具有n个像素，则目标模型的概率密度计算如下式所示：

q_{u} = C Σ_{i = 1}^{n} K (| | z_{i}^{*} | |^{2}) δ [b (z_{i}) - u]

C = 1 / Σ_{i = 1}^{n} K (| | z_{i}^{*} | |^{2})

z_{i}^{*} = \sqrt{\frac{{(x_{i} - x_{0})}^{2} + {(y_{i} - y_{0})}^{2}}{{x_{0}}^{2} + {y_{0}}^{2}}}

其中z_i、分别为原始目标像素位置及以目标中心为原点的归一化像素位置，(x0,y0)为目标中心坐标；K为核函数，本发明选用Epanechnikov核函数；C为归一化系数；q_u为目标模型的概率密度。

在S2中，在第t帧的跟踪时，根据第t-1帧的目标中心位置f₀，并以f₀为搜索窗口中心，得到的候选目标中心位置坐标为f，其中第t帧图像的候选目标区域的概率密度如下式所示：

p_{u} (f) = C Σ_{i = 1}^{n} K (| | \frac{f - z_{i}}{h} | |^{2}) δ [b (z_{i}) - u]

其中p_u为候选目标模型的概率密度；h为核函数窗口大小，由目标模型的长、宽决定。

在S3中，

相似度函数用于描述目标模型与候选模型之间的相似程度，一般情况下采用Bhattacharyya(简称BH系数，巴氏系数)作为两者相似度的判别系数，且该值越大表明两模型越相似。其中Bhattacharyya的计算如下式所示：

B H (p, q) = Σ_{u = 1}^{n} \sqrt{p_{u} (f) q_{u}}

在以上目标模型及候选目标模型相似度的判断过程中，为了使得相似度函数最大，即要搜索出最佳的目标位置时，需要进行一定的迭代。其中将BH系数按照泰勒展开得到如下的近似表达式：

B H (p, q) \approx \frac{1}{2} Σ_{u = 1}^{n} \sqrt{p_{u} (f) q_{u}} + \frac{C}{2} Σ_{i = 1}^{n} w_{i} K (| | \frac{f - z_{i}}{h} | |^{2})

w_{i} = Σ_{i = 1}^{n} \sqrt{\frac{q_{u}}{q_{u} (f)}} δ [b (z_{i}) - u]

其中w_i为窗口内各点的权重值。

通过求解以上BH系数的最大值过程后，则新的目标区域中心计算如下式所示：

f_{k + 1} = f_{k} + \frac{Σ_{i = 1}^{n} w_{i} (f_{k} - z_{i}) g (| | \frac{f - z_{i}}{h} | |^{2})}{Σ_{i = 1}^{n} w_{i} g (| | \frac{f - z_{i}}{h} | |^{2})}

其中g(x)＝-K'(x)，即Mean-shift算法迭代的过程实际上是从f_k起向两个模型相比颜色变化最大的方向不断地移动，直到最后两次移动的距离小于设定的距离阈值时，才停止迭代，并以此作为下一帧的起始搜索窗口中心。

由以上的Mean-shift模型迭代过程可以看出，模型在迭代过程中可以求解出目标模型的中心位置，但并不能确认出目标模型的尺度框架大小。若仅仅以核函数窗口大小h座位目标宽度模型不能适应目标尺度的变化。因此在模型的计算过程中将BH系数最大的带宽作为最优带宽h_opt，同时为避免过度调整，将当前帧中的带宽修正如下式所示：

h_n＝λh_opt+(1-λ)h_opt

其中λ为调整参数，且λ∈(0,1)。

在通过匹配度最大的两个子块加权获得目标区域的步骤之后，还包括：

具体地，通过Mean-shift算法得到的预测窗口与TLD跟踪器得到的预测窗口进行耦合处理。

从而在目标发生遮挡时能有效剔除被遮挡子块对目标定位的影响。通过对传统Mean-shift算法进行改进，对感兴趣目标区域颜色质心位置的计算来确定候选目标模板中心点的位置，提高了跟踪过程的鲁棒性。对下一帧中目标位置的估计通过一步计算完成，使得跟踪算法的效率显著提高。下面将对传统Mean-shift算法存在的问题进行详细阐述，并给出其优化后的算法过程。

由于泰勒展开是在被分析点的邻域内展开的，若被分析的目标运动速度比较快，目标的新位置点与老位置点相距比较大，已经不能算是邻域内的分析了，因此这时使用Mean-shift算法进行跟踪，效果并不是很理想的。并且从泰勒展开式可以看出目标能够正确定位的最大区域就是核函数的带宽。因此，如果连续两帧中目标中心的移动超过带宽的范围，Mean-shift向量就不再与目标本身有关，跟踪也会存在失败的可能。

另外在传统Mean-shift跟踪算法中，主要采用图像的RGB颜色直方图作为整个搜索匹配的特征空间。用颜色直方图进行计算时，反映的是图像中颜色的组成分布，即出现了哪些颜色及颜色出现的概率，缺陷就是没有将像素点所在的空间位置信息表示出来。这样在背景复杂，发生光照变化等情况下跟踪目标容易丢失。同时在Mean-shift算法中，Mean-shift向量会沿着次要颜色单元像素数增加的方向移动，如果含有了一些背景颜色时，这些背景颜色信息就称为次要颜色；主要颜色是指跟踪目标所包含的颜色，从而导致跟踪失败。

针对上述两个问题，对传统Mean-shift跟踪算法进行改进。通过计算跟踪目标区域内每个颜色的质心位置来确定候选目标模板中心点的位置。改进后的算法包含颜色分布的空间信息，可以克服传统Mean-shift算法中丢失像素点所在空间位置信息的缺点，实现复杂背景下成功追踪的目的。

对每一个颜色质心点的计算为：

k_{i}^{n} = \frac{Σ_{i = 1}^{n_{h}} x_{i} δ [b (x_{i}) - u]}{Σ_{i = 1}^{n_{h}} δ [b (x_{i}) - u]}

其中是每个颜色单元i的质心，n表示第n帧图像序列，xi表示目标区域内每一个像素点的位置，δ(x)为Kronecker delta函数(克罗内克函数)，b(x_i)为xi处像素的颜色值，u为直方图的颜色索引，其范围为1～n。δ[b(x_i)-u]的作用是判断目标区域中像素xi的颜色值是否属于第u个单元的颜色索引值，一共分为两种情况：若二者相等则为1，否则为0。

完成这一步骤之后，下一步即寻找跟踪目标在当前帧中心点的位置y0，计算过程如下：

y_{0} = \frac{Σ_{i = 1}^{m} α_{i} k_{i}^{m}}{Σ_{i = 1}^{m} α_{i}}

其中α代表权重，主要表达式如下：

a_i＝T(b_i/t_i)·t

式中T(b_i/t_i)表示背景权重，t_i和b_i分别表示初始目标区域颜色单元内第i个像素点在目标和背景中的概率密度值。背景颜色的权重函数有1和0两个值。因为背景颜色的权重值比目标颜色的权重值低，改进后的算法可以明显提高跟踪过程的准确性和稳定性。在改进Mean-shift算法的跟踪过程中，即使存在比较复杂的背景干扰，跟踪框不可能一直准确选取跟踪目标，也就是说会存在候选目标模板的匹配误差较大的状况，该优化算法依然保持较高的稳定性。

从以上优化后的Mean-shift算法可以看出，Mean-shift优化模型具有能够在复杂背景下对目标进行跟踪，即使是目标背景出现了高度相似的物体对象时，模型依然能够对其进行有效的跟踪。同时模型在目标被部分遮掩时，由于核密度估计的原因，其依然能实现根据未被遮掩的部分作出跟踪。因此将Mean-shift算法融合进标准的TLD模型，可以在很大程度上增加了模型对遮掩的抵抗能力。因此，本发明提出了基于Mean-shift模型优化TLD模型的目标跟踪核心，通过将Mean-shift算法跟踪得到的目标区域与TLD模型跟踪器得到的目标区域进行融合，最终使得跟踪模型在形态旋转及部分遮掩时依然具有较好的跟踪效果。

由于TLD模型的检测器在检测过程中是对图像进行全局扫描从而进行检测，计算量较大且模型在跟踪过程中容易受到遮掩的问题导致跟踪失败。因此可以通过Mean-shift算法得到的预测窗口与TLD跟踪器得到的预测窗口进行耦合处理，进而增强跟踪模型的抗遮掩能力。其中，通过Mean-shift算法得到的预测窗口与TLD跟踪器得到的预测窗口进行耦合处理的步骤，包括：分别对TLD模型的跟踪器得到的区域与Mean-shift模型预测得到的区域进行相似度比较，当TLD跟踪框的巴氏系数比较高时，将TLD输出的目标中心位置作为Mean-shfit跟踪迭代的起始点。当TLD跟踪框的巴氏系数比较低时，将上一帧中的目标框的中心位置作为Mean-shfit跟踪算法的迭代起始点。因此通过合理的设置Mean-shift算法的迭代起始点，进而提高TLD跟踪算法的抗遮挡跟踪能力。

为了避免图像目标背景出现相似目标导致的检测器长时间跟踪过程产生累计误差，将Mean-shift算法预测得到的目标区域及TLD模型跟踪器得到的预测区域同时与上一帧的目标模型进行巴氏系数阈值判断。当Mean-shift算法得到的巴氏系数与TLD模型得到的巴氏系数均大于各自设定的阈值，则以较大阈值作为模型的跟踪结果。当只有Mean-shift算法得到的巴氏系数阈值大于设定阈值，则直接以Mean-shift算法得到的目标区域为模型的跟踪结果。当两者均小于各自设定的阈值时，表明跟踪失败。当跟踪失败时，立即使用检测器重新初始化目标，避免检测器引入错误正样本导致积累误差。

在进行TLD模型的跟踪实验前，需要对整个跟踪模型的跟踪效果确定其评价指标。而目前常用的指标主要是通过实际跟踪结果与实验数据中的基准值进行对比，而视频中的基准值主要通过手工标定的方法获取，目前最主要的跟踪效果评价指标为中心偏移距离以及跟踪区域与目标区域的重叠度。其中指标的相关定义分别如下：

(1)中心偏移距离

中心偏移距离主要表示模型算法跟踪得到的目标框的相对中心与真实的基准中心之间的差距，习惯上用经典的欧氏距离进行定义，该指标主要用于评价每一帧的模型跟踪结果的准确度。其计算式如下式所示：

e (i) = \sqrt{{(x_{i} - x_{0})}^{2} + {(y_{i} - y_{0})}^{2}}

其中i表示第i帧待跟踪图像，(x_i，y_i)表示第i帧由跟踪算法得到的目标框中心坐标值，(x₀，y₀)表示跟踪目标的基准中心坐标值。e(i)表示两中心之间的差距。

(2)重叠度

重叠度指标主要是指模型算法返回的跟踪框区域与基准目标框区域的重合程度，该指标主要用于评价每一帧的模型跟踪结果是否成功。其计算式如下式所示：

o v e r l a p = \frac{W_{i} \cap W_{g i}}{W_{i} + W_{g i} - W_{i} \cap W_{g i}}

其中W_i表示第i帧模型算法得到的跟踪框区域，W_gi表示第i帧的基准目标框区域，W_i∩W_gi表示跟踪框区与目标框相交的区域。

为了充分的比较TLD模型算法的有效性，本节在模型的跟踪实验过程中，将采用网上公开的几个比较典型的视频序列以及摄像头的视频序列进行实验测试。其中部分的视频序列的帧数各不相同，各自包含了长时间跟踪过程会出现的目标被部分遮掩、全部被遮掩、目标丢失、目标姿态变化、目标缩放、特征变化、光照变化及相似目标的存在等各种比较接近实际的情况的场景。其中各数据库的相关参数及特点如下表所示：

其中，以上视频中David存在较为明显的光照变化，而Motocross视频中则存在较多的快速运动及姿态变化，还存在较多的类似目标的存在，而Panda视频则存在较多的目标遮掩及目标形态变化的过程。以上部分实验视频数据的相关帧图像如图2所示。

将以上各视频里的目标分别以TLD模型进行跟踪实验，其中部分视频跟踪结果如图3所示，其中对应的各视频前100帧跟踪过程的中心偏移及重叠度指标曲线变化如图4a、图4b所示，且该指标分别重复实验10次，以平均值作为最终结果跟踪指标结果。

由以上各测试视频的跟踪结果可以看出，模型对于图像的质量要求并不高，而且由跟踪指标分布图可以看出，模型跟踪过程中间由于跟踪对象存在部分缺失及形态变化等的影响，导致了跟踪失败的出现。但由于模型具有在线学习的能力，因此在后续跟踪过程中，模型可以通过检测器重新初始化跟踪目标，因此能够在长时间内正确的跟踪目标对象，可以满足实际的长期跟踪要求。其中各视频详细的跟踪效果如下表所示：

虽然从以上的测试视频的跟踪效果整体上看，TLD模型比传统模型具有更多的优点，尤其是TLD模型将检测器与跟踪器两者的性能完全的结合在了一起，可以说是跟踪算法领域里的一个突破性成果，但以上标准的TLD模型由于其跟踪器与检测器是独立开的，每个模块各自维持自己的检测效果，因此在一定程度上，检测器的检测效果与跟踪器的跟踪效果决定了TLD模型的跟踪性能。由以上的TLD各个模块的分析可以看出，模型的跟踪器使用的是光流法，其在目标光照变化及目标遮掩时，较容易出现跟踪失败的现象，甚至如果存在较为相似的目标时，模型也会出现跟踪失败的现象。

为了分析经Mean-shift模型优化后的TLD算法跟踪效果，本发明针对标准TLD跟踪模型的缺陷进行了对比，其中分别进行的实验有针对目标局部遮掩的跟踪、针对存在相似目标的跟踪分析、针对目标严重变形的跟踪分析，各实验结果分别如下。

在实验过程中Mean-shift算法部分采用的是Epanechnikov核函数，对目标区域采用32个直方图对目标区域进行核函数密度概率估计，且为了尽可能的减少计算量，设定Mean-shift算法的最大迭代次数为20，而TLD模型的跟踪器、检测器、学习器的参数与原TLD模型算法保持一致。其中测试的视频对象选用具有较为明显遮掩变化过程的Carchase视频，其中针对目标出现部分遮掩的跟踪结果如图5所示。

由图5的Carchase视频跟踪结果可以看出，当视频运行到167～170帧时，目标的前部出现了遮掩，因此在跟踪过程中，标准TLD模型的跟踪器与检测器已经失去了跟踪效果，而经过优化后的TLD模型则会根据Mean-shift模型得到的结果作为最终的目标跟踪结果，同时由学习器通过P、N约束产生遮掩样本对象，进行学习器的训练，避免因为遮掩产生了错误的正样本对检测器造成误差。由图5可以明显地看出，Mean-shift算法会对目标未被遮掩的部分较为敏锐，虽然仅仅只能跟踪到未被遮掩的目标部分，但可利用跟踪得到的部分遮掩目标样本对检测器进行训练，提高了检测器对样本遮掩的检测能力，进而当下次出现遮掩的时候，检测器能够准确的重新初始化目标模型。

在该部分的实验过程中Mean-shift算法为了更有效的提高稳定心，故对目标区域采用64个直方图对目标区域进行核函数密度概率估计，且增加其模型的最大迭代次数为50，而TLD模型的跟踪器、检测器、学习器的参数与原TLD模型算法保持一致。其中测试的视频对象选用具有较为明显相似目标出现的Motocross视频，其中针对目标出现部分遮掩的跟踪结果如图6所示。

在该部分的实验过程中由于目标模型的形状发生了严重的变化，但颜色直方图的分布还是存在于原来的区域内，因此该部分的依然对目标区域采用32个直方图对目标区域进行核函数密度概率估计，且设定Mean-shift算法的最大迭代次数为10，而TLD模型的跟踪器、检测器、学习器的参数与原TLD模型算法保持一致。其中测试的视频是通过人工合成的一段avi格式视频，共30帧图像，在视频中会出现人脸弯曲与正常人脸的变化过程，且正常人脸有17帧，出现变形的人脸有13帧。其中针对目标出现变形的跟踪结果如图7所示。由图7的人脸变形跟踪结果可以看出，由于初始选定的目标模型是一个正常人脸区域，而在后续的跟踪过程出现了变形人脸与正常人脸。标准的TLD模型在出现了变形人脸时，其模型已经失去了跟踪的作用。但由于Mean-shift算法是基于颜色直方图的概率密度进行，故虽然人脸发生了变形，但其颜色直方图的概率密度整体上还是出现在原来的区域。因此优化后的TLD模型依然具有跟踪目标变形的过程。

为了充分的对比优化后的TLD模型与标准TLD模型在目标跟踪上的差异，本文将优化后的TLD模型也用在了几个比较典型的视频序列跟踪过程。其中基于优化后的TLD模型对各视频的跟踪效果如下表所示，其结果表明，优化后的TLD模型在跟踪成功率上均有所提高。

相应地，本发明实施例还提供一种基于Mean-shift模型优化的TLD目标跟踪装置，如图8所示，该装置包括：

目标模型获取模块1，用于标记第一帧所要的跟踪目标，并对选中区域的灰度颜色进行均匀划分，得到相同区间构成的灰度直方图，并获得目标模型；

候选模型获取模块2，在第t帧的跟踪时，根据第t-1帧的目标中心位置f₀，并以f₀为搜索窗口中心，得到的候选目标中心位置坐标为f，并获得候选模型；

相似度计算模块3，用于对目标模型和候选模型进行相似度计算，获得相似度结果；

迭代模块4，用于根据相似度结果对目标模型候选进行迭代计算，获得新的目标区域。

其中，目标模型获取模块1包括：

加权处理单元，用于在目标模型中进行加权处理；

目标模型获取模块1还包括：

融合单元还用于通过Mean-shift算法得到的预测窗口与TLD跟踪器得到的预测窗口进行耦合处理。

融合单元还用于分别对TLD模型的跟踪器得到的区域与Mean-shift模型预测得到的区域进行相似度比较，当TLD跟踪框的巴氏系数比较高时，将TLD输出的目标中心位置作为Mean-shfit跟踪迭代的起始点。

本发明的装置实施例中各功能模块的功能可参见本发明方法实施例中的流程处理，这里不再赘述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的基于Mean-shift模型优化的TLD目标跟踪方法及其装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于Mean-shift模型优化的TLD目标跟踪方法，其特征在于，所述方法包括：

对目标模型和候选模型进行相似度计算，获得相似度结果；

2.如权利要求1所述的基于Mean-shift模型优化的TLD目标跟踪方法，其特征在于，所述获得目标模型的步骤，包括：

在目标模型中进行加权处理；

通过匹配度最大的两个子块加权获得目标区域。

3.如权利要求2所述的基于Mean-shift模型优化的TLD目标跟踪方法，其特征在于，在所述通过匹配度最大的两个子块加权获得目标区域的步骤之后，还包括：

4.如权利要求3所述的基于Mean-shift模型优化的TLD目标跟踪方法，其特征在于，所述将Mean-shift算法跟踪得到的目标区域与TLD模型跟踪器得到的目标区域进行融合的步骤，包括：

5.如权利要求4所述的基于Mean-shift模型优化的TLD目标跟踪方法，其特征在于，所述通过Mean-shift算法得到的预测窗口与TLD跟踪器得到的预测窗口进行耦合处理的步骤，包括：

6.一种基于Mean-shift模型优化的TLD目标跟踪装置，其特征在于，所述装置包括：

7.如权利要求6所述的基于Mean-shift模型优化的TLD目标跟踪装置，其特征在于，所述目标模型获取模块包括：

加权处理单元，用于在目标模型中进行加权处理；

8.如权利要求7所述的基于Mean-shift模型优化的TLD目标跟踪装置，其特征在于，所述目标模型获取模块还包括：

9.如权利要求8所述的基于Mean-shift模型优化的TLD目标跟踪装置，其特征在于，所述融合单元还用于通过Mean-shift算法得到的预测窗口与TLD跟踪器得到的预测窗口进行耦合处理。

10.如权利要求9所述的基于Mean-shift模型优化的TLD目标跟踪装置，其特征在于，所述融合单元还用于分别对TLD模型的跟踪器得到的区域与Mean-shift模型预测得到的区域进行相似度比较，当TLD跟踪框的巴氏系数比较高时，将TLD输出的目标中心位置作为Mean-shfit跟踪迭代的起始点。