CN108257148B

CN108257148B - 特定对象的目标建议窗口生成方法及其在目标跟踪的应用

Info

Publication number: CN108257148B
Application number: CN201810046395.7A
Authority: CN
Inventors: 王菡子; 郭冠军; 梁艳杰; 严严
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2018-01-17
Filing date: 2018-01-17
Publication date: 2020-09-25
Anticipated expiration: 2038-01-17
Also published as: CN108257148A

Abstract

特定对象的目标建议窗口生成方法及其在目标跟踪的应用，涉及计算机视觉技术。给定一帧训练视频，将该图像分成三个区域：完全的目标区域，完全的背景区域以及目标和背景的混合区域。对完全的目标区域和完全的背景区域分别计算目标像素和背景像素的概率分布图，更新目标像素和背景像素的概率分布图模型。给定一帧测试视频，利用训练好的概率分布图来预测图像中每个像素属于目标的概率，得到概率响应图。对原图和概率响应图分别提取目标建议窗口，把这些目标建议窗口都作为候选的目标建议窗口。对得到的目标建议窗口基于与对象的相似度进行排序，生成特定对象的目标建议窗口。把特定对象的目标建议窗口作为MDNET的训练样本实现目标跟踪。

Description

特定对象的目标建议窗口生成方法及其在目标跟踪的应用

技术领域

本发明涉及计算机视觉技术，尤其是涉及特定对象的目标建议窗口生成方法及其在目标跟踪的应用。

背景技术

人类对外界视频信息感知能力很高，大脑能够快速的对目标进行检测和跟踪。计算机要具有与人类类似的视觉感知能力，就要能够实时地进行目标检测和跟踪。目标检测和跟踪是视觉感知的基础工作，目标检测和跟踪的精度和效率决定了视觉感知的准确性和实时性。目标检测和跟踪技术广泛应用于视频监控、人机交互、虚拟现实和图像压缩等领域，如果计算机具备与人类相似的目标检测和跟踪能力，那么就可以在这些应用领域代替人类，节约了大量的人力成本。因此，对计算机视觉中的目标检测与跟踪技术进行深入研究，不断提高检测精度和速度，具有重要的现实意义。

对于目标类别检测，相关工作一直是计算机视觉的研究热点。特殊类别的目标检测，例如人脸和行人，检测技术已经较为成熟。Viola基于AdaBoost框架，首先基于Haar-like小波特征分类，然后采用滑动窗口搜索策略进行定位。该方法能够很好地检测正面人脸，但对侧脸及其它类别的目标检测效果较差。Dalal基于HOG特征和SVM分类器进行行人检测。然而，目标类别检测更为关注自然图像中一般类别。Felzenszwalb提出了目标类别检测最具影响力的多尺度形变部件模型(DPM)，该方法充分利用了HOG特征和SVM分类器的优点。DPM目标检测器由一个根滤波器和一些部件滤波器组成，组件间的形变通过隐变量进行推理，采用滑动窗口策略在不同尺度和宽高比图像上搜索目标。后续很多工作都是针对DPM目标检测器的改进。Krizhevsky提出基于深度卷积神经网络(DCNN)的目标分类算法，提升了目标检测的准确率。Sermanet基于DCNN框架提出了OverFeat，集识别、定位和检测为一体，为分类训练一个CNN，为每个类的定位训练一个CNN。OverFeat对输入图像采用滑动窗口策略用分类模型确定每个窗口中目标的类别，然后使用对应类别的的定位模型预测目标的包围盒，基于分数为每个类选出候选包围盒，获得最终的检测结果。与OverFeat不同，R-CNN首先采用选择性搜索策略在输入图像上选择若干候选包围盒；然后对每个包围盒利用CNN提取特征，输入到为每个类训练好的SVM分类器，得到包围盒属于每个类的分数；最后，采用非极大值抑制方法(NMS)抑制部分包围盒，得到目标检测结果。尽管基于CNN的方法在目标检测上得到了较高的精度，但是由于网络复杂且计算量大，应用在目标检测上效率并不高。

目标跟踪是计算机视觉研究领域的热点之一，过去几十年以来，目标跟踪的研究取得了长足的发展。从经典的均值漂移(Meanshift)、粒子滤波(Particle Filter)跟踪算法，到基于检测(Tracking By Detection)的跟踪算法及相关滤波(Correlation Filter)的跟踪算法，再到最近基于深度学习(Deep Learning)的跟踪算法。最近主要取得的的研究进展主要是基于相关滤波的跟踪算法以及基于深度学习的跟踪算法。相关滤波的跟踪算法于2012年提出，是一种基于循环矩阵的核跟踪方法，解决了密集采样(Dense Sampling)的问题，利用傅立叶变换快速实现学习和检测。学习检测过程高效，证明过程完备。利用快速傅立叶变换，CSK方法的跟踪帧率能达到几百帧。随后，提出了基于HOG特征的KCF方法。后续还有考虑多尺度或颜色特征(Color Naming)的方法以及用深度学习提取的特征结合KCF的方法(比如DeepSRDCF、CF2方法)。从它的发展过程来看，考虑的尺度越来越多，特征信息也更加丰富，计算复杂度越来越高，但总体上说，相关滤波系列的跟踪方法在实时性上优势明显，采用哪种改进版本的方法视具体的应用而定。相关滤波的方法也有一些缺陷，比如目标的快速移动，形状变化大导致更多背景被学习进来等都会对CF系列方法造成影响。基于深度学习的目标跟踪算法，最初是把CNN学习到的特征，应用于相关滤波或Struck的跟踪框架，从而得到更好的跟踪结果。通过卷积网络提取的特征，更优于HOG或CN特征，但同时计算复杂度增加。CNN网络不同层的卷积输出都可以作为跟踪的特征，对于如何有效地利用深度学习的特征，M.Danelljan也做了大量的工作，提出了一系列相关的方法，SRDCF、C-COT和ECO。另一种基于深度学习的跟踪算法是通过搭建一个CNN网络结构，选择样本进行离线训练，在线微调网络实现目标跟踪，这类方法主要有MDNET、SANET。这两类方法的跟踪性能都有较大的提升，但都很难达到实时的跟踪效果。

发明内容

本发明的目的在于提供特定对象的目标建议窗口生成方法及其在目标跟踪的应用。

所述特定对象的目标建议窗口生成方法包括以下步骤：

1)给定一帧训练视频，将训练视频图像分成三个区域：完全的目标区域、完全的背景区域以及目标区域与背景区域的混合区域；

2)对步骤1)中所述完全的目标区域和完全的背景区域分别计算目标像素和背景像素的概率分布图，以学习率λ更新目标像素和背景像素的概率分布图模型；

3)给定一帧测试视频，利用训练好的概率分布图来预测图像中每个像素属于目标的概率，得到概率响应图；

4)对原图和概率响应图分别提取目标建议窗口，并将所述目标建议窗口都作为候选的目标建议窗口；

5)对步骤4)中得到的目标建议窗口基于与对象的相似度进行排序，生成特定对象的目标建议窗口；

6)将步骤5)中得到的特定对象的目标建议窗口作为MDNET的训练样本对CNN分类器进行训练，基于MDNET的框架实现目标跟踪。

在步骤1)中，所述将训练视频图像分成三个区域：完全的目标区域、完全的背景区域以及目标区域与背景区域的混合区域的具体划分方法如下：

目标区域与背景区域的混合区域是一个中间为孔洞的矩形框，该矩形框的宽度是目标宽度的γ倍，其中，矩形框位于目标和背景；完全的目标区域位于矩形框内部，完全的背景区域位于矩形框外部。所述γ＝0.4。

在步骤2)中，所述对步骤1)中所述完全的目标区域和完全的背景区域分别计算目标像素和背景像素的概率分布图，以学习率λ更新目标像素和背景像素的概率分布图模型的具体方法如下：

记x^f和x^b分别表示完全目标区域F和完全背景区域B的像素；已知x^f和x^b，则x^f和x^b的概率分布p^f和p^b可由x^f和x^b的直方图计算得到；概率分布p^f和p^b每隔k帧进行更新，更新方式如下：

其中，λ为学习率，m为视频帧索引；所述更新的策略能够保证当目标和背景的表观发生改变时，概率分布p^f和p^b能够得到较好地估算。所述目标和背景的颜色直方图区间设置为32。

在步骤3)中，所述给定一帧测试视频，利用训练好的概率分布图来预测图像中每个像素属于目标的概率，得到概率响应图的计算公式如下：

其中，ε为一个较小的常数，防止分式的分母为零；虽然概率响应图包含一些错误的预测，但是能够抑制大部分的噪声；在目标建议窗口生成过程中，概率响应图能够减缓运动模糊、弱对比度、嘈杂背景造成的弱边缘效应。

在步骤4)中，所述对原图和概率响应图分别提取目标建议窗口，并将所述目标建议窗口都作为候选的目标建议窗口是基于EdgeBoxes生成目标建议窗口。

在步骤5)中，所述对象的相似度包括颜色相似度、形状相似度以及尺度相似度等；对步骤4)中得到的目标建议窗口基于与对象的相似度进行排序，生成特定对象的目标建议窗口的具体计算方法分别为：

颜色相似度：c_i,t定义为第i个目标建议和对象之间的颜色相似性，由概率分布图计算；概率分布图上位于第i个目标建议窗口内部的所有像素的均值，作为第i个目标建议窗口和对象之间的颜色相似度；

形状相似度：ρ定义为边界框包围的轮廓数的似然度，用于衡量形状相似度；第i个目标建议窗口和对象之间的形状相似度s_i,t计算公式如下：

其中ρ_i和ρ_t分别表示第i个目标建议窗口和对象的似然度；

尺度相似度：对象的尺度能够用于滤除太大或者太小的目标建议窗口；第i个目标建议窗口和对象之间的尺度相似度z_i,t计算公式如下：

其中w_i(h_i)和w_t(h_t)分别表示第i个目标建议窗口和对象的宽度(高度)；

基于以上定义的颜色、形状以及尺寸的相似度，第i个目标建议窗口和对象之间的整体相似度a_i,t定义如下：

a_i,t＝s_i,t·c_i,t·z_i,t (公式5)

基于整体相似度对生成的目标建议窗口进行降序排序；选取前N个目标建议窗口作为特定对象的目标建议窗口；从目标跟踪数据集上获得的召回率曲线可以得出：目标检测的精度得到显著提升；所述N可为500。

在步骤6)中，将步骤5)中得到的特定对象的目标建议窗口作为MDNET的训练样本对CNN分类器进行训练，基于MDNET的框架实现目标跟踪；不同于MDNET所用的CNN分类器，训练样本由指定的概率分布生成，这里采用特定对象的目标建议窗口作为训练样本来对CNN分类器进行训练；由于目标建议窗口包含与目标相似的候选目标建议窗口，因此由特定对象的目标建议窗口训练得到的CNN分类器能够很好地将目标和与目标相似的干扰区分开来；

在训练(学习)阶段：首先，CNN卷积层的权重由相应VGG-M网络的权重初始化，CNN全连接层的权重由高斯分布初始化，高斯分布的均值为0，方差为0.01；然后，将特定对象的目标建议窗口作为训练样本对CNN分类器进行微调，对目标和背景进行分类；如果不采用特定对象的目标建议窗口对CNN分类器进行微调，那么跟踪器很容易被与目标相似的背景干扰从而丢失目标；在实现过程中，正负样本根据交并比(Intersection over Union，IoU))从特定对象的目标建议窗口选出，IoU的定义如下：

其中，PBB和TBB分别表示当前帧目标建议窗口和前一帧目标的边界框；正样本定义为

负样本定义为IoU＜ω；由于正样本的数目远小于负样本的数目，为了缓解样本类别不平衡的问题，在前一帧的目标周围同样基于高斯分布进行正负样本采样；

在测试(检测)阶段：首先在前一帧的目标的搜索窗口内生成特定对象的目标建议窗口，将其作为候选目标；然后用训练好的CNN分类器对这些候选目标进行预测，选取概率最大的候选目标作为当前帧的目标。

所述正样本与负样本的阈值参数设置为

ω＝0.5，搜索窗口的大小设置为目标的5倍。

所述特定对象的目标建议窗口生成可在目标跟踪中应用，所述应用将与对象具有高相似的目标建议窗口作为训练样本，基于MDNET框架进行跟踪，能够将目标和背景干扰区分，取得优于MDNET的精度。

本发明能够减缓运动模糊、弱对比度、嘈杂背景造成的弱边缘效应，综合原图和概率响应图得到的目标建议窗口更能真实地反映目标，经过多线索相似度排序后筛选得到的目标建议窗口都是与对象具有高相似度的目标建议窗口。在目标检测方面，在目标建议窗口数目相同的前提下，通过该方法能够得到很高的召回率。在目标跟踪方面，将与对象具有高相似的目标建议窗口作为训练样本，基于MDNET框架进行跟踪，能够将目标和背景干扰很好地区分，取得优于MDNET的精度。

附图说明

图1为本发明实施例的整体流程图。

图2为本发明实施例的前10个与对象具有高相似度的目标建议窗口生成图。

图3为本发明与其它几种目标检测方法在UAV123数据集上对比的召回率曲线图。在图3中，曲线Ours为本发明的方法；

曲线CADM对应为Y.Xiao等人提出的方法(Y.Xiao,C.Lu,E.Tsougenis,Y.Lu,andC.-K.Tang,“Complexityadaptive distance metric for object proposalsgeneration,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),2015,pp.778–786.)

曲线MSTE对应为X.Chen等人提出的方法(X.Chen,H.Ma,X.Wang,and Z.Zhao,“Improving object proposals with multi-thresholding straddling expansion,”inProc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),2015,pp.2587–2595.)

曲线EdgeBoxs对应为C.L.Zitnick等人提出的方法(C.L.Zitnick and P.Dollar,“Edge Boxes:Locating Object Proposals from Edges,”inProc.Eur.Comput.Vis.Conf.(ECCV),2014,pp.391–405.)

曲线SelectiveSearch对应为J.Uijlings等人提出的方法(J.Uijlings,K.van deSande,T.Gevers,and A.Smeulders,“Selective search for object recognition,”Int.J.Comput.Vis.(IJCV),vol.104,no.2,pp.154–171,2013.)

图4为本发明与其它几种目标跟踪方法在UAV20L数据集的对比的精度曲线图。

图5为本发明与其它几种目标跟踪方法在UAV20L数据集的对比的成功率曲线图。

在图4和5中，曲线Ours为本发明的方法；

曲线ECO对应为M.Danelljan等人提出的方法(M.Danelljan,G.Bhat,F.S.Khan,and M.Felsberg,“ECO:efficient convolution operators for tracking,”inProc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),2017,pp.6638–6646)；

曲线MDNET对应为H.Nam等人提出的方法(H.Nam and B.Han,“Learning multi-domain convolutional neural networks for visual tracking,”in Proc.IEEEConf.Comput.Vis.Pattern Recognit.(CVPR),2016,pp.4293–4302.)；

曲线KCFDP对应为D.Huang等人提出的方法(D.Huang,L.Luo,M.Wen,Z.Chen,andC.Zhang,“Enable scale and aspect ratio adaptability in visual tracking withdetection proposals,”in Proc.Br.Mach.Vis.Conf.(BMVC),2015,pp.185.1–185.12.)；

曲线SRDCF对应为M.Danelljan等人提出的方法(M.Danelljan,G.Hager,F.S.Khan,and M.Felsberg,“Learning spatially regularized correlation filtersfor visual tracking,”in Proc.IEEE Int.Conf.Comput.Vis.(ICCV),2015,pp.4310–4318.)；

曲线SAMF对应为Y.Li等人提出的方法(Y.Li and J.Zhu,“A scale adaptivekernel correlation filter tracker with feature integration,”inProc.Eur.Comput.Vis.Conf.(ECCV)Workshops,2014,pp.254–265.)；

曲线TLD对应为Y.Zhai等人提出的方法(Z.Kalal,K.Mikolajczyk,and J.Matas,“Tracking-learning-detection,”IEEE Trans.Pattern Anal.Mach.Intell.(TPAMI),vol.34,no.7,pp.1409–1422,2012.)；

曲线KCF对应为J.F.Henriques等人提出的方法(J.F.Henriques,R.Caseiro,P.Martins,and J.Batista,“High-speed tracking with kernelized correlationfilters,”IEEE Trans.Pattern Anal.Mach.Intell.(TPAMI),vol.37,no.3,pp.583–596,2015.)。

具体实施方式

以下实施例将结合附图对本发明作进一步的说明。

参见图1，本发明实施例所述特定对象的目标建议窗口生成方法，包括以下步骤：

A.给定一帧训练视频，将该图像分成三个区域：完全的目标区域、完全的背景区域以及目标和背景的混合区域。划分方法如下：目标和背景的混合区域是一个中间是孔洞的矩形框，该矩形框的宽度是目标宽度的γ倍，其中，矩形框的一部分位于目标，其余部分位于背景；完全的目标区域位于矩形框内部，完全的背景区域位于矩形框外部。

B.对步骤A中定义的完全的目标区域和完全的背景区域分别计算目标像素和背景像素的概率分布图，以一定的学习率更新目标像素和背景像素的概率分布图模型。具体过程如下：记x^f和x^b分别表示完全目标区域F和完全背景区域B的像素。已知x^f和x^b，则x^f和x^b的概率分布p^f和p^b可由x^f和x^b的直方图计算得到。概率分布p^f和p^b每隔k帧进行更新，更新方式如下：

其中λ为学习率，m为视频帧索引。上述更新策略能够保证当目标和背景的表观发生改变时，概率分布p^f和p^b能够得到较好地估算。

C.给定一帧测试视频，利用训练好的概率分布图来预测图像中每个像素属于目标的概率，得到概率响应图。计算公式如下：

其中ε为一个较小的常数，防止分式的分母为零。虽然概率响应图包含一些错误的预测，但是能够抑制大部分的噪声。在目标建议窗口生成过程中，概率响应图能够减缓运动模糊、弱对比度、嘈杂背景造成的弱边缘效应。

D.对原图和概率响应图分别提取目标建议窗口，将这些目标建议窗口都作为候选的目标建议窗口。由于EdgeBoxes在目标建议窗口生成的方法中召回率高、速度快，所以这里基于EdgeBoxes生成目标建议窗口。

E.对步骤D中得到的目标建议窗口基于与对象的相似度(颜色、形状以及尺度)进行排序，生成特定对象的目标建议窗口。每一个目标建议窗口与对象的颜色、形状和尺度的相似度计算方法分别为：

颜色相似度：c_i,t定义为第i个目标建议和对象之间的颜色相似性，由概率分布图计算。概率分布图上位于第i个目标建议窗口内部的所有像素的均值，作为第i个目标建议窗口和对象之间的颜色相似度。

形状相似度：ρ定义为边界框包围的轮廓数的似然度，用于衡量形状相似度。第i个目标建议窗口和对象之间的形状相似度s_i,t计算公式如下：

其中ρ_i和ρ_t分别表示第i个目标建议窗口和对象的似然度。

尺度相似度：对象的尺度能够用于滤除太大或者太小的目标建议窗口。第i个目标建议窗口和对象之间的尺度相似度z_i,t计算公式如下：

其中w_i(h_i)和w_t(h_t)分别表示第i个目标建议窗口和对象的宽度(高度)。

a_i,t＝s_i,t·c_i,t·z_i,t (公式5)

基于整体相似度对生成的目标建议窗口进行降序排序。选取前N个目标建议窗口作为特定对象的目标建议窗口。从目标跟踪数据集上获得的召回率曲线可以得出：目标检测的精度得到显著提升。

图2为CarScale部分视频帧排名前10的与对象具有高相似度的目标建议窗口生成图。图3为本发明与其它几种目标检测方法在UAV123数据集上对比的召回率曲线图，其中实线TOPG为本发明的方法，采用高相似度的目标建议窗口进行目标检测。

F.将步骤E中得到的特定对象的目标建议窗口作为MDNET的训练样本对CNN分类器进行训练，基于MDNET的框架实现目标跟踪。不同于MDNET所用的CNN分类器，训练样本由指定的概率分布生成，这里采用特定对象的目标建议窗口作为训练样本来对CNN分类器进行训练。由于目标建议窗口包含与目标相似的候选目标建议窗口，因此由特定对象的目标建议窗口训练得到的CNN分类器能够很好地将目标和与目标相似的干扰区分开来。

在训练(学习)阶段：首先，CNN卷积层的权重由相应VGG-M网络的权重初始化，CNN全连接层的权重由高斯分布初始化，高斯分布的均值为0，方差为0.01；然后，将特定对象的目标建议窗口作为训练样本对CNN分类器进行微调，对目标和背景进行分类。如果不采用特定对象的目标建议窗口对CNN分类器进行微调，那么跟踪器很容易被与目标相似的背景干扰从而丢失目标。在实现过程中，正负样本根据交并比(Intersection over Union，IoU)从特定对象的目标建议窗口选出，IoU的定义如下：

其中，PBB和TBB分别表示当前帧目标建议窗口和前一帧目标的边界框。正样本定义为

负样本定义为IoU＜ω。由于正样本的数目远小于负样本的数目，为了缓解样本类别不平衡的问题，在前一帧的目标周围同样基于高斯分布进行正负样本采样。

图4和5为本发明与其它几种目标跟踪方法在UAV20L数据集的对比的精度和成功率曲线图。其中曲线Ours为本发明的方法，在MDNET框架下将高相似度的目标建议窗口作为训练样本得到的结果。

Claims

1.特定对象的目标建议窗口生成方法，其特征在于包括以下步骤：

2.如权利要求1所述特定对象的目标建议窗口生成方法，其特征在于在步骤1)中，所述将训练视频图像分成三个区域：完全的目标区域、完全的背景区域以及目标区域与背景区域的混合区域的具体划分方法如下：

目标区域与背景区域的混合区域是一个中间为孔洞的矩形框，该矩形框的高度/宽度是目标高度/宽度的γ倍，其中，矩形框位于目标和背景；完全的目标区域位于矩形框内部，完全的背景区域位于矩形框外部；所述γ＝0.4。

3.如权利要求1所述特定对象的目标建议窗口生成方法，其特征在于在步骤2)中，所述对步骤1)中所述完全的目标区域和完全的背景区域分别计算目标像素和背景像素的概率分布图，以学习率λ更新目标像素和背景像素的概率分布图模型的具体方法如下：

记x^f和x^b分别表示完全目标区域F和完全背景区域B的像素；已知x^f和x^b，则x^f和x^b的概率分布p^f和p^b由x^f和x^b的直方图计算得到；概率分布p^f和p^b每隔k帧进行更新，更新方式如下：

其中，λ为学习率，m为视频帧索引；所述更新的策略能够保证当目标和背景的表观发生改变时，概率分布p^f和p^b能够得到较好地估算；所述目标和背景的颜色直方图区间设置为32。

4.如权利要求1所述特定对象的目标建议窗口生成方法，其特征在于在步骤3)中，所述给定一帧测试视频，利用训练好的概率分布图来预测图像中每个像素属于目标的概率，得到概率响应图的计算公式如下：

5.如权利要求1所述特定对象的目标建议窗口生成方法，其特征在于在步骤4)中，所述对原图和概率响应图分别提取目标建议窗口，并将所述目标建议窗口都作为候选的目标建议窗口是基于EdgeBoxes生成目标建议窗口。

6.如权利要求1所述特定对象的目标建议窗口生成方法，其特征在于在步骤5)中，所述对象的相似度包括颜色相似度、形状相似度以及尺度相似度；对步骤4)中得到的目标建议窗口基于与对象的相似度进行排序，生成特定对象的目标建议窗口的具体计算方法分别为：

颜色相似度：c_i,t定义为第i个目标建议窗口和对象之间的颜色相似性，由概率分布图计算；概率分布图上位于第i个目标建议窗口内部的所有像素的均值，作为第i个目标建议窗口和对象之间的颜色相似度；

其中ρ_i和ρ_t分别表示第i个目标建议窗口和对象的似然度；

其中，w_i、h_i和w_t、h_t分别表示第i个目标建议窗口和对象的宽度、高度；

a_i,t＝s_i,t·c_i,t·z_i,t

基于整体相似度对生成的目标建议窗口进行降序排序；选取前N个目标建议窗口作为特定对象的目标建议窗口；从目标跟踪数据集上获得的召回率曲线得出：目标检测的精度得到显著提升；所述N为500。

7.如权利要求1所述特定对象的目标建议窗口生成方法，其特征在于在步骤6)中，将步骤5)中得到的特定对象的目标建议窗口作为MDNET的训练样本对CNN分类器进行训练，基于MDNET的框架实现目标跟踪；不同于MDNET所用的CNN分类器，训练样本由指定的概率分布生成，这里采用特定对象的目标建议窗口作为训练样本来对CNN分类器进行训练；由于目标建议窗口包含与目标相似的候选目标建议窗口，因此由特定对象的目标建议窗口训练得到的CNN分类器能够很好地将目标和与目标相似的干扰区分开来；

在训练阶段：首先，CNN卷积层的权重由相应VGG-M网络的权重初始化，CNN全连接层的权重由高斯分布初始化，高斯分布的均值为0，方差为0.01；然后，将特定对象的目标建议窗口作为训练样本对CNN分类器进行微调，对目标和背景进行分类；如果不采用特定对象的目标建议窗口对CNN分类器进行微调，那么跟踪器很容易被与目标相似的背景干扰从而丢失目标；在实现过程中，正负样本根据交并比IoU从特定对象的目标建议窗口选出，IoU的定义如下：

在测试阶段：首先在前一帧的目标的搜索窗口内生成特定对象的目标建议窗口，将其作为候选目标；然后用训练好的CNN分类器对这些候选目标进行预测，选取概率最大的候选目标作为当前帧的目标。

8.如权利要求7所述特定对象的目标建议窗口生成方法，其特征在于所述正样本与负样本的阈值参数设置为

ω＝0.5，搜索窗口的大小设置为目标的5倍。