CN111274917A

CN111274917A - 一种基于深度检测的长时目标跟踪方法

Info

Publication number: CN111274917A
Application number: CN202010051443.9A
Authority: CN
Inventors: 葛洪伟; 邵江南; 韩青麟; 郑俊豪
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2020-06-12
Anticipated expiration: 2040-01-17
Also published as: CN111274917B

Abstract

本发明公开了一种基于深度检测的长时目标跟踪方法，属于模式识别和智能信息处理领域。本发明的方法采用MDNet深度检测跟踪框架，通过在难分样本挖掘的基础上改进收缩损失函数，解决采样时的正负样本不均衡问题；然后在线跟踪时设计并维护高置信度保留样本池，保留首帧目标和高置信度结果样本特征，利用保留样本池进行在线训练更新模型参数；最后，通过模型计算在前帧目标位置周围高斯采样出的候选样本的置信度，从而追踪运动目标位置并通过有效更新维持模型鲁棒性。本发明方法在复杂长时跟踪环境下保持了优越的跟踪精度和成功率，能够在目标被遮挡和出视野后重现时准确定位目标位置，满足实际工程系统的设计需求。

Description

一种基于深度检测的长时目标跟踪方法

技术领域

本发明涉及一种基于深度检测的长时目标跟踪方法，属于模式识别和智能信息处理领域。

背景技术

随着计算机视觉领域的发展，目标跟踪在人机交互、视频监控、自动驾驶和机器人等领域得到越来越多的重视和应用。早期的跟踪模型常见的有粒子滤波、Mean shift、相关滤波及其衍生模型等。虽然这些传统的跟踪器经过近年来的发展在精度和速度上都有了明显提升，但是对目标的特征提取仍以光流、外观形状、颜色等浅层特征为主，不能捕捉目标语义特征，难以在面对长时跟踪时目标外观形变、被遮挡或目标出视野等情况下保持鲁棒跟踪。

基于深度学习的跟踪器，能有效利用目标的深度特征对目标进行语义级抽象，并拟合目标的运动过程，这大大提高了跟踪精度；且模型的特征提取器在离线时得到了大量标记图片的端到端预训练，这进一步提高了跟踪器在线跟踪速度，使深度学习在目标跟踪领域的应用成为可能。由于目标检测与目标跟踪的相似性，检测领域的很多算法思想都逐渐被应用于跟踪：MDNet(Nam H,Han B.Learning multi-domain convolutional neuralnetworks for visual tracking[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition.2016:4293-4302.)在前一帧的目标周围高斯采样出大量候选框，再利用预训练的二分类器区分候选框中的目标和背景，从而定位目标位置；SiamFC孪生网络模型利用同样结构的CNN网络对初始帧目标和当前帧搜索域提取深度特征，然后通过卷积操作进行相似性计算，得到目标在搜索域位置的响应；RasNet将传统的相关滤波引入孪生网络中，再把检测领域的通道注意力、残差注意力和通用注意力结合，提高了跟踪器的泛化能力，增大了对首帧目标信息的利用率。

然而，基于深度学习的目标跟踪算法，需要收集含有目标信息的正样本，以及含有背景信息的负样本用于模型的迭代训练。但在实际取样中，正样本的可采样数量远远小于负样本这些负样本中绝大多数是无意义的简单负样本，对分类器的训练贡献很少。不仅如此，虽然简单负样本的损失值低，但数量庞大，这些值的累积和很可能掩盖了正样本和重要负样本损失值的变化，从而影响模型训练的收敛速度以及跟踪器性能。针对这种类不均衡问题，MDNet采用检测领域的难分样本挖掘技术筛选难分负样本，使模型的训练免受大多数简单样本的干扰，但其对难分负样本的采样数量固定，在很多应用场景下难以避免地对简单样本过多采集；FocalLoss对所有的负样本损失值进行抑制，但同时降低了有价值的难分样本对训练的贡献。

此外，长时跟踪时目标不可避免地会出现形变、遮挡和出视野等情况，未采用模型在线更新机制的深度跟踪器往往由于过度依赖首帧特征而导致跟踪漂移或目标丢失。MDNet保留最近特定数量帧的跟踪结果用于更新模型，但这可能导致有价值的保留样本被新出现的无效样本替代，同时其忽视首帧目标信息，也使得模型在跟踪失败后难以通过有效更新重新定位目标位置；CFNet对当前帧之前的所有跟踪结果计算平均值，更新目标模板；同样，随着跟踪的持续，目标模板不断被污染，最终导致跟踪漂移，而在目标被遮挡时，这种污染的影响将更加明显。

近年来，随着深度跟踪器的骨干网络层数逐渐加深，模型在线更新对跟踪效率的影响逐渐加大，因此大多数深度跟踪器都未引入在线更新策略，但模型更新仍是维持长时跟踪鲁棒性的重要途径。

发明内容

为了解决上述至少一个问题，本发明提出一种基于深度检测的长时目标跟踪方法(long-term object tracking based on deep detection,LT-MDNet)，以解决长时跟踪时的遮挡和目标出视野问题，能够进一步采样时的类不均衡问题，并使得模型在线跟踪时能够有效更新以适应跟踪环境的变化，提高长时目标跟踪性能，满足实际工程系统的设计需求。

本发明在目标检测的标记数据集上离线训练网络模型，在线跟踪时设计并维护高置信度保留样本池，对在线跟踪时的每一帧的有效并且置信度最高结果进行保留，在模型检测到跟踪失败或连续跟踪帧数达到特定阈值时，利用保留样本池进行在线训练更新模型，通过预训练和在线更新后的网络模型对在前帧目标周围高斯采样的样本进行二分类输出目标置信度，从而跟踪运动目标。

本发明的第一个目的是提供一种基于深度检测的长时目标跟踪方法，包括以下步骤：

(1)在ILSVRC2015-VID目标检测标记数据集上训练MDNet骨干网络的三个卷积层conv1、conv2、conv3和两个全连接层fc4、fc5的权值参数；

(2)设置MDNet骨干网络最后一层fc6为特定域层，是二分类全连接层，输出样本的正负置信度，参数在每一个离线训练视频帧序列或在线跟踪视频帧序列开始时均随机初始化，得到预训练网络模型；

(3)输入新的待跟踪视频序列，获取目标第一帧，设置t＝1，人工确定目标中心位置(x₁,y₁)与边界框长宽(h₁,w₁)，其中x₁为目标中心位置横坐标，y₁为目标中心位置纵坐标，h₁为边界框高度，w₁为边界框宽度；

(4)随机初始化预训练网络模型fc6层的参数；

(5)在第1帧的目标中心位置附近采样出500个不同尺度大小的正样本和5000个负样本，采样时保持正样本与目标边界框重叠比大于0.7，负样本小于0.5，将正样本加入高置信度保留样本池S_pool中；

(6)在第1帧的目标中心位置附近采样出1000个与目标边界框重叠比大于0.6的正样本，利用这些正样本训练一个边框回归器BBR，用于修正预训练网络模型对目标中心坐标和长宽数值的预测值；

(7)固定卷积层conv1、conv2、conv3的参数，利用(5)采样的样本迭代训练预训练网络模型50次，更新fc4-fc6的参数；

(8)对于第t(t>1)帧图像N_t，在N_t-1帧目标周围高斯采样候选样本集合X_t，取X_t中5个最高目标置信度候选的边界框均值

作为预估目标位置，通过边框回归器BBR调整后的

值设置为S_t，S_t为第t帧目标估计位置；

若S_t目标置信度大于0，则将S_t添加进高置信度保留样本池S_pool中，当S_pool池满时替换最低置信度的非首帧保留样本；

若S_t目标置信度不大于0或跟踪间隔10帧，则利用高置信度保留样本池S_pool和在当前帧采样的200个与目标边界框重叠比小于0.3的负样本对预训练网络模型进行迭代训练，参照(7)更新fc4-fc6的参数；

(9)重复步骤(8)，直至当前序列所有帧跟踪结束。

在一种实施方式中，(5)所述的不同尺度大小的正样本和负样本的采样方式具体为：采样的正样本中心坐标随机在原目标中心偏移长宽均值的十分之一范围内选取，长宽尺度放缩倍数为1.3^-1～1.3之间的随机值；负样本的采样按照局部和全局两种方式各采样2500个，局部采样的负样本中心坐标随机在原目标中心偏移长宽均值的范围内选取，长宽尺度放缩倍数为1.6^-1～1.6之间的随机值，全局采样则随机在整幅图选取与目标框尺寸相同的候选框。

在一种实施方式中，(7)所述的迭代训练具体为：

每次迭代时取256个负样本和32个正样本，通过难分负样本挖掘技术筛选其中目标置信度最高的96个负样本用于训练，训练时采用随机梯度下降SGD优化策略和损失函数L_S(p,y)，其中：y为样本类别标签，p为样本对y＝1(正样本)的置信度。

在一种实施方式中，(7)所述的y∈{0,1}。

在一种实施方式中，(7)所述的p∈[0,1]。

在一种实施方式中，(7)所述的L_S(p,y)为：

L_S(p,y)＝-(y·log(p)+(1-y)·log(1-p))+δ·S(p)，式中的δ为超参数，控制损失收缩比：

其中，

式中的a,c为超参数，分别控制损失收缩速度(曲线梯度变化率)和损失值非线性调节敏感范围(p值趋于0的区间)。

本发明的第二个目的是所述的方法在人机交互中的应用。

本发明的第三个目的是所述的方法在视频监控中的应用。

本发明的第四个目的是所述的方法在自动驾驶或机器人中的应用。

本发明的有益效果：

(1)本发明引入了一种改进的收缩损失函数，通过抑制简单负样本的损失值以缓和模型训练时正负样本不均衡的问题。

(2)本发明设计了一种高置信度保留样本池，对在线跟踪时的每一帧的有效并且置信度最高结果进行保留，在模型检测到跟踪失败或连续跟踪帧数达到特定阈值时，利用保留样本池进行在线训练更新模型，从而使模型在应对长时跟踪时保持鲁棒和高效。

附图说明

图1是实施例1的实现流程图。

图2是MDNet模型的主要结构。

图3为实施例1的LT-MDNet和对比跟踪算法在OTB2015标准数据集上综合精度和跟踪成功率对比图；其中(a)为综合精度；(b)为跟踪成功率。

图4为各跟踪器在OTB2015上关于目标遮挡的平均跟踪精度和跟踪成功率对比图；其中(a)为平均跟踪精度；(b)为跟踪成功率。

图5为各跟踪器在OTB2015上关于目标出视野的平均跟踪精度和跟踪成功率对比图；其中(a)为平均跟踪精度；(b)为跟踪成功率。

图6为各跟踪器在UAV20L长时数据集的综合精度和跟踪成功率对比图；其中(a)为平均跟踪精度；(b)为跟踪成功率。

图7为实施例1的LT-MDNet同SiamRPN、TADT、MDNet和SRDCF的在目标快速移动下的跟踪情况定性分析对比图。

图8为实施例1的LT-MDNet同SiamRPN、TADT、MDNet和SRDCF的在被遮挡下的跟踪情况定性分析对比图。

图9为实施例1的LT-MDNet同SiamRPN、TADT、MDNet和SRDCF的在剧烈形变下的跟踪情况定性分析对比图。

具体实施方式

以下对本发明的优选实施例进行说明，应当理解实施例是为了更好地解释本发明，不用于限制本发明。

基础理论介绍(MDNet算法)

1.MDNet算法

MDNet将每一个视频帧序列视为一个单独的域，基于VGG-M架构，提出多域卷积网络。如图2所示，conv1、conv2、conv3、fc4、fc5为域无关的共享层，初始参数通过离线训练得出；fc6(fc6ⁱ，i＝1,2,..,k)为特定域层，参数在每次迭代训练或跟踪特定域时均随机初始化；灰色框和白色框分别表示每个域中的正样本(目标)和负样本(背景)；1,2,…,k为离线训练时所迭代训练模型的k个视频序列。MDNet在共享层中对域无关的信息建模，从而获得通用的特征表示，并在fc6层训练一个二分类器，区分目标与背景，通过将目标跟踪抽象为一个二分类任务，最终达到跟踪运动目标的目的。

MDNet将目标搜索域采样出的样本，统一裁剪成107*107大小，输入图2的网络中，通过网络fc6层输出样本属于目标的置信度p，将模型难以判别的负样本归为难分样本。为降低正负样本不均衡问题对模型在线训练的干扰，MDNet采取了难分样本挖掘策略，取p值最高的前96个负样本，再将这组难分样本和在目标周围高斯采样出的32个正样本结合，通过下式交叉熵损失函数和随机梯度下降算法(SGD)对模型参数进行迭代训练更新：

L(p,y)＝-(y·log(p)+(1-y)·log(1-p))

式中：y∈{0,1}为样本类别标签，p∈[0,1]为样本对y＝1(正样本，即目标)的估计概率(置信度)。

2.损失函数

损失函数用来评估模型的预测值与真实值之间的差异程度，也是神经网络中优化的目标函数。神经网络训练或者优化的过程就是最小化损失函数的过程，损失函数越小，说明模型的预测值就越接近真实值，模型的准确性也就越好。模型对样本的预测输出越接近真实样本标签0，损失值L越小；预测越接近1，L越大。

实施例1：基于深度检测的长时目标跟踪方法LT-MDNet

参照图1，LT-MDNet的具体实施过程包括以下步骤：

(1)离线预训练，在ILSVRC2015-VID目标检测标记数据集上训练MDNet骨干网络的三个卷积层(conv1，conv2，conv3)和两个全连接层(fc4，fc5)的权值参数；

(2)设置网络最后一层(fc6)为特定域层，是二分类全连接层，输出样本的正负置信度，参数在每一个离线训练视频帧序列或在线跟踪视频帧序列开始时均随机初始化。

(3)输入新的待跟踪视频序列，获取目标第一帧(t＝1)，人工确定目标中心位置与边界框长宽(x₁,y₁,h₁,w₁)，其中x₁为目标中心位置横坐标，y₁为目标中心位置纵坐标，h₁为边界框高度，w₁为边界框宽度；

(4)随机初始化预训练网络模型fc6层的参数；

(5)在第1帧的目标中心位置附近采样出500个不同尺度大小的正样本和5000个负样本。具体采样方式为：采样的正样本中心坐标随机在原目标中心偏移长宽均值的十分之一范围内选取，长宽尺度放缩倍数为1.3^-1～1.3之间的随机值；负样本的采样按照局部和全局两种方式各采样2500个，局部采样的负样本中心坐标随机在原目标中心偏移长宽均值的范围内选取，长宽尺度放缩倍数为1.6^-1～1.6之间的随机值，全局采样则随机在整幅图选取与目标框尺寸相同的候选框；保持正样本与目标边界框重叠比大于0.7，负样本小于0.5，将正样本加入高置信度保留样本池S_pool中；

(6)在第1帧的目标中心位置附近采样出1000个与目标边界框重叠比大于0.6的正样本，利用这些正样本训练一个边框回归器BBR，用于修正模型对目标中心坐标和长宽数值的预测值；

(7)固定conv1-conv3的参数，利用(5)采样的样本迭代训练网络模型50次，更新fc4-fc6的参数；每次迭代时取256个负样本和32个正样本，通过难分负样本挖掘技术筛选其中目标置信度最高的96个负样本用于训练，训练时采用随机梯度下降(SGD)优化策略和损失函数L_S(p,y)，其中：y∈{0,1}为样本类别标签，p∈[0,1]为样本对y＝1(正样本)的置信度；

MDNet在处理简单负样本时，由于负样本的采样数量远高于正样本，且采样的负样本尽管经过难分样本挖掘，简单负样本占比仍较大，依然存在类不均衡问题。尤其p∈[0,0.5]区间的损失值未能被有效抑制，使得大量的较简单负样本损失值的累加，仍可以掩盖正样本和难分负样本损失值的变化，从而影响模型训练。

为解决类不均衡问题，本方法结合收缩损失函数的思想，在原式的基础上增加了收缩抑制项S(p)，通过抑制损失值曲线在p∈[0,0.5]区间内的梯度，降低简单负样本的损失值，以突出难分样本和正样本损失值的变化对模型训练的贡献率。所述的S(p)具体如下：

S(p)当p<0.5时，损失值几乎为零，而当置信度p接近1时，损失值迅速增大，比交叉熵损失更有效地非线性抑制了简单负样本的损失值，且负样本越简单抑制比越大。

由于在线训练与离线训练存在本质区别：在线训练迭代次数少，涉及网络层不多，且已经预训练的模型在线更新时只需微调部分参数即可快速收敛。因此，虽然抑制大多数负样本会降低模型的泛化能力，但这样做允许模型对当前视频域存在一定程度过拟合，这在提高跟踪器性能的同时有效降低了计算量；对p的平方操作，使得简单负样本在损失计算时得到进一步抑制。修正后的模型损失函数L_S(p,y)如下式所示，其中δ为超参数，控制损失收缩比：

L_S(p,y)＝-(y·log(p)+(1-y)·log(1-p))+δ·S(p)，即

(8)在线跟踪，对于第t(t>1)帧图像N_t，在N_t-1帧目标周围高斯采样候选样本集合X_t，取X_t中5个最高目标置信度候选的边界框均值

作为预估目标位置，通过边框回归器BBR调整后的

值S_t，S_t为第t帧目标估计位置；

若S_t目标置信度大于0，则将S_t添加进S_pool中，当S_pool池满时替换最低置信度的非首帧保留样本；

若S_t目标置信度不大于0或跟踪间隔10帧，则利用S_pool和在当前帧采样的200个与目标边界框重叠比小于0.3的负样本对模型进行迭代训练，参照步骤(7)更新fc4-fc6的参数；

(9)重复步骤(8)，直至当前序列所有帧跟踪结束。

实施例2：实施例1的应用

1.仿真条件及参数

实验基于PyTorch 1.2.0编程语言和CUDA 10.0深度学习架构实现，操作系统为Windows 10，处理器为AMD R5-2600 3.4GHZ，GPU为NVIDIA RTX2070，内存16GB。

模型离线训练于ILSVRC2015-VID目标检测标记数据集(http://bvisionweb1.cs.unc.edu/ilsvrc2015/ILSVRC2015_VID.tar.gz)上，每间隔10帧时更新模型参数；首帧模型更新训练迭代50次，学习率为0.0005；非首帧更新迭代15次，学习率为0.001；损失函数中的超参数a、c分别设置为10、0.2，收缩比δ取1.3。

2.仿真内容及结果分析

为了验证实施例1(LT-MDNet)的有效性，在OTB2015和UAV20L公开数据集上进行对比实验，对比算法有MDNet(Nam H,Han B.Learning multi-domain convolutional neuralnetworks for visual tracking[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition.2016:4293-4302.)，DSLT(Lu X,Ma C,Ni B,et al.Deep regression tracking with shrinkage loss[C]//Proceedings of theEuropean Conference on Computer Vision(ECCV).2018:353-369.)，SRDCF(DanelljanM,Hager G,Shahbaz Khan F,et al.Learning spatially regularized correlationfilters for visual tracking[C]//Proceedings of the IEEE internationalconference on computer vision.2015:4310-4318.)，TADT(Li X,Ma C,Wu B,etal.Target-aware deep tracking[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2019:1369-1378.)，SiamRPN(Li B,Yan J,Wu W,et al.High performance visual tracking with siamese region proposalnetwork[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2018:8971-8980.)，MUSTer(Hong Z,Chen Z,Wang C,et al.Multi-storetracker(muster):A cognitive psychology inspired approach to object tracking[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2015:749-758.)和BACF(Kiani Galoogahi H,Fagg A,Lucey S.Learningbackground-aware correlation filters for visual tracking[C]//Proceedings ofthe IEEE International Conference on Computer Vision.2017:1135-1143.)等目前常用的显著性检测算法。对比过程采用定性分析和定量分析，定性分析直接通过跟踪结果图的视觉对比观察结果的优劣；定量分析则通过计算评价指标判断算法的性能。实验中采用的指标有跟踪精度(Precision)和跟踪成功率(Success Rate)。

图3中(a)～(b)为LT-MDNet和对比跟踪算法在OTB2015标准数据集上综合精度和跟踪成功率对比图；图4(a)～(b)、图5(a)～(b)分别为各跟踪器在OTB2015上关于目标遮挡、目标出视野的平均跟踪精度和跟踪成功率对比图。可见，除了综合性能的领先，LT-MDNet在应对目标遮挡、出视野等复杂因素同样保持了良好的跟踪能力和稳定性。

图6中(a)、(b)分别为各跟踪器在UAV20L长时数据集的综合精度和跟踪成功率对比图，可以看出LT-MDNet在长时跟踪数据集上性能大幅领先，较最优对比模型的精度和成功率分别提升3.7％、2.9％，说明在该数据集上本发明的综合性能明显提升。

表1是LT-MDNet在UAV20L数据集上与对比跟踪算法在10个视频属性：快速运动(FM)、相似目标干扰(SO)、光照变化(IV)、背景杂乱(BC)、视角变化(VC)、尺度变化(SV)、低分辨率(LR)、部分遮挡(PO)、全部遮挡(FO)和目标出视野(OV)上跟踪成功率的定量对比结果，表中加粗字体为每行最优值，斜体为每行次优值，可以看出，LT-MDNet在上述10个视频属性中均保持了最优或次优性能，证明实施例1的方法能够较好应对长时跟踪时的复杂环境变化。

表1 UAV20L数据集上对比算法与实施例1的LT-MDNet在10个视频属性上跟踪成功率的定量对比结果

图7对小型飞机这种快速移动的小目标进行跟踪，在第1088帧(图7(a))，飞机平稳飞行，此时只有LT-MDNet和MDNet可以锁定目标位置；而在第1529帧(图7(b))和之后的帧序列里，由于飞机航向、目标背景和航拍角度均剧烈变化，除LT-MDNet能由于模型有效更新操作精确锁定目标位置外，其余跟踪器均跟踪失败。

图8中目标行人在第594帧(图8(a))和第1415帧(图8(b))被树叶遮挡，此时LT-MDNet较其他对比跟踪器更能精确捕捉目标轮廓信息，并在随后持续稳定跟踪；SRDCF、MDNet和SiamRPN均在目标重现后失去了跟踪能力。

图9中穿着深色衣服的骑行小男孩在第2375帧(图9(b))掉转车头，目标外观由男孩正面变成背影，而随后航拍镜头加速向前，目标迅速被甩在后面，其在图像帧中轮廓尺度也剧烈变化。此时，LT-MDNet仍可准确定位目标位置，并保持对目标横纵比信息的有效估计，而其余跟踪器均难以检测目标的准确轮廓，TADT则彻底跟踪失败。

通过以上分析可以看出，LT-MDNet能够在长时跟踪下很好地应对这些复杂因素，在目标被遮挡后重现时仍能迅速定位目标；对快速位移、剧烈形变下的目标，在经过模型更新后可以维持鲁棒跟踪并且较对比算法更能精确捕捉目标的轮廓信息。本发明能够定位运动目标位置轮廓并通过可靠的在线更新机制适应目标和跟踪环境的变化。跟踪的准确性优于所有对比算法，能在复杂环境下完成长时目标跟踪任务，综合性能明显提高。

虽然本发明已以较佳实施例公开如上，但其并非用以限定本发明，任何熟悉此技术的人，在不脱离本发明的精神和范围内，都可做各种的改动与修饰，因此本发明的保护范围应该以权利要求书所界定的为准。

Claims

1.一种基于深度检测的长时目标跟踪方法，其特征在于，包括以下步骤：

(4)随机初始化预训练网络模型fc6层的参数；

(8)对于第t帧图像N_t，在N_t-1帧目标周围高斯采样候选样本集合X_t，取X_t中5个最高目标置信度候选的边界框均值

作为预估目标位置，通过边框回归器BBR调整后的

值设置为S_t，S_t为第t帧目标估计位置；

(9)重复步骤(8)，直至当前序列所有帧跟踪结束。

2.根据权利要求1所述的方法，其特征在于，(5)所述的不同尺度大小的正样本和负样本的采样方式具体为：采样的正样本中心坐标随机在原目标中心偏移长宽均值的十分之一范围内选取，长宽尺度放缩倍数为1.3^-1～1.3之间的随机值；负样本的采样按照局部和全局两种方式各采样2500个，局部采样的负样本中心坐标随机在原目标中心偏移长宽均值的范围内选取，长宽尺度放缩倍数为1.6^-1～1.6之间的随机值，全局采样则随机在整幅图选取与目标框尺寸相同的候选框。

3.根据权利要求1所述的方法，其特征在于，(7)所述的迭代训练具体为：

每次迭代时取256个负样本和32个正样本，通过难分负样本挖掘技术筛选其中目标置信度最高的96个负样本用于训练，训练时采用随机梯度下降SGD优化策略和损失函数L_S(p,y)，其中：y为样本类别标签，p为样本对y＝1的正样本的置信度。

4.根据权利要求3所述的方法，其特征在于，(7)所述的y∈{0,1}。

5.根据权利要求3所述的方法，其特征在于，(7)所述的p∈[0,1]。

6.根据权利要求3所述的方法，其特征在于，(7)所述的L_S(p,y)为：

L_S(p,y)＝-(y·log(p)+(1-y)·log(1-p))+δ·S(p)，

式中的δ为控制损失收缩比。

7.根据权利要求6所述的方法，其特征在于，所述的S(p)为：

式中的a,c为分别控制损失收缩速度和损失值非线性调节敏感范围。

8.权利要求1所述的方法在人机交互中的应用。

9.权利要求1所述的方法在视频监控中的应用。

10.权利要求1所述的方法在自动驾驶或机器人中的应用。