CN111274917A - 一种基于深度检测的长时目标跟踪方法 - Google Patents
一种基于深度检测的长时目标跟踪方法 Download PDFInfo
- Publication number
- CN111274917A CN111274917A CN202010051443.9A CN202010051443A CN111274917A CN 111274917 A CN111274917 A CN 111274917A CN 202010051443 A CN202010051443 A CN 202010051443A CN 111274917 A CN111274917 A CN 111274917A
- Authority
- CN
- China
- Prior art keywords
- target
- frame
- tracking
- sample
- confidence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000001514 detection method Methods 0.000 title claims abstract description 20
- 230000007774 longterm Effects 0.000 title claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 55
- 238000005070 sampling Methods 0.000 claims abstract description 26
- 230000014759 maintenance of location Effects 0.000 claims abstract description 9
- 238000005065 mining Methods 0.000 claims abstract description 6
- 238000005516 engineering process Methods 0.000 claims description 4
- 239000003550 marker Substances 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 230000008602 contraction Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 3
- 238000003909 pattern recognition Methods 0.000 abstract description 4
- 238000013461 design Methods 0.000 abstract description 3
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 230000008859 change Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 6
- 238000004451 qualitative analysis Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 230000033228 biological regulation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000005764 inhibitory process Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000004445 quantitative analysis Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- ZINJLDJMHCUBIP-UHFFFAOYSA-N ethametsulfuron-methyl Chemical compound CCOC1=NC(NC)=NC(NC(=O)NS(=O)(=O)C=2C(=CC=CC=2)C(=O)OC)=N1 ZINJLDJMHCUBIP-UHFFFAOYSA-N 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度检测的长时目标跟踪方法,属于模式识别和智能信息处理领域。本发明的方法采用MDNet深度检测跟踪框架,通过在难分样本挖掘的基础上改进收缩损失函数,解决采样时的正负样本不均衡问题;然后在线跟踪时设计并维护高置信度保留样本池,保留首帧目标和高置信度结果样本特征,利用保留样本池进行在线训练更新模型参数;最后,通过模型计算在前帧目标位置周围高斯采样出的候选样本的置信度,从而追踪运动目标位置并通过有效更新维持模型鲁棒性。本发明方法在复杂长时跟踪环境下保持了优越的跟踪精度和成功率,能够在目标被遮挡和出视野后重现时准确定位目标位置,满足实际工程系统的设计需求。
Description
技术领域
本发明涉及一种基于深度检测的长时目标跟踪方法,属于模式识别和智能信息处理领域。
背景技术
随着计算机视觉领域的发展,目标跟踪在人机交互、视频监控、自动驾驶和机器人等领域得到越来越多的重视和应用。早期的跟踪模型常见的有粒子滤波、Mean shift、相关滤波及其衍生模型等。虽然这些传统的跟踪器经过近年来的发展在精度和速度上都有了明显提升,但是对目标的特征提取仍以光流、外观形状、颜色等浅层特征为主,不能捕捉目标语义特征,难以在面对长时跟踪时目标外观形变、被遮挡或目标出视野等情况下保持鲁棒跟踪。
基于深度学习的跟踪器,能有效利用目标的深度特征对目标进行语义级抽象,并拟合目标的运动过程,这大大提高了跟踪精度;且模型的特征提取器在离线时得到了大量标记图片的端到端预训练,这进一步提高了跟踪器在线跟踪速度,使深度学习在目标跟踪领域的应用成为可能。由于目标检测与目标跟踪的相似性,检测领域的很多算法思想都逐渐被应用于跟踪:MDNet(Nam H,Han B.Learning multi-domain convolutional neuralnetworks for visual tracking[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition.2016:4293-4302.)在前一帧的目标周围高斯采样出大量候选框,再利用预训练的二分类器区分候选框中的目标和背景,从而定位目标位置;SiamFC孪生网络模型利用同样结构的CNN网络对初始帧目标和当前帧搜索域提取深度特征,然后通过卷积操作进行相似性计算,得到目标在搜索域位置的响应;RasNet将传统的相关滤波引入孪生网络中,再把检测领域的通道注意力、残差注意力和通用注意力结合,提高了跟踪器的泛化能力,增大了对首帧目标信息的利用率。
然而,基于深度学习的目标跟踪算法,需要收集含有目标信息的正样本,以及含有背景信息的负样本用于模型的迭代训练。但在实际取样中,正样本的可采样数量远远小于负样本这些负样本中绝大多数是无意义的简单负样本,对分类器的训练贡献很少。不仅如此,虽然简单负样本的损失值低,但数量庞大,这些值的累积和很可能掩盖了正样本和重要负样本损失值的变化,从而影响模型训练的收敛速度以及跟踪器性能。针对这种类不均衡问题,MDNet采用检测领域的难分样本挖掘技术筛选难分负样本,使模型的训练免受大多数简单样本的干扰,但其对难分负样本的采样数量固定,在很多应用场景下难以避免地对简单样本过多采集;FocalLoss对所有的负样本损失值进行抑制,但同时降低了有价值的难分样本对训练的贡献。
此外,长时跟踪时目标不可避免地会出现形变、遮挡和出视野等情况,未采用模型在线更新机制的深度跟踪器往往由于过度依赖首帧特征而导致跟踪漂移或目标丢失。MDNet保留最近特定数量帧的跟踪结果用于更新模型,但这可能导致有价值的保留样本被新出现的无效样本替代,同时其忽视首帧目标信息,也使得模型在跟踪失败后难以通过有效更新重新定位目标位置;CFNet对当前帧之前的所有跟踪结果计算平均值,更新目标模板;同样,随着跟踪的持续,目标模板不断被污染,最终导致跟踪漂移,而在目标被遮挡时,这种污染的影响将更加明显。
近年来,随着深度跟踪器的骨干网络层数逐渐加深,模型在线更新对跟踪效率的影响逐渐加大,因此大多数深度跟踪器都未引入在线更新策略,但模型更新仍是维持长时跟踪鲁棒性的重要途径。
发明内容
为了解决上述至少一个问题,本发明提出一种基于深度检测的长时目标跟踪方法(long-term object tracking based on deep detection,LT-MDNet),以解决长时跟踪时的遮挡和目标出视野问题,能够进一步采样时的类不均衡问题,并使得模型在线跟踪时能够有效更新以适应跟踪环境的变化,提高长时目标跟踪性能,满足实际工程系统的设计需求。
本发明在目标检测的标记数据集上离线训练网络模型,在线跟踪时设计并维护高置信度保留样本池,对在线跟踪时的每一帧的有效并且置信度最高结果进行保留,在模型检测到跟踪失败或连续跟踪帧数达到特定阈值时,利用保留样本池进行在线训练更新模型,通过预训练和在线更新后的网络模型对在前帧目标周围高斯采样的样本进行二分类输出目标置信度,从而跟踪运动目标。
本发明的第一个目的是提供一种基于深度检测的长时目标跟踪方法,包括以下步骤:
(1)在ILSVRC2015-VID目标检测标记数据集上训练MDNet骨干网络的三个卷积层conv1、conv2、conv3和两个全连接层fc4、fc5的权值参数;
(2)设置MDNet骨干网络最后一层fc6为特定域层,是二分类全连接层,输出样本的正负置信度,参数在每一个离线训练视频帧序列或在线跟踪视频帧序列开始时均随机初始化,得到预训练网络模型;
(3)输入新的待跟踪视频序列,获取目标第一帧,设置t=1,人工确定目标中心位置(x1,y1)与边界框长宽(h1,w1),其中x1为目标中心位置横坐标,y1为目标中心位置纵坐标,h1为边界框高度,w1为边界框宽度;
(4)随机初始化预训练网络模型fc6层的参数;
(5)在第1帧的目标中心位置附近采样出500个不同尺度大小的正样本和5000个负样本,采样时保持正样本与目标边界框重叠比大于0.7,负样本小于0.5,将正样本加入高置信度保留样本池Spool中;
(6)在第1帧的目标中心位置附近采样出1000个与目标边界框重叠比大于0.6的正样本,利用这些正样本训练一个边框回归器BBR,用于修正预训练网络模型对目标中心坐标和长宽数值的预测值;
(7)固定卷积层conv1、conv2、conv3的参数,利用(5)采样的样本迭代训练预训练网络模型50次,更新fc4-fc6的参数;
(8)对于第t(t>1)帧图像Nt,在Nt-1帧目标周围高斯采样候选样本集合Xt,取Xt中5个最高目标置信度候选的边界框均值作为预估目标位置,通过边框回归器BBR调整后的值设置为St,St为第t帧目标估计位置;
若St目标置信度大于0,则将St添加进高置信度保留样本池Spool中,当Spool池满时替换最低置信度的非首帧保留样本;
若St目标置信度不大于0或跟踪间隔10帧,则利用高置信度保留样本池Spool和在当前帧采样的200个与目标边界框重叠比小于0.3的负样本对预训练网络模型进行迭代训练,参照(7)更新fc4-fc6的参数;
(9)重复步骤(8),直至当前序列所有帧跟踪结束。
在一种实施方式中,(5)所述的不同尺度大小的正样本和负样本的采样方式具体为:采样的正样本中心坐标随机在原目标中心偏移长宽均值的十分之一范围内选取,长宽尺度放缩倍数为1.3-1~1.3之间的随机值;负样本的采样按照局部和全局两种方式各采样2500个,局部采样的负样本中心坐标随机在原目标中心偏移长宽均值的范围内选取,长宽尺度放缩倍数为1.6-1~1.6之间的随机值,全局采样则随机在整幅图选取与目标框尺寸相同的候选框。
在一种实施方式中,(7)所述的迭代训练具体为:
每次迭代时取256个负样本和32个正样本,通过难分负样本挖掘技术筛选其中目标置信度最高的96个负样本用于训练,训练时采用随机梯度下降SGD优化策略和损失函数LS(p,y),其中:y为样本类别标签,p为样本对y=1(正样本)的置信度。
在一种实施方式中,(7)所述的y∈{0,1}。
在一种实施方式中,(7)所述的p∈[0,1]。
在一种实施方式中,(7)所述的LS(p,y)为:
LS(p,y)=-(y·log(p)+(1-y)·log(1-p))+δ·S(p),式中的δ为超参数,控制损失收缩比:
本发明的第二个目的是所述的方法在人机交互中的应用。
本发明的第三个目的是所述的方法在视频监控中的应用。
本发明的第四个目的是所述的方法在自动驾驶或机器人中的应用。
本发明的有益效果:
(1)本发明引入了一种改进的收缩损失函数,通过抑制简单负样本的损失值以缓和模型训练时正负样本不均衡的问题。
(2)本发明设计了一种高置信度保留样本池,对在线跟踪时的每一帧的有效并且置信度最高结果进行保留,在模型检测到跟踪失败或连续跟踪帧数达到特定阈值时,利用保留样本池进行在线训练更新模型,从而使模型在应对长时跟踪时保持鲁棒和高效。
附图说明
图1是实施例1的实现流程图。
图2是MDNet模型的主要结构。
图3为实施例1的LT-MDNet和对比跟踪算法在OTB2015标准数据集上综合精度和跟踪成功率对比图;其中(a)为综合精度;(b)为跟踪成功率。
图4为各跟踪器在OTB2015上关于目标遮挡的平均跟踪精度和跟踪成功率对比图;其中(a)为平均跟踪精度;(b)为跟踪成功率。
图5为各跟踪器在OTB2015上关于目标出视野的平均跟踪精度和跟踪成功率对比图;其中(a)为平均跟踪精度;(b)为跟踪成功率。
图6为各跟踪器在UAV20L长时数据集的综合精度和跟踪成功率对比图;其中(a)为平均跟踪精度;(b)为跟踪成功率。
图7为实施例1的LT-MDNet同SiamRPN、TADT、MDNet和SRDCF的在目标快速移动下的跟踪情况定性分析对比图。
图8为实施例1的LT-MDNet同SiamRPN、TADT、MDNet和SRDCF的在被遮挡下的跟踪情况定性分析对比图。
图9为实施例1的LT-MDNet同SiamRPN、TADT、MDNet和SRDCF的在剧烈形变下的跟踪情况定性分析对比图。
具体实施方式
以下对本发明的优选实施例进行说明,应当理解实施例是为了更好地解释本发明,不用于限制本发明。
基础理论介绍(MDNet算法)
1.MDNet算法
MDNet将每一个视频帧序列视为一个单独的域,基于VGG-M架构,提出多域卷积网络。如图2所示,conv1、conv2、conv3、fc4、fc5为域无关的共享层,初始参数通过离线训练得出;fc6(fc6i,i=1,2,..,k)为特定域层,参数在每次迭代训练或跟踪特定域时均随机初始化;灰色框和白色框分别表示每个域中的正样本(目标)和负样本(背景);1,2,…,k为离线训练时所迭代训练模型的k个视频序列。MDNet在共享层中对域无关的信息建模,从而获得通用的特征表示,并在fc6层训练一个二分类器,区分目标与背景,通过将目标跟踪抽象为一个二分类任务,最终达到跟踪运动目标的目的。
MDNet将目标搜索域采样出的样本,统一裁剪成107*107大小,输入图2的网络中,通过网络fc6层输出样本属于目标的置信度p,将模型难以判别的负样本归为难分样本。为降低正负样本不均衡问题对模型在线训练的干扰,MDNet采取了难分样本挖掘策略,取p值最高的前96个负样本,再将这组难分样本和在目标周围高斯采样出的32个正样本结合,通过下式交叉熵损失函数和随机梯度下降算法(SGD)对模型参数进行迭代训练更新:
L(p,y)=-(y·log(p)+(1-y)·log(1-p))
式中:y∈{0,1}为样本类别标签,p∈[0,1]为样本对y=1(正样本,即目标)的估计概率(置信度)。
2.损失函数
损失函数用来评估模型的预测值与真实值之间的差异程度,也是神经网络中优化的目标函数。神经网络训练或者优化的过程就是最小化损失函数的过程,损失函数越小,说明模型的预测值就越接近真实值,模型的准确性也就越好。模型对样本的预测输出越接近真实样本标签0,损失值L越小;预测越接近1,L越大。
实施例1:基于深度检测的长时目标跟踪方法LT-MDNet
参照图1,LT-MDNet的具体实施过程包括以下步骤:
(1)离线预训练,在ILSVRC2015-VID目标检测标记数据集上训练MDNet骨干网络的三个卷积层(conv1,conv2,conv3)和两个全连接层(fc4,fc5)的权值参数;
(2)设置网络最后一层(fc6)为特定域层,是二分类全连接层,输出样本的正负置信度,参数在每一个离线训练视频帧序列或在线跟踪视频帧序列开始时均随机初始化。
(3)输入新的待跟踪视频序列,获取目标第一帧(t=1),人工确定目标中心位置与边界框长宽(x1,y1,h1,w1),其中x1为目标中心位置横坐标,y1为目标中心位置纵坐标,h1为边界框高度,w1为边界框宽度;
(4)随机初始化预训练网络模型fc6层的参数;
(5)在第1帧的目标中心位置附近采样出500个不同尺度大小的正样本和5000个负样本。具体采样方式为:采样的正样本中心坐标随机在原目标中心偏移长宽均值的十分之一范围内选取,长宽尺度放缩倍数为1.3-1~1.3之间的随机值;负样本的采样按照局部和全局两种方式各采样2500个,局部采样的负样本中心坐标随机在原目标中心偏移长宽均值的范围内选取,长宽尺度放缩倍数为1.6-1~1.6之间的随机值,全局采样则随机在整幅图选取与目标框尺寸相同的候选框;保持正样本与目标边界框重叠比大于0.7,负样本小于0.5,将正样本加入高置信度保留样本池Spool中;
(6)在第1帧的目标中心位置附近采样出1000个与目标边界框重叠比大于0.6的正样本,利用这些正样本训练一个边框回归器BBR,用于修正模型对目标中心坐标和长宽数值的预测值;
(7)固定conv1-conv3的参数,利用(5)采样的样本迭代训练网络模型50次,更新fc4-fc6的参数;每次迭代时取256个负样本和32个正样本,通过难分负样本挖掘技术筛选其中目标置信度最高的96个负样本用于训练,训练时采用随机梯度下降(SGD)优化策略和损失函数LS(p,y),其中:y∈{0,1}为样本类别标签,p∈[0,1]为样本对y=1(正样本)的置信度;
MDNet在处理简单负样本时,由于负样本的采样数量远高于正样本,且采样的负样本尽管经过难分样本挖掘,简单负样本占比仍较大,依然存在类不均衡问题。尤其p∈[0,0.5]区间的损失值未能被有效抑制,使得大量的较简单负样本损失值的累加,仍可以掩盖正样本和难分负样本损失值的变化,从而影响模型训练。
为解决类不均衡问题,本方法结合收缩损失函数的思想,在原式的基础上增加了收缩抑制项S(p),通过抑制损失值曲线在p∈[0,0.5]区间内的梯度,降低简单负样本的损失值,以突出难分样本和正样本损失值的变化对模型训练的贡献率。所述的S(p)具体如下:
式中的a,c为超参数,分别控制损失收缩速度(曲线梯度变化率)和损失值非线性调节敏感范围(p值趋于0的区间)。
S(p)当p<0.5时,损失值几乎为零,而当置信度p接近1时,损失值迅速增大,比交叉熵损失更有效地非线性抑制了简单负样本的损失值,且负样本越简单抑制比越大。
由于在线训练与离线训练存在本质区别:在线训练迭代次数少,涉及网络层不多,且已经预训练的模型在线更新时只需微调部分参数即可快速收敛。因此,虽然抑制大多数负样本会降低模型的泛化能力,但这样做允许模型对当前视频域存在一定程度过拟合,这在提高跟踪器性能的同时有效降低了计算量;对p的平方操作,使得简单负样本在损失计算时得到进一步抑制。修正后的模型损失函数LS(p,y)如下式所示,其中δ为超参数,控制损失收缩比:
LS(p,y)=-(y·log(p)+(1-y)·log(1-p))+δ·S(p),即
(8)在线跟踪,对于第t(t>1)帧图像Nt,在Nt-1帧目标周围高斯采样候选样本集合Xt,取Xt中5个最高目标置信度候选的边界框均值作为预估目标位置,通过边框回归器BBR调整后的值St,St为第t帧目标估计位置;
若St目标置信度大于0,则将St添加进Spool中,当Spool池满时替换最低置信度的非首帧保留样本;
若St目标置信度不大于0或跟踪间隔10帧,则利用Spool和在当前帧采样的200个与目标边界框重叠比小于0.3的负样本对模型进行迭代训练,参照步骤(7)更新fc4-fc6的参数;
(9)重复步骤(8),直至当前序列所有帧跟踪结束。
实施例2:实施例1的应用
1.仿真条件及参数
实验基于PyTorch 1.2.0编程语言和CUDA 10.0深度学习架构实现,操作系统为Windows 10,处理器为AMD R5-2600 3.4GHZ,GPU为NVIDIA RTX2070,内存16GB。
模型离线训练于ILSVRC2015-VID目标检测标记数据集(http://bvisionweb1.cs.unc.edu/ilsvrc2015/ILSVRC2015_VID.tar.gz)上,每间隔10帧时更新模型参数;首帧模型更新训练迭代50次,学习率为0.0005;非首帧更新迭代15次,学习率为0.001;损失函数中的超参数a、c分别设置为10、0.2,收缩比δ取1.3。
2.仿真内容及结果分析
为了验证实施例1(LT-MDNet)的有效性,在OTB2015和UAV20L公开数据集上进行对比实验,对比算法有MDNet(Nam H,Han B.Learning multi-domain convolutional neuralnetworks for visual tracking[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition.2016:4293-4302.),DSLT(Lu X,Ma C,Ni B,et al.Deep regression tracking with shrinkage loss[C]//Proceedings of theEuropean Conference on Computer Vision(ECCV).2018:353-369.),SRDCF(DanelljanM,Hager G,Shahbaz Khan F,et al.Learning spatially regularized correlationfilters for visual tracking[C]//Proceedings of the IEEE internationalconference on computer vision.2015:4310-4318.),TADT(Li X,Ma C,Wu B,etal.Target-aware deep tracking[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2019:1369-1378.),SiamRPN(Li B,Yan J,Wu W,et al.High performance visual tracking with siamese region proposalnetwork[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2018:8971-8980.),MUSTer(Hong Z,Chen Z,Wang C,et al.Multi-storetracker(muster):A cognitive psychology inspired approach to object tracking[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2015:749-758.)和BACF(Kiani Galoogahi H,Fagg A,Lucey S.Learningbackground-aware correlation filters for visual tracking[C]//Proceedings ofthe IEEE International Conference on Computer Vision.2017:1135-1143.)等目前常用的显著性检测算法。对比过程采用定性分析和定量分析,定性分析直接通过跟踪结果图的视觉对比观察结果的优劣;定量分析则通过计算评价指标判断算法的性能。实验中采用的指标有跟踪精度(Precision)和跟踪成功率(Success Rate)。
图3中(a)~(b)为LT-MDNet和对比跟踪算法在OTB2015标准数据集上综合精度和跟踪成功率对比图;图4(a)~(b)、图5(a)~(b)分别为各跟踪器在OTB2015上关于目标遮挡、目标出视野的平均跟踪精度和跟踪成功率对比图。可见,除了综合性能的领先,LT-MDNet在应对目标遮挡、出视野等复杂因素同样保持了良好的跟踪能力和稳定性。
图6中(a)、(b)分别为各跟踪器在UAV20L长时数据集的综合精度和跟踪成功率对比图,可以看出LT-MDNet在长时跟踪数据集上性能大幅领先,较最优对比模型的精度和成功率分别提升3.7%、2.9%,说明在该数据集上本发明的综合性能明显提升。
表1是LT-MDNet在UAV20L数据集上与对比跟踪算法在10个视频属性:快速运动(FM)、相似目标干扰(SO)、光照变化(IV)、背景杂乱(BC)、视角变化(VC)、尺度变化(SV)、低分辨率(LR)、部分遮挡(PO)、全部遮挡(FO)和目标出视野(OV)上跟踪成功率的定量对比结果,表中加粗字体为每行最优值,斜体为每行次优值,可以看出,LT-MDNet在上述10个视频属性中均保持了最优或次优性能,证明实施例1的方法能够较好应对长时跟踪时的复杂环境变化。
表1 UAV20L数据集上对比算法与实施例1的LT-MDNet在10个视频属性上跟踪成功率的定量对比结果
图7对小型飞机这种快速移动的小目标进行跟踪,在第1088帧(图7(a)),飞机平稳飞行,此时只有LT-MDNet和MDNet可以锁定目标位置;而在第1529帧(图7(b))和之后的帧序列里,由于飞机航向、目标背景和航拍角度均剧烈变化,除LT-MDNet能由于模型有效更新操作精确锁定目标位置外,其余跟踪器均跟踪失败。
图8中目标行人在第594帧(图8(a))和第1415帧(图8(b))被树叶遮挡,此时LT-MDNet较其他对比跟踪器更能精确捕捉目标轮廓信息,并在随后持续稳定跟踪;SRDCF、MDNet和SiamRPN均在目标重现后失去了跟踪能力。
图9中穿着深色衣服的骑行小男孩在第2375帧(图9(b))掉转车头,目标外观由男孩正面变成背影,而随后航拍镜头加速向前,目标迅速被甩在后面,其在图像帧中轮廓尺度也剧烈变化。此时,LT-MDNet仍可准确定位目标位置,并保持对目标横纵比信息的有效估计,而其余跟踪器均难以检测目标的准确轮廓,TADT则彻底跟踪失败。
通过以上分析可以看出,LT-MDNet能够在长时跟踪下很好地应对这些复杂因素,在目标被遮挡后重现时仍能迅速定位目标;对快速位移、剧烈形变下的目标,在经过模型更新后可以维持鲁棒跟踪并且较对比算法更能精确捕捉目标的轮廓信息。本发明能够定位运动目标位置轮廓并通过可靠的在线更新机制适应目标和跟踪环境的变化。跟踪的准确性优于所有对比算法,能在复杂环境下完成长时目标跟踪任务,综合性能明显提高。
虽然本发明已以较佳实施例公开如上,但其并非用以限定本发明,任何熟悉此技术的人,在不脱离本发明的精神和范围内,都可做各种的改动与修饰,因此本发明的保护范围应该以权利要求书所界定的为准。
Claims (10)
1.一种基于深度检测的长时目标跟踪方法,其特征在于,包括以下步骤:
(1)在ILSVRC2015-VID目标检测标记数据集上训练MDNet骨干网络的三个卷积层conv1、conv2、conv3和两个全连接层fc4、fc5的权值参数;
(2)设置MDNet骨干网络最后一层fc6为特定域层,是二分类全连接层,输出样本的正负置信度,参数在每一个离线训练视频帧序列或在线跟踪视频帧序列开始时均随机初始化,得到预训练网络模型;
(3)输入新的待跟踪视频序列,获取目标第一帧,设置t=1,人工确定目标中心位置(x1,y1)与边界框长宽(h1,w1),其中x1为目标中心位置横坐标,y1为目标中心位置纵坐标,h1为边界框高度,w1为边界框宽度;
(4)随机初始化预训练网络模型fc6层的参数;
(5)在第1帧的目标中心位置附近采样出500个不同尺度大小的正样本和5000个负样本,采样时保持正样本与目标边界框重叠比大于0.7,负样本小于0.5,将正样本加入高置信度保留样本池Spool中;
(6)在第1帧的目标中心位置附近采样出1000个与目标边界框重叠比大于0.6的正样本,利用这些正样本训练一个边框回归器BBR,用于修正预训练网络模型对目标中心坐标和长宽数值的预测值;
(7)固定卷积层conv1、conv2、conv3的参数,利用(5)采样的样本迭代训练预训练网络模型50次,更新fc4-fc6的参数;
(8)对于第t帧图像Nt,在Nt-1帧目标周围高斯采样候选样本集合Xt,取Xt中5个最高目标置信度候选的边界框均值作为预估目标位置,通过边框回归器BBR调整后的值设置为St,St为第t帧目标估计位置;
若St目标置信度大于0,则将St添加进高置信度保留样本池Spool中,当Spool池满时替换最低置信度的非首帧保留样本;
若St目标置信度不大于0或跟踪间隔10帧,则利用高置信度保留样本池Spool和在当前帧采样的200个与目标边界框重叠比小于0.3的负样本对预训练网络模型进行迭代训练,参照(7)更新fc4-fc6的参数;
(9)重复步骤(8),直至当前序列所有帧跟踪结束。
2.根据权利要求1所述的方法,其特征在于,(5)所述的不同尺度大小的正样本和负样本的采样方式具体为:采样的正样本中心坐标随机在原目标中心偏移长宽均值的十分之一范围内选取,长宽尺度放缩倍数为1.3-1~1.3之间的随机值;负样本的采样按照局部和全局两种方式各采样2500个,局部采样的负样本中心坐标随机在原目标中心偏移长宽均值的范围内选取,长宽尺度放缩倍数为1.6-1~1.6之间的随机值,全局采样则随机在整幅图选取与目标框尺寸相同的候选框。
3.根据权利要求1所述的方法,其特征在于,(7)所述的迭代训练具体为:
每次迭代时取256个负样本和32个正样本,通过难分负样本挖掘技术筛选其中目标置信度最高的96个负样本用于训练,训练时采用随机梯度下降SGD优化策略和损失函数LS(p,y),其中:y为样本类别标签,p为样本对y=1的正样本的置信度。
4.根据权利要求3所述的方法,其特征在于,(7)所述的y∈{0,1}。
5.根据权利要求3所述的方法,其特征在于,(7)所述的p∈[0,1]。
6.根据权利要求3所述的方法,其特征在于,(7)所述的LS(p,y)为:
LS(p,y)=-(y·log(p)+(1-y)·log(1-p))+δ·S(p),
式中的δ为控制损失收缩比。
8.权利要求1所述的方法在人机交互中的应用。
9.权利要求1所述的方法在视频监控中的应用。
10.权利要求1所述的方法在自动驾驶或机器人中的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010051443.9A CN111274917B (zh) | 2020-01-17 | 2020-01-17 | 一种基于深度检测的长时目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010051443.9A CN111274917B (zh) | 2020-01-17 | 2020-01-17 | 一种基于深度检测的长时目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111274917A true CN111274917A (zh) | 2020-06-12 |
CN111274917B CN111274917B (zh) | 2023-07-18 |
Family
ID=71003516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010051443.9A Active CN111274917B (zh) | 2020-01-17 | 2020-01-17 | 一种基于深度检测的长时目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111274917B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112164094A (zh) * | 2020-09-22 | 2021-01-01 | 江南大学 | 一种基于孪生网络的快速视频目标跟踪方法 |
CN112651995A (zh) * | 2020-12-21 | 2021-04-13 | 江南大学 | 基于多功能聚合和跟踪模拟训练的在线多目标跟踪方法 |
CN113379799A (zh) * | 2021-06-03 | 2021-09-10 | 武汉大学 | 基于轮廓估计的无锚框目标跟踪方法 |
CN113379794A (zh) * | 2021-05-19 | 2021-09-10 | 重庆邮电大学 | 基于注意力-关键点预测模型的单目标跟踪系统及方法 |
CN116587327A (zh) * | 2023-06-20 | 2023-08-15 | 广东电网有限责任公司广州供电局 | 运动控制系统、带电作业机器人检测方法及相关设备 |
CN117911680A (zh) * | 2024-03-19 | 2024-04-19 | 魔视智能科技(武汉)有限公司 | 目标跟踪方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709936A (zh) * | 2016-12-14 | 2017-05-24 | 北京工业大学 | 一种基于卷积神经网络的单目标跟踪方法 |
CN107622507A (zh) * | 2017-08-09 | 2018-01-23 | 中北大学 | 一种基于深度学习的空中目标跟踪方法 |
CN109801310A (zh) * | 2018-11-23 | 2019-05-24 | 南京信息工程大学 | 一种方位和尺度判别深度网络的目标跟踪方法 |
CN110084831A (zh) * | 2019-04-23 | 2019-08-02 | 江南大学 | 基于YOLOv3多伯努利视频多目标检测跟踪方法 |
CN110135365A (zh) * | 2019-05-20 | 2019-08-16 | 厦门大学 | 基于幻觉对抗网络的鲁棒目标跟踪方法 |
-
2020
- 2020-01-17 CN CN202010051443.9A patent/CN111274917B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709936A (zh) * | 2016-12-14 | 2017-05-24 | 北京工业大学 | 一种基于卷积神经网络的单目标跟踪方法 |
CN107622507A (zh) * | 2017-08-09 | 2018-01-23 | 中北大学 | 一种基于深度学习的空中目标跟踪方法 |
CN109801310A (zh) * | 2018-11-23 | 2019-05-24 | 南京信息工程大学 | 一种方位和尺度判别深度网络的目标跟踪方法 |
CN110084831A (zh) * | 2019-04-23 | 2019-08-02 | 江南大学 | 基于YOLOv3多伯努利视频多目标检测跟踪方法 |
CN110135365A (zh) * | 2019-05-20 | 2019-08-16 | 厦门大学 | 基于幻觉对抗网络的鲁棒目标跟踪方法 |
Non-Patent Citations (1)
Title |
---|
邵江南: "一种基于深度学习目标检测的长时目标跟踪算法" * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112164094A (zh) * | 2020-09-22 | 2021-01-01 | 江南大学 | 一种基于孪生网络的快速视频目标跟踪方法 |
CN112651995A (zh) * | 2020-12-21 | 2021-04-13 | 江南大学 | 基于多功能聚合和跟踪模拟训练的在线多目标跟踪方法 |
CN112651995B (zh) * | 2020-12-21 | 2024-05-03 | 江南大学 | 基于多功能聚合和跟踪模拟训练的在线多目标跟踪方法 |
CN113379794A (zh) * | 2021-05-19 | 2021-09-10 | 重庆邮电大学 | 基于注意力-关键点预测模型的单目标跟踪系统及方法 |
CN113379794B (zh) * | 2021-05-19 | 2023-07-25 | 重庆邮电大学 | 基于注意力-关键点预测模型的单目标跟踪系统及方法 |
CN113379799A (zh) * | 2021-06-03 | 2021-09-10 | 武汉大学 | 基于轮廓估计的无锚框目标跟踪方法 |
CN113379799B (zh) * | 2021-06-03 | 2022-06-07 | 武汉大学 | 基于轮廓估计的无锚框目标跟踪方法 |
CN116587327A (zh) * | 2023-06-20 | 2023-08-15 | 广东电网有限责任公司广州供电局 | 运动控制系统、带电作业机器人检测方法及相关设备 |
CN117911680A (zh) * | 2024-03-19 | 2024-04-19 | 魔视智能科技(武汉)有限公司 | 目标跟踪方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111274917B (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111274917B (zh) | 一种基于深度检测的长时目标跟踪方法 | |
CN110232350B (zh) | 一种基于在线学习的实时水面多运动目标检测跟踪方法 | |
CN110660082B (zh) | 一种基于图卷积与轨迹卷积网络学习的目标跟踪方法 | |
WO2020215492A1 (zh) | 基于YOLOv3多伯努利视频多目标检测跟踪方法 | |
CN109146921B (zh) | 一种基于深度学习的行人目标跟踪方法 | |
CN111292355B (zh) | 一种融合运动信息的核相关滤波多目标跟踪方法 | |
CN107122736B (zh) | 一种基于深度学习的人体朝向预测方法及装置 | |
CN113326731B (zh) | 一种基于动量网络指导的跨域行人重识别方法 | |
CN110490907B (zh) | 基于多目标特征和改进相关滤波器的运动目标跟踪方法 | |
CN111476817A (zh) | 一种基于yolov3的多目标行人检测跟踪方法 | |
CN111192294B (zh) | 一种基于目标检测的目标跟踪方法及系统 | |
CN112085765B (zh) | 结合粒子滤波及度量学习的视频目标跟踪方法 | |
CN109993770B (zh) | 一种自适应时空学习与状态识别的目标跟踪方法 | |
CN107622507B (zh) | 一种基于深度学习的空中目标跟踪方法 | |
CN110688940A (zh) | 一种快速的基于人脸检测的人脸追踪方法 | |
CN107844739B (zh) | 基于自适应同时稀疏表示的鲁棒性目标追踪方法 | |
CN110728694A (zh) | 一种基于持续学习的长时视觉目标跟踪方法 | |
CN106780567B (zh) | 一种融合颜色和梯度直方图的免疫粒子滤波扩展目标跟踪方法 | |
CN108846850B (zh) | 一种基于tld算法的目标跟踪方法 | |
CN117036397A (zh) | 一种基于融合信息关联和相机运动补偿的多目标跟踪方法 | |
CN115909110A (zh) | 一种基于Siamese网络的轻量级红外无人机目标跟踪方法 | |
Jung et al. | Sequential Monte Carlo filtering with long short-term memory prediction | |
CN114332444A (zh) | 一种基于增量漂移聚类的复杂星空背景目标识别方法 | |
CN111915647B (zh) | 一种对象标签引导的自适应视频目标跟踪方法 | |
CN115953570A (zh) | 结合模板更新与轨迹预测的孪生网络目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |