CN110189362B

CN110189362B - 基于多分支自编码对抗网络的高效目标跟踪方法

Info

Publication number: CN110189362B
Application number: CN201910452361.2A
Authority: CN
Inventors: 王菡子; 吴强强; 刘祎
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2020-12-25
Anticipated expiration: 2039-05-28
Also published as: CN110189362A

Abstract

基于多分支自编码对抗网络的高效目标跟踪方法。在有标记的离线目标跟踪数据集中收集大量目标模板和包含有目标的搜索区域样本对；使用均方误差损失，通过全监督的方式对所提出的目标概率生成器进行初步训练；引入判别器，加入对抗训练的方式共同优化目标概率生成器和判别器；给定测试视频中的第一帧，采样其标注的目标区域作为初始目标模板；给定测试帧，以当前目标长宽的N倍大小的窗口进行随机的位移来得到搜索区域；将搜索区域和目标模板输入目标概率生成器，输出得到目标概率图，选取目标概率图中最大值点的位置作为目标中心；根据目标概率图分布估计目标在当前帧的尺度；根据当前帧估计的目标区域进行目标模板更新。

Description

基于多分支自编码对抗网络的高效目标跟踪方法

技术领域

本发明涉及计算机视觉技术，尤其是涉及基于多分支自编码对抗网络的高效目标跟踪方法。

背景技术

目标跟踪是计算机视觉领域的一项基础性研究，在当前许多实时性要求较高的领域，如车辆自动驾驶、无人机导航等领域，目标跟踪均在其中扮演了极其重要的角色。因此，如何设计鲁棒的实时目标跟踪方法应用于实际中的不同任务具有十分重要的意义。

在近几年中，深度卷积神经网络在计算机视觉领域的各个应用(如目标检测、实例分割等)中均取得了巨大的成功。其很大程度上可以归因于大量有标记数据集的提出。深度卷积神经网络可以从有标记的数据集中学习到更好的特征表达，从而取得远比传统方法更好的性能表现。深度神经网络在不同计算机视觉上的成功应用极大启发了目标跟踪领域的研究者，近几年，大量基于深度卷积神经网络的目标跟踪方法被提出，其主要可以分为两大类：

(1)基于端到端训练的深度卷积神经网络目标跟踪方法；

(2)基于深度特征的深度相关滤波方法。

基于端到端训练的深度卷积神经网络目标跟踪方法主要着重于设计有效的端到端训练的目标跟踪网络，而基于深度特征的深度相关滤波方法主要研究深度卷积特征在相关滤波跟踪框架中的有效应用。

当前研究者们主要研究基于判别式模型的目标跟踪方法，如上述的基于深度卷积神经网络的目标跟踪方法。基于判别式模型的目标跟踪方法通常将目标跟踪任务看作是一个二分类问题，使用训练得到的二分类模型对前景和背景进行区分。然而，由于复杂的模型在线优化过程，使得此类方法难以达到现实应用中对目标跟踪方法实时性的要求，因此难以在现实应用中使用。例如基于二分类深度模型的MDNet方法，由于其复杂的在线优化过程，MDNet方法的运行速度仅有约1FPS，这一速度远远未达到工业界应用的实时需求(大于25FPS)。在近几年，生成式对抗网络被成功运用于各个计算机视觉任务，如目标检测、行人再识别等任务。然而在目标跟踪领域，生成式对抗网络的应用仍然较为的受限，其主要原因为在目标跟踪任务中，跟踪算法往往仅能获取较为有效的目标在线样本，有限的在线样本极大地限制了生成式对抗网络的在线学习，使其无法完全收敛。同时，在线学习会极大地影响跟踪算法的跟踪速度。

发明内容

本发明的目的在于提供一种基于多分支自编码对抗网络的高效目标跟踪方法。

本发明包括以下步骤：

1)在有标记的离线目标跟踪数据集中收集大量目标模板和包含有目标的搜索区域样本对；

在步骤1)中，所述在有标记的离线目标跟踪数据集中收集大量目标模板和包含有目标的搜索区域样本对的具体方法可为：在有标注的离线目标跟踪数据集中，选取任意视频序列a，在a中，首先选取第t帧中的目标作为目标模板，然后将第t帧作为起始帧，在后50帧内随机选取一帧得到目标搜索区域样本；通过上述方式，收集了大量的目标模板和目标搜索区域样本对；所述有标记的离线目标跟踪数据集可为ILSVRC-VID(O.Russakovsky,J.Deng and H.Su,“Imagenet large scale visual recognition challenge,”inInt.J.Comput.Vis.,vol.115,no.3,pp.211–252,2015.)视频目标检测数据集。

2)使用均方误差损失，通过全监督的方式对所提出的目标概率生成器进行初步训练，具体方法如下：

L(r_m,n,G_z,s)＝||r_m,n-G_z,s||₂

其中，G_z,s为目标概率生成器所输出的目标概率分布图，r_m,n则表示标签目标概率分布，

其中，x,y∈{1,...,128}，H和W分别表示目标的高和宽；z和s分别表示目标模板和目标搜索区域，m和n为目标样本在搜索区域s中的中心位置坐标；σ设置为4×10^-1。

3)引入判别器，加入对抗训练的方式共同优化目标概率生成器和判别器，使得目标概率生成器学习到更具有判别力的特征，具体过程如下：

其中，D为判别器，λ为平衡对抗损失和均方损失的超参数。

在步骤3)中，所述λ可为10^-4。

4)给定测试视频中的第一帧，采样其标注的目标区域作为初始目标模板；

在步骤4)中，所述给定测试视频中的第一帧，采样其标注的目标区域作为初始目标模板的具体方法可为：根据测试视频中第一帧中标记的目标区域，采样得到目标模板，并采用双线性插值将目标模板大小调整为255×255×3。

5)给定测试帧，以当前目标长宽的N倍大小的窗口进行随机的位移来得到搜索区域；

在步骤5)中，所述N可为2.5。

6)将搜索区域和目标模板输入目标概率生成器，输出得到目标概率图，选取目标概率图中最大值点的位置作为目标中心，确定目标中心过程如下：

其中，G_z,s(x,y)表示生成的目标概率图在(x,y)位置处的值；

7)根据目标概率图分布估计目标在当前帧的尺度，尺度估计过程描述如下：首先令K表示尺度的数量，对于

评估其对应的目标尺度，其中，高为e^kH_t-1，宽为e^kW_t-1，e为尺度因子，其过程如下：

其中，

最终，目标在当前第t帧中的尺度估计为：

在步骤7)中，所述K可为33，e可为1.02；η可为2.5×10^-1。

8)根据当前帧估计的目标区域进行目标模板更新。

在步骤8)中，所述根据当前帧估计的目标区域进行目标模板更新的具体方法可为：令

为(t-1)帧的目标模板，使用学习率w来更新得到第t帧的目标模板：

其中，w可为5×10^-3。

与现有技术相比，本发明将目标跟踪任务定义为一个目标概率生成问题，首先提出了一个轻量级的基于神经网络的目标概率生成器，其能有效估计目标在搜索区域的概率分布。为了有效训练目标概率生成器，首先对其使用均方损失进行训练，然后，引入对抗损失对其进一步训练，使其能生成更为准确的目标概率分布图。

基于训练得到的目标概率生成器，本发明提出了一种新的基于多分支自编码对抗网络的高效目标跟踪方法。在在线跟踪过程中，根据给定的搜索区域和目标模板，所提出的基于多分支自编码对抗网络的目标跟踪方法可以准确的预测目标在搜索区域中的目标概率分布，通过查找响应值最高的点来确定目标的中心坐标。此外，根据预测的目标概率分布，所提跟踪方法能通过多尺度估计方法来有效估计目标在当前帧的尺度。最后，为了适应目标在线的表观变化，所提跟踪方法对目标模板进行进一步学习更新。本发明所提出的跟踪方法的运行速度要比传统基于判别式模型的深度卷积神经网络目标跟踪算法的运行速度要快得多，本章所提的跟踪算法在单GPU平台上能达到123.6FPS，大约分别为主流的基于分类的深度跟踪方法MDNet和SANet速度的117和1165倍。本发明所提出的跟踪方法的速度优势主要来源于：

(1)本发明中使用的骨架网络具有更少的网络参数。

(2)无需耗时的模型在线优化操作。

(3)仅需单次前项计算即可得到目标位置和尺度。

附图说明

图1为本发明所提出的目标概率生成器结构及其生成目标概率图。

具体实施方式

下面结合附图和实施例对本发明的方法作详细说明。

参见图1，本发明实施例包括以下步骤：

1)在有标记的离线目标跟踪数据集中收集大量目标模板和包含有目标的搜索区域样本对，具体方法为：在有标注的离线目标跟踪数据集中，选取任意视频序列a，在a中，首先选取第t帧中的目标作为目标模板，然后将第t帧作为起始帧，在后50帧内随机选取一帧得到目标搜索区域样本；通过上述方式，收集了大量的目标模板和目标搜索区域样本对；所述有标记的离线目标跟踪数据集可为ILSVRC-VID(O.Russakovsky,J.Deng and H.Su,“Imagenet large scale visual recognition challenge,”in Int.J.Comput.Vis.,vol.115,no.3,pp.211–252,2015.)视频目标检测数据集。

L(r_m,n,G_z,s)＝||r_m,n-G_z,s||₂

其中，D为判别器，λ为平衡对抗损失和均方损失的超参数，λ为10^-4。

4)给定测试视频中的第一帧，采样其标注的目标区域作为初始目标模板，具体方法为：根据测试视频中第一帧中标记的目标区域，采样得到目标模板，并采用双线性插值将目标模板大小调整为255×255×3。

5)给定测试帧，以当前目标长宽的N倍大小的窗口进行随机的位移来得到搜索区域；所述N为2.5。

其中，G_z,s(x,y)表示生成的目标概率图在(x,y)位置处的值；

其中，

最终，目标在当前第t帧中的尺度估计为：

其中，K为33，e为1.02；η为2.5×10^-1。

8)根据当前帧估计的目标区域进行目标模板更新，具体方法为：令

其中，w可为5×10^-3。

表1为本发明与其他10个目标跟踪方法在OTB-2013数据集上所取得的精度和速度对比。从表1中可以看到，本发明不仅能达到远超实时的跟踪速度，而且能取得较为优异的跟踪精度。

表1

方法	精度(％)	速度(FPS)
			本发明	75.4	123.6
SCM	59.7	0.5
			ASLA	53.2	8.5
VTD	57.6	5.7
			VTS	57.5	5.7
LSK	50.5	5.5
			GOTURN	62.0	165.0
DSST	74.0	28.3
			Re3	46.0	113.7
KCF	74.1	172.0
			TLD	60.8	28.1

在表1中：SCM对应为W.Zhong等人提出的方法(W.Zhong,H.Lu,and M.-H.Yang,“Robust Object Tracking via Sparse Collaborative Appearance Model,”in IEEETrans.Image Process.,vol.23,no.5,2014,pp.2356-2368.)

ASLA对应为X.Jia等人提出的方法(X.Jia,H.Hone and M.-H.Yang,“VisualTracking via Adaptive Structural Local Sparse Appearance Model,”in Proc.IEEEConf.Comput.Vis.Pattern Recognit.,2012,pp.1822-1829.)

VTD对应为J.Kwon等人提出的方法(J.Kwon and K.M.Lee,“Visual TrackingDecomposition,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.,2010,pp.1269-1276.)

VTS对应为J.Kwon等人提出的方法(J.Kwon and K.M.Lee,“Tracking bySampling Trackers,”in Proc.IEEE Int.Conf.Comput.Vis.,2011,pp.1195-1202.)

LSK对应为B.Liu等人提出的方法(B.Liu,J.Huang,L.Yang and C.Kulikowsk,“Visual Tracking Using Local Sparse Appearance Model and K-Selection,”inProc.IEEE Conf.Comput.Vis.Pattern Recognit.,2011,pp.1313-1320.)

GOTURN对应为D.Held等人提出的方法(D.Held,S.Thrun and S.Savaresei,“Learning to Track at 100fps with Deep Regression Networks,”inProc.Eur.Cofnf.Comput.Vis.,2016,pp.749-765.)

Re3对应为D.Gorden等人提出的方法(D.Gorden,A.Farhadi and D.Fox,“Re3:Real-time Recurrent Regression Networks for Object Tracking,”in IEEE Robo.AndAuto.Lett.,vol.3,no.2,2017,pp.749-765.)

KCF对应为J.F.Henriques等人提出的方法(J.F.Henriques,R.Caseiro,P.Martins and J.Batista,“High-speed Tracking with Kernelized CorrelationFilters,”in IEEE Trans.Pattern Anal.Mach.Intell.,vol.37,no.3,2015,pp.783-596.)

DSST对应为M.Danelljan等人提出的方法(M.Danelljan,G.Hager,F.S.Khan andM.Felsberg,“Discriminative Scale Spece Tracking,”in IEEE Trans.PatternAnal.Mach.Intell.,vol.39,no.8,2017,pp.1561-1575.)

TLD对应为Z.Kalal等人提出的方法(Z.Kalal,K.Mikolajczyk and J.Matas,“Tracking-learning-detection,”in IEEE Trans.Pattern Anal.Mach.Intell.,vol.34,no.7,2012,pp.1409-1422)。

Claims

1.基于多分支自编码对抗网络的高效目标跟踪方法，其特征在于包括以下步骤：

L(r_m,n,G_z,s)＝||r_m,n-G_z,s||₂

其中，x,y∈{1,...,128}，H和W分别表示目标的高和宽；z和s分别表示目标模板和目标搜索区域，m和n为目标样本在搜索区域s中的中心位置坐标；σ设置为4×10^-1；

其中，D为判别器，λ为平衡对抗损失和均方损失的超参数；

其中，G_z,s(x,y)表示生成的目标概率图在(x,y)位置处的值；

其中，

最终，目标在当前第t帧中的尺度估计为：

8)根据当前帧估计的目标区域进行目标模板更新。

2.如权利要求1所述基于多分支自编码对抗网络的高效目标跟踪方法，其特征在于在步骤1)中，所述在有标记的离线目标跟踪数据集中收集大量目标模板和包含有目标的搜索区域样本对的具体方法为：在有标注的离线目标跟踪数据集中，选取任意视频序列a，在a中，首先选取第t帧中的目标作为目标模板，然后将第t帧作为起始帧，在后50帧内随机选取一帧得到目标搜索区域样本；通过上述方式，收集大量的目标模板和目标搜索区域样本对；所述有标记的离线目标跟踪数据集为ILSVRC-VID视频目标检测数据集。

3.如权利要求1所述基于多分支自编码对抗网络的高效目标跟踪方法，其特征在于在步骤3)中，所述λ为10^-4。

4.如权利要求1所述基于多分支自编码对抗网络的高效目标跟踪方法，其特征在于在步骤4)中，所述给定测试视频中的第一帧，采样其标注的目标区域作为初始目标模板的具体方法为：根据测试视频中第一帧中标记的目标区域，采样得到目标模板，并采用双线性插值将目标模板大小调整为255×255×3。

5.如权利要求1所述基于多分支自编码对抗网络的高效目标跟踪方法，其特征在于在步骤5)中，所述N为2.5。

6.如权利要求1所述基于多分支自编码对抗网络的高效目标跟踪方法，其特征在于在步骤7)中，所述K为33，e为1.02；η为2.5×10^-1。

7.如权利要求1所述基于多分支自编码对抗网络的高效目标跟踪方法，其特征在于在步骤8)中，所述根据当前帧估计的目标区域进行目标模板更新的具体方法为：令

其中，w为5×10^-3。