CN108898620A

CN108898620A - 基于多重孪生神经网络与区域神经网络的目标跟踪方法

Info

Publication number: CN108898620A
Application number: CN201810619827.9A
Authority: CN
Inventors: 王菡子; 刘祎; 严严
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2018-06-14
Filing date: 2018-06-14
Publication date: 2018-11-27
Anticipated expiration: 2038-06-14
Also published as: CN108898620B

Abstract

基于多重孪生神经网络与区域神经网络的目标跟踪方法，涉及计算机视觉技术。通过使用预训练的多重孪生神经网络，将目标跟踪问题转化为可更新的实例检索问题。同时采用预训练的区域神经网络，以解决目标丢失后的重检测问题。首先在大型视觉识别数据库上训练多重孪生神经网络对目标进行实例检索，然后在目标跟踪过程中运用预训练的区域神经网络对丢失目标进行重新检测，进一步辅助获取最终目标的位置，实现实时的目标跟踪。首先在大型视觉识别数据库上训练多重孪生神经网络对目标进行实例检索，然后在目标跟踪过程中运用预训练的区域神经网络对丢失目标进行重新检测，进一步辅助获取最终目标的位置，实现实时的目标跟踪的。

Description

基于多重孪生神经网络与区域神经网络的目标跟踪方法

技术领域

本发明涉及计算机视觉技术，尤其是涉及基于多重孪生神经网络与区域神经网络的目标跟踪方法。

背景技术

人类感知世界一个重要来源就通过图像信息，研究表明人类获取外界信息中大约有80％～90％的信息来自于人类眼睛获取的图像信息。目标跟踪是图像信息理解中的一个常见视觉任务。目标跟踪在实际生活中有着丰富的应用，比如可以在用户提供的视频序列中对感兴趣的目标进行实时的跟踪；会议或会场管理人员可以利用来自动化的目标跟踪系统分析会场人员的行动模式从而做出更好的决策。因此，运用计算机视觉实现自动目标跟踪具有重要的现实意义。

目标跟踪是计算机视觉研究领域的热点之一，过去几十年以来，目标跟踪的研究取得了长足的发展。从经典的均值漂移(Meanshift)、粒子滤波(Particle Filter)跟踪算法，到基于检测(Tracking By Detection)的跟踪算法及相关滤波(Correlation Filter)的跟踪算法，再到最近基于深度学习(Deep Learning)的跟踪算法。最近主要取得的研究进展主要是基于相关滤波的跟踪算法以及基于深度学习的跟踪算法。相关滤波的跟踪算法的雏形于2012年提出，利用傅立叶变换快速实现学习和检测。学习检测过程高效，证明过程完备。利用快速傅立叶变换，CSK方法的跟踪帧率能达到几百帧。随后，提出了基于HOG特征的KCF方法，提出了循环矩阵的求解，解决了密集采样(Dense Sampling)的问题，是现存最典型的相关滤波类方法。后续还有考虑多尺度或颜色特征(Color Naming)的方法以及用深度学习提取的特征结合KCF的方法。从它的发展过程来看，考虑的尺度越来越多，特征信息也更加丰富，计算复杂度越来越高，但总体上说，相关滤波系列的跟踪方法在实时性上优势明显，采用哪种改进版本的方法视具体的应用而定。相关滤波的方法也有一些缺陷，比如目标的快速移动，形状变化大导致更多背景被学习进来等都会对CF系列方法造成影响。基于深度学习的目标跟踪算法，最初是把CNN学习到的特征，应用于相关滤波或Struck的跟踪框架，从而得到更好的跟踪结果。通过卷积网络提取的特征，更优于HOG或CN特征，但同时计算复杂度增加。CNN网络不同层的卷积输出都可以作为跟踪的特征，对于如何有效地利用深度学习的特征，M.Danelljan也做了大量的工作，提出对背景进行正则化处理的SRDCF。另一种基于深度学习的跟踪算法是通过搭建一个CNN网络结构，选择样本进行离线训练，在线微调网络实现目标跟踪，这类方法主要有MDNET、SANET。这两类方法的跟踪性能都有较大的提升，但由于保欢乐大量的参数都很难达到实时地跟踪效果。

发明内容

本发明的目的在于提供可通过使用预训练的多重孪生神经网络，将目标跟踪问题转化为可更新的实例检索问题，同时采用了预训练的区域神经网络，以解决目标丢失后的重检测问题的基于多重孪生神经网络与区域神经网络的目标跟踪方法。

本发明包括以下步骤：

1)给定一段视频序列，其中第一帧包含已标记的目标，定义原始输入图像帧的尺寸、目标的原始尺寸C_o以及目标的搜索范围C_s；其中，代表一个矩形区域；目标的原始尺寸C_o和目标的搜索范围C_s将作为多重孪生神经网络的输入，用于进行基于实例检索的目标跟踪，原始输入图像帧的尺寸C_f，将作为区域神经网络的输入，用于进行实现丢失目标的重检测；

2)基于步骤1)中定义的图像帧的尺寸C_f、目标的原始尺寸C_o以及目标的搜索范围C_s，多重孪生神经网络有三个输入，分别为第一帧目标、当前面目标模板和当前帧搜索范围，分别将第一帧目标以及面目标模板输入尺寸定义为C_o，当前帧搜索范围输入尺寸定义为C_s；

所述多重孪生神经网络使用视觉识别数据集ILSVRC_DET进行预训练，ILSVRC_DET数据集包含45万张图片，总共拥有30个类别，该数据集中的45万张图片被标记有类别信息与目标位置，多重孪生神经网络用于目标检索，第一个卷积层拥有96个11×11×3的卷积核，并输出96个原始图像的特征图，之后采用修正线性单元激活函数以及最大池化层，并在最后一层使用互相关层的，所述多重孪生神经网络采用实例检索的方法进行目标跟踪并采用全卷积结构和多分支并行结构，因此，用多重孪生神经网络进行目标跟踪比起一般的基于神经网络的目标跟踪方法有更好地实时性和分辨度，训练过程中采用的损失函数l为：

l(y,v)＝log(1+exp(-yv)) (1)

其中，y被称为目标标注，每一帧对应了一个目标标注，采用目标分割的方法进行目标标注，v代表一对样本之间的相似分数；

3)把步骤1)中定义的原始输入图像帧的尺寸C_f用于定义区域神经网络的输入尺寸，区域神经网络有且仅有一个输入并在仅在目标丢失的情况下使用，区域神经网络使用视觉识别数据集ILSVRC中常见得20个目标种类进行预训练，用于对丢失的目标进行重检测；

4)将视频序列第一帧与目标分别输入多重孪生神经网络，获取候选目标C_j；

5)对步骤4)中得到的候选目标进行互相关操作，同时判断多重孪生神经网络是否丢失目标，当所用的搜索帧与候选目标之间的差距过大时，判断为目标丢失；

6)根据步骤5)中得到的结果进行选择，若目标丢失，则通过区域神经网络进行重检测重新获取目标；若目标并未丢失，则直接通过计算获取最佳候选目标，实现目标跟踪。

在步骤2)中，所述多重孪生神经网络及其输入尺寸可包括以下子步骤：

(1)当目标图像不为C_o时，对应的图像将缩放或扩大为C_o。

(2)原始图像不可过小；

(3)发明所设计的深度神经网络中的最大池化层使用3*3的区域；

(4)发明所设计的深度神经网络总共拥有五个卷积层与两个池化层以及一个互相关层。

在步骤3)中，所述区域神经网络可包括以下子步骤：

(1)所设计的区域神经网络能够重检测常用的20类目标；

(2)所设计的区域神经网络在需要的时候可以重新训练从而实现更多目标的重检测。

在步骤4)中，所述将视频序列第一帧与目标分别输入多重孪生神经网络，获取候选目标C_j的具体方法可为：将步骤2)中多重孪生神经网络应用于实例检索，同时将产生的分数图转化到实数域产生新的独立损失函数L，来输出候选结果C_j(1≤j≤2)：

其中，u为分数图在实数域D中的结果，每一个目标标注y对应一个实数域结果。

在步骤5)中，所述互相关操作可包括以下子步骤：

(1)所使用的互相关算法为卷积算法；

(2)所使用的对两对候选目标采用分别判别的方式。

在步骤6)中，所述目标跟踪方法可包括以下子步骤：

(1)所使用的实例检索方法有三个尺度，基于原始输入目标大小进行变换；

(2)所使用的判断阈值的设置应该适当。

本发明通过使用预训练的多重孪生神经网络，将目标跟踪问题转化为可更新的实例检索问题。本发明同时采用了预训练的区域神经网络，以解决目标丢失后的重检测问题。首先在大型视觉识别数据库上训练多重孪生神经网络对目标进行实例检索，然后在目标跟踪过程中运用预训练的区域神经网络对丢失目标进行重新检测，进一步辅助获取最终目标的位置，实现实时的目标跟踪。

本发明首先在大型视觉识别数据库上训练多重孪生神经网络对目标进行实例检索，然后在目标跟踪过程中运用预训练的区域神经网络对丢失目标进行重新检测，进一步辅助获取最终目标的位置，实现实时的目标跟踪的。

附图说明

图1为本发明实施例的整体网络结构示意图。

图2为本发明实施例的目标跟踪结果示意图。在图2中：

CF2对应为Chao Ma等人提出的方法(Chao Ma,Jia-Bin Huang,Xiaokang Yangand Ming-Hsuan Yang."Hierarchical Convolutional Features for VisualTracking."in Proc.IEEE Int.Conf.Comput.Vis.(ICCV),2015,pp.3074-3082.)；

SINT对应为Ran Tao等人提出的方法(Ran Tao,Efstratios Gavves,ArnoldW.M.Smeulders."Siamese Instance Search for Tracking."in Proc.IEEEConf.Comput.Vis.Pattern Recognit.(CVPR),2016,pp.1420–1429.)；

SRDCF对应为M.Danelljan等人提出的方法(M.Danelljan,G.Hager,F.S.Khan,andM.Felsberg,“Learning spatially regularized correlation filters for visualtracking,”in Proc.IEEE Int.Conf.Comput.Vis.(ICCV),2015,pp.4310–4318.)；

SiamFC对应为Luca Bertinetto等人提出的方法(Luca Bertinetto,JackValmadre, F.Henriques,Andrea Vedaldi,Philip H.S.Torr.“Fully-ConvolutionalSiamese Networks for Object Tracking.”in Proc.Eur.Comput.Vis.Conf.(ECCV)Workshops,2016,pp.850–865.)；

Staple对应为Luca Bertinetto等人提出的方法(Luca Bertinetto,JackValmadre,Stuart Golodetz,Ondrej Miksik,Philip H.S.Torr.“Staple:ComplementaryLearners for Real-Time Tracking.”in Proc.IEEE Conf.Comput.Vis.PatternRecognit.(CVPR),2016,pp.1401-1409.)；

KCF对应为J.F.Henriques等人提出的方法(J.F.Henriques,R.Caseiro,P.Martins,and J.Batista,“High-speed tracking with kernelized correlationfilters,”IEEE Trans.Pattern Anal.Mach.Intell.(TPAMI),vol.37,no.3,pp.583–596,2015.)。

具体实施方式

下面结合附图和实施例对本发明的方法作详细说明。

参见图1，本发明实施例的实施方式包括以下步骤：

1)给定一段视频序列，其中第一帧包含已标记的目标，定义原始输入图像帧的尺寸C_f(其中代表一个矩形区域)，目标的原始尺寸C_o，以及目标的搜索范围C_s。其中目标的原始尺寸C_o，以及目标的搜索范围C_s将作为多重孪生神经网络的输入，用于进行基于实例检索的目标跟踪。原始输入图像帧的尺寸C_f，将作为区域神经网络的输入，用于进行实现丢失目标的重检测。

2)基于步骤1)中定义的图像帧的尺寸C_f，目标的原始尺寸C_o，以及目标的搜索范围C_s，多重孪生神经网络有三个输入，分别为第一帧目标，当前面目标模板，当前帧搜索范围，分别将第一帧目标以及面目标模板输入尺寸定义为C_o，当前帧搜索范围输入尺寸定义为C_s。

该神经网络使用大型视觉识别数据集ILSVRC_DET进行预训练。ILSVRC_DET数据集包含45万张图片，总共拥有30个类别，该数据集中的45万张图片被标记有类别信息与目标位置。多重孪生神经网络用于目标检索，第一个卷积层拥有96个11×11×3的卷积核，并输出96个原始图像的特征图，之后采用修正线性单元激活函数以及最大池化层，并在最后一层使用互相关层的。该神经网络采用实例检索的方法进行目标跟踪并采用全卷积结构和多分支并行结构，因此，用该网络进行目标跟踪比起一般的基于神经网络的目标跟踪方法有更好的实时性和分辨度。训练过程中采用的损失函数l为

l(y,v)＝log(1+exp(-yv)) (1)

其中，y被称为目标标注，每一帧对应了一个目标标注，采用目标分割的方法进行目标标注，v代表一对样本之间的相似分数。

3)把步骤1)中定义的原始输入图像帧的尺寸C_f用于定义区域神经网络的输入尺寸，区域神经网络有且仅有一个输入并在仅在目标丢失的情况下使用，该神经网络使用大型视觉识别数据集ILSVRC中常见得20个目标种类进行预训练，用于对丢失的目标进行重检测。

4)将视频序列第一帧与目标分别输入多重孪生神经网络，获取候选目标C_j。

把步骤2)中多重孪生神经网络应用于实例检索，同时将产生的分数图转化到实数域产生新的独立损失函数L，来输出候选结果C_j(1≤j≤2)：

其中，u为分数图在实数域D中的结果，每一个目标标注对应了一个实数域结果。

5)对步骤4)中得到的候选目标进行互相关操作，同时判断多重孪生神经网络是否丢失目标。当所用的搜索帧与候选目标之间的差距过大时，判断为目标丢失。

在步骤2)中，多重孪生神经网络及其输入尺寸包括以下子步骤：

(1)当目标图像不为C_o时，对应的图像将缩放或扩大为C_o。

(2)原始图像不可过小。

(3)所设计的深度神经网络中的最大池化层使用3×3的区域。

(4)所设计的深度神经网络总共拥有五个卷积层与两个池化层以及一个互相关层。

在步骤3)中的区域神经网络可包括以下子步骤：

(1)所设计的区域神经网络能够重检测常用的20类目标。

在步骤5)中，所述互相关操作可包括以下子步骤：

(1)所使用的互相关算法为卷积算法。

(2)所使用的对两对候选目标采用分别判别的方式。

在步骤6)中，所述目标跟踪方法可包括以下子步骤：

(1)所使用的实例检索方法有三个尺度，基于原始输入目标大小进行变换。

(2)所使用的判断阈值的设置应该适当。

针对视频序列使用多重孪生网络与区域神经网络相结合的方法获得视频序列当前帧的目标位置，实现目标跟踪。本发明整体网络结构示意图如图1所示。最终的目标跟踪结果示意图如图2所示。

表1

算法	精度	成功率	速度(每秒帧数)
				本发明	0.892	0.670	25
CF2(2015)	0.891	0.635	9
				SINT(2016)	0.851	0.626	4
SRDCF(2015)	0.838	0.606	5
				SiamFC(2016)	0.801	0.605	85
Staple(2016)	0.793	0.600	80
				KCF(2015)	0.741	0.513	200

本发明与其余算法在CVPR2013数据集上的目标跟踪评价在表1中给出。

Claims

1.基于多重孪生神经网络与区域神经网络的目标跟踪方法，其特征在于包括以下步骤：

l(y,v)＝log(1+exp(-yv))

2.如权利要求1所述基于多重孪生神经网络与区域神经网络的目标跟踪方法，其特征在于在步骤2)中，所述多重孪生神经网络及其输入尺寸包括以下子步骤：

(1)当目标图像不为C_o时，对应的图像将缩放或扩大为C_o；

(2)原始图像不可过小；

(3)发明所设计的深度神经网络中的最大池化层使用3×3的区域；

3.如权利要求1所述基于多重孪生神经网络与区域神经网络的目标跟踪方法，其特征在于在步骤3)中，所述区域神经网络包括以下子步骤：

(1)所设计的区域神经网络能够重检测常用的20类目标；

4.如权利要求1所述基于多重孪生神经网络与区域神经网络的目标跟踪方法，其特征在于在步骤4)中，所述将视频序列第一帧与目标分别输入多重孪生神经网络，获取候选目标C_j的具体方法为：将步骤2)中多重孪生神经网络应用于实例检索，同时将产生的分数图转化到实数域产生新的独立损失函数L，输出候选结果C_j，其中，1≤j≤2)：

5.如权利要求1所述基于多重孪生神经网络与区域神经网络的目标跟踪方法，其特征在于在步骤5)中，所述互相关操作包括以下子步骤：

(1)所使用的互相关算法为卷积算法；

(2)所使用的对两对候选目标采用分别判别的方式。

6.如权利要求1所述基于多重孪生神经网络与区域神经网络的目标跟踪方法，其特征在于在步骤6)中，所述目标跟踪方法包括以下子步骤：

(2)所使用的判断阈值的设置应该适当。