CN109934846A - 基于时间和空间网络的深度集成目标跟踪方法 - Google Patents
基于时间和空间网络的深度集成目标跟踪方法 Download PDFInfo
- Publication number
- CN109934846A CN109934846A CN201910201525.4A CN201910201525A CN109934846A CN 109934846 A CN109934846 A CN 109934846A CN 201910201525 A CN201910201525 A CN 201910201525A CN 109934846 A CN109934846 A CN 109934846A
- Authority
- CN
- China
- Prior art keywords
- network
- time
- deep
- target
- weak
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 39
- 238000001914 filtration Methods 0.000 claims abstract description 28
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 18
- 230000003044 adaptive effect Effects 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 33
- 230000004044 response Effects 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 11
- 230000000007 visual effect Effects 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 10
- 230000010354 integration Effects 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 5
- 238000009825 accumulation Methods 0.000 claims 1
- 230000002123 temporal effect Effects 0.000 abstract description 2
- 230000004927 fusion Effects 0.000 abstract 1
- 239000010410 layer Substances 0.000 description 52
- 238000010586 diagram Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 241000153282 Theope Species 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 241000195940 Bryophyta Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于时间和空间网络的深度集成目标跟踪方法,采用VGG‑16网络提取第三、四、五层的特征,将传统相关滤波算法表示成一层卷积神经网络以获取相关滤波网络,在相关滤波网络的基础上构建时间网络和空间网络,进一步捕捉目标的时间信息和空间信息,提高算法的精确度,同时本发明通过自适应权重的集成学习算法融合所有弱跟踪器成强跟踪器来实现目标跟踪,集成学习使得本发明有较好的鲁棒性,能应对复杂场景下的目标跟踪,最后提出短时更新与长时更新相结合的更新策略,确保模型的稳定性。
Description
技术领域
本发明涉及图像处理和计算机视觉技术领域,具体而言涉及一种基于时间和空间网络的 深度集成目标跟踪方法,通过特征提取、构建深度网络以及集成弱跟踪器来实现对目标的精 准跟踪,可应用于车辆导航、人机交互和视频监控等领域。
背景技术
视觉目标跟踪是计算机视觉领域中的一项基本问题,可广泛应用于车辆导航、视频监控、 人机交互等许多实际系统中。该问题的核心是如何利用极其有限的训练数据(通常是第一帧 中的边界框)来开发出一个鲁棒的外观模型。在过去几十年里视觉目标跟踪技术取得了长足 的进步,主要有基于相关滤波的跟踪方法和基于深度学习的跟踪方法。
基于相关滤波的目标跟踪由于其计算速度快而受到越来越多的关注。Bolme等人(Bolme D S,Beveridge J R,Draper B A,et al.Visual object tracking usingadaptive correlation filters[C]//Computer Vision and Pattern Recognition(CVPR),2010IEEE Conference on.IEEE,2010: 2544-2550.)开发了最小输出平方和误差(MOSSE)的方法来学习滤波器,并且使用强度特征 进行目标表示。为了提高跟踪精度,后续的研究者又对MOSSE进行了优化。Henriques等人 (Henriques J F,Caseiro R,Martins P,et al.High-speed tracking with kernelized correlation filters[J]. IEEETransactions on Pattern Analysis and Machine Intelligence,2015,37(3):583-596.)提出核化 相关滤波器(KCF),其在相关滤波中引入核空间,通过核函数将原来线性空间中的脊回归映 射到非线性空间,在非线性空间中求解一个对偶问题,同时提出将多通道特征融入相关滤波 的方法,采用方向梯度直方图特征表示目标。但是上述的相关滤波算法存在两个方面的局限 性。首先,学习相关滤波器和特征提取是相互独立的,即没有端到端地去训练模型。第二, 大多数相关滤波算法的更新方式比较单一,基本都是用线性插值来更新学习过的滤波器以达 到模型自适应的效果,实际上这种方法只是经验操作,一旦有噪声进行更新,就会导致目标 漂移。
最近三年利用深度学习的目标跟踪方法取得了令人满意的效果,使目标跟踪技术获得了 突破性的进展。对于视觉识别任务,深度学习模型需要大量标记的训练样本,而在目标跟踪 问题中,唯一标记的样本只有第一帧标注的目标位置,所以直接将深度学习模型应用于在线 跟踪方法是不可行的。以往基于深度学习的跟踪方法通过大量标记视频,离线学习通用特征 表示。例如,Nam等人(Nam H,Han B.Learning multi-domainconvolutional neural networks for visual tracking[C]//Computer Vision andPattern Recognition(CVPR),2016IEEE Conference on. IEEE,2016:4293-4302.)提出MDNet跟踪方法,该算法利用类似于跟踪基准中的视频序列来 离线学习深度模型,并使用目标基准测试序列对离线学习的模型进行在线微调,这种方法不 仅容易产生过拟合,而且离线训练耗时过长。此外在视觉识别算法中使用神经网络作为在线 分类器,通过最后一个卷积层的输出来表示目标。由于最后一层的特征有较高的语义信息, 容易推断出物体的类别,所以使用最后一层的特征对于视觉识别任务是非常有效的。但是对 于目标跟踪任务,仅仅使用最后一层的特征来表示目标是不够的,因为它还需要对目标进行 精准定位。
根据上述算法及研究的不足,本发明提出一种基于时间和空间的深度集成目标跟踪方法。 因为空间卷积运算类似于循环移位样本和相关滤波器之间的点积,所以可以将相关滤波算法 重新定义为一层卷积神经网络(相关滤波网络),直接生成响应映射作为连续帧之间的空间相 关性,这种作法可以消除循环移位样本导致的边界效应问题。与此同时,本发明采用历史目 标样本来学习一个时间网络,用以捕获目标的时间信息。为了进一步挖掘目标的空间信息, 在相关滤波网络的基础上构建一个空间网络用于细化目标位置。采用跳跃式连接方式将相关 滤波网络、时间网络以及空间网络组合成新的深度网络,该网络是完全可微的,它允许使用 反向传播算法更新卷积滤波器。此外把通过VGG-16网络所生成的特征映射送入新的深度网 络中用以构造弱跟踪器,使用自适应权重的集成学习算法将所有弱跟踪器融合成强跟踪器, 从而得到目标位置。利用短时更新和长时更新相结合的方式对跟踪模型进行更新,新的更新 方式进一步提高算法的精确度。
发明内容
为了使跟踪器在光照变化,尺度变换,目标遮挡,目标形变,运动模糊,快速运动,平 面内旋转,平面外旋转,出视野,背景杂波,低分辨率等复杂场景下,依然可以准确地跟踪 目标,本发明提出一种基于时间和空间网络的深度集成目标跟踪方法,采用VGG-16网络提 取深度特征,加入时间和空间网络,运用集成学习并且采用短时更新和长时更新相结合的更 新策略,实现一种精确鲁棒的跟踪方法。
为达成上述目的,结合图1,本发明提出一种基于时间和空间网络的深度集成目标跟踪 方法,所述目标跟踪方法包括:
采用VGG-16网络提取目标的深度特征,将相关滤波算法表示成一层卷积神经网络,以得 到相关滤波网络,在相关滤波网络的基础上构建时间网络和空间网络,时间网络和空间网络 分别用于捕捉目标的时间信息和空间信息,采用跳跃式连接的方式将相关滤波网络、时间网 络以及空间网络相连得到深度网络。
训练深度网络,直至深度网络所包含的相关滤波网络、时间网络以及空间网络这三个模 型全部收敛。
从当前帧的图片中提取第一搜索块,从前一帧的图片中提取第二搜索块,采用VGG-16网 络提取第一搜索块和第二搜索块的特征,并且将提取的特征导入深度网络的三个模型中以生 成响应映射,将每个模型视为弱跟踪器,利用自适应权重的集成学习算法引擎融合所有弱跟 踪器得到最终的目标位置。
为了解决现存跟踪方法的局限性以及复杂场景下目标丢失的问题,提出一种基于时间和 空间网络的深度集成目标跟踪方法。在OTB跟踪基准数据集上的大量实验证明,本发明与先 进的跟踪器相比具有良好的性能。
本发明所提及的基于时间和空间网络的深度集成目标跟踪方法的具体步骤为:
步骤一:提取深度特征。
本发明采用VGG-16网络提取深度特征。VGGNet相比于AlexNet有更深的网络结构,它 成功地构筑了16~19层深的卷积神经网络,并且该网络有很好的拓展性,迁移到目标跟踪任 务上的泛化能力强。此外VGGNet使用130万张imageNet数据集上的图片进行训练,它在图 像分类任务上取得了鲁棒的效果。一般地,浅层的深度特征提供目标的位置信息,深层的深 度特征包含更多的语义信息可以用来处理目标形变和防止跟踪器漂移。因此VGGNet通过从不 同层提取特征,来达到更详细的描述目标对象。本发明提取了VGG-16网络的第三、四、五层 上的特征,用来弥补单层深度特征目标信息不足的问题。
步骤二:构建深度网络。
本发明构建的深度网络由相关滤波网络、时间网络以及空间网络构成。根据相关滤波算 法的跟踪原理得出,学习相关滤波器Ω'就是解决下面最小化目标函数问题:
其中X表示输入样本,Y表示对应的高斯函数标签,*代表卷积,λ是正则化参数。本发 明将相关滤波跟踪方法的学习过程重新定义为卷积神经网络的代价函数最小化问题。代价函 数的一般形式为:
其中M是样本的数量,X(i)表示第i个输入样本,Y(i)表示第i个样本所对应的高斯标签,
L(Y(i),F(X(i);Θ))代表第i个样本的损失函数,F(X(i);Θ)是第i个样本的网络输出即预测值,
P(Θ)是正则化函数。本发明令M=1,采用l2损失函数,将l2范数作为正则化函数,公式(3)改 写为如下形式:
J(Θ)=||F(X;Θ)-Y||2+λ||Θ||2 (4)
公式(5)中当输入样本X通过一个卷积层时,其网络输出F(X;Θ)=Θ*X,公式(6)中的 卷积滤波器Θ等价于公式(7)中的相关滤波器Ω',相关滤波算法中的目标函数也等价于网络 中的代价函数。如公式(8)所述,本发明将相关滤波算法表示成一层卷积神经网络,该网络被 定义成相关滤波网络。
本发明在相关滤波网络的基础上提出空间网络。由于特征提取网络的加深,空间信息变 得越来越弱,为了解决这个问题,本发明采用三层卷积神经网络框架构成空间网络,前两个 卷积层对空间信息进行整合,最后一个卷积层是对前一个卷积层通道数的降维,目的是为了 使空间网络的输出和相关滤波网络的输出维数保持一致。
此外,空间网络只能捕捉当前帧的空间信息,当目标变化剧烈时,只靠空间信息学习到 的模型是不稳定的。因此本发明又设计了一种与空间网络结构相似的时间网络,用以捕获时 间历史信息。时间网络是由一层卷积神经网络构成,目的是为了提取前一帧的历史信息。
本发明采用跳跃式连接的方式将相关滤波网络、时间网络以及空间网络相连得到一种新 的深度网络。跳跃式连接可以增强梯度传播,增加网络层数以及促进网络收敛。此外,这种 连接方式最重要的作用是可以促进时间和空间信息的传递,防止信息的丢失。与此同时采用 跳跃式连接方式时,各层网络输出的通道维数需保持一致。最终得到的响应映射为:
F(Xt)=Fspatial(Xt)+FCF(Xt)+Ftemporal(Xt-1) (9)
公式(10)中,Xt代表当前帧的特征映射图,Xt-1代表前一帧的特征映射图,Fspatial(·)代 表空间网络的输出,FCF(·)代表相关滤波网络的输出,Ftemporal(·)表示时间网络的输出。
步骤三:训练网络。
本发明不需要进行耗时的离线训练,只需要给定一个带有目标位置的输入帧,提取以目 标位置为中心的训练块,将其放入网络框架中用于特征提取和响应映射。采用VGG-16网络进 行特征提取,相关滤波网络、时间网络以及空间网络不需要单独进行训练。第一帧的训练块 经过VGG-16网络得到第三、四、五层的特征映射图,然后将这三层的特征映射分别送入由相 关滤波网络、时间网络以及空间网络连接成的深度网络中,同时训练三个模型,直到收敛为 止。
步骤四:在线检测。
本发明从当前帧的图片中提取搜索块p1,与此同时,从前一帧的图片中提取搜索块p2。 用VGG-16网络提取两个搜索块的特征送入与之对应训练好的三个模型中来生成响应映射, 每个模型视为弱跟踪器,利用自适应权重的集成学习算法融合所有弱跟踪器得到最终的目标 位置。
本发明采用自适应权重的集成学习算法引擎,来解决多专家决策理论的在线学习问题。 在视觉跟踪问题中,将弱跟踪器视为专家。第l个专家的响应映射为:
其中k=3,4,5代表VGG-16网络的第三、四、五层。
第l个专家的目标位置为:
那么最终预测的目标位置是多个专家加权的结果即:
其中是第l个专家的权重。
公式(16)是每个专家决策损失的描述。公式(17)中引入决策分析中常用的后悔值准则, 后悔值准则被定义为所有专家决策损失的平均值减去每个专家的决策损失。
公式(19)是计算第l个专家的稳定性,其中决策损失的均值决策损失的 标准差如公式(20)所述,当较小时,说明专家趋于稳定,相反 如果的值较大,说明专家性能差。
公式(24)代表求解累积的后悔值,其中代表历史后悔值。公式(25)中,ζ为比例因子 控制指数函数的形状,H代表当前帧后悔值的最大权重,用以避免没有历史后悔值。公式(26) 是计算下一帧的权重分布,其中表示σt代表比例因子,通过求解得到。
步骤五:模型更新。本发明提出短时更新与长时更新相结合的更新策略。短时更新求解 模型可靠性,方法与集成学习中计算专家稳定性一样。当值小时,说明专家稳定,该专家 对应的模型不需要进行更新。相反当值大时,根据公式(27)可以推算出此时值较小,当 其小于阈值D时,说明专家性能差,此时需要对其所对应的模型进行更新,本发明利用当前 帧的搜索块和预测值组成训练对,输入到模型中进行在线更新。除此之外,本发明加入长时 更新,即每S帧对三个模型均进行一次更新,用到的训练数据是在线检测期间持续生成的搜 索块和预测的真值响应图。
本发明首先用VGG-16网络提取第三、四、五层的特征,与单层深度特征相比,本方法 有丰富的特征来描述目标对象。之后提出相关滤波网络将传统相关滤波算法表示成一层卷积 神经网络,使本发明不需要进行耗时的离线训练,在相关滤波网络的基础上构建时间网络和 空间网络,进一步捕捉目标的时间信息和空间信息,提高算法的精确度。同时本发明通过自 适应权重的集成学习算法融合所有弱跟踪器成强跟踪器来实现目标跟踪,集成学习使得本发 明有较好的鲁棒性,能应对复杂场景下的目标跟踪。最后提出短时更新与长时更新相结合的 更新策略,确保模型的稳定性。
以上本发明的技术方案,与现有相比,其显著的有益效果在于
(1)提出相关滤波网络。将特征提取、跟踪模型和模型更新:集成到卷积神经网络中进 行端到端地训练。
(2)针对视觉目标跟踪问题,本发明提出了一种新的深度架构,该架构融合了目标的时 间信息和空间信息,以产生高性能的跟踪结果。
(3)本发明应用集成学习,以应对不同的挑战因素。
(4)提出新的更新方式,使集成学习和网络更新相互联系,以提高算法的精确度和鲁棒 性。
应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构 思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。另外,所要求保护的主题 的所有组合都被视为本公开的发明主题的一部分。
结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和 特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显 见,或通过根据本发明教导的具体实施方式的实践中得知。
附图说明
附图不意在按比例绘制。在附图中,在各个图中示出的每个相同或近似相同的组成部分 可以用相同的标号表示。为了清晰起见,在每个图中,并非每个组成部分均被标记。现在, 将通过例子并参考附图来描述本发明的各个方面的实施例,其中:
图1是本发明的基于基于时间和空间网络的深度集成目标跟踪方法的流程图。
图2为本发明提出的基于时间和空间网络的深度集成目标跟踪方法的整体框架图。
图3为本发明可视化VGG-16网络的卷积层示意图。
图4为本发明提出的深度网络结构图。
图5为本发明提出的模型更新策略流程图。
图6为本发明对10个测试视频跟踪结果抽样帧。
图7为本发明在OPE评估方式下与8种跟踪器的综合跟踪性能比较图。
图8为本发明在六种挑战因子的OPE评估方式下与8种跟踪器的综合跟踪性能比较图。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
本发明使用MatConvNet工具箱,硬件平台采用Intel i7-87003.2GHz CPU,8GBRAM, NIVIDIA GTX 1060GPU。
本发明提出的基于时间和空间网络的深度集成目标跟踪方法的整体框架图如图2所示, 具体包括以下操作步骤:
(1)步骤一:提取深度特征。本发明采用VGG-16网络提取深度特征。VGGNet相比于AlexNet有更深的网络结构,它成功地构筑了16~19层深的卷积神经网络,并且该网络有很好 的拓展性,迁移到目标跟踪任务上的泛化能力强。此外VGGNet使用130万张imageNet数据 集上的图片进行训练,它在图像分类任务上取得了鲁棒的效果。如图3所示,在(b)(c)两组图 中能够比较清晰的看到目标轮廓,因此第三层和第四层的特征有较高的分辨率能精确定位到 目标。同时在(d)组图中已经很难看出目标细节,但是在背景变化剧烈的情况下第五层的特征 能有效区分目标和背景。换句话说,浅层的深度特征提供目标的位置信息,深层的深度特征 包含更多的语义信息可以用来处理目标形变和防止跟踪器漂移。算法的特征提取网络来自于 VGG-16网络,且去除了第三层和第五层的池化层以及全连接层。本发明分别从Conv3_3, Conv4_3,Conv5_3层提取特征映射图,然后通过主成分分析算法将提取到的特征进行降维, 使通道数降至64维。
(2)步骤二:构建深度网络。本发明构建的深度网络由相关滤波网络、时间网络以及空间 网络构成,深度网络的结构图如图4所示,根据相关滤波算法的跟踪原理得出,学习相关滤 波器Ω'就是解决下面最小化目标函数问题:
其中X表示输入样本,Y表示对应的高斯函数标签,*代表卷积,λ是正则化参数。本发 明将相关滤波跟踪方法的学习过程重新定义为卷积神经网络的代价函数最小化问题。代价函 数的一般形式为:
其中M是样本的数量,X(i)表示第i个输入样本,Y(i)表示第i个样本所对应的高斯标签, L(Y(i),F(X(i);Θ))代表第i个样本的损失函数,F(X(i);Θ)是第i个样本的网络输出即预测值, P(Θ)是正则化函数。本发明令M=1,采用l2损失函数,将l2范数作为正则化函数,公式(30)
J(Θ)=||F(X;Θ)-Y||2+λ||Θ||2 (31)
公式(32)中当输入样本X通过一个卷积层时,其网络输出F(X;Θ)=Θ*X,公式(33)中 的卷积滤波器Θ等价于公式(34)中的相关滤波器Ω',相关滤波算法中的目标函数也等价于网 络中的代价函数。如公式(35)所述,本发明将相关滤波算法表示成一层卷积神经网络,该网 络为相关滤波网络Conv_11,相关滤波网络的滤波器大小需要覆盖目标,用梯度下降算法和 反向传播算法代替原来的闭式解去训练参数。
本发明在相关滤波网络的基础上提出空间网络。由于特征提取网络的加深,空间信息变 得越来越弱,为了解决这个问题,本发明采用三层卷积神经网络框架构成空间网络如图3所 示,前两个卷积层Conv_21和Conv_22是对空间信息进行整合,最后一个卷积层Conv_23是 对前一个卷积层通道数的降维,目的是为了使空间网络的输出和相关滤波网络的输出维数保 持一致。空间网络的具体细节见表格1。
此外,空间网络只能捕捉当前帧的空间信息,当目标变化剧烈时,只靠空间信息学习到 的模型是不稳定的。因此本发明又设计了一种与空间网络结构相似的时间网络如图3所示, 用以捕获时间历史信息。时间网络Conv_31是由一层卷积神经网络构成,目的是为了提取前 一帧的历史信息。时间网络的具体细节见表1。
深度网络最终得到的响应映射为:
F(Xt)=Fspatial(Xt)+FCF(Xt)+Ftemporal(Xt-1) (36)
公式(37)中Xt代表当前帧的特征映射图,Xt-1代表前一帧的特征映射图,Fspatial(Xt)代表空 间网络的输出,FCF(Xt)代表相关滤波网络的输出,Ftemporal(Xt-1)表示时间网络的输出。
表1.卷积层嵌入函数的体系结构
(3)步骤三:训练网络。本发明不需要进行耗时的离线训练,只需要给定一个带有目标位 置的输入帧(第一帧),提取以目标位置为中心的训练块,将其放入网络框架中用于特征提取 和响应映射。第一帧得到的训练块大小是目标宽度和高度最大值的5倍。采用VGG-16网络 进行特征提取,与此同时相关滤波网络、时间网络以及空间网络的参数都初始化为零均值高 斯分布,此外上述三个网络不需要单独进行训练。第一帧的训练块经过VGG-16网络得到第 三、四、五层的特征映射图,然后将这三层的特征映射分别送入由相关滤波网络、时间网络 以及空间网络连接成的深度网络中,同时训练三个模型,直到收敛为止。训练阶段的学习率 为5e-8,迭代次数为1000次,优化器采用Adam算法。
(4)步骤四:在线检测。本发明以前一帧预测的目标位置为中心在当前帧的图片中提取搜 索块p1。与此同时,还是以前一帧预测的目标位置为中心在前一帧的图片中提取搜索块p2, 搜索块的大小与训练块的大小一致。用VGG-16网络提取两个搜索块的特征送入与之对应训 练好的三个模型中来生成响应映射,每个模型视为弱跟踪器,利用自适应权重的集成学习算 法融合所有弱跟踪器得到最终的目标位置。在预测目标位置后,采用尺度估计算法对目标大 小进行预测。本发明提取三个不同尺度的候选目标,尺度因子被设置为(1,0.95,1.05),调整所 有候选块的大小使其与训练块的大小相同,将这些候选块送入模型中(第三层特征对应的模 型)以生成响应图。一旦有了响应图,通过搜索最大响应值来预测目标大小。
本发明采用自适应权重的集成学习算法,用于解决多专家决策理论的在线学习问题。在 视觉跟踪问题中,将弱跟踪器视为专家。第l个专家的响应映射为:
其中k=3,4,5代表VGG-16网络的第三、四、五层。第l个专家的目标位置为:
那么最终预测的目标位置是多个专家加权的结果即:
其中是第l个专家的权重。
公式(43)是每个专家决策损失的描述。公式(44)中引入决策分析中常用的后悔值准则, 后悔值准则被定义为所有专家决策损失的平均值减去每个专家的决策损失。
公式(46)是计算第l个专家的稳定性,其中决策损失的均值决策损失的 标准差设置一段时间Δt=5,如公式(47)所述,当较小时,说 明专家趋于稳定,相反如果的值较大,说明专家性能差。
公式(51)代表求解累积的后悔值,其中代表历史后悔值。公式(52)中,ζ=10为比例 因子控制指数函数的形状,H=0.97代表当前帧后悔值的最大权重,用以避免没有历史后悔值。 公式(53)是计算下一帧的权重分布,其中表示σt代表比例因子,通过求 解得到。
(5)步骤五:模型更新。如图5所示,本发明提出短时更新与长时更新相结合的更新策略。 短时更新求解模型可靠性,方法与集成学习中计算专家稳定性一样。当值小时,说明专家 稳定,该专家对应的模型不需要进行更新。相反当值大时,根据公式(54)可以推算出此时 值较小,当其小于阈值D=0.12时,说明专家性能差,此时需要对其所对应的模型进行更新, 本发明利用当前帧的搜索块和预测值组成训练对,输入到模型中进行在线更新。除此之外, 本发明加入长时更新,即每S=10帧对三个模型均进行一次更新,用到的训练数据是在线检 测期间持续生成的搜索块和预测的真值响应图。更新阶段的学习率为2e-9,迭代次数2次, 优化器采用Adam算法。
评估测试
本发明通过一次性评估(OPE)准则以及精确度和成功率度量来衡量跟踪器的性能。选 取90个不同属性的视频序列测试本发明的目标跟踪方法,并与其它跟踪器(TRACA、ACFN、 CFNet、SiamFC、SCT、Staple、SRDCF、CNN-SVM等8种跟踪器)在不同的挑战因素(如 快速运动、运动模糊、光照变化、平面外旋转、目标形变、遮挡等情况)下进行对比。图6是 本发明与8种跟踪器对10个测试视频((a)Bolt2、(b)Box、(c)DragonBaby、(d)Girl2、(e)Human9、(f)Ironman、(g)KiteSurf、(h)Matrix、(i)Skating1、(j)Skiing)跟踪结果抽样帧,图 7从精确度(precision)和成功率(Success rate)两个方面给出了本发明与其他8种跟踪器的 性能对比图。图8是本发明在快速运动、运动模糊、光照变化、平面外旋转、目标形变、遮 挡六种挑战因子的OPE评估方式下与8种跟踪器的综合跟踪性能比较图。正如图5所示,本 发明的算法可以准确的跟踪到图例中大多数挑战性序列。总的来说,本发明的跟踪方法比最 近几年的跟踪方法更加精确和鲁棒,特别是在具有挑战性的场景中
在本公开中参照附图来描述本发明的各方面,附图中示出了许多说明的实施例。本公开 的实施例不必定义在包括本发明的所有方面。应当理解,上面介绍的多种构思和实施例,以 及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施,这是因为 本发明所公开的构思和实施例并不限于任何实施方式。另外,本发明公开的一些方面可以单 独使用,或者与本发明公开的其他方面的任何适当组合来使用。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域 中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本 发明的保护范围当视权利要求书所界定者为准。
Claims (10)
1.一种基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述目标跟踪方法包括:
采用VGG-16网络提取目标的深度特征,将相关滤波算法表示成一层卷积神经网络,以得到相关滤波网络,在相关滤波网络的基础上构建时间网络和空间网络,时间网络和空间网络分别用于捕捉目标的时间信息和空间信息,采用跳跃式连接的方式将相关滤波网络、时间网络以及空间网络相连得到深度网络;
训练深度网络,直至深度网络所包含的相关滤波网络、时间网络以及空间网络这三个模型全部收敛;
从当前帧的图片中提取第一搜索块,从前一帧的图片中提取第二搜索块,采用VGG-16网络提取第一搜索块和第二搜索块的特征,并且将提取的特征导入深度网络的三个模型中以生成响应映射,将每个模型视为弱跟踪器,利用自适应权重的集成学习算法引擎融合所有弱跟踪器得到最终的目标位置。
2.根据权利要求1所述的基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述采用VGG-16网络提取目标的深度特征是指,
提取了VGG-16网络的第三、四、五层上的特征作为目标的深度特征。
3.根据权利要求1所述的基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述将相关滤波算法表示成一层卷积神经网络,以得到相关滤波网络包括以下步骤:
获取卷积神经网络的代价函数,获取的代价函数为:
其中,M是样本的数量,X(i)表示第i个输入样本,Y(i)表示第i个样本所对应的高斯标签,L(·)代表第i个样本的损失函数,F(·)是第i个样本的网络输出即预测值,P(·)是正则化函数,Θ代表卷积滤波器,λ是正则化参数;
令M=1,采用l2损失函数,将l2范数作为正则化函数,代价函数改写为如下形式:
J(Θ)=‖F(X;Θ)-Y‖2+λ‖Θ‖2
其中,X表示输入样本,Y表示对应的高斯函数标签,当输入样本Y通过一个卷积层时,其网络输出F(X;Θ)=Θ*X,*代表卷积。
4.根据权利要求1所述的基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述深度网络为:
F(Xt)=Fspatial(Xt)+FCF(Xt)+Ftemporal(Xt-1)
其中,Xt代表当前帧的特征映射图,Xt-1代表前一帧的特征映射图,Fspatial(·)代表空间网络的输出,FCF(·)代表相关滤波网络的输出,Ftemporal(·)表示时间网络的输出。
5.根据权利要求1所述的基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述训练深度网络包括以下步骤:
选择一个带有目标位置的输入帧,提取以目标位置为中心的训练块,将其放入网络框架中用于特征提取和响应映射,将获取的特征映射分别送入由相关滤波网络、时间网络以及空间网络连接成的深度网络中,同时训练相关滤波网络、时间网络以及空间网络这三个模型,直至三个模型全部收敛。
6.根据权利要求1所述的基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述将每个模型视为弱跟踪器,利用自适应权重的集成学习算法引擎融合所有弱跟踪器得到最终的目标位置包括以下步骤:
在视觉跟踪问题中,将弱跟踪器视为专家,设第l个专家的响应映射为:
其中k=3,4,5分别代表VGG-16网络的第三、四、五层;
则第l个专家的目标位置为:
最终预测的目标位置是多个专家加权的结果,即:
其中,是第l个专家的权重,L为弱跟踪器总数量。
7.根据权利要求6所述的基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述将每个模型视为弱跟踪器,利用自适应权重的集成学习算法引擎融合所有弱跟踪器得到最终的目标位置还包括以下步骤:
采用下述公式以计算下一帧的权重分布:
其中,表示σt代表比例因子,代表求解累积的后悔值,代表历史后悔值,ζ为比例因子控制指数函数的形状,H代表当前帧后悔值的最大权重,用以避免没有历史后悔值,代表第l个专家的稳定性;
采用下述公式计算
其中,代表每个专家决策损失,代表决策分析中的后悔值,表示为所有专家决策损失的平均值减去每个专家的决策损失,代表决策损失的均值,代表决策损失的标准差。
8.根据权利要求1所述的基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述目标跟踪方法还包括:
采用短时更新与长时更新相结合的更新策略对深度网络进行更新。
9.根据权利要求8所述的基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述短时更新包括以下步骤:
计算每个弱跟踪器的稳定性
采用下述公式判断每个弱跟踪器的性能值:
其中,ζ为比例因子控制指数函数的形状,H代表当前帧后悔值的最大权重,用以避免没有历史后悔值,代表第l个专家的稳定性,L为弱跟踪器总数量;
判断每个弱跟踪器的性能值是否小于设定阈值D,若其中任意一个弱跟踪器的性能值小于设定阈值D,采用当前帧的搜索块和预测值组成训练对,输入到模型中进行在线更新。
10.根据权利要求8所述的基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述长时更新是指,
将在线检测期间持续生成的搜索块和预测的真值响应图作为训练数据,每S帧对深度网络的三个模型均进行一次更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910201525.4A CN109934846B (zh) | 2019-03-18 | 2019-03-18 | 基于时间和空间网络的深度集成目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910201525.4A CN109934846B (zh) | 2019-03-18 | 2019-03-18 | 基于时间和空间网络的深度集成目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109934846A true CN109934846A (zh) | 2019-06-25 |
CN109934846B CN109934846B (zh) | 2023-06-06 |
Family
ID=66987435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910201525.4A Active CN109934846B (zh) | 2019-03-18 | 2019-03-18 | 基于时间和空间网络的深度集成目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109934846B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569706A (zh) * | 2019-06-25 | 2019-12-13 | 南京信息工程大学 | 一种基于时间和空间网络的深度集成目标跟踪算法 |
CN110580712A (zh) * | 2019-08-27 | 2019-12-17 | 江南大学 | 一种使用运动信息与时序信息的改进CFNet视频目标追踪方法 |
CN110738684A (zh) * | 2019-09-12 | 2020-01-31 | 昆明理工大学 | 一种基于相关滤波融合卷积残差学习的目标跟踪方法 |
CN110837806A (zh) * | 2019-11-11 | 2020-02-25 | 辽宁科技学院 | 一种基于深度卷积记忆网络的室内定位方法 |
CN111340838A (zh) * | 2020-02-24 | 2020-06-26 | 长沙理工大学 | 一种基于多种特征融合的背景时空相关滤波跟踪方法 |
CN111681263A (zh) * | 2020-05-25 | 2020-09-18 | 厦门大学 | 基于三值量化的多尺度对抗性目标跟踪算法 |
CN112053386A (zh) * | 2020-08-31 | 2020-12-08 | 西安电子科技大学 | 基于深度卷积特征自适应集成的目标跟踪方法 |
CN112949662A (zh) * | 2021-05-13 | 2021-06-11 | 北京市商汤科技开发有限公司 | 一种图像处理方法、装置、计算机设备以及存储介质 |
CN116188820A (zh) * | 2023-01-12 | 2023-05-30 | 中国兵器装备集团自动化研究所有限公司 | 一种视觉目标处理方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106557774A (zh) * | 2015-09-29 | 2017-04-05 | 南京信息工程大学 | 多通道核相关滤波的实时跟踪方法 |
CN107240122A (zh) * | 2017-06-15 | 2017-10-10 | 国家新闻出版广电总局广播科学研究院 | 基于时空连续相关滤波的视频目标跟踪方法 |
CN108182388A (zh) * | 2017-12-14 | 2018-06-19 | 哈尔滨工业大学(威海) | 一种基于图像的运动目标跟踪方法 |
US20180268559A1 (en) * | 2017-03-16 | 2018-09-20 | Electronics And Telecommunications Research Institute | Method for tracking object in video in real time in consideration of both color and shape and apparatus therefor |
-
2019
- 2019-03-18 CN CN201910201525.4A patent/CN109934846B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106557774A (zh) * | 2015-09-29 | 2017-04-05 | 南京信息工程大学 | 多通道核相关滤波的实时跟踪方法 |
US20180268559A1 (en) * | 2017-03-16 | 2018-09-20 | Electronics And Telecommunications Research Institute | Method for tracking object in video in real time in consideration of both color and shape and apparatus therefor |
CN107240122A (zh) * | 2017-06-15 | 2017-10-10 | 国家新闻出版广电总局广播科学研究院 | 基于时空连续相关滤波的视频目标跟踪方法 |
CN108182388A (zh) * | 2017-12-14 | 2018-06-19 | 哈尔滨工业大学(威海) | 一种基于图像的运动目标跟踪方法 |
Non-Patent Citations (1)
Title |
---|
YUANKAI QI等: "Hedged Deep Tracking", 《PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569706A (zh) * | 2019-06-25 | 2019-12-13 | 南京信息工程大学 | 一种基于时间和空间网络的深度集成目标跟踪算法 |
CN110580712B (zh) * | 2019-08-27 | 2023-04-25 | 江南大学 | 一种使用运动信息与时序信息的改进CFNet视频目标追踪方法 |
CN110580712A (zh) * | 2019-08-27 | 2019-12-17 | 江南大学 | 一种使用运动信息与时序信息的改进CFNet视频目标追踪方法 |
CN110738684A (zh) * | 2019-09-12 | 2020-01-31 | 昆明理工大学 | 一种基于相关滤波融合卷积残差学习的目标跟踪方法 |
CN110837806A (zh) * | 2019-11-11 | 2020-02-25 | 辽宁科技学院 | 一种基于深度卷积记忆网络的室内定位方法 |
CN110837806B (zh) * | 2019-11-11 | 2020-07-28 | 辽宁科技学院 | 一种基于深度卷积记忆网络的室内定位方法 |
CN111340838A (zh) * | 2020-02-24 | 2020-06-26 | 长沙理工大学 | 一种基于多种特征融合的背景时空相关滤波跟踪方法 |
CN111681263A (zh) * | 2020-05-25 | 2020-09-18 | 厦门大学 | 基于三值量化的多尺度对抗性目标跟踪算法 |
CN111681263B (zh) * | 2020-05-25 | 2022-05-03 | 厦门大学 | 基于三值量化的多尺度对抗性目标跟踪算法 |
CN112053386B (zh) * | 2020-08-31 | 2023-04-18 | 西安电子科技大学 | 基于深度卷积特征自适应集成的目标跟踪方法 |
CN112053386A (zh) * | 2020-08-31 | 2020-12-08 | 西安电子科技大学 | 基于深度卷积特征自适应集成的目标跟踪方法 |
CN112949662A (zh) * | 2021-05-13 | 2021-06-11 | 北京市商汤科技开发有限公司 | 一种图像处理方法、装置、计算机设备以及存储介质 |
CN116188820A (zh) * | 2023-01-12 | 2023-05-30 | 中国兵器装备集团自动化研究所有限公司 | 一种视觉目标处理方法、装置、设备及存储介质 |
CN116188820B (zh) * | 2023-01-12 | 2023-10-13 | 中国兵器装备集团自动化研究所有限公司 | 一种视觉目标处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109934846B (zh) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109934846A (zh) | 基于时间和空间网络的深度集成目标跟踪方法 | |
Xu et al. | Segment as points for efficient online multi-object tracking and segmentation | |
CN109360226B (zh) | 一种基于时间序列多特征融合的多目标跟踪方法 | |
CN109800689B (zh) | 一种基于时空特征融合学习的目标跟踪方法 | |
CN111260661B (zh) | 一种基于神经网络技术的视觉语义slam系统及方法 | |
CN111179307A (zh) | 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法 | |
CN110569706A (zh) | 一种基于时间和空间网络的深度集成目标跟踪算法 | |
CN112489081B (zh) | 一种视觉目标跟踪方法及装置 | |
CN113706581B (zh) | 基于残差通道注意与多层次分类回归的目标跟踪方法 | |
CN111091583B (zh) | 长期目标跟踪方法 | |
CN113628244A (zh) | 基于无标注视频训练的目标跟踪方法、系统、终端及介质 | |
CN107194948B (zh) | 基于集成式预测与时空域传播的视频显著性检测方法 | |
CN108898076A (zh) | 一种视频行为时间轴定位及候选框提取的方法 | |
CN112927264A (zh) | 一种无人机跟踪拍摄系统及其rgbd跟踪方法 | |
CN109255799B (zh) | 一种基于空间自适应相关滤波器的目标跟踪方法及系统 | |
CN115909110A (zh) | 一种基于Siamese网络的轻量级红外无人机目标跟踪方法 | |
CN116051601A (zh) | 一种深度时空关联的视频目标跟踪方法及系统 | |
CN112767440A (zh) | 一种基于siam-fc网络的目标跟踪方法 | |
CN110544267B (zh) | 一种自适应选择特征的相关滤波跟踪方法 | |
CN113870312B (zh) | 基于孪生网络的单目标跟踪方法 | |
CN110688512A (zh) | 基于ptgan区域差距与深度神经网络的行人图像搜索算法 | |
CN109344712B (zh) | 一种道路车辆跟踪方法 | |
CN113870330A (zh) | 基于特定标签和损失函数的孪生视觉跟踪方法 | |
CN116934796B (zh) | 基于孪生残差注意力聚合网络的视觉目标跟踪方法 | |
CN117576149A (zh) | 一种基于注意力机制的单目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |