CN109934846B - 基于时间和空间网络的深度集成目标跟踪方法 - Google Patents

基于时间和空间网络的深度集成目标跟踪方法 Download PDF

Info

Publication number
CN109934846B
CN109934846B CN201910201525.4A CN201910201525A CN109934846B CN 109934846 B CN109934846 B CN 109934846B CN 201910201525 A CN201910201525 A CN 201910201525A CN 109934846 B CN109934846 B CN 109934846B
Authority
CN
China
Prior art keywords
network
time
space
target
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910201525.4A
Other languages
English (en)
Other versions
CN109934846A (zh
Inventor
胡昭华
陈胡欣
李高飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN201910201525.4A priority Critical patent/CN109934846B/zh
Publication of CN109934846A publication Critical patent/CN109934846A/zh
Application granted granted Critical
Publication of CN109934846B publication Critical patent/CN109934846B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于时间和空间网络的深度集成目标跟踪方法,采用VGG‑16网络提取第三、四、五层的特征,将传统相关滤波算法表示成一层卷积神经网络以获取相关滤波网络,在相关滤波网络的基础上构建时间网络和空间网络,进一步捕捉目标的时间信息和空间信息,提高算法的精确度,同时本发明通过自适应权重的集成学习算法融合所有弱跟踪器成强跟踪器来实现目标跟踪,集成学习使得本发明有较好的鲁棒性,能应对复杂场景下的目标跟踪,最后提出短时更新与长时更新相结合的更新策略,确保模型的稳定性。

Description

基于时间和空间网络的深度集成目标跟踪方法
技术领域
本发明涉及图像处理和计算机视觉技术领域,具体而言涉及一种基于时间和空间网络的 深度集成目标跟踪方法,通过特征提取、构建深度网络以及集成弱跟踪器来实现对目标的精 准跟踪,可应用于车辆导航、人机交互和视频监控等领域。
背景技术
视觉目标跟踪是计算机视觉领域中的一项基本问题,可广泛应用于车辆导航、视频监控、 人机交互等许多实际系统中。该问题的核心是如何利用极其有限的训练数据(通常是第一帧 中的边界框)来开发出一个鲁棒的外观模型。在过去几十年里视觉目标跟踪技术取得了长足 的进步,主要有基于相关滤波的跟踪方法和基于深度学习的跟踪方法。
基于相关滤波的目标跟踪由于其计算速度快而受到越来越多的关注。Bolme等人(Bolme D S,Beveridge J R,Draper B A,et al.Visual object tracking usingadaptive correlation filters[C]//Computer Vision and Pattern Recognition(CVPR),2010IEEE Conference on.IEEE,2010: 2544-2550.)开发了最小输出平方和误差(MOSSE)的方法来学习滤波器,并且使用强度特征 进行目标表示。为了提高跟踪精度,后续的研究者又对MOSSE进行了优化。Henriques等人 (Henriques J F,Caseiro R,Martins P,et al.High-speed tracking with kernelized correlation filters[J]. IEEETransactions on Pattern Analysis and Machine Intelligence,2015,37(3):583-596.)提出核化 相关滤波器(KCF),其在相关滤波中引入核空间,通过核函数将原来线性空间中的脊回归映 射到非线性空间,在非线性空间中求解一个对偶问题,同时提出将多通道特征融入相关滤波 的方法,采用方向梯度直方图特征表示目标。但是上述的相关滤波算法存在两个方面的局限 性。首先,学习相关滤波器和特征提取是相互独立的,即没有端到端地去训练模型。第二, 大多数相关滤波算法的更新方式比较单一,基本都是用线性插值来更新学习过的滤波器以达 到模型自适应的效果,实际上这种方法只是经验操作,一旦有噪声进行更新,就会导致目标 漂移。
最近三年利用深度学习的目标跟踪方法取得了令人满意的效果,使目标跟踪技术获得了 突破性的进展。对于视觉识别任务,深度学习模型需要大量标记的训练样本,而在目标跟踪 问题中,唯一标记的样本只有第一帧标注的目标位置,所以直接将深度学习模型应用于在线 跟踪方法是不可行的。以往基于深度学习的跟踪方法通过大量标记视频,离线学习通用特征 表示。例如,Nam等人(Nam H,Han B.Learning multi-domainconvolutional neural networks for visual tracking[C]//Computer Vision andPattern Recognition(CVPR),2016IEEE Conference on. IEEE,2016:4293-4302.)提出MDNet跟踪方法,该算法利用类似于跟踪基准中的视频序列来 离线学习深度模型,并使用目标基准测试序列对离线学习的模型进行在线微调,这种方法不 仅容易产生过拟合,而且离线训练耗时过长。此外在视觉识别算法中使用神经网络作为在线 分类器,通过最后一个卷积层的输出来表示目标。由于最后一层的特征有较高的语义信息, 容易推断出物体的类别,所以使用最后一层的特征对于视觉识别任务是非常有效的。但是对 于目标跟踪任务,仅仅使用最后一层的特征来表示目标是不够的,因为它还需要对目标进行 精准定位。
根据上述算法及研究的不足,本发明提出一种基于时间和空间的深度集成目标跟踪方法。 因为空间卷积运算类似于循环移位样本和相关滤波器之间的点积,所以可以将相关滤波算法 重新定义为一层卷积神经网络(相关滤波网络),直接生成响应映射作为连续帧之间的空间相 关性,这种作法可以消除循环移位样本导致的边界效应问题。与此同时,本发明采用历史目 标样本来学习一个时间网络,用以捕获目标的时间信息。为了进一步挖掘目标的空间信息, 在相关滤波网络的基础上构建一个空间网络用于细化目标位置。采用跳跃式连接方式将相关 滤波网络、时间网络以及空间网络组合成新的深度网络,该网络是完全可微的,它允许使用 反向传播算法更新卷积滤波器。此外把通过VGG-16网络所生成的特征映射送入新的深度网 络中用以构造弱跟踪器,使用自适应权重的集成学习算法将所有弱跟踪器融合成强跟踪器, 从而得到目标位置。利用短时更新和长时更新相结合的方式对跟踪模型进行更新,新的更新 方式进一步提高算法的精确度。
发明内容
为了使跟踪器在光照变化,尺度变换,目标遮挡,目标形变,运动模糊,快速运动,平 面内旋转,平面外旋转,出视野,背景杂波,低分辨率等复杂场景下,依然可以准确地跟踪 目标,本发明提出一种基于时间和空间网络的深度集成目标跟踪方法,采用VGG-16网络提 取深度特征,加入时间和空间网络,运用集成学习并且采用短时更新和长时更新相结合的更 新策略,实现一种精确鲁棒的跟踪方法。
为达成上述目的,结合图1,本发明提出一种基于时间和空间网络的深度集成目标跟踪 方法,所述目标跟踪方法包括:
采用VGG-16网络提取目标的深度特征,将相关滤波算法表示成一层卷积神经网络,以得 到相关滤波网络,在相关滤波网络的基础上构建时间网络和空间网络,时间网络和空间网络 分别用于捕捉目标的时间信息和空间信息,采用跳跃式连接的方式将相关滤波网络、时间网 络以及空间网络相连得到深度网络。
训练深度网络,直至深度网络所包含的相关滤波网络、时间网络以及空间网络这三个模 型全部收敛。
从当前帧的图片中提取第一搜索块,从前一帧的图片中提取第二搜索块,采用VGG-16网 络提取第一搜索块和第二搜索块的特征,并且将提取的特征导入深度网络的三个模型中以生 成响应映射,将每个模型视为弱跟踪器,利用自适应权重的集成学习算法引擎融合所有弱跟 踪器得到最终的目标位置。
为了解决现存跟踪方法的局限性以及复杂场景下目标丢失的问题,提出一种基于时间和 空间网络的深度集成目标跟踪方法。在OTB跟踪基准数据集上的大量实验证明,本发明与先 进的跟踪器相比具有良好的性能。
本发明所提及的基于时间和空间网络的深度集成目标跟踪方法的具体步骤为:
步骤一:提取深度特征。
本发明采用VGG-16网络提取深度特征。VGGNet相比于AlexNet有更深的网络结构,它 成功地构筑了16~19层深的卷积神经网络,并且该网络有很好的拓展性,迁移到目标跟踪任 务上的泛化能力强。此外VGGNet使用130万张imageNet数据集上的图片进行训练,它在图 像分类任务上取得了鲁棒的效果。一般地,浅层的深度特征提供目标的位置信息,深层的深 度特征包含更多的语义信息可以用来处理目标形变和防止跟踪器漂移。因此VGGNet通过从不 同层提取特征,来达到更详细的描述目标对象。本发明提取了VGG-16网络的第三、四、五层 上的特征,用来弥补单层深度特征目标信息不足的问题。
步骤二:构建深度网络。
本发明构建的深度网络由相关滤波网络、时间网络以及空间网络构成。根据相关滤波算 法的跟踪原理得出,学习相关滤波器Ω'就是解决下面最小化目标函数问题:
Figure BDA0001997602910000031
其中X表示输入样本,Y表示对应的高斯函数标签,*代表卷积,λ是正则化参数。本发 明将相关滤波跟踪方法的学习过程重新定义为卷积神经网络的代价函数最小化问题。代价函 数的一般形式为:
Figure BDA0001997602910000032
其中M是样本的数量,X(i)表示第i个输入样本,Y(i)表示第i个样本所对应的高斯标签,
L(Y(i),F(X(i);Θ))代表第i个样本的损失函数,F(X(i);Θ)是第i个样本的网络输出即预测值,
P(Θ)是正则化函数。本发明令M=1,采用l2损失函数,将l2范数作为正则化函数,公式(3)改 写为如下形式:
J(Θ)=||F(X;Θ)-Y||2+λ||Θ||2 (4)
公式(5)中当输入样本X通过一个卷积层时,其网络输出F(X;Θ)=Θ*X,公式(6)中的 卷积滤波器Θ等价于公式(7)中的相关滤波器Ω',相关滤波算法中的目标函数也等价于网络 中的代价函数。如公式(8)所述,本发明将相关滤波算法表示成一层卷积神经网络,该网络被 定义成相关滤波网络。
本发明在相关滤波网络的基础上提出空间网络。由于特征提取网络的加深,空间信息变 得越来越弱,为了解决这个问题,本发明采用三层卷积神经网络框架构成空间网络,前两个 卷积层对空间信息进行整合,最后一个卷积层是对前一个卷积层通道数的降维,目的是为了 使空间网络的输出和相关滤波网络的输出维数保持一致。
此外,空间网络只能捕捉当前帧的空间信息,当目标变化剧烈时,只靠空间信息学习到 的模型是不稳定的。因此本发明又设计了一种与空间网络结构相似的时间网络,用以捕获时 间历史信息。时间网络是由一层卷积神经网络构成,目的是为了提取前一帧的历史信息。
本发明采用跳跃式连接的方式将相关滤波网络、时间网络以及空间网络相连得到一种新 的深度网络。跳跃式连接可以增强梯度传播,增加网络层数以及促进网络收敛。此外,这种 连接方式最重要的作用是可以促进时间和空间信息的传递,防止信息的丢失。与此同时采用 跳跃式连接方式时,各层网络输出的通道维数需保持一致。最终得到的响应映射为:
F(Xt)=Fspatial(Xt)+FCF(Xt)+Ftemporal(Xt-1) (9)
公式(10)中,Xt代表当前帧的特征映射图,Xt-1代表前一帧的特征映射图,Fspatial(·)代 表空间网络的输出,FCF(·)代表相关滤波网络的输出,Ftemporal(·)表示时间网络的输出。
步骤三:训练网络。
本发明不需要进行耗时的离线训练,只需要给定一个带有目标位置的输入帧,提取以目 标位置为中心的训练块,将其放入网络框架中用于特征提取和响应映射。采用VGG-16网络进 行特征提取,相关滤波网络、时间网络以及空间网络不需要单独进行训练。第一帧的训练块 经过VGG-16网络得到第三、四、五层的特征映射图,然后将这三层的特征映射分别送入由相 关滤波网络、时间网络以及空间网络连接成的深度网络中,同时训练三个模型,直到收敛为 止。
步骤四:在线检测。
本发明从当前帧的图片中提取搜索块p1,与此同时,从前一帧的图片中提取搜索块p2。 用VGG-16网络提取两个搜索块的特征送入与之对应训练好的三个模型中来生成响应映射, 每个模型视为弱跟踪器,利用自适应权重的集成学习算法融合所有弱跟踪器得到最终的目标 位置。
本发明采用自适应权重的集成学习算法引擎,来解决多专家决策理论的在线学习问题。 在视觉跟踪问题中,将弱跟踪器视为专家。第l个专家的响应映射为:
Figure BDA0001997602910000041
其中k=3,4,5代表VGG-16网络的第三、四、五层。
第l个专家的目标位置为:
Figure BDA0001997602910000042
那么最终预测的目标位置是多个专家加权的结果即:
Figure BDA0001997602910000043
其中
Figure BDA0001997602910000051
是第l个专家的权重。
Figure BDA0001997602910000052
Figure BDA0001997602910000053
公式(16)是每个专家决策损失的描述。公式(17)中引入决策分析中常用的后悔值准则, 后悔值准则被定义为所有专家决策损失的平均值减去每个专家的决策损失。
Figure BDA0001997602910000054
公式(19)是计算第l个专家的稳定性,其中决策损失的均值
Figure BDA0001997602910000055
决策损失的 标准差/>
Figure BDA0001997602910000056
如公式(20)所述,当/>
Figure BDA0001997602910000057
较小时,说明专家趋于稳定,相反 如果/>
Figure BDA0001997602910000058
的值较大,说明专家性能差。
Figure BDA0001997602910000059
Figure BDA00019976029100000510
Figure BDA00019976029100000511
公式(24)代表求解累积的后悔值,其中
Figure BDA00019976029100000512
代表历史后悔值。公式(25)中,ζ为比例因子 控制指数函数的形状,H代表当前帧后悔值的最大权重,用以避免没有历史后悔值。公式(26) 是计算下一帧的权重分布,其中/>
Figure BDA00019976029100000513
表示/>
Figure BDA00019976029100000514
σt代表比例因子,通过求解
Figure BDA00019976029100000515
得到。
步骤五:模型更新。本发明提出短时更新与长时更新相结合的更新策略。短时更新求解 模型可靠性,方法与集成学习中计算专家稳定性一样。当
Figure BDA00019976029100000516
值小时,说明专家稳定,该专家 对应的模型不需要进行更新。相反当/>
Figure BDA00019976029100000517
值大时,根据公式(27)可以推算出此时/>
Figure BDA00019976029100000518
值较小,当 其小于阈值D时,说明专家性能差,此时需要对其所对应的模型进行更新,本发明利用当前 帧的搜索块和预测值组成训练对,输入到模型中进行在线更新。除此之外,本发明加入长时 更新,即每S帧对三个模型均进行一次更新,用到的训练数据是在线检测期间持续生成的搜 索块和预测的真值响应图。
本发明首先用VGG-16网络提取第三、四、五层的特征,与单层深度特征相比,本方法 有丰富的特征来描述目标对象。之后提出相关滤波网络将传统相关滤波算法表示成一层卷积 神经网络,使本发明不需要进行耗时的离线训练,在相关滤波网络的基础上构建时间网络和 空间网络,进一步捕捉目标的时间信息和空间信息,提高算法的精确度。同时本发明通过自 适应权重的集成学习算法融合所有弱跟踪器成强跟踪器来实现目标跟踪,集成学习使得本发 明有较好的鲁棒性,能应对复杂场景下的目标跟踪。最后提出短时更新与长时更新相结合的 更新策略,确保模型的稳定性。
以上本发明的技术方案,与现有相比,其显著的有益效果在于
(1)提出相关滤波网络。将特征提取、跟踪模型和模型更新:集成到卷积神经网络中进 行端到端地训练。
(2)针对视觉目标跟踪问题,本发明提出了一种新的深度架构,该架构融合了目标的时 间信息和空间信息,以产生高性能的跟踪结果。
(3)本发明应用集成学习,以应对不同的挑战因素。
(4)提出新的更新方式,使集成学习和网络更新相互联系,以提高算法的精确度和鲁棒 性。
应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构 思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。另外,所要求保护的主题 的所有组合都被视为本公开的发明主题的一部分。
结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和 特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显 见,或通过根据本发明教导的具体实施方式的实践中得知。
附图说明
附图不意在按比例绘制。在附图中,在各个图中示出的每个相同或近似相同的组成部分 可以用相同的标号表示。为了清晰起见,在每个图中,并非每个组成部分均被标记。现在, 将通过例子并参考附图来描述本发明的各个方面的实施例,其中:
图1是本发明的基于基于时间和空间网络的深度集成目标跟踪方法的流程图。
图2为本发明提出的基于时间和空间网络的深度集成目标跟踪方法的整体框架图。
图3为本发明可视化VGG-16网络的卷积层示意图。
图4为本发明提出的深度网络结构图。
图5为本发明提出的模型更新策略流程图。
图6为本发明对10个测试视频跟踪结果抽样帧。
图7为本发明在OPE评估方式下与8种跟踪器的综合跟踪性能比较图。
图8为本发明在六种挑战因子的OPE评估方式下与8种跟踪器的综合跟踪性能比较图。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
本发明使用MatConvNet工具箱,硬件平台采用Intel i7-87003.2GHz CPU,8GBRAM, NIVIDIA GTX 1060GPU。
本发明提出的基于时间和空间网络的深度集成目标跟踪方法的整体框架图如图2所示, 具体包括以下操作步骤:
(1)步骤一:提取深度特征。本发明采用VGG-16网络提取深度特征。VGGNet相比于AlexNet有更深的网络结构,它成功地构筑了16~19层深的卷积神经网络,并且该网络有很好 的拓展性,迁移到目标跟踪任务上的泛化能力强。此外VGGNet使用130万张imageNet数据 集上的图片进行训练,它在图像分类任务上取得了鲁棒的效果。如图3所示,在(b)(c)两组图 中能够比较清晰的看到目标轮廓,因此第三层和第四层的特征有较高的分辨率能精确定位到 目标。同时在(d)组图中已经很难看出目标细节,但是在背景变化剧烈的情况下第五层的特征 能有效区分目标和背景。换句话说,浅层的深度特征提供目标的位置信息,深层的深度特征 包含更多的语义信息可以用来处理目标形变和防止跟踪器漂移。算法的特征提取网络来自于 VGG-16网络,且去除了第三层和第五层的池化层以及全连接层。本发明分别从Conv3_3, Conv4_3,Conv5_3层提取特征映射图,然后通过主成分分析算法将提取到的特征进行降维, 使通道数降至64维。
(2)步骤二:构建深度网络。本发明构建的深度网络由相关滤波网络、时间网络以及空间 网络构成,深度网络的结构图如图4所示,根据相关滤波算法的跟踪原理得出,学习相关滤 波器Ω'就是解决下面最小化目标函数问题:
Figure BDA0001997602910000071
其中X表示输入样本,Y表示对应的高斯函数标签,*代表卷积,λ是正则化参数。本发 明将相关滤波跟踪方法的学习过程重新定义为卷积神经网络的代价函数最小化问题。代价函 数的一般形式为:
Figure BDA0001997602910000072
其中M是样本的数量,X(i)表示第i个输入样本,Y(i)表示第i个样本所对应的高斯标签, L(Y(i),F(X(i);Θ))代表第i个样本的损失函数,F(X(i);Θ)是第i个样本的网络输出即预测值, P(Θ)是正则化函数。本发明令M=1,采用l2损失函数,将l2范数作为正则化函数,公式(30)
J(Θ)=||F(X;Θ)-Y||2+λ||Θ||2 (31)
公式(32)中当输入样本X通过一个卷积层时,其网络输出F(X;Θ)=Θ*X,公式(33)中 的卷积滤波器Θ等价于公式(34)中的相关滤波器Ω',相关滤波算法中的目标函数也等价于网 络中的代价函数。如公式(35)所述,本发明将相关滤波算法表示成一层卷积神经网络,该网 络为相关滤波网络Conv_11,相关滤波网络的滤波器大小需要覆盖目标,用梯度下降算法和 反向传播算法代替原来的闭式解去训练参数。
本发明在相关滤波网络的基础上提出空间网络。由于特征提取网络的加深,空间信息变 得越来越弱,为了解决这个问题,本发明采用三层卷积神经网络框架构成空间网络如图3所 示,前两个卷积层Conv_21和Conv_22是对空间信息进行整合,最后一个卷积层Conv_23是 对前一个卷积层通道数的降维,目的是为了使空间网络的输出和相关滤波网络的输出维数保 持一致。空间网络的具体细节见表格1。
此外,空间网络只能捕捉当前帧的空间信息,当目标变化剧烈时,只靠空间信息学习到 的模型是不稳定的。因此本发明又设计了一种与空间网络结构相似的时间网络如图3所示, 用以捕获时间历史信息。时间网络Conv_31是由一层卷积神经网络构成,目的是为了提取前 一帧的历史信息。时间网络的具体细节见表1。
深度网络最终得到的响应映射为:
F(Xt)=Fspatial(Xt)+FCF(Xt)+Ftemporal(Xt-1) (36)
公式(37)中Xt代表当前帧的特征映射图,Xt-1代表前一帧的特征映射图,Fspatial(Xt)代表空 间网络的输出,FCF(Xt)代表相关滤波网络的输出,Ftemporal(Xt-1)表示时间网络的输出。
表1.卷积层嵌入函数的体系结构
Figure BDA0001997602910000084
(3)步骤三:训练网络。本发明不需要进行耗时的离线训练,只需要给定一个带有目标位 置的输入帧(第一帧),提取以目标位置为中心的训练块,将其放入网络框架中用于特征提取 和响应映射。第一帧得到的训练块大小是目标宽度和高度最大值的5倍。采用VGG-16网络 进行特征提取,与此同时相关滤波网络、时间网络以及空间网络的参数都初始化为零均值高 斯分布,此外上述三个网络不需要单独进行训练。第一帧的训练块经过VGG-16网络得到第 三、四、五层的特征映射图,然后将这三层的特征映射分别送入由相关滤波网络、时间网络 以及空间网络连接成的深度网络中,同时训练三个模型,直到收敛为止。训练阶段的学习率 为5e-8,迭代次数为1000次,优化器采用Adam算法。
(4)步骤四:在线检测。本发明以前一帧预测的目标位置为中心在当前帧的图片中提取搜 索块p1。与此同时,还是以前一帧预测的目标位置为中心在前一帧的图片中提取搜索块p2, 搜索块的大小与训练块的大小一致。用VGG-16网络提取两个搜索块的特征送入与之对应训 练好的三个模型中来生成响应映射,每个模型视为弱跟踪器,利用自适应权重的集成学习算 法融合所有弱跟踪器得到最终的目标位置。在预测目标位置后,采用尺度估计算法对目标大 小进行预测。本发明提取三个不同尺度的候选目标,尺度因子被设置为(1,0.95,1.05),调整所 有候选块的大小使其与训练块的大小相同,将这些候选块送入模型中(第三层特征对应的模 型)以生成响应图。一旦有了响应图,通过搜索最大响应值来预测目标大小。
本发明采用自适应权重的集成学习算法,用于解决多专家决策理论的在线学习问题。在 视觉跟踪问题中,将弱跟踪器视为专家。第l个专家的响应映射为:
Figure BDA0001997602910000091
其中k=3,4,5代表VGG-16网络的第三、四、五层。第l个专家的目标位置为:
Figure BDA0001997602910000092
那么最终预测的目标位置是多个专家加权的结果即:
Figure BDA0001997602910000093
其中
Figure BDA0001997602910000094
是第l个专家的权重。
Figure BDA0001997602910000095
Figure BDA0001997602910000096
公式(43)是每个专家决策损失的描述。公式(44)中引入决策分析中常用的后悔值准则, 后悔值准则被定义为所有专家决策损失的平均值减去每个专家的决策损失。
Figure BDA0001997602910000097
公式(46)是计算第l个专家的稳定性,其中决策损失的均值
Figure BDA0001997602910000098
决策损失的 标准差/>
Figure BDA0001997602910000099
设置一段时间Δt=5,如公式(47)所述,当/>
Figure BDA00019976029100000910
较小时,说 明专家趋于稳定,相反如果/>
Figure BDA00019976029100000911
的值较大,说明专家性能差。
Figure BDA00019976029100000912
Figure BDA0001997602910000101
Figure BDA0001997602910000102
公式(51)代表求解累积的后悔值,其中
Figure BDA0001997602910000103
代表历史后悔值。公式(52)中,ζ=10为比例 因子控制指数函数的形状,H=0.97代表当前帧后悔值的最大权重,用以避免没有历史后悔值。 公式(53)是计算下一帧的权重分布,其中/>
Figure BDA0001997602910000104
表示/>
Figure BDA0001997602910000105
σt代表比例因子,通过求 解/>
Figure BDA0001997602910000106
得到。
(5)步骤五:模型更新。如图5所示,本发明提出短时更新与长时更新相结合的更新策略。 短时更新求解模型可靠性,方法与集成学习中计算专家稳定性一样。当
Figure BDA0001997602910000107
值小时,说明专家 稳定,该专家对应的模型不需要进行更新。相反当/>
Figure BDA0001997602910000108
值大时,根据公式(54)可以推算出此时 />
Figure BDA0001997602910000109
值较小,当其小于阈值D=0.12时,说明专家性能差,此时需要对其所对应的模型进行更新, 本发明利用当前帧的搜索块和预测值组成训练对,输入到模型中进行在线更新。除此之外, 本发明加入长时更新,即每S=10帧对三个模型均进行一次更新,用到的训练数据是在线检 测期间持续生成的搜索块和预测的真值响应图。更新阶段的学习率为2e-9,迭代次数2次, 优化器采用Adam算法。
评估测试
本发明通过一次性评估(OPE)准则以及精确度和成功率度量来衡量跟踪器的性能。选 取90个不同属性的视频序列测试本发明的目标跟踪方法,并与其它跟踪器(TRACA、ACFN、 CFNet、SiamFC、SCT、Staple、SRDCF、CNN-SVM等8种跟踪器)在不同的挑战因素(如 快速运动、运动模糊、光照变化、平面外旋转、目标形变、遮挡等情况)下进行对比。图6是 本发明与8种跟踪器对10个测试视频((a)Bolt2、(b)Box、(c)DragonBaby、(d)Girl2、(e)Human9、(f)Ironman、(g)KiteSurf、(h)Matrix、(i)Skating1、(j)Skiing)跟踪结果抽样帧,图 7从精确度(precision)和成功率(Success rate)两个方面给出了本发明与其他8种跟踪器的 性能对比图。图8是本发明在快速运动、运动模糊、光照变化、平面外旋转、目标形变、遮 挡六种挑战因子的OPE评估方式下与8种跟踪器的综合跟踪性能比较图。正如图5所示,本 发明的算法可以准确的跟踪到图例中大多数挑战性序列。总的来说,本发明的跟踪方法比最 近几年的跟踪方法更加精确和鲁棒,特别是在具有挑战性的场景中
在本公开中参照附图来描述本发明的各方面,附图中示出了许多说明的实施例。本公开 的实施例不必定义在包括本发明的所有方面。应当理解,上面介绍的多种构思和实施例,以 及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施,这是因为 本发明所公开的构思和实施例并不限于任何实施方式。另外,本发明公开的一些方面可以单 独使用,或者与本发明公开的其他方面的任何适当组合来使用。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域 中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本 发明的保护范围当视权利要求书所界定者为准。

Claims (10)

1.一种基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述目标跟踪方法包括:
采用VGG-16网络提取目标的深度特征,将相关滤波算法表示成一层卷积神经网络,以得到相关滤波网络,在相关滤波网络的基础上构建时间网络和空间网络,时间网络和空间网络分别用于捕捉目标的时间信息和空间信息,采用跳跃式连接的方式将相关滤波网络、时间网络以及空间网络相连得到深度网络;
训练深度网络,直至深度网络所包含的相关滤波网络、时间网络以及空间网络这三个模型全部收敛;
从当前帧的图片中提取第一搜索块,从前一帧的图片中提取第二搜索块,采用VGG-16网络提取第一搜索块和第二搜索块的特征,并且将提取的特征导入深度网络的三个模型中以生成响应映射,将每个模型视为弱跟踪器,利用自适应权重的集成学习算法引擎融合所有弱跟踪器得到最终的目标位置。
2.根据权利要求1所述的基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述采用VGG-16网络提取目标的深度特征是指,
提取了VGG-16网络的第三、四、五层上的特征作为目标的深度特征。
3.根据权利要求1所述的基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述将相关滤波算法表示成一层卷积神经网络,以得到相关滤波网络包括以下步骤:
获取卷积神经网络的代价函数,获取的代价函数为:
Figure FDA0004083409210000011
其中,M是样本的数量,X(i)表示第i个输入样本,Y(i)表示第i个样本所对应的高斯标签,L(·)代表第i个样本的损失函数,F(·)是第i个样本的网络输出即预测值,P(·)是正则化函数,Θ代表卷积滤波器,λ是正则化参数;
令M=1,采用l2损失函数,将l2范数作为正则化函数,代价函数改写为如下形式:
J(Θ)=‖F(X;Θ)-Y‖2+λ‖Θ‖2
其中,X表示输入样本,Y表示对应的高斯函数标签,当输入样本X通过一个卷积层时,其网络输出F(X;Θ)=Θ*X,*代表卷积。
4.根据权利要求1所述的基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述深度网络为:
F(Xt)=Fspatial(Xt)+FCF(Xt)+Ftemporal(Xt-1)
其中,Xt代表当前帧的特征映射图,Xt-1代表前一帧的特征映射图,Fspatial(·)代表空间网络的输出,FCF(·)代表相关滤波网络的输出,Ftemporal(·)表示时间网络的输出。
5.根据权利要求1所述的基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述训练深度网络包括以下步骤:
选择一个带有目标位置的输入帧,提取以目标位置为中心的训练块,将其放入网络框架中用于特征提取和响应映射,将获取的特征映射分别送入由相关滤波网络、时间网络以及空间网络连接成的深度网络中,同时训练相关滤波网络、时间网络以及空间网络这三个模型,直至三个模型全部收敛。
6.根据权利要求1所述的基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述将每个模型视为弱跟踪器,利用自适应权重的集成学习算法引擎融合所有弱跟踪器得到最终的目标位置包括以下步骤:
在视觉跟踪问题中,将弱跟踪器视为专家,设第l个专家的响应映射为:
Figure FDA0004083409210000021
其中k=3,4,5分别代表VGG-16网络的第三、四、五层;
则第l个专家的目标位置为:
Figure FDA0004083409210000022
最终预测的目标位置是多个专家加权的结果,即:
Figure FDA0004083409210000023
Figure FDA0004083409210000024
其中,
Figure FDA0004083409210000025
是第l个专家的权重,L为弱跟踪器总数量。
7.根据权利要求6所述的基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述将每个模型视为弱跟踪器,利用自适应权重的集成学习算法引擎融合所有弱跟踪器得到最终的目标位置还包括以下步骤:
采用下述公式以计算下一帧的权重分布:
Figure FDA0004083409210000026
Figure FDA0004083409210000027
Figure FDA0004083409210000028
Figure FDA0004083409210000029
其中,
Figure FDA00040834092100000210
表示/>
Figure FDA00040834092100000211
σt代表比例因子,/>
Figure FDA00040834092100000212
代表求解累积的后悔值,/>
Figure FDA00040834092100000213
代表历史后悔值,ζ为比例因子控制指数函数的形状,H代表当前帧后悔值的最大权重,用以避免没有历史后悔值,/>
Figure FDA00040834092100000214
代表第l个专家的稳定性;
采用下述公式计算
Figure FDA00040834092100000215
Figure FDA00040834092100000216
Figure FDA00040834092100000217
Figure FDA00040834092100000218
/>
Figure FDA0004083409210000031
Figure FDA0004083409210000032
其中,
Figure FDA0004083409210000033
代表每个专家决策损失,/>
Figure FDA0004083409210000034
代表决策分析中的后悔值,表示为所有专家决策损失的平均值减去每个专家的决策损失,/>
Figure FDA0004083409210000035
代表决策损失的均值,/>
Figure FDA0004083409210000036
代表决策损失的标准差。
8.根据权利要求1所述的基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述目标跟踪方法还包括:
采用短时更新与长时更新相结合的更新策略对深度网络进行更新。
9.根据权利要求8所述的基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述短时更新包括以下步骤:
计算每个弱跟踪器的稳定性
Figure FDA0004083409210000037
采用下述公式判断每个弱跟踪器的性能值:
Figure FDA0004083409210000038
其中,ζ为比例因子控制指数函数的形状,H代表当前帧后悔值的最大权重,用以避免没有历史后悔值,
Figure FDA0004083409210000039
代表第l个专家的稳定性,L为弱跟踪器总数量;
判断每个弱跟踪器的性能值是否小于设定阈值D,若其中任意一个弱跟踪器的性能值小于设定阈值D,采用当前帧的搜索块和预测值组成训练对,输入到模型中进行在线更新。
10.根据权利要求8所述的基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述长时更新是指,
将在线检测期间持续生成的搜索块和预测的真值响应图作为训练数据,每S帧对深度网络的三个模型均进行一次更新。
CN201910201525.4A 2019-03-18 2019-03-18 基于时间和空间网络的深度集成目标跟踪方法 Active CN109934846B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910201525.4A CN109934846B (zh) 2019-03-18 2019-03-18 基于时间和空间网络的深度集成目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910201525.4A CN109934846B (zh) 2019-03-18 2019-03-18 基于时间和空间网络的深度集成目标跟踪方法

Publications (2)

Publication Number Publication Date
CN109934846A CN109934846A (zh) 2019-06-25
CN109934846B true CN109934846B (zh) 2023-06-06

Family

ID=66987435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910201525.4A Active CN109934846B (zh) 2019-03-18 2019-03-18 基于时间和空间网络的深度集成目标跟踪方法

Country Status (1)

Country Link
CN (1) CN109934846B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569706A (zh) * 2019-06-25 2019-12-13 南京信息工程大学 一种基于时间和空间网络的深度集成目标跟踪算法
CN110580712B (zh) * 2019-08-27 2023-04-25 江南大学 一种使用运动信息与时序信息的改进CFNet视频目标追踪方法
CN110738684A (zh) * 2019-09-12 2020-01-31 昆明理工大学 一种基于相关滤波融合卷积残差学习的目标跟踪方法
CN110837806B (zh) * 2019-11-11 2020-07-28 辽宁科技学院 一种基于深度卷积记忆网络的室内定位方法
CN111340838B (zh) * 2020-02-24 2022-10-21 长沙理工大学 一种基于多种特征融合的背景时空相关滤波跟踪方法
CN111681263B (zh) * 2020-05-25 2022-05-03 厦门大学 基于三值量化的多尺度对抗性目标跟踪算法
CN112053386B (zh) * 2020-08-31 2023-04-18 西安电子科技大学 基于深度卷积特征自适应集成的目标跟踪方法
CN112949662B (zh) * 2021-05-13 2021-11-16 北京市商汤科技开发有限公司 一种图像处理方法、装置、计算机设备以及存储介质
CN116188820B (zh) * 2023-01-12 2023-10-13 中国兵器装备集团自动化研究所有限公司 一种视觉目标处理方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106557774A (zh) * 2015-09-29 2017-04-05 南京信息工程大学 多通道核相关滤波的实时跟踪方法
CN107240122A (zh) * 2017-06-15 2017-10-10 国家新闻出版广电总局广播科学研究院 基于时空连续相关滤波的视频目标跟踪方法
CN108182388A (zh) * 2017-12-14 2018-06-19 哈尔滨工业大学(威海) 一种基于图像的运动目标跟踪方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102275452B1 (ko) * 2017-03-16 2021-07-12 한국전자통신연구원 색상과 형태를 동시에 고려한 실시간 영상 추적 방법 및 이를 위한 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106557774A (zh) * 2015-09-29 2017-04-05 南京信息工程大学 多通道核相关滤波的实时跟踪方法
CN107240122A (zh) * 2017-06-15 2017-10-10 国家新闻出版广电总局广播科学研究院 基于时空连续相关滤波的视频目标跟踪方法
CN108182388A (zh) * 2017-12-14 2018-06-19 哈尔滨工业大学(威海) 一种基于图像的运动目标跟踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Hedged Deep Tracking;Yuankai Qi等;《Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;20160630;第4303-4311页 *

Also Published As

Publication number Publication date
CN109934846A (zh) 2019-06-25

Similar Documents

Publication Publication Date Title
CN109934846B (zh) 基于时间和空间网络的深度集成目标跟踪方法
CN110210551B (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
Xu et al. Segment as points for efficient online multi-object tracking and segmentation
CN111179307A (zh) 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法
CN111693972A (zh) 一种基于双目序列图像的车辆位置与速度估计方法
US20170161591A1 (en) System and method for deep-learning based object tracking
CN112883819A (zh) 多目标跟踪方法、装置、系统及计算机可读存储介质
CN108470354A (zh) 视频目标跟踪方法、装置和实现装置
CN109859241B (zh) 自适应特征选择和时间一致性鲁棒相关滤波视觉跟踪方法
CN104615986B (zh) 利用多检测器对场景变化的视频图像进行行人检测的方法
CN110569706A (zh) 一种基于时间和空间网络的深度集成目标跟踪算法
CN111862145B (zh) 一种基于多尺度行人检测的目标跟踪方法
CN111080673A (zh) 一种抗遮挡目标跟踪方法
CN111931654A (zh) 一种人员跟踪智能监测方法、系统和装置
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
CN113706581A (zh) 基于残差通道注意与多层次分类回归的目标跟踪方法
CN112541441A (zh) 一种融合相关滤波的gm-phd视频多目标跟踪方法
CN111161325A (zh) 基于卡尔曼滤波与lstm的三维多目标跟踪方法
KR102434397B1 (ko) 전역적 움직임 기반의 실시간 다중 객체 추적 장치 및 방법
CN106529441A (zh) 基于模糊边界分片的深度动作图人体行为识别方法
CN110517285B (zh) 基于运动估计me-cnn网络的大场景极小目标跟踪
CN112164093A (zh) 一种基于边缘特征和相关滤波的人物自动跟踪方法
CN108898076A (zh) 一种视频行为时间轴定位及候选框提取的方法
CN115375733A (zh) 基于视频和点云数据的雪车雪橇三维滑行轨迹提取方法
CN108257148B (zh) 特定对象的目标建议窗口生成方法及其在目标跟踪的应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant