CN109934846B

CN109934846B - 基于时间和空间网络的深度集成目标跟踪方法

Info

Publication number: CN109934846B
Application number: CN201910201525.4A
Authority: CN
Inventors: 胡昭华; 陈胡欣; 李高飞
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2023-06-06
Anticipated expiration: 2039-03-18
Also published as: CN109934846A

Abstract

本发明公开了一种基于时间和空间网络的深度集成目标跟踪方法，采用VGG‑16网络提取第三、四、五层的特征，将传统相关滤波算法表示成一层卷积神经网络以获取相关滤波网络，在相关滤波网络的基础上构建时间网络和空间网络，进一步捕捉目标的时间信息和空间信息，提高算法的精确度，同时本发明通过自适应权重的集成学习算法融合所有弱跟踪器成强跟踪器来实现目标跟踪，集成学习使得本发明有较好的鲁棒性，能应对复杂场景下的目标跟踪，最后提出短时更新与长时更新相结合的更新策略，确保模型的稳定性。

Description

基于时间和空间网络的深度集成目标跟踪方法

技术领域

本发明涉及图像处理和计算机视觉技术领域，具体而言涉及一种基于时间和空间网络的深度集成目标跟踪方法，通过特征提取、构建深度网络以及集成弱跟踪器来实现对目标的精准跟踪，可应用于车辆导航、人机交互和视频监控等领域。

背景技术

视觉目标跟踪是计算机视觉领域中的一项基本问题，可广泛应用于车辆导航、视频监控、人机交互等许多实际系统中。该问题的核心是如何利用极其有限的训练数据(通常是第一帧中的边界框)来开发出一个鲁棒的外观模型。在过去几十年里视觉目标跟踪技术取得了长足的进步，主要有基于相关滤波的跟踪方法和基于深度学习的跟踪方法。

基于相关滤波的目标跟踪由于其计算速度快而受到越来越多的关注。Bolme等人(Bolme D S,Beveridge J R,Draper B A,et al.Visual object tracking usingadaptive correlation filters[C]//Computer Vision and Pattern Recognition(CVPR),2010IEEE Conference on.IEEE,2010: 2544-2550.)开发了最小输出平方和误差(MOSSE)的方法来学习滤波器，并且使用强度特征进行目标表示。为了提高跟踪精度，后续的研究者又对MOSSE进行了优化。Henriques等人 (Henriques J F,Caseiro R,Martins P,et al.High-speed tracking with kernelized correlation filters[J]. IEEETransactions on Pattern Analysis and Machine Intelligence,2015,37(3):583-596.)提出核化相关滤波器(KCF)，其在相关滤波中引入核空间，通过核函数将原来线性空间中的脊回归映射到非线性空间，在非线性空间中求解一个对偶问题，同时提出将多通道特征融入相关滤波的方法，采用方向梯度直方图特征表示目标。但是上述的相关滤波算法存在两个方面的局限性。首先，学习相关滤波器和特征提取是相互独立的，即没有端到端地去训练模型。第二，大多数相关滤波算法的更新方式比较单一，基本都是用线性插值来更新学习过的滤波器以达到模型自适应的效果，实际上这种方法只是经验操作，一旦有噪声进行更新，就会导致目标漂移。

最近三年利用深度学习的目标跟踪方法取得了令人满意的效果，使目标跟踪技术获得了突破性的进展。对于视觉识别任务，深度学习模型需要大量标记的训练样本，而在目标跟踪问题中，唯一标记的样本只有第一帧标注的目标位置，所以直接将深度学习模型应用于在线跟踪方法是不可行的。以往基于深度学习的跟踪方法通过大量标记视频，离线学习通用特征表示。例如，Nam等人(Nam H,Han B.Learning multi-domainconvolutional neural networks for visual tracking[C]//Computer Vision andPattern Recognition(CVPR),2016IEEE Conference on. IEEE,2016:4293-4302.)提出MDNet跟踪方法，该算法利用类似于跟踪基准中的视频序列来离线学习深度模型，并使用目标基准测试序列对离线学习的模型进行在线微调，这种方法不仅容易产生过拟合，而且离线训练耗时过长。此外在视觉识别算法中使用神经网络作为在线分类器，通过最后一个卷积层的输出来表示目标。由于最后一层的特征有较高的语义信息，容易推断出物体的类别，所以使用最后一层的特征对于视觉识别任务是非常有效的。但是对于目标跟踪任务，仅仅使用最后一层的特征来表示目标是不够的，因为它还需要对目标进行精准定位。

根据上述算法及研究的不足，本发明提出一种基于时间和空间的深度集成目标跟踪方法。因为空间卷积运算类似于循环移位样本和相关滤波器之间的点积，所以可以将相关滤波算法重新定义为一层卷积神经网络(相关滤波网络)，直接生成响应映射作为连续帧之间的空间相关性，这种作法可以消除循环移位样本导致的边界效应问题。与此同时，本发明采用历史目标样本来学习一个时间网络，用以捕获目标的时间信息。为了进一步挖掘目标的空间信息，在相关滤波网络的基础上构建一个空间网络用于细化目标位置。采用跳跃式连接方式将相关滤波网络、时间网络以及空间网络组合成新的深度网络，该网络是完全可微的，它允许使用反向传播算法更新卷积滤波器。此外把通过VGG-16网络所生成的特征映射送入新的深度网络中用以构造弱跟踪器，使用自适应权重的集成学习算法将所有弱跟踪器融合成强跟踪器，从而得到目标位置。利用短时更新和长时更新相结合的方式对跟踪模型进行更新，新的更新方式进一步提高算法的精确度。

发明内容

为了使跟踪器在光照变化，尺度变换，目标遮挡，目标形变，运动模糊，快速运动，平面内旋转，平面外旋转，出视野，背景杂波，低分辨率等复杂场景下，依然可以准确地跟踪目标，本发明提出一种基于时间和空间网络的深度集成目标跟踪方法，采用VGG-16网络提取深度特征，加入时间和空间网络，运用集成学习并且采用短时更新和长时更新相结合的更新策略，实现一种精确鲁棒的跟踪方法。

为达成上述目的，结合图1，本发明提出一种基于时间和空间网络的深度集成目标跟踪方法，所述目标跟踪方法包括：

采用VGG-16网络提取目标的深度特征，将相关滤波算法表示成一层卷积神经网络，以得到相关滤波网络，在相关滤波网络的基础上构建时间网络和空间网络，时间网络和空间网络分别用于捕捉目标的时间信息和空间信息，采用跳跃式连接的方式将相关滤波网络、时间网络以及空间网络相连得到深度网络。

训练深度网络，直至深度网络所包含的相关滤波网络、时间网络以及空间网络这三个模型全部收敛。

从当前帧的图片中提取第一搜索块，从前一帧的图片中提取第二搜索块，采用VGG-16网络提取第一搜索块和第二搜索块的特征，并且将提取的特征导入深度网络的三个模型中以生成响应映射，将每个模型视为弱跟踪器，利用自适应权重的集成学习算法引擎融合所有弱跟踪器得到最终的目标位置。

为了解决现存跟踪方法的局限性以及复杂场景下目标丢失的问题，提出一种基于时间和空间网络的深度集成目标跟踪方法。在OTB跟踪基准数据集上的大量实验证明，本发明与先进的跟踪器相比具有良好的性能。

本发明所提及的基于时间和空间网络的深度集成目标跟踪方法的具体步骤为：

步骤一：提取深度特征。

本发明采用VGG-16网络提取深度特征。VGGNet相比于AlexNet有更深的网络结构，它成功地构筑了16～19层深的卷积神经网络，并且该网络有很好的拓展性，迁移到目标跟踪任务上的泛化能力强。此外VGGNet使用130万张imageNet数据集上的图片进行训练，它在图像分类任务上取得了鲁棒的效果。一般地，浅层的深度特征提供目标的位置信息，深层的深度特征包含更多的语义信息可以用来处理目标形变和防止跟踪器漂移。因此VGGNet通过从不同层提取特征，来达到更详细的描述目标对象。本发明提取了VGG-16网络的第三、四、五层上的特征，用来弥补单层深度特征目标信息不足的问题。

步骤二：构建深度网络。

本发明构建的深度网络由相关滤波网络、时间网络以及空间网络构成。根据相关滤波算法的跟踪原理得出，学习相关滤波器Ω'就是解决下面最小化目标函数问题：

其中X表示输入样本，Y表示对应的高斯函数标签，*代表卷积，λ是正则化参数。本发明将相关滤波跟踪方法的学习过程重新定义为卷积神经网络的代价函数最小化问题。代价函数的一般形式为：

其中M是样本的数量，X⁽ⁱ⁾表示第i个输入样本，Y⁽ⁱ⁾表示第i个样本所对应的高斯标签，

L(Y⁽ⁱ⁾,F(X⁽ⁱ⁾；Θ))代表第i个样本的损失函数，F(X⁽ⁱ⁾；Θ)是第i个样本的网络输出即预测值，

P(Θ)是正则化函数。本发明令M＝1，采用l₂损失函数，将l₂范数作为正则化函数，公式(3)改写为如下形式：

J(Θ)＝||F(X；Θ)-Y||²+λ||Θ||² (4)

公式(5)中当输入样本X通过一个卷积层时，其网络输出F(X；Θ)＝Θ*X，公式(6)中的卷积滤波器Θ等价于公式(7)中的相关滤波器Ω'，相关滤波算法中的目标函数也等价于网络中的代价函数。如公式(8)所述，本发明将相关滤波算法表示成一层卷积神经网络，该网络被定义成相关滤波网络。

本发明在相关滤波网络的基础上提出空间网络。由于特征提取网络的加深，空间信息变得越来越弱，为了解决这个问题，本发明采用三层卷积神经网络框架构成空间网络，前两个卷积层对空间信息进行整合，最后一个卷积层是对前一个卷积层通道数的降维，目的是为了使空间网络的输出和相关滤波网络的输出维数保持一致。

此外，空间网络只能捕捉当前帧的空间信息，当目标变化剧烈时，只靠空间信息学习到的模型是不稳定的。因此本发明又设计了一种与空间网络结构相似的时间网络，用以捕获时间历史信息。时间网络是由一层卷积神经网络构成，目的是为了提取前一帧的历史信息。

本发明采用跳跃式连接的方式将相关滤波网络、时间网络以及空间网络相连得到一种新的深度网络。跳跃式连接可以增强梯度传播，增加网络层数以及促进网络收敛。此外，这种连接方式最重要的作用是可以促进时间和空间信息的传递，防止信息的丢失。与此同时采用跳跃式连接方式时，各层网络输出的通道维数需保持一致。最终得到的响应映射为：

F(X_t)＝F_spatial(X_t)+F_CF(X_t)+F_temporal(X_t-1) (9)

公式(10)中，X_t代表当前帧的特征映射图，X_t-1代表前一帧的特征映射图，F_spatial(·)代表空间网络的输出，F_CF(·)代表相关滤波网络的输出，F_temporal(·)表示时间网络的输出。

步骤三：训练网络。

本发明不需要进行耗时的离线训练，只需要给定一个带有目标位置的输入帧，提取以目标位置为中心的训练块，将其放入网络框架中用于特征提取和响应映射。采用VGG-16网络进行特征提取，相关滤波网络、时间网络以及空间网络不需要单独进行训练。第一帧的训练块经过VGG-16网络得到第三、四、五层的特征映射图，然后将这三层的特征映射分别送入由相关滤波网络、时间网络以及空间网络连接成的深度网络中，同时训练三个模型，直到收敛为止。

步骤四：在线检测。

本发明从当前帧的图片中提取搜索块p1，与此同时，从前一帧的图片中提取搜索块p2。用VGG-16网络提取两个搜索块的特征送入与之对应训练好的三个模型中来生成响应映射，每个模型视为弱跟踪器，利用自适应权重的集成学习算法融合所有弱跟踪器得到最终的目标位置。

本发明采用自适应权重的集成学习算法引擎，来解决多专家决策理论的在线学习问题。在视觉跟踪问题中，将弱跟踪器视为专家。第l个专家的响应映射为：

其中k＝3,4,5代表VGG-16网络的第三、四、五层。

第l个专家的目标位置为：

那么最终预测的目标位置是多个专家加权的结果即：

其中

是第l个专家的权重。

公式(16)是每个专家决策损失的描述。公式(17)中引入决策分析中常用的后悔值准则，后悔值准则被定义为所有专家决策损失的平均值减去每个专家的决策损失。

公式(19)是计算第l个专家的稳定性，其中决策损失的均值

决策损失的标准差/>

如公式(20)所述，当/>

较小时，说明专家趋于稳定，相反如果/>

的值较大，说明专家性能差。

公式(24)代表求解累积的后悔值，其中

代表历史后悔值。公式(25)中，ζ为比例因子控制指数函数的形状，H代表当前帧后悔值的最大权重，用以避免没有历史后悔值。公式(26) 是计算下一帧的权重分布，其中/>

表示/>

σ_t代表比例因子，通过求解

得到。

步骤五：模型更新。本发明提出短时更新与长时更新相结合的更新策略。短时更新求解模型可靠性，方法与集成学习中计算专家稳定性一样。当

值小时，说明专家稳定，该专家对应的模型不需要进行更新。相反当/>

值大时，根据公式(27)可以推算出此时/>

值较小，当其小于阈值D时，说明专家性能差，此时需要对其所对应的模型进行更新，本发明利用当前帧的搜索块和预测值组成训练对，输入到模型中进行在线更新。除此之外，本发明加入长时更新，即每S帧对三个模型均进行一次更新，用到的训练数据是在线检测期间持续生成的搜索块和预测的真值响应图。

本发明首先用VGG-16网络提取第三、四、五层的特征，与单层深度特征相比，本方法有丰富的特征来描述目标对象。之后提出相关滤波网络将传统相关滤波算法表示成一层卷积神经网络，使本发明不需要进行耗时的离线训练，在相关滤波网络的基础上构建时间网络和空间网络，进一步捕捉目标的时间信息和空间信息，提高算法的精确度。同时本发明通过自适应权重的集成学习算法融合所有弱跟踪器成强跟踪器来实现目标跟踪，集成学习使得本发明有较好的鲁棒性，能应对复杂场景下的目标跟踪。最后提出短时更新与长时更新相结合的更新策略，确保模型的稳定性。

以上本发明的技术方案，与现有相比，其显著的有益效果在于

(1)提出相关滤波网络。将特征提取、跟踪模型和模型更新：集成到卷积神经网络中进行端到端地训练。

(2)针对视觉目标跟踪问题，本发明提出了一种新的深度架构，该架构融合了目标的时间信息和空间信息，以产生高性能的跟踪结果。

(3)本发明应用集成学习，以应对不同的挑战因素。

(4)提出新的更新方式，使集成学习和网络更新相互联系，以提高算法的精确度和鲁棒性。

应当理解，前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。另外，所要求保护的主题的所有组合都被视为本公开的发明主题的一部分。

结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见，或通过根据本发明教导的具体实施方式的实践中得知。

附图说明

附图不意在按比例绘制。在附图中，在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见，在每个图中，并非每个组成部分均被标记。现在，将通过例子并参考附图来描述本发明的各个方面的实施例，其中：

图1是本发明的基于基于时间和空间网络的深度集成目标跟踪方法的流程图。

图2为本发明提出的基于时间和空间网络的深度集成目标跟踪方法的整体框架图。

图3为本发明可视化VGG-16网络的卷积层示意图。

图4为本发明提出的深度网络结构图。

图5为本发明提出的模型更新策略流程图。

图6为本发明对10个测试视频跟踪结果抽样帧。

图7为本发明在OPE评估方式下与8种跟踪器的综合跟踪性能比较图。

图8为本发明在六种挑战因子的OPE评估方式下与8种跟踪器的综合跟踪性能比较图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

本发明使用MatConvNet工具箱，硬件平台采用Intel i7-87003.2GHz CPU，8GBRAM， NIVIDIA GTX 1060GPU。

本发明提出的基于时间和空间网络的深度集成目标跟踪方法的整体框架图如图2所示，具体包括以下操作步骤：

(1)步骤一：提取深度特征。本发明采用VGG-16网络提取深度特征。VGGNet相比于AlexNet有更深的网络结构，它成功地构筑了16～19层深的卷积神经网络，并且该网络有很好的拓展性，迁移到目标跟踪任务上的泛化能力强。此外VGGNet使用130万张imageNet数据集上的图片进行训练，它在图像分类任务上取得了鲁棒的效果。如图3所示，在(b)(c)两组图中能够比较清晰的看到目标轮廓，因此第三层和第四层的特征有较高的分辨率能精确定位到目标。同时在(d)组图中已经很难看出目标细节，但是在背景变化剧烈的情况下第五层的特征能有效区分目标和背景。换句话说，浅层的深度特征提供目标的位置信息，深层的深度特征包含更多的语义信息可以用来处理目标形变和防止跟踪器漂移。算法的特征提取网络来自于 VGG-16网络，且去除了第三层和第五层的池化层以及全连接层。本发明分别从Conv3_3， Conv4_3，Conv5_3层提取特征映射图，然后通过主成分分析算法将提取到的特征进行降维，使通道数降至64维。

(2)步骤二：构建深度网络。本发明构建的深度网络由相关滤波网络、时间网络以及空间网络构成，深度网络的结构图如图4所示，根据相关滤波算法的跟踪原理得出，学习相关滤波器Ω'就是解决下面最小化目标函数问题：

其中M是样本的数量，X⁽ⁱ⁾表示第i个输入样本，Y⁽ⁱ⁾表示第i个样本所对应的高斯标签， L(Y⁽ⁱ⁾,F(X⁽ⁱ⁾；Θ))代表第i个样本的损失函数，F(X⁽ⁱ⁾；Θ)是第i个样本的网络输出即预测值， P(Θ)是正则化函数。本发明令M＝1，采用l₂损失函数，将l₂范数作为正则化函数，公式(30)

J(Θ)＝||F(X；Θ)-Y||²+λ||Θ||² (31)

公式(32)中当输入样本X通过一个卷积层时，其网络输出F(X；Θ)＝Θ*X，公式(33)中的卷积滤波器Θ等价于公式(34)中的相关滤波器Ω'，相关滤波算法中的目标函数也等价于网络中的代价函数。如公式(35)所述，本发明将相关滤波算法表示成一层卷积神经网络，该网络为相关滤波网络Conv_11，相关滤波网络的滤波器大小需要覆盖目标，用梯度下降算法和反向传播算法代替原来的闭式解去训练参数。

本发明在相关滤波网络的基础上提出空间网络。由于特征提取网络的加深，空间信息变得越来越弱，为了解决这个问题，本发明采用三层卷积神经网络框架构成空间网络如图3所示，前两个卷积层Conv_21和Conv_22是对空间信息进行整合，最后一个卷积层Conv_23是对前一个卷积层通道数的降维，目的是为了使空间网络的输出和相关滤波网络的输出维数保持一致。空间网络的具体细节见表格1。

此外，空间网络只能捕捉当前帧的空间信息，当目标变化剧烈时，只靠空间信息学习到的模型是不稳定的。因此本发明又设计了一种与空间网络结构相似的时间网络如图3所示，用以捕获时间历史信息。时间网络Conv_31是由一层卷积神经网络构成，目的是为了提取前一帧的历史信息。时间网络的具体细节见表1。

深度网络最终得到的响应映射为：

F(X_t)＝F_spatial(X_t)+F_CF(X_t)+F_temporal(X_t-1) (36)

公式(37)中X_t代表当前帧的特征映射图，X_t-1代表前一帧的特征映射图，F_spatial(X_t)代表空间网络的输出，F_CF(X_t)代表相关滤波网络的输出，F_temporal(X_t-1)表示时间网络的输出。

表1.卷积层嵌入函数的体系结构

(3)步骤三：训练网络。本发明不需要进行耗时的离线训练，只需要给定一个带有目标位置的输入帧(第一帧)，提取以目标位置为中心的训练块，将其放入网络框架中用于特征提取和响应映射。第一帧得到的训练块大小是目标宽度和高度最大值的5倍。采用VGG-16网络进行特征提取，与此同时相关滤波网络、时间网络以及空间网络的参数都初始化为零均值高斯分布，此外上述三个网络不需要单独进行训练。第一帧的训练块经过VGG-16网络得到第三、四、五层的特征映射图，然后将这三层的特征映射分别送入由相关滤波网络、时间网络以及空间网络连接成的深度网络中，同时训练三个模型，直到收敛为止。训练阶段的学习率为5e-8，迭代次数为1000次，优化器采用Adam算法。

(4)步骤四：在线检测。本发明以前一帧预测的目标位置为中心在当前帧的图片中提取搜索块p1。与此同时，还是以前一帧预测的目标位置为中心在前一帧的图片中提取搜索块p2，搜索块的大小与训练块的大小一致。用VGG-16网络提取两个搜索块的特征送入与之对应训练好的三个模型中来生成响应映射，每个模型视为弱跟踪器，利用自适应权重的集成学习算法融合所有弱跟踪器得到最终的目标位置。在预测目标位置后，采用尺度估计算法对目标大小进行预测。本发明提取三个不同尺度的候选目标，尺度因子被设置为(1,0.95,1.05)，调整所有候选块的大小使其与训练块的大小相同，将这些候选块送入模型中(第三层特征对应的模型)以生成响应图。一旦有了响应图，通过搜索最大响应值来预测目标大小。

本发明采用自适应权重的集成学习算法，用于解决多专家决策理论的在线学习问题。在视觉跟踪问题中，将弱跟踪器视为专家。第l个专家的响应映射为：

其中k＝3,4,5代表VGG-16网络的第三、四、五层。第l个专家的目标位置为：

那么最终预测的目标位置是多个专家加权的结果即：

其中

是第l个专家的权重。

公式(43)是每个专家决策损失的描述。公式(44)中引入决策分析中常用的后悔值准则，后悔值准则被定义为所有专家决策损失的平均值减去每个专家的决策损失。

公式(46)是计算第l个专家的稳定性，其中决策损失的均值

决策损失的标准差/>

设置一段时间Δt＝5，如公式(47)所述，当/>

较小时，说明专家趋于稳定，相反如果/>

的值较大，说明专家性能差。

公式(51)代表求解累积的后悔值，其中

代表历史后悔值。公式(52)中，ζ＝10为比例因子控制指数函数的形状，H＝0.97代表当前帧后悔值的最大权重，用以避免没有历史后悔值。公式(53)是计算下一帧的权重分布，其中/>

表示/>

σ_t代表比例因子，通过求解/>

得到。

(5)步骤五：模型更新。如图5所示，本发明提出短时更新与长时更新相结合的更新策略。短时更新求解模型可靠性，方法与集成学习中计算专家稳定性一样。当

值大时，根据公式(54)可以推算出此时 />

值较小，当其小于阈值D＝0.12时，说明专家性能差，此时需要对其所对应的模型进行更新，本发明利用当前帧的搜索块和预测值组成训练对，输入到模型中进行在线更新。除此之外，本发明加入长时更新，即每S＝10帧对三个模型均进行一次更新，用到的训练数据是在线检测期间持续生成的搜索块和预测的真值响应图。更新阶段的学习率为2e-9，迭代次数2次，优化器采用Adam算法。

评估测试

本发明通过一次性评估(OPE)准则以及精确度和成功率度量来衡量跟踪器的性能。选取90个不同属性的视频序列测试本发明的目标跟踪方法，并与其它跟踪器(TRACA、ACFN、 CFNet、SiamFC、SCT、Staple、SRDCF、CNN-SVM等8种跟踪器)在不同的挑战因素(如快速运动、运动模糊、光照变化、平面外旋转、目标形变、遮挡等情况)下进行对比。图6是本发明与8种跟踪器对10个测试视频((a)Bolt2、(b)Box、(c)DragonBaby、(d)Girl2、(e)Human9、(f)Ironman、(g)KiteSurf、(h)Matrix、(i)Skating1、(j)Skiing)跟踪结果抽样帧，图 7从精确度(precision)和成功率(Success rate)两个方面给出了本发明与其他8种跟踪器的性能对比图。图8是本发明在快速运动、运动模糊、光照变化、平面外旋转、目标形变、遮挡六种挑战因子的OPE评估方式下与8种跟踪器的综合跟踪性能比较图。正如图5所示，本发明的算法可以准确的跟踪到图例中大多数挑战性序列。总的来说，本发明的跟踪方法比最近几年的跟踪方法更加精确和鲁棒，特别是在具有挑战性的场景中

在本公开中参照附图来描述本发明的各方面，附图中示出了许多说明的实施例。本公开的实施例不必定义在包括本发明的所有方面。应当理解，上面介绍的多种构思和实施例，以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施，这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种基于时间和空间网络的深度集成目标跟踪方法，其特征在于，所述目标跟踪方法包括：

采用VGG-16网络提取目标的深度特征，将相关滤波算法表示成一层卷积神经网络，以得到相关滤波网络，在相关滤波网络的基础上构建时间网络和空间网络，时间网络和空间网络分别用于捕捉目标的时间信息和空间信息，采用跳跃式连接的方式将相关滤波网络、时间网络以及空间网络相连得到深度网络；

训练深度网络，直至深度网络所包含的相关滤波网络、时间网络以及空间网络这三个模型全部收敛；

2.根据权利要求1所述的基于时间和空间网络的深度集成目标跟踪方法，其特征在于，所述采用VGG-16网络提取目标的深度特征是指，

提取了VGG-16网络的第三、四、五层上的特征作为目标的深度特征。

3.根据权利要求1所述的基于时间和空间网络的深度集成目标跟踪方法，其特征在于，所述将相关滤波算法表示成一层卷积神经网络，以得到相关滤波网络包括以下步骤：

获取卷积神经网络的代价函数，获取的代价函数为：

其中，M是样本的数量，X⁽ⁱ⁾表示第i个输入样本，Y⁽ⁱ⁾表示第i个样本所对应的高斯标签，L(·)代表第i个样本的损失函数，F(·)是第i个样本的网络输出即预测值，P(·)是正则化函数，Θ代表卷积滤波器，λ是正则化参数；

令M＝1，采用l₂损失函数，将l₂范数作为正则化函数，代价函数改写为如下形式：

J(Θ)＝‖F(X；Θ)-Y‖²+λ‖Θ‖²

其中，X表示输入样本，Y表示对应的高斯函数标签，当输入样本X通过一个卷积层时，其网络输出F(X；Θ)＝Θ*X，*代表卷积。

4.根据权利要求1所述的基于时间和空间网络的深度集成目标跟踪方法，其特征在于，所述深度网络为：

F(X_t)＝F_spatial(X_t)+F_CF(X_t)+F_temporal(X_t-1)

其中，X_t代表当前帧的特征映射图，X_t-1代表前一帧的特征映射图，F_spatial(·)代表空间网络的输出，F_CF(·)代表相关滤波网络的输出，F_temporal(·)表示时间网络的输出。

5.根据权利要求1所述的基于时间和空间网络的深度集成目标跟踪方法，其特征在于，所述训练深度网络包括以下步骤：

选择一个带有目标位置的输入帧，提取以目标位置为中心的训练块，将其放入网络框架中用于特征提取和响应映射，将获取的特征映射分别送入由相关滤波网络、时间网络以及空间网络连接成的深度网络中，同时训练相关滤波网络、时间网络以及空间网络这三个模型，直至三个模型全部收敛。

6.根据权利要求1所述的基于时间和空间网络的深度集成目标跟踪方法，其特征在于，所述将每个模型视为弱跟踪器，利用自适应权重的集成学习算法引擎融合所有弱跟踪器得到最终的目标位置包括以下步骤：

在视觉跟踪问题中，将弱跟踪器视为专家，设第l个专家的响应映射为：

其中k＝3,4,5分别代表VGG-16网络的第三、四、五层；

则第l个专家的目标位置为：

最终预测的目标位置是多个专家加权的结果，即：

其中，

是第l个专家的权重，L为弱跟踪器总数量。

7.根据权利要求6所述的基于时间和空间网络的深度集成目标跟踪方法，其特征在于，所述将每个模型视为弱跟踪器，利用自适应权重的集成学习算法引擎融合所有弱跟踪器得到最终的目标位置还包括以下步骤:

采用下述公式以计算下一帧的权重分布：

其中，

表示/>

σ_t代表比例因子，/>

代表求解累积的后悔值，/>

代表历史后悔值，ζ为比例因子控制指数函数的形状，H代表当前帧后悔值的最大权重，用以避免没有历史后悔值，/>

代表第l个专家的稳定性；

采用下述公式计算

/>

其中，

代表每个专家决策损失，/>

代表决策分析中的后悔值，表示为所有专家决策损失的平均值减去每个专家的决策损失，/>

代表决策损失的均值，/>

代表决策损失的标准差。

8.根据权利要求1所述的基于时间和空间网络的深度集成目标跟踪方法，其特征在于，所述目标跟踪方法还包括：

采用短时更新与长时更新相结合的更新策略对深度网络进行更新。

9.根据权利要求8所述的基于时间和空间网络的深度集成目标跟踪方法，其特征在于，所述短时更新包括以下步骤：

计算每个弱跟踪器的稳定性

采用下述公式判断每个弱跟踪器的性能值：

其中，ζ为比例因子控制指数函数的形状，H代表当前帧后悔值的最大权重，用以避免没有历史后悔值，

代表第l个专家的稳定性，L为弱跟踪器总数量；

判断每个弱跟踪器的性能值是否小于设定阈值D，若其中任意一个弱跟踪器的性能值小于设定阈值D，采用当前帧的搜索块和预测值组成训练对，输入到模型中进行在线更新。

10.根据权利要求8所述的基于时间和空间网络的深度集成目标跟踪方法，其特征在于，所述长时更新是指，

将在线检测期间持续生成的搜索块和预测的真值响应图作为训练数据，每S帧对深度网络的三个模型均进行一次更新。