CN110120065A

CN110120065A - 一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法及系统

Info

Publication number: CN110120065A
Application number: CN201910410309.0A
Authority: CN
Inventors: 胡栋; 张碧秋; 庞雨薇
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2019-08-13
Anticipated expiration: 2039-05-17
Also published as: CN110120065B

Abstract

本发明公开一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法及系统，该方法通过减少各卷积层的滤波器个数对VGG‑Net‑19网络进行结构调整，使用其中的1、4、5层提取的特征代替取代原相关滤波器框架中的HOG特征提取部分。然后分别以三个层次进行后续处理后进行加权融合，得到跟踪结果。然后利用边缘框算法检测出目标可能位置的候选框，基于完全包含在候选边界框中的轮廓来计算候选框得分，保留一定数量的得分较高的候选框并与相关滤波器作卷积操作，具有最大响应值的候选框大小即为目标大小，以此实现目标跟踪的尺度自适应。

Description

一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法及系统

技术领域

本发明涉及卷积神经网络和核相关滤波目标跟踪技术领域，具体涉及一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法及系统。

背景技术

目标跟踪是视频分析的核心问题之一，在视频监控、人机交互、虚拟现实等领域有广泛的应用。虽然在过去几十年来该技术的研究取得了很大的进展，但由于应用中存在尺度变化、光照变化、快速运动、部分遮挡、背景复杂等多种因素，寻求快速稳定、适合对象变化的跟踪方法始终是一个挑战。

近年来，基于检测的跟踪(tracking-by-detection)是一种典型的目标跟踪模式。这种跟踪模式集在线学习与模板更新于一体，并从检测中获得新的位置信息。但这种模式需要在目标邻域内收集很多样本模板，而这些模板有很大一部分是重叠的，从而造成很高的冗余计算。为此，研究人员提出了基于循环核结构(CSK：Circulant Structure withKernels)的跟踪算法，有效提高了运算效率，并在此基础上进一步发展出核相关滤波(KCF：Kernel Correlation Filter)目标跟踪技术。典型的KCF用到了HOG特征，将单通道转换成了多通道，获得了目标跟踪鲁棒性和准确性提升，成为目前一类具有代表意义和应用前景的目标跟踪技术。

目前，对KCF目标跟踪的改进成为关注的热点之一，主要侧重于深度特征与KCF 的方法，以进一步提高精度和对目标尺度变化的适应性。例如，一种为基于分层卷积特征的视觉跟踪[Ma C,Huang J B,Yang X,etal.Hierarchical Convolutional Features forVisual Tracking[C].2015IEEE International Conference on Computer Vision(ICCV).IEEE Computer Society,2015:111-121.]，该方法是用预先训练的卷积神经网络提取卷积特征，然后使用相关滤波器确定最终的边界框，但是网络结构复杂，计算量大，导致跟踪速度低且尺度自适应受限。另一种为判别尺度空间跟踪[Danelljan M,Hager G,Khan F S,etal. Discriminative Scale Space Tracking[J].IEEE Transactions onPattern Analysis&Machine Intelligence,2017,39(8):1561-1575.]，该方法分为位置滤波器和尺度滤波器，位置滤波器用于确定目标在下一帧的位置，尺度滤波器用于确定尺度信息。该方法需要额外训练一个滤波器，每帧尺度检测需要采样33个图像块，且这33个尺度非常敏感，得到的尺度不够精确。

发明内容

发明目的：为了克服现有技术的不足，本发明提供一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法，该方法可以解决现有技术中神经网络中网络结构复杂，计算量大，导致跟踪速度低以及KCF无法适应目标尺度变化的问题，另一方面，本发明还提供一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪系统。

技术方案：本发明所述的基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法，该方法包括：

第一阶段，对VGGNet19网络结构进行训练；

第二阶段，对VGGNet19网络每层卷积层的滤波器进行训练；具体包括：

(1)给定首帧图像的初始目标框、目标中心以及目标大小，以所述目标中心为中心截取第一图像块；

(2)利用训练后的改进VGGNet19网络对第一图像块分别提取第一层卷积层、第四层卷积层以及第五层卷积层中的第一卷积层特征，并根据所述第一卷积层特征得到各层对应的相关滤波器；

(3)对第一图像块提取HOG特征，将所述HOG特征的所有循环移位得到的虚拟样本作为训练样本，并得到用于尺度估计的滤波器；

(4)读取下一帧图像，以所述目标中心为中心截取第二图像块；对所述第二图像块通过空间插值提取第一层卷积层、第四层卷积层以及第五层卷积层中的第二卷积层特征，并分别计算对应卷积层的响应得分；

(5)分别对所述三层卷积层得到的响应得分进行加权融合，得到最大响应得分；

(6)在以该帧图像的目标预测位置为中心，第二图像块上执行边缘框算法，得到按其得分排序的多个候选框，并对多个候选框进行过滤，进而得到候选目标中的最大响应值；

(7)根据最大响应得分和最大响应值更新目标大小；

(8)判断当前帧是否为最后一帧，若是，则结束，否则转步骤(4)。

进一步的，包括：

该方法还包括首先将所述将VGGNet19网络进行改进，将所述VGGNet19网络的每层卷积层滤波器的数目减少为原来的一半。

进一步的，包括：

所述对VGGNet19网络进行训练具体包括：训练设置各项参数后，利用小批量梯度下降优化多项逻辑回归目标，有动量地进行的训练；所述参数包括批量大小、动量、丢失率以及学习率。

进一步的，包括：

所述步骤(5)中，对所述三层卷积层得到的响应得分进行加权融合，得到最大响应得分，具体包括：

(51)表示第p-1层中目标的最佳位置：

argmax_m,n f_p-1(m,n)+γf_p(m,n)

其中，m和n分别表示基样本横坐标和纵坐标移动的位数，表示第p层上最大值的位置，f_p(m,n)表示第p层卷积层对应的响应得分，f_p-1(m,n)表示第p-1层卷积层对应的响应得分，约束表示在第p-1层相关响应图中仅搜索以为中心，r为半径的区域，1＜p≤3，γ为系数；

(52)将来自后一层的响应值加权作为正则化项，然后反向传播到前一层的最佳位置处，以这种方式逐层传递，直到最后一层的响应图中的最大值处就是目标的预测位置，并通过将该层的特征向量与学习的线性相关滤波器w(i)进行卷积计算得到最大的响应得分f_p。

一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪系统，包括：

网络训练模块，用于对VGGNet19网络结构进行训练；

滤波器训练模块，用于对VGGNet19网络每层卷积层的滤波器进行训练，包括：

第一图像块截取单元，用于根据给定首帧图像的初始目标框、目标中心以及目标大小，以所述目标中心为中心截取第一图像块；

特征提取单元，用于利用训练后的改进VGGNet19网络对第一图像块分别提取第一层卷积层、第四层卷积层以及第五层卷积层中的第一卷积层特征，并根据所述第一卷积层特征得到各层对应的相关滤波器；

滤波器训练单元，用于对第一图像块提取HOG特征，将所述HOG特征的所有循环移位得到的虚拟样本作为训练样本，并得到用于尺度估计的滤波器；

响应得分计算单元，用于读取下一帧图像，以所述目标中心为中心截取第二图像块；对所述第二图像块通过空间插值提取第一层卷积层、第四层卷积层以及第五层卷积层中的第二卷积层特征，并分别计算对应卷积层的响应得分；

最大响应得分计算单元，用于分别对所述三层卷积层得到的响应得分进行加权融合，得到最大响应得分；

最大响应值计算单元，用于在以该帧图像的目标预测位置为中心，第二图像块上执行边缘框算法，得到按其得分排序的多个候选框，并对多个候选框进行过滤，进而得到候选目标中的最大响应值；

目标更新单元，用于根据最大响应得分和最大响应值更新目标大小；

判断单元，用于判断当前帧是否为最后一帧，若是，则结束，否则转所述响应得分计算单元。

进一步的，包括：

所述网络训练模块还包括首先将所述将VGGNet19网络进行改进，将所述VGGNet19网络的每层卷积层滤波器的数目减少为原来的一半。

进一步的，包括：

所述网络训练模块中，对VGGNet19网络进行训练具体包括：训练设置各项参数后，利用小批量梯度下降优化多项逻辑回归目标，有动量地进行的训练；所述参数包括批量大小、动量、丢失率以及学习率。

进一步的，包括：

所述最大响应得分计算单元中，对所述三层卷积层得到的响应得分进行加权融合，得到最大响应得分，具体包括：

(51)表示第p-1层中目标的最佳位置：

argmax_m,n f_p-1(m,n)+γf_p(m,n)

有益效果：本发明与现有技术相比，其显著优点是：1、本发明通过减少各卷积层的滤波器个数对VGG-Net-19网络进行结构调整，利用预训练的网络提取Conv1-2、 Conv4-4、Conv5-4卷积层的特征用于核相关滤波目标跟踪中，该种结构对原来的卷积特征进行了降维，提高了追踪速度；2、本发明将利用边缘框(Edge Boxes)算法检测出目标可能位置的候选框，基于完全包含在候选边界框中的轮廓来计算候选框得分，保留一定数量的得分较高的候选框并与相关滤波器作卷积操作，具有最大响应值的候选框大小即为目标大小，并使用阻尼因子更新目标尺度。既能够精确跟踪目标，又能有效地提高跟踪速度，且能实现自适应目标尺度变化。

附图说明

图1为本发明实施例所述的方法流程图；

图2为本发明所用卷积神经网络结构图；

图3为各层特征跟踪性能对比图；

图4为跟踪性能对比图；

图5为部分跟踪结果效果图；

图6为部分跟踪结果效果图；

图7为本发明实施例中电子设备结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种基于分层卷积特征和尺度自适应核相关滤波(HierarchicalConvolution Feature and Scale-adaptive Kernel Correlation Filter)的目标跟踪方法，本方法将跟踪过程分为目标位置估计和目标尺度估计两个部分。VGG网络减少卷积层滤波器数目，用此VGG网络进行特征提取，使用其中的1、4、5层提取的特征代替取代原相关滤波器框架中的HOG特征提取部分。然后分别以三个层次进行后续处理后进行加权融合，得到跟踪结果。然后利用边缘框(Edge Boxes)算法检测出目标可能位置的候选框，基于完全包含在候选边界框中的轮廓来计算候选框得分，保留一定数量的得分较高的候选框并与相关滤波器作卷积操作，具有最大响应值的候选框大小即为目标大小，以此实现目标跟踪的尺度自适应。

参阅图1所示，为本发明实施例中一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法，包括：

步骤1、调整VGGNet19网络结构并训练：

结构调整：相比于原始结构，将每层卷积层滤波器的数目减少为原来的一半，则卷积层提取出的特征通道数目相应减少二倍，特征的尺度保持不变。这种结构调整，相当于对原来的卷积特征进行降维，降低卷积特征的深度。

训练过程：训练是利用小批量梯度下降(基于反向传播)优化多项逻辑回归目标，并利用traingdm函数有动量地进行的，批量大小设置为256，动量为0.9，训练正则项所乘的参数设置为5×10^-4，丢失率设为0.5，学习率设为10^-2。

步骤2、读取首帧图像，并进行初始训练，具体步骤如下：

(a)给定首帧图像的初始目标框(μ,ν,w,h)，其中，目标中心为pos1(μ,ν)和目标大小为target_sz(w,h)，以pos1(μ,ν)为中心截取W×H大小的第一图像块patch1。

(b)对第一图像块patch1利用预训练的网络提取Conv1-2、Conv4-4、Conv5-4卷积层特征，每一个卷积层都能提取出多通道的高维特征X，设X是第l层的大小为M× N×D的特征向量，其中M，N和D分别表示宽度，高度和特征维度。这里简洁地将x^(l)表示为x并忽略层索引l上的M，N和D。将特征X的所有循环移位得到的虚拟样本作为训练样本，代入式(1)

并进行傅里叶变换得到各层对应的相关滤波器w^l，式(1)中W为相关滤波器，X 为训练样本，y为训练样本对应的高斯分布标签。

(c)对第一图像块patch1提取HOG特征H，将特征H的所有循环移位得到的虚拟样本作为训练样本，代入式(1)并进行傅里叶变换得到用于尺度估计的滤波器w^d。

步骤3、读取下一帧，以目标中心pos1(μ,ν)为中心截取W×H大小的第二图像块patch2，对第二图像块patch2用式(2)进行特征提取：

上式中，插值权值α_ik分别取决于i和k个相邻特征向量的位置，此插值发生在空间域，通过空间插值提取Conv1-2、Conv4-4、Conv5-4卷积层特征，对于每个层l，用w^l和式(4)计算响应得分f_l。

步骤4、用式(3)对三个响应得分进行加权融合，融合后最大得分所在位置便是目标预测位置pos2(μ′,ν′)，通过将该层的特征向量与学习的线性相关滤波器w(i)进行卷积计算得到的最大响应得分记为f_p。

约束表示在第(l-1)相关响应图中仅搜索以为中心，r为半径的区域。

步骤5、然后在以目标预测位置pos2(μ′,ν′)为中心，大小为s^ew×s^eh的第二图像块patch2上执行边缘框算法，s^e为缩放因子且s^e＞1。边缘框算法的输出可以是按其分数排序的多个边界框，只采取了分数最高的前200个候选框，并进一步对这些候选框过滤，过滤方法为：对于每一个候选框，如果它与当前检测到的目标(以pos2(μ′,ν′)为中心，大小为w_i-1×h_i-1的边框)之间的IoU大于0.9或者小于0.6，则过滤掉该候选框，高于上阈值0.9的候选框与当前检测到的目标几乎相同，而低于下阈值0.6的候选框中很可能是错误的目标或包含除了目标之外的其他目标。

步骤6、目标就包含在余下的候选框中，对于这些候选框与w^d作卷积操作，得到响应图，候选目标中的最大响应值f_max＝max(f_max,1,f_max,2,...,f_max,n)，目标大小即为最大响应值对应的目标候选框大小，记为

步骤7、尺度更新，即：

步骤8、判断当前帧是否为最后一帧，若是，则结束，否则转步骤3。

为使本发明的目的、实现方案和优点更为清晰，下面以公开测试集OTB Benchmark中的序列Singer1为例，对本发明的具体实施结合附图说明作进一步的详细描述，具体阐述如下：

调整VGG网络的训练函数的卷积层滤波器参数，减少为原来的一半，并利用ImageNet数据集进行训练，得到改进的网络模型参数，改进后的网络结构如图2所示。

用改进的网络分别提取分别各层特征并用于相关滤波目标跟踪中，C1、C2、C3、C4、C5为VGG网络提取的1至5层单层特征用于KCF的跟踪方法，将这些方法在OTB Benchmark2013中与其他流行算法进行比较，得到平均OPE(One-Pass Evaluation)精度图如图3a，以及在低分辨率的视频序列中的OPE精度图如图3b所示，横坐标为位置误差阈值，纵坐标为准确度。比较分析后，选取Conv1-2、Conv4-4、Conv5-4层卷积特征。

在Singer1的第一帧给定初始目标框，设为：(48，98，40，142)，其中初始目标中心为pos1(48，98)且目标大小target_sz为40×142，目标中心搜索区域window_sz为 40×142。

对于训练模块，从第1帧图像中以pos1为中心截取window_sz大小的图像块patch1(40×142)。对patch1利用预训练的网络提取Conv1-2、Conv4-4、Conv5-4卷积层特征，将各层特征的所有循环移位得到的虚拟样本作为训练样本，代入式(1)并进行傅里叶变换得到各层对应的相关滤波器w^l。

对patch1提取HOG特征H，将特征H的所有循环移位得到的虚拟样本作为训练样本，代入式(1)并进行傅里叶变换得到用于尺度估计的滤波器w^d。

读取下一帧，pos1(48,98)为中心截取window_sz大小(40×142)的第二图像块patch2(110×357)，对第二图像块patch2用式(2)通过空间插值提取Conv1-2、Conv4-4、Conv5-4卷积层特征，对于每层卷积层，用w^l和式(4)计算响应得分f_l。

其中，⊙为Hadamard积，即元素相乘；W^d表示第d个信道上的滤波器，Z^d表示第d个信道上的特征向量，D为信道总数，d∈{1，...，D}。

由粗到精的位置估计：得到三组相关响应图，分层地推断每一层的目标位置，即后一层中最大值的位置用作正则化来搜索较前层的最大值。

设表示第l层上最大值的位置，m和n分别表示基样本横坐标和纵坐标移动的位数，则第p-1层中目标的最佳位置表示为：

argmax_m,n f_p-1(m,n)+γf_p(m,n)

约束表示在第p-1层相关响应图中仅搜索以为中心，r为半径的区域， 1＜p≤3，γ为系数，f_p(m,n)表示第p层卷积层对应的响应得分，f_p-1(m,n)表示第p-1 层卷积层对应的响应得分。

来自后一层的响应值加权作为正则化项，然后反向传播到前一层的响应图中。以这种方式逐层传递，直到最后一层的响应图中的最大值处就是目标的预测位置。

在实验中，观察到跟踪结果对邻域搜索约束的参数r不敏感，这相当于计算来自多个层的响应图的加权平均值，以推断目标预测位置，如下所示：

融合后最大得分所在位置便是目标预测位置pos2(48，98)，最大响应得分 f_p＝0.87。

然后在以pos2(48,98)为中心，大小为60×213的图像块patch2上执行Edge Boxes算法。首先基于结构化边缘检测算法计算图像中每个像素的边缘响应，然后用非极大值抑制(Non-Maximum Suppression，简称NMS)进一步处理得到一个相对稀疏的边缘图像，每个像素p具有边缘幅度m_p和方向θ_p，边缘被定义为具有m_p＞0.1的像素，轮廓被定义为一组形成连贯边界、曲线或直线的边，该算法由边界框完全包围的边数表示包含目标的框的可能性。使用高效的数据结构和智能搜索策略，可以快速找到目标大概可能的位置。

Edge Boxes算法的输出可以是按其分数排序的多个边界框，只采取了分数最高的前 200个候选框，并进一步对这些候选框过滤，过滤方法为：对于每一个候选框，如果它与当前检测到的目标，即以pos2(48,98)为中心，大小为40×142的边框之间的IoU大于 0.9或者小于0.6，则过滤掉该候选框，高于上阈值0.9的候选框与当前检测到的目标几乎相同，而低于下阈值0.6的候选框中很可能是错误的目标或包含除了目标之外的其他目标。

目标就包含在余下的候选框中，对于这些候选框与用于尺度估计的滤波器w^d作卷积操作，得到响应图，候选目标中的最大响应值f_max＝max(f_max,1,f_max,2,...,f_max,n)＝0.91，目标大小即为最大响应值对应的目标候选框大小(39.8247×141.6958)。

由于f_max大于f_p，使用阻尼因子γ＝0.5更新位置和大小，更新后的目标大小为(39.91235×141.8479)。

为验证本发明方法的效果，进行了以下验证实验：

本发明采用OTB(Online Tracking Benchmark)平台上的50个公认的、已标注的视频序列来进行测试，它们模拟真实场景中的各种情况，包含光照变化、尺度变换、部分或严重遮挡、形变等。表1为本发明实验的硬件及软件仿真环境。

表1实验的硬件及软件仿真环境

在OTB测试平台上，主要有两种评价标准：精确度(Precision Plot)和成功率(Success Plot)。

在跟踪过程中，算法估计的目标位置称之为预测值，人工标注的目标位置称之为真实值，两者之间差值小于给定阈值的帧数占总帧的百分比，称之为精确度，一般来说阈值设定为20个像素。给定的阈值不同，通常得到的精确度也不一样，将所有情况的精确度结合起来便可以拟合成一条曲线。

为了方便起见，将算法跟踪结果记为B_T，真实目标框记为B_G，面积统计函数记为Area()，那么跟踪覆盖率为：

在视频帧中，如果覆盖率大于给定阈值，则目标被成功跟踪，而成功跟踪帧占总帧的百分比，称之为成功率，一般来说阈值设定为0.5。给定的阈值不同，通常得到的成功率也不一样，将所有情况的成功率结合起来便可以绘制成一条曲线。

综上所述，精确度和成功率越高，目标跟踪的性能越好。

而评价跟踪效率的标准采用每秒的处理帧数(帧/秒)，算法每秒处理的帧数越多，说明跟踪实时性越好。

如图4所示，是对OTB中的根据50个视频序列的运行结果显示，横坐标为位置误差阈值(Location error threshold)，纵坐标为准确度(Precision)。除了本发明算法外，还有4个比较算法，它们均由OTB平台提供。实验结果表明，本发明方法在平均准确度和平均成功率都取得了很好的效果，如(a)、(b)所示。具体来说，平均准确性达到了83.8％，相比于HCF提高了2.9％，平均成功率达到了60.9％，相比于HCF提高了 1.2％，说明本文算法鲁棒性更好。由(c)、(d)可知，本文算法在28个尺度变化视频序列中相比于其他算法，得到了较好的跟踪结果，其平均准确性提升了6.7％，平均成功率提升了8.1％，说明本文算法能更好地适应目标尺度的变化。同时在运行效率上，本发明方法可以达到15.1帧/秒的平均速度，相比于HCF算法提高了4.7帧/秒。

图5和6为本发明针对不同视频序列运行结果的部分跟踪效果图。图5a-5d，6a-6d中，区域A为本发明算法的跟踪框，区域B为原始HCF算法的跟踪框，区域C为Stuck 算法的跟踪框，区域D为KCF算法的跟踪框，区域E为CT算法的跟踪框。由图可知，三个视频序列都存在明显的尺度变化，CarScale序列中，目标逐渐靠近摄像头，尺度越来越大，第244帧，HCF、CT、Stuck和KCF都只跟踪到目标的一小部分，本文算法能较好的实现目标尺度变化自适应。

基于上述实施例，本发明实施例中，基于分层卷积特征和尺度自适应核相关滤波的目标跟踪系统，包括：

网络训练模块，用于对VGGNet19网络结构进行训练；

进一步的，包括：

(51)表示第p-1层中目标的最佳位置：

argmax_m,n f_p-1(m,n)+γf_p(m,n)

参阅图7所示，本发明实施例中，一种电子设备结构示意图。

本发明实施例提供了一种电子设备，该电子设备可以包括处理器310(CenterProcessing Unit，CPU)、存储器320、输入设备330和输出设备340等，输入设备330 可以包括键盘、鼠标、触摸屏等，输出设备340可以包括显示设备，如液晶显示器(Liquid CrystalDisplay，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器320可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器310提供存储器320中存储的程序指令和数据。在本发明实施例中，存储器320可以用于存储上述基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法的程序。

处理器310通过调用存储器320存储的程序指令，处理器310用于按照获得的程序指令执行上述任一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法的步骤。

基于上述实施例，本发明实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例中的基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法，其特征在于，该方法包括：

第一阶段，对VGGNet19网络结构进行训练；

(7)根据最大响应得分和最大响应值更新目标大小；

2.根据权利要求1所述的基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法，其特征在于，该方法还包括首先将所述将VGGNet19网络进行改进，将所述VGGNet19网络的每层卷积层滤波器的数目减少为原来的一半。

3.根据权利要求1所述的基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法，其特征在于，所述对VGGNet19网络进行训练具体包括：训练设置各项参数后，利用小批量梯度下降优化多项逻辑回归目标，有动量地进行的训练；所述参数包括批量大小、动量、丢失率以及学习率。

4.根据权利要求1所述的基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法，其特征在于，所述步骤(5)中，对所述三层卷积层得到的响应得分进行加权融合，得到最大响应得分，具体包括：

(51)表示第p-1层中目标的最佳位置：

arg max_m,n f_p-1(m,n)+γf_p(m,n)

5.一种根据权利要求1-4任一项所述的基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法实现的系统，其特征在于，包括：

网络训练模块，用于对VGGNet19网络结构进行训练；

6.根据权利要求5所述的基于分层卷积特征和尺度自适应核相关滤波的目标跟踪的系统，其特征在于，所述网络训练模块还包括首先将所述将VGGNet19网络进行改进，将所述VGGNet19网络的每层卷积层滤波器的数目减少为原来的一半。

7.根据权利要求5所述的基于分层卷积特征和尺度自适应核相关滤波的目标跟踪的系统，其特征在于，所述网络训练模块中，对VGGNet19网络进行训练具体包括：训练设置各项参数后，利用小批量梯度下降优化多项逻辑回归目标，有动量地进行的训练；所述参数包括批量大小、动量、丢失率以及学习率。

8.根据权利要求5所述的基于分层卷积特征和尺度自适应核相关滤波的目标跟踪的系统，其特征在于，所述最大响应得分计算单元中，对所述三层卷积层得到的响应得分进行加权融合，得到最大响应得分，具体包括：

(51)表示第p-1层中目标的最佳位置：

arg max_m,n f_p-1(m,n)+γf_p(m,n)