CN109461172A

CN109461172A - 人工与深度特征联合的相关滤波视频自适应跟踪方法

Info

Publication number: CN109461172A
Application number: CN201811246254.6A
Authority: CN
Inventors: 肖亮; 张乐意
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2019-03-12

Abstract

本发明公开了一种人工与深度特征联合的相关滤波视频自适应跟踪方法，包括如下步骤：深度神经网络预训练；深度卷积特征提取；手工特征提取；多特征融合计算；尺度自适应目标检测与响应计算；相关滤波器模型更新；输出当前帧跟踪结果。本发明采用深度卷积特征、梯度方向直方图和颜色名称特征的融合建模目标外观，利用目标的空间上下文信息抑制背景响应，采用自适应尺度估计方法，增强了模型的判别能力，利用快速傅立叶变换，在频域中进行计算处理，降低了计算复杂度；本发明提高了复杂场景下跟踪的鲁棒性，可广泛应用于视频监控、人机交互、机器人技术和道路场景理解等领域。

Description

人工与深度特征联合的相关滤波视频自适应跟踪方法

技术领域

本发明涉及计算机视觉领域，特别是一种人工与深度特征联合的相关滤波视频自适应跟踪方法。

背景技术

目标跟踪是计算机视觉领域中的重要研究内容，目标追跟踪主要是根据目标在视频中第一帧或者前几帧的位置，估计后序序列目标出现的位置轨迹。目前，目标跟踪技领域方法主要分为两大类：

(1)生成式方法：该方法主要是运用生成模型描述目标的表观特征，在后序序列中找到与目标外观最相似的区域，也就是说，通过搜索候选目标来最小化重构误差。比较有代表性的算法有稀疏编码、卡尔曼滤波、粒子滤波和主成分分析(PCA)等。生成式方法仅着眼于对目标外观的刻画，而不关注背景信息，因此在目标外观变化剧烈或者被遮挡时容易产生漂移，导致跟踪失败。

(2)判别式方法：该方法主要是运用在线机器学习技术，在当前帧以目标区域为正样本，背景区域为负样本来训练一个二分类器，然后在后续的视频图像序列中运用该分类器进行目标检测，找到最优区域，完成目标跟踪。与生成类方法最大的区别是，分类器采用机器学习，训练中用到了背景信息，这样分类器就能专注区分前景和背景，所以判别类方法普遍都比生成类方法表现更鲁棒。近年来，各种机器学习算法被应用在判别式方法上，其中比较有代表性的有多实例学习方法、Struck和结构化SVM等。目前大部分深度学习目标跟踪方法也归属于判别式框架。

但是，传统的判别式方法有一个重要的缺陷，即为了增强判别能力，往往需要大量的训练样本，同时也加重了计算负担，使得这些判别式方法在跟踪的实时性很差。近年来，基于相关滤波的跟踪方法因为使用了样本的循环移位来取代负样本，因而速度非常快，吸引了众多研究者的目光。

发明内容

本发明的目的在于提供一种人工与深度特征联合的相关滤波视频自适应跟踪方法。

实现本发明目的的技术解决方案为：一种人工与深度特征联合的相关滤波视频自适应跟踪方法，包括以下步骤：

步骤1，深度神经网络预训练；

步骤2，深度卷积特征提取和手工特征提取；

步骤3，多特征融合计算；

步骤4，尺度自适应目标检测与响应计算；

步骤5，滤波器模型更新；

步骤6，输出当前帧跟踪结果。

本发明与现有技术相比，其显著优点为：(1)本发明使用了深度卷积特征、梯度方向直方图和颜色名称特征的融合特征，其中高层卷积特征语义信息丰富，低层卷积特征具有详细的局部信息，梯度方向直方图特征反映了目标的结构信息，而颜色特征关注于目标的外观信息，这些特征相互融合，有效地增强了目标外观的表示能力和模型的判别能力，提高了跟踪的稳定性；(2)本发明采用自适应尺度估计方法，该方法实现快速，尺度估计准确，可以结合到任何判别式跟踪算法框架中；(3)本发明有效利用了空间上下文信息，增加了跟踪过程中可以使用的背景信息，通过抑制背景响应，使目标定位更加准确。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为本发明的目标跟踪方法的流程图。

图2为多特征融合示意图。

图3为空间上下文信息使用示意图。

图4为目标位置估计方法示意图。

图5为自适应尺度估计方法示意图。

图6为本发明在标准视觉跟踪数据集OTB2013上评测结果图。

图7为本发明在标准视觉跟踪数据集OTB2015上评测结果图。

图8为本发明实际视频目标跟踪结果图。

具体实施方式

如图1所示，一种人工与深度特征联合的相关滤波视频自适应跟踪方法，包括以下步骤：

步骤1，深度神经网络预训练；

步骤2，深度卷积特征提取和手工特征提取；

步骤3，多特征融合计算；

步骤4，尺度自适应目标检测与响应计算；

步骤5，滤波器模型更新；

步骤6，输出当前帧跟踪结果。

进一步的，步骤1中的深度神经网络是在带有类别标签的数据集ImageNet上进行预训练的。

进一步的，步骤2中深度卷积特征提取具体为：

(1)在第t帧图像处，根据目标位置和尺度大小，以位置为候选区域中心，尺度为候选区域大小，裁剪图像获得目标候选块z_t；

(2)将候选块z_t输入到步骤1中预训练的深度神经网络中进行前向计算，分别提取Conv3层，Conv4层和Conv5层的卷积特征；

手工特征提取具体为：

(2)目标候选块z_t提取梯度方向直方图，将候选块分成若干个4×4像素的细胞单元，使用9个梯度方向，统计直方图，使用主成分分析降维，得到m维的梯度方向直方图特征图谱；

(3)将目标候选块z_t缩放至1/4大小，提取n维的颜色名称特征；

进一步的，步骤3中多特征融合计算具体为：

(1)将人工特征提取得到的m维的梯度方向直方图与n维的颜色名称特征融合，得到(m+n)维的特征图谱；

(2)将深度卷积特征提取得到的三层卷积层特征图谱缩放到与手工特征图谱大小一致，对所有特征图谱进行快速傅里叶变换，得到融合特征图谱^表示离散傅立叶变换；

进一步的，步骤4中尺度自适应目标检测与响应计算具体为：

(1)根据上一帧跟踪的目标位置p_t－1和尺度s_t-1，根据步骤2、步骤3，从目标位置估计的候选区域z_t,trans提取多特征并融合，得到候选区域特征图谱采用如下公式计算位置滤波器的相关输出响应图f_t,trans：

其中，f_t表示位置滤波器的相关输出响应图谱，是前一帧训练得到的并且更新过的位置滤波器，表示离散傅立叶变换的逆变换，^表示离散傅立叶变换，*表示复共轭，⊙表示两个矩阵对应元素相乘。

(2)找到位置滤波器相关输出响应图f_t，trans的最大值对应的位置，此位置即是当前帧检测到的目标位置p_t；

(3)根据(2)检测到的目标位置p_t和上一帧检测到的目标尺度s_t-1＝W_t-1×H_t-1，提取以p_t为中心的尺度候选区域构造尺度金字塔，其中，a为一个超参数，aⁿ是每一层金字塔的尺度因子，o是尺度数目；根据步骤3，将目标尺度候选区域金字塔中每一层缩放到W×H大小，提取m维的梯度方向直方图特征图谱a取值范围为[1.001，1.1]；

(4)与步骤(1)类似，计算尺度滤波器相关输出响应图谱f_t，sacle；

(5)找到尺度滤波器相关输出响应图f_t，scale的最大值对应的尺度，此尺度即是当前帧检测到的目标尺度s_t。

进一步的，步骤5中相关滤波器更新模型具体为：

(1)根据步骤4检测到的当前帧的目标位置p_t和尺度s_t，得到目标区域以及目标区域的k个上下文i＝1，2，...，k，根据步骤2、步骤3，得到目标区域x_t和空间上下文的融合特征图谱

(2)利用如下公式训练位置滤波器模型：

其中，表示求得的位置滤波器模型，是期望的相关输出，设置为峰值位于目标中心位置p_t处的高斯函数，^表示离散傅立叶变换，*表示复共轭，⊙表示两个矩阵对应元素相乘，λ₁和λ₂是正则化参数，λ₁防止训练的模型过拟合，λ₂用于抑制背景响应；λ₁和λ₂取值范围分别为[0.00001，0.001]和[0.1，0.6]，η取值范围为[0.001，0.05]。

(3)根据步骤4检测到的当前帧的目标位置p_t和尺度s_t＝W_t×H_t，提取以pt为中心的目标区域构造尺度金字塔。根据步骤2，将目标尺度金字塔中每一层缩放到W×H大小，提取m维的梯度方向直方图特征图谱

(4)利用如下公式训练尺度滤波器模型：

其中，表示求得的尺度滤波器模型，是期望的相关输出，设置为峰值位于目标尺度金字塔中心的高斯函数，^表示离散傅立叶变换，*表示复共轭，⊙表示两个矩阵对应元素相乘，λ是正则化参数，防止训练的模型过拟合，在本发明中λ取值范围为[0.00001，0.001]；

(5)使用线性插值方法更新位置滤波器和尺度滤波器

其中，和分别表示前一帧的位置滤波器和尺度滤波器，η为学习率，η越大则模型更新越快。

进一步的，步骤6中输出当前帧跟踪结果具体为：

根据步骤4检测到的当前帧的目标位置p_t和尺度s_t＝W_t×H_t，以p_t为跟踪边界框的中心点，W_t和H_t分别为边界框的宽度和高度，在当前帧图像上画出边界框，并将图像显示出来。

本发明的创新性在于：1)采用深度卷积特征、梯度方向直方图和颜色名称特征三种特征的融合特征，增强了目标外观的表示能力；2)使用自适应尺度估计方法，解决了以前的跟踪器无法估计目标尺度变化的弊端；3)引入空间上下文信息，增强了模型的判别能力，提高了目标在复杂场景和外观变化中的目标跟踪的鲁棒性；4)采用快速傅立叶变换，在频域中处理，降低了计算复杂度，极大提升了跟踪算法的速度。

下面结合附图和实施例详细说明本发明的实施过程。

实施例

步骤1：深度神经网络预训练

在带有类别标签的大规模数据集ImageNet上进行深度神经网络的预训练。

步骤2：深度卷积特征提取

(2)将候选块z_t输入到步骤1中预训练的深度神经网络中进行前向计算，分别提取Conv3层，Conv4层和Conv5层的卷积特征。

步骤3：手工特征提取

(2)目标候选块z_t提取梯度方向直方图，将候选块分成若干个4×4像素的细胞单元，使用9个梯度方向，统计直方图，使用主成分分析降维，得到m维的梯度方向直方图特征图谱。本发明中m取值设置为31；

(3)将目标候选块z_t缩放至1/4大小，提取n维的颜色名称特征，本发明中n取值设置为11。

步骤4：多特征融合计算

(1)将步骤3中得到的31维的梯度方向直方图与11维的颜色名称特征融合，得到42维的特征图谱；

(2)将步骤2中得到的三层卷积层特征图谱缩放到与手工特征图谱大小一致，对所有特征图谱进行快速傅里叶变换，得到融合特征图谱^表示离散傅立叶变换。

深度卷积特征、梯度方向直方图和颜色名称特征的融合计算过程如图2所示。

步骤5：尺度自适应目标检测与响应计算

(1)如图4所示，根据上一帧跟踪的目标位置p_t-1和尺度s_t-1，根据步骤2、步骤3和步骤4，从目标位置估计的候选区域z_t，trans提取多特征并融合，得到候选区域特征图谱采用如下公式计算位置滤波器的相关输出响应图f_t，trans：

(3)如图5所示，根据(2)检测到的目标位置p_t和上一帧检测到的目标尺度s_t-1＝W_t-1×H_t-1，提取以p_t为中心的尺度候选区域构造尺度金字塔，其中，a为一个超参数，aⁿ是每一层金字塔的尺度因子，o是尺度数目。根据步骤3，将目标尺度候选区域金字塔中每一层缩放到W×H大小，提取m维的梯度方向直方图特征图谱本发明中，a取值设置为1.02，o取值设置为33，m取值设置为31；

(4)与(1)中类似，计算尺度滤波器相关输出响应图谱f_t，sacle；

步骤6：相关滤波器模型更新

(1)空间上下文信息的提取如图3所示。根据步骤5检测到的当前帧的目标位置p_t和尺度s_t，得到目标区域以及目标区域的k个上下文本发明中，我们采用k＝4，根据步骤2、步骤3和步骤4，得到目标区域x_t和空间上下文的融合特征图谱

(2)利用如下公式训练位置滤波器模型：

其中，表示求得的位置滤波器模型，是期望的相关输出，设置为峰值位于目标中心位置p_t处的高斯函数，^表示离散傅立叶变换，*表示复共轭，⊙表示两个矩阵对应元素相乘，λ₁和λ₂是正则化参数，λ₁防止训练的模型过拟合，λ₂用于抑制背景响应，在本发明中λ₁和λ₂取值分别设置为0.0001和0.4。

(3)根据步骤5检测到的当前帧的目标位置p_t和尺度s_t＝W_t×H_t，提取以pt为中心的目标区域构造尺度金字塔，其中，根据步骤3，将目标尺度金字塔中每一层缩放到W×H大小，提取m维的梯度方向直方图特征图谱m取31；

(4)利用如下公式训练尺度滤波器模型：

其中，表示求得的尺度滤波器模型，是期望的相关输出，设置为峰值位于目标尺度金字塔中心的高斯函数，^表示离散傅立叶变换，*表示复共轭，⊙表示两个矩阵对应元素相乘，λ是正则化参数，防止训练的模型过拟合，本发明中，λ取值设置为0.0001；

(5)使用线性插值方法更新位置滤波器和尺度滤波器

其中，和分别表示前一帧的位置滤波器和尺度滤波器，η为学习率，η越大则模型更新越快，在本发明中η取值设置为0.01。

步骤7：输出当前帧跟踪结果

根据步骤5检测到的当前帧的目标位置p_t和尺度s_t＝W_t×H_t，以p_t为跟踪边界框的中心点，W_t和H_t分别为边界框的宽度和高度，在当前帧图像上画出目标边界框，并将图像显示出来。

本发明的效果可通过以下实验进一步说明：

实验设置

本实施例在两个标准视觉跟踪数据集OTB2013和OTB2015上进行实验：OTB2013有50个视频序列，总共拥有29000帧，而OTB2015拥有100个视频序列，总共拥有58897帧，它们每帧都有目标的标记。我们采用在大规模数据集ImageNet上进行预训练的VGG-Net-19进行深度特征的提取，提取的每层深度特征使用线性插值法放缩到目标大小的1/4。通过实验发现，本发明中参数设置为如表1所示的值时，实验取得很好的结果。

表1本实施例中采用的参数值

参数	m	n	λ<sub>1</sub>	λ<sub>2</sub>	λ	a	o	η
									取值	31	11	0.0001	0.4	0.0001	1.02	33	0.01

实验均在Window7操作系统下采用MATLAB R2016a完成。

实验结果：

如图6和图7所示，分别展示了本发明在标准视觉跟踪数据集OTB2013和OTB2015上与近年来出色的13个跟踪器比较的评测结果图。这13个跟踪器可以分为以下3类：

1)基于深度学习的跟踪器：全卷积网络跟踪算法FCNT、基于深度压缩图像表示的视觉跟踪算法DLT和分层卷积特征跟踪算法HCFT；

2)基于相关滤波的跟踪器：空间正则化相关滤波算法SRDCF、多存储跟踪算法MUSTer、长期相关滤波跟踪算法LCT、判别式尺度空间跟踪算法DSST、尺度自适应核相关滤波跟踪算法SAMF、核相关滤波跟踪算法KCF和循环结构跟踪算法CSK；

3)使用一个或多个在线分类器的跟踪器：熵最小化多专家跟踪算法MEEM、Tracking-Learning-Detection算法TLD、结构化输出跟踪算法Struck。

在实验中，评测指标主要有两种：准确率和重叠成功率。准确率定义为算法检测位置与目标标定位置之间的距离不超过20像素的帧数占总的帧数的百分比，而重叠成功率指的是算法检测目标边界框与目标标定边界框之间重叠部分的面积(交运算)占总面积(并运算)的百分比。两幅图中，每幅图的第一列是准确图(Precision Plots)，第二列是成功图(Success Plots)。整理各跟踪算法的评测结果数据，如表2所示。

表2本发明与近几年出色的跟踪算法在OTB2013与OTB2015数据集上的评测结果比较

从图6和图7及表2可以看出，本发明在两项评测指标下均取得了较好的结果。

如图8所示，显示了本发明与其它4个出色的跟踪算法在真实视频序列中的跟踪结果。从图中可以看出，本发明在目标发生平面外旋转、遮挡、变形、尺度变化以及快速运动等情况的复杂场景下仍然表现出很好的跟踪结果。

Claims

1.一种人工与深度特征联合的相关滤波视频自适应跟踪方法，其特征在于，包括以下步骤：

步骤1，深度神经网络预训练；

步骤2，深度卷积特征提取和手工特征提取；

步骤3，多特征融合计算；

步骤4，尺度自适应目标检测与响应计算；

步骤5，滤波器模型更新；

步骤6，输出当前帧跟踪结果。

2.根据权利要求1所述的人工与深度特征联合的相关滤波视频自适应跟踪方法，其特征在于，步骤1中的深度神经网络是在带有类别标签的数据集ImageNet上进行预训练的。

3.根据权利要求1所述的人工与深度特征联合的相关滤波视频自适应跟踪方法，其特征在于，步骤2中深度卷积特征提取具体为：

4.根据权利要求3所述的人工与深度特征联合的相关滤波视频自适应跟踪方法，其特征在于，步骤2中手工特征提取具体为：

(3)将目标候选块z_t缩放至1/4大小，提取n维的颜色名称特征。

5.根据权利要求4所述的人工与深度特征联合的相关滤波视频自适应跟踪方法，其特征在于，步骤3中多特征融合计算具体为：

(1)将步骤2中得到的m维的梯度方向直方图与n维的颜色名称特征融合，得到(m+n)维的特征图谱；

6.根据权利要求5所述的人工与深度特征联合的相关滤波视频自适应跟踪方法，其特征在于，步骤4中尺度自适应目标检测与响应计算具体为：

(1)根据上一帧跟踪的目标位置p_t-1和尺度s_t-1，根据步骤2、步骤3，从目标位置估计的候选区域z_t,trans提取多特征并融合，得到候选区域特征图谱采用如下公式计算位置滤波器的相关输出响应图f_t,trans：

(2)找到位置滤波器相关输出响应图f_t,trans的最大值对应的位置，此位置即是当前帧检测到的目标位置p_t；

(3)根据步骤(2)检测到的目标位置p_t和上一帧检测到的目标尺度s_t-1＝W_t-1×H_t-1，提取以p_t为中心的尺度候选区域构造尺度金字塔，其中，a为一个超参数，aⁿ是每一层金字塔的尺度因子，o是尺度数目；根据步骤3，将目标尺度候选区域金字塔中每一层缩放到W×H大小，提取m维的梯度方向直方图特征图谱

(4)与步骤(1)类似，计算尺度滤波器相关输出响应图谱f_t,sacle；

(5)找到尺度滤波器相关输出响应图f_t,scale的最大值对应的尺度，此尺度即是当前帧检测到的目标尺度s_t。

7.根据权利要求6所述的人工与深度特征联合的相关滤波视频自适应跟踪方法，其特征在于，a取值范围为[1.001，1.1]。

8.根据权利要求6所述的人工与深度特征联合的相关滤波视频自适应跟踪方法，其特征在于，步骤5中相关滤波器更新模型具体为：

(1)根据步骤4检测到的当前帧的目标位置p_t和尺度s_t，得到目标区域以及目标区域的k个上下文根据步骤2、步骤3，得到目标区域x_t和空间上下文的融合特征图谱

(2)利用如下公式训练位置滤波器模型：

其中，表示求得的位置滤波器模型，是期望的相关输出，设置为峰值位于目标中心位置p_t处的高斯函数，^表示离散傅立叶变换，*表示复共轭，⊙表示两个矩阵对应元素相乘，λ₁和λ₂是正则化参数，λ₁防止训练的模型过拟合，λ₂用于抑制背景响应；

(3)根据步骤4检测到的当前帧的目标位置p_t和尺度s_t＝W_t×H_t，提取以p_t为中心的目标区域构造尺度金字塔；根据步骤2，将目标尺度金字塔中每一层缩放到W×H大小，提取m维的梯度方向直方图特征图谱

(4)利用如下公式训练尺度滤波器模型：

其中，表示求得的尺度滤波器模型，是期望的相关输出，设置为峰值位于目标尺度金字塔中心的高斯函数，^表示离散傅立叶变换，*表示复共轭，⊙表示两个矩阵对应元素相乘，λ是正则化参数；

(5)使用线性插值方法更新位置滤波器和尺度滤波器

9.根据权利要求8所述的人工与深度特征联合的相关滤波视频自适应跟踪方法，其特征在于，λ₁和λ₂取值范围分别为[0.00001,0.001]和[0.1,0.6]，λ取值范围为[0.00001,0.001]，η取值范围为[0.001,0.05]。

10.根据权利要求8所述的人工与深度特征联合的相关滤波视频自适应跟踪方法，其特征在于，步骤6中输出当前帧跟踪结果具体为：