CN108346159B

CN108346159B - 一种基于跟踪-学习-检测的视觉目标跟踪方法

Info

Publication number: CN108346159B
Application number: CN201810080582.7A
Authority: CN
Inventors: 李嘉锋; 张时雨; 卓力; 张辉; 马春杰
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-01-28
Filing date: 2018-01-28
Publication date: 2021-10-15
Anticipated expiration: 2038-01-28
Also published as: CN108346159A

Abstract

本发明公开了一种基于跟踪‑学习‑检测的视觉目标跟踪方法，属于计算机视觉领域。首先，本发明从深度特征和核相关滤波的角度出发，建立了一种基于跟踪‑学习‑检测的视觉目标跟踪方法，可完成复杂场景下长时间目标跟踪的任务；其次，本发明针对卷积神经网络的特征图进行了研究和测试，并分析了不同卷积层的特征图对视觉目标跟踪的影响。最后，本发明融入目标检测的思想，可以进行跟踪失败后对目标进行再检测，从而实现对单目标的长时间跟踪。本方法将相关滤波跟踪方法与深度学习相结合，从而提高目标在复杂场景下目标跟踪的鲁棒性。

Description

一种基于跟踪-学习-检测的视觉目标跟踪方法

技术领域

本发明属于计算机视觉领域，特别涉及一种基于跟踪-学习-检测的视觉目标跟踪方法。

背景技术

视觉目标跟踪是计算机视觉领域的重要组成部分，但由于视觉目标会出现光照、形变，遮挡等多种复杂场景，复杂背景下的通用目标跟踪在计算机视觉领域仍然是一项非常具有挑战性的研究任务。目前目标跟踪技术不断地被应用到人们的生产生活以及军事等各个方面，如视频监控、智能无人机、精确制导、智能分析等。

通常视觉目标跟踪是指单目标跟踪。单目标跟踪则是对一个未知目标，通过视频第一帧给定的目标初始化状态(尺度信息与位置信息)进行跟踪。跟踪的结果是在后续帧中，利用跟踪方法计算出目标的位置和尺度信息，并以矩形框(跟踪框)的形式在原视频上显示这些信息。

由于算法速度快，效果好，近年来基于相关滤波的视觉目标跟踪方法吸引了众多研究者的目光。相关滤波器通过将输入特征回归为目标高斯分布来训练滤波器。并在后续跟踪中寻找预测分布中的响应峰值来定位目标的位置。相关滤波器在运算中巧妙应用快速傅立叶变换获得了大幅度速度提升。目前基于相关滤波的拓展方法也有很多，包括核化相关滤波器方法，尺度估计的相关滤波器方法等。

由于深度学习的迅速兴起，研究者们同时也将深度学习应用于视觉目标跟踪上，基于深度学习的方法大致分为两种，一种是利用深度模型，另一种则是利用深度特征。基于深度学习的目标跟踪方法准确性较高但是速度较慢。

发明内容

本发明的目的在于提供一种基于跟踪-学习-检测的视觉目标跟踪方法，将相关滤波跟踪方法与深度学习相结合，从而提高目标在复杂场景下目标跟踪的鲁棒性，同时加入检测机制以应对目标消失在视场后再次出现在视场内的情况，从而实现长时间目标跟踪。

整体流程：获取一帧图像后采用ImageNet预训练好的VGG-19卷积神经网络中的卷积层提取特征，然后通过相关滤波计算出响应图，进行多峰值检测，确定目标的所在位置。当平均峰值能量APCE(average peak-to-correlation energy) 与峰值均大于历史均值时，判定跟踪成功，然后更新模型，并在线训练检测器；当APCE与历史均值的差大于特定值时，判定跟踪失败，然后不更新模型，同时调用检测器对跟踪器进行初始化。

学习部分：学习器利用深度学习中卷积神经网络的卷积层提取目标特征，其中卷积神经网络的卷积层采用ImageNet预训练好的VGG-19中的三个卷积层；

跟踪部分：跟踪器包含四个相关滤波器，其中三个是用来检测目标的位置，另一个为尺度滤波器用来检测目标的的尺度变化；

检测部分：检测器由三个级联分类器构成，分别为方差分类器，随机森林分类器和最近邻分类器。其中随机森林分类器和最近邻分类器需要在线训练

所述的整体流程，具体步骤如下：

步骤1在视频的第一帧手工标定或者从文档中读取目标的位置信息和尺度信息，并初始化检测器；位置信息和尺度信息以跟踪框的形式呈现。

步骤2将跟踪框的1.5倍大小提取的图像块送入VGG-19卷积神经网络，运算完成后提取Conv5-4,Conv4-4和Conv3-4产生的特征图。

步骤3利用三个深度特征初始化三个核相关滤波器。

步骤4在下一帧图像，通过前一帧跟踪框的位置，步骤2进行特征提取，利用三个相关滤波器分别进行相关滤波，得到三个响应图，将三个响应图进行线性加权求和得到一张响应图，查找响应的最大值fmax(最大响应值)以及最大值的坐标作为新的目标位置。然后进行目标尺度估计，获取尺度响应最大值的作为新的目标尺度。计算APCE值，当此时的fmax和APCE与历史均值的差都小于某一值时，判定跟踪成功，在新的跟踪框位置和大小按照步骤2提取特征，然后更新滤波器模型，并训练检测器。

步骤5当此时的fmax和APCE与历史均值的差都大于某一值时，判定跟踪失败，不进行滤波器模型更新，用检测器重新初始化跟踪器，返回步骤4。

步骤6重复步骤4、步骤5直至视频最后一帧。

所述的学习部分，具体步骤如下：

(1)通过跟踪框位置以及大小(如果是第一帧则是手动标出)在当前帧获取一个1.5倍大小的图像块，然后将该图像块归一化到224×224分辨率大小，之后送入VGG-19卷积神经网络做运算，并按照图像块大小创建一个二维高斯分布，然后进行快速傅里叶变换得到

(2)运算完成后提取Conv5-4,Conv4-4和Conv3-4分别经过ReLU层产生的特征图，将特征图归一化到同一patch大小(即跟踪框的1.5倍大小)，并且对于每一个特征图(特征图一般是三维数据，例如Conv3-4的特征图维度是56× 56×256，Conv4-4的特征图维度是28×28×512)按照第三个维度进行叠加，得到二维的特征图并进行快速傅里叶变换记为

所述的跟踪部分，具体步骤如下：

(1)在第t帧图像中，先根据上一帧(t-1)跟踪框位置和大小，利用学习器提取三个深度特征图

然后分别与对应滤波器模型参数x^(d)进行线性核相关运算，计算

公式如下：

其中，z表示卷积后的特征图，x表示滤波器参数，k^xz表示核相关运算，上标d 表示是第d个特征图和滤波器参数，^表示快速傅里叶变换，⊙表示两个矩阵元素对应相乘，*表示复数共轭。

(2)然后利用线性核相关运算结果

与滤波器模型参数α^(d)计算三个响应图f⁽¹⁾，f⁽²⁾，f⁽³⁾，公式如下：

其中，f表示响应图，k^xz表示核相关运算，α是滤波器参数，d是上标表示第d 个响应图，

表示离散傅里叶的逆变换，^表示快速傅里叶变换，⊙表示两个矩阵元素对应相乘，*表示复数共轭。

(3)得到三个响应图后，进行线性加权求和得到第t帧的位置总响应图f_t，p，并找到最大的响应点的位置p以及最大响应的值fmax，公式如下：

其中，f_t，p是第t帧的位置总响应图，f^(d)表示第d个响应图，C_d表示第d个线性加权系数。

(4)通过最大响应的位置，和在t-1帧的尺度大小S提取尺度估计的候选区域Z，构建尺度金字塔，计算尺度滤波器与金字塔的相关滤波运算得到响应图 f_t，s，并找到响应值最大相对应的尺度，作为第t帧的尺度；

(5)计算平均峰值能量APCE(average peak-to-correlation energy)，计算公式如下：

其中，f_max和f_min分别表示响应的最大值和最小值，f_w，h表示是(w,h)位置上的响应值。

(6)当此时的fmax和APCE与历史均值的差都大于某一值时，判定跟踪失败，不进行滤波器模型更新。反之，判定跟踪成功，在新的跟踪框位置和大小通过学习器提取特征并进行快速傅里叶变换记为

然后更新滤波器模型参数x^(d)和α^(d)，并训练检测器，更新滤波器模型公式如下：

其中，k^xx表示核相关滤波运算，

和

分别表示当前帧和前一帧的滤波器参数，

和

分别表示当前帧和前一帧的滤波器参数，η是学习率，λ是常数，

所述的检测部分，具体步骤如下：

检测器由方差分类器，集合分类器以及最近邻分类器三个级联分类器构成。方差分类器排除方差小于初始目标边界框方差50％的图像块，方差分类器通过下式计算图像块的灰度值方差：

D(x)＝E(x²)-E²(x)(9)

其中，x表示图像块区域，D(x)表示图像块区域的灰度值方差，E(x)表示图像块区域的灰度值均值，E(x²)表示图像块区域灰度值平方的均值。

集合分类器含有n个基本分类器，基本分类器也称为决策树。这n个决策树构成了随机森林。集合分类器在初始化时，随机产生10组每组13个点对，然后对于每一个通过方差分类器的图像，进行点对的两两比较，生成相应的二进制编码，最后得到10个二进制编码，用来代表此图像块的特征，每一个二进制编码都有其各自的后验概率所代表，最后将十个后验概率的平均来判断图像块是否为正样本，定义后验概率公式为：

其中，m_p和m_n分别代表着正样本图像块和负样本图像块的个数；

最近邻分类器通过相关相似性度量对通过集合分类器的正样本进行进一步筛选，所用到的公式如下：

a)目标模型集合M

其中，p⁺表示目标的图像块,p^-表示目标周围背景的图像块。将p⁺和p^-添加至集合时，正样本是按照时间进行排序的；

b)正样本最近邻的相似度

其中，p是要添加到集合M的样本，

是集合M中所有的正样本；

c)负样本最近邻的相似度

其中，p是要添加到集合M的样本，

是集合M中所有的负样本；

d)相关相似度

其中，S⁺表示正样本最近邻的相似度，S^-表示负样本最近邻的相似度；

(1)在第一帧中，利用初始跟踪框的位置和尺度信息，通过仿射变换产生正负样本，其中正负样本标签是通过计算与初始跟踪框的重叠率得到的；

(2)利用正负样本训练集合分类器和最近邻分类器，并构建目标模型M；

(3)当跟踪器判别跟踪成功后，利用当前帧跟踪器产生的跟踪框的位置和尺度信息，通过仿射变换产生正负样本，再次训练集合分类器和最近邻分类器，更新后验概率以及目标模型M；

(4)当跟踪器判别跟踪失败后，检测器通过21种尺度的扫描窗口对当前帧进行扫描具体过程为，扫描窗口尺度的缩放比例为1.2，共有21种尺度变换 (0.16151～6.19174)，水平步长系数是初始目标边界框宽度的10％，垂直步长系数是初始目标边界框高度的10％，最小的边界框的大小是20像素。将扫描产生的图像块送入三个级联分类器，然后将与模型相似度最高的图像块作为含有目标的图像块，输出此图像块的大小和坐标作为当前帧跟踪框的位置和尺度。然后对跟踪器进行初始化。

本发明的特点：

首先，本发明从深度特征和核相关滤波的角度出发，建立了一种基于跟踪- 学习-检测的视觉目标跟踪方法，可完成复杂场景下长时间目标跟踪的任务；其次，本发明针对卷积神经网络的特征图进行了研究和测试，并分析了不同卷积层的特征图对视觉目标跟踪的影响。最后，本发明融入目标检测的思想，可以进行跟踪失败后对目标进行再检测，从而实现对单目标的长时间跟踪。

附图说明

图1、发明方法总体流程图；

图2、发明方法学习部分流程图；

图3、发明方法跟踪部分流程图；

图4、发明方法检测部分流程图，其中：

(a)检测部分训练分类器流程图；

(b)跟踪失败后检测部分重新检测目标位置流程图；

图5、本发明方法实验结果图，其中：

(a)第一帧输入图像结果图；

(b)某一帧光照改变跟踪结果图；

(c)某一帧目标尺度发生变化跟踪结果图；

(d)某一帧目标发生旋转畸变跟踪结果图；

具体实施方式

以下结合说明书附图，对本发明的实施实例加以详细说明：

一种基于跟踪-学习-检测的视觉目标跟踪方法，整体流程图如附图1所示；算法分为学习部分，跟踪部分和检测部分；其流程图分别如附图2，附图3和附图4所示；学习部分，根据上一帧输出的(或第一帧的)跟踪框位置和尺度信息，在当前帧获取一个1.5倍跟踪框大小的图像块。将图像块送入VGG-19卷积神经网络进行运算，然后提取Conv5-4,Conv4-4和Conv3-4层分别经过ReLU层产生的特征图，然后进行快速傅里叶变换。接着按照图像块大小创建一个二维高斯分布(标准响应图)，并对其进行快速傅里叶变换。跟踪部分，利用学习部分提取的特征图和标准响应图，通过核相关滤波的方法预测下一帧目标的位置和尺度，然后进行跟踪结果的判断，失败则不更新滤波器模型，不训练检测器。成功则更新滤波器模型并训练检测器。检测部分，在第一帧中，通过跟踪框的位置和尺度信息利用仿射变换产生正负样本，初始化集合分类器和最近邻分类器，并构建目标模型。在第t帧中，若跟踪器跟踪成功，则利用跟踪器产生的跟踪框位置和尺度信息产生正负样本，训练集合分类器和最近邻分类器，并更新目标模型；若跟踪器跟踪失败，则由检测器利用21种尺度的扫描窗口在当前帧进行扫描，然后将产生的大量图像块送入三个级联分类器，最后得到一个与目标模型相似度最高的图像块，然后输出此图像块的位置和尺度作为当前帧的跟踪框，并重新初始化跟踪器。

所述学习部分分为两个步骤：

(1)获取第t-1帧(若是更新滤波器模型则是获取第t帧)跟踪框的位置和尺度信息，将跟踪框进行1.5倍的扩大获得一个图像块。然后将这个图像块然后将这个图像块归一化到224×224大小，送入VGG-19卷积神经网络做运算。接着按照原始图像块大小创造一个二维高斯分布，并进行傅里叶变换得到

(2)运算完成后提取第Conv5-4,Conv4-4和Conv3-4卷积层分别经过ReLU 层产生的特征图，然后将特征图归一化到原始图像块大小，并且对于每一个特征图(三维数据)按照第三个维度进行叠加，得到二维的特征图再进行快速傅里叶变换记为

所述的跟踪部分分为六个步骤：

(1)在第t帧图像中，先根据上t-1帧跟踪框位置和尺度，利用学习部分提取三个深度特征图

并乘以余弦窗较少边界效应，然后在频域分别与对应滤波器模型参数x^(d)进行线性核相关运算，利用公式(1)计算

(2)然后利用线性核相关运算结果

与滤波器模型参数α^(d)通过公式(2) 计算三个响应图f⁽¹⁾，f⁽²⁾，f⁽³⁾；

(3)得到三个响应图后，通过公式(3)进行线性加权求和得到第t帧的位置总响应图f_t，p，并找到最大的响应点的位置p以及最大响应的值fmax；

(4)通过最大响应的位置，和在t-1帧的尺度大小S提取尺度估计的候选区域Z，构建尺度金字塔，计算尺度滤波器与金字塔的相关滤波运算得到响应图 f_t，，s，并找到响应值最大相对应的尺度，作为第t帧的尺度；

(5)通过公式(4)计算平均峰值能量(average peak-to-correlation energy，APCE)；

(6)进行跟踪结果的判定，当此时的fmax和APCE与历史均值的差都大于某一值时，判定跟踪失败，不进行滤波器模型更新。反之，判定跟踪成功，在新的跟踪框位置和大小通过学习器提取特征并进行快速傅里叶变换记为

然后通过公式(5)-(8)更新滤波器模型参数x^(d)和α^(d)，并训练检测器。

所述的检测部分，具体步骤如下：

D(x)＝E(x²)-E²(x)

a)目标模型集合M

b)正样本最近邻的相似度

c)负样本最近邻的相似度

d)相关相似度

(1)在第一帧中，利用初始跟踪框的位置和尺度信息创建21种尺度的扫描窗，然后分别用21种尺度的扫描窗口以0.2倍宽高进行偏移，产生n个图像块的位置和尺度信息用于跟踪失败的目标检测。接着再利用初始跟踪框的位置和尺度信息通过仿射变换产生正负样本用于初始化分类器，其中正负样本标签是通过计算与初始跟踪框的重叠率得到的；

(2)利用正负样本初始化集合分类器和最近邻分类器，并构建目标模型M；

(3)当跟踪器判别跟踪成功后，利用跟踪器产生的跟踪框的位置和尺度信息，通过仿射变换产生正负样本，再次训练集合分类器和最近邻分类器，更新后验概率以及目标模型M；

(4)当跟踪器判别跟踪失败后，检测器利用步骤(1)产生的n个图像块位置和尺度信息提取n个图像块，并将提取的图像块送入三个级联分类器，其中方差分类器滤除了图像块中方差小的部分；集合分类器提取图像块的2bit BP特征并给出该图像块是目标的可能，当投票结果大于5时才认为图像块含有目标；最近邻分类器将通过集合分类器的图像块与目标模型进行相似度计算，筛选出最有可能是目标的图像块，然后输出此图像块的坐标和大小作为当前帧跟踪框的位置和尺度。最后对跟踪器进行初始化。

如图5所示为本发明方法实验结果图，其中：(a)第一帧输入图像结果图； (b)某一帧光照改变跟踪结果图；(c)某一帧目标尺度发生变化跟踪结果图； (d)某一帧目标发生旋转畸变跟踪结果图。

Claims

1.一种基于跟踪-学习-检测的视觉目标跟踪方法，其特征在于：

整体流程：获取一帧图像后采用ImageNet预训练好的VGG-19卷积神经网络中的卷积层提取特征，然后通过相关滤波计算出响应图，进行多峰值检测，确定目标的所在位置；当此时的f_max和APCE与历史均值的差都小于某一值时，判定跟踪成功，然后更新模型，并在线训练检测器；否则，判定跟踪失败，然后不更新模型，同时调用检测器对跟踪器进行初始化；

跟踪部分：跟踪器包含四个相关滤波器，其中三个是用来检测目标的位置，另一个为尺度滤波器用来检测目标的尺度变化；

检测部分：检测器由三个级联分类器构成，分别为方差分类器，随机森林分类器和最近邻分类器；其中随机森林分类器和最近邻分类器需要在线训练；

所述的整体流程，具体步骤如下：

步骤1在视频的第一帧手工标定或者从文档中读取目标的位置信息和尺度信息，并初始化检测器；位置信息和尺度信息以跟踪框的形式呈现；

步骤2将跟踪框的1.5倍大小提取的图像块送入VGG-19卷积神经网络，运算完成后提取Conv5-4,Conv4-4和Conv3-4产生的特征图；

步骤3利用三个深度特征初始化三个核相关滤波器；

步骤4在下一帧图像，通过前一帧跟踪框的位置，利用步骤2进行特征提取，利用三个相关滤波器分别进行相关滤波，得到三个响应图，将三个响应图进行线性加权求和得到一张响应图，查找响应的最大值f_max以及最大值的坐标作为新的目标位置；然后进行目标尺度估计，获取尺度响应最大值作为新的目标尺度；计算APCE值，当此时的f_max和APCE与历史均值的差都小于某一值时，判定跟踪成功，在新的跟踪框位置和大小按照步骤2提取特征，然后更新滤波器模型，并训练检测器；

步骤5当此时f_max或APCE与历史均值的差大于等于某一值时，判定跟踪失败，不进行滤波器模型更新，用检测器重新初始化跟踪器，返回步骤4；

步骤6重复步骤4、步骤5直至视频最后一帧；

所述的学习部分，具体步骤如下：

(1)通过跟踪框位置以及大小在当前帧获取一个1.5倍大小的图像块，然后将该图像块归一化到224×224分辨率大小，之后送入VGG-19卷积神经网络做运算，并按照图像块大小创建一个二维高斯分布，然后进行快速傅里叶变换得到

(2)运算完成后提取Conv5-4,Conv4-4和Conv3-4分别经过ReLU层产生的特征图，将特征图归一化到同一patch大小，并且对于每一个特征图按照第三个维度进行叠加，得到二维的特征图并进行快速傅里叶变换记为

所述的跟踪部分，具体步骤如下：

(1)在第t帧图像中，先根据t-1帧图像跟踪框位置和大小，利用学习器提取三个深度特征图

公式如下：

其中，z表示卷积后的特征图，x表示滤波器参数，k^xz表示核相关运算，上标d表示是第d个特征图和滤波器参数，^表示快速傅里叶变换，⊙表示两个矩阵元素对应相乘，*表示复数共轭；

(2)然后利用线性核相关运算结果

其中，f表示响应图，α是滤波器参数，

表示离散傅里叶的逆变换；

(3)得到三个响应图后，进行线性加权求和得到第t帧的位置总响应图f_t,p，并找到最大的响应点的位置p以及最大响应的值f_max，公式如下：

其中，f_t,p是第t帧的位置总响应图，f^(d)表示第d个响应图，C_d表示第d个线性加权系数；

(4)通过最大响应的位置，和在t-1帧的尺度大小S提取尺度估计的候选区域Z，构建尺度金字塔，计算尺度滤波器与金字塔的相关滤波运算得到响应图f_t,s，并找到响应值最大相对应的尺度，作为第t帧的尺度；

(5)计算平均峰值能量APCE，计算公式如下：

其中，f_max和f_min分别表示响应的最大值和最小值，f_w,h表示是(w,h)位置上的响应值；

(6)当f_max或APCE与历史均值的差大于等于某一值时，判定跟踪失败，不进行滤波器模型更新；反之，判定跟踪成功，在新的跟踪框位置和大小通过学习器提取特征并进行快速傅里叶变换记为

其中，k^xx表示核相关滤波运算，

和

分别表示当前帧和前一帧的滤波器参数，

和

分别表示当前帧和前一帧的滤波器参数，η是学习率，λ是常数。

2.根据权利要求1所述的一种基于跟踪-学习-检测的视觉目标跟踪方法，其特征在于：

所述的检测部分，具体步骤如下：

检测器由方差分类器，集合分类器以及最近邻分类器三个级联分类器构成；方差分类器排除方差小于初始目标边界框方差50％的图像块，方差分类器通过下式计算图像块的灰度值方差：

D(x)＝E(x²)-E²(x)(9)

其中，x表示图像块区域，D(x)表示图像块区域的灰度值方差，E(x)表示图像块区域的灰度值均值，E(x²)表示图像块区域灰度值平方的均值；

集合分类器含有n个基本分类器，基本分类器也称为决策树；这n个决策树构成了随机森林；集合分类器在初始化时，随机产生10组每组13个点对，然后对于每一个通过方差分类器的图像，进行点对的两两比较，生成相应的二进制编码，最后得到10个二进制编码，用来代表此图像块的特征，每一个二进制编码都有其各自的后验概率所代表，最后将十个后验概率的平均来判断图像块是否为正样本，定义后验概率公式为：

a)目标模型集合M

其中，p⁺表示目标的图像块,p^-表示目标周围背景的图像块；将p⁺和p^-添加至集合时，正样本是按照时间进行排序的；

b)正样本最近邻的相似度

其中，p是要添加到集合M的样本，

是集合M中所有的正样本；

c)负样本最近邻的相似度

其中，

是集合M中所有的负样本；

d)相关相似度

(4)当跟踪器判别跟踪失败后，检测器通过21种尺度的扫描窗口对当前帧进行扫描具体过程为，扫描窗口尺度的缩放比例为1.2，共有21种尺度变换，水平步长系数是初始目标边界框宽度的10％，垂直步长系数是初始目标边界框高度的10％，最小的边界框的大小是20像素；将扫描产生的图像块送入三个级联分类器，然后将与模型相似度最高的图像块作为含有目标的图像块，输出此图像块的大小和坐标作为当前帧跟踪框的位置和尺度；然后对跟踪器进行初始化。