CN107644217A

CN107644217A - 基于卷积神经网络和相关滤波器的目标跟踪方法

Info

Publication number: CN107644217A
Application number: CN201710909836.7A
Authority: CN
Inventors: 刘乾坤; 刘斌; 俞能海
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2018-01-30
Anticipated expiration: 2037-09-29
Also published as: CN107644217B

Abstract

本发明公开了一种基于卷积神经网络和相关滤波器的目标跟踪方法，该方法对不同特征做了深入分析，包括深度特征与手工特征在表征目标方面的优势与劣势、来自同一卷积神经网络不同卷积层的深度特征之间的多样性，并针对不同的特征设计了不同的相关滤波器来有效利用这些特征，同时，将深度特征与手工特征进行有效地结合，从而显著提高跟踪算法的整体性能。

Description

基于卷积神经网络和相关滤波器的目标跟踪方法

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于卷积神经网络和相关滤波器的目标跟踪方法。

背景技术

目标跟踪作为计算机视觉的一个重要分支，被广泛应用到各个领域，如军事打击、交通管控、安防系统、人机交互等。随着深度学习在近几年的快速发展，目标跟踪研究也取得了很大进步。但是，现实生活中，光照变化、相机抖动、目标形变、目标尺度变化、目标部分或全部遮挡等干扰因素的存在，使目标跟踪仍是一个具有挑战性的研究领域。

能够将目标从背景中有效区分的特征在目标跟踪中发挥着重要作用。最近几年，利用卷积神经网络提取的深度特征被应用到计算机视觉领域各任务中，并取得了不错的成果。但是深度特征的提取与计算复杂度较高，因此一些学者做了一些研究来提高计算效率。由于相关滤波器能够将时域的卷积运算变成频率域的乘法运算，加快了计算速度，因此被广泛应用到目标跟踪领域来提高跟踪速度。

David S.Bolme等人在文章“Visual Object Tracking Using AdaptiveCorrelation Filters”(CVPR，2010)中针对目标跟踪问题提出了相关滤波器MOSSE，首次将相关滤波器引入目标跟踪领域，大大提高了算法的跟踪速度。由于MOSSE仅使用了手工特征，因此跟踪性能不太理想。另外，MOSSE是单通道的相关滤波器，所以其应用范围受到一定的限制。

Henriques J F等人在文章“High-speed Tracking with KernelizedCorrelation Filters”(PAMI，2015)中利用循环矩阵的概念提出了KCF跟踪算法。对于线性回归问题，KCF等价于相关滤波器，但是KCF也适用于非线性回归问题。另外，KCF可以扩展成多通道相关滤波器。KCF跟踪速度较高，但是由于仅使用了手工特征，跟踪性能也不理想。

Lijun Wang等人在文章“STCT:Sequentially Training ConvolutionalNetworks for Visual Tracking”(CVPR，2016)中提出了一种新的训练卷积神将网络的方法，并进一步提出了目标跟踪算法STCT，该算法包含三个卷积神经网络。由于STCT利用了深度特征，因此跟踪性能较好。但是，在线跟踪时，该算法需要对三个卷积神经网络进行在线微调，因此跟踪速度较慢。

Qi Y等人在文章“Hedged deep tracking”(CVPR，2016)中提出了名为HDT的跟踪算法，该算法利用预训练的卷积神经网络来提取深度特征，并设计了相关滤波器对深度特征进行处理，实现目标跟踪。在线跟踪时，固定卷积神经网络参数，只更新相关滤波器。HDT整体跟踪性能较好，且相关滤波器的引入在一定程度上提高了算法的跟踪速度。与STCT不同，HDT利用了来自多层卷积层的深度特征。但是，HDT只对目标位置进行估计，没有估计目标尺寸，所以当目标尺寸变化较剧烈时，跟踪性能将会下降。

现有目标跟踪方法具有以下不足：1)跟踪算法仅使用手工特征或深度特征。由于不同特征具有不同的优势，因此单独使用某一种特征很难设计出性能优良的跟踪算法；2)现有使用深度特征的方法，大部分需要对卷积神经网络进行在线微调，再加上深度特征的提取与处理计算量较大，因此跟踪速度较慢。

发明内容

本发明的目的是提供一种基于卷积神经网络和相关滤波器的目标跟踪方法，可以减少计算量，并提高跟踪精度。

本发明的目的是通过以下技术方案实现的：

一种基于卷积神经网络和相关滤波器的目标跟踪方法，包括：

对于非视频序列第一帧，首先，基于视频序列上一帧中目标的位置和尺寸，从视频序列当前帧中提取一个感兴趣区域，并作为预训练的卷积神经网络的输入来提取深度特征，再利用位置相关滤波器对提取的深度特征进行处理，获得视频序列当前帧中目标的位置；然后，基于视频序列当前帧中目标的位置和视频序列上一帧中目标的尺寸，从视频序列当前帧中提取I个感兴趣区域，并从提取的I个感兴趣区域中提取手工特征，再利用尺寸相关滤波器，对提取的手工特征进行处理，得到视频序列当前帧中目标的尺寸。

由上述本发明提供的技术方案可以看出，将深度特征与手工特征进行有效地结合，能显著提高跟踪算法的整体性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的基于卷积神经网络和相关滤波器的目标跟踪方法的框架图；

图2为本发明实施例提供的特征提取结果图；

图3为本发明实施例提供的基于卷积神经网络和相关滤波器的目标跟踪方法的流程图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种基于卷积神经网络和相关滤波器的目标跟踪方法，该方法主要分为目标位置估计、目标尺寸估计两部分：

1、目标位置估计，包括感兴趣区域提取、深度特征提取、位置计算三部分。

1)感兴趣区域提取，是基于视频序列上一帧中目标的位置和尺寸，从视频序列当前帧中提取一个感兴趣区域。

2)深度特征提取，是将提取的一个感兴趣区域作为预训练的卷积神经网络的输入，从而提取深度特征。

3)位置计算，是利用特别设计的位置相关滤波器(Location CorrelationFilter,LCF)，对深度特征进行计算处理，得到目标的位置。

2、目标尺寸估计，包括感兴趣区域提取、手工特征提取、尺寸计算三部分。

1)感兴趣区域提取，是基于视频序列当前帧中目标的位置和视频序列上一帧中目标的尺寸，从当前视频序列帧中提取若干个感兴趣区域。

2)手工特征提取，是利用手工特征提取算法从提取的若干个感兴趣区域中提取手工特征。

3)尺寸计算，是利用特别设计的尺寸相关滤波器(Scale Correlation Filter,SCF)，对手工特征进行计算处理，得到目标的尺寸。

如图1所示，为本发明实施例提供的基于卷积神经网络和相关滤波器的目标跟踪方法的示意图；其包含了上下两个计算分支，分别对应上述目标位置估计、目标尺寸估计两部分。视频序列的某帧(设为第t帧)输入到两个计算分支中，首先利用上面的分支完成该帧中目标位置估计部分，然后利用下面的分支完成该帧中目标尺寸估计部分，最后输出目标在该帧中的位置框。在本发明实施例中，预训练的卷积神经网络VGG-16被用来提取深度特征，手工特征(例如，HOG特征)被用来进行目标尺寸估计。

如图2所示，是本发明实施例从三个跟踪目标中提取的深度特征与HOG特征。图2中从左往右：第一列是输入图像，即提取的感兴趣区域，第二列是HOG特征图，第三、四、五列分别是VGG-16中conv2_2层、conv3_3层、conv4_3层提取的深度特征图，且这里展示的深度特征图是该层所有通道特征图的平均值。对比深度特征图与HOG特征图可以发现，相对于HOG特征，深度特征能更有效地将目标从背景中区分出来，但是手工特征能更清晰地描述目标的轮廓与纹理；对比不同卷积层的深度特征图可以发现，来自同一卷积神经网络不同卷积层的深度特征存在多样性。最后一列展示的深度特征图没能将目标与背景有效地进行区分，原因是conv4_3层中部分神经元不响应目标。因此，在本发明实施例中，来自不同卷积层的深度特征被用来估计目标位置，手工特征被用来估计目标尺寸。

本发明实施例中，根据视频序列当前帧是否为第一帧做不同处理，如图3所示，为基于卷积神经网络和相关滤波器的目标跟踪方法的流程图，可实现在线追踪，具体如下：

1)初始化。该过程包括加载预训练的卷积神经网络、输入视频序列、定义位置相关滤波器中各滤波器的初始权重、定义尺寸相关滤波器中尺度因子集合、定义相关滤波器学习率等一些必要的前期准备工作。

2)对于视频序列第一帧，将其作为训练样本，在第一帧中已标定目标位置和尺寸的基础上，提取出一个感兴趣区域并作为预训练的卷积网络的输入来提取深度特征，并利用F_c ^t公式(将在下文进行介绍)来训练位置相关滤波器；之后，在第一帧中已标定目标位置和尺寸的基础上，再提取I个感兴趣区域，并从中提取手工特征，再利用F_c ^t公式来训练尺寸相关滤波器。

本领域技术人员可以理解，在第一帧时，提取感兴趣区域的方式可以通过常规技术来实现。

3)对于非视频序列第一帧。首先，基于视频序列上一帧中目标的位置和尺寸，从视频序列当前帧中提取一个感兴趣区域，并作为预训练的卷积神经网络的输入来提取深度特征，再利用位置相关滤波器对提取的深度特征进行处理，获得视频序列当前帧中目标的位置；然后，基于视频序列当前帧中目标的位置和视频序列上一帧中目标的尺寸，从视频序列当前帧中提取I个感兴趣区域，并从提取的I个感兴趣区域中提取手工特征，再利用尺寸相关滤波器，对提取的手工特征进行处理，得到视频序列当前帧中目标的尺寸。此外，在获得视频序列当前帧中目标的位置和目标的尺寸后，将视频序列当前帧作为训练样本，基于当前帧中目标的位置和尺寸提取一个感兴趣区域，并作为预训练的卷积神经网络的输入来提取深度特征，同时基于当前帧中目标的位置和尺寸提取I个感兴趣区域，并从提取的I个感兴趣区域中提取手工特征。然后利用已经提取的深度特征与手工特征来分别对应的训练位置相关滤波器与尺寸相关滤波器，再利用训练结果来对应的更新位置相关滤波器与尺寸相关滤波器。

4)不断重复上述3)中的过程，直至视频序列最后一帧。

在本发明实施例中，所述位置相关滤波器与尺寸相关滤波器均为多通道相关滤波器。

利用x^t表示从训练样本中提取的特征，单通道信号y^t(需要根据具体问题预定义)表示多通道相关滤波器的期望输出，多通道信号f^t表示需要得到的多通道相关滤波器；

设置变量：X^t＝F(x^t)，Y^t＝F(y^t)，F^t＝F(f^t)，其中，F(·)表示离散傅里叶变换；

用C表示多通道信号的通道数，则f^t表示由C个相关滤波器组成的整体，在傅立叶域，F^t通过如下方式得到：

其中，带下标c的变量，表示对应的第c个通道的分量，λ表示正则化项，符号⊙表示对应元素相乘，符号·表示标量乘积；

上式的解为：

其中的除法是对应元素相除，表示的复共轭；可以看出分母中第一项是信号x^t的功率谱，当x^t与λ确定时，相关滤波器由y^t决定。

对于非视频序列第一帧，将其作为测试样本z，首先将z进行傅里叶变换得到Z，则测试样本的输出响应r通过下式计算得到：

在线目标跟踪时，根据给定训练样本中提取的深度特征或者手工特征来训练多通道相关滤波器：

上式中，分别对应右侧算式的分子、分母部分，以便于利用下式更新滤波器的公式书写方便。

之后，利用训练结果来更新多通道相关滤波器：

其中，η表示相关滤波器的学习率，同样的，A^t、B^t分别对应右侧算式的分子、分母部分。

本领域技术人员可以理解，多通道相关滤波器介绍文字中所涉及的信号、参数、数据以及相关公式均适用于位置相关滤波器与尺寸相关滤波器；区别仅在于对应的信号、参数、数据的类型不同。例如，对于位置相关滤波器而言，特征x^t则是深度特征，对于尺寸相关滤波器而言，特征x^t则是手工特征。相关公式也是如此，例如，文中提到了利用已经提取的深度特征与手工特征来分别对应的训练位置相关滤波器与尺寸相关滤波器，再利用训练结果来对应的更新训练位置相关滤波器与尺寸相关滤波器；也就是说，训练与更新位置相关滤波器及尺寸相关滤波器的公式是相同的，如果是针对位置相关滤波器进行训练与更新，那么带入的参数则与位置相关滤波器相关，如果是针对尺寸相关滤波器进行训练与更新，那么带入的参数则与尺寸相关滤波器相关。

另外，关于文中提到的训练样本，是指样本中含有目标，且目标的位置和尺寸是已知的。因为在第一帧中，目标的位置和尺寸是人为标定的，所以第一帧便被用来作为训练样本，我们也就是基于人为标定的位置与尺寸来提取感兴趣区域，进而提取相应的特征来训练相应的相关滤波器。而非第一帧会先被用来作为测试样本，所谓测试样本，是指样本中含有目标，但是目标的位置和尺寸是未知的，因为开始时目标位置与尺寸位置未知，所以利用文中给出的方式来计算目标的位置和尺寸，在得到该帧中目标的位置和尺寸后，便将该帧作为训练样本，这时的操作便与第一帧的操作相同，即基于估计出来的位置和尺寸来提取感兴趣区域，进而提取相应的特征来训练相应的相关滤波器，然后用新训练出来的滤波器对之前的滤波器进行更新。

下面再分别针对位置相关滤波器的目标位置计算、尺寸相关滤波器的目标尺寸计算做进一步介绍。

本发明实施例中，对于位置相关滤波器，特征x^t与多通道信号f^t是三维的，即x^t,其中M与N均为标量，对应每一通道中特征的宽度与长度；用二维高斯分布表示位置相关滤波器的期望输出，该二维高斯分布由均值标准差确定，且其中s^t表示第t帧中目标的尺寸；假设位置相关滤波器利用来自K层卷积层的深度特征进行目标位置估计，则位置相关滤波器中有K个相互独立的相关滤波器，即：

LCF＝{F^k,t|k＝1,2,...,K}；

其中，LCF表示位置相关滤波器，F^k,t表示位置相关滤波器中第k个相关滤波器；

利用位置相关滤波器求到的响应r是二维的，F^k,t估计的目标位置是响应图r^k中最大值的坐标(m^k,n^k)，最终的目标位置由下式确定：

其中，ω^k为F^k,t的权重，

当最终位置估计出来后，可以计算出(m^k,n^k)与(m,n)之间的误差，该误差反映了相关滤波器F^k,t的稳定性，ω^k根据F^k,t的稳定性进行更新。

本发明实施例中，对于尺寸相关滤波器，预定义一个尺度因子集合

其中θ＞1是尺寸变化的步进，I表示感兴趣区域的数量，α_i为第i个尺度因子，第i个感兴趣区域大小为α_i·s^t，s^t表示第t帧中目标的尺寸；用表示从这些感兴趣区域中提取的手工特征，且M^t中每一列分别对应一个感兴趣区域，则第c通道的信号分量即为M^t中第c行的行向量；用一维高斯分布表示尺寸相关滤波器的期望输出，该一维高斯分布由均值标准差确定，且目标的尺寸由下式确定：

s'＝α_l·s^t。

利用尺寸相关滤波器求得的响应是一维的，下标l表示响应r中最大值的位置索引(即位置坐标)，因为尺寸相关滤波器的相应r是一个长度为I的向量，因此，最大值的位置索引l的取值范围为1～I，通过预定义的尺度因子集合就可以确定尺度因子α_l。

本发明上述方案与现有技术相比具有以下优点：

第一，本发明对不同特征做了深入分析，包括深度特征与手工特征在表征目标方面的优势与劣势、来自同一卷积神经网络不同卷积层的深度特征之间的多样性，并针对不同的特征设计了不同的相关滤波器来有效利用这些特征。

第二，本发明在线跟踪时，不需要对预训练的卷积神经网络进行在线微调，只需对相关滤波器进行在线更新，减少了计算量。

第三，本发明将深度特征与手工特征进行有效地结合，能显著提高跟踪算法的整体性能。如表1所示，是在数据集OTB-100前50个视频序列上测试的结果。其中平均精确率是在目标位置误差阈值为20个像素时计算得到的，平均成功率是利用曲线下的面积计算得到的。对比本发明提出的算法与HDT，可以看出虽然本发明提出的方法在平均精确率方面比HDT低了0.8％，但是在平均成功率方面比HDT高了5.9％；对比本发明提出的方法与STCT，可以看出本发明提出的算法在平均精确率和平均成功率方面分别比STCT高了2.6％和0.6％。可以看出，本发明提出的跟踪算法整体性能最优。

表1各跟踪算法的比较

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于卷积神经网络和相关滤波器的目标跟踪方法，其特征在于，包括：

2.根据权利要求1所述的一种基于卷积神经网络和相关滤波器的目标跟踪方法，其特征在于，在获得视频序列当前帧中目标的位置和目标的尺寸后，将视频序列当前帧作为训练样本，基于当前帧中目标的位置和尺寸提取一个感兴趣区域，并作为预训练的卷积神经网络的输入来提取深度特征，同时基于当前帧中目标的位置和尺寸提取若干个感兴趣区域，并从提取的I个感兴趣区域中提取手工特征；然后利用已经提取的深度特征与手工特征来分别对应的训练位置相关滤波器与尺寸相关滤波器，再利用训练结果来对应的更新位置相关滤波器与尺寸相关滤波器；不断重复上述过程，直至视频序列最后一帧。

3.根据权利要求2所述的一种基于卷积神经网络和相关滤波器的目标跟踪方法，其特征在于，所述位置相关滤波器与尺寸相关滤波器均为多通道相关滤波器；

利用x^t表示从训练样本中提取的特征，单通道信号y^t表示多通道相关滤波器的期望输出，多通道信号f^t表示需要得到的多通道相关滤波器；

设置变量：其中，表示离散傅里叶变换；

上式的解为：

其中的除法是对应元素相除，表示的复共轭；

上式中，分别对应右侧算式的分子、分母部分；

之后，利用训练结果来更新多通道相关滤波器：

<mrow> <msup> <msubsup> <mi>F</mi> <mi>c</mi> <mi>t</mi> </msubsup> <mo>&prime;</mo> </msup> <mo>=</mo> <mfrac> <msup> <mi>A</mi> <mi>t</mi> </msup> <msup> <mi>B</mi> <mi>t</mi> </msup> </mfrac> <mo>=</mo> <mfrac> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&eta;</mi> <mo>)</mo> <msup> <mi>A</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mo>+</mo> <mi>&eta;</mi> <msup> <mover> <mi>A</mi> <mo>^</mo> </mover> <mi>t</mi> </msup> </mrow> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&eta;</mi> <mo>)</mo> <msup> <mi>B</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mo>+</mo> <mi>&eta;</mi> <msup> <mover> <mi>B</mi> <mo>^</mo> </mover> <mi>t</mi> </msup> </mrow> </mfrac> <mo>;</mo> </mrow>

其中，η表示相关滤波器的学习率，A^t、B^t分别对应右侧算式的分子、分母部分。

4.根据权利要求3所述的一种基于卷积神经网络和相关滤波器的目标跟踪方法，其特征在于，

对于位置相关滤波器，特征x^t与多通道信号f^t是三维的，即其中M与N对应每一通道中特征的宽度与长度；用二维高斯分布表示位置相关滤波器的期望输出，该二维高斯分布由均值标准差确定，且其中s^t表示第t帧中目标的尺寸；假设位置相关滤波器利用来自K层卷积层的深度特征进行目标位置估计，则位置相关滤波器中有K个相互独立的相关滤波器，即：

LCF＝{F^k,t|k＝1,2,...,K}；

<mrow> <mo>(</mo> <mi>m</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> <mo>=</mo> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </msubsup> <msup> <mi>&omega;</mi> <mi>k</mi> </msup> <mo>&CenterDot;</mo> <mo>(</mo> <msup> <mi>m</mi> <mi>k</mi> </msup> <mo>,</mo> <msup> <mi>n</mi> <mi>k</mi> </msup> <mo>)</mo> <mo>;</mo> </mrow>

其中，ω^k为F^k,t的权重，

5.根据权利要求3所述的一种基于卷积神经网络和相关滤波器的目标跟踪方法，其特征在于，

对于尺寸相关滤波器，预定义一个尺度因子集合其中θ＞1是尺寸变化的步进，I表示感兴趣区域的数量，α_i为第i个尺度因子，第i个感兴趣区域大小为α_i·s^t，s^t表示第t帧中目标的尺寸；用表示从这些感兴趣区域中提取的手工特征，且M^t中每一列分别对应一个感兴趣区域，则第c通道的信号分量即为M^t中第c行的行向量；用一维高斯分布表示尺寸相关滤波器的期望输出，该一维高斯分布由均值标准差确定，且目标的尺寸由下式确定：

s'＝α_l·s^t。

其中，下标l表示响应r中最大值的位置索引，l的取值范围为1～I。

6.根据权利要求3所述的一种基于卷积神经网络和相关滤波器的目标跟踪方法，其特征在于，

对于视频序列第一帧，将其作为训练样本，在第一帧中已标定目标位置和尺寸的基础上，提取出一个感兴趣区域并作为预训练的卷积网络的输入来提取深度特征，并利用公式来训练位置相关滤波器；

之后，在第一帧中已标定目标位置和尺寸的基础上，再提取I个感兴趣区域，并从中提取手工特征，再利用公式来训练尺寸相关滤波器。