CN110889863A

CN110889863A - 一种基于目标感知相关滤波的目标跟踪方法

Info

Publication number: CN110889863A
Application number: CN201910825044.0A
Authority: CN
Inventors: 赵运基; 魏胜强; 张新良; 钱伟; 范存良; 陈相均; 周梦林
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2019-09-03
Filing date: 2019-09-03
Publication date: 2020-03-17
Anticipated expiration: 2039-09-03
Also published as: CN110889863B

Abstract

本发明公开了一种基于目标感知相关滤波的目标跟踪方法，其包括以下步骤：步骤1、构建深度网络特征提取模型；步骤2、确定跟踪目标及标签；步骤3、提取目标深度特征，构建通道选择相关滤波器；步骤4、滤波器逆变换，取实部并全局池化求绝对值，选择L个较大值对应的深度特征构建目标感知相关滤波器模型；步骤5、确定目标搜索区域，提取L个通道特征；步骤6、应用目标感知相关滤波器确定跟踪目标位置及尺度；步骤7、应用线性迭代更新通道选择相关滤波器；步骤8、应用线性迭代更新目标感知相关滤波器；步骤9、循环执行，实现目标连续跟踪。本发明可实现跟踪目标的自动感知，通道权重的在线自适应更新，有效增强跟踪算法的鲁棒性。

Description

一种基于目标感知相关滤波的目标跟踪方法

技术领域

本发明涉及一种目标跟踪技术领域，尤其涉及深度特征提取条件下的目标感知、基于相关滤波的目标跟踪方法。

背景技术

目标跟踪是计算机视觉领域中的研究热点之一。作为全世界视觉跟踪领域中的顶级赛事，VOT竞赛中涌现了大批高效，稳定的跟踪算法。随着深度学习算法相关理论与应用的研究进一步深入，涌现了大批的基于深度网络实现的目标跟踪算法，其中包括应用深度网络实现端到端的目标跟踪方法，应用深度网络实现跟踪目标的特征和相关滤波的方法等。在相关滤波框架下，采用深度网络的特征，最终通过在响应图像中寻找极值点的方法实现目标跟踪，此类方法充分利用了深度网络的跟踪目标特征提取能力，相关滤波算法的高效性。基于深度网络的特征提取需要有确定的深度网络参数，因此，需要离线训练深度网络模型。通常情况下，直接采用AlexNet，VGGNet，GoogLeNet，ResNet等网络，或者自行构建深度特征提取网络。深度网络的训练需要大量的样本及标签，在跟踪算法实施过程中，由于样本数量受限，因此，多数跟踪算法采用模型迁移的方式完成深度网络的构建。也可以通过标准的跟踪视频数据集训练自行构建的深度网络，例如DCFNet(Discriminate CorrelationFilter Network)算法中，应用VGGNet中的地卷积层，强制设置为32个特征通道；并应用相关视频对网络进行训练，最终构建出深度特征提取网络。TADT(Target Aware DeepTracking)算法中作者认为：对于同一物体，在深度网络中，对分类结果的贡献应该出现在相同的通道中。目前基于深度特征的目标跟踪算法中应用的网络大多是从分类网络迁移而来，基础的分类网络大多处理多分类网络，而跟踪实质上是区分前景和背景，可以认为是二分类网络，因此，应用迁移网络不可避免的包含了相关的冗余信息。TADT算法中提出了一种通过逐像素求损失的方法指导通道的选择，这种机制称为目标感知(Target Aware)，通过实验也验证了算法的有效性。这种基于逐像素求损失指导通道选择的方法，计算效率低较低，以TADT本身算法为例，512个通道的深度特征图像中的每一个像素都要计算损失。TADT算法的目标感知只在初始帧中计算，随着目标的移动，跟踪目标即使不存在任何变化，一旦背景发生变化，通道的选择也应该做相应的变化。由于TADT算法中的目标感知过程是基于像素的，而且计算效率较低，在线更新通道的选择机制将导致整个目标跟踪算法的跟踪效率低下。

发明内容

为了克服目标感知效率较低的缺陷，本发明的目的在于提供一种基于目标感知相关滤波的目标跟踪方法，首先采用DCFNet相似的处理思路，采用VGGNet的基础网络结构，构建64通道和128通道输出的网络模型，应用标准视频训练构建深度网络模型。应用提取到的深度特征构建基础相关滤波器模型，并计算出每个通道对应的滤波器，依据滤波器的GAP值进行通道选择，实现目标感知。依据目标感知的通道特征最终创建目标感知相关滤波器，以此滤波器作为目标跟踪的滤波器模型。当跟踪到目标后及时的对基础相关滤波模型进行更新，从而实现通道选择的及时更新，同时也对目标感知的相关滤波器模型进行更新。最终完成基于目标感知的相关滤波的目标跟踪。

为实现上述目的，本发明提供如下技术方案：

一种基于目标感知相关滤波的目标跟踪方法，包括以下步骤：

步骤1、构建深度网络特征提取模型；

步骤2、选择跟踪目标区域，创建初始跟踪窗口及Padding窗，依据跟踪目标尺寸和Padding窗构建余弦窗，构建跟踪目标区域标签；

步骤3、应用深度网络特征提取模型提取跟踪目标区域的特征，对特征加窗并转换至傅里叶空间，确定初始模型的循环矩阵，构建相关滤波器模型；

步骤4、依据相关滤波器模型，计算对应通道特征的滤波器，并计算滤波器的GAP(Global Average Pooling)，以此滤波器的GAP的绝对值表示对应通道的重要性；提取L个滤波器的GAP绝对值的最大值所对应的通道特征，以此构建目标感知相关滤波器；L为正整数；

步骤5、依据前一帧中目标的位置和尺度参数集合构建搜索区域的图像集合，通过深度网络构建深度特征，并提取其中对应的L个最大值所对应的特征矩阵，构建深度特征集合；

步骤6、依据目标感知相关滤波器和搜索区域的深度特征集合确定响应图像集合，在响应图像集合中确定最大响应位置和对应的尺度；

步骤7、依据跟踪目标的深度特征集合以及相关滤波器，获得当前帧对应的各通道的滤波器，采用线性的方式对各通道对应的滤波器的GAP值进行在线更新，并确定最大的L个绝对值对应的通道；

步骤8、应用L个通道特征，采用线性叠加的方式对目标感知相关滤波器进行在线更新；

步骤9、循环执行步骤5、6、7、8，实现对跟踪目标的连续跟踪。

进一步地，步骤4中，依据相关滤波器模型，计算对应通道特征的滤波器，并计算滤波器的GAP，包括：

在初始帧中，依据跟踪标准视频中的groundtruth_rect.txt中的初始目标位置和初始目标的大小确定跟踪目标矩形窗口的区域即为跟踪目标；

在特征提取层，采用DCFNet跟踪算法中的网络模型训练机制，分别构建64通道和128通道输出的网络模型，应用训练完成的模型对跟踪目标区域进行特征提取；提取跟踪目标区域的深度特征；通过判别相关滤波的计算公式求解与每个通道相关的滤波器，标准的判别相关滤波器如式(1)所示；

在目标跟踪的应用中，

表示跟踪目标X经过特征提取器，提取出的第k个通道的特征，并进行加窗处理，★表示循环卷积；在通常情况下，特征提取器为深度网络，因此

表示经过加窗处理的深度特征的第k个通道特征；深度网络的特征表示为

w^k则表示与深度网络特征第k个通道对应的滤波器，深度网络提取D个通道的深度特征，经过与D个通道对应的滤波器的处理，最终构建成与原始样本对应高斯矩阵y；通过最小化∈，最终获得最优的与D个通道特征对应的D个滤波器；通道k对应的滤波器如式(2)所示，其中，

表示第k个通道特征图像对应的滤波器w^k的傅里叶变换，

表示第k个通道经过加窗处理后的特征图像的傅里叶变换，

表示

的复数共轭矩阵，⊙表示矩阵的相关运算；

获得第k个通道对应的滤波器

后，由于通过公式(2)计算获得的滤波器为傅里叶变换后的形式，因此，应当将每个通道对应的滤波器进行傅里叶逆变换，取逆变换的结果的实部为每个通道对应的滤波器；计算过程如式(3)所示，最终获得D个通道对应的滤波器集合{w¹…w^D}；

将通过公式(3)计算获得的D个通道对应的滤波器集合{w¹…w^D}中，每一个通道对应的滤波器进行全局均值池化处理，最终获得与D个通道相对应的D个GAP结果，GAP结果集合为G＝{g¹…g^D}；选择GAP绝对值较大的L个滤波器对应的通道即为感知通道，提取感知通道的深度特征，此特征即为感知特征，以深度感知特征为基础创建滤波器集合

此过程为目标的感知过程；

步骤4中，提取L个滤波器的GAP绝对值的最大值所对应的通道特征，以此构建目标感知相关滤波器，包括：

依据公式(4)，构建最终的基于目标感知的相关滤波目标检测器：

其中，

表示候选区域图像Z的第k个通道特征矩阵经过加窗处理后的结果，通道的选择与滤波器对应，R为响应图像；最终构建的滤波器即为本发明所实现的目标感知相关滤波器。

3.根据权利要求2所述的一种基于目标感知相关滤波的目标跟踪方法，其特征在于，步骤5中，确定目标搜索区域，提取L个通道特征，包括：

依据前一帧的跟踪结果，在当前帧中确定目标的中心点位置，确定跟踪目标的大小，如果是第一帧，直接通过视频帧提供的groundtruth确定跟踪目标位置，确定跟踪目标的大小；依据Padding窗的尺度和前一帧目标位置和大小，在当前帧中确定目标的搜索区域；为了应对跟踪目标的尺度变化，构建跟踪目标的尺度集合；针对尺度集合中跟踪目标的尺度构建与本尺度对应的Padding窗，构建对应的目标搜索区域；在当前帧中提取搜索区域对应的图像块，将搜索区域图像块输入深度网络提取网络特征，在提供到的网络特征中，依据前一帧确定的目标感知通道，提取L个通道的深度特征。

进一步地，步骤6中，应用目标感知相关滤波器确定跟踪目标位置及尺度，包括：

候选目标区域有S个不同的尺度，则候选目标区域的尺度图像集合可表示为{Z¹，Zⁱ…Z^S}；与第i个尺度对应的响应图像的计算如式(5)所示：

Rⁱ表示与尺度i对应的响应图像；通过构建的目标感知相关滤波器模型获得最终的响应图像集合{R¹，Rⁱ…R^S}，在响应图像集合中确定响应的最大值，与最大值所在的响应图像对应的尺度即为当前帧中跟踪目标结果的尺度；最大值的位置即为当前帧中跟踪目标的位置相对于前一帧目标中心位置的偏移；通过线性运算最终确定跟踪目标的中心点位置和跟踪目标的当前尺度。

进一步地，步骤7中，依据跟踪目标的深度特征以及相关滤波器，获得当前帧对应的各通道的滤波器，包括：

在当前帧中确定跟踪目标的位置和大小后，提取当前帧跟踪目标的深度特征，构建与当前帧跟踪目标深度特征对应的高斯标签矩阵和余弦窗；依据公式(2)计算当前帧中跟踪结果特征所对应的滤波器；滤波器的集合可表示为

其中，n表示第n帧图像，F_n表示第n帧图像中依据跟踪目标的深度特征所构建的滤波器集合；

步骤7中，采用线性叠加的方式对各通道对应的滤波器的GAP值进行在线更新，并确定GAP绝对值最大的L个对应的通道，包括：

针对当前跟踪结果图像通过深度网络获得的滤波器集合F_n，通过GAP方式，对滤波器集合中的滤波器进行全局均值池化，最终获得滤波器的全局池化结果集合

同理获得前一帧图像所对应的滤波器集合G_n-1；当前帧中滤波器的GAP集合的线性叠加结果可表示为G′_n＝ηG_n+(1-η)G_n-1，其中，η为遗忘因子；在G′_n中选择数值较大的L值所对应的滤波器为目标感知滤波，与目标感知滤波器相对应的深度通道特征即为目标感知特征。

进一步地，步骤8中，应用L个通道特征，采用线性叠加的方式对目标感知相关滤波器进行在线更新，包括：

针对应用目标感知相关滤波实现的目标跟踪定位结果，应用深度网络，在前一帧中提取与前一帧滤波器对应的L个通道的深度特征；经过加窗处理后的特征集合表示为

同理，当前帧中L个通道的特征集合表示为

通过前一帧中目标区域的深度特征和当前帧中目标的深度特征构建目标感知相关滤波器，滤波器的计算如式(6)所示：

其中，

为模型更新后的与k通道对应的滤波器，k表示L个通道中的第k个通道，在下一帧图像中确定响应图像中，采用如式(6)所示的滤波器进行相关滤波。

本发明中，还可以经过深度网络提取的特征对于特征物体描述存在冗余，因此，选择合适的通道特征对特征物体描述有助于提高跟踪算法的效率。基于逐像素点损失最小的方法进行的通道选择效率较低，如果进行在线更新将导致整个跟踪算法的跟踪帧率下降，因此，本发明提出应用基础相关滤波的方法实现通道的选择。通过基础相关滤波确定每个通道的滤波器，依据滤波器的GAP进行通道选择。跟踪过程中在线更新GAP值，实现通道选择的在线更新。

具体地，步骤3中，还包括通道选择相关滤波器构建：

以跟踪目标的结果区域的深度特征作为目标的描述，以跟踪目标的大小创建对应的余弦窗和高斯标签。通过余弦窗对所有的深度特征进行加窗处理，依据加窗处理结果的深度特征，高斯标签和相关滤波理论计算与每个深度特征通道图像对应的滤波器。

进一步地，步骤4中，还包括目标感知相关滤波器构建：

对通过选择相关滤波器确定的每个通道对应的滤波器进行傅里叶逆变换，将逆变换结果的实部作为每一个通道对应的滤波器。每个通道的实数域滤波器进行GAP运算，并按照由大到小进行排序，选择其中GAP值较大的L个通道作为目标的最终感知通道。选择与L个通道对应的深度特征即为目标感知的深度特征。以深度特征和对应的高斯标签等创建目标感知相关滤波器。此滤波器作为跟踪过程中创建响应图像的滤波器。

进一步地，步骤7中，还包括GAP值的在线更新：

当前帧中确定了跟踪目标后，跟踪目标的背景与上一帧中的背景可能不同，因此需要更新GAP的值，更新过程采用线性叠加的方式进行。通过对更新后的GAP值进行排序，从而确定新的目标感知通道，在后续的跟踪中以新确定的通道为目标感知通道提取深度特征。

附图说明

图1为本发明实施例一种基于目标感知相关滤波的目标跟踪方法流程图；

图2为相关滤波基本结构示意图；

图3为目标感知相关滤波的目标跟踪算法示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

实施例一

为了克服现有的基于深度特征目标感知的跟踪方法的缺陷，本发明提供一种基于目标感知相关滤波的目标跟踪方法，在相关滤波框架下，构建通道选择相关滤波器和目标感知相关滤波器。通道相关滤波器能够有效的实现通道的选择，提高目标感知效率，在线更新机制有效的应对背景变化，提高目标描述的鲁棒性。目标感知相关滤波实现跟踪目标位置的确定，目标尺度的确定。系统整体流程如图1所示，包括以下步骤：

110、构建深度网络的特征提取模型。以DCFNet算法设计的特征提取的深度网络为基本架构，应用VGGNet网络的conv1为卷积层，删除其中的池化层并将输出通道参数修改为64或128，然后将卷积结果输入LRN(Local Response Normalization)层，LRN层的输出即为最终的特征提取结果。最终构建出两种特征提取模型。应用NUS-PRO、TempleColor128和UAV123等视频序列对网络模型进行训练。最终完成深度网络特征提取模型的构建，该模型可以输出64个通道的特征图像和128个通道的特征图像。

120、在初始帧中确定跟踪目标的位置和大小，标准跟踪视频帧中通过读取groundtruth文件获得跟踪目标的位置和大小，进而创建Padding窗，依据跟踪目标的大小和Padding窗创建余弦窗函数以及高斯标签，最终完成跟踪目标的标签确定。

130、对于确定的跟踪目标的Padding窗区域图像，应用已经训练完成的深度特征提取网络模型提取Padding窗区域图像的深度特征，以64通道的深度特征为例，应用深度网络提取到的Padding窗区域的深度特征最终为64个通道。应用余弦窗函数对提取到的64个通道的深度特征进行加窗处理，并将处理的最终结果进行快速傅里叶变换。同时将目标区域的高斯标签同样进行快速傅里叶变换。依据式1构建通道选择的相关滤波器。相关滤波的基本结构如图2所示。其中，k表示为第k个通道，

表示第k个通道对应的滤波器的傅里叶变换形式，

表示

的复数共轭矩阵，

为目标区域的高斯标签的傅里叶变换结果，⊙表示矩阵的相关运算，D表示深度特征的通道数。

140、获得第k个通道对应的滤波器

后，由于通过公式1计算获得的滤波器为傅里叶变换后的形式，因此，应当将每个通道对应的滤波器进行傅里叶逆变换，取逆变换的结果的实部为每个通道对应的滤波器。计算过程如式2所示，最终获得D个通道对应的滤波器集合{w¹…w^D}。

将通过公式2计算获得的D个通道对应的滤波器集合{w¹…w^D}中，每一个通道对应的滤波器进行全局均值池化处理，最终获得与D个通道相对应的D个GAP结果，GAP结果集合为G＝{g¹…g^D}。选择GAP绝对值较大的L个滤波器对应的通道即为感知通道，提取感知通道的深度特征，此特征即为感知特征，以深度感知特征为基础创建滤波器集合

滤波器的计算如式3所示。

依据公式4，构建最终的基于目标感知的相关滤波目标检测器，其中，

表示候选区域图像Z的第k个通道特征矩阵经过加窗处理后的结果，通道的选择与滤波器对应，R为响应图像，在响应图像中确定跟踪目标的位置及大小。最终构建的滤波器即为本发明所实现的目标感知相关滤波器。

150、依据前一帧的跟踪结果，在当前帧中确定目标的中心点位置，确定跟踪目标的大小。依据Padding窗的尺度和前一帧目标位置和大小，在当前帧中确定目标的搜索区域。为了应对跟踪目标的尺度变化，构建跟踪目标的尺度集合。针对尺度集合中跟踪目标的尺度构建与本尺度对应的Padding窗，构建对应的目标搜索区域。在当前帧中提取搜索区域对应的图像块，将搜索区域图像块输入深度网络提取特征，在提供到的网络特征中，依据前一帧确定的目标感知通道，提取L个通道的深度感知特征。

160、候选目标区域有S个不同的尺度，则候选目标区域的尺度图像集合可表示为{Z¹，Zⁱ…Z^S}。与第i个尺度对应的响应图像的计算如式5所示，Rⁱ表示与尺度i对应的响应图像。通过构建的目标感知相关滤波器模型可以获得最终的响应图像集合{R¹，Rⁱ…R^S}，在响应图像集合中确定响应的最大值，与最大值所在的响应图像对应的尺度即为当前帧中跟踪目标结果的尺度。最大值的位置即为当前帧中跟踪目标的位置相对于前一帧目标中心位置的偏移。通过线性运算最终可以确定跟踪目标的中心点位置和跟踪目标的当前尺度。

170、在当前帧中确定跟踪目标的位置和大小后，提取当前帧跟踪目标的深度特征，构建与当前帧跟踪目标深度特征对应的高斯标签矩阵和余弦窗。依据公式2计算当前帧中跟踪结果特征所对应的滤波器。滤波器的集合可表示为

其中，n表示第n帧图像，F_n表示第n帧图像中依据跟踪目标的深度特征所构建的滤波器集合。

同理可以获得前一帧图像所对应的滤波器集合G_n-1。当前帧中滤波器的GAP集合的线性叠加结果可表示为G′_n＝ηG_n+(1-η)G_n-1，其中，η为遗忘因子。在G′_n中选择数值较大的L值所对应的滤波器为目标感知滤波，与目标感知滤波器相对应的深度通道特征即为目标感知特征。

180、针对应用目标感知相关滤波实现的目标跟踪定位结果，应用深度网络，在前一帧中提取与前一帧滤波器对应的L个通道的深度特征。经过加窗处理后的特征集合可以表示为

同理，当前帧中L个通道的特征集合可以表示为

通过前一帧中目标区域的深度特征和当前帧中目标的深度特征构建目标感知相关滤波器，滤波器的计算如式6所示，其中，

为模型更新后的与k通道对应的滤波器，k表示L个通道中的第k个通道，在下一帧图像中确定响应图像中，可以采用如式6所示的滤波器进行相关滤波。

最后循环执行150～180，最终实现自适应尺度调整的目标跟踪，目标感知相关滤波的目标跟踪算法示意图如图3所示。

本发明提出的目标跟踪方法，经过标准的跟踪视频实验验证，在不降低跟踪中心误差的前提下，提高了跟踪算法的跟踪速度。

上述的实施方式仅为本发明的优选实施方式，不能以此限定本发明的保护范围，本领域的相关技术人员在本发明的基础上所做的非实质性的变换及替换均属于本发明所要求的保护范围。

Claims

1.一种基于目标感知相关滤波的目标跟踪方法，其特征在于，包括以下步骤：

步骤1、构建深度网络特征提取模型；

2.根据权利要求1所述的一种基于目标感知相关滤波的目标跟踪方法，其特征在于，步骤4中，依据相关滤波器模型，计算对应通道特征的滤波器，并计算滤波器的GAP，包括：

在目标跟踪的应用中，

表示第k个通道特征图像对应的滤波器w^k的傅里叶变换，

表示第k个通道经过加窗处理后的特征图像的傅里叶变换，

表示

的复数共轭矩阵，⊙表示矩阵的相关运算；

获得第k个通道对应的滤波器

此过程为目标的感知过程；

其中，

4.根据权利要求3所述的一种基于目标感知相关滤波的目标跟踪方法，其特征在于，步骤6中，应用目标感知相关滤波器确定跟踪目标位置及尺度，包括：

候选目标区域有S个不同的尺度，则候选目标区域的尺度图像集合可表示为{Z¹,Zⁱ…Z^S}；与第i个尺度对应的响应图像的计算如式(5)所示：

Rⁱ表示与尺度i对应的响应图像；通过构建的目标感知相关滤波器模型获得最终的响应图像集合{R¹,Rⁱ…R^s}，在响应图像集合中确定响应的最大值，与最大值所在的响应图像对应的尺度即为当前帧中跟踪目标结果的尺度；最大值的位置即为当前帧中跟踪目标的位置相对于前一帧目标中心位置的偏移；通过线性运算最终确定跟踪目标的中心点位置和跟踪目标的当前尺度。

5.根据权利要求4所述的一种基于目标感知相关滤波的目标跟踪方法，其特征在于，步骤7中，依据跟踪目标的深度特征以及相关滤波器，获得当前帧对应的各通道的滤波器，包括：

6.根据权利要求5所述的一种基于目标感知相关滤波的目标跟踪方法，其特征在于，步骤8中，应用L个通道特征，采用线性叠加的方式对目标感知相关滤波器进行在线更新，包括：

同理，当前帧中L个通道的特征集合表示为

其中，