CN115937654A

CN115937654A - 一种基于多层次特征融合的单目标跟踪方法

Info

Publication number: CN115937654A
Application number: CN202310010228.8A
Authority: CN
Inventors: 康笑笑; 王洁
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2023-01-04
Filing date: 2023-01-04
Publication date: 2023-04-07

Abstract

本发明公开了一种基于多层次特征融合的单目标跟踪方法，解决物体遮挡和相似物体干扰时的跟踪问题。首先，在特征提取的过程中添加注意力模块，通过对特征图赋予不同的权重值，提高模型对于目标元素的判别能力。其次，提出了一个新的互相关方法，该方法可以有效的结合模板分支和搜索分支的特征。在训练期间从大规模数据中捕获更多的相关语义信息，有利于提高后续分类和回归的准确性。然后，采用了一种自适应多层次特征融合的机制，使得模型能充分利用特征的空间结构信息和语义信息，在复杂场景下提高目标跟踪的鲁棒性。最后，在数据集上进行了实验，结果表明，本发明所提出的模型优于现有的其他主流模型，取得了优异的跟踪性能。

Description

一种基于多层次特征融合的单目标跟踪方法

技术领域

本发明涉及计算机视觉单目标跟踪领域，具体涉及一种基于多层次特征融合的单目标跟踪方法。

背景技术

目标跟踪是计算机视觉领域基础而又具有挑战性的研究问题之一，单目标跟踪是指在给出视频中第一帧的目标初始状态下，跟踪器需要检测出后续帧中目标并预测该目标的位置和大小。在视频监控、自动驾驶、人机交互等领域的应用十分广泛，近年来取得了显著的进展。但在真实世界中存在物体遮挡、尺度变化、快速运动、光照变化、背景相似物体干扰等因素，因此设计一个跟踪准确度高且鲁棒性好的跟踪算法仍然面临极大的挑战。

早期的单目标跟踪以相关滤波算法为主，例如CSK算法，提取图像的灰度特征进行跟踪；KCF算法，以HOG特征表征物体进行目标跟踪。此类方法速度很快但是其准确度和鲁棒性无法满足现阶段目标跟踪的要求，原因是所使用的手工特征在复杂场景下难以适应目标的各种变化。近年来，随着深度学习的不断发展，基于孪生网络的单目标跟踪算法由于其跟踪速度快，性能好而受到了不少学者的广泛关注。基于孪生网络的目标跟踪算法将目标跟踪任务转化为目标相似度匹配任务，旨在学习目标模板分支与搜索区域分支之间的相似度映射。开创性的工作SiamFC在速度和精度上取得了很好的平衡。在这项工作之后，一些研究人员通过设计不同的孪生网络架构，试图进一步挖掘目标跟踪算法的潜力。许多基于锚点(anchor-based)或无锚点(anchor-free)的方法被提出，实现了最先进的跟踪性能。随着更深更宽的深度神经网络的研究，SiamRPN++、SiamDW以不同的方式去除填充等影响因素，将ResNet、ResNeXt和MobileNet等现代深度神经网络引入到基于孪生网络的跟踪器中。但是当遇到物体遮挡、背景相似物体干扰等情况时，深层次的特征提取网络也未能准确的进行跟踪。在孪生网络算法中，互相关运算是嵌入两个分支信息的核心操作。现有的常见方法是SiamRPN++中提出的深度交叉相关层(DW-Xcorr)，对两个分支的特征图执行逐通道的互相关操作。然而传统的互相关操作仍会导致提取到部分背景信息或丢失部分目标信息等问题。

综上所述，基于孪生网络的单目标跟踪算法仍面临一些问题。首先，使用深层次的分类网络(如ResNet)作为骨干网络后，孪生网络跟踪器的特征提取网络不能有效的区分目标和相似干扰物，给互相关运算带来很多困难。其次，在互相关运算中，只使用了最后一层的语义信息特征，而低层次的空间信息特征未能充分利用、对跟踪性能的影响也未得到充分的探索。最后，现有的跟踪器不能有效的抵抗相似物干扰，主要原因来自于互相关运算通过对深度特征进行简单的卷积操作来实现相似度匹配。这导致了匹配区域远大于目标区域，带来了大量的相似物干扰特征，导致跟踪不准确。

本发明提出了一种基于多层次特征融合的单目标跟踪方法，改善了现有方法所存在的上述弊端。(1)在目标特征提取子网络中添加了交叉注意力和自我注意力，以提高特征的表示能力。(2)提出了新的互相关方法ASC，在训练过程中优化参数，以有效的结合模板分支和搜索分支的特征。(3)在互相关运算之后进行了多层次特征融合，使得模型能充分利用特征的空间结构信息和语义信息。(4)在OTB100、UAV123、VOT2018数据集上分别进行了实验，验证本发明所提出模型的有效性。

发明内容

实现本发明所述方法的主要思路如下：首先，模板图像分支和搜索图像分支使用现有的卷积网络ResNet-50提取浅层次和深层次的卷积特征，在特征提取的过程中通过添加自我注意力和交叉注意力模块，增强卷积特征的表达；其次将提取到的双分支特征进行互相关运算；然后多层次特征融合模块通过将互相关后的多层次特征图进行自适应融合；最后通过无锚点分类回归子网络对融合后的特征图进行目标边界框的预测。

本发明包括以下步骤：

步骤一：卷积特征提取。使用改进的ResNet-50作为骨干网络进行特征提取，模板分支以模板图像Z作为输入，大小为127×127像素，搜索分支以搜索图像X作为输入，大小为255×255像素，双分支共享卷积层中参数。

步骤二：自我注意力和交叉注意力。将步骤一所提取到的模板特征f_Z和搜索特征f_X输入到注意力模块。首先，使用自我注意力，对模板分支和搜索分支进行特征增强，突出目标核心元素。然后，将模板特征

和搜索特征

输入交叉注意力模块，逐层过滤掉与目标无关的特征，对具有相似外观的目标和干扰物生成对比特征。

步骤三：互相关运算。通过步骤二注意力机制后的模板特征

和搜索特征

输入到互相关模块中，对模板分支和搜索分支进行独立的卷积运算，得到对应的特征，然后通过广播的形式进行相加，最终输出多层次的响应图。

步骤四：多层次特征融合。对步骤三进行互相关运算后的响应图p₃、p₄、p₅进行自适应融合，在训练过程中动态调整融合权重。

步骤五：目标边界框分类和回归。使用无锚点分类回归子网络作目标边界框的预测输出。将步骤四得到的多通道响应图p输入分类回归子网络，分类分支对每个位置进行目标和背景的判断；中心度分支和分类分支在对应位置相乘，抑制搜索图像边缘位置的元素；回归分支对预测为目标的位置进行边界框的预测输出。

与现有技术相比，本发明的技术方案具有以下优势：

1)本发明在特征提取的过程中添加注意力，设计了自我注意力机制和交叉注意力机制。自我注意力可以增强目标的特征表示，对物体快速移动等具有较强的鲁棒性，交叉注意力逐层过滤掉与目标无关的特征，为具有相似外观的目标和干扰物生成对比特征。因此，可以将跟踪目标与相似干扰物区分开来；

2)本发明将浅层次的空间结构信息与深层次的语义信息特征进行结合，为边界框的预测输出提供了更多的信息，使模型可以在区分不同类别的目标同时可以精确定位；

3)本发明设计了一种可学习的互相关计算方法，使用两个独立的卷积加一个求和运算，在大规模离线训练中通过不断优化参数去学习更好地捕获语义相关信息，找到更好的融合模板特征和搜索特征的方法，提升跟踪精度。

附图说明

图1是本发明所述方法的整体流程图。

图2是本发明所设计的基于多层次特征融合的单目标跟踪模型网络结构图。

图3是本发明所述的注意力模块结构图。

图4是本发明所述的互相关模块结构图。

图5是本发明所述的边界框回归模块的回归目标示意图。

图6是OTB100数据集实验结果示意图。

图7是UAV123数据集实验结果示意图。

具体实施方式

以下将结合具体实施例子，并参照附图，对本发明做进一步的详细说明。

本发明所设计的一种基于多层次特征融合的单目标跟踪方法，方法整体流程图如图1所示，模型网络结构图如图2所示。

步骤一：卷积特征提取。

孪生网络跟踪器的骨干网络由两个分支组成，共享卷积神经网络中的参数。一个是模板分支，输入是模板图像Z，输出以模板特征

表示；另一个是搜索分支，输入是搜索图像X，输出以搜索特征

表示。在训练和测试过程中，本发明使用预先固定的尺度，通过裁剪的方式固定模板区域大小为127×127像素，搜索区域大小为255×255像素。

本发明的跟踪器采用改进的ResNet-50作为特征提取的骨干网络，具体网络结构以及参数如表1所示。如表所示，首先，本发明去除了在conv4和conv5卷积块中的下采样操作，将步长设置为1。其次，为了增加感知野，本发明采用扩张卷积，在模型中采用了不同的扩张率。具体来说，在第四层和第五层卷积块中分别将扩张率设置为2和4。最后，为了减少后续注意力模块计算的负担，本发明在Conv3、Conv4、Conv5层输出特征图时添加了1×1的Downsample卷积层，将原始的输出特征通道512、1024和2048减少到256通道。同时针对于模板分支特征来说，将15*15像素的特征大小裁剪为7×7的像素大小，此时仍然可以表示整个目标区域。

表1 改进的ResNet-50网络结构以及参数

步骤二：自我注意力和交叉注意力。

本步骤首先对所提取到的Conv3、Conv4、Conv5层特征分别进行自我注意力运算，然后进行交叉注意力运算，具体结构如图3所示。

特征图f_i输入后与特征图f_j进行注意力运算。首先，分别对f_i和f_j进行1×1×1的卷积生成对应的特征矩阵q_i、k_j、v_j；其次，将q_i和k_j进行矩阵重塑，再通过矩阵乘法运算和softmax运算得到注意力权重矩阵；然后，将权重矩阵与通过矩阵重塑后的v_j进行矩阵乘法运算，使得特征与权重融合，再经过1×1×1卷积运算，输出矩阵f_ij；最后将f_ij与输入特征图f_i进行相加运算，输出带注意力权重的特征图

各个运算步骤的表达式(1)-(5)如下：

q_i＝θ(f_i) (1)

k_j＝φ(f_j) (2)

v_j＝g(f_j) (3)

f_ij＝γ(softmax(q_i·k_j ^T)·v_j) (4)

其中，θ，φ，g，γ为1×1×1的卷积，“·”为矩阵乘法，

为矩阵逐元素相加。

以Conv3特征为例，模板图特征f_Z和搜索图特征f_X首先分别做自我注意力(SA)运算，

和

是自我注意力编码后的特征。表达式(6)、(7)如下：

然后本发明将自我注意力后的特征输入到交叉注意力(CA)模块。CA模块以搜索图特征

作为f_i的输入，模板图特征

作为f_j的输入，

是交叉注意力编码后的特征。表达式(8)如下：

Conv4、Conv5层的特征以此步骤进行对应的自我注意力和交叉注意力运算。

步骤三：互相关运算。

经过步骤二注意力模块运算后的特征

和

将会输入到互相关模块中，输出对应的第三层、第四层、第五层的响应图。本发明提出了一个新的互相关模块，称为不对称相似度计算(Asymmetric similarity calculation，ASC)，将级联特征映射上的卷积运算分解为两个数学上等价的运算，同时通过参数在训练过程中进行优化，从大量离线数据中学习更好地捕获语义相关信息，找到更好的融合模板特征和搜索特征的方法。如图4所示，ASC模块由两个独立的卷积和一个求和组成，在数学上等价于级联特征图上的直接卷积，从而解决特征必须大小一致才能进行拼接的问题。

ASC模块使用与模板特征图相同大小的卷积核，分别对模板特征图和搜索特征图进行卷积操作，然后对特征图进行求和操作，从而有效地连接不同大小的特征图。表达式(9)如下所示:

x_i∈R^C×h×w,θ_z,θ_x∈R^P×C×h×w,p_i∈R^P×1×1

其中，xi是

的子窗口，θ_z是应用于

的核，θ_x是应用于

的核，所有子窗口都共享相同的卷积。为了简单起见，本发明将{θ_x*x_i∣i∈[1,n]}替换为θ_z*z+θ_x*x。在x内收集所有子窗口的特征，形成一个新的特征映射p，表达式如(10)所示：

在应用一个ReLU激活函数后，本发明得到一个新的互相关方法f，可以在训练过程中进行优化。具体表达式如(11)所示：

步骤四：多层次特征融合。

本发明在使用ResNet-50和扩张卷积之后，提出多层次特征融合模块，采用融合后的特征图进行后续的目标分类和边界框回归。虽然conv3、conv4和conv5的特征分辨率是相同的，但扩张卷积的扩张率不同，因此它们之间的感受野差异很大，所捕获的信息是不同的。浅层次的特性可以捕获细粒度的信息，例如形状、颜色等空间结构信息，对精确定位有用；而深层次的特征可以捕获更加抽象的语义信息，有利于区分不同类别的目标，对于在目标跟踪中抵抗相似干扰物、目标形变等具有鲁棒性。

为充分利用多层次特征图的不同特性，本发明提出自适应融合互相关运算后的多层次特征图，结合步骤三所输出的p₃、p₄、p₅，具体表达式如(12)所示：

其中α表示每个响应特征图对应的权值，并与网络一起优化。

步骤五：目标边界框分类和回归。

本发明使用无锚点的分类回归子网络进行目标边界框的预测输出，网络包括三个子任务：一个分类分支用于预测每个位置的类别，一个中心度分支用于对边缘位置进行抑制，一个回归分支用于计算该位置的目标边界框。

对于步骤四所提取的响应映射图R^w×h×c，分类分支输出一个分类特征映射

中心度分支输出一个特征映射

回归分支输出一个回归特征映射

其中w和h分别表示特征图的宽度和高度。

中的每个像素点都包含一个二维向量，表示输入搜索区域中对应位置的前景和背景分数。同样，

中每个像素点包含一个向量，表示对应的位置落入目标区域采样点的分数，计算公式如(13)所示，取值范围为{0-1}。

中的每个像素点包含一个4D向量(l,t,r,b)，它表示从对应位置到搜索区域中真实边界框的四个边的距离，如图5所示。

实验结果与分析

为了探究所提出的各个模块的有效性，本发明在OTB100数据集上进行了消融实验。

本发明共设计了如下所示的四组对比实验。分别测试具备不同模块时模型的性能，实验结果如表2所示。首先，模型1不包含任何模块，其跟踪效果最差。模型2在模型1的基础上，添加了注意力模块，成功率和准确率有明显的提升，说明本发明所提出的注意力机制能够为特征赋予不同的权重，提高特征的表达能力。其次，对比模型2和模型3，使用ASC替代DW-XCoor，跟踪器的性能有所提升，这是因为本发明所提出的互相关方法能够在网络模型训练的过程中不断优化。最后对比模型3和模型4，使用多层次融合机制可以充分利用浅层次的空间结构信息，突出目标抑制背景，从而提高成功率和准确率。

表2消融实验对比结果

为了进一步探索本文模型中不同层次特征的作用和多层次特征融合的影响，本发明进行了消融实验。从表3可以发现，当只使用单层特性时，conv4的性能最好。与单层特征相比，使用两层特征融合时，性能有所提高，其中conv4和conv5融合的性能最好。在融合了三层特征之后，本发明所设计的跟踪方法获得了最好的结果。

表3多层次特征融合对比实验

本发明分别在OTB100、UAV123、VOT2018数据集上与其他先进的跟踪器进行了实验对比。

OTB100是一个广泛使用的跟踪基准测试数据集，包含100个视频序列。本发明将所提出的跟踪器与SiamGAT,SiamRN，SiamBAN，SiamRNP++，DaSiamRPN，TransT，GCT进行了实验对比。图6显示了测试结果的成功图和精度图。本发明的跟踪器达到了0.722的成功率，超过了所有其他跟踪器。准确率为0.932，与性能较好的SiamRN基本一致。

UAV123是一种新的航空视频基准数据集，包含123个视频序列。与其他基准数据集不同的是，UAV123的视角是自上而下的，目标尺寸相对较小。本发明将所提出的跟踪器与其他目前主流的单目标跟踪器进行比较，结果如图7所示。本发明的追踪器成功率为0.665，准确率为0.863，在这两个指标上都优于所有其他跟踪器。与基线模型SiamBAN相比，本发明的跟踪器提高了3.3％的成功率和3.0％的精度。

VOT2018基准数据集由60个具有不同挑战性因素的视频序列组成，每一组序列的长度从41帧到1500帧不等。本发明比较了不同跟踪器的期望平均重叠(EAO)，精度(A)和鲁棒性(R)。表4报告了与性能最好的跟踪器的详细比较结果。从表4可以看出，Ocean的EAO值最高，SaimRPN++的准确率最高。本发明所提出的方法，与基线跟踪器SiamBAN相比，EAO提高了2.1％，准确率和鲁棒性提高了0.6％和5.4％。这些结果证明了本发明的孪生网络跟踪器具有较好的综合性能。

表4VOT2018数据集的实验结果

综上所述，本发明所设计的目标跟踪方法首先通过在特征提取过程中添加自我注意力和交叉注意力，使得特征更加关注目标核心元素。然后使用本发明所提出的互相关方法ASC有效的将模板区域特征和搜索区域特征结合起来。最后通过融合具有空间结构信息的浅层次响应图和具有语义信息的深层次响应图，显著提高了跟踪精度。在三个流行的基准数据集上进行的大量实验，结果也表明了本发明所提出的单目标跟踪方法获得了优异的性能。

Claims

1.一种基于多层次特征融合的单目标跟踪方法，其特征在于，包括如下步骤：

步骤一：卷积特征提取；使用改进的ResNet-50作为骨干网络进行特征提取，模板分支以模板图像Z作为输入，大小为127×127像素，搜索分支以搜索图像X作为输入，大小为255×255像素，双分支共享卷积层中参数；

步骤二：自我注意力和交叉注意力；将步骤一所提取到的模板特征f_Z和搜索特征f_X输入到注意力模块；首先，使用自我注意力，对模板分支和搜索分支进行特征增强，突出目标核心元素；然后，将模板特征

和搜索特征

输入交叉注意力模块，逐层过滤掉与目标无关的特征，对具有相似外观的目标和干扰物生成对比特征；

步骤三：互相关运算；通过步骤二注意力机制后的模板特征

和搜索特征

输入到互相关模块中，对模板分支和搜索分支进行独立的卷积运算，得到对应的特征，然后通过广播的形式进行相加，最终输出多层次的响应图；

步骤四：多层次特征融合；对步骤三进行互相关运算后的响应图p₃、p₄、p₅进行自适应融合，在训练过程中动态调整融合权重；

步骤五：目标边界框分类和回归；使用无锚点分类回归子网络作目标边界框的预测输出；将步骤四得到的多通道响应图p输入分类回归子网络，分类分支对每个位置进行目标和背景的判断；中心度分支和分类分支在对应位置相乘，抑制搜索图像边缘位置的元素；回归分支对预测为目标的位置进行边界框的预测输出。

2.根据权利要求1所述的一种基于多层次特征融合的单目标跟踪方法，其特征在于，步骤二所述的自我注意力和交叉注意力，具体包括：

特征图f_i输入后与特征图f_j进行注意力运算；首先，分别对f_i和f_j进行1×1×1的卷积生成对应的特征矩阵q_i、k_j、v_j；其次，将q_i和k_j进行矩阵重塑，再通过矩阵乘法运算和softmax运算得到注意力权重矩阵；然后，将权重矩阵与通过矩阵重塑后的v_j进行矩阵乘法运算，使得特征与权重融合，再经过1×1×1卷积运算，输出矩阵f_ij；最后将f_ij与输入特征图f_i进行相加运算，输出带注意力权重的特征图