CN114998601A

CN114998601A - 基于Transformer的在线更新目标跟踪方法及系统

Info

Publication number: CN114998601A
Application number: CN202210751307.XA
Authority: CN
Inventors: 刘笑含; 李爱民; 刘德琦; 程梦凡
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-09-02

Abstract

本发明属于目标跟踪领域，提供了基于Transformer的在线更新目标跟踪方法及系统，该方法包括采用权重共享的Twi ns作为骨干网络对模板图像和搜索图像进行特征提取得到模板图像特征和搜索图像特征；引入在线更新模块，将置信度超过阈值模板作为更新模板，其对应的特征作为更新模板特征,并将更新模板特征与模板图像特征进行互补，得到融合模板图像特征；基于编码器和解码器，分别将模板图像特征、更新模板特征和融合模板图像特征分别和搜索图像特征进行融合，得到对应的融合特征图；采用多模板策略将对应的融合特征图映射至预测头，同时得到对应分支的预测分数，将预测分数最高的分支对应的边界框作为跟踪边框进行目标跟踪。

Description

基于Transformer的在线更新目标跟踪方法及系统

技术领域

本发明属于目标跟踪技术领域，尤其涉及基于Transformer的在线更新目标跟踪方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

目前基于Transformer的跟踪器大多将CNN作为特征提取的基本组件来完成跟踪任务，常常忽略了Transformer的提取特征能力。

在现有的跟踪器中，采用Transformer替代常用的ResNet-50作为骨干网络。然而将Transformer作为骨干网络应用到跟踪任务中造成的突出问题是Transformer的注意力机制会增加计算复杂度。为了降低计算复杂度，Swin Transformer采用了LSA(locally-grouped self-attention局部分组注意力)，这种方法的缺点是会导致感受野受限，虽然采用滑动窗口可以缓解这个问题，但会造成滑动窗口大小不均匀，影响特征提取的效果。PVT使用GSA(global sub-sampled attention全局子采样注意力)来降低计算复杂度，但计算复杂度仍然为二次方。

如果仅学习第一帧模板特征，在后续帧的跟踪过程中，遮挡、形变、复杂背景等因素会导致跟踪器很难适应目标特征发生严重变化的情况，从而造成跟踪失败。同时，由于模板更新累积也可能会造成目标漂移，导致跟踪失败。

发明内容

为了解决上述背景技术中存在的至少一项技术问题，本发明提供基于Transformer的在线更新目标跟踪方法及系统，其选用基于Transformer的Twins作为主干网络来提高特征抽取能力，同时增加了一个更新分支，采用在线更新策略来减少由于目标遮挡、形变和背景复杂导致的跟踪失败问题，通过融合网络对模板特征和更新特征进行融合互补，最后使用多模板策略防止由于更新累积导致的跟踪漂移问题。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于Transformer的在线更新目标跟踪方法，包括如下步骤：

获取模板图像和搜索图像；

采用权重共享的Twins作为骨干网络，利用三层金字塔结构对模板图像和搜索图像进行特征提取得到模板图像特征和搜索图像特征；

引入在线更新模块，将置信度超过阈值的模板作为更新模板，其对应的特征作为更新模板特征,并将更新模板特征与模板图像特征进行互补，得到融合模板图像特征；

基于编码器和解码器，分别将模板图像特征、更新模板特征和融合模板图像特征分别和搜索图像特征进行融合，得到对应的融合特征图；

采用多模板策略将对应的融合特征图映射至预测头，同时得到对应分支的预测分数，将预测分数最高的分支对应的边界框作为跟踪边框进行目标跟踪。

本发明的第二个方面提供基于Transformer的在线更新目标跟踪系统，包括：

数据获取模块，用于获取模板图像和搜索图像；

特征提取模块，用于采用权重共享的Twins作为骨干网络，利用三层金字塔结构对模板图像和搜索图像进行特征提取得到模板图像特征和搜索图像特征；

在线更新模块，用于引入在线更新模块，将置信度超过阈值的模板作为更新模板，其对应的特征作为更新模板特征,并将更新模板特征与模板图像特征进行互补，得到融合模板图像特征；

特征融合模块，用于基于编码器和解码器，分别将模板图像特征、更新模板特征和融合模板图像特征分别和搜索特征进行融合，得到对应的融合特征图；

目标跟踪模块，用于采用多模板策略将对应的融合特征图映射至预测头，同时得到对应分支的预测分数，将预测分数最高的分支对应的边界框作为跟踪边框进行目标跟踪。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于Transformer的在线更新目标跟踪方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于Transformer的在线更新目标跟踪方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明通过将权重共享的Twins作为骨干网络对模板图像和搜索图像进行特征提取，解决了滑动窗口大小不均匀，影响特征提取的效果的问题。

本发明引入在线更新方法和策略，每n帧更新一次，从而能够引入当前目标特征信息，将置信度超过阈值的模板作为更新模板，其对应的特征作为更新模板特征,并将更新模板特征与第一帧模板特征即模板图像特征进行互补，解决了由于仅学习第一帧模板特征，在后续帧的跟踪过程中，遮挡、形变、复杂背景等因素会导致跟踪器很难适应目标特征发生严重变化的情况，从而造成跟踪失败的问题。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例基于Transformer的在线更新目标跟踪方法的流程示意图；

图2是本发明实施例基于Transformer的在线更新目标跟踪方法的整体流程框图；

图3是本发明实施例更新特征和模板特征的融合网络；

图4是本发明实施例Transformer结构图；

图5是本发明实施例在LaSOT数据集上和现有算法比较的的OPE的归一化精度图实验结果；

图6是本发明实施例在LaSOT数据集上和现有算法比较的OPE的成功率实验结果。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

如图1-图2所示，本实施例提供基于Transformer的在线更新目标跟踪方法，包括如下步骤：

步骤1：获取待跟踪视频序列；

将待跟踪视频序列的第一帧作为模板图像

后续帧作为搜索图像

其中，H,W,C分别表示特征图的高度、宽度和通道维度。

步骤2：采用权重共享的Twins作为骨干网络，利用三层金字塔结构对模板图像和搜索图像进行特征提取得到模板图像特征和搜索图像特征；

作为一种或多种实施例，步骤2中，需要说明的是，现有的Transformer主要依靠Self-Attention去捕获各个token之间的关系，能够更高效地捕获远距离依赖的特征，但是计算复杂度太高不利于token数目较多的跟踪任务。

因此为了降低计算复杂度，本实施例采用权重共享的Twins作为骨干网络，利用三层金字塔结构对模板图像和搜索图像进行特征提取得到模板图像特征和搜索图像特征，包括：

步骤201：利用块分割模型将输入的RGB图像分割成不重叠的块，在每一个阶段的第一个块中引入CPVT中的PEG(Conditional Positional Encodings，条件位置编码)对位置信息进行编码；

例如，每个块的大小为4×4，将这些块应用到Transformer模块中，故而stage 1的数量为

步骤202：在Transformer模块中，将分割得到的块采用局部注意力和全局注意力交替的机制进行特征提取，先对特征的空间维度进行分组计算，使用LSA(locally-groupedself-attention局部分组注意力)将W×H特征图分割开来，划分为m×n个子窗口，并将其映射到一个小特征图上，仅在窗口内部进行self-attention计算，每个子窗口

含有

个像素，其中

然后再从全局对分组注意力结果进行融合，用GSA(global sub-sampledattention全局子采样注意力)将该小特征图展开恢复原形。

如图2所示，整个Transformer模块可以表示为：

i∈{1，2，......，m}，j∈{1，2，......，n}

为了使计算成本最小，降低复杂度，令k₁＜＜H，k₂＜＜W，最好的切割方式是使分割数量

为了保持通用性一般k₁＝k₂。

同时，由于LSA中各个子窗口间没有通讯，所以将每一个窗口提取一个维度较低的特征作为各个窗口的表征，然后基于这个表征再和各个窗口进行交互，相当于self-attention中key的作用。

步骤3：引入在线更新模块，将置信度超过阈值的模板作为更新模板，其对应的特征作为更新模板特征，并将更新模板特征与模板图像特征进行互补，得到融合模板图像特征；

作为一种或多种实施例，步骤3中，在跟踪过程中，由于目标遮挡、形变和复杂背景等因素会使目标特征产生变化，从而会导致跟踪结果产生漂移。

为此本实施例增加在线更新分支，每n帧更新一次跟踪器，从而能够引入当前目标特征信息，与第一帧模板特征进行互补。

在线更新过程中，得到的模板不可避免会引入噪声，本实施例只选择置信度超过T_m的模板作为更新模板，其对应的特征作为更新模板特征，然后将更新模板特征和模板图像特征进行融合形成融合模板特征，以提高跟踪的鲁棒性。

例如，更新频率n可以设置为10，T_m可以设置为0.9。

如图3所示，将模板图像

和更新图像

输入到特征融合网络中。

首先将特征展开成一维向量，计算模板特征和更新特征的相似矩阵：

即

随后将η和

进行矩阵乘法得到

将η′和Z进行融合操作，最后得到融合模板图像特征

T＝concat(η′，Z)

步骤4：基于编码器和解码器，分别将模板图像特征、更新模板特征和融合模板图像特征分别和搜索特征进行融合，得到对应的融合特征图；

如图4所示，特征融合过程中，注意力机制是设计本实施例特征融合网络的核心，可以对输入的特征进行全局推理，有助于区分前景和背景。

所述在解码器中，首先将通过骨干网络提取的模板图像特征

将模板特征图折叠成一维向量

输入到编码器中，并引入位置编码P∈R^HW×C来消除不同空间位置的歧义。

定义query为

key为

value为

从而Q₁＝Z′+P，K₁＝Z′+P，V₁＝Z′。

将Q₁，K₁，V₁输入到多头注意力中。采用多头注意力机制来细化每个元素的特征嵌入。

先对每一个独立的头计算注意力：

其中，C_k为key的维度。

将注意力机制扩展到多个头中并行处理：

Multi-Head(Q，K，V)＝Contat(head₁，head₂，......，head_i)W^O

head_i＝Attention(QW_i ^Q，KWK_i ^K，VW_i ^V)

其中，

是参数矩阵，

i为多头注意中注意力的数量。

然后根据Transformer中的常用做法进一步使用残差链接和层归一化操作：

Z_norm＝layernorm(MultiHead(Q，K，V)+Z′)

在注意力模块后，使用前馈网络来增强模型的拟合能力，它是由两层1x1卷积和ReLU激活层组成。

前馈网络的具体操作如下：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂

其中，符号W和b分别代表权重矩阵和基向量，下标表示不同的层。前馈网络后也来接一个残差链接和层归一化。

最后得出输出

与此同时，将更新特征图和融合模板特征图折叠成一维，分别输入到解码器中计算，过程与模板特征图一致，分别得到

和

在编码器中，首先将通过骨干网络提取的搜索图像特征

折叠成一维，即

随后将X′输入到解码器中，引入位置编码P∈R^HW×C。则Q₂＝X′+P，K₂＝X′+P，V₂＝X′。

将

输入到多头注意力中，经过残差链接和层归一化得到特征图

用类似于Self-Attention的多头交叉注意力将编码器的输出的Z_encoder、U_encoder、T_encoder分别和特征图X₀进行融合，如图4所示。多头交叉注意力的Q₃为一维向量

V₃和K₃分别是前Encoder输出的一维向量

Q₃，K₃分别引入位置编码P，那么：

与模板分支相同，得到更新模板分支的

和融合模板分支的

使用一个前馈网络来提高模型的拟合能力。最后，编码器的输出为：

和

的计算方式与

相同。

步骤5：采用多模板策略将对应的融合特征图映射至预测头，同时得到对应分支的预测分数，将预测分数最高的分支对应的边界框作为跟踪边框进行目标跟踪。

每组预测头包括用来得出分类分数的分类分支和用来预测目标边界框的回归分支。

如图4所示的特征融合网络生成的特征图

头部对每个向量进行预测，得到H_xW_x前景/背景分类结果，以及相对于搜索的归一化坐标区域大小。

每个分支由一个具有隐藏维度C和ReLU激活函数的3层感知层和一个线性映射层组成。它们都从解码器接收特征图

预测分类响应图r_cls和边界框回归图r_reg。

第一组为模板图像特征图和搜索图像特征图得到的预测分类响应图

和边界框回归图

第二组更新模板特征图和搜索图像特征图得到的预测分类响应图

和边界框回归图

第三组为融合模板图像特征图和搜索图像特征图得到的预测分类响应图

和边界框回归图

使用边界框选择策略确定最终的预测结果：

F＝max(F_cls(Z)，F_cls(U)，F_cls(T))

其中，F_cls(Z)，F_cls(U)，F_cls(T)分别为以第一帧模板、更新模板和融合模板预测的分类分数。

其中，b_Z为第一帧模板预测输出的边框，b_U为更新模板预测出的边框，b_T为融合模板预测出的边框。

本实施例在跟踪器的训练过程中，涉及到的损失函数如下：

其中，跟踪器的总损失函数是由三部分组成：

L_final＝L_basic+L_update+L_total

第一部分为匹配搜索图像和模板图像，得到一个基本的损失函数L_basic，可以使网络具有基本的跟踪能力。第二部分为更新损失L_update，由于更新图像也可以被认为是目标模板，由于采样时间的差异，它可以提供与模板图像互补的数据。第三部分为整体损失L_total，将模板图像和更新图像进行融合来预测对象的状态。

每一部分的计算损失是分类损失和回归损失函数的加权组合，损失函数的数学表示公式为：

L＝λ_clsL_cls+λ_regL_reg

其中，λ_cls、λ_reg分别为分类和回归损失函数的权重。

本实施例选择预测与真实边界框像素对应的特征向量为正样本，其余为负样本。分类损失是由正样本和负样本导致的，回归损失只有正样本会引起。

本实施例使用交叉熵损失进行分类，如下：

其中，y_j表示第j个样本的真实标签，y_j＝1表示前景，p_j表示属于学习模型预测的前景的概率。

回归分支采用了L₁损失函数和IoU损失函数，即：

其中y_j＝1表示正样本，b_j表示第j个预测边界框，

表示归一化的真实边界框。

实验过程

本发明将模板图像设置为112×112，搜索图像设置为224×224。

首先在lmageNet-1K数据集上预训练的骨干网络Twins-SVT-B，特征维度C设置为384，Transformer多头注意力的头数设置为8，更新频率n设置为10，Tm设置为0.9。

随后在LaSOT，TrackingNet，GOT-10k，COCO 2017数据集上来训练跟踪器。使用AdamW对模型进行优化，并训练了300个周期(epoch)，得到如图5和图6的结果，如图5所示，为LaSOT测试集上OPE的归一化精度图(Normalized Precision plots of OPE on LaSOTTesting Set)，如图6所示，为LaSOT测试集上OPE的成功率(Success plots of OPE onLaSOT Testing Set)。

通过附图5和附图6可以看到，本发明的提出算法对应的LaSOT测试集上的归一化精度和LaSOT测试集上OPE的成功率大于现有算法，因此可以说明本发明的跟踪效果更好。

实施例二

本实施提供基于Transformer的在线更新目标跟踪系统，包括：

数据获取模块，用于获取模板图像和搜索图像；

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于Transformer的在线更新目标跟踪方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于Transformer的在线更新目标跟踪方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于Transformer的在线更新目标跟踪方法，其特征在于，包括如下步骤：

获取模板图像和搜索图像；

2.如权利要求1所述的基于Transformer的在线更新目标跟踪方法，其特征在于，所述采用权重共享的Twins作为骨干网络，利用三层金字塔结构对模板图像和搜索图像进行特征提取得到模板图像特征和搜索图像特征，具体包括：

利用块分割模型将模板图像和搜索图像分割为不重叠的块；

将分割得到的块采用局部注意力和全局注意力交替的机制进行特征提取，包括：

采用局部分组注意力将特征图分割开，划分为多个子窗口，将其映射至对应的子特征图上；

从全局对分组注意力结果进行融合，采用全局子采样注意力将各个子特征图展开恢复原形。

3.如权利要求2所述的基于Transformer的在线更新目标跟踪方法，其特征在于，所述在采用局部分组注意力将特征图分割开，划分为多个子窗口后，将每一个窗口提取一个降维后的低维特征作为各个窗口的表征，基于该表征再和各个窗口进行交互。

4.如权利要求1所述的基于Transformer的在线更新目标跟踪方法，其特征在于，所述基于编码器和解码器，分别将模板图像特征、更新模板特征和融合模板图像特征分别和搜索特征进行融合中，具体包括：

分别将模板图像特征、更新模板特征和融合模板图像特征折叠成一维向量输入至编码器中，采用多头注意力机制来细化每个元素的特征嵌入，对每一个独立的头计算注意力，将注意力机制扩展到多个头中并行处理得到解码后的模板图像特征、更新模板特征和融合模板图像特征；

采用多头交叉注意力将编码器输出的模板图像特征、更新模板特征和融合模板图像特征分别和搜索特征进行融合。

5.如权利要求1所述的基于Transformer的在线更新目标跟踪方法，其特征在于，所述采用多模板策略，将对应的融合特征图映射至预测头得到对应特征图的分类响应图和边界框回归图，每组预测头包括用来得出分类分数的分类分支和用来预测目标边界框的回归分支，头部对每个向量进行预测，得到前景/背景分类结果以及相对于搜索的归一化坐标区域大小。

6.如权利要求1所述的基于Transformer的在线更新目标跟踪方法，其特征在于，所述Transformer跟踪器的总损失函数由三部分组成：

L_final＝L_basic+L_update+L_total

第一部分为匹配搜索图像和模板图像，得到一个基本的损失函数L_basic，可以使网络具有基本的跟踪能力，第二部分为更新损失L_update，由于更新图像也可以被认为是目标模板，由于采样时间的差异，它可以提供与模板图像互补的数据，第三部分为整体损失L_total，将模板图像和更新图像进行融合来预测对象的状态。

7.基于Transformer的在线更新目标跟踪系统，其特征在于，包括：

数据获取模块，用于获取模板图像和搜索图像；

在线更新模块，用于引入在线更新模块，将置信度超过阈值模板作为更新模板，其对应的特征作为更新模板特征,并将更新模板特征其与模板图像特征进行互补，得到融合模板图像特征；

8.如权利要求7所述的基于Transformer的在线更新目标跟踪方法，其特征在于，所述采用权重共享的Twins作为骨干网络，利用三层金字塔结构对模板图像和搜索图像进行特征提取得到模板图像特征和搜索图像特征，具体包括：

利用块分割模型将模板图像和搜索图像分割为不重叠的块；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的基于Transformer的在线更新目标跟踪方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一项所述的基于Transformer的在线更新目标跟踪方法中的步骤。