CN114596432A

CN114596432A - 基于前景区域对应模板特征的视觉跟踪方法及系统

Info

Publication number: CN114596432A
Application number: CN202210237692.6A
Authority: CN
Inventors: 马昕; 于江磊; 李贻斌
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-06-07

Abstract

本发明提供了一种基于前景区域对应模板特征的视觉跟踪方法及系统，包括：获取图像的模板特征和搜索特征；对获取的图像的模板特征和搜索特征进行特征增强；从特征增强后的模板特征序列中提取与前景区域对应的模板特征；将与前景区域对应的模板特征与增强后的搜索特征进行融合，得到融合特征；预测融合特征的分类和包围框回归结果；利用与前景区域对应的模板特征增强搜索特征，减少了模板块中背景信息的干扰，实现了目标从背景中准确分离出来的效果。

Description

基于前景区域对应模板特征的视觉跟踪方法及系统

技术领域

本发明属于视觉跟踪技术领域，尤其涉及一种基于前景区域对应模板特征的视觉跟踪方法及系统。

背景技术

视觉目标跟踪是计算机视觉中的一项基本任务，其目的是在已知第一帧目标包围框的情况下预测后续视频序列中目标的包围框和位置；它在视频监控、人机交互等领域有着广泛的应用；然而，大多数流行的视觉跟踪器(如SiamFC、SiamRPN++和ATOM)在选择模板块时，选择区域的大小是几倍于目标包围框的大小；这会导致一些模板特征中包含大量的背景信息；这些跟踪器使用互相关操作将所有的模板特征与搜索特征进行匹配，很难精确地将目标从背景中分离出来。

发明人发现，目前已经有一些视觉跟踪器对模板特征与搜索特征的深度融合进行了探索，但是，它们没有考虑到模板块中背景信息对融合过程的干扰，背景信息特征与搜索特征相匹配，会干扰跟踪器准确地将目标从背景中分离出来。

发明内容

本发明为了解决上述问题，提出了一种基于前景区域对应模板特征的视觉跟踪方法及系统，本发明提取了与图像上前景区域对应的模板特征(TFFR)，利用TFFR增强搜索特征，减少了模板块中背景信息的干扰。

为了实现上述目的，本发明是通过如下的技术方案来实现：

第一方面，本发明提供了一种基于前景区域对应模板特征的视觉跟踪方法，包括：

获取图像的模板特征和搜索特征；

对获取的图像的模板特征和搜索特征进行特征增强；

从特征增强后的模板特征序列中提取与前景区域对应的模板特征；

将与前景区域对应的模板特征与增强后的搜索特征进行融合，得到融合特征；

预测融合特征的分类和包围框回归结果，根据回归结果得到图像上待跟踪目标的预测包围框。

进一步的，两个特征序列通过自注意力模块进行增强；增强机制为：

其中，P_z和P_x是空间位置编码，

和

分别是模板特征和搜索特征被语义增强过的特征序列，f_z ^*和f_x ^*是增强前的特征序列。

进一步的，从特征增强后的模板特征序列中提取与前景区域对应的模板特征时，计算模板特征掩码，将补充参数设置为计算模板特征掩码。

进一步的，将模板特征作为自注意力模块的键和值，将搜索特征作为自注意力模块的查询。

进一步的，在特征融合层中加入FFN模块。

第二方面，本发明还提供了一种基于前景区域对应模板特征的视觉跟踪器，包括：

骨干网络，用于：获取图像的模板特征和搜索特征

特征融合网络，用于：对获取的图像的模板特征和搜索特征进行特征增强；从特征增强后的模板特征序列中提取与前景区域对应的模板特征；将与前景区域对应的模板特征与增强后的搜索特征进行融合，得到融合特征；

预测头部网络，用于：预测融合特征的分类和包围框回归结果，根据回归结果得到图像上待跟踪目标的预测包围框。

进一步的，所述视觉跟踪器为Transformer视觉跟踪器。

第三方面，本发明还提供了一种基于前景区域对应模板特征的视觉跟踪系统，包括：

数据采集模块，用于：获取图像的模板特征和搜索特征；

增强模块，用于：对获取的图像的模板特征和搜索特征进行特征增强；

提取模块，用于：从特征增强后的模板特征序列中提取与前景区域对应的模板特征；

融合模块，用于：将与前景区域对应的模板特征与增强后的搜索特征进行融合，得到融合特征；

预测模块，用于：预测融合特征的分类和包围框回归结果，根据回归结果得到图像上待跟踪目标的预测包围框。

第四方面，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现了第一方面所述的基于前景区域对应模板特征的视觉跟踪方法的步骤。

第五方面，本发明还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现了第一方面所述的基于前景区域对应模板特征的视觉跟踪方法的步骤。

与现有技术相比，本发明的有益效果为：

本发明中，在对获取的图像的模板特征和搜索特征进行特征增强的基础上，从特征增强后的模板特征序列中提取与前景区域对应的模板特征，并且将与前景区域对应的模板特征与增强后的搜索特征进行融合，得到融合特征，通过预测融合特征的分类和包围框回归结果，在上述过程中利用与前景区域对应的模板特征增强搜索特征，减少了模板块中背景信息的干扰，实现了目标从背景中准确分离出来的效果。

附图说明

构成本实施例的一部分的说明书附图用来提供对本实施例的进一步理解，本实施例的示意性实施例及其说明用于解释本实施例，并不构成对本实施例的不当限定。

图1为本发明实施例1的流程图；

图2为本发明实施例1的不同对象所对应的TFFR比较；模板块上car和dog的包围框区域是不同的(第一列)；因此，它们的模板特征图中对应的TFFR(第三列阴影部分)是不同的；

图3为本发明实施例1的基于TFFR的Transformer视觉跟踪器框架；

图4为本发明实施例1的LaSOT测试集上的成功率图；

图5为本发明实施例1的LaSOT测试集上的归一化精度图。

具体实施方式：

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

实施例1：

在视觉跟踪中，大多数跟踪器会选取大小是几倍于目标前景区域大小的图像区域作为模板块；然而，这会导致对象周围的背景信息被编码到一些模板特征中。这些特征也会与搜索特征相匹配，进而干扰跟踪器准确地将目标从背景中分离出来。

针对上述问题，如图1所示，本实施例中提供了一种基于前景区域对应模板特征的视觉跟踪方法，将一种新的基于Transformer的特征融合网络用于视觉跟踪；具体来说，为了减少模板块中背景信息的干扰，本实施例中，提取与图像上前景区域对应的模板特征(TFFR)，并通过注意力机制将其与搜索特征融合，在此基础上，计了一种简洁的基于TFFR的Transformer视觉跟踪器，称为TVT-TFFR；并通过大量的实验表明，本实施例中的TVT-TFFR在几种常见的跟踪数据集上都达到了最先进的性能，而且运行速度为38FPS，满足了实时性要求；本实施例中的方法，包括：

S1、获取图像的模板特征和搜索特征；

S2、对获取的图像的模板特征和搜索特征进行特征增强；

S3、从特征增强后的模板特征序列中提取与前景区域对应的模板特征；

S4、将与前景区域对应的模板特征与增强后的搜索特征进行融合，得到融合特征；

S5、预测融合特征的分类和包围框回归结果，根据融合特征的分类结果选择得分较高的包围框回归结果作为最终结果，并根据图像大小换算为图像上的包围框，最终得到图像上待跟踪目标的预测包围框。

本实施例中，基于上述方法提出了一种基于TFFR的Transformer视觉跟踪器，该系统有三个基本组成部分：骨干网络、特征融合网络和预测头部网络；该网络结构如图3所示，首先，和Siamese目标跟踪网络一样，骨干网络提取模板块和搜索块的特征图，然后，特征融合网络通过自注意力机制增强特征，并提取TFFR通过交叉注意机制将其与搜索特征进行融合，最后，预测头部网络给出融合特征的分类和包围框回归结果。

在本实施例中，实现步骤S1包括：

在我们提出的Transformer跟踪网络的开始阶段，骨干网络的两条分支分别对模板块z和搜索块x进行处理，并且共享网络参数，本实施例中，模板块z大小可以设置为

搜索块x大小可以设置为大小为

本实施例中，模板块的大小可以是视频第一帧中选择的模板区域的两倍，而搜索块的大小可以是上一帧中目标区域的四倍，这样是为了尽可能的包含对象的移动范围；然后图像块分别被转换为127像素和255像素的正方形图片，进入骨干网络。本实施例选择修改后的ResNet50或ResNet50作为骨干网络，并提取第四层特征图C4作为最终的特征图；最后，通过1×1的卷积将特征图的通道数变为512。

至此，从骨干网络中我们得到了模板特征图

和搜索特征图

其中，C＝512，

₄为第四层特征图的卷积步长。

在本实施例中，实现步骤S2包括：

在进行特征融合之前，模板特征图和搜索特征图都要被展开成特征序列：

和

特征融合网络由特征融合层重复N次形成，并且每一层融合网络按顺序对特征序列进行增强和融合。首先，两个特征序列通过自注意力模块进行增强。自注意力模块可以进一步获取输入特征的全局上下文联系，促进语义交互。增强机制的公式为：

其中，

和

是空间位置编码；因为自注意力机制对输入向量的顺序并不敏感，所以特征向量需要被编码一些位置信息；

和

是被语义增强过的特征序列。

在本实施例中，实现步骤S3和步骤S4包括：

本实施例中，从模板特征序列中提取前景区域对应的模板特征，本实施例中设计了一个模板特征分类模块，它由三层感知器组成，隐藏维度为512，激活函数为ReLU，模板特征分类模块对特征向量是否属于目标包围框区域进行分类，属于则分类真实值为0，否则为1。根据分类结果，本实施例中计算出一个模板特征掩码，计算公式为：

其中，P_ti是第i个模板特征向量的分类结果，m_i是模板特征掩码中对应第i个模板特征向量的掩码值，数据格式为布尔型(True或False)。接下来本实施例中，将得到的模板特征掩码加入到模板特征和搜索特征的融合过程中。对于注意力机制而言，当每批输入序列的长度不同时，注意力机制需要将它们填充到相同的长度，填充内容则通过填充参数key_padding_mask来设定。在之前增强特征的自注意力模块中，key_padding_mask都被设置为false，这样所有的特征都会参与注意力计算，以捕获全局上下文联系。而在特征融合阶段，我们将key_padding_mask设置为得到的模板特征掩码。因为模板特征掩码中只有前景区域对应的模板特征的值为false，所以融合过程中只有这些特征会与搜索特征进行交互。将模板特征作为多头注意力模块的键和值，并将搜索特征作为多头注意力模块的查询，计算公式定义为：

此外，本实施例中，为了增强模型的拟合能力，在特征融合层中加入FFN模块；FFN模块是一个全连接的前馈网络，它由两个线性层组成，中间的激活函数为ReLU，表达式为：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂(4)

最终，可以得到特征融合层的输出特征：

在本实施例中，实现步骤S5包括：

本实施例中，采用预测头部网络，预测头部网络有两个基于隐藏维度512的三层感知网络和ReLU激活函数的分支：分类分支和回归分支；它预测融合特征f_xFU-mask中各特征向量的分类和回归结果。特别地，回归分支能够直接预测每个向量相对于搜索区域大小的归一化坐标，比基于锚框的方法更简洁。

本实施例中，模板特征分类模块的损失函数由标准二元交叉熵损失函数定义：

其中，m_j是第j个模板特征向量的真实值标签，p^T _j是模板特征分类模块预测的第j个模板特征向量的分类结果。

预测头部网络中的分类分支的损失函数形式与模板特征分类模块的一样：

其中，y_j是第j个融合特征向量的真实值标签，并且如果该融合特征向量对应到搜索块中目标包围盒区域，则y_j可以设置为1；p^F _j是预测的第j个融合特征向量的分类结果。

对于回归分支，本实施例中引入L₁范数损失函数L₁()和广义IoU损失函数L_GIoU()的线性组合；整个损失函数被定义为：

其中，y_j是第j个融合特征向量，并且只有分类结果为正值的特征向量在回归损失计算中起作用；b_j是回归分支的包围盒回归结果，

是包围盒的真实值。我们设置正则化参数：λ_G＝2和λ₁＝5作为初始值。

本实施例中，通过实验对提出的方法进行验证，具体为：

本实施例中实验用的跟踪器可以基于Python3.7和PyTorch1.10.1搭建；整个实验可以在一台带有RTX3090的服务器上进行。

模型选取，本实施例中，骨干网络可以采用来自torchvision库的resnet50网络架构，并且网络参数来自ImageNet初始化，其他网络参数是采用Xavier初始化。特征融合网络重复4次，并且其中的多头注意力模块全部采用8个头部，维度为256，FFN的隐藏层维度为2048。整个网络的Dropout值设置为0.1。

训练阶段，本实施例在四个联合训练集上(LaSOT，GOT-10K，COCO2017和TrackingNet)训练我们的模型。优化器使用AdamW，骨干网络参数的初始学习率为1e-5，其他参数为1e-4。整个训练过程在一张Nvidia RTX 3090GPU上运行，batch设置为32，训练1000个epoch，每个epoch训练1000个训练对。学习率在训练500个epoch后衰减10％。

测试阶段，本实施例在测试阶段，模板块由第一帧图像中根据已知的目标真实包围框得到，并且在整个视频序列的测试阶段都不变。并且在得到最终的跟踪框之前加入一个余弦窗口惩罚，然后选择得分最高的结果作为跟踪框，并根据图像大小换算为图像上的包围框，最终得到图像上待跟踪目标的预测包围框；根据图像大小换算为图像上的包围框可以按照比例计算等常规方式实现。

本实施例中，将提出的TVT-TFFR与现有的最优目标跟踪器在五个短时测试集(GOT-10K，TrackingNet，VOT2018和UAV123)和一个长时测试集(LaSOT)上的测试结果进行比较，如表1所示：

表1.在TrackingNet，LaSOT，andGOT-10k数据集上与最优跟踪器的比较结果

LaSOT是一个用于长期目标跟踪的大规模数据集，其中包含1400个具有挑战性的视频：1120个用于训练，280个用于测试；在表1中报告了目前先进方法的表现，图4和图5给出了不同阈值下的成功率曲线图和归一化精度图；这一结果表明，本实施例中的TVT-TFFR取得了与现有最先进的Transformer跟踪器相当的性能。

TrackingNet是一个大规模的跟踪数据集，涵盖了多种对象类和场景。它的测试集包含了511个具有公开标签的视频序列；本实施例中将TVT-TFFR的输出结果提交到官方在线评估服务器，表1显示本实施例中的TVT-TFFR的AUC精度超过现有最优跟踪器TransT0.45％。

GOT-10k数据集包含10k个序列用于训练，180个序列用于测试。我们遵循该论文中指定的协议，只用GOT-10k训练集训练我们的模型并测试，并将测试输出结果提交到官方评估服务器；然后，将得到的结果(AO和SR)报告在表1中，本实施例中的TVT-TFFR在主要的AO精度上比TransT性能高0.5％。

UAV123包含123个无人机低空航拍视频，采用跟踪成功率和跟踪精度指标进行评估；如表2所示，TVT-TFFR在AUC评分上达到了最先进的性能。

NFS数据集包含具有挑战性的视频和快速移动的对象，选择其30帧的版本来评估我们的TVT-TFFR，表2显示我们的性能取得最优。

OTB100包含100个具有11个挑战性属性的视频序列，表2显示TVT-TFFR的性能可与现有的最先进的跟踪器相媲美。

表2.在UAV123，NFS和OTB100三个数据集上的AUC精度上与现有最优跟踪器比较

为了显示所提出的TFFR的有效性，本实施例中，比较了使用和不使用TFFR的Transformer跟踪器的性能。所比较的基线采用的特征融合方法是融合所有模板特征和搜索特征，而TVT-TFFR只融合TFFR和搜索特征。选择有180个视频的GOT-10k测试集来验证我们的方法；表3显示，本实施例中的TVT-TFFR在GOT-10k测试集上获得了1.7％的AO精度提升，这验证了我们所提出的TFFR的有效性。

表3.所提出的TFFR的消融实验

实验表明，本实施例中设计的TVT-TFFR在短期和长期跟踪数据集上都达到了最先进的性能，此外，本实施例中的跟踪器可以以实时速度(38FPS在GTX1080Ti)运行；本实施例的主要有益效果为：为了减少模板块中背景信息的干扰，基于注意力机制提取TFFR，重点增强搜索特征中目标特征的表示；与其他基于Transformer的跟踪器相比，本实施例中的方法非常简洁，并且提出的TFFR使本实施例中的跟踪器获得更精确的目标包围盒；提出的TVT-TFFR在6个具有挑战性的短期和长期目标跟踪测试集中，实现了与现有最先进的Transformer跟踪器相当的性能，同时以实时速度运行。

实施例2：

本实施例提供了一种基于前景区域对应模板特征的视觉跟踪器，可以是一种视觉跟踪器为Transformer视觉跟踪器，包括：

骨干网络，用于：获取图像的模板特征和搜索特征

预测头部网络，用于：预测融合特征的分类和包围框回归结果，根据融合特征的分类结果选择得分较高的包围框回归结果作为最终结果，并根据图像大小换算为图像上的包围框，最终得到图像上待跟踪目标的预测包围框。

本实施例中提出的基于Transformer的特征融合方法用于视觉跟踪，具体来说，本实施中提取与图像上前景区域对应的模板特征(TFFR)，利用TFFR增强搜索特征，减少模板块中背景信息的干扰；如图2所示，虽然在大多数情况下，对于不同的目标TFFR的数量是不同的，但灵活的注意力机制可以将预测的任意TFFR与搜索特征融合在一起。

所述跟踪器的工作方法与实施例1的基于前景区域对应模板特征的视觉跟踪方法相同，这里不再赘述。

实施例3：

本实施例提供了一种基于前景区域对应模板特征的视觉跟踪系统，包括：

数据采集模块，用于：获取图像的模板特征和搜索特征；

预测模块，用于：预测融合特征的分类和包围框回归结果。

所述系统的工作方法与实施例1的基于前景区域对应模板特征的视觉跟踪方法相同，这里不再赘述。

实施例4：

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现了实施例1所述的基于前景区域对应模板特征的视觉跟踪方法的步骤。

实施例5：

本实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现了实施例1所述的基于前景区域对应模板特征的视觉跟踪方法的步骤。

以上所述仅为本实施例的优选实施例而已，并不用于限制本实施例，对于本领域的技术人员来说，本实施例可以有各种更改和变化。凡在本实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本实施例的保护范围之内。

Claims

1.基于前景区域对应模板特征的视觉跟踪方法，其特征在于，包括：

获取图像的模板特征和搜索特征；

对获取的图像的模板特征和搜索特征进行特征增强；

2.如权利要求1所述的基于前景区域对应模板特征的视觉跟踪方法，其特征在于，两个特征序列通过自注意力模块进行增强；增强机制为：

其中，P_z和P_x是空间位置编码，f_z ^* _EN和f_x ^* _EN分别是模板特征和搜索特征被语义增强过的特征序列，f_z ^*和f_x ^*是增强前的特征序列。

3.如权利要求2所述的基于前景区域对应模板特征的视觉跟踪方法，其特征在于，从特征增强后的模板特征序列中提取与前景区域对应的模板特征时，计算模板特征掩码，将补充参数设置为计算模板特征掩码。

4.如权利要求3所述的基于前景区域对应模板特征的视觉跟踪方法，其特征在于，将模板特征作为自注意力模块的键和值，将搜索特征作为自注意力模块的查询。

5.如权利要求3所述的基于前景区域对应模板特征的视觉跟踪方法，其特征在于，在特征融合层中加入FFN模块。

6.基于前景区域对应模板特征的视觉跟踪器，其特征在于，包括：

骨干网络，用于：获取图像的模板特征和搜索特征

预测头部网络，用于：预测融合特征的分类和包围框回归结果。

7.如权利要求6所述的基于前景区域对应模板特征的视觉跟踪器，其特征在于，所述视觉跟踪器为Transformer视觉跟踪器。

8.基于前景区域对应模板特征的视觉跟踪方法，其特征在于，包括：

数据采集模块，用于：获取图像的模板特征和搜索特征；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现了如权利要求1-5任一项所述的基于前景区域对应模板特征的视觉跟踪方法的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现了如权利要求1-5任一项所述的基于前景区域对应模板特征的视觉跟踪方法的步骤。