CN115330837A

CN115330837A - 基于图注意力Transformer网络的鲁棒目标跟踪方法及系统

Info

Publication number: CN115330837A
Application number: CN202210994557.6A
Authority: CN
Inventors: 陈思; 王立波; 王大寒; 朱顺痣; 吴芸
Original assignee: Xiamen University of Technology
Current assignee: Xiamen University of Technology
Priority date: 2022-08-18
Filing date: 2022-08-18
Publication date: 2022-11-11

Abstract

本发明涉及一种基于图注意力Transformer网络的鲁棒目标跟踪方法及系统，该方法包括：构建用于目标跟踪任务的图注意力Transformer网络模型并对其训练，该网络模型包括特征提取网络、自适应图注意力模块和特征预测头；以不同采样比对视频序列帧进行采样，分别将第一帧和后续帧获得的采样样本作为模板和搜索区域；将模板和搜索区域输入到训练好的网络模型中，通过特征提取网络提取模板和搜索特征作为自适应图注意力模块的输入；通过自适应图注意力模块对输入的模板和搜索特征进行聚合操作，然后利用混合注意力进行特征融合，获得更加鲁棒的自适应特征；最后通过特征预测头估计搜索区域中的目标，得到跟踪结果。该方法及系统有利于获得更加稳定、鲁棒、准确的跟踪结果。

Description

基于图注意力Transformer网络的鲁棒目标跟踪方法及系统

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于图注意力Transformer网络的鲁棒目标跟踪方法及系统。

背景技术

视觉跟踪在计算机视觉中起着关键的作用，其目的是根据给定的初始目标框来估计视频帧中任意物体的状态。近年来，目标跟踪在智能交通、视频监控等领域都有着广泛的应用。然而，现有跟踪器的性能受到各种挑战性因素的影响，包括照明变化、变形、运动模糊和背景杂波。

目前的主流跟踪器包括基于孪生的跟踪器和基于Transformer的跟踪器，它们在效率和准确性方面都取得了良好的效果。基于孪生网络的跟踪器[Bertinetto, L.,Valmadre, J., Henriques, J.F., Vedaldi, A., Torr, P.H.: Fullyconvolutionalsiamese networks for object tracking. In: Proceedings of the EuropeanConference on Computer Vision Workshops (ECCVW). pp. 850–865 (2016)，Li, B.,Wu, W., Wang, Q., Zhang, F., Xing, J., Yan, J.: SiamRPN++: Evolution ofsiamese visual tracking with very deep networks. In: Proceedings of the IEEEConference on Computer Vision and Pattern Recognition (CVPR). pp. 4282–4291(2019), . Li, B., Yan, J., Wu, W., Zhu, Z., Hu, X.: High performance visualtracking with siamese region proposal network. In: Proceedings of the IEEEConference on Computer Vision and Pattern Recognition (CVPR). pp. 8971–8980(2018)]利用互相关在模板和搜索分支之间嵌入信息。基于Transformer的跟踪器[X.Chen, B. Yan, J. Zhu, D. Wang, X. Yang, H. Lu, Transformer tracking, in:Proceedings of the IEEE Conference on Computer Vision and PatternRecognition, 2021, pp. 8126–8135.]利用全局和动态建模能力，建立了提取的模板和搜索特征之间的长距离相关性。例如，STARK[Yan, B., Peng, H., Fu, J., Wang, D., Lu,H.: Learning spatio-temporal transformer for visual tracking. In: Proceedingsof the IEEE International Conference on Computer Vision (ICCV). pp. 10428–10437 (2021).]提出了一种编码器-解码器变压器架构来建模目标对象和搜索区域之间的全局时空特征依赖关系。

尽管它们取得了巨大的成功，但仍有一些不可或缺的缺点。基于Transformer的跟踪器可以计算出模板和搜索区域之间的全局和丰富的上下文相互依赖关系。然而，提取的特征缺乏part-level嵌入信息，导致难以适应复杂的跟踪场景。此外，传统跟踪器提取的模板特征可能包含太多的冗余信息，从而积累跟踪误差。

发明内容

本发明的目的在于提供一种基于图注意力Transformer网络的鲁棒目标跟踪方法及系统，该方法及系统有利于获得更加稳定、鲁棒、准确的跟踪结果。

为实现上述目的，本发明采用的技术方案是：一种基于图注意力Transformer网络的鲁棒目标跟踪方法，包括：

构建用于目标跟踪任务的图注意力Transformer网络模型并对其进行训练，该网络模型包括特征提取网络、自适应图注意力模块和特征预测头；

以不同采样比对视频序列帧进行采样，分别将第一帧和后续帧获得的采样样本作为模板和搜索区域；

将获得的模板和搜索区域输入到训练好的网络模型中，通过特征提取网络提取模板和搜索特征作为自适应图注意力模块的输入；通过自适应图注意力模块对输入的模板和搜索特征进行聚合操作，然后利用混合注意力进行特征融合，从而获得更加鲁棒的自适应特征；最后通过特征预测头估计搜索区域中的目标，得到跟踪结果。

进一步地，所述特征提取网络由三个阶段组成，每个阶段由21个block组成，每个block都包含注意力操作，所述自适应图注意力模块包括对模板节点、搜索节点的聚合操作和对聚合搜索节点的FocusedDropout操作，所述特征预测头为一个基于全卷积角点的定位头，其使用Conv-BN-ReLU层对目标的左上角和右下角进行预测，从而估计跟踪目标的边界框；

对所述图注意力Transformer网络模型进行训练的方法为：从LaSOT、TrackingNet、COCO、GOT-10k四个数据集中选取训练样本，建立数据集加载器；联合IOU和L₁作为训练损失函数，ADAM作为优化器；设置训练周期，通过训练样本来训练该网络模型，得到训练好的网络模型。

进一步地，获取模板和搜索区域的具体方法为：

针对测试视频序列中带有标签的第一帧，设置采样因子为2，获得128*128大小的模板图片，然后将数据类型由数组转换成张量，作为网络模型的输入；针对测试视频序列中的后续帧，设置采样因子为5，获得320*320大小的搜索区域图片，然后将数据类型由数组转换成张量，作为网络模型的后续输入。

进一步地，通过特征提取网络提取模板和搜索特征的方法为：特征提取网络首先对输入的模板(H_t*W_t*3)和搜索区域(H_s*W_s*3)执行卷积操作提取特征；然后对提取的模板和搜索特征执行注意力融合操作，得到(H_t*W_t+H_s*W_s)*C的融合特征，其中H_t、W_t分别表示模板的高和宽，其大小为128*128，H_s、W_s分别表示搜索区域的高和宽，其大小为320*320，C表示特征通道。

进一步地，通过自适应图注意力模块对输入的模板和搜索特征进行聚合操作，然后利用混合注意力进行特征融合的具体方法为：

首先将特征提取网络提取的模板特征和搜索特征转变为二维特征向量；通过自适应图注意力模块将特征提取网络提取的特征转换为特征节点，对第一帧的初始模板节点、后续帧更新的动态模板节点、搜索节点进行聚合操作，然后对聚合搜索节点进行FocusedDropout操作得到自适应特征；针对不同的训练数据集设定不同更新阈值，当达到设定的更新阈值则该样本被作为动态模板获得动态模板节点；为了获取到更加精准的模板，对初始模板节点和动态模板节点进行图注意力聚合获得聚合模板节点，以帮助网络更加准确地找到搜索区域中的目标；然后对目标和搜索区域的每个特征进行扁平化处理，通过线性投影产生query、key、value矩阵；为了实现局部空间上下文的建模能力，在每个特征上通过分离的depth-wise卷积层执行混合注意力，得到模板和搜索区域融合后的特征；混合注意力还对key和value矩阵进行下采样操作，从而提高了跟踪性能。

进一步地，通过特征预测头估计搜索区域中的目标的具体方法为：

首先从输出特征中提取搜索特征，然后计算搜索区域特征与模板特征之间的相似性；将相似得分与搜索区域特征进行点乘操作，以增强重要目标区域，从而削弱判别性较差的区域；得到的自适应特征被输入一个全卷积网络，所述全卷积网络由堆叠的Conv-BN-ReLU层组成并输出两个概率值，分别代表目标边界框的左上角和右下角；最后，计算角点概率分布的期望，得到预测的边界框坐标，为目标跟踪产生更准确和稳健的预测。

进一步地，IOU损失函数的权重为2.0，L₁损失函数的权重为5.0，学习率为0.0001，权重衰减值为0.0001；在跟踪过程中对模板的采样因子设置为2.0，对搜索区域的采样因子设置为5.0。

本发明还提供了一种基于图注意力Transformer网络的鲁棒目标跟踪系统，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现上述的方法步骤。

与现有技术相比，本发明具有以下有益效果：提供了一种基于图注意力Transformer网络的鲁棒目标跟踪方法及系统，该方法及系统构建了一种图注意力Transformer网络，通过特征提取网络提取模板和搜索特征后，通过自适应图注意力模块对输入的模板和搜索特征进行聚合操作，然后利用混合注意力进行特征融合，从而获得更加鲁棒的自适应特征，使跟踪器对具有挑战性的场景具有更强的鲁棒性，从而获得更加稳定、鲁棒、准确的跟踪结果。

附图说明

图1是本发明实施例的方法实现流程框图。

图2是本发明实施例中自适应图注意力模块的示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供了一种基于图注意力Transformer网络的鲁棒目标跟踪方法，包括以下步骤：

1）构建用于目标跟踪任务的图注意力Transformer网络模型并对其进行训练。

该网络模型包括特征提取网络、自适应图注意力模块和特征预测头。其中，特征提取网络的组成是一个patch embedding操作，主要是将输入的模板和搜索特征变成token向量，其由三个阶段组成，每个阶段由21个block组成，每个block都包含注意力操作。如图2所示，自适应图注意力模块包括对模板节点、搜索节点的聚合操作和对聚合搜索节点的FocusedDropout操作，主要是将输入的特征转换为节点特征，然后经过聚合操作，生成自适应特征。特征预测头为一个基于全卷积角点的定位头，其使用Conv-BN-ReLU层对目标的左上角和右下角进行预测，从而估计跟踪目标的边界框。

对所述图注意力Transformer网络模型进行训练的方法为：从LaSOT、TrackingNet、COCO、GOT-10k四个数据集中选取训练样本，建立数据集加载器；联合IOU和L₁作为训练损失函数，ADAM作为优化器；设置200个训练周期，通过训练样本来训练该网络模型，得到训练好的网络模型。

在本实施例中，IOU损失函数的权重为2.0，L₁损失函数的权重为5.0，学习率为0.0001，权重衰减值为0.0001；在跟踪过程中对模板的采样因子设置为2.0，对搜索区域的采样因子设置为5.0。

2）以不同采样比对视频序列帧进行采样，分别将第一帧和后续帧获得的采样样本作为模板和搜索区域。其具体方法为：

3）将获得的模板和搜索区域输入到训练好的网络模型中，通过特征提取网络提取模板和搜索特征作为自适应图注意力模块的输入；通过自适应图注意力模块对输入的模板和搜索特征进行聚合操作，然后利用混合注意力进行特征融合，从而获得更加鲁棒的自适应特征；最后通过特征预测头估计搜索区域中的目标，得到跟踪结果。

其中，通过特征提取网络提取模板和搜索特征的方法为：特征提取网络首先对输入的模板(H_t*W_t*3)和搜索区域(H_s*W_s*3)执行卷积操作提取特征；然后对提取的模板和搜索特征执行注意力融合操作，得到(H_t*W_t+H_s*W_s)*C的融合特征，其中H_t、W_t分别表示模板的高和宽，其大小为128*128，H_s、W_s分别表示搜索区域的高和宽，其大小为320*320，C表示特征通道。

通过自适应图注意力模块对输入的模板和搜索特征进行聚合操作，然后利用混合注意力进行特征融合的具体方法为：

首先将特征提取网络提取的模板特征和搜索特征转变（reshape）为二维特征向量；通过自适应图注意力模块将特征提取网络提取的特征转换为特征节点，对第一帧的初始模板节点、后续帧更新的动态模板节点、搜索节点进行聚合操作，然后对聚合搜索节点进行FocusedDropout操作得到自适应特征；针对不同的训练数据集设定不同更新阈值，当达到设定的更新阈值则该样本被作为动态模板获得动态模板节点；为了获取到更加精准的模板，对初始模板节点和动态模板节点进行图注意力聚合获得聚合模板节点，以帮助网络更加准确地找到搜索区域中的目标；然后对目标和搜索区域的每个特征进行扁平化处理，通过线性投影产生query、key、value矩阵；为了实现局部空间上下文的建模能力，在每个特征上通过分离的depth-wise卷积层执行混合注意力，得到模板和搜索区域融合后的特征；混合注意力还对key和value矩阵进行下采样操作，从而提高了跟踪性能。

通过特征预测头估计搜索区域中的目标的具体方法为：

本实施例还提供了一种基于图注意力Transformer网络的鲁棒目标跟踪系统，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现上述的方法步骤。

本实施例中，采用了OTB100数据集进行对比验证，表1中展示出在OTB100数据集上本发明提出的方法与其他目标跟踪方法的对比结果。从表1中可以看到，本发明方法相比于其他目标跟踪方法有较高的精确性和鲁棒性，具体体现为精度和成功率最佳。

表1

在表1中，STARK-S对应为B. Yan等人提出的方法(Yan, B., Peng, H., Fu, J.,Wang, D., Lu, H.: Learning spatio-temporal transformer for visual tracking.In: Proceedings of the IEEE International Conference on Computer Vision(ICCV). pp. 10428–10437 (2021).)；

DaSiamRPN对应为Z. Zhu等人提出的方法(Z. Zhu, Q. Wang, B. Li, W. Wu, J.Yan, W. Hu, Distractor-aware siamese networks for visual object tracking, in:Proceedings of the European Conference on Computer Vision, Vol. 11213, 2018,pp. 103–119.)；

SiamRPN对应为B. Li等人提出的方法(B. Li, J. Yan, W. Wu, Z. Zhu, X. Hu,High performance visual tracking with siamese region proposal network, in:Proceedings of the IEEE Conference on Computer Vision and PatternRecognition, 2018, pp. 8971–8980.)；

GradNet对应为P. Li等人提出的方法(P. Li, B. Chen, W. Ouyang, D. Wang,X. Yang, H. Lu, Gradnet: Gradientguided network for visual object tracking,in: Proceedings of the IEEE International Conference on Computer Vision,2019, pp. 6162–6171.)；

DeepSRDCF对应为M. Danelljan等人提出的方法(M. Danelljan, G. Hager, F.Shahbaz Khan, M. Felsberg, Convolutional features for correlation filterbased visual tracking, in: Proceedings of the IEEE International Conferenceon Computer Vision Workshops, 2015, pp. 58–66.)；

SiamDW对应为Z. Zhang等人提出的方法(Z. Zhang, H. Peng, Deeper andwider siamese networks for real-time visual tracking, in: Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 4591–4600.)；

SiamFC对应为L. Bertinetto等人提出的方法(L. Bertinetto, J. Valmadre,J. F. Henriques, A. Vedaldi, P. H. Torr, Fully-convolutional siamese networksfor object tracking, in: Proceedings of the European Conference on ComputerVision Workshops, 2016, pp. 850–865.)。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于图注意力Transformer网络的鲁棒目标跟踪方法，其特征在于，包括：

2.根据权利要求1所述的基于图注意力Transformer网络的鲁棒目标跟踪方法，其特征在于，所述特征提取网络由三个阶段组成，每个阶段由21个block组成，每个block都包含注意力操作，所述自适应图注意力模块包括对模板节点、搜索节点的聚合操作和对聚合搜索节点的FocusedDropout操作，所述特征预测头为一个基于全卷积角点的定位头，其使用Conv-BN-ReLU层对目标的左上角和右下角进行预测，从而估计跟踪目标的边界框；

3.根据权利要求1所述的基于图注意力Transformer网络的鲁棒目标跟踪方法，其特征在于，获取模板和搜索区域的具体方法为：

4.根据权利要求2所述的基于图注意力Transformer网络的鲁棒目标跟踪方法，其特征在于，通过特征提取网络提取模板和搜索特征的方法为：特征提取网络首先对输入的模板(H_t*W_t*3)和搜索区域(H_s*W_s*3)执行卷积操作提取特征；然后对提取的模板和搜索特征执行注意力融合操作，得到(H_t*W_t+H_s*W_s)*C的融合特征，其中H_t、W_t分别表示模板的高和宽，其大小为128*128，H_s、W_s分别表示搜索区域的高和宽，其大小为320*320，C表示特征通道。

5.根据权利要求2所述的基于图注意力Transformer网络的鲁棒目标跟踪方法，其特征在于，通过自适应图注意力模块对输入的模板和搜索特征进行聚合操作，然后利用混合注意力进行特征融合的具体方法为：

6.根据权利要求2所述的基于图注意力Transformer网络的鲁棒目标跟踪方法，其特征在于，通过特征预测头估计搜索区域中的目标的具体方法为：

7.根据权利要求2所述的基于图注意力Transformer网络的鲁棒目标跟踪方法，其特征在于，IOU损失函数的权重为2.0，L₁损失函数的权重为5.0，学习率为0.0001，权重衰减值为0.0001；在跟踪过程中对模板的采样因子设置为2.0，对搜索区域的采样因子设置为5.0。

8.一种基于图注意力Transformer网络的鲁棒目标跟踪系统，其特征在于，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如权利要求1-7任一项所述的方法步骤。