CN115620206A

CN115620206A - 一种多模板视觉目标跟踪网络的训练方法和目标跟踪方法

Info

Publication number: CN115620206A
Application number: CN202211373166.9A
Authority: CN
Inventors: 雷汝霖
Original assignee: Individual
Current assignee: Individual
Priority date: 2022-11-04
Filing date: 2022-11-04
Publication date: 2023-01-17

Abstract

本发明提供一种多模板视觉目标跟踪网络的训练方法以及基于此网络的目标跟踪方法，该方法中的多模板视觉目标跟踪网络基于多模板设计，在跟踪过程中根据跟踪的结果，实时生成模板，能实时感知跟踪对象的状态变化，提升长期跟踪能力与辨别相似物体的能力。该方法中的多模板视觉目标跟踪方法设计有模板管理器，对在跟踪过程中的产生的新模板进行动态管理，并推荐出最合适的模板，排除不合适的模板，进一步提升跟踪准确度，同时能减少内存占用和算力需求，提高运行速度。

Description

一种多模板视觉目标跟踪网络的训练方法和目标跟踪方法

技术领域

本发明属于计算机视觉领域，尤其涉及视觉目标跟踪算法。

背景技术

视觉目标跟踪是计算机视觉领域的一项基本研究方向。视觉目标跟踪的主要过程是在一个视频帧序列中，指定初始帧的某一区域为跟踪对象，利用跟踪对象的视觉特征和视频帧序列的上下文信息，对目标的外观特征和运动状态进行建模，在后续的视频帧中，利用建模信息，标注出目标所在的位置及大小。视觉目标跟踪技术已广泛用于各项领域，包括自动驾驶、工业控制、智慧医疗、卫星遥感、军事攻防等。

目前常见的基于深度学习的视觉目标跟踪方法大多遵从孪生网络的结构。通过对视频帧中初始帧所标记的跟踪对象进行视觉特征提取，在后续帧中划定搜索区域，在搜索区域中搜寻跟踪对象。此类方法仅使用初始帧的视觉信息进行建模，在后续跟踪过程中并不对此模型进行更新或修正，从而不能感知到跟踪对象的状态变化，包括遮挡、运动模糊、光照变化、非刚性形变等，导致方法的长时间跟踪能力差。同时，在实际应用中，视频帧序列中往往存在与跟踪对象相似的干扰物，现有方法辨别干扰物的能力差，应用场景受限。

因此，需要一种能在跟踪过程中对跟踪目标进行动态建模的方法。

发明内容

为解决现有技术中存在的上述缺陷，本发明提供一种多模板视觉目标跟踪网络的训练方法以及基于此网络的目标跟踪方法，该方法使用初始帧生成模板，并动态记录与管理跟踪过程中产生的新模板，从而实现更高的长时间跟踪性能和更强的干扰物区分能力。

根据本发明的第一方面，提供一种多模板视觉目标跟踪网络的训练方法，其特征在于：多模板视觉目标跟踪网络包括：特征提取主干网络，多模板特征融合网络，分支预测网络；该训练方法包括：

步骤101：对数据集进行预处理，数据集包括多个视频帧序列，每个序列包含多个原始图像，每个图像对应一个边界框，该边界框表示出跟踪对象在图像中的位置。

原始图像进行预处理后形成对应的图像元组，该元组包含一个正确模板图像、多个含有人为添加随机边界框抖动的偏移模板图像、一个搜索区域图像，其中正确模板图像与偏移模板图像具有相同尺寸，搜索区域图像的尺寸大于模板图像。跟踪对象处于正确模板图像的中心位置，不必处于偏移模板图像或搜素区域图像的中心位置。正确模板图像用于模拟跟踪过程中，视频帧中初始帧与与之对应的正确的边界框标记。偏移模板图像用于模拟跟踪过程中，后续帧与与之对应的深度学习网络估计的可能具有偏移的边界框标记。搜索区域图像用于模拟跟踪过程中，某一时刻需要搜索跟踪对象的搜索区域。

步骤102：将图像元组内的图像分别输入到特征提取主干网络，得到输出的图像元组对应的特征图。

步骤103：将图像特征图输入到多模板特征融合网络，得到输出的图像元组对应的融合特征图。

其中，图像元组对应的融合需与位置编码参数和模板编码参数相加。位置编码参数和模板编码参数都是可学习的，在深度神经网络训练中学习。模板编码参数包括正确模板编码参数，偏移模板编码参数和搜索区域编码参数。

。

为正确模板图像特征图，

、

等为偏移模板图像特征图，

为搜索区域图像特征图，

为位置编码参数，

为正确模板编码参数，

为偏移模板编码参数，

为搜索区域编码参数，

为输入到多模板特征融合网络的特征。

步骤104：将图像元组对应的融合特征图输入到分支预测网络，得到输出相似度分数

，以及角点热力图

和

。

相似度分数表示搜索区域x中的目标，与正确模板z0偏移模板z1,z2…的相似程度。角点热力图分别代表深度神经网络对搜索区域内跟踪对象的左上角点、右下角点预测的置信度。对角点热力图计算argsoftmax，可以得到网络估计的跟踪对象左上点和右下点的坐标。

其中，

和

分别为argsoftmax计算后估计的跟踪对象左上点和右下点的坐标。

和

为分支预测网络预测的角点热力图。

步骤105：计算损失，并根据损失来训练多模板视觉目标跟踪网络的参数。

其中，相似度分数损失

，

表示当前训练元组中，搜索区域内是否存在跟踪对象，存在则为1，不存在为0。边界框回归损失

，其中

为边界框GIOU损失，

为边界框L1损失，

和

为预设参数。

进一步地，本发明所提供的多模板视觉目标跟踪网络的训练方法，其特征在于，原始图像预处理和模板编码参数。

其中，原始图像预处理包括采样多个偏移模板图像，并对偏移模板图像进行边界框抖动处理。

根据本发明的第二方面，提供一种基于多模板视觉目标跟踪网络的训练方法的目标跟踪方法，其特征在于：多模板视觉目标跟踪网络是第一方面的训练方法训练得到的；使用模板管理器；该目标跟踪方法包括：

步骤201：在连续视频帧序列中，根据初始帧图像和与之对应的边界框，以边界框中心获取到正确模板图像。

步骤202：从后续帧中，以跟踪对象在上一帧图像中的位置为中心点，截取搜索区域。

步骤203：从模板管理器中获取多个合适的模板作为偏移模板图像。

步骤204：将正确模板图像、多个偏移模板图像和搜索区域图像输入多模板视觉目标跟踪网络，得到相似度分数和角点热力图。

步骤205：根据多模板视觉目标跟踪网络的输出，确定跟踪对象的左上角点和右下角点，从而确定跟踪对象在此视频帧上的边界框信息。

步骤206：根据多模板视觉目标跟踪网络的输出，如果相似度分数大于某一阈值，则根据步骤205的估计的边界框信息，截取当前帧中的跟踪目标对象，作为模板推送至模板管理器。

步骤207：继续处理后续帧，重复执行步骤202至步骤206。

进一步地，本发明所提供的基于多模板视觉目标跟踪网络的训练方法的目标跟踪方法，其特征在于，特征融合网络的输入中，包括视频初始帧所生成的正确模板，和多个在跟踪过程中生成的，有一定边界框偏移的偏移模板。

进一步地，本发明所提供的基于多模板视觉目标跟踪网络的训练方法的目标跟踪方法，其特征在于，步骤203和步骤206中所述的模板管理器。

模板管理器保有一定大小的模板存储空间，采用缓存管理算法来管理模板存储空间。当进行步骤206将新模板被推送至模板管理器时，模板管理器首先计算新模板与所有已缓存模板的相似度，当相似度大于等于设定的阈值，则认为新模板与已缓存模板相同，即缓存命中，当相似度小于设定的阈值，则认为新模板与已缓存模板不相同，即缓存未来命中。如果模板存储空间已满，根据缓存管理算法，淘汰最近最少使用的模板。最后将新模板存储至模板存储空间。当进行步骤203向模板管理器请求模板时，模板管理器将返回多个最近最多使用的模板。

根据本发明的第三方面，提供一种计算机设备，其特征在于，包括：存储器，用于存储指令；以及处理器，用于调用存储器存储的指令执行第一方面的多模板视觉目标跟踪网络的训练方法。

根据本发明的第四方面，提供一种计算机设备，其特征在于，包括：存储器，用于存储指令；以及处理器，用于调用存储器存储的指令执行第二方面的基于多模板视觉目标跟踪网络的跟踪方法。

根据本发明的第五方面，提供一种计算机可读存储介质，其特征在于，存储有指令，指令被处理器执行时，执行第一方面的多模板视觉目标跟踪网络的训练方法。

根据本发明的第六方面，提供一种计算机可读存储介质，其特征在于，存储有指令，指令被处理器执行时，执行第二方面的基于多模板视觉目标跟踪网络的跟踪方法。

与现有技术相比，本发明所构思的上述技术方案至少具有以下有益效果：

1.本发明提出基于多模板设计的视觉目标跟踪框架，能实时感知与保存跟踪对象的视觉外观变换，从而提升长时间视觉目标跟踪性能。

2.针对多模板设计导致的空间占用问题，本发明提出一种基于缓存算法的模板管理器，动态管理跟踪过程中生成的新模板，显著减少在视觉跟踪过程中的资源占用。同时模板管理器能推荐出最合适的模板，排除不合适的模板，进一步提升跟踪准确度。

3.为模拟跟踪过程中预测偏差，本发明提出一种图片预处理方法和可学习的模板编码参数，提高网络鲁棒性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的多模板视觉目标跟踪网络结构示意图。

图2是根据一示例性实施例示出的多模板特征融合网络结构示意图。

图3是根据一示例性实施例示出的多模板视觉目标跟踪网络的训练方法示意图。

图4是根据一示例性实施例示出的视觉目标跟踪方法示意图。

图5是根据一示例性实施例示出的视觉目标跟踪方法流程示意图。

图6是根据一示例性实施例示出的模板管理器模板替换算法描述图。

图7是根据一示例性实施例示出的视觉目标跟踪方法在一示例性视频序列上的效果图。

图8是根据一示例性实施例示出的视觉目标跟踪方法在另一示例性数据集上与现有技术的性能对比图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。

本发明所涉及的多模板视觉目标跟踪网络，如图1所示，包括：特征提取主干网络，多模板特征融合网络，分支预测网络。

在一些实施例中，特征提取主干网络为全卷积网络，由1个Stem模块和4个Layer模块串联组成，网络总步长为32，分别在Stem模块和4个Layer模块后进行下采样，每个Layer逐步提升通道数。图像经由特征提取主干网络后，得到图像的特征图。

具体而言，特征提取主干网络可以为一种改进的ResNet网络，所述ResNet网络去除最后的池化层和全连接层。

在一些实施例中，如图2所示，多模板特征融合网络为Transformer Encoder网络，由多个Transformer Layer模块串联组成，每个Transformer Layer包括Multi-headAttention和Feed Forward层。将上述特征提取主干网络提取的正确模板图像特征图、偏移模板图像特征图、搜索区域图像特征图每个像素点作为一个token，经由TransformerEncoder网络融合特征图。

在一些实施例中，经由特征融合网络融合入模板特征后，只保留搜索区域图像的特征图。

在一些实施例中，分支预测网络为两个全卷积神经网络，其中一个全卷积神经网络用于获取相似度分数，另一个全卷积神经网络用于获取跟踪对象在搜索区域的左上角点和右下角点的角点热力图。通过argsoftmax操作可从角点热力图中计算出跟踪对象的左上角点和右下角点坐标。

本发明提供一种针对上述多模板视觉目标跟踪网络的训练方法10，如图3所示，其步骤如下：

步骤101：对数据集进行预处理，数据集包括多个视频帧序列，每个序列包含多个原始图像，每个图像对应一个边界框，该边界框表示出跟踪对象在图像中的位置。原始图像进行预处理后形成对应的图像元组，该元组包含一个正确模板图像、多个含有人为添加随机边界框抖动的偏移模板图像、一个搜索区域图像，其中正确模板图像与偏移模板图像具有相同尺寸，搜索区域图像的尺寸大于模板图像。跟踪对象处于正确模板图像的中心位置，不必处于偏移模板图像或搜素区域图像的中心位置。正确模板图像用于模拟跟踪过程中，视频帧中初始帧与与之对应的正确的边界框标记。偏移模板图像用于模拟跟踪过程中，后续帧与与之对应的深度学习网络估计的可能具有偏移的边界框标记。搜索区域图像用于模拟跟踪过程中，某一时刻需要搜索跟踪对象的搜索区域。

在一些实施例中，通常需要对训练数据进行填充、裁剪、缩放等调整，例如，正确模板图像是以选定跟踪对象为中心按照128*128尺寸进行调整的，偏移模板图像以选定跟踪对象为中心进行一定随机偏移后按照128*128尺寸进行调整的，搜索区域图像则是在以跟踪对象在上一帧位置为中心按照320*320尺寸进行调整。

在一些实施例中，偏移模板图像的数量设置为3。

具体而言，正确模板图像经由特征提取主干网络得到的正确模板图像特征图的分辨率为4*4，偏移模板图像经由特征提取主干网络得到的偏移模板图像特征图的分辨率为4*4，搜索区域图像经由特征提取主干网络得到的搜索区域图像特征图的分辨率为10*10。

在一些实施例中，多模板特征融合网络为Transformer Encoder网络，由多个Transformer Layer模块串联组成，每个Transformer Layer包括Multi-head Attention和Feed Forward层。将上述特征提取主干网络提取的正确模板图像特征图、偏移模板图像特征图、搜索区域图像特征图每个像素点作为一个token，经由Transformer Encoder网络融合特征图。

具体而言，正确模板图像特征图、3个偏移模板图像特征图、搜索区域图像特征图分别作为16，48，100个token，合计164个token，经过6个Transformer Layer，获得164个特征融合后的token。仅保留对应于搜索区域图像的100个特征，将其重新排列为10*10分辨率。

步骤104：将图像元组对应的融合特征图输入到分支预测网络，得到输出相似度分数，以及角点热力图。

其中，

和

分别为argsoftmax计算后估计的跟踪对象左上点和右下点的坐标，W,H均为10。

在一些实施例中，相似度分数损失

，

，其中

为边界框GIOU损失，

为边界框L1损失，

和

为2.0和5.0。

在一些实施例中，多模板视觉目标跟踪网络训练分为两个阶段。第一个阶段，仅使用边界框回归损失来训练多模板视觉目标跟踪网络。第二阶段，仅使用相似度分数损失来训练分支预测网络中的相似度分数分支，冻结多模板视觉目标跟踪网络的其他部分。

本发明提供一种基于上述多模板视觉目标跟踪网络训练方法的目标跟踪方法20，其中多模板视觉目标跟踪网络是根据训练方法10训练得到的。

如图4及图5所示，目标跟踪方法20包含步骤如下：

步骤207：继续处理后续帧，重复执行步骤202至步骤206。

在一些实施例中，模板管理器遵循改进的ARC算法，如图6所示。

具体而言，模板管理器维护模板存储空间，模板存储空间包含两个LRU最近最少使用序列，序列L1存储首次被访问的模板，L2存储被访问过两次及以上的模板。设定参数c=3。模板存储空间总容量为2c=6，即队列L1和L2总共的最大长度为6。L1的最大长度为c=3。将L1 分为头部T1和尾部B1两个部分，头部T1保存最近最常使用模板，尾部B1保存最近最少使用模板。将L2分为头部T2和尾部B2两个部分，头部T2保存最近最常使用模板，尾部B2保存最近最少使用模板。为T1的长度设置一个动态的目标值p，0≤p≤c。在步骤206中，推送新模板至模板管理器时，首先分别计算新模板与所有已存储模板的余弦相似度

，其中

为新模板的特征图，

为已存储模板的特征图。当新模板与某已存储模板相似度大于等于阈值thres=0.8时，则认为新模板与此已存储模板相同，为一次模板命中。当新模板与所有已存储模板相似度都小于阈值thres=0.8时，则认为新模板与所有已存储模板不同，为一次模板未命中。如图6所示，模板管理器动态维护模板存储空间。当进行步骤203时，模板管理器返回T1与T2中存储的模板，这些模板被认为是最有价值的。

基于同一个发明构思，本发明提供一种多模板视觉目标跟踪网络训练方法的实施例。

本实施例是基于Pytorch在Intel(R) Xeon(R) E5-2620v4 CPU @ 2.10GHz，126GB of RAM，以及3×NVIDIA TITAN Xp with 12GB of RAM实现的。在训练过程中，设置网络的batch size为32。其步骤如下：

步骤1：数据集我们采用LaSOT，TrackingNet，GOT-10k，COCO作为我们的基础训练集。在小于200的间隔内选择帧元组，每个帧元组包括5张图片，其中第一张为正确模板图片，最后一张为搜索区域图片。对训练数据进行填充、裁剪、缩放等调整，正确模板图像是以选定跟踪对象为中心按照128*128尺寸进行调整的，偏移模板图像以选定跟踪对象为中心进行一定随机偏移后按照128*128尺寸进行调整的，搜索区域图像则是在以跟踪对象在上一帧位置为中心按照320*320尺寸进行调整。

步骤2：将步骤1所述图像元组输入到由改进的ResNet50网络的特征提取主干网络，提取得到输出的图像元组对应的特征图。

正确模板图像特征图分辨率为4*4。每个偏移模板图像特征图分辨率为4*4。搜索区域图像特征图分辨率为10*10。

步骤3：将图像元组对应的特征图输入多模板特征融合网络Transformer Encoder网络中，得到融合后的融合特征图。

正确模板图像特征图、3个偏移模板图像特征图、搜索区域图像特征图分别作为16，48，100个token，合计164个token，经过6个Transformer Layer，获得164个特征融合后的token。仅保留对应于搜索区域图像的100个特征，将其重新排列为10*10分辨率。

步骤4：将融合后的融合特征图输入到分支预测网络，得到输出相似度分数，以及角点热力图。根据角点热力图使用argsoftmax计算出跟踪对象的左上点和右下点的坐标，得到目标的边界框。

步骤5：计算出相似度损失和边界框回归损失。

其中，相似度分数损失

，

，其中

为边界框GIOU损失，

为边界框L1损失，

和

为预设参数。多模板视觉目标跟踪网络的训练分为两个阶段。训练的第一阶段，仅使用边界框回归损失来训练多模板视觉目标跟踪网络，进行500个epoch，使用AdamW方法优化，初始学习率为0.0001，在第400个epoch后，降低学习率至0.00001。训练的第二阶段，仅使用相似度分数损失来训练分支预测网络中的相似度分数分支，冻结多模板视觉目标跟踪网络的其他部分，进行50个epoch，使用AdamW方法优化，初始学习率为0.0001，在第40个epoch后，降低学习率至0.00001。

基于同一个发明构思，本发明提供一种基于多模板视觉目标跟踪网络的目标跟踪方法的实施例。

通过训练得到的网络进行跟踪，输入初始帧作为正确模板图像，在后续帧中，每帧作为搜索图片，从搜索图片中根据上一帧的目标位置和大小，裁剪出搜索区域图像。从模板管理器请求3个偏移模板，将正确模板，偏移模板，搜索区域图片输入至网络。通过网络输出相似度分数，和角点热力图，计算出跟踪对象的预测边界框。根据跟踪对象的预测边界框和搜索裁剪信息，计算得到跟踪对象在搜索图片上的位置与大小。如果相似度分数

大于0.5，则将搜索图片上的跟踪对象裁剪出来，推送至模板管理器，模板管理器根据改进的ARC算法，如图6所示，动态维护模板存储空间。

在LaSOT测试集上对所提一种多模板视觉目标跟踪网络与方法进行综合性能评估，并与DIMP50，KYS，STARK_ST50，TOMP，MIXFORMER，SIAMBAN-RBO，CSWINTT等先进方法进行对比，评估了跟踪器的精度Precision和成功度Success，如图8所示。

上述LaSOT测试集包含280个测试视频帧序列。测试视频帧序列的平均长度超过2500帧，可能包含光照变化、模糊、遮挡等情况，每帧都人为进行高质量标注，能综合评价出跟踪器的性能，是最流行目标跟踪数据集之一。所提一种多模板视觉目标跟踪网络与方法在此测试集中一示例性视频序列上的效果图如图7所示。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种多模板视觉目标跟踪网络的训练方法以及基于此网络的目标跟踪方法，该方法使用初始帧生成模板，并动态记录与管理跟踪过程中产生的新模板，从而实现更高的长时间跟踪性能和更强的干扰物区分能力；

步骤101：对数据集进行预处理，数据集包括多个视频帧序列，每个序列包含多个原始图像，每个图像对应一个边界框，该边界框表示出跟踪对象在图像中的位置；

原始图像进行预处理后形成对应的图像元组，该元组包含一个正确模板图像、多个含有人为添加随机边界框抖动的偏移模板图像、一个搜索区域图像，其中正确模板图像与偏移模板图像具有相同尺寸，搜索区域图像的尺寸大于模板图像；跟踪对象处于正确模板图像的中心位置，不必处于偏移模板图像或搜素区域图像的中心位置；正确模板图像用于模拟跟踪过程中，视频帧中初始帧与与之对应的正确的边界框标记；偏移模板图像用于模拟跟踪过程中，后续帧与与之对应的深度学习网络估计的可能具有偏移的边界框标记；搜索区域图像用于模拟跟踪过程中，某一时刻需要搜索跟踪对象的搜索区域；

步骤102：将图像元组内的图像分别输入到特征提取主干网络，得到输出的图像元组对应的特征图；

步骤103：将图像特征图输入到多模板特征融合网络，得到输出的图像元组对应的融合特征图；

其中，图像元组对应的融合需与位置编码参数和模板编码参数相加；位置编码参数和模板编码参数都是可学习的，在深度神经网络训练中学习；模板编码参数包括正确模板编码参数，偏移模板编码参数和搜索区域编码参数；

；

为正确模板图像特征图，

、

等为偏移模板图像特征图，

为搜索区域图像特征图，

为位置编码参数，

为正确模板编码参数，

为偏移模板编码参数，

为搜索区域编码参数，

为输入到多模板特征融合网络的特征；

，以及角点热力图

和

；

相似度分数表示搜索区域x中的目标，与正确模板z0偏移模板z1,z2…的相似程度；角点热力图分别代表深度神经网络对搜索区域内跟踪对象的左上角点、右下角点预测的置信度；对角点热力图计算argsoftmax，可以得到网络估计的跟踪对象左上点和右下点的坐标；

其中，

和

分别为argsoftmax计算后估计的跟踪对象左上点和右下点的坐标；

和

为分支预测网络预测的角点热力图；

步骤105：计算损失，并根据损失来训练多模板视觉目标跟踪网络的参数；

其中，相似度分数损失

，

表示当前训练元组中，搜索区域内是否存在跟踪对象，存在则为1，不存在为0；边界框回归损失

，其中

为边界框GIOU损失，

为边界框L1损失，

和

为预设参数。

2.根据权利要求1所述的多模板视觉目标跟踪网络的训练方法，其特征在于，原始图像预处理和模板编码参数；

3.一种基于多模板视觉目标跟踪网络的目标跟踪方法，其特征在于：多模板视觉目标跟踪网络是第一方面的训练方法训练得到的；使用模板管理器；该目标跟踪方法包括：

步骤201：在连续视频帧序列中，根据初始帧图像和与之对应的边界框，以边界框中心获取到正确模板图像；

步骤202：从后续帧中，以跟踪对象在上一帧图像中的位置为中心点，截取搜索区域；

步骤203：从模板管理器中获取多个合适的模板作为偏移模板图像；

步骤204：将正确模板图像、多个偏移模板图像和搜索区域图像输入多模板视觉目标跟踪网络，得到相似度分数和角点热力图；

步骤205：根据多模板视觉目标跟踪网络的输出，确定跟踪对象的左上角点和右下角点，从而确定跟踪对象在此视频帧上的边界框信息；

步骤206：根据多模板视觉目标跟踪网络的输出，如果相似度分数大于某一阈值，则根据步骤205的估计的边界框信息，截取当前帧中的跟踪目标对象，作为模板推送至模板管理器；

步骤207：继续处理后续帧，重复执行步骤202至步骤206。

4.根据权利要求3所述的基于多模板视觉目标跟踪网络的目标跟踪方法，其特征在于，特征融合网络的输入中，包括视频初始帧所生成的正确模板，和多个在跟踪过程中生成的，有一定边界框偏移的偏移模板。

5.根据权利要求4所述的基于多模板视觉目标跟踪网络的目标跟踪方法，其特征在于，步骤203和步骤206中所述的模板管理器；

模板管理器保有一定大小的模板存储空间，采用缓存管理算法来管理模板存储空间；当进行步骤206将新模板被推送至模板管理器时，模板管理器首先计算新模板与所有已缓存模板的相似度，当相似度大于等于设定的阈值，则认为新模板与已缓存模板相同，即缓存命中，当相似度小于设定的阈值，则认为新模板与已缓存模板不相同，即缓存未来命中；如果模板存储空间已满，根据缓存管理算法，淘汰最近最少使用的模板；最后将新模板存储至模板存储空间；当进行步骤203向模板管理器请求模板时，模板管理器将返回多个最近最多使用的模板。

6.一种计算机设备，其特征在于，包括：存储器，用于存储指令；以及处理器，用于调用存储器存储的指令执行如权利要求1或2所述的多模板视觉目标跟踪网络的训练方法。

7.一种计算机设备，其特征在于，包括：存储器，用于存储指令；以及处理器，用于调用存储器存储的指令执行如权利要求3-5中任一所述的基于多模板视觉目标跟踪网络的跟踪方法。

8.一种计算机可读存储介质，其特征在于，存储有指令，指令被处理器执行时，执行如权利要求1或2所述的多模板视觉目标跟踪网络的训练方法。

9.一种计算机可读存储介质，其特征在于，存储有指令，指令被处理器执行时，执行如权利要求3-5中任一所述的基于多模板视觉目标跟踪网络的跟踪方法。