CN113158904A

CN113158904A - 一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置

Info

Publication number: CN113158904A
Application number: CN202110440397.6A
Authority: CN
Inventors: 黄翔东; 王亚亭; 刘婧
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2021-07-23
Anticipated expiration: 2041-04-23
Also published as: CN113158904B

Abstract

本发明公开了一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置，方法包括：将语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果和当前帧模板送入模板更新模块生成更新模板，并与语义信息加权后的初始帧模板相加生成下一帧跟踪模板来实现模板更新；模板更新在图像级别而不是特征级别，原始图像比特征图有更高的空间分辨率可以更多关注目标的细节。装置包括：第一生成模块、第二生成模块、获取模块、模板更新模块，及跟踪模块。本发明实现了对模板的更新，能够提供鲁棒的模板，提高跟踪器的性能。

Description

一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置

技术领域

本发明涉及目标跟踪领域，尤其涉及一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置。

背景技术

随着大数据和人工智能的发展，大量媒体信息被传播和利用，其中视频信息的数量增长迅速，成为人们获得外界信息的主流方式。目标跟踪作为计算机视觉的一个重要领域，是视频信息处理和分析的一项基础性技术。目前，目标跟踪在智能视频监控、无人驾驶、人机交互等领域得到了广泛的应用。在这些应用中，获得目标物体的运动轨迹并作出相应的分析，使得对视频内容的理解和分析提供了一种重要的方式。

目标跟踪是指对于视频序列中，由初始帧指定的目标物体，在后续视频帧中持续推断目标物体的状态。目标物体的状态通常是指目标物体的位置和大小，使用矩形框来表示。目标跟踪算法大致可以分为早期目标跟踪算法、基于相关滤波的目标跟踪算法、基于深度学习的目标跟踪算法。目前主流算法是基于深度学习的目标跟踪算法，其中又可以分为基于孪生网络的目标跟踪算法和其他深度学习算法。基于孪生网络的目标跟踪算法最早在2016年的SiamFC^[1]提出孪生网络的架构，使得跟踪器在速度和精确度上得到较好的平衡。近年来又不断的提出了性能更优的算法，如SiamRPN^[2]，SiamMask^[3]，Ocean^[4]等。其他深度学习类的算法，主要代表有MDNet^[5]，ATOM^[6]，DiMP^[7]等。

尽管目标跟踪领域在近些年来得到了快速的发展，但跟踪问题存在的挑战使得目标跟踪仍然是一项艰巨的任务。在跟踪的视频中，由于目标物体在不断的经历形变、遮挡、旋转、尺度变化和光照变换等，使得跟踪任务极具挑战性。如何以应对这些挑战是跟踪算法需要解决的问题。在跟踪的视频序列中，目标物体通常是由初始帧确定，使用初始帧生成的初始帧目标模板进行模板匹配是基于孪生网络的目标跟踪算法基本实现方式。仅使用初始帧目标模板的方式使得在目标经历较大形变的时候跟踪器容易丢失目标，因此对目标模板的更新是提升跟踪器性能的有效方法。现有模板更新的方法，如简单使用上一帧跟踪结果生成的目标模板进行模板匹配，由于跟踪结果不能自检，容易造成跟踪漂移。

发明内容

本发明提供了一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置，本发明利用语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果以及当前帧模板送入一个模板更新模块，并将此模块生成的模板与语义信息加权后的初始帧模板相加生成下一帧模板，本发明利用了多阶段训练策略来实现对模板更新模块的训练，本发明实现了对模板的更新，能够提供鲁棒的模板，提高跟踪器的性能，详见下文描述：

第一方面，一种基于双掩膜模板更新的孪生网络目标跟踪方法，所述方法包括：

在框架基础上，将初始帧模板、当前帧跟踪结果送入实例分割掩膜生成模块分别生成语义信息加权后的初始帧模板和语义信息加权后的当前帧跟踪结果；

将当前帧跟踪结果与有一定间隔的前面帧跟踪结果送入光流掩膜生成模块生成运动信息加权后的当前帧跟踪结果；

将两种不同信息加权后的当前帧跟踪结果相加得到双重信息加权后的当前帧跟踪结果；

将语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果和当前帧模板送入模板更新模块生成更新模板，并与语义信息加权后的初始帧模板相加生成下一帧跟踪模板来实现模板更新；

随机挑选若干个视频进行多阶段训练，训练后对目标进行跟踪。

在一种实施方式中，所述网络框架为SiamRPN++基础网络框架。

第二方面，一种基于双掩膜模板更新的孪生网络目标跟踪装置，所述装置包括：

第一生成模块，用于在框架基础上，将初始帧模板、当前帧跟踪结果送入实例分割掩膜生成模块分别生成语义信息加权后的初始帧模板和语义信息加权后的当前帧跟踪结果；

第二生成模块，用于将当前帧跟踪结果与有一定间隔的前面帧跟踪结果送入光流掩膜生成模块生成运动信息加权后的当前帧跟踪结果；

获取模块，用于将两种不同信息加权后的当前帧跟踪结果相加得到双重信息加权后的当前帧跟踪结果；

模板更新模块，用于将语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果和当前帧模板送入模板更新模块生成更新模板，并与语义信息加权后的初始帧模板相加生成下一帧跟踪模板来实现模板更新；

跟踪模块，用于随机挑选若干个视频进行多阶段训练，训练后对目标进行跟踪。

第三方面，一种基于双掩膜模板更新的孪生网络目标跟踪装置，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的所述的方法步骤。

第四方面，一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行第一方面中的所述的方法步骤。

本发明提供的技术方案的有益效果是：

1、本发明以SiamPRN++^[8]为基础框架，使用实例分割掩膜生成模块生成的实例分割掩膜对初始帧模板以及当前帧跟踪结果进行加权，利用语义信息实现突出前景、抑制背景的作用；使用光流掩膜生成模块生成光流掩膜对当前帧跟踪结果进行加权，利用运动信息实现突出前景、抑制背景的作用；两种信息实现互补，使得跟踪器有效利用跟踪过程中产生的信息，为模板更新做准备；

2、本发明将语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果和当前帧模板送入模板更新模块生成更新模板，并与语义信息加权后的初始帧模板相加生成下一帧跟踪模板来实现模板更新；模板更新在图像级别而不是特征级别，原始图像比特征图有更高的空间分辨率可以更多关注目标的细节；

3、通过基准数据库测试，本发明所提出的算法在鲁棒性以及指标EAO(平均重叠期望)上得到了提升。

附图说明

图1为一种基于双掩膜模板更新的孪生网络目标跟踪方法的流程图；

图2为基于双掩膜模板更新的孪生网络目标跟踪的网络框图；

图3为一种基于双掩膜模板更新的孪生网络目标跟踪装置的结构示意图；

图4为一种基于双掩膜模板更新的孪生网络目标跟踪装置的另一结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

本发明实施例提供了一种基于双掩膜模板更新的孪生网络目标跟踪方法，参见图1，该方法包括以下步骤：

101：构建SiamRPN++基础网络框架；

其中，SiamRPN++网络建立在ResNet50^[9]网络和RPN(区域推荐网络)^[10]网络之上。网络结构由两个共享参数的ResNet50网络和三个RPN网络组成。其中，ResNet50为基本的特征提取网络，将不同深度卷积层提取出来的特征分别送入三个RPN网络中，由RPN网络内部的分类分支判断前景和背景、回归分支得到边界框的参数，将三个RPN网络生成的结果进行平均得到最终跟踪结果。

其中，SiamRPN++的网络结构、ResNet50网络、RPN网络均为本领域技术人员所公知，本发明实施例对此不做赘述。

102：在SiamRPN++的网络结构的基础上加入实例分割掩膜生成模块、光流掩膜生成模块、模板更新模块；

其中，将初始帧模板、当前帧跟踪结果送入实例分割掩膜生成模块分别生成语义信息加权后的初始帧模板和语义信息加权后的当前帧跟踪结果，将当前帧跟踪结果与有一定间隔的前面帧跟踪结果送入光流掩膜生成模块生成运动信息加权后的当前帧跟踪结果，将两种不同信息加权后的当前帧跟踪结果相加得到双重信息加权后的当前帧跟踪结果，将语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果和当前帧模板送入模板更新模块生成更新模板并与语义信息加权后的初始帧模板相加生成下一帧跟踪模板。

103：在训练阶段，使用从LaSOT^[11]随机挑选的19个视频进行多阶段训练；

首先，从LaSOT中随机挑选19个视频序列，每个训练阶段保留5个模型，每个阶段都会用上个阶段最好的模型生成新的训练样本对训练。每个阶段网络学习率按照指数方式下降，使用RMSProp优化器更新网络参数。

其中，RMSProp优化器本领域技术人员所公知，本发明实施例对此不做赘述。

104：在测试阶段，首先将初始帧模板送入分割掩膜生成模块，将生成的分割掩膜加权到初始帧模板得到语义信息加权的初始帧模板；将当前帧跟踪结果送入分割掩膜生成模块，将生成的分割掩膜加权到当前帧跟踪结果得到语义信息加权的当前帧跟踪结果；将当前帧跟踪结果与有一定间隔的前面帧跟踪结果送入光流掩膜生成模块，将生成的光流掩膜加权到当前帧跟踪结果得到运动信息加权的当前帧跟踪结果；将语义信息加权的当前帧跟踪结果和运动信息加权的当前帧跟踪结果相加得到双重信息加权的当前帧跟踪结果；将语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果和当前帧模板送入模板更新模块生成更新模板并与语义信息加权后的初始帧模板相加生成下一帧跟踪模板，模板更新模块实现了对模板的迭代更新。

综上所述，本发明实施例通过步骤101至步骤104设计了一种基于双掩膜模板更新的孪生网络目标跟踪方法。在SiamRPN++原有网络结构基础上，引入了模板更新模块，利用跟踪过程中产生的语义信息和运动信息对初始帧模板、当前跟踪结果进行加权，可以达到突出前景、抑制背景的作用；本发明实施例对模板进行了图片级别的更新，能够更加关注目标的细节；本发明实施例是对SiamRPN++网络的模板进行更新，使其在目标遮挡和形变的跟踪环境中变得更加鲁棒，获得更好的性能。

实施例2

下面对实施例1中的方案进行进一步地介绍，详见下文描述：

201：构建孪生网络的目标跟踪框架；

目标跟踪任务是指给定某视频序列初始帧的目标大小与位置的情况下，预测后续帧中该目标的大小与位置，通常使用边界框来指定目标的大小及位置。由于视频序列中的目标在不断的变化，给跟踪带来了极大的挑战。不同于计算机视觉的其他任务，待跟踪的目标是由视频初始帧指定的，其种类并不预先设定，这就要求跟踪器能够跟踪初始帧指定的任意目标物体。近年来，随着神经网络的发展，大量基于深度学习的跟踪算法开始出现。其中，基于孪生网络的目标跟踪算法由于其在速度和精度上得到了较好的平衡而得到了广泛的关注。基于孪生网络的目标跟踪算法通常由两个参数共享网络对当前帧的搜索区域图像以及目标图像进行特征提取，将提取的目标模板特征与提取的当前搜索区域特征进行模板匹配，找到搜索区域中与目标模板最为相似的区域。但是，这种基于孪生网络的算法在精度上与其他深度学习类算法的性能有较大差距。其他深度学习类的算法中有相当一部分算法通过在线训练一个分类器来分类目标和背景，由于在跟踪过程中需要在线训练分类器，因此这类算法通常精度较高但速度较慢。基于孪生网络的目标跟踪算法通常固定使用初始帧给定的目标模板进行模板匹配，这使得在目标经历较大形变或遮挡的时候初始帧模板不能提供目标各种形态变化，从而导致跟踪失败。因此，孪生网络跟踪器需要对模板进行更新。

现有的模板更新的方法中，GOTURN^[12]直接将上一帧跟踪到的结果作为当前帧的目标模板，这种方法由于跟踪结果本身不能自检，容易造成误差累积，导致跟踪失败。在MemTrack^[13]中，模板记忆库被用来存储跟踪结果生成的目标模板，控制模块用来生成各种控制量，用这些控制量对记忆库中的模版进行读取和写入，实现模板更新。然而这种方法的网络过于复杂，并且记忆库内存储的模板也存在误差累积。UpdateNet^[14]将初始帧模板、当前帧模板和当前帧的跟踪结果这三种模板的特征送入一个简单的非线性网络预测新的模板。这种简单的非线性网络可以利用神经网络本身的学习能力，其结构简单，并且网络中迭代的结构更符合目标跟踪这种在时间上具有连续性的任务。本发明实施例中，模板更新模块的设计正是基于这样的结构。

然而，UpdateNet只用了模板特征进行更新。如果同时使用模板本身能获得的多种信息，比如使用光流信息来辅助模板更新，跟踪器的性能会进一步提升。本发明实施例在SiamRPN++网络结构的基础上，通过对初始帧目标模板提取实例分割掩膜，对当前帧跟踪结果提取实例分割掩膜以及光流掩膜来实现突出前景抑制背景的作用。

此外，跟踪任务中需要得到目标物体的位置以及大小，因此需要更多关于目标的细节信息。原始图像可以比特征提供更高的空间分辨率和更多关于目标的细节。对模板在图像级别进行更新可以让跟踪器更多关注于目标细节。

基于以上分析，本发明实施例提出的算法可对SiamRPN++算法的性能进行提升。

本发明实施例的算法网络结构如图2所示。

孪生网络的目标跟踪框架为，

S_t＝corr(f(T_t),f(x_t)) (1)

其中，f(.)表示利用卷积神经网络进行特征提取，x_t表示第t帧的搜索区域图像，T_t表示第t帧目标模板图像，corr(.,.)表示相关运算，S_t表示第t帧的响应图。响应图上最大的位置代表当前帧目标物体所在的位置。

202：在跟踪过程中，从当前帧开始跟踪，过程如下：

使用参数共享的两个卷积神经网络分别对当前帧模板和当前帧搜索区域提取特征，将不同卷积层得到的特征送入三个RPN网络后得到分类分支和回归分支的结果，将这三个RPN网络的结果进行加权分别得到总的分类分支结果S_all和总的回归分支的结果B_all，表示如下：

其中，S_l表示不同卷积层送入RPN网络得到的分类分支的结果，B_l表示不同卷积层送入RPN网络得到的回归分支的结果，l表示不同卷积层，a_l和b_l表示不同RPN网络的加权系数。

在得到分类分支和回归分支的加权总和后，S_all的最大峰值代表了目标物体，找到此峰值对应的B_all中边界框的回归量可以得到当前帧的跟踪结果。

将得到的当前帧的跟踪结果送入实例分割掩膜生成模块，生成当前帧跟踪结果的实例分割掩膜

并将此实例分割掩膜对当前帧跟踪结果进行加权生成语义信息加权后的当前帧跟踪结果r_t ^I，具体如下：

其中，

表示当前帧跟踪结果经过DeepMask^[15]网络后生成的实例分割结果，f_I表示归一化函数，

表示实例分割结果经过归一化函数生成的实例分割掩膜，⊙表示哈达玛积，β表示超参数。

将当前帧跟踪结果r_t与有一定间隔(间隔是指视频帧之间的间隔，实验中设置为10帧)的前面帧跟踪结果r_t-n送入光流掩膜生成模块生成光流掩膜

并将此光流掩膜对当前帧跟踪结果进行加权生成运动信息加权后的当前跟踪帧结果r_t ^F，具体为：

其中，y_F表示当前帧跟踪结果与有一定间隔的前面帧跟踪结果经过FlowNet-C^[16]网络生成光流后，将此光流按照FlowNet2^[16]中的方法转换成RGB图像，再进一步转换成灰度光流结果，f_F表示归一化函数，γ表示超参数。

将语义信息加权后的当前帧跟踪结果f_t ^I和运动信息加权后的当前帧跟踪结果r_t ^F相加得到双重信息加权后的当前帧跟踪结果

具体为：

对于初始帧模板T₀，将其送入实例分割掩膜生成模块，生成初始帧的实例分割掩膜

并将实例分割掩膜对初始帧模板进行加权生成语义信息加权后的初始帧模板

具体为：

其中，

表示初始帧模板经过DeepMask网络后生成的实例分割结果，α表示超参数。

最后，将语义信息加权后的初始帧模板

双重信息加权后的当前帧跟踪结果

和当前帧模板T_t送入模板更新模块UM，生成更新模板并与语义信息加权后的初始帧模板

相加生成下一帧跟踪模板具体为：

203：训练时用的损失函数为L₂损失函数，具体为：

其中，T_t+1是公式(9)输出的下一帧预测模板，

是下一帧模板的真值，

和

在训练时由跟踪器生成，T_t表示当前帧的跟踪模板，由上一阶段的最好模型的跟踪结果生成。

实施例3

下面结合具体的实验数据对实施例1和2中的方案进行效果评估，详见下文描述：

301：数据组成

测试集由VOT2016^[17]数据库中的60个视频序列构成。

302：评估准则

本发明实施例主要采用三种评价指标对目标跟踪算法的性能进行评估：

Accuracy(准确率)：准确率用来评价跟踪器跟踪目标的准确度，指标计算利用了预测边界框与真值边界框之间的重叠率，数值越大，准确度越高。

Robustness(鲁棒性)：鲁棒性用来评价跟踪器的稳定性，计算了在跟踪过程中丢失目标的帧数比率，数值越大稳定性越差。

EAO(平均重叠期望)：是对每个跟踪器在一个短时图像序列上的非重置重叠率的期望值，值越大，跟踪器性能越好，EAO结合了每一帧的精确程度和失败程度的原始值，是VOT评估跟踪算法精度的最重要指标。

303：对比算法

在评估性能测试阶段，本发明实施例与6种跟踪方法ROAM^[18]，SPM^[19]，ASRCF^[20]，ECO^[21]，SiamRPN++和UpdateNet进行比较。

表1展示几种算法在VOT2016上测试得到的结果，其中SiamPRN++是本发明的基础框架。从表1中可以看到，本发明所提出的方法在最重要的指标EAO上面，相较于其他算法取得了最好的性能，与基础框架SiamRPN++相比增长8％，客观说明本发明中所提模板更新的有效性。

表1

实施例4

一种基于双掩膜模板更新的孪生网络目标跟踪装置，参见图3，该装置包括：

第一生成模块1，用于在框架基础上，将初始帧模板、当前帧跟踪结果送入实例分割掩膜生成模块分别生成语义信息加权后的初始帧模板和语义信息加权后的当前帧跟踪结果；

第二生成模块2，用于将当前帧跟踪结果与有一定间隔的前面帧跟踪结果送入光流掩膜生成模块生成运动信息加权后的当前帧跟踪结果；

获取模块3，用于将两种不同信息加权后的当前帧跟踪结果相加得到双重信息加权后的当前帧跟踪结果；

模板更新模块4，用于将语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果和当前帧模板送入模板更新模块生成更新模板，并与语义信息加权后的初始帧模板相加生成下一帧跟踪模板来实现模板更新；

跟踪模块5，用于随机挑选若干个视频进行多阶段训练，训练后对目标进行跟踪。

其中，上述的网络框架为SiamRPN++基础网络框架。

这里需要指出的是，以上实施例中的装置描述是与上述方法实施例描述相对应的，本发明实施例在此不做赘述。

上述各个模块、单元的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件，具体实现时，本发明实施例对执行主体不做限制，根据实际应用中的需要进行选择。

基于同一发明构思，本发明实施例还提供了一种基于数据共享的多智能体协同跟踪装置，参见图4，该装置包括：处理器6和存储器7，存储器7中存储有程序指令，处理器5调用存储器7中存储的程序指令以使装置执行实施例中的以下方法步骤：

其中，上述网络框架为SiamRPN++基础网络框架。

这里需要指出的是，以上实施例中的装置描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

上述的处理器6和存储器7的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件，具体实现时，本发明实施例对执行主体不做限制，根据实际应用中的需要进行选择。

存储器7和处理器6之间通过总线8传输数据信号，本发明实施例对此不做赘述。

基于同一发明构思，本发明实施例还提供了一种计算机可读存储介质，存储介质包括存储的程序，在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。

该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。

这里需要指出的是，以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。

计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。

参考文献

[1]Bertinetto Luca,Valmadre Jack,Henriques Joao F,et al.Fully-Convolutional Siamese Networks for Object Tracking[C]//European Conference onComputer Vision,2016:850-865.

[2]Li Bo,Yan Junjie,Wu Wei,et al.High Performance Visual Trackingwith Siamese Region Proposal Network[C]//IEEE Conference on Computer Visionand Pattern Recognition,2018:8971-8980.

[3]Wang Qiang,Zhang Li,Bertinetto Luca,et al.Fast Online ObjectTracking and Segmentation:A unifying approach[C]//IEEE Conference on ComputerVision and Pattern Recognition,2019:1328-1338.

[4]Zhang Zhipeng,Peng Houwen,Fu Jianlong,et al.Ocean:Object-AwareAnchor-Free Tracking[C]//European Conference on Computer Vision,2020:771-787.

[5]Nam Hyeonseob,Han Bohyung.Learning Multi-Domain ConvolutionalNeural Networks for Visual Tracking[C]//IEEE Conference on Computer Visionand Pattern Recognition,2016:4293-4302.

[6]Danelljan Martin,Bhat Goutam,Khan Fahad Shahbaz,et al.ATOM:Accurate Tracking by Overlap Maximization[C]//IEEE Conference on ComputerVision and Pattern Recognition,2019:4660-4669.

[7]Bhat Goutam,Danelljan Martin,Gool Luc Van,et al.LearningDiscriminative Model Prediction for Tracking[C]//International Conference onComputer Vision,2019:6181-6190.

[8]Li Bo,Wu Wei,Wang Qiang,et al.SiamRPN++:Evolution of SiameseVisual Tracking with Very Deep Networks[C]//IEEE Conference on ComputerVision and Pattern Recognition,2019:4282-4291.

[9]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep Residual Learningfor Image Recognition[C]//IEEE Conference on Computer Vision and PatternRecognition,2016:770-778.

[10]Ren Shaoqing,He Kaiming,Ross Girshick,et al.Faster R-CNN:Towardsreal-time object detection with region proposal networks[C]//Conference onNeural Information Processing Systems,2015:91-99.

[11]Fan Heng,Lin Liting,Yang Fan,et al.LaSOT:A High-quality Benchmarkfor Large-scale Single Object Tracking[C]//IEEE Conference on Computer Visionand Pattern Recognition,2019:5369-5378.

[12]Held David,Thrun Sebastian,Savarese Silvio.Learning to Track at100 FPS with Deep Regression Networks[C]//European Conference on ComputerVision,2016:749-765.

[13]Yang Tianyu,Chan Antoni B.Learning Dynamic Memory Networks forObject Tracking[C]//European Conference on Computer Vision,2018:153-169.

[14]Zhang Lichao,Gonzalez-Garcia Abel,Weijer Joost van de,etal.Learning the Model Update for Siamese Trackers[C]//InternationalConference on Computer Vision,2019:4009-4018.

[15]Pinheiro Pedro H.O.,Collobert Ronan,Doll Piotr.Learning toSegment Object Candidates[C]//Advances in Neural Information ProcessingSystems,2015:1990-1998.

[16]Ilg Eddy,Mayer Nikolaus,Saikia Tonmoy,et al.FlowNet 2.0:Evolutionof Optical Flow Estimation with Deep Networks[C]//European Conference onComputer Vision,2017:1647-1655.

[17]Kristan Matej,Leonardis Ales,Matas Jiri,et al.The Visual ObjectTracking VOT2016 challenge results[C]//European Conference on ComputerVision,2016:777-823.

[18]Yang Tianyu,Xu Pengfei,Hu Runbo,et al.ROAM:Recurrently OptimizingTracking Model[C]//IEEE Conference on Computer Vision and PatternRecognition,2020:6717-6726.

[19]Wang Guangting,Luo Chong,Xiong Zhiwei,et al.SPM-Tracker:Series-Parallel Matching for Real-Time Visual Object Tracking[C]//IEEE Conference onComputer Vision and Pattern Recognition,2019:3643-3652.

[20]Dai Kenan,Wang Dong,Lu Huchuan,et al.Visual Tracking via AdaptiveSpatially-Regularized Correlation Filters[C]//IEEE Conference on ComputerVision and Pattern Recognition,2019:4670-4679.

[21]Danelljan Martin,Bhat Goutam,Shahbaz Khan Fahad,et al.Eco:Efficient Convolution Operators for Tracking[C]//IEEE Conference on ComputerVision and Pattern Recognition,2017:6638-6646.

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。