CN116051601A

CN116051601A - 一种深度时空关联的视频目标跟踪方法及系统

Info

Publication number: CN116051601A
Application number: CN202211720383.0A
Authority: CN
Inventors: 梁敏; 桂彦; 刘斌斌
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-05-02

Abstract

本申请公开了一种深度时空关联的视频目标跟踪方法及系统，实现逐视频序列的目标跟踪，同时保证获得精确的视频目标跟踪结果。首先设计一个时空特征提取器，提取模板序列和搜索序列的时空特征。其次，引入特征匹配模块，由分类分支和回归分支组成。将抽取的模板时空特征和搜索时空特征通过相关滤波进行相似匹配，分别获得多通道相关滤波特征。然后，部署一个目标跟踪模块，包括分类头和回归头，分别根据输入的多通道相关滤波特征计算分类得分图和回归得分图，用于预测目标位置和估计目标的尺度。最后，通过最小化定义的联合损失优化时空关联视觉跟踪模型。在目标跟踪测试中，提出置信区域估计策略，从而在视频序列中保持鲁棒和准确的目标跟踪。

Description

一种深度时空关联的视频目标跟踪方法及系统

技术领域

本发明涉及计算机视觉领域，具体而言，涉及一种深度时空关联的视频目标跟踪方法及系统。

背景技术

视频目标跟踪是指利用视频或者图像序列的上下文信息，对目标的外观和运动信息进行建模，从而对目标运动状态进行预测并标定位置的技术。通常情况下，根据视频第一帧中指定的目标，在后续视频帧中持续跟踪该特定目标，实现目标的定位和目标尺度估计。视频目标跟踪具有广泛的应用价值，可用于视频监控、无人驾驶、精确制导等领域。

近年来，随着深度学习和卷积网络的快速发展，出现了越来越多基于卷积网络的视频目标跟踪器。研究者们更加青睐基于孪生网络的跟踪器，其不仅在跟踪速度上占据了优势，而且还取得了不错的精度。这种基于孪生网络的跟踪器把视觉跟踪看作是相似性匹配问题。2016年，Bertinetto等提出用于视觉跟踪的SiamFC跟踪器(Luca Bertinetto,JackValmadre,

F.Henriques,Andrea Vedaldi,Philip H.S.Torr:Fully-ConvolutionalSiamese Networks for Object Tracking.ECCV Workshops(2)2016:850-865.)，借助孪生网络提取模板和搜索特征，并利用相关滤波计算目标模板和搜索区域之间的互相关程度。随后，Held等提出GOTURN跟踪器(David Held,Sebastian Thrun,Silvio Savarese:Learning to Track at 100FPS with Deep Regression Networks.ECCV(1)2016:749-765.)，对上一帧预测的目标框进行回归得到当前帧的目标框。

为了进一步提高精度，2018年，Li等将孪生网络和区域建议网络结合，提出SiamRPN跟踪器(Bo Li,Junjie Yan,Wei Wu,Zheng Zhu,Xiaolin Hu:High PerformanceVisual Tracking With Siamese Region Proposal Network.CVPR 2018:8971-8980.)，通过引入区域候选网络，更准确地估计目标框尺度。然而，锚框的引入容易导致相似性匹配的二义性，从而影响跟踪精度，造成误差累积，降低目标跟踪器的鲁棒性，并且带来了更多的超参数。2020年，Chen等人设计一个简单而高效的无锚框跟踪器SiamBAN(Zedu Chen,Bineng Zhong,Guorong Li,Shengping Zhang,Rongrong Ji:Siamese Box AdaptiveNetwork for Visual Tracking.CVPR 2020:6667-6676.)，通过添加特征组合模块分支和质量评估分支提高跟踪器的性能。这些跟踪器在大部分视频场景中具有比较出色的性能和实时的跟踪速度，但是现有方法往往将视频目标跟踪看作逐视频帧的目标检测问题，忽略了视频帧之间丰富的时空信息。基于孪生网络的视觉跟踪方法应该有效利用跨时间帧的丰富信息，并且可以更好地学习时空观特征进行目标外观建模，以提高跟踪定位的准确度。

发明内容

针对上述现有技术存在的不足，本发明提供了一种深度时空关联的视频目标跟踪方法及系统。跟踪器通过利用时空信息，不仅能够保留时空关联的特征信息，且通过利用模板序列存储不同模板帧的特征，能够更好地建模视频目标外观，提高跟踪器的准确性；同时，以模板序列和搜索序列作为输入，能够得到搜索序列中目标预测结果。这种以逐个序列处理视频目标跟踪的方式，极大地提升了视频目标跟踪的速度。

为了实现上述目的，本发明提供了一种深度时空关联的视频目标跟踪方法，包括以下步骤：

S1、构建网络架构，该网络由时空特征提取器、特征匹配子网络以及目标预测子网络组成；

S2、分别给定模板序列视频帧和搜索序列视频帧，并将其裁剪成模板序列块和搜索序列块，作为整个网络架构的输入；

S3、构建时空特征提取器，该子网络是一个3D孪生全卷积网络，包括模板分支和搜索分支，以3D全卷积网络作为基础网络且权值共享。将模板序列块和搜索序列块作为输入，时空特征提取器从其中提取模板时空特征和搜索时空特征；

S4、构建特征匹配子网络，包括分类分支和回归分支。将得到的模板时空特征和搜索时空特征作为这两个分支的输入，利用相关滤波操作进行特征相似度匹配，使得分类分支和回归分支分别输出多通道相关滤波特征；

S5、构建目标预测子网络，主要由分类头和回归头组成。将分类分支和回归分支输出的多通道相关滤波特征输入到对应的分类头和回归头，得到分类得分图和回归得分图；

S6、根据分类得分图定位序列中每一视频帧目标的位置；根据回归得分图，对序列中每一视频帧的目标尺度进行估计，得到搜索序列中每一视频帧的目标预测框；

S7、通过最小化联合损失优化网络模型，包括分类的交叉熵损失和回归的交并比损失，最终得到视频目标跟踪器模型；

S8、以训练的网络模型为视觉跟踪器，对给定的视频进行逐视频序列的目标跟踪。为了保证稳定和准确的跟踪，定义置信搜索区域估计策略，根据当前视频序列中不同的目标状态裁剪下一个序列的搜索区域，减少误差累积，准确地定位搜索序列中每一视频帧的目标。

本发明提供了一种用于视频目标跟踪的端到端可训练的神经网络架构和系统，包括视频序列输入模块，用于裁剪模板序列块和和搜索序列块；模型训练模块，用于训练一种基于3D孪生网络的视频目标跟踪器，通过最小化组合损失对目标跟踪进行训练，包括交叉熵和交并比损失，最终实现逐视频序列的目标跟踪；视频目标跟踪模块，利用模型输出的分类图和回归图，分别进行搜索序列视频帧中目标状态的估计和尺度的预测，计算得到搜索序列中的目标预测框；利用当前视频序列的目标预测框，计算得到下一组视频序列的置信搜索区域，并将其输入到搜索分支以进行后续视频序列的目标跟踪。

与现有技术相比，具备以下有益效果：

本发明利用3D孪生全卷积网络提取模板时空特征和搜索时空特征，学习跨连续多个视频帧之间丰富的时空信息。将抽取的模板时空特征和搜索时空特征输入到特征匹配子网络，得到多通道相关滤波特征。利用分类头和回归头处理多通道相关滤波特征，预测目标的定位并估计目标尺度。在目标跟踪阶段，为了得到较为准确的搜索序列区域，定义置信搜索区域估计策略，根据当前视频序列中目标的不同状态对下一搜索序列区域进行估计，确保目标跟踪的稳定性和准确性。本方法不再是传统的单帧处理，而是直接处理视频序列，保证跟踪精度的同时提高了跟踪速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明专利中网络整体结构图。

图2是本发明专利中模板序列块和搜索序列块示意图。

图3是本发明专利中时空特征提取器结构示意图。

图4是本发明专利中置信搜索区域估计图。

图5是本发明专利中部分视频帧示意图。

图6是本发明专利中视频目标跟踪结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。下面结合说明书附图以及具体的实施方式对本发明作详细说明。

下面结合说明书附图以及具体的实施方式对本发明作详细说明，一种深度时空关联的视频目标跟踪方法，包含步骤S1～S8：

S7、通过最小化联合损失优化网络模型，包括分类的交叉熵损失和回归的交并比损失，最终得到视频目标跟踪模型；

S8、以训练的网络模型为视觉跟踪器，对给定的视频进行逐视频序列的目标跟踪。为了保证稳定和准确的跟踪，定义置信搜索区域估计策略，根据当前视频序列中不同的目标状态裁剪下一个序列的搜索区域，减少误差累积，准确地定位搜索序列中每一视频帧的目标。下面对各个步骤进行详细描述。

在步骤S1中，构建网络架构，如图1所示，该网络由时空特征提取器、特征匹配子网络以及目标预测子网络组成。其步骤具体为：

S11、构建一个基于3D孪生网络的时空特征提取器，包括模板分支和搜索分支，以3D全卷积神经网络作为基础网络且权值共享，用于从输入的视频序列块中提取模板时空特征和搜索时空特征。

S12、特征匹配子网络由分类分支和回归分支组成，分别以模板时空特征和搜索时空特征作为输入，利用相关滤波操作进行特征相似性匹配，获得多通道相关滤波特征。

S13、目标预测子网络包括分类头和回归头，以多通道相关滤波特征作为输入，通过分类头和回归头，分别得到分类得分图和回归得分图。

在步骤2中，分别给定模板序列视频帧和搜索序列视频帧，并将其裁剪成模板序列块和搜索序列块，如图2所示，并作为整个网络架构的输入。其步骤具体为：

S21、给定模板序列，根据模板序列中每一视频帧中目标的真实值信息，获取目标的中心位置和宽度、高度信息，并表示为(x,y,w,h)。

S211、根据S21给定的每一真实目标框信息，计算目标框宽和高的扩充值p＝(w+h)/2，并计算缩放因子

用于缩放扩充后的目标框区域。如果加上扩充值后的目标框区域超出了视频帧的边界值，则使用当前视频帧的平均RGB值进行填充。最终，模板序列中的每一视频帧剪裁为127×127大小的模板块。

S212、对模板序列中每一视频帧裁剪之后得到模板块

其中k表示模板序列中视频帧的总数目。

S22、给定搜索序列，根据模板序列中第一帧视频帧目标的真实值信息，获取目标的中心位置和宽度、高度信息，并表示为(X,Y,W,H)。

S221、根据S22给定的真实目标框信息，计算目标框宽和高的扩充值P＝(W+H)/2，并计算缩放因子

来用于缩放扩充后的目标框区域。如果加上扩充值后的目标框区域超出了视频帧的边界值，则使用当前视频帧的平均RGB值来填充，最终，搜索序列中每一视频帧裁剪为255×255大小的搜索块。

S222、对搜索序列中每一视频帧裁剪之后得到搜索块

其中k表示搜索序列中视频帧的总数目。

在步骤S3中，时空特征提取器是一个3D孪生全卷积网络，包括模板分支和搜索分支，以3D全卷积网络做为基础网络且权值共享。将模板序列块和搜索序列块作为输入，时空特征提取器从其中提取模板时空特征和搜索时空特征。其步骤具体为：

S31、构建特征提取网络，如图3所示，其中每一分支是一个由五个残差块组成的Res3D网络。

S32、将Res3D的第一块残差块中的padding属性修改为1×4×4，stride调整为1×1×1，分别将第四块残差块输出通道和第五块的输入通道修改为128，去掉第五块残差块的下采样和最终分类层。由此，输出的时空特征和输入的视频序列具有相同的时间长度。

S34、将步骤S212和S222中得到的模板块和搜索块输入到时空特征提取器中，分别得到模板时空特征

和搜索时空特征

在步骤4中，特征匹配子网络包括分类分支和回归分支，将得到的模板时空特征和搜索时空特征作为这两个分支的输入，利用相关滤波操作进行特征相似度匹配，使得分类分支和回归分支分别输出多通道相关滤波特征。其步骤具体为：

S41、将S3中得到的模板特征

和搜索特征

分别输入到分类分支和回归分支中并进行相关滤波操作，具体计算如下：

其中，

表示分类分支，

表示回归分支，*表示相关滤波。

S42、分类分支和回归分支分别输出多通道相关滤波特征

和

在步骤5中，目标预测模块包括分类头和回归头，将分类分支和回归分支输出的多通道相关滤波特征输入到分类头和回归头，分别得到分类得分图和回归得分图。其步骤具体为：

S51、分类头由一个1×1卷积层组成，以S42中分类分支输出的多通道相关滤波特征F_cls作为分类头的输入，输出分类得分图：

S52、回归头由一个1×1卷积层组成，以S42中回归分支输出的多通道相关滤波特征F_reg作为回归头的输入，输出回归得分图：

在步骤6中，根据分类得分图定位序列中每一视频帧目标的位置；根据回归得分图，对序列中每一视频帧的目标尺度进行估计，得到搜索序列中每一视频帧的目标预测框。其步骤具体为：

S61、分类得分图的大小为：k×17×17，在分类得分图找到响应值最大的点

在原视频帧中表示为：

其中s＝8为整个网络的总步长。

S62、回归得分图是一个四通道向量，大小为：k×4×17×17，使用l_i,t_i,r_i,b_i表示回归目标的偏移量，目标的坐标信息可以表示为：

其中

表示目标预测框Bⁱ的左上角点和右下角点坐标。

在步骤7中，通过最小化联合损失优化网络模型，包括分类的交叉熵损失和回归的交并比损失，最终得到快速且精准的视频目标跟踪器。其步骤具体为：

S71、训练总损失定义为：

其中，Lⁱ为第i个搜索帧的损失。k表示为分类得分图(回归得分图)的总数目。

表示第i个搜索块中(x,y)位置属于目标的概率。

表示在第i个回归得分图中位置(x,y)距离边界框四周的距离。

S72、训练损失Lⁱ包括分类的交叉熵损失和回归的交并比损失，定义为：

其中，1{·}是指示性函数，表示是否属于目标，属于则赋值为1，否则赋值0。L_cls表示分类的交叉熵损失。L_reg表示回归的交并比损失。如果当前位置(xⁱ,yⁱ)属于正样本，即当前位置属于目标，则将

赋值为1；如果是负样本，则将

赋值为0。

表示在第i个搜索块中真实目标的中心位置(xⁱ,yⁱ)距离边界框四周的偏移量。

在步骤8中，以训练的网络模型为视觉跟踪器，对给定的视频进行逐视频序列的目标跟踪。为了保证稳定和准确的跟踪，定义置信搜索区域估计策略，根据当前视频序列中不同的目标状态裁剪下一个序列的搜索区域，减少误差累积，准确地定位搜索序列中每一视频帧的目标。其步骤具体为：

S81、由于目标在视频序列中可能出现较大位置变化的情况，根据当前搜索序列的预测框结果{B^t-k,..,B^t-1,B^t}，其中B^t是搜索序列中第t帧的目标预测框，根据每一目标框的左上角点坐标

和右下角点坐标

计算得到最小包围框b_m，如图4所示。

S82、对最小包围框b_m进行扩展，用于裁剪下一组视频序列的搜索区域b_s，保证搜索区域能够覆盖搜索序列每一视频帧中的目标。视频目标跟踪结果如图6所示。

根据本申请的另一方面，还提供了一种深度时空关联的视频目标跟踪系统，包括以下几个模块：

视频序列输入模块：给定一组模板序列视频帧和搜索序列视频帧，将其按照S2中形式裁剪成指定大小的模板序列块和和搜索序列块。

模型训练模块，用于训练一种基于3D孪生网络的视频目标跟踪器。该目标跟踪器包括由时空特征提取器模块、特征匹配模块以及目标预测模块。时空特征提取器以模板序列块和和搜索序列块作为输入，从中提取模板时空特征和搜索时空特征；将这些时空特征输入到特征匹配模块中，利用相关滤波操作进行相似性匹配，得到多通道相关滤波特征；再依次输入到目标预测模块中的分类头和回归头中，最终得到分类得分图和回归图；通过最小化分类的交叉熵损失和回归的交并比损失对目标跟踪进行训练。

视频目标跟踪模块，在测试阶段，利用模型输出的分类图和回归图，分别进行搜索序列视频帧中目标状态的估计和尺度的预测，从而得到搜索序列中的目标预测框，再利用这组目标预测框，得到一组置信搜索区域，并将其输入到搜索分支以进行后续序列帧的目标跟踪。

该系统用于实现上述的实施例中方法的功能，该系统模块中所涉及方法的具体实施步骤已经在方法中进行过说明的，在此不再赘述。

在本申请实施例中，首先设计一个时空特征提取器，从输入的模板序列和搜索序列中提取时空特征，学习强辨别的目标外观表示；其次，设计一个特征匹配模块，由分类分支和回归分支组成。通过利用相关滤波操作，将抽取的模板时空特征和搜索时空特征在高维特征空间中进行相似匹配，分别获得多通道相关滤波特征。然后，部署一个目标跟踪模块，包括分类头和回归头，分别根据输入的多通道相关滤波特征计算分类得分图和回归得分图，用于预测目标位置和估计目标的尺度。最后，通过最小化定义的联合损失优化时空关联视觉跟踪模型，并用于视频目标跟踪预测。在目标跟踪测试中，定义置信区域估计策略，根据当前视频序列的目标跟踪结果计算下一视频序列的搜索区域，尽量减少误差累积，从而在视频序列中保持鲁棒和准确的目标跟踪。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种深度时空关联的视频目标跟踪方法，其特征在于，所述方法由计算机执行，包括以下步骤：

S3、构建时空特征提取器，该子网络是一个3D孪生全卷积网络，包括模板分支和搜索分支，以3D全卷积网络作为基础网络且权值共享；将模板序列块和搜索序列块作为输入，时空特征提取器从其中提取模板时空特征和搜索时空特征；

S4、构建特征匹配子网络，包括分类分支和回归分支；将得到的模板时空特征和搜索时空特征作为这两个分支的输入，利用相关滤波操作进行特征相似度匹配，使得分类分支和回归分支分别输出多通道相关滤波特征；

S5、构建目标预测子网络，主要由分类头和回归头组成；将分类分支和回归分支输出的多通道相关滤波特征输入到对应的分类头和回归头，得到分类得分图和回归得分图；

S8、以训练的网络模型为视觉跟踪器，对给定的视频进行逐视频序列的目标跟踪；为了保证稳定和准确的跟踪，定义置信搜索区域估计策略，根据当前视频序列中不同的目标状态裁剪下一个序列的搜索区域，减少误差累积，准确地定位搜索序列中每一视频帧的目标。

2.如权利要求1所述的一种深度时空关联的视频目标跟踪方法，其特征在于构建深度时空关联的视频目标跟踪网络结构，其具体实现过程如下：

S11、构建一个基于3D孪生网络的时空特征提取器，包括模板分支和搜索分支，以3D全卷积神经网络作为基础网络且权值共享，用于从输入的视频序列块中提取模板时空特征和搜索时空特征；

S12、特征匹配子网络由分类分支和回归分支组成，分别以模板时空特征和搜索时空特征作为输入，利用相关滤波操作进行特征相似性匹配，获得多通道相关滤波特征；

3.如权利要求1所述的一种深度时空关联的视频目标跟踪方法，其特征在于构建模板序列块和搜索序列块，其具体实现过程如下：

S21、给定模板序列，根据模板序列中每一视频帧中目标的真实值信息，获取目标的中心位置和宽度、高度信息，并表示为(x,y,w,h)；

用于缩放扩充后的目标框区域；如果加上扩充值后的目标框区域超出了视频帧的边界值，则使用当前视频帧的平均RGB值进行填充；最终，模板序列中的每一视频帧剪裁为127×127大小的模板块；

S212、对模板序列中每一视频帧裁剪之后得到模板块

其中k表示模板序列中视频帧的总数目；

S22、给定搜索序列，根据模板序列中第一帧视频帧目标的真实值信息，获取目标的中心位置和宽度、高度信息，并表示为(X,Y,W,H)；

来用于缩放扩充后的目标框区域；如果加上扩充值后的目标框区域超出了视频帧的边界值，则使用当前视频帧的平均RGB值来填充，最终，搜索序列中每一视频帧裁剪为255×255大小的搜索块；

S222、对搜索序列中每一视频帧裁剪之后得到搜索块

其中k表示搜索序列中视频帧的总数目。

4.如权利要求1所述的一种深度时空关联的视频目标跟踪方法，其特征在于构建时空特征提取器，其具体实现过程如下：

S31、构建特征提取网络，其中每一分支是一个由五个残差块组成的Res3D网络；

S32、将Res3D的第一块残差块中的padding属性修改为1×4×4，stride调整为1×1×1，分别将第四块残差块输出通道和第五块的输入通道修改为128，去掉第五块残差块的下采样和最终分类层；由此，输出的时空特征和输入的视频序列具有相同的时间长度；

S33、将S212和S222中得到的模板块和搜索块输入到时空特征提取器中，分别得到模板时空特征

和搜索时空特征

5.如权利要求1所述的一种深度时空关联的视频目标跟踪方法，其特征在于构建特征匹配子网络，其具体实现过程如下：

S41、将S3中得到的模板特征

和搜索特征

其中，

表示分类分支，

表示回归分支，*表示相关滤波；

S42、分类分支和回归分支分别输出多通道相关滤波特征

和

6.如权利要求1所述的一种深度时空关联的视频目标跟踪方法，其特征在于构建视频序列目标跟踪子网络，其具体实现过程如下：

7.如权利要求1所述的一种深度时空关联的视频目标跟踪方法，其特征在于预测目标位置和估计边界框尺度，其具体实现过程如下：

在原视频帧中表示为：

其中s＝8为整个网络的总步长；

其中

表示目标预测框Bⁱ的左上角点和右下角点坐标。

8.如权利要求1所述的一种深度时空关联的视频目标跟踪方法，其特征在于训练视觉跟踪模型，其具体实现过程如下：

S71、训练总损失定义为：

其中，Lⁱ为第i个搜索帧的损失；k表示为分类得分图(回归得分图)的总数目；

表示第i个搜索块中(x,y)位置属于目标的概率；

表示在第i个回归得分图中位置(x,y)距离边界框四周的距离；

其中，1{·}是指示性函数，表示是否属于目标，属于则赋值为1，否则赋值0；L_cls表示分类的交叉熵损失；L_reg表示回归的交并比损失；如果当前位置(xⁱ,yⁱ)属于正样本，即当前位置属于目标，则将

赋值为1；如果是负样本，则将

赋值为0；

9.如权利要求1所述的一种深度时空关联的视频目标跟踪方法，其特征在于估计置信搜索区域，其具体实现过程如下：

和右下角点坐标

计算得到最小包围框b_m；

S82、对最小包围框b_m进行扩展，用于裁剪下一组视频序列的搜索区域b_s，保证搜索区域能够覆盖搜索序列每一视频帧中的目标。

10.一种深度时空关联的视频目标跟踪系统，其特征在于，包括以下几个模块：

图像标记模块：给定一张图片作为输入，根据该图片的真实标签进行随机像素点标注，其中包括前景和背景的标记，以此产生大量的交互信息来模拟用户的交互；

视频序列输入模块：给定一组模板序列视频帧和搜索序列视频帧，将其按照S2中形式裁剪成指定大小的模板序列块和和搜索序列块；

模型训练模块：用于训练一种基于3D孪生网络的视频目标跟踪器；该目标跟踪器包括由时空特征提取器模块、特征匹配模块以及目标预测模块；时空特征提取器以模板序列块和和搜索序列块作为输入，从中提取模板时空特征和搜索时空特征；将这些时空特征输入到特征匹配模块中，利用相关滤波操作进行相似性匹配，得到多通道相关滤波特征；再依次输入到目标预测模块中的分类头和回归头中，最终得到分类得分图和回归图；通过最小化分类的交叉熵损失和回归的交并比损失对目标跟踪进行训练；

视频目标跟踪模块：在测试阶段，利用模型输出的分类图和回归图，分别进行搜索序列视频帧中目标状态的估计和尺度的预测，从而得到搜索序列中的目标预测框，再利用这组目标预测框，得到一组置信搜索区域，并将其输入到搜索分支以进行后续序列帧的目标跟踪。