CN113628244B

CN113628244B - 基于无标注视频训练的目标跟踪方法、系统、终端及介质

Info

Publication number: CN113628244B
Application number: CN202110757887.9A
Authority: CN
Inventors: 马超; 郑继来; 杨小康
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2023-11-28
Anticipated expiration: 2041-07-05
Also published as: CN113628244A

Abstract

本发明提供了一种基于无标注视频训练的目标跟踪方法及系统，对原始视频进行无监督光流预测，提取所述原始视频中每一帧的候选框，得到候选框序列；基于所述候选框序列，构建运动物体在所述原始视频中的伪标定框序列；基于所述伪标定框序列构建训练样本，并将所述训练样本输入至朴素孪生网络对所述朴素孪生网络进行训练，生成初步跟踪模型；对所述初步跟踪模型进行存储循环训练，得到目标跟踪模型；利用所述目标跟踪模型对待跟踪视频中的目标进行跟踪。同时提供了一种相应的终端及介质。本发明大幅度减少视频数据人工标注的成本，同时丰富训练可利用的视频数据；在无标注情况下，实现一种从无标注视频中训练一个基于标定框回归的目标跟踪模型。

Description

基于无标注视频训练的目标跟踪方法、系统、终端及介质

技术领域

本发明涉及目标跟踪技术，具体地，涉及一种基于无标注视频训练的目标跟踪方法、系统、终端及介质。

背景技术

目标跟踪是计算机视觉领域最为基础而重要的研究方向之一。目前，目标跟踪技术已经在智能仓储管理、体育赛事直播、无人机无人车等领域得到了广泛的应用。其中，基于深度学习的目标跟踪算法由于其较好的泛化性和较高的跟踪精度，受到了工业界与学术界的普遍关注。这类基于深度学习的目标跟踪算法往往基于监督学习的方式进行训练，从而需要大量进行过精确的物体位置标注的视频数据集作为训练样本。然而，对于视频信息进行人工标注费时费力，并且还需要保证前后帧标注之间的一致性。同时，标注视频的高成本也限制了可用于训练的视频信号的丰富程度，从而容易让跟踪模型产生数据偏见等问题。因此，目前绝大部分的目标跟踪算法都需要大量精确标注的视频数据进行训练，然而标注数据费时费力，且对于训练样本的丰富程度产生了限制。如何直接从无标注视频中训练基于深度学习的目标跟踪器(或称无监督目标跟踪器)，是一条有重大意义和广阔前景的技术路线。

国内外专家和学者对于从无标注视频中训练目标跟踪器的这一问题，已经进行过一定的研究。但由于缺乏物体在视频中位置的精确标注所带来的问题困难性，此前的方案始终存在一定局限。首先，由于缺乏物体标定框，此前的方案无法训练目标跟踪器的边框回归模块，使得精度存在明显的天花板；其次，这些无监督跟踪器难以进行视频中长帧间隔的训练，从而缺乏对于视频中丰富的时序信息的挖掘；最后，这些方案往往缺乏训练目标跟踪器中动态更新模块的方案，而在线更新模块对于跟踪器的性能至关重要。与上述缺陷所相对应的，从跟踪器的性能与鲁棒性上来分析，则此前的无监督目标跟踪器与有监督场景下训练出的跟踪器也确实存在着差距。因此，如何解决现有无监督跟踪器中存在的局限性，从无标注视频中训练出更高精度、更鲁棒的目标跟踪器，对于目标跟踪的应用而言有着重大意义。

技术文献“Wang,Ning,et al."Unsupervised deep representation learningfor real-time tracking."International Journal of Computer Vision 129.2(2021):400-418.”公开了一种LUDT(Learning Unsupervised Deep Tracking，基于学习的无监督目标跟踪算法)和LUDT+(LUDT的改进版)技术。LUDT与其升级版LUDT+是目前较为领先的深度无监督跟踪器学习方案。UDT(Unsupervised Deep Tracking，无监督目标跟踪)系列算法采用了循环一致性的训练方案。具体来说，对于一个鲁棒的跟踪器而言，如果从视频某一帧出发进行跟踪，则跟踪到初始帧的周围其他帧后，若反向跟踪回初始帧，此时跟踪结果应当再回到初始位置。LUDT采用了上述方案，基于DCFNet框架进行训练；而LUDT+则在此基础上考虑了手动设计的HOG特征，从而得到了更优良的跟踪性能。然而UDT系列算法存在一些固有的缺陷。首先，UDT系列采用循环一致性进行学习时，跟踪的初始位置是随机的，使得UDT经常从背景而非前景物体出发；并且，缺乏优良的初始框也使得UDT系列难以学习一个标定框回归模型，从而限制了UDT系列的性能上限。第二，UDT系列算法进行跟踪学习时，只能基于视频的连续性，在较短的帧间隔下进行循环跟踪的学习，因此难以学到物体在长时间间隔下的大幅度运动与形变。第三，UDT系列没有注重于设计一个基于深度网络的在线跟踪模块。

如上所述，现有技术仍然存在无法进行标定框回归、无法挖掘运动物体大幅形变、没有训练在线更新跟踪模块等技术问题，目前没有发现同本发明类似技术的说明或报道，也尚未收集到国内外类似的资料。

发明内容

本发明针对现有技术中存在的上述不足，提供了基于无标注视频训练的目标跟踪方法、系统、终端及介质。

根据本发明的一个方面，提供了一种基于无标注视频训练的目标跟踪方法，包括：

对原始视频进行无监督光流预测，提取所述原始视频中每一帧的候选框，得到候选框序列；

基于所述候选框序列，构建运动物体在所述原始视频中的伪标定框序列；

基于所述伪标定框序列构建训练样本，并将所述训练样本输入至朴素孪生网络对所述朴素孪生网络进行训练，生成初步跟踪模型；

对所述初步跟踪模型进行存储循环训练，得到目标跟踪模型；

利用所述目标跟踪模型对待跟踪视频中的目标进行跟踪。

优选地，所述对原始视频进行无监督光流预测，提取所述原始视频中每一帧的候选框，得到候选框序列，包括：

定义原始视频为一组长度为L、每一帧图片宽×高的像素尺寸均为W×H的单帧图片的序列，即/>其中，I_t为原始视频/>中的第t帧图像；

采用无监督的光流预测算法对每一帧I_t到的光流进行预测，并定义为第t帧的光流图/>其中，T_f为用于光流预测的视频帧间隔；

基于所述光流图对图像I_t进行二值化，得到第t帧的基于光流的二值化图M_t：

其中，D_t表示第t帧的距离图，F_t表示第t帧的光流图，上标i和j均表示像素坐标在二维图中的空间位置索引，α∈(0，1)是一个超参数，max与mean则分别表示二维长宽坐标下的均值；上标表示空间位置索引；

从所述二值化图M_t中提取出所有像素的连通区域，求出所述连通区域的外接矩形框；其中，所述连通区域包含前景运动物体；

为所述外接矩形框打分，取其中分数最高的一个作为第t帧的候选框B_t，进而得到候选框序列。

优选地，所述为所述外接矩形框打分，包括：

定义一个矩形框BB＝(x₀，y₀，x₁，y₁)由其左上角与右下角的坐标表示，则所述矩形框BB的分数S_c(BB)为：

S_c(BB)＝(x₁-x₀)(y₁-y₀)+β·min(x₀，W-x₁)min(y₀，H-y₁)

其中，β为权重参数；x₀为左上角坐标点的横坐标，y₀为左上角坐标点的纵坐标，x₁为右下角坐标点的横坐标，y₁为右下角坐标点的纵坐标；

基于上述操作，得到关于原始视频的候选框序列/>

优选地，所述基于所述候选框序列，构建运动物体在所述原始视频中的伪标定框序列，包括：

采用动态规划算法，从候选框序列中选择部分候选框，使得被选中的候选框形成的框序列能够在时序上平缓变化；

利用线性插值方法补全未被选中的帧中的伪标定框，得到伪标定框序列

优选地，所述动态规划算法中：

获取候选框序列中使得总累计收益最大化的一条候选框选取路径，则从候选框B_t转移到候选框B_t′的收益R_dp(Bt，Bt′)为：

R_dp(B_t，B_t′)＝IoU(B_t，B_t′)-γ·R_DIoU(B_t，B_t′)

其中，IoU(B_t，B_t′)是候选框B_t与候选框B_t′的IoU，R_DIoU(B_t，B_t′)为DIoU中的距离惩罚项，γ＞1是一个常数参数；

所述线性插值方法中：

所述伪标定框B′_t由其前后被动态规划算法选中的最近两帧的候选框B_u与B_v线性插值生成，则：

其中，u，t，v均为帧序号，且满足u＜t＜v。

优选地，所述基于所述伪标定框序列构建训练样本，并将所述训练样本输入至朴素孪生网络对所述朴素孪生网络进行训练，生成初步跟踪模型，包括：

对伪标定框序列中的伪标定框进行视频级和帧级的双层打分，并基于最高得分构建训练帧；

基于所述训练帧得到训练样本和损失函数，对朴素孪生网络进行训练。

优选地，所述对伪标定框序列中的伪标定框进行视频级和帧级的双层打分，并基于最高得分构建训练帧，包括：

对原始视频进行帧级的打分，得到原始视频的质量

其中，N_dp为候选框序列中被动态规划算法选中的候选框数量；

对伪标定框B′_t进行帧级的打分，得到伪标定框B′_t的质量Q_f(B′_t)：

其中，N′_dp表示从到/>中被动态规划算法选中的帧数量，/>和/>分别为第t-T_s帧与第t+T_s帧，T_s为一个固定的帧间隔

选择满足的原始视频，从选择的原始视频中随机抽取任意几帧，并选取其中Q_f(B′_t)得分最高的一帧作为训练帧；

所述基于所述训练帧得到训练样本和损失函数，对朴素孪生网络进行训练，包括：

利用传统孪生网络式的切片操作对所述训练帧进行切片，生成模板图和搜索区域图，作为用于训练朴素孪生网络的训练样本；

采用PrPool算法，基于伪标定框位置从所述模板图的深度表征中提取深度特征，用于与搜索区域图的深度特征进行多尺度互相关运算，再通过卷积运算，得到前景背景分类分支与物体边界框回归分支的输出；

构建用于训练朴素孪生网络的损失函数，包括前景背景分类损失函数和物体边界框回归损失函数/>得到总损失函数/>为：

其中，λ₁为损失函数的权重；所述前景背景分类损失和物体边界框回归损失的伪标签均采用所述训练帧生成；

利用所述训练样本和所述总损失函数对朴素孪生网络进行训练；

其中：

所述朴素孪生网络基于SiamRPN++孪生网络，并采用Ocean算法中提出的多尺度互相关运算对模板图深度特征和搜索区域图深度特征进行多尺度互相关运算。

优选地，所述对所述初步跟踪模型进行存储循环训练，得到目标跟踪模型，包括：

从原始视频中获取一个模板帧I_t与N_mem个存储帧I_t′，所述模板帧I_t与任意一个存储帧I_t′均能够被伪标定框序列中的一个伪标定框连接；确定所述存储帧的范围上下界；

采用所述初步跟踪模型跟踪所述模板帧I_t中的运动物体，并基于在存储帧I_t′上跟踪的跟踪结果，从存储帧I_t′的特征图上采用PrPool算法提取出一个由一系列深度特征组成的存储队列；

基于所述存储队列跟踪回所述模板帧，完成存储循环训练，得到目标跟踪模型。

优选地，所述确定所述存储帧的范围上下界，包括：

选取存储帧I_t′的时间上下界分别为T_u(I_t)与T_l(I_t)，所述T_u(I_t)与T_l(I_t)之间具有镜像性关系；

定义上界T_u(I_t)为：

s.t.

其中，θ₂与θ₃为两个设定阈值，k和t′均为帧序号，R_dp(B′_t′-1，B′_t′)为伪标定框B′_t′-1转移到伪标定框B′_t′的收益，Q_f(B′_t′)为伪标定框B′_t′的质量；

根据所述T_u(I_t)与T_l(I_t)之间具有镜像性关系，得到相应的下界T_l(I_t)；

所述采用所述初步跟踪模型跟踪所述模板帧I_t中的运动物体，并基于在存储帧I_t′上跟踪的跟踪结果，从存储帧的特征图上采用PrPool算法提取出一个由一系列深度特征组成的存储队列，包括：

同时输入一个模板帧I_t与N_mem个存储帧I_t′，采用初步跟踪模型进行从模板帧到存储帧的前向跟踪；

利用PrPool算法从存储帧I_t′的特征图中提取出N_mem个7×7大小的深度特征形成存储队列；

所述基于所述存储队列跟踪回所述模板帧I_t，完成存储循环训练，得到目标跟踪模型，包括：

对存储队列中深度特征进行融合，首先将所有存储队列中的深度特征与模板帧I_t的深度特征进行互相关运算，得到N_mem个互相关结果图，记为

采用可信度-值对所述互相关结果图进行融合，其中：

采用两个3×3卷积从互相关结果图C_corr中得到相同大小的可信度图与值图/>

对所述可信度图C_conf进行以指数归一化，得到

以所述为权重对所述值图C_val进行加和，得到最终的融合结果图C：

其中，u为在N_mem个图序列中的序号；

对所述融合结果图C进行卷积运算，即得到存储循环训练的反向跟踪结果；

以模板帧I_t的伪标定框B′_t确定的前景背景分类结果为监督信号，采用BCE损失计算得到损失结果

最终的损失函数为：

其中，λ₁与λ₂分别是线性求和的权重；

完成存储循环训练，得到目标跟踪模型。

根据本发明的另一个方面，提供了一种基于无标注视频训练的目标跟踪系统，包括：

候选框序列提取模块，该模块对原始视频进行无监督光流预测，提取所述原始视频中每一帧的候选框，得到候选框序列；

伪标定框序列构建模块，该模块基于所述候选框序列，构建运动物体在所述原始视频中的伪标定框序列；

初步跟踪模型模块，该模块基于所述伪标定框序列构建训练样本，并将所述训练样本输入至朴素孪生网络对所述朴素孪生网络进行训练，生成初步跟踪模型；

目标跟踪模型模块，该模块对所述初步跟踪模型进行存储循环训练，得到目标跟踪模型；利用所述目标跟踪模型对待跟踪视频中的目标进行跟踪。

根据本发明的第三个方面，提供了一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行上述任一项所述的方法，或，运行上述的系统。

根据本发明的第四个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行上述任一项所述的方法，或，运行上述的系统。

由于采用了上述技术方案，本发明与现有技术相比，具有如下至少一项的有益效果：

本发明提供的基于无标注视频训练的目标跟踪方法、系统、终端及介质，能够从无标注视频中对基于深度网络的目标跟踪算法框架进行学习，获得目标跟踪模型，大幅度减少视频数据人工标注的成本，同时丰富训练可利用的视频数据。

本发明提供的基于无标注视频训练的目标跟踪方法、系统、终端及介质，采用基于无监督光流预测与动态规划算法的视频预处理技术，能够从无标注视频中提取出前景运动物体平滑的运动轨迹。

本发明提供的基于无标注视频训练的目标跟踪方法、系统、终端及介质，在无标注情况下，实现一种从无标注视频中训练一个基于标定框回归的目标跟踪模型。

本发明提供的基于无标注视频训练的目标跟踪方法、系统、终端及介质，实现一种存储循环的无监督目标跟踪模型学习技术方案，从而使得无监督目标跟踪模型能够训练一个基于存储的目标跟踪模型。

本发明提供的基于无标注视频训练的目标跟踪方法、系统、终端及介质，能够从无标注视频中训练基于深度网络的目标跟踪模型，在不利用任何人工标注视频的情形下，仅利用无标注的视频信息便训练出具有高鲁棒性与高精度的目标跟踪模型。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例中基于无标注视频训练的目标跟踪方法流程图。

图2为本发明一优选实施例中基于无标注视频训练的目标跟踪方法流程图。

图3为本发明一优选实施例中利用无监督光流提取单帧候选标定框流程图。

图4为本发明一优选实施例中利用动态规划算法进行视频伪标定框序列平滑流程图。

图5为本发明一优选实施例中目标跟踪模型训练阶段流程图。

图6为本发明一优选实施例中从无标注视频中提取的用于孪生网络的训练样本实例。

图7为本发明一具体应用实例中在VOT2016数据集上的跟踪结果展示，虚线(USOT)与实线(USOT*)为本发明在两种骨干网络初始化方法下的跟踪效果。

图8为本发明一具体应用实例中在VOT2018数据集上的跟踪结果展示。

图9为本发明一具体应用实例中在LaSOT数据集上的跟踪结果展示。

图10为本发明一实施例中基于无标注视频训练的目标跟踪系统组成模块示意图。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

图1为本发明一实施例提供的基于无标注视频训练的目标跟踪方法流程图。

如图1所示，该实施例提供的基于无标注视频训练的目标跟踪方法，可以包括如下步骤：

S100，对原始视频进行无监督光流预测，提取原始视频中每一帧的候选框，得到候选框序列；

S200，基于候选框序列，构建运动物体在原始视频中的伪标定框序列；

S300，基于伪标定框序列构建训练样本，并将训练样本输入至朴素孪生网络对朴素孪生网络进行训练，生成初步跟踪模型；

S400，对初步跟踪模型进行存储循环训练，得到目标跟踪模型；

S500，利用目标跟踪模型对待跟踪视频中的目标进行跟踪。

在该实施例中，得到的目标跟踪模型为一种基于存储的在线跟踪模型。

在该实施例的S100中，作为一优选实施例，对原始视频进行无监督光流预测，提取原始视频中每一帧的候选框，得到候选框序列，可以包括如下步骤：

S101，定义原始视频为一组长度为L、每一帧图片宽×高的像素尺寸均为W×H的单帧图片的序列，即/>其中，I_t为原始视频/>中的第t帧图像；

S103，采用无监督的光流预测算法对每一帧I_t到的光流进行预测，并定义为第t帧的光流图/>其中，Tf为用于光流预测的视频帧间隔；

S103，基于光流图对图像I_t进行二值化，得到第t帧的基于光流的二值化图M_t：

其中，D_t表示第t帧的距离图，F_t表示第t帧的光流图，i和j表示像素坐标在二维图中的空间位置索引，α∈(0，1)是一个超参数，max与mean则分别表示二维长宽坐标下的均值；上标表示空间位置索引；

S104，从二值化图M_t中提取出所有像素的连通区域，求出连通区域的外接矩形框；其中，连通区域包含前景运动物体；

S105，为外接矩形框打分，取其中分数最高的一个作为第t帧的候选框B_t，进而得到候选框序列。

在该实施例的S105中，作为一优选实施例，为外接矩形框打分，可以包括如下步骤：

S 1051，定义一个矩形框BB＝(x₀，y₀，x₁，y₁)由其左上角与右下角的坐标表示，则矩形框BB的分数S_c(BB)为：

S_c(BB)＝(x₁-x₀)(y₁-y₀)+β·min(x₀，W-x₁)min(y₀，H-y₁)

S1052，基于S1051的操作，得到关于原始视频的候选框序列/>

在该实施例的S200中，作为一优选实施例，基于候选框序列，构建运动物体在原始视频中的伪标定框序列，可以包括如下步骤：

S201，采用动态规划算法，从候选框序列中选择部分候选框，使得被选中的候选框形成的框序列能够在时序上平缓变化；

S202，利用线性插值方法补全未被选中的帧中的伪标定框，得到伪标定框序列

在该实施例的S201中，作为一优选实施例，动态规划算法中：

获取候选框序列中使得总累计收益最大化的一条候选框选取路径，则从候选框B_t转移到候选框B_t′的收益R_dp(B_t，B_t′)为：

R_dp(B_t，B_t′)＝IoU(B_t，B_t′)-γ·R_DIoU(B_t，B_t′)

其中，IoU(B_t，B_t′)是候选框B_t与候选框框B_t′的IoU，R_DIoU(B_t，B_t′)为DIoU中的距离惩罚项，γ＞1是一个常数参数。

在该实施例的S202中，作为一优选实施例，线性插值方法中：

伪标定框B′_t由其前后被动态规划算法选中的最近两帧的候选框B_u与B_v线性插值生成，则：

其中，u，t，v均为帧序号，u＜t＜v。

在该实施例的S300中，作为一优选实施例，基于伪标定框序列构建训练样本，并将训练样本输入至朴素孪生网络对朴素孪生网络进行训练，生成初步跟踪模型，可以包括如下步骤：

S301，对伪标定框序列中的伪标定框进行视频级和帧级的双层打分，并基于最高得分构建训练帧；

S302，基于训练帧得到训练样本和损失函数，对朴素孪生网络进行训练。

在该实施例的S301中，作为一优选实施例，对伪标定框序列中的伪标定框进行视频级和帧级的双层打分，并基于最高得分构建训练帧，可以包括如下步骤：

S3011，对原始视频进行帧级的打分，得到原始视频的质量

S3012，对伪标定框B′_t进行帧级的打分，得到伪标定框B′_t的质量Q_f(B′_t)：

其中，N′_dp表示从到/>中被动态规划算法选中的帧数量，/>和/>分别为第t-T_s帧与第t+T_s帧，T_s为一个固定的帧间隔；

S3013，选择满足的原始视频，从选择的原始视频中随机抽取任意几帧，并选取其中Q_f(B′_t)得分最高的一帧作为训练帧。

在该实施例的S302中，作为一优选实施例，基于基于训练帧得到训练样本和损失函数，对朴素孪生网络进行训练，可以包括如下步骤：

S3021，利用传统孪生网络式的切片操作对训练帧进行切片，生成模板图和搜索区域图，作为用于训练朴素孪生网络的训练样本；

S3022，采用PrPool算法，基于伪标定框位置从模板图的深度表征中提取深度特征，用于与搜索区域图的深度特征进行多尺度互相关运算，再通过卷积运算，得到前景背景分类分支与物体边界框回归分支的输出；

S3023，构建用于训练朴素孪生网络的损失函数，包括前景背景分类损失函数和物体边界框回归损失函数/>得到总损失函数/>为：

其中，λ₁为损失函数的权重；前景背景分类损失和物体边界框回归损失/>的伪标签均采用训练帧生成；

S3024，利用训练样本和总损失函数对朴素孪生网络进行训练；

进一步地：

朴素孪生网络的结构基于SiamRPN++孪生网络，对模板图深度特征和搜索区域图深度特征的互相关运算则采用了Ocean算法中提出的多尺度互相关运算。

在该实施例的S400中，作为一优选实施例，对初步跟踪模型进行存储循环训练，得到目标跟踪模型，可以包括如下步骤：

S401，从原始视频中获取一个模板帧I_t与N_mem个存储帧I_t′，其中，模板帧I_t与任意一个存储帧I_t′能够被伪标定框序列/>中的一个伪标定框连接；确定存储帧的范围上下界；

S402，采用初步跟踪模型跟踪模板帧I_t中的运动物体，并基于在存储帧I_t′上跟踪的跟踪结果，从存储帧I_t′的特征图上采用PrPool算法提取出一个由一系列深度特征组成的存储队列；

S403，基于存储队列跟踪回模板帧，完成存储循环训练，得到目标跟踪模型。

在该实施例的S401中，作为一优选实施例，确定存储帧的范围上下界，可以包括如下步骤：

S4011，选取存储帧I_t′的时间上下界分别为T_u(I_t)与T_l(I_t)，T_u(I_t)与T_l(I_t)之间具有镜像性关系；

S4012，定义上界T_u(I_t)为：

s.t.

S4013，根据T_u(I_t)与T_l(I_t)之间具有镜像性关系，得到相应的下界T_l(I_t)。

在该实施例的S402中，作为一优选实施例，采用初步跟踪模型跟踪模板帧中的运动物体，并基于在存储帧跟踪的跟踪结果(中间结果)，从存储帧的特征图上采用PrPool算法提取出一个由一系列深度特征组成的存储队列，可以包括如下步骤：

S4021，同时输入一个模板帧与N_mem个存储帧，采用初步跟踪模型进行从模板帧到存储帧的前向跟踪；

S4022，利用PrPool算法从存储帧的特征图中提取出N_mem个7×7大小的深度特征形成存储队列。

在该实施例的S403中，作为一优选实施例，基于存储队列跟踪回模板帧，完成存储循环训练，得到目标跟踪模型，可以包括如下步骤：

S4031，对存储队列中深度特征进行融合，首先将所有存储队列中的深度特征与模板帧的深度特征进行互相关运算，得到N_mem个互相关结果图，记为

S4032，采用可信度-值对互相关结果图进行融合，其中：

S40321，采用两个3×3卷积从互相关结果图C_corr中得到相同大小的可信度图与值图/>

S40322，对可信度图C_conf进行以指数归一化，得到

S40323，以为权重对值图C_val进行加和，得到最终的融合结果图C：

其中，u为在N_mem个图序列中的序号；

S4033，对融合结果图C进行卷积运算，即得到存储循环训练的反向跟踪结果；

S4034，以模板帧的伪标定框B′_t确定的前景背景分类结果为监督信号，采用BCE损失计算得到损失结果

S4035，最终的损失函数为：

其中，λ₁与λ₂分别是线性求和的权重；

S4036，基于上述步骤，完成存储循环训练，得到目标跟踪模型。

图2为本发明一优选实施例提供的基于无标注视频训练的目标跟踪方法流程图。

该优选实施例提供的基于无标注视频训练的目标跟踪方法，解决了从无标注信息的视频中训练一个基于深度网络的目标跟踪模型这一问题，设计了一个预处理与网络训练的统一框架。

下面将分阶段对该优选实施例提供的目标跟踪方法进行阐述。

如图2所示，该优选实施例提供的目标跟踪方法，主要分为三部分内容：运动物体发现、朴素孪生网络训练以及存储循环跟踪训练。

一、运动物体发现，包括：

步骤1，对原始视频进行无监督光流预测，提取原始视频中每一帧的候选框，得到候选框序列；

步骤2，基于候选框序列，构建运动物体在原始视频中的伪标定框序列。

由于本优选实施例的训练数据为无标注信息的视频信号，因此首先需要进行前景运动物体的发现。进行这一步预处理的作用在于，通过在训练样本中大致标注前景物体，能够让目标跟踪模型(跟踪器)学到分类前景背景的能力，同时也有利于学习一个标定框回归模型，从而提高目标跟踪模型的精度上限。

本优选实施例从无标注视频中发现运动物体的方式主要基于两个设定。设定一，前景物体往往与其周围的背景有完全不同的运动模式；设定二，运动物体在视频中往往具有平滑的运动轨迹。基于这两点设定，本优选实施例先采用无监督光流预测在视频的每一帧提取候选框，之后用动态规划算法从视频的候选框中构建一个平滑的运动物体的伪标定框序列。

定义视频为一组长度为L的大小均为W×H的单帧图片的序列，即/> 其中I_t为视频中的第t帧。采用无监督的光流预测算法(如ARFlow算法)对于每一帧I_t到/>的光流进行预测，并定义为第t帧的光流图/>基于这一光流图，可以通过如下公式对于每一帧图像I_t进行二值化，得到二值化图M_t，如图3所示。

其中

其中上标表示像素坐标在二维图中的空间位置索引，α∈(0，1)是一个超参数，max与mean则分别表示二维长宽坐标下的均值。

基于第一个设定，即前景物体往往与其周围的背景有完全不同的运动模式，本优选实施例认定每一个满足内部所有像素的连通区域均可能包含前景运动物体。因此本优选实施例从二值化图M_t提取出所有上述区域，求出它们的外接矩形框，并为这些矩形框打分，取其中分数最高的一个作为视频中第t帧的候选框B_t。其中，定义一个矩形框BB＝(x₀，y₀，x₁，y₁)由其左上角与右下角的坐标表示，那么其分数可以定义为S_c(BB)。该公式的大致思想在于，一个前景运动物体应当以更大概率出现在图像的中间位置，并占据较大的面积。

S_c(BB)＝(x₁-x₀)(y₁-y₀)+β·min(x₀，W-x₁)min(y₀，H-y₁)

其中β是一个权重参数。基于上述操作，便得到了关于视频的候选框序列/>

然而，上述的候选框序列仍会存在许多噪音与未被良好预处理的情形(如遮挡等现象)，因此本优选实施例需要对其进行进一步的平滑与筛选。考虑到设定二，即运动物体在视频中往往具有平滑的运动轨迹，本优选实施例选择采用动态规划对于/>进行进一步平滑。具体而言，本优选实施例采用动态规划算法从/>中选择部分候选框，使得这些被选中的候选框形成的框序列能够在时序上平缓变化，之后再利用线性插值补全未被选中的帧中的伪标定框，如图4所示。本优选实施例将最终生成的平滑可靠的伪标定框序列记为/>

对于动态规划算法，其最关键的是如何评判每一步迭代转移的收益。本优选实施例定义从框B_t转移到框B_t′的收益R_ap(B_t，B_t′)为下式，其中IoU(B_t，B_t′)是框B_t与框B_t′的IoU，而R_DIoU(B_t，B_t′)则是DIoU中的距离惩罚项，γ＞1是一个常数参数。注意采用DIoU的惩罚项的目的是希望在中任意相邻两个框的距离变化能够尽可能较小。

R_dp(B_t，B_t′)＝IoU(B_t，B_t′)-γ·R_DIoU(B_t，B_t′)

注意动态规划算法的目的是找到中能让总累计收益最大化的一条候选框选取路径。对于那些未被选中候选框的帧，本优选实施例采用线性插值基于其前后最近的被选中的候选框进行平滑处理。形式化地，假定视频第t帧的B_t未被动态规划算法选中，那么平滑后的伪标定框B′_t应当由其前后被动态规划选中的最近的两帧的候选框B_u与B_v线性插值生成，也即是下式，其中u＜t＜v。/>

二、朴素孪生网络训练，包括：

步骤3，基于伪标定框序列构建训练样本，并将训练样本输入至朴素孪生网络对朴素孪生网络进行训练，生成初步跟踪模型。

记平滑可靠的伪标定框序列记为本优选实施例在第二阶段中将利用它训练一个朴素的目标跟踪器(朴素孪生网络)，即初步跟踪模型。这一阶段训练的核心思路在于，对于单帧上的任意一个图像模板切片即模板图(与其数据增强)以及该帧原图中的搜索区域即搜索区域图，这两者都形成一对完整的能用于孪生网络训练的训练样本，如图5所示。模板图和搜索区域图均都是基于伪标定框B’在原帧上切片出来后再进行数据增强得到的。

其中，模板图像素尺寸为127×127，搜索区域图像素尺寸为255×255。

由于此前的无监督跟踪方案缺少较为精确的伪标定框，导致必须直接随机选择切片位置，则跟踪器会难以学到前景背景的区分能力，同时也无法训练一个标定框回归的模块，使得性能受限。基于上述原因，本优选实施例对于中得到的伪标定框序列进行视频级和帧级的双层打分，从而基于分数得到最为可靠的一些伪标定框B′_t。之后便可以基于这些被选中的伪标定框，将对应的帧进行传统孪生网络式的切片操作，将切片结果的数据增强与原图成对输入孪生网络作为训练样本。

根据实践发现，如果一个视频中有更多帧被动态规划算法选中，则其更可能是一个预处理质量较好的视频。本优选实施例定义一个视频/>的质量为/>下式给出了其计算方式，其中N_dp为/>的候选框序列/>中被动态规划算法选中的数量。

同理，视频帧I_t中伪标定框B′_t的质量可以利用I_t周围帧被动态规划算法选中的比例进行评估。本优选实施例定义一个伪标定框B′_t的质量为Q_f(B′_t)，下式给出了其计算方式，其中N′_dp表示从到/>中被动态规划算法选中的帧数量。

在抽取训练样本时，本优选实施例仅仅从训练视频中选取满足的视频之后随机抽取/>中任意几帧，并选取其中得分Q_f(B′_t)最高的那一帧，进行传统孪生网络的切片预处理。这里每次抽取的帧数与1/Q_v/>成正相关。训练样本的实例可以见图6前两列所示(第一第二列分别为模板切片与搜索区域，矩形为该帧的伪标定框)。

朴素孪生网络的训练过程中，模板分支的深度特征采用PrPool算法基于伪标定框进行提取。训练的损失函数由两个部分组成。其中是前景背景的分类损失，采用BCE损失函数进行计算；而/>为物体边界框回归的损失，采用IoU损失函数进行计算。两者的伪标签均采用/>进行生成，生成方式与传统的孪生网络一致。下式展示了总的损失函数/>的计算方式，其中λ₁是一个权重。

在该优选实施例中，朴素孪生网络的网络结构基于传统的SiamRPN++(CVPR2019)孪生网络，并将其中的互相关运算替换采用了Ocean(ECCV2020)孪生网络的多尺度互相关运算。

先切片生成像素尺寸为127×127的模板图与像素尺寸为255×255的搜索区域图，接着让图通过Backbone网络(如ResNet-50)运算，得到的深度特征(模板特征尺寸大小15×15，搜索区域特征尺寸大小31×31)，再用PrPool算法，从模板图的深度特征中基于伪标定框序列B’提取得到一个尺寸大小为7×7的深度特征，然后在进行传统孪生网络式的互相关运算。采用了PrPool算法，在模板图的深度特征中，基于伪标定框序列B’，提取物体深度特征用于孪生网络的互相关运算。

PrPool算法基于某个伪标定框，从深度特征的对应位置提取出固定长宽大小的某个特征。本优选实施例中，从模板图的尺寸大小为15×15的深度特征中基于伪标定框序列B’提取得到一个尺寸大小为7×7的深度特征，再与尺寸大小为31×31的搜索区域特征做多尺度互相关运算，最终得到尺寸大小为25×25的分类cls分支和回归reg分支的网络输出，用于计算损失函数。

三、存储循环跟踪训练，包括：

步骤4，对初步跟踪模型进行存储循环训练，得到目标跟踪模型。

上述朴素孪生网络存在两大主要问题，首先，其使用单帧样本进行训练，没有挖掘到时序上物体的形变等信息；其次，其并未训练一个在线更新的模块。因此，本优选实施例设计了一种名为存储循环的无监督训练方式，使得网络能在更长的时间间隔上进行学习，并训练得到一个基于存储的目标跟踪模型。

存储循环训练模式的基本思想是，本优选实施例可以从视频中某一模板帧的伪标定框B′_t出发，在模板帧的周围帧(称为存储帧)上，用之前训练的朴素孪生网络跟踪器跟踪该物体，并基于在存储帧跟踪的中间结果，从存储帧的特征图上用PrPool提取出一个由一系列深度特征组成的存储队列，再基于该存储队列跟踪回一开始的模板帧。由于跟踪任务具有循环一致性，因此仍可以用模板帧上的伪标定框B′_t作为监督信号的来源，见图5所示。

上述算法最关键的一点，在于如何确定在模板帧的附近帧中选取存储帧的范围上下界。如果范围太广，则模板帧中的物体很可能已经消失；如果范围太窄，则难以训练挖掘出足够的时序信息，尤其是长时间间隔下的物体变化信息。不妨记以I_t为模板帧时，选取存储帧的时间上下界分别为T_u(I_t)与T_l(I_t)。由于上下界的计算方式存在镜像性，本优选实施例仅仅如下形式化地定义上界T_u(I_t)，其中θ₂与θ₃为两个确定的阈值。

s.t.

该式的核心思想在于，只要视频中的任意两帧I_t与I_t′能够被中的一个平滑而可靠的伪标定框序列连接，那么这两帧就可以作为一个训练样本中的模板帧与存储帧。换言之，本优选实施例用/>中的跳变与不可靠标定框(即Q_f(B′_t)低于θ₃的标定框)作为切分视频的依据，而认为在同一个视频切片中的任意两帧的伪标定框倾向于定位同一个物体。图6显示了一些训练样本的实例，其中第一、第二列取自模板帧，第三到六列取自存储帧。

基于存储循环思想进行训练时，本优选实施例同时输入一个模板帧与N_mem个存储帧。本优选实施例首先进行从模板帧到存储帧的前向跟踪，得到模板在存储帧上的中间跟踪结果，之后利用PrPool运算从存储帧的深度特征中基于上述中间跟踪结果提取出N_mem个7×7大小的特征加入存储队列，基于存储队列反向跟踪回模板帧。在进行存储队列中深度特征的融合时，本优选实施例首先将所有存储队列中的深度特征与模板帧的深度特征进行互相关运算，得到N_mem个互相关结果图，记为之后，采用可信度-值对这些互相关结果图进行融合。具体而言，首先用两个3×3卷积从C_corr中得到相同大小的可信度图/>与值图/>之后以指数归一化后的C_conf(记为/>)为权重对C_val进行加和，得到最终的融合结果图C，如下式所示。

对于最终的融合结果图C再进行卷积运算，即可得到存储循环训练的反向跟踪结果。之后再以模板帧的伪标定框B′_t确定的前景背景分类结果为监督信号，同样采用BCE损失计算得到损失结果最终的损失函数如下所示，其中λ₁与λ₂均是线性求和的权重。

下面结合一具体应用实例，对本发明上述实施例提供的技术方案进一步详细描述如下。

在该具体应用实例中，将上述目标跟踪方法进行了工程实现，并测试了训练出的目标跟踪模型在几个常用公开数据集上的效果。

在工程实现中，包括以下过程。

选择ResNet-50作为孪生网络的骨干网络，而互相关运算则选择了多尺度深度互相关运算。在骨干网络的参数初始化上，选择基于对比学习的初始化方案和在ImageNet上预训练两种方案，将这两种初始化下训练出的网络分别记为USOT与USOT*。训练数据采用公开数据集LaSOT、ImageNet VID、GOT-10k、YouTube-VOS的训练部分。选择投影变换与上下与左右的翻转作为主要的训练数据增强方式。

在利用网络进行测试时，该具体应用实例同时考虑了离线与在线的两种方式。具体而言，从第一帧中用PrPool提取出物体的深度特征作为离线方式的模板，而在基于存储的在线方式中则动态维护了N_q个存储特征。其中2个存储取自第一帧，1个取自上一帧，剩余N_q-3个取自其他中间帧中具有最高总得分的那些中间跟踪结果。这里总得分/>是基于朴素孪生网络的离线模块的输出/>与基于存储的在线方式输出/>的线性加权和，也即是/>其中，w为在线模块的线性加权权重。

依据上述步骤，该具体应用实例将USOT和USOT*在目标跟踪领域常用的四个公开测试数据集VOT2016、VOT2018、TrackingNet及LaSOT上进行了相应的测试，其中VOT2016与VOT2018数据集采用准确性、鲁棒性及EAO作为评价指标，TrackingNet与LaSOT数据集采用成功率及准确率作为评价指标。将USOT和USOT*与此前最好的无监督目标跟踪器LUDT与LUDT+进行性能对比。

表1是LUDT、LUDT+、USOT和USOT*在VOT2016与VOT2018数据集上的测试结果，表2是LUDT、LUDT+、USOT和USOT*在TrackingNet与LaSOT数据集上的测试结果。可以发现的是，由ImageNet预训练进行骨干网络初始化的USOT*在四个数据集的所有指标上都取得了最优的效果，而无监督方式初始化的USOT取得了匹敌USOT*的效果。此外，基于本发明的理论实现的USOT和USOT*相比起此前最好的无监督目标跟踪器LUDT与LUDT+而言，在这四个数据集上都取得了大幅度的性能指标领先，体现出本发明相比之前方案拥有更好的总体设计。

图7～图9分别展示了基于本发明上述实施例提供的目标跟踪方法在VOT2016、VOT2018与LaSOT数据集上的测试结果实例。其中虚线(USOT)与实线(USOT*)为上述方法在两种骨干网络初始化方法下的跟踪效果。可以看到，本发明上述实施例提供的目标跟踪方法，在许多困难的场景下均能给出良好的跟踪效果，并且比起此前最优的深度无监督跟踪器性能有更好的鲁棒性和精确度。

表1在VOT2016与VOT2018测试数据集上的性能展示

表2在TrackingNet与LaSOT测试数据集上的性能展示

图10为本发明一实施例提供的基于无标注视频训练的目标跟踪系统组成模块示意图。

如图10所示，该实施例提供的基于无标注视频训练的目标跟踪系统，可以包括如下模块：候选框序列提取模块、伪标定框序列构建模块、初步跟踪模型模块以及目标跟踪模型模块；其中：

候选框序列提取模块，该模块对原始视频进行无监督光流预测，提取原始视频中每一帧的候选框，得到候选框序列；

伪标定框序列构建模块，该模块基于候选框序列，构建运动物体在原始视频中的伪标定框序列；

初步跟踪模型模块，该模块基于伪标定框序列构建训练样本，并将训练样本输入至朴素孪生网络对朴素孪生网络进行训练，生成初步跟踪模型；

目标跟踪模型模块，该模块对初步跟踪模型进行存储循环训练，得到目标跟踪模型；利用目标跟踪模型对待跟踪视频中的目标进行跟踪。

本发明一实施例提供了一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时可用于执行本发明上述实施例中任一项的方法，或，运行本发明上述实施例中任一项的系统。

本发明一实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行本发明上述实施例中任一项的方法，或，运行本发明上述实施例中任一项的系统。

在上述两个实施例中，可选地，存储器，用于存储程序；存储器，可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)，如静态随机存取存储器(英文：static random-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic RandomAccess Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

处理器，用于执行存储器存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

处理器和存储器可以是独立结构，也可以是集成在一起的集成结构。当处理器和存储器是独立结构时，存储器、处理器可以通过总线耦合连接。

本发明上述实施例提供的基于无标注视频训练的目标跟踪方法、系统、终端及介质，对UDT系列算法的三点固有问题均进行了改进。具体而言，本发明上述实施例提供的基于无标注视频训练的目标跟踪方法、系统、终端及介质，基于无监督光流与动态规划算法提取的伪标定框能够良好地从无标注视频中发现运动的前景物体，从而更好地训练跟踪模型进行前景与背景的分类，同时还能学习一个标定框回归模型；采用基于存储循环的训练方式，使得本发明目标跟踪方法能够提取到更长的时序视频信号上的物体形态变化，同时训练一个基于存储机制的目标跟踪模型。

本发明上述实施例提供的基于无标注视频训练的目标跟踪方法、系统、终端及介质，在多个目标跟踪领域的公开数据集上，取得了超越此前最好的无监督深度跟踪模型，且比肩近年来大部分有监督目标跟踪器的性能。

本发明上述实施例提供的基于无标注视频训练的目标跟踪方法、系统、终端及介质，主要包括如下三个部分：一，基于无监督光流预测的结果，采用动态规划作为骨干算法，从无标注视频信号中得到运动物体在原视频中的平滑的伪标定框序列；二，以上述对于运动物体的伪标注为监督信号，利用视频中的单帧信息训练一个朴素的孪生网络跟踪模型(即初步跟踪模型)；三，以上述朴素孪生跟踪模型为基础，将跟踪模型的训练扩展到多帧的视频信号上，并采用存储循环的训练模式，使得跟踪模型在提取视频中长距离时序信息的同时，训练得到一个基于存储机制的目标跟踪模型。

本发明上述实施例提供的基于无标注视频训练的目标跟踪方法、系统、终端及介质，能够从未标注的视频信号直接进行训练，对现有目标跟踪算法的改进有重大实际意义。上述实施例充分考虑了目标跟踪任务的特性，从此前的无监督目标跟踪算法的局限性出发，设计了一套从无标注视频中训练鲁棒的高精度目标跟踪模型的框架。通过在预处理阶段采用无监督光流预测与动态规划算法进行伪标签标注，使得在训练目标跟踪模型时能够大致定位物体，并学习一个标定框回归模型。通过在训练阶段顺序采用朴素孪生网络和存储循环的两阶段训练方式，使得目标跟踪模型能够逐步学到前景背景的分类能力，提取到视频中物体的时序信息，并训练一个基于存储机制动态更新的目标跟踪模型。上述实施例解决了无监督目标跟踪领域的诸多核心问题，显著提升了性能，在多个公开数据集上均得到了显著超越此前最优的无监督目标跟踪算法，并比肩近年来大部分有监督目标跟踪算法的跟踪性能。

需要说明的是，本发明提供的方法中的步骤，可以利用系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照方法的技术方案实现系统的组成，即，方法中的实施例可理解为构建系统的优选例，在此不予赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于无标注视频训练的目标跟踪方法，其特征在于，包括：

利用所述目标跟踪模型对待跟踪视频中的目标进行跟踪；

所述基于所述候选框序列，构建运动物体在所述原始视频中的伪标定框序列，包括：

所述动态规划算法中：

获取候选框序列中使得总累计收益最大化的一条候选框选取路径，则从候选框B_t转移到候选框B_t′的收益R_dp(B_t,B_t′)为：

R_dp(B_t,B_t′)＝IoU(B_t,B_t′)-γ·R_DIoU(B_t,B_t′)

其中，IoU(B_t,B_t′)是候选框B_t与候选框B_t′的IoU，R_DIoU(B_t,B_t′)为DIoU中的距离惩罚项，γ>1是一个常数参数；

所述线性插值方法中：

其中，u,t,v均为帧序号，且满足u<t<v；

所述朴素孪生网络的结构基于SiamRPN++孪生网络，并采用Ocean算法中提出的多尺度互相关运算对模板图深度特征和搜索区域图深度特征进行互相关运算；

所述对所述初步跟踪模型进行存储循环训练，得到目标跟踪模型，包括：

2.根据权利要求1所述的基于无标注视频训练的目标跟踪方法，其特征在于，所述对原始视频进行无监督光流预测，提取所述原始视频中每一帧的候选框，得到候选框序列，包括：

其中，D_t表示第t帧的距离图，F_t表示第t帧的光流图，上标i和j均表示像素坐标在二维图中的空间位置索引，α∈(0,1)是一个超参数，max与mean则分别表示二维长宽坐标下的均值；上标表示空间位置索引；

3.根据权利要求2所述的基于无标注视频训练的目标跟踪方法，其特征在于，所述为所述外接矩形框打分，包括：

定义一个矩形框BB＝(x₀,y₀,x₁,y₁)由其左上角与右下角的坐标表示，则所述矩形框BB的分数S_c(BB)为：

S_c(BB)＝(x₁-x₀)(y₁-y₀)+β·min(x₀,W-x₁)min(y₀,H-y₁)

基于上述操作，得到关于原始视频的候选框序列/>

4.根据权利要求1所述的基于无标注视频训练的目标跟踪方法，其特征在于，所述基于所述伪标定框序列构建训练样本，并将所述训练样本输入至朴素孪生网络对所述朴素孪生网络进行训练，生成初步跟踪模型，包括：

5.根据权利要求4所述的基于无标注视频训练的目标跟踪方法，其特征在于，所述对伪标定框序列中的伪标定框进行视频级和帧级的双层打分，并基于最高得分构建训练帧，包括：

对原始视频进行帧级的打分，得到原始视频的质量

其中，λ₁为损失函数的权重；所述前景背景分类损失和物体边界框回归损失/>的伪标签均采用所述训练帧生成；

利用所述训练样本和所述总损失函数对朴素孪生网络进行训练。

6.根据权利要求1所述的基于无标注视频训练的目标跟踪方法，其特征在于，所述确定所述存储帧的范围上下界，包括：

定义上界T_u(I_t)为：

其中，θ₂与θ₃为两个设定阈值，k和t′均为帧序号，R_dp(B′_t′-1,B′_t′)为伪标定框B′_t′-1转移到伪标定框B′_t′的收益，Q_f(B′_t′)为伪标定框B′_t′的质量；

根据所述T_u(I_t)与T_l(I_t)之间具有镜像性关系，得到相应的下界T_l(I_t)。

7.根据权利要求6所述的基于无标注视频训练的目标跟踪方法，其特征在于，所述采用所述初步跟踪模型跟踪所述模板帧I_t中的运动物体，并基于在存储帧I_t′上跟踪的跟踪结果，从存储帧的特征图上采用PrPool算法提取出一个由一系列深度特征组成的存储队列，包括：

利用PrPool算法从存储帧I_t′的特征图中提取出N_mem个7×7大小的深度特征形成存储队列。

8.根据权利要求7所述的基于无标注视频训练的目标跟踪方法，其特征在于，所述基于所述存储队列跟踪回所述模板帧I_t，完成存储循环训练，得到目标跟踪模型，包括：

采用可信度-值对所述互相关结果图进行融合，其中：

对所述可信度图C_conf进行以指数归一化，得到

其中，u为在N_mem个图序列中的序号；

最终的损失函数为：

其中，λ₁与λ₂分别是线性求和的权重；

完成存储循环训练，得到目标跟踪模型。

9.一种基于无标注视频训练的目标跟踪系统，其特征在于，包括：

目标跟踪模型模块，该模块对所述初步跟踪模型进行存储循环训练，得到目标跟踪模型；利用所述目标跟踪模型对待跟踪视频中的目标进行跟踪；

所述伪标定框序列构建模块，包括：

所述动态规划算法中：

R_dp(B_t,B_t′)＝IoU(B_t,B_t′)-γ·R_DIoU(B_t,B_t′)

所述线性插值方法中：

其中，u,t,v均为帧序号，且满足u<t<v；

所述目标跟踪模型模块，对所述初步跟踪模型进行存储循环训练，得到目标跟踪模型，包括：

10.一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时可用于执行权利要求1-8中任一项所述的方法，或，运行权利要求9所述的系统。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时可用于执行权利要求1-8中任一项所述的方法，或，运行权利要求9所述的系统。