CN114092521A

CN114092521A - 基于多阶段自适应网络的鲁棒目标跟踪方法及系统

Info

Publication number: CN114092521A
Application number: CN202111425943.5A
Authority: CN
Inventors: 陈思; 王立波; 王大寒; 朱顺痣; 吴芸
Original assignee: Xiamen University of Technology
Current assignee: Xiamen University of Technology
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-02-25

Abstract

本发明涉及一种基于多阶段自适应网络的鲁棒目标跟踪方法及系统，该方法包括以下步骤：S1、构建离线训练数据集；S2、使用元学习的多步梯度下降训练方法对离线训练数据集进行训练，得到元学习模型；S3、构建多阶段自适应网络，包括领域自适应子网、特征自适应子网和位置自适应子网三个不同自适应子网络，S4、将测试视频中仅已知目标位置的第一帧输入到领域自适应子网，对构建的多阶段自适应网络进行初始化训练；S5、将测试视频中第二帧开始的后续帧依次输入到特征自适应子网中，利用多阶段自适应网络对测试视频进行跟踪。该方法及系统有利于获得更加稳定、鲁棒、准确的跟踪结果。

Description

基于多阶段自适应网络的鲁棒目标跟踪方法及系统

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于多阶段自适应网络的鲁棒目标跟踪方法及系统。

背景技术

目标跟踪是计算机视觉领域不可或缺的分支之一，在视频监控、虚拟现实和交通控制方面有广泛的应用。目标追踪的任务是只在第一帧中给出初始目标位置和尺寸的情况下，在连续帧中持续地定位目标。近年来，基于深度学习的目标跟踪由于其强大的特征表示能力取得了重大进展。然而，自适应地处理由光照变化、尺度变化、运动模糊、变形、快速运动、背景杂乱等因素引起的较大的外观变化仍然是一个具有挑战性的问题。

大量的研究工作利用大规模数据集去训练跟踪模型以获得通用特征，例如，TransT(X.Chen,B.Yan,J.Zhu,D.Wang,X.Yang,H.Lu,Transformer tracking,in:Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition,2021,pp.8126–8135.)引入了transformer中注意力机制去替换之前的互相关操作，并建立了特征之间的长距离关系。MDNet(H.Nam andB.Han.Learningmulti-domainconvolutional neural networks for visual tracking.Proceeding of the IEEEConference on Computer Vision and Pattern Recognition.2016,pp.4293-4302.)将目标跟踪视为一个二分类任务，利用预测目标周围绘制的正负样本特征去更新模型。为了提升跟踪器的鲁棒性，VITAL(Y.B.Song,C.Ma,X.H.Wu,L.J.Gong,L.C.Bao,W.M.Zuo,C.H.Shen,R.W.H.Lau,M.H.Yang.VITAL:Visual tracking via adversariallearning.Proceeding of the IEEE Conference on ComputerVision andPatternRecognition.2018,pp.8990-8999.)在此基础上引入对抗学习去增强特征空间的正样本特征去丰富外观信息。然而，上述跟踪方法主要依赖源域训练模型所提取的特征，这给学习泛化和鲁棒的外观特征并适应新的视频序列造成了困难。目前有一些跟踪器引入元学习去解决域适应问题。比如，Meta-tracker(E.Park andA.C.Berg.Meta-tracker:fast androbust online adaptation for visual object trackers.Proceeding of theEuropean Conference on ComputerVision.2018,pp.587-604.)利用基于梯度的元学习方法，为快速适应当前任务提供了一个良好的初始化参数。然而，这些基于元学习的跟踪器并没有完全考虑到特征的鲁棒性。

目前已有大量的代表性工作奠定了目标跟踪领域的基础，例如，SINT(R.Tao,E.Gavves,A.W.Smeulders,Siamese instance search for tracking,in:Proceedingsofthe IEEE Conference on Computer Vision and Pattern Recognition,2016,pp.1420–1429.)通过学习到的匹配函数计算第一帧初始目标与当前帧候选目标之间的相似性得分，并返回最高的响应图作为预测目标。SiamFC(L.Bertinetto,J.Valmadre,J.F.Henriques,A.Vedaldi,and P.H.Torr.Fully-convolutional siamese networks forobject tracking.Proceeding of the European Conference on Computer VisionWorkshop.2016,pp.850-865.)使用完全卷积孪生网络来估计模板特征和搜索区域特征之间的相似性。此外，还有大量的后续工作，例如，SiamRPN(B.Li,J.Yan,W.Wu,Z.Zhu,X.Hu,High performance visual tracking with siamese region proposal network,in:Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,2018,pp.8971–8980.)将跟踪看成单样本局部检测，将区域候选网络加入孪生网络，改进了互相关策略，获得了优越的性能和更准确的目标尺度估计。Ocean(Z.Zhang,H.Peng,J.Fu,B.Li,W.Hu,Ocean:Object-aware anchor-free tracking,in:Proceedings of theEuropean Conference on Computer Vision,Vol.12366,2020,pp.771–787.)引入了一个特征对齐模块来适应尺度变化，并学习一个可感知对象的特征来纠正不准确的目标位置，从而动态地适应外观变化。然而，由于缺乏处理外观变化的适应能力，上述的目标跟踪方法并不能很好地泛化到测试任务中。

发明内容

本发明的目的在于提供一种基于多阶段自适应网络的鲁棒目标跟踪方法及系统，该方法及系统有利于获得更加稳定、鲁棒、准确的跟踪结果。

为实现上述目的，本发明采用的技术方案是：一种基于多阶段自适应网络的鲁棒目标跟踪方法，包括以下步骤：

S1、从视频序列数据集中随机抽取两帧图片，第一帧作为支撑集，第二帧作为查询集，重复此操作得到多对支撑集与查询集，以此构建离线训练数据集；

S2、使用元学习的多步梯度下降训练方法对离线训练数据集进行训练，得到元学习模型

S3、构建多阶段自适应网络，包括领域自适应子网、特征自适应子网和位置自适应子网三个不同自适应子网络，领域自适应子网利用元学习训练加强跟踪模型对新视频序列的泛化能力，特征自适应子网利用多层多尺度元分类器模块和对抗注意力掩码模块捕获鲁棒和判别特征信息来更新跟踪模型，位置自适应子网对初步结果进行边界框细化以增加跟踪准确度；

S4、对构建的多阶段自适应网络进行初始化训练；将测试视频中仅已知目标位置的第一帧输入到领域自适应子网，通过随机梯度下降算法对第一帧和离线训练得到的元学习模型

找到适应当前视频序列的最佳参数θ’，用于更新元特征提取器，然后将第一帧的目标特征向量输入对抗注意力掩码模块，利用生成的注意力掩码捕获原始特征中鲁棒特征，生成元对抗特征，其生成的损失反向传播用于更新元特征提取器；

S5、利用多阶段自适应网络对测试视频进行跟踪；从第二帧开始，将测试视频的当前帧输入特征自适应子网中的多层多尺度元分类器模块获得多个候选目标样本的分类得分，取平均值作为目标置信分数；如果置信分数不大于0，则认为跟踪不成功，执行重采样操作，即扩大采样的搜索区域范围，以之前跟踪成功的目标位置作为当前帧目标中心，并重新采集正负样本；如果置信分数大于0，则将分值最大的候选样本作为目标位置并采集正负样本；然后，执行边界框回归操作，将回归后的结果作为位置自适应子网的输入，通过与第一帧的特征融合操作得到最终的目标跟踪结果；跟踪过程中，每隔设定帧执行一次长时更新，将跟踪结果的特征向量输入对抗注意力掩码模块，通过对抗判别训练得到元对抗特征来计算交叉熵损失；而短时更新在置信分数不大于0时执行，其不执行对抗注意力判别模块，而是利用重新采集的正负样本直接计算交叉熵损失。

进一步地，所述步骤S2中，在支撑集上计算每一步损失，获得每一步更新后的参数，进而用更新后参数计算对应查询集上的每一步损失，将查询集上的损失求和进行总的梯度下降，从而找到模型可泛化的初始化参数θ^*。

进一步地，所述步骤S3中，所述领域自适应子网由元学习模型

和元特征提取器组成，输入为仅已知目标位置的第一帧图片，输出为第一帧目标的特征向量；所述特征自适应子网由多层多尺度元分类器模块和对抗注意力掩码模块组成，其中多层多尺度元分类器模块由特征预测网络构成，输入为第二帧开始的后续帧，输出为该帧的目标置信分数；对抗注意力掩码模块由元对抗特征生成器构成，输入为目标跟踪结果的特征向量，输出为元对抗特征；位置自适应子网由边界框回归和特征融合操作组成，输入为经过边界框回归之后的初步结果，输出为自适应后精确的目标跟踪结果。

进一步地，所述领域自适应子网中，跟踪模型根据输入第一帧图片，对其提取正负样本特征，通过softmax函数计算出置信分数，然后利用交叉熵损失函数计算出损失，进而求得梯度，通过随机梯度下降算法找到当前视频序列的最佳参数θ’，然后用于更新元特征提取器，所提取的特征用于对抗注意力掩码模块中进行对抗训练；利用元学习训练得到的初始化模型进行域适应以减少网络的过度拟合，并更新网络的卷积层参数以快速适应当前序列；通过域适应提高离线训练元学习模型的泛化能力，使模型自适应地根据给定目标调整学习率，然后找到最佳参数；当前视频序列的最佳参数通过以下公式求得：

其中，D_S是来自视频序列第一帧的训练数据，

表示参数为θ^*的元学习模型，α是学习率，

是根据第一帧损失L对θ^*计算得到的梯度值；

表示第一帧训练数据D_S经过元学习模型

得到预测值并利用交叉熵损失计算出相应损失，进而求导得到相应梯度。

进一步地，所述特征自适应子网中，对抗注意力掩码模块的输入是目标结果的特征向量，利用对抗学习生成的注意力掩码和所提取特征进行Dropout操作，输出元对抗特征；其中对抗注意力掩码模块采用高阶代价敏感损失函数来计算损失，用于更新网络模型参数；多层多尺度元分类器模块的输入是第二帧开始的后续帧图片，利用权重共享的元特征提取器对后续帧图片提取特征，并对不同卷积层输出的特征大小进行特征融合操作，然后通过全连接层输出相应分数；具体方法为：构建多层多尺度元分类器模块，将不同层和不同尺度的特征进行融合，以适应尺度变化和形变等复杂跟踪场景；

如果多层多尺度元分类器模块输出的候选样本的置信分数大于0，则将得分最高的候选样本作为位置自适应子网的输入；如果置信分数不大于0则执行短时更新；跟踪过程中，长时更新每隔十帧执行一次，通过生成器和判别器的迭代训练，利用对抗注意力掩码模块产生基于对抗学习的掩码，选择使判别器损失最大的掩码作为最新掩码；引入位置注意力机制，用来获得更有效的注意力掩码，捕获鲁棒特征以保持目标外观的变化；短时更新时执行重采样操作，即扩大搜索区域，重新采集样本，避免目标不在搜索区域内的情况；所述对抗注意力掩码模块采用的损失函数为：

L(q,c)＝-(c·(1-q)·log(q)+(1-c)·q·log(1-q))

其中c为类标签，取值0或1，q是目标对象的预测概率。

进一步地，所述位置自适应子网中，输入为经过边界框回归之后的初步结果，然后和第一帧标签进行特征融合，最终输出细化之后的精确结果；其具体方法为：首先通过多层多尺度元分类器模块得出的置信分数以确定预测结果是否可靠；如果置信分数大于0，则认为跟踪可靠，否则认为跟踪不可靠；所述位置自适应子网采用边界框回归处理跟踪可靠的帧，该网络将回归后的结果经过特征融合来细化边界框，以处理尺度变化和部分遮挡；经过细化后的边界框作为最终的跟踪结果，然后将获得的元对抗特征用于对抗掩码模块中的输入；其中边界框回归方式如下所示：

f(z,v)＝(G′_x,G′_y,G′_w,G′_h)≈(G_x,G_y,G_w,G_h)

其中z为参数，v为输入特征向量，f为映射函数，x,y,w,h为边界框坐标，G代表标签，G’为预测值。

进一步地，离线训练时学习率为0.0001。

本发明还提供了一种基于多阶段自适应网络的鲁棒目标跟踪系统，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现上述的方法步骤。

相较于现有技术，本发明具有以下有益效果：本方法及系统有效利用了三个有效的子网络，即领域自适应子网、特征自适应子网和位置自适应子网，领域自适应子网和特征自适应子网通过结合元学习和对抗性学习的优势，可以获得泛化和鲁棒的目标特征，而位置自适应子网可以对目标位置进行细化，避免漂移问题。此外，本跟踪方法可以有效地在线更新训练模型，减轻跟踪过程中的错误积累，使跟踪器对具有挑战性的场景具有更强的鲁棒性。

附图说明

图1是本发明实施例的实现流程框图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供了一种基于多阶段自适应网络的鲁棒目标跟踪方法，包括以下步骤：

S1、从视频序列数据集中随机抽取两帧图片，第一帧作为支撑集，第二帧作为查询集，重复此操作得到多对支撑集与查询集，以此构建离线训练数据集。

具体地，在支撑集上计算每一步损失，获得每一步更新后的参数，进而用更新后参数计算对应查询集上的每一步损失，将查询集上的损失求和进行总的梯度下降，从而找到模型可泛化的初始化参数θ^*。

S3、构建多阶段自适应网络，包括领域自适应子网、特征自适应子网和位置自适应子网三个不同自适应子网络，领域自适应子网利用元学习训练加强跟踪模型对新视频序列的泛化能力，特征自适应子网利用多层多尺度元分类器模块和对抗注意力掩码模块捕获鲁棒和判别特征信息来更新跟踪模型，位置自适应子网对初步结果进行边界框细化以增加跟踪准确度。

其中，所述领域自适应子网由元学习模型

找到适应当前视频序列的最佳参数θ’，用于更新元特征提取器，然后将第一帧的目标特征向量输入对抗注意力掩码模块，利用生成的注意力掩码捕获原始特征中鲁棒特征，生成元对抗特征，其生成的损失反向传播用于更新元特征提取器。

S5、利用多阶段自适应网络对测试视频进行跟踪；将测试视频的当前帧(从第二帧开始)输入特征自适应子网中的多层多尺度元分类器模块获得多个候选目标样本的分类得分，取平均值作为目标置信分数；如果置信分数不大于0，则认为跟踪不成功，执行重采样操作，即扩大采样的搜索区域范围，以之前跟踪成功的目标位置作为当前帧目标中心，并重新采集正负样本；如果置信分数大于0，则将分值最大的候选样本作为目标位置并采集正负样本；然后，执行边界框回归操作，将回归后的结果作为位置自适应子网的输入，通过与第一帧的特征融合操作得到最终的目标跟踪结果；跟踪过程中，为了使模型对目标周围环境具备自适应能力，每隔十帧执行一次长时更新，将跟踪结果的特征向量输入对抗注意力掩码模块，通过对抗判别训练得到元对抗特征来计算交叉熵损失；而短时更新在置信分数不大于0时执行，其不需要执行对抗注意力判别模块，而是利用重新采集的正负样本直接计算交叉熵损失。

所述领域自适应子网中，跟踪模型根据输入第一帧图片，对其提取正负样本特征，通过softmax函数计算出置信分数，然后利用交叉熵损失函数计算出损失，进而求得梯度，通过随机梯度下降算法找到当前视频序列的最佳参数θ’，然后用于更新元特征提取器，所提取的特征用于对抗注意力掩码模块中进行对抗训练；利用元学习训练得到的初始化模型进行域适应以减少网络的过度拟合，并更新网络的卷积层参数以快速适应当前序列；通过域适应提高离线训练元学习模型的泛化能力，使模型自适应地根据给定目标调整学习率，然后找到最佳参数；当前视频序列的最佳参数通过以下公式求得：

其中，D_S是来自视频序列第一帧的训练数据，

表示参数为θ^*的元学习模型，α是学习率，

是根据第一帧损失L对θ^*计算得到的梯度值；

表示第一帧训练数据D_S经过元学习模型

所述特征自适应子网中，对抗注意力掩码模块的输入是目标结果的特征向量，利用对抗学习生成的注意力掩码和所提取特征进行Dropout操作，输出元对抗特征；其中对抗注意力掩码模块采用高阶代价敏感损失函数来计算损失，用于更新网络模型参数；多层多尺度元分类器模块的输入是第二帧开始的后续帧图片，利用权重共享的元特征提取器对后续帧图片提取特征，并对不同卷积层输出的特征大小进行特征融合操作，然后通过全连接层输出相应分数；具体方法为：构建多层多尺度元分类器模块，将不同层和不同尺度的特征进行融合，以适应尺度变化和形变等复杂跟踪场景；具体地，将当前帧输入到该模块中，可以提取到不同卷积层的特征大小，第一层为96*25*25，第二层为256*5*5，第三层为512*3*3，将三层卷积后的特征融合输入全连接层得到目标置信分数用来判断更新方式；如果多层多尺度元分类器模块输出的候选样本的置信分数大于0，则将得分最高的候选样本作为位置自适应子网的输入；如果置信分数不大于0则执行短时更新；跟踪过程中，长时更新每隔十帧执行一次，通过生成器和判别器的迭代训练，利用对抗注意力掩码模块产生基于对抗学习的掩码，选择使判别器损失最大的掩码作为最新掩码；引入位置注意力机制，用来获得更有效的注意力掩码，捕获鲁棒特征以保持目标外观的变化；短时更新时需要执行重采样操作，即扩大搜索区域，重新采集样本，避免目标不在搜索区域内的情况；所述对抗注意力掩码模块采用的损失函数为：

L(q,c)＝-(c·(1-q)·log(q)+(1-c)·q·log(1-q))

其中c为类标签(取值0或1)，q是目标对象的预测概率。

所述位置自适应子网中，输入为经过边界框回归之后的初步结果，然后和第一帧标签进行特征融合，最终输出细化之后的精确结果；其具体方法为：首先通过多层多尺度元分类器模块得出的置信分数以确定预测结果是否可靠；如果置信分数大于0，则认为跟踪可靠，否则认为跟踪不可靠；所述位置自适应子网采用边界框回归处理跟踪可靠的帧，该网络将回归后的结果经过特征融合来细化边界框，以在一定程度上处理尺度变化和部分遮挡；经过细化后的边界框作为最终的跟踪结果，然后将获得的元对抗特征用于对抗掩码模块中的输入；实际应用中也可以每帧使用一次对抗注意力掩码模块，这样可以提升跟踪精度；其中边界框回归方式如下所示：

f(z,v)＝(G′_x,G′_y,G′_w,G′_h)≈(G_x,G_y,G_w,G_h)

在本实施例中，离线训练时学习率为0.0001。

本实施例还提供了一种基于多阶段自适应网络的鲁棒目标跟踪系统，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现上述的方法步骤。

本实施例中，采用了OTB100数据集进行对比验证，表1中展示出在OTB100数据集上本发明提出的方法与其他目标跟踪方法的对比结果。从表1中可以看到，本发明方法相比于其他目标跟踪方法有较高的精确性和鲁棒性，具体体现为精度和成功率最佳。

表1

在表1中，TransT对应为X.Chen等人提出的方法(X.Chen,B.Yan,J.Zhu,D.Wang,X.Yang,H.Lu,Transformer tracking,in:Proceedings ofthe IEEE Conference onComputer Vision and Pattern Recognition(CVPR),2021,pp.8126–8135.)

SiamRCNN对应为P.Voigtlaender等人提出的方法(P.Voigtlaender,J.Luiten,P.H.S.Torr,B.Leibe,Siam R-CNN:visual tracking by re-detection,in:Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition,2020,pp.6577–6587.)

DaSiamRPN对应为Z.Zhu等人提出的方法(Z.Zhu,Q.Wang,B.Li,W.Wu,J.Yan,W.Hu,Distractor-aware siamese networks for visual object tracking,in:Proceedingsof the European Conference on Computer Vision,Vol.11213,2018,pp.103–119.)

SiamRPN对应为B.Li等人提出的方法(B.Li,J.Yan,W.Wu,Z.Zhu,X.Hu,Highperformance visual tracking with siamese region proposal network,in:Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition,2018,pp.8971–8980.)

GradNet对应为P.Li等人提出的方法(P.Li,B.Chen,W.Ouyang,D.Wang,X.Yang,H.Lu,Gradnet:Gradientguided network for visual object tracking,in:Proceedingsofthe IEEE International Conference on ComputerVision,2019,pp.6162–6171.)

DeepSRDCF对应为M.Danelljan等人提出的方法(M.Danelljan,G.Hager,F.Shahbaz Khan,M.Felsberg,Convolutional features for correlation filter basedvisual tracking,in:Proceedings ofthe IEEE International Conference onComputer Vision Workshops,2015,pp.58–66.)

SiamDW对应为Z.Zhang等人提出的方法(Z.Zhang,H.Peng,Deeper and widersiamese networks for real-time visual tracking,in:Proceedings of the IEEEConference on ComputerVision and Pattern Recognition,2019,pp.4591–4600.)

SiamFC对应为L.Bertinetto等人提出的方法(L.Bertinetto,J.Valmadre,J.F.Henriques,A.Vedaldi,P.H.Torr,Fully-convolutional siamese networks forobject tracking,in:Proceedings of the European Conference on Computer VisionWorkshops,2016,pp.850–865.)

UDT对应为N.Wang等人提出的方法(N.Wang,Y.Song,C.Ma,W.Zhou,W.Liu,H.Li,Unsupervised deep tracking,in:Proceedings ofthe IEEE Conference on ComputerVision andPattern Recognition,2019,pp.1308–1317.)

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于多阶段自适应网络的鲁棒目标跟踪方法，其特征在于，包括以下步骤：

S2、使用元学习的多步梯度下降训练方法对离线训练数据集进行训练，得到元学习模型f_θ*；

S4、对构建的多阶段自适应网络进行初始化训练；将测试视频中仅已知目标位置的第一帧输入到领域自适应子网，通过随机梯度下降算法对第一帧和离线训练得到的元学习模型f_θ*找到适应当前视频序列的最佳参数θ’，用于更新元特征提取器，然后将第一帧的目标特征向量输入对抗注意力掩码模块，利用生成的注意力掩码捕获原始特征中鲁棒特征，生成元对抗特征，其生成的损失反向传播用于更新元特征提取器；

2.根据权利要求1所述的基于多阶段自适应网络的鲁棒目标跟踪方法，其特征在于，所述步骤S2中，在支撑集上计算每一步损失，获得每一步更新后的参数，进而用更新后参数计算对应查询集上的每一步损失，将查询集上的损失求和进行总的梯度下降，从而找到模型可泛化的初始化参数θ^*。

3.根据权利要求1所述的基于多阶段自适应网络的鲁棒目标跟踪方法，其特征在于，所述步骤S3中，所述领域自适应子网由元学习模型f_θ*和元特征提取器组成，输入为仅已知目标位置的第一帧图片，输出为第一帧目标的特征向量；所述特征自适应子网由多层多尺度元分类器模块和对抗注意力掩码模块组成，其中多层多尺度元分类器模块由特征预测网络构成，输入为第二帧开始的后续帧，输出为该帧的目标置信分数；对抗注意力掩码模块由元对抗特征生成器构成，输入为目标跟踪结果的特征向量，输出为元对抗特征；位置自适应子网由边界框回归和特征融合操作组成，输入为经过边界框回归之后的初步结果，输出为自适应后精确的目标跟踪结果。

4.根据权利要求3所述的基于多阶段自适应网络的鲁棒目标跟踪方法，其特征在于，所述领域自适应子网中，跟踪模型根据输入第一帧图片，对其提取正负样本特征，通过softmax函数计算出置信分数，然后利用交叉熵损失函数计算出损失，进而求得梯度，通过随机梯度下降算法找到当前视频序列的最佳参数θ’，然后用于更新元特征提取器，所提取的特征用于对抗注意力掩码模块中进行对抗训练；利用元学习训练得到的初始化模型进行域适应以减少网络的过度拟合，并更新网络的卷积层参数以快速适应当前序列；通过域适应提高离线训练元学习模型的泛化能力，使模型自适应地根据给定目标调整学习率，然后找到最佳参数；当前视频序列的最佳参数通过以下公式求得：

其中，D_S是来自视频序列第一帧的训练数据，f_θ*表示参数为θ^*的元学习模型，α是学习率，

是根据第一帧损失L对θ^*计算得到的梯度值；L(f_θ*,D_S)表示第一帧训练数据D_S经过元学习模型f_θ*得到预测值并利用交叉熵损失计算出相应损失，进而求导得到相应梯度。

5.根据权利要求3所述的基于多阶段自适应网络的鲁棒目标跟踪方法，其特征在于，所述特征自适应子网中，对抗注意力掩码模块的输入是目标结果的特征向量，利用对抗学习生成的注意力掩码和所提取特征进行Dropout操作，输出元对抗特征；其中对抗注意力掩码模块采用高阶代价敏感损失函数来计算损失，用于更新网络模型参数；多层多尺度元分类器模块的输入是第二帧开始的后续帧图片，利用权重共享的元特征提取器对后续帧图片提取特征，并对不同卷积层输出的特征大小进行特征融合操作，然后通过全连接层输出相应分数；具体方法为：构建多层多尺度元分类器模块，将不同层和不同尺度的特征进行融合，以适应尺度变化和形变等复杂跟踪场景；如果多层多尺度元分类器模块输出的候选样本的置信分数大于0，则将得分最高的候选样本作为位置自适应子网的输入；如果置信分数不大于0则执行短时更新；跟踪过程中，长时更新每隔十帧执行一次，通过生成器和判别器的迭代训练，利用对抗注意力掩码模块产生基于对抗学习的掩码，选择使判别器损失最大的掩码作为最新掩码；引入位置注意力机制，用来获得更有效的注意力掩码，捕获鲁棒特征以保持目标外观的变化；短时更新时执行重采样操作，即扩大搜索区域，重新采集样本，避免目标不在搜索区域内的情况；所述对抗注意力掩码模块采用的损失函数为：

L(q,c)＝-(c·(1-q)·log(q)+(1-c)·q·log(1-q))

其中c为类标签，取值0或1，q是目标对象的预测概率。

6.根据权利要求3所述的基于多阶段自适应网络的鲁棒目标跟踪方法，其特征在于，所述位置自适应子网中，输入为经过边界框回归之后的初步结果，然后和第一帧标签进行特征融合，最终输出细化之后的精确结果；其具体方法为：首先通过多层多尺度元分类器模块得出的置信分数以确定预测结果是否可靠；如果置信分数大于0，则认为跟踪可靠，否则认为跟踪不可靠；所述位置自适应子网采用边界框回归处理跟踪可靠的帧，该网络将回归后的结果经过特征融合来细化边界框，以处理尺度变化和部分遮挡；经过细化后的边界框作为最终的跟踪结果，然后将获得的元对抗特征用于对抗掩码模块中的输入；其中边界框回归方式如下所示：

f(z,v)＝(G′_x,G′_y,G′_w,G′_h)≈(G_x,G_y,G_w,G_h)

7.根据权利要求1所述的基于多阶段自适应网络的鲁棒目标跟踪方法，其特征在于，离线训练时学习率为0.0001。

8.一种基于多阶段自适应网络的鲁棒目标跟踪系统，其特征在于，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如权利要求1-7所述的方法步骤。