CN116433727A

CN116433727A - 一种基于阶段性持续学习的可伸缩单流追踪方法

Info

Publication number: CN116433727A
Application number: CN202310691919.9A
Authority: CN
Inventors: 刘红敏; 蔡越峰; 徐婧林; 樊彬
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2023-06-13
Filing date: 2023-06-13
Publication date: 2023-07-14
Anticipated expiration: 2043-06-13
Also published as: CN116433727B

Abstract

本发明涉及视觉目标追踪技术领域，特别是指一种基于阶段性持续学习的可伸缩单流追踪方法。一种基于阶段性持续学习的可伸缩单流追踪方法包括：获取搜索图像以及模板图像，对搜索图像以及模板图像进行处理，获得输入图像；将输入图像进行特征向量化处理，获得向量化特征；基于向量化特征，通过交互窗口自注意力模块以及动态混合注意力模块，获得目标图像特征；根据目标图像特征，通过分类头以及回归头，获得输出图像；根据输出图像，在目标时序运动中进行目标追踪。本发明是一种基于阶段间持续学习具备优秀前后景区分能力的追踪方法。

Description

一种基于阶段性持续学习的可伸缩单流追踪方法

技术领域

本发明涉及视觉目标追踪技术领域，特别是指一种基于阶段性持续学习的可伸缩单流追踪方法及装置。

背景技术

视觉跟踪是计算机视觉领域的一个基础性研究课题。近些年，视觉跟踪算法结合如今的人工智能热潮，如神经网络和相关滤波器等方法，并取得了更加鲁棒、精确、稳定的追踪结果。目标追踪是以视觉为主导的任务中一个经典的研究方向，要求在连续的视频帧序列中依靠算法根据被追踪物体的第一帧位置信息，预测得到追踪物体在未来视频帧中的位置信息。单目标跟踪领域内更多地侧重解决一个类别不可知的单一目标物体的追踪问题，对于从未在训练集中出现过的目标也可以通过追踪器持续地进行跟踪。针对运动中的目标进行跟踪是一项极具挑战性的任务，因为对处于运动中的目标来说，其本身在不断变化，所在场景也十分复杂且时常发生变化。因此，在复杂多样的场景中准确跟踪不断变化的目标成为研究人员所面对的挑战。目前基于transformer的跟踪算法通常分为两种类型:两流结构和单流结构，标准的两流结构意味着整个过程包括两个连续的步骤：特征提取和关系建模。单流结构的管道组合特性，可以将特征抽取和关系建模整合到一个统一的框架中，结构简洁，性能优越。

但现有的单流跟踪器缺乏区分前景和背景的能力，导致对对象的特征提取不敏感，这在跟踪任务中仍然至关重要。存在的主要问题在于：矩阵维度固定，前后景区分能力差；特征提取与特征交互同时进行，缺乏阶段性学习能力。目前常见的单流跟踪框架大多是直接将模板和搜索图像拼接起来，输入到transformer的结构网络中进行特征提取和信息交互。由于直接使用自注意力或交叉注意力操作，结构单一，目标难以区分。更严重的是，目标信息和上下文线索的转移很容易导致灾难性遗忘，导致特征提取和信息交互的丧失。

在现有技术中，缺乏一种基于阶段间持续学习具备优秀前后景区分能力的追踪方法。

发明内容

本发明实施例提供了一种基于阶段性持续学习的可伸缩单流追踪方法及装置。所述技术方案如下：

一方面，提供了一种基于阶段性持续学习的可伸缩单流追踪方法，该方法由电子设备实现，该方法包括：

S1、获取搜索图像以及模板图像，对所述搜索图像以及模板图像进行处理，获得输入图像；

S2、将所述输入图像进行特征向量化处理，获得向量化特征；

S3、基于所述向量化特征，通过交互窗口自注意力模块以及动态混合注意力模块，获得目标图像特征；

S4、根据所述目标图像特征，通过分类头以及回归头，获得输出图像；

S5、根据所述输出图像，在目标时序运动中进行目标追踪。

其中，所述模板图像包括固定模板以及动态模板。

可选地，所述将所述输入图像进行特征向量化处理，获得向量化特征，包括：

对所述输入图像进行分块处理，获得小块输入图像；

将所述小块输入图像进行向量化处理，获得小块向量化特征；

将所述小块向量化特征进行拼接，获得向量化特征。

可选地，所述基于所述向量化特征，通过交互窗口自注意力模块以及动态混合注意力模块，获得目标图像特征，包括：

S31、设置特征混合阶段数为4，当前特征混合阶段数为i,令i=1；

S32、判断i是否大于4，如果i大于4，则执行步骤S35，如果i小于等于4，则执行步骤S33；

S33、将向量化特征，输入交互窗口自注意力模块以及动态混合注意力模块，获得混合图像特征；

S34、将获得的混合图像特征，确定为新的向量化特征，令i=i+1；执行步骤S32；

S35、根据所述混合图像特征以及所述向量化特征进行特征筛选，获得目标图像特征。

可选地，所述将向量化特征，输入交互窗口自注意力模块以及动态混合注意力模块，获得混合图像特征，包括：

将所述向量化特征输入交互窗口自注意力模块进行特征提取，获得输入图像特征；

将所述输入图像特征输入动态混合注意力模块进行特征交互，获得混合图像特征。

可选地，所述将所述向量化特征输入交互窗口自注意力模块进行特征提取，获得输入图像特征，包括：

将所述向量化特征进行自注意力计算，得到交互自注意力特征；

将所述交互自注意力特征进行拼接，获得拼接交互自注意力特征；

根据所述向量化特征，获得交互Value矩阵；

将所述交互Value矩阵进行拼接，获得拼接交互Value特征；

将所述拼接交互Value特征，通过卷积的形式进行聚合，获得聚合Value特征；

将所述拼接交互自注意力特征和所述聚合Value特征，在对应的像素点上进行叠加，获得输入图像特征。

可选地，所述将所述输入图像特征输入动态混合注意力模块进行特征交互，获得混合图像特征，包括：

将所述输入图像特征进行划分，获得搜索图像特征和模板特征；

根据所述搜索图像特征，获得搜索图像Query矩阵、搜索图像Key矩阵和搜索图像Value矩阵；

根据所述模板特征，获得模板Query矩阵、模板Key矩阵和模板Value矩阵；

将所述搜索图像Query矩阵、所述搜索图像Key矩阵、所述模板Query矩阵和所述模板Key矩阵进行通道扩展，获得扩展搜索图像Query矩阵、扩展搜索图像Key矩阵、扩展模板Query矩阵和扩展模板Key矩阵；

将所述扩展搜索图像Key矩阵、所述搜索图像Value矩阵、所述扩展模板Key矩阵和所述模板Value矩阵通过卷积进行空间收缩，获得收缩搜索图像Key矩阵、收缩搜索图像Value矩阵、收缩模板Key矩阵和收缩模板Value矩阵；

将所述收缩搜索图像Key矩阵以及所述收缩模板Key矩阵进行拼接，获得拼接Key矩阵；

将所述收缩搜索图像Value矩阵以及所述收缩模板Value矩阵进行拼接，获得拼接Value矩阵；

根据所述扩展搜索图像Query矩阵、所述拼接Key矩阵和所述拼接Value矩阵进行自注意力计算，得到搜索图像自注意力特征；

根据所述扩展模板Query矩阵、所述收缩Key矩阵和所述收缩Value矩阵进行自注意力计算，得到模板自注意力特征；

将所述搜索图像自注意力特征以及所述模板自注意力特征，按照划分顺序进行拼接，获得混合图像特征。

可选地，所述根据所述目标图像特征，通过分类头以及回归头，获得输出图像，包括：

将所述目标图像特征输入分类头，获得目标位置；

将所述目标图像特征输入回归头，获得目标框的长宽尺度；

根据所述目标位置以及所述目标框的长宽尺度，获得输出图像。

可选地，所述获得输出图像之后，所述方法还包括：

对所述输出图像进行评价，获得输出评价数值；

将所述输出评价数值和预设输出阈值进行对比，当所述输出评价数值大于或等于预设输出阈值时，将所述输出图像作为新的动态模板，并更新动态模板；

当所述输出评价数值小于预设输出阈值时，动态模板不进行更新。

另一方面，提供了一种基于阶段性持续学习的可伸缩单流追踪装置，该装置应用于一种基于阶段性持续学习的可伸缩单流追踪方法，该装置包括：

图像输入模块，用于获取搜索图像以及模板图像，对所述搜索图像以及模板图像进行处理，获得输入图像；

图像向量化模块，用于将所述输入图像进行特征向量化处理，获得向量化特征；

目标特征获取模块，用于基于所述向量化特征，通过交互窗口自注意力模块以及动态混合注意力模块，获得目标图像特征；

图像输出模块，用于根据所述目标图像特征，通过分类头以及回归头，获得输出图像；

目标追踪模块，用于根据所述输出图像，在目标时序运动中进行目标追踪。

其中，所述模板图像包括固定模板以及动态模板。

可选地，所述图像向量化模块，进一步用于：

对所述输入图像进行分块处理，获得小块输入图像；

将所述小块向量化特征进行拼接，获得向量化特征。

可选地，所述目标特征获取模块，进一步用于：

根据所述向量化特征，获得交互Value矩阵；

将所述交互Value矩阵进行拼接，获得拼接交互Value特征；

可选地，所述目标特征获取模块，进一步用于：

可选地，所述图像输出模块，进一步用于：

将所述目标图像特征输入分类头，获得目标位置；

将所述目标图像特征输入回归头，获得目标框的长宽尺度；

可选地，所述图像输出模块，还用于：

对所述输出图像进行评价，获得输出评价数值；

另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述一种基于阶段性持续学习的可伸缩单流追踪方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述一种基于阶段性持续学习的可伸缩单流追踪方法。

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明提出一种基于阶段性持续学习的可伸缩单流追踪方法，通过动态混合注意力模块将可伸缩的注意力引入到目标追踪框架中，实现的前景与背景的有效区分；基于动态混合注意力模块和交互窗口自注意力模块，实现的前景与背景的有效区分。本发明是一种基于阶段间持续学习具备优秀前后景区分能力的追踪方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于阶段性持续学习的可伸缩单流追踪方法流程图；

图2是本发明实施例提供的一种交互窗口自注意力模块示意图；

图3是本发明实施例提供的一种动态混合注意力模块示意图；

图4是本发明实施例提供的一种基于阶段性持续学习的可伸缩单流追踪装置框图；

图5是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明实施例提供了一种基于阶段性持续学习的可伸缩单流追踪方法，该方法可以由电子设备实现，该电子设备可以是终端或服务器。如图1所示的一种基于阶段性持续学习的可伸缩单流追踪方法流程图，该方法的处理流程可以包括如下的步骤：

S1、获取搜索图像以及模板图像，对搜索图像以及模板图像进行处理，获得输入图像。

其中，模板图像包括固定模板以及动态模板。

一种可行的实施方式中，在单目标跟踪中，模板的质量在很大程度上决定了跟踪的精度。然而，随着时间的推移，被跟踪的对象可能会发生明显的变形，这可能导致低质量的跟踪，甚至使用固定模板跟踪失败。因此，我们将模板图像设置为两幅图像:视频序列第一帧的模板图像和随推理变化的动态变化的模板图像。其中，动态模板的初始图像和固定模板一致。

S2、将输入图像进行特征向量化处理，获得向量化特征。

可选地，将输入图像进行特征向量化处理，获得向量化特征，包括：

对输入图像进行分块处理，获得小块输入图像；

将小块输入图像进行向量化处理，获得小块向量化特征；

将小块向量化特征进行拼接，获得向量化特征。

一种可行的实施方式中，当图像输入时，对图像采取预处理，即对图像的裁剪和缩放。对预处理后的输入图像、模板图像中的固定模板、模板图像中的动态模板进行分块，并对每一类别的图像的每个小块分别进行向量化处理，得到小块向量化特征，将输入图像和模板图像的小块向量化特征进行拼接，最终得到向量化特征。

S3、基于向量化特征，通过交互窗口自注意力模块以及动态混合注意力模块，获得目标图像特征。

一种可行的实施方式中，目前流行的单流跟踪框架大多是直接将模板和搜索图像拼接起来，输入到变压器结构网络中进行特征提取和信息交互。由于直接使用自注意或交叉注意，结构单一，角色难以区分。更严重的是，目标信息和上下文线索的转移很容易导致灾难性遗忘，导致特征提取和信息交互的丧失。

本发明提出了一种新的阶段间持续学习策略在阶段之间架起上下文线索和跟踪对象之间的桥梁，旨在解决当前单流框架缺乏像人一样的环境适应能力和持续学习能力，避免跟踪框架中目标信息的灾难性丢失。

可选地，基于向量化特征，通过交互窗口自注意力模块以及动态混合注意力模块，获得目标图像特征，包括：

S35、根据混合图像特征以及向量化特征进行特征筛选，获得目标图像特征。

一种可行的实施方式，在本发明中输入图像由两个模板和一个搜索图像组成。总体框架由Transformer模块的4个阶段组成，其中包括交互窗口自注意力模块和动态混合注意力模块。在每个阶段，首先使用卷积补丁嵌入层获得一组令牌，该令牌降低分辨率并将通道维度增加。然后，将这些初始令牌输入到不同数量的交互窗口自注意力模块和动态混合注意力模块中，它们相互指导特征提取和信息融合。两种块均采用标准的transformer编码器形式，将多头注意力替换为相应的自注意力或混合注意力的形式。

可选地，将向量化特征，输入交互窗口自注意力模块以及动态混合注意力模块，获得混合图像特征，包括：

将向量化特征输入交互窗口自注意力模块进行特征提取，获得输入图像特征；

将输入图像特征输入动态混合注意力模块进行特征交互，获得混合图像特征。

一种可行的实施方式中，在获得最终的混合图像特征的过程中，在上述步骤4个阶段的每个阶段，交互窗口自注意力模块聚合来自不同补丁的信息以增强全局感知，而动态混合注意力模块（通过混合注意链接可扩展特征以突出前景信息。

在阶段间连续学习策略中，特征提取和信息交互交替学习。当其中一个过程被遗忘时，它可以通过交替学习过程迅速得到巩固，从而避免特定过程的学习损失。这种方法保证了整体学习的效率，从而避免了目标信息的灾难性丢失。经过四个阶段的不断学习，得到对目标敏感的搜索区域特征图。由于持续学习策略，特征映射将具有判别性的全局表示。

可选地，将向量化特征输入交互窗口自注意力模块进行特征提取，获得输入图像特征，包括：

将向量化特征进行自注意力计算，得到交互自注意力特征；

将交互自注意力特征进行拼接，获得拼接交互自注意力特征；

根据向量化特征，获得交互Value矩阵；

将交互Value矩阵进行拼接，获得拼接交互Value特征；

将拼接交互Value特征，通过卷积的形式进行聚合，获得聚合Value特征；

将拼接交互自注意力特征和聚合Value特征，在对应的像素点上进行叠加，获得输入图像特征。

一种可行的实施方式中，在使用窗口的transformer结构会导致全局信息在非重叠的块中丢失。本发明使用卷积运算对自注意中的值矩阵进行无重叠的块信息聚合，如图2所示。由于该方法不影响值矩阵的大小，因此可以直接应用于多头注意结构。修改后的自注意力计算方法如下式（1）所示:

（1）

其中Φ为聚合函数，将不重叠的块归并为同一块。Qi为阶段i输入图像的Query特征矩阵；Ki为阶段i输入图像的Key特征矩阵；Vi为阶段i输入图像的Value特征矩阵；φ是一个卷积运算，具体的计算方法是使用的深度卷积。

对于不同块的位置信息，我们使用位置编码生成器获得隐式位置信息。在每个阶段的动态混合注意力模块和交互窗口自注意力模块之间插入条件编码生成器模块（Positional Encoding Generator，PEG）。这将两个区块的不同功能连接起来，通过自关注和交叉关注的相互引导，将特征提取和信息整合统一起来。

可选地，将输入图像特征输入动态混合注意力模块进行特征交互，获得混合图像特征，包括：

将输入图像特征进行划分，获得搜索图像特征和模板特征；

根据搜索图像特征，获得搜索图像Query矩阵、搜索图像Key矩阵和搜索图像Value矩阵；

根据模板特征，获得模板Query矩阵、模板Key矩阵和模板Value矩阵；

将搜索图像Query矩阵、搜索图像Key矩阵、模板Query矩阵和模板Key矩阵进行通道扩展，获得扩展搜索图像Query矩阵、扩展搜索图像Key矩阵、扩展模板Query矩阵和扩展模板Key矩阵；

将扩展搜索图像Key矩阵、搜索图像Value矩阵、扩展模板Key矩阵和模板Value矩阵通过卷积进行空间收缩，获得收缩搜索图像Key矩阵、收缩搜索图像Value矩阵、收缩模板Key矩阵和收缩模板Value矩阵；

将收缩搜索图像Key矩阵以及收缩模板Key矩阵进行拼接，获得拼接Key矩阵；

将收缩搜索图像Value矩阵以及收缩模板Value矩阵进行拼接，获得拼接Value矩阵；

根据扩展搜索图像Query矩阵、拼接Key矩阵和拼接Value矩阵进行自注意力计算，得到搜索图像自注意力特征；

根据扩展模板Query矩阵、收缩Key矩阵和收缩Value矩阵进行自注意力计算，得到模板自注意力特征；

将搜索图像自注意力特征以及模板自注意力特征，按照划分顺序进行拼接，获得混合图像特征。

一种可行的实施方式中，动态混合注意力模块示意图如图3所示，本发明的模型图像采用两个模板z1, z2来表示固定模板和动态模板，和一个更大的搜索图像x作为输入。在卷积嵌入层中，将输入图像分别馈送到卷积层中，并进行层归一化处理。然后将输入图像映射到嵌入特征fz1, fz2与fx。

现有大多数基于变压器的单流跟踪器在不同阶段采用固定的计算维数，导致查询、键和值矩阵的维数固定不变。常见的自我关注的数学表达式可以表示为下式（2）:

（2）

其中，Q、K、V表示Query矩阵、Key矩阵和Value矩阵。这种固定的特征限制了网络的学习能力，不同的阶段不能产生特定于阶段的学习能力。

因此，本发明提出了两个可扩展的特征函数，使特征维度具有可扩展性，并将其与输入接触绑定，从而获得判别性的全局表示。通道扩展器Fc将通道维度从C调整到C′，以学习完整的对象敏感表示，同时保持面向上下文的泛化。其中C为预先设置通道维数，C′为根据reshape函数进行放缩得到。

空间收缩器Fn将特征的空间维度从N缩放到N '，通过消除不必要的中间乘法操作来降低计算复杂度。这样，通过变换Fn和Fc，可以动态缩放查询矩阵、键矩阵和值矩阵在每个阶段的空间维度和通道维度，以适应不同阶段的特征分布和学习需求，从而增强网络的学习能力和泛化性能。具体来说，函数Fn使用深度可分离卷积实现，而函数Fc使用线性映射函数实现。变换后的自注意力计算如下式（3）所示:

（3）

其中，Q′=Fc(X)， K′=Fc(Fn(X))， V′=Fn(X)分别是输入X的缩放后的查询矩阵、键矩阵和值矩阵。由于转换不影响输入输出的大小，因此可以直接应用于多头注意结构。在分层变压器结构中，利用可扩展特征，使网络能够提取不同层次的特征，从而突出目标信息，提高区分目标和背景的能力。

基于可伸缩的特征，本发明采用自注意与交叉注意相结合的方式实现模板图像与搜索图像之间的信息交互。通过对搜索图像的查询矩阵与模板的键值矩阵进行交叉注意操作，更侧重于两幅图像之间的交互。混合关注可以更好地实现特征提取和特征融合的紧密结合。

S4、根据目标图像特征，通过分类头以及回归头，获得输出图像。

可选地，根据目标图像特征，通过分类头以及回归头，获得输出图像，包括：

将目标图像特征输入分类头，获得目标位置；

将目标图像特征输入回归头，获得目标框的长宽尺度；

根据目标位置以及目标框的长宽尺度，获得输出图像。

一种可行的实施方式中，根据上述步骤获得所要跟踪图像的目标图像特征，基于目标图像特征通过卷积的方式，使用分类头和回归头来估计目标位置和目标盒大小，在拍摄的视频中，根据目标位置和目标盒大小最终确定跟踪目标。

可选地，获得输出图像之后，方法还包括：

对输出图像进行评价，获得输出评价数值；

将输出评价数值和预设输出阈值进行对比，当输出评价数值大于或等于预设输出阈值时，将输出图像作为新的动态模板，并更新动态模板；

当输出评价数值小于预设输出阈值时，动态模板不进行更新。

一种可行的实施方式中，在本发明中动态模板的生成由一个预设的单独模板评估分支决定。利用两个Transformer块和一个感知器，对固定模板的特征与跟踪结果进行相似性度量。在固定的时间间隔内，选取相似度最高的搜索图像的感兴趣区域作为动态模板进行动态模板更新。

S5、根据输出图像，在目标时序运动中进行目标追踪。

一种可行的实施方式中，大量的实验表明，本发明的ScalableTrack目标跟踪框架在短期和长期跟踪数据基准上均获得了最先进的性能。通过将可伸缩的特征引入到追踪框架中，在GOT-10K数据集上目标跟踪成功率达到73.7%，在TrackingNet数据集上成功率达到84.1%，均为目前单目标追踪算法的最好效果。本发明达到实时速度，其参数和计算复杂度低于同类方法。

图4是根据一示例性实施例示出的一种基于阶段性持续学习的可伸缩单流追踪装置框图。参照图4，该装置包括：

图像输入模块410，用于获取搜索图像以及模板图像，对搜索图像以及模板图像进行处理，获得输入图像；

图像向量化模块420，用于将输入图像进行特征向量化处理，获得向量化特征；

目标特征获取模块430，用于基于向量化特征，通过交互窗口自注意力模块以及动态混合注意力模块，获得目标图像特征；

图像输出模块440，用于根据目标图像特征，通过分类头以及回归头，获得输出图像；

目标追踪模块450，用于根据输出图像，在目标时序运动中进行目标追踪。

其中，模板图像包括固定模板以及动态模板。

可选地，图像向量化模块420，进一步用于：

对输入图像进行分块处理，获得小块输入图像；

将小块输入图像进行向量化处理，获得小块向量化特征；

将小块向量化特征进行拼接，获得向量化特征。

可选地，目标特征获取模块430，进一步用于：

将向量化特征进行自注意力计算，得到交互自注意力特征；

根据向量化特征，获得交互Value矩阵；

将交互Value矩阵进行拼接，获得拼接交互Value特征；

可选地，目标特征获取模块430，进一步用于：

将输入图像特征进行划分，获得搜索图像特征和模板特征；

可选地，图像输出模块440，进一步用于：

将目标图像特征输入分类头，获得目标位置；

将目标图像特征输入回归头，获得目标框的长宽尺度；

根据目标位置以及目标框的长宽尺度，获得输出图像。

可选地，图像输出模块，还用于：

对输出图像进行评价，获得输出评价数值；

图5是本发明实施例提供的一种电子设备500的结构示意图，该电子设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（centralprocessing units，CPU）501和一个或一个以上的存储器502，其中，所述存储器502中存储有至少一条指令，所述至少一条指令由所述处理器501加载并执行以实现上述一种基于阶段性持续学习的可伸缩单流追踪方法的步骤。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述一种基于阶段性持续学习的可伸缩单流追踪方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于阶段性持续学习的可伸缩单流追踪方法，其特征在于，所述方法包括：

S5、根据所述输出图像，在目标时序运动中进行目标追踪。

2.根据权利要求1所述的一种基于阶段性持续学习的可伸缩单流追踪方法，其特征在于，所述模板图像包括固定模板以及动态模板。

3.根据权利要求1所述的一种基于阶段性持续学习的可伸缩单流追踪方法，其特征在于，所述将所述输入图像进行特征向量化处理，获得向量化特征，包括：

对所述输入图像进行分块处理，获得小块输入图像；

将所述小块向量化特征进行拼接，获得向量化特征。

4.根据权利要求1所述的一种基于阶段性持续学习的可伸缩单流追踪方法，其特征在于，所述基于所述向量化特征，通过交互窗口自注意力模块以及动态混合注意力模块，获得目标图像特征，包括：

5.根据权利要求4所述的一种基于阶段性持续学习的可伸缩单流追踪方法，其特征在于，所述将向量化特征，输入交互窗口自注意力模块以及动态混合注意力模块，获得混合图像特征，包括：

6.根据权利要求5所述的一种基于阶段性持续学习的可伸缩单流追踪方法，其特征在于，所述将所述向量化特征输入交互窗口自注意力模块进行特征提取，获得输入图像特征，包括：

根据所述向量化特征，获得交互Value矩阵；

将所述交互Value矩阵进行拼接，获得拼接交互Value特征；

7.根据权利要求5所述的一种基于阶段性持续学习的可伸缩单流追踪方法，其特征在于，所述将所述输入图像特征输入动态混合注意力模块进行特征交互，获得混合图像特征，包括：

8.根据权利要求1所述的一种基于阶段性持续学习的可伸缩单流追踪方法，其特征在于，所述根据所述目标图像特征，通过分类头以及回归头，获得输出图像，包括：

将所述目标图像特征输入分类头，获得目标位置；

将所述目标图像特征输入回归头，获得目标框的长宽尺度；

9.根据权利要求1所述的一种基于阶段性持续学习的可伸缩单流追踪方法，其特征在于，所述获得输出图像之后，所述方法还包括：

对所述输出图像进行评价，获得输出评价数值；

10.一种基于阶段性持续学习的可伸缩单流追踪装置，其特征在于，所述装置包括：