CN117173219A

CN117173219A - 一种基于可提示的分割模型的视频目标跟踪方法

Info

Publication number: CN117173219A
Application number: CN202311240754.XA
Authority: CN
Inventors: 刘勇; 侯晓军; 王蒙蒙
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-09-25
Filing date: 2023-09-25
Publication date: 2023-12-05

Abstract

本发明属于视频目标跟踪技术领域，提出了一种基于可提示的分割模型的视频目标跟踪方法，包括以下步骤：S1、构建视频单目标跟踪编码器‑特征增强‑解码器范式；S2、构建一种基于可提示的分割模型的编码器；S3、构建模板和搜索区域特征的自注意力增强单元；S4、构建目标导向的前景提示单元；S5、构建一种可自优化的目标框解码器；S6、构建包含S1‑S5的单目标跟踪模型后在服务器上对所述单目标跟踪模型进行训练，通过降低网络损失函数的总体损失值，优化网络参数，直至网络收敛；S7、利用训练好的网络模型对待跟踪的视频序列中指定的单个目标进行跟踪。本发明能够在复杂场景中鲁棒高效地实现视频单目标跟踪，和其他方法相比取得了更好的目标跟踪效果。

Description

一种基于可提示的分割模型的视频目标跟踪方法

技术领域

本发明涉及视频目标跟踪技术领域，具体是涉及一种基于可提示的分割模型的视频目标跟踪方法。

背景技术

视频目标跟踪是计算机视觉领域的热点问题之一，因为它在许多行业和领域得到了广泛的研究和应用，如智能视频监控、自动驾驶等。视频目标跟踪任务旨在通过视频第一帧图像及其指定目标初始边界框在视频中跟踪该目标。视频目标跟踪任务主要的技术难点在于目标的连续变化和任意性、其他物体对所跟踪目标的遮挡、跟踪目标的快速移动等方面，这造成跟踪目标在每一帧的外观变化较大且容易受到周围环境外观的影响。

现有的一种视频目标跟踪范式如图1a所示，首先采用孪生网络作为图像编码器，对搜索帧和模板帧进行特征提取，然后将提取到的特征进行搜索帧和模板帧的特征交互，最后将交互得到的特征送入边界框预测头得到预测结果。这种范式有两大问题：

(1)模板帧和搜索帧之间的交互是图像级的而并不是对象级的，这不可避免地引入模板帧中的部分背景噪声，使得模型误以为这部分背景噪声也是要跟踪的目标。对于视频跟踪任务而言，因为后续每一帧的跟踪都会和该模板图像进行比较，所以模板图像所包含的信息是至关重要的。因此该范式下，模板图像中的细节背景信息会被误以为是所跟踪目标必不可少的一部分，从而在跟踪的时候很容易出现错误跟踪的情况。

(2)边界框预测头不具备自优化的能力。这种跟踪范式都是通过预测头直接得到边界框，通过神经网络优化的方式调整预测头的参数，这种方式并不能使得预测头了解其本身的输入输出关系，从而无法了解其输出的边界框质量如何以及如何调整本身参数。

还有一种视频目标跟踪范式如图1b所示，利用视觉Transformer(ViT)，首先将搜索帧和模板帧映射为一个个的小图像块，将图像块编码后，将搜索帧图像块和模板帧图像块拼接在一起然后送入一系列视觉Transformer编码块进行特征提取与特征交互。这种范式的缺点同样包括模板帧和搜索帧之间的交互是图像级的而并不是对象级的、边界框预测头不具备自优化的能力。

发明内容

针对上述问题，本发明为了解决以上视频目标跟踪范式面临的问题，提供一种基于可提示的分割模型的视频目标跟踪方法。该方法能够在复杂环境中的实际场景中保证较高的跟踪准确性和快速性，智能、快速、准确地的进行选定目标的跟踪。

为了实现上述目的，本发明提供一种基于可提示的分割模型的视频目标跟踪方法，包括以下步骤：

S1、构建视频单目标跟踪编码器-特征增强-解码器范式；

S2、构建一种基于可提示的分割模型的编码器；

S3、构建模板和搜索区域特征的自注意力增强单元；

S4、构建目标导向的前景提示单元；

S5、构建一种可自优化的目标框解码器；

S6、在所述视频单目标跟踪编码器-特征增强-解码器范式下，构建包含基于可提示的分割模型的编码器、模板和搜索区域特征的自注意力增强单元、目标导向的前景提示单元、可自优化的目标框解码器的单目标跟踪模型，并在服务器上对所述单目标跟踪模型进行训练，通过降低网络损失函数的总体损失值，优化网络参数，直至网络收敛；

S7、利用训练好的网络模型对待跟踪的视频序列中指定的单个目标进行跟踪。

优选的，所述步骤S1具体包括以下步骤：

S11、基于可提示的分割模型的图像编码器，结合自然语言处理领域中常用的工具-适配器建立一个图像特征提取器，将输入的搜索帧和模板帧/>分别用该图像特征提取器提取特征得到搜索帧特征x_s和模板帧特征x_t；

S12、将所述搜索帧特征x_s和模板帧特征x_t使用模板和搜索区域特征的自注意力增强单元进行高效融合，得到增强的搜索帧特征F_s和增强的模板帧特征F_t；

S13、在目标导向的前景提示单元中，利用增强的模板帧特征F_t，通过可提示的分割模型进行分割，得到视频目标跟踪任务的待跟踪目标物的分割掩膜，利用所述分割掩膜，得到目标物体的特征f_obj；

S14、将所述目标物体的特征f_obj和增强的搜索帧特征F_s输入到可自优化的目标框解码器中，得到跟踪结果，跟踪结果包括所跟踪目标的目标分类得分图P、局部偏移图O、归一化尺寸图S。

优选的，所述步骤S2具体包括以下步骤：

S21、对基于可提示的分割模型的图像编码器中视觉Transformer的绝对位置编码和相对位置编码重新训练以匹配256×256和384×384的图像分辨率；

S22、使用适配器搭配可提示的分割模型中的图像编码器作为图像特征提取器，将输入的搜索帧和模板帧/>分别用该图像特征提取器提取特征得到搜索帧特征/>和模板帧特征/>即：

其中，PatchEmbed(·)的作用是将图像块映射到隐藏空间，为绝对位置编码，LN(·)为层归一化，MSA(·)为多头注意力机制，Adapter(·)为适配器，num_block表示图像特征提取器中单元块的个数。

优选的，所述适配器由一个全连接下采样层、一个激活层、一个全连接上采样层以及残差连接组成。

优选的，所述模板和搜索区域特征的自注意力增强单元由2个自注意力单元组成，每个自注意力单元由多头注意力层(MSA)、层归一化(LN)、多层感知机(MLP)、残差连接组成。

优选的，所述步骤S3具体包括以下步骤：

S31、将步骤S22中得到的所述搜索帧特征和模板帧特征拼接为/>并加入绝对位置编码/>然后送入2个自注意力单元进行处理；

S32、将拼接特征送入模板和搜索区域特征的自注意力增强单元，将得到的结果/>进行切分，得到增强的搜索帧特征和增强的模板帧特征/>

优选的，所述步骤S4具体实施过程如下：将模板帧的目标框作为提示，利用可提示的分割模型中的提示编码器提取特征根据目标框提示的特征和增强的模板帧特征/>利用可提示的分割模型中的掩膜解码器获取目标物体的分割掩膜m_t，然后利用掩膜的筛选能力，对增强的模板帧特征进行作用，并通过平均池化得到目标物体特征向量/>

优选的，所述步骤S5具体包括以下步骤：

S51、对所述目标物体特征向量和增强的搜索帧特征/> 求余弦相似度，得到目标物体与搜索图像的相似度图/>

S＝f_obj·F_s

相似度图S中每个元素S^(C，i，j)(0＜i＜H，0＜j＜W)表示目标物体特征向量与搜索帧每个图像块的相似程度，S^(C，i，j)数值越大代表相似性越高，即该位置可认为是视频目标跟踪任务中的前景点；反之，S^(C，i，j)数值越小代表相似性越低，即该位置可认为是视频目标跟踪任务中的背景点，选取S^(C，i，j)最大值对应在图像上的点和最小值对应在图像上的点作为一对正负位置点对，记作P_maxmin＝(P_max，P_min)；

S52、将正负位置点对P_maxmin作为提示，对增强的搜索帧特征进行解码，输出目标导向的搜索帧特征/>即为：

S53、利用所述目标导向的搜索帧特征通过全卷积网络得到目标的目标分类得分图/>局部偏移图/>归一化尺寸图其中分类图中得分最高的对应目标物体的中心点。根据目标分类得分图、局部偏移图、归一化尺寸图可以得到初步的目标物体边界框bbox₀；

S54、利用所述初步的目标物体边界框bbox₀作为提示，将所述目标导向的搜索帧特征输入到可提示的分割模型的掩膜解码器，输出最终的搜索帧特征

S55、利用所述最终的搜索帧特征通过全卷积网络得到目标的目标分类得分图/>局部偏移图/>归一化尺寸图根据目标分类得分图、局部偏移图、归一化尺寸图得到最终的目标物体边界框bbox，达到自优化的效果。

优先的，所述步骤S6具体包括以下步骤：

S61、利用服务器进行图像裁剪和数据增强：裁剪的方式为：以目标所在区域为中心裁剪出一个矩形图像，该矩形图像的长宽分别为目标矩形框长宽的2倍。矩形框超出原视频边界的部分用像素平均值进行填充，最后将该矩形图像缩放到256×256或384×384，以此构成模板帧图像；以目标所在区域为中心裁剪出一个矩形图像，该矩形图像的长宽分别为目标矩形框长宽的4倍，矩形框超出原视频边界的部分用像素平均值进行填充，最后将该矩形图像缩放到256×256或384×384，以此构成搜索帧图像，对模板帧和搜索帧进行数据增强，包括随机反转、随机灰度化、中心点位置抖动、边界框尺寸抖动等操作；

S62、利用服务器执行步骤S2，即基于可提示的分割模型的编码器，对搜索帧图像和模板帧图像都进行特征提取；然后执行步骤S3，通过模板和搜索区域特征的自注意力增强单元对模板帧图像特征和搜索帧图像特征进行特征交互与增强；之后执行步骤S4获得目标导向的前景提示；最后执行步骤S5，通过一种可自优化的目标框解码器获得所跟踪目标的目标分类得分图、局部偏移图、归一化尺寸图，进而可以获得目标物体边界框；

S63、利用服务器训练网络模型，采用端到端的方式进行训练，损失函数的总体表达式为：

其中，L_cls表示分类的焦点损失；L_iou和L₁都用于监督边界框回归，分别表示广义交并比损失和L1损失，λ_iou和分别表示广义交并比损失和L1损失的权重，分别设值为：λ_iou＝2，/>

S64、在服务器上对所述单目标跟踪模型进行训练，通过降低网络损失函数的总体损失值，优化网络参数，直至网络收敛，获取局部最优的网络参数。

优选的，所述步骤S7具体包括以下步骤：

S71、对于给定的视频，初始化视频的第一帧作为视频目标跟踪的模板帧，且给定模板帧的边界框。根据该边界框，对模板帧以预设的尺寸变化划分出一块区域作为模板帧图像，视频目标跟踪网络从第二帧开始进行跟踪；

S72、对于第二帧及以后的每一帧，以上一帧目标框的中心点为基准，以预设的尺寸和距离划分出一块区域作为搜索帧图像，将模板帧图像和搜索帧图像输入到网络模型，输出当前帧的跟踪结果。

与现有技术相比，本发明的有益效果是：

本发明提供的一种基于可提示的分割模型的视频目标跟踪方法，通过利用可提示的分割模型获得跟踪目标的对象级特征，将搜索帧的交互范围从图像级的模板帧扩充到对象级的目标物，跟踪目标特征为搜索帧在目标框解码阶段提供了重要的提示信息，令搜索帧更加关注于所要跟踪的目标物体而免受模板中背景信息的影响，提高了跟踪的鲁棒性。此外，目标框解码器具备自优化的能力，能够及时反馈输出的边界框并优化之，提高了跟踪的准确性。本发明在众多困难的实际场景中都可以准确稳定地跟踪目标，和其他方法相比取得了更好的目标跟踪效果。

附图说明

图1a为经典的双流视频目标跟踪范式图；

图1b为经典的单流视频目标跟踪范式图；

图2为本发明的一种基于可提示的分割模型的视频目标跟踪方法整体结构图；

图3a为本发明使用的适配器(Adapter)的结构图；

图3b为经典的视觉Transformer(ViT)块的结构图；

图3c为本发明的使用适配器(Adapter)的视觉Transformer(ViT)块的结构图；

图4为本发明的目标导向的前景提示单元结构图；

图5为本发明的可自优化的目标框解码器结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

可提示的分割模型是图像分割的大型基础模型，它支持灵活的提示信息并可以实时对图像进行分割，具有强大的图像分割能力。可提示的分割模型使用1100万张图像和1.1亿个图像掩膜进行训练，可以生成高质量的掩膜并能够在通用场景实现零样本分割。对于现有技术的两种视频目标跟踪范式，其共同难点在于搜索帧和模板帧之间的交互是图像及而非对象级，而可提示的分割模型的强大零样本分割能力能够提供视频目标跟踪中跟踪目标的对象级掩膜，因此，可提示的分割模型有应用于视频目标跟踪任务的潜力。

针对现有技术中存在的问题与不足，本发明提出一种基于可提示的分割模型的视频目标跟踪方法，主要包括视频单目标跟踪编码器-特征增强-解码器范式的设计、一种基于可提示的分割模型的编码器的设计、模板和搜索区域特征的自注意力增强单元的设计、目标导向的前景提示单元的设计、一种可自优化的目标框解码器的设计、模型训练和模型推断七个阶段的步骤实现。

本发明提出的一种基于可提示的分割模型的视频目标跟踪方法，如图2所示，包括以下步骤：

S1、构建视频单目标跟踪编码器-特征增强-解码器范式；

S2、构建一种基于可提示的分割模型的编码器；

S3、构建模板和搜索区域特征的自注意力增强单元；

S4、构建目标导向的前景提示单元；

S5、构建一种可自优化的目标框解码器；

下面对每一步骤进行详细的说明介绍。

步骤S1、构建视频单目标跟踪编码器-特征增强-解码器范式。

通过更改现有的双流模型范式，在图像编码器中加入适配器，并对图像编码器得到的特征进行特征融合和提示生成等进行特征增强；在解码器中加入可自优化的目标框反馈方法。

具体的，主要包括以下步骤：

S11、基于可提示的分割模型的图像编码器，结合自然语言处理领域中常用的工具-适配器(Adapter)建立一个图像特征提取器，将输入的搜索帧和模板帧/>分别用该图像特征提取器提取特征得到搜索帧特征x_s和模板帧特征x_t；

步骤S2、构建一种基于可提示的分割模型的编码器。对搜索帧图像和模板帧图像进行特征提取。

具体的，主要包括以下步骤：

S21、由于可提示的分割模型是基于1024×1024分辨率的图像进行训练，本发明是基于256×256和384×384分辨率的图像进行训练，所以对基于可提示的分割模型的图像编码器中视觉Transformer的绝对位置编码和相对位置编码重新训练以匹配256×256和384×384的图像分辨率；

S22、为了使得可提示的分割模型更好迁移到视频目标跟踪任务，本发明在可提示的分割模型的图像编码器中加入适配器(Adapter)，从而构建本发明中的图像特征提取器，如图3a所示，适配器由一个全连接下采样层、一个激活层、一个全连接上采样层以及残差连接组成，在网络训练的时候，图像特征提取器中冻结图像编码器，仅需要训练适配器即可。经典的视觉Transformer(ViT)块的结构如图3b所示；为了使得更好的任务迁移，加入适配器(Adapter)的视觉Transformer(ViT)块的结构如图3c所示。使用适配器搭配可提示的分割模型中的图像编码器作为图像特征提取器，将输入的搜索帧和模板帧分别用该图像特征提取器提取特征得到搜索帧特征/> 和模板帧特征/>即：

步骤S3、构建模板和搜索区域特征的自注意力增强单元。

模板和搜索区域特征的自注意力增强单元由2个自注意力单元组成，每个自注意力单元由多头注意力层(MSA)、层归一化(LN)、多层感知机(MLP)、残差连接组成。

具体的，主要包括以下步骤：

S31、将步骤S22中得到的所述搜索帧特征和模板帧特征拼接为/>并加入绝对位置编码/>然后送入2个自注意力单元进行处理：

其中，split(·)为根据增强前的搜索帧特征和模板帧特征的张量形状对增强的拼接特征进行切分。

本实施例中，步骤S3的模板和搜索区域特征的自注意力增强单元增加了跳跃连接，以加快网络的收敛。

步骤S4、构建目标导向的前景提示单元。

视频目标跟踪任务中，模板帧的目标框是已知的，因此，利用可提示的分割模型的强大推理能力，将模板帧的目标框作为提示(prompt)。

如图4所示，具体实施过程如下：将模板帧的目标框作为提示，利用可提示的分割模型中的提示编码器提取特征即

f_bbox＝PromptEncoder(bbox)

根据目标框提示的特征和增强的模板帧特征/> 利用可提示的分割模型中的掩膜解码器获取目标物体的分割掩膜m_t，即：

m_t＝MaskDecoder(F_t，f_bbox)

然后利用掩膜的筛选能力，对增强的模板帧特征进行作用，并通过平均池化得到目标物体特征向量

f_obj＝Avg(select(F_t，m_t))

该特征便是对象级的特征，便于为解码器提供更准确的提示信息。

步骤S5、构建一种可自优化的目标框解码器。

如图5所示，具体的，主要包括以下步骤：

S51、对所述目标物体特征向量和增强的搜索帧特征/>求余弦相似度，得到目标物体与搜索图像的相似度图/>

S＝f_obj·F_s

相似度图S中每个元素S^(c，i，j)(0＜i＜H，0＜j＜W)表示目标物体特征向量与搜索帧每个图像块的相似程度，S^(C，i，j)数值越大代表相似性越高，即该位置可认为是视频目标跟踪任务中的前景点；反之，S^(C，i，j)数值越小代表相似性越低，即该位置可认为是视频目标跟踪任务中的背景点，选取S^(C，i，j)最大值对应在图像上的点和最小值对应在图像上的点作为一对正负位置点对，记作P_maxmin＝(P_max,P_min)；

S53、利用所述目标导向的搜索帧特征通过全卷积网络得到目标的目标分类得分图/>局部偏移图/>归一化尺寸图/>其中分类图中得分最高的对应目标物体的中心点。根据目标分类得分图、局部偏移图、归一化尺寸图可以得到初步的目标物体边界框bbox₀：

因此，初步的目标物体边界框bbox₀为：

bbox₀＝(x，y，w，h)

＝(x_d+O(0，x_d，y_d)，y_d+O(1，x_d，y_d)，S(0，x_d，y_d)，S(1，x_d，y_d))

bbox₀＝xywh2xyxy(bbox₀)

其中，xywh2xyxy(·)表示将[中心点x坐标，中心点y坐标，目标框宽度w、目标框高度h]的边界框转化为[左上角点x坐标，左上角点y坐标，右下角点x坐标，右下角点y坐标]的格式。

S54、利用所述初步的目标物体边界框bbox₀作为提示，将所述目标导向的搜索帧特征输入到可提示的分割模型的掩膜解码器，此时解码的时候并不输出分割结果，而是输出最终的搜索帧特征/>即为：

S55、类似于步骤S53，利用所述最终的搜索帧特征通过全卷积网络得到目标的目标分类得分图/>局部偏移图/> 归一化尺寸图/>根据目标分类得分图、局部偏移图、归一化尺寸图得到最终的目标物体边界框bbox，达到自优化的效果：

bbox＝(x，y，w，h)

＝(x_d′+O′(0，x_d′，y_d′)，y_d′+O′(1，x_d′，y_d′)，S′(0，x_d′，y_d′)，S′(1，x_d′，y_d′))

bbox＝xywh2xyxy(bbox)。

步骤S6、模型训练。在所述视频单目标跟踪编码器-特征增强-解码器范式下，构建包含基于可提示的分割模型的编码器、模板和搜索区域特征的自注意力增强单元、目标导向的前景提示单元、可自优化的目标框解码器的单目标跟踪模型，并在服务器上对所述单目标跟踪模型进行训练，通过降低网络损失函数的总体损失值，优化网络参数，直至网络收敛。

具体的，主要包括以下步骤：

S61、利用服务器进行图像裁剪和数据增强。对已完成标注的单目标跟踪数据集(LaSOT数据集、TNL2K数据集、OTB-Lang数据集)根据官方的方法划分成训练集和测试集，读取每一帧图片后，对其进行裁剪和数据增强操作。其中，裁剪的方式为：以目标所在区域为中心裁剪出一个矩形图像，该矩形图像的长宽分别为目标矩形框长宽的2倍。矩形框超出原视频边界的部分用像素平均值进行填充，最后将该矩形图像缩放到256×256或384×384，以此构成模板帧图像；以目标所在区域为中心裁剪出一个矩形图像，该矩形图像的长宽分别为目标矩形框长宽的4倍。矩形框超出原视频边界的部分用像素平均值进行填充，最后将该矩形图像缩放到256×256或384×384，以此构成搜索帧图像。对数据增强时，以p＝0.5的概率对图像进行水平翻转，以p＝0.05的概率对图像进行灰度化处理，以p＝0.2的概率对图像进行中心点和尺寸抖动；

S63、利用服务器训练网络模型，本发明采用可提示的分割模型作为基础模型。此外，本发明使用了两种图像分辨率配对的方式，即模板帧(256×256)、搜索帧(256×256)和模板帧(384×384)、搜索帧(384×384)。

训练的时候，采用端到端的方式进行训练，损失函数的总体表达式为：

S64、在服务器上对所述单目标跟踪模型进行训练，设置学习率为4×10^-4，batchsize为16，一共训练100个epoch，通过降低网络损失函数的总体损失值，优化网络参数，直至网络收敛，获取局部最优的网络参数。

步骤S7、模型推断。利用训练好的网络模型对待跟踪的视频序列中指定的单个目标进行跟踪。

具体的，主要包括以下步骤：

S71、对于给定的视频，初始化视频的第一帧作为视频目标跟踪的模板帧，且给定模板帧的边界框，根据该边界框，对模板帧以预设的尺寸变化划分出一块区域作为模板帧图像，视频目标跟踪网络从第二帧开始进行跟踪；

本发明提供的一种基于可提示的分割模型的视频目标跟踪方法，将可提示的分割模型较好地应用于视频目标跟踪任务，兼顾模板图像整体信息和跟踪目标特有信息的建模，跟踪目标特征为搜索帧在目标框解码阶段提供了重要的提示信息，极大程度上解决了模板图像中背景信息对该任务的不良影响，提高了跟踪的鲁棒性。此外，目标框解码器具备自优化的能力，能够及时反馈输出的边界框并优化之，提高了跟踪的准确性。本发明最终可以在众多困难的实际场景中都可以准确稳定地跟踪目标，和其他方法相比取得了更好的目标跟踪效果。

虽然在本文中参照了特定的实施方式来描述本发明，但是应该理解的是，这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是，可以对示例性的实施例进行许多修改，并且可以设计出其他的布置，只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是，可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是，结合单独实施例所描述的特征可以使用在其他所述实施例中。

Claims

1.一种基于可提示的分割模型的视频目标跟踪方法，其特征在于，包括以下步骤：

S1、构建视频单目标跟踪编码器-特征增强-解码器范式；

S2、构建一种基于可提示的分割模型的编码器；

S3、构建模板和搜索区域特征的自注意力增强单元；

S4、构建目标导向的前景提示单元；

S5、构建一种可自优化的目标框解码器；

2.根据权利要求1所述的一种基于可提示的分割模型的视频目标跟踪方法，其特征在于，所述步骤S1具体包括以下步骤：

S11、基于可提示的分割模型的图像编码器，结合自然语言处理领域中常用的工具—适配器建立一个图像特征提取器，将输入的搜索帧和模板帧/>分别用该图像特征提取器提取特征得到搜索帧特征x_s和模板帧特征x_t；

3.根据权利要求1所述的一种基于可提示的分割模型的视频目标跟踪方法，其特征在于，所述步骤S2具体包括以下步骤：

4.根据权利要求3所述的一种基于可提示的分割模型的视频目标跟踪方法，其特征在于，所述适配器由一个全连接下采样层、一个激活层、一个全连接上采样层以及残差连接组成。

5.根据权利要求2所述的一种基于可提示的分割模型的视频目标跟踪方法，其特征在于，所述模板和搜索区域特征的自注意力增强单元由2个自注意力单元组成，每个自注意力单元由多头注意力层(MSA)、层归一化(LN)、多层感知机(MLP)、残差连接组成。

6.根据权利要求5所述的一种基于可提示的分割模型的视频目标跟踪方法，其特征在于，所述步骤S3具体包括以下步骤：

S32、将拼接特征送入模板和搜索区域特征的自注意力增强单元，将得到的结果/>进行切分，得到增强的搜索帧特征/>和增强的模板帧特征/>

7.根据权利要求6所述的一种基于可提示的分割模型的视频目标跟踪方法，其特征在于，所述步骤S4具体实施过程如下：将模板帧的目标框作为提示，利用可提示的分割模型中的提示编码器提取特征根据目标框提示的特征/>和增强的模板帧特征/>利用可提示的分割模型中的掩膜解码器获取目标物体的分割掩膜m_t，然后利用掩膜的筛选能力，对增强的模板帧特征进行作用，并通过平均池化得到目标物体特征向量/>

8.根据权利要求7所述的一种基于可提示的分割模型的视频目标跟踪方法，其特征在于，所述步骤S5具体包括以下步骤：

S＝f_obj·F_s

相似度图S中每个元素S^(C,i,j)(0＜i＜H,0＜j＜W)表示目标物体特征向量与搜索帧每个图像块的相似程度，S^(C,i,j)数值越大代表相似性越高，即该位置可认为是视频目标跟踪任务中的前景点；反之，S^(C,i,j)数值越小代表相似性越低，即该位置可认为是视频目标跟踪任务中的背景点，选取S^(C,i,j)最大值对应在图像上的点和最小值对应在图像上的点作为一对正负位置点对，记作P_maxmin＝(P_max,P_min)；

S53、利用所述目标导向的搜索帧特征通过全卷积网络得到目标的目标分类得分图/>局部偏移图/>归一化尺寸图/>其中分类图中得分最高的对应目标物体的中心点。根据目标分类得分图、局部偏移图、归一化尺寸图可以得到初步的目标物体边界框bbox₀；

S55、利用所述最终的搜索帧特征通过全卷积网络得到目标的目标分类得分图/>局部偏移图/>归一化尺寸图/>根据目标分类得分图、局部偏移图、归一化尺寸图得到最终的目标物体边界框bbox，达到自优化的效果。

9.根据权利要求8所述的一种基于可提示的分割模型的视频目标跟踪方法，其特征在于，所述步骤S6具体包括以下步骤：

其中，L_cls表示分类的焦点损失；L_iou和L₁都用于监督边界框回归，分别表示广义交并比损失和L1损失，λ_iou和分别表示广义交并比损失和L1损失的权重，分别设值为：λ_iou＝2，

10.根据权利要求9所述的一种基于可提示的分割模型的视频目标跟踪方法，其特征在于，所述步骤S7具体包括以下步骤：