CN117173219A - 一种基于可提示的分割模型的视频目标跟踪方法 - Google Patents
一种基于可提示的分割模型的视频目标跟踪方法 Download PDFInfo
- Publication number
- CN117173219A CN117173219A CN202311240754.XA CN202311240754A CN117173219A CN 117173219 A CN117173219 A CN 117173219A CN 202311240754 A CN202311240754 A CN 202311240754A CN 117173219 A CN117173219 A CN 117173219A
- Authority
- CN
- China
- Prior art keywords
- frame
- target
- image
- tracking
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 21
- 230000002708 enhancing effect Effects 0.000 claims abstract description 14
- 230000000694 effects Effects 0.000 claims abstract description 7
- 238000010586 diagram Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 13
- 230000003993 interaction Effects 0.000 claims description 10
- 230000000007 visual effect Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000008685 targeting Effects 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
本发明属于视频目标跟踪技术领域,提出了一种基于可提示的分割模型的视频目标跟踪方法,包括以下步骤:S1、构建视频单目标跟踪编码器‑特征增强‑解码器范式;S2、构建一种基于可提示的分割模型的编码器;S3、构建模板和搜索区域特征的自注意力增强单元;S4、构建目标导向的前景提示单元;S5、构建一种可自优化的目标框解码器;S6、构建包含S1‑S5的单目标跟踪模型后在服务器上对所述单目标跟踪模型进行训练,通过降低网络损失函数的总体损失值,优化网络参数,直至网络收敛;S7、利用训练好的网络模型对待跟踪的视频序列中指定的单个目标进行跟踪。本发明能够在复杂场景中鲁棒高效地实现视频单目标跟踪,和其他方法相比取得了更好的目标跟踪效果。
Description
技术领域
本发明涉及视频目标跟踪技术领域,具体是涉及一种基于可提示的分割模型的视频目标跟踪方法。
背景技术
视频目标跟踪是计算机视觉领域的热点问题之一,因为它在许多行业和领域得到了广泛的研究和应用,如智能视频监控、自动驾驶等。视频目标跟踪任务旨在通过视频第一帧图像及其指定目标初始边界框在视频中跟踪该目标。视频目标跟踪任务主要的技术难点在于目标的连续变化和任意性、其他物体对所跟踪目标的遮挡、跟踪目标的快速移动等方面,这造成跟踪目标在每一帧的外观变化较大且容易受到周围环境外观的影响。
现有的一种视频目标跟踪范式如图1a所示,首先采用孪生网络作为图像编码器,对搜索帧和模板帧进行特征提取,然后将提取到的特征进行搜索帧和模板帧的特征交互,最后将交互得到的特征送入边界框预测头得到预测结果。这种范式有两大问题:
(1)模板帧和搜索帧之间的交互是图像级的而并不是对象级的,这不可避免地引入模板帧中的部分背景噪声,使得模型误以为这部分背景噪声也是要跟踪的目标。对于视频跟踪任务而言,因为后续每一帧的跟踪都会和该模板图像进行比较,所以模板图像所包含的信息是至关重要的。因此该范式下,模板图像中的细节背景信息会被误以为是所跟踪目标必不可少的一部分,从而在跟踪的时候很容易出现错误跟踪的情况。
(2)边界框预测头不具备自优化的能力。这种跟踪范式都是通过预测头直接得到边界框,通过神经网络优化的方式调整预测头的参数,这种方式并不能使得预测头了解其本身的输入输出关系,从而无法了解其输出的边界框质量如何以及如何调整本身参数。
还有一种视频目标跟踪范式如图1b所示,利用视觉Transformer(ViT),首先将搜索帧和模板帧映射为一个个的小图像块,将图像块编码后,将搜索帧图像块和模板帧图像块拼接在一起然后送入一系列视觉Transformer编码块进行特征提取与特征交互。这种范式的缺点同样包括模板帧和搜索帧之间的交互是图像级的而并不是对象级的、边界框预测头不具备自优化的能力。
发明内容
针对上述问题,本发明为了解决以上视频目标跟踪范式面临的问题,提供一种基于可提示的分割模型的视频目标跟踪方法。该方法能够在复杂环境中的实际场景中保证较高的跟踪准确性和快速性,智能、快速、准确地的进行选定目标的跟踪。
为了实现上述目的,本发明提供一种基于可提示的分割模型的视频目标跟踪方法,包括以下步骤:
S1、构建视频单目标跟踪编码器-特征增强-解码器范式;
S2、构建一种基于可提示的分割模型的编码器;
S3、构建模板和搜索区域特征的自注意力增强单元;
S4、构建目标导向的前景提示单元;
S5、构建一种可自优化的目标框解码器;
S6、在所述视频单目标跟踪编码器-特征增强-解码器范式下,构建包含基于可提示的分割模型的编码器、模板和搜索区域特征的自注意力增强单元、目标导向的前景提示单元、可自优化的目标框解码器的单目标跟踪模型,并在服务器上对所述单目标跟踪模型进行训练,通过降低网络损失函数的总体损失值,优化网络参数,直至网络收敛;
S7、利用训练好的网络模型对待跟踪的视频序列中指定的单个目标进行跟踪。
优选的,所述步骤S1具体包括以下步骤:
S11、基于可提示的分割模型的图像编码器,结合自然语言处理领域中常用的工具-适配器建立一个图像特征提取器,将输入的搜索帧和模板帧/>分别用该图像特征提取器提取特征得到搜索帧特征xs和模板帧特征xt;
S12、将所述搜索帧特征xs和模板帧特征xt使用模板和搜索区域特征的自注意力增强单元进行高效融合,得到增强的搜索帧特征Fs和增强的模板帧特征Ft;
S13、在目标导向的前景提示单元中,利用增强的模板帧特征Ft,通过可提示的分割模型进行分割,得到视频目标跟踪任务的待跟踪目标物的分割掩膜,利用所述分割掩膜,得到目标物体的特征fobj;
S14、将所述目标物体的特征fobj和增强的搜索帧特征Fs输入到可自优化的目标框解码器中,得到跟踪结果,跟踪结果包括所跟踪目标的目标分类得分图P、局部偏移图O、归一化尺寸图S。
优选的,所述步骤S2具体包括以下步骤:
S21、对基于可提示的分割模型的图像编码器中视觉Transformer的绝对位置编码和相对位置编码重新训练以匹配256×256和384×384的图像分辨率;
S22、使用适配器搭配可提示的分割模型中的图像编码器作为图像特征提取器,将输入的搜索帧和模板帧/>分别用该图像特征提取器提取特征得到搜索帧特征/>和模板帧特征/>即:
其中,PatchEmbed(·)的作用是将图像块映射到隐藏空间,为绝对位置编码,LN(·)为层归一化,MSA(·)为多头注意力机制,Adapter(·)为适配器,num_block表示图像特征提取器中单元块的个数。
优选的,所述适配器由一个全连接下采样层、一个激活层、一个全连接上采样层以及残差连接组成。
优选的,所述模板和搜索区域特征的自注意力增强单元由2个自注意力单元组成,每个自注意力单元由多头注意力层(MSA)、层归一化(LN)、多层感知机(MLP)、残差连接组成。
优选的,所述步骤S3具体包括以下步骤:
S31、将步骤S22中得到的所述搜索帧特征和模板帧特征拼接为/>并加入绝对位置编码/>然后送入2个自注意力单元进行处理;
S32、将拼接特征送入模板和搜索区域特征的自注意力增强单元,将得到的结果/>进行切分,得到增强的搜索帧特征和增强的模板帧特征/>
优选的,所述步骤S4具体实施过程如下:将模板帧的目标框作为提示,利用可提示的分割模型中的提示编码器提取特征根据目标框提示的特征和增强的模板帧特征/>利用可提示的分割模型中的掩膜解码器获取目标物体的分割掩膜mt,然后利用掩膜的筛选能力,对增强的模板帧特征进行作用,并通过平均池化得到目标物体特征向量/>
优选的,所述步骤S5具体包括以下步骤:
S51、对所述目标物体特征向量和增强的搜索帧特征/> 求余弦相似度,得到目标物体与搜索图像的相似度图/>
S=fobj·Fs
相似度图S中每个元素S(C,i,j)(0<i<H,0<j<W)表示目标物体特征向量与搜索帧每个图像块的相似程度,S(C,i,j)数值越大代表相似性越高,即该位置可认为是视频目标跟踪任务中的前景点;反之,S(C,i,j)数值越小代表相似性越低,即该位置可认为是视频目标跟踪任务中的背景点,选取S(C,i,j)最大值对应在图像上的点和最小值对应在图像上的点作为一对正负位置点对,记作Pmaxmin=(Pmax,Pmin);
S52、将正负位置点对Pmaxmin作为提示,对增强的搜索帧特征进行解码,输出目标导向的搜索帧特征/>即为:
S53、利用所述目标导向的搜索帧特征通过全卷积网络得到目标的目标分类得分图/>局部偏移图/>归一化尺寸图其中分类图中得分最高的对应目标物体的中心点。根据目标分类得分图、局部偏移图、归一化尺寸图可以得到初步的目标物体边界框bbox0;
S54、利用所述初步的目标物体边界框bbox0作为提示,将所述目标导向的搜索帧特征输入到可提示的分割模型的掩膜解码器,输出最终的搜索帧特征
S55、利用所述最终的搜索帧特征通过全卷积网络得到目标的目标分类得分图/>局部偏移图/>归一化尺寸图根据目标分类得分图、局部偏移图、归一化尺寸图得到最终的目标物体边界框bbox,达到自优化的效果。
优先的,所述步骤S6具体包括以下步骤:
S61、利用服务器进行图像裁剪和数据增强:裁剪的方式为:以目标所在区域为中心裁剪出一个矩形图像,该矩形图像的长宽分别为目标矩形框长宽的2倍。矩形框超出原视频边界的部分用像素平均值进行填充,最后将该矩形图像缩放到256×256或384×384,以此构成模板帧图像;以目标所在区域为中心裁剪出一个矩形图像,该矩形图像的长宽分别为目标矩形框长宽的4倍,矩形框超出原视频边界的部分用像素平均值进行填充,最后将该矩形图像缩放到256×256或384×384,以此构成搜索帧图像,对模板帧和搜索帧进行数据增强,包括随机反转、随机灰度化、中心点位置抖动、边界框尺寸抖动等操作;
S62、利用服务器执行步骤S2,即基于可提示的分割模型的编码器,对搜索帧图像和模板帧图像都进行特征提取;然后执行步骤S3,通过模板和搜索区域特征的自注意力增强单元对模板帧图像特征和搜索帧图像特征进行特征交互与增强;之后执行步骤S4获得目标导向的前景提示;最后执行步骤S5,通过一种可自优化的目标框解码器获得所跟踪目标的目标分类得分图、局部偏移图、归一化尺寸图,进而可以获得目标物体边界框;
S63、利用服务器训练网络模型,采用端到端的方式进行训练,损失函数的总体表达式为:
其中,Lcls表示分类的焦点损失;Liou和L1都用于监督边界框回归,分别表示广义交并比损失和L1损失,λiou和分别表示广义交并比损失和L1损失的权重,分别设值为:λiou=2,/>
S64、在服务器上对所述单目标跟踪模型进行训练,通过降低网络损失函数的总体损失值,优化网络参数,直至网络收敛,获取局部最优的网络参数。
优选的,所述步骤S7具体包括以下步骤:
S71、对于给定的视频,初始化视频的第一帧作为视频目标跟踪的模板帧,且给定模板帧的边界框。根据该边界框,对模板帧以预设的尺寸变化划分出一块区域作为模板帧图像,视频目标跟踪网络从第二帧开始进行跟踪;
S72、对于第二帧及以后的每一帧,以上一帧目标框的中心点为基准,以预设的尺寸和距离划分出一块区域作为搜索帧图像,将模板帧图像和搜索帧图像输入到网络模型,输出当前帧的跟踪结果。
与现有技术相比,本发明的有益效果是:
本发明提供的一种基于可提示的分割模型的视频目标跟踪方法,通过利用可提示的分割模型获得跟踪目标的对象级特征,将搜索帧的交互范围从图像级的模板帧扩充到对象级的目标物,跟踪目标特征为搜索帧在目标框解码阶段提供了重要的提示信息,令搜索帧更加关注于所要跟踪的目标物体而免受模板中背景信息的影响,提高了跟踪的鲁棒性。此外,目标框解码器具备自优化的能力,能够及时反馈输出的边界框并优化之,提高了跟踪的准确性。本发明在众多困难的实际场景中都可以准确稳定地跟踪目标,和其他方法相比取得了更好的目标跟踪效果。
附图说明
图1a为经典的双流视频目标跟踪范式图;
图1b为经典的单流视频目标跟踪范式图;
图2为本发明的一种基于可提示的分割模型的视频目标跟踪方法整体结构图;
图3a为本发明使用的适配器(Adapter)的结构图;
图3b为经典的视觉Transformer(ViT)块的结构图;
图3c为本发明的使用适配器(Adapter)的视觉Transformer(ViT)块的结构图;
图4为本发明的目标导向的前景提示单元结构图;
图5为本发明的可自优化的目标框解码器结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
可提示的分割模型是图像分割的大型基础模型,它支持灵活的提示信息并可以实时对图像进行分割,具有强大的图像分割能力。可提示的分割模型使用1100万张图像和1.1亿个图像掩膜进行训练,可以生成高质量的掩膜并能够在通用场景实现零样本分割。对于现有技术的两种视频目标跟踪范式,其共同难点在于搜索帧和模板帧之间的交互是图像及而非对象级,而可提示的分割模型的强大零样本分割能力能够提供视频目标跟踪中跟踪目标的对象级掩膜,因此,可提示的分割模型有应用于视频目标跟踪任务的潜力。
针对现有技术中存在的问题与不足,本发明提出一种基于可提示的分割模型的视频目标跟踪方法,主要包括视频单目标跟踪编码器-特征增强-解码器范式的设计、一种基于可提示的分割模型的编码器的设计、模板和搜索区域特征的自注意力增强单元的设计、目标导向的前景提示单元的设计、一种可自优化的目标框解码器的设计、模型训练和模型推断七个阶段的步骤实现。
本发明提出的一种基于可提示的分割模型的视频目标跟踪方法,如图2所示,包括以下步骤:
S1、构建视频单目标跟踪编码器-特征增强-解码器范式;
S2、构建一种基于可提示的分割模型的编码器;
S3、构建模板和搜索区域特征的自注意力增强单元;
S4、构建目标导向的前景提示单元;
S5、构建一种可自优化的目标框解码器;
S6、在所述视频单目标跟踪编码器-特征增强-解码器范式下,构建包含基于可提示的分割模型的编码器、模板和搜索区域特征的自注意力增强单元、目标导向的前景提示单元、可自优化的目标框解码器的单目标跟踪模型,并在服务器上对所述单目标跟踪模型进行训练,通过降低网络损失函数的总体损失值,优化网络参数,直至网络收敛;
S7、利用训练好的网络模型对待跟踪的视频序列中指定的单个目标进行跟踪。
下面对每一步骤进行详细的说明介绍。
步骤S1、构建视频单目标跟踪编码器-特征增强-解码器范式。
通过更改现有的双流模型范式,在图像编码器中加入适配器,并对图像编码器得到的特征进行特征融合和提示生成等进行特征增强;在解码器中加入可自优化的目标框反馈方法。
具体的,主要包括以下步骤:
S11、基于可提示的分割模型的图像编码器,结合自然语言处理领域中常用的工具-适配器(Adapter)建立一个图像特征提取器,将输入的搜索帧和模板帧/>分别用该图像特征提取器提取特征得到搜索帧特征xs和模板帧特征xt;
S12、将所述搜索帧特征xs和模板帧特征xt使用模板和搜索区域特征的自注意力增强单元进行高效融合,得到增强的搜索帧特征Fs和增强的模板帧特征Ft;
S13、在目标导向的前景提示单元中,利用增强的模板帧特征Ft,通过可提示的分割模型进行分割,得到视频目标跟踪任务的待跟踪目标物的分割掩膜,利用所述分割掩膜,得到目标物体的特征fobj;
S14、将所述目标物体的特征fobj和增强的搜索帧特征Fs输入到可自优化的目标框解码器中,得到跟踪结果,跟踪结果包括所跟踪目标的目标分类得分图P、局部偏移图O、归一化尺寸图S。
步骤S2、构建一种基于可提示的分割模型的编码器。对搜索帧图像和模板帧图像进行特征提取。
具体的,主要包括以下步骤:
S21、由于可提示的分割模型是基于1024×1024分辨率的图像进行训练,本发明是基于256×256和384×384分辨率的图像进行训练,所以对基于可提示的分割模型的图像编码器中视觉Transformer的绝对位置编码和相对位置编码重新训练以匹配256×256和384×384的图像分辨率;
S22、为了使得可提示的分割模型更好迁移到视频目标跟踪任务,本发明在可提示的分割模型的图像编码器中加入适配器(Adapter),从而构建本发明中的图像特征提取器,如图3a所示,适配器由一个全连接下采样层、一个激活层、一个全连接上采样层以及残差连接组成,在网络训练的时候,图像特征提取器中冻结图像编码器,仅需要训练适配器即可。经典的视觉Transformer(ViT)块的结构如图3b所示;为了使得更好的任务迁移,加入适配器(Adapter)的视觉Transformer(ViT)块的结构如图3c所示。使用适配器搭配可提示的分割模型中的图像编码器作为图像特征提取器,将输入的搜索帧和模板帧分别用该图像特征提取器提取特征得到搜索帧特征/> 和模板帧特征/>即:
其中,PatchEmbed(·)的作用是将图像块映射到隐藏空间,为绝对位置编码,LN(·)为层归一化,MSA(·)为多头注意力机制,Adapter(·)为适配器,num_block表示图像特征提取器中单元块的个数。
步骤S3、构建模板和搜索区域特征的自注意力增强单元。
模板和搜索区域特征的自注意力增强单元由2个自注意力单元组成,每个自注意力单元由多头注意力层(MSA)、层归一化(LN)、多层感知机(MLP)、残差连接组成。
具体的,主要包括以下步骤:
S31、将步骤S22中得到的所述搜索帧特征和模板帧特征拼接为/>并加入绝对位置编码/>然后送入2个自注意力单元进行处理:
S32、将拼接特征送入模板和搜索区域特征的自注意力增强单元,将得到的结果/>进行切分,得到增强的搜索帧特征和增强的模板帧特征/>
其中,split(·)为根据增强前的搜索帧特征和模板帧特征的张量形状对增强的拼接特征进行切分。
本实施例中,步骤S3的模板和搜索区域特征的自注意力增强单元增加了跳跃连接,以加快网络的收敛。
步骤S4、构建目标导向的前景提示单元。
视频目标跟踪任务中,模板帧的目标框是已知的,因此,利用可提示的分割模型的强大推理能力,将模板帧的目标框作为提示(prompt)。
如图4所示,具体实施过程如下:将模板帧的目标框作为提示,利用可提示的分割模型中的提示编码器提取特征即
fbbox=PromptEncoder(bbox)
根据目标框提示的特征和增强的模板帧特征/> 利用可提示的分割模型中的掩膜解码器获取目标物体的分割掩膜mt,即:
mt=MaskDecoder(Ft,fbbox)
然后利用掩膜的筛选能力,对增强的模板帧特征进行作用,并通过平均池化得到目标物体特征向量
fobj=Avg(select(Ft,mt))
该特征便是对象级的特征,便于为解码器提供更准确的提示信息。
步骤S5、构建一种可自优化的目标框解码器。
如图5所示,具体的,主要包括以下步骤:
S51、对所述目标物体特征向量和增强的搜索帧特征/>求余弦相似度,得到目标物体与搜索图像的相似度图/>
S=fobj·Fs
相似度图S中每个元素S(c,i,j)(0<i<H,0<j<W)表示目标物体特征向量与搜索帧每个图像块的相似程度,S(C,i,j)数值越大代表相似性越高,即该位置可认为是视频目标跟踪任务中的前景点;反之,S(C,i,j)数值越小代表相似性越低,即该位置可认为是视频目标跟踪任务中的背景点,选取S(C,i,j)最大值对应在图像上的点和最小值对应在图像上的点作为一对正负位置点对,记作Pmaxmin=(Pmax,Pmin);
S52、将正负位置点对Pmaxmin作为提示,对增强的搜索帧特征进行解码,输出目标导向的搜索帧特征/>即为:
S53、利用所述目标导向的搜索帧特征通过全卷积网络得到目标的目标分类得分图/>局部偏移图/>归一化尺寸图/>其中分类图中得分最高的对应目标物体的中心点。根据目标分类得分图、局部偏移图、归一化尺寸图可以得到初步的目标物体边界框bbox0:
因此,初步的目标物体边界框bbox0为:
bbox0=(x,y,w,h)
=(xd+O(0,xd,yd),yd+O(1,xd,yd),S(0,xd,yd),S(1,xd,yd))
bbox0=xywh2xyxy(bbox0)
其中,xywh2xyxy(·)表示将[中心点x坐标,中心点y坐标,目标框宽度w、目标框高度h]的边界框转化为[左上角点x坐标,左上角点y坐标,右下角点x坐标,右下角点y坐标]的格式。
S54、利用所述初步的目标物体边界框bbox0作为提示,将所述目标导向的搜索帧特征输入到可提示的分割模型的掩膜解码器,此时解码的时候并不输出分割结果,而是输出最终的搜索帧特征/>即为:
S55、类似于步骤S53,利用所述最终的搜索帧特征通过全卷积网络得到目标的目标分类得分图/>局部偏移图/> 归一化尺寸图/>根据目标分类得分图、局部偏移图、归一化尺寸图得到最终的目标物体边界框bbox,达到自优化的效果:
bbox=(x,y,w,h)
=(xd′+O′(0,xd′,yd′),yd′+O′(1,xd′,yd′),S′(0,xd′,yd′),S′(1,xd′,yd′))
bbox=xywh2xyxy(bbox)。
步骤S6、模型训练。在所述视频单目标跟踪编码器-特征增强-解码器范式下,构建包含基于可提示的分割模型的编码器、模板和搜索区域特征的自注意力增强单元、目标导向的前景提示单元、可自优化的目标框解码器的单目标跟踪模型,并在服务器上对所述单目标跟踪模型进行训练,通过降低网络损失函数的总体损失值,优化网络参数,直至网络收敛。
具体的,主要包括以下步骤:
S61、利用服务器进行图像裁剪和数据增强。对已完成标注的单目标跟踪数据集(LaSOT数据集、TNL2K数据集、OTB-Lang数据集)根据官方的方法划分成训练集和测试集,读取每一帧图片后,对其进行裁剪和数据增强操作。其中,裁剪的方式为:以目标所在区域为中心裁剪出一个矩形图像,该矩形图像的长宽分别为目标矩形框长宽的2倍。矩形框超出原视频边界的部分用像素平均值进行填充,最后将该矩形图像缩放到256×256或384×384,以此构成模板帧图像;以目标所在区域为中心裁剪出一个矩形图像,该矩形图像的长宽分别为目标矩形框长宽的4倍。矩形框超出原视频边界的部分用像素平均值进行填充,最后将该矩形图像缩放到256×256或384×384,以此构成搜索帧图像。对数据增强时,以p=0.5的概率对图像进行水平翻转,以p=0.05的概率对图像进行灰度化处理,以p=0.2的概率对图像进行中心点和尺寸抖动;
S62、利用服务器执行步骤S2,即基于可提示的分割模型的编码器,对搜索帧图像和模板帧图像都进行特征提取;然后执行步骤S3,通过模板和搜索区域特征的自注意力增强单元对模板帧图像特征和搜索帧图像特征进行特征交互与增强;之后执行步骤S4获得目标导向的前景提示;最后执行步骤S5,通过一种可自优化的目标框解码器获得所跟踪目标的目标分类得分图、局部偏移图、归一化尺寸图,进而可以获得目标物体边界框;
S63、利用服务器训练网络模型,本发明采用可提示的分割模型作为基础模型。此外,本发明使用了两种图像分辨率配对的方式,即模板帧(256×256)、搜索帧(256×256)和模板帧(384×384)、搜索帧(384×384)。
训练的时候,采用端到端的方式进行训练,损失函数的总体表达式为:
其中,Lcls表示分类的焦点损失;Liou和L1都用于监督边界框回归,分别表示广义交并比损失和L1损失,λiou和分别表示广义交并比损失和L1损失的权重,分别设值为:λiou=2,/>
S64、在服务器上对所述单目标跟踪模型进行训练,设置学习率为4×10-4,batchsize为16,一共训练100个epoch,通过降低网络损失函数的总体损失值,优化网络参数,直至网络收敛,获取局部最优的网络参数。
步骤S7、模型推断。利用训练好的网络模型对待跟踪的视频序列中指定的单个目标进行跟踪。
具体的,主要包括以下步骤:
S71、对于给定的视频,初始化视频的第一帧作为视频目标跟踪的模板帧,且给定模板帧的边界框,根据该边界框,对模板帧以预设的尺寸变化划分出一块区域作为模板帧图像,视频目标跟踪网络从第二帧开始进行跟踪;
S72、对于第二帧及以后的每一帧,以上一帧目标框的中心点为基准,以预设的尺寸和距离划分出一块区域作为搜索帧图像,将模板帧图像和搜索帧图像输入到网络模型,输出当前帧的跟踪结果。
本发明提供的一种基于可提示的分割模型的视频目标跟踪方法,将可提示的分割模型较好地应用于视频目标跟踪任务,兼顾模板图像整体信息和跟踪目标特有信息的建模,跟踪目标特征为搜索帧在目标框解码阶段提供了重要的提示信息,极大程度上解决了模板图像中背景信息对该任务的不良影响,提高了跟踪的鲁棒性。此外,目标框解码器具备自优化的能力,能够及时反馈输出的边界框并优化之,提高了跟踪的准确性。本发明最终可以在众多困难的实际场景中都可以准确稳定地跟踪目标,和其他方法相比取得了更好的目标跟踪效果。
虽然在本文中参照了特定的实施方式来描述本发明,但是应该理解的是,这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是,可以对示例性的实施例进行许多修改,并且可以设计出其他的布置,只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是,可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是,结合单独实施例所描述的特征可以使用在其他所述实施例中。
Claims (10)
1.一种基于可提示的分割模型的视频目标跟踪方法,其特征在于,包括以下步骤:
S1、构建视频单目标跟踪编码器-特征增强-解码器范式;
S2、构建一种基于可提示的分割模型的编码器;
S3、构建模板和搜索区域特征的自注意力增强单元;
S4、构建目标导向的前景提示单元;
S5、构建一种可自优化的目标框解码器;
S6、在所述视频单目标跟踪编码器-特征增强-解码器范式下,构建包含基于可提示的分割模型的编码器、模板和搜索区域特征的自注意力增强单元、目标导向的前景提示单元、可自优化的目标框解码器的单目标跟踪模型,并在服务器上对所述单目标跟踪模型进行训练,通过降低网络损失函数的总体损失值,优化网络参数,直至网络收敛;
S7、利用训练好的网络模型对待跟踪的视频序列中指定的单个目标进行跟踪。
2.根据权利要求1所述的一种基于可提示的分割模型的视频目标跟踪方法,其特征在于,所述步骤S1具体包括以下步骤:
S11、基于可提示的分割模型的图像编码器,结合自然语言处理领域中常用的工具—适配器建立一个图像特征提取器,将输入的搜索帧和模板帧/>分别用该图像特征提取器提取特征得到搜索帧特征xs和模板帧特征xt;
S12、将所述搜索帧特征xs和模板帧特征xt使用模板和搜索区域特征的自注意力增强单元进行高效融合,得到增强的搜索帧特征Fs和增强的模板帧特征Ft;
S13、在目标导向的前景提示单元中,利用增强的模板帧特征Ft,通过可提示的分割模型进行分割,得到视频目标跟踪任务的待跟踪目标物的分割掩膜,利用所述分割掩膜,得到目标物体的特征fobj;
S14、将所述目标物体的特征fobj和增强的搜索帧特征Fs输入到可自优化的目标框解码器中,得到跟踪结果,跟踪结果包括所跟踪目标的目标分类得分图P、局部偏移图O、归一化尺寸图S。
3.根据权利要求1所述的一种基于可提示的分割模型的视频目标跟踪方法,其特征在于,所述步骤S2具体包括以下步骤:
S21、对基于可提示的分割模型的图像编码器中视觉Transformer的绝对位置编码和相对位置编码重新训练以匹配256×256和384×384的图像分辨率;
S22、使用适配器搭配可提示的分割模型中的图像编码器作为图像特征提取器,将输入的搜索帧和模板帧/>分别用该图像特征提取器提取特征得到搜索帧特征/>和模板帧特征/>即:
其中,PatchEmbed(·)的作用是将图像块映射到隐藏空间,为绝对位置编码,LN(·)为层归一化,MSA(·)为多头注意力机制,Adapter(·)为适配器,num_block表示图像特征提取器中单元块的个数。
4.根据权利要求3所述的一种基于可提示的分割模型的视频目标跟踪方法,其特征在于,所述适配器由一个全连接下采样层、一个激活层、一个全连接上采样层以及残差连接组成。
5.根据权利要求2所述的一种基于可提示的分割模型的视频目标跟踪方法,其特征在于,所述模板和搜索区域特征的自注意力增强单元由2个自注意力单元组成,每个自注意力单元由多头注意力层(MSA)、层归一化(LN)、多层感知机(MLP)、残差连接组成。
6.根据权利要求5所述的一种基于可提示的分割模型的视频目标跟踪方法,其特征在于,所述步骤S3具体包括以下步骤:
S31、将步骤S22中得到的所述搜索帧特征和模板帧特征拼接为/>并加入绝对位置编码/>然后送入2个自注意力单元进行处理;
S32、将拼接特征送入模板和搜索区域特征的自注意力增强单元,将得到的结果/>进行切分,得到增强的搜索帧特征/>和增强的模板帧特征/>
7.根据权利要求6所述的一种基于可提示的分割模型的视频目标跟踪方法,其特征在于,所述步骤S4具体实施过程如下:将模板帧的目标框作为提示,利用可提示的分割模型中的提示编码器提取特征根据目标框提示的特征/>和增强的模板帧特征/>利用可提示的分割模型中的掩膜解码器获取目标物体的分割掩膜mt,然后利用掩膜的筛选能力,对增强的模板帧特征进行作用,并通过平均池化得到目标物体特征向量/>
8.根据权利要求7所述的一种基于可提示的分割模型的视频目标跟踪方法,其特征在于,所述步骤S5具体包括以下步骤:
S51、对所述目标物体特征向量和增强的搜索帧特征/> 求余弦相似度,得到目标物体与搜索图像的相似度图/>
S=fobj·Fs
相似度图S中每个元素S(C,i,j)(0<i<H,0<j<W)表示目标物体特征向量与搜索帧每个图像块的相似程度,S(C,i,j)数值越大代表相似性越高,即该位置可认为是视频目标跟踪任务中的前景点;反之,S(C,i,j)数值越小代表相似性越低,即该位置可认为是视频目标跟踪任务中的背景点,选取S(C,i,j)最大值对应在图像上的点和最小值对应在图像上的点作为一对正负位置点对,记作Pmaxmin=(Pmax,Pmin);
S52、将正负位置点对Pmaxmin作为提示,对增强的搜索帧特征进行解码,输出目标导向的搜索帧特征/>即为:
S53、利用所述目标导向的搜索帧特征通过全卷积网络得到目标的目标分类得分图/>局部偏移图/>归一化尺寸图/>其中分类图中得分最高的对应目标物体的中心点。根据目标分类得分图、局部偏移图、归一化尺寸图可以得到初步的目标物体边界框bbox0;
S54、利用所述初步的目标物体边界框bbox0作为提示,将所述目标导向的搜索帧特征输入到可提示的分割模型的掩膜解码器,输出最终的搜索帧特征
S55、利用所述最终的搜索帧特征通过全卷积网络得到目标的目标分类得分图/>局部偏移图/>归一化尺寸图/>根据目标分类得分图、局部偏移图、归一化尺寸图得到最终的目标物体边界框bbox,达到自优化的效果。
9.根据权利要求8所述的一种基于可提示的分割模型的视频目标跟踪方法,其特征在于,所述步骤S6具体包括以下步骤:
S61、利用服务器进行图像裁剪和数据增强:裁剪的方式为:以目标所在区域为中心裁剪出一个矩形图像,该矩形图像的长宽分别为目标矩形框长宽的2倍。矩形框超出原视频边界的部分用像素平均值进行填充,最后将该矩形图像缩放到256×256或384×384,以此构成模板帧图像;以目标所在区域为中心裁剪出一个矩形图像,该矩形图像的长宽分别为目标矩形框长宽的4倍,矩形框超出原视频边界的部分用像素平均值进行填充,最后将该矩形图像缩放到256×256或384×384,以此构成搜索帧图像,对模板帧和搜索帧进行数据增强,包括随机反转、随机灰度化、中心点位置抖动、边界框尺寸抖动等操作;
S62、利用服务器执行步骤S2,即基于可提示的分割模型的编码器,对搜索帧图像和模板帧图像都进行特征提取;然后执行步骤S3,通过模板和搜索区域特征的自注意力增强单元对模板帧图像特征和搜索帧图像特征进行特征交互与增强;之后执行步骤S4获得目标导向的前景提示;最后执行步骤S5,通过一种可自优化的目标框解码器获得所跟踪目标的目标分类得分图、局部偏移图、归一化尺寸图,进而可以获得目标物体边界框;
S63、利用服务器训练网络模型,采用端到端的方式进行训练,损失函数的总体表达式为:
其中,Lcls表示分类的焦点损失;Liou和L1都用于监督边界框回归,分别表示广义交并比损失和L1损失,λiou和分别表示广义交并比损失和L1损失的权重,分别设值为:λiou=2,
S64、在服务器上对所述单目标跟踪模型进行训练,通过降低网络损失函数的总体损失值,优化网络参数,直至网络收敛,获取局部最优的网络参数。
10.根据权利要求9所述的一种基于可提示的分割模型的视频目标跟踪方法,其特征在于,所述步骤S7具体包括以下步骤:
S71、对于给定的视频,初始化视频的第一帧作为视频目标跟踪的模板帧,且给定模板帧的边界框,根据该边界框,对模板帧以预设的尺寸变化划分出一块区域作为模板帧图像,视频目标跟踪网络从第二帧开始进行跟踪;
S72、对于第二帧及以后的每一帧,以上一帧目标框的中心点为基准,以预设的尺寸和距离划分出一块区域作为搜索帧图像,将模板帧图像和搜索帧图像输入到网络模型,输出当前帧的跟踪结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311240754.XA CN117173219A (zh) | 2023-09-25 | 2023-09-25 | 一种基于可提示的分割模型的视频目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311240754.XA CN117173219A (zh) | 2023-09-25 | 2023-09-25 | 一种基于可提示的分割模型的视频目标跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117173219A true CN117173219A (zh) | 2023-12-05 |
Family
ID=88933651
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311240754.XA Pending CN117173219A (zh) | 2023-09-25 | 2023-09-25 | 一种基于可提示的分割模型的视频目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117173219A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117809025A (zh) * | 2024-03-01 | 2024-04-02 | 深圳魔视智能科技有限公司 | 基于注意力网络的目标跟踪方法、装置、设备及存储介质 |
CN118279807A (zh) * | 2024-05-31 | 2024-07-02 | 大连理工大学 | 一种基于提示学习的视觉语言目标跟踪方法 |
-
2023
- 2023-09-25 CN CN202311240754.XA patent/CN117173219A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117809025A (zh) * | 2024-03-01 | 2024-04-02 | 深圳魔视智能科技有限公司 | 基于注意力网络的目标跟踪方法、装置、设备及存储介质 |
CN118279807A (zh) * | 2024-05-31 | 2024-07-02 | 大连理工大学 | 一种基于提示学习的视觉语言目标跟踪方法 |
CN118279807B (zh) * | 2024-05-31 | 2024-08-20 | 大连理工大学 | 一种基于提示学习的视觉语言目标跟踪方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Din et al. | A novel GAN-based network for unmasking of masked face | |
Qin et al. | U2-Net: Going deeper with nested U-structure for salient object detection | |
CN112232149B (zh) | 一种文档多模信息和关系提取方法及系统 | |
CN113158862B (zh) | 一种基于多任务的轻量级实时人脸检测方法 | |
CN117173219A (zh) | 一种基于可提示的分割模型的视频目标跟踪方法 | |
Li et al. | Learning face image super-resolution through facial semantic attribute transformation and self-attentive structure enhancement | |
CN113744311A (zh) | 基于全连接注意力模块的孪生神经网络运动目标跟踪方法 | |
CN114821050B (zh) | 一种基于transformer的指称图像分割方法 | |
CN113140020B (zh) | 一种基于伴随监督生成对抗网络的文本生成图像的方法 | |
CN115393396B (zh) | 一种基于掩码预训练的无人机目标跟踪方法 | |
CN114863539A (zh) | 一种基于特征融合的人像关键点检测方法及系统 | |
CN113221900A (zh) | 一种基于密集连接卷积网络的多模态视频中文字幕识别方法 | |
Liu et al. | PDR-Net: Progressive depth reconstruction network for color guided depth map super-resolution | |
CN114581918A (zh) | 一种文本识别模型训练方法及装置 | |
CN115439507A (zh) | 基于多层次互增强与相关金字塔的三维视频目标跟踪方法 | |
CN112528989A (zh) | 一种图像语义细粒度的描述生成方法 | |
CN117649582B (zh) | 基于级联注意力的单流单阶段网络目标跟踪方法与系统 | |
CN107798329A (zh) | 基于cnn的自适应粒子滤波目标跟踪方法 | |
CN117409431B (zh) | 一种多模态大型语言模型训练方法、电子设备及存储介质 | |
Chen et al. | Multi-stage degradation homogenization for super-resolution of face images with extreme degradations | |
Robert | The Role of Deep Learning in Computer Vision | |
CN113688715A (zh) | 面部表情识别方法及系统 | |
Luhman et al. | High fidelity image synthesis with deep vaes in latent space | |
Xu et al. | Video Object Segmentation: Tasks, Datasets, and Methods | |
CN112765955B (zh) | 一种中文指代表达下的跨模态实例分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |