CN117333514A

CN117333514A - 一种单目标视频跟踪方法、装置、存储介质及设备

Info

Publication number: CN117333514A
Application number: CN202311636539.1A
Authority: CN
Inventors: 龚苏明; 于振华; 王金钖; 林垠; 沙文
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2023-12-01
Filing date: 2023-12-01
Publication date: 2024-01-02
Anticipated expiration: 2043-12-01
Also published as: CN117333514B

Abstract

本申请公开了一种单目标视频跟踪方法、装置、存储介质及设备，该方法包括：首先在获取到包含待跟踪的单目标对象的目标视频后，从目标视频中确定出包含第一帧图像对应的图像跟踪模板的M张图像跟踪模板，然后提取M张图像跟踪模板的模板图像特征，以及提取目标视频中每一帧搜索图像的搜索图像特征，并将模板图像特征和搜索图像特征输入预先构建的编码器网络进行编码，得到编码特征；接着将编码特征和开始标志位向量输入预先构建的解码器网络进行解码，预测出编码特征对应的搜索图像中单目标对象的位置和尺寸，从而能够提高目标视频中每一帧搜索图像中对于单目标视频跟踪结果的准确性。

Description

一种单目标视频跟踪方法、装置、存储介质及设备

技术领域

本申请涉及图像处理技术领域，尤其涉及一种单目标视频跟踪方法、装置、存储介质及设备。

背景技术

视频目标跟踪的研究和应用作为计算机视觉领域的一个重要分支，已被广泛地应用到航空航天、自动驾驶等多个领域。从跟踪目标数量来说，视频目标跟踪可分为单目标视频跟踪和多目标视频跟踪，其中，单目标视频跟踪指的是在给定某视频序列初始帧图像中目标大小与位置的情况下，预测后续帧图像中该目标的大小与位置，单目标视频跟踪的研究具有较大的实用价值和广阔的发展前景。

目前，单目标视频跟踪方法通常有两种：一种是基于孪生网络的单目标视频跟踪方法，但这种跟踪方法的跟踪模板仅在视频第一帧图像中获取，导致该模版的特征不适用于后续帧图像中目标发生较大变化时的跟踪，得到的跟踪结果不够准确。而另一种常用的单目标视频跟踪方法则是采用以转换器（Transformer）模型为基础的单目标视频跟踪方法，但这种跟踪方法不仅无法获取时序信息作为跟踪依据且网络复杂、计算量较大。可见，通过目前常见的这两种单目标视频跟踪方法，得到的跟踪结果的准确率还有待提高。

发明内容

本申请实施例的主要目的在于提供一种单目标视频跟踪方法、装置、存储介质及设备，能够提高单目标视频跟踪结果的准确性。

本申请实施例提供了一种单目标视频跟踪方法，包括：

获取包含待跟踪的单目标对象的目标视频；并从所述目标视频中确定出M张图像跟踪模板；所述M张图像跟踪模板中包含所述目标视频的第一帧图像对应的图像跟踪模板；所述M为大于0的正整数；

提取所述M张图像跟踪模板的模板图像特征；以及提取所述目标视频中每一帧搜索图像的搜索图像特征；

将所述模板图像特征和所述搜索图像特征输入预先构建的编码器网络进行编码，得到编码特征；

将所述编码特征和开始标志位向量输入预先构建的解码器网络进行解码，预测出所述编码特征对应的搜索图像中所述单目标对象的位置和尺寸。

一种可能的实现方式中，所述方法还包括：

在利用预先构建的单目标对象判断模型判断出达到图像跟踪模板更新条件时，利用当前搜索图像对应的图像跟踪模板替换所述M张图像跟踪模板中非第一帧图像对应的图像跟踪模板；并利用更新后的M张图像跟踪模板继续对所述目标视频中未处理的搜索图像执行单目标视频跟踪处理操作步骤，直至确定出所述目标视频中每一帧搜索图像中单目标对象的位置和尺寸。

一种可能的实现方式中，所述提取所述M张图像跟踪模板的模板图像特征；以及提取所述目标视频中每一帧搜索图像的搜索图像特征，包括：

将所述M张图像跟踪模板和所述目标视频中每一帧搜索图像分别输入卷积神经网络进行特征提取，得到所述M张图像跟踪模板的模板图像特征和所述目标视频中每一帧搜索图像的搜索图像特征。

一种可能的实现方式中，所述将所述模板图像特征和所述搜索图像特征输入预先构建的编码器网络进行编码，得到编码特征，包括：

将所述模板图像特征和所述搜索图像特征进行拉平和拼接处理，并将处理后的特征输入预先构建的编码器网络进行编码，得到编码特征。

一种可能的实现方式中，所述编码器网络和所述解码器网络的构建方式如下：

获取包含待跟踪的单目标训练对象的训练视频；并从所述训练视频中确定出M张训练图像跟踪模板；所述M张训练图像跟踪模板中包含所述训练视频的第一帧图像对应的图像跟踪模板；

提取所述M张训练图像跟踪模板的训练模板图像特征；以及提取所述训练视频中每一帧训练搜索图像的训练搜索图像特征；

将所述训练模板图像特征和所述训练搜索图像特征输入初始编码器网络进行编码，得到训练编码特征；

将所述训练编码特征、开始标志位向量、所述训练搜索图像中单目标训练对象所在矩形框的实际坐标和尺寸的离散值输入初始解码器网络进行解码，得到所述训练搜索图像中单目标训练对象所在矩形框的预测坐标和预测尺寸的离散值；

利用所述目标训练对象所在矩形框的预测坐标和尺寸，与单目标训练对象所在矩形框的实际坐标和尺寸的离散值，计算第一损失函数的取值，直至所述取值满足预设条件，则停止模型参数的更新，训练得到所述编码器网络和解码器网络；所述第一损失函数的取值用于约束所述编码器网络和解码器网络参数的更新。

一种可能的实现方式中，所述第一损失函数为交叉熵损失函数。

一种可能的实现方式中，所述单目标对象判断模型的构建方式如下：

通过所述解码器网络将所述训练编码特征中的训练搜索图像特征输入初始单目标对象判断模型进行分类，得到表征所述训练搜索图像特征是否包含所述单目标训练对象的预测分类结果；

利用所述预测分类结果与所述训练搜索图像特征是否包含所述单目标训练对象的实际分类结果，计算第二损失函数的取值，直至所述取值满足预设条件，则停止模型参数的更新，训练得到所述单目标对象判断模型；所述第二损失函数的取值用于约束所述单目标对象判断模型参数的更新。

一种可能的实现方式中，所述初始单目标对象判断模型包括多层感知机；所述第二损失函数为交叉熵损失函数。

一种可能的实现方式中，所述将所述编码特征和开始标志位向量输入预先构建的解码器网络进行解码之后，所述方法还包括：

当所述目标视频中已处理的搜索图像的帧数达到预设阈值时，通过所述解码器网络将所述编码特征中的搜索图像特征输入单目标对象判断模型进行分类，以根据分类结果，确定当前正在处理的搜索图像中是否包含单目标对象。

一种可能的实现方式中，所述方法包括：

将所述搜索图像特征与所述解码器网络中每一层网络输出的中间特征进行相似度计算，并将低于预设相似度阈值的相似度对应的搜索图像特征删除，以便解码器网络不再需要对删除的搜索图像特征进行处理，得到裁剪后的解码器网络。

本申请实施例还提供了一种单目标视频跟踪装置，包括：

第一获取单元，用于获取包含待跟踪的单目标对象的目标视频；并从所述目标视频中确定出M张图像跟踪模板；所述M张图像跟踪模板中包含所述目标视频的第一帧图像对应的图像跟踪模板；所述M为大于0的正整数；

第一提取单元，用于提取所述M张图像跟踪模板的模板图像特征；以及提取所述目标视频中每一帧搜索图像的搜索图像特征；

第一编码单元，用于将所述模板图像特征和所述搜索图像特征输入预先构建的编码器网络进行编码，得到编码特征；

第一解码单元，用于将所述编码特征和开始标志位向量输入预先构建的解码器网络进行解码，预测出所述编码特征对应的搜索图像中所述单目标对象的位置和尺寸。

一种可能的实现方式中，所述装置还包括：

替换单元，用于在利用预先构建的单目标对象判断模型判断出达到图像跟踪模板更新条件时，利用当前搜索图像对应的图像跟踪模板替换所述M张图像跟踪模板中非第一帧图像对应的图像跟踪模板；并利用更新后的M张图像跟踪模板继续对所述目标视频中未处理的搜索图像执行单目标视频跟踪处理操作步骤，直至确定出所述目标视频中每一帧搜索图像中单目标对象的位置和尺寸。

一种可能的实现方式中，所述第一提取单元具体用于：

一种可能的实现方式中，所述第一编码单元具体用于：

一种可能的实现方式中，所述装置还包括：

第二获取单元，用于获取包含待跟踪的单目标训练对象的训练视频；并从所述训练视频中确定出M张训练图像跟踪模板；所述M张训练图像跟踪模板中包含所述训练视频的第一帧图像对应的图像跟踪模板；

第二提取单元，用于提取所述M张训练图像跟踪模板的训练模板图像特征；以及提取所述训练视频中每一帧训练搜索图像的训练搜索图像特征；

第二编码单元，用于将所述训练模板图像特征和所述训练搜索图像特征输入初始编码器网络进行编码，得到训练编码特征；

第二解码单元，用于将所述训练编码特征、开始标志位向量、所述训练搜索图像中单目标训练对象所在矩形框的实际坐标和尺寸的离散值输入初始解码器网络进行解码，得到所述训练搜索图像中单目标训练对象所在矩形框的预测坐标和预测尺寸的离散值；

第一训练单元，用于利用所述目标训练对象所在矩形框的预测坐标和尺寸，与单目标训练对象所在矩形框的实际坐标和尺寸的离散值，计算第一损失函数的取值，直至所述取值满足预设条件，则停止模型参数的更新，训练得到所述编码器网络和解码器网络；所述第一损失函数的取值用于约束所述编码器网络和解码器网络参数的更新。

一种可能的实现方式中，所述装置还包括：

分类单元，用于通过所述解码器网络将所述训练编码特征中的训练搜索图像特征输入初始单目标对象判断模型进行分类，得到表征所述训练搜索图像特征是否包含所述单目标训练对象的预测分类结果；

第二训练单元，用于利用所述预测分类结果与所述训练搜索图像特征是否包含所述单目标训练对象的实际分类结果，计算第二损失函数的取值，直至所述取值满足预设条件，则停止模型参数的更新，训练得到所述单目标对象判断模型；所述第二损失函数的取值用于约束所述单目标对象判断模型参数的更新。

一种可能的实现方式中，所述装置还包括：

确定单元，用于当所述目标视频中已处理的搜索图像的帧数达到预设阈值时，通过所述解码器网络将所述编码特征中的搜索图像特征输入单目标对象判断模型进行分类，以根据分类结果，确定当前正在处理的搜索图像中是否包含单目标对象。

一种可能的实现方式中，所述装置还包括：

裁剪单元，用于将所述搜索图像特征与所述解码器网络中每一层网络输出的中间特征进行相似度计算，并将低于预设相似度阈值的相似度对应的搜索图像特征删除，以便解码器网络不再需要对删除的搜索图像特征进行处理，得到裁剪后的解码器网络。

本申请实施例还提供了一种单目标视频跟踪设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述单目标视频跟踪方法中的任意一种实现方式。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述单目标视频跟踪方法中的任意一种实现方式。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述单目标视频跟踪方法中的任意一种实现方式。

本申请实施例提供的一种单目标视频跟踪方法、装置、存储介质及设备，在获取到包含待跟踪的单目标对象的目标视频后，首先从目标视频中确定出包含第一帧图像对应的图像跟踪模板的M张图像跟踪模板，然后，提取M张图像跟踪模板的模板图像特征和目标视频中每一帧搜索图像的搜索图像特征，并将模板图像特征和搜索图像特征输入预先构建的编码器网络进行编码，得到编码特征；接着，将编码特征和开始标志位向量输入预先构建的解码器网络进行解码，预测出编码特征对应的搜索图像中单目标对象的位置和尺寸。

可见，由于本申请实施例是将M张图像跟踪模板共同作为跟踪依据，且这些模板是不同时刻的，使得后续提取的图像特征和编码特征均包含时序上的变化信息，并且，还利用预先构建的编码器网络中的多头注意力操作，实现了特征提取和关系建模的联合操作，从而能够提高目标视频中每一帧搜索图像中对于单目标视频跟踪结果的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种单目标视频跟踪方法的流程示意图；

图2为本申请实施例提供的目标视频中实现单目标视频跟踪的整体框架图；

图3为本申请实施例提供的解码器网络的自回归预测过程示意图；

图4为本申请实施例提供的单目标对象判断模型的结构示意图；

图5为本申请实施例提供的裁剪解码器网络的过程示意图；

图6为本申请实施例提供的一种单目标视频跟踪装置的组成示意图。

具体实施方式

目标跟踪是计算机视觉领域研究的一个热点问题，其利用视频或图像序列的上下文信息，对目标的外观和运动信息进行建模，从而对目标运动状态进行预测并标定目标的位置，进而研究运动目标的规律，或者为系统的决策报警提供语义和非语义的信息支持，包括运动检测、事件检测等。

目标跟踪的基本任务是在一段视频序列中给定目标的初始位置，在后续每一帧图像中对目标进行持续的跟踪定位，在此过程中不会提供关于目标的颜色、形状、大小等先验条件，即跟踪算法只有通过在第一帧中对目标进行学习才能进行跟踪。

目前，单目标视频跟踪方法通常包括以下两种：

（1）以孪生网络为代表的基于卷积神经网络进行单目标视频跟踪的方法。

孪生结构，顾名思义，即为成对的结构，具体来说就是该结构有两个输入，一个是作为基准的模板，另一个则是要选择的候选样本。而在单目标跟踪任务中，作为基准的模板则是需要跟踪的对象，通常选取的是视频序列第一帧中的目标对象，而候选样本则是之后每一帧中的图像搜索区域，而孪生网络要做的就是找到之后每一帧中与第一帧中的范本最相似的候选区域，即为这一帧中的目标，这样就可以实现对一个目标的跟踪。

但这种跟踪方法存在两点不足：一是跟踪模板仅在视频第一帧图像中获取，导致该模版的特征不适用于后续帧图像中目标发生较大变化时的跟踪，即当目标发生较大变化时，来自第一帧的特征可能不足以表征目标的特征，导致得到的跟踪结果不够准确。二是该跟踪方法仅能得到目标的中心位置，得不到目标的尺寸，也会导致目标跟踪结果还不够精确。

（2）以Transformer为基础的单目标视频跟踪方法。

该跟踪方法也存在两点不足：一是无法获取时序信息作为跟踪依据（这是因为仅是利用第一帧图像作为目标），导致得到的跟踪结果不够准确。二是网络复杂且计算量较大，导致目标跟踪效率低。

为解决上述缺陷，本申请实施例提供了一种单目标视频跟踪方法，在获取到包含待跟踪的单目标对象的目标视频后，首先从目标视频中确定出包含第一帧图像对应的图像跟踪模板的M张图像跟踪模板，然后，提取M张图像跟踪模板的模板图像特征和目标视频中每一帧搜索图像的搜索图像特征，并将模板图像特征和搜索图像特征输入预先构建的编码器网络进行编码，得到编码特征；接着，将编码特征和开始标志位向量输入预先构建的解码器网络进行解码，预测出编码特征对应的搜索图像中单目标对象的位置和尺寸。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

第一实施例

参见图1，为本实施例提供的一种单目标视频跟踪方法的流程示意图，该方法包括以下步骤：

S101：获取包含待跟踪的单目标对象的目标视频；并从目标视频中确定出M张图像跟踪模板；其中，M张图像跟踪模板中包含目标视频的第一帧图像对应的图像跟踪模板；M为大于0的正整数。

在本实施例中，将采用本实施例待实现单目标跟踪的任一视频定义为目标视频。需要说明的是，目标视频是由逐帧图像构成，且本实施例不限制图像的类型，比如，各帧图像可以是由红（R）、绿（G）、蓝（B）三原色组成的彩色图像、也可以是灰度图像等。并且，本申请也不限制待跟踪的单目标对象的具体内容，比如，待跟踪的单目标对象可以是车辆、台灯等。

可以理解的是，目标视频可以根据实际需要，通过录像等方式获得，例如，目标视频可以是利用手机摄像头拍摄到的一段马路上的包含来往车辆的视频等。

为了提高提高目标视频中对于单目标对象的跟踪的准确性。本实施例奥在获取包含待跟踪的单目标对象的目标视频后，首先利用现有或未来出现的视频处理方法，对目标视频进行逐帧识别，以确定出目标视频包含的各帧图像，并将除第一帧图像外的每一帧图像定义为搜索图像。

再利用第一帧图像确定出M张图像跟踪模板，其中，M为大于0的正整数，但M的具体取值不做限定，可根据实际情况和经验值设定，比如可以将M设定为3，即可以目标视频中确定出3张图像跟踪模板。

具体来讲，在初始化阶段，当M=3，且对第二帧图像（即第一个搜索图像）进行单目标对象跟踪时，可以利用第一帧图像对应的图像跟踪模板初始化全部模板，即可以将3张图像跟踪模板全部取值为第一帧图像对应的图像跟踪模板，在后续跟踪过程中，可以逐步更新除第一帧图像对应的图像跟踪模板之外的其余模板（具体实现过程后续进行详细介绍）。并且，本申请不限定搜索图像和M张图像跟踪模板的尺寸，二者可以使用相同尺寸，也可以使用不同尺寸，如图2所示。

S102：提取M张图像跟踪模板的模板图像特征；以及提取目标视频中每一帧搜索图像的搜索图像特征。

在本实施例中，通过步骤S101获取到包含待跟踪的单目标对象的目标视频，并从目标视频中确定出M张图像跟踪模板后，为了能够提高对于单目标对象的跟踪效果，进一步可以利用现有或未来出现的图像特征提取方法，提取出M张图像跟踪模板的模板图像特征；以及提取出目标视频中每一帧搜索图像的搜索图像特征，例如，可以将M张图像跟踪模板和目标视频中每一帧搜索图像分别输入卷积神经网络（如主干网络（backbone））进行特征提取，得到M张图像跟踪模板的模板图像特征和目标视频中每一帧搜索图像的搜索图像特征，用以执行后续步骤S103。

S103：将模板图像特征和搜索图像特征输入预先构建的编码器网络进行编码，得到编码特征。

在本实施例中，通过步骤S102提取出M张图像跟踪模板的模板图像特征和每一帧搜索图像的搜索图像特征后，进一步可以将模板图像特征和搜索图像特征进行拉平和拼接处理，并将处理后的特征输入预先构建的编码器网络进行编码，得到编码特征，用以执行后续步骤S104。

S104：将编码特征和开始标志位向量输入预先构建的解码器网络进行解码，预测出编码特征对应的搜索图像中单目标对象的位置和尺寸。

在本实施例中，通过步骤S103得到编码特征后，进一步可以将该编码特征和开始标志位（Start）向量输入预先构建的解码器网络进行解码，预测出编码特征对应的搜索图像中单目标对象的位置和尺寸，并利用[x, y, w, h] 及特殊字符End表示。其中，Start的作用是告诉解码器网络此时正式开始预测单目标对象在搜索图像中的位置坐标；End的作用是告诉解码器网络结束预测。

需要说明的是，目标视频中的每一搜索图像均可以通过上述步骤S102-104，确定出单目标对象的位置和尺寸，但是在跟踪过程中，为了进一步提高跟踪准确率，本申请提出在跟踪过程中，可以按预设规律对M张图像跟踪模板进行更新，进而可以利用更新后更为准确的图像跟踪模板作为跟踪依据进行后续跟踪。

为此，一种可选的实现方式是，可利用计数器统计已处理的探索图像帧数，当目标视频中已处理的搜索图像的帧数达到预设阈值（具体取值不做限定，可根据实际情况和经验值设定，比如可以将预设阈值设定成为20帧）时，可以通过解码器网络将编码特征中的搜索图像特征输入单目标对象判断模型（Has Target）进行分类，以根据分类结果，确定当前正在处理的搜索图像中是否包含单目标对象，比如，可以根据单目标对象判断模型输出的包含单目标对象的得分和不包含单目标对象的得分，来判断当前正在处理的搜索图像中是否包含单目标对象。

若是，如单目标对象判断模型输出的包含单目标对象的得分大于预设阈值（具体取值不做限定，可根据实际情况和经验值设定，比如可以将其设定为0.4），则说明当前正在处理的搜索图像中包含单目标对象，进而可以利用当前搜索图像对应的图像跟踪模板替换M张图像跟踪模板中非第一帧图像对应的图像跟踪模板；并利用更新后的M张图像跟踪模板继续对目标视频中未处理的搜索图像执行单目标视频跟踪处理操作步骤，直至确定出目标视频中每一帧搜索图像中单目标对象的位置和尺寸。

反之，若单目标对象判断模型输出的包含单目标对象的得分不大于预设阈值（如0.4），则说明当前正在处理的搜索图像中不包含单目标对象，可在下一帧继续进行判断，直至到达预设帧数（具体取值不做限定，可根据实际情况和经验值设定，比如可以将其设定为30帧），仍未判断出搜索图像中包含单目标对象，则可以认为单目标对象连续丢失了预设帧数（如30帧），此时即可认为单目标对象出了目标视频画面且不会再回来，此时可选择停止跟踪或重新指定跟踪对象。

接下来，本实施例将对编码器网络和解码器网络的构建过程进行介绍，具体可以包括下述步骤A1- A5：

步骤A1：获取包含待跟踪的单目标训练对象的训练视频；并从训练视频中确定出M张训练图像跟踪模板；其中，M张训练图像跟踪模板中包含训练视频的第一帧图像对应的图像跟踪模板。

在本实施例中，为了构建编码器网络和解码器网络，需要预先进行大量的准备工作，首先，需要收集大量包含待跟踪的单目标的视频，比如，可以预先收集在某一马路位置上不同时间段拍摄到的100个视频，并将其中每一个视频分别作为训练视频，并确定每个视频中的待跟踪的单目标对象作为单目标训练对象。再并从每一训练视频中确定出M张训练图像跟踪模板，作为跟踪依据。

步骤A2：提取M张训练图像跟踪模板的训练模板图像特征；以及提取训练视频中每一帧训练搜索图像的训练搜索图像特征。

在本实施例中，为了构建编码器网络和解码器网络，在通过步骤A1获取到包含待跟踪的单目标训练对象的训练视频，并从训练视频中确定出M张训练图像跟踪模板后，进一步可以提取出每一训练视频中M张训练图像跟踪模板的训练模板图像特征，并提取出对应训练视频中每一帧训练搜索图像的训练搜索图像特征。

步骤A3：将训练模板图像特征和训练搜索图像特征输入初始编码器网络进行编码，得到训练编码特征。

需要说明的是，为了构建编码效果较好的编码器网络，可以预先选取初始编码器网络（具体结构不限定，如本申请选择的是Transformer Encoder），再将训练模板图像特征和训练搜索图像特征进行拉平和拼接后输入到Transformer的Encoder中进行特征交互和进一步提取深层特征，作为训练编码特征，用以执行后续步骤A4。

可见，由于本申请在进行编码器网络和解码器网络的构建时，输入数据中包含有M张训练图像跟踪模板，且这些模板是不同时刻的，因此得到的编码特征是包含时序上的变化信息的。此外，得益于编码器网络中的多头注意力操作，在提取编码特征的同时也实现了训练搜索图像和训练图像跟踪模板之间关系的建模，以便于提高后续的跟踪效果。

步骤A4：将训练编码特征、开始标志位向量、训练搜索图像中单目标训练对象所在矩形框的实际坐标和尺寸的离散值输入初始解码器网络进行解码，得到训练搜索图像中单目标训练对象所在矩形框的预测坐标和预测尺寸的离散值。

需要说明的是，为了构建预测效果较好的解码器网络，可以预先选取初始解码器网络（具体结构不限定，如本申请选择的是Transformer Decoder），再将通过步骤A3得到的编码特征、开始标志位向量、训练搜索图像中单目标训练对象所在矩形框的实际坐标和尺寸的离散值输入Transformer Decoder进行解码，得到训练搜索图像中单目标训练对象所在矩形框的预测坐标和预测尺寸的离散值，用以执行后续步骤A5。

其中，开始标志位向量仍可以采用Start向量来表示。训练搜索图像中单目标训练对象所在矩形框的实际坐标和尺寸可以利用[x, y, w, h]表示。其中，x, y表示单目标训练对象所在矩形框左上角所在点的坐标；w, h表示单目标训练对象所在矩形框的宽和高的取值。

可以理解的是，由于练搜索图像中单目标训练对象所在矩形框的实际坐标和尺寸[x, y, w, h]往往是连续值，因此需要先将他们变成离散值，如图2中“Word toEmbedding”。具体过程为：以x为例，首先对x进行归一化，即将x的原值除以图像尺寸，此时x处于0~1，然后将0~1均分为N（具体取值不做限定，取值为大于0的正整数即可）份，即离散成第1份、第2份...第N份，此时便实现了x的离散操作，同理可以实现y, w, h的离散处理，即可得到单目标训练对象所在矩形框的实际坐标和尺寸的离散值。

进一步的，将编码特征、开始标志位向量（如Start）、训练搜索图像中单目标训练对象所在矩形框的实际坐标和尺寸的离散值（如[x, y, w, h]的离散值）输入解码器网络进行解码后，便可得到训练搜索图像中单目标训练对象所在矩形框的预测坐标和尺寸的离散值（也为N份）, 再采用实现上述离散过程的逆操作，如图2中“Embedding to Word”，即可得到单目标训练对象所在矩形框的预测坐标和预测尺寸的连续值。

需要说明的是，在进行解码器网络的训练时，采用的是自回归预测的方法如图3所示，解码器网络在预测输出结果的x时，只接收输入中Start和编码器网络所提供的训练编码特征信息；在预测输出结果的y时，只接收输入中Start、x和编码器网络所提供的训练编码特征信息；依此类推，得到最终的预测结果。

步骤A5：利用目标训练对象所在矩形框的预测坐标和尺寸，与单目标训练对象所在矩形框的实际坐标和尺寸的离散值，计算第一损失函数的取值，直至取值满足预设条件，则停止模型参数的更新，训练得到编码器网络和解码器网络；其中，第一损失函数的取值用于约束编码器网络和解码器网络参数的更新。

具体来讲，在本实现方式中，在得到目标训练对象所在矩形框的预测坐标和尺寸后，可以将离散化后的坐标看成是分类任务，利用第一损失函数对编码器网络和解码器网络进行训练，并且在训练过程中，可以根据第一损失函数值的变化，对编码器网络和解码器网络的模型参数进行不断更新，直至第一损失函数的函数值满足预设条件，比如达到最小值且变化幅度很小（基本不变），，则停止模型参数的更新，完成编码器网络和解码器网络的训练。

一种可选的实现方式是，可以将第一损失函数设定为交叉熵损失函数，具体计算公式如下：

其中，L表示第一损失函数；z表示真实标签；表示预测结果。

在此基础上，当编码器网络和解码器网络训练完成后，进一步的，可以将二者的参数固定，再对单目标对象判断模型进行训练，具体可以包括下述步骤B1- B2：

步骤B1：通过解码器网络将训练编码特征中的训练搜索图像特征输入初始单目标对象判断模型进行分类，得到表征训练搜索图像特征是否包含单目标训练对象的预测分类结果。

需要说明的是，当跟踪目标发生在跟踪过程中产生较大变化时，如被遮挡、光照阴影等，此时来自第一帧的模板或较久之前帧的模板提供的特征可能不足以表征模板，因此需要对模板进行动态更新。本申请预先设定了更新条件为：距上一次更新模板的帧数间隔达到设定的阈值（具体取值不做限定，如可取值为20），同时本帧训练搜索图像中包含单目标训练对象。为了实现这一目的，本申请引入了单目标对象判断模型，以实现二分类任务。

在本实施例中，为了构建单目标对象判断模型，首先对其进行初始化，得到初始单目标对象判断模型，如图4所示，初始单目标对象判断模型可以由多层感知机构成，它的网络输入解码器网络输出的训练编码特征中的训练搜索图像特征（实际应用时的输入即为搜索图像的特征），输出是两个分类结果，即为预测分类结果。例如图4所示的两个黑色圆圈，二者分别可以表征当前训练搜索图像特征包含单目标训练对象的得分和不包含单目标训练对象的得分。

步骤B2：利用预测分类结果与训练搜索图像特征是否包含单目标训练对象的实际分类结果，计算第二损失函数的取值，直至取值满足预设条件，则停止模型参数的更新，训练得到单目标对象判断模型；其中，第二损失函数的取值用于约束单目标对象判断模型参数的更新。

一种可选的实现方式是，可以将第二损失函数也设定为交叉熵损失函数，具体计算公式与上述公式一致，仅仅是计算因子取值的替换，在此不再赘述。

这样，在训练过程中，可以根据第一损失函数和第二损失函数的函数值的变化，对编码器网络、解码器网络和单目标对象判断模型的模型参数进行不断更新，直至第一损失函数和第二损失函数的函数值满足预设条件，比如均达到最小值且变化幅度很小（基本不变），则停止模型参数的更新，完成编码器网络、解码器网络和单目标对象判断模型的训练，并利用训练好的编码器网络、解码器网络和单目标对象判断模型进行单目标视频跟踪处理。

另外，由于本申请训练编码器网络、解码器网络和单目标对象判断模型时采用的是Transformer结构，而Transformer结构复杂且计算量大，会导致模型的推理速度较慢，由此，为了进一步提高单目标视频跟踪效率，本申请提出了裁剪网络的方式，来提高跟踪效率。

具体来讲，搜索图像中往往含有大量无用的背景，但这些无用的背景也会参与跟踪计算，这就导致了大量的无意义计算，而将它们剔除也不会影响跟踪效果。由此，如图5所示，本申请将搜索图像特征与解码器网络中每一层网络输出的中间特征进行相似度计算（具体计算方式不做限定，如可以采用余弦相似度计算），并将低于预设相似度阈值（具体取值不做限定，如可以取值为0.5）的相似度对应的搜索图像特征删除，以便解码器网络不再需要对删除的搜索图像特征进行处理，得到裁剪后的解码器网络。

这样，对于任意一段离线视频或在线视频流，通过执行上述步骤S101-S104，采用多张更新的模板图像实现特征提取和关系建模的联合操作、解码器部分采用离散化的坐标作为输入与输出、解码器网络进行的裁剪操作和引入了单目标对象判断模型（Has Target分支），均可实现对视频流中单目标视频的准确跟踪。

综上，本实施例提供的单目标视频跟踪方法，在获取到包含待跟踪的单目标对象的目标视频后，首先从目标视频中确定出包含第一帧图像对应的图像跟踪模板的M张图像跟踪模板，然后，提取M张图像跟踪模板的模板图像特征和目标视频中每一帧搜索图像的搜索图像特征，并将模板图像特征和搜索图像特征输入预先构建的编码器网络进行编码，得到编码特征；接着，将编码特征和开始标志位向量输入预先构建的解码器网络进行解码，预测出编码特征对应的搜索图像中单目标对象的位置和尺寸。

第二实施例

本实施例将对一种单目标视频跟踪装置进行介绍，相关内容请参见上述方法实施例。

参见图6，为本实施例提供的一种单目标视频跟踪装置的组成示意图，该装置600包括：

第一获取单元601，用于获取包含待跟踪的单目标对象的目标视频；并从所述目标视频中确定出M张图像跟踪模板；所述M张图像跟踪模板中包含所述目标视频的第一帧图像对应的图像跟踪模板；所述M为大于0的正整数；

第一提取单元602，用于提取所述M张图像跟踪模板的模板图像特征；以及提取所述目标视频中每一帧搜索图像的搜索图像特征；

第一编码单元603，用于将所述模板图像特征和所述搜索图像特征输入预先构建的编码器网络进行编码，得到编码特征；

第一解码单元604，用于将所述编码特征和开始标志位向量输入预先构建的解码器网络进行解码，预测出所述编码特征对应的搜索图像中所述单目标对象的位置和尺寸。

在本实施例的一种实现方式中，所述装置还包括：

在本实施例的一种实现方式中，所述第一提取单元602具体用于：

在本实施例的一种实现方式中，所述第一编码单元603具体用于：

在本实施例的一种实现方式中，所述装置还包括：

在本实施例的一种实现方式中，所述第一损失函数为交叉熵损失函数。

在本实施例的一种实现方式中，所述装置还包括：

在本实施例的一种实现方式中，所述初始单目标对象判断模型包括多层感知机；所述第二损失函数为交叉熵损失函数。

在本实施例的一种实现方式中，所述装置还包括：

进一步地，本申请实施例还提供了一种单目标视频跟踪设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述单目标视频跟踪方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述单目标视频跟踪方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述单目标视频跟踪方法的任一种实现方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等）执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种单目标视频跟踪方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述提取所述M张图像跟踪模板的模板图像特征；以及提取所述目标视频中每一帧搜索图像的搜索图像特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述模板图像特征和所述搜索图像特征输入预先构建的编码器网络进行编码，得到编码特征，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述编码器网络和所述解码器网络的构建方式如下：

6.根据权利要求5所述的方法，其特征在于，所述第一损失函数为交叉熵损失函数。

7.根据权利要求5所述的方法，其特征在于，所述单目标对象判断模型的构建方式如下：

8.根据权利要求7所述的方法，其特征在于，所述初始单目标对象判断模型包括多层感知机；所述第二损失函数为交叉熵损失函数。

9.根据权利要求1所述的方法，其特征在于，所述将所述编码特征和开始标志位向量输入预先构建的解码器网络进行解码之后，所述方法还包括：

10.根据权利要求1所述的方法，其特征在于，所述方法包括：

11.一种单目标视频跟踪装置，其特征在于，包括：

12.一种单目标视频跟踪设备，其特征在于，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行权利要求1-10任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1-10任一项所述的方法。