CN113963021A

CN113963021A - 一种基于时空特征和位置变化的单目标跟踪方法及系统

Info

Publication number: CN113963021A
Application number: CN202111214645.1A
Authority: CN
Inventors: 蒋鑫; 杜晓宇; 李泽超
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-10-19
Filing date: 2021-10-19
Publication date: 2022-01-21

Abstract

本发明涉及一种基于时空特征和位置变化的单目标跟踪方法及系统。该方法包括：获取待跟踪目标的初始模板、历史动态模板、搜索区域以及位置模板；根据待跟踪目标的初始模板、历史动态模板、搜索区域以及位置模板利用训练好的单目标跟踪器对所述待跟踪目标进行跟踪；即构建了一个利用时空信息和目标位置变化进行单目标跟踪的系统，创新性的提出了一个帮助模型学习目标位置变化的位置模板和学习目标位置变化的分支，让系统同时学习目标时空变化和位置变化，系统根据跟踪结果选择是否分离出目标和背景形成一个位置模板来指导模型学习目标在图像中的位置变化。本发明能够提高单目标的跟踪精度。

Description

一种基于时空特征和位置变化的单目标跟踪方法及系统

技术领域

本发明涉及计算机视觉领域，特别是涉及一种基于时空特征和位置变化的单目标跟踪方法及系统。

背景技术

近年来，视频数量大大增长，其中一个非常重要的主题是移动物体的活动。这促使了单目标跟踪在计算机视觉领域的广泛研究，其在视频监控、人机交互等领域中有着广阔的应用前景。时空单目标跟踪由空间单目标跟踪发展而来，空间单目标跟踪主要基于初始模板帧利用空间信息对视频中的目标进行跟踪，时空单目标跟踪则是基于初始模板帧利用时间和空间信息对视频中的目标进行跟踪。在现实应用中，因为目标在移动的过程中，形状、大小等都会发生变化，单纯的利用空间信息无法保证准确的跟踪，所以时空单目标跟踪在各个领域中都有更实际的应用价值和研究意义。

为了实现较高的跟踪精度，大多数现有的最先进的时空单目标跟踪算法都使用了一个历史帧集合来指导模型的跟踪或直接进行模型的在线更新，从中学习到目标的空间变化。但它们只注重学习目标形状大小等随时间的变化，但忽略了目标在图像中的位置变化，这导致在跟踪的过程中，模型可能会关注到同一图像中的相似目标，导致跟踪漂移等问题的出现。

因此，亟需一种基于时空特征和位置变化的单目标跟踪方法或系统以解决上述问题。

发明内容

本发明的目的是提供一种基于时空特征和位置变化的单目标跟踪方法及系统，能够提高单目标的跟踪精度。

为实现上述目的，本发明提供了如下方案：

一种基于时空特征和位置变化的单目标跟踪方法，包括：

获取待跟踪目标的初始模板、历史动态模板、搜索区域以及位置模板；所述搜索区域是以待跟踪目标为中心裁剪出来；所述搜索区域大于所述初始模板；所述位置模板与所述搜索区域大小相同；

根据待跟踪目标的初始模板、历史动态模板、搜索区域以及位置模板利用训练好的单目标跟踪器对所述待跟踪目标进行跟踪；

利用训练好的单目标跟踪器对所述待跟踪目标进行跟踪的过程为：

利用训练好的单目标跟踪器中的特征提取网络对初始模板、历史动态模板以及搜索区域的图像特征进行提取；

利用训练好的单目标跟踪器中的拉伸层对提取的图像特征进行特征拉伸；

利用训练好的单目标跟踪器中的transformer编码器将拉伸后的图像特征与目标变化的时空信息进行结合，确定图像特征图；

利用训练好的单目标跟踪器中的一个transformer译码器对图像特征图进行学习目标时空变化的预测，得到第一预测结果；

利用训练好的单目标跟踪器中的另一个transformer译码器以及位置模板对图像特征图进行学习目标位置变化的预测，得到第二预测结果；

对第一预测结果和第二预测结果进行正则化，并将正则化后的结果分别输入训练好的单目标跟踪器中的边框预测模块和跟踪结果评估模块；

判断跟踪结果评估模块的输出结果是否大于设定阈值；

若跟踪结果评估模块的输出结果小于或等于设定阈值，则返回所述获取待跟踪目标的初始模板、历史动态模板、搜索区域以及位置模板的步骤，进行下一步的跟踪；

若跟踪结果评估模块的输出结果大于设定阈值，则根据边框预测模块的输出结果对历史动态模板和位置模板进行更新，并返回所述利用训练好的单目标跟踪器中的特征提取网络对初始模板、历史动态模板以及搜索区域的图像特征进行提取的步骤。

可选地，所述拉伸后的图像特征为一维图像。

可选地，transformer编码器通过self-attention操作将目标变化的时空信息添加到拉伸后的图像特征中。

可选地，利用公式Re＝decoder(fe，tq)确定第一预测结果；

利用Rp＝decoder(fe*fm，tq)确定第二预测结果；

利用R＝norm(Re+Rp)确定正则化后的结果；

其中，Re为第一预测结果，Rp为第二预测结果，R为正则化后的结果，tq为目标检索序列，decoder为译码器，norm()函数为正则化函数。

可选地，利用公式f_m＝Seg(Img)确定位置模板；

其中，f_m为生成的位置模板，Seg()为分割函数，用于前后景分割和对前后景赋值，Img为输入的搜索区域的图像。

可选地，所述训练好的单目标跟踪器的损失函数为：

L_ce＝y_ilog(P_i)+(1-y_i)log(1-P_i)；

其中，L为第一阶段的损失，λ_iou为IoU损失的权重，L_iou为IoU损失函数，bi为第一阶段训练跟踪器对第i个输入的跟踪结果，

为对应bi的监督标签groundtruth，λ_L1为L1损失函数权重，L1为L1损失函数，L_ce为第二阶段的损失，y_i为groundtruth标签，P_i为跟踪结果评估模块预测的评估值，也是第二阶段训练时跟踪器的输出。

一种基于时空特征和位置变化的单目标跟踪系统，包括：

图像获取模块，用于获取待跟踪目标的初始模板、历史动态模板、搜索区域以及位置模板；所述搜索区域是以待跟踪目标为中心裁剪出来；所述搜索区域大于所述初始模板；所述位置模板与所述搜索区域大小相同；

跟踪模块，用于根据待跟踪目标的初始模板、历史动态模板、搜索区域以及位置模板利用训练好的单目标跟踪器对所述待跟踪目标进行跟踪；

利用训练好的单目标跟踪器中的另一个transformer译码器以及位置模板对图像特征图进行学习目标位置变化的预测，得到第二预测结果；所述位置模板与所述搜索区域大小相同；

判断跟踪结果评估模块的输出结果是否大于设定阈值；

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明所提供的一种基于时空特征和位置变化的单目标跟踪方法及系统，提出一种可同时学习到目标时空变化和位置变化的单目标跟踪方法，针对传统的时空单目标跟踪方法中存在的未对位置变化进行学习的问题，提出了位置变化模板和同时学习目标时空变化和位置变化的单目标跟踪方法，使模型在跟踪过程中更加关注目标，提高了跟踪的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的一种基于时空特征和位置变化的单目标跟踪方法流程示意图；

图2为基础跟踪器结构示意图；

图3是本发明所提供的位置模板示意图；

图4是本发明所提供的位置变化学习分支示意图；

图5是本发明所提供的单目标跟踪器结构示意图；

图6本发明所提供的一种基于时空特征和位置变化的单目标跟踪系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明所提供的一种基于时空特征和位置变化的单目标跟踪方法流程示意图，如图1所示，本发明所提供的一种基于时空特征和位置变化的单目标跟踪方法，包括：

S101，获取待跟踪目标的初始模板、历史动态模板、搜索区域以及位置模板；所述搜索区域是以待跟踪目标为中心裁剪出来；所述搜索区域大于所述初始模板；所述位置模板与所述搜索区域大小相同；即搜索区域面积大小为初始模板大小的4倍；

S102，根据待跟踪目标的初始模板、历史动态模板、搜索区域以及位置模板利用训练好的单目标跟踪器对所述待跟踪目标进行跟踪；

S201，利用训练好的单目标跟踪器中的特征提取网络对初始模板、历史动态模板以及搜索区域的图像特征进行提取；

提取出图像特征为

和

其中的H_z，H_x分别是输入的模板(初始模板和历史动态模板)图像和搜索区域图像的大小，s是卷积的步长，C为最后feature maps的通道数。

S202，利用训练好的单目标跟踪器中的拉伸层对提取的图像特征进行特征拉伸；所述拉伸后的图像特征ft为一维图像。

S203，利用训练好的单目标跟踪器中的transformer编码器将拉伸后的图像特征与目标变化的时空信息进行结合，确定图像特征图fe；

S203具体包括：

transformer编码器通过self-attention操作将目标变化的时空信息添加到拉伸后的图像特征中

S204，利用训练好的单目标跟踪器中的一个transformer译码器对图像特征图进行学习目标时空变化的预测，得到第一预测结果；

S205，利用训练好的单目标跟踪器中的另一个transformer译码器以及位置模板对图像特征图进行学习目标位置变化的预测，得到第二预测结果；所述位置模板与所述搜索区域大小相同；

S205具体包括：

利用公式f_m＝Seg(Img)确定位置模板；

S206，对第一预测结果和第二预测结果进行正则化，并将正则化后的结果分别输入训练好的单目标跟踪器中的边框预测模块和跟踪结果评估模块；

边框预测模块利用fe和R计算出一个相似性图，并与R做一个点乘用来增强重要区域并削弱判别性较小的区域。将其结果送入一个全连接网络产生最终预测的边框的左上角和右下角坐标。

S206具体包括：

利用公式Re＝decoder(fe，tq)确定第一预测结果；

利用Rp＝decoder(fe*fm，tq)确定第二预测结果；

利用R＝norm(Re+Rp)确定正则化后的结果；

S207，判断跟踪结果评估模块的输出结果是否大于设定阈值；

S208，若跟踪结果评估模块的输出结果小于或等于设定阈值，则返回所述获取待跟踪目标的初始模板、历史动态模板、搜索区域以及位置模板的步骤，进行下一步的跟踪；

S209，若跟踪结果评估模块的输出结果大于设定阈值，则根据边框预测模块的输出结果对历史动态模板和位置模板进行更新，并返回S201的步骤。

训练的过程为：

采用了常用的监督学习训练方法，在模型对训练数据进行预测后，利用标签信息对模型进行学习和优化，得到训练后的模型参数。目前主流的思想将跟踪任务分为定位和回归两个任务，因此本方法也是采用该思想，将整个训练分为两个阶段进行训练，两个阶段的网络输入都是搜索区域帧，初始模板帧，历史动态模板帧和位置模板，但用于训练的网络输出和监督标签都不同。第一阶段执行定位相关的任务，对transformer编码器、transformer译码器和边框预测模块进行训练，用于训练的网络输出是边框预测模块输出。第二阶段执行回归相关的任务，其利用第一阶段训练的模块，但保持第一阶段训练的模块的参数不变，只对跟踪结果评估模块进行训练，用于训练的网络输出是跟踪结果评估模块的输出，通过训练的损失值计算梯度进行反向传播来指导两个阶段的训练。

所述训练好的单目标跟踪器的损失函数为：

L_ce＝y_ilog(P_i)+(1-y_i)log(1-P_i)；

其中，L为第一阶段的损失，λ_iou为IoU损失的权重，L_iou为IoU损失函数，b_i为第一阶段训练跟踪器对第i个输入的跟踪结果，

为对应b_i的监督标签groundtruth，λ_L1为L1损失函数权重，L1为L1损失函数，L_ce为第二阶段的损失，y_i为groundtruth标签，P_i为跟踪结果评估模块预测的评估值，也是第二阶段训练时跟踪器的输出。

图6本发明所提供的一种基于时空特征和位置变化的单目标跟踪系统结构示意图，如图6所示，本发明所提供的一种基于时空特征和位置变化的单目标跟踪系统，包括：

图像获取模块601，用于获取待跟踪目标的初始模板、历史动态模板、搜索区域以及位置模板；所述搜索区域是以待跟踪目标为中心裁剪出来；所述搜索区域大于所述初始模板；所述位置模板与所述搜索区域大小相同；

跟踪模块602，用于根据待跟踪目标的初始模板、历史动态模板、搜索区域以及位置模板利用训练好的单目标跟踪器对所述待跟踪目标进行跟踪；

判断跟踪结果评估模块的输出结果是否大于设定阈值；

若跟踪结果评估模块的输出结果小于或等于设定阈值，则返回所述获取待跟踪目标的初始模板、历史动态模板、搜索区域以及位置模板的步骤，进行下一步的跟；

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于时空特征和位置变化的单目标跟踪方法，其特征在于，包括：

判断跟踪结果评估模块的输出结果是否大于设定阈值；

2.根据权利要求1所述的一种基于时空特征和位置变化的单目标跟踪方法，其特征在于，所述拉伸后的图像特征为一维图像。

3.根据权利要求1所述的一种基于时空特征和位置变化的单目标跟踪方法，其特征在于，transformer编码器通过self-attention操作将目标变化的时空信息添加到拉伸后的图像特征中。

4.根据权利要求1所述的一种基于时空特征和位置变化的单目标跟踪方法，其特征在于，利用公式Re＝decoder(fe，tq)确定第一预测结果；

利用Rp＝decoder(fe*fm，tq)确定第二预测结果；

利用R＝norm(Re+Rp)确定正则化后的结果；

5.根据权利要求1所述的一种基于时空特征和位置变化的单目标跟踪方法，其特征在于，利用公式f_m＝Seg(Img)确定位置模板；

6.根据权利要求1所述的一种基于时空特征和位置变化的单目标跟踪方法，其特征在于，所述训练好的单目标跟踪器的损失函数为：

L_ce＝y_ilog(P_i)+(1-y_i)log(1-P_i)；

7.一种基于时空特征和位置变化的单目标跟踪系统，其特征在于，包括：

判断跟踪结果评估模块的输出结果是否大于设定阈值；