CN115272420B

CN115272420B - 一种长时目标跟踪方法、系统及存储介质

Info

Publication number: CN115272420B
Application number: CN202211188338.5A
Authority: CN
Inventors: 何震宇; 吴述坤; 田超; 杨超
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2023-01-17
Anticipated expiration: 2042-09-28
Also published as: CN115272420A

Abstract

本发明提供了一种长时目标跟踪方法、系统及存储介质，该长时目标跟踪系统包括数据读取模块、双光融合跟踪模块、单光级联检测模块和决策模块，所述双光融合跟踪模块包括图像特征对齐模块、特征融合模块、多跟踪器协同模型；所述单光级联检测模块包括方差检测器、集合检测器、最近邻检测器；所述数据读取模块用于从可见光和热红外摄像头读取可见光图像和热红外图像。本发明的有益效果是：本发明的长时目标跟踪方法及系统具有较高的跟踪精度、鲁棒性与实时性。

Description

一种长时目标跟踪方法、系统及存储介质

技术领域

本发明涉及目标跟踪技术领域，尤其涉及一种长时目标跟踪方法、系统及存储介质。

背景技术

当前长时目标跟踪技术必须面对真实场景中的光照变化、目标消失再出现、剧烈的尺度变化等问题。为解决上述问题，基于跟踪与检测结合的长时跟踪方法主要是通过跟踪器进行短时跟踪，检测器进行目标丢失时重捕获。

这种基于跟踪与检测结合的长时跟踪方法采用可见光图像作为唯一输入，其思想主要分为三个阶段，第一个阶段，跟踪器利用当前帧目标局部信息预测下一帧的目标状态，第二阶段是检测器利用当前帧全局信息预测下一帧的目标状态，第三个阶段是综合跟踪器和检测器的预测结果决策出下一帧的最优目标状态。

在数据的使用方面，现有的长时目标跟踪方法可以分为两类，一类是仅使用一种模态数据的跟踪方法，比如基于可见光的跟踪方法和基于热红外的跟踪方法；另一类是使用多种模态数据的跟踪方法，比如基于可见光-热红外的跟踪方法。第一类方法由于使用的数据类型有限，导致其应用场景受到很大限制；第二类方法使用了多种模态的数据，虽然可以应对更复杂的场景，但是输入数据的增加导致了计算量的增加。

背景技术的缺陷如下：

数据使用方面：现有的基于跟踪与检测结合的长时跟踪算法仅使用可见光图像作为输入，因可见光图像的成像特性，导致该类算法在夜晚、雨雾天等场景中难以取得满意的跟踪效果。

现有的双光特征融合的不足：现有的双光特征融合方法主要分为三类，一类是基于简单融合策略的方法，这些方法对双光图像特征通过逐元素相加和拼接等方式来实现特征的结合，该类方法忽略了不同模态的质量与相关性; 第二类是基于模态权重的融合方法，这些方法通过调节不同场景下可见光图像特征与热红外图像特征的权重来实现融合;第三类是基于注意力机制的融合方法，这些方法引入注意力机制来提高模型的局部或全局特征提取能力。而第二类和第三类特征融合方法直接对可见光和热红外图像特征进行融合操作，忽略了模态差异带来的不良影响，同时没有权衡好模态特有特征与模态共享特征的关系。

可见光和热红外图像对位置偏移的问题：现有的双光目标跟踪算法都假设可见光图像和热红外图像是严格对齐的，然而在实际场景中由于可见光摄像头和热红外摄像头的不同抖动程度、视差等因素的影响，导致获取的可见光和热红外图像对不是完全对齐的，也即存在位置偏移问题。位置偏移问题会严重影响跟踪算法的性能。

基于跟踪与检测相结合的长时跟踪算法运行速度的缺陷：现有的跟踪与检测结合的跟踪算法在目标丢失（目标运动出视野、目标被遮挡）时，采用全局搜索的检测器对丢失目标进行重捕获，也即通过滑动窗口遍历整幅可见光图像得到非常多的候选目标图像块，对这些候选图像块分别进行检测从而判断是否含有丢失的目标。当目标比较小时，需要检测的候选图像块数量非常庞大，从而导致算法运行速度慢。

发明内容

本发明提供了一种长时目标跟踪方法，包括如下步骤：

数据读取步骤：从可见光和热红外摄像头读取可见光图像和热红外图像；

图像特征对齐步骤：将可见光图像和热红外图像输入到一个离线训练好的特征对齐模块中，经过该特征对齐模块的处理使得可见光图像和热红外图像在特征层面上是完全对齐的，将可见光图像和热红外图像称为双光图像；

特征融合步骤：将对齐后的双光图像特征输入到一个离线训练好的特征融合模块中，在轻量特征融合模块中对双光图像特征进行空间和语义层级的融合；

多跟踪器协同预测步骤：多跟踪器协同模型基于融合后的特征和当前帧目标状态预测下一帧中目标的状态

；

单光级联检测步骤：对可见光图像通过滑动窗口生成多个候选目标图像块，将候选目标图像块依次经过方差检测器、集合检测器、最近邻检测器的处理后预测得到下一帧的目标状态

；

决策步骤：将多跟踪器协同模型的输出

和单光级联检测步骤输出的

进行置信度比较，将其中置信度最高的作为最终的长时目标跟踪的结果进行输出。

作为本发明的进一步改进，在所述决策步骤中，依据式(5-1)选择出最优的目标状态

作为最终的输出，

(5-1)

上式中

代表相关相似度，

代表初始帧的目标状态，

为

或

。

作为本发明的进一步改进，在所述图像特征对齐步骤中，将可见光图像和热红外图像输入到一个离线训练好的特征对齐模块中，输入的可见光图像特征和热红外图像特征分别为

和

，将可见光图像特征作为参考特征，通过预测的偏移量来调整热红外图像特征，调整后的热红外图像特征为

，

(5-2)

(5-3)

表示将可见光图像特征与热红外图像特征沿通道维度进行拼接，将拼接的特征通过卷积操作

预测出可见光与热红外特征点之间的偏移量

，

操作根据学习出来的偏移量对热红外图像特征进行调整，且

采用可形变卷积实现。

作为本发明的进一步改进，在所述特征融合步骤，

，R为实数域，

代表其为C×H×W维的实数张量，进行形状调整后得到四个嵌入特征

，代表大小都为HW×C的张量，之后对

和

、

和

分别进行矩阵乘操作得到模态内的跨通道相似矩阵，

(5-5)

(5-6)

将可见光的跨通道相似矩阵

与热红外的跨通道相似矩阵

进行矩阵点乘操作，从而得到模态共享的语义模式传播矩阵，

(5-7)

代表过滤操作，将小于0的值设置为0，

为归一化操作；

将语义模式传播矩阵分别与输入特征进行矩阵乘操作，从而得到在可见光和热红外图像中模态共享的语义信息，

(5-8)

(5-9)

可见光和热红外图像中模态共享的空间信息，

(5-10)

在式（5-10）中，

代表模态共享的空间模式传播矩阵，

(5-11)

使用逐元素相加将模态共享的语义信息和空间特征信息与原特征进行融合，

(5-12)

(5-13)

是可调整的超参数。

作为本发明的进一步改进，在所述多跟踪器协同模型中，采用多个传统跟踪器与一个深度学习类跟踪器进行协同跟踪，对于每一帧图像，n个传统跟踪器的预测结果为

，深度学习类跟踪器的预测结果为

，根据式(5-14)确定最终的预测结果

，

(5-14)

在每隔m帧执行一次深度学习类跟踪器，中间帧只执行传统跟踪器，此时最终的预测结果由下式确定，

(5-15)。

作为本发明的进一步改进，在方差检测器中，对

个图像片的检测任务，采用 dynamic策略将检测任务划分成大小为

的任务块，并采用n个线程并行执行每个任务块，其中初始化线程的数量按照下式的策略确定，

(5-16)

在集合检测器中，对

个图像片的检测任务，将图像片加载到GPU内存中，将GPU中的线程组织为

个线程块，在GPU中，线程块中的每个线程负责计算该图像片上一对特征点的像素比较值，每个线程块依据该比较值完成对一个图像片的检测；

(5-17)

(5-18)

在最近邻检测器中，对图像片计算其与先前帧中的正负样本的相似度值，依据该相似度值对其进行检测分类，假设先前的正样本和负样本数量分别为

和

，对于

个

大小的图像片的检测任务，将这些图像片和正负样本加载到GPU内存中，将GPU中的线程组织为

个大小为

的线程块；在GPU中，线程块中的每个线程负责计算一个图像片与正样本或负样本上对应像素点的相似度值，每个线程块依据该相似度值完成对一个图像片的检测。

本发明还提供了一种长时目标跟踪系统，包括数据读取模块、双光融合跟踪模块、单光级联检测模块和决策模块，

所述双光融合跟踪模块包括图像特征对齐模块、特征融合模块、多跟踪器协同模型；

所述单光级联检测模块包括方差检测器、集合检测器、最近邻检测器；

所述数据读取模块用于从可见光和热红外摄像头读取可见光图像和热红外图像，

将可见光图像和热红外图像输入到双光融合跟踪模块，可见光图像和热红外图像依次经过图像特征对齐模块、特征融合模块、多跟踪器协同模型后预测得到下一帧的目标状态

；

将可见光图像输入到单光级联检测模块，对可见光图像通过滑动窗口生成多个候选目标图像块，将候选目标图像块依次经过方差检测器、集合检测器、最近邻检测器的处理后预测得到下一帧的目标状态

；

将

和

输入到决策模块中，将

和

作为本发明的进一步改进，在所述决策模块中，依据式(5-1)选择出最优的目标状态

作为最终的输出，

(5-1)

上式中

代表相关相似度，

代表初始帧的目标状态，

为

或

。

作为本发明的进一步改进，所述图像特征对齐模块：用于对可见光图像和热红外图像进行处理，使得可见光图像和热红外图像在特征层面上是完全对齐的，将可见光图像和热红外图像称为双光图像；

所述特征融合模块：用于将对齐后的双光图像特征进行空间和语义层级的融合；

所述多跟踪器协同模型基于融合后的特征和当前帧目标状态预测下一帧中目标的状态

。

作为本发明的进一步改进，在所述图像特征对齐模块中，输入的可见光图像特征和热红外图像特征分别为

和

，

(5-2)

(5-3)

预测出可见光与热红外特征点之间的偏移量

，

操作根据学习出来的偏移量对热红外图像特征进行调整，且

采用可形变卷积实现。

作为本发明的进一步改进，在所述特征融合模块中，

，R为实数域，

，代表大小都为HW×C的张量，之后对

和

、

和

分别进行矩阵乘操作得到模态内的跨通道相似矩阵，

(5-5)

(5-6)

将可见光的跨通道相似矩阵

与热红外的跨通道相似矩阵

(5-7)

代表过滤操作，将小于0的值设置为0，

为归一化操作；

(5-8)

(5-9)

可见光和热红外图像中模态共享的空间信息，

(5-10)

在式（5-10）中，

代表模态共享的空间模式传播矩阵，

(5-11)

(5-12)

(5-13)

是可调整的超参数。

，深度学习类跟踪器的预测结果为

，根据式(5-14)确定最终的预测结果

，

(5-14)

(5-15)。

作为本发明的进一步改进，在方差检测器中，对

(5-16)

在集合检测器中，对

(5-17)

(5-18)

和

，对于

个

个大小为

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现本发明的长时目标跟踪方法的步骤。

本发明的有益效果是：本发明的长时目标跟踪方法及系统具有较高的跟踪精度、鲁棒性与实时性。

附图说明

图1是本发明的长时目标跟踪系统原理图。

具体实施方式

本发明公开了一种长时目标跟踪方法，包括如下步骤：

数据读取步骤：从可见光和热红外摄像头读取可见光图像和热红外图像，在之后的处理中，可见光图像将作为检测算法的唯一输入，热红外图像和可见光图像将作为双光目标跟踪的输入；

特征融合步骤：将对齐后的双光图像特征输入到一个离线训练好的特征融合模块中，在特征融合模块中对双光图像特征进行空间和语义层级的融合；

；

单光级联检测步骤：对可见光图像通过滑动窗口生成大量候选目标图像块，将候选目标图像块依次经过方差检测器、集合检测器、最近邻检测器的处理后预测得到下一帧的目标状态

；

决策步骤：将多跟踪器协同模型的输出

和单光级联检测步骤输出的

在所述决策步骤中，依据式(5-1)选择出最优的目标状态

作为最终的输出，

(5-1)

上式中

代表相关相似度，

代表初始帧的目标状态。

现有的基于跟踪与检测结合的长时跟踪算法仅使用可见光图像作为输入，因可见光图像的成像特性，导致该类算法在夜晚、雨雾天等场景中难以取得满意的跟踪效果。为了解决这个问题，本发明新增热红外图像作为额外的输入，如图1所示，本发明还公开了一种双光（可见光和热红外）目标跟踪与单光（可见光）检测相结合的长时目标跟踪系统，包括数据读取模块、双光融合跟踪模块、单光级联检测模块和决策模块，

；

将可见光图像输入到单光级联检测模块，对可见光图像通过滑动窗口生成大量候选目标图像块，将候选目标图像块依次经过方差检测器、集合检测器、最近邻检测器的处理后预测得到下一帧的目标状态

；

将

和

输入到决策模块中，将

和

在所述决策模块中，依据式(5-1)选择出最优的目标状态

作为最终的输出，

(5-1)

上式中

代表相关相似度，

代表初始帧的目标状态。

所述图像特征对齐模块：用于对可见光图像和热红外图像进行处理，使得可见光图像和热红外图像在特征层面上是完全对齐的，将可见光图像和热红外图像称为双光图像；

。

下面进行具体详细说明：

1. 图像特征对齐模块：

为解决可见光和热红外图像对位置偏移的问题，本发明在特征层级对热红外图像特征进行调整，即通过监督学习的特征偏差来微调热红外图像特征。假设输入的可见光图像特征和热红外图像特征分别为

和

，

(5-2)

(5-3)

上式中，

预测出可见光与热红外特征点之间的偏移量

，

操作根据学习出来的偏移量对热红外图像特征进行调整，且

采用可形变卷积实现。

在离线训练图像对齐模块时，我们采用人为标注的真实标签

来监督训练该模块，其中训练时我们采用均方误差损失MSE，即

(5-4)

2. 特征融合模块:

为避免可见光和热红外模态差异带来的不良影响，本发明提出一种基于通道与空间模式传播的特征融合方法。假设输入的可见光图像特征和热红外图像特征分别为

和

，且

，对这些特征进行形状调整后得到

，之后对

和

、

和

分别进行矩阵乘操作得到模态内的跨通道相似矩阵，

(5-5)

(5-6)

上式计算出来的跨通道相似矩阵对同一模态内的长距离语义关系进行了建模。将可见光的跨通道相似矩阵

与热红外的跨通道相似矩阵

(5-7)

上式中

代表过滤操作，将小于0的值设置为0，

为归一化操作。将语义模式传播矩阵分别与输入特征进行矩阵乘操作，从而得到在可见光和热红外图像中模态共享的语义信息，

(5-8)

(5-9)

与通道模式传播类似，基于模态共享的空间模式传播矩阵，我们可以得到可见光和热红外图像中模态共享的空间信息，

(5-10)

(5-11)

为了实现模态共享特征之间的相互补充，我们使用逐元素相加将模态共享的语义信息和空间特征信息与原特征进行融合，

(5-12)

(5-13)

上式中，

都是可调整的超参数。式(5-12)和(5-13)中，模态共享的语义与空间信息被加入到另一个模态的原信息中，因此模态共享的语义和空间信息实现了互惠互利，同时也保护了模态的特有特征。

综上，为了解决现有的双光特征融合不足的问题，本发明提出了一种基于模式传播的双光特征融合方法，通过模态间模式的相关性，可以在保护模态特有特征的同时实现模态共享特征间的充分交互，从而提高跟踪的性能。

本发明不同于背景技术的方法，本发明更准备的说是一种双光目标跟踪与单光检测相结合的跟踪方法，提出了一系列方法来兼顾跟踪质量和计算效率。在特征融合方面，现有的特征融合方法均采用的是模态数据直接交互（相加、通道拼接等）的方式，虽然实现了模态共享信息的增强，但该方式会对模态特有特征造成污染。本发明在实现模态共享特征的交互的同时，考虑了对模态特有特征的保护。

3. 多跟踪器协同模型：

为了解决传统跟踪器速度快但性能不高、深度学习类跟踪器性能高但速度慢的问题，我们提出一种传统跟踪器与深度学习类跟踪器相互协同的模型，该模型可以兼顾速度与精度。

在该模型中，我们采用多个传统跟踪器（将不使用卷积网络进行推理计算的跟踪算法定义为传统跟踪器）与一个深度学习类跟踪器（将使用卷积网络进行推理计算的跟踪算法定义为深度学习类跟踪器）进行协同跟踪。对于每一帧图像，n个传统跟踪器的预测结果为

，深度学习类跟踪器的预测结果为

，根据式(5-14)确定最终的预测结果

，

(5-14)

由于深度学习类跟踪器的运行速度慢，所以我们只在每隔m帧执行一次深度学习类跟踪器，中间帧只执行传统跟踪器，此时最终的预测结果由下式确定，

(5-15)

4. 基于OpenMP和Cuda的CPU-GPU异构并行加速方法

为了解决级联检测中检测器运行速度慢的问题，我们基于OpenMP对方差检测器进行CPU并行化加速，基于Cuda对集合检测器和最近邻检测器进行GPU并行化加速。

在方差检测器中，对

个图像片的检测任务，采用dynamic策略将检测任务划分成大小为

(5-16)

在集合检测器中，对

个线程块，其中

由下式确定。在GPU中，线程块中的每个线程负责计算该图像片上一对特征点的像素比较值，每个线程块依据该比较值完成对一个图像片的检测。

(5-17)

(5-18)

在最近邻检测器中，对图像片计算其与先前帧中的正负样本的相似度值，依据该相似度值对其进行检测分类。假设先前的正样本和负样本数量分别为

和

，对于

个

个大小为

的线程块。在GPU中，线程块中的每个线程负责计算一个图像片与正样本或负样本上对应像素点的相似度值，每个线程块依据该相似度值完成对一个图像片的检测。

本发明的有益效果是：通过上述方案，此长时目标跟踪器具有较高的跟踪精度、鲁棒性与实时性。具体表述为：

（1）对长时目标跟踪任务，本发明提出一种长时目标跟踪系统（新的跟踪框架），将传统算法中的单光跟踪-单光检测的框架替换为双光融合跟踪-单光级联检测的跟踪框架，使跟踪算法在夜晚、雨雾天等复杂场景下具有更强的鲁棒性。

（2）针对可见光和热红外图像对位置偏移的问题，设计了一个图像特征对齐模块用于动态调整热红外图像特征，使得热红外图像特征与可见光图像特征在空间上对齐，使跟踪算法可以适用于图像不完全对齐的情况，扩大了跟踪算法的应用场景。

（3）针对模态差异给跟踪带来不良影响的问题，提出一种基于通道与空间模式传播的特征融合方法，该方法避免了可见光与热红外两种模态之间的直接交互，基于模态共享的语义与空间信息建模，提高了特征融合的有效性。

（4）提出多跟踪器协同模型，利用多个传统跟踪算法与深度学习类跟踪算法进行协同跟踪，兼顾了传统跟踪器的速度与深度学习类跟踪器的精度，使跟踪算法具有更高的精度与实时性。

（5）针对长时跟踪算法中检测器速度慢的问题，提出基于OpenMP与Cuda的CPU-GPU异构并行加速方案，对级联检测器中的方差检测器进行CPU并行加速，对集合检测器和最近邻检测器进行GPU并行加速，解决了检测器带来的速度瓶颈问题。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种长时目标跟踪方法，其特征在于，包括如下步骤：

；

；

决策步骤：将多跟踪器协同模型的输出

和单光级联检测步骤输出的

进行置信度比较，将其中置信度最高的作为最终的长时目标跟踪的结果进行输出；

在所述特征融合步骤，

，

和

分别表示可见光图像特征和热红外图像特征，R为实数域，

，代表大小都为HW×C的张量，之后对

和

、

和

分别进行矩阵乘操作得到模态内的跨通道相似矩阵，

(5-5)

(5-6)

将可见光的跨通道相似矩阵

与热红外的跨通道相似矩阵

(5-7)

代表过滤操作，将小于0的值设置为0，

为归一化操作；

(5-8)

(5-9)

可见光和热红外图像中模态共享的空间信息，

(5-10)

在式（5-10）中，

代表模态共享的空间模式传播矩阵，

(5-11)

(5-12)

(5-13)

是可调整的超参数；

在所述多跟踪器协同模型中，采用多个传统跟踪器与一个深度学习类跟踪器进行协同跟踪，对于每一帧图像，n个传统跟踪器的预测结果为

，深度学习类跟踪器的预测结果为

，根据式(5-14)确定最终的预测结果

，

(5-14)

(5-15)。

2.根据权利要求1所述的长时目标跟踪方法，其特征在于，在所述决策步骤中，依据式 (5-1)选择出最优的目标状态

作为最终的输出，

(5-1)

上式中

代表相关相似度，

代表初始帧的目标状态，

为

或

。

3.根据权利要求1所述的长时目标跟踪方法，其特征在于，在所述图像特征对齐步骤中，将可见光图像和热红外图像输入到一个离线训练好的特征对齐模块中，将可见光图像特征作为参考特征，通过预测的偏移量来调整热红外图像特征，调整后的热红外图像特征为

，

(5-2)

(5-3)

预测出可见光与热红外特征点之间的偏移量

，

操作根据学习出来的偏移量对热红外图像特征进行调整，且

采用可形变卷积实现。

4.根据权利要求1所述的长时目标跟踪方法，其特征在于，

在方差检测器中，对

(5-16)

在集合检测器中，对

(5-17)

(5-18)

和

，对于

个

个大小为

5.一种长时目标跟踪系统，其特征在于，包括数据读取模块、双光融合跟踪模块、单光级联检测模块和决策模块，

；

；

将

和

输入到决策模块中，将

和

在所述特征融合模块中，

，

和

分别表示可见光图像特征和热红外图像特征，R为实数域，

，代表大小都为HW×C的张量，之后对

和

、

和

分别进行矩阵乘操作得到模态内的跨通道相似矩阵，

(5-5)

(5-6)

将可见光的跨通道相似矩阵

与热红外的跨通道相似矩阵

(5-7)

代表过滤操作，将小于0的值设置为0，

为归一化操作；

(5-8)

(5-9)

可见光和热红外图像中模态共享的空间信息，

(5-10)

在式（5-10）中，

代表模态共享的空间模式传播矩阵，

(5-11)

(5-12)

(5-13)

是可调整的超参数；

，深度学习类跟踪器的预测结果为

，根据式(5-14)确定最终的预测结果

，

(5-14)

(5-15)。

6.根据权利要求5所述的长时目标跟踪系统，其特征在于，在所述决策模块中，依据式 (5-1)选择出最优的目标状态

作为最终的输出，

(5-1)

上式中

代表相关相似度，

代表初始帧的目标状态，

为

或

。

7.根据权利要求5所述的长时目标跟踪系统，其特征在于，

。

8.根据权利要求7所述的长时目标跟踪系统，其特征在于，在所述图像特征对齐模块中，将可见光图像特征作为参考特征，通过预测的偏移量来调整热红外图像特征，调整后的热红外图像特征为

，

(5-2)

(5-3)

预测出可见光与热红外特征点之间的偏移量

，

操作根据学习出来的偏移量对热红外图像特征进行调整，且

采用可形变卷积实现。

9.根据权利要求5所述的长时目标跟踪系统，其特征在于，

在方差检测器中，对

(5-16)

在集合检测器中，对

(5-17)

(5-18)

和

，对于

个

个大小为

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现权利要求1－4中任一项所述的长时目标跟踪方法的步骤。