CN115100235B

CN115100235B - 一种目标跟踪方法、系统及存储介质

Info

Publication number: CN115100235B
Application number: CN202210989700.2A
Authority: CN
Inventors: 何震宇; 李高俊; 田超; 杨超
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2022-08-18
Filing date: 2022-08-18
Publication date: 2022-12-20
Anticipated expiration: 2042-08-18
Also published as: CN115100235A

Abstract

本发明提供了一种目标跟踪方法、系统及存储介质，目标跟踪方法包括预训练步骤、训练步骤和预测步骤，在训练步骤中，使用共享特征的特征提取网络分别对模板图像和搜索图像进行特征提取，得到模板特征和搜索特征，经过级联自注意力‑跨注意力特征增强融合模块进行模板特征和搜索特征的深层融合，然后经过细节特征增强模块进行多分支的特征细节增强，再进入跨注意力特征模块做最终的特征融合后，最后使用一个跟踪头预测目标的坐标；在整个训练过程中，采用基于全局和局部的知识蒸馏训练方法来指导训练。本发明的有益效果是：本发明的目标跟踪方法及系统具有较高的跟踪精度、鲁棒性与泛化能力。

Description

一种目标跟踪方法、系统及存储介质

技术领域

本发明涉及目标跟踪技术领域，尤其涉及一种目标跟踪方法、系统及存储介质。

背景技术

当前目标跟踪技术必须面对真实场景中的遮挡，光照变化，目标旋转和尺度变化等问题。为解决上述问题，基于深度学习的跟踪方法主要是通过训练深层网络来学习目标特征，完成目标跟踪。其中基于孪生网络的深度学习跟踪方法包含两个输入，然后将两个输入连接起来形成一个输出，以确定两个输入网络间是否包含相同的信息，与相关滤波类似，孪生网络也是衡量两个输入的相似性。

这种孪生网络跟踪的思想主要分为两个阶段，第一个阶段，利用已知位置的当前帧来训练网络模型，第二阶段是使用第一阶段得到的模型预测当前帧中目标的位置。

在数据使用方面，目前热红外目标跟踪方法一般仅采用热红外图像进行训练，完成训练后，也仅在热红外数据上进行测试（应用）。另有一类“可见光-热红外”双光（RGB-T）跟踪算法，这类算法在模型训练和测试（实际应用）中，都需使用成对的视角对齐的双模态数据；同时算法的架构需针对双模态数据重新设计，通常采用两个以上并列的特征提取器，分别提取各个模态的特征，计算量大。其优点是跟踪效果更好，缺点是对输入数据需求更高，计算效率更低。

背景技术的缺陷：

孪生网络架构中互相关操作缺陷：相关性在孪生网络跟踪方法中扮演一个至关重要的角色，这种相关性操作将模板特征与搜索特征有效的融合起来（一般采用互相关操作），互相关操作具体是将模板特征作为卷积核参数，而搜索特征作为卷积核输入特征进行计算，这种互相关操作本身是一个局部线性匹配过程，容易引起高级语义信息丢失，从而陷入局部最优中。另外由于红外图像相较于可见光图像，由于红外图像显示物体的温度分布，在实际中要跟踪的目标的轮廓较可见光更显著，但是其细节比可见光更少，这需要算法能够对细节特征有更多的保留。由前面的互相关操作可以发现模板特征图大小普遍偏低（一般为5x5或者7x7），造成这种互相关操作在红外跟踪中细节保留不足，极大影响模板图像与搜索图像相关性的计算。

数据使用方面：现有红外跟踪算法，仅使用热红外数据进行训练，因热红外图像的特性，难以获得满意的跟踪效果。另一类同时添加使用可见光图像进行训练的跟踪算法（RGB-T），需要可见光图像与热红外图像是相互配对的，而这样的数据难以获得，提升了训练成本；同时为了处理这种双流的数据，算法在架构上通常必须采用复杂的双分支结构，大大提升了计算成本。

发明内容

本发明提供了一种目标跟踪方法，包括如下步骤：

预训练步骤：通过在热红外联合数据集上进行无需标签的预训练，使得特征提取网络具备更好的初始权重参数；

训练步骤：使用共享特征的特征提取网络分别对模板图像和搜索图像进行特征提取，得到模板特征和搜索特征，经过级联自注意力-跨注意力特征增强融合模块进行模板特征和搜索特征的深层融合，然后经过细节特征增强模块进行多分支的特征细节增强，最后使用一个跟踪头预测目标的坐标；在整个训练过程中，采用基于全局和局部的知识蒸馏训练方法来指导训练；

预测步骤：使用共享特征的特征提取网络分别对模板图像和搜索图像进行特征提取，得到模板特征和搜索特征，经过级联自注意力-跨注意力特征增强融合模块进行模板特征和搜索特征的深层融合，然后经过跨注意力特征模块进行特征细节增强，最后使用一个跟踪头判断当前帧中目标位置。

作为本发明的进一步改进，在所述训练步骤中，使用随机混合的红外+可见光数据，并动态调整可见光与红外图像的比例。

作为本发明的进一步改进，在所述训练步骤，在大规模红外数据集中作编码解码的无监督训练，为网络提供更好的初始权重参数。

本发明还提供了一种目标跟踪系统，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现本发明所述目标跟踪方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现本发明所述的目标跟踪方法的步骤。

本发明的有益效果是：本发明的目标跟踪方法及系统具有较高的跟踪精度、鲁棒性与泛化能力。

附图说明

图1是训练步骤的原理示意图；

图2是预测步骤的原理示意图；

图3是细节特征增强模块的原理示意图。

具体实施方式

如图1、2所示，本发明公开了一种目标跟踪方法，包括如下步骤：

预训练步骤：通过在热红外联合数据集上进行无需标签的预训练，使得特征提取网络具备更好的初始权重参数；热红外联合数据集是把目前开源的红外数据集与自己收集的红外数据集全部放到一起作为一个数据集，大小应该有接近一百万张红外图像；

在所述训练步骤中，使用随机混合的红外+可见光数据，并动态调整可见光与红外图像的比例，以迫使网络学习更多细节特征。

在所述训练步骤，在大规模红外数据集中作编码解码的无监督训练，为网络提供更好的初始权重参数。

本发明采用级联自注意力-跨注意力特征增强融合模块来进行特征融合以提高特征图大小，并采用细节特征增强模块来进一步保留更多的细节特征，从而提高红外跟踪算法的鲁棒性。

本发明在训练步骤添加细节特征增强模块来提高模型捕获细节的能力，在测试步骤丢弃细节特征增强模块，在不引入多余计算量的情况下提升算法的鲁棒性。

本发明的具体实施例如下：

1.可见光与热红外数据集动态分配训练机制：

训练数据的质量对于一个跟踪器的性能至关重要，考虑增加数据的多样性，并提高网络提取细节特征的能力，直接添加部分可见光数据至跟踪器的训练过程中，无需特殊处理。然而如何确定可见光和热红外数据的混合比是一个棘手的问题，直接混合与先训练再微调（finetune），都不是一个好的选择。

为解决这个问题，本发明动态分配在训练中可见光和红外数据的比例，如公式5-1 所示，其中

为神经网络，

为数据集，

为红外数据集占比，其值为每轮训练的迭代次数

的k倍，

。

（5-1）

2.级联自注意力-跨注意力特征增强融合模块：

注意力机制可以使网络关注到具体目标场景中所需要的特征，表示为

，其中Q(Query),K(Key),V(Value)为三个输入向量，

为输入向量K的维度。注意力机制可以对特征权重值做加权平均，即融合不同的信息，这种机制天然的可以用于特征融合，相对于卷积神经网络，在跟踪器中注意力能够融合全局的权值信息，网络能够收敛到更好的结果。

本跟踪器采用多头注意力作为我们的基注意力层，如式5-2所示，其中

，

，

，

，在本跟踪器中

，

，

。

(5-2)

将注意力机制引入孪生网络中，使用一个自注意力特征增强模块和一个跨注意力特征融合模块代替互相关操作。通过级联自注意力-跨注意力特征增强融合模块（如图1与图2中虚线框中所示），使得模板特征与搜索特征深度融合，一定程度上避免了使用卷积神经网络带来的陷入局部最优的问题。

3. 细节特征增强模块：

为进一步提高网络的鲁棒性，本跟踪器对进入跟踪头之前的特征做进一步的特征增强，具体是将进入跟踪头之前的特征按照空间生成一个正态分布的二值向量，其大小与当前的特征图大小一致，如图3所示，特征向量

与M做点积，生成新的特征图，再进入跟踪头进行预测。

图3示意图在推理过程中，细节特征增强模块并不参与预测，在前面训练过程中，细节特征增强模块已使得特征能够捕获更多的细节特征，使得跟踪器能够十分鲁棒的跟踪目标。

4.多分支特征相关约束：

为了充分利用红外图像中的细节特征，设计此约束与（3）所述的细节增强模块相配合。我们将特征按照通道分成N组,每组经过一个级联自注意力-跨注意力特征增强融合模块，并在N组之间计算相互的相似度。在训练过程中此特征除原有分类损失和回归损失外，额外在细节特征增强模块后加入一个相关性损失，监督特征学习更多的细节特征，其表示如式5-3所示，其中

为特征矩阵，表示为

，I为单位向量且

，

为相关性损失函数。

(5-3)

5. 在大规模数据集上作编码解码的无监督训练：

为进一步提高模型的鲁棒性与精度，我们采用在大规模数据集中做无监督训练，并在下游任务上微调的方法。

在大规模数据集中无监督训练过程如下：在模型结构上我们采用我们上面的特征提取网络作为编码器，使用简单的4层自注意力层和512个节点的feedforward层的 transformer作为解码器；在数据上，我们的优化目标是红外图像域中的跟踪，故我们的数据也均采用红外图像，我们将目前的红外数据集均纳入我们的无监督训练中；在训练方式上，我们将图像按照后续的尺度变化分成

个子区域，我们对图像中的子区域按照概率

随机使用114色素值的色块代替，将此替换后的图像作为特征提取网络的输入图像，并将原始图像作为优化目标，优化约束采用简单的均方误差损失函数如式5-4所示，其中

与

分别为复原后的图像与原始图像，

。故我们将此问题建模为一个图像复原问题，并在下游任务中复用其部分参数。

(5-4)

在下游跟踪任务中，我们采用上面训得的模型中的编码模型的参数作为特征提取网络的初始参数，后续的训练过程与前面所述一致。

6.基于全局和局部的知识蒸馏训练方法：

使用基于全局的知识蒸馏训练方法来进行上述跟踪网络的训练，这种方法相较于直接训练跟踪网络可以使网络的性能更佳。

具体的训练方法是：我们使用比目前我们的跟踪网络更大的网络来训练一个老师模型，网络的主干网络（backbone）可以采用ResNet-152，使用我们上面的方法训练出一个老师模型将其用于指导我们要使用的跟踪网络训练；在指导训练过程中，老师模型和学生模型分别前向计算，学生模型的约束如前面描述，我们另外在级联自注意力-跨注意力特征增强模块的最后一层解码模块上进行特征模拟作为全局蒸馏，即使用特征拟合约束来使用老师模型指导学生模型训练，如式5-5所示，其中

表示特征拟合约束，CHW分别为特征的通道数，高和宽，

表示自适应的形状转换函数，用于将学生特征的形状转为和老师特征形状一致，T表示老师模型，S表示学生模型；我们在跟踪头中按照分类分支确定前景和背景，分别拟合前景和背景做局部蒸馏，最终的蒸馏约束如5-6所示，其中

为蒸馏损失，

为全局蒸馏损失，

为局部蒸馏损失，其中

为前景局部蒸馏损失，

为背景局部蒸馏损失，

为损失的权重系数。

中的点表示通配符，后面跟的所有字符都表示这是一个局部蒸馏损失，如FF和FE。

(5-5)

(5-6)

本发明的有益效果是：通过上述方案，此热红外目标跟踪器具有较高的跟踪精度、鲁棒性与泛化能力。具体表述为：

（1）对于热红外目标跟踪任务,我们提出一种新的训练机制, 在不改变原有网络架构的基础上,在训练集中动态的添加任意可见光样本(非配对)进行学习,即可获得比现有红外跟踪器更高的性能；同时，相比必需使用配对“热红外+可见光”数据的跟踪方法，更加利于应用。

（2）针对跟踪任务设计了一个级联自注意力-跨注意力特征增强融合模块深度融合模板特征与搜索特征，使跟踪器能够更加精确的定位目标位置，算法平均重叠率（EAO）更高，精度更高。

（3）加入细节特征增强模块，使得网络在训练中对于细节特征更加敏感。

（4）提出多分支特征相关约束，与细节特征增强模块相配合，充分利用了红外图像中的细节特征，在各复杂环境下跟踪器丢失目标的次数显著降低，跟踪器的鲁棒性更好。

（5）正式训练前，在大规模红外数据集中作编码解码的无监督预训练，为网络提供更好的初始权重参数，使网络具有更加的鲁棒性与精度。

（6）在正式训练过程中，使用基于局部和全局的知识蒸馏方法来指导模型训练，使最终获得的检测器，在算力需求不变的条件下，获得大型模型的高阶性能。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种目标跟踪方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的目标跟踪方法，其特征在于，在所述训练步骤中，使用随机混合的红外+可见光数据，并动态调整可见光与红外图像的比例。

3.根据权利要求1所述的目标跟踪方法，其特征在于，在所述训练步骤，在大规模红外数据集中作编码解码的无监督训练，为网络提供更好的初始权重参数。

4.根据权利要求2所述的目标跟踪方法，其特征在于，在所述训练步骤中，动态调整可见光与红外图像比例的实现方式是：如公式5-1所示，其中

表示神经网络，其中

表示神经网络的输入图像，

表示数据集，其中

表示4个可见光数据集，

表示红外数据集，

为红外数据集占比，

值为每轮训练的迭代次数

的k倍，

；

（5-1）。

5.根据权利要求1所述的目标跟踪方法，其特征在于，所述级联自注意力-跨注意力特征增强融合模块采用多头注意力作为基注意力层，如式5-2所示，其中参数表示如下：

表示多头注意力中第i个头的输出，Q、K、V分别表示查询矩阵、键矩阵、值矩阵，其中

表示输出映射矩阵，

分别表示多头注意力中第i个头的查询映射矩阵、键映射矩阵、值映射矩阵，其中

是

维实数矩阵，表示为

，

，

和

依次表示为

，

，

；其中

为实数域，

为模型维度、键维度、值维度，m表示输出维度值；

表示注意力头的数目；

(5-2)。

6.根据权利要求5所述的目标跟踪方法，其特征在于，

，

，

。

7.根据权利要求1所述的目标跟踪方法，其特征在于，所述细节特征增强模块将进入跟踪头之前的特征按照空间生成一个正态分布的二值向量，其大小与当前的特征图大小一致，将特征向量

与M做点积，生成新的特征图。

8.根据权利要求1所述的目标跟踪方法，其特征在于，在所述训练步骤中，通过多分支特征相关约束与细节特征增强模块配合，将特征按照通道分成N组,每组经过一个级联自注意力-跨注意力特征增强融合模块，并在N组之间计算相互的相似度；在训练过程中，特征除原有分类损失和回归损失外，额外在细节特征增强模块后加入一个相关性损失，监督特征学习更多的细节特征，其表示如式5-3所示，其中

为特征矩阵，表示为

，其中H与W为特征图的宽度和高度，I为单位向量且

，R表示实域向量空间，

分别为大小HW，HWxN与NxN的实域向量空间；式中

表示特征矩阵A的转置矩阵，

为相关性损失函数，

(5-3)。

9.根据权利要求3所述的目标跟踪方法，其特征在于，在所述训练步骤，大规模红外数据集中作编码解码的无监督训练过程如下：在模型结构上采用特征提取网络作为编码器，使用4层自注意力层和512个节点的feedforward层的transformer作为解码器；在数据上，采用红外图像，将目前的红外数据集均纳入无监督训练中；在训练方式上，将图像按照后续的尺度变化分成

个子区域，对图像中的子区域按照概率

随机使用114色素值的色块代替，将此替换后的图像作为特征提取网络的输入图像，并将原始图像作为优化目标，优化约束采用均方误差损失函数如式5-4所示，其中

与

分别为复原后的图像与原始图像，

表示3维实数向量空间，3个维度大小分别为3、H和W；

(5-4)

在跟踪任务中，采用模型中的编码模型的参数作为特征提取网络的初始参数。

10.根据权利要求1所述的目标跟踪方法，其特征在于，在所述训练步骤中，基于全局和局部的知识蒸馏训练方法是：在指导训练过程中，老师模型和学生模型分别前向计算，在级联自注意力-跨注意力特征增强模块的最后一层解码模块上进行特征模拟作为全局蒸馏，即使用特征拟合约束来使用老师模型指导学生模型训练，如式5-5所示，其中