CN116630376A

CN116630376A - 基于ByteTrack的无人机多目标跟踪方法

Info

Publication number: CN116630376A
Application number: CN202310657940.7A
Authority: CN
Inventors: 王卫兵; 高阳
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2023-08-22

Abstract

一种基于ByteTrack多目标跟踪算法的解决方案。为了应对预测轨迹不完整的问题，设计了一个全尺度卷积神经网络（OSNet）学习外观特征并计算外观相似度，从而增强模型的重识别能力。同时，采用ByteTrack数据关联算法来对检测框和跟踪轨迹之间的相似性进行评估和区分，将高分框和低分框进行分类处理，以解决由观测丢失（遮挡或不可靠的检测）导致的轨迹预测问题，从而提高跟踪轨迹的完整性。针对检测目标缺失可能导致的误差积累问题，在重新关联非活动轨迹与检测到的目标的框架中。并提出一种在线平滑滤波(OOS)方法，该方法为目标对象构建一条虚拟轨迹，从跟踪丢失之前的最后一个检测点开始，到新匹配到的检测结束，通过平滑卡尔曼滤波器参数对轨迹进行处理，以获得更准确的目标位置估计。

Description

基于ByteTrack的无人机多目标跟踪方法

技术领域

本发明涉及无人机自动驾驶技术中的目标追踪。

背景技术

无人机在军事和民用领域的广泛应用，是由于其体积小、隐蔽性强、反应快速、对作战环境要求低、能够快速到达现场等优点。但是，为了满足无人机在多种任务需求下的应用，需要开发有效且稳定的多目标跟踪算法，以增强无人机的自主飞行和监控能力，并适应复杂多变的环境。经典跟踪算法在无人机飞行过程中效果较差，由于拍摄视角和飞行速度的改变会导致跟踪算法受到很大的挑战。然而，近年来，基于卷积神经网络的机器视觉技术的快速发展，多目标跟踪在目标检测技术的支持下，建立了以目标检测为底层技术的任务模式，通过数据关联来实现多个目标在一段视频流中的检测结果的轨迹绘制，从而满足多目标跟踪需求。

SORT算法是一种实时多目标跟踪算法，其主要流程是通过卷积神经网络（CNN）对视频帧中的目标进行检测，然后使用卡尔曼滤波对目标的位置进行预测，最后使用匈牙利匹配算法对前后两个时刻的目标进行匹配，实现对目标的跟踪。SORT算法具有实时性和较高的准确性，但它对遮挡和重叠目标的跟踪效果较差，可能会出现目标位置预测不准确的情况。此外，如果目标的运动方向发生变化，也可能会导致匹配结果不准确，从而影响跟踪效果。StrongSORT算法是在SORT算法的基础上进行改进的，其主要改进在于对检测数据的关联跟踪部分引入了重识别特征。但是物体外观变化较大时的跟踪效果不佳，虽然可以通过重识别特征来跟踪被遮挡或产生形变的物体，但是如果物体的外观变化较大，如在不同场景下，使用相同的重识别特征进行匹配可能会导致跟踪效果不佳。无人机多目标跟踪难点主要体现在以下几点，第一个问题是由于遮挡或形变，影响跟踪算法的准确性和鲁棒性。第二个问题是相机视野更宽广，存在大量小目标，导致跟踪轨迹不完整。第二个问题是无人机与目标交叉运动，导致轨迹预测的准确性低。目前的多目标跟踪模型无法很好地解决这些问题。

为了提高无人机多目标跟踪的精度，同时不影响处理效率，本文提出了一种基于ByteTrack多目标跟踪算法的解决方案。为了应对预测轨迹不完整的问题，设计了一个全尺度卷积神经网络（OSNet），用于学习外观特征并计算外观相似度，从而增强模型的重识别能力。同时，采用ByteTrack数据关联算法来对检测框和跟踪轨迹之间的相似性进行评估和区分，将高分框和低分框进行分类处理，以解决由观测丢失（遮挡或不可靠的检测）导致的轨迹预测问题，从而提高跟踪轨迹的完整性。针对检测目标缺失可能导致的误差积累问题，在重新关联非活动轨迹与检测到的目标的框架中。并提出一种在线平滑滤波(OOS)方法，该方法为目标对象构建一条虚拟轨迹，从跟踪丢失之前的最后一个检测点开始，到新匹配到的检测结束，通过平滑卡尔曼滤波器参数对轨迹进行处理，以获得更准确的目标位置估计。实验结果表明，该算法能够有效地减少形变和遮挡等因素对算法性能的影响，并显著提高了多目标跟踪算法的准确性。

发明内容

本发明针对无人机多目标跟踪中存在的变形、遮挡、视点高度和角度多变等问题，提出了一种基于ByteTrack的无人机目标追踪方法。该算法可以有效优化多目标跟踪问题，提高跟踪的准确性。设计的边界框评价算法可以更好地恢复遮挡目标的轨迹，并进一步提高无人机视频中多目标轨迹预测的精准度。通过优化关联算法，在保证处理效率的前提下实现了更加精准的无人机多目标跟踪。使关联算法对无人机视频中多目标轨迹预测的精准度进一步提高。

为达到上述目的，本发明提出基于ByteTrack的无人机多目标跟踪算法，包括以下步骤：

步骤S1：收集大量无人机航拍视频，标注多目标数据，建立无人机多目标跟踪数据集。

步骤S2：使用全尺度卷积神经网络（OSNet）计算外观相似度，并创建外观特征组ReID。

步骤S3：将无人机数据集中的视频帧图片输入到目标检测模型，可以检测出图像中的目标物体，并得到目标物体的检测框位置和大小。

步骤S4：设置检测置信度阈值，将大于0.8的置信度的检测框放入高分框关联样本集Hbox，将大于0.5小于0.8的置信度的检测框放入低分框关联样本集Lbox。

步骤S4.1：对于高分框关联样本集Hbox，利用上一帧的卡尔曼滤波预测结果进行匈牙利算法匹配完善多目标轨迹预测。

步骤S4.2：将低分框关联样本集Lbox作为输入，如果样本集外观特征再次与外观特征组ReID观测关联上，以目标检测框为中心的在线平滑滤波(OOS)技术为该对象构建一条虚拟轨迹。然后，将该虚拟轨迹与卡尔曼滤波预测轨迹匹配，得到更加准确的目标位置估计结果。最后，更新外观特征组ReID利用匈牙利算法进行匹配，完善多目标轨迹预测。

步骤S5：将当前帧重识别特征组ReID与上一帧的卡尔曼滤波预测结果进行匈牙利算法匹配，关联中多个目标的外观识别特征，组成初步的多目标轨迹。

步骤S6：对关联样本集中没有匹配的外观特征与高分检测框保存为完整轨迹，对当前帧外观特征与检测框中未被匹配的进行新建轨迹。

步骤S7：对外观特征组ReID与高分框关联样本集Hbox中匹配的特征与检测框保存完整轨迹并输出。

步骤S8：从轨迹列表中移除未匹配上的低分框关联样本集Lbox，保留30帧的外观特征组ReID。

步骤S9：对于与高分框关联样本集Hbox中的样本匹配上的外观特征组ReID，计算新的卡尔曼滤波预测结果并保存。

步骤S10：重复步骤S2至S9，直到处理完全部无人机视频帧，得到并输出视频多目标跟踪轨迹结果。

发明效果

本研究致力于解决无人机多目标跟踪的问题，并提出了一种基于ByteTrack的多目标跟踪算法。该算法分为两部分。第一部分，提出了基于改进重识别特征机制的特征全尺度卷积神经网络（OSNet）。该网络使用多个感受野不同的卷积特征流构建，每个流的关注特征尺度由指数因子决定。该指数因子是一个新的维度因子，线性增加以确保每个块中捕获不同尺度的特征。通过统一聚合门（AG）生成的通道权值，动态融合不同尺度的特征图。AG是一个跨所有流共享参数的子网络，具有许多有效的模型训练所需的特性。生成的信道权值依赖于输入，从而实现了动态尺度融合。AG可以通过为特定的流/尺度分配主导权重来聚焦于单个尺度，也可以选择和混合，从而产生异构的特征尺度，有助于神经网络学习目标的外观特征信息。第二部分，提出了基于检测框为中心的在线平滑（OOS）。该部分通过将非活动轨迹与检测到的目标重新关联，为目标构建一条虚拟轨迹，并沿着该虚拟轨迹平滑卡尔曼滤波器参数，以提高目标位置估计的准确性，同时能够恢复被遮挡目标的轨迹。将改进的ByteTrack多目标跟踪算法的高低分检测框处理方法和关联范式相结合，以将两帧之间的特征关联为完整的多目标跟踪轨迹。仿真实验结果表明，在MOTA17数据集上准确率达到了81.7%，领先其他方法1.4- 8.1个百分点，在MOTA20数据集上取得了78.1%的准确率，相比于其他方法提升0.3-7.4个百分点。在保证了算法速度的基础上，显著提高了无人机多目标跟踪精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于ByteTrack 的无人机多目标跟踪方法的流程图

图2是深度可分离卷积（Lite 3x3卷积）示意图

图3是全尺度卷积神经网络（OSNet）示意图

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1，本发明提供了一种基于交互表示的域自适应子空间学习方法，所述方法步骤如下。

设计的全尺度神经网络（OSNet）采用了深度可分离卷积(Lite 3×3卷积)。将标准卷积分为两层：点卷积和深度卷积，其结构如图。标准卷积由4D张量，其中k为核大小，为输入通道的深度，表示输出信道宽度。为学习输入张量上的空间通道相关关系，其中h为高，w为宽，卷积运算可表示为，其中为非线性映射(ReLU),其输出的特征图为表示为。通过利用Lite构建全尺度残差块。对于输入特征图x其操作如公式(1)所示：

(1)

为了实现多尺度特征学习，本文引入了一个新的表示特征尺度的参数t来扩展残差函数。对于，本文使用t个Lite 3×3卷积，则其感受野为(2t+1)×(2t+1)，如公式 (2)所示：

(2)

通过上述的各个尺度特征学习流，以学习到多个特征尺度的特征图。为了将它们组合以得到全尺度的特征，以动态组合方式组合不同卷积流的输出，根据输入图像分配不同尺度以不同的权重。本文利用可学习神经网络得到组合门(AG)来融合多尺度特征，让定义,全尺度得到如公式(3)所示：

(3)

其中是一个向量（vector），长度跨越的整个通道维数，G为一个子网络，输出被 sigmoid 函数压扁。这种设计产生了更细粒度的融合，可以对每个特性通道进行调优。此外，根据输入数据条件动态计算权重。

通过输入图片经过机制的下采样网络及特征融合模块后，将生成采样倍率为4x的输出特征，再将输出特征进行分组预测以得到当前帧间数据关联任务所需要的外观特征。

步骤S4.2：低分框关联样本集Lbox作为输入，如果样本集外观特征再次与外观特征组ReID观测关联上之后在线平滑参数，使其回到丢失的时刻，以目标框为中心的在线平滑滤波(OOS)技术为该对象构建一条虚拟轨迹。

在未跟丢之前最后一次观测的时间是，重关联时观测的时间为，可以用不同的参数产生虚拟轨迹。沿着这条虚拟轨迹，从t1时刻开始通过卡尔曼滤波的预测更新过程检查滤波参数。有了虚拟轨迹的监督，状态估计的误差就不会累积。

将该虚拟轨迹与卡尔曼滤波预测轨迹匹配，得到更加准确的目标位置估计结果。

初始化跟踪序列，利用第一帧的检测框生成原始的多目标轨迹集，并保存重识别特征组。建立一个长度为30帧的搜索区间，以找到再次出现的被遮挡的目标，并链接正确的轨迹。对于连续的帧序列，通过网络预测目标框坐标和重识别特征。然后，计算每个预测目标框与搜索区间中的关联样本集中的元素之间的余弦距离。同时使用卡尔曼滤波器预测当前帧的ReID特征组所表示的多目标的位置，并将其与轨迹集中的多目标位置计算马氏距离。接下来使用匈牙利算法结合代价矩阵对ReID特征组与已有轨迹集中的多目标进行二元匹配。将匹配命中的目标加入已经生成的轨迹中。然后对当前帧未匹配的检测目标框与上一帧未匹配的目标框进行重叠度交并比(IOU)计算，并使用匈牙利二元匹配算法对未配对目标按照交并比匹配。最后，对于轨迹集中超过搜索区间长度且仍未被匹配目标的轨迹进行保存并移出待匹配集。对于当前帧未被匹配的目标进行新轨迹的创建，并将其加入匹配集，更新轨迹集得到对于当前输入帧的多目标的跟踪结果。

步骤S10：重复步骤S2至S10，直到处理完全部无人机视频帧，得到并输出视频多目标跟踪轨迹结果。

Claims

1.本发明针对无人机多目标跟踪中存在的变形、遮挡、视点高度和角度多变等问题，提出了一种基于ByteTrack的无人机目标追踪方法。该算法可以有效优化多目标跟踪问题，提高跟踪的准确性。设计的边界框评价算法可以更好地恢复遮挡目标的轨迹，并进一步提高无人机视频中多目标轨迹预测的精准度。通过优化关联算法，在保证处理效率的前提下实现了更加精准的无人机多目标跟踪。使关联算法对无人机视频中多目标轨迹预测的精准度进一步提高。

2.为达到上述目的，本发明提出基于ByteTrack的无人机多目标跟踪算法，包括以下步骤：

步骤S1：收集大量无人机航拍视频，标注多目标数据，建立无人机多目标跟踪数据集；

步骤S2：使用全尺度卷积神经网络（OSNet）计算外观相似度，并创建外观特征组ReID；

步骤S3：将无人机数据集中的视频帧图片输入到目标检测模型，可以检测出图像中的目标物体，并得到目标物体的检测框位置和大小；

步骤S4：设置检测置信度阈值，将大于0.8的置信度的检测框放入高分框关联样本集Hbox，将大于0.5小于0.8的置信度的检测框放入低分框关联样本集Lbox；

步骤S4.1：对于高分框关联样本集Hbox，利用上一帧的卡尔曼滤波预测结果进行匈牙利算法匹配完善多目标轨迹预测；

步骤S4.2：将低分框关联样本集Lbox作为输入，如果样本集外观特征再次与外观特征组ReID观测关联上，以目标检测框为中心的在线平滑滤波(OOS)技术为该对象构建一条虚拟轨迹。然后，将该虚拟轨迹与卡尔曼滤波预测轨迹匹配，得到更加准确的目标位置估计结果。最后，更新外观特征组ReID利用匈牙利算法进行匹配，完善多目标轨迹预测；

步骤S5：将当前帧重识别特征组ReID与上一帧的卡尔曼滤波预测结果进行匈牙利算法匹配，关联中多个目标的外观识别特征，组成初步的多目标轨迹；

步骤S6：对关联样本集中没有匹配的外观特征与高分检测框保存为完整轨迹，对当前帧外观特征与检测框中未被匹配的进行新建轨迹；

步骤S7：对外观特征组ReID与高分框关联样本集Hbox中匹配的特征与检测框保存完整轨迹并输出；

步骤S8：从轨迹列表中移除未匹配上的低分框关联样本集Lbox，保留30帧的外观特征组ReID；

步骤S9：对于与高分框关联样本集Hbox中的样本匹配上的外观特征组ReID，计算新的卡尔曼滤波预测结果并保存；

3.发明效果

本研究致力于解决无人机多目标跟踪的问题，并提出了一种基于ByteTrack的多目标跟踪算法。该算法分为两部分。第一部分，提出了基于改进重识别特征机制的特征全尺度卷积神经网络（OSNet）。该网络使用多个感受野不同的卷积特征流构建，每个流的关注特征尺度由指数因子决定。该指数因子是一个新的维度因子，线性增加以确保每个块中捕获不同尺度的特征。通过统一聚合门（AG）生成的通道权值，动态融合不同尺度的特征图。AG是一个跨所有流共享参数的子网络，具有许多有效的模型训练所需的特性。生成的信道权值依赖于输入，从而实现了动态尺度融合。AG可以通过为特定的流/尺度分配主导权重来聚焦于单个尺度，也可以选择和混合，从而产生异构的特征尺度，有助于神经网络学习目标的外观特征信息。第二部分，提出了基于检测框为中心的在线平滑（OOS）。该部分通过将非活动轨迹与检测到的目标重新关联，为目标构建一条虚拟轨迹，并沿着该虚拟轨迹平滑卡尔曼滤波器参数，以提高目标位置估计的准确性，同时能够恢复被遮挡目标的轨迹。将改进的ByteTrack多目标跟踪算法的高低分检测框处理方法和关联范式相结合，以将两帧之间的特征关联为完整的多目标跟踪轨迹。