CN117455955A

CN117455955A - 一种基于无人机视角下的行人多目标跟踪方法

Info

Publication number: CN117455955A
Application number: CN202311732901.5A
Authority: CN
Inventors: 姜明华; 陈龙; 余锋; 刘莉; 周昌龙; 宋坤芳
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2023-12-14
Filing date: 2023-12-14
Publication date: 2024-01-26
Anticipated expiration: 2043-12-14
Also published as: CN117455955B

Abstract

本发明公开了一种基于无人机视角下的行人多目标跟踪方法，包括以下步骤：采集包含行人的无人机视角图像数据集，并对数据集进行预处理；设计并优化基于无人机视角下的行人检测与跟踪网络的损失函数；设计并优化基于无人机视角下的行人检测与跟踪网络；使用预处理之后的数据集训练设计好的行人检测与跟踪网络，得到行人检测与跟踪模型；利用训练好的行人检测与跟踪模型，实时检测新的无人机视角图像序列。本发明通过设计并优化基于无人机视角下的行人检测与跟踪网络与其损失函数，利用行人检测与跟踪模型实现了对行人的准确检测和连续跟踪，并输出行人的位置信息以及运动轨迹，为无人机视角下的智能监控、交通管理和安全防护等领域提供有力支持。

Description

一种基于无人机视角下的行人多目标跟踪方法

技术领域

本发明涉及目标检测、目标跟踪领域，并且更具体地，涉及一种基于无人机视角下的行人多目标跟踪方法。

背景技术

随着无人机的迅速发展和广泛应用，无人机视角下的多目标跟踪技术逐渐成为研究热点。行人多目标跟踪作为计算机视觉领域的重要问题，对于实现智能监控、交通管理和安全防护等领域具有重要意义。然而，由于无人机视角下的行人多目标跟踪面临着目标分辨率低、尺度小等挑战，传统方法往往难以同时满足实时性、准确性和鲁棒性的要求。

目前，已有一些针对行人多目标跟踪的方法，然而，这些方法在处理无人机视角下的行人多目标跟踪时仍存在一些问题。首先，传统的目标检测算法往往受限于目标尺度变化和视角变化，在无人机视角下的行人多目标跟踪中容易失效。其次，传统的特征提取与分类方法对于行人目标的复杂背景和遮挡情况较为敏感，容易造成行人目标的误检和漏检。

公开号为CN114820702A的中国专利公开了“一种基于yolov5的Deepsort无人机视角行人多目标跟踪方法”，使用目标检测yolov5网络，其可以对特征信息明显的正常尺度目标进行检测且有较好的效果，但是如果在高空视角、低分辨率、小尺度目标的复杂场景下，仅使用目标检测yolov5网络进行检测其检测精度是不够的。

因此，针对无人机视角下的行人多目标跟踪问题，需要提出一种新的方法来克服上述现有技术存在的问题。

发明内容

有鉴于此，本发明提供了一种基于无人机视角下的行人多目标跟踪方法，其目的在于通过设计和优化基于无人机视角的行人检测与跟踪网络和其损失函数，提高无人机视角下行人跟踪的准确性和鲁棒性。

为实现上述目的，本发明采用了如下技术方案：

一种基于无人机视角下的行人多目标跟踪方法，包括以下步骤：

S1.采集包含行人的无人机视角图像数据集，并对数据集进行预处理；

S2.设计并优化基于无人机视角下的行人检测与跟踪网络的损失函数；

所述损失函数公式如下：

；

其中，表示目标检测损失函数，/>表示目标跟踪损失函数，/>是一个自适应权重参数，用于平衡目标检测损失和目标跟踪损失的重要性；

S3.设计并优化基于无人机视角下的行人检测与跟踪网络；

所述行人检测与跟踪网络包括行人检测网络和行人追踪网络；所述行人检测网络包括多个特征提取模块、多个特征增强模块，还有特征融合模块以及多个注意力机制模块和多个检测头模块，通过一系列模块的组合，使行人检测网络能够准确地定位和识别图像中的行人目标；所述行人跟踪网络通过级联匹配模块、IoU匹配模块以及卡尔曼滤波实现对行人目标的连续跟踪和轨迹估计；

S4.使用预处理之后的数据集训练设计好的行人检测与跟踪网络，得到行人检测与跟踪模型；

S5.利用训练好的行人检测与跟踪模型，实时检测新的无人机视角图像序列。

进一步的，所述步骤S1采集包含行人的无人机视角图像数据集，并对数据集进行预处理，具体如下：

S1-1.利用无人机采集不同场景下包含行人的视频和图像；

S1-2.将采集到的视频逐帧保存为图像，并与采集到的图像整合起来进行人工筛选；

S1-3.将筛选后的数据集进行人工标注，得到数据集中行人目标的真实位置信息和类别信息，所述真实位置信息为行人目标真实框的坐标信息；

S1-4.将标注之后的数据集采用数据增强技术进行进一步扩充；

S1-5.将采用数据增强技术处理之后的数据集按照8:2的比例划分为训练集和验证集。

进一步的，所述目标检测损失函数公式如下：

；

其中，N为行人目标的数量，表示图像中存在的行人目标个数，为检测目标的索引，表示第/>个行人目标，/>是平衡因子，用于平衡正负样本之间的权重，/>为预测框属于行人类别的概率，表示模型对第/>个行人目标的预测结果，/>表示行人预测框/>和行人真实框/>之间的交并比，交并比用于衡量行人预测框与行人真实框的匹配程度。

进一步的，所述目标跟踪损失函数公式如下：

；

其中为时间步，用于表示目标在不同时间点的状态，/>为跟踪目标的索引，用于区分不同的跟踪目标，T为总的时间步数，/>表示在时间步/>下的行人目标数量，/>为跟踪轨迹预测框，表示目标/>在时间步/>下的位置预测，/>为跟踪轨迹真实框，表示目标/>在时间步下的真实位置，/>表示跟踪轨迹预测框/>和跟踪轨迹真实框/>之间的交并比，/>表示跟踪轨迹预测框/>在时刻/>的速度向量，/>表示跟踪轨迹真实框/>在时刻/>的速度向量。

进一步的，所述行人检测网络细分为主干网络、颈部网络和头部网络；

所述主干网络是行人检测网络的核心部分，它由特征提取模块、特征增强模块、注意力机制模块和特征融合模块组成；

首先，输入的图像经过两个特征提取模块，获取行人的局部特征，所述局部特征包括形状、纹理以及姿态信息；

随后，使用特征增强模块进一步提升网络对行人特征的感知能力；

接下来，一系列的特征提取模块和特征增强模块被应用，使网络更好地捕捉和表示图像中的行人特征；

然后，注意力机制模块被引入，根据行人在图像中的重要性来自适应地调整特征的权重分配，使网络更加关注行人区域；

最后，特征融合模块将来自不同尺度和层级的特征有效地组合，得到更丰富和全面的特征表示。

进一步的，所述颈部网络位于主干网络和头部网络之间，其作用是进一步处理和压缩特征表示，颈部网络通过上采样、特征拼接、特征增强、特征提取和注意力机制操作，对主干网络提取的特征进行降维和抽象，提取更高级的语义特征。

进一步的，所述头部网络是行人检测网络的最后一部分，用于生成行人检测框和相关的检测信息，所述头部网络包括微小目标检测头模块、小目标检测头模块、中目标检测头模块和大目标检测头模块，头部网络通过不同尺寸的检测头模块，预测行人的位置、边界框和置信度得分。

进一步的，所述行人跟踪网络具体如下：

首先将当前帧的行人检测框与上一帧中预测的轨迹进行级联匹配；如果匹配成功，即找到了对应的轨迹，根据当前帧的行人检测框使用卡尔曼滤波进行轨迹的融合更新；对于不匹配的检测框，级联匹配模块将其与不匹配的轨迹进行IoU匹配；如果不匹配的轨迹说明当前行人与上一帧的行人不是同一个目标，那么创建相应的新轨迹；对于IoU匹配到的轨迹，同样使用卡尔曼滤波进行轨迹的融合更新；

使用卡尔曼滤波进行行人轨迹的预测，从而得到确定的轨迹，然后将确定的轨迹与下一帧的行人检测框进行级联匹配。

进一步的，所述步骤S4使用预处理之后的数据集训练设计好的行人检测与跟踪网络，得到行人检测与跟踪模型，具体如下：

S4-1.模型训练：使用训练集中的图像数据，通过反向传播算法，迭代优化行人检测与跟踪网络的参数，使其能够准确地检测到无人机视角下的行人位置信息，得到初始的行人检测与跟踪模型；

S4-2.模型验证与调优：利用验证集对训练得到的模型进行验证，根据验证结果进行模型参数的调优，以提高模型在未见过的数据上的泛化能力，得到训练好的行人检测与跟踪模型；

S4-3.模型保存与部署：将训练好的行人检测与跟踪模型保存，并准备部署到实际系统中，以用于实时的无人机视角下的行人检测。

进一步的，所述步骤S5利用训练好的行人检测与跟踪模型，实时检测新的无人机视角图像序列，具体如下：

S5-1.行人检测：使用训练好的行人检测与跟踪模型，准确地检测到无人机视角下的行人位置信息；

S5-2.行人跟踪：在检测到的行人目标上实施实时跟踪，获取其运动轨迹信息，以确保连续跟踪；

S5-3.实时更新与输出：持续更新行人目标的状态信息，将跟踪结果实时输出，以便在需要时，提供及时的监测与应对信息。

与现有技术相比，本发明的有益效果是：

（1）通过将目标检测函数和目标跟踪函数结合起来，使得网络能够同时学习到准确的目标定位和分类以及连续的目标跟踪能力，在结合过程中，引入一个自适应权重参数，动态平衡目标检测和目标跟踪的训练过程，根据训练的进展逐渐提高目标跟踪的权重，这样可以确保网络在学习过程中兼顾目标检测和目标跟踪的优化目标，从而获得更好的综合性能并促使网络学习到更有效的特征表示和目标状态预测。

（2）通过设计包括行人检测网络和行人追踪网络的行人检测与跟踪网络，利用行人检测网络实现自动识别图像或视频中的行人区域，并给出其边界框的位置信息，确保即使在高空视角、低分辨率、小尺度目标的情况下，行人仍能被准确地检测出来；再通过行人跟踪网络来准确地跟踪行人的移动路径，实现目标的时空连续性，保证行人跟踪的准确性和稳定性。

（3）基于无人机视角下的行人多目标跟踪方法结合深度学习的目标检测和跟踪技术，利用强大的特征提取能力和上下文信息，在目标尺度变化和视角变化的情况下保证有效的行人多目标跟踪，在行人目标的背景复杂或被遮挡的情况下依然能够通过级联匹配和卡尔曼滤波锁定行人目标，实现对行人目标的准确检测和跟踪。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1 示出了本发明实施例基于无人机视角下的行人多目标跟踪方法的流程图；

图2示出了本发明实施例基于无人机视角下的行人多目标跟踪方法的行人检测网络结构图；

图3示出了本发明实施例基于无人机视角下的行人多目标跟踪方法的行人跟踪网络结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供的一种基于无人机视角下的行人多目标跟踪方法，如附图1所示，一种基于无人机视角下的行人多目标跟踪方法，包括以下步骤：

S3.设计并优化基于无人机视角下的行人检测与跟踪网络；

所述步骤S1采集包含行人的无人机视角图像数据集，并对数据集进行预处理，具体如下：

S1-1.利用无人机采集不同场景下包含行人的视频和图像；

所述步骤S2中的损失函数公式如下：

；

其中，表示目标检测损失函数，/>表示目标跟踪损失函数，/>是一个自适应权重参数，用于平衡目标检测损失和目标跟踪损失的重要性。

目标检测和目标跟踪是两个相关但独立的任务，目标检测任务侧重于在图像或视频中准确地定位和分类目标，而目标跟踪任务则关注目标在时间序列中的连续追踪和位置预测，为了同时训练和优化这两个任务，需要将它们的损失函数结合起来。

结合过程中引入一个自适应权重参数，自适应权重参数/>初始值为0，随着训练轮数每轮增加0.005，增加到/>为1时，自适应权重参数不再变化。通过这种方式，可以动态平衡目标检测和目标跟踪的训练过程，根据训练的进展逐渐提高目标跟踪的权重，这样可以确保网络在学习过程中兼顾目标检测和目标跟踪的优化目标，从而获得更好的综合性能。

这样设计的损失函数使得网络能够同时学习到准确的目标定位和分类以及连续的目标跟踪能力。提高整体的检测和跟踪性能，并促使网络学习到更有效的特征表示和目标状态预测。

所述目标检测损失函数公式如下：

；

交并比取值在0到1之间，值越大表示匹配度越高。

目标检测损失函数通过平衡正负样本权重、考虑分类和定位的损失以及交并比的损失项，可以解决了在无人机视角下行人目标检测中样本不平衡、小目标定位困难和准确性要求高的问题，这样的设计有助于提高行人目标检测的性能和精度，使其在无人机行人检测任务中更加有效和可靠。

所述目标跟踪损失函数公式如下：

；

预测轨迹的速度向量与真实轨迹的速度向量差异越小，说明匹配度越高。

目标跟踪损失函数通过考虑目标位置准确性的损失以及运动轨迹的一致性，可以解决了在无人机视角下行人目标跟踪中遮挡或视角变化以及运动轨迹的连续性和一致性的问题。这样的设计有助于更好地应对遮挡、视角变化和目标运动的挑战，提高跟踪的准确性和稳定性。

所述步骤S3中的行人检测与跟踪网络包括行人检测网络和行人追踪网络；所述行人检测网络包括多个特征提取模块、多个特征增强模块，还有特征融合模块以及多个注意力机制模块和多个检测头模块，通过一系列模块的组合，使行人检测网络能够准确地定位和识别图像中的行人目标；所述行人跟踪网络通过级联匹配模块、IoU匹配模块以及卡尔曼滤波实现对行人目标的连续跟踪和轨迹估计。

如图2所示，所述行人检测网络细分为主干网络、颈部网络和头部网络；

首先，输入的图像经过两个特征提取模块，获取行人的局部特征，所述局部特征包括形状、纹理以及姿态信息。通过这些局部特征，网络可以更好地理解行人目标的外观和结构；

然后，注意力机制模块被引入，其根据行人在图像中的重要性来自适应地调整特征的权重分配，使网络更加关注行人区域。这有助于减少对背景干扰的敏感性，提高行人检测和跟踪的鲁棒性；

最后，特征融合模块将来自不同尺度和层级的特征有效地组合，得到更丰富和全面的特征表示，从而提高对行人特征的表示和区分能力，能够更准确地检测和辨别行人目标。

所述颈部网络位于主干网络和头部网络之间，其作用是进一步处理和压缩特征表示。在行人检测网络中，颈部网络通过上采样、特征拼接、特征增强、特征提取和注意力机制操作，对主干网络提取的特征进行降维和抽象，提取更高级的语义特征。颈部网络的设计可以帮助行人检测网络更好地传递特征信息，并提供更紧凑和高层次的特征表示。这有助于减少特征的冗余性，提高行人检测的效率和准确性。

所述头部网络是行人检测网络的最后一部分，用于生成行人检测框和相关的检测信息，所述头部网络包括微小目标检测头模块、小目标检测头模块、中目标检测头模块和大目标检测头模块。在行人检测网络中，头部网络可以通过不同尺寸的检测头模块，预测行人的位置、边界框和置信度得分。在头部网络的设计中，为解决无人机视角下小尺度行人目标难以检测的问题，新增了一个微小目标检测头模块，以增强网络对小尺寸行人目标的检测能力。这样可以实现对行人目标的准确定位和跟踪，为后续的行人跟踪网络提供基础。

如图3所示，所述行人跟踪网络具体如下：

首先将当前帧的行人检测框与上一帧中预测的轨迹进行级联匹配；如果匹配成功，即找到了对应的轨迹，根据当前帧的行人检测框使用卡尔曼滤波进行轨迹的融合更新；对于不匹配的检测框，级联匹配模块会将其与不匹配的轨迹进行IoU匹配；如果不匹配的轨迹说明当前行人与上一帧的行人不是同一个目标，那么会创建相应的新轨迹；对于IoU匹配到的轨迹，同样会使用卡尔曼滤波进行轨迹的融合更新。通过级联匹配模块和IoU匹配模块，实现了对当前帧行人检测框与上一帧轨迹的匹配和更新。这样可以保持轨迹的连续性，并处理场景中出现的新行人目标。

使用卡尔曼滤波进行行人轨迹的预测，从而得到确定的轨迹，然后将确定的轨迹与下一帧的行人检测框进行级联匹配。卡尔曼滤波是一种常用的状态估计滤波器，可以根据当前观测值和系统模型对轨迹进行预测和修正。通过卡尔曼滤波，可以根据历史轨迹和观测信息，对行人目标的位置和速度进行预测，从而实现对轨迹的连续性和稳定性的维护，进一步提高行人跟踪的准确性和稳定性。

所述步骤S4使用预处理之后的数据集训练设计好的行人检测与跟踪网络，得到行人检测与跟踪模型，具体如下：

所述步骤S5利用训练好的行人检测与跟踪模型，实时检测新的无人机视角图像序列，具体如下：

本发明通过设计并优化适用于基于无人机视角的行人检测与跟踪模型，可以实现对行人的准确检测和连续跟踪，并输出行人的位置信息以及运动轨迹，为无人机视角下的智能监控、交通管理和安全防护等领域提供有力支持。

本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于无人机视角下的行人多目标跟踪方法，其特征在于，包括以下步骤：

所述损失函数公式如下：

；

S3.设计并优化基于无人机视角下的行人检测与跟踪网络；

2.如权利要求1所述的基于无人机视角下的行人多目标跟踪方法，其特征在于，所述步骤S1采集包含行人的无人机视角图像数据集，并对数据集进行预处理，具体如下：

S1-1.利用无人机采集不同场景下包含行人的视频和图像；

3.如权利要求1所述的基于无人机视角下的行人多目标跟踪方法，其特征在于，所述目标检测损失函数公式如下：

；

其中，N为行人目标的数量，表示图像中存在的行人目标个数，为检测目标的索引，表示第/>个行人目标，/>是平衡因子，用于平衡正负样本之间的权重，/>为预测框属于行人类别的概率，表示模型对第/>个行人目标的预测结果，/>表示行人预测框/>和行人真实框之间的交并比，交并比用于衡量行人预测框与行人真实框的匹配程度。

4.如权利要求3所述的基于无人机视角下的行人多目标跟踪方法，其特征在于，所述目标跟踪损失函数公式如下：

；

其中为时间步，用于表示目标在不同时间点的状态，/>为跟踪目标的索引，用于区分不同的跟踪目标，T为总的时间步数，/>表示在时间步/>下的行人目标数量，/>为跟踪轨迹预测框，表示目标/>在时间步 />下的位置预测，/>为跟踪轨迹真实框，表示目标/>在时间步 />下的真实位置，/>表示跟踪轨迹预测框 /> 和跟踪轨迹真实框 /> 之间的交并比，/>表示跟踪轨迹预测框 />在时刻/>的速度向量，/>表示跟踪轨迹真实框 />在时刻/>的速度向量。

5.如权利要求1所述的基于无人机视角下的行人多目标跟踪方法，其特征在于，所述行人检测网络细分为主干网络、颈部网络和头部网络；

6.如权利要求5所述的基于无人机视角下的行人多目标跟踪方法，其特征在于，所述颈部网络位于主干网络和头部网络之间，其作用是进一步处理和压缩特征表示，颈部网络通过上采样、特征拼接、特征增强、特征提取和注意力机制操作，对主干网络提取的特征进行降维和抽象，提取更高级的语义特征。

7.如权利要求6所述的基于无人机视角下的行人多目标跟踪方法，其特征在于，所述头部网络是行人检测网络的最后一部分，用于生成行人检测框和相关的检测信息，所述头部网络包括微小目标检测头模块、小目标检测头模块、中目标检测头模块和大目标检测头模块，头部网络通过不同尺寸的检测头模块，预测行人的位置、边界框和置信度得分。

8.如权利要求7所述的基于无人机视角下的行人多目标跟踪方法，其特征在于，所述行人跟踪网络具体如下：

9.如权利要求2所述的基于无人机视角下的行人多目标跟踪方法，其特征在于，所述步骤S4使用预处理之后的数据集训练设计好的行人检测与跟踪网络，得到行人检测与跟踪模型，具体如下：

10.如权利要求9所述的基于无人机视角下的行人多目标跟踪方法，其特征在于，所述步骤S5利用训练好的行人检测与跟踪模型，实时检测新的无人机视角图像序列，具体如下：