CN114782484A

CN114782484A - 一种针对检测丢失、关联失败的多目标跟踪方法及系统

Info

Publication number: CN114782484A
Application number: CN202210354629.0A
Authority: CN
Inventors: 蔡云泽; 丁乐琪; 吕润妍; 郝亮
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-07-22

Abstract

本发明提供一种无人机平台下针对检测丢失、关联失败的多目标跟踪方法，包括：对实时视频流量数据进行预处理；输入预处理结果至联合网络，获得检测结果；在所述检测结果的基础上，结合多目标跟踪所产生的轨迹产生候选目标；对所述候选目标进行优化处理，获得预测的丢失的检测目标。本发明可以满足低空无人机平台下实时的在线多目标跟踪任务的需求，能够克服现有方法由于目标遮挡、检测丢失以及无人机平台机动导致跟踪性能降低的缺陷，具有较强的鲁棒性、适用性和实时性；增强了无人机平台对周围环境的视觉感知能力，在民用和军用领域具有广阔的应用前景。

Description

一种针对检测丢失、关联失败的多目标跟踪方法及系统

技术领域

本发明涉及计算机视觉领域中的目标检测和跟踪技术领域，具体地，涉及一种针对检测丢失、关联失败的多目标跟踪方法及系统。

背景技术

无人机平台下的多目标跟踪不仅可以获得目标的空间位置，而且可以得到连续时间序列下的运动轨迹，辅助实现对周围环境的感知，已广泛应用于军工和民用领域。在军工方面，可以用于战场侦察、近距离空中支援护航；在民用方面，可以用于快速配送、行人监护和灾害救援等任务。研究无人机平台下的多目标跟踪方法具有重要的研究价值和应用价值。

随着实际应用场景对目标跟踪方法实时性、稳定性以及全过程自动化需求不断提高，基于检测的在线跟踪逐渐成为相关研究的主流方向。一般地，此框架包括目标检测、关联匹配、轨迹更新等环节。首先通过目标检测方法获得目标在图像中的位置，接着将检测获得的目标和轨迹进行关联，最终生成目标的运动轨迹，同时处理过程中能对多目标的运动轨迹列表进行动态更新和管理。

由于轨迹关联环节的输入依赖于稳定可靠的目标检测结果，多目标跟踪方法的整体效果很大程度取决于目标检测方法的性能，在面对目标遮挡等易导致检测丢失的复杂场景时，需要研究有效的步长和修正方法，此外，由于无人机平台具备高机动性和灵活性，在进行多目标跟踪之前还需要考虑消除平台自身运动造成的影响，针对无人机等运动平台背景采取针对性策略。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种针对检测丢失、关联失败的多目标跟踪方法及系统。

根据本发明的一个方面，提供一种无人机平台下针对检测丢失、关联失败的多目标跟踪方法，包括：

对实时视频流量数据进行预处理；

输入预处理结果至联合网络，获得检测结果；

在所述检测结果的基础上，结合多目标跟踪所产生的轨迹产生候选目标；

对所述候选目标进行优化处理，获得预测的丢失的检测目标。

优选地，所述预处理包括：

从原始视频流数据中逐帧提取并保存图像；

对每帧图像采用中值滤波、高斯滤波或均值滤波的图像平滑方法抑制噪声；

进行随机裁剪或中心裁剪；

得到各帧图像的预处理结果。

所述联合网络，以各帧图像的预处理结果作为输入，其使用深度学习卷积神经网络作为基本网络类型，构建深层聚合模块和高分辨率模块实现多目标检测和特征提取的联合训练，从网络的两个输出分支分别得到目标的检测结果和特征向量。

优选地，将图像中多目标的高层语义特征空间划分为预设定的n个子空间，分别对应n种具有不同ID的目标语义类别。

优选地，在所述检测结果的基础上，结合多目标跟踪所产生的轨迹产生候选目标。。。

优选地，所述对所述候选目标进行优化处理，获得丢失的检测目标，包括：

对所述候选目标框置信度进行判别，过滤低于设定置信度阈值的轨迹输出；

利用位置修正所述候选目标框。

优选地，所述利用位置修正获得丢失目标的目标框，包括：

根据目标检测分支的中心度对轨迹预测产生的候选目标框进行位置修正，将目标中心移动到局部最大的中心度点。

优选地，还包括：

以轨迹和候选目标的关联代价矩阵作为无人机平台运动状态的判别依据；

以相邻两帧图像数据的空间变换矩阵作为输入，输出无人机平台是否发生较大位移的运动；

在运动判别模型预测相机发生较大运动的基础上采用图像配准技术对相机运动进行校正，消除相机自身运动造成的影响。

优选地，基于上述方法获得丢失的检测目标，轨迹一致性程度为基准，综合考虑目标特征向量、空间位置信息以及目标框与轨迹的重叠程度得到最终的关联代价矩阵，进而实现轨迹和候选目标的关联匹配，对轨迹列表进行实时管理和更新。

根据本发明的第二个方面，提供一种无人机平台下针对检测丢失、关联失败的多目标跟踪系统，包括：

图像预处理模块，所述图像预处理模块从无人机平台的视觉系统获取实时视频流数据并保存，对每帧图像数据分别进行图像平滑和区域裁剪，得到各帧图像的预处理结果；

联合网络模块，所述联合网络模块以各帧图像的预处理结果作为输入，以深度学习卷积神经网络作为基本网络类型，从网络的两个输出分支分别得到目标的检测结果和特征向量；

目标区域提议模块，所述目标区域提议模块在联合网络检测结果的基础上，将多目标跟踪所产生的轨迹用于产生候选目标，同时对轨迹预测产生的候选目标框置信度进行判别，过滤低于设定置信度阈值的轨迹输出，并对候选目标框位置进行修正；

相机运动判别及配准模块，所述相机运动判别及配准模块以轨迹和候选目标的关联代价矩阵作为无人机平台运动状态的判别依据，以相邻两帧图像数据的空间变换矩阵作为输入，输出无人机平台是否发生较大位移的运动；在运动判别模型预测相机发生较大运动的基础上采用图像配准技术对相机运动进行校正，消除相机自身运动造成的影响；

轨迹关联模块，所述轨迹关联模块以轨迹一致性程度为基准，计算目标特征向量、空间位置信息以及目标框与轨迹的重叠程度的关联代价矩阵，实现轨迹和候选目标的关联匹配，对轨迹列表进行实时管理和更新。

与现有技术相比，本发明具有如下的有益效果：

本发明实施例中的针对无人机平台下目标检测丢失的多目标跟踪方法及系统，可以满足低空无人机平台下实时的在线多目标跟踪任务的需求，能够克服现有方法由于目标遮挡、检测丢失以及无人机平台机动导致跟踪性能降低的缺陷，具有较强的鲁棒性、适用性和实时性；增强了无人机平台对周围环境的视觉感知能力；

本发明实施例中的联合网络模块充分利用了多任务学习的优势，能够高效地提取多目标跟踪任务中不同ID目标的高层语义特征，提升检测器性能；

本发明实施例中的目标区域提议模块降低了目标跟踪任务对检测器性能的过度依赖，对轨迹预测产生的候选目标框进行位置修正，引入轨迹置信度以提高多目标跟踪结果的可靠程度；

本发明实施例中的相机运动判别及配准模块使用图像配准技术消除了无人机平台自身运动对多目标跟踪任务的影响，增大了相邻两帧图像中相同ID目标框的重叠程度，减少发生关联失败的情况。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明一实施例的无人机平台下多目标跟踪任务场景示意图；

图2是本发明一实施例的无人机多目标跟踪任务实现流程图；

图3是本发明一实施例的目标检测和特征提取联合网络结构示意图；

图4是本发明一实施例中目标区域提议模块的预测目标位置修正示意图；

图5是本发明一实施例中相机运动判别及配准模块的方法流程图；

图6是本发明一实施例中相机运动判别模型实现流程图；

图7是本发明一实施例中相机运动判别及配准模型的配准结果示意图；

图8是本发明一实施例中相邻两帧相同ID目标框IoU分布的评测结果；

图9是本发明一实施例在低空无人机场景下的视频序列跟踪结果。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

参照图1所示，为本发明一实施例的低空四轴无人机平台应用场景示意图，该平台包括被跟踪目标1、无人机装置2、视觉系统传感器3和计算机4。其中，视觉系统传感器3置于无人机装置2中心处并固定；视觉系统传感器3拍摄包含被跟踪目标1的连续图像序列，并将所记录的视频流信息传输给计算机4；计算机4涵盖图像预处理模块、联合网络模块、目标区域提议模块、相机运动判别及配准模块和轨迹关联模块，进而实现无人机平台下的多目标跟踪。

如图2所示，为本发明一优选实施例的无人机平台下针对检测丢失、关联失败的多目标跟踪方法的流程图，包括：

S100图像预处理模块：对实时视频流量数据进行预处理；

S200联合网络模块：输入预处理结果至联合网络，获得了包含目标位置、类别信息以及目标的特征向量检测结果；

S300目标区域提议模块：在检测结果的基础上，结合多目标跟踪所产生的轨迹产生候选目标；

S400相机运动判别及配准模块：对候选目标进行优化处理，获得高位置精度的候选目标集作为丢失的检测目标；

S500轨迹关联模块：将获得的丢失的检测目标和多目标跟踪所产生的轨迹联合，获得跟踪结果。

在一优选实施例中，S100包括：将原始的图像序列逐帧进行图像平滑和区域裁剪的图像预处理操作，采用高斯滤波、中值滤波或均值滤波的图像平滑算法对原始图像中的噪声分量进行抑制和平滑，并使图像尺寸与预设定的联合网络模型输入尺寸相适应。

在一优选实施例中，S200中的联合网络模块选用卷积神经网络作为基本网络类型，通过深层聚合模块和高分辨率模块实现对不同尺度特征图的融合，其中深层聚合模块通过对特征图进行多次融合和计算，使得网络具有更高的分类准确率和更少的参数；高分辨率模块中将浅层特征逐次与深层特征进行融合，抑制下采样次数增加对小目标检测性能造成的影响。

具体的：所用深层聚合模块中特征融合的计算方式为：

式中σ为所用激活函数，如ReLU、GeLU等，Norm表示采用的归一化方式，如BN、LN等，W_i和b_i表示卷积核的参数，x_i为输入的特征。

所用高分辨率模块中融合方式为：

x_out＝Conv_3x3(TConv(Conv_1x1(x_i+j))+x_i)

式中表示卷积核为1x1的卷积运算，表示反卷积运算，表示卷积核为3x3的卷积运算，为输入的特征。

联合网络的输出部分包括多目标检测和特征提取两个分支，如图3所示，分别用于预测图像中目标的位置类别以及对应提取的高层语义特征。位置类别是对图像中目标检出的直观结果，表征其在图像中分布的位置及目标自身的类别；从后续跟踪工作来说，位置信息对图像序列的运动特征获取至关重要，一般认为相邻两帧图像中同一目标在空间位置上的变化不会很大，这也是将相邻两帧目标进行关联的重要依据。特征提取分支输出的特征向量在特征空间中的分布即表征了n个不同的子空间，亦即不同的语义类别，使得网络的特征提取工作不仅能够将不同类别的目标区分开，如car和people，也能够将同一类别下的不同目标尽可能区分开，如car1和car2。n个子空间对应的是n中不同ID的语义类别。

在本实施例中，首先需要对联合网络权重进行预训练，针对多目标检测所在分支的训练，对图像中目标中心度、类别以及空间位置的预测分别采用交叉熵、Focal Loss和GIoU作为损失函数；针对特征提取分支的训练，采用度量学习的方式，通过网络训练，减少给定n个ID中相同标号特征之间的距离，增加不同标号特征之间的距离；此外，将多目标检测和特征提取联合训练属于多任务学习的范畴，可以通过互补任务之间的共享信息来提高特征提取的通用性，在联合训练损失函数的构建上，采用损失函数权重的自适应学习策略，其计算过程如下：

式中L_detection表示检测分支损失函数，L_feature表示特征提取分支损失函数，W,σ₁,σ₂表示待优化参数。

针对S200中得到的目标检测结果可能由于图像中存在目标遮挡等情况导致检测丢失，本发明提供一个优选实施例。已有的方法都是仅利用检测网络的预测结果来作为候选目标，导致已有方法对目标检测的结果依赖性很强。本实施例将目标轨迹推算引入进来，通过对目标轨迹进行卡尔曼滤波预测，使得候选目标集不仅仅是由检测结果组成。其作用在于：检测网络部分因置信度低于阈值导致检测丢失的情况(或遮挡等情况)能够通过轨迹预测生成的候选目标进行补偿，减少对目标检测的结果依赖性。

假设在t-1时刻，存在轨迹

则可通过但不仅限于卡尔曼滤波方法预测t时刻目标所在位置，记为

t时刻通过目标检测器获得的目标记为D_det＝{D₁,…,D_m}，其中

(x₀,y₀)，(x₁,y₁)分别为目标框左上角和右下角坐标，c为目标置信度；最终得到的候选目标集合为D＝D_track∪D_det，这里是获得候选目标集的公式，由目标检测网络输出结果和轨迹预测结果两部分组成。

为了获得进一步更为精准的候选目标框，本发明提供一个优选实施例。在该实施例中，对候选目标框进行两个步骤的优化。

第一步，针对S300中生成的候选目标集中可能存在低质量的候选目标，本实施例中的目标区域提议模块引入轨迹的置信度，通过轨迹和目标关联的结果对轨迹置信度进行实时更新；当目标发生漏检时，可以通过轨迹产生候选目标对丢失目标重新跟踪，但是在目标长时间丢失的情况下，通过轨迹预测的候选目标并不准确，因此对于长时间未进行量测更新的轨迹，对轨迹的置信度进行衰减；此外，检测器精度较低会导致轨迹长时间与低置信度的目标相关联，关联的目标往往不是真实目标，同样需要对轨迹的置信度进行衰减；综上，轨迹的置信度计算式如下：

式中

为t时刻轨迹置信度，

为t-1时刻轨迹置信度，s_d为与轨迹关联的候选目标置信度，d表示与轨迹关联的候选目标，d∈D_det∪D_track，α∈(0,1)为轨迹置信度衰减系数。进而根据预先设定的置信度阈值，从轨迹列表中滤除低置信度的轨迹。

值得一提的是，这里轨迹置信度的计算根据候选目标来源于检测结果还是轨迹预测分为了两种情况，这里计算公式中的α是一个小于1的值，具体实现中采用了0.9，如果与轨迹关联的候选目标来自于轨迹预测结果，那么t时刻轨迹置信度将是t-1时刻的α倍，即发生了置信度衰减。而如果候选目标来自检测结果，那么轨迹置信度将会从两个计算值中取较大值，不管怎么说肯定是要大于α乘以t-1时刻置信度这一项的。也可以体现出，对于候选目标的来源，在有检测结果的情况下(检测未丢失)更倾向于相信检测结果；通过轨迹预测来产生候选目标则是在检测丢失情况的补救措施。

第二步，针对S300中基于轨迹预测的候选目标框定位的不确定性较高，预测位置相对真实位置偏离较大，目标区域提议模块使用目标检测分支的中心度输出对轨迹预测位置进行修正。如图4所示，假设在短时间内目标尺度未发生显著变化，仅目标的空间位置发生了变化，因此在目标预测框内进行搜索，将目标中心移动到局部最大的中心度点，防止目标发生漂移。

由于无人机平台具有较强的机动性和灵活性，相机自身运动容易给图像数据带来显著的位置偏离，基于此本发明提供一个优选实施例进行S400相机运动判别及配准。本实施例中采用的相机运动判别及配准模块方法流程图如图5所示。具体的，

首先：以轨迹和所述候选目标的关联代价矩阵作为无人机平台运动状态的判别依据。当无人机无较大运动时，关联矩阵中轨迹对应的最小关联代价较小，而当无人机发生了较大运动时，轨迹和候选目标的关联代价会大大增加甚至无法关联；

接着，根据当前帧图像数据和上一时刻图像数据的关联代价矩阵判断相机是否发生较大运动。将相机运动判别模型建模为二分类问题，如图6所示，对t-1时刻的轨迹

和t时刻候选目标{D₁,…,D_m}计算其相应的关联代价矩阵M∈R^nxm，考虑到不同时刻n和m维度可能不一致，对关联代价矩阵进行扩充，得到M′∈R^NxN，然后分别按行和列取Softmax最大值，将得到的向量进行拼接，最后通过支持向量机或其他二分类模型预测相邻两帧中是否存在较大运动。

最后，当判断无人机平台存在较大运动时，本实施例中将图像配准技术同多目标跟踪任务相结合，利用图像配准技术消除相机自身运动对轨迹关联造成的影响；首先利用FAST、SIFT、SURF等特征点检测方法获得图像的点特征及特征描述符，然后采用随机抽样一致性(RANSAC)方法迭代计算寻找最优的图像变换矩阵H，最后对t时刻候选目标位置按照下式进行修正：

x_t＝H_tx_t-1+Δx_t

式中x_t、x_t-1表示t和t-1时刻目标在图像平面内的位置，H_t表示配准得到的图像变换矩阵，Δx_t表示目标自身的运动。图7为常见场景下无人机视频序列中相邻两帧图像的配准结果，其中图7(a)和图7(b)分别表示当前帧图像和上一时刻图像，图7(c)表示经图像配准后得到的结果图像。图8为相邻两帧相同ID目标框IoU分布的评测结果，从图中可以看出，在使用图像配准技术消除相机自身运动造成的影响后，相邻两帧相同ID目标框的IoU分布右移，即可以减少关联失败的情况。

基于上述实施例获得精准的丢失目标框，且在经相机运动判别及配准模块对候选目标框位置进行修正后，本发明提供一个优选实施例进行轨迹关联。采用轨迹关联模块综合考虑轨迹和候选目标框的状态信息、位置信息和外观信息，得到最终的关联代价矩阵；其中，采用了马氏距离计算目标框的状态信息、位置信息的关联代价；采用了IoU计算目标框与轨迹的重叠程度，再整合多个因素，取各自计算的关联代价中的最小值构成最终的关联代价矩阵。采用KM方法对轨迹和候选目标框进行关联匹配，对轨迹列表进行更新和管理，得到无人机平台下的多目标跟踪结果，图9为本发明在低空无人机场景下的视频序列跟踪结果，从图中可以看出，即使在出现明显遮挡的情况下，本实施例依然可以准确预测目标位置并进行跟踪，满足无人机平台下多目标跟踪任务的需求。

本发明上述实施例的无人机平台下复杂场景的多目标跟踪方法，可以满足低空无人机平台下实时的在线多目标跟踪任务的需求，能够克服现有方法由于目标遮挡、检测丢失以及无人机平台机动导致跟踪性能降低的缺陷，具有较强的鲁棒性、适用性和实时性，增强了无人机平台对周围环境的视觉感知能力，在民用和军用领域具有广阔的应用前景。

基于相同的发明构思，本发明的其他实施例中还提供无人机平台下针对检测丢失、关联失败的多目标跟踪系统，包括：

联合网络模块，所述联合网络模块以各帧图像的预处理结果作为输入，以深度学习卷积神经网络作为基本网络类型，从网络的两个输出分支分别得到目标的检测结果和特征向量，将图像中多目标的高层语义特征空间划分为预设定的n个子空间，分别对应n种不同ID的目标语义类别；

目标区域提议模块，所述目标区域提议模块在联合网络检测结果的基础上，将多目标跟踪所产生的轨迹用于产生候选目标，同时对轨迹预测产生的候选目标框置信度进行判别，过滤低置信度的轨迹输出，并对候选目标框位置进行修正；

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种无人机平台下针对检测丢失、关联失败的多目标跟踪方法，其特征在于，包括：

对实时视频流量数据进行预处理；

输入所述预处理结果至联合网络，获得检测结果；

对所述候选目标进行优化处理，获得高位置精度的候选目标集作为丢失的检测目标。

2.根据权利要求1所述的一种无人机平台下针对检测丢失、关联失败的多目标跟踪方法，其特征在于，所述预处理包括：

从原始视频流数据中逐帧提取并保存图像；

进行随机裁剪或中心裁剪；

得到各帧图像的预处理结果。

3.根据权利要求1所述的一种无人机平台下针对检测丢失、关联失败的多目标跟踪方法，其特征在于，所述联合网络，以各帧图像的预处理结果作为输入，并使用深度学习卷积神经网络作为基本网络类型，构建深层聚合模块和高分辨率模块实现多目标检测和特征提取的联合训练，从网络的目标检测分支和特征提取分支分别得到目标的检测结果和特征向量。

4.根据权利要求3所述的一种无人机平台下针对检测丢失、关联失败的多目标跟踪方法，其特征在于，所述特征向量将图像中多目标的高层语义特征空间划分为预设定的n个子空间，分别对应n种具有不同ID的目标语义类别。

5.根据权利要求1所述的一种无人机平台下针对检测丢失、关联失败的多目标跟踪方法，其特征在于，所述在所述检测结果的基础上，结合多目标跟踪所产生的轨迹产生候选目标，包括：利用卡尔曼滤波方法对过去图像帧的轨迹进行预测及更新，与当前帧的检测结果共同构成候选目标集。

6.根据权利要求1所述的一种无人机平台下针对检测丢失、关联失败的多目标跟踪方法，其特征在于，所述对候选目标进行优化处理，获得高位置精度的候选目标集作为丢失的检测目标，包括：

利用位置修正所述过滤后的候选目标框。

7.根据权利要求6所述的一种无人机平台下针对检测丢失、关联失败的多目标跟踪方法，其特征在于，所述利用位置修正所述过滤后的候选目标框，包括：

根据所述联合网络的目标检测分支的中心度对轨迹预测产生的所述候选目标框进行位置修正，将目标中心移动到局部最大的中心度点。

8.根据权利要求1-7任一项所述的一种无人机平台下针对检测丢失、关联失败的多目标跟踪方法，其特征在于，还包括：

以轨迹和所述候选目标的关联代价矩阵作为无人机平台运动状态的判别依据；

在判断相机发生较大运动后，进行图像配准以校正相机。

9.根据权利要求1-7任一项所述的一种无人机平台下针对检测丢失、关联失败的多目标跟踪方法，其特征在于，还包括基于所述获得丢失的检测目标，计算所述检测目标特征向量、空间位置信息和目标框与轨迹的重叠程度的关联代价矩阵，根据所述关联代价矩阵将所述轨迹和候选目标的关联匹配，并对轨迹列表进行实时管理和更新。

10.一种无人机平台下针对检测丢失、关联失败的多目标跟踪系统，其特征在于，包括：

目标区域提议模块，所述目标区域提议模块在联合网络检测结果的基础上，将多目标跟踪所产生的轨迹用于产生候选目标，同时对轨迹预测产生的候选目标框置信度进行判别，过滤低于设定置信度阈值的候选目标框，并对候选目标框位置进行修正；

相机运动判别及配准模块，所述相机运动判别及配准模块以轨迹和候选目标的关联代价矩阵作为无人机平台运动状态的判别依据，以相邻两帧图像数据的空间变换矩阵作为输入，输出无人机平台是否发生较大位移的运动；在预测相机发生较大位移的基础上采用图像配准技术对相机运动进行校正，消除相机自身运动造成的影响；