CN115908498A

CN115908498A - 一种基于类别最优匹配的多目标跟踪方法及装置

Info

Publication number: CN115908498A
Application number: CN202211685567.8A
Authority: CN
Inventors: 张新钰; 王力; 高镜涵; 李效宇; 吴新刚
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2023-04-04
Anticipated expiration: 2042-12-27
Also published as: CN115908498B

Abstract

本申请提供了一种基于类别最优匹配的多目标跟踪方法及装置，涉及智能驾驶技术领域，所述方法包括：获取检测器输出的当前图像帧中的所有运动目标的检测框，对检测框进行分类；利用上一图像帧中所有运动目标的运动信息，得到上一图像帧中所有运动目标在当前图像帧中的预测框；根据预先设定的每个类别的代价函数，计算所属类别的检测框和所有预测框的关联值，由此构建每个类别的第一关联代价矩阵；每个类别的代价函数为：二维交并比、三维交并比、二维广义交并比、三维广义交并比或欧氏距离；基于每个类别的第一关联代价矩阵，使用匹配算法得到当前图像帧中匹配成功的检测框。本申请提高了检测框匹配的正确率，提高了多类别多目标的跟踪精度。

Description

一种基于类别最优匹配的多目标跟踪方法及装置

技术领域

本申请涉及智能驾驶技术领域，尤其是涉及一种基于类别最优匹配的多目标跟踪方法及装置。

背景技术

在三维多目标跟踪中存在新目标进入与旧目标消失的问题，也就导致跟踪策略与单目标跟踪不同。多目标跟踪算法，由于目标消失与产生，大部分都是不考虑初始框的，其常用的跟踪策略是TBD(Tracking-by-Detecton)，又或者也可叫DBT(Detection-Based-Tracking)，即在每一帧进行目标检测，再利用目标检测的结果来进行目标跟踪，这一步称之为数据关联(Data Assoiation)，是多目标跟踪中的关键步骤。

数据关联目前的主流方法是将轨迹预测得到的预测框和当前检测框进行匹配，采用同一跟踪标准进行所有类别的代价矩阵构建及求解，即采用一次匹配关联。若没有获得匹配，则直接进行轨迹状态是否删除的判断。此类方法虽然构建代价矩阵简单方便并且在不同场景下泛化性较强，但对各种类别采用同一跟踪标准导致其对类别的针对性减弱，跟踪精度较低；同时，采用一次匹配关联，其存在有部分对高度不敏感的预测轨迹框和检测框之间失配直接进入删除状态，导致漏关联。

发明内容

有鉴于此，本申请提供了一种基于类别最优匹配的多目标跟踪方法及装置，以解决上述技术问题。

第一方面，本申请实施例提供了一种基于类别最优匹配的多目标跟踪方法，所述方法包括：

获取检测器输出的当前图像帧中的所有运动目标的检测框，对检测框进行分类；

利用上一图像帧中所有运动目标的运动信息，得到上一图像帧中所有运动目标在当前图像帧中的预测框；

根据预先设定的每个类别的代价函数，计算所属类别的检测框和所有预测框的关联值，由此构建每个类别的第一关联代价矩阵；每个类别的代价函数为：二维交并比、三维交并比、二维广义交并比、三维广义交并比或欧氏距离；

基于每个类别的第一关联代价矩阵，使用匹配算法得到当前图像帧中匹配成功的检测框的目标序号。

进一步地，所述检测框的信息包括：位置、运动方向、偏航角和速度；所述预测框的信息包括：目标序号、位置、运动方向、偏航角和速度。

进一步地，所述运动目标的类别包括：行人，自行车，摩托车，卡车和汽车；行人的代价函数为三维交并比；自行车的代价函数为欧式距离；摩托车的代价函数为二维广义交并比；卡车的代价函数为二维交并比；汽车的代价函数为三维广义交并比。

进一步地，所述方法还包括：利用数据集确定各类别的代价函数，具体包括：

获取数据集，所述数据集包括连续样本图像帧的多个运动目标的真实框；

获取检测器输出的样本图像每一帧中的预设类别的运动目标的检测框；利用样本图像上一帧中所有运动目标的运动信息，得到样本图像上一帧中所有运动目标在样本图像每一帧中的预测框；

基于二维交并比的代价函数，计算检测框和所有预测框的关联值，由此构建第一关联代价样本矩阵；基于第一关联代价样本矩阵，使用匹配算法得到样本图像每一帧中匹配成功的检测框；利用样本图像所有帧的匹配成功的检测框和对应的预设类别的运动目标的真实框计算第一准确度；

基于三维交并比的代价函数，计算检测框和所有预测框的关联值，由此构建第二关联代价样本矩阵；基于第二关联代价样本矩阵，使用匹配算法得到样本图像每一帧中匹配成功的检测框；利用样本图像所有帧的匹配成功的检测框和对应的预设类别的运动目标的真实框计算第二准确度；

基于二维广义交并比的代价函数，计算检测框和所有预测框的关联值，由此构建第三关联代价样本矩阵；基于第三关联代价样本矩阵，使用匹配算法得到样本图像每一帧中匹配成功的检测框；利用样本图像所有帧的匹配成功的检测框和对应的预设类别的运动目标的真实框计算第三准确度；

基于三维广义交并比的代价函数，计算检测框和所有预测框的关联值，由此构建第四关联代价样本矩阵；基于第四关联代价样本矩阵，使用匹配算法得到样本图像每一帧中匹配成功的检测框；利用样本图像所有帧的匹配成功的检测框和对应的预设类别的运动目标的真实框计算第四准确度；

基于欧氏距离的代价函数，计算检测框和所有预测框的关联值，由此构建第五关联代价样本矩阵；基于第五关联代价样本矩阵，使用匹配算法得到样本图像每一帧中匹配成功的检测框；利用样本图像所有帧的匹配成功的检测框和对应的预设类别的运动目标的真实框计算第五准确度；

将第一准确值、第二准确值、第三准确值、第四准确值和第五准确值中的最大值对应的代价函数作为预设类别的代价函数。

进一步地，利用样本图像所有帧的匹配成功的检测框和对应的预设类别的运动目标的真实框计算准确度；包括：

获取检测器输出的第t帧的误检数fp_t和漏检数m_t；

根据样本图像第t帧的匹配成功的检测框和对应的预设类别的运动目标的真实框，获取误配数mme_t；

计算准确度MOTA：

其中，g_t为第t帧的预设类别的真实框的数量。

进一步地，所述方法还包括：

对于未匹配成功的预测框，利用二维广义交并比计算其与所有检测框的关联值，由此构建第二关联代价矩阵；

基于第二关联代价矩阵，使用匹配算法得到当前图像帧中匹配成功的检测框的目标序号。

进一步地，所述方法还包括：

将未匹配成功的检测框判定为新运动目标，并为新运动目标赋予目标序号；

统计未匹配成功的预测框的连续未匹配成功的次数，当连续未匹配成功的次数大于阈值，则将未匹配成功的预测框删除。

第二方面，本申请实施例提供了一种基于类别最优匹配的多目标跟踪装置，所述装置包括：

获取单元，用于获取检测器输出的当前图像帧中的所有运动目标的检测框，对检测框进行分类；

预测单元，用于利用上一图像帧中所有运动目标的运动信息，得到上一图像帧中所有运动目标在当前图像帧中的预测框；

计算单元，用于根据预先设定的每个类别的代价函数，计算所属类别的检测框和所有预测框的关联值，由此构建每个类别的第一关联代价矩阵；每个类别的代价函数为：二维交并比、三维交并比、二维广义交并比、三维广义交并比或欧氏距离；

匹配单元，用于基于每个类别的第一关联代价矩阵，使用匹配算法得到当前图像帧中匹配成功的检测框的目标序号。

第三方面，本申请实施例提供了一种电子设备，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现本申请实施例的方法。

本申请提高了检测框匹配的正确率，提高了多类别多目标的跟踪精度。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于类别最优匹配的多目标跟踪方法的流程图；

图2为本申请实施例提供的基于类别最优匹配的多目标跟踪装置的功能结构图；

图3为本申请实施例提供的电子设备的功能结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先对本申请实施例的设计思想进行简单介绍。

多目标跟踪一般简称为MOT(Multiple Object Tracking)，是自动驾驶、智能监控、行为识别、辅助机器人等领域的关键技术，在时间维度上，整个流程一般分为检测-跟踪-预测，跟踪接收检测器提供的检测对象信息，并为预测模块提供必要的历史信息。MOT在事先不知道目标数量的情况下，在周围环境中提取连续的动态信息，对视频中的行人、汽车、单车、摩托车等多个类别多个目标进行检测并赋予ID进行轨迹跟踪，保证了自动驾驶和机器人技术在连续动态检测过程中目标的一致性，有利于后续的运动规划和导航任务。不同的目标拥有不同的ID，以便实现后续的轨迹预测、精准查找等工作。

目前，数据关联的主流方法是将轨迹预测得到的预测框和当前检测框进行匹配，采用同一跟踪标准进行所有类别的代价矩阵构建及求解，即采用一次匹配关联。若没有获得匹配，则直接进行轨迹状态是否删除的判断。此类方法虽然构建代价矩阵简单方便并且在不同场景下泛化性较强，但对各种类别采用同一跟踪标准导致其对类别的针对性减弱，跟踪精度较低；同时，采用一次匹配关联，其存在有部分对高度不敏感的预测轨迹框和检测框之间失配直接进入删除状态，导致漏关联。

为了达到数据关联的最优匹配，提高跟踪精度，本申请提出了一种基于类别最优匹配的多目标跟踪方法，该方法利用数据集确定不同类别的最优代价函数，然后根据预先设定的每个类别的代价函数，计算所属类别的检测框和所有预测框的关联值，由此构建每个类别的第一关联代价矩阵；每个类别的代价函数为：二维交并比、三维交并比、二维广义交并比、三维广义交并比或欧氏距离；最后基于每个类别的第一关联代价矩阵，使用匹配算法得到当前图像帧中匹配成功的检测框的目标序号。由此提高了关联的准确度，提高了多类别多目标跟踪的跟踪精度。

在介绍了本申请实施例的应用场景和设计思想之后，下面对本申请实施例提供的技术方案进行说明。

如图1所示，本申请实施提供一种基于类别最优匹配的多目标跟踪方法，包括：

步骤101：获取检测器输出的当前图像帧中的所有运动目标的检测框，对检测框进行分类；

其中，所述检测框的信息包括：位置、运动方向、偏航角和速度；所述预测框的信息包括：目标序号、位置、运动方向、偏航角和速度。

本实施例中，所述运动目标的类别包括：行人，自行车，摩托车，卡车和汽车。

步骤102：利用上一图像帧中所有运动目标的运动信息，得到上一图像帧中所有运动目标在当前图像帧中的预测框；

其中，轨迹预测方法包括：滤波和时序神经网络。

步骤103：根据预先设定的每个类别的代价函数，计算所属类别的检测框和所有预测框的关联值，由此构建每个类别的第一关联代价矩阵；每个类别的代价函数为：二维交并比、三维交并比、二维广义交并比、三维广义交并比或欧氏距离；

由于不同种类别的物体对关联标准和阈值敏感性不同，因此本申请对不同类别采取不同的代价函数，本申请提供基于检测框几何信息的五类距离算法对不同类别的物体进行数据相关性计算。五种距离算法分别是IoU_2d、IoU_3d、GIoU_2d，GIoU_3d和欧氏距离。其中，IoU全称为交并比(Intersection over Union)，其同时作为度量和损失函数时，存在两个问题：如果两个目标没有重叠，IoU将会为O，并且不会反应两个目标之间的距离；并且IoU无法区分两个对象之间不同的对齐方式，不同方向上两个重叠对象的IoU可能会完全相等。此时使用GloU(Generalized Intersection over Union)可以完全避免此类问题。故而GloU是为克服IoU的缺点同时充分利用优点(包含物体几何和位置信息)而提出的。欧氏距离衡量的是多维空间中两个点之间的绝对距离，不受其他因素干扰，但其未考虑两个检测框几何信息的差异性。五类距离算法具体如下：

二维交并比IoU(IoU_2d)的计算公式为：

其中，A是BEV(Bird’s Eye View)视角下代表轨迹在当前帧状态的二维预测框，B是BEV视角下当前帧检测器的二维检测框；A∩B表示检测框之间的相交面积；A∪B表示检测框之间的并集面积；

三维交并比IoU(IoU_3d)的计算公式为：

其中A_v是对轨迹进行预测得到的在当前帧状态的三维预测框，B_v是BEV视角下当前帧检测器的三维检测框；A_v∩B_v表示检测框之间的相交体积；A_v∪B_v表示检测框之间的并集体积；

二维广义交并比GloU(GIoU_2d)的计算公式为：

其中，C是BEV视角下包含A与B的最小二维闭包；C\(A∪B)表示最小二维闭包中除检测框并集面积的面积；

三维广义交并比GloU(GIoU_3d)的计算公式为：

其中，C_v是包含A_v与B_v的最小三维闭包；C_v\(A_v∪B_v)表示最小三维闭包中除检测框并集体积的体积；

欧式距离d的计算公式为：

其中，(x₁，y₁，z₁)为三维检测框的中心在全局坐标系下的三维坐标，w₁，h₁和l₁为三维检测框的宽、高和长，θ₁为三维检测框绕Z轴的偏航角；(x₂，y₂，z₂)为三维预测框的中心在全局坐标系下的三维坐标，w₂，h₂和l₂为三维预测框的宽、高和长，θ₂为三维预测框绕Z轴的偏航角。

所述方法还包括：利用数据集确定各类别的代价函数，具体包括：

其中，利用样本图像所有帧的匹配成功的检测框和对应的预设类别的运动目标的真实框计算准确度；包括：

获取检测器输出的第t帧的误检数fp_t(False positives，是指在真实框中不存在的检测框个数)和漏检数m_t(False negatives，是指真实框存在但检测框不存在的检测框个数)；

根据样本图像第t帧的匹配成功的检测框和对应的预设类别的运动目标的真实框，和误配数mme_t(第t帧中运动目标发生ID切换的次数)；

计算准确度MOTA：

其中，g_t为样本图像第t帧中预设类别的真实框的数量。

由此得到：行人的代价函数为三维交并比；自行车的代价函数为欧式距离；摩托车的代价函数为二维广义交并比；卡车的代价函数为二维交并比；汽车的代价函数为三维广义交并比。

此外，在匹配算法中需要使用阈值判断检测框和预测框是否关联，在确定各个类别的代价函数的同时，还需要确定对应的阈值。

在本实施例中，在第一关联代价矩阵中，当检测框和预测框的类别相同时，其对应的元素为检测框和预测框的关联值，否则为无穷大。

步骤104：基于每个类别的第一关联代价矩阵，使用匹配算法得到当前图像帧中匹配成功的检测框的目标序号。

其中，匹配算法为贪婪算法或匈牙利算法。

考虑到部分轨迹框和检测框对高度信息不敏感，对未匹配成功的预测的轨迹框和当前帧的检测框再次进行二维(即鸟瞰图视角)代价矩阵的构建并求解，利用二次关联算法避免漏关联。因此所述方法还包括：

对于未匹配成功的预测框，利用二维广义交并比计算其与所有检测框的关联值，由此构建第二关联代价矩阵；基于第二关联代价矩阵，使用匹配算法得到当前图像帧中匹配成功的检测框的目标序号。

此外，所述方法还包括：得到轨迹和检测框的匹配关系后，对其进行处理。处理过程可以分为：轨迹注册，轨迹维护，轨迹删除三个部分。其中使用匹配成功的检测框对相应的轨迹进行维护(如卡尔曼滤波更新等)；将匹配失败的检测框初始化为新轨迹；匹配失败的轨迹若一直没有得到检测框更新，当轨迹超过最大失配数时将其删除。

基于上述实施例，本申请实施例提供了一种基于类别最优匹配的多目标跟踪装置，参阅图2所示，本申请实施例提供的基于类别最优匹配的多目标跟踪装置200至少包括：

获取单元201，用于获取检测器输出的当前图像帧中的所有运动目标的检测框，对检测框进行分类；

预测单元202，用于利用上一图像帧中所有运动目标的运动信息，得到上一图像帧中所有运动目标在当前图像帧中的预测框；

计算单元203，用于根据预先设定的每个类别的代价函数，计算所属类别的检测框和所有预测框的关联值，由此构建每个类别的第一关联代价矩阵；每个类别的代价函数为：二维交并比、三维交并比、二维广义交并比、三维广义交并比或欧氏距离；

匹配单元204，用于基于每个类别的第一关联代价矩阵，使用匹配算法得到当前图像帧中匹配成功的检测框的目标序号。

需要说明的是，本申请实施例提供的基于类别最优匹配的多目标跟踪装置200解决技术问题的原理与本申请实施例提供的基于类别最优匹配的多目标跟踪方法相似，因此，本申请实施例提供的基于类别最优匹配的多目标跟踪装置200的实施可以参见本申请实施例提供的基于类别最优匹配的多目标跟踪方法的实施，重复之处不再赘述。

基于上述实施例，本申请实施例还提供了一种电子设备，参阅图3所示，本申请实施例提供的电子设备300至少包括：处理器301、存储器302和存储在存储器302上并可在处理器301上运行的计算机程序，处理器301执行计算机程序时实现本申请实施例提供的基于类别最优匹配的多目标跟踪方法。

本申请实施例提供的电子设备300还可以包括连接不同组件(包括处理器301和存储器302)的总线303。其中，总线303表示几类总线结构中的一种或多种，包括存储器总线、外围总线、局域总线等。

存储器302可以包括易失性存储器形式的可读介质，例如随机存储器(RandomAccess Memory，RAM)3021和/或高速缓存存储器3022，还可以进一步包括只读存储器(ReadOnly Memory，ROM)3023。

存储器302还可以包括具有一组(至少一个)程序模块3024的程序工具3025，程序模块3024包括但不限于：操作子系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备300也可以与一个或多个外部设备304(例如键盘、遥控器等)通信，还可以与一个或者多个使得用户能与电子设备300交互的设备通信(例如手机、电脑等)，和/或，与使得电子设备300与一个或多个其它电子设备300进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(Input/Output，I/O)接口305进行。并且，电子设备300还可以通过网络适配器306与一个或者多个网络(例如局域网(Local AreaNetwork，LAN)，广域网(Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图3所示，网络适配器306通过总线303与电子设备300的其它模块通信。应当理解，尽管图3中未示出，可以结合电子设备300使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of IndependentDisks，RAID)子系统、磁带驱动器以及数据备份存储子系统等。

需要说明的是，图3所示的电子设备300仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，该计算机指令被处理器执行时实现本申请实施例提供的方法。具体地，该可执行程序可以内置或者安装在电子设备300中，这样，电子设备300就可以通过执行内置或者安装的可执行程序实现本申请实施例提供的基于类别最优匹配的多目标跟踪方法。

本申请实施例提供的基于类别最优匹配的多目标跟踪方法还可以实现为一种程序产品，该程序产品包括程序代码，当该程序产品可以在电子设备300上运行时，该程序代码用于使电子设备300执行本申请实施例提供的基于类别最优匹配的多目标跟踪方法。

本申请实施例提供的程序产品可以采用一个或多个可读介质的任意组合，其中，可读介质可以是可读信号介质或者可读存储介质，而可读存储介质可以是但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合，具体地，可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、光纤、便携式紧凑盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请实施例提供的程序产品可以采用CD-ROM并包括程序代码，还可以在计算设备上运行。然而，本申请实施例提供的程序产品不限于此，在本申请实施例中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

最后所应说明的是，以上实施例仅用以说明本申请的技术方案而非限制。尽管参照实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，对本申请的技术方案进行修改或者等同替换，都不脱离本申请技术方案的精神和范围，其均应涵盖在本申请的权利要求范围当中。

Claims

1.一种基于类别最优匹配的多目标跟踪方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述检测框的信息包括：位置、运动方向、偏航角和速度；所述预测框的信息包括：目标序号、位置、运动方向、偏航角和速度。

3.根据权利要求1所述的方法，其特征在于，所述运动目标的类别包括：行人，自行车，摩托车，卡车和汽车；行人的代价函数为三维交并比；自行车的代价函数为欧式距离；摩托车的代价函数为二维广义交并比；卡车的代价函数为二维交并比；汽车的代价函数为三维广义交并比。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：利用数据集确定各类别的代价函数，具体包括：

5.根据权利要求4所述的方法，其特征在于，利用样本图像所有帧的匹配成功的检测框和对应的预设类别的运动目标的真实框计算准确度；包括：

获取检测器输出的第t帧的误检数fp_t和漏检数m_t；

计算准确度MOTA：

其中，g_t为第t帧的预设类别的真实框的数量。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种基于类别最优匹配的多目标跟踪装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现如权利要求1-7任一项所述的方法。