CN115690146A

CN115690146A - 一种多目标跟踪方法、装置、计算设备和存储介质

Info

Publication number: CN115690146A
Application number: CN202110865211.1A
Authority: CN
Inventors: 庞子奇; 李智超; 王乃岩
Original assignee: Beijing Tusimple Technology Co Ltd
Current assignee: Beijing Tusimple Technology Co Ltd
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2023-02-03
Also published as: JP2023021067A; US20230030496A1; AU2022209225A1; EP4125037A1

Abstract

本公开提供了一种多目标跟踪方法、装置、计算设备和存储介质，用于解决现有技术中多目标跟踪不准确的问题。该目标跟踪方法包括：根据已有观测帧中一个或多个目标的轨迹片段得到各目标在当前观测帧中的预测框；对当前观测帧进行目标检测，得到其中一个或多个检测框，该检测框分为高质量框、中质量框和低质量框；根据预测框和检测框的相似度对各预测框与检测框进行匹配；若某预测框未匹配上高质量框但匹配上了中质量框，则确定该预测框所对应的目标在当前观测帧中处于跟踪状态。本公开实施例能够基于匹配上的中质量检测框维持物体的生命周期，进行轨迹片段的关联，同时又仅根据匹配上的高质量检测框来更新物体的运动状态，保证轨迹片段的准确性。

Description

一种多目标跟踪方法、装置、计算设备和存储介质

技术领域

本公开涉及计算机视觉领域，尤其涉及一种多目标跟踪方法、装置、计算设备和存储介质。

背景技术

多目标跟踪(Multiple Object Tracking or Multiple Target Tracking,MOTor MTT)的主要任务是对观测帧序列中所有目标进行定位与标号，将不同观测帧之间的目标一一对应，使同一目标始终维持相同的标号，进而形成不同目标的运动轨迹。但目前的多目标跟踪方法很容易出现目标跟踪错误、轨迹跟踪错误的情况，因此需要提高多目标跟踪的准确度。

发明内容

本公开的实施例提供一种多目标跟踪方法、装置、计算设备和存储介质，以提高多目标跟踪的准确性。

为达到上述目的，本公开的实施例采用如下技术方案：

本公开实施例的第一方面，提供一种多目标跟踪方法，包括：

根据已有观测帧中一个或多个目标的轨迹片段得到各目标在当前观测帧中的预测框；

对当前观测帧进行目标检测，得到其中一个或多个检测框，该检测框分为高质量框、中质量框和低质量框；

根据预测框和检测框的相似度对各预测框与检测框进行匹配；以及

若某预测框未匹配上高质量框但匹配上了中质量框，则确定该预测框所对应的目标在当前观测帧中处于跟踪状态。

本公开实施例的第二方面，提供一种多目标跟踪装置，包括：

预测模块，适于根据已有观测帧中一个或多个目标的轨迹片段得到各目标在当前观测帧中的预测框；

检测模块，适于对当前观测帧进行目标检测，得到其中一个或多个检测框，该检测框分为高质量框、中质量框和低质量框；

匹配模块，适于根据预测框和检测框的相似度对各预测框与检测框进行匹配；

分析模块，适于当某预测框未匹配上高质量框但匹配上了中质量框时，确定该预测框所对应的目标在当前观测帧中处于跟踪状态。

本公开实施例的第三方面，提供一种计算设备，包括：处理器、存储器、以及存储在存储器上并可在处理器上运行的计算机程序；其中，处理器在运行计算机程序时，执行如上所述的多目标跟踪方法。

本公开实施例的第四方面，提供一种算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时实现如上所述的多目标跟踪方法。

本公开实施例提供的技术方案，当根据轨迹片段预测出的预测框与目标检测方法得到的中质量检测框相匹配时，会维持运动物体的生命周期，避免仅根据高质量检测框来维持生命周期所引起的误检操作。另外，本公开仅根据匹配上的高质量检测框来更新物体的运动状态，而中质量检测框则不会引起运动状态的更新，保证所维护的轨迹片段的准确性。而且，本公开提出了多种新的预测框和检测框的距离度量值，提升了追踪性能；通过在状态量中维护速度项，将速度项乘以两帧之间的时间戳来代表两帧之间的位移，避免传感器丢帧或感知算法未感知到物体时引起的运动状态维护错误。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种车辆100的结构图；

图2为本公开实施例提供的一种多目标跟踪方法200的流程图；

图3为本公开实施例的一种多目标跟踪方式的示意图；

图4A和4B分别为本公开实施例的一种多目标跟踪方式的示意图；

图5A-5C分别为本公开实施例中的一种转换关系矩阵；

图6为本公开实施例提供的一种多目标跟踪装置600的结构图；

图7为本公开实施例提供的一种计算设备700的结构图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了使本领域的技术人员更好的了解本公开，下面先对本公开实施例中出现的部分技术术语进行解释如下：

点云：通过点云采集装置(如激光雷达、毫米波雷达等)采集的周围环境的数据，用一组稀疏的三维空间点标示。

帧(Frame)：传感器完成一次观测所接收到的测量数据，如相机的一帧数据为一张图片，点云采集装置的一帧数据为一组点云。

目标：每一帧数据中的目标对象，可包括静态物体和动态物体，例如行人、车辆、动物、障碍物、信号灯、路标等。

目标检测：通过算法在传感器数据中找到目标物体的位置，一般用长方形或者长方体表示在2D或者3D空间中物体所占据的位置。

目标跟踪：对于一段时间内的传感器输入数据和给定目标物体，计算该给定目标物体在每一时刻的状态量。

轨迹片段(Tracklet)：某个目标在历史观测帧中的历史信息和轨迹，可包括该目标在历史观测帧中的状态量。

状态量：物体在三维世界中的位置信息，包括位置参数和/或角度参数，也就是位姿中的位置和/或姿态。状态量还可以包括检测框的信息，如检测框的位置信息和长宽高等尺寸信息。

图1是可以在其中实现本文公开的各种技术的车辆100的示意图。车辆100可以是轿车、卡车、摩托车、公共汽车、船只、飞机、直升机、割草机、挖土机、摩托雪橇、航空器、旅游休闲车、游乐园车辆、农场装置、建筑装置、有轨电车、高尔夫车、火车、无轨电车，或其它车辆。车辆100可以完全地或部分地以自动驾驶模式进行运行。车辆100在自动驾驶模式下可以控制其自身，例如车辆100可以确定车辆的当前状态以及车辆所处环境的当前状态，确定在该环境中的至少一个其它车辆的预测行为，确定该至少一个其它车辆执行所预测行为的可能性所对应信任等级，并且基于所确定的信息来控制车辆100自身。在处于自动驾驶模式时，车辆100可以在无人交互的情况下运行。

车辆100可以包括各种车辆系统，例如驱动系统142、传感器系统144、控制系统146、用户接口系统148、控制计算机系统150以及通信系统152。车辆100可以包括更多或更少的系统，每个系统可以包括多个单元。进一步地，车辆100的每个系统和单元之间可以是互联的。例如，控制计算机系统150能够与车辆系统142-148和152中的一个或多个进行数据通信。从而，车辆100的一个或多个所描述的功能可以被划分为附加的功能性部件或者实体部件，或者结合为数量更少的功能性部件或者实体部件。在更进一步的例子中，附加的功能性部件或者实体部件可以增加到如图1所示的示例中。

驱动系统142可以包括为车辆100提供动能的多个可操作部件(或单元)。在一个实施例中，驱动系统142可以包括发动机或电动机、车轮、变速器、电子系统、以及动力(或动力源)。发动机或者电动机可以是如下装置的任意组合：内燃机、电机、蒸汽机、燃料电池发动机、丙烷发动机、或者其它形式的发动机或电动机。在一些实施例中，发动机可以将一种动力源转换为机械能。在一些实施例中，驱动系统142可以包括多种发动机或电动机。例如，油电混合车辆可以包括汽油发动机和电动机，也可以包括其它的情况。

车辆100的车轮可以是标准车轮。车辆100的车轮可以是多种形式的车轮，包括独轮、双轮、三轮、或者四轮形式，例如轿车或卡车上的四轮。其它数量的车轮也是可以的，例如六轮或者更多的车轮。车辆100的一个或多个车轮可被操作为与其他车轮的旋转方向不同。车轮可以是至少一个与变速器固定连接的车轮。车轮可以包括金属与橡胶的结合，或者是其他物质的结合。变速器可以包括可操作来将发动机的机械动力传送到车轮的单元。出于这个目的，变速器可以包括齿轮箱、离合器、差动齿轮和传动轴。变速器也可以包括其它单元。传动轴可以包括与车轮相匹配的一个或多个轮轴。电子系统可以包括用于传送或控制车辆100的电子信号的单元。这些电子信号可用于启动车辆100中的多个灯、多个伺服机构、多个电动机，以及其它电子驱动或者控制装置。动力源可以是全部或部分地为发动机或电动机提供动力的能源。也即，发动机或电动机能够将动力源转换为机械能。示例性地，动力源可以包括汽油、石油、石油类燃料、丙烷、其它压缩气体燃料、乙醇、燃料电池、太阳能板、电池以及其它电能源。动力源可以附加的或者可选地包括燃料箱、电池、电容、或者飞轮的任意组合。动力源也可以为车辆100的其它系统提供能量。

传感器系统144可以包括多个传感器，这些传感器用于感测车辆100的环境和条件的信息。例如，传感器系统144可以包括惯性测量单元(IMU)、全球定位系统(GPS)收发器、雷达(RADAR)单元、激光测距仪/LIDAR单元(或其它距离测量装置)、声学传感器、以及相机或图像捕捉装置。传感器系统144可以包括用于监控车辆100的多个感应器(例如，氧气(O2)监控器、油量表传感器、发动机油压传感器，等等)。还可以配置其它传感器。包括在传感器系统144中的一个或多个传感器可以被单独驱动或者被集体驱动，以更新一个或多个传感器的位置、方向，或者这二者。

IMU可以包括传感器的结合(例如加速器和陀螺仪)，用于基于惯性加速来感应车辆100的位置变化和方向变化。GPS收发器可以是任何用于估计车辆100的地理位置的传感器。出于该目的，GPS收发器可以包括接收器/发送器以提供车辆100相对于地球的位置信息。需要说明的是，GPS是全球导航卫星系统的一个示例，因此，在一些实施例中，GPS收发器可以替换为北斗卫星导航系统收发器或者伽利略卫星导航系统收发器。雷达单元可以使用无线电信号来感应车辆100所在环境中的对象。在一些实施例中，除感应对象之外，雷达单元还可以用于感应接近车辆100的物体的速度和前进方向。激光测距仪或LIDAR单元(或者其它距离测量装置)可以是任何使用激光来感应车辆100所在环境中的物体的传感器。在一个实施例中，激光测距仪/LIDAR单元可以包括激光源、激光扫描仪、以及探测器。激光测距仪/LIDAR单元用于以连续(例如使用外差检测)或者不连续的检测模式进行工作。相机可以包括用于捕捉车辆100所在环境的多个图像的装置。相机可以是静态图像相机或者动态视频相机。

控制系统146用于控制对车辆100及其部件(或单元)的操作。相应地，控制系统146可以包括各种单元，例如转向单元、动力控制单元、制动单元和导航单元。

转向单元可以是调整车辆100前进方向的机械的组合。动力控制单元(例如可以为油门)，例如可以被用于控制发动机的运转速度，进而控制车辆100的速度。制动单元可以包括用于对车辆100进行减速的机械的组合。制动单元可以以标准方式利用摩擦力来使车辆减速。在其他实施例中，制动单元可以将车轮的动能转化为电流。制动单元也可以采用其它形式。导航单元可以是任何为车辆100确定驾驶路径或路线的系统。导航单元还可以在车辆100行进的过程中动态的更新驾驶路径。控制系统146还可以附加地或者可选地包括其它未示出或未描述的部件(或单元)。

用户接口系统148可以用于允许车辆100与外部传感器、其它车辆、其它计算机系统和/或车辆100的用户之间的互动。例如，用户接口系统148可以包括标准视觉显示装置(例如，等离子显示器、液晶显示器(LCD)、触屏显示器、头戴显示器，或其它类似的显示器)，扬声器或其它音频输出装置，麦克风或者其它音频输入装置。例如，用户接口系统148还可以包括导航接口以及控制车辆100的内部环境(例如温度、风扇，等等)的接口。

通信系统152可以为车辆100提供与一个或多个设备或者周围其它车辆进行通信的方式。在一个示例性的实施例中，通信系统152可以直接或者通过通信网络与一个或多个设备进行通信。通信系统152例如可以是无线通信系统。例如，通信系统可以使用3G蜂窝通信(例如CDMA、EVDO、GSM/GPRS)或者4G蜂窝通信(例如WiMAX或LTE)，还可以使用5G蜂窝通信。可选地，通信系统可以与无线本地局域网(WLAN)进行通信(例如，使用

)。在一些实施例中，通信系统152可以直接与一个或多个设备或者周围其它车辆进行通信，例如，使用红外线，

或者ZIGBEE。其它无线协议，例如各种车载通信系统，也在本申请公开的范围之内。例如，通信系统可以包括一个或多个专用短程通信(DSRC)装置、V2V装置或者V2X装置，这些装置会与车辆和/或路边站进行公开或私密的数据通信。

控制计算机系统150能控制车辆100的部分或者全部功能。控制计算机系统150中的自动驾驶控制单元可以用于识别、评估、以及避免或越过车辆100所在环境中的潜在障碍。通常，自动驾驶控制单元可以用于在没有驾驶员的情况下控制车辆100，或者为驾驶员控制车辆提供辅助。在一些实施例中，自动驾驶控制单元用于将来自GPS收发器的数据、雷达数据、LIDAR数据、相机数据、以及来自其它车辆系统的数据结合起来，来确定车辆100的行驶路径或轨迹。自动驾驶控制单元可以被激活以使车辆100能够以自动驾驶模式被驾驶。

控制计算机系统150可以包括至少一个处理器(其可以包括至少一个微处理器)，处理器执行存储在非易失性计算机可读介质(例如数据存储装置或存储器)中的处理指令(即机器可执行指令)。存储器中存储有至少一条机器可执行指令，处理器执行至少一条机器可执行指令实现包括地图引擎、定位模块、感知模块、导航或路径模块、以及自动控制模块等的功能。地图引擎和定位模块用于提供地图信息和定位信息。感知模块用于根据传感器系统获取到的信息和地图引擎提供的地图信息感知车辆所处环境中的事物。导航或路径模块用于根据地图引擎、定位模块和感知模块的处理结果，为车辆规划行驶路径。自动控制模块将导航或路径模块等模块的决策信息输入解析转换成对车辆控制系统的控制命令输出，并通过车载网(例如通过CAN总线、局域互联网络、多媒体定向系统传输等方式实现的车辆内部电子网络系统)将控制命令发送给车辆控制系统中的对应部件，实现对车辆的自动控制；自动控制模块还可以通过车载网来获取车辆中各部件的信息。

控制计算机系统150也可以是多个计算装置，这些计算装置分布式地控制车辆100的部件或者系统。在一些实施例中，存储器中可以包含被处理器执行来实现车辆100的各种功能的处理指令(例如，程序逻辑)。在一个实施例中，控制计算机系统150能够与系统142、144、146、148和/或152进行数据通信。控制计算机系统中的接口用于促进控制计算机系统150和系统142、144、146、148以及152之间的数据通信。

存储器还可以包括其它指令，包括用于数据发送的指令、用于数据接收的指令、用于互动的指令、或者用于控制驱动系统140、传感器系统144、或控制系统146或用户接口系统148的指令。

除存储处理指令之外，存储器可以存储多种信息或数据，例如图像处理参数、道路地图、和路径信息。在车辆100以自动方式、半自动方式和/或手动模式运行的期间，这些信息可以被车辆100和控制计算机系统150所使用。

尽管自动驾驶控制单元被示为与处理器和存储器分离，但是应当理解，在一些实施方式中，自动驾驶控制单元的某些或全部功能可以利用驻留在一个或多个存储器(或数据存储装置)中的程序代码指令来实现并由一个或多个处理器执行，并且自动驾驶控制单元在某些情况下可以使用相同的处理器和/或存储器(或数据存储装置)来实现。在一些实施方式中，自动驾驶控制单元可以至少部分地使用各种专用电路逻辑，各种处理器，各种现场可编程门阵列(“FPGA”)，各种专用集成电路(“ASIC”)，各种实时控制器和硬件来实现。

控制计算机系统150可以根据从各种车辆系统(例如，驱动系统142，传感器系统144，以及控制系统146)接收到的输入，或者从用户接口系统148接收到的输入，来控制车辆100的功能。例如，控制计算机系统150可以使用来自控制系统146的输入来控制转向单元，来避开由传感器系统144检测到的障碍物。在一个实施例中，控制计算机系统150可以用来控制车辆100及其系统的多个方面。

虽然图1中显示了集成到车辆100中的各种部件(或单元)，这些部件(或单元)中的一个或多个可以搭载到车辆100上或单独关联到车辆100上。例如，控制计算机系统可以部分或者全部地独立于车辆100存在。从而，车辆100能够以分离的或者集成的设备单元的形式而存在。构成车辆105的设备单元之间可以以有线通信或者无线通信的方式实现相互通信。在一些实施例中，可以将附加部件或单元添加到各个系统或从系统中移除一个或多个以上的部件或单元(例如，图1所示的LiDAR或雷达)。

图2示出了根据本公开实施例的多目标跟踪方法200的流程图，该方法可应用于在线场景，也可应用于离线场景。如图2所示，该方法包括：

步骤S201、根据已有观测帧中一个或多个目标的轨迹片段得到各目标在当前观测帧中的预测框。

在一些实施例中，观测帧可以是图像序列的图像帧，也可以是点云序列中的点云帧。轨迹片段中含有各目标在已有观测帧的状态量和检测框，根据已有观测帧中目标的状态量和运动模型，可以得到该目标在当前观测帧的状态量和预测框。运动模型可以为卡尔曼滤波器等，其可包括目标在相邻两帧之间的位移量的先验值或预估值，基于卡尔曼滤波器可得到目标的最新状态。

在一些实施例中，本公开对每一帧进行目标检测后，都会确定一次当前最新的轨迹片段，轨迹片段的更新方式可参考图3进行理解。在一些实施例中，如果检测出了新的目标，则为该新目标初始化一个轨迹片段；如果某目标在过去连续多帧均未出现，则将该目标对应的轨迹片段从轨迹片段池中清除。因此，该已有观测帧可以为上一观测帧，即本公开基于上一观测帧中目标的轨迹片段确定该目标在当前观测帧的预测框。应当理解，多目标跟踪的重要任务之一也就是进行前后帧关联，即针对当前帧的目标检测框和上一帧的轨迹片段，将每个目标检测框对应到轨迹片段上。当对初始帧进行目标检测时，会为每个检测到的目标初始化一个轨迹片段。

步骤S202、对当前观测帧进行目标检测，得到一个或多个检测框，该检测框分为高质量框、中质量框和低质量框。

应当理解的是，本领域技术人员可以根据需要自行选定进行目标检测的目标检测算法，如单阶段目标检测、二阶段目标检测等，本公开对此不作限制。目标检测算法输出一个或多个检测框以及每个检测框的评价指标(如分数值)，每个检测框可能对应一个目标。这里，检测框的评价指标代表检测框的质量，本领域技术人员可以根据需要选取对应的评价指标量，例如置信度、精确度、与真值框的交并比等，本公开对此不作限制。

基于检测框的评价指标，可以将每一帧输出的检测框分为高质量、中质量框和低质量框。其中，高质量框是分数值大于等于第一阈值的检测框，中质量框是分数值处于第一阈值和第二阈值之间的检测框；低分框是分数值小于第二阈值的检测框，且第二阈值大于0。具体而言，中质量框是分数值小于第一阈值但大于等于第二阈值的检测框。对于置信度、精确度等不同的分数类型，本领域技术人员可以设定对应的分数阈值，本公开对各分数阈值的具体取值不作限制。例如，第一阈值的取值区间为[0.5，0.7]，具体可为0.5；第二阈值的取值区间为[0.1，0.3]，具体可为0.3，当然不限于此。

在一些实施例中，预测框和检测框均可以为二维框(如矩形框)或三维框(如长方体)。两种框均可以关键点的坐标值和/或框尺寸表征，例如可表征为中心点的坐标和长宽值，本领域技术人员可以自行选定框的表征量，只要能唯一表示出该框即可。例如，两种框均可表征为对角线顶点的坐标值和/或长宽值，还可表征为四个顶点的坐标值。又例如，两种框均可表征为中心点的坐标和长宽高值，可表征为体对角线顶点的坐标值和/或长宽高值，还可表征为八个顶点的坐标值。

步骤S203、根据预测框和检测框的相似度对各预测框与检测框进行匹配。

在一些实施例中，相似度为预测框和检测框的相对位置关系的度量值，所有能够代表预测框和检测框的相对位置关系的度量值均属于本公开的相似度的保护范畴。例如，该相似度可以为两个框的距离度量值(如欧式距离、马氏距离等)，面积的交并比(即交集面积与并集面积之比)、体积的交并比(即交集体积与并集体积之比)、两个框所对应图像特征的相似度。另外，本公开还提供了一些更精准的相似度参量，具体将在后文详述。

在一些实施例中，本公开采用先匹配高质量框后匹配中质量框的方式来进行匹配，从而提高匹配和目标检测的准确度。具体而言，步骤S203包括：提取当前观测帧中的高质量框与各轨迹片段进行初次匹配；对于未匹配上的轨迹片段，提取当前观测帧中的中质量框与所述未匹配上的轨迹片段进行再次匹配。

例如，假设目前轨迹片段池中有10个目标的轨迹片段，当前观测帧中5个高质量检测框和10个中质量检测框，则先将该5个高质量框与已有的轨迹片段进行匹配，之后再拿10个中质量检测框与未匹配上的轨迹片段进行匹配。需要说明的是，本领域技术人员可以根据需要选定预测框和检测框的匹配算法，例如可以为二分图匹配算法，具体可为匈牙利算法，当然不限于此。

步骤S204、若某预测框未匹配上高质量框但匹配上了中质量框，则确定该预测框所对应的目标在当前观测帧中处于跟踪状态。

在一些实施例中，若某预测框未匹配上高质量框和中质量框，则确定该预测框所对应的目标在当前观测帧中处于丢失状态；若某目标在连续多帧中均处于丢失状态，则确定该目标处于消失状态，并从清除该目标对应的轨迹片段。

在一些实施例中，若某预测框匹配上了中质量框，则保持对应轨迹片段的状态量不变；若某预测框匹配上了高质量框，则确定该预测框所对应的目标在当前观测帧中处于跟踪状态，并根据该高质量框更新对应轨迹片段的状态量。

可见，本公开的目标在观测帧中的状态包括跟踪状态、丢失状态和消失状态。跟踪状态代表目标应该还存在于当前观测帧中，丢失状态代表目标不存在于在当前观测帧中，消失状态代表目标在观测视野中已消失。另外，当匹配上高质量框和中质量框时确定物体处于跟踪状态，但由高质量框确定出的存在准确度更高，因此可由高质量框来维持目标的生命周期，同时更新目标的运动模型(例如卡尔曼滤波器)，即将目标的最新状态量更新为在当前观测帧中的状态量。而由中质量框确定出的存在准确度相对较低，因此中质量框仅维持目标的生命周期，但不更新目标的运动模型，即目标的最新状态量仍然保持为之前轨迹片段中的状态量。

这里，如图4A所示，如果仅根据匹配的高质量检测框来更新目标生命周期，则只要没有匹配到高质量框，对应的轨迹片段就会被清除。这种做法在目标检测质量较差、车辆受到遮挡的情况下会导致轨迹片段被错误地提前删除。而本公开所采用的目标跟踪方式如图4B所示，除了使用高阈值筛选高质量检测框，也采用中阈值筛选能够代表“此处有物体”的中质量目标检测框。这些中质量检测框可以有效维持轨迹片段的生命状态，但不会用于更新运动模型，以避免引起目标实际状态的混乱。

在一些实施例中，每个轨迹片段具有对应的目标标识，方法200还可以包括：对于在当前观测帧中已匹配的高质量框和中质量框，建立该检测框与对应的轨迹片段的关联关系，并为该检测框输出所关联的轨迹片段的目标标识。也就是，一个目标对应一个轨迹片段，检测框和预测框的匹配上后，该检测框这样，保证同一目标在同一观测帧序列中具有同一标识，避免出现同一目标具有不同标识的情况。

在一些实施例中，若某检测框未匹配上任何预测框且该检测框为高质量框，则为该高分框新生成一个轨迹片段，并为该轨迹片段新生成一个目标标识。这里仅为高质量检测框初始化一个轨迹片段，而如果某中质量检测框未匹配上任何预测框，则不会为其初始化轨迹片段，保证轨迹片段池中的轨迹片段的准确度。

在一些实施例中，当某目标第一次被判定为处于丢失状态时，也即某轨迹片段第一次未匹配上检测框时，为该目标启动一个倒计时模块，设定倒计计数初始为k(k为大于等于2的整数)。若下一帧中该目标依然被判定为丢失状态，也即该轨迹片段依然没有匹配上检测框，则倒计时计数减1(也即目标未出现帧数加1)。以此类推，当倒计时计数变为0时，也就是该目标在连续k帧均为丢失状态，则确定该目标处于消失状态。

而如果在倒计时的过程中，某目标又被重新判定为处于跟踪状态，也即对应的轨迹片段匹配上的检测框，则倒计时计数重置为k，重新开始计数。也就是，本公开只有当目标在连续k帧中均为丢失状态时才会判定该目标消失，若目标在该k帧中有至少一帧处于跟踪状态，则不会判定其处于消失状态。

在一些实施例中，方法200还可以根据检测框的分数来确定待输出的检测框。具体而言，对于每个已匹配的检测框，将该已匹配的检测框的信息、以及该检测框所关联的轨迹片段中各检测框的信息输入到预设的学习模型中，得到该检测框的输出概率。当某检测框的输出概率大于等于预设阈值时，输出该检测框的状态量。其中，信息包括检测框的状态量和/或检测框质量，该检测框质量例如该检测框的分数值。已匹配的检测框是指已匹配的且检测框质量满足预定条件的检测框。

这里，如果只输出已匹配的高分框，则可能忽略掉一些比较接近真值框的中分框。因此，本公开设计一种检测框的输出评估策略，基于学习模型来修正各检测框的分数值，确定哪些检测框需要输出。该学习模型的输入是当前检测框的信息以及该检测框所关联的轨迹片段中各检测框的信息，输出是当前检测框是否需要输出的输出概率。之后，根据该输出概率即可确定该检测框是否需要输出。

进一步而言，该学习模型的输入是目标检测算法所输出的当前检测框的分数值、以及该检测框所关联的轨迹片段中各检测框的分数值，输出是当前检测框修正后的分数值。之后，根据该修正后的分数值即可确定该检测框是否需要输出。本领域技术人员可以根据需要选定该学习模型的类型、参数和超参数，本公开对此不作限制。

在一些实施例中，检测框质量满足预定条件例如为检测框为高质量框和/或中质量框，或者检测框的分数值大于等于预定阈值。在一种实现方式中，本公开只对且置信度大于等于0.5的已匹配检测框输入到学习模型中来判断是否输出该框，而置信度小于0.5的已匹配检测框则不会将其输入到学习模型中进行判断。

另外，当预测框和检测框的相似度采用马氏距离、欧式距离等时，可能因无法判断物体重叠关系而导致大量的匹配错误。当采用面积交并比时可能在快速运动的车辆上失效。为此，本公开通过一种新的距离度量GIOU(Generalized IOU，广义IOU)来衡量预测框和检测框之间的距离，从而显著提升追踪性能。

在一些实施例中，当预测框和检测框均为二维框时，预测框和检测框的相似度与两个框的交集面积、并集面积和外接凸多边形的面积相关。

在一些实施例中，当预测框和检测框均为三维框时，预测框和检测框的相似度与两个框的交集体积、并集体积和外接凸多边体的体积相关。

进一步地，三维框的相似度的计算步骤包括：

1)分别生成预测框和检测框在二维平面上的第一投影框和第二投影框：

假设预测框和检测框分别为3D BBox A和3D BBox B，则获得者两个三维框在俯视图视角下的二维投影框，分别记为2D BBox A'和2D BBox B'。

2)计算第一投影框和第二投影框的交集面积和外接凸多边形的面积：

二维框A'和B'在俯视图下的交集区域为I，交集区域的面积为S_I；

二维框A'和B'在俯视图下的外接凸多边形为C，该外界凸多边形的面积为S_C；

3)计算预测框和检测框在竖轴上的交集高度、并集高度：

三维框A和B在z轴上的交集高度为：

H_I＝max(0,min((z_A+h_A/2)-(z_B-h_B/2),(z_B+h_B/2)-(z_A-h_A/2)))

三维框A和B在z轴上的并集高度为：

H_C＝max((z_A+h_A/2)-(z_B-h_B/2),(z_B+h_B/2)-(z_A-h_A/2)

其中，z_A和z_B分别为三维框A和B的关键点在z轴上的坐标值，具体可为框中心点在z轴上的坐标值。h_A和h_B分别为三维框A和B在z轴上的高度值。

4)根据第一投影框和第二投影框的交集面积和交集高度计算交集体积：

三维框A和B的交集体积为V_I＝S_I*H_I

5)根据外接凸多边形的面积和并集高度计算外接凸多边体的体积：

三维框A和B的外接凸多边体的体积为V_C＝S_C*H_C

6)根据预测框的体积、检测框的体积和交集体积计算并集体积：

三维框A和B的并集体积为V_U＝w_A*h_A*l_A+w_B*h_B*l_B-V_I

7)根据交集体积、并集体积和外接凸多边体的体积计算两个框的GIOU：

GIOU(A,B)＝V_I/V_U-(V_c-V_U)/V_C

在一些实施例中，本公开的相似度还可以采用基于三维框的DIOU(距离交并比，Distance-IOU)，DIOU考虑预测框和检测框的距离和重叠率，具体而言，DIOU根据两个框的体积交并比、两个框的中心点坐标之间的欧式距离d₁、两个框外接凸多变体的对角线距离计算得到d₁。其中，两个框的体积交并比可以直接为交集体积除以并集体积，也可以时上文计算得到的新的GIOU。在一种实现方式中，DIOU＝体积交并比-d₁/d₂＝GIOU-d₁/d₂。

在一些实施例中，本公开的相似度还可以采用基于三维框的CIOU(距离交并比，Complete-IOU)，CIOU考虑预测框和检测框的重叠率、中心点距离和尺寸比，也即在DIOU的基础上增加的长宽比的损失项。具体而言，CIOU＝DIOU+αv，其中α为权重，v用于度量尺寸比(例如长宽比、长高比、宽高比，或者三种比值的均值)的相似性。

可见，本公开设置了多种三位框的度量值来衡量预测框和检测框的相似度，相对于马氏距离、欧氏距离提升了多目标追踪的可泛化性，排除了在每个新场景下需要为不同的关联重新调整距离度量阈值的难点。

另外，如前文所述，本公开可采用卡尔曼滤波器来维护目标的运动状态。在卡尔曼滤波器中，x代表目标的运动状态，例如目标的位置和速度；z代表观测，例如目标对应的检测框。在卡尔曼滤波器中，用以下x_t＝F_tx_t-1+w_t和z_t＝H_tx_t+v_t这两个公式来描述物体的运动状态转移。前者描述相邻时间点中目标的状态转移，w_t代表噪声，F_t为状态转移变换关系，其可以为一个向量，也可以为一个矩阵，当然不限于此。后者描述了观测量z_t和状态量x_t之间的关系，其中H_t是观测变换关系，其同样可以为向量或矩阵，v_t代表噪声。

一般地，状态量x_t包括但不限于目标的位置参数、角度参数和对应检测框的尺寸。位置参数包括目标的关键点在空间坐标系中的第一坐标、第二坐标、第三坐标中的至少一种。第一坐标、第二坐标、第三坐标可对应空间坐标系中的x轴坐标、y轴坐标和z轴坐标。角度参数包括俯仰角(Pitch)、偏航角(Yaw)、翻滚角(Roll)中的至少一种。关键点可以为一个或多个，例如可以为物体的中心点或物体特定部位的中心点，或者这些点的集合。例如对于车辆，其关键点可以是车辆中心点，也可以是车头中心点，两侧后轮的中心点，或者多个车身点的集合，本公开对该关键点的数量和位置均不作限制。

在一些实施例中，状态量x_t是[x,y,z,yaw,l,w,h,Δx,Δy,Δz]，代表物体的位置、大小和两帧间的位移；观测量z_t是[x,y,z,yaw,l,w,h]，代表每帧的目标检测框。因此H_t、F_t分别如图5A和5B所示。若状态量为n维向量，则H_t为n*(n-3)维矩阵，F_t为n*n维矩阵。H_t矩阵的前n-3列的对角线数值均为1，其他数值为0；矩阵的后3列数值均为0。F_t矩阵的对角线数值、以及第1行第n-2列、第2行第n-1列、第3行第n列的数值均为1，其他数值为0。

但考虑到若只在卡尔曼滤波器中维护每个物体的位置和它在两帧之间的位移，则当传感器出现丢失中间帧、或者感知算法连续多帧未能感知到物体时，卡尔曼滤波器对目标的运动状态维护就会出现错误。为此，本公开维护的状态量x_t不再是目标物体在两帧之间的位移，而是目标的速度，此时状态量变成了[x,y,z,yaw,l,w,h,v_x,v_y,v_z]。由此，F_t变成了如图5C所示的矩阵，也就是将第1行第n-2列、第2行第n-1列、第3行第n列的数值均替换为time_lag，该time_lag代表两次观测之间的时间差。

基于此，方法200还可以包括步骤：

根据目标在当前观测帧的状态量和预设的状态转移变换关系计算目标在下一观测帧的状态量；以及

根据目标在下一观测帧的状态量和预设的观测变换关系计算所述目标在所述下一观测帧的预测框信息。

进一步地，状态量包括位置和速度，速度包括在三个坐标轴上的速度只。根据目标在当前观测帧的状态量和预设的状态转移变换关系计算目标在下一观测帧的状态量，包括；根据状态转移变换关系、所述目标在当前观测帧的位置、速度、以及相邻两帧的时间差，计算所述目标在下一观测帧的状态量。

可见，本公开通过维护目标位置和目标速度，用时间戳乘以速度来表示物体在两次观测之间的位移，得到目标的最新位置，提高了传感器丢帧或感知算法丢失观测时的鲁棒性。

图6示出了根据本公开一个实施例的多目标跟踪装置600的示意图。如图6所示，装置600包括：

预测模块601，适于根据已有观测帧中一个或多个目标的轨迹片段得到各目标在当前观测帧中的预测框；

检测模块602，适于对当前观测帧进行目标检测，得到其中一个或多个检测框，所述检测框分为高质量框、中质量框和低质量框；

匹配模块603，适于根据所述预测框和检测框的相似度对各预测框与检测框进行匹配；以及

分析模块604，适于当某预测框未匹配上高质量框但匹配上了中质量框时，确定该预测框所对应的目标在当前观测帧中处于跟踪状态。

在一些实施例中，匹配模块603进一步适于：提取当前观测帧中的高质量框与各轨迹片段进行初次匹配；对于未匹配上的轨迹片段，提取当前观测帧中的中质量框与所述未匹配上的轨迹片段进行再次匹配。相似度的计算过程已在基于方法200的描述中详细公开，这里不再展开赘述。

在一些实施例中，分析模块604进一步适于：

当某预测框匹配上了中质量框时，保持对应轨迹片段的状态量不变；

若某预测框匹配上了高质量框，则确定该预测框所对应的目标在当前观测帧中处于跟踪状态，并根据该高质量框更新对应轨迹片段的状态量；

当某检测框未匹配上任何预测框且该检测框为高质量框时，为该高分框新生成一个轨迹片段，并为该轨迹片段新生成一个目标标识；

当某预测框未匹配上高质量框和中质量框时，确定该预测框所对应的目标在当前观测帧中处于丢失状态；以及

当某目标在连续多帧中均处于丢失状态时，确定该目标处于消失状态，并从清除对应的轨迹片段。

在一些实施例中，每个轨迹片段具有对应的目标标识，装置600还包括输出模块(图中未示出)，适于：对于在当前观测帧中已匹配的高质量框和中质量框，建立该检测框与对应的轨迹片段的关联关系，并为该检测框输出所关联的轨迹片段的目标标识。

在一些实施例中，输出模块还适于：对于每个已匹配的检测框，将该已匹配的检测框的信息、以及该检测框所关联的轨迹片段中各检测框的信息输入到预设的学习模型中，得到该检测框的输出概率；当某检测框的输出概率大于等于预设阈值时，输出该检测框的状态量。其中，信息包括检测框的状态量和/或检测框质量。已匹配的检测框是指已匹配的且检测框质量满足预定条件的检测框。

在一些实施例中，输出模块还适于：根据目标在当前观测帧的状态量和预设的状态转移变换关系计算目标在下一观测帧的状态量；根据目标在下一观测帧的状态量和预设的观测变换关系计算目标在下一观测帧的预测框信息。其中，状态量包括位置和速度，则输出模块进一步适于根据状态转移变换关系、目标在当前观测帧的位置、速度、以及相邻两帧的时间差，计算目标在下一观测帧的状态量。

根据本公开的多目标跟踪装置600，其具体细节已在基于其他附图的描述中详细公开，这里不再展开赘述。

另外，本公开实施例还提供一种计算机可读存储介质，包括程序或指令，当所述程序或指令在计算机上运行时，实现如前文所述的多目标跟踪方法。

另外，本公开实施例还提供一种如图7所示的计算设备700，包括存储器701，以及与存储器通信连接的一个或多个处理器702。存储器701中存储有可被一个或多个处理器702执行的指令，指令被一个或多个处理器702执行，以使一个或多个处理器702实现如前文所述的点云处理方法。计算装置700还可以进一步包括一个通信接口703，该通信接口703可以实施一个或多个通信协议(LTE、Wi-Fi，等等)。

根据本公开的技术方案，根据已有轨迹片段来预测各目标在当前帧的预测框，根据目标检测算法来得到当前帧的检测框，之后根据预测框和检测框的匹配结果来更新物体的生命周期。匹配上的中质量框只维持生命周期但不更新轨迹片段的最新状态量，匹配上的高质量既维持生命周期又更新轨迹片段的最新状态量，既避免了目标检测不稳定或者车辆被遮挡时导致轨迹片段被提前清除的情况，又保证了运动模型的高准确性。而且，针对每一观测帧，计算并输出每个目标物体的位置和编号，使得同一物体在关联帧中都有相同的编号。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本公开中应用了具体实施例对本公开的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本公开的方法及其核心思想；同时，对于本领域的一般技术人员，依据本公开的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本公开的限制。

Claims

1.一种多目标跟踪方法，包括：

对当前观测帧进行目标检测，得到一个或多个检测框，所述检测框分为高质量框、中质量框和低质量框；

根据所述预测框和检测框的相似度对各预测框与检测框进行匹配；以及

2.根据权利要求1所述的方法，还包括：

若某预测框匹配上了中质量框，则保持对应轨迹片段的状态量不变；

若某预测框匹配上了高质量框，则确定该预测框所对应的目标在当前观测帧中处于跟踪状态，并根据该高质量框更新对应轨迹片段的状态量。

3.根据权利要求1所述的方法，其中，每个轨迹片段具有对应的目标标识，所述方法还包括：

对于在当前观测帧中已匹配的高质量框和中质量框，建立该检测框与对应的轨迹片段的关联关系，并为该检测框输出所关联的轨迹片段的目标标识。

4.根据权利要求3所述的方法，还包括：

对于每个已匹配的检测框，将该已匹配的检测框的信息、以及该检测框所关联的轨迹片段中各检测框的信息输入到预设的学习模型中，得到该检测框的输出概率；其中，所述信息包括检测框的状态量和/或检测框质量。

5.根据权利要求4所述的方法，还包括：

当某检测框的输出概率大于等于预设阈值时，输出该检测框的状态量；

其中，所述已匹配的检测框是指已匹配的且检测框质量满足预定条件的检测框。

6.根据权利要求1所述的方法，还包括：

若某预测框未匹配上高质量框和中质量框，则确定该预测框所对应的目标在当前观测帧中处于丢失状态；

若某目标在连续多帧中均处于丢失状态，则确定该目标处于消失状态，并从清除对应的轨迹片段。

7.根据权利要求1所述的方法，其中，根据所述预测框和检测框的相似度对各预测框与检测框进行匹配包括：

提取当前观测帧中的高质量框与各轨迹片段进行初次匹配；

对于未匹配上的轨迹片段，提取当前观测帧中的中质量框与所述未匹配上的轨迹片段进行再次匹配。

8.根据权利要求1所述的方法，其中，

所述相似度为预测框和检测框的相对位置关系的度量值；

当所述预测框和检测框均为二维框时，所述相似度与两个框的交集面积、并集面积和外接凸多边形的面积相关；

当所述预测框和检测框均为三维框时，所述相似度与两个框的交集体积、并集体积和外接凸多边体的体积相关。

9.根据权利要求1所述的方法，还包括所述三维框的相似度的计算步骤：

分别生成预测框和检测框在二维平面上的第一投影框和第二投影框；

计算所述第一投影框和第二投影框的交集面积和外接凸多边形的面积；

计算所述预测框和检测框在竖轴上的交集高度、并集高度。

10.根据权利要求1所述的方法，其中，所述三维框的相似度的计算步骤还包括：

根据第一投影框和第二投影框的交集面积和交集高度计算所述交集体积；

根据所述外接凸多边形的面积和并集高度计算所述外接凸多边体的体积；

根据所述预测框的体积、所述检测框的体积和所述交集体积计算所述并集体积。

11.根据权利要求1所述的方法，还包括：

根据所述目标在当前观测帧的状态量和预设的状态转移变换关系计算所述目标在下一观测帧的状态量；以及

根据所述目标在下一观测帧的状态量和预设的观测变换关系计算所述目标在所述下一观测帧的预测框信息。

12.根据权利要求11所述的方法，所述状态量包括位置和速度，根据所述目标在当前观测帧的状态量和预设的状态转移变换关系计算所述目标在下一观测帧的状态量，包括；

根据所述状态转移变换关系、所述目标在当前观测帧的位置、速度、以及相邻两帧的时间差，计算所述目标在下一观测帧的状态量。

13.根据权利要求1所述的方法，其中，

所述高质量框是分数值大于等于第一阈值的检测框；

中质量框是分数值处于第一阈值和第二阈值之间的检测框；

低分框是分数值小于第二阈值的检测框，且第二阈值大于0。

14.一种多目标跟踪装置，包括：

检测模块，适于对当前观测帧进行目标检测，得到其中一个或多个检测框，所述检测框分为高质量框、中质量框和低质量框；

匹配模块，适于根据所述预测框和检测框的相似度对各预测框与检测框进行匹配；

15.一种计算设备，包括：

处理器、存储器、以及存储在存储器上并可在处理器上运行的计算机程序；

其中，所述处理器在运行所述计算机程序时，执行权利要求1-15任一项所述的方法。

16.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时实现权利要求1-15任一项所述的方法。