CN116152714A

CN116152714A - 目标跟踪方法、系统及电子设备

Info

Publication number: CN116152714A
Application number: CN202310163720.9A
Authority: CN
Inventors: 刘建伟
Original assignee: Beijing Aixin Technology Co ltd
Current assignee: Beijing Aixin Technology Co ltd
Priority date: 2023-02-14
Filing date: 2023-02-14
Publication date: 2023-05-23

Abstract

本申请提供目标跟踪方法、系统及电子设备，涉及计算机视觉处理领域，该目标跟踪方法包括：获取待处理数据的当前帧中的检测框和跟踪框；将检测框与跟踪框进行匹配，并获取第一匹配结果；判断第一匹配结果是否为匹配失败；若第一匹配结果为匹配失败，则对重识别网络模型进行低比特量化，以获得量化后重识别网络模型；将检测框和跟踪框输入量化后重识别网络模型，以再次匹配检测框和跟踪框，并获取第二匹配结果；若第二匹配结果为匹配成功，则将检测框的目标轨迹加入跟踪轨迹。使用本申请实施例提供的目标跟踪方法不但能够提高目标跟踪的匹配精度，还能够降低匹配的计算耗时。

Description

目标跟踪方法、系统及电子设备

本申请涉及计算机视觉处理领域，具体而言，涉及一种目标跟踪方法、系统及电子设备。

背景技术

多目标追踪主要解决的问题是对视频中每一帧画面里标定或想要追踪的目标进行检测并获取在图像中的位置，对每个目标分配一个id，在目标运动过程中，维持每个目标的id保持不变。在多目标追踪问题中，目标追踪算法需要对视频中每帧图像里的所有目标进行检测，将检测到的新目标与已经分配轨迹的目标进行匹配，如果匹配成功，将归类于已有轨迹的目标中；对没有匹配成功的目标，将其归类为新出现的目标，需要分配一个新的id，对于离开视频区域的目标，将不再对其进行轨迹追踪，并在已有轨迹的集合中将其删除。

目前，对于目标轨迹的跟踪大多是使用交并比计算代价矩阵并通过匈牙利匹配算法获取当前帧检测框与跟踪轨迹匹配结果的3D多目标跟踪算法，但该方法存在缺乏实例语义信息的问题。

现有的目标轨迹跟踪方法中，虽然存在将图像语义信息引入的目标轨迹跟踪方法的方案，但现有的引入目标图像语义信息的目标轨迹跟踪方法使轨迹跟踪的推理速度明显降低，导致该方法定的实时性较差。另外地，也有一些基于深度学习的3D多目标跟踪算法被提出，但其内存占用大，轨迹跟踪的推理速度慢。

发明内容

本申请实施例的目的在于提供一种目标跟踪方法、系统及电子设备，该目标跟踪方法第一次将3D检测框和3D跟踪框进行匹配；若配3D检测框未跟踪上，那么将3D检测框投影至多摄像机得到2D检测框后；进一步地，使用低比特量化后的重识别网络计算第二次匹配的代价矩阵，再次进行匹配，获得匹配结果；不但能够提高目标跟踪的匹配精度，还能够降低匹配的计算耗时。

第一方面，本申请实施例提供一种目标跟踪方法，该目标跟踪方法包括：获取待处理数据的当前帧中的检测框和跟踪框；将检测框与跟踪框进行匹配，并获取第一匹配结果；判断第一匹配结果是否为匹配失败；若第一匹配结果为匹配失败，则对重识别网络模型进行低比特量化，以获得量化后重识别网络模型；将检测框和跟踪框输入量化后重识别网络模型，以再次匹配检测框和跟踪框，并获取第二匹配结果；若第二匹配结果为匹配成功，则将检测框的目标轨迹加入跟踪轨迹。

在上述实现过程中，第一次将3D检测框和3D跟踪框进行匹配；若3D检测框未匹配上，进一步地，使用低比特量化后的重识别网络计算第二次匹配的代价矩阵，再次进行匹配，获得匹配结果；因此，使用本申请实施例提供的目标跟踪方法不但能够提高目标跟踪的匹配精度，还能够降低由于重识别网络引入带来的计算耗时。

可选地，在本申请实施例中，检测框包括3D检测框和2D检测框；跟踪框包括3D跟踪框和2D跟踪框；根据待处理数据获取当前帧中的检测框和跟踪框包括：根据待处理数据，获取当前帧中的目标轨迹的当前信息和历史信息；根据当前信息获取3D检测框，并将3D检测框投影至多摄相机坐标系，以获取2D检测框；根据历史信息和3D检测框获取3D跟踪框和2D跟踪框。

在上述实现过程中，通过待处理数据可以获得当前帧中的检测框和跟踪框，通过当前信息获取3D检测框和2D检测框；根据历史信息和3D检测框获取3D跟踪框和2D跟踪框；从而准确地获取到3D检测框、2D检测框、3D跟踪框和2D跟踪框，便于精确跟踪目标。

可选地，在本申请实施例中，待处理数据包括激光雷达点云数据；将3D检测框投影至多摄相机坐标系，以获取2D检测框，包括：将3D检测框投影至多摄像机坐标系，以获得3D检测框对应的多个投影2D框；获取3D检测框内的点云数量和多个投影2D框内的点云数量；将3D检测框内的点云数量分别除以多个投影2D框内的点云数量，以获得遮挡比例；将遮挡比例中最小的遮挡比例对应的投影2D框作为2D检测框。

在上述实现过程中，将3D检测框投影至多摄相机坐标系，在有一个3D框对应多个2D框时，选取遮挡比例最小的2D投影框作为重识别网络的输入，遮挡比例通过3D坐标系下3D检测框内点云数量除以投影至相机坐标系下2D检测框内点云数量获得；由于本申请实施例提供的目标跟踪方法选取遮挡比例最小的2D框为2D检测框，从而能够提高3D多目标跟踪匹配精度。

可选地，在本申请实施例中，将检测框和跟踪框通过量化后重识别网络模型，以再次匹配检测框和跟踪框，并获取第二匹配结果包括：将2D检测框和2D跟踪框通过量化后的重识别网络模型，以获得2D检测框实例语义特征和2D跟踪框实例语义特征；计算2D检测框实例语义特征和2D跟踪框实例语义特征的余弦距离，以获得语义特征代价矩阵；基于语义特征代价矩阵，再次匹配2D检测框和2D跟踪框，并获取第二匹配结果。

在上述实现过程中，将检测框和跟踪框通过量化后重识别网络模型，得到2D检测框实例语义特征和2D跟踪框实例语义特征；进一步地，再次匹配检测框和跟踪框，并获取第二匹配结果。因而，本申请实施例提供的目标跟踪方法引入了实例级别的语义特征，克服了现有技术3D多目标跟踪匹配过程缺失实例语义信息的问题。

可选地，在本申请实施例中，将检测框与跟踪框进行匹配，并获取第一匹配结果包括：计算3D检测框和3D跟踪框的交并比距离，以获得3D交并比代价矩阵；基于3D交并比代价矩阵，对3D检测框和3D跟踪框进行匹配，并获取第一匹配结果。

在上述实现过程中，本申请实施例提供的目标跟踪方法中存在两次匹配操作，第一次为初步匹配；第一次的匹配使用的是3D IOU代价矩阵，经过第一次匹配，存在一些匹配失败的检测框和跟踪框，对于匹配失败的检测框进而跟踪框再进行第二次匹配。也就是说，使用本申请实施例提供的目标跟踪方法可以通过第一次匹配实现初步匹配；使再次匹配时的数据量减少，能够提高匹配效率。

可选地，在本申请实施例中，该目标跟踪方法还包括：若第一匹配结果为匹配成功，则将3D检测框中的目标加入跟踪轨迹。

在上述实现过程中，对交并比代价矩阵融合的代价矩阵使用匈牙利算法进行匹配，基于匈牙利匹配算法得到一个与输入同大小的匹配矩阵；如果检查测框与某一个轨迹相匹配，则对应输出的矩阵该行该列为1，对匹配上的轨迹的重识别特征用对应的检测重识别特征进行动态更新，并将该3D检测框中的目标加入跟踪轨迹。

可选地，在本申请实施例中，对重识别网络模型进行低比特量化，以获得量化后重识别网络模型包括：将重识别网络模型的权重和/或激活函数由高位浮点数映射为低比特深度的数据，以获得量化后重识别网络模型；其中，权重的量化方式为对称量化，激活函数的量化方式为非对称量化。

在上述实现过程中，由于引入重识别网络提取语义特征，会增加计算耗时，从而降低目标跟踪效率；将重识别网络模型的权重和/或激活函数由高位浮点数映射为低比特深度的数据，以获得量化后重识别网络模型；从而有效解决了引入重识别网络带来的耗时问题。

第二方面，本申请实施例提供一种目标跟踪系统，该目标跟踪系统包括：检测框获取模块、跟踪框获取模块、第一匹配模块、低比特量化模块、第二匹配模块和匹配结果识别模块；检测框获取模块，用于获取待处理数据当前帧中的检测框；跟踪框获取模块，用于根据激光雷达点云数据获取当前帧中的跟踪框；第一匹配模块，用于将检测框与跟踪框进行匹配，并获取第一匹配结果；匹配结果识别模块，用于判断第一匹配结果是否为匹配失败；低比特量化模块，用于在第一匹配结果为匹配失败时，对重识别网络模型进行低比特量化，以获得量化后重识别网络模型；第二匹配模块，用于将检测框和跟踪框输入量化后重识别网络模型，以再次匹配检测框和跟踪框，并获取第二匹配结果；匹配结果识别模块，还用于在第二匹配结果为匹配成功时，将检测框的目标轨迹加入跟踪轨迹。

第三方面，本申请实施例提供一种电子设备，所述电子设备包括存储器和处理器，所述存储器中存储有程序指令，所述处理器读取并运行所述程序指令时，执行上述任一实现方式中的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，所述可读取存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行上述任一实现方式中的步骤。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的目标跟踪方法的第一流程图；

图2为本申请实施例提供的检测框和跟踪框的获取流程图；

图3为本申请实施例提供的3D检测框示意图；

图4为本申请实施例提供的2D检测框获取流程图；

图5为本申请实施例提供的再次匹配的流程图；

图6为本申请实施例提供的初次匹配的流程图；

图7为本申请实施例提供的目标跟踪方法的第二流程图；

图8为本申请实施例提供的目标跟踪系统的模块示意图；

图9为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。例如，附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

目前的3D多目标跟踪算法需要根据每一帧激光雷达点云中目标的检测结果，匹配已有目标的轨迹；对于新出现的目标，需要生成新的轨迹；对于已经超出激光雷达感知范围的目标，需要终止对于该轨迹的跟踪。

申请人在研究过程中发现，目前对于目标轨迹的跟踪大多是使用交并比计算代价矩阵并通过匈牙利匹配算法获取当前帧检测框与跟踪轨迹匹配结果的3D多目标跟踪算法。该方法仅基于3D目标检测框的空间位置信息进行匹配，没有将图像特征引入到3D目标上；目前，也有研究开始将图像语义特征引入代价矩阵计算，但缺乏实例级别的reid特征，对样本间的特征距离建模一般，并且显著降低了推理速度，实时性较差。另外地，许多基于深度学习的3D多目标跟踪算法被提出，但其存在内存占用大、推理速度慢等问题。

基于此，本申请实施例提供一种目标跟踪方法、系统、电子设备和计算机存储介质，该目标跟踪方法第一次将3D检测框和3D跟踪框进行匹配；若配3D检测框未跟踪上，那么将3D检测框投影至多摄像机得到2D检测框后；进一步地，使用低比特量化后的重识别网络计算第二次匹配的代价矩阵，再次进行匹配，获得匹配结果。

请参看图1，图1为本申请实施例提供的目标跟踪方法的流程图；该目标跟踪方法包括以下步骤：

步骤S100：获取待处理数据的当前帧中的检测框和跟踪框。

在上述步骤S100中，获取待处理数据的当前帧中的检测框和跟踪框；需要说明的是，检测框是针对待处理帧中的目标轨迹的检测框，而跟踪框是从待处理数据中获取的，想要预测的或想要匹配的轨迹框。

为更好地理解跟踪框和检测框，在此以跟踪视频中的目标车辆为示例做出解释，检测框可以理解为是一个静态的概念，它主要针对单张图片找出明确车辆在其中的位置；跟踪框是一个动态的概念，关注的是连续视频流中图片之间汽车位置的关联。

步骤S101：将检测框与跟踪框进行匹配，并获取第一匹配结果。

在上述步骤S101中，在获取到检测框和跟踪框后，将跟踪框与检测框进行匹配，并获取第一匹配结果。

步骤S102：判断第一匹配结果是否为匹配失败。

步骤S103：若第一匹配结果为匹配失败，则对重识别网络模型进行低比特量化，以获得量化后重识别网络模型。

在上述步骤S102-S103中，如果跟踪框和检测框匹配失败，那么就使用低比特量化后的重识别网络，处理待测数据，进而实现第二次匹配。

步骤S104：将检测框和跟踪框输入量化后重识别网络模型，以再次匹配检测框和跟踪框，并获取第二匹配结果。

步骤S105：若第二匹配结果为匹配成功，则将检测框的目标加入跟踪轨迹。

在上述步骤S104-S105中，将检测框和跟踪框输入低比特量化后的重识别网络模型，进而实现第二次将检测框和跟踪框进行匹配，并获取第二次匹配的第二匹配结果。如果第二次匹配结果为匹配成功，那么将检测框中的目标轨迹加入跟踪轨迹。

也就是说，本申请实施例提供的目标跟踪方法中第一次匹配无法匹配上的检测框和跟踪框，取其实例语义特征代价矩阵进行二次匈牙利匹配。对于匹配上的检测框和跟踪框，那么将检测框中的目标加入跟踪轨迹；两次匹配都没匹配上的则认定为新目标，证明需要新建轨迹；对于超过固定帧数以上没有出现物体的轨迹，终止对于该轨迹的匹配。

通过图1可知，第一次将3D检测框和3D跟踪框进行匹配；若配3D检测框未跟踪上，那么将3D检测框投影至多摄像机得到2D检测框后；进一步地，使用低比特量化后的重识别网络计算第二次匹配的代价矩阵，再次进行匹配，获得匹配结果；因此，使用本申请实施例提供的目标跟踪方法不但能够提高目标跟踪的匹配精度，还能够降低匹配的计算耗时。

请参看图2，图2为本申请实施例提供的检测框和跟踪框的获取流程图。请结合参看图3，图3为本申请实施例提供的3D检测框示意图，图3中的目标检测对象是汽车，而汽车周围的包络框(优选地，为最小包络框)为3D检测框500。在本实施例的可选实施方式中，检测框包括3D检测框和2D检测框；同样地，跟踪框包括3D跟踪框和2D跟踪框。前述的根据待处理数据获取当前帧中的检测框和跟踪框可以包括以下步骤：

步骤S200：根据待处理数据，获取当前帧中的目标轨迹的当前信息和历史信息。

在上述步骤S200中，根据待处理数据获取当前帧中的目标轨迹的当前信息和历史信息。

需要说明的是，本申请实施例提供的目标跟踪方法中的待处理数据可以是各种类型的数据，比如视频、图像等；而通过待处理数据获取当前帧的当前信息和历史信息，意在获取检测框和跟踪框。

步骤S201：根据当前信息获取3D检测框，并将3D检测框投影至多摄相机坐标系，以获取2D检测框。

在上述步骤S201中，在根据待处理数据获取当前帧中的目标轨迹的当前信息和历史信息之后，根据当前信息获取3D检测框。需要说明的是，本申请实施例提供的目标跟踪方法中获取到待处理数据后，将待处理数据通过lidar检测网络，通过该lidar检测网络后能够获得所有的目标2D检测框。

进一步地，将3D检测框投影至多摄相机坐标系，从而获取2D检测框。

步骤S202：根据历史信息和3D检测框获取3D跟踪框和2D跟踪框。

在上述步骤S202中，在根据待处理数据获取当前帧中的目标轨迹的当前信息和历史信息之后，根据历史信息获取3D跟踪框和2D跟踪框；本领域技术人员可以理解的，可以使用卡尔曼滤波算法通过历史信息获取2D跟踪框。

卡尔曼滤波(Kalman filtering)是一种利用线性系统状态方程，通过系统输入输出观测数据，对系统状态进行最优估计的算法。由于观测数据中包括系统中的噪声和干扰的影响，所以最优估计也可看作是滤波过程。也就是说，本申请实施例中使用的跟踪框是根据检测框的位置去预测目标在下一帧的位置，是一个线性的过程。

通过图2可知，通过待处理数据可以获得当前帧中的检测框和跟踪框，通过当前信息获取3D检测框和2D检测框；根据历史信息和3D检测框获取3D跟踪框和2D跟踪框；从而准确地获取到3D检测框、2D检测框、3D跟踪框和2D跟踪框，便于精确跟踪目标。

请参看图4，图4为本申请实施例提供的2D检测框获取流程图；在本实施例的可选实施方式中，待处理数据包括激光雷达点云数据，激光雷达(LiDAR)点云数据，是由三维激光雷达设备扫描得到的空间点的数据集，每一个点都包含了三维坐标信息，也是X、Y、Z三个元素，有的还包含颜色信息、反射强度信息、回波次数信息等。前述的将3D检测框投影至多摄相机坐标系，以获取2D检测框可以包括以下步骤：

步骤S300：将3D检测框投影至多摄像机坐标系，以获得3D检测框对应的多个投影2D框。

步骤S301：获取3D检测框内的点云数量和多个投影2D框内的点云数量。

在上述步骤S300-步骤S301中，将3D检测框投影至多摄像机坐标系，从而获得3D框对应的多个投影2D框；本领域技术人员可以理解的是，当3D检测框投影至多摄像机坐标系，一个3D框对可能应多个2D框；因而，需要选择一个最合适的2D框作为2D检测框。

步骤S302：将3D检测框内的点云数量分别除以多个投影2D框内的点云数量，以获得遮挡比例。

在上述步骤S302中，承上，当3D检测框投影至多摄像机坐标系，一个3D框对可能应多个2D框；那么，需要选择一个最合适的2D框作为2D检测框。在本申请实施例提供的目标跟踪方法获取3D检测框内的点云数量和投影2D框内的点云数量；进一步地，将3D检测框内的点云数量分别除以多个投影2D框内的点云数量，进而获取遮挡比例。

步骤S303：将遮挡比例中最小的遮挡比例对应的投影2D框作为2D检测框。

在上述步骤S303中，将3D检测框内的点云数量分别除以多个投影2D框内的点云数量，获取到多个遮挡比例后，将多个遮挡比例中最小的遮挡比例对应的2D框作为2D检测框。

通过图4可知，将3D检测框投影至多摄相机坐标系，在有一个3D框对应多个2D框时，选取遮挡比例最小的2D投影框作为重识别网络的输入，遮挡比例通过3D坐标系下3D检测框内点云数量除以投影至相机坐标系下2D检测框内点云数量获得；由于本申请实施例提供的目标跟踪方法选取遮挡比例最小的2D框最为2D检测框，从而能够提高3D多目标跟踪匹配精度。

请参看图5，图5为本申请实施例提供的再次匹配的流程图；上文的将检测框和跟踪框通过量化后重识别网络模型，以再次匹配检测框和跟踪框，并获取第二匹配结果，包括如下步骤：

步骤S400：将2D检测框和2D跟踪框通过量化后的重识别网络模型，以获得2D检测框实例语义特征和2D跟踪框实例语义特征。

在上述步骤S400中，将2D检测框和2D跟踪框输入量化后的重识别网络模型，以获得2D检测框实例语义特征和2D跟踪框实例语义特征。

需要说明的是，本申请实施例中对于存活的每一条轨迹的历史信息，该轨迹按照时序的目标框位置，预测当前帧，该轨迹的目标出现位置作为跟踪框；由于其在历史帧的数据处理中已经计算过实例语义特征，无需再重新投影至2D相机坐标系及提取实例语义特征；因此，在上述步骤中并未单独重新计算2D跟踪框。

步骤S401：计算2D检测框实例语义特征和2D跟踪框实例语义特征的余弦距离，以获得语义特征代价矩阵。

在上述步骤S401中，计算2D检测框实例语义特征和2D跟踪框实例语义特征的余弦距离，以获得语义特征代价矩阵。示例性地，若2D检测框和2D跟踪框通过量化后的重识别网络模型后，获得N个检测框和M个跟踪框，对N个检测框及M个跟踪框的实例语义特征计算余弦距离作为实例语义特征代价矩阵。可以理解的是，该实例语义特征代价矩阵以检测框数为行数，以现存轨迹数为列数。

步骤S402：基于语义特征代价矩阵，再次匹配2D检测框和2D跟踪框，并获取第二匹配结果。

在上述步骤S402中，基于前述得到的语义特征代价矩阵，使用匈牙利匹配算法获得第二次匹配结果。

在此对匈牙利算法做出简单的介绍，匈牙利算法(Hungarian Algorithm)，匈牙利算法是基于Hall定理(该定理用于判定二分图是否完全匹配)中充分性证明的思想，它是部分图匹配最常见的算法，该算法的核心就是寻找增广路径，它是一种用增广路径求二分图最大匹配的算法。而对于目标跟踪领域，跟踪部分主要是由数据关联组成，数据关联包括两方面关联算法以及关联度量，匈牙利算法是当前比较常用的关联算法。

通过图5可知，将检测框和跟踪框通过量化后重识别网络模型，得到2D检测框实例语义特征和2D跟踪框实例语义特征；进一步地，再次匹配检测框和跟踪框，并获取第二匹配结果。因而，本申请实施例提供的目标跟踪方法引入了实例级别的语义特征，克服了现有技术3D多目标跟踪匹配过程缺失实例语义信息的问题。

请参看图6，图6为本申请实施例提供的初次匹配的流程图；前述的将检测框与跟踪框进行匹配，并获取第一匹配结果，包括以下步骤：

步骤S500：计算3D检测框和3D跟踪框的交并比距离，以获得3D交并比代价矩阵。

在上述步骤S500中，将检测框和跟踪框进行匹配的匹配方式是计算3D检测框和3D跟踪框的交并比距离，进而获得3D交并比代价矩阵。

需要说明的是，交并比(Intersection-over-Union，IoU)，目标检测中使用的一个概念，是产生的候选框(candidate bound)与原标记框(ground truth bound)的交叠率，即它们的交集与并集的比值。最理想情况是完全重叠，即比值为1。

步骤S501：基于3D交并比代价矩阵，对3D检测框和3D跟踪框进行匹配，并获取第一匹配结果。

在上述步骤S501中，对于每一条存活轨迹的预测框，与当前帧的检测框，两两计算交并比作为3D IOU代价矩阵后，将3D检测框与3D跟踪框的交并比距离作为第一次匹配的代价矩阵，基于匈牙利匹配算法获得第一次匹配结果。

本领域技术人员可以理解的是，前述方案中，基于匈牙利匹配算法获得第一次匹配结果；具体地，将代价矩阵基于匈牙利匹配算法获得匹配矩阵。若匹配矩阵的元素为1意味着该位置匹配成功，即所在行对应的检测框匹配到所在列的轨迹预测框，并对匹配上的轨迹用对应的目标重识别特征更新该轨迹的重识别特征。

通过图6可知，本申请实施例提供的目标跟踪方法中存在两次匹配操作，第一次为初步匹配；第一次的匹配使用的是3D IoU代价矩阵，经过第一次匹配，存在一些匹配失败的检测框和跟踪框，对于匹配失败的检测框进而跟踪框再进行第二次匹配。也就是说，使用本申请实施例提供的目标跟踪方法可以通过第一次匹配实现初步匹配；使再次匹配时的数据量减少，能够提高匹配效率。

在一可选地实施例中，第一匹配结果为匹配成功，则将3D检测框中的目标加入跟踪轨迹。

在一可能的实施例中，若存在某一个检测框没有匹配到任何轨迹，则新生轨迹；若存在轨迹对应的检测框多帧未出现，则该轨迹终止。

在上述的实施方式中，对交并比代价矩阵融合的代价矩阵使用匈牙利算法进行匹配，基于匈牙利匹配算法得到一个与输入同大小的匹配矩阵；如果检查测框与某一个轨迹相匹配，则对应输出的矩阵该行该列为1，对匹配上的轨迹的重识别特征用对应的检测重识别特征进行动态更新，并将该3D检测框中的目标加入跟踪轨迹。

在一可选地实施例中，前述方案中的对重识别网络模型进行低比特量化，以获得量化后重识别网络模型包括：将重识别网络模型的权重和/或激活函数由高位浮点数映射为低比特深度的数据，以获得量化后重识别网络模型。

本领域技术人员可以理解的是，模型量化是一种将浮点计算转成低比特定点计算的技术，可以有效的降低模型计算强度、参数大小和内存消耗。而本申请实施例为了为降低引入重识别网络提取语义特征带来的耗时，而对于重识别网络进行低比特量化。

重识别网络使用主要基于CLIP(语言图像对比预训练)而构建，CLIP(ContrastiveLanguage–Image Pre-training)基于4亿的图片文本对作为训练样本，一个batch中输入32768个图片文本对，(Ii,Ti)是第i个图像文本对，模型的目的是使这两个特征尽量相似，而与别的特征尽量远离；因此，其对目标实例级别的语义特征提取能被用于多目标跟踪中提取每个实例的特征并用于区分其和其他实例。

在本申请实施例中，对于第一步筛选出来的2D检测框覆盖区域，将其经过resize操作后变为224x224大小的图像；进一步地，输入CLIP预训练模型提取检测框/跟踪框覆盖区域的512维实例语义特征。

值得注意的是，为降低引入CLIP提取语义特征带来的耗时，将重识别网络模型的权重和/或激活函数由高位浮点数映射为低比特深度的数据，示例性地，采用训练后量化(PTQ)的方式将fp32精度的CLIP模型量化至int8。具体的，对权重使用对称量化，对激活值使用非对称量化，使用基于层per-layer的浮点权重和量化权重的MSE最小的minmax用于设置权重范围，选取10％的测试集图像作为校准集用于计算浮点激活值和量化激活值MSE最小的minmax用于设置激活值范围。

由此可知，由于引入重识别网络提取语义特征，会增加计算耗时，从而降低目标跟踪效率；将重识别网络模型的权重和/或激活函数由高位浮点数映射为低比特深度的数据，以获得量化后重识别网络模型；从而有效解决了引入重识别网络带来的耗时问题。

请参看图7，图7为本申请实施例提供的目标跟踪方法的第二流程图；该目标跟踪方法处理的数据为lidar点云数据，该目标跟踪方法包括以下步骤：

步骤S600：获取lidar点云数据。

步骤S601：将lidar点云数据通过lidar检测网络获取当前帧的所有目标3D检测框。

步骤S602：根据3D检测框获取2D检测框。

在上述步骤S602中，将3D检测框投影至多摄相机坐标系，在有一个3D框对应多个2D框时，选取遮挡比例最小的2D投影框作为2D检测框，遮挡比例通过3D坐标系下3D检测框内点云数量除以投影至相机坐标系下2D检测框内点云数量获得。

步骤S603：根据3D检测框和3D跟踪框计算3D IOU代价矩阵。

步骤S604：将3D IOU代价矩阵输入匈牙利匹配算法进行第一次匹配。

在上述步骤S603-S604中，对于每一条存活轨迹的预测框，与当前帧的检测框，两两计算交并比作为3D IOU代价矩阵。将3D检测框与3D跟踪框的交并比距离作为第一次匹配的代价矩阵，基于匈牙利匹配算法获得第一次匹配结果。

步骤S605：将第一次匹配上的检测框加入跟踪轨迹，将未匹配上的检测框进行第二次匹配。

步骤S606：获取第二次匹配所需的语义特征代价矩阵。

在上述步骤S606中，对于第一步筛选出来的2D检测框覆盖区域，将其resize为224x224后输入CLIP预训练模型提取检测框/跟踪框覆盖区域的512维实例语义特征，对N个检测框及M个跟踪框的实例语义特征计算余弦距离作为实例语义特征代价矩阵。

步骤S607：将语义特征代价矩阵输入匈牙利匹配算法进行第二次匹配。

步骤S608：获取匹配结果。

在上述步骤S608中，匹配矩阵的元素为1意味着该位置匹配成功；若存在某一个检测框没有匹配到任何轨迹，则新生轨迹，若存在轨迹对应的检测框多帧未出现，则该轨迹终止。获得每一帧的匹配结果，并将每一帧的每个目标信息存储到对应轨迹中。

请参看图8，图8为本申请实施例提供的目标跟踪系统的模块示意图；目标跟踪系统100包括：检测框获取模块110、跟踪框获取模块120、第一匹配模块130、低比特量化模块140、第二匹配模块150和匹配结果识别模块160。

检测框获取模块110，用于获取待处理数据当前帧中的检测框。

跟踪框获取模块120，用于根据激光雷达点云数据获取当前帧中的跟踪框。

第一匹配模块130，用于将检测框与跟踪框进行匹配，并获取第一匹配结果。

低比特量化模块140，用于判断第一匹配结果是否为匹配失败。

第二匹配模块150，用于在第一匹配结果为匹配失败时，对重识别网络模型进行低比特量化，以获得量化后重识别网络模型。

匹配结果识别模块160，用于将检测框和跟踪框输入量化后重识别网络模型，以再次匹配检测框和跟踪框，并获取第二匹配结果。匹配结果识别模块160，还用于在第二匹配结果为匹配成功时，将检测框的目标轨迹加入跟踪轨迹。

在一可选地实施例中，检测框包括3D检测框和2D检测框；跟踪框包括3D跟踪框和2D跟踪框。目标跟踪系统100还包括数据获取模块170，检测框获取模块110和跟踪框获取模块120根据待处理数据获取当前帧中的检测框和跟踪框包括：数据获取模块170根据待处理数据，获取当前帧中的目标轨迹的当前信息和历史信息；检测框获取模块110根据当前信息获取3D检测框，并将3D检测框投影至多摄相机坐标系，以获取2D检测框。跟踪框获取模块120根据历史信息和3D检测框获取3D跟踪框和2D跟踪框。

在一可选地实施例中，待处理数据包括激光雷达点云数据；检测框获取模块110将3D检测框投影至多摄相机坐标系，以获取2D检测框包括：检测框获取模块110将3D检测框投影至多摄像机坐标系，以获得3D检测框对应的多个投影2D框；获取3D检测框内的点云数量和多个投影2D框内的点云数量；将3D检测框内的点云数量分别除以多个投影2D框内的点云数量，以获得遮挡比例；检测框获取模块110和将遮挡比例中最小的遮挡比例对应的投影2D框作为2D检测框。

在一可选地实施例中，第二匹配模块150包括语义特征获取模块151和语义特征代价矩阵获取模块152。第二匹配模块150将检测框和跟踪框通过量化后重识别网络模型，以再次匹配检测框和跟踪框，并获取第二匹配结果包括：语义特征获取模块151将2D检测框和2D跟踪框通过量化后的重识别网络模型，以获得2D检测框实例语义特征和2D跟踪框实例语义特征。语义特征代价矩阵获取模块152计算2D检测框实例语义特征和2D跟踪框实例语义特征的余弦距离，以获得语义特征代价矩阵。第二匹配模块150基于语义特征代价矩阵，再次匹配2D检测框和2D跟踪框，并获取第二匹配结果。

在一可选地实施例中，第一匹配模块130包括交并比代价矩阵获取模块131。将检测框与跟踪框进行匹配，并获取第一匹配结果包括：交并比代价矩阵获取模块131计算3D检测框和3D跟踪框的交并比距离，以获得3D交并比代价矩阵；基于3D交并比代价矩阵，第一匹配模块130对3D检测框和3D跟踪框进行匹配，并获取第一匹配结果。

在一可选地实施例中，若匹配结果识别模块160识别第一匹配结果为匹配成功，匹配结果识别模块160将3D检测框中的目标加入跟踪轨迹。

在一可选地实施例中，低比特量化模块140对重识别网络模型进行低比特量化，以获得量化后重识别网络模型包括：低比特量化模块140将重识别网络模型的权重和/或激活函数由高位浮点数映射为低比特深度的数据，以获得量化后重识别网络模型；其中，权重的量化方式为对称量化，激活函数的量化方式为非对称量化。

请参见图9，图9为本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备300，包括：处理器301和存储器302，存储器302存储有处理器301可执行的机器可读指令，机器可读指令被处理器301执行时执行如上的方法。

基于同一发明构思，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行上述任一实现方式中的步骤。

所述计算机可读存储介质可以是随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等各种可以存储程序代码的介质。其中，存储介质用于存储程序，所述处理器在接收到执行指令后，执行所述程序，本发明实施例任一实施例揭示的过程定义的电子终端所执行的方法可以应用于处理器中，或者由处理器实现。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

可以替换的，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。

所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种目标跟踪方法，其特征在于，所述目标跟踪方法包括：

获取待处理数据的当前帧中的检测框和跟踪框；

将所述检测框与所述跟踪框进行匹配，并获取第一匹配结果；

判断所述第一匹配结果是否为匹配失败；

若所述第一匹配结果为匹配失败，则对重识别网络模型进行低比特量化，以获得量化后重识别网络模型；

将所述检测框和所述跟踪框输入所述量化后重识别网络模型，以再次匹配所述检测框和所述跟踪框，并获取第二匹配结果；

若所述第二匹配结果为匹配成功，则将所述检测框的目标轨迹加入跟踪轨迹。

2.根据权利要求1所述的方法，其特征在于，其中，所述检测框包括3D检测框和2D检测框；所述跟踪框包括3D跟踪框和2D跟踪框；所述根据待处理数据获取当前帧中的检测框和跟踪框，包括：

根据待处理数据，获取当前帧中的所述目标轨迹的当前信息和历史信息；

根据所述当前信息获取所述3D检测框，并将所述3D检测框投影至多摄像机坐标系，以获取所述2D检测框；

根据所述历史信息和所述3D检测框获取所述3D跟踪框和2D跟踪框。

3.根据权利要求2所述的方法，其特征在于，其中，所述待处理数据包括激光雷达点云数据；所述将所述3D检测框投影至多摄相机坐标系，以获取所述2D检测框，包括：

将所述3D检测框投影至多摄像机坐标系，以获得所述3D检测框对应的多个投影2D框；

获取所述3D检测框内的点云数量和多个所述投影2D框内的点云数量；

将所述3D检测框内的点云数量分别除以多个所述投影2D框内的点云数量，以获得遮挡比例；

将所述遮挡比例中最小的所述遮挡比例对应的投影2D框作为所述2D检测框。

4.根据权利要求2所述的方法，其特征在于，所述将所述检测框和所述跟踪框通过所述量化后重识别网络模型，以再次匹配所述检测框和所述跟踪框，并获取第二匹配结果，包括：

将所述2D检测框和所述2D跟踪框通过所述量化后的重识别网络模型，以获得2D检测框实例语义特征和2D跟踪框实例语义特征；

计算所述2D检测框实例语义特征和所述2D跟踪框实例语义特征的余弦距离，以获得语义特征代价矩阵；

基于所述语义特征代价矩阵，再次匹配所述2D检测框和所述2D跟踪框，并获取第二匹配结果。

5.根据权利要求2所述的方法，其特征在于，所述将所述检测框与所述跟踪框进行匹配，并获取第一匹配结果，包括：

计算所述3D检测框和所述3D跟踪框的交并比距离，以获得3D交并比代价矩阵；

基于所述3D交并比代价矩阵，对所述3D检测框和所述3D跟踪框进行匹配，并获取所述第一匹配结果。

6.根据权利要求2所述的方法，其特征在于，所述方法还包括：若所述第一匹配结果为匹配成功，则将所述3D检测框中的目标加入跟踪轨迹。

7.根据权利要求1所述的方法，其特征在于，所述对重识别网络模型进行低比特量化，以获得量化后重识别网络模型，包括：

将所述重识别网络模型的权重和/或激活函数由高位浮点数映射为低比特深度的数据，以获得量化后重识别网络模型；其中，所述权重的量化方式为对称量化，所述激活函数的量化方式为非对称量化。

8.一种目标跟踪系统，其特征在于，所述目标跟踪系统包括：检测框获取模块、跟踪框获取模块、第一匹配模块、低比特量化模块、第二匹配模块和匹配结果识别模块；

所述检测框获取模块，用于获取待处理数据当前帧中的检测框；

所述跟踪框获取模块，用于根据激光雷达点云数据获取当前帧中的跟踪框；

所述第一匹配模块，用于将所述检测框与所述跟踪框进行匹配，并获取第一匹配结果；

所述匹配结果识别模块，用于判断所述第一匹配结果是否为匹配失败；

所述低比特量化模块，用于在所述第一匹配结果为匹配失败时，对重识别网络模型进行低比特量化，以获得量化后重识别网络模型；

所述第二匹配模块，用于将所述检测框和所述跟踪框输入所述量化后重识别网络模型，以再次匹配所述检测框和所述跟踪框，并获取第二匹配结果；

所述匹配结果识别模块，还用于在所述第二匹配结果为匹配成功时，将所述检测框的目标轨迹加入跟踪轨迹。

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器中存储有程序指令，所述处理器运行所述程序指令时，执行权利要求1-7中任一项所述方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器运行时，执行权利要求1-7任一项所述方法中的步骤。