CN115482255A

CN115482255A - 障碍物追踪方法、装置、设备及存储介质

Info

Publication number: CN115482255A
Application number: CN202210930035.XA
Authority: CN
Inventors: 袁行方; 韩旭
Original assignee: Guangzhou Weride Technology Co Ltd
Current assignee: Guangzhou Weride Technology Co Ltd
Priority date: 2022-08-03
Filing date: 2022-08-03
Publication date: 2022-12-16

Abstract

本发明涉及人工智能领域，公开了一种障碍物追踪方法、装置、设备及存储介质，该方法包括：获取同一时间轴下的多帧鸟瞰图像；对多帧所述鸟瞰图像进行障碍物识别，得到各帧所述鸟瞰图像中障碍物的3d候选框；将各帧所述鸟瞰图像按照所述时间轴输入预设的障碍物跟踪模型中，通过所述障碍物跟踪模型为输入的鸟瞰图像的3d候选框分配追踪器编号；根据各帧所述鸟瞰图像中相同追踪器编号的3d候选框生成障碍物轨迹。本方法通过将多目标跟踪任务的多个步骤融合为单个模型，减少计算资源的使用，提高系统效率，提高自动驾驶或辅助驾驶过程中障碍物追踪的速度，并且使用鸟瞰图像的三维障碍物框作为模型输入，提高障碍物检测的精度。

Description

障碍物追踪方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种障碍物追踪方法、装置、设备及存储介质。

背景技术

汽车作为现代人类的交通工具，改变人们的生活方式，推动社会经济的发展和人类文化的进步，成为社会不可缺少的交通工具。为阻止交通出现的事故，减轻驾驶员的开车负担，辅助驾驶成为一种当今驾驶技术的普遍趋势。而基于视觉技术的驾驶系统已经成为智能交通系统的一个重要组成部分。

多目标跟踪问题(MOT，Multiple Classes Object Tracking)是视觉技术的经典问题。在事先不知道目标数量的情况下，需要对视频中的行人、汽车、动物等多个目标进行检测并赋予ID进行轨迹跟踪，现有技术多目标跟踪的主要步骤有对图像进行目标检测，并对检测到的目标进行特征提取，根据提取到的特征进行障碍物的相似度计算，并使用匈牙利算法对障碍物进行匹配关联，再根据关联情况对障碍物进行跟踪，由于这些步骤都是分开进行的，导致计算量较大，反应速度较慢，在车辆速度较快时，不能进行快速反映。

发明内容

本发明的主要目的在于解决现有的多目标跟踪问题解决方法每个步骤都是分开进行导致反应速度慢的技术问题。

本发明第一方面提供了一种障碍物追踪方法，包括：获取同一时间轴下的多帧鸟瞰图像；对多帧所述鸟瞰图像进行障碍物识别，得到各帧所述鸟瞰图像中障碍物的3d候选框；将各帧所述鸟瞰图像按照所述时间轴输入预设的障碍物跟踪模型中，通过所述障碍物跟踪模型为输入的鸟瞰图像的3d候选框分配追踪器编号；根据各帧所述鸟瞰图像中相同追踪器编号的3d候选框生成障碍物轨迹。

可选的，在本发明第一方面的第一种实现方式中，所述将各帧所述鸟瞰图像按照所述时间轴输入预设的障碍物跟踪模型中，通过所述障碍物跟踪模型为输入的鸟瞰图像的3d候选框分配追踪器编号包括：将各帧所述鸟瞰图输入预设的障碍物跟踪模型中，通过所述障碍物跟踪模型对输入的各帧所述鸟瞰图的3d候选框进行卷积操作，计算各3d候选框对应的外观特征；根据预设的自注意力机制和所述时间轴对各所述3d候选框以及对应的外观特征进行处理，生成历史帧追踪器并得到所述历史帧追踪器和各3d候选框的匹配关系；根据所述匹配关系，为各3d候选框分配对应的历史帧追踪器的追踪器编号。

可选的，在本发明第一方面的第二种实现方式中，所述将各帧所述鸟瞰图输入预设的障碍物跟踪模型中，通过所述障碍物跟踪模型对输入的各帧所述鸟瞰图的3d候选框进行卷积操作，计算各3d候选框对应的外观特征包括：将各帧所述鸟瞰图输入预设的障碍物跟踪模型中，通过所述障碍物跟踪模型截取所述鸟瞰图中所述3d候选框对应的候选框图像；通过所述障碍物跟踪模型中的卷积层对所述候选框图像进行编码处理，得到所述候选框图像的编码特征；通过所述障碍物跟踪模型中的转置卷积层对所述编码特征进行解码，得到所述3d候选框对应的外观特征。

可选的，在本发明第一方面的第三种实现方式中，所述根据预设的自注意力机制和所述时间轴对各所述3d候选框以及对应的外观特征进行处理，生成历史帧追踪器并得到所述历史帧追踪器和各3d候选框的匹配关系包括：根据所述时间轴确定各帧鸟瞰图中的第一帧图像，并根据所述第一帧图像中的3d候选框生成历史帧追踪器以及所述历史帧追踪器的追踪器历史信息，其中，所述追踪器历史信息记录对应的历史帧追踪器与3d候选框的匹配关系；通过所述自注意力机制根据所述追踪器历史信息和所述外观特征，将除所述第一帧图像外的各帧鸟瞰图的3d候选框与所述第一帧图像的历史帧追踪器按照所述时间轴进行逐帧匹配；在每帧鸟瞰图的3d候选框与历史帧追踪器匹配完成后，根据匹配结果对所述追踪器历史信息进行更新，直至所有鸟瞰图的3d候选框与历史帧追踪器匹配完成。

可选的，在本发明第一方面的第四种实现方式中，所述在每帧鸟瞰图的3d候选框与历史帧追踪器匹配完成后，根据匹配结果对所述追踪器历史信息进行更新，直至所有鸟瞰图的3d候选框与历史帧追踪器匹配完成包括：在每帧鸟瞰图的3d候选框与历史帧追踪器匹配完成后，对当前帧匹配成功的历史帧追踪器的追踪器历史信息进行更新；判断当前帧是否存在未匹配到历史帧追踪器的3d候选框；若存在，则生成未匹配到历史帧追踪器的3d候选框的历史帧追踪器以及对应的追踪器历史信息；将当前帧鸟瞰图帧追踪器和对应的追踪器历史信息作为下一帧鸟瞰图的匹配输入，直至所有鸟瞰图的3d候选框与历史帧追踪器匹配完成。

可选的，在本发明第一方面的第五种实现方式中，在所述在每帧鸟瞰图的3d候选框与历史帧追踪器匹配完成后，对当前帧匹配成功的历史帧追踪器的追踪器历史信息进行更新之后，还包括：判断当前帧是否存在未匹配到3d候选框的历史帧追踪器；若是，则根据追踪器历史信息计算未匹配到3d候选框的历史帧追踪器的未匹配时长；若所述未匹配时长大于或等于预设时间阈值，则将未匹配到3d候选框的历史帧追踪器删除。

可选的，在本发明第一方面的第六种实现方式中，在所述获取同一时间轴下的多帧鸟瞰图像之前，还包括：获取另一时间轴下的多帧样本鸟瞰图，其中，所述样本鸟瞰图携带有障碍物的3d候选框以及3d候选框对应的编号标注；将多帧所述样本鸟瞰图输入预设的神经网络模型中，通过输入的样本鸟瞰图的3d候选框分配追踪器编号；根据样本鸟瞰图的3d候选框的编号标注和追踪器编号计算损失函数，得到损失函数值；判断所述损失函数值是否小于预设损失阈值；若否，则将所述损失函数值进行反向传播，更新所述神经网络模型的网络参数，直至得到的损失函数值小于预设阈值；若是，则根据所述神经网络模型的网络参数生成障碍物跟踪模型。

本发明第二方面提供了一种障碍物追踪装置，包括：获取模块，用于获取同一时间轴下的多帧鸟瞰图像；识别模块，用于对多帧所述鸟瞰图像进行障碍物识别，得到各帧所述鸟瞰图像中障碍物的3d候选框；编号分配模块，用于将各帧所述鸟瞰图像按照所述时间轴输入预设的障碍物跟踪模型中，通过所述障碍物跟踪模型为输入的鸟瞰图像的3d候选框分配追踪器编号；轨迹生成模块，用于根据各帧所述鸟瞰图像中相同追踪器编号的3d候选框生成障碍物轨迹。

可选的，在本发明第二方面的第一种实现方式中，所述编号分配模块具体包括：特征计算单元，用于将各帧所述鸟瞰图输入预设的障碍物跟踪模型中，通过所述障碍物跟踪模型对输入的各帧所述鸟瞰图的3d候选框进行卷积操作，计算各3d候选框对应的外观特征；匹配单元，用于根据预设的自注意力机制和所述时间轴对各所述3d候选框以及对应的外观特征进行处理，生成历史帧追踪器并得到所述历史帧追踪器和各3d候选框的匹配关系；分配单元，用于根据所述匹配关系，为各3d候选框分配对应的历史帧追踪器的追踪器编号。

可选的，在本发明第二方面的第二种实现方式中，所述特征计算单元具体用于：将各帧所述鸟瞰图输入预设的障碍物跟踪模型中，通过所述障碍物跟踪模型截取所述鸟瞰图中所述3d候选框对应的候选框图像；通过所述障碍物跟踪模型中的卷积层对所述候选框图像进行编码处理，得到所述候选框图像的编码特征；通过所述障碍物跟踪模型中的转置卷积层对所述编码特征进行解码，得到所述3d候选框对应的外观特征。

可选的，在本发明第二方面的第三种实现方式中，所述匹配单元具体包括：追踪器生成子单元，用于根据所述时间轴确定各帧鸟瞰图中的第一帧图像，并根据所述第一帧图像中的3d候选框生成历史帧追踪器以及所述历史帧追踪器的追踪器历史信息，其中，所述追踪器历史信息记录对应的历史帧追踪器与3d候选框的匹配关系；自注意力子单元，用于通过所述自注意力机制根据所述追踪器历史信息和所述外观特征，将除所述第一帧图像外的各帧鸟瞰图的3d候选框与所述第一帧图像的历史帧追踪器按照所述时间轴进行逐帧匹配；更新子单元，用于在每帧鸟瞰图的3d候选框与历史帧追踪器匹配完成后，根据匹配结果对所述追踪器历史信息进行更新，直至所有鸟瞰图的3d候选框与历史帧追踪器匹配完成。

可选的，在本发明第二方面的第四种实现方式中，所述更新子单元具体用于：在每帧鸟瞰图的3d候选框与历史帧追踪器匹配完成后，对当前帧匹配成功的历史帧追踪器的追踪器历史信息进行更新；判断当前帧是否存在未匹配到历史帧追踪器的3d候选框；若存在，则生成未匹配到历史帧追踪器的3d候选框的历史帧追踪器以及对应的追踪器历史信息；将当前帧鸟瞰图帧追踪器和对应的追踪器历史信息作为下一帧鸟瞰图的匹配输入，直至所有鸟瞰图的3d候选框与历史帧追踪器匹配完成。

可选的，在本发明第二方面的第五种实现方式中，所述更新子单元具体还用于：判断当前帧是否存在未匹配到3d候选框的历史帧追踪器；若是，则根据追踪器历史信息计算未匹配到3d候选框的历史帧追踪器的未匹配时长；若所述未匹配时长大于或等于预设时间阈值，则将未匹配到3d候选框的历史帧追踪器删除。

可选的，在本发明第二方面的第六种实现方式中，所述障碍物追踪装置还包括模型训练模块，所述模型训练模块具体还用于：获取另一时间轴下的多帧样本鸟瞰图，其中，所述样本鸟瞰图携带有障碍物的3d候选框以及3d候选框对应的编号标注；将多帧所述样本鸟瞰图输入预设的神经网络模型中，通过输入的样本鸟瞰图的3d候选框分配追踪器编号；根据样本鸟瞰图的3d候选框的编号标注和追踪器编号计算损失函数，得到损失函数值；判断所述损失函数值是否小于预设损失阈值；若否，则将所述损失函数值进行反向传播，更新所述神经网络模型的网络参数，直至得到的损失函数值小于预设阈值；若是，则根据所述神经网络模型的网络参数生成障碍物跟踪模型。

本发明第三方面提供了一种障碍物追踪设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述障碍物追踪设备执行上述的障碍物追踪方法的步骤。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的障碍物追踪方法的步骤。

本发明的技术方案中，通过获取同一时间轴下的多帧鸟瞰图像；对多帧所述鸟瞰图像进行障碍物识别，得到各帧所述鸟瞰图像中障碍物的3d候选框；将各帧所述鸟瞰图像按照所述时间轴输入预设的障碍物跟踪模型中，通过所述障碍物跟踪模型为输入的鸟瞰图像的3d候选框分配追踪器编号；根据各帧所述鸟瞰图像中相同追踪器编号的3d候选框生成障碍物轨迹。本方法通过将多目标跟踪任务的多个步骤融合为单个模型，减少计算资源的使用，提高系统效率，提高自动驾驶或辅助驾驶过程中障碍物追踪的速度，并且使用鸟瞰图像的三维障碍物框作为模型输入，提高障碍物检测的精度。

附图说明

图1为本发明实施例中障碍物追踪方法的第一个实施例示意图；

图2为本发明实施例中障碍物追踪方法的第二个实施例示意图；

图3为本发明实施例中障碍物追踪装置的一个实施例示意图；

图4为本发明实施例中障碍物追踪装置的另一个实施例示意图；

图5为本发明实施例中障碍物追踪设备的一个实施例示意图。

具体实施方式

本申请实施例提供了一种障碍物追踪方法、装置、设备及存储介质，用于解决现有的多目标跟踪问题解决方法每个步骤都是分开进行导致反应速度慢的技术问题。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中障碍物追踪方法的第一个实施例包括：

101、获取同一时间轴下的多帧鸟瞰图像；

可以理解的是，本发明的执行主体可以为障碍物追踪装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

在本实施例中，所述多帧鸟瞰图像主要为在鸟瞰视角下的点云图像，也即是点云BEV(bird'seyeview)，点云BEV视图是指点云在垂直于高度方向的平面上的投影。通常，在获得bev视图前，会将空间分割成体素，利用体素对点云进行下采样，然后将每个体素作为一个点进行投影，体素是指将三维空间按照固定尺寸长方体进行划分时的长方体。体素投影时可以得到BEV视图的像素点坐标。每个像素点的特征取值则可以通过多种方式得到，例如是通过统计的方法来得到，称为hand-crafted feature，包括最大高度值、与最大高度值对应的点的强度值、长方体中点云点数、平均强度值等，另一种方式是通过模型提取每个体素的特征，如voxelnet。本发明实时例对鸟瞰图像的获取方式不做限定。

在本实施例中，多帧鸟瞰图像是在同一时间轴下获取的，目的是为了保证障碍物跟踪的连续性，如果不是在同一时间轴下获取的鸟瞰图像，代表多帧鸟瞰图像之间并没有时间联系，进行障碍物检测后，多帧鸟瞰图像中识别的障碍物也缺乏关联，只能识别出其中的障碍物，而不能实现障碍物的跟踪。

在本实施例中，所述同一时间轴可以理解为鸟瞰图像处于相同的一段连续的时间区间，例如自动驾驶车辆从启动驾驶到停止驾驶的一段时间区间，在该时间区间内，会对自动驾驶的每一时间帧进行鸟瞰图像的生成，并按照时间顺序对鸟瞰图像进行排序，便于后续进行障碍物的跟踪。

102、对多帧鸟瞰图像进行障碍物识别，得到各帧鸟瞰图像中障碍物的3d候选框；

在本实施例中，所述多帧鸟瞰图像主要为在鸟瞰视角下的点云图像，所以可以使用现有的点云识别障碍物的方式进行，例如，在本实施例中，在获取到多帧鸟瞰图像后，分别对每一帧的鸟瞰图像进行障碍物识别，进行障碍物识别的步骤主要通过体素网格过滤、点云分割、点云聚类和添加边界框，其中，体素网格过滤在整个点云空间创建多个体素立方体网格堆叠填充整个空间,过滤点云的方法是每个体素立方体内只留下一个点,因此立方体每一边的长度越大,点云的分辨率就越低.但是如果体素网格太大,就会损失掉物体原本的特征，进行体素网格过滤之后点云图会变成较为稀疏的、保留原有障碍物特征的点云数据，点云分割的目的在于将不同的物体进行区域切分，即分理处哪些是路面、哪些是不可碰撞的物体，以便于下一步的点云聚类，点云聚类是指把除地面外的不同物体的点云分别组合聚集起来，形成多个点集，那么每一个点集就可以代表一个障碍物以及它的大小范围，即可识别出其中的障碍物，添加边界框是使用一个立方体体将所有障碍物对应的点云包含进去，即可得到障碍物的3d候选框。

103、将各帧鸟瞰图像按照时间轴输入预设的障碍物跟踪模型中，通过障碍物跟踪模型为输入的鸟瞰图像的3d候选框分配追踪器编号；

在本实施例中，采用transformer结构，利用自注意力机制模块，以当前帧鸟瞰图下的障碍物三维检测框为输入，输出物体与历史帧物体框间的关联，其中，为了计输入模型中每帧鸟瞰图像中的3d候选框的相似度，需要基于卷积神经网络或transformer对输入的鸟瞰图像进行卷积操作，生成3d候选框应的外观特征，其中，外观特征主要生成的包括3d候选框的大小，以及3d候选框中的图像或点云通过神经网络生成的特征向量。

在本实施例中，在计算出3d候选框的外观特征后，通过基于transformer的自注意力机制的网络对输入的各帧鸟瞰图像的3d候选框进行处理，基于transformer的自注意力机制的网络会以输入的当前帧3d候选框，3d候选框的外观特征和追踪器历史信息作为输入，得到当前帧3d候选框与历史帧追踪器(tracker)的匹配关系，以及更新后的追踪器历史信息，其中，当输入第一帧的鸟瞰图像时，追踪器历史信息为零，并生成3d候选框对应的历史帧追踪器，将历史帧追踪器和3d候选框的匹配关系对追踪器历史信息进行更新，直到计算完所有的鸟瞰图像。

在本实施例中，障碍物跟踪模型时先通过一下步骤得到：获取另一时间轴下的多帧样本鸟瞰图，其中，所述样本鸟瞰图携带有障碍物的3d候选框以及3d候选框对应的编号标注；将多帧所述样本鸟瞰图输入预设的神经网络模型中，通过输入的样本鸟瞰图的3d候选框分配追踪器编号；根据样本鸟瞰图的3d候选框的编号标注和追踪器编号计算损失函数，得到损失函数值；判断所述损失函数值是否小于预设损失阈值；若否，则将所述损失函数值进行反向传播，更新所述神经网络模型的网络参数，直至得到的损失函数值小于预设阈值；若是，则根据所述神经网络模型的网络参数生成障碍物跟踪模型。

104、根据各帧鸟瞰图像中相同追踪器编号的3d候选框生成障碍物轨迹。

在本实施例中，将各帧鸟瞰图像中相同追踪器编号的3d候选框根据时间轴进行串联，由于3d候选框中框选出来的障碍物，所以串联后的相同追踪器编号的3d候选框即可作为障碍物轨迹输出。

在本实施例中，通过获取同一时间轴下的多帧鸟瞰图像；对多帧所述鸟瞰图像进行障碍物识别，得到各帧所述鸟瞰图像中障碍物的3d候选框；将各帧所述鸟瞰图像按照所述时间轴输入预设的障碍物跟踪模型中，通过所述障碍物跟踪模型为输入的鸟瞰图像的3d候选框分配追踪器编号；根据各帧所述鸟瞰图像中相同追踪器编号的3d候选框生成障碍物轨迹。本方法通过将多目标跟踪任务的多个步骤融合为单个模型，减少计算资源的使用，提高系统效率，提高自动驾驶或辅助驾驶过程中障碍物追踪的速度，并且使用鸟瞰图像的三维障碍物框作为模型输入，提高障碍物检测的精度。

请参阅图2，本发明实施例中障碍物追踪方法的第二个实施例包括：

201、获取同一时间轴下的多帧鸟瞰图像；

202、对多帧鸟瞰图像进行障碍物识别，得到各帧鸟瞰图像中障碍物的3d候选框；

203、将各帧鸟瞰图输入预设的障碍物跟踪模型中，通过障碍物跟踪模型对输入的各帧鸟瞰图的3d候选框进行卷积操作，计算各3d候选框对应的外观特征；

在本实施例中，所述将各帧所述鸟瞰图输入预设的障碍物跟踪模型中，通过所述障碍物跟踪模型对输入的各帧所述鸟瞰图的3d候选框进行卷积操作，计算各3d候选框对应的外观特征包括：将各帧所述鸟瞰图输入预设的障碍物跟踪模型中，通过所述障碍物跟踪模型截取所述鸟瞰图中所述3d候选框对应的候选框图像；通过所述障碍物跟踪模型中的卷积层对所述候选框图像进行编码处理，得到所述候选框图像的编码特征；通过所述障碍物跟踪模型中的转置卷积层对所述编码特征进行解码，得到所述3d候选框对应的外观特征。

具体的，障碍物跟踪模型中包括卷积层和转置卷积层编码器和解码器，其中，所述编码器用于基于卷积层对所述候选框图像进行编码，以生成编码特征，所述解码器用于基于转置卷积层对所述编码特征进行解码，以生成3d候选框对应的外观特征，其中，转置卷积层也可以称为反卷积(deconvolution)层，对编码特征进行反卷积，以获取解码后的特征。编码器包括依次连接的第一二维卷积网络、第二二维卷积网络和池化层，所述池化层后连接第一分支、第二分支和第三分支，所述第一分支、第二分支和第三分支为并行结构，所述第一分支包括一个二维卷积层，所述第二分支包括两个二维卷积层，所述第三分支包括三个二维卷积层，解码器中的转置卷积层也应根据编码器中的卷积层进行相应设置，以对经过编码器的卷积层的数据进行解码。

204、根据时间轴确定各帧鸟瞰图中的第一帧图像，并根据第一帧图像中的3d候选框生成历史帧追踪器以及历史帧追踪器的追踪器历史信息，其中，追踪器历史信息记录对应的历史帧追踪器与3d候选框的匹配关系；

205、通过自注意力机制根据追踪器历史信息和外观特征，将除第一帧图像外的各帧鸟瞰图的3d候选框与第一帧图像的历史帧追踪器按照时间轴进行逐帧匹配；

206、在每帧鸟瞰图的3d候选框与历史帧追踪器匹配完成后，根据匹配结果对追踪器历史信息进行更新，直至所有鸟瞰图的3d候选框与历史帧追踪器匹配完成；

在本实施例中，所述第一帧图像是在所述时间轴的顺序下摄像头和雷达拍摄的第一帧鸟瞰图，通过事先对第一帧图像进行障碍物识别后获取其中障碍物的3d候选框，并对这些3d候选框进行标识，用于后续对不同的3d候选框进行区分，并给每个3d候选框配置对应的历史帧追踪器，用于对对应标识的3d候选框进行跟踪，当第一帧作为当前帧时，各历史帧追踪器的追踪器历史信息中只包含历史帧追踪器与第一帧的3d候选框的匹配关系，随着后续对其他帧图像的跟踪，追踪器历史信息会更新历史帧追踪器与其他帧的3d候选框的匹配关系。在实际应用中，进行障碍物跟踪的目标是在当前帧找到在前面的所有历史帧或绝大部分历史帧中正确跟踪的目标，通过自注意力机制将除第一帧图像外的各帧鸟瞰图的3d候选框与第一帧图像的历史帧追踪器按照时间轴进行逐帧匹配，除了第一帧外，进行3d候选框和历史帧追踪器的匹配主要基于追踪器历史信息和外观特征，通过外观特征计算追踪器历史信息中历史帧追踪器在上一帧跟踪的3d候选框与当前帧中所有3d候选框的相似度，并将最大相似度且该最大相似度大于或等于预设相似度阈值的3d候选框与对应的历史帧追踪器匹配成功，若最大相似度小于预设相似度阈值则说明该历史帧追踪器未能与当前帧的3d候选框匹配成功，当匹配成功时，对当前帧的3d候选框添加对应的历史帧追踪器的标识，并将历史帧追踪器与当前帧的3d候选框的匹配关系更新至追踪器历史信息。

在本实施例中，还可以通过获取帧图像中的3d候选框的位置和计算3d候选框对应的障碍物的速度对障碍物的下一帧的位置进行预测，并根据预测结果和下一帧的3d候选框进行匹配，并结合3d候选框的外观特征，具体过程可以是，通过位置预测的预测障碍物的大概位置，并通过外观特征微调此预估，来获得一个更准确的预测。

在本实施例中，所述在每帧鸟瞰图的3d候选框与历史帧追踪器匹配完成后，根据匹配结果对追踪器历史信息进行更新，直至所有鸟瞰图的3d候选框与历史帧追踪器匹配完成包括：在每帧鸟瞰图的3d候选框与历史帧追踪器匹配完成后，对当前帧匹配成功的历史帧追踪器的追踪器历史信息进行更新；判断当前帧是否存在未匹配到历史帧追踪器的3d候选框；若存在，则生成未匹配到历史帧追踪器的3d候选框的历史帧追踪器以及对应的追踪器历史信息；将当前帧鸟瞰图帧追踪器和对应的追踪器历史信息作为下一帧鸟瞰图的匹配输入，直至所有鸟瞰图的3d候选框与历史帧追踪器匹配完成。

具体的，主要通过基于transformer的自注意力机制的网络对输入数据进行处理，Transformer是一种借助基于注意力的编码器和解码器将一个序列转换为另一个序列的体系结构。注意力机制着眼于输入序列，并在每个步骤中确定该序列的哪些其他部分很重要，因此有助于从输入序列中捕获全局信息。

在所述在每帧鸟瞰图的3d候选框与历史帧追踪器匹配完成后，对当前帧匹配成功的历史帧追踪器的追踪器历史信息进行更新之后，还包括：判断当前帧是否存在未匹配到3d候选框的历史帧追踪器；若是，则根据追踪器历史信息计算未匹配到3d候选框的历史帧追踪器的未匹配时长；若所述未匹配时长大于或等于预设时间阈值，则将未匹配到3d候选框的历史帧追踪器删除。

具体的，模型输出根据当前帧3d候选框输入，更新匹配成功的追踪器历史信息，其中一定时间以上未匹配到3d候选框的追踪器会被删除，未匹配到任何跟踪器的候选框则对应生成一个新的追踪器更新在历史信息中。更新后的历史信息会作为下一帧的模型输入之一。

207、根据匹配关系，为各3d候选框分配对应的历史帧追踪器的追踪器编号；

208、根据各帧鸟瞰图像中相同追踪器编号的3d候选框生成障碍物轨迹。

本实施例在上一实施例的基础上，详细描述了将各帧所述鸟瞰图像按照所述时间轴输入预设的障碍物跟踪模型中，通过所述障碍物跟踪模型为输入的鸟瞰图像的3d候选框分配追踪器编号的过程，通过将各帧所述鸟瞰图输入预设的障碍物跟踪模型中，通过所述障碍物跟踪模型对输入的各帧所述鸟瞰图的3d候选框进行卷积操作，计算各3d候选框对应的外观特征；根据预设的自注意力机制和所述时间轴对各所述3d候选框以及对应的外观特征进行处理，生成历史帧追踪器并得到所述历史帧追踪器和各3d候选框的匹配关系；根据所述匹配关系，为各3d候选框分配对应的历史帧追踪器的追踪器编号。本方法通过将多目标跟踪任务的多个步骤融合为单个模型，减少计算资源的使用，提高系统效率，提高自动驾驶或辅助驾驶过程中障碍物追踪的速度，并且使用鸟瞰图像的三维障碍物框作为模型输入，提高障碍物检测的精度。

上面对本发明实施例中障碍物追踪方法进行了描述，下面对本发明实施例中障碍物追踪装置进行描述，请参阅图3，本发明实施例中障碍物追踪装置一个实施例包括：

获取模块301，用于获取同一时间轴下的多帧鸟瞰图像；

识别模块302，用于对多帧所述鸟瞰图像进行障碍物识别，得到各帧所述鸟瞰图像中障碍物的3d候选框；

编号分配模块303，用于将各帧所述鸟瞰图像按照所述时间轴输入预设的障碍物跟踪模型中，通过所述障碍物跟踪模型为输入的鸟瞰图像的3d候选框分配追踪器编号；

轨迹生成模块304，用于根据各帧所述鸟瞰图像中相同追踪器编号的3d候选框生成障碍物轨迹。

本发明实施例中，所述障碍物追踪装置运行上述障碍物追踪方法，所述障碍物追踪装置通过获取同一时间轴下的多帧鸟瞰图像；对多帧所述鸟瞰图像进行障碍物识别，得到各帧所述鸟瞰图像中障碍物的3d候选框；将各帧所述鸟瞰图像按照所述时间轴输入预设的障碍物跟踪模型中，通过所述障碍物跟踪模型为输入的鸟瞰图像的3d候选框分配追踪器编号；根据各帧所述鸟瞰图像中相同追踪器编号的3d候选框生成障碍物轨迹。本方法通过将多目标跟踪任务的多个步骤融合为单个模型，减少计算资源的使用，提高系统效率，提高自动驾驶或辅助驾驶过程中障碍物追踪的速度，并且使用鸟瞰图像的三维障碍物框作为模型输入，提高障碍物检测的精度。

请参阅图4，本发明实施例中障碍物追踪装置的第二个实施例包括：

获取模块301，用于获取同一时间轴下的多帧鸟瞰图像；

在本实施例中，所述编号分配模块303具体包括：特征计算单元3031，用于将各帧所述鸟瞰图输入预设的障碍物跟踪模型中，通过所述障碍物跟踪模型对输入的各帧所述鸟瞰图的3d候选框进行卷积操作，计算各3d候选框对应的外观特征；匹配单元3032，用于根据预设的自注意力机制和所述时间轴对各所述3d候选框以及对应的外观特征进行处理，生成历史帧追踪器并得到所述历史帧追踪器和各3d候选框的匹配关系；分配单元3033，用于根据所述匹配关系，为各3d候选框分配对应的历史帧追踪器的追踪器编号。

在本实施例中，所述特征计算单元3031具体用于：将各帧所述鸟瞰图输入预设的障碍物跟踪模型中，通过所述障碍物跟踪模型截取所述鸟瞰图中所述3d候选框对应的候选框图像；通过所述障碍物跟踪模型中的卷积层对所述候选框图像进行编码处理，得到所述候选框图像的编码特征；通过所述障碍物跟踪模型中的转置卷积层对所述编码特征进行解码，得到所述3d候选框对应的外观特征。

在本实施例中，所述匹配单元3032具体包括：追踪器生成子单元30321，用于根据所述时间轴确定各帧鸟瞰图中的第一帧图像，并根据所述第一帧图像中的3d候选框生成历史帧追踪器以及所述历史帧追踪器的追踪器历史信息，其中，所述追踪器历史信息记录对应的历史帧追踪器与3d候选框的匹配关系；自注意力子单元30322，用于通过所述自注意力机制根据所述追踪器历史信息和所述外观特征，将除所述第一帧图像外的各帧鸟瞰图的3d候选框与所述第一帧图像的历史帧追踪器按照所述时间轴进行逐帧匹配；更新子单元30323，用于在每帧鸟瞰图的3d候选框与历史帧追踪器匹配完成后，根据匹配结果对所述追踪器历史信息进行更新，直至所有鸟瞰图的3d候选框与历史帧追踪器匹配完成。

在本实施例中，所述更新子单元30323具体用于：在每帧鸟瞰图的3d候选框与历史帧追踪器匹配完成后，对当前帧匹配成功的历史帧追踪器的追踪器历史信息进行更新；判断当前帧是否存在未匹配到历史帧追踪器的3d候选框；若存在，则生成未匹配到历史帧追踪器的3d候选框的历史帧追踪器以及对应的追踪器历史信息；将当前帧鸟瞰图帧追踪器和对应的追踪器历史信息作为下一帧鸟瞰图的匹配输入，直至所有鸟瞰图的3d候选框与历史帧追踪器匹配完成。

在本实施例中，所述更新子单元30323具体还用于：判断当前帧是否存在未匹配到3d候选框的历史帧追踪器；若是，则根据追踪器历史信息计算未匹配到3d候选框的历史帧追踪器的未匹配时长；若所述未匹配时长大于或等于预设时间阈值，则将未匹配到3d候选框的历史帧追踪器删除。

在本实施例中，所述障碍物追踪装置还包括模型训练模块305，所述模型训练模块305具体还用于：获取另一时间轴下的多帧样本鸟瞰图，其中，所述样本鸟瞰图携带有障碍物的3d候选框以及3d候选框对应的编号标注；将多帧所述样本鸟瞰图输入预设的神经网络模型中，通过输入的样本鸟瞰图的3d候选框分配追踪器编号；根据样本鸟瞰图的3d候选框的编号标注和追踪器编号计算损失函数，得到损失函数值；判断所述损失函数值是否小于预设损失阈值；若否，则将所述损失函数值进行反向传播，更新所述神经网络模型的网络参数，直至得到的损失函数值小于预设阈值；若是，则根据所述神经网络模型的网络参数生成障碍物跟踪模型。

在本实施中，详细说明了障碍物追踪装置的各模块的具体功能和部分模块的单元构成，通过本装置的各模块和各单元，将多目标跟踪任务的多个步骤融合为单个模型，减少计算资源的使用，提高系统效率，提高自动驾驶或辅助驾驶过程中障碍物追踪的速度，并且使用鸟瞰图像的三维障碍物框作为模型输入，提高障碍物检测的精度。

上面图3和图4从模块化功能实体的角度对本发明实施例中的中障碍物追踪装置进行详细描述，下面从硬件处理的角度对本发明实施例中障碍物追踪设备进行详细描述。

图5是本发明实施例提供的一种障碍物追踪设备的结构示意图，该障碍物追踪设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对障碍物追踪设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在障碍物追踪设备500上执行存储介质530中的一系列指令操作，以实现上述障碍物追踪方法的步骤。

障碍物追踪设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的障碍物追踪设备结构并不构成对本申请提供的障碍物追踪设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述障碍物追踪方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统或装置、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种障碍物跟踪方法，其特征在于，所述障碍物跟踪方法包括：

获取同一时间轴下的多帧鸟瞰图像；

对多帧所述鸟瞰图像进行障碍物识别，得到各帧所述鸟瞰图像中障碍物的3d候选框；

将各帧所述鸟瞰图像按照所述时间轴输入预设的障碍物跟踪模型中，通过所述障碍物跟踪模型为输入的鸟瞰图像的3d候选框分配追踪器编号；

根据各帧所述鸟瞰图像中相同追踪器编号的3d候选框生成障碍物轨迹。

2.根据权利要求1所述的障碍物跟踪方法，其特征在于，所述将各帧所述鸟瞰图像按照所述时间轴输入预设的障碍物跟踪模型中，通过所述障碍物跟踪模型为输入的鸟瞰图像的3d候选框分配追踪器编号包括：

将各帧所述鸟瞰图输入预设的障碍物跟踪模型中，通过所述障碍物跟踪模型对输入的各帧所述鸟瞰图的3d候选框进行卷积操作，计算各3d候选框对应的外观特征；

根据预设的自注意力机制和所述时间轴对各所述3d候选框以及对应的外观特征进行处理，生成历史帧追踪器并得到所述历史帧追踪器和各3d候选框的匹配关系；

根据所述匹配关系，为各3d候选框分配对应的历史帧追踪器的追踪器编号。

3.根据权利要求2所述的障碍物跟踪方法，其特征在于，所述将各帧所述鸟瞰图输入预设的障碍物跟踪模型中，通过所述障碍物跟踪模型对输入的各帧所述鸟瞰图的3d候选框进行卷积操作，计算各3d候选框对应的外观特征包括：

将各帧所述鸟瞰图输入预设的障碍物跟踪模型中，通过所述障碍物跟踪模型截取所述鸟瞰图中所述3d候选框对应的候选框图像；

通过所述障碍物跟踪模型中的卷积层对所述候选框图像进行编码处理，得到所述候选框图像的编码特征；

通过所述障碍物跟踪模型中的转置卷积层对所述编码特征进行解码，得到所述3d候选框对应的外观特征。

4.根据权利要求3所述的障碍物跟踪方法，其特征在于，所述根据预设的自注意力机制和所述时间轴对各所述3d候选框以及对应的外观特征进行处理，生成历史帧追踪器并得到所述历史帧追踪器和各3d候选框的匹配关系包括：

根据所述时间轴确定各帧鸟瞰图中的第一帧图像，并根据所述第一帧图像中的3d候选框生成历史帧追踪器以及所述历史帧追踪器的追踪器历史信息，其中，所述追踪器历史信息记录对应的历史帧追踪器与3d候选框的匹配关系；

通过所述自注意力机制根据所述追踪器历史信息和所述外观特征，将除所述第一帧图像外的各帧鸟瞰图的3d候选框与所述第一帧图像的历史帧追踪器按照所述时间轴进行逐帧匹配；

在每帧鸟瞰图的3d候选框与历史帧追踪器匹配完成后，根据匹配结果对所述追踪器历史信息进行更新，直至所有鸟瞰图的3d候选框与历史帧追踪器匹配完成。

5.根据权利要求4所述的障碍物跟踪方法，其特征在于，所述在每帧鸟瞰图的3d候选框与历史帧追踪器匹配完成后，根据匹配结果对所述追踪器历史信息进行更新，直至所有鸟瞰图的3d候选框与历史帧追踪器匹配完成包括：

在每帧鸟瞰图的3d候选框与历史帧追踪器匹配完成后，对当前帧匹配成功的历史帧追踪器的追踪器历史信息进行更新；

判断当前帧是否存在未匹配到历史帧追踪器的3d候选框；

若存在，则生成未匹配到历史帧追踪器的3d候选框的历史帧追踪器以及对应的追踪器历史信息；

将当前帧鸟瞰图帧追踪器和对应的追踪器历史信息作为下一帧鸟瞰图的匹配输入，直至所有鸟瞰图的3d候选框与历史帧追踪器匹配完成。

6.根据权利要求5所述的障碍物跟踪方法，其特征在于，在所述在每帧鸟瞰图的3d候选框与历史帧追踪器匹配完成后，对当前帧匹配成功的历史帧追踪器的追踪器历史信息进行更新之后，还包括：

判断当前帧是否存在未匹配到3d候选框的历史帧追踪器；

若是，则根据追踪器历史信息计算未匹配到3d候选框的历史帧追踪器的未匹配时长；

若所述未匹配时长大于或等于预设时间阈值，则将未匹配到3d候选框的历史帧追踪器删除。

7.根据权利要求1-6中任一项所述的障碍物跟踪方法，其特征在于，在所述获取同一时间轴下的多帧鸟瞰图像之前，还包括：

获取另一时间轴下的多帧样本鸟瞰图，其中，所述样本鸟瞰图携带有障碍物的3d候选框以及3d候选框对应的编号标注；

将多帧所述样本鸟瞰图输入预设的神经网络模型中，通过输入的样本鸟瞰图的3d候选框分配追踪器编号；

根据样本鸟瞰图的3d候选框的编号标注和追踪器编号计算损失函数，得到损失函数值；

判断所述损失函数值是否小于预设损失阈值；

若否，则将所述损失函数值进行反向传播，更新所述神经网络模型的网络参数，直至得到的损失函数值小于预设阈值；

若是，则根据所述神经网络模型的网络参数生成障碍物跟踪模型。

8.一种障碍物追踪装置，其特征在于，所述障碍物追踪装置包括：

获取模块，用于获取同一时间轴下的多帧鸟瞰图像；

识别模块，用于对多帧所述鸟瞰图像进行障碍物识别，得到各帧所述鸟瞰图像中障碍物的3d候选框；

编号分配模块，用于将各帧所述鸟瞰图像按照所述时间轴输入预设的障碍物跟踪模型中，通过所述障碍物跟踪模型为输入的鸟瞰图像的3d候选框分配追踪器编号；

轨迹生成模块，用于根据各帧所述鸟瞰图像中相同追踪器编号的3d候选框生成障碍物轨迹。

9.一种障碍物追踪设备，其特征在于，所述障碍物追踪设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述障碍物追踪设备执行如权利要求1-7中任一项所述的障碍物追踪方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的障碍物追踪方法的步骤。