CN117132972A

CN117132972A - 基于时序融合的3d目标检测方法、电子设备及存储介质

Info

Publication number: CN117132972A
Application number: CN202311105344.4A
Authority: CN
Inventors: 肖华辉; 陈佳; 李雪
Original assignee: Beijing Yihang Yuanzhi Technology Co Ltd
Current assignee: Beijing Yihang Yuanzhi Technology Co Ltd
Priority date: 2023-08-30
Filing date: 2023-08-30
Publication date: 2023-11-28

Abstract

本公开提供了一种基于时序融合的3D目标检测方法、装置、电子设备及存储介质。本公开的基于时序融合的3D目标检测方法包括：获取当前帧二维图像数据；对当前帧二维图像数据进行3D目标检测，以获得当前帧第一阶段3D目标检测信息；基于前序帧3D目标检测信息和当前帧第一阶段3D目标检测信息获得当前帧中历史3D目标运动位移；基于历史3D目标运动位移判断前序帧3D目标检测信息和当前帧第一阶段3D目标检测信息的匹配程度以融合当前帧第一阶段3D目标检测信息和前序帧3D目标检测信息以获得当前帧第二阶段3D目标检测信息作为时序融合后的当前帧3D目标检测信息。

Description

基于时序融合的3D目标检测方法、电子设备及存储介质

技术领域

本公开涉及自动驾驶和计算机视觉技术领域，本公开尤其涉及一种基于时序融合的3D目标检测方法、装置、电子设备及存储介质。

背景技术

环视车载摄像头在自动驾驶汽车上广泛装备，其中使用图像数据提取BEV(Bird'sEye View)特征即鸟瞰视角特征，进行3D目标检测，已成为自动驾驶感知模块中障碍物检测的主流。

由于使用单帧图像数据的BEV特征的检测效果有限，所以当前障碍物3D目标检测正转向多模态和时序融合。

目前基于BEV特征的时序融合方法有以下划分方式：

一，根据融合特征的阶段不同，可分为基于图像特征和BEV特征融合两种。

二，按照融合特征的稀疏性，又可分为稠密的BEV融合和稀疏的BEV query融合两种方案，两者各有优势，前者根据不同帧之间的自车坐标，将前序帧(也即历史帧)BEV特征与当前帧BEV特征对齐后融合；后者则基于Transformer预测障碍物，其首先进行运动估计，对前序帧的query特征扩散传播，以提升高置信度检测目标在当前帧的检测准确度。

然而，当前基于CNN网络的BEV特征时序融合方式仍以稠密融合为主，代表工作有BEVDet4D和SOLOFusion，稠密融合需要保留需要融合的N个时刻前序帧的BEV特征，并通过坐标系转换获取当前采样点在前序帧的位置，提取对应特征进行融合。此方法保留了大量的无用BEV特征，存在以下缺点：1)占用大量显存，同时增加无用特征的计算负担。2)时序融合阶段只消除了自车运动影响，没有考虑障碍物运动导致的特征失配问题。

因此，从细粒度角度进行BEV特征的时序融合具有重要的研究前景和价值。其能有效地缓解以上两点不足，通过只保留前序帧的预测结果和对应BEV特征，能减少显存占用；之后通过直接在目标BEV特征上预测运动方向和位移，能更有效地进行BEV特征的时序融合。

对现有的一些技术方案进行介绍：

BEVDet4D属于基于CNN的BEV特征融合方式，其在BEVDet3D的工作上发展而来，先将前序帧经过时空对齐，在channel维度拼接，再送入bev encoder进行融合。而PETR v2属于基于Transformer的图像特征融合方式，通过变换前序帧(从前3-27帧中随机选取的一帧)外参的方式，将前序帧的相机视角变成当前帧的虚拟视角，以获取前序帧在当前帧的3D位置编码。

其中BEVFormer，则通过Transformer将图像特征转换BEV平面上，然后根据不同帧自车坐标，将之前帧的BEV特征与当前帧进行对齐，简单地对时序上的BEV特征进行注意力融合；但是，其只存储一帧BEV特征无法保留时间间隔较长的信息，所以BEVFormer v2中，通过增加时间间隔和之前帧BEV特征的数量的方式，保留更长时间的特征，之后直接将前多帧BEV特征与当前BEV特征进行拼接，融合时序特征。

2023年新发表的StreamPETR利用Transformer提取特征具有稀疏性特点，其舍弃了之前直接存储之前帧BEV特征的方式，而先提取图像的2D目标，并使用2D标签进行监督，对后续的BEV特征进行初始化，并结合之前帧的部分3D目标预测结果，在空间对齐操作后，作为当前BEV 3D目标检测的query，实现query层面的时序融合。

此外，其他工作，如BEVStereo从相邻帧构建立体视觉，对深度预测进行矫正，计算双目深度估计损失，以获得更准确的3D特征，也属于一种特殊的BEV特征的时序融合方式。

关于现有的基于BEV特征时序融合的3D目标检测的技术方案分析如下：

在自动驾驶领域，可直接用于3D目标检测的传感器数据主要有车载相机图像数据、激光点云数据、雷达点云数据，这些数据具有天然的时序特点。

目前，基于CNN网络的BEV特征时序融合在1)融合的特征粒度和2)历史特征的保留方式上仍存在缺陷和不足。

1)融合的特征粒度：BEV特征对齐采样保留了大量的无关特征，其将当前BEV gird坐标通过坐标转换重投影到前序帧，进行前序帧BEV特征采样，然后对BEV特征进行融合，存在大量无效的存储和计算操作。而且，此种对齐方式只消除了自车运动的误差，忽略了障碍物自身运动的影响。因此，明确地估计运动物体的位移，在理论上能有效的消除特征的适配问题，能提升BEV特征的时序融合效果。

2)历史特征保留：基于Transformer模型，采用迭代更新query的方式，而基于CNN的BEV特征提取方式，一般采用直接保留时间段为T的T×C×H×W的BEV特征，以融合前T个时刻的特征。或是迭代更新C×H×W的BEV特征以存储检测目标的相关特征，融合在一帧内。所以，更进一步，只保留前景物体相关的特征，理论上能进一步提升特征时序融合的速度和效率。

发明内容

本公开提供了一种基于时序融合的3D目标检测方法、装置、电子设备及存储介质。

根据本公开的一个方面，提供一种基于时序融合的3D目标检测方法，包括：

获取当前帧二维图像数据；

对所述当前帧二维图像数据进行3D目标检测，以获得当前帧第一阶段3D目标检测信息；

基于前序帧3D目标检测信息和当前帧第一阶段3D目标检测信息获得当前帧中历史3D目标运动位移；

基于所述历史3D目标运动位移判断前序帧3D目标检测信息和当前帧第一阶段3D目标检测信息的匹配程度以融合当前帧第一阶段3D目标检测信息和前序帧3D目标检测信息以获得当前帧第二阶段3D目标检测信息作为时序融合后的当前帧3D目标检测信息。

根据本公开的至少一个实施方式的基于时序融合的3D目标检测方法，还包括：获取当前帧本车坐标系位姿至前序帧本车坐标系位姿的第一变换矩阵；

其中，所述当前帧中历史3D目标运动位移基于前序帧和当前帧的帧间时间差及所述第一变换矩阵获得。

根据本公开的至少一个实施方式的基于时序融合的3D目标检测方法，所述当前帧第一阶段3D目标检测信息包括：当前帧第一阶段3D目标检测框集合和各个当前帧第一阶段3D目标检测框对应的BEV特征；所述前序帧3D目标检测信息包括：前序帧3D目标检测框集合及其对应的BEV特征；

其中，基于前序帧和当前帧的帧间时间差及所述第一变换矩阵获得所述当前帧中历史3D目标运动位移，包括：

对前序帧3D目标检测框对应的历史3D目标位置进行基于帧间时间差的运动位移预测，以获得当前帧时刻的历史3D目标预测位置；

基于所述第一变换矩阵将所述历史3D目标预测位置转换至当前帧，以获得当前帧中历史3D目标预测位置即获得当前帧中历史3D目标运动位移。

根据本公开的至少一个实施方式的基于时序融合的3D目标检测方法，基于所述历史3D目标运动位移判断前序帧3D目标检测信息和当前帧3D目标检测信息的匹配程度，以融合当前帧第一阶段3D目标检测信息和前序帧3D目标检测信息以获得当前帧第二阶段3D目标检测信息作为时序融合后的当前帧3D目标检测信息，包括：

基于当前帧第一阶段3D目标检测框的预测类别和所述当前帧中历史3D目标预测位置获取所述当前帧中历史3D目标预测位置的空间邻域内与所述当前帧第一阶段3D目标检测框匹配的前序帧3D目标检测框匹配集合及其对应的BEV特征匹配集合；

将所述BEV特征匹配集合中的最匹配BEV特征与所述当前帧第一阶段3D目标检测框对应的BEV特征进行特征融合获得BEV融合特征，基于所述BEV融合特征获得当前帧第二阶段3D目标检测框集合及其对应的BEV特征，作为当前帧3D目标检测信息。

根据本公开的至少一个实施方式的基于时序融合的3D目标检测方法，将所述BEV特征匹配集合中的最匹配BEV特征与所述当前帧第一阶段3D目标检测框对应的BEV特征进行特征融合获得BEV融合特征，包括：

基于神经网络模型将所述BEV特征匹配集合中的最匹配BEV特征与所述当前帧第一阶段3D目标检测框对应的BEV特征进行融合。

根据本公开的至少一个实施方式的基于时序融合的3D目标检测方法，还包括：基于所述当前帧3D目标检测信息及所述前序帧3D目标检测信息中的3D目标检测框的置信度对所述前序帧3D目标检测信息进行更新以获得更新的前序帧3D目标检测信息以用于下一帧的3D目标检测。

根据本公开的至少一个实施方式的基于时序融合的3D目标检测方法，基于所述当前帧3D目标检测信息及所述前序帧3D目标检测信息中的3D目标检测框的置信度对所述前序帧3D目标检测信息进行更新以获得更新的前序帧3D目标检测信息以用于下一帧的3D目标检测，包括：

对所述当前帧3D目标检测框集合及其对应的BEV特征和所述前序帧3D目标检测框集合及其对应的BEV特征进行置信度排序，取预设数量的3D目标检测框集合及其对应的BEV特征作为新的前序帧3D目标检测信息以用于下一帧的3D目标检测。

根据本公开的至少一个实施方式的基于时序融合的3D目标检测方法，在对所述前序帧3D目标检测信息进行更新的过程中，基于NMS算法对不同的预测类别进行过滤处理。

根据本公开的至少一个实施方式的基于时序融合的3D目标检测方法，获取当前帧二维图像数据的过程中，还获取当前帧二维图像数据对应的三维点云数据；

所述3D目标检测方法还包括：

基于当前帧二维图像数据及其对应的三维点云数据生成点云3D伪标签以用于对所述当前帧3D目标检测信息进行弱监督。

根据本公开的至少一个实施方式的基于时序融合的3D目标检测方法，基于当前帧二维图像数据及其对应的三维点云数据生成点云3D伪标签，包括：

对当前帧二维图像数据进行2D检测以提取图像2D伪标签；

基于提取的所述图像2D伪标签对当前帧二维图像数据对应的三维点云数据进行点集聚类，以获得点云3D伪标签。

根据本公开的至少一个实施方式的基于时序融合的3D目标检测方法，基于当前帧二维图像数据及其对应的三维点云数据生成点云3D伪标签以用于对所述当前帧3D目标检测信息进行监督，包括：

基于所述点云3D伪标签和所述当前帧3D目标检测框集合计算3D检测框损失和时序融合损失，获得总损失，以进行所述弱监督。

根据本公开的另一个方面，提供一种基于时序融合的3D目标检测装置，包括：

数据获取模块，所述数据获取模块获取当前帧二维图像数据；

第一3D目标检测模块，所述第一3D目标检测模块对所述当前帧二维图像数据进行3D目标检测框预测，以获得当前帧第一阶段3D目标检测信息；以及

目标运动检测模块，所述目标运动检测模块基于前序帧3D目标检测信息和当前帧第一阶段3D目标检测信息获得当前帧中历史3D目标运动位移；

时序融合模块，所述时序融合模块基于所述历史3D目标运动位移判断前序帧3D目标检测信息和当前帧3D目标检测信息的匹配程度以融合当前帧第一阶段3D目标检测信息和前序帧3D目标检测信息以获得当前帧第二阶段3D目标检测信息作为时序融合后的当前帧3D目标检测信息。

根据本公开的至少一个实施方式的基于时序融合的3D目标检测装置，还包括：

变换矩阵生成模块，所述变换矩阵生成模块获取当前帧本车坐标系位姿至前序帧本车坐标系位姿的第一变换矩阵。

根据本公开的至少一个实施方式的基于时序融合的3D目标检测装置，还包括：前序帧3D目标检测信息更新模块，所述前序帧3D目标检测信息更新模块基于所述当前帧3D目标检测信息及所述前序帧3D目标检测信息中的3D目标检测框的置信度对所述前序帧3D目标检测信息进行更新以获得更新的前序帧3D目标检测信息。

根据本公开的至少一个实施方式的基于时序融合的3D目标检测装置，还包括：点云3D伪标签生成模块，所述点云3D伪标签生成模块基于当前帧二维图像数据及其对应的三维点云数据生成点云3D伪标签。

根据本公开的至少一个实施方式的基于时序融合的3D目标检测装置，还包括：弱监督模块，所述弱监督模块基于所述点云3D伪标签和所述当前帧3D目标检测框集合计算3D检测框损失和时序融合损失，获得总损失，以进行所述弱监督。

根据本公开的又一个方面，提供一种电子设备，包括：存储器，所述存储器存储执行指令；以及处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行本公开任一个实施方式的3D目标检测方法。

根据本公开的再一个方面，提供一种可读存储介质，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现本公开任一个实施方式的3D目标检测方法。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1是本公开的一个实施方式的基于时序融合的3D目标检测方法的流程示意图。

图2是本公开的一个实施方式的基于前序帧和当前帧的帧间时间差及所述第一变换矩阵获得所述当前帧中历史3D目标运动位移的流程示意图。

图3是本公开的一个实施方式的获得当前帧第二阶段3D目标检测信息的流程示意图。

图4是本公开的一个实施方式的基于时序融合的3D目标检测方法的流程示意图。

图5是本公开的一个实施方式的前序帧3D检测目标对应的BEV特征和当前帧第一阶段3D检测目标对应BEV特征融合过程及对前序帧3D检测目标更新的过程示意图。

图6是本公开的一个实施方式的基于时序融合的3D目标检测方法的流程示意图。

图7是本公开的一个实施方式的采用处理系统的硬件实现方式的3D目标检测装置的结构示意框图。

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。

除非另有说明，否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此，除非另有说明，否则在不脱离本公开的技术构思的情况下，各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。

在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此，除非说明，否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外，在附图中，为了清楚和/或描述性的目的，可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时，可以以不同于所描述的顺序来执行具体的工艺顺序。例如，可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外，同样的附图标记表示同样的部件。

当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时，该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件，或者可以存在中间部件。然而，当部件被称作“直接在”另一部件“上”、“直接连接到”或“直接结合到”另一部件时，不存在中间部件。为此，术语“连接”可以指物理连接、电气连接等，并且具有或不具有中间部件。

本文使用的术语是为了描述具体实施例的目的，而不意图是限制性的。如这里所使用的，除非上下文另外清楚地指出，否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外，当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时，说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组，但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是，如这里使用的，术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语，如此，它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。

下文结合图1至图7对本公开的基于时序融合的3D目标检测方法、装置等进行详细说明。

参考图1，在本公开的一些实施方式中，本公开的基于时序融合的3D目标检测方法S100，包括：

S110、获取当前帧二维图像数据。

S120、对所述当前帧二维图像数据进行3D目标检测，以获得当前帧第一阶段3D目标检测信息。

S130、基于前序帧3D目标检测信息和当前帧第一阶段3D目标检测信息获得当前帧中历史3D目标(例如运动的障碍物、行人等)运动位移。

S140、基于所述历史3D目标运动位移判断前序帧3D目标检测信息和当前帧第一阶段3D目标检测信息的匹配程度以融合当前帧第一阶段3D目标检测信息和前序帧3D目标检测信息以获得当前帧第二阶段3D目标检测信息作为时序融合后的当前帧3D目标检测信息。

其中，本公开描述的二维图像数据可以是车载相机图像数据I_t，即当前帧时刻t的车载图像数据。

在本公开的一些实施方式中，步骤S110中，在获取(读入)当前帧二维图像数据的同时，还获取(读入)当前帧二维图像数据对应的激光雷达点云数据L_t。

步骤S120中，对所述当前帧二维图像数据进行3D目标检测框预测，可以使用现有的3D目标检测模型进行，例如Monocular 3D Detection检测模型，Bounding BoxEstimation检测模型等，本公开对此不做特别限定。

例如可以基于现有的BEV 3D检测模型提取二维图像数据I_t的BEV特征BEV_t∈R^C ^*H*W，进行一阶段的检测，记做其中，C表示通道(Channel)维度，H表示高度(Height)维度，W表示宽度(Width)维度。

采用现有的3D目标检测模型，可以直接从2D图像数据预测3D目标检测框，记为第一阶段检测结果其中N为预测Box_t数量，并保留/>对应的BEV特征/>其中C为BEV特征的通道数据。

步骤S130中，对当前帧中历史3D目标运动位移(即当前帧时刻，前序帧中的3D目标在当前帧中所处的位置)进行检测，以预测前序帧中观测物体(即历史3D目标)在当前帧中的位置，以用于计算前序帧3D目标检测信息与当前帧3D目标检测信息的匹配程度(相似程度)。

步骤S140中，优选地，选取同当前帧第一阶段3D检测信息中的预测框(检测框)相似度最高即最匹配的前序帧3D目标检测信息的预测框(检测框)，融合BEV特征，在增强特征融合效果的同时，能够有效降低历史特征内存占用率，并有效缓解障碍物自身运动导致的传统时序融合中的特征偏差问题。

在本公开的一些实施方式中，本公开的基于时序融合的3D目标检测方法S100的步骤S110中，还包括：获取当前帧本车坐标系位姿至前序帧(当前帧的前序帧)本车坐标系位姿的第一变换矩阵；其中，所述当前帧中历史3D目标运动位移基于前序帧和当前帧的帧间时间差及所述第一变换矩阵获得。

在本公开的一些实施方式中，计算当前帧本车坐标系位姿到前序帧本车坐标系位姿的变换矩阵(T表示当前帧，T-1表示前序帧(例如前一帧))，采用以下方法：

以nuScenes数据集进行说明，nuScenes每个场景(scene)包含40帧左右的数据，每两帧数据之间的时间间隔为0.5s。

本公开示例性地使用6个车载相机(camera)的图像数据，车载顶部激光扫描(lidar)数据。

如果采用传统CNN方法提取BEV特征的模式，需要提取点云数据P_w(x_w,y_w，z_w)(激光雷达点云在当前帧参考系下的空间坐标)的深度作为图像深度预测结果的监督信号，具体为P_w通过相机外参矩阵和相机内参矩阵/>转换到图像坐标系下P_c(u，v)，可以通过以下公式进行转换：

过滤(u，v)落在2D图像外的点，剩余点同深度z_c相concate，即(u，v，z_c)，得到/>其中H，W为图像数据的高和宽，N为点云落在I中点的数量。

接下来，获取当前帧本车坐标系O_t到地图坐标系原点O_global的位姿矩阵P_t，计算当前帧和前序帧之间的本车坐标系变换矩阵其中@表示矩阵乘法，/>为O_global到前序帧坐标系的转换矩阵。同时计算两帧之间的时间差Δt＝t_i-t_{i-1}，以用于估计前序帧中检测物体的运动位移。

对于上文描述的基于时序融合的3D目标检测方法S100，其中，所述当前帧第一阶段3D目标检测信息包括：

当前帧第一阶段3D目标检测框集合和各个当前帧第一阶段3D目标检测框对应的BEV特征/>所述前序帧3D目标检测信息包括：前序帧3D目标检测框集合及其对应的BEV特征。

在本公开的优选实施方式中，基于前序帧和当前帧的帧间时间差及所述第一变换矩阵获得所述当前帧中历史3D目标运动位移，包括：

S131、对前序帧3D目标检测框对应的历史3D目标位置进行基于帧间时间差(Δt)的运动位移预测，以获得当前帧时刻的历史3D目标预测位置/>

S132、基于所述第一变换矩阵将所述历史3D目标预测位置转换至当前帧(以消除本车运动导致的坐标系偏差)，以获得当前帧中历史3D目标预测位置即获得当前帧中历史3D目标运动位移。

图2示出了该实施方式的基于前序帧和当前帧的帧间时间差及所述第一变换矩阵获得所述当前帧中历史3D目标运动位移的流程示意图。

本实施方式中，预测历史3D目标位置经过Δt后，在前序帧中的运动位移(Δx，Δy)，获取历史3D目标的估计坐标为/> 其中，运动位移预测可以基于下式获得：

其中，为前序帧检测结果/>对应的BEV特征，MS为MLP(Multi-LayerPerception)运动估计模块。

接下来，将posj通过转换到当前帧，以消除自车运动导致的坐标系偏差。可以采用如下公式：

在本公开的优选实施方式中，本公开的基于时序融合的3D目标检测方法S100中，优选地，S140、基于所述历史3D目标运动位移判断前序帧3D目标检测信息和当前帧3D目标检测信息的匹配程度，以融合当前帧第一阶段3D目标检测信息和前序帧3D目标检测信息以获得当前帧第二阶段3D目标检测信息作为时序融合后的当前帧3D目标检测信息，包括：

S141、基于当前帧第一阶段3D目标检测框的预测类别/>和所述当前帧中历史3D目标预测位置获取所述当前帧中历史3D目标预测位置的空间邻域内与所述当前帧第一阶段3D目标检测框/>匹配的前序帧3D目标检测框匹配集合/>(可以是一个也可以是多个)及其对应的BEV特征匹配集合/>

S142、将所述BEV特征匹配集合中的最匹配BEV特征与所述当前帧第一阶段3D目标检测框对应的BEV特征进行特征融合获得BEV融合特征/>基于所述BEV融合特征/>获得当前帧第二阶段3D目标检测框集合/>及其对应的BEV特征，作为当前帧3D目标检测信息。

图3示出了该实施方式的获得当前帧第二阶段3D目标检测信息的流程示意图。

本实施方式中，选取当前预测框相匹配的历史预测结果。具体如下，由的预测类别/>选取历史预测3D框对应的BEV特征/>其中为/>中心坐标与该类历史预测/>中心坐标的位移。其中dist(·)为距离度量函数，本公开优选采用L2距离，即/>选取d＜∈的历史预测框作为当前预测结果/>的匹配融合对象。

接下来，选取符合要求的top1历史预测结果所对应的BEV特征/>与第一阶段预测结果/>融合后的特征/>输入3D目标检测模型的检测头(head2)，得到第二阶段目标检测结果/>可以采用如下公式：

其中，hisotry_fusion可以使用全连接网络(fully connected layers，FC)实现。

然后对第一阶段检测框对应的BEV特征进行替换，最后进行二阶段预测：

本公开上述实施方式中，基于第一阶段检测结果针对每一个3D检测结果(上标i为当前帧时刻的检测框标记序号，i为自然数)，融合前序帧预测结果中空间邻域内的检测结果/>(上标j为前序帧时刻的检测框标记序号，j为自然数，m，n为自然数，m-m+1表示上述空间邻域内的检测框数量)所对应的BEV特征其中(x，y)为前序帧预测结果/>对齐到当前帧之后的坐标，∈为设定的邻域范围，之后可以通过卷积或Transformer融合/>对应的/>特征和时空相邻特征/>获得融合之后的特征最后通过3D目标检测模型的检测头预测的3D目标属性(包括诸如位置、尺寸、类别、姿态等3D目标属性信息)，记为/>

对于上文描述的步骤S142，其中，将所述BEV特征匹配集合中的最匹配BEV特征与所述当前帧第一阶段3D目标检测框对应的BEV特征进行特征融合获得BEV融合特征包括：

基于神经网络模型(卷积神经网络或者transformer神经网络)将所述BEV特征匹配集合中的最匹配BEV特征与所述当前帧第一阶段3D目标检测框对应的BEV特征进行融合。

对于上文描述的基于时序融合的3D目标检测方法S100，优选地，还包括：

S150、基于所述当前帧3D目标检测信息及所述前序帧3D目标检测信息中的3D目标检测框的置信度对所述前序帧3D目标检测信息进行更新以获得更新的前序帧3D目标检测信息以用于下一帧的3D目标检测。

图4是该实施方式的基于时序融合的3D目标检测方法的流程示意图。

在本公开的优选实施方式中，本公开上文描述的S150、基于所述当前帧3D目标检测信息及所述前序帧3D目标检测信息中的3D目标检测框的置信度对所述前序帧3D目标检测信息进行更新以获得更新的前序帧3D目标检测信息以用于下一帧的3D目标检测，包括：

对所述当前帧3D目标检测框集合及其对应的BEV特征和所述前序帧3D目标检测框集合及其对应的BEV特征进行置信度排序，取预设数量(topN)的3D目标检测框集合及其对应的BEV特征作为新的前序帧3D目标检测信息以用于下一帧的3D目标检测。

其中，在对所述前序帧3D目标检测信息进行更新的过程中，还基于NMS(Non-Maximum Suppression)算法对不同的预测类别进行过滤处理。

本实施方式中，更新历史检测信息Box_t-1和BEV_t-1，将前序帧预测信息和当前帧预测信息集合{Box_t-1，Box_t}，由置信度进行降序排列，并采用NMS对不同预测类进行过滤，最后选取topN的Box更新为Box_t-1，并将对应的BEV特征进行更新。可以采用以下公式：

Box_set＝descending_by_score({Box_t-1，Box_t}，{BEV_t-1，BEV_t}) (7)

(Box_t-1，BEV_t-1)＝topN(NMS(Box_set)) (8)

在本公开的一些实施方式中，本公开的基于时序融合的3D目标检测方法S100的步骤S110中，在获取当前帧二维图像数据(车载相机图像数据)的过程中，还获取当前帧二维图像数据对应的三维点云数据(激光雷达点云数据)；本公开的3D目标检测方法还包括：S160、基于当前帧二维图像数据及其对应的三维点云数据生成点云3D伪标签以用于对所述当前帧3D目标检测信息进行弱监督。

优选地，在本公开的一些实施方式中，本公开上文描述的基于当前帧二维图像数据及其对应的三维点云数据生成点云3D伪标签，包括：

S161、对当前帧二维图像数据(车载相机图像数据)进行2D检测(现有的2D检测模型)以提取图像2D伪标签。

S162、基于提取的所述图像2D伪标签对当前帧二维图像数据对应的三维点云数据进行点集聚类，以获得点云3D伪标签。

优选地，上文描述的基于当前帧二维图像数据及其对应的三维点云数据生成点云3D伪标签以用于对所述当前帧3D目标检测信息进行监督，包括：

S163、基于所述点云3D伪标签和所述当前帧3D目标检测框集合计算3D检测框损失和时序融合损失(分类损失)，获得总损失，以进行所述弱监督。

图6是该实施方式的基于时序融合的3D目标检测方法的流程示意图。

本实施方式中，车载相机图像数据经过2D检测器/2D分割器(可以采用现有的2D检测器/2D分割器)，生成2D伪标签(2D pseudo label)。本公开示例性地采用在COCO数据集上预训练的MaskRCNN提取2D伪标签，也可使用SAM(Segment Anything Model)进行图像分割，提取伪标签。例如下式所示：

2D pseudo label＝D/S(I_t) (9)

其中，D/S为使用的2D检测器或2D分割器，I_t为时刻t所对应的2D图像数据。

接下来，将当前帧对应的点云数据投影到图像平面(通过相机外参和相机内参)，2D pseudo label范围内的点集，记为P_3D，经DBSCAN/HDBSCAN(示例性地)聚类，将样本数最多的点集经后处理即将样本数最多的类作为点云的实例分割结果，取外包围框作为3D伪标签，从而获得3D伪标签(3D pseudo label)。

接下来，计算网络损失。本公开中，网络损失主要包含两部分：3D检测框损失和时序融合损失。

3D检测框损失：其中的为预测的3D检测框信息，每个检测框预测结果表示为(x，y，z，w，h，l，yaw,vel_x，vel_y，score，label)，其中(x，y，z)为物体中心，(w，h,l)为维度信息，yaw,vel_x，vel_y分别为偏航角和速度，score为确定为前景物体置信度，label为预测的属性类别。

B_pred与3D pseudo label，记为B_3d。两者根据score(得分)和IoU(交并比)进行二分匹配，最后计算损失。可以采用以下公式：

matched(B_3d，B_pred)＝BM(B_3d，B_pred) (10)

Loss_det＝λ₁BCELoss(D_gt，D)+FocalLoss(HeatMap_gt，HeatMap_pred)+λ₂L1Loss(matched(B_3d，B_pred)) (11)

其中，BM代指二分匹配(binary matching)，检测损失Loss_det包含深度预测损失、BEV特征损失和3D检测框损失三部分，其中，λ为平衡因子。本公开示例性地取λ₁＝0.2，λ₂＝0.25。

时序融合损失(TF，Temporal Fusion)：时序融合损失包含目标物体中心损失和目标物体尺寸损失两部分。

其中，和/>为上文得到的当前帧3D目标检测结果和前序帧3D目标检测结果的配对，其中，物体中心损失可以使用均方误差损失(MSELoss)，即L2损失；物体尺寸损失可以采用L1损失。

总体网络损失如下式所示：

loss＝Loss_det+βLoss_TF (13)

本公开中，β示例性地取0.1。

综上所述，本公开提出的基于时序融合的3D目标检测方法，通过估计检测目标的在相邻帧的运动位移，消除运动物体在不同帧之间的特征偏移，能有效地缓解由于观测目标运动导致的特征不匹配问题；采用中期融合(特征融合)方式，即只保留前景物体相关的BEV特征，用于时序融合阶段，只保留前序帧部分高置信度的预测目标的BEV特征，并进行迭代更新，避免了普遍的BEV历史特征采样操作，减少了对历史特征的存储，加快了特征融合速度；通过2D检测器对图像进行检测或分割，得到2D伪标签，并结合点云信息和相机内外参，得到检测目标的3D伪标签，实现了弱监督3D检测，无需人工标注信息。

基于上文描述的3D目标检测方法，本公开还提供了基于时序融合的3D目标检测装置1000，包括：

数据获取模块1002，所述数据获取模块1002获取当前帧二维图像数据。

第一3D目标检测模块1004，所述第一3D目标检测模块1004对所述当前帧二维图像数据进行3D目标检测框预测，以获得当前帧第一阶段3D目标检测信息。

目标运动检测模块1006，所述目标运动检测模块1006(也即运动估计模块)基于前序帧3D目标检测信息和当前帧第一阶段3D目标检测信息获得当前帧中历史3D目标。

时序融合模块1008，所述时序融合模块1008基于所述历史3D目标运动位移判断前序帧3D目标检测信息和当前帧3D目标检测信息的匹配程度以融合当前帧第一阶段3D目标检测信息和前序帧3D目标检测信息以获得当前帧第二阶段3D目标检测信息作为时序融合后的当前帧3D目标检测信息。

在本公开的一些实施方式中，本公开的基于时序融合的3D目标检测装置1000还包括：

变换矩阵生成模块1010，所述变换矩阵生成模块1010获取当前帧本车坐标系位姿至前序帧本车坐标系位姿的第一变换矩阵。

前序帧3D目标检测信息更新模块1012，所述前序帧3D目标检测信息更新模块1012基于所述当前帧3D目标检测信息及所述前序帧3D目标检测信息中的3D目标检测框的置信度对所述前序帧3D目标检测信息进行更新以获得更新的前序帧3D目标检测信息。

点云3D伪标签生成模块1014，所述点云3D伪标签生成模块1014基于当前帧二维图像数据及其对应的三维点云数据生成点云3D伪标签。

弱监督模块1016，所述弱监督模块1016基于所述点云3D伪标签和所述当前帧3D目标检测框集合计算3D检测框损失和时序融合损失(分类损失)，获得总损失，以进行所述弱监督。

该3D目标检测装置可以包括执行上述流程图中各个或几个步骤的相应模块。因此，可以由相应模块执行上述流程图中的每个步骤或几个步骤，并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。

该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器，这取决于硬件的特定应用和总体设计约束。总线1100将包括一个或多个处理器1200、存储器1300和/或硬件模块的各种电路连接到一起。总线1100还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其他电路1400连接。

总线1100可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，Peripheral Component)总线或扩展工业标准体系结构(EISA，Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，该图中仅用一条连接线表示，但并不表示仅有一根总线或一种类型的总线。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如，本公开中的方法实施方式可以被实现为软件程序，其被有形地包含于机器可读介质，例如存储器。在一些实施方式中，软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时，可以执行上文描述的方法中的一个或多个步骤。备选地，在其他实施方式中，处理器可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法之一。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，可以具体实现在任何可读存储介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

就本说明书而言，“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在存储器中。

应当理解，本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，程序可以存储于一种可读存储介质中，该程序在执行时，包括方法实施方式的步骤之一或其组合。

此外，在本公开各个实施方式中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个可读存储介质中。存储介质可以是只读存储器，磁盘或光盘等。

本公开还提供了一种电子设备，包括：存储器，存储器存储执行指令；以及处理器或其他硬件模块，处理器或其他硬件模块执行存储器存储的执行指令，使得处理器或其他硬件模块执行上述的3D目标检测方法。

本公开还提供了一种可读存储介质，可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现上述的3D目标检测方法。

在本说明书的描述中，参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中，对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本公开的范围内。

Claims

1.一种基于时序融合的3D目标检测方法，其特征在于，包括：

获取当前帧二维图像数据；

基于前序帧3D目标检测信息和当前帧第一阶段3D目标检测信息获得当前帧中历史3D目标运动位移；以及

2.根据权利要求1所述的基于时序融合的3D目标检测方法，其特征在于，还包括：获取当前帧本车坐标系位姿至前序帧本车坐标系位姿的第一变换矩阵；

3.根据权利要求2所述的基于时序融合的3D目标检测方法，其特征在于，所述当前帧第一阶段3D目标检测信息包括：当前帧第一阶段3D目标检测框集合和各个当前帧第一阶段3D目标检测框对应的BEV特征；所述前序帧3D目标检测信息包括：前序帧3D目标检测框集合及其对应的BEV特征；

对前序帧3D目标检测框对应的历史3D目标位置进行基于帧间时间差的运动位移预测，以获得当前帧时刻的历史3D目标预测位置；以及

4.根据权利要求3所述的基于时序融合的3D目标检测方法，其特征在于，基于所述历史3D目标运动位移判断前序帧3D目标检测信息和当前帧3D目标检测信息的匹配程度，以融合当前帧第一阶段3D目标检测信息和前序帧3D目标检测信息以获得当前帧第二阶段3D目标检测信息作为时序融合后的当前帧3D目标检测信息，包括：

基于当前帧第一阶段3D目标检测框的预测类别和所述当前帧中历史3D目标预测位置获取所述当前帧中历史3D目标预测位置的空间邻域内与所述当前帧第一阶段3D目标检测框匹配的前序帧3D目标检测框匹配集合及其对应的BEV特征匹配集合；以及

5.根据权利要求4所述的基于时序融合的3D目标检测方法，其特征在于，将所述BEV特征匹配集合中的最匹配BEV特征与所述当前帧第一阶段3D目标检测框对应的BEV特征进行特征融合获得BEV融合特征，包括：

6.根据权利要求1至5中任一项所述的基于时序融合的3D目标检测方法，其特征在于，还包括：

基于所述当前帧3D目标检测信息及所述前序帧3D目标检测信息中的3D目标检测框的置信度对所述前序帧3D目标检测信息进行更新以获得更新的前序帧3D目标检测信息以用于下一帧的3D目标检测。

7.根据权利要求1至6中任一项所述的基于时序融合的3D目标检测方法，其特征在于，基于所述当前帧3D目标检测信息及所述前序帧3D目标检测信息中的3D目标检测框的置信度对所述前序帧3D目标检测信息进行更新以获得更新的前序帧3D目标检测信息以用于下一帧的3D目标检测，包括：

对所述当前帧3D目标检测框集合及其对应的BEV特征和所述前序帧3D目标检测框集合及其对应的BEV特征进行置信度排序，取预设数量的3D目标检测框集合及其对应的BEV特征作为新的前序帧3D目标检测信息以用于下一帧的3D目标检测；

可选地，在对所述前序帧3D目标检测信息进行更新的过程中，基于NMS算法对不同的预测类别进行过滤处理；

可选地，获取当前帧二维图像数据的过程中，还获取当前帧二维图像数据对应的三维点云数据；

所述3D目标检测方法还包括：

基于当前帧二维图像数据及其对应的三维点云数据生成点云3D伪标签以用于对所述当前帧3D目标检测信息进行弱监督；

可选地，基于当前帧二维图像数据及其对应的三维点云数据生成点云3D伪标签，包括：

对当前帧二维图像数据进行2D检测以提取图像2D伪标签；以及

基于提取的所述图像2D伪标签对当前帧二维图像数据对应的三维点云数据进行点集聚类，以获得点云3D伪标签；

可选地，基于当前帧二维图像数据及其对应的三维点云数据生成点云3D伪标签以用于对所述当前帧3D目标检测信息进行监督，包括：

8.一种基于时序融合的3D目标检测装置，其特征在于，包括：

目标运动检测模块，所述目标运动检测模块基于前序帧3D目标检测信息和当前帧第一阶段3D目标检测信息获得当前帧中历史3D目标运动位移；以及

时序融合模块，所述时序融合模块基于所述历史3D目标运动位移判断前序帧3D目标检测信息和当前帧3D目标检测信息的匹配程度以融合当前帧第一阶段3D目标检测信息和前序帧3D目标检测信息以获得当前帧第二阶段3D目标检测信息作为时序融合后的当前帧3D目标检测信息；

可选地，还包括：

变换矩阵生成模块，所述变换矩阵生成模块获取当前帧本车坐标系位姿至前序帧本车坐标系位姿的第一变换矩阵；

可选地，还包括：

前序帧3D目标检测信息更新模块，所述前序帧3D目标检测信息更新模块基于所述当前帧3D目标检测信息及所述前序帧3D目标检测信息中的3D目标检测框的置信度对所述前序帧3D目标检测信息进行更新以获得更新的前序帧3D目标检测信息；

可选地，还包括：

点云3D伪标签生成模块，所述点云3D伪标签生成模块基于当前帧二维图像数据及其对应的三维点云数据生成点云3D伪标签；

可选地，还包括：

弱监督模块，所述弱监督模块基于所述点云3D伪标签和所述当前帧3D目标检测框集合计算3D检测框损失和时序融合损失，获得总损失，以进行所述弱监督。

9.一种电子设备，其特征在于，包括：

存储器，所述存储器存储执行指令；以及

处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行权利要求1至7中任一项所述的3D目标检测方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现权利要求1至7中任一项所述的3D目标检测方法。