CN117333524A

CN117333524A - 三维目标检测方法、装置和设备

Info

Publication number: CN117333524A
Application number: CN202311395636.6A
Authority: CN
Inventors: 温子腾; 屈方; 徐海; 胡金水; 郭涛; 殷兵
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2023-10-24
Filing date: 2023-10-24
Publication date: 2024-01-02

Abstract

本发明提供一种三维目标检测方法、装置和设备，该方法包括：获取多个相机所拍摄的环视图像；根据第一环视图像和第二环视图像之间的代价矩阵，确定第一环视图像上的像素点和所匹配的第二环视图像上的像素点的视差；第一环视图像和第二环视图像为多个相机所拍摄的环视图像中存在重叠区域的任意两个环视图像；根据第一环视图像上的像素点和所匹配的第二环视图像上的像素点的视差，确定第一环视图像上的像素点和所匹配的第二环视图像上的像素点的深度信息；根据深度信息和目标检测模型，得到三维目标检测结果。本发明的方法通过充分利用多视角信息从而准确地确定出每个像素点的深度值，有效地提升了深度预测的准确性以及目标检测性能。

Description

三维目标检测方法、装置和设备

技术领域

本发明涉及图像处理技术领域，尤其涉及一种三维目标检测方法、装置和设备。

背景技术

基于相机的三维目标检测因其视觉传感器的稳定性和低成本而备受关注。尽管在这个领域中，基于相机的方法已经取得了显著的突破，然而与基于激光雷达(LiDAR)的方法相比，仍然存在一些实质性的性能差距。这种差距的主要根源在于一个广泛被认知的问题，即基于相机感知深度的不适定性。

相关技术中，多视图检测器通过模型的拟合预测视场(FOV)中每个点的离散深度分布，实现了将特征表示映射到鸟瞰图(BEV)地图的能力。但通过模型的拟合无法准确地估计检测目标对应的深度信息，从而导致三维目标检测的准确性较低。

发明内容

针对现有技术中的问题，本发明实施例提供一种三维目标检测方法、装置和设备。

具体地，本发明实施例提供了以下技术方案：

第一方面，本发明实施例提供了一种三维目标检测方法，包括：

获取多个相机所拍摄的环视图像；

根据第一环视图像和第二环视图像之间的代价矩阵，确定第一环视图像上的像素点和所匹配的第二环视图像上的像素点的视差；代价矩阵用于确定第一环视图像上的像素点和第二环视图像上的像素点的匹配关系；第一环视图像和第二环视图像为多个相机所拍摄的环视图像中存在重叠区域的任意两个环视图像；

根据第一环视图像上的像素点和所匹配的第二环视图像上的像素点的视差，确定第一环视图像上的像素点和所匹配的第二环视图像上的像素点的深度信息；

根据深度信息和目标检测模型，得到三维目标检测结果。

进一步地，第一环视图像和第二环视图像为多个相机所拍摄的环视图像中存在重叠区域的任意两个环视图像，包括：

第一环视图像和第二环视图像为多个相机在同一时刻所拍摄的多个环视图像中存在重叠区域的任意两个环视图像；和/或，

第一环视图像和第二环视图像为多个相机在不同时刻所拍摄的多个环视图像中存在重叠区域的任意两个环视图像。

进一步地，对第二环视图像中的像素点进行均匀采样，获取第二环视图像中的N个候选像素点；

根据第一环视图像中的像素点与各候选像素点间的匹配价值，从N个候选像素点中确定M个目标像素点；M小于N；

将M个目标像素点所对应的像素点区域中的像素点进行采样，得到第二环视图像中的像素点的采样结果；

根据第一环视图像中的像素点和对应的第二环视图像中的像素点的采样结果，建立第一环视图像和第二环视图像之间的代价矩阵。

进一步地，根据深度信息和目标检测模型，得到三维目标检测结果，包括：

根据深度信息，得到目标环视图像的BEV特征；目标环视图像包括第一环视图像和第二环视图像；

将目标环视图像的BEV特征和雷达点云的BEV特征进行融合，得到多模态BEV特征；雷达点云的BEV特征与目标环视图像的BEV特征为同一空间区域所对应的BEV特征；

根据多模态BEV特征和目标检测模型，得到三维目标检测结果。

进一步地，根据多模态BEV特征和目标检测模型，得到三维目标检测结果，包括：

将当前时刻的多模态BEV特征、历史时刻的多模态BEV特征输入目标检测模型，得到三维目标检测结果。

将当前时刻的目标环视图像的BEV特征、历史时刻的目标环视图像的BEV特征输入目标检测模型，得到三维目标检测结果；三维目标检测结果包括检测物体的运动信息。

第二方面，本发明实施例还提供了一种三维目标检测装置，包括：

获取模块，用于获取多个相机所拍摄的环视图像；

第一确定模块，用于根据第一环视图像和第二环视图像之间的代价矩阵，确定第一环视图像上的像素点和所匹配的第二环视图像上的像素点的视差；代价矩阵用于确定第一环视图像上的像素点和第二环视图像上的像素点的匹配关系；第一环视图像和第二环视图像为多个相机所拍摄的环视图像中存在重叠区域的任意两个环视图像；

第二确定模块，用于根据第一环视图像上的像素点和所匹配的第二环视图像上的像素点的视差，确定第一环视图像上的像素点和所匹配的第二环视图像上的像素点的深度信息；

检测模块，用于根据深度信息和目标检测模型，得到三维目标检测结果。

第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述三维目标检测方法。

第四方面，本发明实施例还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述三维目标检测方法。

第五方面，本发明实施例还提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如第一方面所述三维目标检测方法。

本发明实施例提供的三维目标检测方法、装置和设备，通过获取存在重叠区域的第一环视图像和第二环视图像，并根据第一环视图像和第二环视图像之间的代价矩阵，确定第一环视图像和第二环视图像中的各个像素点的深度信息，也就是通过充分利用多视角信息从而准确地确定出每个像素点的深度值，有效地提升了深度预测的准确性以及目标检测性能。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的三维目标检测方法的流程示意图；

图2是本发明实施例提供的同一位置点通过不同位置的相机拍摄的图像之间的关联关系；

图3是本发明实施例提供的多帧数据融合的示意图；

图4是本发明实施例提供的三维目标检测方法的另一流程示意图；

图5是本发明实施例提供的三维目标检测装置的结构示意图；

图6是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例的方法可以应用于自动驾驶场景中，通过充分利用多视角信息从而准确地确定出每个像素点的深度值，有效地提升了深度预测的准确性以及目标检测性能。

本发明实施例的三维目标检测方法，通过获取存在重叠区域的第一环视图像和第二环视图像，并根据第一环视图像和第二环视图像之间的代价矩阵，确定第一环视图像和第二环视图像中的各个像素点的深度信息，也就是通过充分利用多视角信息从而准确地确定出每个像素点的深度值，有效地提升了深度预测的准确性以及目标检测性能。

为了便于更加清晰地理解本申请各实施例的技术方案，首先对本申请各实施例相关的一些技术内容进行介绍。

相关技术中，基于相机的3D目标检测因其视觉传感器的稳定性和低成本而备受关注。尽管在这个领域中，基于相机的方法已经取得了显著的突破，然而与基于激光雷达(LiDAR)的方法相比，仍然存在一些实质性的性能差距。这种差距的主要根源在于一个广泛被认知的问题，即基于相机感知深度的不适定性。目前的多视图检测器通过预测视场(FOV)中每个点的离散深度分布，实现了将特征表示映射到鸟瞰图(BEV)地图的能力。

当前，单帧模型仍然是主流的目标检测方法。例如detr3d模型，通过查询(query)生成空间点的投影回图像中获取特征，从而隐式地创建了鸟瞰图特征。而LSS模型通过将空间视锥投影回图像中，从而显式创建了BEV特征。同时，Petr模型则通过利用空间视锥作为先验，以获得空间信息并建立BEV特征。目前，单帧模型在深度预测方面通常通过对数据进行拟合来实现，但通过模型的拟合无法准确地估计检测目标对应的深度信息，从而导致三维目标检测的准确性较低。

下面结合图1-图6以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1是本发明实施例提供的三维目标检测方法一实施例的流程示意图。如图1所示，本实施例提供的方法，包括：

步骤101、获取多个相机所拍摄的环视图像；

具体地，相关技术中，多视图检测器通过模型的拟合预测视场(FOV)中每个点的离散深度分布，实现了将特征表示映射到鸟瞰图(BEV)地图的能力。但通过模型的拟合无法准确地估计检测目标对应的深度信息，从而导致三维目标检测的准确性较低。

为了解决上述问题，本申请实施例中首先获取多个相机所拍摄的环视图像。例如，获取自动驾驶车辆上的6台车载相机在t时刻拍摄的6张不同视角的环视图像。

步骤102、根据第一环视图像和第二环视图像之间的代价矩阵，确定第一环视图像上的像素点和所匹配的第二环视图像上的像素点的视差；代价矩阵用于确定第一环视图像上的像素点和第二环视图像上的像素点的匹配关系；第一环视图像和第二环视图像为多个相机所拍摄的环视图像中存在重叠区域的任意两个环视图像；

具体地，在获取多个相机所拍摄的环视图像之后，本申请实施例中根据第一环视图像和第二环视图像之间的代价矩阵，确定出与第一环视图像上的像素点所匹配的第二环视图像上的像素点，进而也就可以计算出第一环视图像上的像素点和所匹配的第二环视图像上的像素点的视差。其中，第一环视图像上的像素点和所匹配的第二环视图像上的像素点对应于三维空间中的同一点。可选地，可以基于双目立体匹配方法，构建第一环视图像和第二环视图像之间的代价矩阵。

例如，自动驾驶车辆上的6台车载相机在t时刻拍摄了6张不同视角的环视图像；可选地，可以根据环视图像之间的实际重叠情况，确定第一环视图像和第二环视图像。如将第1台车载相机拍摄的环视图像作为第一环视图像、将第2台车载相机拍摄的环视图像作为第二环视图像；将第2台车载相机拍摄的环视图像作为第一环视图像、将第3台车载相机拍摄的环视图像作为第二环视图像；将第3台车载相机拍摄的环视图像作为第一环视图像、将第4台车载相机拍摄的环视图像作为第二环视图像；将第4台车载相机拍摄的环视图像作为第一环视图像、将第5台车载相机拍摄的环视图像作为第二环视图像；将第5台车载相机拍摄的环视图像作为第一环视图像、将第6台车载相机拍摄的环视图像作为第二环视图像；其中，第一环视图像和第二环视图像之间存在重叠区域。

步骤103、根据第一环视图像上的像素点和所匹配的第二环视图像上的像素点的视差，确定第一环视图像上的像素点和所匹配的第二环视图像上的像素点的深度信息；

具体地，在根据第一环视图像和第二环视图像之间的代价矩阵，确定第一环视图像上的像素点和所匹配的第二环视图像上的像素点的视差之后，就可以根据第一环视图像上的像素点和所匹配的第二环视图像上的像素点的视差，确定第一环视图像上的像素点和所匹配的第二环视图像上的像素点的深度信息，精确地确定出每个像素点的深度值，大幅提高了深度预测的准确性。

例如，物理上同一位置点通过不同位置的相机拍摄的图像存在的关联关系如图2所示：

进而基于上述关系就可以确定第一环视图像中的像素点和第二环视图像中对应像素点的视差信息以及环视图像中的各个像素点的深度信息，达到了精确地确定出每个像素点的深度值的效果。

步骤104、根据像素点的深度信息和目标检测模型，得到三维目标检测结果。

具体地，在根据第一环视图像上的像素点和所匹配的第二环视图像上的像素点的视差，确定第一环视图像上的像素点和所匹配的第二环视图像上的像素点的深度信息之后，就可以根据像素点的深度信息和目标检测模型，得到三维目标检测结果；可选地，可以将像素点的深度信息以及图像特征信息输入至目标检测模型，生成BEV特征，进而根据BEV特征也就可以得到目标检测结果。相较于现有技术中仅将特征投影到BEV空间的传统方法，本申请实施例中通过充分利用多视角信息从而准确地确定深度信息，有效地提升了目标检测性能。

需要说明的是，在现有的目标检测任务中，采用单帧方式将环视图像特征投影到鸟瞰图(BEV)空间，以实现深度预测。然而，由于投影关系的限制，预测像素的深度变得更加复杂和困难。传统方法通常仅依赖深度学习预测一条射线上所有点的深度概率，而忽略了环视图像之间的内在联系。而本申请实施例通过充分利用多视角信息，基于双目立体匹配方法构建了环视图像之间的深度代价矩阵，从而实现了更准确的图像像素深度预测。本申请实施例中通过引入双目立体匹配方法，可以更全面地利用环视图像的信息，捕捉到目标在不同视角下的深度变化，从而能够更精确地确定出每个像素的深度值，大幅提高了深度预测的准确性。

上述实施例的方法，通过获取存在重叠区域的第一环视图像和第二环视图像，并根据第一环视图像和第二环视图像之间的代价矩阵，确定第一环视图像和第二环视图像中的各个像素点的深度信息，也就是通过充分利用多视角信息从而准确地确定出每个像素点的深度值，有效地提升了深度预测的准确性以及目标检测性能。

在一实施例中，第一环视图像和第二环视图像为多个相机所拍摄的环视图像中存在重叠区域的任意两个环视图像，包括：

具体地，本申请实施例中通过充分利用多视角信息从而准确地确定出每个像素点的深度值，有效地提升了深度预测的准确性以及目标检测性能。可选地，本申请实施例中可以利用同一帧内存在重叠区域的第一环视图像和第二环视图像之间的内在联系进行深度信息的预测，也可以利用不同帧内存在重叠区域的第一环视图像和第二环视图像之间的内在联系进行深度信息的预测。也就是本申请实施例在前后帧的环视图像存在视野交叉区域的情况下中充分利用了时序信息的融合。例如，t时刻车头的摄像头拍摄的图像区域和t+1时刻车尾的摄像头拍摄的区域可能会存在重叠区域；也就是t帧的front帧与t+1帧的back帧共享相同的视野区域；通过将这种立体匹配的监督信息在时序上进行合理利用，从而进一步增强了深度预测的精确性和稳定性。通过这一创新性的深度预测方法以及对时序信息的融合，不仅在深度预测准确性方面取得了显著提升，还为目标检测任务提供了更可靠和全面的数据支持，也就能够更好地理解目标的三维空间位置。

上述实施例的方法，不仅利用同一帧内存在重叠区域的第一环视图像和第二环视图像之间的内在联系进行深度信息的预测；还充分利用时序信息的融合，在前后帧的环视图像存在视野交叉区域的情况下，利用不同帧内存在重叠区域的第一环视图像和第二环视图像之间的内在联系进行深度信息的预测，不仅在深度预测准确性方面取得了显著提升，还为目标检测任务提供了更可靠和全面的数据支持，从而也就可以更好地理解目标的三维空间位置。

在一实施例中，三维目标检测方法还包括：

对第二环视图像中的像素点进行均匀采样，获取第二环视图像中的N个候选像素点；

具体地，本申请实施例中根据第一环视图像和第二环视图像之间的代价矩阵，确定第一环视图像和第二环视图像中的各个像素点的深度信息，进而也就可以根据像素点的深度信息和目标检测模型，得到三维目标检测结果。可选地，为了更加高效地利用计算资源，减少深度预测过程中计算量的巨大开销，本申请实施例中在基于双目立体匹配方法，构建第一环视图像和第二环视图像之间的代价矩阵的过程中，第一步先进行粗糙采样和匹配价值估计，也就是对第二环视图像中的像素点进行均匀采样，获取第二环视图像中的N个候选像素点，通过均匀采样的方式获取像素点之间的匹配价值，这有助于获得像素点可能的深度范围，通过初始的N个采样点，可以得到相对可能的深度区间，也就确定了深度估计的粗糙范围。然后第二步进行区域筛选与精细采样，根据第一环视图像中的像素点与候选像素点间的匹配价值，从N个候选像素点中确定M个目标像素点；根据M个目标像素点所对应的像素点区域中的采样像素点，建立第一环视图像和第二环视图像之间的代价矩阵；可选地，可以基于初始的匹配价值估计，只保留可能的两个端点区域，从而可以进一步缩小深度估计的范围。可选地，针对这两个端点区域，可以采用密集型采样，获得更为精细的深度值。也就是通过粗糙采样、筛选和精细采样的过程，可以获取到更加有针对性的采样点，从而在基于双目立体匹配方法构建第一环视图像和第二环视图像之间的代价矩阵的过程中，可以实现在降低计算负担的同时，有效地提升了深度预测的效率和准确性。

上述实施例的方法，通过粗糙采样、筛选和精细采样的过程，可以获取到更加有针对性的采样点，从而在基于双目立体匹配方法构建第一环视图像和第二环视图像之间的代价矩阵的过程中，更加高效地利用计算资源，有效地降低计算负担，减少计算量的巨大开销，提升了深度预测的效率和准确性。

在一实施例中，根据深度信息和目标检测模型，得到三维目标检测结果，包括：

具体地，为了提升模型的感知范围和目标检测能力，更好地应对物体遮挡和模糊等问题，进一步增强目标检测的稳健性，本申请实施例中将LiDAR的BEV特征图进行堆叠融合，进一步丰富了模型对多模态数据的理解能力，通过这种创新的数据融合策略，使得模型能够更好地利用多模态数据的融合信息，扩展感知范围，同时增强了对目标的检测和定位能力，提升目标检测的高效性和可靠性，能够为目标检测任务带来更高的精度和鲁棒性。可选地，在根据像素点的深度信息，得到环视图像的BEV特征之后，将环视图像的BEV特征和雷达点云的BEV特征进行融合，就可以得到多模态BEV特征。可选地，可以通过在LiDAR分支中创建鸟瞰图特征图，得到LiDAR的BEV特征，并将LiDAR的BEV特征与环视图像的BEV特征相结合，就可以得到多模态BEV特征，从而也就能够更加全面地捕捉物体的信息。

上述实施例的方法，将环视图像的BEV特征和雷达点云的BEV特征进行融合，就可以得到多模态BEV特征；进而根据多模态BEV特征也就可以提升模型的感知范围和目标检测能力，更加全面地捕捉物体的信息，更好地应对物体遮挡和模糊等问题，进一步增强目标检测的稳健性，为目标检测任务带来更高的精度和鲁棒性。

在一实施例中，根据多模态BEV特征和目标检测模型，得到三维目标检测结果，包括：

具体地，为了提升模型的感知范围和目标检测能力，更好地应对物体遮挡和模糊等问题，进一步增强目标检测的稳健性，如图3所示，本申请实施例中将LiDAR的BEV特征图进行堆叠融合的基础上，进一步将多帧数据进行融合，从而有效地捕捉多帧数据之间的关联信息，提升目标检测的精度和鲁棒性。可选地，在进行多帧数据融合的过程中，首先将多帧鸟瞰图(BEV)特征通过参数转换映射到当前车辆特征的空间，然后将它们简单地堆叠在一起。接着，通过卷积操作对这些堆叠的特征进行融合，从而高效地捕捉了多帧数据之间的关联信息。

上述实施例的方法，在将LiDAR的BEV特征图进行堆叠融合的基础上，进一步将多帧数据进行融合，从而有效地捕捉多帧数据之间的关联信息，提升目标检测的精度和鲁棒性。

具体地，本申请实施例中在得到环视图像的BEV特征之后，通过将当前时刻的环视图像的BEV特征、历史时刻的环视图像的BEV特征输入至目标检测模型，就可以得到包含了物体运动信息的目标检测结果。也就是本申请实施例中通过在更多的历史帧中堆叠BEV特征，从而不仅有效地解决了目标存在性问题，还能够推断出目标的运动速度。这是因为仅仅通过外参转换特征图，只能对齐静态物体，而对于动态物体，其自身的运动会引入一定的距离，从而导致难以真正将动态目标特征对齐。与其他方法预测物体的绝对距离和绝对速度不同，本申请实施例中关注的是相邻帧物体之间的相对速度和相对距离。通过预测相邻帧之间的相对速度和相对距离，能够更准确地捕捉物体的运动趋势，同时也降低了模型学习绝对速度的难度。通过对多帧特征进行堆叠，保留了目标随时间变化的信息，从而让网络能够感知目标的运动信息，实现了更全面的目标检测。具体而言，可以通过将多个历史帧的BEV特征堆叠在一起，从而在时间维度上构建了一个动态的特征表示。这种动态特征表示不仅能够反映目标的位置变化，还能够揭示出目标在一段时间内的运动趋势。通过对这些动态特征进行深入分析，模型可以推断出目标的运动速度、方向和加速度等关键信息，从而更准确地预测目标的行为和未来位置，更好地理解目标的运动特征。通过这种创新性的速度预测策略，不仅在目标存在性和位置预测方面取得了优势，还为目标的动态行为预测提供了更加可靠和精准的数据支持。

上述实施例的方法，通过将当前时刻的环视图像的BEV特征、历史时刻的环视图像的BEV特征进行融合，就可以保留目标随时间变化的信息，从而也就可以通过预测相邻帧之间的相对速度和相对距离，准确地捕捉物体的运动趋势，进而也就可以准确地推断出目标的运动速度、方向和加速度等关键信息，更准确地预测目标的行为和未来位置。通过本申请实施例的方法不仅在目标存在性和位置预测方面取得了优势，还为目标的动态行为预测提供了更加可靠和精准的数据支持。

示例性的，本申请实施例中的三维目标检测方法的具体流程如图4所示：

首先进行数据集的收集、标注以及数据预处理。

具体地，从现实场景中收集环视图像、LiDAR数据以及相应的标注信息，构建丰富多样的训练和评估数据集。这样的多源数据集为模型训练提供了丰富的数据源，使得模型可以从不同角度感知和理解目标；并通过先进的数据增强技术对数据进行预处理，增加图像数据的多样性和鲁棒性。随机裁剪、缩放、颜色抖动、翻转、旋转、仿射变换等操作，提升数据的多样性，使得模型能够适应不同场景的挑战。此外，引入高斯模糊、噪声、遮挡和扭曲等变换，模拟现实世界中的复杂情况，增强了模型的鲁棒性。动态数据增强技术引入了抖动和景深变化等动态因素，进一步提升了模型对动态场景的感知和检测能力。

然后，建立环视图代价矩阵。

具体地，通过先进的双目立体匹配方法，构建环视图像之间的深度代价矩阵。这一步骤包括将环视图像特征映射到不同视角的空间，建立视角之间的特征对应关系。通过相乘生成深度代价矩阵，更准确地推测每个像素的深度。在此基础上，结合LiDAR数据，将LiDAR点云映射到环视图像的BEV空间中，并计算LiDAR点云与深度代价矩阵之间的一致性，监督和优化深度预测模块。同时，前后帧的视野交叉区域也用于双目立体匹配的监督信息融合，提升深度预测的稳定性和准确性。

最后，进行多视角特征融合。

具体地，在当前阶段，主流的目标检测模型在融合多帧信息方面存在一些限制。举例来说，像bevformer这样的模型虽然能够融合一定数量的帧数，但仍受到一些复杂的限制，导致其融合方式既相对复杂，又不够高效。本申请实施例旨在通过探索更多帧的融合，从而提升模型的感知范围和目标检测能力。可选地，可以利用voxel pooling技术将代价特征点云转换为BEV特征图，为后续处理提供便捷的输入形式。外参矩阵将其他帧的BEV特征图转换到当前帧坐标系，实现多视角信息的融合。在LiDAR分支中，将LiDAR数据转化为BEV特征图，与camera分支的BEV特征图堆叠。将转换后的BEV特征图拼接，并通过卷积操作进行特征融合。这个融合过程将来自不同视角的信息结合在一起，进一步提升了模型对目标的检测和定位能力。

上述实施例的方法，在数据集收集和预处理的基础上，通过一系列创新性策略进一步优化了目标检测模型，实现了更精确的深度预测和多视角信息融合。本申请实施例采用了多目立体匹配的方法，利用环视图像来计算相邻图像之间的代价矩阵，从而推算出每个像素点的深度信息。这一方法的优势在于它能够更准确地捕捉目标的深度信息，提高了深度预测的可靠性和精度。与bevformer和petrv2等仅融合有限数据的方法相比，本方案力求尽可能地融合更多的数据，以达到更高的性能水平。通过充分地利用环视图像的数据和融合数据，从而能够更全面地感知目标周围的环境，提高目标检测的准确性和稳定性。

下面对本发明提供的三维目标检测装置进行描述，下文描述的三维目标检测装置与上文描述的三维目标检测方法可相互对应参照。

图5是本发明提供的三维目标检测装置的结构示意图。本实施例提供的三维目标检测装置，包括：

获取模块710，用于获取多个相机所拍摄的环视图像；

第一确定模块720，用于根据第一环视图像和第二环视图像之间的代价矩阵，确定第一环视图像上的像素点和所匹配的第二环视图像上的像素点的视差；代价矩阵用于确定第一环视图像上的像素点和第二环视图像上的像素点的匹配关系；第一环视图像和第二环视图像为多个相机所拍摄的环视图像中存在重叠区域的任意两个环视图像；

第二确定模块730，用于根据第一环视图像上的像素点和所匹配的第二环视图像上的像素点的视差，确定第一环视图像上的像素点和所匹配的第二环视图像上的像素点的深度信息；

检测模块740，用于根据深度信息和目标检测模型，得到三维目标检测结果。

可选地，第一环视图像和第二环视图像为多个相机在同一时刻所拍摄的多个环视图像中存在重叠区域的任意两个环视图像；和/或，

可选地，所述第一确定模块720，还用于：对第二环视图像中的像素点进行均匀采样，获取第二环视图像中的N个候选像素点；

可选地，所述检测模块740，具体用于：根据深度信息，得到目标环视图像的BEV特征；目标环视图像包括第一环视图像和第二环视图像；

可选地，所述检测模块740，具体用于：将当前时刻的多模态BEV特征、历史时刻的多模态BEV特征输入目标检测模型，得到三维目标检测结果。

本发明实施例的装置，其用于执行前述任一方法实施例中的方法，其实现原理和技术效果类似，此次不再赘述。

图6示例了一种电子设备的实体结构示意图，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行三维目标检测方法，该方法包括：获取多个相机所拍摄的环视图像；根据第一环视图像和第二环视图像之间的代价矩阵，确定第一环视图像上的像素点和所匹配的第二环视图像上的像素点的视差；代价矩阵用于确定第一环视图像上的像素点和第二环视图像上的像素点的匹配关系；第一环视图像和第二环视图像为多个相机所拍摄的环视图像中存在重叠区域的任意两个环视图像；根据第一环视图像上的像素点和所匹配的第二环视图像上的像素点的视差，确定第一环视图像上的像素点和所匹配的第二环视图像上的像素点的深度信息；根据深度信息和目标检测模型，得到三维目标检测结果。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的三维目标检测方法，该方法包括：获取多个相机所拍摄的环视图像；根据第一环视图像和第二环视图像之间的代价矩阵，确定第一环视图像上的像素点和所匹配的第二环视图像上的像素点的视差；代价矩阵用于确定第一环视图像上的像素点和第二环视图像上的像素点的匹配关系；第一环视图像和第二环视图像为多个相机所拍摄的环视图像中存在重叠区域的任意两个环视图像；根据第一环视图像上的像素点和所匹配的第二环视图像上的像素点的视差，确定第一环视图像上的像素点和所匹配的第二环视图像上的像素点的深度信息；根据深度信息和目标检测模型，得到三维目标检测结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的三维目标检测方法，该方法包括：获取多个相机所拍摄的环视图像；根据第一环视图像和第二环视图像之间的代价矩阵，确定第一环视图像上的像素点和所匹配的第二环视图像上的像素点的视差；代价矩阵用于确定第一环视图像上的像素点和第二环视图像上的像素点的匹配关系；第一环视图像和第二环视图像为多个相机所拍摄的环视图像中存在重叠区域的任意两个环视图像；根据第一环视图像上的像素点和所匹配的第二环视图像上的像素点的视差，确定第一环视图像上的像素点和所匹配的第二环视图像上的像素点的深度信息；根据深度信息和目标检测模型，得到三维目标检测结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种三维目标检测方法，其特征在于，包括：

获取多个相机所拍摄的环视图像；

根据第一环视图像和第二环视图像之间的代价矩阵，确定所述第一环视图像上的像素点和所匹配的第二环视图像上的像素点的视差；所述代价矩阵用于确定所述第一环视图像上的像素点和所述第二环视图像上的像素点的匹配关系；所述第一环视图像和所述第二环视图像为所述多个相机所拍摄的环视图像中存在重叠区域的任意两个环视图像；

根据所述第一环视图像上的像素点和所匹配的第二环视图像上的像素点的视差，确定所述第一环视图像上的像素点和所匹配的第二环视图像上的像素点的深度信息；

根据所述深度信息和目标检测模型，得到三维目标检测结果。

2.根据权利要求1所述的三维目标检测方法，其特征在于，所述第一环视图像和所述第二环视图像为所述多个相机所拍摄的环视图像中存在重叠区域的任意两个环视图像，包括：

所述第一环视图像和所述第二环视图像为所述多个相机在同一时刻所拍摄的多个环视图像中存在重叠区域的任意两个环视图像；和/或，

所述第一环视图像和所述第二环视图像为所述多个相机在不同时刻所拍摄的多个环视图像中存在重叠区域的任意两个环视图像。

3.根据权利要求2所述的三维目标检测方法，其特征在于，所述方法，还包括：

对所述第二环视图像中的像素点进行均匀采样，获取第二环视图像中的N个候选像素点；

根据所述第一环视图像中的像素点与各所述候选像素点间的匹配价值，从所述N个候选像素点中确定M个目标像素点；所述M小于N；

将所述M个目标像素点所对应的像素点区域中的像素点进行采样，得到第二环视图像中的像素点的采样结果；

根据所述第一环视图像中的像素点和对应的第二环视图像中的像素点的采样结果，建立第一环视图像和第二环视图像之间的代价矩阵。

4.根据权利要求1-3任一项所述的三维目标检测方法，其特征在于，所述根据所述深度信息和目标检测模型，得到三维目标检测结果，包括：

根据所述深度信息，得到目标环视图像的鸟瞰图BEV特征；所述目标环视图像包括所述第一环视图像和所述第二环视图像；

将所述目标环视图像的BEV特征和雷达点云的BEV特征进行融合，得到多模态BEV特征；所述雷达点云的BEV特征与所述目标环视图像的BEV特征为同一空间区域所对应的BEV特征；

根据所述多模态BEV特征和目标检测模型，得到三维目标检测结果。

5.根据权利要求4所述的三维目标检测方法，其特征在于，所述根据所述多模态BEV特征和目标检测模型，得到三维目标检测结果，包括：

将当前时刻的多模态BEV特征、历史时刻的多模态BEV特征输入所述目标检测模型，得到三维目标检测结果。

6.根据权利要求1-3任一项所述的三维目标检测方法，其特征在于，所述根据所述深度信息和目标检测模型，得到三维目标检测结果，包括：

根据所述深度信息，得到目标环视图像的BEV特征；所述目标环视图像包括所述第一环视图像和所述第二环视图像；

将当前时刻的目标环视图像的BEV特征、历史时刻的目标环视图像的BEV特征输入所述目标检测模型，得到三维目标检测结果；所述三维目标检测结果包括检测物体的运动信息。

7.一种三维目标检测装置，其特征在于，包括：

获取模块，用于获取多个相机所拍摄的环视图像；

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述的三维目标检测方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述的三维目标检测方法。