CN114708583A

CN114708583A - 目标物的检测方法、装置、设备及存储介质

Info

Publication number: CN114708583A
Application number: CN202210171913.4A
Authority: CN
Inventors: 郭湘; 何钦尧; 韩文韬; 乐然; 韩旭
Original assignee: Guangzhou Weride Technology Co Ltd
Current assignee: Guangzhou Weride Technology Co Ltd
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2022-07-05

Abstract

本发明涉及人工智能技术领域，公开了一种目标物的检测方法、装置、设备及存储介质，用于提高跨相机目标物检测的准确度。所述目标物的检测方法包括：对多个图像集中的每帧图像进行3D目标检测，得到每帧图像的多个目标物候选框，一个图像集对应一个相机，每个图像集包括相机采集的多帧图像；对多个图像集中的每帧图像进行3D空间特征提取，得到每帧图像对应的3D特征图；将每帧图像对应的3D特征图进行特征融合，得到目标融合特征图；从目标融合特征图中提取每帧图像的各目标物候选框对应的融合特征信息，并根据每帧图像的各目标物候选框对应的融合特征信息，对所有目标物候选框进行筛选，得到至少一个目标物检测框。

Description

目标物的检测方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种目标物的检测方法、装置、设备及存储介质。

背景技术

随着计算机视觉处理技术的发展，相机成为无人驾驶感知的重要传感元件，能够提供丰富的细节和纹理信息。

现有技术通常是基于图像视角本身，预测每个2D目标物在3D上的实际位置，但是在无人驾驶场景中，通常需要多个相机才能对目标物进行完整观测，并且需要多帧信息才能预测目标物的运动信息(如速度、加速度等)，因此，现有技术在处理跨相机的目标物检测时，存在准确率低的技术问题。

发明内容

本发明提供了一种目标物的检测方法、装置、设备及存储介质，用于提高跨相机目标物检测的准确度。

本发明第一方面提供了一种目标物的检测方法，包括：

对多个图像集中的每帧图像进行3D目标检测，得到每帧图像的多个目标物候选框，一个图像集对应一个相机，每个图像集包括相机采集的多帧图像；

对所述多个图像集中的每帧图像进行3D空间特征提取，得到每帧图像对应的3D特征图；

将每帧图像对应的3D特征图进行特征融合，得到目标融合特征图；

从所述目标融合特征图中提取每帧图像的各目标物候选框对应的融合特征信息，并根据每帧图像的各目标物候选框对应的融合特征信息，对所有目标物候选框进行筛选，得到至少一个目标物检测框。

可选的，在本发明第一方面的第一种实现方式中，所述对所述多个图像集中的每帧图像进行3D空间特征提取，得到每帧图像对应的3D特征图，包括：

对所述多个图像集中的每帧图像进行3D空间转换，得到每帧图像对应的3D空间图；

获取每帧图像对应的目标特征信息，并将每帧图像对应的目标特征信息投影至所述每帧图像对应的3D空间图，得到每帧图像对应的3D特征图。

可选的，在本发明第一方面的第二种实现方式中，所述对所述多个图像集中的每帧图像进行3D空间转换，得到每帧图像对应的3D空间图，包括：

对所述多个图像集中的每帧图像进行逐像素的深度估计，得到每帧图像对应的3D空间图，每帧图像对应的3D空间图中每个3D点对应一个3D空间坐标信息。

可选的，在本发明第一方面的第三种实现方式中，所述获取每帧图像对应的目标特征信息，并将每帧图像对应的目标特征信息投影至所述每帧图像对应的3D空间图，得到每帧图像对应的3D特征图，包括：

读取每帧图像对应的目标特征信息，所述每帧图像对应的目标特征信息包括每帧图像的激光雷达特征信息、毫米波雷达特征信息、超声波特征信息和图像特征信息中的至少一项；

获取特征坐标信息，所述特征坐标信息用于指示每帧图像对应的目标特征信息在对应帧图像中的坐标信息；

根据所述特征坐标信息，将每帧图像对应的目标特征信息映射至对应的3D空间图，得到每帧图像对应的3D特征图。

可选的，在本发明第一方面的第四种实现方式中，所述将每帧图像对应的3D特征图进行特征融合，得到目标融合特征图，包括：

将所有图像集中同一帧图像对应的3D特征图进行鸟瞰图特征合成，得到相同序列帧图像对应的鸟瞰特征图；

将相同序列帧图像对应的鸟瞰特征图进行特征叠加，得到目标融合特征图。

可选的，在本发明第一方面的第五种实现方式中，所述将每帧图像对应的3D特征图进行特征融合，得到目标融合特征图，还包括：

将各图像集中每帧图像对应的3D特征图进行特征叠加，得到各图像集对应的初始融合特征图；

将所有图像集对应的初始融合特征图进行鸟瞰图特征合成，得到目标融合特征图。

可选的，在本发明第一方面的第六种实现方式中，所述将各图像集中每帧图像对应的3D特征图进行特征叠加，得到各图像集对应的初始融合特征图，包括：

根据各帧图像采集时的车辆位姿信息，对各图像集中每帧图像对应的3D特征图进行3D点对齐变换，得到各图像集中每帧图像对应的对齐特征图；

将各图像集中每帧图像对应的对齐特征图进行逐3D点特征叠加，得到各图像集对应的初始融合特征图。

可选的，在本发明第一方面的第七种实现方式中，所述将所有图像集对应的初始融合特征图进行鸟瞰图特征合成，得到目标融合特征图，包括：

对各图像集对应的初始融合特征图进行相同3D点检测，得到鸟瞰图拼接位置信息；

根据所述鸟瞰图拼接位置信息，对各图像集对应的初始融合特征图进行相同3D点的特征叠加和拼接，得到目标融合特征图。

可选的，在本发明第一方面的第八种实现方式中，所述对多个图像集中的每帧图像进行3D目标检测，得到每帧图像的多个目标物候选框，包括：

通过预置的单目3D目标检测算法，对多个图像集中的每帧图像进行2D检测框生成和3D检测框回归，得到每帧图像的多个目标物候选框。

可选的，在本发明第一方面的第九种实现方式中，所述从所述目标融合特征图中提取每帧图像的各目标物候选框对应的融合特征信息，并根据每帧图像的各目标物候选框对应的融合特征信息，对所有目标物候选框进行筛选，得到至少一个目标物检测框，包括：

根据每帧图像的各目标物候选框对应的3D空间坐标信息，从所述目标融合特征图提取每帧图像的各目标物候选框对应的融合特征信息；

通过预置的自注意力机制对每帧图像的各目标物候选框对应的融合特征信息进行目标物信息预测，得到每帧图像的各目标物候选框对应的目标物信息；

根据每帧图像的各目标物候选框对应的目标物信息对所有目标物候选框进行目标物筛选，得到至少一个目标物检测框。

本发明第二方面提供了一种目标物的检测装置，包括：

检测模块，用于对多个图像集中的每帧图像进行3D目标检测，得到每帧图像的多个目标物候选框，一个图像集对应一个相机，每个图像集包括相机采集的多帧图像；

提取模块，用于对所述多个图像集中的每帧图像进行3D空间特征提取，得到每帧图像对应的3D特征图；

融合模块，用于将每帧图像对应的3D特征图进行特征融合，得到目标融合特征图；

筛选模块，用于从所述目标融合特征图中提取每帧图像的各目标物候选框对应的融合特征信息，并根据每帧图像的各目标物候选框对应的融合特征信息，对所有目标物候选框进行筛选，得到至少一个目标物检测框。

可选的，在本发明第二方面的第一种实现方式中，所述提取模块包括：

转换单元，用于对所述多个图像集中的每帧图像进行3D空间转换，得到每帧图像对应的3D空间图；

投影单元，用于获取每帧图像对应的目标特征信息，并将每帧图像对应的目标特征信息投影至所述每帧图像对应的3D空间图，得到每帧图像对应的3D特征图。

可选的，在本发明第二方面的第二种实现方式中，所述转换单元具体用于：

可选的，在本发明第二方面的第三种实现方式中，所述投影单元具体用于：

可选的，在本发明第二方面的第四种实现方式中，所述融合模块包括：

第一合成单元，用于将所有图像集中同一帧图像对应的3D特征图进行鸟瞰图特征合成，得到相同序列帧图像对应的鸟瞰特征图；

第一叠加单元，用于将相同序列帧图像对应的鸟瞰特征图进行特征叠加，得到目标融合特征图。

可选的，在本发明第二方面的第五种实现方式中，所述融合模块还包括：

第二叠加单元，用于将各图像集中每帧图像对应的3D特征图进行特征叠加，得到各图像集对应的初始融合特征图；

第二合成单元，用于将所有图像集对应的初始融合特征图进行鸟瞰图特征合成，得到目标融合特征图。

可选的，在本发明第二方面的第六种实现方式中，所述第二叠加单元具体用于：

可选的，在本发明第二方面的第七种实现方式中，所述第二合成单元具体用于：

可选的，在本发明第二方面的第八种实现方式中，所述检测模块具体用于：

可选的，在本发明第二方面的第九种实现方式中，所述筛选模块具体用于：

本发明第三方面提供了一种目标物的检测设备，包括：存储器和至少一个处理器，所述存储器中存储有计算机程序；所述至少一个处理器调用所述存储器中的所述计算机程序，以使得所述目标物的检测设备执行上述的目标物的检测方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行上述的目标物的检测方法。

本发明提供的技术方案中，对多个图像集中的每帧图像进行3D目标检测，得到每帧图像的多个目标物候选框，一个图像集对应一个相机，每个图像集包括相机采集的多帧图像；对所述多个图像集中的每帧图像进行3D空间特征提取，得到每帧图像对应的3D特征图；将每帧图像对应的3D特征图进行特征融合，得到目标融合特征图；从所述目标融合特征图中提取每帧图像的各目标物候选框对应的融合特征信息，并根据每帧图像的各目标物候选框对应的融合特征信息，对所有目标物候选框进行筛选，得到至少一个目标物检测框。本发明实施例中，为了提高目标物检测的准确度，识别多个相机采集的图像集中的每帧图像的多个目标物候选框，由于每帧图像的多个目标物候选框中可能存在不完整或重叠的目标物检测框，因此，为了从目标物候选框中准确地筛选出完整且不重叠的目标物检测框，提取每帧图像对应的3D特征图之后，通过将所有3D特征图进行特征融合，得到目标融合特征图，再从目标融合特征图中提取每个目标物候选框对应的融合特征信息，最后通过融合特征信息对目标物候选框进行筛选，得到至少一个目标物候选框，本发明基于多相机多帧图像的融合特征进行目标物筛选，可以提高跨相机目标物检测的准确度。

附图说明

图1为本发明实施例中目标物的检测方法的一个实施例示意图；

图2为本发明实施例中目标物的检测装置的一个实施例示意图；

图3为本发明实施例中目标物的检测装置的另一个实施例示意图；

图4为本发明实施例中目标物的检测设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种目标物的检测方法、装置、设备及存储介质，用于提高跨相机目标物检测的准确度。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

可以理解的是，本发明的执行主体可以为目标物的检测装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中目标物的检测方法的一个实施例包括：

101、对多个图像集中的每帧图像进行3D目标检测，得到每帧图像的多个目标物候选框，一个图像集对应一个相机，每个图像集包括相机采集的多帧图像；

可以理解的是，为了提高目标物观测的完整度，预先在自动驾驶车辆上设置多个相机，用于采集不同视角上的环境图像，每个相机在1秒内采集多帧图像，得到每个相机对应的图像集，例如以自动驾驶车辆的车头前进方向为正前方，分别在车辆的左前方、右前方、左后方和右后方设置一个相机，假设每个相机在1秒内采集25帧图像，那么，左前方相机对应的图像集A中包括当前时刻左前方相机采集的25帧图像，右前方相机对应的图像集B中包括当前时刻右前方相机采集的25帧图像，以此类推，每个相机对应的图像集中包含对应相机在相同时刻采集的多帧图像，用于多相机多帧图像的特征融合，使得目标物检测的准确度提高。

在一种实施方式中，为了提高目标物检测的准确度，步骤101包括：通过预置的单目3D目标检测算法，对多个图像集中的每帧图像进行2D检测框生成和3D检测框回归，得到每帧图像的多个目标物候选框，一个图像集对应一个相机，每个图像集包括相机采集的多帧图像。其中单目3D目标检测算法包括但不限于单阶段单目3D检测算法和二阶段单目3D检测算法等单目3D检测算法。在另一种实施方式中，在通过预置的单目3D目标检测算法对多个图像集中的每帧图像进行3D目标检测之前，还包括：通过特征金字塔对多个图像集中的每帧图像进行多尺度的特征提取，得到每帧图像的图像特征信息。再通过预置的单目3D目标检测算法对每帧图像的图像特征信息进行3D目标检测，得到每帧图像的多个目标物候选框。需要说明的是，目标物候选框为目标物的最小外接3D矩形检测框，每帧图像中的每个目标物候选框包括目标物的3D空间坐标信息、尺寸信息、旋转信息、类别信息等。本实施方式能够提高目标物候选框检测的准确度，进而提高目标物检测的准确度。

102、对多个图像集中的每帧图像进行3D空间特征提取，得到每帧图像对应的3D特征图；

需要说明的是，由于单目3D目标检测算法难以融合多相机、多帧的图像特征信息，因此，通过对单帧图像进行3D目标检测得到的目标物候选框存在较大的噪声数据，即所有目标物候选框中可能存在重叠或不完整的目标物检测框。为了准确地剔除目标物候选框中的噪声数据，得到不重叠且完整的目标物检测框，对多个图像集中的每帧图像进行3D空间特征提取，得到每帧图像对应的3D特征图，并将每帧图像对应的3D特征图进行特征融合，得到目标融合特征图，目标融合特征图包括多帧完整的车辆环境观测图像的特征信息，用于对目标物候选框进行筛选，得到准确的目标物检测框，以提高目标物检测的准确度。

在一种实施方式中，对多个图像集中的每帧图像进行3D空间特征提取，得到每帧图像对应的3D特征图的执行步骤包括：获取每帧图像对应的目标特征信息，并将每帧图像对应的目标特征信息投影至3D空间，得到每帧图像对应的3D特征图。在另一种实施方式中，对多个图像集中的每帧图像进行3D空间特征提取，得到每帧图像对应的3D特征图还包括：对多个图像集中的每帧图像进行3D空间转换，得到每帧图像对应的3D空间图；获取每帧图像对应的目标特征信息，并将每帧图像对应的目标特征信息投影至每帧图像对应的3D空间图，得到每帧图像对应的3D特征图。上述目标特征信息可以是2D特征信息，也可以是3D特征信息，具体此处不做限定，对图像或特征的3D空间转换(投影)的顺序也不做限定，具体取决于目标特征信息是否为3D特征信息，本实施方式能够灵活地获取2D或3D的特征信息，使得后续的目标融合特征图包含多维度的特征信息，从而提高目标物候选框筛选的准确度，进而提高目标物检测的准确度。

基于上述，为了将每帧图像转换至3D空间，对多个图像集中的每帧图像进行3D空间转换，得到每帧图像对应的3D空间图的执行步骤包括：对多个图像集中的每帧图像进行逐像素的深度估计，得到每帧图像对应的3D空间图，每帧图像对应的3D空间图中每个3D点对应一个3D空间坐标信息。具体的，通过单目深度估计模型对多个图像集中的每帧图像进行逐像素的深度估计，得到每帧图像对应的3D空间图。除了可以通过深度估计进行图像3D空间转换之外，在另一种实施方式中，对多个图像集中的每帧图像进行3D空间转换，得到每帧图像对应的3D空间图还包括：获取多个图像集中的每帧图像中每个像素点的像素值，并根据每个像素点的像素值，对多个图像集中的每帧图像进行像素点相关关系预测，得到预测结果，并根据预测结果将多个图像集中的每帧图像转换至3D空间，得到每帧图像对应的3D空间图。本实施方式能够快速地将2D图像转换为3D图像，从而提高目标物检测的效率。

基于上述，为了将更多的特征信息融合，用以提高目标物检测的准确度，获取每帧图像对应的目标特征信息，并将每帧图像对应的目标特征信息投影至每帧图像对应的3D空间图，得到每帧图像对应的3D特征图的执行步骤包括：读取每帧图像对应的目标特征信息，每帧图像对应的目标特征信息包括但不限于每帧图像的激光雷达特征信息、毫米波雷达特征信息、超声波特征信息和图像特征信息中的至少一项；获取特征坐标信息，特征坐标信息用于指示每帧图像对应的目标特征信息在对应帧图像中的坐标信息；根据特征坐标信息，将每帧图像对应的目标特征信息映射至对应的3D空间图，得到每帧图像对应的3D特征图。可以理解的是，每帧图像对应的目标特征信息包括多种传感器的特征信息，如激光雷达、毫米波雷达、超声波和相机等，因此，每帧图像对应的目标特征信息包括每帧图像的激光雷达特征信息、毫米波雷达特征信息、超声波特征信息和图像特征信息中的至少一项，再将每帧图像对应的目标特征信息对应的位置信息转换至对应帧图像的坐标信息中，得到特征坐标信息，最后根据特征坐标信息，将每帧图像对应的所有目标特征信息投影至对应的3D空间图，得到每帧图像对应的3D特征图。本实施方式能够获取多传感器对环境检测的特征信息，使得后续的融合特征图中包含更全面的特征信息，从而提高目标物检测的准确度。

基于上述，目标特征信息中的图像特征信息包括对应帧图像中每个像素点的语义分割信息，如基于二分类的“障碍物-非障碍物”的语义分割信息，或者是基于多分类的“人-车-自行车-静态物体-动物-路面-天空-植物-其他”等的语义分割信息，具体此处不做限定。本实施方式能够通过对图像进行语义分割获得图像特征信息，用于提高后续目标物候选框筛选的准确度，从而提高目标物检测的准确度。

103、将每帧图像对应的3D特征图进行特征融合，得到目标融合特征图；

在一种实施方式中，由于多个图像集中的每帧图像均是在1秒钟内拍摄，因此，每个图像集中的各帧图像相似度较高，即每个图像集中的各帧图像之间存在较多相同像素点，那么，对同一图像集中各帧图像对应的3D特征图的相同像素点进行特征融合，得到每个图像集对应的初始融合特征图，再将每个图像集对应的初始融合特征图合成为全景视角的特征图，得到目标融合特征图，目标融合特征图中包含多相机、多帧以及多传感器的特征信息，使得后续通过目标融合特征图进行目标物候选框筛选的准确度提高，从而提高目标物检测的准确度。

在一种实施方式中，在得到目标融合特征图之后，还包括：通过预置的卷积神经网络模型对目标融合特征图进行融合特征提取，得到目标融合特征图中的融合特征信息，用于后续的目标物候选框筛选，能够进一步地提高目标物检测的准确度。

作为示例而非限定的是，在3D特征图的特征融合过程中，包括同相机图像特征叠加步骤和跨相机图像合成步骤，而这两个步骤的先后顺序可以颠倒，此处不做具体限定，在一种实施方式中，先执行跨相机图像合成步骤，再执行同相机图像特征叠加步骤，即步骤103包括：将所有图像集中同一帧图像对应的3D特征图进行鸟瞰图特征合成，得到相同序列帧图像对应的鸟瞰特征图；将相同序列帧图像对应的鸟瞰特征图进行特征叠加，得到目标融合特征图。例如，假设自动驾驶车辆上设置有2个不同视角的单目相机1和单目相机2，单目相机1对应图像集A，单目相机2对应图像集B，图像集A中包括单目相机1采集的3帧图像，这3帧图像分别对应的3D特征图为特征图a1、特征图a2和特征图a3，图像集B中包括单目相机2采集的3帧图像，这3帧图像分别对应的3D特征图为特征图b1、特征图b2和特征图b3，那么，本实施方式中，首先将所有图像集中同一帧图像对应的3D特征图进行鸟瞰图特征合成，得到相同序列帧图像对应的鸟瞰特征图，即将图像集A中第一帧图像对应的特征图a1与图像集B中第一帧图像对应的特征图b1进行鸟瞰图特征合成，得到第一帧图像对应的鸟瞰特征图X，再将图像集A中第二帧图像对应的特征图a2与图像集B中第二帧图像对应的特征图b2进行鸟瞰图特征合成，得到第二帧图像对应的鸟瞰特征图Y，最后将图像集A中第三帧图像对应的特征图a3与图像集B中第三帧图像对应的特征图b3进行鸟瞰图特征合成，得到第三帧图像对应的鸟瞰特征图Z，接着，将相同序列帧图像对应的鸟瞰特征图进行特征叠加，得到目标融合特征图，即将第一帧图像对应的鸟瞰特征图X、第二帧图像对应的鸟瞰特征图Y和第三帧图像对应的鸟瞰特征图Z进行特征叠加，得到目标融合特征图。本实施方式能够融合多相机、多帧特征信息，使得后续进行的目标物候选框筛选更精准，从而提高目标物检测的准确度。

基于上述，具体的，将所有图像集中同一帧图像对应的3D特征图进行鸟瞰图特征合成，得到相同序列帧图像对应的鸟瞰特征图的执行步骤包括：对所有图像集中同一帧图像对应的3D特征图进行相同3D点检测，得到各序列帧图像对应的鸟瞰图拼接位置信息；根据各序列帧图像对应的鸟瞰图拼接位置信息，将所有图像集中同一帧图像对应的3D特征图进行相同3D点的特征叠加和拼接，得到相同序列帧图像对应的鸟瞰特征图。例如，基于上述例子，对图像集A中第一帧图像对应的特征图a1与图像集B中第一帧图像对应的特征图b1进行相同3D点检测，得到第一帧图像对应的鸟瞰图拼接位置信息，再对图像集A中第二帧图像对应的特征图a2与图像集B中第二帧图像对应的特征图b2进行相同3D点检测，得到第二帧图像对应的鸟瞰图拼接位置信息，最后对图像集A中第三帧图像对应的特征图a3与图像集B中第三帧图像对应的特征图b3进行相同3D点检测，得到第三帧图像对应的鸟瞰图拼接位置信息。接着，根据各序列帧图像对应的鸟瞰图拼接位置信息，将所有图像集中同一帧图像对应的3D特征图进行相同3D点的特征叠加和拼接，得到相同序列帧图像对应的鸟瞰特征图，即根据第一帧图像对应的鸟瞰图拼接位置信息，将图像集A中第一帧图像对应的特征图a1与图像集B中第一帧图像对应的特征图b1进行相同3D点的特征叠加和拼接，得到第一帧图像对应的鸟瞰特征图X，再根据第二帧图像对应的鸟瞰图拼接位置信息，将图像集A中第二帧图像对应的特征图a2与图像集B中第二帧图像对应的特征图b2进行相同3D点的特征叠加和拼接，得到第二帧图像对应的鸟瞰特征图Y，最后根据第三帧图像对应的鸟瞰图拼接位置信息，将图像集A中第三帧图像对应的特征图a3与图像集B中第三帧图像对应的特征图b3进行相同3D点的特征叠加和拼接，得到第三帧图像对应的鸟瞰特征图Z。

基于上述，将相同序列帧图像对应的鸟瞰特征图进行特征叠加，得到目标融合特征图的执行步骤包括：根据各帧图像采集时的车辆位姿信息，对相同序列帧图像对应的鸟瞰特征图进行3D点对齐变换，得到各序列帧图像对应的对齐特征图；将各序列帧图像对应的对齐特征图进行逐3D点的特征叠加，得到目标融合特征图。例如，基于上述例子，将第一帧图像对应的鸟瞰特征图X、第二帧图像对应的鸟瞰特征图Y和第三帧图像对应的鸟瞰特征图Z进行3D点对齐变换，得到第一帧图像对应的对齐特征图X＇，第二帧图像对应的对齐特征图Y＇，以及第三帧图像对应的对齐特征图Z＇，最后将对齐特征图X＇、对齐特征图Y＇和对齐特征图Z＇进行逐3D点的特征叠加，得到目标融合特征图。

基于上述，还可以先执行同相机图像特征叠加步骤，再执行跨相机图像合成步骤，即步骤103还包括：将各图像集中每帧图像对应的3D特征图进行特征叠加，得到各图像集对应的初始融合特征图；将所有图像集对应的初始融合特征图进行鸟瞰图特征合成，得到目标融合特征图。例如，基于上述例子，首先将各图像集中每帧图像对应的3D特征图进行特征叠加，得到各图像集对应的初始融合特征图，即将特征图a1、特征图a2和特征图a3进行特征叠加，得到图像集A对应的初始融合特征图M，再将特征图b1、特征图b2和特征图b3进行特征叠加，得到图像集B对应的初始融合特征图N，再将所有图像集对应的初始融合特征图进行鸟瞰图特征合成，得到目标融合特征图，即将图像集A对应的初始融合特征图M和图像集B对应的初始融合特征图N进行鸟瞰图特征合成，得到目标融合特征图。本实施方式能够融合多相机、多帧特征信息，使得后续进行的目标物候选框筛选更精准，从而提高目标物检测的准确度。

基于上述，具体的，将各图像集中每帧图像对应的3D特征图进行特征叠加，得到各图像集对应的初始融合特征图的执行步骤包括：根据各帧图像采集时的车辆位姿信息，对各图像集中每帧图像对应的3D特征图进行3D点对齐变换，得到各图像集中每帧图像对应的对齐特征图；将各图像集中每帧图像对应的对齐特征图进行逐3D点特征叠加，得到各图像集对应的初始融合特征图。例如，基于上述例子，首先根据各帧图像采集时的车辆位姿信息，对图像集A中各帧图像对应的特征图a1、特征图a2和特征图a3进行3D点对齐变换，得到图像集A中每帧图像对应的对齐特征图a1＇，对齐特征图a2＇和对齐特征图a3＇，并对图像集B中各帧图像对应的特征图b1、特征图b2和特征图b3进行3D点对齐变换，得到图像集B中每帧图像对应的对齐特征图b1＇，对齐特征图b2＇和对齐特征图b3＇，再将图像集A中每帧图像对应的对齐特征图a1＇，对齐特征图a2＇和对齐特征图a3＇进行逐3D点特征叠加，得到图像集A对应的初始融合特征图M，并将图像集B中每帧图像对应的对齐特征图b1＇，对齐特征图b2＇和对齐特征图b3＇进行逐3D点特征叠加，得到图像集B对应的初始融合特征图N。

基于上述，具体的，将所有图像集对应的初始融合特征图进行鸟瞰图特征合成，得到目标融合特征图的执行步骤包括：对各图像集对应的初始融合特征图进行相同3D点检测，得到鸟瞰图拼接位置信息；根据鸟瞰图拼接位置信息，对各图像集对应的初始融合特征图进行相同3D点的特征叠加和拼接，得到目标融合特征图。例如，基于上述例子，对图像集A对应的初始融合特征图M和图像集B对应的初始融合特征图N进行相同3D点检测，得到鸟瞰图拼接位置信息，再根据鸟瞰图拼接位置信息，对图像集A对应的初始融合特征图M和图像集B对应的初始融合特征图N进行相同3D点的特征叠加和拼接，得到目标融合特征图。

104、从目标融合特征图中提取每帧图像的各目标物候选框对应的融合特征信息，并根据每帧图像的各目标物候选框对应的融合特征信息，对所有目标物候选框进行筛选，得到至少一个目标物检测框。

需要说明的是，由于目标融合特征图中包含多相机、多帧图像的特征信息，因此，目标融合特征图中包含所有目标物候选框的融合特征信息，通过从目标融合特征图中提取每帧图像的各目标物候选框对应的融合特征信息，并根据每帧图像的各目标物候选框对应的融合特征信息，对所有目标物候选框进行筛选，得到至少一个目标物检测框，其中，目标物检测框为符合预设条件的目标物检测框，作为示例而非限定的是，目标物检测框可以是障碍物类型的目标物检测框，如行人、路障、汽车等，也可以是与当前自动驾驶车辆的距离小于预置阈值的目标物检测框，还可以是不可跨越类型的目标物检测框等，此处不做具体限定。本实施方式能够基于多相机、多帧以及多传感器的特征信息对目标物候选框进行准确地筛选，从而提高目标物检测的准确度。

在一种实施方式中，步骤104包括：根据每帧图像的各目标物候选框对应的3D空间坐标信息，从目标融合特征图提取每帧图像的各目标物候选框对应的融合特征信息；通过预置的自注意力机制对每帧图像的各目标物候选框对应的融合特征信息进行目标物信息预测，得到每帧图像的各目标物候选框对应的目标物信息；根据每帧图像的各目标物候选框对应的目标物信息对所有目标物候选框进行目标物筛选，得到至少一个目标物检测框。本实施方式中，根据每个目标物候选框对应的3D空间坐标信息从目标融合特征图中图区对应的融合特征信息之后，通过预置的自注意力机制对每帧图像的各目标物候选框对应的融合特征信息进行目标物信息预测，得到每帧图像的各目标物候选框对应的目标物信息，具体的，通过预置的自注意力机制中的内积算法计算每帧图像的各目标物候选框与其它目标物候选框之间的相关度，得到每帧图像的各目标物候选框对应的交叉特征信息，交叉特征信息中包含每个其它目标物候选框的特征，再根据每帧图像的各目标物候选框对应的交叉特征信息进行目标物信息预测，得到每帧图像的各目标物候选框对应的目标物信息，使得目标物信息预测的准确度提高，进而提高目标物检测的准确度。其中，目标物信息包括但不限于目标物的存在性信息、类别信息、几何信息和位置信息。

本发明实施例中，为了提高目标物检测的准确度，识别多个相机采集的图像集中的每帧图像的多个目标物候选框，由于每帧图像的多个目标物候选框中可能存在不完整或重叠的目标物检测框，因此，为了从目标物候选框中准确地筛选出完整且不重叠的目标物检测框，提取每帧图像对应的3D特征图之后，将所有3D特征图进行特征融合，得到目标融合特征图，再从目标融合特征图中提取每个目标物候选框对应的融合特征信息，最后根据融合特征信息对目标物候选框进行筛选，得到至少一个目标物候选框，本发明可以提高跨相机目标物检测的准确度。

上面对本发明实施例中目标物的检测方法进行了描述，下面对本发明实施例中目标物的检测装置进行描述，请参阅图2，本发明实施例中目标物的检测装置一个实施例包括：

检测模块201，用于对多个图像集中的每帧图像进行3D目标检测，得到每帧图像的多个目标物候选框，一个图像集对应一个相机，每个图像集包括相机采集的多帧图像；

提取模块202，用于对所述多个图像集中的每帧图像进行3D空间特征提取，得到每帧图像对应的3D特征图；

融合模块203，用于将每帧图像对应的3D特征图进行特征融合，得到目标融合特征图；

筛选模块204，用于从所述目标融合特征图中提取每帧图像的各目标物候选框对应的融合特征信息，并根据每帧图像的各目标物候选框对应的融合特征信息，对所有目标物候选框进行筛选，得到至少一个目标物检测框。

本发明实施例中，为了提高目标物检测的准确度，识别多个相机采集的图像集中的每帧图像的多个目标物候选框，由于每帧图像的多个目标物候选框中可能存在不完整或重叠的目标物检测框，因此，为了从目标物候选框中准确地筛选出完整且不重叠的目标物检测框，提取每帧图像对应的3D特征图之后，通过将所有3D特征图进行特征融合，得到目标融合特征图，再从目标融合特征图中提取每个目标物候选框对应的融合特征信息，最后通过融合特征信息对目标物候选框进行筛选，得到至少一个目标物候选框，本发明基于多相机多帧图像的融合特征进行目标物筛选，可以提高跨相机目标物检测的准确度。

请参阅图3，本发明实施例中目标物的检测装置的另一个实施例包括：

可选的，所述提取模块202包括：

转换单元2021，用于对所述多个图像集中的每帧图像进行3D空间转换，得到每帧图像对应的3D空间图；

投影单元2022，用于获取每帧图像对应的目标特征信息，并将每帧图像对应的目标特征信息投影至所述每帧图像对应的3D空间图，得到每帧图像对应的3D特征图。

可选的，所述转换单元2021具体用于：

可选的，所述投影单元2022具体用于：

可选的，所述融合模块203包括：

第一合成单元2031，用于将所有图像集中同一帧图像对应的3D特征图进行鸟瞰图特征合成，得到相同序列帧图像对应的鸟瞰特征图；

第一叠加单元2032，用于将相同序列帧图像对应的鸟瞰特征图进行特征叠加，得到目标融合特征图。

可选的，所述融合模块203还包括：

第二叠加单元2033，用于将各图像集中每帧图像对应的3D特征图进行特征叠加，得到各图像集对应的初始融合特征图；

第二合成单元2034，用于将所有图像集对应的初始融合特征图进行鸟瞰图特征合成，得到目标融合特征图。

可选的，所述第二叠加单元2033具体用于：

可选的，所述第二合成单元2034具体用于：

可选的，所述检测模块201具体用于：

可选的，所述筛选模块204具体用于：

上面图2和图3从模块化功能实体的角度对本发明实施例中的目标物的检测装置进行详细描述，下面从硬件处理的角度对本发明实施例中目标物的检测设备进行详细描述。

图4是本发明实施例提供的一种目标物的检测设备的结构示意图，该目标物的检测设备400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)410(例如，一个或一个以上处理器)和存储器420，一个或一个以上存储应用程序433或数据432的存储介质430(例如一个或一个以上海量存储设备)。其中，存储器420和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对目标物的检测设备400中的一系列计算机程序操作。更进一步地，处理器410可以设置为与存储介质430通信，在目标物的检测设备400上执行存储介质430中的一系列计算机程序操作。

目标物的检测设备400还可以包括一个或一个以上电源440，一个或一个以上有线或无线网络接口450，一个或一个以上输入输出接口460，和/或，一个或一个以上操作系统431，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图4示出的目标物的检测设备结构并不构成对目标物的检测设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读计算机程序，计算机可读计算机程序被处理器执行时，使得处理器执行上述各实施例中的所述目标物的检测方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得计算机执行所述目标物的检测方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干计算机程序用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-onlymemory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种目标物的检测方法，其特征在于，所述目标物的检测方法包括：

2.根据权利要求1所述的目标物的检测方法，其特征在于，所述对所述多个图像集中的每帧图像进行3D空间特征提取，得到每帧图像对应的3D特征图，包括：

3.根据权利要求2所述的目标物的检测方法，其特征在于，所述对所述多个图像集中的每帧图像进行3D空间转换，得到每帧图像对应的3D空间图，包括：

4.根据权利要求2所述的目标物的检测方法，其特征在于，所述获取每帧图像对应的目标特征信息，并将每帧图像对应的目标特征信息投影至所述每帧图像对应的3D空间图，得到每帧图像对应的3D特征图，包括：

5.根据权利要求1所述的目标物的检测方法，其特征在于，所述将每帧图像对应的3D特征图进行特征融合，得到目标融合特征图，包括：

6.根据权利要求1所述的目标物的检测方法，其特征在于，所述将每帧图像对应的3D特征图进行特征融合，得到目标融合特征图，还包括：

7.根据权利要求6所述的目标物的检测方法，其特征在于，所述将各图像集中每帧图像对应的3D特征图进行特征叠加，得到各图像集对应的初始融合特征图，包括：

8.根据权利要求6所述的目标物的检测方法，其特征在于，所述将所有图像集对应的初始融合特征图进行鸟瞰图特征合成，得到目标融合特征图，包括：

9.根据权利要求1所述的目标物的检测方法，其特征在于，所述对多个图像集中的每帧图像进行3D目标检测，得到每帧图像的多个目标物候选框，包括：

10.根据权利要求1所述的目标物的检测方法，其特征在于，所述从所述目标融合特征图中提取每帧图像的各目标物候选框对应的融合特征信息，并根据每帧图像的各目标物候选框对应的融合特征信息，对所有目标物候选框进行筛选，得到至少一个目标物检测框，包括：

11.一种目标物的检测装置，其特征在于，所述目标物的检测装置包括：

12.一种目标物的检测设备，其特征在于，所述目标物的检测设备包括：存储器和至少一个处理器，所述存储器中存储有计算机程序；

所述至少一个处理器调用所述存储器中的所述计算机程序，以使得所述目标物的检测设备执行如权利要求1-10中任意一项所述的目标物的检测方法。

13.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-10中任一项所述目标物的检测方法。