CN116740681A

CN116740681A - 目标检测方法、装置、车辆和存储介质

Info

Publication number: CN116740681A
Application number: CN202311000967.5A
Authority: CN
Inventors: 万韶华
Original assignee: Xiaomi Automobile Technology Co Ltd
Current assignee: Xiaomi Automobile Technology Co Ltd
Priority date: 2023-08-10
Filing date: 2023-08-10
Publication date: 2023-09-12
Anticipated expiration: 2043-08-10
Also published as: CN116740681B

Abstract

本申请提出一种目标检测方法、装置、车辆和存储介质，其中，方法包括：获取至少一个环视图像的第一特征图和三维空间的至少一个设定体素位置，对每一个设定体素位置，根据设定体素位置对应的环视相机的内外参数，将设定体素位置从三维空间投射至图像空间，得到设定体素位置对应的第一像素位置，根据各个第一像素位置查找至少一个第一特征图中各个第二像素位置的特征向量，确定各个设定体素位置的特征向量，从而生成三维空间的体素特征图，根据三维空间的体素特征图进行目标检测，通过环视相机的内外参数，将三维空间的各个设定体素位置投影到图像空间，通过对图像空间的特征图采样完成3D空间体素特征图的构建，进而实现准确的目标检测。

Description

目标检测方法、装置、车辆和存储介质

技术领域

本公开涉及自动驾驶技术领域，尤其涉及目标检测方法、装置、车辆和存储介质。

背景技术

基于传感器对周围环境中的障碍物进行智能感知是实现自动驾驶、自动泊车或自动导航的关键。例如，基于图像传感器采集的图像进行处理和识别，以得到图像的目标检测结果，基于目标检测的结果进行自动驾驶。

其中，在自动驾驶领域，环视相机由于具有更大的视场角，广泛应用于车辆上，而环视相机采集到的图像存在严重的畸变和形变，无法实现直接将环视图像从图像空间映射到3D空间，从而无法构建3D空间的体素特征图，无法进行目标检测。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请提出一种目标检测方法、装置、车辆和存储介质，实现了通过至少一个环视图像对应的环视相机的内外参数，将三维空间的至少一个设定体素位置投影到二维空间，并对二维空间的至少一个第一特征图进行特征向量采样，得到三维空间的体素特征图，实现了将环视图像的特征图转换到三维空间下，以实现目标检测。

本申请一方面实施例提出了一种目标检测方法，包括：

获取至少一个环视图像的第一特征图和三维空间的至少一个设定体素位置；

针对每一个所述设定体素位置，根据所述设定体素位置对应的环视相机的内外参数，将所述设定体素位置从所述三维空间投射至图像空间，得到所述设定体素位置对应的第一像素位置；

根据各个所述第一像素位置查找至少一个第一特征图中各个第二像素位置的特征向量，确定各个所述第一像素位置对应的设定体素位置的特征向量；

根据至少一个设定体素位置的特征向量，生成三维空间的体素特征图；

根据所述三维空间的体素特征图，进行目标检测。

本申请另一方面实施例提出了一种目标检测装置，包括：

获取模块，用于执行获取至少一个环视图像的第一特征图和三维空间的至少一个设定体素位置；

映射模块，用于执行针对每一个所述设定体素位置，根据所述设定体素位置对应的环视相机的内外参数，将所述设定体素位置从所述三维空间投射至图像空间，得到所述设定体素位置对应的第一像素位置；

第一确定模块，用于执行根据各个所述第一像素位置查找至少一个第一特征图中各个第二像素位置的特征向量，确定各个所述第一像素位置对应的设定体素位置的特征向量；

生成模块，用于执行根据至少一个设定体素位置的特征向量，生成三维空间的体素特征图；

检测模块，用于执行根据所述三维空间的体素特征图，进行目标检测。

本申请另一方面实施例提出了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如前述一方面所述的方法。

本申请另一方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述一方面所述的方法。

本申请另一方面实施例提出了一种计算机程序产品，其上存储有计算机程序，所述程序被处理器执行时实现如前述一方面所述的方法。

本申请提出的目标检测方法、装置、车辆和存储介质，获取至少一个环视图像的第一特征图和三维空间的至少一个设定体素位置，针对每一个设定体素位置，根据设定体素位置对应的环视相机的内外参数，将设定体素位置从三维空间投射至图像空间，得到设定体素位置对应的第一像素位置，根据各个第一像素位置查找至少一个第一特征图中各个第二像素位置的特征向量，确定各个第一像素位置对应的设定体素位置的特征向量，根据至少一个设定体素位置的特征向量，生成三维空间的体素特征图，根据三维空间的体素特征图，进行目标检测，通过环视相机的内外参数，将三维空间的各个设定体素位置投影到图像空间，通过对图像空间的特征图采样完成3D空间体素特征图的构建，进而实现准确的目标检测。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例所提供的一种目标检测方法的流程示意图；

图2为本申请实施例提供的另一种目标检测方法的流程示意图；

图3为本申请实施例提供的一种目标检测模型的结构示意图；

图4A为本申请实施例提供的一种环视图像的示意图；

图4B为本申请实施例提供的一种周视图像的示意图；

图5为本申请实施例提供的另一种目标检测方法的流程示意图；

图6为本申请实施例提供的一种目标检测装置的结构示意图；

图7为本申请实施例提供的一种车辆的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的目标检测方法、装置、车辆和存储介质。

图1为本申请实施例所提供的一种目标检测方法的流程示意图。

本申请实施例的目标检测方法的执行主体为目标检测装置，该装置可设置于车机端，本实施例中不进行限定。

如图1所示，该方法可以包括以下步骤：

步骤101，获取至少一个环视图像的第一特征图和三维空间的至少一个设定体素位置。

本申请实施例中，至少一个环视图像，是通过环视相机采集的，环视相机具有较大的视场角，采集的环视图像存在畸变，例如，环视相机为鱼眼相机，视场角高达180度。

作为第一种实现方式，环视图像的第一特征图，是通过图像编码器进行特征编码得到的，例如，采用Regnet800M作为图像空间编码器，为了得到更好的特征编码效果。

作为第二种实现方式，将每一个环视相机采集的环视图像，输入图像空间编码器进行特征编码得到多个尺度的候选特征图，例如，图像空间编码器为Regnet800M，为了得到更好的特征编码效果。进而，采用双向特征金字塔网络（Bidirectional Feature PyramidNetworks，BiFPN）对多个不同尺度的候选特征图进行多尺度的特征融合，得到该环视图像的融合特征图，将该融合特征图，作为第一特征图。

其中，三维空间的至少一个设定体素位置，是对设定的检测空间进行立体栅格的划分得到的，每一个的栅格即为一个设定体素，每一个栅格的中心即为一个设定体素位置。

例如，在车辆场景下，车辆中通常安装至少一个环视相机，例如为4个环视相机，根据4个环视相机的视场角可确定车辆周围的设定检测空间，进而，将设定检测空间划分为设定的多个体素/栅格。其中，可建立各个环视相机和设定体素的对应关系，即针对每一个环视相机视场角，可确定该环视相机的可见范围，将处于该可见范围的体素作为和该环视相机对应的设定体素，从而可建立各个环视相机和设定体素位置的对应关系。也就是说，一个设定体素位置可被一个环视相机或两个环视相机看到，即一个设定体素位置可处于一个环视相机或两个环视相机的可见范围内。

步骤102，针对每一个设定体素位置，根据设定体素位置对应的环视相机的内外参数，将设定体素位置从三维空间投射至图像空间，得到设定体素位置对应的第一像素位置。

本申请实施例中，环视相机拍摄的环视图像具有严重的形变和畸变，环视图像的第一特征图向三维空间（3D）转换不存在解析解，因此，无法将环视图像的第一特征图转换到3D空间下，从而本申请利用环视相机模型，即环视相机的内外参数，将三维空间的各个设定体素位置从三维空间投射到环视图像对应的图像空间，即实现了从三维空间投射至二维空间，得到各个设定体素位置对应的图像空间的第一像素位置。

对于每一个设定体素位置，该设定体素位置可处于一个或两个环视相机的可视范围内，因此，下面分别对两种场景进行说明：

在第一种场景下，设定体素位置和一个环视相机对应，即设定体素位置处于一个环视相机的可视范围内，则采用该设定体素位置对应的环视相机的内外参数，将该设定体素位置从三维空间投射至二维图像空间，得到该设定体素位置对应的第一像素位置。

在第二种场景下，设定体素位置和两个环视相机对应，即设定体素位置处于两个环视相机的可视范围内，则针对两个环视相机中每一个环视相机的内外参数，将设定体素位置从三维空间投射至二维图像空间，得到该设定体素位置对应的候选像素位置，进而，将设定体素位置对应的多个候选像素位置进行加权平均，得到第一像素位置。

其中，针对每一个设定像素位置，将该设定体素位置从三维空间投射至二维图像空间，得到该设定体素位置对应的候选像素位置，作为一种实现方式：

根据该设定体素位置对应的环视相机的外参，将该设定体素位置从世界坐标系投影至环视相机的相机坐标系，得到相机坐标系下的三维位置，基于相机坐标系和成像平面坐标系间的映射关系，将相机坐标系下的三维位置映射至成像平面坐标系，得到第二像素位，根据该设定体素位置对应的环视相机的内参，将第二像素位置映射至图像坐标系得到第一像素位置。

步骤103，根据各个第一像素位置查找至少一个第一特征图中各个第二像素位置的特征向量，确定各个第一像素位置对应的设定体素位置的特征向量。

本申请实施例中，第一特征图中包含各个第二像素位置的特征向量，从而针对每一个第一像素位置，将第一像素位置和各个第二像素位置进行比对，确定第一特征图中和第一像素位置间的距离小于设定阈值的目标像素位置，若目标像素位置为一个，将该目标像素位置的特征向量作为第一像素位置的特征向量，进而，根据第一像素位置的特征向量，作为第一像素位置对应的设定体素位置的特征向量；若目标像素位置为多个，则将多个目标像素位置的特征向量进行加权平均，将加权平均的结果作为第一像素位置的特征向量，进而，根据第一像素位置的特征向量，确定第一像素位置对应的设定体素位置的特征向量，例如，将第一像素位置的特征向量，作为第一像素位置对应的设定体素位置的特征向量，或者，将第一像素位置的特征向量与一个设定权重加乘，将加乘的结果作为第一像素位置对应的设定体素位置的特征向量，以满足各种场景下的需求。

步骤104，根据至少一个设定体素位置的特征向量，生成三维空间的体素特征图。

步骤105，根据三维空间的体素特征图，进行目标检测。

本申请实施例中，在确定各个设定体素位置的特征向量后，即可生成三维空间的体素特征图，实现了三维空间的体素特征图的构建，三维空间的体素特征图中包含各个设定体素位置的特征向量，进而，基于三维空间的体素特征图，可进行目标检测，作为一种实现方式，可将三维空间的体素特征图进行多尺度特征融合，得到鸟瞰图（Bird's Eye View，BEV）空间下的第三特征图，根据第三特征图，识别目标类型和目标的位置。

本申请实施例的目标检测方法中，获取至少一个环视图像的第一特征图和三维空间的至少一个设定体素位置，针对每一个设定体素位置，根据设定体素位置对应的环视相机的内外参数，将设定体素位置从三维空间投射至图像空间，得到设定体素位置对应的第一像素位置，根据各个第一像素位置查找至少一个第一特征图中各个第二像素位置的特征向量，确定各个第一像素位置对应的设定体素位置的特征向量，根据至少一个设定体素位置的特征向量，生成三维空间的体素特征图，根据三维空间的体素特征图，进行目标检测，通过环视相机的内外参数，将三维空间的各个设定体素位置投影到图像空间，通过对图像空间的特征图采样完成3D空间体素特征图的构建，进而实现准确的目标检测。

基于上述实施例，图2为本申请实施例提供的另一种目标检测方法的流程示意图，如图2所示，该方法包含以下步骤：

步骤201，获取各个环视图像的多个尺度的候选特征图。

作为一种示例，图3为本申请实施例提供的一种目标检测模型的结构示意图，如图3所示，获取车辆上的4个环视相机采集的4个环视图像，其中，img(4,3,576,768)代表的含义是，4张环视图像，每张图像3个通道，高576像素，宽768像素，其中，3个通道为三原色（RedGreen Blue，RGB）通道。环视图像中包含畸变，而周视图像中不包含畸变，例如，如图4A所示，环视图像是环视相机采集的，例如，鱼眼相机，环视图像中物体的形状被拉伸存在变形和畸变，而如图4B所示，周视图像是周视相机采集的，周视相机的视场角小于环视相机，周视图像中物体的形状未被拉伸，不存在畸变。

进而，针对每一个环视图像进行特征提取，采用图像空间编码模块中的Regnet800M作为图像空间编码器进行多个尺度的特征提取和编码，生成该环视图像多个尺度的候选特征图。

步骤202，针对每一个环视图像，将环视图像的多个尺度的候选特征图进行特征融合，得到环视图像的融合特征图。

如图3所示，采用图像空间编码模块中的BiFPN对Regnet800M输出的多个不同尺度的特征，进行多个尺度的特征融合，得到每一个环视图像的融合特征图，作为一种实现方式，针对每一个环视图像，环视图像的多个尺度的候选特征图的维度和尺寸均不相同，因此，第一步先进行维度的统一，例如，（4,64,144,192）到(4,128,144,192)，维度变为了128，同理将多个尺度的候选特征图均转化为同一个维度即128维度，即（4,128,72,96）变换到(4,128,72,96)；（4,288,36,48）变换到(4,128,36,48)；（4,672,18,24）变换到(4,128,18,24)；（4,672,9,12）变换到(4,128,9,12)，进而，将(4,128,144,192)、(4,128,72,96)、(4,128,36,48)、（4,128,18,24）和（4,128,9,12）进行尺寸统一，进而将维度和尺寸均统一的候选特征图进行特征融合，得到环视图像的融合特征图。

其中，4个融合得到的环视图像的融合特征图大小表示为(4,128,144,192)，其中，4的含义是4张环视图像的融合特征图，每一个融合特征图是128通道，高144像素，宽192像素。

步骤203，对环视图像的融合特征图中的每一个第二像素位置的深度进行预测，得到每一个第二像素位置的至少一个深度值和至少一个深度值的概率。

其中，至少一个深度值的概率和为1。至少一个深度值可从设定深度区间等间隔采样得到。

作为一种示例，利用空间转换模块中的深度预测模块对各个第二像素位置的深度值和对应的概率进行预测，其中，深度预测网络为卷积网络，例如，通过ResNET Block的卷积网络进行预测，得到每一个第二像素位置的至少一个深度值和至少一个深度值的概率。如图3所示，将BiFPN多尺度融合得到的特征图(4,128,144,192)输入到深度预测模块，输出一个深度值值的概率分布预测(4,16,144,192)，代表的含义是，对于4张环视图像的特征图，每一个特征图中包括144x192个第二像素位置，每个第二像素位置预测16个深度值的概率分布，即包括16个深度值对应的概率，这16个深度值的概率之和为1，16个深度值可以为对[1m,8m]进行等间隔采样得到的。

步骤204，根据融合特征图、融合特征图中每一个第二像素位置的至少一个深度值和至少一个深度值的概率，确定环视图像的第二特征图。

其中，第二特征图中包括各个第二像素位置对应至少一个深度值的特征向量。

本申请实施例中，融合特征图中每一个第二像素位置可预测得到多个深度值和各个深度值的概率，通过深度值、深度值的概率和特征图进行外积操作（Outer Product，OP），确定环视图像空间下不同深度位置的特征向量，即针对每一个第二像素位置，将该第二像素位置的各个深度值和各个深度值的概率，与该深度值的特征向量执行外积操作，得到该第二像素位置在不同深度位置的特征向量。

作为一种示例，如图3所示，在图像空间编码模块，通过将融合特征图和深度值及深度值的概率进行外积，得到的外积结果为外积特征图，(4,128,16,144,192)是外积特征图的大小，其中，16是指16个深度值和对应的概率，用(i,k,m,n)作为外积特征图的下标，含义是第i张图，深度为k，像素位置是(m,n)的特征向量。

作为第一种实现方式，将概率最大的深度值作为各个第二像素点的深度值，即各个第二像素位置对应一个深度值，即针对融合特征图中每一个第二像素位置的特征向量，采用该第二像素位置的深度值的概率作为权重和该像素位置对应的初始特征向量进行加乘，得到该第二像素位置的特征向量，从而，该第二像素位置对应一个深度值的特征向量。

作为第二种实现方式，针对融合特征图中每一个第二像素位置的特征向量，采用该第二像素位置的每一个深度值的概率作为权重和该第二像素位置对应的初始特征向量加乘，得到该第二像素位置在该深度值的特征向量，同理，可得到该第二像素位置在其他各个深度值的特征向量，从而，该第二像素位置对应多个深度值的特征向量。

步骤205，将第二特征图，作为第一特征图。

本申请实施例中，将第二特征图作为第一特征图，使得第一特征图中的各个第二像素点包含至少一个深度值的特征向量，实现通过深度预测考虑了环视相机的畸变，通过深度预测得到的多个深度的概率对特征向量进行加乘，以提高第一特征图中各个深度对应的特征向量的准确性，降低了环视图像畸变的影响。

步骤206，获取至少一个环视图像的第一特征图和三维空间的至少一个设定体素位置。

步骤207，针对每一个设定体素位置，根据设定体素位置对应的环视相机的内外参数，将设定体素位置从三维空间投射至图像空间，得到设定体素位置对应的第一像素位置。

其中，步骤207和步骤206可参照前述实施例中的解释说明，原理相同，此处不再追述。

步骤208，根据第一像素位置和深度信息，查找至少一个第一特征图中各个第二像素位置对应的至少一个深度值的特征向量，确定第一像素位置对应深度信息的目标特征向量。

其中，深度信息指示了第一像素位置对应的设定体素位置的深度值，即在相机坐标系下，设定体素位置（x_c,y_c,z_c）中的z_c的值。

本申请实施例中，在空间转换模块采用通过3D栅格采样（Grid Sample）技术，即对至少一个第一特征图中的各个第二像素位置对应的至少一个深度值的特征向量采样，确定第一像素位置对应深度信息的目标特征向量。

作为一种实现方式，将第一像素位置和各个第一特征图中的各个第二像素位置匹配，以确定目标像素位置，根据深度信息指示的深度值和目标像素位置的各个深度值匹配，以确定目标像素位置的和深度信息指示的深度值匹配的目标深度值，根据目标像素位置对应目标深度值的特征向量，确定第一像素位置对应深度信息的目标特征向量。

作为另一种实现方式，第一像素位置是一个设定体素位置映射到图像空间得到的，而每一个设定体素位置和环视相机的可视范围具有对应关系，即可预先确定各个环视相机的可视范围中有哪些设定体素位置，从而，可确定该设定体素位置对应的第一像素位置对应的环视相机，从而可确定对应的第一特征图，将第一像素位置和第一特征图中的各个第二像素位置匹配，以确定目标像素位置，根据深度信息指示的深度值和目标像素位置的各个深度值匹配，以确定目标像素位置的目标深度值，根据目标像素位置对应目标深度值的特征向量，确定第一像素位置对应深度信息的目标特征向量，实现基于多个深度值的特征向量进行匹配，降低了环视图像畸变的影响，提高了后续各个设定体素位置的特征向量确定的准确性，从而提高了体素特征图的准确性，以提高目标检测的精度。

需要说明的是，若确定的目标像素位置为多个，可将多个目标像素位置对应目标深度值的特征向量进行加权平均，以确定第一像素位置对应深度信息的特征向量，以提高各个第一像素位置在深度信息指示的深度值处的特征向量的准确性。

步骤209，根据目标特征向量，确定设定体素位置的特征向量。

作为一种实现方式，将目标特征向量作为设定体素位置的特征向量，同理，可确定其他各个设定体素位置的特征向量，实现对各个设定体素位置的特征向量的确定，实现在从图像空间到3D空间不存在解析解的情况下，即无法直接将图像空间的特征图映射到三维空间中的情况下，可以实现对三维空间中各个设定体素位置的特征向量的构建。

步骤210，根据至少一个设定体素位置的特征向量，生成三维空间的体素特征图。

具体可参照前述实施例中的解释说明，原理相同，此处不再赘述。

作为一种示例，如图3所示，在空间转换模块，在确定各个设定体素位置的特征向量后，生成三维空间的体素特征图，即（1,128,4,96,96），即一个三维空间的体素特征图是128维度，每一个第一特征图尺寸的长为96，宽为96，高为4，其中，高度是设定值。

步骤211，根据三维空间的体素特征图，进行目标检测。

作为一种示例，如图3所示，将三维空间的体素特征图输入鸟瞰图（Bird's EyeView，BEV）空间编码模块，先将4个高度的特征进行合并得到一个高度的特征信息，即三维空间的体素特征图表示为（1,128,96,96），进而将体素特征图进行多尺度融合和编码，得到BEV空间下的2D特征图，其中，多尺度融合的方法可参照前述步骤中的解释说明，原理相似，此处不再赘述，2D特征图大小为（1,128,96,96）。进而，将2D特征图输入3D的目标检测（Object Detection，OD）任务头(HEAD)，在BEV空间2D特征图的基础上，接上前馈网络（FeedForward Network，FFN），完成各类型的目标检测任务。其中，前馈网络可以为2个，一个前馈网络用于预测当前位置检测到的目标类型，另外一个前馈网络用于预测检测到的目标相对于当前位置的偏移（dx,dy,dz）和检测到的目标的大小（sx,sy,sz）。

作为一种示例，可检测多种类型的目标，例如，检测的目标类型的数量为10个，其中，包括背景类型。

本申请实施例的目标检测方法中，在环视图像的目标检测场景下，不同于周视相机采集到的周视图像，环视相机采集到的图像存在严重的畸变和形变。对于周视图像，从图像空间到3D空间，存在解析解。但是对于环视图像，从图像空间到3D空间，不存在解析解。因此，为了得到环视图像的3D空间体素特征图，只能将3D空间参考点即设定体素位置投影到环视图像空间，通过3D Grid Sample对环视外积特征图即第一特征图进行采样，完成3D空间体素特征图的构建，并在构建的过程中通过对各个像素点的深度预测，降低环视相机畸变的影响，提高了体素特征图构建的准确性。

基于上述实施例，本申请实施例提供了另一种目标检测方法，图5为本申请实施例提供的另一种目标检测方法的流程示意图，如图5所示，该方法包含以下步骤：

步骤501，获取至少一个环视图像的第一特征图和三维空间的至少一个设定体素位置。

其中，步骤501可参照前述实施例中的解释说明，原理相同，此处不再赘述。

步骤502，针对每一个设定体素位置，根据该设定体素位置对应的环视相机的外参，将设定体素位置从世界坐标系投影至环视相机的相机坐标系，得到相机坐标系下的三维位置。

本申请实施例中，针对每一个设定体素位置，获取该设定体素位置对应的环视相机的外参，外参包括旋转矩阵R和平移向量t，根据该设定体素位置对应的环视相机的外参，将设定体素位置Pw从世界坐标系投影至环视相机的相机坐标系，得到相机坐标系下的三维位置Pc。

其中，。

步骤503，基于相机坐标系和成像平面坐标系间的映射关系，将相机坐标系下的三维位置映射至成像平面坐标系，得到第二像素位置。

本申请实施例的一种实现方式中，采用了全向模型（Omnidirectional）作为投影模型，先将相机坐标系下的三维位置映射至球面坐标系，再从球面坐标系映射至成像平面坐标系。

作为一种示例，球面坐标系是基于归一化平面（Normalize平面）的计算模型，通过全向相机模型先将相机坐标系下的点投影到半径为1的归一化球面上，即球面坐标系：

；

其中，x_c、y_c和z_c是相机坐标系下的三维位置，x_s、y_s和z_s是球面坐标系下的三维位置。

然后，通过以下公式再从球面坐标系投影到环视图像平面上，即成像平面的坐标系：

；

其中，为Normalize平面的参数，可基于需求进行设定，成像平面坐标系以环视图像中心为原点，X轴向右，Y轴向上。

步骤504，根据防畸变参数对第二像素位置进行修正，得到修正后的第二像素位置。

其中，防畸变参数包括径向畸变参数和切向畸变参数。

本申请实施例中，由于环视相机采集的环视图像存在畸变，因此，在将三维空间中的体素位置映射至二维空间得到第二像素位置后，需要采用预先确定的环视相机对应的畸变模型的防畸变参数，对第二像素位置进行畸变处理，作为一种示例，畸变模型是Normalize平面到真实成像平面的计算模型，以实现在投影过程中考虑环视相机的畸变，提高投影后在二维空间中位置确定的准确性。其中，对第二像素位置进行修正的公式满足如下条件：

；

其中，（,/>）是修正后的第二像素位置，（/>,/>）是修正前的第二像素位置，r是修正前的第二像素位置到图像中心的距离，其中，k1、k2和k3是径向畸变参数,p1和p2是切向畸变参数，径向畸变参数和切向畸变参数，是设定值，可基于需求进行设定。

步骤505，根据设定体素位置对应的环视相机的内参，将修正后的第二像素位置映射至图像坐标系得到第一像素位置。

本申请实施例中，第一像素位置通过如下公式确定：

；

其中，、/>、/>和/>是环视相机的内参数。

步骤506，根据各个第一像素位置查找至少一个第一特征图中各个第二像素位置的特征向量，确定各个第一像素位置对应的设定体素位置的特征向量。

步骤507，根据至少一个设定体素位置的特征向量，生成三维空间的体素特征图。

步骤508，根据三维空间的体素特征图，进行目标检测。

其中，步骤506至步骤508可参照前述实施例的解释说明，原理相同，此处不再赘述。

本申请实施例的目标检测方法中，在将各个设定体素位置从三维空间转换至二维空间的过程中，进行畸变处理，修正了环视图像中存在的畸变，提高了各个设定体素位置映射至图像坐标系后得到的第一像素坐标的准确性，进而，提高后续构建得到的体素特征图的准确性。

为了实现上述实施例，本申请实施例还提出一种目标检测装置。

图6为本申请实施例提供的一种目标检测装置的结构示意图。

如图6所示，该装置可以包括：

获取模块61，用于执行获取至少一个环视图像的第一特征图和三维空间的至少一个设定体素位置。

映射模块62，用于执行针对每一个所述设定体素位置，根据所述设定体素位置对应的环视相机的内外参数，将所述设定体素位置从所述三维空间投射至图像空间，得到所述设定体素位置对应的第一像素位置。

第一确定模块63，用于执行根据各个所述第一像素位置查找至少一个第一特征图中各个第二像素位置的特征向量，确定各个所述第一像素位置对应的设定体素位置的特征向量。

生成模块64，用于执行根据至少一个设定体素位置的特征向量，生成三维空间的体素特征图。

检测模块65，用于执行根据所述三维空间的体素特征图，进行目标检测。

进一步，在本申请实施例的一种实现方式中，该装置还包括：融合模块和第二确定模块，其中：

获取模块61，还用于执行获取各个所述环视图像的多个尺度的候选特征图；

融合模块，用于执行针对每一个所述环视图像，将所述环视图像的多个尺度的候选特征图进行特征融合，得到所述环视图像的融合特征图；

第二确定模块，用于执行将所述融合特征图，作为所述环视图像的第一特征图。

在本申请实施例的一种实现方式中，该装置还包括：预测模块和第三确定模块，其中：

获取模块61，还用于执行获取各个所述环视图像的多个尺度的候选特征图。

融合模块，用于执行针对每一个所述环视图像，将所述环视图像的多个尺度的候选特征图进行特征融合，得到所述环视图像的融合特征图。

预测模块，用于执行对所述环视图像的融合特征图中的每一个第二像素位置的深度进行预测，得到每一个所述第二像素位置的至少一个深度值和所述至少一个深度值的概率。

第三确定模块，用于执行根据所述融合特征图、所述融合特征图中每一个第二像素位置的至少一个深度值和所述至少一个深度值的概率，确定所述环视图像的第二特征图；所述第二特征图中包括各个第二像素位置对应至少一个深度值的特征向量；将所述第二特征图，作为所述第一特征图。

在本申请实施例的一种实现方式中，所述第一像素位置携带深度信息，第一确定模块63，还用于执行：

根据所述第一像素位置和所述深度信息，查找所述至少一个第一特征图中各个第二像素位置对应的至少一个深度值的特征向量，确定所述第一像素位置对应所述深度信息的目标特征向量；根据所述目标特征向量，确定所述设定体素位置的特征向量。

在本申请实施例的一种实现方式中，第一确定模块63，还用于执行：

将所述第一像素位置和各个所述第一特征图中的各个第二像素位置匹配，以确定目标像素位置；根据所述深度信息指示的深度值和所述目标像素位置的各个深度值匹配，以确定所述目标像素位置的目标深度值；根据所述目标像素位置对应目标深度值的特征向量，确定所述第一像素位置对应所述深度信息的目标特征向量。

在本申请实施例的一种实现方式中，映射模块62，还用于执行：

根据所述设定体素位置对应的环视相机的外参，将所述设定体素位置从世界坐标系投影至所述环视相机的相机坐标系，得到所述相机坐标系下的三维位置；基于所述相机坐标系和成像平面坐标系间的映射关系，将所述相机坐标系下的三维位置映射至所述成像平面坐标系，得到所述第二像素位置；根据防畸变参数对所述第二像素位置进行修正，得到修正后的第二像素位置；根据所述设定体素位置对应的环视相机的内参，将所述修正后的第二像素位置映射至图像坐标系得到所述第一像素位置。

在本申请实施例的一种实现方式中，检测模块65，还用于执行：

对所述三维空间的体素特征图进行多尺度特征融合，得到鸟瞰图BEV空间下的第三特征图；根据所述第三特征图，识别目标类型和目标的位置。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请实施例的目标检测装置中，通过环视相机的内外参数，将三维空间的各个设定体素位置投影到二维空间，得到在二维空间的各个第一像素坐标，基于各个第一像素坐标查询二维空间的第一特征图，以确定各个设定体素位置对应的特征向量，根据各个设定体素位置对应的特征向量实现在环视相机场景下对三维空间的体素特征图的构建，进而实现准确的目标检测。

为了实现上述实施例，本申请还提出一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如前述方法实施例所述的方法。

为了实现上述实施例，本申请还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现如前述方法实施例所述的方法。

为了实现上述实施例，本申请还提出一种计算机程序产品，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述方法实施例所述的方法。

图7为本申请实施例提供的一种车辆的结构示意图。例如，车辆700可以是混合动力车辆，也可以是非混合动力车辆、电动车辆、燃料电池车辆或者其他类型的车辆。车辆700可以是自动驾驶车辆、半自动驾驶车辆或者非自动驾驶车辆。

参照图7，车辆700可包括各种子系统，例如，信息娱乐系统710、感知系统720、决策控制系统730、驱动系统740以及计算平台750。其中，车辆700还可以包括更多或更少的子系统，并且每个子系统都可包括多个部件。另外，车辆700的每个子系统之间和每个部件之间可以通过有线或者无线的方式实现互连。

在一些实施例中，信息娱乐系统710可以包括通信系统，娱乐系统以及导航系统等。

感知系统720可以包括若干种传感器，用于感测车辆700周边的环境的信息。例如，感知系统720可包括全球定位系统（全球定位系统可以是GPS系统，也可以是北斗系统或者其他定位系统）、惯性测量单元（Inertial Measurement Unit，IMU）、激光雷达、毫米波雷达、超声雷达以及摄像装置。

决策控制系统730可以包括计算系统、整车控制器、转向系统、油门以及制动系统。

驱动系统740可以包括为车辆700提供动力运动的组件。在一个实施例中，驱动系统740可以包括引擎、能量源、传动系统和车轮。引擎可以是内燃机、电动机、空气压缩引擎中的一种或者多种的组合。引擎能够将能量源提供的能量转换成机械能量。

车辆700的部分或所有功能受计算平台750控制。计算平台750可包括至少一个处理器751和存储器752，处理器751可以执行存储在存储器752中的指令753。

处理器751可以是任何常规的处理器，诸如商业可获得的CPU。处理器还可以包括诸如图像处理器（Graphic Process Unit，GPU），现场可编程门阵列（Field ProgrammableGate Array，FPGA）、片上系统（System on Chip，SOC）、专用集成芯片（ApplicationSpecific Integrated Circuit，ASIC）或它们的组合。

存储器752可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

除了指令753以外，存储器752还可存储数据，例如道路地图，路线信息，车辆的位置、方向、速度等数据。存储器752存储的数据可以被计算平台750使用。

在本公开实施例中，处理器751可以执行指令753，以完成上述的目标检测方法的全部或部分步骤。

此外，在本文中使用词语“示例性的”以表示充当示例、实例、示图。在本文中被描述为“示例性的”任何方面或设计都不一定理解为与其他方面或设计相比是有利的。相反，使用词语示例性的旨在以具体的方式呈现概念。如在本文中所使用的，术语“或”旨在表示包括性的“或”而不是排他性的“或”。即，除非另外指定，或者从上下文中清楚，否则“X应用A或B”旨在表示自然的包括性排列中的任何一种排列。即，如果X应用A；X应用B；或者X应用A和B两者，则“X应用A或B”在前述实例中的任何一个实例下都满足。另外，除非另外指定或者从上下文中清楚指向单数形式，否则如在该申请和所附权利要求中所使用的冠词“一”和“一个”通常被理解为表示“一个或多个”。

同样，尽管已经关于一个或多个实现示出并描述了本公开，但是在阅读并理解了该说明书和附图之后，本领域技术人员将想到等同的变型和修改。本公开包括所有这样的修改和变型，并且仅由权利要求的范围来限制。特别关于由上文所描述的组件（例如，元件、资源等）执行的各种功能，除非另外指出，否则用于描述这样的组件的术语旨在对应于执行所描述的组件的具体功能的任何组件（功能上等价的），即使结构上不等价于所公开的结构。另外，尽管可以已经关于几个实现中的一个而公开了本公开的特定的特征，但是如可以是期望的并且有利于任何给定的或特定的应用的那样，这样的特征可以与其它实现的一个或多个其它特征相结合。此外，就在具体实施方式或者权利要求中所使用的“包括”、“拥有”、“具有”、“有”、或其变型而言，这样的术语旨在作为类似于术语“包含”的方式是包括性的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种目标检测方法，其特征在于，包括：

根据所述三维空间的体素特征图，进行目标检测。

2.如权利要求1所述的方法，其特征在于，所述获取至少一个环视图像的第一特征图之前，还包括：

获取各个所述环视图像的多个尺度的候选特征图；

针对每一个所述环视图像，将所述环视图像的多个尺度的候选特征图进行特征融合，得到所述环视图像的融合特征图；

将所述融合特征图，作为所述环视图像的第一特征图。

3.如权利要求1所述的方法，其特征在于，所述获取至少一个环视图像的第一特征图之前，还包括：

获取各个所述环视图像的多个尺度的候选特征图；

对所述环视图像的融合特征图中的每一个第二像素位置的深度进行预测，得到每一个所述第二像素位置的至少一个深度值和所述至少一个深度值的概率；

根据所述融合特征图、所述融合特征图中每一个第二像素位置的至少一个深度值和所述至少一个深度值的概率，确定所述环视图像的第二特征图；所述第二特征图中包括各个第二像素位置对应至少一个深度值的特征向量；

将所述第二特征图，作为所述第一特征图。

4.如权利要求3所述的方法，其特征在于，所述第一像素位置携带深度信息，所述根据各个所述第一像素位置查找至少一个第一特征图中各个第二像素位置的特征向量，得到各个所述第一像素位置对应的设定体素位置的特征向量，包括：

根据所述第一像素位置和所述深度信息，查找所述至少一个第一特征图中各个第二像素位置对应的至少一个深度值的特征向量，确定所述第一像素位置对应所述深度信息的目标特征向量；

根据所述目标特征向量，确定所述设定体素位置的特征向量。

5.如权利要求4所述的方法，其特征在于，所述根据所述第一像素位置和所述深度信息，查找所述至少一个第一特征图中各个第二像素位置对应的至少一个深度值的特征向量，确定所述第一像素位置对应所述深度信息的目标特征向量，包括：

将所述第一像素位置和各个所述第一特征图中的各个第二像素位置匹配，以确定目标像素位置；

根据所述深度信息指示的深度值和所述目标像素位置的各个深度值匹配，以确定所述目标像素位置的目标深度值；

根据所述目标像素位置对应目标深度值的特征向量，确定所述第一像素位置对应所述深度信息的目标特征向量。

6.如权利要求1所述的方法，其特征在于，根据所述设定体素位置对应的环视相机的内外参数，将所述设定体素位置从所述三维空间投射至图像空间，得到所述设定体素位置对应的第一像素位置，包括：

根据所述设定体素位置对应的环视相机的外参，将所述设定体素位置从世界坐标系投影至所述环视相机的相机坐标系，得到所述相机坐标系下的三维位置；

基于所述相机坐标系和成像平面坐标系间的映射关系，将所述相机坐标系下的三维位置映射至所述成像平面坐标系，得到所述第二像素位置；

根据防畸变参数对所述第二像素位置进行修正，得到修正后的第二像素位置；

根据所述设定体素位置对应的环视相机的内参，将所述修正后的第二像素位置映射至图像坐标系得到所述第一像素位置。

7.如权利要求1-6任一项所述的方法，其特征在于，所述根据所述三维空间的体素特征图，进行目标检测，包括：

对所述三维空间的体素特征图进行多尺度特征融合，得到鸟瞰图BEV空间下的第三特征图；

根据所述第三特征图，识别目标类型和目标的位置。

8.一种目标检测装置，其特征在于，包括：

9.一种车辆，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

实现权利要求1~7中任一项所述目标检测方法的步骤。

10.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行权利要求1~7中任一项所述目标检测方法的步骤。