CN115331025A

CN115331025A - 三维目标检测方法、电子设备及存储介质

Info

Publication number: CN115331025A
Application number: CN202210872860.9A
Authority: CN
Inventors: 葛政; 黎泽明
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Wuhu Maichi Zhixing Technology Co ltd
Priority date: 2022-07-21
Filing date: 2022-07-21
Publication date: 2022-11-11

Abstract

本申请实施例提供了三维目标检测方法、电子设备及存储介质，该方法包括：获取目标图像；将目标图像输入到三维目标检测网络中，得到目标图像的三维检测结果，三维目标检测网络被配置为：获取目标图像的语义特征和深度特征；基于该语义特征和该深度特征，得到该目标图像的视锥特征；将该视锥特征中的相应的多个视锥特征像素构建为相应的鸟瞰视角特征通道，以得到目标图像的鸟瞰视角特征；基于该鸟瞰视角特征，得到目标图像的三维检测结果。

Description

三维目标检测方法、电子设备及存储介质

技术领域

本申请涉及计算机视觉领域，具体涉及三维目标检测方法、电子设备及存储介质。

背景技术

目前的三维目标检测网络例如CaDDN在进行目标检测时，首先将用于三维目标检测的图像的特征转换为与视锥空间相关的特征，然后，对与视锥空间相关的特征进行采样或池化，得到与鸟瞰视角相关的特征，利用与鸟瞰视角相关的特征进行目标检测，得到三维检测结果。

然而，与视锥空间相关的特征进行采样或池化的计算量大，导致得到与鸟瞰视角相关的特征的速度慢，得到三维检测结果的速度慢，目前的三维目标检测网络无法应用于在对得到三维检测结果的速度要求高的设备例如自动驾驶车辆上。

发明内容

本申请实施例提供一种三维目标检测方法、电子设备及存储介质。

本申请实施例提供一种三维目标检测方法，包括：

获取目标图像；

将所述目标图像输入到三维目标检测网络中，得到所述目标图像的三维检测结果，所述三维目标检测网络被配置为：

获取所述目标图像的语义特征和深度特征；

基于所述语义特征和所述深度特征，得到所述目标图像的视锥特征；

将所述视锥特征中的相应的多个视锥特征像素构建为相应的鸟瞰视角特征通道，以得到所述目标图像的鸟瞰视角特征；

基于所述鸟瞰视角特征，得到所述目标图像的三维检测结果。

本申请实施例提供一种电子设备，包括：存储器、处理器及存储在存储器上的计算机程序，该处理器执行该计算机程序以实现上述三维目标检测方法。

本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现上述三维目标检测方法。

本申请实施例提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现实现上述三维目标检测方法。

本申请实施例提供的三维目标检测方法，获取目标图像；将目标图像输入到三维目标检测网络中，得到目标图像的三维检测结果，三维目标检测网络被配置为：获取目标图像的语义特征和深度特征；基于目标图像的语义特征和目标图像的深度特征，得到目标图像的视锥特征；将视锥特征中的相应的多个视锥特征像素构建为相应的鸟瞰视角特征通道，以得到目标图像的鸟瞰视角特征；基于目标图像的鸟瞰视角特征，得到目标图像的三维检测结果。无需对与视锥空间相关的特征进行采样或池化，从而，可以较快地得到与鸟瞰视角相关的特征即鸟瞰视角特征，较快地得到三维检测结果，本申请实施例提供的三维目标检测方法可以应用于对得到三维检测结果的速度要求高的设备上。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1示出了本申请实施例提供的三维目标检测方法的流程图；

图2示出了本申请实施例提供的三维目标检测装置的结构框图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了本申请实施例提供的三维目标检测方法的流程图，该方法包括：

步骤101，获取目标图像。

在本申请中，目标图像可以由安装在车辆例如自动驾驶车辆上的相机采集。

步骤102，将目标图像输入到三维目标检测网络中，得到目标图像的三维检测结果。

在本申请中，三维目标检测网络被配置为获取目标图像的语义特征和深度特征；基于目标图像的语义特征和目标图像的深度特征，得到所述目标图像的视锥特征；将目标图像的视锥特征中的相应的多个视锥特征像素构建为相应的鸟瞰视角特征通道，以得到目标图像的鸟瞰视角(Bird-Eye-View，简称BEV)特征；基于目标图像的鸟瞰视角特征，得到目标图像的三维检测结果。

在本申请中，目标图像的语义特征具有多个语义特征通道，每一个语义特征通道为特征图。

可以将目标图像的语义特征中的语义特征通道的数量称之为目标图像的语义特征的通道数量。

目标图像的语义特征通道的高度维度为：目标图像的语义特征通道中的行的数量。

目标图像的语义特征通道的宽度维度为：目标图像的语义特征通道中的列的数量。

对于目标图像的语义特征中的每一个语义特征通道，该语义特征通道中的语义特征像素的数量为：目标图像的语义特征通道的高度维度*目标图像的语义特征通道的宽度维度。

目标图像的语义特征通道的高度维度可以为16，目标图像的语义特征通道的宽度维度可以为44，目标图像的语义特征的通道数量可以为256，目标图像的语义特征中的每一个语义特征通道可以具有16*44个语义特征像素。

在本申请中，当获取目标图像的语义特征时，可以将目标图像输入到用于提取图像的语义特征的卷积神经网络例如ResNet、MobileNet中，用于提取图像的语义特征的卷积神经网络输出目标图像的语义特征。

在本申请中，目标图像的深度特征具有多个深度特征通道，每一个深度特征通道为特征图。

可以将目标图像的深度特征中的深度特征通道的数量称之为目标图像的深度特征的通道数量。

目标图像的深度特征的每一个深度特征通道对应不同的预设深度，目标图像的深度特征的通道数量与预设深度的数量相同。

预设深度的数量可以为112，预设深度可以具有112个深度特征通道。

目标图像的深度特征通道的高度维度为：目标图像的深度特征中的深度特征通道中的行的数量，目标图像的深度特征通道的高度维度与目标图像的语义特征通道的高度维度相同。

目标图像的深度特征通道的宽度维度为：目标图像的深度特征通道中的列的数量，目标图像的深度特征通道的宽度维度与目标图像的语义特征通道的宽度维度相同。

对于目标图像的深度特征中的每一个深度特征通道，该深度特征通道中的深度特征像素的数量为：目标图像的深度特征通道的高度维度*目标图像的深度特征通道的宽度维度。

目标图像的深度特征通道的高度维度可以为16，目标图像的深度特征通道的宽度维度可以为44，目标图像的深度特征的通道数量可以为112，目标图像的深度特征中的每一个深度特征通道具有16*44个深度特征像素。

在本申请中，当获取目标图像的深度特征时，可以根据采集目标图像的相机的内参、目标图像的语义特征、第一先验关系，得到目标图像的深度特征。第一先验关系表示给定的图像的深度特征与采集给定的图像的相机的内参、给定的图像的语义特征的关联关系。

在本申请中，深度特征通道记为D。一个深度特征像素的位置为(Dr，Ds，Dt)，该深度特征像素的位置表示该深度特征像素为第r个深度特征通道中的第s行中的深度特征像素并且该深度特征像素为第r个深度特征通道中的第t列中的深度特征像素。

在本申请中，一个深度特征通道D_r中的具有的位置为(D_r，D_s，D_t)的深度特征像素可以为：对应于该深度特征像素的语义特征像素在对应于D_r的预设深度上的概率。

语义特征通道记为F，一个语义特征像素的位置为(F_o，F_p，F_q)，该语义特征像素的位置表示该语义特征像素为第o个语义特征通道中的第p行中的语义特征像素并且该语义特征像素为第o个语义特征通道中的第q列中的语义特征像素。

目标图像的语义特征的通道数量记为n，对于具有的位置为(D_r，D_s，D_t)的深度特征像素，具有的位置为(F₁，F_s，F_t)的语义特征像素、具有的位置为(F₂，F_s，F_t)的语义特征像素...具有的位置为(F_n，F_s，F_t)的语义特征像素均对应于该深度特征像素。

在本申请中，当基于目标图像的语义特征和目标图像的深度特征，得到目标图像的视锥特征时，可以根据目标图像深度特征、目标图像的语义特征、第二先验关系，得到目标图像的视锥特征。第二先验关系表示给定的图像的视锥特征与给定的图像的语义特征、给定的图像的深度特征的关联关系。

在本申请中，目标图像的视锥特征具有多个视锥特征像素。

目标图像视锥特征中的相应的视锥特征像素是利用相应的语义特征像素在相应的预设深度的概率对该相应的语义特征像素进行加权得到的。

对于任意一个语义特征像素和任意一个预设深度，利用该语义特征像素在该预设深度的概率对该语义特征像素进行加权，得到一个视锥特征像素，得到的视锥特征像素可以称之为该语义特征像素在该预设深度的相关视锥特征像素。

对于任意一个语义特征像素和任意一个预设深度，利用该语义特征像素在该预设深度的概率对该语义特征像素进行加权可以为：将该语义特征像素在该预设深度的概率与该语义特征像素相乘，可以将该语义特征像素在该预设深度的概率与该语义特征像素的乘积作为一个该语义特征像素在该预设深度的相关视锥特征像素。

对于任意一个语义特征通道中的每一个语义特征像素，分别利用该语义特征像素在每一个预设深度的概率对该语义特征像素，得到相应的多个视锥特征像素。

在本申请中，目标图像的深度特征的通道数量与预设深度的数量相同。

视锥特征中的视锥特征像素的数量为：目标图像的语义特征的通道数量*目标图像的深度特征的通道数量*目标图像的语义特征通道的高度维度*目标图像的语义特征通道的宽度维度。

在本申请中，目标图像的语义特征通道的高度维度与目标图像的深度特征通道的高度维度相同，目标图像的语义特征通道的宽度维度与目标图像的深度特征的的宽度维度相同。

目标图像的语义特征的通道数量可以为256，目标图像的深度特征的通道数量可以为112，目标图像的语义特征通道的高度维度可以为16，目标图像的语义特征通道的宽度维度可以为44，视锥特征中的视锥特征像素的数量可以为256*112*16*44。

在本申请中，目标图像的鸟瞰视角特征包括：多个鸟瞰视角特征通道。每一个鸟瞰视角特征通道为特征图，每一个鸟瞰视角特征通道具有多个鸟瞰视角特征像素。

在本申请中，目标图像的鸟瞰视角特征通道的高度维度为：目标图像的鸟瞰视角特征通道中的行的数量，目标图像的鸟瞰视角特征通道的高度维度与目标图像的深度特征的通道数量相同。

目标图像的鸟瞰视角特征通道的宽度维度为：目标图像的鸟瞰视角特征通道中的列的数量，目标图像的鸟瞰视角特征通道的宽度维度与目标图像的语义特征通道的宽度维度相同。

可以将目标图像的鸟瞰视角特征中的鸟瞰视角特征通道的数量称之为目标图像的鸟瞰视角特征的通道数量。

目标图像的鸟瞰视角特征的通道数量为：目标图像的语义特征的通道数量*目标图像的语义特征通道的高度维度。

目标图像的语义特征通道的高度维度可以为16，目标图像的语义特征通道的宽度维度可以为44，目标图像的语义特征的通道数量可以为256。

目标图像的深度特征通道的高度维度可以为16，目标图像的深度特征的的宽度维度可以为44，目标图像的深度特征的通道数量可以为112。

目标图像的鸟瞰视角特征通道的高度维度可以为112，目标图像的鸟瞰视角特征通道的宽度维度可以为44，目标图像的鸟瞰视角特征的通道数量可以为4096。

在本申请中，将目标图像的视锥特征中的相应的多个视锥特征像素构建为相应的鸟瞰视角特征通道，以得到目标图像的鸟瞰视角特征。

可以对于目标图像的视锥特征中的每一个视锥特征像素，确定该视锥特征像素在鸟瞰视角特征中的位置，该视锥特征像素在鸟瞰视角特征中的位置表示：该视锥特征像素属于目标图像的鸟瞰视角特征中的哪一个鸟瞰视角特征通道、该视锥特征像素属于相应的鸟瞰视角特征通道中的哪一行，该视锥特征像素属于相应的鸟瞰视角特征通道中的哪一列。

在对于目标图像的视锥特征中的每一个视锥特征像素，确定该视锥特征像素在鸟瞰视角特征中的位置之后，根据视锥特征像素在鸟瞰视角特征中的位置，可以确定属于同一个鸟瞰视角特征通道的所有视锥特征像素，属于同一个鸟瞰视角特征通道的所有视锥特征像素即可构成相应的一个鸟瞰视角特征通道。从而，可以得到目标图像的所有鸟瞰视角特征通道，得到目标图像的鸟瞰视角特征。

以下举例说明确定一个视锥特征像素在鸟瞰视角特征中的位置的过程，确定其他视锥特征像素在鸟瞰视角特征中的位置的过程同理：

目标图像的语义特征通道的高度维度为目标图像的语义特征通道中的行的数量，目标图像的语义特征通道的高度维度记为h，目标图像的语义特征的通道数量记为n，鸟瞰视角特征记为B，视锥特征记为V；

对于一个视锥特征像素V(c，i，j，d_k)，V(c，i，j，d_k)为具有的位置(F_c，F_i，F_j)的语义特征像素在预设深度d_k的相关视锥特征像素；

c为1、2...n中的一个，具有的位置(F_c，F_i，F_j)的语义特征像素为：第c个语义特征通道中的属于第i行并且属于第j列的语义特征像素；

d_k为所有预设深度中的第k个预设深度，V(c，i，j，d_k)通过利用具有的位置为(F_c，F_i，F_j)的语义特征像素在d_k的概率对具有的位置为(F_c，F_i，F_j)的语义特征像素进行加权得到；

V(c，i，j，d_k)属于第Bx个鸟瞰视角特征通道的第j行，x＝h*(c-1)+i；

V(c，i，j，d_k)属于第Bx个鸟瞰视角特征通道的第k列。

在本申请中，基于目标图像的鸟瞰视角特征，得到目标图像的三维检测结果。

在本申请中，三维目标检测网络包括检测器，该检测器可以称之为CenterPointHead，可以将目标图像的鸟瞰视角特征转换为该检测器的输入向量，目标图像的鸟瞰视角特征的每一个鸟瞰视角特征通道为该检测器的输入向量的分量，将检测器的输入向量输入到检测器中，该检测器输出目标图像的三维检测结果。

目标图像的三维检测结果包括：目标图像中的每一个检测到的目标的检测结果，检测到的目标的检测结果可以包括：检测到的目标的类型、检测到的目标的三维包围框的中心点在三维空间中的位置的坐标在世界坐标系的x轴的坐标值、检测到的目标的三维包围框的中心点在三维空间中的位置的坐标在世界坐标系的y轴的坐标值、检测到的目标的三维包围框的中心点在三维空间中的位置的坐标世界坐标系的z轴的坐标值、检测到的目标的三维包围框的长度、检测到的目标的三维包围框的宽度、检测到的目标的三维包围框的高度。检测到的目标为行人、车辆、障碍物等。检测到的目标的三维包围框为三维空间中的包围检测到的目标的包围框。

在一些实施例中，将目标图像的视锥特征中的相应的多个视锥特征像素构建为相应的鸟瞰视角特征通道，以得到目标图像的鸟瞰视角特征包括：分别对目标图像的语义特征的每一个语义特征通道进行鸟瞰视角特征通道构建操作，对于每一个语义特征通道，对该语义特征通道的鸟瞰视角特征通道构建操作包括：对于该语义特征通道中的每一行，构建对应于该行的鸟瞰视角特征通道，构建对应于该行的鸟瞰视角特征通道包括：对于该行中的每一个语义特征像素，将该语义特征像素在每一个预设深度的相关视锥特征像素构建为对应于该行的鸟瞰视角特征通道的一行。

目标图像的语义特征通道的高度维度为目标图像的语义特征通道中的行的数量，对于每一个语义特征通道，通过对该语义特征通道的鸟瞰视角特征通道构建操作，得到的鸟瞰视角特征通道为：目标图像的语义特征通道的高度维度。

分别对目标图像的每一个语义特征通道进行鸟瞰视角特征通道构建操作，得到的鸟瞰视角特征通道的数量为：目标图像的语义特征的通道数量*目标图像的语义特征通道的高度维度。

在本申请中，目标图像的语义特征的通道数量可以为256，目标图像的鸟瞰视角特征通道的高度维度可以为112，目标图像的鸟瞰视角特征的通道数量可以为4096。

以下举例说明构建对应于一个语义特征通道的一行的一个鸟瞰视角特征通道的过程，构建对应于其他语义特征通道的其他行的一个鸟瞰视角特征通道的过程同理：

目标图像的语义特征通道的高度维度记为h，目标图像的语义特征的通道数量记为n，预设深度的数量记为m，鸟瞰视角特征记为B；

c为1、2...n中的一个，对于语义特征通道c中的第i行，对应于语义特征通道c中的第i行的鸟瞰视角特征通道为：第Bx个鸟瞰视角特征通道，x＝h*(c-1)+i，i为1、2...h中的一个；

语义特征通道c中的具有的位置(F_c，F_i，F_j)的语义特征像素为：第c个语义特征通道中的属于第i行并且属于第j列的语义特征像素，将具有的位置(F_c，F_i，F_j)的语义特征像素在每一个预设深度的相关视锥特征像素构建为第Bx个鸟瞰视角特征通道中的第j行，即将具有的位置(F_c，F_i，F_j)的语义特征像素在d₁的相关视锥特征像素、将具有的位置(F_c，F_i，F_j)的语义特征像素在d₂的相关视锥特征像素...将具有的位置(F_c，F_i，F_j)的语义特征像素在d_m的相关视锥特征像素构建为第Bx个鸟瞰视角特征通道中的第j行；

第Bx个鸟瞰视角特征通道中的第j行包括：具有的位置(F_c，F_i，F_j)的语义特征像素在每一个预设深度的相关视锥特征像素；

具有的位置(F_c，F_i，F_j)的语义特征像素在预设深度d_k的相关视锥特征像素属于第Bx个鸟瞰视角特征通道中的第k列，k为1、2...m中的一个，预设深度d_k为所有预设深度中的第k个预设深度，预设深度的次序通过按照预设深度从小至大对所有预设深度进行排序得到。

在一些实施例中，基于目标图像的鸟瞰视角特征，得到目标图像的三维检测结果包括：利用用于处理鸟瞰视角特征的单元对目标图像的鸟瞰视角特征进行处理，得到处理后的鸟瞰视角特征，用于处理鸟瞰视角特征的单元包括多个卷积层；将处理后的鸟瞰视角特征转换为三维目标检测网络中的检测器的输入向量；将该检测器的输入向量输入到该检测器中，得到该检测器输出的目标图像的三维检测结果。

在本申请中，用于处理鸟瞰视角特征的单元中的卷积层的数量记为n，用于处理鸟瞰视角特征的单元中的第k个卷积层连接第k-1个卷积层，k为2、3...n中的一个。用于处理鸟瞰视角特征的单元中的第1个卷积层的输入为鸟瞰视角特征，用于处理鸟瞰视角特征的单元中的最后一个卷积层输出处理后的鸟瞰视角特征。将处理后的鸟瞰视角特征转换为三维目标检测网络中的检测器的输入向量，处理后的鸟瞰视角特征中的每一个通道为检测器的输入向量中的一个分量。将该检测器的输入向量输入到检测器中，检测器输出目标图像的三维检测结果。

在一些实施例中，获取目标图像的语义特征和深度特征包括：利用全连接层对采集目标图像的相机的内参进行处理，得到权重向量，其中，权重向量中的每一个权重对应目标图像的语义特征中的语义特征通道；对于目标图像的语义特征的每一个语义特征通道，利用对应于该语义特征通道的权重对该语义特征通道进行加权，得到该语义特征通道的加权语义特征通道；将得到的所有加权语义特征通道输入到用于提取深度特征的单元中，得到所述用于提取深度特征的单元输出的所述目标图像的深度特征，所述用于提取深度特征的单元包括多个卷积层。

在本申请中，可以利用全连接层对采集目标图像的相机的内参进行处理，得到一个权重向量，权重向量的每一个分量为权重，每一个权重对应目标图像的语义特征中的语义特征通道。

目标图像的语义特征可以具有256个语义特征通道，权重向量的维度可以为256。

对于目标图像的语义特征的每一个语义特征通道，利用对应于该语义特征通道的权重对该语义特征通道进行加权，得到该语义特征通道的加权语义特征通道，利用对应于该语义特征通道的权重对该语义特征通道进行加权，得到该语义特征通道的加权语义特征通道包括：分别将该语义特征通道中的每一个语义特征像素与对应于该语义特征通道的权重相乘，得到每一个该语义特征像素的加权语义特征像素；对于该语义特征通道中的每一个语义特征像素，由该语义特征像素的加权语义特征像素替换该该语义特征像素，得到该语义特征通道的加权语义特征通道，该语义特征通道的加权语义特征通道包括该语义特征通道中的每一个语义特征像素的加权语义特征像素。

可以将所有加权语义特征通道输入到用于提取深度特征的单元中，用于提取深度特征的单元包括多个卷积层，用于提取深度特征的单元输出目标图像的深度特征。

用于提取深度特征的单元中的卷积层的数量记为n，用于提取深度特征的单元中的第k个卷积层连接第k-1个卷积层，k为2、3...n中的一个。用于提取深度特征的单元中的第1个卷积层的输入为得到的所有加权语义特征通道，最后一个卷积层输出目标图像的深度特征。

在一些实施例中，基于目标图像的语义特征和深度特征，得到目标图像的视锥特征包括：将目标图像的深度特征和目标图像的语义特征进行外积，得到目标图像的视锥特征。

请参考图2，其示出了本申请实施例提供的三维目标检测装置的结构框图。三维目标检测装置包括：获取单元201，检测单元302。

获取单元201被配置为获取目标图像；

检测单元202被配置为将所述目标图像输入到三维目标检测网络中，得到所述目标图像的三维检测结果，所述三维目标检测网络被配置为：获取所述目标图像的语义特征和深度特征；基于所述语义特征和所述深度特征，得到所述目标图像的视锥特征；将所述视锥特征中的相应的多个视锥特征像素构建为相应的鸟瞰视角特征通道，以得到所述目标图像的鸟瞰视角特征；基于所述鸟瞰视角特征，得到所述目标图像的三维检测结果。

在一些实施例中，将所述视锥特征中的相应的多个视锥特征像素构建为相应的鸟瞰视角特征通道，以得到所述目标图像的鸟瞰视角特征包括：分别对所述语义特征的每一个语义特征通道进行鸟瞰视角特征通道构建操作，对所述语义特征通道的鸟瞰视角特征通道构建操作包括：对于所述语义特征通道中的每一行，构建对应于所述行的鸟瞰视角特征通道，构建对应于所述行的鸟瞰视角特征通道包括：对于所述行中的每一个语义特征像素，将所述语义特征像素在每一个预设深度的相关视锥特征像素构建为所述对应于所述行的鸟瞰视角特征通道的一行。

在一些实施例中，基于所述鸟瞰视角特征，得到所述目标图像的三维检测结果包括：利用用于处理鸟瞰视角特征的单元对所述鸟瞰视角特征进行处理，得到处理后的鸟瞰视角特征，用于处理鸟瞰视角特征的单元包括多个卷积层；将处理后的鸟瞰视角特征转换为所述检测器的输入向量；将所述检测器的输入向量输入到所述检测器中，得到所述检测器输出的所述三维检测结果。

在一些实施例中，获取所述目标图像的语义特征和深度特征包括：利用全连接层对采集所述目标图像的相机的内参进行处理，得到权重向量，其中，所述权重向量中的每一个权重对应目标图像的语义特征中的语义特征通道；对于目标图像的语义特征的每一个语义特征通道，利用对应于该语义特征通道的权重对所述语义特征通道进行加权，得到所述语义特征通道的加权语义特征通道；将得到的所有加权语义特征通道输入到用于提取深度特征的单元中，得到所述用于提取深度特征的单元输出的所述目标图像的深度特征，所述用于提取深度特征的单元包括多个卷积层。

在一些实施例中，基于所述语义特征和所述深度特征，得到所述目标图像的视锥特征包括：将所述深度特征和所述语义特征进行外积，得到所述目标图像的视锥特征。

在一些实施例中，所述三维目标检测网络应用于自动驾驶车辆。

本申请还提供了一种电子设备，该电子设备可以配置有一个或多个处理器；存储器，用于存储一个或多个程序，一个或多个程序中可以包括用以执行上述实施例中描述的操作的指令。当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器执行上述三维目标检测方法实施例中描述的操作的指令。

本申请还提供了一种存储介质，该存储介质可以是电子设备中所包括的；也可以是单独存在，未装配入电子设备中。上述存储介质承载有一个或者多个程序，当一个或者多个程序被电子设备执行时，使得电子设备执行上述三维目标检测方法实施例中描述的操作。

需要说明的是，本申请所述存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包括或存储程序的有形介质，该程序可以被消息执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多方面形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由消息执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包括的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包括一个或多个用于实现规定的逻辑功能的可执行消息。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机消息的组合来实现。

以上描述仅为本请求的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术实施例，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术实施例。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术实施例。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

获取目标图像；

获取所述目标图像的语义特征和深度特征；

2.根据权利要求1所述的方法，其特征在于，将所述视锥特征中的相应的多个视锥特征像素构建为相应的鸟瞰视角特征通道，以得到所述目标图像的鸟瞰视角特征包括：

分别对所述语义特征的每一个语义特征通道进行鸟瞰视角特征通道构建操作，对所述语义特征通道的鸟瞰视角特征通道构建操作包括：

对于所述语义特征通道中的每一行，构建对应于所述行的鸟瞰视角特征通道，构建对应于所述行的鸟瞰视角特征通道包括：对于所述行中的每一个语义特征像素，将所述语义特征像素在每一个预设深度的相关视锥特征像素构建为所述对应于所述行的鸟瞰视角特征通道的一行。

3.根据权利要求1所述的方法，其特征在于，基于所述鸟瞰视角特征，得到所述目标图像的三维检测结果包括：

利用用于处理鸟瞰视角特征的单元对所述鸟瞰视角特征进行处理，得到处理后的鸟瞰视角特征，用于处理鸟瞰视角特征的单元包括多个卷积层；

将所述处理后的鸟瞰视角特征转换为所述三维目标检测网络中的检测器的输入向量；

将所述检测器的输入向量输入到所述检测器中，得到所述检测器输出的所述目标图像的三维检测结果。

4.根据权利要求1所述的方法，其特征在于，获取所述目标图像的语义特征和深度特征包括：

利用全连接层对采集所述目标图像的相机的内参进行处理，得到权重向量，其中，所述权重向量中的每一个权重对应目标图像的语义特征中的语义特征通道；

对于目标图像的语义特征的每一个语义特征通道，利用对应于该语义特征通道的权重对所述语义特征通道进行加权，得到所述语义特征通道的加权语义特征通道；

将得到的所有加权语义特征通道输入到用于提取深度特征的单元中，得到所述用于提取深度特征的单元输出的所述目标图像的深度特征，所述用于提取深度特征的单元包括多个卷积层。

5.根据权利要求1所述的方法，其特征在于，基于所述语义特征和所述深度特征，得到所述目标图像的视锥特征包括：

将所述深度特征和所述语义特征进行外积，得到所述目标图像的视锥特征。

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述三维目标检测网络应用于自动驾驶车辆。

7.一种电子设备，包括：存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-6中任一项所述的方法。

8.一种计算机可读存储介质，其上存储有计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-6中任一项所述的方法。

9.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-6中任一项所述的方法。