CN112287824A

CN112287824A - 基于双目视觉的三维目标检测方法、装置及系统

Info

Publication number: CN112287824A
Application number: CN202011176663.0A
Authority: CN
Inventors: 蒋韬; 宋涛; 章良君; 谢迪; 浦世亮
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2021-01-29

Abstract

本申请提供一种基于双目视觉的三维目标检测方法、装置及系统，该方法包括：获取双目图像的视差图，以及，获取所述双目图像的图像特征；确定所述视差图中各像素的相机坐标系坐标，并对各像素的相机坐标系坐标进行定点化操作，以得到各像素的三维网格坐标；基于各像素的三维网格坐标，以及所述双目图像的图像特征，确定鸟瞰图数据；对所述鸟瞰图数据进行三维目标检测。该方法可以高效地实现基于双目视觉的三维目标检测，提升三维目标检测的性能。

Description

基于双目视觉的三维目标检测方法、装置及系统

技术领域

本申请涉及智能感知技术领域，尤其涉及一种基于双目视觉的三维目标检测方法、装置及系统。

背景技术

传统的三维目标检测方案是通过提取三维点云，并通过指定编码方式生成鸟瞰图(BEV)作为三维目标检测的输入，然后使用含有编码器与解码器结构的网络结构得到RGB(Red，Green，Blue，红绿蓝)图像和BEV的全分辨率特征图。再通过预测锚点及其偏移量得到锚盒，将对应锚盒投射回RGB图像和鸟瞰图的特征图的对应感兴趣区域，提取感兴趣区域特征并将其插值为3x3大小，最后使用1x1卷积降低特征维度并生成三维检测结果。

然而实践发现，上述方案至少存在以下问题：

1、检测流程复杂：上述方案中每帧可能有80k-100k个锚点，针对每个锚点，均需先通过投影变换找到对应的感兴趣区域，然后再经过插值操作及卷积操作才能够得到检测结果，计算量大，耗时多。

2、检测成本高昂：上述方案需要使用激光雷达的点云数据作为输入，检测成本过高。

发明内容

有鉴于此，本申请提供一种基于双目视觉的三维目标检测方法及装置。

具体地，本申请是通过如下技术方案实现的：

根据本申请实施例的第一方面，提供一种基于双目视觉的三维目标检测方法，包括：

获取双目图像的视差图，以及，获取所述双目图像的图像特征；

确定所述视差图中各像素的相机坐标系坐标，并对各像素的相机坐标系坐标进行定点化操作，以得到各像素的三维网格坐标；

基于各像素的三维网格坐标，以及所述双目图像的图像特征，确定鸟瞰图数据；

对所述鸟瞰图数据进行三维目标检测。

根据本申请实施例的第二方面，提供一种基于双目视觉的三维目标检测装置，包括：

获取单元，用于获取双目图像的视差图，以及，获取所述双目图像的图像特征；

定点化单元，用于确定所述视差图中各像素的相机坐标系坐标，并对各像素的相机坐标系坐标进行定点化操作，以得到各像素的三维网格坐标；

确定单元，用于基于各像素的三维网格坐标，以及所述双目图像的图像特征，确定鸟瞰图数据；

检测单元，用于对所述鸟瞰图数据进行三维目标检测。

根据本申请实施例的第三方面，提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述基于双目视觉的三维目标检测方法。

根据本申请实施例的第四方面，提供一种机器可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述基于双目视觉的三维目标检测方法。

根据本申请实施例的第五方面，提供一种基于双目视觉的三维目标检测系统，包括：双目相机、处理器和机器可读存储介质；

所述双目相机，用于获取双目图像；

所述机器可读存储介质，用于存储能够被所述处理器执行的机器可执行指令；

所述处理器，用于执行机器可执行指令，以实现上述基于双目视觉的三维目标检测方法。

本申请实施例的基于双目视觉的三维目标检测方法，通过获取双目图像的视差图，以及，获取双目图像的图像特征，确定视差图中各像素的相机坐标系坐标，并对各像素的相机坐标系坐标进行定点化操作，以得到各像素的三维网格坐标；进而，基于各像素的三维网格坐标，以及双目图像的图像特征，确定鸟瞰图数据，并对鸟瞰图数据进行三维目标检测，通过将图像特征与三维拓扑巧妙地融合，高效地实现了基于双目视觉的三维目标检测，提升了三维目标检测的性能。

附图说明

图1是本申请一示例性实施例示出的一种基于双目视觉的三维目标检测方法的流程示意图；

图2是本申请一示例性实施例示出的一种得到各像素的三维网格坐标的流程示意图；

图3是本申请一示例性实施例示出的一种确定鸟瞰图数据的流程示意图；

图4是本申请一示例性实施例示出的一种三维目标检测方案实现流程示意图；

图5A和图5B是本申请一示例性实施例示出的特征提取网络结构示意图；

图6是本申请一示例性实施例示出的一种三维目标检测的网络结构示意图；

图7是本申请一示例性实施例示出的一种三维目标检测网络的训练流程示意图；

图8是本申请一示例性实施例示出的一种基于双目视觉的三维目标检测装置的结构示意图；

图9是本申请又一示例性实施例示出的另一种基于双目视觉的三维目标检测装置的结构示意图；

图10是本申请一示例性实施例示出的一种电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

为了使本领域技术人员更好地理解本申请实施例提供的技术方案，并使本申请实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请实施例中技术方案作进一步详细的说明。

请参见图1，为本申请实施例提供的一种基于双目视觉的三维目标检测方法的流程示意图，如图1所示，该基于双目视觉的三维目标检测方法可以包括以下步骤：

步骤S100、获取双目图像的视差图，以及，获取双目图像的图像特征。

本申请实施例中，对于双目相机获取到的双目图像(通常为RGB图像)，一方面，可以获取双目图像的视差图像，以便后续流程中进行三维空间映射；另一方面，可以对双目图像进行特征提取，以得到双目图像的图像特征。

示例性的，对于双目图像，可以利用视差估计方法，例如，预训练神经网络，得到对应的视差图。

示例性的，可以通过神经网络提取双目图像的特征。

需要说明的是，在进行图像特征提取时，可以输入单目图像，也可以输入双目图像。

其中，所获取到的图像特征与输入图像的分辨率相同(即长宽分别相同)。

步骤S110、确定视差图中各像素的相机坐标系坐标，并对各像素的相机坐标系坐标进行定点化操作，以得到各像素的三维网格坐标。

本申请实施例中，为了实现三维空间映射，在获取到双目图像的视差图时，可以确定该视差图中各像素的相机坐标系坐标，并对各像素的相机坐标系坐标进行定点化操作，以得到各像素的三维网格坐标。

步骤S120、基于各像素的三维网格坐标，以及双目图像的图像特征，确定鸟瞰图数据。

步骤S130、对该鸟瞰图数据进行三维目标检测。

本申请实施例中，当按照步骤S110中的方式得到各像素的三维网格坐标时，可以基于各像素的三维网格坐标，以及双目图像的图像特征，构造鸟瞰图数据，进而，可以对所构造的鸟瞰图数据进行三维目标检测。

可见，在图1所示方法流程中，一方面，获取双目图像的视差图，并进行视差图到三维空间的映射，得到各像素的三维网格坐标；另一方面，获取双目图像的图像特征，进而，基于各像素的三维网格坐标，以及双目图像的图像特征，确定鸟瞰图，并对鸟瞰图进行三维目标检测，通过将图像特征与三维拓扑巧妙地融合，高效地实现了基于双目视觉的三维目标检测，提升了三维目标检测的性能。

在一些实施例中，如图2所示，步骤S110中，确定视差图中各像素的相机坐标系坐标，并对各像素的相机坐标系坐标进行定点化操作，以得到各像素的三维网格坐标，可以通过以下步骤实现：

步骤S111、基于视差图中各像素的像素坐标、各像素的视差值以及相机内参，确定各像素的相机坐标系坐标；

步骤S112、基于预设三维空间约束区间，对各像素的相机坐标系坐标进行三维空间约束，以得到预设三维空间约束区间内的像素的相机坐标系坐标；

步骤S113、基于预设分割间隔，将预设空间约束区间内的像素的相机坐标系坐标转换为三维网格坐标。

示例性的，在得到双目图像的视差图时，可以遍历该视差图中的每个像素位置，对于任一像素，可以基于该像素的像素坐标(即像素在视差图中的位置，如i行j列)、像素的视差值以及相机内参，确定该像素的相机坐标系坐标。

考虑到进行三维目标检测时，通常是对以相机为坐标原点的坐标系里的指定空间范围进行检测，而不会对该空间范围外进行检测，因此，在进行三维空间映射时，需要限制x、y、z的范围(即三维空间约束区间)。

相应地，当确定了各像素的相机坐标系坐标时，可以基于预设三维空间约束区间，对各像素的相机坐标系坐标进行三维空间约束，以得到预设三维空间约束区间内的像素的相机坐标系坐标，进而，可以基于预设分割间隔，将预设空间约束区间内的像素的相机坐标系坐标转换为三维网格坐标，即各像素点进行定点化操作，其具体实现可以在下文中详细说明，本申请实施例在此不做赘述。

在一些实施例中，如图3所示，步骤S120中，基于各像素的三维网格坐标，以及双目图像的图像特征，确定鸟瞰图数据，可以通过以下步骤实现：

步骤S121、对于任一通道的图像特征对应的三维网格，基于各像素的三维网格坐标，将各像素的三维网格坐标位置的体素值置为该通道的图像特征中各像素的特征值；

步骤S122、基于各通道的图像特征对应的三维网格，确定鸟瞰图数据。

示例性的，在进行鸟瞰图数据构造时，可以分别基于每一个特征层(特征层的数量与图像的通道数一致)，确定三维网格坐标位置的体素值。

对于任一通道的图像特征(即一个特征层)，该特征层中的每个像素，其对应的三维网格坐标位置的体素值为该像素在该特征层中的特征值。

考虑到在一层特征图上可能会有多个像素位置映射到同一个三维网格坐标的情况，对于存在多个像素位置映射的三维网格坐标，需要基于该映射的多个像素位置的特征值，确定该三维网格坐标的体素值。

在一个示例中，基于各像素的三维网格坐标，将各像素的三维网格坐标位置的体素值置为该通道的图像特征中各像素的特征值，可以包括：

当存在多个像素对应的三维网格坐标相同时，基于第一预设策略确定该三维网格坐标的体素值；

该第一预设策略包括但不限于以下策略之一：

将对应的三维网格坐标相同的多个像素的特征值之和，确定为该三维网格坐标的体素值；

将对应的三维网格坐标相同的多个像素的特征值中的最大值，确定为该三维网格坐标的体素值；

将对应的三维网格坐标相同的多个像素的特征值中的非零最小值，确定为该三维网格坐标的体素值；

将对应的三维网格坐标相同的多个像素的特征值的平均值，确定为该三维网格坐标的体素值。

示例性的，按照上述方式，对于一个通道的图像特征(即一个特征层)，可以得到一个对应的三维网格，即共可以得到c(c为通道数)个三维网格。

对于任一特征层对应的三维网格，可以将该三维网格按照高度维度(Y分量)进行堆叠，并基于各通道的图像特征对应的堆叠后的三维网格，确定鸟瞰图数据(高度维度为c)。

在一个示例中，对任一通道图像特征的对应的三维网格，沿高度维度进行堆叠，可以包括：

对于三维网格坐标中长度维度和宽度维度的坐标相同的多个体素，基于第二预设策略确定该多个体素堆叠后的体素值；

该第二预设策略包括但不限于以下策略之一：

将该多个体素的体素值之和，确定为该多个体素堆叠后的体素值；

将该多个体素的体素值中的最大值，确定为该多个体素堆叠后的体素值；

将该多个体素的体素值中的非零最小值，确定为该多个体素堆叠后的体素值；

将该多个体素的体素值的平均值，确定为该多个体素堆叠后的体素值。

示例性的，对于任一特征层对应的三维网格，可以基于三维网格坐标中长度维度和宽度维度，确定长度维度和宽度维度坐标相同的体素。

对于长度维度和宽度维度的坐标相同的多个体素，可以按照预设策略(本文中称为第二预设策略)进行堆叠，得到堆叠后的体素值。

示例性的，在得到鸟瞰图数据时，可以利用预先训练的三维目标检测网络对该鸟瞰图数据进行三维目标检测。

在一个示例在，用于对该鸟瞰图数据进行三维目标检测的三维目标检测网络中的BACKBONE(骨干网络)与HEAD(头部网络)可以采用二维目标检测网络结构，且HEAD的输出包括待检测目标的三维包围盒高度(可以称为h)、三维包围盒在三维坐标系下的高度坐标(可以称为y)以及三维包围盒的偏航角(可以称为θ)。

示例性的，由于按照上述方式得到鸟瞰图数据的维度与双目图像数据的维度相同，因此，可以将三维目标检测任务简化为二维目标检测任务，在构造用于对上述鸟瞰数据进行三维检测的三维目标检测网络时，BACKBONE与HEAD可以采用二维目标检测网络结构。

但是，由于本申请实施例中需要进行三维目标检测，因此，与二维目标检测相比，HEAD部分需要额外预测目标的高度信息(可以通过三维包围盒高度h和三维包围盒在三维坐标系下的高度坐标y来表征)以及三维目标包围盒的偏航角θ，即HEAD部分除了需要输出二维检测信息之外，还需要输出待检测目标的三维包围盒高度h、三维包围盒在三维坐标系下的高度坐标y以及三维包围盒。

在一些实施例中，双目图像的图像特征通过预先训练的三维目标检测网络中的特征提取模块实现；

对三维目标检测网络的训练，可以包括：

分别基于特征提取模块提取的图像特征进行三维目标检测任务与以及指定语义/实例分割任务；

以三维目标检测任务的损失以及指定语义/实例分割任务的损失为反馈，对特征提取模块进行参数调优，其具体实现在下文中结合具体实例进行说明。

为了使本领域技术人员更好地理解本申请实施例提供的技术方案，下面结合具体实例对本申请实施例提供的技术方案进行说明。

请参见图4，在该实施例中，三维目标检测方案实现流程可以如图4所示，其实现流程可以包括：

1、输入双目RGB图像(即上述双目图像)，通过视差估计方法(如预训练神经网络)得到图像对应的视差图；

需要说明的是，视差估计方法并不限于预训练神经网络，也可以包括其他方法，本申请实施例对此不做限定。

2、使用神经网络提取双目图像的特征(特征提取的输入可以是单目图像，也可以是双目图像)。

示例性的，神经网络输出的RGB特征的长宽应与输入图像长宽相同，即等分辨率。

需要说明的是，神经网络的结构以及RGB特征的通道数不做限制，可根据具体任务调整。

举例来说，特征提取网络结构图可以如图5A或图5B所示。其中：

图5A和图5B为特征提取网络的最基本的网络结构，图5A所示的特征提取网络的中间层特征图分辨率不变，图5B所示的特征提取网络的中间层分辨率变化并在最后输出时还原为与输入图像同分辨率的特征图大小。

需要说明的是，图5A和图5B中数据块仅为展示用，其厚度并不代表特征图通道数的大小。另外，在上述基础网络结构中可以引入如残差连接结构、多层级特征图级联结构和Inception结构等各种复杂的网络结构。

3、遍历步骤1得到的视差图中的每个像素位置(行、列)，通过其对应的视差值和相机内参可计算出该像素映射到三维空间下的相机坐标系坐标。

示例性的，视差与深度的关系：通过双目相机的成像模型可以得到视差与深度的关系，为：

其中，z为深度，f_U为相机水平焦距，b为基线长，d为视差，u_L与u_R分别表示三维空间上的点落在双目左右图上的水平像素位置。

以双目图像中的左图为例，将左图的相机坐标系中每个像素(u，v)映射到三维空间坐标(x，y，z)，计算公式为：

其中，D(u，v)为像素对应位置的视差，c_U和c_V为像素坐标原点相对与相机中心的位置偏移。f_V和f_U为相机垂直焦距和水平焦距。

4、通过三维空间约束(限制x，y，z范围，即上述三维空间约束区间)，保留映射到三维约束空间内的点。

示例性的，x可以取[-10，10]，y可以取[-1.5,2]，z可以取[0，10]，单位为m。

但应该认识到，上述三维空间约束区间的范围取值并不唯一，可根据具体任务调整。

5、将执行步骤4得到的三维空间下点的集合称为“伪点云”(假设雷达获取的到的三维空间点称为点云，通过估算出的视差图反推得到的三维空间点称为“伪点云”)。计算伪点云中每个点所对应的三维网格中的位置坐标，即执行定点化操作。

示例性的，假设取X的分割间隔为0.05m，Y的分割间隔为0.1m，Z的分割间隔为0.05m，则针对三维空间下每个点，其对应的三维网格坐标为：

应该认识到，上述分割间隔的取值并不唯一，可根据具体任务调整。

6、通过步骤5得到了图像中每个像素位置对应的三维网格坐标，然后根据这些坐标构造鸟瞰图(BEV)数据。

示例性的，可以通过以下步骤试下BEV数据构造：

6.1、填充三维网格

以步骤4预设的取值区间及步骤5预设的分割间隔为例，则可构造出一个维度为35×200×400的三维网格。

示例性的，预设三维网格中每个体素(1×1×1)值为0，然后将步骤5得到的三维网格网格坐标位置体素值置更新为1。

6.2、构造基于BEV的特征层

以步骤4预设的取值区间及步骤5预设的分割间隔为例，将步骤2得到的c通道的RGB特征构造出c个35×200×400的三维网格。

示例性的，预设三维网格中每个体素(1×1×1)值为0。对于每层特征图中的每个像素，其对应的三维网格坐标位置的体素值置为该像素的特征值。

考虑到在一层特征图上会有多个像素位置映射到同一个三维网格坐标的情况，此时三维网格中各体素位置取值策略(即上述第一预设策略)可以包括：(1)取值累加；(2)取最大值；(3)取非零最小值；(4)取均值。

然后对于每个特征层所生成的三维网格，将其沿着高度维度(Y分量，即35×200×400中的35)操作为单通道特征。操作策略(即上述第二预设策略)可以包括：(1)沿通道方向取值累加；(2)沿通道方向取最大值；(3)沿通道方向取均值；(4)沿通道方向有非零值时取非零最小值，否则取零。

最后将得到的c个特征通道堆叠到一起，得到一个关于RGB特征的三维网格图，其维度为维度为c×200×400。

7、将步骤6得到的结果作为三维目标检测网络的输入，进行三维目标检测。

示例性的，三维目标检测的网络结构如图6所示。

如图6所示，BEV为步骤6的输出，BACKBONE与HEAD网络结构可以为任意二维检测方法的BACKBONE与HEAD的网络结构。

与二维检测相比，HEAD部分需要额外预测物体的高度信息(三维包围盒高度h、三维包围盒在三维坐标系下的高度坐标y)与三维包围盒方位角θ。

在该实施例中，定点化之后得到的BEV数据维度与同为RGB图像数据维度相同。从而可以将三维目标检测任务简化为二维目标检测任务，因此可以使用任意用于RGB图像上的二维目标检测算法进行三维目标检测。极大降低了三维目标检测的难度。

在一个示例中，三维目标检测网络可以通过以下方式训练：

请参见图7，为本申请实施例提供的一种三维目标检测网络的训练流程示意图，如图7所示，为使整个网络训练过程更稳定，在提取RGB特征后，还可以额外引出一条预测掩模MASK的网络分支，该分支所计算出的Loss(损失)参与梯度回传。

需要说明的是，该分支Loss的计算方法不唯一，可为任意逐像素loss(L1 loss，L2loss，smooth L1等)。该分支的label(ground truth)表示方法不唯一，具体的表示原则为：在三维空间下，标注带有类别的三维检测框内的伪点云对应到RGB图像中的像素位置。遵循此原则，表示方法可以为：

(1)、label为单通道且与输入图像等分辨率的掩模MASK，且不同类别之间的掩模取值不同，相同类的掩模取值相同。非零的像素位置表示该像素位置能够映射到三维空间下的对应类的标注三维检测框内。

(2)、label为n通道且与输入图像等分辨率的掩模MASK，每个通道代表一个检测类。对于每一类的掩模MASK，其值非零的像素位置表示该像素位置能够映射到三维空间下的该类的标注三维检测框内。由于每个类别已经通过不同的通道分开，因此不同类之间的掩模取值可以相同，相同类的掩模取值可以不同。

此外，上述分支并不限于预测掩模MASK的网络分支，其也可以是其它语义/实例分割任务的网络分支，本申请实施例对此不做赘述。

在图7所示训练流程中，网络的三维检测器负责预测物体的三维信息(x，y，z，h，w，l，θ)及其检测置信度，并且在二维目标检测中所有的loss(Focal Loss，Cross Entropy，GIOU Loss等)均可用于三维目标检测的loss计算。

示例性的，图7所示训练流程中，三维目标检测网络的loss可以通过以下策略确定：

Loss＝αLoss_mask+Loss_3d其中，α取值大于等于0，用于权衡最终loss。当α为0时，Loss_mass(即预测掩模MASK的网络分支的loss)不参与梯度回传。

在该实施例中，采用端到端的网络框架，网络可以直接训练，不需要额外的中间处理步骤。与一般的多阶段任务需要分别进行模型训练的实现方式相比，本申请实施例中的网络训练可以实现网络从图像输入到最后检测输出的端到端训练，极大地简化了训练过程。

以上对本申请提供的方法进行了描述。下面对本申请提供的装置进行描述：

请参见图8，为本申请实施例提供的一种基于双目视觉的三维目标检测装置的结构示意图，如图8所示，该基于双目视觉的三维目标检测装置可以包括：

获取单元810，用于获取双目图像的视差图，以及，获取所述双目图像的图像特征；

定点化单元820，用于确定所述视差图中各像素的相机坐标系坐标，并对各像素的相机坐标系坐标进行定点化操作，以得到各像素的三维网格坐标；

确定单元830，用于基于各像素的三维网格坐标，以及所述双目图像的图像特征，确定鸟瞰图数据；

检测单元840，用于对所述鸟瞰图数据进行三维目标检测。

在一些实施例中，所述定点化单元820确定所述视差图中各像素的相机坐标系坐标，并对各像素的相机坐标系坐标进行定点化操作，包括：

基于所述视差图中各像素的像素坐标、各像素的视差值以及相机内参，确定各像素的相机坐标系坐标；

基于预设三维空间约束区间，对所述各像素的相机坐标系坐标进行三维空间约束，以得到所述预设三维空间约束区间内的像素的相机坐标系坐标；

基于预设分割间隔，将所述预设空间约束区间内的像素的相机坐标系坐标转换为三维网格坐标。

在一些实施例中，所述确定单元830基于各像素的三维网格坐标，以及所述双目图像的图像特征，确定鸟瞰图数据，包括：

对于任一通道的图像特征对应的三维网格，基于各像素的三维网格坐标，将各像素的三维网格坐标位置的体素值置为该通道的图像特征中各像素的特征值；

基于各通道的图像特征对应的三维网格，确定鸟瞰图数据。

在一些实施例中，所述确定单元830基于各像素的三维网格坐标，将各像素的三维网格坐标位置的体素值置为该通道的图像特征中各像素的特征值，包括：

所述第一预设策略包括以下策略之一：

在一些实施例中，所述确定单元830基于各通道的图像特征对应的三维网格，确定鸟瞰图数据，包括：

对任一通道图像特征对应的三维网格，沿高度维度进行堆叠；

基于各通道的图像特征对应的堆叠后的三维网格，确定鸟瞰图数据。

在一些实施例中，所述确定单元830对任一通道图像特征对应的三维网格，沿高度维度进行堆叠，包括：

所述第二预设策略包括以下策略之一：

在一些实施例中，用于对所述鸟瞰图数据进行三维目标检测的三维目标检测网络中的骨干网络BACKBONE与头部网络HEAD采用二维目标检测网络结构，且所述HEAD的输出包括待检测目标的三维包围盒高度h、三维包围盒在三维坐标系下的高度坐标y以及三维包围盒偏航角θ。

在一些实施例中，所述双目图像的图像特征通过预先训练的三维目标检测网络中的特征提取模块实现，

如图9所示，所述装置还包括：

训练单元850，用于通过以下方式对所述三维目标检测网络的训练：

分别基于所述特征提取模块提取的图像特征进行三维目标检测任务与以及指定语义/实例分割任务；

以所述三维目标检测任务的损失以及所述指定语义/实例分割任务的损失为反馈，对所述特征提取模块进行参数调优。

请参见图10，为本申请实施例提供的一种电子设备的硬件结构示意图。该电子设备可以包括处理器1001、通信接口1002、存储器1003和通信总线1004。处理器1001、通信接口1002以及存储器1003通过通信总线404完成相互间的通信。其中，存储器1003上存放有计算机程序；处理器1001可以通过执行存储器1003上所存放的程序，执行上文描述的基于双目视觉的三维目标检测方法。

本文中提到的存储器1003可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，存储器1002可以是：RAM(Radom AccessMemory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

在可选实施例中，还提供了一种机器可读存储介质，如图10中的存储器1002，该机器可读存储介质内存储有机器可执行指令，所述机器可执行指令被处理器执行时实现上文描述的基于双目视觉的三维目标检测方法。例如，所述机器可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

本申请实施例还提供了一种基于双目视觉的三维目标检测系统，该系统可以包括双目相机、处理器和机器可读存储介质；其中：

双目相机，用于获取双目图像；

机器可读存储介质，用于存储能够被处理器执行的机器可执行指令；

处理器，用于执行机器可执行指令，以实现上文描述的基于双目视觉的三维目标检测方法。

示例性的，上述基于双目视觉的三维目标检测系统可以包括具有双目摄像头(即上述双目相机为双目摄像头)的无人机或者自动驾驶车辆等，无人机或者自动驾驶车辆的处理器可以基于双目摄像头获取的双目图像，实现三维目标检测，并依据检测结果控制无人机飞行或者自动驾驶车辆行驶。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种基于双目视觉的三维目标检测方法，其特征在于，包括：

对所述鸟瞰图数据进行三维目标检测。

2.根据权利要求1所述的方法，其特征在于，所述确定所述视差图中各像素的相机坐标系坐标，并对各像素的相机坐标系坐标进行定点化操作，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于各像素的三维网格坐标，以及所述双目图像的图像特征，确定鸟瞰图数据，包括：

基于各通道的图像特征对应的三维网格，确定鸟瞰图数据。

4.根据权利要求3所述的方法，其特征在于，所述基于各像素的三维网格坐标，将各像素的三维网格坐标位置的体素值置为该通道的图像特征中各像素的特征值，包括：

所述第一预设策略包括以下策略之一：

5.根据权利要求3所述的方法，其特征在于，基于各通道的图像特征对应的三维网格，确定鸟瞰图数据，包括：

6.根据权利要求5所述的方法，其特征在于，所述对任一通道图像特征对应的三维网格，沿高度维度进行堆叠，包括：

所述第二预设策略包括以下策略之一：

7.根据权利要求5所述的方法，其特征在于，用于对所述鸟瞰图数据进行三维目标检测的三维目标检测网络中的骨干网络BACKBONE与头部网络HEAD采用二维目标检测网络结构，且所述HEAD的输出包括待检测目标的三维包围盒高度h、三维包围盒在三维坐标系下的高度坐标y以及三维包围盒偏航角θ。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述双目图像的图像特征通过预先训练的三维目标检测网络中的特征提取模块实现，

对所述三维目标检测网络的训练，包括：

9.一种基于双目视觉的三维目标检测装置，其特征在于，包括：

检测单元，用于对所述鸟瞰图数据进行三维目标检测。

10.根据权利要求9所述的装置，其特征在于，所述定点化单元确定所述视差图中各像素的相机坐标系坐标，并对各像素的相机坐标系坐标进行定点化操作，包括：

11.一种基于双目视觉的三维目标检测系统，其特征在于，包括：双目相机、处理器和机器可读存储介质；

所述双目相机，用于获取双目图像；

所述处理器，用于执行机器可执行指令，以实现权利要求1-8任一项的方法步骤。