CN112183180A

CN112183180A - 用于二维图像数据的三维对象定边界的方法和装置

Info

Publication number: CN112183180A
Application number: CN202010624611.9A
Authority: CN
Inventors: X.祁; A.J.林格; M.H.阿尔齐兹维尼; D.H.克利福德; D.R.威尔森; B.J.库尔
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2019-07-02
Filing date: 2020-07-01
Publication date: 2021-01-05
Also published as: US20210004566A1

Abstract

提供了用于2D图像数据的3D对象定边界的方法和装置，以用于装备有辅助驾驶的车辆。在各个实施例中，一种装置包括：摄像机，其可操作以捕获视场的二维图像；激光雷达，其可操作以生成视场的点云；处理器，其可操作以响应于点云生成视场的三维表示，以检测三维表示中的对象，以响应于该对象生成三维边界框，以将三维边界框投影到二维图像上以生成标记的二维图像；以及车辆控制器，以响应于标记的二维图像来控制车辆。

Description

用于二维图像数据的三维对象定边界的方法和装置

技术领域

本公开总体上涉及配备有高级驾驶员辅助系统(ADAS)的车辆上的对象检测系统。更具体地，本公开的各方面涉及用于为自动驾驶任务检测和分类图像内的对象的系统、方法和设备。

背景技术

自动驾驶车辆是能够在很少或没有用户输入的情况下感知其环境并进行导航的车辆。自动驾驶车辆使用诸如雷达、激光雷达、图像传感器等之类的传感设备来感知其环境。自动驾驶车辆系统还使用来自全球定位系统(GPS)技术、导航系统、车辆间通信、车辆-基础设施间技术和/或线控驾驶系统的信息来导航车辆。

车辆自动化已被分类为从零(对应于完全人控制的无自动化)到五(对应于无人为控制的全自动)的数字级别。各种自动驾驶员辅助系统，例如巡航控制、自适应巡航控制和停车辅助系统，对应较低的自动化级别，而真正的“无人驾驶”车辆对应较高的自动化级别。

某些自动驾驶车辆可能包括使用传感器数据对对象进行分类的系统。这些系统可以识别和分类周围环境中的对象，包括位于车辆行驶路径中的对象。在这些系统中，搜索从安装在车辆上的摄像机获得的整个图像用于需要分类的关注对象。这种用于对象分类的方法在计算上是密集的且昂贵的，这使其缓慢且非常耗时并且遭受对象检测问题的困扰。基于人为控制的成像对象检测模型需要大量的人为标记数据进行训练，这可能需要大量劳力并且容易出错。

因此，期望提供可以加速对图像内的数据标记、训练和对象进行分类的过程的系统和方法。此外，结合附图以及前述技术领域和背景技术，根据随后的详细描述，本发明的其他期望特征和特性将变得显而易见。

发明内容

本文公开了用于提供车辆感测和控制系统的对象检测方法和系统以及相关的控制逻辑，制造此类系统的方法和用于操作此类系统的方法，以及配备有车载传感器和控制系统的机动车辆。此外，本文公开了用于通过使用来自点云数据的3D信息来在图像中生成准确的3D对象标记的方法和途径。

根据各个实施例，提供了一种装置，包括摄像机，其可操作以捕获视场的二维图像；激光雷达，其可操作以生成视场的点云；处理器，其可操作以响应于点云生成视场的三维表示，以检测三维表示内的对象，以响应于对象生成三维边界框(bounding box)，以将三维边界框投影到二维图像上以生成标记的二维图像；以及车辆控制器，以响应于标记的二维图像来控制车辆。

根据另一方面，视场的三维表示是三维体积的体素化表示。

根据本发明的另一方面，三维边界框表示对象的质心、长度、宽度和高度。

根据本发明的另一方面，所述处理器还可操作以响应于边缘检测而将所述图像对准所述点云。

根据另一方面，处理器还可操作以校准并共同配准(co-register)点云中的点和图像中的像素。

根据另一方面，车辆控制器可操作以执行自适应巡航控制算法。

根据另一方面，标记的二维图像用于确认基于图像的对象检测方法。

根据另一方面，响应于卷积神经网络来检测对象。

根据另一方面，一种方法包括：经由摄像机接收二维图像；经由激光雷达接收点云；响应于所述点云而用处理器生成三维空间；用处理器检测三维空间内的对象；响应于该对象用处理器生成边界框；用处理器将边界框投影到二维图像中以生成标记的二维图像；以及响应于标记的二维图像，经由车辆控制器控制车辆。

根据另一方面，二维图像和点云具有重叠的视场。

根据另一方面，响应于自适应巡航控制算法来控制车辆。

根据另一方面，其中所述对象是响应于卷积神经网络而被检测的。

根据另一方面，标记的二维图像被标记有边界框的至少一个投影，并且其中，边界框指示检测到的对象。

根据另一方面，处理器还可操作以校准和共同配准点云中的点和图像中的像素。

根据另一方面，处理器还可操作以校准和共同配准点云中的点、图像中的像素以及经由全球定位系统接收的位置坐标。

根据另一方面，一种车辆中的车辆控制系统，包括：激光雷达，其可操作以生成视场的点云；摄像机，其可操作以捕捉视场的图像；处理器，其操作以响应于点云生成三维表示并检测三维表示中的对象，处理器还可操作以响应于对象生成边界框并将边界框投影到图像上以生成标记图像；以及车辆控制器，以响应于标记的图像来控制车辆。

根据另一方面，提供一种存储器，其中，所述处理器可操作以将所标记的图像存储在所述存储器中，并且所述车辆控制器可操作以从所述存储器中检索所标记的图像。

根据另一方面，三维表示是体素化三维表示。

根据另一方面，标记的图像是二维图像，该二维图像具有覆盖在图像上的边界框的二维表示。

根据另一方面，标记的图像用于训练视觉对象检测算法。

根据以下结合附图对优选实施例的详细描述，本公开的上述优点以及其他优点和特征将变得显而易见。

附图说明

本发明的上述和其他特征和优点以及实现它们的方式将变得更加显而易见，并且通过参考以下结合附图对本发明的实施例的描述，可以更好地理解本发明，在附图中。

图1示出了根据本公开的实施例的用于从二维(2D)图像数据的三维(3D)对象定边界的方法和装置的示例性应用；

图2是示出根据本公开的实施例的用于2D图像数据的3D对象定边界的示例性系统的框图；

图3是示出根据本公开的实施例的用于2D图像数据的3D对象定边界的示例性方法的流程图；

图4是示出根据本公开的实施例的用于2D图像数据的3D对象定边界的另一示例性系统的框图；

图5是示出根据本公开的实施例的用于2D图像数据的3D对象定边界的另一示例性方法的流程图。

具体实施方式

在此描述本公开的实施例。但是，应该理解，所公开的实施例仅是示例，其他实施例可以采取各种替代形式。这些附图不一定按比例绘制；一些功能可能被放大或最小化以显示特定部件的详细信息。因此，本文公开的具体结构和功能细节不应被解释为限制性的，而仅是表示性的。参照任一附图示出和描述的各种特征可以与在一个或多个其他附图中示出的特征结合以产生未明确示出或描述的实施例。所示特征的组合为通常应用提供了表示性的实施例。然而，对于特定的应用或实施方式，可能需要与本公开的教导相一致的特征的各种组合和修改。

当前公开的示例性方法和系统是可操作的以通过利用来自激光雷达或其他深度传感器系统的点云数据在二维(2D)图像中生成准确的三维(3D)对象标记，例如边界框。

转到图1，示出了根据本公开的示例性实施例的示例性2D图像数据，该示例性2D图像数据具有3D对象框100，以用于配备有ADAS的车辆中并用于训练ADAS车辆控制系统。响应于视场的2D摄像机捕获110来生成示例性图像数据。图像数据可以从单个摄像机图像捕获，或者可以是从具有重叠视场的两个或更多个摄像机图像生成的合成图像。图像数据可以由高分辨率摄像机或低分辨率摄像机捕获，并耦合(couple)到图像处理器以进行处理，或者可以由摄像机以诸如RAW的图像格式生成图像数据，该图像格式包含来自图像传感器的最少处理的数据，也可以采用压缩和处理后的文件格式，例如JPEG。

在本公开的该示例性实施例中，响应于从激光雷达传感器输出的点云，接收2D图像的相同视场的3D数据。3D点云是由激光雷达系统生成的，该激光雷达系统以已知的角度和高度生成激光脉冲，并在传感器处接收激光脉冲的反射。响应于激光脉冲的发射和接收之间的经过时间来确定激光脉冲的反射点的距离。在视场上以预定的角度间隔重复此过程，直到在视场上生成点云为止。然后可以将该点云用于检测视场内的对象，并在检测到的对象周围生成3D边界框120。

点云中的3D对象检测被用来预测紧密定边界对象的3D边界框120，并且可以包括诸如质心以及该边界框的长度、宽度和高度尺寸的信息。然后，该系统可操作以校准和共同配准点云中的点和图像中的像素，并将3D边界框120从点云空间投影到图像平面。

现在转到图2，示出了示出用于2D图像数据的3D对象定边界的示例性系统200的框图。示例性系统200包括全球定位系统210、激光雷达系统220、摄像机230、处理器250、存储器240和车辆控制器260。GPS接收器210可操作以接收指示卫星位置的多个信号和一时间戳。响应于这些信号，GPS接收器210可操作以确定GPS接收器210的位置。然后，GPS接收器210可操作以将该位置耦合至车辆处理器250。GPS位置信息可用于对准图像数据和点云数据。

该示例性系统配备有多个有源传感器，例如激光雷达系统220和摄像机230，其被实现为自适应驾驶辅助系统(ADAS)的一部分。多个有源传感器可以包括传感器的任何合适的布置和实施方式。这些传感器中的每一个都使用一种或多种技术来感测其视场内的可检测对象。这些可检测对象在本文中称为“目标”。多个有源传感器可以包括远距离传感器、近距离传感器、中距离传感器、近距离传感器以及车辆盲点传感器或侧面传感器。通常，这些传感器的范围由所采用的检测技术确定。另外，对于某些传感器(例如雷达传感器)，传感器的范围由传感器发出的能量确定，这可能会受到政府法规的限制。传感器的视场还可能受感测元件本身的配置限制，例如受发射器和检测器的位置限制。

通常，传感器会不断感测，并以相应的循环速率提供有关任何检测到的目标的信息。用于确定和报告这些目标位置的各种参数通常会基于传感器的类型和分辨率而有所不同。通常，传感器的视场通常会明显重叠。因此，每个周期通常可以由一个以上的传感器来感测车辆附近的目标。各个实施例的系统和方法有助于对由一个或多个目标感测的目标的适当评估。

通常，可以通过配置传感器以向合适的处理系统提供数据来实现该系统和方法。该处理系统通常将包括处理器250和存储器240，以存储和执行用于实现该系统的程序。应当理解，这些系统可以结合车辆中的其他系统和/或其他装置和/或作为其一部分来实现。

摄像机230可操作以捕获摄像机视场的2D图像或一系列2D图像。在系统200的示例性实施例中，摄像机230的视场与激光雷达系统220的视场交叠。摄像机可操作以将图像转换成电子图像文件并将该图像文件耦合到处理器250。图像文件可以连续地耦合到车辆处理器250，例如视频流，或者可以响应于处理器250的请求而被发射。

激光雷达系统220可操作以用多个激光脉冲扫描视场，以产生点云。点云是由指示视场内每个点的距离、仰角和方位角的点数据组成的数据集。分辨率更高的点云每度仰角/方位角具有更高的数据点集中度，但需要更长的扫描时间才能收集更多数量的数据点。激光雷达系统220可用于将点云耦合到处理器250。

根据示例性实施例，处理器250可操作以从摄像机230接收图像文件并从激光雷达系统220接收点云，以便为图像内所描绘的对象生成3D对象边界框以供ADAS算法使用。处理器250首先可操作以在点云上执行体素化处理，以生成视场的基于3D体素的表示。体素是在三维网格中表示的值，从而将点云点数据转换为三维体。然后，处理器250可操作以在3D体素空间上执行3D卷积操作，以便表示3D体素空间内的检测到的对象。然后，处理器250响应于对象检测而生成3D边界框，并在2D图像上执行3D几何投影。处理器250然后可操作以在2D图像上生成3D标记以识别并标记图像内的对象。处理器250然后可以操作以将该标记的2D图像存储在存储器中。然后，标记2D图像用于在配备ASAD的车辆中执行ADAS算法。

除了其他车辆操作之外，处理器250还可操作以执行ADAS算法。除了存储在存储器240中的地图信息之外，车辆处理器250还可操作以接收GPS位置信息、图像信息，以确定车辆周围的附近环境的对象地图。车辆处理器250响应于接收到的数据运行ADAS算法，并且可操作以产生控制信号以耦合到车辆控制器260，以便控制车辆的操作。车辆控制器260可操作以接收来自车辆处理器250的控制信号并控制车辆系统，例如转向、油门和制动器。

现在转到图3，示出了图示用于2D图像数据的3D对象定边界的示例性方法300的流程图。方法300首先可操作以从具有视场的摄像机接收3052D图像。2D图像可以由单个摄像机捕获，或者可以是响应于来自具有重叠视场的多个摄像机的多个图像的组合而生成的合成图像。该图像可以是RAW图像格式，也可以是压缩图像格式，例如JPEG。图像可以耦合到处理器，或存储在缓冲存储器中以供处理器访问。

然后，该方法可操作以接收310视场的激光雷达点云。激光雷达点云是响应于一系列发射和接收的光脉冲而生成的，每个脉冲都以已知的仰角和方位角发射。可以响应于具有重叠视场的单个激光雷达收发器或多个激光雷达收发器来生成激光雷达点云。在该示例性实施例中，激光雷达点云可以与从摄像机接收的图像基本重叠。激光雷达点云表示点矩阵，其中每个点都与深度确定相关联。因此，激光雷达点云类似于数字图像，其中像素的颜色信息被响应于透射和反射光脉冲的一半传播时间而确定的深度测量值代替。

然后，该方法可操作以执行315体素化过程以将激光雷达点云转换为三维体。体素是以格点为中心的单位立方体积，类似于二维图像中的像素。单位立方体积的尺寸定义了三维体素化体的分辨率。单位立方体积越小，三维体素化体积的分辨率越高。体素化有时称为3D扫描转换。体素化过程可操作以生成激光雷达点云的位置和深度信息的三维表示。在示例性实施例中，在首先对点云进行体素化之后，道路地面平面上的点可以被删除，道路用户上的其他点(例如车辆和/或行人)可以基于这些点之间的连通性进行聚类(cluster)。例如，同一辆车上的所有点都将标记为相同的颜色。然后，可以计算每个点聚类的中心，并且还可以计算其他尺寸(高度、宽度、长度)。然后，可以生成3D边界框以将该对象定边界到3D空间中。这种无监督学习模型可能不需要像卷积神经网络这样的有监督学习模型通常需要的训练数据。

然后，该方法可操作以在三维体素化体积内执行320对象检测。卷积神经网络可用于检测体积内的对象。一旦检测到对象，则该方法随后可操作以将检测到的对象用3D边界框边界325。3D边界框可以利用质心以及该边界框的长度、宽度和高度尺寸的信息来紧密地边界对象。然后，3D边界框表示对象所占据的体积空间。

然后，该方法可操作以执行330从体素化体积到2D图像空间的3D边界框的3D几何投影。可以响应于沿着主轴线的中心重投影到正交于主轴线的图像播放(image play)上执行投影。该方法可操作以校准和共同配准点云中的点和图像中的像素。然后，将3D边界框从点云空间投影到图像平面。然后，该方法可操作以在表示3D边界框的2D图像中生成335对象标记，以生成标记的2D图像。

然后，该方法可操作以响应于标记的2D图像来控制340车辆。2D图像的处理可能比3D空间的处理在计算上不那么紧张，因此2D处理可以比3D处理更快地执行。例如，标记的2D图像随后可用于ADAS算法，例如车道跟踪、自适应巡航控制等。然后，标记体积可以指示在可能的操作(例如车道变更)期间应避免的附近空间内的对象。

现在转到图4，示出了示出用于2D图像数据的3D对象定边界的示例性系统400的框图。在该示例性实施例中，系统400包括激光雷达系统410、摄像机430、存储器440、处理器420、车辆控制器450、油门控制器460、转向控制器480和制动控制器490。

摄像机430可操作以捕获视场的二维图像。视场可以是移动车辆的前视场。摄像机430可以是一个或多个图像传感器，每个图像传感器可操作以收集图像数据或视场的一部分，所述图像数据或视场的一部分可以被组合在一起以生成视场的图像。摄像机430可以是取决于应用和所需分辨率而操作的高分辨率或低分辨率摄像机。例如，对于5级全自动驾驶车辆，会需要高分辨率摄像机才能满足图像检测要求。在2级车道居中应用中，可以使用较低分辨率的摄像机来维持车道居中操作。摄像机430可以是用于在诸如明亮的阳光或暗阴影的极端照明条件下操作的高动态范围摄像机。

激光雷达系统410可以是激光雷达收发器，该激光雷达收发器可操作以传输光脉冲并从激光雷达系统410视场内的对象接收光脉冲的反射。然后，激光雷达系统410可操作以响应于光脉冲的传播时间来确定到对象的距离。然后，激光雷达系统410可操作以针对多个仰角和方位重复该操作，以便产生视场的点云。响应于响应于光脉冲的发射和接收而测量的仰角和方位角点的数量，建立点云的分辨率。所得的点云是与每个仰角/方位角相关联的深度值的矩阵。

处理器420可以是执行所公开的图像处理操作的图形处理单元或中央处理单元、可操作以执行ADAS功能的车辆控制器，或可操作以执行当前公开的方法的另一系统处理器。处理器420可操作以响应于从激光雷达系统410接收到的点云来生成视场的三维表示。三维表示可以是表示摄像机430和激光雷达410的视场的三维体素化体积。三维表示可以通过使用遮挡剔除(occlusion culling)技术和先前生成的三维体积来估计视场内的对象的固体体积(solid volume)，以补偿遮挡。

处理器420可操作以使用卷积神经网络技术或其他用于处理三维体积的技术来检测和定义三维表示内的对象。响应于对象检测，处理器420然后可操作以在每个检测到的对象周围生成三维边界框。三维边界框可以表示对象的质心、长度、宽度和高度。

然后，处理器420可操作以将三维边界框投影到二维图像上以生成标记的二维图像。处理器420可以进一步操作以响应于边缘检测而将图像对准点云。可以使用几何模型在空间上对准图像和点云，然后进行处理，例如基于回归的分辨率匹配算法以内插任何遮挡或丢失数据。处理器420还可操作以校准并共同配准点云中的点和图像中的像素。然后，可以将三维边界框几何地投影到图像平面上到源自摄像机430和激光雷达系统410的投影中心。然后，处理器420可操作以将标记的二维图像存储到存储器440，或者耦合标记的二维图像到车辆控制器450。

车辆控制器450可操作以响应于标记的二维图像来控制对车辆的控制。车辆控制器450可以在执行ADAS算法(例如，自适应巡航控制算法)中使用标记的二维图像。车辆控制器450可操作以生成控制信号以耦合至油门控制器460、转向控制器480和制动控制器490，以便执行ADAS功能。

现在转到图5，示出了示出用于2D图像数据的3D对象定边界的示例性方法500的流程图。在该示例性实施例中，该方法首先可操作以经由摄像机接收505表示视场的二维图像，并且经由激光雷达接收表示视场深度信息的点云。然后，该方法可操作以响应于点云生成510三维空间。然后，该方法可操作以检测515三维空间内的至少一个对象。如果没有检测到对象，则该方法可操作以将图像耦合530到车辆控制器以用于执行ASAD算法。如果检测到对象，则该方法然后在三维空间内的对象周围生成520三维边界框。该方法然后可以是可操作的以接收522用户输入以细化三维边界框。如果接收到用户输入，则该方法可操作以根据用户输入细化524 3D边界框并重新训练三维边界框算法。然后，该方法可操作以在对象周围再生成520三维边界框。如果没有接收522到用户输入，则将三维边界框几何投影525到二维图像上，以生成标记的二维图像。车辆控制器随后使用标记的二维图像来执行530ASAD算法。标记的二维图像可以用于确认视觉对象检测方法的结果，可以用作对象检测的主要数据源，或者可以与其他对象检测结果组合。

应该强调的是，可以对本文所述的实施例进行许多变型和修改，其中的元件应被理解为是其他可接受的示例。所有这些修改和变型旨在被包括在本公开的范围内。此外，本文描述的任何步骤可以同时执行或以与本文所排列的步骤不同的顺序执行。而且，显而易见的是，本文公开的特定实施例的特征和属性可以以不同的方式组合以形成另外的实施例，所有这些都落入本公开的范围内。

除非另有特别说明或在所采用的上下文中另有其他理解，否则本文使用的条件性语言，例如“能”，“可以”，“可能”，“会”，“例如”等通常旨在传达某些实施例包括，而其他实施例不包括，某些特征、要素和/或状态。因此，这种条件性语言通常不旨在暗示特征、要素和/或状态以对于一个或多个实施例是必需的任何方式，或者一个或多个实施例必须包括，在有或没有作者输入或提示的情况下，用于确定是否这些特征、要素和/或状态是否被包括在内或者是否要以任何特定的实施例执行的逻辑。

此外，本文可能使用了以下术语。除非上下文另外明确指出，否则单数形式“一(a)”，“一种(an)”和“该(the)”包括复数指示物。因此，例如，对项目的引用包括对一个或多个项目的引用。术语“一个(one)”是指一个、两个或更多个，并且通常适用于部分或全部数量的选择。术语“多个”是指两个或更多个项目。术语“大约”或“近似”是指数量、尺寸、大小、配方、参数，形状和其他特征不需要精确，但可以根据需要近似和/或更大或更小，反映出可接受的公差、转换系数、舍入、测量误差等以及本领域技术人员已知的其他因素。术语“基本上”是指不需要精确地实现所列举的特性、参数或值，而是偏差或变化，包括例如公差、测量误差、测量精度限制和本领域技术人员已知的其他因素，可能会以不排除该特性旨在提供的效果的量出现。

数值数据可以在本文中以范围格式表示或呈现。应当理解，这样的范围格式仅是为了方便和简洁而使用，因此应该灵活地解释为不仅包括明确列举为范围限制的数值，而且还应解释为包括所有单独的数值或包括在该范围内的子范围，就好像明确叙述了每个数值和子范围被明确地叙述。作为说明，数值范围“约1至5”应解释为不仅包括约1至约5的明确列举的值，而且还应解释为还包括指示范围内的各个值和子范围。因此，包括在该数值范围内的是诸如2、3和4之类的各个值以及诸如“约1至约3”、“约2至约4”和“约3至约5”、“1至3”、“2至4”、“3至5”等之类的子范围。此相同原理适用于仅列举一个数值的范围(例如，“大于约1”)，并且无论范围的广度或描述的特征均应适用。为了方便，可以在公共列表中呈现多个项目。但是，这些列表应被解释为虽然列表中的每个构件都被单独标识为单独且唯一的构件。因此，仅基于它们在共同组中的呈现而没有相反指示，该列表的任何单个构件都不应被解释为等同于同一列表的任何其他构件的事实上的等同物。此外，在术语“和”和“或”与项目列表结合使用的情况下，应广义地解释它们，因为任何一个或多个所列项目可以单独使用或与其他所列项目结合使用。术语“替代地”是指选择两个或更多个替代中的一个，并且并非旨在一次将选择限制为仅列出的那些替代选择或仅列出的替代选择之一，除非上下文另外明确指出。

本文公开的过程、方法或算法可以传递给处理设备、控制器或计算机(其包括任何现有的可编程电子控制单元或专用电子控制单元)或者可以由实施。类似地，过程、方法或算法可以以多种形式存储为可由控制器或计算机执行的数据和指令，包括但不限于永久存储在诸如ROM设备之类的不可写存储介质上的信息以及可替换地存储在可写存储介质(例如软盘、磁带、CD、RAM设备以及其他磁性和光学介质)上的信息。所述过程、方法或算法也可以在软件可执行对象中实施。可替代地，过程、方法或算法可以使用合适的硬件组件(诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、状态机、控制器或其他硬件组件或设备)或硬件、软件和固件组件的组合来整个或部分地实施。这样的示例设备可以作为车辆计算系统的一部分是车载的，或者位于车外，并与一个或多个车辆上的设备进行远程通信。

尽管上面描述了示例性的实施例，但并不旨在这些实施例描述了本申请所涵盖的所有可能的形式。说明书中使用的词语是描述性的词语而不是限制性的词语，并且应当理解，在不脱离本公开的精神和范围的情况下可以进行各种改变。如前所述，各个实施例的特征可以组合以形成本公开的其他示例性方面，这些示例性方面可能没有明确地描述或示出。尽管就一种或多种期望的特性而言，各个实施例可以被描述为相对于其他实施例或现有技术实施方式具有优势或是优选的，但是本领域普通技术人员认识到可以折中一种或多种特征或特性以实现所需的总体系统属性，其具体取决于特定的应用程序和实施方式。这些属性可以包括但不限于成本、强度、耐用性、生命周期成本、可销售性、外观、包装、尺寸、可使用性、重量、可制造性、易于组装等。关于一个或多个特征的其他实施例或现有技术实施方式不在本公开的范围之内，并且对于特定应用而言可能是期望的。

Claims

1.一种装置，包括：

-摄像机，可操作以捕捉视场的二维图像；

-激光雷达，可操作以生成视场的点云；

-处理器，可操作以响应于点云生成视场的三维表示，以检测三维表示内的对象，以响应于该对象生成三维边界框，以将三维将边界框投影到二维图像上以生成标记的二维图像；和

-车辆控制器，可操作以响应于标记的二维图像来控制车辆。

2.根据权利要求1所述的装置，其中，所述视场的三维表示是三维体积的体素化表示。

3.根据权利要求1所述的装置，其中三维边界框表示对象的质心、长度、宽度和高度。

4.根据权利要求1所述的装置，其中，所述处理器还可操作以响应于边缘检测而将所述图像对准所述点云。

5.根据权利要求1所述的装置，其中，所述处理器还可操作以校准并共同配准所述点云中的点和所述图像中的像素。

6.根据权利要求1所述的装置，其中，所述车辆控制器可操作以执行自适应巡航控制算法。

7.根据权利要求1所述的装置，其中，所标记的二维图像用于确认基于图像的对象检测方法。

8.根据权利要求1所述的装置，还包括用户输入，用于接收对三维边界框在视场内的位置的用户校正。

9.一种方法，包括：

-经由摄像机接收二维图像；

-经由激光雷达接收点云；

-响应于点云用处理器生成三维空间；

-用处理器检测该三维空间内的对象；

-响应于该对象用处理器生成边界框；

-用处理器将边界框投影到二维图像中以生成标记的二维图像；和

-经由车辆控制器，响应于标记的二维图像，控制车辆。

10.根据权利要求9所述的方法，其中，用所述边界框的至少一个投影来标记所标记的二维图像，并且其中，所述边界框指示所检测到的对象。