CN115803781A

CN115803781A - 用于生成与对象相关联的鸟瞰图边界框的方法和系统

Info

Publication number: CN115803781A
Application number: CN202080103038.5A
Authority: CN
Inventors: 埃赫桑·塔哈维; 阿米尔霍辛·纳巴奇安; 刘冰冰
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-07-10
Filing date: 2020-09-23
Publication date: 2023-03-14
Also published as: EP4179500A1; WO2022007198A1; US11527084B2; US20220012466A1; EP4179500A4

Abstract

公开了用于为靠近车辆的对象生成边界框的系统和方法。所述方法包括：接收表示环境的三维(three‑dimensional，3D)点云；接收所述环境的二维(two‑dimensional，2D)图像；处理所述3D点云以识别所述3D点云中的3D对象的3D数据点的对象簇；处理所述2D图像，以检测所述2D图像中的2D对象，并从所述2D图像生成关于所述2D对象的信息；当所述3D对象和所述2D对象对应于所述环境中的同一对象时，基于3D数据点的所述对象簇和所述2D图像中的所述信息，为所述对象生成鸟瞰图(bird's eye view，BEV)边界框。

Description

用于生成与对象相关联的鸟瞰图边界框的方法和系统

相关申请的交叉引用

本申请要求于2020年7月10日提交的、发明名称为“用于生成与对象相关联的鸟瞰图边界框的方法和系统(METHOD AND SYSTEM FOR GENERATING A BIRD'S EYE VIEWBOUNDING BOX ASSOCIATED WITH AN OBJECT)”的第16/926,096号美国专利申请的优先权的权益，所述美国专利申请的内容以引用的方式并入本文中，如全文再现一般。

技术领域

本发明涉及生成与对象相关联的鸟瞰图(bird's eye view，BEV)边界框。

背景技术

自动驾驶车辆包括许多不同类型的传感器，这些传感器感测车辆周围的环境。自动驾驶车辆的感知模块可以处理从不同类型的传感器中的每一个接收的传感器数据，以识别感兴趣的对象(例如，行人或其它汽车)。例如，扫描光检测和测距(light detection andranging，LIDAR)传感器生成表示三维(three-dimensional，3D)点云的传感器数据，并且感知模块处理3D点云以识别感兴趣的对象。相机生成传感器数据作为表示图像的图像数据，感知模块处理图像数据以检测和识别感兴趣的对象。每个传感器可以生成不同类型的传感器数据，这些传感器数据可由感知模块用于自动驾驶中的对象识别。

感知模块可以在3D点云上执行边界框回归，3D点云可以包括部分可见的对象。边界框回归通常需要预测边界框的尺寸和角度。

点云是由给定坐标系定义的数据点的集合，该坐标系可以是最初生成数据点的传感器(例如LIDAR传感器)的坐标系。例如，在3D坐标系中，点云可以包括用于定义环境中一个或多个物理对象的形状的数据点。点云用于创建3D网格和用于3D建模的其它模型，包括医疗成像、建筑、3D打印、制造、3D游戏和各种虚拟现实(virtual reality，VR)应用等各种领域。

在3D笛卡尔(Cartesian)坐标系中，数据点由三个值表示，这些值加在一起与空间中相对于原点(0，0，0)的精确点相关。这三个值中的每一个都与3D笛卡尔系统中的相应轴相关联。因此，点云中的数据点可以包括至少三个值(x，y，z)，并且可选地，可以包括表示生成数据点的激光束的强度值的值，以及表示点云中对象的类别的值，其中，数据点可以与对象相关联。

点云通常是实时或接近实时处理的，用于基于点云中的数据点预测边界框的尺寸和角度。

实时处理点云的一个挑战是在具有准确方向和尺寸的对象周围拟合边界框。大多数已知的点云处理方法都集中在查找对象的L形几何体，并基于对象的L形几何体在对象周围拟合矩形边界框。但是，对于距离车辆的平均距离大于一定阈值(例如30米)的对象，由于3D点云中包括的数据点的稀疏性，为对象拟合边界框的问题变得更加难以解决，这意味着对象在3D点云中仅部分可见。当对象仅部分可见时，估计对象的中心和尺寸变得容易出错，特别是在长范围内。

一些现有的为部分可见对象生成边界框的方案使用具有端到端训练的深度学习方法来输出部分可见对象的边界框，但深度学习方法通常计算昂贵，并且难以在计算资源有限的车辆上实现。一些现有的深度学习方法利用2D图像和3D点云中的信息，其中例如，使用卷积神经网络(convolutional neural network，CNN)处理图像数据，以基于图像数据生成对象的边界框的参数(例如大小、位置和方向)，点云分别使用PointNet^TM独立处理，以基于点云生成对象的边界框的参数(例如大小、位置和方向)。然后，由CNN和PointNet^TM分别生成的边界框的结果参数由融合网络组合。CNN和PointNet^TM的输出可以是任意大小的特征矩阵。例如，CNN的输出通常包括宽度、高度和通道，而对于PointNet^TM的输出(PointNet^TM是使用神经网络的点云处理技术)，通常包括多个点和一个或多个通道。通过使用3D点云作为空间锚点，融合网络预测对象的3D边界框的参数(例如大小、位置和方向)的多个假设和参数的置信度值。在其它一些著作中，3D点云用于对象分类和边界框回归。例如，提出了一种称为PIXOR^TM的深度神经网络作为单级检测器，它输出定向3D对象的边界框的参数(例如大小、位置和方向)的估计。在另一个示例中，称为BoxNet^TM的经过训练的深度神经网络基于3D点云和表示对应二维(two-dimensional，2D)鸟瞰图图像的图像数据，对3D点云中的对象执行边界框估计。尽管这些已知的深度学习方法可以在边界框的位置、方向和大小方面输出有希望的结果，但这些深度学习方法在计算上是密集型的，因为它们往往需要大量的计算资源(例如内存和处理资源)来执行边界框估计，并且当点云中标记的数据点数量不足时将不起作用。例如，需要具有包括点云中对象的3D边界框参数的标签的数据点和具有包括图像数据中对象的2D边界框参数的标签的标记图像数据，训练这些已知深度学习方法的神经网络。这些限制使得深度学习方法不稳定，不适合在自动驾驶车辆行驶时实时使用。

需要一种改进的方案，该方案能够高效地处理3D点云，为车辆路径中可能位于远处的对象生成边界框，使用的计算资源比传统深度学习方法所需的计算资源更少。

发明内容

本发明提供了一种用于为靠近车辆检测到的对象生成鸟瞰图(bird's eye view，BEV)边界框的方法、系统和计算机可读介质。

在一个方面中，示例性方法包括：接收表示环境的三维(three-dimensional，3D)点云；接收所述环境的二维(two-dimensional，2D)图像；处理所述3D点云以识别所述3D点云中的3D对象的3D数据点的对象簇；处理所述2D图像，以检测所述2D图像中的2D对象，并从所述2D图像生成关于所述2D对象的信息；当所述3D对象和所述2D对象对应于所述环境中的同一对象时，基于3D数据点的所述对象簇和所述2D图像中的所述信息，为所述对象生成鸟瞰图(bird's eye view，BEV)边界框。

在另一方面中，公开了一种用于为靠近车辆的对象生成边界框的处理系统。所述处理系统可以包括：处理单元；耦合到所述处理单元的存储器，所述存储器存储机器可执行指令，所述机器可执行指令当由所述处理单元执行时，使所述处理系统：接收表示环境的3D点云；接收所述环境的2D图像；处理所述3D点云，以识别所述3D点云中的3D对象的数据点簇；处理所述2D图像，以检测所述2D图像中的2D对象，并从所述2D图像生成关于所述2D对象的信息；当所述3D对象和所述2D对象对应于所述环境中的同一对象时，基于3D数据点的所述对象簇和所述2D图像中的所述信息，为所述对象生成鸟瞰图(bird's eye view，BEV)边界框。

通过使用表示对象航向的实时数据，以及可以在车辆上容易获得的2D图像中的各种视觉信息，简化了基于3D点云的BEV中寻找最佳拟合边界框的过程，从而计算高效且节省资源。搜索过程是非迭代的，不需要机器学习，可以由自动或半自动驾驶模式下的车辆实时完成。具体地，当从一系列实时拍摄的2D图像或3D点云获得车辆的航向时，航向信息可以用于旋转BEV中的数据点簇，以相对于车辆坐标系的x轴对准数据点簇，以便减少获得数据点簇的最佳拟合边界框所需的候选边界框的数量。

在所有示例中，生成BEV边界框可以包括：将3D数据点的对象簇映射到鸟瞰图(bird's eye view，BEV)和车辆的车辆坐标系中的2D平面上的2D数据点簇；确定并存储所述BEV中2D平面上的一组BEV多边形点，其中，所述一组BEV多边形点形成包围所述2D平面上的所述2D数据点簇的凸包；基于所述2D平面上的所述2D数据点簇、所述一组BEV多边形点和所述2D图像中的所述信息生成所述BEV边界框。本文所公开的实施例提供了一种高效的系统和方法，以针对遮挡和部分可观测性以快速和鲁棒的方式找到BEV中的最佳边界框。这些实施例实现了一种新的边界框估计过程，该过程利用2D平面上的对象的多边形形状，以获得更高效率和更好的精度。

在所有示例中，生成所述BEV边界框可以包括：确定所述2D平面上的所述2D数据点簇的中心p_center；确定所述对象的估计航向h_obj；基于所述估计航向h_obj，围绕所述中心p_center旋转所述2D数据点簇；从所述一组BEV多边形点中确定多个选定的多边形点；确定多个候选边界框，其中，每个候选边界框基于所述多个选定的多边形点中的相应的选定多边形点确定；从所述多个候选边界框中选择最终边界框作为所述BEV边界框，其中，所述最终边界框是所述候选边界框中覆盖所述2D平面上的所述2D数据点簇中的最多数量的数据点的一个候选边界框；基于h_obj的值围绕所述2D平面上的所述2D数据点簇的中心p_center旋转所述BEV边界框。

在一些示例中，确定所述多个候选边界框可以包括，对于所述多个选定的多边形点中的每个相应的多边形点：生成四个预定大小的矩形框；从所述四个矩形框中选择一个矩形框作为所述相应多边形点的所述候选边界框，其中，与所述四个矩形框中的其余矩形框相比，所述选定的矩形框覆盖所述2D平面上的所述2D数据点簇中的最多数量的点。

在一些示例中，所述四个矩形框中的每个矩形框具有：在所述车辆坐标系中平行于所述车辆的x轴的相应第一侧，以及在所述车辆坐标系中平行于所述车辆的y轴的相应第二侧。

在一些示例中，所述四个矩形框中的第一矩形框具有与所述相应多边形点重合的右下角，所述四个矩形框中的第二矩形框具有与所述相应多边形点重合的左下角，所述四个矩形框中的第三矩形框具有与所述相应多边形点重合的右上角，所述四个矩形框中的第四矩形框具有与所述相应多边形点重合的左上角。

在一些示例中，所述2D图像中的信息集合可以包括：与所述对象相关联的类别标签、与所述类别标签相关联的分类分数、所述对象的大小、所述对象的图像航向h_image以及与所述对象的所述图像航向h_image相关联的图像航向不确定性

在一些示例中，确定所述3D对象和所述2D对象对应于所述环境中的同一对象可以基于：与所述对象相关联的所述类别标签、与所述类别标签相关联的所述分类分数和所述对象的所述大小。

在一些示例中，确定所述对象的所述估计航向h_obj可以包括：接收或确定所述对象的跟踪航向h_track和与所述对象的所述跟踪航向h_track相关联的跟踪航向不确定性

基于所述对象的所述图像航向h_image和所述对象的所述跟踪航向h_track，计算并存储所述对象的所述估计航向h_obj；基于所述图像航向不确定性

和所述跟踪航向不确定性

计算并存储所述对象的估计航向不确定性

在一些示例中，为了确定所述对象的所述跟踪航向h_track，所述系统可以包括：卡尔曼(Kalman)滤波器、马尔可夫(Markov)过程、隐藏马尔可夫模型、递归贝叶斯(Bayes)滤波器或粒子滤波器的实现。

在一些示例中，h_obj＝f(h_image,h_track)和f()是用于基于h_image和h_track计算平均值的函数。

在一些示例中，

在一些示例中，

和g()是用于基于

和

计算平均值的函数。

在一些示例中，

附图说明

现在将通过示例参考示出本申请示例性实施例的附图，在附图中：

图1是示例性自动驾驶车辆中的一些组件的框图；

图2是用于在车辆上的计算机视觉系统内生成BEV边界框的示例性组件的框图；

图3是用于为3D点云内的对象生成点簇的示例性方法的示例性流程图；

图4A至图4D示出了使用3D点云为对象生成BEV边界框的过程；

图5是使用3D点云和2D图像为对象生成BEV边界框的示例性方法的流程图；

图6是基于2D平面上的2D数据点簇为对象生成BEV边界框的示例性方法的流程图。

在不同的附图中可以使用相似的附图标记来表示相似的组件。

具体实施方式

本发明以附图作为参考，在所述附图中示出了实施例。但是，可以使用许多不同的实施例，因此不应将描述解释为限于本文中阐述的实施例。相反，提供这些实施例是为了使得本发明透彻和完整。本发明中的相似数字指代相似元件，在替代实施例中，加撇符号用于表示相似元件、操作或步骤。所示系统和设备的功能元件的单独框或所示分离不一定需要这些功能的物理分离，因为这些元件之间的通信可以在没有任何这种物理分离的情况下通过消息传递、函数调用、共享内存空间等方式发生。因此，尽管为了便于解释，本文分开示出了功能，但是这些功能不需要在物理或逻辑上分离的平台中实现。不同的设备可以具有不同的设计，使得尽管一些设备在固定功能硬件中实现一些功能，但其它设备可以在可编程处理器中实现这些功能，该处理器具有从机器可读介质获得的代码。

为了方便起见，本发明描述了用于自动驾驶车辆定位的方法和系统的示例性实施例。自动驾驶车辆可以是任何类型的车辆，例如机动车(例如汽车、卡车、公共汽车)、小船或大船、潜艇、飞机、仓储设备、建筑设备、拖拉机或其它农场设备。本发明的教导不限于车辆或任何特定类型的车辆，而是可以应用于其它真实或虚拟对象以及非载客车辆和载客车辆。本发明的教导也可以在非车载移动机器人中实施，包括但不限于智能吸尘器、探测器(rover)、割草机、无人机(unmanned aerial vehicle，UAV)和其它对象。即使本文中描述的车辆控制系统已经有助于半自动或全自动驾驶，但也可以用于非自动驾驶模式下的车辆。

图1示出了本发明一个示例性实施例提供的自动驾驶车辆100中的选定组件。车辆100包括连接到传感器或传感器系统110的车辆控制系统115、驱动控制系统150和机械系统190。车辆100还包括各种结构元件，例如车架、门、面板、座椅、窗户、镜子等，这些结构元件在本领域中是已知的，但为了避免混淆本发明的教导，这些结构元件已经从本发明中删掉。传感器110在车辆100中的不同位置上挂载到车辆100中的结构元件。

车辆控制系统115包括经由通信总线(未示出)耦合到车辆100中的多个内部组件的处理器102。处理器102耦合到随机存取存储器(random access memory，RAM)122、只读存储器(read only memory，ROM)124、闪存可擦除可编程只读存储器(erasableprogrammable read only memory，EPROM)(闪存)等持久(非易失性)存储器126、用于与无线网络交换射频信号的一个或多个无线收发器130、用于从卫星网络接收卫星信号的卫星接收器132、实时时钟134。车辆控制系统115还耦合到车辆100中的其它组件，包括传感器110、触摸屏136、一个或多个扬声器138、一个或多个麦克风140、驱动控制系统150和机械系统190。

一个或多个无线收发器130可以包括一个或多个蜂窝(RF)收发器，用于使用不同的无线数据通信协议和标准与多个不同的无线接入网络(例如蜂窝网络)进行通信。车辆控制系统115可以在其地理覆盖区域内与无线WAN(例如蜂窝网络)的多个固定基站收发台中的任一个基站收发台进行通信。一个或多个无线收发器130可以通过无线WAN发送和接收信号。一个或多个无线收发器130可以包括支持多个射频频段的多频段蜂窝收发器。

一个或多个无线收发器130还可以包括无线局域网(wireless local areanetwork，WLAN)收发器，用于经由WLAN接入点(access point，AP)与WLAN(未示出)进行通信。WLAN可以包括符合IEEE 802.11x标准(有时称为

)或其它通信协议的Wi-Fi无线网络。

一个或多个无线收发器130还可以包括短程无线收发器，例如

收发器，用于与移动计算设备(例如智能手机或平板电脑)进行通信。一个或多个无线收发器130还可以包括其它短程无线收发器，包括但不限于近场通信(near field communication，NFC)、IEEE802.15.3a(也称为超宽带(ultra wideband，UWB))、Z-Wave、ZigBee、ANT/ANT+或红外线(例如国际红外数据协会(infrared data association，IrDA)通信)。

实时时钟134可以包括提供准确实时信息(例如Atmel公司提供的信息)的晶体振荡器。

触摸屏136包括彩色液晶显示器(liquid crystal display，LCD)、发光二极管(light-emitting diode，LED)显示器或有源矩阵有机发光二极管(active-matrixorganic light-emitting diode，AMOLED)显示器等显示器，具有连接到电子控制器的触敏输入面或覆盖层。车辆100中还可以提供耦合到处理器102的其它输入设备(未示出)，包括按钮、开关和拨号盘。

车辆控制系统115还包括一个或多个扬声器138、一个或多个麦克风140和一个或多个数据端口142，例如串行数据端口(例如通用串行总线(universal serial bus，USB)数据端口)。该系统还可以包括其它传感器，例如轮胎胎压感测器(tire pressure sensor，TPS)、门触开关、光传感器、接近传感器等。

驱动控制系统150用于控制车辆100的运动。驱动控制系统150包括转向单元152、制动单元154和油门(或加速)单元156，都可以实现为驱动控制系统150内的软件模块或控制块。当处于全自动或半自动驾驶模式时，转向单元152、制动单元154和油门单元156处理从存储在车辆控制系统115的存储器126中的路径规划模块174接收的路径信息，并且生成控制信号来控制车辆100的转向、制动和油门，以在规划路径上行驶。驱动控制系统150可以包括用于控制车辆100的其它方面(包括控制转向信号灯和刹车灯等)的其它组件。

机械系统190从驱动控制系统150接收控制信号，以操作车辆100中的机械组件。机械系统190影响车辆100的物理操作。机械系统190包括发动机192、变速箱194和车轮196。发动机192可以是汽油动力发动机、电池动力发动机、混合发动机、电动发动机等。其它组件可以包括在机械系统190中，包括例如转向信号灯、刹车灯、风扇和窗户。

图形用户界面(graphical user interface，GUI)可以由处理器102呈现和显示在触摸屏136上。用户可以使用触摸屏和可选的其它输入设备(例如按钮、拨号盘)与GUI交互，以显示相关信息，例如导航信息、驾驶信息、停车信息、媒体播放器信息、气候控制信息等。GUI可以包括一系列可遍历的特定内容菜单。

车辆控制系统115中的存储器126上存储有处理器102执行的操作系统软件160。除了GUI之外，存储器126上还存储有多个软件模块，统称为自动驾驶系统(autonomousdriving system，ADS)162，其中，自动驾驶系统162中的每个模块是包括处理器102可执行的机器可读指令的软件。ADS 162的模块包括车辆定位模块164、停车辅助模块166、自主泊车模块168、用于半自动驾驶的辅助驾驶模块170、路径规划模块174、感知模块176和其它模块178。包括映射模块、导航模块、气候控制模块、媒体播放器模块、电话模块和消息传递模块等其它模块178也存储在存储器126中。在一些实施例中，感知模块176包括机器可读指令，所述机器可读指令在由处理器102执行时，用于执行本文中描述的方法的操作。

尽管停车辅助模块166、自主泊车模块168、辅助驾驶模块170、自动驾驶模块172、路径规划模块174或感知模块176示为单独模块，但在其它实施例中，它们可以与一个或多个其它软件模块组合使用。

扫描LIDAR单元114可以在宽视图(例如360°视图)中捕获关于车辆100的信息。扫描LIDAR单元114捕获关于环境的三维(three-dimension，3D)信息，并且在3D坐标系中生成点云。数据点共同形成3D点云。

使用各种感测单元112、114、116、117、118、119，传感器系统110可以收集关于车辆100的本地外部环境(例如周围的任何障碍物)的信息以及较大范围的邻近地区的信息(例如，扫描LIDAR单元114可以从车辆100周围半径达100米或以上的区域收集信息)。传感器系统110还可以(例如使用GPS单元119)收集关于车辆100相对于参考坐标系的位置和方位的信息。传感器系统110还可以收集关于车辆100本身的信息。在这种情况下，可以认为车辆100本身是感测环境的一部分。例如，传感器系统110可以从感测单元(例如加速度计、速度计、里程计或惯性测量单元)收集信息，以确定车辆100的状态，例如车辆100的线速度、角速度、加速度和轮胎抓地力。这些感测单元可以是传感器系统110的一部分，也可以不是传感器系统110的一部分。传感器系统110可以重复(例如定期)实时或近实时地从其感测单元接收信息。传感器系统110还可以实时或近实时地将传感器数据182提供给车辆100中的其它组件。

存储器126存储各种数据180。数据180可以包括从一个或多个传感器110接收的传感器数据182，包括用户偏好、设置和可选的个人媒体文件(例如音乐、视频、路线等)的用户数据184以及包括经由无线收发器130下载的数据的下载缓存186。例如，存储器126可以存储传感器数据，所述传感器数据包括表示从相机112接收的由相机捕获的2D图像的图像数据、表示从LIDAR扫描系统114接收的3D点云的数据点、从SAR单元116接收的SAR数据、来自车轮里程测量单元117或惯性测量单元(inertial measurement unit，IMU)118的里程测量数据、来自全球定位系统(global positioning system，GPS)119的位置数据和来自其它传感器120的数据。从车轮里程测量单元117接收的里程测量数据包括表示车辆100旋转的旋转数据和表示车辆100平移的平移数据。从IMU 118接收的里程测量数据包括表示车辆100的三轴角速度的速度数据和表示车辆100的三轴加速度的加速度数据。

在一些实施例中，处理器102从安装在车辆100上的扫描LIDAR单元114接收传感器数据，并处理传感器数据以生成3D点云。感知模块176可以从存储器126接收表示2D图像的图像数据和3D点云中的数据点，并将2D图像或3D点云中检测到的对象输出到ADS160的其它软件模块，例如路径规划模块174。

传感器系统110通过处理器102与感知模块176通信，以向感知模块176提供包括3D点云的传感器数据182，所述感知模块176处理传感器数据182以检测和识别车辆100运行的环境中的对象，例如检测和识别行人或另一汽车。感知模块176用于对3D点云中的数据点进行对象检测、分类、回归和分段，以检测和识别3D点云中的对象。在本示例中，感知模块176处理点云中的数据点，以生成与在3D点云中检测到的对象相关联的一组BEV多边形点，并处理表示2D图像的图像数据，以生成与在2D图像中检测到的每个对象相关联的2D边界框，如下所述。

感知模块176可以使用软件或硬件和软件的组合来实现。例如，感知模块176可以包括专用图像处理器，用于执行表示2D图像的图像数据的图像处理。或者，感知模块176可以包括可由车辆100的车辆控制器115的处理器102执行的指令。感知模块176可以重复(例如，定期)从例如传感器系统110的LIDAR单元114接收传感器数据，例如表示3D点云的数据点，或从例如传感器系统110的相机112接收表示2D图像的图像数据，并独立地处理点云和图像数据，以实时或近实时地检测和识别对象。感知模块176的输出包括例如与检测对象相关联的信息，包括对象类别和与检测对象相关联的BEV边界框。感知模块176的输出还可以包括用于一个或多个检测对象的2D或3D坐标系中的对象分段(例如，对象掩码)、对象位置和对象边界。

下载缓存186可以周期性地(例如在预定时间之后)删除。系统软件、软件模块、特定设备应用或其部分可以临时加载到易失性存储器中，例如加载到用于存储运行时数据变量和其它类型的数据或信息的RAM 122中。车辆控制系统115接收的数据也可以存储在RAM122中。尽管针对各种类型存储器描述了特定功能，但这只是一个示例，还可以为不同类型的存储器分配不同的功能。

车辆控制系统115包括卫星接收器132，其可以使用卫星接收器从卫星网络中的多个卫星接收的信号来确定其位置。卫星网络通常包括多个卫星，这些卫星是至少一个全球导航卫星系统(global navigation satellite system，GNSS)的一部分。至少一个GNSS提供全球覆盖范围内的自主地理空间定位。例如，卫星网络可以是一群GNSS卫星。示例性GNSS包括美国NAVSTAR全球定位系统(global positioning system，GPS)或俄罗斯全球轨道导航卫星系统(global navigation satellite system，GLONASS)。其它已经部署或正在开发的卫星导航系统包括欧盟的伽利略定位系统、中国的北斗导航卫星系统(BeiDounavigation satellite system，BDS)、印度区域卫星导航系统和日本卫星导航系统。

车辆100可以包括未示出的其它组件，包括用户接口系统和无线通信系统(例如包括天线)等。这些其它组件还可以将输入提供给上述系统或从上述系统接收输出。车辆100可以与外部系统(例如外部地图数据库)进行通信。车辆100还可以与能够在自动、半自动或非自动车辆之间进行通信的车载网等网络进行通信。

感知模块176用于在鸟瞰图(bird's eye view，BEV)中生成与例如靠近车辆100的对象相关联的边界框。然后，所得BEV边界框可以由ADS 162的其它模块使用，包括路径规划模块174。

提出的用于生成与对象相关联的BEV边界框的方法使用在处理2D图像中的2D图像数据和同一时间段内拍摄的3D点云中的3D数据点时生成的信息，以实时生成BEV边界框，而不需要机器学习，从而在内存有限的车辆上需要较少的计算资源。更具体地，在所述时间段内，2D图像集和对应的3D点云集由感知模块176处理，以生成用于在2D图像集中识别的对象的信息集合和用于3D点云集中的对象的对象簇。2D图像集中的每个2D图像对应于对应的3D点云集中的相应3D点云，从某种意义上说，2D图像和对应的3D点云是由不同的传感器在各自离散的时间点大约同时捕获的。

图2是用于生成与对象相关联的BEV边界框的示例性感知模块176的框图。感知模块176可用于：使用2D图像处理方法225处理一个或多个2D图像220；使用点云处理方法215处理一个或多个3D点云210；使用视觉匹配过程240生成2D图像220与3D点云210之间的配对，并且最后使用边界框估计器250输出鸟瞰图(bird's eye view，BEV)边界框260。

感知模块176例如从传感器系统110的LIDAR单元114接收3D点云210。LIDAR单元114在车辆100的周围环境中扫描多个激光束。3D点云210包括激光束被对象反射的多个激光点。每个激光点可以被称为3D数据点。点云是由LIDAR单元114在一轮(例如360°)激光束扫描中收集的3D数据点的集合，形成3D点云210。3D点云中的所有3D数据点可以统称为点云。3D点云中的每个数据点由3D坐标系中的感测对象的3D坐标集(例如以米为单位的x、y和z值)标识。通常，3D点云中每个数据点的3D坐标集，以及可选地其它值(例如，反射光强度或检测时间的附加信息)可以使用一维矢量表示。3D点云210对应于在特定时间对车辆100周围的物理环境的扫描，并与指示生成3D点云的特定时间的时间戳相关联。多个3D点云210可以分别与连续时间戳集合中的相应时间戳相关联。3D点云中的数据点可以不规则地间隔，具体取决于外部环境。在一些示例中，除了3D坐标之外，3D点云中的每个数据点还可以包括其它信息，例如反射光强度或检测时间。

在示例性实施例中，感知模块176接收3D点云210并处理3D点云210中的数据点以生成一个或多个对象簇，其中，每个对象簇与3D点云210中标识的物理环境中的对象相关联。下面结合图3详细描述生成对象簇的示例性过程。感知模块176可以基于与在3D点云210中识别的对象相关联的对象簇生成输出，该输出是与对象簇表示的对象相关联的估计BEV边界框260。即使为给定的3D点云210生成的对象簇可能不止一个，出于本发明的目的，仅描述了一个对象簇的处理。相同的过程可以同时或并发地应用于其它对象簇，以便生成与每个对象簇相关联的BEV边界框。

现在参考图2，感知模块176用于接收表示车辆100的相机112在一段时间内每次捕获的2D图像220的图像数据(例如，在5秒的跨度内10个2D图像)。每个2D图像220由相机112在时间段内的特定时间拍摄。2D图像220通常由安装在车辆100上的前置相机112获得，并且2D图像220的鸟瞰图(bird's eye view，BEV)图像可以通过使用车辆和图像坐标系通过旋转、变换和投影到2D平面上处理图像220来获得。图像坐标系是相机112使用的坐标系，可以与车辆坐标系不同。例如，在图像坐标系中表示的点用位于相机112的光学中心的原点来描述。2D图像220包括一个或多个对象，例如另一车辆、建筑物、行人、红绿灯等。感知模块176可以使用2D图像处理方法225处理表示2D图像220的图像数据，以执行对象检测，以确定关于2D图像220中的对象的信息集合：例如，与对象相关联的类别标签、对象的大小或对象的中心。例如，对象的大小可以通过拟合2D最小边界框来表示，2D最小边界框是可以围绕对象拟合的最小矩形框，并测量2D最小边界框的尺寸(l，w)，其中，l表示估计的长度，w表示估计的宽度。长度和宽度的单位可以是像素，也可以是标准测量单位，例如英寸、英尺或米。对象的中心可以由图像坐标系中的位置坐标或车辆100的车辆坐标系中的位置坐标表示。

当一系列2D图像220在短时间内被相机112捕获时，一些对象可能在由相机112捕获的一系列2D图像220中多次出现。感知模块176可以实现2D图像处理方法225，以生成关于2D图像220序列中的一个或多个对象中的每一个的各种信息。该信息可以包括，例如，每个对象的类别标签、每个对象的类别标签的相应分类分数、每个对象的大小和每个对象的图像航向h_image，以及与对象的图像航向h_image相关联的图像航向不确定性

其中，h_image∈R和

分类分数可以定义为预定义类别集合中由类别标签指示的、具有最高值的类别的预测概率值。例如，分类分数的范围可以为100分中的0到100分，而与对象的类别标签“行人”相关联的分类分数为97分表示对象是行人的可能性为97％。

如果对象在短时间内在一系列2D图像220上出现至少两次，则可以获得对象的图像航向h_image。图像航向表示基于2D图像确定的对象的航向。感知模块176处理表示每个2D图像220的图像数据以执行对象检测。感知模块176还处理表示每个2D图像220的图像数据以执行对象分类，从而生成与对象相关联的类别标签，例如，指示对象是车辆、建筑物、行人或红绿灯的类别标签，以及在一些实施例中，指示对象是特定类型车辆(例如轿车或卡车)的类别标签。与对象相关联的每个类别标签还可以与表示感知模块176在类别标签预测中的置信程度的分类分数相关联。一旦在一系列2D图像220中的多个2D图像上检测和分类对象，图像航向h_image就可以基于其在每个2D图像220中的相对位置来计算。从鸟瞰图来看，图像航向h_image通常是车辆100的车辆坐标系的xy平面中的2D矢量。

与对象的图像航向h_image相关联的图像航向不确定性

指示与对象的航向h_image相关联的置信度分数。在一些实施例中，h_image和

可以基于跨连续时间戳的多个2D图像上对象的中心位置使用卡尔曼滤波器的实现生成的。在其它实施例中，h_image和

使用设计用于2D对象检测的CNN生成，并具有附加的航向估计或图像处理技术，例如定向梯度直方图(histogram of oriented gradient，HOG)。2D对象检测的各种示例方法的详细说明可以参见Z.Zhao、P.Zheng、S.Xu和X.Wu的“使用深度学习的对象检测：回顾(Object Detection With Deep Learning:AReview)”，IEEE Transactions on NeuralNetworks and Learning Systems，第30卷，第11期，第3212-3232页，2019年11月。

感知模块176用于基于表示3D点云210中的3D对象的对象簇335和包括类别标签、每个类别标签的相应分类分数、大小、图像航向h_image和与2D图像220中的2D对象的每个图像航向h_image相关联的图像航向不确定性

的信息集合，使用视觉匹配过程240在3D点云210中的3D对象与2D图像220中的2D对象之间生成配对。3D对象与2D对象的配对意味着表示3D对象和2D对象的对象簇335对应于在车辆100运行的环境中的相同时间帧的同一对象。

在一些实施例中，视觉匹配过程240可以被实现为使用点对应方法为2D对象中的每个像素找到对应的3D位置坐标，并使用2D对象的3D位置坐标在3D数据点的对象簇335中找到对应的3D数据点，以生成配对。在一些实施例中，视觉匹配过程240可以被实现以将从2D图像生成的2D边界框投射到3D域，以在3D数据点的对象簇335中找到对应的3D数据点，如下文献中所述：例如，C.R.Qi、W.Liu、C.Wu、H.Su和L.J.Guibas的“用于根据RGB-D数据进行3D对象检测的Frustum PointNets(Frustum PointNets for 3D Object Detection fromRGB-D Data)”，2018年IEEE/CVF计算机视觉与模式识别会议，犹他州盐湖城，2018年，第918-927页；以及Gong、Zheng和Lin、Haojia和Zhang、Dedong和Luo、Zhipeng和Zelek、John和Chen、Yiping和Nurunnabi、Abdul和Wang、Cheng和Li、Jonathan的“用于通过融合LiDAR和相机数据进行3D对象检测的基于Frustum的概率框架(A Frustum-based ProbabilisticFramework for 3D Object Detection by Fusion of LiDAR and Camera Data)”，ISPRS摄影测量与遥感杂志，第159卷，2020年1月，第90-100页。

在其它实施例中，可视匹配过程240可以被实现以从表示3D点云中的3D对象的数据点的对象簇335开始，并继续查找与3D点云中的数据点簇匹配的2D对象，以生成配对。视觉匹配过程240的输出包括识别数据点簇与对应2D对象的每个配对的信息。例如，可以将唯一标识符分配给3D数据点的对象簇335和被视为配对的对应2D对象。然后，3D点335的簇和其对应的2D对象的每个配对可以存储在本地存储器中用于进一步处理。

BEV边界框估计器250用于基于对象的对象簇335、从2D图像220获得的关于同一对象的信息集合、用于3D对象的一个或多个对象簇与在视觉匹配过程240之后获得的对应2D对象之间的配对，以及可选地，对象的跟踪航向h_track 230，为位于3D点云210中的对象输出估计的BEV边界框260。

在一些实施例中，感知模块176可以确定跟踪航向h_track。或者，跟踪航向h_track可以由跟踪模块确定。跟踪航向h_track可以被转换为车辆100的车辆坐标系的xy平面中的2D矢量，类似于从2D图像获得的对象的图像航向h_image。与对象的跟踪航向h_track相关联的跟踪航向不确定性(例如方差)

对于感知模块176可以是可选的，指示与对象的航向h_track相关联的置信度分数。在一些实施例中，

可以使用卡尔曼滤波器的实现来生成。卡尔曼滤波器的示例性方法的描述可以参见例如，S.Roweis和Z.Ghahramani的“线性高斯模型的统一回顾”，神经计算，第11卷，第2期，第305-345页，1999年2月15日。

在一些实施例中，使用多目标跟踪方法计算对象的跟踪航向h_track，该多目标跟踪方法可以使用卡尔曼滤波来基于紧接给定图像或3D点云之前的一组2D图像或3D点云的信息来预测给定(例如最近)图像或3D点云中目标的位置。感知模块176可以使用表示由点云处理方法215确定的3D点云210中的一个或多个对象的动力学的数据，或使用表示由2D图像处理方法225确定的2D图像220中的一个或多个对象的动力学的数据，以便确定关于2D图像220中存在的一个或多个对象中的每个对象的各种信息。例如，2D图像处理方法225可以被实现为使用关于对象的信息集合，包括例如对象ID、位置，以及在紧接给定(例如，最近)图像之前的2D图像集合上它们各自的2D最小边界框，以确定对象的跟踪航向h_track 230。可选地，点云处理方法215还可以被实现为使用关于对象的信息集合，每个对象由对象ID表示，以及在紧接给定3D点云之前的3D点云集合上它们各自的3D边界框，以确定对象的跟踪航向h_track。2D图像集合和3D点云集合可以在相同的时间段内捕获，并且相同的对象可以与2D图像和3D点云中的同一对象ID相关联。对于在当前时间t拍摄的2D图像或3D点云中识别的给定对象，感知模块176需要截至时间t拍摄的2D图像或3D点云中的历史信息，以便预测在当前时间t对象的估计。感知模块176可以执行多目标跟踪方法，以实时或近实时地计算关于对象的各种估计，包括例如对象的速度、位置、加速度、类别、航向和航向估计不确定性。

需要说明的是，卡尔曼滤波(即线性二次估计)可以是扩展的卡尔曼滤波，是可由感知模块176用于确定对象的跟踪航向h_track的一个示例性过程。在一些实施例中，代替(或除了)使用卡尔曼滤波，可以使用其它过程来确定对象的跟踪航向h_track，其它过程例如马尔可夫过程、隐藏马尔可夫模型(hidden Markov model，HMM)、递归贝叶斯滤波器或粒子滤波器。

现在参考图3，示出了用于通过感知模块176为3D点云210内的对象生成数据点的对象簇335的示例性方法300的示例流程图。感知模块176可以使用点云处理方法215生成对象簇335，该方法可以包括指令，所述指令当由车辆100的处理器102执行时执行此处描述的步骤。在步骤310中，对3D点云210中的数据点执行分段过程，以确定3D点云中的一个或多个分段316。每个分段316表示3D点云中对象的候选，并具有中心315。在步骤320中，这可以是可选的，对每个分段316执行点聚类以获得一个或多个候选簇325，其中，每个候选簇325表示候选对象。点聚类过程可以基于点间距离，因为不同对象的两个数据点之间可以有一定的距离。在步骤330中，这可以是可选的，可以对每个候选簇325执行对象级点云提取，以获得3D点云210中的每个对象的3D数据点的对象簇335。该步骤可以包括滤波过程，以移除轮廓线候选簇325，所述轮廓线候选簇325太小而能不被视为车辆100在驾驶期间需要考虑的对象，或者在候选簇325中没有足够的数据点使其成为对象。滤波过程还可以去除对车辆100太不重要或太远的候选簇325，例如树枝。3D对象簇335中的每个数据点在LIDAR单元114的3D坐标系中具有相应的笛卡尔坐标集(x_i，y_i，z_i)。

感知模块176用于基于3D点云210中的对象的对象簇335、关于2D图像220中的同一对象的信息集合以及可选地对象的跟踪航向h_track230，例如使用边界框估计器250生成BEV边界框260。具体地，BEV边界框估计器250可以被实现以基于3D对象的3D数据点的对象簇335，确定和存储车辆100的车辆坐标系中BEV中的2D平面(例如xy平面)上的一组BEV多边形点。这首先需要将3D数据点的对象簇335映射到BEV中的2D平面上的2D数据点簇410(见图4A)，这包括将3D数据点的对象簇335的参照系从3D点云坐标系改变为车辆坐标系，即，将3D数据点的对象簇335转换为车辆坐标系，然后为2D数据点簇410中的所有数据点的z轴变量分配零值。在一些实施例中，BEV边界框估计器250可以用于从具有特定高度和深度条件的3D数据点的对象簇335中选择数据点作为2D平面上的数据点410。在一些实施例中，BEV边界框估计器250可以使用不同大小或分辨率的传统占用网格映射生成器来创建BEV中2D平面上的数据点簇的BEV数据表示。

然后，BEV边界框估计器250确定并存储BEV中2D平面上的3D对象的一组BEV多边形点p_conv420，其中，所述一组BEV多边形点p_conv 420形成包围2D平面上的2D数据点簇410的凸包。图4A示出了在车辆坐标系中BEV中的2D平面上靠近车辆100的2D数据点簇410。一般来说，多边形点p_conv420从点簇410中选择，并且多边形点420用作包围2D数据点簇410的凸包的顶点。

接下来，BEV边界框估计器250确定2D平面上的2D数据点簇410的中心p_center＝(x_c，y_c)415。在一些实施例中，中心p_center 415可以基于2D数据点簇410的平均值计算。例如，x_c可以计算为{x₁,x₂…x_n}的平均值，y_c可以计算为{y₁,y₂…y_n}的平均值，其中，(x_i，y_i)，i＝1、2……n表示BEV中2D平面上2D数据点簇410的每个点410在车辆坐标系中的相应坐标。

为了更新2D数据点簇410的方向，BEV边界框估计器250需要确定由数据点簇410表示的对象的估计航向h_obj 450。估计航向h_obj 450可以基于对象的图像航向h_image 235和对象的跟踪航向h_track 230确定。例如，估计航向h_obj 450可以被确定为h_image和h_track的平均值，即，

在一些实施例中，在对象的跟踪航向h_track230可能不容易获得的情况下，估计航向h_obj450可以仅基于对象的图像航向h_image 235来确定。例如，h_track＝h_image.，在一些实施例中，h_track可以是基于h_image和对应的图像航向不确定性

的细化值。

此外，可以基于图像航向不确定性

和跟踪航向不确定性

来确定对象的估计航向不确定性

例如，估计航向不确定性

可以被确定为

和

的平均值，即，

一旦获得估计航向h_obj 450，BEV边界框估计器250就可以用于基于估计航向h_obj450围绕p_center中心旋转数据点簇410，例如在图4A所示的方向460上在估计航向h_obj 450与2D平面的x轴之间旋转等于角度440(由θ表示)的量。在旋转之后，2D平面上的数据点簇410与车辆坐标系中的车辆100轴定向(也称为轴对准)，如图4B所示。

在旋转之后，BEV边界框估计器250可以用于基于多边形点420到车辆100的中心480的距离从一组BEV多边形点420中选择一个或多个多边形点425。车辆100的中心(x_v，y_v)480与多边形点(x_p，y_p)420之间的距离490由D表示，可以通过欧几里德距离计算如下：

在一些实施例中，BEV边界框估计器250用于选择到车辆100的中心480具有最短相应距离490D的N个多边形点425。N可以是从1到多边形点420的总数的任何自然数，并且可以基于车辆100的计算资源约束或对象的跟踪航向h_track 230的估计不确定性等各种因素预先确定。基于该标准，图4B示出了四个选定的多边形点425。

一旦确定了选定的多边形点425，BEV边界框估计器250可以用于确定多个候选边界框。每个选定的多边形点425具有对应的候选边界框。例如，基于多个选定的多边形点425中的一个选定的多边形点425确定图4C中的候选边界框430b。候选边界框430b通常是长度为l_c和宽度为w_c的矩形。每个候选边界框的大小基于由点簇410表示的对象的大小，更具体地，基于由2D图像处理方法225生成的2D最小边界框的尺寸确定。与对象相关联的2D最小边界框的大小具有尺寸(l，w)，其中，l表示估计长度，w表示估计宽度。2D最小边界框的估计尺寸(l，w)可以基于由2D图像处理方法225输出的与对象相关联的类别标签。例如，如果2D图像处理方法225已经为对象生成了“轿车车辆”的类别标签，则由2D图像处理方法225确定的2D最小边界框的尺寸可以不同于分类为行人的对象的2D最小边界框的尺寸。

为了为给定的选定多边形点425找到最佳候选边界框430b，BEV边界框估计器250可以用于首先为选定多边形点425生成四个矩形框430a、430b、430c、430d，如图4C所示。四个矩形框的尺寸(即长度l_b和宽度w_b)等于由2D图像处理方法225生成的对象的2D最小边界框的相应长度和宽度。由于数据点簇410现在与车辆100是轴定向的，因此四个矩形框430a、430b、430c、430d也应该与车辆100是轴定向的。每个矩形框具有平行于车辆坐标系的x轴的相应第一侧，以及平行于车辆坐标系的y轴的相应第二侧。

此外，四个矩形框430a、430b、430c、430d被布置成围绕选定的多边形点425，每个矩形框占据相应的象限，如图4C所示。例如，矩形框430a设置在左上象限，矩形框430b设置在右上象限，矩形框430c设置在右下象限，矩形框430d设置在左下象限。此外，每个矩形框具有与选定的多边形点425重叠的相应角。例如，矩形框430a具有与选定的多边形点425重叠的右下角，矩形框430b具有与选定的多边形点425重叠的左下角，矩形框430c具有与选定的多边形点425重叠的左上角，矩形框430d具有与选定的多边形点425重叠的右上角。

一旦所有四个矩形框430a、430b、430c、430d都以上述配置围绕选定的多边形点425设置，BEV边界框估计器250可以用于从四个矩形框430a、430b、430c、430d中选择一个矩形框430b，作为选定的多边形点425的候选边界框，其中，与四个矩形框中的其余矩形框430a、430c、430d相比，选定的矩形框430b覆盖数据点簇410中的最多数量的数据点。

BEV边界框估计器250用于为每个选定的多边形点425确定候选边界框。如果有N个选定的多边形点425，则有N个候选边界框。然后，BEV边界框估计器250可以从N个候选边界框中选择最终边界框作为BEV边界框260，其中，最终边界框覆盖所有候选边界框中2D平面上的数据点簇410中最多数量的数据点。

接下来，如图4D所示，BEV边界框估计器250用于基于h_obj 450的值围绕2D平面上的数据点簇的中心p_center415旋转BEV边界框260，使得BEV边界框260的方向再次与图4A所示的原始数据点簇410对齐。在一些实施例中，BEV边界框估计器250用于在与图4A中先前旋转的方向460相反的方向上，在估计航向h_obj 450与2D平面的x轴之间使BEV边界框260旋转等于角度440(由θ表示)的量。

在旋转BEV边界框260之后，可以基于尺寸l_b、w_b和BEV边界框260的位置确定BEV边界框260的中心470。

图5是用于为在车辆100运行的环境中检测到的对象生成BEV边界框260的示例性方法500的流程图。方法500由车辆100的感知模块176的软件执行，该软件可由车辆控制系统115的处理器102执行。对用于执行方法500的软件的编码在本发明领域普通技术人员的能力范围内。可由车辆控制系统115的处理器102执行以执行方法500的软件的机器可读指令可以存储在计算机可读存储介质中，例如非瞬时性计算机可读介质。

在步骤510中，感知模块176从车辆100的传感器系统110实时(或近实时)地接收表示3D点云210的数据和表示2D图像220的数据。3D点云210和2D图像220可以各自与时间戳相关联。3D点云210对应于车辆100在特定时间点运行的环境的扫描。在一些实施例中，感知模块176可以接收由车辆100的相机112在一段时间内捕获的一系列3D点云210和一系列2D图像220，其中，一系列3D点云中的每个3D点云与一系列2D图像220中的相应2D图像220的相同时间戳相关联。2D图像220包括一个或多个对象，例如另一车辆、建筑物、行人、红绿灯等。

在步骤520中，感知模块176处理3D点云210和表示每个2D图像220的图像数据，以视觉上将3D点云210中的3D对象与2D图像220中的对应2D对象匹配。感知模块176可用于处理3D点云210，以为在3D点云210中检测到的至少一个对象生成3D数据点的对象簇335。在一些实施例中，感知模块176可以为在3D点云210中检测到的每个对象生成3D数据点的相应对象簇335。3D数据点的对象簇335中的每个3D数据点都具有LIDAR单元114的3D坐标系中的相应坐标集(x_i，y_i，z_i)。

此外，感知模块176处理表示每个2D图像220的图像数据，以执行对象检测和分类，以便确定关于对象的各种信息，例如与对象相关联的类别标签、对象的大小和中心。对象的大小和中心可以基于2D图像220中对象的2D最小边界框计算。此外，感知模块176可以基于跨连续时间的一系列2D图像220确定每个对象的图像航向h_image 235和与每个对象的图像航向h_image 235相关联的图像航向不确定性

其中，h_image∈R和

然后，感知模块176用于使用视觉匹配过程240，基于3D对象的3D数据点的对象簇335和关于2D对象的信息集合，在3D点云210中的3D对象与2D图像220中的2D对象之间生成配对。视觉匹配过程240的输出包括识别3D数据点的对象簇与对应2D对象的每个配对的信息。例如，可以将唯一标识符分配给3D数据点的对象簇335和被视为配对的对应2D对象。然后，3D点335的簇和其对应的2D对象的每个配对可以存储在本地存储器中用于进一步处理。

在步骤530中，感知模块176的BEV边界框估计器250可以基于3D中的3D数据点的对象簇335，确定车辆100的车辆坐标系中的鸟瞰图(bird's eye view，BEV)中的2D平面上的对应(2D)数据点簇410。在一些实施例中，BEV边界框估计器250用于首先将3D数据点的对象簇335映射到BEV中的2D平面上的2D点簇410，这包括将3D数据点的对象簇335的参照系从生成3D点云210(例如LIDAR单元114)的传感器的3D坐标系改变到车辆坐标系，即，将3D数据点的对象簇335转换到车辆坐标系，然后为2D数据点簇410中的所有数据点的z轴变量分配零值。

在步骤540中，BEV边界框估计器250确定一组BEV多边形点420，所述一组BEV多边形点420形成包围2D平面上的数据点簇410的凸包。所述一组BEV多边形点420可以基于从2D点构建凸包的传统算法和方法来确定，例如，来自matlab^TM库的polyshape()函数。多边形点420是构造的包围数据点簇410的凸包的顶点。

在步骤550中，BEV边界框估计器250可以基于数据点簇410、一组BEV多边形点420和从2D图像获得的信息集合，为对象生成BEV边界框260，如下面参考图6中的方法600所述。

在步骤560中，在一些实施例中，感知模块176可以输出关于BEV边界框260的信息范围，包括尺寸(例如，宽度、高度、长度)、沿x轴的中心坐标、沿y轴的中心坐标、沿z轴的中心坐标，以及BEV边界框的角度。在一些实施例中，车辆100的路径规划模块174可以接收BEV边界框260，并使用关于BEV边界框260的信息以及其它信息(例如，车辆100的状态、车辆100的轨迹)来执行车辆100的路径规划。

图6示出了用于由感知模块176生成BEV边界框260的示例性方法600的流程图。在一些实施例中，方法600可以由作为感知模块176的一部分实现的边界框估计器250执行。在步骤610中，感知模块176确定车辆坐标系中BEV中的2D平面上的2D数据点簇410的中心415。在一些实施例中，中心415可以基于2D数据点簇410的平均值计算。

在步骤620中，感知模块176基于车辆100的估计航向h_obj 450围绕中心415旋转2D数据点簇410。估计航向h_obj 450可以基于对象的图像航向h_image 235和对象的跟踪航向h_track 230的平均值来确定，这可以实时或近实时地获得。在一些实施例中，在对象的跟踪航向h_track 230可能不容易获得的情况下，估计航向h_obj 450可以仅基于对象的图像航向h_image235来确定。在旋转之后，2D数据点簇410和BEV多边形点420在车辆坐标系中与车辆100轴对准。

在步骤630中，感知模块176从一组BEV多边形点420中确定多个选定的多边形点425。该选择可以基于每个BEV多边形点420与车辆100的中心480之间的相应距离。如果相应的距离高于一定阈值，则BEV多边形点420可以被选择为最近的多边形点425中的一个。

在步骤640中，感知模块176确定多个候选边界框，每个候选边界框基于相应的选定的多边形点425确定。为了确定一个选定的多边形点425的候选边界框，感知模块176为选定的多边形点425生成多个(例如，四个)矩形框430a、430b、430c、430d，每个矩形框430a、430b、430c、430d占据围绕选定的多边形点425的相应象限。每个矩形框430a、430b、430c、430d在车辆坐标系中与车辆100轴对准。四个矩形框的尺寸可以等于先前确定的对象的2D最小边界框的尺寸。

从四个矩形框中选择覆盖最多数量的2D数据点簇410的矩形框430b作为相应多边形点425的候选边界框。对于N个选定的多边形点425中的每个选定的多边形点425重复该过程，以生成N个候选边界框430b。

在步骤650中，感知模块176从多个候选边界框中选择最终边界框作为BEV边界框260，其中，BEV边界框260覆盖2D平面上的2D数据点簇410中最多数量的数据点。

在步骤660中，感知模块176基于估计航向h_obj 450围绕2D平面上的2D数据点簇410的中心p_center415旋转BEV边界框260。

作为可选的步骤，在步骤670中，感知模块176可以基于BEV边界框260的尺寸和位置，在步骤660中的旋转之后计算BEV边界框260的中心470。

尽管本发明通过按照一定的顺序执行的步骤描述方法和过程，但是可以适当地省略或改变方法和过程中的一个或多个步骤。在适当情况下，一个或多个步骤可以按所描述的顺序以外的顺序执行。

尽管本发明在方法方面至少部分地进行了描述，但本领域普通技术人员将理解，本发明也针对用于执行所述方法的至少一些方面和特征的各种组件，无论是通过硬件组件、软件还是其任意组合。相应地，本发明的技术方案可以通过软件产品的形式体现。合适的软件产品可以存储在预先记录的存储设备或其它类似的非易失性或非瞬时性计算机可读介质中，包括DVD、CD-ROM、USB闪存盘、可移动硬盘或其它存储介质等。软件产品包括有形地存储在其上的指令，所述指令使得处理设备(例如，个人计算机、服务器或网络设备)能够执行本文中公开的方法的示例。

在不脱离权利要求书的主题的前提下，本发明可以通过其它特定形式实施。所描述的示例性实施例在各方面都仅仅是示意性的，而不是限制性的。可以组合从一个或多个上述实施例中选择的特征，以创建非显式描述的可选实施例，在本发明的范围内可以理解适合于此类组合的特征。

还公开了公开范围内的所有值和子范围。此外，尽管本文所公开和显示的系统、设备和流程可包括特定数量的元素/组件，但可以修改所述系统、设备和组件，以包括此类元素/组件中的更多或更少的元素/组件。例如，尽管所公开的任何元件/组件可以引用为单个数量，但是可以修改本文所公开的实施例以包括多个此类元件/组件。本文所描述的主题旨在覆盖和涵盖所有适当的技术变更。

Claims

1.一种用于为靠近车辆的对象生成边界框的处理器实现的方法，其特征在于，所述方法包括：

接收表示环境的三维(three-dimensional，3D)点云；

接收所述环境的二维(two-dimensional，2D)图像；

处理所述3D点云，以识别所述3D点云中的3D对象的3D数据点的对象簇；

处理所述2D图像，以检测所述2D图像中的2D对象，并从所述2D图像生成关于所述2D对象的信息；

当所述3D对象和所述2D对象对应于所述环境中的同一对象时：

基于3D数据点的所述对象簇和所述2D图像中的所述信息，为所述对象生成鸟瞰图(bird's eye view，BEV)边界框。

2.根据权利要求1所述的方法，其特征在于，生成所述BEV边界框包括：

将3D数据点的所述对象簇映射到鸟瞰图(bird's eye view，BEV)中和所述车辆的车辆坐标系中的2D平面上的2D数据点簇；

确定并存储所述BEV中的所述2D平面上的一组BEV多边形点，其中，所述一组BEV多边形点形成包围所述2D平面上的所述2D数据点簇的凸包；

基于所述2D平面上的所述2D数据点簇、所述一组BEV多边形点和所述2D图像中的所述信息生成所述BEV边界框。

3.根据权利要求2所述的方法，其特征在于，生成所述BEV边界框还包括：

确定所述2D平面上的所述2D数据点簇的中心p_center；

确定所述对象的估计航向h_obj；

基于所述估计航向h_obj，围绕所述中心p_center旋转所述2D平面上的所述2D数据点簇；

从所述一组BEV多边形点中确定多个选定的多边形点；

确定多个候选边界框，其中，每个候选边界框基于所述多个选定的多边形点中的相应的选定的多边形点确定；

从所述多个候选边界框中选择最终边界框作为所述BEV边界框，其中，所述最终边界框是所述候选边界框中覆盖所述2D平面上的所述2D数据点簇中的最多数量的数据点的一个候选边界框；

基于h_obj的值围绕所述2D平面上的所述2D数据点簇的中心p_center旋转所述BEV边界框。

4.根据权利要求3所述的方法，其特征在于，确定所述多个候选边界框包括，对于所述多个选定的多边形点中的每个相应的多边形点：

生成四个预定大小的矩形框；

从所述四个矩形框中选择一个矩形框作为所述相应多边形点的所述候选边界框，其中，与所述四个矩形框中的其余矩形框相比，所述选定的矩形框覆盖所述2D平面上的所述2D数据点簇中的最多数量的数据点。

5.根据权利要求4所述的方法，其特征在于，

所述四个矩形框中的每个矩形框具有：在所述车辆坐标系中平行于所述车辆的x轴的相应第一侧，以及在所述车辆坐标系中平行于所述车辆的y轴的相应第二侧；

所述四个矩形框中的第一矩形框具有与所述相应多边形点重合的右下角，所述四个矩形框中的第二矩形框具有与所述相应多边形点重合的左下角，所述四个矩形框中的第三矩形框具有与所述相应多边形点重合的右上角，所述四个矩形框中的第四矩形框具有与所述相应多边形点重合的左上角。

6.根据权利要求3所述的方法，其特征在于，所述2D图像中的所述信息包括：与所述对象相关联的类别标签、与所述类别标签相关联的分类分数、所述对象的大小、所述对象的图像航向h_image以及与所述对象的所述图像航向h_image相关联的图像航向不确定性

所述方法包括：

基于与所述对象相关联的所述类别标签、与所述类别标签相关联的所述分类分数和所述对象的所述大小，确定所述3D对象和所述2D对象对应于所述环境中的同一对象；

接收或确定所述对象的跟踪航向h_track和与所述对象的所述跟踪航向h_track相关联的跟踪航向不确定性

基于所述对象的所述图像航向h_image和所述对象的所述跟踪航向h_track，计算并存储所述对象的所述估计航向h_obj；

基于所述图像航向不确定性

和所述跟踪航向不确定性

计算并存储所述对象的估计航向不确定性

7.根据权利要求6所述的方法，其特征在于，h_obj＝f(h_image,h_track)和f()是用于基于h_image和h_track计算平均值的函数。

8.根据权利要求7所述的方法，其特征在于，

9.根据权利要求6所述的方法，其特征在于，

和g()是用于基于

和

计算平均值的函数。

10.根据权利要求9所述的方法，其特征在于，

11.一种用于为靠近车辆的对象生成边界框的处理系统，其特征在于，所述处理系统包括：

处理单元；

耦合到所述处理单元的存储器，所述存储器存储机器可执行指令，所述机器可执行指令当由所述处理单元执行时，使所述处理系统：

接收表示环境的3D点云；

接收所述环境的2D图像；

处理所述3D点云，以识别所述3D点云中的3D对象的数据点簇；

当所述3D对象和所述2D对象对应于所述环境中的同一对象时：

12.根据权利要求11所述的处理系统，其特征在于，为了生成所述BEV边界框，所述指令在由所述处理单元执行时，使所述处理系统：

13.根据权利要求12所述的处理系统，其特征在于，为了生成所述BEV边界框，所述指令在由所述处理单元执行时，还使所述处理系统：

确定所述2D平面上的所述2D数据点簇的中心p_center；

确定所述对象的估计航向h_obj；

从所述一组BEV多边形点中确定多个选定的多边形点；

确定多个候选边界框，其中，每个候选边界框基于所述多个选定的多边形点中的相应的选定多边形点确定；

14.根据权利要求13所述的处理系统，其特征在于，所述指令当由所述处理单元执行时，使所述处理系统：对于所述多个选定的多边形点中的每个相应的多边形点，

生成四个预定大小的矩形框；

15.根据权利要求14所述的处理系统，其特征在于：

16.根据权利要求13所述的处理系统，其特征在于，所述2D图像中的所述信息包括：与所述对象相关联的类别标签、与所述类别标签相关联的分类分数、所述对象的大小、所述对象的估计航向h_obj、所述对象的图像航向h_image以及与所述对象的图像航向h_image相关联的图像航向不确定性

并且所述指令当由所述处理单元执行时，使所述处理系统：

基于所述图像航向不确定性

和所述跟踪航向不确定性

计算并存储所述对象的估计航向不确定性

17.根据权利要求16所述的处理系统，其特征在于，h_obj＝f(h_image,h_track)和f()是用于基于h_image和h_track计算平均值的函数。

18.根据权利要求17所述的处理系统，其特征在于

19.根据权利要求16所述的处理系统，其特征在于，

和g()是用于基于

和

计算平均值的函数。

20.根据权利要求19所述的处理系统，其特征在于

21.一种计算机可读介质，其特征在于，包括指令，所述指令在由处理系统的处理单元的处理器执行时使所述处理系统执行根据权利要求1至10中任一项所述的方法。

22.一种计算机程序，其特征在于，包括指令，所述指令在由处理系统的处理单元的处理器执行时使所述处理系统执行根据权利要求1至10中任一项所述的方法。