CN112825127A

CN112825127A - 生成用于自动驾驶标记的紧密2d边界框的新方法

Info

Publication number: CN112825127A
Application number: CN202010517023.5A
Authority: CN
Inventors: 荣国栋; 赵培涛; 郑在源
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2019-11-20
Filing date: 2020-06-09
Publication date: 2021-05-21
Anticipated expiration: 2040-06-09
Also published as: EP3825958A1; US20210150226A1; CN112825127B; US11699235B2; EP3825958B1

Abstract

公开了一种用于为三维(3D)场景中的可视对象生成紧密二维(2D)边界框的方法、设备和系统。包括一个或多个对象的三维(3D)场景的二维(2D)分割图像是通过用分割相机渲染3D场景而生成的。每个对象以单个相应的不同颜色呈现。接着，基于分割图像在一个或多个对象中识别3D场景中的一个或多个可视对象。接下来，针对3D场景中每个可视对象分别生成2D非模态分割图像。每个非模态分割图像仅包括为其生成的单个可视对象。此后，基于可视对象的非模态分割图像针对3D场景中的每个可视对象生成2D边界框。

Description

生成用于自动驾驶标记的紧密2D边界框的新方法

技术领域

本公开的实施方式总体上涉及操作自动驾驶车辆。更具体地，本公开的实施方式涉及生成用于训练自动驾驶车辆的感知模块的数据。

背景技术

以自主模式(例如，无驾驶员)操作的车辆可以减轻乘坐者，尤其是驾驶员的某些驾驶相关的责任。当在自主模式下操作时，车辆可以使用车载传感器导航到各种位置，从而允许车辆以最小的人机交互或者在一些情况下不需要任何乘客来行进。

运动规划和控制是自动驾驶中的关键操作。然而，传统的运动规划操作主要根据完成给定路径的曲率和速度来估计完成给定路径的难度，而不考虑不同类型的车辆的特征的差异。相同的运动规划和控制被应用于所有类型的车辆，其在某些情况下可能不是精确和平滑的。

感知模块是自动驾驶车辆栈中的关键部件。在感知模块中使用的人工智能(AI)算法需要大量的标记图像用于训练。手动标记既耗时又昂贵，并且可能不准确。因此，在本领域中有时使用合成数据来生成标记数据，以帮助感知模块获得更好的结果。

理想地，在被标记的图像中，与自动驾驶相关的每个障碍物用紧密的二维(2D)边界框来标记。在可用于自动驾驶的现有合成数据集中，一些(例如，Playing for Data、SYNTHIA)不提供2D边界框，而其他一些(例如，Ford Center for Autonomous Vehicles“FCAV”、Playing for Benchmarks)仅具有用于可视像素的2D边界框(与用于包括可视对象的遮挡或截断的像素在内的所有的2D边界框相反),以及还有其他一些对象(例如，VirtualKITTI)提供、比对象本身更大的2D边界框。为了获得最佳的训练结果，感知模块需要紧密的2D边界框，其同时覆盖对象的可视部分和遮挡或截断的部分。

发明内容

根据第一方面，本公开的一些实施方式提供了用于感知自动驾驶的障碍物的计算机实现的方法，所述方法包括：通过用分割相机渲染包括一个或多个对象的三维3D场景，生成所述3D场景的二维2D分割图像，其中，所述对象中的每一个以相应的不同单一颜色渲染；基于所述分割图像，在所述一个或多个对象中识别所述3D场景中的一个或多个可视对象；针对所述3D场景中的每个可视对象分别生成2D非模态分割图像，其中，每个非模态分割图像仅包括生成所述非模态分割图像所针对的单个可视对象；以及针对所述3D场景中的每个可视对象，基于所述可视对象的非模态分割图像生成2D边界框。

根据第二方面，本公开的一些实施方式提供了非暂时性机器可读介质，其中存储有指令，所述指令在由处理器执行时使得所述处理器执行用于感知自动驾驶的障碍物的操作，所述操作包括：通过用分割相机渲染包括一个或多个对象的三维3D场景，生成所述3D场景的二维2D分割图像，其中，所述对象中的每一个以相应的不同单一颜色渲染；基于所述分割图像，在所述一个或多个对象中识别所述3D场景中的一个或多个可视对象；针对所述3D场景中的每个可视对象分别生成2D非模态分割图像，其中，每个非模态分割图像仅包括生成所述非模态分割图像所针对的单个可视对象；以及针对所述3D场景中的每个可视对象，基于可视对象的非模态分割图像生成2D边界框。

根据第三方面，本公开的一些实施方式提供了数据处理系统，其包括处理器和存储器，所述存储器联接到所述处理器并存储指令，所述指令在由所述处理器执行时致使所述处理器执行用于感知自动驾驶的障碍物的操作，所述操作包括：通过用分割相机渲染包括一个或多个对象的三维3D场景，生成所述3D场景的二维2D分割图像，其中，所述对象中的每一个以相应的不同单一颜色渲染；基于所述分割图像，在所述一个或多个对象中识别所述3D场景中的一个或多个可视对象；针对所述3D场景中的每个可视对象分别生成2D非模态分割图像，其中，每个非模态分割图像仅包括生成所述非模态分割图像所针对的单个可视对象；以及针对所述3D场景中的每个可视对象，基于可视对象的非模态分割图像生成2D边界框。

附图说明

本公开的实施方式以示例而非限制的方式示出在附图的各图中，在附图中类似附图标记指示类似元件。

图1是示出根据一个实施方式的网络化系统的框图。

图2是示出根据一个实施方式的自动驾驶车辆的示例的框图。

图3A至图3B是示出根据一个实施方式的与自动驾驶车辆一起使用的感知与规划系统的示例的框图。

图4是示出这里描述的各种类型的边界框的图。

图5是说明根据本发明实施方式使用的各种组件的框图。

图6A至图6D是为本公开的实施方式生成的图像，并且示出了本公开的实施方式。

图7是示出根据一实施方式的用于针对三维(3D)场景中的可视对象生成紧密二维(2D)边界框的示例性方法的流程图。

图8是示出根据一实施方式的示例性装置的框图。

具体实施方式

将参考以下所讨论的细节来描述本公开的各种实施方式和方面，附图将示出所述各种实施方式。下列描述和附图是对本公开的说明，而不应当解释为限制本公开。描述了许多特定细节以提供对本公开各种实施方式的全面理解。然而，在某些情况下，并未描述众所周知的或常规的细节以提供对本公开的实施方式的简洁讨论。

本说明书中对“一个实施方式”或“实施方式”的引述意味着结合该实施方式所描述的特定特征、结构或特性可包括在本公开的至少一个实施方式中。短语“在一个实施方式中”在本说明书中各处的记载不必全部指同一实施方式。

一些实施方式涉及用于针对三维(3D)场景中的可视对象生成紧密二维(2D)边界框的方法、装置和系统。首先，通过用分割相机渲染包括一个或多个对象的三维(3D)场景来生成3D场景的(2D)分割图像。每个对象以相应的不同单一颜色呈现。接着，基于分割图像在一个或多个对象中识别3D场景中的一个或多个可视对象。接下来，针对3D场景中每个可视对象分别生成2D非模态分割图像。每个非模态分割图像仅包括其所针对生成的单个可视对象，并且在相应的非模态分割图像中，整个可视对象在其整体上被渲染而不被遮挡，即使当用常规的传感器相机渲染时，其会被场景中的另一对象部分地遮挡。此后，基于可视对象的非模态分割图像针对3D场景中的每个可视对象生成2D边界框。

包括所生成的2D边界框的数据集可用于训练自动驾驶车辆的感知模块。

在一个实施方式中，为了基于分割图像识别3D场景中的一个或多个可视对象，确定3D场景中的每个对象的可视像素的数量。应当理解，存在于与对象相关联的分割图像中的所有像素都是可视像素，并且可以基于像素的颜色和与该像素相关联对象的单一颜色来识别该像素与相关联的对象之间的对应关系。接下来，对于每个对象，确定与该对象相关联的可视像素的数量是否大于预定阈值。此后，如果与3D场景中的对象相关联的可视像素的数量大于预定阈值，则将该对象识别为可视对象。

在一个实施方式中，为了基于可视对象的非模态分割图像针对3D场景中的每个可视对象生成2D边界框，基于非模态分割图像确定与可视对象的像素相关联的最小x坐标、最小y坐标、最大x坐标和最大y坐标。然后，生成与最小x坐标、最小y坐标、最大x坐标和最大y坐标相关联的矩形作为可视对象的2D边界框。

在一个实施方式中，以1位(每个像素)颜色深度生成与单个可视对象相关联的每个非模态分割图像。因此，可以在单个渲染通路中将多个非模态分割图像渲染为单个色彩格式图像，其中色彩格式图像中的每个色彩信息位对应于相应的可视对象。例如，在一个实施方式中，与32个可视对象相关联的32个非模态分割图像在单个渲染过程中被渲染为单个32位(每个像素)色彩格式图像(例如，红绿蓝α“RGBA”图像)。

在一个实施方式中，利用多重渲染目标(MRT)技术，可以在单个渲染通路中渲染甚至更多的非模态分割图像。特别地，可以在单个渲染通路中将第一数量的非模态分割图像渲染为第二数量的色彩格式图像，其中每个色彩格式图像中的每个色彩信息位对应于相应的可视对象。例如，在一个实施方式中，与128个可视对象相关联的128个非模态分割图像在单个渲染过程中被渲染为四个32位(每个像素)色彩格式图像(例如，RGBA图像)。

图1是示出根据本公开的一个实施方式的自动驾驶车辆网络配置的框图。参考图1，网络配置100包括可以通过网络102通信地联接到一个或多个服务器103至104的自动驾驶车辆101。尽管示出一个自动驾驶车辆，但多个自动驾驶车辆可以通过网络102彼此联接和/或联接到服务器103至104。网络102可以是任何类型的网络，诸如，有线或无线的局域网(LAN)、诸如互联网的广域网(WAN)、蜂窝网络、卫星网络或其组合。服务器103至104可以是任何类型的服务器或服务器群集，诸如，Web或云服务器、应用服务器、后端服务器或其组合。服务器103至104可以是数据分析服务器、内容服务器、交通信息服务器、地图和兴趣点(MPOI)服务器或者位置服务器等。

自动驾驶车辆是指可以被配置成处于自动驾驶模式下的车辆，在所述自动驾驶模式下，车辆在极少或没有来自驾驶员的输入的情况下导航通过环境。这种自动驾驶车辆可包括传感器系统，所述传感器系统具有被配置成检测与车辆运行环境有关的信息的一个或多个传感器。车辆和其相关联的控制器使用所检测的信息来导航通过所述环境。自动驾驶车辆101可以在手动模式下、在全自动驾驶模式下或者在部分自动驾驶模式下运行。

在一个实施方式中，自动驾驶车辆101包括，但不限于，感知与规划系统110、车辆控制系统111、无线通信系统112、用户接口系统113和传感器系统115。自动驾驶车辆101还可包括普通车辆中包括的某些常用部件，诸如发动机、车轮、方向盘、变速器等，这些部件可以由车辆控制系统111和/或感知与规划系统110使用多种通信信号和/或命令进行控制，该多种通信信号和/或命令例如为加速信号或命令、减速信号或命令、转向信号或命令、制动信号或命令等。

部件110至115可以经由互连件、总线、网络或其组合通信地联接到彼此。例如，部件110至115可以经由控制器局域网(CAN)总线通信地联接到彼此。CAN总线是被设计成允许微控制器和装置在没有主机的应用中与彼此通信的车辆总线标准。它是最初是为汽车内的复用电气布线设计的基于消息的协议，但也用于许多其它环境。

现在参考图2，在一个实施方式中，传感器系统115包括但不限于一个或多个相机211、全球定位系统(GPS)单元212、惯性测量单元(IMU)213、雷达单元214以及光探测和测距(LIDAR)单元215。GPS系统212可包括收发器，所述收发器可操作以提供关于自动驾驶车辆的位置的信息。IMU单元213可以基于惯性加速度来感测自动驾驶车辆的位置和定向变化。雷达单元214可以表示利用无线电信号来感测自动驾驶车辆的本地环境内的对象的系统。在一些实施方式中，除感测对象之外，雷达单元214可以另外感测对象的速度和/或前进方向。LIDAR单元215可以使用激光来感测自动驾驶车辆所处环境中的对象。除其它系统部件之外，LIDAR单元215还可包括一个或多个激光源、激光扫描器以及一个或多个检测器。相机211可包括用来收集自动驾驶车辆周围环境的图像的一个或多个装置。相机211可以是静物相机和/或视频相机。相机可以是可机械地移动的，例如，通过将相机安装在旋转和/或倾斜平台上。

传感器系统115还可包括其它传感器，诸如声纳传感器、红外传感器、转向传感器、油门传感器、制动传感器以及音频传感器(例如，麦克风)。音频传感器可以被配置成从自动驾驶车辆周围的环境中收集声音。转向传感器可以被配置成感测方向盘、车辆的车轮或其组合的转向角度。油门传感器和制动传感器分别感测车辆的油门位置和制动位置。在一些情形下，油门传感器和制动传感器可以集成为集成式油门/制动传感器。

在一个实施方式中，车辆控制系统111包括但不限于转向单元201、油门单元202(也被称为加速单元)和制动单元203。转向单元201用来调整车辆的方向或前进方向。油门单元202用来控制马达或发动机的速度，马达或发动机的速度进而控制车辆的速度和加速度。制动单元203通过提供摩擦使车辆的车轮或轮胎减速而使车辆减速。应注意，如图2所示的部件可以以硬件、软件或其组合实施。

回到图1，无线通信系统112允许自动驾驶车辆101与诸如装置、传感器、其它车辆等的外部系统之间的通信。例如，无线通信系统112可以与一个或多个装置直接无线通信，或者经由通信网络进行无线通信，诸如，通过网络102与服务器103至104通信。无线通信系统112可以使用任何蜂窝通信网络或无线局域网(WLAN)，例如，使用WiFi，以与另一部件或系统通信。无线通信系统112可以例如使用红外链路、蓝牙等与装置(例如，乘客的移动装置、显示装置、车辆101内的扬声器)直接通信。用户接口系统113可以是在车辆101内实施的外围装置的一部分，包括例如键盘、触摸屏显示装置、麦克风和扬声器等。

自动驾驶车辆101的功能中的一些或全部可以由感知与规划系统110控制或管理，尤其当在自动驾驶模式下操作时。感知与规划系统110包括必要的硬件(例如，处理器、存储器、存储设备)和软件(例如，操作系统、规划和路线安排程序)，以从传感器系统115、控制系统111、无线通信系统112和/或用户接口系统113接收信息，处理所接收的信息，规划从起始点到目的地点的路线或路径，随后基于规划和控制信息来驾驶车辆101。替代地，感知与规划系统110可以与车辆控制系统111集成在一起。

例如，作为乘客的用户可以例如经由用户接口来指定行程的起始位置和目的地。感知与规划系统110获得行程相关数据。例如，感知与规划系统110可以从MPOI服务器中获得位置和路线信息，所述MPOI服务器可以是服务器103至104的一部分。位置服务器提供位置服务，并且MPOI服务器提供地图服务和某些位置的POI。替代地，此类位置和MPOI信息可以本地高速缓存在感知与规划系统110的永久性存储装置中。

当自动驾驶车辆101沿着路线移动时，感知与规划系统110也可以从交通信息系统或服务器(TIS)获得实时交通信息。应注意，服务器103至104可以由第三方实体进行操作。替代地，服务器103至104的功能可以与感知与规划系统110集成在一起。基于实时交通信息、MPOI信息和位置信息以及由传感器系统115检测或感测的实时本地环境数据(例如，障碍物、对象、附近车辆)，感知与规划系统110可以规划最佳路线并且根据所规划的路线例如经由控制系统111来驾驶车辆101，以安全且高效到达指定目的地。

服务器103可以是为多种客户端执行数据分析服务的数据分析系统。在一个实施方式中，数据分析系统103包括数据收集器121和机器学习引擎122。数据收集器121从各种车辆(自动驾驶车辆或由人类驾驶员所驾驶的常规车辆)收集驾驶统计数据123。驾驶统计数据123包括表明在不同的时间点时发出的驾驶命令(例如，油门命令、制动命令、转向命令)以及车辆的传感器所捕获的车辆的响应(例如速度、加速、减速、方向)的信息。驾驶统计数据123还可包括描述在不同的时间点时的驾驶环境的信息，诸如，例如路线(包括起始位置和目的地位置)、MPOI、道路状况、天气状况等。

基于驾驶统计123，机器学习引擎122为各种目的生成或训练一组规则，算法和/或预测模型124。特别地，例如，机器学习引擎122可以通过根据本公开的实施方式基于合成数据生成或训练模型来帮助改善ADV的感知和规划。感知训练系统或模块125配置为训练感知模块或模型以基于由传感器捕获的图像来执行障碍物的感知。然后，算法/模型124可以被上载到ADV上，以便在自动驾驶期间实时使用。

图3A和图3B是示出根据一个实施方式的与自动驾驶车辆一起使用的感知与规划系统的示例的框图。系统300可以被实施为图1的自动驾驶车辆101的一部分，包括但不限于感知与规划系统110、控制系统111和传感器系统115。参考图3A至图3B，感知与规划系统110包括但不限于定位模块301、感知模块302、预测模块303、决策模块304、规划模块305、控制模块306、路线制定模块307。

模块301至307中的一些或全部可以以软件、硬件或其组合实施。例如，这些模块可以安装在永久性存储装置352中、加载到存储器351中，并且由一个或多个处理器(未示出)执行。应注意，这些模块中的一些或全部可以通信地联接到图2的车辆控制系统111的一些或全部模块或者与它们集成在一起。模块301至307中的一些可以一起集成为集成模块。

定位模块301(例如，利用GPS单元212)确定自动驾驶车辆300的当前位置，并管理与用户的行程或路线相关的任何数据。定位模块301(也被称为地图与路线模块)管理与用户的行程或路线相关的任何数据。用户可以例如经由用户接口登录并且指定行程的起始位置和目的地。定位模块301与自动驾驶车辆300的诸如地图和路线信息311的其它部件通信，以获得行程相关数据。例如，定位模块301可以从位置服务器和地图与POI(MPOI)服务器获得位置和路线信息。位置服务器提供位置服务，并且MPOI服务器提供地图服务和某些位置的POI，这些服务和POI可以作为地图和路线信息311的一部分高速缓存。当自动驾驶车辆300沿着路线移动时，定位模块301也可以从交通信息系统或服务器获得实时交通信息。

基于由传感器系统115提供的传感器数据和由定位模块301获得的定位信息，感知模块302确定对周围环境的感知。感知信息可以表示普通驾驶员在驾驶员正驾驶的车辆周围将感知到的事物。感知可包括例如采用对象形式的车道配置、交通灯信号、另一车辆的相对位置、行人、建筑物、人行横道或其它交通相关标志(例如，停止标志、让行标志)等。车道配置包括描述一条或多条车道的信息，诸如，例如车道的形状(例如，笔直的车道或弯曲的车道)、车道的宽度、道路中有多少车道、单向或双向车道、并线车道或分叉车道、出口车道等。

感知模块302可包括计算机视觉系统或计算机视觉系统的功能，以处理并分析由一个或多个相机捕获的图像，从而识别自动驾驶车辆环境中的对象和/或特征。所述对象可包括交通信号、道路边界、其它车辆、行人和/或障碍物等。计算机视觉系统可以使用对象识别算法、视频追踪以及其它计算机视觉技术。在一些实施方式中，计算机视觉系统可以绘制环境地图，追踪对象，以及估算对象的速度等。感知模块302也可以基于由诸如雷达和/或LIDAR的其它传感器提供的其它传感器数据来检测对象。

针对每个对象，预测模块303预测所述对象在所述情况下的行为。基于在某时间点感知的驾驶环境的感知数据根据地图和路线信息311与交通规则312的集合来执行所述预测。例如，如果对象是相反方向处的车辆且当前驾驶环境包括十字路口，则预测模块303将预测该车辆是可能向前直行还是可能转弯。如果感知数据表明十字路口没有交通灯，则预测模块303可预测该车辆可能在进入十字路口之前必须完全停下。如果感知数据表明该车辆当前处于左转专用车道或右转专用车道，则预测模块303可分别预测该车辆更可能进行左转或右转。

针对每个对象，决策模块304作出关于如何处置对象的决定。例如，针对特定对象(例如，交叉路线中的另一车辆)以及描述对象的元数据(例如，速度、方向、转弯角度)，决策模块304决定如何与所述对象相会(例如，超车、让行、停止、经过)。决策模块304可以根据诸如交通规则或驾驶规则312的规则集来作出此类决定，所述规则集可以存储在永久性存储装置352中。

路线制定模块307配置为提供从起始点到目的点的一个或多个路线或路径。对于例如接收自用户的从开始位置到目的地位置的给定行程，路线制定模块307获得路线和地图信息311，并确定从开始位置到目的地位置的所有可能的路线或路径。路线制定模块307可以针对其从开始位置确定到达目的地位置的每条路线生成地形图形式的参考线。参考线指的是没有来自其它车辆、障碍物或交通状况的任何干扰的理想路线或路径。也就是说，如果在道路上没有其它车辆、行人或障碍物，则ADV应精确地或紧密地遵循参考线。然后将地形图提供给决策模块304和/或规划模块305。决策模块304和/或规划模块305考虑由其它模块提供的其它数据，例如来自定位模块301的交通状况、由感知模块302感知的驾驶环境以及由预测模块303预测的交通状况，检查所有可能的路线以选择和修改最佳路线之一。用于控制ADV的实际路径或路线可以接近或不同于由路线制定模块307提供的参考线，这取决于在该时间点的特定驾驶环境。

基于针对所感知到的对象中的每个的决定，规划模块305为自动驾驶车辆规划路径或路线以及驾驶参数(例如，距离、速度和/或转弯角度)。即，针对给定的对象，决策模块304决定对对象做什么，而规划模块305确定如何去做。例如，针对给定的对象，决策模块304可以决定经过所述对象，而规划模块305可以确定在所述对象的左侧还是右侧经过。规划和控制数据由规划模块305生成，包括描述车辆300在下一移动周期(例如，下一路线/路径段)中将如何移动的信息。例如，规划和控制数据可以指示车辆300以30英里每小时(mph)的速度移动10米，随后以25mph的速度变到右侧车道。

基于规划和控制数据，控制模块306根据由规划和控制数据限定的路线或路径通过将适当的命令或信号发送到车辆控制系统111来控制并驾驶自动驾驶车辆。所述规划和控制数据包括足够的信息，以沿着路径或路线在不同的时间点使用适当的车辆设置或驾驶参数(例如，油门、制动和转向命令)使车辆从路线或路径的第一点行驶到第二点。

在一个实施方式中，规划阶段以多个规划周期(也称为行驶周期)执行，诸如，以例如每100毫秒(ms)的时间间隔执行。针对每个规划周期或行驶周期，将基于规划和控制数据发出一个或多个控制命令。即，对于每个100ms，规划模块305规划下一路线段或路径段，例如，包括目标位置和ADV到达该目标位置所需的时间。替代地，规划模块305还可指定具体速度、方向和/或转向角度等。在一个实施方式中，规划模块305为下一预定的时间段(诸如5秒)规划路线段或路径段。对于每个规划周期，规划模块305基于先前周期中所规划的目标位置为当前周期(例如，下个5秒)规划目标位置。控制模块306随后基于当前周期的规划和控制数据生成一个或多个控制命令(例如，油门控制命令、制动控制命令、转向控制命令)。

应注意，决策模块304和规划模块305可以集成为集成模块。决策模块304/规划模块305可以包括导航系统或导航系统的功能，以确定自动驾驶车辆的驾驶路径。例如，导航系统可以确定用于实现自动驾驶车辆沿着以下路径移动的一系列速度和前进方向：所述路径在使自动驾驶车辆沿着通往最终目的地的基于车行道的路径前进的同时，基本上避免感知到的障碍物。目的地可以根据经由用户接口系统113进行的用户输入来设定。导航系统可以在自动驾驶车辆正在运行的同时动态地更新驾驶路径。导航系统可以将来自GPS系统和一个或多个地图的数据合并，以确定用于自动驾驶车辆的驾驶路径。

图4示出了根据一个实施方式的训练感知模块的过程。该过程可以由如图8所示的感知训练模块来执行，这将在下面进一步详细描述。参照图4，示出了说明这里描述的各种类型的边界框的图400。直接包围前方的车辆422的边界框402是紧密2D边界框。当车辆424在场景中被车辆422部分遮挡时，仅包围车辆424的可视部分的2D边界框404是仅用于可视像素的2D边界框(这种边界框404可以被称为遮挡的边界框)。还示出了包围包括闭合部分在内的车辆424整体的附加2D边界框406。边界框406及其类似物可以被称为无遮挡的边界框。基于车辆426的3D模型生成向右包围车辆426的3D边界框408(即，3D边界框408对应于与车辆426的3D模型相关联的最小和最大x-坐标、y-坐标和z-坐标)。通过将3D边界框408投影到图像平面并基于投影的3D边界框408生成2D边界框410，可以基于3D边界框408生成非紧密2D边界框410。应当理解，非紧密2D边界框410和其它类似的边界框对于训练自动驾驶车辆的感知模块的目的不是理想的。最后，还示出了包围车辆426的紧密2D边界框412。没有遮挡的紧密2D边界框，诸如边界框402、406和412对于训练感知模块是最有用的。因此，本发明的各种实施方式涉及生成紧密2D边界框。

参考图5，示出了说明根据本公开的实施方式使用的各种组件的框图500。进一步参考图6A至图6D，示出了为本公开的实施方式生成的图像506、510、514、600D。图6A说明通过使用常规传感器相机504渲染三维(3D)场景502而产生的常规RGB图像506。3D场景502中的多个对象(障碍物)503是自动驾驶车辆所感兴趣的，诸如行人、汽车、摩托车、摩托车骑手、自行车和骑行者等。图6B示出了二维(2D)分割图像510。包括一个或多个对象503的三维(3D)场景502的二维(2D)分割图像510通过用分割相机508渲染3D场景502而生成。如图6B所示，对象503中的每一个以相应的不同单一颜色渲染。接着，基于分割图像510在一个或多个对象503中识别3D场景502中的一个或多个可视对象。应当理解，下文中的3D渲染语境中的“相机”是指模拟由相机的光学特性引起的视觉现象的过程。在此描述的一些模拟专用相机(例如，分割相机508、非模态分割相机)具有虚构特性，并且不具有真实世界的对应物。

在一个实施方式中，为了基于分割图像510识别3D场景502中的一个或多个可视对象，确定3D场景502中的每个对象503的可视像素的数量。应当理解，与对象503相关联的分割图像510中存在的所有像素都是可视像素，并且可以基于像素的颜色和与其相关联对象的单一颜色来识别像素与相关联的对象503之间的对应关系。接下来，对于对象503中的每一个，确定与对象503相关联的可视像素的数量是否大于(在不同的实施方式中，该关系可以是“等于或大于”)预定阈值。此后，如果与对象503相关联的可视像素的数量大于(在不同的实施方式中，该关系可以是“等于或大于”)预定阈值，则3D场景502中的对象503被识别为可视对象。

接下来，针对3D场景中的每个可视对象分别生成2D非模态分割图像514。每个非模态分割图像514仅包括其所针对生成的单个可视对象。通过用非模态分割相机512渲染相应的对象来生成非模态分割图像514。图6C示出了用于几个对象的非模态分割图像514。此后，基于可视对象的非模态分割图像514，针对3D场景502中的每个可视对象生成2D边界框516。

在一个实施方式中，为了基于3D场景中的可视对象的非模态分割图像514生成每个可视对象的2D边界框516，基于非模态分割图像514确定与可视对象的像素相关联的最小x坐标、最小y坐标、最大x坐标和最大y坐标。然后，将与最小x坐标、最小y坐标、最大x坐标和最大y坐标相关联的矩形生成为可视对象的2D边界框516。图6D示出了通过将可视对象的边界框516叠加在RGB图像506上而生成的结果图像600D。

在一个实施方式中，由于在非模态分割图像514中只有像素坐标是有用的，因此与单个可视对象相关联的每个非模态分割图像514以1位(每个像素)颜色深度生成(如图6C所示)。因此，多个非模态分割图像514可以在单个渲染通路中被渲染为单个色彩格式图像，其中色彩格式图像中的每个色彩信息位对应于相应的可视对象。这是有用的，因为常见的红绿蓝α(RGBA)纹理具有每个像素32个色彩信息位(每个通道8位)。因此，例如，在一个实施方式中，与32个可视对象相关联的32个非模态分割图像在单个渲染过程中被渲染为单个32位(每个像素)色彩格式图像(例如，RGBA图像)。例如，在32位色彩格式图像中的特定像素处，如果存在其非模态分割图像信息分别占据色彩信息中的第6和第7最低有效位的两个对象，则该像素的最终颜色值是二进制的1100000(十进制的96)，这是二进制的1000000(十进制的64)和二进制的100000(十进制的32)的逐位OR的结果。

在一个实施方式中，利用多重渲染目标(MRT)技术，可以在单个渲染通路中渲染甚至更多的非模态分割图像。特别地，第一数量的非模态分割图像可以在单个渲染通路中被渲染为第二数量的色彩格式图像，其中每个色彩格式图像中的每个色彩信息位对应于相应的可视对象。例如，在一个实施方式中，与128个可视对象相关联的128个非模态分割图像在单个渲染通路中被渲染为四个32位(每个像素)色彩格式图像(例如，RGBA图像)。

参照图7，示出了示出根据一个实施方式的用于针对三维(3D)场景中的可视对象生成紧密二维(2D)边界框的示例性方法700的流程图。过程700可以用硬件、软件或其组合来实现。在框710处，通过用分割相机渲染包括一个或多个对象的三维(3D)场景来生成3D场景的二维(2D)分割图像。每个对象以相应的不同单一颜色渲染。在框720，基于分割图像在一个或多个对象中识别3D场景中的一个或多个可视对象。在框730处，针对3D场景中每个可视对象分别生成2D非模态分割图像。每个非模态分割图像仅包括其所针对生成的单个可视对象。此后，在框740，基于可视对象的非模态分割图像，针对3D场景中的每个可视对象生成2D边界框。

图8示出了根据一个实施方式的感知训练模块的示例。感知训练模块800可以被实现为图1的感知训练系统125的一部分，用于训练自动驾驶系统的感知系统，诸如感知模块302。参照图8，示出了说明根据一个实施方式的示例性装置800的框图。图8所示的各种模块可以用硬件或软件来实现。2D分割图像生成模块802配置为通过利用分割相机渲染包括一个或多个对象的3D场景来生成3D场景的2D分割图像。每个对象以相应的不同单一颜色渲染。可视对象识别模块804配置为基于分割图像来识别一个或多个对象中的3D场景中的一个或多个可视对象。2D非模态分割图像生成模块806配置为针对3D场景中的每个可视对象分别生成2D非模态分割图像。每个非模态分割图像仅包括其所针对生成的单个可视对象。2D边界框生成模块808配置为基于可视对象的非模态分割图像针对3D场景中的每个可视对象生成2D边界框。

应注意，如上文示出和描述的部件中的一些或全部可以以软件、硬件或其组合实施。例如，此类部件可以实施为安装并存储在永久性存储装置中的软件，所述软件可以加载在存储器中并通过处理器(未示出)执行以实施本申请全文中所述的过程或操作。可替代地，此类部件可以实施为编程或嵌入到专用硬件(诸如，集成电路(例如，专用集成电路或ASIC)、数字信号处理器(DSP)或现场可编程门阵列(FPGA))中的可执行代码，所述可执行代码可以经由来自应用的相应驱动程序和/或操作系统来访问。此外，此类部件可以实施为处理器或处理器内核中的特定硬件逻辑，作为可由软件部件通过一个或多个特定指令访问的指令集的一部分。

前述详细描述中的一些部分已经根据在计算机存储器内对数据位的运算的算法和符号表示而呈现。这些算法描述和表示是数据处理领域中的技术人员所使用的方式，以将他们的工作实质最有效地传达给本领域中的其他技术人员。本文中，算法通常被认为是导致所期望结果的自洽操作序列。这些操作是指需要对物理量进行物理操控的操作。

然而，应该记住，所有这些和类似的术语均旨在与适当的物理量关联，并且仅仅是应用于这些量的方便标记。除非在以上讨论中以其它方式明确地指出，否则应当了解，在整个说明书中，利用术语(诸如所附权利要求书中所阐述的术语)进行的讨论是指计算机系统或类似电子计算装置的动作和处理，所述计算机系统或电子计算装置操控计算机系统的寄存器和存储器内的表示为物理(电子)量的数据，并将所述数据变换成计算机系统存储器或寄存器或者其它此类信息存储设备、传输或显示装置内类似地表示为物理量的其它数据。

本公开的实施方式还涉及用于执行本文中的操作的设备。这种计算机程序被存储在非暂时性计算机可读介质中。机器可读介质包括用于以机器(例如，计算机)可读的形式存储信息的任何机构。例如，机器可读(例如，计算机可读)介质包括机器(例如，计算机)可读存储介质(例如，只读存储器(“ROM”)、随机存取存储器(“RAM”)、磁盘存储介质、光存储介质、闪存存储器装置)。

前述附图中所描绘的过程或方法可以由处理逻辑来执行，所述处理逻辑包括硬件(例如，电路、专用逻辑等)、软件(例如，实现在非暂时性计算机可读介质上)或两者的组合。尽管所述过程或方法在上文是依据一些顺序操作来描述的，但是应当了解，所述操作中的一些可以按不同的顺序执行。此外，一些操作可以并行地执行而不是顺序地执行。

本公开的实施方式并未参考任何特定的编程语言进行描述。应认识到，可以使用多种编程语言来实施如本文描述的本公开的实施方式的教导。

在以上的说明书中，已经参考本公开的具体示例性实施方式对本公开的实施方式进行了描述。将显而易见的是，在不脱离所附权利要求书中阐述的本发明的更宽泛精神和范围的情况下，可以对本公开作出各种修改。因此，应当在说明性意义而不是限制性意义上来理解本说明书和附图。

Claims

1.用于感知自动驾驶的障碍物的计算机实现的方法，所述方法包括：

通过用分割相机渲染包括一个或多个对象的三维3D场景，生成所述3D场景的二维2D分割图像，其中，所述对象中的每一个以相应的不同单一颜色渲染；

基于所述分割图像，在所述一个或多个对象中识别所述3D场景中的一个或多个可视对象；

针对所述3D场景中的每个可视对象分别生成2D非模态分割图像，其中，每个非模态分割图像仅包括生成所述非模态分割图像所针对的单个可视对象；以及

针对所述3D场景中的每个可视对象，基于所述可视对象的非模态分割图像生成2D边界框。

2.如权利要求1所述的方法，其中，基于所述分割图像识别所述3D场景中的所述一个或多个可视对象还包括：

确定所述3D场景中的每个对象的可视像素的数量，其中，存在于与对象相关联的分割图像中的所有像素是可视像素，以及其中，基于像素的颜色和与所述像素相关联的对象的所述单一颜色来识别所述像素与所述相关联的对象之间的对应关系；

对于每个对象，确定与所述对象相关联的可视像素的数量是否大于预定阈值；以及

响应于确定与对象相关联的可视像素的数量大于所述预定阈值，将所述3D场景中的所述对象识别为可视对象。

3.如权利要求1所述的方法，其中，针对所述3D场景中的每个可视对象，基于所述可视对象的所述非模态分割图像生成所述2D边界框还包括：

基于所述非模态分割图像，确定与所述可视对象的像素相关联的最小x坐标、最小y坐标、最大x坐标和最大y坐标；

生成与所述最小x坐标、所述最小y坐标、所述最大x坐标和所述最大y坐标相关联的矩形作为所述可视对象的所述2D边界框。

4.如权利要求1所述的方法，其中，与单个可视对象相关联的每个非模态分割图像是以1位颜色深度生成的。

5.如权利要求4所述的方法，其中，在单个渲染通路中将多个非模态分割图像渲染成单个色彩格式图像，以及其中，所述色彩格式图像中的每个色彩信息位对应于相应的可视对象。

6.如权利要求5所述的方法，其中，在单个渲染通路中将与32个可视对象相关联的32个非模态分割图像渲染成单个32位彩色格式图像。

7.如权利要求4所述的方法，其中，用多重渲染目标(MRT)技术在单个渲染通路中将第一数量的非模态分割图像渲染成第二数量的色彩格式图像，以及其中，每个色彩格式图像中的每个色彩信息位对应于相应的可视对象。

8.如权利要求7所述的方法，其中，在单个渲染通路中将与128个可视对象相关联的128个非模态分割图像渲染成四个32位彩色格式图像。

9.非暂时性机器可读介质，其中存储有指令，所述指令在由处理器执行时使得所述处理器执行用于感知自动驾驶的障碍物的操作，所述操作包括：

针对所述3D场景中的每个可视对象，基于可视对象的非模态分割图像生成2D边界框。

10.如权利要求9所述的非暂时性机器可读介质，基于所述分割图像识别所述3D场景中的所述一个或多个可视对象还包括：

11.如权利要求9所述的非暂时性机器可读介质，针对所述3D场景中的每个可视对象，基于所述可视对象的所述非模态分割图像生成所述2D边界框还包括：

12.如权利要求9所述的非暂时性机器可读介质，其中，与单个可视对象相关联的每个非模态分割图像是以1位颜色深度生成的。

13.如权利要求12所述的非暂时性机器可读介质，其中，在单个渲染通路中将多个非模态分割图像渲染成单个色彩格式图像，以及其中，所述色彩格式图像中的每个色彩信息位对应于相应的可视对象。

14.如权利要求13所述的非暂时性机器可读介质，其中，在单个渲染通路中将与32个可视对象相关联的32个非模态分割图像渲染成单个32位彩色格式图像。

15.如权利要求12所述的非暂时性机器可读介质，其中，用多重渲染目标(MRT)技术在单个渲染通路中将第一数量的非模态分割图像渲染成第二数量的色彩格式图像，以及其中，每个色彩格式图像中的每个色彩信息位对应于相应的可视对象。

16.如权利要求15所述的非暂时性机器可读介质，其中，在单个渲染通路中将与128个可视对象相关联的128个非模态分割图像渲染成四个32位彩色格式图像。

17.数据处理系统，包括：

处理器；以及

存储器，联接到所述处理器并存储指令，所述指令在由所述处理器执行时致使所述处理器执行用于感知自动驾驶的障碍物的操作，所述操作包括：

18.如权利要求17所述的数据处理系统，其中，基于所述分割图像识别所述3D场景中的所述一个或多个可视对象还包括：

19.如权利要求17所述的数据处理系统，其中，针对所述3D场景中的每个可视对象，基于所述可视对象的所述非模态分割图像生成所述2D边界框还包括：

20.如权利要求17所述的数据处理系统，其中，与单个可视对象相关联的每个非模态分割图像是以1位颜色深度生成的。