CN115004193A

CN115004193A - 生成环境数据

Info

Publication number: CN115004193A
Application number: CN202080087565.1A
Authority: CN
Inventors: Z.杨; Y.柴; 周寅; 孙佩; H.克雷茨施马尔; S.拉弗蒂; D.埃尔汗; D.安格洛夫
Original assignee: Waymo LLC
Current assignee: Waymo LLC
Priority date: 2019-11-15
Filing date: 2020-11-16
Publication date: 2022-09-02
Also published as: US20210150799A1; WO2021097409A1; EP4051549A1; EP4051549A4

Abstract

用于生成模拟的传感器数据的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。方法之一包括获得从真实世界环境的传感器观察生成的面元地图，并且针对面元地图中的每个面元生成具有多个网格单元的相应网格，其中，每个网格具有与相对应的面元的取向相匹配的取向，并且其中，每个网格内的每个网格单元被分配相应的颜色值。对于真实世界环境的模拟表示内的模拟位置，生成纹理面元渲染，包括组合来自网格单元的颜色信息，所述网格单元从在真实世界环境的模拟表示内的模拟位置是可见的。

Description

生成环境数据

对相关申请的交叉引用

本申请要求于2019年11月15日提交的序列号为62/936，326的美国临时申请的权利，该美国临时申请通过引用并入于此。

技术领域

本说明书涉及针对自主交通工具(vehicle)应用生成人工传感器数据。

背景技术

自主交通工具包括自驾驶(self-driving)汽车、船只和飞机。自主交通工具使用各种机载的(on-board)传感器和计算机系统来检测附近的对象，并且使用这样的检测来做出控制和导航决策。

出于安全性和可伸缩性的目的，自主交通工具的控制系统通常在模拟中训练，而不是在实际的真实世界交通场景(setting)中训练。在模拟中，可以在具有复杂和多样的交通情景的模拟环境中测试自主交通工具的控制系统。作为用于训练自主交通工具的控制系统的工具，模拟的质量一般高度地依赖于模拟环境的质量。

然而，用于生成这种模拟环境的传统方法一般需要乏味的人工创建的模拟环境。例如，开发人员可以使用最先进的(state of art)游戏引擎来人工地创建具有高真实性对象的环境，诸如建筑物、行人和树木。但是这种创建模拟环境的高度人工的方法不可伸缩，并且因此，不是生成训练自主交通工具的控制系统所需数据量的现实方法。

发明内容

本说明书描述了系统如何可以使用面元(surfel)地图来生成模拟的传感器数据以用于执行自主交通工具模拟。在一些实施方式中，模拟的传感器数据由生成对抗网络(GAN)生成，该GAN被训练为使用环境的基于面元的表示来生成比现有技术更加真实并且具有更多细节的真实图像。

在本说明书中，面元是具有3D空间中的位置、一个或多个形状和尺寸参数以及方向的表面贴片。面元可以共同地用于近似3D空间中的表面。面元的空间位置可以在任何适当的坐标系中表示。在一些实施方式中，系统可以将被建模的环境划分为体积元素(体素(voxel))，并且为环境中与表面相交的每个体素生成一个面元。

形状和尺寸参数指定面元的形状和尺寸。例如，面元可以是矩形、椭圆形或圆形。为了简化和压缩面元表示，系统可以使用盘(disc)面元，其中，所有面元具有相同的形状和相同的尺寸。例如，系统可以使用所有均具有相同半径的圆形盘来表示所有面元。面元的取向表示面元在环境中如何定向。取向可以在任何适当的坐标系中表示。例如，取向可以由具有x、y和z坐标的法向量来表示，该法向量表示与由面元定义的平面垂直的向量的方向。

可以实施本说明书中描述的主题的特定实施例，以便实现以下优点中的一个或多个。系统可以以可伸缩的方式自动地生成大量高质量的模拟的传感器数据。这允许系统针对实际上没有被访问的环境中的位置生成高质量的模拟的环境数据。因此，这些技术允许模拟以探索不存在行程记录数据的新的路径。允许探索新的路径也丰富了在模拟期间针对任何情况可以考虑的可能路径的集合。额外地，提供扩展自主交通工具的可能动作集合的机制可以大大提高其性能和安全性。

下面描述的技术也可以用于自动地生成用于训练感知系统的大量训练数据。例如，可以使用合成场景来生成用于城市场景分割的大量完全地标记的训练数据。作为另一示例，可以生成包含动态对象的新的放置的图像，以提高对象检测的性能。这大大加快了获得用于执行自主交通工具模拟和训练感知系统的训练数据的过程(process)。这还减少了需要从真实世界环境中收集的实际训练数据的量。实际上，根据一个面元数据的集合，可以从许多不同的角度和距离生成许多不同的模拟的传感器数据的集合，同时保持足够高的质量来执行自主交通工具模拟。

所公开的技术可以容易地扩展到由自主(self-autonomous)交通工具驱动(driven)的新的场景。此外，因为使用所公开的技术构建的环境是基于交通工具传感器的高质量重建，所以结果可以缩小合成图像与真实图像之间的域差距(domain gap)。另外，使用下面描述的技术来重建3D环境是有益的，因为其提供了合成在真实世界中无法捕获的新的视图。

另外，下面描述的技术减少了需要存储的数据量。具体地，图像可以即时(on thefly)生成，而不是预先生成和存储。此外，不再需要查询最近的捕获的视图，因为任何所需的任意视图都可以在模拟时自动地生成。因此，模拟的环境所需的存储极大地减少，并且模拟的环境的部署花费少得多的时间。

附图说明

图1是生成模拟的传感器数据的示例过程的流程图。

图2A-图2B描绘了由本文描述的技术生成的模拟的传感器数据。

图3是用于生成模拟的传感器数据的系统图。

具体实施方式

本说明书总体上描述了在生成模拟的环境数据以用于执行自主交通工具模拟时使用面元地图表示的系统和方法。

下面描述的技术可以使用在自主交通工具通过感兴趣场景的单次通过或多次通过期间收集的传感器数据，例如相机和激光雷达(LiDAR)数据。该数据可以用于使用纹理面元渲染来重建场景。生成纹理面元渲染在计算上是高效的，并且可以保留关于场景中的对象的3D几何、语义和外观的丰富信息。给定使用面元地图的场景重建，可以针对自动驾驶交通工具(SDV)和其他场景代理的新的姿态来渲染场景。由于初始的和新的场景配置之间的遮挡(occlusion)差异，这些新的视图的渲染重建可能具有一些缺失部分。由于面元重建的有限保真度，渲染的重建也可能具有视觉质量伪像(artifact)。为了解决这些问题，可以将GAN网络应用于渲染的面元重建，以产生最终的高质量图像重建。

所公开的技术可以生成模拟的相机图像以用于自主驾驶模拟。当在模拟中提供有自动驾驶交通工具的新的轨迹时，所公开的技术可以生成对下游模块有用的真实的视觉传感器数据，诸如对象检测器、行为预测器或运动规划器。在高级别上，可以扫描目标环境。可以使用丰富纹理面元重建目标环境的场景。可以与语义和实例分割掩模一起(alongside)，以新的轨迹的相机姿态来渲染。使用GAN，可以生成看起来真实的相机图像。结果，可以渲染场景中的新的视图，该视图与环境中自动驾驶交通工具和其他代理与其最初地捕获的轨迹的偏差相对应。

图1是生成模拟的传感器数据的示例过程的流程图。通常，系统可以使用面元地图来生成模拟的传感器数据。示例过程旨在提供原始的传感器信息的忠实保存(faithfulpreservation)，同时在计算和存储方面保持高效。为此，可以生成新的纹理增强的面元地图。

面元是紧凑的，易于重建，并且因为其尺寸可以固定，所以其可以高效地纹理化和压缩。该示例过程可以由一个或多个位置中的一个或多个计算机的系统来执行，例如由数据中心中的计算机来执行。该示例过程将被描述为由一个或多个计算机的系统来执行。

系统获得面元地图(102)。在本说明书中，面元地图是将相应的面元分配给表示真实世界环境的三维空间中的多个点中的每个的数据集合，这些点与真实世界环境中的表面接触或相交。可以从通过真实世界环境的行程的行程日志中记录的传感器观察来生成面元地图。

面元地图可以基于离散的3D体素网格。例如，LiDAR扫描可以按照其被真实世界环境的传感器观察所捕获的顺序进行处理。对于每个体素，可以基于该体素中的所有LiDAR点，通过估计平均坐标和面元法线来构建面元盘。面元盘半径可以定义为√3v，其中，v表示体素尺寸。还从传感器观察(例如，相机图像)中标识与被合并在体素中的LiDAR点相对应的颜色。这些颜色可以用于估计面元颜色。

系统为面元地图中的每个面元生成网格(104)。面元地图可能遭受几何一致性与精细粒度细节之间的折衷。换句话说，大的体素尺寸给出了更好的几何一致性但是更少的细节，而小的体素尺寸导致更好的细节但是更不稳定的几何。系统可以通过使用纹理实现良好的几何一致性和丰富纹理细节两者来解决这个问题。系统可以通过将每个面元盘离散成纹理来实现这点，其中纹理内的每个单元具有一种或多种相应的颜色，这允许系统对更高分辨率的纹理细节进行编码。

例如，对于面元地图中的每个面元，系统可以生成具有多个网格单元的相应网格，例如，以面元的几何中心点为中心的k×k网格。该系统可以针对k使用任何适当的值，例如3、5或8，仅举几个示例。每个网格可以具有与相对应的面元的取向相匹配的取向。然后，系统可以向每个网格内的每个网格单元分配一个或多个相应的颜色值，该颜色值例如可以从记录在行程日志数据中的传感器数据(例如相机图像)获得。

通过在不同距离处生成多个网格，可以进一步增强纹理面元地图。由于照明条件的变化和相对姿态(例如，距离和视角)的改变，每个面元可以在不同的帧中具有不同的外观，因此可以增强面元地图，从而在n个不同距离处创建纹理的码本。例如，系统可以针对每个面元生成n＝1、3、10或100个不同的网格。对于每个纹理合并(bin)，可以根据传感器观察来确定颜色。这可以帮助获得平滑的面元渲染。

系统接收模拟的位置(106)。系统可以接收模拟的位置，作为评估自动驾驶控制系统的模拟过程的一部分，或者作为生成训练数据的过程的一部分。

在模拟期间，系统可以生成模拟的交通工具在各种情况下可以采用的候选路线(route)。例如，系统可以使用候选路线上的点作为模拟的位置。能够生成模拟的传感器数据的一个好处是，系统可以为没有真实交通工具曾经实际到过的位置生成这种模拟的传感器数据。例如，如果新的道路刚刚被建造，但是实际的交通工具尚未有机会沿其驾驶，则系统仍然可以模拟沿新的道路的视图，以便作为可能的驾驶选择来评估新的道路。

在训练期间，系统可以为环境生成任何适当的数量的模拟的位置。例如，系统可以为道路中每个可能到达的位置生成模拟的位置。因为数据是模拟的，所以系统可以自动地生成无限数量的模拟的位置。另外，该系统可以针对真实交通工具实际上不能行驶到的地方生成模拟的位置，诸如人行道、人行天桥、阳台和楼梯，仅举几个示例。

系统生成模拟的传感器数据(108)。可以通过组合来自面元网格单元的颜色信息来生成模拟的传感器数据，该面元网格单元从在真实世界环境的模拟表示内的模拟位置是可见的。

系统可以基于相机姿态来选择使用哪个面元网格。例如，在渲染期间，系统可以基于相机姿态选择特定的k×k网格来使用。网格的纹理可以帮助减少对象边界处的伪像和非边界区域的不平滑着色的影响。另外，纹理增强的面元地图可以消除许多伪像，并且可以产生看起来生动的图像。

系统可以对动态对象应用特殊的处理过程。例如，重建的交通工具模型可以放置在任何选择的位置。在可变形对象的行人的情况下，可以为每个LiDAR扫描单独地生成单独的面元模型。然后，可以将重建的行人放置在针对该扫描的场景中的任何位置。交通工具可以被认为是刚性的动态对象。结果，可以针对每个交通工具重建单独的模型。例如，系统可以使用高质量的3D边界框注释对来自对每个感兴趣对象(例如，交通工具)的多次扫描的LiDAR点进行累积。然后，可以应用迭代最近点(ICP)算法来改进点云配准(registration)。结果，可以产生密集的点云，这允许对每个交通工具进行精确的、增强的面元重建。在一些实施方式中，可能不需要3D框地面实况(ground-truth)。所公开的技术还可以使用交通工具检测和跟踪算法来获得针对ICP的初始估计。

系统还可以使用面元GAN(surfel-GAN)模型来增强面元渲染。虽然面元场景重建提供了丰富的环境表示，但是其可以产生基于面元的渲染，与真实的相机图像相比，该基于面元的渲染具有不可忽略的真实性差距。这可能是由不完整的重建以及不完美的几何和纹理导致的。因此，可以应用面元GAN模型来产生看起来更加真实的图像。

图2A-图2B描绘了由本文描述的技术生成的模拟的传感器数据。图2A示出了示例面元渲染202，如上所述，其可以通过组合来自面元地图中的面元的颜色信息来生成。图2B示出了图像204，该图像是如何通过应用面元GAN模型来增强面元渲染202的示例。

如图2A所示，面元渲染202具有几个明显的缺陷。具体地，面元渲染202具有孔洞210、211和212，其中，由于某种原因或另外的原因，没有相对应的面元或没有相对应的面元颜色信息。

另外，因为面元通常表示环境中的平坦表面，所以视图中存在许多位置永远不会有任何数据。这包括树顶和天空，其在面元渲染202中是锯齿状的、不真实的和空的。

如所描绘的，在应用面元GAN模型之后，第一图像202中缺失的间隙(gap)、孔洞和其他空间被自动地填充。因此，在图像204中，天空214被自动地填充，可能填充有模拟的云，并且树顶被自动地填充有模拟的树数据。另外，包括道路、交通灯、灯柱和标志的其他对象变得更加清晰并且被更加真实地描绘。

在2020计算机视觉和模式识别会议进展中、Zhenpai Yang等人(2020年5月8日提交)的SurfelGAN：Synthesizing Realistic Sensor Data for Autonomous Driving(SurfelGAN：合成用于自主驾驶的真实的传感器数据)中描述了以各种方式增强面元渲染的面元GAN模型的额外的示例，该文献通过引用并入于此。

图3是示例面元GAN模型的系统图。如上所述，虽然面元场景重建提供了丰富的环境表示，但是与真实图像相比时，面元渲染可能具有不可忽略的真实性差距。这可能是由不完整的重建以及不完美的几何和纹理导致的。面元GAN是可以将面元渲染转换为看起来更加真实的图像的生成模型。在一些实施方式中，面元GAN模型也产生其他输出。例如，语义和实例分割地图可以作为额外的渲染图像通道而被输出。

如所描绘地，实施面元GAN模型的系统300可以包括面元到图像生成器302A、图像到面元生成器302B、图像鉴别器304和面元渲染鉴别器306。不成对的图像308、成对的图像310、不成对的面元渲染312和成对的面元渲染314可以是面元GAN模型的输入和输出。系统300的训练布置具有从面元渲染映射到真实图像的两个对称编码器-解码器生成器，例如，面元到图像生成器302A；反之亦然，例如，图像到面元生成器302B。额外地，两个鉴别器，图像鉴别器304和面元渲染鉴别器306可以专门用于面元和真实图像域。

图3所示的流程表示用于训练面元GAN模型的损失。流程318表示受监督的重建损失。流程316表示对抗损失。流程320和322表示循环一致性损失。当采用的成对的数据(例如使用WOD-TRAIN)进行训练时，面元渲染转译成真实图像，并且可以应用由流程318表示的单向的受监督的重建损失，例如SurfelGAN-S。可以可选地应用由流程316表示的额外的对抗损失，例如SurfelGAN-SA。当采用不成对的数据进行训练时，训练可以从面元渲染(例如，WOD-TRAIN-NV)或真实图像(例如，内部相机数据集)开始。则编码器-解码器网络302A或302B中的一个可以用于到达另一域并且返回。也可以应用循环一致性损失，例如，由流程320和322表示的SurfelGAN-SAC。编码器-解码器网络302A和302B可以例如包括8个卷积层和8个去卷积层。鉴别器304和306可以包括5个卷积层。在一些示例中，网络可以对256×256的输入图像进行操作。

作为示例，面元到图像生成器302A，G^S→I，可以是具有可学习参数θ_S的编码器-解码器模型。给定面元渲染314和图像310的对，可以应用受监督的损失来训练生成器302A，例如，由流程318表示。采用受监督的学习训练的面元GAN模型可以被称为SurfelGAN-S模型。

额外地，可以从真实图像鉴别器304应用例如由流程316表示的对抗损失。采用这种额外的对抗损失训练的面元GAN模型可以被称为SurfelGAN-SA模型。

然而，在现实中，面元渲染和真实图像数据之间的成对的训练数据通常非常有限。不成对的数据可能更加容易获得。因此，不成对的数据可以被利用于(1)通过采用更多未标记的示例进行训练来改进鉴别器304的泛化(generalization)，以及(2)通过加强循环一致性来调整生成器302A。

作为示例，图像到面元生成器302B，G^I→S，可以是另一编码器-解码器模型，其具有与生成器302A相同的架构，除了更多的用于语义和实例地图的输出通道。然后，任何成对的面元渲染314或不成对的面元渲染312可以被转译成真实图像，并且被转译回到面元渲染，其中，可以应用例如由流程320和322表示的循环一致性损失。这同样也可以应用于任何成对的真实图像310和/或不成对的308真实图像。

然后，面元渲染鉴别器306可以判断生成的面元图像。采用附加的循环一致性损失训练的面元GAN，例如由流程320和322表示的，可以被称为SurfelGAN-SAC模型。然后，可以如下优化下面的目标函数：

其中L_r，L_a，L_c分别地表示受监督的重建、对抗和循环一致性损失。铰链瓦瑟斯坦损失(hinged Wasserstein loss)可以用于对抗训练，以帮助稳定训练。

损失可以用作用于渲染和图像的重建和循环一致性损失，以及用于语义和实例地图的交叉熵损失。

在原始面元地图覆盖有限的情况下，面元渲染可能包含大面积的未知区域。这些区域中的不确定性可能高于具有面元信息的区域的不确定性。另外，相机和面元之间的距离引入了另外的不确定性因素。因此，距离加权损失可以用于稳定面元GAN训练。例如，在数据预处理期间，可以生成距离地图，该距离地图记录到被观察的区域的最近距离并且使用距离信息作为加权系数来调制重建损失。

此外，亚当优化器(Adam optimizer)可以用于训练。针对发生器和鉴别器两者的初始学习速率可以设置为2e-4，其中，β1＝0.5和β2＝0.9。在修正线性单元(Rectifiedlinear unit，Relu)激活之后，可以使用批量规范化。然后，系统可以使用λ1＝1，λ2，λ3＝0.001和λ4，λ5＝0.1。在一些示例中，基于批量大小为8的一个Nvidia Titan(英伟达泰坦)V100 GPU，所公开的网络的总训练时间可以是3天。

可以为原始数据集中的每帧生成新的面元图像渲染。尽管该数据集是免费的(例如，可以生成任意数量的测试帧)，但是该数据集不具有相对应的相机图像。因此，该数据集可以用于不成对的训练和仅一些类型的评估(例如，参考图3)。

类似于WOD图像的额外的9.8k短序列(针对每个的100帧)也可以被捕获。这些未注释的图像可以用于真实图像的不成对的训练(例如，参考图3)。

最后，可以构建和定制独特的数据集，双相机姿态数据集(DCP)，以用于测量所公开的模型/技术的真实性。数据集可以包括两个或多个交通工具同时观察同一场景的情景。例如，间隔可以是两个交通工具在彼此的20米以内的情况。来自第一交通工具的传感器数据可以用于：重建场景并且以第二交通工具的精确姿态来渲染面元图像。在过滤了其中场景重建太不完整的情况之后，可以获得大约1000对，以直接地测量所生成图像的逐像素精度。

对所公开技术的三种变体进行了示例性实验。第一种是受监督的(SurfelGAN-S)，其通过最小化生成的图像与地面实况真实图像之间的f1损失，以受监督的方式训练面元渲染到图像模型。这种类型的训练可能需要成对的数据。结果，该训练在WOD-TRAIN上在WOD-TRAIN上上执行。

第二种变体是受监督的+对抗的(SurfelGAN-SA)。该训练在WOD-TRAIN上执行。可以与f1损失一起加上对抗损失。

第三种变体是受监督+对抗的+循环的(SurfelGAN-SAC)。在这个变体中，也可以使用WOD-TRAIN-NV和内部相机图像数据集。由于这两个集合不成对，所以受监督的损失可能不适用。如上所述，除了对抗损失之外，还可以使用循环一致性损失。

可以使用下游感知模块来评估所生成的相机数据。换句话说，有益的是知道现成的交通工具对象检测器在没有任何精细调谐(fine-tuning)的情况下对生成的图像执行得如何。这可以是在所生成图像上的检测器统计是否与其在真实图像上获得的统计相匹配的测试。例如，具有ResNet架构和SSD检测头的交通工具检测器可以在512×512分辨率的调整大小的图像上使用、训练和评估，该图像来自于可以包括WOD-TRAIN数据集的混合。

上述三种SurfelGAN模型变体可以在下述的混合上训练：WOD-TRAIN、WOD-TRAIN-NV和内部相机图像数据集，以及在WOD-TRAIN-NV、WOD-EVAL和WOD-EVAL-NV上生成的图像。

通篇讨论的纹理增强的面元场景重建可以产生面元渲染，该面元渲染在WOD-EVAL集合上以52.1％AP@50(平均精度度量)实现良好的检测质量。这些面元渲染与真实图像之间仍然可能存在61.9％的差距，这就是应用GAN网络的原因。如本文所述，三种变体SurfelGAN-S、-SA和-SAC相较于基线面元渲染逐渐改善。SurfelGAN-SAC可以将WOD-EVAL上的AP@50度量从52.1％提高到62.0％，与真实图像的61.9％不相上下。这表明由SurfelGAN-SAC生成的图像可以接近检测器眼中的真实图像。结果，由于在WOD-TRAIN-NV和WOD-EVAL-NV之间SurfelGAN相较于基线的相对改善非常相似，因此通篇描述的SurfelGAN模型泛化良好。此外，尽管采用WOD-TRAIN-NV和WOD-EVAL-NV两者使得SurfelGAN相较于基线大约提高了10％，但两者之间存在明显的质量差异。为了更好地理解这种差异，WOD-TRAIN-NV上的SurfelGAN-SAC的度量可以根据下述来分解：在WOD-EVAL中，每个姿态与原始姿态偏差多少。偏差d(.)可以被定义为姿态的平移和旋转差异两者的加权和：

其中，t和R是WOD-EVAL-NV中新的视图的姿态(平移和旋转)，并且，t^I、R^I是WOD-EVAL中其最接近姿态的姿态。λ_R可以是1.0。使用此等式，可以确定面元渲染关于观察方向具有质量偏差。结果，为了具有更高质量的合成数据，不应当存在偏离原始姿态的太多扰动。然而，这个问题可以通过从多次运行/通过中重建面元场景来改善。

前面提到的双相机姿态(DCP)数据集可以包含两个交通工具同时观察同一场景的情景。使用该数据集，可以使用一个相机重建面元场景。图像可以从第二个相机的视点生成。每个生成的图像可以与真实图像匹配，并且可以报告关于由面元渲染覆盖的像素的f1距离误差。这是为了确保在面元渲染和生成的图像之间存在公平的比较。如前所述，可以使用WOD-TRAIN、WOD-TRAIN-NV和内部相机图像数据集来训练该模型。SurfelGAN在面元渲染之上进行改进，生成f1距离中更接近真实图像的图像。此外，SurfelGAN-S版本可以优于在训练期间使用额外的损失和数据的SA和/或SAC。该发现并不意外，因为SurfelGAN-S针对f1距离进行了优化。

作为另一示例，贯穿本公开所描述的模型可以用于确定来自扰动视图的SurfelGAN生成图像是否是用于训练交通工具对象检测器的数据扩充(augmentation)的有用形式。对于基线，可以在WOD-TRAIN上训练交通工具检测器。检测器的质量可以在WOD-EVAL上评估。另一交通工具检测器也可以使用WOD-TRAIN和从WOD-TRAIN-NV生成的面元图像两者来训练。这种交通工具检测器也可以在WOD-EVAL上评估。

WOD-TRAIN-NV从WOD-TRAIN继承了3D边界框，并且可能不像WOD-TRAIN中那样包含紧密贴合的2D边界框。因此，后者可以通过将3D边界框中的所有面元投影到2D的新的视图来近似。轴对齐的边界框可以被当作近似。基于该训练，数据扩充显著地提高了平均精度度量，将AP@50分数从21.9％提高到25.4％，将AP@75从10.8％提高到12.1％，以及将平均AP从11.9％提高到13.0％。这些AP分数可以低于前面提到的AP分数，因为图像被不同地调整大小以便使用前面提到的现成的检测器。这里的训练可以直接地在面元渲染上进行，这导致了相较于仅在WOD-TRAIN上的训练的改进。使用SurfelGAN合成的图像产生了更加显著的改进，这进一步证明了所公开技术的真实性。

所公开的技术提出了一种简单而有效的数据驱动方法，该方法可以合成用于自主驾驶模拟的相机数据。基于由穿过场景的交通工具捕获的相机和LiDAR数据，可以使用纹理增强的面元地图表示来重建3D模型。给定这种表示，可以渲染场景中对象的新的视图和配置。如本文所描述的SurfelGAN图像合成模型可以被用于修复重建、遮挡和/或渲染伪像。所公开的技术可以生成高级真实性的合成的传感器数据，其也可以用于针对深度神经网络的训练数据集扩充。

本说明书中描述的主题和功能操作的实施例可以实施为下述：数字电子电路；有形地体现的计算机软件或固件；计算机硬件，包括本说明书中公开的结构及其结构等同物；或者上述中的一个或多个的组合。本说明书中描述的主题的实施例可以被实施为一个或多个计算机程序，即编码在有形非临时性程序载体上的计算机程序指令的一个或多个模块，以用于由数据处理装置执行或控制数据处理装置的操作。替选地或附加地，程序指令可以被编码在人工生成的传播信号上，例如，机器生成的电、光或电磁信号，其被生成以编码信息，用于传输到合适的接收器装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基底、随机或串行存取存储器设备或者上述的一个或多个的组合。然而，计算机存储介质不是传播的信号。

术语“数据处理装置”包含用于处理数据的所有种类的装置、设备和机器，包括例如可编程处理器、计算机或者多个处理器或计算机。该装置可以包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，该装置还可以包括为所讨论的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或上述的一个或多个的组合的代码。

计算机程序(也可以被称为或描述为程序、软件、软件应用、模块、软件模块、脚本或代码)可以以任何形式的编程语言来编写，包括编译或解释语言或者声明性或过程性语言，并且其可以以任何形式来部署，包括作为独立程序或者作为模块、组件、子例程或适合在计算环境中使用的其他单元。计算机程序可以但不需要对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中，例如，存储在标记语言文档中的一个或多个脚本，存储在专用于所讨论的程序的单个文件中，或者存储在多个协作文件中，例如，存储一个或多个模块、子程序或代码部分的文件。计算机程序可以被部署为：在一个计算机上执行，或者在位于一个地点或分布在多个地点并且通过通信网络互连的多个计算机上执行。

当在本说明书中使用时，“引擎”或“软件引擎”指代提供与输入不同的输出的软件实现的输入/输出系统。引擎可以是编码的功能块，诸如库、平台、软件开发工具包(“SDK”)或对象。每个引擎可以在包括一个或多个处理器和计算机可读介质的任何适当类型的计算设备上实现，例如服务器、移动电话、平板计算机、笔记本计算机、音乐播放器、电子书阅读器、膝上型或桌面型计算机、PDA、智能电话或其他固定或便携式设备。额外地，引擎中的两个或更多个以在同一计算设备上实现，或者在不同的计算设备上实现。

本说明书中描述的过程和逻辑流程可以由一个或多个可编程计算机来执行，该一个或多个可编程计算机执行一个或多个计算机程序以通过对输入数据进行操作并且生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路来执行，并且装置也可以被实现为专用逻辑电路，该专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

例如，适于执行计算机程序的计算机可以基于通用或专用微处理器或两者，或者任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行或运行指令的中央处理器以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括或可操作地耦合到一个或多个用于存储数据的大容量存储设备(例如磁盘、磁光盘或光盘)，以从该大容量存储设备接收数据或向其传送数据或者两者。然而，计算机不需要具有这样的设备。此外，计算机可以嵌入在另一设备中，例如，移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备，例如通用串行总线(USB)闪存驱动器，仅举几个示例。

适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备，例如EPROM、EEPROM和闪存存储器设备；磁盘，例如内部硬盘或可移动盘；磁光盘；以及CDROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路来补充或并入专用逻辑电路中。

为了提供与用户的交互，本说明书中描述的主题的实施例可以在计算机上实施，该计算机具有：用于向用户显示信息的显示设备，例如CRT(阴极射线管)或LCD(液晶显示器)监视器；以及通过其用户可以向计算机提供输入的键盘和指点设备，例如鼠标或轨迹球。也可以使用其他类型的设备来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感官反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声音、语音或触觉输入。另外，计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互；例如，通过响应于从网络浏览器接收的请求，向用户的客户端设备上的网络浏览器发送网页。

本说明书中描述的主题的实施例可以在计算系统中实现，该计算系统包括：例如作为数据服务器的后端组件；或者包括中间件组件，例如应用服务器；或者包括前端组件，例如具有图形用户界面或网络浏览器的客户端计算机，通过该图形用户界面或网络浏览器，用户可以与本说明书中描述的主题的实施方式进行交互；或者包括一个或多个这样的后端组件、中间件组件或前端组件的任何组合。该系统的组件可以通过任何形式或介质的数字数据通信(例如通信网络)来互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)，例如因特网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络交互。客户端和服务器的关系是借由下述而产生的：在相应的计算机上运行的并且彼此具有客户端-服务器关系的计算机程序。

除了上述实施例之外，以下实施例也是创新的：

实施例1是一种方法，包括：

执行场景重建过程，包括：

获得从真实世界环境的传感器观察生成的面元地图，其中，面元地图将面元分配给真实世界环境的三维空间中的多个点中的每个，以及

针对面元地图中的每个面元生成具有多个网格单元的相应网格，其中，每个网格具有与相对应的面元的取向相匹配的取向，并且其中，每个网格内的每个网格单元被分配相应的颜色值；以及

执行合成过程以生成模拟的传感器数据，该合成过程包括：

接收真实世界环境的模拟表示内的模拟位置，以及

生成纹理面元渲染，包括组合来自网格单元的颜色信息，该网格单元从在真实世界环境的模拟表示内的模拟位置是可见的。

实施例2是实施例1的方法，其中，根据从模拟位置可见的网格单元的颜色信息生成纹理面元渲染。

实施例3是实施例1-2中的任一实施例的方法，进一步包括针对面元地图中的每个面元，在预定数量的距离中的每个距离处生成多个相应的网格，并且其中，生成纹理面元渲染包括：

对于具有从该位置可见的网格单元的每个面元，基于到面元的相应距离来选择相应的网格；以及

对来自基于到相对应的面元的相应距离选择的每个相应网格的颜色信息进行组合。

实施例4是实施例1-3中任一实施例的方法，其中，生成模拟的传感器数据包括将纹理面元渲染输入到生成神经网络，该生成神经网络被训练为从具有颜色信息的网格单元生成模拟的相机图像。

实施例5是实施例4的方法，其中，生成神经网络是编码器-解码器网络，其中，编码器-解码器网络的编码器对纹理面元渲染的颜色信息执行卷积过程，并且其中，编码器-解码器网络的解码器对编码器的输出执行去卷积过程。

实施例6是实施例5的方法，进一步包括使用生成对抗训练过程来训练生成神经网络，其包括，对于训练图像集合中的每个训练示例：

使用生成神经网络来生成模拟的传感器数据；以及

使用鉴别器神经网络来确定生成神经网络的输出是模拟的传感器数据还是真实的相机数据。

实施例7是实施例4的方法，其中，生成神经网络包括四个子网络，该四个子网络包括两个编码器-解码器网络

和两个鉴别器网络

和

实施例8是实施例7的方法，进一步包括训练生成神经网络以优化以下目标函数：

其中，

分别是对抗损失、重建损失和循环一致性损失。

实施例9是实施例6-8中任一实施例的方法，其中，用于训练生成神经网络的训练数据包括：

成对的训练数据，包括：成对的面元网格渲染和相对应的地面实况相机图像，以及

不成对的训练数据，包括：不成对的纹理面元渲染和不成对的相机图像。

实施例10是实施例7-9中任一实施例的方法，其中，第一鉴别器网络在不成对的纹理面元渲染和成对的纹理面元渲染之间进行鉴别，并且其中，第二鉴别器网络在成对的相机图像和不成对的相机图像之间进行鉴别。

实施例11是实施例1-10中任一实施例的方法，进一步包括执行自主交通工具模拟，包括使用模拟的传感器数据用于由模拟的自主交通工具执行对象检测。

实施例12是实施例9-11中任一实施例的方法，其中，使用模拟的传感器数据包括对不存在于训练数据中的图像执行对象检测。

实施例13是一种系统，包括：一个或多个计算机和存储指令的一个或多个存储设备，当指令由一个或多个计算机执行时，该指令可操作为使得一个或多个计算机执行实施例1至12中任一实施例的方法。

实施例14是采用计算机程序编码的计算机存储介质，该程序包括指令，当指令由数据处理装置执行时，该指令可操作为使得数据处理装置执行实施例1至12中任一实施例的方法。

类似地，虽然在附图中以特定的顺序描述了操作，但是这不应当被理解为要求这些操作以所示的特定的顺序或依次的顺序执行，或者要求所有示出的操作都被执行，来实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应当被理解为在所有实施例中都要求这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中或者打包成多个软件产品。

虽然本说明书包含许多具体的实施细节，但是这些不应当被解释为对任何发明或所要求保护的范围的限制，而是对特定发明的特定实施例所特有的特征的描述。本说明书中在单独的实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。相反，在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独地或以任何合适的子组合来实施。此外，尽管特征可能在上面被描述为在某些组合中起作用，并且甚至最初被如此要求保护，但是来自所要求保护的组合的一个或多个特征在一些情况下可以从该组合中删除，并且所要求保护的组合可以针对子组合或子组合的变体。

已经描述了主题的特定实施例。其他实施例在所附权利要求的范围内。例如，权利要求中所述的动作可以按照不同的顺序来执行，并且仍然可以实现期望的结果。作为一个示例，附图中描绘的过程不一定需要所示的特定顺序或依次的顺序来实现期望的结果。在某些实施方式中，多任务和并行处理可能是有利的。

Claims

1.一种计算机实现的方法，包括：

执行场景重建过程，包括：

执行合成过程以生成模拟的传感器数据，所述合成过程包括：

接收真实世界环境的模拟表示内的模拟位置，以及

生成纹理面元渲染，包括组合来自网格单元的颜色信息，所述网格单元从在真实世界环境的模拟表示内的模拟位置是可见的。

2.根据权利要求1所述的方法，其中，根据从模拟位置可见的网格单元的颜色信息生成纹理面元渲染。

3.根据权利要求1-2中任一项所述的方法，进一步包括针对面元地图中的每个面元，在预定数量的距离中的每个距离处生成多个相应的网格，并且其中，生成纹理面元渲染包括：

对于具有从所述位置可见的网格单元的每个面元，基于到面元的相应距离来选择相应的网格；以及

组合来自基于到相对应的面元的相应距离选择的每个相应网格的颜色信息。

4.根据权利要求1-3中任一项所述的方法，其中，生成模拟的传感器数据包括将纹理面元渲染输入到生成神经网络，所述生成神经网络被训练为从具有颜色信息的网格单元生成模拟的相机图像。

5.根据权利要求4所述的方法，其中，生成神经网络是编码器-解码器网络，其中，编码器-解码器网络的编码器对纹理面元渲染的颜色信息执行卷积过程，并且其中，编码器-解码器网络的解码器对编码器的输出执行去卷积过程。

6.根据权利要求5所述的方法，进一步包括使用生成对抗训练过程来训练生成神经网络，其包括，对于训练图像集合中的每个训练示例：

使用生成神经网络来生成模拟的传感器数据；以及

7.根据权利要求4所述的方法，其中，生成神经网络包括四个子网络，四个子网络包括两个编码器-解码器网络

和两个鉴别器网络

和

8.根据权利要求7所述的方法，进一步包括训练生成神经网络以优化以下目标函数：

其中，

分别是对抗损失、重建损失和循环一致性损失。

9.根据权利要求6-8中任一项所述的方法，其中，用于训练生成神经网络的训练数据包括：

10.根据权利要求7-9中任一项所述的方法，其中，第一鉴别器网络在不成对的纹理面元渲染和成对的纹理面元渲染之间进行鉴别，并且其中，第二鉴别器网络在成对的相机图像和不成对的相机图像之间进行鉴别。

11.根据权利要求1-10中任一项所述的方法，进一步包括执行自主交通工具模拟，包括使用模拟的传感器数据用于由模拟的自主交通工具执行对象检测。

12.根据权利要求9-11中任一项所述的方法，其中，使用模拟的传感器数据包括对不存在于训练数据中的图像执行对象检测。

13.一种系统，包括：一个或多个计算机和存储指令的一个或多个存储设备，当指令由一个或多个计算机执行时，可操作为使得一个或多个计算机执行权利要求1至12中任一项所述的方法。

14.一种采用计算机程序编码的计算机存储介质，所述程序包括指令，当指令由数据处理装置执行时，可操作为使得数据处理装置执行权利要求1至12中任一项的方法。