CN113366488A

CN113366488A - 具有自动对象标记方法和设备的自主驾驶数据集生成

Info

Publication number: CN113366488A
Application number: CN201980090668.0A
Authority: CN
Inventors: 张益民; 任海兵; 吴向斌; I·阿尔瓦雷斯
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2019-04-01
Filing date: 2019-04-01
Publication date: 2021-09-07
Also published as: EP3948647A1; EP3948647A4; WO2020199072A1

Abstract

本文公开了与计算机辅助或自主驾驶(CA/AD)相关联的设备、存储介质和方法。在一些实施例中，一种方法包括：对应地处理由CA/AD交通工具的CA/AD系统收集到的多个图像序列，以检测多个道路上的对象；单独地处理收集到的图像序列，以经由基于单相机运动的对象检测分析来检测多个道路上的对象；集体地处理收集到的图像序列，以经由多视图对象检测分析来检测多个道路上的对象；以及至少部分地基于图像序列的对应的处理、单独的处理和集体的处理的对象检测结果来生成自主驾驶数据集。还描述并要求保护其他实施例。

Description

具有自动对象标记方法和设备的自主驾驶数据集生成

技术领域

本公开涉及计算机辅助驾驶或自主驾驶(CA/AD)领域。更具体地，本公开涉及CA/AD训练或参考数据集(包括自动对象标记)的生成。

背景技术

自主驾驶已经被研究了很多年。除了传统的汽车制造公司，高科技公司(包括Waymo(谷歌)、Uber、NVidia和英特尔)对开发自主驾驶解决方案也有浓厚的兴趣。最著名的项目可能是谷歌的自驾驶项目，该项目开始于2009年，并且最近发布了凤凰城住宅区的无人驾驶出租车服务。

自主驾驶的重要技术中包括基于视觉的环境感知技术。自主驾驶交通工具利用相机的输入来识别道路、交通标志、汽车、卡车、行人和道路上的其他对象。可能解决这一挑战的最流行的方法是数据驱动的机器学习解决方案。被标记的地面真值(ground-truth)的极其大的训练数据集对于训练对象检测器至关重要，以便提供所需的稳健性和准确性。但是，真实的公共道路是非常复杂的，并且所捕获的训练图像受到很多因素的影响，这些因素包括季节、天气、光照、视点、遮挡等等。

目前，用于自主驾驶的最流行的公共基准训练数据集是KITTI(卡尔斯鲁厄理工学院和芝加哥丰田工业大学的项目)，KITTI在5天内被捕获并且其具有长度为39.2km的距离的389个序列。超过20万个三维(3D)对象注释是手动标记的。对于Mobileye(移动眼)而言，地面真值也是手动标记的。牛津大学机器人汽车(RobotCar)数据集具有超过1000km的20TB驾驶数据，比KITTI大很多。但没有3D对象的地面真值信息。因此，这些或其他广泛使用的训练数据集的数据量似乎仍不足以保证稳健的感知算法。例如，2016年5月7日，特斯拉驾驶员在Autopilot(自动驾驶系统)激活时发生车祸身亡。根据美国国家公路交通安全管理局称，特斯拉S型车将卡车误识别为明亮的天空。误识别的可能原因中的一种原因是这种类型的场景从未出现在训练数据集中，这表明特斯拉的训练数据集可能不够。

为了收集足够宽泛的训练数据集，一系列的数据收集开发交通工具已经开始在真实的公共道路上操作。已经捕获了百万英里的真实图像序列。但是，对于极其大的训练数据集而言，主要的限制是地面真值的手动标记。针对这些大型训练数据集的3D对象(包括道路、路标、信号灯、行人和其他对象)进行标记是非常耗时和昂贵的。据Amnon Shashua称，2016年有800人在为Mobileye的图像数据进行标记。超过20万个3D对象注释是手动标记的。即使对标记工作进行这些大规模投资也只能处理所捕获的图像中的非常小的部分的图像。因此，一些训练数据集决定不提供3D对象地面真值的信息，训练数据集诸如牛津大学机器人汽车数据集，该数据集具有超过1000km的20TB驾驶数据，比KITTI大很多，但没有3D对象的地面真值信息。

应注意，基准训练数据集也可以称为基准参考数据集，或者简称为训练数据集或参考数据集。在下文中，也可以简称为“数据集”。

附图说明

通过下列具体实施方式并结合所附附图，可容易地理解实施例。为了便于该描述，类似的附图标记指示类似的结构元件。在所附附图的图中，以示例方式而不以限制方式图示出实施例。

图1图示出根据各实施例的用于结合和使用具有本公开的具有自动对象标注技术的自主驾驶数据集生成的环境的概览。

图2图示出根据各个实施例的具有自动对象标记的自主驾驶数据集生成的概览。

图3图示出根据各个实施例的本公开的道路图像的多视图捕获。

图4图示出根据各个实施例的示例计算机辅助/自主驾驶系统的组件视图。

图5图示出根据各个实施例的用于生成具有自动对象标记的自主驾驶数据集的示例过程。

图6图示出根据各个实施例的用于校准数据捕获CA/AD交通工具的图像传感器的示例过程。

图7A-7C图示出根据各个实施例的用于实时和本地收集图像和检测道路中的对象、基于单相机运动的对象检测和多视图对象检测的相应的示例过程。

图8图示出根据各个实施例的用于合并各个方法的对象检测结果的示例过程。

图9图示出根据各个实施例的适于由对象检测子系统使用的示例神经网络。

图10图示出根据各实施例的车载(CA/AD)系统的软件组件视图。

图11图示出根据各个实施例的适于用作车载(CA/AD)系统或云服务器的计算平台的硬件组件视图。

图12图示出根据各实施例的具有用于实施参考图1-8所述的方法的各方面的指令的存储介质。

具体实施方式

本文公开了与包括3D对象的自动标记的自主驾驶数据集生成相关联的新的方法、设备和计算机可读存储介质(CRM)，用以解决背景部分讨论的挑战。在各个实施例中，多种方法被应用以检测和自动地标记对象。这些方法中的一种方法是基于数据捕获交通工具本身的实时本地对象检测。另一种方法是基于如下：基于单相机运动的对象检测分析。第三种方法是使用由接近地操作的数据收集或捕获交通工具组成的多视图视觉系统集体地捕获的图像序列的多视图对象检测。对象检测的结果被合并在一起，以提供所生成的自主驾驶数据集中的自动对象标记。通过合并来自多种方法的冗余结果，可以实现高准确性。经验表明，该方法提供了比传统结果好得多的性能。

更具体地，在不同的实施例中，生成用于训练CA/AD交通工具的计算机辅助或自主驾驶(CA/AD)系统的自主驾驶数据集的过程，包括在多个道路上接近地操作多个CA/AD交通工具；以及利用设置在多个接近地操作的CA/AD交通工具中的图像传感器收集多个道路的多个序列图像，包括由图像传感器同步地收集图像中的一些图像。另外，该过程包括：对应地处理由CA/AD交通工具的CA/AD系统收集到的多个图像序列以检测多个道路上的对象；单独地处理所收集的图像序列，以经由基于单相机运动的对象检测分析来检测多个道路上的对象；以及集体地处理所收集的图像序列，以经由多视图对象检测分析来检测多个道路上的对象。进一步地，该过程包括至少部分地基于图像序列的对应的处理、单独的处理和集体的处理的对象检测结果来生成具有自动对象标注的自主驾驶数据集。

在各个实施例中，根据最终结果，还生成了原始图像上的2D投影，作为自动2D地面真值，这对于人工检查或手动稍后处理非常方便。

在各个实施例中，一种用于CA/AD交通工具的计算机辅助或自主驾驶(CA/AD)系统，包括：传感器接口和输入/输出(I/O)接口；以及与传感器接口和I/O接口耦合的自主驾驶数据集生成器(ADDG)代理。ADDG代理用于经由传感器接口将同步信号转发给CA/AD交通工具的图像传感器，以及用于接收由图像传感器收集到的多个道路的图像序列，接收到的图像中的至少一些图像是至少部分地基于同步信号与一个或多个其他接近地操作的CA/AD交通工具上的图像收集同步地被收集的。进一步地，ADDG代理用于经由I/O接口将接收到的图像序列输出到ADDG以在多种方式下处理该图像序列，以检测多个道路上的对象，以及用于至少部分地基于多种方式的处理的结果来生成具有自动对象标记的自主驾驶数据集。

在各个实施例中，至少一种计算机可读介质(CRM)，具有存储在其中的指令，响应于由计算系统(例如，服务器)的处理器对所述指令的执行，使计算系统操作自主驾驶数据集生成器(ADDG)以用于：单独地处理由多个接近地操作的计算机辅助或自主驾驶(CA/AD)交通工具的图像传感器收集到的多个图像序列，以经由基于单相机运动的对象检测分析来检测多个道路上的对象，包括对图像传感器进行单独的校准以及检测图像内的移动区域；以及集体地处理所收集的图像序列，以经由多视图对象检测分析来检测多个道路上的对象，包括对图像传感器的交叉校准和对图像内的3D场景的重建。进一步地，使该计算系统操作ADDG以至少部分地基于图像序列的单独的处理和集体的处理的结果来生成具有自动对象标记的自主驾驶数据集。

尽管全自动方法可能无法获得100％的召回率和准确率，但它仍然可以节省大量的工作。由于数据集的尺寸极其大，即使是非常小的自动化部分也会对成本和工作量具有重大影响。

在下列具体实施方式中，将进一步描述自主驾驶数据集生成的这些和其他方面，包括3D对象的自动标记技术。参考形成本文一部分的附图，其中贯穿各附图相同的标记指示相同的部分，并且其中通过图示的方式示出了可实施的实施例。应理解，可利用其他实施例，并且可作出结构或逻辑的改变而不背离本公开的范围。因此，以下详细描述不应以限制的意义来理解，并且实施例的范围由所附权利要求及其等效方案来限定。

所附说明书中公开了本公开的多个方面。可以构想本公开的替代实施例及其等效方案而不背离本公开的精神或范围。应当注意，下文所公开的相同的要素由附图中相同的附图标记指示。

可以按在理解要求保护的主题时最有帮助的方式将各操作描述为依次的多个分立动作或操作。然而，不应当将描述的次序解释为暗示这些操作必然依赖于次序。具体而言，可以不按照呈现的次序执行这些操作。能以不同于所描述的实施例的次序执行所描述的操作。在附加的实施例中，可以执行各种附加操作和/或可以省略所描述的操作。

出于本公开的目的，短语“A和/或B”意指(A)、(B)或(A和B)。出于本公开的目的，短语“A、B和/或C”意指(A)、(B)、(C)、(A和B)、(A和C)、(B和C)或(A、B和C)。

说明书可使用短语“在实施例中”或“在一些实施例中”，其可各自指代相同或不同实施例中的一个或多个实施例。此外，如相对于本公开的实施例所使用的术语“包含”、“包括”、“具有”等是同义的。

如本文中所使用，术语“模块”或“引擎”可指执行提供所描述功能的一个或多个软件或固件程序、组合逻辑电路和/或其他合适的组件的专用集成电路(ASIC)、电子电路、处理器(共享的、专用的或成组的)和/或存储器(共享的、专用的或成组的)，或者可以是上述各项的部分，或者可包括上述各项。

现在参考图1，其中图示出根据各实施例的用于结合和使用本公开的具有对象标记技术的自主驾驶数据集生成的环境的概览。如所示，对于图示出的实施例而言，示例环境50包括交通工具52。交通工具52包括引擎、变速器、车轴、车轮等等(未示出)。进一步地，交通工具52包括车载系统(IVS)(也被称为计算机辅助或自主驾驶(CA/AD)系统)100、传感器110、和驾驶控制单元(DCU)120。在不同的实施例中，IVS或CA/AD系统100具体地包括导航子系统130、对象检测子系统140、和自主驾驶数据集生成器(ADDG)代理150。ADDG代理150被配置成用于补充被设置在例如服务器60中的ADDG(例如ADDG 85)，以生成自主驾驶数据集来训练CA/AD交通工具的CA/AD系统，例如CA/AD系统的对象检测子系统(诸如CA/AD系统100的对象检测子系统140)。ADDG代理150和ADDG 85与本公开的技术相结合，以使得能够生成具有自动对象标记的自主驾驶数据集，下面将更全面地描述。

在各个实施例中，导航子系统130可以被配置成用于取决于CA/AD交通工具52是计算机辅助交通工具、部分自主驾驶交通工具还是完全自主驾驶交通工具来提供导航引导或控制。对象检测子系统140可以被配置有计算机视觉，计算机视觉用于在CA/AD交通工具52在公路上行驶去往其目的地的途中时至少部分地基于由传感器110收集的传感器数据来识别CA/AD交通工具52周围的滚动区域中的静止或移动对象70(诸如旅行者、其他交通工具、自行车、街道标志、交通灯等)。在各个实施例中，

响应于CA/AD交通工具52周围的滚动区域中被识别的静止或移动对象，CA/AD系统100对引导或控制CA/AD交通工具52的DCU做出决策，以驱动或辅助驱动CA/AD交通工具到其目的地。

在各个的实施例中，传感器110包括用于在交通工具在公路上行驶去往其目的地的途中时捕获CA/AD交通工具52的滚动的周围区域的多个图像序列的一个或多个高分辨率的红/绿/蓝(RGB)及光检测和测距(LiDAR)图像传感器(相机)(未示出)，在各个实施例中，传感器110还可以包括加速度计、陀螺仪、全球定位系统(GPS)电路、全球导航卫星系统(Globalnaya Navigazionnaya Sputnikovaya Sistema)或全球导航卫星系统(GLONASS)电路，等等。

驾驶控制单元(DCU)的示例可包括用于控制CA/AD交通工具52的引擎、变速器、制动的控制单元。在各个实施例中，除了导航子系统130、对象检测子系统140、和ADDG代理150之外，IVS或CA/AD系统100可进一步包括多个信息娱乐子系统/应用，例如，仪表盘子系统/应用、前排座位信息娱乐子系统/应用(诸如，导航子系统/应用、媒体子系统/应用、交通工具状态子系统/应用等等)、以及多个后排座位娱乐子系统/应用(未示出)。

在各个实施例中，IVS或CA/AD系统100本身与一个或多个远程/云服务器60通信或交互54、或响应于用户交互而与一个或多个远程/云服务器60通信或交互54。远程/云服务器60可以包括多个驾驶辅助(诸如地图)或内容提供(诸如多媒体信息娱乐)服务80中的任一者。在各个实施例中，如前所述，远程/云服务器60具体地包括用于生成具有自动对象标记的自主驾驶数据集的ADDG 85。除了ADDG 85之外，驾驶辅助(诸如地图)或内容提供(诸如多媒体信息娱乐)服务80可以是本领域已知的这些服务中的一个或多个服务。

在各个实施例中，IVS或CA/AD 100经由蜂窝通信(例如，经由交通工具52附近的传输塔56上的无线信号中继器或基站)与服务器60通信。私有和/或公共的有线和/或无线网络58的示例可包括互联网、蜂窝服务提供商的网络等等。应当理解，当交通工具52在行使去往其目的地的途中或个人系统150在周围移动时，传输塔56可以是在不同的时间/位置处的不同的塔。在各个实施例中，IVS或CA/AD 100经由有线通信(诸如以太网、或可移动存储介质(诸如固态驱动器、磁盘或磁带)与服务器60进行通信。

除了本公开提供的具有自动对象标记技术的自主驾驶数据集生成之外，IVS或CA/AD系统100、CA/AD交通工具52、服务器60和驾驶辅助和/或内容服务80另外地可以是本领域已知的多个车载系统、CA/AD交通工具、从计算机辅助交通工具到部分或完全自主交通工具、服务器、和驾驶辅助/内容服务中的任何一种。将参考其余附图进一步描述具有自动对象标记技术的自主驾驶数据集生成的这些和其他方面。

现在参考图2，其中图示出根据各个实施例的具有自动对象标记的自主驾驶数据集的生成的概览。如所示，对于所图示出的实施例，被包括在所生成的自主驾驶数据集中的最终对象检测结果208是不同对象检测方法的结果的合并。在所图示出的实施例的情况下，被包括在所生成的自主驾驶数据集中的最终对象检测结果208是三种对象检测方法的结果的合并。在替代的实施例中，被包括在所生成的自主驾驶数据集中的最终对象检测结果208可以是更多或更少对象检测方法的结果的合并。一般而言，被包括在所生成的自主驾驶数据集中的最终对象检测结果208在它们是更多的对象检测方法的结果的合并，而不是更少的对象检测方法的结果的合并时会更加准确。

对于所图示出的实施例而言，不同的对象检测方法的结果包括：

-由数据捕获CA/AD交通工具本身的对象检测子系统进行的实时本地对象检测的结果202；

-经由基于离线单相机运动的对象检测分析获得的对象检测结果204；以及

-经由离线多视图对象检测分析获得的对象检测的结果206。

基于单相机运动的对象检测分析的结果是通过单独地处理由数据捕获CA/AD交通工具的图像传感器捕获的图像序列获得的。它们可能是数据捕获CA/AD交通工具的对象检测子系统用于在CA/AD交通工具行驶去往其目的地的途中时执行实时本地对象检测的相同图像序列。

多视图对象检测分析的结果是通过集中处理由数据捕获CA/AD交通工具的图像传感器同步捕获的图像序列而获得的。数据捕获CA/AD交通工具的经组合的图像传感器可以提供具有大视场、较少遮挡和高分辨率的协作式点云。由于以下优点，它可以大大改善对象检测：

·在大视场和较少遮挡的情况下，对象的更多部分将被观察到。对于部分对象检测而言，对大部分的检测率要比对小部分的检测率高得多。

·在3D空间中，移除杂乱的背景和分割对象本身是非常容易的。

·对于3D对象检测而言，众所周知的是，3D形状信息将对不足的纹理进行补偿，以增加检测率并同时降低虚警率。

·高分辨率对小对象检测是很有帮助的。

现在参考图3，其中图示出了根据各个实施例的本公开的道路图像的多视图捕获。如所示，用于多视图对象检测分析的图像是使用对应地设置在多个接近地操作的CA/AD交通工具352a-352c中的图像传感器356a-356c来收集的。接近地操作的CA/AD交通工具352a-352c的图像传感器356a-356c周期性地同步捕获道路的图像。在各个实施例中，CA/AD交通工具352a-352c中的每一者可以是图1的CA/AD交通工具52的实例。

在各个实施例中，接近地操作的CA/AD交通工具352a-352c被配备有交通工具间通信，例如，WiFi。对于这些实施例而言，接近地操作的CA/AD交通工具352a-352c进一步配备有用于彼此协商并推选接近地操作的CA/AD交通工具352a-352c中的一者作为主交通工具以协调道路图像的捕获的智能设备。在各个实施例中，当是时候拍摄图像时，主交通工具向其他接近地操作的CA/AD交通工具352a-352c发送同步信号354a-354b。对于这些实施例而言，可将接近地操作的CA/AD交通工具352a-352c中的被居中设置的交通工具(诸如CA/AD交通工具352b)推选为主交通工具。

在替代地实施例中，多视图图像的捕获可以以其他方式进行协调或同步。例如，接近地操作的CA/AD交通工具352a-352c可以协商图像捕获频率(例如，每秒钟)，并在开始时对它们的开始时间进行同步。在又其他实施例中，多视图道路图像的同步捕获可以由远程服务器(例如，图1的远程服务器60)协调。

为了便于理解，图3中仅示出了三个接近地操作的CA/AD交通工具352a-352c

然而，本公开并不限于此。在替代的实施例中，可以利用更多或更少的接近地操作的CA/AD交通工具352a-352c来实施本公开。

现在参考图4，其中，图示出根据各实施例的示例计算机辅助/自主驾驶系统的组件视图。如所示，对于图示出的实施例而言，CA/AD系统400(其可以是图1的IVS或CA/AD系统100)包括主系统控制器402、导航子系统404、对象检测子系统406、ADDG代理408、交通工具内通信子系统410、交通工具间通信子系统412和远程通信子系统414。在其他实施例中，CA/AD系统400可以包括更多或更少的子系统。

在各种实施例中，主系统控制器402被配置成用于控制CA/AD系统400的整体操作，包括经由交通工具内通信子系统410控制CA/AD系统400的主交通工具的DCU 420。主系统控制器402可以至少部分地基于由各个传感器430经由交通工具内通信子系统410提供的传感器数据，以及由对象检测子系统406提供的对象检测的结果来控制DCU 420。

对象检测子系统406(其可以是图1的对象检测子系统140)被配置成用于在CA/AD系统400的主交通工具在公路上行驶去往其目的地的途中时至少部分地基于由传感器430收集的传感器数据来识别CA/AD系统400的主交通工具周围的滚动区域中的静止或移动对象70(诸如旅行者、其他交通工具、自行车、街道标志、交通灯等)。在各个实施方案中，对象检测子系统406可以包括检测主交通工具周围的滚动区域内的对象的神经网络。图9图示出可用于实时本地对象检测的示例神经网络，将在下文中更详细地描述。

导航子系统404(其可以是导航子系统130)可以被配置成用于取决于CA/AD系统400的主交通工具是计算机辅助交通工具、部分自主驾驶交通工具还是完全自主驾驶交通工具来提供导航引导或控制。导航子系统404可以至少部分地基于由其他传感器(诸如GPS/GLONASS传感器)经由交通工具内通信子系统410提供的传感器数据来提供导航引导或控制。导航子系统404可以是本领域内已知的此类子系统中的任一个。

ADDG代理408被配置成用于在生成具有自动对象标记的自主驾驶数据集时补充离线ADDG(例如，图1的ADDG 85)。在各个实施例中，ADDG代理408被配置成用于在收集道路的多视图图像时与接近地操作的交通工具协作。具体而言，在各个实施例中，ADDG代理408被配置成用于在接近地操作的交通工具中选择主交通工具时与接近地操作的交通工具进行协商。对于这些实施例而言，ADDG代理40进一步被配置成用于取决于CA/AD系统400的主交通工具是否被选择为主交通工具，发送或接收同步信号以同步拍摄多视图道路图像。进一步地，ADDG代理408被配置成用于经由远程通信子系统414输出由图像传感器430捕获的道路图像(包括利用接近地操作的交通工具同步地拍摄的道路图像)以及由对象检测子系统406进行的针对离线ADDG的对象检测的结果。

传感器数据可包括但不限于来自主交通工具的一个或多个相机的传感器数据(图像)，该一个或多个相机提供从主交通工具向外看出的正面、背面和/或侧面世界视图；来自交通工具的提供速度和/或减速数据等的加速器、惯性测量单元(IMU)和/或陀螺仪的传感器数据。

在不同的实施例中，在有或没有采用硬件加速器的情况下，主系统控制器402、导航子系统404、对象检测子系统406和ADDG代理408可以在硬件和/或软件中实现。图10-图11图示出CA/AD系统400的、稍后更详细地描述的示例硬件和/或软件实现方式。

在一些实施例中，交通工具内通信子系统410可以经由交通工具总线与传感器430和驾驶控制单元420耦合。交通工具内通信子系统410可以根据控制器局域网通信协议与传感器430和驾驶控制单元420通信。在一些实施例中，交通工具内通信子系统410可以经由无线网络与传感器430通信地耦合，并根据无线网络协议(诸如近场通信(NFC)、

WiFi等)进行通信。凭借其与传感器430的相互操作，交通工具内通信子系统410也可以被称为传感器接口。

如前所述，交通工具间通信子系统412被配置成用于促进与接近地操作的CA/AD交通工具的通信。在一些实施例中，交通工具间通信子系统412被配置成用于支持根据一个或多个行业公认的实践的交通工具间通信。在一些实施例中，交通工具间通信子系统412可以被配置成用于经由WiFi或蜂窝(诸如LTE 4G/5G)与其他交通工具的通信子系统进行通信。

如前所述，远程通信子系统414被配置成用于促进与一个或多个远程/离线服务器(其可以是图1的服务器60)的通信。在一些实施例中，远程通信子系统414可以被配置成用于经由广域网(诸如互联网)与远程/离线服务器进行无线通信。无线通信可以是WiFi或蜂窝式的，诸如LTE 4G/5G。在其他实施例中，远程通信子系统414可以被配置成用于经由有线通信(诸如以太网)，或通过便携式存储介质(诸如可移动固态驱动器、磁盘或磁带)与远程/离线服务器进行通信。凭借其与远程服务器互操作的性质，远程通信子系统414也可以被称为CA/AD系统400的输入/输出(I/O)接口。

现在参考图5，其中图示出根据各个实施例的用于生成具有自动对象标记的自主驾驶数据集生成的示例过程。如所示，过程500包括在框502-512处执行的操作。在框502-512处的操作可以由具体地使用图1的ADDG 85的自主驾驶数据集的提供方执行，图1的ADDG85由图1的ADDG代理150或图4的408来补充。在替代地实施例中，过程500可以包括更多或更少的操作。

过程500在框502处开始。在框502处，多个CA/AD交通工具的图像传感器被校准，这些CA/AD交通将接近地操作以捕获道路的图像以用于生成具有自动对象标记的自主驾驶数据集。在各个实施例中，如前所述，CA/AD交通工具的图像传感器包括RGB和LiDAR相机。对于这些实施例，校准包括RGB和LiDAR相机的2D和3D校准，以及用于多视图图像处理的图像传感器的交叉校准。稍后将参考图6进一步描述这些校准。

接下来，在框503处，具有各个经校准的传感器(包括图像传感器)和对象检测能力的多个CA/AD交通工具在多个道路上接近地操作，以收集多个道路的数据(包括图像)。

在框504处，当在多个道路上操作时，道路的传感器数据(包括图像)被单独地收集，也被协作地收集，以检测道路上的对象。也就是说，CA/AD交通工具的传感器(包括(多个)图像传感器)可以连续地收集道路的传感器数据(包括图像)，其中图像的至少子集在多个CA/AD交通工具之间协调同步地被收集，如前所述。利用图像传感器收集图像的操作将稍后参考图7A进一步描述。

从框504，过程500继续进行至框506-510。

在框506处，当在多个道路上操作并收集传感器数据(包括图像)时，CA/AD交通工具中的每一者使用CA/AD交通工具的对应的对象检测子系统，至少部分地基于收集到的传感器数据(包括图像)单独地检测道路上的对象。对象检测的结果被累积并且稍后被输出以用于框512处的操作。如前所述，在各个实施例中，CA/AD交通工具的对象检测子系统在进行检测时可以采用神经网络。稍后参考图9描述示例神经网络。

在框508处，在多个道路上操作并收集传感器数据(包括图像)之后，由CA/AD交通工具的图像传感器收集到的图像可以被对应地处理以执行基于单相机运动的对象检测。类似地，基于单相机运动的对象检测的结果被输出以用于框512处的操作。稍后将参考图7B进一步描述基于单相机运动的对象检测的操作。

在框510处，在多个道路上操作并收集传感器数据(包括图像)之后，由CA/AD交通工具的图像传感器收集到的图像可以被集体地处理以执行多视图对象检测。类似地，多视图对象检测的结果被输出以用于框512处的操作。稍后将参考图7C进一步描述多视图对象检测的操作。

过程500从框506、框508和框510进行到框512。在框512处，CA/AD交通工具的对象检测子系统的实时对象检测的结果、基于单相机运动的对象检测分析的结果、以及多视图对象检测分析的结果被合并在一起，以为正在生成的自主驾驶数据集提供自动对象标记。稍后将参考图8进一步描述合并各个对象检测结果的操作。

现在参考图6，其中图示出根据各个实施方案的用于对应地校准和交叉校准CA/AD交通工具的图像传感器的示例过程。如所示，用于对应地校准和交叉校准CA/AD交通工具的图像传感器的过程600包括在框602-606处执行的操作。在各个实施例中，该操作可由自主驾驶数据集的提供方例如使用图1的ADDG 85来执行。在替代地实施例中，过程600可以包括利用更多或更少的操作来实践。

过程600在框602处开始。在框602，CA/AD交通工具的3D LiDAR相机和2D RGB相机被对应地校准。与一般的RGBD相机相比，实验表明，3D LiDAR和2D RGB相机的组合提供了更好的外部环境的结果。该组合能感测更远的距离，并具有更好的深度准确性。3D LIDAR相机用于感测深度信息，而2D RGB相机用于感测颜色信息。在各个实施例中，每对两个成像系统的固有参数和非固有参数都利用Jesse Levinson、Sebastian Thrun在载于《机器人学：科学与系统》，2013年“相机和激光器的自动在线校准(Automatic Online Calibration ofCameras and Lasers)”中所描述的方法进行校准。一般来说，非固有参数表示从3-D世界坐标系到3-D相机的坐标系的刚性转换。固有参数表示从3-D相机的坐标到2-D图像坐标的投影变换。在替代的实施例中，可以实践其他校准方法。在校准时，所捕获的深度图像将与RGB图像对齐。

过程600从框602进行至框604。在框604处，在进行平滑和插值之后，利用2D相机的相同3D坐标系生成具有RGB颜色的3D点云。来自多个交通工具的3D点云被用于交通工具校准和稍后的3D对象检测。由于3D LiDAR和2D RGB相机通常被固定在CA/AD交通工具中，因此校准通常只需要进行一次或在多次重复操作之后不频繁地进行。

接下来，在框606处，CA/AD交通工具的3D LiDAR和2D RGB相机被交叉校准，以使得能够对其捕获的图像进行随后的多视图分析。在对2D相机和3D LIDAR进行校准之后，每个交通工具被视为3D视觉系统，该3D视觉系统输出具有RGB信息的3D点云。然后，对多个汽车相机的非固有参数进行交叉校准，以便将所有的点云组合在一起。在实施中，交叉校准在2个阶段中执行：

阶段1：估计两个相邻的3D视觉系统之间的旋转和平移。

相邻的3D视觉系统是在物理距离上最接近于当前感兴趣的系统的系统。在各个实施例中，仅最接近的一对视觉系统会被校准，因为它们可能共享最大的视场。进一步地，迭代接近点(ICP)方法被用来经由两个3D点云的注册来估计3D视觉系统之间的旋转和平移。众所周知，如果ICP的初始化参数未被良好设置，则它可能会收敛到局部最小值。经验表明，在每个交通工具的粗略的2D位置和姿态下，利用该方法实现ICP平移和旋转的良好初始化。进一步地，相邻交通工具视觉系统之间非常准确的非固有参数可以被估计。

阶段2：把将基本上在接近地操作的CA/AD交通工具的中心处的操作的CA/AD交通工具上的3D视觉系统的3D坐标设置为世界坐标系。将其他CA/AD交通工具上的所有其他3D视觉系统的坐标系逐一地转移到世界坐标系中。

如果Cw表示世界坐标系；C1和Cw，C1和C2是相邻的坐标系，非固有参数校准的关系受以下等式制约：

Cw＝R1*C1+T1(1)

C1＝R2*C2+T2(2)

其中(R1，T1)是C1与Cw之间的旋转和平移；(R2，T2)是C1与C2之间的旋转和平移。

所以C2与Cw之间的平移和旋转是由问题给出的：

Cw＝R1*(R2*C2+T2)+T1＝(R1*R2)*C2+(R1*T2+T1)(3)

使用这些方程，逐一地确定所有坐标系向世界坐标系的转移。

在各个实施例中，当在相邻交通工具之间校准相机非固有参数时，为了获得高稳健和准确的相机非固有参数校准，需要进行2次测量。不是来自相机的2D彩色图像，而是3D点云被用于非固有参数校准。一般来说，3D点云注册比传统的2D相机校准要稳健得多。ICP(迭代最接近点)或其变体可能非常稳健地执行。ICP的良好初始化参数被估计以保证其收敛性。这些良好的初始化参数是基于汽车粗略的位置和取向。另外，在对多个附近的汽车进行3D校准之后，来自这些汽车的3D点云可能被合并成具有更大视野、更少遮挡和更高分辨率的大点云。进一步地，3D对象检测是在最终的大点云上完成的。在3D对象检测期间，对象的3D姿态也可以被获得。

现在参考图7A-图7C，其中图示出根据各个实施例的用于收集道路图像、基于单相机运动的对象检测和多视图对象检测的相应的示例过程。图7A图示出根据各个实施例的用于收集道路的图像的示例过程。如所图示，在每个接近地操作的CA/AD交通工具上执行的用于收集道路的图像的过程700包括在框702-708处的操作。在各个实施例中，在框702-708处的操作可以由CA/AD系统(例如，图4的CA/AD系统400)的组件执行。在替代的实施例中，过程700可以具有更多或更少的操作。

过程700在框702处开始。在框702处，CA/AD交通工具被自我定位。在各个实施例中，CA/AD交通工具的自我定位可以使用来自GPS/GLONASS和IMU的传感器数据的组合来执行。一般来说，CA/AD交通工具可以利用GPS和GLONASS数据在道路上非常准确和稳健地定位自己。但是，当GPS和GLONASS信号两者被非常严重地遮挡时，它偶尔会失败。在这种情况下，IMU数据被用于短期连续的自我定位。

接下来在框704处，CA/AD交通工具执行相机粗略的三维(3D)位置和取向估计。在各个实施例中，交通工具相机位置/取向与交通工具的位置/取向之间的偏移是固定的，并且可以在数据捕获之前被测量。对于这些实施例，仅交通工具的3D位置和取向被估计。在各个实施例中，假设其他接近地操作的交通工具在同一水平面(地平面)上，仅粗略的3D位置和取向被估计。因此，仅地平面上的2D位置和取向被估计。

在各个实施例中，来自交通工具自我定位的位置被用作粗略的位置。对于这些示例，经验表明，交通工具自我定位的误差一般在1米以内。虽然对于一般的交通工具导航应用来说似乎很好，但对于不同交通工具相机之间或同一交通工具相机在不同时间的非固有参数校准来说，该误差仍然被认为有点大。因此，在交通工具取向的情况下，利用交通工具的运动轨迹，经由轨迹差分操作来估计交通工具的速度向量。速度方向被认为是交通工具的粗略取向。以此方式，可以获得交通工具相机粗略的3D位置和取向。在各个实施例中，粗略的3D位置和取向也将在稍后的离线处理过程期间用作初始化参数以估计精细的非固有参数。

过程700从框704继续进行至框706和框708。在框706处，不时地(例如，定期地)向其他接近地操作的CA/AD交通工具发送同步信号或接收来自其他接近地操作的CA/AD交通工具的同步信号，以同步对道路的图像的捕获。在框708处，道路的RGB图像和LiDAR图像被连续地捕获，其中图像中的一些图像是响应于同步信号而与其他接近地操作的CA/AD交通工具同步地捕获的。

如前所述，在CA/AD交通工具在道路上行驶去往其目的地的途中时，所捕获的RGB和LiDAR图像被输出并实时用于检测对象。进一步地，所捕获的RGB和LiDAR图像也被输出，以用于随后的基于单相机运动的对象检测分析，以及多视图对象检测分析。

图7B图示出基于单相机运动的对象检测的示例过程。如所示，对于图示出的实施例而言，用于基于单相机运动的对象检测的过程720包括在框724-726处执行的操作。在各个实施例中，这些操作可以由例如图1的ADDG 85执行。对由接近地操作的CA/AD交通工具收集的图像序列中的每个图像序列对应地执行过程720。对于每个性能而言，过程720从框724处开始。在框724处，对由CA/AD交通工具的图像传感器捕获的图像序列执行移动区域检测。在各个实施例中，针对连续地捕获的图像序列的每个帧生成点云。每个交通工具被认为是在不同时间的不同视图。在每个视图下，3D场景被重建。(3D场景的构建将在下文描述多视图对象检测时更加全面地进行描述)。

同时，具有较大注册误差的区域将是移动区域(包括移动对象和背景区域)。

接下来，在框726处，在检测到移动区域时，执行对移动对象的检测。在一些实施例中，仅3个类别的移动对象被检测。它们是行人、骑行者和交通工具。交通工具是大的类别，该类别包括一些子类别，诸如汽车、卡车、公共汽车等。在不同的实施例中，检测方法可以是本领域已知的任何对象检测方法，但要针对这3个感兴趣的类别进行专门训练。因此，它在检测这3个感兴趣的类别的移动对象时将有更高的准确性和更快的速度。在另一个实施例中，附加的类别可以被检测。

图7C图示出多视图对象检测的示例过程。如所示，对于图示出的实施例而言，用于多视图对象检测的过程740包括在框742-746处执行的操作。在各个实施例中，这些操作可以由例如图1的ADDG 85执行。在其他实施例中，过程740可以包括更多或更少的操作。

对于图示出的实施例，过程740在框742和框746处开始。在框742处，3D场景被重建。在将所有交通工具相机坐标系转移到世界坐标系之后，所有的点云也被转移到世界坐标系并合并在一起。来自单个汽车的点云是稀疏的，并且独立的视场是小的。经合并的3D点云具有更大的视场、更少的遮挡、和更高的分辨率。在各个实施例中，由于存在许多重叠的点，经合并的点云被处理以移除多余的点并保留细节。在不同的实施例中，根据Pfister,M.Zwicker、J.van Baar和M.Gross.Surfels在载于《美国计算机学会图形学会刊》(ACMTransactions on Graphics)，2000年的“作为渲染基元的曲面元素(Surface elements asrendering primitives)”中描述的方法。在替代的实施例中，可以代替地采用其他冗余点移除的方法。在移除冗余点时，整个环境的3D点云被获得。

过程740可以从框742继续进行至框746。在框746处，3D对象检测被执行。在各个实施例中，3D对象在经合并的点云中被检测。3D对象被表示为具有面向取向的3D边界框。基于深度学习的方法被用来检测经合并的点云的3D空间中的交通工具、行人、骑行者、交通标志和信号。在不同的实施例中，基于深度学习的方法可以是Martin Engelcke、Dushyant Rao、Dominic Zeng Wang、Chi Hay Tong、Ingmar Posner在2017年载于IEEE机器人和自动化国际会议(ICRA2017)的“Vote3Deep：使用高效卷积神经网络在3D点云中进行快速对象检测(Vote3Deep:Fast object detection in 3D point clouds using efficientconvolutional neural networks)”中描述的方法。在替代的实施例中，可以代替地采用3D对象检测方法。

返回到框744处，在框742的操作被执行以重建3D场景的同时，执行3D交通工具投影。数据捕获交通工具中的一些交通工具处于经合并的点云的视场中。在对交通工具的图像传感器进行交叉校准之后，它们在世界坐标系中的3D位置和取向是已知的。在不同的实施例中，诸如CA/AD交通工具的型号、尺寸以及甚至3D形状之类的信息也是已知的。所以没有必要检测CA/AD交通工具。它们的已知位置、尺寸、和面向取向被直接添加到正在生成的自主驾驶数据集的地面真值列表中。

在执行框744和框746的操作时，3D交通工具投影和3D对象检测的结果被输出用于对象检测结果合并操作。

现在参考图8，其中图示出根据各个实施例的用于合并来自不同对象检测方法的对象检测结果的示例过程。如所示，用于合并来自不同方法的对象检测结果的过程800包括在框802-804处执行的操作。在各个实施例中，这些操作可以由例如图1的ADDG 85执行。在其他实施例中，过程800可以包括更多或更少的操作。

过程800在框802处开始。在框802处，CA/AD交通工具的实时本地对象检测的结果、基于单相机运动的对象检测分析的结果、以及多视图对象检测分析的结果被合并在一起。在各个实施例中，利用非最大值抑制方法将来自3种方法的结果合并在一起。在对象检测的上下文中，非最大值抑制方法被用来转换平滑的响应图，该响应图在理想情况下

在每个检测到的对象的单个边界框中触发许多不精确的对象窗口假设。经验表明，这些冗余结果将极大地改善检测准确性。在各个实施例中，在这些方法中，即相对于彼此而言，实时本地对象检测的结果被认为是具有最高的置信度。并且基于运动的对象检测分析的结果具有中等水平的置信度，而多视图对象检测分析的结果具有最低的置信度。这些置信度在抑制过程期间被用于移除冗余。

接下来，在框804处，检测到的3D对象被反向投影到交通工具的坐标系。这些操作的目标是在每个交通工具的坐标系上获得3D对象位置和取向，并将3D检测结果反向投影到原始汽车坐标系。首先，3D对象的坐标和取向经由旋转和平移被转移到原始交通工具相机的3D坐标系。旋转和平移矩阵是来自多个汽车相机校准的公式的逆：

Cw＝R1*C1+T1→C1＝R1^-1*(C1-T1)(4)

然后，原始3D视觉坐标系的2D地面真值被计算出。在各个实施例中，通过相机的固有参数，3D对象的顶点和边缘经由透视投影模型投影到2D图像平面上。

现在参考图9，其中示出了根据各种实施例的示例神经网络。示例神经网络900可以适于例如由图1的对象检测子系统140或图4的对象检测子系统406使用。如所示，示例神经网络900可以是包括输入层912、一个或多个隐藏层914以及输出层916的多层前馈神经网络(FNN)。输入层912接收输入变量(x_i)902的数据。(多个)隐藏层914处理输入，并且最终，输出层916输出判定或评定(y_i)904。在一个示例实现方式中，神经网络的输入变量(x_i)902被设置为包含相关变量数据的向量，而神经网络的输出判定或评定(y_i)904也被设置为向量。

多层前馈神经网络(FNN)可通过下列等式来表达：

对于i＝1，...，N

对于i＝1，...，S

其中ho_i和y_i分别是隐藏层变量和最终输出，f()典型地是非线性函数，诸如，模仿人类大脑的神经元的sigmoid函数(s形函数)或修正线性(ReLu)函数。R是输入的数量。N是隐藏层的尺寸，即神经元的数量。S是输出的数量。

FNN的目的是通过经由训练使网络变量i_w、h_w、h_b和o_b适配来使网络输出与所期望的目标之间的误差函数E最小化，如下：

其中

其中，Y_kp和t_kp分别是样本k的第p个输出单元的预测值和目标值，并且m是样本的数量。

对于对象检测子系统140或406，输入变量(x_i)902可以包括由各种交通工具传感器收集的各种传感器数据以及描述对象检测的相关因素的数据。输出变量(y_i)904可以包括检测到的对象、行人、交通工具、骑自行车的人、交通标志、交通灯等等。可通过训练数据来确定神经网络的(多个)隐藏层的网络变量。

在图9的示例中，为了简化说明，在神经网络中仅存在一个隐藏层。在一些其他实施例中，可能存在许多隐藏层。此外，神经网络可以采用一些其他类型的拓扑结构，诸如，卷积神经网络(CNN)、循环神经网络(RNN)等等。

现在参考图10，其中，图示出根据各个实施例的车载系统的软件组件视图。如所示，对于实施例而言，IVS或CA/AD系统1000(其可以是IVS或CA/AD系统100或400)包括硬件1002和软件1010。软件1010包括主控数个虚拟机(VM)1022-1028的管理程序1012。管理程序1012被配置成用于主控VM 1022-1028的执行。VM 1022-1028包括服务VM 1022和数个用户VM 1024-1028。服务机1022包括服务OS，该服务OS主控数个仪表盘应用1032的执行。用户VM1024-1028可包括：第一用户VM 1024，具有主控前排座位信息娱乐应用1034的执行的第一用户OS；第二用户VM 1026，具有主控后排座位信息娱乐应用1036的执行的第二用户OS；第三用户VM 1028，具有主控导航和对象检测子系统和ADDG代理1038的执行的第三用户OS，等等。

除了本公开的具有自动对象标记技术的自主驾驶数据集生成之外，软件1010还可以是本领域已知的数个这些要素中的任何一种。例如，管理程序1012可以是数个本领域中已知的管理程序中的任一者，诸如，可从佛罗里达州劳德代尔堡的思杰公司(Citrix Inc)获得的KVM(开源管理程序)、Xen或者可从加利福尼亚州帕洛阿尔托的VMware公司获得的VMware等等。类似地，服务VM 1022的服务OS以及用户VM 1024-1028的用户OS可以是本领域中已知的数个OS中的任一者，诸如，例如可从北卡罗来纳州罗利市的Red Hat公司获得的Linux、或可从加利福尼亚州山景城的谷歌公司获得的Android。

现在参考图11，其中图示出根据各实施例的可适合用于实践本公开的各方面的示例计算平台。如所示，计算平台1100，其可以是图10的硬件1002、或图1的服务器60中的一者的计算平台。对于所图示出的实施例而言，计算平台1100包括一个或多个芯片上系统(SoC)1102、ROM 1103和系统存储器1104。每个SoC 1102可包括一个或多个处理器核(CPU)、一个或多个图形处理器单元(GPU)、一个或多个诸如计算机视觉(CV)和/或深度学习(DL)加速器之类的加速器。ROM 1103可包括基本输入/输出系统服务(BIOS)1105。CPU、GPU和CV/DL加速器可以是本领域中已知的数个这些元件中的任一者。类似地，ROM 1103和BIOS 1105可以是本领域中已知的数个ROM和BIOS中的任一者，并且系统存储器1104可以是本领域中已知的数个易失性存储设备中的任一者。在各个实施例中，CV/DL加速器中的一者可用于实现CA/AD系统的对象检测子系统。

另外，计算平台1100可包括持久性存储设备1106。持久存储设备1106的示例可包括但不限于，闪存驱动器、硬驱动器、紧凑盘只读存储器(CD-ROM)等等。进一步地，计算平台1100可包括用于与一个或多个I/O设备(诸如，传感器1120)对接的一个或多个输入/输出(I/O)接口1108。其他示例I/O设备可包括但不限于显示器、键盘、光标控制等等。计算平台1100还可包括一个或多个通信接口1110(诸如，网络接口卡、调制解调器等等)。通信设备可以包括本领域已知的任何数量的通信和I/O设备。通信设备的示例可包括但不限于，用于

近场通信(NFC)、WiFi、蜂窝通信(诸如，LTE 4G/5G)等等的联网接口。可经由系统总线1111将这些元件彼此耦合，该系统总线1111可表示一个或多个总线。在多个总线的情况下，可通过一个或多个总线桥(未示出)来桥接它们。

这些元件中的每个元件可执行在本领域中已知的其常规功能。具体而言，ROM1103可包括具有引导加载器的BIOS 1105。可采用系统存储器1104和大容量存储设备1106来存储被统称为计算逻辑1122的编程指令的工作副本和永久副本，这些编程指令实现与管理程序112(对于一些实施例，包括与ADDG 85或ADDG代理150/408相关联的功能)、服务/用户VM的服务/用户OS 1022-1028、或导航子系统1038的组件相关联的操作。可通过由SoC1102的(多个)处理器核支持的汇编器指令或可以被编译成此类指令的诸如例如C之类的高级语言来实现各种元件。

如本领域技术人员将领会的那样，本公开可被具体化为方法或计算机程序产品。相应地，除了如之前所述地被具体化为硬件之外，本公开还可采取完全软件的实施例(包括固件、驻留软件、微代码等)或者组合全部可被统称为“电路”、“模块”或“系统”的软件和硬件方面的实施例的形式。此外，本公开可采取计算机程序产品的形式，该计算机程序产品具体化在任何有形或非暂态表达介质中，该表达介质具有具体化在该介质中的计算机可用的程序代码。图12图示出示例计算机可读非暂态存储介质，其可适合用于存储指令，响应于由装置对这些指令的执行，这些指令使该设备实践参考图1-图8所描述的本公开的所选择的方面。如所示，非暂态计算机可读存储介质1202可包括数个编程指令1204。编程指令1204可被配置成用于使得设备(例如，计算平台1100)能够响应于这些编程指令的执行而实现管理程序112(对于一些实施例，包括与ADDG或ADDG代理相关联的功能)、服务/用户VM的服务/用户OS 122-128、或导航子系统1038的组件(的各方面)。在替代实施例中，相反，可将这些编程指令1204设置在多个计算机可读的非暂态存储介质1202上。在另外的其他实施例中，可将编程指令1204设置在计算机可读的暂态存储介质1202(诸如，信号)上。

可以利用一种或多种计算机可用或计算机可读介质的任何组合。计算机可用或计算机可读介质例如可以是但不限于，电子、磁、光、电磁、红外或半导体系统、装置、设备或传播介质。计算机可读介质的更具体的示例(非完全列表)将包括下述项：具有一条或多条线的电连接件、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储设备、诸如支持互联网或内联网的传输介质的传输介质、或磁存储设备。注意，该计算机可用或计算机可读介质甚至可以是纸或另一合适介质，在该介质上印刷有程序，因为可以经由例如对该纸或其他介质进行光学扫描来电子地捕捉该程序，然后在必要的情况下以合适的方式编译、解释或以其他方式处理该程序，并且随后将其存储在计算机存储器中。在本文档的上下文中，计算机可用或计算机可读介质可以是包含、存储、传递、传播、或传输用于由指令执行系统、装置或设备使用的或结合指令执行系统、装置或设备一起使用的程序的任何介质。计算机可用介质可包括所传播的数据信号，该数据信号在带内或作为载波的部分具有伴随其而具体化的计算机可用程序代码。可使用任何适当的介质来传送计算机可用程序代码，适当的介质包括但不限于无线、线缆、光纤电缆、射频等。

能以一种或多种编程语言的任何组合来编写用于实施本公开的操作的计算机程序代码，这些编程语言包括：面向对象的编程语言，诸如，Java、Smalltalk、C++等等；以及常规过程编程语言，诸如，“C”编程语言或类似的编程语言。程序代码可完全在用户的计算机上执行，可部分地在用户的计算机上执行，可作为独立的软件包执行，可部分地在用于的计算机上且部分地在远程计算机上执行，或者可完全在远程计算机或服务器上执行。在后一场景中，可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))将远程计算机连接到用户的计算机，或可(例如，使用因特网服务提供商通过因特网)建立到外部计算机的连接。

参照根据本公开的多个实施例的方法、设备(系统)和计算机程序产品的流程图图示和/或框图描述了本公开。将会理解，可以由计算机程序指令来实现流程图图示和/或框图的每个框以及流程图图示和/或框图中的框的组合。可将这些计算机程序指令提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器来生产机器，使得经由计算机或其他可编程数据处理装置的处理器执行的这些指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。

也可将这些计算机程序指令存储在可指示计算机或其他可编程数据处理装置按特定方式运作的计算机可读介质中，使得该计算机可读介质中所存储的这些指令生产制品，该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的指令装置。

也可将计算机程序指令加载到计算机或其他可编程数据处理装置上以使一系列操作步骤在该计算机或其他可编程装置上被执行从而产生计算机实现的过程，使得在该计算机或其他可编程装置上执行的这些指令提供用于实现流程图和/或框图的一个或多个框中指定的功能/动作的过程。

附图中的流程图和框图图示出根据本公开的各实施例的系统、方法和计算机程序产品的可能的实现方式的架构、功能和操作。就这一点而言，流程图或框图中的每个框可表示包括用于实现指定的(多个)逻辑功能的一条或多条可执行指令的模块、代码段或代码的部分。应当注意，在一些替代实现方式中，框中所标注的功能可不按图中所标注的次序发生。例如，取决于所涉及的功能，实际上，可基本上同时地执行连续地示出的两个框，或者有时可按相反的次序来执行这些框。也将注意，可以由执行指定的功能或动作的基于专用硬件的系统或专用硬件和计算机指令的组合来实现框图和/或流程图图示中的每个框以及框图和/或流程图图示中的框的组合。

本文中所使用的术语仅出于描述特定实施例的目的，并且不旨在限制本公开。如本文中所使用，单数形式的“一”(“a”、“an”)和“该”(“the”)旨在也包括复数形式，除非上下文另外清楚地指示。还将理解，当在本说明书中使用术语“包括”(“comprise”和/或“comprising”)时，其指定所陈述的特征、整数、步骤、操作、元件、和/或组件的存在，但不排除一个或多个其他特征、整数、步骤、操作、元件、组件、和/或其群组的存在或添加。

可将实施例实现为计算机进程、计算系统，或者实现为诸如计算机可读介质的计算机程序产品之类的制品。计算机程序产品可以是计算机存储介质，该计算机存储介质可由计算机系统读取并对计算机程序指令编码以执行计算机进程。

所附权利要求书中的所有装置或步骤以及功能元件的对应的结构、材料、动作及等效物旨在包括与具体地要求保护的其他要求保护的元件组合执行功能的任何结构、材料或动作。已出于说明和描述的目的呈现了本公开的描述，但是该描述不旨在是穷举性的，也不限于按所公开形式的本公开。在不背离本公开的范围和精神的情况下，许多修改和变型对普通技术人员将是显而易见的。选择并描述实施例，以便最好地解释本公开的原理和实际应用，并且以便使其他本领域普通技术人员能够理解对具有适用于所构想的特定使用的各种修改的实施例的公开。

因此，已描述了本公开的各示例实施例，它们包括但不限于：

示例1是一种用于生成用来训练CA/AD交通工具的计算机辅助或自主驾驶(CA/AD)系统的自主驾驶数据集的方法，包括：在多个道路上接近地操作多个CA/AD交通工具；利用被设置在多个接近地操作的CA/AD交通工具中的图像传感器收集多个道路的多个图像序列，包括由图像传感器同步地收集图像中的一些图像；对应地处理由CA/AD交通工具的CA/AD系统收集到的多个图像序列以检测多个道路上的对象；单独地处理所收集的图像序列，以经由基于单相机运动的对象检测分析来检测多个道路上的对象；集体地处理所收集的图像序列，以经由多视图对象检测分析来检测多个道路上的对象；以及至少部分地基于图像序列的对应的处理、单独的处理和集体的处理的对象检测结果来生成自主驾驶数据集。

示例2是示例1，其中在多个道路上接近地操作多个CA/AD交通工具包括在接近地操作的多个CA/AD交通工具之间建立交通工具间通信，以及动态地选择多个CA/AD交通工具中的一个CA/AD交通工具作为多个CA/AD交通工具中的主交通工具，以至少部分地协调利用设置在多个接近地操作的CA/AD交通工具中的图像传感器收集多个道路的多个图像序列。

示例3是示例2，其中在多个道路上接近地操作多个CA/AD交通工具包括主交通工具向其他CA/AD交通工具发送同步信号以至少部分地同步对用于多视图对象检测分析的图像的收集。

示例4是示例1，其中，生成包括利用非最大值抑制方法合并图像序列的对应的处理、单独的处理和集体的处理的对象检测结果。

示例5是示例4，其中生成进一步包括将经合并的对象检测结果中的对象反向投影到CA/AD交通工具的相应坐标系中。

示例6是示例1-5中的任一项，进一步包括对多个CA/AD交通工具的图像传感器进行对应地校准，以及对相邻的CA/AD交通工具对的图像传感器进行交叉校准。

示例7是示例6，进一步包括在对多个CA/AD交通工具的图像传感器进行对应地校准时，利用二维图像传感器的3D坐标系生成独立的三维(3D)点云坐标系。

示例8是示例6，其中交叉校准相邻的CA/AD交通工具对的图像传感器包括估计该相邻的CA/AD交通工具对的图像传感器之间的旋转和平移。

示例9是示例6，其中交叉校准相邻的CA/AD交通工具对的图像传感器进一步包括把将基本上在接近地操作的CA/AD交通工具的中心处操作的CA/AD交通工具的图像传感器的3D坐标设置为世界坐标系。

示例10是示例9，其中如果Cw表示世界坐标系；C1和Cw，C1和C2是相邻的坐标系，则非固有参数校准的关系受以下等式制约：

Cw＝R1*C1+T1

C1＝R2*C2+T2

其中(R1，T1)是C1与Cw之间的旋转和平移。

(R2，T2)是C1与C2之间的旋转和平移。

示例11是一种用于CA/AD交通工具的计算机辅助或自主驾驶(CA/AD)系统，包括：传感器接口和输入/输出(I/O)接口；以及自主驾驶数据集生成器(ADDG)代理，该自主驾驶数据集生成器(ADDG)代理与传感器接口和I/O接口耦合；其中，ADDG代理用于经由传感器接口将同步信号转发给CA/AD交通工具的图像传感器，以及用于接收由图像传感器收集到的多个道路的图像序列，接收到的图像中的至少一些图像是至少部分地基于同步信号与一个或多个其他接近地操作的CA/AD交通工具上的图像收集同步地被收集；以及其中ADDG代理用于经由I/O接口将接收到的图像序列输出到ADDG以在多种方式下处理该图像序列，以检测多个道路上的对象，以及用于至少部分地基于多种方式的处理的结果来生成具有自动对象标记的自主驾驶数据集。

示例12是示例11，进一步包括耦合到ADDG代理的交通工具间通信接口，其中ADDG代理用于经由交通工具间通信接口向一个或多个其他接近地操作的CA/AD交通工具发送同步信号或从一个或多个其他接近地操作的CA/AD交通工具接收同步信号，以便在CA/AD交通工具与一个或多个其他接近地操作的CA/AD交通工具之间同步收集图像中的一些图像。

示例13是示例11，进一步包括耦合到传感器接口的对象检测子系统；其中，对象检测子系统也用于经由传感器接口接收由图像传感器收集到的多个道路的图像序列，以及至少部分地基于图像来本地地检测多个道路中的对象；其中，ADDG代理用于经由I/O接口进一步向ADDG输出，ADDG进一步基于对多个道路上对象的本地检测结果来生成具有自动对象标记的自主驾驶数据集。

示例14是示例11，其中ADDG代理进一步被布置成用于基于由设置在CA/AD交通工具上的全球定位系统提供的地理位置数据或由CA/AD交通工具的惯性测量单元提供的运动数据来确定CA/AD交通工具的地理位置。

示例15是示例11-14中的任一项，其中ADDG代理进一步被布置成用于经由对CA/AD交通工具的3D位置和取向的粗略估计来估计CA/AD交通工具的图像传感器的三维(3D)位置和取向，对CA/AD交通工具的图像传感器的3D位置和取向的粗略估计包括对CA/AD交通工具在地平面上的二维(2D)位置和取向的估计。

示例16是至少一种计算机可读介质(CRM)，具有存储在其中的指令，响应于由计算系统的处理器对该指令的执行，使计算系统操作自主驾驶数据集生成器(ADDG)以用于：单独地处理由多个接近地操作的计算机辅助或自主驾驶(CA/AD)交通工具的图像传感器收集到的多个图像序列，以经由基于单相机运动的对象检测分析来检测多个道路上的对象，包括检测图像内的移动区域；集体地处理所收集的图像序列，以经由多视图对象检测分析来检测多个道路上的对象，包括重建图像内的三维(3D)场景；以及至少部分地基于对图像序列的单独的处理和集体的处理的结果来生成具有自动对象标记的自主驾驶数据集。

示例17是示例16，其中计算系统进一步使得操作ADDG以生成与接近地操作的CA/AD交通工具的图像传感器相对应的多个独立的3D点云坐标系，以用于交叉校准相邻的CA/AD交通工具对的图像传感器。

示例18是示例16，其中，单独地处理由多个接近地操作的CA/AD交通工具的图像传感器收集到的多个图像序列以经由基于单相机运动的对象检测分析来检测多个道路上的对象，包括在检测到的图像内的移动区域的情况下对行人、骑行者和交通工具进行检测。

示例19是示例16，其中集体地处理收集到的图像序列以经由多视图对象检测分析来检测多个道路上的对象，进一步包括用于利用具有面向取向的3D边界框表示检测到的对象。

示例20是示例16，其中重建图像内的3D场景包括将CA/AD交通工具的图像传感器的所有坐标系转移到世界坐标系，以及将CA/AD交通工具的图像传感器的所有点云转移到世界坐标系，并合并所转移的点云。

示例21是示例16，其中进一步使计算系统操作ADDG以执行CA/AD交通工具的3D投影，包括CA/AD交通工具的位置、尺寸和面向取向的3D投影。

示例22是示例16-21中的任一项，其中，生成具有自动对象标记的自主驾驶数据集包括用于将图像序列的单独的处理和集体的处理的3D对象检测结果进行合并。

示例23是示例22，其中进一步使计算系统操作ADDG以接收由CA/AD交通工具对多个道路的本地对象检测结果；并且其中合并进一步包括将本地对象检测结果与图像序列的单独的处理和集体的处理的3D对象检测结果进行合并。

示例24是示例23，其中将本地对象检测结果与图像序列的单独的处理和集体的处理的3D对象检测结果进行合并包括用于使用非最大值抑制方法将本地对象检测结果，以及单独的处理和集体的处理的3D对象检测结果进行合并。

示例25是示例23，其中生成具有自动对象标记的自主驾驶数据集进一步包括将经合并的3D对象检测结果反向投影到每个CA/AD交通工具的坐标系中的3D地面真值。

对于本领域技术人员将是显而易见的是，可在所公开的设备和相关联的方法的所公开的实施例中作出各种修改和变型，而不背离本公开的精神或范围。因此，如果修改和变型落入任何权利要求及其等效方案的范围之内，则本公开旨在涵盖上文所公开的实施例的修改和变型。

Claims

1.一种用于生成用来训练CA/AD交通工具的计算机辅助或自主驾驶(CA/AD)系统的自主驾驶数据集的方法，包括:

在多个道路上接近地操作多个CA/AD交通工具；

利用被设置在所述多个接近地操作的CA/AD交通工具中的图像传感器收集所述多个道路的多个图像序列，包括由所述图像传感器同步地收集所述图像中的一些图像；

对应地处理由所述CA/AD交通工具的所述CA/AD系统收集到的所述多个图像序列以检测所述多个道路上的对象；

单独地处理所收集的图像序列，以经由基于单相机运动的对象检测分析来检测所述多个道路上的对象；

集体地处理所收集的图像序列，以经由多视图对象检测分析来检测所述多个道路上的对象；以及

至少部分地基于所述图像序列的对应的处理、单独的处理和集体的处理的对象检测结果来生成所述自主驾驶数据集。

2.如权利要求1所述的方法，其特征载于，在所述多个道路上接近地操作所述多个CA/AD交通工具包括在所述接近地操作的多个CA/AD交通工具之间建立交通工具间通信，以及动态地选择所述多个CA/AD交通工具中的一个CA/AD交通工具作为所述多个CA/AD交通工具中的主交通工具，以至少部分地协调利用设置在所述多个接近地操作的CA/AD交通工具中的所述图像传感器收集所述多个道路的所述多个图像序列。

3.如权利要求2所述的方法，其特征在于，在所述多个道路上接近地操作所述多个CA/AD交通工具包括所述主交通工具向其他CA/AD交通工具发送同步信号以至少部分地同步对用于所述多视图对象检测分析的图像的收集。

4.如权利要求1所述的方法，其特征在于，生成包括利用非最大值抑制方法对图像序列的对应的处理、单独的处理和集体的处理的对象检测结果进行合并。

5.如权利要求4所述的方法，其特征在于，生成进一步包括将经合并的对象检测结果中的对象反向投影到所述CA/AD交通工具的相应坐标系中。

6.如权利要求1-5中任一项所述的方法，进一步包括对所述多个CA/AD交通工具的所述图像传感器进行对应地校准，以及对相邻的CA/AD交通工具对的图像传感器进行交叉校准。

7.如权利要求6所述的方法，进一步包括在对所述多个CA/AD交通工具的所述图像传感器进行对应地校准时，利用二维图像传感器的3D坐标系生成独立的三维(3D)点云坐标系。

8.如权利要求6所述的方法，其特征在于，对相邻的CA/AD交通工具对的所述图像传感器进行交叉校准包括估计所述相邻的CA/AD交通工具对的所述图像传感器之间的旋转和平移。

9.如权利要求6所述的方法，其特征在于，对相邻的CA/AD交通工具对的所述图像传感器进行交叉校准进一步包括把将基本上在所述接近地操作的CA/AD交通工具的中心处操作的所述CA/AD交通工具的所述图像传感器的3D坐标设置为世界坐标系。

10.如权利要求9所述的方法，其特征在于，如果Cw表示所述世界坐标系；C1和Cw，C1和C2是相邻的坐标系，则非固有参数校准的关系受以下等式制约：

Cw＝R1*C1+T1

C1＝R2*C2+T2

其中(R1,T1)是C1与Cw之间的旋转和平移；

(R2,T2)是C1与C2之间的旋转和平移。

11.一种用于CA/AD交通工具的计算机辅助或自主驾驶(CA/AD)系统，包括：

传感器接口和输入/输出(I/O)接口；以及

自主驾驶数据集生成器(ADDG)代理，所述自主驾驶数据集生成器(ADDG)代理与所述传感器接口和所述I/O接口耦合；

其中，所述ADDG代理用于经由所述传感器接口将同步信号转发给所述CA/AD交通工具的图像传感器，以及用于接收由所述图像传感器收集到的多个道路的图像序列，接收到的图像中的至少一些图像是至少部分地基于所述同步信号与一个或多个其他接近地操作的CA/AD交通工具上的图像收集同步地被收集的；以及

其中所述ADDG代理用于经由所述I/O接口将接收到的图像序列输出到ADDG以在多种方式下处理所述图像序列，以检测所述多个道路上的对象，以及用于至少部分地基于所述多种方式的处理的结果来生成具有自动对象标记的自主驾驶数据集。

12.如权利要求11所述的CA/AD系统，进一步包括耦合到所述ADDG代理的交通工具间通信接口，其中所述ADDG代理用于经由所述交通工具间通信接口向所述一个或多个其他接近地操作的CA/AD交通工具发送所述同步信号或从所述一个或多个其他接近地操作的CA/AD交通工具接收所述同步信号，以便在所述CA/AD交通工具与所述一个或多个其他接近地操作的CA/AD交通工具之间同步对所述图像中的一些图像的收集。

13.如权利要求11所述的CA/AD系统，进一步包括耦合到所述传感器接口的对象检测子系统；其中，所述对象检测子系统也用于经由所述传感器接口接收由所述图像传感器收集到的所述多个道路的所述图像序列，以及至少部分地基于所述图像来本地地检测所述多个道路中的对象；其中，所述ADDG代理用于经由所述I/O接口进一步向所述ADDG输出，所述ADDG进一步基于对所述多个道路上对象的本地检测结果来生成具有自动对象标记的自主驾驶数据集。

14.如权利要求11所述的CA/AD系统，其特征在于，所述ADDG代理进一步被布置成用于基于由设置在所述CA/AD交通工具上的全球定位系统提供的地理位置数据或由所述CA/AD交通工具的惯性测量单元提供的运动数据来确定所述CA/AD交通工具的地理位置。

15.如权利要求11-14中任一项所述的CA/AD系统，其特征在于，所述ADDG代理进一步被布置成用于经由对所述CA/AD交通工具的3D位置和取向的粗略估计来估计所述CA/AD交通工具的所述图像传感器的三维(3D)位置和取向，对所述CA/AD交通工具的3D位置和取向的粗略估计包括对所述CA/AD交通工具在地平面上的二维(2D)位置和取向的估计。

16.至少一种计算机可读介质(CRM)，具有存储在其中的指令，响应于由计算系统的处理器对所述指令的执行，使计算系统操作自主驾驶数据集生成器(ADDG)以用于：

单独地处理由多个接近地操作的计算机辅助或自主驾驶(CA/AD)交通工具的图像传感器收集到的多个图像序列，以经由基于单相机运动的对象检测分析来检测所述多个道路上的对象，包括检测所述图像内的移动区域；

集体地处理所收集的图像序列，以经由多视图对象检测分析来检测所述多个道路上的对象，包括重建所述图像内的三维(3D)场景；以及

至少部分地基于对所述图像序列的单独的处理和集体的处理的结果来生成具有自动对象标记的自主驾驶数据集。

17.如权利要求16所述的CRM，其特征在于，所述计算系统进一步使得操作所述ADDG以生成与接近地操作的CA/AD交通工具的所述图像传感器相对应的多个独立的3D点云坐标系，以用于对相邻的CA/AD交通工具对的图像传感器进行交叉校准。

18.如权利要求16所述的CRM，其特征在于，单独地处理由所述多个接近地操作的CA/AD交通工具的图像传感器收集到的所述多个图像序列以经由基于单相机运动的对象检测分析来检测所述多个道路上的对象，包括在检测到的所述图像内的移动区域的情况下对行人、骑行者和交通工具进行检测。

19.如权利要求16所述的CRM，其特征在于，集体地处理收集到的图像序列以经由多视图对象检测分析来检测所述多个道路上的对象，进一步包括用于利用具有面向取向的3D边界框表示检测到的对象。

20.如权利要求16所述的CRM，其特征在于，重建所述图像内的3D场景包括将所述CA/AD交通工具的所述图像传感器的所有坐标系转移到世界坐标系，以及将所述CA/AD交通工具的所述图像传感器的所有点云转移到所述世界坐标系，并合并所转移的点云。

21.如权利要求16所述的CRM，其特征在于，进一步使所述计算系统操作所述ADDG以执行所述CA/AD交通工具的3D投影，包括所述CA/AD交通工具的位置、尺寸和面向取向的3D投影。

22.如权利要求16-21中任一项所述的CRM，其特征在于，生成具有自动对象标记的所述自主驾驶数据集包括用于将所述图像序列的单独的处理和集体的处理的3D对象检测结果进行合并。

23.如权利要求22所述的CRM，其特征在于，进一步使所述计算系统操作所述ADDG以接收由所述CA/AD交通工具对所述多个道路的本地对象检测结果；并且其中合并进一步包括将所述本地对象检测结果与所述图像序列的单独的处理和集体的处理的所述3D对象检测结果进行合并。

24.如权利要求23所述的CRM，其特征在于，将所述本地对象检测结果与所述图像序列的单独的处理和集体的处理的所述3D对象检测结果进行合并包括使用非最大值抑制方法将所述本地对象检测结果，以及单独的处理和集体的处理的所述3D对象检测结果进行合并。

25.如权利要求23所述的CRM，其特征在于，生成具有自动对象标记的所述自主驾驶数据集进一步包括将经合并的3D对象检测结果反向投影到每个CA/AD交通工具的坐标系中的3D地面真值。