CN113366496B

CN113366496B - 用于粗略和精细对象分类的神经网络

Info

Publication number: CN113366496B
Application number: CN201980085004.5A
Authority: CN
Inventors: J.毛; C.李; Y.宋
Original assignee: Waymo LLC
Current assignee: Waymo LLC
Priority date: 2018-12-21
Filing date: 2019-12-18
Publication date: 2024-03-15
Anticipated expiration: 2039-12-18
Also published as: US11361187B1; US11842282B2; WO2020132102A2; EP3899804A2; US20200202168A1; US20220374650A1; WO2020132102A3; US10867210B2; CN113366496A

Abstract

本文公开的主题的各方面包括一种方法、系统和其他技术，其用于在第一阶段中用第一训练数据集合来训练对象分类器神经网络，第一训练数据集合包括第一多个训练样本，第一训练数据集合中的每个训练样本用粗略对象分类来标记；以及在第一阶段完成之后的第二阶段中，用第二训练数据集合来训练对象分类器神经网络，第二训练数据集合包括第二多个训练样本，第二训练数据集合中的每个训练样本用精细对象分类来标记。

Description

用于粗略和精细对象分类的神经网络

相关申请的交叉引用

本申请要求于2018年12月21号提交的美国申请序列号No.16/229，332的权益，其全部内容通过引用结合到本公开中。

背景技术

本说明书涉及自动车辆，并且更具体地，例如，涉及被配置为生成由车辆上的一个或多个传感器获取的数据中表示的对象的分类的机器学习模型。

自动车辆包括自主驾驶汽车、船只和飞机。如本文所用，自动车辆可以指全自动车辆或半自动车辆。全自动车辆通常能够独立于人类操作员完全自动驾驶，而半自动车辆自动进行一些驾驶操作，但在某种程度上仍然允许或需要人类控制或干预。自动车辆使用各种车载传感器和计算机系统来检测附近的对象，并使用这些检测来做出控制和导航决策。

一些自动车辆实施神经网络以基于传感器数据帮助辨识关于它们的环境的信息。神经网络是机器学习模型，其采用多层操作来从一个或多个输入预测一个或多个输出。神经网络通常包括位于输入层和输出层之间的一个或多个隐藏层。每一层的输出被用作网络中另一层(例如，下一个隐藏层或输出层)的输入。

神经网络的每一层指定要对该层的输入执行的一个或多个变换操作。一些神经网络层具有被称为神经元的操作。通常，每个神经元可以接收一个或多个输入，并生成由另一神经网络层接收的输出。每一层的转换操作可以由一个或多个位置处的一个或多个计算机来执行，该一个或多个计算机已经安装有实施转换操作的软件模块。

发明内容

本说明书描述了用于训练和使用对象分类神经网络系统的系统、方法、设备和技术。对象分类神经网络系统可以被配置为处理表示在自动车辆附近检测到的感兴趣对象的测量值(measurement)的传感器数据，并生成对对象的对象类型分类。这些分类可以包括“粗略”分类和“精细”分类，它们表示对象的不同语义理解级别。神经网络系统可以分两个阶段进行训练，以便首先优化系统以用于确定粗略对象分类，然后精细化该系统以确定精细对象分类。在通过聚集于精细对象分类的训练来精细化系统的第二阶段期间，基于目标精细对象分类来固定或冻结系统的某些部分中的参数的值，以便减轻系统的粗略对象分类能力的退化。

本文描述的主题的一些方面包括一种用于训练能够生成粗略对象分类和精细对象分类的对象分类器神经网络的方法。该方法可以包括以下动作：在第一阶段中，用第一训练数据集合来训练对象分类器神经网络，第一训练数据集合包括第一多个训练样本(example)，第一训练数据集合中的每个训练样本用粗略对象分类来标记；以及在第一阶段完成之后的第二阶段中，用第二训练数据集合来训练对象分类器神经网络，第二训练数据集合包括第二多个训练样本，第二训练数据集合中的每个训练样本用精细对象分类来标记。在第二阶段中训练对象分类器神经网络包括：对于每个训练样本，调整神经网络的被分配给由训练样本的标签指示的精细对象分类的一个或多个第一部分的参数，而不调整神经网络的未被分配给由训练样本的标签指示的精细对象分类的一个或多个第二部分的参数。

这些和其他实施方式可以可选地包括一个或多个以下特征。

神经网络的一个或多个第一部分和神经网络的一个或多个第二部分可以是通道编码器子网络，每个通道编码器子网络被配置为处理传感器数据的不同通道。

调整神经网络的一个或多个第一部分的参数可以包括：调整被配置为生成输出的一个或多个通道编码器子网络的参数，所述输出将在推理阶段期间被处理以生成由所述训练样本的标签指示的精细对象分类。

冻结神经网络的一个或多个第二部分的参数可以包括：冻结不被配置为生成输出的一个或多个通道编码器子网络的参数，所述输出将在推断阶段期间被处理以生成由所述训练样本的标签指示的精细对象分类。

该动作还可以包括训练与对象分类器神经网络分离的一个或多个精细对象分类器，其中，所述一个或多个精细对象分类器被配置为处理编码的传感器数据的一个或多个通道以生成精细对象分类，所述编码的传感器数据的一个或多个通道由所述对象分类器神经网络内的对应通道编码器生成。

当已经用对象分类器神经网络处理来自第一多个训练样本(sample)的至少最小数量的训练样本时，或者当对象分类器神经网络在生成对验证样本集合的粗略对象分类中达到最小性能标准时，可以认为训练对象分类器神经网络的第一阶段完成。

对象分类器神经网络可以位于自动车辆上，并且粗略对象分类可以从包括车辆、行人、骑自行车的人、骑摩托车的人、标志、背景或动物中的至少一个的组中选择。

精细对象分类可以从包括校车、应急车辆、客运车辆、成人或儿童中的至少一个的组中选择。

这些动作还可以包括：获得传感器数据的多个通道，传感器数据的每个通道表示特定对象的不同测量值集合；以及在完成第二阶段之后，用对象分类器神经网络处理所述传感器数据的多个通道，以确定特定对象的粗略对象分类或精细对象分类中的至少一个。

特定对象可以是自动车辆的感测范围内的对象，并且传感器数据的多个通道包括表示来自车辆上的光检测和测距(light detection and ranging，LIDAR)子系统的测量值的第一通道和表示来自车辆上的相机的测量值的第二通道。

这些动作还可以包括使用特定对象的粗略对象分类或精细对象分类中的至少一个来影响自动车辆的驾驶决策。

本文描述的主题的其他方面包括用于训练对象分类器神经网络的系统，其采用一个或多个处理器和用指令编码的一个或多个计算机可读介质，当该指令被一个或多个处理器执行时，使得执行与本文描述的方法的动作相对应的操作。另外，一些方面针对编码的计算机可读介质本身。用于使用如本文所述而训练的对象分类器神经网络的方法、系统、计算机可读介质和其他技术也在本申请的主题范围内。

可以实施本说明书中描述的主题的特定实施例，以便实现一个或多个以下优点。自动车辆系统可以预测附近对象的类型，以提高对其环境的理解，并做出更好的驾驶和导航决策。通过提供粗略粒度和精细粒度的分类，车辆可以做出比只有粗略对象分类可用时更细微(nuanced)的驾驶决策。此外，本说明书中描述的训练技术可以允许对象分类神经网络系统在生成粗略对象分类时保持高精度，或者提高精度，即使该系统随后被训练来学习精细对象分类。例如，通过冻结系统中不处理相对于特定精细对象分类具有高预测或解释能力的数据的部分内的参数的值，可以避免系统的粗略对象分类能力的过度退化。此外，通过在训练期间仅调整自由或非冻结参数，可以更有效地训练系统，因为在每次训练迭代中只需要较少的操作来调整系统参数的子集。

本说明书主题的一个或多个实施例的细节在附图和以下描述中阐述。根据说明书、附图和权利要求，本主题的其他特征、方面和优点将变得显而易见。

附图说明

图1是用于训练和使用自动车辆上的对象分类系统的示例系统的示意图。

图2是对象分类器神经网络系统的示例架构的示意图。

图3是使用对象分类器神经网络系统生成粗略和精细对象分类的示例过程的流程图。

图4是用于在两个阶段中训练对象分类神经网络系统的示例过程的流程图。

图5是可以在训练对象分类神经网络系统的第二阶段中的训练迭代中执行的操作的流程图。

图6A和图6B是指示特定通道编码器的选择和在不同训练迭代中应用的损失的对象分类器神经网络系统的示例架构的示意图。

不同附图中相似的附图标号和名称表示相似的元件。

具体实施方式

图1是示例系统100的示意图。系统100包括训练系统110和车载系统130。车载系统130物理地位于车辆122的车载。图1中的车辆122被示为驾驶汽车，但是车载系统130可以位于任何其他合适的车辆上。通常，车辆122是能够至少部分地独立于人的监督或操作来规划和执行驾驶动作(例如，转向、制动、加速)以导航到目标位置的自动车辆。车辆122可以使用对象分类来了解其环境，并规划驾驶动作，该驾驶动作考虑了在任何给定时间在车辆122附近的对象类型。

车载系统130包括一个或多个传感器子系统132。传感器子系统132包括用于感测关于车辆的环境的信息的组件。一个或多个子系统132可以被配置为检测和处理关于由子系统132中的特定子系统(诸如检测和处理激光的反射的光检测和测距(LIDAR)子系统、以及检测和处理无线电波的反射的无线电检测和测距(RADAR)子系统)发射的电磁辐射的反射的信息。传感器子系统132还可以包括检测和处理可见光的一个或多个相机子系统。相机子系统可以是单视场、立体或准许基于相机的图像传感器的空间取向/偏移的差异来确定图像中示出的对象的深度的其他多视角相机。对于LIDAR和RADAR，原始传感器数据可以指示反射辐射的距离、方向和强度。例如，每个传感器可以沿特定方向发送一个或多个电磁辐射脉冲，并且可以测量任何反射的强度以及接收反射的时间。可以通过确定脉冲和其对应反射之间的时间延迟来计算距离。每个传感器可以按照角度、方位或两者连续扫描特定空间。例如，按照方位的扫描可以允许传感器沿着同一条视线检测多个对象。

传感器子系统132还可以将一个或多个原始传感器测量值的组分类为对应于另一对象(例如，车辆22附近的另一车辆)。每组原始传感器测量值可以表示为三维点云，每个点具有例如强度、位置和伸长度。

传感器子系统132可以向车载对象分类器神经网络系统134提供一种或多种类型的传感器数据155。传感器数据155例如可以包括来自LIDAR和RADAR子系统的点云数据、来自相机子系统的图像数据、以及来自其他传感器子系统的数据。传感器数据可以包括多个通道，并且在一些实施方式中，每个通道携带与不同传感器子系统132相对应的数据。对象分类器神经网络系统134处理传感器数据155，以生成粗略对象分类180，并且可选地，生成精细对象分类182。粗略对象分类180是来自可能的粗略分类(例如，行人、车辆、标志、动物)集合当中的对对象的预测分类(例如，对象的类型)。精细对象分类182是来自可能的精细对象分类(例如，停车标志、让行标志、限速标志或校车、轿车、应急车辆)集合当中的对对象的预测分类(例如，对象的子类型)。精细对象分类182通常表示比粗略对象分类182更低级别的对象的分类。在一些实施方式中，除了表示粗略对象的子类型之外或作为其替代，精细对象分类182可以表示对象的属性，诸如车辆的灯当前是否在闪烁(例如，转向信号是否被激活)或者行人是否正在做出一种或多种类型的手势、移动或动作。关于对象分类器神经网络系统134的附加细节参考图2至图6进行描述。

对象分类器神经网络系统134可以向车辆122上的其他系统提供对象分类180和182，和/或向车辆122的驾驶员呈现对象分类，以通知系统或驾驶员关于已经在车辆附近检测到的对象类型。例如，规划子系统136可以使用对象分类180、182来做出全自主或半自主驾驶决策，从而至少部分地基于粗略对象分类180、精细对象分类182或两者来控制车辆122。例如，规划子系统136可以基于由对象分类器神经网络系统134提供的分类180和182来预计其他对象的移动，并确定如何围绕其他对象操纵。

用户界面子系统138可以接收对象分类180和182，并且可以基于分类180、182生成图形用户界面，该图形用户界面利用标签或描述对象的其他视觉指示符来呈现附近对象的位置。车载显示设备然后可以显示用户界面呈现，以供车辆122的驾驶员或乘客查看。

对象分类器神经网络系统134也可以使用传感器数据155来生成训练数据127。车载系统130可以以离线批量或以在线方式(例如，无论何时生成，都连续地)向训练系统110提供训练数据127。车载系统130可以在训练数据127中生成表征传感器数据155集合的训练样本的部分。然后，每个训练样本可以用粗略对象分类、精细对象分类或两者来标记，表示作为每个传感器数据115集合的主题的对象的类型和/或对象的属性。可替代地，车载系统130可以从其分类可以由车载系统130确定的对象中自动生成对训练数据127的分类。

训练系统110通常托管(host)在数据中心112内，数据中心112可以是具有在一个或多个位置的数百或数千台计算机的分布式计算系统。关于用于训练对象分类器神经网络系统的操作的附加细节参考图4至图6进行描述。

训练系统110包括训练神经网络子系统114，其可以实施被设计成根据传感器数据进行对象分类预测的神经网络的每一层的操作。训练神经网络子系统114包括具有软件或硬件模块的多个计算设备，该软件或硬件模块根据神经网络的架构来实施神经网络的每一层的相应操作。通常，训练神经网络子系统114具有与对象分类器神经网络系统134相同的架构。然而，训练系统110不需要使用相同的硬件来计算每一层的操作。换句话说，训练系统110可以只使用CPU、高度并行化的硬件或它们的某种组合。为简单起见，本说明书有时涉及在训练期间执行操作的对象分类器神经网络系统，但这并不一定意味着相同的计算机或硬件被用于训练和推理。

训练神经网络子系统114可以使用存储在模型参数值170的集群(collection)中的当前参数值115来计算训练神经网络子系统114(或对象分类器神经网络系统134)的每一层的操作。尽管被示出为逻辑上分离的，但是模型参数值170和执行操作的软件或硬件模块实际上可以位于相同的计算设备或相同的存储器设备上。

训练神经网络子系统114可以针对每个训练样本123生成粗略和/或精细对象分类135。训练引擎116分析对象分类135，并将对象分类与训练样本123中的标签进行比较。训练引擎116然后通过使用适当的更新技术(例如，具有反向传播的随机梯度下降)来生成更新的模型参数值145。训练引擎116然后可以使用更新的模型参数值145来更新模型参数值170的集群。

训练完成之后，训练系统110可以向车载系统130提供最终的参数值171集合，以用于进行对象分类180和182。例如，训练系统110可以通过与车载系统130的有线或无线连接来提供最终的模型参数值171集合。

图2是用于对象分类的示例系统的示意图。示出了对象分类器神经网络系统202，其能够生成粗略对象分类218和精细对象分类220两者。在一些实施方式中，对象分类器神经网络系统202在自动车辆上实施，例如，作为对象分类器系统134(图1)。在这样的实施方式中，对象分类器神经网络系统202可以确定对车辆附近的对象的分类，诸如行人、车辆或路标。然后，车辆可以至少部分地基于对象分类做出驾驶决策。例如，车辆可以确定相对于其他对象移动多近或多远，或者可以取决于对象的类型或分类来预测对象的不同移动。

对象分类器神经网络系统202可以是深度学习模型，例如，神经网络系统。作为深度学习模型，对象分类器神经网络系统202可以具有许多神经元的层，这些神经元的层对该层的输入执行变换以生成输出。系统202的隐藏层生成由系统202中的后续层处理的输出，并且最后一层生成最终输出，诸如粗略对象分类218。

系统202可以包括与系统200的不同部分相对应的各种“子网”。系统200的每个子网或部分包括一个或多个操作层，以根据子网的一个或多个输入计算子网的一个或多个输出。此外，系统的不同子网或部分可以独立于系统的其他子网或部分而运行。例如，在一些实施方式中，各种通道编码器210a-n是独立于其他编码器210a-n或系统200的任何其他部分来处理输入的子网。此外，系统200可以是纯前馈网络，或者可以包括系统200的一个或多个部分内的递归和/或卷积方面。例如，系统202可以包括循环层，该循环层在一时间段内处理感兴趣对象的表示，以在不仅仅是离散的时间点上跟踪该对象。

对象分类器神经网络系统202通过处理传感器数据的一个或多个通道216a-n来生成对感兴趣对象的对象分类218、220。传感器数据216a-n是基于由各种传感器子系统204a-n捕获的信号来表示对象的测量值的神经网络输入。在自动车辆的背景下，传感器子系统204a-n可以包括例如LIDAR、RADAR、相机和超声波传感器，其使用传感器信号来捕获关于自动车辆周围环境中的条件的信息。每个传感器子系统204a-n通常被配置为基于使用不同的传感器子系统来测量环境的不同方面来监视车辆环境的不同方面，诸如环境的不同区域或环境的不同属性。

在一个示例中，每个传感器子系统204a-n表示不同类型的传感器(例如，LIDAR、RADAR、相机、超声波传感器)和对应的传感器数据的通道216a-n提供表示来自特定类型的传感器的感兴趣对象的神经网络输入。因此，传感器子系统204a可以是LIDAR，其中第一通道传感器数据216a是表示集中于感兴趣对象的LIDAR数据的神经网络输入，而传感器子系统204b可以是相机系统，其中第二通道传感器数据216b是表示由相机捕获的一个或多个图像的神经网络输入。在其他示例中，传感器子系统204a-n中的一些或全部是相同类型的，但是在其他方面不同，诸如它们各自的覆盖区域(例如，前置摄像头与后置摄像头)。

由分类器神经网络系统202处理的传感器数据的多个通道216a-n表示在同一时间(例如，在车辆周围的单次扫描期间)或前后捕获的对象的测量值。在一些实施方式中，传感器子系统204a-n或另一系统(例如，传感器子系统204a-n和对象分类器神经网络系统202之间的接口)裁剪传感器数据216a-n以隔离与感兴趣对象相对应的传感器数据216a-n的片(patch)(即，部分)。例如，从与感兴趣对象相对应的LIDAR测量值导出的点云的一部分可以被提取以移除其他对象和背景特征，并且在其他对象和背景特征作为输入提供给对象分类器神经网络系统202之前，可以裁剪显示对象的图像的一部分以去除它们。

对象分类器神经网络系统202包括编码器部分206和解码器部分208。编码器部分206包括通道编码器集合210a-n，每个通道编码器被配置为处理对应的传感器数据的通道216a-n，以生成传感器数据216a-n的替代表示217a-n。在一些实施方式中，替代表示217a-n是相应通道编码器210a-n的最后层的输出，并且表示可以由解码器部分208和/或外部精细对象分类器222a-n用来生成对象的预测分类的特征。在解码器部分208或外部精细对象分类器222a-n一起处理多个替代表示217a-n以生成对象类型分类之前，通道编码器210a-n可以独立地处理每个传感器数据的通道216a-n。通道编码器210a-n可以具有彼此相同或不同的架构，并且每个可以包括将特定传感器数据的通道216a-n转换成对应替代表示217a-n的多层操作。

对象分类器神经网络系统202的解码器部分208被配置为处理替代表示217a-n，以生成对感兴趣对象的粗略对象分类218和精细对象分类220。粗略对象分类218指示感兴趣对象的主要类别，而精细对象分类220指示感兴趣对象的次要类别。例如，对在车辆附近检测到的人的粗略对象分类218可以是“行人”，并且对人的精细对象分类220可以是“成人”或“儿童”。在另一示例中，对附近车辆的粗略对象分类218可以指示它是“车辆”，而精细对象分类220可以指示车辆的类型，诸如“校车”、“紧急车辆”或“轿车。”粗略对象分类218可以从预定义的可能分类集合中选择，诸如“车辆”、“行人”、“骑自行车的人”、“摩托车手”、“标志”、“背景”和“动物”。其他粗略对象分类218集合也是可能的。

可以为一个、一些或所有粗略对象分类218定义精细对象分类220，但是粗略对象分类218集合内的主要类别不一定都具有次要类别。系统202可以以任何合适的形式提供粗略对象分类218和精细对象分类220。例如，系统202可以基于每个可能的分类的置信度或概率分数，输出对感兴趣对象的单个最可能的粗略对象分类218和单个最可能的精细对象分类220的指示。在其他实施方式中，分类218和220可以被表示为表示感兴趣对象在每个可能的对象类型分类中的相对可能性的分布(例如，置信度或概率分数的分布)。

解码器部分208包括粗略对象分类器212和一个或多个精细对象分类器214a-n。粗略对象分类器212处理各种传感器数据的通道216a-n的替代表示集合217a-n，以生成粗略对象分类218。通常，粗略对象分类器212的输入层被连接到所有通道编码器210a-n的相应输出层，使得粗略对象分类器212处理来自所有通道的所有替代表示217a-n。

精细对象分类器214a-n处理特定传感器数据通道216a-n的替代表示集合217a-n，以生成一个或多个精细对象分类220。粗略对象分类器212和精细对象分类器214a-n可以是独立的子网，或者可以部分互连。在一些实施方式中，每个精细对象分类器214a-n的输入层仅被连接到通道编码器210a-n的输出层的子集，而不是全部，使得精细对象分类器214a-n仅处理替代表示217a-n的子集。此外，精细对象分类器214a-n中的不同分类器可以被连接到通道编码器210a-n的不同子集的输出，并且可以处理替代表示217a-n的不同组合。例如，系统202中的给定精细对象分类器可以处理来自对应传感器通道的、被认为相对于分类器被配置为预测的精细对象分类的类别具有足够的解释或预测能力的替代表示217a-n，但是可以不处理来自其他传感器通道的、不具有足够的解释或预测能力的替代表示217a-n。例如，被配置为预测对象是否是校车的精细对象分类器可以处理来自与来自相机子系统的图像数据相对应的通道的替代表示，而不是来自与来自LIDAR子系统的点云数据相对应的通道的替代表示，因为相机图像可以比点云数据更好地允许分类器区分车辆类型。

在一些实施方式中，系统还可以包括一个或多个外部精细对象分类器222a-n。外部精细对象分类器222a-n可以与对象分类器神经网络系统202分离。外部精细对象分类器222a-n也可以是神经网络，或者可以实施为其他类型的模型，诸如决策树、支持向量机(support vector machine，SVN)、随机森林或回归模型。尽管系统202内的精细对象分类器214a-n和外部精细对象分类器222a-n可以一起使用，但是在许多情况下，当部署在车辆上时，内部精细对象分类器214a-n被从系统中消除或去除，并且仅使用外部精细对象分类器222a-n。外部精细对象分类器222a-n可能是有利的，因为当评估以确定精细对象分类224时，它们可以被实施为紧凑模型，该紧凑模型需要相对较少的存储并且消耗相对较少的计算费用。外部精细对象分类器222a-n可以处理特定的替代表示217a-n，以生成精细对象分类224。在一些实施方式中，像系统202内的精细对象分类器214a-n一样，不同的精细对象分类器222a-n处理替代表示217a-n的不同组合，例如，只有那些被认为相对于要进行的精细对象分类224的类别具有足够的解释或预测能力的替代表示217a-n。替代表示217a-n可以以结构化的方式格式化，例如，作为浮点值的向量或矩阵，以供外部精细对象分类器222a-n进行处理。在一些实施方式中，外部精细对象分类器222a-n可以处理替代表示217a-n之外的附加(辅助)输入，以生成精细对象分类224。辅助输入可以从传感器数据、其他上下文数据、粗略对象分类218或这些的组合中导出。

该系统可以实施不同类型的精细对象分类方案。例如，在一些情况下，为已经针对其定义了次要对象类别的每个主要对象类别提供不同的精细对象分类器214a-n或222a-n。因此，可以为车辆提供第一精细对象分类器214a或222a，并且可以为行人提供第二精细对象分类器214b或222b。在一些情况下，为跨主要对象类别的所有可能的次要对象类别提供单个精细对象分类器214a-n。在其他情况下，每个精细对象分类器214a-n或222a-n是二进制分类器，其生成指示感兴趣对象在特定次要对象类别内的可能性的置信度分数。例如，第一精细对象分类器214a或222a可以指示该对象是否是校车，第二精细对象分类器214b或222b可以指示该对象是否是紧急车辆，第三精细对象分类器214c或222c可以指示该对象是否是成人行人，等等。在一些实施方式中，除了用于预测精细对象分类220或224的替代表示217a-n之外，粗略对象分类218被提供作为精细对象分类器214a-n或222a-n的输入。

图3是用于确定对象(例如，在自动车辆附近检测到的对象)的粗略粒度和精细粒度分类的示例过程300的流程图。阶段306-308由对象分类器神经网络系统执行，诸如分别在图1和图2中描绘的系统134或200。

在阶段302，一个或多个传感器子系统对车辆周围的环境执行扫描，以获得环境的测量值。扫描可以涉及感测关于车辆周围相对于地平面的所有方向上的环境的信息，或者可以涉及感测关于该环境的仅仅一部分的信息。例如，LIDAR系统可以用激光扫描环境，并测量反射光的特性，以生成环境的点云表示。同样，相机可以在车辆的操作期间捕获环境的图像。

在阶段304，系统在传感器数据中识别感兴趣的对象，并且可选地，对对象周围的传感器数据进行裁剪以生成集中于感兴趣的对象而排除环境的其他方面(例如，背景区域或其他对象)的片。在阶段306，每个传感器通道的片被格式化并作为输入提供给对象分类神经网络系统。

在阶段308，对象分类神经网络系统处理传感器数据的片，以生成对传感器数据中表示的对象的粗略对象分类。例如，可以首先使用通道编码器子网络(例如，通道编码器210a-n)彼此独立地对片进行编码，以生成片的替代表示，以及然后替代表示可以由粗略对象分类器(例如，粗略对象分类器212)处理，以生成对对象的粗略对象分类。

在阶段310，利用对象分类神经网络系统内的一个或多个精细对象分类器(例如，分类器214a-n)或者利用一个或多个外部精细对象分类器222a-n来处理传感器数据的片，以生成对传感器数据中表示的对象的精细对象分类。可以在生成粗略对象分类的同时或之后生成精细对象分类。例如，在阶段308由对应通道编码器生成的传感器数据的替代表示可以作为输入提供给一个或多个精细对象分类器(精细对象分类器214a-n或222a-n)，以生成精细对象分类。也就是说，可以通过仅处理来自被认为相对于由给定精细对象分类器214a-n或222a-n做出的(多个)特定精细对象分类具有足够的预测或解释能力的通道(即，被分配给或对应于由特定精细对象分类器做出的(多个)精细对象分类的通道)的传感器数据的替代表示，但不处理来自被认为相对于由给定精细对象分类器214a-n或222a-n做出的(多个)特定精细对象分类不具有足够的预测或解释能力的通道(即，没有被分配给或对应于由特定精细对象分类器做出的(多个)精细对象分类的通道)的传感器数据的替代表示，来生成精细对象分类。因此，第一精细对象分类器可以通过处理来自传感器通道的第一子集的传感器数据的替代表示来生成对对象的精细对象分类，并且第二精细对象分类器可以通过处理来自传感器通道的不同的第二子集的传感器数据的替代表示来生成对对象的精细对象分类。在一些实施方式中，系统通过仅利用与n(例如，1、2或3)个最可能的粗略分类相对应的精细对象分类器来生成精细对象分类来节省计算费用。粗略对象分类、精细对象分类或两者都可以由自动车辆的其他元件处理，例如，为车辆规划操纵(例如，车辆运动的速度或方向的变化)，并且在某些情况下，车辆然后根据规划执行操纵。

图4是用于训练对象分类神经网络系统(例如，分别在图1和图2中描绘的系统134或200)的示例过程400的流程图。过程400可以由训练系统(图1的训练系统110)来执行，并且该训练系统可以包括位于一个或多个位置的一个或多个计算机。训练系统通常被配置为在两个或三个阶段中训练对象分类神经网络系统。在第一阶段期间，分类系统专门或基本上对用粗略对象分类标记的训练数据进行训练，以便优化系统的粗略对象分类器部分。在第一阶段完成时，训练系统执行第二阶段来训练分类系统以进一步生成精细对象分类(并且训练通道编码器以生成表示可以由外部精细对象分类器使用的每个通道的特征的替代表示)。如参考图5所详细解释的，训练系统限制分类系统的哪些部分可以在该阶段被更新，以便减轻系统先前训练的粗略对象分类能力的退化。在可选的第三阶段，使用传感器数据的一个或多个通道的替代表示来训练一个或多个外部精细对象分类器。

在阶段402，训练系统获得对象分类神经网络系统的训练数据集合。训练数据可以包括用于训练分类系统的许多训练样本。此外，训练数据可以包括粗略对象训练数据集合和精细对象训练数据集合。粗略对象集合中的每个训练样本包括：(i)具有表征感兴趣对象的传感器信号(例如，测量值)的传感器数据的一个或多个通道的传感器数据分量，以及(ii)指示感兴趣对象的目标粗略对象分类的粗略对象标签。精细对象集合中的每个训练样本包括：(i)具有表征感兴趣对象的传感器信号(例如，测量值)的传感器数据的一个或多个通道的传感器数据分量和(ii)指示感兴趣对象的目标精细对象分类的精细对象标签。一些训练样本可以包括粗略对象标签和精细对象标签两者，并且可以属于粗略对象集合和精细对象集合两者。指示目标粗略或精细对象分类的标签表示感兴趣对象分类的可接受的“事实”，并且可以通过人工检查、自动地(例如，利用先前训练的分类系统)、或者两者来进行标记。表示不同分类的分布的训练样本被包括在训练集合中，并且各种感兴趣对象被表示在训练样本中。

在阶段404，训练系统在第一阶段中训练对象分类神经网络系统。在第一阶段中，分类系统仅对粗略对象训练数据进行训练，或者为第一阶段选择的至少阈值量(例如，大于90％)的训练样本来自粗略对象训练数据。训练系统可以采用迭代过程来使用机器学习技术(诸如具有反向传播的随机梯度下降)更新对象分类神经网络系统的参数(例如，神经元或感知元的权重和偏差)。特别地，在每次迭代中，对象分类神经网络系统根据系统的当前参数值来处理训练样本，以生成粗略对象分类预测。确定表示系统的输出处的所预测的粗略对象分类和目标粗略对象分类之间的误差的损失，并且训练系统更新系统的参数以减少损失。在一些实施方式中，可以采用批量训练。通常，在第一阶段中，误差可以通过粗略对象分类器和每个通道编码器传播回，以优化系统的粗略对象分类能力。系统的解码器部分内的精细对象分类器通常在第一阶段期间不被训练。该系统可以避免在第一阶段中生成精细对象分类，并且避免在该阶段更新精细对象分类器的参数值。在其他实施方式中，分类系统可以对粗略对象训练数据和精细对象训练数据两者进行训练。

在阶段406，一旦第一阶段完成，训练系统启动训练对象分类神经网络的第二阶段。第二阶段聚焦在训练分类系统，以为精细对象分类进行预测。在第二阶段中，训练系统采用具有训练样本的精细对象训练数据集合，该训练样本包括指示对由训练样本的传感器数据分量表示的感兴趣对象的精细对象分类的标签。

更详细地，图5是表示在第二阶段中的给定训练迭代内执行的操作的示例过程500的流程图。训练系统为该迭代选择精细对象训练样本。在阶段502，根据神经网络系统的当前参数值，用对象分类神经网络系统来处理所选择的样本的传感器数据分量，该当前参数值最初是在第一阶段中基于粗略对象分类训练样本来训练系统而得到的值，并且在随后的迭代中，参数值反映了第一阶段和第二阶段两者中的所有先前训练迭代。通过处理训练样本的传感器数据分量，神经网络系统预测对训练样本中表示的对象的精细对象分类。

在阶段504，训练系统识别与对训练样本的目标精细对象分类相对应的一个或多个传感器通道。例如，训练系统可以访问数据库或其他数据结构，该数据库或其他数据结构为每个可能的精细对象分类存储对应信息，该对应信息将精细对象分类映射或链接到一个或多个传感器通道。然后，训练系统可以通过参考目标精细对象分类的数据库中的对应信息来查找目标精细对象分类的对应传感器通道。在一些实施方式中，如果传感器通道被认为相对于精细对象分类具有足够的预测或解释能力，则传感器通道被映射或链接到精细对象分类以指示对应关系。已经观察到，不同的传感器通道相对于不同的精细对象分类提供不同程度的预测或解释能力。例如，与来自其他传感器通道的数据相比，来自LIDAR传感器通道的点云数据的投影可能对车辆类型之间的差异不太敏感，结果，LIDAR传感器通道针对“校车”精细对象分类可能具有相对较小的预测或解释能力，因为其形状可能类似于在驾驶时经常遇到的卡车和其他车辆。另一方面，在相机传感器通道中表示的图像数据相对域“校车”精细对象分类可能具有相对较高的预测或解释能力，因为图像可能显示颜色变化或与区分“校车”和其他类型的车辆高度相关的其他特征。因此，可以记录将相机传感器通道链接或映射到“校车”精细对象分类的对应信息，以指示它们之间的对应关系(correspondence)，而在LIDAR传感器通道和“校车”精细对象分类之间没有记录对应信息(或负对应信息)。通常，特定传感器通道和精细对象分类之间的对应关系可以基于设想(assumption)、假设(hypotheses)或经验数据(例如，基于统计分析)，并且可以手动地或通过算法确定。可以在训练之前生成并存储对应信息。不同的精细对象分类可以被分配不同的对应传感器通道，并且不同数量的对应传感器通道可以被分配给不同的精细对象分类。

在阶段506，训练系统将训练样本的传感器数据分量提供给对象分类器神经网络系统，然后对象分类器神经网络系统处理传感器数据分量，以根据系统的神经网络参数的当前值生成预测的精细对象分类和可选地生成预测的粗略对象分类。如果仅预测精细对象分类，则系统可以仅利用与对训练样本的目标精细对象分类相对应的通道编码器来处理传感器数据的通道，然后与目标精细对象分类相对应的精细对象分类器处理来自通道编码器的替代表示，以生成精细对象分类。如果也预测粗略对象分类，则系统可以用所有对应的通道编码器来处理所有可用传感器数据通道，以生成每个通道的替代表示，粗略对象分类器处理所有替代表示，以生成预测的粗略对象分类，并且精细对象分类器仅处理与目标精细对象分类相对应的传感器通道的替代表示，以生成预测的精细对象分类。然后，训练系统可以确定表示目标精细对象分类和预测的精细对象分类之间的误差的损失。并且，如果粗略对象预测被确定，则系统可以确定表示目标粗略对象分类和预测的粗略对象分类之间的误差的附加损失。

在阶段508，训练系统“冻结(freezes)”与传感器通道相对应的对象分类神经网络系统的通道编码器的参数的值，该传感器通道不对应于(并且不被分配给)训练样本的目标精细对象分类，例如，没有表现出相对于目标精细对象分类至少阈值预测或解释能力的传感器通道。例如，在推断阶段期间不用于生成目标精细对象分类的通道编码器的参数可以被冻结，而在推断阶段期间用于生成精细对象分类的通道编码器的参数可以保持自由。通过冻结这些参数的值，它们对于当前训练迭代是固定的，使得当对象分类神经网络系统被更新以减少在阶段506确定的损失时，冻结的值不会也不能从它们的当前值改变(尽管如果它们对应于其他训练迭代的训练样本的目标精细对象分类，它们可以在其他训练迭代中被更新)。冻结不对应的通道编码器内的参数的值通过防止参数的值的改变来改善对象分类神经网络系统的训练，参数的值的改变可能会降低系统进行粗略对象分类的性能。换句话说，因为不对应的通道编码器可能不影响系统进行精确的精细对象分类的能力，所以在当前的训练迭代中不调整它们，因为调整可能有降低系统进行精确的粗略对象分类的能力的风险。此外，通过冻结一些值，训练可以更有效，并且可以更快地执行，因为不是所有的参数都在每次迭代中被更新。在一些实施方式中，粗略对象分类器的参数的值可以被冻结，或者在其他实施方式中，可以是自由的(即，非冻结的和经受更新的)。

在阶段510，训练系统基于在阶段506确定的损失来调整对象分类神经网络系统的自由参数。例如，该系统可以采用具有反向传播的随机梯度下降来通过调整对象分类神经网络系统的自由参数的值优化损失函数，该损失函数并入上述在阶段506的损失。在此训练迭代中，不调整冻结参数的值。损失函数可以包括基于预测的和目标精细对象分类之间的误差的第一损失分量，以及可选地，基于预测的和目标粗略对象分类之间的误差的第二损失分量。

为了举例说明，图6A和图6B描绘了在不同的第二阶段训练迭代期间对象分类神经网络系统202的两个视图。在图6A中，传感器数据通道216b和216n已经被识别为与特定训练迭代中的训练样本的目标精细对象分类相对应。如此，在该迭代中，对应的通道编码器210b和210n的参数的值可以被自由调整。然而，用于不对应的传感器数据通道216a和216c的通道编码器210a和210c被冻结，并且在该迭代中不能调整它们的参数的值。相比之下，图6B示出了另一示例，其中传感器数据通道216a、216b和216n已经被识别为与不同训练迭代中的训练样本的目标精细对象分类相对应。如此，在该迭代中，对应的通道编码器210a、210c和210n的参数的值可以被自由调整。然而，用于不对应的传感器数据通道216b的通道编码器210b被冻结，并且其参数的值被阻止在该迭代中被调整。

再次参考图4，一旦第二训练阶段完成，训练系统可选地训练一个或多个外部精细对象分类器222a-n(阶段408)。外部分类器222a-n可以基于训练样本来训练，训练样本具有表示由对象分类器神经网络系统的通道编码器生成的传感器数据的替代表示的输入分量和任何辅助输入。训练样本还可以具有指示目标精细对象分类的标签。可以采用任何合适的训练过程，这取决于用于实施外部分类器222a-n的模型的类型。例如，迭代二分法或卡方自动交叉检验算法可以用于训练决策树类型的外部分类器。

在阶段410，对象分类神经网络系统和可选的外部精细对象分类器被部署用于自动车辆(阶段408)。在一些实施方式中，部署系统涉及通过适当的网络(例如，宽带蜂窝网络)将网络和外部分类器的所训练的参数的值发送到自动车辆。然后，车辆可以将参数加载到实施模型架构的系统上，然后该系统可以用于确定对在车辆附近检测到的对象的粗略和精细对象分类。粗略对象分类、精细对象分类或两者可以由自动车辆的其他元件处理，例如，为车辆规划操纵(例如，车辆运动的速度或方向的变化)，并且在某些情况下，车辆然后基于规划执行操纵。

图4至图6已经描述了如何在两个阶段中训练对象分类神经网络系统，这两个阶段分别聚焦于训练粗略对象分类器和一个或多个精细对象分类器。可替代地，可以在单个阶段中训练该系统，在该单个阶段中联合训练解码器部分中的粗略对象分类器和精细对象分类器。在这样的实施方式中，在每次训练迭代期间，系统可以处理训练样本的传感器数据分量，以生成粗略对象分类和精细对象分类两者。该系统可以分别确定预测的和目标粗略和精细对象分类之间的损失，并且该损失可以被加权，并被用于使用机器学习技术(诸如具有反向传播的随机梯度下降)来更新神经网络层的参数。在粗略对象分类器与精细对象分类器联合训练的一些实施方式中，网络的部分的参数的值可以保持固定，并且网络的其他部分的参数的值可以被调整。网络的保持固定的部分和被调整的部分可以基于对训练样本的精细对象分类的标签而变化。例如，用于精细对象分类的对应的通道编码器可以基于训练损失来调整，而不对应通道编码器可以保持固定。

本说明书中描述的主题和功能操作的实施例可以在数字电子电路中、在有形体现的计算机软件或固件中、在包括本说明书中公开的结构及其结构等同物的计算机硬件中、或者在它们中的一个或多个的组合中实施。本说明书中描述的主题的实施例可以实施为一个或多个计算机程序，即，编码在有形非暂时性存储介质上的计算机程序指令的一个或多个模块，用于由数据处理装置执行或控制数据处理装置的操作。计算机存储介质可以是机器可读存储设备、机器可读存储基底、随机或串行存取存储设备、或者它们中的一个或多个的组合。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如，机器产生的电、光或电磁信号，产生该信号以对信息进行编码，以便发送到合适的接收器装置，以由数据处理装置执行。

术语“数据处理装置”是指数据处理硬件，并且涵盖用于处理数据的所有种类的装置、设备和机器，包括例如可编程处理器、计算机或多个处理器或计算机。该装置也可以是或进一步包括现成的或定制的并行处理子系统，例如，GPU或另一种类的专用处理子系统。该装置也可以是或进一步包括专用逻辑电路，例如，FPGA(field programmable gatearra，现场可编程门阵列)或ASIC(application-specific integrated circuit，专用集成电路)。除了硬件之外，该装置可以可选地包括为计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。

也可以被称为或描述为程序、软件、软件应用、应用程序(app)、模块、软件模块、脚本或代码的计算机程序可以以任何形式的编程语言编写，包括编译或解释语言、声明或过程语言，并且它可以以任何形式部署，包括作为独立程序或作为模块、组件、子例程或适合在计算环境中使用的其他单元。程序可以但不是必须对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中，例如，存储在标记语言文档中、存储在专用于所讨论的程序的单个文件中或存储在多个协调文件(例如，存储一个或多个模块、子程序或部分代码的文件)中的一个或多个脚本。计算机程序可以被部署为在一台计算机上或位于一个站点或分布在多个站点并通过数据通信网络互连的多台计算机上执行。

如本说明书中所使用的，“引擎”或“软件引擎”是指提供不同于输入的输出的软件实施的输入/输出系统。引擎可以是编码的功能块，诸如库、平台、软件开发工具包(“software development kit，SDK”)或对象。每个引擎可以在包括一个或多个处理器和计算机可读介质的任何适当类型的计算设备上实施，例如，服务器、移动电话、平板电脑、笔记本电脑、音乐播放器、电子书阅读器、笔记本电脑或台式电脑、PDA、智能手机或其他固定或便携式设备。另外，两个或更多个引擎可以在相同的计算设备上或者在不同的计算设备上实施。

本说明书中描述的过程和逻辑流程可以由一个或多个可编程计算机执行，该可编程计算机执行一个或多个计算机程序，以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路(例如，FPGA或ASIC)来执行，或者由专用逻辑电路和一个或多个编程计算机的组合来实施。

适于执行计算机程序的计算机可以基于通用或专用微处理器或两者，或者任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行或运行指令的中央处理单元和存储指令和数据的一个或多个用于存储器设备。中央处理单元和存储器可以由专用逻辑电路来补充或并入专用逻辑电路。通常，计算机还将包括或可操作地耦合到用于存储数据的一个或多个大容量存储设备(例如，磁盘、磁光盘或光盘)，以从其接收数据或向其传送数据，或两者兼有。然而，计算机不需要这样的设备。此外，计算机可以嵌入到另一设备中，例如，移动电话、个人数字助理(personal digital assistant，PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(Global Positioning System，GPS)接收器或便携式存储设备(例如，通用串行总线闪存驱动器(universal serial bus，USB))，仅举几个示例。

适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，例如，包括半导体存储器设备，例如，EPROM、EEPROM和闪存设备；磁盘，例如，内部硬盘或可移动磁盘；磁光盘；以及CD-ROM和DVD-ROM磁盘。

为了提供与用户的交互，本说明书中描述的主题的实施例可以在计算机上实施，该计算机具有显示设备(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)，用于向用户显示信息；以及键盘和定点设备(例如，鼠标、轨迹球或存在敏感显示器或用户可以向计算机提供输入的其他表面)。也可以使用其他种类的设备来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感官反馈，例如，视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声音、语音或触觉输入。另外，计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互；例如，通过响应于从网络浏览器接收的请求将网页发送到用户设备上的网络浏览器。此外，计算机可以通过向个人设备(例如，智能手机)发送文本消息或其他形式的消息，运行消息传递应用，并从用户接收响应消息来与用户交互。

虽然本说明书包含许多具体的实施细节，但是这些不应被解释为对任何发明的范围或对所要求保护的范围的限制，而是对特定于特定发明的特定实施例的特征的描述。本说明书中在分离实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。相反，在单个实施例的上下文中描述的各种特征也可以在多个实施例中分离实施或者在任何合适的子组合中实施。此外，尽管特征可以在上文中被描述为在某些组合中起作用，并且甚至最初被如此要求保护，但是在一些情况下，来自所要求保护的组合的一个或多个特征可以从该组合中删除，并且所要求保护的组合可以针对子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描述了操作，但是这不应该理解为要求以所示的特定顺序或依序执行这些操作，或者要求执行所有示出的操作，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应该被理解为在所有实施例中都需要这种分离，并且应该理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中或者封装到多个软件产品中。

已经描述了主题的特定实施例。其他实施例在所附权利要求的范围内。例如，权利要求中列举的动作可以以不同的顺序执行，并且仍然获得期望的结果。作为一个示例，附图中描述的过程不一定需要所示的特定顺序或依序来实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。

Claims

1.一种用于训练能够生成由车辆上的一个或多个传感器获取的数据中表示的对象的粗略对象分类和精细对象分类的对象分类器神经网络的方法，所述方法包括：

在第一阶段中，用第一训练数据集合来训练对象分类器神经网络，第一训练数据集合包括第一多个训练样本，第一训练数据集合中的每个训练样本用粗略对象分类来加标签；以及

在第一阶段完成之后的第二阶段中，用第二训练数据集合来训练所述对象分类器神经网络，第二训练数据集合包括第二多个训练样本，第二训练数据集合中的每个训练样本用精细对象分类来加标签，

其中，在第二阶段中训练所述对象分类器神经网络包括：对于每个训练样本，调整所述对象分类器神经网络的多个通道编码器子网络中的被分配给由所述训练样本的标签指示的精细对象分类的一个或多个通道编码器子网络的参数，而不调整所述多个通道编码器子网络中的未被分配给由所述训练样本的标签指示的精细对象分类的一个或多个通道编码器子网络的参数，其中，所述多个通道编码器子网络中的每一个被配置为处理由车辆上的一个或多个传感器获取的传感器数据的不同通道。

2.根据权利要求1所述的方法，其中，在第二阶段中训练所述对象分类器神经网络包括：根据存储的映射并基于由训练样本的标签指示的精细对象分类，识别其参数将被调整的被分配给由所述标签指示的精细对象分类的一个或多个通道编码器子网络。

3.根据权利要求1-2中任一项所述的方法，其中，所述多个通道编码器子网络中的被分配给由所述训练样本的标签指示的精细对象分类的所述一个或多个通道编码器子网络被配置为生成输出，所述输出将在推理阶段期间被处理以生成由所述训练样本的标签指示的精细对象分类。

4.根据权利要求1-2中任一项所述的方法，其中，所述多个通道编码器子网络中的未被分配给由所述训练样本的标签指示的精细对象分类的一个或多个通道编码器子网络未被配置成生成将在推理阶段期间被处理以生成由所述训练样本的标签指示的精细对象分类的输出，其中，所述方法包括：冻结所述多个通道编码器子网络中的未被配置为生成将在推断阶段期间被处理以生成由所述训练样本的标签指示的精细对象分类的输出的一个或多个通道编码器子网络的参数。

5.根据权利要求1-2中任一项所述的方法，还包括训练与所述对象分类器神经网络分离的一个或多个精细对象分类器，其中，所述一个或多个精细对象分类器被配置为处理编码的传感器数据的一个或多个通道以生成精细对象分类，所述编码的传感器数据的一个或多个通道由所述对象分类器神经网络内的对应通道编码器子网络生成。

6.根据权利要求1-2中任一项所述的方法，其中，当来自第一多个训练样本的至少最小数量的训练样本已经利用所述对象分类器神经网络被处理时，或者当所述对象分类器神经网络在生成对验证样本集合的粗略对象分类中达到最小性能标准时，训练所述对象分类器神经网络的第一阶段完成。

7.根据权利要求1-2中任一项所述的方法，其中，所述对象分类器神经网络位于自动车辆上，并且所述粗略对象分类从包括车辆、行人、骑自行车的人、骑摩托车的人、标志、背景或动物中的至少一个的组中被选择。

8.根据权利要求7所述的方法，其中，所述精细对象分类从包括校车、急救车辆、客车、成人或儿童中的至少一个的组中被选择。

9.根据权利要求1-2中任一项所述的方法，还包括：

获得由所述车辆上的一个或多个传感器获取的传感器数据的多个通道，传感器数据的每个通道表示特定对象的不同测量值集合，其中，所述多个通道编码器子网络中的每一个被配置成处理所获得的传感器数据的多个通道中的不同通道；以及

在完成第二阶段之后，用对象分类器神经网络处理所述传感器数据的多个通道，以确定特定对象的粗略对象分类或精细对象分类中的至少一个。

10.根据权利要求9所述的方法，其中，获取传感器数据的多个通道的所述一个或多个传感器在自动车辆上，并且所述特定对象是所述自动车辆的感测范围内的对象，并且所述传感器数据的多个通道包括表示来自所述自动车辆上的光检测和测距(LIDAR)子系统的测量值的第一通道和表示来自所述自动车辆上的相机的测量值的第二通道。

11.根据权利要求9所述的方法，其中，获取传感器数据的多个通道的所述一个或多个传感器在自动车辆上，并且所述方法还包括使用特定对象的粗略对象分类或精细对象分类中的至少一个来影响自动车辆的驾驶决策。

12.根据权利要求1所述的方法，其中，所述对象分类器神经网络被训练为由自动车辆使用，以用于生成由自动车辆上的一个或多个传感器获取的数据中表示的对象的粗略对象分类和精细对象分类。

13.一种用于训练能够生成由车辆上的一个或多个传感器获取的数据中表示的对象的粗略对象分类和精细对象分类的对象分类器神经网络的系统，所述系统包括：

一个或多个处理器；以及

一个或多个计算机可读介质，其上存储有指令，所述指令在由所述一个或多个处理器执行时，使得执行操作，所述操作包括：

在第一阶段完成之后的第二阶段中，用第二训练数据集合来训练对象分类器神经网络，第二训练数据集合包括第二多个训练样本，第二训练数据集合中的每个训练样本用精细对象分类来加标签，

14.根据权利要求13所述的系统，其中，在第二阶段中训练所述对象分类器神经网络包括：根据存储的映射并基于由训练样本的标签指示的精细对象分类，识别其参数将被调整的被分配给由所述标签指示的精细对象分类的一个或多个通道编码器子网络。

15.根据权利要求14所述的系统，其中，所述多个通道编码器子网络中的被分配给由所述训练样本的标签指示的精细对象分类的所述一个或多个通道编码器子网络被配置为生成输出，所述输出将在推理阶段期间被处理以生成由所述训练样本的标签指示的精细对象分类。

16.根据权利要求14所述的系统，其中，所述多个通道编码器子网络中的未被分配给由所述训练样本的标签指示的精细对象分类的一个或多个通道编码器子网络未被配置成生成将在推理阶段期间被处理以生成由所述训练样本的标签指示的精细对象分类的输出，其中，所述操作还包括：冻结所述多个通道编码器子网络中的未被配置为生成将在推断阶段期间被处理以生成由所述训练样本的标签指示的精细对象分类的输出的一个或多个通道编码器子网络的参数。

17.根据权利要求13-16中任一项所述的系统，其中，所述操作还包括：训练与所述对象分类器神经网络分离的一个或多个精细对象分类器，其中，所述一个或多个精细对象分类器被配置为处理编码的传感器数据的一个或多个通道以生成精细对象分类，所述编码的传感器数据的一个或多个通道由所述对象分类器神经网络内的对应通道编码器子网络生成。

18.根据权利要求13-16中任一项所述的系统，其中，当来自第一多个训练样本的至少最小数量的训练样本已经利用所述对象分类器神经网络被处理时，或者当所述对象分类器神经网络在生成对验证样本集合的粗略对象分类中达到最小性能标准时，训练所述对象分类器神经网络的第一阶段完成。

19.根据权利要求13-16中任一项所述的系统，其中，所述对象分类器神经网络位于自动车辆上，并且所述粗略对象分类从包括车辆、行人、骑自行车的人、骑摩托车的人、标志、背景或动物中的至少一个的组中被选择。

20.根据权利要求13-16中任一项所述的系统，其中，所述精细对象分类从包括校车、急救车辆、客车、成人或儿童中的至少一个的组中被选择。

21.根据权利要求13-16中任一项所述的系统，其中，所述操作还包括：

22.一种或多种非暂时性计算机可读介质，所述非暂时性计算机可读介质上存储有指令，所述指令在由一个或多个处理器执行时，使得执行用于训练能够生成由车辆上的一个或多个传感器获取的数据中表示的对象的粗略对象分类和精细对象分类的对象分类器神经网络的操作，所述操作包括：