CN113261009A

CN113261009A - 分层机器学习网络架构

Info

Publication number: CN113261009A
Application number: CN201980087531.XA
Authority: CN
Inventors: K·戈埃尔; S·塔里克
Original assignee: Zoox Inc
Current assignee: Zoox Inc
Priority date: 2019-01-02
Filing date: 2019-12-19
Publication date: 2021-08-13
Also published as: US11450117B2; WO2020142247A1; US20210216793A1; EP3906501A1; US20200210721A1; US10963709B2; JP2022516288A

Abstract

本文讨论的技术可以包括细化被检测为在传感器数据中表示的对象的分类。例如，细化分类可以包括确定对象的子分类。

Description

分层机器学习网络架构

背景技术

计算机视觉用于许多应用，例如，操作自主车辆、出于安全目的标识个人等。计算机视觉技术可以包括构建从图像标识显著部分的软件组件、以计算机可以用来进行进一步操作的形式向计算机表示图像的显著部分和/或跟踪对象。然而，相对稀有的对象和/或行为可能混淆计算机视觉系统，从而导致计算机视觉系统不正确地分类和/或无法检测对象。例如，稀有的对象可以包括正在推或携带大型对象的行人、玩滑板的人、使用高跷的行人、使用轮椅的个人等。

附图说明

参考附图描述了具体实施方式。在附图中，附图标记的最左边的数字标识该附图标记首次出现的附图。在不同附图中的相同的附图标记指示相似或相同的项目。

图1示出了描绘自主车辆在环境中检测在传感器数据中表示的多个对象的示例场景。

图2示出了第一机器学习模型的示例架构的框图。

图3描绘了用于改进计算机视觉的准确度和/或改进感知系统的可训练性的示例机器学习模型架构的框图。

图4示出了用于确定在传感器数据中表示的对象的子分类的示例过程的流程图。

图5示出了用于训练和/或使用子类机器学习(ME)模型的示例系统的框图。

具体实施方式

本文讨论的技术可以通过例如增加对象检测的准确度和/或增加机器学习(ME)模型的可训练性来改进计算机视觉。可训练性是对ML模型可以以高置信度对真实世界建模的程度(例如，由ML模型确定的概率，其指示ML模型的输出准确地对真实世界建模和/或匹配地面真值(ground truth)的可能性)和/或训练ML模型以准确地且以高置信度对真实世界进行建模的难度的指示。

本文讨论的技术可以包括ML模型结构，其增加ML模型的准确度并增加ML模型的可训练性(例如，降低训练方法的复杂度以实现满足或超过阈值(例如，98％、99％、99.999％)的准确度和/或置信度)。技术可以包括使用第一ML模型从传感器数据(例如，图像、光检测和测距(LIDAR)传感器数据、RADAR传感器数据)中检测对象。第一ML模型可以接收传感器数据，并输出与对象相关联的分类和/或与传感器数据中的由对象的表示占据的一部分相关联的感兴趣区域(ROI)。分类可以表示对象的一般分类，例如，“行人”、“车辆”、“骑行者”、“路标”、“动物”、“交通障碍”(例如，锥标、屏障)等。ROI可以是标识传感器数据的一部分的任何方式，ML模型指示该部分为对应于对象的存在。例如，ROI可以包括：指示被标识为与检测到的对象(例如，“边界框”)相关联的像素的坐标、标识对应于检测到的对象的像素的掩码、LIDAR点云的点等。

技术可以包括接收分类，并至少部分地基于分类从多个子类ML模型之中选择子类ML模型。选择子类ML模型可以包括确定一个或多个特征图的子集以将其提供给子类ML模型作为输入。在一些示例中，每个子类ML模型可以与不同的分类相关联，但是应当理解，在另外的或替代示例中，两个子类ML模型可以共享公共分类。例如，第一子类ML模型可以与“行人”分类相关联，第二子类ML模型可以与“车辆”分类相关联，等等。因此，如果第一ML模型输出“行人”分类，则技术可以包括选择第一子类ML模型。在一些示例中，选择组件可以至少部分地基于第一分类向第一子类ML模型提供第一子集，并且至少部分地基于第二分类向第二子类ML模型提供第二子集。这种选择可以通过逻辑语句(例如，switch、if-then等)进行、作为模型中的池化计算的一部分进行、作为另一子网络或其他方式进行。

在一些示例中，第一ML模型可以另外地或可替代地输出一个或多个特征图。例如，一个或多个特征图可以包括实例分割特征图、语义分割特征图、检测特征图等。实例分割特征图可以标识图像中的不同对象的离散表示和/或语义分割可以标识与图像中的对象的表示相关联的语义标签，以及提供用于区分相同语义分类的两个对象的唯一标识。“分割”可以包括传感器数据的离散部分的掩码和/或其他标识。例如，在传感器数据包括图像的情况下，分割可以标识图像中的与检测、标签等相关联的像素；在传感器数据包括LIDAR点云的情况下，分割可以包括点云的点的至少一个子集的标识；等等。

至少部分地基于选择子类ML模型，技术可以另外地或可替代地包括提供第一ML模型的输出的至少一部分作为对选定的子类ML模型的输入。例如，技术可以包括至少部分地基于由第一模型生成的ROI来裁剪一个或多个特征图和/或对第一模型的输入，并且将裁剪后的(多个)特征图和/或ROI提供给选定的子类ML模型。选定的子类ML模型然后可以至少部分地基于裁剪后的(多个)特征图和/或ROI来评估子类ML模型，由此生成与在传感器数据中检测到的对象相关联的子分类和/或概率。

例如，如果第一ML模型生成了与在传感器数据中检测到的对象相关联的一般分类“行人”，则技术可以包括选择与分类“行人”相关联的第一子类ML模型。该子类ML模型可以被配置为尝试标识与对象相关联的“行人”的子分类。例如，“行人”的潜在子类可以包括诸如“推/拉对象的行人”、“拿着对象的行人”、“轮式交通工具上的行人”、“轮椅上的个人”等之类的子类。

在一些示例中，可以从第一ML模型接收分类和第一概率，并且可以从选定的子类ML模型接收第二概率和/或子分类。技术可以包括确定第二概率是否满足或超过概率阈值。如果第二概率满足或超过概率阈值，则技术可以包括输出与关联于对象的输出相关联的子分类(例如，输出可以指示感知系统已经从在感知系统处接收到的传感器数据中检测到对象)。在一些示例中，输出可以包括特征图、ROI等中的一个或多个的至少一部分。

如果第二概率小于概率阈值，则技术可以包括确定第一概率是否满足或超过概率阈值，并在确定第一概率满足或超过概率阈值时输出与对象的检测相关联的分类。在一些示例中，如果第一概率小于概率阈值，则可以首先不选择子类ML模型，从而无需确定第一概率是否满足或超过概率阈值。在这样的示例中，技术可以包括确定第二概率小于概率阈值，并且输出与对象的检测相关联的分类。

在另外的或替代示例中，技术可以包括与第一ML模型相关联的第一概率阈值以及与子类ML模型相关联的第二概率阈值。在一些示例中，第一概率阈值可以大于第二概率阈值，但是在另外的或替代示例中，第一概率阈值可以等于或小于第二概率阈值。

在一些示例中，技术可以另外地或可替代地包括通过将损失反向传播通过子类ML模型和/或第一ML模型来训练选定的子类ML模型和/或第一ML模型(例如，针对与子类ML模型相关联的分类)。在一些示例中，可以针对由子类ML模型生成的子类别和/或概率和/或由第一ML模型生成的分类、概率、一个或多个特征图和/或ROI对损失进行反向传播。在一些示例中，可以针对第一ML模型(例如，至少部分地基于指定ROI和/或分类的地面真值)计算第一损失，并且可以针对子类ML模型(例如，至少部分地基于指定分类和/或子分类的地面真值)计算第二损失。在其中使用多个模型的这些示例中，可以使用第二损失来训练子类ML模型和/或可以至少部分地基于反向传播第一损失和/或第二损失来训练第一ML模型(即，端到端地训练模型)。反向传播第二损失以训练第一ML模型还可以改善第一ML模型的准确度。在其中使用单个模型(例如，神经网络)的其他示例中，模型可以使用一个或多个损失并对损失进行反向传播以进行改善。

本文描述的技术可以通过增加对象可以被分类的特异性和/或增加由与对象检测相关联的第一ML模型和/或子类ML模型生成的置信度分数来改进对象的检测的准确度。此外，本文讨论的技术以在没有本文讨论的技术的情况下可能无法实现的方式微调对第一ML模型的训练。例如，从(多个)子类ML模型通过第一ML模型反向传播损失可以进一步改进由第一ML模型确定的分类的置信度和/或准确度(同时也改进(多个)子类ML模型的置信度和/或准确度)。此外，即使在稀疏训练数据可用时，本文讨论的技术也可以针对“稀有”类型的对象实现令人满意的准确度(例如，大于95％或98％的准确度)。例如，针对客运车辆可用的训练数据的量可能远超过针对轮椅上的个人、使用高跷的个人等可用的训练数据的量。

本文讨论的技术可以改进集成了本文讨论的技术的(多个)系统的安全性。例如，通过将本文讨论的技术实现为自主车辆的子系统，自主车辆可以更安全和/或更高效地操作。技术可以包括至少部分地基于子类来控制自主车辆的操作，和/或如果与子类相关联的概率小于概率阈值，则恢复为至少部分地基于一般分类来控制自主车辆。

示例场景

图1示出了包括自主车辆102的示例场景100，该自主车辆102从由一个或多个传感器收集到的传感器数据检测自主车辆周围环境中的多个对象。在一些实例中，自主车辆102可以是被配置为根据美国国家公路交通安全管理局发布的5级分类操作的自主车辆，该5级分类描述了能够在整个行程中执行所有安全关键功能的车辆，其中不期望驾驶员(或乘员)在任何时候控制车辆。然而，在其他示例中，自主车辆102可以是具有任何其他级别或分类的完全或部分自主车辆。预期本文讨论的技术可以不仅仅应用于机器人控制，例如，用于自主车辆。例如，本文讨论的技术可以应用于视频游戏、制造、增强现实等。

根据本文讨论的技术，自主车辆102可以从自主车辆102的(多个)传感器104接收传感器数据。例如，传感器数据可以包括位置信号(例如，GPS信号)、惯性信号(例如，加速度计信号、陀螺仪信号等)、磁力计信号、车轮编码器信号、速度计信号、累积LIDAR和/或RADAR点的点云、图像(或多个图像)、音频信号和/或生物统计或其他环境信号等。例如，自主车辆102可以从(多个)传感器104接收图像106。为了方便起见，本文的讨论主要讨论图像，但是预期这些技术可以应用于离散地表示对象的任何传感器数据(例如，LIDAR和/或RADAR点云，其包括表示对象的点)。

在一些示例中，自主车辆可以包括(多个)计算设备108，这些计算设备108可以包括感知引擎110和/或规划器112。感知引擎110可以包括一个或多个ML模型和/或其他计算机可执行指令，这些计算机可执行指令用于根据从自主车辆102的环境收集到的传感器数据来检测、标识、分割、分类和/或跟踪对象。在一些实例中，感知引擎110可以进行以下操作：从自主车辆102的(多个)传感器104接收传感器数据；根据传感器数据来确定感知数据；并且将感知数据发送到规划器112，以供规划器112使用来在全局地图和/或局部地图上定位自主车辆102的位置；确定一个或多个轨迹；控制自主车辆102的运动以穿越路径或路线；和/或以其他方式控制自主车辆102的操作，但是任何这种操作可以在各种其他组件中执行(例如，可以由未示出的定位引擎执行定位)。在一些实例中，感知数据可以包括与从传感器数据检测到的对象相关联的ROI和/或一般分类。

在所示示例中，自主车辆102可以接收图像106(和/或其他传感器数据)，图像106包括车辆116、多个骑行者、多个行人、多个路标对象和各种不同的环境对象(例如，道路、人行道、树木、建筑物)的表示。感知引擎110可以至少部分地基于检测到在图像106中表示的车辆116来生成ROI 118。在所示示例中，ROI 118是边界框，但是也预期了用于标识ROI的其他技术。图1另外地描绘了可以由感知引擎110生成的针对可以由感知引擎110检测到的不同对象的多个其他ROI，但是，为了简单和清楚起见，这些ROI没有被全部标记。例如，其他ROI标识骑行者、另一车辆和交通路标，但是可以理解，图像(和/或其他传感器数据)的另外的或替代部分可以由感知引擎110检测。

在一些示例中，感知引擎110可以另外地或可替代地通过第一ML模型确定对象的一般分类。例如，可以训练第一ML模型以输出多个一般分类之中的与由ML模型确定的最高概率相对应的一个分类的指示。在一些示例中，一般分类可以包括与层级的顶级相关联的标签。一般分类可以包括诸如“骑行者”、“车辆”、“行人”、“动物”、“环境对象”等之类的分类。在所描绘的示例中，这些一般分类包括：一般分类120，“骑行者”；一般分类122，“车辆”；一般分类124，“行人”；以及一般分类126，“路标”。虽然为了清楚起见，图1中仅描绘了一般分类的样本，但应当理解，感知引擎110的第一ML模型可以针对从传感器数据检测到的ROI和/或对象中的一个或多个确定一般分类。

本文讨论的技术可以另外地或可替代地包括具有第一ML模型和一个或多个子类ML模型的结构。该结构可以被配置为使得第一ML模型的输出可以对应于一个或多个子类ML模型中的至少一个。在一些示例中，第一ML模型可以输出多个候选分类之中的一般分类，该一般分类可以用于选择(多个)子类ML模型中的至少一个。例如，虽然候选分类可以包括“骑行者”、“行人”、“路标”等，但是第一ML模型被训练为输出与关联于ROI 118的像素相对应的一般分类122“车辆”。在至少一些示例中，虽然单个ML模型被描述为第一ML模型和另外的(多个)子类ML模型，但是单个ML模型可以包括第一ML模型和(多个)子类ML模型。即，模型的一层的输出可以包括一般分类，并且这种模型的其他层可以输出子分类。

子类ML模型可以与第一模型的多个候选分类中的特定分类相关联。例如，第一子类ML模型可以与“行人”相关联，第二子类ML模型可以与“车辆”相关联，等等。至少部分地基于第一ML模型的输出，结构可以选择子类ML并将第一ML模型的一个或多个输出提供给子类ML模型作为输入。子类ML模型可以从多个候选分类之中确定与对象相关联的子分类。

在一些实例中，规划器112可以使用感知数据(包括ROI、一般分类、子分类和/或特征图)来生成用于控制自主车辆102的操作的指令。例如，规划器112可以进行以下操作：确定自主车辆102从第一位置到第二位置的路线；根据滚动时域技术(例如，1微秒、半秒、多秒等)并至少部分地基于ROI、一般分类、子分类和/或特征图，实质上同时生成用于控制自主车辆102的运动的多个潜在轨迹，以控制车辆穿越路线；以及选择潜在轨迹中的一个轨迹作为自主车辆102的轨迹，其可以用于生成可以发送到自主车辆102的驱动组件的驱动控制信号。

示例第一ML模型架构

图2示出了关于第一ML模型202的示例架构200的附加细节。在一些示例中，第一ML模型202可以从一个或多个传感器接收传感器数据204。在一些示例中，传感器数据204可以包括(多个)图像(例如，图像206)和/或LIDAR数据、RADAR数据、生物统计数据、环境数据等。图像206可以包括诸如灰度图像、红绿蓝(RGB)图像、飞行时间图像、深度图像、红外图像、投影到二维空间的LIDAR点(和/或其他三维或更多维传感器数据点)的图像和/或其任何组合之类的图像。应当理解，第一ML模型202可以另外地或可替代地包括从一个或多个传感器接收其他类型的传感器数据(例如，从LIDAR传感器和/或RADAR传感器接收点云)。

第一ML模型202可以包括神经网络，例如，卷积神经网络(CNN)。在一些示例中，第一ML模型202可以包括多个层，这些层中的一个或多个可以生成输出。在一些示例中，第一ML模型可以包括用于聚合一个或多个层的(多个)输出的(多个)组件、用于池化对应于相同检测的特征图的部分的(多个)组件等。

至少在其中第一ML模型包括神经网络的示例中，第一ML模型202可以根据与第一ML模型202的各个层相关联的且在训练时学习得出的权重，至少部分地基于传感器数据204来输出一个或多个特征图(“(多个)特征图208”)、一个或多个ROI(“(多个)ROI 210”)和/或一个或多个分类和/或概率(“(多个)分类和/或(多个)概率”212)。例如，第一ML模型202可以至少部分地基于传感器数据204以及与第一ML模型202的层相关联的权重，来生成实例分割特征图、语义分割特征图、密集深度特征图、对象定向特征图(例如，标识检测到的对象的估计定向的特征图)和/或检测特征图。实例分割特征图可以包括标识与对象相关联的像素(和/或传感器数据的其他离散部分)的掩码和/或由模型确定的与对象相关联的附加数据。虽然这里的讨论试图解释(多个)特征图中的一些的内容，但可以理解，(多个)特征图208中的一个或多个可能无法用人类可理解的术语来描述，因为(多个)特征图208可以包括第一ML模型202的输出，其可以是传感器数据204的计算机和/或神经网络变换。在至少一些示例中，这样的(多个)特征图208不需要来自相同模型，而是来自任何数量的模型，这些模型提供关于对象的附加信息(例如，对传感器数据执行的并与对象相关联的分割、分类、检测等)。

在一些示例中，与对象相关联的((多个)ROI 210中的)ROI可以将图像206(和/或其他传感器数据)的一部分和/或(多个)特征图208的一部分标识为对应于对象，例如，行人214。例如，ROI可以包括形状(例如，矩形(即，边界框))的中心和维度，和/或图像中的可归属于对象的一部分的任何其他标识，和/或与其相关联的不确定性。在一些实例中，ROI可以是传感器数据204中的与对象相关联的一部分的更“粗略的”标识(例如，ROI可以包括每个检测到的对象的相同形状，并且可以调整ROI的大小以使得对象在ROI内适合，换言之，在一些实例中，ROI可以不仅仅标识对象)，这与实例分割相反，实例分割可以标识传感器数据204中的与对象相关联的离散部分和/或提供针对对象的唯一标识符以区分多个检测到的对象。

在另外的或替代示例中，第一ML模型202可以生成(多个)分类和/或(多个)概率212。第一ML模型202可以至少部分地基于传感器数据204中的与ROI和/或实例分割相关联的一部分来生成分类和/或概率。第一ML模型202由此可以将传感器数据204的一部分标识为与分类相关联，并且在一些示例中，标识分类正确地与传感器数据204的一部分相关联的可能性(概率)。在一些示例中，第一ML模型202可以生成与诸如行人214之类的对象相关联的概率分布作为分类和/或概率。所示示例描绘了与行人214相关联的概率分布216。例如，第一ML模型202可以已经至少部分地基于ROI和/或由第一ML模型202的层生成的且与行人214的表示相关联的实例分割生成概率分布216。在一些示例中，第一ML模型202可以至少部分地基于传感器数据204本身、(多个)特征图208的子集和/或(多个)ROI 210等生成概率分布216。

概率分布216可以标识与一般分类相关联的概率，其中该概率指示传感器数据的一部分对应于由该分类标识的类型的对象的可能性。图2将概率分布216描绘为条形图，在x轴(218)上绘制候选分类，并且在y轴上绘制针对每个候选分类确定的对应的概率(220)。例如，在所描绘的示例中，候选分类“行人”222与比候选分类“车辆”224大得多的概率相关联(在所描绘的示例中，概率分布216由第一ML模型202至少部分地基于与行人214相关联的传感器数据204的一部分和/或(多个)特征图208生成)。

在一些示例中，第一ML模型202将(多个)特征图208、(多个)ROI210和/或(多个)分类和/或(多个)概率212输出到细化ML模型226(例如，通过级联或其他方式)。细化ML模型216可以包括一个或多个子类ML模型，如图3中更详细讨论的。虽然细化ML模型216和第一ML模型202被描绘为不同的ML模型，但这两个模型可以是单个ML模型的一部分(例如，在其中第一ML模型202和/或细化ML模型226包括神经网络的示例中，其为神经网络的层的不同集合)。

示例架构

图3描绘了用于改进计算机视觉的准确度和/或改进感知系统的可训练性的示例架构300的框图。在一些示例中，示例架构300可以表示感知引擎(例如，感知引擎110)的一部分。

在所描绘的示例中，示例架构300可以包括第一ML模型202、选择组件302和/或一个或多个子类ML模型304(1)-304(p)(统称为“(多个)子类ML模型304”)。在一些示例中，选择组件302和/或(多个)子类ML模型304可以是细化ML模型226的一部分。第一ML模型212可以接收传感器数据204，并且可以至少部分地基于传感器数据204来生成(多个)特征图208、(多个)ROI 210和/或(多个)分类和/或(多个)概率212(这些统称为特征数据306)。在一些示例中，特征数据306可以包括与从传感器数据204检测到的对象相关联的数据集合。例如，特征数据306可以包括：与第一对象相关联的(多个)第一特征图、第一ROI和/或第一分类和/或第一概率；与第二对象相关联的(多个)第二特征图、第二ROI和/或第二分类和/或第二概率；等等。

在一些示例中，可以由选择组件302接收特征数据306。选择组件302可以至少部分地基于从第一ML模型202接收到的分类来选择(多个)子类ML模型304中的至少一个。在一些示例中，选择可以由逻辑语句(switch、if-then等)、与分类输出相关联的池化操作、子类ML模型内的子模型、第一ML模型或学习得出的不同模型等来执行。在一些示例中，单个子类ML模型(例如，子类ML模型304(p))可以与关联于第一ML模型202的候选分类(例如，可能从第一ML模型202输出的分类)中的一个或多个相关联。在至少一个示例中，p可以是等于与第一ML模型相关联的候选分类的数量相等的整数，但是在另外的或替代示例中，p可以是小于或大于候选分类的数量的整数。

例如，如果选择组件从第一ML模型接收包括具有第一分类(例如，“车辆”)的第一数据集合的特征数据306，则选择组件302可以选择与第一分类相关联的第一子类ML模型；如果特征数据306还包括具有第二分类(例如，“行人”)的第二数据集合，则选择组件302可以选择与第二分类相关联的第二子类ML模型；等等。在一些示例中，选择组件302可以确定将包含在特征数据306内的每个集合发送到(多个)子类ML模型304中的哪个子类ML模型。换言之，特征数据306可以包括针对由第一ML模型202检测到的每个对象的特征数据的集合，并且选择组件302可以包括硬件和/或软件开关，以至少部分地基于与特征数据的集合相关联的分类来将与不同对象相关联的特征数据的集合路由到适当的子类ML模型。

在所描绘的示例中，子类ML模型304(p)可以与分类“行人”相关联。至少部分地基于从第一ML模型202接收包括分类“行人”的特征数据306的集合，选择组件302可以选择子类ML模型304(p)以确定子类和/或进一步处理该集合。选择组件302可以将与分类“行人”相关联的特征数据306的集合中的任一个作为“行人”集合308发送到子类ML模型304(p)。例如，“行人”特征集合308可以包括由第一ML模型202生成的与行人214相关联的一个或多个特征图的至少一部分(分类特征图、分割特征图、检测特征图、其他特征图等)。在另外的或替代示例中，“行人”特征集308可以另外地或可替代地包括ROI、分类和/或概率，但是在一些示例中，ROI可以用于确定(多个)特征图中的与检测到的对象相关联的(多个)部分，并且分类可以用于确定将(多个)部分发送到哪个子类ML模型。

在另外的或替代示例中，选择组件302可以确定(多个)特征图的一部分以将其提供给选定的子类ML模型(例如，在所描绘的示例中为子类ML模型304(p))作为输入。例如，选择组件302可以至少部分地基于从第一ML模型202接收到的ROI来裁剪和/或以其他方式标识一个或多个特征图的一部分以将其提供给选定的子类ML模型。

在一些示例中，可以训练单个子类ML模型304(p)，以输出(310)在与关联于子类ML模型304(p)的一般分类相关联的一个或多个候选子分类之中的子分类和/或概率。例如，如果子类ML模型304(p)与分类“行人”相关联，则与子类ML模型304(p)相关联的候选子分类可以包括“拿着对象的行人”312、“轮式交通工具上的行人”314(例如，骑乘滑板、踏板车、Segway^TM、其他个人交通工具的个人)、“推/拉对象的行人”316、“轮椅上的个人”、“使用高跷的个人”、“儿童”、“建筑工人”、“公共安全官员”等。在一些示例中，输出310可以包括与子类ML模型304(p)相关联的候选子类的概率分布318。概率分布318在图3中描绘为条形图，其包括x轴上的示例候选子分类320和y轴上的概率322。

为了进一步说明，与分类“路标”相关联的不同子类ML模型可以与候选子分类“交通标志”、“广告牌”、“海报”、“其他广告”等相关联。此外，子类模型可以是子类ML模型的附加(和/或更低)级别的父代。例如，第一ML模型可以与一般分类“车辆”、“行人”、“路标”等相关联，第一子类ML模型可以与分类“路标”相关联，并且可以与关联于子分类“交通标志”的第二子类ML模型相关联(作为其父代)。“交通标志”可以是第一子类ML模型的候选类，并且作为其子代的第二子类ML模型可以与候选子分类“停车标志”、“让行标志”、“速度标志”、“车道合并标志”等相关联。

换言之，示例架构300可以包括通过分类进行关联的父代ML模型和子代ML模型的分层结构，其中训练子代ML模型以输出与由父代ML模型生成的分类相关联的子类。由本文讨论的ML模型生成的分类和/或子分类可以反映ML模型的分层结构。例如，“让行标志”可以由第二子类ML模型指示为“路标：交通标志：让行标志”。

返回所描绘的示例，至少部分地基于从选择组件302接收到的特征数据的集合(例如，其可以包括一个或多个特征图中的与对象相关联的至少一部分，并且在一些示例中，其可以另外地或可替代地包括ROI和/或分类和/或概率)，子类ML模型304(p)可以生成概率分布316。在一些示例中，子类ML模型304(p)输出子分类和/或概率作为输出310的一部分。例如，子类ML模型304(p)可以确定与满足或超过概率阈值324的概率相关联的候选子分类和/或与作为概率分布318上的最大概率的概率相关联的候选子分类。

在一些示例中，至少部分地基于确定子类中的要被输出的一个，子类ML模型304(p)可以确定输出子分类是否满足或超过概率阈值324。例如，即使子分类可以与概率分布320中所有概率的最大概率相关联，但该概率仍可能太低而无法依赖(例如，小于95％、小于90％、小于80％、小于70％)。如果与输出的子分类相关联的概率小于概率阈值324，则子类ML模型304(p)可以输出从第一ML模型202接收到的分类而不是子分类。然而，如果概率满足或超过概率阈值，则子类ML模型304(p)可以输出子分类。在另外的或替代示例中，即使子分类与低于概率阈值的概率相关联，子类ML模型304(p)也可以输出除了一般分类之外的子分类，但是在一些示例中，子类ML模型304(p)可以另外地或可替代地输出子分类与小于概率阈值324的概率相关联的指示。

在所示示例中，至少部分地基于确定子分类“拿着对象的行人”314与满足或超过概率阈值326的概率和/或作为概率分布318的多个概率中的最大概率的概率相关联，子类ML模型304(p)可以输出子分类“拿着对象的行人”314和/或与其相关联的概率。然而，如果子类ML模型304(p)要确定即使子分类“拿着对象的行人”314与小于概率阈值326的概率相关联，则子类ML模型304(p)可以输出“行人”而不是“拿着对象的行人”314。

在其中子类ML模型304(p)是附加子类ML模型(未示出)(例如，与一般分类“路标”相关联的子类模型、与子分类“交通路标”相关联的附加子类模型)的父代的示例中，至少部分地基于确定由子类ML模型304(p)确定出的子分类满足或超过概率阈值326，子类ML模型304(p)可以将子分类发送到附加的子代子类ML模型，该子代子类ML模型可以确定(子分类的)子分类和/或概率。然而，如果子类ML模型304(p)确定子分类小于概率阈值324，则子类ML模型304(p)可以绕过附加子类ML模型并替代地输出一般分类。

在一些示例中，分类和子分类可以包括(多个)语义标签和/或数据结构以区分分层相关的分类。例如，由子类ML模型生成的语义标签可以表示为“路标：交通：停车标志”，该子类ML模型是从由第一ML模型202确定出的一般分类沿着结构向下两级ML模型的。

在一些示例中，针对不同ML模型的训练数据可以取决于一般分类(即，与子类ML模型相关联的父代的候选分类)和/或与它们相关联的候选分类而变化。例如，可以在包括各种标志的训练数据上训练与一般分类“路标”相关联的第一子类ML模型。在一些示例中，针对第一子类ML模型的训练数据可以排他地包括具有至少一个标志的训练数据，但是在另外的或替代示例中，训练数据可以包括不具有标志的数据，以负面地训练子类ML模型(例如，什么不是标志)。然而，与一般分类“行人”相关联的第二子类ML模型可以在训练数据上进行训练，该训练数据可以包含或可以不包含标志，但确实包含与稀有的分类(例如，“轮椅上的个人”等)相关的对象。可以更宽泛地训练第一ML模型以区分一般类，但在一些示例中，不区分子类。例如，第一ML模型可以使用地面真值进行训练，该地面真值指示“行人”、“车辆”、“标志”等而不是“拿着对象的行人”、“轮椅上的个人”、“四轮车”、“停车标志”、“让行标志”、“速度标志”等。

在另外的或替代示例中，可以至少部分地基于第一ML模型202的输出与第一训练数据(例如，其可以包括地面真值)相比较来针对第一ML模型202计算第一损失，并且可以针对与第一ML模型202的候选分类相关联的子类ML模型计算第二损失。第二损失可以至少部分地基于子类ML模型的输出与由第一训练数据和/或第二训练数据指示的地面真值之间的差异。可以更改与子类ML模型相关联的参数以使第二损失最小化。可以更改与第一ML模型202相关联的参数以使第一损失和/或第二损失最小化。在一些实例中，由训练数据指示的地面真值可以包括指示分类的正确层级的标签。例如，地面真值可以包括诸如“车辆：四轮车：轿车”或“路标：交通标志：让行标志”之类的标签。在一些示例中，针对第一ML模型202和/或一个或多个子类ML模型计算出的损失可以至少部分地基于这样的分层标签。这样的第一损失和第二损失可以是与由第一ML模型202执行的分类、检测和/或分割(其可以是实例分割)相关联的第三损失的补充或替代。

训练可以包括从层级的顶部(例如，在第一ML模型202处)到接收特征数据的最低神经网络来更改神经网络的参数。例如，如果最终输出分类“路标：交通标志：让行标志”，则可以至少部分地基于针对ML模型计算出的(多个)损失来训练第一ML模型202和至少两个子类ML模型。在另外的或替代示例中，如果最终输出分类“路标：交通标志”，则可以训练第一ML模型202、第一子类ML模型(其与“交通标志”相关联)和/或另一子类ML模型。例如，另一子类ML模型可能已经从第一子类ML模型接收到特征数据，但是可能尚未生成与满足或超过概率阈值的概率相关联的分类。

在一些示例中，可以首先训练第一ML模型202，并且一旦第一ML模型202已经达到足够的准确度就可以训练子类ML模型。例如，可以训练第一ML模型202，直到第一ML模型202输出满足或超过概率阈值的分类为止。在另外的或替代示例中，第一ML模型202可以与子类ML模型的一个或多个层同时训练。

在一些示例中，针对子分类ML模型计算出的损失可以反向传播通过子分类和/或任何父代ML模型，直到并包括第一ML模型。在这种示例中，例如，在使用一个或多个模型的情况下，该模型可以被称为进行“端到端”训练。

虽然本文的论述讨论了某种程度的顺序架构和过程，但是示例架构300可以包括并行管线。本文讨论的组件中的任一个可以顺序地和/或并行完成操作。例如，不同的ROI、分类和/或概率可以由不同的子类ML模型和/或(多个)选择组件并行处理。

在一些实例中，本文讨论的(多个)组件中的一个或多个可以整体或部分地实现为神经网络。如本文所描述的，示例性神经网络是生物学启发算法，其使输入数据通过连接层的序列以产生输出。神经网络中的每一层还可以包括另一神经网络，或者可以包括任何数量的层(无论是否卷积)。如在本公开的上下文中可以理解的，神经网络可以利用机器学习，机器学习可以指代基于学习得出的参数生成输出的一大类这种算法。

尽管在神经网络的上下文进行了讨论，但是可以与本公开一致地使用任何类型的机器学习。例如，机器学习算法可以包括但不限于回归算法、基于实例的算法、贝叶斯算法、关联规则学习算法、深度学习算法等。神经网络架构的另外的或替代示例可以包括诸如ResNet50、ResNet1O1、VGG、DenseNet、PointNet等之类的神经网络。

示例过程

图4示出了用于确定在传感器数据中表示的对象的子分类的示例过程400。在一些示例中，示例过程400可以由示例架构300的(多个)组件完成。

在操作402处，示例过程400可以包括根据本文讨论的技术中的任一种接收传感器数据。

在操作404处，示例过程400可以包括根据本文讨论的技术中的任一种，由第一ML模型生成ROI、与对象相关联的分类和/或一个或多个特征图。在一些示例中，根据本文讨论的架构，第一ML模型可以是一个或多个子代ML模型(其可以是不同的ML模型和/或与第一ML模型相同的ML模型的附加子网)的父代模型(和/或子网)，其中每个子代ML模型(即，子类ML模型)对应于第一ML模型针对其被训练以生成概率分布的不同的候选分类。在另外的或替代示例中，与子代ML模型相关联的分类可能重叠，使得两个或更多个子类模型可以至少部分地基于由第一ML模型输出的分类来生成子类和/或分类概率。在一些示例中，分类可以与ROI相关联和/或以其他方式与传感器数据中的对象的表示相关联。

在操作406处，示例过程400可以包括根据本文讨论的技术中的任一种，至少部分地基于由第一ML模型生成的分类来从多个子类ML模型之中选择子类ML模型。在一些示例中，操作406还可以包括标识哪些子类ML模型作为子代关联到第一ML模型。然而，在另外的或替代示例中，子类ML模型可以(例如，通过硬件和/或通过软件开关)通信地耦合到第一ML模型，使得第一ML模型的输出被直接发送到与由第一ML模型的输出指示的分类相对应的子类ML模型。无论如何，选择子类ML模型可以包括确定子类ML模型与由第一ML模型生成的分类相关联。在另外的或替代示例中，第一ML模型和(多个)子类ML模型可以是同一神经网络的子部分。在这样的示例中，可以省略操作406。

在一些示例中，操作406可以另外地或可替代地包括确定由第一ML模型生成的数据的一部分以将其提供给选定的子类ML模型。例如，第一ML模型除了或替代生成ROI和/或分类，第一ML模型可以生成一个或多个特征图，例如，实例分割、语义分割、密集深度特征图、对象定向特征图、检测特征图等。在操作406处，示例过程400可以包括确定一个或多个特征图的(多个)部分以将其提供给选定的子类ML模型，该子类ML模型对应于传感器数据中表示的对象。这可以包括裁剪和/或以其他方式选择特征图的对应于ROI的(多个)部分和/或传感器数据中的对应于对象的离散部分的其他指示。一旦已经确定了(多个)部分，就可以向子类ML模型提供(多个)部分、由第一ML模型确定的ROI和/或由第一ML模型确定的分类。在一些示例中，这可以针对从传感器数据检测到的一个或多个对象重复(例如，对于检测到的每个对象，可以选择子类ML模型，确定一个或多个特征图的至少一部分，并且将(多个)部分提供给选定的子类ML模型)。

在一些示例中，第一ML模型可以包括q个通道，其中q可以是被选择为对应于由ML模型接收到的传感器数据的维度的整数。在一些示例中，子类ML模型可以包括r个通道，其中r可以是对应于生成ROI和/或特征图的第一ML模型的输出层的维度的整数。

在操作408处，示例过程400可以包括根据本文讨论的技术中的任一种，由选定的子类ML模型生成与对象相关联的子分类和/或子分类概率。例如，生成子分类和/或概率可以至少部分地基于上面确定的特征图的(多个)部分和/或对第一ML模型的输入、由第一ML模型确定的ROI、和/或由第一ML模型确定的分类。但是在一些示例中，一旦子类ML模型被训练，子类ML模型可能不会接收由第一ML模型确定的分类和/或ROI，因为子类ML模型可以被训练为至少部分地基于特征图中的被确定为对应于对象的(多个)部分来生成子分类和/或概率。在一些示例中，选择组件可以确保将(多个)部分路由到正确的子类ML模型，该子类ML模型对应于由第一ML模型生成的分类。例如，选择组件可以包括被设计为将数据从父代ML模型的输出节点发送到子代ML模型的输入节点和/或硬件和/或软件开关的神经网络层。

在一些示例中，子类ML模型可以确定子类ML模型已经在其上进行训练的候选子类的概率分布。在一些示例中，子类ML模型可以确定候选子类中的与大于候选分类中的其他分类的概率相关联的一个分类。该子分类可以与局部最大值、最大值、大于上四分位数的概率等相关联。

在操作410处，示例过程400可以包括根据本文讨论的技术中的任一种，确定与由子类ML模型生成的子分类相关联的概率是否满足概率阈值(例如，概率是否满足或超过概率阈值)。概率阈值可以包括诸如99％、98％、95％、90％、80％、75％等之类的值。操作410可以另外地或可替代地包括确定大于概率分布的其他概率的概率与第二大概率之间的差异和确定该差异是否满足或超过区别阈值。例如，如果第一概率为95％并且第二概率为92％，其中区别阈值为5％，则第一概率与第二概率之间的差异不满足或未超过区别阈值，因为差异为3％。这可以指示模型没有充分区别分类，并且高度确信对象同时是两个不同的分类。在一些示例中，某些分类可以是共同输出的，和/或其他分类可以与区别阈值相关联。例如，子类别“拉/推对象的个人”可以与子类别“儿童”共同输出，但“拉/推对象的个人”可以关联于与子类别“轮式交通工具上的行人”相关的区别阈值。

如果与子类别相关联的概率小于概率阈值，则示例过程400可以进行到操作412。在一些示例中，第一ML模型和/或子类ML模型的输出可以另外地或可替代地分别经由第一ML模型和/或子类ML模型的最后一层输出。在操作412处，示例过程400可以包括根据本文讨论的技术中的任一种将分类与对象进行关联。例如，这可以包括将由第一ML模型生成的分类与对象进行关联，而不是将由子类ML模型生成的子类别与对象进行关联。在其中子类ML模型作为父代关联到子代子类ML模型的示例中，可以跳过这些子类ML模型并且可以输出分类。在另外的或替代示例中，至少部分地基于确定概率不满足概率阈值，(多个)部分、ROI和/或分类可以被提供给替代子类ML模型。例如，替代子类ML模型可以另外地与分类相关联，或者，在另外的或替代示例中，子类ML模型可以与由第一ML模型确定的第二分类相关联，该第二分类与概率相关联，该概率小于与分类相关联的概率。例如，第二分类可以与第二大概率相关联。为了说明，第一子类ML模型可以与父代候选分类“交通路标”相关联，并且第二子类ML模型可以与父代候选分类“广告牌”相关联。

如果与子分类相关联的概率满足或超过概率阈值，则示例过程400可以进行到操作414。在操作414处，示例过程400可以包括根据本文讨论的技术中的任一种，将子分类与对象进行关联。将子分类与对象进行关联可以包括将子分类作为由感知引擎通过通道发布的检测消息的一部分输出到(例如，经由发布-订阅架构)订阅该通道的组件(例如，规划器、定位和映射组件)。

在另外或替代示例中，如果子类ML模型作为父代与其他子类ML模型相关，则子类ML模型可以将子分类和/或(多个)特征图的(多个)部分发送到对应于子分类的子代子类ML模型。可以在子代子类ML模型处重复上面在操作408-414处描述的过程。然而，如果由子代子类ML模型生成的子分类小于第二概率阈值(例如，它可能等于、超过或小于概率阈值)，与将分类与对象进行关联相反，示例过程400可以包括将子类ML模型的子分类与对象进行关联。在一些示例中，ROI、分类和/或概率可以由第一ML模型输出，并且子分类和/或概率可以另外地或可替代地由特征数据(例如，通过选择/转发)到达的任何子类ML模型输出。

示例系统

图5示出了实现本文讨论的技术的示例系统的框图。在一些实例中，系统500可以包括车辆502，该车辆502可以对应于图1中的自主车辆102。在一些实例中，车辆502可以是被配置为根据美国国家公路交通安全管理局发布的5级分类操作的自主车辆，该5级分类描述了能够在整个行程中执行所有安全关键功能的车辆，其中不期望驾驶员(或乘员)在任何时候控制车辆。然而，在其他示例中，车辆502可以是具有任何其他级别或分类的完全或部分自主车辆。此外，在一些实例中，本文描述的技术也可以由非自主车辆使用。预期本文讨论的技术可以不仅仅应用于机器人控制，例如，用于自主车辆。例如，本文讨论的技术可以应用于视频游戏、制造、增强现实等。

车辆502可以包括车辆计算设备504、一个或多个传感器506、一个或多个发射机508、一个或多个网络接口510和/或一个或多个驱动组件512。

在一些实例中，(多个)传感器506可以包括LIDAR传感器、RADAR传感器、超声换能器、声纳传感器、位置传感器(例如，全球定位系统(GPS)、罗盘等)、惯性传感器(例如，惯性测量单元(IMU)、加速度计、磁力计、陀螺仪等)、图像传感器(例如，红绿蓝(RGB)、红外(IR)、强度、深度、飞行时间相机等)、麦克风、车轮编码器、环境传感器(例如，温度传感器、湿度传感器、光传感器、压力传感器等)，等等。(多个)传感器506可以包括这些或其他类型的传感器中的每一个的多个实例。例如，LIDAR传感器可以包括位于车辆502的拐角、前面、后面、侧面和/或顶部的单独的LIDAR传感器。作为另一示例，相机可以包括设置在车辆502外部和/或内部的周围各种位置的多个相机。(多个)传感器506可以向车辆计算设备504提供输入。

车辆502还可以包括用于发射光和/或声音的(多个)发射机508，如上面所描述的。该示例中的(多个)发射机508可以包括用于与车辆502的乘客进行通信的(多个)内部音频和视觉发射机。通过示例而非限制的方式，(多个)内部发射机可以包括扬声器、灯、标志、显示屏、触摸屏、(多个)触觉发射机(例如，振动和/或力反馈)、机械致动器(例如，安全带拉紧器、座椅定位器、头枕定位器等)等。该示例中的(多个)发射机508还包括(多个)外部发射器。通过示例而非限制的方式，该示例中的(多个)外部发射机包括用于以信号通知行驶方向的灯或车辆动作的其他指示器(例如，指示灯、标志、灯阵列等)，以及用于与行人或其他附近的车辆可听地通信的一个或多个音频发射机(例如，扬声器、扬声器阵列、喇叭等)，这些发射机中的一个或多个包括声束转向技术。

车辆502还可以包括(多个)网络接口510，该网络接口510实现车辆502与一个或多个其他本地计算设备或远程计算设备之间的通信。例如，(多个)网络接口510可以促进与车辆502上的其他(多个)本地计算设备和/或(多个)驱动组件512的通信。而且，(多个)网络接口510可以另外地或可替代地允许车辆与其他附近的(多个)计算设备(例如，其他附近的车辆、交通信号等)进行通信。(多个)网络接口510可以另外地或可替代地使车辆502能够与(多个)计算设备514通信。在一些示例中，(多个)计算设备514可以包括分布式计算系统(例如，云计算架构)的一个或多个节点。

(多个)网络接口510可以包括用于将车辆计算设备504连接到另一计算设备或网络(例如，(多个)网络516)的物理和/或逻辑接口。例如，(多个)网络接口510可以实现基于Wi-Fi的通信，例如，经由IEEE 500.11标准定义的频率、短距离无线频率(例如，

)、蜂窝通信(例如，2G、4G、4G、4G LTE、5G等)或者使相应的计算设备能够与(多个)其他计算设备接合的任何合适的有线或无线通信协议的通信。在一些实例中，车辆计算设备504和/或(多个)传感器506可以在经过预定时间段之后、接近实时地等，以特定频率经由(多个)网络516向(多个)计算设备514发送传感器数据。

在一些实例中，车辆502可以包括一个或多个驱动组件512。在一些实例中，车辆502可以具有单个驱动组件512。在一些实例中，(多个)驱动组件512可以包括一个或多个传感器以检测(多个)驱动组件512和/或车辆502的周围环境的状况。通过示例而非限制的方式，(多个)驱动组件512的(多个)传感器可以包括：一个或多个车轮编码器(例如，旋转编码器)以感测驱动组件的车轮的旋转；惯性传感器(例如，惯性测量单元、加速度计、陀螺仪、磁力计等)以测量驱动组件的定向以及加速度；相机或其他图像传感器、超声波传感器以声学地检测驱动组件的周围环境中的对象；LIDAR传感器、RADAR传感器等。对于(多个)驱动组件512而言，诸如车轮编码器之类的一些传感器可以是唯一的。在一些情况下，(多个)驱动组件512上的(多个)传感器可以重叠或补充车辆502的对应系统(例如，(多个)传感器506)。

(多个)驱动组件512可以包括车辆系统中的许多车辆系统，包括：高压电池、推进车辆的电动机、将来自电池的直流电转换成交流电以供其他车辆系统使用的逆变器、包括转向电动机和转向机架(其可以是电动的)的转向系统、包括液压或电动致动器的制动系统、包括液压和/或气动组件的悬架系统、用于分配制动力以减轻牵引力损失并维持控制的稳定性控制系统、HVAC系统、照明(例如，诸如用于照亮车辆的外部环境的前灯/尾灯之类的照明)以及一个或多个其他系统(例如，冷却系统、安全系统、车载充电系统、诸如DC/DC转换器、高压结、高压电缆、充电系统、充电端口等之类的其他电气组件)。另外地，(多个)驱动组件512可以包括驱动组件控制器，该驱动组件控制器可以接收和预处理来自(多个)传感器的数据并控制各种车辆系统的操作。在一些实例中，驱动组件控制器可以包括一个或多个处理器以及与该一个或多个处理器通信地耦合的存储器。存储器可以存储一个或多个组件以执行(多个)驱动组件512的各种功能。此外，(多个)驱动组件512还可以包括一个或多个通信连接，该通信连接使得相应的驱动组件能够与一个或多个其他本地或远程计算设备进行通信。

车辆计算设备504可以包括一个或多个处理器518以及与一个或多个处理器518通信地耦合的存储器520。(多个)计算设备514可以另外地或可替代地包括(多个)处理器522和/或存储器524。(多个)处理器518和/或522可以是能够执行指令以处理数据并执行如本文所描述的操作的任何合适的处理器。通过示例而非限制的方式，(多个)处理器518和/或522可以包括一个或多个中央处理单元(CPU)、图形处理单元(GPU)、集成电路(例如，专用集成电路(ASIC)等)、门阵列(例如，现场可编程门阵列(FPGA)等)和/或处理电子数据以将该电子数据转换为可以存储在寄存器和/或存储器中的其他电子数据的任何其他设备或设备的一部分。

存储器520和/或524可以是非暂时性计算机可读介质的示例。存储器520和/或524可以存储操作系统和一个或多个软件应用、指令、程序和/或数据以实现本文描述的方法和归属于各种系统的功能。在各种实现方式中，可以使用任何合适的存储器技术来实现存储器，例如，静态随机存取存储器(SRAM)、同步动态RAM(SDRAM)、非易失性/闪存型存储器或能够存储信息的任何其他类型的存储器。本文描述的架构、系统和单独的元件可以包括许多其他逻辑、程序和物理组件，其中在附图中示出的那些仅仅是与本文的讨论相关的示例。

在一些实例中，存储器520和/或存储器524可以存储感知引擎526，该感知引擎526可以包括ML架构528、规划器530和/或系统控制器532。感知引擎526可以表示感知引擎110，ML架构528可以包括和/或表示示例架构300，规划器530可以表示规划器112。在一些实例中，感知引擎526可以包括主要感知系统、次级感知系统、预测系统和/或定位系统。存储器520和/或524可以另外地或可替代地存储映射系统、规划系统、乘坐管理系统等。虽然感知引擎526和ML架构528被示为存储在存储器520中，但是感知引擎526和/或ML架构528可以存储在存储器524中和/或可以包括处理器可执行指令、(多个)机器学习得出的模型和/或硬件。

如本文所描述的，示例性神经网络是生物学启发算法，其使输入数据通过连接层的序列以产生输出。神经网络中的每一层还可以包括另一神经网络，或者可以包括任何数量的层(无论是否卷积)。如在本公开的上下文中可以理解的，神经网络可以利用机器学习，机器学习可以指代基于学习得出的参数生成输出的一大类这种算法。

尽管在神经网络的上下文进行了讨论，但是可以与本公开一致地使用任何类型的机器学习。例如，机器学习算法可以包括但不限于回归算法(例如，普通最小二乘回归(OLSR)、线性回归、逻辑回归、逐步回归、多元自适应回归样条(MARS)、本地估计散点平滑(LOESS))、基于实例的算法(例如，岭回归、最小绝对收缩和选择算子(LASSO)、弹性网、最小角度回归(LARS))、决策树算法(例如，分类和回归树(CART)、迭代二分法器3(ID3)、卡方自动交互检测(CHAID)、决策树桩、条件决策树)、贝叶斯算法(例如，朴素贝叶斯、高斯朴素贝叶斯、多项式朴素贝叶斯、平均一依赖估计器(AODE)、贝叶斯信念网络(BNN)、贝叶斯网络)、聚类算法(例如，k均值、k中位数、期望最大化(EM)、分层聚类)、关联规则学习算法(例如，感知机、反向传播、Hopfield网络、径向基函数网络(RBFN))、深度学习算法(例如，深玻尔兹曼机(DBM)、深度信念网络(DBN)、卷积神经网络(CNN)、堆叠式自动编码器)、降维算法(例如，主成分分析(PCA)、主成分回归(PCR)、偏最小二乘回归(PLSR)、Sammon映射、多维标度(MDS)、投影寻踪、线性判别分析(LDA)、混合物判别分析(MDA)、二次判别分析(QDA)、灵活判别分析(FDA))、集成算法(例如，提升、自举聚合(袋装)、AdaBoost、堆叠泛化(混合)、梯度提升机(GBM)、梯度提升回归树(GBRT)、随机森林)、SVM(支持向量机)、有监督学习、无监督学习、半监督学习等。架构的附加示例包括神经网络，例如，ResNet60、ResNet1O1、VGG、DenseNet、PointNet等。

存储器520可以另外地或可替代地存储一个或多个系统控制器532(其可以另外地或可替代地被实现为硬件)，该系统控制器532可以被配置为控制车辆502的转向、推进、制动、安全、发射机、通信和其他系统。这些系统控制器532可以与(多个)驱动组件512和/或车辆502的其他组件的对应系统通信和/或对其进行控制。例如，规划器530可以至少部分地基于由感知引擎526生成的分类、子分类和/或ROI来生成指令，并将指令发送到(多个)系统控制器532，该系统控制器532可以至少部分地基于指令来控制车辆502的操作。

应当注意，虽然图5被示为分布式系统，但在替代示例中，车辆502的组件可以与(多个)计算设备514相关联和/或(多个)计算设备514的组件可以与车辆502相关联。即，车辆502可以执行与(多个)计算设备514相关联的功能中的一个或多个，反之亦然。

示例条款

A、一种方法，包括：从自主车辆的传感器接收图像；将该图像提供给第一神经网络作为输入；从第一神经网络接收与图像中表示的对象相关联的特征图、感兴趣区域、分类和第一概率；将特征图中的与感兴趣区域相对应的至少一部分提供给第二神经网络作为输入；从第二神经网络接收子分类以及与其相关联的第二概率；以及至少部分地基于分类或子分类中的至少一个来控制自主车辆的操作。

B、段落A的方法，还包括：至少部分地基于确定第一概率满足或超过第一概率阈值来输出与感兴趣区域相关联的分类；以及至少部分地基于确定第二概率满足或超过第二概率阈值来输出与感兴趣区域相关联的分类或子分类中的至少一个。

C、段落A或B的方法，该方法还包括：将从第一神经网络接收到的至少一个附加特征图提供给神经网络的第二部分作为附加输入，其中，训练第一神经网络以输出实例分割或语义分割中的至少一个。

D、段落A-C中任一项的方法，还包括：至少部分地基于接收到分类并且该分类与第二神经网络相关联，将特征图的一部分发送到第二神经网络；以及至少部分地基于接收到第二分类并且该第二分类与第三神经网络相关联，将第二特征图的第二部分发送到第三神经网络。

E、段落A-D中任一项的方法，候选分类包括以下各项中的至少两个：行人分类；车辆分类；骑行者分类；路标分类；动物分类；以及交通障碍分类。

F、一种系统，包括：一个或多个处理器；存储处理器可执行指令的存储器，该处理器可执行指令当由一个或多个处理器执行时，使系统执行包括以下各项的操作：接收传感器数据；提供该传感器数据作为对第一机器学习(ML)模型的输入；从第一ML模型接收：与传感器数据中的对象的表示相关联的分类、与分类相关联的第一概率、特征图以及传感器数据中的与对象的表示相关联的感兴趣区域；以及从子类ML模型接收子分类和与该子分类相关联的第二概率。

G、段落F的系统，操作还包括：将从第一ML模型的第一部分接收到的第一特征图的至少第一部分和从第一ML模型的第二部分接收到的第二特征图的至少第二部分输入到子类ML模型中。

H、段落F或G中任一项的系统，其中，第一部分和第二部分是至少部分地基于感兴趣区域的。

I、段落F-H中任一项的系统，其中，第二特征图包括以下各项中的至少一个：语义分割特征图、实例分割特征图、密集深度特征图或对象定向特征图。

J、段落F-I中任一项的系统，其中，操作还包括：至少部分地基于确定第一概率满足或超过第一概率阈值来输出与对象相关联的分类；至少部分地基于确定第二概率满足或超过第二概率阈值来输出与对象相关联的子分类；以及至少部分地基于分类或子分类中的至少一个来控制自主车辆。

K、段落F-J中任一项的系统，其中，操作还包括：向第一ML模型或子类ML模型中的至少一个提供地面真值传感器数据，该地面真值传感器数据与地面真值分类标签和地面真值子分类标签相关联；至少部分地基于第一ML模型的第一输出与地面真值分类标签之间的差异来确定第一损失；至少部分地基于子类ML模型的第二输出与地面真值子分类标签之间的差异来确定第二损失；以及更改第一ML模型的一个或多个第一参数或子类ML模型的一个或多个第二参数中的至少一个，以使第一损失或第二损失中的至少一个最小化。

L、段落F-K中任一项的系统，其中：ML模型的第二部分与第一分类相关联，ML模型的第三部分与第二分类相关联，以及第一分类和第二分类是与ML模型的第一部分相关联的候选分类。

M、段落F-L中任一项的系统，其中，第一分类和第二分类是多个分类中的两个，其中，多个分类包括以下各项中的至少两个：行人分类；车辆分类；骑行者分类；路标分类；动物分类；以及交通障碍分类。

N、段落F-M中任一项的系统，其中：第一ML模型包括具有多个第一层的第一神经网络；并且子类ML模型包括具有多个第二层的第二神经网络。

O、段落F-N中任一项的系统，其中：第一ML模型包括神经网络的具有多个第一层的第一部分；以及子类ML模型包括神经网络的具有多个第二层的第二部分。

P、一种存储处理器可执行指令的非暂时性计算机可读介质，该处理器可执行指令当由一个或多个处理器执行时，使一个或多个处理器执行包括以下各项的操作：接收传感器数据；提供该传感器数据作为对第一机器学习(ML)模型的输入；从第一ML模型接收第一输出，该第一输出包括与传感器数据中的对象的表示相关联的分类以及与该分类相关联的第一概率；以及从子类ML模型接收子分类和与该子分类相关联的第二概率。

Q、段落P的非暂时性计算机可读介质，其中，操作还包括：从第一ML模型的第一部分接收第一特征图；从第一ML模型的第二部分接收第二特征图；将第一特征图的至少一部分和第二特征图的至少一部分输入到子类ML模型中，其中，第一特征图或第二特征图中的至少一个与感兴趣区域相关联，该感兴趣区域与传感器数据中的对象的表示相关联。

R、段落P或Q中任一项的非暂时性计算机可读介质，其中：ML模型至少包括第一ML模型和子类ML模型，以及神经网络是至少部分地基于以下各项被训练的：向第一ML模型或子类ML模型中的至少一个提供地面真值传感器数据，该地面真值传感器数据与地面真值分类标签和地面真值子分类标签相关联；至少部分地基于第一ML模型的第一输出与地面真值分类标签之间的差异来确定第一损失；至少部分地基于子类ML模型的第二输出与地面真值子分类标签之间的差异来确定第二损失；以及更改第一ML模型的一个或多个第一参数或子类ML模型的一个或多个第二参数中的至少一个，以使第一损失或第二损失中的至少一个最小化。

S、段落P-R中任一项的非暂时性计算机可读介质，其中，操作还包括以下各项中的至少一项：至少部分地基于确定第一概率大于或等于第一概率阈值来输出与对象相关联的分类；至少部分地基于确定第二概率大于或等于第二概率阈值来输出子分类；或者至少部分地基于分类和子分类来控制自主车辆。

T、段落P-S中任一项的非暂时性计算机可读介质，其中：子类ML模型是第一子类ML模型，分类是第一分类，并且操作还包括：从第一ML模型接收与第一分类相关联的第一特征图；从第一ML模型接收与第二分类相关联的第二特征图；至少部分地基于第一分类与第一子类ML模型相关联，提供第一特征图的第一部分作为对第一子类ML模型的输入；以及至少部分地基于第二分类与第二子类ML模型相关联，提供第二特征图的第二部分作为对第二子类ML模型的输入。

虽然已经以特定于结构特征和/或方法动作语言描述了主题，但是应当理解，所附权利要求中定义的主题不一定限于所描述的特定特征或动作。而是，特定特征和动作被公开为实现权利要求的示例形式。

本文描述的组件表示可以存储在任何类型的计算机可读介质中并且可以以软件和/或硬件实现的指令。上面描述的所有方法和过程可以体现在由一个或多个计算机或处理器、硬件或其某种组合执行的软件代码组件和/或计算机可执行指令中，并经由其完全自动化。这些方法中的一些或全部可以可替代地体现在专用计算机硬件中。

除非另外具体陈述，否则条件性语言(例如“可以”、“可能”、“可以”或“可”以及其他条件语言)在上下文中被理解为表示某些示例包括某些特征、元素和/或步骤，而其他示例不包括这些特征、元素和/或步骤。因此，这种条件语言通常不旨在暗示某些特征、元素和/或步骤对于一个或多个示例以任何方式是要求的，或者一个或多个实施例必然包括用于在有或没有用户输入或提示的情况下决定某些特征、元素和/或步骤是否被包括或是否要在任何特定示例中执行的逻辑。

除非另外具体陈述，否则连接性语言(例如，短语“X，Y或Z中的至少一个”)应被理解为表示项目、术语等可以是X，Y或Z，或其任何组合，包括每个元素的倍数。除非明确描述为单数，否则“一(a)”表示单数和复数。

本文描述的和/或附图中描绘的流程图中的任何例程描述、元素或块应被理解为潜在地表示模块、段或代码的部分，其包括用于实现例程中的特定逻辑功能或元素的一个或多个计算机可执行指令。替代实现方式被包括在本文描述的示例的范围内，其中元素或功能可以被删除，或不按所示或讨论的次序执行，包括实质上同步执行、以相反的次序执行、附加操作或省略操作，这取决于所涉及的功能，如本领域技术人员所理解的。

可以对上述示例进行许多变化和修改，其中的元素应被理解为属于其他可接受的示例。所有这些修改和变化旨在被包括在本公开的范围内并受所附权利要求的保护。

Claims

1.一种系统，包括：

一个或多个处理器；

存储处理器可执行指令的存储器，所述处理器可执行指令当由所述一个或多个处理器执行时，使所述系统执行包括以下各项的操作：

接收传感器数据；

提供所述传感器数据作为对第一机器学习(ML)模型的输入；

从所述第一ML模型接收：与所述传感器数据中的对象的表示相关联的分类、与所述分类相关联的第一概率、特征图以及所述传感器数据中的与所述对象的所述表示相关联的感兴趣区域；以及

从子类ML模型接收子分类以及与所述子分类相关联的第二概率。

2.根据权利要求1所述的系统，所述操作还包括：

将从所述第一ML模型的第一部分接收到的第一特征图的至少第一部分和从所述第一ML模型的第二部分接收到的第二特征图的至少第二部分输入到所述子类ML模型中。

3.根据权利要求2所述的系统，其中，所述第一部分和所述第二部分是至少部分地基于所述感兴趣区域的。

4.根据权利要求2所述的系统，其中，所述第二特征图包括以下各项中的至少一个：语义分割特征图、实例分割特征图、密集深度特征图或对象定向特征图。

5.根据权利要求1-4中任一项所述的系统，其中，所述操作还包括：

向所述第一ML模型或所述子类ML模型中的至少一个提供地面真值传感器数据，所述地面真值传感器数据与地面真值分类标签和地面真值子分类标签相关联；

至少部分地基于所述第一ML模型的第一输出与地面真值分类标签之间的差异来确定第一损失；

至少部分地基于所述子类ML模型的第二输出与地面真值子分类标签之间的差异来确定第二损失；以及

更改所述第一ML模型的一个或多个第一参数或所述子类ML模型的一个或多个第二参数中的至少一个，以使所述第一损失或所述第二损失中的至少一个最小化。

6.根据权利要求1-5中任一项所述的系统，其中：

所述ML模型的所述第二部分与第一分类相关联，

所述ML模型的第三部分与第二分类相关联，以及

所述第一分类和所述第二分类是与所述ML模型的所述第一部分相关联的候选分类。

7.根据权利要求6所述的系统，其中，所述第一分类和所述第二分类是多个分类中的两个，其中，所述多个分类包括以下各项中的至少两个：

行人分类；

车辆分类；

骑行者分类；

路标分类；

动物分类；以及

交通障碍分类。

8.根据权利要求1-7中任一项所述的系统，其中：

所述第一ML模型包括具有多个第一层的第一神经网络；以及

所述子类ML模型包括具有多个第二层的第二神经网络。

9.根据权利要求1-8中任一项所述的系统，其中：

所述第一ML模型包括神经网络的具有多个第一层的第一部分；以及

所述子类ML模型包括所述神经网络的具有多个第二层的第二部分。

10.根据权利要求1-9中任一项所述的系统，其中，所述操作还包括：

至少部分地基于确定所述第一概率满足或超过第一概率阈值来输出与所述对象相关联的所述分类；

至少部分地基于确定所述第二概率满足或超过第二概率阈值来输出与所述对象相关联的所述子分类；以及

至少部分地基于所述分类或所述子分类中的至少一个来控制自主车辆。

11.根据权利要求10所述的系统，其中，所述自主车辆包括所述系统。

12.一种存储处理器可执行指令的非暂时性计算机可读介质，所述处理器可执行指令当由一个或多个处理器执行时，使所述一个或多个处理器执行包括以下各项的操作：

接收传感器数据；

提供所述传感器数据作为对第一机器学习(ML)模型的输入；

从所述第一ML模型接收第一输出，所述第一输出包括与所述传感器数据中的对象的表示相关联的分类以及与所述分类相关联的第一概率；以及

13.根据权利要求12所述的非暂时性计算机可读介质，其中，所述操作还包括：

从所述第一ML模型的第一部分接收第一特征图；

从所述第一ML模型的第二部分接收第二特征图；

将所述第一特征图的至少一部分和所述第二特征图的至少一部分输入到所述子类ML模型中，

其中，所述第一特征图或所述第二特征图中的至少一个与感兴趣区域相关联，所述感兴趣区域与所述传感器数据中的所述对象的所述表示相关联。

14.根据权利要求12或权利要求13所述的非暂时性计算机可读介质，其中：

所述ML模型至少包括第一ML模型和子类ML模型，以及

神经网络是至少部分地基于以下各项被训练的：

15.根据权利要求12-14中任一项所述的非暂时性计算机可读介质，其中：

所述子类ML模型是第一子类ML模型，

所述分类是第一分类，并且

所述操作还包括：

从所述第一ML模型接收与所述第一分类相关联的第一特征图；

从所述第一ML模型接收与第二分类相关联的第二特征图；

至少部分地基于所述第一分类与所述第一子类ML模型相关联，提供所述第一特征图的第一部分作为对所述第一子类ML模型的输入；以及

至少部分地基于所述第二分类与第二子类ML模型相关联，提供所述第二特征图的第二部分作为对所述第二子类ML模型的输入。