CN116261747A - 用于机器学习模型的中间输入 - Google Patents

用于机器学习模型的中间输入 Download PDF

Info

Publication number
CN116261747A
CN116261747A CN202180067898.2A CN202180067898A CN116261747A CN 116261747 A CN116261747 A CN 116261747A CN 202180067898 A CN202180067898 A CN 202180067898A CN 116261747 A CN116261747 A CN 116261747A
Authority
CN
China
Prior art keywords
data
environment
spatial
model
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180067898.2A
Other languages
English (en)
Inventor
S·帕里克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zoox Inc
Original Assignee
Zoox Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US17/137,873 external-priority patent/US11829449B2/en
Priority claimed from US17/137,947 external-priority patent/US11847831B2/en
Application filed by Zoox Inc filed Critical Zoox Inc
Publication of CN116261747A publication Critical patent/CN116261747A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Traffic Control Systems (AREA)

Abstract

在本文中讨论了用于确定环境中的对象的分类概率的技术。技术可以包括使用多通道数据从诸如自上而下的角度的角度来分析与环境相关联的传感器数据。从这个角度,技术可以确定多通道输入数据和额外特征数据的通道。对应于空间特征的通道可以被包括在所述多通道输入数据中,并且对应于非空间特征的数据可以被包括在所述额外特征数据中。所述多通道输入数据可以被输入到机器学习(ML)模型的第一部分中,并且所述额外特征数据可以与来自所述ML模型的所述第一部分的中间输出数据级联,并且被输入到所述ML模型的第二部分中以用于后续处理以及确定所述分类概率。另外,可以在表示所述环境的多分辨率体素空间上执行技术。

Description

用于机器学习模型的中间输入
相关申请的交叉引用
本专利申请要求于2020年12月30日提交的美国实用新型专利申请No.17/137,873以及于2020年12月30日提交的美国实用新型专利申请No.17/137,947的优先权。申请No.17/137,873和No.17/137,947通过引用并入本文。
背景技术
自主车辆可以使用传感器来捕获表示环境中的对象的数据。该技术能够用于确定这样的对象的分类。当前的技术常常涉及处理大量输入数据,这可能会在资源受限的环境中带来挑战。
附图说明
参考附图来描述具体实施方式。在附图中,附图标记的最左边的(一个或多个)数字标识该附图标记首次在其中出现的附图。在不同附图中使用相同的附图标记指示相似或同样的组件或特征。
图1是以下示例过程的示意流程图:接收环境的传感器数据,将输入数据输入到机器学习(ML)模型的第一部分中,将中间输入数据输入到所述ML模型的第二部分中,以及基于来自所述ML模型的所述第一部分和所述第二部分的输出数据来确定所述环境中的对象的分类概率。
图2A描绘了多分辨率体素空间以及与所述体素空间相关联的多通道图像数据的示例。
图2B描绘了用于处理可以按不同分辨率渲染的环境的各种范围的示例处理管道。
图3A描绘了用于利用ML模型处理所述多通道图像数据的系统的示例架构。
图3B描绘了用于经由ML模型的第一部分处理多通道图像数据以及经由所述ML模型的第二部分处理中间输入数据并且将结果级联以进一步处理所述数据的系统的示例架构。
图4是用于实施在本文中所描述的技术的示例系统的框图。
图5是用于以下的示例过程:将输入数据输入到机器学习(ML)模型的第一部分中,将中间输入数据输入到所述ML模型的第二部分中,以及基于来自所述ML模型的所述第一部分和所述第二部分的输出数据来确定环境中的对象的分类概率。
图6是用于以下的示例过程:将第一输入数据输入到第一ML模型中,将第二输入数据输入到第二ML模型中,从所述第一ML模型接收与对象相关联的第一分类,从所述第二ML模型接收与对象相关联的第二分类,以及基于所述第一分类或所述第二分类来控制自主车辆。
具体实施方式
本文讨论了用于处理传感器数据以确定与环境中的对象相关联的分类的技术。例如,技术可以包括基于所述传感器数据来生成表示环境的环境数据。例如,这样的环境数据能够被表示为多通道图像数据,其可以表示所述环境的俯视图。所述传感器数据可以包括与环境相关联的数据,在一些示例中,一个或多个对象(例如,行人、车辆、骑自行车的人等)可以驻留在所述环境中。所述传感器数据(或者基于传感器数据的数据)可以包括表示与所述对象相关联的空间属性(例如,地图信息、占用层等)和/或与所述对象相关联的非空间属性(例如,速度、加速度、车灯等)的特征数据。本文描述的技术可以包括但不限于:接收所述传感器数据,从“俯视图”将所述传感器数据(或者基于传感器数据的数据)作为多通道图像数据进行查看,确定与所述输入数据中表示的对象相关联的特征数据,将所述输入数据输入到机器学习(ML)模型的第一部分中,基于将从所述ML模型的所述第一部分接收到的中间输出数据与所述特征数据级联来确定中间输入数据,将所述中间输入数据输入到所述ML模型的第二部分中,以及基于从所述ML模型的所述第二部分接收到的所述输出数据来确定与所述对象相关联的分类概率。
附加地或可选择地,本文描述的技术,诸如,例如用于利用机器学习的处理管道通过在所述管道的第一部分处输入图像数据的层的第一子集以及在所述管道的第二部分处输入图像数据的层的第二子集来处理多通道图像数据的过程可以被并行地执行多次,对应于作为多通道图像数据的环境的渲染器的数量。
例如,环境的第一部分能够被渲染为与第一范围(例如,50m×50m)相关联的第一多通道图像数据(例如,自上而下的多通道图像数据)。所述环境的第二部分(例如,100m×100m区域)能够被渲染为与第二范围相关联的第二多通道图像数据。所述环境的第三部分(例如,200m×200m)能够被渲染为第三多通道图像。所述环境的任意数量的区域能够被表示为多通道图像数据。在一些示例中,所述多通道图像数据能够表示所述环境的至少部分地重叠的部分。在一些示例中,不同的多通道图像数据能够以公共点为中心。在一些示例中,所述输入数据中的每个输入数据能够与相同的“分辨率”相关联。
所述输入数据能够被并行地输入到不同的机器学习的模型以确定由所述输入数据表示的“像素”或对象的分类信息。与所述环境的重叠的部分相关联的输出能够被聚合以确定在多个输入数据中所表示的对象的分类。所述分类概率可以被传递给其他组件并且可以被用于生成推断,以确定所述车辆的轨迹等。
这种对由多通道图像数据表示的所述环境的不同范围中的每个范围的处理管道的分离,避免了利用单个管道处理所有不同范围时可能出现的处理限制。在一些示例中,增加由所述图像数据表示的所述范围以及使用相同的分辨率将与范围的增加成比例地增加处理和空间要求。例如,与第一分辨率(例如,大约每像素10cm)处的第一范围(例如,50m×50m)相关联的第一多通道图像数据可以按与第二分辨率(例如,每像素大约40cm)处的第二范围(例如,100m×100m)相关联的第二多通道图像数据基本上相似的速率被渲染和处理,因为在增加范围的同时,处理基本上相似数量的像素。尽管较大的第二范围具有比较短的第一范围更粗略的分辨率,但是第一范围可以提供可接受的分辨率以识别靠近于车辆的对象,其需要更精细的分辨率像素以用于处理,从而产生更准确的分类结果。另外,将分离的处理管道配置为并行地运行并且然后聚合结果数据可以进一步改善渲染和/或处理时间。
如上所述,传感器数据可以被表示为与环境的各种部分相关联的多通道图像数据。可以确定针对环境的区域的特征数据。例如,特征数据可以包括多个空间特征和非空间特征。在一些示例中,所述空间特征可以包括但不限于环境的地图信息(例如,车道标线、人行横道、交通灯的位置、建筑物位置等)、环境中对象的边界框(bounding box)、环境中对象的尺寸等。附加地或可选择地,非空间特征可以包括但不限于:环境中对象的速度、环境中对象的加速度、与环境中对象的光相关联的照明状态、对象行为类别(例如,攻击性的、正常的等)等。在一些示例中,与所述环境相关联的一个或多个特征可以被编码或者以其他方式存储为多通道图像数据(例如,多通道输入图像)的层。因此,可以高效地表示所述数据以用于对机器学习模型的输入。
例如,所述机器学习模型可以接受自上而下的多通道输入图像形式的数据。具体地,所述模型接受尺寸等于所述环境的X和Y离散化的数量的图像形式的数据,所述图像具有表示所述环境的不同空间特征的多个通道。
在一些示例中,所述多通道输入数据可以包括图像数据的一个或多个层。例如,所述多通道图像数据能够包括与第一特征数据相关联的第一二维层(例如,第一通道)以及与第二特征数据相关联的第二二维层(例如,第二通道)。附加地或可选择地,所述多维图像数据能够包括一组二维层,诸如与表示单个特征的特征数据相关联的所述第一通道和所述第二通道。
在一些示例中,所述多维图像数据能够包括与多个类别的语义信息相关联的层,尽管在一些示例中,能够从所述多通道图像数据中省略与特定分类相关联的数据。
在一些示例中,各种传感器数据可以与所述多通道图像数据相关联。例如,在一些示例中,所述多通道图像数据可以表示激光雷达数据、雷达数据、飞行时间数据或者任何其他深度数据。
在一些示例中,本文讨论的技术可以在诸如自主车辆的车辆的场景中实施。随着车辆穿过环境,所述自主车辆可以捕获传感器数据并且可以确定多通道图像数据。
如上所述,技术可以包括基于与环境相关联的数据、单分辨率多通道图像数据和/或多分辨率多通道图像数据来执行操作。利用由多通道图像数据表示的所述传感器数据的第一部分以及从所述传感器数据的第二部分确定的特征数据(其中,所述部分可以至少部分地重叠),操作可以包括将所述多通道图像数据输入到ML模型的第一部分中,以处理所述多通道图像数据以及接收中间输出数据。在一些示例中,所述多通道图像数据可以表示所述环境的俯视图。附加地或可选择地,所述多通道图像数据可以表示所述环境中的空间特征和/或对象。在一些示例中,所述中间输出数据可以表示与从所述多通道图像数据中提取的所述传感器数据相关联的密集特征。附加地或可选择地,所述操作可以包括基于所述中间输出数据和所述特征数据来确定中间输入数据,以及将所述中间输入数据输入到所述ML模型的第二部分中以处理中所述间输入数据和接收输出数据。在一些示例中,所述输出数据可以表示由所述多通道图像数据表示的所述环境中的每对象的多个logit(例如,表示从0或负无穷大到1或无穷大的概率值的函数)。附加地或可选择地,所述操作还可以包括基于所述输出数据来确定对象的一个或多个分类概率。
应当注意,本文讨论的任何输入数据和输出数据可以由能够存储特征数据的任何数据结构来表示,诸如,例如张量(例如,数字、标量、数组、向量、二维数组、矩阵等)。
在一些示例中,第一渲染器可以被配置为生成所述多通道输入数据,其可以被配置为包括N-通道的多通道图像数据,其中,N可以是对应于与所述传感器数据相关联的特征的数量的任意整数。然后,可以基于所述特征数据将所述多通道图像数据的N-通道分离成两个通道子集。例如,所述N-通道可以被分离为:第一A-通道,其中,A可以是对应于由所述特征数据表示的主要特征的数量的任意整数,所述主要特征诸如例如是空间特征;以及第二B-通道,其中,B可以是对应于次要特征的数量的任意整数,所述次要特征诸如例如是环境中每实体由所述特征数据表示的非空间特征。所述多通道图像数据的所述N-通道然后可以由所述系统在ML模型中的不同点处以及由ML模型的不同部分来处理。例如,包括所述第一A-通道的输入数据可以被输入到ML模型的第一部分中,其中,表示所述第一A-通道的数据可以被转换,使得与对应于所述环境中的对象(或实体)的像素相关联的所述特征中的所有特征可以被聚合以表示针对给定对象的所述特征中的所有特征。这些A-通道一旦被表示为每对象的特征,然后就可以与B-通道组合,所述B-通道包括随后在处理管道中由每实体的特征数据表示的非空间特征。
所述N-通道输入图像数据的A-通道与B-通道之间的这种分离导致ML分类管道的更快执行,因为仅有第一A-通道被输入到所述管道的密集主干部分,由于执行所需的功率成本较低,因此占用空间较小。另外,由于利用密集神经网络对多通道输入数据中所包括的所有内容进行空间处理,导致对应于通道数量的权重按比例增加,将输入到密集网络中的通道数量从N-通道减少到第一A-通道(其中,A是N的子集)可以导致推理时间显著减少,其与通道数量的减少成比例。
在一些示例中,所述ML模型的所述第一部分可以被配置为神经网络的主干或特征提取组件,诸如,例如卷积神经网络(CNN)。示例主干可以包括但不限于:ResNet101、ResNet52等。所述ML模型的所述第一部分可以处理包括所述第一A-通道的所述多通道图像数据以及确定对应于所述多通道图像数据的中间输出数据。例如,所述中间输出数据可以包括与所述第一A-通道相关联的特征的密集表示(或者值的集合)。在一些示例中,所述特征的所述密集表示可以包括与所述多通道图像数据中表示的像素相关联的特征向量。
在一些示例中,被配置为稀疏渲染器的第二渲染器可以被配置为基于与诸如例如表示所述非空间特征的所述第二B-通道的特定特征相对应的所述传感器数据来生成额外特征数据。所述额外特征数据可以包括由所述传感器数据表示的每对象的多个特征。在一些示例中,所述额外特征数据可以被配置为与对象相关联的特征向量。
在一些示例中,可以基于将每对象的所述中间输出数据和所述额外特征数据进行级联来确定中间输入数据。例如,单通道图像可以用于掩模所述中间输出数据以及检测一个或多个对象和/或确定与特定位置相对应的一个或多个图形参考,诸如所述多通道图像数据内的所述一个或多个对象的中心位置。在一些示例中,所述第一渲染器可以生成单通道图像,所述单通道图像包括在所述图像中所包括的对象的中心(或者每个对象的各自的中心)的指示。所述单通道图像也可以包括与所述环境中的所述对象相关联的占用的指示。例如,所述单通道图像可以与所述中间输出数据对准或者以其他方式掩模所述中间输出数据,以提供与所述对象相对于所述中间输出数据的对应位置相对应的占用指示和/或图形参考。在所述中间输出数据中没有占用指示的情况下,可以忽略对应的特征向量,以及在所述中间输出数据中有占用指示的情况下,可以收集所述对应的特征向量。所收集到的与单个对象相对应的特征向量可以被聚合以确定与所述对象相关联的单个特征向量,以及所述单个特征向量可以被表示在与所述对象在所述多通道图像数据内的对应位置相对应的图形参考处。另外,在所述图形参考处表示的所述特征向量可以与每对象的额外特征级联(即,将与所述对象相关联的所述特征向量和与所述对象相关联的所述额外特征向量进行级联)以确定所述中间输入数据。
所述中间输入数据可以被输入到所述ML模型的第二部分中。在一些示例中,所述ML模型的所述第二部分可以被配置为密集神经网络,诸如,例如深度神经网络(DNN)。所述环境中的每对象的所述中间输入数据可以被传递通过所述ML模型的所述第二部分,其可以处理所述中间输入数据以及确定输出数据,所述输出数据表示所述环境中的每对象的多个logit(例如,表示从0或负无穷大到1或无穷大的概率值的函数)。
在一些示例中,可以基于所述输出数据来确定所述环境中的对象的一个或多个分类概率。例如,logit可以指示与对象相关联的多个分类相关联的多个概率,诸如但不限于:对象类型分类(例如,车辆、行人、自行车等)、对象行为分类(例如,自信的、正常的、回避的、攻击性的等)、对象注视分类(例如,分心的行人、警觉的行人等)、对象轨迹分类(例如,在路上、留在人行道上、乱穿马路等)、车道改变分类(例如,改变车道进入我的车道)和/或紧急车辆分类。这些分类概率仅仅是示例并且技术并不限于这些特定示例。
本文讨论的技术可以按多种方式改善计算设备的功能,诸如自主车辆的计算设备。例如,在多分辨率多通道图像数据中使用多个层级便于靠近车辆的数据的高分辨率管理以及更远离车辆的数据的较低分辨率管理。例如,当和与单个高分辨率层级相关联的输入数据相比较时,这样的级别可以显著减少用于存储传感器数据的存储器的量。在一些示例中,复杂的空间和语义数据能够在多通道图像数据中可视化地表示,从而允许对数据的高效评估和处理。本文描述的技术也可以减少自上而下预测的延迟时间。可以理解的是,在增加范围的情况下减少自上而下预测的延迟时间可以改善安全结果,特别是在车辆和自主车辆的场景中。本文描述的技术也可以通过减少检测和分类对象的处理时间,以及也检测和分类更远范围处的对象,来改善安全结果。可以理解的是,在车辆和自主车辆的场景中,可能出现确定和检测对象必须快速并且准确地发生的情况。另外,可能出现确定和检测更大范围处的对象也必须快速并且准确地发生的情况。因此,本文描述的技术可以改善计算设备的功能以及改善安全结果。
本文描述的技术可以按多种方式实施。参考下列附图下文提供示例实施方式。尽管在自主车辆的场景中讨论,但是本文描述的方法、设备和系统可以应用于各种系统(例如,传感器系统或机器人平台),并且不限于自主车辆。在一个示例中,类似的技术可以在驾驶员控制的车辆中被利用,在其中这样的系统可以提供执行各种操纵是否安全的指示。在另一示例中,该技术可以在制造装配线场景中、在航空测量场景中或者在航海场景中被利用。此外,本文描述的技术可以与真实数据(例如,使用传感器捕获的)、模拟数据(例如,由模拟器生成的)、或者这两者的任意组合一起使用。
图1是以下的示例过程100的示意流程图:接收环境的传感器数据,将输入数据输入到机器学习(ML)模型的第一部分中,将中间输入数据输入到所述ML模型的第二部分中,以及基于来自所述ML模型的所述第一部分和所述第二部分的输出数据来确定所述环境中的对象的分类概率。
在操作102处,所述过程可以包括由结合车辆(例如,自主车辆)的感知系统进行操作的传感器接收环境的传感器数据以及与所述传感器数据相关联的语义信息。尽管在传感器数据的上下文中进行了讨论,但是操作102能够包括接收任何三维数据或者包括深度分量的数据。所述语义信息能够包括例如一个或多个语义分类、(一个或多个)标签或分割信息。在一些情况下,操作102能够包括从结合所述感知系统进行操作的多个传感器接收多个传感器数据集。在一些情况下,操作102能够包括将来自两个或更多个传感器(和/或在一段时间内)的数据组合或融合成单个激光雷达数据集(也被称为“元自旋”)。在一些情况下,操作102能够包括提取所述传感器数据的一部分以用于处理,诸如在一段时间内的部分。在一些情况下,操作102能够包括接收雷达数据(或者其他传感器数据)以及将所述雷达数据与所述传感器数据相关联以生成环境的更详细的表示。
如上所述,所述传感器数据(例如,(一个或多个)传感器数据集)能够与语义信息相关联。例如,在2017年11月21日提交的标题为“Sensor Data Segmentation”的美国专利申请No.15/820,245中讨论了用于确定所述传感器数据并且将所述传感器数据与所述语义信息相关联的这样的技术的示例,该专利通过引用全部并入本文。
所述语义信息可以与所述环境中的静态对象和/或动态对象相关联以用于分类和/或轨迹规划。对应于地面、静态对象和/或动态对象的环境部分能够利用这样的语义信息来识别和标记。在一些示例中,能够至少部分地基于所述语义信息来分割数据。在一些情况下,动态对象的列表能够被提供给跟踪系统以跟踪和/或预测每个动态对象随时间推移的轨迹。在一些情况下,静态对象的列表和/或地面的标识能够被提供给规划器系统以生成针对车辆的轨迹,所述车辆穿越可行驶表面并且避开或者以其他方式考虑本文标识的静态对象。
示例104图示了车辆106捕获环境的传感器数据108。在一些示例中,传感器数据108可以包括激光雷达数据、雷达数据、声纳数据、飞行时间数据或者其他深度数据。例如,操作102可以包括捕获图像数据以及基于所捕获的图像数据来生成深度数据。
在操作110处,所述过程可以包括确定表示所述环境的俯视图的多通道图像数据114(例如,二维输入网格)。在一些示例中,可以基于所述传感器数据来确定多通道图像数据114。
如前所述,在一些示例中,操作110可以包括基于所述环境的各个部分来确定多通道图像数据114(例如,二维输入网格)。多通道图像数据114的每个区域或部分可以被确定为与所述环境的区域(或者其他维度)相关联的二维表示的区域。在一些示例中,多通道图像数据114的每个区域可以是与所述环境的所述区域相关联的所述二维表示的单元。所述二维输入网格的每个区域可以与50厘米×50厘米的区域相关联并且可以包括特征数据。每个区域可以与一个或多个相邻(例如,邻近)区域相关联(例如,被定位为相邻)。
多通道图像数据114的示例在示例112中被图示出。例如,示例112包括第一通道116和第二通道118。在一些示例中,第一通道116可以表示边界框、位置、范围(例如,长度和宽度)和/或对象120在所述环境中的存在的任何其他指示。在一些示例中,第二通道118可以表示包括与所述对象相关联的空间特征122(例如,地图信息、占用层等)的特征数据。
所述多通道图像数据可以包括多个区域。所述区域中的每个区域可以被确定为所述二维表示的所述区域并且可以与所述环境的区域相关联。例如,基于与环境相关联的三维信息被转换为与所述区域相关联的二维信息,区域可以与环境的区域相关联。
所述区域中的每个区域可以包括特征数据。作为示例而非限制,所述特征数据能够包括(对于与列相关联的传感器数据)多个空间特征122和非空间特征。在一些示例中,空间特征122可以包括但不限于:环境的地图信息(例如,车道标线、人行横道、交通灯的位置、建筑物位置等)、环境中对象的边界框、环境中对象的尺寸等。附加地或可选择地,所述非空间特征可以包括但不限于:环境中对象的速度、环境中对象的加速度、与环境中对象的灯相关联的照明状态、对象行为类别(例如,攻击性的、正常的等)等。在一些示例中,与所述传感器数据和/或所述三维体素空间相关联的一个或多个特征可以被编码或者以其他方式存储为多通道输入图像的层。因此,可以高效地表示所述数据以用于对机器学习模型的输入。
在一些示例中,第一渲染器可以被配置为生成多通道输入数据114,其可以被配置为包括N-通道的多通道图像数据114,其中,N可以是对应于与所述传感器数据相关联的特征的数量的任意整数。然后,可以基于所述特征数据将所述多通道图像数据114的N-通道分离成两个通道子集。例如,所述N-通道可以被分离为:第一A-通道,其中,A可以是对应于由所述特征数据表示的空间特征的数量的任意整数;以及第二B-通道,其中,B可以是对应于由所述特征数据表示的非空间特征的数量的任意整数。然后,多通道图像数据114的N-通道可以由所述系统在ML模型中的不同点处以及由ML模型的不同部分来处理。例如,包括所述第一A-通道的输入数据可以被输入到ML模型的第一部分中。
能够理解的是,操作110能够包括生成或确定(一个或多个)多通道图像,如本文所讨论的。结合于2018年10月4日提交的标题为“Trajectory Prediction on Top-DownScenes”的美国专利申请No.16/151,607讨论了生成或确定(一幅或多幅)多通道图像的示例。申请No.16/151,607通过引用整体并入本文。
操作124可以包括将多通道图像数据114(例如,俯视图或者另一视图)输入到ML模型的第一部分126中,其被配置为诸如例如卷积神经网络(CNN)的神经网络的主干或者特征提取组件。示例主干可以包括但不限于:ResNet101、ResNet52等。ML模型的第一部分126可以处理包括第一A-通道的多通道图像数据114,以及确定与多通道图像数据114相对应的中间输出数据。
操作128可以包括确定要被输入到所述ML模型的第二部分中的中间输入数据。在一些示例中,可以基于将所述环境中每对象的中间输出数据和额外特征数据进行级联来确定中间输入数据。
在一些示例中,操作128可以包括利用第二渲染器,诸如稀疏渲染器,其被配置为基于传感器数据108来生成额外特征数据,传感器数据108对应于诸如例如表示所述非空间特征的所述第二B-通道的特定特征。
所述中间输入数据的示例在示例130中被图示出。在一些情况下,示例130可以包括基于中间输出数据134和额外特征数据(或特征)136而确定的中间输入数据132。
在一些示例中,中间输出数据134可以包括与所述第一A-通道相关联的所述特征的密集表示(或者值的集合)。在一些示例中,特征的密集表示可以包括与多通道图像数据114中表示的像素相关联的特征向量。
在一些示例中,额外特征数据136可以基于传感器数据108,其对应于诸如非空间特征的特定特征。额外特征数据136可以包括由传感器数据108表示的每对象的多个特征。在一些示例中,额外特征数据136可以被配置为与对象120相关联的特征向量。
在一些示例中,可以基于将每对象的中间输出数据134和额外特征数据136进行级联来确定中间输入数据132。例如,单通道图像可以用于掩模中间输出数据134以及检测一个或多个对象。在一些示例中,第一渲染器可以生成单通道图像,其包括在所述图像中所包括的对象的中心(或者每个对象的各自中心)的指示。所述单通道图像也可以包括与所述环境中的对象120相关联的占用的指示。例如,所述单通道图像可以与中间输出数据134对准或者以其他方式掩模中间输出数据134,以提供相对于中间输出数据134的占用的指示。在中间输出数据134中没有占用指示的情况下,可以忽略对应的特征向量,以及在中间输出数据134中有占用指示的情况下,可以收集对应的特征向量。所收集到的对应于单个对象的特征向量可以被聚合以确定与对象120相关联的单个特征向量,以及所述单个特征向量可以被表示所述对象的中心处。
另外,在诸如例如对象120的中心的图形参考处表示的特征向量可以与每对象的额外特征136进行级联(即,将与所述对象相关联的特征向量和与所述对象相关联的额外特征向量进行级联)以确定中间输入数据132。
操作138可以包括将中间输入数据132输入到ML模型的第二部分140中,其被配置为密集神经网络,诸如例如深度神经网络(DNN)。环境中每对象的中间输入数据132可以被传递通过所述ML模型的所述第二部分,其可以处理中间输入数据132以及确定输出数据,所述输出数据表示所述环境中每对象的多个logit(例如,表示从0或负无穷大到1或无穷大的概率值的函数)。
操作142可以包括从ML模型的第二部分140接收输出数据。所述输出数据的示例在示例144中被图示出。在一些情况下,示例144可以包括输出数据146,其表示环境中每对象的多个logit(例如,表示从0或负无穷大到1或无穷大的概率值的函数)148。
操作150可以包括确定所述对象的一个或多个分类概率。在一些示例中,确定所述一个或多个分类概率可以至少部分地基于由输出数据146表示的每对象的logit 148。
分类概率的示例在示例152中被图示出。在一些情况下,示例152可以包括所述环境中的对象120的分类概率154。如前所述,分类概率154可以至少部分地基于由输出数据146表示的每对象的logit 148。
例如,每对象的logit 148可以指示一个或多个分类概率154,其被确定为与和对象120相关联的多个分类相关联的多个概率,诸如但不限于:对象类型分类(例如,车辆、行人、自行车等)、对象行为分类(例如,自信的、正常的、回避的、攻击性的等)、对象注视分类(例如,分心的行人、警觉的行人等)、对象轨迹分类(例如,在路上、留在人行道上、乱穿马路等)、车道改变分类(例如,改变车道进入我的车道)和/或紧急车辆分类。
另外地或可选择地,在操作150处,所述过程可以包括至少部分地基于处理分类概率154来控制车辆106。在一些示例中,操作150可以由车辆106来执行。在一些示例中,操作150可以包括生成用于车辆106的一个或多个系统的路线、轨迹、和/或控制信号,以在环境内导航车辆106。
图2描绘了多分辨率体素空间202和与所述体素空间相关联的多通道图像数据的示例200。在一些示例中,多分辨率体素空间202可以对应于先前关于图1所描述的示例体素空间。
多分辨率体素空间202在三维(例如,x、y、z)中被图示出并且包括第一层级204、第二层级206和第三层级208。
二维表示(例如,图示了第一层级204的x-y方面)被图示为第一层级210。
二维表示(例如,图示了第二层级206的x-y方面)被图示为第二层级212。
二维表示(例如,图示了第三层级208的x-y方面)被图示为第三层级214。
示例216描绘了相对于车辆218并置的层级210、层级212和层级214(或者层级204、层级206和层级208)。也就是说,体素层级210、体素层级212和体素层级214能够对应于靠近车辆218的环境的一部分。
如能够通过示例216所看到的,多分辨率体素空间的一些部分能够与一个层级、两个层级、三个层级或者任何数量的层级相关联。例如,点220能够与第一层级210相关联。点222能够与第一层级210和第二层级212相关联。也就是说,点222能够在与第一层级210相关联的第一体素以及与第二层级212相关联的第二体素中表示,其中,所述第一体素和所述第二体素至少部分地重叠。点224能够与第一层级210、第二层级212和第三层级214相关联。也就是说,点224能够在与第一层级210相关联的第一体素、与第二层级212相关联的第二体素以及与第三层级214相关联的第三体素中表示,其中,第一体素、第二体素和第三体素至少部分地重叠。
附加地或可选择地,层级210、层级212和层级214中的每个层级可以用于确定对应的多通道图像数据,诸如表示层级210、层级212和层级214中的每个层级的俯视图的多通道图像数据,用于输入到ML模型的所述第一部分126中,以用于根据如上文关于图1所描述的被配置用于对应层级的分辨率的过程100进行处理。在一些示例中,分别对应于层级210、层级212和层级214的多通道输入图像中的每个可以被并行地处理,或者对应于多分辨率体素空间202中所包括的体素空间的数量的任意数量的层级,以及输出数据可以被聚合以确定对象的分类概率。例如,对应于表示最粗略分辨率层级210的俯视图的多通道图像数据的每实体的logit可以被存储,其扩展了第一和最远范围。另外,对应于表示中间分辨率层级212的俯视图的多通道图像数据的每实体的logit可以被存储,其扩展第二和中间范围,并且可以覆盖对应于表示最粗略分辨率层级210的俯视图的多通道图像数据的每实体的logit的一部分,其向外到第二和中间范围。另外,对应于表示最精细分辨率层级214的俯视图的多通道图像数据的每实体的logit可以被存储,其扩展第三范围和最短范围,并且可以覆盖对应于表示中间分辨率层级212的俯视图的多通道图像数据和/或表示最粗略分辨率层级210的俯视图的多通道图像数据的每实体的logit的一部分,其向外到第三和最短范围。
在一些示例中,操作能够包括独立于其他体素和/或体素层级在每个体素中累积数据。也就是说,传感器数据可以在体素空间中被表示为原始传感器数据(例如,与数据点相关联的个体的<x、y、z、范围、时间等>值)或者可以被表示为数据的统计累计。例如,传感器数据可以在体素空间中累积,其中,个体的体素包括经处理的数据,诸如数据点的数量、平均强度、与个体的体素相关联的传感器数据的平均x值、与个体的体素相关联的传感器数据的平均y值、与个体的体素相关联的传感器数据的平均z值、和/或基于与体素相关联的传感器数据的协方差矩阵。即使在一个层级的体素与另一层级的体素至少部分地重叠的情况下,针对每个体素的传感器数据也能够独立地累积。
附加地或可选择地,传感器数据可以被表示为与环境的各个部分相关联的多通道图像数据。可以确定针对所述环境的区域的特征数据。
如前所述,传感器数据可以在体素空间中累积和/或与环境的各个部分相关联,其中,个体的体素和/或部分包括表示特征226的特征数据,诸如,例如(对于与列相关联的传感器数据)多个空间特征228和非空间特征230。在一些示例中,空间特征228可以包括但不限于:环境的地图信息(例如,车道标线、人行横道、交通灯的位置、建筑物位置等)、环境中对象的边界框、环境中对象的大小等。附加地或可选择地,非空间特征230可以包括但不限于环境中对象的速度、环境中对象的加速度、与环境中对象的灯相关联的照明状态、对象行为类别(例如,攻击性、正常等)等。在一些示例中,与传感器数据和/或三维体素空间相关联的一个或多个特征226可以被编码或者以其他方式存储为多通道输入图像的层。因此,可以高效地表示所述数据以用于对机器学习模型的输入,诸如关于图1所描述的ML模型的第一部分126。
在一些示例中,渲染器可以被配置为生成包括N-通道的多通道输入数据,其中,N可以是对应于与传感器数据相关联的特征226的数量的任意整数。然后,可以基于特征数据226将所述多通道图像数据的N-通道分离成两个通道子集。例如,可以将所述N-通道分离为:第一A-通道,其中,A可以是对应由特征226表示的空间特征228的数量的任意整数;以及第二B-通道,其中,B可以是对应于由环境中每实体的特征数据226表示的非空间特征230的数量的任意整数。所述多通道图像数据的N-通道然后可以由系统在ML模型中的不同点处以及由ML模型的不同部分来处理。例如,包括所述第一A-通道的输入数据可以被输入到ML模型的第一部分,其中,表示所述第一A-通道的所述数据可以被转换,使得与对应于所述环境中的对象(或实体)的像素相关联的特征中的所有特征可以被聚合以表示针对给定对象的所有特征226。一旦这些A-通道被表示为每对象的特征,然后就可以将其与B-通道进行组合,其包括由稍后在处理管道中每实体的特征数据表示的非空间特征130。
所述N-通道输入图像数据的A-通道与B-通道之间的这种分离导致ML分类管道的更快执行,因为仅有第一A-通道被输入到所述管道的密集主干部分中,由于执行所需的功率成本较低,因此占用空间较小。另外,由于利用密集神经网络对多通道输入数据中所包括的所有内容进行空间处理,导致对应于通道数量的权重按比例增加,将输入到密集网络中的通道数量从N-通道减少到第一A-通道(其中,A是N的子集)可以导致推理时间显著减少,其与通道数量的减少成比例。
图2B描绘了示例处理管道240、示例处理管道250和示例处理管道260,其用于处理可以按不同分辨率渲染的环境的各种范围。在一些示例中,输入团块244、输入团块254和输入团块264可以对应于先前关于图1所描述的多通道图像数据114。在一些示例中,处理管道240、处理管道250和处理管道260可以实施对应于先前关于图1所描述的过程100的技术。
如前所述,本文描述的技术可以并行地执行多次,对应于作为多通道图像数据的环境的渲染器的数量。例如,第一范围团块渲染器242可以将表示环境的第一部分的第一多通道输入团块244渲染为与第一范围(例如,50m×50m)相关联的多通道图像数据(例如,自上而下的多通道图像数据)。附加地或可选择地,第二范围团块渲染器252可以将表示环境的第二部分的第二多通道输入团块254渲染为与第二范围(例如,100m×100m)相关联的多通道图像数据(例如,自上而下的多通道图像数据)。附加地或可选择地,第三范围团块渲染器262可以将表示环境的第三部分的第三多通道输入团块264渲染为与第三范围(例如,200m×200m)相关联的多通道图像数据(例如,自上而下的多通道图像数据)。
在一些示例中,多通道输入团块244、多通道输入团块254和多通道输入团块264能够表示所述环境的至少部分地重叠的部分。在一些示例中,不同的多通道输入团块244、多通道输入团块254和多通道输入团块264能够以公共点为中心。输入团块244、输入团块254和输入团块264能够并行地输入到不同的机器学习模型246、机器学习模型256和机器学习模型266,配置用于各种范围以确定由输入团块244、输入团块254和输入团块264所表示的“像素”或对象的分类信息。与所述环境的重叠部分相关联的输出能够被聚合以确定针对多个输入团块244、输入团块254和输入团块264中所表示的对象的分类。
在第一示例处理管道240中,第一多通道输入团块244可以被输入到第一范围ML模型246中,其被配置为处理表示与第一、最短范围相关联的环境的一部分的多通道输入团块244。第一范围ML模型246可以确定表示针对环境的第一范围内的实体的多个logit(例如,表示从0或负无穷大到1或无穷大的概率值的函数)248的输出数据。
在第二示例处理管道250中,第二多通道输入团块254可以被输入到第二范围ML模型256中,其被配置为处理表示与第二、中间范围相关联的环境的一部分的多通道输入团块254。第二范围ML模型256可以确定表示针对环境的第二范围内的实体的多个logit(例如,表示从0或负无穷大到1或无穷大的概率值的函数)258的输出数据。另外地或可选择地,第二范围ML模型256可以确定表示针对第二范围内并且在第一范围之外的实体的logit 258的输出数据。
在第三示例处理管道260中,第三多通道输入团块264可以被输入到第三范围ML模型266中,其被配置为处理表示与第三、最长范围相关联的环境的一部分的多通道输入团块264。第三范围ML模型266可以确定表示针对环境的第三范围内的实体的多个logit(例如,表示从0或负无穷大到1或无穷大的概率值的函数)268的输出数据。另外地或可选择地,第三范围ML模型266可以确定表示针对第三范围内并且在第二范围之外的实体的logit 268的输出数据。
在一些示例中,表示通过ML模型246、256和266确定的各种范围内的实体的logit248、258和268的输出数据,可以被分别地聚合以确定针对环境中对象的分类概率。例如,可以首先收集针对第三范围内的实体的logit 268以用于聚合。可以其次收集针对第二范围内的实体的logit 258,以及可以覆盖针对从中心点向外到第二范围的第三范围内的实体的logit 268的一部分。可以第三收集针对第一范围内的实体的logit 248,以及可以覆盖第三范围内的每实体的logit 268的一部分和/或从中心点向外到第一范围的第二范围内的每实体的logit 258的一部分。
因此,所述输出数据可以表示针对第一范围内的实体的logit 248、针对第二范围内并且在第一范围之外的实体的logit 258、以及针对第三范围内并且在第二范围之外的实体的logit 268。在一些示例中,基于所述输出数据,可以确定可以按不同分辨率渲染的环境的各种范围中的一个或多个对象的分类概率。例如,logit可以指示与和对象相关联的多个分类相关联的多个概率,诸如但不限于:对象类型分类(例如,车辆、行人、自行车等)、对象行为分类(例如,自信的、正常的、回避性的、攻击性的等)、对象注视分类(例如,分心的行人、警觉的行人等)、对象轨迹分类(例如,在路上、留在人行道上、乱穿马路等)、车道改变分类(例如,变道到我的车道)、和/或紧急车辆分类。这些分类概率仅仅是示例并且技术并不限于这些特定示例。
这种针对由多通道图像数据表示的环境的不同范围中的每个范围的处理管道的分离避免了利用单个管道处理所有不同范围时可能出现的处理限制。在一些示例中,增加由图像数据表示的范围以及使用相同的分辨率将与范围的增加成比例地增加处理和空间要求。例如,与在第一分辨率(例如,大约每像素10cm)的第一范围(例如,50m×50m)相关联的第一多通道图像数据可以按与在第二分辨率(例如,每像素大约40cm)的第二范围(例如,100m×100m)相关联的第二多通道图像数据基本上相似的速率被渲染和处理,因为在增加范围的同时,处理基本上相似数量的像素。尽管较大的第二范围具有比较短的第一范围更粗略的分辨率,但是第一范围可以提供可接受的分辨率以识别靠近车辆的对象,其需要更精细的分辨率像素以用于处理,从而产生更准确的分类结果。另外,将单独的处理管道配置为并行地运行并且然后聚合结果数据可以进一步改进渲染和/或处理时间。
图3A描绘了用于利用ML模型处理多通道图像数据的系统的示例架构300。
如图所示,诸如多通道图像数据的主干输入特征302可以被输入到神经网络的主干304或特征提取组件中。主干304可以按各种方式配置,使得取决于主干304的配置,主干输入特征302可以被变换为密集主干特征306。在一些示例中,密集主干特征306可以包括与多通道图像数据的层相关联的特征的密集表示(或者值的集合)。在一些示例中,特征的密集表示可以包括与在主干输入特征302中表示的像素相关联的特征向量。
密集主干特征306,包括与主干输入特征302中表示的各个像素相关联的特征向量,可以通过聚合308组件来传递,其可以聚合对应于单个实体的像素的所有特征向量以确定与实体相关联的单个特征向量。可以进一步处理与实体相关联的特征向量以确定环境中每实体的多个logit(例如,表示从0或负无穷大到1或无穷大的概率值的函数)。
图3B描绘了用于经由ML模型的第一部分处理多通道图像数据以及经由ML模型的第二部分处理中间输入数据以及将结果进行级联以进一步处理所述数据的系统的示例架构320。
如图所示,诸如多通道图像数据的主干输入特征302可以被输入到神经网络的主干304或特征提取组件中。在一些示例中,多通道输入数据可以包括N-通道,其中,N可以是对应于与传感器数据相关联的特征的数量的任意整数。然后,可以基于所述特征数据将所述多通道图像数据的N-通道分成两个通道子集。例如,N-通道可以被分离为:第一A-通道,其中,A可以是对应于由特征数据表示的空间特征的数量的任意整数;以及第二B-通道,其中,B可以是对应于由特征数据表示的非空间特征的数量的任意整数。
如前所述,主干304可以按各种方式来配置,使得取决于主干304的配置,主干输入特征302可以被变换为密集主干特征306。在一些示例中,密集主干特征306可以包括与所述多通道图像数据的第一A-通道相关联的特征的密集表示(或者值的集合)。在一些示例中,所述特征的密集表示可以包括与所述多通道图像数据中表示的像素相关联的特征向量。
密集主干特征306然后可以进行掩模322操作以确定每实体(对象)的特征图324。在一些示例中,可以利用单通道图像来掩模密集主干特征以及检测一个或多个实体。在一些示例中,渲染器可以生成单通道图像,其包括图像中所包括的实体的中心(或者每个实体的各自的中心)的指示。单通道图像也可以包括与环境中的实体相关联的占用指示。例如,单通道图像可以与密集主干特征306对准,或者以其他方式掩模密集主干特征306,以提供关于密集主干特征306的占用指示。在密集主干特征306中没有占用指示的情况下,可以忽略对应的特征向量,以及在密集主干特征306中有占用指示的情况下,可以收集对应的特征向量。所收集到的对应于单个实体的特征向量可以被聚合以确定与所述实体相关联的单个特征向量,以及所述单个特征向量可以在所述实体的中心处表示。每实体的所有特征向量可以被包括在每实体的特征图324中。
在一些示例中,基于对应于特定特征的传感器数据,稀疏渲染器326可以被配置为生成表示每实体的额外特征328的额外特征数据诸如,,例如表示非空间特征的第二B通道。每实体的额外特征328可以包括由传感器数据表示的每实体的多个特征。在一些示例中,每实体的额外特征可以被配置为与实体相关联的特征向量。
在一些示例中,可以执行每特征的级联操作。例如,在对应于多通道图像数据中的对象的位置的图形参考处表示的每个特征向量,诸如,例如被包括在每实体的特征图324中的实体的中心,可以与每实体的额外特征328进行级联(即,将与实体相关联的特征向量和与实体相关联的额外特征向量进行级联)以确定每实体的特征级联数据330。然后,可以将每实体的特征级联数据330输入到密集神经网络中,诸如,例如基于每实体的深度神经网络(DNN)。每实体的特征级联数据330可以被传递通过每实体的密集网络332,其可以处理每实体的特征级联数据330以确定被包括在所述环境中的每实体的多个logit 310。
图4是用于实施本文描述的技术的示例系统400的框图。在至少一个示例中,系统400可以包括车辆402。在示出的示例系统400中,车辆402是自主车辆;然而,车辆402可以是任何其他类型的车辆。
车辆402可以是无人驾驶车辆,诸如被配置为根据美国国家公路交通安全管理局发布的5级分类操作的自主车辆,该分类描述了一种能够在整个行程中执行所有安全关键功能的车辆,其中驾驶员(或乘员)不被期望在任何时候控制车辆。在这样的示例中,因为车辆402可以被配置为控制从行程开始到完成的所有功能,包括所有停车功能,其可以不包括驾驶员和/或用于驱动车辆402的控制器,诸如方向盘、加速踏板和/或制动踏板。这仅仅是一个示例,并且本文描述的系统和方法可以被结合到任何地面、空中或水上交通工具中,包括那些从需要始终由驾驶员手动控制的交通工具到那些部分或完全自主控制的交通工具。
车辆402可以包括一个或多个计算设备404、一个或多个传感器系统406、一个或多个发射器408、一个或多个通信连接410(也被称为通信设备和/或调制解调器)、至少一个直接连接412(例如,用于与车辆402物理耦合以交换数据和/或提供电力)、以及一个或多个驱动系统414。一个或多个传感器系统406可以被配置为捕获与环境相关联的传感器数据。
一个或多个传感器系统406可以包括飞行时间传感器、位置传感器(例如,GPS、罗盘等)、惯性传感器(例如,惯性测量单元(IMU)、加速度计、磁力计、陀螺仪等)、激光雷达传感器、雷达传感器、声纳传感器、红外传感器、相机(例如,RGB、IR、强度、深度等)、麦克风传感器、环境传感器(例如,温度传感器、湿度传感器、光传感器、压力传感器等)、超声换能器、车轮编码器等。一个或多个传感器系统406可以包括这些或其他类型的传感器中的每个的多个实例。例如,飞行时间传感器可以包括位于车辆402的拐角、前部、后部、侧面和/或顶部处的个体的飞行时间传感器。作为另一示例,相机传感器可以包括被设置在围绕车辆402的外部和/或内部的各种位置处的多个相机。一个或多个传感器系统406可以向计算设备404提供输入。
车辆402也可以包括一个或多个用于发射光和/或声音的发射器408。在该示例中的一个或多个发射器408包括与车辆402的乘客通信的内部音频和视觉发射器。通过示例而非限制的方式,内部发射器可以包括扬声器、灯、标志、显示屏、触摸屏、触觉发射器(例如,振动和/或力反馈)、机械致动器(例如,安全带张紧器、座椅定位器、头枕定位器等)和类似物。在该示例中的一个或多个发射器408也可以包括外部发射器。作为示例而非限制,在该示例中的外部发射器包括示意行进方向的灯或者车辆动作的其他指示器(例如,指示灯、标志、灯阵列等),以及一个或多个音频发射器(例如,扬声器、扬声器阵列、喇叭等)以与行人或者其他附近车辆以声音进行通信,其中的一个或多个可以包括声束转向技术。
车辆402也可以包括一个或多个通信连接410,其实现车辆402与一个或多个其他本地或远程计算设备(例如,远程操作计算设备)或远程服务之间的通信。例如,一个或多个通信连接410可以促进与车辆402上的其他本地计算设备和/或一个或多个驱动系统414的通信。同样地,一个或多个通信连接410可以允许车辆402与其他附近的(一个或多个)计算设备(例如,其他附近的车辆、交通信号等)进行通信。
一个或多个通信连接410可以包括物理接口和/或逻辑接口,用于将计算设备404连接到另一计算设备或者一个或多个外部网络440(例如,因特网)。例如,一个或多个通信连接410可以启用基于Wi-Fi的通信,诸如经由IEEE 802.11标准定义的频率、诸如蓝牙的短距离无线频率、蜂窝通信(例如,2G、3G、4G、4G LTE、5G等)、卫星通信、专用短程通信(DSRC)、或者任何合适的有线或无线通信协议,其使得各自的计算机装置能够与(一个或多个)其他计算机装置进行交互。
在至少一个示例中,车辆402可以包括一个或多个驱动系统414。在一些示例中,车辆402可以具有单个驱动系统414。在至少一个示例中,如果车辆402具有多个驱动系统414,那么个体的驱动系统414可以被定位在车辆402的相对端部(例如,前部和后部等)上。在至少一个示例中,(一个或多个)驱动系统414可以包括一个或多个传感器系统406,以检测(一个或多个)驱动系统414和/或车辆402的周围环境的状况。作为示例而非限制,(一个或多个)传感器系统406可以包括:一个或多个车轮编码器(例如,旋转编码器)以感测驱动系统的车轮的旋转,惯性传感器(例如,惯性测量单元、加速度计、陀螺仪、磁力计等)以测量驱动系统的取向和加速,相机或其他图像传感器,超声传感器以声学检测驱动系统的周围环境中的对象,激光雷达传感器、雷达传感器等。一些传感器,诸如车轮编码器,可以对于(一个或多个)驱动系统414是独有的。在一些情况下,(一个或多个)驱动系统414上的(一个或多个)传感器系统406可以重叠或补充车辆402的对应系统(例如,(一个或多个)传感器系统406)。
(一个或多个)驱动系统414可以包括车辆系统中的许多系统,包括:高压电池;马达,用于推进车辆;逆变器,用于将来自电池的直流电转换成交流电以供其他车辆系统使用;转向系统,其包括转向马达和转向齿条(其可以是电动);制动系统,其包括液压致动器或电动致动器;悬架系统,其包括液压组件和/或气动部件;稳定性控制系统,其用于分配制动力以减轻牵引力的损失并且维持控制;HVAC系统;照明(例如,诸如用于照亮车辆的外部周围环境的头/尾灯的照明);以及一个或多个其他系统(例如,冷却系统、安全系统、车载充电系统、其他电气组件,诸如DC/DC转换器、高压接头、高压电缆、充电系统、充电端口等)。另外,(一个或多个)驱动系统414可以包括驱动系统控制器,其可以接收和预处理来自(一个或多个)传感器系统406的数据以及控制各种车辆系统的操作。在一些示例中,所述驱动系统控制器可以包括一个或多个处理器和与所述一个或多个处理器通信耦合的存储器。存储器可以存储一个或多个组件以执行(一个或多个)驱动系统414的各种功能。此外,(一个或多个)驱动系统414也包括一个或多个通信连接,其使得各自的驱动系统能够与一个或多个其他本地或远程计算设备进行通信。
车辆计算设备404可以包括一个或多个处理器416和与所述一个或多个处理器416通信耦合的存储器418。在图示出的示例中,计算设备404的存储器418存储:定位组件420、包括体素空间组件424的感知组件422、成像组件426、预测组件432、规划组件434、地图组件436、以及一个或多个系统控制器438。尽管出于例示说明目的被描述为存在于存储器418中,但是可以设想到,定位组件420、感知组件422、体素空间组件424、成像组件426、掩模组件428、特征组件430、预测组件432、规划组件434、地图组件436、以及一个或多个系统控制器438可以另外地或可选择地能由计算设备404访问(例如,被存储在车辆402的不同组件中)和/或能由车辆402访问(例如,远程地存储)。
在计算设备404的存储器418中,定位组件420可以包括从(一个或多个)传感器系统406接收数据以确定车辆402的位置的功能。例如,定位组件420可以包括和/或请求/接收环境的三维地图,并且可以连续地确定自主车辆在地图内的位置。在一些示例中,定位组件420可以使用SLAM(同时定位和映射)或CLAMS(同时校准、定位和映射)以接收时间飞行数据、图像数据、激光雷达数据、雷达数据、声纳数据、IMU数据、GPS数据、车轮编码器数据、或者其任意组合等,以准确地确定自主车辆的位置。在一些示例中,定位组件420可以给车辆402的各种组件提供数据以确定自主车辆的初始位置,以用于生成轨迹,如本文所讨论的。
感知组件422可以包括执行对象检测、分割和/或分类的功能。在一些示例中,感知组件422可以提供经处理的传感器数据,其指示靠近车辆402的实体的存在和/或作为实体类型的实体的分类(例如,汽车、行人、骑自行车的人、建筑物、树木、路面、路缘、人行道、未知项等)。在附加和/或可选择示例中,感知组件422可以提供经处理的传感器数据,其指示与检测到的实体和/或所述实体所处的环境相关联的一个或多个特性。在一些示例中,与实体相关联的特性可以包括但不限于:x位置(全局位置)、y位置(全局位置)、z位置(全局位置)、取向、实体类型(例如,分类)、实体的速度、实体的范围(尺寸)等。与环境相关联的特性可以包括但不限于:环境中另一实体的存在、环境中另一实体的状态、一天中的时间、一周中的一天、季节、天气状况、黑暗/照明的指示等。
如上所述,感知组件422可以使用感知算法以基于传感器数据来确定与环境中的对象相关联的基于感知的边界框。例如,感知组件422可以接收图像数据并且对所述图像数据进行分类以确定对象在图像数据中表示。然后,使用检测算法,感知组件422可以生成与对象相关联的二维边界框和/或基于感知的三维边界框。感知组件422还可以生成与对象相关联的三维边界框。如上所述,三维边界框可以提供与对象相关联的附加信息,诸如位置、取向、姿态和/或尺寸(例如,长度、宽度、高度等)。
感知组件422可以包括存储由感知组件422生成的感知数据的功能。在一些示例中,感知组件422可以确定对应于已经被分类为对象类型的对象的轨迹。仅出于例示说明的目的,使用(一个或多个)传感器系统406的感知组件422可以捕获环境的一幅或多幅图像。(一个或多个)传感器系统406可以捕获环境的图像,其包括诸如行人的对象。行人可以在时间T处于第一位置处,并且在时间T+t处于第二位置处(例如,在时间T之后的时间t的跨度期间的移动)。换句话说,行人可以在该时间跨度期间从第一位置移动到第二位置。这样的移动可以例如被记录为与对象相关联的存储的感知数据。
在一些示例中,存储的感知数据可以包括由车辆捕获的融合的感知数据。融合的感知数据可以包括来自(一个或多个)传感器系统406的传感器数据的融合或者其他组合,诸如图像传感器、激光雷达传感器、雷达传感器、飞行时间传感器、声纳传感器、全球定位系统传感器、内部传感器、和/或这些的任意组合。存储的感知数据可以附加地或可选择地包括分类数据,所述分类数据包括在所述传感器数据中表示的对象(例如,行人、车辆、建筑物、路面等)的语义分类。存储的感知数据可以附加地或可选择地包括跟踪数据(位置、取向、传感器特征等),其对应于被归类为动态对象的对象在环境中的运动。随着时间的推移,跟踪数据可以包括多个不同对象的多个轨迹。可以挖掘该轨迹数据以识别特定类型的对象(例如,行人、动物等)在对象静止(例如,站着不动)或移动(例如,行走、跑步等)时的图像。在该示例中,所述计算设备确定对应于行人的轨迹。
体素空间组件424可以包括接收传感器数据并且将所述传感器数据与一个或多个体素空间相关联作为多分辨率体素空间的功能,其中,在一些示例中,所述体素空间包括三个维度。在一些示例中,体素空间组件424可以包括统计地累积传感器数据以及在其与个体的体素相关联时处理所述传感器的功能。在其他情况下,体素空间组件424可以包括将所述传感器数据与体素空间相关联作为原始传感器数据(例如,与数据点相关联的个体的<x、y、z、范围、时间等>值)的功能。
成像组件426可以包括确定多分辨率体素空间的自上而下表示(或者来自任意视图的表示)的功能。附加地或可选择地,成像组件426可以包括确定多分辨率多通道图像数据以输入到ML模型的第一部分中的功能。例如,成像组件426可以包括渲染多通道输入团块244、多通道输入团块254和多通道输入团块264以分别输入到各种ML模型246、ML模型256和ML模型266中的功能,如先前关于图2B所描述的。附加地或可选择地,所述成像组件可以被配置为渲染各种输入数据,用于在ML模型的各个部分处输入。
掩模组件428可以包括生成单通道图像的功能,所述单通道图像包括环境的图像中所包括的对象的中心(或者每个对象的相应中心)的指示。附加地或可选择地,掩模组件428可以包括掩模一些输入数据的功能,诸如,例如包括一个或多个特征向量的多通道图像数据,以提供关于输入数据的占用指示。
特征组件430可以包括聚合对应于表示环境的图像的像素的特征向量的功能。例如,一个或多个像素可以与对象相关联,以及对应于与对象相关联的一个或多个像素的特征向量可以被聚合以确定与对象相关联的单个特征向量。附加地或可选择地,特征组件430可以包括将与对象相关联的特征向量和表示每对象的一个或多个额外特征的额外特征向量进行级联以确定要输入到ML模型的第二部分的中间输入数据的功能。
预测组件432可以生成一幅或多幅概率图,其表示环境中的一个或多个对象的可能位置的预测概率。例如,预测组件432可以为距车辆402的阈值距离内的车辆、行人、动物等生成一幅或多幅概率图。在一些示例中,预测组件432可以基于观察行为和预测行为来测量对象的轨迹并且生成离散预测概率图、热图、概率分布、离散概率分布、和/或对象的轨迹。在一些示例中,一幅或多幅概率图可以表示环境中的一个或多个对象的意图。
规划组件434可以确定车辆402穿过环境要遵循的路径。例如,规划组件434可以确定各种路线和路径以及各种细节层次。例如,规划组件434可以确定从第一位置(例如,当前位置)行进到第二位置(例如,目标位置)的路线。出于本讨论的目的,路线可以是用于在两个位置之间行进的航路点序列。作为非限制性示例,航路点包括街道、十字路口、全球定位系统(GPS)坐标等。此外,规划组件434可以生成指令,用于引导自主车辆沿着从第一位置到第二位置的路线的至少一部分。在至少一个示例中,规划组件434可以确定如何引导自主车辆从航路点序列中的第一航路点到航路点序列中的第二航路点。在一些示例中,指令可以是路径或路径的一部分。在一些示例中,可以根据后退水平技术基本上同时生成(即,在技术容差内)多个路径。可以选择后退数据水平中的多个路径中具有最高置信水平的一个路径来操作车辆。
在其他示例中,规划组件434可以可选择地或附加地使用来自感知组件422和/或预测组件432的数据来确定车辆402要遵循以穿过环境的路径。例如,规划组件434可以从感知组件422和/或预测组件432接收关于与环境相关联的对象的数据。使用该数据,规划组件434可以确定从第一位置(例如,当前位置)行进到第二位置(例如,目标位置)的路线以避开环境中的对象。在至少一些示例中,这样的规划组件434可以确定不存在这样的无冲突路径,以及继而提供路径,使车辆402安全停止,避免所有碰撞和/或以其他方式减轻损坏。
存储器418还可以包括一个或多个地图436,其可以由车辆402使用以在环境内导航。出于本讨论的目的,地图可以是在二维、三维或N维中建模的任意数量的数据结构,其能够提供关于环境的信息,诸如但不限于:拓扑(诸如十字路口)、街道、山脉、道路、地形以及总体环境。在一些示例中,地图可以包括但不限于:协方差数据(例如,在多分辨率体素空间中表示的)、纹理信息(例如,颜色信息(例如,RGB颜色信息、Lab颜色信息、HSV/HSL颜色信息)等)、强度信息(例如,激光雷达信息、雷达信息等)、空间信息(例如,投影到网格上的图像数据、个体的“面元”(例如,与个体的颜色和/或强度相关联的多边形))、反射率信息(例如,镜面反射信息、逆反射信息、BRDF信息、BSSRDF信息等)。在一个示例中,地图可以包括环境的三维网格。在一些情况下,地图可以按平铺格式来存储,使得地图的个体平铺表示环境的离散部分,并且可以根据需要被加载到工作存储器中,如本文所讨论的。在至少一个示例中,一个或多个地图436可以包括至少一个地图(例如,图像和/或网格)。在一些示例中,可以至少部分地基于(一个或多个)地图436来控制车辆402。也就是说,(一个或多个)地图436可以与定位组件420、感知组件422(和子组件)、预测组件432、和/或规划组件434结合使用,以确定车辆402的位置、识别环境中的对象、生成与对象和/或车辆402相关联的(一个或多个)预测概率、和/或生成路线和/或轨迹以在环境内导航。
在至少一个示例中,计算设备404可以包括一个或多个系统控制器438,其可以被配置为控制车辆402的转向、推进、制动、安全、发射器、通信以及其他系统。这些系统控制器438可以与(一个或多个)驱动系统414的对应系统和/或车辆402的其他组件通信和/或对其进行控制,其可以被配置为根据规划组件434提供的路径进行操作。
车辆402可以经由网络440连接到(一个或多个)计算设备442,并且可以包括一个或多个处理器444以及与所述一个或多个处理器444通信耦合的存储器446。在至少一个实例中,一个或多个处理器444可以类似于(一个或多个)处理器416,并且存储器446可以类似于存储器418。在示出的示例中,(一个或多个)计算设备442的存储器446存储远程操作组件448和/或模型组件450。在至少一个实例中,模型组件450在经验测试和/或模拟之后,可以生成由感知组件422所使用的ML的模型,如本文所讨论的。尽管出于说明性目的被描述为存在于存储器446中,但是可以设想到的是,远程操作组件448和模型组件450可以附加地或可选择地能由(一个或多个)计算设备442访问(例如,被存储在(一个或多个)计算设备442的不同组件中)和/或能由(一个或多个)计算设备442访问(例如,远程地存储)。
模型组件450可以包括生成模型以确定多通道图像数据的分割信息、分类信息等的功能,如本文所讨论的。
计算设备404的(一个或多个)处理器416和(一个或多个)计算设备442的(一个或多个)处理器444可以是能够运行指令以处理数据和执行如本文所描述的操作的任何合适的处理器。作为示例而非限制,处理器416和处理器444可以包括一个或多个中央处理单元(CPU)、图形处理单元(GPU)、或者任何其他设备或设备的一部分,其处理电子数据以将该电子数据转换成可以被存储在寄存器和/或存储器中的其他电子数据。在一些示例中,集成电路(例如,ASIC等)、门阵列(例如,FPGA等)、以及其他硬件设备也可以被认为是被配置为实现编码的指令的处理器。
计算设备404的存储器418和(一个或多个)计算设备442的存储器446是非暂时性计算机可读介质的示例。存储器418和/或存储器446可以存储操作系统和一个或多个软件应用、指令、程序、和/或数据以实施本文描述的方法以及归属于各种系统的功能。在各种实施方式中,存储器418和存储器446可以使用任何合适的存储器技术来实施,诸如静态随机存取存储器(SRAM)、同步动态RAM(SDRAM)、非易失性/闪存型存储器、或者能够存储信息的任何其他类型的存储器。本文描述的架构、系统、和个体的元件可以包括许多其他逻辑组件、程序化组件和物理组件,其中,附图中示出的那些组件仅仅是与本文中的讨论有关的示例。
在一些示例中,本文讨论的组件中的一些或所有组件的各方面可以包括任意模型、算法和/或机器学习算法。例如,在一些示例中,存储器418和存储器446中的组件可以被实施为神经网络。
如本文所述,示例性神经网络是将输入数据传递通过一系列连接层以产生输出的算法。神经网络中的每个层也可以包括另一神经网络,或者可以包括任意数量的层(无论是卷积还是非卷积)。如在本公开的上下文中可以理解的,神经网络可以利用机器学习,其可以指代基于学习的参数生成输出的这样的算法的宽泛类别。
尽管在神经网络的上下文中所讨论的,但是可以使用与本公开相一致的任意类型的机器学习。例如,机器学习或机器学习算法可以包括但不限于:回归算法(例如,普通最小二乘回归(OLSR)、线性回归、逻辑回归、逐步回归、多元自适应回归样条(MARS)、局部估计散点图平滑(LOESS)),基于实例的算法(例如,岭回归、最小绝对收缩和选择算子(LASSO)、弹性网络、最小角回归(LARS)),决策树算法(例如,分类与回归树(CART)、迭代二分法3(ID3)、卡方自动交互检测(CHAID)、决策树桩、条件决策树),贝叶斯算法(例如,朴素贝叶斯、高斯朴素贝叶斯、多项式朴素贝叶斯、平均单依赖估计器(AODE)、贝叶斯信念网络(BNN)、贝叶斯网络),聚类算法(例如,k均值、k中值、期望最大化(EM)、层次聚类),关联规则学习算法(例如,感知机、反向传播、跳场网络、径向基函数网络(RBFN)),深度学习算法(例如,深度玻尔兹曼机(DBM)、深度信念网络(DBN)、卷积神经网络(CNN)、堆栈自动编码器),降维算法(例如,主成分分析(PCA)、主成分回归(PCR)、部分最小二乘回归(PLSR)、Sammon映射、多维缩放(MDS)、投影追踪、线性判别分析(LDA)、混合判别分析(MDA)、二次判别分析(QDA)、灵活判别分析(FDA)),集成算法(例如,提升方法、自举聚合(Bagging)、AdaBoost、堆栈泛化(混合)、梯度提升机(GBM)、梯度提升回归树(GBRT)、随机森林)、SVM(支持向量机)、监督学习、无监督学习、半监督学习等。
架构的额外示例包括神经网络,诸如ResNet50、ResNet52、ResNet101、VGG、DenseNet、PointNet等。
图1、图5和图6图示了根据本公开的示例的示例过程。这些过程被图示为逻辑流程图,其每个操作表示可以在硬件、软件或者其组合中实施的操作序列。在软件的上下文中,所述操作表示被存储在一个或多个计算机可读存储介质上的计算机可执行指令,所述算机可执行指令当由一个或多个处理器运行时,执行所描述的操作。通常,计算机可执行指令包括执行特定功能或者实施特定抽象数据类型的例程、程序、对象、组件、数据结构等。描述操作的顺序并不旨在被解释为限制,并且任意数量的所描述的操作可以被忽略或者按任何顺序和/或并行地组合以实施所述过程。
图5是用于以下操作的示例过程500:将输入数据输入到机器学习(ML)模型的第一部分中,将中间输入数据输入到所述ML模型的第二部分中,以及基于来自所述ML模型的第一部分和第二部分的输出数据来确定环境中对象的分类概率。例如,过程500中的一些或全部可以由图4中的一个或多个组件来执行,如本文所描述。例如,过程500中的一些或全部可以由体素空间组件424、成像组件426、掩模组件428和/或特征组件430来执行。
在操作502处,过程500可以包括接收环境的传感器数据。在一些示例中,操作502可以包括接收和/或捕获环境的飞行时间数据、激光雷达数据、图像数据、雷达数据等。在一些示例中,操作502可以由车辆(例如,自主车辆)在其穿越环境时执行。在一些示例中,所述环境可以包括对象,并且所述传感器数据可以包括所述环境中的对象的指示。
在操作504处,过程500可以包括确定表示所述环境的俯视图的多通道图像数据。在一些示例中,所述多通道图像数据可以基于所述传感器数据。在一些示例中,所述多通道图像数据可以对应于多通道图像数据114。在一些示例中,所述多通道图像数据可以包括与对应于所述环境中的对象的空间特征相关联的图像数据。
在操作506处,过程500可以包括确定对应于所述对象的空间特征是否存在于所述图像数据中。作为示例,操作506可以包括确定空间特征存在于所述多通道图像数据中。附加地或可选择地,操作506可以包括确定对象存在于图像数据中。作为另一示例,操作506可以包括确定空间特征和/或对象不存在于所述图像数据中。所述过程可以随后包括操作502以基于确定空间特征和/或对象不存在于图像数据中来重新启动所述过程。
在操作508处,过程500可以包括将所述多通道图像数据输入到机器学习(ML)模型的第一部分中。在一些示例中,所述ML模型的第一部分可以被配置为诸如例如卷积神经网络(CNN)的神经网络的骨干或特征提取组件。所述ML模型的所述第一部分可以处理所述多通道图像数据以及确定对应于所述多通道图像数据的中间输出数据。
在操作510处,过程500可以包括从所述ML模型的所述第一部分接收中间输出数据。在一些示例中,所述中间输出数据可以至少部分地基于所述多通道图像数据。
在操作512处,过程500可以包括所述过程可以包括确定表示与所述对象相关联的非空间特征的非空间特征数据。在一些示例中,所述非空间特征数据可以至少部分地基于所述传感器数据。附加地或可选择地,所述非空间特征数据可以与关联于所述对象的非空间特征相关联。在一些示例中,所述非空间特征数据可以对应于特征136。
在操作514处,过程500可以包括将所述中间输出数据和所述非空间特征数据输入到所述ML模型的第二部分中。在一些示例中,所述ML模型的所述第二部分可以被配置为密集神经网络,诸如,例如深度神经网络(DNN)。所述中间输出数据和/或所述空间特征数据可以被转换或者以其他方式级联,并且在每对象的基础上被传递通过所述ML模型的所述第二部分,以及所述ML模型的所述第二部分可以处理所述中间输出数据和/或所述非空间特征数据,以及确定表示每对象的多个logit的输出数据。
在操作516处,过程500可以包括从所述ML模型的所述第二部分接收输出数据。在一些示例中,所述输出数据可以至少部分地基于所述中间输出数据和/或所述非空间特征数据。在一些示例中,所述输出数据可以表示环境中的每对象的多个logit(例如,表示从0或负无穷大到1或无穷大的概率值的函数)。
在操作518处,过程500可以包括确定针对所述对象的分类概率。在一些示例中,所述分类概率可以至少部分地基于从所述ML模型的所述第二部分接收到的所述输出数据。在一些示例中,所述分类概率可以至少部分地基于由所述输出数据表示的每对象的logit。在一些示例中,所述分类概率可以指示以下中的至少一项:对象类型分类(例如,车辆、行人、自行车等)、对象行为分类(例如,自信的、正常的、回避性的、攻击性的等)、对象注视分类(例如,分心的行人、警觉的行人等)、对象轨迹分类(例如,在路上、留在人行道上、乱穿马路等)、车道改变分类(例如,变道到我的车道)、和/或紧急车辆分类。
图6是用于以下操作的示例过程600:将第一输入数据输入到第一ML模型中,将第二输入数据输入到第二ML模型中,从所述第一ML模型接收与对象相关联的第一分类,从所述第二ML模型接收与对象相关联的第二分类,以及基于所述第一分类或所述第二分类来控制自主车辆。例如,过程600中的一些或全部可以由图4中的一个或多个组件来执行,如本文所描述。例如,过程600中的一些或全部可以由体素空间组件424、成像组件426、掩模组件428和/或特征组件430来执行。
在操作602处,过程600可以包括接收环境的传感器数据。在一些示例中,操作502可以包括接收和/或捕获环境的飞行时间数据、激光雷达数据、图像数据、雷达数据等。在一些示例中,操作502可以由车辆(例如,自主车辆)在其穿过环境时执行。
在操作604处,过程600可以包括确定表示所述环境的第一区域的第一俯视图(top-down view)的第一多通道图像数据。在一些示例中,所述第一多通道图像数据可以基于所述传感器数据。在一些示例中,所述多通道图像数据可以对应于多通道图像数据114。
在操作606处,过程600可以包括确定表示所述环境的第二区域的第二俯视图的第二多通道图像数据。在一些示例中,所述第二多通道图像数据可以基于所述传感器数据。在一些示例中,所述第二多通道图像数据可以对应于多通道图像数据114。在一些示例中,所述环境的所述第二区域可以大于所述第一区域。在一些示例中,所述第二多通道输入数据的分辨率可以低于所述第一多通道输入数据的分辨率。
在操作608处,过程600可以包括将所述第一多通道图像数据输入到第一机器学习(ML)模型中。在一些示例中,所述第一ML模型可以对应于处理管道240、处理管道250或处理管道260中的任意处理管道,如先前关于图2B所描述的。在一些示例中,所述第一ML模型可以包括第一部分和第二部分。在一些示例中,所述第一ML模型的所述第一部分可以被配置为诸如例如卷积神经网络(CNN)的神经网络的主干或特征提取组件。附加地或可选择地,所述第一ML模型的所述第二部分可以被配置为密集神经网络,诸如,例如深度神经网络(DNN)。
在操作610处,过程600可以包括将所述第二多通道图像数据输入到第二机器学习(ML)模型中。在一些示例中,所述第二ML模型可以对应于处理管道240、处理管道250或处理管道260中的任意处理管道,如先前关于图2B所描述的。在一些示例中,所述第二ML模型可以包括第一部分和第二部分。在一些示例中,所述第二ML模型的所述第一部分可以被配置为诸如例如卷积神经网络(CNN)的神经网络的主干或特征提取组件。附加地或可选择地,所述第二ML模型的所述第二部分可以被配置为密集神经网络,诸如例如深度神经网络(DNN)。
在操作612处,过程600可以包括从所述第一ML模型接收第一输出数据。在一些示例中,所述第一输出数据可以包括与所述环境中的对象相关联的第一分类。在一些示例中,所述第一输出数据可以基于所述环境中的每对象的多个logit(例如,表示从0或负无穷大到1或无穷大的概率值的函数)。附加地或可选择地,所述第一输出数据可以对应于针对实体的任何logit 248、258或268的至少一部分,如先前关于图2B所描述的。
在操作614处,过程600可以包括从所述第二ML模型接收第二输出数据。在一些示例中,所述第二输出数据可以包括与所述环境中的所述对象相关联的第二分类。在一些示例中,所述第二输出数据可以基于所述环境中的每对象的多个logit(例如,表示从0或负无穷大到1或无穷大的概率值的函数)。附加地或可选择地,所述第二输出数据可以对应于实体的任何logit 248、258或268的至少一部分,如先前关于图2B所描述的。
在操作616处,过程600可以包括确定与所述第一分类相关联的第一概率或者与所述第二分类相关联的第二概率是否满足阈值概率。作为示例,操作616可以包括确定所述第一概率或所述第二概率中的至少一个满足所述阈值概率以及可以基于所述第一分类或所述第二分类来控制自主车辆。作为另一示例,操作616可以包括确定所述第一概率和所述第二概率两者都不满足所述阈值概率。过程600可以随后包括操作602,以基于确定所述第一概率和所述第二概率两者都不满足所述阈值概率来重新启动所述过程。
在操作618处,过程600可以包括至少部分地基于所述对象来控制车辆。在一些示例中,操作618可以包括生成轨迹以停止所述车辆或者以其他方式控制所述车辆安全地穿越所述环境。在一些示例中,操作618可以包括基于检测到的对象来修改候选轨迹,例如以确定车辆在环境中遵循的经修改的轨迹。
示例条款
A、一种系统,包括:一个或多个处理器;以及一个或多个非暂时性计算机可读介质,其存储能由一个或多个处理器运行的指令,其中,所述指令当被运行时,使得所述系统执行以下操作,包括:从与包括对象的环境相关联的传感器接收传感器数据;至少部分地基于所述传感器数据来确定表示所述环境的俯视图的多通道图像数据,所述多通道图像数据包括与对应于所述对象的空间特征相关联的图像数据;将所述多通道输入数据输入到机器学习(ML)模型的第一部分中;从所述ML模型的所述第一部分接收中间输出数据作为中间输出,其中,所述中间输出数据包括被编码为与所述对象相关联的所述空间特征;至少部分地基于所述传感器数据来确定表示与所述对象相关联的非空间特征的非空间特征数据;将所述中间输出数据和所述非空间特征数据输入到所述ML模型的第二部分中;从所述ML模型的所述第二部分接收输出数据;以及至少部分地基于所述输出数据来确定针对所述对象的分类概率。
B、根据段落A的系统,其中:所述空间特征包括以下中的至少一项:与所述环境相关联的地图信息;与所述对象相关联的边界框;或者与所述对象相关联的尺寸;以及所述非空间特征包括以下中的至少一项:与所述对象相关联的速度;与所述对象相关联的加速度;或者与所述对象相关联的光照状态。
C、根据段落A或B中的任一项的系统,其中,所述分类概率包括以下中的至少一项:对象类型分类;对象行为分类;对象注视分类;对象轨迹分类;车道改变分类;或者紧急车辆分类。
D、根据段落A-C中的任一项的系统,还包括:确定对应于所述对象在所述多通道图像数据内的对应位置的图形参考,其中,所述空间特征至少部分地基于所述图形参考被编码为与所述对象相关联。
E、根据段落A-D中的任一项的系统,其中,所述ML模型的所述第一部分包括卷积神经网络(CNN)以及所述ML模型的所述第二部分包括深度神经网络(DNN)。
F、一种方法,包括:从与包括对象的环境相关联的传感器接收传感器数据;至少部分地基于所述传感器数据来确定表示所述环境的空间数据;将空所述间数据输入到机器学习(ML)模型的第一部分中;从所述ML模型的所述第一部分接收中间数据,其中,所述中间数据包括空间特征数据,所述空间特征数据对应于被编码为与所述对象相关联的空间特征;至少部分地基于所述传感器数据来确定对应于与所述对象相关联的特征的次要特征数据;将所述空间特征数据和所述次要特征数据输入到所述ML模型的第二部分中;以及至少部分地基于从所述ML模型的所述第二部分接收到的数据来确定所述对象的分类概率。
G、根据段落F的方法,其中:所述空间特征包括以下中的至少一项:与所述环境相关联的地图信息;与所述对象相关联的边界框;或者与所述对象相关联的尺寸;并且所述特征包括以下中的至少一项:与所述对象相关联的速度;与所述对象相关联的加速度;或者与所述对象相关联的光照状态。
H、根据段落G的方法,其中,所述空间数据表示所述环境的俯视图。
I、根据段落F-H中的任一项的方法,还包括:确定掩模,所述掩模识别所述对象在所述空间数据中的对应位置;以及基于所述掩模和所述空间数据来确定与所述对象相关联的特征向量,其中,所述中间数据包括所述特征向量。
J、根据段落F-I中的任一项的方法,其中,所述ML模型的所述第一部分包括卷积神经网络(CNN),并且所述ML模型的所述第二部分包括深度神经网络(DNN)。
K、根据段落F-J中的任一项的方法,其中,所述空间数据是对应于到所述环境中的原点的第一范围的第一空间数据,其中,所述ML模型包括第一ML模型,并且所述方法还包括:至少部分地基于所述传感器数据来确定第二空间数据,其中,所述空间数据对应于到所述原点的第二范围,所述第一范围小于所述第二范围;将所述第二空间数据输入到第二ML模型中,所述第二ML模型被配置为确定与所述第二范围相关联的分类概率;并且其中,确定所述分类概率还至少部分地基于所述第二ML模型的输出。
L、根据段落F-K中的任一项的方法,还包括:将所述传感器数据与表示所述环境的三维体素空间相关联;并且其中,所述空间数据表示所述三维体素空间的降维表示。
M、根据段落F-L中的任一项的方法,还包括从与所述环境中的自主车辆相关联的传感器接收所述传感器数据。
N、根据段落F-M中的任一项的方法,还包括至少部分地基于所述分类概率来控制自主车辆。
O、一个或多个非暂时性计算机可读介质,存储能由处理器运行的指令,其中,所述指令当被运行时,使得所述处理器执行以下操作,包括:从与包括对象的环境相关联的传感器接收传感器数据;至少部分地基于所述传感器数据来确定表示所述环境的空间数据;将所述空间数据输入到机器学习(ML)模型的第一部分中;从所述ML模型的所述第一部分接收中间数据,其中,所述中间数据包括空间特征数据,所述空间特征数据对应于被编码为与所述对象相关联的空间特征;至少部分地基于所述传感器数据来确定对应于与所述对象关联的特征的次要特征数据;将所述空间特征数据和所述次要特征数据输入到所述ML模型的第二部分中;以及至少部分地基于从所述ML模型的所述第二部分接收到的数据来确定所述对象的分类概率。
P、根据段落O的一个或多个非暂时性计算机可读介质,其中:所述空间特征包括以下中的至少一项:与所述环境相关联的地图信息;与所述对象相关联的边界框;或者与所述对象相关联的尺寸;并且所述特征包括以下中的至少一项:与所述对象相关联的速度;与所述对象相关联的加速度;或者与所述对象相关联的光照状态。
Q、根据段落P的一个或多个非暂时性计算机可读介质,其中,所述空间数据表示所述环境的俯视图。
R、根据段落Q的一个或多个非暂时性计算机可读介质,其中,所述空间数据包括:第一通道,其包括第一空间特征;以及第二通道,其包括第二空间特征。
S、根据段落O-R中的任一项的一个或多个非暂时性计算机可读介质,所述操作还包括:确定掩模,所述掩模识别所述对象在所述空间数据中的对应位置;以及基于所述掩模和所述空间数据来确定与所述对象相关联的特征向量,其中,所述中间数据包括所述特征向量。
T、根据段落O-S中的任一项的一个或多个非暂时性计算机可读介质,其中,所述ML模型的所述第一部分包括卷积神经网络(CNN),并且所述ML模型的所述第二部分包括深度神经网络(DNN)。
U、一种系统,包括:一个或多个处理器;以及一个或多个非暂时性计算机可读介质,其存储能由一个或多个处理器运行的指令,其中,所述指令当被运行时,使得所述系统执行以下操作,包括:从与包括自主车辆的环境相关联的传感器接收传感器数据;至少部分地基于所述传感器数据来确定表示所述环境的第一区域的第一俯视图的第一多通道输入数据;至少部分地基于所述传感器数据来确定表示所述环境的第二区域的第二俯视图的第二多通道输入数据,所述环境的所述第二区域大于所述第一区域,并且所述第二多通道输入数据具有比所述第一多通道输入数据更低的分辨率;将所述第一多通道输入数据输入到第一机器学习(ML)模型中;将所述第二多通道输入数据输入到第二ML模型中;从所述第一ML模型接收第一输出数据,所述第一输出数据包括与所述环境中的对象相关联的第一分类;从所述第二ML模型接收第二输出数据,所述第二输出数据包括与所述对象相关联的第二分类;以及至少部分地基于所述第一分类或所述第二分类来控制所述自主车辆。
V、根据段落U的系统,其中,所述环境的所述第一区域与所述环境的所述第二区域至少部分地重叠。
W、根据段落U或V中的任一项的系统,所述操作还包括:确定所述对象与所述环境的所述第一区域相关联;以及至少部分地基于确定所述对象在所述第一区域内而舍弃所述第二分类;其中,控制所述自主车辆是至少部分地基于所述第一分类的。
X、根据段落U-W中的任一项的系统,其中,所述第一多通道输入数据的第一通道包括第一特征数据,所述第一特征数据表示与所述对象相关联的特征;并且所述第二多通道输入数据的第二通道包括第二特征数据,所述第二特征数据表示与所述对象相关联的所述特征。
Y、根据段落U-X中的任一项的系统,其中,所述第一多通道输入数据表示所述环境中的空间特征和所述对象。
Z、一种方法,包括:从与环境相关联的传感器接收传感器数据;至少部分地基于所述传感器数据来确定表示所述环境的第一区域的第一输入数据;至少部分地基于所述传感器数据来确定表示所述环境的第二区域的第二输入数据,所述环境的所述第二区域大于所述第一区域并且所述第二输入数据以低于所述第一输入数据的分辨率来表示所述环境;将所述第一输入数据输入到第一机器学习(ML)模型中;将所述第二输入数据输入到第二ML模型中;以及至少部分地基于从所述第一ML模型接收到的与所述环境中的对象相关联的第一分类,或者从所述第二ML模型接收到的与所述环境中的所述对象相关联的第二分类,来控制自主车辆。
AA、根据段落Z的方法,其中,所述环境的所述第一区域与所述环境的所述第二区域至少部分地重叠。
AB、根据段落Z或AA的系统,还包括:确定所述对象与所述环境的所述第一区域相关联;以及至少部分地基于确定所述对象在所述第一区域内而舍弃第二分类;其中,控制所述自主车辆是至少部分地基于所述第一分类的。
AC、根据段落Z-AB中的任一项的系统,其中:所述第一输入数据包括第一多通道输入数据;所述第一多通道输入数据的第一通道包括第一特征数据,所述第一特征数据表示与所述对象相关联的特征;并且所述第二多通道输入数据的第二通道包括第二特征数据,所述第二特征数据表示与所述对象相关联的所述特征。
AD、根据段落Z-AC中的任一项的方法,其中,所述第一输入数据表示所述环境中的空间特征和所述对象。
AE、根据段落Z-AD中的任一项的方法,还包括确定与所述传感器数据相关联的特征数据,所述特征数据表示与所述对象相关联的特征,并且其中,所述第一输入数据包括至少部分地基于所述特征的第一子集的多个通道。
AF、根据段落Z-AE中的任一项的方法,还包括:将所述第一输入数据输入到所述第一ML模型的第一部分中;从所述第一ML模型的所述第一部分接收中间输出数据;至少部分地基于与所述对象相关联的所述特征的第二子集和所述中间输出数据来确定中间输入数据;将所述中间输入数据输入到所述第一ML模型的第二部分中;以及从所述第一ML模型的所述第一部分接收第一输出数据,所述第一输出数据包括与所述对象相关联的所述第一分类。
AG、根据段落Z-AF中的任一项的方法,其中:所述特征的所述第一子集包括以下中的至少一项:与所述环境相关联的地图信息;与所述对象相关联的边界框;或者与所述对象相关联的尺寸;并且所述特征的第二子集包括以下中的至少一项:与所述对象相关联的速度;与所述对象相关联的加速度;或者与所述对象相关联的光照状态。
AH、根据段落Z-AG中的任一项的方法,还包括将所述传感器数据与表示所述环境的三维体素空间相关联,所述三维体素空间包括所述第一区域和所述第二区域;并且其中,所述第一输入数据包括对应于所述三维体素空间内的所述第一区域的体素数据。
AI、一个或多个非暂时性计算机可读介质,存储能由处理器运行的指令,其中,所述指令当被运行时,使得所述处理器执行以下操作,包括:从与环境相关联的传感器接收传感器数据;至少部分地基于所述传感器数据来确定表示所述环境的第一区域的第一输入数据;至少部分地基于所述传感器数据来确定表示所述环境的第二区域的第二输入数据,所述环境的所述第二区域大于所述第一区域并且所述第二输入数据以低于所述第一输入数据的分辨率来表示所述环境;将所述第一输入数据输入到第一机器学习(ML)模型中;将所述第二输入数据输入到第二ML模型中;以及至少部分地基于从所述第一ML模型接收到的与所述环境中的对象相关联的第一分类,或者从所述第二ML模型接收到的与所述环境中的所述对象相关联的第二分类,来控制自主车辆。
AJ、根据段落AI的一个或多个非暂时性计算机可读介质,其中,所述环境的所述第一区域与所述环境的所述第二区域至少部分地重叠。
AK、根据段落AI或AJ的一个或多个非暂时性计算机可读介质,所述操作还包括:确定所述对象与所述环境的所述第一区域相关联;以及至少部分地基于确定所述对象处在所述第一区域内而舍弃所述第二分类;其中,控制所述自主车辆是至少部分地基于所述第一分类的。
AL、根据段落AI-AK中的任一项的一个或多个非暂时性计算机可读介质,其中:所述第一输入数据包括第一多通道输入数据;所述第一多通道输入数据的第一通道包括第一特征数据,所述第一特征数据表示与所述对象相关联的特征;并且所述第二多通道输入数据的第二通道包括第二特征数据,所述第二特征数据表示与所述对象相关联的所述特征。
AM、根据段落AI-AL中的任一项的一个或多个非暂时性计算机可读介质,其中,所述第一输入数据表示所述环境中的空间特征和所述对象。
AN、根据段落AI-AM中的任一项的一个或多个非暂时性计算机可读介质,所述操作还包括确定与所述传感器数据相关联的特征数据,所述特征数据表示与所述对象相关联的特征,并且其中,所述第一输入数据包括至少部分地基于所述特征的第一子集的多个通道。
尽管上述示例条款是关于一种具体实施方式进行描述的,但是应当理解,在本文的上下文中,示例条款的内容还可以经由方法、设备、系统、计算机可读介质和/或另一实施方式来实施。另外,示例A-AN中的任意一个可以单独地实施或者与示例A-AN中的任意其他一个或多个组合实施。
结论
尽管已经描述了本文所描述的技术的一个或多个示例,但是其各种更改、添加、置换和等同物被包括在本文所描述的技术的范围内。
在示例的描述中,参考形成其一部分的附图,附图通过图示的方式示出所要求保护的主题的特定示例。应当理解,可以使用其他示例并且可以进行诸如结构改变的改变或更改。这样的示例、改变或更改不一定偏离关于意图要求保护的主题的范围。尽管本文中的步骤可以按某种顺序呈现,但是在一些情况下,可以改变排序,使得某些输入在不同的时间或按不同的顺序提供,而不改变所描述的系统和方法的功能。公开的程序也可以按不同的顺序执行。另外,不需要按照所公开的顺序执行本文的计算,并且可以容易地实施使用计算的替代顺序的其他示例。除了被重新排序之外,还可以将计算分解为具有相同结果的子计算。

Claims (15)

1.一种方法,包括:
从与包括对象的环境相关联的传感器接收传感器数据;
至少部分地基于所述传感器数据来确定表示所述环境的空间数据;
将所述空间数据输入到机器学习(ML)模型的第一部分中;
从所述ML模型的所述第一部分接收中间数据,其中,所述中间数据包括空间特征数据,所述空间特征数据对应于被编码为与所述对象相关联的空间特征;
至少部分地基于所述传感器数据来确定对应于与所述对象相关联的特征的次要特征数据;
将所述空间特征数据和所述次要特征数据输入到所述ML模型的第二部分中;以及
至少部分地基于从所述ML模型的所述第二部分接收到的数据来确定所述对象的分类概率。
2.根据权利要求1所述的方法,其中:
所述空间特征包括以下中的至少一项:
与所述环境相关联的地图信息;
与所述对象相关联的边界框;或者
与所述对象相关联的尺寸;并且
所述特征包括以下中的至少一项:
与所述对象相关联的速度;
与所述对象相关联的加速度;或者
与所述对象相关联的照明状态。
3.根据权利要求1或2所述的方法,其中,所述空间数据表示所述环境的俯视图。
4.根据权利要求1-3中的任一项所述的方法,其中,所述空间数据表示多通道图像数据,所述方法还包括:
确定图形参考,所述图形参考对应于所述对象在所述多通道图像数据内的对应位置,其中,至少部分地基于所述图形参考,所述空间特征被编码为与所述对象相关联。
5.根据权利要求1-4中的任一项所述的方法,还包括:
确定掩模,所述掩模标识所述对象在所述空间数据中的对应位置;以及
基于所述掩模和所述空间数据来确定与所述对象相关联的特征向量,其中,所述中间数据包括所述特征向量。
6.根据权利要求1-5中的任一项所述的方法,其中,所述ML模型的所述第一部分包括卷积神经网络(CNN),并且所述ML模型的所述第二部分包括深度神经网络(DNN)。
7.根据权利要求1-6中的任一项所述的方法,其中,所述空间数据是第一空间数据,所述第一空间数据对应于到所述环境中的原点的第一范围,其中,所述ML模型包括第一ML模型,并且所述方法还包括:
至少部分地基于所述传感器数据来确定第二空间数据,其中,所述空间数据对应于到所述原点的第二范围,所述第一范围小于所述第二范围;
将所述第二空间数据输入到第二ML模型中,所述第二ML模型被配置为确定与所述第二范围相关联的分类概率;并且
其中,确定所述分类概率还至少部分地基于所述第二ML模型的输出。
8.根据权利要求1-7中的任一项所述的方法,还包括:
将所述传感器数据与表示所述环境的三维体素空间相关联;并且
其中,所述空间数据表示所述三维体素空间的降维表示。
9.根据权利要求1-8中的任一项所述的方法,还包括以下中的至少一项:
从与所述环境中的自主车辆相关联的传感器接收所述传感器数据;或者
至少部分地基于所述分类概率来控制自主车辆。
10.根据权利要求1-9中的任一项所述的方法,其中,所述分类概率包括以下中的至少一项:
对象类型分类;
对象行为分类;
对象注视分类;
对象轨迹分类;
车道改变分类;或者
紧急车辆分类。
11.一个或多个存储指令的非暂时性计算机可读介质,所述指令当由一个或多个处理器运行时,使得一个或多个计算设备执行根据权利要求1-10中的任一项所述的方法。
12.一种系统,包括:
一个或多个处理器;以及
一个或多个非暂时性计算机可读介质,其存储能由所述一个或多个处理器运行的指令,其中,所述指令当被运行时,使得所述一个或多个处理器执行以下操作,包括:
从与包括对象的环境相关联的传感器接收传感器数据;
至少部分地基于所述传感器数据来确定表示所述环境的空间数据;
将所述空间数据输入到机器学习(ML)模型的第一部分中;
从所述ML模型的所述第一部分接收中间数据,其中,所述中间数据包括空间特征数据,所述空间特征数据对应于被编码为与所述对象相关联的空间特征;
至少部分地基于所述传感器数据来确定对应于与所述对象相关联的特征的次要特征数据;
将所述空间特征数据和所述次要特征数据输入到所述ML模型的第二部分中;以及
至少部分地基于从所述ML模型的所述第二部分接收到的数据来确定所述对象的分类概率。
13.根据权利要求12所述的系统,其中:
所述空间特征包括以下中的至少一项:
与所述环境相关联的地图信息;
与所述对象相关联的边界框;或者
与所述对象相关联的尺寸;并且
所述特征包括以下中的至少一项:
与所述对象相关联的速度;
与所述对象相关联的加速度;或者
与所述对象相关联的照明状态。
14.根据权利要求12或13所述的系统,其中,所述空间数据表示所述环境的俯视图,并且包括:
第一通道,其包括第一空间特征;以及
第二通道,其包括第二空间特征。
15.根据权利要求12-14中的任一项所述的系统,所述操作还包括:
确定掩模,所述掩模标识所述对象在所述空间数据中的对应位置;以及
基于所述掩模和所述空间数据来确定与所述对象相关联的特征向量,其中,所述中间数据包括所述特征向量。
CN202180067898.2A 2020-12-30 2021-12-07 用于机器学习模型的中间输入 Pending CN116261747A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US17/137,873 US11829449B2 (en) 2020-12-30 2020-12-30 Intermediate input for machine learned model
US17/137,873 2020-12-30
US17/137,947 US11847831B2 (en) 2020-12-30 2020-12-30 Multi-resolution top-down prediction
US17/137,947 2020-12-30
PCT/US2021/062122 WO2022146622A1 (en) 2020-12-30 2021-12-07 Intermediate input for machine learned model

Publications (1)

Publication Number Publication Date
CN116261747A true CN116261747A (zh) 2023-06-13

Family

ID=82260804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180067898.2A Pending CN116261747A (zh) 2020-12-30 2021-12-07 用于机器学习模型的中间输入

Country Status (4)

Country Link
EP (1) EP4272186A1 (zh)
JP (1) JP2024506433A (zh)
CN (1) CN116261747A (zh)
WO (1) WO2022146622A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10255525B1 (en) * 2017-04-25 2019-04-09 Uber Technologies, Inc. FPGA device for image classification
US20180349746A1 (en) * 2017-05-31 2018-12-06 Uber Technologies, Inc. Top-View Lidar-Based Object Detection
JP6729516B2 (ja) * 2017-07-27 2020-07-22 トヨタ自動車株式会社 識別装置

Also Published As

Publication number Publication date
JP2024506433A (ja) 2024-02-14
WO2022146622A1 (en) 2022-07-07
EP4272186A1 (en) 2023-11-08

Similar Documents

Publication Publication Date Title
US11351991B2 (en) Prediction based on attributes
US11620753B2 (en) Data segmentation using masks
US11021148B2 (en) Pedestrian prediction based on attributes
CN112752988B (zh) 雷达空间估计
US11215997B2 (en) Probabilistic risk assessment for trajectory evaluation
CN112752950B (zh) 修改与地图数据相关联的地图元素
JP2022539245A (ja) アクションデータに基づくトップダウンシーンの予測
WO2020198189A1 (en) Pedestrian prediction based on attributes
US11386671B2 (en) Refining depth from an image
CN116324661A (zh) 基于激光雷达数据的地面高度估计
US11614742B2 (en) Height estimation using sensor data
US11829449B2 (en) Intermediate input for machine learned model
US11847831B2 (en) Multi-resolution top-down prediction
US11538185B2 (en) Localization based on semantic objects
US12012126B2 (en) Calibration based on semantic objects
US11270437B1 (en) Top-down segmentation pixel orientation and distance
EP4146510A1 (en) Trajectory classification
CN116261747A (zh) 用于机器学习模型的中间输入
US11983933B1 (en) Boundary aware top-down trajectory prediction
US11636685B1 (en) Multi-resolution top-down segmentation
EP4260154A1 (en) Localization based on semantic objects

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination