CN113632091A

CN113632091A - 迭代空间图生成

Info

Publication number: CN113632091A
Application number: CN202080021714.4A
Authority: CN
Inventors: 李代卿; S·菲德勒; 楚航; D·J·阿库纳·马雷罗; A·卡尔; M·舒格林纳; 刘洺堉; A·托拉尔瓦
Original assignee: Nvidia Corp
Current assignee: Nvidia Corp
Priority date: 2019-03-22
Filing date: 2020-03-21
Publication date: 2021-11-09
Also published as: WO2020198084A1; US20200302250A1; DE112020001400T5

Abstract

生成模型可用于生成空间布局和图形。这样的模型可以基于本地统计逐步增长这些布局和图形，其中节点可以表示布局的空间控制点，边可以表示节点之间的路段或路径，例如可能对应于道路段。生成模型可以利用编码器‑解码器架构，其中编码器是循环神经网络(RNN)，将本地传入路径编码为节点，解码器是另一个RNN，它生成传出节点以及将现有节点与新生成的节点连接起来的边。生成是迭代完成的，一旦访问了所有节点或满足另一个结束条件，即可完成生成。这样的模型可以通过附加地将条件设定为一组属性来生成布局，在生成布局时将控制权交给用户。

Description

迭代空间图生成

相关申请的交叉引用

本申请要求于2019年3月22日提交的题为“用于对城市道路布局进行建模的神经海龟图形(Neural Turtle Graphics for Modeling City Road Layouts)”的美国临时专利申请序列号62/822,754和于2020年3月20日提交的标题为“迭代空间图生成(IterativeSpatial Graph Generation)”的美国非临时申请序列号16/825,199的优先权，为了所有目的，在此通过引用将其全部内容并入本文。

背景技术

布局建模是各个领域中的重要问题。例如，城市规划需要对城市布局进行广泛的模拟，以确保建设带来有效的交通流量和连通性。布局建模在游戏和自主导航等行业也有需求。现有的布局生成方法主要基于具有手工设计特征的程序建模。这种方法可能既耗时又不灵活，这限制了它们的价值和实用性。

附图说明

将参照附图描述根据本公开的各种实施例，其中：

图1A和图1B示出了根据至少一个实施例可以生成的空间布局；

图2示出了根据至少一个实施例可以生成的道路映射；

图3A和图3B示出了根据至少一个实施例的布局生成系统和相关功能的组件；

图4示出了根据至少一个实施例可以执行的节点预测；

图5示出了根据至少一个实施例的组合布局生成；

图6示出了根据至少一个实施例的交互式布局生成过程的步骤；

图7示出了根据至少一个实施例的空间布局生成过程；

图8示出了根据至少一个实施例的用于扩展空间布局的过程；

图9A示出了根据至少一个实施例的推理和/或训练逻辑；

图9B示出了根据至少一个实施例的推理和/或训练逻辑；

图10示出了根据至少一个实施例的示例数据中心系统；

图11示出了根据至少一个实施例的计算机系统；

图12示出了根据至少一个实施例的计算机系统；

图13示出了根据一个或更多个实施例的图形处理器的至少一部分；

图14示出了根据一个或更多个实施例的图形处理器的至少一部分；

图15A示出了根据至少一个实施例的自动驾驶车辆的示例；

图15B示出了根据至少一个实施例的图15A中自动驾驶车辆的相机位置和视野的示例；

图15C示出了根据至少一个实施例的图15A中自动驾驶车辆的示例系统架构；和

图15D示出了根据至少一个实施例的用于在基于云的服务器和图15A中的自动驾驶车辆之间进行通信的系统。

具体实施方式

如上所述，布局建模和空间绘图在各种不同的行业和应用中发挥着重要作用。例如，城市道路布局建模是城市规划等领域应用中的一个重要问题，需要对城市布局进行广泛的模拟，以确保最终的建设带来有效的交通流量和连通性。尽管数据驱动的端到端学习范式已经给计算机视觉领域带来了革命性变化，但现有的城市布局生成方法仍然主要基于具有手工设计特征的程序建模。虽然这些方法可以提供具有用户指定属性输入的有效道路拓扑，但这些属性都是手工设计的，使用起来不灵活。例如，如果希望生成一个类似于伦敦市的合成城市，则需要对属性进行繁琐的手动调整以获得合理的结果。此外，这些方法不能轻易用于空中道路解析等应用。

因此，根据各种实施例的方法提供空间布局的迭代生成或扩展。在至少一个实施例中，可以使用空间图的生成模型来执行生成，在至少一个实施例中，该生成模型可以采用神经矢量图形模型的形式。这可以包括对图进行本地操作以生成大型空间图的编码器-解码器神经网络。该模型可以生成由边连接的节点图的空间布局。在道路建模等应用中，图形可以表示城市道路布局，节点可以表示道路沿线的空间控制点，图形中的边可以表示道路段或其他可导航路径。在至少一个实施例中，可以使用神经网络参数化的顺序生成模型。这样的模型可以迭代地生成新节点和连接到以当前图为条件的现有节点的边。在至少一些实施例中，可以向用户提供一种能力，以控制所生成的模仿现有城市的道路布局的样式以及绘制要合成的道路布局的一部分。除了合成之外，这样的模型还可以用于诸如道路解析和路径确定之类的任务。

在至少一个实施例中，城市道路布局的生成模型可以从可用地图数据中学习。一种这样的模型模仿海龟图形方法，因为道路图可以根据本地统计数据逐步增长。例如，城市道路布局可以使用具有如上所述的边连接的节点的图来建模。在海龟图形中，相对光标被称为海龟，它可以沿着笛卡尔平面移动。海龟有一个位置和一个方位，并且可以根据相对于它的位置的命令移动。当海龟移动时，它会创建一条路径，该路径也可以具有诸如宽度之类的属性。在至少一个实施例中，迭代生成模型可以被认为是从每个节点移动一个或更多个这样的海龟，并为每个空间控制节点的移动做出决定。

至少一个实施例中的生成模型可以利用编码器-解码器架构，其中编码器是循环神经网络(RNN)，其将本地传入路径编码到正在分析的当前节点中，并且解码器是另一个生成传出节点和将当前现有节点连接到新生成节点的边的RNN。其生成是迭代完成的，例如将新预测的节点推入队列，并在访问完所有节点后完成。这种模型可用于通过附加调节一组属性来生成道路布局，从而在生成内容时给予用户控制权。例如，该模型可以将用户指定的部分道路草图作为输入，以生成完整的城市(或地区)道路布局。这种模型也可以用作航空地图解析的有效先验，特别是在图像外观与训练中使用的图像不同的情况下。结合基于卷积神经网络(CNN)的图像特征提取器对此类模型进行微调，可以进一步改善结果，优于现有方法。现有的各种方法只能预测图拓扑，而无法生成空间图，因为生成有效的几何和拓扑使这些任务特别具有挑战性。在至少一个实施例中，编码器可以通过使用随机游走对本地连接进行编码来学习节点嵌入。如本文所讨论的模型可以利用直接在图上操作的编码器和使用RNN输出多个输出节点的解码器，RNN可以更好地捕获更复杂的布局和路径交叉拓扑的。

图1A示出了可以根据各种实施例生成的一对布局100。如图所示，第一个布局模仿纽约市街道的样式，而第二个布局模仿伦敦街道的样式。可以看出，这些布局具有非常鲜明的样式，如果没有这样的过程，可能需要手动研究和生成才能准确和/或逼真地建模。如本文所讨论的模型可以迭代地扩展或延展这些布局，基于对目标位置的样式所了解的内容，决定道路方向、交叉点、形状和其他此类方面。在至少一个实施例中，用户可以指定城市或位置样式，而在其他实施例中，用户可以提供初始草图或图形部分，从其可以确定这样的样式。图1B示出了第三布局的一部分150，其通过至少一定量的用户(或其他)交互生成。在此示例中，可以将来自不同样式的要素合并到布局中，例如在此处为布局的一个区域指定纽约样式，为布局的另一个区域指定剑桥样式。在一些实施例中，用户可以指定添加特定样式的部分，或改变布局的一部分以表示特定样式。在一些实施例中，该过程将保持不同样式的节点队列，并且可以适当地使用来自各种队列的节点向布局添加节点和路径。图2示出了具有不同道路布局样式的不同位置的一组鸟瞰图200。如图所示，这种模型可用于迭代生成这些区域的映射，并基于捕获的图像数据解析道路。在至少一个实施例中，该模型可以在鸟瞰图数据的一个或更多个位置处开始并且与本文讨论和建议的其他布局生成方法一样逐节点迭代地增长路径。

图3A示出了根据各种实施例的可用于生成布局或图形的示例系统300。在该示例中，用户可以利用控制台302或其他接口来向图形生成系统306提供输入。控制台可以是任何适当的控制台，例如执行接口应用程序的计算设备。所提供的输入可以是如本文所讨论和建议的任何适当的输入，因为可以包括要使用的样式或要生成的布局的一个或更多个部分的绘图。如上所述，输入还可包括图像或地图数据，这些数据可以来自参考数据库304或其他类似位置。图形生成系统可以是在与控制台相同的设备或基础设施上运行的应用程序，或者可以在可通过一个或更多个网络访问的独立硬件上执行的应用程序。图形生成系统306可以包括图形管理器308，其可以从控制台获取输入并且利用生成模型来至少部分地基于该输入生成图形或布局。如上所述，这可以包括用于编码到当前节点的传入路径的节点的编码器RNN，以及用于解码为该当前节点预测的传出路径的节点的解码器RNN。一旦在该示例中生成了最终布局，该布局就可以被提供给控制台302以呈现给用户，并且可以被存储到本地图形数据库314或客户端的参考数据库304，以及其他这样的选项。

在至少一个实施例中，可以将基于矢量图形的方法用于这样的系统，其可以模仿如上所述的海龟图形的功能。在这样的实施例中，城市道路布局生成问题可以被表述为平面图生成问题。例如，城市道路布局可以使用无向图G＝{V,E}，和节点V以及边E表示。节点v_i∈V可以编码i^th控制点的位置[x_i,y_i]^T，可以是一个交叉点，边e_i,j∈{0,1}可以表示连接节点v_i和v_j的路段是否存在。可以假设该图是一个连通图，这样一个节点可以通过遍历一系列边到达任何其他节点。坐标y_i’s和y_i’s可以相对于例如城市的世界位置或其他此类位置来定义。

对于节点v_i，非循环传入路径可以定义为唯一的、连接的节点的有序序列，其终止于：

v_i:sⁱⁿ＝{v_i,1,v_i,2,v_i,3,…,v_i,L,v_i}

在这个公式里

对于任意1<t≤L,以及

其中L代表路径的长度。可以注意到，多个不同的非循环路径可以终止于v_i，可以表示为

此外，

可以定义为v_i的所有相邻节点的集合，它们之间由一条边直接连接。

图3B示出了可以根据各种实施例使用的示例模型350。该示例描绘了到当前(或“活动”)节点352v_i的非循环传入路径{sⁱⁿ}。使用与当前节点352确定的邻近范围内的相邻节点354定义的这些非循环传入路径中的每一个，其使用RNN编码器310进行编码。模型的解码器RNN 312然后使用该信息来预测一组预测的(或“传出”)节点356{v_out}。

在至少一个实施例中，生成模型可以以迭代方式生成图形或布局。在至少一个实施例中，可以保持未访问节点的队列。在每个迭代步骤中，可以从队列中拉出一个节点并对其本地拓扑进行编码。从那里，一组相邻节点可以被解码，这些生成的相邻节点可以作为额外的节点被推送到队列中，以供访问或分析潜在的布局扩展。在至少一个实施例中，可以重复该过程直到队列为空，由此所有节点都已被访问，或者直到达到另一结束标准，例如达到目标扩展量或时间已经过去。在至少一个实施例中，该图可以用根节点及其边初始化，提供一组用于初始化队列的单个连接的、未访问的节点。根据图的构造方式，v_i在图中至少有一个邻居节点。本地拓扑可以使用一组非循环传入路径

到v_i(最大长度L)来表示。这些路径可以以顺序不变的方式进行处理，并以得到的潜在表示为条件，以生成一组输出节点

(如果有)和连接到它们的边。图3B提供了该过程的可视化。

图4示出了示例生成模型的神经网络架构，包括编码器-解码器设计。首先，编码器门控循环单元(GRU)消耗相邻节点402的每个传入路径的运动轨迹Δxⁱⁿ。可以通过将所有路径上的最后状态隐藏矢量相加来产生序不变表示。在这个例子中，解码器RNN然后产生“命令”来推进路径并产生新节点，这可以对应于在基于海龟图形的方法中推进“海龟”。根据诸如要执行的任务之类的因素，可以进一步向解码器添加可选的属性矢量404。

在至少一个实施例中，进入节点v_i的单个传入路径sⁱⁿ可以用零初始化的双向GRU(BGRU)来表示。BGRU在时间步长t的输入可以是两个相邻节点之间的偏移量：

在路径中，例如可能由以下方式给出：

在至少一个实施例中，每个维度可以在将其馈入GRU之前单独编码，这提供了有效处理高分辨率地图数据的能力。

每个节点可以有多个传入路径。在训练中，可以不重复地对K个随机游走进行采样，其中每个随机游走从v_i开始，最多可以访问L个不同的节点。这种随机抽样可以产生更稳健的模型，因为它涵盖了给定图的更多变体。在至少一个实施例中，每条传入路径都可以单独编码，最终潜在表示h_enc是通过对所有路径的最后隐藏状态求和来计算的。属性矢量可以附加到潜在表示。例如，该属性可以是一个独热矢量，对城市身份进行编码。这使生成模型能够通过利用额外的线性层将独热矢量映射到属性矢量h_attr来学习布局样式的嵌入，例如城市道路样式。然后可以通过[h_enc,h_attr]给出最终表示。

在至少一个实施例中，模型的解码器可以用解码器GRU解码输出节点

解码器的循环结构可以有效地捕获道路之间的本地依赖性，例如道路交叉口处的正交性。根据至少一个实施例的过程可以独立地预测出节点

的

和

指示该节点相对于v_i的相对位置。这样的过程还可以预测一个二进制变量，该变量指示是继续生成新节点还是停止。可选地，可以使用分类变量预测类型，例如(v_i,

)之间的道路类型，例如次要道路或主要道路。解码器的隐藏状态h_t’可以更新为：

如上所述，这样的过程可以用于各种应用，例如可以包括空中道路解析。从航拍图像解析道路的主要方法是训练CNN生成概率图，然后进行阈值化和细化。然而，这种方法通常会导致地图上有漏洞或假阳性路段。然后应用启发式对拓扑进行后处理。根据各种实施例的方法可以训练如本文所述的生成模型以仅在地图数据上生成图，以便对解析的拓扑进行后处理。从最有信心的交集节点作为根节点开始，可以将其所有邻居推入队列，并使用生成模型来扩展图。在每个解码步骤中，来自CNN的道路概率可以与由NTG产生的概率相乘。通过检查最大概率是否低于阈值，例如0.05，简单地确定解码器序列的结束。

对于基于图像的布局生成，可以通过属性矢量将CNN预测的概率作为输入添加到生成模型NTG，而不是仅将模型应用于图，从而使生成模型能够考虑图像信息。在至少一个实施例中，编码器和解码器可以保持相同。在实践中，这样的过程可以初始化通过标准阈值和细化获得的图，并且可以使用基于图像的生成模型来进一步细化图。

对于使用这种生成模型的推理，可以维护队列Q。在每个推理步骤中，可以从队列中拉出第一个节点，对其现有的传入路径进行编码，并生成一组新节点。当产生新节点时，可以执行检查以确定新节点是否接近图中的现有节点。如果到现有节点的距离低于阈值∈(例如5m)，则不需要将新节点添加到队列中。相反，包含边以将当前节点连接到现有节点。这使得可以使用循环创建图形。

在训练时，可以为每个v_i采样M条传入路径，目的是预测其所有相邻节点。可以在对节点进行解码时强制执行顺序，其中节点可以按(例如但不限于)顺时针或逆时针方向排序以形成序列。这种方法可以帮助避免在计算损失函数时解决分配问题。可以通过对每个输出节点进行交叉熵损失的教师监督式学习(tearcher-forcing)方法训练生成模型。在至少一个实施例中，隐藏维度500可用于编码器和解码器两者。可以使用学习率为1e-3，权重衰减率为1e-4D的Adam优化网络。在至少一个实施例中，还可以应用具有例如1阈值为1.0的梯度裁剪。

在至少一个实施例中，单个生成模型架构可以用于不同的任务，例如城市生成和道路检测。最佳参数化策略可能会有所不同，至少部分取决于要执行的任务。例如，分辨率为1m的离散Δx,Δy可用于编码器和解码器的城市生成，其中x指向东，y指向北。这里，Δx和Δy被限制为[-100:100]，表示任意方向的最大偏移为100m。对于道路检测，可以在编码器中使用连续极坐标，在解码器中使用离散极坐标，其中旋转坐标轴使其从前一个节点到当前节点的边缘对齐。这有助于形成旋转不变的运动轨迹，有助于检测任意方位的道路。在至少一个实施例中，坐标x和y被独立地编码和预测。与联合预测它们相比，这种方法可以产生类似的结果，同时显著节省训练内存和模型容量。

在至少一个实施例中，如本文所讨论的生成模型可用于环境模拟。这种应用程序可以结合这里讨论的任务。例如，这样的过程可以直接将卫星图像转换为模拟就绪环境，这对于测试自动驾驶汽车或机器人系统等应用可能很重要。在至少一个实施例中，这样的过程可以首先用提供初始图形的生成模型检测卫星图像中的道路。然后可以使用这个生成模型来提出合理的变化。在至少一个实施例中，这可以通过将初始解析图中的所有单连接节点推入对应的生成队列，并使用生成模型扩展图直到队列为空来执行。这种方法具有多种优点。例如，它是全自动的，只需要低成本的卫星图像作为输入。其次，它提供了一组合理的环境变化(例如，城市)而不是静态变化，这可以训练更强大的代理。

这种生成式建模也可以以各种其他方式执行。例如，图5示出了包括用作布局的一部分的确定初始输入区域406的一对图像400。区域406可以由与实际城市布局的相应的一组地面实况数据402确定。生成模型可以使用该区域的节点和边来生成扩展布局404，该布局使用相同的样式但产生不同的整体布局，即使具有相同的初始区域。这种使用可能会在游戏等应用程序中受益，其中可能有一个核心区域旨在对应于城市的可识别部分，但不必准确地重新创建城市的其余部分，可以使用生成模型生成具有相同或相似样式的布局，这对于许多可能不熟悉或可能不关心核心初始区域之外的实际布局的用户来说是可以的。这样的应用程序也可能对导航和测试有用，其中特定的布局部分可能希望保留用于测试，例如在困难区域上训练或确保模型不会忘记它已经学到的东西，同时还引入了目标样式的新布局。在一些实施例中，用户可以提供多个这样的区域作为起点，并且生成模型可以尝试生成合并这些区域以及每个区域的样式的布局。模型可以记住这些提供的每个区域中的本地模式，然后将它们交织在一起以创建新颖的结构和布局。

图6示出了根据至少一个实施例的布局生成的阶段或步骤600。在该示例中，存在对应于A和B的两个不同代，其中每个包括由用户提供的初始输入602。在该示例中，用户可以绘制示例交叉口或道路布局部分，作为生成布局的基础。这可能适用于游戏或导航，例如，用户希望在要生成的布局中具有特定类型的特征。如图所示，迭代过程可以使用根据输入确定的样式(除非另有说明)从这些输入中生成布局。在一些实施例中，用户可能能够在其生成时看到布局并添加附加特征以帮助引导布局。

图7示出了用于生成可以根据各种实施例使用的空间布局的示例过程700。应当理解，对于这里讨论的这个过程和其他过程，除非另有说明，否则在各种实施例的范围内，可以存在以类似或可选的顺序或并行执行的附加、可选的或更少的步骤。在该示例中，初始布局数据作为输入被接收702。如上所述，该初始数据可以采用许多不同的形式，其中可能包括位置的航拍图像、地图、草图、指示特定样式的信息或初始布局区域，以及其他此类选项。至少部分地基于该输入，可以确定包括一个或更多个节点的初始布局，对于多个节点，这些节点由布局的一个或更多个边连接。如上所述，这样的过程可以使用生成模型迭代地增长这个布局，使得对于每个步骤，这样的流程可以确定针对潜在路径生成或布局扩展尚未进行分析的布局节点704。如上所述，这可以包括设置一个变量，指示每个节点是否已被访问或将这些节点存储到分析队列，以及其他此类选项。一旦确定不再有要访问的节点706，例如队列中没有更多节点或所有变量指示节点已被访问，就可以提供最终生成的布局708作为该过程的输出。

如果还有至少一个节点要处理，则可以选择要处理的当前节点，例如通过从队列中拉出当前节点，并且可以确定一个或更多个相邻节点在确定当前节点的距离710。这些节点可以被分析和编码为表示当前节点的传入路径，例如通过使用编码器RNN。如前所述，这样的过程在本地扩展布局，因此只考虑相邻节点而不是迄今为止生成的整个布局。在该过程中，可以确定要用于从当前节点生成的一个或更多个样式712。在一些实施例中，这可以是在该过程的较早阶段确定的单个样式，而在其他实施例中，该确定可以针对每个当前节点，例如对于布局可以指示多种样式并且要确定当前节点使用哪种样式或哪些样式。使用所确定的一个或更多个样式以及来自相邻节点的信息，可以预测代表来自该当前节点的传出路径的一个或更多个附加节点714。在至少一个实施例中，这可以使用解码器RNN来预测。在至少一个实施例中，仅当到该节点的边将具有最小长度时才添加附加节点。可以将新节点标记为尚未访问的节点以进行扩展，例如通过将它们添加到队列或设置适当的访问变量。然后该过程可以针对下一个节点或节点集继续，直到所有节点都已被访问或满足了结束标准，以及其他此类选项。

这样的过程可以被认为是使用本地交集迭代地工作。布局可以逐个交叉扩展，而不是试图一次生成整个图形或布局。这些本地模式可用于迭代地完成整个图，因为在一次传递中编码整个图可能具有挑战性，或者可能为至少某些模型或应用程序提供次优结果。本地编码(例如在邻域级别)足以捕获所需的样式，并且可以使用本地统计数据对布局的部分进行解码。这种方法还可用于生成全高清(HD)地图，包括不同类型的道路或路径，而不仅仅是指示这些道路或路径大致位置的段。在至少一个实施例中，这种方法还可以用于修复或更新高清地图。

图8示出了用于生成可以根据至少一个实施例使用的空间布局的另一示例过程800。在该示例中，空间布局的第一节点可以被确定802。布局的相邻节点可以被确定804，其中那些相邻节点在第一节点的确定距离内并且代表到第一节点的进入路径。在至少一个实施例中，可以使用解码器RNN来解码这些相邻节点。可以确定用于扩展空间布局的布局样式806，并且在一些实施例中，这可以在分析第一节点之前确定。在一些实施例中，不同的样式可以用于不同的节点。在该示例中，关于相邻节点的布局样式和信息可用于推断空间布局的至少一个第二节点808。每个第二节点可以代表空间布局中从第一个节点开始的路径段，并且每个第二节点的放置可以代表所确定的样式。在至少一个实施例中，这些第二节点可以使用编码器RNN进行编码。这个过程可以迭代地用于生成或扩展空间布局，其中每个未访问的节点可以迭代地被视为第一个节点，直到生成最终布局。

推理和训练逻辑

图9A示出了用于执行与一个或更多个实施例相关联的推理和/或训练操作的推理和/或训练逻辑915。下面结合图9A和/或图9B提供关于推理和/或训练逻辑915的细节。

在至少一个实施例中，推理和/或训练逻辑915可以包括但不限于代码和/或数据存储901,以存储对应于在一个或更多个实施例的方面中被训练为和/或用于推理的神经网络的其他参数配置神经元或层的前向和/或输出权重和/或输入/输出数据。在至少一个实施例中，训练逻辑915可以包括或耦合代码和/或数据存储901以存储图代码或其他软件以控制时间和/或顺序，其中权重和/或其他参数信息将被加载以配置逻辑，包括整数和/或浮点单元(统称为算术逻辑单元(ALU))。在至少一个实施例中，诸如图形代码之类的代码将权重或其他参数信息加载到基于架构的处理器ALU中。在至少一个实施例中，代码和/或数据存储901存储在使用一个或更多个实施例的方面训练和/或推理期间的输入/输出数据和/或权重参数的前向传播期间结合一个或更多个实施例训练或使用的神经网络的每个层的权重参数和/或输入/输出数据。在至少一个实施例中，代码和/或数据存储901的任何部分都以与其他片上或片外数据存储包括在一起，包括处理器的L1、L2或L3高速缓存或系统内存。

在至少一个实施例中，代码和/或数据存储901的任何部分可以在一个或更多个处理器或其他硬件逻辑设备或电路的内部或外部。在至少一个实施例中，代码和/或代码和/或数据存储901可以是高速缓存内存、动态随机可寻址内存(“DRAM”)、静态随机可寻址内存(“SRAM”)、非易失性内存(例如闪存)或其他存储。在至少一个实施例中，对代码和/或代码和/或数据存储901是在处理器的内部还是外部的选择，例如，或者由DRAM、SRAM、闪存或某种其他存储类型组成，可以取决于存储片上或片外的可用存储空间，正在执行训练和/或推理功能的延迟要求，在神经网络的推理和/或训练中使用的数据批量大小或这些因素的某种组合。

在至少一个实施例中，推理和/或训练逻辑915可以包括但不限于代码和/或数据存储905，以存储与在一个或更多个实施例的方面中被训练为和/或用于推理的神经网络的神经元或层相对应的反向和/或输出权重和/或输入/输出数据神经网络。在至少一个实施例中，在使用一个或更多个实施例的方面训练和/或推理期间，代码和/或数据存储905存储在输入/输出数据和/或权重参数的反向传播期间结合一个或更多个实施例训练或使用的神经网络的每个层的权重参数和/或输入/输出数据。在至少一个实施例中，训练逻辑915可以包括或耦合到代码和/或数据存储器905以存储图形代码或其他软件以控制时间和/或顺序，其中权重和/或其他参数信息将被加载以配置逻辑，包括整数和/或浮点单元(统称为算术逻辑单元(ALU))。在至少一个实施例中，代码，例如图形代码，基于架构将权重或其他参数信息加载到处理器ALU中代码对应的神经网络。在至少一个实施例中，代码和/或数据存储905的任何部分都以与其他片上或片外数据存储包括在一起，包括处理器的L1、L2或L3高速缓存或系统内存。在至少一个实施例中，代码和/或数据存储905的任何部分可以在一个或更多个处理器或其他硬件逻辑设备或电路上的内部或外部。在至少一个实施例中，代码和/或数据存储905可以是高速缓存内存、DRAM、SRAM、非易失性内存(例如闪存)或其他存储。在至少一个实施例中，代码和/或数据存储905是在处理器的内部还是外部的选择，例如，是由DRAM、SRAM、闪存还是其他某种存储类型组成，取决于可用存储是片上还是片外，正在执行的训练和/或推理功能的延迟要求，在神经网络的推理和/或训练中使用的数据批量大小或这些因素的某种组合。

在至少一个实施例中，代码和/或数据存储901以及代码和/或数据存储905可以是分开的存储结构。在至少一个实施例中，代码和/或数据存储901以及代码和/或数据存储905可以是相同的存储结构。在至少一个实施例中，代码和/或数据存储901以及数据存储905可以是部分相同的存储结构和部分分离的存储结构。在至少一个实施例中，代码和/或数据存储901和代码和/或数据存储905的任何部分都可以与其他片上或片外数据存储包括在一起，包括处理器的L1、L2或L3高速缓存或系统内存。

在至少一个实施例中，推理和/或训练逻辑915可以包括但不限于一个或更多个算术逻辑单元(“ALU”)910，包括整点和/或浮点单元，用于至少部分地基于训练和/或推理代码(例如图形代码)或由其指示来执行逻辑和/或数学运算，其结果可能会导致(例如，来自神经网络内部的层或神经元的输出值)存储在激活存储920中的激活，其是存储在代码和/或数据存储901以及代码和/或数据存储905中的输入/输出和/或权重参数数据的函数。在至少一个实施例中，激活响应于执行指令或其他代码，由ALU 910执行的线性代数和/或基于矩阵的数学生成在激活存储920中存储的激活，其中存储在代码和/或数据存储905和/或代码和或/数据存储901中的权重值用作具有其他值的操作数，例如偏置值、梯度信息、动量值或其他参数或超参数，可以将任何或所有这些存储在代码和/或数据存储905或代码和/或数据存储901或其他片上或片外存储中。

在至少一个实施例中，一个或更多个处理器或其他硬件逻辑设备或电路中包括一个或更多个ALU 910，而在另一实施例中，一个或更多个ALU 910可以在处理器或其他硬件逻辑设备或使用它们(例如协处理器)的电路外。在至少一个实施例中，可以将一个或更多个ALU 910包括在处理器的执行单元之内，或者以其他方式包括在由处理器的执行单元可访问的ALU组中，该处理器的执行单元可以在同一处理器内或者分布在不同类型的不同处理器之间(例如，中央处理单元、图形处理单元、固定功能单元等)。在至少一个实施例中，代码和/或数据存储901、代码和/或数据存储905以及激活存储920可以在同一处理器或其他硬件逻辑设备或电路上，而在另一实施例中，它们可以在不同的处理器或其他硬件逻辑设备或电路或相同和不同处理器或其他硬件逻辑设备或电路的某种组合中。在至少一个实施例中，激活存储920的任何部分可以与其他片上或片外数据存储包括在一起，包括处理器的L1、L2或L3高速缓存或系统内存。此外，推理和/或训练代码可以与处理器或其他硬件逻辑或电路可访问的其他代码一起存储，并可以使用处理器的提取、解码、调度、执行、退出和/或其他逻辑电路来提取和/或处理。

在至少一个实施例中，激活存储920可以是高速缓存内存、DRAM、SRAM、非易失性内存(例如，闪存)或其他存储。在至少一个实施例中，激活存储920可以完全地或部分地在一个或更多个处理器或其他逻辑电路内部或外部。在至少一个实施例中，可以取决于片上或片外可用的存储，进行训练和/或推理功能的延迟要求，在推理和/或训练神经网络中使用的数据的批量大小或这些因素的某种组合，选择激活存储920是处理器的内部还是外部，例如，或者包含DRAM、SRAM、闪存或其他存储类型。在至少一个实施例中，图9A中所示的推理和/或训练逻辑915可以与专用集成电路(“ASIC”)结合使用，例如来自Google的

处理单元、来自Graphcore^TM的推理处理单元(IPU)或来自Intel Corp的

(例如“Lake Crest”)处理器。在至少一个实施例中，图9A所示的推理和/或训练逻辑915可与中央处理单元(“CPU”)硬件，图形处理单元(“GPU”)硬件或其他硬件(例如现场可编程门阵列(“FPGA”))结合使用。

图9B示出了根据至少一个或者更多个各种实施例的推理和/或训练逻辑915。在至少一个实施例中，推理和/或训练逻辑915可以包括但不限于硬件逻辑，其中计算资源被专用或以其他方式唯一地连同对应于神经网络内的一层或更多层神经元的权重值或其他信息一起使用。在至少一个实施例中，图9B中所示的推理和/或训练逻辑915可以与专用集成电路(ASIC)结合使用，例如来自Google的

处理单元，来自Graphcore^TM的推理处理单元(IPU)或来自Intel Corp的

(例如“Lake Crest”)处理器。在至少一个实施例中，图9B中所示的推理和/或训练逻辑915可以与中央处理单元(CPU)硬件、图形处理单元(GPU)硬件或其他硬件(例如现场可编程门阵列(FPGA))结合使用。在至少一个实施例中，推理和/或训练逻辑915包括但不限于代码和/或数据存储901以及代码和/或数据存储905，其可以用于存储代码(例如图形代码)，权重值和/或其他信息，包括偏置值、梯度信息、动量值和/或其他参数或超参数信息。在图9B中所示的至少一个实施例中，代码和/或数据存储901以及代码和/或数据存储905中的每一个都分别与专用计算资源(例如计算硬件902和计算硬件906)相关联。在至少一个实施例中，计算硬件902和计算硬件906中的每一个包括一个或更多个ALU，这些ALU仅分别对存储在代码和/或数据存储901和代码和/或数据存储905中的信息执行数学函数(例如线性代数函数)，执行函数的结果被存储在激活存储920中。

在至少一个实施例中，代码和/或数据存储901和905以及相应的计算硬件902和906中的每一个分别对应于神经网络的不同层，使得从代码和/或数据存储901和计算硬件902的一个“存储/计算对901/902”得到的激活提供作为代码和/或数据存储905和计算硬件906的“存储/计算对905/906”的输入，以便反映神经网络的概念组织。在至少一个实施例中，每个存储/计算对901/902和905/906可以对应于一个以上的神经网络层。在至少一个实施例中，在推理和/或训练逻辑915中可以包括在存储计算对901/902和905/906之后或与之并行的附加存储/计算对(未示出)。

数据中心

图10示出了示例数据中心1000，其中可以使用至少一个实施例。在至少一个实施例中，数据中心1000包括数据中心基础设施层1010、框架层1020、软件层1030和应用层1040。

在至少一个实施例中，如图10所示，数据中心基础设施层1010可以包括资源协调器1012、分组的计算资源1014和节点计算资源(“节点C.R.”)1016(1)-1016(N)，其中“N”代表任何完整的正整数。在至少一个实施例中，节点C.R.1016(1)-1016(N)可以包括但不限于任何数量的中央处理单元(“CPU”)或其他处理器(包括加速器、现场可编程门阵列(FPGA)、图形处理器等)，内存设备(例如动态只读内存)，存储设备(例如固态硬盘或磁盘驱动器)，网络输入/输出(“NW I/O”)设备，网络交换机，虚拟机(“VM”)，电源模块和冷却模块等。在至少一个实施例中，节点C.R.1016(1)-1016(N)中的一个或更多个节点C.R.可以是具有一个或更多个上述计算资源的服务器。

在至少一个实施例中，分组的计算资源1014可以包括容纳在一个或更多个机架内的节点C.R.的单独分组(未示出)，或者容纳在各个地理位置的数据中心内的许多机架(也未示出)。分组的计算资源1014内的节点C.R.的单独分组可以包括可以被配置或分配为支持一个或更多个工作负载的分组的计算、网络、内存或存储资源。在至少一个实施例中，可以将包括CPU或处理器的几个节点C.R.分组在一个或更多个机架内，以提供计算资源来支持一个或更多个工作负载。在至少一个实施例中，一个或更多个机架还可以包括任何数量的电源模块、冷却模块和网络交换机，以任意组合。

在至少一个实施例中，资源协调器1012可以配置或以其他方式控制一个或更多个节点C.R.1016(1)-1016(N)和/或分组的计算资源1014。在至少一个实施例中，资源协调器1012可以包括用于数据中心1000的软件设计基础结构(“SDI”)管理实体。在至少一个实施例中，资源协调器可以包括硬件、软件或其某种组合。

在至少一个实施例中，如图10所示，框架层1020包括作业调度器1022、配置管理器1024、资源管理器1026和分布式文件系统1028。在至少一个实施例中，框架层1020可以包括支持软件层1030的软件1032和/或应用程序层1040的一个或更多个应用程序1042的框架。在至少一个实施例中，软件1032或应用程序1042可以分别包括基于Web的服务软件或应用程序，例如由Amazon Web Services，Google Cloud和Microsoft Azure提供的服务或应用程序。在至少一个实施例中，框架层1020可以是但不限于一种免费和开放源软件网络应用框架，例如可以利用分布式文件系统1028来进行大范围数据处理(例如“大数据”)的ApacheSpark^TM(以下称为“Spark”)。在至少一个实施例中，作业调度器1022可以包括Spark驱动器，以促进对数据中心1000的各个层所支持的工作负载进行调度。在至少一个实施例中，配置管理器1024可以能够配置不同的层，例如软件层1030和包括Spark和用于支持大规模数据处理的分布式文件系统1028的框架层1020。在至少一个实施例中，资源管理器1026能够管理映射到或分配用于支持分布式文件系统1028和作业调度器1022的集群或分组计算资源。在至少一个实施例中，集群或分组计算资源可以包括数据中心基础设施层1010上的分组的计算资源1014。在至少一个实施例中，资源管理器1026可以与资源协调器1012协调以管理这些映射的或分配的计算资源。

在至少一个实施例中，包括在软件层1030中的软件1032可以包括由节点C.R.1016(1)-1016(N)的至少一部分，分组计算资源1014和/或框架层1020的分布式文件系统1028使用的软件。一种或更多种类型的软件可以包括但不限于Internet网页搜索软件、电子邮件病毒扫描软件、数据库软件和流视频内容软件。

在至少一个实施例中，应用层1040中包括的一个或更多个应用程序1042可以包括由节点C.R.1016(1)-1016(N)的至少一部分、分组的计算资源1014和/或框架层1020的分布式文件系统1028使用的一种或更多种类型的应用程序。一种或更多种类型的应用程序可以包括但不限于任何数量的基因组学应用程序，认知计算和机器学习应用程序，包括训练或推理软件，机器学习框架软件(例如PyTorch、TensorFlow、Caffe等)或其他与一个或更多个实施例结合使用的机器学习应用程序。

在至少一个实施例中，配置管理器1024、资源管理器1026和资源协调器1012中的任何一个可以基于以任何技术上可行的方式获取的任何数量和类型的数据来实现任何数量和类型的自我修改动作。在至少一个实施例中，自我修改动作可以减轻数据中心1000的数据中心操作员做出可能不好的配置决定并且可以避免数据中心的未充分利用和/或执行差的部分。

在至少一个实施例中，数据中心1000可以包括工具、服务、软件或其他资源，以根据本文所述的一个或更多个实施例来训练一个或更多个机器学习模型或者使用一个或更多个机器学习模型来预测或推理信息。例如，在至少一个实施例中，可以通过使用上文关于数据中心1000描述的软件和计算资源，根据神经网络架构通过计算权重参数来训练机器学习模型。在至少一个实施例中，通过使用通过本文所述的一种或更多种训练技术计算出的权重参数，可以使用上面与关于数据中心1000所描述的资源，使用对应于一个或更多个神经网络的经训练的机器学习模型来推理或预测信息。

在至少一个实施例中，数据中心可以使用CPU、专用集成电路(ASIC)、GPU、FPGA或其他硬件来使用上述资源来执行训练和/或推理。此外，上述的一个或更多个软件和/或硬件资源可以配置成一种服务，以允许用户训练或执行信息推理，例如图像识别、语音识别或其他人工智能服务。

推理和/或训练逻辑915用于执行与一个或更多个实施例相关联的推理和/或训练操作。下面结合图9A和/或图9B提供关于推理和/或训练逻辑915的细节。在至少一个实施例中，推理和/或训练逻辑915可以在系统图10中使用，至少部分地基于使用神经网络训练操作、神经网络功能和/或架构或本文所述的神经网络用例计算出的权重参数来推理或预测操作。

这些图的组件可用于生成或扩展空间布局。特别是，这些组件可以与迭代生成神经网络一起使用，以生成布局，例如城市和其他此类区域的道路布局。

计算机系统

根据至少一个实施例，图11是说明示例性计算机系统的框图，该系统可以是具有互连设备和组件的系统、单片系统(SOC)或其一些组合1100，其形成处理器，该处理器可以包括执行单元以执行指令。在至少一个实施例中，计算机系统1100可包括但不限于诸如在此处描述的实施例中描述的实施例中的组件，例如处理器1102，以采用包括逻辑在内的执行单元来执行过程数据的算法。在至少一个实施例中，计算机系统1100可以包括处理器，例如

处理器系列、Xeon^TM、

XScale^TM和/或StrongARM^TM、

Core^TM，或者来自加利福尼亚州圣克拉拉英特尔公司的

Nervana^TM微处理器，虽然也可以使用其他系统(包括具有其他微处理器的PC、工程工作站、机顶盒等)。在至少一个实施例中，计算机系统1100可以执行可从华盛顿州雷德蒙市的微软公司获得的WINDOWS操作系统版本，尽管其他操作系统(例如UNIX和Linux)、嵌入式软件和/或图形用户界面，也可能被使用。

实施例可用于其他设备，例如手持设备和嵌入式应用。一些手持设备的示例包括蜂窝电话、互联网协议设备、数码相机、个人数字助理(“PDA”)和手持PC。在至少一个实施例中，嵌入式应用可以包括微控制器、数字信号处理器(“DSP”)、单片系统、网络计算机(“NetPC”)、机顶盒、网络集线器、广域网(“WAN”)开关，或根据至少一个实施例可以执行一个或更多个指令的任何其他系统。

在至少一个实施例中，计算机系统1100可以包括但不限于处理器1102，其可以包括但不限于一个或更多个执行单元1108以根据本文描述的技术执行机器学习模型训练和/或推理。在至少一个实施例中，计算机系统1100是单处理器桌面或服务器系统，但在另一实施例中，计算机系统1100可以是多处理器系统。在至少一个实施例中，处理器1102可以包括但不限于复杂指令集计算机(“CISC”)微处理器、精简指令集计算(“RISC”)微处理器、超长指令字(“VLIW”)微处理器、实现指令集组合的处理器，或任何其他处理器设备，例如数字信号处理器。在至少一个实施例中，处理器1102可以耦合到处理器总线1110，该总线可以在处理器1102和计算机系统1100中的其他组件之间传输数据信号。

在至少一个实施例中，处理器1102可以包括但不限于一级(“L1”)内部高速缓存内存(“高速缓存”)1104。在至少一个实施例中，处理器1102可以具有单个内部高速缓存或多级内部缓存。在至少一个实施例中，高速缓存内存可以驻留在处理器1102的外部。其他实施例还可能包括内部和外部缓存的组合，这取决于特定的实现和需求。在至少一个实施例中，寄存器堆1106可以在各种寄存器中存储不同类型的数据，包括但不限于整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器。

在至少一个实施例中，包括但不限于执行整数和浮点运算的逻辑的执行单元1108也驻留在处理器1102中。在至少一个实施例中，处理器1102还可以包括微码(“ucode”)只读内存(“ROM”)，用于存储某些宏指令的微代码。在至少一个实施例中，执行单元1108可以包括处理封装指令集1109的逻辑。在至少一个实施例中，通过将封装指令集1109包括在通用处理器1102的指令集中，连同相关联的电路来执行指令，可以使用通用处理器1102中的封装数据来执行许多多媒体应用程序使用的操作。在一个或更多个实施例中，可以通过使用处理器的数据总线的全宽度来执行操作来加速和更有效地执行许多多媒体应用程序在封装数据上，这可以消除通过处理器的数据总线传输更小的数据单元以一次一个数据元素执行一个或更多个操作的需要。

在至少一个实施例中，执行单元1108还可以用于微控制器、嵌入式处理器、图形设备、数据信号处理和其他类型的逻辑电路。在至少一个实施例中，计算机系统1100可以包括但不限于内存1120。在至少一个实施例中，内存1120可以实现为动态随机存取内存(“DRAM”)设备、静态随机存取内存(“SRAM”)设备、闪存设备或其他存储设备。在至少一个实施例中，内存1120可以存储由可以由处理器1102执行的数据信号表示的指令1119和/或数据1121。

在至少一个实施例中，系统逻辑芯片可以耦合到处理器总线1110和内存1120。在至少一个实施例中，系统逻辑芯片可以包括但不限于内存控制器集线器(“MCH”)1116，以及处理器1102可以经由处理器总线1110与MCH 1116通信。在至少一个实施例中，MCH 1116可以提供到内存1120的高带宽内存路径1118，用于指令和数据存储以及用于图形命令、数据和纹理的存储。在至少一个实施例中，MCH 1116可以在处理器1102、内存1120和计算机系统1100中的其他组件之间引导数据信号并且在处理器总线1110、内存1120和系统I/O 1122之间桥接数据信号。至少在一个实施例中，系统逻辑芯片可以提供用于耦合到图形控制器的图形端口。在至少一个实施例中，MCH 1116可以通过高带宽内存路径1118耦合到内存1120并且图形/视频卡1112可以通过加速图形端口(“AGP”)互连1114耦合到MCH 1116。

在至少一个实施例中，计算机系统1100可以使用作为专有集线器接口总线的系统I/O 1122来将MCH 1116耦合到I/O控制器集线器(“ICH”)1130。在至少一个实施例中，ICH1130可以通过本地I/O总线提供与某些I/O设备的直接连接。在至少一个实施例中，本地I/O总线可以包括但不限于用于将外围设备连接到内存1120、芯片组和处理器1102的高速I/O总线。示例可以包括但不限于音频控制器1129、固件集线器(“闪存BIOS”)1128、无线收发器1126、数据内存1124、包含用户输入和键盘接口1125的传统I/O控制器1123、串行扩展端口1127，例如通用串行总线(“USB”)和网络控制器1134。数据存储1124可以包括硬盘驱动器、软盘驱动器、CD-ROM设备、闪存设备或其他大容量存储设备。

在至少一个实施例中，图11A示出了包括互连硬件设备或“芯片”的系统，而在其他实施例中，图11A示出了一个示例性片上系统(“SoC”)。在至少一个实施例中，设备可以与专有互连、标准化互连(例如，PCIe)或其某种组合互连。在至少一个实施例中，计算机系统1100的一个或更多个组件使用计算快速链路(CXL)互连来互连。

推理和/或训练逻辑915用于执行与一个或更多个实施例相关联的推理和/或训练操作。下面结合图9A和9B提供关于推理和/或训练逻辑915的细节。在至少一个实施例中，推理和/或训练逻辑915可以用在系统图11A用于至少部分地基于使用神经网络训练操作计算的权重参数、神经网络函数和/或架构或本文所描述的神经网络用来推断或预测操作。

图12是示出根据至少一个实施例的用于利用处理器1210的电子设备1200的框图。在至少一个实施例中，电子设备1200可以是例如但不限于笔记本、塔式服务器、机架服务器、刀片服务器、笔记本、台式机、平板电脑、移动设备、电话、嵌入式计算机或任何其他合适的电子设备。

在至少一个实施例中，系统1200可以包括但不限于处理器1210，该处理器通过通信耦合到任何合适数量或种类的组件、外围设备、模块或设备。在至少一个实施例中，处理器1210使用总线或接口耦合，例如1℃总线、系统管理总线(“SMBus”)、少针脚型接口(LPC)总线、串行外围接口(“SPI”))、高清晰度音频(“HDA”)总线、串行高级技术附件(“SATA”)总线、通用串行总线(“USB”)(版本1、2、3)或通用异步接收器/发送器(“UART”)总线。在至少一个实施例中，图12示出了一个系统，其包括互连的硬件设备或“芯片”，而在其他实施例中，图12可以示出示例性片上系统(“SoC”)。在至少一个实施例中，图12中所示的设备可以与专有互连、标准化互连(例如，PCIe)或它们的某种组合互连。在至少一个实施例中，图12的一个或更多个组件由一个或更多个组件使用计算快速链路(CXL)互连进行互连。

在至少一个实施例中，图12可以包括显示器1224、触摸屏1225、触摸板1230、近场通信单元(“NFC”)1245、传感器集线器1240、热传感器1246、高速芯片组(“EC”)1235、可信平台模块(“TPM”)1238、BIOS/固件/闪存(“BIOS、FW闪存”)1222、DSP 1260、例如固态磁盘(“SSD”)或硬盘驱动器(“HDD”)的驱动器1220、无线局域网单元(“WLAN”)1250、蓝牙单元1252、无线广域网单元(“WWAN”)1256、全球定位系统(GPS)1255、相机(“USB 3.0相机”)1254(例如USB 3.0相机)和/或低功耗双倍数据速率(“LPDDR”)存储单元(“LPDDR3”)1215，例如，LPDDR3标准。这些组件中的每一个都可以以任何合适的方式实现。

在至少一个实施例中，其他组件可以通过上面讨论的组件通信地耦合到处理器1210。在至少一个实施例中，加速度计1241、环境光传感器(“ALS”)1242、罗盘1243和陀螺仪1244可以通信地耦合到传感器集线器1240。在至少一个实施例中，热传感器1239、风扇1237、键盘1246和触摸板1230可以通信地耦合到EC 1235。在至少一个实施例中，扬声器1263、耳机1264和麦克风(“mic”)1265可以通信地耦合到音频单元(“音频编解码器和d类放大器”)1262，其又可通信地耦合到DSP 1260。在至少一个实施例中，音频单元1264可包括，例如但不限于，音频编码器/解码器(“编解码器”)和D类放大器。在至少一个实施例中，SIM卡(“SIM”)1257可以通信地耦合到WWAN单元1256。在至少一个实施例中，诸如WLAN单元1250和蓝牙单元1252以及WWAN单元1256之类的组件可以在下一代规格连接器(“NGFF”)。

推理和/或训练逻辑915用于执行与一个或更多个实施例相关联的推理和/或训练操作。下面结合图9A和9B提供的关于推理和/或训练逻辑915的细节。在至少一个实施例中，推理和/或训练逻辑915可以用在系统图12中，至少部分地基于使用神经网络训练操作、神经网络函数和/或架构或本文所述的神经网络用例计算的权重参数来推断或预测操作。

图13是根据至少一个实施例的处理系统的框图。在至少一个实施例中，系统1300包括一个或更多个处理器1302和一个或更多个图形处理器1308，并且可以是单处理器桌面系统、多处理器工作站系统或具有大量处理器1302或处理器核1307的服务器系统。在至少一个实施例中，系统1300是集成在片上系统(SoC)集成电路中以用于移动、手持或嵌入式设备的处理平台。

在至少一个实施例中，系统1300可以包括或并入到基于服务器的游戏平台中，游戏控制台包括游戏和媒体控制台、移动游戏控制台、手持游戏控制台或在线游戏控制台。在至少一个实施例中，系统1300是移动电话、智能电话、平板电脑设备或移动互联网设备。在至少一个实施例中，处理系统1300还可以包括、耦合或集成在可穿戴设备中，诸如智能手表可穿戴设备、智能眼镜设备、增强现实设备或虚拟现实设备。在至少一个实施例中，处理系统1300是具有一个或更多个处理器1302和由一个或更多个图形处理器1308生成的图形界面的电视机或机顶盒设备。

在至少一个实施例中，一个或更多个处理器1302各自包括一个或更多个处理器核1307以处理指令，当被执行时，该指令执行系统和用户软件的操作。在至少一个实施例中，一个或更多个处理器核1307中的每一个被配置为处理特定指令集1309。在至少一个实施例中，指令集1309可以促进复杂指令集计算机(CISC)、精简指令集计算机(RISC)，或通过超长指令字(VLIW)计算。在至少一个实施例中，处理器核1307可以各自处理不同的指令集1309，其中可包括促进其他指令集仿真的指令。在至少一个实施例中，处理器核1307还可以包括其他处理设备，例如数字信号处理器(DSP)。

在至少一个实施例中，处理器1302包括高速缓冲内存1304。在至少一个实施例中，处理器1302可以具有单个内部高速缓存或多级内部高速缓存。在至少一个实施例中，高速缓冲内存在处理器1302的各个组件之间共享。在至少一个实施例中，处理器1302还使用外部高速缓存(例如，三级(L3)缓存或末级高速缓存(LLC))(未示出)，其可以使用已知的高速缓存一致性技术在处理器核1307之间共享。在至少一个实施例中，处理器1302附加地包括寄存器堆1306，处理器1302可以包括用于存储不同类型数据的不同类型的寄存器(例如，整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器)。在至少一个实施例中，寄存器文件1506可以包括通用寄存器或其他寄存器。

在至少一个实施例中，一个或更多个处理器1302与一个或更多个接口总线1310耦合,以在处理器1302和系统1300中的其他组件之间传输诸如地址、数据或控制信号之类的通信信号。在至少一个实施例中，接口总线1310在一个实施例中可以是处理器总线，例如直接媒体接口(DMI)总线的一种版本。在至少一个实施例中，接口1310不限于DMI总线，并且可以包括一个或更多个外围组件互连总线(例如，PCI、PCI Express)、内存总线或其他类型的接口总线。在至少一个实施例中，处理器1302包括整合内存控制器1316和平台控制器集线器1330。在至少一个实施例中，内存控制器1316促进内存设备和系统1300的其他组件之间的通信，而平台控制器集线器(PCH)1330通过本地I/O总线提供到I/O设备的连接。

在至少一个实施例中，内存设备1320可以是动态随机存取内存(DRAM)设备、静态随机存取内存(SRAM)设备、闪存设备、相变内存设备或具有适当性能作为进程内存的其他内存设备。在至少一个实施例中，内存设备1320可以作为系统1300的系统内存操作，以存储数据1322和指令1321，以供在一个或更多个处理器1302执行应用或进程时使用。在至少一个实施例中，整合内存控制器1316还与可选的外部图形处理器1312耦合，该外部图形处理器1312可以与处理器1302中的一个或更多个图形处理器1308通信以执行图形和媒体操作。在至少一个实施例中，显示设备1311可以连接到处理器1302。在至少一个实施例中，显示设备1311可以包括一个或更多个内部显示设备，如在移动电子设备或笔记本电脑设备或通过显示接口(例如，DisplayPort等)连接的外部显示设备。在至少一个实施例中，显示设备1311可以包括头戴式显示器(HMD)，诸如用于虚拟现实(VR)应用或增强现实(AR)应用中的立体显示设备。

在至少一个实施例中，平台控制器集线器1330使外围设备能够经由高速I/O总线连接到内存设备1320和处理器1302。在至少一个实施例中，I/O外围设备包括但不限于音频控制器1346、网络控制器1334、固件接口1328、无线收发器1326、触摸传感器1325、数据存储设备1324(例如，硬盘驱动器、闪存等)。在至少一个实施例中，数据存储设备1324可以经由存储接口(例如，SATA)或经由外围总线，例如外围组件互连总线(例如，PCI、PCI Express)来连接。在至少一个实施例中，触摸传感器1325可以包括触摸屏传感器、压力传感器或指纹传感器。在至少一个实施例中，无线收发器1326可以是Wi-Fi收发器、蓝牙收发器或诸如3G、4G或长期演进(LTE)收发器的移动网络收发器。在至少一个实施例中，固件接口1328实现与系统固件的通信，例如可以是统一可扩展固件接口(UEFI)。在至少一个实施例中，网络控制器1334可以实现到有线网络的网络连接。在至少一个实施例中，高性能网络控制器(未示出)与接口总线1310耦合。在至少一个实施例中，音频控制器1346是多通道高清音频控制器。在至少一个实施例中，系统1300包括可选的传统I/O控制器1340，用于将传统(例如，个人系统2(PS/2))设备耦合到系统。在至少一个实施例中，平台控制器集线器1330还可以连接到一个或更多个通用串行总线(USB)控制器1342连接输入设备，例如键盘和鼠标1343组合、相机1344或其他USB输入设备。

在至少一个实施例中，整合内存控制器1316和平台控制器集线器1330的实例可以集成到离散的外部图形处理器中，例如外部图形处理器1312。在至少一个实施例中，平台控制器集线器1330和/或整合内存控制器1316可以在一个或更多个处理器1302的外部。例如，在至少一个实施例中，系统1300可以包括外部整合内存控制器1316和平台控制器集线器1330，其可以被配置为内存控制器集线器和与处理器1302通信的系统芯片组内的外围控制器集线器。

推理和/或训练逻辑915用于执行与一个或更多个实施例相关联的推理和/或训练操作。下面结合图9A和9B提供关于推理和/或训练逻辑915的细节。在至少一个实施例中，推理和/或训练逻辑915的一部分或全部可以被合并到图形处理器1300中。例如，在至少一个实施例中，这里描述的训练和/或推理技术可以使用图形处理器1312中包含的一个或更多个ALU。此外，在至少一个实施例中，这里描述的推理和/或训练操作可以使用不同于图9A或图9B中所示的逻辑以外的逻辑来完成。在至少一个实施例中，权重参数可以存储在片内或片外内存和/或寄存器(示出或者未示出)中，配置图形处理器1300的ALU以执行此处描述的一种或多种机器学习算法、神经网络架构、用例或训练技术。

图14是根据至少一个实施例的具有一个或更多个处理器核1402A-1402N、集成内存控制器1414和集成图形处理器1408的处理器1400的框图。在至少一个实施例中，处理器1400可以包括附加核心，最大包括由虚线框表示的附加核心1402N。在至少一个实施例中，每一个处理器核心1402A-1402N中包括一个或更多个内部高速缓存单元1404A-1404N。在至少一个实施例中，每个处理器核还可以访问一个或更多个共享高速缓存单元1406。

在至少一个实施例中，内部高速缓存单元1404A-1404N和共享高速缓存单元1406代表处理器1400内的高速缓存内存层次结构。在至少一个实施例中，高速缓存内存单元1404A-1404N可以包括至少一级指令和每个处理器内核中的数据高速缓存以及一个或更多个共享的中级高速缓存，例如二级(L2)、三级(L3)、四级(L4)或其他级别的高速缓存，外部内存被归类为LLC之前最高级别的高速缓存。在至少一个实施例中，高速缓存一致性逻辑维持各种高速缓存单元1406和1404A-1404N之间的一致性。

在至少一个实施例中，处理器1400还可以包括一组一个或更多个总线控制器单元1416和一个系统代理核心1410。在至少一个实施例中，一个或更多个总线控制器单元1416管理一组外围总线，例如一个或更多个PCI或PCI express总线。在至少一个实施例中，系统代理核心1410为各种处理器组件提供管理功能。在至少一个实施例中，系统代理核心1410包括一个或更多个集成内存控制器1414以管理对各种外部内存设备(未示出)的访问。

在至少一个实施例中，一个或更多个处理器核心1402A-1402N包括对同步多线程的支持。在至少一个实施例中，系统代理核心1410包括用于在多线程处理期间协调和操作核心1402A-1402N的组件。在至少一个实施例中，系统代理核1410可以附加包括功率控制单元(PCU)，其包括用于调节处理器核1402A-1402N和图形处理器1408的一种或多种功率状态的逻辑和组件。

在至少一个实施例中，处理器1400另外包括图形处理器1408以执行图形处理操作。在至少一个实施例中，图形处理器1408与共享高速缓存单元1406和系统代理核心1410耦合，包括一个或更多个集成内存控制器1414。在至少一个实施例中，系统代理核心1410还包括显示控制器1411以驱动图形处理器输出到一个或更多个耦合的显示器。在至少一个实施例中，显示控制器1411还可以是经由至少一个互连与图形处理器1408耦合的单独模块，或者可以集成在图形处理器1408内。

在至少一个实施例中，基于环的互连单元1412用于耦合处理器1400的内部组件。在至少一个实施例中，可以使用可选互连单元，例如点对点互连、交换互连或其他技术。在至少一个实施例中，图形处理器1408经由I/O链路1413与环形互连1412耦合。

在至少一个实施例中，I/O链路1413代表多种I/O互连中的至少一种，包括促进各种处理器组件和高性能嵌入式内存模块之间通信的封装I/O互连1418，例如eDRAM模块。在至少一个实施例中，每个处理器核心1402A-1402N和图形处理器1408使用嵌入式内存模块1418作为共享的末级高速缓存。

在至少一个实施例中，处理器内核1402A-1402N是执行公共指令集架构的同构内核。在至少一个实施例中，处理器核1402A-1402N在指令集架构(ISA)方面是异构的，其中一个或更多个处理器核1402A-1402N执行公共指令集，而一个或更多个其他处理器核1402A-14-02N执行公共指令集或不同指令集的子集。在至少一个实施例中，处理器核1402A-1402N在微架构方面是异构的，其中一个或更多个具有相对较高功耗的核，与一个或更多个具有较低功耗的核耦合。在至少一个实施例中，处理器1400可以在一个或更多个芯片上或者作为SoC集成电路来实现。

推理和/或训练逻辑915用于执行与一个或更多个实施例相关联的推理和/或训练操作。下面结合图9A和/或图9B提供关于推理和/或训练逻辑915的细节。在至少一个实施例中，推理和/或训练逻辑915的一部分或全部可以并入处理器1400中。例如，在至少一个实施例中，这里描述的训练和/或推理技术可以使用一个或更多个包含在图形处理器1312的ALU、图形核心1402A-1402N或图14中的其他组件。此外，在至少一个实施例中，这里描述的推理和/或训练操作可以使用与图9A和图9B所示的逻辑以外的逻辑来完成。在至少一个实施例中，权重参数可以存储在片内或片外内存和/或寄存器(示出或者未示出)中，配置图形处理器1400的ALU以执行此处描述的一种或多种机器学习算法、神经网络架构、用例或训练技术。

自动驾驶汽车

图15A示出了根据至少一个实施例的自主车辆1500的示例。在至少一个实施例中，自主车辆1500(在本文中可替代地称为“车辆1500”)可以是但不限于客运车辆，例如汽车、卡车、公共汽车和/或可容纳一个或更多个乘客的另一种类型的车辆。在至少一个实施例中，车辆1a00可以是用于拖运货物的半牵引车-拖车。在至少一个实施例中，车辆1a00可以是飞机、机器人车辆或其他类型的车辆。

可以根据由美国运输部下属的国家公路交通安全管理局(“NHTSA”)和汽车工程师学会(“SAE”)“与用于道路机动车辆的驾驶自动化系统有关的术语(Taxonomy andDefinitions for Terms Related to Driving Automation Systems for On-Road MotorVehicles)”(例如，于2018年6月15日发布的标准号J3016-201806，于2016年9月30日发布的标准号J3016-201609，以及该版本的以前和将来的版本此标准)定义的自动化级别来描述自动驾驶汽车。在一个或更多个实施例中，车辆1500可能能够根据自动驾驶级别的级别1至级别5中的一个或更多个来进行功能。例如，在至少一个实施例中，根据实施例，车辆1500可能能够进行条件自动化(级别3)、高度自动化(级别4)和/或全自动(级别5)。

在至少一个实施例中，车辆1500可以包括但不限于组件，诸如底盘、车身、车轮(例如2、4、6、8、18等)、轮胎、车轴和车辆的其他组件。在至少一个实施例中，车辆1500可以包括但不限于推进系统1550，例如内燃机、混合动力装置、全电动发动机和/或另一种推进系统类型。在至少一个实施例中，推进系统1550可以连接至车辆1500的传动系，其可以包括但不限于变速器，以使得能够对车辆1500进行推进。在至少一个实施例中，可以响应于从油门/加速器1552接收信号以控制推进系统1550。

在至少一个实施例中，当推进系统1550正在运行时(例如，当车辆行驶时)，转向系统1554(其可以包括但不限于方向盘)用于使车辆1500转向(例如，沿着期望的路径或路线)。在至少一个实施例中，转向系统1554可以从转向致动器1556接收信号。方向盘对于全自动化(级别5)功能可以是可选的。在至少一个实施例中，制动传感器系统1546可以用于响应于从制动致动器1548和/或制动传感器接收到的信号来操作车辆制动器。

在至少一个实施例中，控制器1536可以包括但不限于一个或更多个片上系统(“SoC”)(图15A中未示出)和/或图形处理单元(“GPU”)向车辆1500的一个或更多个组件和/或系统提供信号(例如，代表命令)。例如，在至少一个实施例中，控制器1536可以发送信号以通过制动致动器1548操作车辆制动，通过一个或更多个转向致动器1556操作转向系统1554，和/或通过一个或更多个油门(throttle)/加速器1552操作推进系统1550。一个或更多个控制器1536可以包括一个或更多个机载(例如，集成)计算设备(例如，超级计算机)，其处理传感器信号并输出操作命令(例如，表示命令的信号)以实现自动驾驶和/或协助驾驶员驾驶车辆1500。在至少一个实施例中，一个或更多个控制器1536可以包括用于自动驾驶功能的第一控制器1536，用于功能安全功能的第二控制器1536，用于人工智能功能(例如计算机视觉)的第三控制器1536，用于信息娱乐功能的第四控制器1536，用于紧急情况下的冗余的第五控制器1536和/或其他控制器。在至少一个实施例中，单个控制器1536可以处理上述功能中的两个或更多个，两个或更多控制器1536可以处理单个功能和/或其任何组合。

在至少一个实施例中，一个或更多个控制器1536响应于从一个或更多个传感器(例如，传感器输入)接收到的传感器数据，提供用于控制车辆1500的一个或更多个组件和/或系统的信号。在至少一个实施例中，传感器数据可以从传感器接收，传感器类型例如但不限于一个或更多个全球导航卫星系统(“GNSS”)传感器1558(例如，一个或更多个全球定位系统传感器)、一个或更多个RADAR传感器1560、一个或更多个超声波传感器1562、一个或更多个LIDAR传感器1564、一个或更多个惯性测量单元(IMU)传感器1566(例如，一个或更多个加速度计、一个或更多个陀螺仪、一个或更多个磁罗盘、一个或更多个磁力计等)、一个或更多个麦克风1596、一个或更多个立体声相机1568、一个或更多个广角相机1570(例如鱼眼相机)、一个或更多个红外相机1572、一个或更多个环绕相机1574(例如，360度相机)、远程相机(图15A中未示出)、中程相机(图15A中未示出)、一个或更多个速度传感器1544(例如，用于测量车辆1500的速度)、一个或更多个振动传感器1542、一个或更多个转向传感器1540、一个或更多个制动传感器(例如，作为制动传感器系统1546的一部分)和/或其他传感器类型接收。

在至少一个实施例中，一个或更多个控制器1536可以从车辆1500的仪表板1532接收输入(例如，由输入数据表示)并通过人机界面(“HMI”)显示器1534、声音信号器、扬声器和/或车辆1500的其他组件提供输出(例如，由输出数据、显示数据等表示)。在至少一个实施例中，输出可包括信息，诸如车速、速度、时间、地图数据(例如，高清晰度地图(图15A中未显示)、位置数据(例如，车辆1500的位置，例如在地图上)、方向、其他车辆的位置(例如，占用光栅)、关于对象的信息以及由一个或更多个控制器1536感知到的对象的状态等。例如，在至少一个实施例中，HMI显示器1534可以显示关于一个或更多个对象的存在的信息(例如，路牌、警告标志、交通信号灯变更等)和/或有关驾驶操作车辆已经、正在或将要制造的信息(例如，现在改变车道、在两英里内驶出34B出口等)。

在至少一个实施例中，车辆1500进一步包括网络接口1524，其可以使用一个或更多个无线天线1526和/或一个或更多个调制解调器通过一个或更多个网络进行通信。例如，在至少一个实施例中，网络接口1524可能能够通过长期演进(“LTE”)、宽带码分多址(“WCDMA”)、通用移动电信系统(“UMTS”)、全球移动通信系统(“GSM”)、IMT-CDMA多载波(“CDMA2000”)等进行通信。在至少一个实施例中，一个或更多个无线天线1526还可以使用一个或更多个局域网(例如Bluetooth、Bluetooth Low Energy(LE)、Z-Wave、ZigBee等)和/或一个或更多个低功耗广域网(以下简称“LPWAN”)(例如LoRaWAN、SigFox等)，使环境中的对象(例如，车辆、移动设备)之间进行通信。

推理和/或训练逻辑915用于执行与一个或更多个实施例相关联的推理和/或训练操作。下面结合图9A和/或图9B提供关于推理和/或训练逻辑915的细节。在至少一个实施例中，推理和/或训练逻辑915可以在系统图15A中用于至少部分地基于使用神经网络训练操作\神经网络功能和/或架构或本文所述的神经网络用例计算出的权重参数来推理或预测操作。

图15B示出了根据至少一个实施例的图15A的自主车辆1500的相机位置和视野的示例。在至少一个实施例中，相机和各自的视野是一个示例实施例，并且不旨在进行限制。例如，在至少一个实施例中，可以包括附加的和/或替代的相机和/或相机可以位于车辆1500上的不同位置。

在至少一个实施例中，用于相机的相机类型可以包括但不限于可以适于与车辆1500的组件和/或系统一起使用的数字相机。在至少一个实施例中，一种或更多种相机可以以汽车安全完整性等级(“ASIL”)B和/或其他ASIL进行操作。在至少一个实施例中，根据实施例，相机类型可以具有任何图像捕获速率，例如60帧每秒(fps)、120fps、240fps等。在至少一个实施例中，相机可以能够使用滚动快门、全局快门、另一种类型的快门或其组合。在至少一个实施例中，滤色器阵列可以包括红色透明透明(“RCCC”)滤色器阵列、红色透明透明蓝色(“RCCB”)滤色器阵列、红色蓝色绿色透明(“RBGC”)滤色器阵列、Foveon X3滤色器阵列、拜耳(Bayer)传感器(“RGGB”)滤色器阵列、单色传感器滤色器阵列和/或其他类型的滤色器阵列。在至少一个实施例中，可以使用透明像素相机，例如具有RCCC、RCCB和/或RBGC滤色器阵列的相机，以努力提高光敏性。

在至少一个实施例中，一个或更多个相机可以用于执行先进驾驶员辅助系统(“ADAS”)功能(例如，作为冗余或故障安全设计的一部分)。例如，在至少一个实施例中，可以安装多功能单声道相机以提供包括车道偏离警告、交通标志辅助和智能大灯控制的功能。在至少一个实施例中，一个或更多个相机(例如，所有相机)可以同时记录并提供图像数据(例如，视频)。

在至少一个实施例中，可以将一个或更多个相机安装在安装组件中，例如定制设计的(三维(“3D”)打印的)组件，以便切出杂散光和来自在汽车内的反光(例如，仪表板的反射在挡风玻璃镜中反光)，其可能会干扰相机的图像数据捕获能力。关于后视镜安装组件，在至少一个实施例中，后视镜组件可以是3D打印定制的，使得相机安装板匹配后视镜的形状。在至少一个实施例中，一个或更多个相机可以被集成到后视镜中。对于侧视相机，在至少一个实施例中，一个或更多个相机也可以集成在舱室的每个角落的四个支柱内。

在至少一个实施例中，具有包括车辆1500前面的环境的部分的视野的相机(例如，前向相机)可以用于环视，以及在一个或更多个控制器1536和/或控制SoC的帮助下帮助识别向前的路径和障碍物，，从而提供对于生成占用网格和/或确定优选的车辆路径至关重要的信息。在至少一个实施例中，前向相机可以用于执行许多与LIDAR相同的ADAS功能，包括但不限于紧急制动、行人检测和避免碰撞。在至少一个实施例中，前向相机也可以用于ADAS功能和系统，包括但不限于车道偏离警告(“LDW”)、自动巡航控制(“ACC”)和/或其他功能(例如交通标志识别)。

在至少一个实施例中，各种相机可以用于前向配置，包括例如包括CMOS(“互补金属氧化物半导体”)彩色成像器的单目相机平台。在至少一个实施例中，广角相机1570可以用于感知从外围进入的对象(例如，行人、过马路或自行车)。尽管在图15B中仅示出了一个广角相机1570，但是，在其他实施例中，车辆1500上可以有任何数量(包括零)的广角相机1570。在至少一个实施例中，任何数量的远程相机1598(例如，远程立体相机对)可用于基于深度的对象检测，尤其是对于尚未训练神经网络的对象。在至少一个实施例中，远程相机1598也可以用于对象检测和分类以及基本对象跟踪。

在至少一个实施例中，任何数量的立体声相机1568也可以包括在前向配置中。在至少一个实施例中，一个或更多个立体声相机1568可以包括集成控制单元，该集成控制单元包括可缩放处理单元，该可缩放处理单元可以提供可编程逻辑(“FPGA”)和具有单个芯片上集成的控制器局域网(“CAN”)或以太网接口的多核心微处理器。在至少一个实施例中，这样的单元可以用于生成车辆1500的环境的3D地图，包括对图像中所有点的距离估计。在至少一个实施例中，一个或更多个立体相机1568可以包括但不限于紧凑型立体视觉传感器，其可以包括但不限于两个相机镜头(左右分别一个)和一个图像处理芯片，其可以测量从车辆1500到目标对象的距离并使用所生成的信息(例如，元数据)来激活自主紧急制动和车道偏离警告功能。在至少一个实施例中，除了本文所述的那些之外，还可以使用其他类型的立体相机1568。

在至少一个实施例中，具有包括车辆1500侧面的环境的一部分的视野的相机(例如，侧视相机)可以用于环绕查看，从而提供用于创建和更新占据网格的信息，以及产生侧面碰撞警告。例如，在至少一个实施例中，一个或更多个环绕相机1574(例如，如图15B所示的四个环绕相机1574)可以定位在车辆1500上。在至少一个实施例中，一个或更多个环绕相机1574可以包括但不限于，一个或更多个广角相机1570、一个或更多个鱼目镜头、一个或更多个360度相机和/或类似物的任意数量和组合。例如，在至少一个实施例中，四个鱼目镜头相机可以位于车辆1500的前、后和侧面。在至少一个实施例中，车辆1500可以使用三个环绕相机1574(例如，左、右和后面)，并且可以利用一个或更多个其他相机(例如，前向相机)作为第四个环视相机。

在至少一个实施例中，具有包括车辆1500后方的环境的一部分的视野的相机(例如，后视相机)可以用于停车辅助、环视、后方碰撞警告、以及创建和更新占用光栅。在至少一个实施例中，可以使用各种各样的相机，包括但不限于还适合作为一个或更多个前向相机的相机(例如，远程相机1598和/或一个或更多个中程相机1576、一个或更多个立体相机1568、一个或更多个红外相机1572等)，如本文所述。

推理和/或训练逻辑915用于执行与一个或更多个实施例相关的推理和/或训练操作。下面结合图9A和/或图9B提供关于推理和/或训练逻辑915的细节。在至少一个实施例中，推理和/或训练逻辑915可以用于图15B的系统中，以至少部分地基于使用本文所述的神经网络训练操作、神经网络功能和/或架构、或神经网络用例计算出的权重参数来推理或预测操作。

图15C示出了根据至少一个实施例的图15A的自主车辆1500的示例系统架构的框图。在至少一个实施例中，图15C中的车辆1500的一个或更多个组件、一个或更多个特征和一个或更多个系统中的每一个都示出为经由总线1502连接。在至少一个实施例中，总线1502可包括但不限于CAN数据接口(在本文中可替代地称为“CAN总线”)。在至少一个实施例中，CAN可以是车辆1500内部的网络，用于帮助控制车辆1500的各种特征和功能，例如制动器的致动、加速、制动、转向、雨刷等。在一个实施例中，总线1502可以配置成具有数十个甚至数百个节点，每个节点具有其自己的唯一识别符(例如，CAN ID)。在至少一个实施例中，可以读取总线1502以找到方向盘角度、地面速度、发动机每分钟转动次数(“RPM”)、按钮位置和/或其他车辆状态指示器。在至少一个实施例中，总线1502可以是符合ASIL B的CAN总线。

在至少一个实施例中，除了CAN之外或来自CAN，可使用FlexRay和/或以太网(Ethernet)。在至少一个实施例中，可以有任意数量的总线1502，其可以包括但不限于零或更多的CAN总线，零或更多的FlexRay总线，零或更多的以太网总线，和/或零或更多的使用其他协议的其他类型的总线。在至少一个实施例中，两个或更多个总线1502可以用于执行不同的功能，和/或可以用于冗余。例如，第一总线1502可以用于碰撞避免功能，并且第二总线1502可以用于致动控制。在至少一个实施例中，每个总线1502可以与车辆1500的任何组件通信，并且两个或更多个总线1502可以与相同的组件通信。在至少一个实施例中，任何数量的片上系统(“SoC”)1504中的每一个，一个或更多个控制器1536中的每一个和/或车辆内的每个计算机都可以访问相同的输入数据(例如，来自车辆1500的传感器的输入)，并且可以连接到公共总线，例如CAN总线。

在至少一个实施例中，车辆1500可以包括一个或更多个控制器1536，诸如本文关于图15A所描述的那些。控制器1536可以用于多种功能。在至少一个实施例中，控制器1536可以耦合到车辆1500的各种其他组件和系统中的任何一个，并且可以用于控制车辆1500、车辆1500的人工智能、车辆1500的信息娱乐等。

在至少一个实施例中，车辆1500可以包括任何数量的SoC 1504。SoC 1504中的每一个可以包括但不限于中央处理单元(“一个或更多个CPU”)1506、图形处理单元(“一个或更多个GPU”)1508、一个或更多个处理器1510、一个或更多个高速缓存1512、一个或更多个加速器1514、一个或更多个数据存储1516和/或其他未显示的组件和特征。在至少一个实施例中，一个或更多个SoC 1504可以用于在各种平台和系统中控制车辆1500。例如，在至少一个实施例中，一个或更多个SoC 1504可以与高清晰度(“HD”)地图1522在系统(例如，车辆1500的系统)中组合，该高清晰度地图1522可以经由网络接口1524从一个或更多个服务器(图15C中未示出)获得地图刷新和/或更新。

在至少一个实施例中，一个或更多个CPU 1506可以包括CPU集群或CPU复合体(在本文中可替代地称为“CCPLEX”)。在至少一个实施例中，一个或更多CPU 1506可以包括多个核心和/或二级(“L2”)高速缓存。例如，在至少一个实施例中，一个或更多CPU 1506可以在相互耦合的多处理器配置中包括八个核心。在至少一个实施例中，一个或更多CPU 1506可以包括四个双核心集群，其中每个集群具有专用的L2高速缓存(例如，2MB L2高速缓存)。在至少一个实施例中，一个或更多CPU1506(例如，CCPLEX)可以配置成支持同时的集群操作，使得一个或更多CPU 1506的集群的任何组合在任何给定的时间都可以是活跃的。

在至少一个实施例中，一个或更多个CPU 1506可以实现电源管理功能，这些功能包括但不限于以下特征中的一个或更多个：空闲时可以自动对各个硬件模块进行时钟门控以节省动态功率；当核心由于执行等待中断(“WFI”)/事件等待(“WFE”)指令而未主动执行指令时，可以对每个核心时钟进行门控；每个核心都可以独立供电；当所有核心都被时钟门控或功率门控时，每个核心集群可以被独立地时钟门控；以及/或当所有核心都被功率门控时，每个核心集群可以被独立地功率门控。在至少一个实施例中，一个或更多CPU 1506可以进一步实现用于管理功率状态的增强算法，其中指定了允许的功率状态和预期的唤醒时间，并且硬件/微码确定了针对核心、集群和CCPLEX输入的最佳功率状态。在至少一个实施例中，处理核心可以在软件中支持简化的功率状态输入序列，其中工作被分担给微码。

在至少一个实施例中，一个或更多个GPU 1508可以包括集成的GPU(在本文中或者称为“iGPU”)。在至少一个实施例中，一个或更多个GPU 1508可以是可编程的，并且对于并行工作负载可以是有效的。在至少一个实施例中，一个或更多个GPU 1508，在至少一个实施例中，可以使用增强的张量指令集。在至少一个实施例中，一个或更多个GPU 1508可以包括一个或更多个流式微处理器，其中每个流式微处理器可以包括一级(“L1”)高速缓存(例如，具有至少96KB的存储容量的L1高速缓存)，以及两个或更多个流式微处理器可以共享L2高速缓存(例如，具有512KB存储容量的L2高速缓存)。在至少一个实施例中，一个或更多个GPU1508可以包括至少八个流式微处理器。在至少一个实施例中，一个或更多个GPU 1508可以使用计算应用程序编程接口(API)。在至少一个实施例中，一个或更多GPU 1508可以使用一个或更多个并行计算平台和/或编程模型(例如，NVIDIA的CUDA)。

在至少一个实施例中，一个或更多个GPU 1508可以经功耗优化以在汽车和嵌入式用例中获得最佳性能。例如，在一个实施例中，可以在鳍式场效应晶体管(“FinFET”)上制造一个或更多个GPU 1508。在至少一个实施例中，每个流式微处理器可以包含多个划分为多个块的混合精度处理核心，。例如但不限于，可以将64个PF32核心和32个PF64核心划分为四个处理块。在至少一个实施例中，可以为每个处理块分配16个FP32核心、8个FP64核心、16个INT32核心、两个用于深度学习矩阵算术的混合精度NVIDIA TENSOR CORE、零级(“L0”)指令缓存、线程束调度器、分派单元和/或64KB寄存器文件。在至少一个实施例中，流式微处理器可以包括独立的并行整数和浮点数据路径来提供混合了计算和寻址运算的工作量的有效执行。在至少一个实施例中，流式微处理器可以包括独立的线程调度能力，以实现更细粒度的同步和并行线程之间的协作。在至少一个实施例中，流式微处理器可以包括组合的L1数据高速缓存和共享内存单元，以便在简化编程的同时提高性能。

在至少一个实施例中，一个或更多个GPU 1508可以包括高带宽内存(“HBM”)和/或16GB HBM2内存子系统，以在一些示例中提供约900GB/秒的峰值存储带宽。在至少一个实施例中，除了或替代于HBM内存，可以使用同步图形随机存取内存(“SGRAM”)，例如图形双倍数据速率类型的五同步随机存取内存(“GDDR5”)。

在至少一个实施例中，一个或更多个GPU 1508可以包括统一内存技术。在至少一个实施例中，地址转换服务(“ATS”)支持可以用于允许一个或更多个GPU 1508直接访问一个或更多个CPU 1506页表。在至少一个实施例中，当一个或更多个GPU 1508内存管理单元(“MMU”)经历未命中时，可以将地址转换请求发送到一个或更多个CPU 1506。作为响应，在至少一个实施例中，一个或更多个CPU 1506可以在其页面表中查找地址的虚拟-物理的映射并将转换传送回一个或更多个GPU 1508。在至少一个实施例中，统一内存技术可以允许单个统一虚拟地址空间用于一个或更多个CPU 1506和一个或更多个GPU 1508两者的内存，从而简化了一个或更多个GPU 1508的编程以及将应用程序移植到一个或更多个GPU 1508。

在至少一个实施例中，一个或更多个GPU 1508可以包括任意数量的访问计数器，其可以跟踪一个或更多个GPU 1508对其他处理器的内存的访问频率。在至少一个实施例中，一个或更多个访问计数器可以帮助确保将内存页面移动到最频繁访问页面的处理器的物理内存中，从而提高处理器之间共享的内存范围的效率。

在至少一个实施例中，一个或更多个SoC 1504可以包括任何数量的高速缓存1512，包括本文所述的那些。例如，在至少一个实施例中，一个或更多个高速缓存1512可以包括可用于一个或更多个CPU 1506和一个或更多个GPU 1508(例如，连接CPU 1506和GPU1508两者)的三级(“L3”)高速缓存。在至少一个实施例中，一个或更多个高速缓存1512可以包括回写式高速缓存，该回写式高速缓存可以例如通过使用高速缓存相干协议(例如，MEI、MESI、MSI等)来跟踪线的状态。在至少一个实施例中，尽管可以使用较小的高速缓存大小，根据实施例，L3高速缓存可以包括4MB或更多。

在至少一个实施例中，一个或更多个SoC 1504可以包括一个或更多个加速器1514(例如，硬件加速器、软件加速器或其组合)。在至少一个实施例中，一个或更多个SoC 1504可以包括硬件加速集群，其可以包括优化的硬件加速器和/或大的片上内存。在至少一个实施例中，大的片上内存(例如4MB的SRAM)可以使硬件加速集群能够加速神经网络和其他计算。在至少一个实施例中，硬件加速集群可以用于补充一个或更多个GPU 1508并且卸载一个或更多个GPU 1508的一些任务(例如，释放一个或更多个GPU 1508的更多周期以执行其他任务)。在至少一个实施例中，一个或更多个加速器1514可以用于足够稳定以经得起加速检验的目标工作负载(例如，感知、卷积神经网络(“CNN”)、递归神经网络(“RNN”)等)。在至少一个实施例中，CNN可以包括基于区域或区域卷积神经网络(“RCNN”)和快速RCNN(例如，如用于对象检测)或其他类型的CNN。

在至少一个实施例中，一个或更多个加速器1514(例如，硬件加速集群)可以包括一个或更多个深度学习加速器(“DLA”)。一个或更多个DLA可以包括但不限于一个或更多个Tensor处理单元(“TPU”)，其可以配置成每秒提供额外的10万亿次操作用于深度学习应用程序和推理。在至少一个实施例中，一个或更多个TPU可以是配置成并被优化用于执行图像处理功能(例如，用于CNN、RCNN等)的加速器。可以针对神经网络类型和浮点运算以及推理的特定集合进一步优化一个或更多个DLA。在至少一个实施例中，一个或更多个DLA的设计可以提供比典型的通用GPU更高的每毫米性能，并且通常大大超过CPU的性能。在至少一个实施例中，一个或更多个TPU可执行若干功能，包括支持例如INT8、INT16和FP16数据类型以用于特征和权重的单实例卷积功能以及后处理器功能的。在至少一个实施例中，一个或更多个DLA可以针对各种功能中的任何功能，在处理或未处理的数据上快速且有效地执行神经网络，尤其是CNN，包括例如但不限于：用于使用来自相机传感器的数据进行对象识别和检测的CNN；用于使用来自相机传感器的数据进行距离估算的CNN；用于使用来自麦克风1596的数据进行紧急车辆检测以及识别和检测的CNN；用于使用来自相机传感器的数据进行人脸识别和车主识别的CNN；以及/或用于安全和/或安全相关事件的CNN。

在至少一个实施例中，DLA可以执行一个或更多个GPU 1508的任何功能，并且通过使用推理加速器，例如，设计者可以将一个或更多个DLA或一个或更多个GPU 1508作为目标用于任何功能。例如，在至少一个实施例中，设计者可以将CNN的处理和浮点运算集中在一个或更多个DLA上，并将其他功能留给一个或更多个GPU 1508和/或一个或更多个其他加速器1514。

在至少一个实施例中，一个或更多个加速器1514(例如，硬件加速集群)可以包括一个或更多个可编程视觉加速器(“PVA”)，其在本文中可以可替代地称为计算机视觉加速器。在至少一个实施例中，一个或更多个PVA可以设计和配置为加速用于高级驾驶员辅助系统(“ADAS”)1538、自动驾驶、增强现实(“AR”)应用程序和/或虚拟现实(“VR”)应用程序的计算机视觉算法。一个或更多个PVA可以在性能和灵活性之间取得平衡。例如，在至少一个实施例中，一个或更多个PVA中的每一个可以包括例如但不限于任何数量的精简指令集计算机(“RISC”)核心、直接内存访问(“DMA”)和/或任意数量的矢量处理器。

在至少一个实施例中，RISC核心可以与图像传感器(例如，本文描述的任意相机的图像传感器)、图像信号处理器等交互。在至少一个实施例中，每个RISC核心可以包括任意数量的内存。在至少一个实施例中，根据实施例，RISC核心可以使用多种协议中的任意一种。在至少一个实施例中，RISC核心可以执行实时操作系统(“RTOS”)。在至少一个实施例中，可以使用一个或更多个集成电路设备、专用集成电路(“ASIC”)和/或存储设备来实现RISC核心。例如，在至少一个实施例中，RISC核心可以包括指令高速缓存和/或紧密耦合的RAM。

在至少一个实施例中，DMA可以使一个或更多个PVA的组件能够独立于一个或更多个CPU 1506访问系统内存。在至少一个实施例中，DMA可以支持用于向PVA提供优化的任何数量的特征，包括但不限于，支持多维寻址和/或循环寻址。在至少一个实施例中，DMA可以支持多达六个或更多个寻址的维度，其可以包括但不限于块宽度、块高度、块深度、水平块步进、垂直块步进和/或深度步进。

在至少一个实施例中，矢量处理器可以是可编程处理器，其可以设计为有效且灵活地执行用于计算机视觉算法并提供信号处理能力的编程。在至少一个实施例中，PVA可以包括PVA核心和两个矢量处理子系统分区。在至少一个实施例中，PVA核心可以包括处理器子系统、DMA引擎(例如，两个DMA引擎)和/或其他外围设备。在至少一个实施例中，矢量处理子系统可以用作PVA的主要处理引擎，并且可以包括矢量处理单元(“VPU”)、指令高速缓存和/或矢量内存(例如“VMEM”)。在至少一个实施例中，VPU可以包括数字信号处理器，例如，单指令多数据(“SIMD”)、超长指令字(“VLIW”)数字信号处理器。在至少一个实施例中，SIMD和VLIW的组合可以提高吞吐量和速度。

在至少一个实施例中，每个矢量处理器可以包括指令高速缓存并且可以耦合到专用内存。结果，在至少一个实施例中，每个矢量处理器可以配置为独立于其他矢量处理器执行。在至少一个实施例中，特定PVA中包括的矢量处理器可以配置为采用数据并行性。例如，在至少一个实施例中，单个PVA中包括的多个矢量处理器可以执行相同的计算机视觉算法，除了在图像的不同区域上之外。在至少一个实施例中，包括在特定PVA中的矢量处理器可以在同一图像上同时执行不同的计算机视觉算法，或者甚至在序列图像或部分图像上执行不同的算法。在至少一个实施例中，除其他外，在硬件加速集群中可以包括任何数量的PVA，并且在每个PVA中可以包括任何数量的矢量处理器。在至少一个实施例中，PVA可以包括附加的纠错码(“ECC”)内存，以增强整体系统安全性。

在至少一个实施例中，一个或更多个加速器1514(例如，硬件加速集群)可以包括片上计算机视觉网络和静态随机存取内存(“SRAM”)，用于为一个或更多个加速器1514提供高带宽，低延迟SRAM。在至少一个实施例中，片上内存可以包括至少4MB SRAM，其包括例如但不限于八个现场可配置的内存块，PVA和DLA均可以对其进行访问。在至少一个实施例中，每对存储块可以包括高级外围总线(“APB”)接口、配置电路、控制器和多路复用器。在至少一个实施例中，可以使用任何类型的内存。在至少一个实施例中，PVA和DLA可以经由为PVA和DLA提供对内存的高速访问的主干网来访问内存。在至少一个实施例中，主干网可以包括片上计算机视觉网络，其将PVA和DLA互连到内存(例如，使用APB)。

在至少一个实施例中，片上计算机视觉网络可以包括接口，该接口在传输任何控制信号/地址/数据之前确定PVA和DLA均提供就绪和有效信号。在至少一个实施例中，接口可以提供用于发送控制信号/地址/数据的单独的相位和单独的信道，以及用于连续数据传输的突发型通信。在至少一个实施例中，尽管可以使用其他标准和协议，但是接口可以符合国际标准化组织(“ISO”)26262或国际电工委员会(“IEC”)61508标准。

在至少一个实施例中，一个或更多个SoC 1504可以包括实时视线追踪硬件加速器。在至少一个实施例中，实时视线追踪硬件加速器可以用于快速且有效地确定对象的位置和范围(例如，在世界模型内)，以生成实时可视化模拟，以用于RADAR信号解释，用于声音传播合成和/或分析，用于SONAR系统的模拟，用于一般的波传播模拟，与用于定位和/或其他功能的LIDAR数据进行比较，和/或用于其他用途。

在至少一个实施例中，一个或更多个加速器1514(例如，硬件加速器集群)具有用于自动驾驶的广泛用途。在至少一个实施例中，PVA可以是可编程视觉加速器，其可以用于ADAS和自动驾驶汽车中的关键处理阶段。在至少一个实施例中，在低功耗和低延迟下PVA的能力与需要可预测的处理的算法域良好匹配。换句话说，PVA在半密集或密集的常规计算中表现出色，即使在小型数据集上也是如此，这些数据集需要具有低延迟和低功耗的可预测的运行时间。在至少一个实施例中，诸如自主车辆(车辆1500)PVA被设计为运行经典的计算机视觉算法，因为它们在对象检测和整数数学运算方面是有效的。

例如，根据技术的至少一个实施例，PVA被用于执行计算机立体视觉。在至少一个实施例中，可以在一些示例中使用基于半全局匹配的算法，尽管这并不意味着限制性。在至少一个实施例中，用于3-5级自动驾驶的应用程序在运行中使用动态的估计/立体匹配(例如，从运动中恢复结构、行人识别、车道检测等)。在至少一个实施例中，PVA可以对来自两个单目相机的输入执行计算机立体视觉功能。

在至少一个实施例中，PVA可以用于执行密集的光流。例如，在至少一个实施例中，PVA可以处理原始RADAR数据(例如，使用4D快速傅立叶变换)以提供处理后的RADAR数据。在至少一个实施例中，例如，通过处理原始飞行时间数据以提供处理后的飞行时间数据，将PVA用于飞行时间深度处理。

在至少一个实施例中，DLA可用于运行任何类型的网络以增强控制和驾驶安全性，包括例如但不限于神经网络，其输出用于每个对象检测的置信度。在至少一个实施例中，可以将置信度表示或解释为概率，或者表示为提供每个检测相对于其他检测的相对“权重”。在至少一个实施例中，置信度使系统能够做出进一步的决定，即关于哪些检测应当被认为是真正的阳性检测而不是假阳性检测。例如，在至少一个实施例中，系统可以为置信度设置阈值，并且仅将超过阈值的检测视为真阳性检测。在使用自动紧急制动(“AEB”)系统的实施例中，假阳性检测将导致车辆自动执行紧急制动，这显然是不希望的。在至少一个实施例中，高度自信的检测可以被认为是AEB的触发。在至少一个实施例中，DLA可以运行用于回归置信度值的神经网络。在至少一个实施例中，神经网络可以将参数的至少一些子集作为其输入，例如包围盒尺寸，获得的地平面估计(例如，从另一子系统)，与从神经网络和/或其他传感器(例如，一个或更多个LIDAR传感器1564或一个或更多个RADAR传感器1560)等获得的对象的车辆1500方向、距离、3D位置估计相关的一个或更多个IMU传感器1566的输出。

在至少一个实施例中，一个或更多个SoC 1504可以包括一个或更多个数据存储装置1516(例如，内存)。在至少一个实施例中，一个或更多个数据存储1516可以是一个或更多个SoC 1504的片上内存，其可以存储要在一个或更多个GPU 1508和/或DLA上执行的神经网络。在至少一个实施例中，一个或更多个数据存储1516可以具有足够大的容量以存储神经网络的多个实例以用于冗余和安全。在至少一个实施例中，一个或更多个数据存储1516可以包括L2或L3高速缓存。

在至少一个实施例中，一个或更多个SoC 1504可以包括任何数量的处理器1510(例如，嵌入式处理器)。在至少一个实施例中，一个或更多个处理器1510可以包括启动和电源管理处理器，该启动和电源管理处理器可以是专用处理器和子系统，以处理启动电源和管理功能以及相关的安全实施。在至少一个实施例中，启动和电源管理处理器可以是一个或更多个SoC 1504启动序列的一部分，并且可以提供运行时电源管理服务。在至少一个实施例中，启动功率和管理处理器可以提供时钟和电压编程，辅助系统低功率状态转换，一个或更多个SoC 1504热和温度传感器管理和/或一个或更多个SoC 1504功率状态管理。在至少一个实施例中，每个温度传感器可以实现为其输出频率与温度成比例的环形振荡器，并且一个或更多个SoC 1504可以使用环形振荡器来检测一个或更多个CPU 1506，一个或更多个GPU1508和/或一个或更多个加速器1514的温度。在至少一个实施例中，如果确定温度超过阈值，则启动和电源管理处理器可以进入温度故障例程，并将一个或更多个SoC 1504置于较低功耗状态和/或将车辆1500置于司机的安全停车图案(例如，使车辆1500安全停车)。

在至少一个实施例中，一个或更多个处理器1510可以进一步包括一组嵌入式处理器，其可以用作音频处理引擎。在至少一个实施例中，音频处理引擎可以是音频子系统，其能够通过多个接口以及广泛且灵活范围的音频I/O接口为硬件提供对多通道音频的完全硬件支持。在至少一个实施例中，音频处理引擎是专用处理器核心，其具有带专用RAM的数字信号处理器。

在至少一个实施例中，一个或更多个处理器1510可以进一步包括始终在线的处理器引擎，该引擎可以提供必要的硬件特征以支持低功率传感器管理和唤醒用例。在至少一个实施例中，始终在线的处理器引擎上的处理器可以包括但不限于处理器核心、紧密耦合的RAM、支持外围设备(例如，定时器和中断控制器)、各种I/O控制器外围设备以及路由逻辑。

在至少一个实施例中，一个或更多个处理器1510可以进一步包括安全集群引擎，该安全集群引擎包括但不限于用于处理汽车应用程序的安全管理的专用处理器子系统。在至少一个实施例中，安全集群引擎可以包括但不限于两个或更多个处理器核心、紧密耦合的RAM、支持外围设备(例如，定时器、中断控制器等)和/或路由逻辑。在安全模式下，在至少一个实施例中，两个或更多个核心可以以锁步模式操作，并且可以用作具有用以检测其操作之间的任何差异的比较逻辑的单个核心。在至少一个实施例中，一个或更多个处理器1510可以进一步包括实时相机引擎，该实时相机引擎可以包括但不限于用于处理实时相机管理的专用处理器子系统。在至少一个实施例中，一个或更多个处理器1510可以进一步包括高动态范围信号处理器，该高动态范围信号处理器可以包括但不限于图像信号处理器，该图像信号处理器是作为相机处理管道的一部分的硬件引擎。

在至少一个实施例中，一个或更多个处理器1510可以包括视频图像合成器，该视频图像合成器可以是处理块(例如，在微处理器上实现)，该处理块实现视频回放应用产生最终的视频所需要的视频后处理功能，以产生用于播放器窗口的最终图像。在至少一个实施例中，视频图像合成器可以在一个或更多个广角相机1570、一个或更多个环绕相机1574和/或一个或更多个舱内监控相机传感器上执行透镜畸变校正。在至少一个实施例中，优选地，由在SoC 1504的另一实例上运行的神经网络来监控舱室内监控相机传感器，该神经网络被配置为识别舱室事件并相应地做出响应。在至少一个实施例中，舱室内系统可以执行但不限于唇读以激活蜂窝服务和拨打电话、指示电子邮件、改变车辆的目的地、激活或改变车辆的信息娱乐系统和设置、或者提供语音激活的网上冲浪。在至少一个实施例中，当车辆以自主模式运行时，某些功能对于驾驶员是可用的，否则将其禁用。

在至少一个实施例中，视频图像合成器可以包括用于同时空间和时间降噪的增强的时间降噪。例如，在至少一个实施例中，在运动发生在视频中的情况下，降噪适当地对空间信息加权，从而减小由相邻帧提供的信息的权重。在至少一个实施例中，在图像或图像的一部分不包括运动的情况下，由视频图像合成器执行的时间降噪可以使用来自先前图像的信息来降低当前图像中的噪声。

在至少一个实施例中，视频图像合成器还可以配置为对输入的立体透镜帧执行立体校正。在至少一个实施例中，当使用操作系统桌面时，视频图像合成器还可以用于用户界面合成，并且不需要一个或更多个GPU 1508来连续渲染新表面。在至少一个实施例中，当对一个或更多个GPU 1508供电并使其活跃地进行3D渲染时，视频图像合成器可以被用于卸载一个或更多个GPU 1508以改善性能和响应性。

在至少一个实施例中，一个或更多个SoC 1504可以进一步包括用于从相机接收视频和输入的移动工业处理器接口(“MIPI”)相机串行接口、高速接口和/或可用于相机和相关像素输入功能的视频输入块。在至少一个实施例中，一个或更多个SoC 1504可以进一步包括输入/输出控制器，该输入/输出控制器可以由软件控制并且可以被用于接收未提交给特定角色的I/O信号。

在至少一个实施例中，一个或更多个SoC 1504可以进一步包括广泛的外围接口，以使得能够与外围设备、音频编码器/解码器(“编解码器”)，电源管理和/或其他设备通信。一个或更多个SoC 1504可用于处理来自(例如，通过千兆位多媒体串行链路和以太网连接的)相机、传感器(例如，一个或更多个LIDAR传感器1564，一个或更多个RADAR传感器1560等，其可以通过以太网连接)的数据，来自总线1502的数据(例如，车辆1500的速度、方向盘位置等)，来自一个或更多个GNSS传感器1558的数据(例如，通过以太网或CAN总线连接)等。在至少一个实施例中，一个或更多个SoC 1504可以进一步包括专用高性能海量存储控制器，其可以包括它们自己的DMA引擎，并且可以用于使一个或更多个CPU 1506摆脱常规数据管理任务。

在至少一个实施例中，一个或更多个SoC 1504可以是具有灵活架构的端到端平台，其跨越自动化级别3-5级，从而提供利用并有效使用计算机视觉和ADAS技术来实现多样性和冗余的综合的功能安全架构，其提供了可提供灵活、可靠的驾驶软件堆栈以及深度学习工具的平台。在至少一个实施例中，一个或更多个SoC 1504可以比常规系统更快、更可靠，并且甚至在能量效率和空间效率上也更高。例如，在至少一个实施例中，一个或更多个加速器1514当与一个或更多个CPU 1506、一个或更多个GPU 1508以及一个或更多个数据存储装置1516结合时，可以提供用于3-5级自主车辆的快速、有效的平台。

在至少一个实施例中，计算机视觉算法可以在CPU上执行，CPU可以使用高级编程语言(例如C编程语言)配置为在多种视觉数据上执行多种处理算法。然而，在至少一个实施例中，CPU通常不能满足许多计算机视觉应用的性能要求，例如与执行时间和功耗有关的性能要求。在至少一个实施例中，许多CPU不能实时执行复杂的对象检测算法，该算法被用于车载ADAS应用和实际3-5级自主车辆中。

本文所述的实施例允许同时和/或序列地执行多个神经网络，并且允许将结果结合在一起以实现3-5级自动驾驶功能。例如，在至少一个实施例中，在DLA或离散GPU(例如，一个或更多个GPU 1520)上执行的CNN可包括文本和单词识别，从而允许超级计算机读取和理解交通标志，包括神经网络尚未被专门训练的标志。在至少一个实施例中，DLA还可包括神经网络，该神经网络能够识别、解释并提供符号的语义理解，并将该语义理解传递给在CPU Complex上运行的路径规划模块。

在至少一个实施例中，对于3、4或5级的驱动，可以同时运行多个神经网络。例如，在至少一个实施例中，由“警告：闪烁的灯指示结冰状况(Caution:flashing lightsindicate icy conditions)”连通电灯一起组成的警告标志可以由多个神经网络独立地或共同地解释。在至少一个实施例中，可以通过第一部署的神经网络(例如，已经训练的神经网络)将标志本身识别为交通标志，可以通过第二部署的神经网络来解释文本“闪烁的灯指示结冰状况(flashing lights indicate icy conditions)”，其通知车辆的路径规划软件(最好在CPU Complex上执行)：当检测到闪烁的灯光时，就会存在结冰状况。在至少一个实施例中，可以通过在多个帧上操作第三部署的神经网络来识别闪烁的灯，向车辆的路径规划软件通知存在(或不存在)闪烁的灯。在至少一个实施例中，所有三个神经网络可以同时运行，例如在DLA内和/或在一个或更多个GPU 1508上。

在至少一个实施例中，用于面部识别和车辆所有者识别的CNN可以使用来自相机传感器的数据来识别授权驾驶员和/或车辆1500的所有者的存在。在至少一个实施例中，当所有者接近驾驶员门并打开灯时，常开传感器处理器引擎可用于解锁车辆，并且，在安全模式下，当所有者离开车辆时，可用于禁用车辆。以此方式，一个或更多个SoC 1504提供防止盗窃和/或劫车的保障。

在至少一个实施例中，用于紧急车辆检测和识别的CNN可以使用来自麦克风1596的数据来检测和识别紧急车辆警报器。在至少一个实施例中，一个或更多个SoC 1504使用CNN来对环境和城市声音进行分类，以及对视觉数据进行分类。在至少一个实施例中，训练在DLA上运行的CNN以识别紧急车辆的相对接近速度(例如，通过使用多普勒效应)。在至少一个实施例中，还可以训练CNN来识别针对车辆正在运行的区域的紧急车辆，如一个或更多个GNSS传感器1558所识别。在至少一个实施例中，当在欧洲运行时，CNN将寻求检测欧洲警报器，而在美国时，CNN将寻求仅识别北美警报器。在至少一个实施例中，一旦检测到紧急车辆，就可以在一个或更多个超声波传感器1562的辅助下使用控制程序来执行紧急车辆安全例程、减速车辆、将车辆驶至路边、停车、和/或使车辆闲置，直到一个或更多个紧急车辆通过。

在至少一个实施例中，车辆1500可以包括一个或更多个CPU 1518(例如，一个或更多个离散CPU或一个或更多个dCPU)，其可以经由高速互连(例如PCIe)耦合到一个或更多个SoC 1504。在至少一个实施例中，一个或更多个CPU 1518可以包括X86处理器，例如一个或更多个CPU 1518可用于执行各种功能中的任何功能，例如包括在ADAS传感器和一个或更多个SoC 1504之间潜在的仲裁不一致的结果，和/或一个或更多个监控控制器1536的状态和健康和/或片上信息系统(“信息SoC”)1530。

在至少一个实施例中，车辆1500可以包括一个或更多个GPU 1520(例如，一个或更多个离散GPU或一个或更多个dGPU)，其可以经由高速互连(例如NVIDIA的NVLINK)耦合到一个或更多个SoC 1504。在至少一个实施例中，一个或更多个GPU 1520可以提供附加的人工智能功能，例如通过执行冗余和/或不同的神经网络，并且可以至少部分地基于来自车辆1500的传感器的输入(例如，传感器数据)来用于训练和/或更新神经网络。

在至少一个实施例中，车辆1500可以进一步包括网络接口1524，其可以包括但不限于一个或更多个无线天线1526(例如，用于不同通信协议的一个或更多个无线天线1526，诸如蜂窝天线、蓝牙天线等)。在至少一个实施例中，网络接口1524可以用于使通过互联网与云(例如，服务器和/或其他网络设备)、其他车辆和/或计算设备(例如乘客的客户端设备)无线连接。在至少一个实施例中，为了与其他车辆通信，可以在车辆150和其他车辆之间建立直接链路和/或可以建立间接链路(例如，通过网络和互联网)。在至少一个实施例中，可以使用车辆到车辆的通信链路来提供直接链路。车辆到车辆的通信链路可以向车辆1500提供关于车辆1500附近的车辆的信息(例如，车辆1500前面、侧面和/或后面的车辆)。在至少一个实施例中，前述功能可以是车辆1500的协作自适应巡航控制功能的一部分。

在至少一个实施例中，网络接口1524可以包括SoC，其提供调制和解调功能并使一个或更多个控制器1536能够通过无线网络进行通信。在至少一个实施例中，网络接口1524可以包括射频前端，用于从基带到射频的上转换以及从射频到基带的下转换。在至少一个实施例中，可以以任何技术上可行的方式执行频率转换。例如，可以通过公知的过程和/或使用超外差过程来执行频率转换。在至少一个实施例中，射频前端功能可以由单独的芯片提供。在至少一个实施例中，网络接口可以包括用于通过LTE、WCDMA、UMTS、GSM、CDMA2000、蓝牙、蓝牙LE、Wi-Fi、Z-Wave、ZigBee、LoRaWAN和/或其他无线协议进行通信的无线功能。

在至少一个实施例中，车辆1500可以进一步包括一个或更多个数据存储1528，其可以包括但不限于片外(例如，一个或更多个SoC 1504)存储。在至少一个实施例中，一个或更多个数据存储1528可以包括但不限于一个或更多个存储元件，包括RAM、SRAM、动态随机存取内存(“DRAM”)、视频随机存取内存(“VRAM”)、闪存、硬盘和/或其他组件和/或可以存储至少一位数据的设备。

在至少一个实施例中，车辆1500可以进一步包括一个或更多个GNSS传感器1558(例如，GPS和/或辅助GPS传感器)，以辅助地图绘制、感知、占用光栅生成和/或路径规划功能。在至少一个实施例中，可以使用任何数量的GNSS传感器1558，包括例如但不限于使用具有以太网的USB连接器连接到串行接口(例如RS-232)桥的GPS。

在至少一个实施例中，车辆1500可以进一步包括一个或更多个RADAR传感器1560。一个或更多个RADAR传感器1560可以由车辆1500用于远程车辆检测，即使在黑暗和/或恶劣天气条件下。在至少一个实施例中，RADAR功能安全等级可以是ASIL B。一个或更多个RADAR传感器1560可以使用CAN和/或总线1502(例如，以传输由一个或更多个RADAR传感器1560生成的数据)来进行控制和访问对象跟踪数据，在某些示例中可以访问以太网以访问原始数据。在至少一个实施例中，可以使用各种各样的RADAR传感器类型。例如但不限于，一个或更多个RADAR传感器1560可适合于前、后和侧面RADAR使用。在至少一个实施例中，一个或更多个RADAR传感器1560是一个或更多个脉冲多普勒RADAR传感器。

在至少一个实施例中，一个或更多个RADAR传感器1560可以包括不同的配置，例如具有窄视野的远程、具有宽事业的近程、近程侧面覆盖等。在至少一个实施例中，远程RADAR可以用于自适应巡航控制功能。在至少一个实施例中，远程RADAR系统可以提供通过两次或更多次独立扫描(例如在250m范围内)实现的宽广的视野。在至少一个实施例中，一个或更多个RADAR传感器1560可以帮助在静态对象和运动对象之间区分，并且可以被ADAS系统1538用于紧急制动辅助和向前碰撞警告。包括在远程RADAR系统中的一个或更多个传感器1560可以包括但不限于具有多个(例如六个或更多个)固定RADAR天线以及高速CAN和FlexRay接口的单基地多模式RADAR。在至少一个实施例中，具有六个天线、中央四个天线可以创建聚焦的波束图，该波束图设计为以较高的速度记录车辆1500的周围环境，而相邻车道的交通干扰最小。在至少一个实施例中，其他两个天线可以扩大视野，从而可以快速检测进入或离开车辆1500的车道的车辆。

在至少一个实施例中，作为示例，中程RADAR系统可包括例如高达160m(前)或80m(后)的范围，以及高达42度(前)或150度(后)的视野。在至少一个实施例中，短程RADAR系统可以包括但不限于设计成安装在后保险杠的两端的任意数量的RADAR传感器1560。当安装在后保险杠的两端时，在至少一个实施例中，RADAR传感器系统可以产生两个光束，该两个光束不断地监测车辆后部和附近的盲点。在至少一个实施例中，短程RADAR系统可以在ADAS系统1538中用于盲点检测和/或车道改变辅助。

在至少一个实施例中，车辆1500可以进一步包括一个或更多个超声传感器1562。可以定位在车辆1500的前、后和/或侧面的一个或更多个超声传感器1562可以用于停车辅助和/或创建和更新占用光栅。在至少一个实施例中，可以使用各种各样的超声传感器1562，并且可以将不同的超声传感器1562用于不同的检测范围(例如2.5m、4m)。在至少一个实施例中，超声传感器1562可以在ASIL B的功能安全等级下操作。

在至少一个实施例中，车辆1500可以包括一个或更多个LIDAR传感器1564。一个或更多个LIDAR传感器1564可以用于对象和行人检测、紧急制动、避免碰撞和/或其他功能。在至少一个实施例中，一个或更多个LIDAR传感器1564可以是功能安全等级ASIL B。在至少一个实施例中，车辆1500可以包括可以使用以太网的多个(例如，两个、四个、六个等)LIDAR传感器1564(例如，将数据提供给千兆以太网交换机)。

在至少一个实施例中，一个或更多个LIDAR传感器1564可能能够提供针对360度视野的对象及其距离的列表。在至少一个实施例中，市售的一个或更多个LIDAR传感器1564例如可以具有大约100m的广告范围，具有2cm-3cm的精度，并且支持100Mbps的以太网连接。在至少一个实施例中，可以使用一个或更多个非突出的LIDAR传感器1564。在这样的实施例中，可以将一个或更多个LIDAR传感器1564实现为可以嵌入到车辆1500的前、后、侧面和/或拐角中的小型设备。在至少一个实施例中，一个或更多个LIDAR传感器1564，在这样的实施例中，即使对于低反射率的对象，也可以提供高达120度的水平视野和35度的垂直视野，并且具有200m的范围。在至少一个实施例中，可将前向一个或更多个LIDAR传感器1564配置为用于45度至135度之间的水平视野。

在至少一个实施例中，也可以使用LIDAR技术(诸如3D闪光LIDAR)。3D闪光LIDAR使用激光闪光作为传输源，以照亮车辆1500周围大约200m。在至少一个实施例中，闪光LIDAR单元包括但不限于接收器，该接收器记录激光脉冲传播时间和每个像素上的反射光，该像素又对应于从车辆1500到对象的范围。在至少一个实施例中，闪光LIDAR可以允许利用每个激光闪光来生成周围环境的高度准确且无失真的图像。在至少一个实施例中，可以部署四个闪光LIDAR传感器，在车辆1500的每一侧部署一个传感器。在至少一个实施例中，3D闪光LIDAR系统包括但不限于除了风扇(例如非扫描LIDAR设备)以外没有移动部件的固态3D视线阵列LIDAR相机。在至少一个实施例中，闪光LIDAR设备可以每帧使用5纳秒的I类(人眼安全)激光脉冲，并且可以捕获3D测距点云和共同登记的强度数据形式的反射激光。

在至少一个实施例中，车辆还可包括一个或更多个IMU传感器1566。在至少一个实施例中，一个或更多个IMU传感器1566可位于车辆1500的后轴中心，在至少一个实施例中。在至少一个实施例中，一个或更多个IMU传感器1566可以包括，例如但不限于，一个或更多个加速度计、一个或更多个磁力计、一个或更多个陀螺仪、一个或更多个磁罗经和/或其他传感器类型。在至少一个实施例中，例如在六轴应用中，一个或更多个IMU传感器1566可以包括但不限于加速度计和陀螺仪。在至少一个实施例中，例如在九轴应用中，一个或更多个IMU传感器1566可以包括但不限于加速度计、陀螺仪和磁力计。

在至少一个实施例中，一个或更多个IMU传感器1566可以实现为结合了微机电系统(“MEMS”)惯性传感器，高灵敏度GPS接收器和先进的卡尔曼滤波算法的微型高性能GPS辅助惯性导航系统(“GPS/INS”)，以提供位置、速度和姿态的估算；在至少一个实施例中，一个或更多个IMU传感器1566可使车辆1500估算航向而无需来自磁传感器通过直接观察和关联从GPS到一个或更多个IMU传感器1566的速度变化来实现的输入。在至少一个实施例中，一个或更多个IMU传感器1566和一个或更多个GNSS传感器1558可以组合在单个集成单元中。

在至少一个实施例中，车辆1500可以包括放置在车辆1500内和/或周围的一个或更多个麦克风1596。在至少一个实施例中，此外，一个或更多个麦克风1596可以用于紧急车辆检测和识别。

在至少一个实施例中，车辆1500可以进一步包括任何数量的相机类型，包括一个或更多个立体相机1568、一个或更多个广角相机1570、一个或更多个红外相机1572、一个或更多个环绕相机1574、一个或更多个远程相机1598、一个或更多个中程相机1576和/或其他相机类型。在至少一个实施例中，相机可用于捕获车辆1500的整个外围周围的图像数据。在至少一个实施例中，所使用的相机的类型取决于车辆1500。在至少一个实施例中，相机类型的任何组合可以是用于在车辆1500周围提供必要覆盖范围。在至少一个实施例中，相机的数量可以根据实施例而不同。例如，在至少一个实施例中，车辆1500可以包括六个相机、七个相机、十个相机、十二个相机或其他数量的相机。相机可以作为示例但不限于支持千兆位多媒体串行链路(“GMSL”)和/或千兆位以太网。在至少一个实施例中，本文先前参照图15A和图15B更详细地描述了每个相机。

在至少一个实施例中，车辆1500可以进一步包括一个或更多个振动传感器1542。在至少一个实施例中，一个或更多个振动传感器1542可以测量车辆1500的部件(例如，轴)的振动。例如，在至少一个实施例中，振动的变化可以指示路面的变化。在至少一个实施例中，当使用两个或更多个振动传感器1542时，振动之间的差异可以用于确定路面的摩擦或打滑(例如，当在动力驱动轴和自由旋转轴之间存在振动差异时)。

在至少一个实施例中，车辆1500可以包括ADAS系统1538。在一些示例中，ADAS系统1538可以包括但不限于SoC。在至少一个实施例中，ADAS系统1538可以包括但不限于任何数量的自主/自适应/自动巡航控制(“ACC”)系统、协作自适应巡航控制(“CACC”)系统、前撞警告(“FCW”)系统、自动紧急制动(“AEB”)系统、车道偏离警告(“LDW”)系统、车道保持辅助(“LKA”)系统、盲区警告(“BSW”)系统、后方交叉交通警告(“RCTW”)系统、碰撞警告(“CW”)系统、车道对中(“LC”)系统和/或其他系统、特征和/或功能及其组合。

在至少一个实施例中，ACC系统可以使用一个或更多个RADAR传感器1560、一个或更多个LIDAR传感器1564和/或任何数量的相机。在至少一个实施例中，ACC系统可以包括纵向ACC系统和/或横向ACC系统。在至少一个实施例中，纵向ACC系统监控并控制到紧邻车辆1500的车辆的距离，并自动调节车辆1500的速度以保持与前方车辆的安全距离。在至少一个实施例中，横向ACC系统执行距离保持，并在需要时建议车辆1500改变车道。在至少一个实施例中，横向ACC与其他ADAS应用有关，例如LC和CW。

在至少一个实施例中，CACC系统使用来自其他车辆的信息，该信息可以经由网络接口1524和/或一个或更多个无线天线1526从其他车辆接收经由无线链路或者间接经由网络连接(例如，经由互联网)接收。在至少一个实施例中，直接链路可以由车辆到车辆(“V2V”)的通信链路提供，而间接链路可以由基础设施到车辆(“I2V”)的通信链路提供。通常，V2V通信概念提供关于紧接在前的车辆(例如，紧接在车辆1500之前并与之在同一车道上的车辆)的信息，而I2V通信概念提供关于更前方交通的信息。在至少一个实施例中，CACC系统可以包括I2V和V2V信息源之一或两者。在至少一个实施例中，在给定车辆1500之前的车辆的信息的情况下，CACC系统可以更可靠，并且具有改善交通流的平滑度并减少道路拥堵的潜力。

在至少一个实施例中，FCW系统被设计成警告驾驶员危险，以便驾驶员可以采取纠正措施。在至少一个实施例中，FCW系统使用前向相机和/或一个或更多个RADAR传感器1560，其耦合至专用处理器、DSP、FPGA和/或ASIC，其电耦合至驾驶员反馈，例如显示器、扬声器和/或振动组件。在至少一个实施例中，FCW系统可以提供警告，例如以声音、视觉警告，振动和/或快速制动脉冲的形式。

在至少一个实施例中，AEB系统检测到与另一车辆或其他对象的即将发生的向前碰撞，并且如果驾驶员在指定的时间或距离参数内未采取纠正措施，则可以自动施加制动。在至少一个实施例中，AEB系统可以使用耦合到专用处理器、DSP、FPGA和/或ASIC的一个或更多个前向相机和/或一个或更多个RADAR传感器1560。在至少一个实施例中，当AEB系统检测到危险时，AEB系统通常首先警告驾驶员采取纠正措施以避免碰撞，并且，如果驾驶员没有采取纠正措施，则AEB系统可以自动施加制动器以试图防止或至少减轻预测碰撞的影响。在至少一个实施例中，AEB系统可以包括诸如动态制动器支持和/或即将发生碰撞的制动的技术。

在至少一个实施例中，当车辆1500越过车道标记时，LDW系统提供视觉、听觉和/或触觉警告，例如方向盘或座椅振动，以警告驾驶员。在至少一个实施例中，当驾驶员通过激活转向信号灯指示有意的车道偏离时，LDW系统不活跃。在至少一个实施例中，LDW系统可以使用耦合到专用处理器、DSP、FPGA和/或ASIC的面向正面的相机，其电耦合至诸如显示器、扬声器和/或振动组件。在至少一个实施例中，LKA系统是LDW系统的一种变型。如果车辆1500开始离开车道，则LKA系统提供转向输入或制动以校正车辆1500。

在至少一个实施例中，BSW系统检测并警告汽车盲区中的车辆驾驶员。在至少一个实施例中，BSW系统可以提供视觉、听觉和/或触觉警报，以指示合并或改变车道是不安全的。在至少一个实施例中，当驾驶员使用转向灯时，BSW系统可以提供附加警告。在至少一个实施例中，BSW系统可以使用耦合到专用处理器、DSP、FPGA和/或ASIC的一个或更多个朝后侧的相机和/或一个或更多个RADAR传感器1560，其电耦合到驾驶员反馈，例如显示器、扬声器和/或振动组件。

在至少一个实施例中，当在车辆1500倒车时在后相机范围之外检测到对象时，RCTW系统可以提供视觉、听觉和/或触觉通知。在至少一个实施例中，RCTW系统包括AEB系统，以确保应用车辆制动器以避免碰撞。在至少一个实施例中，RCTW系统可以使用一个或更多个面向后方的RADAR传感器1560，其耦合到专用处理器、DSP、FPGA和/或ASIC，其电耦合到驾驶员反馈，诸如显示器、扬声器和/或振动组件。

在至少一个实施例中，常规的ADAS系统可能易于产生误报结果，这可能使驾驶员烦恼和分散注意力，但通常不是灾难性的，因为常规的ADAS系统会警告驾驶员并允许驾驶员决定安全状况是否真正存在并采取相应行动。在至少一个实施例中，在结果冲突的情况下，车辆1500本身决定是否听从主计算机或副计算机(例如，第一控制器1536或第二控制器1536)的结果。例如，在至少一个实施例中，ADAS系统1538可以是用于将感知信息提供给备份计算机合理性模块的备用和/或辅助计算机。在至少一个实施例中，备用计算机合理性监控器可以在硬件组件上运行冗余的各种软件，以检测感知和动态驾驶任务中的故障。在至少一个实施例中，可以将来自ADAS系统1538的输出提供给监控MCU。在至少一个实施例中，如果来自主计算机和辅助计算机的输出冲突，则监督MCU决定如何协调冲突以确保安全操作。

在至少一个实施例中，主计算机可以配置为向监督MCU提供置信度分数，以指示主计算机对所选结果的置信度。在至少一个实施例中，如果置信度得分超过阈值，则监督MCU可以遵循主计算机的指示，而不管辅助计算机是否提供冲突或不一致的结果。在至少一个实施例中，在置信度得分不满足阈值的情况下，并且在主计算机和辅助计算机指示不同的结果(例如，冲突)的情况下，监督MCU可以在计算机之间仲裁以确定适当的结果。

在至少一个实施例中，监督MCU可以配置为运行神经网络，该神经网络被训练和配置为至少部分地基于来自主计算机和辅助计算机的输出来确定辅助计算机提供错误警报的条件。在至少一个实施例中，监督MCU中的神经网络可以学习何时可以信任辅助计算机的输出，以及何时不能信任。例如，在至少一个实施例中，当辅助计算机是基于RADAR的FCW系统时，监督MCU中的神经网络可以学习FCW系统何时识别实际上不是危险的金属对象，例如会触发警报的排水格栅或井盖。在至少一个实施例中，当辅助计算机是基于相机的LDW系统时，当存在骑自行车的人或行人并且实际上车道偏离是最安全的操作时，监督MCU中的神经网络可以学会覆盖LDW。在至少一个实施例中，监督MCU可以包括适合于运行具有相关联的内存的神经网络的DLA或GPU中的至少一个。在至少一个实施例中，监督MCU可以包括和/或被包括为一个或更多个SoC1504的组件。

在至少一个实施例中，ADAS系统1538可以包括使用传统的计算机视觉规则执行ADAS功能的辅助计算机。在至少一个实施例中，辅助计算机可以使用经典计算机视觉规则(如果-则)，并且监督MCU中的神经网络的存在可以提高可靠性、安全性和性能。例如，在至少一个实施例中，多样化的实现方式和有意的非同一性使得整个系统更加容错，尤其是对于由软件(或软件-硬件接口)功能引起的故障。例如，在至少一个实施例中，如果在主计算机上运行的软件中存在软件漏洞或错误，并且在辅助计算机上运行的不相同的软件代码提供了相同的总体结果，则监督MCU可以更有把握地认为总体结果是正确，并且主计算机上的软件或硬件中的漏洞不会导致重大错误。

在至少一个实施例中，可以将ADAS系统1538的输出输入到主计算机的感知模块和/或主计算机的动态驾驶任务模块中。例如，在至少一个实施例中，如果ADAS系统1538由于正前方的对象而指示向前碰撞警告，则感知块可以在识别对象时使用该信息。在至少一个实施例中，如本文所述，辅助计算机可以具有其自己的神经网络，该神经网络经过训练从而降低了误报的风险。

在至少一个实施例中，车辆1500可以进一步包括信息娱乐SoC1530(例如，车载信息娱乐系统(IVI))。尽管被示出和描述为SoC，但是在至少一个实施例中，信息娱乐系统1530可以不是SoC，并且可以包括但不限于两个或更多个分立组件。在至少一个实施例中，信息娱乐SoC1530可以包括但不限于硬件和软件的组合，其可以用于提供音频(例如，音乐、个人数字助理、导航指令、新闻、广播等)、视频(例如，电视、电影、流媒体等)、电话(例如，免提通话)、网络连接(例如，LTE、WiFi等)和/或信息服务(例如，导航系统、后停车辅助、无线电数据系统、与车辆相关的信息，例如燃油水平、总覆盖距离、制动燃油水平、油位、车门打开/关闭、空气滤清器信息等)到车辆1500。例如，信息娱乐SoC 1530可以包括收音机、磁盘播放器、导航系统、视频播放器、USB和蓝牙连接、汽车、车载娱乐系统、WiFi、方向盘音频控制、免提语音控制、抬头显示器(“HUD”)、HMI显示器1534、远程信息处理设备、控制面板(例如，用于控制各种组件、特征和/或系统和/或与之交互)和/或其他组件。在至少一个实施例中，信息娱乐SoC 1530可以进一步用于向车辆的用户提供信息(例如，视觉和/或听觉的)，诸如来自ADAS系统1538的信息、自动驾驶信息(诸如计划的车辆操纵)、轨迹、周围环境信息(例如，交叉路口信息、车辆信息、道路信息等)和/或其他信息。

在至少一个实施例中，信息娱乐SoC 1530可以包括任何数量和类型的GPU功能。在至少一个实施例中，信息娱乐SoC 1530可以通过总线1502(例如，CAN总线、以太网等)与车辆1500的其他设备、系统和/或组件通信。在至少一个实施例中，信息娱乐SoC 1530可以是耦合到监控MCU，使得信息娱乐系统的GPU可以在主控制器1536(例如，车辆1500的主计算机和/或备用计算机)发生故障的情况下执行一些自动驾驶功能。在至少一个实施例中，信息娱乐SoC 1530可以使车辆1500进入司机到安全停止模式，如本文所述。

在至少一个实施例中，车辆1500可以进一步包括仪表板1532(例如，数字仪表板、电子仪表板、数字仪表操纵板等)。在至少一个实施例中，仪表板1532可以包括但不限于控制器和/或超级计算机(例如，离散控制器或超级计算机)。在至少一个实施例中，仪表板1532可以包括但不限于一组仪表的任何数量和组合，例如车速表、燃料水平、油压、转速表、里程表、转弯指示器、换档位置指示器、一个或更多个安全带警告灯、一个或更多个驻车制动警告灯、一个或更多个发动机故障灯、辅助约束系统(例如安全气囊)信息、照明控件、安全系统控件、导航信息等。在某些示例中，信息可能是在信息娱乐SoC 1530和仪表板1532之间显示和/或共享。在至少一个实施例中，仪表板1532可以被包括作为信息娱乐SoC 1530的一部分，反之亦然。

推理和/或训练逻辑915用于执行与一个或更多个实施例相关联的推理和/或训练操作。下面结合图9A和/或图9B提供关于推理和/或训练逻辑915的细节。在至少一个实施例中，推理和/或训练逻辑915可以在系统图15C中使用，以至少部分地基于使用神经网络训练操作、神经网络功能和/或架构或本文所述的神经网络用例计算出的权重参数来推理或预测操作。

这些图的组件可以与如这里讨论的那样生成的布局一起使用。特别是，这些组件可以将城市和其他此类区域的道路布局用于导航、测试和培训等目的。

图15D是根据至少一个实施例的在基于云的服务器与图15A的自主车辆1500之间进行通信的系统1576的图。在至少一个实施例中，系统1576可以包括但不限于一个或更多个服务器1578、一个或更多个网络1590以及任何数量和类型的车辆，包括车辆1500。在至少一个实施例中，一个或更多个服务器1578可以包括但不限于，多个GPU 1584(A)-1584(H)(在本文中统称为GPU 1584)、PCIe开关1582(A)-1582(D)(在本文中统称为PCIe开关1582)，和/或CPU 1580(A)-1580(B)(在本文中统称为CPU 1580)、GPU 1584、CPU 1580和PCIe开关1582可以与高速连接线互连，例如但不限于，由NVIDIA开发的NVLink接口1588和/或PCIe连接1586。在至少一个实施例中，GPU 1584通过NVLink和/或NVSwitchSoC连接，GPU 1584和PCIe开关1582通过PCIe互连连接。在至少一个实施例中，尽管示出了八个GPU 1584、两个CPU1580和四个PCIe开关1582，但这并不旨在进行限制。在至少一个实施例中，一个或更多个服务器1578中的每一个可以包括但不限于任意数量的GPU 1584、CPU 1580和/或PCIe开关1582的任何组合。例如，在至少一个实施例中，一个或更多个服务器1578可各自包括八个、十六个、三十二个和/或更多个GPU 1584。

在至少一个实施例中，一个或更多个服务器1578可以通过一个或更多个网络1590并从车辆接收表示图像的图像数据，该图像示出了意外的或改变的道路状况，例如最近开始的道路工程。在至少一个实施例中，一个或更多个服务器1578可以通过一个或更多个网络1590并且向车辆传输神经网络1592、更新的神经网络1592和/或地图信息1594，包括但不限于关于交通和道路状况的信息。在至少一个实施例中，对地图信息1594的更新可以包括但不限于对HD地图1522的更新，例如关于建筑工地、坑洼、便道、洪水和/或其他障碍物的信息。在至少一个实施例中，神经网络1592、更新的神经网络1592和/或地图信息1594可能是由从环境中的任何数量的车辆接收的数据中表示的新训练和/或经验产生的，和/或至少基于在数据中心执行的训练(例如，使用一个或更多个服务器1578和/或其他服务器)。

在至少一个实施例中，一个或更多个服务器1578可以用于至少部分地基于训练数据来训练机器学习模型(例如，神经网络)。在至少一个实施例中。训练数据可以由车辆产生，和/或可以在模拟中产生(例如，使用游戏引擎)。在至少一个实施例中，标记任何数量的训练数据(例如，在相关的神经网络受益于监督学习的情况下)和/或经历其他预处理。在至少一个实施例中，没有对任何数量的训练数据进行标记和/或预处理(例如，在相关联的神经网络不需要监督学习的情况下)。在至少一个实施例中，一旦机器学习模型被训练，机器学习模型就可以被车辆使用(例如，通过一个或更多个网络1590传输到车辆，和/或机器学习模型可以被一个或更多个服务器1578使用以远程监控车辆。

在至少一个实施例中，一个或更多个服务器1578可以从车辆接收数据并且将数据应用于最新的实时神经网络以用于实时智能推理。在至少一个实施例中，一个或更多个服务器1578可以包括由一个或更多个GPU 1584供电的深度学习超级计算机和/或专用AI计算机，例如由NVIDIA开发的DGX和DGX Station机器。然而，在至少一个实施例中，一个或更多个服务器1578可以包括使用CPU供电的数据中心的深度学习基础设施。

在至少一个实施例中，一个或更多个服务器1578的深度学习基础结构可能能够进行快速、实时的推理，并且可以使用该能力来评估和验证车辆1500中处理器、软件和/或相关硬件的健康。例如，在至少一个实施例中，深度学习基础设施可以从车辆1500接收周期性更新，例如车辆1500在该图像序列中所定位的图像序列和/或对象(例如，通过计算机视觉和/或其他机器学习对象分类技术)。在至少一个实施例中，深度学习基础设施可以运行其自己的神经网络以识别对象并将它们与车辆1500所识别的对象进行比较，并且，如果结果不匹配和深度学习基础设施断定车辆1500中的AI正在发生故障，则一个或更多个服务器1578可以将信号发送到车辆1500，以指示车辆1500的故障安全计算机采取控制、通知乘客并完成安全停车操作。

在至少一个实施例中，一个或更多个服务器1578可以包括一个或更多个GPU 1584和一个或更多个可编程推理加速器(例如NVIDIA的TensorRT 3)。在至少一个实施例中，GPU驱动的服务器和推理加速的组合可以使实时响应成为可能。在至少一个实施例中，例如在性能不太关键的情况下，可以将由CPU、FPGA和其他处理器驱动的服务器用于推理。在至少一个实施例中，推理和/或训练逻辑915用于执行一个或更多个实施例。下面结合图9A和/或图9B提供关于推理和/或训练逻辑915的细节。

其他变型在本公开的精神内。因此，尽管公开的技术易于进行各种修改和替代构造，但是其某些示出的实施例在附图中示出并且已经在上面进行了详细描述。但是，应当理解，无意将公开内容限制为所公开的一种或更多种特定形式，而是相反，其意图是涵盖落入如所附权利要求书所定义的公开内容的精神和范围内的所有修改、替代构造和等同物。

除非另有说明，除非另有说明或显然与上下文明显矛盾，否则在描述所公开的实施例的环境中(特别是在所附权利要求的环境中)对术语“一”，“一个”和“该”以及类似指代的使用应解释为涵盖单数和复数，而不是一个术语的定义。术语“包含”，“具有”，“包括”和“内含”应解释为开放式术语(意思是“包括但不限于”)。术语“连接”在未经修改时指的是物理连接，应理解为部分或全部包含在，连接到或连接在一起的部分或全部，即使有任何介入。除非在此另外指出，否则本文中数值范围的引用仅旨在用作分别指代落入该范围内的每个单独值的速记方法，并且每个单独值都被并入说明书中，就如同其在本文中被单独叙述一样。除非环境另外指出或矛盾，否则术语“组”(例如“一组项目”)或“子集”的使用应解释为包括一个或更多个成员的非空集合。此外，除非环境另外指出或矛盾，否则相应集合的术语“子集”不一定表示相应集合的适当子集，而是子集和相应集合可以相等。

除非以其他方式明确指出或与环境明显矛盾，否则诸如“A、B和C中的至少一个”或“A、B和C的至少一个”形式的词组等联合语言在环境中理解为通常用来表示项目，术语等可以是A或B或C，也可以是A和B和C集合的任何非空子集。例如，在具有三个成员，连接短语“A、B和C中的至少一个”和“A、B和C的至少一个”是指以下任意集合：{A}，{B}，{C}，{A，B}，{A，C}，{B，C}，{A，B，C}。因此，这种联合语言通常不意图暗示某些实施例要求存在A中的至少一个、B中的至少一个和C中的至少一个。另外，除非另有说明或与环境矛盾，否则术语“多个”表示复数的状态(例如，“多个项目”表示多个项目)。复数中项目的数量是至少两个，但是当明确地或通过环境指示时可以是多个。此外，除非另有说明或从环境中清楚得知，否则短语“基于”是指“至少部分基于”而不是“仅基于”。

除非本文另外指出或与环境明显矛盾，否则本文描述的过程的操作可以任何合适的序列执行。在至少一个实施例中，诸如本文所述的那些过程(或其变形和/或其组合)的过程在配置有可执行指令的一个或更多个计算机系统的控制下执行，并且被实现为代码(例如，可执行指令、一个或更多个计算机程序或一个或更多个应用程序)通过硬件或其组合在一个或更多个处理器上共同执行。在至少一个实施例中，代码例如以计算机程序的形式存储在计算机可读存储介质上，该计算机程序包括可由一个或更多个处理器执行的多个指令。在至少一个实施例中，计算机可读存储介质是非暂时性计算机可读存储介质，其不包括暂时性信号(例如，传播的瞬态电或电磁传输)，但包括暂时性信号的收发器中的非暂时性数据存储电路(例如，缓冲区、高速缓存和队列)。在至少一个实施例中，代码(例如，可执行代码或源代码)被存储在其上存储有可执行指令的一组一个或更多个非暂时性计算机可读存储介质(或用于存储可执行指令的其他内存)上，当由计算机系统的一个或更多个处理器执行(即，由于被执行)而导致的计算机系统执行本文所述的操作。在至少一个实施例中，一组非暂时性计算机可读存储介质包括多个非暂时性计算机可读存储介质以及缺少所有代码的多个非暂时性计算机可读存储介质的一个或更多个单个非暂时性存储介质，而多个非暂时性计算机可读存储介质共同存储所有代码。在至少一个实施例中，执行可执行指令，使得不同的指令由不同的处理器执行，例如，非暂时性计算机可读存储介质存储指令，并且主中央处理单元(“CPU”)执行一些指令，而图形处理单元(“GPU”)执行其他指令。在至少一个实施例中，计算机系统的不同组件具有单独的处理器，并且不同的处理器执行指令的不同子集。

因此，在至少一个实施例中，计算机系统被配置为实现单独地或共同地执行本文所描述的过程的操作的一个或更多个服务，并且这样的计算机系统配置有能够实现操作的适用的硬件和/或软件。此外，实现本公开的至少一个实施例的计算机系统是单个设备，并且在另一实施例中，是一种分布式计算机系统，其包括以不同方式操作的多个设备，使得分布式计算机系统执行本文所述的操作，并且使得单个设备不执行所有操作。

本文提供的任何和所有示例或示例性语言(例如，“诸如”)的使用仅旨在更好地阐明本公开的实施例，并且不对公开的范围构成限制，除非另有声明。说明书中的任何语言都不应被解释为表示对于实施公开必不可少的任何未要求保护的要素。

本文引用的所有参考文献，包括出版物、专利申请和专利，均以引用的方式并入本文，如同每个参考文献被单独且具体地指出以引用的方式并入本文一样。

在描述和权利要求中，可以使用术语“耦合”和“连接”及其派生词。应当理解，这些术语可能不旨在作为彼此的同义词。相反，在特定示例中，“连接”或“耦合”可用于指示两个或更多个元件彼此直接或间接物理或电接触。“耦合”也可能意味着两个或更多个元素彼此不直接接触，但仍彼此协作或交互。

除非另外特别说明，否则可以理解，在整个说明书中，诸如“处理”、“计算”、“运算”、“确定”等，是指计算机或计算系统的动作和/或过程。或类似的电子计算设备，将计算系统的寄存器和/或内存中表示为物理量(例如电子)的数据处理和/或转换为类似表示为计算系统的内存、寄存器或其他此类信息存储、传输或显示设备中的物理量的其他数据。

以类似的方式，术语“处理器”可以指处理来自寄存器和/或内存的电子数据并将该电子数据转换成可以存储在寄存器和/或内存中的其他电子数据的任何设备或设备的一部分。作为非限制性示例，“处理器”可以是CPU或GPU。“计算平台”可以包括一个或更多个处理器。如本文所使用的，“软件”过程可以包括例如随时间执行工作的软件和/或硬件实体，诸如任务、线程和智能代理。而且，每个过程可以指代多个过程，以连续地或间歇地序列地或并行地执行指令。因为系统可以体现一种或更多种方法并且方法可以被认为是系统，术语“系统”和“方法”在本文中可互换使用。

在本文件中，可以参考获得、获取、接收或将模拟或数字数据输入子系统、计算机系统或计算机实现的机器中。可以以多种方式来完成获得、获取、接收或输入模拟和数字数据的过程，例如通过接收作为函数调用或对应用程序接口的调用的参数的数据。在一些实施方式中，获得、获取、接收或输入模拟或数字数据的过程可以通过经由串行或并行接口传输数据来完成。在另一实施方式中，可以通过经由计算机网络将数据从提供实体传输到获取实体来完成获得、获取、接收或输入模拟或数字数据的过程。也可以参考提供、输出、传输、发送或呈现模拟或数字数据。在各种示例中，提供、输出、传输、发送或呈现模拟或数字数据的过程可以通过将数据作为函数调用的输入或输出参数，应用程序编程接口或进程间通信机制的参数进行传输来实现。

尽管上面的讨论阐述了所描述的技术的示例实现，但是其他架构可以用于实现所描述的功能，并且意图在本公开的范围内。此外，尽管出于讨论目的在上面定义了具体的责任分配，但是根据情况，可以以不同的方式分配和划分各种功能和职责。

此外，尽管已经用针对结构特征和/或方法动作的语言描述了主题，但是应该理解，所附权利要求书所要求保护的主题不必限于所描述的特定特征或动作。而是，公开了特定的特征和动作作为实现权利要求的示例性形式。

Claims

1.一种计算机实现的方法，包括：

接收空间图的一个或更多个初始区域，所述一个或更多个初始区域包括通过一个或更多个路径连接的两个或更多个节点；

对于所述空间图的各个节点，识别代表到所述各个节点的传入路径的确定的邻近范围内的一个或更多个相邻节点；

使用所述一个或更多个相邻节点和所述一个或更多个初始区域的至少一种确定的样式，预测代表来自各个节点的传出路径的一个或更多个附加节点；和

从所述一个或更多个附加节点迭代预测后续节点，直到所述空间图的所有节点都已被分析或满足结束标准。

2.如权利要求1所述的计算机实现的方法，还包括：

使用解码器循环神经网络(RNN)预测所述一个或更多个附加节点。

3.如权利要求2所述的计算机实现的方法，还包括：

使用编码器RNN对从所述相邻节点到所述各个节点的本地传入路径进行编码，并将用于所述编码的数据作为输入提供给所述解码器RNN。

4.如权利要求1所述的计算机实现的方法，还包括：

将所述一个或更多个附加节点添加到处理队列中，所述队列包括尚未被分析以用于预测所述后续节点的节点。

5.如权利要求1所述的计算机实现的方法，其中使用地图、航拍图像、草图或描述中的至少一种来提供所述一个或更多个初始区域。

6.如权利要求1所述的计算机实现的方法，还包括：

通过接收至少一种样式输入或分析所述一个或更多个初始区域的路径以推断所述至少一种确定的样式，从而确定所述一个或更多个初始区域的所述至少一种确定的样式。

7.如权利要求1所述的计算机实现的方法，其中预测所述一个或更多个附加节点还基于航拍图像中表示的物理布局数据。

8.如权利要求1所述的计算机实现的方法，其中使用基于矢量图形的生成神经网络来执行所述预测。

9.一种系统，包括：

至少一个处理器；和

存储器，所述存储器包括指令，当所述指令由至少一个处理器执行时，使系统：

确定空间布局的第一节点；

确定用于扩展所述空间布局的布局样式；

确定所述第一节点的确定距离内的并表示到所述第一节点的传入路径的相邻节点；和

使用所述布局样式和所述相邻节点的信息推断所述空间布局的至少一个第二节点，所述第二节点表示从所述空间布局中的所述第一节点开始的新路径段。

10.如权利要求9所述的系统，其中所述指令在被执行时进一步使所述系统：

针对所述空间布局的多个第一节点推断至少一个第二节点，所述第一节点是针对新路径段尚未被分析的所述空间布局的任何节点。

11.如权利要求10所述的系统，其中所述指令被执行时进一步使所述系统：

将每个第一节点存储到处理队列中，其中从所述处理队列中将拉出节点以迭代地扩展所述空间布局。

12.如权利要求9所述的系统，其中所述指令在被执行时进一步使所述系统：

使用基于矢量图形的生成神经网络推断所述至少一个第二节点。

13.如权利要求12所述的系统，其中所述基于矢量图形的生成神经网络包括编码器-解码器架构，其中所述编码器是用于对从所述相邻节点到所述第一节点的本地传入路径进行编码的编码器RNN，并且其中所述解码器是用于推断所述至少一个第二节点的解码器RNN。

14.如权利要求9所述的系统，其中所述指令在被执行时进一步使所述系统：

通过接收至少一种样式输入或分析所述空间布局的路径来确定所述布局样式。

15.如权利要求9所述的系统，其中所述空间布局对应于道路图，其中所述第一节点对应于交叉路口，并且其所述中新路径是从所述交叉路口引出的路段。

16.一种道路布局生成器，包括：

接口，其用于接收指示至少一种布局样式的数据；

至少一个处理器；和

存储器，其包括指令，当所述指令由所述至少一个处理器执行时，使所述道路布局生成器：

确定所述道路布局生成器尚未分析的空间图的待决节点；

对于所述待决节点，确定所述待决节点的确定邻近范围内的并表示到所述待决节点的传入路段的相邻节点；

使用具有所述相邻节点和所述至少一种布局样式的神经网络，预测代表来自所述待决节点的传出路段的一个或更多个附加节点；和

迭代地预测后续节点，所述后续节点代表尚未分析的所述空间图的附加的待决节点的附加的传出路段。

17.如权利要求16所述的道路布局生成器，其中所述指令在被执行时进一步使所述系统：

使用基于矢量图形的生成神经网络预测所述一个或更多个附加节点。

18.如权利要求17所述的道路布局生成器，其中，所述基于矢量图形的生成神经网络包括编码器-解码器架构，其中所述编码器是编码器RNN，用于对从所述相邻节点到所述待决节点的本地传入路径进行编码，并且其中所述解码器是用于预测所述一个或更多个附加节点的解码器RNN。

19.如权利要求16所述的道路布局生成器，其中指示所述布局样式的所述数据包括位置的航拍图像、地图、草图、样式规范或初始布局区域中的至少一个。

20.如权利要求16所述的道路布局生成器，其中所述指令在被执行时进一步使所述系统：

使用户能够通过交互界面提供布局信息，进一步基于所提供的布局信息来预测所述一个或更多个附加节点。