CN110383206A

CN110383206A - 用于利用硬件加速来生成高斯随机数的系统和方法

Info

Publication number: CN110383206A
Application number: CN201780088098.2A
Authority: CN
Inventors: 郭怡文; 姚安邦; 蔡东琪; 王立彬; 徐琳; 胡平; 王山东; 程文华
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2017-04-07
Filing date: 2017-04-07
Publication date: 2019-10-25
Also published as: US20200026499A1; EP3607412B1; EP3607412A1; US11635943B2; PL3607412T3; ES2934735T3; EP3607412A4; WO2018184205A1

Abstract

本文描述的是用于机器学习和深度学习应用的随机数生成的硬件加速。装置(700)包括均匀随机数发生器(URNG)电路(710)，用于生成均匀随机数，以及加法器电路(750)，其耦合到URNG电路(710)。加法器电路硬件(750)加速高斯随机数的生成以用于机器学习。

Description

用于利用硬件加速来生成高斯随机数的系统和方法

技术领域

实施例一般涉及数据处理，并且更具体地涉及经由通用图形处理单元的数据处理。特别地，实施例涉及用于利用硬件加速生成高斯随机数的系统和方法。

背景技术

当前的并行图形数据处理包括开发用于对图形数据执行特定操作的系统和方法，所述图形数据例如线性插值、曲面细分、光栅化、纹理映射、深度测试等。传统上，图形处理器使用固定功能计算单元来处理图形；然而，最近，图形处理器的部分已经可编程，使得这些处理器能够支持更多种操作来处理顶点和片段数据。

为了进一步提高性能，图形处理器通常实现诸如流水线之类的处理技术，所述技术尝试在图形流水线的不同部分中并行地处理尽可能多的图形数据。具有单指令、多线程(SIMT)架构的并行图形处理器旨在最大化图形流水线中的并行处理的量。在SIMT架构中，并行线程组尝试尽可能频繁地同步执行程序指令，以提高处理效率。可以在Shane Cook，CUDA Programming Chapter 3，pages 37-51(2013)中找到针对SIMT架构的软件和硬件的一般概述。

对于随机数生成，通常使用Box-muller、累积密度函数(CDF)反演、变换、拒绝和递归方法。CDF反演方法简单地反转CDF以从期望的分布产生随机数。变换方法涉及将均匀随机数直接变换为高斯分布。第三类，拒绝，再次以均匀随机数和变换开始，但具有有条件地拒绝某些变换值的附加步骤。递归(最终类别)利用先前生成的高斯数的线性组合来产生新的输出。Box-muller方法是耗时的并且生成高斯随机数的速度慢。

附图说明

因此，为了可以详细地理解本发明的上述特征的方式，可以通过参考实施例获得上面简要概述的实施例的更具体的描述，其中一些实施例在附图中示出。然而，应注意，附图仅示出了典型的实施例，并且因此不应视为限制其范围。

图1是示出了被配置为实现本文描述的实施例的一个或多个方面的计算机系统的框图。

图2A-图2D示出了根据实施例的并行处理器组件；

图3A-图3B是根据实施例的图形多处理器的框图；

图4A-图4F示出了示例性架构，其中多个GPU通信地耦合到多个多核处理器；

图5示出了根据实施例的图形处理流水线；

图6示出了根据实施例的用于利用硬件加速来生成高斯随机数的方法600。

图7示出了根据一个实施例的用于利用硬件加速来生成高斯随机数的系统的框图。

图8示出了根据一个实施例的用于生成高斯随机数的时序图。

图9示出了根据实施例的机器学习软件栈。

图10示出了根据实施例的高度并行的通用图形处理单元。

图11示出了根据实施例的多GPU计算系统。

图12A-图12B示出了示例性深度神经网络的层。

图13示出了示例性的递归神经网络。

图14示出了深度神经网络的训练和部署。

图15是示出了分布式学习的框图。

图16示出了适用于使用训练模型来执行推理的示例性推理片上系统(SOC)；

图17是根据实施例的处理系统1700的框图；

图18是具有一个或多个处理器核1802A-1802N、集成存储器控制器1814和集成图形处理器1808的处理器1800的实施例的框图；

图19是图形处理器1800的框图，图形处理器1800可以是分立的图形处理单元，或者可以是与多个处理核集成的图形处理器；

图20是根据一些实施例的图形处理器的图形处理引擎2010的框图；

图21是图形处理器2100的另一实施例的框图；

图22示出了线程执行逻辑2200，其包括在GPE的一些实施例中采用的处理元件的阵列；

图23是示出了根据一些实施例的图形处理器指令格式2300的框图；

图24是图形处理器2400的另一实施例的框图；

图25A是示出了根据一些实施例的图形处理器命令格式2500的框图；

图25B是示出了根据实施例的图形处理器命令序列2510的框图；

图26示出了根据一些实施例的用于数据处理系统2600的示例性图形软件架构；

图27是示出了根据实施例的可用于制造集成电路以执行根据实施例的操作的IP核开发系统2700的框图；以及

图28-图30示出了根据本文描述的各种实施例的可以使用一个或多个IP核制造的示例性集成电路和相关联的图形处理器。

除了所示的内容之外，可以包括其他逻辑和电路，包括附加的图形处理器/核，外围接口控制器或通用处理器核。

具体实施方式

在一些实施例中，图形处理单元(GPU)通信地耦合到主机/处理器核心以加速图形操作、机器学习操作、图样分析操作和各种通用GPU(GPGPU)功能。GPU可通过总线或另一互连(例如高速互连，例如PCIe或NVLink)通信地耦合到主机处理器/核心。在其它实施例中，GPU可与核心集成在同一封装或芯片上，并通过内部处理器总线/互连(即，在封装或芯片内部)通信地耦合到核心。不考虑GPU被连接的方式，处理器核心可以以被包含在作业描述符中的命令/指令的序列的形式将作业分配到GPU。GPU然后使用专用电路/逻辑以用于有效地处理这些命令/指令。

在下文的描述中，阐述了很多特定的细节以提供更彻底的理解。然而，对本领域中的技术人员显而易见的是，可在没有这些特定细节的一个或多个的情况下实践本文所述的实施例。在其它实例中，没有描述公知的特征以避免使当前实施例的细节模糊。

系统概述

图1是示出了被配置为实现本文所述的实施例的一个或多个方面的计算系统100的方框图。计算系统100包括处理子系统101，其具有一个或多个处理器102和经由可包括存储器集线器105的互连路径进行通信的系统存储器104。存储器集线器105可以是在芯片组部件内的单独部件或可集成在一个或多个处理器102内。存储器集线器105经由通信链路106与I/O子系统111耦合。I/O子系统111包括I/O集线器107，其可使计算系统100能够从一个或多个输入设备108接收输入。此外，I/O集线器107可实现可被包括在一个或多个处理器102中的显示控制器以向一个或多个显示设备110A提供输出。在一个实施例中，与I/O集线器107耦合的一个或多个显示设备110A可包括本地、内部或嵌入式显示设备。

在一个实施例中，处理子系统101包括经由总线或其它通信链路113耦合到存储器集线器105的一个或多个并行处理器112。通信链路113可以是任何数量的基于标准的通信链路技术或协议中的一个，所述基于标准的通信链路技术或协议例如但不限于快速PCI，或可以是供应商特定通信接口或通信结构。在一个实施例中，一个或多个并行处理器112形成包括大量处理核心和/或处理集群的在计算上聚焦的并行或矢量处理系统，例如多核集成(MIC)处理器。在一个实施例中，一个或多个并行处理器112形成图形处理子系统，其可将像素输出到经由I/O集线器107耦合的一个或多个显示设备110A中的一个。一个或多个并行处理器112也可包括显示控制器和显示接口(未示出)以实现到一个或多个显示设备110B的直接连接。

在I/O子系统111内，系统存储单元114可连接到I/O集线器107以针对计算系统100提供存储机制。I/O开关116可用于提供接口机制以实现在I/O集线器107和其它部件之间的连接，其它部件是例如网络适配器118和/或可集成到平台内的无线网络适配器119和可经由一个或多个附件设备120而添加的各种其它设备。网络适配器118可以是以太网适配器或另一有线网络适配器。无线网络适配器119可包括Wi-Fi、蓝牙、近场通信(NFC)或包括一个或多个无线电装置的其它网络设备中的一个或多个。

计算系统100可包括未明确示出的其它部件，包括USB或其它端口连接、光学存储驱动器、视频捕获设备等，也可连接到I/O集线器107。可使用任何适当的协议(例如，基于PCI(外围部件互连)的协议(例如，快速PCI)或任何其它总线或点对点通信接口和/或协议(例如，NV-链路高速互连)或在本领域中已知的互连协议)来实现使图1中的各种部件互连的通信路径。

在一个实施例中，一个或多个并行处理器112合并被优化以用于图形和视频处理的电路，包括例如视频输出电路，并构成图形处理单元(GPU)。在另一实施例中，一个或多个并行处理器112合并被优化以用于通用处理的电路，同时维持在本文更详细描述的基本计算架构。在又一实施例中，计算系统100的部件可与一个或多个其它系统一起集成在单个集成电路上。例如，一个或多个并行处理器112、存储器集线器105、处理器102和I/O集线器107可集成到片上系统(SoC)集成电路内。可选地，计算系统100的部件可集成到单个封装内以形成系统级封装(SIP)配置。在一个实施例中，计算系统100的部件的至少一部分可集成到多芯片模块(MCM)内，多芯片模块可与其它多芯片模块一起互连到模块化计算系统内。

将认识到，本文所示的计算系统100是示出性的，以及变化和修改是可能的。可按需要修改连接拓扑，包括桥的数量和布置、处理器102的数量和并行处理器112的数量。例如，在一些实施例中，系统存储器104直接地而不是通过桥来连接到处理器102，同时其它设备经由存储器集线器105和处理器102与系统存储器104通信。在其它可选的拓扑中，并行处理器112连接到I/O集线器107或直接连接到一个或多个处理器102中的一个而不是连接到存储器集线器105。在其它实施例中，I/O集线器107和存储器集线器105可集成到单个芯片内。一些实施例可包括经由多个插槽附接的两个或更多组处理器102，插槽可与并行处理器112的两个或更多个实例耦合。

本文所述的特定部件中的一些是可选的，并且可以不被包括在计算系统100的所有实现中。例如，可支持任何数量的附加卡或外围设备，或可消除一些部件。此外，一些架构可针对与图1所示的部件类似的部件使用不同的术语。例如，在一些架构中存储器集线器105可被称为北桥，而I/O集线器107可被称为南桥。

图2A示出了根据实施例的并行处理器200。可使用一个或多个集成电路设备(例如，可编程处理器、专用集成电路(ASIC)或现场可编程门阵列(FPGA))来实现并行处理器200的各种部件。根据实施例，所示的并行处理器200是图1所示的一个或多个并行处理器112的变形。

在一个实施例中，并行处理器200包括并行处理单元202。并行处理单元包括I/O单元204，其实现与包括并行处理单元202的其它实例的其它设备的通信。I/O单元204可直接连接到其它设备。在一个实施例中，I/O单元204经由集线器或开关接口(例如存储器集线器105)的使用与其它设备连接。在存储器集线器105和I/O单元204之间的连接形成通信链路113。在并行处理单元202内，I/O单元204与主机接口206和存储器交叉开关216连接，其中主机接口206接收涉及执行处理操作的命令，而存储器交叉开关216接收涉及执行存储器操作的命令。

当主机接口206经由I/O单元204接收命令缓冲器时，主机接口206可将用于执行那些命令的作业操作引导到前端208。在一个实施例中，前端208与调度器210耦合，调度器210被配置为将命令或其它作业项目分配到处理集群阵列212。在一个实施例中，在任务被分发到处理集群阵列212的处理集群之前，调度器210确保处理集群阵列212正确地被配置并且在有效状态中。在一个实施例中，经由在微控制器上执行的固件逻辑来实现调度器210。微控制器实现的调度器210可被配置为在粗和细粒度下执行复杂的调度和作业分发操作，实现在处理阵列212上执行的线程的快速先占和上下文切换。在一个实施例中，主机软件可经由多个图形处理门铃中的一个来证明用于在处理阵列212上调度的工作负载。工作负载可接着由在调度器微控制器内的调度器210的逻辑自动分发在整个处理阵列212中。

处理集群阵列212可包括多达“N”个处理集群(例如集群214A、集群214B到集群214N)。处理集群阵列212的每个集群214A-214N可执行大量并发线程。调度器210可使用各种调度和/或作业分配算法来将作业分配到处理集群阵列212的集群214A-214N，调度和/或作业分配算法可取决于针对每种类型的程序或计算产生的工作负载而改变。调度可由调度器210动态地操纵，或可在被配置用于由处理集群阵列212执行的程序逻辑的编译期间部分地由编译器逻辑帮助。在一个实施例中，处理集群阵列212的不同集群214A-214N可被分配以用于处理不同类型的程序或用于执行不同类型的计算。

处理集群阵列212可被配置为执行各种类型的并行处理操作。在一个实施例中，处理集群阵列212被配置为执行通用并行计算操作。例如，处理集群阵列212可包括用于执行处理任务的逻辑，处理任务包括视频和/或音频数据的过滤、执行包括物理操作的建模操作，以及执行数据变换。

在一个实施例中，处理集群阵列212被配置为执行并行图形处理操作。在并行处理器200被配置为执行图形处理操作的实施例中，处理集群阵列212可包括用于支持这样的图形处理操作的执行的额外的逻辑，包括但不限于用于执行纹理操作的纹理采样逻辑以及曲面细分逻辑和其它顶点处理逻辑。此外，处理集群阵列212可被配置为执行图形处理相关的着色器程序，例如但不限于顶点着色器、曲面细分着色器、几何着色器和像素着色器。并行处理单元202可经由I/O单元204从系统存储器传送数据以用于处理。在处理期间，所传送的数据可在处理期间存储到片上存储器(例如并行处理器存储器222)，然后被写回到系统存储器。

在一个实施例中，当并行处理单元202用于执行图形处理时，调度器210可被配置为将处理工作负载划分为近似相等大小的任务，以更好地实现图形处理操作到处理集群阵列212的多个集群214A-214N的分发。在一些实施例中，处理集群阵列212的部分可被配置为执行不同类型的处理。例如，第一部分可被配置为执行顶点着色和拓扑生成，第二部分可被配置为执行曲面细分和几何着色，以及第三部分可被配置为执行像素着色或其它屏幕空间操作，以产生渲染的图像用于显示。由集群214A-214N中的一个或多个产生的中间数据可存储在缓冲器中以允许中间数据在集群214A-214N之间传输，用于进一步处理。

在操作期间，处理集群阵列212可接收要经由调度器210来执行的处理任务，调度器210从前端208接收规定处理任务的命令。对于图形处理操作，处理任务可包括待处理的数据(例如，表面(补片)数据、原语数据、顶点数据和/或像素数据)的索引以及状态参数和规定数据如何被处理(例如什么程序将被执行)的命令。调度器210可被配置为取出与任务相对应的索引，或可从前端208接收索引。前端208可被配置为在由进入的命令缓冲器(例如批处理缓冲器、推进缓冲器等)规定的工作负载被发起之前确保处理集群阵列212被配置到有效状态。

并行处理单元202的一个或多个实例中的每个可与并行处理器存储器222耦合。可经由存储器交叉开关216存取并行处理器存储器222，存储器交叉开关216可从处理集群阵列212以及I/O单元204接收存储器请求。存储器交叉开关216可经由存储器接口218来存取并行处理器存储器222。存储器接口218可包括多个划分单元(例如划分单元220A、划分单元220B到划分单元220N)，每个划分单元可耦合到并行处理器存储器222的一部分(例如存储器单元)。在一个实现中，划分单元220A-220N的数量被配置为等于存储器单元的数量，使得第一划分单元220A具有相对应的第一存储器单元224A，第二划分单元220B具有相对应的第二存储器单元224B，以及第N划分单元220N具有相对应的N存储器单元224N。在其它实施例中，划分单元220A-220N的数量可以不等于存储器设备的数量。

在各种实施例中，存储器单元224A-224N可包括各种类型的存储器设备，包括动态随机存取存储器(DRAM)或图形随机存取存储器，例如同步图形随机存取存储器(SGRAM)，包括图形双数据率(GDDR)存储器。在一个实施例中，存储器单元224A-224N还可包括3D堆叠式存储器，包括但不限于高带宽存储器(HBM)。本领域中的技术人员将认识到，存储器单元224A-224N的特定实现可改变，并且可选自各种常规设计中的一个。渲染目标(例如帧缓冲器或纹理图)可存储在存储器单元224A-224N中，允许划分单元220A-220N并行地写每个渲染目标的部分以有效地使用并行处理器存储器222的可用带宽。在一些实施例中，可以有利于利用系统存储器结合本地高速缓存存储器的统一的存储器设计而排除并行处理器存储器222的本地实例。

在一个实施例中，处理集群阵列212的集群214A-214N中的任一个可处理将被写到并行处理器存储器222内的存储器单元224A-224N中的任一个的数据。存储器交叉开关216可被配置为将每个集群214A-214N的输出传送到任一划分单元220A-220N或另一集群214A-214N，其可对输出执行额外的处理操作。每个集群214A-214N可通过存储器交叉开关216与存储器接口218通信以从各种外部存储器设备读取或写到各种外部存储器设备。在一个实施例中，存储器交叉开关216具有到存储器接口218的连接以与I/O单元204通信，以及具有到并行处理器存储器222的本地实例的连接，使在不同处理集群214A-214N内的处理单元能够与系统存储器或不是并行处理单元202本地的其它存储器通信。在一个实施例中，存储器交叉开关216可使用虚拟通道来分离在集群214A-214N和划分单元220A-220N之间的业务流。

虽然在并行处理器200内示出了并行处理单元202的单个实例，但是可包括并行处理单元202的任何数量的实例。例如，并行处理单元202的多个实例可提供在单个附加卡上，或多个附加卡可被互连。并行处理单元202的不同实例可被配置为交互操作，即使不同实例具有不同数量的处理核心、不同量的本地并行处理器存储器和/或其它配置差异。例如，并且在一个实施例中，并行处理单元202的一些实例相对于其它实例可包括更高精度浮点单元。可以各种配置和形状因子来实现合并行处理单元202或并行处理器200的一个或多个实例的系统，包括但不限于桌上型计算机、膝上型计算机或手持个人计算机、服务器、工作站、游戏控制台和/或嵌入式系统。

图2B是根据实施例的划分单元220的方框图。在一个实施例中，划分单元220是图2A的划分单元220A-220N中的一个的实例。如所示，划分单元220包括L2高速缓存221、帧缓冲器接口225和ROP 226(光栅操作单元)。L2高速缓存221是被配置为执行从存储器交叉开关216和ROP 226接收的加载和存储操作的读/写高速缓存。读未命中和紧急写回请求由L2高速缓存221输出到帧缓冲器接口225用于处理。更新也可经由帧缓冲器接口225被发送到帧缓冲器用于处理。在一个实施例中，帧缓冲器接口225与在并行处理器存储器中的存储器单元(例如图2的存储器单元224A-224N(例如在并行处理器存储器222内))中的一个接合。

在图形应用中，ROP 226是执行光栅操作(例如，模板印刷、z测试、混合等)的处理单元。ROP 226然后输出存储在图形存储器中的经处理的图形数据。在一些实施例中，ROP226包括压缩逻辑以用于压缩被写到存储器的深度或颜色数据，并将从存储器读取的深度或颜色数据解压缩。压缩逻辑可以是利用多个压缩算法中的一个或多个的无损压缩逻辑。由ROP226执行的压缩的类型可基于待压缩的数据的统计特性而改变。例如，在一个实施例中，在每瓦片基础上对深度和颜色数据执行增量颜色压缩。

在一些实施例中，ROP 226被包括在每个处理集群(例如图2的集群214A-214N)内而不是在划分单元220内。在这样的实施例中，通过存储器交叉开关216来传输针对像素数据而不是对像素片段数据的读和写请求。经处理的图形数据可显示在显示设备(例如，图1的一个或多个显示设备110中的一个)上，被路由用于进一步由处理器102处理，或被路由用于进一步由在图2A的并行处理器200内的处理实体中的一个处理。

图2C是根据实施例的在并行处理单元内的处理集群214的方框图。在一个实施例中，处理集群是图2的处理集群214A-214N中的一个的实例。处理集群214可被配置为并行地执行很多线程，其中术语“线程”指在特定的一组输入数据上执行的特定程序的实例。在一些实施例中，单指令多数据(SIMD)指令发出技术用于支持大量线程的并行执行而不提供多个独立的指令单元。在其它实施例中，单指令多线程(SIMT)技术用于使用公共指令单元来支持大量通常同步的线程的并行执行，所述公共指令单元被配置为向在处理集群的每一个内的一组处理引擎发出指令。与SIMD执行制度(其中所有处理引擎一般执行相同的指令)不同，SIMT执行通过给定线程程序来允许不同的线程更容易遵循发散的执行路径。本领域中的技术人员将理解，SIMD处理制度代表SIMT处理制度的功能子集。

可经由流水线管理器232来控制处理集群214的操作，流水线管理器232将处理任务分发到SIMT并行处理器。流水线管理器232从图2的调度器210接收指令，并经由图形多处理器234和/或纹理单元236来管理那些指令的执行。所示图形多处理器234是SIMT并行处理器的示例性实例。然而，不同架构的各种类型的SIMT并行处理器可被包括在处理集群214内。图形多处理器234的一个或多个实例可被包括在处理集群214内。图形多处理器234可处理数据，并且数据交叉开关240可用于将经处理的数据分发到多个可能的目的地中的一个，包括其它着色器单元。流水线管理器232可通过指定经由数据交叉开关240分发的经处理的数据的目的地来有利于经处理的数据的分发。

在处理集群214内的每个图形多处理器234可包括相同的一组功能执行逻辑(例如，具有加法器电路的算术逻辑单元、加载-存储单元等)。可以用流水线方式来配置功能执行逻辑，其中新指令可在先前的指令完成之前被发出。功能执行逻辑支持各种操作，包括整数和浮点算术、比较操作、布尔操作、移位和各种代数功能的计算。在一个实施例中，可运用相同的功能-单元硬件以执行不同的操作，并且功能单元的任何组合可存在。

发送到处理集群214的指令构成线程。在这组并行处理引擎上执行的一组线程是线程组。线程组对不同的输入数据执行同一程序。在线程组内的每个线程可被指派到在图形多处理器234内的不同的处理引擎。线程组可包括比在图形多处理器234内的处理引擎的数量少的线程。当线程组包括比处理引擎的数量少的线程时，处理引擎中的一个或多个可能在那个线程组正被处理的周期期间是空闲的。线程组也可包括比在图形多处理器234内的处理引擎的数量多的线程。当线程组包括比在图形多处理器234内的处理引擎的数量多的线程时，处理可在连续的时钟循环期间被执行。在一个实施例中，可在图形多处理器234上同时执行多个线程组。

在一个实施例中，图形多处理器234包括内部高速缓存存储器以执行加载和存储操作。在一个实施例中，图形多处理器234可放弃内部高速缓存并使用在处理集群214内的高速缓冲存储器(例如L1高速缓存308)。每个图形多处理器234也访问在所有处理集群214当中共享的划分单元(例如图2的划分单元220A-220N)内的L2高速缓存，并可用于在线程之间传送数据。图形多处理器234也可存取片外全局存储器，其可包括本地并行处理器存储器和/或系统存储器中的一个或多个。在并行处理单元202外部的任何存储器可用作全局存储器。其中处理集群214包括图形多处理器234的多个实例的实施例可共享可以存储在L1高速缓存308中的公共指令和数据。

每个处理集群214可包括被配置为将虚拟地址映射到物理地址的MMU 245(存储器管理单元)。在其它实施例中，MMU 245的一个或多个实例可存在于图2的存储器接口218内。MMU 245包括用于将虚拟地址映射到瓦片的物理地址(谈论更多关于瓦片)和可选地高速缓存行索引的一组页表条目(PTE)。MMU 245可包括地址旁路转换缓冲区(TLB)或可存在于图形多处理器234内的高速缓存或L1高速缓存或处理集群214。物理地址被处理以分发表面数据访问地点以允许有效请求在划分单元当中交织。高速缓存行索引可用于确定针对高速缓存行的请求是命中还是未命中。

在图形和计算应用中，处理集群214可被配置使得每个图形多处理器234耦合到纹理单元236以用于执行纹理映射操作，例如确定纹理样本位置、读取纹理数据和过滤纹理数据。纹理数据是从内部纹理L1高速缓存(未示出)中读取的或在一些实施例中是从图形多处理器234内的L1高速缓存中读取的，并按需要从L2高速缓存、本地并行处理器存储器或系统存储器取出。每个图形多处理器234将经处理的任务输出到数据交叉开关240，以向另一处理集群214提供经处理的任务以用于进一步处理或经由存储器交叉开关216将经处理的任务存储在L2高速缓存、本地并行处理器存储器或系统存储器中。预ROP 242(预光栅操作单元)被配置为从图形多处理器234接收数据、将数据引导到ROP单元，其可以与本文所述的划分单元(例如图2的划分单元220A-220N)位于一起。预ROP 242的单元可针对颜色混合执行优化、组织像素彩色数据，并执行地址转换。

将认识到，本文所述的核心架构是示出性的，以及变化和修改是可能的。任何数量的处理单元(例如，图形多处理器234、纹理单元236、预ROP 242等)可被包括在处理集群214内。此外，虽然只示出一个处理集群214，但是如本文所述的并行处理单元可包括任何数量的处理集群214的实例。在一个实施例中，每个处理集群214可被配置为使用单独和不同的处理单元、L1高速缓存等来独立于其它处理集群214而操作。

图2D示出了根据一个实施例的图形多处理器234。在这样的实施例中，图形多处理器234与处理集群214的流水线管理器232耦合。图形多处理器234具有执行流水线，包括但不限于指令高速缓存252、指令单元254、地址映射单元256、寄存器文件258、一个或多个通用图形处理单元(GPGPU)核心262和一个或多个加载/存储单元266。GPGPU核心262和加载/存储单元266经由存储器和高速缓存存储器互连268与高速缓存存储器272和共享存储器270耦合。

在一个实施例中，指令高速缓存252从流水线管理器232接收要执行的指令流。指令被高速缓存在指令高速缓存252中并被调度用于由指令单元254执行。指令单元254可分派指令作为线程组(例如warp)，线程组的每个线程被指派到GPGPU核心262内的不同执行单元。指令可通过指定统一地址空间内的地址来访问本地、共享或全局地址空间中的任一个。地址映射单元256可用于将统一地址空间中的地址转换成可由加载/存储单元266存取的不同的存储器地址。

寄存器文件258提供用于图形多处理器234的功能单元的一组寄存器。寄存器文件258提供用于连接到图形多处理器234的功能单元(例如GPGPU核心262、加载/存储单元266)的数据路径的操作数的暂时性存储。在一个实施例中，寄存器文件258在每个功能单元之间进行划分，使得每个功能单元被分配有寄存器文件258的专用部分。在一个实施例中，寄存器文件258在由图形多处理器234执行的不同warp之间进行划分。

GPGPU核心262的每个可以包括用于执行图形多处理器234的指令的浮点单元(FPU)和/或整数算术逻辑单元(ALU)。根据本设计的实施例，ALU可以包括加法器电路(例如，系统700、加法器电路750)。根据实施例，GPGPU核心262可在架构上是类似的，或可在架构上是不同的。例如，并且在一个实施例中，GPGPU核心262的第一部分包括单精度FPU和整数ALU，而GPGPU核心262的第二部分包括双精度FPU。在一个实施例中，FPU可实现用于浮点算术的IEEE 754-2008标准或实现可变精度浮点算术。图形多处理器234可另外包括一个或多个固定功能或特殊功能单元以执行特定的功能，例如复制矩形或像素混合操作。在一个实施例中，GPGPU核心中的一个或或多个也可包括固定或特殊功能逻辑。

在一个实施例中，GPGPU核心262包括能够对多组数据执行单个指令的SIMD逻辑。在一个实施例中，GPGPU核心262可以物理地执行SIMD4、SIMD8和SIMD16指令，并逻辑地执行SIMD1、SIMD2和SIMD32指令。GPGPU核心的SIMD指令可在编译时间由着色器编译器生成或当执行针对单程序多数据(SPMD)或SIMT架构编写和编译的程序时自动生成。可经由单个SIMD指令来执行被配置用于SIMT执行模型的程序的多个线程。例如，并且在一个实施例中，执行相同或相似操作的八个SIMT线程可经由单个SIMD8逻辑单元来并行地执行。

存储器和高速缓存互连268是互连网络，其将图形多处理器234的每个功能单元连接到寄存器文件258和共享存储器270。在一个实施例中，存储器和高速缓存互连268是交叉开关互连，其允许加载/存储单元266在共享存储器270和寄存器文件258之间实现加载和存储操作。寄存器文件258可在与GPGPU核心262相同的频率下操作，因此在GPGPU核心262和寄存器文件258之间的数据传送是非常低的延迟。共享存储器270可用于实现在图形多处理器234内的功能单元上执行的线程之间的通信。高速缓存存储器272可用作例如数据高速缓存，以用于对在功能单元和纹理单元236之间传递的纹理数据进行高速缓存。共享存储器270也可用作被管理的高速缓存的程序。除了在高速缓存存储器272内存储的自动缓存的数据以外，在GPGPU核心262上执行的线程还可以编程的方式将数据存储在共享存储器内。

图3A-图3B示出了根据实施例的额外的图形多处理器。所示图形多处理器325、350是图2C的图形多处理器234的变形。所示图形多处理器320、350可被配置为能够同时执行大量执行线程的流多处理器(SM)。

图3A示出了根据额外的实施例的图形多处理器325。图形多处理器325包括关于图2D的图形多处理器234的执行资源单元的多个额外的实例。例如，图形多处理器325可包括指令单元332A-332B、寄存器文件334A-334B和纹理单元344A-344B的多个实例。图形多处理器325还包括多组图形或计算执行单元(例如，GPGPU核心336A-336B、GPGPU核心337A-337B、GPGPU核心338A-338B)和多组加载/存储单元340A-340B。在一个实施例中，执行资源单元具有公共指令高速缓存330、纹理和/或数据高速缓存存储器342和共享存储器346。

各种部件可经由互连结构327进行通信。在一个实施例中，互连结构327包括一个或多个交叉开关以实现在图形多处理器325的各种部件之间的通信。在一个实施例中，互连结构327是单独的、高速网络结构层，其上堆叠图形多处理器325的每个部件。图形多处理器325的部件经由互连结构327与远程部件通信。例如，GPGPU核心336A-336B、337A-337B和3378A-338B每个可以经由互连结构327与共享存储器346通信。互连结构327可仲裁图形多处理器325内的通信以确保在部件之间的公平的带宽分配。

图3B示出了根据额外的实施例的图形多处理器350。图形处理器包括多组执行资源356A-356D，其中每组执行资源包括多个指令单元、寄存器文件、GPGPU核心和加载存储单元，如图2D和图3A所示的。执行资源356A-356D可与纹理单元360A-360D协力作业以用于纹理操作，同时共享指令高速缓存354和共享存储器362。在一个实施例中，执行资源356A-356D可共享指令高速缓存354和共享存储器362以及纹理和/或数据高速缓存存储器358A-358B的多个实例。各种部件可经由与图3A的互连结构327类似的互连结构352进行通信。

本领域中的技术人员将理解，在图1、图2A-图2D和图3A-图3B中所述的架构关于当前实施例的范围是描述性的而不是限制性的。因此，可在任何适当地配置的处理单元上实现本文所述的技术，所述处理单元包括而不限于一个或多个移动应用处理器、包括多核GPU的一个或多个桌上型计算机或服务器中央处理单元(CPU)、一个或多个并行处理单元例如图2的并行处理单元202以及一个或多个图形处理器或专用处理单元，而不偏离本文所述的实施例的范围。

在一些实施例中，如本文所述的并行处理器或GPGPU通信地耦合到主机/处理器核心以加速图形操作、机器学习操作、图样分析操作和各种通用GPU(GPGPU)功能。GPU可通过总线或另一互连(例如高速互连，例如PCIe或NVLink)通信地耦合到主机处理器/核心。在另一实施例中，GPU可与核心集成在同一封装或芯片上，并通过内部处理器总线/互连(即，在封装或芯片内部)通信地耦合到核心。不考虑GPU被连接的方式，处理器核心可以以被包含在作业描述符中的命令/指令的序列的形式中将作业分发到GPU。GPU然后使用专用电路/逻辑以用于有效地处理这些命令/指令。

用于GPU到主机处理器互连的技术

图4A示出了示例性架构，其中多个GPU 410-413通过高速链路440-443(例如总线、点对点互连等)通信地耦合到多个多核处理器405-406。在一个实施例中，高速链路440-443取决于实现支持4GB/s、30GB/s、80GB/s或更高速度的通信吞吐量。可使用各种互连协议，包括但不限于PCIe 4.0或5.0和NVLink。然而，本发明的基本原理不限于任何特定的通信协议或吞吐量。

此外，在一个实施例中，通过高速链路444-445来互连GPU 410-413中的两个或更多个，这可使用与用于高速链路440-443的协议/链路相同或不同的协议/链路来实现。类似地，可通过高速链路433来连接多核处理器405-406中的两个或更多个，高速链路433可以是在20GB/s、30GB/s、120GB/s或更高速度下操作的对称多处理器(SMP)总线。可选地，可使用相同的协议/链路(例如通过公共互连结构)来实现在图4A所示的各种系统部件之间的所有通信。然而，如所提到的，本发明的基本原理不限于任何特定类型的互连技术。

在一个实施例中，每个多核处理器405-406分别经由存储器互连430-431通信地耦合到处理器存储器401-402，并且每个GPU 410-413分别通过GPU存储器互连450-453通信地耦合到GPU存储器420-423。存储器互连430-431和450-453可利用相同或不同的存储器存取技术。作为示例而不是限制，处理器存储器401-402和GPU存储器420-423可以是易失性存储器，例如动态随机存取存储器(DRAM)(包括堆叠式DRAM)、图形DDR SDRAM(GDDR)(例如GDDR5、GDDR6)或高带宽存储器(HBM)和/或可以是非易失性存储器，例如3D XPoint或Nano-Ram。在一个实施例中，存储器的某个部分可以是易失性存储器，而另一部分可以是非易失性存储器(例如使用二级存储器(2LM)分级结构)。

如下所述，虽然各种处理器405-406和GPU 410-413可分别物理地耦合到特定的存储器401-402、420-423，但是可实现统一存储器架构，其中同一虚拟系统地址空间(也被称为“有效地址”空间)分布在各种物理存储器的全部当中。例如，处理器存储器401-402每个可以包括64GB的系统存储器地址空间，以及GPU存储器420-423每个可以包括32GB的系统存储器地址空间(在这个示例中导致总共256GB可寻址存储器)。

图4B示出了根据一个实施例的用于多核处理器407和图形加速模块446之间的互连的额外细节。图形加速模块446可包括集成在线卡上的一个或多个GPU芯片，线卡经由高速链路440耦合到处理器407。可选地，图形加速模块446可与处理器407集成在同一封装或芯片上。

所示处理器407包括多个核心460A-460D，每个核心具有旁路转换缓冲区461A-461D和一个或多个高速缓存462A-462D。核心可包括用于执行指令并处理数据的各种其它部件(例如，指令取出单元、分支预测单元、解码器、执行单元、记录器缓冲器等)，其没有被示出以避免使本发明的基本原理模糊。高速缓存462A-462D可包括1级(L1)和2级(L2)高速缓存。此外，一个或多个共享高速缓存426可被包括在缓存分级结构中并由几组核心460A-460D共享。例如，处理器407的一个实施例包括24个核心，每个核心具有它自己的L1高速缓存、12个共享L2高速缓存和12个共享L3高速缓存。在这个实施例中，L2和L3高速缓存中的一个由两个相邻的核心共享。处理器407和图形加速器集成模块446与系统存储器441连接，系统存储器441可包括处理器存储器401-402。

经由核心间通信通过一致性总线464来针对存储在各种高速缓存462A-460D、456和系统存储器441中的数据和指令维持一致性。例如，每个高速缓存可具有与其相关联的高速缓存一致性逻辑/电路以响应于对特定的高速缓存行的检测到的读或写而通过一致性总线464进行通信。在一个实现中，通过一致性总线464来实现高速缓存窥探协议以窥探高速缓存存取。高速缓存窥探/一致性技术被本领域中的技术人员很好地理解，并且将不在本文详细描述以避免使本发明的基本原理模糊。

在一个实施例中，代理电路425将图形加速模块446通信地耦合到一致性总线464，允许图形加速模块446参与高速缓存一致性协议作为核心的对等物。特别是，接口435通过高速链路440(例如PCIe总线、NVLink等)提供到代理电路425的连接性，并且接口437将图形加速模块446连接到链路440。

在一个实现中，加速器集成电路436代表图形加速模块446的多个图形处理引擎431、432、N提供高速缓存管理、存储器存取、上下文管理和中断管理服务。图形处理引擎431、432、N每个可以包括单独的图形处理单元(GPU)。可选地，图形处理引擎431、432、N可包括在GPU(例如图形执行单元)内的不同类型的图形处理引擎、媒体处理引擎(例如视频编码器/解码器)、采样器和Blit引擎。换句话说，图形加速模块可以是具有多个图形处理引擎431-432、N的GPU，或图形处理引擎431-432、N可以是集成在公共封装、线卡或芯片上的单独GPU。

在一个实施例中，加速器集成电路436包括用于执行各种存储器管理功能(例如，虚拟到物理存储器转换(也被称为有效到实际存储器转换)和用于存取系统存储器441的存储器存取协议)的存储器管理单元(MMU)439。MMU 439还可包括用于缓存虚拟/有效到物理/真实地址转换的旁路转换缓冲区(TLB)(未示出)。在一个实现中，高速缓存438存储命令和数据以用于由图形处理引擎431-432、N有效地存取。在一个实施例中，存储在高速缓存438和图形存储器433-434、N中的数据保持与核心高速缓存462A-462D、456和系统存储器441一致。如所提到的，这可经由代理电路425来完成，代理电路425代表高速缓存438和存储器433-434、N参与高速缓存一致性机制(例如将与在处理器高速缓存462A-462D、456上的高速缓存行的修改/存取有关的更新发送到高速缓存438并从高速缓存438接收更新)。

一组寄存器445存储由图形处理引擎431-432、N执行的线程的上下文数据，并且上下文管理电路448管理线程上下文。例如，上下文管理电路448可执行保存和恢复操作以在上下文切换期间保存和恢复各种线程的上下文(例如其中第一线程被保存，而第二线程被存储，使得第二线程可由图形处理引擎执行)。例如，在上下文切换时，上下文管理电路448可将当前寄存器值存储到存储器中的指定区域(例如由上下文指针所标识的)。它可接着在返回到上下文时恢复寄存器值。在一个实施例中，中断管理电路447接收并处理从系统设备接收的中断。

在一个实现中，来自图形处理引擎431的虚拟/有效地址由MMU 439转换成在系统存储器411中的真实/物理地址。加速器集成电路436的一个实施例支持多个(例如4、8、16个)图形加速器模块446和/或其它加速器设备。图形加速器模块446可专用于在处理器407上执行的单个应用或可在多个应用之间被共享。在一个实施例中，呈现虚拟化图形执行环境，其中与多个应用或虚拟机(VM)共享图形处理引擎431-432、N的资源。资源可被细划分为“片”，其基于与VM和/或应用相关联的处理要求和优先级而被分配给不同的VM和/或应用。

因此，加速器集成电路充当到用于图形加速模块446的系统的桥，并提供地址转换和系统存储器高速缓存服务。此外，加速器集成电路436可针对主机处理器提供虚拟化设施以管理图形处理引擎、中断和存储器管理的虚拟化。

因为图形处理引擎431-432、N的硬件资源明确地映射到由主机处理器407可见的真实地址空间，所以任何主机处理器可直接使用有效地址值来处理这些资源。在一个实施例中，加速器集成电路436的一个功能是图形处理引擎431-432、N的物理分离，使得它们对系统看来作为独立的单元。

如所提到的，在所示实施例中，一个或多个图形存储器433-434、M分别耦合到图形处理引擎431-432、N中的每个。图形存储器433-434、M存储由图形处理引擎431-432、N中的每个处理的指令和数据。图形存储器433-434、M可以是易失性存储器，例如DRAM(包括堆叠式DRAM)、GDDR存储器(例如GDDR5、GDDR6)或HBM，和/或可以是非易失性存储器，例如3DXPoint或Nano-Ram。

在一个实施例中，为了减少在链路440上的数据业务，偏置技术用于确保存储在图形存储器433-434、M中的数据是由图形处理引擎431-432、N最频繁地使用并且优选地不由核心460A-460D使用(至少不是频繁地)的数据。类似地，偏置机制试图保持由在核心的高速缓存462A-462D、456和系统存储器411内的核心(并且优选地不是图形处理引擎431-432、N)所需的数据。

图4C示出了另一实施例，其中加速器集成电路436集成在处理器407内。在这个实施例中，图形处理引擎431-432、N通过高速链路440经由接口437和接口435(其再次可利用任何形式的总线或接口协议)直接与加速器集成电路436通信。加速器集成电路436可执行与关于图4B所述的相同的操作，但可能在更高的吞吐量下，假定它极接近一致性总线462和高速缓存462A-462D、456。

一个实施例支持不同的编程模型，包括专用进程编程模型(无图形加速模块虚拟化)和共享编程模型(有虚拟化)。后者可包括由加速器集成电路436控制的编程模型和由图形加速模块446控制的编程模型。

在专用进程模型的一个实施例中，图形处理引擎431-432、N专用于在单个操作系统下的单个应用或过程。单个应用可将其它应用请求送入提供在VM/分区内的虚拟化的图形处理引擎431-432、N。

在专用进程编程模型中，图形处理引擎431-432、N可由多个VM/应用分区共享。共享模型需要系统管理程序来虚拟化图形处理引擎431-432、N以允许由每个操作系统访问。对于没有管理程序的单分区系统，图形处理引擎431-432、N由操作系统拥有。在这两种情况下，操作系统都可虚拟化图形处理引擎431-432、N以提供对每个过程或应用的访问。

对于共享编程模型，图形加速模块446或单独的图形处理引擎431-432、N使用进程句柄来选择进程元素。在一个实施例中，进程元素存储在系统存储器411中，并且是使用本文所述的有效地址到真实地址转换技术可寻址的。进程句柄可以是当向图形处理引擎431-432、N注册它的上下文时被提供到主机进程的实现特定的值(也就是说，调用系统软件以将进程元素添加到进程元素链接列表)。进程句柄的较低的16位可以是在进程元素链接列表内的进程元素的偏移。

图4D示出了示例性加速器集成片490。如在本文使用的，“片”包括加速器集成电路436的处理资源的特定部分。在系统存储器411内的应用有效地址空间482存储进程元素483。在一个实施例中，响应于来自在处理器407上执行的应用480的GPU调用481而存储进程元素483。进程元素483包含相对应的应用480的进程状态。被包含在进程元素483中的作业描述符(WD)484可以是由应用请求的单个作业，或可包含指向作业的队列的指针。在后一情况下，WD 484是指向在应用的地址空间482中的作业请求队列的指针。

图形加速模块446和/或单独的图形处理引擎431-432、N可由系统中的进程的全部或子集共享。本发明的实施例包括用于建立进程状态并将WD 484发送到图形加速模块446以在虚拟化环境中开始作业的基础设施。

在一个实现中，专用进程编程模型是实现特定的。在这个模型中，单个进程拥有图形加速模块446或单独的图形处理引擎431。因为图形加速模块446由单个进程拥有，所以管理程序为拥有分区初始化加速器集成电路436，并且操作系统在图形加速模块446被分配时的时间为拥有进程初始化加速器集成电路436。

在操作中，在加速器集成片490中的WD取出单元491取出下一WD 484，其包括由图形加速模块446的图形处理引擎中的一个完成的作业的指示。来自WD 484的数据可存储在寄存器445中并由如所示的MMU 439、中断管理电路447和/或上下文管理电路446使用。例如，MMU 439的一个实施例包括用于访问在OS虚拟地址空间485内的片段/页表486的片段/页行走电路。中断管理电路447可处理从图形加速模块446接收的中断事件492。当执行图形操作时，由图形处理引擎431-432、N产生的有效地址493由MMU 439转换成真实地址。

在一个实施例中，同一组寄存器445针对每个图形处理引擎431-432、N和/或图形加速模块446是重复的，并且可由管理程序或操作系统初始化。这些重复的寄存器中的每个可被包括在加速器集成片490中。在表1中示出可由管理程序初始化的示例性寄存器。

表1-管理程序初始化的寄存器

1	片控制寄存器
		2	真实地址(RA)调度的进程区域指针
3	权限掩蔽覆盖寄存器
		4	中断矢量表条目偏移
5	中断矢量表条目限制
		6	状态寄存器
7	逻辑分区ID
		8	真实地址(RA)管理程序加速器利用记录指针
9	存储描述寄存器

在表2中示出可由操作系统初始化的示例性寄存器。

表2-操作系统初始化的寄存器

1	进程和线程识别
		2	有效地址(EA)上下文保存/恢复指针
3	虚拟地址(VA)加速器利用记录指针
		4	虚拟地址(VA)存储片段表指针
5	权限屏蔽
		6	作业描述符

在一个实施例中，每个WD 484对特定的图形加速模块446和/或图形处理引擎431-432、N是特定的。它包含图形处理引擎431-432、N需要来完成它的作业的所有信息，或它可以是指向应用在其中已建立待完成的作业的命令队列的存储器位置的指针。

图4E示出了共享模型的一个实施例的额外细节。这个实施例包括其中存储有进程元素列表499的管理程序真实地址空间498。管理程序真实地址空间498是经由管理程序496可访问的，管理程序496对操作系统495的图形加速模块引擎进行虚拟化。

共享编程模型允许来自系统中的分区的全部或子集的进程的全部或子集使用图形加速模块446。存在两个编程模型，其中图形加速模块446由多个进程和分区共享：时间片共享和图形指向共享。

在这个模型中，系统管理程序496拥有图形加速模块446，并使它的功能对所有操作系统495变得可用。为了使图形加速模块446通过系统管理程序496支持虚拟化，图形加速模块446可坚持下文的要求：1)应用的作业请求必须是自主的(也就是说，状态不需要在作业之间被维持)，或图形加速模块446必须提供上下文保存和恢复机制。2)应用的作业请求由图形加速模块446保证以在规定数量的时间内完成，包括任何转换错误，或图形加速模块446提供用于抢占作业的处理的能力。3)图形加速模块446当在直接共享编程模型中操作时必须被保证在进程之间的公平。

在一个实施例中，对于共享模型，应用480需要使用图形加速模块446类型、作业描述符(WD)、权限屏蔽寄存器(AMR)值和上下文保存/恢复区域指针(CSRP)来进行操作系统495系统调用。图形加速模块446类型描述系统调用的目标加速功能。图形加速模块446类型可以是系统特定值。WD特别针对图形加速模块446进行格式化，并且可以以图形加速模块446命令、指向用户定义的结构的有效地址指针、指向命令的队列的有效地址指针或任何其它数据结构的形式来描述将由图形加速模块446完成的作业。在一个实施例中，AMR值是用于当前进程的AMR状态。被传递到操作系统的值类似于设置AMR的应用。如果加速器集成电路436和图形加速模块446实现不支持用户权限掩蔽覆盖寄存器(UAMOR)，则操作系统可在传递管理程序调用中的AMR之前将当前UAMOR值应用于AMR值。管理程序496可以可选地在将AMR放置到进程元素483内之前应用当前权限掩蔽覆盖寄存器(AMOR)值。在一个实施例中，CSRP是包含用于图形加速模块446的应用的地址空间482中的区域的有效地址的寄存器445中的一个以保存并恢复上下文状态。如果在作业之间或当作业被抢占时没有状态需要被保存，则这个指针是可选的。上下文保存/恢复区域可以是固定的系统存储器。

当接收到系统调用时，操作系统495可证实应用480已注册并且被给予权限来使用图形加速模块446。操作系统495然后使用在表3中所示的信息来调用管理程序496。

表3-OS到管理程序调用参数

1	作业描述符(WD)
		2	权限掩蔽寄存器(AMR)值(可能被掩蔽)
3	有效地址(EA)上下文保存/恢复区域指针(CSRP)
		4	进程ID(PID)和可选的线程ID(TID)
5	虚拟地址(VA)加速器利用记录指针(AURP)
		6	存储片段表指针(SSTP)的虚拟指针
7	逻辑中断服务号(LISN)

当接收到管理程序调用时，管理程序496证实操作系统495已注册并且被给予权限来使用图形加速模块446。然后管理程序496将进程元素483放置在相对应的图形加速模块446类型的进程元素链接列表内。进程元素可包括表4所示的信息。

表4-进程元素信息

在一个实施例中，管理程序对加速器集成片490的多个寄存器449进行初始化。

如图4F所示，本发明的一个实施例采用经由公共虚拟地址空间可寻址的统一存储器，所述公共虚拟地址空间用于存取物理处理器存储器401-402和GPU存储器420-423。在这个实现中，在GPU 410-413上执行的操作利用同一虚拟/有效存储器地址空间来存取处理器存储器401-402，反之亦然，从而简化可编程性。在一个实施例中，虚拟/有效地址空间的第一部分被分配到处理器存储器401，第二部分被分配到第二处理器存储器402，第三部分被分配到GPU存储器420，依此类推。整个虚拟/有效存储器空间(有时被称为有效地址空间)因而分布在处理器存储器401-402和GPU存储器40-423的每个上，允许任何处理器或GPU利用映射到任何物理存储器的虚拟地址来存取那个存储器。

在一个实施例中，在MMU 439A-439E的一个或多个内的偏置/一致性管理电路494A-494E确保在主机处理器(例如405)的高速缓存和GPU 410-413之间的高速缓存一致性，并实现指示某些类型的数据应存储于其中的物理存储器的偏置技术。虽然在图4F中示出了偏置/一致性管理电路494A-494E的多个实例，但是偏置/一致性电路可在一个或多个主机处理器405的MMU内和/或在加速器集成电路436内实现。

一个实施例允许GPU附接的存储器420-423被映射为系统存储器的部分，并使用共享虚拟存储器(SVM)技术被存取，但没有遭受与完全的系统高速缓存一致性相关联的一般性能缺陷。GPU附接的存储器420-423作为系统存储器被存取而没有繁重的高速缓存一致性开销的能力针对GPU卸载提供有益的操作环境。这个布置允许主机处理器405软件建立操作数和访问计算结果，而没有传统I/O DMA数据拷贝的开销。这样的传统拷贝涉及驱动器调用、中断和存储器映射的I/O(MMIO)存取，其相对于简单的存储器存取都是低效的。同时，存取GPU附接的存储器420-423而没有高速缓存一致性开销的能力可能对卸载的计算的执行时间是关键的。在大量流式传送写存储器业务的情况下，例如高速缓存一致性开销可明显减小由GPU 410-413看到的有效写带宽。操作数建立的效率、结果访问的效率和GPU计算的效率都在确定GPU卸载的有效性时起作用。

在一个实现中，在GPU偏置和主机处理器偏置之间的选择由偏置跟踪器数据结构驱动。例如可使用偏置表，其可以是包括每GPU附接的存储器页的1或2位的页面粒状结构(即，在存储器页的粒度下被控制)。偏置表可在GPU 410-413中有或没有偏置高速缓存的情况下，在一个或多个GPU附接的存储器420-423的被盗存储器范围内实现(例如以用于对偏置表的频繁地/最近使用的条目进行高速缓存)。可选地，可在GPU内维持整个偏置表。

在一个实现中，与对GPU附接的存储器420-423的每次存取相关联的偏置表条目在对GPU存储器的实际存取之前被存取，引起下文的操作。首先，来自GPU 410-413的找到它们在GPU偏置中的页面的本地请求被直接转发到相对应的GPU存储器420-423。来自GPU的找到它们在主机偏置中的页面的本地请求被转发到处理器405(例如通过如上讨论的高速链路)。在一个实施例中，来自处理器405的找到它们在主机处理器偏置中的所请求的页面的请求完成如正常存储器读取之类的请求。可选地，指向GPU偏置的页面的请求可被转发到GPU 410-413。如果GPU当前不使用页面，则它可接着将该页面转换到主机处理器偏置。

页面的偏置状态可由基于软件的机制、硬件辅助的基于软件的机制改变，或对于有限的一组情况，由纯粹基于硬件的机制改变。

用于改变偏置状态的一个机制采用API调用(例如OpenCL)，其继而调用GPU的设备驱动器，其继而将消息(或使命令描述符加入队列)发送到GPU，GPU引导它改变偏置状态的，并且对于一些转变，在主机中执行高速缓存刷新操作。高速缓存刷新操作对于从主机处理器405到GPU偏置的转变是需要的，但对于相反的转变是不需要的。

在一个实施例中，通过暂时性渲染不可由主机处理器405缓存的GPU偏置的页面来维持高速缓存一致性。为了存取这些页面，处理器405可请求从GPU 410的存取，GPU 410取决于实现可以或可以不立刻授予存取权限。因此，为了减少在处理器405和GPU 410之间的通信，有益的是确保GPU偏置的页面是由GPU但不是主机处理器405所需的页面，反之亦然。

图形处理流水线

图5示出了根据实施例的图形处理流水线500。在一个实施例中，图形处理器可实现所示的图形处理流水线500。图形处理器可被包括在如本文所述的并行处理子系统(例如图2的并行处理器200)内，并行处理器200在一个实施例中是图1的并行处理器112的变形。各种并行处理系统可经由如本文所述的并行处理单元(例如图2的并行处理单元202)的一个或多个实例来实现图形处理流水线500。例如，着色器单元(例如图3的图形多处理器234)可被配置为执行顶点处理单元504、曲面细分控制处理单元508、曲面细分评估处理单元512、几何处理单元516和片段/像素处理单元514中的一个或多个的功能。数据汇编器502、原语汇编器506、514、516、曲面细分单元510、光栅化器522和光栅操作单元526的功能也可由在处理集群(例如图3的处理集群214)内的其它处理引擎和相对应的划分单元(例如图2的划分单元220A-220N)执行。也可使用一个或多个功能的专用处理单元来实现图形处理流水线500。在一个实施例中，图形处理流水线500的一个或多个部分可由在通用处理器(例如CPU)内的并行处理逻辑执行。在一个实施例中，图形处理流水线500的一个或多个部分可经由存储器接口528来存取片上存储器(例如，如在图2中的并行处理器存储器222)，存储器接口528可以是图2的存储器接口218的实例。

在一个实施例中，数据汇编器502是收集表面和原语的顶点数据的处理单元。数据汇编器502然后向顶点处理单元504输出包括顶点属性的顶点数据。顶点处理单元504是执行顶点着色器程序的可编程执行单元，其如由顶点着色器程序规定的对顶点数据进行照明和变换。顶点处理单元504读取存储在高速缓存、本地或系统存储器中的数据以用于在处理顶点数据时使用，并可被编程以将顶点数据从基于对象的坐标表示变换到世界空间坐标空间或标准化设备坐标空间。

原语汇编器506的第一实例从顶点处理单元504接收顶点属性。原语汇编器506按需要读取所存储的顶点属性并构造图形原语以用于由曲面细分控制处理单元508处理。图形原语包括三角形、线段、点、补片等，如由各种图形处理应用编程接口(API)支持的。

曲面细分控制处理单元508将输入顶点处理为用于几何补片的控制点。控制点从来自补片(例如补片的基底)的输入表示变换为适合于在表面评估中由曲面细分评估处理单元512使用的表示。曲面细分控制处理单元508也可计算用于几何补片的边的曲面细分因子。曲面细分因子应用于单个边，并量化与边相关联的细节的视图相关水平。曲面细分单元510被配置为接收用于补片的边的曲面细分因子并将补片细划分为多个几何原语，例如线、三角形或四边形原语，其被发送到曲面细分评估处理单元512。曲面细分评估处理单元512对细分的补片的参量化坐标进行操作以生成与几何原语相关联的每个顶点的表面表示和顶点属性。

原语汇编器514的第二实例从曲面细分评估处理单元512接收顶点属性，按需要读取所存储的顶点属性，并构造图形原语以用于由几何处理单元516处理。几何处理单元516是可编程执行单元，其执行几何着色器程序以变换如由几何着色器程序规定的从原语汇编器514接收的图形原语。在一个实施例中，几何处理单元516被编程以将图形原语细划分为一个或多个新图形原语，并计算用于光栅化新图形原语的参数。

在一些实施例中，几何处理单元516可添加或删除在几何流中的元素。几何处理单元516向原语汇编器518输出规定新图形原语的参数和顶点。原语汇编器518从几何处理单元516接收参数和顶点，并构造图形原语以用于由视口缩放、剔除和剪辑单元520处理。几何处理单元516读取存储在并行处理器存储器或系统存储器中的数据以用于在处理几何数据时使用。视口缩放、剔除和剪辑单元520执行剪辑、剔除和视口缩放，并向光栅化器522输出经处理的图形原语。

光栅化器522可执行深度剔除和其它基于深度的优化。光栅化器522还对新图形原语执行扫描转换以生成片段，并将那些片段和相关联的覆盖数据输出到片段/像素处理单元524。片段/像素处理单元524是被配置为执行片段着色器程序或像素着色器程序的可编程执行单元。片段/像素处理单元524如由片段或像素着色器程序规定的变换从光栅化器522接收的片段或像素。例如，片段/像素处理单元524可被编程以执行操作，包括但不限于纹理映射、着色、混合、纹理校正和透视校正以产生被输出到光栅操作单元526的已着色的片段或像素。片段/像素处理单元524可读取存储在并行处理器存储器或系统存储器中的数据以用于在处理片段数据时使用。片段或像素着色器程序可被配置为取决于被配置用于处理单元的采样速率在样本、像素、瓦片或其它粒度下着色。

光栅操作单元526是执行光栅操作(包括但不限于模板印刷、z测试、混合等)并输出像素数据作为经处理的图形数据以被存储在图形存储器(例如，如在图2中的并行处理器存储器222和/或如在图1中的系统存储器104，以被显示一个或多个显示设备110上或用于进一步由一个或多个处理器102中的一个或并行处理器112处理)中的处理单元。在一些实施例中，光栅操作单元526被配置为压缩写到存储器的z或颜色数据，并将从存储器读取的z或颜色数据解压缩。

用于利用硬件加速来生成高斯随机数的系统和方法

本设计的实施例提供用于机器学习和深度学习应用的随机数生成的硬件加速。在一个示例中，高斯随机数生成对于基于贝叶斯的机器学习方法是重要的。可以用高斯随机数发生器算法来生成高斯随机数(例如，根据中心极限定理对均匀随机数求和)。与用于生成高斯随机数的传统方法相比，利用加法器电路加速该过程。可以定制加法器电路以用于生成高斯随机数。

图6示出了根据一个实施例的用于利用硬件加速来生成高斯随机数的方法600。方法600可以由处理逻辑执行，处理逻辑可以包括硬件(例如，电路、专用逻辑、可编程逻辑等)，软件(诸如在处理设备上运行的指令)或其组合。在一个示例中，加法器电路、算术逻辑单元、处理器、图形多处理器、GPGPU核、计算集群和本文讨论的任何硬件组件中的至少一个执行方法600的操作。方法600的过程为了简洁和清楚起见，以线性顺序并且并行地示出了它们；然而，预期它们中的任何数量可以并行、异步或以不同顺序执行。

方法600通过利用均匀随机数发生器(URNG)电路生成均匀随机数以用于高斯随机数，在操作602处开始。均匀随机数可以被发送到硬件组件(例如，处理器、图形多处理器，GPGPU核、计算集群)的加法器电路的任何加法器(例如，操作604和622的加法器-1、操作606的加法器-2、操作608和624的加法器-N等)。在操作604处，加法器-1将两个均匀随机数(例如，来自URNG电路的第一和第二均匀随机数)相加(求和)以生成加法器-1的第一输出。在操作606，加法器-2将另一个均匀随机数(例如，来自URNG电路的第三均匀随机数)与第一输出相加(求和)以生成加法器-2的第一输出。随后的加法器(例如，加法器-3到加法器-N-1)然后继续将额外的均匀随机数添加到来自先前加法器的输出，直到到达操作608。加法器-N在操作608处将另一个均匀随机数(例如，来自URNG电路的N+1均匀随机数)与加法器-N-1的第一输出相加(求和)，以生成第一高斯随机数，所述第一高斯随机数在操作610处被发送到另一个位置或存储在存储器中的。N可以是任何整数值。

在操作622处，在加法器-1完成操作604之后，加法器-1可以将另外两个均匀随机数(例如，不同的均匀随机数)相加以生成加法器-1的第二输出。随后的加法器(例如，加法器-2到加法器-N-1)然后继续将额外的均匀随机数添加到来自先前加法器的输出，直到到达操作624。在操作624处加法器N将另一个均匀随机数与第二输出加法器-N-1的第二输出相加(求和)，以生成第二高斯随机数，在操作626处，该第二高斯随机数被发送到另一个位置或存储在存储器中。在一个示例中，然后利用加法器-1到加法器-N继续对均匀随机数相加以生成额外的高斯随机数。在操作690处，将第m个高斯随机数发送到另一个位置或存储在存储器中。在一个示例中，方法600根据中心极限定理进行。

图7示出了根据一个实施例的用于利用硬件加速来生成高斯随机数的系统的框图。系统700可以用处理逻辑来实现，处理逻辑可以包括硬件(例如，电路、专用逻辑、可编程逻辑等)、软件(诸如在处理设备上运行的指令)或其组合。在一个示例中，加法器电路750可以以下中的至少一个中实现：算术逻辑单元、处理器、图形多处理器、GPGPU核、计算集群和本文讨论的任何硬件组件。方法600可以用以下组件实现，均匀随机数发生器(URNG)电路710，用于生成均匀随机数和加法器电路750，用于生成高斯随机数。均匀随机数可以利用通信711-713发送到硬件组件(例如，处理器，图形多处理器、GPGPU核心、计算集群等)的加法器电路750的任何加法器(例如，加法器-720、加法器-721，...加法器-N等)。

在一个示例中，加法器-1将两个均匀随机数(例如，来自URNG电路710的第一和第二均匀随机数)相加以生成加法器-720的第一输出。加法器-721将另一个均匀随机数(例如，来自URNG电路的第三均匀随机数)与第一输出相加以生成加法器-721的第一输出。随后的加法器(例如，加法器-3到加法器-N-1)然后继续将另一个均匀随机数加到先前加法器的输出。加法器-N利将另一个均匀随机数(例如，来自URNG电路710的N+1个均匀随机数)与加法器-N-1的第一输出相加，以生成第一高斯随机数，所述第一高斯随机数可以发送到另一个位置或存储在存储器中。

在加法器-720完成生成第一输出之后，加法器-720可以添加另外两个均匀随机数(例如，不同的均匀随机数)以生成加法器-721的第二输出。随后的加法器(例如，加法器-2到加法器-N-1)然后继续将另一个均匀随机数加到来自先前加法器的输出。加法器-N将另一个均匀随机数与加法器-N-1的第二输出相加以生成第二高斯随机数，该第二高斯随机数被发送到另一个位置或存储在存储器中。然后利用加法器-720到加法器-N继续将均匀随机数相加以生成额外的高斯随机数。图7中的加法器针对均匀随机数的相加可以以任何方式配置以生成高斯随机数。任何类型的加法器都可以用于图7中的加法器。

图8示出了根据一个实施例的用于生成高斯随机数的时序图。时序图800包括以毫秒为单位的垂直高斯随机数轴812和水平时间轴810。时间线830表示用于生成第一高斯随机数G1的第一时间段。第一时间段包括加法器-1的T_A1、加法器-2的T_A2，...，加法器-N的T_AN的一系列延迟，用于添加均匀随机数以生成第一高斯随机数G1。时间线840表示第二时间段，其包括加法器-1的T_A1、加法器2的T_A2，...，加法器N的T_AN的一系列延迟，用于添加均匀随机数以生成第二高斯随机数G2。时间线850表示第三时间段，其包括加法器-1的T_A1、加法器2的T_A2，...，加法器N的T_AN的一系列延迟，用于添加均匀随机数以生成第三高斯随机数G3。第一、第二和第三时间段大致相等。

在一个示例中，在第一时间生成第一高斯数，所述第一时间等于多个加法器N相乘的加法器延迟。在第二时间生成第二高斯数，所述第二时间等于多个加法器N+1相乘的加法器延迟。在第m时间生成第m个高斯随机数，所述第m时间等于多个加法器N+m-1相乘的加法器延迟。

可以针对机器学习应用生成高斯随机数。具体地，用于生成大量高斯随机数的硬件加速方法可以用于基于贝叶斯的机器学习应用，其可能需要在短时间段内生成的大量高斯随机数。

机器学习概述

机器学习算法是可基于一组数据来学习的算法。机器学习算法的实施例可设计成对在数据集内的高级抽象建模。例如，图像识别算法可用于确定给定输入属于几个类别中的哪个；给定输入，回归算法可输出数值；以及模式识别算法可用于生成转换的文本或执行文本到语音和/或语音识别。

示例性类型的机器学习算法是神经网络。存在很多类型的神经网络；简单类型的神经网络是前馈网络。前馈网络可被实现为非周期性曲线，其中节点布置在层中。一般，前馈网络拓扑包括由至少一个隐藏层分离的输入层和输出层。隐藏层将由输入层接收的输入变换成对生成输出层中的输出有用的表示。网络节点经由边完全连接到在相邻层中的节点，但在每个层内的节点之间没有边。在前馈网络的输入层的节点处接收的数据经由激活功能被传播(即“正向馈送”)到输出层的节点，激活功能基于分别与连接所述层的每个边相关联的系数(“权重”)来计算在网络中的每个连续层的节点的状态。取决于由正执行的算法表示的特定模型，来自神经网络算法的输出可采用各种形式。

在机器学习算法可用于对特定的问题建模之前，使用训练数据集来训练算法。训练神经网络涉及选择网络拓扑，使用表示由网络建模的问题的一组训练数据，以及调节权重直到网络模型以最少的错误针对训练数据集的所有实例执行为止。例如，在用于神经网络的被监督的学习训练过程期间，将响应于表示在训练数据集中的实例的输入而由网络产生的输出与那个实例的“正确”标记的输出比较，计算表示在输出和所标记的输出之间的差异的错误信号，以及当错误信号通过网络的层向后传播时调节与连接相关联的权重以最小化那个错误。当根据训练数据集的实例而生成的每个输出的错误被最小化时，网络被考虑为“经训练的”。

机器学习算法的准确性可明显受到用于训练算法的数据集的质量影响。训练过程可以在计算上是密集的，并且可能在常规通用处理器上需要相当大数量的时间。因此，并行处理硬件用于训练很多类型的机器学习算法。这对优化神经网络的训练是特别有用的，因为在调节神经网络中的系数时执行的计算自然适用于并行实现。特别地，很多机器学习算法和软件应用适合于利用在通用图形处理设备内的并行处理硬件。

图9是机器学习软件堆栈900的广义图。机器学习应用902可被配置为使用训练数据集来训练神经网络或使用经训练的深度神经网络来实现机器智能。机器学习应用902可包括用于神经网络和/或可用于在部署之前训练神经网络的专用软件的训练和推理功能。机器学习应用902可实现任何类型的机器智能，包括但不限于图像识别、映射和局部化、自动导航、语音合成、医学成像或语言翻译。

可经由机器学习框架904来实现机器学习应用902的硬件加速。机器学习框架904可提供机器学习原语的库。机器学习原语是通常由机器学习算法执行的基本操作。在没有机器学习框架904的情况下，机器学习算法的开发者将需要创建并优化与机器学习算法相关的主要计算逻辑，然后在新并行处理器被开发时重新优化计算逻辑。替代地，机器学习应用可被配置为使用由机器学习框架904提供的原语来执行必要的计算。示例性原语包括张量卷积、激活功能和池，其为当训练卷积神经网络(CNN)时执行的计算操作。机器学习框架904还可提供原语以实现由很多机器学习算法(例如矩阵和矢量操作)执行的基本线性代数子程序。

机器学习框架904可处理从机器学习应用902接收的输入数据并生成对计算框架906的适当输入。计算框架906可对被提供到GPGPU驱动器908的基本指令进行抽象化以使机器学习框架904能够利用经由GPGPU硬件910的硬件加速而不需要机器学习框架904具有GPGPU硬件910的架构的详细的知识。此外，计算框架906可实现针对机器学习框架904遍及各种类型和代的GPGPU硬件910的硬件加速。

GPGPU机器学习加速

图10示出了根据实施例的高度并行的通用图形处理单元1000。在一个实施例中，通用处理单元(GPGPU)1000可被配置为在处理与训练深度神经网络相关联的计算工作负载的类型时是特别有效的。此外，GPGPU 1000可直接链接到GPGPU的其它实例以创建多GPU集群来提高特别是深度神经网络的训练速度。

GPGPU 1000包括主机接口1002以实现与主机处理器的连接。在一个实施例中，主机接口1002是快速PCI接口。然而，主机接口也可以是供应商特定通信接口或通信结构。GPGPU 1000从主机处理器接收命令并使用全局调度器1004来将与那些命令相关联的执行线程分配到一组计算集群1006A-1006H。计算集群1006A-1006H共享高速缓存存储器1008。高速缓存存储器1008可用作在计算集群1006A-1006H内的高速缓存存储器的较高级高速缓存。

GPGPU 1000包括经由一组存储器控制器1012A-1012B与计算集群1006A-1006H耦合的存储器1014A-1014B。在各种实施例中，存储器1014A-1014B可包括各种类型的存储器设备，包括动态随机存取存储器(DRAM)或图形随机存取存储器，例如同步图形随机存取存储器(SGRAM)，包括图形双数据率(GDDR)存储器。在一个实施例中，存储器单元224A-224N还可包括3D堆叠式存储器，包括但不限于高带宽存储器(HBM)。

在一个实施例中，每个计算集群1006A-1006H包括一组图形多处理器，例如图4A的图形多处理器。计算集群的图形多处理器可以以包括适合于机器学习计算的一定范围的精度来执行计算操作的多种类型的整数和浮点逻辑单元。例如，并且在一个实施例中，在计算集群1006A-1006H的每个中的浮点单元的至少子集可被配置为执行16位或32位浮点操作，虽然浮点单元的不同子集可被配置为执行64位浮点操作。

GPGPU 1000的多个实例可被配置为作为计算集群来操作。由计算集群使用以用于同步和数据交换的通信机制在全部实施例中不同。在一个实施例中，GPGPU 1000的多个实例通过主机接口1002进行通信。在一个实施例中，GPGPU 1000包括将GPGPU 1000与GPU链路1010耦合的I/O集线器1008，GPU链路1010实现与GPGPU的其它实例的直接连接。在一个实施例中，GPU链路1010耦合到专用GPU到GPU桥，其实现在GPGPU 1000的多个实例之间的通信和同步。在一个实施例中，GPU链路1010与高速互连耦合以将数据发送到其它GPGPU或并行处理器并接收数据。在一个实施例中，GPGPU 1000的多个实例位于单独的数据处理系统中，并经由通过主机接口1002可访问的网络设备进行通信。在一个实施例中，除了主机接口1002以外或作为对主机接口1002的备选方案，GPU链路1010可被配置为实现到主机处理器的连接。

虽然GPGPU 1000的所示配置可被配置为训练神经网络，但是一个实施例提供GPGPU 1000的可选配置，其可被配置用于部署在高性能或低功率推理平台内。在推理配置中，GPGPU 1000相对于训练配置包括计算集群1006A-1006H中的较少计算集群。此外，与存储器1014A-1014B相关联的存储器技术可在推理和训练配置之间不同。在一个实施例中，GPGPU 1000的推理配置可支持推理特定指令。例如，推理配置可提供对一个或多个8位整数点积指令的支持，所述一个或多个8位整数点积指令通常在用于部署的神经网络的推理操作期间使用。

图11示出了根据实施例的多GPU计算系统1100。多GPU计算系统1100可包括经由主机接口开关1104耦合到多个GPGPU 1106A-D的处理器1102。在一个实施例中，主机接口开关1104是将处理器1102耦合到快速PCI总线的快速PCI开关设备，处理器1102可通过该快速PCI总线与这组GPGPU 1106A-D通信。多个GPGPU 1106A-1106D中的每个可以是图10的GPGPU1000的实例。可经由一组高速点对点GPU到GPU链路1116来互连GPGPU 1106A-D。高速GPU到GPU链路可经由专用GPU链路(例如如图10中的GPU链路1010)连接到GPGPU 1106A-1106D中的每个。P2P GPU链路1116实现在GPGPU 1106A-1106D中的每个之间的直接通信而不需要通过处理器1102连接到的主机接口总线进行通信。在GPU到GPU业务指向P2P GPU链路的情况下，主机接口总线保持对系统存储器存取是可用的或例如经由一个或多个网络设备与多GPU计算系统1100的其它实例通信。虽然在所示实施例中，GPGPU 1106A-1106D经由主机接口开关1104连接到处理器1102，但是在一个实施例中，处理器1102包括对P2P GPU链路1116的直接支持，并可直接连接到GPGPU 1106A-1106D。

机器学习神经网络实现

由本文所述的实施例提供的计算架构可被配置为执行特别适合于训练和部署用于机器学习的神经网络的并行处理的类型。神经网络可被一般化为具有曲线关系的功能的网络。如在本领域中公知的，存在在机器学习中使用的各种类型的神经网络实现。神经网络的一个示例性类型是如前所述的前馈网络。

神经网络的第二示例性类型是卷积神经网络(CNN)。CNN是用于处理具有已知的栅格状拓扑的数据(例如，图像数据)的专用前馈神经网络。因此，CNN通常用于计算视觉和图像识别应用，但它们也可用于其它类型的模式识别，例如语音和语言处理。在CNN输入层中的节点被组织到一组“滤波器”(由在视网膜中找到的感受域激发的特征检测器)内，并且每组滤波器的输出传播到在网络的连续层中的节点。针对CNN的计算包括将卷积数学操作应用于每个滤波器以产生那个滤波器的输出。卷积是由两个功能执行以产生第三功能的专业类型的数学操作，所述第三功能为这两个原始功能中的一个的修改版本。在卷积网络术语中，用于卷积的第一功能可被称为输入，而第二功能可被称为卷积内核。输出可被称为特征图。例如，用于卷积层的输入可以是定义输入图形的各种颜色分量的数据的多维阵列。卷积内核可以是参数的多维阵列，其中参数由用于神经网络的训练过程进行适配。

递归神经网络(RNN)是包括在层之间的反馈连接的一系列前馈神经网络。RNN通过在神经网络的不同部分当中共享参考数据来实现序列数据的建模。RNN的架构包括循环。循环表示变量的当前值对在未来的时间它自己的值的影响，因为来自RNN的输出数据的至少一部分用作对处理在序列中的随后输入的反馈。这个特征由于语言数据可以具有的变量性质而使RNN对语言处理特别有用。

下文所述的附图呈现示例性前馈、CNN和RNN网络以及描述用于分别训练和部署那些类型的网络中的每个的一般过程。将理解，这些描述是示例性的而非限制性为本文所述的任何特定实施例，并且总体而言，所示概念可通常应用于深度神经网络和机器学习技术。

上文所述的示例性神经网络可用于执行深度学习。深度学习是使用深度神经网络的机器学习。在深度学习中使用的深度神经网络是由多个隐藏层组成的人工神经网络，与只包括单个隐藏层的浅层神经网络不同。较深度的神经网络通常对于训练是更计算密集的。然而，网络的额外隐藏层实现多步骤模式识别，多步骤模式识别导致相对于浅层机器学习技术减小输出错误。

在深度学习中使用的深度神经网络一般包括前端网络以执行耦合到代表数学模型的后端网络的特征识别，该数学模型可基于被提供到该模型的特征表示来执行操作(例如对象分类、语音识别等)。深度学习使机器学习能够被执行而不需要针对模型执行的手工制作特征工程。替代地，深度神经网络可基于在输入数据内的统计结构或关联来学习特征。所学习的特征可被提供到可将检测到的特征映射到输出的数学模型。由网络使用的数学模型通常专用于待执行的特定任务，并且不同的模型将用于执行不同的任务。

一旦构造神经网络，则学习模型就可应用于网络以训练网络来执行特定的任务。学习模型描述如何调节在模型内的权重以减小网络的输出错误。错误的后向传播是用于训练神经网络的常见方法。输入矢量被呈现给网络以用于处理。使用损失函数来比较网络的输出与期望输出，并针对在输出层中的每个神经元计算错误值。错误值然后向后传播，直到每个神经元具有大致表示它对原始输出的贡献的相关联的错误值为止。接着网络可使用算法(例如随机梯度下降算法)从那些错误中学习，以更新神经网络的权重。

图12A-图12B示出了示例性卷积神经网络。图12A示出了在CNN内的各种层。如图12A所示，用于对图像处理建模的示例性CNN可接收描述输入图像的红色、绿色和蓝色(RGB)分量的输入1202。输入1202可由多个卷积层(例如卷积层1204、卷积层1206)处理。来自多个卷积层的输出可以可选地由一组完全连接的层1208处理。在完全连接的层中的神经元具有与在先前层中的所有激活的完全连接，如前面对前馈网络描述的。来自完全连接的层1208的输出可用于根据网络产生输出结果。可使用矩阵乘法而不是卷积来计算在完全连接的层1208内的激活。不是所有CNN实现都利用完全连接的层1208。例如在一些实现中，卷积层1206可以针对CNN生成输出。

卷积层被稀疏地连接，这不同于在完全连接的层1208中找到的传统神经网络配置。传统神经网络层被完全连接，使得每个输出单元与每个输入单元交互作用。然而，卷积层被稀疏地连接，因为域的卷积的输出被输入(而不是在域中的每个节点的相应状态值)到随后层的节点，如所示。与卷积层相关联的内核执行卷积运算，其输出被发送到下一层。在卷积层内执行的维数约减是使CNN能够缩放以处理较大的图像的一个方面。

图12B示出了在CNN的卷积层内的示例性计算级。可在卷积层1214的三个级中处理CNN的卷积层1212的输入。这三个级可包括卷积级1216、检测器级1218和池级1220。卷积层1214可接着将数据输出到后继的卷积层。网络的最后一个卷积层可生成输出特征图数据或将输入提供到完全连接的层，例如以生成用于CNN的输入的分类值。

卷积级1216并行地执行几个卷积以产生一组线性激活。卷积级1216可包括仿射变换，其为可被规定为线性变换加平移的任何变换。仿射变换包括旋转、平移、缩放和这些变换的组合。卷积级计算连接到在输入中的特定区域的函数(例如神经元)的输出，该特定区域可被确定为与神经元相关的局部区域。神经元计算在神经元的权重和神经元连接到的局部输入中的区域之间的点积。来自卷积级1216的输出定义由卷积层1214的后继级所处理的一组线性激活。

线性激活可由检测器级1218处理。在检测器级1218中，每个线性激活由非线性激活函数处理。非线性激活函数增加总网络的非线性特性而不影响卷积层的感受域。可使用几种类型的非线性激活函数。一个特定的类型是修正线性单元(ReLU)，其使用被定义为f(x)＝max(0,x)的激活函数，使得激活以零为阈值。

池级1220使用池函数，其用附近输出的概括统计量来代替卷积层1206的输出。池函数可用于将平移不变性引入到神经网络内，使得对输入的小平移不改变池化的输出。对局部平移的不变性可能在输入数据中的特征的存在比特征的精确位置更重要的情形中是有用的。可在池级1220期间使用各种类型的池函数，池级1220包括最大池、平均池和12标准池。此外，一些CNN实现不包括池级。替代地，这样的实现代替相对于先前的卷积级具有增加的步幅的额外卷积级。

来自卷积层1214的输出可接着由下一层1222处理。下一层1222可以是额外的卷积层或完全连接的层1208中的一个。例如，图12A的第一卷积层1204可输出到第二卷积层1206，而第二卷积层可输出到完全连接的层1208的第一层。

图13示出了示例性递归神经网络1300。在递归神经网络(RNN)中，网络的先前状态影响网络的当前状态的输出。可使用各种函数以各种方式构建RNN。RNN的使用通常以数学模型为主题以基于输入的先前序列来预测未来。例如，给定字的先前序列，RNN可用于执行统计语言建模以预测即将来临的字。所示RNN 1300可被描述为具有接收输入矢量的输入层1302、用于实现递归函数的隐藏层1304、用于实现先前的状态的“记忆”的反馈机构1305和用于输出结果的输出层1306。RNN 1300基于时间步长来操作。RNN在给定时间步长处的状态基于先前时间步长经由反馈机构1305来影响。对于给定时间步长，隐藏层1304的状态由先前状态和在当前时间步长处的输入定义。在第一时间步长处的初始输入(x1)可由隐藏层1304处理。第二输入(x2)可由隐藏层1304使用在初始输入(x1)的处理期间确定的状态信息来处理。给定状态可被计算为s_t＝f(Ux_t+Ws_t-1)，其中U和W是参数矩阵。函数f通常是非线性的，例如双曲线正切函数(Tanh)或修正器函数的变形f(x)＝max(0，x)。然而，在隐藏层1304中使用的特定数学函数可取决于RNN 1300的特定实现细节来改变。

除了所描述的基本CNN和RNN网络以外，在那些网络上的变化也可成为可能。一个示例RNN变形是长短期记忆(LSTM)RNN。LSTM RNN能够学习可能对处理语言的较长序列必要的长期依赖性。在CNN上的变形是卷积深度信念网络，其具有与CNN类似的结构并以与深度信念网络类似的方式被训练。深度信念网络(DBN)是由随机(random(随机))变量的多个层组成的生成式神经网络。可使用贪婪的无监督学习来逐层训练DBN。DBN的学习的权重可接着用于通过确定用于神经网络的权重的最佳初始集合来提供预训练神经网络。

图14示出了深度神经网络的训练和部署。一旦给定网络被构造用于任务，则使用训练数据集1402来训练神经网络。开发了各种训练框架1404来实现训练过程的硬件加速。例如，图9的机器学习框架904可被配置为训练框架904。训练框架904可钩到未训练的神经网络1406内，并使用本文所述的并行处理资源使未训练的神经网络被训练以生成经训练的神经网络1408。

为了开始训练过程，可随机地或通过使用深度信念网络来预训练而选择初始权重。然后以监督或无监督的方式来执行训练循环。

监督学习是一种学习方法，其中训练作为中间操作被执行，例如当训练数据集1402包括与输入的期望输出配对的输入时，或其中训练数据集包括具有已知输出的输入并且神经网络的输出手动地被分级。网络处理输入并比较所得到的输出与一组预期或期望输出。然后通过系统回传错误。训练框架1404可调节以调节控制未训练的神经网络1406的权重。训练框架1404可提供工具以监控未训练的神经网络1406集中于如下模型的良好程度，所述模型适合基于已知的输入数据来生成正确的答案。当网络的权重被调节以改进由神经网络生成的输出时，训练过程重复地发生。训练过程可继续，直到神经网络达到与经训练的神经网络1408相关联的统计上期望的精度为止。经训练的神经网络1408可接着被部署来实现任何数量的机器学习算法。

无监督学习是一种学习方法，其中网络试图使用无标签的数据来训练本身。因此，对于无监督学习，训练数据集1402将包括输入数据而没有任何相关联的输出数据。未训练的神经网络1406可学习在无标签的输入内的编组，并可确定单独的输入如何与总数据集有关。无监督训练可用于生成自组织图，其为能够执行在减小数据的维数时有用的操作的一种类型的经训练的神经网络1407。无监督训练也可用于执行异常检测，其允许识别输入数据集中的从数据的正常模式偏离的数据点。

也可采用在监督和无监督训练上的变形。半监督学习是一种技术，其中训练数据集1402包括同一分布的带标签和无标签的数据的混合。递增学习是监督学习的变形，其中输入数据连续地用于进一步训练模型。递增训练使经训练的神经网络1408能够适合于新数据1412，而在初始训练期间不忘记在网络内灌输的指示。

不管是监督的还是无监督的，用于特别的深度神经网络的训练过程对于单个计算节点可能是计算上太密集的。不是使用单个计算节点，计算节点的分布式网络可用于加速训练过程。

图15是示出了分布式学习的方框图。分布式学习是使用多个分布式计算节点来执行神经网络的监督或无监督训练的训练模型。分布式计算节点中的每个可以包括一个或多个主机处理器和通用处理节点(例如，如在图1000中的高度并行的通用图形处理单元1000)中的一个或多个。如所示，分布式学习可由模型并行1502、数据并行1504或模型和数据并行1504的组合来执行。

在模型并行1502中，在分布式系统中的不同计算节点可针对单个网络的不同部分执行训练计算。例如，神经网络的每层可由分布式系统的不同处理节点训练。模型并行的益处包括用于缩放到特别大的模型的能力。对与神经网络的不同层相关联的计算进行划分能够实现非常大的神经网络的训练，其中所有层的权重将不适合于单个计算节点的记忆。在一些实例中，模型并行可能在执行大神经网络的无监督训练时是特别有用的。

在数据并行1504中，分布式网络的不同节点具有模型的完整实例，并且每个节点接收数据的不同部分。然后组合来自不同节点的结果。虽然用于数据并行的不同方法是可能的，但是数据并行训练方法都需要组合结果并使在每个节点之间的模型参数同步的技术。用于组合数据的示例性方法包括参数平均化和基于更新的数据并行。参数平均化在训练数据的子集上训练每个节点，并将全局参数(例如权重、偏置)设置为来自每个节点的参数的平均。参数平均化使用维持参数数据的中心参数服务器。基于更新的数据并行类似于参数平均化，除了不是将参数从节点传送到参数服务器而是对模型的更新被传送以外。此外，可以用分散的方式来执行基于更新的数据并行，其中更新被压缩并在节点之间被传送。

组合的模型和数据并行1506可例如在分布式系统中实现，在所述分布式系统中每个计算节点包括多个GPU。每个节点可具有模型的完整实例，在每个节点内的单独GPU用于训练模型的不同部分。

分布式训练相对于在单个机器上的训练增加了开销。然而，本文所述的并行处理器和GPGPU中的每个可以实现各种技术以减小分布式训练的开销，所述各种技术包括实现高带宽GPU到GPU数据传送和加速的远程数据同步的技术。

示例性机器学习应用

机器学习可应用于解决各种技术问题，包括但不限于计算机视觉、自主驾驶和导航、语音识别和语言处理。计算机视觉传统上是机器学习应用的最活跃的研究领域中的一个。计算机视觉的应用范围从复制人类视觉能力(例如，面部识别)到创建视觉能力的新类别。例如，计算机视觉应用可被配置为从来自在视频中可见的物体中引起的振动中识别声波。并行处理器加速的机器学习使用比先前可行的明显更大的训练数据集使计算机视觉应用能够被训练，并使用低功率并行处理器使推理系统能够被部署。

并行处理器加速的机器学习具有自主驾驶应用，包括车道和道路标志识别、障碍物避免、导航和驾驶控制。加速的机器学习技术可用于基于定义对特定训练输入的适当响应的数据集来训练驾驶模型。本文所述的并行处理器可实现用于自主驾驶解决方案的日益复杂的神经网络的快速训练并实现在适合于集成到自主车辆内的移动平台中的低功率推理处理器的部署。

并行处理器加速的深度神经网络使机器学习方法实现到自动语音识别(ASR)。ASR包括创建给定输入随机序列而计算最可能的语言序列的函数。使用深度神经网络的加速的机器学习实现代替先前用于ASR的隐马尔科夫(HMM)和高斯混合模型(GMM)。

并行处理器加速的机器学习也可用于加速自然语言处理。自动学习过程可利用统计推理算法来产生对错误或不熟悉的输入是鲁棒的模型。示例性自然语言处理器应用包括在人类语言之间的自动机器翻译。

用于机器学习的并行处理平台可划分为训练平台和部署平台。训练平台通常是高度并行的，并包括优化以加速多GPU单节点训练和多节点多GPU训练。适合于训练的示例性并行处理器包括图10的高度并行的通用图形处理单元1000和图11的多GPU计算系统1100。相反，所部署的机器学习平台通常包括适合于在产品(例如，摄像机、自主机器人和自主车辆)中使用的较低功率并行处理器。

图16示出了适合于使用经训练的模型来执行推理的示例性推理片上系统(SOC)1600。SOC 1600可集成处理部件，包括媒体处理器1602、视觉处理器1604、GPGPU 1606和多核处理器1608。SOC 1600可以此外包括片上存储器1605，其实现由每个处理部件可访问的共享片上数据池。处理部件可针对低功率操作进行优化以实现部署到包括自主车辆和自主机器人的各种机器学习平台。例如，SOC 1600的一个实现可用作用于自主车辆的主控制系统的一部分。在SOC 1600被配置为在自主车辆中使用的场合，SOC设计和被配置用于与部署管辖权的相关功能安全标准兼容。

在操作期间，媒体处理器1602和视觉处理器1604可共同工作以加速计算机视觉操作。媒体处理器1602可实现多个高分辨率(例如4K、8K)视频流的低延迟解码。解码的视频流可被写到片上存储器1605中的缓冲器。视觉处理器1604可接着解析解码的视频并使用经训练的图像识别模型在处理帧的准备中对解码的视频的帧执行预备处理操作。例如，视觉处理器1604可加速用于对高分辨率视频数据执行图像识别的CNN的卷积运算，而后端模型计算由GPGPU 1606执行。

多核处理器1608可包括控制逻辑以有助于由媒体处理器1602和视觉处理器1604执行的数据传送和共享存储器操作的排序和同步。多核处理器1608也可以用作应用处理器以执行可利用GPGPU 1606的推理计算能力的软件应用。例如，可在多核处理器1608上执行的软件中实现导航和驾驶逻辑的至少一部分。这样的软件可直接向GPGPU 1606发出计算工作负载，或计算工作负载可以被发出到多核处理器1608，其可将那些操作的至少一部分卸载到GPGPU 1606。

GPGPU 1606可包括计算集群，例如在高度并行的通用图形处理单元1000内的计算集群1006A-1006H的低功率配置。在GPGPU 1606内的计算集群可支持被特别优化以对经训练的神经网络执行推理计算的指令。例如，GPGPU 1606可支持用于执行低精度计算(例如，8位和4位整数矢量操作)的指令。

系统概述

图17是根据实施例的处理系统1700的方框图。在各种实施例中，系统1700包括一个或多个处理器1702和一个或多个图形处理器1708，并且可以是单个处理器桌上型系统、多处理器工作站系统或具有大量处理器1702或处理器核心1707的服务器系统。在一个实施例中，系统1700是合并在片上系统(SoC)集成电路内的处理平台，以用于在移动、手持式或嵌入式设备中使用。

系统1700的实施例可包括下列项或合并在下列项内：基于服务器的游戏平台、游戏控制台，包括游戏和媒体控制台、移动游戏控制台、手持游戏控制台或在线游戏控制台。在一些实施例中，系统1700是移动电话、智能电话、平板计算设备或移动互联网设备。数据处理系统1700还可包括下列项、与下列项耦合或集成在下列项内：可穿戴式设备例如智能手表穿戴式设备、智能眼镜设备、增强现实设备或虚拟现实设备。在一些实施例中，数据处理系统1700是具有一个或多个处理器1702和由一个或多个图形处理器1708生成的图形接口的电视机或机顶盒设备。

在一些实施例中，一个或多个处理器1702中的每个包括一个或多个处理器核心1707以处理指令，所述指令当被执行时执行用于系统和用户软件的操作。在一些实施例中，一个或多个处理器核心1707中的每个被配置为处理特定的指令集1709。在一些实施例中，指令集1709可有利于复杂指令集计算(CISC)、精简指令集计算(RISC)或经由超长指令集字(VLIW)进行计算。多个处理器核心1707中的每个可以处理不同的指令集1709，其可包括有利于其它指令集的仿真的指令。处理器核心1707还可包括其它处理设备，例如数字信号处理器(DSP)。

在一些实施例中，处理器1702包括高速缓存存储器1704。取决于架构，处理器1702可具有单个内部高速缓存或多个级别的内部高速缓存。在一些实施例中，高速缓存存储器在处理器1702的各种部件当中被共享。在一些实施例中，处理器1702还使用外部高速缓存(例如3级(L3)高速缓存或最后一级高速缓存(LLC)(未示出))，其可使用已知的高速缓存一致性技术在处理器核心1707当中被共享。此外寄存器文件1706被包括在处理器1702中，处理器1702可包括用于存储不同类型的数据的不同类型的寄存器(例如整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器)。一些寄存器可以是通用寄存器，而其它寄存器可以是处理器1702的设计所特有的。

在一些实施例中，处理器1702与处理器总线1710耦合以在处理器1702和系统1700中的其它部件之间发送通信信号，例如地址、数据或控制信号。在一个实施例中，系统1700使用示例性“集线器”系统架构，包括存储器控制器集线器1716和输入输出(I/O)控制器集线器1730。存储器控制器集线器1716有利于在存储器设备和系统1700的其它部件之间的通信，而I/O控制器集线器(ICH)1730经由本地I/O总线来提供与I/O设备的连接。在一个实施例中，存储器控制器集线器1716的逻辑集成在处理器内。

存储器设备1720可以是动态随机存取存储器(DRAM)设备、静态随机存取存储器(SRAM)设备、闪存设备、相变存储器设备或具有适当的性能以用作过程存储器的某其它存储器设备。在一个实施例中，存储器设备1720可作为系统1700的系统存储器来操作，以存储数据1722和指令1721以用于在一个或多个处理器1702执行应用或过程时使用。存储器控制器集线器1716也与可选的外部图形处理器1712耦合，外部图形处理器1712可与处理器1702中的一个或多个图形处理器1708通信以执行图形和媒体操作。

在一些实施例中，ICH 1730使外围设备能够经由高速I/O总线连接到存储器设备1720和处理器1702。I/O外围设备包括但不限于音频控制器1746、固件接口1728、无线收发机1726(例如Wi-Fi、蓝牙)、数据存储设备1724(例如硬盘驱动器、闪存等)和用于将传统(例如个人系统2(PS/2))设备耦合到系统的传统I/O控制器1740。一个或多个通用串行总线(USB)控制器1742连接输入设备，例如键盘和鼠标1744的组合。网络控制器1734还可与ICH1730耦合。在一些实施例中，高性能网络控制器(未示出)与处理器总线1710耦合。将认识到，所示的系统1700是示例性的而不是限制性的，因为也可使用不同地配置的其它类型的数据处理系统。例如，I/O控制器集线器1730可集成在一个或多个处理器1702内，或存储器控制器集线器1716和I/O控制器集线器1730可集成到分立的外部图形处理器(例如外部图形处理器1712)内。

图18是具有一个或多个处理器核心1802A-1802N、集成存储器控制器1814和集成图形处理器1808的处理器1800的方框图。图形处理器1808可以包括根据本设计的实施例的加法器电路1810(例如，系统700、加法器电路750)。具有与本文的任何其它附图的元件相同的附图标记(或名称)的图18的那些元件可以用与在本文其它地方描述的方式类似的任何方式操作或运行，但不限于此。处理器1800可包括额外的核心，并包括由虚线框表示的额外核心1802N。处理器核心1802A-1802N中的每个包括一个或多个内部高速缓存单元1802A-1804N。在一些实施例中，每个处理器核心还存取一个或多个共享缓存单元1806。

内部高速缓存单元1804A-1804N和共享高速缓存单元1806代表在处理器1800内的高速缓存存储器分级结构。高速缓存存储器分级结构可包括在每个处理器核心内的至少一个级别的指令和数据高速缓存以及一个或多个级别的共享中级高速缓存，例如2级(L2)、3级(L3)、4级(L4)或其它级别的高速缓存，其中在外部存储器之前的最高级别的高速缓存被分类为LLC。在一些实施例中，高速缓存一致性逻辑维持在各种高速缓存单元1806和1804A-1804N之间的一致性。

在一些实施例中，处理器1800还可包括一组一个或多个总线控制器单元1816和系统代理核心1810。一个或多个总线控制器单元1816管理一组外围总线，例如一个或多个外围部件互联网总线(例如PCI、快速PCI)。系统代理核心1810针对各种处理器部件提供管理功能。在一些实施例中，系统代理核心1810包括一个或多个集成存储器控制器1814以管理对各种外部存储器设备(未示出)的存取。

在一些实施例中，处理器核心1802A-1802N中的一个或多个包括对同时多线程的支持。在这样的实施例中，系统代理核心1810包括用于在多线程处理期间协调和操作核心1802A-1802N的部件。系统代理核心1810可另外包括功率控制单元(PCU)，其包括逻辑和部件以调节处理器核心1802A-1802N和图像处理器1808的功率状态。

在一些实施例中，处理器1800另外包括图形处理器1808以执行图形处理操作。在一些实施例中，图形处理器1808与这组共享高速缓存单元1806和包括一个或多个集成存储器控制器1814的系统代理核心1810耦合。在一些实施例中，显示器控制器1811与图形处理器1808耦合以将图形处理输出到一个或多个耦合的显示器。在一些实施例中，显示控制器1811可以是经由至少一个互连与图形处理器耦合的单独模块，或可集成在图形处理器1808或系统代理核心1810内。

在一些实施例中，基于环的互连单元1812用于耦合处理器1800的内部部件。然而，可使用可选的互连单元，例如点对点互连、切换式互连或其它技术，包括在本领域中公知的技术。在一些实施例中，图形处理器1808经由I/O链路1813与环形互连1812耦合。

示例性I/O链路1813代表多种I/O互连中的至少一个，所述多种I/O互连包括封装上I/O互连，其有利于实现在各种处理器部件和高性能嵌入式存储器模块1818(例如eDRAM模块)之间的通信。在一些实施例中，处理器核心1802A-1802N和图形处理器1808中的每个使用嵌入式存储器模块1818作为共享最后一级高速缓存。

在一些实施例中，处理器核心1802A-1802N是执行同一指令集架构的同构核心。在另一实施例中，处理器核心1802A-1802N从指令集架构(ISA)方面来说是异构的，其中处理器核心1802A-1802N中的一个或多个执行第一指令集，而其它核心中的至少一个执行第一指令集的子集或不同的指令集。在一个实施例中，处理器核心1802A-1802N从微架构方面来说是异构的，其中具有相对较高的功率消耗的一个或多个核心与具有相对较低的功率消耗的一个或多个功率核心耦合。此外，处理器1800可在一个或多个芯片上实现或作为还具有所述部件等的SoC集成电路来实现。

图19是图形处理器1900的方框图，图形处理器1900可以是分立的图形处理单元或可以是与多个处理核心集成的图形处理器。在一些实施例中，图形处理器经由到图形处理器上的寄存器的存储器映射的I/O接口并使用放置到处理器存储器内的命令来进行通信。在一些实施例中，图形处理器1900包括存储器接口1914以存取存储器。存储器接口1914可以是到本地存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存和/或到系统存储器的接口。

在一些实施例中，图形处理器1900还包括显示控制器1902以将显示输出数据驱动到显示设备1920。显示控制器1902包括用于一个或多个叠加平面的硬件以用于视频或用户接口元件的多个层的显示和构成。在一些实施例中，图形处理器1900包括视频编码解码器引擎1906以将媒体编码、解码或转码成一种或多种媒体编码格式、从一种或多种媒体编码格式编码、解码或转码或在一种或多种媒体编码格式之间编码、解码或转码，媒体编码格式包括但不限于运动图片专家组(MPEG)格式例如MPEG-2、高级视频编码(AVC)格式例如H.264/MPEG-4AVC以及电影电视工程师协会(SMPTE)421M/VC-1和联合图像专家组(JPEG)格式例如JPEG、以及运动JPEG(MJPEG)格式。

在一些实施例中，图形处理器1900包括块图像传输(BLIT)引擎1904以执行二维(2D)光栅化程序操作，包括例如位边界块传输。然而，在一个实施例中，2D图形操作是使用图形处理引擎(GPE)1910的一个或多个部件来执行的。在一些实施例中，GPE 1910是用于执行包括三维(3D)图形操作和媒体操作的图形操作的计算引擎。

在一些实施例中，GPE1910包括用于使用作用于3D原语形状(例如矩形、三角形等)上的处理功能来执行3D操作(例如渲染三维图像和场景)的3D流水线1912。3D流水线1912包括执行在元件内的各种任务和/或生成用于3D/媒体子系统1915的执行线程的可编程和固定功能元件。虽然3D流水线1912可用于执行媒体操作，但是GPE 1910的实施例还包括媒体流水线1916，其专门用于执行媒体操作，例如视频后处理和图像增强。

在一些实施例中，媒体流水线1916包括固定功能或可编程逻辑单元以代替或代表视频编码解码器引擎1906执行一个或多个专用媒体操作，例如视频解码加速、视频解交织和视频编码加速。在一些实施例中，媒体流水线1916另外包括线程生成单元来生成线程以用于在3D/媒体子系统1915上执行。生成的线程在被包括在3D/媒体子系统1915中的一个或多个图形执行单元上执行针对媒体操作的计算。

在一些实施例中，3D/媒体子系统1915包括用于执行由3D流水线1912和媒体流水线1916生成的线程的逻辑。在一个实施例中，流水线将线程执行请求发送到3D/媒体子系统1915，所述3D/媒体子系统1915包括用于仲裁各种请求并将各种请求分派到可用线程执行资源的线程分派逻辑。执行资源包括图形执行单元的阵列以处理3D和媒体线程。在一些实施例中，3D/媒体子系统1915包括用于线程指令和数据的一个或多个内部高速缓存。在一些实施例中，子系统还包括共享存储器，包括寄存器和可寻址存储器，以在线程之间共享数据并存储输出数据。

图形处理引擎

图20是根据一些实施例的图形处理器的图形处理引擎2010的方框图。在一个实施例中，图形处理引擎(GPE)2010是图19所示的GPE1910的版本。具有与本文的任何其它附图的元件相同的附图标记(或名称)的图20的元件可以用与在本文其它地方描述的方式类似的任何方式操作或运行，但不限于此。例如，示出图19的3D流水线1912和媒体流水线1916。媒体流水线1916在GPE 2010的一些实施例中是可选的，并且可以不明确地被包括在GPE2010内。例如并且在至少一个实施例中，单独的媒体和/或图像处理器耦合到GPE 2010。

在一些实施例中，GPE2010与命令流式发送器2003耦合或包括命令流式发送器2003，命令流式发送器2003向3D流水线1912和/或媒体流水线1916提供命令流。在一些实施例中，命令流式发送器2003与存储器耦合，存储器可以是系统存储器、或内部高速缓存存储器和共享高速缓存存储器中的一个或多个。在一些实施例中，命令流式发送器2003从存储器接收命令并将命令发送到3D流水线1912和/或媒体流水线1916。命令是直接从环形缓冲器取出的，环形缓冲器存储用于3D流水线1912和媒体流水线1916的命令。在一个实施例中，环形缓冲器可另外包括存储批量的多个命令的批量命令缓冲器。用于3D流水线1912的命令也可包括对存储在存储器中的数据的引用，例如但不限于用于3D流水线1912的顶点和几何数据和/或用于媒体流水线1916的图像数据和存储器对象。3D流水线1912和媒体流水线1916通过经由在相应流水线内的逻辑执行操作或通过将一个或多个执行线程分派到图形核心阵列2014来处理命令和数据。

在各种实施例中，3D流水线1912可通过处理指令并将执行线程分派到图形核心阵列2014来执行一个或多个着色器程序，例如顶点着色器、几何着色器、像素着色器、片段着色器、计算着色器或其它着色器程序。图形核心阵列2014提供执行资源的统一块。在图形核心阵列2014内的多用途执行逻辑(例如执行单元)包括对各种3D API着色器语言的支持，并可执行与多个着色器相关的多个同时执行线程。

在一些实施例中，图形核心阵列2014还包括执行逻辑以执行媒体功能，例如视频和/或图像处理。在一个实施例中，执行单元另外包括通用逻辑，其可编程来除了执行图形处理操作以外还执行并行通用计算操作。通用逻辑可并行地或结合在图17的处理器核心107或如在图18中的核心202A-202N内的通用逻辑来执行处理操作。

由在图形核心阵列2014上执行的线程生成的输出数据可将数据输出到在统一返回缓冲器(URB)2018中的存储器。URB 2018可存储用于多个线程的数据。在一些实施例中，URB 2018可用于在图形核心阵列2014上执行的不同线程之间发送数据。在一些实施例中，URB 2018可另外用于在图形核心阵列上的线程和在共享功能逻辑2020内的固定功能逻辑之间的同步。

在一些实施例中，图形核心阵列2014是可缩放的，使得阵列包括可变数量的图形核心，每个图形核心基于GPE 2010的目标功率和性能水平具有可变数量的执行单元。在一个实施例中，执行资源是动态可缩放的，使得执行资源可按需要被启用或禁用。

图形核心阵列2014与共享功能逻辑2020耦合，共享功能逻辑2020包括在图形核心阵列中的图形核心之间共享的多个资源。在共享功能逻辑2020内的共享功能是向图形核心阵列2014提供专用补充功能的硬件逻辑单元。在各种实施例中，共享功能逻辑2020包括但不限于采样器2021、数学2022和线程间通信(ITC)2023逻辑。此外，一些实施例在共享功能逻辑2020内实现一个或多个高速缓存2025。实现共享功能，其中针对给定的专用功能的需求对于包括在图形核心阵列2014内是不足的。替代地，那个专用功能的单个例示被实现为在共享功能逻辑2020中的独立实体，并在图形核心阵列2014内的执行资源当中被共享。在图形核心阵列2014之间被共享并被包括在图形核心阵列2014内的功能的精确集合在实施例之间变化。

图21是由额外的实施例提供的图形处理器2100的方框图。具有与本文的任何其它附图的元件相同的附图标记(或名称)的图21的元件可以用与在本文其它地方描述的方式类似的任何方式操作或运行，但不限于此。

在一些实施例中，图形处理器2100包括环形互连2102、流水线前端2104、媒体引擎2137和图形核心2180A-2180N。在一些实施例中，环形互连2102将图形处理器耦合到其它处理单元，所述其它处理单元包括其它图形处理器或一个或多个通用处理器核心。在一些实施例中，图形处理器是集成在多核处理系统内的很多处理器中的一个。

在一些实施例中，图形处理器2100经由环形互连2102接收批量命令。进入的命令由在流水线前端2104中的命令流式发送器2103解释。在一些实施例中，图形处理器2100包括可缩放的执行逻辑以经由图形核心2180A-2180N来执行3D几何处理和媒体处理。对于3D几何处理命令，命令流式发送器2103将命令供应到几何流水线2136。对于至少一些媒体处理命令，命令流式发送器2103将命令供应到视频前端2134，视频前端2134与媒体引擎2137耦合。在一些实施例中，媒体引擎2137包括用于视频和图形后处理的视频质量引擎(VQE)2130以及用于提供硬件加速的媒体数据编码和解码的多格式编码/解码(MFX)2133。在一些实施例中，几何流水线2136和媒体引擎2137每个针对由至少一个图形核心2180A提供的线程执行资源生成执行线程。

在一些实施例中，图形处理器2100包括以模块化核心2180A-2180N(有时被称为核心片)为特征的可缩放的线程执行资源，每个模块化核心具有多个子核心2150A-2150N、2160A-2160N(有时被称为核心子片)。在一些实施例中，图形处理器2100可具有任何数量的图形核心2180A到2180N。在一些实施例中，图形处理器2100包括具有至少第一子核心2150和第二子核心2160A的图形核心2180A。在其它实施例中，图形处理器是具有单个子核心(例如2150A)的低功率处理器。在一些实施例中，图形处理器2100包括多个图形核心2180A-2180N，每个图形核心包括一组第一子核心2150A-2150N和一组第二子核心2160A-2160N。这组第一子核心2150A-2150N中的每个子核心包括至少第一组执行单元2152A-2152N和媒体/纹理采样器2154A-2154N。这组第二子核心2160A-2160N中的每个子核心包括至少第二组执行单元2162A-2162N和采样器2164A-2164N。在一些实施例中，每个子核心2150A-2150N、2160A-2160N共享一组共享资源2170A-2170N。在一些实施例中，共享资源包括共享高速缓存存储器和像素操作逻辑。其它共享资源也可被包括在图形处理器的各种实施例中。

执行单元

图22示出了包括在一些实施例中采用的处理元件的阵列的线程执行逻辑2200。具有与本文的任何其它附图的元件相同的附图标记(或名称)的图22的元件可以用与在本文其它地方描述的方式类似的任何方式操作或运行，但不限于此。

在一些实施例中，线程执行逻辑2200包括着色器处理器2202、线程调度器2204、指令高速缓存2206、包括多个执行单元2208A-2208N的可缩放的执行单元阵列、采样器2210、数据高速缓存2212和数据端口2214。在一个实施例中，可缩放的执行单元阵列可基于工作负载的计算要求通过启用或禁用一个或多个执行单元(例如，执行单元2208A、2208B、2208C、2208D到2208N-1和2208N中的任一个)来动态地缩放。在一个实施例中，经由链接到部件中的每个的互连结构来互连所包括的部件。在一些实施例中，线程执行逻辑2200包括通过指令高速缓存2206、数据端口2214、采样器2210和执行单元2208A-2208N中的一个或多个到存储器(例如系统存储器或高速缓存存储器)的一个或多个互连。在一些实施例中，每个执行单元(例如2208A)是独立可编程通用计算单元，其能够执行多个同时硬件线程，同时并行地针对每个线程处理多个数据元件。在各种实施例中，执行单元2208A-2208N的阵列是可缩放的以包括任何数量的单独执行单元。

在一些实施例中，执行单元2208A-2208N主要用于执行着色器程序。着色器处理器2202可处理各种着色器程序并经由线程分派器2204来分派与着色器程序相关联的执行线程。在一个实施例中，线程分派器包括用于仲裁来自图形和媒体流水线的线程发起请求并对在执行单元2208A-2208N中的一个或多个执行单元上的所请求的线程进行实例化的逻辑。例如，几何流水线(例如图21的2136)可以将顶点、曲面细分或几何着色器分派到线程执行逻辑2200(图22)以用于处理。在一些实施例中，线程分派器2204也可处理来自执行的着色器程序的运行时线程生成请求。

在一些实施例中，执行单元2208A-2208N支持如下指令集，所述指令集包括对很多标准3D图形着色器指令的固有支持，使得来自图形库(例如Direct 3D和OpenGL)的着色器程序在最小转换的情况被执行。执行单元支持顶点和几何处理(例如顶点程序、几何程序、顶点着色器)、像素处理(例如像素着色器、片段着色器)和通用处理(例如，计算和媒体着色器)。每个执行单元2208A-2208N能够进行多议题单指令多数据(SIMD)执行，并且多线程操作面对较高延迟存储器存取实现有效执行环境。在每个执行单元内的每个硬件线程具有专用高带宽寄存器文件和相关联的独立线程状态。执行是对能够进行整数、单和双精度浮点操作、SIMD分支能力、逻辑操作、超越操作和其它曲面细分操作的流水线是每时钟多议题的。当等待来自存储器的数据或共享功能中的一个时，在执行单元2208A-2208N内的相关性逻辑使等待线程休眠，直到所请求的数据被返回为止。虽然等待线程正休眠，但是硬件资源可致力于处理其它线程。例如，在与顶点着色器操作相关联的延迟期间，执行单元可执行针对像素着色器、片段着色器或包括不同的顶点着色器的另一类型的着色器程序的操作。

在执行单元2208A-2208N中的每个执行单元在数据元素的阵列上操作。数据元素的数量是“执行尺寸”或用于指令的通道的数量。执行通道是用于数据元素访问、掩蔽和在指令内的流控制的执行的逻辑单元。通道的数量可独立于特定的图形处理器的物理算术逻辑单元(ALU)或浮点单元(FPU)的数量。在一些实施例中，执行单元2208A-2208N支持整数和浮点数据类型。根据本设计的实施例，ALU可以包括加法器电路(例如，系统700、加法器电路750)。

执行单元指令集包括SIMD指令。各种数据元素可作为封装的数据类型被存储在寄存器中，并且执行单元将基于元素的数据尺寸来处理各种元素。例如，当在256位宽矢量上操作时，矢量的256位存储在寄存器中，并且执行单元在矢量上作为四个单独的64位封装的数据元素(四字(QW)尺寸数据元素)、八个单独的32位封装的数据元素(双字(DW)尺寸数据元素)、十六个单独的16位封装的据元素(字(W)尺寸数据元素)或三十二个单独的8位封装的数据元素(字节(B)尺寸数据元素)来操作。然而，不同的矢量宽度和寄存器尺寸是可能的。

一个或多个内部指令高速缓存(例如2206)被包括在线程执行逻辑2200中以对用于指令单元的线程指令进行高速缓存。在一些实施例中，一个或多个数据高速缓存(例如2212)被包括以在线程执行期间对线程数据进行高速缓存。在一些实施例中，采样器2210被包括以提供针对3D操作的纹理采样和针对媒体操作的媒体采样。在一些实施例中，采样器2210包括专用纹理或媒体采样功能以在向执行单元提供所采样的数据之前在采样过程期间处理纹理或媒体数据。

在执行期间，图形和媒体流水线经由线程生成和分派逻辑将线程发起请求发送到线程执行逻辑2200。一旦一组几何对象被处理并光栅化成像素数据，则在着色器处理器2202内的像素处理器逻辑(例如像素着色器逻辑、片段着色器逻辑等)就被调用以进一步计算输出信息并使结果被写到输出表面(例如颜色缓冲器、深度缓冲器、模板缓冲器等)。在一些实施例中，像素着色器或片段着色器计算被内插在光栅化对象上的各种顶点属性的值。在一些实施例中，在着色器处理器2202内的像素处理器逻辑然后执行应用编程接口(API)供应的像素或片段着色器程序。为了执行着色器程序，着色器处理器2202经由线程分派器2204来将线程分派到执行单元(例如2208A)。在一些实施例中，像素着色器2202使用在采样器2210中的纹理采样逻辑来存取存储在存储器中的纹理图中的纹理数据。对纹理数据和输入几何数据上的算术运算计算针对每个几何片段的像素颜色数据，或丢弃一个或多个像素用于进一步处理。

在一些实施例中，数据端口2214针对线程执行逻辑2200提供存储器存取机制以将经处理的数据输出到存储器以用于在图形处理器输出流水线上执行。在一些实施例中，数据端口2214包括或耦合到一个或多个高速缓存存储器(例如数据高速缓存2212)以经由数据端口来对数据进行高速缓存以用于存储器存取。

图23是示出了根据一些实施例的图形处理器指令格式2300的方框图。在一个或多个实施例中，图形处理器执行单元支持具有在多种格式中的指令的指令集。实线框示出通常被包括在执行单元指令中的组成部分，而虚线包括可选的或只被包括在指令的子集中的组成部分。在一些实施例中，所述和所示的指令格式2300是宏指令，因为它们是被供应到执行单元的指令，与一旦指令被处理就从指令解码中产生的微操作不同。

在一些实施例中，图形处理器执行单元固有地支持在128位指令格式2310中的指令。基于选定指令、指令选项和操作数的数量，64位压缩指令格式2330对于一些指令是可用的。固有的128位指令格式2310提供对所有指令选项的访问，而一些选项和操作被限制在64位格式2330中。在64位指令格式2330中可用的固有指令根据实施例而不同。在一些实施例中，指令使用在索引字段2313中的一组索引值被部分地压缩。执行单元硬件基于索引值来引用一组压缩表，并使用压缩表输出来重构在128位指令格式2310中的固有指令。

对于每个格式，指令操作码2312定义执行单元将执行的操作。执行单元并行地在每个操作数的多个数据元素当中执行每个指令。例如，响应于加法指令，执行单元在代表纹理元素或图片元素的每个颜色通道上执行同时加法操作。默认地，执行单元在操作数的所有数据通道上执行每个指令。在一些实施例中，指令控制字段2314通过某些执行选项(例如通道选择(例如预测)和数据通道顺序(例如swizzle))来实现控制。对于在128位指令格式2310中的指令，exec尺寸字段2316限制将并行地被执行的数据通道的数量。在一些实施例中，exec尺寸字段2316不可用于在64位压缩指令格式2330中使用。

一些执行单元指令具有多达三个操作数，包括两个源操作数src0 2320、src12322和一个目的地2318。在一些实施例中，执行单元支持双目的地指令，其中目的地中的一个被暗示。数据操纵指令可具有第三源操作数(例如SRC2 2234)，其中指令操作码2312确定源操作数的数量。指令的最后一个源操作数可以是与指令一起通过的立即(硬编码)值。

在一些实施例中，128位指令格式2310包括存取/地址模式字段2326，其规定例如直接寄存器寻址模式还是间接寄存器寻址模式被使用。当直接寄存器寻址模式被使用时，一个或多个操作数的寄存器地址由在指令中的位直接提供。

在一些实施例中，128位指令格式2310包括存取/地址模式字段2326，其规定指令的地址模式和/或存取模式。在一个实施例中，存取模式用于定义用于指令的数据存取对齐。一些实施例支持包括16字节对齐存取模式和1字节对齐存取模式的存取模式，其中存取模式的字节对齐确定指令操作数的存取对齐。例如，当在第一模式中时，指令可使用针对源和目的地操作数的字节对齐寻址，而当在第二模式中时，指令可使用针对所有源和目的地操作数的16字节对齐寻址。

在一个实施例中，存取/地址模式字段2326的地址模式部分确定指令是使用直接寻址还是间接寻址。当使用直接寄存器寻址模式时，在指令中的位直接提供一个或多个操作数的寄存器地址。当使用间接寄存器寻址模式时，可基于指令中的地址寄存器值和地址立即字段来计算一个或多个操作数的寄存器地址。

在一些实施例中，基于操作码2312位字段来对指令分组以简化操作码解码2340。对于8位操作码，位4、5和6允许执行单元确定操作码的类型。所示的精确操作码分组仅仅是个示例。在一些实施例中，移动和逻辑操作码组2342包括数据移动和逻辑指令(例如，移动(mov)、比较(cmp))。在一些实施例中，移动和逻辑组2342共享五个最高有效位(MSB)，其中移动(mov)指令在0000xxxxb的形式中，而逻辑指令在0001xxxxb的形式中。流控制指令组2344(例如调用、跳转(jmp))包括在0010xxxxb(例如0x20)的形式中的指令。曲面细分指令组2346包括指令的混合，包括在0011xxxxb(例如0x30)的形式中的同步指令(例如等待、发送)。并行数学指令组2348包括在0100xxxxb(例如0x40)的形式中的逐个分量算术指令(例如加法、乘法(mul))。并行数学组2348在数据通道上并行地执行算术运算。矢量数学组2350包括在0101xxxxb(例如0x50)的形式中的算术指令(例如dp4)。矢量数学组对矢量操作数执行算术，例如点积计算。

图形流水线

图24是另一实施例的图形处理器2400的方框图。具有与本文的任何其它附图的元件相同的附图标记(或名称)的图24的元件可以用与在本文其它地方描述的方式类似的任何方式操作或运行，但不限于此。

在一些实施例中，图形处理器2400包括图形流水线2420、媒体流水线2430、显示引擎2440、线程执行逻辑2450和渲染输出流水线2470。在一些实施例中，图形处理器2400是在包括一个或多个通用处理核心的多核处理系统内的图形处理器。由到一个或多个控制寄存器(未示出)的寄存器写入或经由通过环形互连2402发出到图形处理器2400的命令来控制图形处理器。在一些实施例中，环形互连2402将图形处理器2400耦合到其它处理部件，例如其它图形处理器或通用处理器。来自环形互连2402的命令由命令流式发送器2403解释，其中，命令流式发送器2403将指令供应到图形流水线2420或媒体流水线2430的单独部件。

在一些实施例中，命令流式发送器2403指导顶点取出器2405的操作，顶点取出器2405从存储器读取顶点数据并执行由命令流式发送器2403提供的顶点处理命令。在一些实施例中，顶点取出器2405向顶点着色器2407提供顶点数据，其中，顶点着色器2407执行用于每个顶点的坐标空间变换和照明操作。在一些实施例中，顶点取出器2405和顶点着色器2407通过经由线程分派器2431将执行线程分派到执行单元2452A-2452B来执行顶点处理指令。

在一些实施例中，执行单元2452A-2452B是具有用于执行图形和媒体操作的指令集的矢量处理器的阵列。在一些实施例中，执行单元2452A-2452B具有针对每个阵列特定的或在阵列之间共享的附接的L1高速缓存2451。高速缓存可被配置为数据高速缓存、指令高速缓存或被划分以在不同的分区中包含数据和指令的单个高速缓存。

在一些实施例中，图形流水线2420包括曲面细分部件以执行3D对象的硬件加速的曲面细分。在一些实施例中，可编程外壳(hull)着色器2411配置曲面细分操作。可编程域着色器2417提供曲面细分输出的后端评估。细化器2413在外壳着色器2411的方向处操作，并包含专用逻辑以基于作为输入被提供到图形流水线2420的粗几何模型来生成一组详细的几何对象。在一些实施例中，如果不使用曲面细分，则可绕过曲面细分部件(例如外壳着色器2411、细化器2413和域着色器2417)。

在一些实施例中，完整的几何对象可由几何着色器2419经由被分派到执行单元2452A-2452B的一个或多个线程来处理，或可直接继续进行到限幅器2429。在一些实施例中，几何着色器在全部几何对象而不是如在图形流水线的先前级中的在顶点或顶点的补片上操作。如果曲面细分被禁用，则几何着色器2419从顶点着色器2407接收输入。在一些实施例中，如果曲面细分单元被禁用，则几何着色器2419由几何着色器程序可编程以执行几何曲面细分。

在光栅化之前，限幅器2429处理顶点数据。限幅器2429可以是固定功能限幅器或具有限幅和几何着色器功能的可编程限幅器。在一些实施例中，在渲染输出流水线2470中的光栅化器和深度测试部件2473分派像素着色器以将几何对象转换成它们的每像素表示。在一些实施例中，像素着色器逻辑被包括在线程执行逻辑2450中。在一些实施例中，应用可绕过光栅化器和深度测试部件2473并经由流输出单元2423来访问未光栅化的顶点数据。

图形处理器2400具有互连总线、互连结构或允许数据和消息通过处理器的主要部件的某个其它互连机构。在一些实施例中，执行单元2452A-2452B和相关联的高速缓存2451、纹理和媒体采样器2454和纹理/采样器高速缓存2458经由数据端口2456来互连以执行存储器存取并与处理器的渲染输出流水线部件通信。在一些实施例中，采样器2454、高速缓存2451、2458和执行单元2452A-2452B每个具有单独的存储器存取路径。

在一些实施例中，渲染输出流水线2470包含将基于顶点的对象转换成相关联的基于像素的表示的光栅化器和深度测试部件2473。在一些实施例中，光栅化器逻辑包括窗口器/掩蔽器单元以执行固定功能三角形和线光栅化。在一些实施例中，相关联的渲染高速缓存2478和深度高速缓存2479也是可用的。像素操作部件2477对数据执行基于像素的操作，虽然在一些实例中，与2D操作(例如，利用混合的位块图像传送)相关联的像素操作由2D引擎2441执行，或在显示时间由显示控制器2443使用覆盖显示平面来代替。在一些实施例中，共享L3高速缓存2475可用于所有图形部件，允许数据的共享而不使用主系统存储器。

在一些实施例中，图形处理器媒体流水线2430包括媒体引擎2437和视频前端2434。在一些实施例中，视频前端2434从命令流式发送器2403接收流水线命令。在一些实施例中，媒体流水线2430包括单独的命令流式发送器。在一些实施例中，视频前端2434在将命令发送到媒体引擎2437之前处理媒体命令。在一些实施例中，媒体引擎2437包括线程生成功能以生成用于经由线程分派器2431分派到线程执行逻辑2450的线程。

在一些实施例中，图形处理器2400包括显示引擎2440。在一些实施例中，显示引擎2440在图形处理器2400外部并经由环形互连2402或某个其它互连总线或结构与图形处理器耦合。在一些实施例中，显示引擎2440包括2D引擎2441和显示控制器2443。在一些实施例中，显示引擎2440包含能够独立于3D流水线而操作的专用逻辑。在一些实施例中，显示控制器2443与显示设备(未示出)耦合，显示设备可以是系统集成的显示设备，如在膝上型计算机中的，或经由显示设备连接器而附接的外部显示设备。

在一些实施例中，图形流水线2420和媒体流水线2430可被配置为基于多个图形和媒体编程接口来执行操作，并且不是任一个应用编程接口(API)特定的。在一些实施例中，用于图形处理器的驱动器软件将特定图形或媒体库所特有的API调用转换成可由图形处理器处理的命令。在一些实施例中，提供对都来自Khronos集团的开放图形库(OpenGL)、开放计算语音(OpenCL)和/或Vulkan图形和计算API的支持。在一些实施例中，也可提供对来自微软公司的Direct3D库的支持。在一些实施例中，可支持这些库的组合。也可提供对开放源计算视觉库(OpenCV)的支持。如果可做出从未来API的流水线到图形处理器的流水线的映射，则也将支持具有可兼容的3D流水线的未来API。

图形流水线编程

图25A是示出了根据一些实施例的图形处理器命令格式2500的方框图。图25B是示出了根据实施例的图形处理器命令序列2510的方框图。图25A中的实线框示出了通常被包括在图形命令中的组成部分，而虚线包括可选的或只被包括在图形命令的子集中的组成部分。图25A的示例性图形处理器命令格式2500包括数据字段以标识命令的目标客户端2502、命令操作代码(操作码)2504和针对命令的相关数据2506。子操作码2505和命令尺寸2508也被包括在一些命令中。

在一些实施例中，客户端2502规定处理命令数据的图形设备的客户端单元。在一些实施例中，图形处理器命令解析器检查每个命令的客户端字段以调节命令的进一步处理并将命令数据路由到适当的客户端单元。在一些实施例中，图形处理器客户端单元包括存储器接口单元、渲染单元、2D单元、3D单元和媒体单元。每个客户端单元具有处理命令的相对应的处理流水线。一旦命令由客户端单元接收，则客户端单元读取操作码2504，并且如果存在，子操作码2505确定要执行的操作。客户端单元使用在数据字段2506中的信息来执行命令。对于一些命令，显式命令尺寸2508被预期为规定命令的尺寸。在一些实施例中，命令解析器基于操作码来自动确定命令中的至少一些的尺寸。在一些实施例中，命令经由多个双字来对齐。

图25B中的流程图示出了示例性图形处理器命令序列2510。在一些实施例中，以图形处理器的实施例为特征的数据处理系统的软件或固件使用被示为建立、执行和终止一组图形操作的命令序列的版本。仅为了示例的目的，示出并描述了样本命令序列，因为实施例不限于这些特定的命令或这个命令序列。而且，命令可在命令序列中作为批量命令发出，使得图形处理器将处理至少部分地并发的命令的序列。

在一些实施例中，图形处理器命令序列2510可以以流水线刷新命令2512开始以使任何活动的图形流水线完成针对流水线的当前未决的命令。在一些实施例中，3D流水线2522和媒体流水线2524不并发操作。执行流水线刷新以使活动的图形流水线完成任何未决的命令。响应于流水线刷新，用于图形处理器的命令解析器将暂停命令处理，直到活动的绘图引擎完成未决的操作并且相关读高速缓存被无效为止。可选地，渲染高速缓存中的被标记为“脏的”任何数据可被刷新到存储器。在一些实施例中，流水线刷新命令2512可用于流水线同步或在将图形处理器置于低功率状态内之前使用。

在一些实施例中，当命令序列需要图形处理器明确地在流水线之间切换时，使用流水线选择命令2513。在一些实施例中，在发出流水线命令之前，在执行上下文内只需要流水线选择命令2513一次，除非上下文用于发出针对两个流水线的命令。在一些实施例中，在经由流水线选择命令2513进行流水线切换之前，立即需要流水线刷新命令2512。

在一些实施例中，流水线控制命令2514配置图形流水线以用于操作，并用于对3D流水线2522和媒体流水线2524编程。在一些实施例中，流水线控制命令2514配置针对活动流水线的流水线状态。在一个实施例中，流水线控制命令2514用于流水线同步并在处理批量命令之前从活动流水线内的一个或多个高速缓存存储器清除数据。

在一些实施例中，返回缓冲器状态命令2516用于配置用于相应的流水线的一组返回缓冲器以写入数据。一些流水线操作需要对一个或多个返回缓冲器的分配、选择或配置，其中，在处理器期间操作将中间数据写入所述返回缓冲器内。在一些实施例中，图形处理器还使用一个或多个返回缓冲器来存储输出数据并执行交叉线程通信。在一些实施例中，配置返回缓冲器状态2516包括选择返回缓冲器的尺寸和数量以用于一组流水线操作。

在命令序列中的剩余命令基于用于操作的活动流水线而不同。基于流水线确定2520，命令序列被裁剪为以3D流水线状态2530开始的3D流水线2522或以媒体流水线状态2540处开始的媒体流水线2524。

用于配置3D流水线状态2530的命令包括针对顶点缓冲器状态、顶点元素状态、恒定颜色状态、深度缓冲器状态和在3D原语命令被处理之前配置的其它状态变量的3D状态设置命令。至少部分地基于在使用中的特定3D API来确定这些命令的值。在一些实施例中，如果那些元素将不被使用，则3D流水线状态2530命令也能够选择性地禁用或绕过某些流水线元素。

在一些实施例中，3D原语2532命令用于提交将由3D流水线处理的3D原语。经由3D原语2532命令传递到图形处理器的命令和相关联的参数被转发到在图形流水线中的顶点取出功能。顶点取出功能使用3D原语2532命令数据来生成顶点数据结构。顶点数据结构存储在一个或多个返回缓冲器中。在一些实施例中，3D原语2532命令用于经由顶点着色器来对3D原语执行顶点操作。为了处理顶点着色器，3D流水线2522将着色器执行线程分派到图形处理器执行单元。

在一些实施例中，经由执行2534命令或事件来触发3D流水线2522。在一些实施例中，寄存器写入触发命令执行。在一些实施例中，经由在命令序列中的“go”或“kick”命令来触发执行。在一个实施例中，使用流水线同步命令来触发命令执行以通过图形流水线来刷新命令序列。3D流水线将针对3D原语执行几何处理。一旦操作完成，所得到的几何对象就被光栅化并且像素引擎对所得到的像素上色。也可包括用于控制像素着色和像素后端操作的额外命令以用于那些操作。

在一些实施例中，图形处理器命令序列2510在执行媒体操作时遵循媒体流水线2524路径。通常，针对媒体流水线2524的编程的特定使用和方式取决于待执行的媒体或计算操作。特定的媒体解码操作可在媒体解码期间被卸载到媒体流水线。在一些实施例中，也可绕过媒体流水线，并且可使用由一个或多个通用处理核心提供的资源来全部或部分地执行媒体解码。在一个实施例中，媒体流水线还包括用于通用图形处理器单元(GPGPU)操作的元素，其中图形处理器用于使用不明确地与图形原语的渲染有关的计算着色器程序来执行SIMD矢量操作。

在一些实施例中，以与3D流水线2522类似的方式配置媒体流水线2524。用于配置媒体流水线状态2540的一组命令在媒体对象命令2542之前被分派或放置到命令队列内。在一些实施例中，用于媒体流水线状态2540的命令包括用于配置将用于处理媒体对象的媒体流水线元素的数据。这包括用于配置在媒体流水线内的视频解码和视频编码逻辑(例如编码或解码格式)的数据。在一些实施例中，用于媒体流水线状态2540的命令也支持使用指向“间接”状态元素的一个或多个指针，所述“间接”状态元素包含批量状态设置。

在一些实施例中，媒体对象命令2542提供指向媒体对象的指针以用于由媒体流水线的处理。媒体对象包括存储器缓冲器，其包含待处理的视频数据。在一些实施例中，在发出媒体对象命令2542之前，所有媒体流水线状态必须是有效的。一旦流水线状态被配置并且媒体对象命令3042被入队，则媒体流水线2542经由执行命令2544或等效的执行事件(例如寄存器写入)被触发。来自媒体流水线2542的输出可接着由3D流水线2522或媒体流水线2524所提供的操作来进行后处理。在一些实施例中，以与媒体操作类似的方式来配置并执行GPGPU操作。

图形软件架构

图26示出了根据一些实施例的用于数据处理系统2600的示例性图形软件架构。在一些实施例中，软件架构包括3D图形应用2610、操作系统2620和至少一个处理器2630。在一些实施例中，处理器2630包括图形处理器2632和一个或多个通用处理器核心2634。图形应用2610和操作系统2620每个在数据处理系统的系统存储器2650中执行。

在一些实施例中，3D图形应用2610包含一个或多个着色器程序，其包括着色器指令2612。着色器语言指令可以用高级着色器语言，例如高级着色器语言(HLSL)或OpenGL着色器语言(GLSL)。应用还包括以适合于由通用处理器核心2634执行的机器语言的可执行指令2614。应用还包括由顶点数据定义的图形对象2616。

在一些实施例中，操作系统2620是来自微软公司的操作系统、专用类UNIX操作系统或使用Linux内核的变形的开放源类UNIX操作系统。操作系统2620可支持图形API 2622，例如Direct3D API、OpenGL API或Vulkan API。当使用Direct3DAPI时，操作系统2620使用前端着色器编译器2624来将以HLSL的任何着色器指令2612编译成较低级着色器语言。编译可以是可执行着色器预编译的恰好及时(JIT)编译或应用。在一些实施例中，高级着色器在3D图形操作2610的编译期间被编译成低级着色器。在一些实施例中，以中间形式(例如由Vulkan API使用的标准便携式中间表示(SPIR)的版本)提供着色器指令2612。

在一些实施例中，用户模式图形驱动器2626包含后端着色器编译器2627以将着色器指令2612转换成硬件特定表示。当使用OpenGL API时，以GLSL高级语言的着色器指令2612被传递到用户模式图形驱动器2626以用于编译。在一些实施例中，用户模式图形驱动器2626使用操作系统内核模式功能2628来与内核模式图形驱动器2629通信。在一些实施例中，内核模式图形驱动器2629与图形处理器2632通信以调度命令和指令。

IP核心实现

至少一个实施例的一个或多个方面可由存储在机器可读介质上的表示和/或定义在集成电路(例如，处理器)内的逻辑的代表性代码实现。例如，机器可读介质可包括表示在处理器内的各种逻辑的指令。当由机器读取时，指令可使机器制造逻辑以执行本文所述的技术。被称为“IP核心”的这样的表示是用于集成电路的逻辑的可重用单元，其可存储在有形、机器可读介质上作为描述集成电路的结构的硬件模型。硬件模型可被供应到各种消费者或制造设施，其在制造集成电路的制造机器上加载硬件模型。可制造集成电路，使得电路执行与本文所述的任何实施例相关联的所述操作。

图27是示出了根据实施例的可用于制造集成电路以执行操作的IP核心开发系统2700的方框图。IP核心开发系统2700可用于生成可合并到较大的设计内的模块化、可重用设计，或用于构造整个集成电路(例如SOC集成电路)。设计设施2730可以用高级编程语言(例如C++)生成IP核心设计的软件模拟2710。软件模拟2710可用于使用模拟模型2712来设计、测试和验证IP核心的行为。模拟模型2712可包括功能、行为和/或定时模拟。寄存器传送级(RTL)设计2715可接着根据模拟模型2712被创建或合成。RTL设计2715是对在硬件寄存器之间的数字信号的流进行建模(包括使用所建模的数字信号执行的相关逻辑)的集成电路的行为的抽象。除了RTL设计2715以外，也可创建、设计或合成在逻辑级或晶体管级处的较低级设计。因此，初始设计和模拟的特定细节可改变。

RTL设计2715或等效形式可进一步由设计设施合成为硬件模型2720，其可以用硬件描述语言(HDL)或物理设计数据的某个其它表示。HDL可进一步被模拟或测试以验证IP核心设计。可使用非易失性存储器2740(例如硬盘、闪存或任何非易失性存储介质)来存储IP核心设计用于输送到第三方制造设施2765。可选地，可通过有线连接2750或无线连接2760来发送(例如经由互联网)IP核心设计。制造设施2765可接着制造至少部分地基于IP核心设计的集成电路。所制造的集成电路可被配置为根据本文所述的至少一个实施例来执行操作。

示例性片上系统集成电路

图28-图30示出了根据本文所述的各种实施例的可使用一个或多个IP核心来制造的示例性集成电路和相关联的图形处理器。除了所示出的内容以外，还可包括其它逻辑和电路，包括额外的图形处理器/核心、外围接口控制器户通用处理器核心。

图28是示出了根据实施例的可使用一个或多个IP核心来制造的示例性片上系统集成电路2800。示例性集成电路2800包括一个或多个应用处理器2805(例如CPU)、至少一个图形处理器2810，并可另外包括图像处理器2815和/或视频处理器2820，其中的任一项可以是来自相同或多个不同的设计设施的模块化IP核心。集成电路2800包括外围或总线逻辑，其包括USB控制器2825、UART控制器2830、SPI/SDIO控制器2835和I²S/I²C控制器2840。此外，集成电路可包括耦合到高分辨率多媒体接口(HDMI)控制器2850和移动工业处理器接口(MIPI)显示接口2855中的一个或多个的显示设备2845。存储装置可由包括闪存和闪存控制器的闪存子系统2860提供。可经由存储器控制器2865来提供存储器接口用于存取SDRAM或SRAM存储器设备。此外，一些集成电路包括嵌入式安全引擎2870。

图29是示出了根据实施例的可使用一个或多个IP核心来制造的片上系统集成电路的示例性图形处理器2910。图形处理器2910可以是图28的图形处理器2810的变形。图形处理器2910包括顶点处理器2905和一个或多个片段处理器2915A-2915N(例如2915A、2915B、2915C、2915D到2915N-1和2915N)。图形处理器2910可经由单独的逻辑来执行不同的着色器程序，使得顶点处理器2905被优化以针对顶点着色器程序执行操作，同时一个或多个片段处理器2915A-2915N针对片段或像素着色器程序执行片段(例如像素)着色操作。顶点处理器2905执行3D图形流水线的顶点处理级，并生成原语和顶点数据。片段处理器2915A-2915N使用由顶点处理器2905生成的原语和顶点数据来产生显示在显示设备上的帧缓冲器。在一个实施例中，片段处理器2915A-2915N被优化以执行如在OpenGL API中提供的片段着色器程序，其可用于执行与如在Direct 3D API中提供的像素着色器程序相似的操作。

此外，图形处理器2910包括一个或多个存储器管理单元(MMU)2920A-2920B、高速缓存2925A-2925B和电路互连2930A-2930B。一个或多个MMU 2920A-2920B提供用于图形处理器2910(包括用于顶点处理器2905和/或片段处理器2915A-2915N的)的物理地址映射的虚拟，除了存储在一个或多个高速缓存2925A-2925B中的顶点或图像/纹理数据以外，其还可引用存储在存储器中的顶点或图像/纹理数据。在一个实施例中，一个或多个MMU 2920-2930B可与在系统内的其它MMU同步，所述其它MMU包括与图28的一个或多个应用处理器2805、图像处理器2815和/或视频处理器2820相关联的一个或多个MMU，使得每个处理器2805-2820可参与共享或统一虚拟存储器系统。根据实施例，一个或多个电路互连2930A-2930B使图形处理器2910能够经由SoC的内部总线或经由直接连接来与在SoC内的其它IP核心通接合。

图30是示出了根据实施例的可使用一个或多个IP核心来制造的片上系统集成电路的额外示例性图形处理器3010的方框图。图形处理器3010可以是图28的图形处理器2810的变形。图形处理器3010包括图29的集成电路2900的一个或多个MMU 2920A-2920B、高速缓存2925A-2925B和电路互连2930A-2930B。

图形处理器3010包括提供统一着色器核心架构的一个或多个着色器核心3015A-3015N(例如3015A、3015B、3015C、3015D、3015E、3015F到2915N-1和2915N)，其中单个核心或类型或核心可执行所有类型的可编程着色器代码，包括实现顶点着色器、片段着色器和/或计算着色器的着色器程序代码。存在的着色器核心的确切数量可在实施例和实现当中改变。此外，图形处理器3010包括核心间任务管理器3005，其充当用于将执行线程分派到一个或多个着色器核心3015A-3015N的线程分派器和用于加速针对基于瓦片的渲染的瓦片化操作的瓦片化单元3018，其中针对场景的渲染操作在图像空间中被细分，例如以利用在场景内的本地空间一致性或优化内部高速缓存的使用。

以下示例涉及其他实施例。示例1是一种装置，其包括均匀随机数发生器(URNG)电路，其用于生成均匀随机数和耦合到URNG电路的加法器电路。所述加法器电路用于对高斯随机数的生成进行硬件加速以用于机器学习。

在示例2中，示例1的主题可以可选地包括：加法器电路，包括：第一加法器，用于对来自URNG电路的第一和第二均匀随机数相加，以生成第一加法器的第一输出；以及第二加法器，用于将来自URNG电路的第三均匀随机数与第一输出相加，以生成第二加法器的第一输出。

在示例3中，示例1-2中的任何一个的主题可以可选地包括：加法器电路还包括第N加法器，用于将来自URNG电路的另一均匀随机数与先前加法器的第一输出相加，以生成第一高斯随机数。

在示例4中，示例3的主题可以可选地包括第一高斯随机数在一时间段内生成，所述时间段近似等于每个加法器乘以N个加法器的时间延迟。

在示例5中，示例4的主题可以可选地包括第一加法器在第一加法器生成第一输出之后将另外两个均匀随机数相加以生成第一加法器的第二输出。

在示例6中，示例5的主题可以可选地包括第二加法器在第二加法器生成第一输出之后将另外两个均匀随机数相加以生成第二加法器的第二输出。

在示例7中，示例6的主题可以可选地包括第N加法器将来自URNG电路的另一均匀随机数与先前加法器的第二输出相加以生成第二高斯随机数。

示例8是一种用于生成高斯随机数的方法，包括利用均匀随机数发生器(URNG)电路来生成均匀随机数，利用加法器电路的第一加法器，将来自URNG电路的第一和第二均匀随机数相加以生成第一加法器的第一输出，并且利用加法器电路的第二加法器，将来自URNG电路的第三均匀随机数与第一输出相加，以生成第二加法器的第一输出。

在示例9中，示例8的主题可以可选地包括：利用第N加法器，将来自URNG电路的另一均匀随机数与先前加法器的第一输出相加，以生成第一高斯随机数以用于基于贝叶斯的机器学习。

在示例10中，示例9的主题可以可选地包括第一高斯随机数在一时间段内生成，所述时间段近似等于每个加法器乘以N个加法器的时间延迟。

在示例11中，示例10的主题可以可选地包括：利用第一加法器在第一加法器生成第一输出之后将另外两个均匀随机数相加以生成第一加法器的第二输出。

在示例12中，示例11的主题可以可选地包括：利用第二加法器在第二加法器生成第一输出之后将另外两个均匀随机数相加以生成第二加法器的第二输出。

在示例13中，示例12的主题可以可选地包括：利用第N加法器将来自URNG电路的另一均匀随机数与先前加法器的第二输出相加以生成第二高斯随机数。

示例14是一种装置，包括用于利用均匀随机数发生器(URNG)电路来生成均匀随机数的单元，用于将来自URNG电路的第一和第二均匀随机数相加以生成第一加法器的第一输出的单元，以及用于将来自URNG电路的第三均匀随机数与第一输出相加，以生成第二加法器的第一输出的单元。

在示例15中，示例14的主题可以可选地包括用于利用第N加法器，将来自URNG电路的另一均匀随机数与先前加法器的第一输出相加，以生成第一高斯随机数以用于基于贝叶斯的机器学习的单元。

在示例16中，示例15的主题可以可选地包括第一高斯随机数在一时间段内生成，所述时间段近似等于每个加法器乘以N个加法器的时间延迟。

在示例17中，示例16的主题可以可选地包括用于利用第一加法器在第一加法器生成第一输出之后将另外两个均匀随机数相加以生成第一加法器的第二输出的单元。

在示例18中，示例17的主题可以可选地包括用于利用第二加法器在第二加法器生成第一输出之后将另外两个均匀随机数相加以生成第二加法器的第二输出的单元。

在示例19中，示例18的主题可以可选地包括用于利用第N加法器将来自URNG电路的另一均匀随机数与先前加法器的第二输出相加以生成第二高斯随机数的单元。

在示例20中，示例19的主题可以可选地包括第二高斯随机数在一时间段内生成，所述时间段近似等于每个加法器乘以N个加法器的时间延迟。

对“一个实施例”、“实施例”、“示例实施例”、“各种实施例”等的引用指示如此描述的实施例可以包括特定特征、结构或特性，但不是每个实施例都必须包括该特定的特征、结构或特征。此外，一些实施例可以具有针对其他实施例描述的一些、全部特征或不具有所有特征。

前面的描述和附图应被视为说明性的而非限制性的。本领域技术人员将理解，在不脱离所附权利要求中阐述的本发明的更广泛的精神和范围的情况下，可以对这里描述的实施例进行各种修改和改变。

Claims

1.一种装置，包括：

均匀随机数发生器(URNG)电路，其用于生成均匀随机数；以及

耦合到所述URNG电路的加法器电路，所述加法器电路用于对高斯随机数的生成进行硬件加速以用于机器学习。

2.如权利要求1所述的装置，其中，所述加法器电路包括：

第一加法器，其用于将来自所述URNG电路的第一均匀随机数和第二均匀随机数相加，以生成所述第一加法器的第一输出；以及

第二加法器，其用于将来自所述URNG电路的第三均匀随机数与所述第一输出相加，以生成所述第二加法器的第一输出。

3.如权利要求2所述的装置，其中，所述加法器电路还包括：

第N加法器，其用于将来自所述URNG电路的另一均匀随机数与先前加法器的第一输出相加，以生成第一高斯随机数。

4.如权利要求3所述的装置，其中，所述第一高斯随机数是在一时间段内生成的，所述时间段近似等于每个加法器乘以N个加法器的时间延迟。

5.如权利要求3所述的装置，其中，所述第一加法器用于在所述第一加法器生成第一输出之后将另外两个均匀随机数相加以生成所述第一加法器的第二输出。

6.如权利要求5所述的装置，其中，所述第二加法器用于在所述第二加法器生成第一输出之后将另外两个均匀随机数相加以生成所述第二加法器的第二输出。

7.如权利要求6所述的装置，其中，所述第N加法器将来自所述URNG电路的另一均匀随机数与所述先前加法器的第二输出相加以生成第二高斯随机数。

8.一种用于生成高斯随机数的方法，包括：

利用均匀随机数发生器(URNG)电路来生成均匀随机数；

利用加法器电路的第一加法器，将来自所述URNG电路的第一均匀随机数和第二均匀随机数相加以生成所述第一加法器的第一输出；以及

利用所述加法器电路的第二加法器，将来自所述URNG电路的第三均匀随机数与所述第一输出相加，以生成所述第二加法器的第一输出。

9.如权利要求8所述的方法，还包括：

利用第N加法器，将来自所述URNG电路的另一均匀随机数与先前加法器的第一输出相加，以生成第一高斯随机数以用于基于贝叶斯的机器学习。

10.如权利要求9所述的方法，其中，所述第一高斯随机数是在一时间段内生成的，所述时间段近似等于每个加法器乘以N个加法器的时间延迟。

11.如权利要求9所述的方法，还包括：

利用所述第一加法器在所述第一加法器生成第一输出之后将另外两个均匀随机数相加以生成所述第一加法器的第二输出。

12.如权利要求11所述的方法，还包括：

利用所述第二加法器在所述第二加法器生成第一输出之后将另外两个均匀随机数相加以生成所述第二加法器的第二输出。

13.如权利要求6所述的方法，还包括：

利用所述第N加法器将来自所述URNG电路的另一均匀随机数与所述先前加法器的第二输出相加以生成第二高斯随机数。

14.一种装置，包括：

用于利用均匀随机数发生器(URNG)电路来生成均匀随机数的单元；

用于将来自所述URNG电路的第一均匀随机数和第二均匀随机数相加以生成第一加法器的第一输出的单元；以及

用于将来自所述URNG电路的第三均匀随机数与所述第一输出相加，以生成第二加法器的第一输出的单元。

15.如权利要求14所述的装置，还包括：

用于利用第N加法器，将来自所述URNG电路的另一均匀随机数与先前加法器的第一输出相加，以生成第一高斯随机数以用于基于贝叶斯的机器学习的单元。

16.如权利要求15所述的装置，其中，所述第一高斯随机数是在一时间段内生成的，所述时间段近似等于每个加法器乘以N个加法器的时间延迟。

17.如权利要求15所述的装置，还包括：

用于利用所述第一加法器在所述第一加法器生成第一输出之后将另外两个均匀随机数相加以生成所述第一加法器的第二输出的单元。

18.如权利要求17所述的装置，还包括：

用于利用所述第二加法器在所述第二加法器生成第一输出之后将另外两个均匀随机数相加以生成所述第二加法器的第二输出的单元。

19.如权利要求18所述的装置，还包括：

用于利用所述第N加法器将来自所述URNG电路的另一均匀随机数与先前加法器的第二输出相加以生成第二高斯随机数的单元。

20.如权利要求19所述的装置，其中，所述第二高斯随机数是在一时间段内生成的，所述时间段近似等于每个加法器乘以N个加法器的时间延迟。