CN112819678A

CN112819678A - 图形处理单元的数据局部性增强

Info

Publication number: CN112819678A
Application number: CN202011269025.3A
Authority: CN
Inventors: C·J·休斯; P·苏尔蒂; 路奎元; A·T·莱克; J·博伊斯; S·麦玉兰; 徐理东; J·M·霍兰德; V·兰加纳桑; N·卡布拉索斯; A·科克尔; A·R·阿普
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2019-11-15
Filing date: 2020-11-13
Publication date: 2021-05-18
Also published as: US11726793B2; JP2021082285A; DE102020130073A1; KR20210059649A; US20210149680A1; US20230418617A1

Abstract

本发明的主题是“图形处理单元的数据局部性增强”。本文中描述的实施例提供了一种设备，该设备包括：多个处理资源，其包括第一处理资源和第二处理资源；存储器，其在通信上耦合到第一处理资源和第二处理资源；以及处理器，其用于：接收一个或多个任务的数据依赖性，所述一个或多个任务包括在第一处理资源上执行的一个或多个生产者任务和在第二处理资源上执行的一个或多个消费者任务；以及将来自在所述第一处理资源上执行的一个或多个生产者任务的数据输出移动到在通信上耦合到所述第二处理资源的高速缓冲存储器。可以描述和要求保护其他实施例。

Description

图形处理单元的数据局部性增强

相关申请

本申请要求根据美国法典第35篇第119（e）节的Christopher J. Hughes等人于2019年11月15日提交的标题为“DATA LOCALITY ENHANCEMENT FOR GRAPHICS PROCESSINGUNITS”的序列号为62/935716的美国临时专利申请的优先权，其全部公开内容通过引用结合于本文中。

技术领域

本发明一般地涉及数据处理，并且更特别地涉及经由通用图形处理单元的数据处理。

背景技术

当前并行图形数据处理包括被开发来对图形数据执行特定操作的系统和方法，所述特定操作诸如例如线性内插、曲面细分、光栅化、纹理映射、深度测试等。传统上，图形处理器使用固定功能计算单元来处理图形数据。然而，最近，已使图形处理器的部分可编程，从而使此类处理器能够支持用于处理顶点数据及片段数据的更广泛种类的操作。

为了进一步提高性能，图形处理器通常实现诸如流水线化的处理技术，其试图遍及图形流水线的不同部分并行处理尽可能多的图形数据。具有单指令多线程（SIMT）架构的并行图形处理器被设计成最大化图形流水线中的并行处理量。在SIMT架构中，并行线程组试图尽可能频繁地一起同步地执行程序指令以提高处理效率。SIMT架构的软件和硬件的一般概述可在Shane Cook，CUDA Programming第3章，第37-51页（2013）中找到。

附图说明

为了能够详细理解本文实施例的上述特征，可通过参照实施例对以上简要概述的实施例进行更特别的描述，在附图中示出所述实施例中的一些实施例。然而，要注意，附图仅示出了典型的实施例，并且因此将不被认为是对其范围的限制。

图1是示出被配置成实现本文中描述的实施例的一个或多个方面的计算机系统的框图；

图2A-2D示出了并行处理器组件；

图3A-3C是图形多处理器和基于多处理器的GPU的框图；

图4A-4F示出了其中多个GPU在通信上耦合到多个多核处理器的示例性架构；

图5示出了图形处理流水线；

图6示出了机器学习软件栈；

图7示出了通用图形处理单元；

图8示出了多GPU计算系统；

图9A-9B示出了示例性深度神经网络的层；

图10示出了示例性循环神经网络；

图11示出了深度神经网络的训练和部署；

图12A是示出分布式学习的框图；

图12B是示出用于加速分布式学习的可编程网络接口的框图；

图13示出了适合于使用经训练的模型来执行推断的示例性推断片上系统（SOC）；

图14是处理系统的框图；

图15A-15C示出了计算系统和图形处理器；

图16A-16C示出了附加的图形处理器和计算加速器架构的框图；

图17是图形处理器的图形处理引擎的框图；

图18A-18B示出了包括在图形处理器核中采用的处理元件阵列的线程执行逻辑；

图19示出了附加的执行单元；

图20是示出图形处理器指令格式的框图；

图21是附加图形处理器架构的框图；

图22A-22B示出了图形处理器命令格式和命令序列；

图23示出了用于数据处理系统的示例性图形软件架构；

图24A是示出IP核开发系统的框图；

图24B示出了集成电路封装组装件的截面侧视图；

图24C示出了包括连接到衬底（例如，基础管芯）的硬件逻辑小芯片的多个单元的封装组装件；

图24D示出了包括可互换小芯片的封装组装件；

图25是示出示例性片上系统集成电路的框图；

图26A-26B是示出供SoC内使用的示例性图形处理器的框图；

图27是根据本文中描述的实施例的向存储器层级结构暴露任务图的示意图；

图28是根据本文中描述的实施例的上下文感知预测器的示意图；以及

图29是示出根据本文中描述的实施例的用于实现基于硬件的预取的方法中的操作的流程图。

具体实施方式

图形处理单元（GPU）在通信上耦合到主机/处理器核以加速例如图形操作、机器学习操作、模式分析操作和/或各种通用GPU （GPGPU）功能。GPU可通过总线或另一互连（例如，高速互连，诸如PCIe或NVLink）在通信上耦合到主机处理器/核。备选地，GPU可与核集成在同一封装或芯片上，并且通过内部处理器总线/互连（即，在封装或芯片内部）在通信上耦合到核。不管连接GPU的方式如何，处理器核可以用工作描述符中包含的命令/指令的序列的形式将工作分配给GPU。GPU接着使用专用电路/逻辑以便高效地处理这些命令/指令。

在以下描述中，阐述了许多具体细节以提供更透彻的理解。然而，对于本领域技术人员来说将显而易见的是，可以在没有这些具体细节中的一个或多个的情况下实践本文中描述的实施例。在其他情况下，没有描述公知的特征以避免模糊本实施例的细节。

系统概述

图1是示出被配置成实现本文中描述的实施例的一个或多个方面的计算系统100的框图。计算系统100包括处理子系统101，其具有一个或多个处理器102和系统存储器104，它们经由可以包括存储器集线器105的互连路径进行通信。存储器集线器105可以是芯片组组件内的单独组件，或者可以集成在一个或多个处理器102内。存储器集线器105经由通信链路106与I/O子系统111耦合。I/O子系统111包括I/O集线器107，其可使计算系统100能够从一个或多个输入装置108接收输入。另外，I/O集线器107可实现可以被包括在一个或多个处理器102中的显示控制器，以向一个或多个显示装置110A提供输出。在一个实施例中，与I/O集线器107耦合的一个或多个显示装置110A可包括本地、内部或嵌入式显示装置。

处理子系统101例如包括经由总线或其他通信链路113耦合到存储器集线器105的一个或多个并行处理器112。通信链路113可以是任何数量的基于标准的通信链路技术或协议中的一种，诸如但不限于PCI Express，或者可以是供应商特定的通信接口或通信组构。一个或多个并行处理器112可以形成计算集中的并行或向量处理系统，其可以包括大量处理核和/或处理集群，诸如集成众核（MIC）处理器。例如，一个或多个并行处理器112形成图形处理子系统，其可将像素输出到经由I/O集线器107耦合的一个或多个显示装置110A之一。一个或多个并行处理器112还可包括显示控制器和显示接口（未示出），以使得能够直接连接到一个或多个显示装置110B。

在I/O子系统111内，系统存储单元114可以连接到I/O集线器107来为计算系统100提供存储机制。I/O交换器116可用于提供接口机制，以实现I/O集线器107与其他组件之间的连接，所述其他组件诸如可以集成到平台中的网络适配器118和/或无线网络适配器119以及可以经由一个或多个插件装置120添加的各种其他装置。（一个或多个）插件装置120还可以包括例如一个或多个外部图形处理器装置和/或计算加速器。网络适配器118可以是以太网适配器或另一有线网络适配器。无线网络适配器119可以包括以下各项中的一个或多个：Wi-Fi、蓝牙、近场通信（NFC）或包括一个或多个无线无线电设备的其他网络装置。

计算系统100可以包括未明确示出的其他组件（包括USB或其他端口连接、光存储驱动器、视频捕获装置等）,所述其他组件也可以连接到I/O集线器107。将图1中的各种组件互连的通信路径可以使用任何合适的协议来实现，所述协议诸如基于PCI（外设组件互连）的协议（例如，PCI-Express），或任何其他总线或点对点通信接口和/或（一个或多个）协议，诸如NVLink高速互连、Compute Express Link^TM（CXL^TM）（例如，CXL.mem）、InfinityFabric（IF）、以太网（IEEE 802.3）、远程直接存储器访问（RDMA）、InfiniBand、因特网广域RDMA协议（iWARP）、传输控制协议（TCP）、用户数据报协议（UDP）、快速UDP因特网连接（QUIC）、通过汇聚以太网的RDMA（RoCE）、Intel快速通道互连（QPI）、Intel超通道互连（UPI）、Intel片上系统组构（IOSF）、全路径、超传输、高级微控制器总线架构（AMBA）互连、OpenCAPI、Gen-Z、用于加速器的高速缓存一致性互连（CCIX）、3GPP长期演进（LTE）（4G）、3GPP 5G和其变体、或者在本领域中已知的有线或无线互连协议。在一些示例中，可以使用协议（诸如通过组构的非易失性存储器express（NVMe）（NVMe-oF）或NVMe）将数据复制或存储到虚拟化的存储节点。

一个或多个并行处理器112可以合并针对图形和视频处理而优化的电路（包括例如视频输出电路），并且构成图形处理单元（GPU）。备选地或附加地，一个或多个并行处理器112可以合并针对通用处理而优化的电路，同时保留底层计算架构，如本文中更详细描述的。计算系统100的组件可以与一个或多个其他系统元件集成在单个集成电路上。例如，一个或多个并行处理器112、存储器集线器105、（一个或多个）处理器102和I/O集线器107可以集成到片上系统（SoC）集成电路中。备选地，计算系统100的组件可以集成到单个封装中以形成系统级封装（SIP）配置。在一个实施例中，计算系统100的组件的至少一部分可以集成到多芯片模块（MCM）中，所述多芯片模块（MCM）可以与其他多芯片模块一起互连到模块化计算系统中。

将理解，本文中所示的计算系统100是说明性的，并且变化和修改是可能的。可以根据需要修改连接拓扑（包括桥的数量和布置）、（一个或多个）处理器102的数量和（一个或多个）并行处理器112的数量。例如，系统存储器104可以直接而不是通过桥连接到（一个或多个）处理器102，而其他装置经由存储器集线器105和（一个或多个）处理器102与系统存储器104通信。在其他备选拓扑中，（一个或多个）并行处理器112连接到I/O集线器107，或者直接连接到一个或多个处理器102之一，而不是连接到存储器集线器105。在其他实施例中，I/O集线器107和存储器集线器105可以集成到单个芯片中。还可能的是，经由多个插槽来附接两组或更多组（一个或多个）处理器102，所述多个插槽可以与（一个或多个）并行处理器112的两个或更多个实例耦合。

本文中所示的特定组件中的一些组件是可选的，并且可以不被包括在计算系统100的所有实现中。例如，可以支持任何数量的插件卡或外设，或者可以去除一些组件。此外，一些架构可以使用与图1中所示的那些组件类似的组件的不同术语，例如，在一些架构中存储器集线器105可以被称为北桥，而I/O集线器107可以被称为南桥。

图2A示出并行处理器200。并行处理器200可以是GPU、GPGPU等，如本文所述的。可使用一个或多个集成电路装置来实现并行处理器200的各种组件，所述一个或多个集成电路装置诸如可编程处理器、专用集成电路（ASIC）或现场可编程门阵列（FPGA）。所示出的并行处理器200可以是图1中所示的（一个或多个）并行处理器112之一。

并行处理器200包括并行处理单元202。并行处理单元包括I/O单元204，其使得能够与包括并行处理单元202的其他实例的其他装置通信。I/O单元204可以直接连接到其他装置。例如，I/O单元204经由使用集线器或交换机接口（诸如存储器集线器105）与其他装置连接。存储器集线器105和I/O单元204之间的连接形成通信链路113。在并行处理单元202内，I/O单元204与主机接口206和存储器交叉开关216连接，其中主机接口206接收针对执行处理操作的命令，并且存储器交叉开关216接收针对执行存储器操作的命令。

当主机接口206经由I/O单元204接收命令缓冲区时，主机接口206可以将用于执行那些命令的工作操作引导到前端208。在一个实施例中，前端208与调度器210耦合，所述调度器210配置成将命令或其他工作项目分发到处理集群阵列212。调度器210确保处理集群阵列212被正确配置，并且在任务被分发到处理集群阵列212的处理集群之前处于有效状态。调度器210可以经由在微控制器上执行的固件逻辑来实现。微控制器实现的调度器210可配置成以粗粒度和细粒度执行复杂调度和工作分发操作，从而实现在处理集群阵列212上执行的线程的快速抢占和上下文切换。优选地，主机软件可以经由多个图形处理门铃之一来证明用于在处理集群阵列212上调度的工作量。在其他示例中，对新的工作负载或中断的轮询可以用于标识或指示要执行的工作的可用性。然后，可以由调度器微控制器内的调度器210逻辑跨处理集群阵列212自动地分发工作负载。

处理集群阵列212可包括多达“N”个处理集群（例如，集群214A、集群214B到集群214N）。处理集群阵列212的每个集群214A-214N可以执行大量并发线程。调度器210可以使用各种调度和/或工作分发算法将工作分配给处理集群阵列212的集群214A-214N，所述算法可以根据针对每种类型的程序或计算所产生的工作负荷而变化。调度可以由调度器210动态地处置，或者可以在配置用于由处理集群阵列212执行的程序逻辑的编译期间由编译器逻辑部分地辅助。可选地，处理集群阵列212的不同集群214A-214N可以被分配用于处理不同类型的程序或用于执行不同类型的计算。

处理集群阵列212可配置成执行各种类型的并行处理操作。例如，处理集群阵列212配置成执行通用并行计算操作。例如，处理集群阵列212可以包括用于执行处理任务的逻辑，所述处理任务包括视频和/或音频数据的过滤、执行建模操作（包括物理操作）以及执行数据变换。

处理集群阵列212配置成执行并行图形处理操作。在其中并行处理器200配置成执行图形处理操作的此类实施例中，处理集群阵列212可包括用于支持此类图形处理操作的执行的附加逻辑，包括但不限于用于执行纹理操作的纹理采样逻辑以及曲面细分逻辑和其他顶点处理逻辑。另外，处理集群阵列212可配置成执行图形处理相关着色器程序，诸如但不限于顶点着色器、曲面细分着色器、几何着色器和像素着色器。并行处理单元202可经由I/O单元204从系统存储器传送数据以供处理。在处理期间，所传递的数据可在处理期间存储到片上存储器（例如，并行处理器存储器222），接着写回到系统存储器。

在其中并行处理单元202用于执行图形处理的实施例中，调度器210可配置成将处理工作负载划分成大致相等大小的任务，以更好地实现将图形处理操作分发至处理集群阵列212的多个集群214A到214N。在这些实施例中的一些实施例中，处理集群阵列212的部分可以配置成执行不同类型的处理。例如，第一部分可以配置成执行顶点着色和拓扑生成，第二部分可以配置成执行曲面细分和几何着色，并且第三部分可以配置成执行像素着色或其他屏幕空间操作，以产生用于显示的渲染图像。由集群214A-214N中的一个或多个集群产生的中间数据可以存储在缓冲器中，以允许中间数据在集群214A-214N之间传送，以用于进一步处理。

在操作期间，处理集群阵列212可以经由调度器210接收要执行的处理任务，该调度器210从前端208接收定义处理任务的命令。对于图形处理操作，处理任务可包括要处理的数据（例如，表面（补片）数据、图元数据、顶点数据和/或像素数据）的索引，以及定义要如何处理数据（例如，要执行什么程序）的状态参数和命令。调度器210可以配置成获取对应于任务的索引，或者可以从前端208接收索引。前端208可配置成确保在发起由传入命令缓冲器（例如，批缓冲器、推送缓冲器等）指定的工作负载之前处理集群阵列212被配置成有效状态。

并行处理单元202的一个或多个实例中的每个实例可以与并行处理器存储器222耦合。可以经由存储器交叉开关216访问并行处理器存储器222，所述存储器交叉开关216可以从处理集群阵列212以及I/O单元204接收存储器请求。存储器交叉开关216可以经由存储器接口218访问并行处理器存储器222。存储器接口218可包括多个分区单元（例如，分区单元220A、分区单元220B到分区单元220N），它们可各自耦合到并行处理器存储器222的一部分（例如，存储器单元）。分区单元220A-220N的数量可配置成等于存储器单元的数量，使得第一分区单元220A具有对应的第一存储器单元224A，第二分区单元220B具有对应的第二存储器单元224B，并且第N分区单元220N具有对应的第N存储器单元224N。在其他实施例中，分区单元220A-220N的数量可以不等于存储器装置的数量。

存储器单元224A-224N可包括各种类型的存储器装置，包括动态随机存取存储器（DRAM）或图形随机存取存储器，诸如同步图形随机存取存储器（SGRAM），包括图形双倍数据速率（GDDR）存储器。可选地，存储器单元224A-224N还可以包括3D堆叠存储器，包括但不限于高带宽存储器（HBM）。本领域技术人员将理解，存储器单元224A-224N的具体实现可以变化，并且可以从各种常规设计之一中选择。诸如帧缓冲器或纹理图的渲染目标可以跨存储器单元224A-224N存储，允许分区单元220A-220N并行地写入每个渲染目标的部分，以高效地使用并行处理器存储器222的可用带宽。在一些实施例中，可以排除并行处理器存储器222的本地实例，以有利于利用结合本地高速缓冲存储器的系统存储器的统一存储器设计。

可选地，处理集群阵列212的集群214A-214N中的任何一个具有处理将被写入并行处理器存储器222内的存储器单元224A-224N中的任何存储器单元的数据的能力。存储器交叉开关216可配置成将每个集群214A-214N的输出传递到任何分区单元220A-220N或传递到另一集群214A-214N，所述另一集群214A-214N可对输出执行附加处理操作。每个集群214A-214N可以通过存储器交叉开关216与存储器接口218通信，以从各种外部存储器装置读取或向其写入。在具有存储器交叉开关216的实施例之一中，存储器交叉开关216具有到存储器接口218的连接以与I/O单元204通信，以及到并行处理器存储器222的本地实例的连接，使得不同处理集群214A-214N内的处理单元能够与系统存储器或不在并行处理单元202本地的其他存储器通信。通常，存储器交叉开关216可以例如能够使用虚拟通道来分离集群214A-214N和分区单元220A-220N之间的业务流。

虽然在并行处理器200内示出并行处理单元202的单个实例，但是可包括并行处理单元202的任何数量的实例。例如，并行处理单元202的多个实例可以被提供在单个插件卡上，或者多个插件卡可以被互连。例如，并行处理器200可以是插件装置（诸如图1的插件装置120），其可以是图形卡，诸如包括一个或多个GPU、一个或多个存储器装置、以及装置到装置或网络或组构接口的分立图形卡。并行处理单元202的不同实例可配置成互操作，即使所述不同实例具有不同数量的处理核、不同量的本地并行处理器存储器和/或其他配置差异。可选地，并行处理单元202的一些实例可包括相对于其他实例的更高精度浮点单元。合并并行处理单元202或并行处理器200的一个或多个实例的系统能够以各种配置和形状因素来实现，包括但不限于桌面型、膝上型或手持式个人计算机、服务器、工作站、游戏控制台和/或嵌入式系统。编排器可以使用以下各项中的一个或多个来形成用于工作负载执行的复合节点：分解的处理器资源、高速缓存资源、存储器资源、存储资源和联网资源。

图2B是分区单元220的框图。分区单元220可以是图2A的分区单元220A-220N之一的实例。如所示出的，分区单元220包括L2高速缓存221、帧缓冲器接口225和ROP 226（光栅操作单元）。L2高速缓存221是读/写高速缓存，其配置成执行从存储器交叉开关216和ROP226接收的加载和存储操作。读取未命中及紧急写回请求由L2高速缓存221输出到帧缓冲器接口225以供处理。更新也可经由帧缓冲器接口225被发送到帧缓冲器以供处理。在一个实施例中，帧缓冲器接口225与并行处理器存储器中的存储器单元之一通过接口交互，诸如图2A的存储器单元224A-224N（例如，在并行处理器存储器222内）。分区单元220可附加地或备选地还经由存储器控制器（未示出）与并行处理器存储器中的存储器单元之一通过接口交互。

在图形应用中，ROP 226是执行光栅操作的处理单元，所述光栅操作诸如模板（stencil）、z测试、混合等。ROP 226然后输出存储在图形存储器中的经处理的图形数据。在一些实施例中，ROP 226包括编解码器227或与编解码器227耦合，所述编解码器227包括压缩逻辑以压缩写入存储器或L2高速缓存221的深度或颜色数据并且解压缩从存储器或L2高速缓存221读取的深度或颜色数据。压缩逻辑可以是利用多种压缩算法中的一种或多种的无损压缩逻辑。由ROP226、编解码器227执行的压缩的类型可基于要压缩的数据的统计特性而变化。例如，在一个实施例中，在每贴片（tile）的基础上对深度和颜色数据执行增量颜色压缩。在一个实施例中，编解码器227包括压缩和解压缩逻辑，所述压缩和解压缩逻辑可以压缩和解压缩与机器学习操作相关联的计算数据。编解码器227可以例如压缩稀疏矩阵数据以用于稀疏机器学习操作。编解码器227还可以压缩以稀疏矩阵格式编码的稀疏矩阵数据（例如，坐标列表编码（COO）、压缩的稀疏行（CSR）、压缩的稀疏列（CSC）等）以生成压缩并编码的稀疏矩阵数据。压缩并编码的稀疏矩阵数据可以在由处理元件处理之前被解压缩和/或解码，或者处理元件可以配置成消耗压缩的、编码的或者压缩并编码的数据用于处理。

ROP 226可被包括在每个处理集群（例如，图2A的集群214A-214N）内而不是在分区单元220内。在此实施例中，通过存储器交叉开关216传送对像素数据而不是像素片段数据的读取和写入请求。经处理的图形数据可以显示在显示装置（诸如图1的一个或多个显示装置110中的一个显示装置）上，被路由以用于由（一个或多个）处理器102进一步处理，或被路由以用于由图2A的并行处理器200内的处理实体中的一个处理实体进一步处理。

图2C是并行处理单元内的处理集群214的框图。例如，处理集群是图2A的处理集群214A-214N中的一个处理集群的实例。处理集群214可配置成并行地执行许多线程，其中术语“线程”是指对输入数据的特定集合执行的特定程序的实例。可选地，单指令多数据（SIMD）指令发布技术可用于支持大量线程的并行执行，而不提供多个独立指令单元。备选地，单指令多线程（SIMT）技术可用于使用配置成向处理集群中的每一个处理集群内的一组处理引擎发布指令的共同指令单元来支持大量一般同步的线程的并行执行。不同于SIMD执行方式，其中所有处理引擎通常执行相同的指令，SIMT执行允许不同的线程更容易地遵循通过给定线程程序的发散执行路径。本领域技术人员将理解SIMD处理机制表示SIMT处理机制的功能子集。

可以经由将处理任务分发给SIMT并行处理器的流水线管理器232来控制处理集群214的操作。流水线管理器232从图2A的调度器210接收指令，并且经由图形多处理器234和/或纹理单元236管理那些指令的执行。所示出的图形多处理器234是SIMT并行处理器的示例性实例。然而，不同架构的各种类型的SIMT并行处理器可以被包括在处理集群214内。图形多处理器234的一个或多个实例可以被包括在处理集群214内。图形多处理器234可处理数据，并且数据交叉开关240可用于将经处理的数据分发到多个可能目的地（包括其他着色器单元）之一。流水线管理器232可通过指定要经由数据交叉开关240分发的经处理的数据的目的地来促进经处理的数据的分发。

处理集群214内的每个图形多处理器234可包括功能执行逻辑（例如，算术逻辑单元、加载-存储单元等）的相同集合。功能执行逻辑可以以流水线方式配置，其中新指令可以在先前指令完成之前被发布。功能执行逻辑支持各种运算，包括整数和浮点算术、比较运算、布尔运算、移位和各种代数函数的计算。可以利用相同的功能单元硬件来执行不同的操作，并且可以存在功能单元的任何组合。

传送到处理集群214的指令构成线程。跨并行处理引擎集合执行的线程集合是线程组。线程组对不同的输入数据执行相同的程序。线程组内的每个线程可被指派给图形多处理器234内的不同处理引擎。线程组可包括比图形多处理器234内的处理引擎的数量少的线程。当线程组包括比处理引擎的数量少的线程时，处理引擎中的一个或多个处理引擎可能在处理该线程组的循环期间空闲。线程组也可包括比图形多处理器234内的处理引擎的数量多的线程。当线程组包括比图形多处理器234内的处理引擎的数量多的线程时，可在连续时钟循环上执行处理。可选地，多个线程组可以在图形多处理器234上并发地执行。

图形多处理器234可以包括内部高速缓冲存储器以执行加载和存储操作。可选地，图形多处理器234可以放弃内部高速缓存，并使用处理集群214内的高速缓冲存储器（例如，1级（L1）高速缓存248）。每个图形多处理器234还可以访问分区单元（例如，图2A的分区单元220A-220N）内的2级（L2）高速缓存，所述2级（L2）高速缓存在所有处理集群214之间共享且可用于在线程之间传递数据。图形多处理器234还可访问芯片外全局存储器，其可包括本地并行处理器存储器和/或系统存储器中的一个或多个。并行处理单元202外部的任何存储器可用作全局存储器。其中处理集群214包括图形多处理器234的多个实例的实施例可共享可存储在L1高速缓存248中的公共指令和数据。

每个处理集群214可以包括MMU 245（存储器管理单元），其配置成将虚拟地址映射到物理地址。在其他实施例中，MMU 245的一个或多个实例可以驻留在图2A的存储器接口218内。MMU 245包括用于将虚拟地址映射到贴片的物理地址的页表条目（PTE）的集合以及可选的高速缓存线索引。MMU 245可包括地址转换后备缓冲器（TLB）或可驻留在图形多处理器234或L1高速缓存或处理集群214内的高速缓存。处理物理地址以分布表面数据访问局部性，以允许在分区单元之间的高效请求交错。高速缓存线索引可用于确定对高速缓存线的请求是命中还是未命中。

在图形及计算应用中，处理集群214可配置成使得每个图形多处理器234耦合至纹理单元236以便执行纹理映射操作，例如，确定纹理样本位置、读取纹理数据以及过滤纹理数据。纹理数据从内部纹理L1高速缓存（未示出）读取，或者在一些实施例中从图形多处理器234内的L1高速缓存读取，并且根据需要从L2高速缓存、本地并行处理器存储器或系统存储器获取。每个图形多处理器234将经处理的任务输出到数据交叉开关240，以将经处理的任务提供给另一处理集群214以用于进一步处理，或经由存储器交叉开关216将经处理的任务存储在L2高速缓存、本地并行处理器存储器或系统存储器中。preROP 242（预光栅操作单元）配置成从图形多处理器234接收数据，将数据引导到ROP单元，所述ROP单元可与如本文中所述的分区单元（例如，图2A的分区单元220A-220N）一起定位。preROP 242单元可以执行对颜色混合的优化、组织像素颜色数据并且执行地址转换。

将理解，本文中描述的核架构是说明性的，并且变化和修改是可能的。在处理集群214内可以包括任何数量的处理单元，例如图形多处理器234、纹理单元236、preROP 242等。此外，虽然仅示出一个处理集群214，但如本文中描述的并行处理单元可以包括处理集群214的任何数量的实例。可选地，每个处理集群214可以配置成使用单独且不同的处理单元、L1高速缓存、L2高速缓存等来独立于其他处理集群214进行操作。

图2D显示图形多处理器234的实例，其中图形多处理器234与处理集群214的流水线管理器232耦合。图形多处理器234具有执行流水线，包括但不限于指令高速缓存252、指令单元254、地址映射单元256、寄存器堆258、一个或多个通用图形处理单元（GPGPU）核262以及一个或多个加载/存储单元266。GPGPU核262和加载/存储单元266经由存储器和高速缓存互连268与高速缓冲存储器272和共享存储器270耦合。图形多处理器234可以另外包括张量和/或光线追踪核263，其包括用于加速矩阵和/或光线追踪操作的硬件逻辑。

指令高速缓存252可从流水线管理器232接收要执行的指令流。指令被高速缓存在指令高速缓存252中，并被分派以便由指令单元254执行。指令单元254可将指令分派为线程组（例如，线程束），其中线程组的每个线程被指派给GPGPU核262内的不同执行单元。指令可通过指定统一地址空间内的地址来访问本地、共享或全局地址空间中的任何一个。地址映射单元256可用于将统一地址空间中的地址转换成可由加载/存储单元266访问的不同的存储器地址。

寄存器堆258为图形多处理器234的功能单元提供一组寄存器。寄存器堆258为操作数提供连接到图形多处理器234的功能单元（例如，GPGPU核262、加载/存储单元266）的数据路径的临时存储。寄存器堆258可在功能单元中的每个功能单元之间划分，使得每个功能单元被分配寄存器堆258的专用部分。例如，寄存器堆258可在由图形多处理器234执行的不同线程束之间划分。

GPGPU核262可各自包括用于执行图形多处理器234的指令的浮点单元（FPU）和/或整数算术逻辑单元（ALU）。在一些实现中，GPGPU核262可以包括硬件逻辑，其可以以其他方式驻留在张量和/或光线追踪核263内。GPGPU核262可在架构上类似或可在架构上不同。例如，在一个实施例中，GPGPU核262的第一部分包括单精度FPU和整数ALU，而GPGPU核的第二部分包括双精度FPU。可选地，FPU可以实现用于浮点算数的IEEE 754-2008标准，或者使得能够进行可变精度浮点算数。图形多处理器234可另外包括一个或多个固定功能或特殊功能单元以执行特定功能，诸如复制矩形或像素混合操作。GPGPU核中的一个或多个也可包括固定或特殊功能逻辑。

GPGPU核262可以包括能够对多个数据集合执行单个指令的SIMD逻辑。可选地，GPGPU核262可以在物理上执行SIMD4、SIMD8和SIMD16指令，并且在逻辑上执行SIMD1、SIMD2和SIMD32指令。用于GPGPU核的SIMD指令可以在编译时由着色器编译器生成，或者在执行针对单程序多数据（SPMD）或SIMT架构编写和编译的程序时自动生成。为SIMT执行模型配置的程序的多个线程可以经由单个SIMD指令执行。例如，在一个实施例中，执行相同或相似操作的八个SIMT线程可以经由单个SIMD8逻辑单元并行执行。

存储器和高速缓存互连268是互连网络，其将图形多处理器234的功能单元中的每个功能单元连接到寄存器堆258和共享存储器270。例如，存储器和高速缓存互连268是交叉开关互连，其允许加载/存储单元266实现共享存储器270和寄存器堆258之间的加载和存储操作。寄存器堆258能够以与GPGPU核262相同的频率操作，因此GPGPU核262与寄存器堆258之间的数据传递具有非常低的时延。共享存储器270可用于实现在图形多处理器234内的功能单元上执行的线程之间的通信。高速缓冲存储器272可用作数据高速缓存，例如，以对在功能单元与纹理单元236之间传递的纹理数据进行高速缓存。共享存储器270也可以用作程序管理的高速缓存。共享存储器270和高速缓冲存储器272可以与数据交叉开关240耦合，以实现与处理集群的其他组件的通信。除了存储在高速缓冲存储器272内的自动高速缓存的数据之外，在GPGPU核262上执行的线程还能够以编程方式将数据存储在共享存储器内。

图3A-3C示出了根据实施例的附加图形多处理器。图3A-3B示出了图形多处理器325、350，其与图2C的图形多处理器234相关并且可用于代替那些图形多处理器234之一。因此，本文中与图形多处理器234组合的任何特征的公开也公开了与（一个或多个）图形多处理器325、350的对应组合，但不限于此。图3C示出了图形处理单元（GPU）380，其包括布置成多核群组365A-365N的图形处理资源的专用集合，所述多核群组365A-365N对应于图形多处理器325、350。所示出的图形多处理器325、350和多核群组365A-365N可以是能够同时执行大量执行线程的流多处理器（SM）。

图3A的图形多处理器325包括相对于图2D的图形多处理器234的执行资源单元的多个额外实例。例如，图形多处理器325可包括指令单元332A-332B、寄存器堆334A到334B和（一个或多个）纹理单元344A-344B的多个实例。图形多处理器325还包括多组图形或计算执行单元（例如，GPGPU核336A-336B、张量核337A-337B、光线追踪核338A-338B）和多组加载/存储单元340A-340B。执行资源单元具有公共指令高速缓存330、纹理和/或数据高速缓冲存储器342以及共享存储器346。

各种组件可经由互连组构327通信。互连组构327可包括一个或多个交叉开关以实现图形多处理器325的各种组件之间的通信。互连组构327可以是单独的高速网络组构层，图形多处理器325的每个组件堆叠在该单独的高速网络组构层上。图形多处理器325的组件经由互连组构327与远程组件通信。例如，核336A-336B、337A-337B和338A-338B可各自经由互连组构327与共享存储器346通信。互连组构327可以仲裁图形多处理器325内的通信，以确保组件之间的公平带宽分配。

图3B的图形多处理器350包括多组执行资源356A-356D，其中每组执行资源包括多个指令单元、寄存器堆、GPGPU核以及加载存储单元，如图2D和图3A中所示。执行资源356A-356D可与（一个或多个）纹理单元360A-360D协同工作以用于纹理操作，同时共享指令高速缓存354和共享存储器353。例如，执行资源356A-356D可共享指令高速缓存354和共享存储器353，以及纹理和/或数据高速缓冲存储器358A-358B的多个实例。各种组件可经由类似于图3A的互连组构327的互连组构352通信。

本领域技术人员将理解，图1、2A-2D和3A-3B中描述的架构是描述性的，而不是对本实施例范围的限制。因此，在不脱离本文中所述实施例的范围的情况下，本文中所述的技术可实现在任何适当配置的处理单元上，所述处理单元非限制地包括一个或多个移动应用处理器、一个或多个桌面型电脑或服务器中央处理单元（CPU）（包括多核CPU）、一个或多个并行处理单元（诸如图2A的并行处理单元202）以及一个或多个图形处理器或专用处理单元。

如本文中所述的并行处理器或GPGPU可以在通信上耦合到主机/处理器核以加速图形操作、机器学习操作、模式分析操作和各种通用GPU（GPGPU）功能。GPU可通过总线或其他互连（例如，高速互连（诸如PCIe或NVLink）、NVLink或其他已知协议、标准化协议或专有协议）在通信上耦合到主机处理器/核。在其他实施例中，GPU可以与核集成在相同封装或芯片上，并且通过内部处理器总线/互连（即，在封装或芯片内部）在通信上耦合到核。不管连接GPU所采用的方式如何，处理器核可以用工作描述符中所包含的命令/指令的序列的形式将工作分配给GPU。GPU接着使用专用电路/逻辑以便高效地处理这些命令/指令。

图3C示出图形处理单元（GPU）380，其包括布置成多核群组365A-365N的图形处理资源的专用集合。虽然仅提供了单个多核群组365A的细节，但是将理解，其他多核群组365B-365N可以配备有相同或相似的图形处理资源集合。关于多核群组365A-365N描述的细节也可适用于本文中描述的任何图形多处理器234、325、350。

如所图示的，多核群组365A可以包括图形核370的集合、张量核371的集合和光线追踪核372的集合。调度器/分派器368调度和分派图形线程以便在各个核370、371、372上执行。一组寄存器堆369存储由核370、371、372在执行图形线程时使用的操作数值。这些寄存器可以包括例如用于存储整数值的整数寄存器、用于存储浮点值的浮点寄存器、用于存储打包数据元素（整数和/或浮点数据元素）的向量寄存器以及用于存储张量/矩阵值的贴片寄存器。贴片寄存器可以被实现为向量寄存器的组合集合。

一个或多个组合的1级（L1）高速缓存和共享存储器单元373在每个多核群组365A内本地存储图形数据，诸如纹理数据、顶点数据、像素数据、光线数据、包围体数据等。一个或多个纹理单元374还可用于执行纹理化操作，诸如纹理映射和采样。由多核群组365A-365N的全部或子集共享的2级（L2）高速缓存375存储用于多个并发图形线程的图形数据和/或指令。如所示出的，可跨多个多核群组365A-365N共享L2高速缓存375。一个或多个存储器控制器367将GPU 380耦合到存储器366，该存储器366可以是系统存储器（例如DRAM）和/或专用图形存储器（例如GDDR6存储器）。

输入/输出（I/O）电路363将GPU 380耦合到一个或多个I/O装置362，诸如数字信号处理器（DSP）、网络控制器或用户输入装置。可使用片上互连以将I/O装置362耦合到GPU380和存储器366。I/O电路363的一个或多个I/O存储器管理单元（IOMMU）364将I/O装置362直接耦合到系统存储器366。可选地，IOMMU 364管理多组页表以将虚拟地址映射到系统存储器366中的物理地址。I/O装置362、（一个或多个）CPU 361和（一个或多个）GPU 380可以接着共享相同的虚拟地址空间。

在IOMMU 364的一个实现中，IOMMU 364支持虚拟化。在这种情况下，它可以管理页表的第一集合以将客户/图形虚拟地址映射到客户/图形物理地址，并且管理页表的第二集合以将客户/图形物理地址映射到系统/主机物理地址（例如，在系统存储器366内）。页表的第一和第二集合中的每个集合的基地址可存储在控制寄存器中，且在上下文切换时换出（例如，使得为新上下文提供对页表的相关集合的访问）。虽然图3C中未示出，但是核370、371、372和/或多核群组365A-365N中的每个可以包括转换后备缓冲器（TLB），以高速缓存客户虚拟到客户物理转换、客户物理到主机物理转换和客户虚拟到主机物理转换。

CPU 361、GPU 380和I/O装置362可以集成在单个半导体芯片和/或芯片封装上。所示出的存储器366可集成在相同芯片上或可经由芯片外接口耦合到存储器控制器367。在一个实现中，存储器366包括GDDR6存储器，其与其他物理系统级存储器共享相同的虚拟地址空间，尽管本文中描述的基本原理不限于该特定实现。

张量核371可以包括专门设计成执行矩阵运算的多个执行单元，所述矩阵运算是用于执行深度学习运算的基本计算操作。例如，同时矩阵乘法运算可以用于神经网络训练和推断。张量核371可以使用各种操作数精度来执行矩阵处理，所述操作数精度包括单精度浮点（例如，32位）、半精度浮点（例如，16位）、整字（16位）、字节（8位）和半字节（4位）。例如，神经网络实现提取每个渲染场景的特征，潜在地组合来自多个帧的细节，以构建高质量最终图像。

在深度学习实现中，并行矩阵乘法工作可以被调度用于在张量核371上执行。神经网络的训练特别要求大量矩阵点积运算。为了处理N×N×N矩阵乘法的内积公式，张量核371可以包括至少N个点积处理元件。在矩阵乘法开始之前，将一个完整的矩阵加载到贴片寄存器中，并且在N个循环的每个循环加载第二矩阵的至少一列。在每个周期，有N个点积被处理。

可根据特定实现以不同精度存储矩阵元素，所述精度包括16位字、8位字节（例如，INT8）和4位半字节（例如，INT4）。可以为张量核371指定不同的精度模式，以确保最高效的精度被用于不同的工作负荷（例如，诸如可以容忍量化到字节和半字节的推断工作负荷）。支持的格式另外包括64位浮点（FP64）和非IEEE浮点格式，诸如bfloat16格式（例如，大脑浮点）、具有一个符号位、八个指数位和八个有效位（其中七个位被明确存储）的16位浮点格式。一个实施例包括对精度降低的张量-浮点格式（TF32）的支持，其具有FP32（8位）的范围与FP16 （10位）的精度。精度降低的TF32运算可在FP32输入上执行，并且以相对于FP32更高的性能和相对于FP16增加的精度产生FP32输出。

在一个实施例中，张量核371支持矩阵的稀疏操作模式，其中，绝大多数的值为零。张量核371包括对以稀疏矩阵表示（例如，坐标列表编码（COO）、压缩稀疏行（CSR）、压缩稀疏列（CSC）等）编码的稀疏输入矩阵的支持。张量核371还包括在稀疏矩阵表示可以被进一步压缩的情况下对压缩的稀疏矩阵表示的支持。压缩的、编码的和/或压缩且编码的矩阵数据连同相关联的压缩和/或编码元数据可以由张量核371准备好，并且可以提取非零值。例如，对于给定的输入矩阵A，可以从矩阵A的至少一部分的压缩的和/或编码的表示中加载非零值。基于矩阵A中非零值的位置（其可从与非零值相关联的索引或坐标元数据确定），可加载输入矩阵B中的对应值。取决于要执行的运算（例如，乘法），如果对应值为零值，则可绕过对来自输入矩阵B的值的加载。在一个实施例中，用于某些运算（诸如乘法运算）的值配对可由调度器逻辑预扫描，并且仅调度非零输入之间的运算。根据矩阵A和矩阵B的维数以及要执行的运算，输出矩阵C可以是密集的或稀疏的。在输出矩阵C是稀疏的情况下，并且取决于张量核371的配置，可以以压缩格式、稀疏编码或压缩稀疏编码来输出输出矩阵C。

光线追踪核372可以加速用于实时光线追踪实现和非实时光线追踪实现两者的光线追踪操作。特别地，光线追踪核372可以包括光线遍历/交叉电路，以用于使用包围体层级（BVH）来执行光线遍历并且标识BVH体积内所封围的光线和图元之间的交叉。光线追踪核372还可以包括用于执行深度测试和剔除（例如，使用Z缓冲器或类似布置）的电路。在一个实现中，光线追踪核372与本文中描述的图像去噪技术协同执行遍历和交叉操作，所述遍历和交叉操作的至少一部分可以在张量核371上执行。例如，张量核371可以实现深度学习神经网络以执行对由光线追踪核372生成的帧的去噪。然而，（一个或多个）CPU 361、图形核370和/或光线追踪核372也可以实现降噪和/或深度学习算法的全部或一部分。

此外，如上所述，可以采用用于去噪的分布式方法，其中GPU 380在通过网络或高速互连耦合到其他计算装置的计算装置中。在此分布式方法中，互连的计算装置可共享神经网络学习/训练数据以改进整个系统学习针对不同类型的图像帧和/或不同图形应用执行降噪的速度。

光线追踪核372可以处理所有BVH遍历和/或光线-图元交叉，使图形核370避免由于每个光线的数千个指令而过载。例如，每个光线追踪核372包括用于执行包围盒测试（例如，用于遍历操作）的专用电路的第一集合和/或用于执行光线-三角形交叉测试（例如，交叉已经遍历的光线）的专用电路的第二集合。因此，例如，多核群组365A可以简单地启动光线探针，并且光线追踪核372独立地执行光线遍历和交叉，并且将命中数据（例如，命中、无命中、多次命中等）返回给线程上下文。在光线追踪核372执行遍历和交叉操作时，释放其他核370、371以执行其他图形或计算工作。

可选地，每个光线追踪核372可以包括用于执行BVH测试操作的遍历单元和/或执行光线-图元交叉测试的交叉单元。交叉单元生成“命中”、“无命中”或“多命中”响应，其将所述响应提供到适当线程。在遍历和交叉操作期间，释放其他核（例如，图形核370和张量核371）的执行资源以执行其他形式的图形工作。

在下面描述的一个可选实施例中，使用混合光栅化/光线追踪方法，其中工作分布在图形核370和光线追踪核372之间。

光线追踪核372 （和/或其他核370、371）可以包括对诸如微软的DirectX光线追踪（DXR）之类的光线追踪指令集的硬件支持，该光线追踪指令集包括DispatchRays命令以及光线生成、最接近命中、任何命中和未命中着色器，所述着色器使得能够为每个对象指派纹理和着色器的唯一集合。可以由光线追踪核372、图形核370和张量核371支持的另一光线追踪平台是Vulkan 1.1.85。然而，注意，本文中描述的基本原理不限于任何特定的光线追踪ISA。

一般地，各种核372、371、370可以支持光线追踪指令集，该光线追踪指令集包括用于光线生成、最接近命中、任何命中、光线-图元交叉、每图元和层级包围盒构造、未命中、访问和异常中的一个或多个的指令/功能。更具体地，优选实施例包括用于执行以下功能中的一个或多个功能的光线追踪指令：

光线生成-光线生成指令可以针对每个像素、样本或其他用户定义的工作指派来执行。

最接近命中-可执行最接近命中指令以定位光线与场景内的图元的最接近交叉点。

任何命中-任何命中指令标识光线与场景内的图元之间的多个交叉，潜在地标识新的最接近交叉点。

交叉-交叉指令执行光线-图元交叉测试并输出结果。

每图元包围盒构造-该指令围绕给定图元或图元组构造包围盒（例如，当构造新的BVH或其他加速数据结构时）。

未命中-表示光线未命中场景内的所有几何形状或场景的指定区域。

访问-指示光线将穿过的子体。

异常-包括各种类型的异常处置程序（例如，针对各种错误情况调用的）。

在一个实施例中，光线追踪核372可以适于加速通用计算操作，该通用计算操作可以使用与光线交叉测试类似的计算技术来被加速。可以提供计算框架，其使得着色器程序能够被编译为低级指令和/或图元，所述低级指令和/或图元经由光线追踪核执行通用计算操作。可以从在光线追踪核372上执行的计算操作获益的示例性计算问题包括涉及坐标空间内的波束、波、光线或粒子传播的计算。可以相对于坐标空间内的几何形状或网格计算与该传播相关联的交互。例如，与通过环境的电磁信号传播相关联的计算可以经由使用经由光线追踪核执行的指令或图元来被加速。可以作为直接光线追踪类似物来计算由环境中的物体对信号的衍射和反射。

光线追踪核372也可以用于执行不直接类似于光线追踪的计算。例如，可以使用光线追踪核372来加速网格投影、网格细化和体积采样计算。还可以执行一般坐标空间计算，诸如最近邻居计算。例如，可以通过在围绕给定点的坐标空间中定义包围盒来发现该点附近的点集。然后，光线追踪核372内的BVH和光线探针逻辑可以用于确定包围盒内的点交叉的集合。交叉构成原点和该原点的最近邻居。可以与在图形核372和张量核371上执行的计算并行地执行使用光线追踪核372执行的计算。着色器编译器可以配置成将计算着色器或其他通用图形处理程序编译为可以跨图形核370、张量核371和光线追踪核372并行化的低级图元。

用于GPU到主机处理器互连的技术

图4A示出其中多个GPU 410-413（例如，诸如图2A中所示的并行处理器200）通过高速链路440A-440D（例如，总线、点对点互连等）在通信上耦合到多个多核处理器405-406的示例性架构。高速链路440A-440D可支持4GB/s、30GB/s、80GB/s或更高的通信吞吐量，这取决于实现。可以使用各种互连协议，包括但不限于PCIe 4.0或5.0和NVLink 2.0。然而，本文中描述的基本原理不限于任何特定通信协议或吞吐量。

GPU 410-413中的两个或更多个GPU可通过高速链路442A-442B互连，所述高速链路442A-442B可使用与用于高速链路440A-440D的那些协议/链路相同或不同的协议/链路来实现。类似地，多核处理器405-406中的两个或更多个多核处理器可通过高速链路443连接，该高速链路443可以是以20GB/s、30GB/s、120GB/s或者更低或更高的速度操作的对称多处理器（SMP）总线。备选地，图4A中所示的各种系统组件之间的所有通信可以使用相同的协议/链路（例如，通过公共互连组构）来实现。然而，如所提到的，本文中描述的基本原理不限于任何特定类型的互连技术。

每个多核处理器405-406可以分别经由存储器互连430A-430B在通信上耦合到处理器存储器401-402，并且每个GPU 410-413分别通过GPU存储器互连450A-450D在通信上耦合到GPU存储器420-423。存储器互连430A-430B和450A-450D可以利用相同或不同的存储器访问技术。通过示例并且非限制的方式，处理器存储器401-402和GPU存储器420-423可以是易失性存储器，诸如动态随机存取存储器（DRAM）（包括堆叠式DRAM）、图形DDR SDRAM（GDDR）（例如，GDDR5、GDDR6）或高带宽存储器（HBM），和/或可以是非易失性存储器，诸如3DXPoint/Optane或Nano-RAM。例如，存储器的一些部分可以是易失性存储器，并且另一部分可以是非易失性存储器（例如，使用两级存储器（2LM）层级）。如本文所述的存储器子系统可以与多种存储器技术是可兼容的，所述存储器技术诸如由JEDEC（联合电子装置工程委员会）发布的双倍数据速率版本。

如下文所述，尽管各种处理器405-406和GPU 410-413可分别物理耦合到特定的存储器401-402、420-423，但也可实现统一的存储器架构，其中相同的虚拟系统地址空间（也称为“有效地址”空间）分布在所有的各种物理存储器之中。例如，处理器存储器401-402可以各自包括64GB的系统存储器地址空间，并且GPU存储器420-423可以各自包括32GB的系统存储器地址空间（在该示例中导致总共256GB可寻址存储器）。

图4B示出了多核处理器407和图形加速模块446之间的互连的附加可选细节。图形加速模块446可以包括集成在线路卡上的一个或多个GPU芯片，该线路卡经由高速链路440耦合到处理器407。备选地，图形加速模块446可与处理器407集成在相同封装或芯片上。

所示出的处理器407包括多个核460A-460D，其各自具有转换后备缓冲器461A-461D和一个或多个高速缓存462A-462D。核可以包括用于执行指令和处理数据的各种其他组件（例如，指令获取单元、分支预测单元、解码器、执行单元、重排序缓冲器等），所述其他组件未被示出以避免模糊本文中描述的组件的基本原理。高速缓存462A-462D可包括1级（L1）和2级（L2）高速缓存。另外，一个或多个共享高速缓存456可以被包括在高速缓存层级中，并且由核460A-460D的集合共享。例如，处理器407的一个实施例包括24个核（每个核具有其自己的L1高速缓存）、十二个共享L2高速缓存以及十二个共享L3高速缓存。在该实施例中，L2和L3高速缓存之一由两个相邻核共享。处理器407和图形加速器集成模块446与系统存储器441连接，该系统存储器441可以包括处理器存储器401-402。

经由一致性总线464上的核间通信，为存储在各个高速缓存462A-462D、456和系统存储器441中的数据和指令保持一致性。例如，每个高速缓存可以具有与之相关联的高速缓存一致性逻辑/电路，以响应于检测到的对特定高速缓存线的读或写而通过一致性总线464进行通信。在一个实现中，在一致性总线464上实现高速缓存探听协议以探听高速缓存访问。高速缓存探听/一致性技术是本领域技术人员所熟知的，并且在此将不详细描述以避免模糊本文中所述的基本原理。

可以提供代理电路425，其将图形加速模块446在通信上耦合到一致性总线464，允许图形加速模块446作为核的对等方参与高速缓存一致性协议。特别地，接口435通过高速链路440（例如，PCIe总线、NVLink等）提供到代理电路425的连接性，并且接口437将图形加速模块446连接到高速链路440。

在一个实现中，加速器集成电路436代表图形加速模块446的多个图形处理引擎431、432、N提供高速缓存管理、存储器访问、上下文管理和中断管理服务。图形处理引擎431、432、N可各自包括单独的图形处理单元（GPU）。备选地，图形处理引擎431、432、N可以包括在GPU内的不同类型的图形处理引擎，诸如图形执行单元、媒体处理引擎（例如，视频编码器/解码器）、采样器和位块传送引擎（blit engine）。换句话说，图形加速模块可以是具有多个图形处理引擎431-432、N的GPU，或者图形处理引擎431-432、N可以是集成在公共封装、线路卡或芯片上的单独GPU。

加速器集成电路436可以包括存储器管理单元（MMU）439，其用于执行各种存储器管理功能，诸如虚拟到物理存储器转换（也称为有效到真实存储器转换）和用于访问系统存储器441的存储器访问协议。MMU 439还可以包括转换后备缓冲器（TLB）（未示出），其用于高速缓存虚拟/有效到物理/真实地址转换。在一个实现中，高速缓存438存储命令和数据以用于由图形处理引擎431、432、N高效访问。存储在高速缓存438和图形存储器433-434、M中的数据可以保持与核高速缓存462A-462D、456和系统存储器441一致。如所提到的，这可以经由代理电路425来实现，该代理电路425代表高速缓存438和存储器433-434、M参与高速缓存一致性机制（例如，向高速缓存438发送与处理器高速缓存462A-462D、456上的高速缓存行的修改/访问相关的更新，并从高速缓存438接收更新）。

寄存器445的集合储存由图形处理引擎431-432、N执行的线程的上下文数据，并且上下文管理电路448管理线程上下文。例如，上下文管理电路448可以执行保存和恢复操作，以在上下文切换期间保存和恢复各个线程的上下文（例如，其中保存第一线程，并且恢复第二线程，使得第二线程可以由图形处理引擎执行）。例如，在上下文切换时，上下文管理电路448可以将当前寄存器值存储到存储器中的指定区域（例如，由上下文指针标识的）。然后，当返回到上下文时，它可以恢复寄存器值。中断管理电路447例如可以接收和处理从系统装置接收的中断。

在一个实现中，来自图形处理引擎431的虚拟/有效地址由MMU 439转换成系统存储器441中的真实/物理地址。可选地，加速器集成电路436支持多个（例如，4、8、16个）图形加速器模块446和/或其他加速器装置。图形加速器模块446可以专用于在处理器407上执行的单个应用，或者可以在多个应用之间共享。可选地，提供了虚拟化图形执行环境，其中图形处理引擎431-432、N的资源由多个应用、虚拟机（VM）或容器共享。资源可以被细分为“切片”，基于与VM和/或应用相关联的处理要求和优先级，将所述切片分配给不同的VM和/或应用。在本文中可以可互换地使用VM和容器。

虚拟机（VM）可以是运行操作系统和一个或多个应用的软件。VM可以由规范、配置文件、虚拟盘文件、非易失性随机接入存储器（NVRAM）设置文件和日志文件来定义，并且由主机计算平台的物理资源来支持。VM可以包括安装在软件上的操作系统（OS）或应用环境，所述软件模仿专用硬件。最终用户在虚拟机上具有与它们在专用硬件上将具有的相同的体验。称为管理程序（hypervisor）的专用软件完全仿真PC客户端或服务器的CPU、存储器、硬盘、网络和其他硬件资源，使得虚拟机能够共享资源。管理程序可以仿真与彼此隔离的多个虚拟硬件平台，允许虚拟机在相同底层物理主机上运行Linux®、Windows®服务器、VMwareESXi和其他操作系统。

容器可以是应用、配置和依赖关系的软件包，因此应用在一个计算环境到另一个计算环境上可靠地运行。容器可以共享安装在服务器平台上的操作系统，并且作为隔离的进程运行。容器可以是包含软件需要运行的所有事物（诸如系统工具、库和设置）的软件包。容器不像传统软件程序那样安装，这允许它们与其他软件和操作系统本身隔离。容器的隔离性质提供了若干益处。首先，容器中的软件将在不同的环境中相同地运行。例如，包括PHP和MySQL的容器可以在Linux®计算机和Windows®机器两者上同样地运行。第二，容器提供了增加的安全性，因为软件将不会影响主机操作系统。尽管安装的应用可以更改系统设置并修改诸如Windows注册表的资源，但容器仅可修改该容器内的设置。

因此，加速器集成电路436充当图形加速模块446的到系统的桥，并且提供地址转换和系统存储器高速缓存服务。在一个实施例中，为了促进桥接功能性，加速器集成电路436还可以包括共享I/O 497（例如，PCIe、USB或其他）和硬件，以实现对电压、时钟、性能、热量和安全性的系统控制。共享I/O 497可以利用单独的物理连接或者可以穿过高速链路440。另外，加速器集成电路436可以为主机处理器提供虚拟化工具，以管理图形处理引擎、中断和存储器管理的虚拟化。

因为图形处理引擎431-432、N的硬件资源被显式地映射到由主机处理器407所见的真实地址空间，所以任何主机处理器都可以使用有效地址值来直接寻址这些资源。加速器集成电路436的一个可选功能是图形处理引擎431-432、N的物理分离，使得它们对于系统表现为独立单元。

一个或多个图形存储器433-434、M可以分别耦合到图形处理引擎431-432、N中的每个图形处理引擎。图形存储器433-434、M存储由图形处理引擎431-432、N中的每个图形处理引擎处理的指令和数据。图形存储器433-434、M可以是易失性存储器，诸如DRAM（包括堆叠式DRAM）、GDDR存储器（例如GDDR5、GDDR6）或HBM，和/或可以是非易失性存储器，诸如3DXPoint/Optane、Samsung Z-NAND或Nano-RAM。

为了减少高速链路440上的数据业务，可以使用偏置技术来确保存储在图形存储器433-434、M中的数据是将被图形处理引擎431-432、N最频繁地使用并且优选地不被核460A-460D使用（至少不频繁）的数据。类似地，偏置机制试图将核（并且优选地不是图形处理引擎431-432、N）所需要的数据保持在核和系统存储器441的高速缓存462A-462D、456内。

根据图4C中所示的变体，加速器集成电路436集成在处理器407内。图形处理引擎431-432、N经由接口437和接口435（其也可以利用任何形式的总线或接口协议）在高速链路440上直接向加速器集成电路436通信。加速器集成电路436可以执行与相对于图4B描述的那些操作相同的操作，但是考虑到其非常接近一致性总线464和高速缓存462A-462D、456潜在地以更高的吞吐量执行所述操作。

所描述的实施例可以支持不同的编程模型，包括专用进程编程模型（没有图形加速模块虚拟化）和共享编程模型（具有虚拟化）。后者可以包括由加速器集成电路436控制的编程模型和由图形加速模块446控制的编程模型。

在专用进程模型的实施例中，图形处理引擎431、432、... N可以专用于单个操作系统下的单个应用或进程。单个应用可以将其他应用请求汇集到图形引擎431、432、... N，在VM/分区内提供虚拟化。

在专用进程编程模型中，图形处理引擎431、432、N可以由多个VM/应用分区共享。共享模型要求系统管理程序来虚拟化图形处理引擎431-432、N，以允许由每个操作系统进行访问。对于没有管理程序的单分区系统，图形处理引擎431-432、N由操作系统拥有。在这两种情况下，操作系统都可以虚拟化图形处理引擎431-432、N，以提供对每个进程或应用的访问。

对于共享编程模型，图形加速模块446或单独的图形处理引擎431-432、N使用进程句柄选择进程元素。进程元素可以存储在系统存储器441中，并且可使用本文中描述的有效地址到真实地址转换技术来寻址。进程句柄可以是当向图形处理引擎431-432、N注册其上下文（即，调用系统软件以将进程元素添加到进程元素链接列表）时提供给主机进程的可以特定于实现的值。进程句柄的较低16位可以是进程元素链接列表内的进程元素的偏移。

图4D示出了示例性加速器集成切片490。如本文所使用的，“切片”包括加速器集成电路436的处理资源的指定部分。系统存储器441内的应用有效地址空间482存储进程元素483。可以响应于来自在处理器407上执行的应用480的GPU调用481来存储进程元素483。进程元素483包含对应应用480的进程状态。被包含在进程元素483中的工作描述符（WD） 484可以是应用所请求的单个作业，或者可以包含指向作业队列的指针。在后一种情况下，WD484是指向应用地址空间482中的作业请求队列的指针。

图形加速模块446和/或各个图形处理引擎431-432、N可以由系统中的进程的全部或子集共享。例如，本文中描述的技术可以包括用于设置进程状态并将WD 484发送到图形加速模块446以在虚拟化环境中启动作业的基础设施。

在一个实现中，专用进程编程模型是实现特定的。在该模型中，单个进程拥有图形加速模块446或单独的图形处理引擎431。因为图形加速模块446由单个进程拥有，所以管理程序为拥有的分区初始化加速器集成电路436，并且操作系统在图形加速模块446被指派时为拥有的进程初始化加速器集成电路436。

在操作中，加速器集成切片490中的WD提取单元491提取下一WD 484，其包括对要由图形加速模块446的图形处理引擎之一进行的工作的指示。来自WD 484的数据可以存储在寄存器445中，并且由MMU 439、中断管理电路447和/或上下文管理电路448使用，如所示出的。例如，MMU 439可以包括用于访问OS虚拟地址空间485内的段/页表486的段/页行走电路（segment/page walk circuitry）。中断管理电路447可以处理从图形加速模块446接收的中断事件492。当执行图形操作时，由图形处理引擎431-432、N生成的有效地址493被MMU439转换为真实地址。

寄存器445的相同集合可以针对每个图形处理引擎431-432、N和/或图形加速模块446来复制，并且可以由管理程序或操作系统来初始化。这些复制的寄存器中的每个都可以被包括在加速器集成切片490中。在一个实施例中，每个图形处理引擎431-432、N可以作为不同的图形处理器装置被呈现给管理程序496。可以为特定图形处理引擎431-432、N的客户端配置QoS设置，并且可以实现每个引擎的客户端之间的数据隔离。表1中示出了可以由管理程序初始化的示例性寄存器。

表1-管理程序初始化的寄存器

1	切片控制寄存器
		2	实际地址（RA）调度的进程区域指针
3	权限屏蔽覆盖寄存器
		4	中断向量表条目偏移
5	中断向量表条目限制
		6	状态寄存器
7	逻辑分区ID
		8	实际地址（RA）管理程序加速器利用记录指针
9	存储描述寄存器

在表2中示出可由操作系统初始化的示例性寄存器。

表2-操作系统初始化的寄存器

1	进程和线程标识
		2	有效地址（EA）上下文保存/恢复指针
3	虚拟地址（VA）加速器利用记录指针
		4	虚拟地址（VA）存储段表指针
5	权限屏蔽
		6	工作描述符

每个WD 484可以特定于特定图形加速模块446和/或图形处理引擎431-432、N。它包含图形处理引擎431-432、N进行其工作所要求的所有信息，或者它可以是指向存储器位置的指针，在该存储器位置，应用已经设立了要完成的工作的命令队列。

图4E示出了共享模型的附加可选细节。它包括其中存储进程元素列表499的管理程序实际地址空间498。管理程序真实地址空间498可经由虚拟化用于操作系统495的图形加速模块引擎的管理程序496来访问。

共享编程模型虑及来自系统中的分区的全部或子集的进程的全部或子集使用图形加速模块446。存在其中图形加速模块446由多个进程和分区共享的两个编程模型：时间切片共享和图形定向共享。

在该模型中，系统管理程序496拥有图形加速模块446并使其功能对所有操作系统495可用。为了使图形加速模块446支持由系统管理程序496进行的虚拟化，图形加速模块446可以遵守以下要求：1）应用的作业请求必须是自主的（即，在作业之间不需要维持状态），或者图形加速模块446必须提供上下文保存和恢复机制。2）应用的作业请求由图形加速模块446保证在指定时间量内完成，包括任何转换错误，或者图形加速模块446提供抢占作业的处理的能力。3）当在定向共享编程模型中操作时，必须保证图形加速模块446在进程之间的公平性。

对于共享模型，可能要求应用480用图形加速模块446类型、工作描述符（WD）、权限屏蔽寄存器（AMR）值和上下文保存/恢复区域指针（CSRP）来进行操作系统495系统调用。图形加速模块446类型描述用于系统调用的目标加速功能。图形加速模块446类型可以是系统特定值。WD被专门格式化以用于图形加速模块446，并且可以采用图形加速模块446命令、指向用户定义结构的有效地址指针、指向命令队列的有效地址指针、或描述要由图形加速模块446进行的工作的任何其他数据结构的形式。在一个实施例中，AMR值是要用于当前进程的AMR状态。传递到操作系统的值类似于设置AMR的应用。如果加速器集成电路436和图形加速模块446实现不支持用户权限屏蔽覆盖寄存器（UAMOR），则操作系统可以在管理程序调用中传递AMR之前将当前UAMOR值应用于AMR值。管理程序496可以在将AMR放入进程单元483之前可选地应用当前的权限屏蔽覆盖寄存器（AMOR）值。CSRP可以是寄存器445之一，其包含应用的地址空间482中用于图形加速模块446保存和恢复上下文状态的区域的有效地址。如果在作业之间不要求保存状态或者当作业被抢占时，该指针是可选的。上下文保存/恢复区域可以是固定的系统存储器。

在接收到系统调用时，操作系统495可验证应用480已注册并且已被给予使用图形加速模块446的权限。然后，操作系统495用表3中所示的信息调用管理程序496。

表3 - OS到管理程序调用参数

1	工作描述符（WD）
		2	权限屏蔽寄存器（AMR）值（可能被屏蔽）。
3	有效地址（EA）上下文保存/恢复区域指针（CSRP）
		4	进程ID（PID）和可选线程ID（TID）
5	虚拟地址（VA）加速器利用记录指针（AURP）
		6	存储段表指针（SSTP）的虚拟地址
7	逻辑中断服务号（LISN）

在接收到管理程序调用时，管理程序496验证操作系统495已注册并且已被给予使用图形加速模块446的权限。然后，管理程序496将进程元素483放入对应图形加速模块446类型的进程元素链接列表。进程元素可以包括表4中所示的信息。

表4 - 进程元素信息

1	工作描述符（WD）
		2	权限屏蔽寄存器（AMR）值（可能被屏蔽）。
3	有效地址（EA）上下文保存/恢复区域指针（CSRP）
		4	进程ID（PID）和可选线程ID （TID）
5	虚拟地址（VA）加速器利用记录指针（AURP）
		6	存储段表指针（SSTP）的虚拟地址
7	逻辑中断服务号（LISN）
		8	中断向量表，其从管理程序调用参数导出。
9	状态寄存器（SR）值
		10	逻辑分区ID（LPID）
11	真实地址（RA）管理程序加速器利用记录指针
		12	存储描述符寄存器（SDR）

管理程序可以初始化多个加速器集成切片490的寄存器445。

如图4F中所示出的，在一个可选实现中，采用可经由用于访问物理处理器存储器401-402和GPU存储器420-423的共同虚拟存储器地址空间寻址的统一存储器。在这种实现中，在GPU 410-413上执行的操作利用相同的虚拟/有效存储器地址空间来访问处理器存储器401-402，并且反之亦然，从而简化了可编程性。虚拟/有效地址空间的第一部分可被分配给处理器存储器401，第二部分可被分配给第二处理器存储器402，第三部分可被分配给GPU存储器420等等。整个虚拟/有效存储器空间（有时称为有效地址空间）可由此跨处理器存储器401-402和GPU存储器420-423中的每个存储器分布，允许任何处理器或GPU访问具有映射到该存储器的虚拟地址的任何物理存储器。

可以提供在MMU 439A-439E中的一个或多个MMU内的偏置/一致性管理电路494A-494E，其确保主机处理器（例如，405）和GPU 410-413的高速缓存之间的高速缓存一致性，并且实现指示其中应当存储某些类型的数据的物理存储器的偏置技术。虽然在图4F中示出了偏置/一致性管理电路494A-494E的多个实例，但是偏置/一致性电路可以在一个或多个主机处理器405的MMU内和/或在加速器集成电路436内实现。

GPU附加存储器420-423可被映射为系统存储器的一部分，并使用共享虚拟存储器（SVM）技术来被访问，而不遭受与全系统高速缓存一致性相关联的典型性能缺陷。能够作为系统存储器来访问GPU附加存储器420-423而没有繁重的高速缓存一致性开销为GPU卸载提供了有益的操作环境。这种安排允许主机处理器405软件设置操作数和访问计算结果，而没有传统I/O DMA数据拷贝的开销。这样的传统拷贝涉及驱动器调用、中断和存储器映射的I/O（MMIO）访问，其相对于简单的存储器访问都是低效的。同时，在没有高速缓存一致性开销的情况下访问GPU附接存储器420-423的能力对于卸载计算的执行时间可以是关键的。例如，在具有大量流式写入存储器业务的情况下，高速缓存一致性开销可以显著地减少GPU410-413所见的有效写入带宽。操作数设置的效率、结果访问的效率以及GPU计算的效率都在确定GPU卸载的有效性中起作用。

GPU偏置和主机处理器偏置之间的选择可以由偏置追踪器数据结构驱动。例如，可以使用偏置表，其可以是每个GPU附接的存储器页包括1或2位的页粒度结构（即，以存储器页的粒度控制）。偏置表可以在一个或多个GPU附接的存储器420-423的被盗存储器范围中实现，在GPU 410-413中具有或不具有偏置高速缓存（例如，以高速缓存偏置表的频繁/最近使用的条目）。备选地，整个偏置表可维持在GPU内。

在一个实现中，在实际访问GPU存储器之前，访问与对GPU附接的存储器420-423的每次访问相关联的偏置表条目，导致以下操作。首先，来自GPU 410-413的在GPU偏置中找到其页的本地请求被直接转发到对应的GPU存储器420-423。将在主机偏置中找到其页的来自GPU的本地请求转发到处理器405（例如，通过如上文所论述的高速链路）。可选地，来自处理器405的在主机处理器偏置中找到所请求的页的请求完成类似于正常存储器读取的请求。备选地，可将针对GPU偏置的页的请求转发至GPU 410-413。如果GPU当前没有正在使用该页，则GPU可然后将该页转移到主机处理器偏置。

可以通过基于软件的机制、基于硬件辅助的软件的机制、或者对于有限情况集合而言仅通过基于硬件的机制来改变页的偏置状态。

一种改变偏置状态的机制采用API调用（例如OpenCL），其接着调用GPU的装置驱动器，所述GPU的装置驱动器接着发送消息（或将命令描述符排队）到GPU，引导GPU改变偏置状态，并且对于某些转换，在主机中执行高速缓存转储清除操作。从主机处理器405偏置到GPU偏置的转换要求高速缓存转储清除操作，但相反的转变不要求。

高速缓存一致性可以通过临时呈现不可由主机处理器405高速缓存的GPU偏置的页来维持。为了访问这些页，处理器405可从GPU 410请求访问，所述GPU 410可以或可以不立即许可访问，这取决于实现。因此，为了减少主机处理器405和GPU 410之间的通信，确保GPU偏置的页是GPU而不是主机处理器405所要求的页是有益的，并且反之亦然。

图形处理流水线

图5示出图形处理流水线500。图形多处理器（诸如，如图2D中的图形多处理器234、图3A的图形多处理器325、图3B的图形多处理器350可实现所示出的图形处理流水线500。图形多处理器可被包括在如本文中所述的并行处理子系统（诸如，图2A的并行处理器200）内，所述并行处理子系统可以与图1的（一个或多个）并行处理器112相关并且可被用于代替并行处理器112中的一个。各种并行处理系统可经由如本文中所描述的并行处理单元（例如，图2A的并行处理单元202）的一个或多个实例来实现图形处理流水线500。例如，着色器单元（例如，图2C的图形多处理器234）可配置成执行顶点处理单元504、曲面细分控制处理单元508、曲面细分评估处理单元512、几何处理单元516和片段/像素处理单元524中的一个或多个的功能。数据汇编器502、图元汇编器506、514、518、曲面细分单元510、光栅化器522及光栅操作单元526的功能还可由处理集群（例如，图2A的处理集群214）以及对应分区单元（例如，图2A的分区单元220A-220N）内的其他处理引擎执行。图形处理流水线500还可使用用于一个或多个功能的专用处理单元来实现。图形处理流水线500的一个或多个部分还可能由通用处理器（例如，CPU）内的并行处理逻辑执行。可选地，图形处理流水线500的一个或多个部分可以经由存储器接口528访问片上存储器（例如，如图2A中的并行处理器存储器222），该存储器接口528可以是图2A的存储器接口218的实例。图形处理器流水线500还可经由如图3C中的多核群组365A来实现。

数据汇编器502是可收集表面和图元的顶点数据的处理单元。数据汇编器502接着将包括顶点属性的顶点数据输出到顶点处理单元504。顶点处理单元504是可编程执行单元，其执行顶点着色器程序，所述顶点着色器程序照亮和变换如由顶点着色器程序所指定的顶点数据。顶点处理单元504读取存储在高速缓存、本地或系统存储器中的数据，以供在处理顶点数据中使用，并且可以编程为将顶点数据从基于对象的坐标表示变换到世界空间坐标空间或规格化装置坐标空间。

图元汇编器506的第一实例从顶点处理单元504接收顶点属性。图元汇编器506根据需要读取所存储的顶点属性，并且构造图形图元以用于由曲面细分控制处理单元508处理。图形图元包括如由各种图形处理应用编程接口（API）所支持的三角形、线段、点、补片等。

曲面细分控制处理单元508将输入顶点视为几何补片的控制点。控制点从来自补片的输入表示（例如，补片的基底）变换为适于供在由曲面细分评价处理单元512进行的表面评价中使用的表示。曲面细分控制处理单元508还可以计算几何补片的边缘的曲面细分因子。曲面细分因子应用于单个边缘并且量化与所述边缘相关联的视图依赖级别的细节。曲面细分单元510配置成接收补片的边缘的曲面细分因子，并且将贴片曲面细分成多个几何图元（诸如线、三角形或四边形图元），其被传送到曲面细分评估处理单元512。曲面细分评估处理单元512对细分的补片的参数化坐标进行操作，以生成与几何图元相关联的每个顶点的表面表示和顶点属性。

图元汇编器514的第二实例从曲面细分评估处理单元512接收顶点属性，根据需要读取存储的顶点属性，并且构造图形图元以用于由几何处理单元516处理。几何处理单元516是可编程执行单元，其执行几何着色器程序以如几何着色器程序所指定的那样变换从图元汇编器514接收的图形图元。几何处理单元516可以编程为将图形图元细分为一个或多个新的图形图元，并且计算用于光栅化新的图形图元的参数。

几何处理单元516可以能够添加或删除几何流中的元素。几何处理单元516将指定新的图形图元的参数和顶点输出到图元汇编器518。图元汇编器518从几何处理单元516接收参数和顶点，并且构造图形图元以用于由视口缩放、剔除和裁剪单元520处理。几何处理单元516读取存储在并行处理器存储器或系统存储器中的数据，以供在处理几何数据中使用。视口缩放、剔除和裁剪单元520执行裁剪、剔除和视口缩放，并将经处理的图形图元输出到光栅化器522。

光栅化器522可以执行深度剔除和其他基于深度的优化。光栅化器522还对新的图形图元执行扫描转换，以生成片段并将那些片段及相关联的覆盖数据输出到片段/像素处理单元524。片段/像素处理单元524是配置成执行片段着色器程序或像素着色器程序的可编程执行单元。片段/像素处理单元524如由片段或像素着色器程序所指定的那样变换从光栅化器522接收的片段或像素。例如，片段/像素处理单元524可编程为执行包括但不限于纹理映射、着色、混合、纹理校正和透视校正的操作，以产生输出到光栅操作单元526的着色片段或像素。片段/像素处理单元524可读取存储在并行处理器存储器或系统存储器中的数据，以供在处理片段数据时使用。片段或像素着色器程序可配置成取决于配置用于处理单元的采样率而以样本、像素、贴片或其他粒度进行着色。

光栅操作单元526是执行包括但不限于模板、z测试、混合等的光栅操作的处理单元，并且输出像素数据作为经处理的图形数据以存储在图形存储器（例如，如图2A中的并行处理器存储器222和/或如图1中的系统存储器104）中，以在一个或多个显示装置110上显示或用于由一个或多个处理器102或并行处理器112中的一个来进一步处理。光栅操作单元526可配置成压缩写入到存储器的z或颜色数据，并且解压缩从存储器读取的z或颜色数据。

机器学习概述

上述架构可被应用于使用机器学习模型来执行训练和推断操作。机器学习已经成功解决许多类型的任务。当训练和使用机器学习算法（例如，神经网络）时产生的计算自然地使它们自己适合于高效的并行实现。因此，诸如通用图形处理单元（GPGPU）的并行处理器在深度神经网络的实际实现中已经扮演了重要的角色。具有单指令多线程（SIMT）架构的并行图形处理器设计成最大化图形流水线中的并行处理的量。在SIMT架构中，并行线程的群组试图尽可能频繁地一起同步执行程序指令以提高处理效率。由并行机器学习算法实现提供的效率允许使用高容量网络，并使得能够在更大的数据集上训练那些网络。

机器学习算法是可以基于一组数据学习的算法。例如，机器学习算法可设计成对数据集内的高级抽象建模。例如，图像识别算法可以用于确定给定输入属于若干类别中的哪个；回归算法可以在给定输入的情况下输出数值；并且模式识别算法可以用于生成翻译的文本或执行文本到语音和/或语音识别。

机器学习算法的示例性类型是神经网络。存在许多类型的神经网络；简单类型的神经网络是前馈网络。前馈网络可以被实现为非循环图，其中节点被布置在层中。通常，前馈网络拓扑包括由至少一个隐含层分开的输入层和输出层。隐含层将由输入层接收的输入变换成对于在输出层中生成输出有用的表示。网络节点经由边完全连接到相邻层中的节点，但是在每个层内的节点之间没有边。在前馈网络的输入层的节点处接收的数据经由激活函数被传播（即，“前馈”）到输出层的节点，所述激活函数基于分别与连接层的每条边相关联的系数（“权重”）来计算网络中每个连续层的节点的状态。取决于由正在执行的算法所表示的特定模型，来自神经网络算法的输出可以采取各种形式。

在机器学习算法可用于对特定问题建模之前，使用训练数据集来训练该算法。训练神经网络涉及选择网络拓扑、使用表示由网络建模的问题的训练数据的集合、以及调整权重直到网络模型对于训练数据集的所有实例以最小误差执行为止。例如，在神经网络的监督学习训练过程期间，将网络响应于表示训练数据集中的实例的输入而产生的输出与该实例的“正确”标记的输出进行比较，计算表示输出和标记的输出之间的差的误差信号，并且调节与连接相关联的权重以在误差信号向后传播通过网络的层时使该误差最小化。当从训练数据集的实例生成的每个输出的误差被最小化时，网络被认为是“经训练的”。

机器学习算法的准确性可受到用于训练该算法的数据集的质量显著影响。训练过程可以是计算密集的，并且可要求常规通用处理器上的大量时间。因此，并行处理硬件被用于训练许多类型的机器学习算法。这对于优化神经网络的训练特别有用，因为在调节神经网络中的系数中执行的计算自然地使它们自己适合于并行实现。具体地，许多机器学习算法和软件应用已适于利用通用图形处理装置内的并行处理硬件。

图6是机器学习软件栈600的概括图。机器学习应用602是可以配置成使用训练数据集来训练神经网络或者使用经训练的深度神经网络来实现机器智能的任何逻辑。机器学习应用602可以包括用于神经网络的训练和推断功能性和/或可以用于在部署之前训练神经网络的专用软件。机器学习应用602可以实现任何类型的机器智能，包括但不限于图像识别、地图绘制和定位、自主导航、语音合成、医疗成像或语言翻译。示例机器学习应用602包括但不限于基于语音的虚拟助理、图像或面部识别算法、自主导航以及用于由训练机器学习应用602使用的机器学习模型的软件工具。

可以经由机器学习框架604来实现机器学习应用602的硬件加速。机器学习框架604可以提供机器学习基元库。机器学习基元是通常由机器学习算法执行的基本操作。在没有机器学习框架604的情况下，将要求机器学习算法的开发者创建并优化与机器学习算法相关联的主要计算逻辑，然后在开发新的并行处理器时重新优化计算逻辑。替代地，机器学习应用可以配置成使用由机器学习框架604提供的基元来执行必要的计算。示例性基元包括张量卷积、激活函数和池化，它们是在训练卷积神经网络（CNN）时执行的计算操作。机器学习框架604还可以提供基元以实现由许多机器学习算法（诸如矩阵和向量运算）执行的基本线性代数子程序。机器学习框架604的示例包括但不限于TensorFlow、TensorRT、PyTorch、MXNet、Caffee和其他高级机器学习框架。

机器学习框架604可以处理从机器学习应用602接收的输入数据，并且生成到计算框架606的适当输入。计算框架606可以抽象提供给GPGPU驱动程序608的底层指令，以使机器学习框架604能够利用经由GPGPU硬件610的硬件加速，而不要求机器学习框架604具有GPGPU硬件610的架构的密切知识。另外，计算框架606可实现跨各种类型和世代的GPGPU硬件610的对机器学习框架604的硬件加速。示例性计算框架606包括CUDA计算框架和相关联的机器学习库，诸如CUDA深度神经网络（CuDNN）库。机器学习软件栈600还可包括通信库或框架以促进多GPU和多节点计算。

GPGPU机器学习加速

图7示出了通用图形处理单元700，其可以是图2A的并行处理器200或图1的（一个或多个）并行处理器112。通用处理单元（GPGPU）700可以配置成提供对由机器学习框架提供的基元的硬件加速的支持，以加速处理与训练深度神经网络相关联的计算工作负载的类型。另外，GPGPU 700可以直接链接到GPGPU的其他实例以创建多GPU集群，以提高特别是深度神经网络的训练速度。还支持基元以加速所部署的神经网络的推断操作。

GPGPU 700包括主机接口702以实现与主机处理器的连接。主机接口702可以是PCIExpress接口。然而，主机接口也可以是供应商特定的通信接口或通信组构。GPGPU 700从主机处理器接收命令，并且使用全局调度器704以将与那些命令相关联的执行线程分发到处理集群706A到706H的集合。处理集群706A-706H共享高速缓冲存储器708。高速缓冲存储器708可用作处理集群706A-706H内的高速缓冲存储器的较高级高速缓存。所示出的处理集群706A-706H可以与如图2A中的处理集群214A-214N对应。

GPGPU 700包括经由存储器控制器712A-712B的集合与处理集群706A-706H耦合的存储器714A-714B。存储器714A-714B可以包括各种类型的存储器装置，包括动态随机存取存储器（DRAM）或图形随机存取存储器，诸如同步图形随机存取存储器（SGRAM），包括图形双倍数据速率（GDDR）存储器。存储器714A-714B还可以包括3D堆叠存储器，包括但不限于高带宽存储器（HBM）。

处理集群706A-706H中的每个处理集群可包括一组图形多处理器，诸如图2D的图形多处理器234、图3A的图形多处理器325、图3B的图形多处理器350，或可包括如图3C中的多核群组365A-365N。计算集群的图形多处理器包括多种类型的整数和浮点逻辑单元，其可以在包括适于机器学习计算的精度范围上执行计算操作。例如，在处理集群706A-706H中每个处理集群中的浮点单元的至少子集可以配置成执行16位或32位浮点操作，而浮点单元的不同子集可以配置成执行64位浮点操作。

GPGPU 700的多个实例可配置成作为计算集群而操作。由计算集群用于同步和数据交换的通信机制跨实施例而不同。例如，GPGPU 700的多个实例通过主机接口702通信。在一个实施例中，GPGPU 700包括I/O集线器709，其将GPGPU 700与GPU链路710耦合，所述GPU链路710实现到GPGPU的其他实例的直接连接。GPU链路710可耦合到专用的GPU到GPU桥，所述GPU到GPU桥实现GPGPU 700的多个实例之间的通信和同步。可选地，GPU链路710与高速互连耦合以对其他GPGPU或并行处理器传送和接收数据。GPGPU 700的多个实例可位于单独的数据处理系统中，并且经由可经由主机接口702访问的网络装置进行通信。GPU链路710可配置成实现除主机接口702之外或作为其其备选方案的到主机处理器的连接。

虽然所示出的GPGPU 700配置可配置成训练神经网络，但GPGPU 700的备选配置可配置用于部署在高性能或低功率推断平台内。在推断配置中，GPGPU 700包括相对于训练配置更少的处理集群706A-706H。另外，与存储器714A-714B相关联的存储器技术可以在推断和训练配置之间不同。在一个实施例中，GPGPU 700的推断配置可支持推断特定指令。例如，推断配置可以提供对一个或多个8位整数点积指令的支持，所述一个或多个8位整数点积指令通常在用于部署的神经网络的推断操作期间使用。

图8示出了多GPU计算系统800。多GPU计算系统800可包括经由主机接口交换器804耦合到多个GPGPU 806A-806D的处理器802。主机接口交换器804可以是将处理器802耦合到PCI Express总线的PCI Express交换器装置，处理器802可通过该PCI Express总线与GPGPU806A-806D的集合通信。多个GPGPU 806A-806D中的每个可以是图7的GPGPU 700的实例。GPGPU806A-806D可经由高速点对点GPU到GPU链路816的集合互连。高速GPU到GPU的链路可经由专用GPU链路（诸如，如图7中的GPU链路710）连接到GPGPU 806A-806D中的每个GPGPU。P2P GPU链路816使得能够在GPGPU 806A-806D中的每个GPGPU之间直接通信，而不要求通过处理器802所连接到的主机接口总线的通信。在GPU到GPU业务被引导到P2P GPU链路的情况下，主机接口总线保持可用于系统存储器访问或例如经由一个或多个网络装置与多GPU计算系统800的其他实例通信。虽然在图8中GPGPU 806A-806D经由主机接口交换器804连接到处理器802，但处理器802可以备选地包括对P2P GPU链路816的直接支持并且直接连接到GPGPU 806A-806D。在一个实施例中，P2P GPU链路816使得多GPU计算系统800能够作为单个逻辑GPU来操作。

机器学习神经网络实现

本文中描述的计算架构能够被配置成执行特别适合于训练和部署用于机器学习的神经网络的那些类型的并行处理。神经网络能够被概括为具有图表关系的函数的网络。如本领域中所公知的，存在在机器学习中使用的各种类型的神经网络实现。一个示例性类型的神经网络是如前面所描述的前馈网络。

第二个示例性类型的神经网络是卷积神经网络（CNN）。CNN是用于处理具有已知的栅格状拓扑的数据（诸如图像数据）的专门的前馈神经网络。因此，CNN通常被用于计算视觉和图像识别应用，但它们也可以被用于其他类型的模式识别，诸如语音和语言处理。CNN输入层中的节点被组织为一组“过滤器”（受在视网膜中发现的感受域启发的特征检测器），并且每组过滤器的输出被传播到网络的连续层中的节点。对于CNN的计算包括对每个过滤器应用卷积数学运算来产生该过滤器的输出。卷积是由两个函数执行以产生第三函数的一种专门类型的数学运算，该第三函数是两个原始函数之一的修改版本。在卷积网络术语中，到卷积的第一函数能够被称为输入，而第二函数能够被称为卷积内核。输出可以被称为特征图。例如，到卷积层的输入能够是定义输入图像的各种颜色分量的数据的多维阵列。卷积内核能够是参数的多维阵列，其中通过用于神经网络的训练过程来适配这些参数。

循环神经网络（RNN）是包括层之间的反馈连接的一系列前馈神经网络。RNN通过跨神经网络的不同部分来共享参数数据而实现序列数据的建模。用于RNN的架构包括循环。循环代表变量的当前值在未来时间对它自身的值的影响，因为来自RNN的输出数据的至少一部分被用作反馈以便处理序列中的后续输入。由于其中能够构成语言数据的可变性质，该特征使得RNN对于语言处理特别有用。

下文描述的图呈现了示例性前馈、CNN和RNN网络，以及描述用于分别训练和部署那些类型的网络中的每个的一般过程。将理解的是，这些描述对于本文描述的任何特定实施例是示例性和非限制性的，并且所示出的概念一般大体上可应用于深度神经网络和机器学习技术。

上面描述的示例性神经网络能够被用于执行深度学习。深度学习是使用深度神经网络的机器学习。在深度学习中使用的深度神经网络是由多个隐含层构成的人工神经网络，这与只包括单个隐含层的浅层神经网络相反。更深的神经网络一般对于训练在计算上更密集。然而，网络的额外隐含层实现多步模式识别，所述多步模式识别相对于浅层机器学习技术产生减少的输出误差。

在深度学习中使用的深度神经网络通常包括用来执行特征识别的前端网络，所述前端网络耦合到后端网络，所述后端网络代表能够基于提供给模型的特征表示来执行操作（例如，对象分类、语音识别等）的数学模型。深度学习使得机器学习能够被执行而不要求为模型执行手动设计的（hand crafted）特征工程。相反，深度神经网络能够基于输入数据内的统计结构或相关性来学习特征。所学习的特征能够被提供至数学模型，所述数学模型能够将检测到的特征映射到输出。由网络使用的数学模型一般专门针对要执行的特定任务，并且不同的模型将被用来执行不同任务。

一旦神经网络被结构化，学习模型便能够被应用到网络以训练网络来执行特定任务。学习模型描述了如何调整模型内的权重来减少网络的输出误差。误差的向后传播是用来训练神经网络的常见方法。输入向量被呈现给网络以用于处理。使用损失函数将网络的输出与期望输出相比较并且为输出层中的神经元中的每个神经元计算误差值。这些误差值然后被向后传播直至每个神经元具有关联的误差值，该关联的误差值大致表示该神经元对原始输出的贡献。网络然后能够使用算法（诸如随机梯度下降算法）从那些误差中学习，以更新神经网络的权重。

图9A-9B示出了示例性卷积神经网络。图9A示出了CNN内的各种层。如图9A中所示出的，用来为图像处理建模的示例性CNN能够接收描述输入图像的红、绿和蓝（RGB）分量的输入902。输入902能够由多个卷积层（例如，卷积层904、卷积层906）处理。来自多个卷积层的输出可以可选地由一组完全连接层908处理。完全连接层中的神经元具有到前面层中的所有激活的完全连接，如前面对于前馈网络所描述的。来自完全连接层908的输出能够被用来从网络生成输出结果。能够使用矩阵乘法而不是卷积来计算完全连接层908内的激活。并非所有CNN实现都利用完全连接层908。例如，在一些实现中，卷积层906能够生成CNN的输出。

卷积层被稀疏连接，这与在完全连接层908中发现的传统神经网络配置不同。传统神经网络层被完全连接，使得每个输出单元与每个输入单元交互。然而，如所示出的，卷积层被稀疏连接，由于域的卷积的输出（而不是域中的节点中的每个节点的相应状态值）被输入到后续层的节点。与卷积层关联的内核执行卷积运算，其输出被发送至下一层。在卷积层内执行的维度降低是使得CNN能够进行缩放以处理大的图像的一个方面。

图9B示出了在CNN的卷积层内的示例性计算级。到CNN的卷积层的输入912能够在卷积层914的三个级中被处理。这三个级能够包括卷积级916、检测器级918和池化级920。卷积层914然后能够向连续卷积层输出数据。网络的最后的卷积层能够生成输出特征图数据或者提供输入到完全连接层，例如以生成对于到CNN的输入的分类值。

在卷积级916中与产生线性激活的集合并行地执行若干卷积。卷积级916能够包括仿射变换（affine transformation），所述仿射变换是能够被指定为线性变换加上平移（translation）的任何变换。仿射变换包括旋转、平移、缩放和这些变换的组合。卷积级计算连接到输入中的特定区域的函数（例如，神经元）的输出，该特定区域能够被确定为与神经元关联的局部区域。神经元计算神经元的权重与神经元被连接到的局部输入中的区域之间的点积。来自卷积级916的输出定义了由卷积层914的连续级处理的线性激活的集合。

线性激活能够由检测器级918处理。在检测器级918中，每个线性激活由非线性激活函数处理。该非线性激活函数增加了整体网络的非线性性质而不影响卷积层的感受域。可以使用若干类型的非线性激活。一个特定类型是修正线性单元（ReLU），其使用定义为f（x） = max（0, x）的激活函数，使得激活的阈值在零处。

池化级920使用池化函数，所述池化函数将卷积层906的输出替换为附近输出的汇总统计。池化函数能够被用来将平移不变性引入神经网络中，使得对输入的小的平移不会更改池化的输出。在其中输入数据中特征的存在比特征的精确位置更重要的情形中，局部平移的不变性能够是有用的。在池化级920期间能够使用各种类型的池化函数，包括最大池化、平均池化和l2范数池化。另外，一些CNN实现不包括池化级。此类实现而是替代为相对于先前的卷积级具有增加步距（stride）的额外卷积级。

来自卷积层914的输出然后能够由下一层922处理。下一层922能够是另外卷积层或完全连接层908中的一个完全连接层。例如，图9A的第一卷积层904能够向第二卷积层906输出，而第二卷积层能够向完全连接层908的第一层输出。

图10示出了示例性循环神经网络1000。在循环神经网络（RNN）中，网络的先前状态影响网络的当前状态的输出。能够使用各种函数以各种方式来构建RNN。RNN的使用一般涉及围绕着使用数学模型以基于输入的之前的序列来预测未来。例如，RNN可以被用来执行统计语言建模以在给定单词的先前序列的情况下预测即将出现的单词。所示出的RNN 1000能够被描述为具有接收输入向量的输入层1002、实现循环功能的隐含层1004、实现先前状态的“记忆”的反馈机制1005和用来输出结果的输出层1006。RNN 1000基于时间步骤进行操作。RNN在给定时间步骤的状态经由反馈机制1005基于先前的时间步骤而受影响。对于给定时间步骤，隐含层1004的状态由先前的状态和在当前时间步骤的输入定义。在第一时间步骤的初始输入（x₁）能够由隐含层1004处理。第二输入（x₂）能够由隐含层1004使用在初始输入（x₁）的处理期间确定的状态信息来进行处理。给定状态能够被计算为s _t=f（Ux _t+Ws _t-1），其中U和W是参数矩阵。函数f一般是非线性的，诸如双曲正切函数（Tanh）或修正函数f（x） =max（0, x）的变体。然而，在隐含层1004中使用的特定数学函数能够取决于RNN 1000的特定实现细节而变化。

除描述的基本CNN和RNN网络之外，还可以实现针对那些网络上的变体的加速。一个示例RNN变体是长短期记忆（LSTM）RNN。LSTM RNN能学习长期依赖性，所述长期依赖性可以对于处理语言的较长序列是必需的。关于CNN的变体是卷积深度信念网络，其具有与CNN类似的结构并且采用与深度信念网络类似的方式来被训练。深度信念网络（DBN）是生成式神经网络，其由多层概率性（随机）变量构成。能够使用贪婪无监督学习来逐层训练DBN。DBN的所学习的权重然后能够被用来通过确定用于神经网络的最佳初始权重集合而提供预训练神经网络。在进一步的实施例中，能够加速强化学习。在强化学习中，人工代理通过与其环境交互来学习。代理配置成优化某些目标以最大化累积奖励。

图11示出了深度神经网络的训练和部署。一旦已经针对任务将给定网络结构化，便使用训练数据集1102来训练神经网络。已开发各种训练框架1104以实现训练过程的硬件加速。例如，图6的机器学习框架604可以被配置为训练框架604。训练框架604能够挂接到未经训练的神经网络1106中并且使得该未经训练的神经网络能够使用本文中描述的并行处理资源被训练以生成经训练的神经网络1108。

为开始训练过程，可以随机地或通过使用深度信念网络的预训练来选择初始权重。然后采用受监督或无监督方式执行训练循环。

受监督学习是其中训练作为中介式操作（mediated operation）被执行的学习方法，诸如在训练数据集1102包括与对于输入的期望输出配对的输入时，或者在训练数据集包括具有已知输出的输入和神经网络的输出被人工分级的情况下。网络处理输入并且将所得到的输出与一组预期或期望输出进行比较。误差然后通过系统被向后传播。训练框架1104能够进行调整以调整控制未经训练的神经网络1106的权重。训练框架1104能够提供工具以监测未经训练的神经网络1106在多大程度上朝向适合基于已知输入数据来生成正确应答的模型收敛。随着调整网络的权重以改善由神经网络生成的输出，训练过程反复进行。训练过程能够持续直至神经网络达到与经训练的神经网络1108关联的统计上期望的准确度。然后能够部署经训练的神经网络1108以实现任何数量的机器学习操作以生成基于新数据1112的输入的推断结果1114。

无监督学习是其中网络尝试使用未标注数据来训练自身的学习方法。因此，对于无监督学习，训练数据集1102将包括输入数据而无任何关联的输出数据。未经训练的神经网络1106能够学习未标注输入内的分组并且能够确定各个输入如何与整体数据集相关。无监督训练能够被用来生成自组织图，所述自组织图是能执行在减少数据的维度中有用的操作的经训练的神经网络1108的类型。无监督训练还能够被用来执行异常检测，所述异常检测允许标识输入数据集中偏离数据的正常模式的数据点。

还可以采用关于受监督和无监督训练的变体。半监督学习是其中训练数据集1102包括相同分布的标注和未标注数据的混合的技术。增量学习（incremental learning）是受监督学习的变体，其中输入数据被连续地用来进一步训练模型。增量学习使得经训练的神经网络1108能够适应于新的数据1112而不会忘记初始训练期间在网络内灌输的知识。

无论是受监督的还是无监督的，特别针对深度神经网络的训练过程对于单个计算节点来说可能是过于计算密集的。代替使用单个计算节点，计算节点的分布式网络能够被用来加速训练过程。

图12A是示出分布式学习的框图。分布式学习是使用多个分布式计算节点来执行神经网络的受监督或无监督训练的训练模型。分布式计算节点各自能够包括一个或多个主机处理器和通用处理节点中的一个或多个通用处理节点，诸如，如图7中的高度并行通用图形处理单元700。如所示出的，能够用模型并行1202、数据并行1204或模型和数据并行的组合1206执行分布式学习。

在模型并行1202中，分布式系统中的不同计算节点能够为单个网络的不同部分执行训练计算。例如，神经网络的每个层能够由分布式系统的不同处理节点训练。模型并行的益处包括扩展到特别大的模型的能力。分割与神经网络的不同层关联的计算使得能够实现非常大的神经网络的训练，在所述非常大的神经网络中所有层的权重将不适合单个计算节点的存储器。在一些实例中，模型并行可以在执行大的神经网络的无监督训练中特别有用。

在数据并行1204中，分布式网络的不同节点具有模型的完整实例并且每个节点接收数据的不同部分。来自不同节点的结果然后被组合。尽管对于数据并行的不同方法是可能的，但数据并行训练方法全部要求在每个节点之间同步模型参数和组合结果的技术。对组合数据的示例性方法包括参数平均化和基于更新的数据并行。参数平均化在训练数据的子集上训练每个节点并且将全局参数（例如，权重、偏置）设置成来自每个节点的参数的平均。参数平均化使用维持参数数据的中央参数服务器。基于更新的数据并行类似于参数平均化，除了不是将来自节点的参数传送到参数服务器，而是传送对模型的更新。另外，能够以分散的方式执行基于更新的数据并行，其中更新被压缩并且在节点之间传送。

组合的模型和数据并行1206能够例如在分布式系统中被实现，在所述分布式系统中每个计算节点包括多个GPU。每个节点能够具有模型的完整实例，其中每个节点内的单独GPU被用来训练模型的不同部分。

分布式训练相对于在单个机器上的训练具有增加的开销。然而，本文中描述的并行处理器和GPGPU各自能够实现用来减少分布式训练的开销的各种技术，包括用来实现高带宽GPU到GPU数据传送和加速的远程数据同步的技术。

图12B是示出可编程网络接口1210和数据处理单元的框图。可编程网络接口1210是可编程网络引擎，其可以用于在分布式环境内加速基于网络的计算任务。可编程网络接口1210可以经由主机接口1270与主机系统耦合。可编程网络接口1210可以用于加速主机系统的CPU或GPU的网络或存储操作。主机系统可以是例如用于执行分布式训练的分布式学习系统的节点，例如，如图12A中所示。主机系统还可以是数据中心内的数据中心节点。

在一个实施例中，对包含模型数据的远程存储设备的访问可由可编程网络接口1210加速。例如，可编程网络接口1210可以配置成向主机系统将远程存储装置呈现为本地存储装置。可编程网络接口1210还可以加速在主机系统的GPU与远程系统的GPU之间执行的远程直接存储器访问（RDMA）操作。在一个实施例中，可编程网络接口1210可以启用存储功能性，诸如但不限于NVME-oF。可编程网络接口1210还可以代表主机系统加速加密、数据完整性、压缩和用于远程存储设备的其他操作，允许远程存储设备接近直接附接到主机系统的存储装置的时延。

可编程网络接口1210还可以代表主机系统执行资源分配和管理。存储安全操作可以卸载到可编程网络接口1210，并且与远程存储资源的分配和管理相协作执行。用于管理对远程存储设备的访问的基于网络的操作（在其他情况下将由主机系统的处理器执行）可以替代地由可编程网络接口1210执行。

在一个实施例中，网络和/或数据安全操作可以从主机系统卸载到可编程网络接口1210。用于数据中心节点的数据中心安全策略可以由可编程网络接口1210而不是主机系统的处理器来处置。例如，可编程网络接口1210可以检测和减轻对主机系统的企图的基于网络的攻击（例如DDoS），防止该攻击损害主机系统的可用性。

可编程网络接口1210可以包括经由多个处理器核1222执行操作系统的片上系统（SoC 1220）。处理器核1222可以包括通用处理器（例如，CPU）核。在一个实施例中，处理器核1222还可包括一个或多个GPU核。SoC 1220可执行存储在存储器装置1240中的指令。存储装置1250可以存储本地操作系统数据。存储装置1250和存储器装置1240也可以用于高速缓存主机系统的远程数据。网络端口1260A-1260B实现到网络或组构的连接，并且促进对SoC1220的网络访问，以及促进经由主机接口1270的对主机系统的网络访问。可编程网络接口1210还可包括I/O接口1275，诸如USB接口。I/O接口1275可以用于将外部装置耦合到可编程网络接口1210或者作为调试接口。可编程网络接口1210还包括管理接口1230，其使得主机装置上的软件能够管理和配置可编程网络接口1210和/或SoC 1220。在一个实施例中，可编程网络接口1210还可以包括一个或多个加速器或GPU1245，以接受来自SoC 1220、主机系统或经由网络端口1260A-1260B耦合的远程系统的并行计算任务的卸载。

示例性机器学习应用

机器学习能够被应用来解决多种技术问题，包含但不限于计算机视觉、自主驾驶和导航、语音识别以及语言处理。计算机视觉传统上一直是机器学习应用的最活跃研究领域之一。计算机视觉的应用范围从再现人类视觉能力（诸如识别面部）到创建新类别的视觉能力。例如，计算机视觉应用能够被配置成识别来自视频中可见的对象中引发的振动的声波。并行处理器加速的机器学习使得能够使用比先前可行的明显更大的训练数据集来训练计算机视觉应用并且使得能够使用低功率并行处理器来部署推理系统。

并行处理器加速的机器学习具有自主驾驶应用，包含车道和道路标志识别、障碍回避、导航和驾驶控制。加速的机器学习技术能够被用来基于定义对特定训练输入的适当响应的数据集来训练驾驶模型。本文中描述的并行处理器能够使得用于自主驾驶解决方案的日益复杂的神经网络的快速训练能够实现，并且使得能够实现在适合用于集成到自主运载工具中的移动平台中低功率推理处理器的部署。

并行处理器加速的深度神经网络已使得能够实现对自动语音识别（ASR）的机器学习方法。ASR包含函数的创建，所述函数在给定输入声音序列的情况下计算最可能语言序列。使用深度神经网络的加速的机器学习已使得能够实现对之前用于ASR的隐马尔可夫模型（HMM）和高斯混合模型（GMM）的替换。

并行处理器加速的机器学习还能够被用来加速自然语言处理。自动学习过程能够利用统计推理算法来产生对错误或不熟悉输入鲁棒的模型。示例性自然语言处理器应用包括在人类语言之间的自动机器翻译。

用于机器学习的并行处理平台能够被分成训练平台和部署平台。训练平台一般是高度并行的并且包括用来加速多GPU单节点训练和多节点多GPU训练的优化。适合于训练的示例性并行处理器包括图7的通用图形处理单元700和/或图8的多GPU计算系统800。与此相反，部署的机器学习平台一般包括适合于供诸如相机、自主机器人和自主运载工具之类的产品中使用的较低功率并行处理器。

另外，可以应用机器学习技术来加速或增强图形处理活动。例如，机器学习模型可被训练成识别由GPU加速应用生成的输出并生成该输出的高层次版本。可以应用这样的技术来加速游戏应用的高分辨率图像的生成。各种其他图形流水线活动可受益于机器学习的使用。例如，机器学习模型可以被训练成对几何数据执行曲面细分操作以增加几何模型的复杂度，允许从相对较低细节的几何形状自动生成精细细节的几何形状。

图13示出了适合用于使用经训练的模型来执行推理的示例性推理片上系统（SOC）1300。SOC 1300能够集成处理组件，包含媒体处理器1302、视觉处理器1304、GPGPU 1306和多核处理器1308。GPGPU 1306可以是如本文中所述的GPGPU，诸如GPGPU 700，并且多核处理器1308可以是本文中所述的多核处理器，例如多核处理器405-406。SOC 1300能够另外包含片上存储器1305，所述片上存储器1305能够实现处理组件中的每个处理组件可访问的共享片上数据池。处理组件能够被优化以用于低功率操作来使得能够实现到各种机器学习平台的部署，所述各种机器学习平台包含自主运载工具和自主机器人。例如，SOC 1300的一个实现能够被用作用于自主运载工具的主控制系统的一部分。在SOC 1300被配置供在自主运载工具中使用的情况下，SOC被设计且配置用于遵从部署管辖区域的相关功能安全标准。

在操作期间，媒体处理器1302和视觉处理器1304能够协同工作以加速计算机视觉操作。媒体处理器1302能够实现多个高分辨率（例如，4K、8K）视频流的低时延解码。解码的视频流能够被写入到片上存储器1305中的缓冲区。视觉处理器1304然后能够解析解码的视频并且使用经训练的图像识别模型在处理帧的准备中对解码的视频的帧执行初步处理操作。例如，视觉处理器1304能够为用来对高分辨率视频数据执行图像识别的CNN加速卷积运算，而后端模型计算由GPGPU 1306执行。

多核处理器1308能够包含控制逻辑以协助由媒体处理器1302和视觉处理器1304执行的数据传送和共享存储器操作的定序和同步。多核处理器1308还能够充当应用处理器以执行能够利用GPGPU 1306的推理计算能力的软件应用。例如，导航和驾驶逻辑的至少一部分能够在多核处理器1308上执行的软件中被实现。此类软件能够直接向GPGPU 1306发布计算工作负载或者计算工作负载能够被发布到多核处理器1308，所述多核处理器1308能够向GPGPU 1306卸载那些操作的至少一部分。

GPGPU 1306能够包含计算集群，诸如通用图形处理单元700内的处理集群706A-706H的低功率配置。GPGPU 1306内的计算集群能够支持被专门优化以在经训练的神经网络上执行推理计算的指令。例如，GPGPU 1306能够支持用来执行诸如8位和4位整数向量运算之类的低精度计算的指令。

附加系统概述

图14是处理系统1400的框图。具有与本文中任何其他图的元件相同或相似名称的图14的元件描述与其他附图中相同的元件，可以以与所述相同的元件相似的方式操作或起作用，可以包括所述相同的组件，并且可以链接到其他实体，如本文中其他地方描述的那些，但不限于此。系统1400可以用于单处理器桌面系统、多处理器工作站系统或具有大量处理器1402或处理器核1407的服务器系统。系统1400可以是并入片上系统（SoC）集成电路内的处理平台，以供在移动、手持式或嵌入式装置中（诸如在具有到局域网或广域网的有线或无线连接性的物联网（IoT）装置内）使用。

系统1400可以是具有与图1的组件相对应的组件的处理系统，例如，在不同的配置中，（一个或多个）处理器1402或（一个或多个）处理器核1407可以与图1的（一个或多个）处理器102相对应。（一个或多个）图形处理器1408可以与图1的（一个或多个）并行处理器112相对应。外部图形处理器1418可以是图1的（一个或多个）插件装置120之一。

系统1400能够包括以下各项、与以下各项耦合或者被集成在以下各项内：基于服务器的游戏平台；游戏控制台，包括游戏和媒体控制台；移动游戏控制台、手持式游戏控制台或在线游戏控制台。系统1400可以是以下各项的一部分：移动电话、智能电话、平板计算装置或移动互联网连接的装置，诸如带有低内部存储容量的膝上型电脑。处理系统1400还能够包括以下各项、与以下各项耦合或者被集成在以下各项内：可穿戴装置，诸如智能手表可穿戴装置；智能眼镜或服装，其用增强现实（AR）或虚拟现实（VR）特征来被增强以提供视觉、音频或触觉输出以补充现实世界视觉、音频或触觉体验或者以其他方式提供文本、音频、图形、视频、全息图像或视频、或者触觉反馈；其他增强现实（AR）装置；或者其他虚拟现实（VR）装置。处理系统1400可以包括或者是电视或机顶盒装置，或者是电视或机顶盒装置的一部分。系统1400能够包括以下各项、与以下各项耦合或者被集成在以下各项内：自动驾驶交通工具，诸如公共汽车、牵引车拖车、汽车、摩托车或电动自行车、飞机或滑翔机（或其任何组合）。自动驾驶交通工具可以使用系统1400来处理在交通工具周围感测到的环境。

一个或多个处理器1402可以包括一个或多个处理器核1407以处理指令，所述指令在被执行时，执行用于系统或用户软件的操作。一个或多个处理器核1407中的至少一个处理器核可以被配置成处理特定指令集1409。指令集1409可以促进复杂指令集计算（CISC）、精简指令集计算（RISC）或经由超长指令字（VLIW）的计算。一个或多个处理器核1407可以处理不同指令集1409，所述指令集1409可以包括用来促进对其他指令集的仿真的指令。处理器核1407还可以包括其他处理装置，诸如数字信号处理器（DSP）。

处理器1402可以包括高速缓冲存储器1404。取决于架构，处理器1402能够具有单个内部高速缓存或多个级别的内部高速缓存。在一些实施例中，在处理器1402的各种组件之间共享高速缓冲存储器。在一些实施例中，处理器1402还使用外部高速缓存（例如，3级（L3）高速缓存或末级高速缓存（LLC））（未示出），其可以在使用已知高速缓存一致性技术的处理器核1407之间被共享。寄存器堆1406能够另外被包括在处理器1402中，并且可以包括用于存储不同类型的数据的不同类型的寄存器（例如，整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器）。一些寄存器可以是通用寄存器，而其他寄存器可以特定于处理器1402的设计。

一个或多个处理器1402可以与一个或多个接口总线1410耦合，以在处理器1402与在系统1400中的其他组件之间传送通信信号，诸如地址、数据或控制信号。接口总线1410在这些实施例之一中能够是处理器总线，诸如某一版本的直接媒体接口（DMI）总线。然而，处理器总线不限于DMI总线，并且可以包括一个或多个外设组件互连总线（例如，PCI、PCIexpress）、存储器总线或其他类型的接口总线。例如，（一个或多个）处理器1402可以包括集成存储器控制器1416和平台控制器集线器1430。存储器控制器1416促进在存储器装置与系统1400的其他组件之间的通信，而平台控制器集线器（PCH）1430经由本地I/O总线提供到I/O装置的连接。

存储器装置1420能够是动态随机存取存储器（DRAM）装置、静态随机存取存储器（SRAM）装置、闪速存储器装置、相变存储器装置或具有适合性能以充当进程存储器的某一其他存储器装置。存储器装置1420例如能够作为用于系统1400的系统存储器进行操作，以存储数据1422和指令1421以便在一个或多个处理器1402执行应用或进程时使用。存储器控制器1416还与可选的外部图形处理器1418耦合，所述外部图形处理器1418可以与处理器1402中的一个或多个图形处理器1408进行通信以执行图形和媒体操作。在一些实施例中，可以由加速器1412协助图形、媒体和/或计算操作，所述加速器1412是能够被配置成执行专门的一组图形、媒体或计算操作的协处理器。例如，加速器1412可以是用来优化机器学习或计算操作的矩阵乘法加速器。加速器1412可以是光线追踪加速器，其能够被用来与图形处理器1408协同执行光线追踪操作。在一个实施例中，可以使用外部加速器1419来替代加速器1412或与加速器1412协同。

可以提供能够连接到（一个或多个）处理器1402的显示装置1411。显示装置1411能够是如在移动电子装置或膝上型装置中的内部显示装置或者经由显示接口（例如，DisplayPort等）附接的外部显示装置中的一个或多个。显示装置1411能够是头戴式显示器（HMD），诸如供在虚拟现实（VR）应用或增强现实（AR）应用中使用的立体显示装置。

平台控制器集线器1430可以使得外设能经由高速I/O总线连接到存储器装置1420和处理器1402。I/O外设包括但不限于音频控制器1446、网络控制器1434、固件接口1428、无线收发器1426、触摸传感器1425、数据存储装置1424（例如，非易失性存储器、易失性存储器、硬盘驱动器、闪速存储器、NAND、3D NAND、3D XPoint/Optane等）。数据存储装置1424能够经由存储接口（例如，SATA）或经由诸如外设组件互连总线（例如，PCI、PCI express）的外设总线进行连接。触摸传感器1425能够包括触摸屏传感器、压力传感器或指纹传感器。无线收发器1426能够是Wi-Fi收发器、蓝牙收发器或诸如3G、4G、5G或长期演进（LTE）收发器之类的移动网络收发器。固件接口1428使得能够与系统固件通信，并且能够是例如统一可扩展固件接口（UEFI）。网络控制器1434可实现到有线网络的网络连接。在一些实施例中，高性能网络控制器（未示出）与接口总线1410耦合。音频控制器1446可以是多通道高清晰度音频控制器。在这些实施例中的一些实施例中，系统1400包括用于将传统（例如，个人系统2（PS/2））装置耦合到系统的可选的传统I/O控制器1440。平台控制器集线器1430还能够连接到一个或多个通用串行总线（USB）控制器1442连接输入装置，诸如键盘和鼠标1443组合、相机1444或其他USB输入装置。

将领会的是，示出的系统1400是示例性的并且不是限制性的，因为以不同方式配置的其他类型的数据处理系统也可以被使用。例如，存储器控制器1416和平台控制器集线器1430的实例可以被集成到分立的外部图形处理器（诸如外部图形处理器1418）中。平台控制器集线器1430和/或存储器控制器1416可以在一个或多个处理器1402的外部。例如，系统1400能够包括外部存储器控制器1416和平台控制器集线器1430，其可以被配置为与（一个或多个）处理器1402通信的系统芯片组内的存储器控制器集线器和外设控制器集线器。

例如，可以使用电路板（“橇板（sled）”），其上放置诸如CPU、存储器和其他组件之类的组件，其被设计用于提高热性能。诸如处理器的处理组件可以位于橇板的顶侧，而诸如DIMM的近存储器位于橇板的底侧。作为由这种设计提供的增强气流的结果，组件可以在比典型系统中更高的频率和功率水平下操作，从而提高性能。此外，橇板配置成与机架中的电力和数据通信缆线盲配合，从而增强它们被快速移除、升级、重新安装和/或更换的能力。类似地，位于SLED上的各个组件（诸如处理器、加速器、存储器和数据存储驱动器）配置成由于它们与彼此的增加的间距而容易被升级。在说明性实施例中，组件另外包括硬件证明特征以证明它们的真实性。

数据中心能够利用单个网络架构（“组构”），所述单个网络架构支持包括以太网和全路径的多个其他网络架构。橇板能够经由光纤被耦合到交换机，所述光纤提供比典型双绞线缆线（例如，类别5、类别5e、类别6等）更高的带宽和更低的时延。由于高带宽、低时延互连和网络架构，数据中心可以使用在物理上分解的池资源（诸如存储器、加速器（例如，GPU、图形加速器、FPGA、ASIC、神经网络和/或人工智能加速器等）以及数据存储驱动器），并且在按需基础上将它们提供到计算资源（例如，处理器），使得计算资源能访问池化资源，如同池化资源是本地的一样。

功率供应器或功率源能够提供电压和/或电流到本文中描述的系统1400或者任何组件或系统。在一个示例中，功率供应器包括用来插入到墙上插座的AC到DC（交流电到直流电）适配器。此类AC电力能够是可再生能（例如，太阳能）功率源。在一个示例中，功率源包括DC功率源，诸如外部AC到DC转换器。功率源或功率供应器可以还包括无线充电硬件以经由接近充电场进行充电。功率源能够包括内部电池、交流电供应器、基于运动的功率供应器、太阳能供应器或燃料电池源。

图15A-15C示出计算系统和图形处理器。具有与本文中任何其他附图的元件相同或相似名称的图15A-15C的元件描述与其他图中相同的元件，可以以与所述相同的元件相似的方式操作或起作用，可以包括所述相同的组件，并且可以链接到其他实体，如本文中其他地方描述的那些，但不限于此。

图15A是处理器1500的框图，其可以是处理器1402之一的变体，并且可以用于代替那些处理器1402之一。因此，本文中与处理器1500组合的任何特征的公开还公开了与（一个或多个）处理器1402的对应组合，但不限于此。处理器1500可以具有一个或多个处理器核1502A-1502N、集成存储器控制器1514和集成图形处理器1508。在排除集成图形处理器1508的情况下，包括处理器的系统将包括系统芯片组内或经由系统总线耦合的图形处理器装置。处理器1500能够包括附加核，所述附加核多达并且包括由虚线框表示的附加核1502N。处理器核1502A-1502N中的每个处理器核包括一个或多个内部高速缓存单元1504A-1504N。在一些实施例中，每个处理器核还可以访问一个或多个共享高速缓存单元1506。内部高速缓存单元1504A-1504N和共享高速缓存单元1506表示处理器1500内的高速缓冲存储器层级。高速缓冲存储器层级可以包括在每个处理器核内的至少一级的指令和数据高速缓存，以及一级或多级的共享中间级高速缓存，诸如2级（L2）、3级（L3）、4级（L4）或其他级的高速缓存，其中在外部存储器前的最高级的高速缓存被分类为LLC。在一些实施例中，高速缓存一致性逻辑维持各种高速缓存单元1506与1504A-1504N之间的一致性。

处理器1500还可以包括一组一个或多个总线控制器单元1516和系统代理核1510。一个或多个总线控制器单元1516管理一组外设总线，诸如一个或多个PCI或PCI express总线。系统代理核1510提供用于各种处理器组件的管理功能性。系统代理核1510可以包括一个或多个集成存储器控制器1514以管理对各种外部存储器装置（未示出）的访问。

例如，处理器核1502A-1502N中的一个或多个处理器核可以包括对同时多线程的支持。系统代理核1510包括用于在多线程的处理期间协调和操作核1502A-1502N的组件。系统代理核1510可以另外包括功率控制单元（PCU），所述功率控制单元（PCU）包括用来调节处理器核1502A-1502N和图形处理器1508的功率状态的逻辑和组件。

处理器1500另外包括用来执行图形处理操作的图形处理器1508。在这些实施例中的一些实施例中，图形处理器1508与一组共享高速缓存单元1506和包括一个或多个集成存储器控制器1514的系统代理核1510耦合。系统代理核1510还可以包括用来驱动到一个或多个耦合的显示器的图形处理器输出的显示控制器1511。显示控制器1511还可以是经由至少一个互连与图形处理器耦合的单独模块，或者可以被集成在图形处理器1508内。

基于环的互连单元1512被用来耦合处理器1500的内部组件。然而，可以使用备选互连单元，诸如点对点互连、交换互连或其他技术，包括本领域中公知的技术。在这些实施例中的一些实施例中，利用基于环的互连1512，图形处理器1508经由I/O链路1513与环形互连1512耦合。

示例性I/O链路1513表示多个种类的I/O互连中的至少一个，包括促进在各种处理器组件与诸如eDRAM模块的高性能嵌入式存储器模块1518之间的通信的封装上I/O互连。可选地，处理器核1502A-1502N中的每个处理器核和图形处理器1508能够使用嵌入式存储器模块1518作为共享末级高速缓存。

处理器核1502A-1502N可以例如是执行相同指令集架构的同质核。备选地，处理器核1502A-1502N在指令集架构（ISA）方面是异质的，其中处理器核1502A-1502N中的一个或多个处理器核执行第一指令集，而其他核中的至少一个核执行第一指令集的子集或不同指令集。处理器核1502A-1502N可以在微架构方面是异质的，其中具有相对较高功耗的一个或多个核与具有较低功耗的一个或多个功率核耦合。作为另一示例，处理器核1502A-1502N在计算能力方面是异质的。另外，处理器1500能够在一个或多个芯片上被实现，或者被实现为除其他组件外还具有图示的组件的SoC集成电路。

图15B是根据本文中描述的一些实施例的图形处理器核1519的硬件逻辑的框图。有时被称为核切片（core slice）的图形处理器核1519能够是模块化图形处理器内的一个或多个图形核。图形处理器核1519是一个图形核切片的示例，并且如本文中所述的图形处理器可以基于目标功率和性能包络而包括多个图形核切片。每个图形处理器核1519能够包括与也称为子切片的多个子核1521A-1521F耦合的固定功能块1530，所述多个子核1521A-1521F包括通用和固定功能逻辑的模块化块。

固定功能块1530可以包括几何/固定功能流水线1531，所述几何/固定功能流水线1531能够例如在更低性能/或更低功率图形处理器实现中由图形处理器核1519中的所有子核共享。几何/固定功能流水线1531可以包括3D固定功能流水线（例如，下文所述的如图16A中的3D流水线1612）、视频前端单元、线程派生器（thread spawner）和线程分派器、以及管理统一返回缓冲器（例如，如下文所述的在图17中的统一返回缓冲器1718）的统一返回缓冲器管理器。

固定功能块1530还可以包括图形SoC接口1532、图形微控制器1533和媒体流水线1534。图形SoC接口1532提供图形处理器核1519与片上系统集成电路内的其他处理器核之间的接口。图形微控制器1533是可编程子处理器，其可配置成管理图形处理器核1519的各种功能，包括线程分派、调度和抢占。媒体流水线1534（例如，图16A和图17的媒体流水线1616）包括用来促进多媒体数据（包括图像和视频数据）的解码、编码、预处理和/或后处理的逻辑。媒体流水线1534经由对子核1521A-1521F内的计算或采样逻辑的请求来实现媒体操作。

SoC接口1532可以使得图形处理器核1519能够与通用应用处理器核（例如，CPU）和/或SoC内的其他组件（包括存储器层级元件，诸如共享末级高速缓冲存储器、系统RAM和/或嵌入式片上或封装上DRAM）进行通信。SoC接口1532还可实现与SoC内的固定功能器件（诸如相机成像流水线）的通信，并且实现全局存储器原子的使用和/或实现全局存储器原子，可以在图形处理器核1519与SoC内的CPU之间共享所述全局存储器原子。SoC接口1532还可实现用于图形处理器核1519的功率管理控制，并且实现图形核1519的时钟域与SoC内的其他时钟域之间的接口。可选地，SoC接口1532使得能够接收来自命令流送器（commandstreamer）和全局线程分派器的命令缓冲器，所述命令缓冲器被配置成向图形处理器内的一个或多个图形核中的每个图形核提供命令和指令。命令和指令能够在要执行媒体操作时被分派到媒体流水线1534，或者在要执行图形处理操作时被分派到几何和固定功能流水线（例如，几何和固定功能流水线1531、几何和固定功能流水线1537）。

图形微控制器1533能够被配置成执行用于图形处理器核1519的各种调度和管理任务。在一个配置中，图形微控制器1533能够例如在子核1521A-1521F内的执行单元（EU）阵列1522A-1522F、1524A-1524F内的各种图形并行引擎上执行图形和/或计算工作负载调度。在此工作负载调度中，在包括图形处理器核1519的SoC的CPU核上执行的主机软件能够提交工作负载给多个图形处理器门铃之一，这调取在适当图形引擎上的调度操作。调度操作包括确定接下来要运行哪个工作负载，向命令流送器提交工作负载，对在引擎上运行的现有工作负载进行抢占，监测工作负载的进展，以及在工作负载完成时通知主机软件。可选地，图形微控制器1533还能够促进图形处理器核1519的低功率或空闲状态，从而为图形处理器核1519提供独立于操作系统和/或系统上的图形驱动器软件跨低功率状态转变来对图形处理器核1519内的寄存器进行保存和恢复的能力。

图形处理器核1519可以具有多于或少于图示的子核1521A-1521F，多达N个模块化子核。对于每组N个子核，图形处理器核1519还能够包括共享功能逻辑1535、共享和/或高速缓冲存储器1536、几何/固定功能流水线1537以及用来加速各种图形和计算处理操作的附加固定功能逻辑1538。共享功能逻辑1535能够包括与图17的共享功能逻辑1720关联的逻辑单元（例如，采样器、数学和/或线程间通信逻辑），所述逻辑单元能够由图形处理器核1519内的每N个子核共享。共享和/或高速缓冲存储器1536能够是用于图形处理器核1519内的一组N个子核1521A-1521F的末级高速缓存，并且还能够充当可由多个子核访问的共享存储器。几何/固定功能流水线1537能够代替固定功能块1530内的几何/固定功能流水线1531而被包括，并且能够包括相同或类似的逻辑单元。

图形处理器核1519可以包括附加固定功能逻辑1538，其能够包括供图形处理器核1519使用的各种固定功能加速逻辑。可选地，附加固定功能逻辑1538包括供在仅位置着色中使用的附加几何流水线。在仅位置着色中，存在两个几何流水线：几何/固定功能流水线1538、1531内的完全几何流水线；以及剔除流水线（cull pipeline），其是可以被包括在附加固定功能逻辑1538内的附加几何流水线。例如，剔除流水线可以是完全几何流水线的裁减版本。完全流水线和剔除流水线能够执行相同应用的不同实例，每个实例具有单独的上下文。仅位置着色能够隐藏被丢弃三角形的长剔除运行，使得在一些实例中能更早完成着色。例如，附加固定功能逻辑1538内的剔除流水线逻辑能够执行与主应用并行的位置着色器，并且一般比完全流水线更快生成关键结果，因为剔除流水线仅获取并且着色顶点的位置属性而不向帧缓冲器执行像素的光栅化和渲染。剔除流水线能够使用生成的关键结果来计算用于所有三角形的可见性信息，而不考虑那些三角形是否被剔除。完全流水线（其在此实例中可以被称为重放流水线）能够消耗可见性信息以跳过被剔除的三角形，以仅对最终被传递到光栅化阶段的可见三角形进行着色。

可选地，附加固定功能逻辑1538还能够包括诸如固定功能矩阵乘法逻辑的机器学习加速逻辑，以用于包括针对机器学习训练或推理的优化的实现。

在每个图形子核1521A-1521F内包括一组执行资源，其可以用于响应于图形流水线、媒体流水线或着色器程序的请求而执行图形、媒体和计算操作。图形子核1521A-1521F包括多个EU阵列1522A-1522F、1524A-1524F、线程分派和线程间通信（TD/IC）逻辑1523A-1523F、3D（例如，纹理）采样器1525A-1525F、媒体采样器1526A-1526F、着色器处理器1527A-1527F及共享本地存储器（SLM）1528A-1528F。EU阵列1522A-1522F、1524A-1524F各自包括多个执行单元，所述多个执行单元是能够为图形、媒体或计算操作（包括图形、媒体或计算着色器程序）服务而执行浮点和整数/定点逻辑运算的通用图形处理单元。TD/IC逻辑1523A-1523F执行用于子核内的执行单元的本地线程分派和线程控制操作，并且促进在子核的执行单元上执行的线程之间的通信。3D采样器1525A-1525F能够将纹理或其他3D图形有关数据读取到存储器中。3D采样器能够基于配置的样本状态和与给定纹理关联的纹理格式来以不同方式读取纹理数据。媒体采样器1526A-1526F能够基于与媒体数据关联的类型和格式来执行类似的读取操作。例如，每个图形子核1521A-1521F能够交替包括统一3D和媒体采样器。在子核1521A-1521F中的每个子核内的执行单元上执行的线程能够利用每个子核内的共享本地存储器1528A-1528F，以使得在线程群组内执行的线程能使用片上存储器的公共池来执行。

图15C是根据本文中描述的实施例的能够被配置为图形处理器（例如，图形处理器1508）和/或计算加速器的通用图形处理单元（GPGPU）1570的框图。GPGPU 1570能够经由一个或多个系统和/或存储器总线与主机处理器（例如，一个或多个CPU 1546）和存储器1571、1572互连。存储器1571可以是能够由一个或多个CPU 1546共享的系统存储器，而存储器1572是专用于GPGPU 1570的装置存储器。例如，装置存储器1572和GPGPU 1570内的组件可被映射到一个或多个CPU 1546可访问的存储器地址中。可经由存储器控制器1568来促进对存储器1571和1572的访问。存储器控制器1568可以包括内部直接存储器存取（DMA）控制器1569，或者能够包括逻辑以执行在其他情况下将由DMA控制器执行的操作。

GPGPU 1570包括多个高速缓冲存储器，包括L2高速缓存1553、L1高速缓存1554、指令高速缓存1555和共享存储器1556，该共享存储器1556的至少一部分也可被分区为高速缓冲存储器。GPGPU 1570还包括多个计算单元1560A-1560N。每个计算单元1560A-1560N包括向量寄存器1561、标量寄存器1562、向量逻辑单元1563和标量逻辑单元1564的集合。计算单元1560A-1560N还能够包括本地共享存储器1565和程序计数器1566。计算单元1560A-1560N能够与常量高速缓存1567耦合，该常量高速缓存1567能够被用来存储常量数据，所述常量数据是在GPGPU 1570上执行的内核或着色器程序的运行期间将不改变的数据。常量高速缓存1567可以是标量数据高速缓存，并且高速缓存的数据能够被直接获取到标量寄存器1562中。

在操作期间，一个或多个CPU 1546能够将命令写入已被映射到可访问地址空间中的GPGPU 1570中的寄存器或存储器中。命令处理器1557能够从寄存器或存储器读取命令，并且确定在GPGPU 1570内将如何处理那些命令。线程分派器1558然后能够被用来将线程分派到计算单元1560A-1560N以执行那些命令。每个计算单元1560A-1560N能够独立于其他计算单元执行线程。另外，每个计算单元1560A-1560N能够被独立配置用于有条件的计算，并且能够有条件地输出计算的结果到存储器。在提交的命令完成时，命令处理器1557能够中断一个或多个CPU 1546。

图16A-16C示出了由本文中描述的实施例例如根据图15A-15C提供的附加图形处理器和计算加速器架构的框图。具有与本文中任何其他附图的元件相同或相似名称的图16A-16C的元件描述与其他附图中相同的元件，可以以与所述相同的元件相似的方式操作或起作用，可以包括所述相同的组件，并且可以链接到其他实体，如本文中其他地方描述的那些，但不限于此。

图16A是图形处理器1600的框图，其可以是分立的图形处理单元，或者可以是与多个处理核集成的图形处理器，或者是其他半导体装置，诸如但不限于存储器装置或网络接口。图形处理器1600可以是图形处理器1508的变体，并且可用于代替图形处理器1508。因此，本文中与图形处理器1508组合的任何特征的公开也公开与图形处理器1600的对应组合，但不限于此。图形处理器可以经由到图形处理器上的寄存器的存储器映射I/O接口并且利用放置在处理器存储器中的命令进行通信。图形处理器1600可以包括用来访问存储器的存储器接口1614。存储器接口1614能够是到本地存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存和/或到系统存储器的接口。

可选地，图形处理器1600还包括用来将显示输出数据驱动到显示装置1618的显示控制器1602。显示控制器1602包括用于一个或多个覆盖平面的硬件，以用于显示和组合多个层的视频或用户接口元素。显示装置1618能够是内部或外部显示装置。在一个实施例中，显示装置1618是头戴式显示装置，诸如虚拟现实（VR）显示装置或增强现实（AR）显示装置。图形处理器1600可以包括视频编解码器引擎1606以将媒体编码成一种或多种媒体编码格式、从一种或多种媒体编码格式解码媒体或在一种或多种媒体编码格式之间将媒体转码，所述媒体编码格式包括但不限于运动图像专家组（MPEG）格式（诸如MPEG-2）、高级视频编码（AVC）格式（诸如H.264/MPEG-4 AVC）、H.265/HEVC、开放媒体联盟（AOMedia）VP8、VP9、以及电影与电视工程师协会（SMPTE）421M/VC-1和联合图像专家组（JPEG）格式（诸如JPEG）和运动JPEG（MJPEG）格式。

图形处理器1600可以包括用来执行二维（2D）光栅化器操作（包括例如位边界块传输）的块图像传输（BLIT）引擎1604。然而，可以使用图形处理引擎（GPE）1610的一个或多个组件来执行2D图形操作。在一些实施例中，GPE 1610是用于执行包括三维（3D）图形操作和媒体操作的图形操作的计算引擎。

GPE 1610可以包括用于执行3D操作的3D流水线1612，所述3D操作诸如使用作用于3D图元形状（例如，矩形、三角形等）的处理功能来渲染三维图像和场景。3D流水线1612包括可编程和固定功能元件，所述可编程和固定功能元件在元件内执行各种任务和/或将执行线程派生到3D/媒体子系统1615。虽然3D流水线1612能够被用来执行媒体操作，但GPE 1610的实施例还包括特别用来执行媒体操作（诸如视频后处理和图像增强）的媒体流水线1616。

媒体流水线1616可以包括固定功能或可编程逻辑单元以代替或者代表视频编解码器引擎1606来执行一个或多个专用媒体操作，诸如视频解码加速、视频去交织和视频编码加速。媒体流水线1616可以另外包括线程派生单元以派生用于在3D/媒体子系统1615上执行的线程。派生的线程在3D/媒体子系统1615中包括的一个或多个图形执行单元上执行用于媒体操作的计算。

3D/媒体子系统1615可以包括用于执行由3D流水线1612和媒体流水线1616派生的线程的逻辑。流水线可以将线程执行请求发送到3D/媒体子系统1615，所述3D/媒体子系统1615包括线程分派逻辑，以用于将各种请求仲裁（arbitrate）并分派到可用线程执行资源。执行资源包括用来处理3D和媒体线程的图形执行单元的阵列。3D/媒体子系统1615可以包括用于线程指令和数据的一个或多个内部高速缓存。另外，3D/媒体子系统1615还可以包括共享存储器，所述共享存储器包括寄存器和可寻址存储器，以在线程之间共享数据和存储输出数据。

图16B示出了图形处理器1620，其是图形处理器1600的变体并且可以用来代替图形处理器1600，并且反之亦然。因此，本文中与图形处理器1600组合的任何特征的公开还公开了与图形处理器1620组合的对应组合，但不限于此。根据本文中所述的实施例，图形处理器1620具有拼贴架构。图形处理器1620可以包括图形处理引擎集群1622，其在图形引擎贴片1610A-1610D内具有图16A的图形处理引擎1610的多个实例。每个图形引擎贴片1610A-1610D可以经由一组贴片互连1623A-1623F互连。每个图形引擎贴片1610A-1610D还可以经由存储器互连1625A-1625D连接到存储器模块或存储器装置1626A-1626D。存储器装置1626A-1626D可使用任何图形存储器技术。例如，存储器装置1626A-1626D可以是图形双倍数据速率（GDDR）存储器。存储器装置1626A到1626D可以是高带宽存储器（HBM）模块，其可与其相应图形引擎贴片1610A-1610D一起在管芯上。存储器装置1626A-1626D可以是可堆叠在其相应图形引擎贴片1610A-1610D的顶部上的堆叠式存储器装置。每个图形引擎贴片1610A-1610D和相关联的存储器1626A-1626D可以驻留在分离的小芯片上，所述小芯片被结合到基础管芯或基础衬底，如图24B-24D中更详细描述的。

图形处理器1620可以配置有非均匀存储器存取（NUMA）系统，其中存储器装置1626A-1626D与相关联的图形引擎贴片1610A-1610D耦合。给定的存储器装置可以由与其直接连接到的贴片不同的图形引擎贴片来访问。然而，当访问本地贴片时，对存储器装置1626A-1626D的访问时延可以是最低的。在一个实施例中，实现高速缓存一致NUMA（ccNUMA）系统，其使用贴片互连1623A-1623F来实现图形引擎块1610A-1610D内的高速缓存控制器之间的通信，以在多于一个高速缓存存储相同的存储器位置时保持一致的存储器图像。

图形处理引擎集群1622可以与片上或封装上组构互连1624连接。在一个实施例中，组构互连1624包括网络处理器、片上网络（NoC）或另一交换处理器，以使得组构互连1624能够充当在图形处理器1620的组件之间交换数据分组的分组交换组构互连。组构互连1624可以实现图形引擎贴片1610A-1610D与诸如视频编解码器引擎1606和一个或多个复制引擎1604的组件之间的通信。复制引擎1604可用于将数据移出、移入存储器装置1626A-1626D和图形处理器1620外部的存储器（例如，系统存储器）以及它们之间移动数据。组构互连1624还可以用于互连图形引擎贴片1610A-1610D。图形处理器1620可以可选地包括显示控制器1602以实现与外部显示装置1618的连接。图形处理器还可以配置为图形加速器或计算加速器。在加速器配置中，可以省略显示控制器1602和显示装置1618。

图形处理器1620可经由主机接口1628连接到主机系统。主机接口1628可实现图形处理器1620、系统存储器和/或其他系统组件之间的通信。主机接口1628可以是例如PCIExpress总线或另一类型的主机系统接口。例如，主机接口1628可以是NVLink或NVSwitch接口。主机接口1628和组构互连1624可以协作以使得图形处理器1620的多个实例能够充当单个逻辑装置。主机接口1628和组构互连1624之间的协作还可以使各个图形引擎贴片1610A-1610D能够对主机系统呈现为不同的逻辑图形装置。

图16C示出了根据本文中所述的实施例的计算加速器1630。计算加速器1630可以包括与图16B的图形处理器1620的架构相似性，并且被优化用于计算加速。计算引擎集群1632可以包括一组计算引擎贴片1640A-1640D，其包括针对并行或基于向量的通用计算操作而优化的执行逻辑。计算引擎贴片1640A-1640D可以不包括固定功能图形处理逻辑，尽管在一些实施例中，计算引擎贴片1640A-1640D中的一个或多个可以包括用于执行媒体加速的逻辑。计算引擎贴片1640A-1640D可以经由存储器互连1625A-1625D连接到存储器1626A-1626D。存储器1626A-1626D和存储器互连1625A-1625D可以是与图形处理器1620中类似的技术，或者可以是不同的。图形计算引擎贴片1640A-1640D还可以经由一组贴片互连1623A-1623F互连，并且可以与组构互连1624连接和/或通过其互连。在一个实施例中，计算加速器1630包括可以配置为装置范围高速缓存的大L3高速缓存1636。计算加速器1630还可以以与图16B的图形处理器1620类似的方式经由主机接口1628连接到主机处理器和存储器。

计算加速器1630还可以包括集成网络接口1642。在一个实施例中，网络接口1642包括网络处理器和控制器逻辑，其使得计算引擎集群1632能够通过物理层互连1644进行通信，而不要求数据穿过主机系统的存储器。在一个实施例中，计算引擎贴片1640A-1640D中的一个由网络处理器逻辑代替，并且要经由物理层互连1644传送或接收的数据可以直接向或从存储器1626A-1626D传送。计算加速器1630的多个实例可以经由物理层互连1644被加入到单个逻辑装置中。备选地，各种计算引擎贴片1640A-1640D可以被呈现为不同的网络可访问的计算加速器装置。

图形处理引擎

图17是根据一些实施例的图形处理器的图形处理引擎1710的框图。图形处理引擎（GPE）1710可以是图16A中示出的GPE 1610的某一版本，并且还可以表示图16B的图形引擎贴片1610A-1610D。具有与本文中任何其他图的元件相同或相似名称的图17的元件描述与其他附图中相同的元件，可以以与所述相同的元件相似的方式操作或起作用，可以包括所述相同的组件，并且可以链接到其他实体，如本文中其他地方描述的那些，但不限于此。例如，在图17中还示出了图16A的3D流水线1612和媒体流水线1616。媒体流水线1616在GPE1710的一些实施例中是可选的，并且可以未被显式地包括在GPE 1710内。例如，并且在至少一个实施例中，单独的媒体和/或图像处理器被耦合到GPE 1710。

GPE 1710可以与提供命令流到3D流水线1612和/或媒体流水线1616的命令流送器1703耦合，或者包括该命令流送器1703。备选地或附加地，命令流送器4031703可以直接耦合到统一返回缓冲器1718。统一返回缓冲器1718可以在通信上耦合到图形核阵列1714。可选地，命令流送器1703与存储器耦合，所述存储器能够是系统存储器，或内部高速缓冲存储器和共享高速缓冲存储器中的一个或多个。命令流送器1703可以接收来自存储器的命令，并且将命令发送到3D流水线1612和/或媒体流水线1616。命令是从环形缓冲器获取的指示，所述环形缓冲器存储用于3D流水线1612和媒体流水线1616的命令。环形缓冲器能够另外包括存储批量的多个命令的批量命令缓冲器。用于3D流水线1612的命令还能够包括对在存储器中存储的数据的引用，所述数据诸如但不限于用于3D流水线1612的顶点和几何数据和/或用于媒体流水线1616的图像数据和存储器对象。3D流水线1612和媒体流水线1616通过经由相应流水线内的逻辑执行操作或者通过将一个或多个执行线程分派到图形核阵列1714来处理命令和数据。图形核阵列1714可以包括图形核（例如，（一个或多个）图形核1715A、（一个或多个）图形核1715B）的一个或多个块，每个块包括一个或多个图形核。每个图形核包括：一组图形执行资源，其包括用来执行图形和计算操作的通用和图形特定执行逻辑；以及固定功能纹理处理和/或机器学习和人工智能加速逻辑。

在各种实施例中，3D流水线1612能够包括用来通过处理指令和分派执行线程到图形核阵列1714来处理一个或多个着色器程序（诸如顶点着色器、几何着色器、像素着色器、片段着色器、计算着色器或其他着色器程序）的固定功能和可编程逻辑。图形核阵列1714提供执行资源的统一块以供在处理这些着色器程序中使用。图形核阵列1714的（一个或多个）图形核1715A-1715B内的多用途执行逻辑（例如，执行单元）包括对各种3D API着色器语言的支持，并且能够执行与多个着色器关联的多个同时执行线程。

图形核阵列1714可以包括用来执行媒体功能（诸如视频和/或图像处理）的执行逻辑。执行单元可以包括通用逻辑，该通用逻辑可编程以除图形处理操作外还执行并行通用计算操作。该通用逻辑能够与在图14的（一个或多个）处理器核1407或如在图15A中的核1502A-1502N内的通用逻辑并行或结合地执行处理操作。

由在图形核阵列1714上执行的线程生成的输出数据能够将数据输出到统一返回缓冲器（URB）1718中的存储器。URB 1718能够存储用于多个线程的数据。URB 1718可以被用来在图形核阵列1714上执行的不同线程之间发送数据。URB 1718可以另外被用于在图形核阵列上的线程与在共享功能逻辑1720内的固定功能逻辑之间的同步。

可选地，图形核阵列1714可以是可缩放的，使得该阵列包括可变数量的图形核，这些图形核各自基于GPE 1710的目标功率和性能水平而具有可变数量的执行单元。执行资源可以是动态可缩放的，使得可以按需要来启用或禁用执行资源。

图形核阵列1714与共享功能逻辑1720耦合，该共享功能逻辑1720包括在图形核阵列中的图形核之间共享的多个资源。在共享功能逻辑1720内的共享功能是硬件逻辑单元，所述硬件逻辑单元提供专用补充功能性到图形核阵列1714。在各种实施例中，共享功能逻辑1720包括但不限于采样器1721、数学1722和线程间通信（ITC）1723逻辑。另外，可以在共享功能逻辑1720内实现一个或多个高速缓存1725。

至少在其中对给定专用功能的需求不足以包含在图形核心阵列1714内的情况下，实现共享功能。该专用功能的单个实例化而是被实现为共享功能逻辑1720中的独立实体，并且在图形核阵列1714内的执行资源之间共享。在图形核阵列1714内共享并且被包括在图形核阵列1714内的功能的精确集合跨实施例而变化。由图形核阵列1714广泛使用的共享功能逻辑1720内的特定共享功能可以被包括在图形核阵列1714内的共享功能逻辑1716内。可选地，图形核阵列1714内的共享功能逻辑1716能够包括共享功能逻辑1720内的一些或全部逻辑。可以在图形核阵列1714的共享功能逻辑1716内重复共享功能逻辑1720内的全部逻辑元件。备选地，排除了共享功能逻辑1720以有利于图形核阵列1714内的共享功能逻辑1716。

执行单元

图18A-18B示出了根据本文中描述的实施例的包括图形处理器核中采用的处理元件的阵列的线程执行逻辑1800。具有与本文中任何其他图的元件相同或相似名称的图18A-18B的元件描述与其他附图中相同的元件，可以以与所述相同的元件相似的方式操作或起作用，可以包括所述相同的组件，并且可以链接到其他实体，如本文中其他地方描述的那些，但不限于此。图18A-18B示出了线程执行逻辑1800的概述，该线程执行逻辑1800可以代表用图15B的每个子核1521A-1521F示出的硬件逻辑。图18A代表通用图形处理器内的执行单元，而图18B代表可在计算加速器内使用的执行单元。

如在图18A中所示出的，线程执行逻辑1800可以包括着色器处理器1802、线程分派器1804、指令高速缓存1806、包括多个图形执行单元1808A-1808N的可缩放执行单元阵列、采样器1810、共享本地存储器1811、数据高速缓存1812和数据端口1814。可选地，可缩放执行单元阵列能够通过基于工作负载的计算要求来启用或禁用一个或多个执行单元（例如，图形执行单元1808A、1808B、1808C、1808D直到1808N-1和1808N中的任何图形执行单元）来动态地进行缩放。被包括的组件可以经由链接到组件中的每个组件的互连组构而互连。线程执行逻辑1800可以包括通过指令高速缓存1806、数据端口1814、采样器1810和图形执行单元1808A-1808N中的一个或多个到存储器（诸如系统存储器或高速缓冲存储器）的一个或多个连接。每个执行单元（例如，1808A）可以是独立可编程通用计算单元，其能执行多个同时硬件线程，同时为每个线程并行处理多个数据元素。在各种实施例中，执行单元1808A-1808N的阵列是可缩放的，以包括任何数量的各个执行单元。

在一些实施例中，图形执行单元1808A-1808N可以主要被用来执行着色器程序。着色器处理器1802能够处理各种着色器程序，并且经由线程分派器1804分派与着色器程序关联的执行线程。线程分派器可以包括用来对来自图形和媒体流水线的线程发起请求进行仲裁并且在图形执行单元1808A-1808N中的一个或多个执行单元上实例化所请求的线程的逻辑。例如，几何流水线能够分派顶点、曲面细分或几何着色器到线程执行逻辑以用于处理。可选地，线程分派器1804还能够处理来自执行的着色器程序的运行时间线程派生请求。

在一些实施例中，图形执行单元1808A-1808N支持指令集，所述指令集包括对许多标准3D图形着色器指令的本机支持，使得来自图形库（例如Direct 3D和OpenGL）的着色器程序以最小的转换来执行。执行单元支持顶点和几何处理（例如顶点程序、几何程序、顶点着色器）、像素处理（例如像素着色器、片段着色器）和通用处理（例如计算和媒体着色器）。图形执行单元1808A-1808N中的每个图形执行单元能进行多发布单指令多数据（SIMD）执行，并且多线程操作在面临更高时延存储器访问时实现高效的执行环境。每个执行单元内的每个硬件线程具有专用高带宽寄存器堆和关联的独立线程状态。执行是对能够进行整数、单精度和双精度浮点运算、SIMD分支能力、逻辑运算、超越运算和其他杂项运算的流水线的每时钟多发布。在等待来自存储器或共享功能之一的数据时，执行单元1808A-1808N内的依赖性逻辑使等待的线程休眠，直到所请求的数据已返回为止。当等待的线程正在休眠时，硬件资源可以专用于处理其他线程。例如，在与顶点着色器操作关联的延迟期间，执行单元能够执行用于像素着色器、片段着色器或另一类型的着色器程序（包括不同顶点着色器，诸如图21中所示的顶点着色器2107）的操作。各种实施例能够适用于通过作为使用SIMD的备选方案或者附加于使用SIMD来使用单指令多线程（SIMT）来使用执行。对SIMD核或操作的引用也能够适用于SIMT或者适用于与SIMT组合的SIMD。

图形执行单元1808A-1808N中的每个执行单元对数据元素的阵列进行操作。数据元素的数量是“执行大小”或用于指令的通道的数量。执行通道是用于指令内的数据元素访问、屏蔽和流控制的执行的逻辑单元。通道的数量可以独立于用于特定图形处理器的物理算术逻辑单元（ALU）、浮点单元（FPU）或其他逻辑单元（例如，张量核、光线追踪核等）的数量。另外，图形执行单元1808A-1808N可以支持整数和浮点数据类型。

执行单元指令集包括SIMD指令。各种数据元素能够作为打包数据类型存储在寄存器中，并且执行单元将基于元素的数据大小来处理各种元素。例如，在对256位宽向量进行操作时，向量的256位被存储在寄存器中，并且执行单元对作为四个单独的184位打包数据元素（四字（QW）大小数据元素）、八个单独的32位打包数据元素（双字（DW）大小数据元素）、十六个单独的16位打包数据元素（字（W）大小数据元素）或三十二个单独的8位数据元素（字节（B）大小数据元素）的向量进行操作。然而，不同向量宽度和寄存器大小是可能的。

可选地，一个或多个执行单元能够被组合成具有线程控制逻辑（1807A-1807N）的融合图形执行单元1809A-1809N，该线程控制逻辑（1807A-1807N）对于融合EU是公共的。多个EU能够融合成EU群组。融合EU群组中的每个EU能够配置成执行单独的SIMD硬件线程。融合EU群组中EU的数量能够根据实施例而变化。另外，能够每EU执行各种SIMD宽度，包括但不限于SIMD8、SIMD16和SIMD32。每个融合图形执行单元1809A-1809N包括至少两个执行单元。例如，融合执行单元1809A包括第一EU 1808A、第二EU 1808B及线程控制逻辑1807A，该线程控制逻辑1807A对于第一EU 1808A和第二EU 1808B是公共的。线程控制逻辑1807A控制在融合图形执行单元1809A上执行的线程，允许融合执行单元1809A-1809N内的每个EU使用公共指令指针寄存器来执行。

在线程执行逻辑1800中包括一个或多个内部指令高速缓存（例如，1806）以对用于执行单元的线程指令进行高速缓存。在线程执行逻辑1800中可以包括一个或多个数据高速缓存（例如，1812）以在线程执行期间对线程数据进行高速缓存。在执行逻辑1800上执行的线程还能够在共享本地存储器1811中存储显式管理的数据。可以包括采样器1810以提供用于3D操作的纹理采样和用于媒体操作的媒体采样。采样器1810可以包括专用纹理或媒体采样功能性，以在向执行单元提供采样数据前在采样进程期间处理纹理或媒体数据。

在执行期间，图形和媒体流水线经由线程派生和分派逻辑向线程执行逻辑1800发送线程发起请求。一旦几何对象的群组已被处理并且光栅化成像素数据，着色器处理器1802内的像素处理器逻辑（例如，像素着色器逻辑、片段着色器逻辑等）便被调取来进一步计算输出信息，并且使结果被写入到输出表面（例如颜色缓冲器、深度缓冲器、模板缓冲器等）。像素着色器或片段着色器可以计算要跨光栅化对象内插的各种顶点属性的值。着色器处理器1802内的像素处理器逻辑可以然后执行应用编程接口（API）供应的像素或片段着色器程序。为执行着色器程序，着色器处理器1802经由线程分派器1804向执行单元（例如，1808A）分派线程。着色器处理器1802可以使用采样器1810中的纹理采样逻辑来访问存储在存储器中的纹理映射中的纹理数据。对纹理数据和输入几何数据的算术运算计算每个几何片段的像素颜色数据，或者从进一步处理中丢弃一个或多个像素。

另外，数据端口1814可以提供存储器访问机制，以便线程执行逻辑1800将经处理的数据输出至存储器以用于在图形处理器输出流水线上进一步处理。数据端口1814可以包括或者耦合到一个或多个高速缓冲存储器（例如，数据高速缓存1812）来对数据进行高速缓存以用于经由数据端口1814的存储器访问。

可选地，执行逻辑1800还能够包括光线追踪器1805，所述光线追踪器1805能够提供光线追踪加速功能性。光线追踪器1805能够支持包括用于光线生成的指令/功能的光线追踪指令集。该光线追踪指令集能够与图3C中的光线追踪核372所支持的光线追踪指令集类似或不同。

图18B示出了执行单元1808的示例性内部细节。图形执行单元1808能够包括指令获取单元1837、通用寄存器堆阵列（GRF）1824、架构寄存器堆阵列（ARF）1826、线程仲裁器1822、发送单元1830、分支单元1832、一组SIMD浮点单元（FPU）1834以及可选的一组专用整数SIMD ALU 1835。GRF 1824和ARF 1826包括与可以在图形执行单元1808中活动的每个同时硬件线程关联的一组通用寄存器堆和架构寄存器堆。可以在ARF 1826中维持每线程架构状态，而在线程执行期间使用的数据被存储在GRF 1824中。每个线程的执行状态（包括用于每个线程的指令指针）能够被保持在ARF 1826中的线程特定寄存器中。

图形执行单元1808可以具有是同时多线程（SMT）和细粒度交错多线程（IMT）的组合的架构。该架构可以具有模块化配置，其能够在设计时基于每执行单元的寄存器数量和同时线程的目标数量来被微调，其中执行单元资源跨用来执行多个同时线程的逻辑而被划分。可以由图形执行单元1808执行的逻辑线程的数量不限于硬件线程的数量，并且多个逻辑线程能够被指派到每个硬件线程。

可选地，图形执行单元1808能够共同发布多个指令，所述多个指令各自可以是不同的指令。图形执行单元线程1808的线程仲裁器1822能够将指令分派给发送单元1830、分支单元1832或（一个或多个）SIMD FPU 1834中的一个以用于执行。每个执行线程能够访问GRF 1824内的128个通用寄存器，其中每个寄存器能够存储32个字节，其可作为32位数据元素的SIMD 8元素向量访问。每个执行单元线程可以能够访问GRF 1824内的4千字节，虽然实施例不限于此，并且在其他实施例中可以提供更多或更少的寄存器资源。图形执行单元1808可以被分区成能够独立执行计算操作的七个硬件线程，尽管每执行单元的线程的数量也可根据实施例而变化。例如，可以支持多达16个硬件线程。在其中七个线程可以访问4千字节的示例性实施例中，GRF 1824能够存储总共28千字节。在另一示例性实施例中，在16个线程可以访问4千字节的情况下，GRF 1824能够存储总共64千字节。然而，每执行单元的线程数量不限于这些示例，并且可以多于或少于给定的数量。灵活的寻址模式能够允许对寄存器一起被寻址以有效地构建更宽的寄存器或者表示跨步矩形块数据结构。

另外或备选地，可以经由通过消息传递发送单元1830执行的“发送”指令来分派存储器操作、采样器操作和其他较长时延系统通信。可以将分支指令分派给专用分支单元1832以促进SIMD发散和最终收敛。

图形执行单元1808可以包括一个或多个SIMD浮点单元（（一个或多个）FPU）1834以执行浮点运算。（一个或多个）FPU 1834还可以支持整数计算。在一些实例中，（一个或多个）FPU 1834能够SIMD执行多达数量为M的32位浮点（或整数）运算，或者SIMD执行多达2M个16位整数或16位浮点运算。可选地，（一个或多个）FPU中的至少一个FPU提供扩展的数学能力以支持高吞吐量超越数学功能和双精度184位浮点。还可以存在一组8位整数SIMD ALU1835，并且该组8位整数SIMD ALU 1835可以被特别地优化以执行与机器学习计算关联的运算。

可选地，图形执行单元1808的多个实例的阵列能够在图形子核分组（例如，子切片）中被实例化。为了可缩放性，产品架构师能够选择每子核分组的执行单元的确切数量。执行单元1808可以跨多个执行通道执行指令。另外，在图形执行单元1808上执行的每个线程可以是在不同的通道上执行的。

图19示出了另一示例性执行单元1900。具有与本文中任何其他附图的元件相同或相似名称的图19的元件描述与其他附图中相同的元件，可以以与所述相同的元件相似的方式操作或起作用，可以包括所述相同的组件，并且可以链接到其他实体，如本文中其他地方描述的那些，但不限于此。执行单元1900可以是供在例如图16C中的计算引擎贴片1640A-1640D中使用的计算优化的执行单元，但不限于此。执行单元1900还可以用于如图16B中的图形引擎贴片1610A-1610D中。执行单元1900可以包括线程控制单元1901、线程状态单元1902、指令获取/预获取单元1903和指令解码单元1904。执行单元1900可另外包括寄存器堆1906，其存储可指派给执行单元内的硬件线程的寄存器。执行单元1900可以另外包括发送单元1907和分支单元1908。发送单元1907和分支单元1908可以与图18B的图形执行单元1808的发送单元1830和分支单元1832类似地操作。

执行单元1900还可以包括计算单元1910，其包括多个不同类型的功能单元。计算单元1910还可以包括ALU 1911、脉动阵列1912和数学单元1913。ALU 1911包括算术逻辑单元的阵列。ALU 1911可以配置成跨多个处理通道和数据通道并且针对多个硬件和/或软件线程执行64位、32位和16位整数和浮点运算。ALU 1911可同时（例如，在相同时钟循环内）执行整数和浮点运算。

脉动阵列1912包括可以用于以脉动方式执行向量或其他数据并行操作的数据处理单元的宽为W和深为D的网络。脉动阵列1912可配置成执行各种矩阵运算，包括点积、外积及一般矩阵-矩阵乘法（GEMM）运算。脉动阵列1912可支持16位浮点运算以及8位、4位、2位和二进制整数运算。脉动阵列1912可以配置成加速机器学习操作。脉动阵列1912可以配置有对bfloat16（大脑浮点）16位浮点格式或张量浮点32位浮点格式（TF32）的支持，所述格式相对于电气和电子工程师协会（IEEE）754格式具有不同数量的尾数和指数位。还可以支持FP64格式。

在一个实施例中，脉动阵列1912包括用于加速稀疏矩阵运算的硬件。可以绕过输入数据的稀疏区域的乘法操作而不牺牲吞吐量。可以检测输入矩阵内的块稀疏性，并且可以绕过具有已知输出值的运算。在一个实施例中，脉动阵列1912包括用于实现对具有压缩表示的稀疏数据的操作的硬件。稀疏矩阵的压缩表示存储非零值和定义非零值在矩阵内的位置的元数据。示例性压缩表示包括但不限于压缩张量表示，诸如压缩稀疏行（CSR）、压缩稀疏列（CSC）、压缩稀疏纤维（CSF）表示。对压缩表示的支持使得能够对压缩张量格式的输入执行操作，而不要求对压缩表示进行解压缩或解码。在此类实施例中，可仅对非零输入值执行运算，且可将所得非零输出值映射到输出矩阵中。在一些实施例中，还提供了对在硬件内或跨系统总线传送数据时使用的机器特定无损数据压缩格式的硬件支持。对于稀疏输入数据，这样的数据可以以压缩格式保留，并且脉动阵列1912可以使用用于压缩数据的压缩元数据来使得能够仅对非零值执行操作，或者使得能够对于乘法操作绕过零数据输入的块。

能够包括数学单元1913来以高效和比ALU单元1911更低功率的方式执行数学运算的特定子集。数学单元1913能够包括在由描述的其他实施例提供的图形处理引擎的共享功能逻辑中找到的数学逻辑（例如，图17的共享功能逻辑1720的数学逻辑1722）。数学单元1913能够被配置成执行32位和64位浮点运算。

线程控制单元1901包括用来控制在执行单元内线程的执行的逻辑。线程控制单元1901能够包括用来开始、停止和抢占执行单元1900内线程的执行的线程仲裁逻辑。线程状态单元1902能够用来为被指派在执行单元1900上执行的线程存储线程状态。在执行单元1900内存储线程状态使得能够在那些线程变为阻塞或空闲时快速抢占线程。指令获取/预获取单元1903能够从更高级别执行逻辑的指令高速缓存（例如，如图18A中的指令高速缓存1806）中获取指令。指令获取/预获取单元1903还能够基于当前执行的线程的分析来发布对要被加载到指令高速缓存中的指令的预获取请求。指令解码单元1904能够被用来解码要由计算单元执行的指令。指令解码单元1904能够被用作次级解码器以将复杂指令解码成组成微操作（constituent micro-operation）。

执行单元1900另外包括能够由在执行单元1900上执行的硬件线程使用的寄存器堆1906。能够跨用来执行在执行单元1900的计算单元1910内的多个同时线程的逻辑来划分寄存器堆1906中的寄存器。可以由图形执行单元1900执行的逻辑线程的数量不限于硬件线程的数量，并且多个逻辑线程能够被指派到每个硬件线程。寄存器堆1906的大小能够基于支持的硬件线程的数量跨实施例而变化。寄存器重命名可用来动态分配寄存器到硬件线程。

图20是示出图形处理器指令格式2000的框图。在一个或多个实施例中，图形处理器执行单元支持具有采用多种格式的指令的指令集。实线框图示了一般被包括在执行单元指令中的组成部分，而虚线包括可选的或者仅被包括在指令的子集中的组成部分。在一些实施例中，描述和示出的图形处理器指令格式2000是宏指令，因为它们是供应给执行单元的指令，而与一旦指令被处理则由指令解码产生的微操作相反。因此，单个指令可导致硬件执行多个微操作

如本文中所述的图形处理器执行单元可以本机地支持采用128位指令格式2010的指令。基于所选择的指令、指令选项和操作数的数量，64位压缩指令格式2030可用于一些指令。本机128位指令格式2010提供对所有指令选项的访问，而在64位格式2030中一些选项和操作被限制。采用64位格式2030的可用的本机指令随实施例而变化。使用索引字段2013中的一组索引值来部分地压缩指令。执行单元硬件基于索引值来引用一组压缩表，并且使用压缩表输出来重构采用128位指令格式2010的本机指令。能够使用指令的其他大小和格式。

对于每种格式，指令操作码2012定义执行单元要执行的操作。执行单元跨每个操作数的多个数据元素并行执行每个指令。例如，响应于相加指令，执行单元跨表示纹理元素或图片元素的每个颜色通道来执行同时相加运算。默认情况下，执行单元跨操作数的所有数据通道来执行每个指令。指令控制字段2014可以实现对诸如通道选择（例如，断定（predication））和数据通道次序（例如，搅混（swizzle））之类的某些执行选项的控制。对于采用128位指令格式2010的指令，执行大小字段2016限制将被并行执行的数据通道的数量。执行大小字段2016可能不可用于在64位紧凑指令格式2030中使用。

一些执行单元指令具有多达三个操作数，这三个操作数包括两个源操作数、src02020、src1 2022和一个目的地2018。执行单元可以支持双目的地指令，其中目的地之一是隐含的。数据操纵指令能够具有第三源操作数（例如SRC2 2024），其中指令操作码2012确定源操作数的数量。指令的最后源操作数能够是利用指令传递的立即（例如，硬编码的）值。

128位指令格式2010可以包括访问/地址模式字段2026，该访问/地址模式字段2026指定例如使用直接寄存器寻址模式还是间接寄存器寻址模式。在使用直接寄存器寻址模式时，由指令中的位来直接提供一个或多个操作数的寄存器地址。

128位指令格式2010可以包括访问/地址模式字段2026，该访问/地址模式字段2026指定指令的地址模式和/或访问模式。访问模式可以被用来定义指令的数据访问对齐。可以支持包括16字节对齐的访问模式和1字节对齐的访问模式的访问模式，其中访问模式的字节对齐确定指令操作数的访问对齐。例如，当处于第一模式中时，指令可将字节对齐的寻址用于源操作数和目的地操作数，并且当处于第二模式中时，指令可将16字节对齐的寻址用于所有源操作数和目的地操作数。

访问/地址模式字段2026的地址模式部分可以确定指令将使用直接寻址还是间接寻址。在使用直接寄存器寻址模式时，指令中的位直接提供一个或多个操作数的寄存器地址。在使用间接寄存器寻址模式时，可以基于指令中的地址寄存器值和地址立即字段来计算一个或多个操作数的寄存器地址。

可以基于操作码2012位字段对指令进行分组，以简化操作码解码2040。对于8位操作码，4、5和6位允许执行单元确定操作码的类型。所示出的精确操作码分组仅是示例。移动和逻辑操作码群组2042可以包括数据移动和逻辑指令（例如，移动（mov）、比较（cmp））。移动和逻辑群组2042可以共享五个最低有效位（LSB），其中移动（mov）指令采用0000xxxxb的形式，并且逻辑指令采用0001xxxxb的形式。流控制指令群组2044（例如调取、跳（jmp））包括采用0010xxxxb（例如，0x20）形式的指令。杂项指令群组2046包括指令的混合，包括采用0011xxxxb（例如0x30）形式的同步指令（例如等待、发送）。并行数学指令群组2048包括采用0100xxxxb（例如0x40）形式的逐组成部分的算术指令（例如，加、乘（mul））。并行数学指令群组2048跨数据通道并行执行算术运算。向量数学群组2050包括采用0101xxxxb（例如，0x50）形式的算术指令（例如，dp4）。向量数学群组对向量操作数执行诸如点积计算的算术。图示的操作码解码2040在一个实施例中能够用来确定执行单元的哪个部分将被用来执行解码的指令。例如，一些指令可被指定为将由脉动阵列执行的脉动指令。诸如光线追踪指令（未示出）的其他指令能够被路由到执行逻辑的切片或分区内的光线追踪核或光线追踪逻辑。

图形流水线

图21是根据另一实施例的图形处理器2100的框图。具有与本文中任何其他附图的元件相同或相似名称的图21的元件描述与其他附图中相同的元件，可以以与所述相同的元件类似的方式操作或起作用，可以包括相同的组件，并且可以链接到其他实体，如本文中其他地方描述的那些，但不限于此。

图形处理器2100可以包括不同类型的图形处理流水线，诸如几何流水线2120、媒体流水线2130、显示引擎2140、线程执行逻辑2150和渲染输出流水线2170。图形处理器2100可以是包括一个或多个通用处理核的多核处理系统内的图形处理器。可以通过对一个或多个控制寄存器（未示出）的寄存器写入或者经由经过环形互连2102发布至图形处理器2100的命令来控制图形处理器。环形互连2102可以将图形处理器2100耦合到其他处理组件，诸如其他图形处理器或通用处理器。来自环形互连2102的命令由命令流送器2103解译，该命令流送器2103将指令供应至几何流水线2120或媒体流水线2130的各个组件。

命令流送器2103可以指导顶点获取器2105的操作，该顶点获取器2105从存储器读取顶点数据并执行由命令流送器2103提供的顶点处理命令。顶点获取器2105可以将顶点数据提供给顶点着色器2107，该顶点着色器2107对每个顶点执行坐标空间变换和照明操作。顶点获取器2105和顶点着色器2107可以通过经由线程分派器2131向执行单元2152A-2152B分派执行线程来执行顶点处理指令。

执行单元2152A-2152B可以是具有用于执行图形和媒体操作的指令集的向量处理器的阵列。执行单元2152A-2152B可以具有附接的L1高速缓存2151，所述L1高速缓存2151特定于每个阵列，或者在阵列之间共享。高速缓存能够被配置为数据高速缓存、指令高速缓存或被分区以在不同分区中包含数据和指令的单个高速缓存。

几何流水线2120可以包括曲面细分组件以执行3D对象的硬件加速的曲面细分。可编程外壳着色器（programmable hull shader）2111可以配置曲面细分操作。可编程域着色器2117可以提供曲面细分输出的后端评估。曲面细分器2113可以在外壳着色器2111的指导下进行操作，并且包含专用逻辑以基于作为到几何流水线2120的输入而提供的粗略几何模型来生成一组详细的几何对象。另外，如果未使用曲面细分，则能够绕过曲面细分组件（例如，外壳着色器2111、曲面细分器2113和域着色器2117）。曲面细分组件可基于从顶点着色器2107接收的数据进行操作。

完整几何对象可以由几何着色器2119经由分派给执行单元2152A-2152B的一个或多个线程来处理，或者能够直接行进至裁剪器2129。几何着色器可以对整个几何对象进行操作，而不是如在图形流水线的先前阶段中那样对顶点或顶点的补片进行操作。如果曲面细分被禁用，则几何着色器2119接收来自顶点着色器2107的输入。几何着色器2119可以能够由几何着色器程序编程以在曲面细分单元被禁用时执行几何曲面细分。

在光栅化前，裁剪器2129处理顶点数据。裁剪器2129可以是具有裁剪和几何着色器功能的可编程裁剪器或固定功能裁剪器。渲染输出流水线2170中的光栅化器和深度测试组件2173可以分派像素着色器以将几何对象转换成每像素表示。像素着色器逻辑可以被包括在线程执行逻辑2150中。可选地，应用能够绕过光栅化器和深度测试组件2173，并且经由流输出单元2123访问未光栅化的顶点数据。

图形处理器2100具有允许数据和消息在处理器的主要组件之间传递的互连总线、互连组构或某种其他互连机构。在一些实施例中，执行单元2152A-2152B和关联的逻辑单元（例如，L1高速缓存2151、采样器2154、纹理高速缓存2158等）经由数据端口2156互连，以执行存储器访问并且与处理器的渲染输出流水线组件进行通信。采样器2154、高速缓存2151、2158和执行单元2152A-2152B各自可以具有单独的存储器访问路径。可选地，纹理高速缓存2158还能够被配置为采样器高速缓存。

渲染输出流水线2170可以包含光栅化器和深度测试组件2173，其将基于顶点的对象转换成关联的基于像素的表示。光栅化器逻辑可以包括用来执行固定功能三角形和线光栅化的窗口化器（windower）/掩蔽器单元。关联的渲染高速缓存2178和深度高速缓存2179在一些实施例中也是可用的。像素操作组件2177对数据执行基于像素的操作，尽管在一些实例中，与2D操作关联的像素操作（例如，带有混合（blending）的位块图像传输）由2D引擎2141执行，或者在显示时由显示控制器2143使用覆盖显示平面代替。共享L3高速缓存2175可以对于全部图形组件是可用的，从而允许在不使用主系统存储器的情况下共享数据。

媒体流水线2130可以包括媒体引擎2137和视频前端2134。视频前端2134可以接收来自命令流送器2103的流水线命令。媒体流水线2130可以包括单独的命令流送器。视频前端2134在将命令发送至媒体引擎2137之前可以处理媒体命令。媒体引擎2137可以包括线程派生功能性来派生线程，以便经由线程分派器2131分派到线程执行逻辑2150。

图形处理器2100可以包括显示引擎2140。显示引擎2140可以在处理器2100的外部，并且可以经由环形互连2102或某一其他互连总线或组构与图形处理器耦合。显示引擎2140可以包括2D引擎2141和显示控制器2143。显示引擎2140可以包含能独立于3D流水线操作的专用逻辑。显示控制器2143可以与显示装置（未示出）耦合，该显示装置可以是系统集成的显示装置（如在膝上型计算机中），或者可以是经由显示装置连接器附接的外部显示装置。

几何流水线2120和媒体流水线2130可以可配置成基于多个图形和媒体编程接口来执行操作，并且不特定于任何一个应用编程接口（API）。用于图形处理器的驱动器软件可以将特定于特定图形或媒体库的API调取转换成能够由图形处理器处理的命令。可以为全部来自Khronos Group的开放图形库（OpenGL）、开放计算语言（OpenCL）和/或Vulkan图形和计算API提供支持。还可以为来自微软公司的Direct3D库提供支持。可支持这些库的组合。还可以为开源计算机视觉库（OpenCV）提供支持。如果能够进行从未来API的流水线到图形处理器的流水线的映射，则具有可兼容3D流水线的未来API也将被支持。

图形流水线编程

图22A是示出用于对图形处理流水线（诸如，例如本文中结合图16A、17、21所描述的流水线）编程的图形处理器命令格式2200的框图。图22B是图示根据实施例的图形处理器命令序列2210的框图。图22A中的实线框图示了一般被包括在图形命令中的组成部分，而虚线包括可选的或者仅被包括在图形命令的子集中的组成部分。图22A的示例性图形处理器命令格式2200包括用来标识命令的客户端2202、命令操作代码（操作码）2204和数据2206的数据字段。一些命令中还包括子操作码2205和命令大小2208。

客户端2202可以指定处理命令数据的图形装置的客户端单元。图形处理器命令解析器可以检查每个命令的客户端字段以调节命令的进一步处理，并且将命令数据路由到适当的客户端单元。图形处理器客户端单元可以包括存储器接口单元、渲染单元、2D单元、3D单元和媒体单元。每个客户端单元具有处理命令的对应处理流水线。一旦客户端单元接收到命令，客户端单元便读取操作码2204和子操作码2205（如果子操作码2205存在的话），以确定要执行的操作。客户端单元使用数据字段2206中的信息来执行命令。对于一些命令，预期显式命令大小2208来指定命令的大小。命令解析器可以基于命令操作码来自动确定命令中的至少一些命令的大小。可以经由双字的倍数来对齐命令。还能够使用其他命令格式。

图22B中的流程图图示了示例性图形处理器命令序列2210。以示例性图形处理器为特征的数据处理系统的软件或固件可以使用所示出的命令序列的版本来设置、执行和终止一组图形操作。仅出于示例的目的示出并描述了样本命令序列，并且所述样本命令序列不限于这些特定命令或此命令序列。另外，命令可作为命令序列中的批量的命令被发布，使得图形处理器将至少部分并发地处理命令的序列。

图形处理器命令序列2210可以以流水线转储清除命令2212开始，以促使任何活动的图形流水线完成该流水线的当前未决命令。可选地，3D流水线2222和媒体流水线2224可以不并发地操作。执行流水线转储清除以促使活动的图形流水线完成任何未决命令。响应于流水线转储清除，用于图形处理器的命令解析器将暂停命令处理，直至活动的绘图引擎完成未决操作并且相关的读取高速缓存失效。可选地，能够将渲染高速缓存中标记为“脏”的任何数据转储清除到存储器。流水线转储清除命令2212能够被用于流水线同步，或者在将图形处理器置于低功率状态前被使用。

在命令序列要求图形处理器在流水线之间显式地切换时，可以使用流水线选择命令2213。除非上下文将为两个流水线发布命令，否则在发布流水线命令前，在执行上下文内可以仅要求一次流水线选择命令2213。紧接在经由流水线选择命令2213的流水线切换之前，可以要求流水线转储清除命令2212。

流水线控制命令2214可以配置图形流水线以用于操作，并且可以被用来对3D流水线2222和媒体流水线2224进行编程。流水线控制命令2214可以为活动的流水线配置流水线状态。流水线控制命令2214可以被用于流水线同步，并且在处理一批命令前从活动的流水线内的一个或多个高速缓冲存储器中清除数据。

与返回缓冲器状态2216有关的命令可以被用来为相应流水线配置一组返回缓冲器以写入数据。一些流水线操作要求分配、选择或配置一个或多个返回缓冲器，在处理期间这些操作将中间数据写入到所述一个或多个返回缓冲器中。图形处理器可以还使用一个或多个返回缓冲器来存储输出数据并且执行跨线程通信。返回缓冲器状态2216可以包括包括选择要用于一组流水线操作的返回缓冲器的大小和数量。

命令序列中的剩余命令基于用于操作的活动流水线而不同。基于流水线确定2220，将命令序列定制到以3D流水线状态2230开始的3D流水线2222或者在媒体流水线状态2240开始的媒体流水线2224。

用来配置3D流水线状态2230的命令包括3D状态设置命令，其用于在处理3D图元命令之前要配置的顶点缓冲器状态、顶点元素状态、恒定颜色状态、深度缓冲器状态以及其他状态变量。至少部分基于使用中的特定3D API来确定这些命令的值。如果将不使用某些流水线元件，则3D流水线状态2230命令还可以能够选择性地禁用或绕过那些元件。

3D图元2232命令可以被用来提交要由3D流水线处理的3D图元。经由3D图元2232命令传递到图形处理器的命令和关联参数被转发到图形流水线中的顶点获取功能。顶点获取功能使用3D图元2232命令数据来生成顶点数据结构。顶点数据结构被存储在一个或多个返回缓冲器中。3D图元2232命令可以被用来经由顶点着色器对3D图元执行顶点操作。为处理顶点着色器，3D流水线2222将着色器执行线程分派到图形处理器执行单元。

可以经由执行2234命令或事件来触发3D流水线2222。寄存器可以写入触发命令执行。可以经由命令序列中的“go”或“kick”命令来触发执行。可以使用用来转储清除通过图形流水线的命令序列的流水线同步命令来触发命令执行。3D流水线将执行用于3D图元的几何处理。一旦操作完成，所得到的几何对象便被光栅化，并且像素引擎对所得到的像素进行上色。对于那些操作，还可以包括用来控制像素着色和像素后端操作的另外的命令。

在执行媒体操作时，图形处理器命令序列2210可以沿着媒体流水线2224路径。一般而言，用于媒体流水线2224的编程的特定使用和方式取决于要执行的媒体或计算操作。可以在媒体解码期间将特定媒体解码操作卸载到媒体流水线。还能够绕过媒体流水线，并且能够使用由一个或多个通用处理核提供的资源来全部或部分地执行媒体解码。媒体流水线还可以包括用于通用图形处理器单元（GPGPU）操作的元件，其中图形处理器被用于使用计算着色器程序来执行SIMD向量运算，所述计算着色器程序与图形图元的渲染不是明确相关的。

可以以与3D流水线2222类似的方式对媒体流水线2224进行配置。将用来配置媒体流水线状态2240的一组命令分派或放置到在媒体对象命令2242之前的命令队列中。用于媒体流水线状态2240的命令可以包括用来配置媒体流水线元件的数据，所述媒体流水线元件将被用来处理媒体对象。这包括用来配置媒体流水线内的视频解码和视频编码逻辑的数据，诸如编码和解码格式。用于媒体流水线状态2240的命令还可以支持使用到包含一批状态设置的“间接”状态元素的一个或多个指针。

媒体对象命令2242可以将指针供应到媒体对象以便由媒体流水线处理。媒体对象包括存储器缓冲器，所述存储器缓冲器包含要处理的视频数据。可选地，在发布媒体对象命令2242之前，所有媒体流水线状态必须是有效的。一旦配置了流水线状态，并且将媒体对象命令2242排队，便经由执行命令2244或等效执行事件（例如，寄存器写入）来触发媒体流水线2224。然后可以通过由3D流水线2222或媒体流水线2224提供的操作对来自媒体流水线2224的输出进行后处理。可以以与媒体操作类似的方式配置和执行GPGPU操作。

图形软件架构

图23示出了用于数据处理系统2300的示例性图形软件架构。这样的软件架构可以包括3D图形应用2310、操作系统2320和至少一个处理器2330。处理器2330可以包括图形处理器2332以及一个或多个通用处理器核2334。处理器2330可以是处理器1402的变体或本文中所述的任何其他处理器。处理器2330可以用于代替处理器1402或本文中所述的任何其他处理器。因此，与处理器1402或本文描述的任何其他处理器组合的任何特征的公开还公开了与图形处理器2330的对应组合，但不限于此。此外，具有与本文中任何其他图的元件相同或相似名称的图23的元件描述与其他附图中相同的元件，可以以类似于所述相同的元件的方式操作或起作用，可以包括相同的组件，并且可以链接到其他实体，如本文中其他地方描述的那些，但不限于此。图形应用2310和操作系统2320各自在数据处理系统的系统存储器2350中执行。

3D图形应用2310可以包含一个或多个着色器程序，该一个或多个着色器程序包括着色器指令2312。着色器语言指令可以采用高级着色器语言，诸如Direct3D的高级着色器语言（HLSL）或OpenGL着色器语言（GLSL）等等。应用还包括采用适合由通用处理器核2334执行的机器语言的可执行指令2314。应用还包括由顶点数据定义的图形对象2316。

操作系统2320可以是来自微软公司的Microsoft® Windows®操作系统、专有的类UNIX操作系统或使用Linux内核的变体的开源类UNIX操作系统。操作系统2320能够支持图形API 2322，诸如Direct3D API、OpenGL API或Vulkan API。当Direct3D API在使用中时，操作系统2320使用前端着色器编译器2324来将采用HLSL的任何着色器指令2312编译成更低级着色器语言。编译可以是即时（JIT）编译或者应用能够执行着色器预编译。在3D图形应用2310的编译期间可以将高级着色器编译成低级着色器。可以以中间形式（诸如由Vulkan API使用的标准可移植中间表示（SPIR）的版本）提供着色器指令2312。

用户模式图形驱动器2326可以包含用来将着色器指令2312转换成硬件特定表示的后端着色器编译器2327。当OpenGL API在使用中时，将采用GLSL高级语言的着色器指令2312传递到用户模式图形驱动器2326以用于编译。用户模式图形驱动器2326可以使用操作系统内核模式功能2328来与内核模式图形驱动器2329进行通信。内核模式图形驱动器2329可以与图形处理器2332进行通信以分派命令和指令。

IP核实现

一个或多个方面可以由存储在机器可读介质上的代表性代码来实现，该代表性代码表示和/或定义诸如处理器的集成电路内的逻辑。例如，机器可读介质可以包括表示处理器内的各种逻辑的指令。在由机器读取时，指令可以促使机器制作逻辑以执行本文中描述的技术。称为“IP核”的此类表示是用于集成电路的逻辑的可重复使用单元，其可以作为对集成电路的结构进行描述的硬件模型而被存储在有形机器可读介质上。可以将硬件模型供应至各种客户或制造设施，所述客户或制造设施将硬件模型加载在制造集成电路的制作机器上。可制作集成电路，使得电路执行与本文中描述的实施例中的任何实施例关联的所描述的操作。

图24A是图示根据实施例的可被用来制造集成电路以执行操作的IP核开发系统2400的框图。IP核开发系统2400可以被用来生成能够被并入到更大的设计中或被用来构造整个集成电路（例如，SOC集成电路）的模块化、可重复使用设计。设计设施2430能够生成采用高级编程语言（例如，C/C++）的IP核设计的软件仿真2410。软件仿真2410能够被用于使用仿真模型2412来设计、测试和验证IP核的行为。仿真模型2412可以包括功能、行为和/或时序仿真。然后能够从仿真模型2412创建或合成寄存器传输级（RTL）设计2415。RTL设计2415是对硬件寄存器之间的数字信号流进行建模的集成电路的行为的抽象，包括使用建模的数字信号执行的相关联逻辑。除RTL设计2415外，还可以创建、设计或合成处于逻辑级或晶体管级的较低级设计。因此，初始设计和仿真的特定细节可以不同。

可以由设计设施将RTL设计2415或等效物进一步合成为硬件模型2420，该硬件模型2420可以采用硬件描述语言（HDL）或物理设计数据的某种其他表示。可以进一步对HDL进行仿真或测试以验证IP核设计。能够使用非易失性存储器2440（例如，硬盘、闪速存储器或任何非易失性存储介质）来存储IP核设计以用于递送到第三方制作设施2465。备选地，可以通过有线连接2450或无线连接2460（例如经由因特网）来传送IP核设计。制作设施2465然后可以制作至少部分基于IP核设计的集成电路。制作的集成电路能够被配置成执行根据本文中描述的至少一个实施例的操作。

图24B图示了集成电路封装组装件2470的截面侧视图。集成电路封装组装件2470图示了如本文中描述的一个或多个处理器或加速器装置的实现。封装组装件2470包括连接到衬底2480的多个硬件逻辑单元2472、2474。逻辑2472、2474可以至少部分地在可配置逻辑或固定功能性逻辑硬件中实现，并且能够包括本文中描述的（一个或多个）处理器核、（一个或多个）图形处理器或其他加速器装置中的任何装置的一个或多个部分。逻辑2472、2474的每个单元能够在半导体管芯内实现，并且经由互连结构2473与衬底2480耦合。互连结构2473可以被配置成在逻辑2472、2474与衬底2480之间路由电信号，并且能够包括互连，诸如但不限于凸块或柱。互连结构2473可以被配置成路由电信号，诸如，例如与逻辑2472、2474的操作关联的输入/输出（I/O）信号和/或功率或接地信号。可选地，衬底2480可以是环氧基层压衬底。衬底2480还可以包括其他适合类型的衬底。封装组装件2470能够经由封装互连2483被连接到其他电装置。封装互连2483可以被耦合到衬底2480的表面，以将电信号路由到其他电装置，诸如母板、其他芯片组或多芯片模块。

逻辑单元2472、2474可以与桥2482电耦合，该桥2482被配置成在逻辑2472、2474之间路由电信号。桥2482可以是为电信号提供路由的密集互连结构。桥2482可以包括由玻璃或合适的半导体材料构成的桥衬底。能够在桥衬底上形成电路由特征，以在逻辑2472、2474之间提供芯片到芯片连接。

虽然图示了两个逻辑单元2472、2474和桥2482，但是本文中描述的实施例可以包括在一个或多个管芯上的更多或更少逻辑单元。由于当逻辑被包括在单个管芯上时可以排除桥2482，因此可以通过零个或多于零个桥来连接一个或多个管芯。备选的是，能够通过一个或多个桥来连接多个管芯或逻辑单元。另外，在其他可能配置（包括三维配置）中能够将多个逻辑单元、管芯和桥连接在一起。

图24C图示了包括连接到衬底2480（例如，基础管芯）的多个硬件逻辑小芯片单元的封装组装件2490。如本文中所述的图形处理单元、并行处理器和/或计算加速器能够由单独制造的多样化的硅小芯片构成。在此上下文中，小芯片是至少部分封装的集成电路，其包括能够与其他小芯片一起组装到更大封装中的不同的逻辑单元。带有不同IP核逻辑的小芯片的多样化集合能够被组装到单个装置中。另外，能够使用有源中介层技术将小芯片集成到基础管芯或基础小芯片中。本文中描述的概念实现在GPU内的不同形式的IP之间的互连和通信。能够使用不同工艺技术来制造并且在制造期间构成IP核，这避免了将多个IP（特别是在带有若干特点（flavors）IP的大的SoC上）汇聚到相同制造工艺的复杂性。使得能够使用多个工艺技术改进了推向市场的时间，并且提供了创建多个产品SKU的有成本效益的方式。另外，解聚的IP更易于被独立地功率门控，在给定工作负载上不在使用中的组件能够被断电，从而降低总体功率消耗。

在各种实施例中，封装组装件2490可以包括更少或更多数量的通过组构2485或一个或多个桥2487互连的组件和小芯片。封装组装件2490内的小芯片可以具有使用衬底上晶圆上芯片堆叠的2.5D布置，其中多个管芯并排堆叠在包括穿硅通孔（TSV）的硅中介层上，以将小芯片与衬底2480耦合，该衬底2480包括到封装互连2483的电连接。

在一个实施例中，硅中介层是除了TSV之外还包括嵌入式逻辑的有源中介层2489。在此类实施例中，使用堆叠在有源中介层2489的顶部上的3D面对面管芯来布置封装组装件2490内的小芯片。除了互连组构2485和硅桥2487之外，有源中介层2489还可以包括用于I/O2491、高速缓冲存储器2492和其他硬件逻辑2493的硬件逻辑。组构2485使得能够在各种逻辑小芯片2472、2474与有源中介层2489内的逻辑2491、2493之间通信。组构2485可以是NoC互连或在封装组装件的组件之间交换数据分组的另一形式的分组交换组构。对于复杂的组件，组构2485可以是专用小芯片，其使得能够在封装组装件2490的各种硬件逻辑之间通信。

有源中介层2489内的桥结构2487可以用于促进例如逻辑小芯片或I/O小芯片2474与存储器小芯片2475之间的点对点互连。在一些实现中，桥结构2487也可被嵌入在衬底2480内。

硬件逻辑小芯片能够包括专用硬件逻辑小芯片2472、逻辑或I/O小芯片2474和/或存储器小芯片2475。硬件逻辑小芯片2472和逻辑或I/O小芯片2474可以至少部分地在可配置逻辑或固定功能性逻辑硬件中实现，并且能够包括（一个或多个）处理器核、（一个或多个）图形处理器、并行处理器或本文中描述的其他加速器装置中的任何一项的一个或多个部分。存储器小芯片2475能够是DRAM（例如，GDDR、HBM）存储器或高速缓冲（SRAM）存储器。有源中介层2489（或衬底2480）内的高速缓冲存储器2492可以充当封装组装件2490的全局高速缓存、分布式全局高速缓存的一部分，或者充当组构2485的专用高速缓存

每个小芯片可以被制作为单独的半导体管芯，并且与嵌入在衬底2480内或与其耦合的基础管芯耦合。与衬底2480的耦合可以经由互连结构2473来执行。互连结构2473可被配置成在各种小芯片与衬底2480内的逻辑之间路由电信号。互连结构2473能够包括互连，诸如但不限于凸块或柱。在一些实施例中，互连结构2473可以被配置成路由电信号，诸如，例如与逻辑、I/O和存储器小芯片的操作关联的输入/输出（I/O）信号和/或功率或接地信号。在一个实施例中，附加互连结构将有源中介层2489与衬底2480耦合。

衬底2480可以是环氧基层压衬底，然而，它不限于此，并且衬底2480还可以包括其他适合类型的衬底。封装组装件2490能够经由封装互连2483连接到其他电装置。封装互连2483可以被耦合到衬底2480的表面，以将电信号路由到其他电装置，诸如母板、其他芯片组或多芯片模块。

逻辑或I/O小芯片2474和存储器小芯片2475可以经由桥2487电耦合，该桥2487被配置成在逻辑或I/O小芯片2474与存储器小芯片2475之间路由电信号。桥2487可以是为电信号提供路由的密集互连结构。桥2487可以包括由玻璃或合适的半导体材料构成的桥衬底。能够在桥衬底上形成电路由特征，以在逻辑或I/O小芯片2474与存储器小芯片2475之间提供芯片到芯片连接。桥2487还可以被称为硅桥或互连桥。例如，桥2487是嵌入式多管芯互连桥（EMIB）。备选地，桥2487可以只是从一个小芯片到另一小芯片的直接连接。

图24D图示了根据实施例的包括可互换小芯片2495的封装组装件2494。可互换小芯片2495能够被组装到一个或多个基础小芯片2496、2498上的标准化槽中。基础小芯片2496、2498能够经由桥互连2497耦合，该桥互连2497互连能够类似于本文中描述的其他桥互连，并且可以例如是EMIB。存储器小芯片还能够经由桥互连而连接到逻辑或I/O小芯片。I/O和逻辑小芯片能够经由互连组构进行通信。基础小芯片能够各自支持采用标准化格式的一个或多个槽以用于逻辑或I/O或存储器/高速缓存之一。

可以将SRAM和功率递送电路制作到基础小芯片2496、2498中的一个或多个基础小芯片中，能够相对于堆叠在基础小芯片的顶部上的可互换小芯片2495使用不同的工艺技术来制作所述基础小芯片2496、2498。例如，能够使用更大的工艺技术来制作基础小芯片2496、2498，而能够使用更小的工艺技术来制造可互换小芯片。可互换小芯片2495中的一个或多个可以是存储器（例如，DRAM）小芯片。能够基于作为使用封装组装件2494的产品的目标的功率和/或性能，为封装组装件2494选择不同存储器密度。另外，能够基于作为产品的目标的功率和/或性能，在组装时选择带有不同数量的类型的功能单元的逻辑小芯片。另外，能够将包含不同类型的IP逻辑核的小芯片插入到可互换小芯片槽中，从而实现能够混合并匹配不同技术IP块的混合处理器设计。

示例性片上系统集成电路

图25-26B示出了可以使用一个或多个IP核来制作的示例性集成电路和相关联的图形处理器。除了所示出的之外，还可以包括其他逻辑和电路，包括附加的图形处理器/核、外设接口控制器或通用处理器核。具有与本文中的任何其他附图的元件相同或相似名称的图25-26B的元件描述与其他附图中相同的元件，可以以与所述相同的元件类似的方式操作或起作用，可以包括相同的组件，并且可以链接到其他实体，如本文中其他地方描述的那些，但不限于此。

图25是示出可以使用一个或多个IP核来制作的示例性片上系统集成电路2500的框图。示例性集成电路2500包括一个或多个应用处理器2505 （例如，CPU）、至少一个图形处理器2510，其可以是图形处理器1408、1508、2510或本文描述的任何图形处理器的变体，并且可以用于代替所描述的任何图形处理器。因此，本文中与图形处理器的组合的任何特征的公开也公开了与图形处理器2510的对应组合，但不限于此。集成电路2500可以附加地包括图像处理器2515和/或视频处理器2520，其中的任何一个可以是来自相同或多个不同设计设施的模块化IP核。集成电路2500可以包括外设或总线逻辑，其包括USB控制器2525、UART控制器2530、SPI/SDIO控制器2535以及I²S/I²C控制器2540。此外，集成电路可以包括显示装置2545，其耦合到高清晰度多媒体接口（HDMI）控制器2550和移动行业处理器接口（MIPI）显示接口2555中的一个或多个。存储可以由包括闪速存储器和闪速存储器控制器的闪速存储器子系统2560提供。存储器接口可以经由存储器控制器2565来提供，以便访问SDRAM或SRAM存储器制作。一些集成电路另外包括嵌入式安全引擎2570。

图26A-26B是示出根据本文描述的实施例的用于在SoC内使用的示例性图形处理器的框图。图形处理器可以是图形处理器1408、1508、2510或本文描述的任何其他图形处理器的变体。图形处理器可用于代替图形处理器1408、1508、2510或本文所述的任何其他图形处理器。因此，与图形处理器1408、1508、2510或本文所述的任何其他图形处理器组合的任何特征的公开也公开与图26A-26B的图形处理器的对应组合，但不限于此。图26A示出了根据实施例的可以使用一个或多个IP核来制作的片上系统集成电路的示例性图形处理器2610。图26B示出了根据实施例的可以使用一个或多个IP核来制作的片上系统集成电路的附加示例性图形处理器2640。图26A的图形处理器2610是低功率图形处理器核的示例。图26B的图形处理器2640是较高性能图形处理器核的示例。例如，图形处理器2610和图形处理器2640中的每个都可以是图25的图形处理器2510的变体，如在本段的开头所提到的。

如图26A中所示，图形处理器2610包括顶点处理器2605和一个或多个片段处理器2615A-2615N（例如，2615A、2615B、2615C、2615D到2615N-1和2615N）。图形处理器2610可经由单独逻辑执行不同着色器程序，使得顶点处理器2605被优化以执行用于顶点着色器程序的操作，而一个或多个片段处理器2615A到2615N执行用于片段或像素着色器程序的片段（例如，像素）着色操作。顶点处理器2605执行3D图形流水线的顶点处理级且生成图元和顶点数据。（一个或多个）片段处理器2615A-2615N使用由顶点处理器2605生成的图元和顶点数据来产生在显示装置上显示的帧缓冲器。（一个或多个）片段处理器2615A-2615N可以被优化以执行如在OpenGL API中提供的片段着色器程序，其可以用于执行与如在Direct 3DAPI中提供的像素着色器程序类似的操作。

图形处理器2610另外包括一个或多个存储器管理单元（MMU）2620A-2620B、（一个或多个）高速缓存2625A-2625B，以及（一个或多个）电路互连2630A-2630B。所述一个或多个MMU 2620A-2620B为图形处理器2610提供虚拟到物理地址映射，包括为顶点处理器2605和/或片段处理器2615A-2615N提供虚拟到物理地址映射，除了存储在所述一个或多个高速缓存2625A-2625B中的顶点或图像/纹理数据之外，所述虚拟到物理地址映射还可参考存储在存储器中的顶点或图像/纹理数据。一个或多个MMU 2620A-2620B可以与系统内的其他MMU（包括与图25的一个或多个应用处理器2505、图像处理器2515和/或视频处理器2520相关联的一个或多个MMU）同步，使得每个处理器2505-2520可以参与共享或统一虚拟存储器系统。图形处理器2610的组件可对应于本文所述的其他图形处理器的组件。所述一个或多个MMU2620A-2620B可以对应于图2C的MMU 245。顶点处理器2605和片段处理器2615A-2615N可对应于图形多处理器234。根据实施例，一个或多个电路互连2630A-2630B使得图形处理器2610能够经由SoC的内部总线或经由直接连接与SoC内的其他IP核通过接口连接。一或多个电路互连2630A-2630B可对应于图2C的数据交叉开关240。可以在图形处理器2610的类似组件和本文描述的各种图形处理器架构之间找到进一步的对应。

如图26B所示，图形处理器2640包括图26A的图形处理器2610的一个或多个MMU2620A-2620B、（一个或多个）高速缓存2625A-2625B和（一个或多个）电路互连2630A-2630B。图形处理器2640包括一或多个着色器核2655A到2655N（例如，2655A、2655B、2655C、2655D、2655E、2655F到2655N-1和2655N），其提供统一着色器核架构，其中单个核或类型的核可执行所有类型的可编程着色器代码，包括用以实现顶点着色器、片段着色器和/或计算着色器的着色器程序代码。所存在的着色器核的确切数量可在实施例和实现之间变化。另外，图形处理器2640包括核间任务管理器2645，其充当线程分派器以将执行线程分派到一个或多个着色器核2655A-2655N和拼贴单元2658以加速用于基于贴片的渲染的拼贴操作，其中在图像空间中细分场景的渲染操作，例如以利用场景内的局部空间一致性或优化内部高速缓存的使用。着色器核2655A-2655N可对应于例如如图2D中的图形多处理器234，或分别对应于图3A和3B的图形多处理器325、350，或对应于图3C的多核群组365A。

向存储器层级结构暴露任务图

任务图是一组顶点和有向边。每个顶点对应于一些计算，并且每个边表示依赖性；依赖性最常见的是数据依赖性（例如，一个计算的输出是另一个计算的输入）。在一些示例中，一些没有。

神经网络可以被表示为任务图，并且这在一些流行的深度学习框架（例如TensorFlow）中进行。每个顶点可以表示许多可能的计算粒度下的计算。例如，顶点可以表示粗粒度的某物，如神经网络中的整个层的前向传播，或者它可以表示更细粒度的某物，如单个数据点的数据类型转换。更粗粒度的顶点更简单，但潜在地对硬件暴露较少的并行性。

任务图具有许多可能的表示，并且在一些示例中，软件可以一次提供整个图，或者一次仅提供一段。无论如何，图（或子图）包括一组顶点和一组边。每个顶点是计算（例如，函数或内核）和用于该计算的参数/输入。这可以由元组（例如，函数指针“x”、整数值0、数据指针“y”）来表示。这是一种相当普遍的构造，例如在任务盗取系统中，诸如Intel的TBB。每条边是源顶点和目的地顶点，并且因此可以由索引、指针等的（源、目的地）对来表示。

软件可以进行库调用以将任务图（或子图）传达到硬件。取决于硬件将用图做什么，装置驱动程序或运行时可以将整个图传达到硬件（例如，将信息复制到特定的预定位置，或提供图存储在图形存储器中的位置的地址），或它可以将图形分成子图，并且一次仅传达一段。例如，对于图中的每个顶点，其可将GPU要执行的内核排队，并且还传递该任务的一组目的地顶点id，所述目的地顶点id将是对已存在的内核描述符的扩展。

任务图暴露并行性/依赖性和通信。在我们最简单的情况下，在软件传达每个任务的目的地id的情况下，硬件可以追踪GPU的哪部分（例如，哪个执行单元或SM）被指派来执行（一个或多个）目的地，并且先占地复制来自我们的任务的输出数据以接近目的地。这可以是用于特定SM的L1高速缓存，或者是接近目的地的共享高速缓存。

在一些实施例中，硬件可以用信息做更多的事情。例如，它可以将目的地任务指派到与源相同的硬件单元，使得消除数据复制（或者如果我们有多个目的地，则至少减少数据复制）。

图27是根据一些实施例的矩阵乘法运算的示意图。参考图27，在一些示例中，可以增强软件接口以允许应用表达跨各种任务的数据依赖性。系统硬件知道任务被调度到哪里，并将来自“生产者”（例如2710、2715）任务的输出移动到“消费者”（例如2720）任务的高速缓存。在一些实例中，来自生产者任务2710、2715的数据可输入到在通信上耦合到消费者任务2720的高速缓存2725。

控制预取和高速缓存能力的上下文感知预测器

图28是根据本文中所述的实施例的上下文感知预测器2800的示意图。参考图28，一些应用程序在存储器访问的执行中展现伪随机模式，这可使得难以实现用于控制存储器系统中的硬件的有效的试探法。例如，对于是将给定行置于高速缓存中还是迁移其所驻留的页作出有用的决定要求准确预测该高速缓存行是否将在不久的将来被再次访问的能力。大多数试探法依赖于地址（例如，高速缓存行地址或页地址）的历史序列来预测未来。这些试探法通常实现规则的非常简单的集合以用于作出决定。例如，可以追踪N个最近访问的页，并且假设这些页可能在不久的将来被重新访问。

如果不能作出准确的预测，则存储器系统内效率可能降低。例如，数据的副本可能被不必要地存储，其将永远不在靠近计算引擎的宝贵高速存储器中被再次接触。此外，需要通过驱逐可能有用的其它内容来创建用于该副本的空间。

虽然一些算法自然地使它们自己适合于很“规则的”访问模式（例如，连续地址的流），所述访问模式易于用简单的试探法来预测，但是一些算法固有地创建“不规则的”访问模式。

导致不规则访问的一类深度学习算法被称为嵌入2812。这些是将非常稀疏的数据映射到密集矢量的方式，然后通常将所述密集矢量馈送到神经网络2820，诸如多层感知器（MLP）。

嵌入通常用于语言处理工作量和推荐系统中，例如以将各个单词映射到浮点值的短向量，使得相关单词（例如，“母亲”和“父亲”）在它们之间具有小的距离。在通过嵌入的正向传递期间，可以在一个或多个表中查找给定的输入值，并且可以检索对应的表条目。这非常类似于一组哈希表查找。类似于哈希表查找，对于给定的输入流，控制器可以检索（有意）不相关的表条目的流；通过设计，访问模式是伪随机的。

虽然现有的试探法在作出关于不规则访问模式的良好决策方面不成功，但是神经网络是可以采用的备选方法。它们通常在识别模式方面是成功的，甚至在看似随机的输入流中。

此外，有时能够处置特别有挑战性的情况的一类神经网络是上下文感知网络。上下文感知网络将关于输入的一些上下文信息作为输入，或者在网络的单独部分中为其自己计算关于输入的一些上下文信息。该上下文信息然后作为到网络的附加输入，该附加输入可以帮助导出输出。例如，如果我们具有能够处置多种语言的语音识别网络，则如果它能够首先确定语音是哪种语言（或被告知该语言），则它可以更好得多地进行识别特定语音片段的工作。

在一些示例中，神经网络（其可以是上下文感知神经网络，但不一定必须是）可以被添加到运行包括嵌入的工作负载的系统。嵌入输出被馈送到该预测网络中以向硬件作出推荐。

嵌入通常用于我们具有一些上下文信息的系统中。例如，推荐系统传统上接受用户信息和一些上下文（例如，“用户正在访问网页X”）并且基于该信息作出推荐，诸如向该用户显示什么广告以最大化他们将点击广告的可能性。因此，它可以将该上下文信息中的一些或全部作为上下文感知网络的输入之一传递到上下文感知网络。

新的神经网络可以纯粹以硬件实现，或者可以是硬件和软件的混合。例如，可编程神经网络加速器可以被引入处理器中，并且装置驱动器或其他系统软件可以包含具有预训练网络的程序以在该加速器上运行。用户应用可以包含对API的调用，以向装置驱动程序或系统软件指示其正在执行嵌入查找，使得输入和输出中的一些/全部可以被传递到加速器中。备选地，硬件可以尝试检测应用正在进行嵌入查找，并且完全自动地将检测到的输入/输出传递到加速器。

在一些实施方式中，来自神经网络的预测可以用于控制存储器子系统的方面。两个具体的例子是页复制和高速缓存管理策略。

当诸如GPU的加速器接触系统存储器（而不是GPU存储器）中的页时，硬件和/或系统软件必须决定是否将该页复制到GPU存储器中。如果在不久的将来将重新接触页，则这将导致更快的将来访问。如果在不久的将来页被接触了足够的次数，这也可节省系统存储器和GPU之间的带宽，因为否则所有这些访问将导致系统存储器和GPU之间的业务。然而，如果在不久的将来页没有被接触足够的次数，则与对于小的（例如64B）访问将具有的带宽相比，通过将页复制到GPU存储器可以消耗更多的带宽（因为我们需要读取整个页以复制它）。此外，最佳决定取决于将从GPU存储器中转移什么数据来为新页腾出空间。

类似地，当处理器（或加速器）具有高速缓存层级时，当它访问不在该层级的特定级中的数据时，它可以选择是否将数据插入到高速缓存中。该折衷类似于页放置问题。然而，在高速缓存中，控制器有时也可具有影响要驱逐什么数据的未来选择（即，替换策略）的能力。因此，除了决定是否将数据插入到给定高速缓存中之外，如果控制器决定插入数据，则控制器也可以决定如何设置与该行相关联的、与替换策略有关的一些元数据。例如，它可以决定插入高速缓存行，但是（错误地）将其标记为“最近最少使用的”行，使得它将接着从高速缓存中的该组中被驱逐。

基于硬件的数据预取

当前的GPU预取技术基于软件（即，负载提升（load hoisting））。存在这样的情况，其中软件不能提前计算地址以提升WOD（即，预取）来隐藏时延。在这些情况下，要求硬件预取器来发起预取。该单元可以在EU（执行单元）或LSC（加载存储高速缓存）中，或者在分级结构的下一级中。

图29是示出根据本文所述实施例的由基于硬件的预取器2900实现的操作的流程图。参考图29，在一些示例中，预取器2900实现用于监测加载/存储操作的指令2910、用于学习预取步距的指令2915、用于建立置信度水平的指令2920以及用于发起预取操作的指令2925。

下面提供了本文中公开的技术的说明性示例。技术的实施例可以包括以下描述的示例中的任何一个或多个以及任何组合。

示例1包括一种设备，该设备包括：多个处理资源，其包括第一处理资源和第二处理资源；存储器，其在通信上耦合到第一处理资源和第二处理资源；以及处理器，其用于：接收一个或多个任务的数据依赖性，所述一个或多个任务包括在所述第一处理资源上执行的一个或多个生产者任务以及在所述第二处理资源上执行的一个或多个消费者任务；以及将来自在第一处理资源上执行的一个或多个生产者任务的数据输出移动到在通信上耦合到第二处理资源的高速缓冲存储器。

示例2包括示例1的主题，其中一个或多个任务在任务图中被表示为由边连接的任务。

示例3包括示例1-2中任一项的主题，处理器用于将一个或多个任务映射到多个处理资源。

示例4包括示例1-3中任一项的主题，处理器用于将内核排队以用于由多个处理资源之一执行。

示例5包括示例1-4中任一项的主题，处理器用于将一个或多个任务的一个或多个目的地标识符传递到多个处理资源。

示例6包括示例1-5中任一项的主题，其中高速缓冲存储器包括L1高速缓存。

示例7包括示例1-6中任一项的主题，其中在多个处理资源之间共享L1高速缓存。

示例8包括一种处理器实现的方法，包括：在处理器中接收一个或多个任务的数据依赖性，所述一个或多个任务包括在第一处理资源上执行的一个或多个生产者任务和在第二处理资源上执行的一个或多个消费者任务；以及将来自在第一处理资源上执行的一个或多个生产者任务的数据输出移动到在通信上耦合到第二处理资源的高速缓冲存储器。

示例9包括示例8的主题，其中一个或多个任务在任务图中被表示为由边连接的任务。

示例10包括示例8-9中任一项的主题，还包括将一个或多个任务映射到多个处理资源。

示例11包括示例8-10中任一项的主题，还包括将内核排队以用于由多个处理资源之一执行。

示例12包括示例8-11中的任一项的主题，还包括将一个或多个任务的一个或多个目的地标识符传递到多个处理资源。

示例13包括示例8-12中任一项的主题，其中高速缓冲存储器包括L1高速缓存。

示例14包括示例8-13中任一项的主题，其中在多个处理资源之间共享L1高速缓存。

示例15包括一种非暂时性计算机可读介质，其包括一个或多个指令，所述一个或多个指令在至少一个处理器上执行时，将所述至少一个处理器配置成：在处理器中接收一个或多个任务的数据依赖性，所述一个或多个任务包括在第一处理资源上执行的一个或多个生产者任务和在第二处理资源上执行的一个或多个消费者任务；以及将来自在第一处理资源上执行的一个或多个生产者任务的数据输出移动到在通信上耦合到第二处理资源的高速缓冲存储器。

示例16包括示例15的主题，其中一个或多个任务在任务图中被表示为由边连接的任务。

示例17包括示例15-16中任一项的主题，存储指令，所述指令在由一个或多个处理器执行时使得所述一个或多个处理器将一个或多个任务映射到多个处理资源。

示例18包括示例15-17中的任一项的主题，存储指令，所述指令在由一个或多个处理器执行时使所述一个或多个处理器将内核排队以用于由多个处理资源之一执行。

示例19包括示例15-18中的任一项的主题，其包括存储指令，所述指令在由一个或多个处理器执行时使得所述一个或多个处理器将一个或多个任务的一个或多个目的地标识符传递到多个处理资源。

示例20包括示例15-19中任一项的主题，其中高速缓冲存储器包括L1高速缓存。

示例21包括示例15-20中任一项的主题，其中在多个处理资源之间共享L1高速缓存。

示例22是一种设备，其包括：多个处理资源，所述多个处理资源包括第一处理资源和第二处理资源；存储器，其在通信上耦合到第一处理资源和第二处理资源；以及处理器，其用于：接收一个或多个嵌入到上下文感知神经网络中；以及使用所述一或多个嵌入来生成硬件预测。

示例23包括示例22的主题，其中嵌入向上下文感知神经网络提供上下文信息。

示例24包括示例21-22中的任一项的主题，处理器用于响应于一个或多个嵌入而绕过高速缓存操作。

示例25是一种设备，其包括：多个处理资源，所述多个处理资源包括第一处理资源和第二处理资源；存储器，其在通信上耦合到第一处理资源和第二处理资源；以及处理器，其用于：监测加载/存储操作；学习一个或多个预取步距；建立置信度水平；并发起预取操作。

以上详细描述包括对附图的参考，附图形成详细描述的一部分。附图通过图示的方式示出了可以实践的具体实施例。这些实施例在本文中也被称为“示例”。这样的示例可以包括除了所示出或描述的那些之外的元件。然而，还预期包括所示出或描述的元件的示例。此外，还预期使用关于特定示例（或其一个或多个方面）或关于本文中所示出或所描述的其它示例（或其一个或多个方面）所示出或所描述的那些元件（或其一个或多个方面）的任何组合或排列的示例。

在本文档中提及的出版物、专利和专利文档通过引用整体并入本文，如同通过引用单独并入。在本文档与这样通过引用并入的那些文档之间的不一致用法的情况下，并入的（一个或多个）参考中的用法是对本文档的用法的补充；对于不可调和的不一致性，以本文档中的用法为准。

在本文档中，如在专利文档中常见的，术语“一（a或an）”被用于包括一个或多于一个，独立于“至少一个”或“一个或多个”的任何其他实例或用法。此外，“一组”包括一个或多个元素。在本文档中，术语“或”用于指非排他性的或，使得“A或B”包括“A但没有B”、“B但没有A”以及“A和B”，除非另有指示。在所附权利要求中，术语“包括（including）”和“其中（inwhich）”用作相应术语“包括（comprising）”和“其中（wherein）”的简单英语等同物。此外，在以下权利要求中，术语“包括（including和comprising）”也是开放式的；即，包括除了在权利要求中的这种术语之后列出的那些元件之外的元件的系统、装置、物品或过程仍然被认为落入该权利要求的范围内。此外，在以下权利要求中，术语“第一”、“第二”、“第三”等仅用作标记，并且不旨在建议它们的对象的数字顺序。

如本文所引用的术语“逻辑指令”涉及可被一个或多个机器理解以用于执行一个或多个逻辑操作的表达。例如，逻辑指令可以包括可由处理器编译器解释以用于对一个或多个数据对象执行一个或多个操作的指令。然而，这仅仅是机器可读指令的示例，并且示例不限于这个方面。

如本文所引用的术语“计算机可读介质”涉及能够维持可由一个或多个机器感知的表达的介质。例如，计算机可读介质可以包括用于存储计算机可读指令或数据的一个或多个存储装置。此类存储装置可以包括存储介质，诸如，例如光、磁或半导体存储介质。然而，这仅仅是计算机可读介质的示例，并且示例不限于这个方面。

如本文所引用的术语“逻辑”涉及用于执行一个或多个逻辑操作的结构。例如，逻辑可以包括基于一个或多个输入信号提供一个或多个输出信号的电路。此类电路可以包括接收数字输入并提供数字输出的有限状态机，或者响应于一个或多个模拟输入信号而提供一个或多个模拟输出信号的电路。可以在专用集成电路（ASIC）或现场可编程门阵列（FPGA）中提供此类电路。此外，逻辑可以包括存储在存储器中的机器可读指令，其与处理电路结合以执行这样的机器可读指令。然而，这些仅仅是可以提供逻辑的结构的示例，并且示例不限于这个方面。

本文中描述的方法中的一些方法可以被体现为计算机可读介质上的逻辑指令。当在处理器上执行时，逻辑指令使处理器被编程为实现所描述的方法的专用机器。处理器在由逻辑指令配置成执行本文中所述的方法时构成用于执行所述方法的结构。备选地，本文中所述的方法可简化为在例如现场可编程门阵列（FPGA）、专用集成电路（ASIC）等上的逻辑。

在说明书和权利要求书中，可以使用术语耦合和连接以及它们的派生词。在特定示例中，连接可以用于指示两个或更多个元件与彼此直接物理或电接触。耦合可以意味着两个或更多个元件直接物理或电接触。然而，耦合也可以意味着两个或更多个元件可以不与彼此直接接触，但是仍然可以与彼此协作或交互。

说明书中对“一个示例”或“一些示例”的引用意味着结合示例描述的特定特征、结构或特性被包括在至少一个实现中。在说明书中的各个地方出现短语“在一个示例中”可以或可以不全部指代相同的示例。

以上描述旨在是说明性的并且是非限制性的。例如，上述示例（或其一个或多个方面）可以与其他示例组合使用。诸如由本领域普通技术人员在审阅以上描述之后可以使用其他实施例。摘要是为了允许读者快速确定技术公开的本质。应当理解，它将不用于解释或限制权利要求的范围或含义。此外，在以上详细描述中，各种特征可以被分组在一起以使本公开流畅。然而，权利要求可能没有阐述本文中公开的每个特征，因为实施例可以以所述特征的子集为特征。此外，实施例可以包括比在特定示例中公开的特征更少的特征。因此，以下权利要求由此被并入详细描述中，其中每个权利要求独立地作为单独的实施例。本文中公开的实施例的范围将参考所附权利要求以及此类权利要求所被授权的等同物的全部范围来确定。

尽管已经以特定于结构特征和/或方法动作的语言描述了示例，但是要理解，所要求保护的主题可以不限于所描述的特定特征或动作。相反，具体特征和动作被公开为实现所要求保护的主题的样本形式。

要在说明性而不是限制性的意义上看待前面的描述和附图。本领域技术人员将理解，在不背离所附权利要求中阐述的本发明的更广泛的精神和范围的情况下，可以对本文中描述的实施例进行各种修改和改变。

可以例如作为计算机程序产品来提供实施例，该计算机程序产品可以包括其上存储有机器可执行指令的一个或多个机器可读介质，该机器可执行指令当由诸如计算机、计算机网络或其他电子装置之类的一个或多个机器执行时可以导致一个或多个机器执行根据本文中描述的实施例的操作。机器可读介质可以包括但不限于软盘、光盘、CD-ROM（压缩盘-只读存储器）和磁光盘、ROM、RAM、EPROM（可擦除可编程只读存储器）、EEPROM （电可擦除可编程只读存储器）、磁卡或光卡、闪速存储器或适于存储机器可执行指令的其他类型的介质/机器可读介质。

此外，实施例可以作为计算机程序产品下载，其中程序可以经由通信链路（例如，调制解调器和/或网络连接）通过体现在载波或其他传播介质中和/或由载波或其他传播介质调制的一个或多个数据信号从远程计算机（例如，服务器）传递到请求计算机（例如，客户端）。

本领域技术人员将从前面的描述中意识到，可以以各种形式实现实施例的广泛技术。因此，虽然已经结合其特定示例描述了实施例，但是实施例的真实范围不应如此限制，因为在研究附图、说明书和所附权利要求书之后，其它修改对于本领域技术人员将变得显而易见。

要在说明性而不是限制性的意义上看待前面的描述和附图。本领域技术人员将理解，在不偏离所附权利要求中阐述的特征的更广泛的精神和范围的情况下，可以对本文描述的实施例进行各种修改和改变。

本发明还提供以下技术方案：

技术方案1. 一种设备，包括：

多个处理资源，所述多个处理资源包括第一处理资源和第二处理资源；

存储器，所述存储器在通信上耦合到所述第一处理资源和所述第二处理资源；以及

处理器，所述处理器用于：

接收一个或多个任务的数据依赖性，所述一个或多个任务包括在所述第一处理资源上执行的一个或多个生产者任务和在所述第二处理资源上执行的一个或多个消费者任务；以及

将来自在所述第一处理资源上执行的一个或多个生产者任务的数据输出移动到在通信上耦合到所述第二处理资源的高速缓冲存储器。

技术方案2. 如技术方案1所述的设备，其中所述一个或多个任务在任务图中被表示为由边连接的任务。

技术方案3. 如技术方案2所述的设备，所述处理器用于：

将所述一个或多个任务映射到所述多个处理资源。

技术方案4. 如技术方案3所述的设备，所述处理器用于：

将内核排队以用于由所述多个处理资源之一执行。

技术方案5. 如技术方案4所述的设备，所述处理器用于：

将所述一个或多个任务的一个或多个目的地标识符传递到所述多个处理资源。

技术方案6. 如技术方案1所述的设备，其中所述高速缓冲存储器包括L1高速缓存。

技术方案7. 如技术方案6所述的设备，其中在多个处理资源之间共享所述L1高速缓存。

技术方案8. 一种计算机实现的方法，包括：

在处理器中接收一个或多个任务的数据依赖性，所述一个或多个任务包括在第一处理资源上执行的一个或多个生产者任务和在第二处理资源上执行的一个或多个消费者任务；以及

技术方案9. 如技术方案8所述的方法，其中所述一个或多个任务在任务图中被表示为由边连接的任务。

技术方案10. 如技术方案9所述的方法，包括：

将所述一个或多个任务映射到所述多个处理资源。

技术方案11. 如技术方案10所述的方法，包括：

将内核排队以用于由所述多个处理资源之一执行。

技术方案12. 如技术方案4所述的方法，包括：

技术方案13. 如技术方案8所述的方法，其中所述高速缓冲存储器包括L1高速缓存。

技术方案14. 如技术方案13所述的方法，其中在多个处理资源之间共享所述L1高速缓存。

技术方案15. 一种非暂时性机器可读介质，存储指令，所述指令在被一个或多个处理器执行时，使得所述一个或多个处理器：

技术方案16. 如技术方案1所述的非暂时性机器可读介质，其中所述一个或多个任务在任务图中被表示为由边连接的任务。

技术方案17. 如技术方案16所述的非暂时性机器可读介质，存储指令，所述指令在被一个或多个处理器执行时，使得所述一个或多个处理器：

将所述一个或多个任务映射到所述多个处理资源。

技术方案18. 如技术方案17所述的非暂时性机器可读介质，存储指令，所述指令在被一个或多个处理器执行时，使得所述一个或多个处理器：

将内核排队以用于由所述多个处理资源之一执行。

技术方案19. 如技术方案18所述的非暂时性机器可读介质，存储指令，所述指令在被一个或多个处理器执行时，使得所述一个或多个处理器：

技术方案20. 如技术方案15所述的非暂时性机器可读介质，其中所述高速缓冲存储器包括L1高速缓存。

技术方案21. 如技术方案20所述的非暂时性机器可读介质，其中在多个处理资源之间共享所述L1高速缓存。

Claims

1.一种设备，包括：

处理器，所述处理器用于：

2.如权利要求1所述的设备，其中所述一个或多个任务在任务图中被表示为由边连接的任务。

3.如权利要求2所述的设备，所述处理器用于：

将所述一个或多个任务映射到所述多个处理资源。

4.如权利要求3所述的设备，所述处理器用于：

将内核排队以用于由所述多个处理资源之一执行。

5.如权利要求4所述的设备，所述处理器用于：

6.如权利要求1所述的设备，其中所述高速缓冲存储器包括L1高速缓存。

7.如权利要求6所述的设备，其中在多个处理资源之间共享所述L1高速缓存。

8. 一种计算机实现的方法，包括：

9.如权利要求8所述的方法，其中所述一个或多个任务在任务图中被表示为由边连接的任务。

10.如权利要求9所述的方法，包括：

将所述一个或多个任务映射到所述多个处理资源。

11.如权利要求10所述的方法，包括：

将内核排队以用于由所述多个处理资源之一执行。

12.如权利要求11所述的方法，包括：

13.如权利要求8所述的方法，其中所述高速缓冲存储器包括L1高速缓存。

14.如权利要求13所述的方法，其中在多个处理资源之间共享所述L1高速缓存。