CN113454587A

CN113454587A - 具有用于混合浮点格式的点积累加指令的图形处理器和图形处理单元

Info

Publication number: CN113454587A
Application number: CN202080014566.3A
Authority: CN
Inventors: S·马伊尤兰; S·马尔瓦哈; A·加格; S·帕尔; J·帕拉; G·古拉姆; V·乔治; D·斯塔基; G-Y·鲁
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2019-03-15
Filing date: 2020-03-14
Publication date: 2021-09-28
Also published as: CN113424162A; JP2022183406A; CN113396400A; US20220171710A1; EP3938915A1; US20220129266A1; US20250028675A1; US20210312697A1; DE112020001256T5; US12079155B2; US12093210B2; US20220180467A1; US20240362180A1; US11361496B2; US20220138104A1; CN113439265A; ES2964969T3; CN114968366A; US11709793B2; US20220114096A1

Abstract

公开了具有用于混合浮点格式的点积累加指令的图形处理器和图形处理单元。在一个实施例中，图形多处理器包括用于分派指令的指令单元和耦合到该指令单元的处理资源。处理资源被配置为接收来自指令单元的点积累加指令，并且使用bfloat16数字(BF16)格式处理该点积累加指令。

Description

具有用于混合浮点格式的点积累加指令的图形处理器和图形处理单元

相关申请的交叉引用

本申请与以下申请相关并且根据35 U.S.C.119(e)要求享有以下申请的权益和优先权：Abhishek Appu等人于2019年3月15日提交的题为GRAPHICS PROCESSING的美国临时申请62/819,337(代理人案卷号AC0271-Z)，Lakshminarayanan Straramassarma等人于2019年3月15日提交的题为GRAPHICS DATA PROCESSING的62/819,435(代理人案卷号AC0285-Z)，以及Subramaniam Maiyuran等人于2019年3月15日提交的题为SYSTEMS ANDMETHODS FOR PARTITIONING CACHE TO REDUCE CACHE ACCESS LATENCY的62/819,361(代理人案卷号AC0286-Z)，其全部内容通过引用并入本文。

技术领域

本公开总体上涉及数据处理，并且更具体地涉及经由通用图形处理单元的数据处理。

背景技术

当前的并行图形数据处理包括开发用于对图形数据执行诸如线性插值、曲面细分、光栅化、纹理映射、深度测试等之类的特定操作的系统和方法。传统上，图形处理器使用固定功能计算单元来处理图形数据；然而，最近，图形处理器的部分已经变得可编程，使得这些处理器能够支持更多种操作来处理顶点和片段数据。

为了进一步提高性能，图形处理器典型地实现诸如流水线化之类的处理技术，流水线化尝试在图形流水线的不同部分中并行地处理尽可能多的图形数据。具有单指令、多线程(SIMT)架构的并行图形处理器被设计用于使图形流水线中的并行处理量最大化。在SIMT架构中，并行线程组尝试尽可能频繁地同步地一起执行程序指令，以提高处理效率。可以在Shane Cook的CUDA Programming第3章第37-51页(2013)中找到对SIMT架构的软件和硬件的总体概述。

附图说明

为了使得能够详细理解本实施例的上述特征，可以通过参考实施例对以上简要概括的实施例进行更具体的描述，其中一些实施例在附图中示出。然而，应当注意，附图仅示出典型实施例并且因此不应被认为是对其范围的限制。

图1是示出被配置为实现本文描述的实施例的一个或多个方面的计算机系统的框图；

图2A-2D示出了并行处理器组件；

图3A-3C是图形多处理器和基于多处理器的GPU的框图；

图4A-4F示出了其中多个GPU通信地耦合到多个多核心处理器的示例性架构；

图5示出了图形处理流水线；

图6示出了机器学习软件栈；

图7示出了通用图形处理单元；

图8示出了多GPU计算系统；

图9A-9B示出了示例性深度神经网络的层；

图10示出了示例性递归神经网络；

图11示出了深度神经网络的训练和部署；

图12是示出分布式学习的框图；

图13示出了适用于使用经训练的模型执行推断的示例性推断片上系统(SOC)；

图14是处理系统的框图；

图15A-15C示出了计算系统和图形处理器；

图16A-16C示出了附加图形处理器和计算加速器架构的框图；

图17是图形处理器的图形处理引擎的框图；

图18A-18B示出了包括在图形处理器核心中采用的处理元件的阵列的线程执行逻辑；

图19示出了附加的执行单元；

图20是示出图形处理器指令格式的框图；

图21是附加图形处理器架构的框图；

图22A-22B示出了图形处理器命令格式和命令序列；

图23示出了用于数据处理系统的示例性图形软件架构；

图24A是示出IP核心开发系统的框图；

图24B示出了集成电路封装组装件的横截面侧视图；

图24C示出了包括连接到衬底(例如，基础管芯)的硬件逻辑小芯片的多个单元的封装组装件；

图24D示出了包括可互换小芯片的封装组装件；

图25是示出示例性片上系统集成电路的框图；

图26A-26B是示出在SoC内使用的示例性图形处理器的框图；

图27示出了根据一个实施例的用于在处理资源(例如，功能单元，FPU)中执行用于BF16格式的dp2a指令的电路2700的框图；

图28示出了根据另一实施例的用于在FPU中执行用于BF16格式的dp2a指令的电路2800的框图；

图29示出了根据一个实施例的用于在FPU中执行用于BF16格式的dp2a指令的电路2900的框图。

具体实施方式

图形处理单元(GPU)通信地耦合到主机/处理器核心以加速例如图形操作、机器学习操作、模式分析操作和/或各种通用GPU(GPGPU)功能。GPU可以通过总线或另一互连(例如，诸如PCIe或NVLink之类的高速互连)通信地耦合到主机处理器/核心。可替代地，GPU可以集成在与核心相同的封装或芯片上，并且通过内部处理器总线/互连(即，在封装或芯片内部)通信地耦合到核心。无论GPU连接的方式如何，处理器核心都可以以包含在工作描述符中的命令/指令序列的形式将工作分配给GPU。然后，GPU使用专用电路/逻辑来高效地处理这些命令/指令。

在以下描述中，阐述了许多具体细节以提供更透彻的理解。然而，对于本领域技术人员来说显而易见的是，可以在没有这些具体细节中的一个或多个的情况下实践本文描述的实施例。在其他实例中，没有描述公知的特征以避免模糊本实施例的细节。

系统概述

图1是示出被配置为实现本文描述的实施例的一个或多个方面的计算系统100的框图。计算系统100包括处理子系统101，处理子系统101具有一个或多个处理器102和经由可以包括存储器中心105的互连路径通信的系统存储器104。存储器中心105可以是芯片组组件内的单独组件或可以集成在一个或多个处理器102内。存储器中心105经由通信链路106与I/O子系统111耦合。I/O子系统111包括可以使得计算系统100能够接收来自一个或多个输入设备108的输入的I/O中心107。另外，I/O中心107可以使得显示控制器能够向一个或多个显示设备110A提供输出，该显示控制器可以包括在一个或多个处理器102中。在一个实施例中，与I/O中心107耦合的一个或多个显示设备110A可以包括本地、内部或嵌入式显示设备。

例如，处理子系统101包括经由总线或其他通信链路113耦合到存储器中心105的一个或多个并行处理器112。通信链路113可以是任何数量的基于标准的通信链路技术或协议之一，例如，但不限于快速PCI，或者可以是供应商特定的通信接口或通信结构。一个或多个并行处理器112可以形成计算上集中的并行或向量处理系统，其能够包括大量处理核心和/或处理集群，例如，多集成核心(MIC)处理器。例如，一个或多个并行处理器112形成图形处理子系统，该图形处理子系统可以将像素输出到经由I/O中心107耦合的一个或多个显示设备110A之一。一个或多个并行处理器112还可以包括显示控制器和显示接口(未示出)，以实现与一个或多个显示设备110B的直接连接。

在I/O子系统111内，系统存储单元114可以连接到I/O中心107以便为计算系统100提供存储机制。I/O交换机116可用于提供接口机制以实现I/O中心107与以下其他组件之间的连接：例如，可以集成到平台中的网络适配器118和/或无线网络适配器119，以及可以经由一个或多个插接设备120添加的各种其他设备。(多个)插接设备120还可以包括例如一个或多个外部图形处理器设备和/或计算加速器。网络适配器118可以是以太网适配器或另一有线网络适配器。无线网络适配器119可以包括Wi-Fi、蓝牙、近场通信(NFC)或包括一个或多个无线无线电的其他网络设备中的一个或多个。

计算系统100可以包括未明确示出的其他组件，包括USB或其他端口连接、光学存储驱动器、视频捕获设备等，也可以连接到I/O中心107。对图1中的各种组件进行互连的通信路径可以使用任何合适的协议来实现，例如，基于PCI(外围组件互连)的协议(例如，快速PCI)，或任何其他总线或点对点通信接口和/或(多个)协议(例如，NV-Link高速互连或本领域已知的互连协议)。

一个或多个并行处理器112可以包含针对图形和视频处理优化的电路(包括例如视频输出电路)，并且构成图形处理单元(GPU)。可替代地或另外地，一个或多个并行处理器112可以包含针对通用处理优化的电路，同时保留底层计算架构，这将在本文中更详细地描述。计算系统100的组件可以与一个或多个其他系统元件集成在单个集成电路上。例如，一个或多个并行处理器112、存储器中心105、(多个)处理器102和I/O中心107可以集成到片上系统(SoC)集成电路中。可替代地，计算系统100的组件可以集成到单个封装中以形成系统级封装(SIP)配置。在一个实施例中，计算系统100的组件的至少一部分可以集成到多芯片模块(MCM)中，该多芯片模块(MCM)可以与其他多芯片模块互连到模块化计算系统中。

将认识到，本文示出的计算系统100是说明性的，并且可以进行变化和修改。可以根据需要修改连接拓扑，包括桥接器的数量和布置，处理器102的数量，以及并行处理器112的数量。例如，系统存储器104可以直接连接到(多个)处理器102而不是通过桥接器连接到处理器102，而其他设备经由存储器中心105和(多个)处理器102与系统存储器104通信。在其他替代拓扑结构中，(多个)并行处理器112连接到I/O中心107或直接连接到一个或多个处理器102之一，而不是连接到存储器中心105。在其他实施例中，I/O中心107和存储器中心105可以集成到单个芯片中。两组或更多组处理器102也可以经由多个插座附接，该多个插座可以与(多个)并行处理器112的两个或更多个实例耦合。

本文示出的特定组件中的一些是可选的，并且可以不包括在计算系统100的所有实现方式中。例如，可以支持任何数量的插接卡或外围设备，或者可以消除一些组件。此外，一些架构可以对于与图1中所示的组件类似的组件使用不同的术语。例如，存储器中心105在一些架构中可以被称为北桥，而I/O中心107可以被称为南桥。

图2A示出了并行处理器200。并行处理器200可以是如本文描述的GPU、GPGPU，等等。并行处理器200的各种组件可以使用一个或多个集成电路设备来实现，例如，可编程处理器、专用集成电路(ASIC)或现场可编程门阵列(FPGA)。所示出的并行处理器200可以是图1中所示的(多个)并行处理器112或其中之一。

并行处理器200包括并行处理单元202。并行处理单元包括I/O单元204，其实现与包括并行处理单元202的其他实例的其他设备通信。I/O单元204可以直接连接到其他设备。例如，I/O单元204通过使用中心或交换机接口(例如，存储器中心105)与其他设备连接。存储器中心105与I/O单元204之间的连接形成通信链路113。在并行处理单元202内，I/O单元204与主机接口206和存储器交叉开关216连接，其中主机接口206接收针对执行处理操作的命令，并且存储器交叉开关216接收针对执行存储器操作的命令。

当主机接口206经由I/O单元204接收命令缓冲器时，主机接口206可以将用于执行这些命令的工作操作指引到前端208。在一个实施例中，前端208与调度器210耦合，调度器210被配置为将命令或其他工作项分发到处理集群阵列212。调度器210确保处理集群阵列212被正确配置并且在任务被分发到处理集群阵列212中的处理集群之前处于有效状态。调度器210可以经由在微控制器上执行的固件逻辑来实现。微控制器实现的调度器210可配置为以粗粒度和细粒度执行复杂的调度和工作分发操作，实现在处理阵列212上执行的线程的快速抢占和上下文切换。优选地，主机软件可以经由多个图形处理门铃之一证明工作负载用于在处理阵列212上调度。然后，工作负载可以由调度器微控制器内的调度器210逻辑自动地跨处理阵列212分发。

处理集群阵列212可以包括多达“N”个处理集群(例如，集群214A、集群214B到集群214N)。处理集群阵列212中的每个集群214A-214N可以执行大量并发线程。调度器210可以使用各种调度和/或工作分发算法将工作分配给处理集群阵列212中的集群214A-214N，这些算法可以根据针对每种类型的程序或计算产生的工作量而变化。调度可以由调度器210动态地处理，或者可以在编译被配置用于由处理集群阵列212执行的程序逻辑期间部分地由编译器逻辑辅助。可选地，处理集群阵列212中的不同集群214A-214N可以被分配用于处理不同类型的程序或用于执行不同类型的计算。

处理集群阵列212可以被配置为执行各种类型的并行处理操作。例如，集群阵列212被配置为执行通用并行计算操作。例如，处理集群阵列212可以包括用于执行处理任务的逻辑，处理任务包括对视频和/或音频数据的过滤，执行建模操作(包括物理操作)，以及执行数据变换。

处理集群阵列212被配置为执行并行图形处理操作。在并行处理器200被配置为执行图形处理操作的这种实施例中，处理集群阵列212可以包括用于支持执行这种图形处理操作的附加逻辑，包括但不限于执行纹理操作的纹理采样逻辑，以及曲面细分逻辑和其他顶点处理逻辑。另外，处理集群阵列212可以被配置为执行与图形处理相关的着色器程序，例如但不限于顶点着色器、曲面细分着色器、几何着色器和像素着色器。并行处理单元202可以经由I/O单元204传送来自系统存储器的数据以用于处理。在处理期间，传送的数据可以在处理期间存储到片上存储器(例如，并行处理器存储器222)，然后写回系统存储器。

在并行处理单元202用于执行图形处理的实施例中，调度器210可以被配置为将处理工作负载划分为近似相等大小的任务，以更好地实现将图形处理操作分配给处理集群阵列212中的多个集群214A-214N。在这些实施例中的一些实施例中，处理集群阵列212的部分可以被配置为执行不同类型的处理。例如，第一部分可以被配置为执行顶点着色和拓扑生成，第二部分可以被配置为执行曲面细分和几何着色，并且第三部分可以被配置为执行像素着色或其他屏幕空间操作，以产生渲染的图像以供显示。由集群214A-214N中的一个或多个产生的中间数据可以存储在缓冲器中，以允许中间数据在集群214A-214N之间传输以用于进一步处理。

在操作期间，处理集群阵列212可以接收要经由调度器210执行的处理任务，调度器210从前端208接收定义处理任务的命令。对于图形处理操作，处理任务可以包括要处理的以下数据的索引：例如，表面(图像块(patch))数据、基元(primitive)数据、顶点数据和/或像素数据，以及定义如何处理数据的状态参数和命令(例如，要执行什么程序)。调度器210可以被配置为获取与任务相对应的索引，或者可以从前端208接收索引。前端208可以被配置为确保处理集群阵列212被配置为在由传入命令缓冲器(例如，批缓冲器、推送缓冲器等)指定的工作负载启动之前处于有效状态。

并行处理单元202的一个或多个实例中的每一个可以与并行处理器存储器222耦合。并行处理器存储器222可以经由存储器交叉开关216访问，存储器交叉开关216可以接收来自处理集群阵列212以及I/O单元204的存储器请求。存储器交叉开关216可以经由存储器接口218访问并行处理器存储器222。存储器接口218可以包括多个分区单元(例如，分区单元220A、分区单元220B到分区单元220N)，多个分区单元可以各自耦合到并行处理器存储器222的一部分(例如，存储器单元)。分区单元220A-220N的数量可以被配置为等于存储器单元的数量，使得第一分区单元220A具有对应的第一存储器单元224A，第二分区单元220B具有对应的存储器单元224B，并且第N分区单元220N具有对应的第N存储器单元224N。在其他实施例中，分区单元220A-220N的数量可以不等于存储器设备的数量。

存储器单元224A-224N可以包括各种类型的存储器设备，包括动态随机存取存储器(DRAM)或图形随机存取存储器，例如，同步图形随机存取存储器(SGRAM)，包括图形双倍数据速率(GDDR)存储器。可选地，存储器单元224A-224N还可以包括3D堆叠式存储器，包括但不限于高带宽存储器(HBM)。本领域技术人员将认识到，存储器单元224A-224N的具体实现方式可以变化，并且可以从各种常规设计之一进行选择。可以跨存储器单元224A-224N存储诸如帧缓冲器或纹理映射之类的渲染目标，从而允许分区单元220A-220N并行地写入每个渲染目标的部分以高效地使用并行处理器存储器222的可用带宽。在一些实施例中，可以排除并行处理器存储器222的本地实例，以支持利用系统存储器结合本地高速缓冲存储器的统一存储器设计。

可选地，处理集群阵列212中的集群214A-214N中的任何一个具有处理将被写入并行处理器存储器222内的存储器单元224A-224N中的任何一个的数据的能力。存储器交叉开关216可以被配置为将每个集群214A-214N的输出传送到任何分区单元220A-220N或可以对输出执行附加的处理操作的另一集群214A-214N。每个集群214A-214N可以通过存储器交叉开关216与存储器接口218通信，以从各种外部存储器设备读取或对各种外部存储器设备写入。在具有存储器交叉开关216的实施例之一中，存储器交叉开关216具有与存储器接口218的连接以与I/O单元204通信，以及具有与并行处理器存储器222的本地实例的连接，使得不同的处理集群214A-214N内的处理单元能够与系统存储器或不在并行处理单元202本地的其他存储器进行通信。通常，存储器交叉开关216例如能够使用虚拟通道来分离集群214A-214N与分区单元220A-220N之间的业务流。

虽然在并行处理器200内示出了并行处理单元202的单个实例，但是可以包括并行处理单元202的任何数量的实例。例如，可以在单个插接卡上提供并行处理单元202的多个实例，或者可以互连多个插接卡。即使不同的实例具有不同数量的处理核心、不同量的本地并行处理器存储器和/或其他配置差异，并行处理单元202的不同实例也可以被配置为互操作。可选地，并行处理单元202的一些实例可以包括相对于其他实例更高精度的浮点单元264。包含并行处理单元202或并行处理器200的一个或多个实例的系统可以以各种配置和形状因子实现，包括但不限于台式计算机、膝上型计算机或手持式个人计算机、服务器、工作站、游戏控制台和/或嵌入式系统。

图2B是分区单元220的框图。分区单元220可以是图2A的分区单元220A-220N之一的实例。如图所示，分区单元220包括L2高速缓存221、用于存储元数据(例如，控制表面更新、压缩值)的元数据高速缓存224、帧缓冲器接口225和ROP 226(光栅操作单元)。L2高速缓存221是读/写高速缓存，其被配置为执行从存储器交叉开关216和ROP 226接收的加载和存储操作。读取未命中和紧急写回请求由L2高速缓存221输出到帧缓冲器接口225以用于处理。还可以经由帧缓冲器接口225将更新发送到帧缓冲器以用于处理。在一个实施例中，帧缓冲器接口225与并行处理器存储器中的存储器单元(例如，图2A的存储器单元224A-224N(例如，在并行处理器存储器222内))之一相接合。另外地或可替代地，分区单元220还可以经由存储器控制器(未示出)与并行处理器存储器中的存储器单元之一相接合。

在图形应用中，ROP 226是执行光栅操作(例如，模板印制、z测试、混合等)的处理单元。然后，ROP 226输出存储在图形存储器中的经处理的图形数据。在一些实施例中，ROP226包括压缩逻辑，用于压缩写入存储器的深度或颜色数据，以及对从存储器读取的深度或颜色数据进行解压缩。压缩逻辑可以是利用多种压缩算法中的一种或多种压缩算法的无损压缩逻辑。由ROP 226执行的压缩的类型可以基于要压缩的数据的统计特性而变化。例如，在一个实施例中，在每个图块(per-tile)的基础上对深度和颜色数据执行增量颜色压缩。

ROP 226可以包括在每个处理集群(例如，图2A的集群214A-214N)内，而不是在分区单元220内。在这样的实施例中，通过存储器交叉开关216传输针对像素数据的读取请求和写入请求，而不是像素片段数据。经处理的图形数据可以显示在显示设备(例如，图1的一个或多个显示设备110之一)上，被路由以供(多个)处理器102进一步处理，或者被路由以供图2A的并行处理器200内的处理实体之一进一步处理。

图2C是并行处理单元内的处理集群214的框图。例如，处理集群是图2A的处理集群214A-214N之一的实例。处理集群214可以被配置为并行执行多个线程，其中术语“线程”指代对特定输入数据集执行的特定程序的实例。可选地，单指令多数据(SIMD)指令发布技术可以用于支持大量线程的并行执行，而不提供多个独立指令单元。可替代地，单指令多线程(SIMT)技术可以用于使用公共指令单元来支持大量通常同步的线程的并行执行，该公共指令单元被配置为向处理集群中的每一个处理集群内的一组处理引擎发布指令。与其中所有处理引擎典型地执行相同指令的SIMD执行机制不同，SIMT执行允许不同的线程更容易地通过给定的线程程序而遵循相异的执行路径。本领域技术人员将理解，SIMD处理机制表示SIMT处理机制的功能子集。

可以经由流水线管理器232来控制处理集群214的操作，流水线管理器232将处理任务分发给SIMT并行处理器。流水线管理器232从图2A的调度器210接收指令，并且管理经由图形多处理器234和/或纹理单元236对这些指令的执行。所示的图形多处理器234是SIMT并行处理器的示例性实例。然而，处理集群214内可以包括不同架构的各种类型的SIMT并行处理器。图形多处理器234的一个或多个实例可以包括在处理集群214内。图形多处理器234可以处理数据，并且数据交叉开关240可以用于将经处理的数据分发到多个可能目的地之一，包括其他着色器单元。流水线管理器232可以通过指定要经由数据交叉开关240分发的经处理的数据的目的地来促进对经处理的数据的分发。

处理集群214内的每个图形多处理器234可以包括一组相同的功能执行逻辑(例如，算术逻辑单元、加载-存储单元等)。功能执行逻辑可以以流水线化方式配置，其中可以在先前指令完成之前发布新指令。功能执行逻辑支持各种操作，包括整数和浮点算术、比较运算、布尔运算、位移和各种代数函数的计算。可以利用相同的功能单元硬件来执行不同的操作，并且可以存在功能单元的任何组合。

发送到处理集群214的指令构成线程。跨一组并行处理引擎而执行的一组线程是线程组。线程组对不同的输入数据执行相同的程序。线程组内的每个线程可以被指派给图形多处理器234内的不同处理引擎。线程组可以包括比图形多处理器234内的处理引擎的数量少的线程。当线程组包括比处理引擎的数量少的线程时，处理引擎中的一个或多个在处理该线程组的周期期间可以是空闲的。线程组还可以包括比图形多处理器234内的处理引擎的数量多的线程。当线程组包括比图形多处理器234内的处理引擎的数量多的线程时，可以在连续的时钟周期上执行处理。可选地，可以在图形多处理器234上并发地执行多个线程组。

图形多处理器234可以包括内部高速缓冲存储器，以用于执行加载和存储操作。可选地，图形多处理器234可以放弃内部高速缓存而使用处理集群214内的高速缓冲存储器(例如，L1高速缓存248)。每个图形多处理器234还可以对分区单元(例如，图2A的分区单元220A-220N)内的L2高速缓存具有访问权，该分区单元在所有处理集群214之间共享并且可以用于在线程之间传送数据。图形多处理器234还可以访问片外全局存储器，其可以包括本地并行处理器存储器和/或系统存储器中的一个或多个。并行处理单元202外部的任何存储器可以用作全局存储器。其中处理集群214包括图形多处理器234的多个实例的实施例可以共享可以存储在L1高速缓存248中的公共指令和数据。

每个处理集群214可以包括MMU 245(存储器管理单元)，其被配置为将虚拟地址映射到物理地址。在其他实施例中，MMU 245的一个或多个实例可以位于图2A的存储器接口218内。MMU 245包括一组页表条目(PTE)，其用于将虚拟地址映射到图块的物理地址，并且可选地映射到高速缓存行索引。MMU 245可以包括可以位于图形多处理器234或L1高速缓存或处理集群214内的地址转换后备缓冲器(TLB)或高速缓存。处理物理地址以分发表面数据访问局部性以便允许分区单元之间的高效请求交错。高速缓存行索引可以用于确定针对高速缓存行的请求是命中还是未命中。

在图形和计算应用中，处理集群214可以被配置为使得每个图形多处理器234耦合到纹理单元236以用于执行纹理映射操作，例如，确定纹理样本位置，读取纹理数据以及过滤纹理数据。纹理数据从内部纹理L1高速缓存(未示出)读取，或在一些实施例中从图形多处理器234内的L1高速缓存读取，并且根据需要从L2高速缓存、本地并行处理器存储器或系统存储器获取。每个图形多处理器234将经处理的任务输出到数据交叉开关240，以将经处理的任务提供给另一处理集群214以用于进一步处理或者用于经由存储器交叉开关216将经处理的任务存储在L2高速缓存、本地并行处理器存储器或系统存储器中。preROP 242(预光栅操作单元)被配置为从图形多处理器234接收数据，将数据指引至ROP单元，ROP单元可以与如本文描述的分区单元(例如，图2A的分区单元220A-220N)一起定位。preROP242单元可以执行颜色混合的优化，组织像素颜色数据以及执行地址转换。

将认识到，本文描述的核心架构是说明性的，并且可以进行变化和修改。任何数量的处理单元(例如，图形多处理器234、纹理单元236、preROP242等)可以包括在处理集群214内。此外，虽然仅示出了一个处理集群214，但是如本文描述的并行处理单元可以包括处理集群214的任何数量的实例。可选地，每个处理集群214可以被配置为使用单独且不同的处理单元、L1高速缓存等独立于其他处理集群214进行操作。

图2D示出了图形多处理器234的示例，其中，图形多处理器234与处理集群214的流水线管理器232耦合。图形多处理器234具有执行流水线，包括但不限于指令高速缓存252、指令单元254、地址映射单元256、寄存器文件258、一个或多个通用图形处理单元(GPGPU)核心262以及一个或多个加载/存储单元266。GPGPU核心262和加载/存储单元266经由存储器和高速缓存互连268与高速缓冲存储器272和共享存储器270耦合。图形多处理器234可以另外包括张量和/或光线追踪核心263，其包括用于加速矩阵和/或光线追踪运算的硬件逻辑。

指令高速缓存252可以从流水线管理器232接收要执行的指令流。指令被缓存在指令高速缓存252中并被分派以由指令单元254执行。指令单元254可以将指令分派为线程组(例如，束(warp))，其中线程组中的每个线程被指派给GPGPU核心262内的不同执行单元。指令可以通过指定统一地址空间内的地址来访问本地地址空间、共享地址空间或全局地址空间中的任何一个。地址映射单元256可以用于将统一地址空间中的地址转换为能够由加载/存储单元266访问的不同的存储器地址。

寄存器文件258为图形多处理器234的功能单元提供一组寄存器。寄存器文件258为连接到图形多处理器234的功能单元(例如，GPGPU核心262、加载/存储单元266)的数据路径的操作数提供临时存储。寄存器文件258可以在功能单元中的每个功能单元之间划分，使得每个功能单元被分配寄存器文件258的专用部分。例如，寄存器文件258可以在正由图形多处理器234执行的不同束之间划分。

GPGPU核心262可以各自包括用于执行图形多处理器234的指令的功能单元(例如，浮点单元264(FPU)和/或整数算术逻辑单元(ALU))。在一些实现方式中，GPGPU核心262可以包括硬件逻辑，该硬件逻辑否则可能位于张量和/或光线追踪核心263内。GPGPU核心262可以在架构上类似或者可以在架构上不同。例如，在一个实施例中，GPGPU核心262的第一部分包括单精度FPU和整数ALU，而GPGPU核心的第二部分包括双精度FPU。可选地，FPU可以实现用于浮点算术的IEEE 754-2008标准或启用可变精度浮点算术。图形多处理器234可以另外包括一个或多个固定功能单元或特殊功能单元，以用于执行诸如复制矩形或像素混合操作之类的特定功能。GPGPU核心中的一个或多个还可以包括固定功能逻辑或特殊功能逻辑。

GPGPU核心262可以包括能够对多组数据执行单个指令的SIMD逻辑。可选地，GPGPU核心262可以物理地执行SIMD4、SIMD8和SIMD16指令，并且逻辑地执行SIMD1、SIMD2和SIMD32指令。GPGPU核心的SIMD指令可以在编译时由着色器编译器生成，或者在执行针对单程序多数据(SPMD)或SIMT架构编写和编译的程序时自动生成。针对SIMT执行模型配置的程序的多个线程可以经由单个SIMD指令执行。例如，在一个实施例中，执行相同或类似操作的八个SIMT线程可以经由单个SIMD8逻辑单元并行地执行。

存储器和高速缓存互连268是互连网络，其将图形多处理器234的功能单元中的每个功能单元连接到寄存器文件258和共享存储器270。例如，存储器和高速缓存互连268是允许加载/存储单元266在共享存储器270与寄存器文件258之间实现加载和存储操作的交叉开关互连。寄存器文件258可以以与GPGPU核心262相同的频率操作，从而在GPGPU核心262与寄存器文件258之间的数据传送具有非常低的延时。共享存储器270可以用于实现在图形多处理器234内的功能单元上执行的线程之间的通信。高速缓冲存储器272可以用作例如数据高速缓存，以缓存在功能单元与纹理单元236之间传送的纹理数据。共享存储器270还可以用作程序管理的高速缓存。除了存储在高速缓冲存储器272内的自动缓存的数据之外，在GPGPU核心262上执行的线程还可以编程地将数据存储在共享存储器内。

图3A-3C示出了根据实施例的附加图形多处理器。图3A-3B示出了图形多处理器325、350，其与图2C的图形多处理器234相关并且可以代替其中之一来使用。因此，本文中结合图形多处理器234的任何特征的公开也公开了与(多个)图形多处理器325、350的对应组合，但不限于此。图3C示出了图形处理单元(GPU)380，其包括对应于图形多处理器325、350的被布置成多核心组365A-365N的专用图形处理资源集。所示的图形多处理器325、350和多核心组365A-365N可以是能够同时执行大量执行线程的流送多处理器(SM)。

相对于图2D的图形多处理器234，图3A的图形多处理器325包括执行资源单元的多个附加实例。例如，图形多处理器325可以包括指令单元332A-332B、寄存器文件334A-334B和(多个)纹理单元344A-344B的多个实例。图形多处理器325还包括多组图形或计算执行单元(例如，GPGPU核心336A-336B、张量核心337A-337B、光线追踪核心338A-338B)和多组加载/存储单元340A-340B。执行资源单元具有公共指令高速缓存330、纹理和/或数据高速缓冲存储器342以及共享存储器346。

各种组件可以经由互连结构327进行通信。互连结构327可以包括一个或多个交叉开关交换机，以实现图形多处理器325的各种组件之间的通信。互连结构327可以是单独的高速网络结构层，图形多处理器325的每个组件堆叠在其上。图形多处理器325的组件经由互连结构327与远程组件通信。例如，GPGPU核心336A-336B、337A-337B和338A-338B可以各自经由互连结构327与共享存储器346通信。互连结构327可以仲裁图形多处理器325内的通信，以确保组件之间的公平带宽分配。

图3B的图形处理器350包括多组执行资源356A-356D，其中每组执行资源包括多个指令单元、寄存器文件、GPGPU核心和加载存储单元，如图2D和图3A所示。执行资源356A-356D可以与(多个)纹理单元360A-360D一起协作以用于纹理操作，同时对指令高速缓存354和共享存储器353进行共享。例如，执行资源356A-356D可以对指令高速缓存354和共享存储器353以及纹理和/或数据高速缓冲存储器358A-358B的多个实例进行共享。各种组件可以经由与图3A的互连结构327类似的互连结构352进行通信。

本领域技术人员将理解，图1、图2A-2D和图3A-3B中描述的架构是描述性的而不作为对本实施例的范围的限制。因此，在不脱离本文描述的实施例的范围的情况下，本文描述的技术可以在任何适当配置的处理单元上实现，包括但不限于一个或多个移动应用处理器、一个或多个台式或服务器中央处理单元(CPU)(包括多核心CPU)、一个或多个并行处理单元(例如，图2A的并行处理单元202)以及一个或多个图形处理器或专用处理单元。

如本文描述的并行处理器或GPGPU可以通信地耦合到主机/处理器核心以对图形操作、机器学习操作、模式分析操作和各种通用GPU(GPGPU)功能加速。GPU可以通过总线或其他互连(例如，诸如PCIe或NVLink之类的高速互连)通信地耦合到主机处理器/核心。在其他实施例中，GPU可以集成在与核心相同的封装或芯片上，并且通过内部处理器总线/互连(即，在封装或芯片内部)通信地耦合到核心。无论GPU以何种方式连接，处理器核心都可以以包含在工作描述符中的命令/指令序列的形式将工作分配给GPU。然后，GPU使用专用电路/逻辑来高效地处理这些命令/指令。

图3C示出了图形处理单元(GPU)380，其包括布置成多核心组365A-365N的专用图形处理资源集。虽然仅提供了单个多核心组365A的细节，但应理解，其他多核心组365B-365N可以配备有相同或相似的图形处理资源集。关于多核心组365A-365N描述的细节也可以适用于本文描述的任何图形多处理器234、325、350。

如图所示，多核心组365A可以包括一组图形核心370、一组张量核心371以及一组光线追踪核心372。调度器/分派器368调度和分派图形线程以供在各种核心370、371、372上执行。一组寄存器文件369存储在执行图形线程时由核心370、371、372使用的操作数值。例如，这些寄存器文件可以包括用于存储整数值的整数寄存器、用于存储浮点值的浮点寄存器、用于存储紧缩数据元素(整数和/或浮点数据元素)的向量寄存器，以及用于存储张量/矩阵值的图块寄存器。图块寄存器可以被实现为组合的向量寄存器组。

一个或多个组合的1级(L1)高速缓存和共享存储器单元373在每个多核心组365A内本地地存储图形数据，例如，纹理数据、顶点数据、像素数据、光线数据、边界体积数据等。一个或多个纹理单元374还可以用于执行纹理化操作，例如，纹理映射和采样。由多核心组365A-365N的全部或子集共享的2级(L2)高速缓存375存储用于多个并发图形线程的图形数据和/或指令。如图所示，L2高速缓存375可以跨多个多核心组365A-365N共享。一个或多个存储器控制器367将GPU 380耦合到存储器366，该存储器366可以是系统存储器(例如，DRAM)和/或专用图形存储器(例如，GDDR6存储器)。

输入/输出(I/O)电路363将GPU 380耦合到一个或多个I/O设备362，例如，数字信号处理器(DSP)、网络控制器或用户输入设备。片上互连可以用于将I/O设备362耦合到GPU380和存储器366。I/O电路363的一个或多个I/O存储器管理单元(IOMMU)364将I/O设备362直接耦合到系统存储器366。可选地，IOMMU 364管理多组页表以将虚拟地址映射到系统存储器366中的物理地址。I/O设备362、(多个)CPU 361和(多个)GPU 380然后可以共享相同的虚拟地址空间。

在IOMMU 364的一种实现方式中，IOMMU 364支持虚拟化。在这种情况下，它可以管理第一组页表以将访客/图形虚拟地址映射到访客/图形物理地址，并且管理第二组页表以将访客/图形物理地址映射到系统/主机物理地址(例如，在系统存储器366内)。第一组页表和第二组页表中的每一个的基地址可以存储在控制寄存器中，并且在上下文切换时换出(例如，以便为新的上下文提供对相关组页表的访问权)。虽然图3C中未示出，但核心370、371、372和/或多核心组365A-365N中的每一个可以包括转换后备缓冲器(TLB)以缓存访客虚拟到访客物理转换、访客物理到主机物理转换以及访客虚拟到主机物理转换。

CPU 361、GPU 380和I/O设备362可以集成在单个半导体芯片和/或芯片封装上。所示的存储器366可以集成在同一芯片上或者可以经由片外接口耦合到存储器控制器367。在一种实现方式中，存储器366包括GDDR6存储器，该GDDR6存储器与其他物理系统级存储器共享相同的虚拟地址空间，但是本文描述的基本原理不限于该特定实现方式。

张量核心371可以包括专门设计用于执行矩阵运算的多个执行单元，矩阵运算是用于执行深度学习运算的基本计算运算。例如，同时矩阵乘法运算可以用于神经网络训练和推断。张量核心371可以使用各种操作数精度来执行矩阵处理，包括单精度浮点(例如，32位)、半精度浮点(例如，16位)、整数字(16位)、字节(8位)和半字节(4位)。例如，神经网络实现方式提取每个渲染的场景的特征，潜在地结合来自多个帧的细节，以构建高质量的最终图像。

在深度学习实现方式中，并行矩阵乘法工作可以被调度用于在张量核心371上执行。特别地，神经网络的训练要求大量矩阵点积运算。为了处理N×N×N矩阵乘法的内积公式，张量核心371可以包括至少N个点积处理元素。在矩阵乘法开始之前，一个完整的矩阵被加载到图块寄存器中，并且对于N个周期，在每个周期至少加载第二矩阵的一列。在每个周期，有N个点积被处理。

取决于特定实现方式，矩阵元素可以以不同精度存储，包括16位字、8位字节(例如，INT8)和4位半字节(例如，INT4)。可以为张量核心371指定不同的精度模式以确保最高效的精度用于不同的工作负载(例如，可以容忍量化为字节和半字节的推断工作负载)。

光线追踪核心372可以加速用于实时光线追踪实现和非实时光线追踪实现两者的光线追踪运算。特别地，光线追踪核心372可以包括光线遍历/交叉电路，以用于使用边界体积层级(BVH)执行光线遍历并且识别在光线与包围在BVH体积内的基元之间的交叉。光线追踪核心372还可以包括用于执行深度测试和剔除(例如，使用Z缓冲器或类似布置)的电路。在一种实现方式中，光线追踪核心372与本文描述的图像去噪技术协同执行遍历和交叉操作，其中至少一部分可以在张量核心371上执行。例如，张量核心371可以实现深度学习神经网络以对由光线追踪核心372生成的帧执行去噪。然而，(多个)CPU 361、图形核心370和/或光线追踪核心372也可以实现去噪和/或深度学习算法的全部或部分。

此外，如上所述，可以采用分布式去噪方法，其中GPU 380位于通过网络或高速互连耦合到其他计算设备的计算设备中。在该分布式方法中，互连的计算设备可以共享神经网络学习/训练数据，以提高整体系统学习针对不同类型的图像帧和/或不同的图形应用执行去噪的速度。

光线追踪核心372可以处理所有BVH遍历和/或光线-基元交叉，从而避免图形核心370因每条光线数千条指令而过载。例如，每个光线追踪核心372包括用于执行边界框测试(例如，用于遍历操作)的第一组专用电路和/或用于执行光线-三角形交叉测试(例如，已经被遍历的交叉光线)的第二组专用电路。因此，例如，多核心组365A可以简单地发射光线探针，并且光线追踪核心372独立地执行光线遍历和交叉并将命中数据(例如，命中、未命中、多次命中等)返回线程上下文。其他核心370、371被释放以执行其他图形或计算工作，而光线追踪核心372执行遍历和交叉运算。

可选地，每个光线追踪核心372可以包括用于执行BVH测试操作的遍历单元和/或执行光线-基元交叉测试的交叉单元。交叉单元生成“命中”、“未命中”或“多次命中”响应，并将其提供给适当的线程。在遍历和交叉运算期间，其他核心(例如，图形核心370和张量核心371)的执行资源被释放以执行其他形式的图形工作。

在下面描述的一个可选实施例中，使用混合光栅化/光线追踪方法，其中工作分布在图形核心370和光线追踪核心372之间。

光线追踪核心372(和/或其他核心370、371)可以包括对光线追踪指令集的硬件支持，该线追踪指令集例如为Microsoft的DirectX光线追踪(DXR)，其包括DispatchRays命令，以及光线生成、最近命中、任意命中和未命中着色器，它们可以针对每个对象实现着色器和纹理的唯一集合的指派。可以由光线追踪核心372、图形核心370和张量核心371支持的另一光线追踪平台是Vulkan 1.1.85。然而，注意，本文描述的基本原理不限于任何特定的光线追踪ISA。

通常，各种核心372、371、370可以支持光线追踪指令集，该光线追踪指令集包括用于光线生成、最近命中、任意命中、光线-基元交叉、每基元和层级边界框构造、未命中、访问和异常中的一个或多个的指令/功能。更具体地，优选实施例包括用于执行以下功能中的一个或多个的光线追踪指令：

光线生成—光线生成指令可以针对每个像素、样本或其他用户定义的工作指派来执行。

最近命中—可以执行最近命中指令以定位光线与场景内的基元的最近交叉点。

任意命中—任意命中指令识别在光线与场景内的基元之间的多个交叉，以潜在地识别新的最近交叉点。

交叉—交叉指令执行光线-基元交叉测试并输出结果。

每基元边界框构造—该指令围绕给定基元或基元组构建边界框(例如，在构建新的BVH或其他加速数据结构时)。

未命中—指示光线未命中场景内或场景的指定区域内的所有几何体。

访问—指示光线将遍历的子体积。

异常—包括各种类型的异常处理程序(例如，针对各种错误条件被调用)。

用于GPU到主机处理器互连的技术

图4A示出了示例性架构，其中多个GPU 410-413(例如，图2A中示出的并行处理器200)通过高速链路440A-440D(例如，总线、点对点互连等)通信地耦合到多个多核心处理器405-406。取决于实现方式，高速链路440A-440D可以支持4GB/s、30GB/s、80GB/s或更高的通信吞吐量。可以使用各种互连协议，包括但不限于PCIe 4.0或5.0以及NVLink 2.0。然而，本文描述的基本原理不限于任何特定的通信协议或吞吐量。

GPU 410-413中的两个或更多个可以通过高速链路442A-442B互连，高速链路442A-442B可以使用与用于高速链路440A-440D的那些协议/链路相同或不同的协议/链路来实现。类似地，多核心处理器405-406中的两个或更多个可以通过高速链路443连接，高速链路443可以是以20GB/s、30GB/s、120GB/s或更高来操作的对称多处理器(SMP)总线。可替代地，图4A中所示的各种系统组件之间的所有通信可以使用相同的协议/链路(例如，通过公共互连结构)来完成。然而，如所提及的，本文描述的基本原理不限于任何特定类型的互连技术。

每个多核心处理器405-406可以分别经由存储器互连430A-430B通信地耦合到处理器存储器401-402，并且每个GPU 410-413分别通过GPU存储器互连450A-450D通信地耦合到GPU存储器420-423。存储器互连430A-430B和450A-450D可以使用相同或不同的存储器访问技术。通过示例而非限制的方式，处理器存储器401-402和GPU存储器420-423可以是诸如动态随机存取存储器(DRAM)(包括堆叠式DRAM)、图形DDR SDRAM(GDDR)(例如，GDDR5、GDDR6)或高带宽存储器(HBM)之类的易失性存储器，和/或可以是诸如3D XPoint或Nano-Ram之类的非易失性存储器。例如，存储器的某一部分可以是易失性存储器，而另一部分可以是非易失性存储器(例如，使用两级存储器(2LM)层级)。

如下面描述的，尽管各种处理器405-406和GPU 410-413可以分别物理地耦合到特定存储器401-402、420-423，但是可以实现统一的存储器架构，其中相同的虚拟系统地址空间(也被称为“有效地址”空间)分布在所有各种物理存储器之中。例如，处理器存储器401-402可以各自包括64GB的系统存储器地址空间，并且GPU存储器420-423可以各自包括32GB的系统存储器地址空间(在该示例中产生总共256GB的可寻址存储器)。

图4B示出了多核心处理器407与图形加速模块446之间的互连的附加可选细节。图形加速模块446可以包括集成在线卡上的一个或多个GPU芯片，线卡经由高速链路440耦合到处理器407。可替代地，图形加速模块446可以集成在与处理器407相同的封装或芯片上。

所示的处理器407包括多个核心460A-460D，每个核心具有转换后备缓冲器461A-461D和一个或多个高速缓存462A-462D。核心可以包括用于执行指令和处理数据的各种其他组件(例如，指令获取单元、分支预测单元、解码器、执行单元、重新排序缓冲器等)，未示出这些组件以避免模糊本文描述的组件的基本原理。高速缓存462A-462D可以包括1级(L1)高速缓存和2级(L2)高速缓存。另外，一个或多个共享高速缓存456可以包括在缓存层级中并由多组核心460A-460D共享。例如，处理器407的一个实施例包括24个核心，每个核心具有其自己的L1高速缓存、12个共享L2高速缓存以及12个共享L3高速缓存。在该实施例中，L2高速缓存和L3高速缓存之一由两个相邻核心共享。处理器407和图形加速器集成模块446与系统存储器441连接，系统存储器441可以包括处理器存储器401-402。

经由通过一致性总线464的核心间通信来针对存储在各种高速缓存462A-462D、456和系统存储器441中的数据和指令维持一致性。例如，每个高速缓存可以具有与之相关联的高速缓存一致性逻辑/电路，以响应于检测到的对特定高速缓存行的读取或写入来通过一致性总线464进行通信。在一个实现方式中，在一致性总线464上实现高速缓存窥探协议以窥探高速缓存访问。高速缓存窥探/一致性技术被本领域技术人员很好地理解，并且这里不再详细描述以避免模糊本文描述的基本原理。

代理电路425可以被设置为将图形加速模块446通信地耦合到一致性总线464，允许图形加速模块446作为核心的对等体参与高速缓存一致性协议。特别地，接口435通过高速链路440(例如，PCIe总线、NVLink等)提供与代理电路425的连接，并且接口437将图形加速模块446连接到高速链路440。

在一个实现方式中，加速器集成电路436代表图形加速模块446的多个图形处理引擎431、432、N提供高速缓存管理、存储器访问、上下文管理和中断管理服务。图形处理引擎431、432、N可以各自包括单独的图形处理单元(GPU)。可替代地，图形处理引擎431、432、N可以包括GPU内的不同类型的图形处理引擎，例如，图形执行单元、媒体处理引擎(例如，视频编码器/解码器)、采样器和blit引擎。换言之，图形加速模块可以是具有多个图形处理引擎431-432、N的GPU，或者图形处理引擎431-432、N可以是集成在公共封装、线卡或芯片上的个体GPU。

加速器集成电路436可以包括用于执行诸如虚拟到物理存储器转换(也称为有效到实际存储器转换)之类的各种存储器管理功能和用于访问系统存储器441的存储器访问协议的存储器管理单元(MMU)439。MMU 439还可以包括用于缓存虚拟/有效到物理/实地址转换的转换后备缓冲器(TLB)(未示出)。在一个实现方式中，高速缓存438存储命令和数据，以便由图形处理引擎431-432、N进行高效访问。存储在高速缓存438和图形存储器433-434、M中的数据可以与核心高速缓存462A-462D、456和系统存储器411保持一致。如上面提及的，这可以经由代理电路425来实现，代理电路425代表高速缓存438和存储器433-434、M参与高速缓存一致性机制(例如，向高速缓存438发送与对处理器高速缓存462A-462D、456上的高速缓存行的修改/访问有关的更新，以及从高速缓存438接收更新)。

一组寄存器445存储由图形处理引擎431-432、N执行的线程的上下文数据，并且上下文管理电路448管理线程上下文。例如，上下文管理电路448可以执行保存和恢复操作以在上下文切换(例如，其中保存第一线程并且存储第二线程使得第二线程可以由图形处理引擎执行)期间保存和恢复各种线程的上下文。例如，在上下文切换时，上下文管理电路448可以将当前寄存器值存储到存储器中的指定区域(例如，由上下文指针标识)。然后上下文管理电路448可以在返回该上下文时恢复寄存器值。例如，中断管理电路447可以接收并处理从系统设备接收的中断。

在一个实现方式中，来自图形处理引擎431的虚拟/有效地址由MMU 439转换为系统存储器411中的实地址/物理地址。可选地，加速器集成电路436支持多个(例如，4个、8个、16个)图形加速器模块446和/或其他加速器设备。图形加速器模块446可以专用于在处理器407上执行的单个应用，或者可以在多个应用之间共享。可选地，提供虚拟化图形执行环境，其中图形处理引擎431-432、N的资源与多个应用或虚拟机(VM)共享。资源可以细分为“切片”，基于与VM和/或应用相关联的处理要求和优先级将切片分配给不同的VM和/或应用。

因此，加速器集成电路436对于图形加速模块446充当系统的桥接器，并且提供地址转换和系统存储器高速缓存服务。在一个实施例中，为了促进桥接功能，加速器集成电路436还可以包括共享I/O 497(例如，PCIe、USB)和硬件，以实现对电压、计时、性能、散热和安全的系统控制。共享I/O 497可以利用单独的物理连接或可以穿越高速链路440。此外，加速器集成电路436可以为主机处理器提供虚拟化设施，以管理图形处理引擎、中断和存储器管理的虚拟化。

因为图形处理引擎431-432、N的硬件资源被显式地映射到主机处理器407看到的实地址空间，所以任何主机处理器都可以使用有效地址值直接对这些资源进行寻址。加速器集成电路436的一个可选的功能是图形处理引擎431-432、N的物理分离，使得它们对于系统表现为独立的单元。

一个或多个图形存储器433-434、M可以分别耦合到图形处理引擎431-432、N中的每一个。图形存储器433-434、M存储正由图形处理引擎431-432、N中的每一个处理的指令和数据。图形存储器433-434、M可以是诸如DRAM(包括堆叠式DRAM)、GDDR存储器(例如，GDDR5、GDDR6)或HBM之类的易失性存储器，和/或可以是诸如3D XPoint或Nano-Ram之类的非易失性存储器。

为了减少高速链路440上的数据业务，可以使用偏置技术来确保存储在图形存储器433-434、M中的数据是将最频繁地被图形处理引擎431-432、N使用并且优选地不被核心460A-460D使用(至少不频繁)的数据。类似地，偏置机制试图将核心(并且优选地不是图形处理引擎431-432、N)所需的数据保持在核心的高速缓存462A-462D、456和系统存储器411内。

根据图4C中示出的变型，加速器集成电路436集成在处理器407内。图形处理引擎431-432、N经由接口437和接口435(再次强调，其可以使用任何形式的总线或接口协议)通过高速链路440直接与加速器集成电路436通信。加速器集成电路436可以执行与关于图4B描述的操作相同的操作，但是考虑到其紧密靠近一致性总线464和高速缓存462A-462D、456，潜在地以更高的吞吐量执行操作。

所描述的实施例可以支持不同的编程模型，包括专用进程编程模型(无图形加速模块虚拟化)和共享编程模型(具有虚拟化)。后者可以包括由加速器集成电路436控制的编程模型和由图形加速模块446控制的编程模型。

在专用进程模型的实施例中，图形处理引擎431-432、N可以专用于单个操作系统下的单个应用或进程。单个应用可以将其他应用请求汇集到图形引擎431-432、N，从而在VM/分区内提供虚拟化。

在专用进程编程模型中，图形处理引擎431-432、N可以由多个VM/应用分区共享。共享模型要求系统管理程序对图形处理引擎431-432、N进行虚拟化以允许每个操作系统的访问。对于没有管理程序的单分区系统，图形处理引擎431-432、N由操作系统拥有。在这两种情况下，操作系统都可以对图形处理引擎431-432、N进行虚拟化以提供对每个进程或应用的访问。

对于共享编程模型，图形加速模块446或个体图形处理引擎431-432、N使用进程句柄来选择进程元素。进程元素可以存储在系统存储器411中，并且可使用本文描述的有效地址到实地址转换技术来寻址。进程句柄可以是在向图形处理引擎431-432、N注册其上下文时(即，调用系统软件以将进程元素添加到进程元素链表)时提供给主机进程的特定于实现方式的值。进程句柄的低16位可以是进程元素在进程元素链表内的偏移。

图4D示出了示例性加速器集成切片490。如本文所使用的，“切片”包括加速器集成电路436的处理资源的指定部分。系统存储器411内的应用有效地址空间482存储进程元素483。响应于来自在处理器407上执行的应用480的GPU调用481，可以存储进程元素483。进程元素483包含对应应用480的进程状态。进程元素483中包含的工作描述符(WD)484可以是由应用请求的单个作业，或者可能包含指向作业队列的指针。在后一种情况下，WD 484是指向应用地址空间482中的作业请求队列的指针。

图形加速模块446和/或个体图形处理引擎431-432、N可以由系统中的全部进程或进程子集共享。例如，本文描述的技术可以包括用于设置进程状态并将WD 484发送到图形加速模块446以在虚拟化环境中开始作业的基础设施。

在一个实现方式中，专用进程编程模型是特定于实现方式的。在该模型中，单个进程拥有图形加速模块446或个体图形处理引擎431。因为图形加速模块446由单个进程拥有，所以管理程序针对拥有分区对加速器集成电路436进行初始化，并且在图形加速模块446被指派时，操作系统针对拥有进程对加速器集成电路436进行初始化。

在操作中，加速器集成切片490中的WD获取单元491获取下一WD 484，其包括对要由图形加速模块446的图形处理引擎之一完成的工作的指示。来自WD 484的数据可以存储在寄存器445中并由MMU 439、中断管理电路447和/或上下文管理电路448使用，如图所示。例如，MMU 439可以包括用于访问OS虚拟地址空间485内的段/页表486的段/页行走电路(walk circuitry)。中断管理电路447可以处理从图形加速模块446接收的中断事件492。在执行图形操作时，由图形处理引擎431-432、N生成的有效地址493由MMU 439转换为实地址。

对于每个图形处理引擎431-432、N和/或图形加速模块446可以复制相同的一组寄存器445，并且该相同的一组寄存器445可以由管理程序或操作系统初始化。这些复制的寄存器中的每一个可以包括在加速器集成切片490中。可以由管理程序初始化的示例性寄存器在表1中示出。

表1——管理程序初始化的寄存器

1	切片控制寄存器
		2	实地址(RA)调度的进程区域指针
3	权限掩蔽覆写寄存器
		4	中断向量表条目偏移
5	中断向量表条目限制
		6	状态寄存器
7	逻辑分区ID
		8	实地址(RA)管理程序加速器利用记录指针
9	存储描述寄存器

表2中示出了可以由操作系统初始化的示例性寄存器。

表2——操作系统初始化的寄存器

1	进程和线程识别
		2	有效地址(EA)上下文保存/恢复指针
3	虚拟地址(VA)加速器利用记录指针
		4	虚拟地址(VA)存储段表指针
5	权限掩蔽
		6	工作描述符

每个WD 484可以特定于特定图形加速模块446和/或图形处理引擎431-432、N。WD484包含图形处理引擎431-432、N完成其工作所要求的所有信息，或者WD 484可以是指向应用已经设置要完成的工作的命令队列的存储器位置的指针。

图4E示出了共享模型的附加可选细节。包括管理程序实地址空间498，其中存储进程元素列表499。管理程序实地址空间498可经由管理程序496访问，管理程序496针对操作系统495将图形加速模块引擎虚拟化。

共享编程模型允许来自系统中的所有分区或分区子集的所有进程或进程子集使用图形加速模块446。存在两种编程模型，其中图形加速模块446由多个进程和分区共享：时间切片共享和图形定向共享。

在该模型中，系统管理程序496拥有图形加速模块446并使其功能可用于所有操作系统495。为使图形加速模块446支持系统管理程序496进行的虚拟化，图形加速模块446可以遵循以下要求：1)应用的作业请求必须是自主的(即，不需要在作业之间维持状态)，或者图形加速模块446必须提供上下文保存和恢复机制。2)图形加速模块446保证应用的作业请求在指定的时间量内完成，包括任何转换错误，或者图形加速模块446提供抢占对作业的处理的能力。3)当在定向共享编程模型中操作时，必须保证图形加速模块446在进程之间的公平性。

对于共享模型，应用480可以被要求利用图形加速模块446类型、工作描述符(WD)、权限掩蔽寄存器(AMR)值和上下文保存/恢复区域指针(CSRP)来进行操作系统495系统调用。图形加速模块446类型描述了系统调用的目标加速功能。图形加速模块446类型可以是系统特定值。WD特别地针对图形加速模块446被格式化，并且可以是以下形式：图形加速模块446命令，指向用户定义的结构的有效地址指针，指向命令队列的有效地址指针，或用于描述要由图形加速模块446完成的工作的任何其他数据结构。在一个实施例中，AMR值是要用于当前进程的AMR状态。传递给操作系统的值类似于设置AMR的应用。如果加速器集成电路436和图形加速模块446实现不支持用户权限掩蔽覆写寄存器(UAMOR)，则操作系统可以在管理程序调用中传递AMR之前将当前UAMOR值应用于AMR值。管理程序496可以可选地在将AMR放入进程元素483之前应用当前的权限掩蔽覆写寄存器(AMOR)值。CSRP可以是寄存器445之一，其包含图形加速模块446用于保存和恢复上下文状态的区域在应用的地址空间482中的有效地址。如果在作业之间不要求保存状态或在作业被抢占时，该指针是可选的。上下文保存/恢复区域可以是固定的(pinned)系统存储器。

在接收到系统调用时，操作系统495可以验证应用480已经注册并且被给予使用图形加速模块446的权限。然后，操作系统495利用表3中所示的信息来调用管理程序496。

表3——OS对管理程序调用参数

1	工作描述符(WD)
		2	权限掩蔽寄存器(AMR)值(潜在地被掩蔽)
3	有效地址(EA)上下文保存/恢复区域指针(CSRP)
		4	进程ID(PID)和可选的线程ID(TID)
5	虚拟地址(VA)加速器利用记录指针(AURP)
		6	存储段表指针(SSTP)的虚拟地址
7	逻辑中断服务号(LISN)

在接收到管理程序调用时，管理程序496验证操作系统495已经注册并且已经被给予使用图形加速模块446的权限。管理程序496然后针对对应的图形加速模块446类型将进程元素483放入进程元素链表中。进程元素可以包括表4中所示的信息。

表4——进程元素信息

1	工作描述符(WD)
		2	权限掩蔽寄存器(AMR)值(潜在地被掩蔽)
3	有效地址(EA)上下文保存/恢复区域指针(CSRP)
		4	进程ID(PID)和可选的线程ID(TID)
5	虚拟地址(VA)加速器利用记录指针(AURP)
		6	存储段表指针(SSTP)的虚拟地址
7	逻辑中断服务号(LISN)
		8	中断向量表，从管理程序调用参数导出
9	状态寄存器(SR)值
		10	逻辑分区ID(LPID)
11	实地址(RA)管理程序加速器利用记录指针
		12	存储描述符寄存器(SDR)

管理程序可以对多个加速器集成切片490寄存器445进行初始化。

如图4F所示，在一个可选实现方式中，采用统一存储器，该统一存储器可经由用于访问物理处理器存储器401-402和GPU存储器420-423的公共虚拟存储器地址空间来寻址。在该实现方式中，在GPU 410-413上执行的操作利用相同的虚拟/有效存储器地址空间来访问处理器存储器401-402，反之亦然，从而简化了可编程性。虚拟/有效地址空间的第一部分可以被分配给处理器存储器401，第二部分被分配给第二处理器存储器402，第三部分被分配给GPU存储器420，以此类推。因此，整个虚拟/有效存储器空间(有时称为有效地址空间)可以跨处理器存储器401-402和GPU存储器420-423中的每一个分布，允许任何处理器或GPU利用映射到该存储器的虚拟地址访问任何物理存储器。

MMU 439A-439E中的一个或多个内的偏置/一致性管理电路494A-494E可以被设置为确保主机处理器(例如，405)和GPU 410-413的高速缓存之间的高速缓存一致性，并且实现指示某些类型的数据应当被存储在其中的物理存储器的偏置技术。虽然在图4F中示出了偏置/一致性管理电路494A-494E的多个实例，但是偏置/一致性电路可以在一个或多个主机处理器405的MMU内和/或在加速器集成电路436内实现。

GPU附接的存储器420-423可以被映射为系统存储器的一部分，并且使用共享虚拟存储器(SVM)技术被访问，但是不会遭受与完整系统高速缓存一致性相关联的典型性能缺陷。GPU附接的存储器420-423作为系统存储器被访问而没有繁重的高速缓存一致性开销的能力为GPU卸载提供了有益的操作环境。这种布置允许主机处理器405软件设置操作数并访问计算结果，而没有传统I/O DMA数据副本的开销。这种传统的副本涉及驱动程序调用、中断和存储器映射的I/O(MMIO)访问，这些相对于简单的存储器访问都是低效的。同时，在没有高速缓存一致性开销的情况下访问GPU附接的存储器420-423的能力对于卸载的计算的执行时间可能是关键的。例如，在具有大量流式写入存储器业务的情况下，高速缓存一致性开销可以显著地降低GPU 410-413所看到的有效写入带宽。操作数设置的效率、结果访问的效率以及GPU计算的效率都在确定GPU卸载的有效性方面发挥作用。

在GPU偏置与主机处理器偏置之间的选择可以由偏置追踪器数据结构驱动。例如，可以使用偏置表，其可以是包括每个GPU附接的存储器页1位或2位的页粒度结构(即，以存储器页的粒度控制)。偏置表可以在一个或多个GPU附接的存储器420-423的被窃取的存储器范围中实现，在GPU410-413中具有或不具有偏置高速缓存(例如，用于缓存偏置表的频繁/最近使用的条目)。可替代地，整个偏置表可以维持在GPU内。

在一个实现方式中，在实际访问GPU存储器之前访问与对GPU附接的存储器420-423的每次访问相关联的偏置表条目，从而引起以下操作。首先，来自GPU 410-413的在GPU偏置中找到其页的本地请求被直接转发到对应的GPU存储器420-423。来自GPU的在主机偏置中找到其页的本地请求被转发到处理器405(例如，通过如上面讨论的高速链路)。可选地，来自处理器405的在主机处理器偏置中找到所请求的页的请求像正常存储器读取一样完成请求。可替代地，可以将针对GPU偏置的页的请求转发到GPU 410-413。然后，如果GPU当前没有使用该页，则GPU可以将该页转换至主机处理器偏置。

页的偏置状态可以通过基于软件的机制、基于硬件辅助的软件机制来改变，或者对于有限的一组情况，可以通过纯粹基于硬件的机制来改变。

一种用于改变偏置状态的机制采用API调用(例如，OpenCL)，其进而调用GPU的设备驱动程序，该驱动程序进而向GPU发送指引其改变偏置状态并且对于某些转换在主机中执行高速缓存刷新操作的消息(或将命令描述符排入队列)。对于从主机处理器405偏置到GPU偏置的转换，要求高速缓存刷新操作，但对于相反的转换不要求高速缓存刷新操作。

可以通过临时渲染主机处理器405不可缓存的GPU偏置的页来维持高速缓存一致性。为了访问这些页，处理器405可以请求来自GPU 410的访问，GPU 410可以立即授权访问或可以不立即授权访问，这取决于实现方式。因此，为了减少主机处理器405与GPU 410之间的通信，确保GPU偏置的页是GPU所要求的页而不是主机处理器405所要求的页是有利的，反之亦然。

图形处理流水线

图5示出了图形处理流水线500。图形多处理器(例如，图2D中的图形多处理器234、图3A的图形多处理器325、图3B的图形多处理器350)可以实现所示的图形处理流水线500。图形多处理器可以包括在如本文描述的并行处理子系统(例如，图2A的并行处理器200，其可以与图1的(多个)并行处理器112相关并且可以代替其中之一来使用)内。各种并行处理系统可以经由如本文描述的并行处理单元(例如，图2A的并行处理单元202)的一个或多个实例来实现图形处理流水线500。例如，着色器单元(例如，图2C的图形多处理器234)可以被配置为执行顶点处理单元504、曲面细分控制处理单元508、曲面细分评估处理单元512、几何处理单元516和片段/像素处理单元524中的一个或多个的功能。数据组装器502，基元组装器506、514、518，曲面细分单元510，光栅化器522和光栅操作单元526的功能还可以由处理集群(例如，图2A的处理集群214)内的其他处理引擎和对应的分区单元(例如，图2A的分区单元220A-220N)来执行。还可以使用用于一个或多个功能的专用处理单元来实现图形处理流水线500。图形处理流水线500的一个或多个部分可以由通用处理器(例如，CPU)内的并行处理逻辑执行。可选地，图形处理流水线500的一个或多个部分可以经由存储器接口528访问片上存储器(例如，如图2A中的并行处理器存储器222)，存储器接口528可以是图2A的存储器接口218的实例。图形处理器流水线500也可以经由如图3C中的多核心组365A来实现。

数据组装器502是可以收集表面和基元的顶点数据的处理单元。然后，数据组装器502将包括顶点属性的顶点数据输出到顶点处理单元504。顶点处理单元504是可编程执行单元，其执行顶点着色器程序，如由顶点着色器程序指定地对顶点数据进行照亮和变换。顶点处理单元504读取存储在高速缓冲存储器、本地存储器或系统存储器中的数据以用于处理顶点数据，并且可以被编程为将顶点数据从基于对象的坐标表示变换为世界空间坐标空间或归一化的设备坐标空间。

基元组装器506的第一实例从顶点处理单元504接收顶点属性。基元组装器506根据需要读取所存储的顶点属性并构造图形基元以供曲面细分控制处理单元508处理。图形基元包括各种图形处理应用编程接口(API)支持的三角形、线段、点、图像块等。

曲面细分控制处理单元508将输入顶点视为几何图像块的控制点。控制点从来自图像块的输入表示(例如，图像块的基础)变换为适用于由曲面细分评估处理单元512进行的表面评估的表示。曲面细分控制处理单元508还可以计算几何图像块的边的曲面细分因子。曲面细分因子适用于单个边，并且量化与边相关联的视图相关的细节级别。曲面细分单元510被配置为接收图像块的边的曲面细分因子并且将图像块曲面细分为多个几何基元(例如，线、三角形或四边形基元)，该多个几何基元被发送到曲面细分评估处理单元512。曲面细分评估处理单元512对细分的图像块的参数化坐标进行操作，以生成与几何基元相关联的每个顶点的表面表示和顶点属性。

基元组装器514的第二实例从曲面细分评估处理单元512接收顶点属性，根据需要读取所存储的顶点属性，并且构造图形基元以供几何处理单元516处理。几何处理单元516是可编程执行单元，其执行几何着色器程序以便如由几何着色器程序指定地对从基元组装器514接收的图形基元进行变换。几何处理单元516可以被编程为将图形基元细分为一个或多个新图形基元，并且计算用于对新图形基元进行光栅化的参数。

几何处理单元516能够添加或删除几何流中的元素。几何处理单元516将指定新图形基元的参数和顶点输出到基元组装器518。基元组装器518从几何处理单元516接收参数和顶点，并且构造图形基元以由视口缩放、剔除和剪辑单元520进行处理。几何处理单元516读取存储在并行处理器存储器或系统存储器中的数据以用于处理几何数据。视口缩放、剔除和剪辑单元520执行剪辑、剔除和视口缩放，并且将经处理的图形基元输出到光栅化器522。

光栅化器522可以执行深度剔除和其他基于深度的优化。光栅化器522还对新图形基元执行扫描变换以生成片段并将这些片段和相关联的覆盖数据输出到片段/像素处理单元524。片段/像素处理单元524是可编程执行单元，其被配置为执行片段着色器程序或像素着色器程序。片段/像素处理单元524如片段或像素着色器程序指定地对从光栅化器522接收的片段或像素进行变换。例如，片段/像素处理单元524可以被编程为执行包括但不限于纹理映射、着色、混合、纹理校正和透视校正的操作，以产生输出到光栅操作单元526的经着色的片段或像素。片段/像素处理单元524可以读取存储在并行处理器存储器或系统存储器中的数据，以供在处理片段数据时使用。片段或像素着色器程序可以被配置为取决于针对处理单元配置的采样率以样本、像素、图块或其他粒度进行着色。

光栅操作单元526是这样的处理单元：其执行包括但不限于模板印制、z测试、混合等的光栅操作，并且输出像素数据作为经处理的图形数据以存储在图形存储器(例如，如图2A中的并行处理器存储器222和/或如图1中的系统存储器104)中，以便在一个或多个显示设备110上显示或者由一个或多个处理器102或并行处理器112之一进一步处理。光栅操作单元526可以被配置为对写入存储器的z或颜色数据进行压缩，并且对从存储器读取的z或颜色数据进行解压缩。

机器学习概述

上述架构可以应用于使用机器学习模型执行训练和推断操作。机器学习在解决多种任务方面已经取得了成功。在训练和使用机器学习算法(例如，神经网络)时发生的计算自然地适于高效的并行实现。因此，诸如通用图形处理单元(GPGPU)之类的并行处理器在深度神经网络的实际实现中已经发挥了重要作用。具有单指令多线程(SIMT)架构的并行图形处理器旨在最大化图形流水线中的并行处理的量。在SIMT架构中，并行线程组尝试尽可能频繁地一起同步执行程序指令，以提高处理效率。并行机器学习算法实现提供的效率允许使用高容量网络，并且使这些网络能够在更大的数据集上进行训练。

机器学习算法是可以基于一组数据进行学习的算法。例如，机器学习算法可以被设计为对数据集内的高级别抽象进行建模。例如，图像识别算法可以用于确定给定输入属于若干类别中的哪一个；回归算法可以在给定输入的情况下输出数值；并且模式识别算法可以用于生成经转换的文本或执行文本转语音和/或语音识别。

一种示例性类型的机器学习算法是神经网络。存在许多类型的神经网络；简单类型的神经网络是前馈网络。前馈网络可以实现为非循环图，其中节点以层的形式布置。典型地，前馈网络拓扑包括由至少一个隐藏层分隔的输入层和输出层。隐藏层将输入层接收的输入变换为可用于在输出层中生成输出的表示。网络节点经由边完全连接到相邻层中的节点，但每层内的节点之间没有边。在前馈网络的输入层的节点处接收的数据经由激活函数传播(即，“前馈”)到输出层的节点，该激活函数基于分别与连接各层的边中的每个边相关联的系数(“权重”)来计算网络中的每个连续层的节点的状态。取决于由正在执行的算法表示的特定模型，来自神经网络算法的输出可以采用各种形式。

在机器学习算法可以用于对特定问题建模之前，使用训练数据集来训练算法。训练神经网络涉及选择网络拓扑，使用表示正在由网络建模的问题的一组训练数据，并且调整权重直到网络模型对于训练数据集的所有实例表现为具有最小误差为止。例如，在用于神经网络的监督学习训练过程期间，将响应于表示训练数据集中的实例的输入而由网络产生的输出与该实例的“正确的”经标记的输出进行比较，计算表示输出与经标记的输出之间的差异的误差信号，并且在误差信号向后传播通过网络的层时调整与连接相关联的权重以便使该误差最小化。当根据训练数据集的实例生成的输出中的每个输出的误差最小化时，网络被认为是“经训练的”。

用于训练算法的数据集的质量可以显著地影响机器学习算法的准确度。训练过程可能是计算密集型的，并且可能在常规的通用处理器上要求大量时间。因此，并行处理硬件用于训练许多种类型的机器学习算法。这对于优化神经网络的训练特别有用，因为在调整神经网络中的系数时执行的计算自然地有助于并行实现。具体地，许多机器学习算法和软件应用已经被适配以利用通用图形处理设备内的并行处理硬件。

图6是机器学习软件栈600的概括图。机器学习应用602可以被配置为使用训练数据集来训练神经网络，或者使用经训练的深度神经网络来实现机器智能。机器学习应用602可以包括用于神经网络的训练和推断功能和/或可以用于在部署之前训练神经网络的专用软件。机器学习应用602可以实现任何类型的机器智能，包括但不限于图像识别、测绘和定位、自主导航、语音合成、医学成像或语言翻译。

可以经由机器学习框架604来实现针对机器学习应用602的硬件加速。机器学习框架604可以提供机器学习基元的库。机器学习基元是通常由机器学习算法执行的基本操作。在没有机器学习框架604的情况下，机器学习算法的开发者将被要求创建并优化与机器学习算法相关联的主计算逻辑，然后在开发新的并行处理器时重新优化计算逻辑。相反，机器学习应用可以被配置为使用由机器学习框架604提供的基元来执行必要的计算。示例性基元包括张量卷积、激活函数和池化，它们是在训练卷积神经网络(CNN)时执行的计算操作。机器学习框架604还可以提供基元以实现由许多机器学习算法执行的基本线性代数子程序，例如，矩阵和向量运算。

机器学习框架604可以处理从机器学习应用602接收的输入数据并生成对计算框架606的适当输入。计算框架606可以将提供给GPGPU驱动程序608的底层指令抽象化以使得机器学习框架604能够利用经由GPGPU硬件610的硬件加速，而不要求机器学习框架604具有对GPGPU硬件610的架构的深刻了解。另外，计算框架606可以跨各种类型和各代的GPGPU硬件610实现针对机器学习框架604的硬件加速。

GPGPU机器学习加速

图7示出了通用图形处理单元700，其可以是图2A的并行处理器200或图1的(多个)并行处理器112。通用处理单元(GPGPU)700可以被配置为在处理与训练深度神经网络相关联的计算工作负载的类型方面特别高效。另外，GPGPU 700可以直接链接到GPGPU的其他实例以创建多GPU集群，以改进特别深的神经网络的训练速度。

GPGPU 700包括主机接口702，以实现与主机处理器的连接。主机接口702可以是快速PCI接口。然而，主机接口也可以是供应商特定的通信接口或通信结构。GPGPU 700从主机处理器接收命令，并且使用全局调度器704将与这些命令相关联的执行线程分发给一组处理集群706A-706H。处理集群706A-706H共享高速缓冲存储器708。高速缓冲存储器708可以用作处理集群706A-706H内的高速缓冲存储器的更高级别高速缓存。所示的处理集群706A-706H可以对应于图2A中的处理集群214A-214N。

GPGPU 700包括经由一组存储器控制器712A-712B与处理集群706A-H耦合的存储器714A-B。存储器714A-714B可以包括各种类型的存储器设备，包括动态随机存取存储器(DRAM)或图形随机存取存储器，例如，同步图形随机存取存储器(SGRAM)，包括图形双倍数据速率(GDDR)存储器。存储器714A-714B还可以包括3D堆叠式存储器，包括但不限于高带宽存储器(HBM)。

处理集群706A-706H中的每一个可以包括一组图形多处理器(例如，图2D的图形多处理器234、图3A的图形多处理器325、图3B的图形多处理器350)，或者可以包括如图3C中的多核心组365A-365N。计算集群的图形多处理器包括多种类型的整数逻辑单元和浮点逻辑单元，这些逻辑单元可以以包括适用于机器学习计算的精度范围执行计算操作。例如，在处理集群706A-706H中的每个处理集群中的至少浮点单元264的子集可以被配置为执行16位浮点运算或32位浮点运算，而浮点单元264的不同子集可以被配置为执行64位浮点运算。

可以将GPGPU 700的多个实例配置为作为计算集群操作。计算集群用于同步和数据交换的通信机制在实施例之间变化。例如，GPGPU 700的多个实例通过主机接口702进行通信。在一个实施例中，GPGPU 700包括I/O中心709，其将GPGPU 700与GPU链路710耦合，GPU链路710实现与GPGPU的其他实例的直接连接。GPU链路710可以耦合到专用GPU到GPU桥接器，其实现GPGPU 700的多个实例之间的通信和同步。可选地，GPU链路710与高速互连耦合以向其他GPGPU或并行处理器发送数据和从其接收数据。GPGPU 700的多个实例可以位于单独的数据处理系统中，并且经由可通过主机接口702访问的网络设备进行通信。除了主机接口702之外或作为对主机接口702的替代，GPU链路710可以被配置为实现与主机处理器的连接。

虽然GPGPU 700的所示配置可以被配置为训练神经网络，但是GPGPU700的替代配置可以被配置用于在高性能或低功率推断平台内部署。在推断配置中，GPGPU 700包括相对于训练配置而言更少的处理集群706A-706H。另外，与存储器714A-714B相关联的存储器技术可以在推断配置配置与训练配置之间不同。在一个实施例中，GPGPU 700的推断配置可以支持推断特定的指令。例如，推断配置可以提供对一个或多个8位整数点积指令的支持，这些指令通常在用于部署的神经网络的推断操作期间使用。

图8示出了多GPU计算系统800。多GPU计算系统800可以包括经由主机接口交换机804耦合到多个GPGPU 806A-806D的处理器802。主机接口交换机804可以是将处理器802耦合到快速PCI总线的快速PCI交换机设备，处理器802可以通过该快速PCI总线与该组GPGPU806A-806D通信。多个GPGPU 806A-806D中的每一个可以是图7的GPGPU 700的实例。GPGPU806A-806D可以经由一组高速点对点GPU到GPU链路816而互连。高速GPU到GPU链路可以经由专用GPU链路(例如，图7中的GPU链路710)连接到GPGPU 806A-806D中的每一个。P2P GPU链路816实现在GPGPU 806A-806D中的每一个之间的直接通信，而不要求通过处理器802所连接到的主机接口总线进行通信。利用指向P2P GPU链路的GPU到GPU业务，主机接口总线保持可用于系统存储器访问或者与多GPU计算系统800的其他实例通信，例如，经由一个或多个网络设备。虽然在图8中GPGPU 806A-D经由主机接口交换机804连接到处理器802，但是处理器802可以可替代地包括对P2P GPU链路816的直接支持，并且直接连接到GPGPU 806A-806D。

机器学习神经网络实现方式

本文描述的计算架构可以被配置为执行特别适合于训练和部署用于机器学习的神经网络的并行处理类型。神经网络可以概括为具有图形关系的功能网络。如本领域公知的，在机器学习中使用各种类型的神经网络实现方式。一种示例性类型的神经网络是前馈网络，如先前描述的。

第二种示例性类型的神经网络是卷积神经网络(CNN)。CNN是专用前馈神经网络，其用于处理具有已知的网格状拓扑的数据，例如，图像数据。因此，CNN通常用于计算视觉和图像识别应用，但是CNN也可以用于其他类型的模式识别，例如，语音和语言处理。CNN输入层中的节点被组织成一组“滤波器”(由视网膜中发现的感受域激发的特征检测器)，并且每组滤波器的输出被传播到网络的连续层中的节点。针对CNN的计算包括将卷积数学运算应用于每个滤波器以产生该滤波器的输出。卷积是由两个函数执行以产生第三函数的一种特殊类型的数学运算，该第三函数是两个原始函数之一的经修改的版本。在卷积网络术语中，卷积的第一函数可以称为输入，而第二函数可以称为卷积内核。输出可以称为特征图。例如，对卷积层的输入可以是定义输入图像的各种颜色分量的多维数据阵列。卷积内核可以是多维参数阵列，其中参数通过神经网络的训练过程进行适配。

递归神经网络(RNN)是包括层之间的反馈连接的一系列前馈神经网络。RNN通过跨神经网络的不同部分共享参数数据来实现对顺序数据的建模。RNN的架构包括循环。循环表示变量的当前值在未来时间对其自身值的影响，因为来自RNN的输出数据的至少一部分被用作用于处理序列中的后续输入的反馈。由于可以组成语言数据的可变本质，该特征使RNN对于语言处理特别有用。

下面描述的附图呈现了示例性前馈网络、CNN网络和RNN网络，并且描述了分别用于训练和部署这些类型的网络中的每一种的一般过程。应当理解，这些描述对于本文描述的任何特定实施例是示例性的而非限制性的，并且一般而言所示的概念通常可以应用于深度神经网络和机器学习技术。

上述示例性神经网络可以用于执行深度学习。深度学习是使用深度神经网络的机器学习。深度学习中使用的深度神经网络是由多个隐藏层组成的人工神经网络，而不是仅包含单个隐藏层的浅神经网络。训练更深的神经网络通常更加计算密集。然而，网络的附加隐藏层实现多步骤模式识别，其相对于浅机器学习技术导致减少的输出误差。

用于深度学习的深度神经网络典型地包括前端网络，该前端网络用于执行耦合到后端网络的特征识别，后端网络表示可以基于提供给模型的特征表示执行操作(例如，对象分类、语音识别等)的数学模型。深度学习使得可以在不要求针对模型执行手工制作的特征工程的情况下执行机器学习。相反，深度神经网络可以基于输入数据内的统计结构或相关性来学习特征。可以将学习的特征提供给可以将检测到的特征映射到输出的数学模型。网络使用的数学模型通常专用于要执行的特定任务，并且将使用不同的模型来执行不同的任务。

一旦将神经网络结构化，就可以将学习模型应用于网络以训练网络执行特定任务。学习模型描述了如何调整模型内的权重以减少网络的输出误差。误差的反向传播是用于训练神经网络的常用方法。输入向量被呈现给网络以进行处理。使用损失函数将网络的输出与期望的输出进行比较，并且针对输出层中的神经元中的每个神经元计算误差值。然后向后传播误差值，直到每个神经元具有粗略地表示其对原始输出的贡献的相关联的误差值为止。然后，网络可以使用诸如随机梯度下降算法之类的算法从这些误差中学习，以更新神经网络的权重。

图9A-9B示出了示例性卷积神经网络。图9A示出了CNN内的各种层。如图9A所示，用于对图像处理进行建模的示例性CNN可以接收描述输入图像的红色、绿色和蓝色(RGB)分量的输入902。输入902可以由多个卷积层(例如，卷积层904、卷积层906)处理。来自多个卷积层的输出可以可选地由一组完全连接层908处理。完全连接层中的神经元具有与前一层中的所有激活的完全连接，如先前针对前馈网络所描述的。来自完全连接层908的输出可以用于从网络生成输出结果。可以使用矩阵乘法而不是卷积来计算完全连接层908内的激活。并非所有CNN实现方式都使用完全连接层908。例如，在一些实现方式中，卷积层906可以生成CNN的输出。

卷积层稀疏地连接，这不同于在完全连接层908中发现的传统神经网络配置。传统神经网络层被完全连接，使得每个输出单元与每个输入单元交互。然而，卷积层被稀疏地连接，因为域的卷积的输出(而不是域中的节点中的每个节点的相应状态值)被输入到后续层的节点，如图所示。与卷积层相关联的内核执行卷积运算，其输出被发送到下一层。在卷积层内执行的维度减少是使得CNN能够缩放以处理大图像的一个方面。

图9B示出了CNN的卷积层内的示例性计算阶段。可以在卷积层914的三个阶段中处理对CNN的卷积层的输入912。这三个阶段可以包括卷积阶段916、检测器阶段918和池化阶段920。然后卷积层914可以将数据输出到连续的卷积层。网络的最终卷积层可以生成输出特征图数据或者向完全连接层提供输入，例如，以生成用于对CNN的输入的分类值。

在卷积阶段916中，并行执行若干卷积以产生一组线性激活。卷积阶段916可以包括仿射变换，该仿射变换是可以被指定为线性变换加上平移的任何变换。仿射变换包括旋转、平移、缩放以及这些变换的组合。卷积阶段计算连接到输入中的特定区域的函数(例如，神经元)的输出，该特定区域可以被确定为与神经元相关联的局部区域。神经元计算神经元的权重与神经元所连接到的局部输入中的区域之间的点积。来自卷积阶段916的输出定义了一组线性激活，该组线性激活由卷积层914的连续阶段处理。

线性激活可以由检测器阶段918处理。在检测器阶段918中，每个线性激活由非线性激活函数处理。非线性激活函数增加了整个网络的非线性性质，而不影响卷积层的感受域。可以使用若干类型的非线性激活函数。一种特定类型是修正的线性单元(ReLU)，其使用定义为f(x)＝max(0,x)的激活函数，使得激活以零为阈值。

池化阶段920使用池化函数，该池化函数用附近输出的概要统计来替换卷积层906的输出。池化函数可以用于将平移不变性引入神经网络，使得对输入的小的平移不会改变池化的输出。在特征在输入数据中的存在比特征的精确位置更重要的场景中，对局部平移的不变性可能是有用的。在池化阶段920期间可以使用各种类型的池化函数，包括最大池化、平均池化和l2-范数池化。另外，一些CNN实现方式不包括池化阶段。相反，这样的实现方式替代并且附加卷积阶段相对于先前的卷积阶段具有增加的步幅。

然后，来自卷积层914的输出可以由下一层922处理。下一层922可以是附加卷积层或者是完全连接层908之一。例如，图9A的第一卷积层904可以输出到第二卷积层906，而第二卷积层可以输出到完全连接层908中的第一层。

图10示出了示例性递归神经网络1000。在递归神经网络(RNN)中，网络的先前状态影响网络的当前状态的输出。RNN可以使用多种函数以多种方式构建。RNN的使用通常围绕使用数学模型来基于先前的输入序列预测未来。例如，RNN可以用于执行统计语言建模，以在给定先前词语序列的情况下预测即将到来的词语。可以将所示的RNN 1000描述为具有接收输入向量的输入层1002，实现递归功能的隐藏层1004，实现对先前状态的“记忆”的反馈机制1005，以及输出结果的输出层1006。RNN 1000基于时间步来操作。经由反馈机制1005基于前一时间步来影响RNN在给定时间步处的状态。对于给定时间步，隐藏层1004的状态由前一状态和当前时间步处的输入限定。第一时间步处的初始输入(x₁)可以由隐藏层1004处理。隐藏层1004可以使用在处理初始输入(x₁)期间确定的状态信息来处理第二输入(x₂)。给定状态可以计算为s_t＝f(Ux_t+Ws_t-1)，其中U和W是参数矩阵。函数f通常是非线性的，例如，双曲正切函数(Tanh)或修正函数f(x)＝max(0,x)的变型。然而，隐藏层1004中使用的特定数学函数可以取决于RNN 1000的特定实现细节而变化。

除了所描述的基本CNN网络和RNN网络之外，可以实现这些网络的变型。一个示例RNN变型是长短期记忆(LSTM)RNN。LSTM RNN能够学习处理较长语言序列必需的长期相关性。CNN的变型是卷积深度信念网络，其具有类似于CNN的结构并且以类似于深度信念网络的方式训练。深度信念网络(DBN)是由多层随机的(随机)变量组成的生成式神经网络。可以使用贪婪无监督学习逐层训练DBN。然后，通过确定神经网络的最佳初始权重集，可以使用DBN的学习的权重来提供预训练的神经网络。

图11示出了深度神经网络的训练和部署。一旦给定网络已经针对任务被结构化，则使用训练数据集1102来训练神经网络。已经开发了各种训练框架1104以实现对训练过程的硬件加速。例如，图6的机器学习框架604可以被配置作为训练框架604。训练框架604可以接入未经训练的神经网络1106，并且使得使用本文描述的并行处理资源对未经训练的神经网进行训练，以生成经训练的神经网络1108。

为了开始训练过程，可以随机地或通过使用深度信念网络的预训练来选择初始权重。然后，训练循环以监督方式或无监督方式来执行。

监督学习是这样的学习方法：其中训练作为中介操作来执行，例如，当训练数据集1102包括与输入的期望输出配对的输入时，或者在训练数据集包括具有已知输出的输入并且神经网络的输出被手动分级的情况下。网络处理输入并将得到的输出与一组预期或期望的输出进行比较。然后，误差将通过系统传播回来。训练框架1104可以进行调整以调整控制未经训练的神经网络1106的权重。训练框架1104可以提供工具来监视未经训练的神经网络1106向适合于基于已知输入数据生成正确答案的模型收敛的程度。随着网络的权重被调整，训练过程重复发生，以细化由神经网络生成的输出。训练过程可以继续，直到神经网络达到与经训练的神经网络1108相关联的统计上期望的准确度。然后可以部署经训练的神经网络1108以实现任何数量的机器学习操作，从而基于新数据1112的输入生成推断结果1114。

无监督学习是这样的学习方法：其中网络尝试使用未标记数据对其自身进行训练。因此，对于无监督学习，训练数据集1102将包括没有任何相关联的输出数据的输入数据。未经训练的神经网络1106可以学习未标记输入内的分组，并且可以确定个体输入如何与整个数据集相关。无监督训练可以用于生成自组织映射，其是一种类型的经训练的神经网络1108，能够执行有助于减少数据维度的操作。无监督训练还可以用于执行异常检测，这允许识别输入数据集中偏离正常数据模式的数据点。

还可以采用监督训练和无监督训练的变化。半监督学习是这样的技术：其中训练数据集1102中包括具有相同分布的已标记数据和未标记数据的混合。增量学习是监督学习的变型，其中输入数据被持续用于进一步训练模型。增量学习使得经训练的神经网络1108能够适配新数据1112，而不忘记在初始训练期间灌注在网络内的知识。

无论是监督还是无监督，用于特别深的神经网络的训练过程对于单个计算节点可能过于计算密集。可以使用分布式计算节点网络而不是使用单个计算节点来加速训练过程。

图12是示出分布式学习的框图。分布式学习是使用多个分布式计算节点来执行对神经网络的监督训练或无监督训练的训练模型。分布式计算节点可以各自包括一个或多个主机处理器以及通用处理节点中的一个或多个通用处理节点，例如，图7中的高度并行的通用图形处理单元700。如图所示，分布式学习可以执行模型并行化1202、数据并行化1204或模型和数据并行化1206的组合。

在模型并行化1202中，分布式系统中的不同计算节点可以针对单个网络的不同部分执行训练计算。例如，神经网络的每个层可以由分布式系统的不同处理节点训练。模型并行化的好处包括缩放到特别大的模型的能力。对与神经网络的不同层相关联的计算进行分割使得能够对其中所有层的权重将不适应于单个计算节点的存储器的非常大的神经网络进行训练。在一些实例中，模型并行化在执行大型神经网络的无监督训练时特别有用。

在数据并行化1204中，分布式网络的不同节点具有模型的完整实例，并且每个节点接收数据的不同部分。然后组合来自不同节点的结果。虽然用于数据并行化的不同方法是可能的，但数据并行训练方法都要求组合结果并且在每个节点之间同步模型参数的技术。用于组合数据的示例性方法包括参数平均和基于更新的数据并行化。参数平均关于训练数据的子集来训练每个节点，并且将全局参数(例如，权重、偏差)设置为来自每个节点的参数的平均值。参数平均使用维护参数数据的中央参数服务器。基于更新的数据并行化与参数平均类似，除了不是将参数从节点传送到参数服务器，而是传送对模型的更新。另外，可以以分散的方式执行基于更新的数据并行化，其中更新被压缩并在节点之间传送。

组合的模型和数据并行化1206可以例如在其中每个计算节点包括多个GPU的分布式系统中实现。每个节点可以具有模型的完整实例，其中每个节点内的单独的GPU用于训练模型的不同部分。

相对于在单个机器上的训练，分布式训练增加了开销。然而，本文描述的并行处理器和GPGPU可以各自实现各种技术以减少分布式训练的开销，包括用于实现高带宽GPU到GPU数据传送和加速的远程数据同步的技术。

示例性机器学习应用

机器学习可以应用于解决各种技术问题，包括但不限于计算机视觉、自主驾驶和导航、语音识别和语言处理。计算机视觉传统上是对于机器学习应用而言最活跃的研究领域之一。计算机视觉的应用的范围从再现人类视觉能力(例如，识别面部)到创建新的视觉能力类别。例如，计算机视觉应用可以被配置为识别来自视频中的可见对象中引起的振动的声波。并行处理器加速的机器学习使得能够使用比先前可行的显著更大的训练数据集对计算机视觉应用进行训练，并且使得能够使用低功率并行处理器来部署推断系统。

并行处理器加速的机器学习具有自主驾驶应用，包括车道和道路标志识别、避障、导航和驾驶控制。加速的机器学习技术可以用于基于定义对特定训练输入的适当响应的数据集来训练驾驶模型。本文描述的并行处理器可以使得能够快速训练用于自主驾驶解决方案的日益复杂的神经网络，并且使得能够在适于集成到自主车辆中的移动平台中部署低功率推断处理器。

并行处理器加速的深度神经网络使得机器学习方法能够用于自动语音识别(ASR)。ASR包括创建在给定输入声学序列的情况下计算最可能的语言序列的函数。使用深度神经网络的加速的机器学习使得能够替换先前用于ASR的隐马尔可夫模型(HMM)和高斯混合模型(GMM)。

并行处理器加速的机器学习还可以用于加速自然语言处理。自动学习过程可以利用统计推断算法来产生对错误的或不熟悉的输入鲁棒的模型。示例性自然语言处理器应用包括人类语言之间的自动机器翻译。

用于机器学习的并行处理平台可以划分为训练平台和部署平台。训练平台通常高度并行，并且包括优化以加速多GPU单节点训练和多节点多GPU训练。适于进行训练的示例性并行处理器包括图7的通用图形处理单元700和图8的多GPU计算系统800。相反，部署的机器学习平台通常包括适用于诸如相机、自主机器人和自主车辆之类的产品的低功率并行处理器。

图13示出了适用于使用经训练的模型来执行推断的示例性推断片上系统(SOC)1300。SOC 1300可以集成处理组件，包括媒体处理器1302、视觉处理器1304、GPGPU 1306和多核心处理器1308。GPGPU 1306可以是如本文描述的GPGPU(例如，GPGPU 700)，并且多核心处理器1308可以是本文描述的多核心处理器(例如，多核心处理器405-406)。SOC 1300另外可以包括可以实现处理组件中的每个处理组件可访问的共享片上数据池的片上存储器1305。处理组件可以针对低功率操作进行优化，以使得能够部署到包括自主车辆和自主机器人在内的多种机器学习平台。例如，SOC1300的一个实现方式可以用作自主车辆的主控制系统的一部分。在SOC1300被配置用于自主车辆中的情况下，SOC被设计和配置为符合部署管辖权的相关功能安全标准。

在操作期间，媒体处理器1302和视觉处理器1304可以协同工作以加速计算机视觉操作。媒体处理器1302可以实现对多个高分辨率(例如，4K、8K)视频流的低延时解码。解码的视频流可以被写入片上存储器1305中的缓冲器。视觉处理器1304然后可以解析解码的视频，并且在准备使用经训练的图像识别模型来处理解码的视频的帧时对帧执行初步处理操作。例如，视觉处理器1304可以加速用于对高分辨率视频数据执行图像识别的CNN的卷积运算，同时后端模型计算由GPGPU 1306执行。

多核心处理器1308可以包括控制逻辑，以协助对由媒体处理器1302和视觉处理器1304执行的数据传送和共享存储器操作的排序和同步。多核心处理器1308还可以用作执行可以利用GPGPU 1306的推断计算能力的软件应用的应用处理器。例如，导航和驱动逻辑的至少一部分可以以在多核心处理器1308上执行的软件来实现。这样的软件可以直接向GPGPU 1306发布计算工作负载，或者计算工作负载可以发布到多核心处理器1308，多核心处理器1308可以将这些操作的至少一部分卸载到GPGPU 1306。

GPGPU 1306可以包括计算集群，例如，通用图形处理单元700内的处理集群706A-706H的低功率配置。GPGPU 1306内的计算集群可以支持专门优化以在经训练的神经网络上执行推断计算的指令。例如，GPGPU 1306可以支持用于执行诸如8位整数向量运算和4位整数向量运算之类的低精度计算的指令。

附加系统概述

图14是处理系统1400的框图。图14中与本文任何其他附图的元件具有相同或相似名称的元件描述了与其他附图中相同的元件，可以以与其相似的方式操作或起作用，可以包括相同的组件，并且可以链接到其他实体，如本文别处描述的那些，但不限于此。系统1400可以用于单处理器桌面系统、多处理器工作站系统，或具有大量处理器1402或处理器核心1407的服务器系统。系统1400可以是处理平台，该处理平台被并入片上系统(SoC)集成电路内以用于移动、手持或嵌入式设备中(例如，在具有到局域网或广域网的有线或无线连接的物联网(IoT)设备内)。

系统1400可以是具有与图1的组件对应的组件的处理系统。例如，在不同的配置中，(多个)处理器1402或(多个)处理器核心1407可以对应于图1的(多个)处理器102。(多个)图形处理器1408可以对应于图1的(多个)并行处理器112。外部图形处理器1418可以是图1的(多个)插接设备120之一。

系统1400可以包括以下各项、与以下各项耦合或集成在以下各项内：基于服务器的游戏平台；游戏控制台，包括游戏和媒体控制台；移动游戏控制台、手持游戏控制台或在线游戏控制台。系统1400可以是移动电话、智能电话、平板计算设备或具有低内部存储容量的诸如膝上型计算机之类的移动互联网连接设备的一部分。处理系统1400还可以包括以下各项、与以下各项耦合或集成在以下各项内：可穿戴设备，例如，智能手表可穿戴设备；智能眼镜或服装，其利用增强现实(AR)或虚拟现实(VR)特征进行增强，以提供视觉、音频或触觉输出，从而补充真实世界视觉、音频或触觉体验，或以其他方式提供文本、音频、图形、视频、全息图像或视频或触觉反馈；其他增强现实(AR)设备；或其他虚拟现实(VR)设备。处理系统1400可以包括电视机或机顶盒设备或者是其一部分。系统1400可以包括自动驾驶车辆、与自动驾驶车辆耦合或集成在自动驾驶车辆内，该自动驾驶车辆例如为公共汽车、拖拉机拖车、汽车、电机或电力循环、飞机或滑翔机(或其任何组合)。自动驾驶车辆可以使用系统1400来处理车辆周围感测到的环境。

一个或多个处理器1402可以各自包括一个或多个处理器核心1407以处理指令，该指令在被执行时执行用于系统或用户软件的操作。一个或多个处理器核心1407中的至少一个可以被配置为处理特定指令集1409。指令集1409可以促进复杂指令集计算(CISC)、精简指令集计算(RISC)或经由超长指令字(VLIW)的计算。一个或多个处理器核心1407可以处理不同的指令集1409，其可以包括促进其他指令集的模拟的指令。处理器核心1407还可以包括其他处理设备，例如，数字信号处理器(DSP)。

处理器1402可以包括高速缓冲存储器1404。取决于架构，处理器1402可以具有单个内部高速缓存或多级内部高速缓存。在一些实施例中，高速缓冲存储器在处理器1402的各个组件之间共享。在一些实施例中，处理器1402还使用外部高速缓存(例如，3级(L3)高速缓存或最后一级高速缓存(LLC))(未示出)，其可以使用已知的高速缓存一致性技术在处理器核心1407之间共享。寄存器文件1406可以另外包括在处理器1402中，并且可以包括用于存储不同类型数据的不同类型的寄存器(例如，整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器)。一些寄存器可以是通用寄存器，而其他寄存器可以专用于处理器1402的设计。

一个或多个处理器1402可以与一条或多条接口总线1410耦合，以在处理器1402与系统1400中的其他组件之间传输诸如地址、数据或控制信号之类的通信信号。在这些实施例之一中，接口总线1410可以是处理器总线，例如，直接介质接口(DMI)总线的版本。然而，处理器总线不限于DMI总线，并且可以包括一条或多条外围组件互连总线(例如，PCI、快速PCI)、存储器总线或其他类型的接口总线。例如，(多个)处理器1402可以包括集成存储器控制器1416和平台控制器中心1430。存储器控制器1416促进存储器设备与系统1400的其他组件之间的通信，而平台控制器中心(PCH)1430经由本地I/O总线提供与I/O设备的连接。

存储器设备1420可以是动态随机存取存储器(DRAM)设备、静态随机存取存储器(SRAM)设备、闪速存储器设备、相变存储器设备，或具有合适性能以用作进程存储器的一些其他存储器设备。存储器设备1420可以例如作为系统1400的系统存储器操作，以存储数据1422和指令1421以供在一个或多个处理器1402执行应用或进程时使用。存储器控制器1416还与可选的外部图形处理器1418耦合，该外部图形处理器1418可以与处理器1402中的一个或多个图形处理器1408通信以执行图形和媒体操作。在一些实施例中，图形、媒体和/或计算操作可以由加速器1412辅助，该加速器1412是可以被配置为执行专门的一组图形、媒体或计算操作的协处理器。例如，加速器1412可以是用于优化机器学习或计算操作的矩阵乘法加速器。加速器1412可以是可以用于与图形处理器1408协同执行光线追踪操作的光线追踪加速器。在一个实施例中，外部加速器1419可以代替加速器1412或与加速器1412协作来使用。

显示设备1411可以被设置为可以连接到(多个)处理器1402。显示设备1411可以是内部显示设备(如在移动电子设备或膝上型设备中)或经由显示接口(例如，DisplayPort等)附接的外部显示设备中的一个或多个。显示设备1411可以是头戴式显示器(HMD)，例如，用于虚拟现实(VR)应用或增强现实(AR)应用中的立体显示设备。

平台控制器中心1430可以使外围设备能够经由高速I/O总线连接到存储器设备1420和处理器1402。I/O外围设备包括但不限于音频控制器1446、网络控制器1434、固件接口1428、无线收发器1426、触摸传感器1425、数据存储设备1424(例如，非易失性存储器、易失性存储器、硬盘驱动器、闪速存储器、NAND、3D NAND、3D XPoint等)。数据存储设备1424可以经由存储接口(例如，SATA)或经由外围总线(例如，外围组件互连总线(例如，PCI、快速PCI))来连接。触摸传感器1425可以包括触摸屏传感器、压力传感器或指纹传感器。无线收发器1426可以是Wi-Fi收发器、蓝牙收发器，或者诸如3G、4G、5G或长期演进(LTE)收发器之类的移动网络收发器。固件接口1428实现与系统固件的通信，并且可以是例如统一可扩展固件接口(UEFI)。网络控制器1434可以实现与有线网络的网络连接。在一些实施例中，高性能网络控制器(未示出)与接口总线1410耦合。音频控制器1446可以是多通道高清音频控制器。在这些实施例之一中，系统1400包括可选的传统I/O控制器1440，用于将传统(例如，个人系统2(PS/2))设备耦合到系统。平台控制器中心1430还可以连接到一个或多个通用串行总线(USB)控制器1442连接输入设备，例如，键盘和鼠标1443组合、相机1444或其他USB输入设备。

应当理解，所示系统1400是示例性的而非限制性的，因为也可以使用不同配置地其他类型的数据处理系统。例如，存储器控制器1416和平台控制器中心1430的实例可以集成到分立的外部图形处理器(例如，外部图形处理器1418)中。平台控制器中心1430和/或存储器控制器1416可以在一个或多个处理器1402外部。例如，系统1400可以包括外部存储器控制器1416和平台控制器中心1430，其可以被配置为在与(多个)处理器1402通信的系统芯片组内的存储器控制器中心和外围控制器中心。

例如，可以使用电路板(“托架(sled)”)，其上放置的诸如CPU、存储器之类的组件和其他组件被设计用于提高热性能。诸如处理器之类的处理组件可以位于托架的顶侧，而诸如DIMM之类的近存储器位于托架的底侧。由于这种设计提供了增强的气流，因此这些组件与在典型系统中相比可以在更高的频率和功率水平下操作，从而提高性能。此外，托架被配置为与机架(rack)中的电力和数据通信电缆盲配合，由此提高它们被快速移除、升级、重新安装和/或更换的能力。类似地，位于托架上的单独的组件(例如，处理器、加速器、存储器和数据存储驱动器)由于彼此之间的间距增加而被配置为易于升级。在说明性实施例中，组件另外包括硬件证明特征以证实它们的真实性。

数据中心可以利用单个网络架构(“结构”)，该单个网络架构支持包括以太网和Omni-Path的多个其他网络架构。托架可以经由光纤耦合到交换机，光纤与典型的双绞线布线(例如，类别5、类别5e、类别6等)相比，提供更高的带宽和更低的延时。由于高带宽、低延时互连和网络架构，数据中心在使用中可以将诸如存储器、加速器(例如，GPU、图形加速器、FPGA、ASIC、神经网络和/或人工智能加速器等)以及物理上分解的数据存储驱动器之类的资源池化，并且根据需要将它们提供给计算资源(例如，处理器)，从而使计算资源能够访问池化的资源，就好像这些资源在本地一样。

电力供应或电源可以向系统1400或本文描述的任何组件或系统提供电压和/或电流。在一个示例中，电力供应包括插入壁式插座的AC到DC(交流到直流)适配器。这种AC电源可以是可再生能源(例如，太阳能)电源。在一个示例中，电源包括DC电源，例如，外部AC到DC转换器。电源或电力供应还可以包括无线充电硬件以经由靠近充电场来进行充电。电源可以包括内部电池、交流电源、基于运动的电源、太阳能电源或燃料电池电源。

图15A-15C示出了计算系统和图形处理器。图15A-15C中与本文任何其他附图的元件具有相同或相似名称的元件描述了与其他附图中相同的元件，可以以与其相似的方式操作或起作用，可以包括相同的组件，并且可以链接到其他实体，如本文别处描述的那些，但不限于此。

图15A是处理器1500的框图，处理器1500可以是处理器1402之一的变型并且可以代替这些处理器之一来使用。因此，本文中结合处理器1500的任何特征的公开也公开了与(多个)处理器1402的对应组合，但不限于此。处理器1500可以具有一个或多个处理器核心1502A-1502N、集成存储器控制器1514和集成图形处理器1508。在排除集成图形处理器1508的情况下，包括处理器的系统将包括在系统芯片组内或经由系统总线耦合的图形处理器设备。处理器1500可以包括附加的核心，所述附加的核心多达并且包括由虚线框表示的附加核心1502N。处理器核心1502A-1502N中的每一个包括一个或多个内部高速缓存单元1504A-1504N。在一些实施例中，每个处理器核心1502A-1502N还可以对一个或多个共享高速缓存单元1506具有访问权。内部高速缓存单元1504A-1504N和共享高速缓存单元1506表示处理器1500内的高速缓冲存储器层级。高速缓冲存储器层级可以包括每个处理器核心内的至少一个级别的指令和数据高速缓存以及一个或多个级别的共享中间级别高速缓存，例如，2级(L2)、3级(L3)、4级(L4)或其他级别的高速缓存，其中在外部存储器之前的最高一级高速缓存被分类为LLC。在一些实施例中，高速缓存一致性逻辑维持各种高速缓存单元1506和1504A-1504N之间的一致性。

处理器1500还可以包括一组一个或多个总线控制器单元1516和系统代理核心1510。一个或多个总线控制器单元1516管理一组外围总线，例如，一条或多条PCI或快速PCI总线。系统代理核心1510为各种处理器组件提供管理功能。系统代理核心1510可以包括一个或多个集成的存储器控制器1514，以用于管理对各种外部存储器设备(未示出)的访问。

例如，处理器核心1502A-1502N中的一个或多个可以包括对同时多线程化的支持。系统代理核心1510包括用于在多线程化的处理期间协调和操作核心1502A-1502N的组件。系统代理核心1510可以另外包括功率控制单元(PCU)，其包括用于调节处理器核心1502A-1502N和图形处理器1508的功率状态的逻辑和组件。

处理器1500可以另外包括图形处理器1508，以用于执行图形处理操作。在这些实施例中的一些实施例中，图形处理器1508与该组共享高速缓存单元1506和系统代理核心1510(包括一个或多个集成的存储器控制器1514)耦合。系统代理核心1510还可以包括显示控制器1511，以用于将图形处理器输出驱动到一个或多个耦合的显示器。显示控制器1511还可以是经由至少一个互连与图形处理器耦合的单独模块，或者可以集成在图形处理器1508内。

基于环形的互连单元1512可以用于耦合处理器1500的内部组件。然而，可以使用替代的互连单元，例如，点对点互连、交换互连或其他技术，包括本领域公知的技术。在这些实施例中的一些实施例中，利用基于环形的互连1512，图形处理器1508经由I/O链路1513与基于环形的互连1512耦合。

示例性I/O链路1513表示多种I/O互连中的至少一种，包括促进各种处理器组件与诸如eDRAM模块之类的高性能嵌入式存储器模块1518之间的通信的封装上I/O互连。可选地，处理器核心1502A-1502N和图形处理器1508中的每一个能够使用嵌入式存储器模块1518作为共享的最后一级高速缓存。

处理器核心1502A-1502N例如可以是执行相同指令集架构的同构核心。可替代地，处理器核心1502A-1502N在指令集架构(ISA)方面是异构的，其中处理器核心1502A-1502N中的一个或多个执行第一指令集，而其他核心中的至少一个执行第一个指令集的子集或不同的指令集。处理器核心1502A-1502N在微架构方面可以是异构的，其中具有相对更高功耗的一个或多个核心与具有更低功耗的一个或多个功率核心耦合。作为另一示例，处理器核心1502A-1502N在计算能力方面是异构的。另外，处理器1500可以在具有所示组件以及其他组件的一个或多个芯片上实现或者实现为具有所示组件以及其他组件的SoC集成电路。

图15B是根据本文描述的一些实施例的图形处理器核心1519的硬件逻辑的框图。图形处理器核心1519(有时称为核心切片)可以是模块化图形处理器内的一个或多个图形核心。图形处理器核心1519是一个图形核心切片的示例，并且如本文描述的图形处理器可以基于目标功率和性能包络包括多个图形核心切片。每个图形处理器核心1519可以包括与多个子核心1521A-1521F耦合的固定功能块1530，子核心1521A-1521F也称为子切片，其包括通用逻辑和固定功能逻辑的模块化块。

固定功能块1530可以包括几何/固定功能流水线1531，其可以被图形处理器核心1519中的所有子核心共享，例如，在较低性能和/或较低功率图形处理器实现方式中。几何/固定功能流水线1531可以包括3D固定功能流水线(例如，下面描述的图16A中的3D流水线1612)、视频前端单元、线程产生器和线程分派器，以及管理统一返回缓冲器(例如，下面描述的图17中的统一返回缓冲器1718)的统一返回缓冲器管理器。

固定功能块1530还可以包括图形SoC接口1532、图形微控制器1533和媒体流水线1534。图形SoC接口1532提供在图形处理器核心1519与片上系统集成电路内的其他处理器核心之间的接口。图形微控制器1533是可编程子处理器，其可配置以管理图形处理器核心1519的各种功能，包括线程分派、调度和抢占。媒体流水线1534(例如，图16A和图17的媒体流水线1616)包括用于促进对多媒体数据(包括图像和视频数据)的解码、编码、预处理和/或后处理的逻辑。媒体流水线1534经由对子核心1521A-1521F内的计算或采样逻辑的请求来实现媒体操作。

SoC接口1532可以使得图形处理器核心1519能够与通用应用处理器核心(例如，CPU)和/或SoC内的其他组件通信，这些组件包括存储器层级元件，例如，共享的最后一级高速缓冲存储器、系统RAM和/或嵌入式片上或封装上DRAM。SoC接口1532还使得能够与SoC内的固定功能设备(例如，相机成像流水线)通信，并且使得能够使用和/或实现可以在图形处理器核心1519与SoC内的CPU之间共享的全局存储器原子性。SoC接口1532还可以实现针对图形处理器核心1519的功率管理控制，并且启用图形核心1519的时钟域与SoC内的其他时钟域之间的接口。可选地，SoC接口1532使得命令缓冲器能够从命令流送器和全局线程分派器(其被配置为向图形处理器内的一个或多个图形核心中的每一个提供命令和指令)接收。当要执行媒体操作时，命令和指令可以被分派到媒体流水线1534，或者当要执行图形处理操作时，命令和指令可以被分派到几何和固定功能流水线(例如，几何和固定功能流水线1531、几何和固定功能流水线1537)。

图形微控制器1533可以被配置为执行针对图形处理器核心1519的各种调度和管理任务。在一种配置中，图形微控制器1533例如可以在子核心1521A-1521F内的执行单元(EU)阵列1522A-1522F、1524A-1524F内的各种图形并行引擎上执行图形和/或计算工作负载调度。在该工作负载调度中，在包括图形处理器核心1519的SoC的CPU核心上执行的主机软件可以将工作负载提交给多个图形处理器门铃之一，这在适当的图形引擎上调用调度操作。调度操作包括确定接下来要运行的工作负载，将工作负载提交给命令流送器，抢占在引擎上运行的现有工作负载，监控工作负载的进度，以及在工作负载完成时通知主机软件。可选地，图形微控制器1533还可以促进图形处理器核心1519的低功率或空闲状态，从而为图形处理器核心1519提供独立于系统上的操作系统和/或图形驱动器软件而跨低功率状态转换在图形处理器核心1519内保存和恢复寄存器的能力。

图形处理器核心1519可以具有多于或少于所示的子核心1521A-1521F，多达N个模块化子核心。对于每组N个子核心，图形处理器核心1519还可以包括共享功能逻辑1535、共享和/或高速缓冲存储器1536、几何/固定功能流水线1537，以及附加的固定功能逻辑1538，以加速各种图形和计算处理操作。共享功能逻辑1535可以包括与图17的共享功能逻辑1720相关联的逻辑单元(例如，采样器、数学和/或线程间通信逻辑)，其可以由图形处理器核心1519内的每N个子核心共享。共享和/或高速缓冲存储器1536可以是用于图形处理器核心1519内的该组N个子核心1521A-1521F的最后一级高速缓存，并且还可以用作可由多个子核心访问的共享存储器。几何/固定功能流水线1537可以代替几何/固定功能流水线1531包含于固定功能块1530内并且可以包括相同或相似的逻辑单元。

图形处理器核心1519可以包括附加的固定功能逻辑1538，其可以包括供图形处理器核心1519使用的各种固定功能加速逻辑。可选地，附加固定功能逻辑1538包括用于仅位置着色的附加几何流水线。在仅位置着色中，存在两个几何流水线：在几何/固定功能流水线1538、1531内的完整几何流水线；以及作为附加几何流水线的剔除流水线，其可以包含于附加固定功能逻辑1538内。例如，剔除流水线可以是完整几何流水线的剪辑版本。完整流水线和剔除流水线可以执行同一应用的不同实例，每个实例具有单独的上下文。仅位置着色可以隐藏丢弃的三角形的长剔除运行，使得在一些情况下能够更早地完成着色。例如，在附加固定功能逻辑1538内的剔除流水线逻辑可以与主应用并行执行位置着色器，并且通常比完整流水线更快地生成关键结果，因为剔除流水线仅获取并着色顶点的位置属性，而不执行像素的光栅化和渲染到帧缓冲器。剔除流水线可以使用生成的关键结果来计算所有三角形的可见性信息，而不管这些三角形是否被剔除。完整流水线(其在该情况下可以称为重放流水线)可以消耗可见性信息来跳过剔除的三角形以仅对最终传递到光栅化阶段的可见三角形进行着色。

可选地，附加固定功能逻辑1538还可以包括机器学习加速逻辑(例如，固定功能矩阵乘法逻辑)，以用于包括对机器学习训练或推断的优化的实现方式。

在每个图形子核心1521A-1521F内包括一组执行资源，该组执行资源可以用于响应于图形流水线、媒体流水线或着色器程序的请求而执行图形、媒体和计算操作。图形子核心1521A-1521F包括多个EU阵列1522A-1522F、1524A-1524F、线程分派和线程间通信(TD/IC)逻辑1523A-1523F、3D(例如，纹理)采样器1525A-1525F、媒体采样器1506A-1506F、着色器处理器1527A-1527F和共享本地存储器(SLM)1528A-1528F。EU阵列1522A-1522F、1524A-1524F各自包括多个执行单元，这些执行单元是通用图形处理单元，其能够服务于图形、媒体或计算操作而执行浮点和整数/固定点逻辑运算，包括图形、媒体或计算着色器程序。TD/IC逻辑1523A-1523F针对子核心内的执行单元执行本地线程分派和线程控制操作，并且促进在子核心的执行单元上执行的线程之间的通信。3D采样器1525A-1525F可以将纹理或其他3D图形相关数据读入存储器。3D采样器可以基于配置的采样状态和与给定纹理相关联的纹理格式不同地读取纹理数据。媒体采样器1506A-1506F可以基于与媒体数据相关联的类型和格式来执行类似的读取操作。例如，每个图形子核心1521A-1521F可以替代地包括统一的3D和媒体采样器。在子核心1521A-1521F中的每个子核心内的执行单元上执行的线程可以利用每个子核心内的共享本地存储器1528A-1528F，以使得在线程组内执行的线程能够使用片上存储器的公共池来执行。

图15C是根据本文描述的实施例的可以被配置为图形处理器(例如，图形处理器1508)和/或计算加速器的通用图形处理单元(GPGPU)1570的框图。GPGPU 1570可以经由一条或多条系统和/或存储器总线与主机处理器(例如，一个或多个CPU 1546)和存储器1571、1572互连。存储器1571可以是可以与一个或多个CPU 1546共享的系统存储器，而存储器1572是专用于GPGPU 1570的设备存储器。例如，GPGPU 1570内的组件和设备存储器1572可以被映射到可由一个或多个CPU 1546访问的存储器地址。可以经由存储器控制器1568来促进对存储器1571和1572的访问。存储器控制器1568可以包括内部直接存储器访问(DMA)控制器1569，或可以包括用于执行否则将由DMA控制器执行的操作的逻辑。

GPGPU 1570包括多个高速缓冲存储器，包括L2高速缓存1553、L1高速缓存1554、指令高速缓存1555和共享存储器1556(其至少一部分也可以被划分为高速缓冲存储器)。GPGPU 1570还包括多个计算单元1560A-1560N。每个计算单元1560A-1560N包括一组向量寄存器1561、标量寄存器1562、向量逻辑单元1563和标量逻辑单元1564。计算单元1560A-1560N还可以包括本地共享存储器1565和程序计数器1566。计算单元1560A-1560N可以与恒定高速缓存1567耦合，该恒定高速缓存1567可以用于存储恒定数据，该恒定数据是在GPGPU1570上执行的内核或着色器程序的运行期间不会改变的数据。恒定高速缓存1567是标量数据高速缓存，并且被缓存的数据可以直接获取到标量寄存器1562中。

在操作期间，一个或多个CPU 1546可以将命令写入已被映射到可访问地址空间的GPGPU 1570中的寄存器或存储器中。命令处理器1557可以从寄存器或存储器读取命令，并且确定将如何在GPGPU 1570内处理这些命令。然后，可以使用线程分派器1558将线程分派给计算单元1560A-1560N以执行这些命令。每个计算单元1560A-1560N可以独立于其他计算单元执行线程。另外，每个计算单元1560A-1560N可以被独立地配置用于条件计算，并且可以有条件地将计算结果输出到存储器。当提交的命令完成时，命令处理器1557可以中断一个或多个CPU 1546。

图16A-16C示出了由本文描述的实施例例如根据图15A-15C提供的附加图形处理器和计算加速器架构的框图。图16A-16C中与本文任何其他附图的元件具有相同或相似名称的元件描述了与其他附图中相同的元件，可以以与其相似的方式操作或起作用，可以包括相同的组件，并且可以链接到其他实体，如本文别处描述的那些，但不限于此。

图16A是图形处理器1600的框图，该图形处理器1600可以是分立的图形处理单元，或者可以是与多个处理核心或其他半导体设备(例如但不限于存储器设备或网络接口)集成的图形处理器。图形处理器1600可以是图形处理器1508的变型，并且可以代替图形处理器1508来使用。因此，本文中结合图形处理器1508的任何特征的公开也公开了与图形处理器1600的对应组合，但不限于此。图形处理器可以经由与图形处理器上的寄存器的存储器映射的I/O接口并且利用放置在处理器存储器中的命令进行通信。图形处理器1600可以包括用于对存储器进行访问的存储器接口1614。存储器接口1614可以是与本地存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存和/或系统存储器的接口。

可选地，图形处理器1600还包括显示控制器1602，其用于将显示输出数据驱动到显示设备1618。显示控制器1602包括用于显示或组成视频或用户界面元素的多个层的一个或多个覆盖平面的硬件。显示设备1618可以是内部或外部显示设备。在一个实施例中，显示设备1618是头戴式显示设备，例如，虚拟现实(VR)显示设备或增强现实(AR)显示设备。图形处理器1600可以包括视频编解码器引擎1606，其用于将媒体编码、解码为一种或多种媒体编码格式，将媒体从一种或多种媒体编码格式进行编码、解码或者将媒体在一种或多种媒体编码格式之间进行转码，该一种或多种媒体编码格式包括但不限于运动图像专家组(MPEG)格式(例如，MPEG-2)、高级视频编码(AVC)格式(例如，H.264/MPEG-4AVC，H.265/HEVC，开放媒体联盟(AOMedia)VP8、VP9以及电影电视工程师协会(SMPTE)421M/VC-1)和联合图像专家组(JPEG)格式(例如，JPEG和运动JPEG(MJPEG)格式)。

图形处理器1600可以包括块图像传送(BLIT)引擎1604，其用于执行二维(2D)光栅化操作，包括例如位边界块传送。然而，可替代地，可以使用图形处理引擎(GPE)1610的一个或多个组件来执行2D图形操作。在一些实施例中，GPE 1610是用于执行图形操作的计算引擎，该图形操作包括三维(3D)图形操作和媒体操作。

GPE 1610可以包括用于执行3D操作(例如，使用作用于3D基元形状(例如，矩形、三角形等)的处理功能来渲染三维图像和场景)的3D流水线1612。3D流水线1612包括可编程功能元件和固定功能元件，其执行元件内的各种任务和/或向3D/媒体子系统1615产生执行线程。虽然3D流水线1612可以用于执行媒体操作，但是GPE 1610的实施例还包括媒体流水线1616，该媒体流水线1616专门用于执行媒体操作，例如，视频后处理和图像增强。

媒体流水线1616可以包括固定功能逻辑单元或可编程逻辑单元，以代替或代表视频编解码器引擎1606执行一个或多个专用媒体操作，例如，视频解码加速、视频去交织和视频编码加速。媒体流水线1616可以另外地包括线程产生单元以产生用于在3D/媒体子系统1615上执行的线程。产生的线程在3D/媒体子系统1615中包括的一个或多个图形执行单元上执行针对媒体操作的计算。

3D/媒体子系统1615可以包括用于执行由3D流水线1612和媒体流水线1616产生的线程的逻辑。流水线可以将线程执行请求发送到3D/媒体子系统1615，该3D/媒体子系统1615包括用于对针对可用线程执行资源的各种请求进行仲裁和分派的线程分派逻辑。执行资源包括用于处理3D线程和媒体线程的图形执行单元的阵列。3D/媒体子系统1615可以包括用于线程指令和数据的一个或多个内部高速缓存。另外，3D/媒体子系统1615还可以包括共享存储器，其包括寄存器和可寻址存储器，以在线程之间共享数据并且存储输出数据。

图16B示出了图形处理器1620，它是图形处理器1600的变型并且可以代替图形处理器1600来使用，反之亦然。因此，本文中结合图形处理器1600的任何特征的公开也公开了与图形处理器1620的对应组合，但不限于此。根据本文描述的实施例，图形处理器1620具有分片式架构。图形处理器1620可以包括图形处理引擎集群1622，其具有图16A的图形处理引擎1610在图形引擎分片1610A-1610D内的多个实例。每个图形引擎分片1610A-1610D可以经由一组分片互连1623A-1623F互连。每个图形引擎分片1610A-1610D还可以经由存储器互连1625A-1625D连接到存储器模块或存储器设备1626A-1626D。存储器设备1626A-1626D可以使用任何图形存储器技术。例如，存储器设备1626A-1626D可以是图形双倍数据速率(GDDR)存储器。存储器设备1626A-1626D可以是高带宽存储器(HBM)模块，其可以与它们相应的图形引擎分片1610A-1610D一起在管芯上。在一个实施例中，存储器设备1626A-1626D可以是可以被堆叠在它们相应的图形引擎分片1610A-1610D之上的堆叠式存储器设备。每个图形引擎分片1610A-1610D和相关联的存储器1626A-1626D可以位于单独的小芯片上，该小芯片被结合到基础管芯或基础衬底，如图24B-24D中进一步详细描述的。

图形处理器1620可以被配置有非均匀存储器访问(NUMA)系统，其中存储器设备1626A-1626D与相关联的图形引擎分片1610A-1610D耦合。给定的存储器设备可以由除了其直接连接的分片之外的图形引擎分片访问。然而，当访问本地分片时，存储器设备1626A-1626D的访问延迟可以是最低的。在一个实施例中，启用了高速缓存一致性NUMA(ccNUMA)系统，该系统使用分片互连1623A-1623F来实现在图形引擎分片1610A-1610D内的高速缓存控制器之间的通信，以在多于一个高速缓存存储相同的存储器单元时保持一致的存储器映像。

图形处理引擎集群1622可以与片上或封装上结构互连1624连接。结构互连1624可以实现在图形引擎分片1610A-1610D与诸如视频编解码器1606和一个或多个复制引擎1604之类的组件之间进行通信。复制引擎1604可以用于将数据移出、移进存储器设备1626A-1626D和在图形处理器1620外部的存储器(例如，系统存储器)，以及在上述存储器之间移动数据。结构互连1624还可以用于互连图形引擎分片1610A-1610D。图形处理器1620可以可选地包括显示控制器1602，以实现与外部显示设备1618的连接。图形处理器还可以被配置为图形或计算加速器。在加速器配置中，可以省略显示控制器1602和显示设备1618。

图形处理器1620可以经由主机接口1628连接到主机系统。主机接口1628可以实现在图形处理器1620、系统存储器和/或其他系统组件之间的通信。主机接口1628可以是例如PCI express总线或另一类型的主机系统接口。

图16C示出了根据本文描述的实施例的计算加速器1630。计算加速器1630可以包括与图16B的图形处理器1620的架构相似性，并且是针对计算加速进行优化的。计算引擎集群1632可以包括一组计算引擎分片1640A-1640D，其包括针对并行的或基于向量的通用计算操作而优化的执行逻辑。计算引擎分片1640A-1640D可以不包括固定功能图形处理逻辑，但在一些实施例中，计算引擎分片1640A-1640D中的一个或多个可以包括用于执行媒体加速的逻辑。计算引擎分片1640A-1640D可以经由存储器互连1625A-1625D连接到存储器1626A-1626D。存储器1626A-1626D和存储器互连1625A-1625D可以是与图形处理器1620中类似的技术，或者可以是不同的。图形计算引擎分片1640A-1640D还可以经由一组分片互连1623A-1623F互连，并且可以与结构互连1624连接和/或通过结构互连1624互连。在一个实施例中，计算加速器1630包括大的L3高速缓存1636，其可以被配置为设备范围的高速缓存。计算加速器1630还可以以与图16B的图形处理器1620类似的方式经由主机接口1628连接到主机处理器和存储器。

图形处理引擎

图17是根据一些实施例的图形处理器的图形处理引擎1710的框图。

图形处理引擎(GPE)1710可以是图16A所示的GPE 1610的版本，并且还可以表示图16B的图形引擎分片1610A-1610D。图17中与本文任何其他附图的元件具有相同或相似名称的元件描述了与其他附图中相同的元件，可以以与其相似的方式操作或起作用，可以包括相同的组件，并且可以链接到其他实体，如本文别处描述的那些，但不限于此。例如，图17中还示出了图16A的3D流水线1612和媒体流水线1616。媒体流水线1616在GPE1710的一些实施例中是可选的，并且可以不明确地包括在GPE 1710内。例如，在至少一个实施例中，单独的媒体和/或图像处理器与GPE 1710耦合。

GPE 1710可以与命令流送器1703耦合或者包括命令流送器1703，该命令流送器1703向3D流水线1612和/或媒体流水线1616提供命令流。可替代地或另外地，命令流送器1703可以直接耦合到统一返回缓冲器1718。统一返回缓冲器1718可以通信地耦合到图形核心阵列1714。可选地，命令流送器1703与存储器耦合，该存储器可以是系统存储器或者是内部高速缓冲存储器和共享高速缓冲存储器中的一个或多个。命令流送器1703可以接收来自存储器的命令并且将命令发送到3D流水线1612和/或媒体流水线1616。该命令是从环形缓冲器获取的指令，该环形缓冲器存储用于3D流水线1612和媒体流水线1616的命令。环形缓冲器可以另外地包括存储多个命令的批的批命令缓冲器。用于3D流水线1612的命令还可以包括对存储在存储器中的数据的引用，该数据例如但不限于用于3D流水线1612的顶点和几何数据和/或用于媒体流水线1616的图像数据和存储器对象。3D流水线1612和媒体流水线1616通过经由相应流水线内的逻辑执行操作或者通过将一个或多个执行线程分派给图形核心阵列1714来处理命令和数据。图形核心阵列1714可以包括一个或多个图形核心块(例如，(多个)图形核心1715A、(多个)图形核心1715B)，每个块包括一个或多个图形核心。每个图形核心包括一组图形执行资源，其包括用于执行图形和计算操作的通用执行逻辑和图形特定执行逻辑，以及固定功能纹理处理和/或机器学习和人工智能加速逻辑。

在各种实施例中，3D流水线1612可以包括固定功能逻辑和可编程逻辑，用于通过处理指令以及将执行线程分派给图形核心阵列1714来处理一个或多个着色器程序，例如，顶点着色器、几何着色器、像素着色器、片段着色器、计算着色器或其他着色器程序。图形核心阵列1714提供统一的执行资源块以用于处理这些着色器程序。图形核心阵列1714的(多个)图形核心1715A-1715B内的多用途执行逻辑(例如，执行单元)包括对各种3D API着色器语言的支持，并且可以执行与多个着色器相关联的多个同时执行线程。

图形核心阵列1714可以包括用于执行媒体功能(例如，视频和/或图像处理)的执行逻辑。执行单元可以包括通用逻辑，该通用逻辑可编程为除了图形处理操作之外还执行并行通用计算操作。该通用逻辑可以与图14的(多个)处理器核心1407或如图15A中的核心1502A-1502N内的通用逻辑并行地或相结合地来执行处理操作。

由在图形核心阵列1714上执行的线程生成的输出数据可以将数据输出到统一返回缓冲器(URB)1718中的存储器。URB 1718可以存储用于多个线程的数据。URB 1718可以用于在图形核心阵列1714上执行的不同线程之间发送数据。URB 1718可以另外地用于在图形核心阵列上的线程与共享功能逻辑1720内的固定功能逻辑之间进行同步。

可选地，图形核心阵列1714可以是可缩放的，使得阵列包括可变数量的图形核心，每个图形核心基于GPE 1710的目标功率和性能水平具有可变数量的执行单元。执行资源可以是可动态缩放的，使得可以根据需要启用或禁用执行资源。

图形核心阵列1714与共享功能逻辑1720耦合，该共享功能逻辑1720包括在图形核心阵列中的图形核心之间共享的多个资源。共享功能逻辑1720内的共享功能是向图形核心阵列1714提供专用补充功能的硬件逻辑单元。在各种实施例中，共享功能逻辑1720包括但不限于采样器1721、数学1722和线程间通信(ITC)1723逻辑。另外地，可以实现在共享功能逻辑1720内的一个或多个高速缓存1725。

至少在针对给定专用功能的需求对于包括在图形核心阵列1714内而言不足的情况下实现共享功能。相反，该专用功能的单个实例化在共享功能逻辑1720中实现为独立实体，并且在图形核心阵列1714内的执行资源之间共享。在图形核心阵列1714之间共享并且包括在图形核心阵列1714内的功能的精确集合在实施例之间变化。共享功能逻辑1720内的由图形核心阵列1714广泛使用的特定共享功能可以被包括在图形核心阵列1714内的共享功能逻辑1716内。可选地，图形核心阵列1714内的共享功能逻辑1716可以包括共享功能逻辑1720内的一些或所有逻辑。共享功能逻辑1720内的所有逻辑元件可以在图形核心阵列1714的共享功能逻辑1716内复制。可替代地，共享功能逻辑1720被排除以支持图形核心阵列1714内的共享功能逻辑1716。

执行单元

图18A-18B示出了线程执行逻辑1800，其包括在根据本文描述的实施例的图形处理器核心中采用的处理元件的阵列。图18A-18B中与本文任何其他附图的元件具有相同或相似名称的元件描述了与其他附图中相同的元件，可以以与其相似的方式操作或起作用，可以包括相同的组件，并且可以链接到其他实体，如本文别处描述的那些，但不限于此。图18A-18B示出了线程执行逻辑1800的概览，其可以表示与图15B的每个子核心1521A-1521F一起示出的硬件逻辑。图18A表示通用图形处理器内的执行单元，而图18B表示可以在计算加速器内使用的执行单元。

如图18A所示，线程执行逻辑1800可以包括着色器处理器1802、线程分派器1804、指令高速缓存1806、包括多个执行单元1808A-1808N的可缩放执行单元阵列、采样器1810、共享本地存储器1811、数据高速缓存1812和数据端口1814。可选地，可缩放执行单元阵列可以通过基于工作负载的计算要求启用或禁用一个或多个执行单元(例如，执行单元1808A、1808B、1808C、1808D至1808N-1和1808N中的任何一个)来动态地缩放。所包括的组件可以经由互连结构互连，该互连结构链接到组件中的每个组件。线程执行逻辑1800可以包括通过指令高速缓存1806、数据端口1814、采样器1810和执行单元1808A-1808N中的一个或多个到存储器(例如，系统存储器或高速缓冲存储器)的一个或多个连接。每个执行单元(例如，1808A)可以是独立的可编程通用计算单元，其能够执行多个同时硬件线程，同时针对每个线程并行地处理多个数据元素。在各种实施例中，执行单元阵列1808A-1808N可缩放以包括任何数量的个体执行单元。

执行单元1808A-1808N可以主要用于执行着色器程序。着色器处理器1802可以处理各种着色器程序并经由线程分派器1804分派与着色器程序相关联的执行线程。线程分派器可以包括用于仲裁来自图形流水线和媒体流水线的线程发起请求并且在一个或多个执行单元1808A-1808N上实例化所请求的线程的逻辑。例如，几何流水线可以将顶点着色器、曲面细分着色器或几何着色器分派给线程执行逻辑以进行处理。可选地，线程分派器1804还可以处理来自执行的着色器程序的运行时线程产生请求。

执行单元1808A-1808N可以支持这样的指令集：其包括对许多标准3D图形着色器指令的本机支持，使得来自图形库(例如，Direct 3D和OpenGL)的着色器程序以最小转换来执行。执行单元支持顶点和几何处理(例如，顶点程序、几何程序、顶点着色器)、像素处理(例如，像素着色器、片段着色器)和通用处理(例如，计算着色器和媒体着色器)。执行单元1808A-1808N中的每一个能够进行多次发布单指令多数据(SIMD)执行，并且多线程化的操作在面对更高延时的存储器访问时实现高效的执行环境。每个执行单元内的每个硬件线程都具有专用的高带宽寄存器文件和相关联的独立线程状态。执行是每个时钟多次发布到这样的流水线的：其能够进行整数、单精度和双精度浮点运算，具有SIMD分支能力，能够进行逻辑运算、超越运算和其他杂项运算。在等待来自共享功能之一或存储器的数据时，执行单元1808A-1808N内的相关性逻辑使等待线程休眠，直到返回所请求的数据。当等待线程处于休眠时，硬件资源可以专用于处理其他线程。例如，在与顶点着色器操作相关联的延迟期间，执行单元可以执行用于像素着色器、片段着色器或另一种类型的着色器程序(包括不同的顶点着色器，例如，图21所示的顶点着色器2107)的操作。各种实施例可以适用于通过使用单指令多线程(SIMT)作为对使用SIMD的替代或除使用SIMD之外还使用SIMT来使用执行。对SIMD核心或操作的引用也可以适用于SIMT或适用于SIMD与SIMT组合。

执行单元1808A-1808N中的每个执行单元对数据元素阵列进行操作。数据元素的数量是“执行大小”或用于指令的通道数。执行通道是执行指令内的数据元素访问、掩蔽和流控制的逻辑单元。通道数可以与特定图形处理器的物理算术逻辑单元(ALU)、浮点单元(FPU)或其他逻辑单元(例如，张量核心、光线追踪核心，等等)的数量无关。另外地，执行单元1808A-1808N可以支持整数数据类型和浮点数据类型。

执行单元指令集包括SIMD指令。各种数据元素可以作为紧缩数据类型存储在寄存器中，并且执行单元将基于元素的数据大小处理各种元素。例如，当对256位宽的向量进行操作时，向量的256位存储在寄存器中，并且执行单元按照四个单独的184位紧缩数据元素(四字(QW)大小数据元素)、八个单独的32位紧缩数据元素(双字(DW)大小数据元素)、十六个单独的16位紧缩数据元素(字(W)大小数据元素)或三十二个单独的8位数据元素(字节(B)大小数据元素)对向量进行操作。然而，不同的向量宽度和寄存器大小是可能的。

可选地，一个或多个执行单元可以组合成融合执行单元1809A-1809N，其具有对融合EU共有的线程控制逻辑(1807A-1807N)。多个EU可以融合为EU组。在融合EU组中的每个EU可以被配置为执行单独的SIMD硬件线程。在融合EU组中的EU的数量可以根据实施例而变化。另外，可以按EU执行各种SIMD宽度，包括但不限于SIMD8、SIMD16和SIMD32。每个融合图形执行单元1809A-1809N包括至少两个执行单元。例如，融合执行单元1809A包括第一EU1808A、第二EU 1808B以及对第一EU 1808A和第二EU 1808B共有的线程控制逻辑1807A。线程控制逻辑1807A控制在融合图形执行单元1809A上执行的线程，允许融合执行单元1809A-1809N内的每个EU使用公共指令指针寄存器来执行。

一个或多个内部指令高速缓存(例如，1806)包括在线程执行逻辑1800中，以缓存用于执行单元的线程指令。线程执行逻辑1800中可以包括一个或多个数据高速缓存(例如，1812)以在线程执行期间缓存线程数据。在执行逻辑1800上执行的线程还可以将显式地管理的数据存储在共享本地存储器1811中。可以包括采样器1810以提供用于3D操作的纹理采样和用于媒体操作的媒体采样。采样器1810可以包括专用的纹理或媒体采样功能，以在采样过程期间在将采样的数据提供给执行单元之前处理纹理或媒体数据。

在执行期间，图形流水线和媒体流水线经由线程产生和分派逻辑将线程发起请求发送到线程执行逻辑1800。一旦已经处理了一组几何对象并将其光栅化为像素数据，就调用着色器处理器1802内的像素处理器逻辑(例如，像素着色器逻辑、片段着色器逻辑等)以进一步计算输出信息并使得结果被写入输出表面(例如，颜色缓冲器、深度缓冲器、模板印制缓冲器等)。像素着色器或片段着色器可以计算要跨光栅化的对象进行插值的各种顶点属性的值。着色器处理器1802内的像素处理器逻辑然后可以执行应用编程接口(API)——提供的像素着色器程序或片段着色器程序。为了执行着色器程序，着色器处理器1802经由线程分派器1804将线程分派给执行单元(例如，1808A)。着色器处理器1802可以使用采样器1810中的纹理采样逻辑来访问存储在存储器中的纹理图中的纹理数据。对纹理数据和输入几何数据的算术运算计算每个几何片段的像素颜色数据，或丢弃一个或多个像素以免进一步处理。

此外，数据端口1814可以提供用于线程执行逻辑1800将经处理的数据输出到存储器以用于在图形处理器输出流水线上进行进一步处理的存储器访问机制。数据端口1814可以包括或耦合到一个或多个高速缓冲存储器(例如，数据高速缓存1812)以经由数据端口缓存用于存储器访问的数据。

可选地，执行逻辑1800还可以包括可以提供光线追踪加速功能的光线追踪器1805。光线追踪器1805可以支持包括用于光线生成的指令/功能的光线追踪指令集。光线追踪指令集可以与图3C中的光线追踪核心372所支持的光线追踪指令集相似或不同。

图18B示出了执行单元1808的示例性内部细节。图形执行单元1808可以包括指令获取单元1837、通用寄存器文件阵列(GRF)1824、架构寄存器文件阵列(ARF)1826、线程仲裁器1822、发送单元1830、分支单元1832、SIMD浮点单元(FPU)1834，并且可选地包括一组专用整数SIMD ALU1835。GRF 1824和ARF 1826包括与在图形执行单元1808中可以是活动的每个同时硬件线程相关联的一组通用寄存器文件和架构寄存器文件。每个线程架构状态可以在ARF 1826中维护，而在线程执行期间使用的数据存储在GRF 1824中。每个线程的执行状态(包括用于每个线程的指令指针)可以保存在ARF 1826中的特定于线程的寄存器中。

图形执行单元1808可以具有作为同时多线程化(SMT)和细粒度交错多线程化(IMT)的组合的架构。该架构可以具有模块化配置，该模块化配置可以在设计时基于同时线程的目标数量和每个执行单元的寄存器的数量进行微调，其中执行单元资源在用于执行多个同时线程的逻辑之间划分。图形执行单元1808可以执行的逻辑线程的数量不限于硬件线程的数量，并且可以将多个逻辑线程指派给每个硬件线程。

可选地，图形执行单元1808可以共同发出多个指令，这些指令可以各自是不同的指令。图形执行单元线程1808的线程仲裁器1822可以将指令分派给发送单元1830、分支单元1832或(多个)SIMD FPU 1834之一以供执行。每个执行线程可以访问GRF 1824内的128个通用寄存器，其中每个寄存器可以存储32个字节，这32个字节可作为32位数据元素的SIMD8元素向量访问。每个执行单元线程可以对GRF 1824内的4千字节具有访问权，但是实施例不限于此，并且在其他实施例中可以提供更多或更少的寄存器资源。图形执行单元1808可以被划分为可以独立执行计算操作的七个硬件线程，但是每个执行单元的线程数量也可以根据实施例而变化，例如，可以支持多达16个硬件线程。在其中七个线程可以访问4千字节的示例性实施例中，GRF 1824可以存储总共28千字节。在其中16个线程可以访问4千字节的另一示例性实施例中，GRF 1824可以存储总共64千字节。然而，每个执行单元的线程数量不限于这些示例并且可以多于或少于给定的数量。灵活寻址模式可以允许寄存器一起被寻址以高效地构建更宽的寄存器或表示跨步矩形块数据结构。

另外地或可替代地，存储器操作、采样器操作和其他较长延时系统通信可以经由由消息传递发送单元1830执行的“发送”指令来分派。分支指令可以被分派到专用分支单元1832以促进SIMD发散和最终收敛。

图形执行单元1808可以包括一个或多个SIMD浮点单元(FPU)1834以执行浮点运算。(多个)FPU 1834也可以支持整数计算。在一些实例中，(多个)FPU 1834可以SIMD执行多达数量M个32位浮点(或整数)运算，或者SIMD执行多达2M个16位整数或16位浮点运算。可选地，(多个)FPU中的至少一个FPU提供扩展的数学能力以支持高吞吐量超越数学函数和双精度184位浮点。也可以存在一组8位整数SIMD ALU 1835，并且其可以特别优化用于执行与机器学习计算相关联的操作。

可选地，图形执行单元1808的多个实例的阵列可以在图形子核心分组(例如，子切片)中实例化。对于可缩放性，产品架构师可以选择每个子核心分组的执行单元的准确数量。执行单元1808可以在多个执行通道之间执行指令。另外，在图形执行单元1808上执行的每个线程可以在不同的通道上执行。

图19示出了另一示例性执行单元1900。图19中与本文任何其他附图的元件具有相同或相似名称的元件描述了与其他附图中相同的元件，可以以与其相似的方式操作或起作用，可以包括相同的组件，并且可以链接到其他实体，如本文别处描述的那些，但不限于此。执行单元1900可以是用于例如图16C中的计算引擎分片1640A-1640D中的计算优化的执行单元，但不限于此。执行单元1900也可以用在如图16B中的图形引擎分片1610A-1610D中。执行单元1900可以包括线程控制单元1901、线程状态单元1902、指令获取/预取单元1903和指令解码单元1904。执行单元1900可以另外包括寄存器文件1906，其存储可以被指派给执行单元内的硬件线程的寄存器。执行单元1900可以另外包括发送单元1907和分支单元1908。发送单元1907和分支单元1908可以与图18B的图形执行单元1808的发送单元1830和分支单元1832类似地操作。

执行单元1900还可以包括计算单元1910，该计算单元1910包括多种不同类型的功能单元。计算单元1910还可以包括ALU单元1911，其包括算术逻辑单元的阵列。ALU单元1911可以被配置为执行64位、32位和16位整数和浮点运算。整数和浮点运算可以同时执行。计算单元1910还可以包括脉动阵列1912和数学单元1913。脉动阵列1912包括宽为W且深为D的数据处理单元网络，其可以用于以脉动方式执行向量或其他数据并行运算。脉动阵列1912可以被配置为执行矩阵运算，例如，矩阵点积运算。脉动阵列1912可以支持16位浮点运算以及8位和4位整数运算。脉动阵列1912可以被配置为加速机器学习操作。脉动阵列1912可以被配置为支持bfloat16(一种16位浮点格式)。可以包括数学单元1913以便以比ALU单元1911高效且低功耗的方式执行数学运算的特定子集。数学单元1913可以包括在由描述的其他实施例提供的图形处理引擎的共享功能逻辑中找到的数学逻辑，例如，图17的共享功能逻辑1720的数学逻辑1722。数学单元1913可以被配置为执行32位和64位浮点运算。

线程控制单元1901包括用于控制执行单元内的线程的执行的逻辑。线程控制单元1901可以包括线程仲裁逻辑以开始、停止和抢占执行单元1900内的线程的执行。线程状态单元1902可以用于存储被指派以在执行单元1900上执行的线程的线程状态。在执行单元1900内存储线程状态使得能够在线程变得阻塞或空闲时快速抢占那些线程。指令获取/预取单元1903可以从更高级别执行逻辑的指令高速缓存(例如，如图18A中的指令高速缓存1806)获取指令。指令获取/预取单元1903还可以基于对当前正在执行的线程的分析来发出用于将指令加载到指令高速缓存中的预取请求。指令解码单元1904可以用于对计算单元要执行的指令进行解码。指令解码单元1904可以用作次要解码器，以将复杂的指令解码为构成微操作。

执行单元1900另外包括可以由在执行单元1900上执行的硬件线程使用的寄存器文件1906。寄存器文件1906中的寄存器可以跨用于在执行单元1900的计算单元1910内执行多个同时线程的逻辑而划分。图形执行单元1900可以执行的逻辑线程的数量不限于硬件线程的数量，并且多个逻辑线程可以被指派给每个硬件线程。基于所支持的硬件线程的数量，寄存器文件1906的大小可以在实施例之间变化。寄存器重命名可以用于将寄存器动态地分配给硬件线程。

图20是示出图形处理器指令格式2000的框图。图形处理器执行单元支持具有多种格式的指令的指令集。实线框示出了在执行单元指令中通常包括的组件，而虚线包括可选的或仅在指令的子集中包括的组件。所描述和示出的指令格式2000是宏指令，因为它们是提供给执行单元的指令，而不是一旦指令被处理就由指令解码产生的微操作。

如本文描述的图形处理器执行单元可以本机地支持128位指令格式2010的指令。基于所选择的指令、指令选项和操作数的数量，64位压缩指令格式2030可用于某些指令。本机128位指令格式2010提供对所有指令选项的访问，而一些选项和操作被限制于64位格式2030。以64位格式2030可用的本机指令因实施例而异。使用索引字段2013中的一组索引值来部分地压缩指令。执行单元硬件基于索引值来引用一组压缩表，并且使用压缩表输出来重构128位指令格式2010的本机指令。可以使用其他大小和格式的指令。

对于每种格式，指令操作码2012定义执行单元要执行的操作。执行单元跨每个操作数的多个数据元素并行地执行每个指令。例如，响应于添加指令，执行单元跨表示纹理元素或图片元素的每个颜色通道执行同时添加操作。默认情况下，执行单元跨操作数的所有数据通道执行每个指令。指令控制字段2014可以使得能够控制某些执行选项，例如，通道选择(例如，预测)和数据通道顺序(例如，调配)。对于128位指令格式2010的指令，exec-size字段2016限制将并行执行的数据通道的数量。exec-size字段2016可能不可用于64位压缩指令格式2030。

一些执行单元指令具有多达三个操作数，包括两个源操作数src0 2020、src12022和一个目的地2018。执行单元可以支持双目的地指令，其中隐含了目的地之一。数据操纵指令可以具有第三源操作数(例如，SRC2 2024)，其中指令操作码2012确定源操作数的数量。指令的最后一个源操作数可以是与指令一起传递的立即数(例如，硬编码)值。

128位指令格式2010可以包括访问/寻址模式字段2026，其指定例如是使用直接寄存器寻址模式还是间接寄存器寻址模式。当使用直接寄存器寻址模式时，一个或多个操作数的寄存器地址由指令中的位直接提供。

128位指令格式2010还可以包括访问/寻址模式字段2026，其指定用于指令的寻址模式和/或访问模式。访问模式可以用于定义用于指令的数据访问对齐。可以支持访问模式，包括16字节对齐的访问模式和1字节对齐的访问模式，其中访问模式的字节对齐确定指令操作数的访问对齐。例如，当处于第一模式时，指令可以将字节对齐的寻址用于源操作数和目的地操作数，并且当处于第二模式时，指令可以将16字节对齐的寻址用于所有的源操作数和目的地操作数。

访问/寻址模式字段2026的寻址模式部分可以确定该指令是使用直接寻址还是间接寻址。当使用直接寄存器寻址模式时，指令中的位直接提供一个或多个操作数的寄存器地址。当使用间接寄存器寻址模式时，可以基于指令中的地址寄存器值和地址立即数字段来计算一个或多个操作数的寄存器地址。

可以基于操作码2012位字段对指令进行分组以简化操作码解码2040。对于8位操作码，位4、5和6允许执行单元确定操作码的类型。所示的精确操作码分组仅是示例。移动和逻辑操作码组2042可以包括数据移动和逻辑指令(例如，移动(mov)、比较(cmp))。移动和逻辑组2042可以共享五个最高有效位(MSB)，其中移动(mov)指令是以0000xxxxb形式的，而逻辑指令是以0001xxxxb形式的。流控制指令组2044(例如，调用、跳转(jmp))包括以0010xxxxb形式(例如，0x20)的指令。杂项指令组2046包括指令的混合，包括以0011xxxxb形式(例如，0x30)的同步指令(例如，等待、发送)。并行数学指令组2048包括以0100xxxxb形式(例如，0x40)的按分量算术指令(例如，加、乘(mul))。并行数学组2048跨数据通道并行地执行算术运算。向量数学组2050包括以0101xxxxb形式(例如，0x50)的算术指令(例如，dp4)。向量数学组对向量操作数执行诸如点积计算之类的算术。在一个实施例中，所示的操作码解码2040可以用于确定执行单元的哪个部分将用于执行解码的指令。例如，一些指令可以被指定为将由脉动阵列执行的脉动指令。其他指令(例如，光线追踪指令(未示出))可以被路由到执行逻辑的切片或分区内的光线追踪核心或光线追踪逻辑。

图形流水线

图21是根据另一实施例的图形处理器2100的框图。图21中与本文任何其他附图的元件具有相同或相似名称的元件描述了与其他附图中相同的元件，可以以与其相似的方式操作或起作用，可以包括相同的组件，并且可以链接到其他实体，如本文别处描述的那些，但不限于此。

图形处理器2100可以包括不同类型的图形处理流水线，例如，几何流水线2120、媒体流水线2130、显示引擎2140、线程执行逻辑2150和渲染输出流水线2170。图形处理器2100可以是包括一个或多个通用处理核心的多核心处理系统内的图形处理器。图形处理器可以通过寄存器写入一个或多个控制寄存器(未示出)或通过经由环形互连2102向图形处理器2100发布的命令而被控制。环形互连2102可以将图形处理器2100耦合到其他处理组件，例如，其他图形处理器或通用处理器。来自环形互连2102的命令由命令流送器2103解释，命令流送器2103向几何流水线2120或媒体流水线2130的个体组件提供指令。

命令流送器2103可以指引顶点获取器2105的操作，顶点获取器2305从存储器读取顶点数据并且执行由命令流送器2103提供的顶点处理命令。顶点获取器2105可以将顶点数据提供给顶点着色器2107，顶点着色器2107对每个顶点执行坐标空间变换和照明操作。顶点获取器2105和顶点着色器2107可以通过经由线程分派器2131将执行线程分派给执行单元2152A-2152B来执行顶点处理指令。

执行单元2152A-2152B可以是向量处理器的阵列，其具有用于执行图形操作和媒体操作的指令集。执行单元2152A-2152B可以具有附接的L1高速缓存2151，其对于每个阵列是特定的或者在阵列之间共享。可以将高速缓存配置为数据高速缓存、指令高速缓存或被分区以在不同分区中包含数据和指令的单个高速缓存。

几何流水线2120可以包括曲面细分组件，以用于执行3D对象的硬件加速的曲面细分。可编程外壳着色器2111可以配置曲面细分操作。可编程域着色器2117可以提供对曲面细分输出的后端评估。曲面细分器2113可以在外壳着色器2111的方向处操作并且包含用于基于粗糙几何模型生成一组详细几何对象的专用逻辑，粗糙几何模型被提供作为对几何流水线2120的输入。另外，如果不使用曲面细分，则可以绕过曲面细分组件(例如，外壳着色器2111、曲面细分器2113和域着色器2117)。

完整的几何对象可以由几何着色器2119经由分派给执行单元2152A-2152B的一个或多个线程来处理，或者可以直接进行到剪辑器2129。几何着色器可以对整个几何对象进行操作，而不是如在图形流水线的先前阶段中对顶点或顶点的图像块进行操作。如果禁用曲面细分，则几何着色器2119接收来自顶点着色器2107的输入。几何着色器2119可以由几何着色器程序编程，以在曲面细分单元被禁用时执行几何曲面细分。

在光栅化之前，剪辑器2129处理顶点数据。剪辑器2129可以是具有剪辑功能和几何着色器功能的固定功能剪辑器或可编程剪辑器。渲染输出流水线2170中的光栅化器和深度测试组件2173可以分派像素着色器以将几何对象变换为其每像素表示。像素着色器逻辑可以包括在线程执行逻辑2150中。可选地，应用可以绕过光栅化器和深度测试组件2173并且经由流输出单元2123访问未光栅化的顶点数据。

图形处理器2100具有互连总线、互连结构或允许在处理器的主要组件之间进行数据和消息传递的某种其他互连机制。在一些实施例中，执行单元2152A-2152B和相关联的逻辑单元(例如，L1高速缓存2151、采样器2154、纹理高速缓存2158，等等)经由数据端口2156互连，以执行存储器访问并且与处理器的渲染输出流水线组件通信。采样器2154，高速缓存2151、2158和执行单元2152A-2152B可以各自具有单独的存储器访问路径。可选地，纹理高速缓存2158也可以被配置为采样器高速缓存。

渲染输出流水线2170可以包含光栅化器和深度测试组件2173，其将基于顶点的对象变换为相关联的基于像素的表示。光栅化器逻辑可以包括用于执行固定功能三角形和线光栅化的加窗器/掩蔽器单元。在一些实施例中，相关联的渲染高速缓存2178和深度高速缓存2179也是可用的。像素操作组件2177对数据执行基于像素的操作，但是在一些实例中，与2D操作相关联的像素操作(例如，利用混合的位块图像传送)由2D引擎2141执行，或者在显示时由显示控制器2143使用覆盖显示平面替代。共享L3高速缓存2175可以可用于所有图形组件，从而允许在不使用主系统存储器的情况下共享数据。

图形处理器媒体流水线2130可以包括媒体引擎2137和视频前端2134。视频前端2134可以接收来自命令流送器2103的流水线命令。媒体流水线2130可以包括单独的命令流送器。视频前端2134可以在将命令发送到媒体引擎2137之前处理媒体命令。媒体引擎2137可以包括线程产生功能，以用于产生线程以供经由线程分派器2131分派给线程执行逻辑2150。

图形处理器2100可以包括显示引擎2140。该显示引擎2140可以在处理器2100外部，并且可以经由环形互连2102或者某种其他互连总线或结构与图形处理器耦合。显示引擎2140可以包括2D引擎2141和显示控制器2143。显示引擎2140可以包含能够独立于3D流水线进行操作的专用逻辑。显示控制器2143可以与显示设备(未示出)耦合，该显示设备可以是系统集成的显示设备(如在膝上型计算机中)，或经由显示设备连接器附接的外部显示设备。

几何流水线2120和媒体流水线2130可以被配置为基于多个图形编程接口和媒体编程接口来执行操作，并且不特定于任何一个应用编程接口(API)。用于图形处理器的驱动程序软件可以将特定于特定图形库或媒体库的API调用转换为可以由图形处理器处理的命令。可以针对全部来自Khronos Group的开放图形库(OpenGL)、开放计算语言(OpenCL)和/或Vulkan图形和计算API提供支持。还可以针对来自微软公司的Direct3D库提供支持。可以支持这些库的组合。还可以针对开源计算机视觉库(OpenCV)提供支持。如果可以进行从具有兼容3D流水线的未来API的流水线到图形处理器的流水线的映射，则还将支持未来API。

图形流水线编程

图22A是示出用于对图形处理流水线(例如，本文结合图16A、图17、图21描述的流水线)进行编程的图形处理器命令格式2200的框图。图22B是示出根据实施例的图形处理器命令序列2210的框图。图22A中的实线框示出了在图形命令中通常包括的组件，而虚线包括可选的或仅在图形命令的子集中包括的组件。图22A的示例性图形处理器命令格式2200包括用于标识客户端2202、命令操作代码(操作码)2204以及用于命令的数据2206的数据字段。在一些命令中还包括子操作码2205和命令大小2208。

客户端2202可以指定处理命令数据的图形设备的客户端单元。图形处理器命令解析器可以检查每个命令的客户端字段，以调节对命令的进一步处理并将命令数据路由到适当的客户端单元。图形处理器客户端单元可以包括存储器接口单元、渲染单元、2D单元、3D单元和媒体单元。每个客户端单元可以具有处理命令的对应处理流水线。一旦命令被客户端单元接收，客户端单元就读取操作码2204，并且如果存在，则读取子操作码2205以确定要执行的操作。客户端单元使用数据字段2206中的信息来执行命令。对于一些命令，期望显式命令大小2208指定命令的大小。命令解析器可以基于命令操作码来自动地确定命令中的至少一些命令的大小。命令可以经由双字的倍数对齐。还可以使用其他命令格式。

图22B中的流程图示出了示例性图形处理器命令序列2210。以示例性图形处理器为特征的数据处理系统的软件或固件可以使用所示的命令序列的版本来设置、执行和终止一组图形操作。样本命令序列仅出于示例的目的示出并描述，并且不限于这些特定命令或该命令序列。此外，命令可以作为命令序列中的命令批而发布，使得图形处理器将至少部分地并发地处理命令序列。

图形处理器命令序列2210可以以流水线刷新命令2212开始，以使任何活动的图形流水线完成流水线的当前未决的命令。可选地，3D流水线2222和媒体流水线2224可以不并发地操作。执行流水线刷新以使活动的图形流水线完成任何未决的命令。响应于流水线刷新，图形处理器的命令解析器将暂停命令处理，直到活动的绘图引擎完成未决操作并且相关的读取高速缓存无效。可选地，渲染高速缓存中被标记为“脏”的任何数据都可以刷新到存储器。流水线刷新命令2212可以用于流水线同步或在将图形处理器置于低功率状态之前使用。

当命令序列要求图形处理器显式地在流水线之间切换时，可以使用流水线选择命令2213。在发布流水线命令之前，可以在执行上下文内仅要求一次流水线选择命令2213，除非上下文要发布用于两个流水线的命令。可以紧接在经由流水线选择命令2213进行流水线切换之前要求流水线刷新命令2212。

流水线控制命令2214可以配置图形流水线以用于操作，并且流水线控制命令2214可以用于对3D流水线2222和媒体流水线2224进行编程。流水线控制命令2214可以配置活动流水线的流水线状态。流水线控制命令2214可以用于流水线同步并且用于在处理命令批之前在活动的流水线内从一个或多个高速缓冲存储器清除数据。

返回缓冲器状态命令2216可以用于针对相应的流水线配置一组返回缓冲器以写入数据。一些流水线操作要求对操作在处理期间将中间数据写入的一个或多个返回缓冲器进行分配、选择或配置。图形处理器还可以使用一个或多个返回缓冲器来存储输出数据并执行跨线程通信。返回缓冲器状态2216可以包括选择要用于一组流水线操作的返回缓冲器的大小和数量。

命令序列中的其余命令基于用于操作的活动流水线而不同。基于流水线确定2220，命令序列被定制用于开始于3D流水线状态2230的3D流水线2222或开始于媒体流水线状态2240的媒体流水线2224。

用于配置3D流水线状态2230的命令包括用于顶点缓冲器状态、顶点元素状态、恒定颜色状态、深度缓冲器状态以及在处理3D基元命令之前要配置的其他状态变量的3D状态设置命令。这些命令的值至少部分地基于使用的特定3D API来确定。如果将不使用某些流水线元素，则3D流水线状态2230命令也能够选择性地禁用或绕过这些元素。

3D基元2232命令可以用于提交要由3D流水线处理的3D基元。经由3D基元2232命令传递到图形处理器的命令和相关联的参数被转发到图形流水线中的顶点获取功能。顶点获取功能使用3D基元2232命令数据来生成顶点数据结构。顶点数据结构存储在一个或多个返回缓冲器中。3D基元2232命令可以用于经由顶点着色器对3D基元执行顶点操作。为了处理顶点着色器，3D流水线2222将着色器执行线程分派给图形处理器执行单元。

可以经由执行2234命令或事件来触发3D流水线2222。寄存器可以写入触发命令执行。可以经由命令序列中的“go”或“kick”命令触发执行。可以使用流水线同步命令触发命令执行，以刷新命令序列通过图形流水线。3D流水线将执行针对3D基元的几何处理。一旦操作完成，产生的几何对象被光栅化，并且像素引擎对产生的像素进行上色。对于这些操作还可以包括用于控制像素着色和像素后端操作的附加命令。

图形处理器命令序列2210可以在执行媒体操作时遵循媒体流水线2224路径。通常，媒体流水线2224的特定用途和编程方式取决于要执行的媒体操作或计算操作。在媒体解码期间，可以将特定媒体解码操作卸载到媒体流水线。还可以绕过媒体流水线，并且可以使用由一个或多个通用处理核心提供的资源来全部地或部分地执行媒体解码。媒体流水线还可以包括用于通用图形处理器单元(GPGPU)操作的元件，其中图形处理器用于使用与对图形基元的渲染不显式地相关的计算着色器程序来执行SIMD向量操作。

在一些实施例中，媒体流水线2224可以以与3D流水线2222类似的方式配置。用于配置媒体流水线状态2240的一组命令在媒体对象命令2242之前被分派或放入命令队列中。用于媒体流水线状态2240的命令可以包括用于配置将被用于处理媒体对象的媒体流水线元素的数据。这包括用于在媒体流水线内配置视频解码逻辑和视频编码逻辑的数据，例如，编码格式或解码格式。用于媒体流水线状态2240的命令还可以支持使用指向包含一批状态设置的“间接”状态元素的一个或多个指针。

媒体对象命令2242可以提供指向用于由媒体流水线处理的媒体对象的指针。媒体对象包括包含要处理的视频数据的存储器缓冲器。可选地，在发布媒体对象命令2242之前，所有媒体流水线状态必须是有效的。一旦流水线状态被配置并且媒体对象命令2242被排队，则经由执行命令2244或等效执行事件(例如，寄存器写入)触发媒体流水线2224。然后，可以通过由3D流水线2222或媒体流水线2224提供的操作对来自媒体流水线2224的输出进行后处理。可以以与媒体操作类似的方式来配置和执行GPGPU操作。

图形软件架构

图23示出了用于数据处理系统2300的示例性图形软件架构。这种软件架构可以包括3D图形应用2310、操作系统2320和至少一个处理器2330。处理器2330可以包括图形处理器2332和一个或多个通用处理器核心2334。处理器2330可以是处理器1402或本文描述的处理器中的任何其他处理器的变型。处理器2330可以代替处理器1402或本文描述的处理器中的任何其他处理器来使用。因此，结合处理器1402或本文描述的处理器中的任何其他处理器的任何特征的公开也公开了与图形处理器2330的对应组合，但不限于此。此外，图23中与本文任何其他附图的元件具有相同或相似名称的元件描述了与其他附图中相同的元件，可以以与其相似的方式操作或起作用，可以包括相同的组件，并且可以链接到其他实体，如本文别处描述的那些，但不限于此。图形应用2310和操作系统2320各自在数据处理系统的系统存储器2350中执行。

3D图形应用2310可以包含一个或多个着色器程序，该一个或多个着色器程序包括着色器指令2312。着色器语言指令可以以高级着色器语言的形式，例如，Direct3D的高级着色器语言(HLSL)、OpenGL着色器语言(GLSL)，等等。该应用还包括以适用于由通用处理器核心2334执行的机器语言形式的可执行指令2314。该应用还可以包括由顶点数据定义的图形对象2316。

操作系统2320可以是来自微软公司的

操作系统，使用Linux内核的变型的专有类UNIX操作系统或开源类UNIX操作系统。操作系统2320可以支持图形API 2322，例如，Direct3D API、OpenGL API或Vulkan API。当使用Direct3D API时，操作系统2320使用前端着色器编译器2324将以HLSL形式的任何着色器指令2312编译成较低级别的着色器语言。编译可以是即时(JIT)编译，或者应用可以执行着色器预编译。高级别着色器可以是在对3D图形应用2310进行编译期间编译成低级别着色器的。着色器指令2312可以以中间形式提供，例如，Vulkan API使用的标准便携式中间表示(SPIR)的版本。

用户模式图形驱动程序2326可以包含后端着色器编译器2327，以用于将着色器指令2312变换为硬件特定表示。当使用OpenGL API时，以GLSL高级语言形式的着色器指令2312被传递到用户模式图形驱动程序2326以进行编译。用户模式图形驱动程序2326可以使用操作系统内核模式功能2328来与内核模式图形驱动程序2329通信。内核模式图形驱动程序2329可以与图形处理器2332通信以分派命令和指令。

IP核心实现方式

可以通过存储在机器可读介质上的代表性代码来实现一个或多个方面，该代表性代码表示和/或定义诸如处理器之类的集成电路内的逻辑。例如，机器可读介质可以包括表示处理器内的各种逻辑的指令。当由机器读取时，指令可以使机器制造用于执行本文描述的技术的逻辑。这种被称为“IP核心”的表示是用于集成电路的可重用的逻辑单元，其可以存储在有形的机器可读介质上，作为描述集成电路的结构的硬件模型。可以将硬件模型提供给各种客户或制造设施，这些客户或制造设施将硬件模型加载到制造集成电路的制造机器上。可以制造集成电路，使得电路执行与本文描述的实施例中的任何实施例相关联地描述的操作。

图24A是示出根据实施例的可以用于制造用于执行操作的集成电路的IP核心开发系统2400的框图。IP核心开发系统2400可以用于生成模块化、可重用的设计，其可以并入更大的设计中或用于构建整个集成电路(例如，SOC集成电路)。设计设施2430可以以高级编程语言(例如，C/C++)生成IP核心设计的软件仿真2410。软件仿真2410可以用于使用仿真模型2412来设计、测试和验证IP核心的行为。仿真模型2412可以包括功能仿真、行为仿真和/或定时仿真。然后可以根据仿真模型2412创建或合成寄存器传输级(RTL)设计2415。RTL设计2415是对数字信号在硬件寄存器(包括使用建模的数字信号执行的相关联的逻辑)之间的流动进行建模的集成电路的行为的抽象。除了RTL设计2415之外，还可以创建、设计或合成逻辑级或晶体管级的较低级别设计。因此，初始设计和仿真的特定细节可以变化。

RTL设计2415或等效物可以由设计设施进一步合成为硬件模型2420，硬件模型2420可以以硬件描述语言(HDL)或物理设计数据的某种其他表示的形式。可以进一步仿真或测试HDL以验证IP核心设计。可以存储IP核心设计以使用非易失性存储器2440(例如，硬盘、闪速存储器或任何非易失性存储介质)递送到第三方制造设施2465。可替代地，可以通过有线连接2450或无线连接2460(例如，经由互联网)传输IP核心设计。然后，制造设施2465可以制造至少部分地基于IP核心设计的集成电路。制造的集成电路可以被配置为执行根据本文描述的至少一个实施例的操作。

图24B示出了集成电路封装组装件2470的横截面侧视图。集成电路封装组装件2470示出了如本文描述的一个或多个处理器或加速器设备的实现方式。封装组装件2470包括连接到衬底2480的硬件逻辑2472、2474的多个单元。逻辑2472、2474可以至少部分地以可配置逻辑或固定功能逻辑硬件来实现，并且可以包括(多个)处理器核心、(多个)图形处理器或本文描述的其他加速器设备中的任一个的一个或多个部分。每个逻辑2472、2474的单元可以在半导体管芯内实现，并且经由互连结构2473与衬底2480耦合。互连结构2473可以被配置为在逻辑2472、2474与衬底2480之间路由电信号，并且可以包括互连(例如但不限于凸块或柱)。互连结构2473可以被配置为路由电信号，例如，与逻辑2472、2474的操作相关联的输入/输出(I/O)信号和/或电源或接地信号。可选地，衬底2480可以是环氧基层压衬底。衬底2480还可以包括其他合适类型的衬底。封装组装件2470可以经由封装互连2483连接到其他电气设备。封装互连2483可以耦合到衬底2480的表面以将电信号路由到其他电气设备，例如，主板、其他芯片组或多芯片模块。

逻辑2472、2474的单元可以与被配置为在逻辑2472、2474之间路由电信号的桥接器2482电耦合。桥接器2482可以是为电信号提供路由的密集互连结构。桥接器2482可以包括由玻璃或合适的半导体材料构成的桥接器衬底。电路由特征可以在桥接器衬底上形成以提供逻辑2472、2474之间的芯片到芯片连接。

虽然示出了两个逻辑2472、2474的单元和桥接器2482，但是本文描述的实施例可以在一个或多个管芯上包括更多或更少的逻辑单元。一个或多个管芯可以通过零个或多个桥接器连接，因为当逻辑包含于单个管芯上时可以排除桥接器2482。可替代地，多个管芯或逻辑单元可以通过一个或多个桥接器连接。另外，多个逻辑单元、管芯和桥接器可以以其他可能的配置连接在一起，包括三维配置。

图24C示出了封装组装件2490，其包括连接到衬底2480(例如，基础管芯)的硬件逻辑小芯片的多个单元。如本文描述的图形处理单元、并行处理器和/或计算加速器可以由单独制造的各种硅小芯片组成。在该上下文中，小芯片是至少部分封装的集成电路，其包括可以与其他小芯片组装成更大封装的不同逻辑单元。可以将具有不同IP核心逻辑的不同小芯片组组装到单个设备中。此外，可以使用活动中介层技术将小芯片集成到基础管芯或基础小芯片中。本文描述的概念实现了在GPU内不同形式的IP之间的互连和通信。IP核心可以使用不同的工艺技术制造并在制造过程中进行组合，这避免了将多个IP融合到同一制造工艺中的复杂性，尤其是在具有若干风格IP的大型SoC上。实现使用多种工艺技术改进上市时间，并且提供成本高效的方式来创建多个产品SKU。此外，分解的IP更易于独立进行电源门控，可以关闭未在给定工作负载上使用的组件，从而降低整体功耗。

硬件逻辑小芯片可以包括专用硬件逻辑小芯片2472、逻辑或I/O小芯片2474和/或存储器小芯片2475。硬件逻辑小芯片2472和逻辑或I/O小芯片2474可以至少部分地以可配置逻辑或固定功能逻辑硬件实现，并且可以包括(多个)处理器核心、(多个)图形处理器、并行处理器或本文描述的其他加速器设备中的任一个的一个或多个部分。存储器小芯片2475可以是DRAM(例如，GDDR、HBM)存储器或高速缓冲(SRAM)存储器。

每个小芯片可以被制造为单独的半导体管芯，并且经由互连结构2473与衬底2480耦合。互连结构2473可以被配置为在衬底2480内的各种小芯片与逻辑之间路由电信号。互连结构2473可以包括互连，例如但不限于凸块或柱。在一些实施例中，互连结构2473可以被配置为路由电信号，例如，与逻辑、I/O和存储器小芯片的操作相关联的输入/输出(I/O)信号和/或电源或接地信号。

衬底2480可以是环氧基层压衬底，然而，不限于此，并且衬底2480还可以包括其他合适类型的衬底。封装组装件2490可以经由封装互连2483连接到其他电气设备。封装互连2483可以耦合到衬底2480的表面以将电信号路由到其他电气设备，例如，主板、其他芯片组或多芯片模块。

逻辑或I/O小芯片2474和存储器小芯片2475可以经由桥接器2487电耦合，该桥接器2487被配置为在逻辑或I/O小芯片2474与存储器小芯片2475之间路由电信号。桥接器2487可以是为电信号提供路由的密集互连结构。桥接器2487可以包括由玻璃或合适的半导体材料构成的桥接器衬底。电路由特征可以形成在桥接器衬底上，以提供逻辑或I/O小芯片2474与存储器小芯片2475之间的芯片到芯片连接。桥接器2487也可以称为硅桥接器或互连桥接器。例如，桥接器2487是嵌入式多管芯互连桥接器(EMIB)。可替代地，桥接器2487可以简单地是从一个小芯片到另一小芯片的直接连接。

衬底2480可以包括用于I/O 2491、高速缓冲存储器2492和其他硬件逻辑2493的硬件组件。结构2485可以嵌入衬底2480中以实现在衬底2480内的各种逻辑小芯片与逻辑2491、2493之间的通信。可选地，I/O 2491、结构2485、高速缓存、桥接器和其他硬件逻辑2493可以集成到层叠在衬底2480顶部的基础管芯中。结构2485可以是片上网络互连或在封装组装件的组件之间交换数据分组的另一形式的分组交换结构。

此外，封装组装件2490还可以包括通过结构2485或一个或多个桥接器2487互连的更少或更多数量的组件和小芯片。在封装组装件2490内的小芯片可以在3D或2.5D布置中布置。通常，桥接器结构2487可以用于促进在例如逻辑或I/O小芯片与存储器小芯片之间的点对点互连。结构2485可以用于互连各种逻辑和/或I/O小芯片(例如，小芯片2472、2474、2491、2493)与其他逻辑和/或I/O小芯片。衬底内的高速缓冲存储器2492可以用作封装组装件2490的全局高速缓存、分布式全局高速缓存的一部分，或作为结构2485的专用高速缓存。

图24D示出了根据实施例的包括可互换小芯片2495的封装组装件2494。可互换小芯片2495可以组装到一个或多个基础小芯片2496、2498上的标准化插槽中。基础小芯片2496、2498可以经由桥接器互连2497耦合，该桥接器互连2497可以类似于本文描述的其他桥接器互连，并且可以是例如EMIB。存储器小芯片也可以经由桥接器互连连接到逻辑或I/O小芯片。I/O和逻辑小芯片可以经由互连结构进行通信。基础小芯片可以各自支持用于逻辑或I/O或存储器/高速缓存之一的标准化格式的一个或多个插槽。

SRAM和电力输送电路可以制造到基础小芯片2496、2498中的一个或多个中，这些基础小芯片2496、2498可以使用相对于堆叠在基础小芯片顶部的可互换小芯片2495不同的工艺技术来制造。例如，基础小芯片2496、2498可以使用较大的工艺技术来制造，而可互换小芯片可以使用较小的工艺技术来制造。可互换小芯片2495中的一个或多个可以是存储器(例如，DRAM)小芯片。可以基于针对使用封装组装件2494的产品的功率和/或性能为封装组装件2494选择不同的存储器密度。此外，可以基于产品的功率和/或性能，在组装时选择具有不同数量类型的功能单元的逻辑小芯片。此外，可以将包含不同类型的IP逻辑核心的小芯片插入可互换小芯片插槽，从而实现可以混合和匹配不同技术IP块的混合处理器设计。

示例性片上系统集成电路

图25-26示出了可以使用一个或多个IP核心制造的示例性集成电路和相关联的图形处理器。除了所示的内容之外，可以包括其他逻辑和电路，包括附加的图形处理器/核心、外围接口控制器或通用处理器核心。图25-26中与本文任何其他附图的元件具有相同或相似名称的元件描述了与其他附图中相同的元件，可以以与其相似的方式操作或起作用，可以包括相同的组件，并且可以链接到其他实体，如本文别处描述的那些，但不限于此。

图25是示出可以使用一个或多个IP核心制造的示例性片上系统集成电路2500的框图。示例性集成电路2500包括一个或多个应用处理器2505(例如，CPU)、至少一个图形处理器2510，图形处理器2510可以是图形处理器1408、1508、2510或本文描述的任何图形处理器的变型，并且可以代替所描述的任何图形处理器来使用。因此，本文中结合图形处理器的任何特征的公开也公开了与图形处理器2510的对应组合，但不限于此。集成电路2500可以另外包括图像处理器2515和/或视频处理器2520，其中任何一个可以是来自相同或多个不同设计设施的模块化IP核心。集成电路2500可以包括外围逻辑或总线逻辑，包括USB控制器2525、UART控制器2530、SPI/SDIO控制器2535和I²S/I²C控制器2540。另外，集成电路可以包括显示设备2545，其耦合到高清晰度多媒体接口(HDMI)控制器2550和移动工业处理器接口(MIPI)显示接口2555中的一个或多个。存储可以由包括闪速存储器和闪速存储器控制器的闪速存储器子系统2560提供。可以经由存储器控制器2565提供存储器接口，以用于访问SDRAM存储器设备或SRAM存储器设备。一些集成电路另外包括嵌入式安全引擎2570。

图26A-26B是示出根据本文描述的实施例的用于在SoC内使用的示例性图形处理器的框图。图形处理器可以是图形处理器1408、1508、2510或本文描述的任何其他图形处理器的变型。图形处理器可以代替图形处理器1408、1508、2510或本文描述的图形处理器中的任何其他图形处理器来使用。因此，本文中结合图形处理器1408、1508、2510或本文描述的图形处理器中的任何其他图形处理器的任何特征的公开也公开了与图26A-26B的图形处理器的对应组合，但不限于此。图26A示出了根据实施例的可以使用一个或多个IP核心制造的片上系统集成电路的示例性图形处理器2610。图26B示出了根据实施例的可以使用一个或多个IP核心制造的片上系统集成电路的附加示例性图形处理器2640。图26A的图形处理器2610是低功率图形处理器核心的示例。图26B的图形处理器2640是较高性能图形处理器核心的示例。例如，图形处理器2610、2640中的每一个可以是图25的图形处理器2510的变型，如本段开头所提到的。

如图26A所示，图形处理器2610包括顶点处理器2605和一个或多个片段处理器2615A-2615N(例如，2615A、2615B、2615C、2615D至2615N-1和2615N)。图形处理器2610可以经由单独的逻辑执行不同的着色器程序，使得顶点处理器2605被优化以执行用于顶点着色器程序的操作，而一个或多个片段处理器2615A-2615N执行用于片段着色器程序或像素着色器程序的片段(例如，像素)着色操作。顶点处理器2605执行3D图形流水线的顶点处理阶段，并且生成基元和顶点数据。(多个)片段处理器2615A-2615N使用由顶点处理器2605生成的基元和顶点数据来产生在显示设备上显示的帧缓冲器。(多个)片段处理器2615A-2615N可以被优化以执行如OpenGL API中提供的片段着色器程序，该片段着色器程序可以用于执行与如Direct3D API中提供的像素着色器程序类似的操作。

图形处理器2610另外包括一个或多个存储器管理单元(MMU)2620A-2620B、(多个)高速缓存2625A-2625B和(多个)电路互连2630A-2630B。一个或多个MMU 2620A-2620B为图形处理器2610(包括为顶点处理器2605和/或(多个)片段处理器2615A-2615N)提供虚拟到物理地址映射，除了存储在一个或多个高速缓存2625A-2625B中的顶点或图像/纹理数据之外，其可以参考存储在存储器中的顶点或图像/纹理数据。一个或多个MMU 2620A-2620B可以与系统内的其他MMU同步，包括与图25的一个或多个应用处理器2505、图像处理器2515和/或视频处理器2520相关联的一个或多个MMU，使得每个处理器2505-2520都可以参与共享或统一的虚拟存储器系统。图形处理器2610的组件可以对应于本文描述的其他图形处理器的组件。一个或多个MMU 2620A-2620B可以对应于图2C的MMU 245。顶点处理器2605和片段处理器2615A-2615N可以对应于图形多处理器234。根据实施例，一个或多个电路互连2630A-2630B使得图形处理器2610能够经由SoC的内部总线或经由直接连接与SoC内的其他IP核心相接合。一个或多个电路互连2630A-2630B可以对应于图2C的数据交叉开关240。可以在图形处理器2610的类似组件与本文描述的各种图形处理器架构之间找到进一步的对应关系。

如图26B所示，图形处理器2640包括图26A的图形处理器2610中的一个或多个MMU2620A-2620B、(多个)高速缓存2625A-2625B和(多个)电路互连2630A-2630B。图形处理器2640包括一个或多个着色器核心2655A-2655N(例如，2655A、2655B、2655C、2655D、2655E、2655F至2655N-1和2655N)，其提供统一的着色器核心架构，其中单个核心或核心类型可以执行所有类型的可编程着色器代码，包括用于实现顶点着色器、片段着色器和/或计算着色器的着色器程序代码。存在的着色器核心的确切数量可以在实施例和实现方式之间变化。另外，图形处理器2640包括核心间任务管理器2645和图块拼接单元2658，核心间任务管理器2645充当线程分派器以将执行线程分派给一个或多个着色器核心2655A-2655N，图块拼接单元2658用于加速图块拼接操作以用于基于图块的渲染，其中场景的渲染操作在图像空间中被细分，例如，用于利用场景内的局部空间一致性或优化内部高速缓存的使用。着色器核心2655A-2655N可以对应于例如图2D中的图形多处理器234，或分别对应于图3A和图3B的图形多处理器325、350，或对应于图3C的多核心组365A。

具有用于混合浮点数据类型的点积累加指令的图形处理器

计算机使用数字的(二进制)科学表示，其在计算机科学中称为浮点。在科学记数法中，数字被表示为称为尾数的有理数后面跟随该尾数与基数的某个指数次幂的乘积。计算机的浮点数格式通常包括binary32(或FP32)和binary64(或FP64)。数字指代用于表示数字的数位的总量，其中大多数数位被分配给尾数，因为这样提供更高的精度。

本设计包括通用DP2A指令以使用bfloat(BF16)格式执行点积。这对于不支持类似矩阵乘法的结构的产品很有用。

bfloat16格式是32位IEEE 754单精度浮点格式的截断的16位版本，其保留8个指数位，但将有效数的精度从24位降低到8位以节省存储器、带宽和处理资源，同时仍保持相同的范围。bfloat16格式主要是为机器学习和近传感器计算应用设计的，其中需要在0附近的精度，但在最大范围处不需要那么高的精度。

用于BFI6数据类型的DP2A指令

本发明的实施例包括通用点积累加(dp2a)指令，其被提供以使用bfloat16(BF16)格式执行点积。BF16是半精度浮点数格式(FP16)与单精度浮点数格式(FP32)之间的交叉。BF16与FP16一样具有16位，但与FP32具有相同数量的指数位。这使得在BF16与FP32之间的转换变得简单，除了关于非规范化数字的一些边缘情况。每个数字具有1个符号位。

BF16在1附近的精度比其他格式低得多。与具有相同16位的FP16相比，BF16具有大的范围指数。

在一个实施例中，提供通用dp2a指令以使用BF16格式执行点积。以下指令将是处理资源的操作的一部分(例如，FPU操作的常规部分)。

目的地(输出2722)＝源0操作数FP32+(源1操作数BF16)*(源2操作数BF16)+(源1操作数BF16)*(源2操作数BF16)

图27示出了根据一个实施例的用于在处理资源(例如，功能单元、FPU)中执行用于BF16格式的该dp2a指令的电路2700的框图。该指令将是常规FPU操作(不是脉动流水线)的一部分。

图2A的并行处理器200的处理集群214可以各自包括浮点单元264(FPU)。图2D的GPGPU核心262可以各自包括用于执行图形多处理器234的指令的浮点单元264(FPU)和/或整数算术逻辑单元(ALU)。图7的处理集群706A-706H可以各自包括浮点单元264(FPU)。图18B中示出了一组SIMD浮点单元(FPU)1834。

GPGPU核心262可以包括能够对多组数据执行单个指令(例如，用于BF16格式的dp2a指令)的SIMD逻辑。可选地，GPGPU核心262可以物理地执行SIMD4、SIMD8和SIMD16指令，并且逻辑地执行SIMD1、SIMD2和SIMD32指令。

电路2700包括乘法器2710和2711(例如，BF16乘法器)，它们各自乘以输入操作数(例如，src1、src2)。累加器或加法器2720将第一操作数(src0)与来自乘法器2710和2711中的每一个的输出相加。累加器或加法器2720为目的地生成输出2722。对于SIMD的不同通道，电路2700可以被复制多次。

当设置模式能力时，BF16支持次正规(subnormal)运算。次正规数可以被刷新为零。

在另一实施例中，目的地(输出2722)和源0操作数可以是FP16、FP32或BF16浮点数格式。

处理资源表示与如本文描述的GPU中的图形处理器或图形处理器结构(例如，并行处理单元、图形处理引擎、多核心组、计算单元、下一图形核心的计算单元)相关联的处理元件(例如，GPGPU核心、光线追踪核心、张量核心、执行资源、执行单元(EU)、流处理器、流送多处理器(SM)、图形多处理器)。例如，处理资源可以是：具有FPU的GPGPU核心262，或图形多处理器234的张量/光线追踪核心263之一；图形多处理器325的光线追踪核心338A-338B、张量核心337A-337B或GPGPU核心336A-336B；图形多处理器350的执行资源356A-356D；多核心组365A-365N的GFX核心370、张量核心371或光线追踪核心372之一；计算单元1506A-1506N的向量逻辑单元1563或标量逻辑单元1564之一；带有EU阵列1522A-1522F或EU阵列1524A-1524F的执行单元；执行逻辑1800的执行单元1808A-1808N；和/或执行单元1900。处理资源还可以是例如在图形处理引擎431-432、处理集群706A-706H、GPGPU 806A-806D、GPGPU1306、图形处理引擎1610、图形处理引擎集群1622和/或图形处理引擎1710内的执行资源。处理资源还可以是在图形处理器2510、图形处理器2610和/或图形处理器2640内的处理资源。

在另一实施例中，提供通用dp2a指令以使用BF16格式执行点积。以下指令将是常规FPU操作的一部分。

目的地(输出2822)＝源0操作数FP32+(源1操作数BF16)*(源2操作数BF16)+(源1操作数BF16)*(源2操作数BF16)+(源1操作数BF16)*(源2操作数BF16)。

图28示出了根据另一实施例的用于在FPU中执行用于BF16格式的该dp2a指令的电路2800的框图。该指令将是常规FPU操作(不是脉动流水线)的一部分。当产品不支持类似大矩阵的结构时，该指令很有用。

电路2800包括乘法器2810、2811、2812(例如，BF16乘法器)，它们各自具有多个输入操作数(例如，srcl、src2或其他输入操作数)。累加器或加法器2820将第一操作数(src0)与来自乘法器2810、2811和2812中的每一个的输出相加。累加器或加法器2820为目的地生成输出2822。对于SIMD的不同通道，电路2800可以被复制多次。

电路2800可以被修改为具有附加的乘法器或更少的乘法器。

级联点积累加

电路2700或电路2800可以被复制，其中第一级的输出被提供作为第二级的输入。第二级的输出可以被提供作为第三级的输入，等等。

在一个实施例中，提供通用dp2a指令以使用BF16格式执行点积。以下指令将是常规FPU操作的一部分。

目的地(输出2922)＝源0操作数FP32+(源1操作数BF16)*(源2操作数BF16)+(源1操作数BF16)*(源2操作数BF16)

目的地(输出2962)＝输出2922操作数FP32+(源1操作数BF16)*(源2操作数BF16)+(源1操作数BF16)*(源2操作数BF16)

图29示出了根据一个实施例的用于在FPU中执行用于BF16格式的该dp2a指令的电路2900的框图。该指令将是常规FPU操作(不是脉动流水线)的一部分。

电路2900包括第一级和第二级，但也可以包括附加级。第一级2901包括乘法器2910和2911(例如，BF16乘法器)，它们各自具有多个输入操作数(例如，src1、src2)。第一级2901的累加器或加法器2920将第一操作数(src0)与来自乘法器2910和2911中的每一个的输出相加。累加器或加法器2920生成第一输出2922。

第二级2902包括乘法器2960和2961(例如，BF16乘法器)，它们各自具有多个输入操作数(例如，srcl、src2)。第二级2902的累加器或加法器2960将第一操作数(输出2922)与来自乘法器2960和2961中的每一个的输出相加。累加器或加法器2960为目的地或者可能跟随第二级的附加级N生成第二输出2962。

许多方法以其最基本的形式进行描述，但是可以在任何方法中添加或删除过程，并且可以从任何描述的消息中添加或减去信息，而不背离本实施例的基本范围。对本领域技术人员来说显而易见的是，可以进行许多进一步的修改和调整。提供特定实施例不是为了限制概念而是为了进行说明。实施例的范围不由上面提供的具体示例确定，而仅由所附权利要求确定。

如果提到元件“A”耦合到元件“B”或与元件“B”耦合，则元件A可以直接耦合到元件B或通过例如元件C间接耦合。当说明书或权利要求声明组件、特征、结构、过程或特性A“导致”组件、特征、结构、过程或特性B时，这意味着“A”至少是“B”的部分原因，但也可能存在帮助导致“B”的至少一个其他组件、特征、结构、过程或特性。如果说明书指出组件、特征、结构、过程或特性“可能”、“可以”或“可”被包含，则不一定要求包含该特定组件、特征、结构、过程或特性。如果说明书或权利要求提及“一(a)”或“一个(an)”元素，则这并不意味着只有一个所描述的元素。

实施例是实现方式或示例。说明书中对“实施例”、“一个实施例”、“一些实施例”或“其他实施例”的引用是指结合实施例描述的特定特征、结构或特性包含于至少一些实施例中，但不一定是所有实施例。“实施例”、“一个实施例”或“一些实施例”在各处出现时不一定都是指相同的实施例。应当理解，在示例性实施例的前述描述中，出于简化公开并帮助理解各种新颖方面中的一个或多个的目的，各种特征有时在单个实施例、图或其描述中组合在一起。然而，这种公开方法不应被解释为反映所要求保护的实施例要求比每项权利要求中明确叙述的特征更多的特征的意图。相反，如所附权利要求所反映的，新颖的方面在于少于单个前述公开的实施例的所有特征。因此，权利要求特此明确地并入本说明书中，其中每项权利要求作为单独的实施例独立存在。

一些实施例涉及示例1，示例1包括一种图形多处理器，该图形多处理器包括：用于分派指令的指令单元；以及与该指令单元耦合的处理资源。该处理资源被配置为接收来自指令单元的点积累加指令，并且使用bfloat16数字(BF16)格式处理点积累加指令。

示例2包括示例1的主题，其中，点积累加指令使得第一BF16乘法器和第二BF16乘法器各自将第二源操作数与第三源操作数相乘，同时累加器将第一源操作数与来自第一BF16乘法器和第二BF16乘法器中的每一个的输出相加。

示例3包括示例1-2中任一项的主题，其中，累加器生成用于目的地的输出。

示例4包括示例1-3中任一项的主题，其中，第一源操作数包括单精度浮点格式，而第二源操作数和第三源操作数包括BF16格式。

示例5包括示例1-4中任一项的主题，其中，第一源操作数和目的地是半精度浮点格式、单精度浮点格式或BF16格式。

示例6包括示例1-5中任一项的主题，其中，处理资源包括浮点单元(FPU)，以使用BF16格式执行点积累加指令。

示例7包括示例1-6中任一项的主题，其中，指令单元用于分派包括单指令多数据(SIMD)指令的指令。

一些实施例涉及示例8，示例8包括一种通用图形处理单元(GPGPU)核心，该通用图形处理单元(GPGPU)核心包括：用于单精度浮点运算的单精度浮点单元；以及用于半精度浮点运算的半精度浮点单元。该半精度浮点单元被配置为使用bfloat16(BF16)格式执行点积累加指令。

示例9包括示例8的主题，其中，点积累加指令使得第一BF16乘法器和第二BF16乘法器各自将第二源操作数与第三源操作数相乘，同时累加器将第一源操作数与来自第一BF16乘法器和第二BF16乘法器中的每一个的输出相加。

示例10包括示例8-9中任一项的主题，其中，累加器生成用于目的地的输出。

示例11包括示例8-10中任一项的主题，其中，第一源操作数包括单精度浮点格式，而第二源操作数和第三源操作数包括BF16格式。

示例12包括示例8-11中任一项的主题，其中，第一源操作数和目的地是半精度浮点格式、单精度浮点格式或BF16格式。

示例13包括示例8-12中任一项的主题，其中，点积累加指令使得第一级的第一BF16乘法器和第二BF16乘法器各自将第二源操作数与第三源操作数相乘，同时累加器将第一源操作数与来自第一BF16乘法器和第二BF16乘法器中的每一个的输出相加，以生成第一级的输出。

示例14包括示例8-12中任一项的主题，其中，用于具有N级乘法器和累加器的级联布置的点积累加指令使得第二级的第一BF16乘法器和第二BF16乘法器各自将第二源操作数与第三源操作数相乘，而累加器将来自第一级的输出与来自第二级的第一BF16乘法器和第二BF16乘法器中的每一个的输出相加。

示例15涉及一些实施例，包括一种并行处理单元，该并行处理单元包括：用于执行并行处理操作的第一处理集群；以及与第一处理集群耦合的第二处理集群。第一处理集群包括用于执行浮点运算的浮点单元。该浮点单元被配置为使用bfloat16(BF16)格式处理点积累加指令。

示例16包括示例15的主题，其中，点积累加指令使得第一BF16乘法器和第二BF16乘法器各自将第二源操作数与第三源操作数相乘，而累加器将第一源操作数与来自第一BF16乘法器和第二BF16乘法器中的每一个的输出相加。

示例17包括示例15-16中任一项的主题，其中，累加器生成用于目的地的输出。

示例18包括示例15-17中任一项的主题，其中，第一源操作数包括单精度浮点格式，而第二源操作数和第三源操作数包括BF16格式。

示例19包括示例15-18中任一项的主题，其中，第一源操作数和目的地是半精度浮点格式、单精度浮点格式或BF16格式。

示例20包括示例15-19中任一项的主题，其中，点积累加指令使得第一级的第一BF16乘法器和第二BF16乘法器各自将第二源操作数与第三源操作数相乘，而累加器将第一源操作数与来自第一BF16乘法器和第二BF16乘法器中的每一个的输出相加，其中用于具有N级乘法器和累加器的级联布置的点积累加指令使得第二级的第一BF16乘法器和第二BF16乘法器各自将第二源操作数与第三源操作数相乘，而累加器将来自第一级的输出与来自第二级的第一BF16乘法器和第二BF16乘法器中的每一个的输出相加。

示例21包括示例15-20中任一项的主题，其中，浮点单元包括具有N级BF16乘法器和累加器的级联布置。

示例22包括示例15-21中任一项的主题，其中，该N级包括：第一级的第一BF16乘法器和第二BF16乘法器用于各自将第二源操作数与第三源操作数相乘，并且累加器用于将第一源操作数与来自第一BF16乘法器和第二BF16乘法器中的每一个的输出相加，以生成第一级的输出；以及第二级的第一BF16乘法器和第二BF16乘法器用于各自将第二源操作数与第三源操作数相乘，并且累加器用于将来自第一级的输出与来自第二级的第一BF16乘法器和第二BF16乘法器中的每一个的输出相加。

前面的说明书和附图应被认为是说明性的而不是限制性的。本领域技术人员将理解，在不背离所附权利要求中阐述的本发明的更宽泛的精神和范围的情况下，可以对本文描述的实施例进行各种修改和改变。

Claims

1.一种图形多处理器，包括：

用于分派指令的指令单元；以及

与所述指令单元耦合的处理资源，所述处理资源被配置为接收来自所述指令单元的点积累加指令，并且使用bfloat16数字(BF16)格式处理所述点积累加指令。

2.根据权利要求1所述的图形多处理器，其中，所述点积累加指令使得第一BF16乘法器和第二BF16乘法器各自将第二源操作数与第三源操作数相乘，同时累加器将第一源操作数与来自所述第一BF16乘法器和所述第二BF16乘法器中的每一个的输出相加。

3.根据权利要求1所述的图形多处理器，其中，所述累加器生成用于目的地的输出。

4.根据权利要求2所述的图形多处理器，其中，所述第一源操作数包括单精度浮点格式，而所述第二源操作数和所述第三源操作数包括BF16格式。

5.根据权利要求2所述的图形多处理器，其中，所述第一源操作数和所述目的地是半精度浮点格式、单精度浮点格式或BF16格式。

6.根据权利要求1所述的图形多处理器，其中，所述处理资源包括浮点单元(FPU)，以使用所述BF16格式执行所述点积累加指令。

7.根据权利要求1所述的图形多处理器，其中，所述指令单元用于分派包括单指令多数据(SIMD)指令的指令。

8.一种通用图形处理单元(GPGPU)核心，包括：

用于单精度浮点运算的单精度浮点单元；以及

用于半精度浮点运算的半精度浮点单元，所述半精度浮点单元被配置为使用bfloat16(BF16)格式执行点积累加指令。

9.根据权利要求8所述的GPGPU核心，其中，所述点积累加指令使得第一BF16乘法器和第二BF16乘法器各自将第二源操作数与第三源操作数相乘，同时累加器将第一源操作数与来自所述第一BF16乘法器和所述第二BF16乘法器中的每一个的输出相加。

10.根据权利要求9所述的GPGPU核心，其中，所述累加器生成用于目的地的输出。

11.根据权利要求9所述的GPGPU核心，其中，所述第一源操作数包括单精度浮点格式，而所述第二源操作数和所述第三源操作数包括BF16格式。

12.根据权利要求9所述的GPGPU核心，其中，所述第一源操作数和所述目的地是半精度浮点格式、单精度浮点格式或BF16格式。

13.根据权利要求8所述的GPGPU核心，其中，所述点积累加指令使得第一级的第一BF16乘法器和第二BF16乘法器各自将第二源操作数与第三源操作数相乘，同时累加器将第一源操作数与来自所述第一BF16乘法器和所述第二BF16乘法器中的每一个的输出相加，以生成所述第一级的输出。

14.根据权利要求13所述的GPGPU核心，其中，用于具有N级乘法器和累加器的级联布置的所述点积累加指令使得第二级的第一BF16乘法器和第二BF16乘法器各自将第二源操作数与第三源操作数相乘，而累加器将来自所述第一级的输出与来自所述第二级的所述第一BF16乘法器和所述第二BF16乘法器中的每一个的输出相加。

15.一种并行处理单元，包括：

用于执行并行处理操作的第一处理集群；以及

与所述第一处理集群耦合的第二处理集群，其中，所述第一处理集群包括用于执行浮点运算的浮点单元，所述浮点单元被配置为使用bfloat16(BF16)格式处理点积累加指令。

16.根据权利要求15所述的并行处理单元，其中，所述点积累加指令使得第一BF16乘法器和第二BF16乘法器各自将第二源操作数与第三源操作数相乘，而累加器将第一源操作数与来自所述第一BF16乘法器和所述第二BF16乘法器中的每一个的输出相加。

17.根据权利要求16所述的并行处理单元，其中，所述累加器生成用于目的地的输出。

18.根据权利要求16所述的并行处理单元，其中，所述第一源操作数包括单精度浮点格式，而所述第二源操作数和所述第三源操作数包括BF16格式。

19.根据权利要求16所述的并行处理单元，其中，所述第一源操作数和所述目的地是半精度浮点格式、单精度浮点格式或BF16格式。

20.根据权利要求15所述的并行处理单元，其中，所述点积累加指令使得第一级的第一BF16乘法器和第二BF16乘法器各自将第二源操作数与第三源操作数相乘，而累加器将第一源操作数与来自所述第一BF16乘法器和所述第二BF16乘法器中的每一个的输出相加，其中，用于具有N级乘法器和累加器的级联布置的所述点积累加指令使得第二级的第一BF16乘法器和第二BF16乘法器各自将第二源操作数与第三源操作数相乘，而累加器将来自所述第一级的输出与来自所述第二级的所述第一BF16乘法器和所述第二BF16乘法器中的每一个的输出相加。

21.根据权利要求15所述的并行处理单元，其中，所述浮点单元包括具有N级BF16乘法器和累加器的级联布置。

22.根据权利要求21所述的并行处理单元，其中，所述N级包括：

第一级的第一BF16乘法器和第二BF16乘法器用于各自将第二源操作数与第三源操作数相乘，并且累加器用于将第一源操作数与来自所述第一BF16乘法器和所述第二BF16乘法器中的每一个的输出相加，以生成所述第一级的输出；以及

第二级的第一BF16乘法器和第二BF16乘法器用于各自将第二源操作数与第三源操作数相乘，并且累加器用于将来自所述第一级的输出与来自所述第二级的所述第一BF16乘法器和所述第二BF16乘法器中的每一个的输出相加。