CN113424169A

CN113424169A - 用于临时缓冲的片上密集存储器

Info

Publication number: CN113424169A
Application number: CN202080014421.3A
Authority: CN
Inventors: V·乔治; A·科克; A·阿南塔拉曼; S·马伊尤兰; S·金; V·安德烈; E·乌尔德-艾哈迈德-瓦勒; J·雷; A·R·阿普; N·C·加洛坡冯伯里斯; P·苏提; M·麦克弗森
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2019-03-15
Filing date: 2020-02-24
Publication date: 2021-09-21
Also published as: WO2020190456A1; US20200294182A1; EP3938922A1

Abstract

公开了一种包括具有用于临时缓冲的片上密集存储器的通用图形处理单元的装置。在一个实施例中，一种图形多处理器包括：多个计算引擎，其用于执行第一计算以生成第一组数据；高速缓存，其用于存储数据；以及高密度存储器，其与多个计算引擎和高速缓存一起在片上集成。该高密度存储器用于接收第一组数据，临时地存储第一组数据，并且在第一时间段期间将第一组数据提供给高速缓存，该第一时间段在多个计算引擎将使用第一组数据进行第二计算的第二时间段之前。

Description

用于临时缓冲的片上密集存储器

相关申请

本申请要求于2019年3月15日提交的美国申请第16/355,573号的权益，其全部内容由此通过引用并入本文。

技术领域

实施例总体上涉及数据处理，并且更具体地涉及经由具有片上密集存储器的通用图形处理单元的数据处理。

背景技术

当前的并行图形数据处理包括开发用于对图形数据执行诸如线性插值、曲面细分、光栅化、纹理映射、深度测试等之类的特定操作的系统和方法。传统上，图形处理器使用固定功能计算单元来处理图形数据；然而，最近，图形处理器的部分已经变得可编程，使得这些处理器能够支持更多种操作来处理顶点和片段数据。

为了进一步提高性能，图形处理器典型地实现诸如流水线化之类的处理技术，流水线化尝试在图形流水线的不同部分中并行地处理尽可能多的图形数据。具有单指令、多线程(SIMT)架构的并行图形处理器被设计用于使图形流水线中的并行处理量最大化。在SIMT架构中，并行线程组尝试尽可能频繁地同步地一起执行程序指令，以提高处理效率。可以在Shane Cook的CUDA Programming第3章第37-51页(2013)中找到对SIMT架构的软件和硬件的总体概述。

附图说明

为了使得能够详细理解本实施例的上述特征，可以通过参考实施例对以上简要概括的实施例进行更具体的描述，其中一些实施例在附图中示出。然而，应当注意，附图仅示出典型实施例并且因此不应被认为是对其范围的限制；

图1是示出被配置为实现本文描述的实施例的一个或多个方面的计算机系统的框图；

图2A-2D示出了根据实施例的并行处理器组件；

图3A-3C是根据实施例的图形多处理器和基于多处理器的GPU的框图；

图4A-4F示出了其中多个GPU通信地耦合到多个多核心处理器的示例性架构；

图5示出了根据实施例的图形处理流水线；

图6示出了根据实施例的机器学习软件栈；

图7示出了根据实施例的通用图形处理单元；

图8示出了根据实施例的多GPU计算系统；

图9A-9B示出了示例性深度神经网络的层；

图10示出了示例性递归神经网络；

图11示出了深度神经网络的训练和部署；

图12是示出分布式学习的框图；

图13示出了适用于使用经训练的模型执行推断的示例性推断片上系统(SOC)；

图14A和图14B示出了根据一个实施例的与图形处理单元、图形多处理器、图形处理器或片上系统一起在片上的HDSM。

图15示出了根据一个实施例的与图形处理单元、图形多处理器、图形处理器或片上系统1400一起在片上的栈(例如，LIFO固定尺寸结构)。

图16A示出了根据一个实施例的包括在GPU小芯片上的堆叠式存储器结构的集成电路封装组装件。

图16B示出了根据一个实施例的包括在GPU小芯片上的堆叠式存储器结构的集成电路封装组装件。

图17A示出了根据一个实施例的通过将DRAM结构嵌入GPU 1700而创建的大型高速缓存。

图17B示出了跨GPU对存储器页进行碎片整理(de-fragmenting)/迁移以跨GPU平衡可用存储器的方法1750。

图18A是根据实施例的处理系统的框图；

图18B是根据实施例的处理器的框图；

图19是根据实施例的图形处理器的框图；

图20是根据一些实施例的图形处理器的图形处理引擎的框图；

图21是根据本文描述的一些实施例的图形处理器核心的硬件逻辑的框图；

图22A-22B示出了根据本文描述的实施例的包括在图形处理器核心中采用的处理元件阵列的线程执行逻辑；

图23是示出根据一些实施例的图形处理器指令格式的框图；

图24是根据另一实施例的图形处理器的框图；

图25A-25B示出了根据一些实施例的图形处理器命令格式和命令序列；

图26示出了根据一些实施例的用于数据处理系统的示例性图形软件架构；

图27A是示出根据实施例的IP核心开发系统的框图；

图27B示出了根据本文描述的一些实施例的集成电路封装组装件的横截面侧视图；

图28是示出根据实施例的示例性片上系统集成电路的框图；以及

图29A-29B是示出根据本文描述的实施例的在SoC内使用的示例性图形处理器的框图。

具体实施方式

在一些实施例中，图形处理单元(GPU)通信地耦合到主机/处理器核心以加速图形操作、机器学习操作、模式分析操作和各种通用GPU(GPGPU)功能。GPU可以通过总线或另一互连(例如，诸如PCIe或NVLink之类的高速互连)通信地耦合到主机处理器/核心。在其他实施例中，GPU可以集成在与核心相同的封装或芯片上，并且通过内部处理器总线/互连(即，在封装或芯片内部)通信地耦合到核心。无论GPU连接的方式如何，处理器核心都可以以包含在工作描述符中的命令/指令序列的形式将工作分配给GPU。然后，GPU使用专用电路/逻辑来高效地处理这些命令/指令。

在以下描述中，阐述了许多具体细节以提供更透彻的理解。然而，对于本领域技术人员来说显而易见的是，可以在没有这些具体细节中的一个或多个的情况下实践本文描述的实施例。在其他实例中，没有描述公知的特征以避免模糊本实施例的细节。

系统概述

图1是示出被配置为实现本文描述的实施例的一个或多个方面的计算系统100的框图。计算系统100包括处理子系统101，处理子系统101具有一个或多个处理器102和经由可以包括存储器中心105的互连路径通信的系统存储器104。存储器中心105可以是芯片组组件内的单独组件或可以集成在一个或多个处理器102内。存储器中心105经由通信链路106与I/O子系统111耦合。I/O子系统111包括可以使得计算系统100能够接收来自一个或多个输入设备108的输入的I/O中心107。另外，I/O中心107可以使得显示控制器能够向一个或多个显示设备110A提供输出，该显示控制器可以包括在一个或多个处理器102中。在一个实施例中，与I/O中心107耦合的一个或多个显示设备110A可以包括本地、内部或嵌入式显示设备。

在一个实施例中，处理子系统101包括经由总线或其他通信链路113耦合到存储器中心105的一个或多个并行处理器112。通信链路113可以是任何数量的基于标准的通信链路技术或协议之一，例如，但不限于快速PCI，或者可以是供应商特定的通信接口或通信结构。在一个实施例中，一个或多个并行处理器112形成计算上集中的并行或向量处理系统，其能够包括大量处理核心和/或处理集群，例如，多集成核心(MIC)处理器。在一个实施例中，一个或多个并行处理器112形成图形处理子系统，该图形处理子系统可以将像素输出到经由I/O中心107耦合的一个或多个显示设备110A之一。一个或多个并行处理器112还可以包括显示控制器和显示接口(未示出)，以实现与一个或多个显示设备110B的直接连接。

在I/O子系统111内，系统存储单元114可以连接到I/O中心107以便为计算系统100提供存储机制。I/O交换机116可用于提供接口机制以实现I/O中心107与以下其他组件之间的连接：例如，可以集成到平台中的网络适配器118和/或无线网络适配器119，以及可以经由一个或多个插接设备120添加的各种其他设备。网络适配器118可以是以太网适配器或另一有线网络适配器。无线网络适配器119可以包括Wi-Fi、蓝牙、近场通信(NFC)或包括一个或多个无线无线电的其他网络设备中的一个或多个。

计算系统100可以包括未明确示出的其他组件，包括USB或其他端口连接、光学存储驱动器、视频捕获设备等，也可以连接到I/O中心107。对图1中的各种组件进行互连的通信路径可以使用任何合适的协议来实现，例如，基于PCI(外围组件互连)的协议(例如，快速PCI)，或任何其他总线或点对点通信接口和/或(多个)协议(例如，NV-Link高速互连或本领域已知的互连协议)。

在一个实施例中，一个或多个并行处理器112包含针对图形和视频处理优化的电路(包括例如视频输出电路)，并且构成图形处理单元(GPU)。在另一实施例中，一个或多个并行处理器112包含针对通用处理优化的电路，同时保留底层计算架构，这将在本文中更详细地描述。在又一实施例中，计算系统100的组件可以与一个或多个其他系统元件集成在单个集成电路上。例如，一个或多个并行处理器112、存储器中心105、(多个)处理器102和I/O中心107可以集成到片上系统(SoC)集成电路中。可替代地，计算系统100的组件可以集成到单个封装中以形成系统级封装(SIP)配置。在一个实施例中，计算系统100的组件的至少一部分可以集成到多芯片模块(MCM)中，该多芯片模块(MCM)可以与其他多芯片模块互连到模块化计算系统中。

将认识到，本文示出的计算系统100是说明性的，并且可以进行变化和修改。可以根据需要修改连接拓扑，包括桥接器的数量和布置，处理器102的数量，以及并行处理器112的数量。例如，在一些实施例中，系统存储器104直接连接到(多个)处理器102而不是通过桥接器连接到处理器102，而其他设备经由存储器中心105和(多个)处理器102与系统存储器104通信。在其他替代拓扑结构中，(多个)并行处理器112连接到I/O中心107或直接连接到一个或多个处理器102之一，而不是连接到存储器中心105。在其他实施例中，I/O中心107和存储器中心105可以集成到单个芯片中。一些实施例可以包括经由多个插座附接的两组或更多组处理器102，其可以与(多个)并行处理器112的两个或更多个实例耦合。

本文示出的特定组件中的一些是可选的，并且可以不包括在计算系统100的所有实现方式中。例如，可以支持任何数量的插接卡或外围设备，或者可以消除一些组件。此外，一些架构可以对于与图1中所示的组件类似的组件使用不同的术语。例如，存储器中心105在一些架构中可以被称为北桥，而I/O中心107可以被称为南桥。

图2A示出了根据实施例的并行处理器200。并行处理器200的各种组件可以使用一个或多个集成电路设备来实现，例如，可编程处理器、专用集成电路(ASIC)或现场可编程门阵列(FPGA)。所示出的并行处理器200是根据实施例的图1中所示的一个或多个并行处理器112的变型。

在一个实施例中，并行处理器200包括并行处理单元202。并行处理单元包括I/O单元204，其实现与包括并行处理单元202的其他实例的其他设备通信。I/O单元204可以直接连接到其他设备。在一个实施例中，I/O单元204通过使用中心或交换机接口(例如，存储器中心105)与其他设备连接。存储器中心105与I/O单元204之间的连接形成通信链路113。在并行处理单元202内，I/O单元204与主机接口206和存储器交叉开关216连接，其中主机接口206接收针对执行处理操作的命令，并且存储器交叉开关216接收针对执行存储器操作的命令。

当主机接口206经由I/O单元204接收命令缓冲器时，主机接口206可以将用于执行这些命令的工作操作指引到前端208。在一个实施例中，前端208与调度器210耦合，调度器210被配置为将命令或其他工作项分发到处理集群阵列212。在一个实施例中，调度器210确保处理集群阵列212被正确配置并且在任务被分发到处理集群阵列212中的处理集群之前处于有效状态。在一个实施例中，调度器210经由在微控制器上执行的固件逻辑来实现。微控制器实现的调度器210可配置为以粗粒度和细粒度执行复杂的调度和工作分发操作，实现在处理阵列212上执行的线程的快速抢占和上下文切换。在一个实施例中，主机软件可以经由多个图形处理门铃之一证明工作负载用于在处理阵列212上调度。然后，工作负载可以由调度器微控制器内的调度器210逻辑自动地跨处理阵列212分发。

处理集群阵列212可以包括多达“N”个处理集群(例如，集群214A、集群214B到集群214N)。处理集群阵列212中的每个集群214A-214N可以执行大量并发线程。调度器210可以使用各种调度和/或工作分发算法将工作分配给处理集群阵列212中的集群214A-214N，这些算法可以根据针对每种类型的程序或计算产生的工作量而变化。调度可以由调度器210动态地处理，或者可以在编译被配置用于由处理集群阵列212执行的程序逻辑期间部分地由编译器逻辑辅助。在一个实施例中，处理集群阵列212中的不同集群214A-214N可以被分配用于处理不同类型的程序或用于执行不同类型的计算。

处理集群阵列212可以被配置为执行各种类型的并行处理操作。在一个实施例中，处理集群阵列212被配置为执行通用并行计算操作。例如，处理集群阵列212可以包括用于执行处理任务的逻辑，处理任务包括对视频和/或音频数据的过滤，执行建模操作(包括物理操作)，以及执行数据变换。

在一个实施例中，处理集群阵列212被配置为执行并行图形处理操作。在并行处理器200被配置为执行图形处理操作的实施例中，处理集群阵列212可以包括用于支持执行这种图形处理操作的附加逻辑，包括但不限于执行纹理操作的纹理采样逻辑，以及曲面细分逻辑和其他顶点处理逻辑。另外，处理集群阵列212可以被配置为执行与图形处理相关的着色器程序，例如但不限于顶点着色器、曲面细分着色器、几何着色器和像素着色器。并行处理单元202可以经由I/O单元204传送来自系统存储器的数据以用于处理。在处理期间，传送的数据可以在处理期间存储到片上存储器(例如，并行处理器存储器222)，然后写回系统存储器。

在一个实施例中，当并行处理单元202用于执行图形处理时，调度器210可以被配置为将处理工作负载划分为近似相等大小的任务，以更好地实现将图形处理操作分配给处理集群阵列212中的多个集群214A-214N。在一些实施例中，处理集群阵列212的部分可以被配置为执行不同类型的处理。例如，第一部分可以被配置为执行顶点着色和拓扑生成，第二部分可以被配置为执行曲面细分和几何着色，并且第三部分可以被配置为执行像素着色或其他屏幕空间操作，以产生渲染的图像以供显示。由集群214A-214N中的一个或多个产生的中间数据可以存储在缓冲器中，以允许中间数据在集群214A-214N之间传输以用于进一步处理。

在操作期间，处理集群阵列212可以接收要经由调度器210执行的处理任务，调度器210从前端208接收定义处理任务的命令。对于图形处理操作，处理任务可以包括要处理的以下数据的索引：例如，表面(图像块(patch))数据、基元(primitive)数据、顶点数据和/或像素数据，以及定义如何处理数据的状态参数和命令(例如，要执行什么程序)。调度器210可以被配置为获取与任务相对应的索引，或者可以从前端208接收索引。前端208可以被配置为确保处理集群阵列212被配置为在由传入命令缓冲器(例如，批缓冲器、推送缓冲器等)指定的工作负载启动之前处于有效状态。

并行处理单元202的一个或多个实例中的每一个可以与并行处理器存储器222耦合。并行处理器存储器222可以经由存储器交叉开关216访问，存储器交叉开关216可以接收来自处理集群阵列212以及I/O单元204的存储器请求。存储器交叉开关216可以经由存储器接口218访问并行处理器存储器222。存储器接口218可以包括多个分区单元(例如，分区单元220A、分区单元220B到分区单元220N)，多个分区单元可以各自耦合到并行处理器存储器222的一部分(例如，存储器单元)。在一个实现方式中，分区单元220A-220N的数量被配置为等于存储器单元的数量，使得第一分区单元220A具有对应的第一存储器单元224A，第二分区单元220B具有对应的存储器单元224B，并且第N分区单元220N具有对应的第N存储器单元224N。在其他实施例中，分区单元220A-220N的数量可以不等于存储器设备的数量。

在各种实施例中，存储器单元224A-224N可以包括各种类型的存储器设备，包括动态随机存取存储器(DRAM)或图形随机存取存储器，例如，同步图形随机存取存储器(SGRAM)，包括图形双倍数据速率(GDDR)存储器。在一个实施例中，存储器单元224A-224N还可以包括3D堆叠式存储器，包括但不限于高带宽存储器(HBM)。本领域技术人员将认识到，存储器单元224A-224N的具体实现方式可以变化，并且可以从各种常规设计之一进行选择。可以跨存储器单元224A-224N存储诸如帧缓冲器或纹理映射之类的渲染目标，从而允许分区单元220A-220N并行地写入每个渲染目标的部分以高效地使用并行处理器存储器222的可用带宽。在一些实施例中，可以排除并行处理器存储器222的本地实例，以支持利用系统存储器结合本地高速缓冲存储器的统一存储器设计。

在一个实施例中，处理集群阵列212中的集群214A-214N中的任何一个可以处理将被写入并行处理器存储器222内的存储器单元224A-224N中的任何一个的数据。存储器交叉开关216可以被配置为将每个集群214A-214N的输出传送到任何分区单元220A-220N或可以对输出执行附加的处理操作的另一集群214A-214N。每个集群214A-214N可以通过存储器交叉开关216与存储器接口218通信，以从各种外部存储器设备读取或对各种外部存储器设备写入。在一个实施例中，存储器交叉开关216具有与存储器接口218的连接以与I/O单元204通信，以及具有与并行处理器存储器222的本地实例的连接，使得不同的处理集群214A-214N内的处理单元能够与系统存储器或不在并行处理单元202本地的其他存储器进行通信。在一个实施例中，存储器交叉开关216可以使用虚拟通道来分离集群214A-214N与分区单元220A-220N之间的业务流。

虽然在并行处理器200内示出了并行处理单元202的单个实例，但是可以包括并行处理单元202的任何数量的实例。例如，可以在单个插接卡上提供并行处理单元202的多个实例，或者可以互连多个插接卡。即使不同的实例具有不同数量的处理核心、不同量的本地并行处理器存储器和/或其他配置差异，并行处理单元202的不同实例也可以被配置为互操作。例如，在一个实施例中，并行处理单元202的一些实例可以包括相对于其他实例更高精度的浮点单元。包含并行处理单元202或并行处理器200的一个或多个实例的系统可以以各种配置和形状因子实现，包括但不限于台式计算机、膝上型计算机或手持式个人计算机、服务器、工作站、游戏控制台和/或嵌入式系统。

图2B是根据实施例的分区单元220的框图。在一个实施例中，分区单元220是图2A的分区单元220A-220N之一的实例。如图所示，分区单元220包括L2高速缓存221、帧缓冲器接口225和ROP 226(光栅操作单元)。L2高速缓存221是读/写高速缓存，其被配置为执行从存储器交叉开关216和ROP 226接收的加载和存储操作。读取未命中和紧急写回请求由L2高速缓存221输出到帧缓冲器接口225以用于处理。还可以经由帧缓冲器接口225将更新发送到帧缓冲器以用于处理。在一个实施例中，帧缓冲器接口225与并行处理器存储器中的存储器单元(例如，图2A的存储器单元224A-224N(例如，在并行处理器存储器222内))之一相接合。

在图形应用中，ROP 226是执行光栅操作(例如，模板印制、z测试、混合等)的处理单元。然后，ROP 226输出存储在图形存储器中的经处理的图形数据。在一些实施例中，ROP226包括压缩逻辑，用于压缩写入存储器的深度或颜色数据，以及对从存储器读取的深度或颜色数据进行解压缩。压缩逻辑可以是利用多种压缩算法中的一种或多种压缩算法的无损压缩逻辑。由ROP 226执行的压缩的类型可以基于要压缩的数据的统计特性而变化。例如，在一个实施例中，在每个图块(per-tile)的基础上对深度和颜色数据执行增量颜色压缩。

在一些实施例中，ROP 226包括在每个处理集群(例如，图2A的集群214A-214N)内，而不是在分区单元220内。在这样的实施例中，通过存储器交叉开关216传输针对像素数据的读取请求和写入请求，而不是像素片段数据。经处理的图形数据可以显示在显示设备(例如，图1的一个或多个显示设备110之一)上，被路由以供(多个)处理器102进一步处理，或者被路由以供图2A的并行处理器200内的处理实体之一进一步处理。

图2C是根据实施例的并行处理单元内的处理集群214的框图。在一个实施例中，处理集群是图2A的处理集群214A-214N之一的实例。处理集群214可以被配置为并行执行多个线程，其中术语“线程”指代对特定输入数据集执行的特定程序的实例。在一些实施例中，单指令多数据(SIMD)指令发布技术用于支持大量线程的并行执行，而不提供多个独立指令单元。在其他实施例中，单指令多线程(SIMT)技术用于使用公共指令单元来支持大量通常同步的线程的并行执行，该公共指令单元被配置为向处理集群中的每一个处理集群内的一组处理引擎发布指令。与其中所有处理引擎典型地执行相同指令的SIMD执行机制不同，SIMT执行允许不同的线程更容易地通过给定的线程程序而遵循相异的执行路径。本领域技术人员将理解，SIMD处理机制表示SIMT处理机制的功能子集。

可以经由流水线管理器232来控制处理集群214的操作，流水线管理器232将处理任务分发给SIMT并行处理器。流水线管理器232从图2A的调度器210接收指令，并且管理经由图形多处理器234和/或纹理单元236对这些指令的执行。所示的图形多处理器234是SIMT并行处理器的示例性实例。然而，处理集群214内可以包括不同架构的各种类型的SIMT并行处理器。图形多处理器234的一个或多个实例可以包括在处理集群214内。图形多处理器234可以处理数据，并且数据交叉开关240可以用于将经处理的数据分发到多个可能目的地之一，包括其他着色器单元。流水线管理器232可以通过指定要经由数据交叉开关240分发的经处理的数据的目的地来促进对经处理的数据的分发。

处理集群214内的每个图形多处理器234可以包括一组相同的功能执行逻辑(例如，算术逻辑单元、加载-存储单元等)。功能执行逻辑可以以流水线化方式配置，其中可以在先前指令完成之前发布新指令。功能执行逻辑支持各种操作，包括整数和浮点算术、比较运算、布尔运算、位移和各种代数函数的计算。在一个实施例中，可以利用相同的功能单元硬件来执行不同的操作，并且可以存在功能单元的任何组合。

发送到处理集群214的指令构成线程。跨一组并行处理引擎而执行的一组线程是线程组。线程组对不同的输入数据执行相同的程序。线程组内的每个线程可以被指派给图形多处理器234内的不同处理引擎。线程组可以包括比图形多处理器234内的处理引擎的数量少的线程。当线程组包括比处理引擎的数量少的线程时，处理引擎中的一个或多个在处理该线程组的周期期间可以是空闲的。线程组还可以包括比图形多处理器234内的处理引擎的数量多的线程。当线程组包括比图形多处理器234内的处理引擎的数量多的线程时，可以在连续的时钟周期上执行处理。在一个实施例中，可以在图形多处理器234上并发地执行多个线程组。

在一个实施例中，图形多处理器234包括内部高速缓冲存储器，以用于执行加载和存储操作。在一个实施例中，图形多处理器234可以放弃内部高速缓存而使用处理集群214内的高速缓冲存储器(例如，L1高速缓存248)。每个图形多处理器234还可以对分区单元(例如，图2A的分区单元220A-220N)内的L2高速缓存具有访问权，该分区单元在所有处理集群214之间共享并且可以用于在线程之间传送数据。图形多处理器234还可以访问片外全局存储器，其可以包括本地并行处理器存储器和/或系统存储器中的一个或多个。并行处理单元202外部的任何存储器可以用作全局存储器。其中处理集群214包括图形多处理器234的多个实例的实施例可以共享可以存储在L1高速缓存248中的公共指令和数据。

每个处理集群214可以包括MMU 245(存储器管理单元)，其被配置为将虚拟地址映射到物理地址。在其他实施例中，MMU 245的一个或多个实例可以驻留在图2A的存储器接口218内。MMU 245包括一组页表条目(PTE)，其用于将虚拟地址映射到图块的物理地址，并且可选地映射到高速缓存行索引。MMU 245可以包括可以驻留在图形多处理器234或L1高速缓存或处理集群214内的地址转换后备缓冲器(TLB)或高速缓存。处理物理地址以分发表面数据访问局部性以便允许分区单元之间的高效请求交错。高速缓存行索引可以用于确定针对高速缓存行的请求是命中还是未命中。

在图形和计算应用中，处理集群214可以被配置为使得每个图形多处理器234耦合到纹理单元236以用于执行纹理映射操作，例如，确定纹理样本位置，读取纹理数据以及过滤纹理数据。纹理数据从内部纹理L1高速缓存(未示出)读取，或在一些实施例中从图形多处理器234内的L1高速缓存读取，并且根据需要从L2高速缓存、本地并行处理器存储器或系统存储器获取。每个图形多处理器234将经处理的任务输出到数据交叉开关240，以将经处理的任务提供给另一处理集群214以用于进一步处理或者用于经由存储器交叉开关216将经处理的任务存储在L2高速缓存、本地并行处理器存储器或系统存储器中。preROP 242(预光栅操作单元)被配置为从图形多处理器234接收数据，将数据指引至ROP单元，ROP单元可以与如本文描述的分区单元(例如，图2A的分区单元220A-220N)一起定位。preROP 242单元可以执行颜色混合的优化，组织像素颜色数据以及执行地址转换。

将认识到，本文描述的核心架构是说明性的，并且可以进行变化和修改。任何数量的处理单元(例如，图形多处理器234、纹理单元236、preROP 242等)可以包括在处理集群214内。此外，虽然仅示出了一个处理集群214，但是如本文描述的并行处理单元可以包括处理集群214的任何数量的实例。在一个实施例中，每个处理集群214可以被配置为使用单独且不同的处理单元、L1高速缓存等独立于其他处理集群214进行操作。

图2D示出了根据一个实施例的图形多处理器234。在这样的实施例中，图形多处理器234与处理集群214的流水线管理器232耦合。图形多处理器234具有执行流水线，包括但不限于指令高速缓存252、指令单元254、地址映射单元256、寄存器文件258、一个或多个通用图形处理单元(GPGPU)核心262以及一个或多个加载/存储单元266。GPGPU核心262和加载/存储单元266经由存储器和高速缓存互连268与高速缓冲存储器272和共享存储器270耦合。在一个实施例中，图形多处理器234另外包括张量和/或光线追踪核心263，其包括用于加速矩阵和/或光线追踪运算的硬件逻辑。

在一个实施例中，指令高速缓存252从流水线管理器232接收要执行的指令流。指令被缓存在指令高速缓存252中并被分派以由指令单元254执行。指令单元254可以将指令分派为线程组(例如，线程束(warp))，其中线程组中的每个线程被指派给GPGPU核心262内的不同执行单元。指令可以通过指定统一地址空间内的地址来访问本地地址空间、共享地址空间或全局地址空间中的任何一个。地址映射单元256可以用于将统一地址空间中的地址转换为能够由加载/存储单元266访问的不同的存储器地址。

寄存器文件258为图形多处理器234的功能单元提供一组寄存器。寄存器文件258为连接到图形多处理器234的功能单元(例如，GPGPU核心262、加载/存储单元266)的数据路径的操作数提供临时存储。在一个实施例中，寄存器文件258在功能单元中的每个功能单元之间划分，使得每个功能单元被分配寄存器文件258的专用部分。在一个实施例中，寄存器文件258在正由图形多处理器234执行的不同线程束之间划分。

GPGPU核心262可以各自包括用于执行图形多处理器234的指令的浮点单元(FPU)和/或整数算术逻辑单元(ALU)。根据实施例，GPGPU核心262可以在架构上类似或者可以在架构上不同。例如，在一个实施例中，GPGPU核心262的第一部分包括单精度FPU和整数ALU，而GPGPU核心的第二部分包括双精度FPU。在一个实施例中，FPU可以实现用于浮点算术的IEEE 754-2008标准或启用可变精度浮点算术。图形多处理器234可以另外包括一个或多个固定功能单元或特殊功能单元，以用于执行诸如复制矩形或像素混合操作之类的特定功能。在一个实施例中，GPGPU核心中的一个或多个还可以包括固定功能逻辑或特殊功能逻辑。

在一个实施例中，GPGPU核心262包括能够对多组数据执行单个指令的SIMD逻辑。在一个实施例中，GPGPU核心262可以物理地执行SIMD4、SIMD8和SIMD16指令，并且逻辑地执行SIMD1、SIMD2和SIMD32指令。GPGPU核心的SIMD指令可以在编译时由着色器编译器生成，或者在执行针对单程序多数据(SPMD)或SIMT架构编写和编译的程序时自动生成。针对SIMT执行模型配置的程序的多个线程可以经由单个SIMD指令执行。例如，在一个实施例中，执行相同或类似操作的八个SIMT线程可以经由单个SIMD8逻辑单元并行地执行。

存储器和高速缓存互连268是互连网络，其将图形多处理器234的功能单元中的每个功能单元连接到寄存器文件258和共享存储器270。在一个实施例中，存储器和高速缓存互连268是允许加载/存储单元266在共享存储器270与寄存器文件258之间实现加载和存储操作的交叉开关互连。寄存器文件258可以以与GPGPU核心262相同的频率操作，从而在GPGPU核心262与寄存器文件258之间的数据传送具有非常低的延时。共享存储器270可以用于实现在图形多处理器234内的功能单元上执行的线程之间的通信。高速缓冲存储器272可以用作例如数据高速缓存，以缓存在功能单元与纹理单元236之间传送的纹理数据。共享存储器270还可以用作程序管理的高速缓存。除了存储在高速缓冲存储器272内的自动缓存的数据之外，在GPGPU核心262上执行的线程还可以编程地将数据存储在共享存储器内。

图3A-3C示出了根据实施例的附加图形多处理器。图3A-3B示出了图形多处理器325、350，其是图2C的图形多处理器234的变型。所示的图形多处理器325、350是图2C的图形多处理器234的变型。图3C示出了图形处理单元(GPU)380，其包括被布置成多核心组365A-365N的专用图形处理资源集。所示的图形多处理器325、350和多核心组365A-365N可以是能够同时执行大量执行线程的流送多处理器(SM)。

图3A示出了根据附加实施例的图形多处理器325。相对于图2D的图形多处理器234，图形多处理器325包括执行资源单元的多个附加实例。例如，图形多处理器325可以包括指令单元332A-332B、寄存器文件334A-334B和(多个)纹理单元344A-344B的多个实例。图形多处理器325还包括多组图形或计算执行单元(例如，GPGPU核心336A-336B、张量核心337A-337B、光线追踪核心338A-338B)和多组加载/存储单元340A-340B。在一个实施例中，执行资源单元具有公共指令高速缓存330、纹理和/或数据高速缓冲存储器342以及共享存储器346。

各种组件可以经由互连结构327进行通信。在一个实施例中，互连结构327包括一个或多个交叉开关交换机，以实现图形多处理器325的各种组件之间的通信。在一个实施例中，互连结构327是单独的高速网络结构层，图形多处理器325的每个组件堆叠在其上。图形多处理器325的组件经由互连结构327与远程组件通信。例如，GPGPU核心336A-336B、337A-337B和338A-338B可以各自经由互连结构327与共享存储器346通信。互连结构327可以仲裁图形多处理器325内的通信，以确保组件之间的公平带宽分配。

图3B示出了根据附加实施例的图形多处理器350。图形处理器包括多组执行资源356A-356D，其中每组执行资源包括多个指令单元、寄存器文件、GPGPU核心和加载存储单元，如图2D和图3A所示。执行资源356A-356D可以与(多个)纹理单元360A-360D一起协作以用于纹理操作，同时对指令高速缓存354和共享存储器353进行共享。在一个实施例中，执行资源356A-356D可以对指令高速缓存354和共享存储器353以及纹理和/或数据高速缓冲存储器358A-358B的多个实例进行共享。各种组件可以经由与图3A的互连结构327类似的互连结构352进行通信。

本领域技术人员将理解，图1、图2A-2D和图3A-3B中描述的架构是描述性的而不作为对本实施例的范围的限制。因此，在不脱离本文描述的实施例的范围的情况下，本文描述的技术可以在任何适当配置的处理单元上实现，包括但不限于一个或多个移动应用处理器、一个或多个台式或服务器中央处理单元(CPU)(包括多核心CPU)、一个或多个并行处理单元(例如，图2A的并行处理单元202)以及一个或多个图形处理器或专用处理单元。

在一些实施例中，如本文描述的并行处理器或GPGPU通信地耦合到主机/处理器核心以对图形操作、机器学习操作、模式分析操作和各种通用GPU(GPGPU)功能加速。GPU可以通过总线或其他互连(例如，诸如PCIe或NVLink之类的高速互连)通信地耦合到主机处理器/核心。在其他实施例中，GPU可以集成在与核心相同的封装或芯片上，并且通过内部处理器总线/互连(即，在封装或芯片内部)通信地耦合到核心。无论GPU以何种方式连接，处理器核心都可以以包含在工作描述符中的命令/指令序列的形式将工作分配给GPU。然后，GPU使用专用电路/逻辑来高效地处理这些命令/指令。

图3C示出了图形处理单元(GPU)380，其包括布置成多核心组365A-N的专用图形处理资源集。虽然仅提供了单个多核心组365A的细节，但应理解，其他多核心组365B-365N可以配备有相同或相似的图形处理资源集。

如图所示，多核心组365A可以包括一组图形核心370、一组张量核心371以及一组光线追踪核心372。调度器/分派器368调度和分派图形线程以供在各种核心370、371、372上执行。一组寄存器文件369存储在执行图形线程时由核心370、371、372使用的操作数值。例如，这些寄存器文件可以包括用于存储整数值的整数寄存器、用于存储浮点值的浮点寄存器、用于存储紧缩数据元素(整数和/或浮点数据元素)的向量寄存器，以及用于存储张量/矩阵值的图块寄存器。在一个实施例中，图块寄存器被实现为组合的向量寄存器集。

一个或多个组合的1级(L1)高速缓存和共享存储器单元373在每个多核心组365A内本地地存储图形数据，例如，纹理数据、顶点数据、像素数据、光线数据、边界体积数据等。一个或多个纹理单元374还可以用于执行纹理化操作，例如，纹理映射和采样。由多核心组365A-365N的全部或子集共享的2级(L2)高速缓存375存储用于多个并发图形线程的图形数据和/或指令。如图所示，L2高速缓存375可以跨多个多核心组365A-365N共享。一个或多个存储器控制器367将GPU 380耦合到存储器366，该存储器366可以是系统存储器(例如，DRAM)和/或专用图形存储器(例如，GDDR6存储器)。

输入/输出(I/O)电路363将GPU 380耦合到一个或多个I/O设备362，例如，数字信号处理器(DSP)、网络控制器或用户输入设备。片上互连可以用于将I/O设备362耦合到GPU380和存储器366。I/O电路363的一个或多个I/O存储器管理单元(IOMMU)364将I/O设备362直接耦合到系统存储器366。在一个实施例中，IOMMU 364管理多组页表以将虚拟地址映射到系统存储器366中的物理地址。在该实施例中，I/O设备362、(多个)CPU 361和(多个)GPU380可以共享相同的虚拟地址空间。

在一种实现方式中，IOMMU 364支持虚拟化。在这种情况下，它可以管理第一组页表以将访客/图形虚拟地址映射到访客/图形物理地址，并且管理第二组页表以将访客/图形物理地址映射到系统/主机物理地址(例如，在系统存储器366内)。第一组页表和第二组页表中的每一个的基地址可以存储在控制寄存器中，并且在上下文切换时换出(例如，以便为新的上下文提供对相关组页表的访问权)。虽然图3C中未示出，但核心370、371、372和/或多核心组365A-365N中的每一个可以包括转换后备缓冲器(TLB)以缓存访客虚拟到访客物理转换、访客物理到主机物理转换以及访客虚拟到主机物理转换。

在一个实施例中，CPU 361、GPU 380和I/O设备362集成在单个半导体芯片和/或芯片封装上。所示的存储器366可以集成在同一芯片上或者可以经由片外接口耦合到存储器控制器367。在一种实现方式中，存储器366包括GDDR6存储器，该GDDR6存储器与其他物理系统级存储器共享相同的虚拟地址空间，但是本发明的基本原理不限于该特定实现方式。

在一个实施例中，张量核心371包括专门设计用于执行矩阵运算的多个执行单元，矩阵运算是用于执行深度学习运算的基本计算运算。例如，同时矩阵乘法运算可以用于神经网络训练和推断。张量核心371可以使用各种操作数精度来执行矩阵处理，包括单精度浮点(例如，32位)、半精度浮点(例如，16位)、整数字(16位)、字节(8位)和半字节(4位)。在一个实施例中，神经网络实现方式提取每个渲染的场景的特征，潜在地结合来自多个帧的细节，以构建高质量的最终图像。

在深度学习实现方式中，并行矩阵乘法工作可以被调度用于在张量核心371上执行。特别地，神经网络的训练要求大量矩阵点积运算。为了处理N×N×N矩阵乘法的内积公式，张量核心371可以包括至少N个点积处理元素。在矩阵乘法开始之前，一个完整的矩阵被加载到图块寄存器中，并且对于N个周期，在每个周期至少加载第二矩阵的一列。在每个周期，有N个点积被处理。

取决于特定实现方式，矩阵元素可以以不同精度存储，包括16位字、8位字节(例如，INT8)和4位半字节(例如，INT4)。可以为张量核心371指定不同的精度模式以确保最高效的精度用于不同的工作负载(例如，可以容忍量化为字节和半字节的推断工作负载)。

在一个实施例中，光线追踪核心372加速用于实时光线追踪实现和非实时光线追踪实现两者的光线追踪运算。特别地，光线追踪核心372包括光线遍历/交叉电路，以用于使用边界体积层级(BVH)执行光线遍历并且识别在光线与包围在BVH体积内的基元之间的交叉。光线追踪核心372还可以包括用于执行深度测试和剔除(例如，使用Z缓冲器或类似布置)的电路。在一种实现方式中，光线追踪核心372与本文描述的图像去噪技术协同执行遍历和交叉操作，其中至少一部分可以在张量核心371上执行。例如，在一个实施例中，张量核心371实现深度学习神经网络以对由光线追踪核心372生成的帧执行去噪。然而，(多个)CPU361、图形核心370和/或光线追踪核心372也可以实现去噪和/或深度学习算法的全部或部分。

此外，如上所述，可以采用分布式去噪方法，其中GPU 380位于通过网络或高速互连耦合到其他计算设备的计算设备中。在该实施例中，互连的计算设备共享神经网络学习/训练数据，以提高整体系统学习针对不同类型的图像帧和/或不同的图形应用执行去噪的速度。

在一个实施例中，光线追踪核心372处理所有BVH遍历和光线-基元交叉，从而避免图形核心370因每条光线数千条指令而过载。在一个实施例中，每个光线追踪核心372包括用于执行边界框测试(例如，用于遍历操作)的第一组专用电路和用于执行光线-三角形交叉测试(例如，已经被遍历的交叉光线)的第二组专用电路。因此，在一个实施例中，多核心组365A可以简单地发射光线探针，并且光线追踪核心372独立地执行光线遍历和交叉并将命中数据(例如，命中、未命中、多次命中等)返回线程上下文。其他核心370、371被释放以执行其他图形或计算工作，而光线追踪核心372执行遍历和交叉运算。

在一个实施例中，每个光线追踪核心372包括用于执行BVH测试操作的遍历单元和执行光线-基元交叉测试的交叉单元。交叉单元生成“命中”、“未命中”或“多次命中”响应，并将其提供给适当的线程。在遍历和交叉运算期间，其他核心(例如，图形核心370和张量核心371)的执行资源被释放以执行其他形式的图形工作。

在下面描述的一个特定实施例中，使用混合光栅化/光线追踪方法，其中工作分布在图形核心370和光线追踪核心372之间。

在一个实施例中，光线追踪核心372(和/或其他核心370、371)包括对光线追踪指令集的硬件支持，该线追踪指令集例如为Microsoft的DirectX光线追踪(DXR)，其包括DispatchRays命令，以及光线生成、最近命中、任意命中和未命中着色器，它们可以针对每个对象实现着色器和纹理的唯一集合的分配。可以由光线追踪核心372、图形核心370和张量核心371支持的另一光线追踪平台是Vulkan 1.1.85。然而，注意，本发明的基本原理不限于任何特定的光线追踪ISA。

一般而言，各种核心372、371、370可以支持光线追踪指令集，该光线追踪指令集包括用于光线生成、最近命中、任意命中、光线-基元交叉、每基元和层级边界框构造、未命中、访问和异常的指令/功能。更具体地，一个实施例包括用于执行以下功能的光线追踪指令：

光线生成—光线生成指令可以针对每个像素、样本或其他用户定义的工作分配来执行。

最近命中—可以执行最近命中指令以定位光线与场景内的基元的最近交叉点。

任意命中—任意命中指令识别在光线与场景内的基元之间的多个交叉，以潜在地识别新的最近交叉点。

交叉—交叉指令执行光线-基元交叉测试并输出结果。

每基元边界框构造—该指令围绕给定基元或基元组构建边界框(例如，在构建新的BVH或其他加速数据结构时)。

未命中—指示光线未命中场景内或场景的指定区域内的所有几何体。

访问—指示光线将遍历的子体积。

异常—包括各种类型的异常处理程序(例如，针对各种错误条件被调用)。

用于GPU到主机处理器互连的技术

图4A示出了示例性架构，其中多个GPU 410-413通过高速链路440A-440D(例如，总线、点对点互连等)通信地耦合到多个多核心处理器405-406。在一个实施例中，取决于实现方式，高速链路440A-440D支持4GB/s、30GB/s、80GB/s或更高的通信吞吐量。可以使用各种互连协议，包括但不限于PCIe 4.0或5.0以及NVLink 2.0。然而，本发明的基本原理不限于任何特定的通信协议或吞吐量。

另外，在一个实施例中，GPU 410-413中的两个或更多个通过高速链路442A-442B互连，高速链路442A-442B可以使用与用于高速链路440A-440D的那些协议/链路相同或不同的协议/链路来实现。类似地，多核心处理器405-406中的两个或更多个可以通过高速链路443连接，高速链路443可以是以20GB/s、30GB/s、120GB/s或更高来操作的对称多处理器(SMP)总线。可替代地，图4A中所示的各种系统组件之间的所有通信可以使用相同的协议/链路(例如，通过公共互连结构)来完成。然而，如所提及的，本发明的基本原理不限于任何特定类型的互连技术。

在一个实施例中，每个多核心处理器405-406分别经由存储器互连430A-430B通信地耦合到处理器存储器401-402，并且每个GPU 410-413分别通过GPU存储器互连450A-450D通信地耦合到GPU存储器420-423。存储器互连430A-430B和450A-450D可以使用相同或不同的存储器访问技术。通过示例而非限制的方式，处理器存储器401-402和GPU存储器420-423可以是诸如动态随机存取存储器(DRAM)(包括堆叠式DRAM)、图形DDR SDRAM(GDDR)(例如，GDDR5、GDDR6)或高带宽存储器(HBM)之类的易失性存储器，和/或可以是诸如3D XPoint或Nano-Ram之类的非易失性存储器。在一个实施例中，存储器的某一部分可以是易失性存储器，而另一部分可以是非易失性存储器(例如，使用两级存储器(2LM)层级)。

如下面描述的，尽管各种处理器405-406和GPU 410-413可以分别物理地耦合到特定存储器401-402、420-423，但是可以实现统一的存储器架构，其中相同的虚拟系统地址空间(也被称为“有效地址”空间)分布在所有各种物理存储器之中。例如，处理器存储器401-402可以各自包括64GB的系统存储器地址空间，并且GPU存储器420-423可以各自包括32GB的系统存储器地址空间(在该示例中产生总共256GB的可寻址存储器)。

图4B示出了根据一个实施例的多核心处理器407与图形加速模块446之间的互连的附加细节。图形加速模块446可以包括集成在线卡上的一个或多个GPU芯片，线卡经由高速链路440耦合到处理器407。可替代地，图形加速模块446可以集成在与处理器407相同的封装或芯片上。

所示的处理器407包括多个核心460A-460D，每个核心具有转换后备缓冲器461A-461D和一个或多个高速缓存462A-462D。核心可以包括用于执行指令和处理数据的各种其他组件(例如，指令获取单元、分支预测单元、解码器、执行单元、重新排序缓冲器等)，未示出这些组件以避免模糊本发明的基本原理。高速缓存462A-462D可以包括1级(L1)高速缓存和2级(L2)高速缓存。另外，一个或多个共享高速缓存456可以包括在缓存层级中并由多组核心460A-460D共享。例如，处理器407的一个实施例包括24个核心，每个核心具有其自己的L1高速缓存、12个共享L2高速缓存以及12个共享L3高速缓存。在该实施例中，L2高速缓存和L3高速缓存之一由两个相邻核心共享。处理器407和图形加速器集成模块446与系统存储器441连接，系统存储器441可以包括处理器存储器401-402。

经由通过一致性总线464的核心间通信来针对存储在各种高速缓存462A-462D、456和系统存储器441中的数据和指令维持一致性。例如，每个高速缓存可以具有与之相关联的高速缓存一致性逻辑/电路，以响应于检测到的对特定高速缓存行的读取或写入来通过一致性总线464进行通信。在一个实现方式中，在一致性总线464上实现高速缓存窥探协议以窥探高速缓存访问。高速缓存窥探/一致性技术被本领域技术人员很好地理解，并且这里不再详细描述以避免模糊本发明的基本原理。

在一个实施例中，代理电路425将图形加速模块446通信地耦合到一致性总线464，允许图形加速模块446作为核心的对等体参与高速缓存一致性协议。特别地，接口435通过高速链路440(例如，PCIe总线、NVLink等)提供与代理电路425的连接，并且接口437将图形加速模块446连接到高速链路440。

在一个实现方式中，加速器集成电路436代表图形加速模块446的多个图形处理引擎431、432、N提供高速缓存管理、存储器访问、上下文管理和中断管理服务。图形处理引擎431、432、N可以各自包括单独的图形处理单元(GPU)。可替代地，图形处理引擎431、432、N可以包括GPU内的不同类型的图形处理引擎，例如，图形执行单元、媒体处理引擎(例如，视频编码器/解码器)、采样器和blit引擎。换言之，图形加速模块可以是具有多个图形处理引擎431-432、N的GPU，或者图形处理引擎431-432、N可以是集成在公共封装、线卡或芯片上的个体GPU。

在一个实施例中，加速器集成电路436包括用于执行诸如虚拟到物理存储器转换(也称为有效到实际存储器转换)之类的各种存储器管理功能和用于访问系统存储器441的存储器访问协议的存储器管理单元(MMU)439。MMU 439还可以包括用于缓存虚拟/有效到物理/实地址转换的转换后备缓冲器(TLB)(未示出)。在一个实现方式中，高速缓存438存储命令和数据，以便由图形处理引擎431-432、N进行高效访问。在一个实施例中，存储在高速缓存438和图形存储器433-434、M中的数据与核心高速缓存462A-462D、456和系统存储器411保持一致。如上面提及的，这可以经由代理电路425来实现，代理电路425代表高速缓存438和存储器433-434、M参与高速缓存一致性机制(例如，向高速缓存438发送与对处理器高速缓存462A-462D、456上的高速缓存行的修改/访问有关的更新，以及从高速缓存438接收更新)。

一组寄存器445存储由图形处理引擎431-432、N执行的线程的上下文数据，并且上下文管理电路448管理线程上下文。例如，上下文管理电路448可以执行保存和恢复操作以在上下文切换(例如，其中保存第一线程并且存储第二线程使得第二线程可以由图形处理引擎执行)期间保存和恢复各种线程的上下文。例如，在上下文切换时，上下文管理电路448可以将当前寄存器值存储到存储器中的指定区域(例如，由上下文指针标识)。然后上下文管理电路448可以在返回该上下文时恢复寄存器值。在一个实施例中，中断管理电路447接收并处理从系统设备接收的中断。

在一个实现方式中，来自图形处理引擎431的虚拟/有效地址由MMU 439转换为系统存储器411中的实地址/物理地址。加速器集成电路436的一个实施例支持多个(例如，4个、8个、16个)图形加速器模块446和/或其他加速器设备。图形加速器模块446可以专用于在处理器407上执行的单个应用，或者可以在多个应用之间共享。在一个实施例中，呈现虚拟化图形执行环境，其中图形处理引擎431-432、N的资源与多个应用或虚拟机(VM)共享。资源可以细分为“切片”，基于与VM和/或应用相关联的处理要求和优先级将切片分配给不同的VM和/或应用。

因此，加速器集成电路对于图形加速模块446充当系统的桥接器，并且提供地址转换和系统存储器高速缓存服务。此外，加速器集成电路436可以为主机处理器提供虚拟化设施，以管理图形处理引擎、中断和存储器管理的虚拟化。

因为图形处理引擎431-432、N的硬件资源被显式地映射到主机处理器407看到的实地址空间，所以任何主机处理器都可以使用有效地址值直接对这些资源进行寻址。在一个实施例中，加速器集成电路436的一个功能是图形处理引擎431-432、N的物理分离，使得它们对于系统表现为独立的单元。

如所提及的，在所示实施例中，一个或多个图形存储器433-434、M分别耦合到图形处理引擎431-432、N中的每一个。图形存储器433-434、M存储正由图形处理引擎431-432、N中的每一个处理的指令和数据。图形存储器433-434、M可以是诸如DRAM(包括堆叠式DRAM)、GDDR存储器(例如，GDDR5、GDDR6)或HBM之类的易失性存储器，和/或可以是诸如3D XPoint或Nano-Ram之类的非易失性存储器。

在一个实施例中，为了减少高速链路440上的数据业务，使用偏置技术来确保存储在图形存储器433-434、M中的数据是将最频繁地被图形处理引擎431-432、N使用并且优选地不被核心460A-460D使用(至少不频繁)的数据。类似地，偏置机制试图将核心(并且优选地不是图形处理引擎431-432、N)所需的数据保持在核心的高速缓存462A-462D、456和系统存储器411内。

图4C示出了其中加速器集成电路436集成在处理器407内的另一实施例。在该实施例中，图形处理引擎431-432、N经由接口437和接口435(再次强调，其可以使用任何形式的总线或接口协议)通过高速链路440直接与加速器集成电路436通信。加速器集成电路436可以执行与关于图4B描述的操作相同的操作，但是考虑到其紧密靠近一致性总线464和高速缓存462A-462D、456，潜在地以更高的吞吐量执行操作。

一个实施例支持不同的编程模型，包括专用进程编程模型(无图形加速模块虚拟化)和共享编程模型(具有虚拟化)。后者可以包括由加速器集成电路436控制的编程模型和由图形加速模块446控制的编程模型。

在专用进程模型的一个实施例中，图形处理引擎431-432、N专用于单个操作系统下的单个应用或进程。单个应用可以将其他应用请求汇集到图形引擎431-432、N，从而在VM/分区内提供虚拟化。

在专用进程编程模型中，图形处理引擎431-432、N可以由多个VM/应用分区共享。共享模型要求系统管理程序对图形处理引擎431-432、N进行虚拟化以允许每个操作系统的访问。对于没有管理程序的单分区系统，图形处理引擎431-432、N由操作系统拥有。在这两种情况下，操作系统都可以对图形处理引擎431-432、N进行虚拟化以提供对每个进程或应用的访问。

对于共享编程模型，图形加速模块446或个体图形处理引擎431-432、N使用进程句柄来选择进程元素。在一个实施例中，进程元素存储在系统存储器411中，并且可使用本文描述的有效地址到实地址转换技术来寻址。进程句柄可以是在向图形处理引擎431-432、N注册其上下文时(即，调用系统软件以将进程元素添加到进程元素链表)时提供给主机进程的特定于实现方式的值。进程句柄的低16位可以是进程元素在进程元素链表内的偏移。

图4D示出了示例性加速器集成切片490。如本文所使用的，“切片”包括加速器集成电路436的处理资源的指定部分。系统存储器411内的应用有效地址空间482存储进程元素483。在一个实施例中，响应于来自在处理器407上执行的应用480的GPU调用481，存储进程元素483。进程元素483包含对应应用480的进程状态。进程元素483中包含的工作描述符(WD)484可以是由应用请求的单个作业，或者可能包含指向作业队列的指针。在后一种情况下，WD 484是指向应用地址空间482中的作业请求队列的指针。

图形加速模块446和/或个体图形处理引擎431-432、N可以由系统中的全部进程或进程子集共享。本发明的实施例包括用于设置进程状态并将WD484发送到图形加速模块446以在虚拟化环境中开始作业的基础设施。

在一个实现方式中，专用进程编程模型是特定于实现方式的。在该模型中，单个进程拥有图形加速模块446或个体图形处理引擎431。因为图形加速模块446由单个进程拥有，所以管理程序针对拥有分区对加速器集成电路436进行初始化，并且在图形加速模块446被指派时，操作系统针对拥有进程对加速器集成电路436进行初始化。

在操作中，加速器集成切片490中的WD获取单元491获取下一WD 484，其包括对要由图形加速模块446的图形处理引擎之一完成的工作的指示。来自WD 484的数据可以存储在寄存器445中并由MMU 439、中断管理电路447和/或上下文管理电路448使用，如图所示。例如，MMU 439的一个实施例包括用于访问OS虚拟地址空间485内的段/页表486的段/页行走电路(walk circuitry)。中断管理电路447可以处理从图形加速模块446接收的中断事件492。在执行图形操作时，由图形处理引擎431-432、N生成的有效地址493由MMU 439转换为实地址。

在一个实施例中，对于每个图形处理引擎431-432、N和/或图形加速模块446复制相同的一组寄存器445，并且该相同的一组寄存器445可以由管理程序或操作系统初始化。这些复制的寄存器中的每一个可以包括在加速器集成切片490中。可以由管理程序初始化的示例性寄存器在表1中示出。

表1——管理程序初始化的寄存器

1	切片控制寄存器
		2	实地址(RA)调度的进程区域指针
3	权限掩蔽覆写寄存器
		4	中断向量表条目偏移
5	中断向量表条目限制
		6	状态寄存器
7	逻辑分区ID
		8	实地址(RA)管理程序加速器利用记录指针
9	存储描述寄存器

表2中示出了可以由操作系统初始化的示例性寄存器。

表2——操作系统初始化的寄存器

1	进程和线程识别
		2	有效地址(EA)上下文保存/恢复指针
3	虚拟地址(VA)加速器利用记录指针
		4	虚拟地址(VA)存储段表指针
5	权限掩蔽
		6	工作描述符

在一个实施例中，每个WD 484特定于特定图形加速模块446和/或图形处理引擎431-432、N。WD 484包含图形处理引擎431-432、N完成其工作所要求的所有信息，或者WD484可以是指向应用已经设置要完成的工作的命令队列的存储器位置的指针。

图4E示出了共享模型的一个实施例的附加细节。该实施例包括管理程序实地址空间498，其中存储进程元素列表499。管理程序实地址空间498可经由管理程序496访问，管理程序496针对操作系统495将图形加速模块引擎虚拟化。

共享编程模型允许来自系统中的所有分区或分区子集的所有进程或进程子集使用图形加速模块446。存在两种编程模型，其中图形加速模块446由多个进程和分区共享：时间切片共享和图形定向共享。

在该模型中，系统管理程序496拥有图形加速模块446并使其功能可用于所有操作系统495。为使图形加速模块446支持系统管理程序496进行的虚拟化，图形加速模块446可以遵循以下要求：1)应用的作业请求必须是自主的(即，不需要在作业之间维持状态)，或者图形加速模块446必须提供上下文保存和恢复机制。2)图形加速模块446保证应用的作业请求在指定的时间量内完成，包括任何转换错误，或者图形加速模块446提供抢占对作业的处理的能力。3)当在定向共享编程模型中操作时，必须保证图形加速模块446在进程之间的公平性。

在一个实施例中，对于共享模型，应用480被要求利用图形加速模块446类型、工作描述符(WD)、权限掩蔽寄存器(AMR)值和上下文保存/恢复区域指针(CSRP)来进行操作系统495系统调用。图形加速模块446类型描述了系统调用的目标加速功能。图形加速模块446类型可以是系统特定值。WD特别地针对图形加速模块446被格式化，并且可以是以下形式：图形加速模块446命令，指向用户定义的结构的有效地址指针，指向命令队列的有效地址指针，或用于描述要由图形加速模块446完成的工作的任何其他数据结构。在一个实施例中，AMR值是要用于当前进程的AMR状态。传递给操作系统的值类似于设置AMR的应用。如果加速器集成电路436和图形加速模块446实现不支持用户权限掩蔽覆写寄存器(UAMOR)，则操作系统可以在管理程序调用中传递AMR之前将当前UAMOR值应用于AMR值。管理程序496可以可选地在将AMR放入进程元素483之前应用当前的权限掩蔽覆写寄存器(AMOR)值。在一个实施例中，CSRP是寄存器445之一，其包含图形加速模块446用于保存和恢复上下文状态的区域在应用的地址空间482中的有效地址。如果在作业之间不要求保存状态或在作业被抢占时，该指针是可选的。上下文保存/恢复区域可以是固定的(pinned)系统存储器。

在接收到系统调用时，操作系统495可以验证应用480已经注册并且被给予使用图形加速模块446的权限。然后，操作系统495利用表3中所示的信息来调用管理程序496。

表3——OS对管理程序调用参数

1	工作描述符(WD)
		2	权限掩蔽寄存器(AMR)值(潜在地被掩蔽)
3	有效地址(EA)上下文保存/恢复区域指针(CSRP)
		4	进程ID(PID)和可选的线程ID(TID)
5	虚拟地址(VA)加速器利用记录指针(AURP)
		6	存储段表指针(SSTP)的虚拟地址
7	逻辑中断服务号(LISN)

在接收到管理程序调用时，管理程序496验证操作系统495已经注册并且已经被给予使用图形加速模块446的权限。管理程序496然后针对对应的图形加速模块446类型将进程元素483放入进程元素链表中。进程元素可以包括表4中所示的信息。

表4——进程元素信息

1	工作描述符(WD)
		2	权限掩蔽寄存器(AMR)值(潜在地被掩蔽)
3	有效地址(EA)上下文保存/恢复区域指针(CSRP)
		4	进程ID(PID)和可选的线程ID(TID)
5	虚拟地址(VA)加速器利用记录指针(AURP)
		6	存储段表指针(SSTP)的虚拟地址
7	逻辑中断服务号(LISN)
		8	中断向量表，从管理程序调用参数导出
9	状态寄存器(SR)值
		10	逻辑分区ID(LPID)
11	实地址(RA)管理程序加速器利用记录指针
		12	存储描述符寄存器(SDR)

在一个实施例中，管理程序对多个加速器集成切片490寄存器445进行初始化。

如图4F所示，本发明的一个实施例采用统一存储器，该统一存储器可经由用于访问物理处理器存储器401-402和GPU存储器420-423的公共虚拟存储器地址空间来寻址。在该实现方式中，在GPU 410-413上执行的操作利用相同的虚拟/有效存储器地址空间来访问处理器存储器401-402，反之亦然，从而简化了可编程性。在一个实施例中，虚拟/有效地址空间的第一部分被分配给处理器存储器401，第二部分被分配给第二处理器存储器402，第三部分被分配给GPU存储器420，以此类推。因此，整个虚拟/有效存储器空间(有时称为有效地址空间)跨处理器存储器401-402和GPU存储器420-423中的每一个分布，允许任何处理器或GPU利用映射到该存储器的虚拟地址访问任何物理存储器。

在一个实施例中，MMU 439A-439E中的一个或多个内的偏置/一致性管理电路494A-494E确保主机处理器(例如，405)和GPU 410-413的高速缓存之间的高速缓存一致性，并且实现指示某些类型的数据应当被存储在其中的物理存储器的偏置技术。虽然在图4F中示出了偏置/一致性管理电路494A-494E的多个实例，但是偏置/一致性电路可以在一个或多个主机处理器405的MMU内和/或在加速器集成电路436内实现。

一个实施例允许GPU附接的存储器420-423被映射为系统存储器的一部分，并且使用共享虚拟存储器(SVM)技术被访问，但是不会遭受与完整系统高速缓存一致性相关联的典型性能缺陷。GPU附接的存储器420-423作为系统存储器被访问而没有繁重的高速缓存一致性开销的能力为GPU卸载提供了有益的操作环境。这种布置允许主机处理器405软件设置操作数并访问计算结果，而没有传统I/O DMA数据副本的开销。这种传统的副本涉及驱动程序调用、中断和存储器映射的I/O(MMIO)访问，这些相对于简单的存储器访问都是低效的。同时，在没有高速缓存一致性开销的情况下访问GPU附接的存储器420-423的能力对于卸载的计算的执行时间可能是关键的。例如，在具有大量流式写入存储器业务的情况下，高速缓存一致性开销可以显著地降低GPU 410-413所看到的有效写入带宽。操作数设置的效率、结果访问的效率以及GPU计算的效率都在确定GPU卸载的有效性方面发挥作用。

在一个实现方式中，在GPU偏置与主机处理器偏置之间的选择由偏置跟踪器数据结构驱动。例如，可以使用偏置表，其可以是包括每个GPU附接的存储器页1位或2位的页粒度结构(即，以存储器页的粒度控制)。偏置表可以在一个或多个GPU附接的存储器420-423的被窃取的存储器范围中实现，在GPU 410-413中具有或不具有偏置高速缓存(例如，用于缓存偏置表的频繁/最近使用的条目)。可替代地，整个偏置表可以维持在GPU内。

在一个实现方式中，在实际访问GPU存储器之前访问与对GPU附接的存储器420-423的每次访问相关联的偏置表条目，从而引起以下操作。首先，来自GPU 410-413的在GPU偏置中找到其页的本地请求被直接转发到对应的GPU存储器420-423。来自GPU的在主机偏置中找到其页的本地请求被转发到处理器405(例如，通过如上面讨论的高速链路)。在一个实施例中，来自处理器405的在主机处理器偏置中找到所请求的页的请求像正常存储器读取一样完成请求。可替代地，可以将针对GPU偏置的页的请求转发到GPU 410-413。然后，如果GPU当前没有使用该页，则GPU可以将该页转换至主机处理器偏置。

页的偏置状态可以通过基于软件的机制、基于硬件辅助的软件机制来改变，或者对于有限的一组情况，可以通过纯粹基于硬件的机制来改变。

一种用于改变偏置状态的机制采用API调用(例如，OpenCL)，其进而调用GPU的设备驱动程序，该驱动程序进而向GPU发送指引其改变偏置状态并且对于某些转换在主机中执行高速缓存刷新操作的消息(或将命令描述符排入队列)。对于从主机处理器405偏置到GPU偏置的转换，要求高速缓存刷新操作，但对于相反的转换不要求高速缓存刷新操作。

在一个实施例中，通过临时渲染主机处理器405不可缓存的GPU偏置的页来维持高速缓存一致性。为了访问这些页，处理器405可以请求来自GPU 410的访问，GPU 410可以立即授权访问或可以不立即授权访问，这取决于实现方式。因此，为了减少主机处理器405与GPU 410之间的通信，确保GPU偏置的页是GPU所要求的页而不是主机处理器405所要求的页是有利的，反之亦然。

图形处理流水线

图5示出了根据实施例的图形处理流水线500。在一个实施例中，图形处理器可以实现所示的图形处理流水线500。图形处理器可以包括在如本文描述的并行处理子系统(例如，图2A的并行处理器200，在一个实施例中，并行处理器200是图1的(多个)并行处理器112的变型)内。各种并行处理系统可以经由如本文描述的并行处理单元(例如，图2A的并行处理单元202)的一个或多个实例来实现图形处理流水线500。例如，着色器单元(例如，图2C的图形多处理器234)可以被配置为执行顶点处理单元504、曲面细分控制处理单元508、曲面细分评估处理单元512、几何处理单元516和片段/像素处理单元524中的一个或多个的功能。数据组装器502，基元组装器506、514、518，曲面细分单元510，光栅化器522和光栅操作单元526的功能还可以由处理集群(例如，图2A的处理集群214)内的其他处理引擎和对应的分区单元(例如，图2A的分区单元220A-220N)来执行。还可以使用用于一个或多个功能的专用处理单元来实现图形处理流水线500。在一个实施例中，图形处理流水线500的一个或多个部分可以由通用处理器(例如，CPU)内的并行处理逻辑执行。在一个实施例中，图形处理流水线500的一个或多个部分可以经由存储器接口528访问片上存储器(例如，如图2A中的并行处理器存储器222)，存储器接口528可以是图2A的存储器接口218的实例。

在一个实施例中，数据组装器502是收集表面和基元的顶点数据的处理单元。然后，数据组装器502将包括顶点属性的顶点数据输出到顶点处理单元504。顶点处理单元504是可编程执行单元，其执行顶点着色器程序，如由顶点着色器程序指定地对顶点数据进行照亮和变换。顶点处理单元504读取存储在高速缓冲存储器、本地存储器或系统存储器中的数据以用于处理顶点数据，并且可以被编程为将顶点数据从基于对象的坐标表示变换为世界空间坐标空间或归一化的设备坐标空间。

基元组装器506的第一实例从顶点处理单元504接收顶点属性。基元组装器506根据需要读取所存储的顶点属性并构造图形基元以供曲面细分控制处理单元508处理。图形基元包括各种图形处理应用编程接口(API)支持的三角形、线段、点、图像块等。

曲面细分控制处理单元508将输入顶点视为几何图像块的控制点。控制点从来自图像块的输入表示(例如，图像块的基础)变换为适用于由曲面细分评估处理单元512进行的表面评估的表示。曲面细分控制处理单元508还可以计算几何图像块的边的曲面细分因子。曲面细分因子适用于单个边，并且量化与边相关联的视图相关的细节级别。曲面细分单元510被配置为接收图像块的边的曲面细分因子并且将图像块曲面细分为多个几何基元(例如，线、三角形或四边形基元)，该多个几何基元被发送到曲面细分评估处理单元512。曲面细分评估处理单元512对细分的图像块的参数化坐标进行操作，以生成与几何基元相关联的每个顶点的表面表示和顶点属性。

基元组装器514的第二实例从曲面细分评估处理单元512接收顶点属性，根据需要读取所存储的顶点属性，并且构造图形基元以供几何处理单元516处理。几何处理单元516是可编程执行单元，其执行几何着色器程序以便如由几何着色器程序指定地对从基元组装器514接收的图形基元进行变换。在一个实施例中，几何处理单元516被编程为将图形基元细分为一个或多个新图形基元，并且计算用于对新图形基元进行光栅化的参数。

在一些实施例中，几何处理单元516可以添加或删除几何流中的元素。几何处理单元516将指定新图形基元的参数和顶点输出到基元组装器518。基元组装器518从几何处理单元516接收参数和顶点，并且构造图形基元以由视口缩放、剔除和剪辑单元520进行处理。几何处理单元516读取存储在并行处理器存储器或系统存储器中的数据以用于处理几何数据。视口缩放、剔除和剪辑单元520执行剪辑、剔除和视口缩放，并且将经处理的图形基元输出到光栅化器522。

光栅化器522可以执行深度剔除和其他基于深度的优化。光栅化器522还对新图形基元执行扫描变换以生成片段并将这些片段和相关联的覆盖数据输出到片段/像素处理单元524。片段/像素处理单元524是可编程执行单元，其被配置为执行片段着色器程序或像素着色器程序。片段/像素处理单元524如片段或像素着色器程序指定地对从光栅化器522接收的片段或像素进行变换。例如，片段/像素处理单元524可以被编程为执行包括但不限于纹理映射、着色、混合、纹理校正和透视校正的操作，以产生输出到光栅操作单元526的经着色的片段或像素。片段/像素处理单元524可以读取存储在并行处理器存储器或系统存储器中的数据，以供在处理片段数据时使用。片段或像素着色器程序可以被配置为取决于针对处理单元配置的采样率以样本、像素、图块或其他粒度进行着色。

光栅操作单元526是这样的处理单元：其执行包括但不限于模板印制、z测试、混合等的光栅操作，并且输出像素数据作为经处理的图形数据以存储在图形存储器(例如，如图2A中的并行处理器存储器222和/或如图1中的系统存储器104)中，以便在一个或多个显示设备110上显示或者由一个或多个处理器102或并行处理器112之一进一步处理。在一些实施例中，光栅操作单元526被配置为对写入存储器的z或颜色数据进行压缩，并且对从存储器读取的z或颜色数据进行解压缩。

机器学习概述

上述架构可以应用于使用机器学习模型执行训练和推断操作。机器学习在解决多种任务方面已经取得了成功。在训练和使用机器学习算法(例如，神经网络)时发生的计算自然地适于高效的并行实现。因此，诸如通用图形处理单元(GPGPU)之类的并行处理器在深度神经网络的实际实现中已经发挥了重要作用。具有单指令多线程(SIMT)架构的并行图形处理器旨在最大化图形流水线中的并行处理的量。在SIMT架构中，并行线程组尝试尽可能频繁地一起同步执行程序指令，以提高处理效率。并行机器学习算法实现提供的效率允许使用高容量网络，并且使这些网络能够在更大的数据集上进行训练。

机器学习算法是可以基于一组数据进行学习的算法。机器学习算法的实施例可以被设计为对数据集内的高级别抽象进行建模。例如，图像识别算法可以用于确定给定输入属于若干类别中的哪一个；回归算法可以在给定输入的情况下输出数值；并且模式识别算法可以用于生成经转换的文本或执行文本转语音和/或语音识别。

一种示例性类型的机器学习算法是神经网络。存在许多类型的神经网络；简单类型的神经网络是前馈网络。前馈网络可以实现为非循环图，其中节点以层的形式布置。典型地，前馈网络拓扑包括由至少一个隐藏层分隔的输入层和输出层。隐藏层将输入层接收的输入变换为可用于在输出层中生成输出的表示。网络节点经由边完全连接到相邻层中的节点，但每层内的节点之间没有边。在前馈网络的输入层的节点处接收的数据经由激活函数传播(即，“前馈”)到输出层的节点，该激活函数基于分别与连接各层的边中的每个边相关联的系数(“权重”)来计算网络中的每个连续层的节点的状态。取决于由正在执行的算法表示的特定模型，来自神经网络算法的输出可以采用各种形式。

在机器学习算法可以用于对特定问题建模之前，使用训练数据集来训练算法。训练神经网络涉及选择网络拓扑，使用表示正在由网络建模的问题的一组训练数据，并且调整权重直到网络模型对于训练数据集的所有实例表现为具有最小误差为止。例如，在用于神经网络的监督学习训练过程期间，将响应于表示训练数据集中的实例的输入而由网络产生的输出与该实例的“正确的”经标记的输出进行比较，计算表示输出与经标记的输出之间的差异的误差信号，并且在误差信号向后传播通过网络的层时调整与连接相关联的权重以便使该误差最小化。当根据训练数据集的实例生成的输出中的每个输出的误差最小化时，网络被认为是“经训练的”。

用于训练算法的数据集的质量可以显著地影响机器学习算法的准确度。训练过程可能是计算密集型的，并且可能在常规的通用处理器上要求大量时间。因此，并行处理硬件用于训练许多种类型的机器学习算法。这对于优化神经网络的训练特别有用，因为在调整神经网络中的系数时执行的计算自然地有助于并行实现。具体地，许多机器学习算法和软件应用已经被适配以利用通用图形处理设备内的并行处理硬件。

图6是机器学习软件栈600的概括图。机器学习应用602可以被配置为使用训练数据集来训练神经网络，或者使用经训练的深度神经网络来实现机器智能。机器学习应用602可以包括用于神经网络的训练和推断功能和/或可以用于在部署之前训练神经网络的专用软件。机器学习应用602可以实现任何类型的机器智能，包括但不限于图像识别、测绘和定位、自主导航、语音合成、医学成像或语言翻译。

可以经由机器学习框架604来实现针对机器学习应用602的硬件加速。机器学习框架604可以提供机器学习基元的库。机器学习基元是通常由机器学习算法执行的基本操作。在没有机器学习框架604的情况下，机器学习算法的开发者将被要求创建并优化与机器学习算法相关联的主计算逻辑，然后在开发新的并行处理器时重新优化计算逻辑。相反，机器学习应用可以被配置为使用由机器学习框架604提供的基元来执行必要的计算。示例性基元包括张量卷积、激活函数和池化，它们是在训练卷积神经网络(CNN)时执行的计算操作。机器学习框架604还可以提供基元以实现由许多机器学习算法执行的基本线性代数子程序，例如，矩阵和向量运算。

机器学习框架604可以处理从机器学习应用602接收的输入数据并生成对计算框架606的适当输入。计算框架606可以将提供给GPGPU驱动程序608的底层指令抽象化以使得机器学习框架604能够利用经由GPGPU硬件610的硬件加速，而不要求机器学习框架604具有对GPGPU硬件610的架构的深刻了解。另外，计算框架606可以跨各种类型和各代的GPGPU硬件610实现针对机器学习框架604的硬件加速。

GPGPU机器学习加速

图7示出了根据实施例的通用图形处理单元700。在一个实施例中，通用处理单元(GPGPU)700可以被配置为在处理与训练深度神经网络相关联的计算工作负载的类型方面特别高效。另外，GPGPU 700可以直接链接到GPGPU的其他实例以创建多GPU集群，以改进特别深的神经网络的训练速度。

GPGPU 700包括主机接口702，以实现与主机处理器的连接。在一个实施例中，主机接口702是快速PCI接口。然而，主机接口也可以是供应商特定的通信接口或通信结构。GPGPU 700从主机处理器接收命令，并且使用全局调度器704将与这些命令相关联的执行线程分发给一组计算集群706A-706H。计算集群706A-706H共享高速缓冲存储器708。高速缓冲存储器708可以用作计算集群706A-706H内的高速缓冲存储器的更高级别高速缓存。

GPGPU 700包括经由一组存储器控制器712A-712B与计算集群706A-H耦合的存储器714A-B。在各种实施例中，存储器714A-714B可以包括各种类型的存储器设备，包括动态随机存取存储器(DRAM)或图形随机存取存储器，例如，同步图形随机存取存储器(SGRAM)，包括图形双倍数据速率(GDDR)存储器。在一个实施例中，存储器714A-714B还可以包括3D堆叠式存储器，包括但不限于高带宽存储器(HBM)。

在一个实施例中，计算集群706A-706H中的每一个包括一组图形多处理器，例如，图4A的图形多处理器400。计算集群的图形多处理器包括多种类型的整数逻辑单元和浮点逻辑单元，这些逻辑单元可以以包括适用于机器学习计算的精度范围执行计算操作。例如，在一个实施例中，在计算集群706A-H中的每个计算集群中的至少浮点单元的子集可以被配置为执行16位浮点运算或32位浮点运算，而浮点单元的不同子集可以被配置为执行64位浮点运算。

可以将GPGPU 700的多个实例配置为作为计算集群操作。计算集群用于同步和数据交换的通信机制在实施例之间变化。在一个实施例中，GPGPU 700的多个实例通过主机接口702进行通信。在一个实施例中，GPGPU 700包括I/O中心709，其将GPGPU 700与GPU链路710耦合，GPU链路710实现与GPGPU的其他实例的直接连接。在一个实施例中，GPU链路710耦合到专用GPU到GPU桥接器，其实现GPGPU 700的多个实例之间的通信和同步。在一个实施例中，GPU链路710与高速互连耦合以向其他GPGPU或并行处理器发送数据和从其接收数据。在一个实施例中，GPGPU 700的多个实例位于单独的数据处理系统中，并且经由可通过主机接口702访问的网络设备进行通信。在一个实施例中，除了主机接口702之外或作为对主机接口702的替代，GPU链路710可以被配置为实现与主机处理器的连接。

虽然GPGPU 700的所示配置可以被配置为训练神经网络，但是一个实施例提供GPGPU 700的替代配置，其可以被配置用于在高性能或低功率推断平台内部署。在推断配置中，GPGPU 700包括相对于训练配置而言更少的计算集群706A-706H。另外，与存储器714A-714B相关联的存储器技术可以在推断配置配置与训练配置之间不同。在一个实施例中，GPGPU 700的推断配置可以支持推断特定的指令。例如，推断配置可以提供对一个或多个8位整数点积指令的支持，这些指令通常在用于部署的神经网络的推断操作期间使用。

图8示出了根据实施例的多GPU计算系统800。多GPU计算系统800可以包括经由主机接口交换机804耦合到多个GPGPU 806A-806D的处理器802。在一个实施例中，主机接口交换机804是将处理器802耦合到快速PCI总线的快速PCI交换机设备，处理器802可以通过该快速PCI总线与该组GPGPU 806A-806D通信。多个GPGPU 806A-806D中的每一个可以是图7的GPGPU 700的实例。GPGPU 806A-806D可以经由一组高速点对点GPU到GPU链路816而互连。高速GPU到GPU链路可以经由专用GPU链路(例如，图7中的GPU链路710)连接到GPGPU 806A-806D中的每一个。P2P GPU链路816实现在GPGPU 806A-806D中的每一个之间的直接通信，而不要求通过处理器802所连接到的主机接口总线进行通信。利用指向P2P GPU链路的GPU到GPU业务，主机接口总线保持可用于系统存储器访问或者与多GPU计算系统800的其他实例通信，例如，经由一个或多个网络设备。虽然在所示实施例中GPGPU 806A-D经由主机接口交换机804连接到处理器802，但是在一个实施例中，处理器802包括对P2P GPU链路816的直接支持，并且可以直接连接到GPGPU 806A-806D。

机器学习神经网络实现方式

由本文描述的实施例提供的计算架构可以被配置为执行特别适合于训练和部署用于机器学习的神经网络的并行处理类型。神经网络可以概括为具有图形关系的功能网络。如本领域公知的，在机器学习中使用各种类型的神经网络实现方式。一种示例性类型的神经网络是前馈网络，如先前描述的。

第二种示例性类型的神经网络是卷积神经网络(CNN)。CNN是专用前馈神经网络，其用于处理具有已知的网格状拓扑的数据，例如，图像数据。因此，CNN通常用于计算视觉和图像识别应用，但是CNN也可以用于其他类型的模式识别，例如，语音和语言处理。CNN输入层中的节点被组织成一组“滤波器”(由视网膜中发现的感受域激发的特征检测器)，并且每组滤波器的输出被传播到网络的连续层中的节点。针对CNN的计算包括将卷积数学运算应用于每个滤波器以产生该滤波器的输出。卷积是由两个函数执行以产生第三函数的一种特殊类型的数学运算，该第三函数是两个原始函数之一的经修改的版本。在卷积网络术语中，卷积的第一函数可以称为输入，而第二函数可以称为卷积内核。输出可以称为特征图。例如，对卷积层的输入可以是定义输入图像的各种颜色分量的多维数据阵列。卷积内核可以是多维参数阵列，其中参数通过神经网络的训练过程进行适配。

递归神经网络(RNN)是包括层之间的反馈连接的一系列前馈神经网络。RNN通过跨神经网络的不同部分共享参数数据来实现对顺序数据的建模。RNN的架构包括循环。循环表示变量的当前值在未来时间对其自身值的影响，因为来自RNN的输出数据的至少一部分被用作用于处理序列中的后续输入的反馈。由于可以组成语言数据的可变本质，该特征使RNN对于语言处理特别有用。

下面描述的附图呈现了示例性前馈网络、CNN网络和RNN网络，并且描述了分别用于训练和部署这些类型的网络中的每一种的一般过程。应当理解，这些描述对于本文描述的任何特定实施例是示例性的而非限制性的，并且一般而言所示的概念通常可以应用于深度神经网络和机器学习技术。

上述示例性神经网络可以用于执行深度学习。深度学习是使用深度神经网络的机器学习。深度学习中使用的深度神经网络是由多个隐藏层组成的人工神经网络，而不是仅包含单个隐藏层的浅神经网络。训练更深的神经网络通常更加计算密集。然而，网络的附加隐藏层实现多步骤模式识别，其相对于浅机器学习技术导致减少的输出误差。

用于深度学习的深度神经网络典型地包括前端网络，该前端网络用于执行耦合到后端网络的特征识别，后端网络表示可以基于提供给模型的特征表示执行操作(例如，对象分类、语音识别等)的数学模型。深度学习使得可以在不要求针对模型执行手工制作的特征工程的情况下执行机器学习。相反，深度神经网络可以基于输入数据内的统计结构或相关性来学习特征。可以将学习的特征提供给可以将检测到的特征映射到输出的数学模型。网络使用的数学模型通常专用于要执行的特定任务，并且将使用不同的模型来执行不同的任务。

一旦将神经网络结构化，就可以将学习模型应用于网络以训练网络执行特定任务。学习模型描述了如何调整模型内的权重以减少网络的输出误差。误差的反向传播是用于训练神经网络的常用方法。输入向量被呈现给网络以进行处理。使用损失函数将网络的输出与期望的输出进行比较，并且针对输出层中的神经元中的每个神经元计算误差值。然后向后传播误差值，直到每个神经元具有粗略地表示其对原始输出的贡献的相关联的误差值为止。然后，网络可以使用诸如随机梯度下降算法之类的算法从这些误差中学习，以更新神经网络的权重。

图9A-9B示出了示例性卷积神经网络。图9A示出了CNN内的各种层。如图9A所示，用于对图像处理进行建模的示例性CNN可以接收描述输入图像的红色、绿色和蓝色(RGB)分量的输入902。输入902可以由多个卷积层(例如，卷积层904、卷积层906)处理。来自多个卷积层的输出可以可选地由一组完全连接层908处理。完全连接层中的神经元具有与前一层中的所有激活的完全连接，如先前针对前馈网络所描述的。来自完全连接层908的输出可以用于从网络生成输出结果。可以使用矩阵乘法而不是卷积来计算完全连接层908内的激活。并非所有CNN实现方式都使用完全连接层908。例如，在一些实现方式中，卷积层906可以生成CNN的输出。

卷积层稀疏地连接，这不同于在完全连接层908中发现的传统神经网络配置。传统神经网络层被完全连接，使得每个输出单元与每个输入单元交互。然而，卷积层被稀疏地连接，因为域的卷积的输出(而不是域中的节点中的每个节点的相应状态值)被输入到后续层的节点，如图所示。与卷积层相关联的内核执行卷积运算，其输出被发送到下一层。在卷积层内执行的维度减少是使得CNN能够缩放以处理大图像的一个方面。

图9B示出了CNN的卷积层内的示例性计算阶段。可以在卷积层914的三个阶段中处理对CNN的卷积层的输入912。这三个阶段可以包括卷积阶段916、检测器阶段918和池化阶段920。然后卷积层914可以将数据输出到连续的卷积层。网络的最终卷积层可以生成输出特征图数据或者向完全连接层提供输入，例如，以生成用于对CNN的输入的分类值。

在卷积阶段916中，并行执行若干卷积以产生一组线性激活。卷积阶段916可以包括仿射变换，该仿射变换是可以被指定为线性变换加上平移的任何变换。仿射变换包括旋转、平移、缩放以及这些变换的组合。卷积阶段计算连接到输入中的特定区域的函数(例如，神经元)的输出，该特定区域可以被确定为与神经元相关联的局部区域。神经元计算神经元的权重与神经元所连接到的局部输入中的区域之间的点积。来自卷积阶段916的输出定义了一组线性激活，该组线性激活由卷积层914的连续阶段处理。

线性激活可以由检测器阶段918处理。在检测器阶段918中，每个线性激活由非线性激活函数处理。非线性激活函数增加了整个网络的非线性性质，而不影响卷积层的感受域。可以使用若干类型的非线性激活函数。一种特定类型是修正线性单元(ReLU)，其使用定义为f(x)＝max(0,x)的激活函数，使得激活以零为阈值。

池化阶段920使用池化函数，该池化函数用附近输出的概要统计来替换卷积层906的输出。池化函数可以用于将平移不变性引入神经网络，使得对输入的小的平移不会改变池化的输出。在特征在输入数据中的存在比特征的精确位置更重要的场景中，对局部平移的不变性可能是有用的。在池化阶段920期间可以使用各种类型的池化函数，包括最大池化、平均池化和l2-范数池化。另外，一些CNN实现方式不包括池化阶段。相反，这样的实现方式替代并且附加卷积阶段相对于先前的卷积阶段具有增加的步幅。

然后，来自卷积层914的输出可以由下一层922处理。下一层922可以是附加卷积层或者是完全连接层908之一。例如，图9A的第一卷积层904可以输出到第二卷积层906，而第二卷积层可以输出到完全连接层908中的第一层。

图10示出了示例性递归神经网络1000。在递归神经网络(RNN)中，网络的先前状态影响网络的当前状态的输出。RNN可以使用多种函数以多种方式构建。RNN的使用通常围绕使用数学模型来基于先前的输入序列预测未来。例如，RNN可以用于执行统计语言建模，以在给定先前词语序列的情况下预测即将到来的词语。可以将所示的RNN 1000描述为具有接收输入向量的输入层1002，实现递归功能的隐藏层1004，实现对先前状态的“记忆”的反馈机制1005，以及输出结果的输出层1006。RNN 1000基于时间步来操作。经由反馈机制1005基于前一时间步来影响RNN在给定时间步处的状态。对于给定时间步，隐藏层1004的状态由前一状态和当前时间步处的输入限定。第一时间步处的初始输入(x₁)可以由隐藏层1004处理。隐藏层1004可以使用在处理初始输入(x₁)期间确定的状态信息来处理第二输入(x₂)。给定状态可以计算为s_t＝f(Ux_t+Ws_t-1)，其中U和W是参数矩阵。函数f通常是非线性的，例如，双曲正切函数(Tanh)或修正函数f(x)＝max(0,x)的变型。然而，隐藏层1004中使用的特定数学函数可以取决于RNN 1000的特定实现细节而变化。

除了所描述的基本CNN网络和RNN网络之外，可以实现这些网络的变型。一个示例RNN变型是长短期记忆(LSTM)RNN。LSTM RNN能够学习处理较长语言序列必需的长期相关性。CNN的变型是卷积深度信念网络，其具有类似于CNN的结构并且以类似于深度信念网络的方式训练。深度信念网络(DBN)是由多层随机的(随机)变量组成的生成式神经网络。可以使用贪婪无监督学习逐层训练DBN。然后，通过确定神经网络的最佳初始权重集，可以使用DBN的学习的权重来提供预训练的神经网络。

图11示出了深度神经网络的训练和部署。一旦给定网络已经针对任务被结构化，则使用训练数据集1102来训练神经网络。已经开发了各种训练框架1104以实现对训练过程的硬件加速。例如，图6的机器学习框架604可以被配置作为训练框架604。训练框架604可以接入未经训练的神经网络1106，并且使得使用本文描述的并行处理资源对未经训练的神经网进行训练，以生成经训练的神经网络1108。

为了开始训练过程，可以随机地或通过使用深度信念网络的预训练来选择初始权重。然后，训练循环以监督方式或无监督方式来执行。

监督学习是这样的学习方法：其中训练作为中介操作来执行，例如，当训练数据集1102包括与输入的期望输出配对的输入时，或者在训练数据集包括具有已知输出的输入并且神经网络的输出被手动分级的情况下。网络处理输入并将得到的输出与一组预期或期望的输出进行比较。然后，误差将通过系统传播回来。训练框架1104可以进行调整以调整控制未经训练的神经网络1106的权重。训练框架1104可以提供工具来监视未经训练的神经网络1106向适合于基于已知输入数据生成正确答案的模型收敛的程度。随着网络的权重被调整，训练过程重复发生，以细化由神经网络生成的输出。训练过程可以继续，直到神经网络达到与经训练的神经网络1108相关联的统计上期望的准确度。然后可以部署经训练的神经网络1108以实现任何数量的机器学习操作，从而基于新数据1112的输入生成推断结果1114。

无监督学习是这样的学习方法：其中网络尝试使用未标记数据对其自身进行训练。因此，对于无监督学习，训练数据集1102将包括没有任何相关联的输出数据的输入数据。未经训练的神经网络1106可以学习未标记输入内的分组，并且可以确定个体输入如何与整个数据集相关。无监督训练可以用于生成自组织映射，其是一种类型的经训练的神经网络1108，能够执行有助于减少数据维度的操作。无监督训练还可以用于执行异常检测，这允许识别输入数据集中偏离正常数据模式的数据点。

还可以采用监督训练和无监督训练的变化。半监督学习是这样的技术：其中训练数据集1102中包括具有相同分布的已标记数据和未标记数据的混合。增量学习是监督学习的变型，其中输入数据被持续用于进一步训练模型。增量学习使得经训练的神经网络1108能够适配新数据1112，而不忘记在初始训练期间灌注在网络内的知识。

无论是监督还是无监督，用于特别深的神经网络的训练过程对于单个计算节点可能过于计算密集。可以使用分布式计算节点网络而不是使用单个计算节点来加速训练过程。

图12是示出分布式学习的框图。分布式学习是使用多个分布式计算节点来执行对神经网络的监督训练或无监督训练的训练模型。分布式计算节点可以各自包括一个或多个主机处理器以及通用处理节点中的一个或多个通用处理节点，例如，图7中的高度并行的通用图形处理单元700。如图所示，分布式学习可以执行模型并行化1202、数据并行化1204或模型和数据并行化1206的组合。

在模型并行化1202中，分布式系统中的不同计算节点可以针对单个网络的不同部分执行训练计算。例如，神经网络的每个层可以由分布式系统的不同处理节点训练。模型并行化的好处包括缩放到特别大的模型的能力。对与神经网络的不同层相关联的计算进行分割使得能够对其中所有层的权重将不适应于单个计算节点的存储器的非常大的神经网络进行训练。在一些实例中，模型并行化在执行大型神经网络的无监督训练时特别有用。

在数据并行化1204中，分布式网络的不同节点具有模型的完整实例，并且每个节点接收数据的不同部分。然后组合来自不同节点的结果。虽然用于数据并行化的不同方法是可能的，但数据并行训练方法都要求组合结果并且在每个节点之间同步模型参数的技术。用于组合数据的示例性方法包括参数平均和基于更新的数据并行化。参数平均关于训练数据的子集来训练每个节点，并且将全局参数(例如，权重、偏差)设置为来自每个节点的参数的平均值。参数平均使用维护参数数据的中央参数服务器。基于更新的数据并行化与参数平均类似，除了不是将参数从节点传送到参数服务器，而是传送对模型的更新。另外，可以以分散的方式执行基于更新的数据并行化，其中更新被压缩并在节点之间传送。

组合的模型和数据并行化1206可以例如在其中每个计算节点包括多个GPU的分布式系统中实现。每个节点可以具有模型的完整实例，其中每个节点内的单独的GPU用于训练模型的不同部分。

相对于在单个机器上的训练，分布式训练增加了开销。然而，本文描述的并行处理器和GPGPU可以各自实现各种技术以减少分布式训练的开销，包括用于实现高带宽GPU到GPU数据传送和加速的远程数据同步的技术。

示例性机器学习应用

机器学习可以应用于解决各种技术问题，包括但不限于计算机视觉、自主驾驶和导航、语音识别和语言处理。计算机视觉传统上是对于机器学习应用而言最活跃的研究领域之一。计算机视觉的应用的范围从再现人类视觉能力(例如，识别面部)到创建新的视觉能力类别。例如，计算机视觉应用可以被配置为识别来自视频中的可见对象中引起的振动的声波。并行处理器加速的机器学习使得能够使用比先前可行的显著更大的训练数据集对计算机视觉应用进行训练，并且使得能够使用低功率并行处理器来部署推断系统。

并行处理器加速的机器学习具有自主驾驶应用，包括车道和道路标志识别、避障、导航和驾驶控制。加速的机器学习技术可以用于基于定义对特定训练输入的适当响应的数据集来训练驾驶模型。本文描述的并行处理器可以使得能够快速训练用于自主驾驶解决方案的日益复杂的神经网络，并且使得能够在适于集成到自主车辆中的移动平台中部署低功率推断处理器。

并行处理器加速的深度神经网络使得机器学习方法能够用于自动语音识别(ASR)。ASR包括创建在给定输入声学序列的情况下计算最可能的语言序列的函数。使用深度神经网络的加速的机器学习使得能够替换先前用于ASR的隐马尔可夫模型(HMM)和高斯混合模型(GMM)。

并行处理器加速的机器学习还可以用于加速自然语言处理。自动学习过程可以利用统计推断算法来产生对错误的或不熟悉的输入鲁棒的模型。示例性自然语言处理器应用包括人类语言之间的自动机器翻译。

用于机器学习的并行处理平台可以划分为训练平台和部署平台。训练平台通常高度并行，并且包括优化以加速多GPU单节点训练和多节点多GPU训练。适于进行训练的示例性并行处理器包括图7的通用图形处理单元700和图8的多GPU计算系统800。相反，部署的机器学习平台通常包括适用于诸如相机、自主机器人和自主车辆之类的产品的低功率并行处理器。

图13示出了适用于使用经训练的模型来执行推断的示例性推断片上系统(SOC)1300。SOC 1300可以集成处理组件，包括媒体处理器1302、视觉处理器1304、GPGPU 1306和多核心处理器1308。SOC 1300另外可以包括可以实现处理组件中的每个处理组件可访问的共享片上数据池的片上存储器1305。处理组件可以针对低功率操作进行优化，以使得能够部署到包括自主车辆和自主机器人在内的多种机器学习平台。例如，SOC 1300的一个实现方式可以用作自主车辆的主控制系统的一部分。在SOC 1300被配置用于自主车辆中的情况下，SOC被设计和配置为符合部署管辖权的相关功能安全标准。

在操作期间，媒体处理器1302和视觉处理器1304可以协同工作以加速计算机视觉操作。媒体处理器1302可以实现对多个高分辨率(例如，4K、8K)视频流的低延时解码。解码的视频流可以被写入片上存储器1305中的缓冲器。视觉处理器1304然后可以解析解码的视频，并且在准备使用经训练的图像识别模型来处理解码的视频的帧时对帧执行初步处理操作。例如，视觉处理器1304可以加速用于对高分辨率视频数据执行图像识别的CNN的卷积运算，同时后端模型计算由GPGPU 1306执行。

多核心处理器1308可以包括控制逻辑，以协助对由媒体处理器1302和视觉处理器1304执行的数据传送和共享存储器操作的排序和同步。多核心处理器1308还可以用作执行可以利用GPGPU 1306的推断计算能力的软件应用的应用处理器。例如，导航和驱动逻辑的至少一部分可以以在多核心处理器1308上执行的软件来实现。这样的软件可以直接向GPGPU 1306发布计算工作负载，或者计算工作负载可以发布到多核心处理器1308，多核心处理器1308可以将这些操作的至少一部分卸载到GPGPU 1306。

GPGPU 1306可以包括计算集群，例如，通用图形处理单元700内的计算集群706A-706H的低功率配置。GPGPU 1306内的计算集群可以支持专门优化以在经训练的神经网络上执行推断计算的指令。例如，GPGPU 1306可以支持用于执行诸如8位整数向量运算和4位整数向量运算之类的低精度计算的指令。

在深度学习的后向传递期间要求在前向传递期间生成的激活数据。激活数据被写入高带宽存储器(HBM)并在后向传递期间读回。对HBM的读/写操作的延迟可能很长。

本发明的实施例替换大量带宽片外存储器(HBM)，以及对于图形处理器在片上的高密度慢速存储器(HDSM)消耗的功率。将来某个已知时间需要激活数据，并且可以将数据从HDSM移动到高速缓存中，以便在需要激活数据时快速从高速缓存中获得激活数据。在一个实施例中，慢速片上存储器(HDSM)在片上保存该激活数据。HDSM可以作为单独的管芯要么放置在封装内作为平面管芯，要么与计算管芯一起3D堆叠，这使得特定的工艺/制造能够提供更高的密度。这种分解的管芯可以实现SRAM、DRAM或任何类似的存储技术，并且不需要与用于计算元件的工艺/制造相关。

图14A示出了根据一个实施例的与图形处理单元、图形多处理器、图形处理器或片上系统1400一起在片上的HDSM。该HDSM 1410不必像高速缓存那样具有高带宽，因为直到将来的预定时间点(提前已知)才会访问HDSM。HDSM 1410可以是利用未使用的周边芯片空间的类似FIFO的结构或如图14B所示的更传统的类似FIFO的结构1460，以最小化路由和互连成本。在一个深度学习示例中，可以认为来自前向传递的激活数据在芯片1400周围缓慢循环，直到在后向传递期间将需要激活数据的时间点。在需要该数据之前一点时间(例如，之前5到10毫秒，之前1到50毫秒)，从HDSM中读出该数据，然后将其推送到片上的高速缓存(例如，高速缓存1420)中以便容易地以高带宽访问。本设计为存储器节省了大量带宽(例如，对片外存储器的读取和写入)，并且还节省了功率。

图形处理单元、图形多处理器、图形处理器或片上系统1400包括计算引擎(例如，1412、1414)，该计算引擎与串行逻辑1432并行以用于在进入1411HDSM之前并行加载数据并以串行格式移出数据，并且与并行逻辑1430串行以用于以串行格式加载数据并以并行格式传出数据，该数据作为串行数据离开1412HDSM并且作为并行数据进入高速缓存1420。

图15示出了根据一个实施例的与图形处理单元、图形多处理器、图形处理器或片上系统1400一起在片上的栈(例如，LIFO固定尺寸结构)。在一个深度学习示例中，来自前向传递的激活数据最初被推入栈1510，直到在后向传递期间将需要激活数据的时间点。元素离开栈的次序产生了它的替代名称，LIFO(后进先出)。在需要该数据之前一点时间，该数据从栈中弹出到片上的高速缓存(例如，高速缓存1520)中，以便容易地以高带宽访问。可替代地，可以将数据从栈中弹出到寄存器中以用于计算。在另一示例中，可以在需要指令或数据之前从栈中预取指令或数据。本设计为存储器节省了大量带宽(例如，对片外存储器的读取和写入)，并且还节省了功率。

在片上存储空间有限的另一示例中，某些层(例如，每隔一层)的数据被推入栈，而其他层的数据不被推入栈。从栈中弹出的数据被重新计算，以便确定没有被推入栈的缺失层。与片外存储器访问相比，在较高带宽的情况下，重新计算所花费的附加时间仍然更快。

图16A示出了根据本文描述的一些实施例的集成电路封装组装件1670的横截面侧视图。集成电路封装组装件1670示出了如本文描述的一个或多个GPU、图形处理器或图形多处理器的实现方式。封装组装件1670包括连接到衬底1610的硬件逻辑1620、1630的多个单元。逻辑1620、1630可以至少部分地以可配置逻辑或固定功能逻辑硬件来实现，并且可以包括(多个)处理器核心、(多个)图形处理器或本文描述的其他加速器设备中的任一个的一个或多个部分。每个逻辑1620、1630的单元可以在半导体管芯内实现，并且经由互连结构1673与衬底1610耦合。互连结构1673可以被配置为在逻辑1620、1630与衬底1610之间路由电信号，并且可以包括互连(例如但不限于凸块或柱)。在一些实施例中，互连结构1673可以被配置为路由电信号，例如，与逻辑1620、1630的操作相关联的输入/输出(I/O)信号和/或电源或接地信号。在一些实施例中，衬底1610(例如，GPU基底)是环氧基层压衬底。在其他实施例中，衬底1610可以包括其他合适类型的衬底。封装组装件1670可以经由封装互连1683连接到其他电气设备。封装互连1683可以耦合到衬底1610的表面以将电信号路由到其他电气设备，例如，主板、其他芯片组或多芯片模块。

在一些实施例中，逻辑1620、1630的单元与被配置为在逻辑1620、1630之间路由电信号的桥接器1682电耦合。桥接器1682可以是为电信号提供路由的密集互连结构。桥接器1682可以包括由玻璃或合适的半导体材料构成的桥接器衬底。电路由特征可以在桥接器衬底上形成以提供逻辑1620、1630之间的芯片到芯片连接。

虽然示出了逻辑1620、1630、1650-1653、1660-1663和桥接器1682，但是本文描述的实施例可以在一个或多个管芯上包括更多或更少的逻辑单元。一个或多个管芯可以通过零个或多个桥接器连接，因为当逻辑包含于单个管芯上时可以排除桥接器1682。可替代地，多个管芯或逻辑单元可以通过一个或多个桥接器连接。另外，多个逻辑单元、管芯和桥接器可以以其他可能的配置连接在一起，包括具有GPU小芯片1620、1630和密集存储器1650-1653、1660-1663的三维配置。

利用新的封装技术，可以集成更接近GPU计算结构的高密度存储器结构。这种存储器结构可以定义为专用存储器，或更简单的选项定义为高速缓存。这可以通过GPU小芯片上的堆叠式存储器结构来完成，如图16A所示。小芯片堆叠在衬底1610上。在计算小芯片上的堆叠式存储器1650-1653、1660-1663(例如，DRAM)减少了延时和功率，同时增加了用于存储器的带宽。

图16B示出了根据本文描述的一些实施例的集成电路封装组装件1671的横截面侧视图。集成电路封装组装件1671示出了如本文描述的一个或多个GPU、图形处理器或图形多处理器的实现方式。封装组装件1671包括衬底1611、1612(例如，用于包括10纳米设计的不同设计的图形基础管芯)和分别连接到衬底1611、1612的硬件逻辑1621、1631的单元。逻辑1621、1631可以至少部分地以可配置逻辑或固定功能逻辑硬件来实现，并且可以包括本文描述的(多个)处理器核心、(多个)图形处理器或其他加速器设备中的任一个的一个或多个部分。每个逻辑1621、1631的单元可以在半导体管芯(例如，用于包括7纳米设计的不同设计的图形计算管芯)内实现，并且经由互连结构1674与衬底耦合。互连结构1674可以被配置为在逻辑电路1621、1631与衬底之间路由电信号，并且可以包括互连(例如但不限于凸块或柱)。在一些实施例中，互连结构1674可以被配置为路由电信号，例如，与逻辑1621、1631的操作相关联的输入/输出(I/O)信号和/或电源或接地信号。在一些实施例中，衬底1611、1612(例如，GPU基底)是环氧基层压衬底。在其他实施例中，衬底可以包括其他合适类型的衬底。封装组装件1671可以经由封装互连1684连接到其他电气设备。封装互连1684可以耦合到衬底的表面以将电信号路由到其他电气设备，例如，主板、其他芯片组或多芯片模块。

在一些实施例中，逻辑1621、1631的单元与被配置为在逻辑1621、1631之间路由电信号的桥接器1689电耦合。桥接器1689可以是为电信号提供路由的密集互连结构。桥接器1689可以包括由玻璃或合适的半导体材料构成的桥接器衬底。电路由特征可以在桥接器衬底上形成以提供逻辑1621、1631之间的芯片到芯片连接。

虽然示出了逻辑1621、1631、1655-1658、1665-1668和桥接器1689，但是本文描述的实施例可以在一个或多个管芯上包括更多或更少的逻辑单元。一个或多个管芯可以通过零个或多个桥接器连接，因为当逻辑包含于单个管芯上时可以排除桥接器1689。可替代地，多个管芯或逻辑单元可以通过一个或多个桥接器连接。另外，多个逻辑单元、管芯和桥接器可以以其他可能的配置连接在一起，包括具有GPU小芯片1621、1631和密集存储器1655-1658、1665-1668的三维配置。

利用新的封装技术，可以集成更接近GPU计算结构的高密度存储器结构。这种存储器结构可以定义为专用存储器，或更简单的选项定义为高速缓存。这可以通过GPU小芯片上的堆叠式存储器结构来完成，如图16B所示。计算管芯1621、1631(或小芯片)堆叠在衬底1611、1612上。在计算管芯1621、1631(或小芯片)上的堆叠式存储器1655-1658、1665-1668(例如，DRAM)减少了延时和功率，同时增加了用于存储器的带宽。

在另一实施例中，通过将DRAM结构嵌入如图17A所示的GPU 1700来创建大的高速缓存。与SRAM相比，eDRAM 1750密度更高且泄漏更低。由于大的激活输出缓冲器，该实施例对于机器学习和深度学习很重要。GPU可以包括如本文描述的各种组件(例如，处理核心、着色器核心1710-1717)。

在多GPU系统中，每个GPU具有与其连接的本地存储器。对于利用多个GPU卡构建的典型服务器系统，所有GPU的存储器都成为可用于应用的统一系统存储器池的一部分。这种具有非均匀存储器(NUMA)的系统会给服务器/计算应用带来问题。由于物理存储器是基于可用性在运行时分配的，因此如果应用的存储器恰好是从本地GPU的存储器分配的，那么将获得低延时(更高的性能)。如果应用的存储器是在远程GPU上分配的，则将看到更高的延时(低性能)。这将导致性能的运行间变化，因为分配的存储器在热系统(已经运行很长时间的系统——典型地对于服务器而言)中变得碎片化。

为了减少这些问题，本设计以细粒度(例如，1KB、4KB)跨GPU交错物理存储器1790，如图2D、图3A、图8中所示。这将确保在给定跨多次访问的平均延时的情况下，任何大缓冲器都将跨多GPU系统的所有GPU分布。

本设计周期性地执行跨GPU对存储器页的碎片整理/迁移以跨GPU平衡可用存储器，如图17B所示。方法1750包括根据实施例的图形处理单元、图形多处理器或图形处理器的碎片整理电路(例如，同步电路280)的示例性操作序列。具有驱动器(例如，GPU的设备驱动器608、2626)的图形处理单元、图形多处理器或图形处理器根据一个实施例执行操作。

随着时间的经过，如果某个GPU比其他GPU具有更多的空闲存储器，则该方法将周期性地对其进行平衡。在操作1760处，驱动器将第一交错存储器的页表中的页临时地标记为“无效”。在操作1762处，驱动器将页从第一交错存储器迁移到具有可用存储器的第二交错存储器。在操作1764处，驱动器更新页表映射，然后在第一交错存储器中再次将其标记为“有效”，并且这会在第一交错存储器中创建可用存储器。这在不同GPU的交错存储器之间使存储器平衡。

附加的示例性图形处理系统

上述实施例的细节可以并入下述图形处理系统和设备中。图18A至图29的图形处理系统和设备示出了可以实现上述技术中的任一种和全部的替代系统和图形处理硬件。

系统概述

图18A是根据实施例的处理系统1700的框图。系统1700可以用于单处理器桌面系统、多处理器工作站系统，或具有大量处理器1702或处理器核心1707的服务器系统。在一个实施例中，系统1700是处理平台，该处理平台被并入片上系统(SoC)集成电路内以用于移动、手持或嵌入式设备中(例如，在具有到局域网或广域网的有线或无线连接的物联网(IoT)设备内)。

在一个实施例中，系统1700可以包括以下各项、与以下各项耦合或集成在以下各项内：基于服务器的游戏平台；游戏控制台，包括游戏和媒体控制台；移动游戏控制台、手持游戏控制台或在线游戏控制台。在一些实施例中，系统1700是移动电话、智能电话、平板计算设备或具有低内部存储容量的诸如膝上型计算机之类的移动互联网连接设备的一部分。处理系统1700还可以包括以下各项、与以下各项耦合或集成在以下各项内：可穿戴设备，例如，智能手表可穿戴设备；智能眼镜或服装，其利用增强现实(AR)或虚拟现实(VR)特征进行增强，以提供视觉、音频或触觉输出，从而补充真实世界视觉、音频或触觉体验，或以其他方式提供文本、音频、图形、视频、全息图像或视频或触觉反馈；其他增强现实(AR)设备；或其他虚拟现实(VR)设备。在一些实施例中，处理系统1700包括电视机或机顶盒设备或者是其一部分。

在一些实施例中，系统1700可以包括自动驾驶车辆、与自动驾驶车辆耦合或集成在自动驾驶车辆内，该自动驾驶车辆例如为公共汽车、拖拉机拖车、汽车、电机或电力循环、飞机或滑翔机(或其任何组合)。自动驾驶车辆可以使用系统1700来处理车辆周围感测到的环境。

在一些实施例中，一个或多个处理器1702各自包括一个或多个处理器核心1707以处理指令，该指令在被执行时执行用于系统或用户软件的操作。在一些实施例中，一个或多个处理器核心1707中的至少一个被配置为处理特定指令集1709。在一些实施例中，指令集1709可以促进复杂指令集计算(CISC)、精简指令集计算(RISC)或经由超长指令字(VLIW)的计算。一个或多个处理器核心1707可以处理不同的指令集1709，其可以包括促进其他指令集的模拟的指令。处理器核心1707还可以包括其他处理设备，例如，数字信号处理器(DSP)。

在一些实施例中，处理器1702包括高速缓冲存储器1704。取决于架构，处理器1702可以具有单个内部高速缓存或多级内部高速缓存。在一些实施例中，高速缓冲存储器在处理器1702的各个组件之间共享。在一些实施例中，处理器1702还使用外部高速缓存(例如，3级(L3)高速缓存或最后一级高速缓存(LLC))(未示出)，其可以使用已知的高速缓存一致性技术在处理器核心1707之间共享。寄存器文件1706可以另外包括在处理器1702中，并且可以包括用于存储不同类型数据的不同类型的寄存器(例如，整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器)。一些寄存器可以是通用寄存器，而其他寄存器可以专用于处理器1702的设计。

在一些实施例中，一个或多个处理器1702与一条或多条接口总线1710耦合，以在处理器1702与系统1700中的其他组件之间传输诸如地址、数据或控制信号之类的通信信号。在一个实施例中，接口总线1710可以是处理器总线，例如，直接介质接口(DMI)总线的版本。然而，处理器总线不限于DMI总线，并且可以包括一条或多条外围组件互连总线(例如，PCI、快速PCI)、存储器总线或其他类型的接口总线。在一个实施例中，(多个)处理器1702包括集成存储器控制器1716和平台控制器中心1730。存储器控制器1716促进存储器设备与系统1700的其他组件之间的通信，而平台控制器中心(PCH)1730经由本地I/O总线提供与I/O设备的连接。

存储器设备1720可以是动态随机存取存储器(DRAM)设备、静态随机存取存储器(SRAM)设备、闪速存储器设备、相变存储器设备，或具有合适性能以用作进程存储器的一些其他存储器设备。在一个实施例中，存储器设备1720可以作为系统1700的系统存储器操作，以存储数据1722和指令1721以供在一个或多个处理器1702执行应用或进程时使用。存储器控制器1716还与可选的外部图形处理器1718耦合，该外部图形处理器1718可以与处理器1702中的一个或多个图形处理器1708通信以执行图形和媒体操作。在一些实施例中，图形、媒体和/或计算操作可以由加速器1712辅助，该加速器1712是可以被配置为执行专门的一组图形、媒体或计算操作的协处理器。例如，在一个实施例中，加速器1712是用于优化机器学习或计算操作的矩阵乘法加速器。在一个实施例中，加速器1712是可以用于与图形处理器1708协同执行光线追踪操作的光线追踪加速器。在一些实施例中，显示设备1711可以连接到(多个)处理器1702。显示设备1711可以是内部显示设备(如在移动电子设备或膝上型设备中)或经由显示接口(例如，DisplayPort等)附接的外部显示设备中的一个或多个。在一个实施例中，显示设备1711可以是头戴式显示器(HMD)，例如，用于虚拟现实(VR)应用或增强现实(AR)应用中的立体显示设备。

在一些实施例中，平台控制器中心1730使外围设备能够经由高速I/O总线连接到存储器设备1720和处理器1702。I/O外围设备包括但不限于音频控制器1746、网络控制器1734、固件接口1728、无线收发器1726、触摸传感器1725、数据存储设备1724(例如，非易失性存储器、易失性存储器、硬盘驱动器、闪速存储器、NAND、3D NAND、3D XPoint等)。数据存储设备1724可以经由存储接口(例如，SATA)或经由外围总线(例如，外围组件互连总线(例如，PCI、快速PCI))来连接。触摸传感器1725可以包括触摸屏传感器、压力传感器或指纹传感器。无线收发器1726可以是Wi-Fi收发器、蓝牙收发器，或者诸如3G、4G、5G或长期演进(LTE)收发器之类的移动网络收发器。固件接口1728实现与系统固件的通信，并且可以是例如统一可扩展固件接口(UEFI)。网络控制器1734可以实现与有线网络的网络连接。在一些实施例中，高性能网络控制器(未示出)与接口总线1710耦合。在一个实施例中，音频控制器1746是多通道高清音频控制器。在一个实施例中，系统1700包括可选的传统I/O控制器1740，用于将传统(例如，个人系统2(PS/2))设备耦合到系统。平台控制器中心1730还可以连接到一个或多个通用串行总线(USB)控制器1742连接输入设备，例如，键盘和鼠标1743组合、相机1744或其他USB输入设备。

应当理解，所示系统1700是示例性的而非限制性的，因为也可以使用不同配置地其他类型的数据处理系统。例如，存储器控制器1716和平台控制器中心1730的实例可以集成到分立的外部图形处理器(例如，外部图形处理器1718)中。在一个实施例中，平台控制器中心1730和/或存储器控制器1716可以在一个或多个处理器1702外部。例如，系统1700可以包括外部存储器控制器1716和平台控制器中心1730，其可以被配置为在与(多个)处理器1702通信的系统芯片组内的存储器控制器中心和外围控制器中心。

例如，可以使用电路板(“托架(sled)”)，其上放置的诸如CPU、存储器之类的组件和其他组件被设计用于提高热性能。在一些示例中，诸如处理器之类的处理组件位于托架的顶侧，而诸如DIMM之类的近存储器位于托架的底侧。由于这种设计提供了增强的气流，因此这些组件与在典型系统中相比可以在更高的频率和功率水平下操作，从而提高性能。此外，托架被配置为与机架(rack)中的电力和数据通信电缆盲配合，由此提高它们被快速移除、升级、重新安装和/或更换的能力。类似地，位于托架上的单独的组件(例如，处理器、加速器、存储器和数据存储驱动器)由于彼此之间的间距增加而被配置为易于升级。在说明性实施例中，组件另外包括硬件证明特征以证实它们的真实性。

数据中心可以利用单个网络架构(“结构”)，该单个网络架构支持包括以太网和Omni-Path的多个其他网络架构。托架可以经由光纤耦合到交换机，光纤与典型的双绞线布线(例如，类别5、类别5e、类别6等)相比，提供更高的带宽和更低的延时。由于高带宽、低延时互连和网络架构，数据中心在使用中可以将诸如存储器、加速器(例如，GPU、图形加速器、FPGA、ASIC、神经网络和/或人工智能加速器等)以及物理上分解的数据存储驱动器之类的资源池化，并且根据需要将它们提供给计算资源(例如，处理器)，从而使计算资源能够访问池化的资源，就好像这些资源在本地一样。

电力供应或电源可以向系统1700或本文描述的任何组件或系统提供电压和/或电流。在一个示例中，电力供应包括插入壁式插座的AC到DC(交流到直流)适配器。这种AC电源可以是可再生能源(例如，太阳能)电源。在一个示例中，电源包括DC电源，例如，外部AC到DC转换器。在一个示例中，电源或电力供应包括无线充电硬件以经由靠近充电场来进行充电。在一个示例中，电源可以包括内部电池、交流电源、基于运动的电源、太阳能电源或燃料电池电源。

图18B是具有一个或多个处理器核心1802A-1802N、集成的存储器控制器1814和集成的图形处理器1808的处理器1800的实施例的框图。图18中的具有与本文任何其他附图中的元件相同的附图标记(或名称)的元件可以以与本文其他地方描述的方式类似的任何方式操作或起作用，但不限于此。处理器1800可以包括附加的核心，所述附加的核心多达并且包括由虚线框表示的附加核心1802N。处理器核心1802A-1802N中的每一个包括一个或多个内部高速缓存单元1804A-1804N。在一些实施例中，每个处理器核心还可以对一个或多个共享高速缓存单元1806具有访问权。

内部高速缓存单元1804A-1804N和共享高速缓存单元1806表示处理器1800内的高速缓冲存储器层级。高速缓冲存储器层级可以包括每个处理器核心内的至少一个级别的指令和数据高速缓存以及一个或多个级别的共享中间级别高速缓存，例如，2级(L2)、3级(L3)、4级(L4)或其他级别的高速缓存，其中在外部存储器之前的最高一级高速缓存被分类为LLC。在一些实施例中，高速缓存一致性逻辑维持各种高速缓存单元1806和1804A-1804N之间的一致性。

在一些实施例中，处理器1800还可以包括一组一个或多个总线控制器单元1816和系统代理核心1810。一个或多个总线控制器单元1816管理一组外围总线，例如，一条或多条PCI或快速PCI总线。系统代理核心1810为各种处理器组件提供管理功能。在一些实施例中，系统代理核心1810包括一个或多个集成的存储器控制器1814，以用于管理对各种外部存储器设备(未示出)的访问。

在一些实施例中，处理器核心1802A-1802N中的一个或多个包括对同时多线程化的支持。在这样的实施例中，系统代理核心1810包括用于在多线程化的处理期间协调和操作核心1802A-1802N的组件。系统代理核心1810可以另外包括功率控制单元(PCU)，其包括用于调节处理器核心1802A-1802N和图形处理器1808的功率状态的逻辑和组件。

在一些实施例中，处理器1800另外包括图形处理器1808，以用于执行图形处理操作。在一些实施例中，图形处理器1808与该组共享高速缓存单元1806和系统代理核心1810(包括一个或多个集成的存储器控制器1814)耦合。在一些实施例中，系统代理核心1810还包括显示控制器1811，以用于将图形处理器输出驱动到一个或多个耦合的显示器。在一些实施例中，显示控制器1811还可以是经由至少一个互连与图形处理器耦合的单独模块，或者可以集成在图形处理器1808内。

在一些实施例中，基于环形的互连单元1812用于耦合处理器1800的内部组件。然而，可以使用替代的互连单元，例如，点对点互连、交换互连或其他技术，包括本领域公知的技术。在一些实施例中，图形处理器1808经由I/O链路1813与环形互连1812耦合。

示例性I/O链路1813表示多种I/O互连中的至少一种，包括促进各种处理器组件与诸如eDRAM模块之类的高性能嵌入式存储器模块1818之间的通信的封装上I/O互连。在一些实施例中，处理器核心1802A-1802N和图形处理器1808中的每一个能够使用嵌入式存储器模块1818作为共享的最后一级高速缓存。

在一些实施例中，处理器核心1802A-1802N是执行相同指令集架构的同构核心。在另一实施例中，处理器核心1802A-1802N在指令集架构(ISA)方面是异构的，其中处理器核心1802A-1802N中的一个或多个执行第一指令集，而其他核心中的至少一个执行第一个指令集的子集或不同的指令集。在一个实施例中，处理器核心1802A-1802N在微架构方面是异构的，其中具有相对更高功耗的一个或多个核心与具有更低功耗的一个或多个功率核心耦合。在一个实施例中，处理器核心1802A-1802N在计算能力方面是异构的。另外，处理器1800可以在具有所示组件以及其他组件的一个或多个芯片上实现或者实现为具有所示组件以及其他组件的SoC集成电路。

图19是图形处理器1900的框图，图形处理器1900可以是分立的图形处理单元，或者可以是与多个处理核心或其他半导体器件(例如但不限于，存储器设备或网络接口)集成的图形处理器。在一些实施例中，图形处理器经由存储器映射的I/O接口并且利用放入处理器存储器中的命令与图形处理器上的寄存器通信。在一些实施例中，图形处理器1900包括用于访问存储器的存储器接口1914。存储器接口1914可以是与本地存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存和/或系统存储器的接口。

在一些实施例中，图形处理器1900还包括显示控制器1902，以用于将显示输出数据驱动到显示设备1918。显示控制器1902包括用于显示和组成视频或用户界面元素的多个层的一个或多个覆盖平面的硬件。显示设备1918可以是内部显示设备或外部显示设备。在一个实施例中，显示设备1918是头戴式显示设备，例如，虚拟现实(VR)显示设备或增强现实(AR)显示设备。在一些实施例中，图形处理器1900包括视频编解码器引擎1906，以用于将媒体编码、解码为一种或多种媒体编码格式，将媒体从一种或多种媒体编码格式进行编码、解码或者将媒体在一种或多种媒体编码格式之间进行转码，这些媒体编码格式包括但不限于：动态图像专家组(MPEG)格式(例如，MPEG-2)，高级视频编码(AVC)格式(例如，H.264/MPEG-4AVC)，H.265/HEVC，开放媒体联盟(AOMedia)VP8、VP9，以及电影电视工程师协会(SMPTE)421M/VC-1和联合图片专家组(JPEG)格式(例如，JPEG和Motion JPEG(MJPEG)格式)。

在一些实施例中，图形处理器1900包括块图像传送(BLIT)引擎1904，以用于执行二维(2D)光栅化器操作，包括例如位边界块传送。然而，在一个实施例中，使用图形处理引擎(GPE)1910的一个或多个组件来执行2D图形操作。在一些实施例中，GPE 1910是用于执行包括三维(3D)图形操作和媒体操作在内的图形操作的计算引擎。

在一些实施例中，GPE 1910包括用于执行以下3D操作的3D流水线1912：例如，使用作用于3D基元形状(例如，矩形、三角形等)的处理功能来渲染三维图像和场景。3D流水线1912包括可编程元件和固定功能元件，其执行元件内的各种任务和/或将执行线程产生到3D/媒体子系统1915。虽然3D流水线1912可以用于执行媒体操作，但是GPE 1910的实施例还包括媒体流水线1916，其专门用于执行媒体操作，例如，视频后处理和图像增强。

在一些实施例中，媒体流水线1916包括固定功能逻辑单元或可编程逻辑单元，以用于代替或代表视频编解码器引擎1906执行一个或多个专用媒体操作，例如，视频解码加速、视频反交错和视频编码加速。在一些实施例中，媒体流水线1916另外包括用于产生线程以供在3D/媒体子系统1915上执行的线程产生单元。产生的线程针对3D/媒体子系统1915中包括的一个或多个图形执行单元上的媒体操作执行计算。

在一些实施例中，3D/媒体子系统1915包括用于执行由3D流水线1912和媒体流水线1916产生的线程的逻辑。在一个实施例中，流水线将线程执行请求发送到3D/媒体子系统1915，3D/媒体子系统1915包括用于对针对可用线程执行资源的各种请求进行仲裁和分派的线程分派逻辑。执行资源包括用于处理3D和媒体线程的图形执行单元阵列。在一些实施例中，3D/媒体子系统1915包括用于线程指令和数据的一个或多个内部高速缓存。在一些实施例中，子系统还包括共享存储器，该共享存储器包括寄存器和可寻址存储器以在线程之间共享数据并存储输出数据。

图形处理引擎

图20是根据一些实施例的图形处理器的图形处理引擎2010的框图。在一个实施例中，图形处理引擎(GPE)2010是图19中所示的GPE 1910的一个版本。图20中的具有与本文任何其他附图中的元件相同的附图标记(或名称)的元件可以以与本文其他地方描述的方式类似的任何方式操作或起作用，但不限于此。例如，示出了图19的3D流水线1912和媒体流水线1916。媒体流水线1916在GPE 2010的一些实施例中是可选的，并且可以不明确地包括在GPE 2010内。例如，在至少一个实施例中，单独的媒体和/或图像处理器耦合到GPE 2010。

在一些实施例中，GPE 2010与命令流送器2003耦合或包括命令流送器2003，命令流送器2003向3D流水线1912和/或媒体流水线1916提供命令流。在一些实施例中，命令流送器2003与存储器耦合，该存储器可以是系统存储器，或者是内部高速缓冲存储器和共享高速缓冲存储器中的一个或多个。在一些实施例中，命令流送器2003从存储器接收命令并将命令发送到3D流水线1912和/或媒体流水线1916。命令是从环形缓冲器获取的指令，环形缓冲器存储用于3D流水线1912和媒体流水线1916的命令。在一个实施例中，环形缓冲器另外可以包括存储多个命令的批的批命令缓冲器。用于3D流水线1912的命令还可以包括对存储在存储器中的以下数据的引用：例如但不限于用于3D流水线1912的顶点和几何数据和/或用于媒体流水线1916的图像数据和存储器对象。3D流水线1912和媒体流水线1916通过经由相应流水线内的逻辑执行操作或通过将一个或多个执行线程分派给图形核心阵列2014来处理命令和数据。在一个实施例中，图形核心阵列2014包括图形核心的一个或多个块(例如，(多个)图形核心2015A、(多个)图形核心2015B)，每个块包括一个或多个图形核心。每个图形核心包括一组图形执行资源，其包括用于执行图形和计算操作的通用执行逻辑和图形特定的执行逻辑，以及固定功能纹理处理和/或机器学习和人工智能加速逻辑。

在各种实施例中，3D流水线1912可以包括固定功能逻辑和可编程逻辑，以通过处理指令并将执行线程分派给图形核心阵列2014来处理一个或多个着色器程序，例如，顶点着色器程序、几何着色器程序、像素着色器程序、片段着色器程序、计算着色器程序或其他着色器程序。图形核心阵列2014提供统一执行资源块，以用于处理这些着色器程序。图形核心阵列2014的(多个)图形核心2015A-2015B内的多用途执行逻辑(例如，执行单元)包括对各种3D API着色器语言的支持，并且可以执行与多个着色器相关联的多个同时执行线程。

在一些实施例中，图形核心阵列2014包括用于执行诸如视频和/或图像处理之类的媒体功能的执行逻辑。在一个实施例中，除了图形处理操作之外，执行单元包括可编程以执行并行通用计算操作的通用逻辑。通用逻辑可以并行地或者与图18A的(多个)处理器核心1707或如图18B中的核心1802A-1802N内的通用逻辑相结合地执行处理操作。

由在图形核心阵列2014上执行的线程生成的输出数据可以将数据输出到统一返回缓冲器(URB)2018中的存储器。URB 2018可以存储用于多个线程的数据。在一些实施例中，URB 2018可以用于在图形核心阵列2014上执行的不同线程之间发送数据。在一些实施例中，URB 2018可以另外用于图形核心阵列上的线程与共享功能逻辑2020内的固定功能逻辑之间的同步。

在一些实施例中，图形核心阵列2014是可缩放的，使得基于GPE 2010的目标功率和性能水平，阵列包括可变数量的图形核心，每个图形核心具有可变数量的执行单元。在一个实施例中，执行资源是可动态缩放的，使得可以根据需要启用或禁用执行资源。

图形核心阵列2014与共享功能逻辑2020耦合，共享功能逻辑2020包括在图形核心阵列中的图形核心之间共享的多个资源。共享功能逻辑2020内的共享功能是向图形核心阵列2014提供专用补充功能的硬件逻辑单元。在各种实施例中，共享功能逻辑2020包括但不限于采样器2021、数学2022和线程间通信(ITC)2023逻辑。另外，一些实施例在共享功能逻辑2020内实现一个或多个高速缓存2025。

至少在针对给定专用功能的需求对于包括在图形核心阵列2014内而言不足的情况下实现共享功能。相反，该专用功能的单个实例化被实现为共享功能逻辑2020中的独立实体，并且在图形核心阵列2014内的执行资源之间共享。在图形核心阵列2014之间共享并且包括在图形核心阵列2014内的精确功能集在实施例之间变化。在一些实施例中，在由图形核心阵列2014广泛使用的共享功能逻辑2020内的特定共享功能可以包含于图形核心阵列2014内的共享功能逻辑2016内。在各种实施例中，图形核心阵列2014内的共享功能逻辑2016可以包括在共享功能逻辑2020内的一些或所有逻辑。在一些实施例中，共享功能逻辑2020内的所有逻辑元件可以在图形核心阵列2014的共享功能逻辑2016内复制。在一个实施例中，共享功能逻辑2020被排除以支持图形核心阵列2014内的共享功能逻辑2016。

图21是根据本文描述的一些实施例的图形处理器核心2100的硬件逻辑的框图。图21中的具有与本文任何其他附图中的元件相同的附图标记(或名称)的元件可以以与本文其他地方描述的方式类似的任何方式操作或起作用，但不限于此。在一些实施例中，所示的图形处理器核心2100包含于图20的图形核心阵列2014内。图形处理器核心2100(有时称为核心切片)可以是模块化图形处理器内的一个或多个图形核心。图形处理器核心2100是一个图形核心切片的示例，并且如本文描述的图形处理器可以基于目标功率和性能包络包括多个图形核心切片。每个图形处理器核心2100可以包括与多个子核心2101A-2101F耦合的固定功能块2130，子核心2101A-2101F也称为子切片，其包括通用逻辑和固定功能逻辑的模块化块。

在一些实施例中，固定功能块2130包括几何/固定功能流水线2136，其可以被图形处理器核心2100中的所有子核心共享，例如，在较低性能和/或较低功率图形处理器实现方式中。在各种实施例中，几何/固定功能流水线2136包括3D固定功能流水线(例如，图19和图20中的3D流水线1912)、视频前端单元、线程产生器和线程分派器，以及管理统一返回缓冲器(例如，图20中的统一返回缓冲器2018)的统一返回缓冲器管理器。

在一个实施例中，固定功能块2130还包括图形SoC接口2137、图形微控制器2138和媒体流水线2139。图形SoC接口2137提供在图形处理器核心2100与片上系统集成电路内的其他处理器核心之间的接口。图形微控制器2138是可编程子处理器，其可配置以管理图形处理器核心2100的各种功能，包括线程分派、调度和抢占。媒体流水线2139(例如，图19和图20的媒体流水线1916)包括用于促进对多媒体数据(包括图像和视频数据)的解码、编码、预处理和/或后处理的逻辑。媒体流水线2139经由对子核心2101A-2101F内的计算或采样逻辑的请求来实现媒体操作。

在一个实施例中，SoC接口2137使得图形处理器核心2100能够与通用应用处理器核心(例如，CPU)和/或SoC内的其他组件通信，这些组件包括存储器层级元件，例如，共享的最后一级高速缓冲存储器、系统RAM和/或嵌入式片上或封装上DRAM。SoC接口2137还使得能够与SoC内的固定功能设备(例如，相机成像流水线)通信，并且使得能够使用和/或实现可以在图形处理器核心2100与SoC内的CPU之间共享的全局存储器原子性。SoC接口2137还可以实现针对图形处理器核心2100的功率管理控制，并且启用图形核心2100的时钟域与SoC内的其他时钟域之间的接口。在一个实施例中，SoC接口2137使得命令缓冲器能够从命令流送器和全局线程分派器(其被配置为向图形处理器内的一个或多个图形核心中的每一个提供命令和指令)接收。当要执行媒体操作时，命令和指令可以被分派到媒体流水线2139，或者当要执行图形处理操作时，命令和指令可以被分派到几何和固定功能流水线(例如，几何和固定功能流水线2136、几何和固定功能流水线2114)。

图形微控制器2138可以被配置为执行针对图形处理器核心2100的各种调度和管理任务。在一个实施例中，图形微控制器2138可以在子核心2101A-2101F内的执行单元(EU)阵列2102A-2102F、2104A-2014F内的各种图形并行引擎上执行图形和/或计算工作负载调度。在该调度模型中，在包括图形处理器核心2100的SoC的CPU核心上执行的主机软件可以将工作负载提交给多个图形处理器门铃之一，这在适当的图形引擎上调用调度操作。调度操作包括确定接下来要运行的工作负载，将工作负载提交给命令流送器，抢占在引擎上运行的现有工作负载，监控工作负载的进度，以及在工作负载完成时通知主机软件。在一个实施例中，图形微控制器2138还可以促进图形处理器核心2100的低功率或空闲状态，从而为图形处理器核心2100提供独立于系统上的操作系统和/或图形驱动器软件而跨低功率状态转换在图形处理器核心2100内保存和恢复寄存器的能力。

图形处理器核心2100可以具有多于或少于所示的子核心2101A-2101F，多达N个模块化子核心。对于每组N个子核心，图形处理器核心2100还可以包括共享功能逻辑2110、共享和/或高速缓冲存储器2112、几何/固定功能流水线2114，以及附加的固定功能逻辑2116，以加速各种图形和计算处理操作。共享功能逻辑2110可以包括与图20的共享功能逻辑2020相关联的逻辑单元(例如，采样器、数学和/或线程间通信逻辑)，其可以由图形处理器核心2100内的每N个子核心共享。共享和/或高速缓冲存储器2112可以是用于图形处理器核心2100内的该组N个子核心2101A-2101F的最后一级高速缓存，并且还可以用作可由多个子核心访问的共享存储器。几何/固定功能流水线2114可以代替几何/固定功能流水线2136包含于固定功能块2130内并且可以包括相同或相似的逻辑单元。

在一个实施例中，图形处理器核心2100包括附加的固定功能逻辑2116，其可以包括供图形处理器核心2100使用的各种固定功能加速逻辑。在一个实施例中，附加固定功能逻辑2116包括用于仅位置着色的附加几何流水线。在仅位置着色中，存在两个几何流水线：在几何/固定功能流水线2116、2136内的完整几何流水线；以及作为附加几何流水线的剔除流水线，其可以包含于附加固定功能逻辑2116内。在一个实施例中，剔除流水线是完整几何流水线的剪辑版本。完整流水线和剔除流水线可以执行同一应用的不同实例，每个实例具有单独的上下文。仅位置着色可以隐藏丢弃的三角形的长剔除运行，使得在一些情况下能够更早地完成着色。例如，在一个实施例中，在附加固定功能逻辑2116内的剔除流水线逻辑可以与主应用并行执行位置着色器，并且通常比完整流水线更快地生成关键结果，因为剔除流水线仅获取并着色顶点的位置属性，而不执行像素的光栅化和渲染到帧缓冲器。剔除流水线可以使用生成的关键结果来计算所有三角形的可见性信息，而不管这些三角形是否被剔除。完整流水线(其在该情况下可以称为重放流水线)可以消耗可见性信息来跳过剔除的三角形以仅对最终传递到光栅化阶段的可见三角形进行着色。

在一个实施例中，附加固定功能逻辑2116还可以包括机器学习加速逻辑(例如，固定功能矩阵乘法逻辑)，以用于包括对机器学习训练或推断的优化的实现方式。

在每个图形子核心2101A-2101F内包括一组执行资源，该组执行资源可以用于响应于图形流水线、媒体流水线或着色器程序的请求而执行图形、媒体和计算操作。图形子核心2101A-2101F包括多个EU阵列2102A-2102F、2104A-2104F、线程分派和线程间通信(TD/IC)逻辑2103A-2103F、3D(例如，纹理)采样器2105A-2105F、媒体采样器2106A-2106F、着色器处理器2107A-2107F和共享本地存储器(SLM)2108A-2108F。EU阵列2102A-2102F、2104A-2104F各自包括多个执行单元，这些执行单元是通用图形处理单元，其能够服务于图形、媒体或计算操作而执行浮点和整数/固定点逻辑运算，包括图形、媒体或计算着色器程序。TD/IC逻辑2103A-2103F针对子核心内的执行单元执行本地线程分派和线程控制操作，并且促进在子核心的执行单元上执行的线程之间的通信。3D采样器2105A-2105F可以将纹理或其他3D图形相关数据读入存储器。3D采样器可以基于配置的采样状态和与给定纹理相关联的纹理格式不同地读取纹理数据。媒体采样器2106A-2106F可以基于与媒体数据相关联的类型和格式来执行类似的读取操作。在一个实施例中，每个图形子核心2101A-2101F可以替代地包括统一的3D和媒体采样器。在子核心2101A-2101F中的每个子核心内的执行单元上执行的线程可以利用每个子核心内的共享本地存储器2108A-2108F，以使得在线程组内执行的线程能够使用片上存储器的公共池来执行。

执行单元

图22A-22B示出了线程执行逻辑2200，其包括在根据本文描述的实施例的图形处理器核心中采用的处理元件的阵列。图22A-22B中的具有与本文任何其他附图中的元件相同的附图标记(或名称)的元件可以以与本文其他地方描述的方式类似的任何方式操作或起作用，但不限于此。图22A示出了线程执行逻辑2200的概览，其可以包括与图21的每个子核心2101A-2101F一起示出的硬件逻辑的变型。图22B示出了执行单元的示例性内部细节。

如图22A所示，在一些实施例中，线程执行逻辑2200包括着色器处理器2202、线程分派器2204、指令高速缓存2206、包括多个执行单元2208A-2208N的可缩放执行单元阵列、采样器2210、数据高速缓存2212和数据端口2214。在一个实施例中，可缩放执行单元阵列可以通过基于工作负载的计算要求启用或禁用一个或多个执行单元(例如，执行单元2208A、2208B、2208C、2208D至2208N-1和2208N中的任何一个)来动态地缩放。在一个实施例中，所包括的组件经由互连结构互连，该互连结构链接到组件中的每个组件。在一些实施例中，线程执行逻辑2200包括通过指令高速缓存2206、数据端口2214、采样器2210和执行单元2208A-2208N中的一个或多个到存储器(例如，系统存储器或高速缓冲存储器)的一个或多个连接。在一些实施例中，每个执行单元(例如，2208A)是独立的可编程通用计算单元，其能够执行多个同时硬件线程，同时针对每个线程并行地处理多个数据元素。在各种实施例中，执行单元阵列2208A-2208N可缩放以包括任何数量的个体执行单元。

在一些实施例中，执行单元2208A-2208N主要用于执行着色器程序。着色器处理器2202可以处理各种着色器程序并经由线程分派器2204分派与着色器程序相关联的执行线程。在一个实施例中，线程分派器包括用于仲裁来自图形流水线和媒体流水线的线程发起请求并且在执行单元2208A-2208N中的一个或多个执行单元上实例化所请求的线程的逻辑。例如，几何流水线可以将顶点着色器、曲面细分着色器或几何着色器分派给线程执行逻辑以进行处理。在一些实施例中，线程分派器2204还可以处理来自执行的着色器程序的运行时线程产生请求。

在一些实施例中，执行单元2208A-2208N支持这样的指令集：其包括对许多标准3D图形着色器指令的本机支持，使得来自图形库(例如，Direct3D和OpenGL)的着色器程序以最小转换来执行。执行单元支持顶点和几何处理(例如，顶点程序、几何程序、顶点着色器)、像素处理(例如，像素着色器、片段着色器)和通用处理(例如，计算着色器和媒体着色器)。执行单元2208A-2208N中的每一个能够进行多次发布单指令多数据(SIMD)执行，并且多线程化的操作在面对更高延时的存储器访问时实现高效的执行环境。每个执行单元内的每个硬件线程都具有专用的高带宽寄存器文件和相关联的独立线程状态。执行是每个时钟多次发布到这样的流水线的：其能够进行整数、单精度和双精度浮点运算，具有SIMD分支能力，能够进行逻辑运算、超越运算和其他杂项运算。在等待来自共享功能之一或存储器的数据时，执行单元2208A-2208N内的相关性逻辑使等待线程休眠，直到返回所请求的数据。当等待线程处于休眠时，硬件资源可以专用于处理其他线程。例如，在与顶点着色器操作相关联的延迟期间，执行单元可以执行用于像素着色器、片段着色器或另一种类型的着色器程序(包括不同的顶点着色器)的操作。各种实施例可以适用于通过使用单指令多线程(SIMT)作为对使用SIMD的替代或除使用SIMD之外还使用SIMT来使用执行。对SIMD核心或操作的引用也可以适用于SIMT或适用于SIMD与SIMT组合。

执行单元2208A-2208N中的每个执行单元对数据元素阵列进行操作。数据元素的数量是“执行大小”或用于指令的通道数。执行通道是执行指令内的数据元素访问、掩蔽和流控制的逻辑单元。通道数可以与特定图形处理器的物理算术逻辑单元(ALU)或浮点单元(FPU)的数量无关。在一些实施例中，执行单元2208A-2208N支持整数数据类型和浮点数据类型。

执行单元指令集包括SIMD指令。各种数据元素可以作为紧缩数据类型存储在寄存器中，并且执行单元将基于元素的数据大小处理各种元素。例如，当对256位宽的向量进行操作时，向量的256位存储在寄存器中，并且执行单元按照四个单独的64位紧缩数据元素(四字(QW)大小数据元素)、八个单独的32位紧缩数据元素(双字(DW)大小数据元素)、十六个单独的16位紧缩数据元素(字(W)大小数据元素)或三十二个单独的8位数据元素(字节(B)大小数据元素)对向量进行操作。然而，不同的向量宽度和寄存器大小是可能的。

在一个实施例中，一个或多个执行单元可以组合成融合执行单元2209A-2209N，其具有对融合EU共有的线程控制逻辑(2207A-2207N)。多个EU可以融合为EU组。在融合EU组中的每个EU可以被配置为执行单独的SIMD硬件线程。在融合EU组中的EU的数量可以根据实施例而变化。另外，可以按EU执行各种SIMD宽度，包括但不限于SIMD8、SIMD16和SIMD32。每个融合图形执行单元2209A-2209N包括至少两个执行单元。例如，融合执行单元2209A包括第一EU 2208A、第二EU 2208B以及对第一EU 2208A和第二EU 2208B共有的线程控制逻辑2207A。线程控制逻辑2207A控制在融合图形执行单元2209A上执行的线程，允许融合执行单元2209A-2209N内的每个EU使用公共指令指针寄存器来执行。

一个或多个内部指令高速缓存(例如，2206)包括在线程执行逻辑2200中，以缓存用于执行单元的线程指令。在一些实施例中，包括一个或多个数据高速缓存(例如，2212)以在线程执行期间缓存线程数据。在一些实施例中，包括采样器2210以提供用于3D操作的纹理采样和用于媒体操作的媒体采样。在一些实施例中，采样器2210包括专用的纹理或媒体采样功能，以在采样过程期间在将采样的数据提供给执行单元之前处理纹理或媒体数据。

在执行期间，图形流水线和媒体流水线经由线程产生和分派逻辑将线程发起请求发送到线程执行逻辑2200。一旦已经处理了一组几何对象并将其光栅化为像素数据，就调用着色器处理器2202内的像素处理器逻辑(例如，像素着色器逻辑、片段着色器逻辑等)以进一步计算输出信息并使得结果被写入输出表面(例如，颜色缓冲器、深度缓冲器、模板印制缓冲器等)。在一些实施例中，像素着色器或片段着色器计算要跨光栅化的对象进行插值的各种顶点属性的值。在一些实施例中，着色器处理器2202内的像素处理器逻辑然后执行应用编程接口(API)——提供的像素着色器程序或片段着色器程序。为了执行着色器程序，着色器处理器2202经由线程分派器2204将线程分派给执行单元(例如，2208A)。在一些实施例中，着色器处理器2202使用采样器2210中的纹理采样逻辑来访问存储在存储器中的纹理图中的纹理数据。对纹理数据和输入几何数据的算术运算计算每个几何片段的像素颜色数据，或丢弃一个或多个像素以免进一步处理。

在一些实施例中，数据端口2214提供用于线程执行逻辑2200将经处理的数据输出到存储器以用于在图形处理器输出流水线上进行进一步处理的存储器访问机制。在一些实施例中，数据端口2214包括或耦合到一个或多个高速缓冲存储器(例如，数据高速缓存2212)以经由数据端口缓存用于存储器访问的数据。

如图22B所示，图形执行单元2208可以包括指令获取单元2237、通用寄存器文件阵列(GRF)2224、架构寄存器文件阵列(ARF)2226、线程仲裁器2222、发送单元2230、分支单元2232、SIMD浮点单元(FPU)2234，以及在一个实施例中包括一组专用整数SIMD ALU 2235。GRF 2224和ARF 2226包括与在图形执行单元2208中可以是活动的每个同时硬件线程相关联的一组通用寄存器文件和架构寄存器文件。在一个实施例中，每个线程架构状态在ARF2226中维护，而在线程执行期间使用的数据存储在GRF 2224中。每个线程的执行状态(包括用于每个线程的指令指针)可以保存在ARF 2226中的特定于线程的寄存器中。

在一个实施例中，图形执行单元2208具有作为同时多线程化(SMT)和细粒度交错多线程化(IMT)的组合的架构。该架构具有模块化配置，该模块化配置可以在设计时基于同时线程的目标数量和每个执行单元的寄存器的数量进行微调，其中执行单元资源在用于执行多个同时线程的逻辑之间划分。

在一个实施例中，图形执行单元2208可以共同发出多个指令，这些指令可以各自是不同的指令。图形执行单元线程2208的线程仲裁器2222可以将指令分派给发送单元2230、分支单元2232或(多个)SIMD FPU 2234之一以供执行。每个执行线程可以访问GRF2224内的128个通用寄存器，其中每个寄存器可以存储32个字节，这32个字节可作为32位数据元素的8元素向量访问。在一个实施例中，每个执行单元线程对GRF 2224内的4千字节具有访问权，但是实施例不限于此，并且在其他实施例中可以提供更多或更少的寄存器资源。在一个实施例中，可以同时执行多达七个线程，但是每个执行单元的线程的数量也可以根据实施例而变化。在七个线程可以访问4千字节的实施例中，GRF 2224可以存储总共28千字节。灵活寻址模式可以允许寄存器一起被寻址以高效地构建更宽的寄存器或表示跨步矩形块数据结构。

在一个实施例中，存储器操作、采样器操作和其他较长延时系统通信经由由消息传递发送单元2230执行的“发送”指令来分派。在一个实施例中，分支指令被分派到专用分支单元2232以促进SIMD发散和最终收敛。

在一个实施例中，图形执行单元2208包括一个或多个SIMD浮点单元(FPU)2234以执行浮点运算。在一个实施例中，(多个)FPU 2234也支持整数计算。在一个实施例中，(多个)FPU 2234可以SIMD执行多达数量M个32位浮点(或整数)运算，或者SIMD执行多达2M个16位整数或16位浮点运算。在一个实施例中，(多个)FPU中的至少一个FPU提供扩展的数学能力以支持高吞吐量超越数学函数和双精度64位浮点。在一些实施例中，还存在一组8位整数SIMD ALU 2235，并且其可以特别优化用于执行与机器学习计算相关联的操作。

在一个实施例中，图形执行单元2208的多个实例的阵列可以在图形子核心分组(例如，子切片)中实例化。对于可缩放性，产品架构师可以选择每个子核心分组的执行单元的准确数量。在一个实施例中，执行单元2208可以在多个执行通道之间执行指令。在另一实施例中，在图形执行单元2208上执行的每个线程在不同的通道上执行。

图23是示出根据一些实施例的图形处理器指令格式2300的框图。在一个或多个实施例中，图形处理器执行单元支持具有多种格式的指令的指令集。实线框示出了在执行单元指令中通常包括的组件，而虚线包括可选的或仅在指令的子集中包括的组件。在一些实施例中，所描述和示出的指令格式2300是宏指令，因为它们是提供给执行单元的指令，而不是一旦指令被处理就由指令解码产生的微操作。

在一些实施例中，图形处理器执行单元本机地支持128位指令格式2310的指令。基于所选择的指令、指令选项和操作数的数量，64位压缩指令格式2330可用于某些指令。本机128位指令格式2310提供对所有指令选项的访问，而一些选项和操作被限制于64位格式2330。以64位格式2330可用的本机指令因实施例而异。在一些实施例中，使用索引字段2313中的一组索引值来部分地压缩指令。执行单元硬件基于索引值来引用一组压缩表，并且使用压缩表输出来重构128位指令格式2310的本机指令。可以使用其他大小和格式的指令。

对于每种格式，指令操作码2312定义执行单元要执行的操作。执行单元跨每个操作数的多个数据元素并行地执行每个指令。例如，响应于添加指令，执行单元跨表示纹理元素或图片元素的每个颜色通道执行同时添加操作。默认情况下，执行单元跨操作数的所有数据通道执行每个指令。在一些实施例中，指令控制字段2314使得能够控制某些执行选项，例如，通道选择(例如，预测)和数据通道顺序(例如，调配)。对于128位指令格式2310的指令，exec-size字段2316限制将并行执行的数据通道的数量。在一些实施例中，exec-size字段2316不可用于64位压缩指令格式2330。

一些执行单元指令具有多达三个操作数，包括两个源操作数src0 2320、src12322和一个目的地2318。在一些实施例中，执行单元支持双目的地指令，其中隐含了目的地之一。数据操纵指令可以具有第三源操作数(例如，SRC2 2324)，其中指令操作码2312确定源操作数的数量。指令的最后一个源操作数可以是与指令一起传递的立即数(例如，硬编码)值。

在一些实施例中，128位指令格式2310包括访问/寻址模式字段2326，其指定例如是使用直接寄存器寻址模式还是间接寄存器寻址模式。当使用直接寄存器寻址模式时，一个或多个操作数的寄存器地址由指令中的位直接提供。

在一些实施例中，128位指令格式2310包括访问/寻址模式字段2326，其指定用于指令的寻址模式和/或访问模式。在一个实施例中，访问模式用于定义用于指令的数据访问对齐。一些实施例支持访问模式，包括16字节对齐的访问模式和1字节对齐的访问模式，其中访问模式的字节对齐确定指令操作数的访问对齐。例如，当处于第一模式时，指令可以将字节对齐的寻址用于源操作数和目的地操作数，并且当处于第二模式时，指令可以将16字节对齐的寻址用于所有的源操作数和目的地操作数。

在一个实施例中，访问/寻址模式字段2326的寻址模式部分确定该指令是使用直接寻址还是间接寻址。当使用直接寄存器寻址模式时，指令中的位直接提供一个或多个操作数的寄存器地址。当使用间接寄存器寻址模式时，可以基于指令中的地址寄存器值和地址立即数字段来计算一个或多个操作数的寄存器地址。

在一些实施例中，基于操作码2312位字段对指令进行分组以简化操作码解码2340。对于8位操作码，位4、5和6允许执行单元确定操作码的类型。所示的精确操作码分组仅是示例。在一些实施例中，移动和逻辑操作码组2342包括数据移动和逻辑指令(例如，移动(mov)、比较(cmp))。在一些实施例中，移动和逻辑组2342共享五个最高有效位(MSB)，其中移动(mov)指令是以0000xxxxb形式的，而逻辑指令是以0001xxxxb形式的。流控制指令组2344(例如，调用、跳转(jmp))包括以0010xxxxb形式(例如，0x20)的指令。杂项指令组2346包括指令的混合，包括以0011xxxxb形式(例如，0x30)的同步指令(例如，等待、发送)。并行数学指令组2348包括以0100xxxxb形式(例如，0x40)的按分量算术指令(例如，加、乘(mul))。并行数学组2348跨数据通道并行地执行算术运算。向量数学组2350包括以0101xxxxb形式(例如，0x50)的算术指令(例如，dp4)。向量数学组对向量操作数执行诸如点积计算之类的算术。

图形流水线

图24是图形处理器2400的另一实施例的框图。图24中的具有与本文任何其他附图中的元件相同的附图标记(或名称)的元件可以以与本文其他地方描述的方式类似的任何方式操作或起作用，但不限于此。

在一些实施例中，图形处理器2400包括几何流水线2420、媒体流水线2430、显示引擎2440、线程执行逻辑2450和渲染输出流水线2470。在一些实施例中，图形处理器2400是包括一个或多个通用处理核心的多核心处理系统内的图形处理器。图形处理器通过寄存器写入一个或多个控制寄存器(未示出)或通过经由环形互连2402向图形处理器2400发布的命令而被控制。在一些实施例中，环形互连2402将图形处理器2400耦合到其他处理组件，例如，其他图形处理器或通用处理器。来自环形互连2402的命令由命令流送器2403解释，命令流送器2403向几何流水线2420或媒体流水线2430的个体组件提供指令。

在一些实施例中，命令流送器2403指引顶点获取器2405的操作，顶点获取器2305从存储器读取顶点数据并且执行由命令流送器2403提供的顶点处理命令。在一些实施例中，顶点获取器2405将顶点数据提供给顶点着色器2407，顶点着色器2407对每个顶点执行坐标空间变换和照明操作。在一些实施例中，顶点获取器2405和顶点着色器2407通过经由线程分派器2431将执行线程分派给执行单元2452A-2452B来执行顶点处理指令。

在一些实施例中，执行单元2452A-2452B是向量处理器的阵列，其具有用于执行图形操作和媒体操作的指令集。在一些实施例中，执行单元2452A-2452B具有附接的L1高速缓存2451，其对于每个阵列是特定的或者在阵列之间共享。可以将高速缓存配置为数据高速缓存、指令高速缓存或被分区以在不同分区中包含数据和指令的单个高速缓存。

在一些实施例中，几何流水线2420包括曲面细分组件，以用于执行3D对象的硬件加速的曲面细分。在一些实施例中，可编程外壳着色器2411配置曲面细分操作。可编程域着色器2417提供对曲面细分输出的后端评估。曲面细分器2413在外壳着色器2411的方向处操作并且包含用于基于粗糙几何模型生成一组详细几何对象的专用逻辑，粗糙几何模型被提供作为对几何流水线2420的输入。在一些实施例中，如果不使用曲面细分，则可以绕过曲面细分组件(例如，外壳着色器2411、曲面细分器2413和域着色器2417)。

在一些实施例中，完整的几何对象可以由几何着色器2419经由分派给执行单元2452A-2452B的一个或多个线程来处理，或者可以直接进行到剪辑器2429。在一些实施例中，几何着色器对整个几何对象进行操作，而不是如在图形流水线的先前阶段中对顶点或顶点的图像块进行操作。如果禁用曲面细分，则几何着色器2419接收来自顶点着色器2407的输入。在一些实施例中，几何着色器2419可由几何着色器程序编程，以在曲面细分单元被禁用时执行几何曲面细分。

在光栅化之前，剪辑器2429处理顶点数据。剪辑器2429可以是具有剪辑功能和几何着色器功能的固定功能剪辑器或可编程剪辑器。在一些实施例中，渲染输出流水线2470中的光栅化器和深度测试组件2473分派像素着色器以将几何对象变换为其每像素表示。在一些实施例中，像素着色器逻辑包括在线程执行逻辑2450中。在一些实施例中，应用可以绕过光栅化器和深度测试组件2473并且经由流输出单元2423访问未光栅化的顶点数据。

图形处理器2400具有互连总线、互连结构或允许在处理器的主要组件之间进行数据和消息传递的某种其他互连机制。在一些实施例中，执行单元2452A-2452B和相关联的逻辑单元(例如，L1高速缓存2451、采样器2454、纹理高速缓存2458，等等)经由数据端口2456互连，以执行存储器访问并且与处理器的渲染输出流水线组件通信。在一些实施例中，采样器2454、L1高速缓存2451、纹理高速缓存2458和执行单元2452A-2452B各自具有单独的存储器访问路径。在一个实施例中，纹理高速缓存2458也可以被配置为采样器高速缓存。

在一些实施例中，渲染输出流水线2470包含光栅化器和深度测试组件2473，其将基于顶点的对象变换为相关联的基于像素的表示。在一些实施例中，光栅化器逻辑包括用于执行固定功能三角形和线光栅化的加窗器/掩蔽器单元。在一些实施例中，相关联的渲染高速缓存2478和深度高速缓存2479也是可用的。像素操作组件2477对数据执行基于像素的操作，但是在一些实例中，与2D操作相关联的像素操作(例如，利用混合的位块图像传送)由2D引擎2441执行，或者在显示时由显示控制器2443使用覆盖显示平面替代。在一些实施例中，共享L3高速缓存2475可用于所有图形组件，从而允许在不使用主系统存储器的情况下共享数据。

在一些实施例中，图形处理器媒体流水线2430包括媒体引擎2437和视频前端2434。在一些实施例中，视频前端2434接收来自命令流送器2403的流水线命令。在一些实施例中，媒体流水线2430包括单独的命令流送器。在一些实施例中，视频前端2434在将命令发送到媒体引擎2437之前处理媒体命令。在一些实施例中，媒体引擎2437包括线程产生功能，以用于产生线程以供经由线程分派器2431分派给线程执行逻辑2450。

在一些实施例中，图形处理器2400包括显示引擎2440。在一些实施例中，显示引擎2440在处理器2400外部，并且经由环形互连2402或者某种其他互连总线或结构与图形处理器耦合。在一些实施例中，显示引擎2440包括2D引擎2441和显示控制器2443。在一些实施例中，显示引擎2440包含能够独立于3D流水线进行操作的专用逻辑。在一些实施例中，显示控制器2443与显示设备(未示出)耦合，该显示设备可以是系统集成的显示设备(如在膝上型计算机中)，或经由显示设备连接器附接的外部显示设备。

在一些实施例中，几何流水线2420和媒体流水线2430可配置为基于多个图形编程接口和媒体编程接口来执行操作，并且不特定于任何一个应用编程接口(API)。在一些实施例中，用于图形处理器的驱动程序软件将特定于特定图形库或媒体库的API调用转换为可以由图形处理器处理的命令。在一些实施例中，针对全部来自Khronos Group的开放图形库(OpenGL)、开放计算语言(OpenCL)和/或Vulkan图形和计算API提供支持。在一些实施例中，还可以针对来自微软公司的Direct3D库提供支持。在一些实施例中，可以支持这些库的组合。还可以针对开源计算机视觉库(OpenCV)提供支持。如果可以进行从具有兼容3D流水线的未来API的流水线到图形处理器的流水线的映射，则还将支持未来API。

图形流水线编程

图25A是示出根据一些实施例的图形处理器命令格式2500的框图。图25B是示出根据实施例的图形处理器命令序列2510的框图。图25A中的实线框示出了在图形命令中通常包括的组件，而虚线包括可选的或仅在图形命令的子集中包括的组件。图25A的示例性图形处理器命令格式2500包括用于标识客户端2502、命令操作代码(操作码)2504以及用于命令的数据2506的数据字段。在一些命令中还包括子操作码2505和命令大小2508。

在一些实施例中，客户端2502指定处理命令数据的图形设备的客户端单元。在一些实施例中，图形处理器命令解析器检查每个命令的客户端字段，以调节对命令的进一步处理并将命令数据路由到适当的客户端单元。在一些实施例中，图形处理器客户端单元包括存储器接口单元、渲染单元、2D单元、3D单元和媒体单元。每个客户端单元具有处理命令的对应处理流水线。一旦命令被客户端单元接收，客户端单元就读取操作码2504，并且如果存在，则读取子操作码2505以确定要执行的操作。客户端单元使用数据字段2506中的信息来执行命令。对于一些命令，期望显式命令大小2508指定命令的大小。在一些实施例中，命令解析器基于命令操作码来自动地确定命令中的至少一些命令的大小。在一些实施例中，命令经由双字的倍数对齐。可以使用其他命令格式。

图25B中的流程图示出了示例性图形处理器命令序列2510。在一些实施例中，以图形处理器的实施例为特征的数据处理系统的软件或固件使用所示的命令序列的版本来设置、执行和终止一组图形操作。仅出于示例的目的示出并描述了样本命令序列，因为实施例不限于这些特定命令或该命令序列。此外，命令可以作为命令序列中的命令批而发布，使得图形处理器将至少部分地并发地处理命令序列。

在一些实施例中，图形处理器命令序列2510可以以流水线刷新命令2512开始，以使任何活动的图形流水线完成流水线的当前未决的命令。在一些实施例中，3D流水线2522和媒体流水线2524不并发地操作。执行流水线刷新以使活动的图形流水线完成任何未决的命令。响应于流水线刷新，图形处理器的命令解析器将暂停命令处理，直到活动的绘图引擎完成未决操作并且相关的读取高速缓存无效。可选地，渲染高速缓存中被标记为“脏”的任何数据都可以刷新到存储器。在一些实施例中，流水线刷新命令2512可以用于流水线同步或在将图形处理器置于低功率状态之前使用。

在一些实施例中，当命令序列要求图形处理器显式地在流水线之间切换时，使用流水线选择命令2513。在一些实施例中，在发布流水线命令之前，在执行上下文内仅要求一次流水线选择命令2513，除非上下文要发布用于两个流水线的命令。在一些实施例中，紧接在经由流水线选择命令2513进行流水线切换之前要求流水线刷新命令2512。

在一些实施例中，流水线控制命令2514配置图形流水线以用于操作，并且流水线控制命令2514用于对3D流水线2522和媒体流水线2524进行编程。在一些实施例中，流水线控制命令2514配置活动流水线的流水线状态。在一个实施例中，流水线控制命令2514用于流水线同步并且用于在处理命令批之前在活动的流水线内从一个或多个高速缓冲存储器清除数据。

在一些实施例中，用于配置返回缓冲器状态2516的命令用于针对相应的流水线配置一组返回缓冲器以写入数据。一些流水线操作要求对操作在处理期间将中间数据写入的一个或多个返回缓冲器进行分配、选择或配置。在一些实施例中，图形处理器还使用一个或多个返回缓冲器来存储输出数据并执行跨线程通信。在一些实施例中，返回缓冲器状态2516包括选择要用于一组流水线操作的返回缓冲器的大小和数量。

命令序列中的其余命令基于用于操作的活动流水线而不同。基于流水线确定2520，命令序列被定制用于开始于3D流水线状态2530的3D流水线2522或开始于媒体流水线状态2540的媒体流水线2524。

用于配置3D流水线状态2530的命令包括用于顶点缓冲器状态、顶点元素状态、恒定颜色状态、深度缓冲器状态以及在处理3D基元命令之前要配置的其他状态变量的3D状态设置命令。这些命令的值至少部分地基于使用的特定3D API来确定。在一些实施例中，如果将不使用某些流水线元素，则3D流水线状态2530命令也能够选择性地禁用或绕过这些元素。

在一些实施例中，3D基元2532命令用于提交要由3D流水线处理的3D基元。经由3D基元2532命令传递到图形处理器的命令和相关联的参数被转发到图形流水线中的顶点获取功能。顶点获取功能使用3D基元2532命令数据来生成顶点数据结构。顶点数据结构存储在一个或多个返回缓冲器中。在一些实施例中，3D基元2532命令用于经由顶点着色器对3D基元执行顶点操作。为了处理顶点着色器，3D流水线2522将着色器执行线程分派给图形处理器执行单元。

在一些实施例中，经由执行2534命令或事件来触发3D流水线2522。在一些实施例中，寄存器写入触发命令执行。在一些实施例中，经由命令序列中的“go”或“kick”命令触发执行。在一个实施例中，使用流水线同步命令触发命令执行，以刷新命令序列通过图形流水线。3D流水线将执行针对3D基元的几何处理。一旦操作完成，产生的几何对象被光栅化，并且像素引擎对产生的像素进行上色。对于这些操作还可以包括用于控制像素着色和像素后端操作的附加命令。

在一些实施例中，图形处理器命令序列2510在执行媒体操作时遵循媒体流水线2524路径。通常，媒体流水线2524的特定用途和编程方式取决于要执行的媒体操作或计算操作。在媒体解码期间，可以将特定媒体解码操作卸载到媒体流水线。在一些实施例中，还可以绕过媒体流水线，并且可以使用由一个或多个通用处理核心提供的资源来全部地或部分地执行媒体解码。在一个实施例中，媒体流水线还包括用于通用图形处理器单元(GPGPU)操作的元件，其中图形处理器用于使用与对图形基元的渲染不显式地相关的计算着色器程序来执行SIMD向量操作。

在一些实施例中，媒体流水线2524以与3D流水线2522类似的方式配置。用于配置媒体流水线状态2540的一组命令在媒体对象命令2542之前被分派或放入命令队列中。在一些实施例中，用于媒体流水线状态2540的命令包括用于配置将被用于处理媒体对象的媒体流水线元素的数据。这包括用于在媒体流水线内配置视频解码逻辑和视频编码逻辑的数据，例如，编码格式或解码格式。在一些实施例中，用于媒体流水线状态2540的命令还支持使用指向包含一批状态设置的“间接”状态元素的一个或多个指针。

在一些实施例中，媒体对象命令2542提供指向用于由媒体流水线处理的媒体对象的指针。媒体对象包括包含要处理的视频数据的存储器缓冲器。在一些实施例中，在发布媒体对象命令2542之前，所有媒体流水线状态必须是有效的。一旦流水线状态被配置并且媒体对象命令2542被排队，则经由执行命令2544或等效执行事件(例如，寄存器写入)触发媒体流水线2524。然后，可以通过由3D流水线2522或媒体流水线2524提供的操作对来自媒体流水线2524的输出进行后处理。在一些实施例中，以与媒体操作类似的方式来配置和执行GPGPU操作。

图形软件架构

图26示出了根据一些实施例的用于数据处理系统2600的示例性图形软件架构。在一些实施例中，软件架构包括3D图形应用2610、操作系统2620和至少一个处理器2630。在一些实施例中，处理器2630包括图形处理器2632和一个或多个通用处理器核心2634。图形应用2610和操作系统2620各自在数据处理系统的系统存储器2650中执行。

在一些实施例中，3D图形应用2610包含一个或多个着色器程序，该一个或多个着色器程序包括着色器指令2612。着色器语言指令可以以高级着色器语言的形式，例如，Direct3D的高级着色器语言(HLSL)、OpenGL着色器语言(GLSL)，等等。该应用还以适用于由通用处理器核心2634执行的机器语言形式的可执行指令2614。该应用还包括由顶点数据定义的图形对象2616。

在一些实施例中，操作系统2620是来自微软公司的

操作系统，使用Linux内核的变型的专有类UNIX操作系统或开源类UNIX操作系统。操作系统2620可以支持图形API 2622，例如，Direct3D API、OpenGL API或Vulkan API。当使用Direct3DAPI时，操作系统2620使用前端着色器编译器2624将以HLSL形式的任何着色器指令2612编译成较低级别的着色器语言。编译可以是即时(JIT)编译，或者应用可以执行着色器预编译。在一些实施例中，高级别着色器是在对3D图形应用2610进行编译期间编译成低级别着色器的。在一些实施例中，着色器指令2612以中间形式提供，例如，Vulkan API使用的标准便携式中间表示(SPIR)的版本。

在一些实施例中，用户模式图形驱动程序2626包含后端着色器编译器2627，以用于将着色器指令2612变换为硬件特定表示。当使用OpenGL API时，以GLSL高级语言形式的着色器指令2612被传递到用户模式图形驱动程序2626以进行编译。在一些实施例中，用户模式图形驱动程序2626使用操作系统内核模式功能2628来与内核模式图形驱动程序2629通信。在一些实施例中，内核模式图形驱动程序2629与图形处理器2632通信以分派命令和指令。

IP核心实现方式

可以通过存储在机器可读介质上的代表性代码来实现至少一个实施例的一个或多个方面，该代表性代码表示和/或定义诸如处理器之类的集成电路内的逻辑。例如，机器可读介质可以包括表示处理器内的各种逻辑的指令。当由机器读取时，指令可以使机器制造用于执行本文描述的技术的逻辑。这种被称为“IP核心”的表示是用于集成电路的可重用的逻辑单元，其可以存储在有形的机器可读介质上，作为描述集成电路的结构的硬件模型。可以将硬件模型提供给各种客户或制造设施，这些客户或制造设施将硬件模型加载到制造集成电路的制造机器上。可以制造集成电路，使得电路执行与本文描述的实施例中的任何实施例相关联地描述的操作。

图27A是示出根据实施例的可以用于制造用于执行操作的集成电路的IP核心开发系统2700的框图。IP核心开发系统2700可以用于生成模块化、可重用的设计，其可以并入更大的设计中或用于构建整个集成电路(例如，SOC集成电路)。设计设施2730可以以高级编程语言(例如，C/C++)生成IP核心设计的软件仿真2710。软件仿真2710可以用于使用仿真模型2712来设计、测试和验证IP核心的行为。仿真模型2712可以包括功能仿真、行为仿真和/或定时仿真。然后可以根据仿真模型2712创建或合成寄存器传输级(RTL)设计2715。RTL设计2715是对数字信号在硬件寄存器(包括使用建模的数字信号执行的相关联的逻辑)之间的流动进行建模的集成电路的行为的抽象。除了RTL设计2715之外，还可以创建、设计或合成逻辑级或晶体管级的较低级别设计。因此，初始设计和仿真的特定细节可以变化。

RTL设计2715或等效物可以由设计设施进一步合成为硬件模型2720，硬件模型2720可以以硬件描述语言(HDL)或物理设计数据的某种其他表示的形式。可以进一步仿真或测试HDL以验证IP核心设计。可以存储IP核心设计以使用非易失性存储器2740(例如，硬盘、闪速存储器或任何非易失性存储介质)递送到第三方制造设施2765。可替代地，可以通过有线连接2750或无线连接2760(例如，经由互联网)传输IP核心设计。然后，制造设施2765可以制造至少部分地基于IP核心设计的集成电路。制造的集成电路可以被配置为执行根据本文描述的至少一个实施例的操作。

图27B示出了根据本文描述的一些实施例的集成电路封装组装件2770的横截面侧视图。集成电路封装组装件2770示出了如本文描述的一个或多个处理器或加速器设备的实现方式。封装组装件2770包括连接到衬底2780的硬件逻辑2772、2774的多个单元。逻辑2772、2774可以至少部分地以可配置逻辑或固定功能逻辑硬件来实现，并且可以包括(多个)处理器核心、(多个)图形处理器或本文描述的其他加速器设备中的任一个的一个或多个部分。每个逻辑2772、2774的单元可以在半导体管芯内实现，并且经由互连结构2773与衬底2780耦合。互连结构2773可以被配置为在逻辑2772、2774与衬底2780之间路由电信号，并且可以包括互连(例如但不限于凸块或柱)。在一些实施例中，互连结构2773可以被配置为路由电信号，例如，与逻辑2772、2774的操作相关联的输入/输出(I/O)信号和/或电源或接地信号。在一些实施例中，衬底2780是环氧基层压衬底。在其他实施例中，衬底2780可以包括其他合适类型的衬底。封装组装件2770可以经由封装互连2783连接到其他电气设备。封装互连2783可以耦合到衬底2780的表面以将电信号路由到其他电气设备，例如，主板、其他芯片组或多芯片模块。

在一些实施例中，逻辑2772、2774的单元可以与被配置为在逻辑2772、2774之间路由电信号的桥接器2782电耦合。桥接器2782可以是为电信号提供路由的密集互连结构。桥接器2782可以包括由玻璃或合适的半导体材料构成的桥接器衬底。电路由特征可以在桥接器衬底上形成以提供逻辑2772、2774之间的芯片到芯片连接。

虽然示出了两个逻辑2772、2774的单元和桥接器2782，但是本文描述的实施例可以在一个或多个管芯上包括更多或更少的逻辑单元。一个或多个管芯可以通过零个或多个桥接器连接，因为当逻辑包含于单个管芯上时可以排除桥接器2782。可替代地，多个管芯或逻辑单元可以通过一个或多个桥接器连接。另外，多个逻辑单元、管芯和桥接器可以以其他可能的配置连接在一起，包括三维配置。

示例性片上系统集成电路

图28-29示出了根据本文描述的各种实施例的可以使用一个或多个IP核心制造的示例性集成电路和相关联的图形处理器。除了所示的内容之外，可以包括其他逻辑和电路，包括附加的图形处理器/核心、外围接口控制器或通用处理器核心。

图28是示出根据实施例的可以使用一个或多个IP核心制造的示例性片上系统集成电路2800的框图。示例性集成电路2800包括一个或多个应用处理器2805(例如，CPU)、至少一个图形处理器2810，并且可以另外包括图像处理器2815和/或视频处理器2820，其中任何一个可以是来自相同或多个不同设计设施的模块化IP核心。集成电路2800包括外围逻辑或总线逻辑，包括USB控制器2825、UART控制器2830、SPI/SDIO控制器2835和I²S/I²C控制器2840。另外，集成电路可以包括显示设备2845，其耦合到高清晰度多媒体接口(HDMI)控制器2850和移动工业处理器接口(MIPI)显示接口2855中的一个或多个。存储可以由包括闪速存储器和闪速存储器控制器的闪速存储器子系统2860提供。可以经由存储器控制器2865提供存储器接口，以用于访问SDRAM存储器设备或SRAM存储器设备。一些集成电路另外包括嵌入式安全引擎2870。

图29A-29B是示出根据本文描述的实施例的用于在SoC内使用的示例性图形处理器的框图。图29A示出了根据实施例的可以使用一个或多个IP核心制造的片上系统集成电路的示例性图形处理器2910。图29B示出了根据实施例的可以使用一个或多个IP核心制造的片上系统集成电路的附加示例性图形处理器2940。图29A的图形处理器2910是低功率图形处理器核心的示例。图29B的图形处理器2940是较高性能图形处理器核心的示例。图形处理器2910、2940中的每一个可以是图28的图形处理器2810的变型。

如图29A所示，图形处理器2910包括顶点处理器2905和一个或多个片段处理器2915A-2915N(例如，2915A、2915B、2915C、2915D至2915N-1和2915N)。图形处理器2910可以经由单独的逻辑执行不同的着色器程序，使得顶点处理器2905被优化以执行用于顶点着色器程序的操作，而一个或多个片段处理器2915A-2915N执行用于片段着色器程序或像素着色器程序的片段(例如，像素)着色操作。顶点处理器2905执行3D图形流水线的顶点处理阶段，并且生成基元和顶点数据。(多个)片段处理器2915A-2915N使用由顶点处理器2905生成的基元和顶点数据来产生在显示设备上显示的帧缓冲器。在一个实施例中，(多个)片段处理器2915A-2915N被优化以执行如OpenGL API中提供的片段着色器程序，该片段着色器程序可以用于执行与如Direct 3D API中提供的像素着色器程序类似的操作。

图形处理器2910另外包括一个或多个存储器管理单元(MMU)2920A-2920B、(多个)高速缓存2925A-2925B和(多个)电路互连2930A-2930B。一个或多个MMU 2920A-2920B为图形处理器2910(包括为顶点处理器2905和/或(多个)片段处理器2915A-2915N)提供虚拟到物理地址映射，除了存储在一个或多个高速缓存2925A-2925B中的顶点或图像/纹理数据之外，其可以参考存储在存储器中的顶点或图像/纹理数据。在一个实施例中，一个或多个MMU2920A-2920B可以与系统内的其他MMU同步，包括与图28的一个或多个应用处理器2805、图像处理器2815和/或视频处理器2820相关联的一个或多个MMU，使得每个处理器2805-2820都可以参与共享或统一的虚拟存储器系统。根据实施例，一个或多个电路互连2930A-2930B使得图形处理器2910能够经由SoC的内部总线或经由直接连接与SoC内的其他IP核心相接合。

如图29B所示，图形处理器2940包括图29A的图形处理器2910中的一个或多个MMU2920A-2920B、(多个)高速缓存2925A-2925B和(多个)电路互连2930A-2930B。图形处理器2940包括一个或多个着色器核心2955A-2955N(例如，2955A、2955B、2955C、2955D、2955E、2955F至2955N-1和2955N)，其提供统一的着色器核心架构，其中单个核心或核心类型可以执行所有类型的可编程着色器代码，包括用于实现顶点着色器、片段着色器和/或计算着色器的着色器程序代码。存在的着色器核心的确切数量可以在实施例和实现方式之间变化。另外，图形处理器2940包括核心间任务管理器2945和图块拼接单元2958，核心间任务管理器2945充当线程分派器以将执行线程分派给一个或多个着色器核心2955A-2955N，图块拼接单元2958用于加速图块拼接操作以用于基于图块的渲染，其中场景的渲染操作在图像空间中被细分，例如，用于利用场景内的局部空间一致性或优化内部高速缓存的使用。

前面的说明书和附图被认为是说明性的而不是限制性的。本领域技术人员将理解，在不背离所附权利要求中阐述的本发明的更宽泛的精神和范围的情况下，可以对本文描述的实施例进行各种修改和改变。

一些实施例属于示例1，示例1包括一种图形多处理器，该图形多处理器包括：多个计算引擎，其用于执行第一计算以生成第一组数据；高速缓存，其用于存储数据；以及高密度存储器，其与多个计算引擎和高速缓存一起在片上集成，该高密度存储器用于接收第一组数据，临时地存储第一组数据，并且在第一时间段期间将第一组数据提供给高速缓存，该第一时间段在多个计算引擎将使用第一组数据进行第二计算的第二时间段之前。

示例2包括示例1的主题，其中，多个计算引擎使用第一组数据进行第二计算以生成第二组数据。

示例3包括示例1-3的主题，其中，高密度存储器包括用于接收第一组数据的第一串行端口和用于提供第一组数据的第二串行端口。

示例4包括示例1-3的主题，其中，第一组数据以串行方式循环通过高密度存储器。

示例5包括示例4的主题，还包括：并行到串行转换器，其用于从多个计算引擎以并行格式接收第一组数据，并且将第一组数据以串行格式提供给高密度存储器；以及串行到并行转换器，其用于从高密度存储器以串行格式接收第一组数据，并且将第一组数据以并行格式提供给高速缓存。

示例6包括示例1-5的主题，其中，第一时间段在第二时间段之前大约5到10毫秒。

示例7包括示例1-6的主题，其中，高密度存储器包括嵌入式动态随机存取存储器(DRAM)。

示例8包括示例1-7的主题，其中，高速缓存包括嵌入式动态随机存取存储器(DRAM)。

一些实施例属于示例9，示例9包括一种图形处理器，该图形处理器包括：多个计算引擎，其用于执行第一计算以生成第一组数据；高速缓存，其用于存储数据；以及基于栈的存储器，其与多个计算引擎和高速缓存一起在片上集成。该基于栈的存储器用于接收第一组数据，临时地存储第一组数据，并且在第一时间段期间将第一组数据提供给高速缓存，该第一时间段在多个计算引擎将使用第一组数据进行第二计算的第二时间段之前。

示例10包括示例9的主题，其中，多个计算引擎使用第一组数据进行第二计算以生成第二组数据。

示例11包括示例9-10的主题，其中，基于栈的存储器包括后进先出(LIFO)栈，其中，数据以后进先出方式被添加或移除。

示例12包括示例9-11的主题，其中，在需要指令或数据之前将指令或数据从基于栈的存储器预取到高速缓存中，以便节省用于对片外存储器进行读取和写入的带宽。

示例13包括示例9-12的主题，其中，多个计算引擎生成用于机器学习层的第一组数据和第二组数据，其中，用于第一层的数据被推入基于栈的存储器，而用于第二层的数据未被推入基于栈的存储器。

示例14包括示例9-13的主题，其中，从基于栈的存储器弹出的用于第一层的数据被重新计算，以便确定未被推入基于栈的存储器的用于第二层的数据。

示例15包括示例9-14的主题，其中，高速缓存包括嵌入式动态随机存取存储器(DRAM)。

一些实施例属于示例16，示例16包括一种集成电路封装组装件，该集成电路封装组装件包括：用于GPU、图形处理器或图形多处理器的衬底；图形计算小芯片，其利用互连结构耦合到衬底；以及高密度存储器单元，其耦合到图形计算小芯片以用作图形计算小芯片的专用存储器或高速缓存。

示例17包括示例16的主题，其中，高密度存储器单元被堆叠在图形计算小芯片上。

示例18包括示例16-17的主题，其中，高密度存储器单元包括嵌入式动态随机存取存储器(DRAM)。

示例19包括示例16-18的主题，其中，计算小芯片至少部分地以可配置逻辑或固定功能逻辑硬件实现。互连结构被配置为在GPU计算小芯片与衬底之间路由电信号。

示例20包括示例16-19的主题，其中，与片外存储器相比，堆叠在图形计算小芯片上的高密度存储器单元减少延时和功率，同时增加用于存储器的带宽。

一些实施例属于示例21，示例21包括一种多GPU系统，该多GPU系统包括：多个GPU；以及耦合到多个GPU的物理存储器。该物理存储器与每个GPU交错，每个GPU以细粒度与物理存储器的交错存储器的单独的唯一块相关联。

示例22包括示例21的主题，其中，交错存储器的每个块包括1KB的存储器，以确保在给定跨多次访问的平均延时的情况下，任何大缓冲器跨多GPU系统的所有GPU分布。

示例23包括示例21-22的主题，其中，至少一个GPU包括驱动器，该驱动器用于跨GPU执行对存储器页的碎片整理，以跨GPU平衡可用存储器。

示例24包括示例21-23的主题，其中，驱动器临时地将交错存储器的第一块的页表中的页标记为无效。

示例25包括示例21-24的主题，其中，驱动器将页从交错存储器的第一块迁移到交错存储器的具有可用存储器的第二块。

示例26包括示例21-25的主题，其中，驱动器更新页表映射，然后在交错存储器的第一块中再次将页标记为有效，并且这在交错存储器的第一块中创建可用存储器。

Claims

1.一种图形多处理器，包括：

多个计算引擎，其用于执行第一计算以生成第一组数据；

高速缓存，其用于存储数据；以及

高密度存储器，其与所述多个计算引擎和所述高速缓存一起在片上集成，所述高密度存储器用于接收所述第一组数据，临时地存储所述第一组数据，并且在第一时间段期间将所述第一组数据提供给所述高速缓存，所述第一时间段在所述多个计算引擎将使用所述第一组数据进行第二计算的第二时间段之前。

2.根据权利要求1所述的图形多处理器，其中，所述多个计算引擎使用所述第一组数据进行第二计算以生成第二组数据。

3.根据权利要求1所述的图形多处理器，其中，所述高密度存储器包括用于接收所述第一组数据的第一串行端口和用于提供所述第一组数据的第二串行端口。

4.根据权利要求1所述的图形多处理器，其中，所述第一组数据以串行方式循环通过所述高密度存储器。

5.根据权利要求4所述的图形多处理器，还包括：

并行到串行转换器，其用于从所述多个计算引擎以并行格式接收所述第一组数据，并且将所述第一组数据以串行格式提供给所述高密度存储器；以及

串行到并行转换器，其用于从所述高密度存储器以串行格式接收所述第一组数据，并且将所述第一组数据以并行格式提供给所述高速缓存。

6.根据权利要求1所述的图形多处理器，其中，所述第一时间段在所述第二时间段之前大约5到10毫秒。

7.根据权利要求1所述的图形多处理器，其中，所述高密度存储器包括嵌入式动态随机存取存储器(DRAM)。

8.根据权利要求1所述的图形多处理器，其中，所述高速缓存包括嵌入式动态随机存取存储器(DRAM)。

9.一种图形处理器，包括：

多个计算引擎，其用于执行第一计算以生成第一组数据；

高速缓存，其用于存储数据；以及

基于栈的存储器，其与所述多个计算引擎和所述高速缓存一起在片上集成，所述基于栈的存储器用于接收所述第一组数据，临时地存储所述第一组数据，并且在第一时间段期间将所述第一组数据提供给所述高速缓存，所述第一时间段在所述多个计算引擎将使用所述第一组数据进行第二计算的第二时间段之前。

10.根据权利要求9所述的图形处理器，其中，所述多个计算引擎使用所述第一组数据进行第二计算以生成第二组数据。

11.根据权利要求9所述的图形多处理器，其中，所述基于栈的存储器包括后进先出(LIFO)栈，其中，数据以后进先出方式被添加或移除。

12.根据权利要求11所述的图形处理器，其中，在需要指令或数据之前将所述指令或所述数据从所述基于栈的存储器预取到所述高速缓存中，以便节省用于对片外存储器进行读取和写入的带宽。

13.根据权利要求11所述的图形处理器，其中，所述多个计算引擎生成用于机器学习层的第一组数据和第二组数据，其中，用于第一层的数据被推入所述基于栈的存储器，而用于第二层的数据未被推入所述基于栈的存储器。

14.根据权利要求13所述的图形处理器，其中，从所述基于栈的存储器弹出的用于所述第一层的所述数据被重新计算，以便确定未被推入所述基于栈的存储器的用于所述第二层的数据。

15.根据权利要求9所述的图形处理器，其中，所述高速缓存包括嵌入式动态随机存取存储器(DRAM)。

16.一种集成电路封装组装件，包括：

用于GPU、图形处理器或图形多处理器的衬底；

图形计算小芯片，其利用互连结构耦合到所述衬底；以及

高密度存储器单元，其耦合到所述图形计算小芯片以用作所述图形计算小芯片的专用存储器或高速缓存。

17.根据权利要求16所述的集成电路封装组装件，其中，所述高密度存储器单元被堆叠在所述图形计算小芯片上。

18.根据权利要求16所述的集成电路封装组装件，其中，所述高密度存储器单元包括嵌入式动态随机存取存储器(DRAM)。

19.根据权利要求16所述的集成电路封装组装件，其中，所述计算小芯片至少部分地以可配置逻辑或固定功能逻辑硬件实现，其中，所述互连结构被配置为在所述GPU计算小芯片与所述衬底之间路由电信号。

20.根据权利要求17所述的集成电路封装组装件，其中，与片外存储器相比，堆叠在所述图形计算小芯片上的所述高密度存储器单元减少延时和功率，同时增加用于存储器的带宽。

21.一种多GPU系统，包括：

多个GPU；以及

耦合到所述多个GPU的物理存储器，所述物理存储器与每个GPU交错，每个GPU以细粒度与所述物理存储器的交错存储器的单独的唯一块相关联。

22.根据权利要求21所述的多GPU系统，其中，交错存储器的每个块包括1KB的存储器，以确保在给定跨多次访问的平均延时的情况下，任何大缓冲器跨所述多GPU系统的所有GPU分布。

23.根据权利要求21所述的多GPU系统，其中，至少一个GPU包括驱动器，所述驱动器用于跨所述GPU执行对存储器页的碎片整理，以跨GPU平衡可用存储器。

24.根据权利要求23所述的多GPU系统，其中，所述驱动器临时地将交错存储器的第一块的页表中的页标记为无效。

25.根据权利要求24所述的多GPU系统，其中，所述驱动器将所述页从所述交错存储器的第一块迁移到交错存储器的具有可用存储器的第二块。

26.根据权利要求25所述的多GPU系统，其中，所述驱动器更新页表映射，然后在所述交错存储器的第一块中再次将所述页标记为有效，并且这在所述交错存储器的第一块中创建可用存储器。