CN112233010A

CN112233010A - 多块图形引擎中的部分写入管理

Info

Publication number: CN112233010A
Application number: CN202010230726.XA
Authority: CN
Inventors: J·雷; J·瓦乐瑞奥; B·阿什博; L·斯特瑞拉马萨尔马
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2019-06-28
Filing date: 2020-03-27
Publication date: 2021-01-15
Also published as: US20210056028A1; US11301384B2; US10802967B1; DE102020115578A1

Abstract

本文描述的实施例提供了一种通用图形处理器，其包括：多个块，所述多个块中的每一块包括至少一个执行单元、本地高速缓存和高速缓存控制单元；以及通信地耦合至所述多个块的高带宽存储器，其中，所述高带宽存储器在所述多个块之间共享。高速缓存控制单元用于实现部分写入管理协议，以接收被指引至本地高速缓存中的高速缓存行的部分写入操作，所述部分写入操作包括写入数据，当所述高速缓存行处于修改状态时，将与所述部分写入操作相关联的数据写入到所述本地高速缓存，并且当所述部分写入操作触发高速缓存未命中或者当所述高速缓存行处于独占状态或者共享状态时将与所述部分写入操作相关联的写入数据转发给所述高带宽存储器。可以描述其他实施例并要求对其进行保护。

Description

多块图形引擎中的部分写入管理

背景技术

本文描述的主题总体上涉及计算，并且更具体而言涉及图形处理。

术语Walker是指图形处理应用中的相关工作项的集合。在成块的(tiled) 图形处理配置中，可以跨越将并行执行的多个块(tile)“广播”针对给定上下文的同一walker，从而(例如)对单个有序队列的性能进行缩放。然而，本地高速缓冲存储器未必跨越各块保持一致。在一些示例中，可以通过在同步点处刷新L3高速缓存来支持跨越不同块的存储器一致性，其要么归因于围栏消息，要么通过完成walker后的管道控制命令实施。

如果不同线程在未同步的情况下向高速缓存内的相同地址字节进行写入，那么将存在“竞争”条件，并且不确保高速缓存写入的顺序。然而，如果不同线程(有可能在不同块上运行)对不同的字节进行写入，那么Open CL(OCL)存储器模型要求在没有任何同步的情况下必须遵循对同一字节地址的每线程的读写顺序。

相应地，支持多个成块的计算引擎中的部分写入管理的技术可以取得实用性，例如，在图形处理应用当中。

附图说明

为了能够详细地理解本实施例的上述特征的方式，可以通过参考实施例来对以上简要概述的实施例进行更具体的描述，其中一些示例在附图中示出。但是，应注意，附图仅示出了典型的实施例，因此不应认为是对其范围的限制。

图1是根据本文描述的一些实施例的处理系统的框图；

图2A、图2B、图2C、以及图2D是根据本文所述的一些实施例的计算系统以及图形处理器的框图；

图3A、3B以及图3C是根据本文所述的一些实施例的图形处理器以及计算加速器架构的框图；

图4是根据本文所述的一些实施例的图形处理器的图形处理引擎的框图；

图5A-图5B示出了根据本文所述的一些实施例的包括图形处理器核中部署的处理元件的阵列的线程执行逻辑；

图6示出了根据本文所述实施例的执行单元；

图7是示出了根据本文描述的一些实施例的图形处理器指令格式的框图；

图8是根据本文所述的一些实施例的图形处理器的框图；

图9A-图9B示出了根据本文所述的一些实施例的图形处理器命令格式和命令序列；

图10示出了根据本文所述的一些实施例的用于数据处理系统的示例性图形软件架构；

图11A是示出了根据本文所述的一些实施例的IP核开发系统的框图；

图11B示出了根据本文所述的一些实施例的集成电路封装组件的截面侧视图；

图11C示出了根据一些实施例的包括连接至衬底的多个单元的硬件逻辑小芯片的封装组件。

图11D示出了根据实施例的包括可互换小芯片的封装组件。

图12是示出了根据实施例的可以采用一个或多个IP核制作的片上系统集成电路1200的框图。

图13A-图13B是示出了根据本文描述的实施例的在SoC内使用的示例性图形处理器的框图；

图14示出了根据本文描述的实施例的可以适于支持部分写入管理的数据处理系统；

图15-图16是根据本文描述的实施例的错误共享发生的示意图；

图17、图18和图19是示出了根据本文描述的实施例的用于支持部分写入管理的方法当中的操作的流程图；

图20是根据本文描述的一些实施例的包括图形处理器的计算设备的框图。

具体实施方式

为了说明的目的，阐述了许多具体细节以提供对下述各种实施例的透彻理解。然而，对于本领域技术人员将显而易见的是，可以在没有这些具体细节中的一些的情况下实践实施例。在其他实例中，以框图形式示出了公知的结构和设备，以避免混淆基本原理，并提供对实施例的更透彻的理解。尽管参考图形处理器描述了以下一些实施例，但是本文描述的技术和教导可以应用于各种类型的电路或半导体设备，包括通用处理设备或图形处理设备。本文中对“一个实施例”或“实施例”的引用指示结合或关联于该实施例描述的特定特征、结构或特性可以包括在这样的实施例中的至少一个中。但是，说明书中各个地方出现的短语“在一个实施例中”并不一定都指同一实施例。

在下面的描述和权利要求中，可以使用术语“耦合”和“连接”及其派生词。应该理解的是，这些术语并不旨在彼此等同。“耦合”用于表示两个或多个元素可以相互协作或相互作用，这两个元素可以或可以不直接物理或电气接触。“连接”用于指示在彼此耦合的两个或更多元素之间建立通信。

在下面的描述中，图1-图13B提供了并入或涉及各种实施例的示例性数据处理系统和图形处理器逻辑的概述。图15-图20提供了各种实施例的具体细节。参考图形处理器描述了以下实施例的一些方面，而关于诸如中央处理单元(CPU)的通用处理器描述了其他方面。相似的技术和教导可以应用于其他类型的电路或半导体设备，包括但不限于许多集成核处理器、 GPU集群或现场可编程门阵列(FPGA)的一个或多个实例。通常，这些教导适用于操纵或处理图像(例如，样本、像素)、顶点数据或几何数据的任何处理器或机器。

系统概述

图1是根据实施例的处理系统100的框图。在各种实施例中，系统100 可以用于单处理器桌面系统、多处理器工作站系统或具有大量处理器102 或处理器核107的服务器系统。在一个实施例中，系统100是结合在用于移动、手持或嵌入式设备中的片上系统(SoC)集成电路内(例如，结合到与局域网或广域网具有有线或无线连接的物联网(IoT)装置内)的处理平台。

在一个实施例中，系统100可以包括、与其耦合或者集成在基于服务器的游戏平台、包括游戏和媒体控制台的游戏控制器、移动游戏控制台、手持游戏控制台或在线游戏控制台内。在一些实施例中，系统100是移动电话、智能电话、平板计算设备或移动互联网连接的设备(例如，具有低内部存储容量的膝上型电脑)的部分。处理系统100还可以包括下述项，与下述项耦合或者集成到下述项内：可穿戴设备，例如，智能手表可穿戴设备；采用增强现实(AR)或虚拟现实(VR)特征增强的智能眼镜或衣物，其将提供视觉、音频或触觉输出，以补充现实世界视觉、音频或触觉体验或者提供文本、音频、图形、视频、全息图像或视频或者触觉反馈；其他增强现实(AR)装置；或者其他虚拟现实(VR)设备。在一些实施例中，处理系统100包括电视机或者机顶盒设备或者是其部分。在一个实施例中，系统100包括下述项、与下述项耦合或者集成到下述项内：自动驾驶交通工具，诸如公交车、牵引拖车、小汽车、摩托车或电动自行车、飞机或滑翔机(或其任何组合)。自动驾驶交通工具可以使用系统100处理所感测到的交通工具周围的环境。

在一些实施例中，一个或多个处理器102各自包括一个或多个处理器核107以处理指令，所述指令在被执行时执行用于系统和用户软件的操作。在一些实施例中，一个或多个处理器核107中的至少一个被配置为处理特定指令集109。在一些实施例中，指令集109可以促进复杂指令集计算 (CISC)、精简指令集计算(RISC)或经由极长指令字(VLIW)的计算。一个或多个处理器核107可以处理不同的指令集109，其可以包括用于促进其他指令集的模拟的指令。处理器核107还可以包括其他处理设备，诸如数字信号处理器(DSP)。

在一些实施例中，处理器102包括高速缓存存储器104。取决于架构，处理器102可具有单个内部高速缓存或多个级别的内部高速缓存。在一些实施例中，高速缓存存储器在处理器102的各种组件之间共享。在一些实施例中，处理器102还使用外部高速缓存(例如，级别3(L3)高速缓存或最终级高速缓存(LLC))(未示出)，其可以使用已知的高速缓存一致性技术在处理器核107之间共享。处理器102中另外包括寄存器文件106，并且可以包括不同类型的寄存器(例如，整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器)以用于存储不同类型的数据。一些寄存器可以是通用寄存器，而其他寄存器可以专用于处理器102的设计。

在一些实施例中，一个或多个处理器102与一个或多个接口总线110 耦合，以在处理器102与系统100中的其他组件之间发送诸如地址、数据或控制信号之类的通信信号。在一个实施例中，接口总线110可以是处理器总线，例如直接媒体接口(DMI)总线的版本。然而，处理器总线不限于DMI总线，并且可以包括一个或多个外围组件互连总线(例如，PCI、快速PCI)、存储器总线或其他类型的接口总线。在一个实施例中，处理器 102包括集成存储器控制器116和平台控制器集线器130。存储器控制器116 促进存储器设备与系统100的其他组件之间的通信，而平台控制器集线器 (PCH)130经由本地I/O总线提供到I/O设备的连接。

存储器设备120可以是动态随机存取存储器(DRAM)设备、静态随机存取存储器(SRAM)设备、闪存设备、相变存储器设备或具有合适性能以充当进程存储器的一些其他存储器设备。在一个实施例中，存储器设备 120可以作为系统100的系统存储器来操作，以存储数据122和指令121以供当一个或多个处理器102执行应用或进程时使用。存储器控制器116还与可选的外部图形处理器118耦合，该外部图形处理器118可以与处理器 102中的一个或多个图形处理器108通信以执行图形和媒体操作。在一些实施例中，可以通过加速器112辅助图形、媒体和/或计算操作，加速器112 是能够被配置为执行专门的一组图形、媒体或计算操作的协处理器。例如，在一个实施例中，加速器112是用于优化机器学习或计算操作的矩阵乘法加速器。在一个实施例中，加速器112是光线追踪加速器，其能够用于与图形处理器108协作执行光线追踪操作。在一个实施例中，可以替代加速器112或者与加速器112协作使用外部加速器119。

在一些实施例中，显示设备111可以连接到处理器102。显示设备111 可以是内部显示设备中的一个或多个，如在移动电子设备或膝上型设备中或经由显示接口(例如，显示端口等)附接的外部显示设备。在一个实施例中，显示设备111可以是头戴式显示器(HMD)，诸如用于虚拟现实(VR) 应用或增强现实(AR)应用的立体显示设备。

在一些实施例中，平台控制器集线器130使外围设备能够经由高速I/O 总线连接到存储器设备120和处理器102。I/O外围设备包括但不限于音频控制器146、网络控制器134、固件接口128、无线收发器126、触摸传感器125、数据存储设备124(例如，非易失性存储器、易失性存储器、硬盘驱动器、闪存、NAND、3D NAND、3D XPoint等)。数据存储设备124可以经由存储接口(例如，SATA)或经由外围总线(例如，外围组件互连总线(例如，PCI、快速PCI))连接。触摸传感器125可包括触摸屏传感器、压力传感器或指纹传感器。无线收发器126可以是Wi-Fi收发器、蓝牙收发器，或移动网络收发器，例如3G、4G、5G或长期演进(LTE)收发器。固件接口128实现与系统固件的通信，并且可以是例如统一的可扩展固件接口(UEFI)。网络控制器134可以启用到有线网络的网络连接。在一些实施例中，高性能网络控制器(未示出)与接口总线110耦合。在一个实施例中，音频控制器146是多通道高清晰度音频控制器。在一个实施例中，系统100包括可选的传统I/O控制器140，其用于将传统(例如，个人系统 2(PS/2))设备耦合到系统。平台控制器集线器130还可以连接到一个或多个通用串行总线(USB)控制器142、连接输入设备，例如键盘和鼠标143 组合、相机144或其他USB输入设备。

应当意识到，所示的系统100是示例性的而非限制性的，因为也可以使用不同配置的其他类型的数据处理系统。例如，存储器控制器116和平台控制器集线器130的实例可以集成到离散的外部图形处理器(例如，外部图形处理器118)中。在一个实施例中，平台控制器集线器130和/或存储器控制器116可以是一个或多个处理器102外部的。例如，系统100可以包括外部存储器控制器116和平台控制器集线器130，其可以被配置为与处理器102通信的系统芯片组内的存储器控制器集线器和外围控制器集线器。

例如，可以采用在上面放置了诸如CPU、存储器和其他部件的部件的电路板(sled)，其被设计为实现提高的热性能。在一些示例中，如处理器的处理部件位于该板的顶侧，而近存储器(例如，DIMM)则位于该板的底侧。由于通过这一设计提供的增强的气流的原因，部件可以在比常规系统中更高的频率和功率水平上工作，由此提高性能。此外，这些板被配置为与机架上的电力和数据通信电缆盲式配合，由此增强对其快速拆除、升级、重新安装和/或替换的能力。类似地，位于板上的各个部件(例如，处理器、加速器、存储器和数据存储装置)被配置为易于受到升级，因为它们相互之间具有增大的间隔。在例示性实施例中，这些部件附加地包括硬件证明特征，以证实其真实性。

数据中心可以利用单网络架构(结构)，其支持包括以太网和Omni-Path 在内的多种其他网络架构。各板可以经由光纤耦合至交换机，与典型的双绞线电缆(例如，5类、5e类、6类等)相比，光纤可以提供更高的带宽和更低的延迟。由于所述高带宽、低延迟互连及网络架构的原因，数据中心可以在使用过程中对诸如存储器、加速器(例如，GPU、图形加速器、FPGA、 ASIC、神经网络和/或人工智能加速器等)和数据存储驱动器等的在物理上分离的资源进行池化，并且在按需的基础上将它们提供给计算资源(例如，处理器)，从而使得计算资源能够对池化资源进行访问，就像它们处于本地一样。

电力供应或电源可以向系统100或者本文描述的任何部件或系统提供电压和/或电流。在一个示例中，电源包括插入到墙壁插座内的AC到DC (交流到直流)适配器。这样的AC电力可以是可再生能源(例如，太阳能) 电源。在一个示例中，电源包括DC电源，例如，外部AC到DC转换器。在一个示例中，电源或电力供应包括无线充电硬件，从而通过靠近充电场而进行充电。在一个示例中，电源可以包括内部电池、交流电源、基于运动的电源、太阳能电源或者燃料电池电源。

图2A-图2D示出了本文描述的实施例提供的计算系统和图形处理器。图2A-图2D中的与本文当中的任何其他附图中的元件具有相同附图标记 (或名称)的元件可以按照与本文别处描述的类似的方式操作，但不限于此。

图2A是具有一个或多个处理器核202A-202N、集成存储器控制器214 和集成图形处理器208的处理器200的实施例的框图。处理器200可以包括附加核多达以下并且包括由虚线框表示的附加核202N。处理器核 202A-202N中的每一个包括一个或多个内部高速缓存单元204A-204N。在一些实施例中，每个处理器核还可以存取一个或多个共享高速缓存单元206。内部高速缓存单元204A-204N和共享高速缓存单元206表示处理器200内的高速缓存存储器分层结构。高速缓存存储器分层结构可以在每个处理器核中包括至少一个级别的指令和数据高速缓存以及一个或多个级别的共享中级高速缓存，例如级别2(L2)、级别3(L3)、级别4(L4)或其他级别的高速缓存，其中外部存储器之前的最高级别的高速缓存被分类为LLC。在一些实施例中，高速缓存一致性逻辑保持各种高速缓存单元206和 204A-204N之间的一致性。

在一些实施例中，处理器200还可以包括一组一个或多个总线控制器单元216和系统代理核210。一个或多个总线控制器单元216管理一组外围总线，例如一个或多个PCI或者快速PCI总线。系统代理核210针对各种处理器组件提供管理功能。在一些实施例中，系统代理核210包括一个或多个集成存储器控制器214以管理对各种外部存储器设备(未示出)的存取。

在一些实施例中，处理器核202A-202N中的一个或多个包括对同时多线程的支持。在这样的实施例中，系统代理核210包括用于在多线程处理期间协调和操作核202A-202N的组件。系统代理核210可以另外包括功率控制单元(PCU)，其包括用于调节处理器核202A-202N和图形处理器208 的功率状态的逻辑和组件。

在一些实施例中，处理器200另外包括图形处理器208以执行图形处理操作。在一些实施例中，图形处理器208与该组共享高速缓存单元206 以及与包括一个或多个集成存储器控制器214的系统代理核210耦合。在一些实施例中，系统代理核210还包括显示控制器211，用于将图形处理器输出驱动到一个或多个耦合的显示器。在一些实施例中，显示控制器211 还可以是经由至少一个互连与图形处理器耦合的独立模块，或者可以集成在图形处理器208内。

在一些实施例中，使用基于环的互连单元212来耦合处理器200的内部组件。然而，可以使用替代的互连单元，诸如点对点互连、交换互连或其他技术，包括本领域众所周知的技术。在一些实施例中，图形处理器208 经由I/O链路213与环形互连212耦合。

示例性I/O链路213表示多种I/O互连中的至少一种，包括促进各种处理器组件与高性能嵌入式存储器模块218(诸如eDRAM模块)之间的通信的封装I/O互连。在一些实施例中，处理器核202A-202N和图形处理器208 中的每一个使用嵌入式存储器模块218作为共享的最后级高速缓存。

在一些实施例中，处理器核202A-202N是执行相同指令集架构的同质核。在另一个实施例中，处理器核202A-202N在指令集架构(ISA)方面是异构的，其中一个或多个处理器核202A-N执行第一指令集，而其他核中的至少一个核执行第一指令集的子集或不同的指令集。在一个实施例中，就微架构而言，处理器核202A-202N是异构的，其中具有相对较高功耗的一个或多个核与具有较低功耗的一个或多个功率核耦合。在一个实施例中，处理器核202A-202N就计算能力而言是异构的。另外，除了其他组件之外，处理器200可以在一个或多个芯片上实现，或者作为具有除了其它组件之外的所示组件的SoC集成电路来实现。

图2B是根据本文描述的一些实施例的图形处理器核219的硬件逻辑的框图。图2B中的与本文当中的任何其他附图中的元件具有相同附图标记 (或名称)的元件可以按照与本文别处描述的类似的方式操作，但不限于此。图形处理器核219(有时称为核切片(slice))可以是模块化图形处理器内的一个或多个图形核。图形处理器核219是一个图形核切片的示例，并且如本文所述的图形处理器可以包括基于目标功率和性能包络的多个图形核切片。每个图形处理器核219可以包括与多个子核221A-221F(也称为子片)耦合的固定功能块230，所述多个子核221A-221F包括通用和固定功能逻辑的模块化块。

在一些实施例中，固定功能块230包括几何/固定功能流水线231，其可以由图形处理器核219中的所有子核共享，例如，在较低性能和/或较低功率图形处理器实现中。在各种实施例中，几何/固定功能流水线231包括 3D固定功能流水线(例如，如图3和图4中的3D流水线312)、视频前端单元、线程产生器和线程分派器，以及统一返回缓冲区管理器，所述统一返回缓冲区管理器管理统一返回缓冲区，例如图4的统一返回缓冲区418，如下所述。

在一个实施例中，固定功能块230还包括图形SoC接口232、图形微控制器233和媒体流水线234。图形SoC接口232提供图形处理器核219 与片上系统集成电路的系统上的其他处理器核之间的接口。图形微控制器 233是可编程子处理器，其可配置为管理图形处理器核219的各种功能，包括线程分派、调度和抢占。媒体流水线234(例如，图3和图4的媒体流水线316)包括用于促进多媒体数据(包括图像和视频数据)的解码、编码、预处理和/或后处理的逻辑。媒体流水线234经由对于在子核221-221F内的计算或采样逻辑的请求来实现媒体操作。

在一个实施例中，SoC接口232使图形处理器核219能够与通用应用处理器核(例如，CPU)和/或SoC内的其他组件通信，所述其他组件包括存储器层级元件，诸如共享的最后一级高速缓存存储器、系统RAM和/或嵌入式片上或封装DRAM。SoC接口232还可以实现与SoC内的固定功能设备(例如相机成像流水线)的通信，并且使得能够使用和/或实现可以在图形处理器核219和SoC内的CPU之间共享的全局存储器原子。SoC接口 232还可以实现针对图形处理器核219的功率管理控制，并启用图形核219 的时钟域与SoC内的其他时钟域之间的接口。在一个实施例中，SoC接口 232使得能够从命令流式传输器和全局线程分派器接收命令缓冲区，命令流传输器和全局线程分派器被配置为向图形处理器内的一个或多个图形核中的每一个提供命令和指令。当要执行媒体操作时，可以将命令和指令分派给媒体流水线234，或者当图形处理操作要被执行时，可以将命令和指令分派给几何和固定功能流水线(例如，几何和固定功能流水线231、几何和固定功能流水线237)。

图形微控制器233可以被配置为执行针对图形处理器核219的各种调度和管理任务。在一个实施例中，图形微控制器233可以在在子核 221A-221F内的执行单元(EU)阵列222A-222F、224A-224F内的各种图形并行引擎上执行图形和/或计算工作负载调度。在该调度模型中，在包括图形处理器核219的SoC的CPU核上执行的主机软件可以提交多个图形处理器门铃之一的工作负载，其在适当的图形引擎上调用调度操作。调度操作包括确定下一个要运行的工作负载，将工作负载提交给命令流式传输器，预先占用引擎上运行的现有工作负载，监视工作负载的进度，以及在工作负载完成时通知主机软件。在一个实施例中，图形微控制器233还可以促进针对图形处理器核219的低功率或空闲状态，从而为图形处理器核219 提供在低功率状态转换期间独立于操作系统和/或系统上的图形驱动器软件来保存和恢复图形处理器核219内的寄存器的能力。

图形处理器核219可具有大于或小于所示子核221A-221F的子核，最多N个模块化子核。对于每组N个子核，图形处理器核219还可以包括共享功能逻辑235、共享和/或高速缓冲存储器236、几何/固定功能流水线237，以及用于加速各种图形和计算处理操作的附加固定功能逻辑238。共享功能逻辑235可以包括与图4的共享功能逻辑420相关联的逻辑单元(例如，采样器、数学和/或线程间通信逻辑)，其可以由图形处理器核219内的每个 N个子核共享。共享和/或高速缓存存储器236可以是图形处理器核219内的一组N个子核221A-221F的最后一级高速缓存，并且还可以用作多个子核可存取的共享存储器。可以包括几何/固定功能流水线237而不是固定功能块230内的几何/固定功能流水线231，并且可以包括相同或类似的逻辑单元。

在一个实施例中，图形处理器核219包括附加的固定功能逻辑238，其可包括供图形处理器核219使用的各种固定功能加速逻辑。在一个实施例中，附加固定功能逻辑238包括用于使用的仅位置着色的附加几何流水线。在仅位置着色中，存在两个几何流水线，几何/固定功能流水线238、231 内的全几何流水线，以及剔除(cull)流水线，所述剔除流水线是可包括在附加固定功能逻辑238内的附加几何流水线。在一个实施例中，剔除流水线是全几何流水线的修剪版本。全流水线和剔除流水线可以执行同一应用的不同实例，每个实例具有单独的上下文。仅位置着色可以隐藏已丢弃的三角形的长剔除运行，使得在一些实例中，可以更早地完成着色。例如并且在一个实施例中，附加固定功能逻辑238内的剔除流水线逻辑可以与主应用并行地执行位置着色器，并且通常比全流水线更快地生成关键结果，因为剔除流水线仅取回并着色顶点的位置属性，而不执行像素的光栅化和渲染到帧缓冲区。剔除流水线可以使用生成的关键结果来计算针对所有三角形的可见性信息，而不管这些三角形是否被剔除。全流水线(在这种情况下可以称为重放流水线)可以消耗可见性信息以跳过剔除的三角形以仅着色最终传递到光栅级的可见三角形。

在一个实施例中，附加固定功能逻辑238还可以包括机器学习加速逻辑，例如固定功能矩阵乘法逻辑，以用于包括用于机器学习训练或推理的优化的实现。

在每个图形子核221A-221F内包括一组执行资源，其可用于响应于图形流水线、媒体流水线或着色器程序的请求来执行图形、媒体和计算操作。图形子核221A-221F包括多个EU阵列222A-222F、224A-224F、线程分派和线程间通信(TD/IC)逻辑223A-223F、3D(例如，纹理)采样器225A-225F、媒体采样器206A-206F、着色器处理器227A-227F和共享本地存储器(SLM) 228A-228F。EU阵列222A-222F、224A-224F每个包括多个执行单元，其是能够在图形、媒体或计算操作的服务(包括图形、媒体或计算着色器程序)中执行浮点和整数/定点逻辑操作的通用图形处理单元。TD/IC逻辑 223A-223F执行针对子核内的执行单元的本地线程分派和线程控制操作，并促进在子核的执行单元上执行的线程之间的通信。3D采样器225A-225F可以将纹理或其他3D图形相关的数据读取到存储器中。3D采样器可以基于配置的样本状态和与给定纹理相关联的纹理格式来不同地读取纹理数据。媒体采样器206A-206F可以基于与媒体数据相关联的类型和格式来执行类似的读取操作。在一个实施例中，每个图形子核221A-221F可以替代地包括统一的3D和媒体采样器。在每个子核221A-221F内的执行单元上执行的线程可以利用每个子核内的共享本地存储器228A-228F，以使得在线程组内执行的线程能够使用片上存储器的公共池来执行。

图2C示出了包括被布置到多核群组240A-240N内的专用的各组图形处理资源的图形处理单元(GPU)239。尽管仅提供了单个多核群组240A 的细节，但是应当认识到其他多核群组240B-240N可以配备有相同或类似组的图形处理资源。

如图所示，多核群组240A可以包括一组图形核243、一组张量核244 和一组光线追踪核245。调度器/分派器241对图形线程进行调度和分派，以供在各种核243、244、245上执行。一组寄存器文件242存储在执行图形线程时由核243、244、245使用的操作数值。这些可以包括(例如)用于存储整数值的整数寄存器、用于存储浮点值的浮点寄存器、用于存储封装后的数据元(整数和/或浮点数据元)的向量寄存器以及用于存储张量/ 矩阵值的块寄存器。在一个实施例中，块寄存器被实施成组合的组的向量寄存器。

一个或多个组合的1级(L1)高速缓存和共享存储单元247存储局部地处于每一多核群组240A内的图形数据，诸如纹理数据、顶点数据、像素数据、光线数据、边界体积数据等。一个或多个纹理单元247还可以用于执行纹理操作，例如，纹理映射和采样。被所有的多核群组240A-240N或者多核群组240A-240N的子集共享的2级(L2)高速缓存253存储多个并行的图形线程的图形数据和/或指令。如图所示，L2高速缓存253可以跨越多个多核群组240A-240N共享。一个或多个存储控制器248将GPU 239耦合至存储器249，存储器249可以是系统存储器(例如，DRAM)和/或专用图形存储器(例如，GDDR6存储器)。

输入/输出(I/O)电路250将GPU 239耦合至一个或多个I/O设备252，诸如数字信号处理(DSP)、网络控制器或用户输入设备。片上互连可以用于将I/O装置252耦合至GPU239和存储器249。I/O电路250的一个或多个I/O存储管理单元(IOMMU)251将I/O设备252直接耦合至系统存储器249。在一个实施例中，IOMMU 251管理多组页表，从而将虚拟地址映射至系统存储器249中的物理地址。在这一实施例中，I/O设备252、CPU 246 和GPU 239可以共享相同的虚拟地址空间。

在一种实施方式中，IOMMU 251支持虚拟化。在这种情况下，其可以管理第一组页表，从而将来宾/图形虚拟地址映射至来宾/图形物理地址，并且管理第二组页表，从而将来宾/图形物理地址映射至系统/主机物理地址 (例如，处于系统存储器249内)。第一组页表和第二组页表的每者的基本地址可以被存储到控制寄存器内，并且在上下文切换之时被换出(例如，从而为新的上下文提供对相关的一组页表的访问)。尽管图2C中未示出，但是核243、244、245和/或多核群组240A-240N的每者可以包括转换后备缓冲区(TLB)从而对来宾虚拟到来宾物理转换、来宾物理到主机物理转换以及来宾虚拟到主机物理转换进行高速缓存。

在一个实施例中，CPU 246、GPU 239和I/O设备252被集成到单个半导体芯片和/或芯片封装上。所例示的存储器249可以被集成到同一芯片上，并且可以被通过片外接口耦合至存储控制器248。在一种实施方式中，存储器249包括GDDR6存储器，其共享与其他物理系统级存储器相同的虚拟地址空间，尽管本发明的基本原理不限于这一具体的实施方式。

在一个实施例中，张量核244包括多个被专门设计为执行矩阵运算的执行单元，所述矩阵运算是用于执行深度学习操作的基本计算操作。例如，可以采用同时矩阵乘法运算进行神经网络训练和推理。张量核244可以采用各种各样的操作数精度执行矩阵处理，所述操作数精度包括单精度浮点 (例如，32位)、半精度浮点(例如，16位)、整数字(16位)、字节(8 位)和半字节(4位)。在一个实施例中，神经网络实施方式提取每一渲染后场景的特征，从而有可能合并来自多个帧的细节，以构建高质量的最终图像。

在深度学习实施方式中，可以将并行矩阵乘法工作调度为在张量核244 上执行。神经网络的训练尤其需要显著量的矩阵点积运算。为了处理N x N x N矩阵乘法的内积公式表达，张量核244可以包括至少N个点积处理元件。在矩阵乘法开始之前，将一个整个的矩阵加载到块寄存器内，并且针对N个循环的每一循环加载第二矩阵的至少一个列。每一循环有N个点积被处理。

可以按照不同的精度存储矩阵元，具体取决于特定的实施方式，这些不同的精度包括16位字、8位字节(例如，INT8)和4位半字节(例如， INT4)。可以针对各张量核244指定不同的精度模式，以确保针对不同的工作负载(例如，能够容忍字节和半字节程度的量化的推理工作负载)采用最有效的精度。

在一个实施例中，光线追踪核245针对实时光线追踪实施方式和非实时光线追踪实施方式两者加速光线追踪操作。具体而言，光线追踪核245 包括用于采用层次包围体(BVH)执行光线穿越，并且识别光线与包围在 BVH体积内的图元之间的相交的光线穿越/相交电路。光线追踪核245还可以包括用于执行深度测试和剔除的电路(例如，使用Z缓冲区或类似布置)。在一种所述方式中，光线追踪核245与本文描述的图像去噪声技术(它们的至少部分可以在张量核244上执行)协作执行穿越和相交操作。例如，在一个实施例中，张量核实施深度学习神经网络，以执行对由光线追踪核 245生成的帧的去噪声。然而，CPU246、图形核243和/或光线追踪核245 也可以实施去噪声和/或深度学习算法的全部或部分。

此外，如上文所述，可以采用用于去噪声的分布式方案，其中，GPU 239 在通过网络或高速互连耦合至其他计算设备的计算设备当中。在这一实施例中，互连计算设备共享神经网络学习/训练数据，以提高整个系统为了针对不同类型的图像帧和/或不同图形应用执行去噪声而进行学习的速度。

在一个实施例中，光线追踪核245处理所有的BVH穿越和光线-图元相交，从而为图形核243免除了每光线数千条指令的过载。在一个实施例中，每一光线追踪核245包括用于执行包围盒测试(例如，对于穿越操作) 的第一组专用于电路以及用于执行光线-三角形相交测试(与已经穿越的光线相交)的第二组专用电路。因而，在一个实施例中，多核群组240A可以简单地启动光线探头，并且光线追踪核245独立地执行任何穿越和相交，并向线程上下文返回命中数据(例如，命中、无命中、多次命中等等)。在光线追踪核245执行穿越和相交操作的同时，其他核243、244被解放出来，以执行其他图形和计算工作。

在一个实施例中，每一光线追踪核245包括执行BVH测试操作的穿越单元以及执行光线-图元相交测试的相交单元。相交单元生成“命中”、“无命中”或“多次命中”响应，并且将其提供给适当线程。在穿越和相交操作期间，其他核(例如，图形核243和张量核244)的执行资源被解放出来，以执行其他形式的图形工作。

在下文描述的一个特定实施例中，采用混合光栅化/光线追踪方案，其中，在图形核243和光线追踪核245之间对工作进行分配。

在一个实施例中，光线追踪核245(和/或其他核243、244)包括对光线追踪指令集(例如，包括DispatchRays命令的微软的DirectX Ray Tracing (DXR))以及光线生成、最近命中、任意命中和未命中着色器(其能够实现为每一对象分配独有的一组着色器和纹理)的硬件支持。可以由光线追踪核245、图形核243和张量核244支持的另一光线追踪平台是Vulkan 1.1.85。然而要注意，本发明的基本原理不限于任何特定的光线追踪ISA。

一般而言，各种核245、244、243可以支持光线追踪指令集，其包括用于光线生成、最近命中、任意命中、光线-图元相交、每图元分级包围盒构件、无命中、到访和异常的指令/功能。更具体而言，一个实施例包括执行下述功能的光线追踪指令：

光线生成——可以对每一像素、样本或其他用户定义工作分配执行光线生成指令。

最近命中——可以执行最近命中指令，从而对光线与场景内的图元的最近交点进行定位。

任意命中——任意命中指令识别光线与场景内的图元之间的多次相交，从而有可能识别出新的最近交点。

相交——相交指令执行光线-图元相交测试，并输出结果。

每图元包围盒构件——这一指令围绕给定图元或者图元群组建立包围盒(例如，在建立新的BVH或者其他加速数据结构时)。

未命中——指示光线未命中场景或场景的指定区域内的所有几何结构。

到访——指示光线将穿越的子体积。

异常——包括各种类型的异常处理器(例如，针对各种错误条件所调用的)。

图2D是根据本文描述的实施例的能够被配置为图形处理器和/或计算加速器的通用图形处理单元(GPGPU)270的框图。GPGPU 270可以经由一条或多条系统和/或存储器总线与主机处理器(例如，一个或多个CPU 246) 和存储器271、272互连。在一个实施例中，存储器271是可以与一个或多个CPU 246共享的系统存储器，而存储器272则是专用于GPGPU 270的设备存储器。在一个实施例中，GPGPU 270内的部件和设备存储器272可以被映射至可被一个或多个CPU 246访问的存储地址。可以经由存储控制器 268促进对存储器271和272的访问。在一个实施例中，存储控制器268包括内部直接存储器存取(DMA)控制器269，或者可以包括执行否则将由 DMA控制器执行的操作的逻辑。

GPGPU 270包括多个高速缓冲存储器，包括L2高速缓存253、L1高速缓存254、指令高速缓存255和共享存储器256，共享存储器256的至少部分也可以被划分成高速缓冲存储器。GPGPU 270还包括多个计算单元 260A-260N。每一计算单元260A-260N包括一组向量寄存器261、标量寄存器262、向量逻辑单元263和标量逻辑单元264。计算单元260A-260N也可以包括本地共享存储器265和程序计数器266。计算单元260A-260N可以与用于存储常数数据的常数高速缓存267耦合，常数数据是在GPGPU 270 上执行内核或着色器程序的运行期间不发生变化的数据。在一个实施例中，常数高速缓存267是标量数据高速缓存，并且经高速缓存的数据可以被直接取到标量寄存器262内。

在操作期间，一个或多个CPU 246可以将命令写入到已经被映射到可访问地址空间内的GPGPU 270中的寄存器或存储器当中。命令处理器257 可以从寄存器或存储器读取命令，并且确定将如何在GPGPU 270内对这些命令进行处理。之后可以采用线程分派器258将线程分派给计算单元 260A-260N，以执行这些命令。每一计算单元260A-260N可以独立于其他计算单元执行线程。此外，每一计算单元260A-260N可以被独立地配置为进行条件计算，并且能够有条件地向存储器输出计算结果。命令处理器257 能够在所提交的命令完成时中断所述一个或多个CPU 246。

图3A-图3C示出了由本文描述的实施例提供的附加图形处理器和计算加速器架构的框图。图3A-图3C中的与本文当中的任何其他附图中的元件具有相同附图标记(或名称)的元件可以按照与本文别处描述的类似的方式操作，但不限于此。

图3A是图形处理器300的框图，其可以是离散图形处理单元，或者可以是与多个处理核或其他半导体装置(诸如但不限于存储装置或网络接口) 集成的图形处理器。在一些实施例中，图形处理器经由存储器映射的I/O接口与图形处理器上的寄存器以及放置在处理器存储器中的命令进行通信。在一些实施例中，图形处理器300包括访问存储器的存储器接口314。存储器接口314可以是到本地存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存，和/或到系统存储器的接口。

在一些实施例中，图形处理器300还包括显示控制器302以将显示输出数据驱动到显示设备318。显示控制器302包括用于一个或多个覆盖平面的硬件，用于多层视频或用户面元素的显示和合成。显示设备318可以是内部或外部显示设备。在一个实施例中，显示设备318是头戴式显示设备，诸如虚拟现实(VR)显示设备或增强现实(AR)显示设备。在一些实施例中，图形处理器300包括视频编解码器引擎306，以将媒体编码为一个或多个媒体编码格式，从一个或多个媒体编码格式解码，或在从一个或多个媒体编码格式之间转码，媒体编码格式包括但不限于运动图像专家组(MPEG) 格式，例如诸如H.264/MPEG-4AVC、H.265/HEVC、开放媒体联盟(AOMedia) VP8、VP9的MPEG-2、高级视频编码(AVC)格式，以及电影和电视工程师协会(SMPTE)421M/VC-1和联合图像专家组(JPEG)格式，如JPEG 和运动JPEG(MJPEG)格式。

在一些实施例中，图形处理器300包括块图像传输(BLIT)引擎304 以执行二维(2D)光栅化器操作，包括例如位边界块传输。然而，在一个实施例中，使用GPE 310的一个或多个组件来执行2D图形操作。在一些实施例中，图形处理引擎310是用于执行图形操作的计算引擎，所述图形操作包括三维(3D)图形操作和媒体操作。

在一些实施例中，GPE 310包括3D流水线312，其用于执行3D操作，诸如使用作用于3D图元形状(例如，矩形、三角形等)的处理功能来渲染三维图像和场景。3D流水线312包括执行元件内的各种任务和/或将执行线程产生到3D/媒体子系统315的可编程和固定功能元件。尽管3D流水线312 可以用于执行媒体操作，但是GPE 310的实施例还包括专门用于执行媒体操作(例如视频后处理和图像增强)的媒体流水线316。

在一些实施例中，媒体流水线316包括固定功能或可编程逻辑单元，其用于代替或代表视频编解码引擎306执行一个或多个专用媒体操作，诸如视频解码加速、视频去隔行和视频编码加速。在一些实施例中，媒体流水线316另外包括线程产生单元，其用于产生用于在3D/媒体子系统315上执行的线程。产生的线程执行用于3D/媒体子系统315中包括的一个或多个图形执行单元上的媒体操作的计算。

在一些实施例中，3D/媒体子系统315包括用于执行由3D流水线312 和媒体流水线316产生的线程的逻辑。在一个实施例中，流水线将线程执行请求发送到3D/媒体子系统315，其包括用于仲裁并将各种请求分派给可用的线程执行资源的线程分派逻辑。执行资源包括一系列图形执行单元来处理3D和媒体线程。在一些实施例中，3D/媒体子系统315包括用于线程指令和数据的一个或多个内部高速缓存。在一些实施例中，子系统还包括共享存储器(包括寄存器和可寻址存储器)以在线程之间共享数据并存储输出数据。

图3B示出了根据本文描述的实施例的具有成块架构的图形处理器320。在一个实施例中，图形处理器320包括图形处理引擎集群322，其具有处于图形引擎块310A-310D内的图3A的图形处理引擎的多个实例。每一图形引擎块310A-310D可以经由一组块互连323A-323F发生互连。每一图形引擎块310A-310D还可以经由存储器互连325A-325D连接至存储器模块或者存储器设备326A-326D。存储器设备326A-326D可以使用任何图形存储技术。例如，存储器设备326A-326D可以是图形双倍数据速率(GDDR)存储器。存储器设备326A-326D在一个实施例中是高带宽存储器(HBM)模块，其可以与其相应的图形引擎块310A-310D一起处于管芯上上。在一个实施例中，存储器设备326A-326D是堆叠的存储器设备，其可以堆叠设置在其相应的图形引擎块310A-310D的顶上。在一个实施例中，每一图形引擎块310A-310D和相关联的存储器326A-326D存在于接合至基础管芯上或者基础衬底的单独小芯片上，如图11B-图11D中的附加细节所述。

图形处理引擎集群322可以与芯片上或封装上结构互连324连接。结构互连324可以实现图形引擎块310A-310D与诸如视频编解码器和一个或多个复制引擎304的部件之间的通信。复制引擎304可以用于将数据从存储器设备326A-326D和处于图形处理器320外的存储器(例如，系统存储器)移出，向其移入数据以及使数据在它们之间移动。结构连324还可以用于对图形引擎块310A-310D进行互连。图形处理器320可以任选地包括显示控制器302，以实现与外部显示设备318的连接。图形处理器还可以被配置成图形或计算加速器。在加速器配置当中，可以省略显示控制器302 和显示设备318。

图形处理器320可以经由主机接口328连接至主机系统。主机接口328 可以实现图形处理器320、系统存储器和/或其他系统部件之间的通信。主机接口328可以是(例如)高速PCI总线或者其他类型的主机系统接口。

图3C示出了根据本文描述的实施例的计算加速器330。计算加速器330 可以包括与图3B的图形处理器320的架构相似性，并且被优化为实现计算加速。计算引擎集群332可以包括一组计算引擎块340A-340D，它们包括被优化为实现并行或基于向量的通用计算操作的执行逻辑。在一些实施例中，计算引擎块340A-340D不包括固定功能图形处理逻辑，尽管在一些实施例中，计算引擎块340A-340D中的一者或多者可以包括执行媒体加速的逻辑。计算引擎块340A-340D可以经由存储器互连325A-325D连接至存储器326A-326D。存储器326A-326D和存储器互连325A-325D可以是与图形处理器320中的类似的技术，或者可以是不同的。图像计算引擎块 340A-340D还可以经由一组块互连323A-323F受到互连，并且可以与结构互连324连接和/或通过结构互连324进行互连。在一个实施例中，计算加速器330包括可以被配置为设备范围高速缓存的大型L3高速缓存336。计算加速器还可以按照与图3B中的图形处理器320类似的方式经由主机接口 328连接至主机处理器和存储器。

图形处理引擎

图4是根据一些实施例的图形处理器的图形处理引擎410的框图。在一个实施例中，图形处理引擎(GPE)410是图3A中所示的GPE 310的一个版本，并且还可以表示图3B的图形引擎块310A-310D。图4中的具有与本文的任何其它图中的元件相同的附图标记(或名称)的元件可以以类似于在本文其他地方描述的任何方式进行操作，但不限于此。例如，图示了图3A的3D流水线312和媒体流水线316。媒体流水线316在GPE 410的一些实施例中是可选的，并且可以不明确地包括在GPE 410内。例如并且在至少一个实施例中，单独的媒体和/或图像处理器耦合到GPE 410。

在一些实施例中，GPE 410与命令流式传送器403耦合或者包括命令流式传送器403，命令流式传送器403向3D流水线312和/或媒体流水线 316提供命令流。在一些实施例中，命令流式传送器403耦合到存储器，存储器可以是系统存储器，或一个或多个内部高速缓存和共享高速缓存。在一些实施例中，命令流式传送器403从存储器接收命令并将命令发送到3D 流水线312和/或媒体流水线316。这些命令是从存储用于3D流水线312和媒体流水线316的命令的环形缓冲区中取出的指令。在一个实施例中，环形缓冲区可以另外包括存储批量的多个命令的批量命令缓冲区。用于3D流水线312的命令还可以包括对存储在存储器中的数据的引用，例如但不限于用于3D流水线312的顶点和几何数据和/或用于媒体流水线316的图像数据和存储器对象。3D流水线312以及媒体流水线316通过经由相应流水线内的逻辑执行操作或通过将一个或多个执行线程分派到图形核阵列414 来处理命令和数据。在一个实施例中，图形核阵列414包括图形核的一个或多个块(例如，图形核415A、图形核415B)，每个块包括一个或多个图形核。每个图形核包括一组图形执行资源，其包括用于执行图形和计算操作的通用和图形特定执行逻辑，以及固定功能纹理处理和/或机器学习和人工智能加速逻辑。

在各种实施例中，3D流水线312可以包括固定功能和可编程逻辑，其用于通过处理指令以及将线程分派到图形核阵列来处理一个或多个着色器程序，诸如顶点着色器、几何着色器、像素着色器、片段着色器、计算着色器或其他着色器程序。图形核阵列414提供执行资源块的统一块，以用于处理这些着色器程序。图形核阵列414的图形核415A-414B内的多用途执行逻辑(例如，执行单元)包括对各种3D API着色器语言的支持，并且可以执行与多个着色器相关联的多个同时执行线程。

在一些实施例中，图形核阵列414包括执行逻辑，其用于执行媒体功能，例如视频和/或图像处理。在一个实施例中，除了图形处理操作之外，执行单元包括可编程以执行并行通用计算操作的通用逻辑。通用逻辑可以并行地或结合图1的处理器核107或如图2A的核202A-202N内的通用逻辑来执行处理操作。

由在图形核阵列414上执行的线程生成的输出数据可以将数据输出到在统一返回缓冲区(URB)318中的存储器。URB 418可以存储多个线程的数据。在一些实施例中，URB418可用于在图形核阵列414上执行的不同线程之间发送数据。在一些实施例中，URB 418可另外用于图形核阵列上的线程与共享功能逻辑420内的固定功能逻辑之间的同步。。

在一些实施例中，图形核阵列414是可缩放的，使得阵列包括可变数量的图形核，每个图形核基于GPE 410的目标功率和性能水平具有可变数量的执行单元。在一个实施例中，执行资源是动态可缩放的，使得可以根据需要启用或禁用执行资源。

图形核阵列414与共享功能逻辑420耦合，共享功能逻辑420包括在图形核阵列中的图形核之间共享的多个资源。共享功能逻辑420内的共享功能是向图形核阵列414提供专用补充功能的硬件逻辑单元。在各种实施例中，共享功能逻辑420包括但不限于采样器421、数学422和线程间通信 (ITC)423逻辑。另外，一些实施例在共享功能逻辑420内实现一个或多个高速缓存425。

实现共享功能，至少在以下情况中，其中针对给定专用功能的需求不足以包括在图形核阵列414内。而是将该专用功能的单个实例化实现为共享功能逻辑420中的独立实体，并且在图形核阵列414内的执行资源之间共享。在图形核阵列414之间共享并包括在图形核阵列414内的精确功能集在实施例中变化。在一些实施例中，图形核阵列414广泛使用的共享功能逻辑420内的特定共享功能可以包括在图形核阵列414内的共享功能逻辑416内。在各种实施例中，图形核阵列414内的共享功能逻辑416可以包括共享功能逻辑420内的一些或所有逻辑。在一个实施例中，共享功能逻辑420内的所有逻辑元件可以在图形核阵列414的共享功能逻辑416内复制。在一个实施例中，共享功能逻辑420被排除支持图形核阵列414内的共享功能逻辑416。

执行单元

图5A-图5B示出了线程执行逻辑500，其包括根据本文描述的实施例的图形处理器核中采用的处理元件阵列。具有与本文任何其他图的元件相同的附图标记(或名称)的图5A-图5B的元素可以以与本文其他地方描述的方式类似的任何方式操作或起作用，但不限于此。图5A-5B示出了线程执行逻辑500的概览，线程执行逻辑500可以表示与图2B的每一子核 221A-221F一起例示的硬件逻辑。图5A表示通用图形处理器内的执行单元，而图5B则表示可以在计算加速器内使用的执行单元。

如图5A所示出的，在一些实施例中，线程执行逻辑500包括着色器处理器502、线程分派器504、指令高速缓存506、包括多个执行单元508A-508N 的可缩放执行单元阵列、采样器510、共享本地存储器511、数据高速缓存 512和数据端口514。在一个实施例中，可缩放执行单元阵列可以通过基于工作负载的计算要求启用或禁用一个或多个执行单元(例如，执行单元508A、 508B、508C、508D、至508N-1和508N中的任何一个)来动态地缩放。在一个实施例中，所包括的组件经由链接到每个组件的互连结构互连。在一些实施例中，线程执行逻辑500包括通过指令高速缓存506、数据端口514、采样器510和执行单元508A-508N中的一个或多个的到存储器(例如系统存储器或高速缓存存储器)的一个或多个连接。在一些实施例中，每个执行单元(例如508A)是独立的可编程通用计算单元，其能够执行多个同时的硬件线程，并且同时针对每个线程处理多个数据元素。在各种实施例中，执行单元的阵列508A-508N是可缩放的以包括任何数量的单独执行单元。

在一些实施例中，执行单元508A-508N主要用于执行着色器程序。着色器处理器502可以处理各种着色器程序并经由线程分派器504来分派与着色器程序相关联的执行线程。在一个实施例中，线程分派器包括用于仲裁来自图形和媒体流水线的线程发起请求并在执行单元508A-508N中的一个或多个执行单元上实例化所请求的线程的逻辑。例如，几何流水线可以将顶点、曲面细分或几何着色器分派给线程执行逻辑以进行处理。在一些实施例中，线程分派器504还可以处理来自执行着色器程序的运行时线程产生请求。

在一些实施例中，执行单元508A-508N支持包括对许多标准3D图形着色器指令的本机支持的指令集，使得来自图形库(例如，Direct 3D和 OpenGL)的着色器程序以最小的平移执行。执行单元支持顶点和几何处理 (例如，顶点程序、几何程序、顶点着色器)、像素处理(例如像素着色器、片段着色器)和通用处理(例如，计算和媒体着色器)。每个执行单元 508A-508N能够执行多发单指令多数据(SIMD)，并且多线程操作在面对更高延迟的存储器存取时实现有效的执行环境。每个执行单元内的每个硬件线程都具有专用的高带宽寄存器文件和相关联的独立线程状态。对于能够进行整数、单精度和双精度浮点运算、SIMD分支能力、逻辑运算、超越运算和其他杂项运算的流水线，每个时钟执行多次执行。在等待来自存储器或共享功能中的一个的数据时，执行单元508A-508N内的依赖性逻辑使等待线程休眠，直到返回所请求的数据。当等待线程处于休眠状态时，硬件资源可能用于处理其他线程。例如，在与顶点着色器操作相关联的延迟期间，执行单元可以执行针对像素着色器、片段着色器或其他类型的着色器程序(包括不同的顶点着色器)的操作。各种实施例可以适用于通过使用单指令多线程(SIMT)实施的使用执行，所述单指令多线程的使用是对SIMD的使用的替代或者是在SIMD的使用之外使用的。对SIMD核或操作的提及之处也可以适用于SIMT或者适用于SIMD与SIMT的组合。

执行单元508A-508N中的每个执行单元对数据元素阵列进行操作。数据元素的数量是“执行大小”或指令的通道数量。执行通道是指令内数据元素访问、掩蔽和流程控制的逻辑执行单位。通道的数量可以独立于特定图形处理器的物理算术逻辑单元(ALU)或浮点单元(FPU)的数量。在一些实施例中，执行单元508A-508N支持整数和浮点数据类型。

执行单元指令集包括SIMD指令。各种数据元素可以作为封装的数据类型存储在寄存器中，并且执行单元将基于元素的数据大小处理各种元素。例如，当在256位宽度的矢量上操作时，矢量的256位被存储在寄存器中，并且执行单元对作为四个独立的54位封装的数据元素(四字(QW)大小的数据元素)、8个独立的32位封装的数据元素(双字(DW)大小的数据元素)、16个独立的16位封装的数据元素(字(W)大小的数据元素)或 32个独立的8位数据元素(字节(B)大小的数据元素)的矢量进行操作。但是，不同的矢量宽度和寄存器大小是可能的。

在一个实施例中，一个或多个执行单元可以组合成具有线程控制逻辑 (507A-507N)的融合的执行单元509A-509N，该线程控制逻辑对于融合的 EU是公共的。多个EU可以融入EU组。融合EU组中的每个EU可以配置为执行单独的SIMD硬件线程。根据实施例，融合的EU组中的EU的数量可以变化。另外，可以针对每个EU执行各种SIMD宽度，包括但不限于SIMD8、SIMD16和SIMD32。每个融合的图形执行单元509A-509N包括至少两个执行单元。例如，融合的执行单元509A包括第一EU 508A、第二 EU 508B和线程控制逻辑507A，所述线程控制逻辑507A对于第一EU 508A 和第二EU 508B是共同的。线程控制逻辑507A控制在融合图形执行单元 509A上执行的线程，允许融合的执行单元509A-509N内的每个EU使用公共指令指针寄存器来执行。

一个或多个内部指令高速缓存(例如，506)被包括在线程执行逻辑500 中以对用于执行单元的线程指令进行高速缓存。在一些实施例中，包括一个或多个数据高速缓存(例如，512)以在线程执行期间高速缓存线程数据。在一些实施例中，包括采样器510以提供用于3D操作的纹理采样和用于媒体操作的媒体采样。在执行逻辑500上执行的线程还可以将明确管理的数据存储到共享本地存储器511内。在一些实施例中，采样器510包括专门的纹理或媒体采样功能，以在将采样数据提供给执行单元之前，在采样过程期间处理纹理或媒体数据。

在执行期间，图形和媒体流水线经由线程产生和分派逻辑将线程发起请求发送到线程执行逻辑500。一旦一组几何对象已经被处理并光栅化为像素数据，则调用着色器处理器502内的像素处理器逻辑(例如，像素着色器逻辑、片段着色器逻辑等)以进一步计算输出信息并使结果被写入到输出表面(例如，颜色缓冲区、深度缓冲区、模板缓冲区等等)。在一些实施例中，像素着色器或片段着色器计算要在光栅化对象上内插的各种顶点属性的值。在一些实施例中，着色器处理器502内的像素处理器逻辑然后执行应用编程接口(API)供应的像素或片段着色器程序。为了执行着色器程序，着色器502经由线程分派器504将线程分派给执行单元(例如，508A)。在一些实施例中，着色器处理器502使用采样器510中的纹理采样逻辑来存取存储在存储器中的纹理映射中的纹理数据。对纹理数据和输入几何数据的算术运算针对每个几何片段计算像素颜色数据，或从进一步处理中丢弃一个或多个像素。

在一些实施例中，数据端口514针对线程执行逻辑500提供存储器存取机制，将经处理的数据输出到存储器以进一步在图形处理器输出流水线上进行处理。在一些实施例中，数据端口514包括或耦合到一个或多个高速缓存存储器(例如，数据高速缓存512)以对数据高速缓存以用于经由数据端口对存储器存取。

在一个实施例中，执行逻辑500还可以包括能够提供光线追踪加速功能的光线追踪器505。光线追踪器505能够支持包括用于光线生成的指令/ 功能的光线追踪指令集。该光线追踪指令集可以与图2C的光线追踪核245 所支持的光线追踪指令集类似或不同。

图5B示出了根据实施例的执行单元508的示例性内部细节。图形执行单元508可包括指令获取单元537、通用寄存器文件阵列(GRF)524、架构寄存器文件阵列(ARF)526、线程仲裁器522、发送单元530、分支单元532、一组SIMD浮点单元(FPU)534，并且在一个实施例中是一组专用整数SIMD ALU 535。GRF 524和ARF 526包括一组通用寄存器文件和架构寄存器文件，所述架构寄存器文件与可在图形执行单元508中活动的每个同时硬件线程相关联。在一个实施例中，每个线程架构状态保持在ARF 526中，而在线程执行期间使用的数据存储在GRF 524中。每个线程的执行状态(包括针对每个线程的指令指针)可，可以保存在ARF 526中的线程专用寄存器中。

在一个实施例中，图形执行单元508具有作为同时多线程(SMT)和细粒度交织多线程(IMT)的组合的架构。该架构具有模块化配置，其可以在设计时基于同时线程的目标数量和每个执行单元的寄存器数量进行微调，其中执行单元资源被划分为用于执行多个同时线程的逻辑。可以由图形执行单元508执行的逻辑线程的数量不限于硬件线程的数量，并且多个逻辑线程可以被分配给每一硬件线程。

在一个实施例中，图形执行单元508可以共发出多个指令，每个指令可以是不同的指令。图形执行单元线程508的线程仲裁器522可以将指令分派给发送单元530、分支单元532或SIMD FPU 534中的一个以供执行。每个执行线程可以访问GRF 524内的128个通用寄存器，其中每个寄存器可以存储32个字节，可作为32位数据元素的SIMD 8元素向量访问。在一个实施例中，每个执行单元线程可以访问GRF 524内的4千字节，但是实施例不限于此，并且在其他实施例中可以提供更多或更少的寄存器资源。在一个实施例中，图形执行单元508被划分成七个硬件线程，它们能够独立地执行计算操作，尽管每一执行单元的线程数量也可以根据实施例而发生变化。例如，在一个实施例中，支持多达16个硬件线程。在七个线程可以访问4千字节的实施例中，GRF 524可以存储总共28千字节。在16个线程可以访问4千字节的情况下，GRF 524可以存储总共64千字节。灵活的寻址模式可以允许对寄存器一起寻址，从而有效地构建更宽的寄存器或者表示跨步(strided)矩形块数据结构。

在一个实施例中，经由由消息传递发送单元530执行的“发送”指令来分派存储器操作、采样器操作和其他较长延迟系统通信。在一个实施例中，将分支指令分派给专用分支单元532以促进SIMD发散和最终收敛。

在一个实施例中，图形执行单元508包括一个或多个SIMD浮点单元(FPU)534以执行浮点运算。在一个实施例中，FPU 534还支持整数计算。在一个实施例中，FPU 534可以SIMD执行多达M个32位浮点(或整数) 操作，或者SIMD执行多达2M个16位整数或16位浮点操作。在一个实施例中，至少一个FPU提供扩展的数学能力以支持高吞吐量的超越数学函数和双精度54位浮点。在一些实施例中，还存在一组8位整数SIMD ALU 535，并且可以具体地优化该组8位整数SIMD ALU 535以执行与机器学习计算相关联的操作。

在一个实施例中，可以在图形子核分组(例如，子切片)中实例化图形执行单元508的多个实例的阵列。对于可缩放性，产品架构师可以选择每个子核分组的确切执行单元数。在一个实施例中，执行单元508可以跨多个执行通道执行指令。在另一实施例中，在图形执行单元508上执行的每个线程在不同的信道上执行。

图6示出了根据实施例的附加执行单元600。执行单元600可以是用在 (例如)如图3C所示的计算引擎块340A-340D内的计算优化执行单元，但不限于此。执行单元600的变型也可以被用到如图3B所示的图形引擎块 310A-310D内。在一个实施例中，执行单元600包括线程控制单元601、线程状态单元602、指令取出/预取单元603和指令解码单元604。执行单元 600附加包括寄存器文件606，其存储可以被分配给该执行单元内的硬件线程的寄存器。执行单元600附加包括发送单元607和分支单元608。在一个实施例中，发送单元607和分支单元608可以按照与图5B的图形执行单元 508的发送单元530和分支单元532类似的方式操作。

执行单元600还包括计算单元610，其包括多个不同类型的功能单元。在一个实施例中，计算单元610包括ALU单元611，其包括算术逻辑单元的阵列。ALU单元611可以被配置为执行64位、32位和16位整数和浮点运算。整数和浮点运算可以同时执行。计算单元610可以附加包括心动阵列612和数学单元613。心动阵列612包括由数据处理单元构成的W宽、 D深网络，其可以用于按照心动方式执行向量运算或其他数据并行运算。在一个实施例中，心动阵列612可以被配置为执行矩阵运算，例如，矩阵点积运算。在一个实施例中，心动阵列612支持16位浮点运算以及8位和 4位整数运算。在一个实施例中，心动阵列612可以被配置为加速机器学习操作。在这样的实施例中，心动阵列612可以配置有对bfloat 16位浮点格式的支持。在一个实施例中，可以包含数学单元613，从而与之后的ALU 单元611相比按照有效率的并且较低功率方式执行数学运算的特定子集。数学单元613可以包括可以在其他实施例提供的图形处理引擎的共享功能逻辑当中发现的数学逻辑的变型(例如，图4的共享功能逻辑420的数学逻辑422)。在一个实施例中，数学单元613可以被配置为执行32位和64 位浮点运算。

线程控制单元601包括用于控制执行单元内的线程的执行的逻辑。线程控制单元601可以包括线程仲裁逻辑，以开始、停止以及抢占执行单元 600内的线程的执行。线程状态单元602可以用于存储被分配以在执行单元 600上执行的线程的线程状态。将线程状态存储到执行单元600内允许在线程变得阻塞或空闲时对这些线程快速抢占。指令取出/预取单元603能够从较高级别的执行逻辑的指令高速缓存(例如，图5A中的指令高速缓存506) 中取出指令。指令取出/预取单元603还可以基于当前执行的线程的分析来发出针对将加载到指令高速缓存内的指令的预取请求。指令解码单元604 可以用于对供计算单元执行的指令进行解码。在一个实施例中，指令解码单元604可以被用作辅助解码器，以将复杂指令解码成构成微操作。

执行单元600附加包括寄存器文件606，其可以被在执行单元600上执行的硬件线程使用。可以跨越用于执行执行单元600的计算单元610内的多个同时线程的逻辑对寄存器文件606中的寄存器进行划分。可以由图形执行单元600执行的逻辑线程的数量不限于硬件线程的数量，并且多个逻辑线程可以被分配给每一硬件线程。寄存器文件606的尺寸可以基于所支持的硬件线程的数量跨越实施例发生变化。在一个实施例中，可以采用寄存器重命名以动态地向硬件线程分配寄存器。

图7是示出了根据一些实施例的图形处理器指令格式700的框图。在一个或多个实施例中，图形处理器执行单元支持具有多种格式的指令的指令集。实线框示出通常包含在执行单元指令中的组件，而虚线包括可选组件或仅包含在指令的子集中的组件。在一些实施例中，所描述和示出的指令格式700是宏指令，因为它们是供应给执行单元的指令，而不是在处理指令时由指令解码产生的微操作。

在一些实施例中，图形处理器执行单元本地支持128位指令格式710 的指令。基于所选择的指令、指令选项和操作数的数量，64位压缩指令格式730可用于某些指令。原生128位指令格式710提供对所有指令选项的访问，而一些选项和操作受限于64位格式730。以64位格式730可用的原生指令因实施例而异。在一些实施例中，部分地使用索引字段713中的一组索引值来压缩指令。执行单元硬件基于索引值参考一组压缩表，并使用压缩表输出来重建128位指令格式710的原生指令。可以采用其他指令尺寸和格式。

对于每种格式，指令操作码712定义执行单元要执行的操作。执行单元跨每个操作数的多个数据元素并行执行每条指令。例如，响应于添加指令，执行单元在表示纹理元素或图片元素的每个颜色通道上执行同时添加操作。默认情况下，执行单元在操作数的所有数据通道上执行每条指令。在一些实施例中，指令控制字段714使得能够控制某些执行选项，诸如信道选择(例如，预测)和数据信道顺序(例如，调配)。对于128位指令格式710中的指令，执行大小字段716限制将被并行执行的数据信道的数量。在一些实施例中，执行大小字段716不可用于64位压缩指令格式730。

一些执行单元指令具有多达三个操作数，包括两个源操作数src0 722、 src1 722和一个目的地操作数718。在一些实施例中，执行单元支持双目的地指令，其中目的地之一是隐含的。数据操作指令可以具有第三源操作数 (例如，SRC2 724)，其中指令操作码712确定源操作数的数量。指令的最后一个源操作数可以是与指令一起传递的立即数(例如，硬编码)值。

在一些实施例中，128位指令格式710包括访问/地址模式字段726，其指定例如是否使用直接寄存器寻址模式或间接寄存器寻址模式。当使用直接寄存器寻址模式时，一个或多个操作数的寄存器地址直接由指令中的位提供。

在一些实施例中，128位指令格式710包括访问/地址模式字段726，其指定该指令的地址模式和/或访问模式。在一个实施例中，访问模式用于针对该指令定义数据访问对齐。一些实施例支持包括16字节对齐访问模式和 1字节对齐访问模式的访问模式，其中访问模式的字节对齐确定指令操作数的访问对齐。例如，当处于第一模式时，指令可以针对源操作数和目的地操作数使用字节对齐寻址，并且当处于第二模式时，指令可以针对所有源操作数和目的地操作数使用16字节对齐寻址。

在一个实施例中，访问/地址模式字段726的地址模式部分确定指令是使用直接寻址还是间接寻址。当使用直接寄存器寻址模式时，指令中的位直接提供一个或多个操作数的寄存器地址。当使用间接寄存器寻址模式时，可以基于指令中的地址寄存器值和地址立即数字段来计算一个或多个操作数的寄存器地址。

在一些实施例中，基于操作码712位字段对指令进行分组以简化操作码解码740。对于8位操作码，位4、5和6允许执行单元确定操作码的类型。所示的精确操作码分组仅仅是示例。在一些实施例中，移动和逻辑操作码组742包括数据移动和逻辑指令(例如移动(mov)、比较(cmp))。在一些实施例中，移动和逻辑组742共享五个最高有效位(MSB)，其中移动(mov)指令为0000xxxxb的形式并且逻辑指令为0001xxxxb的形式。流控制指令组744(例如，调用、跳转(jmp))包括形式为0010xxxxb(例如， 0x20)的指令。杂项指令组746包括指令混合，其包括以0011xxxxb(例如， 0x30)形式的同步指令(例如，等待，发送)。并行数学指令组748包括 0100xxxxb(例如，0x40)形式的分量算术指令(例如，加法、乘法(mul))。并行数学组748跨数据通道并行执行算术运算。矢量数学组750包括形式为0101xxxxb(例如，0x50)的算术指令(例如，dp4)。矢量数学组对矢量操作数执行算术运算，例如点积计算。所示的操作数解码740在一个实施例中可以用于确定将采用执行单元的哪部分来执行解码后的指令。例如，一些指令可以被指定为将由心动阵列执行的心动指令。其他指令，例如，光线追踪指令(未示出)可以被路由至执行逻辑的切片或分区内的光线追踪核或光线追踪逻辑。

图形流水线

图8是图形处理器800的另一实施例的框图。图8中的具有与本文任何其他图的元件相同的附图标记(或名称)的元件可以以与本文其他地方所描述的任何类似的方式操作或起作用，但不限于此。

在一些实施例中，图形处理器800包括几何流水线820、媒体流水线 830、显示引擎840、线程执行逻辑850和渲染输出流水线870。在一些实施例中，图形处理器800是包括一个或多个通用处理核的多核处理系统内的图形处理器。图形处理器通过向一个或多个控制寄存器(未示出)的寄存器写入或经由环形互连802向图形处理器800发出的命令来控制。在一些实施例中，环形互连802将图形处理器800耦合到其他处理组件，诸如其他图形处理器或通用处理器。来自环形互连802的命令由命令流式传送器803解释，命令流式传送器803向几何流水线820或媒体流水线830的各个组件供应指令。

在一些实施例中，命令流式传送器803引导从存储器读取顶点数据的顶点获取器805的操作，并且执行由命令流式传送器803提供的顶点处理命令。在一些实施例中，顶点获取器805将顶点数据提供给顶点着色器807，顶点着色器807对每个顶点执行坐标空间变换和照明操作。在一些实施例中，顶点获取器805和顶点着色器807通过经由线程分派器831将执行线程分派给执行单元852A、852B来执行顶点处理指令。

在一些实施例中，执行单元852A、852B是具有用于执行图形和媒体操作的指令集的矢量处理器的阵列。在一些实施例中，执行单元852A、852B 具有附接的L1高速缓存851，其专用于每个阵列或在阵列之间共享。高速缓存可以配置为数据高速缓存、指令高速缓存或被划分以在不同分区中包含数据和指令的单个高速缓存。

在一些实施例中，几何流水线820包括曲面细分组件以执行3D对象的硬件加速的曲面细分。在一些实施例中，可编程外壳着色器811配置曲面细分操作。可编程域着色器817提供曲面细分输出的后端评估。曲面细分器813在外壳着色器811的方向上操作并且包含专用逻辑以基于作为输入提供给几何流水线820的粗略几何模型来生成一组详细几何对象。在一些实施例中，如果不使用曲面细分，则曲面细分组件(例如，全着色器811、曲面细分器813、以及区域着色器817)可以被绕过。

在一些实施例中，完整的几何对象可以由几何着色器819经由分派到执行单元852A、852B的一个或多个线程来处理，或者可以直接进行到裁剪器829。在一些实施例中，几何着色器在整个几何对象上进行操作，而不是像在图形流水线的先前阶段中那样在顶点或顶点片上进行操作。如果曲面细分被禁用，则几何着色器819从顶点着色器807接收输入。在一些实施例中，如果曲面细分单元被禁用，则几何着色器819能够由几何着色器程序编程以执行几何曲面细分。

在光栅化之前，裁剪器829可以处理顶点数据。裁剪器829可以是固定功能裁剪器或具有裁剪和几何着色器功能的可编程裁剪器。在一些实施例中，渲染输出流水线870中的光栅化器以及深度测试组件873调度像素着色器以将几何对象转换为其每像素表示。在一些实施例中，像素着色器逻辑被包括在线程执行逻辑850中。在一些实施例中，应用可以绕过光栅化器以及深度测试组件873并且经由流出单元823访问未光栅化的顶点数据。

图形处理器800具有允许数据和消息在处理器的主要组件之间传递的互连总线、互连结构或一些其他互连机制。在一些实施例中，执行单元 852A-852B和关联的逻辑单元(例如，L1高速缓存851、采样器854以及纹理高速缓存858等)经由数据端口856互连以执行存储器存取并且与处理器的渲染输出流水线组件进行通信。在一些实施例中，采样器854、高速缓存851、858和执行单元852A、852B各自具有分离的存储器存取路径。在一个实施例中，纹理高速缓存858还可以被配置为采样器高速缓存。

在一些实施例中，渲染输出流水线870包含将基于顶点的对象转换为关联的基于像素的表示的光栅化器和深度测试组件873。在一些实施例中，光栅器逻辑包括加窗器/掩蔽器单元，以执行固定功能三角形和线光栅化。在一些实施例中，相关联的渲染高速缓存878和深度高速缓存879也是可用的。像素操作组件877对数据执行基于像素的操作，尽管在一些实例中，与2D操作相关联的像素操作(例如，具有混合的位块图像传送)由2D引擎841执行，或者在显示时通过显示器控制器843使用重叠显示平面替代。在一些实施例中，共享的L3高速缓存875可用于所有图形组件，允许在不使用主系统存储器的情况下共享数据。

在一些实施例中，图形处理器媒体流水线830包括媒体引擎837和视频前端834。在一些实施例中，视频前端834从命令流式传送器803接收流水线命令。在一些实施例中，媒体流水线830包括单独的命令流式传送器。在一些实施例中，视频前端834在将命令发送到媒体引擎837之前处理媒体命令。在一些实施例中，媒体引擎837包括线程产生功能以产生线程从而经由线程分派器831分派给线程执行逻辑850。

在一些实施例中，图形处理器800包括显示引擎840。在一些实施例中，显示引擎840在处理器800的外部并经由环形互连802或一些其他互连总线或结构与图形处理器耦合。在一些实施例中，显示引擎840包括2D引擎 841和显示控制器843。在一些实施例中，显示引擎840包含能够独立于3D 流水线而操作的专用逻辑。在一些实施例中，显示控制器843与显示设备 (未示出)耦合，该显示设备可以是如膝上型计算机之类的系统集成显示设备，或者经由显示设备连接器附接的外部显示设备。

在一些实施例中，几何流水线820和媒体流水线830能够配置成基于多个图形和媒体编程接口来执行操作，并且不特定于任何一种应用编程接口(API)。在一些实施例中，用于图形处理器的驱动器软件将对特定图形或媒体库特定的API调用转换成可由图形处理器处理的命令。在一些实施例中，针对全部来自Khronos Group的开放图形库(OpenGL)和/或Vulkan 图形以及计算API提供支持。在一些实施例中，还可以针对来自微软公司的Direct3D库提供支持。在一些实施例中，可以支持这些库的组合。也可以对开源计算机视觉库(OpenCV)提供支持。如果能够从未来API的流水线到图形处理器的流水线进行映射，则还将支持具有兼容3D流水线的未来 API。

图形流水线编程

图9A是示出了根据一些实施例的图形处理器命令格式900的框图。图 9B是示出了根据一个实施例的图形处理器命令序列910的框图。图9A中的实线框示出了通常包括在图形命令中的组件，而虚线包括可选的或仅包含在图形命令的子集中的组件。图9A的示例性的图形处理器命令格式900 包括用于标识客户端902、命令操作码(操作码)904以及该命令的数据906 的数据字段。子操作码905和命令大小908也包含在一些命令中。

在一些实施例中，客户端902指定处理命令数据的图形设备的客户端单元。在一些实施例中，图形处理器命令解析器检查每个命令的客户端字段以调节命令的进一步处理并将命令数据路由到适当的客户端单元。在一些实施例中，图形处理器客户端单元包括存储器接口单元、渲染单元、2D 单元、3D单元和媒体单元。每个客户端单元都有处理这些命令的相应处理流水线。一旦客户端单元接收到该命令，客户端单元就读取操作码904和子操作码905(如果存在)以确定要执行的操作。客户端单元使用数据字段 906中的信息来执行命令。对于某些命令，预期明确的命令大小908以指定命令的大小。在一些实施例中，命令解析器基于命令操作码来自动确定命令中的至少一些的大小。在一些实施例中，命令经由双字的倍数对齐。

图9B中的流程示出了示例性图形处理器命令序列910。在一些实施例中，以图形处理器的实施例为特征的数据处理系统的软件或固件使用所示命令序列的一个版本来设置、执行并终止一组图形操作。仅出于示例的目的示出和描述示例命令序列，因为实施例不限于这些特定命令或该命令序列。而且，命令可以作为命令序列中的一批命令发布，使得图形处理器将至少部分地同时处理命令序列。

在一些实施例中，图形处理器命令序列910可以以流水线刷新命令912 开始，以使任何活动图形流水线完成流水线的当前未决命令。在一些实施例中，3D流水线922和媒体流水线924不同时操作。执行流水线刷新以使活动图形流水线完成任何未决命令。响应于流水线刷新，图形处理器的命令解析器将暂停命令处理，直到活动绘图引擎完成未决操作并且相关读取高速缓存失效。可选地，渲染高速缓存中标记为“脏”的任何数据都可以刷新到存储器。在一些实施例中，流水线刷新命令912可以用于流水线同步或者在将图形处理器置于低功率状态之前使用。

在一些实施例中，当命令序列要求图形处理器在流水线之间明确切换时使用流水线选择命令913。在一些实施例中，在发布流水线命令之前，在执行上下文中仅需要一次流水线选择命令913，除非该上下文将发布针对两个流水线的命令。在一些实施例中，紧接在经由流水线选择命令913的流水线切换之前需要流水线刷新命令912。

在一些实施例中，流水线控制命令914配置图形流水线以用于操作，并用于对3D流水线922和媒体流水线924进行编程。在一些实施例中，流水线控制命令914配置活动流水线的流水线状态。在一个实施例中，流水线控制命令914被用于流水线同步并且在处理一批命令之前清除来自活动流水线内的一个或多个高速缓存存储器的数据。

在一些实施例中，返回缓冲区状态命令916被用于配置一组返回缓冲区以便相应流水线写入数据。一些流水线操作需要分配、选择或配置一个或多个返回缓冲区，操作在处理期间将中间数据写入该返回缓冲区。在一些实施例中，图形处理器还使用一个或多个返回缓冲区来存储输出数据并执行交叉线程通信。在一些实施例中，返回缓冲区状态916包括选择返回缓冲区的大小和数量以用于一组流水线操作。

命令序列中的其余命令基于用于操作的活动流水线而不同。基于流水线确定920，命令序列针对从3D流水线状态930开始的3D流水线922或从媒体流水线状态940开始的媒体流水线924而定制。

用于3D流水线状态930的命令包括用于顶点缓冲区状态、顶点元素状态、常量颜色状态、深度缓冲区状态以及在处理3D图元命令之前要配置的其他状态变量的3D状态设置命令。这些命令的值至少部分基于正在使用的特定3D API来确定。在一些实施例中，如果某些流水线元件将不被使用， 3D流水线状态930命令还能够选择性地禁用或绕过那些元件。

在一些实施例中，3D图元932命令被用于提交将由3D流水线处理的 3D图元。经由3D图元932命令传递给图形处理器的命令和相关联的参数被转发到图形流水线中的顶点获取函数。顶点获取函数使用3D图元932命令数据来生成顶点数据结构。顶点数据结构存储在一个或多个返回缓冲区中。在一些实施例中，3D图元932命令被用于经由顶点着色器对3D图元执行顶点操作。为了处理顶点着色器，3D流水线922将着色器执行线程分派给图形处理器执行单元。

在一些实施例中，3D流水线922经由执行934命令或事件来触发。在一些实施例中，寄存器写入触发命令执行。在一些实施例中，经由命令序列中的“开始”或“踢”命令来触发执行。在一个实施例中，使用流水线同步命令来触发命令执行以通过图形流水线刷新命令序列。3D流水线将执行针对3D图元的几何处理。一旦操作完成，得到的几何对象被光栅化，并且像素引擎对所得像素着色。用于控制像素着色和像素后端操作的附加命令也可以包含以用于这些操作。

在一些实施例中，当执行媒体操作时，图形处理器命令序列910在媒体流水线924路径之后。通常，针对媒体流水线924的具体使用和编程方式取决于要执行的媒体或计算操作。在媒体解码期间，特定的媒体解码操作可以被卸载到媒体流水线。在一些实施例中，媒体流水线也可以被绕过，并且可以使用由一个或多个通用处理核提供的资源来全部或部分地执行媒体解码。在一个实施例中，媒体流水线还包括用于通用图形处理器单元(GPGPU)操作的元件，其中图形处理器用于使用与图形图元的渲染不明确相关的计算着色器程序来执行SIMD矢量操作。

在一些实施例中，媒体流水线924以与3D流水线922类似的方式配置。在媒体对象命令942之前，用于配置媒体流水线状态940的一组命令被分派或放入命令队列中。在一些实施例中，用于媒体流水线状态的命令940 包括用于配置将被用来处理媒体对象的媒体流水线元素的数据。这包括用于配置媒体流水线内的视频解码和视频编码逻辑的数据，如编码或解码格式。在一些实施例中，用于媒体流水线状态的命令940还支持使用指向包含一批状态设置的“间接”状态元素的一个或多个指针。

在一些实施例中，媒体对象命令942供应指向媒体对象的指针以用于由媒体流水线处理。媒体对象包括包含要处理的视频数据的存储器缓冲区。在一些实施例中，在发布媒体对象命令942之前，所有媒体流水线状态必须是有效的。一旦流水线状态被配置并且媒体对象命令942入队，则媒体流水线924经由执行命令944或等同的执行事件(例如寄存器写入)触发。然后，来自媒体流水线924的输出可以由3D流水线922或媒体流水线924 提供的操作进行后处理。在一些实施例中，GPGPU操作以与媒体操作类似的方式被配置和执行。

图形软件架构

图10示出了根据一些实施例的用于数据处理系统1000的示例性图形软件架构。在一些实施例中，软件架构包括3D图形应用1010、操作系统 1020和至少一个处理器1030。在一些实施例中，处理器1030包括图形处理器1032和一个或多个通用处理器核1034。图形应用1010和操作系统1020 各自在数据处理系统的系统存储器1050中执行。

在一些实施例中，3D图形应用1010包含一个或多个着色器程序，其包括着色器指令1012。着色器语言指令可以是高级着色器语言，诸如高级着色器语言(HLSL)或OpenGL着色语言(GLSL)。该应用还包括适用于由通用处理器核1034执行的机器语言的可执行指令1014。该应用还包括由顶点数据定义的图形对象1016。

在一些实施例中，操作系统1020是来自微软公司的

操作系统、专有类UNIX操作系统或者使用Linux内核的变体的开源类UNIX操作系统。操作系统1020可以支持图形API 1022，诸如Direct3D API、OpenGL API或Vulkan API。当Direct3D API被使用时，操作系统1020使用前端着色器编译器1024来将HLSL中的任何着色器指令1012编译成较低级着色器语言。编译可以是即时(JIT)编译或应用可以执行着色器预编译。在一些实施例中，在编译3D图形应用1010期间将高级着色器编译成低级着色器。在一些实施例中，着色器指令1012以中间形式(例如，Vulkan API使用的标准可移植中间表示(SPIR)的版本)提供。

在一些实施例中，用户模式图形驱动器1026包含后端着色器编译器 1027以将着色器指令1012转换成硬件特定表示。当OpenGL API被使用时， GLSL高级语言的着色器指令1012被传递给用户模式图形驱动器1026以供编译。在一些实施例中，用户模式图形驱动器1026使用操作系统内核模式功能1028来与内核模式图形驱动器1029通信。在一些实施例中，内核模式图形驱动器1029与图形处理器1032通信以分派命令和指令。

IP核实现

至少一个实施例的一个或多个方面可以通过代表和/或定义诸如处理器之类的集成电路内的逻辑的存储在机器可读介质上的代表性代码来实现。例如，机器可读介质可以包括表示处理器内的各种逻辑的指令。当由机器读取时，指令可以使机器制造逻辑以执行本文描述的技术。被称为“IP核” 的这种表示是用于集成电路的逻辑的可重用单元，其可以作为描述集成电路的结构的硬件模型存储在有形的、机器可读介质上。硬件模型可以供应给各种客户或制造设施，这些客户或制造设施在制造集成电路的制造机器上加载硬件模型。集成电路可以被制造为使得电路执行结合本文描述的任何实施例描述的操作。

图11A是示出了根据实施例的可用于制造集成电路以执行操作的IP核开发系统1100的框图。IP核开发系统1100可以用于生成模块化的、可重用的设计，其可以被结合到更大的设计中或被用于构建整个集成电路(例如，SOC集成电路)。设计工具1130可以用高级编程语言(例如，C/C++) 生成IP核设计的软件模拟1110。软件模拟1110可以用于使用模拟模型1112 来设计、测试和验证IP核的行为。模拟模型1112可以包括功能、行为和/ 或时序模拟。然后，可以根据模拟模型1112来创建或合成寄存器传输级 (RTL)设计。RTL设计1115是对硬件寄存器之间的数字信号流进行建模的集成电路的行为的抽象，包括使用建模的数字信号执行的关联逻辑。除了RTL设计1115之外，还可以创建、设计或合成逻辑电平或晶体管级的较低级设计。因此，初始设计和模拟的具体细节可能会有所不同。

RTL设计1115或等同物可以进一步由设计工具合成为硬件模型1120，其可以是硬件描述语言(HDL)或物理设计数据的一些其他表示。可以进一步模拟或测试HDL以验证IP核设计。可以使用非易失性存储器1140(例如，硬盘、闪存或任何非易失性存储介质)来存储IP核设计，以便传送到第三方制造设施1165。可替代地，IP核设计可以通过有线连接1150或无线连接1160被发送(例如，经由因特网)。制造设施1165然后可以制造至少部分地基于IP核设计的集成电路。所制造的集成电路可以被配置为根据本文描述的至少一个实施例执行操作。

图11B示出了根据本文描述的一些实施例的集成电路封装组件1170的横截面侧视图。集成电路封装组件1170示出了如本文所述的一个或多个处理器或加速器设备的实现。封装组件1170包括连接到衬底1180的多个硬件逻辑单元1172、1174。逻辑1172、1174可以至少部分地在可配置逻辑或固定功能逻辑硬件中实现，并且可以包括处理器核、图形处理器或本文描述的其他加速器设备中的任何的一个或多个部分。逻辑1172、1174的每个单元可以在半导体管芯内实现，并且经由互连结构1173与衬底1180耦合。互连结构1173可以被配置为在逻辑1172、1174和衬底1180之间路由电信号，并且可以包括互连，例如但不限于凸块或支柱。在一些实施例中，互连结构1173可以被配置为路由电信号，例如，与逻辑1172、1174的操作相关联的输入/输出(I/O)信号和/或电源或接地信号。在一些实施例中，基板 1180是基于环氧树脂的层压衬底。在其他实施例中，封装衬底1180可以包括其他合适类型的衬底。封装组件1170可以经由封装互连1183连接到其他电子器件。封装互连1183可以耦合到基板1180的表面以将电信号路由到其他电子设备，例如母板、其他芯片组或多个芯片模块。

在一些实施例中，逻辑单元1172、1174与桥1182电耦合，桥1182被配置为在逻辑1172、1174之间路由电信号。桥1182可以是提供针对电子信号的路由的密集互连结构。桥1182可以包括由玻璃或合适的半导体材料构成的桥基板。可以在桥基板上形成电路由特征，以在逻辑1172、1174之间提供芯片到芯片的连接。

尽管示出了两个逻辑单元1172、1174和桥1182，但是本文描述的实施例可以在一个或多个管芯上包括更多或更少的逻辑单元。一个或多个管芯可以通过零个或多个桥连接，因为当逻辑包括在单个管芯上时可以排除桥 1182。可替换地，多个管芯或逻辑单元可以通过一个或多个桥连接。另外，多个逻辑单元、管芯和桥可以以其他可能的配置(包括三维配置)连接在一起。

图11C示出了包括连接至衬底1180(例如，基础管芯上)的多个硬件逻辑小芯片单元的封装组件1190。如本文所述的图形处理单元、并行处理器和/或计算加速器可以由单独制造的各式各样硅小芯片构成。在这一上下文中，小芯片(chiplet)是包括分立逻辑单元的至少部分地封装的集成电路，分立逻辑单元能够与其他小芯片一起组装成更大的封装。多样性的一组小芯片可以与不同的IP核逻辑一起组装成单个设备。此外，可以采用有源内插器技术将小芯片集成到基础管芯上或基础小芯片当中。本文描述的原理能够实现GPU内的不同形式的IP之间的互连和通信。各IP核可以是采用不同工艺技术制造的并且在制造期间构成到一起，这种做法避免了针对同一制造过程聚集多个IP的复杂性，尤其是在具有几种风格的IP的大型SoC 上。允许使用多种工艺技术缩短了上市时间，并且提供了一种经济有效的方式来创建多个产品SKU。此外，非聚集IP更加服从独立地电力门控，从而能够对在既定工作负载上未处于使用当中的部件断电，从而降低总功耗。

硬件逻辑小芯片可以包括专用硬件逻辑小芯片1172、逻辑或I/O小芯片1174和/或存储器小芯片1175。硬件逻辑小芯片1172和逻辑或I/O小芯片1174可以是至少部分地在可配置逻辑或固定功能逻辑硬件中实施的，并且可以包括本文描述的处理器核、图形处理器、并行处理器或者其他加速器设备中的任何选项的一个或多个部分。存储器小芯片1175可以是DRAM (例如，GDDR、HBM)存储器或高速缓冲(SRAM)存储器。

每一小芯片可以被制作成单独的半导体管芯上，并且经由互连结构 1173与衬底1180耦合。互连结构1173可以被配置为在各种小芯片和衬底 1180内的逻辑之间进行电信号的路由。互连结构1173可以包括诸如但不限于凸点或柱的互连。在一些实施例中，互连结构1173可以被配置为对电信号进行路由，例如，所述电信号是与所述逻辑、I/O和存储器小芯片的操作相关联的输入/输出(I/O)信号以及/或者电力信号或地信号。

在一些实施例中，衬底1180是基于环氧树脂的层合衬底。在其他实施例中，衬底1180可以包括其他适当类型的衬底。封装组件1190可以通过封装互连1183连接至其他电设备。封装互连1183可以耦合至衬底1180的表面，从而将电信号路由至其他电设备，诸如母板、其他芯片组或多芯片模块。

在一些实施例中，逻辑或I/O小芯片1174和存储器小芯片1175可以通过被配置为在逻辑或I/O小芯片1174和存储器小芯片1175之间对电信号进行路由的桥1187电耦合。桥1187可以是提供电信号的路由的密集互连结构。桥1187可以包括由玻璃或者适当半导体材料构成的桥衬底。电路由特征可以被形成到桥衬底上，以提供逻辑或I/O小芯片1174和存储器小芯片 1175之间的芯片对芯片连接。桥1187还可以被称为硅桥或互连桥。例如，桥1187在一些实施例中是嵌入式多管芯互连桥(EMIB)。在一些实施例中，桥1187可以简单地是从一个小芯片到另一小芯片的直接连接。

衬底1180可以包括用于I/O 1191、高速缓冲存储器1192和其他硬件逻辑1193的硬件部件。结构1185可以被嵌入到衬底1180内，从而实现各种逻辑小芯片与衬底1180内的逻辑1191、1193之间的通信。在一个实施例中， I/O 1191、结构1185、高速缓存、桥和其他硬件逻辑1193可以被集成到层叠在衬底1180的顶部的基础管芯内。

在各种实施例中，封装组件1190可以包括通过结构1185或者一个或多个桥1187互连的更低或更高数量的部件和小芯片。封装组件1190内的小芯片可以是按照3D或2.5D布置排布的。一般而言，桥结构1187可以用于促进例如逻辑或I/O小芯片和存储器小芯片之间的点到点互连。结构1185 可以用于对各种逻辑和/或I/O小芯片(例如，小芯片1172、1174、1191、 1193)与其他逻辑和/或I/O小芯片进行互连。在一个实施例中，衬底内的高速缓冲存储器1192可以充当封装组件1190的全局高速缓存、分布式全局高速缓存的部分或者结构1185的专用高速缓存。

图11D示出了根据实施例的包括可互换小芯片1195的封装组件1194。可互换小芯片1195可以被组装到一个或多个基础小芯片1196、1198上的标准化插槽内。基础小芯片1196、1198可以通过桥互连1197耦合，桥互连 1197可以与本文描述的其他桥互连类似，并且可以是(例如)EMIB。存储器小芯片还可以通过桥互连连接至逻辑或I/O小芯片。I/O和逻辑小芯片可以经由互连结构进行通信。基础小芯片中的每个可以支持用于逻辑或I/O或存储器/高速缓存中的一者的一个或多个具有标准化格式的插槽。

在一个实施例中，SRAM和供电电路可以被制作到基础小芯片1196、 1198中的一者或多者当中，其可以是相对于堆叠在基础小芯片的顶上的可互换小芯片1195采用不同工艺技术制作的。例如，基础小芯片1196、1198 可以是采用较大型工艺技术制作的，而可互换小芯片可以是采用较小型工艺技术制造的。可互换小芯片1195中的一者或多者可以是存储器(例如， DRAM)小芯片。可以基于针对使用封装组件1194的产品为目标的功率和 /或性能来针对封装组件1194选择不同的存储器密度。此外，可以在组装时基于针对产品为目标的功率和/或性能选择具有不同数量的类型的功能单元的逻辑小芯片。此外，含有不同类型的IP逻辑核的小芯片可以被插入到可互换小芯片插槽内，从而实现能够混合并且匹配不同技术的IP块的混合处理器设计。

片上集成电路的示例性系统

图12-图13示出了根据本文描述的各种实施例的可以使用一个或多个 IP核制造的示例性集成电路和相关联的图形处理器。除了所示的内容之外，可以包括其他逻辑和电路，包括附加的图形处理器/核、外围接口控制器或通用处理器核。

图12是示出了根据实施例的可以使用一个或多个IP核制造的芯片集成电路1200上的示例性系统的框图。示例性集成电路1200包括一个或多个应用处理器1205(例如，CPU)、至少一个图形处理器1210，并且可以另外包括图像处理器1215和/或视频处理器1220，其中的任何一个可以是来自相同或多个不同的设计工具的模块化IP核。集成电路包括外围设备或总线逻辑，其包括USB控制器1225、UART控制器1230、SPI/SDIO控制器1235和I²S/I²C控制器1240。另外，集成电路可包括显示设备1245，显示设备1245耦合到以下中的一个或多个：高清晰度多媒体接口(HDMI) 控制器1250和移动工业处理器接口(MIPI)显示接口1255。存储可以由包括闪存和闪存控制器的闪存子系统1260提供。存储器接口可以经由存储器控制器1265被提供以访问SDRAM或SRAM存储器设备。

图13A-图13B是示出了根据本文描述的实施例的在SoC内使用的示例性图形处理器的框图。图13A示出了根据一个实施例的可以使用一个或多个IP核制造的片上系统集成电路的示例性图形处理器1310。图13B示出了根据实施例的可以使用一个或多个IP核制造的片上系统集成电路的另外的示例性图形处理器1340。图13A的图形处理器1310是低功率图形处理器核的示例。图13B的图形处理器1340是更高性能图形处理器核的示例。每个图形处理器1310、1340可以是图12的图形处理器1210的变体。

如图13A所示，图形处理器1310包括顶点处理器1305和一个或多个片段处理器1315A-1315N(例如，1315A、1315B、1315C、1315D到1315N-1 和1315N)。图形处理器1310可以经由单独的逻辑执行不同的着色器程序，使得顶点处理器1305被优化以执行针对顶点着色器程序的操作，而一个或多个片段处理器1315A-1315N执行针对片段或像素着色器程序的片段(例如，像素)着色操作。顶点处理器1305执行3D图形流水线的顶点处理阶段并生成图元和顶点数据。片段处理器1315A-1315N使用由顶点处理器 1305生成的图元和顶点数据来产生显示在显示设备上的帧缓冲区。在一个实施例中，片段处理器1315A-1315N被优化以执行如OpenGL API中提供的片段着色器程序，其可用于执行与针对Direct 3D API提供的像素着色器程序类似的操作。

图形处理器1310另外包括一个或多个存储器管理单元(MMU) 1320A-1320B、高速缓存1325A-1325B和电路互连1330A-1330B。一个或多个MMU 1320A-1320B针对图形处理器1310提供虚拟到物理地址映射，包括针对顶点处理器1305和/或片段处理器1315A-1315N，除了存储在一个或多个高速缓存1325A-1325B中的顶点或图像/纹理数据之外，其可以参考存储在存储器中的顶点或图像/纹理数据。在一个实施例中，一个或多个 MMU 1320A-1320B可以与系统内的其他MMU同步，包括与图12的一个或多个应用处理器1205、图像处理器1215和/或视频处理器1220相关联的一个或多个MMU，使得每个处理器1205-1220可以参与共享或统一的虚拟存储器系统。根据实施例，一个或多个电路互连1330A-1330B使得图形处理器1310能够经由SoC的内部总线或经由直接连接与SoC内的其他IP核接口。

如图13B所示，图形处理器1340包括图13A的图形处理器1310的一个或多个MMU1320A-1320B、高速缓存1325A-1325B和电路互连 1330A-1330B。图形处理器1340包括一个或多个着色器核1355A-1355N(例如，1455A、1355B、1355C、1355D、1355E、1355F直到1355N-1和1355N)，其提供统一着色器核架构，在该统一着色器核架构中，单个核或类型或核能够执行所有类型的可编程着色器代码，包括实施顶点着色器、片段着色器和/或计算着色器的着色器程序代码。所存在的着色器核的确切数量可以在实施例和实施方式之间存在变化。相应地，图形处理器1340包括核间任务管理器1345，其充当线程分派器，从而向一个或多个着色器核 1355A-1355N和成块单元1358分派执行线程，以加速基于块的渲染的成块操作，在基于块的渲染的成块操作当中，在图像空间内对场景的渲染操作进行细分，从而(例如)利用场景内的空间相干性或者优化内部高速缓存的使用。

多重成块计算引擎内的部分写入管理

如上文所述，在成块图形处理配置中，可以跨越将并行执行的多个块 “广播”既定上下文的同一walker，从而(例如)对单个有序队列的性能进行缩放。然而，本地高速缓冲存储未必跨越各块保持一致。在一些示例中，可以通过在同步点处刷新L3高速缓存来支持跨越不同块的存储一致性：其要么归因于围栏消息，要么通过walker结束后的管道控制命令实施。

如果不同线程在未同步的情况下向高速缓存内的相同地址字节进行写入，那么将存在“竞争”条件，并且不确保高速缓存写入的顺序。然而，如果不同线程(有可能在不同块上运行)对不同的字节进行写入，那么Open CL(OCL)存储器模型要求在没有任何同步的情况下必须兑现对同一字节地址的每线程的读写顺序。例如，考虑下述操作序列：

1.块0中的线程0向字节地址A写入。对块L3的写入请求是部分写入。 L3高速缓存从存储器读取整个高速缓存行，归并更新后的字节A，并且将整个行保存到处于“修改”状态下的高速缓存内。

2.与此同时，块1中的线程1向字节地址A+1写入，其落在与A同一高速缓存行内。块1L3高速缓存从存储器读取整个高速缓存行，归并更新后的字节A+1，并且将整个行保存到处于“修改”状态下的高速缓存内。

3.来自块0L3的行A被逐出。块0L3将新的高速缓存行写入到存储器内。

4.来自块1L3的行A也被逐出。现在，块1将通过逐出其高速缓存行而重写线程0数据(地址A)。

部分写入还产生了与存储器压缩有关的问题。典型地，每一存储器压缩块是每块的，而不与其他块同步。压缩作用于2高速缓存行块，并且CCS (即，压缩元数据)的每一字节映射至数据的4个高速缓存行。由于最小可寻址存储为1字节，因而在启用压缩时，部分写入问题被扩展至256字节块(即，4个高速缓存行)。

图14示出了根据本文描述的实施例的数据处理系统，其可以适于支持部分写入管理。参照图14，在一些示例中，数据处理系统1400可以被实现为具有中央处理单元(CPU)复合体1410、统一存储器1430和通用图形处理单元(GPGPU)1440的异构处理系统。CPU复合体1410包括执行操作系统1414的一个或多个处理器1412。一个或多个游戏和/或媒体应用1416 可以在由在处理器1412上执行的操作系统1414提供的环境中执行。CPU 复合体1410还可以执行分派器1424的图形设备驱动器1420。处理器1412 可被实现为本文所述的任何处理器。

GPGPU 1440包括多个计算块1444A-1444N，其包括本文所述的执行逻辑的一个或多个实例。GPGPU 1440还包括一组寄存器1445、高速缓冲存储器1447以及功率和性能模块1446，其可以用作用于计算块1444A-1444N 的共享资源。在一个实施例中，寄存器1445包括直接和间接可存取的寄存器，其中可对间接可存取的寄存器进行优化以用于矩阵计算操作中。功率和性能模块1446可以被配置为调整计算块1444A-1444N的功率传送和时钟频率，以在繁重的工作负载下为计算块1444A-1444N内的门空闲组件供电。 GPGPU 1440包括GPGPU本地存储器1448，其是与GPGPU 1440共享图形卡或多芯片模块的物理存储器模块。

统一存储器1430表示可由处理器1412和GPGPU 1440访问的统一地址空间。统一存储器包括系统存储器1432以及GPGPU存储器1438。在一些实施例中，GPGPU存储器1438包括GPGPU 1440中的GPGPU本地存储器并且还可包括一些或全部系统存储器1432。例如，存储在系统存储器1412 中的编译代码1434B也可映射到GPGPU存储器1438中，以供GPGPU1440 访问。在一个实施例中，系统存储器1432中的运行时库1436可以促进编译代码1434B的编译和/或执行。处理器1412可以执行针对存储在系统存储器1432中的编译器1435的指令。编译器1435可以将源代码1434A编译为编译后的代码1434B，以由处理器1412和/或GPGPU 1440执行。在一个实施例中，编译器1435是或可以包括着色器编译器，用于编译专门用于 GPGPU 1440执行的着色器程序。

图15是根据一些实施例的多块GPGPU 1440的架构1500的示意图。参考图15，在一些示例中，可以将GPGPU 1440的处理资源细分成一定数量的块，这些块共享公共高带宽存储器。图15所示的GPGPU 1440包括第一块(块0)1510和第二块(块1)1520，第一块包括执行单元1512、3级高速缓存1514和高速缓存控制单元(CCU)1516，第二块包括执行单元1522、3级高速缓存1524和高速缓存控制单元(CCU)1526。相应的块1510、1520 通信耦合至被块1510、1520共享的高带宽存储器1530。应当理解，GPGPU 1440可以包括两个以上块。

在一些示例中，L3高速缓存1514、1524跨越块1510、1520不一致，并且没有字节使能。因而，每一块1510、1520能够独立地读取/修改/写入 L3高速缓存1514、1524的高速缓存行。此外，从L3高速缓存上的逐出可能引起对L3高速缓存行内的其他经修改的数据的重写。此外，L3高速缓存内的压缩引起类似的问题，尽管是在较粗的粒度上(例如，256字节)。

图16是根据本文描述的实施例的错误共享发生1600的示意图。参考图16，图16中所示的内核代码(如果在两个单独块上执行)将引起对同一高速缓存行上的两个不同地址的写入操作，由此带来在不同块上执行的两个不同过程之间错误地共享该高速缓存行的情况。

本文描述了解决这些和其他问题的技术。在一些示例中，这些问题可以通过实施这样的技术解决：要么绕过对L3高速缓存进行部分写入的高速缓存操作，要么执行作为直写高速缓存操作的高速缓存写入，其部分地取决于写入操作中的高速缓存行的状态。宽泛地，在一些示例中，管理块中的本地高速缓存的高速缓存控制单元将实施部分写入管理协议，该部分写入管理协议将接收指向至本地高速缓存中的高速缓存行的部分写入操作，所述部分写入操作包括写入数据，当所述高速缓存行处于修改状态下时，将与所述部分写入操作相关联的数据写入到所述本地高速缓存，并且当所述部分写入操作触发了高速缓存未命中或者当所述高速缓存行处于独占状态或共享状态时将与所述部分写入操作相关联的写入数据转发给所述高带宽存储器。

在应用级别上，应用可以暴露每设备的队列，并且控制将在具体的资源上执行什么操作。该编程模型可以限制跨越不同队列对同一资源的读取/ 写入访问，并且任何数据共享均可以要求明确的L3高速缓存刷新。如果 GPGPU正在操作单块配置，如果walker仅被分派给单个块，或者如果该应用断言对于特定表面没有错误共享的风险，那么部分写入高速缓冲可以启用。而且，还可以在选择性基础上关闭压缩操作，其要么由统一存储设备(UMD)(例如，统一存储器1430)实施，要么由应用实施。

图17、18和19是示出了根据本文描述的实施例的支持部分写入管理的方法当中的操作的流程图。在一些示例中，相应的高速缓存控制单元1516、 1526实施部分写入管理协议，以管理指向其相应的本地高速缓存1514、1524 的部分写入操作。参考图17，在操作1710中，在块中接收部分写入操作。如果在操作1715中，部分写入操作导致了高速缓存未命中，那么控制进行至1725，并且与部分写入相关联的数据被写入到高带宽共享存储器1530内。作为对照，如果在操作1725中，数据部分写入操作未导致高速缓存未命中，那么控制进行至操作1720。

如果在操作1720中，部分写入操作所指向的高速缓存行处于独占(E) 状态或共享(S)状态，那么控制进行至1725，并且与部分写入操作相关联的数据被写入到高带宽共享存储器1530。作为对照，如果在操作1725中，部分写入操作所指向的高速缓存行未处于独占(E)状态或共享(S)状态，那么控制进行至操作1730，并且与部分写入操作相关联的数据被写入到该高速缓存行(假设该高速缓存行处于修改(M)状态)。在一些示例中，当高速缓存行处于独占状态时，采用直写操作将与部分写入操作相关联的数据写入到高速缓存。

在一些示例中，相应的高速缓存控制单元1516、1526可以被配置为在某些条件下禁用部分写入管理协议。参考图18，在操作1810中，当walker 命令未在多个块的范围内广播时，UMD可以对部分写入禁止标志进行设置。在一些示例中，非流水线计算状态(例如，通过STATE_COMPUTE_MODE 命令编程的)将采用一位以覆盖部分写入行为(单块模式)。在操作1815 中，在高速缓存控制单元1516、1526中接收walker命令。如果在操作1820 中，对这一位进行设置，那么控制进行至操作1825，并且禁用参考图17描述的部分写入管理协议。在这一情况下，高速缓存控制单元1516、1526将部分写入操作高速缓冲到处于M状态下的L3内。在一些示例中，当并非正在跨越多个块广播walker时，即walker正在仅单个块内运行，并因而在块之间没有错误共享风险时，UMD可以对这一位进行设置。作为对照，如果在操作1820中，没有对这一位进行设置，那么控制进行至操作1830，并且实施参考图17描述的部分写入管理协议。

在一些示例中，软件应用可以对标志进行设置，以禁用部分写入管理协议。参考图19，在操作1910中，软件应用可以对部分写入禁止标志进行设置。在一些示例中，如果表面在线程群组外的256B块的分辨率上没有错误共享，那么应用可以具有指定的能力。这一操作可以在资源分配时完成 (例如，clCreateBuffer()——将在这些API调用中添加新标志)。在一些示例中，当所述标志受到应用API调用的断言时，可以实施UMD将予以设置的表面状态属性(disableMultiGpuPartialWr)。例如，对于无状态消息而言，STATE_BASE_ADDRESS命令将具有新的属性，以指示同样的内容。在这一属性受到设置时，数据端口(HDC)将启用对部分写入的L3高速缓冲。

在操作1915中，在高速缓存控制单元1516、1526中接收walker命令。如果在操作1920中，对这一位进行设置，那么控制进行至操作1925，并且禁用参考图17描述的部分写入管理协议。在这一情况下，高速缓存控制单元1516、1526将部分写入操作高速缓冲到L3内以处于M状态下。在一些示例中，当并非正在跨越多个块广播walker时，即，walker正在仅单个块内运行并因而在块之间没有错误共享的风险时，UMD可以对这一位进行设置。作为对照，如果在操作1920中，没有对这一位进行设置，那么控制进行至操作1930，并且实施参考图17描述的部分写入管理协议。

图20是根据实施例的包括图形处理器2004的计算设备2000的框图。计算设备2000可以是本文所述的计算设备，诸如图1中的数据处理系统100。计算设备2000还可以是或包括在通信设备中，所述通信设备诸如机顶盒(例如，基于互联网的有线电视机顶盒等)、基于全球定位系统(GPS)的设备等。计算设备2000也可以是移动计算设备或包含在其中，所述移动计算设备例如蜂窝电话、智能电话、个人数字设备助理(PDA)、平板计算机、膝上型计算机、电子阅读器、智能电视、电视平台、可穿戴设备(例如眼镜、手表、手镯、智能卡、珠宝、衣物等)、媒体播放器等。例如，在一个实施例中，计算设备2000包括采用集成电路(“IC”)的移动计算设备，诸如片上系统(“SoC”或“SOC”)，其集成了单个芯片上的计算设备2000的各种硬件和/或软件组件。

计算设备2000包括图形处理器2004。图形处理器2004表示本文描述的任何图形处理器。图形处理器包括一个或多个图形引擎、图形处理器核以及本文所述的其他图形执行资源。可以以包括但不限于执行单元、着色器引擎、片段处理器、顶点处理器、流式传输多处理器、图形处理器群集或适合于处理图形和图像资源的任何计算资源集合的形式来呈现这样的图形执行资源。

在一个实施例中，图形处理器2004包括高速缓存2014，其可以是单个高速缓存或划分为高速缓存存储器的多个段，包括但不限于任何数量的L1、 L2、L3或L4高速缓存、渲染高速缓存、深度高速缓存、采样器缓存和/或着色器单元缓存。在一个实施例中，图形处理器2004包括调度器2024，其可以是图16的调度器单元1622的变体，或者是本文描述的其他调度器逻辑。除了GPGPU引擎2044之外，图形处理器2004还可以包括命令流传输器2026、线程分派器2034和屏障/同步逻辑2036，GPGPU引擎2044包括硬件逻辑以执行如本文所述的图形处理和通用指令执行。

如图所示，在一个实施例中，除了图形处理器2004之外，计算设备2000 还可包括任何数量和类型的硬件组件和/或软件组件，包括但不限于应用处理器2006、存储器2008和输入/输出(I/O)源2010。应用处理器2006可以与硬件图形管线交互，如参考图3所示，以共享图形管线功能。处理后的数据存储在硬件图形流水线中的缓冲区中，并且状态信息存储在存储器 2008中。所得数据可以传输到显示控制器，以通过显示设备(例如图3的显示设备323)输出。显示设备可以是各种类型，例如阴极射线管(CRT)、薄膜晶体管(TFT)、液晶显示器(LCD)、有机发光二极管(OLED)阵列等，并且可以配置为通过图形用户界面将信息显示给用户。

应用处理器2006可以包括一个或多个处理器，例如图1的一个或多个处理器102，并且可以是中央处理单元(CPU)，其至少部分地用于执行计算设备2000的操作系统(OS)2002。OS 2002可以用作计算机设备2000 的硬件和/或物理资源与一个或多个用户之间的接口。OS 2002可以包括图形驱动器逻辑2022，诸如图10的用户模式图形驱动器1026和/或内核模式图形驱动器1029。

预期在一些实施例中，图形处理器2004可以作为应用处理器2006的一部分(诸如物理CPU封装的一部分)存在，在这种情况下，存储器2008 的至少一部分可以由应用处理器2006和图形处理器2004共享，尽管存储器2008的至少一部分可以是图形处理器2004所独占的，或者图形处理器 2004可以具有单独的存储器存储。存储器2008可以包括缓冲区(例如，帧缓冲区)的预分配区域；然而，本领域普通技术人员应该理解，实施例不限于此，并且可以使用可存取下部图形管线的任何存储器。存储器2008可以包括各种形式的随机存取存储器(RAM)(例如，SDRAM、SRAM等)，其包括利用图形处理器2004来渲染桌面或3D图形场景的应用。可以使用存储器控制器来访问存储器2008中的数据，并将该数据转发到图形处理器 2004以进行图形管线处理。可以使存储器2008用于计算设备2000内的其他组件。例如，在软件程序或应用的实现中由一个或多个处理器(例如，应用程序处理器2006)操作从计算设备2000的各种I/O源2010接收的任何数据(例如，输入图形数据)之前，可以将所述任何数据临时排队到存储器2008。类似地，软件程序确定的应通过计算系统接口之一从计算设备 2000发送到外部实体，或存储到内部存储元件中的数据，通常在发送或存储之前暂时在存储器2008中排队。

I/O源可以包括诸如触摸屏、触摸面板、触摸板、虚拟或常规键盘、虚拟或常规鼠标、端口、连接器、网络设备等的设备。另外，I/O源2010可以包括一个或多个I/O设备，其被实现用于向和/或从计算设备2000传输数据(例如，网络适配器)；或者，对于计算设备2000内的大规模非易失性存储(例如，硬盘驱动器)。包括字母数字键和其他键的用户输入设备可以用于将信息和命令选择传达给图形处理器2004。另一类用户输入设备是光标控件，例如鼠标、轨迹球、触摸屏、触摸板或光标方向键可将方向信息和命令选择传达给GPU，并控制光标在显示设备上的移动。计算机设备2000 的相机和麦克风阵列可以用于观察手势、记录音频和视频以及接收和发送视觉和音频命令。

被配置为网络接口的I/O源2010可以提供对网络的访问，所述网络例如LAN、广域网(WAN)、城域网(MAN)、个域网(PAN)、蓝牙、云网络、蜂窝或移动网络(例如，第三代(3G)、第四代(4G)等)、企业内部网、互联网等。网络接口可以包括例如具有一个或多个天线的无线网络接口。网络接口还可以包括例如有线网络接口，以通过网络电缆与远程设备通信，该网络电缆可以是例如以太网电缆、同轴电缆、光纤电缆、串行电缆或平行电缆。

网络接口可以例如通过遵循IEEE 802.11标准来提供对LAN的访问，和/或无线网络接口可以例如通过遵循蓝牙标准来提供对个域网的访问。也可以支持其他无线网络接口和/或协议，包括标准的先前和后续版本。除了或代替经由无线LAN标准的通信，网络接口可以使用例如时分多址(TDMA) 协议、全球移动通信系统(GSM)协议、码分多址(CDMA)协议和/或任何其他类型的无线通信协议来提供无线通信。

应当意识到，对于某些实施方式，比上述示例更少或更多装备的系统可能是优选的。因此，计算设备2000的配置可取决于多种因素(例如价格限制、性能要求、技术改进或其他情况)而在不同实现方式之间变化。示例包括(但不限于)移动设备、个人数字助理、移动计算设备、智能电话、蜂窝电话、手持设备、单向寻呼机、双向寻呼机、消息收发设备、计算机、个人计算机(PC)、台式计算机、膝上型计算机、笔记本计算机、手持计算机、平板计算机、服务器、服务器阵列或服务器场、Web服务器、网络服务器、互联网服务器、工作站、小型计算机、大型计算机、超级计算机、网络设备、Web设备、分布式计算系统、多处理器系统、基于处理器的系统、消费类电子产品、可编程消费类电子产品、电视、数字电视、机顶盒、无线接入点、基站、用户站、移动用户中心、无线电网络控制器、路由器、集线器、网关、网桥、交换机、机器或其组合。

以下条款和/或示例涉及特定实施例或其示例。在一个或多个实施例中的任何地方都可以使用示例中的细节。可以将不同实施例或示例的各种特征与包括的一些特征和排除的其他特征进行各种组合，以适应各种不同的应用。示例可以包括如下的主题，诸如方法、用于执行该方法的动作的单元、至少一个机器可读介质，该至少一个机器可读介质包括指令，当机器执行该指令时，该指令导致该机器根据本文描述的实施例和示例执行该方法、装置或系统的动作。各种组件可以是用于执行所描述的操作或功能的单元。

示例1是一种通用图形处理器，其包括多个块，所述多个块中的每个块包括至少一个执行单元、本地高速缓存和高速缓存控制单元；以及通信地耦合到所述多个块的高带宽存储器，其中所述高带宽存储器在所述多个块之间共享；其中，高速缓存控制单元用于实现部分写入管理协议，以接收指向本地高速缓存中的高速缓存行的部分写入操作，该部分写入操作包括写入数据；当高速缓存行处于修改状态时，将与部分写入操作相关联的数据写入本地高速缓存；并且当部分写入操作触发高速缓存未命中或者当高速缓存行处于独占状态或者共享状态时，将与部分写入操作相关联的写入数据转发到高带宽存储器。

示例2可以包括示例1的主题，当高速缓存行处于独占状态时，高速缓存控制单元用于实现直写入高速缓存操作。

示例3可以包括示例1-2中任一示例的主题，高速缓存控制单元用于响应于检测到部分写入禁用状态标志来禁用部分写入管理协议。

示例4可以包括示例1-3中任一示例的主题，其中，部分写入禁用状态标志由计算状态命令设置。

示例5可以包括示例1-4中任一示例的主题，其中部分禁用写入状态标志由应用经由对应用编程接口(API)的输入进行设置。

示例6可以包括示例1-5中任一项的主题，该控制器用于响应于部分写入禁用标志而针对256字节块的高速缓存禁用部分写入管理协议。

示例7可以包括示例1-5中任一项的主题，该控制器用于禁用针对本地高速缓存的压缩操作。

示例8是一种通用图形处理系统，包括存储器设备以及与该存储器设备通信地耦合的通用图形处理器，该通用图形处理器包括多个块，多个块中的每个块包括至少一个执行单元、本地高速缓存和高速缓存控制单元；以及通信地耦合到所述多个块的高带宽存储器，其中所述高带宽存储器在所述多个块之间共享；其中，高速缓存控制单元用于实现部分写入管理协议，以接收指向本地高速缓存中的高速缓存行的部分写入操作，该部分写入操作包括写入数据；当高速缓存行处于修改状态时，将与部分写入操作相关联的数据写入本地高速缓存；以及当部分写入操作触发高速缓存未命中或者当高速缓存行处于独占状态或者共享状态时，将与部分写入操作相关联的写入数据转发到高带宽存储器。

示例9可以包括示例9的主题，当高速缓存行处于独占状态时，高速缓存控制单元用于实现直写入高速缓存操作。

示例10可以包括示例8-9中任一示例的主题，高速缓存控制单元用于响应于检测到部分写入禁用状态标志来禁用部分写入管理协议。

示例11可以包括示例8-10中任一示例的主题，其中，部分写入禁用状态标志由计算状态命令设置。

示例12可以包括示例8-11中任一示例的主题，其中部分禁用写入状态标志由应用经由对应用编程接口(API)的输入进行设置。

示例13可以包括示例8-12中任一项的主题，该控制器用于响应于部分写入禁用标志来针对256字节块的高速缓存禁用部分写入管理协议。

示例14可以包括示例8-13中任一项的主题，该控制器用于禁用针对本地高速缓存的压缩操作。

示例15是一种计算机实现的方法，包括在包括多个块的图形处理器中，在块的高速缓存控制单元中接收指向该块的本地高速缓存中的高速缓存行的部分写入操作，部分写入操作包括写入数据；当高速缓存行处于修改状态时，将与部分写入操作相关联的数据写入本地高速缓存；并且当部分写入操作触发高速缓存未命中或者当高速缓存行处于独占状态或者共享状态时，将与部分写入操作相关联的写入数据转发到通信地耦合到多个块的高带宽存储器。

示例16可以包括示例15的主题，操作附加地包括当高速缓存行处于独占状态时实现直写入高速缓存操作。

示例17可以包括示例15-16中任一项的主题，所述操作附加地包括响应于检测到部分写入禁用状态标志，来禁用部分写入管理协议。

示例18可以包括示例15-17中任一项的主题，其中，部分写入禁用状态标志由计算状态命令设置。

示例19可以包括示例15-18中任一示例的主题，其中部分禁用写入状态标志由应用经由对应用编程接口(API)的输入进行设置。

示例20可以包括示例15-19中任一示例的主题，还包括响应于部分写入禁用标志，针对256字节块的高速缓存禁用部分写入管理协议。

示例21可以包括示例15-20中的任何一个的主题，还包括针对本地高速缓存禁用压缩操作。

例如，可以提供作为计算机程序产品的实施例，其可以包括一个或者多个具有存储于其上的机器可读指令的计算机器可读介质，所述指令在被诸如计算机、计算机网络或者其他电子装置的一个或者多个机器执行时可以使得所述一个或者多个机器执行根据本文描述的实施例的操作。机器可读介质可包括但不限于：软盘、光盘、CD-ROM(紧致盘只读存储器)和磁光盘、ROM、RAM、EPROM(可擦可编程只读存储器)、EEPROM(电可擦可编程只读存储器)、磁卡或者光卡、闪速存储器或者适于存储机器可读指令的其他类型的介质/机器可读介质。

此外，可以将实施例作为计算机程序产品下载，其中，所述程序可以经由通信链路(例如，调制解调器和/或者网络连接)通过体现在载波或者其他传播媒介内和/或者通过载波或者其他传播媒介调制的一个或者多个数据信号从远程计算机(例如，服务器)传送至请求计算机(例如，客户端)。

本领域技术人员可以从前面的描述认识到，实施例的宽泛技术可以通过各种形式实施。因此，尽管已经联系其特定示例对实施例做出了描述，但是实施例的范围不受此限制，因为在研究了附图、说明书和下文的权利要求之后其他修改对于本领域技术人员而言将变得显而易见。

Claims

1.一种通用图形处理器，包括：

多个块，所述多个块中的每个块包括至少一个执行单元、本地高速缓存以及高速缓存控制单元；以及

通信地耦合到所述多个块的高带宽存储器，其中，所述高带宽存储器在所述多个块之间共享；

其中，所述高速缓存控制单元用于实现部分写入管理协议，用于：

接收指向所述本地高速缓存中的高速缓存行的部分写入操作，所述部分写入操作包括写入数据；

当所述高速缓存行处于修改状态时，将与所述部分写入操作相关联的数据写入所述本地高速缓存；以及

当所述部分写入操作触发高速缓存未命中，或者当所述高速缓存行处于独占状态或者共享状态时，将与所述部分写入操作相关联的写入数据转发到所述高带宽存储器。

2.根据权利要求1所述的通用图形处理器，所述高速缓存控制单元用于：

当所述高速缓存行处于独占状态时，实现直写入高速缓存操作。

3.根据权利要求2所述的通用图形处理器，所述高速缓存控制单元用于：

响应于检测到部分写入禁用状态标志，禁用所述部分写入管理协议。

4.根据权利要求3所述的通用图形处理器，其中，所述部分写入禁用状态标志是由计算状态命令设置的。

5.根据权利要求3所述的通用图形处理器，其中，所述部分写入禁用状态标志是由应用经由对应用编程接口(API)的输入来设置的。

6.根据权利要求5所述的通用图形处理器，所述控制器用于：

响应于所述部分写入禁用标志，针对256字节块的高速缓存禁用所述部分写入管理协议。

7.根据权利要求6所述的通用图形处理器，所述控制器用于：

禁用针对所述本地高速缓存的压缩操作。

8.一种通用图形处理系统，包括：

存储器设备，以及

与所述存储器设备通信地耦合的通用图形处理器，包括：

9.根据权利要求8所述的通用图形处理系统，所述高速缓存控制单元用于：

10.根据权利要求9所述的通用图形处理系统，所述高速缓存控制单元用于：

11.根据权利要求10所述的通用图形处理系统，其中，所述部分写入禁用状态标志是由计算状态命令来设置的。

12.根据权利要求10所述的通用图形处理系统，其中，所述部分写入禁用状态标志是由应用经由对应用编程接口(API)的输入来设置的。

13.根据权利要求12所述的通用图形处理系统，所述控制器用于：

14.根据权利要求13所述的通用图形处理系统，所述控制器用于：

禁用针对所述本地高速缓存的压缩操作。

15.一种计算机实现的方法，包括：

在包括多个块的图形处理器中的一块的高速缓存控制单元中，接收指向该块的本地高速缓存中的高速缓存行的部分写入操作，所述部分写入操作包括写入数据；

当所述部分写入操作触发高速缓存未命中或者当所述高速缓存行处于独占状态或者共享状态时，将与所述部分写入操作相关联的写入数据转发到通信地耦合到所述多个块的高带宽存储器。

16.根据权利要求15所述的计算机实现的方法，还包括：

17.根据权利要求16所述的计算机实现的方法，还包括：

响应于检测到部分写入禁用状态标志而禁用所述部分写入管理协议。

18.根据权利要求17所述的计算机实现的方法，其中，所述部分写入禁用状态标志是由计算状态命令设置的。

19.根据权利要求18所述的计算机实现的方法，其中，所述部分写入禁用状态标志是由应用经由对应用编程接口(API)的输入来设置的。

20.根据权利要求19所述的计算机实现的方法，还包括：