CN113052747A

CN113052747A - 用于基于量化的会聚方向的光线分类的装置和方法

Info

Publication number: CN113052747A
Application number: CN202011019531.7A
Authority: CN
Inventors: K·塞尔斯泽; P·苏提; G·力克托尔; K·维迪雅纳坦; S·沃普
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2019-12-27
Filing date: 2020-09-24
Publication date: 2021-06-29
Also published as: US20210201558A1; DE102020134334A1; US20240104825A1; KR20210084222A; TW202143175A; JP2021108103A; US20220262063A1; US11263800B2; US11783530B2

Abstract

用于基于量化光线方向对光线进行分组的装置和方法。例如，装置的一个实施例包括：一种装置，包括：光线发生器，其用于生成多条光线；光线方向评估电路/逻辑，其用于针对多条光线中的每条光线生成近似光线方向数据；光线分类电路/逻辑，其用于至少部分地基于近似光线方向数据将光线分类到多个光线队列中。

Description

用于基于量化的会聚方向的光线分类的装置和方法

技术领域

本发明总体上涉及图形处理器领域。更具体地，本发明涉及用于基于量化的会聚方向的光线分类的装置和方法。

背景技术

光线追踪是通过基于物理的渲染来模拟光传输的技术。在被广泛地用于电影渲染中，直到仅仅几年前，它还被认为对于实时性能而言过于资源密集。光线追踪中的关键操作之一是处理称为“光线遍历”的光线与场景相交的可见性查询，其通过遍历和相交边界体积层次结构(BVH)中的节点来计算光线与场景的相交。

附图说明

可以根据以下结合附图的详细描述获得对本发明的更好的理解，其中：

图1是具有处理器的计算机系统的实施例的框图，该处理器具有一个或多个处理器核心和图形处理器；

图2是具有一个或多个处理器核心、集成存储器控制器和集成图形处理器的处理器的一个实施例的框图；

图3是图形处理器的一个实施例的框图，该图形处理器可以是分立的图形处理单元，或者可以是与多个处理核心集成的图形处理器；

图4是用于图形处理器的图形处理引擎的实施例的框图；

图5是图形处理器的另一实施例的框图；

图6示出了执行电路和逻辑的示例；

图7示出了根据实施例的图形处理器执行单元指令格式；

图8是图形处理器的另一实施例的框图，该图形处理器包括图形流水线、媒体流水线、显示引擎、线程执行逻辑和渲染输出流水线；

图9A是示出根据实施例的图形处理器命令格式的框图；

图9B是示出根据实施例的图形处理器命令序列的框图；

图10示出了根据实施例的用于数据处理系统的示例性图形软件架构；

图11A-D示出了可以用于制造集成电路和示例性封装组装件的示例性IP核心开发系统；

图12示出了根据实施例的可以使用一个或多个IP核心来制造的示例性片上系统集成电路；

图13示出了可以使用一个或多个IP核心来制造的片上系统集成电路的示例性图形处理器；

图14示出了示例性图形处理器架构；

图15示出了包括光线追踪核心和张量核心的处理架构的示例；

图16示出了节点的光线追踪集群；

图17示出了示例光线追踪节点的附加细节；

图18示出了在一个实施例中采用的光线压缩/解压缩；

图19示出了混合光线追踪架构的一个实施例；

图20示出了示例调用堆栈引用；

图21示出了示例着色器记录指针集合；

图22示出了边界体积层次结构的示例；

图23示出了调用堆栈和相关联的遍历状态的一个实施例；

图24示出了本发明用于对光线进行分类的一个实施例；

图25示出了与体积相交的示例光线集合；

图26示出了根据本发明一个实施例的分类键；并且

图27示出了根据本发明的一个实施例的方法。

具体实施方式

在下面的描述中，出于解释的目的，阐述了许多具体细节，以便提供对以下描述的本发明的实施例的透彻理解。然而，对于本领域的技术人员将显而易见的是，可以在没有这些具体细节中的一些的情况下实践本发明的实施例。在其他情况下，以框图形式示出了公知的结构和设备，以避免使本发明的实施例的基本原理难以理解。

示例性图形处理器架构和数据类型

系统总览

图1是根据实施例的处理系统100的框图。系统100可以用在单处理器台式机系统、多处理器工作站系统或具有大量处理器102或处理器核心107的服务器系统中。在一个实施例中，系统100是被并入在片上系统(SoC)集成电路内的处理平台，以用于在移动、手持或嵌入式设备中使用，例如在具有到局域网或广域网的有线或无线连接的物联网(IoT)设备内。

在一个实施例中，系统100可以包括以下各项、与以下各项耦合或集成在以下各项内：基于服务器的游戏平台；游戏控制台，包括游戏和媒体控制台；移动游戏控制台、手持游戏控制台或在线游戏控制台。在一些实施例中，系统100是具有低内部存储容量的移动电话、智能电话、平板计算设备或诸如笔记本电脑之类的移动互联网连接设备的一部分。处理系统100还可以包括以下各项、与以下各项耦合或集成在以下各项内：可穿戴设备，例如智能手表可穿戴设备；以及以增强现实(AR)或虚拟现实(VR)特征增强的智能眼镜或服装，以提供视觉、音频或触觉输出，以补充现实世界中的视觉、音频或触觉体验，或者以其他方式提供文本、音频、图形、视频、全息图像或视频或触觉反馈；其他增强现实(AR)设备；或其他虚拟现实(VR)设备。在一些实施例中，处理系统100包括电视或机顶盒设备或是其一部分。在一个实施例中，系统100可以包括以下各项、与以下各项耦合或集成在以下各项内：诸如公共汽车、拖拉机挂车、汽车、摩托车或电动自行车、飞机或滑翔机(或其任何组合)之类的自动驾驶载具。自动驾驶载具可以使用系统100来处理在载具周围感测到的环境。

在一些实施例中，一个或多个处理器102均包括一个或多个处理器核心107以处理指令，该指令在被执行时执行用于系统或用户软件的操作。在一些实施例中，一个或多个处理器核心107中的至少一个被配置为处理特定指令集109。在一些实施例中，指令集109可以促进复杂指令集计算(CISC)、精简指令集计算(RISC)、或经由超长指令字(VLIW)的计算。一个或多个处理器核心107可以处理不同的指令集109，该不同的指令集109可以包括用于促进仿真其他指令集的指令。处理器核心107还可以包括其他处理设备，例如数字信号处理器(DSP)。

在一些实施例中，处理器102包括高速缓冲存储器104。取决于架构，处理器102可以具有单个内部高速缓存或多级内部高速缓存。在一些实施例中，高速缓冲存储器在处理器102的各个组件之间共享。在一些实施例中，处理器102还使用外部高速缓存(例如，三级(L3)高速缓存或最后一级高速缓存(LLC))(未示出)，其可以使用已知的高速缓存一致性技术在处理器核心107之间共享。寄存器文件106可以另外被包括在处理器102中，并且可以包括用于存储不同类型的数据的不同类型的寄存器(例如，整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器)。一些寄存器可以是通用寄存器，而其他寄存器可以特定于处理器102的设计。

在一些实施例中，一个或多个处理器102与一个或多个接口总线110耦合，以在处理器102与系统100中的其他组件之间传输通信信号，例如地址、数据或控制信号。在一个实施例中，接口总线110可以是处理器总线，例如直接媒体接口(DMI)总线的版本。然而，处理器总线不限于DMI总线，并且可以包括一个或多个外围组件互连总线(例如，PCI、PCIExpress)、存储器总线或其他类型的接口总线。在一个实施例中，处理器102包括集成存储器控制器116和平台控制器集线器130。存储器控制器116促进存储器设备与系统100的其他组件之间的通信，而平台控制器集线器(PCH)130经由本地I/O总线提供到I/O设备的连接。

存储器设备120可以是动态随机存取存储器(DRAM)设备、静态随机存取存储器(SRAM)设备、闪存设备、相变存储器设备或某个其他具有合适性能而用作过程存储器的存储器设备。在一个实施例中，存储器设备120可以用作系统100的系统存储器，以存储数据122和指令121，以在一个或多个处理器102执行应用或过程时使用。存储器控制器116还与可选的外部图形处理器118耦合，该外部图形处理器118可以与处理器102中的一个或多个图形处理器108通信以执行图形和媒体操作。在一些实施例中，图形、媒体和/或计算操作可以由加速器112辅助，该加速器112是可以被配置为执行一组专门的图形、媒体或计算操作的协处理器。例如，在一个实施例中，加速器112是用于优化机器学习或计算操作的矩阵乘法加速器。在一个实施例中，加速器112是光线追踪加速器，其可以用于与图形处理器108一起执行光线追踪操作。在一个实施例中，可以使用外部加速器119代替加速器112或外部加速器119与加速器112一起使用。

在一些实施例中，显示设备111可以连接至处理器102。显示设备111可以是内部显示设备中的一个或多个，如在移动电子设备或膝上型计算机设备或经由显示接口(例如，DisplayPort等)附接的外部显示设备中的。在一个实施例中，显示设备111可以是头戴式显示器(HMD)，例如用于虚拟现实(VR)应用或增强现实(AR)应用中的立体显示设备。

在一些实施例中，平台控制器集线器130使外围设备能够经由高速I/O总线连接到存储器设备120和处理器102。I/O外围设备包括但不限于音频控制器146、网络控制器134、固件接口128、无线收发器126、触摸传感器125、数据存储设备124(例如，非易失性存储器、易失性存储器、硬盘驱动器、闪存、NAND、3D NAND、3D XPoint等)。数据存储设备124可以经由存储接口(例如，SATA)或经由外围总线(例如，外围组件互连总线(例如，PCI、PCIExpress))来连接。触摸传感器125可以包括触摸屏传感器、压力传感器或指纹传感器。无线收发器126可以是Wi-Fi收发器、蓝牙收发器或诸如3G、4G、5G或长期演进(LTE)收发器之类的移动网络收发器。固件接口128实现与系统固件的通信，并且可以是例如统一可扩展固件接口(UEFI)。网络控制器134可以实现到有线网络的网络连接。在一些实施例中，高性能网络控制器(未示出)与接口总线110耦合。在一个实施例中，音频控制器146是多通道高清音频控制器。在一个实施例中，系统100包括可选的传统I/O控制器140，以用于将传统(例如，个人系统2(PS/2))设备耦合到系统。平台控制器集线器130还可以连接到一个或多个通用串行总线(USB)控制器142，USB控制器142连接输入设备，例如键盘和鼠标143组合、相机144或其他USB输入设备。

应当理解，所示的系统100是示例性的而不是限制性的，这是因为还可以使用不同地配置的其他类型的数据处理系统。例如，存储器控制器116和平台控制器集线器130的实例可以被集成到分立的外部图形处理器中，例如外部图形处理器118。在一个实施例中，平台控制器集线器130和/或存储器控制器116可以在一个或多个处理器102的外部。例如，系统100可以包括外部存储器控制器116和平台控制器集线器130，该集线器130可以被配置为与处理器102的通信的系统芯片组内的存储器控制器集线器和外围控制器集线器。

例如，电路板(“托架”)可以被使用，其上放置了诸如CPU、存储器和其他组件之类的组件，并且被设计为提高热性能。在一些示例中，诸如处理器之类的处理组件位于托架的顶侧，而诸如DIMM之类的近存储器位于托架的底侧。由于此设计提供了增强的气流，因此与典型系统中相比，这些组件可以以更高的频率和功率水平运行，从而提高了性能。此外，这些托架被配置为与机架中的电源和数据通信电缆盲配合(blindly mate)，从而增强了其被快速移除、升级、重新安装和/或更换的能力。同样，位于托架上的个体组件(例如，处理器、加速器、存储器和数据存储驱动器)由于其相互之间的间距增加而被配置为易于升级。在说明性实施例中，组件另外包括硬件证明特征以证明其真实性。

数据中心可以利用支持多种其他网络架构(包括以太网和Omni-Path)的单个网络架构(“结构”)。托架可以经由光纤耦合到交换机，与典型的双绞线电缆(例如，类别5、类别5e、类别6等)相比，这可以提供更高的带宽和更低的延时。由于高带宽、低延时的互连和网络架构，数据中心可以在使用中池化资源，例如存储器、加速器(例如，GPU、图形加速器、FPGA、ASIC、神经网络和/或人工智能加速器，等等)，以及物理上解聚的数据存储驱动器，并根据需要将它们提供给计算资源(例如，处理器)，从而使计算资源能够如同它们是本地的一样访问池化的资源。

供电装置或电源可以向系统100或本文所述的任何组件或系统提供电压和/或电流。在一个示例中，供电装置包括AC到DC(交流到直流)适配器，以插入壁装电源插座中。这样的AC电源可以是可再生能源(例如，太阳能)电源。在一示例中，电源包括DC电源，例如外部AC到DC转换器。在一个示例中，电源或供电装置包括无线充电硬件，以经由与充电场的邻近来充电。在一个示例中，电源可以包括内部电池、交流电源、基于运动的供电装置、太阳能供电装置或燃料电池源。

图2A-2D示出了本文描述的实施例提供的计算系统和图形处理器。图2A-2D的具有与本文中任何其他附图的元素相同的附图标记(或名称)的元素可以以类似于本文其他各处所描述的任何方式来操作或起作用，但不限于此。

图2A是具有一个或多个处理器核心202A-202N、集成存储器控制器214和集成图形处理器208的处理器200的实施例的框图。处理器200可以包括直至并包括用虚线框表示的附加核心202N的附加核心。每个处理器核心202A-202N包括一个或多个内部高速缓存单元204A-204N。在一些实施例中，每个处理器核心还可以访问一个或多个共享高速缓存单元206。内部高速缓存单元204A-204N和共享高速缓存单元206表示处理器200内的高速缓冲存储器层次结构。高速缓冲存储器层次结构可以包括每个处理器核心内的至少一个级别的指令和数据高速缓存，以及一个或多个级别的共享中级高速缓存(例如，2级(L2)、3级(L3)、4级(L4)或其他级别的高速缓存，其中，外部存储器之前的更高级别的高速缓存被归类为LLC)。在一些实施例中，高速缓存一致性逻辑维持各种高速缓存单元206和204A-204N之间的一致性。

在一些实施例中，处理器200还可以包括一组一个或多个总线控制器单元216和系统代理核心210。一个或多个总线控制器单元216管理一组外围总线，例如一个或多个PCI或PCI express总线。系统代理核心210为各种处理器组件提供管理功能。在一些实施例中，系统代理核心210包括一个或多个集成存储器控制器214，以管理对各种外部存储器设备(未示出)的访问。

在一些实施例中，一个或多个处理器核心202A-202N包括对同时多线程的支持。在这样的实施例中，系统代理核心210包括用于在多线程的处理期间协调和操作核心202A-202N的组件。系统代理核心210可以另外包括功率控制单元(PCU)，该功率控制单元包括用于调节处理器核心202A-202N和图形处理器208的功率状态的逻辑和组件。

在一些实施例中，处理器200另外包括图形处理器208以执行图形处理操作。在一些实施例中，图形处理器208耦合到一组共享高速缓存单元206和系统代理核心210，包括一个或多个集成存储器控制器214。在一些实施例中，系统代理核心210还包括显示控制器211，以驱动图形处理器输出到一个或多个耦合的显示器。在一些实施例中，显示控制器211也可以是经由至少一个互连与图形处理器耦合的单独模块，或者可以集成在图形处理器208内。

在一些实施例中，基于环的互连单元212用于耦合处理器200的内部组件。然而，可以使用替代的互连单元，例如点对点互连、交换的互连或其他技术，包括本领域公知的技术。在一些实施例中，图形处理器208经由I/O链路213与环形互连212耦合。

示例性I/O链接213代表多种I/O互连中的至少一种，包括促进各种处理器组件与高性能嵌入式存储器模块218(例如，eDRAM模块)之间的通信的封装上I/O互连。在一些实施例中，处理器核心202A-202N和图形处理器208中的每一个可以使用嵌入式存储器模块218作为共享的最后一级高速缓存。

在一些实施例中，处理器核心202A-202N是执行相同指令集架构的同构核心。在另一实施例中，就指令集架构(ISA)而言，处理器核心202A-202N是异构的，其中，一个或多个处理器核心202A-202N执行第一指令集，而至少一个其他核心执行该第一指令集的子集或其他指令集。在一个实施例中，处理器核心202A-202N就微架构而言是异构的，其中，具有相对较高功耗的一个或多个核心与具有较低功耗的一个或多个功率核心耦合。在一个实施例中，处理器核心202A-202N就计算能力而言是异构的。另外，处理器200可以被实现在一个或多个芯片上，或者被实现为具有所示出的组件(附加于其他组件)的SoC集成电路。

图2B是根据本文所述的一些实施例的图形处理器核心219的硬件逻辑的框图。图2B的具有与本文中任何其他附图的元素相同的附图标记(或名称)的元素可以以类似于本文其他各处所描述的任何方式来操作或起作用，但不限于此。图形处理器核心219(有时称为核心切片)可以是模块化图形处理器内的一个或多个图形核心。图形处理器核心219是一个图形核心切片的示例，并且如本文所述的图形处理器可以基于目标功率和性能包络而包括多个图形核心切片。每个图形处理器核心219可以包括与多个子核心221A-221F(也称为子切片)耦合的固定功能块230，其包括通用和固定功能逻辑的模块化块。

在一些实施例中，固定功能块230包括几何/固定功能流水线231，其可以例如在较低性能和/或较低功率的图形处理器实施方式中由图形处理器核心219中的所有子核心共享。在各种实施例中，几何/固定功能流水线231 包括3D固定功能流水线(例如，如下所述的图3和图4中的3D流水线312)、视频前端单元、线程产生器和线程分派器以及统一返回缓冲器管理器，统一返回缓冲器管理器管理统一返回缓冲器(例如，图4中的统一返回缓冲器418，如下所述)。

在一个实施例中，固定功能块230还包括图形SoC接口232、图形微控制器233和媒体流水线234。图形SoC接口232在图形处理器核心219和片上系统集成电路内的其他处理器核心之间提供接口。图形微控制器233是可编程子处理器，其可配置为管理图形处理器核心219的各种功能，包括线程分派、调度和抢占。媒体流水线234(例如，图3和图4的媒体流水线316)包括用于促进对包括图像和视频数据的多媒体数据进行解码、编码、预处理和/或后处理的逻辑。媒体流水线234经由到子核心221-221F内的计算或采样逻辑的请求来实现媒体操作。

在一个实施例中，SoC接口232使图形处理器核心219能够与通用应用处理器核心(例如，CPU)和/或SoC内的其他组件(包括存储器层次结构元素，例如共享的最后一级高速缓冲存储器、系统RAM和/或嵌入式片上或封装上DRAM)通信。SoC接口232还可以使得能够与SoC内的固定功能设备(例如，相机成像流水线)进行通信，并且使得能够使用和/或实现可以在图形处理器核心219和SoC内的CPU之间共享的全局存储器原子。SoC接口232还可以实现用于图形处理器核心219的功率管理控件，并且实现图形核心219的时钟域与SoC内的其他时钟域之间的接口。在一个实施例中，SoC接口232使得能够从命令流式传输器和全局线程分派器接收命令缓冲器，该命令流式传输器和全局线程分派器被配置为向图形处理器内的一个或多个图形核心中的每一个提供命令和指令。当要执行媒体操作时，可以将命令和指令分派给媒体流水线234，或者当要执行图形处理操作时，可以将其分派给几何和固定功能流水线(例如，几何和固定功能流水线231、几何和固定功能流水线237)。

图形微控制器233可以被配置为执行用于图形处理器核心219的各种调度和管理任务。在一个实施例中，图形微控制器233可以在子核心221A-221F内的执行单元(EU)阵列222A-222F、224A-224F内的各种图形并行引擎上执行图形和/或计算工作负载调度。在此调度模型中，在包括图形处理器核心219的SoC的CPU核心上执行的主机软件可以提交多个图形处理器门铃之一的工作负载，这调用适当图形引擎上的调度操作。调度操作包括：确定接下来要运行的工作负载，将工作负载提交给命令流处理器，抢占引擎上正在运行的现有工作负载，监视工作负载的进度，以及在工作负载完成时通知主机软件。在一个实施例中，图形微控制器233还可以促进图形处理器核心219的低功率或空闲状态，从而为图形处理器核心219提供这样的能力：与系统上的操作系统和/或图形驱动程序软件无关地，跨低功率状态转换保存和恢复图形处理器核心219内的寄存器。

图形处理器核心219可以具有大于或小于所示的子核心221A-221F，最多N个模块化子核心。对于每组N个子核心，图形处理器核心219还可以包括共享功能逻辑235、共享和/或高速缓冲存储器236、几何/固定功能流水线237以及用于加速各种图形和计算处理操作的附加固定功能逻辑238。共享功能逻辑235可以包括与图4的共享功能逻辑420相关联的逻辑单元(例如，采样器、数学和/或线程间通信逻辑)，其可以被图形处理器核心219内的N个子核心中的每一个共享。共享和/或高速缓冲存储器236可以是图形处理器核心219内的一组N个子核心221A-221F的最后一级高速缓存，并且还可以用作可由多个子核心访问的共享存储器。可以在固定功能块230内包括几何/固定功能流水线237而不是几何/固定功能流水线231，并且可以包括相同或相似的逻辑单元。

在一个实施例中，图形处理器核心219包括附加的固定功能逻辑238，其可以包括供图形处理器核心219使用的各种固定功能加速逻辑。在一个实施例中，附加的固定功能逻辑238包括在仅位置着色(position only shading)中使用的附加的几何流水线。在仅位置着色中，存在两个几何流水线，几何/固定功能流水线238、231内的完整几何流水线，以及剔除流水线，该剔除流水线是可以被包括在附加固定功能逻辑238内的附加几何流水线。在一个实施例中，剔除流水线是完整几何形状流水线的精简版本。完整流水线和剔除流水线可以执行相同应用的不同实例，每个实例具有单独的上下文。仅位置着色可以隐藏丢弃三角形的长时间剔除运行，从而使着色在一些情况下可以更早完成。例如并且在一个实施例中，附加固定功能逻辑238内的剔除流水线逻辑可以与主应用并行地执行位置着色器，并且通常比完整流水线更快地产生关键结果，这是因为剔除流水线仅获取和着色顶点的位置属性，而不执行光栅化并将像素渲染到帧缓冲器。剔除流水线可以使用所生成的关键结果来计算所有三角形的可见性信息，而不论那些三角形是否被剔除。完整的流水线(在这种情况下，它可以称为重播流水线)可以消费可见性信息，以跳过剔除的三角形，以仅对最终被传递到光栅化阶段的可见三角形着色。

在一个实施例中，附加的固定功能逻辑238还可以包括机器学习加速逻辑，例如固定功能矩阵乘法逻辑，以用于包括针对机器学习训练或推理的优化的实施方式。

在每个图形子核心221A-221F内包括一组执行资源，其可以用于响应于图形流水线、媒体流水线或着色器程序的请求来执行图形、媒体和计算操作。图形子核心221A-221F包括多个EU阵列222A-222F、224A-224F、线程分派和线程间通信(TD/IC)逻辑223A-223F、3D(例如，纹理)采样器225A-225F、媒体采样器206A-206F、着色器处理器227A-227F以及共享本地存储器(SLM)228A-228F。EU阵列222A-222F、224A-224F均包括多个执行单元，它们是通用图形处理单元，能够服务于图形、媒体或计算操作(包括图形、媒体或计算着色器程序)而执行浮点和整数/定点逻辑运算。TD/IC逻辑223A-223F针对子核心内的执行单元执行本地线程分派和线程控制操作，并促进在子核心的执行单元上执行的线程之间的通信。3D采样器225A-225F可以将与纹理或其他3D图形相关的数据读取到存储器中。3D采样器可以基于配置的采样状态和与给定纹理相关联的纹理格式来不同地读取纹理数据。媒体采样器206A-206F可以基于与媒体数据相关联的类型和格式来执行类似的读取操作。在一个实施例中，每个图形子核心221A-221F可以替代地包括统一的3D和媒体采样器。在每个子核心221A-221F内的执行单元上执行的线程可以利用每个子核心内的共享本地存储器228A-228F，以使在线程组内执行的线程能够使用片上存储器的公用池来执行。

图2C示出了图形处理单元(GPU)239，其包括布置到多核组240A-240N中的专用图形处理资源集。尽管仅提供了单个多核组240A的细节，但是应当理解，其他多核组240B-240N可以配备有相同或相似的图形处理资源集。

如图所示，多核组240A可以包括一组图形核心243、一组张量核心244和一组光线追踪核心245。调度器/分派器241调度并分派图形线程以在各个核心243、244、245上执行。一组寄存器文件242存储在执行图形线程时由核心243、244、245使用的操作数值。这些可以包括例如用于存储整数值的整数寄存器、用于存储浮点值的浮点寄存器、用于存储打包数据元素(整数和/或浮点数据元素)的向量寄存器以及用于存储张量/矩阵值的分片寄存器(tile register)。在一个实施例中，分片寄存器被实现为向量寄存器的组合集合。

一个或多个组合的级别1(L1)高速缓存和共享存储器单元247在每个多核组240A内本地地存储图形数据，例如纹理数据、顶点数据、像素数据、光线数据、边界体积数据等。一个或多个纹理单元247也可以用于执行纹理化操作，例如纹理映射和采样。由多核组240A-240N的全部或子集共享的2级(L2)高速缓存253存储多个并发图形线程的图形数据和/或指令。如图所示，L2高速缓存253可以跨多个多核组240A-240N被共享。一个或多个存储器控制器248将GPU 239耦合到存储器249，该存储器249可以是系统存储器(例如，DRAM)和/或专用图形存储器(例如，GDDR6存储器)。

输入/输出(I/O)电路250将GPU 239耦合到一个或多个I/O设备252，例如数字信号处理器(DSP)、网络控制器或用户输入设备。片上互连可以用于将I/O设备252耦合到GPU239和存储器249。I/O电路250的一个或多个I/O存储器管理单元(IOMMU)251将I/O设备252直接耦合到系统存储器249。在一个实施例中，IOMMU 251管理多组页表以将虚拟地址映射到系统存储器249中的物理地址。在该实施例中，I/O设备252、CPU 246和GPU 239可以共享相同的虚拟地址空间。

在一个实施方式中，IOMMU 251支持虚拟化。在这种情况下，它可以管理用于将访客/图形虚拟地址映射到访客/图形物理地址的第一组页表，以及管理用于将访客/图形物理地址映射到系统/主机物理地址(例如，在系统存储器249内)的第二组页表。第一和第二组页表中的每一个的基地址可以被存储在控制寄存器中，并在上下文切换时被换出(例如，使得向新的上下文提供对相关组的页表的访问)。尽管在图2C中未示出，但是核心243、244、245和/或多核组240A-240N中的每一个都可以包括转换后备缓冲器(TLB)，以缓存访客虚拟到访客物理转换、访客物理到主机物理转换以及访客虚拟到主机物理转换。

在一个实施例中，CPU 246、GPU 239和I/O设备252被集成在单个半导体芯片和/或芯片封装上。所示的存储器249可以集成在相同芯片上，或者可以经由片外接口耦合到存储器控制器248。在一个实施方式中，存储器249包括GDDR6存储器，该GDDR6存储器共享与其他物理系统级存储器相同的虚拟地址空间，但本发明的基本原理不限于该特定实施方式。

在一个实施例中，张量核心244包括被专门设计为执行矩阵运算的多个执行单元，矩阵运算是用于执行深度学习运算的基本计算运算。例如，同时矩阵乘法运算可以用于神经网络训练和推理。张量核心244可以使用各种操作数精度来执行矩阵处理，包括单精度浮点数(例如，32位)、半精度浮点数(例如，16位)、整数字(16位)、字节(8位)和半字节(4位)。在一个实施例中，神经网络实施方式提取每个渲染的场景的特征，以潜在地组合来自多个帧的细节，以构造高质量的最终图像。

在深度学习实施方式中，可以调度并行矩阵乘法工作以在张量核心244上执行。神经网络的训练尤其需要大量的矩阵点积运算。为了处理乘以N×N×N的矩阵乘法的内积公式，张量核心244可以包括至少N个点积处理元件。在矩阵乘法开始之前，将一个完整的矩阵加载到分片寄存器中，并在N个周期内的每个周期中加载至少一列第二矩阵。每个周期有N个点积被处理。

取决于特定实施方式，可以以不同的精度存储矩阵元素，包括16位字、8位字节(例如，INT8)和4位半字节(例如，INT4)。可以针对张量核心244指定不同的精度模式，以确保将最有效的精度用于不同的工作负载(例如，可以将量化容忍到字节和半字节的推理工作负载)。

在一个实施例中，对于实时光线追踪和非实时光线追踪实施方式二者，光线追踪核心245都加速了光线追踪操作。特别地，光线追踪核心245包括光线遍历/相交电路，以用于使用边界体积层级(BVH)来执行光线遍历并识别光线与被包围在BVH体积内的图元之间的相交。光线追踪核心245 还可以包括用于执行深度测试和剔除(例如，使用Z缓冲器或类似布置)的电路。在一个实施方式中，光线追踪核心245与本文所述的图像降噪技术一起执行遍历和相交操作，其至少一部分可以在张量核心244上执行。例如，在一个实施例中，张量核心244实现深度学习神经网络以对由光线追踪核心245生成的帧执行降噪。然而，CPU246、图形核心243和/或光线追踪核心245也可以实现全部或部分降噪和/或深度学习算法。

另外，如上所述，可以采用分布式降噪方法，其中，GPU 239在通过网络或高速互连耦合到其他计算设备的计算设备中。在该实施例中，互连的计算设备共享神经网络学习/训练数据，以提高整个系统学习针对不同类型的图像帧和/或不同图形应用执行降噪的速度。

在一个实施例中，光线追踪核心245处理所有的BVH遍历和光线图元相交，从而避免了图形核心243被每条光线成千上万的指令所超载。在一个实施例中，每个光线追踪核心245包括用于执行边界框测试(例如，用于遍历操作)的第一组专用电路和用于执行光线-三角形相交测试(例如，已被遍历的相交光线)的第二组专用电路。因此，在一个实施例中，多核组240A可以简单地发射光线探测器(ray probe)，并且光线追踪核心245独立地执行光线遍历和相交并返回命中数据(例如，命中、无命中、多次命中等)到线程上下文。在光线追踪核心245执行遍历和相交操作的同时，其他核心243、244被释放以执行其他图形或计算工作。

在一个实施例中，每个光线追踪核心245包括用于执行BVH测试操作的遍历单元和执行光线图元相交测试的相交单元。相交单元生成“命中”、“无命中”或“多次命中”响应，并将其提供给适当的线程。在遍历和相交操作期间，释放其他核心(例如，图形核心243和张量核心244)的执行资源以执行其他形式的图形工作。

在下面描述的一个特定实施例中，使用混合光栅化/光线追踪方法，其中，工作被分布在图形核心243和光线追踪核心245之间。

在一个实施例中，光线追踪核心245(和/或其他核心243、244)包括对光线追踪指令集的硬件支持，例如微软的DirectX光线追踪(DXR)，其包括DispatchRays命令以及光线生成、最接近命中、任何命中和未命中着色器，其使得能够为每个对象指派独特的一组着色器和纹理。可以由光线追踪核心245、图形核心243和张量核心244支持的另一个光线追踪平台是Vulkan 1.1.85。然而，注意到，本发明的基本原理不限于任何特定的光线追踪ISA。

通常，各种核心245、244、243可以支持光线追踪指令集，光线追踪指令集包括用于光线生成、最接近命中、任何命中、光线图元相交、每图元和层次边界框构造、未命中、访问和例外的指令/功能。更具体地，一个实施例包括用于执行以下功能的光线追踪指令：

光线生成–可以为每个像素、样本或其他用户定义的工作指派执行光线生成指令。

最接近命中–可以执行最接近命中指令以定位光线与场景内图元的最接近相交。

任何命中–任何命中指令标识光线与场景内的图元之间的多个相交，从而潜在地标识新的最接近的相交点。

相交–相交指令执行光线图元相交测试并输出结果。

每图元边界框构造–该指令围绕给定的图元或一组图元构建边界框(例如，在构建新的BVH或其他加速度数据结构时)。

未命中–指示光线未命中场景或场景指定区域内的所有几何形状。

访问–指示光线将穿过的子体积。

异常–包括各种类型的异常处理程序(例如，针对各种错误条件调用的)。

图2D是根据本文描述的实施例的可以被配置为图形处理器和/或计算加速器的通用图形处理单元(GPGPU)270的框图。GPGPU 270可以经由一个或多个系统和/或存储器总线与主机处理器(例如，一个或多个CPU 246)和存储器271、272互连。在一个实施例中，存储器271是可以与一个或多个CPU 246共享的系统存储器，而存储器272是专用于GPGPU 270的设备存储器。在一个实施例中，设备存储器272和GPGPU 270内的组件可以被映射到可由一个或多个CPU 246访问的存储器地址中。可以经由存储器控制器268促进对存储器271和272的访问。在一个实施例中，存储器控制器268包括内部直接存储器访问(DMA)控制器269或可以包括用于执行否则将由DMA控制器执行的操作的逻辑。

GPGPU 270包括多个高速缓冲存储器，包括L2高速缓存253、L1高速缓存254、指令高速缓存255和共享存储器256，它们的至少一部分也可以被划分为高速缓冲存储器。GPGPU270还包括多个计算单元260A-260N。每个计算单元260A-260N包括一组向量寄存器261、标量寄存器262、向量逻辑单元263和标量逻辑单元264。计算单元260A-260N还可以包括本地共享存储器265和程序计数器266。计算单元260A-260N可以与恒定高速缓存267耦合，其可以用于存储恒定数据，该恒定数据是在GPGPU 270上执行的着色器程序或内核的运行期间不会改变的数据。在一个实施例中，恒定高速缓存267是标量数据高速缓存，并且可以将缓存的数据直接提取到标量寄存器262中。

在操作期间，一个或多个CPU 246可以将命令写入已映射到可访问地址空间中的GPGPU 270中的寄存器或存储器中。命令处理器257可以从寄存器或存储器读取命令，并确定将如何在GPGPU 270内处理这些命令。然后可以使用线程分派器258将线程分派给计算单元260A-260N以执行那些命令。每个计算单元260A-260N可以独立于其他计算单元执行线程。另外，每个计算单元260A-260N可以被独立地配置用于条件计算，并且可以将计算结果有条件地输出到存储器。当提交的命令完成时，命令处理器257可以中断一个或多个CPU246。

图3A-3C示出了由本文描述的实施例提供的附加图形处理器和计算加速器架构的框图。图3A-3C的具有与本文中任何其他附图的元素相同的附图标记(或名称)的元素可以以类似于本文其他各处所描述的任何方式来操作或起作用，但不限于此。

图3A是图形处理器300的框图，该图形处理器300可以是分立的图形处理单元，或者可以是与多个处理核心或其他半导体器件(例如但不限于存储器设备或网络接口)集成在一起的图形处理器。在一些实施例中，图形处理器经由存储器映射的I/O接口向图形处理器上的寄存器通信以及与放置到处理器存储器中的命令进行通信。在一些实施例中，图形处理器300包括用于访问存储器的存储器接口314。存储器接口314可以是到本地存储器、一个或多个内部高速缓存、一个或多个共享的外部高速缓存和/或系统存储器的接口。

在一些实施例中，图形处理器300还包括显示控制器302，以将显示输出数据驱动到显示设备318。显示控制器302包括用于一个或多个覆盖平面的硬件，以用于显示和合成多层视频或用户界面元素。显示设备318可以是内部或外部显示设备。在一个实施例中，显示设备318是头戴式显示设备，例如虚拟现实(VR)显示设备或增强现实(AR)显示设备。在一些实施例中，图形处理器300包括视频编解码器引擎306，以将媒体编码为一种或多种媒体编码格式、从一种或多种媒体编码格式解码、或者在一种或多种媒体编码格式之间进行转码，包括但不限于运动图像专家组(MPEG)格式(例如，MPEG-2)、高级视频编码(AVC)格式(例如，H.264/MPEG-4AVC)、H.265/HEVC、开放媒体联盟(AOMedia)VP8、VP9、以及电影电视工程师协会(SMPTE)421M/VC-1、以及联合图像专家组(JPEG)格式(例如，JPEG以及Motion JPEG(MJPEG)格式)。

在一些实施例中，图形处理器300包括块图像传送(BLIT)引擎304，以执行包括例如位边界块传送的二维(2D)光栅化器操作。然而，在一个实施例中，使用图形处理引擎(GPE)310的一个或多个组件来执行2D图形操作。在一些实施例中，GPE 310是用于执行图形操作的计算引擎，包括三维(3D)图形操作和媒体操作。

在一些实施例中，GPE 310包括用于执行3D操作的3D流水线312，例如使用作用于3D图元形状(例如，矩形、三角形等)的处理功能来渲染三维图像和场景。3D流水线312包括可编程和固定功能元素，其在元素内执行各种任务和/或产生到3D/媒体子系统315的执行线程。尽管3D流水线312可以用于执行媒体操作，但是GPE 310的实施例还包括媒体流水线316，其专门用于执行媒体操作，例如视频后处理和图像增强。

在一些实施例中，媒体流水线316包括固定功能或可编程逻辑单元，以执行一个或多个专门的媒体操作，例如代替或代表视频编解码器引擎306的视频解码加速、视频解交织和视频编码加速。在一些实施例中，媒体流水线316还包括线程产生单元，以产生线程以在3D/媒体子系统315上执行。产生的线程对被包括在3D/媒体子系统315中的一个或多个图形执行单元执行媒体操作的计算。

在一些实施例中，3D/媒体子系统315包括用于执行由3D流水线312 和媒体流水线316产生的线程的逻辑。在一个实施例中，流水线将线程执行请求发送到3D/媒体子系统315，其包括用于仲裁各种请求并将其分派给可用的线程执行资源的线程分派逻辑。执行资源包括一系列图形执行单元，以用于处理3D和媒体线程。在一些实施例中，3D/媒体子系统315包括一个或多个用于线程指令和数据的内部高速缓存。在一些实施例中，子系统还包括共享存储器，包括寄存器和可寻址存储器，以用于在线程之间共享数据并存储输出数据。

图3B示出了根据本文所述实施例的具有分片架构的图形处理器320。在一个实施例中，图形处理器320包括图形处理引擎集群322，其在图形引擎分片310A-310D内具有图3A的图形处理引擎310的多个实例。每个图形引擎分片310A-310D可以经由一组分片互连323A-323F进行互连。每个图形引擎分片310A-310D还可以经由存储器互连325A-325D连接到存储器模块或存储器设备326A-326D。存储器设备326A-326D可以使用任何图形存储器技术。例如，存储器设备326A-326D可以是图形双倍数据速率(GDDR)存储器。在一个实施例中，存储器设备326A-326D是高带宽存储器(HBM)模块，其可以与它们相应的图形引擎分片310A-310D一起在管芯上。在一个实施例中，存储器设备326A-326D是可以被堆叠在它们相应的图形引擎分片310A-310D之上的堆叠的存储器设备。在一个实施例中，每个图形引擎分片310A-310D和相关联的存储器326A-326D驻留在单独的小芯片上，这些小芯片结合到基础管芯或基础衬底，如在图11B-11D中进一步详细描述的。

图形处理引擎群集322可以与片上或封装上结构互连324连接。结构互连324可实现图形引擎分片310A-310D与诸如视频编解码器306和一个或多个复制引擎304之类的组件之间的通信。复制引擎304可以用于将数据移出、移入存储器设备326A-326D和图形处理器320外部的存储器(例如，系统存储器)，以及在它们之间移动数据。结构互连324也可以用于互连图形引擎分片310A-310D。图形处理器320可以可选地包括显示控制器302，以实现与外部显示设备318的连接。图形处理器也可以被配置为图形或计算加速器。在加速器配置中，可以省略显示控制器302和显示设备318。

图形处理器320可以经由主机接口328连接到主机系统。主机接口328 可以实现图形处理器320、系统存储器和/或其他系统组件之间的通信。主机接口328可以是例如PCIexpress总线或另一类型的主机系统接口。

图3C示出了根据本文描述的实施例的计算加速器330。计算加速器330可以包括与图3B的图形处理器320的架构相似性，并且针对计算加速进行了优化。计算引擎集群332可以包括一组计算引擎分片340A-340D，其包括针对并行或基于向量的通用计算操作而优化的执行逻辑。在一些实施例中，计算引擎分片340A-340D不包括固定功能图形处理逻辑，但在一个实施例中，计算引擎分片340A-340D中的一个或多个可以包括用于执行媒体加速的逻辑。计算引擎分片340A-340D可以经由存储器互连325A-325D连接到存储器326A-326D。存储器326A-326D和存储器互连325A-325D可以是与图形处理器320中类似的技术，或者可以是不同的。图形计算引擎分片340A-340D还可以经由一组分片互连323A-323F而互连，并且可以与结构互连324连接和/或通过结构互连324互连。在一个实施例中，计算加速器330包括大的L3高速缓存336，其可以配置为设备范围的高速缓存(device-wide cache)。计算加速器330还可以经由主机接口328以与图3B的图形处理器320类似的方式连接到主机处理器和存储器。

图形处理引擎

图4是根据一些实施例的图形处理器的图形处理引擎410的框图。在一个实施例中，图形处理引擎(GPE)410是图3A所示的GPE 310的版本，并且还可以表示图3B的图形引擎分片310A-310D。图4的具有与本文中任何其他附图的元素相同的附图标记(或名称)的元素可以以类似于本文其他各处所描述的任何方式来操作或起作用，但不限于此。例如，示出了图3A的3D流水线312和媒体流水线316。媒体流水线316在GPE 410的一些实施例中是可选的，并且可以不显式地被包括在GPE 410内。例如并且在至少一个实施例中，单独的媒体和/或图像处理器耦合到GPE 410。

在一些实施例中，GPE 410与命令流式传输器403耦合或包括命令流式传输器403，该命令流式传输器403向3D流水线312和/或媒体流水线316提供命令流。在一些实施例中，命令流式传输器403与存储器耦合，该存储器可以是系统存储器，或内部高速缓存和共享高速缓存中的一个或多个。在一些实施例中，命令流式传输器403从存储器接收命令，并将命令发送到3D流水线312和/或媒体流水线316。命令是从环形缓冲器获取的指令，该环形缓冲器存储用于3D流水线312和媒体流水线316的命令。在一个实施例中，环形缓冲器可以另外包括批处理命令缓冲器，其存储多个命令的批次。用于3D流水线312的命令还可以包括对存储在存储器中的数据的引用，例如但不限于用于3D流水线312的顶点和几何数据和/或用于媒体流水线316的图像数据和存储器对象。3D流水线312和媒体流水线316通过经由相应流水线内的逻辑执行操作或通过将一个或多个执行线程分派到图形核心阵列414来处理命令和数据。在一个实施例中，图形核心阵列414包括一个或多个图形核心块(例如，图形核心415A、图形核心415B)，每个块包括一个或多个图形核心。每个图形核心包括一组图形执行资源，这些资源包括用于执行图形和计算操作的通用和特定于图形的执行逻辑，以及固定功能纹理处理和/或机器学习以及人工智能加速逻辑。

在各个实施例中，3D流水线312可以包括固定功能和可编程逻辑，以通过处理指令并向图形核心阵列414分派执行线程来处理一个或多个着色器程序，例如顶点着色器、几何着色器、像素着色器、片段着色器、计算着色器或其他着色器程序。图形核心阵列414提供执行资源的统一块，以用于处理这些着色器程序。图形核心阵列414的图形核心415A-414B内的多用途执行逻辑(例如，执行单元)包括对各种3D API着色器语言的支持，并且可以执行与多个着色器相关联的多个同时执行线程。

在一些实施例中，图形核心阵列414包括执行逻辑以执行媒体功能，例如视频和/或图像处理。在一个实施例中，除了图形处理操作之外，执行单元还包括可编程以执行并行通用计算操作的通用逻辑。通用逻辑可以在图1的处理器核心107或如图2A所示的核心202A-202N内与通用逻辑并行或相结合地执行处理操作。

由在图形核心阵列414上执行的线程生成的输出数据可以将数据输出到统一返回缓冲器(URB)418中的存储器。URB 418可以存储多个线程的数据。在一些实施例中，URB 418可以用于在图形核心阵列414上执行的不同线程之间发送数据。在一些实施例中，URB 418可以另外用于图形核心阵列上的线程与共享功能逻辑420内的固定功能逻辑之间的同步。

在一些实施例中，图形核心阵列414是可缩放的，使得该阵列包括可变数量的图形核心，每个图形核心基于GPE 410的目标功率和性能水平而具有可变数量的执行单元。在一个实施例中，执行资源是动态可缩放的，使得可以根据需要启用或禁用执行资源。

图形核心阵列414与共享功能逻辑420耦合，该共享功能逻辑420包括在图形核心阵列中的图形核心之间共享的多个资源。共享功能逻辑420内的共享功能是向图形核心阵列414提供专门的补充功能的硬件逻辑单元。在各个实施例中，共享功能逻辑420包括但不限于采样器421、数学422和线程间通信(ITC)423逻辑。另外，一些实施例在共享功能逻辑420内实现一个或多个高速缓存425。

至少在对给定专用功能的需求不足以被包括在图形核心阵列414内的情况下，实现了共享功能。相反，将该专用功能的单个实例化实现为共享功能逻辑420中的独立的实体并且在图形核心阵列414内的执行资源之间共享。在图形核心阵列414之间共享并被包括在图形核心阵列414内的精确功能集因实施例而异。在一些实施例中，由图形核心阵列414广泛使用的共享功能逻辑420内的特定共享功能可以被包括在图形核心阵列414内的共享功能逻辑416内。在各个实施例中，图形核心阵列414内的共享功能逻辑416可以包括共享功能逻辑420内的一些或全部逻辑。在一个实施例中，共享功能逻辑420内的所有逻辑元素可以在图形核心阵列414的共享功能逻辑416内被复制。在一个实施例中，共享功能逻辑420被排除，以有利于图形核心阵列414内的共享功能逻辑416。

执行单元

图5A-5B示出了根据本文描述的实施例的线程执行逻辑500，其包括在图形处理器核心中采用的处理元件的阵列。图5A-5B的具有与本文中任何其他附图的元素相同的附图标记(或名称)的元素可以以类似于本文其他各处所描述的任何方式来操作或起作用，但不限于此。图5A-5B示出了线程执行逻辑500的概观，其可以表示用图2B的每个子核心221A-221F示出的硬件逻辑。图5A表示通用图形处理器内的执行单元，而图5B表示可以在计算加速器内使用的执行单元。

如图5A所示，在一些实施例中，线程执行逻辑500包括着色器处理器502、线程分派器504、指令高速缓存506、包括多个执行单元508A-508N 的可缩放执行单元阵列、采样器510、共享本地存储器511、数据高速缓存512和数据端口514。在一个实施例中，可缩放执行单元阵列可以通过基于工作负载的计算需求启用或禁用一个或多个执行单元(例如，执行单元508A、508B、508C、508D、直到508N-1和508N中的任何一个)来动态缩放。在一个实施例中，被包括的组件经由互连结构进行互连，该互连结构链接到每个组件。在一些实施例中，线程执行逻辑500包括通过指令高速缓存506、数据端口514、采样器510和执行单元508A-508N中的一个或多个与存储器(例如，系统存储器或高速缓冲存储器)的一个或多个连接。在一些实施例中，每个执行单元(例如，508A)是独立的可编程通用计算单元，其能够执行多个同时的硬件线程，同时针对每个线程并行处理多个数据元素。在各个实施例中，执行单元508A-508N的阵列可缩放以包括任何数量的个体执行单元。

在一些实施例中，执行单元508A-508N主要用于执行着色器程序。着色器处理器502可以处理各种着色器程序，并经由线程分派器504来分派与着色器程序相关联的执行线程。在一个实施例中，线程分派器包括用于仲裁来自图形和媒体流水线的线程发起请求并实例化执行单元508A-508N中的一个或多个执行单元上的所请求的线程的逻辑。例如，几何流水线可以将顶点、曲面细分或几何着色器分派到线程执行逻辑以进行处理。在一些实施例中，线程分派器504还可以处理来自正在执行的着色器程序的运行时线程产生请求。

在一些实施例中，执行单元508A-508N支持指令集，该指令集包括对许多标准3D图形着色器指令的本机支持，使得来自图形库的着色器程序(例如，Direct 3D和OpenGL)以最小的翻译执行。执行单元支持顶点和几何处理(例如，顶点程序、几何程序、顶点着色器)、像素处理(例如，像素着色器、片段着色器)和通用处理(例如，计算和媒体着色器)。每个执行单元508A-508N都能够进行多发出单指令多数据(SIMD)执行，并且面对更高延时的存储器访问，多线程操作实现高效的执行环境。每个执行单元内的每个硬件线程都有专用的高带宽寄存器文件和相关联的独立线程状态。执行是每个时钟到流水线的多次发出，该流水线能够进行整数、单精度和双精度浮点运算、SIMD分支能力、逻辑运算、先验运算和其他杂项运算。在等待来自共享功能之一或存储器的数据时，执行单元508A-508N内的依赖性逻辑使等待线程休眠直到已经返回了所请求的数据。在等待线程处于休眠的同时，硬件资源可以专用于处理其他线程。例如，在与顶点着色器操作相关联的延迟期间，执行单元可以对像素着色器、片段着色器或另一类型的着色器程序(包括不同的顶点着色器)执行操作。各种实施例可以通过使用单指令多线程(SIMT)来代替SIMD的使用或附加于SIMD的使用而应用于使用执行。对SIMD核心或操作的引用也可以应用于SIMT或与SIMT组合而应用于SIMD。

执行单元508A-508N中的每个执行单元对数据元素的阵列进行操作。数据元素的数量是“执行大小”或指令的通道数量。执行通道是用于指令内数据元素访问、屏蔽和流控制的执行的逻辑单元。通道的数量可以独立于特定图形处理器的物理算术逻辑单元(ALU)或浮点单元(FPU)的数量。在一些实施例中，执行单元508A-508N支持整数和浮点数据类型。

执行单元指令集包括SIMD指令。可以将各种数据元素作为打包数据类型存储在寄存器中，并且执行单元将基于元素的数据大小来处理各种元素。例如，当对256位宽的向量操作时，该256位向量存储在寄存器中，并且执行单元对该向量作为四个单独的54位打包数据元素(四字(QW)大小数据元素)、八个单独的32位打包数据元素(双字(DW)大小数据元素)、十六个单独的16位打包数据元素(字(W)大小数据元素)或三十二个单独的8位数据元素(字节(B)大小数据元素)进行操作。然而，不同的向量宽度和寄存器大小是可能的。

在一个实施例中，可以将一个或多个执行单元组合成具有对融合的EU通用的线程控制逻辑(507A-507N)的融合的执行单元509A-509N。可以将多个EU融合为EU组。可以将融合的EU组中的每个EU配置为执行单独的SIMD硬件线程。融合的EU组中的EU的数量可以根据实施例而变化。此外，每个EU可以执行各种SIMD宽度，包括但不限于SIMD8、SIMD16和SIMD32。每个融合的图形执行单元509A-509N包括至少两个执行单元。例如，融合执行单元509A包括第一EU 508A、第二EU 508B以及对于第一EU 508A和第二EU 508B公共的线程控制逻辑507A。线程控制逻辑507A控制在融合的图形执行单元509A上执行的线程，从而允许融合的执行单元509A-509N内的每个EU使用公共指令指针寄存器来执行。

线程执行逻辑500中包括一个或多个内部指令高速缓存(例如，506)，以对用于执行单元的线程指令进行缓存。在一些实施例中，包括一个或多个数据高速缓存(例如，512)以在线程执行期间缓存线程数据。在执行逻辑500上执行的线程也可以将显式管理的数据存储在共享本地存储器511中。在一些实施例中，包括采样器510以提供用于3D操作的纹理采样和用于媒体操作的媒体采样。在一些实施例中，采样器510包括专门的纹理或媒体采样功能，以在将采样数据提供给执行单元之前在采样过程期间处理纹理或媒体数据。

在执行期间，图形和媒体流水线经由线程产生和分派逻辑将线程发起请求发送到线程执行逻辑500。一旦一组几何对象已被处理并光栅化成像素数据，就调用着色器处理器502内的像素处理器逻辑(例如，像素着色器逻辑、片段着色器逻辑等)以进一步计算输出信息并使结果被写入到输出表面(例如，颜色缓冲器、深度缓冲器、模板缓冲器等)。在一些实施例中，像素着色器或片段着色器计算将跨光栅化对象插值的各种顶点属性的值。在一些实施例中，着色器处理器502内的像素处理器逻辑然后执行应用编程接口(API)提供的像素或片段着色器程序。为了执行着色器程序，着色器处理器502经由线程分派器504将线程分派给执行单元(例如，508A)。在一些实施例中，着色器处理器502使用采样器510中的纹理采样逻辑来访问存储在存储器中的纹理映射中的纹理数据。对纹理数据和输入几何数据的算术运算为每个几何片段计算像素颜色数据，或丢弃来自进一步处理的一个或多个像素。

在一些实施例中，数据端口514提供了用于线程执行逻辑500的存储器访问机制，以将处理的数据输出到存储器以在图形处理器输出流水线上进行进一步处理。在一些实施例中，数据端口514包括或耦合到一个或多个高速缓冲存储器(例如，数据高速缓存512)，以高速缓存数据以用于经由数据端口的存储器访问。

在一个实施例中，执行逻辑500还可以包括可以提供光线追踪加速功能的光线追踪器505。光线追踪器505可以支持包括用于光线生成的指令/功能的光线追踪指令集。光线追踪指令集可以与图2C中的光线追踪核心245所支持的光线追踪指令集相似或不同。

图5B示出了根据实施例的执行单元508的示例性内部细节。图形执行单元508可以包括指令获取单元537、通用寄存器文件阵列(GRF)524、架构寄存器文件阵列(ARF)526、线程仲裁器522、发送单元530、分支单元532、一组SIMD浮点单元(FPU)534，并且在一个实施例中包括一组专用整数SIMD ALU 535。GRF 524和ARF 526包括与可以在图形执行单元508中处于活动的每个同时硬件线程相关联的一组通用寄存器文件和架构寄存器文件。在一个实施例中，在ARF 526中维护每个线程的架构状态，而在GRF 524中存储在线程执行过程期间使用的数据。每个线程的执行状态(包括每个线程的指令指针)可以被保存在ARF 526中的特定于线程的寄存器中。

在一个实施例中，图形执行单元508具有是同时多线程(SMT)和细粒度交错多线程(IMT)的组合的架构。该架构具有模块化配置，其可以在设计时基于同时线程的目标数量和每个执行单元的寄存器数量对其进行微调，其中，执行单元资源跨用于执行多个同时线程的逻辑划分。图形执行单元508可以执行的逻辑线程的数量不限于硬件线程的数量，并且可以将多个逻辑线程指派给每个硬件线程。

在一个实施例中，图形执行单元508可以共同发布多个指令，每个指令可以是不同的指令。图形执行单元线程508的线程仲裁器522可以将指令分派到发送单元530、分支单元532或SIMD FPU 534之一以进行执行。每个执行线程可以访问GRF 524内的128个通用寄存器，其中，每个寄存器可以存储32个字节，可作为32位数据元素的SIMD 8元素向量进行访问。在一个实施例中，每个执行单元线程可以访问GRF 524内的4KB，但实施例不限于此，并且在其他实施例中可以提供更多或更少的寄存器资源。在一个实施例中，图形执行单元508被划分为七个硬件线程，其可以独立地执行计算操作，但每个执行单元的线程数量也可以根据实施例而变化。例如，在一个实施例中，支持多达16个硬件线程。在七个线程可以访问4KB的实施例中，GRF 524可以存储总共28KB。在16个线程可以访问4KB的情况下，GRF 524可以存储总共64KB。灵活的寻址模式可以允许将寄存器一起寻址，以构建实际上更宽的寄存器或表示跨步矩形块数据结构(strided rectangular block data structure)。

在一个实施例中，经由由消息传递发送单元530执行的“发送”指令来分派存储器操作、采样器操作以及其他更长延时的系统通信。在一个实施例中，将分支指令分派到专用分支单元532以促进SIMD发散和最终收敛。

在一个实施例中，图形执行单元508包括一个或多个SIMD浮点单元(FPU)534以执行浮点操作。在一个实施例中，FPU 534也支持整数计算。在一个实施例中，FPU 534可以SIMD执行多达M个32位浮点(或整数)运算，或者SIMD执行多达2M个16位整数或16位浮点运算。在一个实施例中，FPU中的至少一个提供扩展的数学能力以支持高吞吐量的先验数学函数和双精度54位浮点。在一些实施例中，还存在一组8位整数SIMD ALU 535，并且可以被专门优化以执行与机器学习计算相关联的操作。

在一个实施例中，可以在图形子核心分组(例如，子切片)中实例化图形执行单元508的多个实例的阵列。为了可缩放性，产品架构师可以选择每个子核心分组的精确的执行单元数量。在一个实施例中，执行单元508可以跨多个执行通道执行指令。在另一个实施例中，在图形执行单元508上执行的每个线程在不同的通道上执行。

图6示出了根据实施例的附加执行单元600。执行单元600可以是用于例如图3C中的计算引擎分片340A-340D中的计算优化的执行单元，但不限于此。如图3B所示，执行单元600的变体也可以用在图形引擎分片310A-310D中。在一个实施例中，执行单元600包括线程控制单元601、线程状态单元602、指令获取/预取单元603和指令解码单元604。执行单元600还包括寄存器文件606，该寄存器文件606存储可以指派给执行单元内的硬件线程的寄存器。执行单元600还包括发送单元607和分支单元608。在一个实施例中，发送单元607和分支单元608可以与图5B的图形执行单元508的发送单元530和分支单元532类似地操作。

执行单元600还包括计算单元610，计算单元610包括多种不同类型的功能单元。在一个实施例中，计算单元610包括ALU单元611，ALU单元611包括算术逻辑单元的阵列。ALU单元611可以被配置为执行64位、32位和16位的整数和浮点运算。整数和浮点运算可以同时执行。计算单元610 还可以包括脉动阵列612和数学单元613。脉动阵列612包括可以用于以脉动方式执行向量或其他数据并行操作的数据处理单元的W宽和D深的网络。在一个实施例中，脉动阵列612可以被配置为执行矩阵运算，例如矩阵点积运算。在一个实施例中，脉动阵列612支持16位浮点运算以及8位和4位整数运算。在一个实施例中，脉动阵列612可以被配置为加速机器学习操作。在这样的实施例中，脉动阵列612可以被配置为支持bfloat 16位浮点格式。在一个实施例中，可以包括数学单元613，以比ALU单元611高效和低功率的方式执行数学运算的特定子集。数学单元613可以包括可以在由其他实施例提供的图形处理引擎的共享功能逻辑中找到的数学逻辑(例如，图4的共享功能逻辑420的数学逻辑422)的变体。在一个实施例中，数学单元613可以被配置为执行32位和64位浮点运算。

线程控制单元601包括用于控制执行单元内的线程的执行的逻辑。线程控制单元601可以包括线程仲裁逻辑，以开始、停止和抢占执行单元600内的线程。线程状态单元602可以用于存储被指派以在执行单元600上执行的线程的线程状态。存储执行单元600内的线程状态在那些线程变得阻塞或空闲时实现线程的快速抢占。指令获取/预取单元603可以从更高级别的执行逻辑的指令高速缓存(例如，如图5A中的指令高速缓存506)获取指令。指令获取/预取单元603还可以基于对当前执行的线程的分析，发出对要加载到指令高速缓存中的指令的预取请求。指令解码单元604可以用于解码要由计算单元执行的指令。在一个实施例中，指令解码单元604可以用作辅助解码器，以将复杂的指令解码为组分微操作。

执行单元600还包括可以由执行单元600上执行的硬件线程使用的寄存器文件606。寄存器文件606中的寄存器可以跨用于执行执行单元600的计算单元610内的多个同时线程的逻辑进行划分。可以由图形执行单元600执行的逻辑线程的数量不限于硬件线程的数量，并且可以将多个逻辑线程指派给每个硬件线程。寄存器文件606的大小可以基于支持的硬件线程的数量因实施例而异。在一个实施例中，寄存器重命名可以用于动态地将寄存器分配给硬件线程。

图7是示出根据一些实施例的图形处理器指令格式700的框图。在一个或多个实施例中，图形处理器执行单元支持具有采用多种格式的指令的指令集。实线框示出了通常被包括在执行单元指令中的组件，而虚线包括可选的组件或仅被包括在指令的子集中的组件。在一些实施例中，所描述和示出的指令格式700是宏指令，这是因为它们是提供给执行单元的指令，与一旦指令被处理就由指令解码产生的微操作相对。

在一些实施例中，图形处理器执行单元本地地支持128位指令格式710的指令。基于所选择的指令、指令选项和操作数的数量，对于一些指令64位压缩指令格式730是可用的。本机128位指令格式710提供对所有指令选项的访问，而一些选项和操作则受64位格式730的限制。64位格式730中可用的本机指令因实施例而异。在一些实施例中，使用索引字段713中的一组索引值来部分压缩指令。执行单元硬件基于索引值来引用一组压缩表，并使用压缩表输出来重构128位指令格式710的的本机指令。可以使用其他尺寸和指令格式。

对于每种格式，指令操作码712定义执行单元将执行的操作。执行单元跨每个操作数的多个数据元素并行执行每个指令。例如，响应于相加指令，执行单元跨表示纹理元素或图片元素的每个颜色通道执行同时相加运算。默认情况下，执行单元跨操作数的所有数据通道执行每个指令。在一些实施例中，指令控制字段714使得能够控制某些执行选项，例如通道选择(例如，预测)和数据通道顺序(例如，拌和(swizzle))。对于128位指令格式710的指令，执行大小字段716限制将并行执行的数据通道的数量。在一些实施例中，执行大小字段716不可用于64位紧凑指令格式730。

一些执行单元指令具有多达三个操作数，包括两个源操作数src0 720、src1 722和一个目的地718。在一些实施例中，执行单元支持双目的地指令，其中，目的地之一被暗指。数据操纵指令可以具有第三源操作数(例如，SRC2 724)，其中，指令操作码712确定源操作数的数量。指令的最后一个源操作数可以是随指令传递的立即数(例如，硬编码的)。

在一些实施例中，128位指令格式710包括访问/地址模式字段726，其指定例如使用直接寄存器寻址模式还是间接寄存器寻址模式。当使用直接寄存器寻址模式时，一个或多个操作数的寄存器地址直接由指令中的位提供。

在一些实施例中，128位指令格式710包括访问/地址模式字段726，其指定指令的地址模式和/或访问模式。在一个实施例中，访问模式用于为指令定义数据访问对齐。一些实施例支持访问模式，包括16字节对齐的访问模式和1字节对齐的访问模式，其中，访问模式的字节对齐确定指令操作数的访问对齐。例如，当处于第一模式时，该指令可以将字节对齐的寻址用于源和目的地操作数，而当处于第二模式时，该指令可以将16字节对齐的寻址用于所有源和目的地操作数。

在一个实施例中，访问/地址模式字段726的地址模式部分确定指令将使用直接寻址还是间接寻址。当使用直接寄存器寻址模式时，指令中的位直接提供一个或多个操作数的寄存器地址。当使用间接寄存器寻址模式时，可以基于指令中的地址寄存器值和地址立即数字段来计算一个或多个操作数的寄存器地址。

在一些实施例中，基于操作码712位字段对指令进行分组，以简化操作码解码740。对于8位操作码，位4、5和6允许执行单元确定操作码的类型。所示的精确操作码分组仅是示例。在一些实施例中，移动和逻辑操作码组742包括数据移动和逻辑指令(例如，移动(mov)、比较(cmp))。在一些实施例中，移动和逻辑组742共享五个最高有效位(MSB)，其中，移动(mov)指令的形式为0000xxxxb，而逻辑指令的形式为0001xxxxb。流控制指令组744(例如，调用、跳转(jmp))包括形式为0010xxxxb(例如，0x20)的指令。杂项指令组746包括指令的混合，包括形式为0011xxxxb(例如，0x30)形式的同步指令(例如，等待、发送)。并行数学指令组748包括形式为0100xxxxb(例如，0x40)的逐组件的算术指令(例如，加、乘(mul))。并行数学组748跨数据通道并行执行算术运算。向量数学组750包括格式为0101xxxxb(例如，0x50)的算术指令(例如，dp4)。向量数学组对向量操作数执行算术运算，例如点积计算。在一个实施例中，所示的操作码解码器740可以用于确定将使用执行单元的哪个部分来执行解码的指令。例如，一些指令可以被指定为将由脉动阵列执行的脉动指令。诸如光线追踪指令(未示出)之类的其他指令可以被路由到执行逻辑的切片或分区内的光线追踪逻辑或光线追踪核心。

图形流水线

图8是图形处理器800的另一实施例的框图。图8的具有与本文中任何其他附图的元素相同的附图标记(或名称)的元素可以以类似于本文其他各处所描述的任何方式来操作或起作用，但不限于此。

在一些实施例中，图形处理器800包括几何流水线820、媒体流水线830、显示引擎840、线程执行逻辑850和渲染输出流水线870。在一些实施例中，图形处理器800是多核处理系统内的图形处理器，多核处理系统包括一个或多个通用处理核心。通过对一个或多个控制寄存器(未示出)的寄存器写入操作或通过经由环形互连802发出到图形处理器800的命令来控制图形处理器。在一些实施例中，环形互连802将图形处理器800耦合到其他处理组件，例如其他图形处理器或通用处理器。来自环形互连802的命令由命令流式传输器803解释，该命令流式传输器803将指令提供给几何流水线820或媒体流水线830的个体组件。

在一些实施例中，命令流式传输器803引导顶点获取器805的操作，该顶点获取器805从存储器读取顶点数据并执行由命令流式传输器803提供的顶点处理命令。在一些实施例中，顶点获取器805将顶点数据提供给顶点着色器807，顶点着色器807对每个顶点执行坐标空间变换和照明操作。在一些实施例中，顶点获取器805和顶点着色器807通过经由线程分派器831将执行线程分派给执行单元852A-852B来执行顶点处理指令。

在一些实施例中，执行单元852A-852B是向量处理器的阵列，其具有用于执行图形和媒体操作的指令集。在一些实施例中，执行单元852A-852B具有专用于每个阵列或在阵列之间共享的附接的L1高速缓存851。可以将高速缓存配置为数据高速缓存、指令高速缓存或被分区以在不同分区中包含数据和指令的单个高速缓存。

在一些实施例中，几何流水线820包括曲面细分组件，以执行3D对象的硬件加速的曲面细分。在一些实施例中，可编程的外壳着色器811配置曲面细分操作。可编程域着色器817提供曲面细分输出的后端评估。曲面细分器813在外壳着色器811的方向上操作，并包含特殊用途的逻辑，以用于基于作为输入被提供给几何流水线820的粗略几何模型生成一组详细的几何对象。在一些实施例中，如果未使用曲面细分，曲面细分组件(例如，外壳着色器811、曲面细分器813和域着色器817)可以被绕过。

在一些实施例中，可以经由被分派给执行单元852A-852B的一个或多个线程来由几何着色器819处理完整的几何对象，或者可以直接进行到修剪器(clipper)829。在一些实施例中，几何着色器对整个几何对象进行操作，而不是图形流水线先前阶段中的顶点或顶点补丁。如果禁用了曲面细分，则几何着色器819从顶点着色器807接收输入。在一些实施例中，如果禁用了曲面细分单元，则几何着色器819可由几何着色器程序编程以执行几何曲面细分。

在光栅化之前，修剪器829处理顶点数据。修剪器829可以是具有修剪和几何着色器功能的固定功能修剪器或可编程修剪器。在一些实施例中，渲染输出流水线870中的光栅化器和深度测试组件873分派像素着色器，以将几何对象转换成每像素表示。在一些实施例中，像素着色器逻辑被包括在线程执行逻辑850中。在一些实施例中，应用可以绕过光栅化器和深度测试组件873，并经由流输出单元823访问未光栅化的顶点数据。

图形处理器800具有允许数据和消息在处理器的主要组件之间传递的互连总线、互连结构或某个其他互连机制。在一些实施例中，执行单元852A-852B和相关联的逻辑单元(例如，L1高速缓存851、采样器854、纹理高速缓存858等)经由数据端口856互连以执行存储器访问并与处理器的渲染输出流水线组件通信。在一些实施例中，采样器854、高速缓存851、858和执行单元852A-852B均具有单独的存储器访问路径。在一个实施例中，纹理高速缓存858也可以被配置为采样器高速缓存。

在一些实施例中，渲染输出流水线870包含光栅化器和深度测试组件873，其将基于顶点的对象转换为相关联的基于像素的表示。在一些实施例中，光栅化器逻辑包括加窗器/掩蔽器单元以执行固定功能的三角形和线光栅化。在一些实施例中，相关联的渲染高速缓存878和深度高速缓存879也是可用的。像素运算组件877对数据执行基于像素的运算，但在一些情况下，与2D运算相关联的像素运算(例如，具有混合的位块图像传输)由2D引擎841执行，或在显示时由显示器使用覆盖显示平面的控制器843替代。在一些实施例中，共享的L3高速缓存875可用于所有图形组件，从而允许在不使用主系统存储器的情况下共享数据。

在一些实施例中，图形处理器媒体流水线830包括媒体引擎837和视频前端834。在一些实施例中，视频前端834从命令流式传输器803接收流水线命令。在一些实施例中，媒体流水线830包括单独的命令流式传输器。在一些实施例中，视频前端834在将命令发送给媒体引擎837之前处理媒体命令。在一些实施例中，媒体引擎837包括线程产生功能以产生线程以经由线程分派器831分派给线程执行逻辑850。

在一些实施例中，图形处理器800包括显示引擎840。在一些实施例中，显示引擎840在处理器800的外部并且经由环形互连802或某个其他互连总线或结构与图形处理器耦合。在一些实施例中，显示引擎840包括2D引擎841和显示控制器843。在一些实施例中，显示引擎840包含能够独立于3D流水线操作的专用逻辑。在一些实施例中，显示控制器843与显示设备(未示出)耦合，该显示设备可以是如膝上型计算机中的系统集成显示设备，或者是经由显示设备连接器附接的外部显示设备。

在一些实施例中，几何结构流水线820和媒体流水线830可配置为基于多个图形和媒体编程接口来执行操作，并且不特定于任何一个应用编程接口(API)。在一些实施例中，用于图形处理器的驱动程序软件将特定于特定图形或媒体库的API调用转换为可由图形处理器处理的命令。在一些实施例中，提供对全部来自Khronos集团的开放图形库(OpenGL)、开放计算语言(OpenCL)和/或Vulkan图形和计算API的支持。在一些实施例中，也可以提供对来自微软公司的Direct3D库的支持。在一些实施例中，可以支持这些库的组合。还可以提供对开源计算机视觉库(OpenCV)的支持。如果可以从将来的API的流水线到图形处理器的流水线进行映射，则还将支持具有兼容3D流水线的将来的API。

图形流水线编程

图9A是示出根据一些实施例的图形处理器命令格式900的框图。图9B是示出根据实施例的图形处理器命令序列910的框图。图9A中的实线框示出了通常被包括在图形命令中的组件，而虚线包括可选的组件或仅被包括在图形命令的子集中的组件。图9A的示例性图形处理器命令格式900包括用于标识客户端902、命令操作码(操作码)904和用于命令的数据906的数据字段。在一些命令中还包括子操作码905和命令大小908。

在一些实施例中，客户端902指定处理命令数据的图形设备的客户端单元。在一些实施例中，图形处理器命令解析器检查每个命令的客户端字段，以调节该命令的进一步处理并将命令数据路由到适当的客户端单元。在一些实施例中，图形处理器客户端单元包括存储器接口单元、渲染单元、2D单元、3D单元和媒体单元。每个客户端单元都具有处理命令的对应处理流水线。一旦由客户端单元接收到该命令，客户端单元就读取操作码904以及(如果存在的话)子操作码905以确定要执行的操作。客户端单元使用数据字段906中的信息来执行命令。对于一些命令，期望明确的命令大小908来指定命令的大小。在一些实施例中，命令解析器基于命令操作码来自动确定至少一些命令的大小。在一些实施例中，命令是经由双字的倍数对齐的。可以使用其他命令格式。

图9B中的流程图示出了示例性图形处理器命令序列910。在一些实施例中，以图形处理器的实施例为特征的数据处理系统的软件或固件使用所示的命令序列的版本来建立、执行并终止一组图形操作。仅出于示例目的示出和描述了样本命令序列，这是因为实施例不限于这些特定命令或该命令序列。此外，命令可以作为命令序列中的一批命令发布，使得图形处理器将至少部分地并发地处理命令序列。

在一些实施例中，图形处理器命令序列910可以以流水线刷新命令912开始，以使任何活动的图形流水线完成该流水线的当前挂起的命令。在一些实施例中，3D流水线922和媒体流水线924不同时操作。执行流水线刷新以使活动图形流水线完成所有挂起的命令。响应流水线刷新，图形处理器的命令解析器将暂停命令处理，直到活动的绘图引擎完成挂起的操作并且相关的读取高速缓存被无效为止。可选地，可以将渲染高速缓存中标记为“脏”的所有数据刷新到存储器中。在一些实施例中，流水线刷新命令912可以用于流水线同步或在将图形处理器置于低功率状态之前使用。

在一些实施例中，当命令序列需要图形处理器在流水线之间显式切换时，使用流水线选择命令913。在一些实施例中，在发布流水线命令之前，在执行上下文内仅需要流水线选择命令913一次，除非上下文要为两个流水线发布命令。在一些实施例中，紧接在经由流水线选择命令913的流水线切换之前需要流水线刷新命令912。

在一些实施例中，流水线控制命令914配置用于操作的图形流水线，并用于对3D流水线922和媒体流水线924进行编程。在一些实施例中，流水线控制命令914为活动流水线配置流水线状态。在一个实施例中，流水线控制命令914用于流水线同步，并在处理一批命令之前从活动流水线内的一个或多个高速缓冲存储器中清除数据。

在一些实施例中，返回缓冲器状态命令916用于为相应的流水线配置一组返回缓冲器以写入数据。一些流水线操作需要分配、选择或配置一个或多个返回缓冲器，在处理期间操作将中间数据写入这些返回缓冲器中。在一些实施例中，图形处理器还使用一个或多个返回缓冲器来存储输出数据并执行跨线程通信。在一些实施例中，返回缓冲器状态916包括选择用于一组流水线操作的返回缓冲器的大小和数量。

命令序列中的其余命令基于用于操作的活动流水线而不同。基于流水线确定920，以3D流水线状态930开始对3D流水线922定制命令序列，或以媒体流水线状态940开始对媒体流水线924定制命令序列。

用于配置3D流水线状态930的命令包括用于在3D基本命令处理之前要配置的顶点缓冲器状态、顶点元素状态、恒定颜色状态、深度缓冲器状态和其他状态变量的3D状态设置命令。这些命令的值至少部分地基于使用中的特定3D API来确定。在一些实施例中，如果将不使用某些流水线元素，则3D流水线状态930命令也能够选择性地禁用或绕过那些流水线元素。

在一些实施例中，3D图元932命令用于提交要由3D流水线处理的3D图元。经由3D图元932命令传递到图形处理器的命令和相关联的参数将转发到图形流水线中的顶点获取功能。顶点获取功能使用3D图元932命令数据来生成顶点数据结构。顶点数据结构被存储在一个或多个返回缓冲器中。在一些实施例中，3D图元932命令用于经由顶点着色器对3D图元执行顶点操作。为了处理顶点着色器，3D流水线922将着色器执行线程分派给图形处理器执行单元。

在一些实施例中，经由执行934命令或事件来触发3D流水线922。在一些实施例中，寄存器写入触发命令执行。在一些实施例中，经由命令序列中的“执行(go)”或“踢(kick)”命令来触发执行。在一个实施例中，使用流水线同步命令来触发命令执行以刷新命令序列通过图形流水线。3D流水线将执行针对3D图元的几何处理。一旦操作完成，就对得到的几何对象进行栅格化，并且像素引擎为得到的像素着色。用于控制像素着色和像素后端操作的附加命令可以针对那些操作而被包括。

在一些实施例中，当执行媒体操作时，图形处理器命令序列910遵循媒体流水线924路径。通常，用于媒体流水线924的编程的方式和特定用途取决于要执行的媒体或计算操作。在媒体解码期间，可以将特定的媒体解码操作卸载到媒体流水线。在一些实施例中，还可以绕过媒体流水线，并且可以使用由一个或多个通用处理核心提供的资源来全部或部分地执行媒体解码。在一个实施例中，媒体流水线还包括用于通用图形处理器单元(GPGPU)操作的元素，其中，图形处理器用于使用与图形图元的渲染不显式相关的计算着色器程序来执行SIMD向量操作。

在一些实施例中，以与3D流水线922类似的方式配置媒体流水线924。在媒体对象命令942之前，将用于配置媒体流水线状态940的一组命令分派或放置到命令队列中。在一些实施例中，用于媒体流水线状态940的命令包括用于配置将用于处理媒体对象的媒体流水线元素的数据。这包括配置媒体流水线内的视频解码和视频编码逻辑的数据，例如编码或解码格式。在一些实施例中，用于媒体流水线状态940的命令还支持使用一个或多个指向包含一批状态设置的“间接”状态元素的指针。

在一些实施例中，媒体对象命令942提供指向媒体对象的指针以供媒体流水线处理。媒体对象包括存储器缓冲器，这些存储器缓冲器包含要处理的视频数据。在一些实施例中，在发布媒体对象命令942之前，所有媒体流水线状态必须是有效的。一旦配置了流水线状态并且将媒体对象命令942排队，就经由执行命令944或等同的执行事件来触发媒体流水线924(例如，寄存器写入)。然后，可以通过由3D流水线922或媒体流水线924提供的操作对来自媒体流水线924的输出进行后处理。在一些实施例中，以与媒体操作类似的方式配置和执行GPGPU操作。

图形软件架构

图10示出了根据一些实施例的用于数据处理系统1000的示例性图形软件架构。在一些实施例中，软件架构包括3D图形应用1010、操作系统1020和至少一个处理器1030。在一些实施例中，处理器1030包括图形处理器1032和一个或多个通用处理器核心1034。图形应用1010和操作系统1020均在数据处理系统的系统存储器1050中执行。

在一些实施例中，3D图形应用1010包含一个或多个着色器程序，这些着色器程序包括着色器指令1012。着色器语言指令可以采用高级着色器语言，例如Direct3D的高级着色器语言(HLSL)、OpenGL着色器语言(GLSL)等等。该应用还包括适合于由通用处理器核心1034执行的采用机器语言的可执行指令1014。该应用还包括由顶点数据定义的图形对象1016。

在一些实施例中，操作系统1020是来自微软公司的

操作系统、私有的类UNIX操作系统或使用Linux内核的变体的开源的类UNIX操作系统。操作系统1020可以支持图形API 1022，例如Direct3D API、OpenGL API或Vulkan API。当使用Direct3DAPI时，操作系统1020使用前端着色器编译器1024将采用HLSL的任何着色器指令1012编译为较低级的着色器语言。该编译可以是即时(JIT)编译，或者应用可以执行着色器预编译。在一些实施例中，在3D图形应用1010的编译期间将高级着色器编译成低级着色器。在一些实施例中，以中间形式(例如，由Vulkan API使用的标准便携式中间表示(SPIR)的版本)提供着色器指令1012。

在一些实施例中，用户模式图形驱动程序1026包含后端着色器编译器1027，以将着色器指令1012转换成硬件特定的表示。当使用OpenGL API时，将GLSL高级语言的着色器指令1012传递给用户模式图形驱动程序1026进行编译。在一些实施例中，用户模式图形驱动程序1026使用操作系统内核模式功能1028与内核模式图形驱动程序1029通信。在一些实施例中，内核模式图形驱动程序1029与图形处理器1032通信以分派命令和指令。

IP核心实施方式

至少一个实施例的一个或多个方面可以通过存储在机器可读介质上的代表代码来实现，该代表代码表示和/或定义诸如处理器之类的集成电路内的逻辑。例如，机器可读介质可以包括表示处理器内的各种逻辑的指令。当由机器读取时，指令可以使机器制造逻辑以执行本文描述的技术。这样的表示(称为“IP核心”)是集成电路的可重用逻辑单元，其可以作为描述集成电路结构的硬件模型存储在有形的机器可读介质中。可以将硬件模型提供给各种客户或制造设施，其将硬件模型加载到制造集成电路的制造机器上。可以制造集成电路，使得电路执行结合本文描述的任何实施例描述的操作。

图11A是示出根据实施例的可以用于制造集成电路以执行操作的IP核心开发系统1100的框图。IP核心开发系统1100可以用于生成模块化的、可重复使用的设计，其可以被并入更大的设计中或者用于构建整个集成电路(例如，SOC集成电路)。设计设施1130可以以高级编程语言(例如，C/C++)生成IP核心设计的软件仿真1110。软件仿真1110可以用于使用仿真模型1112来设计、测试和验证IP核心的行为。仿真模型1112可以包括功能、行为和/或时序仿真。然后可以从仿真模型1112创建或合成寄存器传送级别(RTL)设计1115。RTL设计1115是集成电路的行为的抽象，其对硬件寄存器之间的数字信号流建模，包括使用建模的数字信号执行的相关联的逻辑。除了RTL设计1115之外，还可以创建、设计或合成逻辑级或晶体管级的较低级设计。因此，初始设计和仿真的特定细节可以不同。

RTL设计1115或等同物可以由设计设施进一步合成为硬件模型1120，其可以采用硬件描述语言(HDL)或物理设计数据的某个其他表示。可以进一步模拟或测试HDL以验证IP核心设计。可以使用非易失性存储器1140(例如，硬盘、闪存或任何非易失性存储介质)来存储IP核心设计，以传递给第三方制造设施1165。替代地，可以通过有线连接1150或无线连接1160(例如，经由因特网)来发送IP核心设计。然后，制造设施1165可以制造至少部分基于IP核心设计的集成电路。可以将制造的集成电路配置为执行根据本文所述的至少一个实施例的操作。

图11B示出了根据本文所述的一些实施例的集成电路封装组装件1170的截面侧视图。集成电路封装组装件1170示出了如本文所述的一个或多个处理器或加速器设备的实施方式。封装组装件1170包括连接到衬底1180的多个硬件逻辑单元1172、1174。逻辑1172、1174可以至少部分地以可配置逻辑或固定功能逻辑硬件来实现，并且可以包括以下任一项的一个或多个部分：处理器核心、图形处理器或本文描述的其他加速器设备。每个逻辑单元1172、1174可以被实现在半导体管芯内并且经由互连结构1173与衬底1180耦合。互连结构1173可以被配置为在逻辑1172、1174和衬底1180之间路由电信号，并且可以包括互连，例如但不限于凸块或立柱。在一些实施例中，互连结构1173可以被配置为路由电信号，例如与逻辑1172、1174的操作相关联的输入/输出(I/O)信号和/或电源或接地信号。在一些实施例中，衬底1180是基于环氧树脂的层压衬底。在其他实施例中，衬底1180可以包括其他合适类型的衬底。封装组装件1170可以经由封装互连1183连接到其他电子设备。封装互连1183可以耦合到衬底1180的表面，以将电信号路由到其他电子设备，例如母板、其他芯片组或多芯片模块。

在一些实施例中，逻辑单元1172、1174与桥1182电气耦合，桥1182被配置为在逻辑1172、1174之间路由电信号。桥1182可以是密集的互连结构，其提供电信号的路由。桥1182可以包括由玻璃或合适的半导体材料组成的桥衬底。可以在桥衬底上形成电布线特征，以在逻辑1172、1174之间提供芯片到芯片的连接。

尽管示出了两个逻辑单元1172、1174和桥1182，但是本文描述的实施例可以在一个或多个管芯上包括更多或更少的逻辑单元。一个或多个管芯可以通过零个或更多个桥连接，这是因为当逻辑被包括在单个管芯上时，可以排除桥1182。替代地，可以通过一个或多个桥来连接多个管芯或逻辑单元。另外，多个逻辑单元、管芯和桥可以以其他可能的配置(包括三维配置)连接在一起。

图11C示出了封装组装件1190，该封装组装件1190包括连接至衬底1180(例如，基础管芯)的多个硬件逻辑小芯片单元。如本文所述的图形处理单元、并行处理器和/或计算加速器可以由单独制造的各种硅小芯片组成。在此上下文中，小芯片是至少部分封装的集成电路，其包括可以与其他小芯片组装成更大封装的不同逻辑单元。可以将具有不同IP核心逻辑的各种小芯片组装到单个设备中。另外，可以使用有源插入器技术将小芯片集成到基础管芯或基础小芯片中。本文描述的概念使得能够在GPU内的不同形式的IP之间进行互连和通信。IP核心可以使用不同的工艺技术进行制造，并在制造期间进行组合，从而避免了将多个IP(特别是在具有多个IP的大型SoC上)会聚到相同制造过程的复杂性。使得能够使用多种处理技术可以改善上市时间，并提供经济高效的方式来创建多个产品SKU。此外，解聚的IP更适合独立选通供电，可以关闭给定工作负载上未使用的组件的电源，从而降低总体功耗。

硬件逻辑小芯片可以包括专用硬件逻辑小芯片1172、逻辑或I/O小芯片1174和/或存储器小芯片1175。硬件逻辑小芯片1172和逻辑或I/O小芯片1174可以至少部分地以可配置逻辑或固定功能逻辑硬件来实现，并且可以包括本文所述的处理器核心、图形处理器、并行处理器或其他加速器设备中的任何一个的一个或多个部分。存储器小芯片1175可以是DRAM(例如，GDDR、HBM)存储器或高速缓存(SRAM)存储器。

每个小芯片可以被制造为单独的半导体管芯并且经由互连结构1173与衬底1180耦合。互连结构1173可以被配置为在各个小芯片和衬底1180内的逻辑之间路由电信号。互连结构1173可以包括互连，例如但不限于凸块或立柱。在一些实施例中，互连结构1173可以被配置为路由电信号，例如与逻辑、I/O和存储器小芯片的操作相关联的输入/输出(I/O)信号和/或电源或接地信号。

在一些实施例中，衬底1180是基于环氧树脂的层压衬底。在其他实施例中，衬底1180可以包括其他合适类型的衬底。封装组装件1190可以经由封装互连1183连接到其他电子设备。封装互连1183可以耦合到衬底1180的表面，以将电信号路由到其他电子设备，例如母板、其他芯片组或多芯片模块。

在一些实施例中，逻辑或I/O小芯片1174和存储器小芯片1175可以经由桥1187电气耦合，该桥1187被配置为在逻辑或I/O小芯片1174和存储器小芯片1175之间路由电信号。桥1187可以是提供电信号的路由的密集互连结构。桥1187可以包括由玻璃或合适的半导体材料组成的桥衬底。可以在桥接衬底上形成电布线特征，以在逻辑或I/O小芯片1174和存储器小芯片1175之间提供芯片到芯片的连接。桥1187也可以称为硅桥或互连桥。例如，在一些实施例中，桥1187是嵌入式多管芯互连桥(EMIB)。在一些实施例中，桥1187可以简单地是从一个小芯片到另一小芯片的直接连接。

衬底1180可以包括用于I/O 1191、高速缓冲存储器1192和其他硬件逻辑1193的硬件组件。可以将结构1185嵌入到衬底1180中，以实现各种逻辑小芯片与衬底1180内的逻辑1191、1193之间的通信。在一个实施例中，I/O 1191、结构1185、高速缓存、桥和其他硬件逻辑1193可以集成到层叠在衬底1180之上的基础管芯中。

在各个实施例中，封装组装件1190可以包括更少或更多数量的组件和小芯片，这些组件和小芯片通过结构1185或一个或多个桥1187互连。封装组装件1190内的小芯片可以以3D或2.5D排列来布置。通常，桥结构1187可以用于促进例如逻辑或I/O小芯片与存储器小芯片之间的点对点互连。结构1185可以用于将各种逻辑和/或I/O小芯片(例如，小芯片1172、1174、1191、1193)与其他逻辑和/或I/O小芯片互连。在一个实施例中，衬底内的高速缓冲存储器1192可以用作封装组装件1190的全局高速缓存、分布式全局高速缓存的一部分、或者用作结构1185的专用高速缓存。

图11D示出了根据实施例的包括可互换小芯片1195的封装组装件1194。可互换小芯片1195可被组装到一个或多个基础小芯片1196、1198上的标准化插槽中。基础小芯片1196、1198可以经由桥互连1197耦合，该桥互连1197可以类似于本文所述的其他桥互连，并且可以是例如EMIB。存储器小芯片也可以经由桥互连连接到逻辑或I/O小芯片。I/O和逻辑小芯片可以经由互连结构进行通信。针对逻辑或I/O或存储器/高速缓存之一，每个基础小芯片可以支持采用标准化格式的一个或多个插槽。

在一个实施例中，可以将SRAM和功率递送电路制造成一个或多个基础小芯片1196、1198，其可以使用与堆叠在基础小芯片之上的可互换小芯片1195不同的工艺技术来制造。例如，可以使用较大的处理技术来制造基础小芯片1196、1198，而可以使用较小的工艺技术来制造可互换小芯片。一个或多个可互换小芯片1195可以是存储器(例如，DRAM)小芯片。可以基于使用封装组装件1194的产品的目标性能和/或功率为封装组装件1194选择不同的存储密度。此外，可以在组装时基于产品的目标性能和/或功率选择具有不同数量的功能单元类型的逻辑小芯片。此外，可以将包含不同类型IP逻辑核心的小芯片插入可互换小芯片插槽中，从而实现可以混合和匹配不同技术IP块的混合处理器设计。

示例性片上系统集成电路

图12-13示出了根据本文所述的各种实施例的示例性集成电路和相关联的图形处理器，其可以使用一个或多个IP核心来制造。除了所示内容之外，还可以包括其他逻辑和电路，包括附加的图形处理器/核心、外围接口控制器或通用处理器核心。

图12是示出根据实施例的可以使用一个或多个IP核心来制造的示例性片上系统集成电路1200的框图。示例性集成电路1200包括一个或多个应用处理器1205(例如，CPU)、至少一个图形处理器1210，并且可以另外包括图像处理器1215和/或视频处理器1220，它们中的任何一个可以是来自相同或多个不同设计设施的模块化的IP核心。集成电路1200包括外围或总线逻辑，包括USB控制器1225、UART控制器1230、SPI/SDIO控制器1235和I2S/I2C控制器1240。另外，集成电路可以包括显示设备1245，显示设备1245耦合至高清晰度多媒体接口(HDMI)控制器1250和移动工业处理器接口(MIPI)显示接口1255中的一个或多个。可以由包括闪存和闪存控制器的闪存子系统1260提供存储。可以经由存储器控制器1265提供存储器接口以用于访问SDRAM或SRAM存储器设备。一些集成电路还包括嵌入式安全引擎1270。

图13-14是示出根据本文描述的实施例的在SoC内使用的示例性图形处理器的框图。图13示出了根据实施例的可以使用一个或多个IP核心来制造的片上系统集成电路的示例性图形处理器1310。图14示出了根据实施例的可以使用一个或多个IP核心来制造的片上系统集成电路的附加的示例性图形处理器1340。图13的图形处理器1310是低功率图形处理器核心的示例。图14的图形处理器1340是更高性能的图形处理器核心的示例。图形处理器1310、1340中的每一个可以是图12的图形处理器1210的变体。

如图13所示，图形处理器1310包括顶点处理器1305和一个或多个片段处理器1315A-1315N(例如，1315A、1315B、1315C、1315D至1315N-1和1315N)。图形处理器1310可以经由单独的逻辑来执行不同的着色器程序，使得顶点处理器1305被优化为执行顶点着色器程序的操作，而一个或多个片段处理器1315A-1315N执行用于片段或像素着色器程序的片段(例如，像素)着色操作。顶点处理器1305执行3D图形流水线的顶点处理阶段，并生成图元和顶点数据。片段处理器1315A-1315N使用由顶点处理器1305生成的图元和顶点数据来产生在显示设备上显示的帧缓冲器。在一个实施例中，片段处理器1315A-1315N被优化以执行如在OpenGL API中所提供的片段着色器程序，其可以被用来执行与在Direct 3D API中所提供的像素着色器程序类似的操作。

图形处理器1310另外包括一个或多个存储器管理单元(MMU)1320A-1320B、高速缓存1325A-1325B和电路互连1330A-1330B。一个或多个MMU 1320A-1320B为图形处理器1310提供虚拟到物理地址的映射，包括顶点处理器1305和/或片段处理器1315A-1315N的虚拟地址到物理地址的映射，除了存储在一个或多个高速缓存1325A-1325B中的顶点或图像/纹理数据之外，它们还可以引用存储在存储器中的顶点或图像/纹理数据。在一个实施例中，一个或多个MMU 1320A-1320B可以与系统内的其他MMU同步，包括与图12的一个或多个应用处理器1205、图像处理器1215和/或视频处理器1220相关联的一个或多个MMU，使得每个处理器1205-1220可以参与共享或统一的虚拟存储器系统。根据实施例，一个或多个电路互连1330A-1330B使得图形处理器1310能够经由SoC的内部总线或经由直接连接而与SoC内的其他IP核心接合。

如图14所示，图形处理器1340包括图13的图形处理器1310的一个或多个MMU1320A-1320B、高速缓存1325A-1325B和电路互连1330A-1330B。图形处理器1340包括一个或多个着色器核心1355A-1355N(例如，1355A、1355B、1355C、1355D、1355E、1355F、至1355N-1和1355N)，其提供了统一的着色器核心架构，其中，单个核心或单个类型的核心可以执行所有类型的可编程着色器代码，包括用于实现顶点着色器、片段着色器和/或计算着色器的着色器程序代码。存在的着色器核心的确切数量可以因实施例和实施方式而异。另外，图形处理器1340包括：核心间任务管理器1345，其充当线程分派器以将执行线程分派给一个或多个着色器核心1355A-1355N，以及平铺单元(tiling unit)1358以加速用于基于分片的渲染的平铺操作，其中，在图像空间中细分场景的渲染操作，例如，以利用场景内的局部空间一致性或优化内部高速缓存的使用。

如上所述，为了将顶点分量量化为NV位有符号空间，需要从该轴的全局指数中减去每个顶点分量的指数。然后，通过该差将分量值下移。当然，这可能会放弃分量下部的一些精度。为了捕获此损失，通过在此移位之后将最小值向下取整并将最大值向上取整来产生AABB。为了保持简单性，即使在量化过程中没有错误，也将顶点量化为单位AABB。

光线追踪架构

在一个实施方式中，图形处理器包括用于执行实时光线追踪的电路和/或程序代码。在一些实施例中，图形处理器中包括一组专用的光线追踪核心，以执行本文所述的各种光线追踪操作，包括光线遍历和/或光线相交操作。除了光线追踪核心之外，一个实施例还包括用于执行可编程着色操作的多组图形处理核心和用于对张量数据执行矩阵运算的多组张量核心。

图15示出了一个这样的图形处理单元(GPU)1505的示例性部分，该GPU 1505包括布置成多核组1500A-N的图形处理资源的专用集合。尽管仅提供了单个多核组1500A的细节，但是应当意识到，其他多核组1500B-N可以配备有相同或相似的图形处理资源集合。

如图所示，多核组1500A可以包括一组图形核心1530、一组张量核心1540和一组光线追踪核心1550。调度器/分派器1510调度并分派图形线程以在各种核心1530、1540、1550上执行。一组寄存器文件1520存储了在执行图形线程时由核心1530、1540、1550使用的操作数值。这些可以包括例如用于存储整数值的整数寄存器、用于存储浮点值的浮点寄存器、用于存储打包数据元素(整数和/或浮点数据元素)的向量寄存器以及用于存储张量/矩阵值的分片寄存器。在一个实施例中，分片寄存器被实现为向量寄存器的组合集合。

一个或多个级别1(L1)高速缓存和纹理单元1560在每个多核组1500A内本地地存储图形数据，例如纹理数据、顶点数据、像素数据、光线数据、边界体积数据等。由多核组1500A-N的全部或子集共享的级别2(L2)高速缓存1580存储多个并发图形线程的指令和/或图形数据。如图所示，L2高速缓存1580可以跨多个多核组1500A-N共享。一个或多个存储器控制器1570将GPU 1505耦合到存储器1598，该存储器1598可以是系统存储器(例如，DRAM)和/或专用图形存储器(例如，GDDR6存储器)。

输入/输出(IO)电路1595将GPU 1505耦合到一个或多个IO设备1595，例如数字信号处理器(DSP)、网络控制器或用户输入设备。片上互连可以用于将I/O设备1590耦合到GPU1505和存储器1598。IO电路1595的一个或多个IO存储器管理单元(IOMMU)1570将IO设备1590直接耦合到系统存储器1598。在一个实施例中，IOMMU 1570管理用于将虚拟地址映射到系统存储器1598中的物理地址的多组页表。在该实施例中，IO设备1590、CPU 1599和GPU1505可以共享相同的虚拟地址空间。

在一个实施方式中，IOMMU 1570支持虚拟化。在这种情况下，它可以管理用于将访客/图形虚拟地址映射到访客/图形物理地址的第一组页表，以及管理用于将访客/图形物理地址映射到系统/主机物理地址(例如，在系统存储器1598内)的第二组页表。可以将第一和第二组页表的每一个的基地址存储在控制寄存器中，并在上下文切换时被交换出来(例如，使得向新的上下文提供对相关组的页表的访问)。尽管在图15中未示出，但核心1530、1540、1550和/或多核组1500A-N中的每一个可以包括转换后备缓冲器(TLB)，以缓存访客虚拟到访客物理转换、访客物理到主机物理转换和访客虚拟到主机物理转换。

在一个实施例中，CPU 1599、GPU 1505和IO设备1590被集成在单个半导体芯片和/或芯片封装上。所示的存储器1598可以集成在相同芯片上，或者可以经由片外接口耦合到存储器控制器1570。在一个实施方式中，存储器1598包括GDDR6存储器，该GDDR6存储器共享与其他物理系统级存储器相同的虚拟地址空间，但本发明的基本原理不限于该特定实施方式。

在一个实施例中，张量核心1540包括多个执行单元，这些执行单元被专门设计为执行矩阵运算，矩阵运算是用于执行深度学习运算的基本计算运算。例如，同时矩阵乘法运算可以用于神经网络训练和推理。张量核心1540可以使用各种操作数精度来执行矩阵处理，包括单精度浮点数(例如32位)、半精度浮点数(例如，16位)、整数字(16位)、字节(8位)和半字节(4位)。在一个实施例中，神经网络实施方式提取每个渲染的场景的特征，以潜在地组合来自多个帧的细节，以构造高质量的最终图像。

在深度学习实施方式中，可以调度并行矩阵乘法工作以在张量核心1540上执行。神经网络的训练尤其需要大量的矩阵点积运算。为了处理N×N×N矩阵乘法的内积公式，张量核心1540可以包括至少N个点积处理元件。在矩阵乘法开始之前，将一个完整的矩阵加载到分片寄存器中，并在N个周期内的每个周期中将至少一列第二矩阵加载。每个周期有N个点积被处理。

取决于特定实施方式，可以以不同的精度存储矩阵元素，包括16位字、8位字节(例如，INT8)和4位半字节(例如，INT4)。可以为张量核心1540指定不同的精度模式，以确保将最有效的精度用于不同的工作负载(例如，可以将量化容忍到字节和半字节的推理工作负载)。

在一个实施例中，对实时光线追踪和非实时光线追踪实施方式二者，光线追踪核心1550加速了光线追踪操作。特别地，光线追踪核心1550包括光线遍历/相交电路，以用于使用边界体积层次结构(BVH)来执行光线遍历并且识别光线与被包围在BVH体积内的图元之间的相交。光线追踪核心1550还可以包括用于执行深度测试和剔除(例如，使用Z缓冲器或类似布置)的电路。在一个实施方式中，光线追踪核心1550与本文所述的图像去噪技术一起执行遍历和相交操作，该去噪技术的至少一部分可以在张量核心1540上执行。例如，在一个实施例中，张量核心1540实现深度学习神经网络，以对由光线追踪核心1550生成的帧执行去噪。然而，CPU 1599、图形核心1530和/或光线追踪核心1550也可以实现去噪和/或深度学习算法的全部或部分。

另外，如上所述，可以采用分布式去噪方法，其中，GPU 1505在通过网络或高速互连耦合到其他计算设备的计算设备中。在该实施例中，互连的计算设备共享神经网络学习/训练数据，以提高整个系统学习针对不同类型的图像帧和/或不同图形应用执行去噪的速度。

在一个实施例中，光线追踪核心1550处理所有BVH遍历和光线图元相交，从而使图形核心1530避免因每条光线数千条指令而过载。在一个实施例中，每个光线追踪核心1550包括用于执行边界框测试(例如，用于遍历操作)的第一组专用电路和用于执行光线-三角形相交测试(例如，已被遍历的相交光线)的第二组专用电路。因此，在一个实施例中，多核组1500A可以简单地发射光线探测器，并且光线追踪核心1550独立地执行光线遍历和相交并且将命中数据(例如，命中、无命中、多次命中等)返回到线程上下文。在光线追踪核心1550执行遍历和相交操作的同时，其他核心1530、1540被释放以执行其他图形或计算工作。

在一个实施例中，每个光线追踪核心1550包括用于执行BVH测试操作的遍历单元和执行光线图元相交测试的相交单元。相交单元生成“命中”、“无命中”或“多次命中”响应，并将其提供给适当的线程。在遍历和相交操作期间，释放其他核心(例如，图形核心1530和张量核心1540)的执行资源以执行其他形式的图形工作。

在下面描述的一个特定实施例中，使用混合光栅化/光线追踪方法，其中，工作在图形核心1530与光线追踪核心1550之间分布。

在一个实施例中，光线追踪核心1550(和/或其他核心1530、1540)包括对光线追踪指令集的硬件支持，例如微软的DirectX光线追踪(DXR)，其包括DispatchRays命令以及光线生成、最接近命中、任何命中和未命中着色器，其实现为每个对象分配独特的着色器和纹理集合。可以由光线追踪核心1550、图形核心1530和张量核心1540支持的另一个光线追踪平台是Vulkan 1.1.85。然而，注意到，本发明的基本原理不限于任何特定的光线追踪ISA。

通常，各种核心1550、1540、1530可以支持光线追踪指令集，该光线追踪指令集包括用于光线生成、最接近命中、任何命中、光线图元相交、每图元和层次边界框构造、未命中、访问和例外的指令/功能。更具体地，一个实施例包括用于执行以下功能的光线追踪指令：

最接近命中–可以执行最接近命中指令以定位光线与场景内图元的最接近的相交。

相交–相交指令执行光线图元相交测试并输出结果。

每图元边界框构造–该指令围绕给定的图元或图元组构建边界框(例如，在构建新的BVH或其他加速度数据结构时)。

访问–指示光线将穿过的子体积。

分布式光线追踪系统中的有损和无损的分组压缩

在一个实施例中，光线追踪操作跨通过网络耦合在一起的多个计算节点分布。例如，图16示出了包括多个光线追踪节点1610-1613的光线追踪集群1600并行地执行光线追踪操作，从而潜在地在节点之一上组合结果。在所示的架构中，光线追踪节点1610-1613经由网关通信地耦合到客户端侧光线追踪应用1630。

分布式架构的困难之一是必须在光线追踪节点1610-1613中的每一个之间传输的大量分组化数据。在一个实施例中，无损压缩技术和有损压缩技术二者都用于减少在光线追踪节点1610-1613之间传输的数据。

为了实现无损压缩，不是发送填充有某些类型的操作的结果的分组，而是发送允许接收节点重构结果的数据或命令。例如，随机采样的区域光和环境光遮挡(AO)操作不一定需要方向。因此，在一个实施例中，发送节点将简单地发送随机种子，然后接收节点将其用于执行随机采样。例如，如果场景跨节点1610-1612分布，以在点p1-p3处采样光1，则仅需要将光ID和原点发送到节点1610-1612。然后，每个节点可以独立地随机采样光。在一个实施例中，随机种子是由接收节点生成的。类似地，对于主要光线命中点，可以在节点1610-1612上计算环境光遮挡(AO)和软阴影采样，而不等待连续帧的原始点。另外，如果已知一组光线将去往相同的点光源，则可以向接收节点发送标识该光源的指令，以将其应用于该组光线。作为另一示例，如果有透过单个点的N个环境遮挡光线，则可以发送命令以根据该点生成N个样本。

各种附加技术可以应用于有损压缩。例如，在一个实施例中，可以采用量化因子来量化与BVH、图元和光线相关联的所有坐标值。此外，用于数据(例如，BVH节点和图元)的32位浮点值可以转换为8位整数值。在一个特定的实施方式中，光线分组的边界以全精度存储，但是个体光线点P1-P3作为到该边界的索引偏移被发送。类似地，可以生成使用8位整数值作为局部坐标的多个局部坐标系。这些局部坐标系中的每一个的原点的位置可以使用全精度(例如，32位浮点)值来编码，从而有效地连接全局坐标系和局部坐标系。

以下是在本发明的一个实施例中采用的无损压缩的示例。光线追踪程序中内部使用的光线数据格式的示例如下：

代替针对所生成的每个节点发送原始数据，可以通过对值进行分组并在可能的情况下使用适用的元数据创建隐式光线来压缩该数据。

捆绑和分组光线数据

一个实施例将标志用于公共数据或具有修饰符的掩码。

例如：

RayPacket.rays＝ray_1 to ray_256

原点都是共享的

除了跨所有光线仅存储单个原点之外，所有光线数据都被打包。为RAYPACKET_COMMON_ORIGIN设置了RayPacket.flags。在接收时将RayPacket解包时，将根据单个原点值填充原点。

原点仅在一些光线之间共享

除了共享原点的光线之外，所有光线数据均被打包。对于每组独特的共享原点，操作符被打包，该操作符标识操作(共享的原点)、存储原点以及屏蔽哪些光线共享信息。可以对节点之间的任何共享值(例如，材料ID、图元ID、原点、方向、法线等)完成这样的操作。

发送隐式光线

通常，可以在接收端上导出光线数据，而使用最少的元信息来生成它。非常常见的示例是生成多个次级光线以对区域进行随机采样。代替发送方生成次级光线、发送它并且接收方对其进行操作，发送方可以发送命令：需要用任何依赖信息来生成光线，并在接收端上生成光线。在需要首先由发送方生成光线以确定将其发送到哪个接收方的情况下，光线被生成，并随机种子可以被发送以重新生成完全相同的光线。

例如，为了用64条阴影光线对区域光源进行采样来对命中点进行采样，所有64条光线与来自相同计算N4的区域相交。创建具有共同原点和法线的RayPacket。如果希望接收方对所得到的像素贡献进行着色，则可以发送更多的数据，但是对于本示例，让我们假设我们仅希望返回光线是否命中另一节点数据。创建RayOperation来生成阴影光线操作，并为其指派要被采样的lightID值和随机数种子。当N4接收到光线分组时，它通过以下方式来生成完全填充的光线数据：将共享的原点数据填充到所有光线并基于用随机数种子随机采样的lightID设置方向，以生成与原始发送方生成的相同光线。当返回结果时，仅需要返回每条光线的二进制结果，可以通过掩码将其移交给光线。

在该示例中，发送原始的64条光线将使用104字节*64条光线＝6656字节。如果返回的光线也以其原始格式发送，则这也将被加倍到13312字节。使用无损压缩(其中，仅发送公共光线原点、法线和光线生成操作以及种子和ID)，仅发送29字节，其中，针对相交的掩码返回8字节。这得到需要通过～360：1的网络发送数据压缩率。这不包括用于处理消息本身的开销，该开销需要以某种方式进行标识，但这取决于实施方式。可以执行其他操作，以根据主要光线的pixelID重新计算光线原点和方向，基于raypacket中的范围重新计算pixelID，以及许多其他可能的值重新计算的实施方式。类似的操作可以用于被发送的任何单个或一组光线，包括阴影、反射、折射、环境光遮挡、相交、体积相交、着色、路径追踪中的弹回反射等。

图17示出了两个光线追踪节点1710-1711的附加细节，它们执行光线追踪分组的压缩和解压缩。特别地，在一个实施例中，当第一光线追踪引擎1730准备好将数据传发送到第二光线追踪引擎1731时，光线压缩电路1720如本文所述执行对光线追踪数据的有损和/或无损压缩(例如，将32位值转换为8位值，将原始数据替换为用于重构数据的指令等)。压缩光线分组1701通过局域网(例如，10Gb/s、100Gb/s以太网)从网络接口1725发送到网络接口1726。光线解压缩电路然后在适当时解压缩光线分组。例如，它可以执行命令以重构光线追踪数据(例如，使用随机种子来执行用于照明操作的随机采样)。然后，光线追踪引擎1731使用接收到的数据来执行光线追踪操作。

在相反的方向上，光线压缩电路1741压缩光线数据，网络接口1726通过网络发送压缩的光线数据(例如，使用本文描述的技术)，光线解压缩电路1740在必要时对光线数据进行解压缩，并且光线追踪引擎1730在光线追踪操作中使用该数据。尽管在图17中被示出为单独的单元，但是光线解压缩电路1740-1741可以分别集成在光线追踪引擎1730-1731内。例如，就压缩光线数据包括用于重构光线数据的命令而言，这些命令可以由每个相应的光线追踪引擎1730-1731执行。

如图18所示，光线压缩电路1720可以包括用于执行本文所述的有损压缩技术(例如，将32位浮点坐标转换为8位整数坐标)的有损压缩电路1801以及用于执行无损压缩技术(例如，发送命令和数据以允许光线重新压缩电路1821重构数据)的无损压缩电路1803。光线解压缩电路1721包括有损解压缩电路1802和用于执行无损解压缩的无损解压缩电路1804。

以下示出了根据一个实施例的方法。该方法可以在本文所述的光线追踪架构上实现，但是不限于任何特定架构。

接收光线数据，该光线数据将从第一光线追踪节点发送到第二光线追踪节点。有损压缩电路对第一光线追踪数据执行有损压缩，并且无损压缩电路对第二光线追踪数据执行无损压缩。将压缩的光线追踪数据发送到第二光线追踪节点。有损/无损解压缩电路执行对光线追踪数据的有损/无损解压缩，并且第二光线追踪节点使用解压缩的数据执行光线追踪操作。

具有硬件加速的混合光线追踪的图形处理器

本发明的一个实施例包括混合渲染流水线，其在图形核心1530上执行光栅化，并在光线追踪核心1550、图形核心1530和/或CPU 1599核心上执行光线追踪操作。例如，代替主要光线投射阶段，可以在图形核心1530上执行光栅化和深度测试。光线追踪核心1550然后可以生成用于光线反射、折射和阴影的次级光线。另外，某些实施例可以选择场景的某些区域，在这些区域中光线追踪核心1550将执行光线追踪操作(例如，基于诸如高反射率水平之类的材料特性阈值)，而场景的其他区域将在图形核心1530上用光栅化进行渲染。在一个实施例中，该混合实施方式用于实时光线追踪应用——其中，延时是关键问题。

下面描述的光线遍历架构的一个实施例使用现有的单指令多数据(SIMD)和/或单指令多线程(SIMT)图形处理器执行可编程着色和光线遍历的控制，同时使用专用硬件加速诸如BVH遍历和/或相交之类的关键功能。在该实施例中，通过在遍历期间和着色之前的特定点处重新分组产生的着色器，可以改善非一致性路径的SIMD占用率。这是通过使用专用硬件在芯片上动态分类着色器来实现的。通过将函数拆分为连续部分来管理递归，其在执行以改善SIMD占用率之前对返回并重新分组的连续部分执行。

通过将遍历功能分解为可以实现为固定功能硬件的内部遍历和在GPU处理器上执行并通过用户定义的遍历着色器实现可编程控制的外部遍历，来实现对光线遍历/相交的可编程控制。通过在内部遍历和外部遍历之间的过渡期间保守地截断内部遍历状态，可以降低在硬件和软件之间传送遍历上下文的成本。

可以通过下表A中列出的不同着色器类型来表达光线追踪的可编程控制。每种类型可以有多个着色器。例如，每种材料可以具有不同的命中着色器。

着色器类型	功能
		主要	发射主要光线
命中	双向反射分布函数(BRDF)采样，发射次级光线
		任何命中	计算阿尔法纹理化几何结构的透射率
未命中	计算来自光源的辐射
		相交	与自定义形状相交
遍历	实例选择和变换
		可调用的	通用功能

表A

在一个实施例中，递归光线追踪是由API函数发起的，该API函数命令图形处理器发起一组主要着色器或相交电路，该一组主要着色器或相交电路可以产生用于主要光线的光线与场景相交。这转而产生其他着色器，例如遍历、命中着色器或未命中着色器。产生子着色器的着色器也可以从该子着色器接收返回值。可调用着色器是通用功能，其可以直接由另一个着色器产生，并且也可以将值返回给调用着色器。

图19示出了图形处理架构的实施例，其包括着色器执行电路1900和固定功能电路1910。通用执行硬件子系统包括多个单指令多数据(SIMD)和/或单指令多线程(SIMT)核心/执行单元(EU)1901(即，每个核心可以包括多个执行单元)、一个或多个采样器1902以及一级(L1)高速缓存1903或其他形式的本地存储器。固定功能硬件子系统1910包括消息单元1904、调度器1907、光线-BVH遍历/相交电路1905、分类电路1908和本地L1高速缓存1906。

在操作中，主分派器1909向调度器1907分派一组主要光线，该调度器1907将工作调度到在SIMD/SIMT核心/EU 1901上执行的着色器。SIMD核心/EU 1901可以是上述的光线追踪核心1550和/或图形核心1530。主着色器的执行产生了要执行的附加工作(例如，将由一个或多个子着色器和/或固定功能硬件执行)。消息单元1904将由SIMD核心/EU 1901产生的工作分发给调度器1907，根据需要访问空闲堆栈池、分类电路1908或光线-BVH相交电路1905。如果附加工作被发送到调度器1907，则其被调度用于在SIMD/SIMT核心/EU 1901上进行处理。在调度之前，分类电路1908可以如本文所述将光线分类成组或箱(bin)(例如，将具有相似特性的光线分组)。光线-BVH相交电路1905使用BVH体积执行光线的相交测试。例如，光线-BVH相交电路1905可以将光线坐标与BVH的每个水平进行比较以识别被光线相交的体积。

可以使用着色器记录、用户分配的结构(包括指向入口函数的指针、特定于供应商的元数据、以及由SIMD核心/EU 1901执行的着色器的全局参数)来引用着色器。着色器的每个执行实例与调用堆栈关联，该调用堆栈可以用于存储在父着色器和子着色器之间传递的参数。调用堆栈还可以存储对调用返回时执行的连续函数的引用。

图20示出了示例的一组指派的堆栈2001，其包括主着色器堆栈、命中着色器堆栈、遍历着色器堆栈、连续函数堆栈和光线-BVH相交堆栈(如所描述的，其可以由固定功能硬件1910执行)。新的着色器调用可以实现来自空闲堆栈池2002的新堆栈。可以将调用堆栈缓存在本地L1缓存1903、1906中，以减少访问延时。

在一个实施例中，存在有限数量的调用堆栈，每个调用堆栈在存储器的连续区域中被分配有固定的最大大小“Sstack”。因此，可以根据堆栈索引(SID)将堆栈的基地址直接计算为基地址＝SID*Sstack。在一个实施例中，当将工作调度到SIMD核心/EU 1901时，由调度器1907分配和解除分配堆栈ID。

在一个实施例中，主分派器1909包括图形处理器命令处理器，该图形处理器命令处理器响应于来自主机(例如，CPU)的分派命令而分派主着色器。如果调度器1907可以为每个SIMD通道分配堆栈ID，则它接收这些分派请求并在SIMD处理器线程上启动主着色器。堆栈ID是从在分派命令开始时初始化的空闲堆栈池2002分配的。

执行着色器可以通过将产生的消息发送给消息传递单元1904来产生子着色器。该命令包括与该着色器相关联的堆栈ID，并且还包括指向每个活动SIMD通道的子着色器记录的指针。父着色器只能针对活动通道发出此消息一次。在一个实施例中，在发送了所有相关通道的产生消息之后，父着色器终止。

在SIMD核心/EU 1901上执行的着色器还可以使用产生消息以及针对固定功能硬件保留的着色器记录指针来产生诸如光线-BVH相交之类的固定功能任务。如所提到的，消息传递单元1904将产生的光线-BVH相交工作发送到固定功能光线-BVH相交电路1905，并且将可调用着色器直接发送到分类电路1908。在一个实施例中，分类电路通过着色器记录指针将着色器分组以得到具有相似特性的SIMD批次。因此，来自不同父着色器的堆栈ID可以由分类电路1908分组在相同批次中。分类电路1908将分组的批次发送到调度器1907，该调度器1907访问来自图形存储器2511或最后一级高速缓存(LLC)1920的着色器记录，并在处理器线程上启动着色器。

在一个实施例中，连续被视为可调用着色器，并且也可以通过着色器记录来引用。当产生子着色器并将值返回给父着色器时，将指向连续着色器记录的指针推入调用堆栈2001上。当子着色器返回时，将从调用堆栈2001中弹出连续着色器记录，并产生连续着色器。产生的连续通过类似于可调用着色器的分类单元，并在处理器线程上启动。

如图21所示，分类电路1908的一个实施例通过着色器记录指针2101A、2101B、2101n对产生的任务进行分组，以创建用于着色的SIMD批次。可以从不同的分派和不同的输入SIMD通道对已分类批次中的堆栈ID或上下文ID进行分组。在一个实施例中，分组电路2110使用包括多个条目的内容可寻址存储器(CAM)结构2101来执行分类，其中每个条目都用标签2101标识。如所提及的，在一个实施例中，标签2101是对应的着色器记录指针2101A、2101B、2101n。在一个实施例中，CAM结构2101存储了有限数量的标签(例如，32个、64个、128个等)，每个标签与对应于着色器记录指针的不完整SIMD批次相关联。

对于传入的产生命令，每个SIMD通道具有对应的堆栈ID(在每个CAM条目中被示出为16个上下文ID 0-15)和着色器记录指针2101A-B、…n(用作标签值)。在一个实施例中，分组电路2110将每个通道的着色器记录指针与CAM结构2101中的标签2101进行比较，以找到匹配的批次。如果找到匹配的批次，则将堆栈ID/上下文ID添加到该批次。否则，创建具有新的着色器记录指针标签的新条目，从而可能逐出具有不完整批次的旧条目。

当调用堆栈为空时，执行着色器可以通过将解除分配消息发送到消息单元来解除分配调用堆栈。解除分配消息将被中继到调度器，该调度器将活动SIMD通道的堆栈ID/上下文ID返回到空闲池。

本发明的一个实施例使用固定功能光线遍历和软件光线遍历的组合来实现用于光线遍历操作的混合方法。因此，它在维持固定功能遍历效率的同时，提供了软件遍历的灵活性。图22示出了可以用于混合遍历的加速结构，其是具有单个顶级BVH 2200和若干底级BVH 2201和2202的两级树。在右侧示出了图形元素以指示内部遍历路径2203、外部遍历路径2204、遍历节点2205、具有三角形的叶节点2206和具有自定义图元的叶节点2207。

顶级BVH 2200中具有三角形2206的叶节点可以引用三角形、自定义图元的相交着色器记录或遍历着色器记录。底级BVH 2201-2202的具有三角形2206的叶节点只能引用三角形和自定义图元的相交着色器记录。引用的类型在叶节点2206内进行编码。内部遍历2203是指在每个BVH2200-2202内的遍历。内部遍历操作包括光线-BVH相交的计算，并且跨BVH结构2200-2202的遍历称为外部遍历。内部遍历操作可以在固定功能的硬件中高效实现，而外部遍历操作可以利用可编程着色器以可接受的性能执行。因此，本发明的一个实施例使用固定功能电路1910执行内部遍历操作，并使用包括用于执行可编程着色器的SIMD核心/EU 1901的着色器执行电路1900执行外部遍历操作。

在一个实施例中，当光线在内部遍历期间与遍历节点相交时，遍历着色器被产生。分类电路1908通过着色器记录指针2101A-B、n将这些着色器分组，以创建SIMD批次，该SIMD批次由调度器1907启动以用于图形SIMD核心/EU 1901上的SIMD执行。遍历着色器可以以若干种方式修改遍历，从而实现广泛的应用。例如，遍历着色器可以选择较粗糙的细节级别(LOD)的BVH或对光线进行变换以实现刚体变换。然后，遍历着色器为选定的BVH产生内部遍历。

内部遍历通过遍历BVH并计算光线-框(ray-box)和光线-三角形相交来计算光线-BVH相交。通过向消息传递电路1904发送消息来将内部遍历以与着色器相同的方式产生，该消息传递电路1904将对应的产生消息中继到计算光线-BVH相交的光线-BVH相交电路1905。

在一个实施例中，用于内部遍历的堆栈被本地地存储在固定功能电路1910中(例如，在L1高速缓存1906内)。当光线与对应于遍历着色器或相交着色器的叶节点相交时，内部遍历被终止并且内部堆栈被截断。截断的堆栈连同指向光线和BVH的指针在由调用着色器指定的位置处写入存储器，并且然后产生对应的遍历着色器或相交着色器。如果光线在内部遍历期间与任何三角形相交，则将对应的命中信息作为这些着色器的输入参数提供，如以下代码所示。这些产生的着色器由分类电路1908分组以创建SIMD批次以供执行。

截断内部遍历堆栈减少了将其溢出到存储器的成本。本发明的一个实施例使用“针对无堆栈BVH遍历的重启轨迹，高性能图形(2010)，第107-111页(Restart Trail forStackless BVH Traversal,High Performance Graphics (2010),pp.107–111)”中描述的方法，以将堆栈截断为堆栈顶部的少量条目，即42位重启轨迹和6位深度值。重启轨迹指示已在BVH内部进行的分支，而深度值指示与最后一个堆栈条目相对应的遍历深度。这是足以在稍后的时间恢复内部遍历的信息。

当内部堆栈为空并且没有更多要测试的BVH节点时，内部遍历完成。在这种情况下，产生外部堆栈处理程序，该外部堆栈处理程序弹出外部堆栈的顶部并且恢复遍历(如果外部堆栈不为空的话)。

在一个实施例中，外部遍历执行主遍历状态机，并在由着色器执行电路1900执行的程序代码中实现。它在以下条件下产生内部遍历查询：(1)当新光线由命中着色器或主着色器产生时；(2)当遍历着色器针对遍历选择BVH时；以及(3)当外部堆栈处理程序针对BVH恢复内部遍历时。

如图23所示，在产生内部遍历之前，在调用堆栈2305上为固定功能电路1910分配了空间，以存储截断的内部堆栈2310。到调用堆栈的顶部的偏移2303-2304和内部堆栈被维持在遍历状态2300中，该遍历状态2300也存储在存储器2511中。遍历状态2300还包括世界空间2301和对象空间2302中的光线以及最接近的相交图元的命中信息。

遍历着色器、相交着色器和外部堆栈处理程序都由光线-BVH相交电路1905产生。遍历着色器在针对第二级BVH启动新的内部遍历之前在调用堆栈2305上分配。外部堆栈处理程序是这样的着色器：其负责更新命中信息并恢复任何挂起的内部遍历任务。在遍历完成时，外部堆栈处理程序还负责产生命中或未命中着色器。在没有任何挂起的内部遍历查询要产生时，遍历完成。在遍历完成并找到相交时，产生命中着色器；否则，产生未命中着色器。

虽然上述的混合遍历方案使用两级BVH层次结构，但是本文所述的本发明的实施例可以使用任意数量的BVH级别，并在外部遍历实施方式中具有对应的更改。

另外，尽管在以上实施例中描述了用于执行光线-BVH相交的固定功能电路1910，但是其他系统组件也可以在固定功能电路中被实现。例如，上述外部堆栈处理程序可以是内部(用户不可见)着色器，其可以在固定功能BVH遍历/相交电路1905中实现。该实施方式可以用于减少分派的着色器阶段的数量和在固定功能相交硬件1905和处理器之间的往返。

这里描述的本发明的实施例使用用户定义的功能实现可编程的着色和光线遍历控制，这些用户定义的功能可以在现有和未来的GPU处理器上以更高的SIMD效率执行。光线遍历的可编程控制实现了若干重要特征，例如流程实例化、随机细节级别选择、自定义图元相交和惰性BVH更新(lazy BVH update)。

用于基于量化会聚方向的光线分类的装置和方法

在具有SIMD架构的硬件光线追踪中，基本问题之一是保持所有SIMD通道得到有效利用。例如，每个通道可以同时对单独的光线进行操作，并且光线可以彼此完全独立。为了一起被分派，光线需要共享公共属性，例如着色器程序代码和纹理资源。

另外，期望光线共享共同的方向并且在相同的总体区域中与相同的对象相交。因为这些光线最有可能使用紧密间隔在一起的纹理数据，因此可以改善高速缓存利用率。

本发明的实施例提供了功率高效的硬件解决方案，以基于相交对象的BVH边界框从相交对象的视角快速确定光线的近似入射方向。然后可以将该近似用于按入射方向对已分派的光线进行分组。

特别地，一个实施例基于估计的入射方向和着色器记录ID二者、用户分配的结构(包括指向入口函数的指针、特定于供应商的元数据、以及由SIMD核心/EU执行的着色器的全局参数)对光线进行分组。例如，该实施例将会聚在相同交点上的光线分组。为此，用目标对象的边界框确定粗略相交坐标，并将其附加到着色器记录ID上以创建复合分类键。在相同位置大致与边界框相交的光线具有改善的机会被并置在对象的纹理空间中。

此外，所得到的诸如反射光线、阴影光线等的次级光线具有改善的机会也共享相同的大致方向。因此，可以在次级光线分派期间使用相同的技术将它们分组在一起。也可以对与相同对象的不同实例相交的光线进行分组。

在图24所示的一个实施例中，在一个或多个执行单元(EU)上执行的主要光线生成着色器2405生成主要光线集合。光线遍历电路/逻辑2420遍历通过构造的边界体积层次结构(BVH)的光线，以识别光线所穿过的体积。相交电路2430执行相交测试以识别体积内与光线相交的对象。

相交电路2430的一个实施例包括光线方向评估电路/逻辑2435，以使用以下描述的技术来处理每条光线的估计的入射方向2436。在一个实施例中，光线方向评估器2435基于估计的光线方向2436来生成光线方向分类键2438。

光线分类电路/逻辑2440基于估计的光线方向2436和/或光线方向分类键2438组合着色器记录ID 2437对光线分类。在一个实施例中，将光线分类到多个分类FIFO队列2400-2403内的组中。光线分派器2430然后将光线组从分类FIFO 2400-2403分派给EU2415，以进行进一步的处理、遍历和相交操作。

如所提及的，光线方向评估器2435的一个实施例根据高效的光线/边界框测试来确定近似光线方向2436。然后，它基于近似光线方向构造方向分类键2438，该方向分类键2438使用少量位来对光线方向进行编码。分类电路/逻辑2440将方向分类键与着色器记录ID分类键(例如，着色器记录ID和附加的可配置字段的串联)组合使用，以将光线业务分组在不同的分类FIFO 2400-2403中。

在一个实施例中，光线方向评估器2435使用基于BVH叶节点的边界框的对象周围的边界框来生成量化的光线方向。因为此BVH数据已经存在，所以获取BVH叶节点不需要任何附加的努力。另外，作为正常光线追踪操作的一部分，执行了光线/叶节点框测试。光线方向评估器2435的一个实施例增强了光线/框相交测试以提取相交的面，以及与该面的低分辨率相交坐标。

在一个实施例中，不需要独特地识别分类键中的相交节点。这可以将与相同对象的不同实例相交的光线进行分组。在着色器记录ID上具有匹配防止对与无关对象相交的完全无关的光线进行分组。这对于包括许多重复结构的场景特别有利。

图25示出了与光线2501-2505相交的示例体积，其具有六个壁A1-A2、B1-B2和C1-C2。在一个实施例中，在检查边界框相交的同时，光线方向评估器2435检测六个壁A1-A2、B1-B2和C1-C2中的哪一个被相交。在一个实施例中，光线方向评估器2435为体积的相对侧指派相同的编码，这是因为光线通常从场景的大致一侧与对象相交。这样，只有三种独特的侧面编码：A、B和C，它们可以以2位数字进行编码。光线几乎不可能从对象的完全相对的侧发出。如果发生这种情况，则光线方向评估器2435可以优雅地还原为使用着色器记录ID2437进行分组。

在一个实施例中，生成二维光线相交坐标以识别被相交的壁上的相交点。然后，这些坐标的精度被降低，使得它们可以适于指定大小的分类键内。作为示例而非限制，可以以降低精度的浮点格式或定点格式(例如，Int4、Int8、Bfloat16等)执行相交计算。在一个特定的实施方式中，使用3位精度来对2D坐标中的每一个进行编码。因此，可以将2位侧面编码以及U和V中每一个的3位值打包在分类键的8位字段内。

这种低坐标分辨率具有许多益处。首先，鉴于分类键的大小不经常增加，8位值是合理的折衷。光线仅按它们的交点粗略地分组，而不通过等待与已经等待的光线非常紧密地打包在一起的光线而使分派器2430闲置。创建本文所述的光线/边界框相交点所需的电路可以利用现有的遍历/相交电路和操作。本发明的实施例将不需要通常与精确浮点计算相关联的大量附加门。

将参考图25描述量化方向分类键的创建。应当将光线2501和2502一起分派，这是因为它们将在相似位置中与被包含在该边界框内的对象相交。光线2503和2504未被共置，这是因为它们与边界框的不同壁相交(即，如不同的侧面ID所指示的)。光线2505命中与2501和2502相同的墙，但在不同位置处。因此，光线2505将具有相同的侧面ID，但具有不同的U/V坐标。

图26示出了包括着色器记录键2601和相交键2602的分类键2600的一个实施例。该实施例的相交键包括上述的8位值——即，用于U和V坐标的6位(即，位39:34)和2位侧面ID(即，位33:32)。将最频繁改变的8位相交键2602的位(即，U[0]和V[0]值)编码在分类键2600的最高有效位位置中。这样，位按其熵分类。发生这种特定拌和的原因是，可以通过仅改变要匹配的分类键位数量容易地调整分类精度。在一个实施方式中，通过仅匹配对着色器记录ID进行编码的最低有效32位(即，位31：0)来实现最低精度(1)。通过匹配所有40位，可以达到最高精度(5)。

在一个实施例中，分类电路/逻辑2440使用可调节的分类键精度，并根据关于图27中的流程图描述的以下规则集填充分类FIFO 2403。

在2701处，当接收到新的光线以进行分类时，精度P被初始地设置为最高值(例如，在一个实施例中为40位)。如果在2702处确定找到匹配，则在2706处将光线提交到对应的分类FIFO。如果在2702处未找到匹配，并且在2703处确定分配了所有分类FIFO，则在2705处精度降低指定的增量。尝试在2702处找到精度较低的匹配，并且如果找到匹配，则在2706处将光线添加到分类FIFO。否则，在2705处精度可以继续降低，直到在2702处找到匹配。

如果在2702处确定无匹配之后分类FIFO在2703处可用，则在2704处以当前精度P(例如，最高精度)形成新的分类FIFO。如所提到的，新的分类FIFO可以具有与现有的分类FIFO相同的着色器记录键2601(但是具有不同的相交键)。当前光线将被添加到新的分类FIFO中，并且在2707处选择下一条光线。

因此，在该实施例中，当分配了所有分类FIFO 2400-2403并且没有精确的40位分类键匹配时，降低精度，直到找到匹配或直到精度已达到最小值(即，即32位着色器记录ID2601)为止。当一些分类FIFO可用并且没有精确的40位分类键匹配时，将为该不匹配的分类键形成新的分类FIFO。着色器记录ID因此可以跨多个FIFO被复制。在一个实施例中，在强行逐出部分占用的分类FIFO期间，只要着色器记录ID 2601匹配，就可以跨不同的分类FIFO组合光线。

这种方法改善了硬件光线追踪的存储效率，从而改善了性能并降低了功耗。据说光线追踪将在将来取代传统的光栅化技术。为了赢得高端图形市场细分，我们需要在性能上具有高度竞争力。

在实施例中，术语“引擎”或“模块”或“逻辑”可以指代以下各项、是以下各项的一部分、或包括以下各项：专用集成电路(ASIC)、电子电路、处理器(共享、专用的或组)和/或执行一个或多个软件或固件程序的存储器(共享、专用或组)、组合逻辑电路和/或提供所描述功能的其他合适组件。在实施例中，引擎、模块或逻辑可以以固件、硬件、软件或固件、硬件和软件的任何组合来实现。

示例

以下是本发明的不同实施例的示例实施方式。

示例1.一种装置，包括：光线发生器，其用于生成多条光线；光线方向评估电路/逻辑，其用于针对所述多条光线中的每条光线生成近似光线方向数据；以及光线分类电路/逻辑，其用于至少部分地基于所述近似光线方向数据来将所述光线分类到多个光线队列中。

示例2.根据示例1所述的装置，其中，所述近似光线方向数据包括与所述多条光线中的每条光线相关联的量化方向值。

示例3.根据示例2所述的装置，其中，每条光线的所述量化方向值包括：第一数据，其指示与所述光线相交的体积的侧面；以及第二数据，其包括所述光线与所述体积的所述侧面之间的相交的量化相交坐标。

示例4.根据示例2所述的装置，其中，所述光线分类电路/逻辑用于：基于与所述光线相关联的所述量化方向值和着色器记录键的组合，将所述多条光线中的一条或多条光线分组到所述多个光线队列中。

示例5.根据示例4所述的装置，其中，所述光线分类电路/逻辑用于：首先尝试使用所述量化光线方向值和所述着色器记录键二者来将光线与光线队列匹配，并且仅当未找到匹配时，才尝试仅使用所述着色器记录键来将所述光线与光线队列匹配。

示例6.根据示例5所述的装置，其中，当使用所述量化光线方向值和所述着色器记录键二者未找到匹配时，所述光线分类电路/逻辑用于尝试分配包含所述光线的新光线队列。

示例7.根据示例6所述的装置，其中，所述分类电路/逻辑用于：仅在确定无法分配所述新光线队列之后，才尝试仅使用所述着色器记录键来将所述光线与光线队列匹配。

示例8.根据示例1所述的装置，还包括：光线分派器，其用于按组分派所述多条光线，所述组是由其中存储了所述光线的所述光线队列定义的。

示例9.根据示例1所述的装置，还包括：光线遍历电路，其用于遍历穿过边界体积层次结构的所述多条光线中的一条或多条光线；以及光线相交电路，其用于确定所述多条光线中的一条或多条光线与场景中的一个或多个对象之间的相交。

示例10.一种方法，包括：生成多条光线；针对所述多条光线中的每条光线确定近似光线方向数据；以及至少部分地基于所述近似光线方向数据，将所述光线分类到多个光线队列中。

示例11.根据示例10所述的方法，其中，所述近似光线方向数据包括与所述多条光线中的每条光线相关联的量化方向值。

示例12.根据示例11所述的方法，其中，每条光线的所述量化方向值包括：第一数据，其指示与所述光线相交的体积的侧面；以及第二数据，其包括所述光线与所述体积的所述侧面之间的相交的量化相交坐标。

示例13.根据示例11所述的方法，其中，分类还包括：基于与所述光线相关联的所述量化方向值和着色器记录键的组合，将所述多条光线分组到所述多个光线队列中。

示例14.根据示例13所述的方法，还包括：初始尝试使用所述量化光线方向值和所述着色器记录键二者来将光线与光线队列匹配；以及仅当未找到匹配时，才尝试仅使用所述着色器记录键来将所述光线与光线队列匹配。

示例15.根据示例14所述的方法，还包括：当使用所述量化光线方向值和所述着色器记录键二者未找到匹配时，尝试分配包含所述光线的新光线队列。

示例16.根据示例15所述的方法，其中，仅在确定无法分配所述新光线队列之后，才执行尝试仅使用所述着色器记录键来将所述光线与光线队列匹配。

示例17.根据示例10所述的方法，还包括：按组分派所述多条光线，所述组是由其中存储了所述光线的所述光线队列定义的。

示例18.根据示例10所述的方法，还包括：遍历穿过边界体积层次结构的所述多条光线中的一条或多条光线；以及确定所述多条光线中的一条或多条光线与场景中一个或多个对象之间的相交。

示例19.一种其上存储有程序代码的机器可读介质，所述程序代码当由机器执行时，使得所述机器执行以下操作：生成多条光线；确定所述多条光线中的每条光线的近似光线方向数据；以及至少部分地基于所述近似光线方向数据来将所述光线分类到多个光线队列中。

示例20.根据示例19所述的机器可读介质，其中，所述近似光线方向数据包括与所述多条光线中的每条光线相关联的量化方向值。

示例21.根据示例20所述的机器可读介质，其中，每条光线的所述量化方向值包括：第一数据，其指示与所述光线相交的体积的侧面；以及第二数据，其包括所述光线与所述体积的所述侧面之间的相交的量化相交坐标。

示例22.根据示例20所述的机器可读介质，其中，分类还包括：基于与所述光线相关联的所述量化方向值和着色器记录键的组合，将所述多条光线分组到所述多个光线队列中。

示例23.根据示例22所述的机器可读介质，还包括用于使得所述机器执行以下操作的程序代码：初始尝试使用所述量化光线方向值和所述着色器记录键二者来将光线与光线队列匹配；以及仅当未找到匹配时，才尝试仅使用所述着色器记录键来将所述光线与光线队列匹配。

示例24.根据示例23所述的机器可读介质，还包括：当使用所述量化光线方向值和所述着色器记录键二者未找到匹配时，尝试分配包含所述光线的新光线队列。

示例25.根据示例24所述的机器可读介质，其中，仅在确定无法分配所述新光线队列之后，才执行尝试仅使用所述着色器记录键来将所述光线与光线队列匹配。

示例26.根据示例19所述的机器可读介质，还包括用于使得所述机器执行以下操作的程序代码：按组分派所述多条光线，所述组是由其中存储了所述光线的所述光线队列定义的。

示例27.根据示例19所述的机器可读介质，还包括用于使得所述机器执行以下操作的程序代码：遍历穿过边界体积层次结构的所述多条光线中的一条或多条光线；以及确定所述多条光线中的一条或多条光线与场景中一个或多个对象之间的相交。

本发明的实施例可以包括上面已经描述的各种步骤。这些步骤可以体现在机器可执行指令中，这些机器可执行指令可以用于使通用或专用处理器执行这些步骤。替代地，这些步骤可以由包含用于执行步骤的硬连线逻辑的特定硬件组件来执行，或者由编程的计算机组件和定制硬件组件的任何组合来执行。

如本文中所描述，指令可指代硬件的特定配置，例如被配置为执行某些操作或具有预定功能性的专用集成电路(ASIC)或存储在非暂时性计算机可读介质中体现的存储器中的软件指令。因此，可以使用在一个或多个电子设备(例如，终端站、网络元件等)上存储和执行的代码和数据来实现附图中所示的技术。这样的电子设备使用计算机机器可读介质(例如，非暂时性计算机机器可读存储介质(例如磁盘；光盘；随机存取存储器；只读存储器；闪存设备；相变存储器))以及暂时性的计算机机器可读的通信介质(例如，电、光、声或其他形式的传播信号，例如载波、红外信号、数字信号等等)来存储和传送(内部地和/或通过网络与其他电子设备)代码和数据。

此外，此类电子设备通常包括与一个或多个其他组件耦合的一组一个或多个处理器，例如一个或多个存储设备(非暂时性机器可读存储介质)、用户输入/输出设备(例如，键盘、触摸屏和/或显示器)以及网络连接。该组处理器和其他组件的耦合通常通过一个或多个总线和桥(也称为总线控制器)进行。存储设备和承载网络业务的信号分别表示一种或多种机器可读存储介质和机器可读通信介质。因此，给定电子设备的存储设备通常存储用于在该电子设备的一组一个或多个处理器上执行的代码和/或数据。当然，可以使用软件、固件和/或硬件的不同组合来实现本发明的实施例的一个或多个部分。贯穿本详细描述，出于解释的目的，阐述了许多具体细节以便提供对本发明的透彻理解。然而，对本领域技术人员显而易见的是，可以在没有这些具体细节中的一些的情况下实践本发明。在某些情况下，没有详细描述公知的结构和功能，以避免使本发明的主题不清楚。因此，本发明的范围和精神应根据所附权利要求书来判断。

Claims

1.一种装置，包括：

光线发生器，其用于生成多条光线；

光线方向评估电路/逻辑，其用于针对所述多条光线中的每条光线生成近似光线方向数据；以及

光线分类电路/逻辑，其用于至少部分地基于所述近似光线方向数据来将所述光线分类到多个光线队列中。

2.根据权利要求1所述的装置，其中，所述近似光线方向数据包括与所述多条光线中的每条光线相关联的量化方向值。

3.根据权利要求2所述的装置，其中，每条光线的所述量化方向值包括：第一数据，其指示与所述光线相交的体积的侧面；以及第二数据，其包括所述光线与所述体积的所述侧面之间的相交的量化相交坐标。

4.根据权利要求2所述的装置，其中，所述光线分类电路/逻辑用于：基于与所述光线相关联的所述量化方向值和着色器记录键的组合，将所述多条光线中的一条或多条光线分组到所述多个光线队列中。

5.根据权利要求4所述的装置，其中，所述光线分类电路/逻辑用于：首先尝试使用所述量化光线方向值和所述着色器记录键二者来将光线与光线队列匹配，并且仅当未找到匹配时，才尝试仅使用所述着色器记录键来将所述光线与光线队列匹配。

6.根据权利要求5所述的装置，其中，当使用所述量化光线方向值和所述着色器记录键二者未找到匹配时，所述光线分类电路/逻辑用于尝试分配包含所述光线的新光线队列。

7.根据权利要求6所述的装置，其中，所述分类电路/逻辑用于：仅在确定无法分配所述新光线队列之后，才尝试仅使用所述着色器记录键来将所述光线与光线队列匹配。

8.根据权利要求1至7中任一项所述的装置，还包括：

光线分派器，其用于按组分派所述多条光线，所述组是由其中存储了所述光线的所述光线队列定义的。

9.根据权利要求1至8中任一项所述的装置，还包括：

光线遍历电路，其用于遍历穿过边界体积层次结构的所述多条光线中的一条或多条光线；以及

光线相交电路，其用于确定所述多条光线中的一条或多条光线与场景中的一个或多个对象之间的相交。

10.一种方法，包括：

生成多条光线；

针对所述多条光线中的每条光线确定近似光线方向数据；以及

至少部分地基于所述近似光线方向数据，将所述光线分类到多个光线队列中。

11.根据权利要求10所述的方法，其中，所述近似光线方向数据包括与所述多条光线中的每条光线相关联的量化方向值。

12.根据权利要求11所述的方法，其中，每条光线的所述量化方向值包括：第一数据，其指示与所述光线相交的体积的侧面；以及第二数据，其包括所述光线与所述体积的所述侧面之间的相交的量化相交坐标。

13.根据权利要求11所述的方法，其中，分类还包括：

基于与所述光线相关联的所述量化方向值和着色器记录键的组合，将所述多条光线分组到所述多个光线队列中。

14.根据权利要求13所述的方法，还包括：

初始尝试使用所述量化光线方向值和所述着色器记录键二者来将光线与光线队列匹配；以及

仅当未找到匹配时，才尝试仅使用所述着色器记录键来将所述光线与光线队列匹配。

15.根据权利要求14所述的方法，还包括：

当使用所述量化光线方向值和所述着色器记录键二者未找到匹配时，尝试分配包含所述光线的新光线队列。

16.根据权利要求15所述的方法，其中，仅在确定无法分配所述新光线队列之后，才执行尝试仅使用所述着色器记录键来将所述光线与光线队列匹配。

17.根据权利要求10至16中任一项所述的方法，还包括：

按组分派所述多条光线，所述组是由其中存储了所述光线的所述光线队列定义的。

18.根据权利要求10至17中任一项所述的方法，还包括：

遍历穿过边界体积层次结构的所述多条光线中的一条或多条光线；以及

确定所述多条光线中的一条或多条光线与场景中一个或多个对象之间的相交。

19.一种其上存储有程序代码的机器可读介质，所述程序代码当由机器执行时，使得所述机器执行以下操作：

生成多条光线；

确定所述多条光线中的每条光线的近似光线方向数据；以及

至少部分地基于所述近似光线方向数据来将所述光线分类到多个光线队列中。

20.根据权利要求19所述的机器可读介质，其中，所述近似光线方向数据包括与所述多条光线中的每条光线相关联的量化方向值。

21.根据权利要求20所述的机器可读介质，其中，每条光线的所述量化方向值包括：第一数据，其指示与所述光线相交的体积的侧面；以及第二数据，其包括所述光线与所述体积的所述侧面之间的相交的量化相交坐标。

22.根据权利要求20所述的机器可读介质，其中，分类还包括：

23.根据权利要求22所述的机器可读介质，还包括用于使得所述机器执行以下操作的程序代码：

24.根据权利要求23所述的机器可读介质，还包括：

25.根据权利要求24所述的机器可读介质，其中，仅在确定无法分配所述新光线队列之后，才执行尝试仅使用所述着色器记录键来将所述光线与光线队列匹配。