CN111383315A

CN111383315A - 用于使用网格基元进行光线追踪的装置和方法

Info

Publication number: CN111383315A
Application number: CN201911172057.9A
Authority: CN
Inventors: S·贾纳斯; P·苏提; K·维迪雅纳坦; C·本廷; P·劳斯
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2018-12-28
Filing date: 2019-11-26
Publication date: 2020-07-07
Also published as: US11062500B2; EP3675052B1; US20210407177A1; US20200211264A1; EP3675052A1

Abstract

用于使用网格基元进行光线追踪加速的装置和方法。例如，装置的一个实施例包括：网格基元生成器，其用于生成包括多个相邻互连基元的网格基元；位掩码生成器，其用于生成与网格基元相关联的位掩码，该位掩码包括多个位掩码值，每个掩码值与网格基元中的基元相关联；光线追踪引擎，其包括用于执行遍历和交叉操作的遍历和交叉硬件逻辑，其中，光线被遍历通过分层加速数据结构，并且光线与相邻互连基元中的一个或多个之间的交叉被标识，其中光线追踪引擎用于读取位掩码以确定来自网格基元的基元的第一集合以及来自网格基元的基元的第二集合，在基元的第一集合上执行遍历和交叉操作，在基元的第二集合上遍历和交叉操作将不被执行。

Description

用于使用网格基元进行光线追踪的装置和方法

技术领域

本发明总体上涉及图形处理器领域。更具体地，本发明涉及用于执行更高效的光线追踪操作的装置和方法。

背景技术

光线追踪是一种通过基于物理的渲染来对光传输进行仿真的技术。该技术广泛用于电影渲染，直到几年前，光线追踪被认为对于实时性能而言太过资源密集。光线追踪中的关键操作中的一个是处理针对称为“光线遍历”的光线场景交叉的可见性查询，其通过对包围体积层级(BVH)中的节点进行遍历和交叉来计算光线场景交叉。

去噪已成为对平滑无噪声图像进行实时光线追踪的关键特征。渲染可以跨多个设备上的分布式系统完成，但是到目前为止，现有的去噪框架都对单个机器上的单个实例进行操作。如果正在跨多个设备进行渲染，则这些设备可能不具有可用于计算图像的经去噪的部分的所有经渲染的像素。

附图说明

根据下面的具体实施方式结合附图，可以获得对本发明更好的理解，其中：

图1是具有处理器的计算机系统的实施例的框图，该处理器具有一个或多个处理器核心和图形处理器；

图2是处理器的一个实施例的框图，该处理器具有一个或多个处理器核心、集成存储器控制器和集成图形处理器；

图3是图形处理器的一个实施例的框图，该图形处理器可以是分立图形处理单元，或者可以是与多个处理核心集成的图形处理器；

图4是用于图形处理器的图形处理引擎的实施例的框图；

图5是图形处理器的另一实施例的框图；

图6A-6B示出了执行电路和逻辑的示例；

图7示出了根据实施例的图形处理器执行单元指令格式；

图8是图形处理器的另一实施例的框图，该图形处理器包括图形流水线、媒体流水线、显示引擎、线程执行逻辑和渲染输出流水线；

图9A是示出根据实施例的图形处理器命令格式的框图；

图9B是示出根据实施例的图形处理器命令序列的框图；

图10示出了根据实施例的用于数据处理系统的示例性图形软件架构；

图11A-11B示出了可以用于制造集成电路和示例性封装组装件的示例性IP核心开发系统；

图12示出了根据实施例的可以使用一个或多个IP核心构造的示例性片上系统集成电路；

图13A-13B示出了可以使用一个或多个IP核心构造的片上系统集成电路的示例性图形处理器；

图14A-14B示出了示例性图形处理器架构；

图15示出了用于执行机器学习架构的初始训练的架构的一个实施例；

图16示出了其中在运行时期间连续训练并更新机器学习引擎的一个实施例；

图17示出了其中在运行时期间连续训练并更新机器学习引擎的另一实施例；

图18A-18B示出了其中在网络上共享机器学习数据的实施例；并且

图19示出了用于训练机器学习引擎的方法的一个实施例；

图20示出了其中节点交换重影(ghost)区域数据执行分布式去噪操作的一个实施例；

图21示出了其中图像渲染和去噪操作跨多个节点分布的架构的一个实施例；

图22示出了用于分布式渲染和去噪的架构的附加细节；

图23示出了根据本发明一个实施例的方法；

图24示出了机器学习方法的一个实施例；

图25示出了多个互连的通用图形处理器；

图26示出了用于机器学习实现方式的一组卷积层和完全连接层；

图27示出了卷积层的一个实施例；

图28示出了机器学习实现方式中的一组互连节点的示例；

图29示出了训练框架的实施例，在训练框架内神经网络使用训练数据集学习；

图30A示出了模型并行性和数据并行性的示例；

图30B示出了片上系统(SoC)的示例；

图31示出了包括光线追踪核心和张量核心的处理架构的示例；

图32示出了光束的示例；

图33示出了用于执行光束追踪的装置的实施例；

图34示出了光束层级的示例；

图35示出了用于执行光束追踪的方法；

图36示出了分布式光线追踪引擎的示例；

图37-38示出了在光线追踪系统中执行的压缩的示例；

图39示出了根据本发明一个实施例的方法；

图40示出了示例性混合光线追踪装置；

图41示出了用于光线追踪操作的栈的示例；

图42示出了混合光线追踪装置的一个实施例的附加细节；

图43示出了包围体积层级的示例；

图44示出了调用栈和遍历状态存储装置的示例；

图45示出了网格基元的示例；

图46示出了用于利用位掩码处理网格基元的示例系统；

图47示出了系统级别MMU页面高速缓存的实施例；

图48示出了系统级别页面高速缓存的另一实施例；

图49示出了利用页面预取器的系统级别页面高速缓存；以及

图50示出了根据本发明一个实施例的方法。

具体实施方式

在以下描述中，出于解释的目的，阐述了许多具体细节以便提供对下面描述的本发明的实施例的透彻理解。然而，对于本领域技术人员显而易见的是，可以在没有这些具体细节中的一些的情况下实践本发明的实施例。在其他实例中，以框图形式示出了公知的结构和设备，以避免模糊本发明的实施例的基本原理。

示例性图形处理器架构和数据类型

系统概述

图1是根据实施例的处理系统100的框图。在各种实施例中，系统100包括一个或多个处理器102以及一个或多个图形处理器108，并且系统100可以是单个处理器台式系统、多处理器工作站系统或具有大量处理器102或处理器核心107的服务器系统。在一个实施例中，系统100是结合在片上系统(SoC)集成电路内以在移动、手持或嵌入式设备中使用的处理平台。

在一个实施例中，系统100可以包括或结合在基于服务器的游戏平台、游戏控制台内，该游戏控制台包括游戏和媒体控制台、移动游戏控制台、手持游戏控制台或在线游戏控制台。在一些实施例中，系统100是移动电话、智能电话、平板计算设备或移动互联网设备。处理系统100还可以包括可穿戴设备(例如，智能手表可穿戴设备、智能眼镜设备、增强现实设备或虚拟现实设备)、与该可穿戴设备耦合或集成在该可穿戴设备内。在一些实施例中，处理系统100是具有一个或多个处理器102以及由一个或多个图形处理器108生成的图形界面的电视或机顶盒设备。

在一些实施例中，一个或多个处理器102各自包括用于处理指令的一个或多个处理器核心107，当该指令被执行时执行针对系统和用户软件的操作。在一些实施例中，一个或多个处理器核心107中的每一个被配置用于处理特定的指令集109。在一些实施例中，指令集109可以促进复杂指令集计算(CISC)、精简指令集计算(RISC)或经由超长指令字(VLIW)的计算。多个处理器核心107可以各自处理不同的指令集109，不同的指令集109可以包括用于促进对其他指令集的仿真的指令。处理器核心107还可以包括其他处理设备，例如，数字信号处理器(DSP)。

在一些实施例中，处理器102包括高速缓冲存储器104。取决于架构，处理器102可以具有单个内部高速缓存或多个级别的内部高速缓存。在一些实施例中，高速缓冲存储器在处理器102的各种组件之间共享。在一些实施例中，处理器102还使用外部高速缓存(例如，3级(L3)高速缓存或最后一级高速缓存(LLC))(未示出)，其可以使用已知的高速缓存一致性技术在处理器核心107之间共享。寄存器文件106另外地包括在处理器102中，该寄存器文件106可以包括用于存储不同类型数据的不同类型的寄存器(例如，整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器)。一些寄存器可以是通用寄存器，而其他寄存器可以是特定于处理器102的设计的。

在一些实施例中，一个或多个处理器102与一个或多个接口总线110耦合，以在处理器102与系统100中的其他组件之间发送诸如地址信号、数据信号或控制信号之类的通信信号。在一个实施例中，接口总线110可以是处理器总线，例如，直接媒体接口(DMI)总线的版本。然而，处理器总线不限于DMI总线，并且可以包括一个或多个外围组件互连总线(例如，PCI、PCI快速)、存储器总线或其他类型的接口总线。在一个实施例中，(多个)处理器102包括集成存储器控制器116和平台控制器中心130。存储器控制器116促进存储器设备与系统100的其他组件之间的通信，而平台控制器中心(PCH)130提供经由本地I/O总线与I/O设备的连接。

存储器设备120可以是动态随机存取存储器(DRAM)设备、静态随机存取存储器(SRAM)设备、闪速存储器设备、相变存储器设备或具有合适性能以用作过程存储器的一些其他存储器设备。在一个实施例中，存储器设备120可以作为系统100的系统存储器操作，以存储数据122和指令121，以便在一个或多个处理器102执行应用或过程时使用。存储器控制器116还与可选的外部图形处理器112耦合，该外部图形处理器112可以与处理器102中的一个或多个图形处理器108通信以执行图形操作和媒体操作。在一些实施例中，显示设备111可以连接到(多个)处理器102。显示设备111可以是内部显示设备(如在移动电子设备或膝上型设备中)或者经由显示接口(例如，显示端口(DisplayPort)等)附接的外部显示设备中的一个或多个。在一个实施例中，显示设备111可以是头戴式显示器(HMD)，例如，用于虚拟现实(VR)应用或增强现实(AR)应用的立体显示设备。

在一些实施例中，平台控制器中心130使得外围设备能够经由高速I/O总线连接到存储器设备120和处理器102。I/O外围设备包括但不限于音频控制器146、网络控制器134、固件接口128、无线收发器126、触摸传感器125、数据存储设备124(例如，硬盘驱动器、闪速存储器等)。数据存储设备124可以经由存储接口(例如，SATA)或经由外围总线(例如，外围组件互连总线(例如，PCI、PCI快速))连接。触摸传感器125可以包括触摸屏传感器、压力传感器或指纹传感器。无线收发器126可以是Wi-Fi收发器、蓝牙收发器或诸如3G、4G或长期演进(LTE)收发器之类的移动网络收发器。固件接口128实现与系统固件的通信，并且可以是例如统一可扩展固件接口(UEFI)。网络控制器134可以实现与有线网络的网络连接。在一些实施例中，高性能网络控制器(未示出)与接口总线110耦合。在一个实施例中，音频控制器146是多通道高清晰度音频控制器。在一个实施例中，系统100包括用于将旧有(例如，个人系统2(PS/2))设备耦合到系统的可选的旧有I/O控制器140。平台控制器中心130还可以连接到一个或多个通用串行总线(USB)控制器142以连接输入设备，例如，键盘和鼠标143组合、相机144或其他USB输入设备。

将认识到的是，所示的系统100是示例性的而非限制性的，因为还可以使用被不同配置的其他类型的数据处理系统。例如，存储器控制器116和平台控制器中心130的实例可以集成到分立的外部图形处理器(例如，外部图形处理器112)中。在一个实施例中，平台控制器中心130和/或存储器控制器116可以在一个或多个处理器102的外部。例如，系统100可以包括外部存储器控制器116和平台控制器中心130，其可以被配置作为在与(多个)处理器102通信的系统芯片组内的存储器控制器中心和外围控制器中心。

图2是具有一个或多个处理器核心202A-202N、集成存储器控制器214和集成图形处理器208的处理器200的实施例的框图。图2中具有与本文任何其他附图中的元件相同的附图标记(或名称)的那些元件可以以与本文其他地方描述的方式类似的任何方式操作或起作用，但不限于此。处理器200可以包括附加的核心，直到包括由虚线框表示的附加核心202N。处理器核心202A-202N中的每一个包括一个或多个内部高速缓存单元204A-204N。在一些实施例中，每个处理器核心还具有对一个或多个共享高速缓存单元206的访问权。

内部高速缓存单元204A-204N和共享高速缓存单元206表示处理器200内的高速缓冲存储器层级。高速缓冲存储器层级可以包括每个处理器核心内的至少一个级别的指令和数据高速缓存以及一个或多个级别的共享中间级别高速缓存，例如，2级(L2)、3级(L3)、4级(L4)或其他级别的高速缓存，其中外部存储器之前的最高级别的高速缓存被分类为LLC。在一些实施例中，高速缓存一致性逻辑维持各种高速缓存单元206和204A-204N之间的一致性。

在一些实施例中，处理器200还可以包括一个或多个总线控制器单元216的集合和系统代理核心210。一个或多个总线控制器单元216管理外围总线的集合(例如，一个或多个PCI或PCI快速总线)。系统代理核心210为各种处理器组件提供管理功能。在一些实施例中，系统代理核心210包括一个或多个集成存储器控制器214以管理对各种外部存储器设备(未示出)的访问。

在一些实施例中，处理器核心202A-202N中的一个或多个包括对同时多线程的支持。在这样的实施例中，系统代理核心210包括用于在多线程处理期间协调并操作核心202A-202N的组件。系统代理核心210可以另外地包括功率控制单元(PCU)，其包括用于调节处理器核心202A-202N和图形处理器208的功率状态的逻辑和组件。

在一些实施例中，处理器200另外地包括用于执行图形处理操作的图形处理器208。在一些实施例中，图形处理器208与共享高速缓存单元206的集合以及包括一个或多个集成存储器控制器214的系统代理核心210耦合。在一些实施例中，系统代理核心210还包括显示控制器211，其用于将图形处理器输出驱动到一个或多个耦合的显示器。在一些实施例中，显示控制器211还可以是经由至少一个互连与图形处理器耦合的单独模块，或者显示控制器211可以集成在图形处理器208内。

在一些实施例中，基于环形的互连单元212用于耦合处理器200的内部组件。然而，可以使用替代的互连单元，例如，点对点互连、交换互连或包括本领域公知的技术的其他技术。在一些实施例中，图形处理器208经由I/O链路213与环形互连212耦合。

示例性I/O链路213表示多种I/O互连中的至少一种，包括促进各种处理器组件与高性能嵌入式存储器模块218(例如，eDRAM模块)之间的通信的封装上I/O互连。在一些实施例中，处理器核心202A-202N中的每一个和图形处理器208使用嵌入式存储器模块218作为共享的最后一级高速缓存。

在一些实施例中，处理器核心202A-202N是执行相同指令集架构的同构核心。在另一实施例中，处理器核心202A-202N在指令集架构(ISA)方面是异构的，其中处理器核心202A-202N中的一个或多个执行第一指令集，而其他核心中的至少一个执行第一指令集的子集或不同的指令集。在一个实施例中，处理器核心202A-202N在微架构方面是异构的，其中具有相对较高功耗的一个或多个核心与具有较低功耗的一个或多个功率核心耦合。另外地，处理器200可以在一个或多个芯片上实现或者实现为具有所示组件以及其他组件的SoC集成电路。

图3是图形处理器300的框图，图形处理器300可以是分立的图形处理单元，或者可以是与多个处理核心集成的图形处理器。在一些实施例中，图形处理器经由与图形处理器上的寄存器的存储器映射的I/O接口并且利用放置在处理器存储器中的命令进行通信。在一些实施例中，图形处理器300包括用于对存储器进行访问的存储器接口314。存储器接口314可以是与本地存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存和/或系统存储器的接口。

在一些实施例中，图形处理器300还包括显示控制器302，其用于将显示输出数据驱动到显示设备320。显示控制器302包括用于显示或组成视频或用户界面元素的多个层的一个或多个覆盖平面的硬件。显示设备320可以是内部或外部显示设备。在一个实施例中，显示设备320是头戴式显示设备，例如，虚拟现实(VR)显示设备或增强现实(AR)显示设备。在一些实施例中，图形处理器300包括视频编解码器引擎306，其用于将媒体编码、解码为一种或多种媒体编码格式，将媒体从一种或多种媒体编码格式进行编码、解码或者将媒体在一种或多种媒体编码格式之间进行转码，该一种或多种媒体编码格式包括但不限于运动图像专家组(MPEG)格式(例如，MPEG-2)、高级视频编码(AVC)格式(例如，H.264/MPEG-4 AVC)以及电影电视工程师协会(SMPTE)421M/VC-1和联合图像专家组(JPEG)格式(例如，JPEG和运动JPEG(MJPEG)格式)。

在一些实施例中，图形处理器300包括块图像传送(BLIT)引擎304，其用于执行二维(2D)光栅化操作，包括例如位边界块传送。然而，在一个实施例中，使用图形处理引擎(GPE)310的一个或多个组件来执行2D图形操作。在一些实施例中，GPE 310是用于执行图形操作的计算引擎，该图形操作包括三维(3D)图形操作和媒体操作。

在一些实施例中，GPE 310包括用于执行3D操作(例如，使用作用于3D基元形状(例如，矩形、三角形等)的处理功能来渲染三维图像和场景)的3D流水线312。3D流水线312包括可编程功能元件和固定功能元件，其执行元件内的各种任务和/或向3D/媒体子系统315产生执行线程。虽然3D流水线312可以用于执行媒体操作，但是GPE 310的实施例还包括媒体流水线316，该媒体流水线316专门用于执行媒体操作，例如，视频后处理和图像增强。

在一些实施例中，媒体流水线316包括固定功能逻辑单元或可编程逻辑单元，以代替或代表视频编解码器引擎306执行一个或多个专用媒体操作，例如，视频解码加速、视频反交错和视频编码加速。在一些实施例中，媒体流水线316另外地包括线程产生单元以产生用于在3D/媒体子系统315上执行的线程。产生的线程在3D/媒体子系统315中包括的一个或多个图形执行单元上执行针对媒体操作的计算。

在一些实施例中，3D/媒体子系统315包括用于执行由3D流水线312和媒体流水线316产生的线程的逻辑。在一个实施例中，流水线将线程执行请求发送到3D/媒体子系统315，该3D/媒体子系统315包括用于对针对可用线程执行资源的各种请求进行仲裁和分派的线程分派逻辑。执行资源包括用于处理3D线程和媒体线程的图形执行单元的阵列。在一些实施例中，3D/媒体子系统315包括用于线程指令和数据的一个或多个内部高速缓存。在一些实施例中，子系统还包括共享存储器，其包括寄存器和可寻址存储器，以在线程之间共享数据并且存储输出数据。

图形处理引擎

图4是根据一些实施例的图形处理器的图形处理引擎410的框图。在一个实施例中，图形处理引擎(GPE)410是图3中所示的GPE 310的一个版本。图4中具有与本文任何其他附图中的元件相同的附图标记(或名称)的元件可以以与本文其他地方描述的方式类似的任何方式操作或起作用，但不限于此。例如，示出了图3的3D流水线312和媒体流水线316。媒体流水线316在GPE 410的一些实施例中是可选的，并且可以不明确地包括在GPE 410内。例如，在至少一个实施例中，单独的媒体和/或图像处理器耦合到GPE 410。

在一些实施例中，GPE 410与命令流送器403耦合或者包括命令流送器403，该命令流送器403向3D流水线312和/或媒体流水线316提供命令流。在一些实施例中，命令流送器403与存储器耦合，该存储器可以是系统存储器或者是内部高速缓冲存储器和共享高速缓冲存储器中的一个或多个。在一些实施例中，命令流送器403接收来自存储器的命令并且将命令发送到3D流水线312和/或媒体流水线316。该命令是从环形缓冲器获取的指令，该环形缓冲器存储用于3D流水线312和媒体流水线316的命令。在一个实施例中，环形缓冲器可以另外地包括存储多个命令的批的批命令缓冲器。用于3D流水线312的命令还可以包括对存储在存储器中的数据的引用，例如但不限于用于3D流水线312的顶点和几何数据和/或用于媒体流水线316的图像数据和存储器对象。3D流水线312和媒体流水线316通过经由相应流水线内的逻辑执行操作或者通过将一个或多个执行线程分派给图形核心阵列414来处理命令和数据。在一个实施例中，图形核心阵列414包括一个或多个图形核心块(例如，(多个)图形核心415A、(多个)图形核心415B)，每个块包括一个或多个图形核心。每个图形核心包括图形执行资源的集合，其包括用于执行图形和计算操作的通用执行逻辑和图形特定执行逻辑，以及固定功能纹理处理和/或机器学习和人工智能加速逻辑。

在各种实施例中，3D流水线312包括固定功能逻辑和可编程逻辑，以通过处理指令以及将执行线程分派给图形核心阵列414来处理一个或多个着色器程序，例如，顶点着色器程序、几何着色器程序、像素着色器程序、片段着色器程序、计算着色器程序或其他着色器程序。图形核心阵列414提供统一的执行资源块以用于处理这些着色器程序。图形核心阵列414的(多个)图形核心415A-415B内的多用途执行逻辑(例如，执行单元)包括对各种3D API着色器语言的支持，并且可以执行与多个着色器相关联的多个同时执行线程。

在一些实施例中，图形核心阵列414还包括用于执行媒体功能(例如，视频和/或图像处理)的执行逻辑。在一个实施例中，除了图形处理操作之外，执行单元另外地包括可编程以执行并行通用计算操作的通用逻辑。通用逻辑可以并行地或结合图1的(多个)处理器核心107或如图2中的核心202A-202N内的通用逻辑来执行处理操作。

由在图形核心阵列414上执行的线程生成的输出数据可以将数据输出到统一返回缓冲器(URB)418中的存储器。URB 418可以存储用于多个线程的数据。在一些实施例中，URB418可以用于在图形核心阵列414上执行的不同线程之间发送数据。在一些实施例中，URB418可以另外地用于在图形核心阵列上的线程与共享功能逻辑420内的固定功能逻辑之间进行同步。

在一些实施例中，图形核心阵列414是可扩展的，使得阵列包括可变数量的图形核心，每个图形核心基于GPE 410的目标功率和性能水平具有可变数量的执行单元。在一个实施例中，执行资源是动态可扩展的，使得可以根据需要启用或禁用执行资源。

图形核心阵列414与共享功能逻辑420耦合，该共享功能逻辑420包括在图形核心阵列中的图形核心之间共享的多个资源。共享功能逻辑420内的共享功能是向图形核心阵列414提供专用补充功能的硬件逻辑单元。在各种实施例中，共享功能逻辑420包括但不限于采样器421、数学422和线程间通信(ITC)423逻辑。另外地，一些实施例在共享功能逻辑420内实现一个或多个高速缓存425。

在针对给定专用功能的需求对于包括在图形核心阵列414内而言不足的情况下实现共享功能。相反，该专用功能的单个实例化在共享功能逻辑420中实现为独立实体，并且在图形核心阵列414内的执行资源之间共享。在图形核心阵列414之间共享并且包括在图形核心阵列414内的功能的精确集合跨实施例而变化。在一些实施例中，共享功能逻辑420内的由图形核心阵列414广泛使用的特定共享功能可以被包括在图形核心阵列414内的共享功能逻辑416内。在各种实施例中，图形核心阵列414内的共享功能逻辑416可以包括共享功能逻辑420内的一些或所有逻辑。在一个实施例中，共享功能逻辑420内的所有逻辑元件可以在图形核心阵列414的共享功能逻辑416内复制。在一个实施例中，共享功能逻辑420被排除以支持图形核心阵列414内的共享功能逻辑416。

图5是根据本文所描述的一些实施例的图形处理器核心500的硬件逻辑的框图。图5中具有与本文任何其他附图中的元件相同的附图标记(或名称)的元件可以以与本文其他地方描述的方式类似的任何方式操作或起作用，但不限于此。在一些实施例中，示出的图形处理器核心500被包括在图4的图形核心阵列414内。图形处理器核心500(有时称为核心切片)可以是模块化图形处理器内的一个或多个图形核心。图形处理器核心500是一个图形核心切片的示例，并且如本文所描述的图形处理器可以基于目标功率和性能包络包括多个图形核心切片。每个图形处理器核心500可以包括与多个子核心501A-501F(也称为子切片，其包括通用逻辑和固定功能逻辑的模块化块)耦合的固定功能块530。

在一些实施例中，固定功能块530包括几何/固定功能流水线536，其可以由图形处理器核心500中的所有子核心共享，例如，在较低性能和/或较低功率图形处理器实现方式中。在各种实施例中，几何/固定功能流水线536包括3D固定功能流水线(例如，如图3和图4中的3D流水线312)、视频前端单元、线程产生器和线程分派器，以及管理统一返回缓冲器(例如，图4的统一返回缓冲器418)的统一返回缓冲器管理器。

在一个实施例中，固定功能块530还包括图形SoC接口537、图形微控制器538和媒体流水线539。图形SoC接口537提供图形处理器核心500与片上系统集成电路内的其他处理器核心之间的接口。图形微控制器538是可编程子处理器，其可配置用于管理图形处理器核心500的各种功能，包括线程分派、调度和抢占。媒体流水线539(例如，图3和图4的媒体流水线316)包括用于促进对多媒体数据(包括图像数据和视频数据)进行解码、编码、预处理和/或后处理的逻辑。媒体流水线539经由对在子核心501A-501F内的计算逻辑或采样逻辑的请求来实现媒体操作。

在一个实施例中，SoC接口537使得图形处理器核心500能够与通用应用处理器核心(例如，CPU)和/或SoC内的其他组件(包括存储器层级元件，例如，共享最后一级高速缓冲存储器、系统RAM和/或嵌入式片上或封装上DRAM)通信。SoC接口537还可以实现与SoC内的固定功能设备(例如，相机成像流水线)的通信，并且使得能够使用和/或实现可以在图形处理器核心500与SoC内的CPU之间共享的全局存储器原子。SoC接口537还可以实现对图形处理器核心500的功率管理控制，并且启用图形核心500的时钟域与SoC内的其他时钟域之间的接口。在一个实施例中，SoC接口537实现对来自命令流送器和全局线程分派器的命令缓冲器的接收，命令流送器和全局线程分派器被配置为向图形处理器内的一个或多个图形核心中的每一个提供命令和指令。当要执行媒体操作时，可以将命令和指令分派给媒体流水线539，或者当要执行图形处理操作时，可以将命令和指令分派给几何和固定功能流水线(例如，几何和固定功能流水线536、几何和固定功能流水线514)。

图形微控制器538可以被配置为执行针对图形处理器核心500的各种调度和管理任务。在一个实施例中，图形微控制器538可以对子核心501A-501F内的执行单元(EU)阵列502A-502F、504A-504F内的各种图形并行引擎执行图形和/或计算工作负载调度。在该调度模型中，在包括图形处理器核心500的SoC的CPU核心上执行的主机软件可以提交多个图形处理器门铃中的一个的工作负载，该图形处理器门铃在适当的图形引擎上调用调度操作。调度操作包括确定下一个要运行的工作负载，将工作负载提交给命令流送器，抢占引擎上运行的现有工作负载，监视工作负载的进程，以及当工作负载完成时通知主机软件。在一个实施例中，图形微控制器538还可以促进图形处理器核心500的低功率或空闲状态，从而独立于操作系统和/或系统上的图形驱动软件而跨低功率状态转换为图形处理器核心500提供保存和恢复图形处理器核心500内的寄存器的能力。

图形处理器核心500可以具有多于或少于所示的子核心501A-501F，最多具有N个模块化子核心。对于N个子核心的每个集合，图形处理器核心500还可以包括共享功能逻辑510、共享和/或高速缓冲存储器512、几何/固定功能流水线514以及用于加速各种图形和计算处理操作的附加的固定功能逻辑516。共享功能逻辑510可以包括与图4的共享功能逻辑420(例如，采样器逻辑、数学逻辑和/或线程间通信逻辑)相关联的逻辑单元，这些逻辑单元可以由图形处理器核心500内的N个子核心中的每一个共享。共享和/或高速缓冲存储器512可以是针对图形处理器核心500内的N个子核心501A-501F的集合的最后一级高速缓存，并且还可以用作可由多个子核心访问的共享存储器。在固定功能块530内可以包括几何/固定功能流水线514而不是几何/固定功能流水线536，并且可以包括相同或类似的逻辑单元。

在一个实施例中，图形处理器核心500包括附加的固定功能逻辑516，该固定功能逻辑516可以包括供图形处理器核心500使用的各种固定功能加速逻辑。在一个实施例中，附加的固定功能逻辑516包括用于仅位置着色的附加几何流水线。在仅位置着色中，存在两种几何流水线：剔除(cull)流水线以及几何/固定功能流水线536内的完整几何流水线，该剔除流水线是可以被包括在附加的固定功能逻辑516内的附加的几何流水线。在一个实施例中，剔除流水线是完整几何流水线的经裁减的版本。完整流水线和剔除流水线可以执行相同应用的不同实例，每个实例具有单独的上下文。仅位置着色可以隐藏已丢弃的三角形的长剔除运行，从而使得能够在某些实例中更早地完成着色。例如，在一个实施例中，附加的固定功能逻辑516内的剔除流水线逻辑可以与主应用并行地执行位置着色器，并且通常比完整流水线更快地生成关键结果，因为剔除流水线仅获取顶点的位置属性并对其进行着色，而没有执行光栅化以及将像素渲染到帧缓冲器。剔除流水线可以使用生成的关键结果来计算所有三角形的可见性信息，而不考虑这些三角形是否被剔除。完整流水线(在该实例中可以称为重放流水线)可以消耗可见性信息以跳过经剔除的三角形以仅对最终传递到光栅化阶段的可见三角形进行着色。

在一个实施例中，附加的固定功能逻辑516还可以包括机器学习加速逻辑，例如，固定功能矩阵乘法逻辑，其用于包括针对机器学习训练或推理的优化在内的实现方式。

在每个图形子核心501A-501F内包括执行资源的集合，该执行资源的集合可以用于响应于图形流水线、媒体流水线或着色器程序的请求来执行图形、媒体和计算操作。图形子核心501A-501F包括多个EU阵列502A-502F、504A-504F、线程分派和线程间通信(TD/IC)逻辑503A-503F、3D(例如，纹理)采样器505A-505F、媒体采样器506A-506F、着色器处理器507A-507F、以及共享本地存储器(SLM)508A-508F。EU阵列502A-502F、504A-504F各自包括多个执行单元，多个执行单元是能够在图形、媒体或计算操作的服务(包括图形、媒体或计算着色器程序)中执行浮点和整数/定点逻辑操作的通用图形处理单元。TD/IC逻辑503A-503F针对子核心内的执行单元执行本地线程分派和线程控制操作，并且促进在子核心的执行单元上执行的线程之间的通信。3D采样器505A-505F可以将纹理或其他3D图形相关数据读取到存储器中。3D采样器可以基于配置的样本状态以及与给定纹理相关联的纹理格式来不同地读取纹理数据。媒体采样器506A-506F可以基于与媒体数据相关联的类型和格式来执行类似的读取操作。在一个实施例中，每个图形子核心501A-501F可以替代地包括统一3D和媒体采样器。在子核心501A-501F中的每一个内的执行单元上执行的线程可以利用每个子核心内的共享本地存储器508A-508F，以使得在线程组内执行的线程能够使用片上存储器的公共池来执行。

执行单元

图6A-6B示出了根据本文所描述的实施例的包括在图形处理器核心中采用的处理元件的阵列的线程执行逻辑600。图6A-6B中具有与本文任何其他附图中的元件相同的附图标记(或名称)的元件可以以与本文其他地方描述的方式类似的任何方式操作或起作用，但不限于此。图6A示出了线程执行逻辑600的概述，该线程执行逻辑600可以包括利用图5的每个子核心501A-501F示出的硬件逻辑的变体。图6B示出了执行单元的示例性内部细节。

如图6A中示出的，在一些实施例中，线程执行逻辑600包括着色器处理器602、线程分派器604、指令高速缓存606、包括多个执行单元608A-608N的可扩展执行单元阵列、采样器610、数据高速缓存612和数据端口614。在一个实施例中，可扩展执行单元阵列可以通过基于工作负载的计算要求启用或禁用一个或多个执行单元(例如，执行单元608A、608B、608C、608D到608N-1和608N中的任一个)来动态地扩展。在一个实施例中，所包括的组件经由互连结构互连，该互连结构链接到组件中的每一个。在一些实施例中，线程执行逻辑600包括通过指令高速缓存606、数据端口614、采样器610和执行单元608A-608N中的一个或多个与存储器(例如，系统存储器或高速缓冲存储器)的一个或多个连接。在一些实施例中，每个执行单元(例如，608A)是独立的可编程通用计算单元，其能够执行多个同时硬件线程，同时针对每个线程并行处理多个数据元素。在各种实施例中，执行单元608A-608N的阵列是可扩展的以包括任何数量的单独的执行单元。

在一些实施例中，执行单元608A-608N主要用于执行着色器程序。着色器处理器602可以经由线程分派器604处理各种着色器程序并且分派与着色器程序相关联的执行线程。在一个实施例中，线程分派器包括用于仲裁来自图形流水线和媒体流水线的线程启动请求并且在执行单元608A-608N中的一个或多个执行单元上对所请求的线程进行实例化的逻辑。例如，几何流水线可以将顶点着色器、曲面细分着色器或几何着色器分派给线程执行逻辑以进行处理。在一些实施例中，线程分派器604还可以处理来自正在执行的着色器程序的运行时线程产生请求。

在一些实施例中，执行单元608A-608N支持包括对许多标准3D图形着色器指令的本地支持的指令集，使得来自图形库(例如，Direct 3D和OpenGL)的着色器程序在最小转换的情况下执行。执行单元支持顶点和几何处理(例如，顶点程序、几何程序、顶点着色器)、像素处理(例如，像素着色器、片段着色器)和通用处理(例如，计算着色器和媒体着色器)。执行单元608A-608N中的每一个能够进行多次发布单指令多数据(SIMD)执行，并且多线程操作在面对较高时延的存储器访问时实现高效的执行环境。每个执行单元内的每个硬件线程都具有专用的高带宽寄存器文件和相关联的独立线程状态。执行是每时钟多次发布到能够进行整数、单精度和双精度浮点运算、具有SIMD分支能力、能够进行逻辑运算、超越运算和其他杂项运算的流水线的。在等待来自共享功能中的一个或存储器的数据时，执行单元608A-608N内的相关性逻辑使得等待线程休眠，直到已经返回所请求的数据。当等待线程处于休眠时，硬件资源可能专用于处理其他线程。例如，在与顶点着色器操作相关联的延迟期间，执行单元可以执行针对像素着色器、片段着色器或其他类型的着色器程序(包括不同的顶点着色器)的操作。

在执行单元608A-608N中的每个执行单元对数据元素的阵列进行操作。数据元素的数量是“执行大小”或者用于指令的通道的数量。执行通道是用于数据元素访问、掩蔽和指令内流控制的逻辑执行单元。通道的数量可以独立于针对特定图形处理器的物理算术逻辑单元(ALU)或浮点单元(FPU)的数量。在一些实施例中，执行单元608A-608N支持整数和浮点数据类型。

执行单元指令集包括SIMD指令。各种数据元素可以作为打包数据类型存储在寄存器中，并且执行单元将基于元素的数据大小处理各种元素。例如，当对256位宽向量进行操作时，向量的256位存储在寄存器中，并且执行单元按照四个单独的64位打包数据元素(四字(QW)大小数据元素)、八个单独的32位打包数据元素(双字(DW)大小数据元素)、十六个单独的16位打包数据元素(字(W)大小数据元素)或者三十二个单独的8位数据元素(字节(B)大小数据元素)对向量进行操作。然而，不同的向量宽度和寄存器大小是可能的。

在一个实施例中，一个或多个执行单元可以组合成具有线程控制逻辑(607A-607N)的融合执行单元609A-609N，该线程控制逻辑对于融合EU是公共的。多个EU可以融合成EU组。融合EU组中的每个EU可以被配置为执行单独的SIMD硬件线程。融合EU组中的EU的数量可以根据实施例而变化。另外地，可以针对每个EU执行各种SIMD宽度，包括但不限于SIMD8、SIMD16和SIMD32。每个融合图形执行单元609A-609N包括至少两个执行单元。例如，融合执行单元609A包括第一EU 608A、第二EU 608B和线程控制逻辑607A，该线程控制逻辑607A对于第一EU 608A和第二EU 608B是公共的。线程控制逻辑607A控制在融合图形执行单元609A上执行的线程，从而允许融合执行单元609A-609N内的每个EU使用公共的指令指针寄存器来执行。

一个或多个内部指令高速缓存(例如，606)被包括在线程执行逻辑600中，以对用于执行单元的线程指令进行缓存。在一些实施例中，一个或多个数据高速缓存(例如，612)被包括以在线程执行期间对线程数据进行缓存。在一些实施例中，采样器610被包括以提供用于3D操作的纹理采样和用于媒体操作的媒体采样。在一些实施例中，采样器610包括专用纹理或媒体采样功能，以在采样过程期间在将采样数据提供给执行单元之前对纹理或媒体数据进行处理。

在执行期间，图形流水线和媒体流水线经由线程产生和分派逻辑将线程启动请求发送到线程执行逻辑600。一旦一组几何对象已经被处理并且光栅化为像素数据，则调用着色器处理器602内的像素处理器逻辑(例如，像素着色器逻辑、片段着色器逻辑等)以进一步计算输出信息并使得结果被写入到输出表面(例如，颜色缓冲器、深度缓冲器、模板缓冲器等)。在一些实施例中，像素着色器或片段着色器计算要跨光栅化对象插值的各种顶点属性的值。在一些实施例中，着色器处理器602内的像素处理器逻辑然后执行应用编程接口(API)——供应的像素或片段着色器程序。为了执行着色器程序，着色器处理器602经由线程分派器604将线程分派给执行单元(例如，608A)。在一些实施例中，着色器处理器602使用采样器610中的纹理采样逻辑来访问存储在存储器中的纹理图中的纹理数据。对纹理数据和输入几何数据进行的算术运算计算每个几何片段的像素颜色数据，或丢弃一个或多个像素以免进一步处理。

在一些实施例中，数据端口614提供用于线程执行逻辑600的存储器访问机制，以将处理后的数据输出到存储器以便在图形处理器输出流水线上进行进一步处理。在一些实施例中，数据端口614包括一个或多个高速缓冲存储器(例如，数据高速缓存612)或耦合到该一个或多个高速缓冲存储器，以经由数据端口对用于存储器访问的数据进行缓存。

如图6B中示出的，图形执行单元608可以包括指令获取单元637、通用寄存器文件阵列(GRF)624、架构寄存器文件阵列(ARF)626、线程仲裁器622、发送单元630、分支单元632、SIMD浮点单元(FPU)的集合634，并且在一个实施例中包括专用整数SIMD ALU的集合635。GRF 624和ARF 626包括通用寄存器文件和架构寄存器文件的集合，该通用寄存器文件和架构寄存器文件的集合与可以在图形执行单元608中活动的每个同时硬件线程相关联。在一个实施例中，每个线程架构状态维持在ARF 626中，而在线程执行期间使用的数据存储在GRF 624中。每个线程的执行状态(包括针对每个线程的指令指针)可以保持在ARF 626中的线程特定的寄存器中。

在一个实施例中，图形执行单元608具有作为同时多线程(SMT)和细粒度交织多线程(IMT)的组合的架构。该架构具有模块化配置，该模块化配置可以基于每个执行单元的同时线程的目标数量和寄存器数量在设计时进行微调，其中跨用于执行多个同时线程的逻辑对执行单元资源进行划分。

在一个实施例中，图形执行单元608可以共同发布多个指令，多个指令可以各自是不同的指令。图形执行单元线程608的线程仲裁器622可以将指令分派给发送单元630、分支单元632或(多个)SIMD FPU 634中的一个以用于执行。每个执行线程可以访问GRF 624内的128个通用寄存器，其中每个寄存器可以存储32个字节，该32个字节可以作为32位数据元素的SIMD 8元素向量访问。在一个实施例中，每个执行单元线程具有对GRF 624内的4千字节的访问权，但是实施例不限于此，并且在其他实施例中可以提供更多或更少的寄存器资源。在一个实施例中，多达七个线程可以同时执行，但是每个执行单元的线程数量也可以根据实施例而变化。在七个线程可以访问4千字节的实施例中，GRF 624可以存储总共28千字节。灵活的寻址模式可以允许寄存器被一起寻址以高效地构建更宽的寄存器或者以表示跨步矩形块数据结构。

在一个实施例中，经由消息传递发送单元630执行的“发送”指令来分派存储器操作、采样器操作和其他较长时延系统通信。在一个实施例中，将分支指令分派给专用分支单元632以促进SIMD发散和最终收敛。

在一个实施例中，图形执行单元608包括一个或多个SIMD浮点单元(FPU)634以执行浮点运算。在一个实施例中，(多个)FPU 634还支持整数计算。在一个实施例中，(多个)FPU 634可以SIMD执行多达数量M个32位浮点(或整数)运算，或者SIMD执行多达2M个16位整数运算或16位浮点运算。在一个实施例中，(多个)FPU中的至少一个提供扩展的数学能力以支持高吞吐量的超越数学函数和双精度64位浮点。在一些实施例中，还存在8位整数SIMDALU的集合635，并且可以专门地对该集合进行优化以执行与机器学习计算相关联的操作。

在一个实施例中，图形执行单元608的多个实例的阵列可以在图形子核心分组(例如，子切片)中实例化。对于可扩展性，产品架构师可以选择每个子核心分组的执行单元的精确数量。在一个实施例中，执行单元608可以跨多个执行通道执行指令。在另一实施例中，在图形执行单元608上执行的每个线程在不同的通道上执行。

图7是示出根据一些实施例的图形处理器指令格式700的框图。在一个或多个实施例中，图形处理器执行单元支持具有多种格式的指令的指令集。实线框示出了通常被包括在执行单元指令中的组件，而虚线包括可选的或仅包括在指令的子集中的组件。在一些实施例中，所描述并示出的指令格式700是宏指令，因为指令格式700是供应给执行单元的指令，而不是一旦指令被处理就由指令解码产生的微操作。

在一些实施例中，图形处理器执行单元本地地支持属于128位指令格式710的指令。基于所选定的指令、指令选项和操作数的数量，64位压缩指令格式730可用于某些指令。本地的128位指令格式710提供对所有指令选项的访问权，而在64位格式730中某些选项和操作受到限制。64位格式730中可用的本地指令因实施例而异。在一些实施例中，使用索引字段713中的索引值的集合来部分地压缩指令。执行单元硬件基于索引值引用压缩表的集合，并且使用压缩表输出来重构属于128位指令格式710的本地指令。

对于每种格式，指令操作码712定义执行单元要执行的操作。执行单元跨每个操作数的多个数据元素并行地执行每个指令。例如，响应于相加指令，执行单元跨表示纹理元素或图片元素的每个颜色通道执行同时相加运算。默认情况下，执行单元跨操作数的所有数据通道执行每条指令。在一些实施例中，指令控制字段714实现对某些执行选项(例如，通道选择(例如，预测)和数据通道顺序(例如，混合))的控制。对于属于128位指令格式710的指令，exec-size字段716限制将要并行执行的数据通道的数量。在一些实施例中，exec-size字段716不可用于64位压缩指令格式730。

一些执行单元指令具有多达三个操作数，包括两个源操作数(src0 720、src1722)和一个目的地718。在一些实施例中，执行单元支持双目的地指令，其中隐含了目的地中的一个。数据操纵指令可以具有第三个源操作数(例如，SRC2 724)，其中指令操作码712确定源操作数的数量。指令的最后一个源操作数可以是与指令一起传递的立即数(例如，硬编码)值。

在一些实施例中，128位指令格式710包括访问/寻址模式字段726，该访问/寻址模式字段726指定例如是使用直接寄存器寻址模式还是间接寄存器寻址模式。当使用直接寄存器寻址模式时，一个或多个操作数的寄存器地址由指令中的位直接提供。

在一些实施例中，128位指令格式710包括访问/寻址模式字段726，该访问/寻址模式字段726指定指令的寻址模式和/或访问模式。在一个实施例中，访问模式用于定义指令的数据访问对齐。一些实施例支持包括16字节对齐的访问模式和1字节对齐的访问模式在内的访问模式，其中访问模式的字节对齐确定指令操作数的访问对齐。例如，当处于第一模式时，指令可以针对源操作数和目的地操作数使用字节对齐的寻址，并且当处于第二模式时，指令可以针对所有源操作数和目的地操作数使用16字节对齐的寻址。

在一个实施例中，访问/寻址模式字段726的寻址模式部分确定指令是要使用直接寻址还是间接寻址。当使用直接寄存器寻址模式时，指令中的位直接提供一个或多个操作数的寄存器地址。当使用间接寄存器寻址模式时，可以基于指令中的地址寄存器值和地址立即数字段来计算一个或多个操作数的寄存器地址。

在一些实施例中，基于操作码712位字段对指令进行分组以简化操作码解码740。对于8位操作码，位4、5和6允许执行单元确定操作码的类型。所示的精确操作码分组仅是示例。在一些实施例中，移动和逻辑操作码分组742包括数据移动和逻辑指令(例如，移动(mov)、比较(cmp))。在一些实施例中，移动和逻辑分组742共享五个最高有效位(MSB)，其中移动(mov)指令是以0000xxxxb的形式，并且逻辑指令是以0001xxxxb的形式。流控制指令分组744(例如，调用、跳转(jmp))包括以0010xxxxb的形式(例如，0x20)的指令。杂项指令分组746包括指令的混合，包括以0011xxxxb的形式(例如，0x30)的同步指令(例如，等待、发送)。并行数学指令分组748包括以0100xxxxb的形式(例如，0x40)的按分量算术指令(例如，相加、相乘(mul))。并行数学分组748跨数据通道并行地执行算术运算。向量数学分组750包括以0101xxxxb的形式(例如，0x50)的算术指令(例如，dp4)。向量数学分组对向量操作数执行诸如点积计算之类的算术。

图形流水线

图8是图形处理器800的另一实施例的框图。图8中具有与本文任何其他附图中的元件相同的附图标记(或名称)的元件可以以与本文其他地方描述的方式类似的任何方式操作或起作用，但不限于此。

在一些实施例中，图形处理器800包括几何流水线820、媒体流水线830、显示引擎840、线程执行逻辑850和渲染输出流水线870。在一些实施例中，图形处理器800是在包括一个或多个通用处理核心的多核心处理系统内的图形处理器。图形处理器通过寄存器写入一个或多个控制寄存器(未示出)或通过经由环形互连802发布到图形处理器800的命令来控制。在一些实施例中，环形互连802将图形处理器800耦合到其他处理组件(例如，其他图形处理器或通用处理器)。来自环形互连802的命令由命令流送器803解释，该命令流送器803向几何流水线820或媒体流水线830的单独的组件提供指令。

在一些实施例中，命令流送器803指示顶点获取器805从存储器读取顶点数据并且执行由命令流送器803提供的顶点处理命令的操作。在一些实施例中，顶点获取器805将顶点数据提供给顶点着色器807，该顶点着色器807对每个顶点执行坐标空间变换和光照操作。在一些实施例中，顶点获取器805和顶点着色器807通过经由线程分派器831将执行线程分派给执行单元852A-852B来执行顶点处理指令。

在一些实施例中，执行单元852A-852B是具有用于执行图形和媒体操作的指令集的向量处理器的阵列。在一些实施例中，执行单元852A-852B具有附接的L1高速缓存851，该L1高速缓存851特定于每个阵列或在阵列之间共享。可以将高速缓存配置为数据高速缓存、指令高速缓存或被分区以在不同分区中包含数据和指令的单个高速缓存。

在一些实施例中，几何流水线820包括曲面细分组件以执行对3D对象的硬件加速曲面细分。在一些实施例中，可编程外壳着色器811对曲面细分操作进行配置。可编程域着色器817提供曲面细分输出的后端评估。曲面细分器813在外壳着色器811的方向上操作，并且包含专用逻辑以基于作为对几何流水线820的输入被提供的粗略几何模型来生成详细几何对象的集合。在一些实施例中，如果不使用曲面细分，则可以绕过曲面细分组件(例如，外壳着色器811、曲面细分器813和域着色器817)。

在一些实施例中，完整的几何对象可以通过几何着色器819经由分派给执行单元852A-852B的一个或多个线程来处理，或者完整的几何对象可以直接进行到剪切器829。在一些实施例中，几何着色器对整个几何对象进行操作，而不是如在图形流水线的先前阶段中对顶点或顶点的图像块进行操作。如果禁用曲面细分，则几何着色器819接收来自顶点着色器807的输入。在一些实施例中，几何着色器819可由几何着色器程序编程，以在曲面细分单元被禁用时执行几何曲面细分。

在光栅化之前，剪切器829处理顶点数据。剪切器829可以是固定功能剪切器或具有剪切和几何着色器功能的可编程剪切器。在一些实施例中，渲染输出流水线870中的光栅化器和深度测试组件873分派像素着色器以将几何对象转换为每像素表示。在一些实施例中，像素着色器逻辑被包括在线程执行逻辑850中。在一些实施例中，应用可以绕过光栅化器和深度测试组件873并且经由流输出单元823访问未光栅化的顶点数据。

图形处理器800具有互连总线、互连结构或者允许在处理器的主要组件之间传递数据和消息的某种其他互连机制。在一些实施例中，执行单元852A-852B和相关联的逻辑单元(例如，L1高速缓存851、采样器854、纹理高速缓存858等)经由数据端口856互连，以执行存储器访问并且与处理器的渲染输出流水线组件通信。在一些实施例中，采样器854、高速缓存851、858和执行单元852A-852B各自具有单独的存储器访问路径。在一个实施例中，纹理高速缓存858还可以被配置为采样器高速缓存。

在一些实施例中，渲染输出流水线870包含光栅化器和深度测试组件873，该光栅化器和深度测试组件873将基于顶点的对象转换为相关联的基于像素的表示。在一些实施例中，光栅化器逻辑包括用于执行固定功能三角形和线光栅化的加窗器/掩蔽器单元。相关联的渲染高速缓存878和深度高速缓存879在一些实施例中也是可用的。像素操作组件877对数据执行基于像素的操作，但是在一些情况下，与2D操作相关联的像素操作(例如，具有混合的位块图像传送)由2D引擎841执行，或者在显示时由显示控制器843使用覆盖显示平面代替。在一些实施例中，共享L3高速缓存875可用于所有图形组件，从而允许在不使用主系统存储器的情况下共享数据。

在一些实施例中，图形处理器媒体流水线830包括媒体引擎837和视频前端834。在一些实施例中，视频前端834接收来自命令流送器803的流水线命令。在一些实施例中，媒体流水线830包括单独的命令流送器。在一些实施例中，视频前端834在将命令发送到媒体引擎837之前处理媒体命令。在一些实施例中，媒体引擎837包括线程产生功能以产生线程以供经由线程分派器831分派给线程执行逻辑850。

在一些实施例中，图形处理器800包括显示引擎840。在一些实施例中，显示引擎840在处理器800外部，并且经由环形互连802或某种其他互连总线或结构与图形处理器耦合。在一些实施例中，显示引擎840包括2D引擎841和显示控制器843。在一些实施例中，显示引擎840包含能够独立于3D流水线操作的专用逻辑。在一些实施例中，显示控制器843与显示设备(未示出)耦合，该显示设备可以是系统集成显示设备(如在膝上型计算机中)或者经由显示设备连接器附接的外部显示设备。

在一些实施例中，几何流水线820和媒体流水线830可配置以基于多个图形和媒体编程接口执行操作，并且不特定于任何一个应用编程接口(API)。在一些实施例中，用于图形处理器的驱动软件将特定于特定图形或媒体库的API调用转换为可以由图形处理器处理的命令。在一些实施例中，为开放图形库(OpenGL)、开放计算语言(OpenCL)和/或Vulkan图形和计算API(其全部来自Khronos Group)提供支持。在一些实施例中，还可以为来自微软公司的Direct3D库提供支持。在一些实施例中，可以支持这些库的组合。还可以为开源计算机视觉库(OpenCV)提供支持。如果可以进行从具有兼容3D流水线的未来API的流水线到图形处理器的流水线的映射，则还将支持流水线未来API。

图形流水线编程

图9A是示出根据一些实施例的图形处理器命令格式900的框图。图9B是示出根据实施例的图形处理器命令序列910的框图。图9A中的实线框示出了通常被包括在图形命令中的组件，而虚线包括可选的或仅包括在图形命令的子集中的组件。图9A的示例性图形处理器命令格式900包括用于标识客户端902、命令操作代码(操作码)904以及用于命令的数据906的数据字段。在一些命令中还包括子操作码905和命令大小908。

在一些实施例中，客户端902指定图形设备的处理命令数据的客户端单元。在一些实施例中，图形处理器命令解析器检查每个命令的客户端字段以调节对命令的进一步处理并且将命令数据路由到适当的客户端单元。在一些实施例中，图形处理器客户端单元包括存储器接口单元、渲染单元、2D单元、3D单元和媒体单元。每个客户端单元具有处理命令的对应的处理流水线。一旦由客户端单元接收到命令，则客户端单元读取操作码904，并且如果存在，则读取子操作码905以确定要执行的操作。客户端单元使用数据字段906中的信息来执行命令。对于一些命令，期望显式命令大小908指定命令的大小。在一些实施例中，命令解析器基于命令操作码自动地确定命令中的至少一些的大小。在一些实施例中，命令经由双字的倍数对齐。

图9B中的流程图示出了示例性图形处理器命令序列910。在一些实施例中，以图形处理器的实施例为特征的数据处理系统的软件或固件使用所示的命令序列的版本来设置、执行和终止图形操作的集合。仅出于示例的目的示出并描述了样本命令序列，因为实施例不限于这些特定命令或该命令序列。此外，命令可以作为命令序列中的命令批而发布，使得图形处理器将至少部分地同时处理命令的序列。

在一些实施例中，图形处理器命令序列910可以开始于流水线刷新命令912，以使得任何活动的图形流水线完成流水线的当前未决的流水线命令。在一些实施例中，3D流水线922和媒体流水线924不同时地操作。执行流水线刷新以使得活动的图形流水线完成任何未决的命令。响应于流水线刷新，图形处理器的命令解析器将暂停命令处理，直到活动的绘图引擎完成未决的操作并且相关的读取高速缓存是无效的。可选地，渲染高速缓存中标记为“脏”的任何数据可以被刷新到存储器。在一些实施例中，流水线刷新命令912可以用于流水线同步或者在将图形处理器置于低功率状态之前使用。

在一些实施例中，当命令序列要求图形处理器明确地在流水线之间切换时，使用流水线选择命令913。在一些实施例中，在发布流水线命令之前，除非上下文要发布针对两个流水线的命令，否则在执行上下文内仅要求一次流水线选择命令913。在一些实施例中，紧接在经由流水线选择命令913切换流水线之前要求流水线刷新命令912。

在一些实施例中，流水线控制命令914对用于操作的图形流水线进行配置，并且流水线控制命令914用于对3D流水线922和媒体流水线924进行编程。在一些实施例中，流水线控制命令914对活动流水线的流水线状态进行配置。在一个实施例中，流水线控制命令914用于流水线同步，并且在处理命令批之前在活动流水线内从一个或多个高速缓冲存储器清除数据。

在一些实施例中，返回缓冲器状态命令916用于针对相应的流水线配置返回缓冲器的集合以写入数据。某些流水线操作要求分配、选择或配置一个或多个返回缓冲器，在处理期间操作将中间数据写入该一个或多个返回缓冲器中。在一些实施例中，图形处理器还使用一个或多个返回缓冲器来存储输出数据并执行跨线程通信。在一些实施例中，返回缓冲器状态916包括选择要用于流水线操作的集合的返回缓冲器的大小和数量。

命令序列中的其余命令基于用于操作的活动流水线而不同。基于流水线确定920，流水线命令序列被定制用于开始于3D流水线状态930的3D流水线922，或者流水线命令序列被定制用于开始于媒体流水线状态940的媒体流水线924。

用于配置3D流水线状态930的命令包括针对顶点缓冲器状态、顶点元素状态、恒定颜色状态、深度缓冲器状态以及在处理3D基元命令之前要配置的其他状态变量的3D状态设置命令。这些命令的值至少部分地基于使用的特定3D API来确定。在一些实施例中，如果将不使用某些流水线元素，则3D流水线状态930命令也能够选择性地禁用或绕过这些元素。

在一些实施例中，3D基元932命令用于提交要由3D流水线处理的3D基元。经由3D基元932命令传递到图形处理器的命令和相关联的参数被转发到图形流水线中的顶点获取功能。顶点获取功能使用3D基元932命令数据来生成顶点数据结构。顶点数据结构存储在一个或多个返回缓冲器中。在一些实施例中，3D基元932命令用于经由顶点着色器对3D基元执行顶点操作。为了处理顶点着色器，3D流水线922将着色器执行线程分派给图形处理器执行单元。

在一些实施例中，经由执行934命令或事件来触发3D流水线922。在一些实施例中，寄存器写入触发命令执行。在一些实施例中，经由命令序列中的“go”或“kick”命令触发执行。在一个实施例中，使用流水线同步命令来触发命令执行以刷新命令序列通过图形流水线。3D流水线将执行针对3D基元的几何处理。一旦操作完成，生成的几何对象被光栅化，并且像素引擎对生成的像素进行上色。针对这些操作，还可以包括用于控制像素着色和像素后端操作的附加命令。

在一些实施例中，当执行媒体操作时，图形处理器命令序列910遵循媒体流水线924路径。通常，针对媒体流水线924的特定用途和编程方式取决于要执行的媒体操作或计算操作。在媒体解码期间，可以将特定媒体解码操作卸载到媒体流水线。在一些实施例中，还可以绕过媒体流水线，并且可以使用由一个或多个通用处理核心提供的资源来全部或部分地执行媒体解码。在一个实施例中，媒体流水线还包括用于通用图形处理器单元(GPGPU)操作的元件，其中图形处理器用于使用与对图形基元的渲染不明确相关的计算着色器程序来执行SIMD向量操作。

在一些实施例中，媒体流水线924以与3D流水线922类似的方式配置。用于配置媒体流水线状态940的命令的集合在媒体对象命令942之前被分派或放置到命令队列中。在一些实施例中，针对媒体流水线状态940的命令包括用于配置将用于处理媒体对象的媒体流水线元素的数据。这包括用于在媒体流水线内配置视频解码逻辑和视频编码逻辑的数据，例如，编码格式或解码格式。在一些实施例中，针对媒体流水线状态940的命令还支持使用指向包含一批状态设置的“间接”状态元素的一个或多个指针。

在一些实施例中，媒体对象命令942供应指向用于由媒体流水线处理的媒体对象的指针。媒体对象包括存储器缓冲器，该存储器缓冲器包含要被处理的视频数据。在一些实施例中，在发布媒体对象命令942之前，所有媒体流水线状态必须是有效的。一旦流水线状态被配置并且媒体对象命令942被排队，则经由执行命令944或等效执行事件(例如，寄存器写入)触发媒体流水线924。然后，可以通过由3D流水线922或媒体流水线924提供的操作对来自媒体流水线924的输出进行后处理。在一些实施例中，以与媒体操作类似的方式来配置并执行GPGPU操作。

图形软件架构

图10示出了根据一些实施例的用于数据处理系统1000的示例性图形软件架构。在一些实施例中，软件架构包括3D图形应用1010、操作系统1020和至少一个处理器1030。在一些实施例中，处理器1030包括图形处理器1032以及一个或多个通用处理器核心1034。图形应用1010和操作系统1020各自在数据处理系统的系统存储器1050中执行。

在一些实施例中，3D图形应用1010包含一个或多个着色器程序，该一个或多个着色器程序包括着色器指令1012。着色器语言指令可以采用诸如高级着色器语言(HLSL)或OpenGL着色器语言(GLSL)之类的高级着色器语言。该应用还包括采用适用于由通用处理器核心1034执行的机器语言的可执行指令1014。该应用还包括由顶点数据定义的图形对象1016。

在一些实施例中，操作系统1020是来自微软公司的

操作系统、使用Linux内核的变体的专有类UNIX操作系统或开源类UNIX操作系统。操作系统1020可以支持图形API 1022，例如，Direct3D API、OpenGL API或Vulkan API。当使用Direct3DAPI时，操作系统1020使用前端着色器编译器1024以将采用HLSL的任何着色器指令1012编译为较低级别的着色器语言。编译可以是即时(JIT)编译，或者应用可以执行着色器预编译。在一些实施例中，在编译3D图形应用1010期间，高级别着色器被编译为低级别着色器。在一些实施例中，着色器指令1012以中间形式提供，例如，Vulkan API使用的标准便携式中间表示(SPIR)的版本。

在一些实施例中，用户模式图形驱动程序1026包含后端着色器编译器1027，以将着色器指令1012转换为硬件特定表示。当使用OpenGL API时，采用GLSL高级语言的着色器指令1012被传递到用户模式图形驱动程序1026以进行编译。在一些实施例中，用户模式图形驱动程序1026使用操作系统内核模式功能1028来与内核模式图形驱动程序1029通信。在一些实施例中，内核模式图形驱动程序1029与图形处理器1032通信以分派命令和指令。

IP核心实现方式

可以通过存储在机器可读介质上的代表性代码来实现至少一个实施例的一个或多个方面，该代表性代码表示和/或定义诸如处理器之类的集成电路内的逻辑。例如，机器可读介质可以包括表示处理器内的各种逻辑的指令。当由机器读取时，指令可以使得机器制造逻辑以执行本文所描述的技术。这种被称为“IP核心”的表示是用于集成电路的可重用的逻辑单元，其可以存储在有形的机器可读介质上，作为描述集成电路的结构的硬件模型。可以将硬件模型供应给各种客户或制造设施，这些客户或制造设施将硬件模型加载到制造集成电路的制造机器上。可以制造集成电路，使得该电路执行与本文所描述的实施例中的任何一个相关联地描述的操作。

图11A是示出根据实施例的可以用于制造集成电路以执行操作的IP核心开发系统1100的框图。IP核心开发系统1100可以用于生成模块化、可重用的设计，其可以结合到更大的设计中或用于构建整个集成电路(例如，SOC集成电路)。设计设施1130可以采用高级编程语言(例如，C/C++)生成IP核心设计的软件仿真1110。软件仿真1110可以用于使用仿真模型1112设计、测试并验证IP核心的行为。仿真模型1112可以包括功能、行为和/或定时仿真。然后可以根据仿真模型1112创建或合成寄存器传送级别(RTL)设计1115。RTL设计1115是对集成电路(其对数字信号在硬件寄存器之间的流动进行建模，包括使用经建模的数字信号执行的相关联的逻辑)的行为的抽象。除了RTL设计1115之外，还可以创建、设计或合成逻辑级别或晶体管级别的较低级别设计。因此，初始设计和仿真的特定细节可以变化。

RTL设计1115或等效物可以由设计设施进一步合成为硬件模型1120，该硬件模型1120可以采用硬件描述语言(HDL)或物理设计数据的某种其他表示。可以进一步仿真或测试HDL以验证IP核心设计。可以存储IP核心设计以使用非易失性存储器1140(例如，硬盘、闪速存储器或任何非易失性存储介质)递送到第三方制造设施1165。可替代地，可以通过有线连接1150或无线连接1160(例如，经由互联网)发送IP核心设计。然后，制造设施1165可以制造至少部分地基于该IP核心设计的集成电路。制造的集成电路可以被配置为执行根据本文所描述的至少一个实施例的操作。

图11B示出了根据本文所描述的一些实施例的集成电路封装组装件1170的横截面侧视图。集成电路封装组装件1170示出了如本文所描述的一个或多个处理器或加速器设备的实现方式。封装组装件1170包括连接到衬底1180的多个硬件逻辑单元1172、1174。逻辑1172、1174可以至少部分地以可配置逻辑或固定功能逻辑硬件实现，并且可以包括本文所描述的(多个)处理器核心、(多个)图形处理器或其他加速器设备中的任一个中的一个或多个部分。每个逻辑单元1172、1174可以在半导体管芯内实现，并且经由互连结构1173与衬底1180耦合。互连结构1173可以被配置为在逻辑1172、1174与衬底1180之间路由电信号，并且该互连结构1173可以包括互连，例如但不限于凸块或支柱。在一些实施例中，互连结构1173可以被配置为路由电信号，例如，与逻辑1172、1174的操作相关联的输入/输出(I/O)信号和/或电源或接地信号。在一些实施例中，衬底1180是基于环氧树脂的层压衬底。在其他实施例中，封装衬底1180可以包括其他合适类型的衬底。封装组装件1170可以经由封装互连1183连接到其他电子设备。封装互连1183可以耦合到衬底1180的表面以将电信号路由到其他电子设备，例如，母板、其他芯片组或多芯片模块。

在一些实施例中，逻辑单元1172、1174与桥1182电耦合，该桥1182被配置为在逻辑1172、1174之间路由电信号。桥1182可以是提供用于电信号的路由的密集互连结构。桥1182可以包括由玻璃或合适的半导体材料构成的桥衬底。可以在桥衬底上形成电路由特征，以提供逻辑1172、1174之间的芯片到芯片连接。

尽管示出了两个逻辑单元1172、1174和桥1182，但是本文所描述的实施例可以在一个或多个管芯上包括更多或更少的逻辑单元。一个或多个管芯可以通过零个或更多个桥连接，因为当逻辑被包括在单个管芯上时可以排除桥1182。可替代地，多个管芯或逻辑单元可以通过一个或多个桥连接。另外地，多个逻辑单元、管芯和桥可以以其他可能的配置(包括三维配置)连接在一起。

示例性片上系统集成电路

图12-14示出了根据本文所描述的各种实施例的可以使用一个或多个IP核心制造的示例性集成电路和相关联的图形处理器。除了所示的内容之外，还可以包括其他逻辑和电路，包括附加的图形处理器/核心、外围接口控制器或通用处理器核心。

图12是示出根据实施例的可以使用一个或多个IP核心制造的示例性片上系统集成电路1200的框图。示例性集成电路1200包括一个或多个应用处理器1205(例如，CPU)、至少一个图形处理器1210，并且可以另外地包括图像处理器1215和/或视频处理器1220，其中任何一个可以是根据相同的或多个不同的设计设施的模块化IP核心。集成电路1200包括外围设备或总线逻辑，包括USB控制器1225、UART控制器1230、SPI/SDIO控制器1235和I2S/I2C控制器1240。另外地，集成电路可以包括显示设备1245，该显示设备1245与高清晰度多媒体接口(HDMI)控制器1250和移动工业处理器接口(MIPI)显示接口1255中的一个或多个耦合。存储装置可以由包括闪速存储器和闪速存储器控制器的闪速存储器子系统1260提供。可以经由存储器控制器1265提供存储器接口以访问SDRAM或SRAM存储器设备。一些集成电路另外地包括嵌入式安全引擎1270。

图13A-13B是示出根据本文所描述的实施例的在SoC内使用的示例性图形处理器的框图。图13A示出了根据实施例的可以使用一个或多个IP核心制造的片上系统集成电路的示例性图形处理器1310。图13B示出了根据实施例的可以使用一个或多个IP核心制造的片上系统集成电路的附加的示例性图形处理器1340。图13A的图形处理器1310是低功率图形处理器核心的示例。图13B的图形处理器1340是更高性能图形处理器核心的示例。图形处理器1310、1340中的每一个可以是图12的图形处理器1210的变体。

如图13A中示出的，图形处理器1310包括顶点处理器1305和一个或多个片段处理器1315A-1315N(例如，1315A、1315B、1315C、1315D到1315N-1和1315N)。图形处理器1310可以经由单独的逻辑执行不同的着色器程序，使得顶点处理器1305被优化以执行针对顶点着色器程序的操作，而一个或多个片段处理器1315A-1315N执行针对片段或像素着色器程序的片段(例如，像素)着色操作。顶点处理器1305执行3D图形流水线的顶点处理阶段并且生成基元和顶点数据。(多个)片段处理器1315A-1315N使用由顶点处理器1305生成的基元和顶点数据来产生显示在显示设备上的帧缓冲器。在一个实施例中，(多个)片段处理器1315A-1315N被优化以执行如OpenGL API中提供的片段着色器程序，该片段着色器程序可以用于执行与Direct 3D API中提供的像素着色器程序类似的操作。

图形处理器1310另外地包括一个或多个存储器管理单元(MMU)1320A-1320B、(多个)高速缓存1325A-1325B和(多个)电路互连1330A-1330B。一个或多个MMU 1320A-1320B为图形处理器1310(包括为顶点处理器1305和/或(多个)片段处理器1315A-1315N)提供虚拟到物理地址映射，其除了存储在一个或多个高速缓存1325A-1325B中的顶点或图像/纹理数据之外还可以参考存储在存储器中的顶点或图像/纹理数据。在一个实施例中，一个或多个MMU 1320A-1320B可以与系统内的其他MMU(包括与图12的一个或多个应用处理器1205、图像处理器1215和/或视频处理器1220相关联的一个或多个MMU)同步，使得每个处理器1205-1220可以参与共享或统一的虚拟存储器系统。根据实施例，一个或多个电路互连1330A-1330B使得图形处理器1310能够经由SoC的内部总线或经由直接连接与SoC内的其他IP核心相接合。

如图13B所示，图形处理器1340包括图13A的图形处理器1310的一个或多个MMU1320A-1320B、高速缓存1325A-1325B和电路互连1330A-1330B。图形处理器1340包括一个或多个着色器核心1355A-1355N(例如，1355A、1355B、1355C、1355D、1355E、1355F到1355N-1和1355N)，一个或多个着色器核心1355A-1355N提供统一的着色器核心架构，其中单核心或类型或核心可以执行所有类型的可编程着色器代码，包括用于实现顶点着色器、片段着色器和/或计算着色器的着色器程序代码。存在的着色器核心的精确数量可以在实施例和实现方式之间变化。另外地，图形处理器1340包括核心间任务管理器1345，该核心间任务管理器1345用作线程分派器以将执行线程分派给一个或多个着色器核心1355A-1355N和图块拼接单元1358，图块拼接单元1358用于加速用于基于图块的渲染的图块拼接操作，其中针对场景的渲染操作在图像空间中被细分，以例如利用场景内的本地空间一致性或优化内部高速缓存的使用。

图14A-14B示出了根据本文所描述的实施例的附加的示例性图形处理器逻辑。图14A示出了可以包括在图12的图形处理器1210内的图形核心1400，并且该图形核心1400可以是如图13B中的统一的着色器核心1355A-1355N。图14B示出了附加的高度并行通用图形处理单元1430，其为适用于部署在多芯片模块上的高度并行通用图形处理单元。

如图14A中示出的，图形核心1400包括共享指令高速缓存1402、纹理单元1418和高速缓冲/共享存储器1420，它们对于图形核心1400内的执行资源是公共的。图形核心1400可以包括多个切片1401A-1401N或者每个核心的分区，并且图形处理器可以包括图形核心1400的多个实例。切片1401A-1401N可以包括支持逻辑，该支持逻辑包括本地指令高速缓存1404A-1404N、线程调度器1406A-1406N、线程分派器1408A-1408N以及寄存器的集合1410A-1440N。为了执行逻辑操作，切片1401A-1401N可以包括附加功能单元(AFU 1412A-1412N)、浮点单元(FPU 1414A-1414N)、整数算术逻辑单元(ALU 1416A-1416N)、地址计算单元(ACU1413A-1413N)、双精度浮点单元(DPFPU 1415A-1415N)和矩阵处理单元(MPU 1417A-1417N)的集合。

计算单元中的一些以特定精度操作。例如，FPU 1414A-1414N可以执行单精度(32位)和半精度(16位)浮点运算，而DPFPU 1415A-1415N执行双精度(64位)浮点运算。ALU1416A-1416N可以以8位、16位和32位精度执行可变精度整数运算，并且ALU 1416A-1416N可以被配置用于混合精度运算。MPU 1417A-1417N也可以被配置用于混合精度矩阵运算，包括半精度浮点运算和8位整数运算。MPU 1417A-1417N可以执行各种矩阵运算以加速机器学习应用框架，包括使得能够支持加速的通用矩阵到矩阵乘法(GEMM)。AFU 1412A-1412N可以执行浮点或整数单元不支持的附加逻辑运算，包括三角函数运算(例如，正弦、余弦等)。

如图14B中示出的，通用处理单元(GPGPU)1430可以被配置为使得高度并行的计算操作能够由图形处理单元的阵列执行。另外地，GPGPU 1430可以直接链接到GPGPU的其他实例以创建多GPU集群以改进特别深的神经网络的训练速度。GPGPU 1430包括主机接口1432以实现与主机处理器的连接。在一个实施例中，主机接口1432是PCI快速接口。然而，主机接口也可以是供应商特定的通信接口或通信结构。GPGPU 1430接收来自主机处理器的命令并且使用全局调度器1434将与那些命令相关联的执行线程分发到计算集群的集合1436A-1436H。计算集群1436A-1436H共享高速缓冲存储器1438。高速缓冲存储器1438可以用作计算集群1436A-1436H内的高速缓冲存储器的更高级别的高速缓存。

GPGPU 1430包括经由存储器控制器的集合1442A-1442B与计算集群1436A-1436H耦合的存储器1444A-1444B。在各种实施例中，存储器1444A-1444B可以包括各种类型的存储器设备，包括动态随机存取存储器(DRAM)或图形随机存取存储器，例如，同步图形随机存取存储器(SGRAM)，包括图形双倍数据速率(GDDR)存储器。

在一个实施例中，计算集群1436A-1436H各自包括图形核心(例如，图14A的图形核心1400)的集合，该图形核心的集合可以包括多种类型的整数和浮点逻辑单元，其可以以包括适合于机器学习计算的精度范围执行计算操作。例如，在一个实施例中，至少计算集群1436A-1436H中的每一个中的浮点单元的子集可以被配置为执行16位或32位浮点运算，而浮点单元的不同子集可以被配置为执行64位浮点运算。

GPGPU 1430的多个实例可以被配置为作为计算集群操作。由计算集群使用以进行同步和数据交换的通信机制跨实施例而变化。在一个实施例中，GPGPU 1430的多个实例通过主机接口1432进行通信。在一个实施例中，GPGPU 1430包括I/O中心1439，该I/O中心1439将GPGPU 1430与GPU链路1440耦合，该GPU链路1440实现与GPGPU的其他实例的直接连接。在一个实施例中，GPU链路1440耦合到专用GPU到GPU桥，该专用GPU到GPU桥实现GPGPU 1430的多个实例之间的通信和同步。在一个实施例中，GPU链路1440与高速互连耦合以将数据发送到其他GPGPU或并行处理器，并且从其他GPGPU或并行处理器接收数据。在一个实施例中，GPGPU 1430的多个实例位于单独的数据处理系统中，并且经由网络设备进行通信，该网络设备可经由主机接口1432访问。在一个实施例中，除了主机接口1432之外或作为其替代，GPU链路1440可以被配置为实现与主机处理器的连接。

虽然GPGPU 1430的所示配置可以被配置用于训练神经网络，但是一个实施例提供了GPGPU 1430的替代配置，其可以被配置用于部署在高性能或低功率推理平台内。在推理配置中，GPGPU 1430相对于训练配置包括更少的计算集群1436A-1436H。另外地，与存储器1444A-1444B相关联的存储器技术可以在推理配置与训练配置之间不同，其中更高带宽的存储器技术专用于训练配置。在一个实施例中，GPGPU 1430的推理配置可以支持推理特定的指令。例如，推理配置可以提供对一个或多个8位整数点积指令的支持，这些指令通常在部署的神经网络的推理运算期间使用。

利用机器学习进行光线追踪

如上面所提到的，光线追踪是一种图形处理技术，其中通过基于物理的渲染来对光传输进行仿真。光线追踪中的关键操作中的一个是处理可见性查询，该可见性查询要求对包围体积层级(BVH)中的节点进行遍历和交叉测试。

基于光线追踪和路径追踪的技术通过追踪穿过每个像素的光线和路径并且使用随机采样来计算图像，以计算诸如阴影、光泽度、间接照明等之类的高级效果。仅使用少量样本是快速的但是产生有噪图像，而使用许多样本时产生高质量的图像但是成本过高。

在过去几年中，用于实时使用的光线追踪/路径追踪的突破性解决方案已经以“去噪”的形式出现——使用图像处理技术来根据有噪的、低样本计数输入产生高质量的、经滤波/去噪的图像的过程。最高效的去噪技术依赖于机器学习技术，其中机器学习引擎学习如果利用更多样本计算有噪图像则该有噪图像可能看起来是什么样的。在一个特定实现方式中，机器学习由卷积神经网络(CNN)执行；然而，本发明的基本原理不限于CNN实现方式。在这样的实现方式中，训练数据以低样本计数输入和基准实值(ground-truth)产生。CNN被训练用于根据所讨论的像素周围的有噪像素输入的邻域来预测经收敛的像素。

尽管不是完美的，但是这种基于AI的去噪技术已经被证明是令人惊讶地高效的。然而，需要注意的是，要求良好的训练数据，因为否则网络可能会预测错误的结果。例如，如果动画电影工作室针对具有陆地场景的过去的电影来训练去噪CNN，然后尝试使用经训练的CNN来对来自在水上拍摄的新电影的帧进行去噪，则去噪操作将次优地执行。

为了解决该问题，本发明的一个实施例在渲染的同时动态地聚集学习数据，并且基于机器学习引擎(例如，CNN)当前正在对其运行的数据来连续地训练机器学习引擎，因此连续地改进机器学习引擎以用于手头的任务。该实施例仍然可以在运行时之前执行训练阶段，但是在运行时期间根据需要继续调整机器学习权重。另外地，该实施例通过每一帧或每N帧将学习数据的生成限制到图像的子区域，避免了计算训练所要求的参考数据的高成本。特别地，生成帧的有噪输入以利用当前网络对整帧进行去噪。另外地，如下面描述的，参考像素的小的区域被生成并且用于连续训练。

虽然关于某些实施例描述了CNN实现方式，但是可以使用任何形式的机器学习引擎，包括但不限于执行有监督学习(例如，构建包含输入和期望输出两者的数据集的数学模型)、无监督学习(例如，其评估某些类型的结构的输入数据)和/或有监督学习和无监督学习的组合的系统。

现有的去噪实现方式在训练阶段和运行时阶段中操作。在训练阶段期间，定义网络拓扑，该网络拓扑接收具有各种每像素数据通道(例如，像素颜色、深度、法线、法线偏差、基元ID和反照率)的N×N像素的区域，并且生成最终像素颜色。使用一帧价值的低样本计数输入并且参考利用非常高的样本计数计算的“期望的”像素颜色来生成“代表性”训练数据的集合。针对这些输入来训练网络，从而生成针对该网络的“理想”权重的集合。在这些实现方式中，参考数据用于训练网络的权重，以使得网络的输出最接近地匹配期望的结果。

在运行时，加载给定的预先计算的理想网络权重并初始化网络。对于每个帧，生成去噪输入的低样本计数图像(即，与用于训练的图像相同)。对于每个像素，像素的输入的给定邻域通过网络运行以预测“经去噪的”像素颜色，从而生成经去噪的帧。

图15示出了初始训练实现方式的一个实施例。机器学习引擎1500(例如，CNN)接收N×N像素的区域作为具有各种每像素数据通道(例如，像素颜色、深度、法线、法线偏差、基元ID和反照率)的高样本计数图像数据1702，并且生成最终的像素颜色。使用一帧价值的低样本计数输入1501生成代表性训练数据。针对这些输入来训练网络，从而生成“理想”权重的集合1505，机器学习引擎1500随后使用该“理想”权重的集合1505在运行时对低样本计数图像进行去噪。

为了改进上述技术，本发明的一个实施例增强去噪阶段以每一帧帧的子集(例如，每N帧，其中N＝2、3、4、10、25等)生成新训练数据。特别地，如图16中示出的，该实施例选择每个帧中的一个或多个区域(这里称为“新的参考区域”1602)，其以高样本计数渲染到单独的高样本计数缓冲器1606中。低样本计数缓冲器1603存储低样本计数输入帧1601(其包括对应于新的参考区域1602的低样本区域1604)。

在一个实施例中，随机选择新的参考区域1602的位置。可替代地，可以针对每个新帧以预先指定的方式(例如，使用帧之间的区域的预定义的移动、限制到在帧的中心中的指定区域等)来调整新的参考区域1602的位置。

无论如何选择新的参考区域，机器学习引擎1600都使用该新的参考区域来连续地改善并更新用于去噪的经训练的权重1605。特别地，对来自每个新的参考区域1602的参考像素颜色以及来自对应的低样本计数区域1607的有噪参考像素输入进行渲染。然后使用高样本计数参考区域1602和对应的低样本计数区域1607对机器学习引擎1600执行补充训练。与初始训练相比，在运行时期间针对每个新的参考区域1602连续地执行该训练——从而确保机器学习引擎1600被精确训练。例如，可以评估每像素数据通道(例如，像素颜色、深度、法线、法线偏差等)，机器学习引擎1600使用该每像素数据通道来对经训练的权重1605进行调整。如在训练情况中那样(图15)，机器学习引擎1600针对理想权重的集合1605进行训练，以用于从低样本计数输入帧1601中去除噪声以生成经去噪的帧1620。然而，在该实施例中，基于新的类型的低样本计数输入帧1601的新的图像特性来连续地更新经训练的权重1605。

在一个实施例中，由机器学习引擎1600实施的重新训练操作在图形处理器单元(GPU)或主机处理器上的后台进程中同时执行。可以被实现为驱动器组件和/或GPU硬件组件的渲染循环连续地产生其放置在队列中的(例如，以新的参考区域1602的形式的)新的训练数据。在GPU或主机处理器上执行的后台训练进程连续地从该队列中读取新的训练数据、重新训练机器学习引擎1600并且以适当的间隔利用新的权重1605对机器学习引擎1600进行更新。

图17示出了一个这样的实现方式的示例，其中后台训练进程1700由主机CPU 1710实现。特别地，在该实施例中，后台训练进程1700使用高样本计数的新的参考区域1602以及对应的低样本区域1604以连续地更新经训练的权重1605，从而更新机器学习引擎1600。

如图18A中示出的，在例如多玩家在线游戏的一种实现方式中，不同的主机机器1820-1822单独地生成后台训练进程1700A-C发送到服务器1800(例如，游戏服务器)的参考区域。然后，服务器1800使用从主机1821-1822中的每一个接收到的新的参考区域对机器学习引擎1810执行训练，从而如先前所描述地更新权重1805。服务器1800将这些权重1805发送到存储权重1605A-C的主机机器1820-1822，由此更新每个单独的机器学习引擎(未示出)。因为服务器1800可以在短时间段内被提供大量参考区域，所以服务器1800可以高效且精确地更新用户正在执行的任何给定应用(例如，在线游戏)的权重。

如图18B中示出的，不同的主机机器可以(例如，基于如先前所描述的训练/参考区域1602)生成新的经训练的权重，并且与服务器1800(例如，游戏服务器)共享新的经训练的权重，或者可替代地使用对等共享协议。服务器上的机器学习管理组件1810使用从主机机器中的每一个接收的新的权重生成组合权重的集合1805。例如，组合权重1805可以是根据新的权重生成的平均值，并且如本文所描述地连续地更新。一旦生成组合权重1805，组合权重的副本1605A-1605C就可以被发送并存储在主机机器1820-1821中的每一个上，然后主机机器1820-1821可以使用如本文所描述的组合权重来执行去噪操作。

在一个实施例中，该半闭环更新机制可以由硬件制造商使用。例如，参考网络可以被包括作为由硬件制造商分发的驱动程序的一部分。当驱动程序使用本文所描述的技术生成新的训练数据并且连续地将这些训练数据提交回硬件制造商时，硬件制造商使用该信息来继续改进其机器学习实现方式以用于下一个驱动程序更新。

在一种实现方式中(例如，在渲染场上的批电影渲染中)，渲染器将新生成的训练区域发送到(在该工作室的渲染场中的)专用服务器或数据库，该专用服务器或数据库随时间从多个渲染节点聚合该数据。在单独的机器上的单独过程连续地改进工作室的专用去噪网络，并且新的渲染工作始终使用最新训练的网络。

在图19中示出了根据本发明的一个实施例的一种方法。该方法可以在本文所描述的架构上实现，但不限于任何特定的系统或图形处理架构。

在1901处，作为初始训练阶段的一部分，针对多个图像帧生成低样本计数图像数据以及高样本计数图像数据。在1902处，使用高/低样本计数图像数据来训练机器学习去噪引擎。在一个实施例中，例如，可以根据训练来更新与像素特征相关联的卷积神经网络权重的集合。然而，可以使用任何机器学习架构。

在1903处，在运行时，低样本计数图像帧连同具有高样本计数的至少一个参考区域一起被生成。在1905处，机器学习引擎和/或单独的训练逻辑(例如，后台训练模块1700)使用高样本计数参考区域来连续地改善机器学习引擎的训练。例如，在一个实施例中，高样本计数参考区域与低样本计数图像的对应部分结合使用，以继续教导机器学习引擎1904如何最高效地执行去噪。例如，在CNN实现方式中，这可能涉及更新与CNN相关联的权重。

可以实现上面所描述的实施例的各种变型，例如，配置到机器学习引擎的反馈回路的方式、生成训练数据的实体、将训练数据反馈回训练引擎的方式以及如何将改进后的网络提供给渲染引擎。另外地，虽然上面所描述的以上实施例使用单个参考区域执行连续训练，但是可以使用任何数量的参考区域。此外，如先前所提到的，参考区域可以具有不同的大小、可以针对不同数量的图像帧使用并且可以使用不同的技术(例如，随机的、根据预先确定的模式等)被定位在图像帧内的不同位置。

另外地，虽然卷积神经网络(CNN)被描述为机器学习引擎1600的一个示例，但是本发明的基本原理可以使用能够使用新的训练数据连续地改善机器学习引擎的结果的任何形式的机器学习引擎来实现。通过示例而非限制的方式，其他机器学习实现方式包括数据处理分组方法(GMDH)、长期短期存储器、深度储层计算、深度信念网络、张量深度堆叠网络和深度预测编码网络，仅举几例。

用于高效的分布式去噪的装置和方法

如上面所描述的，去噪已经成为对平滑无噪声图像的实时光线追踪的关键特征。渲染可以跨多个设备上的分布式系统完成，但是到目前为止，现有的去噪框架都对单个机器上的单个实例进行操作。如果正在跨多个设备进行渲染，则这些设备可能不具有可用于计算图像的经去噪的部分的所有经渲染的像素。

本发明的一个实施例包括分布式去噪算法，其与基于人工智能(AI)的去噪技术和基于非AI的去噪技术两者一起工作。图像的区域要么已经跨来自分布式渲染操作的节点分布，要么从单个帧缓冲器分割并分布。在需要时从相邻节点收集计算充分去噪所需要的相邻区域的重影区域，并且最终得到的图块被合成为最终图像。

分布式处理

图20示出了本发明的一个实施例，其中多个节点2021-2023执行渲染。虽然为简单起见仅示出了三个节点，但是本发明的基本原理不限于任何特定数量的节点。实际上，单个节点可以用于实现本发明的某些实施例。

节点2021-2023各自渲染图像的一部分，从而在该示例中产生区域2011-2013。虽然图20中示出了矩形区域2011-2013，但是可以使用任何形状的区域，并且任何设备可以处理任何数量的区域。节点执行足够平滑的去噪操作所需要的区域被称为重影区域2001-2003。换言之，重影区域2001-2003表示以特定的质量水平执行去噪所要求的全部数据。降低质量水平会减小重影区域的大小，并且因此会减小所要求的数据量，并且提高质量水平会增加重影区域和所要求的对应数据。

在一个实施例中，如果诸如节点2021之类的节点确实具有以特定的质量水平对其区域2011进行去噪所要求的重影区域2001的一部分的本地副本，则该节点将从一个或多个“相邻”节点(例如，拥有如所示的重影区域2001的一部分的节点2022)中取回所要求的数据。类似地，如果节点2022确实具有以特定的质量水平对其区域2012进行去噪所要求的重影区域2002的一部分的本地副本，则节点2022将从节点2021取回所要求的重影区域数据2002。可以通过总线、互连、高速存储器结构、网络(例如，高速以太网)或者甚至可以通过(例如，用于以极端分辨率或时变方式渲染大图像的)能够在多个核心之间分发渲染工作的多核心芯片中的片上互连执行取回。在一个实施例中，每个节点2021-2023包括图形处理器内的单个执行单元或执行单元的指定集合。

要发送的特定数据量取决于所使用的去噪技术。此外，来自重影区域的数据可以包括改进对每个相应区域的去噪所需要的任何数据。在一个实施例中，例如，重影区域数据包括图像颜色/波长、强度/阿尔法(alpha)数据和/或法线。然而，本发明的基本原理不限于重影区域数据的任何特定的集合。

一个实施例的附加细节

对于较慢的网络或互连，可以使用现有的通用无损或有损压缩来利用对该数据的压缩。示例包括但不限于zlib、gzip和Lempel-Ziv-Markov链算法(LZMA)。通过注意以下内容，可以使用进一步的内容特定的压缩：帧之间的光线命中信息的增量可能相当稀疏，并且当节点已经具有从先前的帧收集的增量时，仅需要发送对该增量有贡献的样本。这些可以被选择性地推送到收集那些样本的节点i，或者节点i可以从其他节点请求样本。在一个实施例中，无损压缩用于某些类型的数据和程序代码，而有损数据用于其他类型的数据。

图21示出了根据本发明一个实施例的节点2021-2022之间的交互的附加细节。每个节点2021-2022包括用于渲染相应的图像区域2011-2012和重影区域2001-2002的光线追踪渲染电路2081-2082。去噪器2100、2111分别对区域2011-2012执行去噪操作，每个节点2021-2022负责对该区域2011-2012进行渲染和去噪。例如，去噪器2100、2111可以包括电路、软件或其任何组合，以分别生成经去噪的区域2121-2122。如所提到的，当生成经去噪的区域时，去噪器2100、2111可能需要依赖于由不同节点拥有的重影区域内的数据(例如，去噪器2100可能需要来自由节点2022拥有的重影区域2002的数据)。

因此，在一个实施例中，去噪器2100、2111分别使用来自区域2011-2012和重影区域2001-2002的数据生成经去噪的区域2121-2122，该数据的至少一部分可以从另一节点接收。如本文所描述的，区域数据管理器2101-2102管理来自重影区域2001-2002的数据传送。在一个实施例中，压缩器/解压缩器单元2131-2132分别对在节点2021-2022之间交换的重影区域数据执行压缩和解压缩。

例如，节点2021的区域数据管理器2101可以根据来自节点2022的请求，将来自重影区域2001的数据发送到压缩器/解压缩器2131，该压缩器/解压缩器2131对数据进行压缩以生成经压缩的数据2106，压缩器/解压缩器2131将该经压缩的数据2106发送到节点2022，从而通过互连、网络、总线或其他数据通信链路来减少带宽。然后，节点2022的压缩器/解压缩器2132对经压缩的数据2106进行解压缩，并且去噪器2111使用经解压缩的重影数据来生成比利用仅来自区域2012的数据可能达到的更高质量的经去噪的区域2122。区域数据管理器2102可以将来自重影区域2001的经解压缩的数据存储在高速缓存、存储器、寄存器文件或其他存储装置中，以在生成经去噪的区域2122时使得该经解压缩的数据可用于去噪器2111。可以执行类似的操作集以将来自重影区域2002的数据提供给节点2021上的去噪器2100，该去噪器2100使用该数据结合来自区域2011的数据以生成更高质量的经去噪的区域2121。

获取数据或渲染

如果诸如节点2021-2022之类的设备之间的连接缓慢(即，低于阈值时延和/或阈值带宽)，则在本地渲染重影区域而不是从其他设备请求结果可能是更快的。这可以在运行时通过追踪网络事务速度和针对重影区域大小的线性外推渲染时间来确定。在渲染出整个重影区域更快的这种情况下，多个设备可能以渲染图像的相同部分作为结束。可以基于基本区域的方差和所确定的模糊程度来调整重影区域的经渲染部分的分辨率。

负载平衡

在一个实施例中，静态和/或动态负载平衡方案可以用于在各种节点2021-2023之间分发处理负载。对于动态负载平衡，由去噪滤波器确定的方差可能要求以下两者：更多的去噪时间但是驱动用于渲染场景的特定区域的样本量，具有低方差和要求更少的样本的图像的模糊区域。指派给特定节点的特定区域可以基于来自先前帧的数据进行动态地调整，或者该特定的区域在其被渲染时跨设备动态地传送，使得所有设备将具有相同的工作量。

图22示出了一个实施例，其中在每个相应节点2021-2022上运行的监视器2201-2202收集性能度量数据，该性能度量数据包括但不限于通过网络接口2211-2212发送数据所消耗的时间、在对(具有和不具有重影区域数据的)区域进行去噪时消耗的时间以及渲染每个区域/重影区域所消耗的时间。监视器2201-2202将这些性能度量报告回管理器或负载平衡器节点2201，该管理器或负载平衡器节点2201分析数据以标识每个节点2021-2022上的当前工作负载并且潜在地确定处理各种经去噪的区域2121-2122的更高效的模式。然后，管理器节点2201根据检测到的负载将针对新的区域的新的工作负载分发给节点2021-2022。例如，管理器节点2201可以向那些没有重负载的节点发送更多的工作和/或重新分配来自那些过负载的节点的工作。另外地，负载平衡器节点2201可以发送重新配置命令以调整由节点中的每一个执行渲染和/或去噪的特定方式(在上面描述了其一些示例)。

确定重影区域

在一个实施例中，基于由去噪器2100、2111实现的去噪算法来确定重影区域2001-2002的大小和形状。然后可以基于检测到的正在被去噪的样本的方差来动态地修改重影区域2001-2002的相应大小。用于AI去噪的学习算法自身可以用于确定适当的区域大小，或者在例如双侧模糊的其他情况下，预先确定的滤波器宽度将确定重影区域2001-2002的大小。在使用学习算法的实现方式中，机器学习引擎可以在管理器节点2201上执行和/或机器学习的部分可以在单个节点2021-2023中的每一个上执行(参见例如图18A-18B和上面的相关联的文字)。

聚集最终图像

在一个实施例中，通过聚集来自节点2021-2023中的每一个的经渲染和经去噪的区域(而不需要重影区域或法线)来生成最终图像。在图22中，例如，经去噪的区域2121-2122被发送到管理器节点2201的区域处理器2280，该区域处理器2280组合这些区域以生成最终经去噪的图像2290，然后将该最终经去噪的图像2290显示在显示器2291上。区域处理器2280可以使用各种2D合成技术来组合这些区域。虽然被示为单独的组件，但是区域处理器2280和经去噪的图像2290可以是显示器2291的组成部分。在该实施例中，各种节点2021-2022可以使用直接发送技术以发送经去噪的区域2121-2122，并且潜在地使用对区域数据的各种有损或无损压缩。

AI去噪仍然是昂贵的操作并且随着游戏而进入云中。因此，可能变得要求跨多个节点2021-2022分发去噪处理，以实现针对要求更高帧速率的传统游戏或虚拟现实(VR)的实时帧速率。电影工作室也常常在大型渲染场中进行渲染，可以利用该大型渲染场进行更快的去噪。

图23中示出了用于执行分布式渲染和去噪的方法的一个实施例。该方法可以在上面所描述的系统架构的上下文内实现，但是不限于任何特定的系统架构。

在2301处，将图形工作分派给多个节点，这些节点执行光线追踪操作以渲染图像帧的区域。在一个实施例中，每个节点可能已经具有在存储器中执行操作所要求的数据。例如，节点中的两个或更多个可以共享公共存储器，或者节点的本地存储器可能已经存储了来自先前光线追踪操作的数据。可替代地或另外地，可以将某些数据发送到每个节点。

在2302处，确定特定水平的去噪(即，在可接受的性能水平下)所要求的“重影区域”。重影区域包括执行特定水平的去噪所要求的任何数据，其包括由一个或多个其他节点拥有的数据。

在2303处，在节点之间交换与重影区域(或其部分)相关的数据。在2304处，每个节点在其相应的区域上(例如，使用经交换的数据)执行去噪，并且在2305处，结果被组合以生成最终的经去噪的图像帧。

在一个实施例中，例如图22中示出的管理器节点或主要节点将工作分派给节点，并且然后组合由节点执行的工作以生成最终图像帧。在另一实施例中，使用基于对等体的架构，其中节点是交换数据以对最终图像帧进行渲染和去噪的对等体。

本文所描述的节点(例如，节点2021-2023)可以是经由高速网络互连的图形处理计算系统。可替代地，节点可以是耦合到高速存储器结构的单个处理元件。在该实施例中，所有节点可以共享公共虚拟存储器空间和/或公共物理存储器。在另一实施例中，节点可以是CPU和GPU的组合。例如，上面所描述的管理器节点2201可以是CPU和/或在CPU上执行的软件，并且节点2021-2022可以是GPU和/或在GPU上执行的软件。可以使用各种不同类型的节点，同时仍然遵守本发明的基本原理。

示例神经网络实现方式

存在许多类型的神经网络；一种简单类型的神经网络是前馈网络。前馈网络可以实现为非循环图，其中节点按层布置。典型地，前馈网络拓扑包括由至少一个隐藏层分隔的输入层和输出层。隐藏层将由输入层接收的输入变换为可用于在输出层中生成输出的表示。网络节点经由边缘完全连接到相邻层中的节点，但每层内的节点之间没有边缘。在前馈网络的输入层的节点处接收的数据经由激活函数传播(即，“前馈”)到输出层的节点，该激活函数基于分别与连接多个层的边缘中的每一个相关联的系数(“权重”)来计算网络中每个连续层的节点的状态。取决于由正在执行的算法表示的特定模型，来自神经网络算法的输出可以采用各种形式。

在机器学习算法可以用于对特定问题进行建模之前，使用训练数据集来训练算法。训练神经网络涉及选择网络拓扑、使用表示由网络建模的问题的训练数据的集合以及调整权重直到网络模型对于训练数据集的所有实例表现出最小误差为止。例如，在针对神经网络的有监督学习训练过程期间，由网络响应于表示训练数据集中的实例的输入而产生的输出与针对该实例的“正确的”经标记的输出进行比较，计算表示输出与经标记的输出之间的差异的误差信号，并且调整与连接相关联的权重，以便在误差信号通过网络的多个层向后传播时使得该误差最小化。当根据训练数据集的实例生成的输出中的每一个的误差为最小化的时，网络被认为是“经训练的”。

机器学习算法的准确度可能由用于训练该算法的数据集的质量显著地影响。训练过程可能是计算密集的，并且可能要求在常规的通用处理器上花费显著的时间量。因此，并行处理硬件用于训练许多类型的机器学习算法。这对于优化神经网络的训练特别有用，因为在调整神经网络中的系数时执行的计算使其自然地适用于并行实现方式。具体地，许多机器学习算法和软件应用已经适合于利用通用图形处理设备内的并行处理硬件。

图24是机器学习软件栈2400的概括图。机器学习应用2402可以被配置为使用训练数据集训练神经网络或者使用经训练的深度神经网络来实现机器智能。机器学习应用2402可以包括用于神经网络和/或专用软件的训练和推理功能，该专用软件可以用于在部署之前训练神经网络。机器学习应用2402可以实现任何类型的机器智能，包括但不限于图像识别、绘图和定位、自主导航、语音合成、医学成像或语言转换。

可以经由机器学习框架2404来实现针对机器学习应用2402的硬件加速。机器学习框架2404可以提供机器学习基元库。机器学习基元是通常由机器学习算法执行的基本操作。在没有机器学习框架2404的情况下，将要求机器学习算法的开发者创建并优化与机器学习算法相关联的主计算逻辑，然后在开发新的并行处理器时重新优化计算逻辑。相反，机器学习应用可以被配置为使用由机器学习框架2404提供的基元来执行必要的计算。示例性基元包括张量卷积、激活函数和池化，这些示例性基元是在训练卷积神经网络(CNN)时执行的计算操作。机器学习框架2404还可以提供基元以实现由许多机器学习算法执行的基本线性代数子程序(例如，矩阵和向量运算)。

机器学习框架2404可以处理从机器学习应用2402接收的输入数据，并且生成到计算框架2406的适当输入。计算框架2406可以对提供给GPGPU驱动程序2408的底层指令进行抽象以使得机器学习框架2404能够利用经由GPGPU硬件2410的硬件加速，而不要求机器学习框架2404具有关于GPGPU硬件2410的架构的丰富知识。另外地，计算框架2406可以跨各种类型和各代的GPGPU硬件2410实现针对机器学习框架2404的硬件加速。

GPGPU机器学习加速

图25示出了根据实施例的多GPU计算系统2500。多GPU计算系统2500可以包括经由主机接口交换机2504耦合到多个GPGPU 2506A-2506D的处理器2502。在一个实施例中，主机接口交换机2504是将处理器2502耦合到PCI快速总线的PCI快速交换机设备，处理器2502可以通过该PCI快速总线与GPGPU的集合2506A-2506D通信。多个GPGPU 2506A-2506D中的每一个可以是上面所描述的GPGPU的实例。GPGPU 2506A-2506D可以经由高速点对点GPU到GPU链路的集合2516互连。高速GPU到GPU链路可以经由专用GPU链路连接到GPGPU 2506A-2506D中的每一个。P2P GPU链路2516使得GPGPU 2506A-2506D中的每一个之间能够直接通信，而不要求通过处理器2502所连接的主机接口总线进行通信。利用指向P2P GPU链路的GPU到GPU业务，主机接口总线保持可用于系统存储器访问或者例如经由一个或多个网络设备与多GPU计算系统2500的其他实例通信。虽然在所示实施例中GPGPU 2506A-2506D经由主机接口交换机2504连接到处理器2502，但是在一个实施例中，处理器2502包括对P2P GPU链路2516的直接支持并且可以直接连接到GPGPU 2506A-2506D。

机器学习神经网络实现方式

由本文所描述的实施例提供的计算架构可以被配置为执行特别适合于训练和部署用于机器学习的神经网络的类型的并行处理。神经网络可以被概括为具有图形关系的函数的网络。如本领域所公知的，存在各种类型的在机器学习中使用的神经网络实现方式。一种示例性类型的神经网络是前馈网络，如先前所描述的。

第二种示例性类型的神经网络是卷积神经网络(CNN)。CNN是专用的前馈神经网络，其用于处理具有已知的网格状拓扑的数据，例如，图像数据。因此，CNN通常用于计算视觉和图像识别应用，但是CNN也可以用于其他类型的模式识别，例如，语音和语言处理。CNN输入层中的节点被组织成“滤波器”的集合(受视网膜中发现的感受域启发的特征检测器)，并且滤波器的每个集合的输出被传播到网络的连续层中的节点。针对CNN的计算包括将卷积数学运算应用于每个滤波器以产生该滤波器的输出。卷积是由两个函数执行的用于产生第三函数的特殊类型的数学运算，该第三函数是两个原始函数中的一个的经修改的版本。在卷积网络术语中，卷积的第一函数可以被称为输入，而第二函数可以被称为卷积内核。输出可以被称为特征图。例如，卷积层的输入可以是定义输入图像的各种颜色分量的数据的多维阵列。卷积内核可以是参数的多维阵列，其中参数通过针对神经网络的训练过程进行适配。

递归神经网络(RNN)是前馈神经网络族，其包括层之间的反馈连接。RNN通过跨神经网络的不同部分共享参数数据来实现对顺序数据的建模。RNN的架构包括周期。周期表示变量的当前值在未来时间对其自身值的影响，因为来自RNN的输出数据的至少一部分被用作反馈以用于处理序列中的后续输入。由于可以组成语言数据的可变性质，该特征使得RNN对于语言处理特别有用。

下面描述的附图呈现示例性前馈网络、CNN网络和RNN网络，以及描述分别用于训练和部署这些类型的网络中的每一种的一般过程。将理解的是，这些描述对于本文所描述的任何特定实施例是示例性的而非限制性的，并且所示的概念通常可以普遍地适用于深度神经网络和机器学习技术。

上面所描述的示例性神经网络可以用于执行深度学习。深度学习是使用深度神经网络的机器学习。深度学习中使用的深度神经网络是由多个隐藏层组成的人工神经网络，而不是仅包括单个隐藏层的浅神经网络。更深的神经网络通常对于训练而言是更计算密集的。然而，网络的附加隐藏层实现相对于浅机器学习技术而言导致减少的输出误差的多步骤模式识别。

在深度学习中使用的深度神经网络典型地包括耦合到后端网络的用于执行特征识别的前端网络，该后端网络表示可以基于提供给模型的特征表示执行运算(例如，对象分类、语音识别等)的数学模型。深度学习使得在不要求针对模型执行手工制作的特征工程的情况下能够执行机器学习。相反，深度神经网络可以基于输入数据内的统计结构或相关性来学习特征。可以将经学习的特征提供给可以将检测到的特征映射到输出的数学模型。由网络使用的数学模型通常专用于要执行的特定任务，并且将使用不同的模型来执行不同的任务。

一旦构造了神经网络，就可以将学习模型应用于网络以训练网络执行特定任务。学习模型描述了如何调整模型内的权重以减少网络的输出误差。误差的反向传播是用于训练神经网络的常用方法。输入向量被呈现给网络以用于处理。使用损失函数将网络的输出与期望的输出进行比较，并且针对输出层中的神经元中的每一个计算误差值。然后误差值向后传播，直到每个神经元具有相关联的误差值为止，该误差值粗略地表示该神经元对原始输出的贡献。然后，网络可以使用诸如随机梯度下降算法之类的算法从这些误差中学习，以更新神经网络的权重。

图26-27示出了示例性卷积神经网络。图26示出了CNN内的各种层。如图26中示出的，用于对图像处理建模的示例性CNN可以接收描述输入图像的红色、绿色和蓝色(RGB)分量的输入2602。输入2602可以由多个卷积层(例如，卷积层2604、卷积层2606)处理。来自多个卷积层的输出可以可选地由完全连接层的集合2608处理。完全连接层中的神经元具有与先前层中的所有激活的完全连接，如先前针对前馈网络所描述的。来自完全连接层2608的输出可以用于根据网络生成输出结果。可以使用矩阵乘法而不是卷积来计算完全连接层2608内的激活。并非所有CNN实现方式都使用完全连接层。例如，在一些实现方式中，卷积层2606可以生成CNN的输出。

卷积层稀疏地连接，这不同于在完全连接层2608中发现的传统的神经网络配置。传统的神经网络层完全连接，使得每个输出单元与每个输入单元相互作用。然而，卷积层稀疏地连接，因为如所示的域的卷积的输出(而不是域中的节点中的每一个的相应的状态值)被输入到后续层的节点。与卷积层相关联的内核执行卷积运算，其输出被发送到下一层。在卷积层内执行的维数减少是使得CNN能够扩展以处理大图像的一个方面。

图27示出了CNN的卷积层内的示例性计算阶段。可以在卷积层2714的三个阶段中处理对CNN的卷积层的输入2712。这三个阶段可以包括卷积阶段2716、检测器阶段2718和池化阶段2720。然后，卷积层2714可以将数据输出到连续的卷积层。网络的最终卷积层可以生成输出特征图数据或者向完全连接层提供输入，以例如生成针对CNN的输入的分类值。

在卷积阶段2716中并行地执行若干次卷积以产生线性激活的集合。卷积阶段2716可以包括仿射变换，该仿射变换是可以被指定为线性变换加平移的任何变换。仿射变换包括旋转、平移、伸缩以及这些变换的组合。卷积阶段计算连接到输入中的特定区域的函数(例如，神经元)的输出，该特定区域可以被确定为与神经元相关联的本地区域。神经元计算神经元的权重与神经元所连接的本地输入中的区域之间的点积。来自卷积阶段2716的输出定义了由卷积层2714的连续阶段处理的线性激活的集合。

线性激活可以由检测器阶段2718处理。在检测器阶段2718中，每个线性激活由非线性激活函数处理。非线性激活函数增加了整个网络的非线性属性，而不会影响卷积层的感受域。可以使用若干类型的非线性激活函数。一种特殊类型是整流线性单元(ReLU)，其使用被定义为f(x)＝max(0，x)的激活函数，使得激活在零处设定阈值。

池化阶段2720使用池化函数，该池化函数将卷积层2714的输出替换为附近输出的概括性统计。池化函数可以用于将平移不变性引入神经网络，使得对输入的小平移不会改变经池化的输出。在输入数据中的特征的存在比特征的精确位置更重要的场景中，对本地平移的不变性可能是有用的。在池化阶段2720期间可以使用各种类型的池化函数，包括最大池化、平均池化和I2范数池化。另外地，一些CNN实现方式不包括池化阶段。相反，这样的实现方式替代并且附加的卷积阶段相对于先前的卷积阶段具有增加的跨步。

然后，来自卷积层2714的输出可以由下一层2722处理。下一层2722可以是附加的卷积层或者是完全连接层2608中的一个。例如，图26的第一卷积层2604可以输出到第二卷积层2606，而第二卷积层可以输出到完全连接层2608的第一层。

图28示出了示例性递归神经网络2800。在递归神经网络(RNN)中，网络的先前状态影响网络的当前状态的输出。可以使用各种函数以各种方式构建RNN。对RNN的使用通常围绕使用数学模型以基于输入的先前序列来预测未来。例如，RNN可以用于执行统计语言建模，以在给定单词的先前序列的情况下预测即将到来的单词。所示出的RNN 2800可以被描述为具有接收输入向量的输入层2802、用于实现递归功能的隐藏层2804、用于启用对先前状态的“记忆”的反馈机制2805以及用于输出结果的输出层2806。RNN 2800基于时间步长进行操作。RNN在给定的时间步长处的状态会基于先前的时间步长经由反馈机制2805受到影响。对于给定的时间步长，隐藏层2804的状态由先前状态和在当前时间步长处的输入定义。在第一时间步长处的初始输入(x1)可以由隐藏层2804处理。第二输入(x2)可以由隐藏层2804使用在对初始输入(x1)的处理期间确定的状态信息来处理。给定的状态可以被计算为s_t＝f(Ux_t+Ws_(t-1))，其中U和W是参数矩阵。函数f通常是非线性的，例如，双曲正切函数(Tanh)或整流函数f(x)＝max(0，x)的变体。然而，隐藏层2804中使用的特定数学函数可以取决于RNN 2800的具体实现细节而变化。

除了所描述的基本CNN和RNN网络之外，可以实现这些网络的变型。一个示例RNN变体是长短期记忆(LSTM)RNN。LSTM RNN能够学习可能对于处理较长的语言序列是必要的长期依赖性。CNN的变体是卷积深度信念网络，其具有类似于CNN的结构并且以类似于深度信念网络的方式进行训练。深度信念网络(DBN)是一种生成神经网络，其由多层任意(随机)变量组成。可以使用贪婪的无监督学习逐层训练DBN。然后，通过确定针对神经网络的权重的最优初始集合，可以使用DBN的经学习的权重来提供预训练神经网络。

图29示出了对深度神经网络的训练和部署。一旦针对任务已经构造了给定的网络，就使用训练数据集2902对神经网络进行训练。已经开发了各种训练框架2904以实现训练过程的硬件加速。例如，上面所描述的机器学习框架可以被配置为训练框架。训练框架2904可以挂钩到未经训练的神经网络2906并且使得能够使用本文所描述的并行处理资源对未经训练的神经网络进行训练，以生成经训练的神经网络2908。

为了开始训练过程，可以随机地或通过使用深度信念网络进行预训练来选择初始权重。然后，训练周期以有监督方式或无监督的方式执行。

有监督学习是这样的学习方法：其中训练作为中介操作来执行，例如，当训练数据集2902包括与针对输入的期望输出配对的输入时，或者在训练数据集包括具有已知输出的输入并且神经网络的输出被手动分级的情况下。网络对输入进行处理并且将得到的输出与预期或期望的输出的集合进行比较。然后，误差向后传播通过系统。可以调整训练框架2904以调整控制未经训练的神经网络2906的权重。训练框架2904可以提供工具来监视未经训练的神经网络2906朝向适合于基于已知的输入数据生成正确答案的模型收敛得如何。当调整网络的权重以改善由神经网络生成的输出时，训练过程重复发生。训练过程可以继续，直到神经网络达到与经训练的神经网络2908相关联的统计上期望的准确度。然后可以部署经训练的神经网络2908以实现任何数量的机器学习操作。

无监督学习是这样的学习方法：其中网络尝试使用未经标记的数据对其自身进行训练。因此，对于无监督学习，训练数据集2902将包括没有任何相关联的输出数据的输入数据。未经训练的神经网络2906可以学习未经标记的输入内的分组，并且可以确定单个输入如何与整个数据集相关。无监督训练可以用于生成自组织映射，其是一种能够执行在减少数据的维度中有用的操作的经训练的神经网络2908。无监督训练也可以用于执行异常检测，这允许标识输入数据集中的偏离数据的正常模式的数据点。

还可以采用有监督训练和无监督训练的变型。半监督学习是一种其中训练数据集2902包括相同分布的经标记的数据和未经标记的数据的混合的技术。增量学习是有监督学习的变体，其中输入数据被连续地用于进一步训练模型。增量学习使得经训练的神经网络2908能够适应新的数据2912，而不会忘记在初始训练期间灌注在网络内的知识。

无论是有监督的还是无监督的，针对特定深度神经网络的训练过程对于单个计算节点而言可能是过于计算密集的。可以使用计算节点的分布式网络而不是使用单个计算节点来加速训练过程。

图30A是示出分布式学习的框图。分布式学习是一种训练模型，其使用多个分布式计算节点(例如，上面所描述的节点)来执行神经网络的有监督训练或无监督训练。分布式计算节点可以各自包括一个或多个主机处理器以及通用处理节点中的一个或多个(例如，高度并行的通用图形处理单元)。如所示的，分布式学习可以执行模型并行性3002、数据并行性3004或模型并行性和数据并行性的组合。

在模型并行性3002中，分布式系统中的不同计算节点可以针对单个网络的不同部分执行训练计算。例如，神经网络的每个层可以由分布式系统的不同处理节点训练。模型并行性的益处包括扩展到特别大的模型的能力。对与神经网络的不同层相关联的计算进行分割使得能够对非常大的神经网络进行训练，在该非常大的神经网络中所有层的权重将不适合单个计算节点的存储器。在一些实例中，模型并行性在执行对大型神经网络的无监督训练中可能是特别有用的。

在数据并行性3004中，分布式网络的不同节点具有模型的完整实例，并且每个节点接收数据的不同部分。然后，对来自不同节点的结果进行组合。虽然数据并行性的不同方法是可能的，但是数据并行训练方法都要求组合结果并且在每个节点之间同步模型参数的技术。组合数据的示例性方法包括参数平均和基于更新的数据并行性。参数平均针对训练数据的子集对每个节点进行训练，并且将全局参数(例如，权重、偏差)设置为来自每个节点的参数的平均值。参数平均使用维护参数数据的中央参数服务器。基于更新的数据并行性类似于参数平均，除了不是将来自节点的参数传送到参数服务器，而是传送对模型的更新。另外地，可以以去中心化的方式来执行基于更新的数据并行性，其中更新被压缩并在节点之间传送。

经组合的模型和数据并行性3006可以例如在分布式系统中实现，在该分布式系统中每个计算节点包括多个GPU。每个节点可以具有模型的完整实例，其中每个节点内的单独的GPU用于对模型的不同部分进行训练。

分布式训练相对于对单个机器进行的训练增加了开销。然而，本文所描述的并行处理器和GPGPU可以各自实现各种技术以减少分布式训练的开销，这些技术包括用于实现高带宽GPU到GPU数据传送和经加速的远程数据同步的技术。

示例性机器学习应用

机器学习可以应用于解决各种技术性问题，包括但不限于计算机视觉、自主驾驶和导航、语音识别和语言处理。计算机视觉已经在传统上是针对机器学习应用的最活跃的研究领域中的一个。计算机视觉的应用范围从再现人类视觉能力(例如，识别面部)到创建新的视觉能力的类别。例如，计算机视觉应用可以被配置为根据视频中可见的对象中引起的振动来识别声波。并行处理器加速的机器学习使得计算机视觉应用能够使用比先前可行的训练数据集显著更大的训练数据集进行训练，并且使得能够使用低功率并行处理器部署推理系统。

并行处理器加速的机器学习具有自主驾驶应用，包括车道和道路标志识别、障碍物避免、导航和驾驶控制。加速的机器学习技术可以用于基于定义对特定训练输入的适当响应的数据集来训练驾驶模型。本文所描述的并行处理器可以实现对用于自主驾驶解决方案的越来越复杂的神经网络的快速训练，并且实现在适合于集成到自主车辆中的移动平台中部署低功率推理处理器。

并行处理器加速的深度神经网络已经实现用于自动语音识别(ASR)的机器学习方法。ASR包括对函数的创建，该函数在给定输入声学序列的情况下计算最可能的语言序列。使用深度神经网络的加速的机器学习已经实现对先前用于ASR的隐马尔可夫模型(HMM)和高斯混合模型(GMM)的替换。

并行处理器加速的机器学习也可以用于加速自然语言处理。自动学习过程可以利用统计推理算法来产生对于错误或不熟悉的输入具有鲁棒性的模型。示例性自然语言处理器应用包括人类语言之间的自动机器转换。

用于机器学习的并行处理平台可以分为训练平台和部署平台。训练平台通常高度并行，并且包括用于加速多GPU单节点训练和多节点多GPU训练的优化。适用于训练的示例性并行处理器包括本文所描述的高度并行的通用图形处理单元和/或多GPU计算系统。相反，部署的机器学习平台通常包括适用于在诸如照相机、自主机器人和自主车辆之类的产品中使用的较低功率并行处理器。

图30B示出了适用于使用经训练的模型执行推理的示例性推理片上系统(SOC)3100。SOC 3100可以集成处理组件，处理组件包括媒体处理器3102、视觉处理器3104、GPGPU3106和多核心处理器3108。SOC 3100可以另外地包括片上存储器3105，该片上存储器3105可以启用可由处理组件中的每一个访问的共享片上数据池。处理组件可以针对低功率操作进行优化，以实现到各种机器学习平台(包括自主车辆和自主机器人)的部署。例如，SOC3100的一种实现方式可以用作针对自主车辆的主控制系统的一部分。在SOC 3100配置用于自主车辆的情况下，SOC被设计并配置为符合部署管辖的相关功能安全标准。

在操作期间，媒体处理器3102和视觉处理器3104可以协同工作以加速计算机视觉操作。媒体处理器3102可以实现对多个高分辨率(例如，4K、8K)视频流的低时延解码。经解码的视频流可以被写入片上存储器3105中的缓冲器。然后，视觉处理器3104可以对经解码的视频进行解析并且对经解码的视频的帧执行初步处理操作，以准备使用经训练的图像识别模型来处理帧。例如，视觉处理器3104可以加速用于CNN的卷积运算，该CNN用于对高分辨率视频数据执行图像识别，而后端模型计算由GPGPU 3106执行。

多核心处理器3108可以包括控制逻辑，以协助对由媒体处理器3102和视觉处理器3104执行的数据传送和共享存储器操作的排序和同步。多核心处理器3108还可以用作应用处理器来执行可以利用GPGPU 3106的推理计算能力的软件应用。例如，导航和驾驶逻辑中的至少一部分可以以多核心处理器3108上执行的软件实现。这样的软件可以直接向GPGPU3106发布计算工作负载，或者计算工作负载可以被发布到多核心处理器3108，该多核心处理器3108可以将这些操作中的至少一部分卸载到GPGPU 3106。

GPGPU 3106可以包括计算集群，例如，高度并行的通用图形处理单元DPLAB00内的计算集群DPLAB06A-DPLAB06H的低功率配置。GPGPU 3106内的计算集群可以支持被专门优化以对经训练的神经网络执行推理计算的指令。例如，GPGPU 3106可以支持用于执行低精度计算(例如，8位和4位整数向量运算)的指令。

光线追踪架构

在一种实现方式中，图形处理器包括用于执行实时光线追踪的电路和/或程序代码。在一些实施例中，图形处理器中包括光线追踪核心的专用的集合，以执行本文所描述的各种光线追踪操作，这些光线追踪操作包括光线遍历和/或光线交叉操作。除了光线追踪核心之外，一个实施例包括用于执行可编程着色操作的图形处理核心的多个集合以及用于对张量数据执行矩阵运算的张量核心的多个集合。

图31示出了一个这样的图形处理单元(GPU)3105的示例性部分，该GPU 3105包括布置在多核心组3100A-3100N中的图形处理资源的专用集合。虽然仅提供了单个多核心组3100A的细节，但是将认识到的是，其他多核心组3100B-3100N可以配备有相同或相似的图形处理资源的集合。

如所示的，多核心组3100A可以包括图形核心的集合3130、张量核心的集合3140以及光线追踪核心的集合3150。调度器/分派器3110对用于在各种核心3130、3140、3150上执行的图形线程进行调度和分派。寄存器文件的集合3120存储由核心3130、3140、3150在执行图形线程时使用的操作数值。这些寄存器可以包括例如用于存储整数值的整数寄存器、用于存储浮点值的浮点寄存器、用于存储打包数据元素(整数和/或浮点数据元素)的向量寄存器以及用于存储张量/矩阵值的图块寄存器。在一个实施例中，图块寄存器被实现为向量寄存器的组合集合。

一个或多个级别1(L1)高速缓存和纹理单元3160在每个多核心组3100A内本地地存储诸如纹理数据、顶点数据、像素数据、光线数据、包围体积数据等之类的图形数据。由多核心组3100A-3100N的全部或子集共享的级别2(L2)高速缓存3180存储用于多个同时图形线程的图形数据和/或指令。如所示的，L2高速缓存3180可以跨多个多核心组3100A-3100N共享。一个或多个存储器控制器3196将GPU 3105耦合到存储器3198，该存储器3198可以是系统存储器(例如，DRAM)和/或专用图形存储器(例如，GDDR6存储器)。

输入/输出(IO)电路3195将GPU 3105耦合到一个或多个I/O设备3190，例如，数字信号处理器(DSP)、网络控制器或用户输入设备。片上互连可以用于将I/O设备3190耦合到GPU 3105和存储器3198。IO电路3195的一个或多个IO存储器管理单元(IOMMU)3170将I/O设备3190直接耦合到系统存储器3198。在一个实施例中，IOMMU 3170管理用于将虚拟地址映射到系统存储器3198中的物理地址的页表的多个集合。在该实施例中，I/O设备3190、(多个)CPU 3199和(多个)GPU 3105可以共享相同的虚拟地址空间。

在一种实现方式中，IOMMU 3170支持虚拟化。在这种情况下，IOMMU 3170可以管理页表的用于将客体/图形虚拟地址映射到客体/图形物理地址的第一集合，以及页表的用于将客体/图形物理地址映射到(例如，在系统存储器3198内的)系统/主机物理地址的第二集合。页表的第一集合和第二集合中的每一个的基址可以存储在控制寄存器中并在上下文交换机上交换出去(例如，使得新的上下文被提供有对页表的相关集合的访问)。虽然未在图31中示出，但是核心3130、3140、3150和/或多核心组3100A-3100N中的每一个可以包括转换后备缓冲器(TLB)以缓存客体虚拟到客体物理的转换、客体物理到主机物理的转换，以及客体虚拟到主机物理的转换。

在一个实施例中，CPU 3199、GPU 3105和I/O设备3190集成在单个半导体芯片和/或芯片封装上。所示的存储器3198可以集成在同一芯片上，或者可以经由片外接口耦合到存储器控制器3196。在一种实现方式中，存储器3198包括GDDR6存储器，其共享与其他物理系统级别存储器相同的虚拟地址空间，但是本发明的基本原理不限于该特定实现方式。

在一个实施例中，张量核心3140包括专门被设计用于执行矩阵运算的多个执行单元，这些矩阵运算是用于执行深度学习操作的基本计算操作。例如，同时矩阵乘法运算可以用于神经网络训练和推理。张量核心3140可以使用各种操作数精度来执行矩阵处理，操作数精度包括单精度浮点(例如，32位)、半精度浮点(例如，16位)、整数字(16位)、字节(8位)和半字节(4位)。在一个实施例中，神经网络实现方式提取每个经渲染的场景的特征、潜在地组合来自多个帧的细节，以构建高质量的最终图像。

在深度学习实现方式中，可以调度并行矩阵乘法工作以用于在张量核心3140上执行。特别地，对神经网络的训练要求大量矩阵点积运算。为了处理N×N×N矩阵相乘的内积表达式，张量核心3140可以包括至少N个点积处理元件。在矩阵乘法开始之前，将一个完整的矩阵加载到图块寄存器中，并且在N个周期中，每个周期加载第二矩阵的至少一列。每个周期，都有N个点积被处理。

取决于特定实现方式，矩阵元素可以以不同的精度存储，包括16位字、8位字节(例如，INT8)和4位半字节(例如，INT4)。可以为张量核心3140指定不同的精度模式，以确保针对不同的工作负载(例如，可以容忍量化为字节和半字节的推理工作负载)使用最高效的精度。

在一个实施例中，光线追踪核心3150加速用于实时光线追踪实现方式和非实时光线追踪实现方式两者的光线追踪操作。特别地，光线追踪核心3150包括光线遍历/交叉电路，以用于使用包围体积层级(BVH)执行光线遍历以及标识光线与在BVH体积内包围的基元之间的交叉。光线追踪核心3150还可以包括用于执行深度测试和剔除的(例如，使用Z缓冲器或类似的布置的)电路。在一种实现方式中，光线追踪核心3150执行与本文所描述的图像去噪技术一致的遍历和交叉操作，遍历和交叉操作的至少一部分可以在张量核心3140上执行。例如，在一个实施例中，张量核心3140实现深度学习神经网络以执行对由光线追踪核心3150生成的帧的去噪。然而，(多个)CPU 3199、图形核心3130和/或光线追踪核心3150也可以实现去噪和/或深度学习算法的全部或部分。

另外，如上面所描述的，可以采用去噪的分布式方法，其中GPU 3105在通过网络或高速互连与其他计算设备耦合的计算设备中。在该实施例中，互连的计算设备共享神经网络学习/训练数据，以改进整个系统学习针对不同类型的图像帧和/或不同图形应用执行去噪的速度。

在一个实施例中，光线追踪核心3150处理所有BVH遍历和光线基元交叉，从而使得图形核心3130不会因每条光线数千个指令而过载。在一个实施例中，每个光线追踪核心3150包括用于执行(例如，用于遍历操作的)包围盒测试的专用电路的第一集合以及用于执行光线-三角形交叉测试(例如，已经遍历的交叉光线)的专用电路的第二集合。因此，在一个实施例中，多核心组3100A可以简单地发射光线探头，并且光线追踪核心3150独立地执行光线遍历和交叉并且将命中数据(例如，命中、未命中、多次命中等)返回到线程上下文。释放其他核心3130、3140以执行其他图形或计算工作，而光线追踪核心3150执行遍历和交叉操作。

在一个实施例中，每个光线追踪核心3150包括用于执行BVH测试操作的遍历单元以及执行光线-基元交叉测试的交叉单元。交叉单元生成“命中”、“未命中”或“多次命中”响应，该交叉单元将这些响应提供给适当的线程。在遍历和交叉操作期间，释放其他核心(例如，图形核心3130和张量核心3140)的执行资源以执行其他形式的图形工作。

在下面描述的一个特定实施例中，使用混合光栅化/光线追踪方法，其中工作分布在图形核心3130与光线追踪核心3150之间。

在一个实施例中，光线追踪核心3150(和/或其他核心3130、3140)包括对光线追踪指令集(例如，微软的DirectX光线追踪(DXR)，其包括DispatchRays命令，以及光线生成(ray-generation)、最接近命中(closest-hit)、任何命中(any-hit)和未命中着色器(missshaders)，其实现为每个对象指派着色器和纹理的唯一集合)的硬件支持。可以由光线追踪核心3150、图形核心3130和张量核心3140支持的另一光线追踪平台是Vulkan 1.1.85。然而，注意，本发明的基本原理不限于任何特定的光线追踪ISA。

通常，各种核心3150、3140、3130可以支持光线追踪指令集，其包括针对光线生成、最接近命中、任何命中、光线-基元交叉、每基元和分层的包围盒构造、未命中、访问和异常的指令/功能。更具体地，一个实施例包括用于执行以下功能的光线追踪指令：

光线生成-可以针对每个像素、样本或其他用户定义的工作指派执行光线生成指令。

最接近命中-可以执行最接近命中指令以定位场景内的光线与基元的最接近的交叉点。

任何命中-任何命中指令标识场景内的光线与基元之间的多个交叉，潜在地标识新的最接近的交叉点。

交叉-交叉指令执行光线-基元交叉测试并输出结果。

每基元包围盒构造-(例如，当构建新的BVH或其他加速度数据结构时)该指令围绕给定基元或基元组构建包围盒。

未命中-指示光线未命中场景内的所有几何体或场景的指定区域。

访问-指示光线将遍历的子体积。

异常-包括各种类型的(例如，针对各种错误条件调用的)异常处理程序。

分层光束追踪

包围体积层级通常用于改进对图形基元和其他图形对象执行操作的效率。BVH是基于几何对象的集合构建的分层树结构。在树结构的顶部是根节点(root node)，该根节点包围给定场景中的所有几何对象。单个几何对象被包裹在形成树的叶节点(leaf node)的包围体积中。然后，将这些节点分组为小的集合并且包围在较大的包围体积内。进而，这些小的集合也以递归方式分组并且包围在其他较大的包围体积内，最终导致其中由根节点表示的单个包围体积处于树顶部的树结构。包围体积层级用于高效地支持对几何对象集合的各种操作，例如，碰撞检测、基元剔除以及在光线追踪中使用的光线遍历/交叉操作。

在光线追踪架构中，光线遍历通过BVH以确定光线-基元交叉。例如，如果光线没有通过BVH的根节点，则光线不与由BVH包围的基元中的任一个交叉，并且不要求针对光线关于基元的该集合进行进一步处理。如果光线通过BVH的第一子节点但没有通过第二子节点，则不需要针对由第二子节点包围的任何基元测试光线。以这种方式，BVH提供了用于测试光线-基元交叉的高效的机制。

在本发明的一个实施例中，针对BVH而不是单个光线测试被称为“光束”的连续光线组。图32示出了由四条不同光线勾画的示例性光束3201。与由四条光线限定的图像块3200交叉的任何光线被认为是在相同的光束内。虽然图32中的光束3201由光线的矩形布置限定，但是光束可以以各种其他方式(例如，圆形、椭圆形等)限定，同时仍然符合本发明的基本原理。

图33示出了示例性实施例，其中GPU 3320的光线追踪引擎3310实现本文所描述的光束追踪技术。特别地，光线生成电路3304生成要对其执行遍历和交叉操作的多条光线。然而，不是对单个光线执行遍历交叉操作，所示实施例使用由光束层级构造电路3305生成的光束的层级3307来执行遍历和交叉。在一个实施例中，光束层级类似于包围体积层级(BVH)。例如，图34提供了主要光束3400的示例，该主要光束3400可以被细分为多个不同的分量。特别地，主要光束3400可以被划分为象限3401-3404，并且每个象限本身可以被划分为子象限，例如，象限3404内的子象限A-D。可以以各种方式细分主要光束。例如，在一个实施例中，主要光束可以被分成两半(而不是分成象限)，并且每一半可以被分成两半等等。无论如何进行细分，在一个实施例中，以与BVH类似的方式生成分层结构，例如，该分层结构具有表示主要光束3400的根节点、第一级别子节点(其由象限3401-3404表示)、针对每个子象限A-D的第二级别子节点等等。

在一个实施例中，一旦构造了光束层级3307，遍历/交叉电路3306就使用光束层级3307和BVH 3308执行遍历/交叉操作。特别地，遍历/交叉电路3306可以针对BVH以及光束的不与BVH的任何部分交叉的剔除部分测试光束。例如，使用图34中示出的数据，如果与子区域3402和3403相关联的子光束不与BVH或BVH的特定分支交叉，那么这些子光束可以相对于BVH或者分支被剔除。可以通过执行深度优先搜索或其他搜索算法来针对BVH测试其余部分3401、3404。

图35中示出了根据本发明的一个实施例的方法。该方法可以在上面所描述的图形处理架构的上下文内实现，但不限于任何特定的架构。

在3500处，构造包括多条光线的主要光束，并且在3501处，对光束进行细分，并且生成分层数据结构以创建光束层级。在一个实施例中，操作3500-3501作为根据多条光线构造光束层级的单个集成操作执行。在3502处，光束层级与BVH一起用于(从光束层级)剔除光线和/或从BVH剔除节点/基元。在3503处，针对其余光线和基元确定光线-基元交叉。

分布式光线追踪系统中的有损和无损分组压缩

在一个实施例中，光线追踪操作跨通过网络耦合在一起的多个计算节点分布。例如，图36示出了光线追踪集群3600，其包括并行执行光线追踪操作的多个光线追踪节点3610-3613，从而潜在地在一个节点上组合结果。在所示的架构中，光线追踪节点3610-3613经由网关通信地耦合到客户端侧光线追踪应用3630。

分布式架构的困难中的一个是必须在光线追踪节点3610-3613中的每一个之间发送的大量的分组化数据。在一个实施例中，无损压缩技术和有损压缩技术两者都用于减少在光线追踪节点3610-3613之间发送的数据。

为了实现无损压缩，与发送填充有某些类型的操作的结果的分组相反，发送允许接收节点重建结果的数据或命令。例如，任意采样的区域光和环境遮挡(AO)操作不一定需要方向。因此，在一个实施例中，发送节点将简单地发送随机种子，然后由接收节点使用该随机种子来执行随机采样。例如，如果场景跨节点3610-3612分布，为了在点p1-p3处对光1进行采样，则仅需要将光ID和原点发送到节点3610-3612。然后，节点中的每一个可以独立地对光进行任意采样。在一个实施例中，随机种子由接收节点生成。类似地，对于主要光线命中点，可以在节点3610-3612上计算环境遮挡(AO)和软阴影采样，而不等待连续帧的原始点。另外地，如果已知光线的集合将到达相同的点光源，则可以发送指令，从而标识去往将光源应用于光线的集合的接收节点的光源。作为另一示例，如果存在单个点发送的N条环境遮挡光线，则可以发送命令以从该点生成N个样本。

可以应用各种附加技术以用于有损压缩。例如，在一个实施例中，可以采用量化因子来量化与BVH、基元和光线相关联的所有坐标值。另外地，用于诸如BVH节点和基元之类的数据的32位浮点值可以被转换为8位整数值。在一种特定实现方式中，光线分组的边界以全精度存储，但是单个光线点P1-P3作为与边界的索引偏移被发送。类似地，可以生成多个本地坐标系，其使用8位整数值作为本地坐标。可以使用全精度(例如，32位浮点)值对这些本地坐标系中的每一个的原点的位置进行编码，从而高效地连接全局和本地坐标系。

以下是在本发明的一个实施例中采用的无损压缩的示例。光线追踪程序中内部使用的光线(Ray)数据格式的示例如下：

与发送针对所生成的每个节点的原始数据相反，可以通过对值进行分组并且通过在可能的情况下使用适用的元数据创建隐式光线来压缩该数据。

对光线数据进行捆绑和分组

一个实施例使用用于公共数据的标志或具有修饰符的掩码。

例如:

RayPacket.rays＝ray_1to ray_256

原点均共享

所有光线数据被打包，除了仅跨所有光线存储的单个原点。RayPacket.flags被设置用于RAYPACKET_COMMON_ORIGIN。当接收到RayPacket时对其进行拆包，从单个原点值填充原点。

原点仅在某些光线之间共享

除了共享原点的光线之外，所有光线数据都被打包。对于唯一共享原点的每个组，运算符被打包，用于标识操作(共用原点)、存储原点以及掩蔽哪些光线共享信息。可以对节点之间的任何共享值(例如，材料ID、基元ID、原点、方向、法线等)进行这样的操作。

发送隐式光线

通常，可以在接收端上利用用于生成光线数据的最小元信息来导出光线数据。一个非常常见的例子是生成多个次要光线以对区域进行任意采样。与发送方生成次要光线、发送次要光线以及接收方对该次要光线进行操作相反，发送方可以发送需要利用任何相关信息来生成光线的命令，并且在接收端上生成该光线。在需要首先由发送方生成光线以确定要将该光线发送到哪个接收方的情况下，生成光线并且可以发送随机种子以重新生成完全相同的光线。

例如，为了在64条阴影光线对区域光源采样的情况下对命中点进行采样，所有64条光线与来自相同计算N4的区域交叉。创建具有共同原点和法线的光线分组(RayPacket)。如果希望接收方对所得到的像素贡献进行着色，则可以发送更多数据，但是对于该示例，假设希望仅返回光线是否命中另一节点数据。针对生成阴影光线操作创建光线操作(RayOperation)，并为其指派要被采样的光ID值和随机数种子。当N4接收光线分组时，N4通过将共享原点数据填充到所有光线并且基于利用随机数种子进行任意采样的光ID设置方向以生成原始发送方生成的相同光线来生成完全填充的光线数据。当返回结果时，只需要返回针对每条光线的二进制结果，这些二进制结果可以通过光线上的掩码传递。

在该示例中发送原始64条光线将使用104字节*64条光线＝6656字节。如果返回的光线也以其原始形式发送，则这将加倍到13312字节。使用仅利用种子和ID发送公共光线原点、法线和光线生成操作的无损压缩，仅发送29个字节，其中针对交叉的掩码返回8个字节。这导致需要通过网络发送～360：1的数据压缩率。这不包括处理消息本身的开销，其需要以某种方式进行标识，但这取决于实现方式。可以进行其他操作以用于根据主要光线的像素ID(pixelID)来重新计算光线原点和方向、基于光线分组中的范围重新计算像素ID，以及用于重新计算值的许多其他可能的实现方式。类似的操作可以用于发送的任何单个光线或光线组，这些操作包括阴影、反射、折射、环境遮挡、交叉、体积交叉、着色、路径追踪中的反弹反射等。

图37示出了执行对光线追踪分组的压缩和解压缩的两个光线追踪节点3710-3711的附加细节。特别地，在一个实施例中，当第一光线追踪引擎3730准备好将数据发送到第二光线追踪引擎3731时，光线压缩电路3720执行如本文所描述的对光线追踪数据的有损和/或无损压缩(例如，将32位值转换为8位值、用原始数据代替重建数据的指令等)。经压缩的光线分组3701通过本地网络(例如，10Gb/s、100Gb/s的以太网网络)从网络接口3725发送到网络接口3726。然后，光线解压缩电路在适当时对光线分组进行解压缩。例如，光线解压缩电路可以执行命令以重建光线追踪数据(例如，使用随机种子以执行针对照明操作的随机采样)。然后，光线追踪引擎3731使用接收到的数据来执行光线追踪操作。

在反向方向上，光线压缩电路3741对光线数据进行压缩，网络接口3726通过网络(例如，使用本文所描述的技术)发送经压缩的光线数据，光线解压缩电路3740在必要时对光线数据进行解压缩，并且光线追踪引擎3730使用光线追踪操作中的数据。尽管在图37中被示为单独的单元，但是光线解压缩电路3740-3741可以分别集成在光线追踪引擎3730-3731内。例如，在经压缩的光线数据包括用于重建光线数据的命令的程度上，这些命令可以由每个相应的光线追踪引擎3730-3731执行。

如图38中示出的，光线压缩电路3720可以包括用于执行本文所描述的有损压缩技术(例如，将32位浮点坐标转换为8位整数坐标)的有损压缩电路3801，以及用于执行无损压缩技术(例如，发送命令和数据以允许光线解压缩电路3721重建数据)的无损压缩电路3803。光线解压缩电路3721包括有损解压缩电路3802和用于执行无损解压缩的无损解压缩电路3804。

图39中示出了根据一个实施例的方法。该方法可以在本文所描述的光线追踪架构上实现，但不限于任何特定架构。

在3900处，接收要从第一光线追踪节点发送到第二光线追踪节点的光线数据。在3901处，有损压缩电路对第一光线追踪数据执行有损压缩，并且在3902处，无损压缩电路对第二光线追踪数据执行无损压缩。在3903处，将经压缩的光线追踪数据发送到第二光线追踪节点。在3904处，有损/无损解压缩电路执行对光线追踪数据的有损/无损解压缩，并且在3905处，第二光线追踪节点使用经解压缩的数据执行光线追踪操作。

具有硬件加速的混合光线追踪的图形处理器

本发明的一个实施例包括混合渲染流水线，其在图形核心3130上执行光栅化，并且在光线追踪核心3150、图形核心3130和/或CPU 3199核心上执行光线追踪操作。例如，可以在图形核心3130上执行光栅化和深度测试来代替主要光线投射阶段。然后，光线追踪核心3150可以生成针对光线反射、折射和阴影的次要光线。另外，某些实施例可以选择场景的某些区域，在这些区域中光线追踪核心3150将(例如，基于诸如高反射率水平之类的材料属性阈值)执行光线追踪操作，而场景的其他区域将利用图形核心3130上的光栅化进行渲染。在一个实施例中，该混合实现方式用于实时光线追踪应用——其中时延是关键问题。

下面描述的光线遍历架构的一个实施例使用现有的单指令多数据(SIMD)和/或单指令多线程(SIMT)图形处理器执行可编程着色和对光线遍历的控制，同时使用专用硬件对关键功能(例如，BVH遍历和/或交叉进行加速。在该实施例中，通过在遍历期间并且在着色之前在特定点重新分组产生的着色器来改进针对非一致路径的SIMD占用。这是通过使用在片上对着色器进行动态分类的专用硬件实现的。通过将函数分割成在返回时执行的延拓(continuation)并且在针对改进的SIMD占用执行之前重新分组该延拓来管理递归。

通过将遍历功能分解为内部遍历和外部遍历来实现对光线遍历/交叉的可编程控制，内部遍历可以被实现为固定功能硬件，外部遍历在GPU处理器上执行并且通过用户定义的遍历着色器实现可编程控制。通过在内部遍历与外部遍历之间的转换期间保守地截断内部遍历状态来降低在硬件与软件之间传送遍历上下文的成本。

可以通过下面的表A中列出的不同的着色器类型来表述对光线追踪的可编程控制。每种类型可以有多个着色器。例如，每种材料可以具有不同的命中着色器。

着色器类型	功能
		主要	发射主要光线
命中	双向反射分布函数(BRDF)采样，发射次要光线
		任何命中	计算阿尔法纹理化的几何体的透射度
未命中	计算来自光源的光亮度
		交叉	交叉自定义形状
遍历	实例选择和变换
		可调用	通用函数

表A

在一个实施例中，递归光线追踪由API函数启动，该API函数命令图形处理器启动主要着色器的集合或交叉电路，其可以产生用于主要光线的光线-场景交叉。这进而产生其他着色器，例如，遍历、命中着色器或未命中着色器。产生子着色器的着色器也可以从该子着色器接收返回值。可调用着色器是通用函数，其可以由另一着色器直接产生，并且还可以将值返回给调用着色器。

图40示出了图形处理架构的实施例，其包括着色器执行电路4000和固定功能电路4010。通用执行硬件子系统包括多个单指令多数据(SIMD)和/或单指令多线程(SIMT)核心/执行单元(EU)4001(即，每个核心可以包括多个执行单元)、一个或多个采样器4002以及级别1(L1)高速缓存4003或其他形式的本地存储器。固定功能硬件子系统4010包括消息传送单元4004、调度器4007、光线-BVH遍历/交叉电路4005、分类电路4008和本地L1高速缓存4006。

在操作中，主要分派器4009将主要光线的集合调度到调度器4007，该调度器4007将工作调度到在SIMD/SIMT核心/EU 4001上执行的着色器。SIMD核心/EU 4001可以是上面所描述的光线追踪核心3150和/或图形核心3130。主要着色器的执行产生了要执行的(例如，要由一个或多个子着色器和/或固定功能硬件执行的)附加工作。消息传送单元4004将由SIMD核心/EU 4001产生的工作分发到调度器4007，从而根据需要访问空闲栈池、分类电路4008或光线-BVH交叉电路4005。如果将附加工作发送到调度器4007，则调度该工作以用于在SIMD/SIMT核心/EU 4001上进行处理。在调度之前，分类电路4008可以将光线分类成如本文所描述的组或箱(bin)中(例如，对具有类似特性的光线进行分组)。光线-BVH交叉电路4005使用BVH体积进行对光线的交叉测试。例如，光线-BVH交叉电路4005可以将光线坐标与BVH的每个级别进行比较以标识与光线交叉的体积。

可以使用着色器记录、包括指向入口函数的指针的用户分配的结构、供应商特定的元数据以及由SIMD核心/EU 4001执行的着色器的全局变元来引用着色器。着色器的每个执行实例与调用栈相关联，该调用栈可以用于存储在父着色器与子着色器之间传递的变元。调用栈还可以存储对在调用返回时执行的延拓函数的引用。

图41示出了经指派的栈4101的示例集合，其包括主要着色器栈、命中着色器栈、遍历着色器栈、延拓函数栈和光线-BVH交叉栈(如所描述的，其可以由固定功能硬件4010执行)。新的着色器调用可以从空闲栈池4102实现新的栈。可以将调用栈缓存到本地L1高速缓存4003、4006中以减少访问的时延。

在一个实施例中，存在有限数量的调用栈，每个调用栈具有在存储器的连续区域中分配的固定的最大大小“Sstack”。因此，可以根据栈索引(SID)直接计算栈的基址为基址＝SID*Sstack。在一个实施例中，当将工作调度到SIMD核心/EU 4001时，由调度器4007分配和解除分配栈ID。

在一个实施例中，主要分派器4009包括图形处理器命令处理器，其响应于来自主机(例如，CPU)的分派命令而分派主要着色器。如果调度器4007可以为每个SIMD通道分配栈ID，则调度器4007接收这些分派请求并且在SIMD处理器线程上启动主要着色器。从在分派命令开始处进行初始化的空闲栈池4102分配栈ID。

执行着色器可以通过向消息传送单元4004发送产生消息来产生子着色器。该命令包括与着色器相关联的栈ID，并且还包括指向针对每个活动SIMD通道的子着色器记录的指针。父着色器可以仅针对活动通道发布该消息一次。在一个实施例中，在发送针对所有相关通道的产生消息之后，父着色器终止。

在SIMD核心/EU 4001上执行的着色器还可以使用产生消息来产生诸如光线-BVH交叉之类的固定功能任务，该产生消息具有为固定功能硬件保留的着色器记录指针。如所提到的，消息传送单元4004将产生的光线-BVH交叉工作发送到固定功能光线-BVH交叉电路4005，并且将可调用着色器直接发送到分类电路4008。在一个实施例中，分类电路通过着色器记录指针对着色器进行分组以导出具有类似特性的SIMD批。因此，来自不同父着色器的栈ID可以通过分类电路4008分组到同一批中。分类电路4008将经分组的批发送到调度器4007，该调度器4007从图形存储器2511或最后一级高速缓存(LLC)4020访问着色器记录，并在处理器线程上启动着色器。

在一个实施例中，延拓被视为可调用着色器，并且还可以通过着色器记录来引用该延拓。当产生子着色器并将值返回到父着色器时，在调用栈4101上推送指向延拓着色器记录的指针。当子着色器返回时，从调用栈4101中弹出延拓着色器记录并且产生延拓着色器。产生的延拓通过类似于可调用着色器的分类单元，并且在处理器线程上启动。

如图42中示出的，分类电路4008的一个实施例通过着色器记录指针4201A、4201B、4201n对产生的任务进行分组，以创建用于着色的SIMD批。经分类的批中的栈ID或上下文ID可以根据不同的分派和不同的输入SIMD通道被分组。在一个实施例中，分组电路4210使用包括多个条目的内容可寻址存储器(CAM)结构4202来执行分类，其中每个条目用标签4201标识。如所提到的，在一个实施例中，标签4201是对应的着色器记录指针4201A、4201B、4201n。在一个实施例中，CAM结构4202存储有限数量的(例如，32个、64个、128个等)标签，每个标签与对应于着色器记录指针的不完整SIMD批相关联。

对于传入的产生命令，每个SIMD通道具有对应的栈ID(在每个CAM条目中被示为16个上下文ID 0-15)和着色器记录指针4201A-B，……n(其用作标签值)。在一个实施例中，分组电路4210将针对每个通道的着色器记录指针与CAM结构4202中的标签4201进行比较，以找到匹配的批。如果找到匹配的批，则将栈ID/上下文ID添加到批中。否则，将创建具有新的着色器记录指针标签的新条目，从而可能逐出具有不完整批的较旧条目。

执行着色器可以通过向消息传送单元发送解除分配消息来在调用栈为空时解除分配调用栈。解除分配消息被中继到调度器，该调度器将针对活动SIMD通道的栈ID/上下文ID返回到空闲池。

本发明的一个实施例使用固定功能光线遍历和软件光线遍历的组合来实现用于光线遍历操作的混合方法。因此，该方法提供了软件遍历的灵活性，同时维持了固定功能遍历的效率。图43示出了可以用于混合遍历的加速结构，该加速结构是具有单个顶部级别BVH4300和若干底部级别BVH 4301和4302的两级别树。图形元素在右侧示出以指示内部遍历路径4303、外部遍历路径4304、遍历节点4305、具有三角形的叶节点4306以及具有自定义基元的叶节点4307。

顶部级别BVH 4300中的具有三角形的叶节点4306可以引用针对自定义基元的三角形、交叉着色器记录或遍历着色器记录。底部级别BVH 4301-4302中的具有三角形的叶节点4306可以仅引用针对自定义基元的三角形和交叉着色器记录。引用类型在叶节点4306内编码。内部遍历4303指代在每个BVH 4300-4302内的遍历。内部遍历操作包括计算光线-BVH交叉，并且跨BVH结构4300-4302的遍历被称为外部遍历。内部遍历操作可以在固定功能硬件中高效地实现，而外部遍历操作可以利用可编程着色器以可接受的性能执行。因此，本发明的一个实施例使用固定功能电路4010执行内部遍历操作，并且使用着色器执行电路4000执行外部遍历操作，该着色器执行电路4000包括SIMD/SIMT核心/EU 4001以用于执行可编程着色器。

注意，为简单起见，SIMD/SIMT核心/EU 4001有时在本文中被简称为“核心”、“SIMD核心”、“EU”或“SIMD处理器”。类似地，光线-BVH遍历/交叉电路4005有时被简称为“遍历单元”、“遍历/交叉单元”或“遍历/交叉电路”。当使用替代术语时，用于指定相应的电路/逻辑的特定名称不改变如本文所描述的电路/逻辑执行的基本功能。

此外，尽管出于解释的目的被示为图40中的单个组件，但是遍历/交叉单元4005可以包括不同的遍历单元和单独的交叉单元，遍历单元和交叉单元中的每一个可以以如本文描述的电路和/或逻辑实现。

在一个实施例中，当在内部遍历期间光线与遍历节点交叉时，产生遍历着色器。分类电路4008通过着色器记录指针4201A-B，……n对这些着色器进行分组，以创建由调度器4007启动的SIMD批，以用于在图形SIMD核心/EU 4001上的SIMD执行。遍历着色器可以以各种方式修改遍历，从而实现广泛的应用。例如，遍历着色器可以以较粗略的细节水平(LOD)选择BVH，或者变换光线以实现刚体变换。然后，遍历着色器针对所选定的BVH产生内部遍历。

内部遍历通过遍历BVH以及计算光线框和光线-三角形交叉来计算光线-BVH交叉。通过向消息传送电路4004发送消息以与着色器相同的方式产生内部遍历，该消息传送电路4004将对应的产生消息中继到计算光线-BVH交叉的光线-BVH交叉电路4005。

在一个实施例中，用于内部遍历的栈本地存储在固定功能电路4010中(例如，在L1高速缓存4006内)。当光线与对应于遍历着色器或交叉着色器的叶节点交叉时，内部遍历终止并且内部栈被截断。经截断的栈连同指向光线和BVH的指针一起在由调用着色器指定的位置写入存储器，并且然后产生对应的遍历着色器或交叉着色器。如果在内部遍历期间光线与任何三角形交叉，则对应的命中信息将作为输入变元提供给这些着色器，如下面的代码所示。这些产生的着色器由分类电路4008进行分组以创建用于执行的SIMD批。

截断内部遍历栈降低了将其溢出到存储器的成本。本发明的一个实施例使用Restart Trail for Stackless BVH Traversal(High Performance Graphics(2010)，pp.107-111)中描述的方法将栈截断为栈顶部的少量条目、42-位重启踪迹和6位深度值。重启踪迹指示已经在BVH内部获取的分支，并且深度值指示与最后一个栈条目相对应的遍历的深度。这是足以在之后恢复内部遍历的信息。

当内部栈为空并且不再有要测试的BVH节点时，内部遍历完成。在这种情况下，产生外部栈处理程序，该外部栈处理程序弹出外部栈的顶部，并且在外部栈不为空的情况下恢复遍历。

在一个实施例中，外部遍历执行主遍历状态机并且以由着色器执行电路4000执行的程序代码实现。着色器执行电路4000在以下条件下产生内部遍历查询：(1)当由命中着色器或主要着色器产生新的光线时；(2)当遍历着色器选择用于遍历的BVH时；以及(3)当外部栈处理程序恢复针对BVH的内部遍历时。

如图44中示出的，在产生内部遍历之前，在调用栈4405上分配空间，以便固定功能电路4010存储经截断的内部栈4410。与调用栈的顶部和内部栈的偏移4403-4404在遍历状态4400中维护，该遍历状态4400也存储在存储器2511中。遍历状态4400还包括世界空间4401和对象空间4402中的光线以及针对最接近的交叉基元的命中信息。

遍历着色器、交叉着色器和外部栈处理程序全部由光线-BVH交叉电路4005产生。遍历着色器在针对第二级别BVH启动新的内部遍历之前在调用栈4405上进行分配。外部栈处理程序是负责更新命中信息并恢复任何未决的内部遍历任务的着色器。外部栈处理程序还负责在遍历完成时产生命中着色器或未命中着色器。当没有要产生的未决的内部遍历查询时，遍历完成。当遍历完成并找到交叉时，产生命中着色器；否则产生未命中着色器。

虽然上面所描述的混合遍历方案使用两个级别的BVH层级，但是本文所描述的本发明的实施例可以使用具有在外部遍历实现方式中的对应改变的任意数量的BVH级别。

另外地，虽然在上面的实施例中描述了用于执行光线-BVH交叉的固定功能电路4010，但是其他系统组件也可以以固定功能电路实现。例如，上面描述的外部栈处理程序可以是内部(非用户可见的)着色器，其可能潜在地以固定功能BVH遍历/交叉电路4005实现。该实现方式可以用于减少经分派的着色器阶段以及固定功能交叉硬件4005与处理器之间的往返的数量。

这里描述的本发明的实施例使用用户定义的函数来实现可编程着色和光线遍历控制，这些用户定义的函数可以在现有的和未来的GPU处理器上以更高的SIMD效率执行。对光线遍历的可编程控制实现了若干重要的特征，例如，程序实例化、任意细节级别选择、自定义基元交叉和懒惰BVH更新。

利用位掩码的网格基元处理

本发明的一个实施例包括光线追踪电路，其使得一条或多条光线与N×M个三角形(具有(N+1)×(M+1)个顶点)的或其他基元的固定大小的网格相交。每个网格与N×M个位掩码相关联或包含N×M个位掩码，其中每个位指示是否利用对应的三角形执行光线-三角形交叉测试。在位掩码中其对应的位未被置位的三角形将对于随后的光线追踪操作被忽略。

图45示出了包括多个三角形的这种网格基元4501A以及包含与每个三角形相关联的位的位掩码4503的一个示例。置位的位值(1)意味着三角形将用于随后的光线追踪操作，而未置位的位值(0)意味着要对于随后的光线追踪操作忽略该三角形。网格基元4501B示出了三角形的集合4502被忽略/丢弃的结果。因此，当测试光线4502与网格基元4501B中的三角形的交叉时，与位掩码4503中的值0相关联的三角形将不被处理。

由于三角形邻接信息(三角形索引)不需要被存储(即，因为规则的顶点布局隐式地提供网格三角测量)，所以利用小的固定大小的网格表示密集且规则的三角形几何结构是非常存储器高效的。执行光线-网格基元交叉测试仅要求在网格中的所有三角形上迭代并且(顺序地或并行地)执行光线-三角形交叉测试。

图46示出了在GPU 4005上执行的光线追踪引擎4610，该光线追踪引擎4610包括对网格基元生成和遍历/交叉的支持。特别地，在该实施例中，网格基元生成电路4601生成包括多个三角形(或其他基元)的网格基元以及相关联的位掩码。参考图45，在一个实施例中，网格基元生成电路4601形成网格基元，其中多个三角形或其他基元共享侧边和顶点以减少存储和数据处理要求。

该实施例的遍历/交叉单元4005包括网格基元交叉电路4600，以用于根据如本文所描述的位掩码来处理网格基元。例如，在一个实施例中，网格基元交叉电路4600忽略与设置为特定值的位(例如，设置为0的位)相关联的三角形，并且针对其余的三角形(例如，具有置位为1的位的三角形)执行遍历和交叉测试。

在一个实施例中，要根据位掩码处理的那些三角形与包围体积层级(BVH)4605内的不同节点相关联。在一个实施例中，BVH处理电路4607基于位掩码在每个网格基元中的三角形上高效地生成BVH 4505(即，忽略与未置位的位掩码位相关联的三角形)。然后，网格基元交叉电路4600可以使用BVH 4505来提高光线-网格交叉测试的效率，该光线-网格交叉测试通过首先使(多条)光线遍历通过BVH来执行。然而，注意，不要求特定的BVH生成技术来遵守本发明的基本原理。

在一个实施例中，当到达BVH的叶节点时，网格基元交叉电路4600测试光线与一个或多个网格基元三角形的交叉。如所提到的，包围体积层级(BVH)通常用于改进对图形基元和其他图形对象执行操作的效率。BVH是基于几何对象的集合构建的分层树结构。在树结构的顶部是根节点，该根节点包围给定场景中的所有几何对象。单个几何对象被包裹在形成树底部的“叶”节点的包围体积中。然后，将这些节点分组为小的集合并且包围在较大的包围体积内。进而，这些小的集合也以递归方式分组并且包围在其他较大的包围体积内，最终导致其中由根节点表示的单个包围体积处于树顶部的树结构。

光线遍历通过BVH以减少光线-基元交叉的数量。例如，如果光线没有通过BVH的根节点，则该光线不与由BVH包围的基元中的任一个相交，并且关于基元的该集合不要求对光线进行进一步的处理。如果光线通过BVH的第一子节点但没有通过第二子节点，则不需要针对由第二子节点包围的任何基元测试光线。以这种方式，BVH提供了用于减少光线-基元交叉数量的高效的机制。

在一个实施例中，网格基元交叉电路4600生成命中数据4665，该命中数据4665指示在光线与形成网格基元4501A的三角形(或其他基元)之间检测到的交叉。在一个实施例中，因为由于位掩码4503导致三角形的一部分被忽略，所以遍历和交叉测试操作的数量显著地减少。

用于多GPU环境的页面高速缓存

本发明的一个实施例包括系统级别存储器管理单元，其用于控制多GPU环境中的存储器页面迁移，从而允许所有GPU和/或CPU在相同的存储器区域内高效地工作。在一些实现方式中，这样的区域跨多个物理GPU/CPU存储器。例如，系统中的所有GPU和CPU核心可以共享相同的虚拟地址空间，该虚拟地址空间跨多个物理GPU和CPU核心存储器分配。系统级别MMU或SMMU的一个实施例还可以代表请求GPU和CPU执行地址转换，以将虚拟地址转换为存储器页面的物理地址。可替代地，GPU和CPU可以(例如，利用本地GPU/CPU MMU)执行虚拟到物理转换并且利用物理存储器地址生成对系统级别MMU的存储器请求。

所提出的存储器管理硬件单元管理跨多个GPU/CPU处理实体的页面迁移。这些实体可以包括对处理资源的任何逻辑或物理细分或分组，处理资源的一些示例包括小芯片、GPU分块、CPU核心、GPU/CPU切片、整个GPU/CPU或GPU/CPU核心组，所有这些都共享公共虚拟地址空间。

在一个实施例中，每个处理实体可以访问位于另一处理实体的本地存储器中的存储器。在一个实施例中，这种访问可以触发从在一个GPU/CPU实体本地的第一物理存储器到在另一GPU/CPU实体本地的第二物理存储器(例如，访问该页面的那个存储器)的页面迁移/传送。

图47示出了说明与GPU0相关联的GPU0存储器4700、与GPU1相关联的GPU1存储器4701以及与GPU M相关联的GPU M存储器4702的示例。当一个GPU访问位于另一GPU的存储器中的存储器时，图形MMU 4712管理该传送，同时追踪哪个页面已经被传送到哪个GPU。图形MMU 4712还对MMU管理的GPU页面高速缓存4710内最频繁访问的页面的内容进行缓存，从而避免昂贵的GPU到GPU传送。

页面的大小将典型地在4k和多个MB之间变化。在一个实施例中，当写入页面高速缓存4710时，在执行写入时仅允许单个GPU“拥有”页面，而从页面的读取被复制到许多GPU实体上的本地存储器(例如，GPU存储器4700-4702)。

图48示出了一个实施例，其中相同的页面一致性机制被扩展到包括CPU核心的其他系统级别代理。虽然仅示出了单个CPU核心存储器(核心0)，但是相同的原理可以扩展到所有其他核心和所有其他系统代理。例如，输入/输出(IO)设备和诸如数字信号处理器(DSP)之类的其他处理组件也可以耦合到系统MMU 4712并且利用MMU管理的页面高速缓存4710。

如果MMU 4712的一个实施例检测到对存储器的某种访问模式，则MMU 4712的该实施例执行异步页面预取到MMU管理的页面高速缓存4710。如图49中示出的，MMU 4712的该实施例包括页面预取器4950，该页面预取器4950基于检测到的访问模式将页面从系统存储器4755预取到系统MMU管理的页面高速缓存4710。页面预取器4950的一个实施例包括访问模式检测电路/逻辑4951，其用于检测指定类型的访问模式，并且在检测到访问模式中的一种时通知页面预取器4950。

通过示例而非限制的方式，访问模式检测电路/逻辑4951的一个实施例观察并评估针对从GPU和/或CPU核心生成的数据请求的本地存储器未命中的模式。基于该评估，访问模式检测电路/逻辑4951基于递归模式对未来未命中进行预测。通过示例而非限制的方式，递归模式可以包括由恒定跨步值分隔的地址序列。如果检测到这样的模式，则页面预取器4950的一个实施例尝试自动预取未来的页面。

页面预取器4950的一个实施例在进行预取时可以以不同级别的攻击性(例如，经由控制寄存器值)进行配置。例如，第一值可以指示没有预取，第二值可以指示预取多达N个页面，第三值可以指示预取多达M个页面(其中M>N)等等。

在一个实施例中，还可以通过诸如预取指令之类的显式用户编程来调用预取，从而使得MMU 4712在用户期望很快要访问附加页面时异步地预取那些页面。

图50中示出了根据本发明的一个实施例的方法。该方法可以在本文所描述的各种处理器和系统架构(但不限于任何特定架构)的上下文内实现。

在5001处，跨多个物理存储器设备(包括本地GPU存储器和本地CPU存储器)分配虚拟地址空间。通过示例的方式，本地GPU存储器可以包括GDDR存储器，并且CPU存储器可以包括系统随机存取存储器(RAM)或高带宽存储器(HBM)。

在5002处，管理由GPU和CPU对存储器页面的访问。在一个实施例中，管理包括实现系统级别页面高速缓存，该系统级别页面高速缓存存储由GPU和CPU请求的页面。在5003处，监视并评估对存储器页面的访问模式。评估的结果可以包括某些检测到的访问模式，这些访问模式可以用于预测将在随后的事务中请求的页面。该数据可以本地存储(例如，存储在本地高速缓存或缓冲器中)，使得随后可以将该数据用于比较。

如果在5004处确定检测到特定的访问模式，则在5005处预取与检测到的模式相关联的页面。例如，可以从系统存储器取回页面并且将该页面存储在GPU和CPU可访问的页面高速缓存中(例如，在地址序列由恒定跨步值分隔的情况下，可以预取页面的第一集合之后的后续页面)。在5006处，从系统级别页面高速缓存向请求GPU、CPU和/或其他系统级别组件(例如，DSP、IO设备、网络接口等)提供经预取的页面。

在上面描述的实施例中，术语“引擎”或“模块”或“逻辑”可以指代以下各项、是以下各项的一部分或者包括以下各项：专用集成电路(ASIC)、电子电路、处理器(共享、专用或组)和/或执行一个或多个软件或固件程序的存储器(共享、专用或组)、组合逻辑电路和/或提供所描述的功能的其他合适组件。在实施例中，引擎、模块或逻辑可以以固件、硬件、软件或固件、硬件和软件的任何组合来实现。

本发明的实施例可以包括上面已经描述的各种步骤。这些步骤可以体现在机器可执行指令中，这些机器可执行指令可以用于使得通用处理器或专用处理器执行这些步骤。可替代地，这些步骤可以由包含用于执行这些步骤的硬连线逻辑的特定硬件组件来执行，或者由经编程的计算机组件和自定义硬件组件的任何组合来执行。

如本文所描述的，指令可以指代硬件的特定配置，例如，被配置为执行某些操作或具有预先确定的功能的专用集成电路(ASIC)，或者存储在以非暂时性计算机可读介质体现的存储器中的软件指令。因此，可以使用在一个或多个电子设备(例如，终端站、网络元件等)上存储并执行的代码和数据来实现附图中示出的技术。这种电子设备使用计算机机器可读介质(例如，非暂时性计算机机器可读存储介质(例如，磁盘；光盘；随机存取存储器；只读存储器；闪速存储器设备；相变存储器)和暂时性计算机机器可读通信介质(例如，电学、光学、声学或其他形式的传播信号——例如，载波、红外信号、数字信号等))存储并(内部地和/或通过网络与其他电子设备)传送代码和数据。

另外地，这种电子设备典型地包括与一个或多个其他组件(例如，一个或多个存储设备(非暂时性机器可读存储介质)、用户输入/输出设备(例如，键盘、触摸屏和/或显示器)以及网络连接)耦合的一个或多个处理器的集合。处理器的集合与其他组件的耦合典型地通过一个或多个总线和桥(也称为总线控制器)。存储设备和携带网络业务的信号分别代表一个或多个机器可读存储介质和机器可读通信介质。因此，给定电子设备的存储设备典型地存储用于在该电子设备的一个或多个处理器的集合上执行的代码和/或数据。当然，可以使用软件、固件和/或硬件的不同组合来实现本发明的实施例的一个或多个部分。在整个具体实施方式中，出于解释的目的，阐述了许多具体细节以便提供对本发明的透彻理解。然而，对于本领域技术人员显而易见的是，可以在没有这些具体细节中的一些的情况下实践本发明。在某些实例中，没有详细描述公知的结构和功能，以避免模糊本发明的主题。因此，本发明的范围和精神应依据所附权利要求来判断。

Claims

1.一种装置，包括：

网格基元生成器，其用于生成包括多个相邻互连基元的网格基元；

位掩码生成器，其用于生成与所述网格基元相关联的位掩码，所述位掩码包括多个位掩码值，每个掩码值与所述网格基元中的基元相关联；

光线追踪引擎，其包括用于执行遍历和交叉操作的遍历和交叉硬件逻辑，其中，光线被遍历通过分层加速数据结构，并且所述光线与所述相邻互连基元中的一个或多个之间的交叉被标识，

其中，所述光线追踪引擎用于读取所述位掩码以确定来自所述网格基元的基元的第一集合以及来自所述网格基元的基元的第二集合，在所述基元的第一集合上执行所述遍历和交叉操作，在所述基元的第二集合上所述遍历和交叉操作将不被执行。

2.根据权利要求1所述的装置，其中，所述位掩码中的第一位值指示要对对应的基元执行所述遍历和交叉操作，并且所述位掩码中的第二位值指示不对所述对应的基元执行所述遍历和交叉操作。

3.根据权利要求1或2所述的装置，其中，所述网格基元生成器用于基于基元的测量出的密度和/或周期性重复在一个或多个阈值之上，要被包括在所述网格基元中的所述基元被标识。

4.根据权利要求3所述的装置，其中，所述网格基元生成器用于在没有索引的情况下将所述基元的至少一部分存储在存储器中，并且其中，所述基元的存储器位置将基于所述网格基元内的所述基元之间的空间关系而被隐式地确定。

5.根据权利要求1或4所述的装置，其中，所述遍历和交叉硬件逻辑用于对多个所述基元的第一集合并行地执行多个光线-基元交叉测试。

6.根据权利要求1或4所述的装置，其中，所述分层加速数据结构包括包围体积层级(BVH)。

7.根据权利要求6所述的装置，还包括：

BVH处理硬件逻辑，其用于基于所述位掩码在每个网格基元中的所述基元上生成BVH。

8.根据权利要求7所述的装置，其中，所述BVH处理硬件逻辑用于使用与所述位掩码中被设置为第一值的位相关联的基元来生成所述BVH，并且忽略与所述位掩码中被设置为第二值的位相关联的三角形。

9.一种方法，包括：

生成包括多个相邻互连基元的网格基元；

生成与所述网格基元相关联的位掩码，所述位掩码包括多个位掩码值，每个掩码值与所述网格基元中的基元相关联；

执行遍历和交叉操作，其中，光线被遍历通过分层加速数据结构，并且所述光线与所述相邻互连基元中的一个或多个之间的交叉被标识，

其中，读取所述位掩码以确定来自所述网格基元的基元的第一集合以及来自所述网格基元的基元的第二集合，在所述基元的第一集合上执行所述遍历和交叉操作，在所述基元的第二集合上所述遍历和交叉操作将不被执行。

10.根据权利要求9所述的方法，其中，所述位掩码中的第一位值指示要对对应的基元执行所述遍历和交叉操作，并且所述位掩码中的第二位值指示不对所述对应的基元执行所述遍历和交叉操作。

11.根据权利要求9或10所述的方法，其中，基于基元的测量出的密度和/或周期性重复在一个或多个阈值之上，要被包括在所述网格基元中的所述基元被标识。

12.根据权利要求11所述的方法，在没有索引的情况下所述基元的至少一部分被存储在存储器中，并且其中，所述基元的存储器位置将基于所述网格基元内的所述基元之间的空间关系而被隐式地确定。

13.根据权利要求9或12所述的方法，还包括：

对多个所述基元的第一集合并行地执行多个光线-基元交叉测试。

14.根据权利要求9或12所述的方法，其中，所述分层加速数据结构包括包围体积层级(BVH)。

15.根据权利要求14所述的方法，还包括：

基于所述位掩码在每个网格基元中的所述基元上生成BVH。

16.根据权利要求15所述的方法，其中，所述BVH处理硬件逻辑用于使用与所述位掩码中被设置为第一值的位相关联的基元来生成所述BVH，并且忽略与所述位掩码中被设置为第二值的位相关联的三角形。

17.一种机器可读介质，其上存储有程序代码，所述程序代码当由机器执行时，使得所述机器执行以下操作：

生成包括多个相邻互连基元的网格基元；

18.根据权利要求17所述的机器可读介质，其中，所述位掩码中的第一位值指示要对对应的基元执行所述遍历和交叉操作，并且所述位掩码中的第二位值指示不对所述对应的基元执行所述遍历和交叉操作。

19.根据权利要求17或18所述的机器可读介质，其中，基于基元的测量出的密度和/或周期性重复在一个或多个阈值之上，要被包括在所述网格基元中的所述基元被标识。

20.根据权利要求19所述的机器可读介质，在没有索引的情况下所述基元的至少一部分被存储在存储器中，并且其中，所述基元的存储器位置将基于所述网格基元内的所述基元之间的空间关系而被隐式地确定。

21.根据权利要求17或20所述的机器可读介质，还包括：

22.根据权利要求17或20所述的机器可读介质，其中，所述分层加速数据结构包括包围体积层级(BVH)。

23.根据权利要求22所述的机器可读介质，还包括：

基于所述位掩码在每个网格基元中的所述基元上生成BVH。

24.根据权利要求23所述的机器可读介质，其中，所述BVH处理硬件逻辑用于使用与所述位掩码中被设置为第一值的位相关联的基元来生成所述BVH，并且忽略与所述位掩码中被设置为第二值的位相关联的三角形。

25.一种装置，包括：

用于生成包括多个相邻互连基元的网格基元的单元；

用于生成与所述网格基元相关联的位掩码的单元，所述位掩码包括多个位掩码值，每个掩码值与所述网格基元中的基元相关联；

用于执行遍历和交叉操作的单元，其中，光线被遍历通过分层加速数据结构，并且所述光线与所述相邻互连基元中的一个或多个之间的交叉被标识，