CN111798555A

CN111798555A - 用于降低精度的包围体层次构造的设备和方法

Info

Publication number: CN111798555A
Application number: CN202010157897.4A
Authority: CN
Inventors: M.多伊尔; K.维亚纳桑
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2019-04-04
Filing date: 2020-03-09
Publication date: 2020-10-20

Abstract

本发明的主题是“用于降低精度的包围体层次构造的设备和方法”。用于高效BVH构造的设备和方法。例如，设备的一个实施例包括：存储器，所述存储器用来存储用于场景的图形数据，所述图形数据包含处于第一精度的场景中的多个图元；几何量化器，所述几何量化器用来读取处于第一精度的图元的顶点，并且将图元的顶点适应性地量化到第二精度，所述第二精度与定位在全局坐标栅格内的第一BVH节点的第一局部坐标栅格关联，第二精度低于第一精度；BVH构建器，所述BVH构建器用来通过使用与第一BVH节点关联的图元为第一BVH节点执行非空间分割面元划分或空间分割面元划分来确定第一BVH节点的子节点的坐标，BVH构建器要至少部分基于为子节点中的每个子节点生成的不同包围盒的表面面积的评估来为子节点确定最终坐标。

Description

用于降低精度的包围体层次构造的设备和方法

对相关申请的交叉引用

本申请要求2019年4月4日提交的共同未决的美国专利申请No.62/829,523的益处，该申请的全部通过引用被并入到本文中。

技术领域

本发明一般涉及图形处理器的领域。更特别地，本发明涉及用于降低精度的包围体层次(bounding volume hierarchy)构造的设备和方法。

背景技术

光线追踪是其中通过基于物理的渲染来对光传输进行仿真的技术。它被广泛用于电影渲染中，直至仅几年前为止它被认为对于实时性能而言是过于资源密集的。光线追踪中的关键操作之一是处理称为“光线遍历(ray traversal)”的用于光线-场景交叉的可见性查询，其通过遍历和交叉包围体层次(BVH)中的节点来计算光线-场景交叉。

附图说明

从结合以下附图的以下详细描述中能够获得本发明的更好理解，附图中：

图1是带有处理器的计算机系统的实施例的框图，所述处理器具有一个或多个处理器核和图形处理器；

图2A-D是处理器的一个实施例的框图，所述处理器具有一个或多个处理器核、集成存储器控制器和集成图形处理器；

图3A-C是图形处理器的一个实施例的框图，所述图形处理器可以是分立的图形处理单元，或者可以是与多个处理核集成的图形处理器；

图4是用于图形处理器的图形处理引擎的实施例的框图；

图5A-B是图形处理器的另一实施例的框图。

图6图示了执行电路和逻辑的示例；

图7图示了根据实施例的图形处理器执行单元指令格式；

图8是图形处理器的另一实施例的框图，所述图形处理器包含图形流水线(graphics pipeline)、媒体流水线、显示引擎、线程执行逻辑和渲染输出流水线；

图9A是图示根据实施例的图形处理器命令格式的框图；

图9B是图示根据实施例的图形处理器命令序列的框图；

图10图示了根据实施例的用于数据处理系统的示例性图形软件架构；

图11A-D图示了可以被用来制造集成电路和示例性封装组装件的示例性IP核开发系统；

图12图示了根据实施例的可以使用一个或多个IP核来制作的示例性片上系统集成电路；

图13图示了可以使用一个或多个IP核来制作的片上系统集成电路的示例性图形处理器；

图14图示了示例性图形处理器架构；

图15图示了用于执行机器学习架构的初始训练的架构的一个实施例；

图16图示了其中在运行时间期间不断训练和更新机器学习引擎的一个实施例；

图17图示了其中在运行时间期间不断训练和更新机器学习引擎的另一实施例；

图18A-B图示了其中在网络上共享机器学习数据的实施例；以及

图19图示了用于训练机器学习引擎的方法的一个实施例；

图20图示了其中节点交换重影区域(ghost region)数据以执行分布式去噪操作的一个实施例；

图21图示了其中图像渲染和去噪操作跨多个节点分布的架构的一个实施例；

图22图示了用于分布式渲染和去噪的架构的另外细节；

图23图示了根据本发明的一个实施例的方法；

图24图示了机器学习方法的一个实施例；

图25图示了多个互连的通用图形处理器；

图26图示了用于机器学习实现的卷积层和完全连接层的集合；

图27图示了卷积层的一个实施例；

图28图示了机器学习实现中互连的节点的集合的示例；

图29图示了训练框架的实施例，在该训练框架内神经网络使用训练数据集来进行学习；

图30A图示了模型并行(model parallelism)和数据并行(data parallelism)的示例；

图30B图示了片上系统(SoC)的示例；

图31图示了处理架构的示例，该处理架构包含光线追踪核和张量核；

图32A图示了示例包围体层次(BVH)结构；

图32B图示了BVH父节点和其子节点之一的2D表示；

图33图示了浮点空间与全局栅格之间的关系；

图34A-D图示了与局部栅格和/或场景内的轴对齐包围盒关联的特征；

图35图示了在父节点内的左和右子节点的示例；

图36A-B图示了与空间分割和对象分割关联的特征；以及

图37图示了光线追踪架构的一个实施例。

具体实施方式

在以下描述中，出于解释的目的，阐述众多具体细节以便提供对下面描述的本发明的实施例的透彻理解。然而，本领域的技术人员将明白，可以在没有这些具体细节中的一些具体细节的情况下实践本发明的实施例。在其他实例中，以框图形式示出公知的结构和装置，以避免混淆本发明的实施例的根本原理。

示例性图形处理器架构和数据类型

系统概述

图1是根据实施例的处理系统100的框图。系统100可以用于单处理器台式电脑系统、多处理器工作站系统或具有大量处理器102或处理器核107的服务器系统中。在一个实施例中，系统100是并入在供移动、手持式或嵌入式装置中(诸如在带有到局域或广域网的有线或无线连接性的物联网(IoT)装置内)使用的片上系统(SoC)集成电路内的处理平台。

在一个实施例中，系统100能够包含以下各项、与以下各项耦合或者被集成在以下各项内：基于服务器的游戏平台；游戏控制台，包含游戏和媒体控制台、移动游戏控制台、手持式游戏控制台或在线游戏控制台。在一些实施例中，系统100是以下各项的一部分：移动电话、智能电话、平板计算装置或诸如带有低内部存储容量的膝上型电脑之类的移动互联网连接的装置。处理系统100还能够包含以下各项、与以下各项耦合或者被集成在以下各项内：可穿戴装置，诸如智能手表可穿戴装置；智能眼镜(smart eyewear)或服装，其用增强现实(AR)或虚拟现实(VR)特征来被增强以提供视觉、音频或触觉输出以补充现实视觉、音频或触觉体验或者以其他方式提供文本、音频、图形、视频、全息图像或视频、或者触觉反馈；其他增强现实(AR)装置；或者其他虚拟现实(VR)装置。在一些实施例中，处理系统100包含电视或机顶盒装置，或者是电视或机顶盒装置的一部分。在一个实施例中，系统100能够包含以下各项、与以下各项耦合或者被集成在以下各项内：诸如公共汽车的自动驾驶车辆、牵引车拖车、汽车、摩托车或电动自行车、飞机或滑翔机(或其任何组合)。自动驾驶车辆可以使用系统100来处理在车辆周围感测到的环境。

在一些实施例中，一个或多个处理器102各自包含一个或多个处理器核107以处理指令，所述指令在被执行时，执行用于系统或用户软件的操作。在一些实施例中，一个或多个处理器核107中的至少一个处理器核被配置成处理特定指令集109。在一些实施例中，指令集109可以促进复杂指令集计算(CISC)、精简指令集计算(RISC)或经由超长指令字(VLIW)的计算。一个或多个处理器核107可以处理不同指令集109，所述指令集109可以包含用来促进对其他指令集的仿真的指令。处理器核107还可以包含其他处理装置，诸如数字信号处理器(DSP)。

在一些实施例中，处理器102包含高速缓冲存储器104。取决于架构，处理器102能够具有单个内部高速缓存或多个级别的内部高速缓存。在一些实施例中，在处理器102的各种组件之间共享高速缓冲存储器。在一些实施例中，处理器102还使用外部高速缓存(例如，3级(L3)高速缓存或末级高速缓存(LLC))(未示出)，其可以在使用已知高速缓存一致性技术的处理器核107之间被共享。寄存器堆106能够另外被包含在处理器102中，并且可以包含用于存储不同类型的数据的不同类型的寄存器(例如，整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器)。一些寄存器可以是通用寄存器，而其他寄存器可以特定于处理器102的设计。

在一些实施例中，一个或多个处理器102与一个或多个接口总线110耦合，以在处理器102与在系统100中的其他组件之间传送通信信号，诸如地址、数据或控制信号。接口总线110在一个实施例中能够是处理器总线，诸如某一版本的直接媒体接口(DMI)总线。然而，处理器总线不限于DMI总线，并且可以包含一个或多个外设组件互连总线(例如，PCI、PCIexpress)、存储器总线或其他类型的接口总线。在一个实施例中，(一个或多个)处理器102包含集成的存储器控制器116和平台控制器集线器130。存储器控制器116促进在存储器装置与系统100的其他组件之间的通信，而平台控制器集线器(PCH)130经由本地I/O总线提供到I/O装置的连接。

存储器装置120能够是动态随机存取存储器(DRAM)装置、静态随机存取存储器(SRAM)装置、闪速存储器装置、相变存储器装置或具有适合性能以充当进程存储器的某一其他存储器装置。在一个实施例中，存储器装置120能够作为用于系统100的系统存储器进行操作，以存储数据122和指令121以便在一个或多个处理器102执行应用或进程时使用。存储器控制器116还与可选的外部图形处理器118耦合，所述外部图形处理器118可以与处理器102中的一个或多个图形处理器108进行通信以执行图形和媒体操作。在一些实施例中，可以由加速器112协助图形、媒体和/或计算操作，所述加速器112是能够被配置成执行专门的一组图形、媒体或计算操作的协处理器。例如，在一个实施例中，加速器112是用来优化机器学习或计算操作的矩阵乘法加速器。在一个实施例中，加速器112是光线追踪加速器，其能够被用来与图形处理器108配合执行光线追踪操作。在一个实施例中，可以使用外部加速器119来替代加速器112或与加速器112配合。

在一些实施例中，显示装置111能够连接到(一个或多个)处理器102。显示装置111能够是如在移动电子装置或膝上型装置中的内部显示装置或者经由显示接口(例如，DisplayPort等)附连的外部显示装置中的一项或多项。在一个实施例中，显示装置111能够是头戴式显示器(HMD)，诸如供在虚拟现实(VR)应用或增强现实(AR)应用中使用的立体显示装置。

在一些实施例中，平台控制器集线器130使得外设能经由高速I/O总线连接到存储器装置120和处理器102。I/O外设包含但不限于音频控制器146、网络控制器134、固件接口128、无线收发器126、触摸传感器125、数据存储装置124(例如，非易失性存储器、易失性存储器、硬盘驱动器、闪速存储器、NAND、3D NAND、3D XPoint等)。数据存储装置124能够经由存储接口(例如，SATA)或经由诸如外设组件互连总线(例如，PCI、PCI express)的外设总线进行连接。触摸传感器125能够包含触摸屏传感器、压力传感器或指纹传感器。无线收发器126能够是Wi-Fi收发器、蓝牙收发器或诸如3G、4G、5G或长期演进(LTE)收发器之类的移动网络收发器。固件接口128使得能够与系统固件通信，并且能够是例如统一可扩展固件接口(UEFI)。网络控制器134能够使得能够实现到有线网络的网络连接。在一些实施例中，高性能网络控制器(未示出)与接口总线110耦合。音频控制器146在一个实施例中是多通道高清晰度音频控制器。在一个实施例中，系统100包含用于将传统(例如，个人系统2(PS/2))装置耦合到系统的可选的传统I/O控制器140。平台控制器集线器130还能够连接到一个或多个通用串行总线(USB)控制器142连接输入装置，诸如键盘和鼠标143组合、相机144或其他USB输入装置。

将领会的是，示出的系统100是示例性的而不是限制性的，因为以不同方式配置的其他类型的数据处理系统也可以被使用。例如，存储器控制器116和平台控制器集线器130的实例可以被集成到分立的外部图形处理器中，诸如外部图形处理器118。在一个实施例中，平台控制器集线器130和/或存储器控制器116可以在一个或多个处理器102的外部。例如，系统100能够包含外部存储器控制器116和平台控制器集线器130，其可以被配置为与(一个或多个)处理器102通信的系统芯片组内的存储器控制器集线器和外设控制器集线器。

例如，能够使用电路板(“滑板(sled)”)，能够将诸如CPU、存储器和其他组件之类的组件放置在所述滑板上，其被设计用于增加的热性能。在一些实施例中，诸如处理器的处理组件位于滑板的顶侧上，而诸如DIMM的近存储器位于滑板的底侧上。作为通过此设计提供的增强的空气流动的结果，组件可以以比在典型系统中更高的频率和功率水平操作，由此增加性能。此外，滑板被配置成与机架中的功率和数据通信缆线盲配对，从而增强它们被快速移除、升级、重新安装和/或替换的能力。类似地，位于滑板上的各个组件(诸如处理器、加速器、存储器和数据存储驱动器)被配置成由于它们与彼此增加的间距而容易被升级。在说明性实施例中，组件另外包含硬件证明特征以证实其可靠性(authenticity)。

数据中心能够利用单个网络架构(“组构(fabric)”)，所述单个网络架构支持包含以太网和全路径(Omni-Path)的多个其他网络架构。滑板能够经由光纤被耦合到交换机，所述光纤提供比典型双绞线缆线(例如，类别5、类别5e、类别6等)更高的带宽和更低的时延。由于高带宽、低时延互连和网络架构，数据中心可以使用在物理上解聚的池资源(诸如存储器、加速器(例如，GPU、图形加速器、FPGA、ASIC、神经网络和/或人工智能加速器等)以及数据存储驱动器)，并且在按需基础上将它们提供到计算资源(例如，处理器)，使得计算资源能访问池化资源(pooled resource)，如同池化资源是本地的一样。

功率供应器或功率源能够提供电压和/或电流到本文中描述的系统100或任何组件或系统。在一个示例中，功率供应器包含用来插入到墙上插座的AC到DC(交流电到直流电)适配器。此类AC电力能够是可再生能(例如，太阳能)功率源。在一个示例中，功率源包含DC功率源，诸如外部AC到DC转换器。在一个示例中，功率源或功率供应器包含无线充电硬件以经由接近充电场进行充电。在一个示例中，功率源能够包含内部电池、交流电供应器、基于运动的功率供应器、太阳能供应器或燃料电池源。

图2A-2D图示了由本文中描述的实施例提供的计算系统和图形处理器。与本文中任何其他附图的元件具有相同参考标号(或名称)的图2A-2D的元件能够以与本文中其他地方所描述的方式类似的任何方式操作或起作用，但不限于这样。

图2A是具有一个或多个处理器核202A-202N、集成存储器控制器214和集成图形处理器208的处理器200的实施例的框图。处理器200能够包含另外的核，所述另外的核多达并且包含由虚线框表示的另外的核202N。处理器核202A-202N中的每个处理器核包含一个或多个内部高速缓存单元204A-204N。在一些实施例中，每个处理器核还可以访问一个或多个共享高速缓存单元206。内部高速缓存单元204A-204N和共享高速缓存单元206表示处理器200内的高速缓冲存储器层次。高速缓冲存储器层次可以包含在每个处理器核内的至少一级的指令和数据高速缓存，以及一级或多级的共享中间级高速缓存，诸如2级(L2)、3级(L3)、4级(L4)或其他级的高速缓存，其中在外部存储器前的最高级的高速缓存被分类为LLC。在一些实施例中，高速缓存一致性逻辑维持各种高速缓存单元206与204A-204N之间的一致性。

在一些实施例中，处理器200还可以包含一组一个或多个总线控制器单元216和系统代理核210。一个或多个总线控制器单元216管理一组外设总线，诸如一个或多个PCI或PCI express总线。系统代理核210提供用于各种处理器组件的管理功能性。在一些实施例中，系统代理核210包含一个或多个集成存储器控制器214以管理对各种外部存储器装置(未示出)的访问。

在一些实施例中，处理器核202A-202N中的一个或多个处理器核包含对同时多线程的支持。在此类实施例中，系统代理核210包含用于在多线程的处理期间协调和操作核202A-202N的组件。系统代理核210可以另外包含功率控制单元(PCU)，所述功率控制单元(PCU)包含用来调节处理器核202A-202N和图形处理器208的功率状态的逻辑和组件。

在一些实施例中，处理器200另外包含用来执行图形处理操作的图形处理器208。在一些实施例中，图形处理器208与一组共享高速缓存单元206和包含一个或多个集成存储器控制器214的系统代理核210耦合。在一些实施例中，系统代理核210还包含用来驱动到一个或多个耦合的显示器的图形处理器输出的显示控制器211。在一些实施例中，显示控制器211还可以是经由至少一个互连与图形处理器耦合的单独模块，或者可以被集成在图形处理器208内。

在一些实施例中，基于环的互连单元212被用来耦合处理器200的内部组件。然而，可以使用备选互连单元，诸如点对点互连、交换互连或其他技术，包含本领域中公知的技术。在一些实施例中，图形处理器208经由I/O链路213与环形互连212耦合。

示例性I/O链路213表示多个种类的I/O互连中的至少一个，包含促进在各种处理器组件与诸如eDRAM模块的高性能嵌入式存储器模块218之间的通信的封装上I/O互连。在一些实施例中，处理器核202A-202N中的每个处理器核和图形处理器208能够使用嵌入式存储器模块218作为共享末级高速缓存。

在一些实施例中，处理器核202A-202N是执行相同指令集架构的同质核。在另一实施例中，处理器核202A-202N在指令集架构(ISA)方面是异质的，其中处理器核202A-202N中的一个或多个处理器核执行第一指令集，而其他核中的至少一个核执行第一指令集的子集或不同指令集。在一个实施例中，处理器核202A-202N在微架构方面是异质的，其中具有相对更高功耗的一个或多个核与具有更低功耗的一个或多个功率核耦合。在一个实施例中，处理器核202A-202N在计算能力方面是异质的。另外，处理器200能够在一个或多个芯片上被实现，或者被实现为除其他组件外还具有图示的组件的SoC集成电路。

图2B是根据本文中描述的一些实施例的图形处理器核219的硬件逻辑的框图。与本文中任何其他附图的元件具有相同参考标号(或名称)的图2B的元件能够以与本文中其他地方所描述的方式类似的任何方式操作或起作用，但不限于这样。有时被称为核切片的图形处理器核219能够是模块化图形处理器内的一个或多个图形核。图形处理器核219是一个图形核切片的示例，并且如本文中所述的图形处理器可以包含基于目标功率和性能包络的多个图形核切片。每个图形处理器核219能够包含与也称为子切片的多个子核221A-221F耦合的固定功能块230，所述多个子核221A-221F包含通用和固定功能逻辑的模块化块。

在一些实施例中，固定功能块230包含几何/固定功能流水线231，所述几何/固定功能流水线231能够例如在更低性能/或更低功率图形处理器实现中由图形处理器核219中的所有子切片共享。在各种实施例中，几何/固定功能流水线231包含3D固定功能流水线(例如，下述的如图3和图4中的3D流水线312)、视频前端单元、线程派生器(thread spawner)和线程分派器(thread dispatcher)以及管理统一返回缓冲区(unified return buffer)(例如，如下所述的在图4中的统一返回缓冲区418)的统一返回缓冲区管理器。

在一个实施例中，固定功能块230还包含图形SoC接口232、图形微控制器233和媒体流水线234。图形SoC接口232提供图形处理器核219与片上系统集成电路内的其他处理器核之间的接口。图形微控制器233是可编程子处理器，其可配置成管理图形处理器核219的各种功能，包含线程分派、调度和抢占(pre-emption)。媒体流水线234(例如，图3和图4的媒体流水线316)包含用来促进包含图像和视频数据的多媒体数据的解码、编码、预处理和/或后处理的逻辑。媒体流水线234经由对子核221-221F内的计算或采样逻辑的请求来实现媒体操作。

在一个实施例中，SoC接口232使得图形处理器核219能够与通用应用处理器核(例如，CPU)和/或SoC内的其他组件进行通信，所述SoC内的其他组件包含诸如共享末级高速缓冲存储器、系统RAM和/或嵌入式芯片上或封装上DRAM的存储器层次元件。SoC接口232还能够使得能够实现与SoC内的固定功能装置(诸如相机成像流水线)的通信，并且使得能够实现全局存储器原子的使用和/或实现全局存储器原子，所述全局存储器原子可以在图形处理器核219与SoC内的CPU之间被共享。SoC接口232还能够实现用于图形处理器核219的功率管理控制，并且使得能够实现图形核219的时钟域与SoC内的其他时钟域之间的接口。在一个实施例中，SoC接口232使得能够接收来自命令流转化器(global thread dispatcher)和全局线程分派器的命令缓冲区(command buffer)，所述命令缓冲区被配置成向图形处理器内的一个或多个图形核中的每个图形核提供命令和指令。命令和指令能够在要执行媒体操作时被分派到媒体流水线234，或者在要执行图形处理操作时被分派到几何和固定功能流水线(例如，几何和固定功能流水线231、几何和固定功能流水线237)。

图形微控制器233能够被配置成执行用于图形处理器核219的各种调度和管理任务。在一个实施例中，图形微控制器233能够在子核221A-221F内的执行单元(EU)阵列222A-222F、224A-224F内的各种图形并行引擎上执行图形和/或计算工作负载调度。在此调度模型中，在包含图形处理器核219的SoC的CPU核上执行的主机软件能够提交工作负载给多个图形处理器门铃(graphic processor doorbell)之一，这调用在适当图形引擎上的调度操作。调度操作包含确定接下来要运行哪个工作负载，向命令流转化器提交工作负载，对在引擎上运行的现有工作负载进行抢占，监测工作负载的进展，以及在工作负载完成时通知主机软件。在一个实施例中，图形微控制器233还能够促进用于图形处理器核219的低功率或空闲状态，从而为图形处理器核219提供独立于操作系统和/或系统上的图形驱动器软件跨低功率状态转变来对图形处理器核219内的寄存器进行保存和恢复的能力。

图形处理器核219可以具有多于或少于图示的子核221A-221F，多达N个的模块化子核。对于每组N个子核，图形处理器核219还能够包含共享功能逻辑235、共享和/或高速缓冲存储器236、几何/固定功能流水线237以及用来加速各种图形和计算处理操作的另外的固定功能逻辑238。共享功能逻辑235能够包含与图4的共享功能逻辑420关联的逻辑单元(例如，采样器、数学和/或线程间通信逻辑)，所述逻辑单元能够由图形处理器核219内的每N个子核共享。共享和/或高速缓冲存储器236能够是用于图形处理器核219内一组N个子核221A-221F的末级高速缓存，并且还能够充当可由多个子核访问的共享存储器。几何/固定功能流水线237能够代替几何/固定功能流水线231而被包含在固定功能块230内，并且能够包含相同或类似的逻辑单元。

在一个实施例中，图形处理器核219包含另外的固定功能逻辑238，其能够包含供图形处理器核219使用的各种固定功能加速逻辑。在一个实施例中，另外的固定功能逻辑238包含供在仅位置着色中使用的另外的几何流水线。在仅位置着色中，存在两个几何流水线：几何/固定功能流水线238、221内的完全几何流水线；以及拣出流水线(cullpipeline)，其是可以被包含在另外的固定功能逻辑238内的另外的几何流水线。在一个实施例中，拣出流水线是完全几何流水线的裁减版本。完全流水线和拣出流水线能够执行相同应用的不同实例，每个实例具有单独的上下文。仅位置着色能够隐藏被丢弃三角形的长拣出运行，使得在一些实例中能更早完成着色。例如并且在一个实施例中，另外的固定功能逻辑238内的拣出流水线逻辑能够执行与主应用并行的位置着色器，并且一般比完全流水线更快生成关键结果，因为拣出流水线仅获取顶点的位置属性并且对其进行着色而不向帧缓冲区执行像素的光栅化(rasterization)和渲染。拣出流水线能够使用生成的关键结果来计算用于所有三角形的可见性信息，而不考虑那些三角形是否被拣出。完全流水线(其在此实例中可以被称为重放流水线)能够消耗可见性信息以跳过被拣出的三角形，以仅对最终被传递到光栅化阶段的可见三角形进行着色。

在一个实施例中，另外的固定功能逻辑238还能够包含诸如固定功能矩阵乘法逻辑的机器学习加速逻辑，以用于包含针对机器学习训练或推理的优化的实现。

在每个图形子核221A-221F内包含一组执行资源，其可以被用来响应于图形流水线、媒体流水线或着色器程序的请求而执行图形、媒体和计算操作。图形子核221A-221F包含多个EU阵列222A-222F、224A-224F、线程分派和线程间通信(TD/IC)逻辑223A-223F、3D(例如，纹理)采样器225A-225F、媒体采样器206A-206F、着色器处理器227A-227F及共享本地存储器(SLM)228A-228F。EU阵列222A-222F、224A-224F各自包含多个执行单元，所述多个执行单元是能够为图形、媒体或计算操作(包含图形、媒体或计算着色器程序)服务而执行浮点和整数/定点逻辑运算的通用图形处理单元。TD/IC逻辑223A-223F执行用于子核内的执行单元的本地线程分派和线程控制操作，并且促进在子核的执行单元上执行的线程之间的通信。3D采样器225A-225F能够将纹理或其他3D图形有关数据读取到存储器中。3D采样器能够基于配置的样本状态和与给定纹理关联的纹理格式来以不同方式读取纹理数据。媒体采样器206A-206F能够基于与媒体数据关联的类型和格式来执行类似的读取操作。在一个实施例中，每个图形子核221A-221F能够交替包含统一3D和媒体采样器。在子核221A-221F中的每个子核内的执行单元上执行的线程能够利用每个子核内的共享本地存储器228A-228F，以使得在线程群组内执行的线程能使用芯片上存储器的公共池来执行。

图2C图示了包含布置到多核群组240A-240N中的图形处理资源的专用集合的图形处理单元(GPU)239。尽管提供了仅单个多核群组240A的细节，但将领会的是，其他多核群组240B-240N可以被配备有图形处理资源的相同或类似集合。

如所图示的，多核群组240A可以包含图形核243的集合、张量核244的集合和光线追踪核245的集合。调度器/分派器241调度和分派图形线程以便在各种核243、244、245上执行。寄存器堆242的集合存储由核243、244、245在执行图形线程时使用的操作数值。这些寄存器可以包含例如用于存储整数值的整数寄存器、用于存储浮点值的浮点寄存器、用于存储打包数据元素(整数和/或浮点数据元素)的向量寄存器及用于存储张量/矩阵值的贴片寄存器(tile register)。在一个实施例中，贴片寄存器被实现为向量寄存器的组合集合。

一个或多个组合的1级(L1)高速缓存和共享存储器单元247在每个多核群组240A内本地存储图形数据，诸如纹理数据、顶点数据、像素数据、光线数据、包围体数据等。一个或多个纹理单元247还能够被用来执行纹理操作，诸如纹理映射和采样。由多核群组240A-240N的全部或其子集共享的2级(L2)高速缓存253存储用于多个并发图形线程的图形数据和/或指令。如所图示的，L2高速缓存253可以跨多个多核群组240A-240N被共享。一个或多个存储器控制器248将GPU 239耦合到存储器249，所述存储器249可以是系统存储器(例如，DRAM)和/或专用图形存储器(例如，GDDR6存储器)。

输入/输出(I/O)电路250将GPU 239耦合到一个或多个I/O装置252，诸如数字信号处理器(DSP)、网络控制器或用户输入装置。芯片上互连可以被用来将I/O装置252耦合到GPU 239和存储器249。I/O电路250的一个或多个I/O存储器管理单元(IOMMU)251将I/O装置252直接耦合到系统存储器249。在一个实施例中，IOMMU 251管理页表的多个集合以将虚拟地址映射到系统存储器249中的物理地址。在此实施例中，I/O装置252、(一个或多个)CPU246和(一个或多个)GPU 239可以共享相同虚拟地址空间。

在一个实现中，IOMMU 251支持虚拟化。在此情况下，它可以管理页表的第一集合以将客户机/图形虚拟地址映射到客户机/图形物理地址，并且管理页表的第二集合以将客户机/图形物理地址映射到系统/主机物理地址(例如，在系统存储器249内)。页表的第一和第二集合中的每个的基址可以被存储在控制寄存器中并且在上下文切换时被换出(例如，使得为新上下文提供对页表的相关集合的访问)。尽管在图2C中未被图示，但核243、244、245和/或多核群组240A-240N中的每个可以包含转换后备缓冲区(TLB)以对客户机虚拟到客户机物理转换、客户机物理到主机物理转换以及客户机虚拟到主机物理转换进行高速缓存。

在一个实施例中，CPU 246、GPU 239和I/O装置252被集成在单个半导体芯片和/或芯片封装上。图示的存储器249可以被集成在相同芯片上，或者可以经由芯片外(off-chip)接口被耦合到存储器控制器248。在一个实现中，存储器249包括GDDR6存储器，所述GDDR6存储器与其他物理系统级存储器共享相同虚拟地址空间，虽然本发明的根本原理不限于此特定实现。

在一个实施例中，张量核244包含特别设计成执行矩阵运算的多个执行单元，所述矩阵运算是用来执行深度学习操作的基本计算操作。例如，同时矩阵乘法运算可以被用于神经网络训练和推理。张量核244可以使用各种操作数精度来执行矩阵处理，所述各种操作数精度包含单精度浮点(例如，32位)、半精度浮点(例如，16位)、整数字(16位)、字节(8位)和半字节(4位)。在一个实施例中，神经网络实现提取每个经渲染的场景的特征，潜在地组合来自多个帧的细节以构造高质量的最终图像。

在深度学习实现中，可以调度并行矩阵乘法工作以供在张量核244上执行。神经网络的训练特别要求大量矩阵点积运算。为处理N x N x N矩阵相乘的内积公式，张量核244可以包含至少N个点积处理元件。在矩阵相乘开始前，一个完整矩阵被加载到贴片寄存器，并且在N个循环的每个循环，第二矩阵的至少一列被加载。在每个循环，存在被处理的N个点积。

取决于特定实现，可以以不同精度存储矩阵元素，所述不同精度包含16位字、8位字节(例如，INT8)和4位半字节(例如，INT4)。可以为张量核244指定不同精度模式以确保最高效的精度被用于不同工作负载(例如，诸如能够容忍量化到字节和半字节的推理工作负载)。

在一个实施例中，光线追踪核245对于实时光线追踪和非实时光线追踪实现二者均加速光线追踪操作。特别地，光线追踪核245包含光线遍历/交叉电路，所述光线遍历/交叉电路用于使用包围体层次(BVH)来执行光线遍历并且标识封围在BVH体之内的图元与光线之间的交叉。光线追踪核245还可以包含用于执行深度测试和拣出(例如，使用Z缓冲区或类似布置)的电路。在一个实现中，光线追踪核245与本文中描述的图像去噪技术配合执行遍历和交叉操作，其至少一部分可以在张量核244上被执行。例如，在一个实施例中，张量核244实现深度学习神经网络以执行由光线追踪核245生成的帧的去噪。然而，(一个或多个)CPU 246、图形核243和/或光线追踪核245还可以实现去噪和/或深度学习算法的全部或一部分。

另外，如上所述，可以采用去噪的分布式方法，其中GPU 239在通过网络或高速互连耦合到其他计算装置的计算装置中。在该实施例中，互连的计算装置共享神经网络学习/训练数据来改进整个系统学习对不同类型的图像帧和/或不同的图形应用执行去噪所用的速度。

在一个实施例中，光线追踪核245处理所有BVH遍历和光线-图元交叉，从而避免以每光线的数千个指令使图形核243过载。在一个实施例中，每个光线追踪核245包含用于执行包围盒测试(例如，以用于遍历操作)的专用电路的第一集合和用于执行光线-三角形交叉测试(例如，交叉已被遍历的光线)的专用电路的第二集合。因此，在一个实施例中，多核群组240A能够仅仅启动光线探头，并且光线追踪核245独立执行光线遍历和交叉并且将命中数据(例如，命中、无命中、多个命中等)返回到线程上下文。在光线追踪核245执行遍历和交叉操作的同时，其他核243、244被释放以执行其他图形或计算工作。

在一个实施例中，每个光线追踪核245包含用来执行BVH测试操作的遍历单元和执行光线-图元交叉测试的交叉单元。交叉单元生成“命中”、“无命中”或“多个命中”响应，并且交叉单元将该响应提供到适当的线程。在遍历和交叉操作期间，其他核(例如，图形核243和张量核244)的执行资源被释放以执行其他形式的图形工作。

在下面描述的一个特定实施例中，使用了混合光栅化/光线追踪方法，其中在图形核243与光线追踪核245之间分布工作。

在一个实施例中，光线追踪核245(和/或其他核243、244)包含对诸如Microsoft的DirectX光线追踪(DXR)之类的光线追踪指令集的硬件支持，所述DXR包含DispatchRays命令以及光线生成、最接近命中、任意命中和未命中着色器，这些使得能够对每个对象指派纹理和着色器的独特集合。由光线追踪核245、图形核243和张量核244可以支持的另一光线追踪平台是Vulkan 1.1.85。然而，注意本发明的根本原理不限于任何特定光线追踪ISA。

一般而言，各种核245、244、243可以支持光线追踪指令集，所述光线追踪指令集包含用于光线生成、最接近命中、任何命中、光线-图元交叉、每图元和层次包围盒构造、未命中、访问及异常(exception)的指令/功能。更具体地说，一个实施例包含光线追踪指令以执行以下功能：

光线生成-可以为每个像素、样本或其他用户定义的工作指派执行光线生成指令。

最接近命中–可以执行最接近命中指令来用场景内的图元来定位光线的最接近交叉点。

任意命中-任意命中指令标识场景内的图元与光线之间的多个交叉，潜在地标识新的最接近交叉点。

交叉-交叉指令执行光线-图元交叉测试并且输出结果。

每图元包围盒构造-此指令围绕给定图元或图元的群组构建包围盒(例如，在构建新的BVH或其他加速数据结构时)。

未命中–指示光线未命中场景或场景的指定区域内的所有几何形状。

访问–指示光线将遍历的子体(children volume)。

异常-包含各种类型的异常处理程序(例如，针对各种错误条件而被调用)。

图2D是根据本文中描述的实施例的能够被配置为图形处理器和/或计算加速器的通用图形处理单元(GPGPU)270的框图。GPGPU270能够经由一个或多个系统和/或存储器总线与主机处理器(例如，一个或多个CPU 246)和存储器271、272互连。在一个实施例中，存储器271是可以与一个或多个CPU 246共享的系统存储器，而存储器272是专用于GPGPU 270的装置存储器。在一个实施例中，在GPGPU 270和装置存储器272内的组件可被映射到一个或多个CPU 246可访问的存储器地址。可经由存储器控制器268来促进对存储器271和272的访问。在一个实施例中，存储器控制器268包含内部直接存储器存取(DMA)控制器269，或者能够包含逻辑以执行在其他情况下将由DMA控制器执行的操作。

GPGPU 270包含多个高速缓冲存储器，包含L2高速缓存253、L1高速缓存254、指令高速缓存255和共享存储器256，该共享存储器256的至少一部分也可被分区为高速缓冲存储器。GPGPU 270还包含多个计算单元260A-260N。每个计算单元260A-260N包含向量寄存器261、标量寄存器262、向量逻辑单元263和标量逻辑单元264的集合。计算单元260A-260N还能够包含本地共享存储器265和程序计数器266。计算单元260A-260N能够与常量高速缓存267耦合，该常量高速缓存267能够被用来存储常量数据，所述常量数据是在GPGPU 270上执行的内核或着色器程序的运行期间将不改变的数据。在一个实施例中，常量高速缓存267是标量数据高速缓存，并且缓存的(cached)数据能够被直接获取到标量寄存器262中。

在操作期间，一个或多个CPU 246能够将命令写入已被映射到可寻址地址空间中的GPGPU 270中的寄存器或存储器中。命令处理器257能够从寄存器或存储器读取命令，并且确定将在GPGPU 270内如何处理那些命令。线程分派器258然后能够被用来分派线程到计算单元260A-260N以执行那些命令。每个计算单元260A-260N能够独立于其他计算单元执行线程。另外，每个计算单元260A-260N能够被独立配置用于有条件的计算，并且能够有条件地输出计算的结果到存储器。在提交的命令完成时，命令处理器257能够中断一个或多个CPU 246。

图3A-3C图示了由本文中描述的实施例提供的另外的图形处理器和计算加速器架构的框图。与本文中任何其他附图的元件具有相同参考标号(或名称)的图3A-3C的元件能够以与本文中其他地方所描述的方式类似的任何方式操作或起作用，但不限于这样。

图3A是图形处理器300的框图，该图形处理器300可以是分立的图形处理单元，或者可以是与多个处理核集成的图形处理器，或诸如但不限于存储器装置或网络接口的其他半导体装置。在一些实施例中，图形处理器经由存储器映射的I/O接口与图形处理器上的寄存器通信并且用被放置到处理器存储器中的命令进行通信。在一些实施例中，图形处理器300包含用来访问存储器的存储器接口314。存储器接口314能够是到本地存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存和/或到系统存储器的接口。

在一些实施例中，图形处理器300还包含用来将显示输出数据驱动到显示装置318的显示控制器302。显示控制器302包含用于一个或多个覆盖平面的硬件，以用于显示和组合用户接口元素或视频的多个层。显示装置318能够是内部或外部显示装置。在一个实施例中，显示装置318是头戴式显示装置，诸如虚拟现实(VR)显示装置或增强现实(AR)显示装置。在一些实施例中，图形处理器300包含视频编解码器引擎306以将媒体编码、解码或转码成一个或多个媒体编码格式，从一个或多个媒体编码格式将媒体编码、解码或转码或者在一个或多个媒体编码格式之间对媒体进行编码、解码或转码，所述编码格式包含但不限于运动图像专家组(MPEG)格式(诸如MPEG-2)、高级视频编码(AVC)格式(诸如H.264/MPEG-4AVC、H.265/HEVC)、开放媒体联盟(AOMedia)VP8、VP9以及电影与电视工程师协会(SMPTE)421M/VC-1和联合图像专家组(JPEG)格式(诸如JPEG)以及运动JPEG(MJPEG)格式。

在一些实施例中，图形处理器300包含用来执行二维(2D)光栅化器操作(包含例如位边界块传送)的块图像传送(BLIT)引擎304。然而，在一个实施例中，使用图形处理引擎(GPE)310的一个或多个组件来执行2D图形操作。在一些实施例中，GPE 310是用于执行包含三维(3D)图形操作和媒体操作的图形操作的计算引擎。

在一些实施例中，GPE 310包含用于执行3D操作的3D流水线312，所述3D操作诸如使用作用于3D图元形状(例如，矩形、三角形等)的处理功能来渲染三维图像和场景。3D流水线312包含可编程和固定功能元件，所述可编程和固定功能元件在元件内执行各种任务和/或派生(spawn)到3D/媒体子系统315的执行线程。虽然3D流水线312能够被用来执行媒体操作，但GPE 310的实施例还包含特别用来执行媒体操作(诸如视频后处理和图像增强)的媒体流水线316。

在一些实施例中，媒体流水线316包含固定功能或可编程逻辑单元以代替或者代表视频编解码器引擎306来执行一个或多个专用媒体操作，诸如视频解码加速、视频去交织和视频编码加速。在一些实施例中，媒体流水线316另外包含线程派生单元以派生用于在3D/媒体子系统315上执行的线程。派生的线程在3D/媒体子系统315中包含的一个或多个图形执行单元上执行用于媒体操作的计算。

在一些实施例中，3D/媒体子系统315包含用于执行由3D流水线312和媒体流水线316派生的线程的逻辑。在一个实施例中，流水线将线程执行请求发送到3D/媒体子系统315，所述3D/媒体子系统315包含线程分派逻辑，所述线程分派逻辑用于将各种请求仲裁(arbitrate)并分派到可用线程执行资源。执行资源包含用来处理3D和媒体线程的图形执行单元的阵列。在一些实施例中，3D/媒体子系统315包含用于线程指令和数据的一个或多个内部高速缓存。在一些实施例中，子系统还包含共享存储器，所述共享存储器包含寄存器和可寻址存储器，以在线程之间共享数据和存储输出数据。

图3B图示了根据本文中描述的实施例的具有拼贴(tiled)架构的图形处理器320。在一个实施例中，图形处理器320包含图形处理引擎集群322，所述图形处理引擎集群322在图形引擎贴片310A-310D内具有图3A的图形处理引擎310的多个实例。每个图形引擎贴片310A-310D能够经由一组贴片互连323A-323F而被互连。每个图形引擎贴片310A-310D还能够经由存储器互连325A-325D被连接到存储器模块或存储器装置326A-326D。存储器装置326A-326D能够使用任何图形存储器技术。例如，存储器装置326A-326D可以是图形双倍数据率(GDDR)存储器。存储器装置326A-326D在一个实施例中是高带宽存储器(HBM)模块，其能够与其相应图形引擎贴片310A-310D一起在管芯上。在一个实施例中，存储器装置326A-326D是堆叠存储器装置，其能够被堆叠在其相应图形引擎贴片310A-310D的顶部上。在一个实施例中，如图11B-11D中进一步详细描述的，每个图形引擎贴片310A-310D和关联存储器326A-326D驻留在单独的小芯片(chiplet)上，所述小芯片被接合到基础管芯或基础衬底。

图形处理引擎集群322能够与芯片上或封装上组构互连324连接。组构互连324能够使得能够实现在图形引擎贴片310A-310D与诸如视频编解码器306和一个或多个复制引擎304的组件之间的通信。复制引擎304能够被用来将数据移出以下各项、将数据移入以下各项以及在以下各项之间移动数据：存储器装置326A-326D和在图形处理器320外的存储器(例如，系统存储器)。组构互连324还能够被用来互连图形引擎贴片310A-310D。图形处理器320可以可选地包含用来使得能够实现与外部显示装置318的连接的显示控制器302。图形处理器还可以被配置为图形或计算加速器。在加速器配置中，可省略显示控制器302和显示装置318。

图形处理器320能够经由主机接口328连接到主机系统。主机接口328能够使得能够实现在图形处理器320、系统存储器和/或其他系统组件之间的通信。主机接口328能够例如是PCI express总线或另一类型的主机系统接口。

图3C图示了根据本文中描述的实施例的计算加速器330。计算加速器330能够包含与图3B的图形处理器320的架构类似性并且被优化用于计算加速。计算引擎集群332能够包含一组计算引擎贴片340A-340D，其包含被优化用于并行或基于向量的通用计算操作的执行逻辑。在一些实施例中，计算引擎贴片340A-340D不包含固定功能图形处理逻辑，虽然在一个实施例中，计算引擎贴片340A-340D中的一个或多个计算引擎贴片能够包含用来执行媒体加速的逻辑。计算引擎贴片340A-340D能够经由存储器互连325A-325D连接到存储器326A-326D。存储器326A-326D和存储器互连325A-325D可以是与如在图形处理器320中类似的技术，或者能够是不同的。图形计算引擎贴片340A-340D还能够经由一组贴片互连323A-323F被互连，并且可以与组构324连接和/或通过组构互连324被互连。在一个实施例中，计算加速器330包含能够被配置为装置范围高速缓存的大的L3高速缓存336。计算加速器330还能够以与图3B的图形处理器320类似的方式经由主机接口328连接到主机处理器和存储器。

图形处理引擎

图4是根据一些实施例的图形处理器的图形处理引擎410的框图。在一个实施例中，图形处理引擎(GPE)410是图3A中示出的GPE 310的某一版本，并且还可以表示图3B的图形引擎贴片310A-310D。与本文中任何其他附图的元件具有相同参考标号(或名称)的图4的元件能够以与本文中其他地方所描述的方式类似的任何方式操作或起作用，但不限于这样。例如，图示了图3A的3D流水线312和媒体流水线316。媒体流水线316在GPE 410的一些实施例中是可选的，并且可以未被显式地包含在GPE 410内。例如并且在至少一个实施例中，单独的媒体和/或图像处理器被耦合到GPE 410。

在一些实施例中，GPE 410与提供命令流到3D流水线312和/或媒体流水线316的命令流转化器403耦合，或者包含该命令流转化器403。在一些实施例中，命令流转化器403与存储器耦合，所述存储器能够是系统存储器，或内部高速缓冲存储器和共享高速缓冲存储器中的一个或多个。在一些实施例中，命令流转化器403接收来自存储器的命令，并且将命令发送到3D流水线312和/或媒体流水线316。命令是从存储用于3D流水线312和媒体流水线316的命令的环形缓冲区获取的指示(directive)。在一个实施例中，环形缓冲区能够另外包含存储批量的多个命令的批量命令缓冲区。用于3D流水线312的命令还能够包含对在存储器中存储的数据的引用，诸如但不限于用于3D流水线312的顶点和几何数据和/或用于媒体流水线316的图像数据和存储器对象。3D流水线312和媒体流水线316通过经由相应流水线内的逻辑执行操作或者通过将一个或多个执行线程分派到图形核阵列414来处理命令和数据。在一个实施例中，图形核阵列414包含图形核(例如，(一个或多个)图形核415A、(一个或多个)图形核415B)的一个或多个块，每个块包含一个或多个图形核。每个图形核包含：一组图形执行资源，其包含用来执行图形和计算操作的通用和图形特定执行逻辑；以及固定功能纹理处理和/或机器学习和人工智能加速逻辑。

在各种实施例中，3D流水线312能够包含用来通过处理指令和分派执行线程到图形核阵列414来处理一个或多个着色器程序(诸如顶点着色器、几何着色器、像素着色器、片段着色器、计算着色器或其他着色器程序)的固定功能和可编程逻辑。图形核阵列414提供执行资源的统一块以供在处理这些着色器程序中使用。图形核阵列414的(一个或多个)图形核415A-415B内的多用途执行逻辑(例如，执行单元)包含对各种3D API着色器语言的支持，并且能够执行与多个着色器关联的多个同时执行线程。

在一些实施例中，图形核阵列414包含用来执行媒体功能(诸如视频和/或图像处理)的执行逻辑。在一个实施例中，执行单元包含通用逻辑，该通用逻辑可编程以除图形处理操作外还执行并行通用计算操作。该通用逻辑能够与在图1的(一个或多个)处理器核107或如在图2A中的核202A-202N内的通用逻辑并行或结合地执行处理操作。

由在图形核阵列414上执行的线程生成的输出数据能够将数据输出到在统一返回缓冲区(URB)418中的存储器。URB 418能够存储用于多个线程的数据。在一些实施例中，URB418可以被用来在图形核阵列414上执行的不同线程之间发送数据。在一些实施例中，URB418可以另外被用于在图形核阵列上的线程与在共享功能逻辑420内的固定功能逻辑之间的同步。

在一些实施例中，图形核阵列414是可缩放的，使得该阵列包含可变数量的图形核，这些图形核各自基于GPE 410的目标功率和性能水平而具有可变数量的执行单元。在一个实施例中，执行资源是动态可缩放的，使得可以按需要来启用或禁用执行资源。

图形核阵列414与共享功能逻辑420耦合，该共享功能逻辑420包含在图形核阵列中的图形核之间共享的多个资源。在共享功能逻辑420内的共享功能是硬件逻辑单元，所述硬件逻辑单元提供专用补充功能性到图形核阵列414。在各种实施例中，共享功能逻辑420包含但不限于采样器逻辑421、数学逻辑422和线程间通信(ITC)逻辑423。另外，一些实施例在共享功能逻辑420内实现一个或多个高速缓存425。

至少在其中对给定专用功能的需求对于图形核阵列414内的内含物而言是不足够的情况下，实现共享功能。该专用功能的单个实例化而是被实现为在共享功能逻辑420中的独立实体，并且在图形核阵列414内的执行资源之间被共享。在图形核阵列414内被共享并且包含在图形核阵列414内的功能的精确集合跨实施例而变化。在一些实施例中，由图形核阵列414广泛使用的共享功能逻辑420内的特定共享功能可以被包含在图形核阵列414内的共享功能逻辑416内。在各种实施例中，图形核阵列414内的共享功能逻辑416能够包含共享功能逻辑420内的一些或全部逻辑。在一个实施例中，可以在图形核阵列414的共享功能逻辑416内重复共享功能逻辑420内的全部逻辑元件。在一个实施例中，排除了共享功能逻辑420以有利于图形核阵列414内的共享功能逻辑416。

执行单元

图5A-5B图示了根据本文中描述的实施例的包含图形处理器核中采用的处理元件的阵列的线程执行逻辑500。与本文中任何其他附图的元件具有相同参考标号(或名称)的图5A-5B的元件能够以本文中其他地方所描述的方式类似的任何方式操作或起作用，但不限于这样。图5A-5B图示了线程执行逻辑500的概览，该线程执行逻辑500可以代表用图2B的每个子核221A-221F图示的硬件逻辑。图5A代表通用图形处理器内的执行单元，而图5B代表可在计算加速器内使用的执行单元。

如在图5A中所图示的，在一些实施例中，线程执行逻辑500包含着色器处理器502、线程分派器504、指令高速缓存506、包含多个执行单元508A-508N的可缩放执行单元阵列、采样器510、共享本地存储器511、数据高速缓存512和数据端口514。在一个实施例中，可缩放执行单元阵列能够通过基于工作负载的计算要求来启用或禁用一个或多个执行单元(例如，执行单元508A、508B、508C、508D直到508N-1和508N中的任何执行单元)来动态地进行缩放。在一个实施例中，被包含的组件经由链接到组件中的每个组件的互连组构被互连。在一些实施例中，线程执行逻辑500包含通过指令高速缓存506、数据端口514、采样器510和执行单元阵列508A-508N中的一个或多个到存储器(诸如系统存储器或高速缓冲存储器)的一个或多个连接。在一些实施例中，每个执行单元(例如，508A)是单独可编程通用计算单元，其能执行多个同时硬件线程，同时为每个线程并行处理多个数据元素。在各种实施例中，执行单元508A-508N的阵列是可缩放的，以包含任何数量的单独执行单元。

在一些实施例中，执行单元508A-508N主要被用来执行着色器程序。着色器处理器502能够处理各种着色器程序，并且经由线程分派器504分派与着色器程序关联的执行线程。在一个实施例中，线程分派器包含用来对来自图形和媒体流水线的线程的发起请求进行仲裁并且在执行单元508A-508N中的一个或多个执行单元上实例化所请求的线程的逻辑。例如，几何流水线能够分派顶点、曲面细分(tessellation)或几何着色器到线程执行逻辑以用于处理。在一些实施例中，线程分派器504还能够处理来自在执行的着色器程序的运行时间线程派生请求。

在一些实施例中，执行单元508A-508N支持指令集，所述指令集包含对许多标准3D图形着色器指令的本机支持，使得来自图形库(例如Direct 3D和OpenGL)的着色器程序以最小的转换被执行。执行单元支持顶点和几何处理(例如顶点程序、几何程序、顶点着色器)、像素处理(例如像素着色器、片段着色器)和通用处理(例如计算和媒体着色器)。执行单元508A-508N中的每个执行单元能进行多发布(multi-issue)单指令多数据(SIMD)执行，并且多线程操作在面临更高时延存储器访问时使得能够实现高效的执行环境。每个执行单元内的每个硬件线程具有专用高带宽寄存器堆和关联的独立线程状态。执行是对能进行整数、单精度和双精度浮点运算、SIMD分支能力、逻辑运算、超越运算和其他杂项运算的流水线的每时钟多发布。在等待来自存储器或共享功能之一的数据时，执行单元508A-508N内的依赖性逻辑促使在等待的线程进行休眠，直到所请求的数据已被返回为止。当在等待的线程正在休眠时，硬件资源可以专用于处理其他线程。例如，在与顶点着色器操作关联的延迟期间，执行单元能够执行用于像素着色器、片段着色器或另一类型的着色器程序(包含不同顶点着色器)的操作。各种实施例能够应用于：通过作为使用SIMD的备选方案或者除使用SIMD之外还使用单指令多线程(SIMT)来使用执行。对SIMD核或操作的引用能够也应用于SIMT或者应用于与SIMT组合的SIMD。

执行单元508A-508N中的每个执行单元对数据元素的阵列进行操作。数据元素的数量是“执行大小”或用于指令的通道的数量。执行通道是用于指令内的数据元素访问、掩码(masking)和流控制的执行的逻辑单元。通道的数量可以独立于用于特定图形处理器的物理算术逻辑单元(ALU)或浮点单元(FPU)的数量。在一些实施例中，执行单元508A-508N支持整数和浮点数据类型。

执行单元指令集包含SIMD指令。各种数据元素能够作为打包数据类型存储在寄存器中，并且执行单元将基于元素的数据大小来处理各种元素。例如，在对256位宽向量进行操作时，向量的256位被存储在寄存器中，并且执行单元对作为四个单独的54位打包数据元素(四字(QW)大小数据元素)、八个单独的32位打包数据元素(双字(DW)大小数据元素)、十六个单独的16位打包数据元素(字(W)大小数据元素)或三十二个单独的8位数据元素(字节(B)大小数据元素)的向量进行操作。然而，不同向量宽度和寄存器大小是可能的。

在一个实施例中，一个或多个执行单元能够被组合成具有线程控制逻辑(507A-507N)的融合的执行单元509A-509N，该线程控制逻辑(507A-507N)对于融合的EU是公共的。多个EU能够被融合成EU群组。融合的EU群组中的每个EU能够被配置成执行单独的SIMD硬件线程。融合的EU群组中EU的数量能够根据实施例而变化。另外，能够每EU执行各种SIMD宽度，包含但不限于SIMD8、SIMD16和SIMD32。每个融合的图形执行单元509A-509N包含至少两个执行单元。例如，融合的执行单元509A包含第一EU 508A、第二EU 508B及线程控制逻辑507A，该线程控制逻辑507A对于第一EU 508A和第二EU 508B是公共的。线程控制逻辑507A控制在融合的图形执行单元509A上执行的线程，允许融合的执行单元509A-509N内的每个EU使用公共指令指针寄存器来执行。

线程执行逻辑500中包含一个或多个内部指令高速缓存(例如，506)以对用于执行单元的线程指令进行高速缓存。在一些实施例中，包含一个或多个数据高速缓存(例如，512)以在线程执行期间对线程数据进行高速缓存。在执行逻辑500上执行的线程还能够在共享本地存储器511中存储显式管理的数据。在一些实施例中，包含采样器510以提供用于3D操作的纹理采样和用于媒体操作的媒体采样。在一些实施例中，采样器510包含专用纹理或媒体采样功能性，以在向执行单元提供采样的数据前在采样进程期间处理纹理或媒体数据。

在执行期间，图形和媒体流水线经由线程派生和分派逻辑向线程执行逻辑500发送线程发起请求。一旦几何对象的群组已被处理并且光栅化成像素数据，着色器处理器502内的像素处理器逻辑(例如，像素着色器逻辑、片段着色器逻辑等)便被调用来进一步计算输出信息，并且使结果被写入到输出表面(例如颜色缓冲区、深度缓冲区、模板缓冲区等)。在一些实施例中，像素着色器或片段着色器计算要跨光栅化对象内插的各种顶点属性的值。在一些实施例中，着色器处理器502内的像素处理器逻辑然后执行应用编程接口(API)供应的像素或片段着色器程序。为执行着色器程序，着色器处理器502经由线程分派器504向执行单元(例如，508A)分派线程。在一些实施例中，着色器处理器502使用采样器510中的纹理采样逻辑来访问存储在存储器中的纹理映射中的纹理数据。对纹理数据和输入几何数据的算术运算计算每个几何片段的像素颜色数据，或者丢弃一个或多个像素而不进行进一步处理。

在一些实施例中，数据端口514提供存储器访问机制，以便线程执行逻辑500将经处理的数据输出至存储器以用于在图形处理器输出流水线上进一步处理。在一些实施例中，数据端口514包含或者耦合到一个或多个高速缓冲存储器(例如，数据高速缓存512)来对数据进行高速缓存以用于经由数据端口的存储器访问。

在一个实施例中，执行逻辑500还能够包含光线追踪器505，所述光线追踪器505能够提供光线追踪加速功能性。光线追踪器505能够支持包含用于光线生成的指令/功能的光线追踪指令集。该光线追踪指令集能够与由图2C中的光线追踪核245支持的光线追踪指令集类似或不同。

图5B图示了根据实施例的执行单元508的示例性内部细节。图形执行单元508能够包含指令获取单元537、通用寄存器堆阵列(GRF)524、架构寄存器堆阵列(ARF)526、线程仲裁器522、发送单元530、分支单元532、一组SIMD浮点单元(FPU)534以及在一个实施例中包含一组专用整数SIMD ALU 535。GRF 524和ARF 526包含与可以在图形执行单元508中是活动的每个同时硬件线程关联的一组通用寄存器堆和架构寄存器堆。在一个实施例中，在ARF526中维持每线程架构状态，而在线程执行期间使用的数据被存储在GRF 524中。每个线程的执行状态(包含用于每个线程的指令指针)能够被保持在ARF 526中的线程特定寄存器中。

在一个实施例中，图形执行单元508具有这样的架构，该架构是同时多线程(SMT)和细粒度交错多线程(IMT)的组合。该架构具有模块化配置，能够在设计时基于每执行单元的寄存器的数量和同时线程的目标数量来对所述模块化配置进行微调，其中执行单元资源跨用来执行多个同时线程的逻辑被划分。可以由图形执行单元508执行的逻辑线程的数量不限于硬件线程的数量，并且多个逻辑线程能够被指派到每个硬件线程。

在一个实施例中，图形执行单元508能够共同发布多个指令，所述多个指令各自可以是不同的指令。图形执行单元线程508的线程仲裁器522能够将指令分派给发送单元530、分支单元532或(一个或多个)SIMD FPU 534中的一个以用于执行。每个执行线程能够访问GRF524内的128个通用寄存器，其中每个寄存器能够存储32个字节，该32个字节作为32位数据元素的SIMD 8元素向量可访问。在一个实施例中，每个执行单元线程可以访问GRF 524内的4千字节，虽然实施例不限于此，并且在其他实施例中可以提供更多或更少的寄存器资源。在一个实施例中，图形执行单元508被分区成能够独立执行计算操作的七个硬件线程，虽然每执行单元的线程的数量还能够根据实施例而变化。例如，在一个实施例中支持多达16个硬件线程。在其中七个线程可以访问4千字节的实施例中，GRF 524能够存储总共28千字节。在16个线程可以访问4千字节的情况下，GRF 524能够存储总共64千字节。灵活的寻址模式能够允许对寄存器一起进行寻址以有效地构建更宽的寄存器或者表示跨步矩形块数据结构(strided rectangular block data structure)。

在一个实施例中，经由通过消息传递发送单元530执行的“发送”指令来分派存储器操作、采样器操作和其他较长时延系统通信。在一个实施例中，将分支指令分派给专用分支单元532以促进SIMD发散和最终收敛。

在一个实施例中，图形执行单元508包含一个或多个SIMD浮点单元((一个或多个)FPU)534以执行浮点运算。在一个实施例中，(一个或多个)FPU 534还支持整数计算。在一个实施例中，(一个或多个)FPU 534能够SIMD执行多达M个32位浮点(或整数)运算，或者SIMD执行多达2M个16位整数或16位浮点运算。在一个实施例中，(一个或多个)FPU中的至少一个提供扩展的数学能力以支持高吞吐量超越数学函数和双精度54位浮点。在一些实施例中，还存在一组8位整数SIMD ALU 535，并且该组8位整数SIMD ALU 535可以被特别地优化以执行与机器学习计算关联的运算。

在一个实施例中，图形执行单元508的多个实例的阵列能够在图形子核分组(例如，子切片)中被实例化。为了可缩放性，产品架构师能够选择每子核分组的执行单元的确切数量。在一个实施例中，执行单元508能够跨多个执行通道执行指令。在另外的实施例中，在图形执行单元508上执行的每个线程是在不同的通道上被执行的。

图6图示了根据实施例的另外的执行单元600。执行单元600可以是供例如在如图3C中的计算引擎贴片340A-340D中使用的计算优化的执行单元，但未被限制为这样。执行单元600的变体还可以用于如图3B中的图形引擎贴片310A-310D中。在一个实施例中，执行单元600包含线程控制单元601、线程状态单元602、指令获取/预获取单元603和指令解码单元604。执行单元600另外包含寄存器堆606，所述寄存器堆606存储能够被指派到执行单元内的硬件线程的寄存器。执行单元600另外包含发送单元607和分支单元608。在一个实施例中，发送单元607和分支单元608能够与图5B的图形执行单元508的发送单元530和分支单元532类似地操作。

执行单元600还包含计算单元610，所述计算单元610包含多个不同类型的功能单元。在一个实施例中，计算单元610包含ALU单元611，所述ALU单元611包含算术逻辑单元的阵列。ALU单元611能够被配置成执行64位、32位和16位整数和浮点运算。整数和浮点运算可同时被执行。计算单元610还能够包含脉动阵列612和数学单元613。脉动阵列612包含能够用来以脉动方式执行向量或其他数据并行操作的数据处理单元的宽度W和深度D的网络。在一个实施例中，脉动阵列612能够被配置成执行矩阵运算，诸如矩阵点积运算。在一个实施例中，脉动阵列612支持16位浮点运算及8位和4位整数运算。在一个实施例中，脉动阵列612能够被配置成加速机器学习操作。在此类实施例中，脉动阵列612能够被配置有对bfloat16位浮点格式的支持。在一个实施例中，能够包含数学单元613来以高效和比ALU单元611更低功率的方式执行数学运算的特定子集。数学单元613能够包含可以在由其他实施例提供的图形处理引擎的共享功能逻辑中找到的数学逻辑的变体(例如，图4的共享功能逻辑420的数学逻辑422)。在一个实施例中，数学单元613能够被配置成执行32位和64位浮点运算。

线程控制单元601包含用来控制在执行单元内线程的执行的逻辑。线程控制单元601能够包含用来开始、停止和抢占执行单元600内的线程的执行的线程仲裁逻辑。线程状态单元602能够用来为被指派在执行单元600上执行的线程存储线程状态。在执行单元600内存储线程状态使得能够实现在那些线程变为阻塞或空闲时线程的快速抢占。指令获取/预获取单元603能够从更高级别执行逻辑的指令高速缓存(例如，如图5A中的指令高速缓存506)获取指令。指令获取/预获取单元603还能够基于当前在执行的线程的分析来发布对要被加载到指令高速缓存中的指令的预获取请求。指令解码单元604能够被用来解码要由计算单元执行的指令。在一个实施例中，指令解码单元604能够被用作次级解码器以将复杂指令解码成组成微操作。

执行单元600另外包含能够由在执行单元600上执行的硬件线程使用的寄存器堆606。能够跨用来执行在执行单元600的计算单元610内的多个同时线程的逻辑来划分寄存器堆606中的寄存器。可以由图形执行单元600执行的逻辑线程的数量不限于硬件线程的数量，并且多个逻辑线程能够被指派到每个硬件线程。寄存器堆606的大小能够基于支持的硬件线程的数量跨实施例而变化。在一个实施例中，寄存器重命名可被用来动态分配寄存器到硬件线程。

图7是图示根据一些实施例的图形处理器指令格式700的框图。在一个或多个实施例中，图形处理器执行单元支持具有采用多种格式的指令的指令集。实线框图示了一般被包含在执行单元指令中的组件，而虚线包含可选的或者仅被包含在指令的子集中的组件。在一些实施例中，描述和图示的指令格式700是宏指令，因为它们是供应给执行单元的指令，而与一旦指令被处理后由指令解码产生的微操作相反。

在一些实施例中，图形处理器执行单元本机地支持采用128位指令格式710的指令。基于所选择的指令、指令选项和操作数的数量，64位紧凑指令格式730可用于一些指令。本机128位指令格式710提供对所有指令选项的访问，而在64位格式730中一些选项和操作被限制。采用64位格式730的可用的本机指令随实施例而变化。在一些实施例中，部分使用索引字段713中的一组索引值来压缩指令。执行单元硬件基于索引值来引用一组压缩表，并且使用压缩表输出来重构采用128位指令格式710的本机指令。能够使用指令的其他大小和格式。

对于每种格式，指令操作码712定义执行单元要执行的操作。执行单元跨每个操作数的多个数据元素并行执行每个指令。例如，响应于相加指令，执行单元跨表示纹理元素或图片元素的每个颜色通道来执行同时相加运算。默认情况下，执行单元跨操作数的所有数据通道来执行每个指令。在一些实施例中，指令控制字段714使得能够实现对诸如通道选择(例如，预测)和数据通道次序(例如，搅混(swizzle))之类的某些执行选项的控制。对于采用128位指令格式710的指令，执行大小字段716限制将被并行执行的数据通道的数量。在一些实施例中，执行大小字段716不可用于供在64位紧凑指令格式730中使用。

一些执行单元指令具有多达三个操作数，这三个操作数包含两个源操作数、src0720、src1 722和一个目的地718。在一些实施例中，执行单元支持双目的地指令，其中目的地之一是隐含的。数据操纵指令能够具有第三源操作数(例如SRC2 724)，其中指令操作码712确定源操作数的数量。指令的最后源操作数能够是利用指令传递的立即(例如，硬编码的)值。

在一些实施例中，128位指令格式710包含访问/地址模式字段726，该访问/地址模式字段726指定例如使用直接寄存器寻址模式还是间接寄存器寻址模式。在使用直接寄存器寻址模式时，由指令中的位来直接提供一个或多个操作数的寄存器地址。

在一些实施例中，128位指令格式710包含访问/地址模式字段726，该访问/地址模式字段726指定指令的地址模式和/或访问模式。在一个实施例中，访问模式被用来定义指令的数据访问对齐。一些实施例支持包含16字节对齐的访问模式和1字节对齐的访问模式的访问模式，其中访问模式的字节对齐确定指令操作数的访问对齐。例如，当处于第一模式中时，指令可将字节对齐的寻址用于源操作数和目的地操作数，并且当处于第二模式中时，指令可将16字节对齐的寻址用于所有源操作数和目的地操作数。

在一个实施例中，访问/地址模式字段726的地址模式部分确定指令将使用直接寻址还是间接寻址。在使用直接寄存器寻址模式时，指令中的位直接提供一个或多个操作数的寄存器地址。在使用间接寄存器寻址模式时，可以基于指令中的地址寄存器值和地址立即字段来计算一个或多个操作数的寄存器地址。

在一些实施例中，基于操作码712位字段对指令进行分组，以简化操作码解码740。对于8位操作码，第4、5和6位允许执行单元确定操作码的类型。所示出的精确操作码分组仅是示例。在一些实施例中，移动和逻辑操作码群组742包含数据移动和逻辑指令(例如，移动(mov)、比较(cmp))。在一些实施例中，移动和逻辑群组742共享五个最高有效位(MSB)，其中移动(mov)指令采用0000xxxxb的形式，并且逻辑指令采用0001xxxxb的形式。流控制指令群组744(例如调用、跳(jmp))包含采用0010xxxxb(例如，0x20)形式的指令。杂项指令群组746包含指令的混合，包含采用0011xxxxb(例如0x30)形式的同步指令(例如等待、发送)。并行数学指令群组748包含采用0100xxxxb(例如0x40)的形式的按分量的算术指令(例如，加、乘(mul))。并行数学群组748跨数据通道并行执行算术运算。向量数学群组750包含采用0101xxxxb(例如，0x50)形式的算术指令(例如，dp4)。向量数学群组对向量操作数执行诸如点积计算的算术。图示的操作码解码740在一个实施例中能够用来确定执行单元的哪个部分将被用来执行解码的指令。例如，一些指令可被指定为将由脉动阵列执行的脉动指令。诸如光线追踪指令(未示出)的其他指令能够被路由到执行逻辑的切片或分区内的光线追踪核或光线追踪逻辑。

图形流水线

图8是图形处理器800的另一实施例的框图。与本文中任何其他附图的元件具有相同参考标号(或名称)的图8的元件能够以与本文中其他地方所描述的方式类似的任何方式操作或起作用，但不限于这样。

在一些实施例中，图形处理器800包含几何流水线820、媒体流水线830、显示引擎840、线程执行逻辑850和渲染输出流水线870。在一些实施例中，图形处理器800是包含一个或多个通用处理核的多核处理系统内的图形处理器。通过对一个或多个控制寄存器(未示出)的寄存器写入或者经由通过环形互连802发布至图形处理器800的命令来控制图形处理器。在一些实施例中，环形互连802将图形处理器800耦合到其他处理组件，诸如其他图形处理器或通用处理器。来自环形互连802的命令由命令流转化器803解译，该命令流转化器803将指令供应至几何流水线820或媒体流水线830的各个组件。

在一些实施例中，命令流转化器803指导顶点获取器805的操作，该顶点获取器805从存储器读取顶点数据，并执行由命令流转化器803提供的顶点处理命令。在一些实施例中，顶点获取器805将顶点数据提供给顶点着色器807，该顶点着色器807对每个顶点执行坐标空间变换和照明操作。在一些实施例中，顶点获取器805和顶点着色器807通过经由线程分派器831向执行单元852A-852B分派执行线程来执行顶点处理指令。

在一些实施例中，执行单元852A-852B是具有用于执行图形和媒体操作的指令集的向量处理器的阵列。在一些实施例中，执行单元852A-852B具有附连的L1高速缓存851，所述L1高速缓存851对于每个阵列是特定的，或者在阵列之间被共享。高速缓存能被配置为数据高速缓存、指令高速缓存或被分区以在不同分区中含有数据和指令的单个高速缓存。

在一些实施例中，几何流水线820包含曲面细分组件以执行3D对象的硬件加速的曲面细分。在一些实施例中，可编程外壳着色器(programmable hull shader)811配置曲面细分操作。可编程域着色器817提供曲面细分输出的后端评估。曲面细分器813在外壳着色器811的指导下进行操作，并且含有专用逻辑以基于作为到几何流水线820的输入而提供的粗略几何模型来生成一组详细的几何对象。在一些实施例中，如果未使用曲面细分，则能够绕过曲面细分组件(例如，外壳着色器811、曲面细分器813和域着色器817)。

在一些实施例中，完整几何对象能够由几何着色器819经由分派给执行单元852A-852B的一个或多个线程来处理，或者能够直接行进至裁剪器(clipper)829。在一些实施例中，几何着色器对整个几何对象进行操作，而不是如在图形流水线的先前阶段中对顶点或顶点的补片(patch)进行操作。如果曲面细分被禁用，则几何着色器819接收来自顶点着色器807的输入。在一些实施例中，几何着色器819可由几何着色器程序编程以在曲面细分单元被禁用时执行几何曲面细分。

在光栅化前，裁剪器829处理顶点数据。裁剪器829可以是具有裁剪和几何着色器功能的可编程裁剪器或固定功能裁剪器。在一些实施例中，渲染输出流水线870中的光栅化器和深度测试组件873分派像素着色器以将几何对象转换成逐像素表示。在一些实施例中，像素着色器逻辑被包含在线程执行逻辑850中。在一些实施例中，应用能够绕过光栅化器和深度测试组件873，并且经由流输出单元823访问未光栅化的顶点数据。

图形处理器800具有允许数据和消息在处理器的主要组件之间传递的互连总线、互连组构或某种其他互连机构。在一些实施例中，执行单元852A-852B和关联的逻辑单元(例如，L1高速缓存851、采样器854、纹理器高速缓存858等)经由数据端口856互连，以执行存储器访问并且与处理器的渲染输出流水线组件进行通信。在一些实施例中，采样器854、高速缓存851、858和执行单元852A-852B各自具有单独的存储器访问路径。在一个实施例中，纹理高速缓存858还能够被配置为采样器高速缓存。

在一些实施例中，渲染输出流水线870含有光栅化器和深度测试组件873，该光栅化器和深度测试组件873将基于顶点的对象转换成关联的基于像素的表示。在一些实施例中，光栅化器逻辑包含用来执行固定功能三角形和线光栅化的窗口器(windower)/掩蔽器单元。关联的渲染高速缓存878和深度高速缓存879在一些实施例中也是可用的。像素操作组件877对数据执行基于像素的操作，尽管在一些实例中，与2D操作关联的像素操作(例如，带有混合(blending)的位块图像传送)由2D引擎841执行，或者在显示时由显示控制器843使用覆盖显示平面代替。在一些实施例中，共享L3高速缓存875对于全部图形组件是可用的，从而允许在不使用主系统存储器的情况下共享数据。

在一些实施例中，图形处理器媒体流水线830包含媒体引擎837和视频前端834。在一些实施例中，视频前端834接收来自命令流转化器803的流水线命令。在一些实施例中，媒体流水线830包含单独的命令流转化器。在一些实施例中，视频前端834在将命令发送至媒体引擎837之前处理媒体命令。在一些实施例中，媒体引擎837包含线程派生功能性来派生线程，以便经由线程分派器831分派到线程执行逻辑850。

在一些实施例中，图形处理器800包含显示引擎840。在一些实施例中，显示引擎840在处理器800的外部，并且经由环形互连802或某一其他互连总线或组构与图形处理器耦合。在一些实施例中，显示引擎840包含2D引擎841和显示控制器843。在一些实施例中，显示引擎840含有能独立于3D流水线操作的专用逻辑。在一些实施例中，显示控制器843与显示装置(未示出)耦合，该显示装置可以是系统集成的显示装置(如在膝上型计算机中)，或者可以是经由显示装置连接器附连的外部显示装置。

在一些实施例中，几何流水线820和媒体流水线830可配置成基于多个图形和媒体编程接口执行操作，并且不特定于任何一个应用编程接口(API)。在一些实施例中，用于图形处理器的驱动器软件将特定于特定图形或媒体库的API调用转换成能够由图形处理器处理的命令。在一些实施例中，为全部来自Khronos Group的开放图形库(OpenGL)、开放计算语言(OpenCL)和/或Vulkan图形和计算API提供支持。在一些实施例中，还可以为来自微软公司的Direct3D库提供支持。在一些实施例中，可支持这些库的组合。还可以为开源计算机视觉库(OpenCV)提供支持。如果能够进行从未来API的流水线到图形处理器的流水线的映射，则具有兼容3D流水线的未来API也将被支持。

图形流水线编程

图9A是图示根据一些实施例的图形处理器命令格式900的框图。图9B是图示根据实施例的图形处理器命令序列910的框图。图9A中的实线框图示了一般被包含在图形命令中的组成部分，而虚线包含可选的或者仅被包含在图形命令的子集中的组成部分。图9A的示例性图形处理器命令格式900包含用来标识命令的客户端902、命令操作代码(操作码)904和数据906的数据字段。一些命令中还包含子操作码905和命令大小908。

在一些实施例中，客户端902指定处理命令数据的图形装置的客户端单元。在一些实施例中，图形处理器命令解析器检查每个命令的客户端字段以调节命令的进一步处理，并且将命令数据路由到适当的客户端单元。在一些实施例中，图形处理器客户端单元包含存储器接口单元、渲染单元、2D单元、3D单元和媒体单元。每个客户端单元具有处理命令的对应处理流水线。一旦客户端单元接收到命令，客户端单元便读取操作码904和子操作码905(如果子操作码905存在的话)，以确定要执行的操作。客户端单元使用数据字段906中的信息来执行命令。对于一些命令，预期显式命令大小908来指定命令的大小。在一些实施例中，命令解析器基于命令操作码来自动确定至少一些命令的大小。在一些实施例中，经由双字的倍数来对齐命令。能够使用其他命令格式。

图9B中的流程图图示了示例性图形处理器命令序列910。在一些实施例中，以图形处理器的实施例为特征的数据处理系统的软件或固件使用所示出的命令序列的版本来设定、执行和终止一组图形操作。仅出于示例的目的示出并描述了样本命令序列，因为实施例不限于这些特定命令或此命令序列。另外，命令可作为命令序列中的批量命令被发布，使得图形处理器将至少部分并发地处理命令的序列。

在一些实施例中，图形处理器命令序列910可以以流水线清空命令(pipelineflush command)912开始，以促使任何活动的图形流水线完成该流水线的当前未决命令。在一些实施例中，3D流水线922和媒体流水线924没有并发地操作。执行流水线清空以促使活动的图形流水线完成任何未决命令。响应于流水线清空，用于图形处理器的命令解析器将暂停命令处理，直至活动的绘图引擎完成未决操作并且相关的读取高速缓存失效。可选地，能够将渲染高速缓存中标记为“脏”的任何数据清空到存储器。在一些实施例中，流水线清空命令912能够被用于流水线同步，或者在将图形处理器置于低功率状态前被使用。

在一些实施例中，在命令序列要求图形处理器在流水线之间显式地切换时，使用流水线选择命令913。在一些实施例中，除非上下文将为两个流水线发布命令，否则在发布流水线命令前，在执行上下文内仅要求一次流水线选择命令913。在一些实施例中，紧接经由流水线选择命令913的流水线切换之前，要求流水线清空命令912。

在一些实施例中，流水线控制命令914配置图形流水线以用于操作，并且被用来对3D流水线922和媒体流水线924进行编程。在一些实施例中，流水线控制命令914配置活动的流水线的流水线状态。在一个实施例中，流水线控制命令914被用于流水线同步，并且在处理一批命令前从活动的流水线内的一个或多个高速缓冲存储器中清除数据。

在一些实施例中，返回缓冲区状态命令916被用来为相应流水线配置一组返回缓冲区以写入数据。一些流水线操作要求分配、选择或配置一个或多个返回缓冲区，在处理期间这些操作将中间数据写入到所述一个或多个返回缓冲区。在一些实施例中，图形处理器还使用一个或多个返回缓冲区来存储输出数据并且执行跨线程通信。在一些实施例中，返回缓冲区状态916包含选择要用于一组流水线操作的返回缓冲区的大小和数量。

命令序列中的剩余命令基于用于操作的活动流水线而不同。基于流水线确定920，将命令序列定制到以3D流水线状态930开始的3D流水线922或者在媒体流水线状态940开始的媒体流水线924。

用来配置3D流水线状态930的命令包含3D状态设置命令，所述3D状态设置命令用于在处理3D图元命令之前要配置的顶点缓冲区状态、顶点元素状态、恒定颜色状态、深度缓冲区状态以及其他状态变量。至少部分基于使用中的特定3D API来确定这些命令的值。在一些实施例中，如果将不使用某些流水线元件，则3D流水线状态930命令还能够选择性地禁用或绕过那些元件。

在一些实施例中，3D图元932命令被用来提交要由3D流水线处理的3D图元。经由3D图元932命令传递到图形处理器的命令和关联参数被转发到图形流水线中的顶点获取功能。顶点获取功能使用3D图元932命令数据来生成顶点数据结构。顶点数据结构被存储在一个或多个返回缓冲区中。在一些实施例中，3D图元932命令被用来经由顶点着色器对3D图元执行顶点操作。为处理顶点着色器，3D流水线922将着色器执行线程分派到图形处理器执行单元。

在一些实施例中，经由执行934命令或事件来触发3D流水线922。在一些实施例中，寄存器写入触发命令执行。在一些实施例中，经由命令序列中的“go”或“kick”命令来触发执行。在一个实施例中，使用流水线同步命令来触发命令执行以清空通过图形流水线的命令序列。3D流水线将执行用于3D图元的几何处理。一旦操作完成，所得到的几何对象便被光栅化，并且像素引擎对所得到的像素进行上色。对于那些操作，还可以包含用来控制像素着色和像素后端操作的另外的命令。

在一些实施例中，在执行媒体操作时，图形处理器命令序列910沿着媒体流水线924路径。一般而言，用于媒体流水线924的特定使用和编程方式取决于要执行的媒体或计算操作。可以在媒体解码期间将特定媒体解码操作卸载到媒体流水线。在一些实施例中，还能够绕过媒体流水线，并且能够使用由一个或多个通用处理核提供的资源来全部或部分地执行媒体解码。在一个实施例中，媒体流水线还包含用于通用图形处理器单元(GPGPU)操作的元件，其中图形处理器被用于使用计算着色器程序来执行SIMD向量运算，所述计算着色器程序与图形图元的渲染不是显式相关的。

在一些实施例中，以与3D流水线922类似的方式对媒体流水线924进行配置。将用来配置媒体流水线状态940的一组命令分派或放置到在媒体对象命令942之前的命令队列中。在一些实施例中，用于媒体流水线状态940的命令包含用来配置媒体流水线元件的数据，所述媒体流水线元件将被用来处理媒体对象。这包含用来配置媒体流水线内的视频解码和视频编码逻辑的数据，诸如编码和解码格式。在一些实施例中，用于媒体流水线状态940的命令还支持使用到含有一批状态设置的“间接”状态元素的一个或多个指针。

在一些实施例中，媒体对象命令942将指针供应到媒体对象以便由媒体流水线处理。媒体对象包含存储器缓冲区，所述存储器缓冲区含有要处理的视频数据。在一些实施例中，在发布媒体对象命令942之前，所有媒体流水线状态必须是有效的。一旦配置了流水线状态，并且将媒体对象命令942排队，便经由执行命令944或等效执行事件(例如，寄存器写入)来触发媒体流水线924。然后可以通过由3D流水线922或媒体流水线924提供的操作对来自媒体流水线924的输出进行后处理。在一些实施例中，以与媒体操作类似的方式配置和执行GPGPU操作。

图形软件架构

图10图示了根据一些实施例的用于数据处理系统1000的示例性图形软件架构。在一些实施例中，软件架构包含3D图形应用1010、操作系统1020和至少一个处理器1030。在一些实施例中，处理器1030包含图形处理器1032和一个或多个通用处理器核1034。图形应用1010和操作系统1020各自在数据处理系统的系统存储器1050中执行。

在一些实施例中，3D图形应用1010含有一个或多个着色器程序，该一个或多个着色器程序包含着色器指令1012。着色器语言指令可以采用高级着色器语言，诸如Direct3D的高级着色器语言(HLSL)或OpenGL着色器语言(GLSL)等等。应用还包含采用适合由通用处理器核1034执行的机器语言的可执行指令1014。应用还包含由顶点数据定义的图形对象1016。

在一些实施例中，操作系统1020是来自微软公司的

操作系统、专有的UNIX类操作系统或使用Linux内核的变体的开源类UNIX操作系统。操作系统1020能够支持图形API1022，诸如Direct3D API、OpenGL API或Vulkan API。Direct3D API在使用中时，操作系统1020使用前端着色器编译器1024来将采用HLSL的任何着色器指令1012编译成更低级着色器语言。编译可以是即时(JIT)编译或者应用能够执行着色器预编译。在一些实施例中，在3D图形应用1010的编译期间将高级着色器编译成低级着色器。在一些实施例中，以中间形式(诸如由Vulkan API使用的标准可移植中间表示(SPIR)的版本)提供着色器指令1012。

在一些实施例中，用户模式图形驱动器1026含有用来将着色器指令1012转换成硬件特定表示的后端着色器编译器1027。OpenGL API在使用中时，将采用GLSL高级语言的着色器指令1012传递到用户模式图形驱动器1026以用于编译。在一些实施例中，用户模式图形驱动器1026使用操作系统内核模式功能1028来与内核模式图形驱动器1029进行通信。在一些实施例中，内核模式图形驱动器1029与图形处理器1032进行通信以分派命令和指令。

IP核实现

至少一个实施例的一个或多个方面可以由存储在机器可读介质上的代表性代码来实现，该代表性代码表示和/或定义诸如处理器的集成电路内的逻辑。例如，机器可读介质可以包含表示处理器内的各种逻辑的指令。在由机器读取时，指令可以促使机器制作逻辑以执行本文中描述的技术。称为“IP核”的此类表示是用于集成电路的逻辑的可重复使用单元，该可重复使用单元可以作为对集成电路的结构进行描述的硬件模型而被存储在有形机器可读介质上。可以将硬件模型供应至各种客户或制造设施，所述客户或制造设施将硬件模型加载在制造集成电路的制作机器上。可制作集成电路，使得电路执行与本文中描述的实施例中的任何实施例关联的所描述的操作。

图11A是图示根据实施例的可被用来制造集成电路以执行操作的IP核开发系统1100的框图。IP核开发系统1100可以被用来生成能够被并入到更大的设计中或被用来构造整个集成电路(例如，SOC集成电路)的模块化、可重复使用设计。设计设施1130能够生成采用高级编程语言(例如，C/C++)的IP核设计的软件仿真1110。软件仿真1110能够被用于使用仿真模型1112来设计、测试和验证IP核的行为。仿真模型1112可以包含功能、行为和/或时序仿真。然后能够从仿真模型1112创建或合成寄存器传送级(RTL)设计1115。RTL设计1115是对硬件寄存器之间的数字信号流(包括使用建模的数字信号执行的相关联的逻辑)进行建模的集成电路的行为的抽象。除RTL设计1115外，还可以创建、设计或合成处于逻辑级或晶体管级的较低级设计。因此，初始设计和仿真的特定细节可以不同。

可以由设计设施将RTL设计1115或等效物进一步合成为硬件模型1120，该硬件模型1120可以采用硬件描述语言(HDL)或物理设计数据的某种其他表示。可以进一步对HDL进行仿真或测试以验证IP核设计。能够使用非易失性存储器1140(例如，硬盘、闪速存储器或任何非易失性存储介质)来存储IP核设计以用于递送到第三方制作设施1165。备选的是，可以通过有线连接1150或无线连接1160(例如经由因特网)来传送IP核设计。制作设施1165然后可以制作至少部分基于IP核设计的集成电路。制作的集成电路能够被配置成执行根据本文中描述的至少一个实施例的操作。

图11B图示了根据本文中描述的一些实施例的集成电路封装组装件1170的截面侧视图。集成电路封装组装件1170图示了如本文中描述的一个或多个处理器或加速器装置的实现。封装组装件1170包含连接到衬底1180的多个硬件逻辑单元1172、1174。逻辑1172、1174可以至少部分地在可配置逻辑或固定功能性逻辑硬件中被实现，并且能够包含本文中描述的(一个或多个)处理器核、(一个或多个)图形处理器或其他加速器装置中的任何装置的一个或多个部分。每个逻辑单元1172、1174能够在半导体管芯内被实现，并且经由互连结构1173与衬底1180耦合。互连结构1173可以被配置成在逻辑1172、1174与衬底1180之间路由电信号，并且能够包含互连，该互连诸如但不限于凸块或柱。在一些实施例中，互连结构1173可以被配置成路由电信号，诸如，例如与逻辑1172、1174的操作关联的输入/输出(I/O)信号和/或功率或接地信号。在一些实施例中，衬底1180是环氧基层压衬底。在其他实施例中，衬底1180可以包含其他适合类型的衬底。封装组装件1170能够经由封装互连1183被连接到其他电气装置。封装互连1183可以被耦合到衬底1180的表面，以将电信号路由到其他电气装置，诸如母板、其他芯片组或多芯片模块。

在一些实施例中，逻辑单元1172、1174与桥接1182电耦合，该桥接1182被配置成在逻辑1172、1174之间路由电信号。桥接1182可以是为电信号提供路线(route)的密集互连结构。桥接1182可以包含由玻璃或合适的半导体材料构成的桥接衬底。能够在桥接衬底上形成电布线特征(electrical routing feature)，以在逻辑1172、1174之间提供芯片到芯片连接。

虽然图示了两个逻辑单元1172、1174和桥接1182，但是本文中描述的实施例可以包含在一个或多个管芯上的更多或更少逻辑单元。由于当逻辑被包含在单个管芯上时可以排除桥接1182，因此可以通过零个或多于零个桥接来连接一个或多个管芯。备选的是，能够通过一个或多个桥接来连接多个管芯或逻辑单元。另外，在其他可能配置(包含三维配置)中能够将多个逻辑单元、管芯和桥接连接在一起。

图11C图示了包含连接到衬底1180(例如，基础管芯)的多个硬件逻辑小芯片单元的封装组装件1190。如本文中所述的图形处理单元、并行处理器和/或计算加速器能够由单独制造的多样化的硅小芯片构成。在此上下文中，小芯片是至少部分封装的集成电路，其包含能够与其他小芯片被组装到更大封装中的不同的逻辑单元。带有不同IP核逻辑的小芯片的多样化集合能够被组装到单个装置中。另外，能够使用有源中介层技术将小芯片集成到基础管芯或基础小芯片中。本文中描述的概念使得能够实现在GPU内的不同形式的IP之间的互连和通信。能够使用不同工艺技术来制造并且在制造期间构成IP核，这避免了将多个IP(特别是在带有若干特点(flavors)IP的大的SoC上)汇聚到相同制造工艺的复杂性。使得能够使用多个工艺技术改进了推向市场的时间，并且提供了创建多个产品SKU的有成本效益的方式。另外，解聚的IP更易于独立地被功率选通，在给定工作负载上不在使用中的组件能够被断电，从而降低总体功率消耗。

硬件逻辑小芯片能够包含专用硬件逻辑小芯片1172、逻辑或I/O小芯片1174和/或存储器小芯片1175。硬件逻辑小芯片1172和逻辑或I/O小芯片1174可以至少部分地在可配置逻辑或固定功能性逻辑硬件中被实现，并且能够包含(一个或多个)处理器核、(一个或多个)图形处理器、并行处理器或本文中描述的其他加速器装置中的任何一项的一个或多个部分。存储器小芯片1175能够是DRAM(例如，GDDR、HBM)存储器或高速缓冲(SRAM)存储器。

每个小芯片能够被制作为单独的半导体管芯，并且经由互连结构1173与衬底1180耦合。互连结构1173可被配置成在各种小芯片与衬底1180内的逻辑之间路由电信号。互连结构1173能够包含互连，诸如但不限于凸块或柱。在一些实施例中，互连结构1173可以被配置成路由电信号，诸如，例如与逻辑、I/O和存储器小芯片的操作关联的输入/输出(I/O)信号和/或功率或接地信号。

在一些实施例中，衬底1180是环氧基层压衬底。在其他实施例中，衬底1180可以包含其他适合类型的衬底。封装组装件1190能够经由封装互连1183被连接到其他电气装置。封装互连1183可以被耦合到衬底1180的表面，以将电信号路由到其他电气装置，诸如母板、其他芯片组或多芯片模块。

在一些实施例中，逻辑或I/O小芯片1174和存储器小芯片1175能够经由桥接1187被电耦合，该桥接1187被配置成在逻辑或I/O小芯片1174与存储器小芯片1175之间路由电信号。桥接1187可以是为电信号提供路由的密集互连结构。桥接1187可以包含由玻璃或合适的半导体材料构成的桥接衬底。能够在桥接衬底上形成电布线特征，以在逻辑或I/O小芯片1174与存储器小芯片1175之间提供芯片到芯片连接。桥接1187还可以被称为硅桥接或互连桥接。例如，在一些实施例中，桥接1187是嵌入式多管芯互连桥接(EMIB)。在一些实施例中，桥接1187可以只是从一个小芯片到另一小芯片的直接连接。

衬底1180能够包含用于I/O 1191、高速缓冲存储器1192和其他硬件逻辑1193的硬件组件。组构1185能够被嵌入在衬底1180中以使得能够实现在各种逻辑小芯片与衬底1180内的逻辑1191、1193之间的通信。在一个实施例中，I/O 1191、组构1185、高速缓存、桥接和其他硬件逻辑1193能够被集成到基础管芯中，该基础管芯被层叠在衬底1180的顶部上。

在各种实施例中，封装组装件1190能够包含由组构1185或一个或多个桥接1187互连的更少或更多数量的组件和小芯片。封装组装件1190内的小芯片可被布置在3D或2.5D布置中。一般而言，桥接结构1187可以被用来促进在例如逻辑或I/O小芯片与存储器小芯片之间的点到点互连。组构1185能够被用来将各种逻辑和/或I/O小芯片(例如，小芯片1172、1174、1191、1193)与其他逻辑和/或I/O小芯片互连。在一个实施例中，衬底内的高速缓冲存储器1192能够充当用于封装组装件1190的全局高速缓存、分布式全局高速缓存的一部分或者充当用于组构1185的专用高速缓存。

图11D图示了根据实施例的包含可互换小芯片1195的封装组装件1194。可互换小芯片1195能够被组装到一个或多个基础小芯片1196、1198上的标准化槽中。基础小芯片1196、1198能够经由桥接互连1197被耦合，该桥接1197互连能够类似于本文中描述的其他桥接互连，并且可以例如是EMIB。存储器小芯片还能够经由桥接互连被连接到逻辑或I/O小芯片。I/O和逻辑小芯片能够经由互连组构进行通信。基础小芯片能够各自支持采用用于逻辑或I/O或存储器/高速缓存之一的标准化格式的一个或多个槽。

在一个实施例中，能够将SRAM和功率递送电路制作到基础小芯片1196、1198中的一个或多个基础小芯片中，所述基础小芯片1196、1198能够使用相对于堆叠在基础小芯片的顶部上的可互换小芯片1195不同的工艺技术来被制作。例如，能够使用更大的工艺技术来制作基础小芯片1196、1198，而能够使用更小的工艺技术来制作可互换小芯片。可互换小芯片1195的一个或多个可互换小芯片可以是存储器(例如，DRAM)小芯片。能够基于作为使用封装组装件1194的产品的目标的功率和/或性能，为封装组装件1194选择不同存储器密度。另外，能够基于作为产品的目标的功率和/或性能，在组装时选择带有不同数量的类型的功能单元的逻辑小芯片。另外，能够将含有不同类型的IP逻辑核的小芯片插入到可互换小芯片槽中，使得能够实现能混合并匹配不同技术IP块的混合处理器设计。

示例性片上系统集成电路

图12-13图示了根据本文中描述的各种实施例的可以使用一个或多个IP核来制作的示例性集成电路和相关联的图形处理器。除了所图示的内容外，还可以包含其他逻辑和电路，包含另外的图形处理器/核、外设接口控制器或通用处理器核。

图12是图示了根据实施例的可以使用一个或多个IP核来制作的示例性片上系统集成电路1200的框图。示例性集成电路1200包含一个或多个应用处理器1205(例如，CPU)、至少一个图形处理器1210，并且可以另外包含图像处理器1215和/或视频处理器1220，以上处理器中的任何处理器可以是来自相同或多个不同设计设施的模块化IP核。集成电路1200包含外设或总线逻辑，所述外设或总线逻辑包含USB控制器1225、UART控制器1230、SPI/SDIO控制器1235和I2S/I2C控制器1240。另外，集成电路能够包含耦合到高清晰度多媒体接口(HDMI)控制器1250和移动工业处理器接口(MIPI)显示接口1255中的一个或多个的显示装置1245。可以通过包含闪速存储器和闪速存储器控制器的闪速存储器子系统1260来提供存储。可以经由存储器控制器1265提供存储器接口以便访问SDRAM或SRAM存储器装置。一些集成电路另外包含嵌入式安全引擎1270。

图13-14是图示了根据本文中描述的实施例的供SoC内使用的示例性图形处理器的框图。图13图示了根据实施例的可以使用一个或多个IP核来制作的片上系统集成电路的示例性图形处理器1310。图14图示了根据实施例的可以使用一个或多个IP核来制作的片上系统集成电路的另外的示例性图形处理器1340。图13的图形处理器1310是低功率图形处理器核的示例。图14的图形处理器1340是更高性能图形处理器核的示例。图形处理器1310、1340中的每个图形处理器能够是图12的图形处理器1210的变体。

如图13中所示出的，图形处理器1310包含顶点处理器1305和一个或多个片段处理器1315A-1315N(例如，1315A、1315B、1315C、1315D直到1315N-1和1315N)。图形处理器1310能够经由单独的逻辑执行不同着色器程序，使得顶点处理器1305被优化以执行用于顶点着色器程序的操作，而一个或多个片段处理器1315A-1315N执行用于片段或像素着色器程序的片段(例如，像素)着色操作。顶点处理器1305执行3D图形流水线的顶点处理阶段，并且生成图元和顶点数据。(一个或多个)片段处理器1315A-1315N使用由顶点处理器1305生成的图元和顶点数据来产生在显示装置上显示的帧缓冲区。在一个实施例中，(一个或多个)片段处理器1315A-1315N被优化以执行如OpenGL API中提供的片段着色器程序，所述片段着色器程序可以被用来执行与如Direct 3D API中提供的像素着色器程序相似的操作。

图形处理器1310另外包含一个或多个存储器管理单元(MMU)1320A-1320B、(一个或多个)高速缓存1325A-1325B和(一个或多个)电路互连1330A-1330B。一个或多个MMU1320A-1320B为图形处理器1310(包含为顶点处理器1305和/或(一个或多个)片段处理器1315A-1315N)提供虚拟地址到物理地址映射，这些处理器除了在一个或多个高速缓存1325A-1325B中存储的顶点或图像/纹理数据之外还可以引用在存储器中存储的顶点或图像/纹理数据。在一个实施例中，一个或多个MMU 1320A-1320B可以与系统内的其他MMU同步，所述其他MMU包含与图12的一个或多个应用处理器1205、图像处理器1215和/或视频处理器1220关联的一个或多个MMU，使得每个处理器1205-1220能够参与到共享或统一的虚拟存储器系统中。根据实施例，一个或多个电路互连1330A-1330B使得图形处理器1310能够经由SoC的内部总线或者经由直接连接来与SoC内的其他IP核通过接口连接。

如图14中所示出的，图形处理器1340包含图13的图形处理器1310的一个或多个MMU 1320A-1320B、(一个或多个)高速缓存1325A-1325B和(一个或多个)电路互连1330A-1330B。图形处理器1340包含提供统一的着色器核架构的一个或多个着色器核1355A-1355N(例如，1355A、1355B、1355C、1355D、1355E、1355F直到1355N-1和1355N)，在该统一的着色器核架构中单个核或单个类型的核能够执行全部类型的可编程着色器代码，包含用来实现顶点着色器、片段着色器和/或计算着色器的着色器程序代码。存在的着色器核的确切数量能够在实施例和实现之间变化。另外，图形处理器1340包含：核间任务管理器1345，该核间任务管理器1345充当用来将执行线程分派给一个或多个着色器核1355A-1355N的线程分派器；以及用来为基于贴片的渲染加速拼贴操作(tiling operation)的拼贴单元(tilingunit)1358，在该基于贴片的渲染中，用于场景的渲染操作在图像空间中被细分，例如以利用场景内的局部空间相干性或优化内部高速缓存的使用。

具有机器学习的光线追踪

如上面所提到的，光线追踪是其中通过基于物理的渲染来对光传输进行仿真的图形处理技术。光线追踪中的关键操作之一是处理可见性查询，该可见性查询要求包围体层次(BVH)中的节点的遍历和交叉测试。

基于光线追踪和路径追踪的技术通过追踪经过每个像素的光线和路径并且使用随机采样以计算诸如阴影、光泽度、间接照明等的高级效果来计算图像。仅使用几个样本是快速的，但是产生有噪图像，而使用许多样本产生高质量图像，但是成本过高。

在过去的若干年中，用于实时使用的光线/路径追踪的突破性解决方案已经以“去噪”的形式出现，去噪是使用图像处理技术从有噪、低采样计数输入产生高质量、滤波/去噪图像的过程。最有效的去噪技术依赖于机器学习技术，其中机器学习引擎学习如果已经用更多样本计算有噪图像则该有噪图像将可能看起来像的样子。在一个特定实现中，通过卷积神经网络(CNN)执行机器学习；然而，本发明的根本原理不限于CNN实现。在这样的实现中，训练数据是用低采样计数输入和真值数据(ground-truth)来产生的。CNN被训练以从所讨论的像素周围的有噪像素输入的邻域预测收敛的像素。

尽管不是完美的，但是这种基于AI的去噪技术已经被证明是出乎意料地有效的。然而，注意事项是，要求良好的训练数据，因为否则网络可能预测出错误的结果。例如，如果动画电影工作室对具有陆地上场景的过去电影训练了去噪CNN，并且然后尝试使用经训练的CNN对来自设置在水上的新电影的帧进行去噪，则去噪操作将次优地执行。

为了解决这个问题，本发明的一个实施例在渲染的同时动态地收集学习数据，并且基于当前正在其上运行机器学习引擎的数据来连续训练机器学习引擎，诸如CNN，从而针对手头的任务连续改进机器学习引擎。该实施例仍然可以在运行时间之前执行训练阶段，但是在运行时间期间按照需要继续调整机器学习权重。另外，该实施例通过将学习数据的生成限制到每帧或每N个帧的图像子区域来避免计算训练所要求的参考数据的高成本。特别地，帧的有噪输入被生成以用于利用当前网络对全帧进行去噪。另外，如下所述，参考像素的小区域被生成并且被用于连续训练。

虽然关于某些实施例描述了CNN实现，但是可以使用任何形式的机器学习引擎，包括但不限于执行以下操作的系统：受监督学习(例如，构建含有输入和期望的输出两者的数据集的数学模型)、无监督学习(例如，其针对某些类型的结构评估输入数据)和/或受监督和无监督学习的组合。

现有的去噪实现在训练阶段和运行时间阶段中操作。在训练阶段期间，定义了网络拓扑，该网络拓扑接收具有诸如像素颜色、深度、法线、法线偏差、图元ID和反照率之类的各种每像素数据通道的N×N像素的区域，并且生成最终像素颜色。使用相当于一个帧的低采样计数输入，并且参考用非常高的采样计数计算的“期望的”像素颜色，生成“代表性”训练数据集。朝向这些输入训练网络，生成网络的“理想”权重的集合。在这些实现中，参考数据被用于训练网络的权重以将网络的输出与期望的结果最接近地匹配。

在运行时间，加载给定的预先计算的理想网络权重并且初始化网络。对于每个帧，生成去噪输入的低采样计数图像(即，与用于训练的相同)。对于每个像素，像素的输入的给定邻域通过网络运行以预测“去噪的”像素颜色，从而生成去噪的帧。

图15图示了初始训练实现的一个实施例。机器学习引擎1500(例如，CNN)接收N×N像素的区域作为具有诸如像素颜色、深度、法线、法线偏差、图元ID和反照率之类的各种每像素数据通道的高采样计数图像数据1702，并且生成最终像素颜色。使用相当于一个帧的低采样计数输入1501生成代表性训练数据。朝向这些输入训练网络，从而生成“理想”权重1505的集合，机器学习引擎1500随后使用“理想”权重1505的集合在运行时间对低采样计数图像进行去噪。

为了改进上述技术，本发明的一个实施例增加了去噪阶段以每帧或帧的子集(例如，每N个帧，其中N＝2、3、4、10、25等)生成新的训练数据。特别地，如图16中所示，该实施例选择每个帧中的一个或多个区域(本文中称为“新参考区域”1602)，所述新参考区域1602以高采样计数被渲染到单独的高采样计数缓冲区1604中。低采样计数缓冲区1603存储低采样计数输入帧1601(包括与新参考区域1602对应的低采样区域1604)。

在一个实施例中，随机地选择新参考区域1602的位置。备选地，可以针对每个新帧以预先指定的方式调整新参考区域1602的位置(例如，在帧之间使用区域的预定义移动，限于帧的中心中的指定区域等)。

无论如何选择新参考区域，它被机器学习引擎1600使用以不断改善和更新用于去噪的经训练的权重1605。特别地，渲染来自每个新参考区域1602的参考像素颜色和来自对应的低采样计数区域1607的有噪参考像素输入。然后，使用高采样计数参考区域1602和对应的低采样计数区域1607在机器学习引擎1600上执行补充训练。与初始训练相反，在运行时间期间针对每个新参考区域1602连续执行该训练，从而确保机器学习引擎1600被精确地训练。例如，可以评估每像素数据通道(例如，像素颜色、深度、法线、法线偏差等)，机器学习引擎1600使用每像素数据通道对经训练的权重1605进行调整。如在训练情况下(图15)，朝向理想权重1605的集合训练机器学习引擎1600以用于从低采样计数输入帧1601去除噪声来生成去噪的帧1620。然而，在该实施例中，基于新类型的低采样计数输入帧1601的新图像特性，不断更新经训练的权重1605。

在一个实施例中，在图形处理器单元(GPU)或主机处理器上的后台进程中并发地执行由机器学习引擎1600执行的重新训练操作。可以被实现为驱动器组件和/或GPU硬件组件的渲染环路连续产生新的训练数据(例如，以新参考区域1602的形式)，渲染环路将新的训练数据放置在队列中。在GPU或主机处理器上执行的后台训练过程连续从该队列读取新的训练数据，重新训练机器学习引擎1600，并且以适当的间隔用新的权重1605对它进行更新。

图17图示了一个这样的实现的示例，其中由主机CPU 1710实现后台训练过程1700。特别地，在该实施例中，后台训练过程1700使用高采样计数新参考区域1602和对应的低采样区域1604以不断更新经训练的权重1605，从而更新机器学习引擎1600。

如图18A中所示，在一个实现中，诸如在多玩家在线游戏中，不同的主机机器1820-1822单独地生成参考区域，后台训练过程1700A-C将所述参考区域传送到服务器1800(例如，诸如游戏服务器)。服务器1800然后使用从主机1821-1822中的每个接收的新参考区域在机器学习引擎1810上执行训练，如之前所述的那样来更新权重1805。它将这些权重1805传送到存储权重1605A-C的主机机器1820，从而更新每个单独的机器学习引擎(未示出)。因为服务器1800可以在短时间段内被提供大量的参考区域，所以它能够高效并且精确地更新正在被用户执行的任何给定应用(例如，在线游戏)的权重。

如图18B中所示，不同的主机机器可以生成新的经训练的权重(例如，基于如之前所述的训练/参考区域1602)，并且与服务器1800(例如，诸如游戏服务器)共享新的经训练的权重，或者备选地使用对等(peer-to-peer)共享协议。服务器上的机器学习管理组件1811使用从主机机器中的每个接收的新权重生成组合权重1805的集合。组合权重1805例如可以是从新权重生成的平均值，并且如本文中所述的那样被不断更新。一旦生成，组合权重1605A-C的副本便可以被传送并且存储在主机机器1820-1821中的每个上，所述主机机器1820-1821然后可以使用如本文中所述的组合权重来执行去噪操作。

在一个实施例中，该半封闭环路更新机制能够由硬件制造商使用。例如，参考网络可以被包括作为由硬件制造商分发的驱动器的一部分。当驱动器使用本文中描述的技术生成新的训练数据并且将这些新的训练数据连续提交回到硬件制造商时，硬件制造商使用该信息来继续改进其机器学习实现以用于下一次驱动器更新。

在一个实现中(例如，在渲染场(render farm)上渲染的批量电影中)，渲染器将新生成的训练区域传送到专用服务器或数据库(在该工作室的渲染场中)，该专用服务器或数据库随着时间推移聚集来自多个渲染节点的该数据。在单独的机器上的单独的进程连续改进工作室的专用去噪网络，并且新的渲染工作总是使用最新经训练的网络。

图19中图示了根据本发明的一个实施例的方法。该方法可以在本文中描述的架构上实现，但不限于任何特定系统或图形处理架构。

在1901，作为初始训练阶段的一部分，针对多个图像帧生成低采样计数图像数据和高采样计数图像数据。在1902，使用高/低采样计数图像数据来训练机器学习去噪引擎。在一个实施例中，例如，可以根据训练更新与像素特征相关联的卷积神经网络权重的集合。然而，可以使用任何机器学习架构。

在1903，在运行时间，生成低采样计数图像帧以及具有高采样计数的至少一个参考区域。在1904，高采样计数参考区域被机器学习引擎和/或单独的训练逻辑(例如，后台训练模块1700)使用以不断改善机器学习引擎的训练。例如，在一个实施例中，将高采样计数参考区域与低采样计数图像的对应部分组合使用以继续教导机器学习引擎1904如何最有效地执行去噪。在CNN实现中，例如，这可以涉及更新与CNN关联的权重。

上述实施例的多个变体可以被实现，诸如，配置到机器学习引擎的反馈环路所采用的方式；生成训练数据的实体；将训练数据反馈回到训练引擎所采用的方式；以及如何将改进的网络提供给渲染引擎。另外，尽管上面描述的以上实施例使用单个参考区域来执行连续训练，但是可以使用任何数量的参考区域。此外，如之前所提到的，参考区域可以具有不同的大小，可以被用在不同数量的图像帧上，并且可以使用不同的技术(例如，随机、根据预确定的模式等)被定位在图像帧内的不同位置中。

另外，尽管卷积神经网络(CNN)被描述为机器学习引擎1600的一个示例，但是本发明的根本原理可以使用任何形式的机器学习引擎来实现，该机器学习引擎能够使用新的训练数据不断改善其结果。通过示例且非限制的方式，其他机器学习实现包括数据处理分组方法(group method of data handling，GMDH)、长短期记忆、深度储备池计算(deepreservoir computing)、深度信念网络、张量深度堆叠网络和深度预测编码网络，仅列举几种。

分布式去噪

如上所述，去噪已成为具有平滑、无噪图像的实时光线追踪的关键特征。能够跨多个装置上的分布式系统进行渲染，但迄今为止现有的去噪框架全部对单个机器上的单个实例进行操作。如果跨多个装置进行渲染，则这些装置可能并不具有可访问以用于计算图像的去噪部分的所有经渲染的像素。

本发明的一个实施例包含分布式去噪算法，所述分布式去噪算法与基于人工智能(AI)和基于非AI的去噪技术一起工作。已经从分布式渲染操作跨节点分布图像的区域，或者从单个帧缓冲区分割和分布图像的区域。在需要时从相邻节点收集对于计算充分去噪所需要的相邻区域的重影区域，并且将最终所得到的贴片组成最终图像。

分布式处理

图20图示了本发明的一个示例，其中多个节点2021-2023执行渲染。尽管为了简单起见只图示了三个节点，但本发明的根本原理不限于任何特定数量的节点。实际上，单个节点可以被用来实现本发明的某些实施例。

节点2021-2023各自渲染图像的一部分，产生此示例中的区域2011-2013。尽管在图20中示出了矩形区域2011-2013，但可以使用任何形状的区域，并且任何装置能够处理任何数量的区域。节点执行充分平滑去噪操作所需要的区域被称为重影区域2001-2003。换而言之，重影区域2001-2003表示以指定的质量水平执行去噪所要求的全部数据。降低质量水平使所要求的重影区域的大小减少并且因此使所要求的数据量减少，并且提升质量水平使所要求的重影区域和对应数据增加。

在一个实施例中，如果诸如节点2021的节点确实具有以指定质量水平使它的区域2011去噪所要求的重影区域2001的一部分的本地副本，则节点将从一个或多个“邻近”节点取回所要求的数据，所述“邻近”节点诸如拥有如所图示的重影区域2001的一部分的节点2022。类似地，如果节点2022确实具有以指定质量水平使它的区域2012去噪所要求的重影区域2002的一部分的本地副本，则节点2022将从节点2021取回要求的重影区域数据2032。可以通过总线、互连、高速存储器组构、网络(例如，高速以太网)，或者可以甚至是能在多个核之间分布渲染工作(例如，用于以极端分辨率或时变来渲染大的图像)的多核芯片中的片上互连来执行取回。在一个实施例中，每个节点2021-2023包括在图形处理器内的单独执行单元或执行单元的指定集合。

要发送的特定量的数据取决于在使用的去噪技术。此外，来自重影区域的数据可以包含改进每个相应区域的去噪所需要的任何数据。在一个实施例中，例如，重影区域数据包含图像颜色/波长、强度/阿尔法数据和/或法线。然而，本发明的根本原理不限于重影区域数据的任何特定集合。

一个实施例的另外细节

对于较慢网络或互连，能够使用现有通用无损或有损压缩来利用该数据的压缩。示例包含但不限于zlib、gzip和Lempel-Ziv-Markov链算法(LZMA)。通过注意到帧之间的光线命中信息的增量(delta)能够非常稀疏，可以使用进一步的内容特定压缩，并且在节点已经具有来自先前帧的收集的增量时只需要发送对该增量有贡献的样本。这些可被选择性地推送到收集那些样本的节点i，或者节点i能够请求来自其他节点的样本。在一个实施例中，无损压缩被用于某些类型的数据和程序代码，而有损数据被用于其他类型的数据。

图21图示了根据本发明的一个实施例的节点2021-2022之间的交互的另外细节。每个节点2021-2022包含用于渲染相应图像区域2011-2012和重影区域2001-2002的光线追踪渲染电路2081-2082。去噪器2100-2111分别对每个节点2021-2022负责渲染和去噪的区域2011-2012执行去噪操作。去噪器2021-2022例如可以包括电路、软件或其任何组合，以分别生成经去噪的区域2121-2122。如所提及的，在生成经去噪的区域时，去噪器2021-2022可需要依赖由不同节点拥有的重影区域内的数据(例如，去噪器2100可需要来自由节点2022拥有的重影区域2002的数据)。

因此，在一个实施例中，去噪器2100-2111分别使用来自区域2011-2012和重影区域2001-2002的数据来生成经去噪的区域2121-2122，该数据的至少一部分可以是从另一个节点接收的。如本文中所述，区域数据管理器2101-2102管理来自重影区域2001-2002的数据传送。在一个实施例中，压缩器/解压缩器单元2131-2132分别执行在节点2021-2022之间交换的重影区域数据的压缩和解压缩。

例如，节点2021的区域数据管理器2101可以在有来自节点2022的请求时将数据从重影区域2001发送到压缩器/解压缩器2131，该压缩器/解压缩器2131压缩数据以生成它传送到节点2022的压缩的数据2106，由此减少通过互连、网络、总线或其他数据通信链路的带宽。节点2022的压缩器/解压缩器2132然后将压缩的数据2106解压缩并且去噪器2111使用解压缩的重影数据来生成与仅用来自区域2012的数据将可能的质量相比更高质量的经去噪的区域2122。区域数据管理器2102可以将来自重影区域2001的解压缩的数据存储在高速缓存、存储器、寄存器堆或其他存储设备中以在生成经去噪的区域2122时使其可用于去噪器2111。可以执行操作的类似集合来将数据从重影区域2002提供至节点2021上的去噪器2100，该去噪器2100使用该数据与来自区域2011的数据组合以生成更高质量的经去噪的区域2121。

抓取数据或渲染

如果在诸如节点2021-2022的装置之间的连接是慢的(即，低于阈值时延和/或阈值带宽)，则可以更快的是在本地渲染重影区域而不是请求来自其他装置的结果。这能够通过跟踪用于重影区域大小的网络事务速度和线性外推的渲染时间来在运行时间被确定。在渲染出整个重影区域更快的此类情况下，多个装置可最终渲染图像的相同部分。重影区域的经渲染的部分的分辨率可以基于基本区域的方差和所确定的模糊程度来被调整。

负载平衡

在一个实施例中，静态和/或动态负载平衡方案可以被用来在各种节点2021-2023之间分布处理负载。对于动态负载平衡，由去噪滤波器确定的方差可在去噪中要求更多时间，但驱动用来渲染场景的特定区域的样本量，其中图像的低方差和模糊区域要求较少样本。指派给特定节点的特定区域可以基于来自先前帧的数据而被动态调整或者在装置正在渲染时跨装置被动态传递，使得所有装置将具有相同量的工作。

图22图示了一个实施例，其中在每个相应节点2021-2022上运行的监视器2201-2202收集性能度量数据，所述性能度量数据包含但不限于通过网络接口2211-2212传送数据消耗的时间、在对区域(带有和没有重影区域数据)进行去噪时消耗的时间及渲染每个区域/重影区域消耗的时间。监视器2201-2202将这些性能度量报告回管理器或负载平衡器节点2201，该管理器或负载平衡器节点2201分析数据以标识每个节点2021-2022上的当前工作负载并且潜在地确定处理各种经去噪的区域2121-2122的更高效模式。管理器节点2201然后根据检测到的负载将用于新区域的新工作负载分布到节点2021-2022。例如，管理器节点2201可以向负载不重的那些节点传送更多工作和/或从过载的那些节点重新分配工作。另外，负载平衡器节点2201可以传送重配置命令来调整节点中的每个节点执行渲染和/或去噪所采用的特定方式(其一些示例在上文被描述)。

确定重影区域

在一个实施例中，基于由去噪器2100-2111实现的去噪算法来确定重影区域2001-2002的大小和形状。然后能够基于正在被去噪的样本的检测到的方差来动态修改它们的相应大小。用于AI去噪的学习算法本身可以被用于确定适当的区域大小，或者在诸如双向模糊的其他情况下，预确定的滤波器宽度将确定重影区域2001-2002的大小。在使用学习算法的实现中，机器学习引擎可以在管理器节点2201上被执行和/或机器学习的部分可以在各个节点2021-2023中的每个节点上被执行(参见例如图18A-B和上面的关联文本)。

聚集最终图像

在一个实施例中，通过聚集来自节点2021-2023中的每个节点的经渲染和去噪的区域来生成最终图像而无需重影区域或法线。在图22中，例如，将经去噪的区域2121-2122传送到管理器节点2201的区域处理器2280，所述区域处理器2280组合区域以生成最终去噪图像2290，该最终去噪图像2290然后被显示在显示器2290上。区域处理器2280可以使用各种2D合成技术来组合区域。虽然被图示为单独的组件，但区域处理器2280和去噪图像2290可以与显示器2290一体化。在此实施例中，各种节点2021-2022可以使用直接发送技术来传送经去噪的区域2121-2122并且潜在地使用区域数据的各种有损或无损压缩。

AI去噪仍然是高成本操作并且随着游戏移进云中。这样，可以变得要求将去噪的处理跨多个节点2021-2022分布以便为要求较高帧率的传统游戏或虚拟现实(VR)实现实时帧率。电影工作室还经常在大的渲染场中进行渲染，所述大的渲染场能够被用于更快去噪。

图23中图示了用于执行分布式渲染和去噪的方法的一个实施例。方法可以在上述系统架构的上下文内被实现，但不限于任何特定系统架构。

在2301，向执行光线追踪操作以渲染图像帧的区域的多个节点分派图形工作。在一个实施例中，每个节点可以已经在存储器中具有执行操作所要求的数据。例如，节点中的两个或更多节点可以共享公共存储器，或者节点的本地存储器可以已经存储了来自之前光线追踪操作的数据。备选地或者另外，某些数据可被传送到每个节点。

在2302，确定对于指定去噪水平(即，以可接受的性能水平)所要求的“重影区域”。重影区域包括执行指定去噪水平所要求的任何数据，包含由一个或多个其他节点拥有的数据。

在2303，在节点之间交换与重影区域(或其部分)有关的数据。在2304，每个节点对其相应区域执行去噪(例如，使用交换的数据)，并且在2305，结果被组合以生成最终去噪图像帧。

在一个实施例中，诸如图22中所示出的管理器节点或主节点将工作分派到节点，并且然后组合由节点执行的工作以生成最终图像帧。在另一实施例中，使用了基于对等体的架构(peer-based architecture)，其中节点是交换数据以对最终图像帧进行渲染和去噪的对等体。

本文中描述的节点(例如，节点2021-2023)可以是经由高速网络互连的图形处理计算系统。备选地，节点可以是耦合到高速存储器组构的各个处理元件。在此实施例中，所有节点可以共享公共虚拟存储器空间和/或公共物理存储器。在另一实施例中，节点可以是CPU和GPU的组合。例如，上述管理器节点2201可以是CPU和/或在CPU上执行的软件，并且节点2021-2022可以是GPU和/或在GPU上执行的软件。可以使用各种不同类型的节点，同时仍遵从本发明的根本原理。

示例神经网络实现

有许多类型的神经网络；简单类型的神经网络是前馈网络。前馈网络可以被实现为其中按层布置节点的非循环图。典型地，前馈网络拓扑包含被至少一个隐含层分开的输入层和输出层。隐含层将由输入层接收的输入变换为对在输出层中生成输出有用的表示。网络节点经由到邻近层中的节点的边被完全连接，但在每个层内的节点之间没有边。在前馈网络的输入层的节点处接收的数据经由激活函数被传播(即，“前馈”)到输出层的节点，该激活函数基于系数(“权重”)来计算网络中每个连续层的节点的状态，所述系数(“权重”)分别与将层连接的边中的每个边关联。取决于由在执行的算法表示的特定模型，来自神经网络算法的输出能够采取各种形式。

在机器学习算法能够被用来对特定问题建模前，使用训练数据集来训练算法。训练神经网络牵涉到选择网络拓扑、使用代表在由网络建模的问题的训练数据的集合以及调整权重直至网络模型对于训练数据集的所有实例以最小误差执行。例如，在用于神经网络的受监督学习训练过程期间，比较由网络响应于代表训练数据集中的实例的输入而产生的输出和用于该实例的“正确的”标注的输出，计算代表输出与标注的输出之间的差的误差信号，并且在通过网络的层来向后传播误差信号时调整与连接关联的权重以使该误差最小化。在从训练数据集的实例生成的输出中的每个输出的误差被最小化时，网络被认为是“经训练的”。

机器学习算法的准确度能够受到用于训练算法的数据集的质量的显著影响。训练过程能够是计算密集的，并且可在常规通用处理器上要求大量的时间。因此，并行处理硬件被用来训练许多类型的机器学习算法。这对于优化神经网络的训练特别有用，因为在调整神经网络中的系数中所执行的计算自然适用于并行实现。具体地说，许多机器学习算法和软件应用已适应于利用通用图形处理装置内的并行处理硬件。

图24是机器学习软件栈2400的通用图。机器学习应用2402能够被配置成使用训练数据集来训练神经网络或者使用经训练的深度神经网络来实现机器智能。机器学习应用2402能够包含用于神经网络的训练和推理功能性和/或能够被用来在部署前训练神经网络的专用软件。机器学习应用2402能够实现任何类型的机器智能，包含但不限于图像识别、映射和定位、自主导航、语音合成、医学成像或语言翻译。

经由机器学习框架2404能够使得能够实现用于机器学习应用2402的硬件加速。机器学习框架2404能够提供机器学习基元(machine learning primitive)的库。机器学习图元是由机器学习算法通常执行的基本操作。在没有机器学习框架2404的情况下，将要求机器学习算法的开发人员创建和优化与机器学习算法关联的主要计算逻辑，然后在开发新的并行处理器时重新优化计算逻辑。相反，机器学习应用能够被配置成使用由机器学习框架2404提供的基元来执行必要的计算。示例性图元包含张量卷积、激活函数和池化，它们是在训练卷积神经网络(CNN)时执行的计算操作。机器学习框架2404还能够提供基元以实现由许多机器学习算法执行的基本线性代数子程序，诸如矩阵和向量运算。

机器学习框架2404能够处理从机器学习应用2402接收的输入数据并且生成到计算框架2406的适当输入。计算框架2406能够抽象出提供至GPGPU驱动器2408的底层指令以使得机器学习框架2404能够利用经由GPGPU硬件2410的硬件加速而不要求机器学习框架2404具有GPGPU硬件2410的架构的密切知识。另外，计算框架2406能够跨各种类型和世代的GPGPU硬件2410来实现机器学习框架2404的硬件加速。

GPGPU机器学习加速

图25图示了根据实施例的多GPU计算系统2500。多GPU计算系统2500能够包含经由主机接口交换机2504耦合到多个GPGPU2506A-D的处理器2502。在一个实施例中，主机接口交换机2504是PCI express交换机装置，其将处理器2502耦合到PCI express总线，处理器2502能够通过该PCI express总线与GPGPU 2506A-D的集合进行通信。多个GPGPU 2506A-D中的每个GPGPU能够是上面描述的GPGPU的实例。GPGPU 2506A-D能够经由一组高速点到点GPU到GPU链路2516互连。高速GPU到GPU链路能够经由专用GPU链路连接到GPGPU2506A-D中的每个GPGPU。P2P GPU链路2516使得能够在GPGPU2506A-D中的每个GPGPU之间实现直接通信而不要求通过处理器2502所连接到的主机接口总线进行通信。在GPU到GPU业务被引导到P2P GPU链路的情况下，主机接口总线保持可用于系统存储器访问或者例如经由一个或多个网络装置与多GPU计算系统2500的其他实例进行通信。尽管在图示的实施例中GPGPU2506A-D经由主机接口交换机2504连接到处理器2502，但在一个实施例中，处理器2502包含对P2P GPU链路2516的直接支持并且能够直接连接到GPGPU 2506A-D。

机器学习神经网络实现

由本文中描述的实施例提供的计算架构能够被配置成执行特别适合于训练和部署用于机器学习的神经网络的那些类型的并行处理。神经网络能够被概括为具有图表关系的函数的网络。如本领域中所公知的，存在在机器学习中使用的各种类型的神经网络实现。一个示例性类型的神经网络是如前面所描述的前馈网络。

第二个示例性类型的神经网络是卷积神经网络(CNN)。CNN是用于处理具有已知的栅格状拓扑的数据(诸如图像数据)的专门的前馈神经网络。因此，CNN通常被用于计算视觉和图像识别应用，但它们也可以被用于其他类型的模式识别，诸如语音和语言处理。CNN输入层中的节点被组织为一组“滤波器”(受在视网膜中发现的感受域启发的特征检测器)，并且每组滤波器的输出被传播到网络的连续层中的节点。对于CNN的计算包含对每个滤波器应用卷积数学运算来产生该滤波器的输出。卷积是由两个函数执行以产生第三函数的一种专门类型的数学运算，该第三函数是两个原始函数之一的修改版本。在卷积网络术语中，到卷积的第一函数能够被称为输入，而第二函数能够被称为卷积内核。输出可以被称为特征图。例如，到卷积层的输入能够是定义输入图像的各种颜色分量的数据的多维阵列。卷积内核能够是参数的多维阵列，其中通过用于神经网络的训练过程来适配这些参数。

循环神经网络(RNN)是包含层之间的反馈连接的一系列前馈神经网络。RNN通过跨神经网络的不同部分来共享参数数据而使得能够实现序列数据的建模。用于RNN的架构包含循环。循环代表变量的当前值在未来时间对它自身的值的影响，因为来自RNN的输出数据的至少一部分被用作反馈以便处理序列中的后续输入。由于其中能够构成语言数据的可变性质，该特征使得RNN对于语言处理特别有用。

下文描述的图呈现了示例性前馈、CNN和RNN网络，以及描述用于分别训练和部署那些类型的网络中的每个的一般过程。将理解的是，这些描述对于本文描述的任何特定实施例是示例性和非限制性的，并且所说明的概念一般大体上可应用于深度神经网络和机器学习技术。

上面描述的示例性神经网络能够被用于执行深度学习。深度学习是使用深度神经网络的机器学习。在深度学习中使用的深度神经网络是由多个隐含层构成的人工神经网络，这与只包括单个隐含层的浅层神经网络相反。更深的神经网络一般对于训练在计算上更密集。然而，网络的额外隐含层使得能够实现多步模式识别，所述多步模式识别相对于浅层机器学习技术产生减少的输出误差。

在深度学习中使用的深度神经网络通常包含用来执行特征识别的前端网络，所述前端网络耦合到后端网络，所述后端网络代表能够基于提供给模型的特征表示来执行操作(例如，对象分类、语音识别等)的数学模型。深度学习使得机器学习能够被执行而不要求为模型执行手动设计的(hand crafted)特征工程。相反，深度神经网络能够基于输入数据内的统计结构或相关性来学习特征。所学习的特征能够被提供至数学模型，所述数学模型能够将检测到的特征映射到输出。由网络使用的数学模型一般专门针对要执行的特定任务，并且不同的模型将被用来执行不同任务。

一旦神经网络被结构化，学习模型便能够被应用到网络以训练网络来执行特定任务。学习模型描述了如何调整模型内的权重来减少网络的输出误差。误差的向后传播是用来训练神经网络的常见方法。输入向量被呈现给网络以用于处理。使用损失函数将网络的输出与期望输出相比较并且为输出层中的神经元中的每个神经元计算误差值。这些误差值然后被向后传播直至每个神经元具有关联的误差值，该关联的误差值大致表示该神经元对原始输出的贡献。网络然后能够使用算法(诸如随机梯度下降算法)从那些误差中学习，以更新神经网络的权重。

图26-27图示了示例性卷积神经网络。图26图示了CNN内的各种层。如图26中所示出的，用来为图像处理建模的示例性CNN能够接收描述输入图像的红、绿和蓝(RGB)分量的输入2602。输入2602能够由多个卷积层(例如，卷积层2604、卷积层2606)处理。来自多个卷积层的输出可以可选地由一组完全连接层2608处理。完全连接层中的神经元具有到前面层中的所有激活的完全连接，如前面对于前馈网络所描述的。来自完全连接层2608的输出能够被用来从网络生成输出结果。能够使用矩阵乘法而不是卷积来计算完全连接层2608内的激活。并非所有CNN实现都利用完全连接层。例如，在一些实现中，卷积层2606能够生成CNN的输出。

卷积层被稀疏连接，这与在完全连接层2608中发现的传统神经网络配置不同。传统神经网络层被完全连接，使得每个输出单元与每个输入单元交互。然而，如所图示的，卷积层被稀疏连接，由于域的卷积的输出(而不是域中的节点中的每个节点的相应状态值)被输入到后续层的节点。与卷积层关联的内核执行卷积运算，其输出被发送至下一个层。在卷积层内执行的维度降低是使得CNN能够进行缩放以处理大的图像的一个方面。

图27图示了在CNN的卷积层内的示例性计算级。到CNN的卷积层的输入2712能够在卷积层2714的三个级中被处理。这三个级能够包含卷积级2716、检测器级2718和池化级2720。卷积层2714然后能够向连续卷积层输出数据。网络的最后的卷积层能够生成输出特征图数据或者提供输入到完全连接层，例如以生成对于到CNN的输入的分类值。

在卷积级2716中与产生线性激活的集合并行地执行若干卷积。卷积级2716能够包括仿射变换(affine transformation)，所述仿射变换是能够被指定为线性变换加上平移(translation)的任何变换。仿射变换包含旋转、平移、缩放和这些变换的组合。卷积级计算连接到输入中的特定区域的函数(例如，神经元)的输出，该特定区域能够被确定为与神经元关联的局部区域。神经元计算神经元的权重与神经元被连接到的局部输入中的区域之间的点积。来自卷积级2716的输出定义了由卷积层2714的连续级处理的线性激活的集合。

线性激活能够由检测器级2718处理。在检测器级2718中，每个线性激活由非线性激活函数处理。该非线性激活函数增加了整体网络的非线性性质而不影响卷积层的感受域。可以使用若干类型的非线性激活。一个特定类型是修正线性单元(ReLU)，其使用定义为f(x)＝max(0，x)的激活函数，使得激活的阈值在零处。

池化级2720使用池化函数，所述池化函数将卷积层2706的输出替换为附近输出的汇总统计。池化函数能够被用来将平移不变性引入神经网络中，使得对输入的小的平移不会更改池化的输出。在其中输入数据中特征的存在比特征的精确位置更重要的情形中，局部平移的不变性能够是有用的。在池化级2720期间能够使用各种类型的池化函数，包括最大池化、平均池化和l2范数池化。另外，一些CNN实现不包含池化级。此类实现而是替代为相对于先前的卷积级具有增加步长(stride)的额外卷积级。

来自卷积层2714的输出然后能够由下一层2722处理。下一层2722能够是另外卷积层或完全连接层2708中的一个完全连接层。例如，图27的第一卷积层2704能够向第二卷积层2706输出，而第二卷积层能够向完全连接层2808的第一层输出。

图28图示了示例性循环神经网络2800。在循环神经网络(RNN)中，网络的先前状态影响网络的当前状态的输出。能够使用各种函数以各种方式来构建RNN。RNN的使用一般涉及围绕着使用数学模型以基于输入的之前的序列来预测未来。例如，RNN可以被用来执行统计语言建模以在给定单词的先前序列的情况下预测即将出现的单词。所图示的RNN 2800能够被描述为具有接收输入向量的输入层2802、实现循环功能的隐含层2804、实现先前状态的“记忆”的反馈机制2805和用来输出结果的输出层2806。RNN 2800基于时间步骤进行操作。RNN在给定时间步骤的状态经由反馈机制2805基于先前的时间步骤而受影响。对于给定时间步骤，隐含层2804的状态由先前的状态和在当前时间步骤的输入定义。在第一时间步骤的初始输入(x1)能够由隐含层2804处理。第二输入(x2)能够由隐含层2804使用在初始输入(x1)的处理期间确定的状态信息来进行处理。给定状态能够被计算为s_t＝f(Ux_t+Ws_(t-1))，其中U和W是参数矩阵。函数f一般是非线性的，诸如双曲正切函数(Tanh)或修正函数f(x)＝max(0，x)的变体。然而，在隐含层2804中使用的特定数学函数能够取决于RNN2800的特定实现细节而变化。

除描述的基本CNN和RNN网络之外，还可以实现关于那些网络的变体。一个示例RNN变体是长短期记忆(LSTM)RNN。LSTM RNN能学习长期依赖性，所述长期依赖性可以对于处理语言的较长序列是必需的。关于CNN的变体是卷积深度信念网络，其具有与CNN类似的结构并且采用与深度信念网络类似的方式来被训练。深度信念网络(DBN)是生成式神经网络，其由多层概率性(随机)变量构成。能够使用贪婪无监督学习来逐层训练DBN。DBN的所学习的权重然后能够被用来通过确定用于神经网络的最佳初始权重集合而提供预训练神经网络。

图29图示了深度神经网络的训练和部署。一旦已经针对任务将给定网络结构化，便使用训练数据集2902来训练神经网络。已开发各种训练框架2904以使得能够实现训练过程的硬件加速。例如，上述机器学习框架可以被配置为训练框架。训练框架2904能够挂接到未经训练的神经网络2906中并且使得该未经训练的神经网络能够使用本文中描述的并行处理资源被训练以生成经训练的神经网络2908。

为开始训练过程，可以随机地或通过使用深度信念网络的预训练来选择初始权重。然后采用受监督或无监督方式执行训练循环。

受监督学习是其中训练作为中介式操作(mediated operation)被执行的学习方法，诸如在训练数据集2902包含与对于输入的期望输出配对的输入时，或者在训练数据集包含具有已知输出的输入和神经网络的输出被人工分级的情况下。网络处理输入并且将所得到的输出与一组预期或期望输出进行比较。误差然后通过系统被向后传播。训练框架2904能够进行调整以调整控制未经训练的神经网络2906的权重。训练框架2904能够提供工具以监测未经训练的神经网络2906在多大程度上朝向适合基于已知输入数据来生成正确应答的模型收敛。随着调整网络的权重以改善由神经网络生成的输出，训练过程反复进行。训练过程能够持续直至神经网络达到与经训练的神经网络2908关联的统计上期望的准确度。然后能够部署经训练的神经网络2908以实现任何数量的机器学习操作。

无监督学习是其中网络尝试使用未标注数据来训练自身的学习方法。因此，对于无监督学习，训练数据集2902将包含输入数据而无任何关联的输出数据。未经训练的神经网络2906能够学习未标注输入内的分组并且能够确定各个输入如何与整体数据集相关。无监督训练能够被用来生成自组织图，所述自组织图是能执行在减少数据的维度中有用的操作的经训练的神经网络2907的类型。无监督训练还能够被用来执行异常检测，所述异常检测允许标识输入数据集中偏离数据的正常模式的数据点。

还可以采用关于受监督和无监督训练的变体。半监督学习是其中训练数据集2902包含相同分布的标注和未标注数据的混合的技术。增量学习(incremental learning)是受监督学习的变体，其中输入数据被连续地用来进一步训练模型。增量学习使得经训练的神经网络2908能够适应于新的数据2912而不会忘记初始训练期间在网络内灌输的知识。

无论是受监督的还是无监督的，特别针对深度神经网络的训练过程对于单个计算节点来说可能是过于计算密集的。代替使用单个计算节点，计算节点的分布式网络能够被用来加速训练过程。

图30A是图示分布式学习的框图。分布式学习是使用诸如上述节点的多个分布式计算节点来执行神经网络的受监督或无监督训练的训练模型。分布式计算节点各自能够包含一个或多个主机处理器和通用处理节点中的一个或多个通用处理节点，诸如高度并行通用图形处理单元。如所图示的，分布式学习能够是所执行的模型并行3002、数据并行3004或模型和数据并行的组合。

在模型并行3002中，分布式系统中的不同计算节点能够为单个网络的不同部分执行训练计算。例如，神经网络的每个层能够由分布式系统的不同处理节点训练。模型并行的益处包含扩展到特别大的模型的能力。分割与神经网络的不同层关联的计算使得能够实现非常大的神经网络的训练，在所述非常大的神经网络中所有层的权重将不适合单个计算节点的存储器。在一些实例中，模型并行可以在执行大的神经网络的无监督训练中特别有用。

在数据并行3004中，分布式网络的不同节点具有模型的完整实例并且每个节点接收数据的不同部分。来自不同节点的结果然后被组合。尽管对于数据并行的不同方法是可能的，但数据并行训练方法全部要求在每个节点之间同步模型参数和组合结果的技术。对组合数据的示例性方法包含参数平均化和基于更新的数据并行。参数平均化在训练数据的子集上训练每个节点并且将全局参数(例如，权重、偏向)设置成来自每个节点的参数的平均。参数平均化使用维持参数数据的中央参数服务器。基于更新的数据并行类似于参数平均化，除了不是将来自节点的参数传送到参数服务器，而是传送对模型的更新。另外，能够以分散的方式执行基于更新的数据并行，其中更新被压缩并且在节点之间传送。

组合的模型和数据并行3006能够例如在分布式系统中被实现，在所述分布式系统中每个计算节点包含多个GPU。每个节点能够具有模型的完整实例，其中每个节点内的单独GPU被用来训练模型的不同部分。

分布式训练相对于在单个机器上的训练具有增加的开销。然而，本文中描述的并行处理器和GPGPU各自能够实现用来减少分布式训练的开销的各种技术，包含用来实现高带宽GPU到GPU数据传送和加速的远程数据同步的技术。

示例性机器学习应用

机器学习能够被应用来解决多种技术问题，包含但不限于计算机视觉、自主驾驶和导航、语音识别以及语言处理。计算机视觉传统上一直是机器学习应用的最活跃研究领域之一。计算机视觉的应用范围从再现人类视觉能力(诸如识别面部)到创建新类别的视觉能力。例如，计算机视觉应用能够被配置成识别来自视频中可见的对象中引发的振动的声波。并行处理器加速的机器学习使得能够使用比先前可行的明显更大的训练数据集来训练计算机视觉应用并且使得能够使用低功率并行处理器来部署推理系统。

并行处理器加速的机器学习具有自主驾驶应用，包含车道和道路标志识别、障碍回避、导航和驾驶控制。加速的机器学习技术能够被用来基于定义对特定训练输入的适当响应的数据集来训练驾驶模型。本文中描述的并行处理器能够使得用于自主驾驶解决方案的日益复杂的神经网络的快速训练能够实现，并且使得能够实现在适合用于集成到自主运载工具中的移动平台中低功率推理处理器的部署。

并行处理器加速的深度神经网络已使得能够实现对自动语音识别(ASR)的机器学习方法。ASR包含函数的创建，所述函数在给定输入声音序列的情况下计算最可能语言序列。使用深度神经网络的加速的机器学习已使得能够实现对之前用于ASR的隐马尔可夫模型(HMM)和高斯混合模型(GMM)的替换。

并行处理器加速的机器学习还能够被用来加速自然语言处理。自动学习过程能够利用统计推理算法来产生对错误或不熟悉输入具有鲁棒性的模型。示例性自然语言处理器应用包含在人类语言之间的自动机器翻译。

用于机器学习的并行处理平台能够被分成训练平台和部署平台。训练平台一般是高度并行的并且包含用来加速多GPU单节点训练和多节点多GPU训练的优化。适合于训练的示例性并行处理器包含本文中描述的高度并行通用图形处理单元和/或多GPU计算系统。与此相反，部署的机器学习平台一般包含适合于供诸如相机、自主机器人和自主运载工具之类的产品中使用的较低功率并行处理器。

图30B图示了适合用于使用经训练的模型来执行推理的示例性推理片上系统(SOC)3100。SOC 3100能够集成处理组件，包含媒体处理器3102、视觉处理器3104、GPGPU3106和多核处理器3108。SOC3100能够另外包含片上存储器3105，所述片上存储器3105能够实现处理组件中的每个处理组件可访问的共享片上数据池。处理组件能够被优化以用于低功率操作来使得能够实现到各种机器学习平台的部署，所述各种机器学习平台包含自主运载工具和自主机器人。例如，SOC 3100的一个实现能够被用作用于自主运载工具的主控制系统的一部分。在SOC3100被配置供在自主运载工具中使用的情况下，SOC被设计且配置用于遵从部署管辖区域的相关功能安全标准。

在操作期间，媒体处理器3102和视觉处理器3104能够协同工作以加速计算机视觉操作。媒体处理器3102能够实现多个高分辨率(例如，4K、8K)视频流的低时延解码。解码的视频流能够被写入到片上存储器3105中的缓冲区。视觉处理器3104然后能够解析解码的视频并且使用经训练的图像识别模型在处理帧的准备中对解码的视频的帧执行初步处理操作。例如，视觉处理器3104能够为用来对高分辨率视频数据执行图像识别的CNN加速卷积运算，而后端模型计算由GPGPU 3106执行。

多核处理器3108能够包含控制逻辑以协助由媒体处理器3102和视觉处理器3104执行的数据传送和共享存储器操作的定序和同步。多核处理器3108还能够充当应用处理器以执行能够利用GPGPU 3106的推理计算能力的软件应用。例如，导航和驾驶逻辑的至少一部分能够在多核处理器3108上执行的软件中被实现。此类软件能够直接向GPGPU3106发布计算工作负载或者计算工作负载能够被发布到多核处理器3108，所述多核处理器3108能够向GPGPU 1306卸载那些操作的至少一部分。

GPGPU 3106能够包含计算集群，诸如高度并行通用图形处理单元DPLAB00内的计算集群DPLAB06A-DPLAB06H的低功率配置。GPGPU 3106内的计算集群能够支持被专门优化以在经训练的神经网络上执行推理计算的指令。例如，GPGPU 3106能够支持用来执行诸如8位和4位整数向量运算之类的低精度计算的指令。

示例光线追踪架构

在一个实现中，图形处理器包含用于执行实时光线追踪的电路和/或程序代码。在一些实施例中，在图形处理器中包含专用的光线追踪核的集合以执行本文中描述的各种光线追踪操作，包含光线遍历和/或光线交叉操作。除光线追踪核外，一个实施例还包含用于执行可编程着色操作的图形处理核的多个集合和用于对张量数据执行矩阵运算的张量核的多个集合。

图31图示了一个此类图形处理单元(GPU)3105的示例性部分，该图形处理单元(GPU)3105包含被布置到多核群组3100A-N中的专用的图形处理资源的集合。尽管提供了仅单个多核群组3100A的细节，但将领会的是，其他多核群组3100B-N可以被配备有相同或类似的图形处理资源的集合。

如所图示的，多核群组3100A可以包含图形核3130的集合、张量核3140的集合和光线追踪核3150的集合。调度器/分派器3110调度和分派图形线程以便在各种核3130、3140、3150上执行。寄存器堆3120的集合存储由核3130、3140、3150在执行图形线程时使用的操作数值。这些寄存器可以包含例如用于存储整数值的整数寄存器、用于存储浮点值的浮点寄存器、用于存储打包数据元素(整数和/或浮点数据元素)的向量寄存器及用于存储张量/矩阵值的贴片寄存器。在一个实施例中，贴片寄存器被实现为向量寄存器的组合集合。

一个或多个1级(L1)高速缓存和纹理单元3160在每个多核群组3100A内本地存储图形数据，诸如纹理数据、顶点数据、像素数据、光线数据、包围体数据等。由所有多核群组3100A-N或其子集共享的2级(L2)高速缓存3180存储用于多个并发图形线程的图形数据和/或指令。如所图示的，L2高速缓存3180可以跨多个多核群组3100A-N被共享。一个或多个存储器控制器3170将GPU 3105耦合到存储器3198，所述存储器3198可以是系统存储器(例如，DRAM)和/或专用图形存储器(例如，GDDR6存储器)。

输入/输出(IO)电路3195将GPU 3105耦合到一个或多个IO装置3195，诸如数字信号处理器(DSP)、网络控制器或用户输入装置。芯片上互连可以被用来将I/O装置3190耦合到GPU 3105和存储器3198。IO电路3195的一个或多个IO存储器管理单元(IOMMU)3170将IO装置3190直接耦合到系统存储器3198。在一个实施例中，IOMMU3170管理页表的多个集合以将虚拟地址映射到系统存储器3198中的物理地址。在此实施例中，IO装置3190、(一个或多个)CPU 3199和(一个或多个)GPU 3105可以共享相同虚拟地址空间。

在一个实现中，IOMMU 3170支持虚拟化。在此情况下，它可以管理页表的第一集合以将客户机/图形虚拟地址映射到客户机/图形物理地址，并且管理第二组页表以将客户机/图形物理地址映射到系统/主机物理地址(例如，在系统存储器3198内)。页表的第一和第二集合中的每个的基址可被存储在控制寄存器中并且在上下文切换时被换出(例如，使得为新上下文提供对页表的相关集合的访问)。尽管在图31中未被图示，但核3130、3140、3150和/或多核群组3100A-N中的每个可以包含转换后备缓冲区(TLB)以对客户机虚拟到客户机物理转换、客户机物理到主机物理转换以及客户机虚拟到主机物理转换进行高速缓存。

在一个实施例中，CPU 3199、GPU 3105和IO装置3190被集成在单个半导体芯片和/或芯片封装上。图示的存储器3198可以被集成在相同芯片上，或者可以经由芯片外接口被耦合到存储器控制器3170。在一个实现中，存储器3198包括GDDR6存储器，所述GDDR6存储器与其他物理系统级存储器共享相同虚拟地址空间，虽然本发明的根本原理不限于此特定实现。

在一个实施例中，张量核3140包含特别设计成执行矩阵运算的多个执行单元，所述矩阵运算是用来执行深度学习操作的基本计算操作。例如，同时矩阵乘法运算可以被用于神经网络训练和推理。张量核3140可以使用各种操作数精度来执行矩阵处理，所述各种操作数精度包含单精度浮点(例如，32位)、半精度浮点(例如，16位)、整数字(16位)、字节(8位)和半字节(4位)。在一个实施例中，神经网络实现提取每个经渲染的场景的特征，潜在地组合来自多个帧的细节以构造高质量的最终图像。

在深度学习实现中，可以调度并行矩阵乘法工作以供在张量核3140上执行。神经网络的训练特别要求大量矩阵点积运算。为处理N x N x N矩阵相乘的内积公式，张量核3140可以包含至少N个点积处理元件。在矩阵相乘开始前，一个完整矩阵被加载到贴片寄存器，并且对于N个循环的每个循环，第二矩阵的至少一列被加载。在每个循环，存在被处理的N个点积。

取决于特定实现，可以以不同精度存储矩阵元素，包含16位字、8位字节(例如，INT8)和4位半字节(例如，INT4)。可以为张量核3140指定不同精度模式以确保最高效的精度被用于不同工作负载(例如，诸如能够容忍量化到字节和半字节的推理工作负载)。

在一个实施例中，光线追踪核3150对于实时光线追踪和非实时光线追踪实现二者均加速光线追踪操作。特别地，光线追踪核3150包含光线遍历/交叉电路，所述光线遍历/交叉电路用于使用包围体层次(BVH)来执行光线遍历并且标识封围在BVH体之内的图元与光线之间的交叉。光线追踪核3150还可以包含用于执行深度测试和拣出(例如，使用Z缓冲区或类似布置)的电路。在一个实现中，光线追踪核3150与本文中描述的图像去噪技术配合执行遍历和交叉操作，其至少一部分可以在张量核3140上被执行。例如，在一个实施例中，张量核3140实现深度学习神经网络以执行由光线追踪核3150生成的帧的去噪。然而，(一个或多个)CPU 3199、图形核3130和/或光线追踪核3150还可以实现去噪和/或深度学习算法的全部或一部分。

另外，如上所述，可以采用去噪的分布式方法，在其中GPU3105在通过网络或高速互连耦合到其他计算装置的计算装置中。在该实施例中，互连的计算装置共享神经网络学习/训练数据来改进整个系统学习对不同类型的图像帧和/或不同的图形应用执行去噪所用的速度。

在一个实施例中，光线追踪核3150处理所有BVH遍历和光线-图元交叉，从而避免以每光线的数千个指令使图形核3130过载。在一个实施例中，每个光线追踪核3150包含用于执行包围盒测试(例如，以用于遍历操作)的专用电路的第一集合和用于执行光线-三角形交叉测试(例如，交叉已被遍历的光线)的专用电路的第二集合。因此，在一个实施例中，多核群组3100A能够仅仅启动光线探头，并且光线追踪核3150独立执行光线遍历和交叉以及将命中数据(例如，命中、无命中、多个命中等)返回到线程上下文。在光线追踪核3150执行遍历和交叉操作的同时，其他核3130、3140被释放以执行其他图形或计算工作。

在一个实施例中，每个光线追踪核3150包含用来执行BVH测试操作的遍历单元和执行光线-图元交叉测试的交叉单元。交叉单元生成“命中”、“无命中”或“多个命中”响应，并且交叉单元将该响应提供到适当的线程。在遍历和交叉操作期间，其他核(例如，图形核3130和张量核3140)的执行资源被释放以执行其他形式的图形工作。

在下面描述的一个特定实施例中，使用了混合光栅化/光线追踪方法，其中在图形核3130与光线追踪核3150之间分布工作。

在一个实施例中，光线追踪核3150(和/或其他核3130、3140)包含对诸如Microsoft的DirectX光线追踪(DXR)的光线追踪指令集的硬件支持，所述DRX包含DispatchRays命令以及光线生成、最接近命中、任意命中和未命中着色器，这些使得能够对每个对象指派纹理和着色器的独特集合。由光线追踪核3150、图形核3130和张量核3140可以支持的另一光线追踪平台是Vulkan 1.1.85。然而，注意本发明的根本原理不限于任何特定光线追踪ISA。

一般而言，各种核3150、3140、3130可以支持光线追踪指令集，所述光线追踪指令集包含用于光线生成、最接近命中、任何命中、光线-图元交叉、每图元和层次包围盒构造、未命中、访问及异常的指令/功能。更具体地说，一个实施例包含光线追踪指令以执行以下功能：

最接近命中–可以执行最接近命中指令来用场景内的图元定位光线的最接近交叉点。

交叉-交叉指令执行光线-图元交叉测试并且输出结果。

访问–指示光线将遍历的子体。

降低精度的包围体层次(BVH)构造

本发明的实施例实现带有空间分割和直接增量层次输出(direct incrementalhierarchy output)的降低精度的高质量BVH构造。这些实施例适合于定制固定功能硬件实现，但还可以在诸如GPU的可编程平台的上下文中是有用的。某些实施例在紧凑整数空间内操作，大大降低了硬件实现成本。一个实现密切联系到最近提议的增量BVH格式，并且允许最近提议的增量BVH格式的直接输出以使得能够实现高度动态的复杂场景的快速光线追踪。还公开了利用高速缓存方案和无损压缩来减少存储器和存储带宽的系统。

用于光线追踪的高质量BVH

通常以使用辅助加速数据结构来实现光线追踪的实时性能。光线追踪社区(community)显得已经决定BVH作为大多数情形中选择的加速结构。

包围体层次(BVH)是充当到场景中的空间索引的树数据结构。此空间索引大大加速了光线追踪的核操作：在光线与几何图元之间交叉的发现。BVH以分层次的方式包围几何形状。BVH的每个节点通常存储轴对齐包围盒(AABB)，所述轴对齐包围盒(AABB)表示节点引用的几何形状的子集的空间范围。BVH的根节点存储关注的几何形状的完全空间范围。包含根的每个节点存储对其子节点的引用，所述子节点涵盖场景的越来越小的部分。层次的叶节点存储对能够然后针对光线交叉而被测试的图元的引用。由叶节点引用的三角形的数量不是固定的，并且能够在叶之间不同。

图32A示出BVH层次的一般结构，其包括根节点3200、在根节点下的子节点的第一集合3201A-B以及在子节点的第一集合下的叶节点的集合3202A-D。在叶节点3202A-D中的每个叶节点内示出了图元3203的不同集合。注意，图32A仅仅是一个特定层次的示例。BVH是能够具有许多层级(例如，对于许多现实场景有20个层级)的一般树结构。因此，本发明的根本原理不限于图32A中示出的示例。

图32B图示了父节点3210和其子节点之一3211的2D表示。在此示例中，左偏移值L_x指示沿X轴从父项3210的左侧到子项3211的左侧的距离，并且右偏移值R_x指示沿X轴从父项3210的右侧到子项3211的右侧的距离。沿特定轴(在此示例中的X轴)的这些类型的最小值和最大值经常被用来确定在每个包围盒内含有哪些图元。

能够以任意分支因子形成BVH，但大多数现代实现使用宽在二与八之间的树。BVH被正常构建，使得它们紧密封围它们的底层几何形状。这确保正确的遍历结果和最佳性能。在动态情形中，在可能每帧观察到几何改变的情况下，必须经常更新或重新构建BVH结构。研究社区因此已将相当大的关注投向在保持良好的遍历性能的同时改进BVH构造速度的目标。

为此，近年来已出现了大量各种各样的BVH构造方法。此类方法能够被宽泛地分类为自上而下(top-down)、LBVH式(LBVH-style)、基于精化(refinement-based)、基于集群(clustering-based)和增量(incremental)。与这些方法关联的细节能够在本具体实施方式的最后引用的参考文献列表中找到。在这些构建器(builder)中的许多构建器中常见的因素是它们使用表面面积启发(surface area heuristic，SAH)。SAH能够被用于引导BVH的构造，这是通过提供用来估计在构建BVH时将节点分割成多个子节点的光线追踪成本的客观方式而进行的。

自上而下BVH构造

在最高质量BVH构造算法之中有所谓的“自上而下”BVH构建器。由于本发明的某些实施例使用BVH构造的自上而下方法，因此现在将描述各种自上而下构造技术。

下面阐述的代码序列说明了此类构建器的一般流程。构造以表示整个场景的单个根节点开始。对于构造期间的每个节点，检查终止条件。选择终止条件以控制层次的深度，并且经常基于变量(诸如节点中剩余的图元的数量、树中节点的深度)，或者基于诸如SAH的启发来选择终止条件。如果条件被满足，则节点仅被标记为叶，并且构造以未完成的节点继续。

用于自上而下BVH构造的通用伪代码：

对于未满足终止准则的节点，自上而下构建过程尝试分割节点以形成多个子节点。上面的伪代码假设将产生两个子节点，这是常见配置。分割节点相当于确定将底层几何形状分成两个子集，计算这两个子集的AABB，以及将这些新节点添加为原始节点的子节点。可以作为分割策略的一部分评估若干候选分区。分割成本(通过新创建的节点追踪光线的预测的效率)被用来在候选分割之间进行选择。一旦选择了分割，便相应地将几何形状分区，并且算法用可以以相同方式分割的子节点进行递归。

面元划分的(binned)节点分区

一般地，高质量自上而下BVH构建器遵循如上概述的一般流程。在这些算法如何操作方面的主要不同是通过对于EvaluatePartition()函数(第9行)采用不同算法。最常部署的算法是以最小化分区的SAH成本为目标的那些算法，所述SAH成本由下式给出：

其中P是父节点，L和R是左子节点和右子节点，SA()是表面面积，以及NL和NR是分别指派到左和右子节点的图元的数量。KI和KT是实现定义的常量，它们分别捕捉遍历节点和交叉图元的成本。通常采用以最小化SAH的总体策略是尝试找到节点内的轴对齐分割平面，并且根据此平面分配图元到左和右子节点。通过为多个候选分割平面计算等式1的值，能够找到良好的分区。

然而，为维持合理的构造速度，在搜索候选分割时不可能沿任何给定轴检查大量的平面。因此，常见的是对于分割采用面元划分(binning)近似。沿节点的包围盒的长度均匀地放置少量的平面(通常8-32个)。三角形被“面元划分”到平面之间的区域中，从而允许在面元(bin)的边评估SAH。当采用此策略时，一些自上而下构建器选择节点AABB的最长轴来搜索候选分区，而其他构建器搜索所有三个轴。

对象分割与空间分割的比较

BVH是在划分节点时考虑到两种分割的灵活数据结构。对象分割是将三角形本身分组的分割，并且对象分割独立地计算包围体。任何分组是被允许的，因此常见的是，所得到的子节点的AABB可在一定程度上重叠。这与kd树相反，所述kd树始终需要空间的严格分割。

对象分割的缺点是如果在兄弟节点之间存在许多重叠，则这能够对遍历性能具有不利影响，因为光线将更可能需要访问两个子树。高质量BVH构建器的共同特性是考虑到称为空间分割的第二种分割。类似于kd树，空间分割考虑到将空间严格分割到两个不相交区域中。利用空间分割，如果两个节点将分割平面重叠，则因此在两个节点中引用图元是可能的。然而，这能够对大的三角形非常有益，因为消除了重叠。BVH构建能够在构造期间自由地混合两种类型的分割。图元的空间分割能够预先或在构造本身期间作为对拣出的大的三角形引用的预处理而被执行。

紧凑BVH表示

在典型的光线追踪器中，诸如BVH的数据结构能够消耗渲染过程的总存储器占用(total memory footprint)和工作集的大部分。这对于更大的场景是问题，因为高速缓存和本地缓冲区大小可不足以维持芯片上的场景数据，尤其是对于不相干的光线分布。

通过经常经由量化来降低节点包围平面的存储要求，能够实现BVH的更紧凑表示。另外，利用节点的深度优先排序、隐式索引或小树状聚类(treelet-like clustering)，能够产生子指针的大小减小。

近来，已经出现了多种压缩的BVH格式，其构建在多种上面提及的压缩技术上以降低BVH节点的大小。本发明的一个实施例利用Vaidyanathan等人[29]的格式的稍微修改的版本，现在将提供该版本的概述。本发明的实施例使用的版本几乎是相同的，但由于使用了Vaidyanathan的格式未使用的全局栅格(参见例如图33，元素3302)，而以非常轻微的不同方式来处理。

图32B示出了相对于Vaidyanathan的方案中的父平面(例如，使用偏移值L_x和R_x)，如何编码包围平面。该方案采用整数平面量化、父节点与兄弟节点之间的平面重复使用以及用来降低指针开销的技术。该结构存储成对的节点并且包含以下元素：1)1位叶标志、2)六个NB位平面偏移、3)两个3位父平面重复使用掩码、以及4)到右子对的NP位指针。保证任何BVH节点对与其父项共享至少六个包围平面，并且因此重复使用掩码指示哪个子项共享父项的哪个平面。通过存储六个新平面连同重复使用掩码，能够推断所有十二个平面。平面的此共享在每个节点处沿树向下递增地发生。NB的选择确定包围平面的量化的水平并且因此确定包围盒的紧密度。在量化期间并且再次在遍历期间，为每个轴中的每个节点推断节点指数(对于x轴为2^eX)。该指数本质上是沿给定轴的节点的缩放因子，并且是在该轴中刚好足够大以容纳节点的二的最低次幂。连同父节点范围，该指数允许为量化的平面计算精确的浮点值，并且这样，节点结构对浮点包围盒进行编码。

降低精度的向上而下BVH构建器的实施例

为产生降低精度的自上而下BVH构建器，本发明的一个实施例使用上述一般控制流程。降低精度的实现被用于产生和评估候选平面(上面的代码序列中的第8-14行)和partitionNode的兼容实现(上面的代码序列中的第17行)。在一个实施例中，用于量化图元的框架被用来从完全精度网格(full-precision mesh)起作用。为实现这一点，本发明的一个实施例依赖几何量化、启发评估(heuristic evaluation)和节点输出。

简要地说，对于几何量化，输入是在每个时间点在存储器中的规则的完全精度网格。在构造期间，图元被读入并且取决于当前节点的范围被适应性地量化。使用始终保守的量化方案(即，量化始终提供完全严密的结果，并且在最终BVH中不可能有未命中的交叉)。量化本质上提供在底层浮点数据上的可参数化精度的规则整数空间，在该规则整数空间内能够以低成本执行BVH构造操作。

对于启发评估，在从存储器读取完全精度图元时，其顶点被量化到整数空间，产生保守的AABB。此顶点和AABB信息能够被用来在整数空间中执行三角形面元划分、形心(centroid)计算、空间分割和SAH评估。利用这种操作工具箱，以最小的质量退化生成完全SBVH式层次(对象分割和空间分割二者)。

对于节点输出，一旦通过启发评估做出有关如何分割当前BVH节点的确定，便以Vaidyanathan等人[29]的样式产生小占用、增量编码的BVH层次而不要求任何种类的后处理。

几何量化

为使得能够实现降低精度的BVH的直接构造而没有用于输出层次的任何种类的后处理步骤，用于BVH构建操作的底层量化方案本身与所提议的增量树输出格式密切联系。量化方案提供底层“竞争环境(playing field)”，其他所有事物在这之上发生。

量化以完全精度浮点输入顶点开始。为了说明的目的，使用了单精度IEEE 754浮点数。将这些概念扩展到双精度并且可能甚至扩展到其他浮点方案是不重要的。IEEE浮点中的每个单精度数由符号位S、8位指数E和23位尾数M组成。由浮点数编码的值由下式给出：

(-1)^S×1.M×2^E-127 (2)

IEEE格式始终假定尾数中的额外的前导1位，如所示出的。指数E被编码为采用偏移形式的无符号数。

不同于整数，浮点数不对规则空间进行编码。由于尾数是固定数量的位，因此随着指数变得更大，连续浮点值之间的距离增加。然而，带有相同指数(和相同符号)的所有浮点值对构成数的规则间距(类似于整数的均匀间距)的浮点空间的子集进行编码。本发明的一个实施例使用此事实作为量化方案的基础。

Vaidyanathan的格式[29]使用固定数量的位NB来存储量化的平面。此值与浮点的尾数值类似，并且该格式推导用于每个像素的最小指数，使得节点的局部参考系仅足以容纳节点的完全范围(参见图32B)。这定义了任何子节点包围平面可被编码的精度。树中更低的节点将具有更多精度来表示子节点包围平面，因为由于它们的更小的大小，指数能够被减小。此尾数-指数表示当然能够导致比节点更大但产生极紧凑结构的坐标空间。

正如增量遍历通过为每个节点推导指数来为它遇到的每个节点推导局部坐标空间，在构建期间为每个节点推导此空间。此空间然后不仅被用于最终树的存储，而且还用于构建本身。通过这样做，能够使用降低精度的运算，所述降低精度的运算与增量输出层次对齐且处于相同精度。这允许在构建期间写出层次外。

量化概述

输入的一个实施例是规则的32位单精度浮点网格，并且对于每个节点，为每个节点推导无符号整数空间以便在降低精度的空间中实行节点分割。通过使用规则浮点运算的序列来将顶点“面元划分”到规则栅格，可以执行到整数空间的移动。然而，本发明的根本原理不要求顶点的面元划分。考虑到目标是尽可能多地减少完全精度运算，一个实施例采用不要求用于此过程的完全浮点运算的技术。

特别地，为每个BVH节点推导坐标空间，所述坐标空间类似于在树遍历期间通过Vaidyanathan[29]推导的坐标空间(图32B)。这些每节点坐标空间在本文中被称为局部栅格。所有节点分区在节点的局部栅格内被执行，意味着所得到的包围盒完全对应于被写入在增量输出层次中的那些包围盒。

在Vaidyanathan[29]中，局部栅格被定位在浮点数的不规则空间内的任意位置处。本发明的一个实施例使用不同方法，其中局部栅格被任意定位在称为全局栅格的高精度规则栅格中。虽然全局栅格是规则的，但全局栅格中的每个位置完全对应于浮点值。

图33示出了底层浮点空间与全局栅格之间的关系。如所示出的，浮点空间中更高的指数产生更低的精度。通过固定被用来表示栅格内的值的指数而不是允许指数变化，实现了全局栅格中的规则性。全局栅格通过丢弃更精确值的较低位，使底层浮点空间线性化。离原点更远的值经常仍然可以没有误差地表示(由大的三角形指示)，但更靠近原点的值更可能具有量化误差(更小的三角形)。

对于每个轴，选择大于或等于在整个输入网格中在该轴中找到的最高指数的全局指数。精度的水平因此跨栅格被归一化到在值的范围中存在的精度的最低水平。这允许表示所有值，虽然在具有较小指数的值中损失了精度。在构造期间，为每个节点在分区期间从存储器重新读取完全浮点顶点。这意味着每次访问顶点时重新执行量化。通过重新量化，量化的顶点无需被存储在存储器中。在存在存储器高速缓存(如下所述)的情况下，能够对部分量化的值而不是完全精度值进行高速缓存，从而允许放大高速缓存的性能，并且降低量化的总体成本。目前，假设了在每个节点量化顶点。

最终操作是将顶点量化到当前局部栅格(即，用于被分区的当前节点)。在一个实施例中，量化是两步骤过程：量化到全局栅格，并且从所述全局栅格量化到当前局部栅格。

精度常量

在构造前，确定定义全局栅格和局部栅格的精度的精度常量。下面提供此数据结构的一个实施例的元素(即，“precisionConstants”结构)。下面的后缀用来表示向量变量的类型：f(完全精度浮点)、u(无符号整数)、i(带符号整数)。对于无符号和带符号整数，位宽将由于变量的特定使用和参数的选择而变化。

常量的第一集合是每轴全局位的数量(globalBitsPerAxis)。此值对用于全局栅格的每个轴的位的数量进行编码。这些值不需要相等，并且例如可以与每个轴中场景包围盒的长度成比例地分配这些值。在给定轴中，场景包围盒的长度和分配到该轴的位的数量暗示了定义全局栅格的精度的全局指数。更小的盒长度和更多分配的位产生更高精度全局盒，并且反之亦然。被分配以表示全局栅格中的顶点的位的总数在本文中被称为NV，其等于globalBitsPerAxis的元素之和。

第二常量是每平面的位(BPP)。此常量精确对应于Vaidyanathan[29]的每平面的位，并且与局部栅格的指数一起定义局部栅格的精度。被分配以表示局部栅格中的顶点的位的总数被称为NL，其等于BPP×3。

上面定义的精度常数指定全局栅格和局部栅格的每轴的位的数量。

构造全局栅格

在构建的开始，确定BVH的根节点的全局栅格和局部栅格。实际上，此工作的大部分是在构造全局栅格中，并且根局部栅格能够从全局栅格普通地推断。下面的代码序列在一个实施例中被用来指定全局栅格数据结构。

在图34A-D中图示了用于构造全局栅格的操作的序列的一个实施例。图34A中图示了根AABB对齐。此阶段的目的是将场景AABB的最小和最大坐标保守地对齐到全局栅格精度，因为全局栅格精度可以低于它们的当前精度。作为精度常量的一部分更早选择的globalGridExponents暗示以原始浮点空间的原点为中心的规则带符号栅格，所述规则带符号栅格具有与处理该指数的浮点值相同的精度。根AABB对齐牵涉到保守地扩大完全精度根包围盒以对齐到此全局栅格。

globalGrid结构的inputAABB和alignedAABB成员被初始化到网格的完全精度AABB。alignedAABB被对齐到全局栅格。然而，注意alignedAABB在对齐后保持浮点AABB。

下面的程序代码序列指定这些操作和下述的其他操作：

在上面的代码中，第2-64行定义用于为一个轴执行对齐的操作。轴在此方面是独立的，因此简单地依次为每个轴调用该过程。由于对于每个轴已选择了全局指数，所述全局指数至少与在该轴中在输入网格中遇到的最大指数一样大，因此为每个轴确定全局指数减小，这对将指数从在输入网格中遇到的最大值增大多少个单位(unit)进行编码(即，以适应用于该轴的选择的位的数量(上面的代码中的第2行))。取决于alignedAABB的浮点值的符号并且还取决于它是最小坐标还是最大坐标，还做出关于将alignedAABB的浮点值向上舍入还是向下舍入的确定(第10-13行)，以便保守地进行舍入。

为完成根AABB对齐，确定全局指数与浮点盒坐标的指数之间的差(第17-19行)。在该操作之后，将浮点值的尾数舍入到与指数的差对应的位的数量(第21-24行)。这确保坐标与所选择的指数的精度对齐。操作roundToNBitsFloat将浮点值的尾数舍入到最低有效数字中的N位，并且能够取决于roundUp的值来向上或向下舍入。

在图34B中和在上面的代码序列的第26-30行中示出了节点指数确定。局部栅格始终被对齐到全局栅格。在一个实施例中，局部栅格定义每平面的位和一组节点指数，这意味着在所有轴中局部栅格的范围始终是二的幂数量个单位。另外，由于栅格的精度仅相差二的幂指数，因此任何局部栅格的每单元(cell)将始终有全局栅格中的二的幂数量个单位。因此，根局部栅格的完全范围是全局栅格中大于在根AABB对齐阶段后当前盒的长度的最小二的幂数量个单位。

对齐的下一阶段，将最大值舍入到节点栅格，在图34C中被示出并且在上面的代码的第32-65行中被执行。由于对于根局部栅格中的每个单元，全局栅格中单位的数量是已知的，确定余数并且将盒的最大坐标对齐到局部栅格。

将最大坐标向上舍入的一个注意事项是如果选择与最大坐标的指数相同的全局指数，则增大最大坐标将可能增大其指数。如果此新指数更大，则根AABB对齐可以被重新运行。此行为分别用上面的代码中第57和64行的continue和break语句来实现。

最后，原点变换被确定，这在图34D和上面的代码序列的第67-68行中示出。原点变换提供用于将全局栅格中任何量化的顶点转换到锚定在原始浮点原点的无符号空间的变换。这结束了全局栅格结构的初始化。

构造根局部栅格

由于在对齐全局栅格的AABB的同时推断根局部栅格的属性，因此可以以简单的方式完成根局部栅格的初始化。相对于下面的LocalGrid struct和图35描述了局部栅格的元素。如之前所记述的，通过检查全局栅格的pow2lengthGlobalUnits成员变量，我们能够推断局部栅格的gridExponents。另外，我们使用我们将在后面描述的例程来将alignedAABB的完全精度最大坐标量化到局部栅格。这为我们给出了局部栅格的gridMax。gridExponents和gridMax精确地对应于在Vaidyanathan的格式中节点包围盒的节点指数和最大坐标(最小坐标始终为零且无需存储)。下面的示例代码指定局部栅格数据结构：

参照图34B再次说明此过程。在初始化全局栅格时，在每个轴中确定盒跨过的全局栅格中单位的数量(附图中示为dgx和dgy)以及大于此值的最小二的幂(附图中的2^ex和2^ey)。

一旦确定了这些值，便确定gridExponents及globalShiftOffsets。globalShiftOffsets对给定局部栅格与全局栅格之间指数(精度)的差进行编码。下面的程序代码中示出用于产生局部栅格的完全过程：

要计算的下一元素是局部栅格的originTransform，其与全局栅格的原点变换采用相同单位，并且除全局栅格的变换外也被应用。全局栅格的原点变换将量化的顶点转换到锚定在原始浮点原点的无符号空间(图34D)，而局部栅格的另外原点变换将它从该坐标系转换到锚定在局部栅格的原点的无符号空间，该锚定在局部栅格的原点的无符号空间位于无符号全局空间内。

最后，局部栅格还携带形心盒，所述形心盒是局部栅格内的保守量化的AABB，其包围当前节点内的图元的形心。为在根局部栅格中将此初始化，我们在计算完全精度场景AABB的同时简单地以完全精度计算此值，并且然后使用在下一节中详述的量化过程来将它量化到根局部栅格。

量化图元

在整个构建过程中，将完全精度浮点顶点从主存储器重新读取并且量化到如由当前局部栅格定义的当前精度水平。通过这样做，网格可在存储器中保持未修改以用于诸如光线-三角形交叉的其他任务，并且避免写入中间数据。首先实现对顶点进行量化的单个核操作。根据这个核操作，对AABB和三角形进行量化是不重要的。

为使量化的AABB和三角形是保守和严密的，必须考虑以下事实：顶点的量化将在顶点的“真”值中引入一定程度的不确定性。为将此考虑在内，不将完全精度顶点量化成单个量化的顶点。而是对每顶点执行到降低精度的AABB的量化，这保证含有原始完全精度顶点。此AABB捕捉相对于完全精度顶点的不确定性的范围。

顶点量化的总体目标是以32位浮点顶点开始并且将它量化成到由当前节点定义的局部栅格中的AABB。然而，由于空间分割，情况可能是并非当前节点中三角形所引用的所有顶点位于由此节点的局部栅格定义的可表示区域内。然而，为执行包含三角形AABB的空间分割的正确自上而下BVH构造，仅要求此AABB与当前节点的重叠。本发明的一个实施例因此利用以下量化过程：

1.将顶点量化到全局栅格，产生全局栅格中的不确定性的AABBi(浮点→整数量化)。

2.对AABBi应用全局栅格的原点变换。

3.对AABBi应用局部栅格的原点变换。

4.将AABBi量化到当前局部栅格的精度(整数→整数量化)。

5.将AABBi钳位(clamp)到局部栅格中的当前节点的范围。保证所得到的AABBu每顶点仅要求NL位来表示。

当然，由于两个变换采用相同单位，因此它们可以被组合。然而，如下所述，不这样做能够是有优点的。所有顶点或AABB现在被表示为NL位空间中的AABBu。这意味着在NL位空间中执行诸如形心计算、面元划分、AABB的空间分割、SAH评估和图元列表分区之类的所有构建操作。三角形的AABB被普通地计算为用于每个顶点的此过程的结果的联合。这也在无符号NL位空间中被执行。

此过程的最复杂部分是量化到全局栅格(步骤1)。在一个实施例中，根据以下代码序列来实现顶点量化：

如上所指示的，为将顶点量化到NV位带符号的空间，从用于该轴的全局指数减去每个顶点分量的指数。然后将分量值向下移位该差。这当然可能丢弃分量的下部中的一些精度。为捕捉此损失，通过在此移位后将最小值向下舍入并且将最大值向上舍入来产生AABB。为维持简单性，即使在量化期间没有误差，也将顶点量化到单位AABB。

通过将原点变换应用到AABB，完成到无符号NV位空间的转变。首先应用局部栅格的原点变换，然后是从全局栅格的栅格分辨率到局部栅格的分辨率的转变。在一个实施例中，这由以下代码序列指定：

将NV位AABB的最小值和最大值向下移位用于该轴的globalShiftOffset。这将顶点转变到要求最大NV位来表示的栅格，该栅格处于当前局部栅格的粒度，但被扩展跨整个场景。在空间分割的情况下，顶点此时可位于当前节点外部。

如果globalShiftOffset大于0，则这当然将丢弃精度。如之前一样，盒的最小值被向下舍入并且最大值被向上舍入以产生在更粗栅格中的AABB。注意，如果在舍入到NL位前的NV位AABB与给定轴中节点栅格的多于一个分部(division)重叠，则NL位AABB也能够跨节点栅格中的多个单位。

通过以此方式对AABB的最小和最大顶点进行量化，能够产生量化的AABB。然而，AABB的顶点可以要求同样多的NV位来表示。然而，如前面所述，仅要求AABB与当前节点的包围盒的重叠。AABB因此能够被钳位到此包围盒，这允许以完全降低的精度来执行所有剩余构建阶段。这在上面的quantizeToLocalGrid代码中的clampAndExpandBox中被详述。该盒还可被扩大以确保它在所有轴中具有至少一个单位的宽度。这是确保在随后节点中的指数不会被无限降低所要求的。

操作roundToNBitsInt将整数舍入到最低有效数字中的N位，并且能够取决于roundUp的值来向上或向下舍入。一个其他注意事项是由于经由全局指数来执行到NV位全局空间的钳位，因此，globalShiftOffset可变成负的，意味着当前增量节点可比NV位空间编码更高精度。为对此做出校正，在此情况下仅向上而不是向下移位，并且不执行舍入。这具有“跳过”空间中某些平面值的效果。然而，在所有情况下，节点空间中的AABB必须跨每个轴中的至少一个单位。在Vaidyanathan[29]中，假设浮点指数的限制尚未被达到，包围平面根据定义距节点原点至少2^NB-1+1个单位(否则，指数将再一次下降)。全局指数对能够产生小于2^NB-1+1的包围平面的使指数下降的能力设置了硬限制。对齐到(snap to)NV位无符号空间降低了用于量化的每顶点成本。

为新的子节点推导局部栅格

上面的技术可被用来建立根节点和执行顶点到NB位空间的量化。下面提供用来评估分割判定(诸如SAH面元划分)的逻辑的一个实现。现在，提供用于创建子节点的描述，而不管哪种启发被用来确定分割。

在分割已被确定时，所得到的子节点将被表示为NB位空间中的两个整数包围盒。除此之外，还可以将形心盒传播到子节点，因为一些分区方案从此受益(例如，形心盒上的SAH面元划分对于对象分割是有益的)。下面还描述了在图元面元划分期间累积的形心盒的传播。

为子节点推导新的局部栅格中的第一步骤是确定将与父项共享来自哪个子节点的哪些平面。这通过确定哪个子节点含有最接近父节点的最小和最大坐标的平面而被简单地实现。这些平面以与Vaidyanathan[29]非常类似的方式被编码成增量格式。

由于在规则的完全精度BVH构建中不发生的影响，重要的是在计算局部栅格前首先对此进行确定。在构建期间常见的情况是，每个子节点中含有的顶点以比在它们被量化以确定父项时更高水平的精度来被量化(因为通常存在从父项移到子项的指数减小)。这意味着，由于更低程度的舍入，可能不在父项与子项之间精确共享子节点AABB的平面。由于量化差异，父节点可围绕子节点稍微“膨胀”。这针对从父包围盒3500的左侧偏移的图35中的左子项3501而示出(与右子项3502形成对比，该右子项3502在X和Y轴中与父项共享平面)。这与局部栅格的增量格式或推导不直接兼容。

这可以通过将子节点中的应共享的平面替换为父项中的值(换而言之，将它们向上或向下钳位到父平面)来被解决。然后，从这些新的更新的子AABB中推导新的局部栅格。这稍微扩大了子盒，但产生了与增量格式兼容的严密的子项。一旦获得更新的边界，便可以根据以下代码序列计算新的局部栅格：

启发评估

本文中描述的本发明的实施例使得能够实现自上而下的、空间分割导向的构建器。始终观察到此类构建器提供所有已知BVH构造算法的最高遍历性能。特别地，一个实施例包括基于面元划分的构建器，所述基于面元划分的构建器比较常规非分割面元划分的SAH式节点分区与空间分割导向的分区的结果。在这些分区策略之间有一些共性，因此首先描述非空间分割面元划分技术，接着描述对于空间分割分区所需要的扩展。

图元面元划分

一旦量化已发生，图元面元划分是很低廉的。对于SBVH式构建，要求面元划分的两种稍微不同的方法。对于空间分割，沿节点的整个范围在分割轴中对三角形的AABB的最小和最大坐标进行面元划分。对于对象分割，仅沿形心盒的范围对AABB形心进行面元划分。图36A图示了带有空间分割的示例，并且图36B图示了带有对象分割的示例(两个示例均带有对象的两个三角形)。

图36B中示出了包围两个对象的形心3602、3603的形心盒3601。对于对象分割仅沿形心盒进行面元划分的原因是这产生更高质量的分割。由于AABB形心在对象分割期间确定用于每个图元的面元，因此所选择的面元必须驻留在形心盒内。这防止了在可能范围外的“废弃面元”，并且还防止了无效分割(一个子项中的零个图元)。

面元划分能够在NB位空间中低廉地发生。要确定的主要事物是每个面元将跨局部栅格中的多少个单位。为对此进行计算，在该轴中确定(节点或形心盒)面元划分范围的长度。像现有自上而下构建器一样，目标是每轴恒定数量的面元。然而，由于不允许分数值，因此每面元在局部栅格中必须有至少一个单位。为对其中期望的面元的数量大于局部栅格的精度的情况进行校正，一个实施例钳位到局部栅格中可用的单位的数量。因此，基于可用精度在一定程度上动态确定面元的数量。然而，观察到对于通常非常靠近叶并且相对少的节点需要限制面元的数量。由此，以能够被用于面元划分的降低的精度确定每面元局部栅格单位的数量。下面的代码序列指定在分割轴中每面元的局部栅格单位的数量和面元的数量的计算。

使用此信息，简单地通过将顶点坐标除以numUnitsPerBin，可以对顶点进行面元划分以用于空间分割(这使用在该轴中盒的整个长度)(图36A)。对于对象分割，对三角形的AABB的形心进行面元划分。为做到这一点，在局部栅格空间中确定形心。

对形心进行面元划分要求再一次操作。每节点计算NB位形心变换作为用于节点的形心盒的最小顶点。这采用局部栅格的单位。在面元划分前，从顶点减去此变换，将它移到局部形心空间中(图36B)。然后，简单地通过除以numUnitsPerBin来执行面元划分。

此面元划分方案消除了对昂贵的完全精度运算(包括用于面元划分的乘/除)的需要。

空间分割要求维持每面元的开始计数器和结束计数器。然而，在执行对象分割时，仅要求单个计数器。然而，为避免需要用于两种方法的单独硬件，单独的开始计数器和结束计数器被用于实现对象分割面元划分和空间分割面元划分二者。简单地通过在对象分割期间递增三角形形心所位于的单个面元的开始计数器和结束计数器二者，使得对象分割与此方法兼容。

整数面元划分方法的限制是每面元在局部栅格中要求整数数量的分部。在跨范围的分部数量小时，这能够导致面元的有效损失。例如，如果NB＝8位，并且节点盒在x中是158个单位宽，并且期望有16个面元，则可确定每面元158/16＝9个单位。这意味着最后的面元将覆盖23个单位，在一定程度上扩大了最后的面元。然而，这不会对树质量产生显著影响。

在节点分区用任一面元划分方法是不可能的情况下，一个实施例默认简单的“列表分区”策略，其中节点的图元阵列被分成两个(没有分拣(sorting))并且AABB被计算。这当然能够导致许多节点重叠。然而，仅在非常少数量的情况下才要求此策略，并且此策略对树质量没有重大的影响。在分割仅带有两个图元的节点时也执行此类分割。其中应用此分区的第三种情况是在仅对于单个面元存在的足够精度时，如在上面的getNumUnitsPerBin中所指示的。

在降低精度的空间中进行面元划分的幸运的属性是，在大多数情况下，它对树质量的负面影响在由增量节点编码施加的影响以上和之外为零。这是因为仅要求足够的精度使得每个面元在量化的空间中具有至少一个单位的宽度，以准确地确定三角形形心将要被放置在其中的面元。在完全精度构建器中，为面元划分目的而基本上忽略了面元内的额外精度。

将通过增量格式使面元的AABB膨胀，但无论如何这将作为使用这样的格式的副作用而发生。如果期望以量化的格式来存储层次，则更好的是在构建期间具有膨胀的AABB的信息，因为它导致对最终树为真的SAH估计，这与其中量化作为后处理被应用的情况相反。

传播形心盒

对于在父项与子项之间变化的精度水平敏感的另一问题是用于对象分割的形心盒的确定和传播。在构建过程中，在面元划分期间维持形心盒，使得可以将它传播到每个新的子节点以用于该新的子项中的面元划分操作。为避免浮点算术，基于量化的AABB的最小和最大坐标来计算形心。取决完全精度最小和最大坐标到其量化位置的相对距离，形心在被计算时可能被向上或向下“拉”。例如，即使在中点计算期间向下舍入，如果盒的最小坐标已经靠近其量化位置，并且完全精度最大坐标离其量化位置远得多，形心也能够被“向上”舍入。

为解决此问题，可用规则AABB点联合运算朴素地

累积形心盒。一旦选择了分割并且确定了要传播的形心盒，便可以为每个轴在每个方向上将它扩大一个单位。这解决了在量化的计算中固有的所有模糊性。一旦确定了分割平面，便能够如下面的程序代码序列中所示出的将关联的形心盒变换到子项的局部栅格：

空间分割

高质量BVH构建器的重要特征是空间分割，空间分割提供消除兄弟节点的重叠的方式，兄弟节点的重叠在其他情况下可能是不可避免的。此类重叠能够对遍历性能具有不利影响。

然而，在局部降低精度的空间中三角形的空间分割提出了在完全精度构建器中不会出现的重要挑战：以前在祖先节点中已被分割的当前节点中的三角形可具有位于局部栅格外的顶点。因此，我们根本不能在NB位空间中表示这些顶点。

代替完全三角形分割，一个实施例实现能够得出可接受结果的简单和低廉的方法。为使得能够实现空间分割，此实施例首先在NV位空间中量化三角形的AABB，将它裁剪到节点包围盒，并且将该NB位盒面元划分到节点中。我们将AABB的最小和最大坐标面元划分到节点中，并且能够通过相对于它重叠的分割平面来分割AABB从而执行空间分割。

由于交互式构建器是所期望的，因此可以引入对由于空间分割而能够产生的新引用数量的硬限制。此类特征对多个快速空间分割构建器是共同的。在执行每个空间分割时，其降低了空间分割的剩余配额。在产生两个新的子节点时，确定剩余分割配额的分布。在一个实施例中，与子节点的SAH成本成比例地执行分布。更高成本的子节点将因此接收更多的分割配额。

在对构建期间产生的新引用的硬配额之上，对限于处理某些属性的节点的空间分割尝试进行了限额。另外，一个实施例将此与硬分割配额进行组合。观察揭示，利用对新引用的硬配额，尝试了在树中从未能够结束的许多空间分割。例如，如果在节点引用大量的图元，但相对于此大的数量，用于分割的剩余预算非常小，则很可能空间分割将是不可能的，因为将很可能创建多于小数量的新引用。为了效率目的，可以不允许不太可能是可行的分割尝试。

计算SAH

一旦面元划分作为对象分割面元划分或空间分割面元划分被完成，便为每个潜在的分割平面确定SAH。在一个实现中，能够通过计算面元盒的表面面积连同面元计数，完全用无符号整数进行确定SAH。为计算此，涉及开始面元和结束面元二者的相同技术被用于对象分割和空间分割二者。这些可以与本文中描述的硬件实现高效地统一。仅在盒的最长轴上，并且如果期望则在所有三个轴上，均固有地支持搜索候选平面。

正如其他阶段，可从常规完全精度构建器修改此步骤。Wald等人[33]也报告了在他的精度降低的构建器中此情况的处置。另外的因素涉及计算表面面积。局部栅格中坐标轴中的每个坐标轴的指数可以具有不同值。因此，测量的单位潜在地是跨轴不同的。为计算表面面积值，我们必须获得采用相同单位的每个长度。

为解决这一点，相对于跨三个轴的最大单位(最大指数)来表示所有值。备选方法将是按最小单位(最小指数)来表示盒的长度，但这将要求更宽的算术运算。此外，未从使用更大指数中观察到质量退化。可以将值从带有更小指数的轴向下位移指数之间的差，并且至少一个单位的长度被强制用于任何长度。一旦获得表面面积，在计算SAH时便与AABB内图元的数量相乘。下面的代码序列指定在一个实施例中如何计算表面面积：

节点输出

由于局部栅格被对齐到在Vaidyanathan[29]中为遍历采用的量化方案，因此可以容易实现增量编码的层次的直接输出。例如，在一个实施例中，这通过如在图35中检查共享平面来定义重复使用掩码、通过直接使用局部栅格的量化的包围盒来推断新的量化的平面、以及通过适当地设置叶节点标志和正确的子指针而得以实现。

架构

图37图示了用于实现本文中描述的降低精度的BVH构造技术的架构的一个实施例。除降低精度算术外，此实施例包含用于实现无损存储器带宽压缩的无损存储器压缩电路3705，其类似于经常在GPU中为改进可缩放性和降低功率消耗而采用的实现。在一个实施例中，无损存储器压缩逻辑3705对正被写入到主存储器3700的数据进行压缩并且对正从主存储器3700读取的数据进行解压缩。

图示的架构包含请求来自存储器/量化前端3715的数据的BVH构建器核3030内的BVH构建单元0-n，该存储器/量化前端3715包含或者被耦合到大的末级高速缓存(LLC)3710。BVH构建单元0-n因此仅一直用由量化前端3715产生的量化的数据进行工作。另外，一个实施例包含L1索引高速缓存3725和L1顶点高速缓存3026以便分别对三角形索引和顶点进行高速缓存。

顶点高速缓存

不同技术可以被用于在L1顶点高速缓存3026和LLC 3710中对顶点进行高速缓存。在一个实施例中，在末级高速缓存3710和L1高速缓存3725-3726二者中对完全精度顶点进行高速缓存。在此实现中，在从高速缓存3725-3726读取数据后执行量化。

备选地或者另外，到全局和局部栅格中的量化的分隔考虑到第二高速缓存方案。由于能够任意设置precisionConstants的globalBitsPerAxis，因此可能将顶点的总大小(NV)限制到小的“记录”，其包括例如64位。此记录被使用，并且如果局部栅格暗示更高水平的精度，则更高程度的量化发生，而不是允许超过globalBitsPerAxis。产生此类小记录的一个优点是能够为BVH构造对这些记录进行高速缓存，而不是对可能更大得多的完全精度浮点值进行高速缓存。这相当于顶点的有损压缩，但如果局部栅格超过精度，则这将很可能仅对树的底部具有不利影响。由于算法被推广到globalBitsPerAxis的任何值，因此不同水平的精度能够被用来构造树的不同部分。在树的顶部，要求更低精度，并且因此小记录在那些层级可以足够。更大的记录大小于是可以被用于构造树的更低层级以防止在这些层级的额外量化误差。

一个实施例采用这两种高速缓存方案的组合，其中量化发生在末级高速缓存3710与L1高速缓存3725-3726之间。另外，在对量化的顶点进行高速缓存时，能够对由全局栅格的originTransform预变换的顶点进行高速缓存，给出无符号值(例如，如在图34D中)。然后，在顶点到局部栅格的量化前仅应用局部栅格的originTransform，从而降低总体量化开销。

本发明的实施例提供了优于现有实现的许多优点。特别地，所描述的实施例考虑到完全在降低精度的空间内构造高质量的空间分割BVH，大大降低了固定功能实现的硬件成本。相对于图37描述的架构包括支持三角形的空间分割的第一基于硬件的BVH构建器，并且用来降低存储器带宽的无损压缩和高速缓存机制是在任何其他BVH构建器中未找到的新颖带宽节省措施。另外，不同于其他实现，本文中描述的某些实施例考虑到增量编码的层次的直接输出。

参考文献：

[1]IEEE Standard for Floating-Point Arithmetic.IEEE Std754-2008,pages1–70,Aug 2008.

[2]Pablo Bauszat,Martin Eisemann,and Marcus Magnor.The MinimalBounding Volume Hierarchy.In Vision,Modeling,and Visualization,pages 227–234,Siegen,Germany,2010.

[3]

Bittner,Michal Hapala,and Vlastimil Havran.Incremental bvhconstruction for ray tracing.Comput.Graph.,47(C):135–144,April 2015.

[4]David Cline,Kevin Steele,and Parris Egbert.Lightweight BoundingVolumes for Ray Tracing.Journal of Graphics,GPU,and Game Tools,,11(4):61–71,2006.

[5]H.Dammertz and A.Keller.The edge volume heuristic-robust trianglesubdivision for improved bvh performance.In 2008 IEEE Symposium onInteractive Ray Tracing,pages 155–158,Aug 2008.

[6]Michael J.Doyle,Colin Fowler,and Michael Manzke.A hardware unitfor fast sah-optimised bvh construction.ACM Trans.Graph.,32(4):139:1–139:10,July 2013.

[7]Martin Eisemann,Pablo Bauszat,and Marcus Magnor.Implicit objectspace partitioning:The no-memory BVH.Technical Report 16,Computer GraphicsLab,TU Braunschweig,January 2012.

[8]Manfred Ernst and Gunther Greiner.Early Split Clipping forBounding Volume Hierarchies.In IEEE Symposium on Interactive Ray Tracing,pages 73–78,2007.

[9]Bartosz Fabianowski and John Dingliana.Compact BVH Storage for RayTracing and Photon Mapping.In Proceedings of Eurographics Ireland Workshop,pages 1–8,2009.

[10]P.Ganestam,R.Barringer,M.Doggett,and T.AkenineMo¨ller.Bonsai:Rapid bounding volume hierarchy generation using mini trees.Journal ofComputer Graphics Techniques(JCGT),4(3):23–42,September 2015.

[11]Per Ganestam and Michael Doggett.Sah guided spatial splitpartitioning for fast bvh construction.Comput.Graph.Forum,35(2):285–293,May2016.

[12]Yan Gu,Yong He,Kayvon Fatahalian,and Guy Blelloch.Efficient bvhconstruction via approximate agglomerative clustering.In Proceedings of the5th HighPerformance Graphics Conference,HPG’13,pages 81–88,New York,NY,USA,2013.ACM.

[13]Vlastimil Havran.Cache sensitive representation for the bsptree.In Compugraphics,volume 97,pages 369–376,1997.

[14]J.Hendrich,D.Meister,and J.Bittner.Parallel bvh constructionusing progressive hierarchical refinement.Computer Graphics Forum,36(2):487–494,2017.

[15]Tero Karras and Timo Aila.Fast Parallel Construction of High-Quality Bounding Volume Hierarchies.In HighPerformance Graphics,pages 89–99,2013.

[16]Sean Keely.Reduced Precision for Hardware Ray Tracing in GPUs.InHigh-Performance Graphics,pages 29–40,2014.

[17]C.Lauterbach,M.Garland,S.Sengupta,D.Luebke,and D.Manocha.Fast BVHConstruction on GPUs.Computer Graphics Forum(Proceedings of Eurographics),,28(2):375–384,2009.

[18]G.Liktor and K.Vaidyanathan.Bandwidth-efficient bvh layout forincremental hardware traversal.In Proceedings of HighPerformance Graphics,HPG’16,pages 51–61,Aire-la-Ville,Switzerland,Switzerland,2016.EurographicsAssociation.

[19]X.Liu,Y.Deng,Y.Ni,and Z.Li.Fasttree:A hardware kd-treeconstruction acceleration engine for real-time ray tracing.In 2015Design,Automation Test in Europe Conference Exhibition(DATE),pages1595–1598,March2015.

[20]J.David MacDonald and Kellogg S.Booth.Heuristics for Ray Tracingusing Space Subdivision.6(6):153–165,1990.

[21]J.Mahovsky and B.Wyvill.Memory-Conserving Bounding VolumeHierarchies with Coherent Raytracing.Computer Graphics Forum,,25(2):173–182,2006.

[22]D.Meister and J.Bittner.Parallel locally-ordered clustering forbounding volume hierarchy construction.IEEE Transactions on Visualization andComputer Graphics,24(3):1345–1353,March 2018.

[23]J.H.Nah,J.W.Kim,J.Park,W.J.Lee,J.S.Park,S.Y.Jung,W.C.Park,D.Manocha,and T.D.Han.Hart:A hybrid architecture for ray tracing animatedscenes.IEEE Transactions on Visualization and Computer Graphics,21(3):389–401,March 2015.

[24]Jae-Ho Nah,Hyuck-Joo Kwon,Dong-Seok Kim,Cheol-Ho Jeong,JinhongPark,Tack-Don Han,Dinesh Manocha,and Woo-Chan Park.RayCore:A RayTracingHardware Architecture for Mobile Devices.ACM Transactions on Graphics,,33(5):162:1–162:15,2014.

[25]J.Pantaleoni and D.Luebke.HLBVH:Hierarchical LBVH Constructionfor Real-Time Ray Tracing of Dynamic Geometry.In High-Performance Graphics,pages 87–95,2010.

[26]Stefan Popov,Iliyan Georgiev,Rossen Dimov,and PhilippSlusallek.Object partitioning considered harmful:space subdivision forbvhs.In HPG’09:Proceedings of the 1st ACM conference on High PerformanceGraphics,pages 15–22,New York,NY,USA,2009.ACM.

[27]Jim Rasmusson.Lossy and Lossless Compression Techniques forGraphics Processors.2012.

[28]Martin Stich,Heiko Friedrich,and Andreas Dietrich.Spatial Splitsin Bounding Volume Hierarchies.In HighPerformance Graphics,pages 7-13,2009.

[29]K.Vaidyanathan,T.Akenine-Moeller,and M.Salvi.Watertight raytraversal with reduced precision.In Proceedings of High Performance Graphics,HPG’16,pages 33–40,Aire-la-Ville,Switzerland,Switzerland,2016.EurographicsAssociation.

[30]T.Viitanen,M.Koskela,P.Ja¨a¨skela¨inen,K.Immonen,andJ.Takala.Fast hardware construction and refitting of quantized boundingvolume hierarchies.Computer Graphics Forum,36(4):167–178,2017.

[31]Timo Viitanen,Matias Koskela,Pekka J¨a¨askel¨ainen,HeikkiKultala,and Jarmo Takala.Mergetree:A fast hardware hlbvh constructor foranimated ray tracing.ACM Trans.Graph.,36(5):169:1–169:14,October 2017.

[32]Timo Viitanen,Matias Koskela,Pekka J¨a¨askel¨ainen,Aleksi Tervo,and Jarmo Takala.Ploctree:A fast,highquality hardware bvh builder.Proc.ACMComput.Graph.Interact.Tech.,1(2):35:1–35:19,August2018.

[33]Ingo Wald.Fast Construction of SAH BVHs on the Intel ManyIntegrated Core(MIC)Architecture.IEEE Transactions on Visualization andComputer Graphics,18(1):47–57,January 2012.

[34]Ingo Wald,Sven Woop,Carsten Benthin,Gregory S.Johnson,and ManfredErnst.Embree:A Kernel Framework for Efficient CPU Ray Tracing.ACMTransactions on Graphics,,33(4):143:1–143:8,2014.

[35]Sven Woop.DRPU:A Programmable Hardware Architecture for Real-timeRay Tracing ofCoherent Dynamic Scenes.PhD thesis,Saarland University,2006.

[36]Henri Ylitie,Tero Karras,and Samuli Laine.Efficient incoherentray traversal on gpus through compressed wide bvhs.In Proceedings of HighPerformance Graphics,HPG’17,pages 4:1–4:13,New York,NY,USA,2017.ACM.

在本文中描述的实施例中，术语“引擎”或“模块”或“逻辑”可以指以下各项、是以下各项的一部分或者包含以下各项：执行一个或多个软件或固件程序的专用集成电路(ASIC)、电子电路、处理器(共享的、专用的或群组)和/或存储器(共享的、专用的或群组)，组合逻辑电路和/或提供描述的功能性的其他适合组件。在实施例中，引擎、模块或逻辑可以在固件、硬件、软件或者固件、硬件和软件的任何组合中被实现。

本发明的实施例可以包含上面已描述的各种步骤。这些步骤可以体现在机器可执行指令中，所述机器可执行指令可以被用来促使通用或专用处理器执行步骤。备选地，这些步骤可以由含有用于执行步骤的硬连线逻辑的特定硬件组件执行，或者由编程的计算机组件和定制硬件组件的任何组合执行。

示例

下面是本发明的不同实施例的示例实现。

示例1.一种设备，包括：存储器，所述存储器用来存储用于场景的图形数据，所述图形数据包含处于第一精度的场景中的多个图元；几何量化器，所述几何量化器用来读取处于所述第一精度的所述图元的顶点，并且将所述图元的所述顶点适应性地量化到第二精度，所述第二精度与定位在全局坐标栅格内的第一BVH节点的第一局部坐标栅格关联，所述第二精度低于所述第一精度；BVH构建器，所述BVH构建器用来通过使用与所述第一BVH节点关联的图元为所述第一BVH节点执行非空间分割面元划分或空间分割面元划分来确定所述第一BVH节点的子节点的坐标，所述BVH构建器要至少部分基于为所述子节点中的每个子节点生成的不同包围盒的表面面积的评估来为所述子节点确定最终坐标。

示例2.如示例1所述的设备，其中所述第一精度包括32位单精度浮点精度。

示例3.如示例1所述的设备，其中所述第二精度包括8位或16位无符号整数精度。

示例4.如示例1所述的设备，其中所述BVH构建器要通过将用于所述场景的包围盒的最小和最大坐标保守地对齐到所述第一精度来构造所述全局坐标栅格。

示例5.如示例1所述的设备，其中所述子节点包含第一子节点和第二子节点，并且其中所述几何量化器要通过标识来自所述第一子节点和/或所述第二子节点的将与所述第一BVH节点共享的一个或多个平面，分别构造用于所述第一子节点和所述第二子节点的第二局部坐标栅格和第三局部坐标栅格。

示例6.如示例5所述的设备，其中构造所述第二局部坐标栅格进一步包括将来自所述第一子节点和/或所述第二子节点的所述平面中的一个或多个平面的值替换为与所述第一BVH节点中的对应平面关联的对应值。

示例7.如示例1所述的设备，其中所述BVH构建器要基于由所述非空间分割面元划分和空间分割面元划分生成的结果的比较，在非空间分割面元划分或空间分割面元划分之间进行选择。

示例8.如示例7所述的设备，其中所述非空间分割面元划分包括对象分割面元划分，其中为执行所述对象分割面元划分，所述几何量化器要确定包围所述图元的多个形心的形心盒并且使用所述形心盒来创建一个或多个面元。

示例9.如示例8所述的设备，其中所述形心盒被存储并且从所述第一BVH节点传播到所述子节点以被用于所述子节点内的面元划分操作。

示例10.如示例1所述的设备，进一步包括：耦合到所述存储器的无损存储器压缩电路，所述无损存储器压缩电路用来对未压缩的图形数据执行无损压缩以生成在所述存储器中存储的所述图形数据，并且响应于对所述图形数据的存储器请求而对所述图形数据执行无损解压缩以生成未压缩的图形数据。

示例11.如示例10所述的设备，进一步包括：第一高速缓存，所述第一高速缓存用来存储处于所述第一精度的所述图元的顶点，所述几何量化器要从所述第一高速缓存读取所述顶点以执行所述顶点到所述第二精度的所述适应性量化；以及第二高速缓存，所述第二高速缓存用来存储处于所述第二精度的所述顶点，其中所述BVH构建器要从所述第二高速缓存读取所述顶点以确定所述第一BVH节点的子节点的坐标。

示例12.一种方法，包括：接收用于场景的图形数据，所述图形数据包含处于第一精度的场景中的多个图元；读取处于所述第一精度的所述图元的顶点；将所述图元的所述顶点适应性地量化到第二精度，所述第二精度与定位在全局坐标栅格内的第一BVH节点的第一局部坐标栅格关联，所述第二精度低于所述第一精度；通过使用与所述第一BVH节点关联的图元为所述第一BVH节点执行非空间分割面元划分或空间分割面元划分来确定所述第一BVH节点的子节点的坐标，其中至少部分基于为所述子节点中的每个子节点生成的不同包围盒的表面面积的评估来为所述子节点确定最终坐标。

示例13.如示例12所述的方法，其中所述第一精度包括32位单精度浮点精度。

示例14.如示例12所述的方法，其中所述第二精度包括8位或16位无符号整数精度。

示例15.如示例12所述的方法，进一步包括：通过将用于所述场景的包围盒的最小和最大坐标保守地对齐到所述第一精度来构造所述全局坐标栅格。

示例16.如示例12所述的方法，其中所述子节点包含第一子节点和第二子节点，并且其中适应性地量化进一步包括：通过标识来自所述第一子节点和/或所述第二子节点的将与所述第一BVH节点共享的一个或多个平面，分别构造用于所述第一子节点和所述第二子节点的第二局部坐标栅格和第三局部坐标栅格。

示例17.如示例16所述的方法，其中构造所述第二局部坐标栅格进一步包括：将来自所述第一子节点和/或所述第二子节点的所述平面中的一个或多个平面的值替换为与所述第一BVH节点中的对应平面关联的对应值。

示例18.如示例12所述的方法，进一步包括：基于由所述非空间分割面元划分和空间分割面元划分生成的结果的比较，在非空间分割面元划分或空间分割面元划分之间进行选择。

示例19.如示例18所述的方法，其中所述非空间分割面元划分包括对象分割面元划分，其中为执行所述对象分割面元划分，所述几何量化器要确定包围所述图元的多个形心的形心盒并且使用所述形心盒来创建一个或多个面元。

示例20.如示例19所述的方法，其中所述形心盒被存储并且从所述第一BVH节点传播到所述子节点以被用于所述子节点内的面元划分操作。

示例21.一种机器可读介质，在所述机器可读介质上存储有程序代码，所述程序代码在由机器执行时，促使所述机器执行以下操作：接收用于场景的图形数据，所述图形数据包含以第一精度定位在全局坐标栅格内的场景中的多个图元；读取处于所述第一精度的所述图元的顶点；将所述图元的所述顶点适应性地量化到第二精度，所述第二精度与第一BVH节点的第一局部坐标栅格关联，所述第二精度低于所述第一精度，其中所述局部坐标栅格与处于所述第一精度的所述全局坐标栅格内的位置关联；通过使用与所述第一BVH节点关联的图元为所述第一BVH节点执行非空间分割面元划分或空间分割面元划分来确定所述第一BVH节点的子节点的坐标，其中至少部分基于为所述子节点中的每个子节点生成的不同包围盒的表面面积的评估来为所述子节点确定最终坐标。

示例22.如示例21所述的机器可读介质，其中所述第一精度包括32位单精度浮点精度。

示例23.如示例21所述的机器可读介质，其中所述第二精度包括8位或16位无符号整数精度。

示例24.如示例21所述的机器可读介质，进一步包括程序代码以促使所述机器执行以下操作：通过将用于所述场景的包围盒的最小和最大坐标保守地对齐到所述第一精度来构造所述全局坐标栅格。

示例25.如示例21所述的机器可读介质，其中所述子节点包含第一子节点和第二子节点，并且其中适应性地量化进一步包括：通过标识来自所述第一子节点和/或所述第二子节点的将与所述第一BVH节点共享的一个或多个平面，分别构造用于所述第一子节点和所述第二子节点的第二局部坐标栅格和第三局部坐标栅格。

示例26.如示例25所述的机器可读介质，其中构造所述第二局部坐标栅格进一步包括：将来自所述第一子节点和/或所述第二子节点的所述平面中的一个或多个平面的值替换为与所述第一BVH节点中的对应平面关联的对应值。

示例27.如示例21所述的机器可读介质，进一步包括程序代码以促使所述机器执行以下操作：基于由所述非空间分割面元划分和空间分割面元划分生成的结果的比较，在非空间分割面元划分或空间分割面元划分之间进行选择。

示例28.如示例27所述的机器可读介质，其中所述非空间分割面元划分包括对象分割面元划分，其中为执行所述对象分割面元划分，所述几何量化器要确定包围所述图元的多个形心的形心盒并且使用所述形心盒来创建一个或多个面元。

示例29.如示例28所述的机器可读介质，其中所述形心盒被存储并且从所述第一BVH节点传播到所述子节点以被用于所述子节点内的面元划分操作。

如本文中所述，指令可以涉及硬件的特定配置，诸如配置成执行某些操作或具有预确定的功能性的专用集成电路(ASIC)，或在非暂态计算机可读介质中体现的存储器中存储的软件指令。因此，使用在一个或多个电子装置(例如，终端站、网络元件等)上存储和执行的代码和数据，能够实现附图中示出的技术。此类电子装置使用计算机机器可读介质(诸如非暂态计算机机器可读存储介质(例如，磁盘；光盘；随机存取存储器；只读存储器；闪速存储器装置；相变存储器)和暂态计算机机器可读通信介质(例如，电信号、光信号、声信号或其他形式的传播信号——诸如载波、红外信号、数字信号等))，存储并传递(在内部和/或通过网络与其他电子装置)代码和数据。

另外，此类电子装置通常包含一组一个或多个处理器，所述一组一个或多个处理器耦合到一个或多个其他组件，诸如一个或多个存储装置(非暂态机器可读存储介质)、用户输入/输出装置(例如，键盘、触摸屏和/或显示器)和网络连接。该组处理器与其他组件的耦合通常通过一个或多个总线和桥接(也称为总线控制器)。存储装置和携带网络业务的信号分别表示一个或多个机器可读存储介质和机器可读通信介质。因此，给定电子装置的存储装置通常存储代码和/或数据以便在该电子装置的该组一个或多个处理器上执行。当然，本发明的实施例的一个或多个部分可以使用软件、固件和/或硬件的不同组合来实现。在本详细描述通篇中，为了解释的目的，陈述了许多特定的细节以便提供本发明的详尽理解。然而，本领域的技术人员将明白，可以在没有这些特定细节中的一些细节的情况下实践本发明。在某些实例中，未详细描述公知的结构和功能，以便避免混淆本发明的主题。因此，应根据随附的权利要求来判断本发明的范围和精神。

Claims

1.一种设备，包括：

存储器，所述存储器用来存储用于场景的图形数据，所述图形数据包含处于第一精度的场景中的多个图元；

几何量化器，所述几何量化器用来读取处于所述第一精度的所述图元的顶点，并且将所述图元的所述顶点适应性地量化到第二精度，所述第二精度与定位在全局坐标栅格内的第一BVH节点的第一局部坐标栅格关联，所述第二精度低于所述第一精度；

BVH构建器，所述BVH构建器用来通过使用与所述第一BVH节点关联的图元为所述第一BVH节点执行非空间分割面元划分或空间分割面元划分来确定所述第一BVH节点的子节点的坐标，所述BVH构建器要至少部分基于为所述子节点中的每个子节点生成的不同包围盒的表面面积的评估来为所述子节点确定最终坐标。

2.如权利要求1所述的设备，其中所述第一精度包括32位单精度浮点精度。

3.如权利要求1所述的设备，其中所述第二精度包括8位或16位无符号整数精度。

4.如权利要求1所述的设备，其中所述BVH构建器要通过将用于所述场景的包围盒的最小和最大坐标保守地对齐到所述第一精度来构造所述全局坐标栅格。

5.如权利要求1所述的设备，其中所述子节点包含第一子节点和第二子节点，并且其中所述几何量化器要通过标识来自所述第一子节点和/或所述第二子节点的将与所述第一BVH节点共享的一个或多个平面，分别构造用于所述第一子节点和所述第二子节点的第二局部坐标栅格和第三局部坐标栅格。

6.如权利要求5所述的设备，其中构造所述第二局部坐标栅格进一步包括将来自所述第一子节点和/或所述第二子节点的所述平面中的一个或多个平面的值替换为与所述第一BVH节点中的对应平面关联的对应值。

7.如权利要求1所述的设备，其中所述BVH构建器要基于由所述非空间分割面元划分和空间分割面元划分生成的结果的比较，在非空间分割面元划分或空间分割面元划分之间进行选择。

8.如权利要求7所述的设备，其中所述非空间分割面元划分包括对象分割面元划分，其中为执行所述对象分割面元划分，所述几何量化器要确定包围所述图元的多个形心的形心盒并且使用所述形心盒来创建一个或多个面元。

9.如权利要求8所述的设备，其中所述形心盒被存储并且从所述第一BVH节点传播到所述子节点以被用于所述子节点内的面元划分操作。

10.如权利要求1所述的设备，进一步包括：

耦合到所述存储器的无损存储器压缩电路，所述无损存储器压缩电路用来对未压缩的图形数据执行无损压缩以生成在所述存储器中存储的所述图形数据，并且响应于对所述图形数据的存储器请求而对所述图形数据执行无损解压缩以生成未压缩的图形数据。

11.如权利要求10所述的设备，进一步包括：

第一高速缓存，所述第一高速缓存用来存储处于所述第一精度的所述图元的顶点，所述几何量化器要从所述第一高速缓存读取所述顶点以执行所述顶点到所述第二精度的所述适应性量化；以及

第二高速缓存，所述第二高速缓存用来存储处于所述第二精度的所述顶点，其中所述BVH构建器要从所述第二高速缓存读取所述顶点以确定所述第一BVH节点的子节点的坐标。

12.一种方法，包括：

接收用于场景的图形数据，所述图形数据包含处于第一精度的场景中的多个图元；

读取处于所述第一精度的所述图元的顶点；

将所述图元的所述顶点适应性地量化到第二精度，所述第二精度与定位在全局坐标栅格内的第一BVH节点的第一局部坐标栅格关联，所述第二精度低于所述第一精度；

通过使用与所述第一BVH节点关联的图元为所述第一BVH节点执行非空间分割面元划分或空间分割面元划分来确定所述第一BVH节点的子节点的坐标，其中至少部分基于为所述子节点中的每个子节点生成的不同包围盒的表面面积的评估来为所述子节点确定最终坐标。

13.如权利要求12所述的方法，其中所述第一精度包括32位单精度浮点精度。

14.如权利要求12所述的方法，其中所述第二精度包括8位或16位无符号整数精度。

15.如权利要求12所述的方法，进一步包括：

通过将用于所述场景的包围盒的最小和最大坐标保守地对齐到所述第一精度来构造所述全局坐标栅格。

16.如权利要求12所述的方法，其中所述子节点包含第一子节点和第二子节点，并且其中适应性地量化进一步包括：

通过标识来自所述第一子节点和/或所述第二子节点的将与所述第一BVH节点共享的一个或多个平面，分别构造用于所述第一子节点和所述第二子节点的第二局部坐标栅格和第三局部坐标栅格。

17.如权利要求16所述的方法，其中构造所述第二局部坐标栅格进一步包括：

将来自所述第一子节点和/或所述第二子节点的所述平面中的一个或多个平面的值替换为与所述第一BVH节点中的对应平面关联的对应值。

18.如权利要求12所述的方法，进一步包括：

基于由所述非空间分割面元划分和空间分割面元划分生成的结果的比较，在非空间分割面元划分或空间分割面元划分之间进行选择。

19.如权利要求18所述的方法，其中所述非空间分割面元划分包括对象分割面元划分，其中为执行所述对象分割面元划分，所述几何量化器要确定包围所述图元的多个形心的形心盒并且使用所述形心盒来创建一个或多个面元。

20.如权利要求19所述的方法，其中所述形心盒被存储并且从所述第一BVH节点传播到所述子节点以被用于所述子节点内的面元划分操作。

21.一种机器可读介质，在所述机器可读介质上存储有程序代码，所述程序代码在由机器执行时，促使所述机器执行以下操作：

接收用于场景的图形数据，所述图形数据包含以第一精度定位在全局坐标栅格内的场景中的多个图元；

读取处于所述第一精度的所述图元的顶点；

将所述图元的所述顶点适应性地量化到第二精度，所述第二精度与第一BVH节点的第一局部坐标栅格关联，所述第二精度低于所述第一精度，其中所述局部坐标栅格与处于所述第一精度的所述全局坐标栅格内的位置关联；

22.如权利要求21所述的机器可读介质，其中所述第一精度包括32位单精度浮点精度。

23.如权利要求21所述的机器可读介质，其中所述第二精度包括8位或16位无符号整数精度。

24.如权利要求21所述的机器可读介质，进一步包括程序代码以促使所述机器执行以下操作：

25.如权利要求21所述的机器可读介质，其中所述子节点包含第一子节点和第二子节点，并且其中适应性地量化进一步包括：

26.如权利要求25所述的机器可读介质，其中构造所述第二局部坐标栅格进一步包括：

27.如权利要求21所述的机器可读介质，进一步包括程序代码以促使所述机器执行以下操作：

28.如权利要求27所述的机器可读介质，其中所述非空间分割面元划分包括对象分割面元划分，其中为执行所述对象分割面元划分，所述几何量化器要确定包围所述图元的多个形心的形心盒并且使用所述形心盒来创建一个或多个面元。

29.如权利要求28所述的机器可读介质，其中所述形心盒被存储并且从所述第一BVH节点传播到所述子节点以被用于所述子节点内的面元划分操作。