CN114119336A

CN114119336A - 用于自适应超采样的样本的基于深度学习的选择

Info

Publication number: CN114119336A
Application number: CN202011534920.3A
Authority: CN
Inventors: D·波尔; C·马沙尔; S·潘尼尔
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2020-06-10
Filing date: 2020-12-23
Publication date: 2022-03-01
Also published as: DE102020131896A1; US20210390664A1; JP2021197136A; KR20210153514A; US11526964B2; TW202147242A

Abstract

本公开的发明名称为“用于自适应超采样的样本的基于深度学习的选择”。公开了一种促进用于自适应超采样的样本的基于深度学习的选择的设备。该设备包括一个或多个处理元件，用于：接收包括输入贴片和输入贴片的对应超采样值的训练数据，其中，每个输入贴片包括多个像素；并且基于训练数据来训练机器学习模型以标识像素的所渲染的贴片的超采样的级别。

Description

用于自适应超采样的样本的基于深度学习的选择

技术领域

本公开一般涉及数据处理，并且更特定地，涉及用于自适应超采样（adaptivesupersampling）的样本的基于深度学习的选择。

背景技术

当前并行图形数据处理包括被开发成对图形数据执行特定操作的系统和方法，所述特定操作诸如例如线性内插（linear interpolation）、曲面细分（tessellation）、栅格化（rasterization）、纹理映射（texture mapping）、深度测试等。传统上，图形处理器使用固定功能计算单元来处理图形数据；然而最近，已使图形处理器的部分可编程，从而使此类处理器能够支持用于处理顶点数据和片段数据的更广泛种类的操作。

为了进一步提高性能，图形处理器通常实现诸如流水线化（pipelining）的处理技术，其试图遍及图形流水线的不同部分并行处理尽可能多的图形数据。具有单指令多数据（SIMD）或单指令多线程（SIMT）架构的并行图形处理器被设计成最大化图形流水线中的并行处理量。在SIMD架构中，具有多个处理元件的计算机试图同时对多个数据点执行相同的操作。在SIMT架构中，并行线程的群组试图尽可能经常地一起同步执行程序指令以提高处理效率。

附图说明

为了可详细地理解本实施例的上述特征所采用的方式，可通过参考实施例来得到对上文简要概述的实施例的更特定描述，所述实施例中的一些在附图中示出。然而，要注意，附图示出了典型的实施例，并且因此不应被认为是对其范围的限制。

图1是处理系统的框图；

图2A-2D示出了计算系统和图形处理器；

图3A-3C示出了附加的图形处理器和计算加速器架构的框图；

图4是图形处理器的图形处理引擎的框图；

图5A-5B示出了包括在图形处理器核中采用的处理元件的阵列的线程执行逻辑；

图6示出了附加的执行单元；

图7是示出图形处理器指令格式的框图；

图8是附加图形处理器架构的框图；

图9A-9B示出了图形处理器命令格式和命令序列；

图10示出了用于数据处理系统的示例图形软件架构；

图11A是示出了IP核开发系统的框图；

图11B示出了集成电路封装组装件的截面侧视图；

图11C示出了包括连接至衬底（例如，基础管芯）的硬件逻辑小芯片的多个单元的封装组装件；

图11D示出了包括可互换小芯片的封装组装件；

图12是示出了示例片上系统集成电路的框图；

图13A-13B是示出了供SoC内使用的示例图形处理器的框图；

图14示出了根据实施例的机器学习软件栈（software stack）。

图15A-15B示出了示例深度神经网络的层。

图16示出了示例递归神经网络。

图17示出了深度神经网络的训练和部署。

图18是示出分布式学习的框图。

图19是根据本公开的实现的可促进用于自适应超采样的样本的基于深度学习的选择的示例计算系统的框图。

图20A-20B示出了根据本公开的实现的作为示例渲染场景的一部分的像素的示例贴片。

图21示出了根据本公开的实现的描绘用于AI网络的训练目的的多个贴片的超采样的表。

图22示出了根据本公开的实现的用于训练以选择用于图像的贴片的自适应超采样的样本的示例模型。

图23是示出用于自适应超采样的样本的基于深度学习的选择的模型训练的方法的实施例的流程图。

图24是示出用于自适应超采样的样本的基于深度学习的选择的模型推理的方法的实施例的流程图。

具体实施方式

图形处理单元（GPU）通信地耦合到主机/处理器核以加速例如图形操作、机器学习操作、模式分析操作和/或各种通用GPU（GPGPU）功能。GPU可通过总线或另一互连（例如，高速互连，诸如PCIe或NVLink）通信地耦合到主机处理器/核。备选地，GPU可与核集成在相同封装或芯片上，并且通过内部处理器总线/互连（即，在封装或芯片内部）通信地耦合到核。不管GPU连接所采用的方式如何，处理器核可以以工作描述符中所含有的命令/指令的序列的形式将工作分配给GPU。GPU接着将专用电路/逻辑用于高效地处理这些命令/指令。

在以下描述中，阐述了许多特定细节以提供更透彻的理解。然而，对于本领域技术人员来说将明显的是，可在没有这些特定细节中的一个或多个的情况下实践本文中描述的实施例。在其它情况下，尚未描述公知的特征，以避免模糊本实施例的细节。

系统概述

图1是根据实施例的处理系统100的框图。系统100可用于单处理器台式计算机系统、多处理器工作站系统或具有大量处理器102或处理器核107的服务器系统中。在一个实施例中，系统100是并入在供移动、手持式或嵌入式装置中（诸如在带有到局域或广域网的有线或无线连接性的物联网（IoT）装置内）使用的片上系统（SoC）集成电路内的处理平台。

在一个实施例中，系统100可包括以下各项、与以下各项耦合或者被集成在以下各项内：基于服务器的游戏平台；游戏控制台，包括游戏和媒体控制台、移动游戏控制台、手持式游戏控制台或在线游戏控制台。在一些实施例中，系统100是以下各项的一部分：移动电话、智能电话、平板计算装置或诸如带有低内部存储容量的膝上型计算机之类的移动因特网连接的装置。处理系统100还可包括以下各项、与以下各项耦合或者被集成在以下各项内：可穿戴装置，诸如智能手表可穿戴装置；智能眼镜（smart eyewear）或服装，其用增强现实（AR）或虚拟现实（VR）特征来被增强以提供视觉、音频或触觉输出，以补充现实世界视觉、音频或触觉体验或者以其它方式提供文本、音频、图形、视频、全息图像或视频、或者触觉反馈；其它增强现实（AR）装置；或者其它虚拟现实（VR）装置。在一些实施例中，处理系统100包括电视或机顶盒装置，或者是电视或机顶盒装置的一部分。在一个实施例中，系统100可包括以下各项、与以下各项耦合或者被集成在以下各项内：自动驾驶交通工具，诸如公共汽车、牵引车拖车、汽车、摩托车或电动自行车、飞机或滑翔机（或其任何组合）。自动驾驶交通工具可使用系统100来处理在交通工具周围感测到的环境。

在一些实施例中，一个或多个处理器102各自包括一个或多个处理器核107以处理指令，所述指令在被执行时，执行用于系统或用户软件的操作。在一些实施例中，一个或多个处理器核107中的至少一个处理器核被配置成处理特定指令集109。在一些实施例中，指令集109可促进复杂指令集计算（CISC）、精简指令集计算（RISC）或经由超长指令字（VLIW）的计算。一个或多个处理器核107可处理不同指令集109，所述指令集109可包括用于促进对其它指令集的仿真的指令。处理器核107还可包括其它处理装置，诸如数字信号处理器（DSP）。

在一些实施例中，处理器102包括高速缓冲存储器104。取决于架构，处理器102可具有单个内部高速缓存或多个级别的内部高速缓存。在一些实施例中，在处理器102的各种组件之间共享高速缓冲存储器。在一些实施例中，处理器102还使用外部高速缓存（例如，3级（L3）高速缓存或末级高速缓存（LLC））（未示出），其可在使用已知高速缓存一致性技术的处理器核107之间被共享。寄存器堆106可另外被包括在处理器102中，并且可包括用于存储不同类型的数据的不同类型的寄存器（例如，整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器）。一些寄存器可以是通用寄存器，而其它寄存器可特定于处理器102的设计。

在一些实施例中，一个或多个处理器102与一个或多个接口总线110耦合，以在处理器102与系统100中的其它组件之间传送通信信号，诸如地址、数据或控制信号。接口总线110在一个实施例中可以是处理器总线，诸如某一版本的直接媒体接口（DMI）总线。然而，处理器总线不限于DMI总线，并且可包括一个或多个外设组件互连总线（PeripheralComponent Interconnect bus）（例如，PCI、PCI express）、存储器总线或其它类型的接口总线。在一个实施例中，（一个或多个）处理器102包括集成的存储器控制器116和平台控制器集线器130。存储器控制器116促进存储器装置与系统100的其它组件之间的通信，而平台控制器集线器（PCH）130经由本地I/O总线提供到I/O装置的连接。

存储器装置120可以是动态随机存取存储器（DRAM）装置、静态随机存取存储器（SRAM）装置、闪速存储器装置、相变存储器装置或具有适合性能以充当进程存储器的某一其它存储器装置。在一个实施例中，存储器装置120可作为用于系统100的系统存储器进行操作，以存储数据122和指令121以供在一个或多个处理器102执行应用或进程时使用。存储器控制器116还与可选的外部图形处理器118耦合，所述外部图形处理器118可与处理器102中的一个或多个图形处理器108进行通信以执行图形和媒体操作。在一些实施例中，可由加速器112协助图形、媒体和/或计算操作，所述加速器112是可被配置成执行图形、媒体或计算操作的专门集合的协处理器。例如，在一个实施例中，加速器112是用于优化机器学习或计算操作的矩阵乘法加速器。在一个实施例中，加速器112是光线追踪加速器，其可被用于与图形处理器108协同执行光线追踪操作。在一个实施例中，可使用外部加速器119来替代加速器112或与加速器112协同。

在一些实施例中，显示装置111可连接到（一个或多个）处理器102。显示装置111可以是如在移动电子装置或膝上型装置中的内部显示装置或者经由显示接口（例如，DisplayPort等）附连的外部显示装置中的一个或多个。在一个实施例中，显示装置111可以是头戴式显示器（HMD），诸如供在虚拟现实（VR）应用或增强现实（AR）应用中使用的立体显示装置。

在一些实施例中，平台控制器集线器130使得外设能经由高速I/O总线连接到存储器装置120和处理器102。I/O外设包括但不限于音频控制器146、网络控制器134、固件接口128、无线收发器126、触摸传感器125、数据存储装置124（例如，非易失性存储器、易失性存储器、硬盘驱动器、闪速存储器、NAND、3D NAND、3D XPoint等）。数据存储装置124可经由存储接口（例如，SATA）或经由诸如外设组件互连总线（例如，PCI、PCI express）之类的外设总线进行连接。触摸传感器125可包括触摸屏传感器、压力传感器或指纹传感器。无线收发器126可以是Wi-Fi收发器、蓝牙收发器或诸如3G、4G、5G或长期演进（LTE）收发器之类的移动网络收发器。固件接口128能够实现与系统固件通信，并且可以是例如统一可扩展固件接口（UEFI）。网络控制器134可能够实现到有线网络的网络连接。在一些实施例中，高性能网络控制器（未示出）与接口总线110耦合。在一个实施例中，音频控制器146是多通道高清晰度音频控制器。在一个实施例中，系统100包括用于将传统（legacy）（例如，个人系统2（PS/2））装置耦合到系统的可选的传统I/O控制器140。平台控制器集线器130还可连接到一个或多个通用串行总线（USB）控制器142连接输入装置，诸如键盘和鼠标143组合、相机144或其它USB输入装置。

将领会的是，示出的系统100是示例而非限制性的，因为以不同方式配置的其它类型的数据处理系统也可被使用。例如，存储器控制器116和平台控制器集线器130的实例可被集成到分立的外部图形处理器（诸如，外部图形处理器118）中。在一个实施例中，平台控制器集线器130和/或存储器控制器116可在一个或多个处理器102的外部。例如，系统100可包括外部存储器控制器116和平台控制器集线器130，其可被配置为与（一个或多个）处理器102通信的系统芯片组内的存储器控制器集线器和外设控制器集线器。

例如，可使用电路板（“滑板（sled）”），将诸如CPU、存储器和其它组件之类的组件放置在所述滑板上，其被设计用于增加的热性能。在一些实施例中，诸如处理器的处理组件位于滑板的顶侧上，而诸如DIMM之类的近存储器位于滑板的底侧上。作为通过此设计提供的增强气流的结果，组件可比在典型系统中更高的频率和功率水平操作，由此增加性能。此外，滑板被配置成与机架中的功率和数据通信缆线盲配对，从而增强它们被快速移除、升级、重新安装和/或替换的能力。类似地，位于滑板上的各个组件（诸如处理器、加速器、存储器和数据存储驱动器）被配置成由于它们与彼此增加的间距而容易被升级。在说明性实施例中，组件另外包括硬件证明特征以证实其确实性（authenticity）。

数据中心可利用单个网络架构（“组构（fabric）”），所述单个网络架构支持包括以太网和全路径（Omni-Path）的多个其它网络架构。滑板可经由光纤被耦合到交换机，所述光纤提供比典型双绞线缆线（例如，类别5、类别5e、类别6等）更高的带宽和更低的时延。由于高带宽、低时延互连和网络架构，数据中心可使用在物理上解聚的池资源（诸如存储器、加速器（例如，GPU、图形加速器、FPGA、ASIC、神经网络和/或人工智能加速器等）以及数据存储驱动器），并且在所要求的基础上将它们提供到计算资源（例如，处理器），使得计算资源能访问池化资源（pooled resource），如同池化资源是本地的那样。

电力供应或电源可将电压和/或电流提供到本文中描述的系统100或任何组件或系统。在一个示例中，电力供应包括用于插入到壁装电源插座的AC到DC（交流到直流）适配器。此类AC电力可以是可再生能源（例如，太阳能）电源。在一个示例中，电源包括DC电源，诸如外部AC到DC转换器。在一个示例中，电源或电力供应包括无线充电硬件以经由接近充电场进行充电。在一个示例中，电源可包括内部电池、交流供应、基于运动的电力供应、太阳能供应或燃料电池源。

图2A-2D示出了由本文中描述的实施例提供的计算系统和图形处理器。与本文中任何其它附图的元件具有相同参考标号（或名称）的图2A-2D的元件可以以与本文中其它地方所描述的方式类似的任何方式操作或起作用，但不限于这样。

图2A是具有一个或多个处理器核202A-202N、集成存储器控制器214和集成图形处理器208的处理器200的实施例的框图。处理器200可包括另外的核，所述另外的核多达并且包括由虚线框表示的另外的核202N。处理器核202A-202N中的每个处理器核包括一个或多个内部高速缓存单元204A-204N。在一些实施例中，每个处理器核还可访问一个或多个共享高速缓存单元206。内部高速缓存单元204A-204N和共享高速缓存单元206表示处理器200内的高速缓冲存储器层级。高速缓冲存储器层级可包括每个处理器核内的至少一级的指令和数据高速缓存，以及一级或多级的共享中间级高速缓存，诸如2级（L2）、3级（L3）、4级（L4）或其它级的高速缓存，其中在外部存储器前的最高级的高速缓存被分类为LLC。在一些实施例中，高速缓存一致性逻辑维持各种高速缓存单元206与204A-204N之间的一致性。

在一些实施例中，处理器200还可包括系统代理核210和一个或多个总线控制器单元216的集合。一个或多个总线控制器单元216管理外设总线的集合，诸如一个或多个PCI或PCI express总线。系统代理核210提供用于各种处理器组件的管理功能性。在一些实施例中，系统代理核210包括一个或多个集成存储器控制器214以管理对各种外部存储器装置（未示出）的访问。

在一些实施例中，处理器核202A-202N中的一个或多个处理器核包括对同时多线程的支持。在此类实施例中，系统代理核210包括用于在多线程的处理期间协调和操作核202A-202N的组件。系统代理核210可另外包括功率控制单元（PCU），所述功率控制单元（PCU）包括用于调节处理器核202A-202N和图形处理器208的功率状态的逻辑和组件。

在一些实施例中，处理器200另外包括用于执行图形处理操作的图形处理器208。在一些实施例中，图形处理器208与包括一个或多个集成存储器控制器214的系统代理核210和共享高速缓存单元206的集合耦合。在一些实施例中，系统代理核210还包括用于将图形处理器输出驱动到一个或多个耦合的显示器的显示控制器211。在一些实施例中，显示控制器211还可以是经由至少一个互连与图形处理器耦合的单独模块，或者可被集成在图形处理器208内。

在一些实施例中，基于环的互连单元212被用于耦合处理器200的内部组件。然而，可使用备选互连单元，诸如点对点互连、交换互连或其它技术，包括本领域中公知的技术。在一些实施例中，图形处理器208经由I/O链路213与环形互连212耦合。

示例I/O链路213表示多个种类的I/O互连中的至少一个，包括促进各种处理器组件与诸如eDRAM模块的高性能嵌入式存储器模块218之间的通信的封装上I/O互连。在一些实施例中，处理器核202A-202N中的每个处理器核和图形处理器208可使用嵌入式存储器模块218作为共享末级高速缓存。

在一些实施例中，处理器核202A-202N是执行相同指令集架构的同质核（homogenous core）。在另一实施例中，处理器核202A-202N在指令集架构（ISA）方面是异质的（heterogeneous），其中处理器核202A-202N中的一个或多个处理器核执行第一指令集，而其它核中的至少一个核执行第一指令集的子集或不同指令集。在一个实施例中，处理器核202A-202N在微架构方面是异质的，其中具有相对更高功耗的一个或多个核与具有更低功耗的一个或多个功率核耦合。在一个实施例中，处理器核202A-202N在计算能力方面是异质的。另外，处理器200可在一个或多个芯片上被实现，或者被实现为除其它组件外还具有示出的组件的SoC集成电路。

图2B是根据本文中描述的一些实施例的图形处理器核219的硬件逻辑的框图。与本文中任何其它附图的元件具有相同参考标号（或名称）的图2B的元件可以以与本文中其它地方所描述的方式类似的任何方式操作或起作用，但不限于这样。有时被称为核切片（core slice）的图形处理器核219可以是模块化图形处理器内的一个或多个图形核。图形处理器核219是一个图形核切片的示例，并且如本文中所描述的图形处理器可包括基于目标功率和性能包络（performance envelope）的多个图形核切片。每个图形处理器核219可包括与也称为子切片的多个子核221A-221F耦合的固定功能块230，所述多个子核221A-221F包括通用和固定功能逻辑的模块化块。

在一些实施例中，固定功能块230包括几何/固定功能流水线231，所述几何/固定功能流水线231可例如在更低性能/或更低功率图形处理器实现中由图形处理器核219中的所有子核共享。在各种实施例中，几何/固定功能流水线231包括3D固定功能流水线（例如，下述的如图3A和图4中的3D流水线312）、视频前端单元、线程派生器（thread spawner）和线程分派器（thread dispatcher）以及管理统一返回缓冲器（unified return buffer）（例如，如下所述的在图4中的统一返回缓冲器418）的统一返回缓冲器管理器。

在一个实施例中，固定功能块230还包括图形SoC接口232、图形微控制器233和媒体流水线234。图形SoC接口232提供图形处理器核219与片上系统集成电路内的其它处理器核之间的接口。图形微控制器233是可编程子处理器，其可被配置成管理图形处理器核219的各种功能，包括线程分派、调度和抢占（pre-emption）。媒体流水线234（例如，图3A和图4的媒体流水线316）包括用于促进包括图像和视频数据的多媒体数据的解码、编码、预处理和/或后处理的逻辑。媒体流水线234经由对子核221A-221F内的计算或采样逻辑的请求来实现媒体操作。

在一个实施例中，SoC接口232使得图形处理器核219可与通用应用处理器核（例如，CPU）和/或SoC内的其它组件通信，所述SoC内的其它组件包括诸如共享末级高速缓冲存储器、系统RAM和/或嵌入式片上或封装上DRAM的存储器层级元件。SoC接口232还可能够实现与SoC内的固定功能装置（诸如，相机成像流水线）的通信，并且能够实现全局存储器原子的使用和/或实现全局存储器原子，所述全局存储器原子可在图形处理器核219与SoC内的CPU之间被共享。SoC接口232还能够实现用于图形处理器核219的功率管理控制，并且能够实现图形核219的时钟域与SoC内的其它时钟域之间的接口。在一个实施例中，SoC接口232能够实现接收来自命令流转化器（command streamer）和全局线程分派器的命令缓冲器（command buffer），所述命令缓冲器被配置成向图形处理器内的一个或多个图形核中的每个图形核提供命令和指令。命令和指令可在要执行媒体操作时被分派到媒体流水线234，或者在要执行图形处理操作时被分派到几何和固定功能流水线（例如，几何和固定功能流水线231、几何和固定功能流水线237）。

图形微控制器233可被配置成执行用于图形处理器核219的各种调度和管理任务。在一个实施例中，图形微控制器233可在子核221A-221F内的执行单元（EU）阵列222A-222F、224A-224F内的各种图形并行引擎上执行图形和/或计算工作负载调度。在此调度模型中，在包括图形处理器核219的SoC的CPU核上执行的主机软件可将工作负载提交给多个图形处理器门铃（graphic processor doorbell）中的一个，这调用在适当图形引擎上的调度操作。调度操作包括确定接下来要运行哪个工作负载，向命令流转化器提交工作负载、对在引擎上运行的现有工作负载进行抢占、监测工作负载的进展、以及在工作负载完成时通知主机软件。在一个实施例中，图形微控制器233还可促进用于图形处理器核219的低功率或空闲状态，从而为图形处理器核219提供独立于操作系统和/或系统上的图形驱动器软件跨低功率状态转变来对图形处理器核219内的寄存器进行保存和恢复的能力。

图形处理器核219可具有多于或少于示出的子核221A-221F，多达N个的模块化子核。对于N个子核的每个集合，图形处理器核219还可包括共享功能逻辑235、共享和/或高速缓冲存储器236、几何/固定功能流水线237以及用于加速各种图形和计算处理操作的另外的固定功能逻辑238。共享功能逻辑235可包括与图4的共享功能逻辑420相关联的逻辑单元（例如，采样器、数学和/或线程间通信逻辑），所述逻辑单元可由图形处理器核219内的每N个子核共享。共享和/或高速缓冲存储器236可以是用于图形处理器核219内的N个子核221A-221F的集合的末级高速缓存，并且还可充当可由多个子核访问的共享存储器。几何/固定功能流水线237可代替固定功能块230内的几何/固定功能流水线231而被包括并且可包括相同或类似的逻辑单元。

在一个实施例中，图形处理器核219包括另外的固定功能逻辑238，其可包括供图形处理器核219使用的各种固定功能加速逻辑。在一个实施例中，另外的固定功能逻辑238包括供在仅位置着色中使用的另外的几何流水线。在仅位置着色中，存在两个几何流水线：几何/固定功能流水线237、231内的完全几何流水线；以及剔除流水线（cull pipeline），其是可被包括在另外的固定功能逻辑238内的另外的几何流水线。在一个实施例中，剔除流水线是完全几何流水线的裁减版本（trimmed down version）。完全流水线和剔除流水线可执行相同应用的不同实例，每个实例具有单独的上下文。仅位置着色可隐藏被丢弃三角形的长剔除运行，使得在一些实例中能更早完成着色。例如并且在一个实施例中，另外的固定功能逻辑238内的剔除流水线逻辑可执行与主应用并行的位置着色器，并且一般比完全流水线更快生成结果，因为剔除流水线对顶点的位置属性进行获取并着色，而不向帧缓冲器执行像素的栅格化和渲染。剔除流水线可使用生成的结果来计算用于所有三角形的可见性信息，而不考虑那些三角形是否被剔除。完全流水线（其在此实例中可被称为重放流水线）可消耗可见性信息以跳过被剔除的三角形，以对最终被传递到栅格化阶段的可见三角形进行着色。

在一个实施例中，另外的固定功能逻辑238还可包括诸如固定功能矩阵乘法逻辑之类的机器学习加速逻辑，以用于包括针对机器学习训练或推理的优化的实现。

在每个图形子核221A-221F内包括执行资源的集合，其可被用于响应于图形流水线、媒体流水线或着色器程序的请求而执行图形、媒体和计算操作。图形子核221A-221F包括多个EU阵列222A-222F、224A-224F、线程分派和线程间通信（TD/IC）逻辑223A-223F、3D（例如，纹理）采样器225A-225F、媒体采样器206A-206F、着色器处理器227A-227F及共享本地存储器（SLM）228A-228F。EU阵列222A-222F、224A-224F各自包括多个执行单元，所述多个执行单元是能够为图形、媒体或计算操作（包括图形、媒体或计算着色器程序）服务而执行浮点和整数/定点逻辑运算的通用图形处理单元。TD/IC逻辑223A-223F执行用于子核内的执行单元的本地线程分派和线程控制操作，并且促进在子核的执行单元上执行的线程之间的通信。3D采样器225A-225F可将纹理或其它3D图形有关数据读取到存储器中。3D采样器可基于配置的样本状态和与给定纹理相关联的纹理格式以不同方式读取纹理数据。媒体采样器206A-206F可基于与媒体数据相关联的类型和格式来执行类似的读取操作。在一个实施例中，每个图形子核221A-221F可交替包括统一3D和媒体采样器。在子核221A-221F中的每个子核内的执行单元上执行的线程可利用每个子核内的共享本地存储器228A-228F，以使得在线程群组内执行的线程能使用片上存储器的公共池来执行。

图2C示出了包括布置到多核群组240A-240N中的图形处理资源的专用集合的图形处理单元（GPU）239。尽管提供了单个多核群组240A的细节，但将领会的是，其它多核群组240B-240N可被配备有图形处理资源的相同或类似集合。

如所示出的，多核群组240A可包括图形核243的集合、张量核244的集合和光线追踪核245的集合。调度器/分派器241调度和分派图形线程以供在各种核243、244、245上执行。寄存器堆242的集合存储在执行图形线程时由核243、244、245使用的操作数值。这些寄存器可包括例如用于存储整数值的整数寄存器、用于存储浮点值的浮点寄存器、用于存储打包数据元素（整数和/或浮点数据元素）的向量寄存器及用于存储张量/矩阵值的贴片寄存器（tile register）。在一个实施例中，贴片寄存器被实现为向量寄存器的组合集合。

一个或多个组合的1级（L1）高速缓存和共享存储器单元247在每个多核群组240A内本地地存储图形数据，诸如纹理数据、顶点数据、像素数据、光线数据、包围体积数据等。一个或多个纹理单元247还可被用于执行纹理操作，诸如纹理映射和采样。由多核群组240A-240N的全部或其子集共享的2级（L2）高速缓存253存储用于多个并发图形线程的图形数据和/或指令。如所示出的，L2高速缓存253可跨多个多核群组240A-240N被共享。一个或多个存储器控制器248将GPU 239耦合到存储器249，所述存储器249可以是系统存储器（例如，DRAM）和/或专用图形存储器（例如，GDDR6存储器）。

输入/输出（I/O）电路系统250将GPU 239耦合到一个或多个I/O装置252，诸如数字信号处理器（DSP）、网络控制器或用户输入装置。片上互连可被用于将I/O装置252耦合到GPU 239和存储器249。I/O电路系统250的一个或多个I/O存储器管理单元（IOMMU）251将I/O装置252直接耦合到系统存储器249。在一个实施例中，IOMMU 251管理页表的多个集合，以将虚拟地址映射到系统存储器249中的物理地址。在此实施例中，I/O装置252、（一个或多个）CPU 246和（一个或多个）GPU 239可共享相同虚拟地址空间。

在一个实现中，IOMMU 251支持虚拟化。在此情况下，它可管理页表的第一集合以将客户/图形虚拟地址映射到客户/图形物理地址，并且管理页表的第二集合以将客户/图形物理地址映射到系统/主机物理地址（例如，在系统存储器249内）。页表的第一和第二集合中的每个的基址可被存储在控制寄存器中并且在上下文切换时被换出（例如，使得新的上下文被提供有对页表的相关集合的访问）。尽管在图2C中未被示出，但多核群组240A-240N和/或核243、244、245中的每个可包括转译后备缓冲器（TLB），以对客户虚拟到客户物理转译、客户物理到主机物理转译以及客户虚拟到主机物理转译进行高速缓存。

在一个实施例中，CPU 246、GPU 239和I/O装置252被集成在单个半导体芯片和/或芯片封装上。示出的存储器249可被集成在相同芯片上，或者可经由片外（off-chip）接口被耦合到存储器控制器248。在一个实现中，存储器249包括GDDR6存储器，所述GDDR6存储器共享与其它物理系统级存储器相同虚拟地址空间，但是本公开的基础原理不限于此特定实现。

在一个实施例中，张量核244包括特别设计成执行矩阵运算的多个执行单元，所述矩阵运算是用于执行深度学习操作的基础计算操作。例如，同时矩阵乘法运算可被用于神经网络训练和推理。张量核244可使用各种操作数精度来执行矩阵处理，所述各种操作数精度包括单精度浮点（例如，32位）、半精度浮点（例如，16位）、整数字（16位）、字节（8位）和半字节（4位）。在一个实施例中，神经网络实现提取每个经渲染的场景的特征，潜在地组合来自多个帧的细节，以构造高质量的最终图像。

在深度学习实现中，可调度并行矩阵乘法工作以供在张量核244上执行。神经网络的训练特别使用大量的矩阵点积运算。为了处理N x N x N矩阵相乘的内积公式，张量核244可包括至少N个点积处理元素。在矩阵相乘开始前，一个矩阵被加载到贴片寄存器，并且在N个周期的每个周期，第二矩阵的至少一列被加载。每个周期，有被处理的N个点积。

取决于特定实现，可以以不同精度存储矩阵元素，所述不同精度包括16位字、8位字节（例如，INT8）和4位半字节（例如，INT4）。可为张量核244指定不同精度模式以确保最高效的精度被用于不同工作负载（例如，诸如可容许量化到字节和半字节的推理工作负载）。

在一个实施例中，光线追踪核245对于实时光线追踪和非实时光线追踪实现二者均使光线追踪操作加速。特别地，光线追踪核245包括光线遍历（ray traversal）/交叉电路系统，以用于使用包围体积层级（bounding volume hierarchy）（BVH）来执行光线遍历并且标识封闭在BVH体积之内的图元与光线之间的交叉。光线追踪核245还可包括用于执行深度测试和剔除（例如，使用Z缓冲器或类似布置）的电路系统。在一个实现中，光线追踪核245与本文中描述的图像去噪技术协同执行遍历和交叉操作，其至少一部分可在张量核244上被执行。例如，在一个实施例中，张量核244实现深度学习神经网络以执行由光线追踪核245生成的帧的去噪。然而，（一个或多个）CPU 246、图形核243和/或光线追踪核245还可实现去噪和/或深度学习算法的全部或一部分。

另外，如上所述，可采用去噪的分布式方法，其中GPU 239在通过网络或高速互连耦合到其它计算装置的计算装置中。在该实施例中，互连的计算装置共享神经网络学习/训练数据来改进速度，利用该速度整个系统学习对不同类型的图像帧和/或不同的图形应用执行去噪。

在一个实施例中，光线追踪核245处理所有BVH遍历和光线-图元交叉，从而避免图形核243以每光线数千个指令而过载。在一个实施例中，每个光线追踪核245包括用于执行包围盒测试（例如，对于遍历操作）的专用电路系统的第一集合和用于执行光线-三角形交叉测试（例如，交叉已被遍历的光线）的专用电路系统的第二集合。因此，在一个实施例中，多核群组240A可仅仅启动光线探头，并且光线追踪核245独立执行光线遍历和交叉并且将命中（hit）数据（例如，命中、无命中（no hit）、多次命中等）返回到线程上下文。在光线追踪核245执行遍历和交叉操作的同时，其它核243、244被释放以执行其它图形或计算工作。

在一个实施例中，每个光线追踪核245包括用于执行BVH测试操作的遍历单元和执行光线-图元交叉测试的交叉单元。交叉单元生成“命中”、“无命中”或“多次命中”响应，交叉单元将该响应提供到适当的线程。在遍历和交叉操作期间，其它核（例如，图形核243和张量核244）的执行资源被释放以执行其它形式的图形工作。

在下述的一个特定实施例中，使用了混合栅格化/光线追踪方法，其中在图形核243与光线追踪核245之间分布工作。

在一个实施例中，光线追踪核245（和/或其它核243、244）包括对诸如Microsoft的DirectX光线追踪（DXR）之类的光线追踪指令集的硬件支持，所述DXR包括DispatchRays命令以及光线-生成、最接近-命中、任何-命中和未命中（miss）着色器，这些能够实现对每个对象指派纹理和着色器的集合。由光线追踪核245、图形核243和张量核244可支持的另一光线追踪平台是Vulkan 1.1.85。然而，注意本公开的基础原理不限于任何特定光线追踪ISA。

一般而言，各种核245、244、243可支持光线追踪指令集，所述光线追踪指令集包括用于光线生成、最接近命中、任何命中、光线-图元交叉、每图元和层级包围盒构造、未命中、访问及异常（exception）的指令/功能。更特定地说，一个实施例包括光线追踪指令以执行以下功能：

光线生成 – 可为每个像素、样本或其它用户定义的工作指派执行光线生成指令。

最接近命中 – 可执行最接近命中指令，以用场景内的图元来定位光线的最接近交叉点。

任何命中 - 任何命中指令标识场景内的图元与光线之间的多个交叉，潜在地标识新的最接近交叉点。

交叉 - 交叉指令执行光线-图元交叉测试并且输出结果。

每图元包围盒构造 - 此指令围绕给定图元或图元的群组构建包围盒（例如，在构建新的BVH或其它加速数据结构时）。

未命中 – 指示光线未命中场景的指定区域或场景内的所有几何。

访问 – 指示光线将遍历的子代体积（children volume）。

异常 - 包括各种类型的异常处理程序（例如，针对各种误差状况而被调用）。

图2D是根据本文中描述的实施例的可被配置为图形处理器和/或计算加速器的通用图形处理单元（GPGPU）270的框图。GPGPU 270可经由一个或多个系统和/或存储器总线与主机处理器（例如，一个或多个CPU 246）和存储器271、272互连。在一个实施例中，存储器271是可与一个或多个CPU 246共享的系统存储器，而存储器272是专用于GPGPU 270的装置存储器。在一个实施例中，装置存储器272和GPGPU 270内的组件可被映射到一个或多个CPU246可访问的存储器地址中。可经由存储器控制器268来促进对存储器271和272的访问。在一个实施例中，存储器控制器268包括内部直接存储器存取（DMA）控制器269，或者可包括逻辑以执行在其它情况下将由DMA控制器执行的操作。

GPGPU 270包括多个高速缓冲存储器，包括L2高速缓存253、L1高速缓存254、指令高速缓存255和共享存储器256，该共享存储器256的至少一部分也可被分区为高速缓冲存储器。GPGPU 270还包括多个计算单元260A-260N。每个计算单元260A-260N包括向量寄存器261、标量寄存器262、向量逻辑单元263和标量逻辑单元264的集合。计算单元260A-260N还可包括本地共享存储器265和程序计数器266。计算单元260A-260N可与常量高速缓存267耦合，该常量高速缓存267可被用于存储常量数据，所述常量数据是在GPGPU 270上执行的内核或着色器程序的运行期间将不改变的数据。在一个实施例中，常量高速缓存267是标量数据高速缓存，并且经高速缓存的（cached）数据可被直接获取到标量寄存器262中。

在操作期间，一个或多个CPU 246可将命令写入已被映射到可访问地址空间中的GPGPU 270中的寄存器或存储器中。命令处理器257可从寄存器或存储器读取命令，并且确定将在GPGPU 270内如何处理那些命令。然后线程分派器258可被用于将线程分派到计算单元260A-260N，以执行那些命令。每个计算单元260A-260N可独立于其它计算单元执行线程。另外，每个计算单元260A-260N可被独立配置用于有条件的计算，并且可有条件地将计算的结果输出到存储器。在提交的命令完成时，命令处理器257可中断一个或多个CPU 246。

图3A-3C示出了由本文中描述的实施例提供的另外的图形处理器和计算加速器架构的框图。与本文中任何其它图的元件具有相同参考标号（或相同或类似的名称）的图3A-3C的元件可以以类似的任何方式操作或起作用、可包括相同组件并且可链接到其它实体，如本文中其它地方所描述的那些那样，但不限于这样。

图3A是图形处理器300的框图，该图形处理器300可以是分立的图形处理单元，或者可以是与多个处理核集成的图形处理器，或诸如但不限于存储器装置或网络接口的其它半导体装置。在一些实施例中，图形处理器经由到图形处理器上的寄存器的存储器映射I/O接口并且利用被放置到处理器存储器中的命令进行通信。在一些实施例中，图形处理器300包括用于访问存储器的存储器接口314。存储器接口314可以是到本地存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存和/或到系统存储器的接口。

在一些实施例中，图形处理器300还包括用于将显示输出数据驱动到显示装置318的显示控制器302。显示控制器302包括用于一个或多个覆盖平面的硬件，以用于显示和组合用户接口元素或视频的多个层。显示装置318可以是内部或外部显示装置。在一个实施例中，显示装置318是头戴式显示装置，诸如虚拟现实（VR）显示装置或增强现实（AR）显示装置。在一些实施例中，图形处理器300包括视频编解码器引擎306以将媒体编码成一个或多个媒体编码格式、从一个或多个媒体编码格式将媒体解码、或者在一个或多个媒体编码格式之间对媒体进行转码，所述编码格式包括但不限于运动图像专家组（MPEG）格式（诸如，MPEG-2）、高级视频编码（AVC）格式（诸如，H.264/MPEG-4 AVC、H.265/HEVC）、开放媒体联盟（AOMedia）VP8、VP9以及电影与电视工程师协会（SMPTE）421M/VC-1和联合图像专家组（JPEG）格式（诸如，JPEG）以及运动JPEG（MJPEG）格式。

在一些实施例中，图形处理器300包括用于执行二维（2D）栅格化器操作（包括例如位边界块传送）的块图像传送（BLIT）引擎304。然而，在一个实施例中，使用图形处理引擎（GPE）310的一个或多个组件来执行2D图形操作。在一些实施例中，GPE 310是用于执行包括三维（3D）图形操作和媒体操作的图形操作的计算引擎。

在一些实施例中，GPE 310包括用于执行3D操作的3D流水线312，所述3D操作诸如使用作用于3D图元形状（例如，矩形、三角形等）的处理功能来渲染三维图像和场景。3D流水线312包括可编程和固定功能元件，所述可编程和固定功能元件在元件内执行各种任务和/或派生（spawn）到3D/媒体子系统315的执行线程。虽然3D流水线312可被用于执行媒体操作，但GPE 310的实施例还包括特别用于执行媒体操作（诸如，视频后处理和图像增强）的媒体流水线316。

在一些实施例中，媒体流水线316包括固定功能或可编程逻辑单元以代替或者代表视频编解码器引擎306来执行一个或多个专用媒体操作，诸如视频解码加速、视频去交织和视频编码加速。在一些实施例中，媒体流水线316另外包括线程派生单元以派生用于在3D/媒体子系统315上执行的线程。派生的线程在3D/媒体子系统315中包括的一个或多个图形执行单元上执行用于媒体操作的计算。

在一些实施例中，3D/媒体子系统315包括用于执行由3D流水线312和媒体流水线316派生的线程的逻辑。在一个实施例中，流水线将线程执行请求发送到3D/媒体子系统315，所述3D/媒体子系统315包括线程分派逻辑，所述线程分派逻辑用于将各种请求仲裁（arbitrate）并分派到可用线程执行资源。执行资源包括用于处理3D和媒体线程的图形执行单元的阵列。在一些实施例中，3D/媒体子系统315包括用于线程指令和数据的一个或多个内部高速缓存。在一些实施例中，子系统还包括共享存储器，所述共享存储器包括寄存器和可寻址存储器，以在线程之间共享数据并且存储输出数据。

图3B示出了根据本文中描述的实施例的具有拼贴（tiled）架构的图形处理器320。在一个实施例中，图形处理器320包括图形处理引擎集群322，所述图形处理引擎集群322在图形引擎贴片310A-310D内具有图3A的图形处理引擎310的多个实例。每个图形引擎贴片310A-310D可经由贴片互连323A-323F的集合而被互连。每个图形引擎贴片310A-310D还可经由存储器互连325A-325D被连接到存储器模块或存储器装置326A-326D。存储器装置326A-326D可使用任何图形存储器技术。例如，存储器装置326A-326D可以是图形双倍数据率（GDDR）存储器。存储器装置326A-326D在一个实施例中是高带宽存储器（HBM）模块，其可与其相应图形引擎贴片310A-310D一起在管芯上。在一个实施例中，存储器装置326A-326D是堆叠存储器装置，其可被堆叠在其相应图形引擎贴片310A-310D之上。在一个实施例中，如图11B-11D中进一步详细描述的，每个图形引擎贴片310A-310D和相关联存储器326A-326D驻留在单独的小芯片上，所述小芯片被接合到基础管芯或基础衬底。

图形处理器300可配置有非统一存储器访问（NUMA）系统，其中存储器装置326A-326D与相关联的图形引擎贴片310A-310D耦合。给定的存储器装置可能会被图形引擎贴片而不是直接与其连接的贴片访问。然而，当访问本地贴片时，对存储器装置326A-326D的访问时延可以是最低的。在一个实施例中，启用了高速缓存一致性NUMA（ccNUMA）系统，该系统使用贴片互连323A-323F来启用图形引擎贴片310A-310D内的高速缓存控制器之间的通信，以在多于一个高速缓存存储相同存储器位置时保持一致的存储器图像。

图形处理引擎集群322可与片上或封装上组构互连324连接。组构互连324可能够实现在图形引擎贴片310A-310D与诸如视频编解码器306和一个或多个复制引擎304的组件之间的通信。复制引擎304可被用于将数据移出以下各项、将数据移入以下各项以及在以下各项之间移动数据：存储器装置326A-326D和在图形处理器320外的存储器（例如，系统存储器）。组构互连324还可被用于互连图形引擎贴片310A-310D。图形处理器320可可选地包括用于能够实现与外部显示装置318的连接的显示控制器302。图形处理器还可被配置为图形或计算加速器。在加速器配置中，可省略显示控制器302和显示装置318。

图形处理器320可经由主机接口328连接到主机系统。主机接口328可能够实现在图形处理器320、系统存储器和/或其它系统组件之间的通信。主机接口328可例如是PCIexpress总线或另一类型的主机系统接口。

图3C示出了根据本文中描述的实施例的计算加速器330。计算加速器330可包括与图3B的图形处理器320的架构类似性并且被优化用于计算加速。计算引擎集群332可包括计算引擎贴片340A-340D的集合，其包括被优化用于并行或基于向量的通用计算操作的执行逻辑。在一些实施例中，计算引擎贴片340A-340D不包括固定功能图形处理逻辑，虽然在一个实施例中，计算引擎贴片340A-340D中的一个或多个计算引擎贴片可包括用于执行媒体加速的逻辑。计算引擎贴片340A-340D可经由存储器互连325A-325D连接到存储器326A-326D。存储器326A-326D和存储器互连325A-325D可以是与在图形处理器320中类似的技术，或者可以是不同的。图形计算引擎贴片340A-340D还可经由贴片互连323A-323F的集合被互连，并且可与组构互连324连接和/或通过组构互连324被互连。在一个实施例中，计算加速器330包括可被配置为装置范围高速缓存的大的L3高速缓存336。计算加速器330还可以以与图3B的图形处理器320类似的方式经由主机接口328连接到主机处理器和存储器。

图形处理引擎

图4是根据一些实施例的图形处理器的图形处理引擎410的框图。在一个实施例中，图形处理引擎（GPE）410是图3A中示出的GPE 310的某一版本，并且还可表示图3B的图形引擎贴片310A-310D。与本文中任何其它图的元件具有相同参考标号（或名称）的图4的元件可以以与本文中其它地方所描述的方式类似的任何方式操作或起作用，但不限于这样。例如，示出了图3A的3D流水线312和媒体流水线316。媒体流水线316在GPE 410的一些实施例中是可选的，并且可未被显式地包括在GPE 410内。例如并且在至少一个实施例中，单独的媒体和/或图像处理器被耦合到GPE 410。

在一些实施例中，GPE 410与命令流转化器403耦合或者包括该命令流转化器403，该命令流转化器403将命令流提供到3D流水线312和/或媒体流水线316。在一些实施例中，命令流转化器403与存储器耦合，所述存储器可以是系统存储器，或内部高速缓冲存储器和共享高速缓冲存储器中的一个或多个。在一些实施例中，命令流转化器403接收来自存储器的命令，并且将命令发送到3D流水线312和/或媒体流水线316。命令是从存储用于3D流水线312和媒体流水线316的命令的环形缓冲器获取的指令（directive）。在一个实施例中，环形缓冲器可另外包括存储批量的多个命令的批量命令缓冲器。用于3D流水线312的命令还可包括对在存储器中存储的数据（诸如但不限于用于3D流水线312的顶点和几何数据和/或用于媒体流水线316的图像数据和存储器对象）的引用。3D流水线312和媒体流水线316通过经由相应流水线内的逻辑执行操作或者通过将一个或多个执行线程分派到图形核阵列414来处理命令和数据。在一个实施例中，图形核阵列414包括图形核（例如，（一个或多个）图形核415A、（一个或多个）图形核415B）的一个或多个块，每个块包括一个或多个图形核。每个图形核包括：图形执行资源的集合，其包括用于执行图形和计算操作的通用和图形特定执行逻辑；以及固定功能纹理处理和/或机器学习和人工智能加速逻辑。

在各种实施例中，3D流水线312可包括用于通过处理指令并且将执行线程分派到图形核阵列414来处理一个或多个着色器程序（诸如，顶点着色器、几何着色器、像素着色器、片段着色器、计算着色器或其它着色器程序）的固定功能和可编程逻辑。图形核阵列414提供执行资源的统一块以供在处理这些着色器程序中使用。图形核阵列414的（一个或多个）图形核415A-415B内的多用途执行逻辑（例如，执行单元）包括对各种3D API着色器语言的支持，并且可执行与多个着色器相关联的多个同时执行线程。

在一些实施例中，图形核阵列414包括用于执行媒体功能（诸如，视频和/或图像处理）的执行逻辑。在一个实施例中，执行单元包括通用逻辑，该通用逻辑可编程以除图形处理操作外还执行并行通用计算操作。该通用逻辑可与在图1的（一个或多个）处理器核107或如图2A中的核202A-202N内的通用逻辑并行或结合地执行处理操作。

由在图形核阵列414上执行的线程生成的输出数据可将数据输出到在统一返回缓冲器（URB）418中的存储器。URB 418可存储用于多个线程的数据。在一些实施例中，URB 418可被用于在图形核阵列414上执行的不同线程之间发送数据。在一些实施例中，URB 418可另外被用于在图形核阵列上的线程与在共享功能逻辑420内的固定功能逻辑之间的同步。

在一些实施例中，图形核阵列414是可缩放的，使得该阵列包括可变数量的图形核，这些图形核各自基于GPE 410的目标功率和性能水平而具有可变数量的执行单元。在一个实施例中，执行资源是动态可缩放的，使得可启用或禁用执行资源。

图形核阵列414与共享功能逻辑420耦合，该共享功能逻辑420包括在图形核阵列中的图形核之间共享的多个资源。在共享功能逻辑420内的共享功能是硬件逻辑单元，所述硬件逻辑单元将专用补充功能性提供到图形核阵列414。在各种实施例中，共享功能逻辑420包括但不限于采样器421、数学422和线程间通信（ITC）423逻辑。另外，一些实施例在共享功能逻辑420内实现一个或多个高速缓存425。

至少在其中对给定专用功能的需求不足以包括在图形核阵列414内的情况下，实现共享功能。相反，该专用功能的单个实例化被实现为在共享功能逻辑420中的独立实体，并且在图形核阵列414内的执行资源之间被共享。在图形核阵列414之间被共享并且包括在图形核阵列414内的功能的精确集合跨实施例而变化。在一些实施例中，由图形核阵列414广泛使用的共享功能逻辑420内的特定共享功能可被包括在图形核阵列414内的共享功能逻辑416内。在各种实施例中，图形核阵列414内的共享功能逻辑416可包括共享功能逻辑420内的一些或全部逻辑。在一个实施例中，可在图形核阵列414的共享功能逻辑416内重复共享功能逻辑420内的全部逻辑元件。在一个实施例中，排除了共享功能逻辑420以有利于图形核阵列414内的共享功能逻辑416。

执行单元

图5A-5B示出了根据本文中描述的实施例的线程执行逻辑500，其包括在图形处理器核中采用的处理元件的阵列。与本文中任何其它附图的元件具有相同参考标号（或名称）的图5A-5B的元件可以以本文中其它地方所描述的方式类似的任何方式操作或起作用，但不限于这样。图5A-5B示出了线程执行逻辑500的概述，该线程执行逻辑500可代表利用图2B的每个子核221A-221F示出的硬件逻辑。图5A代表通用图形处理器内的执行单元，而图5B代表可在计算加速器内使用的执行单元。

如在图5A中所示出的，在一些实施例中，线程执行逻辑500包括着色器处理器502、线程分派器504、指令高速缓存506、包括多个执行单元508A-508N的可缩放执行单元阵列、采样器510、共享本地存储器511、数据高速缓存512和数据端口514。在一个实施例中，可缩放执行单元阵列可通过基于工作负载的计算要求来启用或禁用一个或多个执行单元（例如，执行单元508A、508B、508C、508D到508N-1和508N中的任何执行单元）来动态地进行缩放。在一个实施例中，被包括的组件经由链接到组件中的每个组件的互连组构被互连。在一些实施例中，线程执行逻辑500包括通过指令高速缓存506、数据端口514、采样器510和执行单元508A-508N中的一个或多个到存储器（诸如，系统存储器或高速缓冲存储器）的一个或多个连接。在一些实施例中，每个执行单元（例如，508A）是独立可编程通用计算单元，其能执行多个同时硬件线程，同时为每个线程并行处理多个数据元素。在各种实施例中，执行单元508A-508N的阵列是可缩放的，以包括任何数量的各个执行单元。

在一些实施例中，执行单元508A-508N主要被用于执行着色器程序。着色器处理器502可处理各种着色器程序，并且经由线程分派器504分派与着色器程序相关联的执行线程。在一个实施例中，线程分派器包括用于对来自图形和媒体流水线的线程发起请求进行仲裁并且在执行单元508A-508N中的一个或多个执行单元上实例化所请求的线程的逻辑。例如，几何流水线可将顶点、曲面细分或几何着色器分派到线程执行逻辑以用于处理。在一些实施例中，线程分派器504还可处理来自在执行的着色器程序的运行时间线程派生请求。

在一些实施例中，执行单元508A-508N支持指令集，所述指令集包括对许多标准3D图形着色器指令的本机支持，使得来自图形库（例如，Direct 3D和OpenGL）的着色器程序以最小的转换被执行。执行单元支持顶点和几何处理（例如，顶点程序、几何程序、顶点着色器）、像素处理（例如，像素着色器、片段着色器）和通用处理（例如，计算和媒体着色器）。执行单元508A-508N中的每个执行单元能进行多发布（multi-issue）单指令多数据（SIMD）执行，并且多线程操作在面临更高时延存储器访问时能够实现高效的执行环境。每个执行单元内的每个硬件线程具有专用高带宽寄存器堆和相关联的独立线程状态。执行是对能进行整数、单精度和双精度浮点运算、SIMD分支能力、逻辑运算、超越运算和其它杂项运算的流水线的每时钟多发布。在等待来自存储器或共享功能之一的数据时，执行单元508A-508N内的依赖性逻辑促使在等待的线程进行休眠，直到所请求的数据已被返回为止。当在等待的线程正在休眠时，硬件资源可专用于处理其它线程。例如，在与顶点着色器操作相关联的延迟期间，执行单元可执行用于像素着色器、片段着色器或另一类型的着色器程序（包括不同顶点着色器）的操作。各种实施例可应用于：通过作为使用SIMD的备选方案或者除使用SIMD之外还使用单指令多线程（SIMT）来使用执行。对SIMD核或操作的引用也可应用于SIMT或者应用于与SIMT组合的SIMD。

执行单元508A-508N中的每个执行单元对数据元素的阵列进行操作。数据元素的数量是“执行大小”或指令的通道的数量。执行通道是用于指令内的数据元素访问、掩蔽（masking）和流控制的执行的逻辑单元。通道的数量可独立于特定图形处理器的物理算术逻辑单元（ALU）或浮点单元（FPU）的数量。在一些实施例中，执行单元508A-508N支持整数和浮点数据类型。

执行单元指令集包括SIMD指令。各种数据元素可作为打包数据类型存储在寄存器中，并且执行单元将基于元素的数据大小来处理各种元素。例如，在对256位宽向量进行操作时，向量的256位被存储在寄存器中，并且执行单元对作为四个单独的54位打包数据元素（四字（QW）大小数据元素）、八个单独的32位打包数据元素（双字（DW）大小数据元素）、十六个单独的16位打包数据元素（字（W）大小数据元素）或三十二个单独的8位数据元素（字节（B）大小数据元素）的向量进行操作。然而，不同向量宽度和寄存器大小是可能的。

在一个实施例中，一个或多个执行单元可被组合成具有线程控制逻辑（507A-507N）的融合的执行单元509A-509N，所述线程控制逻辑（507A-507N）对于融合的EU是公共的。多个EU可被融合成EU群组。融合的EU群组中的每个EU可被配置成执行单独的SIMD硬件线程。融合的EU群组中EU的数量可根据实施例而变化。另外，可每EU执行各种SIMD宽度，包括但不限于SIMD8、SIMD16和SIMD32。每个融合的图形执行单元509A-509N包括至少两个执行单元。例如，融合的执行单元509A包括第一EU 508A、第二EU 508B以及线程控制逻辑507A，该线程控制逻辑507A对第一EU 508A和第二EU 508B是公共的。线程控制逻辑507A控制在融合的图形执行单元509A上执行的线程，允许融合的执行单元509A-509N内的每个EU使用公共指令指针寄存器来执行。

线程执行逻辑500中包括一个或多个内部指令高速缓存（例如，506）以对用于执行单元的线程指令进行高速缓存。在一些实施例中，包括一个或多个数据高速缓存（例如，512）以在线程执行期间对线程数据进行高速缓存。在执行逻辑500上执行的线程还可在共享本地存储器511中存储显式管理的数据。在一些实施例中，包括采样器510以提供3D操作的纹理采样和媒体操作的媒体采样。在一些实施例中，采样器510包括专用纹理或媒体采样功能性，以在向执行单元提供采样的数据前在采样过程期间处理纹理或媒体数据。

在执行期间，图形和媒体流水线经由线程派生和分派逻辑向线程执行逻辑500发送线程发起请求。一旦几何对象的群组已被处理并且栅格化成像素数据，着色器处理器502内的像素处理器逻辑（例如，像素着色器逻辑、片段着色器逻辑等）便被调用于进一步计算输出信息，并且使结果被写入到输出表面（例如，颜色缓冲器、深度缓冲器、模板缓冲器等）。在一些实施例中，像素着色器或片段着色器计算要跨栅格化对象内插的各种顶点属性的值。在一些实施例中，着色器处理器502内的像素处理器逻辑然后执行应用编程接口（API）供应的像素或片段着色器程序。为了执行着色器程序，着色器处理器502经由线程分派器504向执行单元（例如，508A）分派线程。在一些实施例中，着色器处理器502使用采样器510中的纹理采样逻辑来访问存储在存储器中的纹理映射中的纹理数据。对纹理数据和输入几何数据的算术运算为每个几何片段计算像素颜色数据，或者丢弃一个或多个像素而不进行进一步处理。

在一些实施例中，数据端口514提供存储器访问机制，以便线程执行逻辑500将经处理的数据输出至存储器以用于在图形处理器输出流水线上进一步处理。在一些实施例中，数据端口514包括或者耦合到一个或多个高速缓冲存储器（例如，数据高速缓存512）来对数据进行高速缓存以用于经由数据端口的存储器访问。

在一个实施例中，执行逻辑500还可包括光线追踪器505，所述光线追踪器505可提供光线追踪加速功能性。光线追踪器505可支持包括用于光线生成的指令/功能的光线追踪指令集。该光线追踪指令集可与由图2C中的光线追踪核245支持的光线追踪指令集类似或不同。

图5B示出了根据实施例的执行单元508的示例内部细节。图形执行单元508可包括指令获取单元537、通用寄存器堆阵列（GRF）524、架构寄存器堆阵列（ARF）526、线程仲裁器522、发送单元530、分支单元532、SIMD浮点单元（FPU）534的集合以及在一个实施例中包括专用整数SIMD ALU 535的集合。GRF 524和ARF 526包括与可在图形执行单元508中是活动的每个同时硬件线程相关联的通用寄存器堆和架构寄存器堆的集合。在一个实施例中，在ARF 526中维持每线程架构状态，而在线程执行期间使用的数据被存储在GRF 524中。每个线程的执行状态（包括用于每个线程的指令指针）可被保持在ARF 526中的线程特定寄存器中。

在一个实施例中，图形执行单元508具有这样的架构，该架构是同时多线程（SMT）和细粒度交错多线程（IMT）的组合。该架构具有模块化配置，可在设计时基于每执行单元的寄存器的数量和同时线程的目标数量来对所述模块化配置进行微调，其中执行单元资源跨用于执行多个同时线程的逻辑被划分。可由图形执行单元508执行的逻辑线程的数量不限于硬件线程的数量，并且多个逻辑线程可被指派到每个硬件线程。

在一个实施例中，图形执行单元508可共同发布多个指令，所述多个指令各自可以是不同的指令。图形执行单元线程508的线程仲裁器522可将指令分派给发送单元530、分支单元532或（一个或多个）SIMD FPU 534中的一个以用于执行。每个执行线程可访问GRF 524内的128个通用寄存器，其中每个寄存器可存储32个字节，其可作为32位数据元素的SIMD 8元素向量访问。在一个实施例中，每个执行单元线程可访问GRF 524内的4千字节，虽然实施例不限于此，并且在其它实施例中可提供更多或更少的寄存器资源。在一个实施例中，图形执行单元508被分区成可独立执行计算操作的七个硬件线程，虽然每执行单元的线程的数量还可根据实施例而变化。例如，在一个实施例中支持多达16个硬件线程。在其中七个线程可访问4千字节的实施例中，GRF 524可存储总共28千字节。在16个线程可访问4千字节的情况下，GRF 524可存储总共64千字节。灵活的寻址模式可允许对寄存器一起进行寻址以有效地构建更宽的寄存器或者表示跨步矩形块数据结构（strided rectangular block datastructure）。

在一个实施例中，经由通过消息传递发送单元530执行的“发送”指令来分派存储器操作、采样器操作和其它较长时延系统通信。在一个实施例中，将分支指令分派给专用分支单元532以促进SIMD发散和最终收敛。

在一个实施例中，图形执行单元508包括一个或多个SIMD浮点单元（（一个或多个）FPU）534以执行浮点运算。在一个实施例中，（一个或多个）FPU 534还支持整数计算。在一个实施例中，（一个或多个）FPU 534可SIMD执行多达M个数量的32位浮点（或整数）运算，或者SIMD执行多达2M个16位整数或16位浮点运算。在一个实施例中，（一个或多个）FPU中的至少一个提供扩展的数学能力以支持高吞吐量超越数学函数和双精度54位浮点。在一些实施例中，还存在8位整数SIMD ALU 535的集合，并且该组8位整数SIMD ALU 535可被特别地优化以执行与机器学习计算相关联的操作。

在一个实施例中，图形执行单元508的多个实例的阵列可在图形子核分组（例如，子切片）中被实例化。为了可缩放性，产品架构师可选定每子核分组的执行单元的确切数量。在一个实施例中，执行单元508可跨多个执行通道执行指令。在另外的实施例中，在图形执行单元508上执行的每个线程是在不同的通道上被执行的。

图6示出了根据实施例的另外的执行单元600。执行单元600可以是供在例如如图3C中的计算引擎贴片340A-340D中使用的计算优化的执行单元，但不被限制为这样。执行单元600的变体还可用于如图3B中的图形引擎贴片310A-310D中。在一个实施例中，执行单元600包括线程控制单元601、线程状态单元602、指令获取/预获取单元603和指令解码单元604。执行单元600另外包括寄存器堆606，所述寄存器堆606存储可被指派到执行单元内的硬件线程的寄存器。执行单元600另外包括发送单元607和分支单元608。在一个实施例中，发送单元607和分支单元608可与图5B的图形执行单元508的发送单元530和分支单元532类似地操作。

执行单元600还包括计算单元610，所述计算单元610包括多个不同类型的功能单元。在一个实施例中，计算单元610包括ALU单元611，所述ALU单元611包括算术逻辑单元的阵列。ALU单元611可被配置成执行64位、32位和16位整数和浮点运算。整数和浮点运算可同时被执行。计算单元610还可包括脉动阵列612和数学单元613。脉动阵列612包括可用于以脉动方式执行向量或其它数据并行操作的数据处理单元的宽度W和深度D的网络。在一个实施例中，脉动阵列612可被配置成执行矩阵运算，诸如矩阵点积运算。在一个实施例中，脉动阵列612支持16位浮点运算及8位和4位整数运算。在一个实施例中，脉动阵列612可被配置成加速机器学习操作。在此类实施例中，脉动阵列612可被配置有对bfloat 16位浮点格式的支持。在一个实施例中，可包括数学单元613来以高效和比ALU单元611更低功率的方式执行数学运算的特定子集。数学单元613可包括可在由其它实施例提供的图形处理引擎的共享功能逻辑中找到的数学逻辑的变体（例如，图4的共享功能逻辑420的数学逻辑422）。在一个实施例中，数学单元613可被配置成执行32位和64位浮点运算。

线程控制单元601包括用于控制执行单元内线程的执行的逻辑。线程控制单元601可包括用于开始、停止和抢占执行单元600内线程的执行的线程仲裁逻辑。线程状态单元602可用于为被指派在执行单元600上执行的线程存储线程状态。在执行单元600内存储线程状态能够实现在线程变为阻塞或空闲时那些线程的快速抢占。指令获取/预获取单元603可从更高级别执行逻辑的指令高速缓存（例如，如图5A中的指令高速缓存506）获取指令。指令获取/预获取单元603还可基于当前在执行的线程的分析来发布对要被加载到指令高速缓存中的指令的预获取请求。指令解码单元604可被用于解码要由计算单元执行的指令。在一个实施例中，指令解码单元604可被用作次级解码器以将复杂指令解码成组成的微操作（constituent micro-operation）。

执行单元600另外包括可由在执行单元600上执行的硬件线程使用的寄存器堆606。可跨用于执行在执行单元600的计算单元610内的多个同时线程的逻辑来划分寄存器堆606中的寄存器。可由图形执行单元600执行的逻辑线程的数量不限于硬件线程的数量，并且多个逻辑线程可被指派到每个硬件线程。寄存器堆606的大小可基于支持的硬件线程的数量跨实施例而变化。在一个实施例中，寄存器重命名可被用于动态地将寄存器分配到硬件线程。

图7是示出根据一些实施例的图形处理器指令格式700的框图。在一个或多个实施例中，图形处理器执行单元支持具有采用多种格式的指令的指令集。实线框示出了一般被包括在执行单元指令中的组成部分，而虚线包括可选的或者被包括在指令的子集中的组成部分。在一些实施例中，描述和示出的指令格式700是宏指令，因为它们是供应给执行单元的指令，而与一旦指令被处理由指令解码产生的微操作相反。

在一些实施例中，图形处理器执行单元本机地支持采用128位指令格式710的指令。基于所选择的指令、指令选项和操作数的数量，64位压缩指令格式730可用于一些指令。本机128位指令格式710提供对所有指令选项的访问，而采用64位格式730，一些选项和操作被限制。采用64位格式730的可用的本机指令随实施例而变化。在一些实施例中，使用索引字段713中索引值的集合来部分地压缩指令。执行单元硬件基于索引值来引用压缩表的集合，并且使用压缩表输出来重构采用128位指令格式710的本机指令。可使用指令的其它大小和格式。

对于每种格式，指令操作码712定义执行单元要执行的操作。执行单元跨每个操作数的多个数据元素并行执行每个指令。例如，响应于相加指令，执行单元跨表示纹理元素或图片元素的每个颜色通道来执行同时加法运算。默认情况下，执行单元跨操作数的所有数据通道来执行每个指令。在一些实施例中，指令控制字段714能够实现对诸如通道选择（例如，断定（predication））和数据通道次序（例如，搅混（swizzle））之类的执行选项的控制。对于采用128位指令格式710的指令，执行大小字段716限制将被并行执行的数据通道的数量。在一些实施例中，执行大小字段716不可供64位压缩指令格式730中使用。

一些执行单元指令具有多达三个操作数，这三个操作数包括两个源操作数src0720、src1 722和一个目的地718。在一些实施例中，执行单元支持双目的地指令，其中目的地中的一个是隐含的。数据操纵指令可具有第三源操作数（例如，SRC2 724），其中指令操作码712确定源操作数的数量。指令的最后源操作数可以是利用指令传递的立即（例如，硬编码的）值。

在一些实施例中，128位指令格式710包括访问/地址模式字段726，该访问/地址模式字段726指定例如使用直接寄存器寻址模式还是间接寄存器寻址模式。在使用直接寄存器寻址模式时，由指令中的位来直接提供一个或多个操作数的寄存器地址。

在一些实施例中，128位指令格式710包括访问/地址模式字段726，该访问/地址模式字段726指定指令的地址模式和/或访问模式。在一个实施例中，访问模式被用于定义指令的数据访问对齐。一些实施例支持包括16字节对齐的访问模式和1字节对齐的访问模式的访问模式，其中访问模式的字节对齐确定指令操作数的访问对齐。例如，当处于第一模式中时，指令可将字节对齐的寻址用于源操作数和目的地操作数，并且当处于第二模式中时，指令可将16字节对齐的寻址用于所有源操作数和目的地操作数。

在一个实施例中，访问/地址模式字段726的地址模式部分确定指令要使用直接寻址还是间接寻址。在使用直接寄存器寻址模式时，指令中的位直接提供一个或多个操作数的寄存器地址。在使用间接寄存器寻址模式时，可基于指令中的地址立即字段和地址寄存器值来计算一个或多个操作数的寄存器地址。

在一些实施例中，基于操作码712位字段对指令进行分组，以简化操作码解码740。对于8位操作码，4、5和6位允许执行单元确定操作码的类型。所示出的精确操作码分组仅是示例。在一些实施例中，移动和逻辑操作码群组742包括数据移动和逻辑指令（例如，移动（mov）、比较（cmp））。在一些实施例中，移动和逻辑群组742共享五个最高有效位（MSB），其中移动（mov）指令采用0000xxxxb的形式，并且逻辑指令采用0001xxxxb的形式。流控制指令群组744（例如调用、跳（jmp））包括采用0010xxxxb（例如，0x20）形式的指令。杂项指令群组746包括指令的混合，包括采用0011xxxxb（例如，0x30）形式的同步指令（例如等待、发送）。并行数学指令群组748包括采用0100xxxxb（例如，0x40）的形式的逐组成部分的算术指令（例如，加、乘（mul））。并行数学群组748跨数据通道并行执行算术运算。向量数学群组750包括采用0101xxxxb（例如，0x50）形式的算术指令（例如，dp4）。向量数学群组对向量操作数执行诸如点积计算的算术。示出的操作码解码740在一个实施例中可用于确定执行单元的哪个部分将被用于执行解码的指令。例如，一些指令可被指定为将由脉动阵列执行的脉动指令。诸如光线追踪指令（未示出）的其它指令可被路由到执行逻辑的切片或分区内的光线追踪核或光线追踪逻辑。

图形流水线

图8是图形处理器800的另一实施例的框图。与本文中任何其它附图的元件具有相同参考标号（或名称）的图8的元件可以以与本文中其它地方所描述的方式类似的任何方式操作或起作用，但不限于这样。

在一些实施例中，图形处理器800包括几何流水线820、媒体流水线830、显示引擎840、线程执行逻辑850和渲染输出流水线870。在一些实施例中，图形处理器800是包括一个或多个通用处理核的多核处理系统内的图形处理器。通过对一个或多个控制寄存器（未示出）的寄存器写入或者经由通过环形互连802发布至图形处理器800的命令来控制图形处理器。在一些实施例中，环形互连802将图形处理器800耦合到其它处理组件，诸如其它图形处理器或通用处理器。来自环形互连802的命令由命令流转化器803解译，该命令流转化器803将指令供应至几何流水线820或媒体流水线830的各个组件。

在一些实施例中，命令流转化器803指导顶点获取器805的操作，该顶点获取器805从存储器读取顶点数据，并执行由命令流转化器803提供的顶点处理命令。在一些实施例中，顶点获取器805将顶点数据提供给顶点着色器807，该顶点着色器807对每个顶点执行坐标空间变换和照明操作。在一些实施例中，顶点获取器805和顶点着色器807通过经由线程分派器831向执行单元852A-852B分派执行线程来执行顶点处理指令。

在一些实施例中，执行单元852A-852B是具有用于执行图形和媒体操作的指令集的向量处理器的阵列。在一些实施例中，执行单元852A-852B具有附连的L1高速缓存851，所述L1高速缓存851对于每个阵列是特定的，或者在阵列之间被共享。高速缓存能被配置为数据高速缓存、指令高速缓存或被分区以在不同分区中含有数据和指令的单个高速缓存。

在一些实施例中，几何流水线820包括曲面细分组件以执行3D对象的硬件加速的曲面细分。在一些实施例中，可编程外壳着色器（programmable hull shader）811配置曲面细分操作。可编程域着色器817提供曲面细分输出的后端评估。曲面细分器813在外壳着色器811的指导下进行操作，并且含有专用逻辑以基于作为到几何流水线820的输入而提供的粗略几何模型来生成详细的几何对象的集合。在一些实施例中，如果未使用曲面细分，则可绕过曲面细分组件（例如，外壳着色器811、曲面细分器813和域着色器817）。曲面细分组件可基于从顶点着色器807接收的数据进行操作。

在一些实施例中，完整几何对象可由几何着色器819经由分派给执行单元852A-852B的一个或多个线程来处理，或者可直接行进至裁剪器（clipper）829。在一些实施例中，几何着色器对整个几何对象进行操作，而不是如在图形流水线的先前阶段中对顶点或顶点的补片（patch）进行操作。如果曲面细分被禁用，则几何着色器819接收来自顶点着色器807的输入。在一些实施例中，几何着色器819可由几何着色器程序编程以在曲面细分单元被禁用时执行几何曲面细分。

在栅格化前，裁剪器829处理顶点数据。裁剪器829可以是具有裁剪和几何着色器功能的可编程裁剪器或固定功能裁剪器。在一些实施例中，渲染输出流水线870中的栅格化器和深度测试组件873分派像素着色器以将几何对象转换成逐像素表示。在一些实施例中，像素着色器逻辑被包括在线程执行逻辑850中。在一些实施例中，应用可绕过栅格化器和深度测试组件873，并且经由流出单元823访问未栅格化的顶点数据。

图形处理器800具有允许数据和消息在处理器的主要组件之间传递的互连总线、互连组构或某种其它互连机构。在一些实施例中，执行单元852A-852B和相关联的逻辑单元（例如，L1高速缓存851、采样器854、纹理高速缓存858等）经由数据端口856互连，以执行存储器访问并且与处理器的渲染输出流水线组件进行通信。在一些实施例中，采样器854、高速缓存851、858和执行单元852A-852B各自具有单独的存储器访问路径。在一个实施例中，纹理高速缓存858还可被配置为采样器高速缓存。

在一些实施例中，渲染输出流水线870含有栅格化器和深度测试组件873，该栅格化器和深度测试组件873将基于顶点的对象转换成相关联的基于像素的表示。在一些实施例中，栅格化器逻辑包括用于执行固定功能三角形和线栅格化的窗口化器（windower）/掩蔽器单元。相关联的渲染高速缓存878和深度高速缓存879在一些实施例中也是可用的。像素操作组件877对数据执行基于像素的操作，尽管在一些实例中，与2D操作相关联的像素操作（例如，带有混合（blending）的位块图像传送）由2D引擎841执行，或者在显示时由显示控制器843使用覆盖显示平面代替。在一些实施例中，共享L3高速缓存875对于全部图形组件是可用的，从而允许在不使用主系统存储器的情况下共享数据。

在一些实施例中，图形处理器媒体流水线830包括媒体引擎837和视频前端834。在一些实施例中，视频前端834接收来自命令流转化器803的流水线命令。在一些实施例中，媒体流水线830包括单独的命令流转化器。在一些实施例中，视频前端834在将命令发送至媒体引擎837之前处理媒体命令。在一些实施例中，媒体引擎837包括线程派生功能性来派生线程，以便经由线程分派器831分派到线程执行逻辑850。

在一些实施例中，图形处理器800包括显示引擎840。在一些实施例中，显示引擎840在处理器800的外部，并且经由环形互连802或某一其它互连总线或组构与图形处理器耦合。在一些实施例中，显示引擎840包括2D引擎841和显示控制器843。在一些实施例中，显示引擎840含有能独立于3D流水线操作的专用逻辑。在一些实施例中，显示控制器843与显示装置（未示出）耦合，该显示装置可以是系统集成的显示装置（如在膝上型计算机中），或者可以是经由显示装置连接器附连的外部显示装置。

在一些实施例中，几何流水线820和媒体流水线830可配置成基于多个图形和媒体编程接口执行操作，并且不特定于任何一个应用编程接口（API）。在一些实施例中，用于图形处理器的驱动器软件将特定于特定图形或媒体库的API调用转换成可由图形处理器处理的命令。在一些实施例中，为全部来自Khronos Group的开放图形库（OpenGL）、开放计算语言（OpenCL）和/或Vulkan图形和计算API提供支持。在一些实施例中，还可为来自微软公司的Direct3D库提供支持。在一些实施例中，可支持这些库的组合。还可为开源计算机视觉库（OpenCV）提供支持。如果可进行从未来API的流水线到图形处理器的流水线的映射，则具有兼容3D流水线的未来API也将被支持。

图形流水线编程

图9A是示出根据一些实施例的图形处理器命令格式900的框图。图9B是示出根据实施例的图形处理器命令序列910的框图。图9A中的实线框示出了一般被包括在图形命令中的组成部分，而虚线包括可选的或者被包括在图形命令的子集中的组成部分。图9A的示例图形处理器命令格式900包括用于标识命令的客户端902、命令操作代码（操作码）904和数据906的数据字段。一些命令中还包括子操作码905和命令大小908。

在一些实施例中，客户端902指定处理命令数据的图形装置的客户端单元。在一些实施例中，图形处理器命令解析器检查每个命令的客户端字段以调节命令的进一步处理，并且将命令数据路由到适当的客户端单元。在一些实施例中，图形处理器客户端单元包括存储器接口单元、渲染单元、2D单元、3D单元和媒体单元。每个客户端单元具有处理命令的对应处理流水线。一旦由客户端单元接收到命令，客户端单元便读取操作码904和子操作码905（如果子操作码905存在的话），以确定要执行的操作。客户端单元使用数据字段906中的信息来执行命令。对于一些命令，预期显式命令大小908来指定命令的大小。在一些实施例中，命令解析器基于命令操作码来自动确定至少一些命令的大小。在一些实施例中，经由双字的倍数来对齐命令。可使用其它命令格式。

图9B中的流程示出了示例图形处理器命令序列910。在一些实施例中，以图形处理器的实施例为特征的数据处理系统的软件或固件使用所示出的命令序列的版本来设定、执行和终止图形操作的集合。出于示例的目的示出并描述了样本命令序列，因为实施例不限于这些特定命令或此命令序列。另外，命令可作为命令序列中的批量命令被发布，使得图形处理器将至少部分并发地处理命令的序列。

在一些实施例中，图形处理器命令序列910可以以流水线转储清除命令（pipelineflush command）912开始，以促使任何活动的图形流水线完成该流水线的当前未决命令。在一些实施例中，3D流水线922和媒体流水线924不并发地操作。执行流水线转储清除以促使活动的图形流水线完成任何未决命令。响应于流水线转储清除，图形处理器的命令解析器将暂停命令处理，直至活动的绘图引擎完成未决操作并且相关的读取高速缓存失效。可选地，可将渲染高速缓存中标记为“脏”的任何数据转储清除到存储器。在一些实施例中，流水线转储清除命令912可被用于流水线同步，或者在将图形处理器置于低功率状态前被使用。

在一些实施例中，在命令序列命令图形处理器在流水线之间显式地切换时，使用流水线选择命令913。在一些实施例中，除非上下文要为两个流水线发布命令，否则在发布流水线命令前，在执行上下文内使用一次流水线选择命令913。在一些实施例中，紧接经由流水线选择命令913的流水线切换之前，使用流水线转储清除命令912。

在一些实施例中，流水线控制命令914配置图形流水线以用于操作，并且被用于对3D流水线922和媒体流水线924进行编程。在一些实施例中，流水线控制命令914配置活动的流水线的流水线状态。在一个实施例中，流水线控制命令914被用于流水线同步，并且在处理一批命令前从活动的流水线内的一个或多个高速缓冲存储器中清除数据。

在一些实施例中，返回缓冲器状态命令916被用于为相应流水线配置返回缓冲器的集合以写入数据。一些流水线操作配置分配、选择或配置一个或多个返回缓冲器，在处理期间这些操作将中间数据写入到所述一个或多个返回缓冲器。在一些实施例中，图形处理器还使用一个或多个返回缓冲器来存储输出数据并且执行跨线程通信。在一些实施例中，返回缓冲器状态916包括选择要用于流水线操作的集合的返回缓冲器的大小和数量。

命令序列中的剩余命令基于用于操作的活动流水线而不同。基于流水线确定920，将命令序列定制到以3D流水线状态930开始的3D流水线922或者从媒体流水线状态940开始的媒体流水线924。

用于配置3D流水线状态930的命令包括3D状态设置命令，所述3D状态设置命令用于在处理3D图元命令之前要配置的顶点缓冲器状态、顶点元素状态、恒定颜色状态、深度缓冲器状态以及其它状态变量。至少部分基于使用中的特定3D API来确定这些命令的值。在一些实施例中，如果将不使用某些流水线元件，则3D流水线状态930命令还能够选择性地禁用或绕过那些元件。

在一些实施例中，3D图元932命令被用于提交要由3D流水线处理的3D图元。经由3D图元932命令传递到图形处理器的命令和相关联的参数被转发到图形流水线中的顶点获取功能。顶点获取功能使用3D图元932命令数据来生成顶点数据结构。顶点数据结构被存储在一个或多个返回缓冲器中。在一些实施例中，3D图元932命令被用于经由顶点着色器对3D图元执行顶点操作。为处理顶点着色器，3D流水线922将着色器执行线程分派到图形处理器执行单元。

在一些实施例中，经由执行934命令或事件来触发3D流水线922。在一些实施例中，寄存器写入触发命令执行。在一些实施例中，经由命令序列中的“go”或“kick”命令来触发执行。在一个实施例中，使用流水线同步命令来触发命令执行以转储清除通过图形流水线的命令序列。3D流水线将执行3D图元的几何处理。一旦操作完成，所得到的几何对象便被栅格化，并且像素引擎对所得到的像素进行上色。对于那些操作，还可包括用于控制像素着色和像素后端操作的另外的命令。

在一些实施例中，在执行媒体操作时，图形处理器命令序列910沿着媒体流水线924路径。一般而言，用于媒体流水线924的编程的特定使用和方式取决于要执行的媒体或计算操作。可在媒体解码期间将特定媒体解码操作卸载到媒体流水线。在一些实施例中，还可绕过媒体流水线，并且可使用由一个或多个通用处理核提供的资源来全部或部分地执行媒体解码。在一个实施例中，媒体流水线还包括用于通用图形处理器单元（GPGPU）操作的元件，其中图形处理器被用于使用计算着色器程序来执行SIMD向量运算，所述计算着色器程序与图形图元的渲染不是显式相关的。

在一些实施例中，以与3D流水线922类似的方式对媒体流水线924进行配置。将用于配置媒体流水线状态940的命令的集合分派或放置到在媒体对象命令942之前的命令队列中。在一些实施例中，用于媒体流水线状态940的命令包括用于配置媒体流水线元件的数据，所述媒体流水线元件将被用于处理媒体对象。这包括用于配置媒体流水线内的视频解码和视频编码逻辑的数据，诸如编码和解码格式。在一些实施例中，用于媒体流水线状态940的命令还支持使用到含有一批状态设置的“间接”状态元素的一个或多个指针。

在一些实施例中，媒体对象命令942将指针供应到媒体对象以便由媒体流水线处理。媒体对象包括存储器缓冲器，所述存储器缓冲器含有要处理的视频数据。在一些实施例中，在发布媒体对象命令942之前，所有媒体流水线状态应当是有效的。一旦配置了流水线状态，并且将媒体对象命令942排队，便经由执行命令944或等效执行事件（例如，寄存器写入）来触发媒体流水线924。然后可通过由3D流水线922或媒体流水线924提供的操作对来自媒体流水线924的输出进行后处理。在一些实施例中，以与媒体操作类似的方式配置和执行GPGPU操作。

图形软件架构

图10示出了根据一些实施例的用于数据处理系统1000的示例图形软件架构。在一些实施例中，软件架构包括3D图形应用1010、操作系统1020和至少一个处理器1030。在一些实施例中，处理器1030包括图形处理器1032和一个或多个通用处理器核1034。图形应用1010和操作系统1020各自在数据处理系统的系统存储器1050中执行。

在一些实施例中，3D图形应用1010含有一个或多个着色器程序，该一个或多个着色器程序包括着色器指令1012。着色器语言指令可采用高级着色器语言，诸如Direct3D的高级着色器语言（HLSL）或OpenGL着色器语言（GLSL）等等。应用还包括采用适合由通用处理器核1034执行的机器语言的可执行指令1014。应用还包括由顶点数据定义的图形对象1016。

在一些实施例中，操作系统1020是来自微软公司的Microsoft® Windows®操作系统、专有的类UNIX操作系统或使用Linux内核的变体的开源类UNIX操作系统。操作系统1020可支持图形API 1022，诸如Direct3D API、OpenGL API或Vulkan API。Direct3D API在使用中时，操作系统1020使用前端着色器编译器1024来将采用HLSL的任何着色器指令1012编译成更低级着色器语言。编译可以是即时（JIT）编译或者应用可执行着色器预编译。在一些实施例中，在3D图形应用1010的编译期间将高级着色器编译成低级着色器。在一些实施例中，以中间形式（诸如，由Vulkan API使用的标准可移植中间表示（SPIR）的版本）提供着色器指令1012。

在一些实施例中，用户模式图形驱动器1026含有用于将着色器指令1012转换成硬件特定表示的后端着色器编译器1027。OpenGL API在使用中时，将采用GLSL高级语言的着色器指令1012传递到用户模式图形驱动器1026以用于编译。在一些实施例中，用户模式图形驱动器1026使用操作系统内核模式功能1028来与内核模式图形驱动器1029通信。在一些实施例中，内核模式图形驱动器1029与图形处理器1032通信以分派命令和指令。

IP核实现

至少一个实施例的一个或多个方面可由存储在机器可读介质上的代表性代码来实现，该代表性代码表示和/或定义诸如处理器的集成电路内的逻辑。例如，机器可读介质可包括表示处理器内的各种逻辑的指令。在由机器读取时，指令可促使机器制作逻辑以执行本文中描述的技术。称为“IP核”的此类表示是用于集成电路的逻辑的可重复使用单元，该可重复使用单元可作为对集成电路的结构进行描述的硬件模型而被存储在有形机器可读介质上。可将硬件模型供应至各种客户或制造设施，所述客户或制造设施将硬件模型加载在制造集成电路的制作机器上。可制作集成电路，使得电路执行与本文中描述的实施例中的任何实施例相关联的所描述的操作。

图11A是示出根据实施例的可被用于制造集成电路以执行操作的IP核开发系统1100的框图。IP核开发系统1100可被用于生成可被并入到更大的设计中或被用于构造集成电路（例如，SOC集成电路）的模块化、可重复使用设计。设计设施1130可生成采用高级编程语言（例如，C/C++）的IP核设计的软件仿真1110。软件仿真1110可被用于使用仿真模型1112来设计、测试和验证IP核的行为。仿真模型1112可包括功能、行为和/或时序仿真。然后可从仿真模型1112创建或合成寄存器传送级（RTL）设计1115。RTL设计1115是对硬件寄存器之间的数字信号流进行建模的集成电路的行为的抽象，包括使用建模的数字信号执行的相关联的逻辑。除RTL设计1115外，还可创建、设计或合成处于逻辑级或晶体管级的较低级设计。因此，初始设计和仿真的特定细节可变化。

可由设计设施将RTL设计1115或等效物进一步合成为硬件模型1120，该硬件模型1120可采用硬件描述语言（HDL）或物理设计数据的某种其它表示。可进一步对HDL进行仿真或测试以验证IP核设计。可使用非易失性存储器1140（例如，硬盘、闪速存储器或任何非易失性存储介质）来存储IP核设计以用于递送到第三方制作设施1165。备选的是，可通过有线连接1150或无线连接1160（例如，经由因特网）来传送IP核设计。制作设施1165然后可制作至少部分基于IP核设计的集成电路。制作的集成电路可被配置成执行根据本文中描述的至少一个实施例的操作。

图11B示出了根据本文中描述的一些实施例的集成电路封装组装件1170的截面侧视图。集成电路封装组装件1170示出了如本文中描述的一个或多个处理器或加速器装置的实现。封装组装件1170包括连接到衬底1180的硬件逻辑1172、1174的多个单元。逻辑1172、1174可至少部分地以可配置逻辑或固定功能性逻辑硬件实现，并且可包括本文中描述的（一个或多个）处理器核、（一个或多个）图形处理器或其它加速器装置中的任何装置的一个或多个部分。逻辑1172、1174的每个单元可在半导体管芯内被实现，并且经由互连结构1173与衬底1180耦合。互连结构1173可被配置成在逻辑1172、1174与衬底1180之间路由电信号，并且可包括互连，该互连诸如但不限于凸块（bump）或柱。在一些实施例中，互连结构1173可被配置成路由电信号，诸如，例如与逻辑1172、1174的操作相关联的输入/输出（I/O）信号和/或功率或接地信号。在一些实施例中，衬底1180是环氧基层压衬底（epoxy-basedlaminate substrate）。在其它实施例中，衬底1180可包括其它合适类型的衬底。封装组装件1170可经由封装互连1183被连接到其它电气装置。封装互连1183可被耦合到衬底1180的表面，以将电信号路由到其它电气装置，诸如主板、其它芯片组或多芯片模块。

在一些实施例中，逻辑1172、1174的单元与桥1182电耦合，该桥1182被配置成在逻辑1172、1174之间路由电信号。桥1182可以是为电信号提供路线（route）的密集互连结构。桥1182可包括由玻璃或合适的半导体材料构成的桥衬底。可在桥衬底上形成电路由部件（electrical routing feature），以在逻辑1172、1174之间提供芯片到芯片连接。

虽然示出了逻辑1172、1174的两个单元和桥1182，但是本文中描述的实施例可包括在一个或多个管芯上的更多或更少逻辑单元。由于当逻辑被包括在单个管芯上时可排除桥1182，因此可通过零个或多于零个桥来连接一个或多个管芯。备选的是，可通过一个或多个桥来连接多个管芯或逻辑单元。另外，在其它可能配置（包括三维配置）中可将多个逻辑单元、管芯和桥连接在一起。

图11C示出了包括连接到衬底1180（例如，基础管芯）的硬件逻辑小芯片的多个单元的封装组装件1190。如本文中描述的图形处理单元、并行处理器和/或计算加速器可由单独制造的多样化的硅小芯片构成。在此上下文中，小芯片是至少部分封装的集成电路，其包括可与其它小芯片被组装到更大封装中的逻辑的不同单元。带有不同IP核逻辑的小芯片的多样化集合可被组装到单个装置中。另外，可使用有源中介层（interposer）技术将小芯片集成到基础管芯或基础小芯片中。本文中描述的概念能够实现GPU内的不同形式的IP之间的互连和通信。可使用不同工艺技术来制造并且在制造期间构成IP核，这避免了将多个IP（特别是在带有若干特点（flavors）IP的大的SoC上）汇聚到相同制造工艺的复杂性。能够实现多个工艺技术的使用改进了推向市场的时间，并且提供了创建多个产品SKU的有成本效益的方式。另外，解聚的IP更易于独立地被功率选通，在给定工作负载上不在使用中的组件可被断电，从而降低总体功率消耗。

硬件逻辑小芯片可包括专用硬件逻辑小芯片1172、逻辑或I/O小芯片1174和/或存储器小芯片1175。硬件逻辑小芯片1172和逻辑或I/O小芯片1174可至少部分地用可配置逻辑或固定功能性逻辑硬件实现，并且可包括（一个或多个）处理器核、（一个或多个）图形处理器、并行处理器或本文中描述的其它加速器装置中的任何的一个或多个部分。存储器小芯片1175可以是DRAM（例如，GDDR、HBM）存储器或高速缓冲（SRAM）存储器。

每个小芯片可被制作为单独的半导体管芯，并且经由互连结构1173与衬底1180耦合。互连结构1173可被配置成在各种小芯片与衬底1180内的逻辑之间路由电信号。互连结构1173可包括互连，诸如但不限于凸块或柱。在一些实施例中，互连结构1173可被配置成路由电信号，诸如，例如与逻辑、I/O和存储器小芯片的操作相关联的输入/输出（I/O）信号和/或功率或接地信号。

在一些实施例中，衬底1180是环氧基层压衬底。在其它实施例中，衬底1180可包括其它合适类型的衬底。封装组装件1190可经由封装互连1183被连接到其它电气装置。封装互连1183可被耦合到衬底1180的表面，以将电信号路由到其它电气装置，诸如主板、其它芯片组或多芯片模块。

在一些实施例中，逻辑或I/O小芯片1174和存储器小芯片1175可经由桥1187被电耦合，该桥1187被配置成在逻辑或I/O小芯片1174与存储器小芯片1175之间路由电信号。桥1187可以是为电信号提供路由的密集互连结构。桥1187可包括由玻璃或合适的半导体材料构成的桥衬底。可在桥衬底上形成电路由部件，以在逻辑或I/O小芯片1174与存储器小芯片1175之间提供芯片到芯片连接。桥1187还可被称为硅桥或互连桥。例如，在一些实施例中，桥1187是嵌入式多管芯互连桥（EMIB）。在一些实施例中，桥1187可只是从一个小芯片到另一小芯片的直接连接。

衬底1180可包括用于I/O 1191、高速缓冲存储器1192和其它硬件逻辑1193的硬件组件。组构1185可被嵌入在衬底1180中以能够实现在各种逻辑小芯片与衬底1180内的逻辑1191、1193之间的通信。在一个实施例中，I/O 1191、组构1185、高速缓存、桥和其它硬件逻辑1193可被集成到基础管芯中，该基础管芯被层叠在衬底1180之上。组构1185可以是片上网络互连，或者是在封装组装件的组件之间交换数据分组的另一形式的分组交换组构。

在各种实施例中，封装组装件1190可包括由组构1185或一个或多个桥1187互连的更少或更多数量的组件和小芯片。封装组装件1190内的小芯片可按在3D或2.5D布置来进行布置。一般而言，桥结构1187可被用于促进在例如逻辑或I/O小芯片与存储器小芯片之间的点到点互连。组构1185可被用于将各种逻辑和/或I/O小芯片（例如，小芯片1172、1174、1191、1193）与其它逻辑和/或I/O小芯片互连。在一个实施例中，衬底内的高速缓冲存储器1192可充当用于封装组装件1190的全局高速缓存、分布式全局高速缓存的一部分或者充当用于组构1185的专用高速缓存。

图11D示出了根据实施例的包括可互换小芯片1195的封装组装件1194。可互换小芯片1195可被组装到一个或多个基础小芯片1196、1198上的标准化槽中。基础小芯片1196、1198可经由桥互连1197被耦合，该桥互连1197可类似于本文中描述的其它桥互连，并且可例如是EMIB。存储器小芯片还可经由桥互连被连接到逻辑或I/O小芯片。I/O和逻辑小芯片可经由互连组构通信。基础小芯片可各自支持采用标准化格式的一个或多个槽以用于逻辑或I/O或存储器/高速缓存中的一个。

在一个实施例中，可将SRAM和功率递送电路制作到基础小芯片1196、1198中的一个或多个基础小芯片中，所述基础小芯片1196、1198可使用相对于堆叠在基础小芯片之上的可互换小芯片1195不同的工艺技术来被制作。例如，可使用更大的工艺技术来制作基础小芯片1196、1198，而可使用更小的工艺技术来制作可互换小芯片。可互换小芯片1195中的一个或多个可互换小芯片可以是存储器（例如，DRAM）小芯片。可基于针对使用封装组装件1194的产品的功率和/或性能，为封装组装件1194选择不同存储器密度。另外，可基于针对产品的功率和/或性能，在组装时选择带有不同数量的类型的功能单元的逻辑小芯片。另外，可将含有不同类型的IP逻辑核的小芯片插入到可互换小芯片槽中，能够实现可混合并匹配不同技术IP块的混合处理器设计。

示例片上系统集成电路

图12-13示出了根据本文中描述的各种实施例的可使用一个或多个IP核来制作的示例集成电路以及相关联的图形处理器。除了所示出的内容外，还可包括其它逻辑和电路，包括另外的图形处理器/核、外设接口控制器或通用处理器核。

图12是示出了根据实施例的可使用一个或多个IP核来制作的示例片上系统集成电路1200的框图。示例集成电路1200包括一个或多个应用处理器1205（例如，CPU）、至少一个图形处理器1210，并且可另外包括图像处理器1215和/或视频处理器1220，以上处理器中的任何处理器可以是来自相同或多个不同设计设施的模块化IP核。集成电路1200包括外设或总线逻辑，所述外设或总线逻辑包括USB控制器1225、UART控制器1230、SPI/SDIO控制器1235和I2S/I2C控制器1240。另外，集成电路可包括耦合到高清晰度多媒体接口（HDMI）控制器1250和移动工业处理器接口（MIPI）显示接口1255中的一个或多个的显示装置1245。可通过包括闪速存储器和闪速存储器控制器的闪速存储器子系统1260来提供存储。可经由存储器控制器1265提供存储器接口以便访问SDRAM或SRAM存储器装置。一些集成电路另外包括嵌入式安全引擎1270。

图13A-13B是示出了根据本文中描述的实施例的供SoC内使用的示例图形处理器的框图。图13A示出了根据实施例的可使用一个或多个IP核来制作的片上系统集成电路的示例图形处理器1310。图13B示出了根据实施例的可使用一个或多个IP核来制作的片上系统集成电路的另外的示例图形处理器1340。图13A的图形处理器1310是低功率图形处理器核的示例。图13B的图形处理器1340是更高性能图形处理器核的示例。图形处理器1310、1340中的每个图形处理器可以是图12的图形处理器1210的变体。

如图13A中所示出的，图形处理器1310包括顶点处理器1305和一个或多个片段处理器1315A-1315N（例如，1315A、1315B、1315C、1315D到1315N-1和1315N）。图形处理器1310可经由单独的逻辑执行不同着色器程序，使得顶点处理器1305被优化以执行用于顶点着色器程序的操作，而一个或多个片段处理器1315A-1315N执行用于片段或像素着色器程序的片段（例如，像素）着色操作。顶点处理器1305执行3D图形流水线的顶点处理阶段，并且生成图元和顶点数据。（一个或多个）片段处理器1315A-1315N使用由顶点处理器1305生成的图元和顶点数据来产生在显示装置上显示的帧缓冲（framebuffer）。在一个实施例中，（一个或多个）片段处理器1315A-1315N被优化以执行如OpenGL API中提供的片段着色器程序，所述片段着色器程序可被用于执行与如针对在Direct 3D API中提供的像素着色器程序类似的操作。

图形处理器1310另外包括一个或多个存储器管理单元（MMU）1320A-1320B、（一个或多个）高速缓存1325A-1325B和（一个或多个）电路互连1330A-1330B。一个或多个MMU1320A-1320B为图形处理器1310（包括为顶点处理器1305和/或（一个或多个）片段处理器1315A-1315N）提供虚拟地址到物理地址映射，这些处理器除了引用在一个或多个高速缓存1325A-1325B中存储的顶点或图像/纹理数据之外还可引用在存储器中存储的顶点或图像/纹理数据。在一个实施例中，一个或多个MMU 1320A-1320B可与系统内的其它MMU同步，所述其它MMU包括与图12的一个或多个应用处理器1205、图像处理器1215和/或视频处理器1220相关联的一个或多个MMU，使得每个处理器1205-1220可参与到共享或统一的虚拟存储器系统中。根据实施例，一个或多个电路互连1330A-1330B使得图形处理器1310能够经由SoC的内部总线或者经由直接连接来与SoC内的其它IP核通过接口连接。

如图13B所示出的，图形处理器1340包括图13A的图形处理器1310的一个或多个MMU 1320A-1320B、（一个或多个）高速缓存1325A-1325B和（一个或多个）电路互连1330A-1330B。图形处理器1340包括提供统一的着色器核架构的一个或多个着色器核1355A-1355N（例如，1355A、1355B、1355C、1355D、1355E、1355F直到1355N-1和1355N），在该统一的着色器核架构中单个核或类型或核可执行全部类型的可编程着色器代码，所述可编程着色器代码包括用于实现顶点着色器、片段着色器和/或计算着色器的着色器程序代码。存在的着色器核的确切数量可在实施例和实现之间变化。另外，图形处理器1340包括：核间任务管理器1345，该核间任务管理器1345充当用于将执行线程分派给一个或多个着色器核1355A-1355N的线程分派器；以及用于为基于贴片的渲染加速拼贴操作（tiling operation）的拼贴单元（tiling unit）1358，在该基于贴片的渲染中，用于场景的渲染操作在图像空间中被细分，例如以利用场景内的局部空间相干性或优化内部高速缓存的使用。

在一些实施例中，处理资源表示与如本文中所述的GPU中的图形处理器或图形处理器结构（例如，并行处理单元、图形处理引擎、多核群组、计算单元、接下来的图形核的计算单元）相关联的处理元件（例如，GPGPU核、光线追踪核、张量核、执行资源、执行单元（EU）、流处理器、流式多处理器（SM）、图形多处理器）。例如，处理资源可以是图形多处理器的GPGPU核或张量/光线追踪核中的一个；图形多处理器的光线追踪核、张量核或GPGPU核；图形多处理器的执行资源；多核群组的GFX核、张量核或光线追踪核中的一个；计算单元的向量逻辑单元或标量逻辑单元中的一个；具有EU阵列的执行单元或EU阵列；执行逻辑的执行单元；和/或执行单元。处理资源还可以是在例如图形处理引擎、处理集群、GPGPU、GPGPU、图形处理引擎、图形处理引擎集群和/或图形处理引擎内的执行资源。处理资源也可以是图形处理器、图形处理器和/或图形处理器内的处理资源。

机器学习概览

机器学习算法是可基于数据的集合进行学习的算法。机器学习算法的实施例可被设计成对数据集内的高级抽象建模。例如，图像识别算法可用于确定给定输入是属于若干类别中的哪个；回归算法可在给定输入的情况下输出数值；并且模式识别算法可用于生成翻译的文本或执行文本到语音和/或语音识别。

机器学习算法的示例类型是神经网络。存在许多类型的神经网络；简单类型的神经网络是前馈网络。前馈网络可被实现为非循环图，其中节点被布置在层中。通常，前馈网络拓扑包括由至少一个隐藏层分开的输入层和输出层。隐藏层将由输入层所接收的输入变换成对于在输出层中生成输出有用的表示。网络节点经由边缘完全连接到相邻层中的节点，但是在每个层内的节点之间不存在边缘。在前馈网络的输入层的节点处所接收的数据经由激活函数被传播（即，“前馈”）到输出层的节点，该激活函数基于分别与连接层的边缘中的每个相关联的系数（“权重”）来计算网络中每个相继层的节点的状态。取决于由正在执行的算法所表示的特定模型，来自神经网络算法的输出可采取各种形式。

在机器学习算法可用于对特定问题建模之前，使用训练数据集来训练该算法。训练神经网络涉及：选择网络拓扑、使用表示正在由网络建模的问题的训练数据集、以及调整权重直到网络模型对于训练数据集的所有实例以最小误差执行为止。例如，在神经网络的监督学习训练过程期间，将响应于表示训练数据集中的实例的输入由网络产生的输出与该实例的“正确”标记输出进行比较，计算表示输出和标记输出之间的差的误差信号，并且调整与连接相关联的权重，以在误差信号通过网络的层向后传播时使该误差最小化。当从训练数据集的实例所生成的输出中的每个的误差被最小化时，网络被认为是“经训练的”。

机器学习算法的精确性可能显著地受到用于训练该算法的数据集的质量的影响。训练过程可能是计算密集的，并且可能在常规通用处理器上使用大量时间。因此，并行处理硬件被用于训练许多类型的机器学习算法。这对于优化神经网络的训练特别有用，因为在调整神经网络中的系数时执行的计算本身自然地适合于并行实现。特定地，许多机器学习算法和软件应用已适于利用通用图形处理装置内的并行处理硬件。

图14是机器学习软件栈1400的一般化图。机器学习应用1402可被配置成使用训练数据集来训练神经网络或者被配置成使用经训练的深度神经网络来实现机器智能。机器学习应用1402可包括用于神经网络的训练和推理功能性和/或可用于在部署之前训练神经网络的专用软件。机器学习应用1402可实现任何类型的机器智能，包括但不限于图像识别、映射和定位、自主导航、语音合成、医学成像或语言翻译。

机器学习应用1402的硬件加速可经由机器学习框架1404来启用。机器学习框架1404可提供机器学习原语（machine learning primitive）的库。机器学习原语是通常由机器学习算法执行的基本操作。在没有机器学习框架1404的情况下，机器学习算法的开发者将必须创建并优化与机器学习算法相关联的主要计算逻辑，然后在开发新的并行处理器时重新优化计算逻辑。相反，机器学习应用可被配置成使用由机器学习框架1404提供的原语来执行计算。示例原语包括张量卷积、激活函数和池化，它们是在训练卷积神经网络（CNN）时执行的计算操作。机器学习框架1404还可提供实现由诸如矩阵和向量运算之类的许多机器学习算法执行的基本线性代数子程序的原语。

机器学习框架1404可处理从机器学习应用1402所接收的输入数据，并且生成到计算框架1406的适当输入。计算框架1406可抽象化（abstract）提供给GPGPU驱动器1408的底层指令以使机器学习框架1404能够经由GPGPU硬件1410利用硬件加速，而不要求机器学习框架1404对GPGPU硬件1410的架构有密切的了解。另外，计算框架1406可跨各种类型和代的GPGPU硬件1410能够实现机器学习框架1404的硬件加速。

机器学习神经网络实现

由本文中描述的实施例提供的计算架构可被配置成执行特别适合于训练和部署用于机器学习的神经网络的并行处理的类型。神经网络可被概括为具有图形关系的功能的网络。如本领域中所公知的，存在在机器学习中使用的各种类型的神经网络实现。如前所述，神经网络的一个示例类型是前馈网络。

第二种示例类型的神经网络是卷积神经网络（CNN）。CNN是用于处理具有已知的网格状（grid-like）拓扑的数据（诸如图像数据）的专用前馈神经网络。因此，CNN通常用于计算视觉和图像识别应用，但是它们也可用于其它类型的模式识别，诸如语音和语言处理。CNN输入层中的节点被组织成“过滤器”（受视网膜中发现的感受野（receptive field）所启发的特征检测器）的集合，并且过滤器的每个集合的输出被传播到网络的连续层中的节点。CNN的计算包括将卷积数学运算应用于每个过滤器以产生该过滤器的输出。卷积是由两个函数执行的专门种类的数学运算，以产生第三函数，该第三函数是两个原始函数中的一个的修改版本。在卷积网络术语中，卷积的第一函数可被称为输入，而第二函数可被称为卷积内核。输出可被称为特征图（feature map）。例如，对卷积层的输入可以是定义输入图像的各种颜色分量的数据的多维阵列。卷积内核可以是参数的多维阵列，其中通过神经网络的训练过程来适配参数。

递归神经网络（RNN）是包括层之间的反馈连接的前馈神经网络的族。RNN通过跨神经网络的不同部分共享参数数据能够实现顺序数据的建模。RNN的架构包括循环。循环表示变量的当前值在将来时间对其自身值的影响，因为来自RNN的输出数据的至少一部分作为反馈被用于处理序列中的后续输入。由于可组成语言数据的可变性质，该特征使RNN对于语言处理特别有用。

下面描述的图呈现了示例前馈、CNN和RNN网络，也描述了用于分别训练和部署那些类型的网络中的每个的一般过程。将理解，这些描述是关于本文中描述的任何特定实施例的示例而非限制，并且所示出的概念一般可被一般地应用于深度神经网络和机器学习技术。

上述示例神经网络可用于执行深度学习。深度学习是使用深度神经网络的机器学习。与包括单个隐藏层的浅神经网络相反，在深度学习中使用的深度神经网络是由多个隐藏层构成的人工神经网络。更深的神经网络通常是用于训练的更加计算密集的。然而，网络的附加隐藏层能够实现多步骤模式识别，这相对于浅机器学习技术而言导致减少的输出误差。

在深度学习中所使用的深度神经网络通常包括耦合到后端网络的用于执行特征识别的前端网络，该后端网络表示可基于提供给模型的特征表示来执行操作（例如，对象分类、语音识别等）的数学模型。深度学习使机器学习能够被执行而不要求对模型执行手工制作的（hand crafted）特征工程。相反，深度神经网络可基于输入数据内的统计结构或相关性来学习特征。所学习的特征可被提供给数学模型，该数学模型可将所检测到的特征映射到输出。由网络所使用的数学模型通常专用于要执行的特定任务，并且不同的模型将用于执行不同的任务。

一旦神经网络被构建，学习模型就可被应用于网络以训练网络来执行特定任务。学习模型描述了如何调整模型内的权重以减少网络的输出误差。误差的反向传播是用于训练神经网络的常用方法。输入向量被呈现给网络以用于处理。使用损失函数将网络的输出与期望输出进行比较，并且为输出层中的神经元中的每个计算误差值。然后，误差值向后传播，直到每个神经元都具有相关联的误差值，所述相关联的误差值粗略地表示其对原始输出的贡献。然后，网络可使用诸如随机梯度下降算法之类的算法从那些误差中学习，以更新神经网络的权重。

图15A-15B示出了示例卷积神经网络。图15A示出了CNN内的各个层。如图15A中所示，用于对图像处理进行建模的示例CNN可接收描述输入图像的红、绿和蓝（RGB）分量的输入1502。输入1502可由多个卷积层（例如，第一卷积层1504、第二卷积层1506）处理。来自多个卷积层的输出可以可选地由全连接层1508的集合处理。如先前对前馈网络所述的，全连接层中的神经元具有到前一层中的所有激活值（activation）的完全连接。来自全连接层1508的输出可用于生成来自网络的输出结果。可使用矩阵乘法而不是卷积来计算全连接层1508内的激活值。并非所有CNN实现都利用全连接层1508。例如，在一些实现中，第二卷积层1506可生成CNN的输出。

卷积层是稀疏连接的，这不同于在全连接层1508中找到的传统神经网络配置。传统的神经网络层是全连接的，使得每个输出单元与每个输入单元交互。然而，卷积层是稀疏地连接的，因为场的卷积的输出（而不是场中的节点中的每个的相应状态值）被输入到后续层的节点，如所示出的那样。与卷积层相关联的内核执行卷积运算，所述卷积运算的输出被发送到下一层。在卷积层内执行的降维（dimensionality reduction）是使得CNN能够缩放以处理大图像的一个方面。

图15B示出了CNN的卷积层内的示例计算阶段。CNN的到卷积层的输入1512可在卷积层1514的三个阶段中被处理。这三个阶段可包括卷积阶段1516、检测器阶段1518和池化阶段1520。卷积层1514然后可将数据输出到连续的卷积层。网络的最终卷积层可生成输出特征图数据或者向全连接层提供输入，例如，以生成到CNN的输入的分类值。

在卷积阶段1516中并行地执行若干卷积以产生线性激活值的集合。卷积阶段1516可包括仿射变换，所述仿射变换是可被指定为线性变换加平移（translation）的任何变换。仿射变换包括旋转、平移、缩放以及这些变换的组合。卷积阶段计算连接到输入中的特定区域的函数（例如，神经元）的输出，所述特定区域可被确定为与神经元相关联的局部区域。神经元计算神经元的权重与局部输入中神经元所连接的区域之间的点积。来自卷积阶段1516的输出定义了由卷积层1514的连续阶段处理的线性激活值的集合。

线性激活值可由检测器阶段1518处理。在检测器阶段1518中，每个线性激活值由非线性激活函数处理。非线性激活函数增加了整个网络的非线性特性，而不影响卷积层的感受野。可使用若干类型的非线性激活函数。一种特定类型是整流线性单元（ReLU），其使用定义为

的激活函数，使得激活值被阈值化（thresholded）在零。

池化阶段1520使用池化函数，该池化函数用附近输出的汇总统计替换第二卷积层1506的输出。池化函数可用于将平移不变性引入神经网络，使得对输入的小平移不改变池化输出。对局部平移的不变性在其中输入数据中特征的存在比特征的精确位置更重要的场景中可能是有用的。在池化阶段1520期间，可使用各种类型的池化函数，包括最大池化、平均池化和l2-norm池化。另外，一些CNN实现不包括池化阶段。相反，这样的实现替代了相对于先前卷积阶段具有增加的步幅的附加卷积阶段。

然后，来自卷积层1514的输出可由下一层1522处理。下一层1522可以是全连接层1508中的一个或附加卷积层。例如，图15A的第一卷积层1504可输出到第二卷积层1506，而第二卷积层可输出到全连接层1508的第一层。

图16示出了示例递归神经网络。在递归神经网络（RNN）中，网络的先前状态影响网络的当前状态的输出。可使用各种函数以各种方式来构建RNN。RNN的使用通常围绕使用数学模型基于先前的输入序列来预测未来。例如，RNN可用于执行统计语言建模，以预测给定先前单词序列的即将到来的单词。所示的RNN 1600可被描述为具有接收输入向量的输入层1602、用于实现递归函数的隐藏层1604、用于启用先前状态的“记忆”的反馈机制1605、以及用于输出结果的输出层1606。RNN 1600基于时间步（time-step）来操作。经由反馈机制1605，基于先前的时间步来影响RNN在给定时间步的状态。对于给定时间步，隐藏层1604的状态由先前状态和在当前时间步的输入来定义。在第一时间步的初始输入（x₁）可由隐藏层1604处理。第二输入（x₂）可由隐藏层1604使用在初始输入（x₁）的处理期间确定的状态信息来处理。给定状态可被计算为

，其中U和W是参数矩阵。该函数f通常是非线性的，诸如双曲正切函数（Tanh）或整流器函数

的变体。然而，隐藏层1604中所使用的特定数学函数可取决于RNN 1600的特定实现细节而变化。

除了所描述的基本CNN和RNN网络之外，还可启用那些网络的变体。一个示例RNN变体是长期短期记忆（LSTM）RNN。LSTM RNN能够学习可用于处理较长的语言序列的长期依赖性。CNN上的一变体是卷积深度信念网络（convolutional deep belief network），其具有类似于CNN的结构并且以类似于深度信念网络的方式被训练。深度信念网络（DBN）是由多层偶然（随机）变量组成的生成神经网络。DBN可使用贪婪无监督学习来逐层训练。然后，通过确定神经网络的权重的最优初始集合，DBN的所学习的权重可用于提供预训练神经网络。

图17示出了深度神经网络的训练和部署。一旦已经为任务构造了给定网络，就使用训练数据集1702来训练神经网络。已经开发了各种训练框架以能够实现训练过程的硬件加速。例如，图14的机器学习框架1404可被配置为训练框架1704。训练框架1704可挂接（hook）到未训练的神经网络1706中，并且使得未训练的神经网能够使用本文中所述的并行处理资源被训练，以生成经训练的神经网络1708。为了开始训练过程，可随机地或者通过使用深度信念网络的预训练来选择初始权重。然后以监督或无监督的方式执行训练周期。

监督学习是一种学习方法，其中训练作为调解操作被执行，诸如当训练数据集1702包括与输入的期望输出配对的输入，或者其中训练数据集包括具有已知输出的输入并且神经网络的输出被手动分级时。网络处理输入并将得到的输出与期望或期待的输出的集合进行比较。然后误差通过系统传播回来。训练框架1704可调整以调整控制未训练的神经网络1706的权重。训练框架1704可提供工具来监测未训练的神经网络1706向适于基于已知输入数据生成正确答案的模型收敛得有多好。随着网络的权重被调整以细化由神经网络生成的输出，训练过程重复地发生。训练过程可继续，直到神经网络达到与经训练的神经网络1708相关联的统计上期待的精确性为止。然后，经训练的神经网络1708可被部署来实现任何数量的机器学习操作，以基于新数据1712的输入来生成推理结果1714。

无监督学习是一种学习方法，其中网络试图使用未标记数据来训练其自身。因此，对于无监督学习，训练数据集1702将包括没有任何相关联的输出数据的输入数据。未训练的神经网络1706可学习未标记的输入内的分组，并且可确定各个输入如何与整个数据集相关。无监督训练可用于生成自组织映射，其是一种能够执行在降低数据的维数中有用的操作的类型的经训练的神经网络1708。无监督训练也可用于执行异常检测，这允许输入数据集中偏离数据的正常模式的数据点的标识。

也可采用监督训练和无监督训练的变体。半监督学习是一种其中训练数据集1702包括相同分布的标记和未标记数据的混合的技术。增量学习是监督学习的变体，其中输入数据被连续地用于进一步训练模型。增量学习使得经训练的神经网络1708能够适于新数据1712，而不忘记在初始训练期间在网络内灌注的知识。

无论是监督的还是无监督的，用于特别深度神经网络的训练过程对于单个计算节点而言可能是太计算密集的。代替使用单个计算节点，可使用计算节点的分布式网络来加速训练过程。

图18是示出分布式学习的框图。分布式学习是使用多个分布式计算节点来执行神经网络的监督训练或无监督训练的训练模型。分布式计算节点可各自包括一个或多个主机处理器和通用处理节点中的一个或多个。如图所示，分布式学习可由模型并行（modelparallelism）1802、数据并行1804或模型和数据并行1804的组合来执行。

在模型并行1802中，分布式系统中的不同计算节点可针对单个网络的不同部分执行训练计算。例如，神经网络中的每层可由分布式系统的不同处理节点训练。模型并行的益处包括缩放到特别大型的模型的能力。分割与神经网络的不同层相关联的计算能够实现训练非常大型的神经网络，其中所有层的权重将不适合单个计算节点的存储器。在一些实例中，模型并行在执行大型神经网络的无监督训练中可以是特别有用的。

在数据并行1804中，分布式网络的不同节点具有模型的完整实例，并且每个节点接收数据的不同部分。然后组合来自不同节点的结果。虽然数据并行的不同方法是可能的，但是数据并行训练方法全部使用在每个节点之间同步模型参数并且组合结果的技术。组合数据的示例方法包括参数平均和基于更新的数据并行。参数平均在训练数据的子集上训练每个节点，并且将全局参数（例如，权重、偏置）设置为来自每个节点的参数的平均值。参数平均使用维护参数数据的中央参数服务器。除了传送对模型的更新，而不是将参数从节点传递到参数服务器之外，基于更新的数据并行类似于参数平均。另外，基于更新的数据并行可以以分散的方式执行，其中更新被压缩并且在节点之间传递。

组合的模型和数据并行1806可例如在分布式系统中实现，其中每个计算节点包括多个GPU。每个节点可具有模型的完整实例，其中每个节点内的单独GPU用于训练模型的不同部分。

分布式训练相对于单个机器上的训练而言具有增加的开销。然而，本文中所描述的并行处理器和GPGPU可各自实现用于减少分布式训练的开销的各种技术，包括用于能够实现高带宽GPU到GPU数据传输和加速的远程数据同步的技术。

示例机器学习应用

机器学习可被应用于解决各种技术问题，包括但不限于计算机视觉、自主驾驶和导航、语音识别和语言处理。计算机视觉传统上已经是机器学习应用的最活跃的研究领域之一。计算机视觉的应用范围从再现人类视觉能力（诸如，识别面部）到创建视觉能力的新类别变动。例如，计算机视觉应用可被配置成识别来自在视频中可见的对象中引起的振动的声波。并行处理器加速的机器学习使计算机视觉应用能够使用比先前可行的训练数据集大得多的训练数据集被训练，并且使推理系统能够使用低功率并行处理器被部署。

并行处理器加速的机器学习具有包括车道和路标识别、障碍物避免、导航和驾驶控制的自主驾驶应用。加速的机器学习技术可用于基于定义对特定训练输入的适当响应的数据集来训练驾驶模型。本文中描述的并行处理器可能够实现对用于自主驾驶解决方案的日益复杂的神经网络的快速训练，并且能够实现低功率推理处理器在适于集成到自主交通工具中的移动平台中的部署。

并行处理器加速的深度神经网络已经使机器学习方法能够用于自动语音识别（ASR）。ASR包括在给定输入声音序列的情况下计算最可能的语言序列的函数的创建。使用深度神经网络的加速的机器学习已经能够实现先前用于ASR的隐马尔可夫模型（HMM）和高斯混合模型（GMM）的替换。

并行处理器加速的机器学习也可用于加速自然语言处理。自动学习过程可利用统计推理算法来产生对误差或不熟悉的输入是健壮的模型。示例自然语言处理器应用包括人类语言之间的自动机器翻译。

用于机器学习的并行处理平台可划分为训练平台和部署平台。训练平台通常是高度并行的，并且包括用于加速多GPU单节点训练和多节点、多GPU训练的优化，而部署的机器学习（例如，推理）平台通常包括适于供诸如相机、自主机器人和自主交通工具之类的产品中使用的较低功率并行处理器。

用于自适应超采样的样本的基于深度学习的选择

渲染是借助于计算程序从二维（2D）或三维（3D）模型（例如，场景或场景文件）生成图像的处理。显示这样的模型的结果可被称为渲染。场景文件可在严格定义的语言或数据结构中含有对象。它还可含有几何形状、视点、纹理、照明和着色信息作为虚拟场景的描述。然后，含在场景文件中的数据被传递到渲染程序以被处理并输出到数字图像或栅格图形图像文件。

渲染中的常见问题是混叠（aliasing）。在渲染期间，在离散像素处对场景（例如，3D场景）进行采样。结果，对象的视觉表示在像素之间可能显得破裂。在渲染中可能存在用于混叠的多个源。例如，可存在透明混叠、几何混叠、子像素混叠、几何混叠、纹理混叠和共享混叠，仅举几个示例。致力于解决混叠的解决方案被称为抗混叠技术。

一种抗混叠技术是超采样。超采样是指针对几何采样和着色器执行两者，增加每像素的采样数量，然后将颜色混合在一起。强力（brute-force）（或纯）超采样设置跨图像中的每个像素应用的样本的固定数量。强力采样遭受了如下的缺点：增加了诸如GPU之类的处理器的工作负荷，该工作负荷与所采用的样本的数量成线性关系。

自适应超采样的方法致力于解决由强力超采样导致的线性工作负荷增加的问题。自适应超采样是其中对象边缘处的像素被超采样而对象的内部像素不被超采样的技术。已经引入了各种自适应超采样技术。例如，一种自适应超采样技术建议如果在像素的角落处的四个样本示出显著的色差，则继续进一步对像素进行超采样。

自适应超采样所遇到的问题在于难以预先知道在渲染期间应当使用多少像素或贴片的样本以便获得足够的视觉质量。因此，在自适应超采样中难以避免对可能不受益于这种超采样的区域的成本高昂的超采样。

另一种深度学习抗混叠技术是深度学习超采样（DLSS）。DLSS利用AI训练的网络从较低分辨率到高分辨率对图像的部分进行上采样（upsample）。上采样与多速率数字信号处理系统中的重采样过程相关联，并且可描述扩展和过滤（内插）过程。当对信号或其它连续函数的样本序列执行上采样时，它产生本该通过以较高速率对信号进行采样而获得的序列的近似值。DLSS的问题在于DLSS技术可能创建模糊的图像。此外，DLSS不调整每像素或贴片所采取的样本的实际量，而是对像素进行上采样。这样，在DLSS中，所有的后处理步骤都是将更多细节“伪造”到以较低分辨率或质量渲染的图像中。这样的方法不能在某些区域中重新生成地面实况（ground truth），并且因此遭受伪像（artifact）（例如，图像的部分显得模糊）。

本公开的实现通过使用AI训练的网络来针对渲染贴片确定应当采取多少个样本以用于贴片的超采样来致力于解决现有超采样抗混叠技术的上述技术问题，以便提供高质量图像。本公开的实现使用AI训练的网络来自适应地为将受益于超采样的贴片选择超采样大小，并且同时避免为将不受益于超采样的贴片选择超采样。本公开的实现利用基于贴片的渲染器，该渲染器首先创建贴片而不进行超采样（SPP = 1）。贴片作为输入被提供给经训练的AI网络，该经训练的AI网络为该贴片返回超采样级别的数字。基于返回的超采样级别，可应用进一步的超采样或者可将贴片留在其当前级别。本公开的实现通过标识其中寻求高质量（例如，将呈现混叠）且证明附加计算合理的正确的超采样级别来加速自适应超采样，并且同时避免在将不呈现混叠的超采样区域上浪费性能。结果，与先前解决方案相比，本发明的实现在硬件要求和处理器的功率消耗方面以更低的成本改进所渲染的图像质量。

图19是根据本公开的实现的可促进用于自适应超采样的样本的基于深度学习的选择的示例计算系统的框图。示例计算系统1900可被实现为另一系统的组件，所述另一系统诸如例如移动装置、可穿戴装置、膝上型计算机、平板、台式计算机、服务器等。如所示出的，在一个实施例中，计算装置1900可包括任何数量和类型的硬件和/或软件组件，诸如（但不限于）图形处理单元（“GPU”或简单地“图形处理器”）1912、中央处理单元（“CPU”或简单地“应用处理器”）1915、存储器1930、网络装置、驱动器等，以及输入/输出（I/O）源1960（诸如触摸屏、触摸面板、触摸板、虚拟或常规键盘、虚拟或常规鼠标、端口、连接器等）。计算装置1900可包括充当计算装置1900的物理资源和/或硬件与用户之间的接口的操作系统（OS）1910。

示例计算系统1900的GPU 1912（或图形处理器1912）和/或CPU 1915（或应用处理器1915）可包括模型执行器1905和模型训练器1925。GPU 1912可与本文中关于图1-13B所描述的GPU和/或GPGPU相同。尽管模型执行器1905和模型训练器1925被描绘为GPU 1912的一部分，但是在一些实现中，CPU 1912也可包括模型执行器1905和/或模型训练器1925。尽管被描绘为驻留在相同机器中，但在本公开的实现中，模型执行器1905和/或模型训练器1925可驻留在彼此不同且分开的机器上。

示例模型执行器1905访问输入值（例如，经由输入接口（未示出）），并且基于存储在存储器1930的模型参数存储器1935中的机器学习模型来处理那些输入值以产生输出值（例如，经由输出接口（未示出））。输入数据可从一个或多个数据源接收（例如，经由一个或多个传感器、经由网络接口等）。然而，可以以任何方式接收输入数据，诸如例如从外部装置（例如，经由有线和/或无线通信信道）接收输入数据。在一些示例中，可接收多个不同类型的输入。

在图19的所示示例中，存储在模型参数存储器1935中的示例神经网络参数由模型训练器1925训练，使得输入数据（例如，经由训练值接口（未示出）所接收的输入数据）基于训练值导致输出数据（也称为输出值）。在图19所示的示例中，模型执行器1905和/或模型训练器1925在训练和/或推理期间处理模型时利用超采样组件1940和渲染器1950来提供用于自适应超采样的样本的基于深度学习的选择。尽管超采样组件1940和渲染器1950被描绘为GPU 1912的一部分，但在一些实现中，CPU 1912也可包括超采样组件1940和/或渲染器1950。尽管被描绘为驻留在相同机器中，但在本公开的实现中，超采样组件1940和/或渲染器1950可驻留在彼此不同且分开的机器上。

在一些示例中，输入数据和/或输出数据经由计算系统1900是其组件的系统的输入和/或输出来接收。

示例模型执行器1905、示例模型训练器1925、示例性超采样组件1940和示例渲染器1950由诸如例如硬件处理器之类的一个或多个逻辑电路来实现。在一些示例中，示例模型执行器1905、示例模型训练器1925、示例超采样组件1940或示例渲染器1950中的一个或多个可由相同的硬件组件（例如，相同的逻辑电路）或由不同的硬件组件（例如，不同的逻辑电路、不同的计算系统等）来实现。然而，可附加地或备选地使用任何其它类型的电路，诸如例如一个或多个模拟或数字电路、逻辑电路、（一个或多个）可编程处理器、（一个或多个）专用集成电路（ASIC）、（一个或多个）可编程逻辑装置（PLD）、（一个或多个）现场可编程逻辑装置（FPLD）、（一个或多个）数字信号处理器（DSP）等。

在本文中所公开的示例中，示例模型执行器1905执行机器学习模型。示例机器学习模型可使用神经网络（例如，前馈神经网络）来实现。然而，可附加地或备选地使用任何其它过去、现在和/或未来的（一个或多个）机器学习拓扑和/或架构，诸如例如CNN。

为了执行模型，示例模型执行器1905访问输入数据。在一些示例中，模型执行器1905将输入数据提供给超采样组件1940以促进用于自适应超采样的样本的基于深度学习的选择。（使用示例超采样组件1940和渲染器1950的）示例模型执行器1905将（由存储在模型参数存储器1935中的模型参数定义的）模型应用于输入数据。例如，模型执行器1905可使用渲染器1950来以超采样级别1（1x SPP）（例如，没有应用于输入数据的超采样）渲染输入数据（例如，图像的像素的输入贴片）。然后，输入数据的所渲染的贴片（1x SPP）可被应用于模型以获得输入数据的每个所渲染的贴片的超采样值。超采样组件1940然后可确定从模型获得的超采样值是否超过输入所渲染的贴片的超采样级别（即，1x SPP）。如果由模型为输入贴片提供的超采样级别超过了所渲染的输入贴片的超采样级别（例如，1x SPP），则超采样组件1940使渲染器1950以由模型提供的新的超采样级别来重新渲染输入贴片。模型执行器1905经由例如输出接口（未示出）提供结果作为输出数据以供进一步使用。

图19的所示示例的示例模型参数存储器1935由用于存储数据的任何存储器、存储装置和/或存储盘实现，诸如例如闪速存储器、磁介质、光介质等。此外，存储在示例模型参数存储器1935中的数据可采用任何数据格式，诸如例如二进制数据、逗号分隔数据、制表符分隔的数据、结构化查询语言（SQL）结构等。虽然在所示的示例中，模型参数存储器1935被示出为单个元件，但是本文中描述的模型参数存储器1935和/或任何其它数据存储元件可通过任何数量和/或（一个或多个）类型的存储器来实现。在图19的所示示例中，示例模型参数存储器1935存储模型加权参数，所述模型加权参数被模型执行器1905用于处理输入，以便生成一个或多个输出作为输出数据。

在本文中所公开的示例中，输出数据可以是对接收到的（例如，如由模型执行器1905确定的）所接收的输入数据进行分类的信息。然而，可附加地或备选地使用可用于任何其它目的的任何其它类型的输出。在本文中所公开的示例中，输出数据可由显示输出值的输入/输出（I/O）源1960输出。然而，在一些示例中，输出数据可作为输出值被提供给另一系统（例如，另一电路、外部系统、由计算系统1900执行的程序等）。在一些示例中，输出数据可存储在存储器中。

在本文中所公开的示例中，示例模型训练器1925被训练成选择用于图像的渲染贴片的自适应超采样的样本。图19的所示示例的示例模型训练器1925将（例如，在计算系统1900作为训练值接收的）期望的输出与由示例模型执行器1905产生的输出进行比较，以确定训练误差量，并且基于误差量更新模型。在训练迭代之后，由模型训练器1925评估误差量以确定是否继续训练。在本文中所公开的示例中，当输入数据不导致期望的输出时，标识误差。也就是说，误差被表示为具有期望输出的给定输入的不正确的输出的数量。然而，可附加地或备选地使用表示误差的任何其它方法，诸如例如导致误差的输入数据点的百分比。

示例模型训练器1925确定训练误差是否小于训练误差阈值。如果训练误差小于训练误差阈值，则模型已经被训练成使得它导致足够低的误差量，并且不进行进一步的训练。在本文中所公开的示例中，训练误差阈值是十个误差。然而，可附加地或备选地使用任何其它阈值。此外，当确定模型训练是否完成时，可考虑其它类型的因素。例如，可考虑在训练过程期间所执行的训练迭代的量和/或所经过的时间量。

由模型训练器1925所利用的训练值（本文中也称为训练数据）包括示例输入以及期望的输出数据。在本文中所公开的示例中，示例训练值被提供给模型训练器1925以使模型训练器1925能够确定训练误差的量。在一些示例中，训练值可包括各自包括多个像素的输入贴片（例如，8x 8像素、16x16像素、32x32像素、13x25像素等的贴片）以及对应于每个输入贴片的超采样值（例如，1、2、4、8、16、32等）。训练值的超采样值可以是这样的以至于，当在渲染期间被应用于对应的输入贴片的采样时，使输入贴片以满足所确定的质量测量度量阈值的质量（例如，满足SSIM或PSNR值；SSIM值大于或等于0.98）被渲染（使用渲染器1950）。模型训练器1925使用训练值来生成经训练的机器学习模型，该经训练的机器学习模型为输入贴片提供超采样值，其中所提供的超采样值使输入贴片以满足所确定的质量测量度量阈值的所得质量测量度量值被渲染。

在本文中所公开的示例中，示例模型执行器1905接收在没有超采样的情况下所渲染的输入贴片，并且提供用于渲染输入贴片的超采样值。如上所述，为了执行诸如利用神经网络的机器学习模型之类的模型，示例模型执行器1905使用超采样组件1940和渲染器1950的组合来应用经训练的机器学习模型。机器学习模型可使用如上所述的模型训练器1925来训练。下面关于图20到图24提供了使用模型执行器1905、模型训练器1925、超采样组件1940和渲染器1950的模型训练和推理的进一步讨论。

图19的所示示例的示例I/O源1960能够实现存储在模型参数存储器1935中的模型与其它计算系统的通信。在一些实现中，（一个或多个）I/O源1960可包括但不限于网络装置、微处理器、相机、机器人眼睛、扬声器、传感器、显示屏、媒体播放器、鼠标、触敏装置等。以此方式，中央计算系统（例如，服务器计算机系统）可执行模型的训练并且将模型分布到边缘装置以便利用（例如，以便使用模型执行推理操作）。在本文中所公开的示例中，使用以太网网络通信器来实现I/O源1960。然而，可附加地或备选地使用任何其它（一个或多个）过去、现在和/或未来类型的通信技术以将模型传递到单独的计算系统。

虽然图19中示出了实现计算机系统1900的示例方式，但是图19中示出的元件、过程和/或装置中的一个或多个可以以任何其它方式组合、划分、重新布置、省略、消除和/或实现。此外，示例模型执行器1905、示例模型训练器1925、示例超采样组件1940、示例渲染器1950、（一个或多个）I/O源1960和/或更一般地，图19的示例计算系统1900可由硬件、软件、固件和/或硬件、软件和/或固件的任何组合来实现。因此，例如，任何示例模型执行器1905、示例模型训练器1925、示例超采样组件1940、示例渲染器1950、（一个或多个）示例I/O源1960和/或更一般地，图19的示例计算系统1900可由一个或多个模拟或数字电路、逻辑电路、（一个或多个）可编程处理器、（一个或多个）可编程控制器、（一个或多个）图形处理单元（GPU）、（一个或多个）数字信号处理器（DSP）、（一个或多个）专用集成电路（ASIC）、（一个或多个）可编程逻辑装置（PLD）和/或（一个或多个）现场可编程逻辑装置（FPLD）来实现。

当阅读本专利的设备或系统权利要求中的任何设备或系统权利要求以覆盖纯软件和/或固件实现时，示例模型执行器1905、示例模型训练器1925、示例超采样组件1940、示例渲染器1950、（一个或多个）示例I/O源1960和/或更一般地图19的示例计算系统1900中的至少一个由此被明确地定义成包括非暂时性计算机可读存储装置或存储盘，诸如包括软件和/或固件的存储器、数字多功能盘（DVD）、紧致盘（CD）、蓝光盘等等。更进一步，图19的示例计算系统1900可包括除了图19中所示的那些之外或代替其的一个或多个元件、过程和/或装置，和/或可包括所示元件、过程和装置中的任何或全部中的多于一个。如本文中所使用的，短语“通信中”包括其变型，涵盖通过一个或多个中间组件的间接通信和/或直接通信，并且不利用直接物理（例如，有线的）通信和/或恒定通信，而是另外包括按周期性间隔、预定的间隔、非周期性间隔和/或一次性事件的选择性通信。

如上所讨论的，本公开的实现促进在渲染图像时用于自适应超采样的样本的基于深度学习的选择。本公开的实现的基于深度学习的选择包括利用基于AI的网络以便选择自适应超采样设置来应用于图像的贴片。本公开的实现促进基于AI的网络的模型训练和推理以便选择用于自适应超采样的样本。

关于用于选择用于自适应超采样的样本的基于AI的网络的模型训练，用于自适应超采样的训练数据被提供给机器学习系统。在一个实现中，机器学习系统可与关于图19描述的计算系统1900相同。在一个实现中，关于图19描述的模型训练器1925可用于模型训练，并且关于图19描述的模型执行器1905可用于模型推理。

训练数据可包括大量所渲染的图像。例如，可渲染数千、数百万、数十亿等的随机图像。在一些实现中，训练数据的大小可以以兆兆字节（TB）来度量。训练数据中的每个图像可利用超采样的各种设置来渲染。在一个实现中，用于渲染图像的超采样的设置可包括但不限于，无超采样（1x SPP）、2x SPP、4x SPP、8x SPP、16x SPP、32x SPP等。

图像中的每个也可被分成贴片。贴片大小可基于特定实现而变化。在一个实现中，贴片大小可以是8×8。在一个实现中，贴片大小可以是16×16。在本公开的实现中，可利用其它贴片大小。在一个实现中，为了增加训练数据的量，输入图像可被分割成贴片，其中输入图像中的每个贴片被移位（shift）了一个像素。

图20A-20B示出了作为示例渲染场景的一部分的像素的示例贴片。在一个实现中，图20A-20B的示例贴片可被用作训练数据，以用于训练机器学习模型以便选择自适应超采样。在本公开的实现中，示例贴片还可被称为输入贴片。图20A示出了示例输入贴片2010，其是描绘作为更大的所渲染的图像（未示出）的一部分的街灯的16×16渲染贴片。如上所讨论的，本公开的实现可对各种不同大小的输入贴片进行操作，并且不限于图20A和图20B中描绘的16 x16输入贴片。

示例输入贴片2010可在不应用超采样（即，超采样值1；1x SPP）的情况下被渲染。如图20A中所示，以超采集值1进行渲染可引起贴片的混叠。特定地，街灯中的可见间隙可在输入贴片2010中被辨别。输入贴片2010的超采样可帮助改进输入贴片2010的视觉质量。

本公开的实现训练AI网络（例如，机器学习模型）以确定导致满足所确定的阈值的质量测量度量值的输入贴片的超采样值。质量测量度量值可以是包括但不限于结构相似性指数（SSIM）测量、峰值信噪比（PSNR）测量或用于视频编解码器图像质量优化的任何其它方法的质量测量度量。质量测量度量阈值（也称为质量测量阈值（quality measurementthreshold value或quality measurement threshold）等）可由最终用户（诸如系统的管理者）确定，并且可被配置在机器学习模型中。在一个实现中，质量测量度量阈值可以是0.98或更大的SSIM值。

在本公开的实现中的AI网络的训练（例如，诸如由关于图19所描述的模型训练器1925执行的机器学习模型的训练）期间，可生成被认为是用于机器学习模型训练目的的输入贴片的“地面实况”版本的输入贴片2010的版本。图20B示出了经超采样的输入贴片2050。在一个实现中，经超采样的输入贴片2050是使用为32的超采样值来采样的输入贴片2010的版本。本公开的实现可使用其它超采样值作为SSP值来生成输入贴片的地面实况版本。

在本公开的实现中的AI网络的训练期间，将该贴片的“地面实况”版本与采用其它SPP设置的该贴片的其它经超采样的版本进行比较。在一个实现中，贴片的地面实况版本可以是图像质量测量被设为1所在的版本，为了获得其超采样级别对于某一输入贴片是“足够好”的值，可在每个超采样级别中将所渲染的贴片与具有最多细节的贴片（例如，经超采样的输入贴片2050）进行比较。在一个实现中，具有最多细节的贴片是以超采样级别32（32xSPP）所渲染的贴片。SSIM度量可用于本发明的实现中的质量比较。然而，也可使用其它度量。

图21示出了根据本公开的实现的描绘用于AI网络的训练目的（例如，训练机器学习模型）的多个贴片的超采样的表2100。在一个实现中，表2100描绘了三行：第一行2110、第二行2120和第三行2130。每行2110、2120、2130对应于以各种超采样设置2112、2122、2132进行超采样的示例输入贴片2114、2124、2134。在表2100中提供经超采样的贴片2114、2124、2134连同经超采样的贴片2114、2124、2134的所得质量测量值（也称为质量测量度量值）2116、2126、2136。如图21中所描绘的，质量测量值使用SSIM测量。然而，在本公开的实现中也可使用其它度量（例如，DSSIM、PSNR等）。

在一个实现中，出于训练机器学习模型的目的，为输入贴片定义质量测量阈值（也称为质量测量度量阈值）。质量测量阈值可以是被认为提供所渲染的贴片的足够质量的全局用户定义的阈值。在一个示例中，关于图21的表2100，质量测量阈值被定义为0.98或更大的SSIM值。然而，在本公开的实现中可定义其它质量测量阈值。在第一行2110中，超采样值“4”与0.98的质量测量阈值的满足相关联。这样，以为“4”的超采样级别对第一行2110的第一列中所示的1x SPP输入贴片进行超采样导致了令人满意的质量的所渲染的图像贴片。在第二行2120中，为“8”的超采样值（即，8x SPP）与第二行2120的特定贴片的质量测量阈值的满足相关联。在第三行2130中，为“1”的超采样值（即，1x SPP）与第三行2130的特定贴片的质量测量阈值的满足相关联。

在一个实现中，给定贴片的超采样的量可使用二的幂来表达。例如，2⁰ = 1是满足质量测量阈值的为1的超采样级别，2¹ = 2是满足质量测量阈值的为2的超采样级别，2² = 4是满足质量测量阈值的为4的超采样级别，2³ = 8是满足质量测量阈值的为8的超采样级别，2⁴ = 16是满足质量测量阈值的为16的超采样级别，以及2⁵ = 32是满足质量测量阈值的为32的超采样级别。在一些实现中，将输入贴片放置到由二的幂值所表示的子文件夹名称0、1、2、3、4、5中虑及更容易的数据加载类别。

使用输入贴片的训练数据集和满足相应输入贴片的阈值质量测量的对应超采样级别，机器学习模型可被训练。在一个实现中，机器学习模型可以是CNN。然而，在本公开的实现中也可利用其它机器学习模型。

图22示出了根据本公开的实现的用于训练以选择用于图像贴片的自适应超采样的样本的示例模型2200。在一个实现中，模型2200接收以每像素1个样本生成的8×8像素的输入贴片。模型2200输出可用于对输入贴片进行超采样的值。在一个实现中，模型2200以二的幂格式输出超采样值。

如图22中所示，模型2200包括多个层并且针对为32的训练批大小进行优化。在本公开的实现中，模型层和训练批大小的变化也是可能的，并且不限于图22的模型2200中所描绘的那些。模型2200具有输入层2210。模型2200的前两个卷积层2220、2230具有为50的过滤器大小。前两个卷积层2220、2230的内核大小被设置为（3，3）。在一个实现中，卷积层2220、2230包括大小15的隐藏层。

在模型2200中包括平坦层2240和多个致密层2250、2260、2270。平坦层2240可将单个2D图像平坦化成像素的1D阵列。致密层2250、2260、2270可实现致密功能。可在模型2200中使用激活函数整流线性单元（relu）。最后的致密层2270使用线性激活函数来输出二的幂数。在模型2200编译期间，优化器可被设置为自适应矩估计（ADAM）。所使用的损失函数可以是均方误差（MSE）。

模型2200可接收RGB颜色空间中的输入（即，以用于训练和/或推理）。然而，在一些实现中，模型可在HSV颜色空间、YUV颜色空间或灰度颜色空间中操作。在一些实现中，可提供附加数据作为用于模型训练和推理的输入。例如，可提供输入贴片的深度值。由于一些图像（例如，在源视频游戏等中）可具有广泛变化的深度范围，因此可将深度值归一化（例如，在图像中的不同深度的总量上，使用值0.0到1.0）。使用附加深度数据可隐含地训练对基于深度的差异起作用以及这样的深度差异如何应用于超采样的模型。模型可接收的其它附加数据包括但不限于法线、对象IDS、纹理颜色、图元ID或时间分量（例如，来自先前所渲染的帧的数据）。

结果，模型2200可提供超采样值以用于正被渲染的图像中的每个贴片以改进图像中的混叠。基于AI的经训练的模型可提供超采样值以改进混叠，而不管混叠的源（例如，几何、法线、纹理、着色等）。在训练期间，当以不同的超采样级别比较所渲染的贴片时，混叠的源可来自任何各类的源。经超采样的贴片正在进行包括着色和任何种类的次级效果的完全渲染。因此，本公开的实现对混叠的源是不可知的。经训练的模型学习使用超采样级别来补偿混叠，而不管混叠源自何处。

在本公开的实现中，AI网络（机器学习模型）的训练可与由AI网络执行的模型推理分开执行。例如，机器学习模型的（例如，由关于图19描述的模型训练器1925进行的）训练可使用与AI网络的推理阶段期间经训练的机器学习模型的（例如，由图19的模型执行器1905进行的）实时使用分离的离线过程来执行。

在一些实现中，可能存在其中像素的相邻贴片可具有由经训练的AI网络（机器学习模型）返回的显著不同的超采样值的情况。例如，可能存在其中经训练的AI网络向一个贴片提供32x SPP的超采样级别以用于渲染并且向相邻贴片提供1x SPP的超采样级别以用于渲染的情形。在这样的示例中，观察者可辨别所渲染的相邻贴片之间的显著差异。

本公开的实现可提供平滑函数，以避免相邻贴片之间的明显渲染差异。在一个示例中，假设处理器正在对由5000个单独的贴片组成的图像起作用。图像可以以1x SPP被渲染一次，以便针对这5000个贴片将输入提供到本公开的实现的AI网络（经训练的机器学习模型）。本公开的实现的AI网络然后可为5000个贴片提供超采样值。该信息可在2D阵列中被呈现为具有X和Y维度的图像。本公开的实现可将平滑函数应用于该图像，以避免贴片之间的超采样质量的过于鲜明的（harsh）差异。平滑函数可将采用1x SPP的贴片和采用32x SPP的相邻贴片修改为采用2x SPP的一个贴片并和为16x SPP（或者4x SPP和16x SPP等等）的相邻贴片。该平滑函数可导致在最高渲染性能下的图像质量但是可帮助避免具有显著的超采样值差的贴片之间的显著的质量差之间的折衷。在一个实现中，当两个相邻贴片之间的超采样值之间的差异超过阈值差值（其可由最终用户或系统的管理者配置，或经由机器学习等确定）时，可应用平滑函数。

图23是示出用于自适应超采样的样本的基于深度学习的选择的模型训练的方法2300的实施例的流程图。方法2300可由处理逻辑执行，该处理逻辑可包括硬件（例如，电路、专用逻辑、可编程逻辑等）、软件（诸如在处理装置上运行的指令）或其组合。为了呈现的简洁和清楚，以线性序列示出了方法2300的过程；然而，要预期，可并行、异步或以不同顺序执行任何数量的线性序列。此外，为了简洁、清楚和便于理解，关于图1-22描述的组件和过程中的许多可不在此后重复或讨论。在一个实现中，诸如由诸如GPU或GPGPU之类的处理器实现的图19的模型训练器1925之类的模型训练器可执行方法2300。

方法2300开始于处理框2310，其中处理器渲染多个训练图像的输入图像。处理器可以以多个不同的超采样级别来渲染输入图像。在处理框2320，处理器可将所渲染的图像划分为贴片。在一个实现中，贴片大小可为8×8像素、16×16像素、32×32像素或任何其它像素大小格式。

在处理框2330，处理器可针对每个贴片的每个超采样级别确定质量测量值。在一个实现中，质量测量可以是SSIM测量。在一个实现中，质量测量可以是PSNR测量。在本公开的实现中还可利用质量测量的其它度量。

在处理框2340，处理器可针对每个贴片将采用最高超采样级别的贴片与采用其它超采样级别中的每个的贴片进行比较。在一个实现中，采用每个超采样级别的贴片的质量测量值方面进行比较。然后，在处理框2350，处理器可标识与质量测量阈值的满足相关联的贴片的超采样级别。在一个实现中，与质量测量阈值的满足相关联的贴片是具有超过质量测量阈值而最接近该阈值的质量测量的贴片。

在处理框2360，处理器将不具有超采样的输入贴片与所标识的超采样级别相关联。最后，在处理框2370，处理器利用输入贴片和相关联的超采样级别来训练机器学习模型。在一个实现中，方法2300从经训练的模型的推理阶段离线执行。

图24是示出用于自适应超采样的样本的基于深度学习的选择的模型推理的方法2400的实施例的流程图。方法2400可由处理逻辑执行，该处理逻辑可包括硬件（例如，电路、专用逻辑、可编程逻辑等）、软件（诸如在处理装置上运行的指令）或其组合。为了呈现的简洁和清楚，方法2400的过程以线性序列示出；然而，要预期，可并行、异步或以不同顺序执行任何数量的线性序列。此外，为了简洁、清楚和便于理解，关于图1-22描述的组件和过程中的许多可不在此后重复或讨论。在一个实现中，诸如由诸如GPU或GPGPU之类的处理器实现的图19的模型执行器1905之类的模型执行器可执行方法2400。

方法2400开始于处理框2410，其中处理器渲染图像的单独输入贴片。在一个实现中，在不应用超采样的情况下渲染贴片。在一个实现中，贴片大小可为8×8像素、16×16像素、32×32像素或任何其它像素大小格式。

在处理框2420，处理器将所渲染的贴片作为输入提供给经训练的机器学习模型。在一个实现中，使用关于图23描述的方法2300来训练机器学习模型，在处理框2430，该处理接收经训练的机器学习模型的输出。在一个实现中，输出是应用于输入贴片的超采样级别。

在判定框2440，处理器确定从经训练的机器学习模型接收到的用于输入贴片的超采样级别是否大于1。如果是，则方法2400前进至处理框2450，其中处理器以由经训练的机器学习模型指示的更高超采样级别重新渲染贴片，并且方法2400在框2460结束。另一方面，如果处理器确定超采样级别等于1（例如，没有由经训练的机器学习模型指示的超采样），则方法2400前进至结束框2460并且利用原始所渲染的贴片而不应用超采样。

本公开的实现可训练机器学习模型并且在各种应用中应用经训练的机器学习模型。例如，经训练的机器学习模型可接收所渲染的输入贴片，并且在诸如但不限于光线追踪、栅格化、可变速率着色（VRS）、粗糙像素着色（CPS）、混合渲染、虚拟现实（VR）或增强现实（AR）的应用中为那些所渲染的输入贴片提供超采样级别。

虽然在光线追踪中，改变用于在每像素或每贴片基础上采样的光线的数量是相对简单的，但是这在过去对于栅格化一直有点较难。然而，像粗像素着色（CPS）和可变速率着色（VRS）的较新方法提供了以精细粒度改变所渲染图像的质量的支持。在使用CPS和/或VRS时，由经训练的机器学习模型提供的AI网络的实现可用于调整质量参数。

虚拟现实（VR）头戴式耳机中的光学装置正在引入枕形失真（pin-cushiondistortion）。通过利用桶形失真修改所渲染的图像，可固定枕形失真。在光线追踪中，这可在利用相机内筒扭曲的渲染器进行渲染期间直接完成。这导致直线通常被示为曲线。在本公开的实现中，可取决于距透镜（lens）中心的粗略距离来训练不同的AI网络（即，不同的经训练的机器学习模型）。图像的部分离透镜中心越远，它们变形得越多。直接在透镜中心没有失真。在本公开的实现中，对于示例虚拟现实（VR）应用，图像将可被分成从几乎没有失真的第一区域到具有严重失真的最后区域变动的五个区域，并且将不同的经训练的AI网络（机器学习模型）与每个区域相关联。

在增强现实（AR）中，混叠可能取决于在其上示出虚拟对象的表面的种类而表现不同。例如，渲染正悬停在草上的绿苹果可能使得更难以感知到混叠。相比之下，如果在白色或红色背景上示出绿苹果，则混叠可能更可见。本公开的实现可利用其中可渲染对象的各种情况并且利用针对对象的不同定义的背景来训练AI网络（机器学习模型），其可稍后通过增强现实（AR）眼镜或智能电话上的真实相机来追踪。

以下示例涉及进一步的实施例。示例1是促进用于自适应超采样的样本的基于深度学习的选择的设备。示例1的设备包括一个或多个处理元件，用于：接收训练数据，所述训练数据包括输入贴片和所述输入贴片的对应超采样值，其中，每个输入贴片包括多个像素；以及基于所述训练数据来训练机器学习模型以标识像素的所渲染的贴片的超采样的级别。

在示例2中，示例1的主题能可选地包括，其中，所述输入贴片包括所渲染的图像的8×8像素、16×16像素或32×32像素中的至少一个。在示例3中，示例1-2中的任一个的主题能可选地包括，其中，所述一个或多个处理元件被包括在图形处理单元（GPU）中。在示例4中，示例1-3中的任一个的主题能可选地包括，其中，所述输入贴片是利用为1的超采样设置来渲染的。

在示例5中，示例1-4中的任一个的主题能可选地包括，其中，基于包括结构相似性指数测量（SSIM）的质量测量度量来确定所述输入贴片的所述超采样值。在示例6中，示例1-5中的任一个的主题能可选地包括，其中，基于包括峰值信噪比（PSNR）测量的质量测量度量来确定所述输入贴片的所述超采样值。在示例7中，示例1-6中的任一个的主题能可选地包括，其中，所述一个或多个处理元件用于使用离线过程来训练所述机器学习模型，所述离线过程与推理阶段期间的所述机器学习模型的实时使用是分离的。

在示例8中，示例1-7中的任一个的主题能可选地包括，其中，所述训练数据还包括对应于所述输入贴片的深度值。在示例9中，示例1-8中的任一个的主题能可选地包括，其中，所述训练数据还包括与先前所渲染的图像对应的法线、对象ID、纹理颜色、图元ID或时间数据中的至少一个。在示例10中，示例1-9中的任一个的主题能可选地包括，其中，所述机器学习模型是使用卷积神经网络（CNN）来训练的。

在示例11中，示例1-10中的任一个的主题能可选地包括，其中，所述CNN包括输入层、一个或多个卷积层、至少一个平坦层、以及一个或多个密集函数中的至少一个，并且其中，所述CNN利用自适应矩估计（ADAM）优化器和均方误差（MSE）损耗函数。在示例12中，示例1-11中的任一个的主题能可选地包括，其中，如由所述一个或多个处理元件训练的所述机器学习模型被应用于栅格化、光线追踪、可变速率着色（VRS）、粗糙像素着色（CPS）、混合渲染、虚拟现实（VR）或增强现实（AR）中的至少一个的像素的所渲染的贴片。在示例13中，示例1-12中的任一个的主题能可选地包括，其中，平滑函数被应用于具有超过所确定的阈值的超采样级别之间的差异的像素的所渲染的贴片，所述超采样级别由经训练的机器学习模型提供。

示例14是一种促进用于自适应超采样的样本的基于深度学习的选择的方法。示例14的方法能可选地包括：在不应用超采样的情况下渲染贴片，所述贴片包括多个像素；将所渲染的贴片作为输入提供给经训练的机器学习模型；从所述经训练的机器学习模型接收用于所渲染的贴片的超采样值；以及使用从所述经训练的机器学习模型接收到的超采样值来重新渲染具有超采样的贴片。

在示例15中，示例14的主题能可选地包括，其中，以二的幂格式提供所述超采样值。在示例16中，示例14-15中的任一个的主题能可选地包括，其中，基于包括训练输入贴片和所述训练输入贴片的对应超采样级别的训练数据来训练所述经训练的机器学习模型，并且其中，针对所述训练输入贴片中的每个基于所述训练输入贴片的质量测量度量超过在所述对应超采样级别的质量测量度量阈值来确定所述对应超采样级别。

在示例17中，示例14-16中任一项的主题能可选地包括，其中，所述渲染由图形处理单元（GPU）执行。在示例18中，示例14-17中的任一个的主题能可选地包括，其中，所述机器学习模型是使用卷积神经网络（CNN）来训练的。在示例19中，示例14-18中的任一个的主题能可选地包括，其中，所述CNN包括输入层、一个或多个卷积层、至少一个平坦层、以及一个或多个密集函数中的至少一个，并且其中，所述CNN利用自适应矩估计（ADAM）优化器和均方误差（MSE）损耗函数。在示例20中，示例14-19中的任一个的主题能可选地包括，其中，所述机器学习模型被应用于栅格化、光线追踪、可变速率着色（VRS）、粗糙像素着色（CPS）、混合渲染、虚拟现实（VR）或增强现实（AR）中的至少一个的像素的所渲染的贴片。

示例21是用于促进用于自适应超采样的样本的基于深度学习的选择的至少一个非暂时性机器可读存储介质。示例21的至少一个非暂时性机器可读存储介质包括指令，所述指令在由一个或多个处理器执行时使所述一个或多个处理器：接收训练数据，所述训练数据包括输入贴片和所述输入贴片的对应超采样值，其中，每个输入贴片包括多个像素；以及基于所述训练数据来训练机器学习模型以标识像素的所渲染的贴片的超采样的级别。

在示例22中，示例21的主题能可选地包括：其中，所述输入贴片是利用为1的超采样设置来渲染的。在示例23中，示例21-22中的任一个的主题能可选地包括，其中，基于包括结构相似性指数测量（SSIM）或峰值信噪比（PSNR）测量的质量测量度量中的至少一个来确定所述输入贴片的所述超采样值。在示例24中，示例21-23中的任一个的主题能可选地包括，其中，所述输入贴片包括所渲染的图像的8×8像素、16×16像素或32×32像素中的至少一个。在示例25中，示例21-24中的任一个的主题能可选地包括，其中，所述一个或多个处理元件用于使用离线过程来训练所述机器学习模型，所述离线过程与推理阶段期间的所述机器学习模型的实时使用是分离的。

在示例26中，示例21-25中的任一个的主题能可选地包括，其中，所述训练数据还包括对应于所述输入贴片的深度值。在示例27中，示例21-26中的任一个的主题能可选地包括，其中，所述训练数据还包括与先前所渲染的图像对应的法线、对象ID、纹理颜色、图元ID或时间数据中的至少一个。在示例28中，示例21-27中的任一个的主题能可选地包括，其中所述机器学习模型是使用卷积神经网络（CNN）来训练的。在示例29中，示例21-28中的任一个的主题能可选地包括，其中，所述CNN包括输入层、一个或多个卷积层、至少一个平坦层、以及一个或多个密集函数中的至少一个，并且其中，所述CNN利用自适应矩估计（ADAM）优化器和均方误差（MSE）损耗函数。

在示例30中，示例21-29中的任一个的主题能可选地包括，其中，将所训练的机器学习模型应用于栅格化、光线追踪、可变速率着色（VRS）、粗糙像素着色（CPS）、混合渲染、虚拟现实（VR）或增强现实（AR）中的至少一个的像素的所渲染的贴片。在示例31中，示例21-30中的任一个的主题能可选地包括，其中，平滑函数被应用于具有超过所确定的阈值的超采样级别之间的差异的像素的所渲染的贴片，所述超采样级别由经训练的机器学习模型提供。

示例32是一种促进用于自适应超采样的样本的基于深度学习的选择的系统。示例32的系统能可选地包括存储器和可通信地耦合到所述存储器的一个或多个处理元件。在示例32中，所述一个或多个处理元件用于接收包括输入贴片和所述输入贴片的对应超采样值的训练数据，其中，每个输入贴片包括多个像素，并且基于所述训练数据来训练机器学习模型以标识像素的所渲染的贴片的超采样级别，其中，所述机器学习模型被存储在所述存储器中。

在示例33中，示例32的主题能可选地包括，其中，所述输入贴片包括所渲染的图像的8×8像素、16×16像素或32×32像素中的至少一个。在示例34中，示例32-33中的任一个的主题能可选地包括，其中，所述一个或多个处理元件被包括在图形处理单元（GPU）中。在示例35中，示例32-34中的任一个的主题能可选地包括，其中，所述输入贴片是利用为1的超采样设置来渲染的。

在示例36中，示例32-35中的任一个的主题能可选地包括，其中，基于包括结构相似性指数测量（SSIM）的质量测量度量来确定所述输入贴片的超采样值。在示例37中，示例32-36中的任一个的主题能可选地包括，其中，基于包括峰值信噪比（PSNR）测量的质量测量度量来确定所述输入贴片的所述超采样值。在示例38中，示例32-37中的任一个的主题能可选地包括，其中，所述一个或多个处理元件用于使用离线过程来训练所述机器学习模型，所述离线过程与推理阶段期间的所述机器学习模型的实时使用是分离的。

在示例39中，示例32-38中的任一个的主题能可选地包括，其中，所述训练数据还包括对应于所述输入贴片的深度值。在示例40中，示例32-39中的任一个的主题能可选地包括，其中，所述训练数据还包括与先前所渲染的图像对应的法线、对象ID、纹理颜色、图元ID或时间数据中的至少一个。在示例41中，示例32-40中的任一个的主题能可选地包括，其中所述机器学习模型是使用卷积神经网络（CNN）来训练的。

在示例42中，示例32-41中的任一个的主题能可选地包括，其中，所述CNN包括输入层、一个或多个卷积层、至少一个平坦层、以及一个或多个密集函数中的至少一个，并且其中，所述CNN利用自适应矩估计（ADAM）优化器和均方误差（MSE）损耗函数。在示例43中，示例32-42中的任一个的主题能可选地包括，其中，如由所述一个或多个处理元件训练的所述机器学习模型被应用于栅格化、光线追踪、可变速率着色（VRS）、粗糙像素着色（CPS）、混合渲染、虚拟现实（VR）或增强现实（AR）中的至少一个的像素的所渲染的贴片。在示例44中，示例32-43中的任一个的主题能可选地包括，其中，平滑函数被应用于具有超过所确定的阈值的超采样级别之间的差异的像素的所渲染的贴片，所述超采样级别由经训练的机器学习模型提供。

示例45是根据本公开的实现的用于促进用于自适应超采样的样本的基于深度学习的选择的设备。示例45的设备可包括用于在不应用超采样的情况下渲染贴片的部件，所述贴片包括多个像素；用于将所渲染的贴片作为输入提供给经训练的机器学习模型的部件；用于从所述经训练的机器学习模型接收所述所渲染的贴片的超采样值的部件；以及用于使用从所述经训练的机器学习模型所接收的超采样值来重新渲染具有超采样的贴片的部件。

在示例46中，示例45的主题能可选地包括被进一步配置成执行示例15至20中的任一项的方法的设备。

示例47是包括多个指令的至少一个机器可读介质，所述指令响应于在计算装置上被执行，使所述计算装置运行根据示例14-20中的任一项的方法。示例48是用于促进用于自适应超采样的样本的基于深度学习的选择的设备，其被配置成执行示例14-20中的任一项所述的方法。示例49是用于促进用于自适应超采样的样本的基于深度学习的选择的设备，其包括用于执行权利要求14至20中的任一项所述的方法的部件。可在一个或多个实施例中的任何地方使用示例中的细节。

要在说明性的而不是限制性的意义上看待前述描述和附图。本领域技术人员将理解，在不脱离如所附权利要求书中阐述的特征的更广的精神和范围的情况下，可对本文中描述的实施例进行各种修改和改变。

Claims

1.一种设备，包括：

一个或多个处理元件，用于：

接收训练数据，所述训练数据包括输入贴片和所述输入贴片的对应超采样值，其中每个输入贴片包括多个像素；以及

基于所述训练数据来训练机器学习模型以标识像素的所渲染的贴片的超采样的级别。

2.根据权利要求1所述的设备，其中，所述输入贴片包括所渲染的图像的8×8像素、16×16像素或32×32像素中的至少一个。

3.根据权利要求1所述的设备，其中，所述一个或多个处理元件包括于图形处理单元GPU中。

4.根据权利要求1所述的设备，其中，所述输入贴片利用为1的超采样设置来渲染。

5.根据权利要求1所述的设备，其中，基于包括结构相似性指数测量（SSIM）的质量测量度量来确定所述输入贴片的所述超采样值。

6.根据权利要求1所述的设备，其中，基于包括峰值信噪比（PSNR）测量的质量测量度量来确定所述输入贴片的所述超采样值。

7.根据权利要求1所述的设备，其中，所述一个或多个处理元件用于使用离线过程来训练所述机器学习模型，所述离线过程与推理阶段期间的所述机器学习模型的实时使用是分离的。

8.根据权利要求1所述的设备，其中，所述训练数据还包括对应于所述输入贴片的深度值。

9.根据权利要求1所述的设备，其中，所述训练数据还包括与先前所渲染的图像对应的法线、对象ID、纹理颜色、图元ID或时间数据中的至少一个。

10.根据权利要求1所述的设备，其中，所述机器学习模型是使用卷积神经网络（CNN）来训练的。

11.根据权利要求10所述的设备，其中，所述CNN包括输入层、一个或多个卷积层、至少一个平坦层、以及一个或多个密集函数中的至少一个，并且其中，所述CNN利用自适应矩估计（ADAM）优化器和均方误差（MSE）损耗函数。

12.根据权利要求1所述的设备，其中，如由所述一个或多个处理元件训练的所述机器学习模型被应用于栅格化、光线追踪、可变速率着色（VRS）、粗糙像素着色（CPS）、混合渲染、虚拟现实（VR）或增强现实（AR）中的至少一个的像素的所渲染的贴片。

13.根据权利要求1所述的设备，其中，平滑函数被应用于具有超过所确定的阈值的超采样级别之间的差异的像素的所渲染的贴片，所述超采样级别由经训练的机器学习模型提供。

14.一种方法，包括：

在不应用超采样的情况下渲染贴片，所述贴片包括多个像素；

将所渲染的贴片作为输入提供给经训练的机器学习模型；

从所述经训练的机器学习模型接收所述所渲染的贴片的超采样值；以及

使用从所述经训练的机器学习模型接收到的超采样值来重新渲染具有超采样的贴片。

15.根据权利要求14所述的方法，其中，以二的幂格式提供所述超采样值。

16.根据权利要求14所述的方法，其中，基于包括训练输入贴片和所述训练输入贴片的对应超采样级别的训练数据来训练所述经训练的机器学习模型，并且其中，针对所述训练输入贴片中的每个基于所述训练输入贴片的质量测量度量超过在所述对应超采样级别的质量测量度量阈值来确定所述对应超采样级别。

17.根据权利要求14所述的方法，其中，所述渲染由图形处理单元（GPU）执行。

18.一种设备，包括：

用于在不应用超采样的情况下渲染贴片的部件，所述贴片包括多个像素；

用于将所渲染的贴片作为输入提供给经训练的机器学习模型的部件；

用于从所述经训练的机器学习模型接收所述所渲染的贴片的超采样值的部件；以及

用于使用从所述经训练的机器学习模型接收到的超采样值来重新渲染具有超采样的贴片的部件。

19.根据权利要求18所述的设备，其中，基于包括训练输入贴片和所述训练输入贴片的对应超采样级别的训练数据来训练所述经训练的机器学习模型，并且其中，针对所述训练输入贴片中的每个基于所述训练输入贴片的质量测量度量超过在所述对应超采样级别的质量测量度量阈值来确定所述对应超采样级别。

20.根据权利要求18所述的设备，其中，以二的幂格式提供所述超采样值。