CN116091300A - 样本分布知情去噪和渲染 - Google Patents

样本分布知情去噪和渲染 Download PDF

Info

Publication number
CN116091300A
CN116091300A CN202210846158.5A CN202210846158A CN116091300A CN 116091300 A CN116091300 A CN 116091300A CN 202210846158 A CN202210846158 A CN 202210846158A CN 116091300 A CN116091300 A CN 116091300A
Authority
CN
China
Prior art keywords
data
graphics
memory
processor
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210846158.5A
Other languages
English (en)
Inventor
T·兹尔
S·Y·金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US17/520,089 external-priority patent/US20230065183A1/en
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN116091300A publication Critical patent/CN116091300A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3867Concurrent instruction execution, e.g. pipeline or look ahead using instruction pipelines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3885Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
    • G06F9/3887Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled by a single instruction for multiple data lanes [SIMD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/60Memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)

Abstract

提供了样本分布知情去噪和渲染。提供了图形处理器,其包括被配置为进行以下操作的电路:在神经网络模型的输入块处接收包括先前帧数据、当前帧数据、速度数据和抖动偏移数据的数据集合。神经网络模型被配置为基于根据当前帧数据内样本的样本分布数据计算的可靠性度量来生成去噪、超采样和抗锯齿的输出图像。

Description

样本分布知情去噪和渲染
交叉引用
本申请要求2021年8月19日提交的美国临时专利申请第63/235,108号的优先权,特此通过引用将该申请并入本文。
技术领域
本公开总体上涉及通过经由图形处理单元的矩阵加速器执行的神经网络操作的图形抗锯齿(anti-aliasing)。
背景技术
时间性抗锯齿(TAA)是一种抗锯齿技术,其中渲染器每帧抖动相机以对屏幕空间中的不同坐标进行采样。TAA级在时间上累积这些样本以产生超采样图像。先前累积的帧使用渲染器生成的速度/运动向量进行扭曲,以在累积之前将其与当前帧对齐。尽管TAA是一种广泛使用的技术来生成时间稳定的抗锯齿图像,但由于可见性和阴影的帧到帧变化或运动向量中的误差,扭曲的样本历史可能与当前像素失配。这通常会导致移动对象边界周围的重影伪影。
附图说明
本发明通过示例而非限制的方式在附图中各图中进行图示,其中相同的附图标记指示相似的元素,并且其中:
图1是示出被配置成实现本文中描述的实施例的一个或多个方面的计算机系统的框图;
图2A-2D示出并行处理器组件;
图3A-3C是图形多处理器和基于多处理器的GPU的框图;
图4A-4F示出了示例性架构,其中多个GPU通信地耦合到多个多核处理器;
图5示出了图形处理流水线;
图6示出了机器学习软件堆栈;
图7示出了通用图形处理单元;
图8示出了多GPU计算系统;
图9A-9B示出了示例性深度神经网络的层;
图10示出了示例性递归神经网络;
图11示出了深度神经网络的训练和部署;
图12A是示出分布式学习的框图;
图12B是示出可编程网络接口和数据处理单元的框图;
图13示出了适合于使用经训练的模型来执行推理的示例性推理片上系统(SOC);
图14是处理系统的框图;
图15A-15C示出了计算系统和图形处理器;
图16A-16C示出了另外的图形处理器和计算加速器架构的框图;
图17是图形处理器的图形处理引擎的框图;
图18A-18B示出了包括在图形处理器核中采用的处理元件的阵列的线程执行逻辑;
图19示出了另外的执行单元;
图20是示出图形处理器指令格式的框图;
图21是另外的图形处理器架构的框图;
图22A-22B示出了图形处理器命令格式和命令序列;
图23示出了用于数据处理系统的示例性图形软件架构;
图24A是示出IP核开发系统的框图;
图24B示出了集成电路封装组装件的截面侧视图;
图24C示出了包括连接到衬底(例如,基础管芯)的硬件逻辑小芯片的多个单元的封装组装件;
图24D示出了包括可互换小芯片的封装组装件;
图25是示出示例性片上系统集成电路的框图;
图26A-26B是示出供在SoC内使用的示例性图形处理器的框图;
图27是根据实施例的数据处理系统的框图;
图28A-28B示出了根据实施例的由指令流水线执行的矩阵运算;
图29示出了包括以流水线方式组织的乘法器和加法器电路的脉动阵列;
图30A-30B示出了可配置为在任意脉动深度执行操作的脉动阵列的使用;
图31示出了双路径矩阵乘法加速器,其中每个路径具有四级的深度;
图32示出了四路径矩阵乘法加速器,其中每个路径具有两级的深度;
图33示出了使用具有反馈输入的脉动阵列的可扩展稀疏矩阵乘法加速器;
图34示出了使用的脉动阵列的可扩展稀疏矩阵乘法加速器,在每个级上具有反馈输入和输出;
图35示出了根据实施例的用于矩阵加速器的双流水线并行脉动阵列;
图36示出了脉动阵列通道的级对;
图37示出了包括部分和环回(sum loopback)和用于加速稀疏矩阵乘法的电路的脉动阵列;
图38A-38B示出了包括编解码器的矩阵加速电路,以能够实现以压缩格式读取稀疏数据;
图39示出了具有时间性抗锯齿(TAA)的常规渲染器;
图40示出了用时间摊销的超级采样级替换TAA级的渲染器;
图41示出了根据实施例的神经网络模型的组件;
图42示出了根据实施例的神经网络模型的输入块;
图43A-43B示出了根据实施例的神经网络模型的输出块变体;
图44示出了用于执行时间摊销超级采样的方法;
图45示出了针对本文所描述的多种渲染技术的示例性渲染性能比较;
图46示出了可以用作辅助去噪信息的延迟照亮(lighting)纹理;
图47A-47B示出了神经网络模型的组件,所述组件被配置为执行方差减小的样本分布知情去噪和渲染;
图48示出了根据本文所描述实施例的示例性去噪和参考图像;
图49是根据实施例的样本分布知情去噪和渲染的方法;以及
图50是根据实施例的包括图形处理器的计算设备的框图。
具体实施方式
图形处理单元(GPU)通信地耦合到主机/处理器核以加速例如图形操作、机器学习操作、模式分析操作和/或各种通用GPU(GPGPU)功能。GPU可通过总线或另一互连(例如,高速互连,诸如PCIe或NVLink)通信地耦合到主机处理器/核。备选地,GPU可与核集成在相同封装或芯片上,并且通过内部处理器总线/互连(即,在封装或芯片内部)通信地耦合到核。不管连接GPU所采用的方式如何,处理器核可以以工作描述符中所包含的命令/指令的序列的形式将工作分配给GPU。GPU接着将专用电路系统/逻辑用于高效地处理这些命令/指令。
当前并行图形数据处理包括被开发成对图形数据执行特定操作的系统和方法,所述特定操作诸如例如线性内插(linear interpolation)、曲面细分(tessellation)、栅格化(rasterization)、纹理映射(texture mapping)、深度测试等。传统上,图形处理器使用固定功能计算单元来处理图形数据。然而最近,已使图形处理器的部分可编程,从而使此类处理器能够支持用于处理顶点数据和片段数据的更广泛种类的操作。
为了进一步提高性能,图形处理器通常实现诸如流水线化(pipelining)的处理技术,其试图遍及图形流水线的不同部分并行处理尽可能多的图形数据。具有单指令多线程(SIMT)架构的并行图形处理器被设计成最大化图形流水线中的并行处理量。在SIMT架构中,并行线程的群组试图尽可能经常地一起同步执行程序指令以提高处理效率。对于SIMT架构的软件和硬件的总体概述可在Shane Cook, CUDA Programming的第三章第37-51页(2013)中找到。
时间性上采样可以与TAA组合以同时对空间分辨率升尺度(upscale),从而以较低的空间分辨率渲染帧以节省渲染时间。在时间性抗锯齿上采样之后的后处理级然后可以在目标显示分辨率下运行。这允许创建比使用仅空间升高技术可以创建的更清晰的图像,并且与以原生显示分辨率渲染帧时相比,有效地减少了渲染时间。然而,对于原生分辨率渲染帧,这种时间性抗锯齿上采样质量远低于使用TAA。本文描述了使用混合低精度卷积神经网络进行时间摊销超级采样的技术,用于从以较低分辨率渲染中实现性能提升,同时还生成高质量图像。此外,通过包括样本可靠性信息作为神经网络的输入,可以改进对上采样数据执行的操作的质量,以减少对可靠样本执行的模糊量。
在以下描述中,阐述了许多特定细节以提供更透彻的理解。然而,对于本领域技术人员来说将明显的是,可在没有这些特定细节中的一个或多个的情况下实践本文中描述的实施例。在其他情况下,尚未描述公知的特征,以免模糊本实施例的细节。
系统概述
图1是框图,其示出配置成实现本文中描述的实施例的一个或多个方面的计算系统100。计算系统100包括处理子系统101,所述处理子系统101具有一个或多个处理器102和系统存储器104,所述一个或多个处理器102与所述系统存储器104经由可包括存储器集线器(hub)105的互连路径来通信。存储器集线器105可以是芯片集组件内的单独组件,或可集成在所述一个或多个处理器102内。存储器集线器105经由通信链路106与I/O子系统111耦合。I/O子系统111包括I/O集线器107,所述I/O集线器107可使得计算系统100能够从一个或多个输入装置108接收输入。另外,I/O集线器107可使得显示控制器能够将输出提供给一个或多个显示装置110A,所述显示控制器可被包括在所述一个或多个处理器102中。在一个实施例中,与I/O集线器107耦合的所述一个或多个显示装置110A可包括局部、内部或嵌入式显示装置。
处理子系统101例如包括一个或多个并行处理器112,所述并行处理器112经由总线或其他通信链路113耦合到存储器集线器105。通信链路113可以是任何数量的基于标准的通信链路技术或协议之一(诸如但不限于,PCI Express),或可以是供应商特定的通信接口或通信组构(fabric)。所述一个或多个并行处理器112可形成计算上集中的并行或向量处理系统,所述系统可包括大量处理核和/或处理集群(诸如,集成众核(MIC)处理器)。例如,所述一个或多个并行处理器112可形成图形处理子系统,所述图形处理子系统可将像素输出到经由I/O集线器107耦合的一个或多个显示装置110A之一。所述一个或多个并行处理器112还可包括显示控制器和显示器接口(未示出)以能够实现与一个或多个显示装置110B的直接连接。
在I/O子系统111内,系统存储单元114可连接到I/O集线器107以提供用于计算系统100的存储机制。I/O开关116可用于提供接口机制以能够实现I/O集线器107与其他组件(诸如,可集成到平台中的网络适配器118和/或无线网络适配器119,以及可经由一个或多个附加(add-in)装置120添加的各种其他装置)之间的连接。(一个或多个)附加装置120还可包括例如一个或多个外部图形处理器装置、图形卡和/或计算加速器。网络适配器118可以是以太网适配器或另一有线网络适配器。无线网络适配器119可包括以下项中的一项或多项:Wi-Fi、蓝牙、近场通信(NFC)、或包括一个或多个无线无线电装置(wireless radio)的其他网络装置。
计算系统100可包括未明确示出的其他组件,包括USB或其他端口连接件、光学存储驱动器、视频捕获装置、和诸如此类,它们也可连接到I/O集线器107。将图1中的各种组件互连的通信路径可使用任何合适的协议来实现,诸如基于PCI(外设组件互连)的协议(例如,PCI-Express)或任何其他总线或点对点通信接口和/或(一个或多个)协议,诸如NVLink高速互连、Compute Express LinkTM(CXLTM)(例如,CXL.mem)、Infinity Fabric(IF)、以太网(IEEE 802.3)、远程直接存储器访问(RDMA)、InfiniBand、因特网广域RDMA协议(iWARP)、传输控制协议(TCP)、用户数据报协议(UDP)、快速UDP因特网连接(QUIC)、通过汇聚以太网的RDMA(RoCE)、Intel快速通道互连(QPI)、Intel超通道互连(UPI)、Intel片上系统组构(IOSF)、全路径、超传输、高级微控制器总线架构(AMBA)互连、OpenCAPI、Gen-Z、用于加速器的高速缓存一致性互连(CCIX)、3GPP长期演进(LTE)(4G)、3GPP 5G和其变体、或者在本领域中已知的有线或无线互连协议。在一些示例中,可以使用诸如组构上的快速非易失性存储器(NVMe)(NVMe-oF)或NVMe的协议将数据复制或存储到虚拟化存储节点。
所述一个或多个并行处理器112可合并针对图形和视频处理进行优化的电路系统(包括例如,视频输出电路系统),并且构成图形处理单元(GPU)。备选地或附加地,所述一个或多个并行处理器112可合并针对通用处理进行优化的电路系统,同时保持本文中更详细描述的底层计算架构。计算系统100的组件可与一个或多个其他系统元件一起集成在单个集成电路上。例如,所述一个或多个并行处理器112、存储器集线器105、(一个或多个)处理器102和I/O集线器107可集成到片上系统(SoC)集成电路中。备选地,计算系统100的组件可集成到单个封装中以形成封装中系统(SIP)配置。在一个实施例中,计算系统100的组件的至少一部分可集成到多芯片模块(MCM)中,所述MCM可与其他多芯片模块一起互连到模块化计算系统中。
将认识到的是,本文中示出的计算系统100是说明性的,并且变化和修改是有可能的。可按期望修改连接拓扑,包括桥接器的数量和布置、(一个或多个)处理器102的数量和(一个或多个)并行处理器112的数量。例如,系统存储器104可直接而非通过桥接器而被连接到(一个或多个)处理器102,而其他装置经由存储器集线器105与系统存储器104和(一个或多个)处理器102通信。在其他备选拓扑中,(一个或多个)并行处理器112连接到I/O集线器107或直接连接到所述一个或多个处理器102之一,而非连接到存储器集线器105。在其他实施例中,I/O集线器107和存储器集线器105可集成到单个芯片中。还可能的是经由多个插口(socket)附连的两组或更多组处理器102,它们可与(一个或多个)并行处理器112的两个或更多个实例耦合。
本文中示出的特定组件中的一些是可选的,并且可不被包括在计算系统100的所有实现中。例如,可支持任何数量的附加卡或外设,或可消除一些组件。此外,针对与图1中示出的那些组件类似的组件,一些架构可使用不同的术语。例如,在一些架构中,存储器集线器105可称为北桥(Northbridge),而I/O集线器107可称为南桥(Southbridge)。
图2A示出了并行处理器200。并行处理器200可以是如本文中描述的GPU、GPGPU等。并行处理器200的各种组件可使用一个或多个集成电路装置(诸如可编程处理器、专用集成电路(ASIC)或现场可编程门阵列(FPGA))来实现。所示出的并行处理器200可以是图1中所示的(一个或多个)并行处理器112中的一个或多个。
并行处理器200包括并行处理单元202。所述并行处理单元包括I/O单元204,所述I/O单元204能够实现与其他装置(包括并行处理单元202的其他实例)的通信。I/O单元204可直接连接到其他装置。例如,I/O单元204经由使用集线器或开关接口(诸如,存储器集线器105)来与其他装置连接。存储器集线器105与I/O单元204之间的连接形成通信链路113。在并行处理单元202内,I/O单元204与主机接口206和存储器交叉开关(memory crossbar)216连接,其中,主机接口206接收针对执行处理操作的命令,并且存储器交叉开关216接收针对执行存储器操作的命令。
当主机接口206经由I/O单元204接收命令缓冲器时,主机接口206可将用于执行那些命令的工作操作导引至前端208。在一个实施例中,前端208与调度器210耦合,该调度器210配置成将命令或其他工作项分布至处理集群阵列212。调度器210确保在任务被分布至处理集群阵列212的处理集群之前,处理集群阵列212被适当地配置且处于有效状态。调度器210可经由微控制器上执行的固件逻辑来实现。微控制器实现的调度器210可配置成以粗糙粒度和精细粒度来执行复杂的调度和工作分布操作,从而能够实现处理集群阵列212上执行的线程的上下文切换和快速抢占(rapid preemption)。优选地,主机软件可经由多个图形处理门铃(doorbell)之一来检验工作负载在处理集群阵列212上调度。在其他示例中,对新的工作负载或中断的轮询可以用于标识或指示要执行的工作的可用性。随后工作负载可由调度器微控制器内的调度器210逻辑来跨处理集群阵列212自动地分布。
处理集群阵列212可包括多达“N”个处理集群(例如,集群214A、集群214B、直到集群214N)。处理集群阵列212的每一个集群214A-214N都可执行大数量的并发线程。调度器210可使用各种调度和/或工作分布算法将工作分配给处理集群阵列212的集群214A-214N,这可取决于针对每种类型的程序或计算而产生的工作负载而变化。调度可由调度器210动态地处置,或者可在配置用于由处理集群阵列212执行的程序逻辑的编译期间部分地由编译器逻辑进行辅助。可选地,可将处理集群阵列212的不同集群214A-214N分配用于处理不同类型的程序,或用于执行不同类型的计算。
可将处理集群阵列212配置成执行各种类型的并行处理操作。例如,将处理集群阵列212配置成执行通用并行计算操作。例如,处理集群阵列212可包括用于执行处理任务的逻辑,所述处理任务包括过滤视频和/或音频数据、执行建模操作(包括物理操作)、以及执行数据变换。
处理集群阵列212配置成执行并行的图形处理操作。在其中并行处理器200配置成执行图形处理操作的这样的实施例中,处理集群阵列212可包括用于支持执行此类图形处理操作的附加逻辑,其包括但不限于用于执行纹理操作的纹理采样逻辑、以及曲面细分逻辑和其他顶点处理逻辑。另外,处理集群阵列212可配置成执行图形处理相关的着色器(shader)程序,诸如但不限于顶点着色器、曲面细分着色器、几何着色器和像素着色器。并行处理单元202可经由I/O单元204来转移来自系统存储器的数据以便处理。在处理期间,可将所转移的数据在处理期间存储到芯片上存储器(例如,并行处理器存储器222),然后将其写回到系统存储器。
在其中并行处理单元202用于执行图形处理的实施例中,调度器210可配置成将处理工作负载划分成近似相等大小的任务,以更好地能够实现将图形处理操作分布到处理集群阵列212的多个集群214A-214N。在这些实施例中的一些中,部分处理集群阵列212可配置成执行不同类型的处理。例如,第一部分可配置成执行顶点着色和拓扑生成,第二部分可配置成执行曲面细分和几何着色,并且第三部分可配置成执行像素着色或其他屏幕空间操作,以产生用于显示的渲染图像。由集群214A-214N中的一个或多个所产生的中间数据可存储在缓冲器中以允许所述中间数据在集群214A-214N之间传送以便进一步处理。
在操作期间,处理集群阵列212可经由调度器210来接收待执行的处理任务,所述调度器从前端208接收定义处理任务的命令。针对图形处理操作,处理任务可包括定义要如何处理数据(例如,要执行什么程序)的命令和状态参数以及待处理的数据的索引,例如,表面(补片(patch))数据、图元数据(primitive data)、顶点数据和/或像素数据的索引。调度器210可配置成提取(fetch)与任务相对应的索引,或可从前端208接收索引。前端208可配置成确保在发起由进入的命令缓冲器(例如,批量缓冲器、推动缓冲器等)所指定的工作负载之前处理集群阵列212配置成有效状态。
并行处理单元202的一个或多个实例中的每个都可与并行处理器存储器222耦合。并行处理器存储器222可经由存储器交叉开关216来访问,存储器交叉开关216可从处理集群阵列212以及I/O单元204接收存储器请求。存储器交叉开关216可经由存储器接口218访问并行处理器存储器222。存储器接口218可包括多个分区单元(例如,分区单元220A、分区单元220B、直到分区单元220N),其可各自耦合到并行处理器存储器222的一部分(例如,存储器单元)。可将分区单元220A-220N的数量配置成等于存储器单元的数量,使得第一分区单元220A具有对应的第一存储器单元224A,第二分区单元220B具有对应的第二存储器单元224B,并且第N分区单元220N具有对应的第N存储器单元224N。在其他实施例中,分区单元220A-220N的数量可不等于存储器装置的数量。
存储器单元224A-224N可包括各种类型的存储器装置,包括动态随机存取存储器(DRAM)或图形随机存取存储器,诸如,同步图形随机存取存储器(SGRAM),包括图形双数据速率(GDDR)存储器。可选地,存储器单元224A-224N还可包括3D堆叠式存储器,包括但不限于高带宽存储器(HBM)。本领域技术人员将认识到,存储器单元224A-224N的特定实现可变化,并且可选自各种常规设计之一。渲染目标,诸如帧缓冲器或纹理映射(texture map),可跨存储器单元224A-224N存储,从而允许分区单元220A-220N并行写入每个渲染目标的部分以高效地使用并行处理器存储器222的可用带宽。在一些实施例中,可排除并行处理器存储器222的本地实例,以有利于利用系统存储器连同本地高速缓冲存储器的统一存储器设计。
可选地,处理集群阵列212的集群214A-214N中的任何一个都具有处理将被写入到并行处理器存储器222内的存储器单元224A-224N中的任何的数据的能力。可将存储器交叉开关216配置成将每个集群214A-214N的输出转移到任何分区单元220A-220N或另一集群214A-214N,其可对输出执行附加处理操作。每个集群214A-214N都可通过存储器交叉开关216与存储器接口218通信,以从各种外部存储器装置读取或写入到各种外部存储器装置。在具有存储器交叉开关216的实施例中的一个中,存储器交叉开关216具有与存储器接口218的连接以与I/O单元204通信,以及与并行处理器存储器222的本地实例的连接,从而使不同处理集群214A-214N内的处理单元能够与系统存储器或对于并行处理单元202不是本地的其他存储器通信。通常,存储器交叉开关216可例如能够使用虚拟通道以分离集群214A-214N与分区单元220A-220N之间的业务流。
虽然在并行处理器200内示出了并行处理单元202的单个实例,但是可包括并行处理单元202的任何数量的实例。例如,可在单个附加卡上提供并行处理单元202的多个实例,或可将多个附加卡互连。例如,并行处理器200可以是附加装置,诸如图1的附加装置120,其可以是图形卡,诸如包括一个或多个GPU、一个或多个存储器装置以及装置到装置或网络或组构接口的分立图形卡。并行处理单元202的不同实例可配置成:即使所述不同实例具有不同数量的处理核、不同量的本地并行处理器存储器和/或其他配置差异也仍互操作。可选地,并行处理单元202的一些实例相对于其他实例可包括更高精度浮点单元。合并并行处理单元202或并行处理器200的一个或多个实例的系统可用各种配置和形状因数(formfactor)来实现,包括但不限于台式计算机、膝上型计算机、或手持个人计算机、服务器、工作站、游戏控制台和/或嵌入式系统。编排器可以使用以下各项中的一个或多个来形成用于工作负载执行的复合节点:分解的处理器资源、高速缓存资源、存储器资源、存储资源和联网资源。
图2B是分区单元220的框图。分区单元220可以是图2A的分区单元220A-220N之一的实例。如所示出,分区单元220包括L2高速缓存221、帧缓冲器接口225和ROP 226(栅格操作单元)。L2高速缓存221是读/写高速缓存,其配置成执行从存储器交叉开关216和ROP 226接收的加载和存储操作。由L2高速缓存221将读未命中(read miss)和紧急回写请求输出到帧缓冲器接口225以便处理。也可经由帧缓冲器接口225将更新发送到帧缓冲器以便处理。在一个实施例中,帧缓冲器接口225与并行处理器存储器中的存储器单元(诸如,图2A的存储器单元224A-224N(例如,在并行处理器存储器222内))之一通过接口连接(interface)。分区单元220还可附加地或备选地经由存储器控制器(未示出)与并行处理器存储器中的存储器单元中的一个通过接口连接。
在图形应用中,ROP 226是执行诸如模板印刷(stencil)、z测试、混合之类的栅格操作的处理单元。随后ROP 226输出存储在图形存储器中的经处理的图形数据。在一些实施例中,ROP 226包括编解码器227或与编解码器227耦合,所述编解码器227包括压缩逻辑,该压缩逻辑用于压缩写入到存储器或L2高速缓存221的深度或颜色数据,并且解压缩从存储器或L2高速缓存221读取的深度或颜色数据。压缩逻辑可以是利用多种压缩算法中的一种或多种压缩算法的无损压缩逻辑。由编解码器227所执行的压缩的类型可基于待压缩的数据的统计特性而变化。例如,在一个实施例中,增量颜色压缩(delta color compression)在逐贴片(per-tile)的基础上对深度和颜色数据执行。在一个实施例中,编解码器227包括压缩和解压缩逻辑,所述压缩和解压缩逻辑可以压缩和解压缩与机器学习操作相关联的计算数据。编解码器227可以例如压缩稀疏矩阵数据以用于稀疏机器学习操作。编解码器227还可以压缩以稀疏矩阵格式编码的稀疏矩阵数据(例如,坐标列表编码(COO)、压缩的稀疏行(CSR)、压缩的稀疏列(CSC)等)以生成压缩并编码的稀疏矩阵数据。压缩并编码的稀疏矩阵数据可以在由处理元件处理之前被解压缩和/或解码,或者处理元件可以配置成消耗压缩的、编码的或者压缩并编码的数据用于处理。
在每个处理集群(例如,图2A的集群214A-214N)而不是分区单元220内可包括ROP226。在这样的实施例中,通过存储器交叉开关216传送对于像素数据而不是像素片段数据的读和写请求。经处理的图形数据可在显示装置(例如图1的一个或多个显示装置110A-110B)上显示、被路由以供(一个或多个)处理器102进一步处理或被路由以供图2A的并行处理器200内的处理实体中的其中之一来进一步处理。
图2C是并行处理单元内的处理集群214的框图。例如,处理集群是图2A的处理集群214A-214N之一的实例。处理集群214可配置成并行执行许多线程,其中,术语“线程”是指在特定的一组输入数据上执行的特定程序的实例。可选地,在不提供多个独立指令单元的情况下,可使用单指令多数据(SIMD)指令发布技术以支持对大数量线程的并行执行。备选地,使用配置成将指令发布到处理集群中的每一个内的一组处理引擎的公共指令单元,单指令多线程(SIMT)技术可被用于支持大量的一般同步的线程的并行执行。不同于SIMD执行制度(其中,所有处理引擎通常执行相同的指令),SIMT执行允许不同线程通过给定线程程序更容易地遵循分歧的执行路径。本领域技术人员将理解,SIMD处理制度表示SIMT处理制度的功能子集。
可经由流水线管理器232来控制处理集群214的操作,所述流水线管理器将处理任务分布到SIMT并行处理器。流水线管理器232从图2A的调度器210接收指令,并且经由图形多处理器234和/或纹理单元236来管理那些指令的执行。所示出的图形多处理器234是SIMT并行处理器的示例性实例。然而,不同架构的各种类型的SIMT并行处理器可被包括在处理集群214内。图形多处理器234的一个或多个实例可被包括在处理集群214内。图形多处理器234可处理数据,并且数据交叉开关240可用于将所处理的数据分布到多个可能目的地(包括其他着色器单元)之一。流水线管理器232可通过指定针对要经由数据交叉开关240来分布的经处理的数据的目的地来促进分布经处理的数据。
处理集群214内的每个图形多处理器234可包括相同一组功能执行逻辑(例如,算术逻辑单元、加载-存储单元等)。能以流水线方式来配置功能执行逻辑,用该流水线方式,在先前的指令完成之前可发布新指令。功能执行逻辑支持各种操作,包括整数和浮点算术、比较操作、布尔操作、位移位和各种代数函数的计算。可利用相同功能单元硬件来执行不同操作,并且可存在功能单元的任何组合。
传送至处理集群214的指令构成线程。跨一组并行处理引擎而执行的一组线程是线程群组。线程群组对不同的输入数据执行相同程序。可将线程群组内的每个线程分配给图形多处理器234内的不同处理引擎。线程群组可包括比图形多处理器234内的处理引擎数量更少的线程。当线程群组包括比处理引擎的数量更少的线程时,处理引擎中的一个或多个在线程群组正在被处理的循环期间可以是空闲的。线程群组也可包括比图形多处理器234内的处理引擎数量更多的线程。当线程群组包括比图形多处理器234内的处理引擎数量更多的线程时,可通过连续时钟循环执行处理。可选地,可在图形多处理器234上并发地执行多个线程群组。
图形多处理器234可包括用于执行加载和存储操作的内部高速缓冲存储器。可选地,图形多处理器234可放弃内部高速缓存,并且使用处理集群214内的高速缓冲存储器(例如,1级(L1)高速缓存248)。每个图形多处理器234还有权访问可用于在线程之间转移数据并且在所有处理集群214当中共享的分区单元(例如,图2A的分区单元220A-220N)内的2级(L2)高速缓存。图形多处理器234还可访问芯片外全局存储器,所述芯片外全局存储器可包括本地并行处理器存储器和/或系统存储器中的一个或多个。可将并行处理单元202外部的任何存储器用作全局存储器。实施例(其中处理集群214包括图形多处理器234的多个实例)可共享公共指令和数据,所述公共指令和数据可存储在L1高速缓存248中。
每个处理集群214可包括MMU 245(存储器管理单元),所述MMU配置成将虚拟地址映射到物理地址中。在其他实施例中,MMU 245的一个或多个实例可驻留在图2A的存储器接口218内。MMU 245包括:一组页表条目(PTE),用于将贴片的虚拟地址映射到物理地址;以及可选地高速缓存行索引。MMU 245可包括可驻留在图形多处理器234或L1高速缓存或处理集群214内的地址转化后备缓冲器(address translation lookaside buffer)(TLB)或高速缓存。物理地址经处理以分布表面数据访问局域性,从而允许在分区单元当中高效的请求交织。高速缓存行索引可用于确定针对高速缓存行的请求是命中还是未命中。
在图形和计算应用中,处理集群214可被配置使得每个图形多处理器234耦合到纹理单元236以用于执行纹理映射操作,例如确定纹理样本位置、读取纹理数据和过滤纹理数据。根据需要,从内部纹理L1高速缓存(未示出)或在一些实施例中从图形多处理器234内的L1高速缓存读取纹理数据,并且从L2高速缓存、本地并行处理器存储器或系统存储器提取所述纹理数据。每个图形多处理器234将经处理的任务输出到数据交叉开关240以将经处理的任务提供给另一处理集群214,以供进一步处理或以经由存储器交叉开关216将经处理的任务存储在L2高速缓存、本地并行处理器存储器或系统存储器中。preROP 242(预栅格操作单元)配置成从图形多处理器234接收数据、将数据引导到ROP单元,所述ROP单元可与如本文中描述的分区单元(例如,图2A的分区单元220A-220N)位于一起。preROP 242单元可执行针对颜色混合的优化、组织像素颜色数据和执行地址转化。
将认识到,本文中描述的核架构是说明性的,并且变型和修改是有可能的。任何数量的处理单元(例如,图形多处理器234、纹理单元236、preROP 242等)可被包括在处理集群214内。此外,虽然仅示出了一个处理集群214,但是如本文中描述的并行处理单元可包括处理集群214的任何数量的实例。可选地,每个处理集群214可配置成使用单独且不同的处理单元、L1高速缓存、L2高速缓存等独立于其他处理集群214来操作。
图2D示出了图形多处理器234的示例,图2D中图形多处理器234与处理集群214的流水线管理器232耦合。图形多处理器234具有执行流水线,其包括但不限于:指令高速缓存252、指令单元254、地址映射单元256、寄存器堆(file)258、一个或多个通用图形处理单元(GPGPU)核262和一个或多个加载/存储单元266。GPGPU核262和加载/存储单元266经由存储器和高速缓存互连268与高速缓冲存储器272和共享存储器270耦合。图形多处理器234可另外包括张量和/或光线追踪核263,其包括用于加速矩阵和/或光线追踪操作的硬件逻辑。
指令高速缓存252可从流水线管理器232接收待执行的指令流。所述指令被高速缓存在指令高速缓存252中,并且由指令单元254分派以供执行。指令单元254可将指令分派为线程群组(例如,线程束(warp)),其中线程群组的每个线程被指派给GPGPU核262内的不同执行单元。指令可通过指定统一地址空间内的地址来访问本地、共享或全局地址空间中的任一个。地址映射单元256可用于将统一地址空间中的地址转化成可由加载/存储单元266访问的不同的存储器地址。
寄存器堆258为图形多处理器234的功能单元提供一组寄存器。寄存器堆258为连接到图形多处理器234的功能单元(例如,GPGPU核262、加载/存储单元266)的数据路径的操作数提供临时存储。在所述功能单元中的每个之间可划分寄存器堆258,使得每个功能单元分配有寄存器堆258的专用部分。例如,在由图形多处理器234执行的不同线程束之间可划分寄存器堆258。
GPGPU核262可各自包括浮点单元(FPU)和/或整数算术逻辑单元(ALU),所述FPU和整数ALU用于执行图形多处理器234的指令。在一些实现中,GPGPU核262可包括硬件逻辑,其可以以其他方式驻留在张量和/或光线追踪核263内。GPGPU核262可在架构上是类似的,或可在架构上是不同的。例如且在一个实施例中,GPGPU核262的第一部分包括单精度FPU和整数ALU,而GPGPU核的第二部分包括双精度FPU。可选地,FPU可针对浮点算术来实现IEEE754-2008标准,或能够实现可变精度浮点算术。图形多处理器234可另外包括一个或多个固定功能或特殊功能单元以执行特定功能(诸如,复制矩形或像素混合操作)。GPGPU核中的一个或多个也可包括固定或特殊功能逻辑。
GPGPU核262可包括能够对多组数据执行单指令的SIMD逻辑。可选地,GPGPU核262可物理地执行SIMD4、SIMD8和SIMD16指令,并且逻辑上执行SIMD1、SIMD2和SIMD32指令。用于GPGPU核的SIMD指令可由着色器编译器在编译时间生成,或者可在执行针对单程序多数据(SPMD)或SIMT架构而编写和编译的程序时自动生成。针对SIMT执行模型而配置的程序的多个线程可经由单SIMD指令而执行。例如且在一个实施例中,执行相同或类似操作的八个SIMT线程可经由单个SIMD8逻辑单元并行地执行。
存储器和高速缓存互连268是互连网络,其将图形多处理器234的功能单元中的每个连接到寄存器堆258并连接到共享存储器270。例如,存储器和高速缓存互连268是交叉开关互连,其允许加载/存储单元266在共享存储器270与寄存器堆258之间实现加载和存储操作。寄存器堆258能与GPGPU核262以相同频率操作,由此在GPGPU核262与寄存器堆258之间的数据转移是非常低的时延。共享存储器270可用于能够实现图形多处理器234内的功能单元上执行的线程之间的通信。高速缓冲存储器272可用作例如数据高速缓存,以对功能单元与纹理单元236之间传递的纹理数据进行高速缓存。共享存储器270也可用作程序管理的高速缓存(cached)。共享存储器270和高速缓冲存储器272可以与数据交叉开关240耦合,以能够实现与处理集群的其他组件的通信。在GPGPU核262上执行的线程能以程序方式将除了存储在高速缓冲存储器272内的自动高速缓存的数据之外的数据存储在共享存储器内。
图3A-3C示出了根据实施例的另外的图形多处理器。图3A-3B示出了图形多处理器325、350,所述图形多处理器325、350与图2C的图形多处理器234相关,并且可代替这些中的一个使用。因此,本文中任何特征与图形多处理器234的组合的公开也公开了与(一个或多个)图形多处理器325、350的对应组合,但不限于此。图3C示出了图形处理单元(GPU)380,其包括布置成多核群组365A-365N的图形处理资源的专用集合,所述多核群组365A-365N对应于图形多处理器325、350。示出的图形多处理器325、350和多核群组365A-365N可以是能够同时执行大量执行线程的流播多处理器(streaming multiprocessor)(SM)。
图3A的图形多处理器325包括涉及图2D的图形多处理器234的执行资源单元的多个附加实例。例如,图形多处理器325可包括指令单元332A-332B、寄存器堆334A-334B和(一个或多个)纹理单元344A-344B的多个实例。图形多处理器325还包括多组图形或计算执行单元(例如,GPGPU核336A-336B、张量核337A-337B、光线追踪核338A-338B)和多组加载/存储单元340A-340B。执行资源单元具有公共指令高速缓存330、纹理和/或数据高速缓冲存储器342以及共享存储器346。
各种组件可经由互连组构327通信。互连组构327可包括一个或多个交叉开关(crossbar switch)以能够实现图形多处理器325的各种组件之间的通信。互连组构327可以是分开的高速网络组构层,图形多处理器325的每个组件堆叠在该分开的高速网络组构层上。图形多处理器325的组件经由互连组构327与远程组件通信。例如,核336A-336B、337A-337B以及338A-338B可各自经由互连组构327与共享存储器346通信。互连组构327可仲裁图形多处理器325内的通信以确保组件之间的公平带宽分配。
图3B的图形处理器350包括多组执行资源356A-356D,其中,每组执行资源包括多个指令单元、寄存器堆、GPGPU核和加载存储单元,如图2D和图3A中所示出。执行资源356A-356D可与(一个或多个)纹理单元360A-360D一致地工作以用于纹理操作,同时共享指令高速缓存354和共享存储器353。例如,执行资源356A-356D可共享指令高速缓存354和共享存储器353,以及纹理和/或数据高速缓冲存储器358A-358B的多个实例。各种组件可经由类似于图3A的互连组构327的互连组构352来通信。
本领域技术人员将理解,图1、图2A-2D以及图3A-3B中所描述的架构就本实施例的范畴而言是描述性的而非限制性的。因此,在不背离本文中描述的实施例的范畴的情况下,本文中描述的技术可在任何正确配置的处理单元上实现,所述处理单元包括但不限于一个或多个移动应用处理器、一个或多个台式计算机或服务器中央处理单元(CPU)(包括多核CPU)、一个或多个并行处理单元(诸如,图2A的并行处理单元202)以及一个或多个图形处理器或专用处理单元。
如本文中描述的并行处理器或GPGPU可通信地耦合到主机/处理器核以加速图形操作、机器学习操作、模式分析操作和各种通用GPU(GPGPU)功能。GPU可通过总线或其他互连(例如,高速互连,诸如PCIe、NVLink或其他已知协议、标准化协议或专有协议)在通信上耦合到主机处理器/核。在其他实施例中,GPU可与所述核集成在相同封装或芯片上,并且通过内部处理器总线/互连(即,在所述封装或芯片的内部)通信地耦合到所述核。不管连接GPU所采用的方式如何,处理器核都可采取以工作描述符中所包含的命令/指令的序列的形式将工作分配给GPU。GPU然后使用专用的电路系统/逻辑以用于高效地处理这些命令/指令。
图3C示出了包括布置到多核群组365A-365N中的图形处理资源的专用集合的图形处理单元(GPU)380。尽管提供了仅单个多核群组365A的细节,但将领会的是,其他多核群组365A-365N可被配备有图形处理资源的相同或类似集合。关于多核群组365A-365N描述的细节也可适用于本文中描述的任何图形多处理器234、325、350。
如所示出的,多核群组365A可包括图形核370的集合、张量核371的集合和光线追踪核372的集合。调度器/分派器368调度和分派图形线程以供在各种核370、371、372上执行。寄存器堆369的集合存储在执行图形线程时由核370、371、372使用的操作数值。这些寄存器可包括例如用于存储整数值的整数寄存器、用于存储浮点值的浮点寄存器、用于存储打包数据元素(整数和/或浮点数据元素)的向量寄存器及用于存储张量/矩阵值的贴片寄存器。贴片寄存器可被实现为向量寄存器的组合集合。
一个或多个组合的1级(L1)高速缓存和共享存储器单元373在每个多核群组365A内本地地存储图形数据,诸如纹理数据、顶点数据、像素数据、光线数据、包围体积数据等。一个或多个纹理单元374还可被用于执行纹理操作,诸如纹理映射和采样。由多核群组365A-365N的全部或其子集共享的2级(L2)高速缓存375存储用于多个并发图形线程的图形数据和/或指令。如所示出的,L2高速缓存375可跨多个多核群组365A-365N被共享。一个或多个存储器控制器367将GPU 380耦合到存储器366,所述存储器366可以是系统存储器(例如,DRAM)和/或专用图形存储器(例如,GDDR6存储器)。
输入/输出(I/O)电路系统363将GPU 380耦合到一个或多个I/O装置362,诸如数字信号处理器(DSP)、网络控制器或用户输入装置。片上互连可被用于将I/O装置362耦合到GPU 380和存储器366。I/O电路系统363的一个或多个I/O存储器管理单元(IOMMU)364将I/O装置362直接耦合到系统存储器366。可选地,IOMMU 364管理页表的多个集合,以将虚拟地址映射到系统存储器366中的物理地址。I/O装置362、(一个或多个)CPU 361和(一个或多个)GPU 380然后可共享相同虚拟地址空间。
在IOMMU 364的一个实现中,IOMMU 364支持虚拟化。在此情况下,它可管理页表的第一集合以将客户/图形虚拟地址映射到客户/图形物理地址,并且管理页表的第二集合以将客户/图形物理地址映射到系统/主机物理地址(例如,在系统存储器366内)。页表的第一和第二集合中的每个的基址可被存储在控制寄存器中并且在上下文切换时被换出(例如,使得新的上下文被提供有对页表的相关集合的访问)。尽管在图3C中未被示出,但多核群组365A-365N和/或核370、371、372中的每个可包括转化后备缓冲器(TLB),以对客户虚拟到客户物理转化、客户物理到主机物理转化以及客户虚拟到主机物理转化进行高速缓存。
(一个或多个)CPU 361、GPU 380和I/O装置362可被集成在单个半导体芯片和/或芯片封装上。示出的存储器366可被集成在相同芯片上,或者可经由片外(off-chip)接口被耦合到存储器控制器367。在一个实现中,存储器366包括GDDR6存储器,所述GDDR6存储器共享与其他物理系统级存储器相同虚拟地址空间,但是本文中所述的基础原理不限于此特定实现。
张量核371可包括特别设计成执行矩阵运算的多个执行单元,所述矩阵运算是用于执行深度学习操作的基础计算操作。例如,同时矩阵乘法运算可被用于神经网络训练和推理。张量核371可使用各种操作数精度来执行矩阵处理,所述各种操作数精度包括单精度浮点(例如,32位)、半精度浮点(例如,16位)、整数字(16位)、字节(8位)和半字节(4位)。例如,神经网络实现取出每个经渲染的场景的特征,潜在地组合来自多个帧的细节,以构造高质量的最终图像。
在深度学习实现中,可调度并行矩阵乘法工作以供在张量核371上执行。神经网络的训练特别要求大量的矩阵点积运算。为了处理N x N x N矩阵相乘的内积公式,张量核371可包括至少N个点积处理元素。在矩阵相乘开始前,一个完整矩阵被加载到贴片寄存器,并且在N个周期的每个周期,第二矩阵的至少一列被加载。每个周期,有被处理的N个点积。
取决于特定实现,可以以不同精度存储矩阵元素,所述不同精度包括16位字、8位字节(例如,INT8)和4位半字节(例如,INT4)。可为张量核371指定不同精度模式以确保最高效的精度被用于不同工作负载(例如,诸如可容许量化到字节和半字节的推理工作负载)。支持的格式另外包括64位浮点(FP64)和非IEEE浮点格式,诸如bfloat16格式(例如,大脑浮点)、具有一个符号位、八个指数位和八个有效位(其中七个位被明确存储)的16位浮点格式。一个实施例包括对精度降低的张量-浮点格式(TF32)的支持,其具有FP32(8位)的范围与FP16 (10位)的精度。精度降低的TF32运算可在FP32输入上执行,并且以相对于FP32更高的性能和相对于FP16增加的精度产生FP32输出。
在一个实施例中,张量核371支持矩阵的稀疏操作模式,其中,绝大多数的值为零。张量核371包括对以稀疏矩阵表示(例如,坐标列表编码(COO)、压缩稀疏行(CSR)、压缩稀疏列(CSC)等)编码的稀疏输入矩阵的支持。张量核371还包括在稀疏矩阵表示可以被进一步压缩的情况下对压缩的稀疏矩阵表示的支持。压缩的、编码的和/或压缩且编码的矩阵数据连同相关联的压缩和/或编码元数据可以由张量核371准备好,并且可以提取非零值。例如,对于给定的输入矩阵A,可以从矩阵A的至少一部分的压缩的和/或编码的表示中加载非零值。基于矩阵A中非零值的位置(其可从与非零值相关联的索引或坐标元数据确定),可加载输入矩阵B中的对应值。取决于要执行的运算(例如,乘法),如果对应值为零值,则可绕过对来自输入矩阵B的值的加载。在一个实施例中,用于某些运算(诸如乘法运算)的值配对可由调度器逻辑预扫描,并且仅调度非零输入之间的运算。根据矩阵A和矩阵B的维数以及要执行的运算,输出矩阵C可以是密集的或稀疏的。在输出矩阵C是稀疏的情况下,并且取决于张量核371的配置,可以以压缩格式、稀疏编码或压缩稀疏编码来输出输出矩阵C。
光线追踪核372对于实时光线追踪和非实时光线追踪实现二者均可使光线追踪操作加速。特别地,光线追踪核372可包括光线遍历(ray traversal)/交叉电路系统,以用于使用包围体积层级(bounding volume hierarchy)(BVH)来执行光线遍历并且标识封闭在BVH体积之内的图元与光线之间的交叉。光线追踪核372还可包括用于执行深度测试和拣选(culling)(例如,使用Z缓冲器或类似布置)的电路系统。在一个实现中,光线追踪核372与本文中描述的图像去噪技术协同执行遍历和交叉操作,其至少一部分可在张量核371上被执行。例如,张量核371可实现深度学习神经网络以执行由光线追踪核372生成的帧的去噪。然而,(一个或多个)CPU 361、图形核370和/或光线追踪核372还可实现去噪和/或深度学习算法的全部或一部分。
另外,如上所述,可采用去噪的分布式方法,其中GPU 380在通过网络或高速互连耦合到其他计算装置的计算装置中。在该分布式方法中,互连的计算装置可共享神经网络学习/训练数据来改进速度,利用该速度整个系统学习对不同类型的图像帧和/或不同的图形应用执行去噪。
光线追踪核372可处理所有BVH遍历和/或光线-图元交叉,从而避免图形核370以每光线数千个指令而过载。例如,每个光线追踪核372包括用于执行包围盒测试(例如,对于遍历操作)的专用电路系统的第一集合和/或用于执行光线-三角形交叉测试(例如,交叉已被遍历的光线)的专用电路系统的第二集合。因此,例如,多核群组365A可仅仅启动光线探头,并且光线追踪核372独立执行光线遍历和交叉并且将命中(hit)数据(例如,命中、无命中(no hit)、多次命中等)返回到线程上下文。在光线追踪核372执行遍历和交叉操作的同时,其他核370、371被释放以执行其他图形或计算工作。
可选地,每个光线追踪核372可包括用于执行BVH测试操作的遍历单元和/或执行光线-图元交叉测试的交叉单元。交叉单元生成“命中”、“无命中”或“多次命中”响应,交叉单元将该响应提供到适当的线程。在遍历和交叉操作期间,其他核(例如,图形核370和张量核371)的执行资源被释放以执行其他形式的图形工作。
在下述的一个可选实施例中,使用了混合栅格化/光线追踪方法,其中在图形核370与光线追踪核372之间分布工作。
光线追踪核372(和/或其他核370、371)可包括对诸如Microsoft的DirectX光线追踪(DXR)之类的光线追踪指令集的硬件支持,所述DXR包括DispatchRays命令以及光线-生成、最接近-命中、任何-命中和未命中(miss)着色器,这些能够实现对每个对象指派纹理和着色器的独特集合。可由光线追踪核372、图形核370和张量核371支持的另一光线追踪平台是Vulkan 1.1.85。然而,注意本文中所述的基础原理不限于任何特定光线追踪ISA。
一般而言,各种核372、371、370可支持光线追踪指令集,所述光线追踪指令集包括用于光线生成、最接近命中、任何命中、光线-图元交叉、每图元和分层包围盒构造、未命中、访问及异常(exception)中的一个或多个的指令/功能。更特定地说,优选的实施例包括光线追踪指令以执行以下功能中的一个或多个:
光线生成 – 可为每个像素、样本或其他用户定义的工作指派执行光线生成指令。
最接近命中 – 可执行最接近命中指令,以用场景内的图元来定位光线的最接近交叉点。
任何命中 - 任何命中指令标识场景内的图元与光线之间的多个交叉,潜在地标识新的最接近交叉点。
交叉 - 交叉指令执行光线-图元交叉测试并且输出结果。
每图元包围盒构造 - 此指令围绕给定图元或图元的群组构建包围盒(例如,在构建新的BVH或其他加速数据结构时)。
未命中 – 指示光线未命中场景的指定区域或场景内的所有几何。
访问 – 指示光线将遍历的子代体积(children volume)。
异常 - 包括各种类型的异常处理程序(例如,针对各种误差状况而被调用)。
在一个实施例中,光线追踪核372可以适于加速通用计算操作,该通用计算操作可以使用与光线交叉测试类似的计算技术来被加速。可以提供计算框架,其使得着色器程序能够被编译为低级指令和/或图元,所述低级指令和/或图元经由光线追踪核执行通用计算操作。可以从在光线追踪核372上执行的计算操作获益的示例性计算问题包括涉及坐标空间内的波束、波、光线或粒子传播的计算。可以相对于坐标空间内的几何形状或网格计算与该传播相关联的交互。例如,与通过环境的电磁信号传播相关联的计算可以经由使用经由光线追踪核执行的指令或图元来被加速。可以作为直接光线追踪类似物来计算由环境中的物体对信号的衍射和反射。
光线追踪核372也可以用于执行不直接类似于光线追踪的计算。例如,可以使用光线追踪核372来加速网格投影、网格细化和体积采样计算。还可以执行一般坐标空间计算,诸如最近邻居计算。例如,可以通过在围绕给定点的坐标空间中定义包围盒来发现该点附近的点集。然后,光线追踪核372内的BVH和光线探针逻辑可以用于确定包围盒内的点交叉的集合。交叉构成原点和该原点的最近邻居。可以与在图形核372和张量核371上执行的计算并行地执行使用光线追踪核372执行的计算。着色器编译器可以配置成将计算着色器或其他通用图形处理程序编译为可以跨图形核370、张量核371和光线追踪核372并行化的低级图元。
用于GPU与主机处理器互连的技术
图4A示出了示例性架构,其中多个GPU 410-413(例如,诸如图2A中所示的并行处理器200)通过高速链路440A-440D(例如,总线、点对点互连等)通信地耦合到多个多核处理器405-406。取决于实现,高速链路440A-440D可支持4GB/s、30GB/s、80GB/s或更高的通信吞吐量。可使用各种互连协议,包括但不限于PCIe 4.0或5.0以及NVLink 2.0。然而,本文中描述的根本原理不限于任何特定通信协议或吞吐量。
GPU 410-413中的两个或更多个可通过高速链路442A-442B互连,所述高速链路可使用与用于高速链路440A-440D的那些协议/链路相同或不同的协议/链路来实现。类似地,多核处理器405-406中的两个或更多个可通过高速链路443连接,所述高速链路443可以是以20GB/s、30GB/s、120GB/s或更低或更高速度来操作的对称多处理器(SMP)总线。备选地,图4A中所示的各种系统组件之间的所有通信可使用相同协议/链路(例如,通过公共互连组构)来实现。然而,如所提到的,本文中描述的根本原理不限于任何特定类型的互连技术。
每个多核处理器405-406可分别经由存储器互连430A-430B通信地耦合到处理器存储器401-402,并且每个GPU 410-413分别通过GPU存储器互连450A-450D通信地耦合到GPU存储器420-423。存储器互连430A-430B以及450A-450D可利用相同或不同的存储器访问技术。通过示例且非限制的方式,处理器存储器401-402和GPU存储器420-423可以是易失性存储器,诸如动态随机存取存储器(DRAM)(包括堆叠式DRAM)、图形DDR SDRAM(GDDR)(例如,GDDR5、GDDR6)或高带宽存储器(HBM),和/或可以是非易失性存储器,诸如3D XPoint/Optane或Nano-Ram。例如,存储器的某部分可以是易失性存储器,并且另一部分可以是非易失性存储器(例如,使用两级存储器(2LM)层级)。如本文所述的存储器子系统可以与多种存储器技术是可兼容的,所述存储器技术诸如由JEDEC(联合电子装置工程委员会)发布的双倍数据速率版本。
如下文所述,虽然各种处理器405-406和GPU 410-413可分别物理地耦合到特定存储器401-402、420-423,但是可实现统一存储器架构,其中相同虚拟系统地址空间(也称为“有效地址”空间)被分布在所有各个物理存储器当中。例如,处理器存储器401-402可各自包括64GB的系统存储器地址空间,并且GPU存储器420-423可各自包括32GB的系统存储器地址空间(在本示例中产生总共256GB的可寻址存储器)。
图4B示出多核处理器407与图形加速模块446之间的互连的额外可选细节。该图形加速模块446可包括集成在线卡上的一个或多个GPU芯片,所述线卡经由高速链路440耦合到处理器407。备选地,可将图形加速模块446与处理器407集成在相同的封装或芯片上。
所示出的处理器407包括多个核460A-460D,其各自具有转化后备缓冲器461A-461D和一个或多个高速缓存462A-462D。所述核可包括用于执行指令和处理数据的各种其他组件(例如,指令提取单元、分支预测单元、解码器、执行单元、重排序缓冲器等),未示出所述其他组件以免模糊本文中描述的组件的根本原理。高速缓存462A-462D可包括1级(L1)和2级(L2)高速缓存。另外,一个或多个共享的高速缓存456可被包括在高速缓存层级中并且由多组核460A-460D共享。例如,处理器407的一个实施例包括24个核,其各自具有其自身的L1高速缓存、十二个共享的L2高速缓存和十二个共享的L3高速缓存。在本实施例中,L2和L3高速缓存中的一个由两个邻近的核共享。处理器407和图形加速器集成模块446与系统存储器441连接,所述系统存储器441可包括处理器存储器401-402。
通过一致性总线464经由核间通信来针对存储在各种高速缓存462A-462D、456和系统存储器441中的数据和指令而维持一致性。例如,每个高速缓存可具有与其相关联的高速缓存一致性逻辑/电路系统以响应于对于特定高速缓存行的检测到的读或写来通过一致性总线464进行通信。在一个实现中,通过一致性总线464来实现高速缓存监听协议,以监听高速缓存访问。高速缓存监听/一致性技术被本领域技术人员良好地理解,并且此处将不详细描述以免模糊使本文中描述的根本原理。
可提供代理电路425,所述代理电路425将图形加速模块446通信地耦合到一致性总线464,从而允许图形加速模块446作为核的对等物来加入高速缓存一致性协议。具体而言,接口435提供通过高速链路440(例如,PCIe总线、NVLink等)至代理电路425的连接性,并且接口437将图形加速模块446连接到高速链路440。
在一个实现中,加速器集成电路436代表图形加速模块446的多个图形处理引擎431、432、N来提供高速缓存管理、存储器访问、上下文管理和中断管理服务。图形处理引擎431、432、N可各自包括单独的图形处理单元(GPU)。备选地,图形处理引擎431、432、N可包括GPU内不同类型的图形处理引擎,诸如图形执行单元、媒体处理引擎(例如,视频编码器/解码器)、采样器和块图像传送(blit)引擎。换句话说,图形加速模块可以是具有多个图形处理引擎431-432、N的GPU,或图形处理引擎431-432、N可以是集成在公共封装、线卡或芯片上的个体GPU。
加速器集成电路436可包括存储器管理单元(MMU)439以用于执行各种存储器管理功能,诸如虚拟至物理存储器转化(也称为有效至真实存储器转化)和用于访问系统存储器441的存储器访问协议。MMU 439还可包括转化后备缓冲器(TLB)(未示出)以用于高速缓存虚拟/有效至物理/真实地址转化。在一个实现中,高速缓存438存储命令和数据以供图形处理引擎431、432、N进行高效访问。存储在高速缓存438和图形存储器433-434、M中的数据可与核高速缓存462A-462D、456以及系统存储器441保持一致。如所提到,这可经由代理电路425来实现,所述代理电路425代表高速缓存438和存储器433-434、M来参与高速缓存一致性机制(例如,将更新发送到高速缓存438(与处理器高速缓存462A-462D、456上的高速缓存行的修改/访问相关),以及从高速缓存438接收更新)。
一组寄存器445存储用于由图形处理引擎431-432、N执行的线程的上下文数据,并且上下文管理电路448管理线程上下文。例如,上下文管理电路448可在上下文切换期间执行保存和恢复操作以保存和恢复各种线程的上下文(例如,其中,第一线程被保存并且第二线程被恢复,使得可由图形处理引擎来执行第二线程)。例如,在上下文切换时,上下文管理电路448可将当前寄存器值存储到存储器中指派的(例如,由上下文指针标识的)区域。然后,其可在返回到上下文时恢复所述寄存器值。中断管理电路447例如可接收并处理从系统装置接收的中断。
在一个实现中,由MMU 439将来自图形处理引擎431的虚拟/有效地址转化成系统存储器441中的真实/物理地址。可选地,加速器集成电路436支持多个(例如,4、8、16个)图形加速器模块446和/或其他加速器装置。图形加速器模块446可专用于在处理器407上执行的单个应用,或可在多个应用之间共享。可选地,提供虚拟化的图形执行环境,其中与多个应用、虚拟机(VM)或容器共享图形处理引擎431-432、N的资源。所述资源可被细划分成“切片”,其被分配给不同的VM和/或应用,这基于与所述VM和/或应用相关联的处理要求和优先级来进行。在本文中可以可互换地使用VM和容器。
虚拟机(VM)可以是运行操作系统和一个或多个应用的软件。VM可以由规范、配置文件、虚拟盘文件、非易失性随机接入存储器(NVRAM)设置文件和日志文件来定义,并且由主机计算平台的物理资源来支持。VM可以包括安装在软件上的操作系统(OS)或应用环境,所述软件模仿专用硬件。最终用户在虚拟机上具有与它们在专用硬件上将具有的相同的体验。称为管理程序(hypervisor)的专用软件完全仿真PC客户端或服务器的CPU、存储器、硬盘、网络和其他硬件资源,使得虚拟机能够共享资源。管理程序可以仿真与彼此隔离的多个虚拟硬件平台,允许虚拟机在相同底层物理主机上运行Linux®、Windows®服务器、VMwareESXi和其他操作系统。
容器可以是应用、配置和依赖关系的软件包,因此应用在一个计算环境到另一个计算环境上可靠地运行。容器可以共享安装在服务器平台上的操作系统,并且作为隔离的进程运行。容器可以是包含软件需要运行的所有事物(诸如系统工具、库和设置)的软件包。容器不像传统软件程序那样安装,这允许它们与其他软件和操作系统本身隔离。容器的隔离性质提供了若干益处。首先,容器中的软件将在不同的环境中相同地运行。例如,包括PHP和MySQL的容器可以在Linux®计算机和Windows®机器两者上同样地运行。第二,容器提供了增加的安全性,因为软件将不会影响主机操作系统。尽管安装的应用可以更改系统设置并修改诸如Windows注册表的资源,但容器仅可修改该容器内的设置。
因此,加速器集成电路436充当到对于图形加速模块446的系统的桥接器,并且提供地址转化和系统存储器高速缓存服务。在一个实施例中,为了促进桥接功能性,加速器集成电路436还可包括共享I/O 497(例如,PCIe、USB或其他)和硬件以能够实现电压、计时、性能、热气和安全的系统控制。共享I/O 497可利用单独的物理连接或可穿过高速链路440。另外,加速器集成电路436可为主机处理器提供虚拟化设施,以管理中断、存储器管理和图形处理引擎的虚拟化。
因为图形处理引擎431-432、N的硬件资源被显式地映射到由主机处理器407所见的真实地址空间,所以任何主机处理器都可使用有效地址值来直接寻址这些资源。加速器集成电路436的一个可选功能是图形处理引擎431-432、N的物理分离,使得它们对系统呈现为独立的单元。
一个或多个图形存储器433-434、M可分别耦合到图形处理引擎431-432、N中的每个。图形存储器433-434、M存储正在由图形处理引擎431-432、N中的每个处理的指令和数据。图形存储器433-434、M可以是易失性存储器,诸如DRAM(包括堆叠式DRAM)、GDDR存储器(例如,GDDR5、GDDR6)或HBM,和/或可以是非易失性存储器,诸如3D XPoint/Optane、三星Z-NAND或Nano-Ram。
为了减少高速链路440上的数据业务,可使用偏置技术以确保存储在图形存储器433-434、M中的数据是将被图形处理引擎431-432、N最频繁地使用的并且优选地不被核460A-460D(至少不是频繁地)使用的数据。类似地,偏置机制试图将由核(且优选地不是图形处理引擎431-432、N)所需的数据保存在系统存储器441和所述核的高速缓存462A-462D、456内。
根据图4C中所示出的变型,加速器集成电路436被集成在处理器407内。图形处理引擎431-432、N经由接口437和接口435(其再次可利用任何形式的总线或接口协议)通过高速链路440来直接与加速器集成电路436通信。加速器集成电路436可执行与针对于图4B所描述的那些操作相同的操作,但考虑到其与一致性总线464和高速缓存462A-462D、456的紧密接近性而潜在地处于更高的吞吐量。
所述实施例可支持不同的编程模型,包括专用进程编程模型(没有图形加速模块虚拟化)和共享的编程模型(有虚拟化)。后者可包括由加速器集成电路436控制的编程模型和由图形加速模块446控制的编程模型。
在专用进程模型的实施例中,图形处理引擎431、432……N可在单一操作系统下专用于单个应用或进程。单个应用可将其他应用请求汇集(funnel)到图形引擎431、432……N,从而在VM/分区内提供虚拟化。
在专用进程编程模型中,可由多个VM/应用分区来共享图形处理引擎431、432……N。共享的模型要求系统管理程序来虚拟化图形处理引擎431-432、N,以允许由每个操作系统进行访问。针对无管理程序的单分区系统,图形处理引擎431-432、N由操作系统所拥有。在两种情况下,操作系统可虚拟化图形处理引擎431-432、N以提供对每个进程或应用的访问。
针对共享的编程模型,图形加速模块446或个体图形处理引擎431-432、N使用进程句柄(process handle)来选择进程元素(process element)。进程元素可存储在系统存储器441中,并且使用本文中描述的有效地址至真实地址转化技术是可寻址的。进程句柄可以是在向图形处理引擎431-432、N来登记其上下文(那就是说,调用系统软件以将进程元素添加到进程元素链表)时被提供给主机进程的实现特定的值。进程句柄的较低16位可以是进程元素链表内的进程元素的偏移。
图4D示出了示例性加速器集成切片490。如本文中所使用,“切片”包括加速器集成电路436的处理资源的指定部分。系统存储器441内的应用有效地址空间482存储进程元素483。响应于来自处理器407上执行的应用480的GPU调用(invocation)481可存储进程元素483。进程元素483包含对应的应用480的进程状态。包含在进程元素483中的工作描述符(WD)484可以是由应用请求的单个作业,或可包含指向作业队列的指针。在后一种情况下,WD 484是指向应用的地址空间482中的作业请求队列的指针。
图形加速模块446和/或个体图形处理引擎431-432、N可被系统中的进程中的全部或子集共享。例如,本文中描述的技术可包括用于设立进程状态并且向图形加速模块446发送WD 484以在虚拟化环境中开始作业的基础设施。
在一个实现中,专用进程编程模型是实现特定的。在这个模型中,单个进程拥有图形加速模块446或个体图形处理引擎431。由于图形加速模块446由单个进程所拥有,在指派图形加速模块446之时,管理程序为拥有的分区初始化加速器集成电路436,并且操作系统为拥有的进程初始化加速器集成电路436。
在操作中,加速器集成切片490中的WD提取单元491提取下一个WD 484,所述下一个WD 484包括待由图形加速模块446的图形处理引擎之一来完成的工作的指示。来自WD484的数据可存储在寄存器445中,并且由如所示出的MMU 439、中断管理电路447和/或上下文管理电路448使用。例如,MMU 439可包括用于访问OS虚拟地址空间485内的段/页表486的段/页行走电路系统(walk circuitry)。中断管理电路447可处理从图形加速模块446接收的中断事件492。当执行图形操作时,由MMU 439将由图形处理引擎431-432、N所生成的有效地址493转化为真实地址。
可为每个图形处理引擎431-432、N和/或图形加速模块446复制相同一组寄存器445,并且这组寄存器445可由管理程序或操作系统来初始化。这些复制的寄存器中的每个可被包括在加速器集成切片490中。可以为特定图形处理引擎431-432、N的客户端配置QoS设置,并且可以实现每个引擎的客户端之间的数据隔离。表1中示出了可由管理程序来初始化的示例性寄存器。
表1-管理程序初始化的寄存器
1 切片控制寄存器
2 真实地址(RA)调度的进程区域指针
3 权限掩蔽覆盖寄存器
4 中断向量表条目偏移
5 中断向量表条目限制
6 状态寄存器
7 逻辑分区ID
8 真实地址(RA)管理程序加速器利用记录指针
9 存储描述寄存器
表2中示出了可由操作系统来初始化的示例性寄存器。
表2-操作系统初始化的寄存器
1 进程和线程标识
2 有效地址(EA)上下文保存/恢复指针
3 虚拟地址(VA)加速器利用记录指针
4 虚拟地址(VA)存储段表指针
5 权限掩蔽
6 工作描述符
每个WD 484可以是特定于特定图形加速模块446和/或图形处理引擎431-432、N的。它包含图形处理引擎431-432、N要完成其工作所要求的全部信息,或者它可以是对其中应用已设立待完成的工作的命令队列的存储器位置的指针。
图4E示出了共享模型的附加可选细节。它包括其中存储有进程元素列表499的管理程序真实地址空间498。管理程序真实地址空间498经由管理程序496是可访问的,所述管理程序496虚拟化用于操作系统495的图形加速模块引擎。
共享的编程模型允许来自系统中所有分区或分区子集的所有进程或进程子集使用图形加速模块446。存在两个编程模型,其中,图形加速模块446由多个进程和分区共享:时间切片共享和图形定向共享(graphics directed shared)。
在这个模型中,系统管理程序496拥有图形加速模块446,并且使其功能可用于所有操作系统495。为使图形加速模块446支持由系统管理程序496进行的虚拟化,图形加速模块446可遵守以下要求:1)应用的作业请求必须是自主的(那就是说,无需在作业之间保持状态),或图形加速模块446必须提供上下文保存和恢复机制。2)由图形加速模块446保证在指定时间量内完成应用的作业请求(包括任何转化故障),或图形加速模块446提供抢占作业的处理的能力。3)当在定向共享编程模型中操作时,必须保证图形加速模块446在进程之间的公平性。
针对共享模型,要求应用480可用图形加速模块446类型、工作描述符(WD)、权限掩蔽寄存器(AMR)值和上下文保存/恢复区域指针(CSRP)来进行操作系统495系统调用。图形加速模块446类型描述了用于系统调用的靶向加速功能。图形加速模块446类型可以是系统特定的值。WD专门针对图形加速模块446被格式化,并且可采用如下形式:图形加速模块446命令、对用户定义的结构的有效地址指针、对命令队列的有效地址指针或用于描述待由图形加速模块446完成的工作的任何其他数据结构。在一个实施例中,AMR值是待用于当前进程的AMR状态。被传递到操作系统的值类似于设置AMR的应用。如果加速器集成电路436和图形加速模块446实现不支持用户权限掩蔽覆盖寄存器(UAMOR),则在管理程序调用中传递AMR之前操作系统可将当前UAMOR值应用于AMR值。可选地,在将AMR放置到进程元素483中之前管理程序496可应用当前权限掩蔽覆盖寄存器(AMOR)值。CSRP可以是寄存器445之一,其包含应用的地址空间482中的区域的有效地址以用于使图形加速模块446保存和恢复上下文状态。如果不要求在作业之间保存状态或当作业被抢占时,这个指针是可选的。上下文保存/恢复区域可以是固定的(pinned)系统存储器。
在接收到系统调用时,操作系统495可验证应用480已注册并且已被给予使用图形加速模块446的权限。然后,操作系统495用表3中所示的信息来调用管理程序496。
表3–OS至管理程序调用参数
1 工作描述符(WD)
2 权限掩蔽寄存器(AMR)值(潜在地被掩蔽)
3 有效地址(EA)上下文保存/恢复区域指针(CSRP)
4 进程ID(PID)和可选线程ID(TID)
5 虚拟地址(VA)加速器利用记录指针(AURP)
6 存储段表指针(SSTP)的虚拟地址
7 逻辑中断服务号(LISN)
在接收到管理程序调用时,管理程序496验证操作系统495已注册并且已被给予使用图形加速模块446的权限。然后,管理程序496将进程元素483放入到对于对应的图形加速模块446类型的进程元素链表中。进程元素可包括表4中所示的信息。
表4-进程元素信息
1 工作描述符(WD)
2 权限掩蔽寄存器(AMR)值(潜在地被掩蔽)
3 有效地址(EA)上下文保存/恢复区域指针(CSRP)
4 进程ID(PID)和可选线程ID(TID)
5 虚拟地址(VA)加速器利用记录指针(AURP)
6 存储段表指针(SSTP)的虚拟地址
7 逻辑中断服务号(LISN)
8 从管理程序调用参数导出的中断向量表
9 状态寄存器(SR)值
10 逻辑分区ID(LPID)
11 真实地址(RA)管理程序加速器利用记录指针
12 存储装置描述符寄存器(SDR)
管理程序可初始化多个加速器集成切片490寄存器445。
如图4F中所示出,在一个可选实现中,采用经由公共虚拟存储器地址空间可寻址的统一存储器,所述公共虚拟存储器地址空间用于访问物理处理器存储器401-402和GPU存储器420-423。在这种实现中,在GPU 410-413上执行的操作利用相同的虚拟/有效存储器地址空间来访问处理器存储器401-402且反之亦然,由此简化可编程性。虚拟/有效地址空间的第一部分可被分配给处理器存储器401,第二部分被分配给第二处理器存储器402,第三部分被分配GPU存储器420,等等。由此跨处理器存储器401-402和GPU存储器420-423中的每个可分布整个虚拟/有效存储器空间(有时称为有效地址空间),从而允许任何处理器或GPU访问任何物理存储器(采用被映射到该存储器的虚拟地址)。
可提供MMU 439A-439E中的一个或多个内的偏置/一致性管理电路系统494A-494E,所述偏置/一致性管理电路系统确保主机处理器(例如,405)与GPU 410-413的高速缓存之间的高速缓存一致性,并且实现指示其中应存储有某些类型的数据的物理存储器的偏置技术。虽然图4F中示出了偏置/一致性管理电路系统494A-494E的多个实例,但是可在一个或多个主机处理器405的MMU内和/或在加速器集成电路436内实现偏置/一致性电路系统。
可使用共享虚拟存储器(SVM)技术来访问GPU附连的存储器420-423并可将其映射为系统存储器的一部分,而无需经受与完全系统高速缓存一致性相关联的典型性能缺陷。GPU附连的存储器420-423作为系统存储器被访问而无繁重的高速缓存一致性开销的能力为GPU卸载提供了有益的操作环境。这种布置允许主机处理器405软件设立操作数和访问计算结果,而没有传统I/O DMA数据拷贝的开销。此类传统拷贝涉及驱动器调用、中断和存储器映射I/O(MMIO)访问,其相对于简单的存储器访问全部都是低效的。同时,访问GPU附连的存储器420-423而无高速缓存一致性开销的能力对于被卸载的计算的执行时间可以是关键的。在具有实质流播写存储器业务的情况下,例如,高速缓存一致性开销可显著减少由GPU410-413所见的有效写带宽。操作数设立的效率、结果访问的效率和GPU计算的效率在确定GPU卸载的有效性中全部都起到一定作用。
可由偏置跟踪器数据结构来驱动GPU偏置与主机处理器偏置之间的选择。例如,可使用偏置表,其可以是每GPU附连的存储器页包括1或2个位的页粒度结构(即,以存储器页的粒度来控制)。可在一个或多个GPU附连的存储器420-423的被偷的(stolen)存储器范围中实现偏置表,其中在GPU 410-413中具有或不具有偏置高速缓存(例如,用于高速缓存偏置表的频繁/最近使用的条目)。备选地,可将整个偏置表维持在GPU内。
在一个实现中,在实际访问GPU存储器之前访问与每一次访问GPU附连的存储器420-423相关联的偏置表条目,从而促使以下操作。首先,来自GPU 410-413的在GPU偏置中寻找其页的本地请求被直接转发到对应的GPU存储器420-423。来自GPU的在主机偏置中寻找其页的本地请求被转发到处理器405(例如,通过如上文所讨论的高速链路)。可选地,来自处理器405的在主机处理器偏置中寻找所请求的页的请求完成像正常存储器读取的请求。备选地,可将针对GPU偏置的页的请求转发到GPU 410-413。然后,如果GPU当前未在使用该页,则GPU可将该页转变到主机处理器偏置。
可由基于软件的机制、硬件辅助的基于软件的机制抑或针对有限的一组情况由纯粹基于硬件的机制来改变页的偏置状态。
用于改变偏置状态的一个机制采用API调用(例如,OpenCL),其进而调用GPU的装置驱动器,所述装置驱动器进而发送消息(或入队命令描述符)到GPU,从而指导它改变偏置状态并且针对一些转变在主机中执行高速缓存转储清除(flushing)操作。高速缓存转储清除操作对于从主机处理器405偏置转变到GPU偏置来说是需要的,但对于反向转变来说是不需要的。
通过暂时渲染由主机处理器405不可高速缓存的GPU偏置页可维持高速缓存一致性。为了访问这些页,处理器405可请求来自GPU 410的访问,其可或可不立即授予访问(取决于实现)。因此,为减少主机处理器405与GPU 410之间的通信,对于确保GPU偏置页是由GPU所要求但非被主机处理器405所要求(且反之亦然)的那些页是有利的。
图形处理流水线
图5示出图形处理流水线500。图形多处理器(诸如,如图2D中的图形多处理器234、图3A的图形多处理器325、图3B的图形多处理器350)可实现所示出的图形处理流水线500。所述图形多处理器可被包括在如本文中描述的并行处理子系统(诸如图2A的并行处理器200)内,其可与图1的(一个或多个)并行处理器112有关并且可代替这些中的一个使用。各种并行处理系统可经由如本文中描述的并行处理单元(例如,图2A的并行处理单元202)的一个或多个实例来实现图形处理流水线500。例如,着色器单元(例如,图2C的图形多处理器234)可配置成执行顶点处理单元504、曲面细分控制处理单元508、曲面细分评估处理单元512、几何处理单元516和片段/像素处理单元524中的一个或多个的功能。数据组装器502、图元组装器506、514、518、曲面细分单元510、栅格化器522和栅格操作单元526的功能也可由处理集群(例如,图2A的处理集群214)内的其他处理引擎和对应的分区单元(例如,图2A的分区单元220A-220N)来执行。还可使用针对一个或多个功能的专用处理单元来实现图形处理流水线500。还可能的是,由通用处理器(例如,CPU)内的并行处理逻辑来执行图形处理流水线500的一个或多个部分。可选地,图形处理流水线500的一个或多个部分可经由存储器接口528来访问芯片上存储器(例如,如图2A中的并行处理器存储器222),所述存储器接口528可以是图2A的存储器接口218的实例。图形处理器流水线500也可经由如图3C中的多核群组365A来实现。
数据组装器502是可收集对于表面和图元的顶点数据的处理单元。数据组装器502随后将包括顶点属性的顶点数据输出至顶点处理单元504。顶点处理单元504是可编程执行单元,其执行顶点着色器程序,如由顶点着色器程序所指定那样照亮并变换顶点数据。顶点处理单元504读取存储在高速缓存、本地或系统存储器中的数据以供在处理顶点数据时使用,并且顶点处理单元504可被编程为将顶点数据从基于对象的坐标表示变换到世界空间坐标空间或归一化装置坐标空间。
图元组装器506的第一实例从顶点处理单元504接收顶点属性。图元组装器506按需读取存储的顶点属性,并且构建图形图元以用于由曲面细分控制处理单元508处理。图形图元包括如由各种图形处理应用编程接口(API)所支持的三角、线段、点、补片(patch)等等。
曲面细分控制处理单元508将输入顶点视为用于几何补片的控制点。控制点是从来自补片的输入表示(例如,补片的基础)变换到适合于供曲面细分评估处理单元512在表面评估中使用的表示。曲面细分控制处理单元508也可计算对于几何补片的边缘的曲面细分因数。曲面细分因数应用于单个边缘,并且对与该边缘相关联的依赖视图的细节等级进行量化。曲面细分单元510配置成接收对于补片的边缘的曲面细分因数,并且将补片曲面细分成诸如线、三角或四边形图元的多个几何图元,其被传送到曲面细分评估处理单元512。曲面细分评估处理单元512对细划分的补片的参数化坐标进行操作,以生成对于与几何图元相关联的每个顶点的表面表示和顶点属性。
图元组装器514的第二实例从曲面细分评估处理单元512接收顶点属性(所述曲面细分评估处理单元按需读取存储的顶点属性),并且构建图形图元以便由几何处理单元516处理。几何处理单元516是可编程执行单元,其执行几何着色器程序以按由几何着色器程序所指定那样变换从图元组装器514所接收的图形图元。几何处理单元516可被编程为将图形图元细划分成一个或多个新图形图元,并且运算用于对新图形图元进行栅格化的参数。
几何处理单元516可以能够在几何流中增加或删除元素。几何处理单元516将指定新图形图元的参数和顶点输出到图元组装器518。图元组装器518从几何处理单元516接收参数和顶点,并且构建图形图元以便由视口缩放、拣选和剪辑单元(clip unit)520来处理。几何处理单元516读取存储在并行处理器存储器或系统存储器中的数据以供处理几何数据时使用。视口缩放、拣选和剪辑单元520执行剪辑、拣选和视口缩放,并将经处理的图形图元输出到栅格化器522。
栅格化器522可执行深度拣选和其他基于深度的优化。栅格化器522还对新图形图元执行扫描转换以生成片段,并且将那些片段和相关联的覆盖数据输出到片段/像素处理单元524。片段/像素处理单元524是配置成执行片段着色器程序或像素着色器程序的可编程执行单元。片段/像素处理单元524按由片段或像素着色器程序所指定那样变换从栅格化器522接收的片段或像素。例如,可将片段/像素处理单元524编程为执行以下操作以产生输出到栅格操作单元526的着色的片段或像素,所述操作包括但不限于纹理映射、着色、混合、纹理校正和透视校正。片段/像素处理单元524可读取存储在并行处理器存储器或系统存储器中的数据以供处理片段数据时使用。可将片段或像素着色器程序配置成以样本、像素、贴片或其他粒度来着色,这取决于针对处理单元配置的采样率。
栅格操作单元526是处理单元,其执行包括但不限于模板印刷、z测试、混合之类的栅格操作,并将像素数据作为经处理的图形数据输出以便存储在图形存储器(例如,如图2A中的并行处理器存储器222和/或如图1中的系统存储器104)中,从而显示在所述一个或多个显示装置110A-110B上,或者供(一个或多个)并行处理器112或一个或多个处理器102中的一个做进一步处理。可将栅格操作单元526配置成压缩被写入到存储器的z或颜色数据,并且解压缩从存储器读取的z或颜色数据。
机器学习概述
上述架构可应用于使用机器学习模型来执行训练和推理操作。机器学习在解决多种任务方面已经成功了。当训练和使用机器学习算法(例如,神经网络)时出现的计算自然适合于高效的并行实现。因此,诸如通用图形处理单元(GPGPU)之类的并行处理器已经在深度神经网络的实际实现中起到重要作用。具有单指令多线程(SIMT)架构的并行图形处理器被设计成使图形流水线中的并行处理量最大化。在SIMT架构中,并行线程的群组试图尽可能经常地一起同步执行程序指令,以提高处理效率。由并行机器学习算法实现提供的效率允许使用高容量网络,并使那些网络能够在更大的数据集上得到训练。
机器学习算法是可基于数据集学习的算法。例如,机器学习算法可设计成对数据集内的高级抽象建模。例如,图像识别算法可用于确定给定输入属于若干类别中的哪一个;给定输入的话,回归(regression)算法可输出数值;并且模式识别算法可用于生成经转化的文本或执行文本到语音和/或语音识别。
示例性类型的机器学习算法是神经网络。有许多类型的神经网络;简单类型的神经网络是前馈网络。前馈网络可实现为其中节点用层布置的非循环图(acyclic graph)。通常,前馈网络拓扑包括被至少一个隐藏层分开的输入层和输出层。隐藏层将输入层接收的输入变换为对在输出层中生成输出有用的表示。网络节点经由到相邻层中的节点的边缘而完全连接,但在每个层内的节点之间没有边缘。在前馈网络的输入层的节点处接收的数据经由激活函数被传播(即,“前馈(fed forward)”)到输出层的节点,该激活函数基于分别与连接层的边缘中的每个相关联的系数(“权重”)计算网络中每个连续层的节点的状态。根据由被执行的算法所表示的特定模型,来自神经网络算法的输出可采取各种形式。
在机器学习算法可用于对特定问题建模之前,使用训练数据集来训练算法。训练神经网络涉及选择网络拓扑、使用表示正被网络建模的问题的训练数据的集以及调整权重直到网络模型以最小误差对训练数据集的所有实例执行。例如,在对于神经网络的受监督学习训练过程期间,网络响应于表示训练数据集中的实例而产生的输出与对该实例的“正确的”经标记输出比较,计算表示输出与经标记输出之间的差异的误差信号,并且调整与连接相关联的权重以在误差信号通过网络层向后传播时使该误差最小化。在对于从训练数据集的实例生成的输出中的每个的误差被最小化时,网络被认为是“经训练的(trained)”。
机器学习算法的精确度可明显受到用于训练算法的数据集的质量的影响。训练过程可以是计算密集的并且在常规的通用处理器上可能需要大量时间。因此,并行处理硬件用于训练许多类型的机器学习算法。这对于优化神经网络的训练特别有用,这是因为在调整神经网络中的系数中执行的计算使得它们很自然地有助于并行实现。具体地,许多机器学习算法和软件应用已适合于利用通用图形处理装置内的并行处理硬件。
图6是机器学习软件堆栈600的通用图。机器学习应用602是可配置成进行以下操作的任何逻辑:使用训练数据集来训练神经网络或使用经训练的深度神经网络来实现机器智能。机器学习应用602可包括用于神经网络的训练和推理功能性和/或可用于在部署之前训练神经网络的专用软件。机器学习应用602可实现任何类型的机器智能,其包括但不限于图像识别、测绘(mapping)和定位(localization)、自主导航、语音合成、医学成像或语言翻译。示例机器学习应用602包括但不限于基于语音的虚拟助理、图像或面部识别算法、自主导航以及用于由训练机器学习应用602使用的机器学习模型的软件工具。
用于机器学习应用602的硬件加速可经由机器学习框架604而启用。机器学习框架604可提供机器学习原语(machine learning primitive)库。机器学习原语是机器学习算法普遍执行的基本操作。在没有机器学习框架604的情况下,将需要机器学习算法的开发人员创建和优化与机器学习算法相关联的主计算逻辑,然后在开发新的并行处理器时重新优化计算逻辑。取而代之,机器学习应用可配置成使用机器学习框架604提供的原语来执行必要的计算。示例性原语包括张量卷积、激活函数和池化(pooling),它们是在训练卷积神经网络(CNN)时执行的计算操作。机器学习框架604还可提供原语来实现由许多机器学习算法执行的基本线性代数子程序,例如矩阵和向量运算。机器学习框架604的示例包括但不限于TensorFlow、TensorRT、PyTorch、MXNet、Caffee和其他高级机器学习框架。
机器学习框架604可处理从机器学习应用602接收的输入数据并且生成到计算框架606的合适的输入。计算框架606可抽取提供给GPGPU驱动器608的底层指令以使机器学习框架604能够经由GPGPU硬件610利用硬件加速而不需要机器学习框架604深入了解GPGPU硬件610的架构。另外,计算框架606可对机器学习框架604实现跨各种类型的和各代GPGPU硬件610的硬件加速。示例性计算框架606包括CUDA计算框架和相关联的机器学习库,诸如CUDA深度神经网络(CuDNN)库。机器学习软件栈600还可包括通信库或框架以促进多GPU和多节点计算。
GPGPU机器学习加速
图7示出通用图形处理单元700,其可以是图2A的并行处理器200或图1的(一个或多个)并行处理器112。通用处理单元(GPGPU)700可以配置成提供对由机器学习框架提供的基元的硬件加速的支持,以加速处理与训练深度神经网络相关联的计算工作负载的类型。另外,GPGPU 700可以直接链接到GPGPU的其他实例以创建多GPU集群,以提高特别是深度神经网络的训练速度。还支持基元以加速所部署的神经网络的推理操作。
GPGPU 700包括主机接口702,用于实现与主机处理器的连接。主机接口702可以是PCI Express接口。然而,主机接口还可以是供应商特定通信接口或通信组构。GPGPU 700从主机处理器接收命令并且使用全局调度器704将与那些命令相关联的执行线程分布到一组处理集群706A-706H。处理集群706A-706H共享高速缓冲存储器708。高速缓冲存储器708可对于处理集群706A-706H内的高速缓冲存储器充当较高级高速缓存。所示的处理集群706A-706H可对应于如图2A中的处理集群214A-214N。
GPGPU 700包括经由存储器控制器712A-712B的集合而与处理集群706A-706H耦合的存储器714A-714B。存储器714A-714B可包括各种类型的存储器装置,其包括动态随机存取存储器(DRAM)或图形随机存取存储器,诸如同步图形随机存取存储器(SGRAM),其包括图形双数据速率(GDDR)存储器。存储器714A-714B还可包括3D堆叠存储器,其包括但不限于高带宽存储器(HBM)。
处理集群706A-706H中的每个可包括一组图形多处理器,诸如图2D的图形多处理器234、图3A的图形多处理器325、图3B的图形多处理器350、或者可包括如图3C中的多核群组365A-365N。计算集群的图形多处理器包括多种类型的整数和浮点逻辑单元,其可在包括适合于机器学习计算的一定精度范围执行计算操作。例如,至少处理集群706A-706H中的每个中的浮点单元的子集可配置成执行16位或32位浮点运算,而浮点单元的不同子集可配置成执行64位浮点运算。
GPGPU 700的多个实例可配置成作为计算集群操作。该计算集群用于同步和数据交换的通信机制因实施例而变化。例如,GPGPU 700的多个实例通过主机接口702通信。在一个实施例中,GPGPU 700包括I/O集线器709,其将GPGPU 700与GPU链路710耦合,该GPU链路710能够实现到GPGPU的其他实例的直接连接。GPU链路710可耦合到专用GPU到GPU网桥,其能够实现GPGPU 700的多个实例之间的通信和同步。可选地,GPU链路710与高速互连耦合以向其他GPGPU或并行处理器传送数据和接收数据。GPGPU 700的多个实例可位于独立数据处理系统中并且经由网络装置通信,该网络装置经由主机接口702而可访问。除主机接口702外或作为主机接口702的备选,GPU链路710可配置成能够实现与主机处理器的连接。
尽管示出的GPGPU 700的配置可配置成训练神经网络,但GPGPU 700的备选配置可被配置用于部署在高性能或低功率推理平台内。在推理配置中,相对于训练配置,GPGPU700包括更少的处理集群706A-706H。另外,与存储器714A-714B相关联的存储器技术在推理和训练配置之间可不同。在一个实施例中,GPGPU 700的推理配置可支持推理特定的指令。例如,推理配置可为通常在对于部署的神经网络的推理操作期间使用的一个或多个8位整数点积指令提供支持。
图8示出多GPU计算系统800。该多GPU计算系统800可包括处理器802,其经由主机接口开关804耦合到多个GPGPU 806A-806D。主机接口开关804可以是PCI Express开关装置,其将处理器802耦合到PCI Express总线,处理器802通过该PCI Express总线可与一组GPGPU 806A-806D通信。多个GPGPU 806A-806D中的每个可以是图7的GPGPU 700的实例。GPGPU 806A-806D可经由一组高速点到点GPU到GPU链路816互连。高速GPU到GPU链路可经由专用GPU链路(诸如图7中的GPU链路710)而连接到GPGPU 806A-806D中的每个。P2P GPU链路816在GPGPU 806A-806D中的每个之间实现直接通信而不需要在处理器802被连接到其的主机接口总线上通信。利用被引导到P2P GPU链路的GPU到GPU业务,主机接口总线仍然可用于系统存储器访问或者例如经由一个或多个网络装置与多GPU计算系统800的其他实例通信。虽然在图8中,GPGPU 806A-806D经由主机接口开关804连接到处理器802,但处理器802可备选地包括对P2P GPU链路816的直接支持并且可直接连接到GPGPU 806A-806D。在一个实施例中,P2P GPU链路816使得多GPU计算系统800能够作为单个逻辑GPU来操作。
机器学习神经网络实现
本文中描述的计算架构可配置成执行特别适合于训练和部署神经网络以用于机器学习的那类并行处理。神经网络可归纳为具有图关系(graph relationship)的功能的网络。如在本领域内众所周知的,有多种类型的神经网络实现在机器学习中使用。一个示例性类型的神经网络是前馈网络,如之前描述的那样。
第二个示例性类型的神经网络是卷积神经网络(CNN)。CNN是用于处理具有已知的网格状拓扑的数据(诸如图像数据)的专门前馈神经网络。因此,CNN通常用于计算视觉和图像识别应用,但它们也可用于其他类型的模式识别,例如语音和语言处理。CNN输入层中的节点被组织成一组“过滤器”(受在视网膜中发现的接受域启发的特征检测器),并且每组过滤器的输出被传播到网络的连续层中的节点。对于CNN的计算包括对每个过滤器应用卷积数学运算来产生该过滤器的输出。卷积是由两个函数执行以产生第三函数的一种专门的数学运算,该第三函数是该两个原始函数中的一个的修改后的版本。在卷积网络术语中,到卷积的第一函数可称为输入,而第二函数可称为卷积内核。输出可称为特征图。例如,到卷积层的输入可以是定义输入图像的各种颜色分量的多维阵列的数据。卷积内核可以是多维阵列的参数,其中这些参数由训练过程为神经网络而适配。
递归神经网络(RNN)是前馈神经网络系列,其包括层之间的反馈连接。RNN通过跨神经网络的不同部分共享参数数据而启用对顺序(sequential)数据建模。RNN的架构包括循环。循环代表变量的当前值在未来时间对它自身的值的影响,这是因为来自RNN的输出数据的至少一部分被用作反馈以用于处理序列中的后续输入。该特征由于可在其中组成语言数据的变量性质而使得RNN对于语言处理特别有用。
下文描述的图呈现示例性前馈、CNN和RNN网络,以及描述用于分别训练和部署那些类型的网络中的每个的通用过程。将理解这些描述关于本文中描述的任何特定实施例是示例性且非限制性的并且所示出的概念一般可应用于深度神经网络和一般的机器学习技术。
上文描述的示例性神经网络可用于执行深度学习。深度学习是使用深度神经网络的机器学习。在深度学习中使用的深度神经网络是由多个隐藏层组成的人工神经网络,这与只包括单个隐藏层的浅层神经网络相对。更深层神经网络通常在计算上更密集来训练。然而,网络的额外隐藏层实现多步模式识别,其相对于浅机器学习技术导致输出误差减少。
在深度学习中使用的深度神经网络通常包括耦合到后端网络的前端网络,用于执行特征识别,该后端网络表示可基于提供给模型的特征表示来执行操作(例如,对象分类、语音识别等)的数学模型。深度学习使机器学习能够被执行而不需要对模型执行手工特征工程化。取而代之,深度神经网络可基于输入数据内的统计结构或相关性来学习特征。习得的特征可提供给数学模型,其可将所检测的特征映射到输出。网络使用的数学模型一般专门针对待执行的特定任务,并且不同的模型将用于执行不同任务。
一旦神经网络被构造,则学习模型可应用于网络来训练网络以执行特定任务。学习模型描述了如何调整模型内的权重来减少网络的输出误差。误差后向传播是用于训练神经网络的常见方法。向网络呈现输入向量以用于处理。使用损耗函数将网络的输出与期望输出比较并且对输出层中的神经元中的每个计算误差值。然后,误差值被向后传播直到每个神经元具有相关联的误差值,其大致表示它对原始输出的贡献。然后,网络可使用算法(诸如随机梯度下降算法)从那些误差中学习,以更新神经网络的权重。
图9A-9B示出示例性卷积神经网络。图9A示出CNN内的各种层。如在图9A中示出的,用于对图像处理建模的示例性CNN可接收输入908,其描述输入图像的红、绿和蓝(RGB)分量。输入902可被多个卷积层(例如,卷积层904、卷积层906)处理。来自多个卷积层的输出可以可选地被一组完全连接层908处理。完全连接层中的神经元具有到之前的层中的所有激活的完全连接,如之前针对前馈网络描述的那样。来自完全连接层908的输出可用于从网络生成输出结果。完全连接层908内的激活可使用矩阵乘法而不是卷积来计算。不是所有的CNN实现都利用完全连接层908。例如,在一些实现中,卷积层906能够为CNN生成输出。
卷积层稀疏连接,这与在完全连接层908中发现的传统神经网络配置不同。传统神经网络层完全连接,使得每个输出单元与每个输入单元交互。然而,如示出的,因为场的卷积的输出是到后续层的节点的输入(而不是场中的节点中的每个节点的相应状态值),所以卷积层稀疏连接。与卷积层相关联的内核执行卷积运算,其输出被发送给下一个层。在卷积层内执行的降维是使CNN能够放缩以处理大的图像的一个方面。
图9B示出CNN的卷积层内的示例性计算级。到CNN的卷积层912的输入可在卷积层914的三个级中被处理。这三个级可包括卷积级916、检测器级918和池化级920。然后,卷积层914可向连续卷积层输出数据。网络的最后的卷积层可生成输出特征图数据或向完全连接层提供输入,例如以对到CNN的输入生成分类值。
在卷积级916中并行执行若干卷积以产生一组线性激活。卷积级916可包括仿射变换,其是可规定作为线性变换加平移的任何变换。仿射变换包括这些变换的旋转、平移、缩放和组合。卷积级计算连接到输入中的特定区域的功能(例如,神经元)的输出,该特定区域可被确定作为与神经元相关联的局部区域。神经元计算神经元的权重与神经元连接到其的局部输入中的区域之间的点积。来自卷积级916的输出定义被卷积层914的连续级所处理的一组线性激活。
线性激活可被检测器级918处理。在检测器级918中,每个线性激活被非线性激活函数处理。该非线性激活函数使整体网络的非线性性质增加而不影响卷积层的相应场。可使用若干类型的非线性激活函数。一个特定类型是整流线性单元(ReLU),其使用定义为的激活函数,使得激活被阈值化在零。
池化级920使用池化函数,其用附近输出的汇总统计来代替卷积层906的输出。池化函数可用于将平移不变性引入神经网络,使得对输入的小的平移不改变池化输出。局部平移的不变性在输入数据中特征的存在比特征的精确位置更重要的情景中可以是有用的。在池化段920期间可使用各种类型的池化函数,其包括最大池化、平均池化和l2范数池化。另外,一些CNN实现不包括池化级。取而代之,这样的实现替代相对于之前的卷积级具有增加步幅的额外卷积级。
然后,来自卷积层914的输出可被下一个层922处理。下一个层922可以是额外卷积层或完全连接层908中的一个。例如,图9A的第一卷积层904可向第二卷积层906输出,而第二卷积层可向完全连接层908的第一层输出。
图10示出示例性递归神经网络1000。在递归神经网络(RNN)中,网络的之前的状态影响网络的当前状态的输出。RNN可使用各种函数用各种方式来构建。RNN的使用一般围绕着使用数学模型以基于输入的先验序列预测未来。例如,给定之前的词序列,RNN可用于执行统计语言建模来预测即将到来的词。所示出的RNN 1000可描述为具有接收输入向量的输入层1002、实现递归功能的隐藏层1004、启用之前状态的‘记忆’的反馈机制1005和输出结果的输出层1006。RNN 1000基于时间步骤操作。RNN在给定时间步骤的状态基于之前的时间步骤经由反馈机制1005而受影响。对于给定时间步骤,隐藏层1004的状态由之前的状态和当前时间步骤的输入来定义。在第一时间步骤的初始输入(x1)可被隐藏层1004处理。第二输入(x2)可被隐藏层1004使用在初始输入(x1)的处理期间所确定的状态信息处理。给定状态可计算为,其中U和W是参数矩阵。函数f一般是非线性的,例如双曲正切函数(Tanh)或整流函数的变型。然而,在隐藏层1004中使用的特定数学函数可根据RNN 1000的特定实现细节而变化。
除所描述的基本CNN和RNN网络外,还可以实现针对那些网络上的变体的加速。一个示例RNN变型是长短期记忆(LSTM)RNN。LSTM RNN能够学习长期依赖性,其对于处理较长语言序列是必要的。关于CNN的变型是卷积深度信任网络,其具有与CNN相似的结构并且采用与深度信任网络相似的方式来训练。深度信任网络(DBN)是生成式神经网络,其由多层的概率性(随机)变量组成。DBN可使用贪婪的无监督学习而逐层训练。然后,DBN的习得权重可用于通过对神经网络确定权重的最佳初始集而提供预先训练神经网络。在进一步的实施例中,能够加速强化学习。在强化学习中,人工代理通过与其环境交互来学习。代理配置成优化某些目标以最大化累积奖励。
图11示出深度神经网络的训练和部署。一旦已经为任务构造给定网络,就使用训练数据集1102来训练神经网络。已开发各种训练框架1104来启用训练过程的硬件加速。例如,图6的机器学习框架604可配置为训练框架1104。训练框架1104可钩入(hook into)未经训练的神经网络1106并且使该未经训练的神经网能够使用本文中描述的并行处理资源来训练以生成经训练的神经网络1108。
为了开始训练过程,可随机或通过使用深度信任网络的预先训练来选择初始权重。然后,采用受监督或无监督方式执行训练循环。
受监督学习是其中训练作为介导(mediated)操作而执行的学习方法,诸如当训练数据集1102包括与输入的期望输出配对的输入时,或在训练数据集包括具有已知输出的输入并且神经网络的输出被人工分级的情况下。网络处理输入并且将所得的输出与一组预期或期望输出相比较。然后,误差通过系统被向后传播。训练框架1104可调整成调整控制未经训练的神经网络1106的权重。训练框架1104可提供工具来监测未经训练的神经网络1106在多大程度上向适合于基于已知输入数据生成正确应答的模型收敛。随着调整网络的权重来改善神经网络生成的输出,训练过程反复出现。训练过程可持续直到神经网络达到与经训练的神经网1108相关联的统计上期望的精确度。然后,可部署经训练的神经网络1108来实现任何数量的机器学习操作,以基于新数据1112的输入生成推理结果1114。
无监督学习是其中网络试图使用未标记的数据来训练它自己的学习方法。从而,对于无监督学习,训练数据集1102将包括输入数据而没有任何相关联的输出数据。未经训练的神经网络1106可学习未标记的输入内的分组并且可确定个体输入如何与整体数据集相关。无监督训练可用于生成自组织图,其是能够执行在数据的降维方面有用的操作的一类经训练的神经网络1108。无监督训练还可用于执行异常检测,其允许标识输入数据集中偏离数据的正常模式的数据点。
还可采用关于受监督和无监督训练的变化。半监督学习是其中训练数据集1102包括相同分布的标记和无标记数据的混合的技术。递增式学习是其中输入数据被持续用于进一步训练模型的受监督学习的变型。递增式学习使经训练的神经网络1108能够适合于新的数据1112而没有忘记初始训练期间网络内灌输的知识。
无论是受监督还是无监督,对于特别是深度神经网络的训练过程对于单个计算节点在计算上可能太密集。代替使用单个计算节点,计算节点的分布式网络可用于加速训练过程。
图12A是示出分布式学习的框图。分布式学习是使用多个分布式计算节点来执行神经网络的受监督或无监督训练的训练模型。分布式计算节点可各自包括一个或多个主机处理器以及通用处理节点中的一个或多个,诸如,如图7中的高度并行通用图形处理单元700。如示出的,分布式学习可以用模型并行结构1202、数据并行结构1204或模型和数据并行结构1206的组合来执行。
在模型并行结构1202中,分布式系统中的不同计算节点可对单个网络的不同部分执行训练计算。例如,神经网络的每个层可由分布式系统的不同处理节点训练。模型并行结构的益处包括放缩到尤其大模型的能力。拆分与神经网络的不同层相关联的计算启用了其中所有层的权重将不适合单个计算节点的存储器的这一非常大的神经网络的训练。在一些实例中,模型并行在执行大的神经网络的无监督训练中可特别有用。
在数据并行结构1204中,分布式网络的不同节点具有模型的完整实例并且每个节点接收数据的不同部分。然后,来自不同节点的结果组合。虽然不同的方法对于数据并行结构是可能的,但数据并行训练方法全部需要将结果组合并且使每个节点之间的模型参数同步的技术。组合数据的示例性方法包括参数平均和基于更新的数据并行结构。参数平均训练了训练数据子集上的每个节点并且将全局参数(例如,权重、偏置)设置成来自每个节点的参数的平均值。参数平均使用中央参数服务器,其维持参数数据。基于更新的数据并行结构与参数平均相似,不同之处在于对模型的更新被传输,而不是将来自节点的参数传输到参数服务器。另外,基于更新的数据并行结构可采用分散方式执行,其中更新被压缩并且在节点之间传输。
组合模型和数据并行结构1206可例如在其中每个计算节点包括多个GPU的分布式系统中实现。每个节点可具有模型的完整实例,其中每个节点内的独立GPU用于训练模型的不同部分。
分布式训练相对于在单个机器上的训练具有增加的开销。然而,本文中描述的并行处理器和GPGPU可各自实现各种技术来减少分布式训练的开销,这些技术包括实现高带宽GPU到GPU数据传输和加速远程数据同步的技术。
图12B是示出可编程网络接口1210和数据处理单元的框图。可编程网络接口1210是可编程网络引擎,其可以用于在分布式环境内加速基于网络的计算任务。可编程网络接口1210可以经由主机接口1270与主机系统耦合。可编程网络接口1210可以用于加速主机系统的CPU或GPU的网络或存储操作。主机系统可以是例如用于执行分布式训练的分布式学习系统的节点,例如,如图12A中所示。主机系统还可以是数据中心内的数据中心节点。
在一个实施例中,对包含模型数据的远程存储设备的访问可由可编程网络接口1210加速。例如,可编程网络接口1210可以配置成向主机系统将远程存储装置呈现为本地存储装置。可编程网络接口1210还可以加速在主机系统的GPU与远程系统的GPU之间执行的远程直接存储器访问(RDMA)操作。在一个实施例中,可编程网络接口1210可以启用存储功能性,诸如但不限于NVME-oF。可编程网络接口1210还可以代表主机系统加速加密、数据完整性、压缩和用于远程存储设备的其他操作,允许远程存储设备接近直接附接到主机系统的存储装置的时延。
可编程网络接口1210还可以代表主机系统执行资源分配和管理。存储安全操作可以卸载到可编程网络接口1210,并且与远程存储资源的分配和管理相协作执行。用于管理对远程存储设备的访问的基于网络的操作(在其他情况下将由主机系统的处理器执行)可以替代地由可编程网络接口1210执行。
在一个实施例中,网络和/或数据安全操作可以从主机系统卸载到可编程网络接口1210。用于数据中心节点的数据中心安全策略可以由可编程网络接口1210而不是主机系统的处理器来处置。例如,可编程网络接口1210可以检测和减轻对主机系统的企图的基于网络的攻击(例如DDoS),防止该攻击损害主机系统的可用性。
可编程网络接口1210可以包括经由多个处理器核1222执行操作系统的片上系统(SoC 1220)。处理器核1222可以包括通用处理器(例如,CPU)核。在一个实施例中,处理器核1222还可包括一个或多个GPU核。SoC 1220可执行存储在存储器装置1240中的指令。存储装置1250可以存储本地操作系统数据。存储装置1250和存储器装置1240也可以用于高速缓存主机系统的远程数据。网络端口1260A-1260B实现到网络或组构的连接,并且促进对SoC1220的网络访问,以及促进经由主机接口1270的对主机系统的网络访问。可编程网络接口1210还可包括I/O接口1275,诸如USB接口。I/O接口1275可以用于将外部装置耦合到可编程网络接口1210或者作为调试接口。可编程网络接口1210还包括管理接口1230,其使得主机装置上的软件能够管理和配置可编程网络接口1210和/或SoC 1220。在一个实施例中,可编程网络接口1210还可以包括一个或多个加速器或GPU1245,以接受来自SoC 1220、主机系统或经由网络端口1260A-1260B耦合的远程系统的并行计算任务的卸载。
示例性机器学习应用
机器学习可应用于解决各种技术问题,其包括但不限于计算机视觉、自主驾驶和导航、语音识别和语言处理。在传统上,计算机视觉已经是机器学习应用的最活跃研究领域之一。计算机视觉的应用范围从再现人类视觉能力(例如识别面部)到创建视觉能力的新类别而变化。例如,计算机视觉应用可配置成从视频中可见的对象中引发的振动中识别声波。并行处理器加速机器学习使计算机视觉应用能够使用比之前可行的明显更大的训练数据集来训练并且使推理系统能够使用低功率并行处理器来部署。
并行处理器加速机器学习具有自主驾驶应用,其包括车道和道路标志识别、障碍避免、导航和驾驶控制。加速机器学习技术可用于基于定义对特定训练输入的合适的响应的数据集来训练驾驶模型。本文中描述的并行处理器可对用于自主驾驶技术方案的日益复杂的神经网络实现快速训练并且在适合于集成到自主车辆内的移动平台中启用低功率推理处理器的部署。
并行处理器加速深度神经网络对自动语音识别(ASR)启用机器学习方法。ASR包括创建这样的函数,即:给定输入声序列,计算最可能的语言序列。使用深度神经网络的加速机器学习已经实现了对之前用于ASR的隐藏马尔可夫模型(HMM)和高斯混合模型(GMM)的替换。
并行处理器加速机器学习还可用于加速自然语言处理。自动学习规程可利用统计推理算法来产生对错误或不熟悉输入具有鲁棒性的模型。示例性自然语言处理器应用包括人类语言之间的自动机器翻译。
用于机器学习的并行处理平台可分成训练平台和部署平台。训练平台一般是高度并行的并且包括优化,以加速多GPU单节点训练和多节点多GPU训练。适合于训练的示例性并行处理器包括图7的通用图形处理单元700和图8的多GPU计算系统800。相反,所部署的机器学习平台一般包括适合于用在诸如相机、自主机器人和自主车辆之类的产品的较低功率并行处理器。
另外,可以应用机器学习技术来加速或增强图形处理活动。例如,机器学习模型可被训练成识别由GPU加速应用生成的输出并生成该输出的高层次版本。可以应用这样的技术来加速游戏应用的高分辨率图像的生成。各种其他图形流水线活动可受益于机器学习的使用。例如,机器学习模型可以被训练成对几何数据执行曲面细分操作以增加几何模型的复杂度,允许从相对较低细节的几何形状自动生成精细细节的几何形状。
图13示出适合于使用经训练的模型来执行推理的示例性推理片上系统(SOC)1300。SOC 1300可集成处理组件,其包括媒体处理器1302、视觉处理器1304、GPGPU 1306和多核处理器1308。GPGPU 1306可以是如本文中描述的GPGPU(诸如,GPGPU 700)并且多核处理器1308可以是本文中描述的多核处理器(诸如,多核处理器405-406)。SOC 1300可另外包括片上存储器1305,其可实现处理组件中的每个可访问的共享片上数据池。处理组件可对低功率操作优化以实现到各种机器学习平台的部署,其包括自主车辆和自主机器人。例如,SOC 1300的一个实现可用作自主车辆的主控制系统的一部分。在SOC 1300配置成供自主车辆使用的情况下,SOC设计且配置成遵从部署管辖的相关功能安全标准。
在操作期间,媒体处理器1302和视觉处理器1304可一起(in concert)工作来加速计算机视觉操作。媒体处理器1302可实现多个高分辨率(例如,4K、8K)视频流的低时延解码。经解码的视频流可写入片上存储器1305中的缓冲器。然后,视觉处理器1304可对经解码的视频解析并且在准备使用经训练的图像识别模型准备处理帧时对经解码的视频的帧执行初步处理操作。例如,视觉处理器1304可针对用于在高分辨率视频数据上执行图像识别的CNN加速卷积运算,而后端模型计算由GPGPU 1306执行。
多核处理器1308可包括控制逻辑来帮助媒体处理器1302和视觉处理器1304所执行的数据传输和共享存储器操作的定序和同步。多核处理器1308还可充当应用处理器来执行可利用GPGPU 1306的推理计算能力的软件应用。例如,导航和驾驶逻辑的至少一部分可在多核处理器1308上执行的软件中实现。这样的软件可直接向GPGPU 1306发出计算工作负载或可将计算工作负载发出到多核处理器1308,该多核处理器1308可向GPGPU 1306卸载那些操作的至少一部分。
GPGPU 1306可包括计算集群,诸如通用图形处理单元700内的处理集群706A-706H的低功率配置。GPGPU 1306内的计算集群可支持被专门优化以在经训练的神经网络上执行推理计算的指令。例如,GPGPU 1306可支持执行诸如8位和4位整数向量运算之类的低精度计算的指令。
附加系统概述
图14是处理系统1400的框图。图14的与本文中任何其他图的元件具有相同或类似的名称的元件描述了与其他图中的元件相同的元件,可以以与其类似的方式操作或起作用,可包括相同的组件,并且可链接到其他实体,如本文中其他地方所述的那些那样,但不限于此。系统1400可用于单处理器台式计算机系统、多处理器工作站系统或具有大量处理器1402或处理器核1407的服务器系统中。系统1400可以是并入在供移动、手持式或嵌入式装置中(诸如在带有到局域或广域网的有线或无线连接性的物联网(IoT)装置内)使用的片上系统(SoC)集成电路内的处理平台。
系统1400可以是具有与图1的那些组件对应的组件的处理系统。例如,在不同的配置中,(一个或多个)处理器1402或(一个或多个)处理器核1407可与图1的(一个或多个)处理器102对应。(一个或多个)图形处理器1408可与图1的(一个或多个)并行处理器112对应。外部图形处理器1418可以是图1的(一个或多个)附加装置120之一。
系统1400可包括以下各项、与以下各项耦合或者被集成在以下各项内:基于服务器的游戏平台;游戏控制台,包括游戏和媒体控制台、移动游戏控制台、手持式游戏控制台或在线游戏控制台。系统1400可以是以下各项的一部分:移动电话、智能电话、平板计算装置或诸如带有低内部存储容量的膝上型计算机之类的移动因特网连接的装置。处理系统1400还可包括以下各项、与以下各项耦合或者被集成在以下各项内:可穿戴装置,诸如智能手表可穿戴装置;智能眼镜(smart eyewear)或服装,其用增强现实(AR)或虚拟现实(VR)特征来被增强以提供视觉、音频或触觉输出,以补充现实世界视觉、音频或触觉体验或者以其他方式提供文本、音频、图形、视频、全息图像或视频、或者触觉反馈;其他增强现实(AR)装置;或者其他虚拟现实(VR)装置。处理系统1400可包括电视或机顶盒装置,或者是电视或机顶盒装置的一部分。系统1400可包括以下各项、与以下各项耦合或者被集成在以下各项内:自动驾驶交通工具,诸如公共汽车、牵引车拖车、汽车、摩托车或电动自行车、飞机或滑翔机(或其任何组合)。自动驾驶交通工具可使用系统1400来处理在交通工具周围感测到的环境。
一个或多个处理器1402可包括一个或多个处理器核1407以处理指令,所述指令在被执行时,执行用于系统或用户软件的操作。一个或多个处理器核1407中的至少一个处理器核可被配置成处理特定指令集1409。指令集1409可促进复杂指令集计算(CISC)、精简指令集计算(RISC)或经由超长指令字(VLIW)的计算。一个或多个处理器核1407可处理不同指令集1409,所述指令集1409可包括用于促进对其他指令集的仿真的指令。处理器核1407还可包括其他处理装置,诸如数字信号处理器(DSP)。
处理器1402可包括高速缓冲存储器1404。取决于架构,处理器1402可具有单个内部高速缓存或多个级别的内部高速缓存。在一些实施例中,在处理器1402的各种组件之间共享高速缓冲存储器。在一些实施例中,处理器1402还使用外部高速缓存(例如,3级(L3)高速缓存或末级高速缓存(LLC))(未示出),其可在使用已知高速缓存一致性技术的处理器核1407之间被共享。寄存器堆1406可另外被包括在处理器1402中,并且可包括用于存储不同类型的数据的不同类型的寄存器(例如,整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器)。一些寄存器可以是通用寄存器,而其他寄存器可特定于处理器1402的设计。
一个或多个处理器1402可与一个或多个接口总线1410耦合,以在处理器1402与系统1400中的其他组件之间传送通信信号,诸如地址、数据或控制信号。在这些实施例中的一个中,接口总线1410可以是处理器总线,诸如某一版本的直接媒体接口(DMI)总线。然而,处理器总线不限于DMI总线,并且可包括一个或多个外设组件互连总线(PeripheralComponent Interconnect bus)(例如,PCI、PCI express)、存储器总线或其他类型的接口总线。例如,(一个或多个)处理器1402可包括集成的存储器控制器1416和平台控制器集线器1430。存储器控制器1416促进存储器装置与系统1400的其他组件之间的通信,而平台控制器集线器(PCH)1430经由本地I/O总线提供到I/O装置的连接。
存储器装置1420可以是动态随机存取存储器(DRAM)装置、静态随机存取存储器(SRAM)装置、闪速存储器装置、相变存储器装置或具有适合性能以充当进程存储器的某一其他存储器装置。存储器装置1420可例如作为用于系统1400的系统存储器进行操作,以存储数据1422和指令1421以供在一个或多个处理器1402执行应用或进程时使用。存储器控制器1416还与可选的外部图形处理器1418耦合,所述外部图形处理器1418可与处理器1402中的一个或多个图形处理器1408进行通信以执行图形和媒体操作。在一些实施例中,可由加速器1412协助图形、媒体和/或计算操作,所述加速器1412是可被配置成执行图形、媒体或计算操作的专门集合的协处理器。例如,加速器1412可以是用于优化机器学习或计算操作的矩阵乘法加速器。加速器1412可以是光线追踪加速器,其可被用于与图形处理器1408协同执行光线追踪操作。在一个实施例中,可替代加速器1412或与加速器1412协同使用外部加速器1419。
可提供显示装置1411,所述显示装置1411可连接到(一个或多个)处理器1402。显示装置1411可以是如在移动电子装置或膝上型装置中的内部显示装置或者经由显示接口(例如,DisplayPort等)附连的外部显示装置中的一个或多个。显示装置1411可以是头戴式显示器(HMD),诸如供在虚拟现实(VR)应用或增强现实(AR)应用中使用的立体显示装置。
平台控制器集线器1430可使得外设能经由高速I/O总线连接到存储器装置1420和处理器1402。I/O外设包括但不限于音频控制器1446、网络控制器1434、固件接口1428、无线收发器1426、触摸传感器1425、数据存储装置1424(例如,非易失性存储器、易失性存储器、硬盘驱动器、闪速存储器、NAND、3D NAND、3D XPoint/Optane等)。数据存储装置1424可经由存储接口(例如,SATA)或经由诸如外设组件互连总线(例如,PCI、PCI express)之类的外设总线进行连接。触摸传感器1425可包括触摸屏传感器、压力传感器或指纹传感器。无线收发器1426可以是Wi-Fi收发器、蓝牙收发器或诸如3G、4G、5G或长期演进(LTE)收发器之类的移动网络收发器。固件接口1428能够实现与系统固件通信,并且可以是例如统一可扩展固件接口(UEFI)。网络控制器1434可能够实现到有线网络的网络连接。在一些实施例中,高性能网络控制器(未示出)与接口总线1410耦合。音频控制器1446可以是多通道高清晰度音频控制器。在这些实施例中的一些中,系统1400包括用于将传统(legacy)(例如,个人系统2(PS/2))装置耦合到系统的可选的传统I/O控制器1440。平台控制器集线器1430还可连接到一个或多个通用串行总线(USB)控制器1442连接输入装置,诸如键盘和鼠标1443组合、相机1444或其他USB输入装置。
将领会的是,示出的系统1400是示例性的而非限制性的,因为以不同方式配置的其他类型的数据处理系统也可被使用。例如,存储器控制器1416和平台控制器集线器1430的实例可被集成到分立的外部图形处理器(诸如,外部图形处理器1418)中。平台控制器集线器1430和/或存储器控制器1416可在一个或多个处理器1402的外部。例如,系统1400可包括外部存储器控制器1416和平台控制器集线器1430,其可被配置为与(一个或多个)处理器1402通信的系统芯片集内的存储器控制器集线器和外设控制器集线器。
例如,可使用电路板(“滑板(sled)”),将诸如CPU、存储器和其他组件之类的组件放置在所述滑板上,其被设计用于增加的热性能。诸如处理器之类的处理组件可位于滑板的顶侧上,而诸如DIMM之类的近存储器位于滑板的底侧上。作为通过此设计提供的增强气流的结果,组件可比在典型系统中更高的频率和功率水平操作,由此增加性能。此外,滑板被配置成与机架中的功率和数据通信缆线盲配对,从而增强它们被快速移除、升级、重新安装和/或替换的能力。类似地,位于滑板上的各个组件(诸如处理器、加速器、存储器和数据存储驱动器)被配置成由于它们与彼此增加的间距而容易被升级。在说明性实施例中,组件另外包括硬件证明特征以证实其确实性(authenticity)。
数据中心可利用单个网络架构(“组构”),所述单个网络架构支持包括以太网和全路径(Omni-Path)的多个其他网络架构。滑板可经由光纤被耦合到交换机,所述光纤提供比典型双绞线缆线(例如,类别5、类别5e、类别6等)更高的带宽和更低的时延。由于高带宽、低时延互连和网络架构,数据中心可使用在物理上解聚的池资源(诸如存储器、加速器(例如,GPU、图形加速器、FPGA、ASIC、神经网络和/或人工智能加速器等)以及数据存储驱动器),并且在按照需要的基础上将它们提供到计算资源(例如,处理器),使得计算资源能访问池化资源(pooled resource),如同池化资源是本地的那样。
电力供应或电源可将电压和/或电流提供到本文中描述的系统1400或任何组件或系统。在一个示例中,电力供应包括用于插入到壁装电源插座的AC到DC(交流到直流)适配器。此类AC电力可以是可再生能源(例如,太阳能)电源。在一个示例中,电源包括DC电源,诸如外部AC到DC转换器。电源或电力供应还可包括无线充电硬件以经由接近充电场进行充电。电源可包括内部电池、交流供应、基于运动的电力供应、太阳能供应或燃料电池源。
图15A-15C示出了计算系统和图形处理器。图15A-15C的与本文中任何其他图的元件具有相同或类似的名称的元件描述了与其他图中的元件相同的元件,可以以与其类似的方式操作或起作用,可包括相同的组件,并且可链接到其他实体,如本文中其他地方所述的那些那样,但不限于此。
图15A是处理器1500的框图,其可以是处理器1402中的一个的变型并且可代替这些处理器之一使用。因此,本文中任何特征与处理器1500的组合的公开也公开了与(一个或多个)处理器1402的对应组合,但不限于此。处理器1500可具有一个或多个处理器核1502A-1502N、集成存储器控制器1514和集成图形处理器1508。在排除集成图形处理器1508的情况下,包括该处理器的系统将包括系统芯片集内或经由系统总线耦合的图形处理器装置。处理器1500可包括另外的核,所述另外的核多达并且包括由虚线框表示的另外的核1502N。处理器核1502A-1502N中的每个处理器核包括一个或多个内部高速缓存单元1504A-1504N。在一些实施例中,每个处理器核1502A-1502N还可访问一个或多个共享高速缓存单元1506。内部高速缓存单元1504A-1504N和共享高速缓存单元1506表示处理器1500内的高速缓冲存储器层级。高速缓冲存储器层级可包括每个处理器核内的至少一级的指令和数据高速缓存,以及一级或多级的共享中间级高速缓存,诸如2级(L2)、3级(L3)、4级(L4)或其他级的高速缓存,其中在外部存储器前的最高级的高速缓存被分类为LLC。在一些实施例中,高速缓存一致性逻辑维持各种高速缓存单元1506与1504A-1504N之间的一致性。
处理器1500还可包括系统代理核1510和一个或多个总线控制器单元1516的集合。一个或多个总线控制器单元1516管理外设总线的集合,诸如一个或多个PCI或PCI express总线。系统代理核1510提供用于各种处理器组件的管理功能性。系统代理核1510可包括一个或多个集成存储器控制器1514以管理对各种外部存储器装置(未示出)的访问。
例如,处理器核1502A-1502N中的一个或多个处理器核可包括对同时多线程的支持。系统代理核1510包括用于在多线程的处理期间协调和操作核1502A-1502N的组件。系统代理核1510可另外包括功率控制单元(PCU),所述功率控制单元(PCU)包括用于调节处理器核1502A-1502N和图形处理器1508的功率状态的逻辑和组件。
处理器1500可另外包括用于执行图形处理操作的图形处理器1508。在这些实施例中的一些中,图形处理器1508与包括一个或多个集成存储器控制器1514的系统代理核1510和共享高速缓存单元1506的集合耦合。系统代理核1510还可包括用于将图形处理器输出驱动到一个或多个耦合的显示器的显示控制器1511。显示控制器1511还可以是经由至少一个互连与图形处理器耦合的单独模块,或者可被集成在图形处理器1508内。
基于环的互连1512可被用于耦合处理器1500的内部组件。然而,可使用备选互连单元,诸如点对点互连、交换互连或其他技术,包括本领域中公知的技术。在具有基于环的互连1512的这些实施例中的一些中,图形处理器1508经由I/O链路1513与基于环的互连1512耦合。
示例性I/O链路1513表示多个种类的I/O互连中的至少一个,包括促进各种处理器组件与诸如eDRAM模块的高性能嵌入式存储器模块1518之间的通信的封装上I/O互连。可选地,处理器核1502A-1502N中的每个处理器核和图形处理器1508可使用嵌入式存储器模块1518作为共享末级高速缓存。
处理器核1502A-1502N可例如是执行相同指令集架构的同质核(homogenouscore)。备选地,处理器核1502A-1502N在指令集架构(ISA)方面是异质的(heterogeneous),其中处理器核1502A-1502N中的一个或多个处理器核执行第一指令集,而其他核中的至少一个核执行第一指令集的子集或不同指令集。处理器核1502A-1502N可在微架构方面是异质的,其中具有相对更高功耗的一个或多个核与具有更低功耗的一个或多个功率核耦合。作为另一示例,处理器核1502A-1502N在计算能力方面是异质的。另外,处理器1500可在一个或多个芯片上被实现,或者被实现为除其他组件外还具有示出的组件的SoC集成电路。
图15B是根据本文中描述的一些实施例的图形处理器核1519的硬件逻辑的框图。有时被称为核切片(core slice)的图形处理器核1519可以是模块化图形处理器内的一个或多个图形核。图形处理器核1519是一个图形核切片的示例,并且如本文中所描述的图形处理器可包括基于目标功率和性能包络(performance envelope)的多个图形核切片。每个图形处理器核1519可包括与也称为子切片的多个子核1521A-1521F耦合的固定功能块1530,所述多个子核1521A-1521F包括通用和固定功能逻辑的模块化块。在一种配置中,多个子核1521A-1521F的子核(子切片)架构等同于图2D的图形多处理器234、图3A的图形多处理器325和/或图3C的多核群组365A-365N的多核群组。
固定功能块1530可包括几何/固定功能流水线1531,所述几何/固定功能流水线1531可例如在更低性能/或更低功率图形处理器实现中由图形处理器核1519中的所有子核共享。几何/固定功能流水线1531可包括3D固定功能流水线(例如,如下述图16A中的3D流水线1612)、视频前端单元、线程派生器(thread spawner)和线程分派器(threaddispatcher)以及管理统一返回缓冲器(unified return buffer)(例如,如下所述的在图17中的统一返回缓冲器1718)的统一返回缓冲器管理器。
固定功能块1530还可包括图形SoC接口1532、图形微控制器1533和媒体流水线1534。图形SoC接口1532提供图形处理器核1519与片上系统集成电路内的其他处理器核之间的接口。图形微控制器1533是可编程子处理器,其可被配置成管理图形处理器核1519的各种功能,包括线程分派、调度和抢占(pre-emption)。媒体流水线1534(例如,图16A和图17的媒体流水线1616)包括用于促进包括图像和视频数据的多媒体数据的解码、编码、预处理和/或后处理的逻辑。媒体流水线1534经由对子核1521A-1521F内的计算或采样逻辑的请求来实现媒体操作。
SoC接口1532可使得图形处理器核1519可与通用应用处理器核(例如,CPU)和/或SoC内的其他组件通信,所述SoC内的其他组件包括诸如共享末级高速缓冲存储器、系统RAM和/或嵌入式片上或封装上DRAM的存储器层级元件。SoC接口1532还可能够实现与SoC内的固定功能装置(诸如,相机成像流水线)的通信,并且能够实现全局存储器原子的使用和/或实现全局存储器原子,所述全局存储器原子可在图形处理器核1519与SoC内的CPU之间被共享。SoC接口1532还能够实现用于图形处理器核1519的功率管理控制,并且能够实现图形处理器核1519的时钟域与SoC内的其他时钟域之间的接口。可选地,SoC接口1532能够实现接收来自命令流播器和全局线程分派器的命令缓冲器,所述命令缓冲器被配置成向图形处理器内的一个或多个图形核中的每个图形核提供命令和指令。命令和指令可在要执行媒体操作时被分派到媒体流水线1534,或者在要执行图形处理操作时被分派到几何和固定功能流水线(例如,几何和固定功能流水线1531、几何和固定功能流水线1537)。
图形微控制器1533可被配置成执行用于图形处理器核1519的各种调度和管理任务。在一个配置中,图形微控制器1533可例如在子核1521A-1521F内的执行单元(EU)阵列1522A-1522F、1524A-1524F内的各种图形并行引擎上执行图形和/或计算工作负载调度。在此工作负载调度中,在包括图形处理器核1519的SoC的CPU核上执行的主机软件可将工作负载提交给多个图形处理器门铃(graphic processor doorbell)中的一个,这调用在适当图形引擎上的调度操作。调度操作包括确定接下来要运行哪个工作负载,向命令流播器提交工作负载、对在引擎上运行的现有工作负载进行抢占、监测工作负载的进展、以及在工作负载完成时通知主机软件。可选地,图形微控制器1533还可促进用于图形处理器核1519的低功率或空闲状态,从而为图形处理器核1519提供独立于操作系统和/或系统上的图形驱动器软件跨低功率状态转变来对图形处理器核1519内的寄存器进行保存和恢复的能力。
图形处理器核1519可具有多于或少于示出的子核1521A-1521F,多达N个的模块化子核。对于N个子核的每个集合,图形处理器核1519还可包括共享功能逻辑1535、共享和/或高速缓冲存储器1536、几何/固定功能流水线1537以及用于加速各种图形和计算处理操作的另外的固定功能逻辑1538。共享功能逻辑1535可包括与图17的共享功能逻辑1720相关联的逻辑单元(例如,采样器、数学和/或线程间通信逻辑),所述逻辑单元可由图形处理器核1519内的每N个子核共享。共享和/或高速缓冲存储器1536可以是用于图形处理器核1519内的N个子核1521A-1521F的集合的末级高速缓存,并且还可充当可由多个子核访问的共享存储器。几何/固定功能流水线1537可代替固定功能块1530内的几何/固定功能流水线1531而被包括并且可包括相同或类似的逻辑单元。
图形处理器核1519可包括另外的固定功能逻辑1538,其可包括供图形处理器核1519使用的各种固定功能加速逻辑。可选地,另外的固定功能逻辑1538包括供在仅位置着色中使用的另外的几何流水线。在仅位置着色中,存在两个几何流水线:几何/固定功能流水线1538、1531内的完全几何流水线;以及拣选流水线(cull pipeline),其是可被包括在另外的固定功能逻辑1538内的另外的几何流水线。例如,拣选流水线可以是完全几何流水线的裁减版本(trimmed down version)。完全流水线和拣选流水线可执行相同应用的不同实例,每个实例具有单独的上下文。仅位置着色可隐藏被丢弃三角形的长拣选运行,使得在一些实例中能更早完成着色。例如,另外的固定功能逻辑1538内的拣选流水线逻辑可执行与主应用并行的位置着色器,并且一般比完全流水线更快生成关键结果,因为拣选流水线仅对顶点的位置属性进行提取并着色,而不向帧缓冲器执行像素的栅格化和渲染。拣选流水线可使用生成的关键结果来计算用于所有三角形的可见性信息,而不考虑那些三角形是否被拣选。完全流水线(其在此实例中可被称为重放流水线)可消耗可见性信息以跳过被拣选的三角形,以仅对最终被传递到栅格化阶段的可见三角形进行着色。
可选地,另外的固定功能逻辑1538还可包括诸如固定功能矩阵乘法逻辑之类的机器学习加速逻辑,以用于包括针对机器学习训练或推理的优化的实现。
在每个图形子核1521A-1521F内包括执行资源的集合,其可被用于响应于图形流水线、媒体流水线或着色器程序的请求而执行图形、媒体和计算操作。图形子核1521A-1521F包括多个EU阵列1522A-1522F、1524A-1524F、线程分派和线程间通信(TD/IC)逻辑1523A-1523F、3D(例如,纹理)采样器1525A-1525F、媒体采样器1526A-1526F、着色器处理器1527A-1527F及共享本地存储器(SLM)1528A-1528F。EU阵列1522A-1522F、1524A-1524F各自包括多个执行单元,所述多个执行单元是能够为图形、媒体或计算操作(包括图形、媒体或计算着色器程序)服务而执行浮点和整数/定点逻辑运算的通用图形处理单元。TD/IC逻辑1523A-1523F执行用于子核内的执行单元的本地线程分派和线程控制操作,并且促进在子核的执行单元上执行的线程之间的通信。3D采样器1525A-1525F可将纹理或其他3D图形有关数据读取到存储器中。3D采样器可基于配置的样本状态和与给定纹理相关联的纹理格式以不同方式读取纹理数据。媒体采样器1526A-1526F可基于与媒体数据相关联的类型和格式来执行类似的读取操作。例如,每个图形子核1521A-1521F可交替包括统一3D和媒体采样器。在子核1521A-1521F中的每个子核内的执行单元上执行的线程可利用每个子核内的共享本地存储器1528A-1528F,以使得在线程群组内执行的线程能使用片上存储器的公共池来执行。
图15C是根据本文中描述的实施例的可被配置为图形处理器(例如,图形处理器1508)和/或计算加速器的通用图形处理单元(GPGPU)1570的框图。GPGPU 1570可经由一个或多个系统和/或存储器总线与主机处理器(例如,一个或多个CPU 1546)和存储器1571、1572互连。存储器1571可以是可与一个或多个CPU 1546共享的系统存储器,而存储器1572是专用于GPGPU 1570的装置存储器。例如,存储器1572和GPGPU 1570内的组件可被映射到一个或多个CPU 1546可访问的存储器地址中。可经由存储器控制器1568来促进对存储器1571和1572的访问。存储器控制器1568可包括内部直接存储器存取(DMA)控制器1569,或者可包括逻辑以执行在其他情况下将由DMA控制器执行的操作。
GPGPU 1570包括多个高速缓冲存储器,包括L2高速缓存1553、L1高速缓存1554、指令高速缓存1555和共享存储器1556,该共享存储器1556的至少一部分也可被分区为高速缓冲存储器。GPGPU 1570还包括多个计算单元1560A-1560N。每个计算单元1560A-1560N包括向量寄存器1561、标量寄存器1562、向量逻辑单元1563和标量逻辑单元1564的集合。计算单元1560A-1560N还可包括本地共享存储器1565和程序计数器1566。计算单元1560A-1560N可与常量高速缓存1567耦合,该常量高速缓存1567可被用于存储常量数据,所述常量数据是在GPGPU 1570上执行的内核或着色器程序的运行期间将不改变的数据。常量高速缓存1567可以是标量数据高速缓存,并且经高速缓存的(cached)数据可被直接提取到标量寄存器1562中。
在操作期间,一个或多个CPU 1546可将命令写入已被映射到可访问地址空间中的GPGPU 1570中的寄存器或存储器中。命令处理器1557可从寄存器或存储器读取命令,并且确定将在GPGPU 1570内如何处理那些命令。然后线程分派器1558可被用于将线程分派到计算单元1560A-1560N,以执行那些命令。每个计算单元1560A-1560N可独立于其他计算单元执行线程。另外,每个计算单元1560A-1560N可被独立配置用于有条件的计算,并且可有条件地将计算的结果输出到存储器。在提交的命令完成时,命令处理器1557可中断一个或多个CPU 1546。
图16A-16C例如根据图15A-15C示出了由本文中描述的实施例提供的另外的图形处理器和计算加速器架构的框图。图16A-16C的与本文中任何其他图的元件具有相同或类似的名称的元件描述与其他图中的元件相同的元件,可以以与其类似的方式操作或起作用,可包括相同组件并且可链接到其他实体,如本文中其他地方所描述的那些那样,但不限于此。
图16A是图形处理器1600的框图,该图形处理器1600可以是分立的图形处理单元,或者可以是与多个处理核集成的图形处理器,或诸如但不限于存储器装置或网络接口的其他半导体装置。图形处理器1600可以是图形处理器1508的变型并且可代替图形处理器1508使用。因此,本文中任何特征与图形处理器1508的组合的公开也公开了与图形处理器1600的对应组合,但不限于此。图形处理器可经由到图形处理器上的寄存器的存储器映射I/O接口并且利用被放置到处理器存储器中的命令进行通信。图形处理器1600可包括用于访问存储器的存储器接口1614。存储器接口1614可以是到本地存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存和/或到系统存储器的接口。
可选地,图形处理器1600还包括用于将显示输出数据驱动到显示装置1618的显示控制器1602。显示控制器1602包括用于一个或多个覆盖平面的硬件,以用于显示和组合用户接口元素或视频的多个层。显示装置1618可以是内部或外部显示装置。在一个实施例中,显示装置1618是头戴式显示装置,诸如虚拟现实(VR)显示装置或增强现实(AR)显示装置。图形处理器1600可包括视频编解码器引擎1606以将媒体编码成一个或多个媒体编码格式、从一个或多个媒体编码格式将媒体解码、或者在一个或多个媒体编码格式之间对媒体进行转码,所述编码格式包括但不限于运动图像专家组(MPEG)格式(诸如,MPEG-2)、高级视频编码(AVC)格式(诸如,H.264/MPEG-4 AVC、H.265/HEVC)、开放媒体联盟(AOMedia)VP8、VP9以及电影与电视工程师协会(SMPTE)421M/VC-1和联合图像专家组(JPEG)格式(诸如,JPEG)以及运动JPEG(MJPEG)格式。
图形处理器1600可包括用于执行二维(2D)栅格化器操作(包括例如位边界块传送)的块图像传送(BLIT)引擎1603。然而,备选地,可使用图形处理引擎(GPE)1610的一个或多个组件来执行2D图形操作。在一些实施例中,GPE 1610是用于执行包括三维(3D)图形操作和媒体操作的图形操作的计算引擎。
GPE 1610可包括用于执行3D操作的3D流水线1612,所述3D操作诸如使用作用于3D图元形状(例如,矩形、三角形等)的处理功能来渲染三维图像和场景。3D流水线1612包括可编程和固定功能元件,所述可编程和固定功能元件在元件内执行各种任务和/或派生(spawn)到3D/媒体子系统1615的执行线程。虽然3D流水线1612可被用于执行媒体操作,但GPE 1610的实施例还包括特别用于执行媒体操作(诸如,视频后处理和图像增强)的媒体流水线1616。
媒体流水线1616可包括固定功能或可编程逻辑单元以代替或者代表视频编解码器引擎1606来执行一个或多个专用媒体操作,诸如视频解码加速、视频去交织和视频编码加速。媒体流水线1616另外可包括线程派生单元以派生用于在3D/媒体子系统1615上执行的线程。派生的线程在3D/媒体子系统1615中包括的一个或多个图形执行单元上执行用于媒体操作的计算。
3D/媒体子系统1615可包括用于执行由3D流水线1612和媒体流水线1616派生的线程的逻辑。流水线可将线程执行请求发送到3D/媒体子系统1615,所述3D/媒体子系统1615包括线程分派逻辑,所述线程分派逻辑可用于将各种请求仲裁(arbitrate)并分派到可用线程执行资源。执行资源包括用于处理3D和媒体线程的图形执行单元的阵列。3D/媒体子系统1615可包括用于线程指令和数据的一个或多个内部高速缓存。附加地,3D/媒体子系统1615还可包括共享存储器,所述共享存储器包括寄存器和可寻址存储器,以在线程之间共享数据并且存储输出数据。
图16B示出了图形处理器1620,其是图形处理器1600的变型并且可代替图形处理器1600使用,并且反之亦然。因此,本文中任何特征与图形处理器1600的组合的公开也公开了与图形处理器1620的对应组合,但不限于此。图形处理器1620根据本文中描述的实施例具有拼贴(tiled)架构。图形处理器1620可包括图形处理引擎集群1622,所述图形处理引擎集群1622在图形引擎贴片1610A-1610D内具有图16A的图形处理引擎1610的多个实例。每个图形引擎贴片1610A-1610D可经由贴片互连1623A-1623F的集合而被互连。每个图形引擎贴片1610A-1610D还可经由存储器互连1625A-1625D被连接到存储器模块或存储器装置1626A-1626D。存储器装置1626A-1626D可使用任何图形存储器技术。例如,存储器装置1626A-1626D可以是图形双倍数据率(GDDR)存储器。存储器装置1626A-1626D可以是高带宽存储器(HBM)模块,其可与其相应图形引擎贴片1610A-1610D一起在管芯上。存储器装置1626A-1626D可以是是堆叠存储器装置,其可被堆叠在其相应图形引擎贴片1610A-1610D之上。如图24B-24D中进一步详细描述的,每个图形引擎贴片1610A-1610D和相关联存储器1626A-1626D可驻留在单独的小芯片上,所述小芯片被接合到基础管芯或基础衬底。
图形处理器1620可配置有非统一存储器访问(NUMA)系统,其中存储器装置1626A-1626D与相关联的图形引擎贴片1610A-1610D耦合。给定的存储器装置可能会被图形引擎贴片而不是直接与其连接的贴片访问。然而,当访问本地贴片时,对存储器装置1626A-1626D的访问时延可以是最低的。在一个实施例中,启用了高速缓存一致性NUMA(ccNUMA)系统,该系统使用贴片互连1623A-1623F来启用图形引擎贴片1610A-1610D内的高速缓存控制器之间的通信,以在多于一个高速缓存存储相同存储器位置时保持一致的存储器图像。
图形处理引擎集群1622可与片上或封装上组构互连1624连接。在一个实施例中,组构互连1624包括网络处理器、片上网络(NoC)或另一交换处理器,以使得组构互连1624能够充当在图形处理器1620的组件之间交换数据分组的分组交换组构互连。组构互连1624可能够实现在图形引擎贴片1610A-1610D与诸如视频编解码器引擎1606和一个或多个复制引擎1604的组件之间的通信。复制引擎1604可被用于将数据移出以下各项、将数据移入以下各项以及在以下各项之间移动数据:存储器装置1626A-1626D和在图形处理器1620外的存储器(例如,系统存储器)。组构互连1624还可被用于互连图形引擎贴片1610A-1610D。图形处理器1620可以可选地包括用于能够实现与外部显示装置1618的连接的显示控制器1602。图形处理器还可被配置为图形或计算加速器。在加速器配置中,可省略显示控制器1602和显示装置1618。
图形处理器1620可经由主机接口1628连接到主机系统。主机接口1628可能够实现在图形处理器1620、系统存储器和/或其他系统组件之间的通信。主机接口1628可例如是PCI express总线或另一类型的主机系统接口。例如,主机接口1628可以是NVLink或NVSwitch接口。主机接口1628和组构互连1624可以协作以使得图形处理器1620的多个实例能够充当单个逻辑装置。主机接口1628和组构互连1624之间的协作还可以使各个图形引擎贴片1610A-1610D能够对主机系统呈现为不同的逻辑图形装置。
图16C示出了根据本文中描述的实施例的计算加速器1630。计算加速器1630可包括与图16B的图形处理器1620的架构类似性并且被优化用于计算加速。计算引擎集群1632可包括计算引擎贴片1640A-1640D的集合,其包括被优化用于并行或基于向量的通用计算操作的执行逻辑。计算引擎贴片1640A-1640D可不包括固定功能图形处理逻辑,虽然在一些实施例中,计算引擎贴片1640A-1640D中的一个或多个计算引擎贴片可包括用于执行媒体加速的逻辑。计算引擎贴片1640A-1640D可经由存储器互连1625A-1625D连接到存储器1626A-1626D。存储器1626A-1626D和存储器互连1625A-1625D可以是与在图形处理器1620中类似的技术,或者可以是不同的。图形计算引擎贴片1640A-1640D还可经由贴片互连1623A-1623F的集合被互连,并且可与组构互连1624连接和/或通过组构互连1624被互连。在一个实施例中,计算加速器1630包括可被配置为装置范围高速缓存的大的L3高速缓存1636。计算加速器1630还可以以与图16B的图形处理器1620类似的方式经由主机接口1628连接到主机处理器和存储器。
计算加速器1630还可以包括集成网络接口1642。在一个实施例中,集成网络接口1642包括网络处理器和控制器逻辑,其使得计算引擎集群1632能够通过物理层互连1644进行通信,而不要求数据穿过主机系统的存储器。在一个实施例中,计算引擎贴片1640A-1640D中的一个由网络处理器逻辑代替,并且要经由物理层互连1644传送或接收的数据可以直接向或从存储器1626A-1626D传送。计算加速器1630的多个实例可以经由物理层互连1644被加入到单个逻辑装置中。备选地,各种计算引擎贴片1640A-1640D可以被呈现为不同的网络可访问的计算加速器装置。
图形处理引擎
图17是根据一些实施例的图形处理器的图形处理引擎1710的框图。图形处理引擎(GPE)1710可以是图16A中示出的GPE 1610的某一版本,并且还可表示图16B的图形引擎贴片1610A-1610D。图17的与本文中任何其他图的元件具有相同或类似的名称的元件描述了与其他图中的元件相同的元件,可以以与其类似的方式操作或起作用,可包括相同的组件,并且可链接到其他实体,如本文中其他地方所述的那些那样,但不限于此。例如,在图17中还示出了图16A的3D流水线1612和媒体流水线1616。媒体流水线1616在GPE 1710的一些实施例中是可选的,并且可未被显式地包括在GPE 1710内。例如并且在至少一个实施例中,单独的媒体和/或图像处理器被耦合到GPE 1710。
GPE 1710可与命令流播器1703耦合或者包括该命令流播器1703,该命令流播器1703将命令流提供到3D流水线1612和/或媒体流水线1616。备选地或附加地,命令流播器1703可直接耦合到统一返回缓冲器1718。统一返回缓冲器1718可通信地耦合到图形核阵列1714。可选地,命令流播器1703与存储器耦合,所述存储器可以是系统存储器,或内部高速缓冲存储器和共享高速缓冲存储器中的一个或多个。命令流播器1703可接收来自存储器的命令,并且将命令发送到3D流水线1612和/或媒体流水线1616。命令是从存储用于3D流水线1612和媒体流水线1616的命令的环形缓冲器提取的指令(directive)。环形缓冲器可另外包括存储批量的多个命令的批量命令缓冲器。用于3D流水线1612的命令还可包括对在存储器中存储的数据(诸如但不限于用于3D流水线1612的顶点和几何数据和/或用于媒体流水线1616的图像数据和存储器对象)的引用。3D流水线1612和媒体流水线1616通过经由相应流水线内的逻辑执行操作或者通过将一个或多个执行线程分派到图形核阵列1714来处理命令和数据。图形核阵列1714可包括图形核(例如,(一个或多个)图形核1715A、(一个或多个)图形核1715B)的一个或多个块,每个块包括一个或多个图形核。每个图形核包括:图形执行资源的集合,其包括用于执行图形和计算操作的通用和图形特定执行逻辑;以及固定功能纹理处理和/或机器学习和人工智能加速逻辑。
在各种实施例中,3D流水线1612可包括用于通过处理指令并且将执行线程分派到图形核阵列1714来处理一个或多个着色器程序(诸如,顶点着色器、几何着色器、像素着色器、片段着色器、计算着色器或其他着色器程序)的固定功能和可编程逻辑。图形核阵列1714提供执行资源的统一块以供在处理这些着色器程序中使用。图形核阵列1714的(一个或多个)图形核1715A-1715B内的多用途执行逻辑(例如,执行单元)包括对各种3D API着色器语言的支持,并且可执行与多个着色器相关联的多个同时执行线程。
图形核阵列1714可包括用于执行媒体功能(诸如,视频和/或图像处理)的执行逻辑。执行单元可包括通用逻辑,该通用逻辑可编程以除图形处理操作外还执行并行通用计算操作。该通用逻辑可与在图14的(一个或多个)处理器核1407或如图15A中的核1502A-1502N内的通用逻辑并行或结合地执行处理操作。
由在图形核阵列1714上执行的线程生成的输出数据可将数据输出到在统一返回缓冲器(URB)1718中的存储器。URB 1718可存储用于多个线程的数据。URB 1718可被用于在图形核阵列1714上执行的不同线程之间发送数据。URB 1718可另外被用于在图形核阵列上的线程与在共享功能逻辑1720内的固定功能逻辑之间的同步。
可选地,图形核阵列1714可以是可缩放的,使得该阵列包括可变数量的图形核,这些图形核各自基于GPE 1710的目标功率和性能水平而具有可变数量的执行单元。执行资源可以是动态可缩放的,使得可按照需要启用或禁用执行资源。
图形核阵列1714与共享功能逻辑1720耦合,该共享功能逻辑1720包括在图形核阵列中的图形核之间共享的多个资源。在共享功能逻辑1720内的共享功能是硬件逻辑单元,所述硬件逻辑单元将专用补充功能性提供到图形核阵列1714。在各种实施例中,共享功能逻辑1720包括但不限于采样器1721、数学1722和线程间通信(ITC)1723逻辑。另外,可实现在共享功能逻辑1720内的一个或多个高速缓存1725。
至少在其中对给定专用功能的需求不足以包括在图形核阵列1714内的情况下,实现共享功能。相反,该专用功能的单个实例化被实现为在共享功能逻辑1720中的独立实体,并且在图形核阵列1714内的执行资源之间被共享。在图形核阵列1714之间被共享并且包括在图形核阵列1714内的功能的精确集合跨实施例而变化。由图形核阵列1714广泛使用的共享功能逻辑1720内的特定共享功能可被包括在图形核阵列1714内的共享功能逻辑1716内。可选地,图形核阵列1714内的共享功能逻辑1716可包括共享功能逻辑1720内的一些或全部逻辑。可在图形核阵列1714的共享功能逻辑1716内重复共享功能逻辑1720内的全部逻辑元件。备选地,排除了共享功能逻辑1720以有利于图形核阵列1714内的共享功能逻辑1716。
执行单元
图18A-18B示出了根据本文中描述的实施例的线程执行逻辑1800,其包括在图形处理器核中采用的处理元件的阵列。图18A-18B的与本文中任何其他图的元件具有相同或类似的名称的元件描述了与其他图中的元件相同的元件,可以以与其类似的方式操作或起作用,可包括相同的组件,并且可链接到其他实体,如本文中其他地方所述的那些那样,但不限于此。图18A-18B示出了线程执行逻辑1800的概述,该线程执行逻辑1800可代表利用图15B的每个子核1521A-1521F示出的硬件逻辑。图18A代表通用图形处理器内的执行单元,而图18B代表可在计算加速器内使用的执行单元。
如在图18A中所示出的,线程执行逻辑1800可包括着色器处理器1802、线程分派器1804、指令高速缓存1806、包括多个图形执行单元1808A-1808N的可缩放执行单元阵列、采样器1810、共享本地存储器1811、数据高速缓存1812和数据端口1814。可选地,可缩放执行单元阵列可通过基于工作负载的计算要求来启用或禁用一个或多个执行单元(例如,图形执行单元1808A、1808B、1808C、1808D到1808N-1和1808N中的任何图形执行单元)来动态地进行缩放。被包括的组件可经由链接到组件中的每个组件的互连组构被互连。线程执行逻辑1800可包括通过指令高速缓存1806、数据端口1814、采样器1810和图形执行单元1808A-1808N中的一个或多个到存储器(诸如,系统存储器或高速缓冲存储器)的一个或多个连接。每个执行单元(例如,1808A)可以是独立可编程通用计算单元,其能执行多个同时硬件线程,同时为每个线程并行处理多个数据元素。在各种实施例中,执行单元1808A-1808N的阵列是可缩放的,以包括任何数量的各个执行单元。
在一些实施例中,图形执行单元1808A-1808N可主要被用于执行着色器程序。着色器处理器1802可处理各种着色器程序,并且经由线程分派器1804分派与着色器程序相关联的执行线程。线程分派器可包括用于对来自图形和媒体流水线的线程发起请求进行仲裁并且在图形执行单元1808A-1808N中的一个或多个执行单元上实例化所请求的线程的逻辑。例如,几何流水线可将顶点、曲面细分或几何着色器分派到线程执行逻辑以用于处理。可选地,线程分派器1804还可处理来自在执行的着色器程序的运行时间线程派生请求。
在一些实施例中,图形执行单元1808A-1808N可支持指令集,所述指令集包括对许多标准3D图形着色器指令的原生支持,使得来自图形库(例如,Direct 3D和OpenGL)的着色器程序以最小的转化被执行。执行单元支持顶点和几何处理(例如,顶点程序、几何程序、顶点着色器)、像素处理(例如,像素着色器、片段着色器)和通用处理(例如,计算和媒体着色器)。图形执行单元1808A-1808N中的每个图形执行单元能进行多发布(multi-issue)单指令多数据(SIMD)执行,并且多线程操作在面临更高时延存储器访问时能够实现高效的执行环境。每个执行单元内的每个硬件线程具有专用高带宽寄存器堆和相关联的独立线程状态。执行是对能进行整数、单精度和双精度浮点运算、SIMD分支能力、逻辑运算、超越运算和其他杂项运算的流水线的每时钟多发布。在等待来自存储器或共享功能之一的数据时,执行单元1808A-1808N内的依赖性逻辑促使在等待的线程进行休眠,直到所请求的数据已被返回为止。当在等待的线程正在休眠时,硬件资源可专用于处理其他线程。例如,在与顶点着色器操作相关联的延迟期间,执行单元可执行用于像素着色器、片段着色器或另一类型的着色器程序(包括不同顶点着色器,诸如图21中所示的顶点着色器2107)的操作。各种实施例可应用于:通过作为使用SIMD的备选方案或者除使用SIMD之外还使用单指令多线程(SIMT)来使用执行。对SIMD核或操作的引用也可应用于SIMT或者应用于与SIMT组合的SIMD。
图形执行单元1808A-1808N中的每个图形执行单元对数据元素的阵列进行操作。数据元素的数量是“执行大小”或指令的通道的数量。执行通道是用于指令内的数据元素访问、掩蔽(masking)和流控制的执行的逻辑单元。通道的数量可独立于特定图形处理器的物理算术逻辑单元(ALU)、浮点单元(FPU)或其他逻辑单元(例如,张量核、光线追踪核等)的数量。附加地,图形执行单元1808A-1808N可支持整数和浮点数据类型。
执行单元指令集包括SIMD指令。各种数据元素可作为打包数据类型存储在寄存器中,并且执行单元将基于元素的数据大小来处理各种元素。例如,在对256位宽向量进行操作时,向量的256位被存储在寄存器中,并且执行单元对作为四个单独的64位打包数据元素(四字(QW)大小数据元素)、八个单独的32位打包数据元素(双字(DW)大小数据元素)、十六个单独的16位打包数据元素(字(W)大小数据元素)或三十二个单独的8位数据元素(字节(B)大小数据元素)的向量进行操作。然而,不同向量宽度和寄存器大小是可能的。
可选地,一个或多个执行单元可被组合成具有线程控制逻辑(1807A-1807N)的融合的图形执行单元1809A-1809N,所述线程控制逻辑(1807A-1807N)对于融合的EU是公共的。多个EU可被融合成EU群组。融合的EU群组中的每个EU可被配置成执行单独的SIMD硬件线程。融合的EU群组中EU的数量可根据实施例而变化。另外,可每EU执行各种SIMD宽度,包括但不限于SIMD8、SIMD16和SIMD32。每个融合的图形执行单元1809A-1809N包括至少两个执行单元。例如,融合的执行单元1809A包括第一EU 1808A、第二EU 1808B以及线程控制逻辑1807A,该线程控制逻辑1807A对第一EU 1808A和第二EU 1808B是公共的。线程控制逻辑1807A控制在融合的图形执行单元1809A上执行的线程,允许融合的执行单元1809A-1809N内的每个EU使用公共指令指针寄存器来执行。
线程执行逻辑1800中包括一个或多个内部指令高速缓存(例如,1806)以对用于执行单元的线程指令进行高速缓存。在线程执行逻辑1800中可包括一个或多个数据高速缓存(例如,1812)以在线程执行期间对线程数据进行高速缓存。在执行逻辑1800上执行的线程还可在共享本地存储器1811中存储显式管理的数据。可包括采样器1810以提供3D操作的纹理采样和媒体操作的媒体采样。采样器1810可包括专用纹理或媒体采样功能性,以在向执行单元提供采样的数据前在采样过程期间处理纹理或媒体数据。
在执行期间,图形和媒体流水线经由线程派生和分派逻辑向线程执行逻辑1800发送线程发起请求。一旦几何对象的群组已被处理并且栅格化成像素数据,着色器处理器1802内的像素处理器逻辑(例如,像素着色器逻辑、片段着色器逻辑等)便被调用于进一步计算输出信息,并且使结果被写入到输出表面(例如,颜色缓冲器、深度缓冲器、模板缓冲器等)。像素着色器或片段着色器可计算要跨栅格化对象内插的各种顶点属性的值。着色器处理器1802内的像素处理器逻辑然后可执行应用编程接口(API)供应的像素或片段着色器程序。为了执行着色器程序,着色器处理器1802经由线程分派器1804向执行单元(例如,1808A)分派线程。着色器处理器1802可使用采样器1810中的纹理采样逻辑来访问存储在存储器中的纹理映射中的纹理数据。对纹理数据和输入几何数据的算术运算为每个几何片段计算像素颜色数据,或者丢弃一个或多个像素而不进行进一步处理。
此外,数据端口1814可提供存储器访问机制,以便线程执行逻辑1800将经处理的数据输出至存储器以用于在图形处理器输出流水线上进一步处理。数据端口1814可包括或者耦合到一个或多个高速缓冲存储器(例如,数据高速缓存1812)来对数据进行高速缓存以用于经由数据端口1814的存储器访问。
可选地,执行逻辑1800还可包括光线追踪器1805,所述光线追踪器1805可提供光线追踪加速功能性。光线追踪器1805可支持包括用于光线生成的指令/功能的光线追踪指令集。该光线追踪指令集可与由图3C中的光线追踪核372支持的光线追踪指令集类似或不同。
图18B示出了执行单元1808的示例性内部细节。图形执行单元1808可包括指令提取单元1837、通用寄存器堆阵列(GRF)1824、架构寄存器堆阵列(ARF)1826、线程仲裁器1822、发送单元1830、分支单元1832、SIMD浮点单元(FPU)1834的集合以及可选地包括专用整数SIMD ALU 1835的集合。GRF 1824和ARF 1826包括与可在图形执行单元1808中是活动的每个同时硬件线程相关联的通用寄存器堆和架构寄存器堆的集合。在ARF 1826中可维持每线程架构状态,而在线程执行期间使用的数据被存储在GRF 1824中。每个线程的执行状态(包括用于每个线程的指令指针)可被保持在ARF 1826中的线程特定寄存器中。
图形执行单元1808可具有这样的架构,该架构是同时多线程(SMT)和细粒度交错多线程(IMT)的组合。该架构可具有模块化配置,可在设计时基于每执行单元的寄存器的数量和同时线程的目标数量来对所述模块化配置进行微调,其中执行单元资源跨用于执行多个同时线程的逻辑被划分。可由图形执行单元1808执行的逻辑线程的数量不限于硬件线程的数量,并且多个逻辑线程可被指派到每个硬件线程。
可选地,图形执行单元1808可共同发布多个指令,所述多个指令各自可以是不同的指令。图形执行单元1808的线程仲裁器1822可将指令分派给发送单元1830、分支单元1832或(一个或多个)SIMD FPU 1834中的一个以用于执行。每个执行线程可访问GRF 1824内的128个通用寄存器,其中每个寄存器可存储32个字节,其可作为32位数据元素的SIMD 8元素向量访问。每个执行单元线程可访问GRF 1824内的4千字节,虽然实施例不限于此,并且在其他实施例中可提供更多或更少的寄存器资源。图形执行单元1808可被分区成可独立执行计算操作的七个硬件线程,虽然每执行单元的线程的数量还可根据实施例而变化。例如,可支持多达16个硬件线程。在示例性实施例中,其中七个线程可访问4千字节,GRF 1824可存储总共28千字节。在另一示例性实施例中,在16个线程可访问4千字节的情况下,GRF1824可存储总共64千字节。然而,每执行单元的线程的数量不限于这些示例并且可多于或少于给定的数量。灵活的寻址模式可允许对寄存器一起进行寻址以有效地构建更宽的寄存器或者表示跨步矩形块数据结构(strided rectangular block data structure)。
附加地或备选地,可经由通过消息传递发送单元1830执行的“发送”指令来分派存储器操作、采样器操作和其他较长时延系统通信。可将分支指令分派给专用分支单元1832以促进SIMD发散和最终收敛。
图形执行单元1808可包括一个或多个SIMD浮点单元((一个或多个)FPU)1834以执行浮点运算。(一个或多个)FPU 1834还可支持整数计算。在一些实例中,(一个或多个)FPU1834可SIMD执行多达M个数量的32位浮点(或整数)运算,或者SIMD执行多达2M个16位整数或16位浮点运算。可选地,(一个或多个)FPU中的至少一个提供扩展的数学能力以支持高吞吐量超越数学函数和双精度64位浮点。还可存在8位整数SIMD ALU 1835的集合,并且8位整数SIMD ALU 1835的集合可被特别地优化以执行与机器学习计算相关联的操作。
可选地,图形执行单元1808的多个实例的阵列可在图形子核分组(例如,子切片)中被实例化。为了可缩放性,产品架构师可选定每子核分组的执行单元的确切数量。执行单元1808可跨多个执行通道执行指令。此外,在图形执行单元1808上执行的每个线程可以是在不同的通道上被执行的。
图19示出了另外的示例性执行单元1900。图19的与本文中任何其他图的元件具有相同或类似的名称的元件描述了与其他图中的元件相同的元件,可以以与其类似的方式操作或起作用,可包括相同的组件,并且可链接到其他实体,如本文中其他地方所述的那些那样,但不限于此。执行单元1900可以是供在例如如图16C中的计算引擎贴片1640A-1640D中使用的计算优化的执行单元,但不限于此。执行单元1900还可用于如图16B中的图形引擎贴片1610A-1610D中。执行单元1900可包括线程控制单元1901、线程状态单元1902、指令提取/预提取单元1903和指令解码单元1904。执行单元1900另外包括寄存器堆1906,所述寄存器堆1906存储可被指派到执行单元内的硬件线程的寄存器。执行单元1900另外包括发送单元1907和分支单元1908。发送单元1907和分支单元1908可与图18B的图形执行单元1808的发送单元1830和分支单元1832类似地操作。
执行单元1900还可以包括计算单元1910,其包括多个不同类型的功能单元。计算单元1910还可以包括ALU 1911、脉动阵列1912和数学单元1913。ALU 1911包括算术逻辑单元的阵列。ALU 1911可以配置成跨多个处理通道和数据通道并且针对多个硬件和/或软件线程执行64位、32位和16位整数和浮点运算。ALU 1911可同时(例如,在相同时钟循环内)执行整数和浮点运算。
脉动阵列1912包括可以用于以脉动方式执行向量或其他数据并行操作的数据处理单元的宽为 W和深为 D的网络。脉动阵列1912可配置成执行各种矩阵运算,包括点积、外积及一般矩阵-矩阵乘法(GEMM)运算。脉动阵列1912可支持16位浮点运算以及8位、4位、2位和二进制整数运算。脉动阵列1912可以配置成加速机器学习操作。脉动阵列1912可以配置有对bfloat16(大脑浮点)16位浮点格式或张量浮点32位浮点格式(TF32)的支持,所述格式相对于电气和电子工程师协会(IEEE)754格式具有不同数量的尾数和指数位。还可以支持FP64格式。
在一个实施例中,脉动阵列1912包括用于加速稀疏矩阵运算的硬件。可以绕过输入数据的稀疏区域的乘法操作而不牺牲吞吐量。可以检测输入矩阵内的块稀疏性,并且可以绕过具有已知输出值的运算。在一个实施例中,脉动阵列1912包括用于实现对具有压缩表示的稀疏数据的操作的硬件。稀疏矩阵的压缩表示存储非零值和定义非零值在矩阵内的位置的元数据。示例性压缩表示包括但不限于压缩张量表示,诸如压缩稀疏行(CSR)、压缩稀疏列(CSC)、压缩稀疏纤维(CSF)表示。对压缩表示的支持使得能够对压缩张量格式的输入执行操作,而不要求对压缩表示进行解压缩或解码。在此类实施例中,可仅对非零输入值执行运算,且可将所得非零输出值映射到输出矩阵中。在一些实施例中,还提供了对在硬件内或跨系统总线传送数据时使用的机器特定无损数据压缩格式的硬件支持。对于稀疏输入数据,这样的数据可以以压缩格式保留,并且脉动阵列1912可以使用用于压缩数据的压缩元数据来使得能够仅对非零值执行操作,或者使得能够对于乘法操作绕过零数据输入的块。
可配置数学单元1913来以高效和比ALU 1911更低功率的方式执行数学运算的特定子集。数学单元1913可包括在由描述的其他实施例提供的图形处理引擎的共享功能逻辑中找到的数学逻辑(例如,图17的共享功能逻辑1720的数学逻辑1722)。数学单元1913可被配置成执行32位和64位浮点运算。
线程控制单元1901包括用于控制执行单元内线程的执行的逻辑。线程控制单元1901可包括用于开始、停止和抢占执行单元1900内线程的执行的线程仲裁逻辑。线程状态单元1902可用于为被指派在执行单元1900上执行的线程存储线程状态。在执行单元1900内存储线程状态能够实现在线程变为阻塞或空闲时那些线程的快速抢占。指令提取/预提取单元1903可从更高级别执行逻辑的指令高速缓存(例如,如图18A中的指令高速缓存1806)提取指令。指令提取/预提取单元1903还可基于当前在执行的线程的分析来发布对要被加载到指令高速缓存中的指令的预提取请求。指令解码单元1904可被用于解码要由计算单元执行的指令。指令解码单元1904可被用作次级解码器以将复杂指令解码成组成的微操作(constituent micro-operation)。
执行单元1900另外包括可由在执行单元1900上执行的硬件线程使用的寄存器堆1906。可跨用于执行在执行单元1900的计算单元1910内的多个同时线程的逻辑来划分寄存器堆1906中的寄存器。可由图形执行单元1900执行的逻辑线程的数量不限于硬件线程的数量,并且多个逻辑线程可被指派到每个硬件线程。寄存器堆1906的大小可基于支持的硬件线程的数量跨实施例而变化。寄存器重命名可被用于动态地将寄存器分配到硬件线程。
图20是示出图形处理器指令格式2000的框图。图形处理器执行单元支持具有采用多种格式的指令的指令集。实线框示出了一般被包括在执行单元指令中的组成部分,而虚线包括可选的或者仅被包括在指令的子集中的组成部分。在一些实施例中,描述和示出的图形处理器指令格式2000是宏指令,因为它们是供应给执行单元的指令,而与一旦指令被处理由指令解码产生的微操作相反。因此,单个指令可导致硬件执行多个微操作。
如本文中所述的图形处理器执行单元可原生地支持采用128位指令格式2010的指令。基于所选择的指令、指令选项和操作数的数量,64位压缩指令格式2030可用于一些指令。原生128位指令格式2010提供对所有指令选项的访问,而采用64位格式2030,一些选项和操作被限制。采用64位格式2030的可用的原生指令随实施例而变化。使用索引字段2013中索引值的集合来部分地压缩指令。执行单元硬件基于索引值来引用压缩表的集合,并且使用压缩表输出来重构采用128位指令格式2010的原生指令。可使用指令的其他大小和格式。
对于每种格式,指令操作码2012定义执行单元要执行的操作。执行单元跨每个操作数的多个数据元素并行执行每个指令。例如,响应于相加指令,执行单元跨表示纹理元素或图片元素的每个颜色通道来执行同时加法运算。默认情况下,执行单元跨操作数的所有数据通道来执行每个指令。指令控制字段2014可能够实现对诸如通道选择(例如,断定(predication))和数据通道次序(例如,搅混(swizzle))之类的某些执行选项的控制。对于采用128位指令格式2010的指令,执行大小字段2016限制将被并行执行的数据通道的数量。执行大小字段2016可能不可供64位压缩指令格式2030中使用。
一些执行单元指令具有多达三个操作数,这三个操作数包括两个源操作数src02020、src1 2022和一个目的地操作数(dest 2018)。例如,诸如数据操纵指令、点积指令、乘法-加法指令或乘法-累加指令的其他指令可以具有第三源操作数(例如SRC2 2024)。指令操作码2012确定源操作数的数量。指令的最后源操作数可以是利用指令传递的立即(例如,硬编码的)值。执行单元还可以支持多目的地指令,其中目的地中的一个或多个是基于指令和/或指定的目的地而隐含的或隐式的。
128位指令格式2010可包括访问/地址模式字段2026,该访问/地址模式字段2026指定例如使用直接寄存器寻址模式还是间接寄存器寻址模式。在使用直接寄存器寻址模式时,由指令中的位来直接提供一个或多个操作数的寄存器地址。
128位指令格式2010还可包括访问/地址模式字段2026,该访问/地址模式字段2026指定指令的地址模式和/或访问模式。访问模式可被用于定义指令的数据访问对齐。可支持包括16字节对齐的访问模式和1字节对齐的访问模式的访问模式,其中访问模式的字节对齐确定指令操作数的访问对齐。例如,当处于第一模式中时,指令可将字节对齐的寻址用于源操作数和目的地操作数,并且当处于第二模式中时,指令可将16字节对齐的寻址用于所有源操作数和目的地操作数。
访问/地址模式字段2026的地址模式部分可确定指令要使用直接寻址还是间接寻址。在使用直接寄存器寻址模式时,指令中的位直接提供一个或多个操作数的寄存器地址。在使用间接寄存器寻址模式时,可基于指令中的地址立即字段和地址寄存器值来计算一个或多个操作数的寄存器地址。
基于指令操作码2012位字段可对指令进行分组,以简化操作码解码2040。对于8位操作码,4、5和6位允许执行单元确定操作码的类型。所示出的精确操作码分组仅是示例。移动和逻辑操作码群组2042可包括数据移动和逻辑指令(例如,移动(mov)、比较(cmp))。移动和逻辑群组2042可共享五个最低有效位(LSB),其中移动(mov)指令采用0000xxxxb的形式,并且逻辑指令采用0001xxxxb的形式。流控制指令群组2044(例如调用、跳(jmp))包括采用0010xxxxb(例如,0x20)形式的指令。杂项指令群组2046包括指令的混合,包括采用0011xxxxb(例如,0x30)形式的同步指令(例如等待、发送)。并行数学指令群组2048包括采用0100xxxxb(例如,0x40)的形式的逐组成部分的算术指令(例如,加、乘(mul))。并行数学指令群组2048跨数据通道并行执行算术运算。向量数学群组2050包括采用0101xxxxb(例如,0x50)形式的算术指令(例如,dp4)。向量数学群组对向量操作数执行诸如点积计算的算术。示出的操作码解码2040在一个实施例中可用于确定执行单元的哪个部分将被用于执行解码的指令。例如,一些指令可被指定为将由脉动阵列执行的脉动指令。诸如光线追踪指令(未示出)的其他指令可被路由到执行逻辑的切片或分区内的光线追踪核或光线追踪逻辑。
图形流水线
图21是根据另一实施例的图形处理器2100的框图。图21的与本文中任何其他图的元件具有相同或类似的名称的元件描述了与其他图中的元件相同的元件,可以以与其类似的方式操作或起作用,可包括相同的组件,并且可链接到其他实体,如本文中其他地方所述的那些那样,但不限于此。
图形处理器2100可包括不同类型的图形处理流水线,诸如几何流水线2120、媒体流水线2130、显示引擎2140、线程执行逻辑2150和渲染输出流水线2170。图形处理器2100可以是包括一个或多个通用处理核的多核处理系统内的图形处理器。可通过对一个或多个控制寄存器(未示出)的寄存器写入或者经由通过环形互连2102发布至图形处理器2100的命令来控制图形处理器。环形互连2102可将图形处理器2100耦合到其他处理组件,诸如其他图形处理器或通用处理器。来自环形互连2102的命令由命令流播器2103解译,该命令流播器2103将指令供应至几何流水线2120或媒体流水线2130的各个组件。
命令流播器2103可指导顶点提取器2105的操作,该顶点提取器2105从存储器读取顶点数据,并执行由命令流播器2103提供的顶点处理命令。顶点提取器2105可将顶点数据提供给顶点着色器2107,该顶点着色器2107对每个顶点执行坐标空间变换和照明操作。顶点提取器2105和顶点着色器2107可通过经由线程分派器2131向执行单元2152A-2152B分派执行线程来执行顶点处理指令。
执行单元2152A-2152B可以是具有用于执行图形和媒体操作的指令集的向量处理器的阵列。执行单元2152A-2152B可具有附连的L1高速缓存2151,所述L1高速缓存2151对于每个阵列是特定的,或者在阵列之间被共享。高速缓存能被配置为数据高速缓存、指令高速缓存或被分区以在不同分区中包含数据和指令的单个高速缓存。
几何流水线2120可包括曲面细分组件以执行3D对象的硬件加速的曲面细分。可编程外壳着色器(programmable hull shader)2111可配置曲面细分操作。可编程域着色器2117可提供曲面细分输出的后端评估。曲面细分器2113可在外壳着色器2111的指导下进行操作,并且包含专用逻辑以基于作为到几何流水线2120的输入而提供的粗略几何模型来生成详细的几何对象的集合。此外,如果未使用曲面细分,则可绕过曲面细分组件(例如,外壳着色器2111、曲面细分器2113和域着色器2117)。曲面细分组件可基于从顶点着色器2107接收的数据进行操作。
完整几何对象可由几何着色器2119经由分派给执行单元2152A-2152B的一个或多个线程来处理,或者可直接行进至剪辑器(clipper)2129。几何着色器可对整个几何对象进行操作,而不是如在图形流水线的先前级中对顶点或顶点的补片(patch)进行操作。如果曲面细分被禁用,则几何着色器2119接收来自顶点着色器2107的输入。几何着色器2119可由几何着色器程序可编程以在曲面细分单元被禁用时执行几何曲面细分。
在栅格化前,剪辑器2129处理顶点数据。剪辑器2129可以是具有剪辑和几何着色器功能的可编程剪辑器或固定功能剪辑器。渲染输出流水线2170中的栅格化器和深度测试组件2173可分派像素着色器以将几何对象转换成逐像素表示。像素着色器逻辑可被包括在线程执行逻辑2150中。可选地,应用可绕过栅格化器和深度测试组件2173,并且经由流出单元2123访问未栅格化的顶点数据。
图形处理器2100具有允许数据和消息在处理器的主要组件之间传递的互连总线、互连组构或某种其他互连机构。在一些实施例中,执行单元2152A-2152B和相关联的逻辑单元(例如,L1高速缓存2151、采样器2154、纹理高速缓存2158等)经由数据端口2156互连,以执行存储器访问并且与处理器的渲染输出流水线组件进行通信。采样器2154、高速缓存2151、2158和执行单元2152A-2152B可各自具有单独的存储器访问路径。可选地,纹理高速缓存2158还可被配置为采样器高速缓存。
渲染输出流水线2170可包含栅格化器和深度测试组件2173,该栅格化器和深度测试组件2173将基于顶点的对象转换成相关联的基于像素的表示。栅格化器逻辑可包括用于执行固定功能三角形和线栅格化的窗口化器(windower)/掩蔽器单元。相关联的渲染高速缓存2178和深度高速缓存2179在一些实施例中也是可用的。像素操作组件2177对数据执行基于像素的操作,尽管在一些实例中,与2D操作相关联的像素操作(例如,带有混合(blending)的位块图像传送)由2D引擎2141执行,或者在显示时由显示控制器2143使用覆盖显示平面代替。共享L3高速缓存2175可能对于全部图形组件是可用的,从而允许在不使用主系统存储器的情况下共享数据。
媒体流水线2130可包括媒体引擎2137和视频前端2134。视频前端2134可接收来自命令流播器2103的流水线命令。媒体流水线2130可包括单独的命令流播器。视频前端2134可在将命令发送至媒体引擎2137之前处理媒体命令。媒体引擎2137可包括线程派生功能性来派生线程,以便经由线程分派器2131分派到线程执行逻辑2150。
图形处理器2100可包括显示引擎2140。显示引擎2140可在处理器2100的外部,并且可经由环形互连2102或某一其他互连总线或组构与图形处理器耦合。显示引擎2140可包括2D引擎2141和显示控制器2143。显示引擎2140可包含能独立于3D流水线操作的专用逻辑。显示控制器2143可与显示装置(未示出)耦合,该显示装置可以是系统集成的显示装置(如在膝上型计算机中),或者可以是经由显示装置连接器附连的外部显示装置。
几何流水线2120和媒体流水线2130可能可配置成基于多个图形和媒体编程接口执行操作,并且不特定于任何一个应用编程接口(API)。用于图形处理器的驱动器软件可将特定于特定图形或媒体库的API调用转化成可由图形处理器处理的命令。可为全部来自Khronos Group的开放图形库(OpenGL)、开放计算语言(OpenCL)和/或Vulkan图形和计算API提供支持。还可为来自微软公司的Direct3D库提供支持。可支持这些库的组合。还可为开源计算机视觉库(OpenCV)提供支持。如果可进行从未来API的流水线到图形处理器的流水线的映射,则具有兼容3D流水线的未来API也将被支持。
图形流水线编程
图22A是示出用于对图形处理流水线进行编程的图形处理器命令格式2200的框图,所述图形处理流水线诸如例如本文中结合图16A、17、21描述的流水线。图22B是示出根据实施例的图形处理器命令序列2210的框图。图22A中的实线框示出了一般被包括在图形命令中的组成部分,而虚线包括可选的或者仅被包括在图形命令的子集中的组成部分。图22A的示例性图形处理器命令格式2200包括用于标识命令的客户端2202、命令操作代码(操作码)2204和数据2206的数据字段。一些命令中还包括子操作码2205和命令大小2208。
客户端2202可指定处理命令数据的图形装置的客户端单元。图形处理器命令解析器可检查每个命令的客户端字段以调节命令的进一步处理,并且将命令数据路由到适当的客户端单元。图形处理器客户端单元可包括存储器接口单元、渲染单元、2D单元、3D单元和媒体单元。每个客户端单元可具有处理命令的对应处理流水线。一旦由客户端单元接收到命令,客户端单元便读取操作码2204和子操作码2205(如果子操作码2205存在的话),以确定要执行的操作。客户端单元使用数据字段2206中的信息来执行命令。对于一些命令,预期显式命令大小2208来指定命令的大小。命令解析器可基于命令操作码来自动确定至少一些命令的大小。可经由双字的倍数来对齐命令。还可使用其他命令格式。
图22B中的流程示出了示例性图形处理器命令序列2210。以示例性图形处理器为特征的数据处理系统的软件或固件可使用所示出的命令序列的版本来设立、执行和终止图形操作的集合。仅出于示例的目的示出并描述了样本命令序列,并且样本命令序列不限于这些特定命令或此命令序列。另外,命令可作为命令序列中的批量命令被发布,使得图形处理器将至少部分并发地处理命令的序列。
图形处理器命令序列2210可以以流水线转储清除命令2212开始,以促使任何活动的图形流水线完成该流水线的当前未决命令。可选地,3D流水线2222和媒体流水线2224可不并发地操作。执行流水线转储清除以促使活动的图形流水线完成任何未决命令。响应于流水线转储清除,图形处理器的命令解析器将暂停命令处理,直至活动的绘图引擎完成未决操作并且相关的读取高速缓存失效。可选地,可将渲染高速缓存中标记为“脏”的任何数据转储清除到存储器。流水线转储清除命令2212可被用于流水线同步,或者在将图形处理器置于低功率状态前被使用。
在命令序列要求图形处理器在流水线之间显式地切换时,可使用流水线选择命令2213。除非上下文要为两个流水线发布命令,否则在发布流水线命令前,可在执行上下文内仅要求一次流水线选择命令2213。紧接经由流水线选择命令2213的流水线切换之前,可要求流水线转储清除命令2212。
流水线控制命令2214可配置图形流水线以用于操作,并且可被用于对3D流水线2222和媒体流水线2224进行编程。流水线控制命令2214可配置活动的流水线的流水线状态。流水线控制命令2214可被用于流水线同步,并且在处理一批命令前从活动的流水线内的一个或多个高速缓冲存储器中清除数据。
与返回缓冲器状态2216有关的命令可被用于为相应流水线配置返回缓冲器的集合以写入数据。一些流水线操作要求分配、选择或配置一个或多个返回缓冲器,在处理期间这些操作将中间数据写入到所述一个或多个返回缓冲器。图形处理器还可使用一个或多个返回缓冲器来存储输出数据并且执行跨线程通信。返回缓冲器状态2216可包括选择要用于流水线操作的集合的返回缓冲器的大小和数量。
命令序列中的剩余命令基于用于操作的活动流水线而不同。基于流水线确定2220,将命令序列定制到以3D流水线状态2230开始的3D流水线2222或者从媒体流水线状态2240开始的媒体流水线2224。
用于配置3D流水线状态2230的命令包括3D状态设置命令,所述3D状态设置命令用于在处理3D图元命令之前要配置的顶点缓冲器状态、顶点元素状态、恒定颜色状态、深度缓冲器状态以及其他状态变量。至少部分基于使用中的特定3D API来确定这些命令的值。如果将不使用某些流水线元件,则3D流水线状态2230命令还可能能够选择性地禁用或绕过那些元件。
3D图元2232命令可被用于提交要由3D流水线处理的3D图元。经由3D图元2232命令传递到图形处理器的命令和相关联的参数被转发到图形流水线中的顶点提取功能。顶点提取功能使用3D图元2232命令数据来生成顶点数据结构。顶点数据结构被存储在一个或多个返回缓冲器中。3D图元2232命令可被用于经由顶点着色器对3D图元执行顶点操作。为处理顶点着色器,3D流水线2222将着色器执行线程分派到图形处理器执行单元。
可经由执行2234命令或事件来触发3D流水线2222。寄存器可写入触发命令执行。可经由命令序列中的“go”或“kick”命令来触发执行。可使用流水线同步命令来触发命令执行以转储清除通过图形流水线的命令序列。3D流水线将执行3D图元的几何处理。一旦操作完成,所得到的几何对象便被栅格化,并且像素引擎对所得到的像素进行上色。对于那些操作,还可包括用于控制像素着色和像素后端操作的另外的命令。
在执行媒体操作时,图形处理器命令序列2210可沿着媒体流水线2224路径。一般而言,用于媒体流水线2224的编程的特定使用和方式取决于要执行的媒体或计算操作。可在媒体解码期间将特定媒体解码操作卸载到媒体流水线。还可绕过媒体流水线,并且可使用由一个或多个通用处理核提供的资源来全部或部分地执行媒体解码。媒体流水线还可包括用于通用图形处理器单元(GPGPU)操作的元件,其中图形处理器被用于使用计算着色器程序来执行SIMD向量运算,所述计算着色器程序与图形图元的渲染不是显式相关的。
以与3D流水线2222类似的方式可对媒体流水线2224进行配置。将用于配置媒体流水线状态2240的命令的集合分派或放置到在媒体对象命令2242之前的命令队列中。用于媒体流水线状态2240的命令可包括用于配置媒体流水线元件的数据,所述媒体流水线元件将被用于处理媒体对象。这包括用于配置媒体流水线内的视频解码和视频编码逻辑的数据,诸如编码和解码格式。用于媒体流水线状态2240的命令还可支持使用到包含一批状态设置的“间接”状态元素的一个或多个指针。
媒体对象命令2242可将指针供应到媒体对象以便由媒体流水线处理。媒体对象包括存储器缓冲器,所述存储器缓冲器包含要处理的视频数据。可选地,在发布媒体对象命令2242之前,所有媒体流水线状态必须是有效的。一旦配置了流水线状态,并且将媒体对象命令2242排队,便经由执行命令2244或等效执行事件(例如,寄存器写入)来触发媒体流水线2224。然后可通过由3D流水线2222或媒体流水线2224提供的操作对来自媒体流水线2224的输出进行后处理。可以以与媒体操作类似的方式配置和执行GPGPU操作。
图形软件架构
图23示出了用于数据处理系统2300的示例性图形软件架构。这样的软件架构可包括3D图形应用2310、操作系统2320和至少一个处理器2330。处理器2330可包括图形处理器2332和一个或多个通用处理器核2334。处理器2330可以是处理器1402或本文中所述处理器中的任何其他处理器的变型。处理器2330可代替处理器1402或本文中所述处理器中的任何其他处理器使用。因此,任何特征与处理器1402或本文中所述处理器中的任何其他处理器的组合的公开也公开了与图形处理器2332的对应组合,但不限于此。此外,图23的与本文中任何其他图的元件具有相同或类似的名称的元件描述了与其他图中的元件相同的元件,可以以与其类似的方式操作或起作用,可包括相同的组件,并且可链接到其他实体,如本文中其他地方所述的那些那样,但不限于此。图形应用2310和操作系统2320各自在数据处理系统的系统存储器2350中执行。
3D图形应用2310可包含一个或多个着色器程序,该一个或多个着色器程序包括着色器指令2312。着色器语言指令可采用高级着色器语言,诸如Direct3D的高级着色器语言(HLSL)或OpenGL着色器语言(GLSL)等等。应用还可包括采用适合由通用处理器核2334执行的机器语言的可执行指令2314。应用还可包括由顶点数据定义的图形对象2316。
操作系统2320可以是来自微软公司的Microsoft® Windows®操作系统、专有的类UNIX操作系统或使用Linux内核的变型的开源类UNIX操作系统。操作系统2320可支持图形API 2322,诸如Direct3D API、OpenGL API或Vulkan API。Direct3D API在使用中时,操作系统2320使用前端着色器编译器2324来将采用HLSL的任何着色器指令2312编译成更低级着色器语言。编译可以是即时(JIT)编译或者应用可执行着色器预编译。在3D图形应用2310的编译期间可将高级着色器编译成低级着色器。可以以中间形式(诸如,由Vulkan API使用的标准可移植中间表示(SPIR)的版本)提供着色器指令2312。
用户模式图形驱动器2326可包含用于将着色器指令2312转换成硬件特定表示的后端着色器编译器2327。OpenGL API在使用中时,将采用GLSL高级语言的着色器指令2312传递到用户模式图形驱动器2326以用于编译。用户模式图形驱动器2326可使用操作系统内核模式功能2328来与内核模式图形驱动器2329通信。内核模式图形驱动器2329可与图形处理器2332通信以分派命令和指令。
IP核实现
一个或多个方面可由存储在机器可读介质上的代表性代码来实现,该代表性代码表示和/或定义诸如处理器的集成电路内的逻辑。例如,机器可读介质可包括表示处理器内的各种逻辑的指令。在由机器读取时,指令可促使机器制作逻辑以执行本文中描述的技术。称为“IP核”的此类表示是用于集成电路的逻辑的可重复使用单元,该可重复使用单元可作为对集成电路的结构进行描述的硬件模型而被存储在有形机器可读介质上。可将硬件模型供应至各种客户或制造设施,所述客户或制造设施将硬件模型加载在制造集成电路的制作机器上。可制作集成电路,使得电路执行与本文中描述的实施例中的任何实施例相关联的所描述的操作。
图24A是示出根据实施例的可被用于制造集成电路以执行操作的IP核开发系统2400的框图。IP核开发系统2400可被用于生成可被并入到更大的设计中或被用于构造完整集成电路(例如,SOC集成电路)的模块化、可重复使用设计。设计设施2430可生成采用高级编程语言(例如,C/C++)的IP核设计的软件仿真2410。软件仿真2410可被用于使用仿真模型2412来设计、测试和验证IP核的行为。仿真模型2412可包括功能、行为和/或时序仿真。然后可从仿真模型2412创建或合成寄存器传送级(RTL)设计2415。RTL设计2415是对硬件寄存器之间的数字信号流进行建模的集成电路的行为的抽象,包括使用建模的数字信号执行的相关联的逻辑。除RTL设计2415外,还可创建、设计或合成处于逻辑级或晶体管级的较低级设计。因此,初始设计和仿真的特定细节可变化。
可由设计设施将RTL设计2415或等效物进一步合成为硬件模型2420,该硬件模型2420可采用硬件描述语言(HDL)或物理设计数据的某种其他表示。可进一步对HDL进行仿真或测试以验证IP核设计。可使用非易失性存储器2440(例如,硬盘、闪速存储器或任何非易失性存储介质)来存储IP核设计以用于递送到第三方制作设施2465。备选的是,可通过有线连接2450或无线连接2460(例如,经由因特网)来传送IP核设计。制作设施2465然后可制作至少部分基于IP核设计的集成电路。制作的集成电路可被配置成执行根据本文中描述的至少一个实施例的操作。
图24B示出了集成电路封装组装件2470的截面侧视图。集成电路封装组装件2470示出了如本文中描述的一个或多个处理器或加速器装置的实现。封装组装件2470包括连接到衬底2480的硬件逻辑2472、2474的多个单元。逻辑2472、2474可至少部分地以可配置逻辑或固定功能性逻辑硬件实现,并且可包括本文中描述的(一个或多个)处理器核、(一个或多个)图形处理器或其他加速器装置中的任何装置的一个或多个部分。逻辑2472、2474的每个单元可在半导体管芯内被实现,并且经由互连结构2473与衬底2480耦合。互连结构2473可被配置成在逻辑2472、2474与衬底2480之间路由电信号,并且可包括互连,该互连诸如但不限于凸块(bump)或柱。互连结构2473可被配置成路由电信号,诸如,例如与逻辑2472、2474的操作相关联的输入/输出(I/O)信号和/或功率或接地信号。可选地,衬底2480可以是环氧基层压衬底(epoxy-based laminate substrate)。衬底2480还可包括其他合适类型的衬底。封装组装件2470可经由封装互连2483被连接到其他电气装置。封装互连2483可被耦合到衬底2480的表面,以将电信号路由到其他电气装置,诸如主板、其他芯片集或多芯片模块。
逻辑2472、2474的单元可与桥2482电耦合,该桥2482被配置成在逻辑2472、2474之间路由电信号。桥2482可以是为电信号提供路线(route)的密集互连结构。桥2482可包括由玻璃或合适的半导体材料构成的桥衬底。可在桥衬底上形成电路由部件(electricalrouting feature),以在逻辑2472、2474之间提供芯片到芯片连接。
虽然示出了逻辑2472、2474的两个单元和桥2482,但是本文中描述的实施例可包括在一个或多个管芯上的更多或更少逻辑单元。由于当逻辑被包括在单个管芯上时可排除桥2482,因此可通过零个或多于零个桥来连接一个或多个管芯。备选的是,可通过一个或多个桥来连接多个管芯或逻辑单元。另外,在其他可能配置(包括三维配置)中可将多个逻辑单元、管芯和桥连接在一起。
图24C示出了包括连接到衬底2480(例如,基础管芯)的硬件逻辑小芯片的多个单元的封装组装件2490。如本文中描述的图形处理单元、并行处理器和/或计算加速器可由单独制造的多样化的硅小芯片构成。在此上下文中,小芯片是至少部分封装的集成电路,其包括可与其他小芯片被组装到更大封装中的逻辑的不同单元。带有不同IP核逻辑的小芯片的多样化集合可被组装到单个装置中。另外,可使用有源中介层(interposer)技术将小芯片集成到基础管芯或基础小芯片中。本文中描述的概念能够实现GPU内的不同形式的IP之间的互连和通信。可使用不同工艺技术来制造并且在制造期间构成IP核,这避免了将多个IP(特别是在带有若干特点(flavors)IP的大的SoC上)汇聚到相同制造工艺的复杂性。能够实现多个工艺技术的使用改进了推向市场的时间,并且提供了创建多个产品SKU的有成本效益的方式。另外,解聚的IP更易于独立地被功率选通,在给定工作负载上不在使用中的组件可被断电,从而降低总体功率消耗。
在各种实施例中,封装组装件2490可以包括更少或更多数量的通过组构2485或一个或多个桥2487互连的组件和小芯片。封装组装件2490内的小芯片可以具有使用衬底上晶圆上芯片堆叠的2.5D布置,其中多个管芯并排堆叠在包括穿硅通孔(TSV)的硅中介层上,以将小芯片与衬底2480耦合,该衬底2480包括到封装互连2483的电连接。
在一个实施例中,硅中介层是除了TSV之外还包括嵌入式逻辑的有源中介层2489。在此类实施例中,使用堆叠在有源中介层2489的顶部上的3D面对面管芯来布置封装组装件2490内的小芯片。除了互连组构2485和硅桥2487之外,有源中介层2489还可以包括用于I/O2491、高速缓冲存储器2492和其他硬件逻辑2493的硬件逻辑。组构2485使得能够在各种逻辑小芯片2472、2474与有源中介层2489内的逻辑2491、2493之间通信。组构2485可以是NoC互连或在封装组装件的组件之间交换数据分组的另一形式的分组交换组构。对于复杂的组件,组构2485可以是专用小芯片,其使得能够在封装组装件2490的各种硬件逻辑之间通信。
有源中介层2489内的桥结构2487可以用于促进例如逻辑小芯片或I/O小芯片2474与存储器小芯片2475之间的点对点互连。在一些实现中,桥结构2487也可被嵌入在衬底2480内。
硬件逻辑小芯片可包括专用硬件逻辑小芯片2472、逻辑或I/O小芯片2474和/或存储器小芯片2475。硬件逻辑小芯片2472和逻辑或I/O小芯片2474可至少部分地用可配置逻辑或固定功能性逻辑硬件实现,并且可包括(一个或多个)处理器核、(一个或多个)图形处理器、并行处理器或本文中描述的其他加速器装置中的任何的一个或多个部分。存储器小芯片2475可以是DRAM(例如,GDDR、HBM)存储器或高速缓冲(SRAM)存储器。有源中介层2489(或衬底2480)内的高速缓冲存储器2492可以充当封装组装件2490的全局高速缓存、分布式全局高速缓存的一部分,或者充当组构2485的专用高速缓存。
每个小芯片可以被制作为单独的半导体管芯,并且与嵌入在衬底2480内或与其耦合的基础管芯耦合。与衬底2480的耦合可以经由互连结构2473来执行。互连结构2473可被配置成在各种小芯片与衬底2480内的逻辑之间路由电信号。互连结构2473可包括互连,诸如但不限于凸块或柱。在一些实施例中,互连结构2473可被配置成路由电信号,诸如,例如与逻辑、I/O和存储器小芯片的操作相关联的输入/输出(I/O)信号和/或功率或接地信号。在一个实施例中,附加互连结构将有源中介层2489与衬底2480耦合。
衬底2480可以是环氧基层压衬底,然而它不限于此,并且衬底2480还可包括其他合适类型的衬底。封装组装件2490可经由封装互连2483被连接到其他电气装置。封装互连2483可被耦合到衬底2480的表面,以将电信号路由到其他电气装置,诸如主板、其他芯片集或多芯片模块。
逻辑或I/O小芯片2474和存储器小芯片2475可经由桥2487被电耦合,该桥2487被配置成在逻辑或I/O小芯片2474与存储器小芯片2475之间路由电信号。桥2487可以是为电信号提供路由的密集互连结构。桥2487可包括由玻璃或合适的半导体材料构成的桥衬底。可在桥衬底上形成电路由部件,以在逻辑或I/O小芯片2474与存储器小芯片2475之间提供芯片到芯片连接。桥2487还可被称为硅桥或互连桥。例如,桥2487是嵌入式多管芯互连桥(EMIB)。备选地,桥2487可只是从一个小芯片到另一小芯片的直接连接。
图24D示出了根据实施例的包括可互换小芯片2495的封装组装件2494。可互换小芯片2495可被组装到一个或多个基础小芯片2496、2498上的标准化槽中。基础小芯片2496、2498可经由桥互连2497被耦合,该桥互连2497可类似于本文中描述的其他桥互连,并且可例如是EMIB。存储器小芯片还可经由桥互连被连接到逻辑或I/O小芯片。I/O和逻辑小芯片可经由互连组构通信。基础小芯片可各自支持采用标准化格式的一个或多个槽以用于逻辑或I/O或存储器/高速缓存中的一个。
可将SRAM和功率递送电路制作到基础小芯片2496、2498中的一个或多个基础小芯片中,所述基础小芯片2496、2498可使用相对于堆叠在基础小芯片之上的可互换小芯片2495不同的工艺技术来被制作。例如,可使用更大的工艺技术来制作基础小芯片2496、2498,而可使用更小的工艺技术来制作可互换小芯片。可互换小芯片2495中的一个或多个可互换小芯片可以是存储器(例如,DRAM)小芯片。可基于针对使用封装组装件2494的产品的功率和/或性能,为封装组装件2494选择不同存储器密度。另外,可基于针对产品的功率和/或性能,在组装时选择带有不同数量的类型的功能单元的逻辑小芯片。另外,可将包含不同类型的IP逻辑核的小芯片插入到可互换小芯片槽中,能够实现可混合并匹配不同技术IP块的混合处理器设计。
示例性片上系统集成电路
图25-26B示出了可使用一个或多个IP核来制作的示例性集成电路以及相关联的图形处理器。除了所示出的内容外,还可包括其他逻辑和电路,包括另外的图形处理器/核、外设接口控制器或通用处理器核。图25-26B的与本文中的任何其他图的元件具有相同或类似的名称的元件描述了与其他图中的元件相同的元件,可以以与其类似的方式操作或起作用,可包括相同的组件,并且可链接到其他实体,如本文中其他地方所述的那些那样,但不限于此。
图25是示出了可使用一个或多个IP核来制作的示例性片上系统集成电路2500的框图。示例性集成电路2500包括一个或多个应用处理器2505(例如,CPU)、至少一个图形处理器2510,所述图形处理器2510可以是图形处理器1408、1508、2510或本文中描述的任何图形处理器的变型,并且可用于代替所描述的任何图形处理器。因此,本文中任何特征与图形处理器的组合的公开也公开了与图形处理器2510的对应组合,但不限于此。集成电路2500可另外包括图像处理器2515和/或视频处理器2520,以上处理器中的任何处理器可以是来自相同或多个不同设计设施的模块化IP核。集成电路2500可包括外设或总线逻辑,所述外设或总线逻辑包括USB控制器2525、UART控制器2530、SPI/SDIO控制器2535和I2S/I2C控制器2540。另外,集成电路可包括耦合到高清晰度多媒体接口(HDMI)控制器2550和移动工业处理器接口(MIPI)显示接口2555中的一个或多个的显示装置2545。可通过包括闪速存储器和闪速存储器控制器的闪速存储器子系统2560来提供存储。可经由存储器控制器2565提供存储器接口以便访问SDRAM或SRAM存储器装置。一些集成电路另外包括嵌入式安全引擎2570。
图26A-26B是示出了根据本文中描述的实施例的供SoC内使用的示例性图形处理器的框图。图形处理器可以是图形处理器1408、1508、2510或本文中描述的任何其他图形处理器的变型。图形处理器可代替图形处理器1408、1508、2510或本文中描述的形处理器中的任何其他图形处理器使用。因此,任何特征与图形处理器1408、1508、2510或本文中描述的图形处理器中的任何其他图形处理器的组合的公开也公开了与图26A-26B的图形处理器的对应组合,但不限于此。图26A示出了根据实施例的可使用一个或多个IP核来制作的片上系统集成电路的示例性图形处理器2610。图26B示出了根据实施例的可使用一个或多个IP核来制作的片上系统集成电路的另外的示例性图形处理器2640。图26A的图形处理器2610是低功率图形处理器核的示例。图26B的图形处理器2640是更高性能图形处理器核的示例。例如,图形处理器2610和图形处理器2640中的每个图形处理器可以是图25的图形处理器2510的变型,如本段开头所述的那样。
如图26A中所示出的,图形处理器2610包括顶点处理器2605和一个或多个片段处理器2615A-2615N(例如,2615A、2615B、2615C、2615D到2615N-1和2615N)。图形处理器2610可经由单独的逻辑执行不同着色器程序,使得顶点处理器2605被优化以执行用于顶点着色器程序的操作,而一个或多个片段处理器2615A-2615N执行用于片段或像素着色器程序的片段(例如,像素)着色操作。顶点处理器2605执行3D图形流水线的顶点处理级,并且生成图元和顶点数据。(一个或多个)片段处理器2615A-2615N使用由顶点处理器2605生成的图元和顶点数据来产生在显示装置上显示的帧缓冲(framebuffer)。(一个或多个)片段处理器2615A-2615N可被优化以执行如OpenGL API中提供的片段着色器程序,所述片段着色器程序可被用于执行与如针对在Direct 3D API中提供的像素着色器程序类似的操作。
图形处理器2610另外包括一个或多个存储器管理单元(MMU)2620A-2620B、(一个或多个)高速缓存2625A-2625B和(一个或多个)电路互连2630A-2630B。一个或多个MMU2620A-2620B为图形处理器2610(包括为顶点处理器2605和/或(一个或多个)片段处理器2615A-2615N)提供虚拟地址到物理地址映射,这些处理器除了引用在一个或多个高速缓存2625A-2625B中存储的顶点或图像/纹理数据之外还可引用在存储器中存储的顶点或图像/纹理数据。一个或多个MMU 2620A-2620B可与系统内的其他MMU同步,所述其他MMU包括与图25的一个或多个应用处理器2505、图像处理器2515和/或视频处理器2520相关联的一个或多个MMU,使得每个处理器2505-2520可参与到共享或统一的虚拟存储器系统中。图形处理器2610的组件可与本文中描述的其他图形处理器的组件对应。一个或多个MMU 2620A-2620B可与图2C的MMU 245对应。顶点处理器2605和片段处理器2615A-2615N可与图形多处理器234对应。根据实施例,一个或多个电路互连2630A-2630B使得图形处理器2610能够经由SoC的内部总线或者经由直接连接来与SoC内的其他IP核通过接口连接。一个或多个电路互连2630A-2630B可与图2C的数据交叉开关240对应。可在图形处理器2610的类似组件和本文中描述的各种图形处理器架构之间找到进一步的对应关系。
如图26B所示出的,图形处理器2640包括图26A的图形处理器2610的一个或多个MMU 2620A-2620B、(一个或多个)高速缓存2625A-2625B和(一个或多个)电路互连2630A-2630B。图形处理器2640包括提供统一的着色器核架构的一个或多个着色器核2655A-2655N(例如,2655A、2655B、2655C、2655D、2655E、2655F直到2655N-1和2655N),在该统一的着色器核架构中单个核或类型或核可执行全部类型的可编程着色器代码,所述可编程着色器代码包括用于实现顶点着色器、片段着色器和/或计算着色器的着色器程序代码。存在的着色器核的确切数量可在实施例和实现之间变化。另外,图形处理器2640包括:核间任务管理器2645,该核间任务管理器2645充当用于将执行线程分派给一个或多个着色器核2655A-2655N的线程分派器;以及用于为基于贴片的渲染加速拼贴操作(tiling operation)的拼贴单元2658,在该基于贴片的渲染中,用于场景的渲染操作在图像空间中被细分,例如以利用场景内的局部空间相干性或优化内部高速缓存的使用。着色器核2655A-2655N可与例如如图2D中的图形多处理器234、或分别是图3A和图3B的图形多处理器325、350、或图3C的多核群组365A对应。
用于图形和机器学习工作负载的张量加速逻辑
图27是根据实施例的数据处理系统2700的框图。数据处理系统2700是具有处理器2702、统一存储器2710和包括机器学习加速逻辑的GPGPU 2720的异构处理系统。处理器2702和GPGPU 2720可以是本文所述的处理器和GPGPU/并行处理器中的任何一个。例如,另外参考图1,处理器2702可以是所示一个或多个处理器102的处理器的变体和/或与所示一个或多个处理器102的处理器共享架构,并且GPGPU 2720可以是所示一个或多个并行处理器112的并行处理器的变体和/或与所示一个或多个并行处理器112的并行处理器共享架构。另外参考图14,处理器2702可以是所示(一个或多个)处理器1402之一的变体和/或与所示(一个或多个)处理器1402之一共享架构,并且GPGPU 2720可以是所示(一个或多个)图形处理器1408之一的变体和/或与所示(一个或多个)图形处理器1408之一共享架构。
处理器2702可以执行存储在系统存储器2712中的用于编译器2715的指令。编译器2715在处理器2702上执行以将源代码2714A编译成编译代码2714B。编译代码2714B可以包括可以由处理器2702执行的指令和/或可以由GPGPU 2720执行的指令。可以使用着色器或计算程序编译器(诸如着色器编译器2327和/或着色器编译器2324,如图23所示)来促进要由GPGPU执行的指令的编译。在编译期间,编译器2715可以执行用于插入元数据的操作,包括关于在编译代码2714B中出现的数据并行度的提示和/或与基于编译代码2714B要调度的线程相关联的数据局部性有关的提示。编译器2715可以包括执行这些操作所必需的信息,或者可以在运行时库2716的帮助下执行这些操作。运行时库2716还可以协助编译器2715进行源代码2714A的编译,并且还可以包括这样的指令:其在运行时与编译代码2714B链接在一起以促进在GPGPU 2720上执行编译指令。编译器2715还可以通过寄存器分配器(RA)促进变量的寄存器分配,并生成加载和存储指令,以在存储器和为变量分配的寄存器之间移动变量的数据。
统一存储器2710表示可以由处理器2702和GPGPU 2720访问的统一地址空间。统一存储器可以包括系统存储器2712以及GPGPU存储器2718。GPGPU存储器2718是GPGPU 2720的地址空间内的存储器并且可以包括系统存储器2712的一些或全部。在一个实施例中,GPGPU存储器2718还可以包括专用于GPGPU 2720排他使用的任何存储器的至少一部分。在一个实施例中,可以将系统存储器2712中存储的编译代码2714B映射到GPGPU存储器2718中以供GPGPU 2720访问。
GPGPU 2720包括多个计算块2724A-2724N,其可以包括本文描述的各种处理资源中的一个或多个。处理资源可以是或包括各种不同的计算资源,诸如,例如执行单元、计算单元、流播多处理器、图形多处理器或多核群组。在一个实施例中,GPGPU 2720另外包括张量加速器2723(例如矩阵加速器),其可以包括被设计为加速矩阵运算的子集(例如,点积等)的一个或多个特殊功能计算单元。张量加速器2723也可以被称为张量加速器或张量核。在一个实施例中,张量加速器2723内的逻辑组件可以跨多个计算块2724A-2724N的处理资源分布。
GPGPU 2720还可以包括可以由计算块2724A-2724N和张量加速器2723共享的一组资源,包括但不限于一组寄存器2725、电源和性能模块2726以及高速缓存2727。在一个实施例中,寄存器2725包括直接和间接可访问的寄存器,其中间接可访问的寄存器被优化以供张量加速器2723使用。功率和性能模块2726可以被配置为调整计算块2724A-2724N的功率传递和时钟频率以为计算块2724A-2724N内的门空闲组件供电。在各种实施例中,高速缓存2727可以包括指令高速缓存和/或较低级别的数据高速缓存。
GPGPU 2720可以另外包括L3数据高速缓存2730,其可以用于缓存由张量加速器2723和/或计算块2724A-2724N内的计算元件从统一存储器2710访问的数据。在一个实施例中,L3数据高速缓存2730包括可以由计算块2724A-2724N内的计算元件和张量加速器2723共享的共享本地存储器2732。
在一个实施例中,GPGPU 2720包括指令处理逻辑,例如提取和解码单元2721和调度器控制器2722。提取和解码单元2721包括提取单元和解码单元,以提取和解码指令以由计算块2724A-2724N或张量加速器2723中的一个或多个执行。可以经由调度器控制器2722将指令调度到计算块2724A-2724N或张量加速器内的适当功能单元。在一个实施例中,调度器控制器2722是可配置为执行高级调度操作的ASIC。在一个实施例中,调度器控制器2722是能够执行从固件模块加载的调度器指令的微控制器或每指令低能耗的处理核。
在一个实施例中,可以将要由计算块2724A-2724N执行的一些功能直接调度到张量加速器2723或卸载到张量加速器2723。在各种实施例中,张量加速器2723包括被配置为高效执行矩阵计算操作的处理元件逻辑,例如由3D图形或计算着色器程序使用的乘法和加法运算以及点积运算。在一个实施例中,张量加速器2723可以被配置为加速机器学习框架所使用的操作。在一个实施例中,张量加速器2723是专用集成电路,其被显式地配置为执行一组特定的并行矩阵乘法和/或加法运算。在一个实施例中,张量加速器2723是现场可编程门阵列(FPGA),其提供可以在工作负载之间更新的固定功能逻辑。在一个实施例中,可以由张量加速器2723执行的一组计算操作相对于可以由计算块2724A-2724N执行的运算可以是有限的。然而,张量加速器2723可以以相对于计算块2724A-2724N显著更高的吞吐量执行并行张量运算。
图28A-28B示出了根据实施例的由指令流水线2800执行的矩阵运算2805。图28A示出了当利用张量加速器2723内的脉动阵列2808配置时的指令流水线2800。图28B示出了当利用包括脉动阵列1912的执行单元1900配置时的指令流水线。
如图28A所示,指令流水线2800可以被配置为执行矩阵运算2805,诸如但不限于点积运算。两个向量的点积是标量值,它等于向量的对应分量的乘积之和。可以如以下等式(1)所示计算点积。
点积可以用于卷积神经网络(CNN)的卷积运算中。尽管示出了2D卷积,但是可以使用N维过滤器在N维体积上执行N维卷积。接受域贴片2802突出显示输入体积缓冲器2804中的输入体积的一部分。输入体积缓冲器可以被存储在存储器2830中。可以在接受域贴片2802内的数据与卷积过滤器之间执行点矩阵运算2805以在输出缓冲器2806内生成数据点,该数据点也可以存储在存储器2830中。存储器2830可以是本文所述的任何存储器,包括系统存储器2712、GPGPU存储器2718或一个或多个高速缓冲存储器2727、2730,如图27所示。
输出缓冲器2806内的数据点的组合表示由卷积运算生成的激活图。通过跨输入体积缓冲器2804滑动接受域贴片来生成激活图内的每个点。可以将激活图数据输入到激活函数以确定输出激活值。在一个实施例中,可以在框架内将输入体积缓冲器2804的卷积定义为高级矩阵运算2905。可以经由诸如基本线性代数子程序(BLAS)运算之类的图元运算来执行高级矩阵运算。可以通过指令流水线2800执行的硬件指令来加速图元运算。
用于加速硬件指令的指令流水线2800可以包括可以提取和解码硬件指令的指令提取和解码单元2721,以及可以将解码的指令调度到计算块2724A-2724N和/或张量加速器2723内的一个或多个处理资源的调度器控制器2722。在一个实施例中,可以将硬件指令调度到计算块2724A-2724N并卸载到张量加速器2723。用于执行矩阵运算2805的一个或多个硬件指令和相关联的数据可以存储在存储器2830中。硬件指令的输出也可以存储在存储器2830中。
在一个实施例中,张量加速器2723可以执行一个或多个硬件指令,以使用处理元件的脉动阵列2808来执行矩阵运算2805。脉动阵列2808包括可编程和固定功能硬件的组合,其可配置为执行矩阵-矩阵和矩阵-向量点积运算以及其他运算,诸如矩阵-矩阵和矩阵-向量融合乘法-加法运算。
在各种实施例中,作为张量加速器2723的备选或附加,矩阵加速逻辑也可以包括在计算块2724A-2724N的处理资源内。例如,如图28B所示,在一个实施例中,每个计算块(例如,计算块2724N)包括执行单元1900A-1900N的阵列。在一个实施例中,执行单元1900A-1900N的阵列中的每个执行单元可以包括脉动阵列1912A-1912N。在一个实施例中,利用脉动阵列配置执行单元子集中的一个或多个执行单元。脉动阵列的数量和可用脉动阵列的吞吐量可以根据装置的功率和性能目标而变化。调度器控制器2722可以将脉动矩阵运算(点积、融合乘法-加法等)调度到各种计算块2724A-2724N的执行单元1900A-1900N内的可用脉动阵列1912A-1912N。
虽然在一个实施例中,计算块2724A-2724N中的每个包括执行单元1900A-1900N的阵列,但在另一个实施例中,计算块2724A-2724N与图2A中处理集群阵列的处理集群214A-214N共享架构。在这样的实施例中,计算块2724A-2724N包括如图2C所示的多个图形多处理器234,其包括如图2D所示的内部组件。因此,计算块内的图形多处理器可以包括加载/存储单元266、GPGPU核262和张量/RT核263。在一个实施例中,计算块2724A-2724N可以包括图3C的GPU 380的多核群组365A-365N,并包括GFX核370、张量核371和光线追踪核372的多个集合。在这样的实施例中,调度器控制器2722可以调度指令以对计算块2724A-2724N内的张量/RT核263和/或张量核371执行矩阵运算。经加速的矩阵运算包括点积运算、矩阵乘法运算和/或融合乘法-加法运算,可对整数或浮点矩阵元素和各种精度级别执行这些运算。此外,在一个实施例中,计算块2724A-2724N可以包括图15C的计算单元1560A-1560N的变体,其中这些变体包括本文所述的可以执行整数或浮点矩阵加速指令的矩阵加速逻辑(例如,脉动阵列、张量核、脉动张量核)。
图29示出了包括以流水线方式组织的乘法器和加法器电路的脉动阵列2900。在一个实施例中,脉动阵列2900代表脉动阵列1912中包括的物理流水线级,并包括关于脉动阵列1912描述的能力,包括对稀疏和块稀疏操作的支持,并且可以附加地配置为支持元素向量内或跨通道集合的结构化稀疏性。第一输入矩阵的输入2912A-2912H由标记为Src1和Src1+1直到Src1+7的输入中包含的数据元素表示。输入2910A-2910H对应于第二输入矩阵,并标记为Src2。可包括初始累积器值的输入2902A-2902B可以提供为Src0。处理元件阵列构成脉动阵列2900的物理流水线级2911A-2911H。可以在每个时钟循环期间在每个流水线级2911A-2911H执行矩阵-矩阵或矩阵-向量运算,包括融合乘法-加法和/或点积运算。在每个循环,每个流水线级可以接收新Src2输入,流水线级的处理元件可以使用新Src2输入以使用新Src1输入或先前读取的旧Src1输入来计算值,尽管在初始启动期间在所有流水线级2911A-2911H变为活动之前可能要花费几个循环,因为计算值的初始集合要传播通过这些级。
输入2902A可以向流水线级2911A的处理元件提供Src0值,用作初始累积器值。备选地,输入2902B可以提供要加到脉动阵列的流水线级2911H计算的值的Src0值,这使得脉动阵列2900能够使用阵列的较低级进行部分传递操作,而未使用的较高级是功率选通的。在操作期间,Src2输入的所选通道的数据元素跨流水线级2911A-2911H的处理元件的所有通道广播,其中每个通道表示多个元素的向量。每通道的元素数量可以基于元素的大小而变化。然后,级的处理元件使用所选Src2通道和给定Src1输入的所有通道执行操作。Src2输入与八个Src1输入一起操作(例如,每级一个Src1输入)。Src2输入的通道的数据元素跨处理元件2911A-2911H的所有通道广播。然后,处理元件利用Src1输入的所有通道操作Src2通道。在第一时钟循环中,Src1输入与Src2的第一通道的数据元素一起操作。在下一个循环中,第二Src1(标记为Src1+1)与Src2的第二通道的数据元素一起操作。该序列在流水线的八个级重复。每个级将其操作添加到先前级的输出。跨流水线级,多个Src2输入以流水线方式操作。随着第一Src2输入的连续通道被推送通过流水线级,可以在第一级提供新Src2输入。
来自最后级的输出2922标记为Dst。其中 d=脉动深度,并且 e=每通道的数据元素数量,通道的输出由以下等式(2)描述:
如等式(2)所示,每个通道可以包括在其上并行执行操作的多个数据元素。在一个实施例中,每个通道表示四元素数据向量,尽管可以为每个通道配置不同数量的元素。在一个实施例中,通道内数据元素的数量可以基于每个数据元素的大小而变化。例如,可以使用每元素具有8位数据类型的四个元素向量、具有16位数据类型的两个元素向量、具有4位数据类型(例如INT4)的八个元素向量或具有2位数据类型(例如INT2)的16个元素向量来执行点积。通道的数量可以根据Src1和Src2的数据类型自动调整。指令还可以指定用于指令的所需脉动深度。
在一个实施例中,处理元件2911A-2911H可以直接从通用寄存器堆读取输入2910A-2910H、2912A-2912H。在一个实施例中,脉动阵列2900包括用于进行以下操作的逻辑:从通用寄存器堆读取输入2910A-2910H、2912A-2912H,并将输入数据存储在脉动阵列内部的寄存器、缓冲器或存储器中。然后,内部逻辑可以将输入数据元素馈送到处理元件2911A-2911H进行处理。输出2922可以写入脉动阵列2900的内部寄存器或存储器和/或直接写入通用寄存器堆。
图30A-30B示出了可配置为在任意脉动深度执行操作的脉动阵列3000的使用。在所示示例中,脉动阵列3000具有四个物理深度,这对应于四个物理流水线级。脉动阵列可以配置为使用任意数量的逻辑级进行操作,包括四个、八个、十二个或十六个逻辑级或不能被使用部分传递操作的物理级的数量整除的其他数量的逻辑级,如下面描述的图31所示。图30A示出了从外部源接收Src0输入并利用Src1和Src2输入处理前四个级的阵列。该阵列的输出反馈到图30B所示的第二步。图30B示出:使用包括已处理值和Src1和Src2输入的环回数据来计算接下来的四个级。
如图30A所示,脉动阵列3000可以接受输入2902作为Src0输入,通过数据选择器3004读取(3002)所述输入2902。数据选择器3004在输入2902和环回输入3006之间进行选择。处理元件2911A-2911D可以以与脉动阵列2900类似的方式处理输入2910A-2910D和2912A-2912D。如果四个级足以完成操作,则流水线级2911D可以通过数据选择器3024将输出2922写入(3022)指定的Dst寄存器或存储器。在需要另外级的情况下,数据选择器3024可以将环回输出3026写入到流水线级2911A的处理元件,所述环回输出3026被提供为环回输入3006。
如图30B所示,在一个实施例中,环回输入3006可以由处理元件2911A-2911D进一步处理。环回输入3006包括已处理值。在一个实施例中,环回输入3006还可以包括输入2910E-2910H、输入2912E-2912H,它们可以在处理前四个级时被预取。数据选择器3004选择环回输入3006以用于流水线级2911A输入。然后,流水线级2911A-2911D的处理元件可以处理输入2910E-2910H和2912E-2912H。然后,数据选择器3024可以将第八级结果作为输出2922写入(3022)指定的Dst寄存器。
在一个实施例中,脉动阵列3000被修改为排除环回输出3026和环回输入3006,并且代之以包括中间存储装置3025,如图30A-30B所示。中间存储装置3025可以是脉动阵列3000内部的存储器装置或寄存器,或者可以是脉动阵列3000外部的寄存器堆中的寄存器。在图30A所示的操作期间,来自流水线级2911D的输出可以存储在中间存储装置3025中,而不是在图30B所示的操作之前由环回输出3026输出并由环回输入3006读取。在图30B所示的操作期间,可以将来自流水线级2911D的输出添加到存储在中间存储装置3025中的数据并写入输出2922。脉动阵列3000还可以配置为如下所述那样使用至少一个部分传递来执行多次传递(multi-pass)操作,以能够实现不可被阵列的物理深度整除的逻辑深度。
具有反馈输入的可扩展矩阵乘法加速器
第二实施例使用通过使用并行单元执行的同时指令来使得能够提高吞吐量。乘法加速器的若干实例或路径并行运行。这些实例可以共享Src1,或者它们可以具有独立的Src1输入。每个路径将具有它们自己的Src2和Src0输入。这些实例将具有它们自己的src2和src0输入。图31中示出了深度为四级的两个路径。备选地,图32中示出了使用深度为两级的四个路径的版本。
图31示出了双路径矩阵乘法加速器3100,其中每个路径具有为四级的深度。双路径矩阵乘法加速器3100包括用于Src0输入的输入逻辑3102A-3102B、用于存储从输入逻辑3110A-3110B接收的数据元素的输入缓冲器3111A-3111B和用于存储从用于Src1的共享输入逻辑3112接收的数据元素的输入缓冲器3113A-3113B。每个级包括可并行操作的一对处理元件。级一包括处理元件3131A-3131B,级二包括处理元件3132A-3132B,级三包括处理元件3133A-3133B,级四包括处理元件3134A-3134B。处理元件3131A-3131B、3132A-3132B、3131A-3133B、3134A-3134B中的每一个的硬件逻辑可以与脉动阵列2900或脉动阵列3000的处理元件的硬件逻辑相同或类似,并且可以利用相同的处理技术或更先进的处理技术制造。双路径矩阵乘法加速器3100的处理元件也可以相对于脉动阵列2900的实现以更高的频率操作。而且可以使用更先进的工艺技术制造处理元件。
可以使用与数据选择器3004、3024相同或类似的数据选择器来实现反馈。取决于读取逻辑的配置,输入数据可以提前预取到输入缓冲器中,或者在输入到处理元件3131A-3131B之前一个或多个循环从双路径矩阵乘法加速器3100内的寄存器或高速缓存被读取。级四的处理元件3134A-3134B可以反馈到级一的对应处理元件3131A-3131B。可以以四的倍数实现动态逻辑深度。在所配置数量的逻辑级之后,输出逻辑3122A-3122B可以将结果写入指定的目的地。
图32示出了四路径矩阵乘法加速器3200,其中每个路径具有为两级的深度。四路径矩阵乘法加速器3200包括与双路径矩阵乘法加速器3100相同数量的处理元件,其中以两倍的路径来配置处理元件,但每个路径的深度为一半。四路矩阵乘法加速器3200包括用于Src0的输入逻辑3202A-3202D,用于存储由用于Src2的输入逻辑3210A-3210D读取的输入元素的输入缓冲器3211A-3211D,以及用于存储由用于Src1的共享输入逻辑3212读取的输入元素的输入缓冲器3213A-3213D。处理元件3231A-3231B能够实现级1的并行处理。处理元件3232A-3232B能够实现级2的并行处理。每个路径的级2可以反馈到级1,或通过输出逻辑3222A-3222D将结果写入指定目的地。处理元件3231A-3231B、3232A-3232B可以包括与处理元件3131A-3131B、3132A-3132B、3131A-3133B、3134A-3134B的硬件逻辑类似的硬件逻辑,并且可以使用类似的硬件逻辑实现环回功能。
双路径矩阵乘法加速器3100或四路径矩阵乘法加速器3200的优点包括可扩展性、软件兼容性和吞吐量。这些加速器的模块化架构相对于8-深度脉动阵列能够实现更高效的扩展。矩阵乘法加速器的不同配置可以根据不同的产品需求或用例进行定制,而无需重新设计。此外,所使用的相同软件模型独立于硬件实现。针对意图由八级脉动流水线执行的指令设计的算法可用于使用四级矩阵乘法加速器的实现中。硬件将使用反馈,来以对软件透明的方式模拟八个级的流水线。在需要高DPAS指令吞吐量的设计中可以使用多个路径。具有更多数量的路径的实现可以与更高带宽的输入逻辑和输出逻辑耦合。在一个实施例中,双路径矩阵乘法加速器3100和四路径矩阵乘法加速器3200被配置为以比8深度脉动阵列更高的效率和/或更精细的粒度绕过具有块稀疏性的输入。
可扩展矩阵乘法加速器上的稀疏乘法
第三实施例促进在处理具有不规则稀疏性的数据时提高指令吞吐量。Src1和Src2输入的元素可以通过输入多路复用器逻辑单独选择,并且可以只使用非零值执行处理。
图33示出了使用具有反馈输入的脉动阵列的可扩展稀疏矩阵乘法加速器3300。可扩展稀疏矩阵乘法加速器3300可以包括处理元件3231A-3231D,如四路径矩阵乘法加速器3200中那样,或可以包括本文所述的任何其他处理元件。每个路径开头的处理元件3231A-3221B包括用于Src0的输入逻辑。可扩展稀疏矩阵乘法加速器3300的每个路径的每个级可以通过输入选择器3312A-3312D接收独立或共享Src1的任何元素。每个路径的每个级也可以接收Src2的任何元素。通过单独的输入元件选择器提供独立的Src2输入(例如,通过输入选择器3310A和输入选择器3311A提供Src2A,通过输入选择器3310B和输入选择器3311B提供Src2B)。单独的Src2输入使单独的路径能够计算不同的指令。每个路径存在单独的输出逻辑3322A-3322B,以能够实现针对不同指令的输出。
图34示出了使用脉动阵列的可扩展稀疏矩阵乘法加速器3400,每个级上具有反馈输入和输出。可扩展稀疏矩阵乘法加速器3400包括与可扩展稀疏矩阵乘法加速器3300类似的硬件逻辑,以及附加的输入和输出逻辑,以使Src0元素能够提供给每个路径的每个级,并为每个路径的每个级提供单独的输出。除了为第一路径选择Src2A元素的输入选择器3310A和3311A以及为第二路径选择Src2B输入的输入选择器3310A和3311B之外,还为用于Src0输入的每个路径添加了输入分路器3403A-3403B。每个输入分路器340A-3402B可以包括解复用器或类似的硬件逻辑,以使由输入逻辑3402A-3402B读取的Src0输入元素能够发送到每个级。还包括输入选择器3312A-3312D,以使Src1输入能够由每个路径的每个级挑选。除了来自每个路径的第二级(处理元件3431C-3431D)的输出逻辑3322A-3322B外,还提供了附加的输出逻辑3422A-3422B,以能够实现从每个路径的第一级(3431A-3431B)的输出。处理元件3431A-3431C在其他方面可以类似于本文所述的其他处理元件。
在操作期间,可扩展稀疏矩阵乘法加速器3400可配置为接受仅一个元素组成的群组。给定Src2输入{B0,0,B2,B3,0,0,0},为第三实施例(例如,可扩展稀疏矩阵乘法加速器3300)的Src2上的非零元素创建两个群组([B0,B2],[B3,0]),其中第二群组包括零填充。图34中所示的优化使群组能够形成为[B0,B2],[B3]。B0和B2将被分配到(例如,包括处理元件3431A和处理元件3431C的第一集合或包括处理元件3431B和处理元件3431D的第二集合的)路径的第一和第二级。反馈后,B3将被分配到该路径的第一级。由于路径的第一级可以提供输出(例如,通过输出逻辑3422A或3422B),因此不需要消耗(处理元件3431C或处理元件3431D的)路径的第二级。此外,该路径接受的下一个Src2输入可以从第二级开始,因此将两个元素组成的群组分别分配给第二和第一级。用于处理新Src2输入的Src0可以分配给路径的第二级(例如,通过输出逻辑3422A或3422B)。
除了图33所示的可扩展稀疏矩阵乘法加速器3300和图34所示的可扩展稀疏矩阵乘法加速器3400的硬件逻辑之外,一些实施例附加地包括输入和输出硬件存储器缓冲器。输入存储器缓冲器可用于存储和准备Src0和Src2输入的群组,这减少了对高带宽输入逻辑的需求。输出缓冲器允许在同一循环内生成的Dst输出以较慢的速率稳定地写入存储器,这减少了对高带宽输出逻辑的需求。
附加地,一些实施例包括针对其中所有元素为零的输入的旁路。旁路允许通过输出逻辑直接写入Src0,而无需通过脉动阵列。此旁路与数据依赖策略配合使用,以防止指令之间的先读后写(RAW)风险可能损害数据的完整性。
具有双流水线并行脉动阵列的矩阵加速器
图35示出了根据实施例的用于矩阵加速器的双流水线并行脉动阵列3500。如本文所述的矩阵加速器(例如,张量加速器2723、张量/RT核263、张量核371)或执行单元(例如,执行单元1900)可以包括双流水线并行脉动阵列3500,其包括并行操作以执行指令的两个脉动阵列流水线(脉动流水线3502、脉动流水线3504)。双流水线并行脉动阵列3500能够实现对提供为Src2输入的行数据进行分区,其中使用公共Src1输入并行处理这些分区。这种配置使得能够提高矩阵运算的吞吐量,而不会引起与两个单独且完全独立的脉动阵列相关联的功率和面积成本。
矩阵运算的输入可以从与矩阵加速器相关联的寄存器堆(例如,(一个或多个)寄存器堆258、334A-334B、369、向量寄存器1561、GRF 1821、寄存器堆1906等)中读取。双流水线并行脉动阵列3500包括两个脉动阵列流水线之间共享的用于Src1操作数的输入3521。Src1输入对列数据进行输入,所述列数据由两个脉动阵列流水线用于执行矩阵乘法运算,其中矩阵行数据的两个集合(Src2输入3522A-3522B)与列数据的单个集合相乘。单个Src2寄存器可以存储用于两个操作级的输入。例如,来自输入3522A-3522B的数据可以在64位块中读取,其中低32位用于脉动阵列的一个级处的操作,并且高32位用于脉动阵列的下一个连续级处的操作。由于一个Src2读取可用于阵列上的两个操作,因此一对Src2读取循环中的第二循环可用于为第二阵列读取新Src2。相对于两个完全独立的脉动阵列,用于Src1数据的公共输入3521和将Src2寄存器数据用于多个操作减少了对GRF的读取需求。相对于使用独立脉动阵列所减少的寄存器读取需求可以减少当与脉动阵列共享寄存器堆的其他处理元件与脉动阵列并发操作时,那些处理元件导致的对性能的潜在负面影响。
为Src0(累积器值)输入提供单独的输入3520A-3520B。来自输入3520A-2020B的数据存储在Src0数据缓冲器3530A-3530B中,并添加到来自脉动阵列流水线的输出中,而不是像其他脉动阵列设计那样在级0处添加。来自每个阵列的输出可以存储在累积器/加法器电路中,该电路包括存储器(例如,累积器寄存器)和加法器电路。累积器/加法器电路3532可以存储来自脉动流水线3502的输出,并将输出添加到存储在Src0数据缓冲器3530A中的数据。累积器/加法器电路3534可以存储来自脉动流水线3504的输出,并将输出添加到存储在Src0数据缓冲器3530B中的数据。
在一个实施例中,能够实现多次传递操作,使得阵列的八个物理级作为十六个逻辑状态操作。脉动流水线3502和脉动流水线3504中的每一个的八个级可以通过以下方式作为十六个逻辑级操作:将第一次传递的输出分别存储到第一累积器/加法器电路3532和第二累积器/加法器电路3534。存储在电路中的值可以与通过脉动流水线3502和脉动流水线3504中的每一个的第二次传递生成的输出进行累积。对于给定的级 i,该级在第一次传递期间作为级 i操作,并且在第二次传递期间作为级 i+8操作。取决于阵列是在执行第一次传递操作还是第二次传递操作,向阵列提供适当的输入数据。在一个实施例中,可以通过单次传递和/或多次传递或部分传递操作来支持任意数量逻辑级的指令的操作。选择器电路3536使得第一累积器/加法器电路3532和第二累积器/加法器电路3534内的数据能够输出到目的地寄存器。
图36示出了脉动阵列的通道的级对3600。在一个实施例中,图35的双流水线并行脉动阵列3500的每个阵列的物理流水线级被分组为级对3600。示出了用于级0(3610)和级1(3611)的级对3600,其他级对(例如,[2,3]、[4,5]、[6,7])被类似地配置。每个级的每个通道包括一对乘法器(例如,用于级0的乘法器3612A-3612B,用于级1的乘法器3613A-3613B)和公共加法器3604。累积器输入3620(Src0)被传递到图35所示的Src0数据缓冲器3530A-3530B,并且不由级对3600操作。适当的Src1寄存器数据作为输入提供给适当的级。单个Src2寄存器读取可以在级对3600中存储用于两个级的数据。
图37示出了脉动阵列3700,包括部分加和环回和电路,用于加速稀疏矩阵乘法。在上面描述的脉动阵列2808中,包括权重数据的操作数可以在阵列内是静止的,并且部分加和贯穿阵列结构被传播。虽然关于脉动阵列2808的其他细节可以是适用的,但在脉动阵列3700中,部分加和被再循环,而不是传播到下一个脉动层。在一个实施例中,脉动阵列3700可以配置有M行和N列处理元件(PE 3712AA-PE 3712MN)。处理元件可以访问以输入矩阵的行和列数据形式存储输入数据的寄存器。寄存器可以存储在脉动阵列3700本地的寄存器堆中,或者存储在与脉动阵列3700耦合或包括脉动阵列3700的处理资源的寄存器堆中。寄存器可以存储矩阵A 3702A-3702M的行元素,这些行元素要与矩阵B 3701A-3702N的列元素相乘。
在一个实施例中,可以在每个时钟循环在每个处理元件PE 3712AA-PE 3712MN处执行融合乘法-加法(FMA)。矩阵A的元素与矩阵B的相应元素相乘,并然后加到累积器值或对于第一循环而言加到可选初始输入值(例如SRC0)。可以在每个处理元件处配置部分加和环回。每次循环后,累积器值可在处理元件内环回,并用作下一个循环的输入。一旦对整行执行操作,结果可以存储到寄存器堆中。在计算循环集合之后的处理元件PE 3712AA-PE3712MN之间的数据移动可以基于正在执行的指令或宏操作而变化。
具有压缩的数据感知稀疏性
本文描述的实施例提供了一种编码布局,其使得稀疏神经网络数据的样本块能够以减少的位形式进行编码,所述减少的位形式减少了在处理与数据相关联的神经网络时需要传输或存储的数据量。样本块中非零值的数量在头部中指示,接着是显著性映射,该显著性映射指示块内非零值的映射。样本的非零值按流内的出现顺序进行编码。在一个实施例中,压缩可以基于零值以外的其他值。例如,可以对数据集合内的指定值进行编码并从压缩数据流中排除所述指定值,从而能够实现基于一、二或其他指定值的压缩。在一个实施例中,基于接近值能够实现压缩。数据集合内在零的阈值内或指定值的阈值内的值可以被压缩,就像那些值为零或在指定值的阈值内一样。通过与矩阵加速器逻辑耦合或在矩阵加速器逻辑内的编解码器逻辑,可以能够实现具有压缩的数据感知稀疏性。
图38A-38B示出了包括编解码器的矩阵加速电路,以能够实现以压缩格式读取稀疏数据。图38A示出了包括能够实现编解码器的分解脉动逻辑的计算块3800。图38B示出了与编解码器耦合以解压缩输入数据的脉动阵列内的处理元件。
如图38A所示,与在单独的张量加速器2723中包括脉动阵列2808(如图28A所示)或在每个执行单元1900中包括脉动阵列1912(如图19所示)不同,脉动阵列3812A-3812B的分解集合可以包括在计算块3800中,该计算块3800类似于图27的计算块2724A-2724N之一。计算块3800还可以包括图18A的执行逻辑1800的组件,包括多个互连的处理资源(PR 3808A-3808O),其可以类似于EU 1808A-1808N或本文所述的任何其他处理资源。在一个实施例中,脉动阵列3812A-3812B包括编解码器3824A-3824B,其能够实现对接收用于处理的输入和输出数据进行编码和解码。
脉动阵列3812A-3812B包括 W宽和 D深的数据处理单元网络,其可用于以脉动方式执行向量或其他数据并行操作,类似于本文所述的其他脉动阵列。在一个实施例中,脉动阵列3812A-3812B可以配置为执行矩阵运算,例如矩阵点积运算。在一个实施例中,脉动阵列3812A-3812B支持16位浮点运算,以及8位和4位整数运算。在一个实施例中,脉动阵列3812A-3812B可以配置为加速机器学习操作。在这样的实施例中,脉动阵列3812A-3812B可以配置为支持bfloat 16位浮点格式。通过将脉动阵列3812A-3812B包括在计算块3800内但在PR 3808A-3808O外,可以独立于PR 3808A-3808O的数量来缩放脉动阵列3812A-3812B的大小和数量。附加地,可以保留PR内否则会被脉动阵列活动消耗的通信带宽。此外,当未在执行矩阵工作负载时,脉动阵列3812A-3812B可以是时钟/功率选通的。
脉动阵列3812A-3812B和PR 3808A-3808O之间的通信可以通过高速缓存或共享本地存储器(高速缓存/SLM 3810)和/或共享寄存器堆3814执行。在一个实施例中,代替不同的共享寄存器堆3814,高速缓存/SLM 3810可以被分区以用作共享寄存器堆。共享寄存器堆3814可以类似于其他GPGPU寄存器堆(诸如图19所示的寄存器堆1906)那样被结构化。共享寄存器堆还可以包括专用寄存器集合,其用于配置脉动阵列3812A-3812B和PR 3808A-3808O之间的交互。高速缓存/SLM 3810可以是L1高速缓存、L2高速缓存和/或可显式寻址的管芯上存储器的块。
用于由脉动阵列3812A-3812B处理的矩阵数据可以存储在高速缓存/SLM 3810中。可以通过共享寄存器堆3814向脉动阵列3812A-3812B提供处理命令或指令。处理结果可以由PR 3808A-3808O从高速缓存/SLM 3810读取,或者从共享寄存器堆内的目标/输出寄存器读取。在操作期间,可以将通信流量本地化到脉动阵列3812A-3812B、高速缓存/SLM 3810和/或共享寄存器堆3814,而不是消耗PR 3808A-3808O内的总线/组构带宽。计算块3800内的任何PR 3808A-3808O可以将矩阵工作负载卸载到一个或两个脉动阵列3812A-3812B。可以用指定要执行的操作和供操作的操作数的命令将消息从PR发送到脉动阵列。脉动阵列3812A-3812B可以执行请求的操作(乘法/加法、融合乘法/加法、乘法/累积、点积等),并将结果输出到共享寄存器堆3814。用于请求的操作的输入、中间和/或输出数据可以存储在高速缓存/SLM 3810中,并且可以链接多个相关操作。在一个实施例中,当执行用于神经网络的训练或推理的处理操作时,脉动阵列3828A-3828B还可以执行激活函数,包括但不限于sigmoid、ReLU和双曲正切(TanH)激活。在这样的实施例中,用于神经网络的操作可以以粗粒度卸载到脉动阵列3812A-3812B。
PR 3808A-3808O可以以压缩格式向脉动阵列3812A-3812B提供输入数据,并且编解码器3824A-3824B可以用于解压缩数据。当输出数据准备好提供给PR 3808A-3808O时,如果PR将执行操作和数据并且不支持压缩数据的直接读取,则数据可保持解压缩。如果PR3808A-3808O支持读取压缩数据或将不对数据执行附加操作,则可以对输出数据进行重新编码。可以使用基于零的编码,并且可以基于数据稀疏度启用或禁用压缩。备选地,可以基于要处理或输出的数据集合的分布使用其他形式的编码。例如,编解码器3824A-3824B可以配置为解码根据基于零压缩或使用本文所述的另一种压缩形式(例如,基于一、基于二、接近零、接近一、接近二等)编码的稀疏数据。
如图38B所示,系统3850示出了脉动阵列3700的处理元件,其中脉动阵列被配置为解码压缩的稀疏数据。如关于图37所述,每个PE 3712AA-3713MN包括用于执行矩阵运算的计算的硬件逻辑。A(A0,A1,到AM)和B(B0,B1,到BN)是输入矩阵的元素,与点积、矩阵乘法、乘法/加法或乘法累积运算相关联。在一个实施例中,每个PE 3712AA-3713MN与编解码器(3851a,3851b……3851m;3852a,3852b……3852n)相关联,以解码与要执行的操作相关联的压缩输入操作数。编解码器可以配置为解码根据基于零压缩或使用本文所述的另一种压缩形式编码的稀疏数据。
稀疏神经网络数据可以使用各种编码技术进行编码(例如压缩),诸如但不限于唯一绝对值(UAV)表编码、显著性映射(SM)编码、表编码(TE)、唯一值坐标(UVC)编码和平均值编码(ME)。编码数据的元数据指示用于数据的编码格式的类型。在一个实施例中,可以为特定类型的数据(诸如内核数据或特征数据)选择特定的编码格式。在一个实施例中,在编码之前对数据执行统计分析,以使得能够为每个数据块选择适当的编码器。编码可以是基于零编码、接近零编码或基于其他值(一、二等)。
在一个实施例中,SM编码期间生成的数据可用于促进向脉动张量阵列提供压缩数据。在基于零的SM编码模式中,仅对块中的非零值进行编码。样本块中非零值的数量在头部中指示,接着是显著性映射,指示块内非零值的映射。然后按照流中出现的顺序对样本的非零值进行编码。
使用混合精度卷积神经网络的时间摊销超采样
本文描述的实施例提供了基于机器学习的时间摊销超采样技术,其取代了时间性抗锯齿(TAA)。使用混合低精度卷积神经网络,其在不同级应用不同的计算精度,以使得能够基于以相对低于目标输出分辨率的分辨率渲染的源图像来高性能生成高质量图像。网络模型能够实现支持多个比例因子的抗锯齿和升尺度,包括分数比例因子,诸如但不限于1.3x、1.5x、1.7x、2x或2.2x。其他比例因子也是可能的。可以生成时间稳定的升尺度输出,其具有的图像质量优于或等于目标分辨率下的原生渲染。在各种实施例中,提供了可以在各种不同图形处理架构上实现的不同版本,包括具有如上在图28A到图34中所述的矩阵加速硬件的架构,以及缺乏专用矩阵加速硬件的图形处理器架构。
图39示出了具有时间抗锯齿(TAA)的常规渲染器3900。栅格化和照明级3910内的渲染器可以在针对每个帧渲染期间抖动(3905)相机3902,以对屏幕空间3904中的不同坐标进行采样。随着时间的推移,可以从不同的帧中采样不同的像素。TAA级3916将这些样本暂时累积,以产生超采样图像。使用渲染器生成的速度/运动向量3922将变形操作(warpingoperation)3924应用于先前累积的帧(历史3923),以在累积之前将先前累积的帧与当前帧3912(帧N)对齐。在输入到TAA级3916之前,可以在当前帧上执行可选的升尺度3914,使得可以以低于目标分辨率的分辨率渲染当前帧。然后可以将输出帧添加到历史3923以在处理下一帧中使用。然后可以在升尺度的目标分辨率下执行后处理操作3918。虽然用TAA应用升尺度可以改进渲染性能,但输出图像的质量低于以目标分辨率原生渲染的图像。一些TAA实现可以使用启发法3915,诸如但不限于邻域颜色钳制、对象标识符比较和深度值比较,以检测当前帧和历史帧之间的失配并拒绝历史像素。然而,这些启发法经常失败,并产生明显的重影量、过度模糊和/或闪烁。
图40示出了根据本文提供的实施例的渲染器4000,其将TAA级取代为时间摊销超采样级。渲染器4000与图39的渲染器3900的不同之处在于,在渲染器4000中,使用神经网络模型4050执行时间摊销超采样,该神经网络模型4050包括混合低精度卷积神经网络,该混合低精度卷积神经网络取代了游戏渲染器中的TAA级,实现了比常规的基于TAA的技术显著更好的图像质量,以及通过使渲染能够以较低的分辨率执行而提供了性能提升。渲染器4000可以以低于目标分辨率的分辨率渲染当前帧3912。向渲染图像应用升尺度过滤器4014,以将图像升尺度到目标分辨率。在一个实施例中,在将当前帧3912提供给超采样级之前,渲染器4000应用升尺度过滤器4014。在一个实施例中,在预处理操作期间由神经网络模型4050执行升尺度过滤器。升尺度过滤器4014可以包括优化,以增强由神经网络模型4050执行的处理产生的图像的时间稳定性的图像质量。历史3923上的变形操作4024可以由神经网络模型4050的输入块执行。在一个实施例中,历史3923是包括来自多个先前帧的数据的多帧历史。
混合低精度卷积神经网络通过神经网络模型4050以及其他操作来实现,该神经网络模型4050由多个卷积层组成,所述其他操作以低精度(诸如INT8)执行、与以更高精度(诸如FP16)执行的操作混合。精度的混合使网络能够实现快速的计算速度,同时生成高质量的输出图像。较低精度值不限于INT8,并且不同的低精度数据格式(例如INT4、二进制、双极二进制、三值等)可用于变型。大多数神经网络模型4050和与神经网络模型相关联的操作以较低的精度执行,以能够实现高推理性能。计算上较小的部分以相对较高的精度执行,以保持输出质量。除了使用FP16进行较更高精度的操作外,还可以使用其他浮点精度,诸如FP8、BF16或TF32。此外,大多数神经网络模型4050也在减少的空间维度中,以通过将输入像素从空间(宽度、高度)维度重排(shuffle)到深度或特征映射通道维度来提供快速推理性能,而不会丢失像素信息。在生成输出图像期间,空间维度从通道维度重排回。
通过组合当前帧和与当前运动向量变形的先前输出帧来执行时间摊销超采样。神经网络模型4050确定组合升尺度的当前帧3912和历史3923的方式。在各种实施例中,应用多种不同的方法来保持输出质量。在一个实施例中,使用1x1或3x3输出卷积来执行升尺度的当前帧3912和历史的高精度组合。在另一实施例中,执行升尺度图像的像素预测和高精度过滤以生成高质量的升尺度图像。神经网络模型4050用于生成提供给内核预测和过滤操作的输入。
在神经网络模型4050的训练期间,优化了知觉(perceptual)和时间损失函数二者,以增强图像质量和上采样与抗锯齿的时间稳定性二者。在一个实施例中,广义训练足以能够跨各种游戏实现高质量输出,而不需要广泛的每游戏、每升尺度因子或每目标分辨率训练。
图41示出了根据实施例的神经网络模型4100的实现。神经网络模型4100是图40的神经网络模型4050的实现。在一个实施例中,神经网络模型4100由三个组件组成:输入块4108、特征取出网络4110和输出块4120。针对大多数神经网络模型使用较低精度(例如整数)操作,以实现快速推理性能。使用较高精度(例如浮点)操作生成神经网络模型的输出,以使得能够生成高质量的输出图像。例如,与以相对较高的精度(例如,FP16)执行的输出块4120相比,特征取出网络4110中的编码器(编码器块1到编码器块N)、瓶颈块和解码器块(解码器块1到解码器块N)以相对较低的精度(例如,INT8)执行。在特征取出网络4110中利用较低精度显著降低了计算复杂度,并改进了用于快速推理性能的存储器带宽。在输出块4120中利用较高精度使得能够生成具有与以目标分辨率原生渲染的图像一样好或在某些情况下更好的图像质量的输出图像。如上所述,可以使用除INT8和FP16之外的其他精度或数据类型,诸如但不限于用于较低精度操作的INT4,和用于较高精度操作的BF16或TF32。神经网络模型4100执行的任何计算都可以使用本文所述的张量核、脉动阵列或矩阵加速器逻辑中的任何一个来加速,或者可以回退到用于其中缺少矩阵加速逻辑的图形处理器的点积指令(例如,dp4a)。
输入块4108接收用于相机的历史数据4102、速度数据4104、当前帧4106和抖动偏移4107作为输入。历史数据4102包括先前生成的输出。先前生成的输出至少包括紧前帧(帧N-1),该帧使用速度数据4104变形以将该帧与当前帧4106对齐以进行时间累积。在各种实施例中,除了先前帧之外,历史数据4102还可以包括先前生成的输出的一个或多个附加帧(例如,帧N-2等),其也可以作为输入提供给特征取出网络4110。抖动偏移4107是应用于抖动场景的亚像素相机偏移,对于连续帧使用不同的抖动值。输入块生成精度较低和较高的张量二者。向特征取出网络4110提供较低精度张量。向输出块4120提供较高精度张量。关于输入块4108的进一步细节在图42中示出。
特征取出网络4110构建在U形网络架构上,诸如,例如U-网架构。特征取出网络4110与常规U-网架构的不同之处在于,特征取出网络4110在编码器4112和解码器4116中包括非对称结构。特征取出网络4110的编码器4112包括一系列编码器块,这些编码器块对输入张量的空间维度进行下采样,同时增加通道(深度或特征映射)的数量,直到在网络中间的瓶颈块处产生潜表示(latent representation)4114。潜表示4114是对输入数据的有意义特征进行编码的抽象多维空间。解码器4116的解码器块通过上采样空间维度和减少通道数量来反转该过程。编码器块具有到相应解码器块的跳过连接,这使得高频细节能够在编码器4112和解码器4116之间中继。来自编码器块1的输出被提供给解码器块2,以与来自解码器块3的输出结合处理。来自编码器块2的输出被提供给编码器块3,以与来自网络中的先前解码器块的输出结合处理。编码器块N的输入被提供给解码器块N。作为最终解码器块的解码器块1接收来自输入块4108和解码器块2的输入。来自解码器块1的解码器4116取决于用于输出块4120的实现方法,以较高精度格式或较低精度格式向输出块4120提供数据。关于输出块的进一步细节在图43A和图43B中示出。
图42示出了根据实施例的神经网络模型4100的输入块4108的进一步细节。输入块4108接收包括历史数据4102、速度数据4104、当前帧4106和抖动偏移4107的输入。输入块4108包括变形单元4202,以使用速度数据4104内的运动向量使历史数据4102内的先前输出变形。输入块4108还包括升尺度单元4203,以对当前帧4106升尺度。在一个实施例中,由升尺度单元4203应用的升尺度过滤器是基于抖动偏移4107调整升尺度的自适应过滤器。空间到通道/深度重排单元4204将像素从空间维度(宽度、高度)重排到通道(例如,特征映射)或深度维度,这促进在特征取出期间通过降低数值精度和空间维度来进行高性能推理。例如,对于在空间维度中具有(通道、高度、宽度)数据像素的输入图像,可以将像素数据重排到(通道×r2,高度/r,宽度/r),这降低了在其中执行特征取出的空间维度,这改进了特征取出网络4110的性能。输入块4108生成较低精度(例如INT8)和较高精度(例如FP16)张量。较低精度张量被提供作为特征取出网络4110的输入,而较高精度张量被传递到输出块4120、4320A-4320B。输入块4108还包括可选卷积/激活层4206,可在数据输出到特征取出网络之前应用该可选卷积/激活层4206。
图43A-43B示出了根据实施例的神经网络模型的输出块变体。图43A示出了解码器块4320和输出块4320A的变体,其被配置为执行用于输出图像的像素数据的直接生成。图43B示出了解码器块4320和输出块4320B的变体,其被配置为应用内核像素预测和过滤以生成输出图像的内核预测网络。在图43A-43B中,示出了解码器块4320(解码器块1)作为示例。虽然编码器4112的每个编码器块包括促进特征取出的下采样块和一个或多个卷积/激活层,但解码器4116的每个解码器块包括上采样块4322以增加空间维度和一个或多个卷积/激活层4324、4326以恢复特征。解码器块1接收来自解码器块2的数据以及来自输入块的跳过连接数据。对于输出块4320A-4320B,可以采取两种不同的方法以较高精度保持质量。一个实施例提供输出块4320A,如图43A所示,其将神经网络4100配置为作为直接重构网络操作。一个实施例提供输出块4320B,如图43B所示,其将神经网络4100配置为作为内核预测网络操作。
对于图43A的输出块4320A,使用1x1或3x3输出卷积层4330组合来自输入块4108和特征取出网络4110的数据,以直接生成用于输出图像的数据。输出卷积层4330接收来自最终解码器块4320的(一个或多个)卷积/激活层4326的较高精度(例如FP16)输出以及来自输入块4108的较高精度输入作为输入。将由输出卷积层4330生成的数据提供给深度/通道到空间重排单元4332,该深度/通道到空间重排单元4332将数据重排回空间维度以生成输出图像4340。输出图像4340可以经由显示器输出,或者在经由显示器输出之前进行进一步的后处理。在一个实施例中,卷积层4330还执行去噪操作。在一个实施例中,在输出图像4340的后处理期间执行附加去噪操作。
对于图43B的输出块4320B,执行内核预测和过滤。取代直接生成输出图像的是,由内核预测层4334预测每像素内核值(例如,权重)。较低精度(INT8)张量由解码器块4320输出以供内核预测层4334使用,内核预测层4334将较低精度张量与输入块4108提供的较高精度张量组合使用。深度/通道到空间重排单元4332将帧数据重排回空间维度以生成中间输出图像。然后,中间输出图像由过滤/混合层4346使用由内核预测层4334生成的每像素内核值进行过滤,并使用由内核预测层4334生成的混合权重与先前输出进行混合。然后提供经过滤和混合的图像作为输出图像4340。在一个实施例中,过滤/混合层4346还被配置为执行去噪操作,或者在输出图像4340的后处理期间执行附加去噪操作。
图44示出了执行时间摊销超采样的方法4400。方法4400包括在本文所述的神经网络模型(例如,神经网络模型4050)的输入块处接收历史数据、速度数据和当前帧数据(4402)。历史数据包括一个或多个先前生成的帧。速度数据包括渲染器生成的运动向量,所述运动向量用于将一个或多个先前生成的帧与当前帧的像素数据对齐。当前帧数据包括3D图形程序(诸如3D游戏应用程序)的帧,该帧由图形处理器渲染流水线的栅格和照明级输出。在一个实施例中,当前帧是已经由升尺度过滤器从初始渲染分辨率升尺度到目标分辨率的升尺度帧。在一个实施例中,在预处理期间将当前帧升尺度到目标分辨率。输入块提供多个精度的输出,其中第一输出集合以高精度提供给输出块,并且第二输出集合以相对较低精度提供给特征取出网络。在一个实施例中,第一输出集合作为浮点数据(例如FP16、BF16)提供,而第二输出集合作为整数数据(例如INT4、INT8)提供。
然后,神经网络模型可以在输入块处预处理历史数据、速度数据和当前帧数据,并将预处理数据提供给特征取出网络(4404)。提供给特征取出网络的预处理数据包括对齐的历史数据和当前帧数据。使用速度数据对历史数据变形,以生成变形的历史数据。然后将变形的历史数据与当前帧数据对齐,以生成对齐的历史数据。对齐的历史数据提供了附加的样本数据,其可用于通过时间累积生成超采样抗锯齿输出图像。在一个实施例中,预处理包括将当前帧数据从栅格和照明级输出的分辨率升尺度到目标分辨率。
神经网络模型通过一个或多个编码器级和一个或多个解码器级在特征取出网络处处理预处理数据(4406)。编码器级降低输入数据的空间分辨率,并取出输入数据内最显著的特征。然后,通过解码器级扩展空间分辨率,以生成张量数据,该张量数据用于根据对齐的历史处理当前升尺度帧,以生成具有至少等于以目标分辨率原生渲染的图像的图像质量的高质量升尺度帧。取出的特征用于确定时间累积期间当前帧和先前帧的优化组合。
然后,神经网络模型可以通过使用直接重构或内核预测的时间累积,通过神经网络模型的输出块生成输出帧(4408)。输出帧是抗锯齿图像,其具有高于渲染流水线的渲染分辨率的分辨率,该抗锯齿图像具有附加生成的像素以增强图像质量超过原始升尺度图像的图像质量。在一个实施例中,神经网络模型被配置为直接重构网络,其通过一个或多个卷积层生成高质量的输出图像以供显示。当配置为直接重构网络时,特征取出网络提供较高精度张量(例如FP16、BF16)作为输出块的输入。输出块将来自特征取出网络的较高精度输出与来自输入块的较高精度输出组合使用来生成输出图像。在一个实施例中,神经网络模型被配置为内核预测网络,其生成应用于高精度过滤器的每像素内核值。当配置为内核预测网络时,特征取出网络向输出块提供功率精度张量(例如,INT4、INT8)。输出块将来自特征取出网络的较低精度输出与来自输入块的较高精度输出组合使用来预测先前像素内核/混合权重,所述先前像素内核/混合权重用于过滤升尺度输入并将过滤后的输入与先前输出混合。
图45示出了本文所述的多种渲染技术的示例性渲染性能比较。低质量渲染4505(例如以1080p分辨率)的渲染时间显著低于高质量渲染4501(例如以4K分辨率)的渲染时间。传统的升尺度4504(TAA上采样、时间超分辨率、FidelityFX超分辨率)以低分辨率渲染帧,并且低分辨率图像被上采样到目标显示分辨率,以实现性能提升以及潜在地相对于低质量渲染4505的图像质量改进。
使用混合精度卷积神经网络的时间摊销超采样的一种实现是由Intel®Incorporated提供的Xe SS。Xe SS可以通过使用英特尔Xe矩阵扩展(XMX)在包括矩阵加速器(例如张量加速器2723)的硬件上执行。通过Xe SS+XMX 4502进行渲染可以产生比低质量渲染4505或传统升尺度4504显著更高质量的图像,并且渲染时间比原生4K分辨率下的高质量渲染4501显著更短。通过Xe SS+DP4a 4503进行的渲染用点积指令(DP4a)替换XMX,该点积指令可以由来自各种供应商的各种图形处理器架构执行,并产生高质量图像和仍然显著短于在原生4K分辨率下的高质量渲染4501的渲染时间。在一个实施例中,通过图43A的输出块4320A使用直接重构来执行Xe SS+XMX 4502,而通过图43B的输出块4320B使用内核预测和过滤来执行Xe SS+DP4a 4503。
样本分布知情去噪和渲染
反照率(albedo)和法线(normal)数据在渲染场景的照明期间使用,并且可以进一步用作辅助特征图像,以改进去噪质量。如图46所示,当执行延迟照明操作时,在几何传递期间生成G缓冲区4600。G缓冲区4600是存储场景中对象的几何信息的纹理集合,所述几何信息诸如位置4601、法线4602、反照率4603和镜面反射4604值。使用像反照率和法线这样的辅助特征图像有助于保留图像中的精细细节和纹理,这可以显著改进去噪质量。然而,由于场景内的附加效果,诸如运动模糊、景深或光泽反射,这些辅助通道可能会有噪声。该噪声的存在可能需要对图像的高频部分进行过度模糊,所述高频部分是图像中每像素强度变化率高的部分。可以出现过度模糊的原因是,在较低的采样率下,那些图像内的噪声可能难以与结构区分,这可能导致结构信息的破坏。此外,某些类型的渲染可能受益于对随机路径空间采样产生的辅助缓冲区进行去噪的能力,这可能会导致更大程度的过度模糊。
本文所述的实施例提供了在对内容(诸如本文所述的时间超采样和抗锯齿渲染流水线的输出)进行去噪时使得能够使用噪声辅助缓冲区的技术。矩(moment)可用于表征样本的分布:。方差可以用作检测样本内噪声的可靠性度量,其中方差=。然而,对于某些类型的数据,使用方差可能变得不可靠。对于高动态范围(HDR)颜色数据,HDR样本的方差(即一阶矩(first moment))的阶为S2。该方差的方差(即二阶矩)的阶为S4。这种大方差降低了该度量作为样本可靠性测量的可靠性。
为了改进方差作为可靠性度量的有用性,可以使用广义矩来表征样本分布:,对于任意函数 M i ,例如。在一个实施例中,使用色调映射函数,其中 M log 计算色调映射样本,并且 x是曝光归一化亮度:
在这种配置中,方差通过Jensen间隙来表征,这里Jensen间隙=。该广义矩输入具有较低的方差,并且可以编码更可靠的信息。
在一个实施例中,知觉输入变换用于生成矩:,其中并且。编码是指知觉统一编码。知觉统一编码的目标是确保失真可见性沿所有编码值大致统一。当这样的编码的微分与检测阈值成比例时,实现该目标,其中检测阈值是指人类视觉系统的检测阈值。基于对比度比对强度(cvi)函数,可以根据作为像素亮度函数的估计对比度检测阈值导出知觉统一编码,该对比度比对强度(cvi)函数可以定义为:
其中,CSF是对比度灵敏度函数,并且 x对应于所有参数(空间频率、取向、刺激大小等),但自适应亮度 L a 和背景亮度 L除外。 MA()函数估计由于人眼适应不良导致的灵敏度损失。给定上述cvi函数,检测阈值可以估计为:
可以使用以下递归公式估计从检测阈值的知觉统一映射:
根据上述内容,增强网络输入集合可以用于提供帧内样本的可靠性评估,并包括可靠矩 m pu 和Jensen间隙:,其中通道的总和复原标准HDR输入。该可靠性评估用于通过基于方差的去噪过滤器调整应用于样本的模糊因子。
图47A-47B示出了根据本文所述实施例的具有样本可靠性度量数据作为输入的神经网络模型4700。图47A示出了类似于图41的神经网络模型4100的神经网络模型4700。在一个实施例中,添加基于上述描述计算的样本可靠性度量数据4701作为附加输入。备选地,输入块4708可以被配置为在输入数据预处理期间计算样本可靠性度量数据4701,例如连同进行对当前帧4706升尺度以及变形和对齐历史数据4102,如图47B所示。可以使用样本可靠性度量数据4701作为输入来训练神经网络模型4700,以学习在时间累积超采样和抗锯齿操作期间合并可靠性度量。此外,除了彩色图像之外,当前帧4706还可以包括辅助图像。例如,除了颜色数据之外,还可以提供反照率、法线和/或镜面反射图像作为辅助输入。然后,可以训练神经网络模型4700,以在由于诸如景深或运动模糊的影响将噪声引入辅助图像的情况下,使用该辅助输入数据执行时间累积超采样和抗锯齿而不会过度模糊输出数据。
图47B示出了配置为计算样本可靠性度量数据4701的输入块4708。样本度量单元4703计算一个或多个样本度量,包括样本可靠性度量数据4701。在各种实施例中,样本度量单元4703可以直接计算样本可靠性度量数据4701,或者样本度量单元4703是紧凑神经网络,其可以训练来预测用于帧的样本可靠性度量数据4701。在一个实施例中,在输入块之前执行用于帧的样本分布信息的初始表征,并且样本可靠性度量数据4701由样本度量单元4703基于该初始表征来计算。样本可靠性度量数据4701,无论是作为神经网络模型4700的输入计算的还是由样本度量单元4703计算的,都可以使用本文描述的任何脉动阵列(例如脉动阵列2900、脉动阵列3000、双流水线并行脉动阵列3500、脉动阵列3700、脉动阵列3812A-3712B)、矩阵乘法加速器(双路径矩阵乘法加速器3100、四路径矩阵乘法加速器3200)或稀疏矩阵乘法加速器(可扩展稀疏矩阵乘法加速器3300、可扩展稀疏矩阵乘法加速器3400)针对像素区域中的多个像素被并行计算。样本可靠性数据还可以用作升尺度单元4203的输入,以能够实现当前帧4106的自适应升尺度。
图48示出了根据本文所述实施例的示例性去噪和参考图像。与参考4802相比时,使用噪声辅助信息对HDR输入执行的去噪操作可能产生具有对高频数据的过度模糊的图像4801。然而,当添加增强分布信息作为输入时,输出具有对结构数据减少的过度模糊的去噪图像4803,即使在使用多个噪声辅助输入(例如反照率和发现)时也是如此。
图49是根据实施例的样本分布知情去噪和渲染的方法4900。方法4900可以在配置为执行如图47A所示的神经网络模型4700的图形处理装置上执行。方法4900包括预处理当前帧以表征样本可靠性(4902)。样本可靠性可以使用可靠矩 m pu 和Jensen间隙:来表征,其中通道的总和复原标准HDR输入,并且 pu是用于生成知觉统一映射的知觉输入变换。在一个实施例中,在将帧的输入提供给神经网络的输入块(例如,输入块4108)之前,执行用于确定样本可靠性的预处理,使得方法4900附加地包括将样本可靠性度量连同当前帧、先前帧、抖动偏移和速度数据一起作为输入提供给神经网络(4904)。在一个实施例中,样本可靠性由输入块在预处理其他输入数据的同时执行。方法4900附加地包括,在神经网络处理期间,基于样本度量追踪样本的可靠性(4906)。由于基于样本度量追踪样本的可靠性,神经网络可以减少应用于具有高可靠性度量的样本的模糊(4908)。高可靠性度量是超过可靠性阈值的可靠性度量。在不同的环境中,针对帧的样本,可以按帧范围的可靠性度量动态调整用于样本的可靠性阈值。
附加示例性计算设备
图50是根据实施例的包括图形处理器5004的计算装置5000的框图。计算装置5000的版本可以是或者被包括在诸如机顶盒(例如,基于因特网的有线电视机顶盒等)、基于全球定位系统(GPS)的装置等的通信装置中。计算装置5000还可以是或被包括在诸如蜂窝电话、智能电话、个人数字助理(PDA)、平板计算机、膝上型计算机、电子阅读器、智能电视、电视平台、可穿戴装置(例如,眼镜、手表、手镯、智能卡、珠宝、衣物等)、媒体播放器等的移动计算装置内。例如,在一个实施例中,计算装置5000包括采用诸如片上系统(“SoC”或“SOC”)之类的集成电路(“IC”)的移动计算装置,其在单个芯片上集成计算装置5000的各种硬件和/或软件组件。计算装置5000可以是包括如图27中所示的数据处理系统2700中示出的组件的计算装置。
计算装置5000包括图形处理器5004。图形处理器5004表示本文所述的任何图形处理器。在一个实施例中,图形处理器5004包括高速缓存5014,其可以是单个高速缓存或被划分为多个高速缓冲存储器段,包括但不限于任意数量的L1、L2、L3或L4高速缓存、渲染高速缓存、深度高速缓存、采样器高速缓存和/或着色器单元高速缓存。在一个实施例中,高速缓存5014可以是与应用处理器5006共享的末级高速缓存。
在一个实施例中,图形处理器5004包括实现图形处理器的控制和调度逻辑的图形微控制器。控制和调度逻辑可以是由图形微控制器5015执行的固件。固件可以在引导时由图形驱动器逻辑5022加载。固件还可以被编程到电子可擦除可编程只读存储器或从闪存装置加载在图形微控制器5015内。固件可以启用包括装置管理逻辑5017和驱动器逻辑5018以及调度器5019的GPU OS 5016。GPU OS 5016还可以包括图形存储器管理器5020,其可以补充或替换图形驱动器逻辑5022内的图形存储器管理器5021。
图形处理器5004还包括GPGPU引擎5044,该引擎包括一个或多个图形引擎、图形处理器核和本文所述的其他图形执行资源。此类图形执行资源可以以包括但不限于以下各项的形式存在:执行单元、着色器引擎、片段处理器、顶点处理器、流播多处理器、图形处理器集群、或适用于处理图形资源或图像资源或在异构处理器中执行通用计算操作的任何计算资源集合。GPGPU引擎5044的处理资源可以包括在连接到衬底的多个硬件逻辑贴片内,如图24B-24D所示。GPGPU引擎5044可以包括GPU贴片5045,GPU贴片5045包括图形处理和执行资源、高速缓存、采样器等。GPU贴片5045还可以包括本地易失性存储器,或者可以与一个或多个存储器贴片耦合,诸如图16B-16C中所示的存储器贴片1626A-1626D。
GPGPU引擎5044还可以包括一个或多个特殊贴片5046,其包括例如非易失性存储器贴片5056、网络处理器贴片5057和/或通用计算贴片5058。GPGPU引擎5044还包括矩阵乘法加速器5060。通用计算贴片5058还可以包括用于加速矩阵乘法运算的逻辑。非易失性存储器贴片5056可以包括非易失性存储器单元和控制器逻辑。非易失性存储器贴片5056的控制器逻辑可以由装置管理逻辑5017或驱动器逻辑5018中的一个来管理。网络处理器贴片5057可以包括耦合到计算装置5000的输入/输出(I/O)源5010内的物理接口的网络处理资源。网络处理器贴片5057可以由装置管理逻辑5017或驱动器逻辑5018中的一个或多个来管理。
在一个实施例中,矩阵乘法加速器5060是模块化可扩展稀疏矩阵乘法加速器。矩阵乘法加速器5060可以包括多个处理路径,其中每个处理路径包括多个流水线级。每个处理路径可以执行单独的指令。在各种实施例中,矩阵乘法加速器5060可以具有本文所述的任何一个或多个矩阵乘法加速器的架构特征。例如,在一个实施例中,矩阵乘法加速器5060是可配置为以四的倍数个逻辑级(例如,四、八、十二、十六等)操作的脉动阵列3000。在一个实施例中,矩阵乘法加速器5060包括具有四级流水线的双路径矩阵乘法加速器3100或具有两级流水线的四路径矩阵乘法加速器3200的一个或多个实例。在一个实施例中,矩阵乘法加速器5060包括配置为可扩展稀疏矩阵乘法加速器的处理元件。矩阵乘法加速器5060可用于加速通过XMX扩展或促进矩阵计算操作加速的另一计算库执行的矩阵运算。例如,矩阵乘法加速器5060可以执行张量计算,以训练或推理本文所述的神经网络模型4050、4100、4700。
如图所示,在一个实施例中,并且除了图形处理器5004之外,计算装置5000还可以包括任何数量和类型的硬件组件和/或软件组件,包括但不限于应用处理器5006、存储器5008和输入/输出(I/O)源5010。应用处理器5006可以与硬件图形流水线交互,以共享图形流水线功能。处理后的数据被存储在硬件图形流水线的缓冲器中,并且状态信息被存储在存储器5008中。所得到的数据可以被传送到显示控制器,以经由显示装置输出。显示装置可以是各种类型的,例如阴极光线管(CRT)、薄膜晶体管(TFT)、液晶显示器(LCD)、有机发光二极管(OLED)阵列等,并且可以被配置为经由图形用户界面向用户显示信息。
应用处理器5006可以包括一个或多个处理器,例如图1的(一个或多个)处理器102,并且可以是中央处理单元(CPU),其至少部分地用于执行计算装置5000的操作系统(OS)5002。OS 5002可以充当计算装置5000的硬件和/或物理资源与一个或多个用户之间的接口。OS 5002可以包括用于计算装置5000中的各种硬件装置的驱动器逻辑。驱动器逻辑可以包括图形驱动器逻辑5022,其可以包括图23的用户模式图形驱动器2326和/或内核模式图形驱动器2329。图形驱动器逻辑可以包括图形存储器管理器5021,用于管理图形处理器5004的虚拟存储器地址空间。图形存储器管理器5021可以促进可由应用处理器5006和图形处理器5004访问的统一虚拟地址空间。
应预期到的是,在一些实施例中图形处理器5004可以作为应用处理器5006的一部分(例如,物理CPU封装的一部分)存在,在这种情况下,存储器5008的至少一部分可以由应用处理器5006和图形处理器5004共享,尽管存储器5008的至少一部分可以是图形处理器5004所独占的,或者图形处理器5004可以具有存储器的单独存储部。存储器5008可以包括缓冲器(例如,帧缓冲器)的预分配区域;然而,本领域普通技术人员应该理解,实施例不限于此,并且可以使用可访问较低图形流水线的任何存储器。存储器5008可以包括各种形式的随机存取存储器(RAM)(例如,SDRAM、SRAM等),包括利用图形处理器5004来渲染桌面或3D图形场景的应用。诸如图14的存储器控制器1416之类的存储器控制器集线器可以访问存储器5008中的数据并将其转发到图形处理器5004以进行图形流水线处理。可以使存储器5008可用于计算装置5000内的其他组件。例如,从计算装置5000的各种I/O源5010接收的任何数据(例如,输入图形数据)可以在在软件程序或应用的实现中由一个或多个处理器(例如,应用处理器5006)操作它们之前暂时排队到存储器5008中。类似地,软件程序确定的数据应通过计算系统接口之一从计算装置5000发送到外部实体,或存储到内部存储元件中,通常在其被传输或存储之前暂时在存储器5008中排队。
I/O源可以包括诸如触摸屏、触摸面板、触摸板、虚拟或常规键盘、虚拟或常规鼠标、端口、连接器、网络装置等的装置,并且可以经由平台控制器集线器1430附接,如图14中引用的。另外,I/O源5010可以包括一个或多个I/O装置,其被实现为用于向和/或从计算装置5000传送数据(例如,网络适配器);或者被实现为用于计算装置5000内的大规模非易失性存储(例如,SSD/HDD)。包括字母数字和其他键的用户输入装置可以用于将信息和命令选择传送给图形处理器5004。另一类型的用户输入装置是光标控件,例如鼠标、轨迹球、触摸屏、触摸板或光标方向键,以用于将方向信息和命令选择传送给GPU,并控制光标在显示装置上的移动。可以采用计算装置5000的相机和麦克风阵列来观察手势、记录音频和视频以及接收和传输视觉和音频命令。
I/O源5010可以包括一个或多个网络接口。网络接口可以包括相关联的网络处理逻辑和/或与网络处理器贴片5057耦合。一个或多个网络接口可以提供对以下各项的访问:LAN、广域网(WAN)、城域网(MAN)、个域网(PAN)、蓝牙、云网络、蜂窝或移动网络(例如,第三代(3G)、第四代(4G)、第五代(5G)等)、内联网、因特网等。(一个或多个)网络接口可以包括例如具有一个或多个天线的无线网络接口。(一个或多个)网络接口也可以包括例如有线网络接口,以经由网络电缆与远程装置通信,该网络电缆可以是例如以太网电缆、同轴电缆、光纤电缆、串行电缆或并行电缆。
(一个或多个)网络接口可以例如通过遵循IEEE 802.11标准来提供对LAN的访问,和/或无线网络接口可以例如通过遵循蓝牙标准来提供对个域网的访问。也可以支持其他无线网络接口和/或协议,包括标准的先前和后续版本。附加于或代替经由无线LAN标准的通信,(一个或多个)网络接口可以使用例如时分多址(TDMA)协议、全球移动通信系统(GSM)协议、码分多址(CDMA)协议和/或任何其他类型的无线通信协议来提供无线通信。
应当理解,对于某些实现,比上述示例更少或更多装备的系统可以是优选的。因此,计算装置的配置可以取决于许多因素(例如,价格约束、性能要求、技术改进或其他环境)而因实现而异。示例包括(但不限于)移动装置、个人数字助理、移动计算装置、智能电话、蜂窝电话、手持机、单向寻呼机、双向寻呼机、消息传递装置、计算机、个人计算机(PC)、台式计算机、膝上型计算机、笔记本计算机、手持式计算机、平板计算机、服务器、服务器阵列或服务器场、web服务器、网络服务器、因特网服务器、工作站、小型计算机、大型计算机、超级计算机、网络器件、web器件、分布式计算系统、多处理器系统、基于处理器的系统、消费者电子产品、可编程消费者电子产品、电视、数字电视、机顶盒、无线接入点、基站、订户站、移动订户中心、无线电网络控制器、路由器、集线器、网关、桥、交换机、机器或它们的组合。
本文描述的技术涉及图形处理器,包括处理资源集合,所述处理资源集合被配置为通过混合精度卷积神经网络执行超采样抗锯齿操作。该处理资源集合包括被配置为进行以下操作的电路:在神经网络模型的输入块处接收包括先前帧数据、当前帧数据、速度数据和抖动偏移数据的数据集合;预处理所述数据集合以生成预处理数据;将第一预处理数据提供给神经网络模型的特征取出网络,并将第二预处理数据提供给神经网络模型的输出块,第一预处理数据处于第一精度,并且第二预处理数据处于高于第一精度的第二精度;通过一个或多个编码器级和一个或多个解码器级在特征取出网络处处理预处理数据;将张量数据从特征取出网络输出到输出块;以及通过神经网络模型的输出块生成输出图像,其中输出图像是去噪、超采样和抗锯齿的输出图像,并且输出块被配置为基于根据当前帧数据内样本的样本分布数据计算的可靠性度量来过滤输出图像。在一个实施例中,过滤输出图像包括基于根据样本分布数据计算的样本可靠性度量对输出图像进行去噪。该电路可以包括矩阵加速器,其被配置为对神经网络模型执行矩阵运算。矩阵加速器可以包括脉动阵列。
在另外的实施例中,该电路附加地被配置为在输入块处接收当前帧数据的样本可靠性度量。在一个实施例中,该电路在输入块处接收样本分布数据,并基于样本分布数据计算样本可靠性度量。在一个实施例中,该电路计算当前帧数据中的样本的样本分布数据,并且还基于样本分布数据计算样本可靠性度量。样本可靠性度量包括当前帧数据内样本的样本特性的统计分布的矩。样本可靠性度量是基于样本的知觉统一编码计算的。在一个实施例中,样本分布数据的方差以知觉统一的色调映射样本的Jensen间隙来表征。
附加实施例提供了执行上述图形处理器的操作的方法。另外的实施例提供了非暂时性机器可读介质,其存储用于执行上述图形处理器的操作的指令。另外的实施例提供了包括上述图形处理器的数据处理系统。
前面的描述和附图应被视为说明性而不是限制性意义的。本领域技术人员将理解,在不脱离所附权利要求中阐述的特征的广泛精神和范围的情况下,可以对本文描述的实施例做出各种修改和改变。

Claims (21)

1.一种图形处理器,包括:
处理资源集合,所述处理资源集合被配置为通过混合精度卷积神经网络执行超采样抗锯齿操作,所述处理资源集合包括被配置为进行以下操作的电路:
在神经网络模型的输入块处接收包括先前帧数据、当前帧数据、速度数据和抖动偏移数据的数据集合;
预处理所述数据集合以生成预处理数据;
将第一预处理数据提供给所述神经网络模型的特征取出网络,并将第二预处理数据提供给所述神经网络模型的输出块,所述第一预处理数据处于第一精度,并且所述第二预处理数据处于高于所述第一精度的第二精度;
通过一个或多个编码器级和一个或多个解码器级在所述特征取出网络处处理所述预处理数据;
将张量数据从所述特征取出网络输出到所述输出块;以及
通过所述神经网络模型的输出块生成输出图像,其中所述输出图像是去噪、超采样和抗锯齿的输出图像,并且所述输出块被配置为基于根据所述当前帧数据内样本的样本分布数据计算的可靠性度量来过滤所述输出图像。
2.如权利要求1所述的图形处理器,其中过滤所述输出图像包括基于根据所述样本分布数据计算的样本可靠性度量对所述输出图像进行去噪。
3.如权利要求2所述的图形处理器,其中所述电路附加地被配置为在所述输入块处接收所述当前帧数据的样本可靠性度量。
4.如权利要求2所述的图形处理器,其中所述电路附加地被配置为在所述输入块处接收所述样本分布数据,并基于所述样本分布数据计算所述样本可靠性度量。
5.如权利要求2所述的图形处理器,其中所述电路附加地被配置为计算所述当前帧数据中的样本的样本分布数据,并且基于所述样本分布数据计算所述样本可靠性度量。
6.如权利要求3-5中任一项所述的图形处理器,其中所述样本可靠性度量包括所述当前帧数据内样本的样本特性的统计分布的矩。
7.如权利要求6所述的图形处理器,其中所述样本可靠性度量是基于样本的知觉统一编码计算的。
8.如权利要求7所述的图形处理器,其中所述样本分布数据的方差以知觉统一的色调映射样本的Jensen间隙来表征。
9.如权利要求8所述的图形处理器,其中所述电路包括矩阵加速器,所述矩阵加速器被配置为针对所述神经网络模型执行矩阵运算。
10.如权利要求9所述的图形处理器,其中所述矩阵加速器可以包括脉动阵列。
11.一种方法,包括:
在图形处理器装置上进行以下操作:
在神经网络模型的输入块处接收包括先前帧数据、当前帧数据、速度数据和抖动偏移数据的数据集合;
预处理所述数据集合以生成预处理数据;
将第一预处理数据提供给所述神经网络模型的特征取出网络,并将第二预处理数据提供给所述神经网络模型的输出块,所述第一预处理数据处于第一精度,并且所述第二预处理数据处于高于所述第一精度的第二精度;
通过一个或多个编码器级和一个或多个解码器级在所述特征取出网络处处理所述预处理数据;
将张量数据从所述特征取出网络输出到所述输出块;以及
通过所述神经网络模型的输出块生成输出图像,其中所述输出图像是去噪、超采样和抗锯齿的输出图像,并且所述输出块被配置为基于根据所述当前帧数据内样本的样本分布数据计算的可靠性度量来过滤所述输出图像。
12.如权利要求11所述的方法,其中过滤所述输出图像包括基于根据所述样本分布数据计算的样本可靠性度量对所述输出图像进行去噪,其中所述样本可靠性度量包括所述当前帧数据内样本的样本特性的统计分布的矩。
13.如权利要求12所述的方法,附加地包括在所述输入块处接收所述当前帧数据的样本可靠性度量。
14.如权利要求12所述的方法,附加地包括在所述输入块处接收所述样本分布数据,并基于所述样本分布数据计算所述样本可靠性度量。
15.如权利要求12所述的方法,附加地包括计算所述当前帧数据中的样本的样本分布数据,并且基于所述样本分布数据计算所述样本可靠性度量。
16.一种系统,包括用于执行如权利要求11-15中任一项所述的方法的构件。
17.一种存储指令的非暂时性机器可读介质,所述指令当由包括图形处理器的一个或多个处理器执行时使得所述一个或多个处理器执行包括以下操作的操作:
在神经网络模型的输入块处接收包括先前帧数据、当前帧数据、速度数据和抖动偏移数据的数据集合;
预处理所述数据集合以生成预处理数据;
将第一预处理数据提供给所述神经网络模型的特征取出网络,并将第二预处理数据提供给所述神经网络模型的输出块,所述第一预处理数据处于第一精度,并且所述第二预处理数据处于高于所述第一精度的第二精度;
通过一个或多个编码器级和一个或多个解码器级在所述特征取出网络处处理所述预处理数据;
将张量数据从所述特征取出网络输出到所述输出块;以及
通过所述神经网络模型的输出块生成输出图像,其中所述输出图像是去噪、超采样和抗锯齿的输出图像,并且所述输出块被配置为基于根据所述当前帧数据内样本的样本分布数据计算的可靠性度量来过滤所述输出图像。
18.如权利要求17所述的非暂时性机器可读介质,其中过滤所述输出图像包括基于根据所述样本分布数据计算的样本可靠性度量对所述输出图像进行去噪,其中所述样本可靠性度量包括所述当前帧数据内样本的样本特性的统计分布的矩。
19.如权利要求18所述的非暂时性机器可读介质,附加地包括在所述输入块处接收所述当前帧数据的样本可靠性度量。
20.如权利要求18所述的非暂时性机器可读介质,附加地包括在所述输入块处接收所述样本分布数据,并基于所述样本分布数据计算所述样本可靠性度量。
21.如权利要求18所述的非暂时性机器可读介质,附加地包括计算所述当前帧数据中的样本的样本分布数据,并且基于所述样本分布数据计算所述样本可靠性度量。
CN202210846158.5A 2021-11-05 2022-07-19 样本分布知情去噪和渲染 Pending CN116091300A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/520,089 US20230065183A1 (en) 2021-08-19 2021-11-05 Sample distribution-informed denoising & rendering
US17/520089 2021-11-05

Publications (1)

Publication Number Publication Date
CN116091300A true CN116091300A (zh) 2023-05-09

Family

ID=86197919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210846158.5A Pending CN116091300A (zh) 2021-11-05 2022-07-19 样本分布知情去噪和渲染

Country Status (1)

Country Link
CN (1) CN116091300A (zh)

Similar Documents

Publication Publication Date Title
JP7423644B2 (ja) 行列アクセラレータアーキテクチャのためのスパース最適化
US20230146259A1 (en) Sampling across multiple views in supersampling operation
US20230066626A1 (en) Temporally amortized supersampling using a mixed precision convolutional neural network
US20230143192A1 (en) Input filtering and sampler acceleration for supersampling
EP4138028A1 (en) Sample distribution-informed denoising & rendering
US20240119558A1 (en) Temporally amortized supersampling using a kernel splatting network
US20230146390A1 (en) Trainable visual quality metrics for measuring rendering quality in a graphics environment
EP4163797A1 (en) Modular gpu architecture for clients and servers
US20230146073A1 (en) Combined denoising and upscaling network with importance sampling in a graphics environment
CN115841417A (zh) 加载存储和原子指令的立即偏移
WO2022271245A1 (en) Compression and interleaving of spatially proximate data
WO2022271227A1 (en) Dual pipeline parallel systolic array
EP4177824A1 (en) Motion vector refinement for temporally amortized supersampling
US20230146005A1 (en) Augmenting temporal anti-aliasing with a neural network for history validation
US20230148225A1 (en) Joint denoising and supersampling of graphics data
EP4109252A1 (en) Dynamically scalable and partitioned copy engine
EP4109303A1 (en) Using sparsity metadata to reduce systolic array power consumption
US20230142467A1 (en) Temporal gradients of higher order effects to guide temporal accumulation
EP4155900A1 (en) Emulation of floating point calculation
US20230144562A1 (en) Augmenting motion vectors via procedural shader output
CN116091300A (zh) 样本分布知情去噪和渲染
CN117859148A (zh) 使用混合精度卷积神经网络的时域摊销的超采样
EP4359920A1 (en) Systolic array of arbitrary physical and logical depth
WO2022271228A1 (en) Register file for systolic array

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication