CN111754382A - 使用平面存储器映射来控制表面访问 - Google Patents

使用平面存储器映射来控制表面访问 Download PDF

Info

Publication number
CN111754382A
CN111754382A CN202010119217.XA CN202010119217A CN111754382A CN 111754382 A CN111754382 A CN 111754382A CN 202010119217 A CN202010119217 A CN 202010119217A CN 111754382 A CN111754382 A CN 111754382A
Authority
CN
China
Prior art keywords
memory
graphics
data
processor
pipeline
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010119217.XA
Other languages
English (en)
Inventor
N·L·库雷
A·科克
V·克里希南
R·W·西尔瓦斯
J·H·费特
P·苏提
J·雷
A·R·阿普
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN111754382A publication Critical patent/CN111754382A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0815Cache consistency protocols
    • G06F12/0837Cache consistency protocols with software control, e.g. non-cacheable data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/084Multiuser, multiprocessor or multiprocessing cache systems with a shared cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3877Concurrent instruction execution, e.g. pipeline, look ahead using a slave processor, e.g. coprocessor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/60Memory management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/06Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols the encryption apparatus using shift registers or memories for block-wise or stream coding, e.g. DES systems or RC4; Hash functions; Pseudorandom sequence generators
    • H04L9/0643Hash functions, e.g. MD5, SHA, HMAC or f9 MAC
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0811Multiuser, multiprocessor or multiprocessing cache systems with multilevel cache hierarchies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/28Indexing scheme for image data processing or generation, in general involving image processing hardware

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Power Engineering (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Image Generation (AREA)

Abstract

本文描述的实施例提供了一种装置,该装置包括:处理器,用于分配第一存储器空间以用于针对图形工作负载的数据,该第一存储器包括第一多个可寻址存储器位置;分配第二存储器空间用于与针对该图形工作负载的数据有关的压缩元数据,第二存储器空间包括第二多个可寻址存储器位置,并且具有与分配给第一存储器空间的存储器的量的预定比率相对应的存储器的量,并且第二存储器空间在第一多个可寻址存储器位置和第二多个可寻址存储器位置之间配置直接存储器映射。可以描述和要求保护其他实施例。

Description

使用平面存储器映射来控制表面访问
背景技术
本文描述的主题通常涉及图形处理。
大多数图形处理系统在将图形数据存储在存储器中之前使用一种或多 种数据压缩技术来压缩图形数据。关于用于编码特定数据条目的压缩技术 的信息可以作为元数据存储在单独的存储器位置中,该元数据在逻辑上与 该数据条目相关联。一些图形处理系统利用映射表来提供数据条目和压缩 元数据之间的逻辑关联。此技术可能导致图形处理系统的延迟,从而限制 了大型图形处理系统的性能。
因此,例如在图形处理应用中,可以找到对压缩元数据进行编码的技 术。
附图说明
为了能够详细地理解本实施例的上述特征的方式,可以通过参考实施 例来对以上简要概述的实施例进行更具体的描述,其中一些示例在附图中 示出。但是,应注意,附图仅示出了典型的实施例,因此不应认为是对其 范围的限制。
图1是根据本文描述的一些实施例的处理系统的框图;
图2是根据本文所述的一些实施例的处理器的框图;
图3是根据本文所述的一些实施例的图形处理器的框图;
图4是根据本文所述的一些实施例的图形处理器的图形处理引擎的框 图;
图5是根据本文所述的一些实施例的图形处理器核的硬件逻辑的框图;
图6A-图6B示出了根据本文所述实施例的线程执行逻辑,该线程执行 逻辑包括在图形处理器核中采用的处理元件的阵列;
图7是示出了根据本文描述的一些实施例的图形处理器指令格式的框 图;
图8是根据本文所述的一些实施例的图形处理器的框图;
图9A-图9B示出了根据本文所述的一些实施例的图形处理器命令格式 和命令序列;
图10示出了根据本文所述的一些实施例的用于数据处理系统的示例性 图形软件架构;
图11A是示出了根据本文所述的一些实施例的IP核开发系统的框图;
图11B示出了根据本文所述的一些实施例的集成电路封装组件的截面 侧视图;
图12是示出了根据实施例的在芯片集成电路上的示例性系统的框图;
图13A-图13B是示出了根据本文描述的实施例的在SoC内使用的示例 性图形处理器的框图;
图14A-图14B示出了根据本文描述的实施例的另外的示例性图形处理 器逻辑;
图15示出了根据本文描述的实施例的数据处理系统,该数据处理系统 可以适于使用平面存储器映射来支持控制面访问;
图16A和图16B是示出了根据本文描述的实施例的用于使用平面存储 器映射来支持控制表面访问的方法中的操作的流程图;
图17示出了根据本文所述的实施例的可以适于使用平面存储器映射来 支持控制表面访问的数据处理环境的各方面;
图18A和图18B示出了根据本文描述的实施例的用于使用平面存储器 映射来支持控制表面访问的方法中的存储器映射;
图19是根据本文所述的一些实施例的包括图形处理器的计算设备的框 图。
具体实施方式
为了说明的目的,阐述了许多具体细节以提供对下述各种实施例的透 彻理解。然而,对于本领域技术人员将显而易见的是,可以在没有这些具 体细节中的一些的情况下实践实施例。在其他实例中,以框图形式示出了 公知的结构和设备,以避免混淆基本原理,并提供对实施例的更透彻的理 解。尽管参考图形处理器描述了以下一些实施例,但是本文描述的技术和 教导可以应用于各种类型的电路或半导体设备,包括通用处理设备或图形 处理设备。本文中对“一个实施例”或“实施例”的引用指示结合或关联 于该实施例描述的特定特征、结构或特性可以包括在这样的实施例中的至 少一个中。但是,说明书中各个地方出现的短语“在一个实施例中”并不 一定都指同一实施例。
在下面的描述和权利要求中,可以使用术语“耦合”和“连接”及其 派生词。应该理解的是,这些术语并不旨在彼此等同。“耦合”用于表示两 个或多个元素可以相互协作或相互作用,这两个元素可以或可以不直接物 理或电气接触。“连接”用于指示在彼此耦合的两个或更多元素之间建立通 信。
在下面的描述中,图1-图14提供了并入或涉及各种实施例的示例性数 据处理系统和图形处理器逻辑的概述。图15-图19提供了各种实施例的具 体细节。参考图形处理器描述了以下实施例的一些方面,而关于诸如中央 处理单元(CPU)的通用处理器描述了其他方面。相似的技术和教导可以 应用于其他类型的电路或半导体设备,包括但不限于许多集成核处理器、 GPU集群或现场可编程门阵列(FPGA)的一个或多个实例。通常,这些教 导适用于操纵或处理图像(例如,样本、像素)、顶点数据或几何数据的任 何处理器或机器。
系统总览
图1是根据实施例的处理系统100的框图。在各种实施例中,系统100 包括一个或多个处理器102和一个或多个图形处理器108,并且可以是单处 理器桌面系统、多处理器工作站系统或具有大量处理器102或处理器核107 的服务器系统。在一个实施例中,系统100是结合在用于移动、手持或嵌 入式设备中的片上系统(SoC)集成电路内的处理平台。
在一个实施例中,系统100可以包括或者并入在基于服务器的游戏平 台、包括游戏和媒体控制台的游戏控制器、移动游戏控制台、手持游戏控 制台或在线游戏控制台内。在一些实施例中,系统100是移动电话、智能 电话、平板计算设备或移动互联网设备。处理系统100还可以包括、与其 耦合或集成在可穿戴设备(诸如智能手表可穿戴设备、智能眼镜设备、增 强现实设备或虚拟现实设备)内。在一些实施例中,处理系统100是具有 一个或多个处理器102和由一个或多个图形处理器108生成的图形界面的 电视或机顶盒设备。
在一些实施例中,一个或多个处理器102各自包括一个或多个处理器 核107以处理指令,所述指令在被执行时执行用于系统和用户软件的操作。 在一些实施例中,一个或多个处理器核107中的每一个被配置为处理特定 指令集109。在一些实施例中,指令集109可以促进复杂指令集计算(CISC)、 精简指令集计算(RISC)或经由极长指令字(VLIW)的计算。多个处理器 核107可以各自处理不同的指令集109,其可以包括用于促进其他指令集的模拟的指令。处理器核107还可以包括其他处理设备,诸如数字信号处理 器(DSP)。
在一些实施例中,处理器102包括高速缓存存储器104。取决于架构, 处理器102可具有单个内部高速缓存或多个级别的内部高速缓存。在一些 实施例中,高速缓存存储器在处理器102的各种组件之间共享。在一些实 施例中,处理器102还使用外部高速缓存(例如,级别3(L3)高速缓存或 最终级高速缓存(LLC))(未示出),其可以使用已知的高速缓存一致性技 术在处理器核107之间共享。处理器102中另外包括寄存器文件106,其可 以包括不同类型的寄存器(例如,整数寄存器、浮点寄存器、状态寄存器 和指令指针寄存器)以用于存储不同类型的数据。一些寄存器可以是通用 寄存器,而其他寄存器可以专用于处理器102的设计。
在一些实施例中,一个或多个处理器102与一个或多个接口总线110 耦合,以在处理器102与系统100中的其他组件之间发送诸如地址、数据 或控制信号之类的通信信号。在一个实施例中,接口总线110可以是处理 器总线,例如直接媒体接口(DMI)总线的版本。然而,处理器总线不限 于DMI总线,并且可以包括一个或多个外围组件互连总线(例如,PCI、快速PCI)、存储器总线或其他类型的接口总线。在一个实施例中,处理器 102包括集成存储器控制器116和平台控制器集线器130。存储器控制器116 促进存储器设备与系统100的其他组件之间的通信,而平台控制器集线器 (PCH)130经由本地I/O总线提供到I/O设备的连接。
存储器设备120可以是动态随机存取存储器(DRAM)设备、静态随 机存取存储器(SRAM)设备、闪存设备、相变存储器设备或具有合适性能 以充当进程存储器的一些其他存储器设备。在一个实施例中,存储器设备 120可以作为系统100的系统存储器来操作,以存储数据122和指令121以 供当一个或多个处理器102执行应用或进程时使用。存储器控制器116还 与可选的外部图形处理器112耦合,该外部图形处理器112可以与处理器 102中的一个或多个图形处理器108通信以执行图形和媒体操作。在一些实 施例中,显示设备111可以连接到处理器102。显示设备111可以是内部显 示设备中的一个或多个,如在移动电子设备或膝上型设备中或经由显示接 口(例如,显示端口等)附接的外部显示设备。在一个实施例中,显示设 备111可以是头戴式显示器(HMD),诸如用于虚拟现实(VR)应用或增 强现实(AR)应用的立体显示设备。
在一些实施例中,平台控制器集线器130使外围设备能够经由高速I/O 总线连接到存储器设备120和处理器102。I/O外围设备包括但不限于音频 控制器146、网络控制器134、固件接口128、无线收发器126、触摸传感 器125、数据存储设备124(例如,硬盘驱动器、闪存等)。数据存储设备 124可以经由存储接口(例如,SATA)或经由外围总线(例如,外围组件 互连总线(例如,PCI、快速PCI))连接。触摸传感器125可包括触摸屏传 感器、压力传感器或指纹传感器。无线收发器126可以是Wi-Fi收发器、蓝 牙收发器,或移动网络收发器,例如3G、4G或长期演进(LTE)收发器。 固件接口128实现与系统固件的通信,并且可以是例如统一的可扩展固件 接口(UEFI)。网络控制器134可以启用到有线网络的网络连接。在一些实 施例中,高性能网络控制器(未示出)与接口总线110耦合。在一个实施 例中,音频控制器146是多通道高清晰度音频控制器。在一个实施例中, 系统100包括可选的传统I/O控制器140,其用于将传统(例如,个人系统 2(PS/2))设备耦合到系统。平台控制器集线器130还可以连接到一个或多 个通用串行总线(USB)控制器142、连接输入设备,例如键盘和鼠标143 组合、相机144或其他USB输入设备。
应当意识到,所示的系统100是示例性的而非限制性的,因为也可以 使用不同配置的其他类型的数据处理系统。例如,存储器控制器116和平 台控制器集线器130的实例可以集成到离散的外部图形处理器(例如,外 部图形处理器112)中。在一个实施例中,平台控制器集线器130和/或存 储器控制器160可以是一个或多个处理器102外部的。例如,系统100可 以包括外部存储器控制器116和平台控制器集线器130,其可以被配置为与 处理器102通信的系统芯片组内的存储器控制器集线器和外围控制器集线 器。
图2是具有一个或多个处理器核202A-202N、集成存储器控制器214 和集成图形处理器208的处理器200的实施例的框图。图2的与本文任何 其它附图的元件具有相同的附图标记(或名称)的那些元件可以以与本文 其他地方所描述类似的任何方式操作或起作用,但不限于此。处理器200 可以包括附加核多达以下并且包括由虚线框表示的附加核202N。处理器核 202A-202N中的每一个包括一个或多个内部高速缓存单元204A-204N。在 一些实施例中,每个处理器核还可以存取一个或多个共享高速缓存单元206。
内部高速缓存单元204A-204N和共享高速缓存单元206表示处理器 200内的高速缓存存储器分层结构。高速缓存存储器分层结构可以在每个处 理器核中包括至少一个级别的指令和数据高速缓存以及一个或多个级别的 共享中级高速缓存,例如级别2(L2)、级别3(L3)、级别4(L4)或其他 级别的高速缓存,其中外部存储器之前的最高级别的高速缓存被分类为 LLC。在一些实施例中,高速缓存一致性逻辑保持各种高速缓存单元206 和204A-204N之间的一致性。
在一些实施例中,处理器200还可以包括一组一个或多个总线控制器 单元216和系统代理核210。一个或多个总线控制器单元216管理一组外围 总线,例如一个或多个PCI或者快速PCI总线。系统代理核210针对各种 处理器组件提供管理功能。在一些实施例中,系统代理核210包括一个或 多个集成存储器控制器214以管理对各种外部存储器设备(未示出)的存 取。
在一些实施例中,处理器核202A-202N中的一个或多个包括对同时多 线程的支持。在这样的实施例中,系统代理核210包括用于在多线程处理 期间协调和操作核202A-202N的组件。系统代理核210可以另外包括功率 控制单元(PCU),其包括用于调节处理器核202A-202N和图形处理器208 的功率状态的逻辑和组件。
在一些实施例中,处理器200另外包括图形处理器208以执行图形处 理操作。在一些实施例中,图形处理器208与该组共享高速缓存单元206 以及与包括一个或多个集成存储器控制器214的系统代理核210耦合。在 一些实施例中,系统代理核210还包括显示控制器211,用于将图形处理器 输出驱动到一个或多个耦合的显示器。在一些实施例中,显示控制器211 还可以是经由至少一个互连与图形处理器耦合的独立模块,或者可以集成 在图形处理器208内。
在一些实施例中,使用基于环的互连单元212来耦合处理器200的内 部组件。然而,可以使用替代的互连单元,诸如点对点互连、交换互连或 其他技术,包括本领域众所周知的技术。在一些实施例中,图形处理器208 经由I/O链路213与环形互连212耦合。
示例性I/O链路213表示多种I/O互连中的至少一种,包括促进各种处 理器组件与高性能嵌入式存储器模块218(诸如eDRAM模块)之间的通信 的封装I/O互连。在一些实施例中,处理器核202A-202N和图形处理器208 中的每一个使用嵌入式存储器模块218作为共享的最后级高速缓存。
在一些实施例中,处理器核202A-202N是执行相同指令集架构的同质 核。在另一个实施例中,处理器核202A-202N在指令集架构(ISA)方面是 异构的,其中一个或多个处理器核202A-N执行第一指令集,而其他核中的 至少一个核执行第一指令集的子集或不同的指令集。在一个实施例中,就 微架构而言,处理器核202A-202N是异构的,其中具有相对较高功耗的一 个或多个核与具有较低功耗的一个或多个功率核耦合。另外,除了其他组 件之外,处理器200可以在一个或多个芯片上实现,或者作为具有除了其 它组件之外的所示组件的SoC集成电路来实现。
图3是图形处理器300的框图,其可以是离散图形处理单元,或者可 以是与多个处理核集成的图形处理器。在一些实施例中,图形处理器经由 存储器映射的I/O接口与图形处理器上的寄存器以及放置在处理器存储器 中的命令进行通信。在一些实施例中,图形处理器300包括访问存储器的 存储器接口314。存储器接口314可以是到本地存储器、一个或多个内部高 速缓存、一个或多个共享外部高速缓存,和/或到系统存储器的接口。
在一些实施例中,图形处理器300还包括显示控制器302以将显示输 出数据驱动到显示设备320。显示控制器302包括用于一个或多个覆盖平面 的硬件,用于多层视频或用户面元素的显示和合成。显示设备320可以是 内部或外部显示设备。在一个实施例中,显示设备320是头戴式显示设备, 诸如虚拟现实(VR)显示设备或增强现实(AR)显示设备。在一些实施例 中,图形处理器300包括视频编解码器引擎306,以将媒体编码为一个或多 个媒体编码格式,从一个或多个媒体编码格式解码,或在从一个或多个媒 体编码格式之间转码,媒体编码格式包括但不限于运动图像专家组(MPEG) 格式,例如诸如H.264/MPEG-4AVC的MPEG-2、高级视频编码(AVC)格 式,以及电影和电视工程师协会(SMPTE)421M/VC-1和联合图像专家组 (JPEG)格式,如JPEG和运动JPEG(MJPEG)格式。
在一些实施例中,图形处理器300包括块图像传输(BLIT)引擎304 以执行二维(2D)光栅化器操作,包括例如位边界块传输。然而,在一个 实施例中,使用GPE 310的一个或多个组件来执行2D图形操作。在一些实 施例中,图形处理引擎310是用于执行图形操作的计算引擎,所述图形操 作包括三维(3D)图形操作和媒体操作。
在一些实施例中,GPE 310包括3D流水线312,其用于执行3D操作, 诸如使用作用于3D图元形状(例如,矩形、三角形等)的处理功能来渲染 三维图像和场景。3D流水线312包括执行元件内的各种任务和/或将执行线 程产生到3D/媒体子系统315的可编程和固定功能元件。尽管3D流水线312 可以用于执行媒体操作,但是GPE 310的实施例还包括专门用于执行媒体 操作(例如视频后处理和图像增强)的媒体流水线316。
在一些实施例中,媒体流水线316包括固定功能或可编程逻辑单元, 其用于代替或代表视频编解码引擎306执行一个或多个专用媒体操作,诸 如视频解码加速、视频去隔行和视频编码加速。在一些实施例中,媒体流 水线316另外包括线程产生单元,其用于产生用于在3D/媒体子系统315上 执行的线程。产生的线程执行用于3D/媒体子系统315中包括的一个或多个 图形执行单元上的媒体操作的计算。
在一些实施例中,3D/媒体子系统315包括用于执行由3D流水线312 和媒体流水线316产生的线程的逻辑。在一个实施例中,流水线将线程执 行请求发送到3D/媒体子系统315,其包括用于仲裁并将各种请求分派给可 用的线程执行资源的线程分派逻辑。执行资源包括一系列图形执行单元来 处理3D和媒体线程。在一些实施例中,3D/媒体子系统315包括用于线程 指令和数据的一个或多个内部高速缓存。在一些实施例中,子系统还包括 共享存储器(包括寄存器和可寻址存储器)以在线程之间共享数据并存储 输出数据。
图形处理引擎
图4是根据一些实施例的图形处理器的图形处理引擎410的框图。在 一个实施例中,图形处理引擎(GPE)410是图3中所示的GPE 310的一个 版本。图4中的具有与本文的任何其它图中的元件相同的附图标记(或名 称)的元件可以以类似于在本文其他地方描述的任何方式进行操作,但不 限于此。例如,图示了图3的3D流水线312和媒体流水线316。媒体流水 线316在GPE 410的一些实施例中是可选的,并且可以不明确地包括在GPE 410内。例如并且在至少一个实施例中,单独的媒体和/或图像处理器耦合 到GPE 410。
在一些实施例中,GPE 410与命令流式传送器403耦合或者包括命令 流式传送器403,命令流式传送器403向3D流水线312和/或媒体流水线 316提供命令流。在一些实施例中,命令流式传送器403耦合到存储器,存 储器可以是系统存储器,或一个或多个内部高速缓存和共享高速缓存。在 一些实施例中,命令流式传送器403从存储器接收命令并将命令发送到3D 流水线312和/或媒体流水线316。这些命令是从存储用于3D流水线312和 媒体流水线316的命令的环形缓冲区中取出的指令。在一个实施例中,环 形缓冲区可以另外包括存储批量的多个命令的批量命令缓冲区。用于3D流 水线312的命令还可以包括对存储在存储器中的数据的引用,例如但不限 于用于3D流水线312的顶点和几何数据和/或用于媒体流水线316的图像 数据和存储器对象。3D流水线312以及媒体流水线316通过经由相应流水线内的逻辑执行操作或通过将一个或多个执行线程分派到图形核阵列414 来处理命令和数据。在一个实施例中,图形核阵列414包括图形核的一个 或多个块(例如,图形核415A、图形核415B),每个块包括一个或多个图 形核。每个图形核包括一组图形执行资源,其包括用于执行图形和计算操 作的通用和图形特定执行逻辑,以及固定功能纹理处理和/或机器学习和人 工智能加速逻辑。
在各种实施例中,3D流水线312包括固定功能和可编程逻辑,其用于 通过处理指令以及将线程分派到图形核阵列来处理一个或多个着色器程序, 诸如顶点着色器、几何着色器、像素着色器、片段着色器、计算着色器或 其他着色器程序。图形核阵列414提供执行资源块的统一块,以用于处理 这些着色器程序。图形核阵列414的图形核415A-414B内的多用途执行逻 辑(例如,执行单元)包括对各种3D API着色器语言的支持,并且可以执 行与多个着色器相关联的多个同时执行线程。
在一些实施例中,图形核阵列414还包括执行逻辑,其用于执行媒体 功能,例如视频和/或图像处理。在一个实施例中,除了图形处理操作之外, 执行单元还包括可编程以执行并行通用计算操作的通用逻辑。通用逻辑可 以并行地或结合图1的处理器核107或如图2的核202A-202N内的通用逻 辑来执行处理操作。
由在图形核阵列414上执行的线程生成的输出数据可以将数据输出到 在统一返回缓冲区(URB)318中的存储器。URB 418可以存储多个线程的 数据。在一些实施例中,URB418可用于在图形核阵列414上执行的不同 线程之间发送数据。在一些实施例中,URB 418可另外用于图形核阵列上 的线程与共享功能逻辑420内的固定功能逻辑之间的同步。。
在一些实施例中,图形核阵列414是可缩放的,使得阵列包括可变数 量的图形核,每个图形核基于GPE 410的目标功率和性能水平具有可变数 量的执行单元。在一个实施例中,执行资源是动态可缩放的,使得可以根 据需要启用或禁用执行资源。
图形核阵列414与共享功能逻辑420耦合,共享功能逻辑420包括在 图形核阵列中的图形核之间共享的多个资源。共享功能逻辑420内的共享 功能是向图形核阵列414提供专用补充功能的硬件逻辑单元。在各种实施 例中,共享功能逻辑420包括但不限于采样器421、数学422和线程间通信 (ITC)423逻辑。另外,一些实施例在共享功能逻辑420内实现一个或多 个高速缓存425。
实现共享功能,其中针对给定专用功能的需求不足以包括在图形核阵 列414内。而是将该专用功能的单个实例化实现为共享功能逻辑420中的 独立实体,并且在图形核阵列414内的执行资源之间共享。在图形核阵列414之间共享并包括在图形核阵列414内的精确功能集在实施例中变化。在 一些实施例中,图形核阵列414广泛使用的共享功能逻辑420内的特定共 享功能可以包括在图形核阵列414内的共享功能逻辑416内。在各种实施 例中,图形核阵列414内的共享功能逻辑416可以包括共享功能逻辑420 内的一些或所有逻辑。在一个实施例中,共享功能逻辑420内的所有逻辑 元件可以在图形核阵列414的共享功能逻辑416内复制。在一个实施例中, 共享功能逻辑420被排除支持图形核阵列414内的共享功能逻辑416。
图5是根据本文描述的一些实施例的图形处理器核500的硬件逻辑的 框图。具有与本文任何其他附图的元件相同的附图标记(或名称)的图5 的元件可以以与本文其他地方描述的方式类似的任何方式操作或起作用, 但不限于此。在一些实施例中,所示的图形处理器核500包括在图4的图 形核阵列414内。图形处理器核500(有时称为核切片(slice))可以是模 块化图形处理器内的一个或多个图形核。图形处理器核500是一个图形核 切片的示例,并且如本文所述的图形处理器可以包括基于目标功率和性能 包络的多个图形核切片。每个图形核500可以包括与多个子核501A-501F (也称为子片)耦合的固定功能块530,所述多个子核501A-501F包括通用 和固定功能逻辑的模块化块。
在一些实施例中,固定功能块530包括几何/固定功能流水线536,其 可以由图形处理器500中的所有子核共享,例如,在较低性能和/或较低功 率图形处理器实现中。在各种实施例中,几何/固定功能流水线536包括3D 固定功能流水线(例如,如图3和图4中的3D流水线312)、视频前端单 元、线程产生器和线程分派器,以及统一返回缓冲区管理器,所述统一返 回缓冲区管理器管理统一返回缓冲区,例如图4的统一返回缓冲区418。
在一个实施例中,固定功能块530还包括图形SoC接口537、图形微 控制器538和媒体流水线539。图形SoC接口537提供图形核500与片上 系统集成电路的系统上的其他处理器核之间的接口。图形微控制器538是 可编程子处理器,其可配置为管理图形处理器500的各种功能,包括线程 分派、调度和抢占。媒体流水线539(例如,图3和图4的媒体流水线316)包括用于促进多媒体数据(包括图像和视频数据)的解码、编码、预处理 和/或后处理的逻辑。媒体流水线539经由对于在子核501-501F内的计算或 采样逻辑的请求来实现媒体操作。
在一个实施例中,SoC接口537使图形核500能够与通用应用处理器 核(例如,CPU)和/或SoC内的其他组件通信,所述其他组件包括存储器 层级元件,诸如共享的最后一级高速缓存存储器、系统RAM和/或嵌入式 片上或封装DRAM。SoC接口537还可以实现与SoC内的固定功能设备(例 如相机成像流水线)的通信,并且使得能够使用和/或实现可以在图形核500 和SoC内的CPU之间共享的全局存储器原子。SoC接口537还可以实现针 对图形核500的功率管理控制,并启用图形核500的时钟域与SoC内的其 他时钟域之间的接口。在一个实施例中,SoC接口537使得能够从命令流 式传输器和全局线程分派器接收命令缓冲区,命令流传输器和全局线程分 派器被配置为向图形处理器内的一个或多个图形核中的每一个提供命令和 指令。当要执行媒体操作时,可以将命令和指令分派给媒体流水线539,或 者当图形处理操作要被执行时,可以将命令和指令分派给几何和固定功能 流水线(例如,几何和固定功能流水线536、几何和固定功能流水线514)。
图形微控制器538可以被配置为执行针对图形核500的各种调度和管 理任务。在一个实施例中,图形微控制器538可以在在子核501A-501F内 的执行单元(EU)阵列502A-502F、504A-504F内的各种图形并行引擎上 执行图形和/或计算工作负载调度。在该调度模型中,在包括图形核500的 SoC的CPU核上执行的主机软件可以提交多个图形处理器门铃之一的工作 负载,其在适当的图形引擎上调用调度操作。调度操作包括确定下一个要 运行的工作负载,将工作负载提交给命令流式传输器,预先占用引擎上运 行的现有工作负载,监视工作负载的进度,以及在工作负载完成时通知主 机软件。在一个实施例中,图形微控制器538还可以促进针对图形核500 的低功率或空闲状态,从而为图形核500提供在低功率状态转换期间独立 于操作系统和/或系统上的图形驱动器软件来保存和恢复图形核500内的寄 存器的能力。
图形核500可具有大于或小于所示子核501A-501F的子核,最多N个 模块化子核。对于每组N个子核,图形核500还可以包括共享功能逻辑510、 共享和/或高速缓冲存储器512、几何/固定功能流水线514,以及用于加速 各种图形和计算处理操作的附加固定功能逻辑516。共享功能逻辑510可以 包括与图4的共享功能逻辑420相关联的逻辑单元(例如,采样器、数学 和/或线程间通信逻辑),其可以由图形核500内的每个N个子核共享。共 享和/或高速缓存存储器512可以是图形核500内的一组N个子核 501A-501F的最后一级高速缓存,并且还可以用作多个子核可存取的共享存 储器。可以包括几何/固定功能流水线514而不是固定功能块530内的几何/ 固定功能流水线536,并且可以包括相同或类似的逻辑单元。
在一个实施例中,图形核500包括附加的固定功能逻辑516,其可包括 供图形核500使用的各种固定功能加速逻辑。在一个实施例中,附加固定 功能逻辑516包括用于使用的仅位置着色的附加几何流水线。在仅位置着 色中,存在两个几何流水线,几何/固定功能流水线516、536内的全几何流 水线,以及剔除(cull)流水线,所述剔除流水线是可包括在附加固定功能 逻辑516内的附加几何流水线。在一个实施例中,剔除流水线是全几何流 水线的修剪版本。全流水线和剔除流水线可以执行同一应用的不同实例, 每个实例具有单独的上下文。仅位置着色可以隐藏已丢弃的三角形的长剔 除运行,使得在一些实例中,可以更早地完成着色。例如并且在一个实施 例中,附加固定功能逻辑516内的剔除流水线逻辑可以与主应用并行地执 行位置着色器,并且通常比全流水线更快地生成关键结果,因为剔除流水 线仅取回并着色顶点的位置属性,而不执行像素的光栅化和渲染到帧缓冲 区。剔除流水线可以使用生成的关键结果来计算针对所有三角形的可见性 信息,而不管这些三角形是否被剔除。全流水线(在这种情况下可以称为 重放流水线)可以消耗可见性信息以跳过剔除的三角形以仅着色最终传递 到光栅级的可见三角形。
在一个实施例中,附加固定功能逻辑516还可以包括机器学习加速逻 辑,例如固定功能矩阵乘法逻辑,以用于包括用于机器学习训练或推理的 优化的实现。
在每个图形子核501A-501F内包括一组执行资源,其可用于响应于图 形流水线、媒体流水线或着色器程序的请求来执行图形、媒体和计算操作。 图形子核501A-501F包括多个EU阵列502A-502F、504A-504F、线程分派 和线程间通信(TD/IC)逻辑503A-503F、3D(例如,纹理)采样器505A-505F、 媒体采样器506A-506F、着色器处理器507A-507F和共享本地存储器(SLM) 508A-508F。EU阵列502A-502F、504A-504F每个包括多个执行单元,其 是能够在图形、媒体或计算操作的服务(包括图形、媒体或计算着色器程 序)中执行浮点和整数/定点逻辑操作的通用图形处理单元。TD/IC逻辑 503A-503F执行针对子核内的执行单元的本地线程分派和线程控制操作,并 促进在子核的执行单元上执行的线程之间的通信。3D采样器505A-505F可 以将纹理或其他3D图形相关的数据读取到存储器中。3D采样器可以基于配置的样本状态和与给定纹理相关联的纹理格式来不同地读取纹理数据。 媒体采样器506A-506F可以基于与媒体数据相关联的类型和格式来执行类 似的读取操作。在一个实施例中,每个图形子核501A-501F可以替代地包 括统一的3D和媒体采样器。在每个子核501A-501F内的执行单元上执行的 线程可以利用每个子核内的共享本地存储器508A-508F,以使得在线程组内 执行的线程能够使用片上存储器的公共池来执行。
执行单元
图6A-图6B示出了线程执行逻辑600,其包括根据本文描述的实施例 的图形处理器核中采用的处理元件阵列。具有与本文任何其他图的元件相 同的附图标记(或名称)的图6A-图6B的元素可以以与本文其他地方描述 的方式类似的任何方式操作或起作用,但不限于此。图6A示出了线程执行 逻辑600的概述,其可以包括用图5的每个子核501A-501F示出的硬件逻 辑的变体。图6B示出了执行单元的示例性内部细节。
如图6A所示出的,在一些实施例中,线程执行逻辑600包括着色器处 理器602、线程分派器604、指令高速缓存606、包括多个执行单元608A-608N 的可缩放执行单元阵列、采样器610、数据高速缓存612和数据端口614。 在一个实施例中,可缩放执行单元阵列可以通过基于工作负载的计算要求 启用或禁用一个或多个执行单元(例如,执行单元608A、608B、608C、608D、 至608N-1和608N中的任何一个)来动态地缩放。在一个实施例中,所包 括的组件经由链接到每个组件的互连结构互连。在一些实施例中,线程执 行逻辑600包括通过指令高速缓存606、数据端口614、采样器610和执行 单元608A-608N中的一个或多个的到存储器(例如系统存储器或高速缓存 存储器)的一个或多个连接。在一些实施例中,每个执行单元(例如608A) 是独立的可编程通用计算单元,其能够执行多个同时的硬件线程,并且同时针对每个线程处理多个数据元素。在各种实施例中,执行单元的阵列 608A-608N是可缩放的以包括任何数量的单独执行单元。
在一些实施例中,执行单元608A-608N主要用于执行着色器程序。着 色器处理器602可以处理各种着色器程序并经由线程分派器604来分派与 着色器程序相关联的执行线程。在一个实施例中,线程分派器包括用于仲 裁来自图形和媒体流水线的线程发起请求并在执行单元608A-608N中的一 个或多个执行单元上实例化所请求的线程的逻辑。例如,几何流水线可以 将顶点、曲面细分或几何着色器分派给线程执行逻辑以进行处理。在一些实施例中,线程分派器604还可以处理来自执行着色器程序的运行时线程 产生请求。
在一些实施例中,阵列608A-608N中的执行单元支持包括对许多标准 3D图形着色器指令的本机支持的指令集,使得来自图形库(例如,Direct 3D 和OpenGL)的着色器程序以最小的平移执行。执行单元支持顶点和几何处 理(例如,顶点程序、几何程序、顶点着色器)、像素处理(例如像素着色 器、片段着色器)和通用处理(例如,计算和媒体着色器)。每个执行单元 608A-608N能够执行多发单指令多数据(SIMD),并且多线程操作在面对 更高延迟的存储器存取时实现有效的执行环境。每个执行单元内的每个硬 件线程都具有专用的高带宽寄存器文件和相关联的独立线程状态。对于能 够进行整数、单精度和双精度浮点运算、SIMD分支能力、逻辑运算、超越 运算和其他杂项运算的流水线,每个时钟执行多次执行。在等待来自存储 器或共享功能中的一个的数据时,执行单元608A-608N内的依赖性逻辑使 等待线程休眠,直到返回所请求的数据。当等待线程处于休眠状态时,硬 件资源可能用于处理其他线程。例如,在与顶点着色器操作相关联的延迟 期间,执行单元可以执行针对像素着色器、片段着色器或其他类型的着色 器程序(包括不同的顶点着色器)的操作。
执行单元阵列608A-608N中的每个执行单元对数据元素阵列进行操作。 数据元素的数量是“执行大小”或指令的通道数量。执行通道是指令内数 据元素访问、掩码和流程控制的逻辑执行单位。通道的数量可以独立于特 定图形处理器的物理算术逻辑单元(ALU)或浮点单元(FPU)的数量。在 一些实施例中,执行单元608A-608N支持整数和浮点数据类型。
执行单元指令集包括SIMD指令。各种数据元素可以作为封装的数据 类型存储在寄存器中,并且执行单元将基于元素的数据大小处理各种元素。 例如,当在256位宽度的矢量上操作时,矢量的256位被存储在寄存器中, 并且执行单元对作为四个独立的64位封装的数据元素(四字(QW)大小 的数据元素)、8个独立的32位封装的数据元素(双字(DW)大小的数据 元素)、16个独立的16位封装的数据元素(字(W)大小的数据元素)或 32个独立的8位数据元素(字节(B)大小的数据元素)的矢量进行操作。 但是,不同的矢量宽度和寄存器大小是可能的。
在一个实施例中,一个或多个执行单元可以组合成具有线程控制逻辑 (607A-607N)的融合的执行单元609A-609N,该线程控制逻辑对于融合的 EU是公共的。多个EU可以融入EU组。融合EU组中的每个EU可以配 置为执行单独的SIMD硬件线程。根据实施例,融合的EU组中的EU的数 量可以变化。另外,可以针对每个EU执行各种SIMD宽度,包括但不限于SIMD8、SIMD16和SIMD32。每个融合的图形执行单元609A-609N包括至 少两个执行单元。例如,融合的执行单元609A包括第一EU 608A、第二 EU 608B和线程控制逻辑607A,所述线程控制逻辑607A对于第一EU 608A 和第二EU 608B是共同的。线程控制逻辑607A控制在融合图形执行单元 609A上执行的线程,允许融合的执行单元609A-609N内的每个EU使用公 共指令指针寄存器来执行。
一个或多个内部指令高速缓存(例如,606)被包括在线程执行逻辑600 中以对用于执行单元的线程指令进行高速缓存。在一些实施例中,包括一 个或多个数据高速缓存(例如,612)以在线程执行期间高速缓存线程数据。 在一些实施例中,包括采样器610以提供用于3D操作的纹理采样和用于媒 体操作的媒体采样。在一些实施例中,采样器610包括专门的纹理或媒体 采样功能,以在将采样数据提供给执行单元之前,在采样过程期间处理纹 理或媒体数据。
在执行期间,图形和媒体流水线经由线程产生和分派逻辑将线程发起 请求发送到线程执行逻辑600。一旦一组几何对象已经被处理并光栅化为像 素数据,则调用着色器处理器602内的像素处理器逻辑(例如,像素着色 器逻辑、片段着色器逻辑等)以进一步计算输出信息并使结果被写入到输 出表面(例如,颜色缓冲区、深度缓冲区、模板缓冲区等等)。在一些实施 例中,像素着色器或片段着色器计算要在光栅化对象上内插的各种顶点属 性的值。在一些实施例中,着色器处理器602内的像素处理器逻辑然后执 行应用编程接口(API)供应的像素或片段着色器程序。为了执行着色器程 序,着色器602经由线程分派器604将线程分派给执行单元(例如,608A)。 在一些实施例中,着色器处理器602使用采样器610中的纹理采样逻辑来 存取存储在存储器中的纹理映射中的纹理数据。对纹理数据和输入几何数 据的算术运算针对每个几何片段计算像素颜色数据,或从进一步处理中丢 弃一个或多个像素。
在一些实施例中,数据端口614针对线程执行逻辑600提供存储器存 取机制,将经处理的数据输出到存储器以进一步在图形处理器输出流水线 上进行处理。在一些实施例中,数据端口614包括或耦合到一个或多个高 速缓存存储器(例如,数据高速缓存612)以对数据高速缓存以用于经由数 据端口对存储器存取。
如图6B所示,图形执行单元608可包括指令获取单元637、通用寄存 器文件阵列(GRF)624、架构寄存器文件阵列(ARF)626、线程仲裁器 622、发送单元630、分支单元632、一组SIMD浮点单元(FPU)634,并 且在一个实施例中是一组专用整数SIMD ALU 635。GRF 624和ARF 626 包括一组通用寄存器文件和架构寄存器文件,所述架构寄存器文件与可在 图形执行单元608中活动的每个同时硬件线程相关联。在一个实施例中, 每个线程架构状态保持在ARF 626中,而在线程执行期间使用的数据存储 在GRF 624中。每个线程的执行状态(包括针对每个线程的指令指针)可, 可以保存在ARF 626中的线程专用寄存器中。
在一个实施例中,图形执行单元608具有作为同时多线程(SMT)和 细粒度交织多线程(IMT)的组合的架构。该架构具有模块化配置,其可以 在设计时基于同时线程的目标数量和每个执行单元的寄存器数量进行微调, 其中执行单元资源被划分为用于执行多个同时线程的逻辑。
在一个实施例中,图形执行单元608可以共发出多个指令,每个指令 可以是不同的指令。图形执行单元线程608的线程仲裁器622可以将指令 分派给发送单元630、分支单元632或SIMD FPU 634中的一个以供执行。 每个执行线程可以访问GRF 624内的128个通用寄存器,其中每个寄存器 可以存储32个字节,可作为32位数据元素的SIMD 8元素向量访问。在一 个实施例中,每个执行单元线程可以访问GRF 624内的4千字节,但是实 施例不限于此,并且在其他实施例中可以提供更多或更少的寄存器资源。 在一个实施例中,多达七个线程可以同时执行,尽管每个执行单元的线程 数量也可以根据实施例而变化。在七个线程可以访问4千字节的实施例中, GRF 624可以存储总共28千字节。灵活的寻址模式可以允许寄存器被一起 寻址以有效地构建更宽的寄存器或表示跨步的矩形块数据结构。
在一个实施例中,经由由消息传递发送单元630执行的“发送”指令 来分派存储器操作、采样器操作和其他较长延迟系统通信。在一个实施例 中,将分支指令分派给专用分支单元632以促进SIMD发散和最终收敛。
在一个实施例中,图形执行单元608包括一个或多个SIMD浮点单元 (FPU)634以执行浮点运算。在一个实施例中,FPU 634还支持整数计算。 在一个实施例中,FPU 634可以SIMD执行多达M个32位浮点(或整数) 操作,或者SIMD执行多达2M个16位整数或16位浮点操作。在一个实施 例中,至少一个FPU提供扩展的数学能力以支持高吞吐量的超越数学函数和双精度64位浮点。在一些实施例中,还存在一组8位整数SIMD ALU 635, 并且可以具体地优化该组8位整数SIMD ALU 635以执行与机器学习计算 相关联的操作。
在一个实施例中,可以在图形子核分组(例如,子切片)中实例化图 形执行单元608的多个实例的阵列。对于可缩放性,产品架构师可以选择 每个子核分组的确切执行单元数。在一个实施例中,执行单元608可以跨 多个执行通道执行指令。在另一实施例中,在图形执行单元608上执行的 每个线程在不同的信道上执行。
图7是示出了根据一些实施例的图形处理器指令格式700的框图。在 一个或多个实施例中,图形处理器执行单元支持具有多种格式的指令的指 令集。实线框示出通常包含在执行单元指令中的组件,而虚线包括可选组 件或仅包含在指令的子集中的组件。在一些实施例中,所描述和示出的指 令格式700是宏指令,因为它们是供应给执行单元的指令,而不是在处理 指令时由指令解码产生的微操作。
在一些实施例中,图形处理器执行单元本地支持128位指令格式710 的指令。基于所选择的指令、指令选项和操作数的数量,64位压缩指令格 式730可用于某些指令。原生128位指令格式710提供对所有指令选项的 访问,而一些选项和操作受限于64位格式730。以64位格式730可用的原 生指令因实施例而异。在一些实施例中,部分地使用索引字段713中的一 组索引值来压缩指令。执行单元硬件基于索引值参考一组压缩表,并使用 压缩表输出来重建128位指令格式710的原生指令。
对于每种格式,指令操作码712定义执行单元要执行的操作。执行单 元跨每个操作数的多个数据元素并行执行每条指令。例如,响应于添加指 令,执行单元在表示纹理元素或图片元素的每个颜色通道上执行同时添加 操作。默认情况下,执行单元在操作数的所有数据通道上执行每条指令。 在一些实施例中,指令控制字段714使得能够控制某些执行选项,诸如信 道选择(例如,预测)和数据信道顺序(例如,调配)。对于128位指令格 式710中的指令,执行大小字段716限制将被并行执行的数据信道的数量。 在一些实施例中,执行大小字段716不可用于64位压缩指令格式730。
一些执行单元指令具有多达三个操作数,包括两个源操作数src0 722、 src1 722和一个目的地操作数718。在一些实施例中,执行单元支持双目的 地指令,其中目的地之一是隐含的。数据操作指令可以具有第三源操作数 (例如,SRC2 724),其中指令操作码712确定源操作数的数量。指令的最 后一个源操作数可以是与指令一起传递的立即数(例如,硬编码)值。
在一些实施例中,128位指令格式710包括访问/地址模式字段726,其 指定例如是否使用直接寄存器寻址模式或间接寄存器寻址模式。当使用直 接寄存器寻址模式时,一个或多个操作数的寄存器地址直接由指令中的位 提供。
在一些实施例中,128位指令格式710包括访问/地址模式字段726,其 指定该指令的地址模式和/或访问模式。在一个实施例中,访问模式用于针 对该指令定义数据访问对齐。一些实施例支持包括16字节对齐访问模式和 1字节对齐访问模式的访问模式,其中访问模式的字节对齐确定指令操作数 的访问对齐。例如,当处于第一模式时,指令可以针对源操作数和目的地 操作数使用字节对齐寻址,并且当处于第二模式时,指令可以针对所有源 操作数和目的地操作数使用16字节对齐寻址。
在一个实施例中,访问/地址模式字段726的地址模式部分确定指令是 使用直接寻址还是间接寻址。当使用直接寄存器寻址模式时,指令中的位 直接提供一个或多个操作数的寄存器地址。当使用间接寄存器寻址模式时, 可以基于指令中的地址寄存器值和地址立即数字段来计算一个或多个操作 数的寄存器地址。
在一些实施例中,基于操作码712位字段对指令进行分组以简化操作 码解码740。对于8位操作码,位4、5和6允许执行单元确定操作码的类 型。所示的精确操作码分组仅仅是示例。在一些实施例中,移动和逻辑操 作码组742包括数据移动和逻辑指令(例如移动(mov)、比较(cmp))。 在一些实施例中,移动和逻辑组742共享五个最高有效位(MSB),其中移 动(mov)指令为0000xxxxb的形式并且逻辑指令为0001xxxxb的形式。流 控制指令组744(例如,调用、跳转(jmp))包括形式为0010xxxxb(例如, 0x20)的指令。杂项指令组746包括指令混合,其包括以0011xxxxb(例如, 0x30)形式的同步指令(例如,等待,发送)。并行数学指令组748包括 0100xxxxb(例如,0x40)形式的分量算术指令(例如,加法、乘法(mul))。 并行数学组748跨数据通道并行执行算术运算。矢量数学组750包括形式 为0101xxxxb(例如,0x50)的算术指令(例如,dp4)。矢量数学组对矢量 操作数执行算术运算,例如点积计算。
图形流水线
图8是图形处理器800的另一实施例的框图。图8中的具有与本文任 何其他图的元件相同的附图标记(或名称)的元件可以以与本文其他地方 所描述的任何类似的方式操作或起作用,但不限于此。
在一些实施例中,图形处理器800包括几何流水线820、媒体流水线 830、显示引擎840、线程执行逻辑850和渲染输出流水线870。在一些实 施例中,图形处理器800是包括一个或多个通用处理核的多核处理系统内 的图形处理器。图形处理器通过向一个或多个控制寄存器(未示出)的寄 存器写入或经由环形互连802向图形处理器800发出的命令来控制。在一 些实施例中,环形互连802将图形处理器800耦合到其他处理组件,诸如 其他图形处理器或通用处理器。来自环形互连802的命令由命令流式传送 器803解释,命令流式传送器803向几何流水线820或媒体流水线830的 各个组件供应指令。
在一些实施例中,命令流式传送器803引导从存储器读取顶点数据的 顶点获取器805的操作,并且执行由命令流式传送器803提供的顶点处理 命令。在一些实施例中,顶点获取器805将顶点数据提供给顶点着色器807, 顶点着色器807对每个顶点执行坐标空间变换和照明操作。在一些实施例 中,顶点获取器805和顶点着色器807通过经由线程分派器831将执行线 程分派给执行单元852A、852B来执行顶点处理指令。
在一些实施例中,执行单元852A、852B是具有用于执行图形和媒体 操作的指令集的矢量处理器的阵列。在一些实施例中,执行单元852A、852B 具有附接的L1高速缓存851,其专用于每个阵列或在阵列之间共享。高速 缓存可以配置为数据高速缓存、指令高速缓存或被划分以在不同分区中包 含数据和指令的单个高速缓存。
在一些实施例中,几何流水线820包括曲面细分组件以执行3D对象的 硬件加速的曲面细分。在一些实施例中,可编程外壳着色器811配置曲面 细分操作。可编程域着色器817提供曲面细分输出的后端评估。曲面细分 器813在外壳着色器811的方向上操作并且包含专用逻辑以基于作为输入 提供给几何流水线820的粗略几何模型来生成一组详细几何对象。在一些 实施例中,如果不使用曲面细分,则曲面细分组件(例如,全着色器811、 曲面细分器813、以及区域着色器817)可以被绕过。
在一些实施例中,完整的几何对象可以由几何着色器819经由分派到 执行单元852A、852B的一个或多个线程来处理,或者可以直接进行到裁剪 器829。在一些实施例中,几何着色器在整个几何对象上进行操作,而不是 像在图形流水线的先前级中那样在顶点或顶点片上进行操作。如果曲面细 分被禁用,则几何着色器819从顶点着色器807接收输入。在一些实施例 中,如果曲面细分单元被禁用,则几何着色器819能够由几何着色器程序编程以执行几何曲面细分。
在光栅化之前,裁剪器829可以处理顶点数据。裁剪器829可以是固 定功能裁剪器或具有裁剪和几何着色器功能的可编程裁剪器。在一些实施 例中,渲染输出流水线870中的光栅化器以及深度测试组件873调度像素 着色器以将几何对象转换为其每像素表示。在一些实施例中,像素着色器 逻辑被包括在线程执行逻辑850中。在一些实施例中,应用可以绕过光栅 化器以及深度测试组件873并且经由流出单元823访问未光栅化的顶点数 据。
图形处理器800具有允许数据和消息在处理器的主要组件之间传递的 互连总线、互连结构或一些其他互连机制。在一些实施例中,执行单元 852A-852B和关联的逻辑单元(例如,L1高速缓存851、采样器854以及 纹理高速缓存858等)经由数据端口856互连以执行存储器存取并且与处 理器的渲染输出流水线组件进行通信。在一些实施例中,采样器854、高速 缓存851、858和执行单元852A、852B各自具有分离的存储器存取路径。 在一个实施例中,纹理高速缓存858还可以被配置为采样器高速缓存。
在一些实施例中,渲染输出流水线870包含将基于顶点的对象转换为 关联的基于像素的表示的光栅化器和深度测试组件873。在一些实施例中, 光栅器逻辑包括加窗器/掩码器单元,以执行固定功能三角形和线光栅化。 在一些实施例中,相关联的渲染高速缓存878和深度高速缓存879也是可 用的。像素操作组件877对数据执行基于像素的操作,尽管在一些实例中, 与2D操作相关联的像素操作(例如,具有混合的位块图像传送)由2D引 擎841执行,或者在显示时通过显示器控制器843使用重叠显示平面替代。 在一些实施例中,共享的L3高速缓存875可用于所有图形组件,允许在不 使用主系统存储器的情况下共享数据。
在一些实施例中,图形处理器媒体流水线830包括媒体引擎837和视 频前端834。在一些实施例中,视频前端834从命令流式传送器803接收流 水线命令。在一些实施例中,媒体流水线830包括单独的命令流式传送器。 在一些实施例中,视频前端834在将命令发送到媒体引擎837之前处理媒 体命令。在一些实施例中,媒体引擎837包括线程产生功能以产生线程从 而经由线程分派器831分派给线程执行逻辑850。
在一些实施例中,图形处理器800包括显示引擎840。在一些实施例中, 显示引擎840在处理器800的外部并经由环形互连802或一些其他互连总 线或结构与图形处理器耦合。在一些实施例中,显示引擎840包括2D引擎 841和显示控制器843。在一些实施例中,显示引擎840包含能够独立于3D 流水线而操作的专用逻辑。在一些实施例中,显示控制器843与显示设备 (未示出)耦合,该显示设备可以是如膝上型计算机之类的系统集成显示 设备,或者经由显示设备连接器附接的外部显示设备。
在一些实施例中,几何流水线820和媒体流水线830能够配置成基于 多个图形和媒体编程接口来执行操作,并且不特定于任何一种应用编程接 口(API)。在一些实施例中,用于图形处理器的驱动器软件将对特定图形 或媒体库特定的API调用转换成可由图形处理器处理的命令。在一些实施 例中,针对全部来自Khronos Group的开放图形库(OpenGL)和/或Vulkan 图形以及计算API提供支持。在一些实施例中,还可以针对来自微软公司 的Direct3D库提供支持。在一些实施例中,可以支持这些库的组合。也可 以对开源计算机视觉库(OpenCV)提供支持。如果能够从未来API的流水 线到图形处理器的流水线进行映射,则还将支持具有兼容3D流水线的未来 API。
图形流水线编程
图9A是示出了根据一些实施例的图形处理器命令格式900的框图。图 9B是示出了根据一个实施例的图形处理器命令序列910的框图。图9A中 的实线框示出了通常包括在图形命令中的组件,而虚线包括可选的或仅包 含在图形命令的子集中的组件。图9A的示例性的图形处理器命令格式900 包括用于标识客户端902、命令操作码(操作码)904以及该命令的数据906 的数据字段。子操作码905和命令大小908也包含在一些命令中。
在一些实施例中,客户端902指定处理命令数据的图形设备的客户端 单元。在一些实施例中,图形处理器命令解析器检查每个命令的客户端字 段以调节命令的进一步处理并将命令数据路由到适当的客户端单元。在一 些实施例中,图形处理器客户端单元包括存储器接口单元、渲染单元、2D 单元、3D单元和媒体单元。每个客户端单元都有处理这些命令的相应处理 流水线。一旦客户端单元接收到该命令,客户端单元就读取操作码904和 子操作码905(如果存在)以确定要执行的操作。客户端单元使用数据字段 906中的信息来执行命令。对于某些命令,预期明确的命令大小908以指定 命令的大小。在一些实施例中,命令解析器基于命令操作码来自动确定命 令中的至少一些的大小。在一些实施例中,命令经由双字的倍数对齐。
图9B中的流程示出了示例性图形处理器命令序列910。在一些实施例 中,以图形处理器的实施例为特征的数据处理系统的软件或固件使用所示 命令序列的一个版本来设置、执行并终止一组图形操作。仅出于示例的目 的示出和描述示例命令序列,因为实施例不限于这些特定命令或该命令序 列。而且,命令可以作为命令序列中的一批命令发布,使得图形处理器将 至少部分地同时处理命令序列。
在一些实施例中,图形处理器命令序列910可以以流水线刷新命令912 开始,以使任何活动图形流水线完成流水线的当前未决命令。在一些实施 例中,3D流水线922和媒体流水线924不同时操作。执行流水线刷新以使 活动图形流水线完成任何未决命令。响应于流水线刷新,图形处理器的命 令解析器将暂停命令处理,直到活动绘图引擎完成未决操作并且相关读取 高速缓存失效。可选地,渲染高速缓存中标记为“脏”的任何数据都可以 刷新到存储器。在一些实施例中,流水线刷新命令912可以用于流水线同 步或者在将图形处理器置于低功率状态之前使用。
在一些实施例中,当命令序列要求图形处理器在流水线之间明确切换 时使用流水线选择命令913。在一些实施例中,在发布流水线命令之前,在 执行上下文中仅需要一次流水线选择命令913,除非该上下文将发布针对两 个流水线的命令。在一些实施例中,紧接在经由流水线选择命令913的流 水线切换之前需要流水线刷新命令912。
在一些实施例中,流水线控制命令914配置图形流水线以用于操作, 并用于对3D流水线922和媒体流水线924进行编程。在一些实施例中,流 水线控制命令914配置活动流水线的流水线状态。在一个实施例中,流水 线控制命令914被用于流水线同步并且在处理一批命令之前清除来自活动 流水线内的一个或多个高速缓存存储器的数据。
在一些实施例中,返回缓冲区状态命令916被用于配置一组返回缓冲 区以便相应流水线写入数据。一些流水线操作需要分配、选择或配置一个 或多个返回缓冲区,操作在处理期间将中间数据写入该返回缓冲区。在一 些实施例中,图形处理器还使用一个或多个返回缓冲区来存储输出数据并 执行交叉线程通信。在一些实施例中,返回缓冲区状态916包括选择返回 缓冲区的大小和数量以用于一组流水线操作。
命令序列中的其余命令基于用于操作的活动流水线而不同。基于流水 线确定920,命令序列针对从3D流水线状态930开始的3D流水线922或 从媒体流水线状态940开始的媒体流水线924而定制。
用于3D流水线状态930的命令包括用于顶点缓冲区状态、顶点元素状 态、常量颜色状态、深度缓冲区状态以及在处理3D图元命令之前要配置的 其他状态变量的3D状态设置命令。这些命令的值至少部分基于正在使用的 特定3D API来确定。在一些实施例中,如果某些流水线元件将不被使用, 3D流水线状态930命令还能够选择性地禁用或绕过那些元件。
在一些实施例中,3D图元932命令被用于提交将由3D流水线处理的 3D图元。经由3D图元932命令传递给图形处理器的命令和相关联的参数 被转发到图形流水线中的顶点获取函数。顶点获取函数使用3D图元932命 令数据来生成顶点数据结构。顶点数据结构存储在一个或多个返回缓冲区 中。在一些实施例中,3D图元932命令被用于经由顶点着色器对3D图元 执行顶点操作。为了处理顶点着色器,3D流水线922将着色器执行线程分 派给图形处理器执行单元。
在一些实施例中,3D流水线922经由执行934命令或事件来触发。在 一些实施例中,寄存器写入触发命令执行。在一些实施例中,经由命令序 列中的“开始”或“踢”命令来触发执行。在一个实施例中,使用流水线 同步命令来触发命令执行以通过图形流水线刷新命令序列。3D流水线将执 行针对3D图元的几何处理。一旦操作完成,得到的几何对象被光栅化,并 且像素引擎对所得像素着色。用于控制像素着色和像素后端操作的附加命 令也可以包含以用于这些操作。
在一些实施例中,当执行媒体操作时,图形处理器命令序列910在媒 体流水线924路径之后。通常,针对媒体流水线924的具体使用和编程方 式取决于要执行的媒体或计算操作。在媒体解码期间,特定的媒体解码操 作可以被卸载到媒体流水线。在一些实施例中,媒体流水线也可以被绕过, 并且可以使用由一个或多个通用处理核提供的资源来全部或部分地执行媒 体解码。在一个实施例中,媒体流水线还包括用于通用图形处理器单元(GPGPU)操作的元件,其中图形处理器用于使用与图形图元的渲染不明 确相关的计算着色器程序来执行SIMD矢量操作。
在一些实施例中,媒体流水线924以与3D流水线922类似的方式配置。 在媒体对象命令942之前,用于配置媒体流水线状态940的一组命令被分 派或放入命令队列中。在一些实施例中,用于媒体流水线状态的命令940 包括用于配置将被用来处理媒体对象的媒体流水线元素的数据。这包括用 于配置媒体流水线内的视频解码和视频编码逻辑的数据,如编码或解码格 式。在一些实施例中,用于媒体流水线状态的命令940还支持使用指向包 含一批状态设置的“间接”状态元素的一个或多个指针。
在一些实施例中,媒体对象命令942供应指向媒体对象的指针以用于 由媒体流水线处理。媒体对象包括包含要处理的视频数据的存储器缓冲区。 在一些实施例中,在发布媒体对象命令942之前,所有媒体流水线状态必 须是有效的。一旦流水线状态被配置并且媒体对象命令942入队,则媒体 流水线924经由执行命令944或等同的执行事件(例如寄存器写入)触发。 然后,来自媒体流水线924的输出可以由3D流水线922或媒体流水线924 提供的操作进行后处理。在一些实施例中,GPGPU操作以与媒体操作类似 的方式被配置和执行。
图形软件架构
图10示出了根据一些实施例的用于数据处理系统1000的示例性图形 软件架构。在一些实施例中,软件架构包括3D图形应用1010、操作系统 1020和至少一个处理器1030。在一些实施例中,处理器1030包括图形处 理器1032和一个或多个通用处理器核1034。图形应用1010和操作系统1020 各自在数据处理系统的系统存储器1050中执行。
在一些实施例中,3D图形应用1010包含一个或多个着色器程序,其 包括着色器指令1012。着色器语言指令可以是高级着色器语言,诸如高级 着色器语言(HLSL)或OpenGL着色语言(GLSL)。该应用还包括适用于 由通用处理器核1034执行的机器语言的可执行指令1014。该应用还包括由 顶点数据定义的图形对象1016。
在一些实施例中,操作系统1020是来自微软公司的
Figure BDA0002392446360000261
操作系统、专有类UNIX操作系统或者使用Linux内 核的变体的开源类UNIX操作系统。操作系统1020可以支持图形API 1022, 诸如Direct3D API、OpenGL API或Vulkan API。当Direct3D API被使用时, 操作系统1020使用前端着色器编译器1024来将HLSL中的任何着色器指 令1012编译成较低级着色器语言。编译可以是即时(JIT)编译或应用可以 执行着色器预编译。在一些实施例中,在编译3D图形应用1010期间将高 级着色器编译成低级着色器。在一些实施例中,着色器指令1012以中间形 式(例如,Vulkan API使用的标准可移植中间表示(SPIR)的版本)提供。
在一些实施例中,用户模式图形驱动器1026包含后端着色器编译器 1027以将着色器指令1012转换成硬件特定表示。当OpenGL API被使用时, GLSL高级语言的着色器指令1012被传递给用户模式图形驱动器1026以供 编译。在一些实施例中,用户模式图形驱动器1026使用操作系统内核模式 功能1028来与内核模式图形驱动器1029通信。在一些实施例中,内核模 式图形驱动器1029与图形处理器1032通信以分派命令和指令。
IP核实现
至少一个实施例的一个或多个方面可以通过代表和/或定义诸如处理器 之类的集成电路内的逻辑的存储在机器可读介质上的代表性代码来实现。 例如,机器可读介质可以包括表示处理器内的各种逻辑的指令。当由机器 读取时,指令可以使机器制造逻辑以执行本文描述的技术。被称为“IP核” 的这种表示是用于集成电路的逻辑的可重用单元,其可以作为描述集成电 路的结构的硬件模型存储在有形的、机器可读介质上。硬件模型可以供应 给各种客户或制造设施,这些客户或制造设施在制造集成电路的制造机器 上加载硬件模型。集成电路可以被制造为使得电路执行结合本文描述的任 何实施例描述的操作。
图11A是示出了根据实施例的可用于制造集成电路以执行操作的IP核 开发系统1100的框图。IP核开发系统1100可以用于生成模块化的、可重 用的设计,其可以被结合到更大的设计中或被用于构建整个集成电路(例 如,SOC集成电路)。设计工具1130可以用高级编程语言(例如,C/C++) 生成IP核设计的软件模拟1110。软件模拟1110可以用于使用模拟模型1112 来设计、测试和验证IP核的行为。模拟模型1112可以包括功能、行为和/ 或时序模拟。然后,可以根据模拟模型1112来创建或合成寄存器传输级 (RTL)设计。RTL设计1115是对硬件寄存器之间的数字信号流进行建模 的集成电路的行为的抽象,包括使用建模的数字信号执行的关联逻辑。除 了RTL设计1115之外,还可以创建、设计或合成逻辑电平或晶体管级的较 低级设计。因此,初始设计和模拟的具体细节可能会有所不同。
RTL设计1115或等同物可以进一步由设计工具合成为硬件模型1120, 其可以是硬件描述语言(HDL)或物理设计数据的一些其他表示。可以进 一步模拟或测试HDL以验证IP核设计。可以使用非易失性存储器1140(例 如,硬盘、闪存或任何非易失性存储介质)来存储IP核设计,以便传送到 第三方制造设施1165。可替代地,IP核设计可以通过有线连接1150或无线 连接1160被发送(例如,经由因特网)。制造设施1165然后可以制造至少 部分地基于IP核设计的集成电路。所制造的集成电路可以被配置为根据本 文描述的至少一个实施例执行操作。
图11B示出了根据本文描述的一些实施例的集成电路封装组件1170的 横截面侧视图。集成电路封装组件1170示出了如本文所述的一个或多个处 理器或加速器设备的实现。封装组件1170包括连接到衬底1180的多个硬 件逻辑单元1172、1174。逻辑1172、1174可以至少部分地在可配置逻辑或 固定功能逻辑硬件中实现,并且可以包括处理器核、图形处理器或本文描 述的其他加速器设备中的任何的一个或多个部分。逻辑1172、1174的每个单元可以在半导体管芯内实现,并且经由互连结构1173与衬底1180耦合。 互连结构1173可以被配置为在逻辑1172、1174和衬底1180之间路由电信 号,并且可以包括互连,例如但不限于凸块或支柱。在一些实施例中,互 连结构1173可以被配置为路由电信号,例如,与逻辑1172、1174的操作相 关联的输入/输出(I/O)信号和/或电源或接地信号。在一些实施例中,衬底 1180是基于环氧树脂的层压衬底。在其他实施例中,封装衬底1180可以包 括其他合适类型的衬底。封装组件1170可以经由封装互连1183连接到其 他电子器件。封装互连1183可以耦合到衬底1180的表面以将电信号路由 到其他电子设备,例如母板、其他芯片组或多个芯片模块。
在一些实施例中,逻辑单元1172、1174与桥1182电耦合,桥1182被 配置为在逻辑1172、1174之间路由电信号。桥1182可以是提供针对电子信 号的路由的密集互连结构。桥1182可以包括由玻璃或合适的半导体材料构 成的桥衬底。可以在桥衬底上形成电路由特征,以在逻辑1172、1174之间 提供芯片到芯片的连接。
尽管示出了两个逻辑单元1172、1174和桥1182,但是本文描述的实施 例可以在一个或多个管芯上包括更多或更少的逻辑单元。一个或多个管芯 可以通过零个或多个桥连接,因为当逻辑包括在单个管芯上时可以排除桥 1182。可替换地,多个管芯或逻辑单元可以通过一个或多个桥连接。另外, 多个逻辑单元、管芯和桥可以以其他可能的配置(包括三维配置)连接在 一起。
片上集成电路的示例性系统
图12-图14示出了根据本文描述的各种实施例的可以使用一个或多个 IP核制造的示例性集成电路和相关联的图形处理器。除了所示的内容之外, 可以包括其他逻辑和电路,包括附加的图形处理器/核、外围接口控制器或 通用处理器核。
图12是示出了根据实施例的可以使用一个或多个IP核制造的芯片集 成电路1200上的示例性系统的框图。示例性集成电路1200包括一个或多 个应用处理器1205(例如,CPU)、至少一个图形处理器1210,并且可以 另外包括图像处理器1215和/或视频处理器1220,其中的任何一个可以是 来自相同或多个不同的设计工具的模块化IP核。集成电路包括外围设备或 总线逻辑,其包括USB控制器1225、UART控制器1230、SPI/SDIO控制 器1235和I2S/I2C控制器1240。另外,集成电路可包括显示设备1245,显 示设备1245耦合到以下中的一个或多个:高清晰度多媒体接口(HDMI) 控制器1250和移动工业处理器接口(MIPI)显示接口1255。存储可以由包 括闪存和闪存控制器的闪存子系统1260提供。存储器接口可以经由存储器 控制器1265被提供以访问SDRAM或SRAM存储器设备。
图13A-图13B是示出了根据本文描述的实施例的在SoC内使用的示例 性图形处理器的框图。图13A示出了根据一个实施例的可以使用一个或多 个IP核制造的片上系统集成电路的示例性图形处理器1310。图13B示出了 根据实施例的可以使用一个或多个IP核制造的片上系统集成电路的另外的 示例性图形处理器1340。图13A的图形处理器1310是低功率图形处理器 核的示例。图13B的图形处理器1340是更高性能图形处理器核的示例。每 个图形处理器1310、1340可以是图12的图形处理器1210的变体。
如图13A所示,图形处理器1310包括顶点处理器1305和一个或多个 片段处理器1315A-1315N(例如,1315A、1315B、1315C、1315D到1315N-1 和1315N)。图形处理器1310可以经由单独的逻辑执行不同的着色器程序, 使得顶点处理器1305被优化以执行针对顶点着色器程序的操作,而一个或 多个片段处理器1315A-1315N执行针对片段或像素着色器程序的片段(例 如,像素)着色操作。顶点处理器1305执行3D图形流水线的顶点处理级 并生成图元和顶点数据。片段处理器1315A-1315N使用由顶点处理器1305 生成的图元和顶点数据来产生显示在显示设备上的帧缓冲区。在一个实施 例中,片段处理器1315A-1315N被优化以执行如OpenGL API中提供的片 段着色器程序,其可用于执行与针对Direct 3D API提供的像素着色器程序 类似的操作。
图形处理器1310另外包括一个或多个存储器管理单元(MMU) 1320A-1320B、高速缓存1325A-1325B和电路互连1330A-1330B。一个或 多个MMU 1320A-1320B针对图形处理器1310提供虚拟到物理地址映射, 包括针对顶点处理器1305和/或片段处理器1315A-1315N,除了存储在一个 或多个高速缓存1325A-1325B中的顶点或图像/纹理数据之外,其可以参考 存储在存储器中的顶点或图像/纹理数据。在一个实施例中,一个或多个 MMU 1320A-1320B可以与系统内的其他MMU同步,包括与图12的一个 或多个应用处理器1205、图像处理器1215和/或视频处理器1220相关联的 一个或多个MMU,使得每个处理器1205-1220可以参与共享或统一的虚拟 存储器系统。根据实施例,一个或多个电路互连1330A-1330B使得图形处 理器1310能够经由SoC的内部总线或经由直接连接与SoC内的其他IP核 接口。
如图13B所示,图形处理器1340包括图13A的图形处理器1310的一 个或多个MMU1320A-1320B、高速缓存1325A-1325B和电路互连 1330A-1330B。图形处理器1340包括一个或多个着色器核1355A-1355N(例 如,1455A、1355B、1355C、1355D、1355E、1355F,至1355N-1和1355N), 其提供统一的着色器核架构,其中单核或类型或核可以执行所有类型的可 编程着色器代码,包括用于实现顶点着色器的着色器程序代码、片段着色 器和/或计算着色器。存在的着色器核的确切数量可以在实施例和实现之间 变化。另外,图形处理器1340包括核间任务管理器1345,其充当线程调度 器以将执行线程分派到一个或多个着色器核1355A-1355N和拼接单元1358 以加速用于基于图块的渲染的拼接操作,其中场景的渲染操作被细分在图 像空间中,例如以利用场景内的局部空间相干性或优化内部高速缓存的使用。
图14A-图14B示出了根据本文描述的实施例的另外的示例性图形处理 器逻辑。图14A示出了可以包括在图12的图形处理器1210内的图形核1400, 并且可以是如图13B中的统一着色器核1355A-1355N。图14B示出了适合 于部署在多芯片模块上的高度并行的通用图形处理单元1430。
如图14A所示,图形核1400包括共享指令高速缓存1402、纹理单元 1418和高速缓存/共享存储器1420,它们对于图形核1400内的执行资源是 公共的。图形核1400可以包括每个核的多个切片1401A-1401N或分区,并 且图形处理器可以包括图形核1400的多个实例。切片1401A-1401N可以包 括支持逻辑,其包括本地指令高速缓存1404A-1404N、线程分派器 1406A-1406N线程分派器1408A-1408N,以及一组寄存器1410A。为了执 行逻辑操作,切片1401A可以包括一组附加功能单元(AFU 1412A-1412N)、 浮点单元(FPU 1414A-1414N)、整数算术逻辑单元(ALU 1416-1416N)、 地址计算单元(ACU 1413A-1413N)、双精度浮点单元(DPFPU 1415A-1415N) 和矩阵处理单元(MPU 1417A-1417N)。
一些计算单元以特定精度操作。例如,FPU 1414A-1414N可以执行单 精度(32位)和半精度(16位)浮点运算,而DPFPU 1415A-1415N执行 双精度(64位)浮点运算。ALU1416A-1416N可以以8位、16位和32位 精度执行可变精度整数运算,并且可以被配置用于混合精度运算。MPU 1417A-1417N还可以配置用于混合精度矩阵运算,包括半精度浮点运算和8 位整数运算。MPU 1417-1417N可以执行各种矩阵操作以加速机器学习应用 框架,包括支持加速的通用矩阵到矩阵乘法(GEMM)。AFU 1412A-1412N 可以执行浮点或整数单元不支持的附加逻辑运算,包括三角运算(例如, 正弦、余弦等)。
如图14B所示,通用处理单元(GPGPU)1430可以被配置为使得高度 并行的计算操作能够由图形处理单元阵列执行。另外,GPGPU 1430可以直 接链接到GPGPU的其他实例以创建多GPU集群以提高针对特别深度神经 网络的训练速度。GPGPU 1430包括主机接口1432,其用于实现与主机处 理器的连接。在一个实施例中,主机接口1432是快速PCI接口。但是,主 机接口也可以是供应商特定的通信接口或通信结构。GPGPU 1430从主处理 器接收命令并使用全局调度器1434将与那些命令相关联的执行线程分发到 一组计算集群1436A-1436H。计算集群1436A-1436H共享高速缓冲存储器 1438。高速缓冲存储器1438可以用作针对计算集群1436A-1436H内的高速 缓存存储器的更高级高速缓存。
GPGPU 1430包括经由一组存储器控制器1434A-1434B与计算集群 1436A-1436H耦合的存储器1434A-1434B。在各种实施例中,存储器 1434A-1434B可包括各种类型的存储器装置,包括动态随机存取存储器 (DRAM)或图形随机存取存储器,例如随机同步图形存取存储器 (SGRAM),包括图形双倍数据速率(GDDR)存储器。
在一个实施例中,计算集群1436A-1436H每个包括一组图形核,例如 图14A的图形核1400,其可以包括多种类型的整数和浮点逻辑单元,其可 以以一系列精度执行计算操作,包括适合于机器学习计算。例如并且在一 个实施例中,每个计算集群1436A-1436H中的浮点单元的至少一个子集可 以被配置为执行16位或32位浮点运算,而浮点单元的不同子集可以配置 为执行64位浮点运算。
GPGPU 1430的多个实例可以被配置为作为计算集群操作。计算集群用 于同步和数据交换的通信机制因实施例而异。在一个实施例中,GPGPU 1430的多个实例通过主机接口1432进行通信。在一个实施例中,GPGPU 1430包括I/O集线器1439,其将GPGPU 1430与GPU链路1440耦合,GPU 链路1440使得能够直接连接到GPGPU的其他实例。在一个实施例中,GPU链路1440耦合到专用GPU到GPU桥,其实现GPGPU 1430的多个实例之 间的通信和同步。在一个实施例中,GPU链路1440与高速互连耦合以发送 和接收数据到其他GPGPU或并行处理器。在一个实施例中,GPGPU 1430 的多个实例位于单独的数据处理系统中,并且经由可经由主机接口1432访 问的网络设备进行通信。在一个实施例中,GPU链路1440可被配置为实现 与主机处理器的连接,除了主机接口1432之外或作为其替代。
虽然GPGPU 1430的所示配置可以被配置为训练神经网络,但是一个 实施例提供GPGPU 1430的备选配置,其可以被配置用于在高性能或低功 率推理平台内部署。在推理配置中,GPGPU 1430相对于训练配置包括更少 的计算集群1436A-1436H。另外,与存储器1434A-1434B相关联的存储器 技术可以在推理和训练配置之间不同,其中更高带宽的存储器技术致力于 训练配置。在一个实施例中,GPGPU 1430的推理配置可以支持推理特定指令。例如,推理配置可以提供针对一个或多个8位整数点积指令的支持, 这些指令通常在针对部署的神经网络的推理操作期间使用。
使用平面存储器映射控制表面访问
如上所述,一些图形处理系统在将图形数据存储在存储器中之前使用 一种或多种数据压缩技术来压缩图形数据。关于用于编码数据条目的压缩 技术的信息可以作为元数据存储在单独的存储器位置中,该元数据在逻辑 上与数据条目相关联。当从存储器取回数据时,压缩元数据与数据一起取 回,并用于促进对元数据的解压缩。
一些图形处理系统利用映射表来提供数据条目和压缩元数据之间的逻 辑关联。该技术可能需要指向要从表取回的元数据的指针,以便从存储器 取回元数据,这可能导致图形处理系统中的延迟,从而限制了大型图形处 理系统的性能。
在一些方面,本文描述的主题通过提供用于支持使用平面存储器映射 的控制表面访问的数据处理架构和技术,从而解决了这些和其他问题。广 泛地,在一些示例中,第一存储器空间被分配用于图形工作负载中的数据。 第一存储器空间包括第一多个可寻址存储器位置。第二存储器空间被分配 用于与用于图形工作负载的数据有关的压缩元数据。第二存储器空间包括 第二多个可寻址存储器位置。在一些示例中,第二存储器空间被分配为具 有与第一存储器空间的大小的预定比率的大小的大小。例如,在针对每个 128字节数据的4个元数据位的元数据方案中,第一存储器空间与第二存储 器空间的比率可以为256:1。因为第一存储器空间和第二存储器空间的大 小之间存在直接的、固定比率,所以可以在第一存储器空间和第二存储器 空间中的存储器地址之间配置直接存储器映射。因此,在操作中,当进行 存储器存取以存取第一存储器空间中的地址处的数据时,可以从第二存储 器空间中直接取回与数据相关联的压缩元数据,而无需查阅查找表,从而 避免了与访问查找表来确定压缩数据的存储器位置相关联的延迟。
图15示出了根据本文描述的实施例的数据处理系统,其可以适于支持 使用平面存储器映射的控制面访问。参照图15,在一些示例中,数据处理 系统1500可以被实现为具有中央处理单元(CPU)复合体1510、统一存储 器1530和通用图形处理单元(GPGPU)1540的异构处理系统。CPU复合 体1510包括执行操作系统1514的一个或多个处理器1512。一个或多个游 戏和/或媒体应用1516可以在由在处理器1512上执行的操作系统1514提供 的环境中执行。CPU复合体1510还可以执行分派器1524的图形设备驱动 器1520。处理器1512可被实现为本文所述的任何处理器。
GPGPU 1540包括多个计算块1544A-1544N,其包括本文所述的执行逻 辑的一个或多个实例。GPGPU 1540还包括一组寄存器1545、高速缓冲存 储器1547以及功率和性能模块1546,其可以用作用于计算块1544A-1544N 的共享资源。在一个实施例中,寄存器1545包括直接和间接可存取的寄存 器,其中可对间接可存取的寄存器进行优化以用于矩阵计算操作中。功率 和性能模块1546可以被配置为调整计算块1544A-1544N的功率传送和时钟 频率,以在繁重的工作负载下为计算块1544A-1544N内的门空闲组件供电。 GPGPU 1540包括GPGPU本地存储器1548,其是与GPGPU 1540共享图形 卡或多芯片模块的物理存储器模块。
统一存储器1530表示可由处理器1512和GPGPU 1540访问的统一地 址空间。统一存储器包括系统存储器1532以及GPGPU存储器1538。在一 些实施例中,GPGPU存储器1538包括GPGPU 1540中的GPGPU本地存储 器并且还可包括一些或全部系统存储器1532。例如,存储在系统存储器1512 中的编译代码1534B也可映射到GPGPU存储器1538中,以供GPGPU1540 访问。在一个实施例中,系统存储器1532中的运行时库1536可以促进编 译代码1534B的编译和/或执行。处理器1512可以执行针对存储在系统存 储器1532中的编译器1535的指令。编译器1535可以将源代码1534A编译 为编译后的代码1534B,以由处理器1512和/或GPGPU 1540执行。在一个 实施例中,编译器1535是或可以包括着色器编译器,用于编译专门用于 GPGPU 1540执行的着色器程序。
在图15所示的示例中,压缩管理器1522可以由CPU复合体1510或GPGPU 1540中的一个或两个执行。在一些示例中,压缩管理器1522可以 实现为体现在非暂时性计算机可读介质(即,软件)上的逻辑指令,而在 其他实施例中,上下文管理器1522可以简化为固件、逻辑电路或其组合。 在一些示例中,上下文管理器1522的部分可以由数据处理系统1500的基本输入/输出系统(BIOS)实现。
已经描述了用于实现粗略计算着色的各种结构组件,将参照图16A-图 16B、图17以及图18描述用于实现粗略计算着色的操作。在一些示例中, 图16A-图16B示出的操作可以由上下文管理器1522单独地或与图15中描 绘的客户端系统1500的其他组件组合地实现。
参照图16A和图17,在操作1610中,第一存储器空间被分配用于图 形工作负载。在一些示例中,压缩管理器1522分配存储器1710的第一部 分1720用于与图形工作负载相关联的图形数据。图形数据可以包括例如顶 点数据、表面数据、颜色数据等。第一存储器空间包括多个可寻址的存储 器位置。
在操作1615中,第二存储器空间第二存储器空间被分配用于与存储在 第一存储器空间中的图形数据有关的压缩数据。在一些示例中,压缩管理 器1522分配存储器1710的第二部分1730用于与存储在存储器1710的第 一部分1720中的图形数据相关联的压缩数据。压缩数据可以包括例如定义 用于压缩图形数据的压缩技术的一个或多个元素的数据。
在一些示例中,存储器的第二部分1730被分配为具有与存储器1710 的第一部分1720的大小的预定比率相对应的大小。在一些示例中,第一存 储器空间与存储器1710的的大小的比率之比。第二存储器空间可以配置为 256:1。
在操作1620,配置第一多个存储器位置和第二多个存储器位置之间的 直接存储器映射。如图17所示,存储器1710可以被配置为使得第一存储 器空间1710中的每个可寻址存储器位置直接映射到第二存储器空间1730 中的存储器位置,该存储器位置包含用于存储在存储器空间的第一部分 1720中的图形数据的压缩数据。
在操作1625中,数据处理系统1500被配置为将图形数据写入第一存 储器空间1720中的一个或多个可寻址存储器位置,并且在操作1630中, 数据处理系统配置为写入与图形数据关联的压缩数据在操作1620中将其写 入第二存储器空间1730中的可寻址存储器位置,该可寻址存储器位置直接 映射到第一存储器空间1720中的可寻址存储器位置。
图18A示出了第一存储器空间中的64KB存储器空间1722和第二存储 器空间中的256字节存储器空间1732之间的映射。参照图18A,在一些示 例中,在64KB存储器空间1722中的每个2KB存储器空间的存储器地址可 以直接映射到在256字节存储器空间1732中的8字节存储器空间的存储器 地址。64KB存储器空间进入较小的2KB存储器块的这种扩展可通过将存 储器布置在存储体中,并在整个存储体中对地址进行散列处理来使存储器 存取并行化。
如图18A所示,当图形数据被写入64KB存储器空间1722时,相对应 的压缩数据被写入256字节存储器空间。当图形数据被写入64KB存储器空 间并且相对应的压缩数据被写入256字节存储器空间1732时,压缩元数据 很容易在256字节存储器空间1732中碎片化。这可能由于在相同的存储体 中不具有数据和元数据,而导致存储器的256字节的放置效率低下,并且 对256字节存储器空间1732的读取存取效率低下。
为了解决这些问题,如图18B所示,在一些示例中,可以重新封装256 字节存储器中的压缩数据(操作1635),以将所有数据定位到256字节存储 器空间中的存储器的连续区域中。在一些示例中,可以使用散列函数将数 据重新封装。
图19是根据实施例的包括图形处理器1904的计算设备1900的框图。 计算设备1900可以是本文所述的计算设备,诸如图1中的数据处理系统100。 计算设备1900还可以是或包括在通信设备中,所述通信设备诸如机顶盒(例 如,基于互联网的有线电视机顶盒等)、基于全球定位系统(GPS)的设备 等。计算设备1900也可以是移动计算设备或包含在其中,所述移动计算设 备例如蜂窝电话、智能电话、个人数字设备助理(PDA)、平板计算机、膝上型计算机、电子阅读器、智能电视、电视平台、可穿戴设备(例如眼镜、 手表、手镯、智能卡、珠宝、衣物等)、媒体播放器等。例如,在一个实施 例中,计算设备1900包括采用集成电路(“IC”)的移动计算设备,诸如片 上系统(“SoC”或“SOC”),其集成了单个芯片上的计算设备1900的各种 硬件和/或软件组件。
计算设备1900包括图形处理器1904。图形处理器1904表示本文描述 的任何图形处理器。图形处理器包括一个或多个图形引擎、图形处理器核 以及本文所述的其他图形执行资源。可以以包括但不限于执行单元、着色 器引擎、片段处理器、顶点处理器、流式传输多处理器、图形处理器群集 或适合于处理图形和图像资源的任何计算资源集合的形式来呈现这样的图 形执行资源。
在一个实施例中,图形处理器1904包括高速缓存1914,其可以是单个 高速缓存或划分为高速缓存存储器的多个段,包括但不限于任何数量的L1、 L2、L3或L4高速缓存、渲染高速缓存、深度高速缓存、采样器缓存和/或 着色器单元缓存。在一个实施例中,图形处理器1904包括调度器1924,其 可以是图16的调度器单元1622的变体,或者是本文描述的其他调度器逻 辑。除了GPGPU引擎1944之外,图形处理器1904还可以包括命令流传输 器1926、线程分派器1934和屏障/同步逻辑1936,GPGPU引擎1944包括 硬件逻辑以执行如本文所述的图形处理和通用指令执行。
如图所示,在一个实施例中,除了图形处理器1904之外,计算设备1900 还可包括任何数量和类型的硬件组件和/或软件组件,包括但不限于应用处 理器1906、存储器1908和输入/输出(I/O)源1910。应用处理器1906可 以与硬件图形管线交互,如参考图3所示,以共享图形管线功能。处理后 的数据存储在硬件图形流水线中的缓冲区中,并且状态信息存储在存储器 1908中。所得数据可以传输到显示控制器,以通过显示设备(例如图3的 显示设备323)输出。显示设备可以是各种类型,例如阴极射线管(CRT)、 薄膜晶体管(TFT)、液晶显示器(LCD)、有机发光二极管(OLED)阵列 等,并且可以配置为通过图形用户界面将信息显示给用户。
应用处理器1906可以包括一个或多个处理器,例如图1的一个或多个 处理器102,并且可以是中央处理单元(CPU),其至少部分地用于执行计 算设备1900的操作系统(OS)1902。OS 1902可以用作计算机设备1900 的硬件和/或物理资源与一个或多个用户之间的接口。OS 1902可以包括图 形驱动器逻辑1922,诸如图10的用户模式图形驱动器1026和/或内核模式 图形驱动器1029。
预期在一些实施例中,图形处理器1904可以作为应用处理器1906的 一部分(诸如物理CPU封装的一部分)存在,在这种情况下,存储器1908 的至少一部分可以由应用处理器1906和图形处理器1904共享,尽管存储 器1908的至少一部分可以是图形处理器1904所独占的,或者图形处理器 1904可以具有单独的存储器存储。存储器1908可以包括缓冲器(例如,帧 缓冲器)的预分配区域;然而,本领域普通技术人员应该理解,实施例不 限于此,并且可以使用可存取下部图形管线的任何存储器。存储器1908可 以包括各种形式的随机存取存储器(RAM)(例如,SDRAM、SRAM等), 其包括利用图形处理器1904来渲染桌面或3D图形场景的应用。可以使用 存储器控制器来访问存储器1908中的数据,并将该数据转发到图形处理器 1904以进行图形管线处理。可以使存储器1908用于计算设备1900内的其 他组件。例如,在软件程序或应用的实现中由一个或多个处理器(例如, 应用程序处理器1906)操作从计算设备1900的各种I/O源1910接收的任 何数据(例如,输入图形数据)之前,可以将所述任何数据临时排队到存 储器1908。类似地,软件程序确定的应通过计算系统接口之一从计算设备 1900发送到外部实体,或存储到内部存储元件中的数据,通常在发送或存 储之前暂时在存储器1908中排队。
I/O源可以包括诸如触摸屏、触摸面板、触摸板、虚拟或常规键盘、虚 拟或常规鼠标、端口、连接器、网络设备等的设备。另外,I/O源1910可 以包括一个或多个I/O设备,其被实现用于向和/或从计算设备1900传输数 据(例如,网络适配器);或者,对于计算设备1900内的大规模非易失性 存储(例如,硬盘驱动器)。包括字母数字键和其他键的用户输入设备可以 用于将信息和命令选择传达给图形处理器1904。另一类用户输入设备是光 标控件,例如鼠标、轨迹球、触摸屏、触摸板或光标方向键可将方向信息 和命令选择传达给GPU,并控制光标在显示设备上的移动。计算机设备1900 的相机和麦克风阵列可以用于观察手势、记录音频和视频以及接收和发送 视觉和音频命令。
被配置为网络接口的I/O源1910可以提供对网络的访问,所述网络例 如LAN、广域网(WAN)、城域网(MAN)、个域网(PAN)、蓝牙、云网 络、蜂窝或移动网络(例如,第三代(3G)、第四代(4G)等)、企业内部 网、互联网等。网络接口可以包括例如具有一个或多个天线的无线网络接 口。网络接口还可以包括例如有线网络接口,以通过网络电缆与远程设备 通信,该网络电缆可以是例如以太网电缆、同轴电缆、光纤电缆、串行电 缆或平行电缆。
网络接口可以例如通过遵循IEEE 802.11标准来提供对LAN的访问, 和/或无线网络接口可以例如通过遵循蓝牙标准来提供对个域网的访问。也 可以支持其他无线网络接口和/或协议,包括标准的先前和后续版本。除了 或代替经由无线LAN标准的通信,网络接口可以使用例如时分多址(TDMA) 协议、全球移动通信系统(GSM)协议、码分多址(CDMA)协议和/或任 何其他类型的无线通信协议来提供无线通信。
应当意识到,对于某些实施方式,比上述示例更少或更多装备的系统 可能是优选的。因此,计算设备1900的配置可取决于多种因素(例如价格 限制、性能要求、技术改进或其他情况)而在不同实现方式之间变化。示 例包括(但不限于)移动设备、个人数字助理、移动计算设备、智能电话、 蜂窝电话、手持设备、单向寻呼机、双向寻呼机、消息收发设备、计算机、 个人计算机(PC)、台式计算机、膝上型计算机、笔记本计算机、手持计算 机、平板计算机、服务器、服务器阵列或服务器场、Web服务器、网络服 务器、互联网服务器、工作站、小型计算机、大型计算机、超级计算机、 网络设备、Web设备、分布式计算系统、多处理器系统、基于处理器的系 统、消费类电子产品、可编程消费类电子产品、电视、数字电视、机顶盒、无线接入点、基站、用户站、移动用户中心、无线电网络控制器、路由器、 集线器、网关、网桥、交换机、机器或其组合。
以下条款和/或示例涉及特定实施例或其示例。在一个或多个实施例中 的任何地方都可以使用示例中的细节。可以将不同实施例或示例的各种特 征与包括的一些特征和排除的其他特征进行各种组合,以适应各种不同的 应用。示例可以包括如下的主题,诸如方法、用于执行该方法的动作的单 元、至少一个机器可读介质,该至少一个机器可读介质包括指令,当机器 执行该指令时,该指令导致该机器根据本文描述的实施例和示例执行该方 法、装置或系统的动作。各种组件可以是用于执行所描述的操作或功能的 单元。
示例1是一种包括处理器的装置,该处理器分配第一存储器空间用于 针对图形工作负载的数据,该第一存储器包括第一多个可寻址存储器位置, 分配第二存储器空间用于与图形工作负载的数据相关的压缩元数据,第二 存储器空间包括第二多个可寻址存储器位置,并且具有与分配给第一存储 器空间的存储器的量的预定比率相对应的存储器的量,并配置第一多个可 寻址存储器位置和第二多个可寻址存储器位置之间的直接存储器映射。
示例2可以包括示例1的主题,其中分配给第一存储器空间的存储器 的量与第二存储器空间中的存储器的量的预定比率为256:1。
示例3可以包括示例1-2中任何一个的主题,处理器接收针对图形工作 负载的数据的存储器存取请求,该数据存取请求包括第一存储器空间中的 第一存储器地址;根据第一存储器地址,确定第二存储器空间中的第二存 储器地址空间;以及从第二存储器地址取回存储在其中的压缩元数据。
示例4可以包括示例1-3中任何一个的主题,处理器从第一存储器地址 取回针对图形工作负载的数据;并且使用压缩元数据来促进对第一存储器 空间中的第一存储器地址中的针对图形的数据进行解压缩。
示例5可以包括示例1-4中任何一个的主题,处理器使用散列函数将第 二存储器空间中的压缩元数据重新封装,该散列函数将第二存储器空间中 的第一可寻址存储器位置与第二存储器空间中的第二可寻址存储器位置相 关。
示例6可以包括示例1-5中的任何一个的主题,所述处理器接收针对所 述图形工作负载的数据的存储器存取请求,所述数据存取请求包括所述第 一存储器空间中的第一存储器地址;根据第一存储器地址和散列函数,确 定第二存储器空间中的第二存储器地址空间;以及从第二存储器地址取回 存储在其中的压缩元数据。
示例7可以包括示例1-5中任何一个的主题,处理器从第一存储器地址 取回针对图形工作负载的数据;以及使用压缩元数据来促进对第一存储器 空间中的第一存储器地址中的针对图形的数据进行解压缩。
示例8是一种存储指令的非暂时性机器可读介质,该指令在由一个或 多个处理器执行时使一个或多个处理器分配第一存储器空间用于图形工作 负载的数据,该第一存储器包括第一多个可寻址存储器位置,分配第二存 储器空间用于与针对图形工作负载的数据有关的压缩元数据,该第二存储 器空间包括第二多个可寻址存储器位置,并具有与分配给第一存储器空间 的存储器的量的预定比率相对应的存储器的量,并且在第一多个可寻址存 储器位置和第二多个可寻址存储器位置之间配置直接存储器映射。
示例9可以包括示例8的主题,其中分配给第一存储器空间的存储器 的量与第二存储器空间中的存储器的量的预定比率为256:1。
示例10可以包括示例8-9中任一示例的主题,还包括指令,所述指令 配置处理器以接收针对图形工作负载的数据的存储器存取请求,该数据存 取请求包括第一存储器空间中的第一存储器地址;根据第一存储器地址, 确定第二存储器空间中的第二存储器地址空间;以及从第二存储器地址取 回存储在其中的压缩元数据。
示例11可以包括示例8-10中任一项的主题,还包括指令,所述指令配 置处理器以从第一存储器地址取回针对图形工作负载的数据;并且使用压 缩元数据来促进对第一存储器空间中的第一存储器地址中的针对图形的数 据进行解压缩。
示例12可以包括示例8-11中的任何一个的主题,还包括指令,该指令 配置处理器以使用散列函数来重新封装第二存储器空间中的压缩元数据, 所述散列函数将第二存储器空间中的第一可寻址存储器位置与第二存储器 空间中的第二可寻址存储器位置相关。
示例13可以包括示例8-11中任一示例的主题,还包括指令,该指令将 处理器配置为接收针对图形工作负载的数据的存储器存取请求的指令,该 数据存取请求包括第一存储器空间中的第一存储器地址;根据第一存储器 地址和散列函数,确定第二存储器空间中的第二存储器地址空间;从第二 存储器地址取回存储在其中的压缩元数据。
示例14可以包括示例8-11中的任何一个的主题,还包括指令,该指令 将处理器配置为从第一存储器地址取回针对图形工作负载的数据;并且使 用压缩元数据来促进对第一存储器空间中的第一存储器地址中的针对图形 的数据进行解压缩。
示例15是一种计算机实现的方法,包括分配第一存储器空间用于针对 图形工作负载的数据,该第一存储器包括第一多个可寻址存储器位置,分 配第二存储器空间用于与针对图形工作负载的数据有关的压缩元数据,第 二存储器空间包括第二多个可寻址存储器位置,并且具有与分配给第一存 储器空间的存储器的量的预定比率相对应的存储器的量,并且在第一多个 可寻址存储器位置和第二多个可寻址存储器位置之间配置直接存储器映射 存储器。
示例16可以包括示例15的主题,其中分配给第一存储器空间的存储 器的量与第二存储器空间中的存储器的量的预定比率为256:1。
示例17可以包括示例15-16中任一示例的主题,还包括:接收针对图 形工作负载的数据的存储器存取请求,该数据存取请求包括第一存储器空 间中的第一存储器地址;以及根据第一存储器地址,确定第二存储器空间 中的第二存储器地址空间;以及从第二存储器地址取回存储在其中的压缩 元数据。
示例18可以包括示例15-17中任一项的主题,还包括从第一存储器地 址取回针对图形工作负载的数据;并且使用压缩元数据来促进对第一存储 器空间中的第一存储器地址中的针对图形的数据进行解压缩。
示例19可以包括示例15-18中任一示例的主题,还包括:使用散列函 数将第二存储器空间中的压缩元数据重新封装,该散列函数将第二存储器 空间中的第一可寻址存储器位置与第二存储器空间中的第二可寻址存储器 位置地址相关。
示例20可以包括示例15-19中任一示例的主题,还包括:接收针对图 形工作负载的数据的存储器存取请求,该数据存取请求包括第一存储器空 间中的第一存储器地址;以及根据第一存储器地址和散列函数,确定第二 存储器空间中的第二存储器地址空间;从第二存储器地址取回存储在其中 的压缩元数据。
示例21可以包括示例15-20中的任何一个的主题,还包括从第一存储 器地址取回针对图形工作负载的数据;以及使用压缩元数据来促进对第一 存储器空间中的第一存储器地址中的针对图形的数据进行解压缩。
例如,可以提供实施例作为计算机程序产品,该计算机程序产品可以 包括其上存储有机器可执行指令的一个或多个机器可读介质,该机器可执 行指令在由一个或多个机器(诸如,计算机、计算机网络、或其他电子设 备)执行时,可能导致一个或多个机器执行根据本文描述的实施例的操作。 机器可读介质可以包括但不限于软盘、光盘、CD-ROM(光盘只读存储器) 和磁光盘、ROM、RAM、EPROM(可擦可编程只读存储器)、EEPROM(电 可擦可编程只读存储器)、磁卡或光卡、闪存或适用于存储机器可执行指令 的其他类型的介质/机器可读介质。
此外,可以将实施例作为计算机程序产品下载,其中可以通过体现在 载波或其他传播介质或者由其调制的一个或多个数据信号的方式经由通信 链路(例如,调制解调器和/或网络连接)将程序从远程计算机(例如,服 务器)传输到请求计算机(例如,客户端)。
本领域技术人员将从前面的描述中意识到,可以以各种形式实现实施 例的广泛技术。因此,尽管已经结合实施例的特定示例描述了实施例,但 是实施例的真实范围不应受到如此限制,因为在研究附图、说明书和所附 权利要求书之后,其他修改对熟练技术人员将变得显而易见。

Claims (14)

1.一种装置,包括:
处理器,用于:
分配第一存储器空间用于针对图形工作负载的数据,所述第一存储器包括第一多个可寻址存储器位置;
分配第二存储器空间用于与针对所述图形工作负载的数据有关的压缩元数据,所述第二存储器空间包括第二多个可寻址存储器位置,并且具有与分配给所述第一存储器空间的存储器的量的预定比率相对应的存储器的量;以及
在所述第一多个可寻址存储器位置和所述第二多个可寻址存储器位置之间配置直接存储器映射。
2.根据权利要求1所述的装置,其中,分配给所述第一存储器空间的存储器的量与所述第二存储器空间中的存储器的量的所述预定比率为256:1。
3.根据权利要求1所述的装置,所述处理器,用于:
接收针对所述图形工作负载的数据的存储器存取请求,所述数据存取请求包括所述第一存储器空间中的第一存储器地址;
根据所述第一存储器地址,确定所述第二存储器空间中的第二存储器地址;以及
从所述第二存储器地址取回存储在其中的所述压缩元数据。
4.根据权利要求3所述的装置,所述处理器,用于:
从所述第一存储器地址取回针对所述图形工作负载的数据;以及
使用所述压缩元数据来促进对所述第一存储器空间中的所述第一存储器地址的针对所述图形的数据进行解压缩。
5.根据权利要求1所述的装置,所述处理器,用于:
使用散列函数来重新封装所述第二存储器空间中的所述压缩元数据,所述散列函数将所述第二存储器空间中的第一可寻址存储器位置与所述第二存储器空间中的第二可寻址存储器位置相关。
6.根据权利要求5所述的装置,所述处理器,用于:
接收针对所述图形工作负载的数据的存储器存取请求,所述数据存取请求包括所述第一存储器空间中的第一存储器地址;
根据所述第一存储器地址和所述散列函数,确定所述第二存储器空间中的第二存储器地址;以及
从所述第二存储器地址取回存储在其中的所述压缩元数据。
7.根据权利要求6所述的装置,所述处理器,用于:
从所述第一存储器地址取回针对所述图形工作负载的数据;以及
使用所述压缩元数据来促进对所述第一存储器空间中的所述第一存储器地址的针对所述图形的数据进行解压缩。
8.一种计算机实现的方法,包括:
分配第一存储器空间用于针对图形工作负载的数据,所述第一存储器包括第一多个可寻址存储器位置;
分配第二存储器空间用于与针对所述图形工作负载的数据有关的压缩元数据,所述第二存储器空间包括第二多个可寻址存储器位置,并且具有与分配给所述第一存储器空间的存储器的量的预定比率相对应的存储器的量;以及
在所述第一多个可寻址存储器位置和所述第二多个可寻址存储器位置之间配置直接存储器映射。
9.根据权利要求8所述的方法,其中,分配给所述第一存储器空间的存储器的量与所述第二存储器空间中的存储器的量的预定比率为256:1。
10.根据权利要求9所述的方法,还包括:
接收针对所述图形工作负载的数据的存储器存取请求,所述数据存取请求包括所述第一存储器空间中的第一存储器地址;
根据所述第一存储器地址,确定所述第二存储器空间中的第二存储器地址;以及
从所述第二存储器地址取回存储在其中的所述压缩元数据。
11.根据权利要求10所述的方法,还包括:
从所述第一存储器地址取回针对所述图形工作负载的数据;以及
使用所述压缩元数据来促进对所述第一存储器空间中的所述第一存储器地址的针对所述图形的数据进行解压缩。
12.根据权利要求8所述的方法,还包括:
使用散列函数来重新封装所述第二存储器空间中的压缩元数据,所述散列函数将所述第二存储器空间中的第一可寻址存储器位置与所述第二存储器空间中的第二可寻址存储器位置相关。
13.根据权利要求12所述的方法,还包括:
接收针对所述图形工作负载的数据的存储器存取请求,所述数据存取请求包括所述第一存储器空间中的第一存储器地址;
根据所述第一存储器地址和所述散列函数,确定所述第二存储器空间中的第二存储器地址;以及
从所述第二存储器地址取回存储在其中的所述压缩元数据。
14.根据权利要求13所述的方法,还包括:
从所述第一存储器地址取回针对所述图形工作负载的数据;以及
使用所述压缩元数据来促进对所述第一存储器空间中的所述第一存储器地址的针对所述图形的数据进行解压缩。
CN202010119217.XA 2019-03-27 2020-02-26 使用平面存储器映射来控制表面访问 Pending CN111754382A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/366,266 2019-03-27
US16/366,266 US10802970B1 (en) 2019-03-27 2019-03-27 Control surface access using flat memory mapping

Publications (1)

Publication Number Publication Date
CN111754382A true CN111754382A (zh) 2020-10-09

Family

ID=72605650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010119217.XA Pending CN111754382A (zh) 2019-03-27 2020-02-26 使用平面存储器映射来控制表面访问

Country Status (3)

Country Link
US (2) US10802970B1 (zh)
CN (1) CN111754382A (zh)
DE (1) DE102020108215A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11416402B2 (en) 2019-03-27 2022-08-16 Intel Corporation Control surface access using flat memory mapping

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114896058B (zh) * 2022-04-27 2023-09-22 南京鼎华智能系统有限公司 基于内存运算的派工系统以及派工方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10115177B2 (en) * 2014-06-27 2018-10-30 Samsung Electronics Co., Ltd. Online texture compression and decompression in hardware
US10783694B2 (en) * 2017-08-25 2020-09-22 Advanced Micro Devices, Inc. Texture residency checks using compression metadata
US10802970B1 (en) 2019-03-27 2020-10-13 Intel Corporation Control surface access using flat memory mapping

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11416402B2 (en) 2019-03-27 2022-08-16 Intel Corporation Control surface access using flat memory mapping

Also Published As

Publication number Publication date
DE102020108215A1 (de) 2020-10-01
US20210049098A1 (en) 2021-02-18
US20200310973A1 (en) 2020-10-01
US10802970B1 (en) 2020-10-13
US11416402B2 (en) 2022-08-16

Similar Documents

Publication Publication Date Title
CN111427680A (zh) 分布式图形设备上的工作负载调度和分发
US11762662B2 (en) Instruction prefetch based on thread dispatch commands
CN112384900A (zh) 用于实现自适应页面大小的转换后备缓冲器
US11593260B2 (en) Memory compression hashing mechanism
CN112907711A (zh) 使用用于向量归一化的单个指令集架构(isa)指令
US10853989B2 (en) Coarse compute shading
US20200311042A1 (en) Hardware index mapping mechanism
CN112233010A (zh) 多块图形引擎中的部分写入管理
US11579878B2 (en) Register sharing mechanism to equally allocate disabled thread registers to active threads
CN113094298A (zh) 对共享本地存储器进行分区的机制
US20190163641A1 (en) Page translation prefetch mechanism
US10969999B2 (en) Surface property tracking mechanism
US11416402B2 (en) Control surface access using flat memory mapping
US20200065073A1 (en) Latency scheduling mechanism
CN112817882A (zh) 并行解压缩机制
CN113577758A (zh) 云游戏自适应同步机制
US10776897B1 (en) System and method to support multiple walkers per command
CN111724294A (zh) 分布式拷贝引擎
US10691603B2 (en) Cache partitioning mechanism
US20200104166A1 (en) Microcontroller-based flexible thread scheduling launching in computing environments
US10831483B1 (en) Memory mapped virtual doorbell mechanism
US10733693B2 (en) High vertex count geometry work distribution for multi-tile GPUs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination