CN112384900A - 用于实现自适应页面大小的转换后备缓冲器 - Google Patents

用于实现自适应页面大小的转换后备缓冲器 Download PDF

Info

Publication number
CN112384900A
CN112384900A CN201880094995.9A CN201880094995A CN112384900A CN 112384900 A CN112384900 A CN 112384900A CN 201880094995 A CN201880094995 A CN 201880094995A CN 112384900 A CN112384900 A CN 112384900A
Authority
CN
China
Prior art keywords
processor
memory
physical memory
page
graphics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880094995.9A
Other languages
English (en)
Inventor
卞昭娟
王科兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN112384900A publication Critical patent/CN112384900A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/10Address translation
    • G06F12/1027Address translation using associative or pseudo-associative address translation means, e.g. translation look-aside buffer [TLB]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/10Address translation
    • G06F12/1027Address translation using associative or pseudo-associative address translation means, e.g. translation look-aside buffer [TLB]
    • G06F12/1045Address translation using associative or pseudo-associative address translation means, e.g. translation look-aside buffer [TLB] associated with a data cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/0223User address space allocation, e.g. contiguous or non contiguous base addressing
    • G06F12/023Free address space management
    • G06F12/0238Memory management in non-volatile memory, e.g. resistive RAM or ferroelectric memory
    • G06F12/0246Memory management in non-volatile memory, e.g. resistive RAM or ferroelectric memory in block erasable memory, e.g. flash memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/06Addressing a physical block of locations, e.g. base addressing, module addressing, memory dedication
    • G06F12/0646Configuration or reconfiguration
    • G06F12/0653Configuration or reconfiguration with centralised address assignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0866Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches for peripheral storage systems, e.g. disk cache
    • G06F12/0871Allocation or management of cache space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0877Cache access modes
    • G06F12/0882Page mode
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1016Performance improvement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/50Control mechanisms for virtual memory, cache or TLB
    • G06F2212/502Control mechanisms for virtual memory, cache or TLB using adaptive policy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/65Details of virtual memory and virtual address translation
    • G06F2212/652Page size control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/72Details relating to flash memory management
    • G06F2212/7201Logical to physical mapping or translation of blocks or pages

Abstract

本文描述的实施例提供了一种装置,该装置包括:处理器,其用于保留通信地耦合到处理器的物理存储器的块;分配物理存储器的块的第一部分以与在处理器上执行的一个或多个进程一起使用,该第一部分被配置作为具有第一页面大小的单个存储器页面;以及响应于确定在处理器上执行的一个或多个进程所要求的物理存储器量超过第一阈值:向物理存储器的块的第一部分分配附加的存储器;并且将单个存储器页面从第一页面大小增加到第二页面大小。可以描述和要求保护其他实施例。

Description

用于实现自适应页面大小的转换后备缓冲器
背景技术
本文描述的主题总体上涉及数据处理。更具体地,本文描述的主题涉及可以用于在存储器中实现自适应页面大小的转换后备缓冲器(TLB)。
处理设备可以使用一个或多个转换后备缓冲器(TLB)来将在该处理设备上执行的应用所使用的虚拟存储器地址转换为存储器中的物理存储器地址。虚拟地址通常包括虚拟页号和页面偏移。
TLB通常被构造为转换表,该转换表可以被存储在耦合到处理设备的本地存储器(即,高速缓冲存储器)中。TLB可以包括多个条目,这些条目中的每一个包括标签和物理页号,该标签对应于虚拟地址。当在处理设备上执行的处理线程请求来自虚拟页面地址的数据时,处理设备针对具有与地址的虚拟页号匹配的标签的条目对TLB进行搜索,该虚拟页号由应用使用作为搜索TLB的关键字。如果在TLB中找到匹配的条目(即,TLB命中),则从TLB中取回物理页号,并将其用于从存储器中取回数据。如果在TLB中找不到匹配的标签(即,TLB未命中),则从存储器中取回物理页号。如果物理页号不在存储器中(即,页面错误异常),则必须从磁盘中取回数据。
TLB未命中和页面错误异常会导致在进程的执行中的显著性能损失。当图形处理单元(GPU)用作中央处理单元(CPU)的加速器并实现统一的存储器空间时,性能影响可能特别显著。因此,用于改进TLB的效率和利用的技术例如在图形处理应用中可能是实用的。
附图说明
因此,可以通过参考实施例获得可以详细地理解本发明的上面引述的特征的方式、上面简要概述的对实施例更具体的描述,实施例中的一些在附图中示出。然而,应该注意到附图仅示出了典型的实施例,因此不应该被认为限制其范围。
图1是根据本文描述的一些实施例的处理系统的框图;
图2是根据本文描述的一些实施例的处理器的框图;
图3是根据本文描述的一些实施例的图形处理器的框图;
图4是根据本文描述的一些实施例的图形处理器的图形处理引擎的框图;
图5是根据本文描述的一些实施例的图形处理器核心的硬件逻辑的框图;
图6A-6B示出了根据本文描述的实施例的线程执行逻辑,其包括在图形处理器核心中采用的处理元件的阵列;
图7是示出根据本文描述的一些实施例的图形处理器指令格式的框图;
图8是根据本文描述的一些实施例的图形处理器的框图;
图9A-9B示出了根据本文描述的一些实施例的图形处理器命令格式和命令序列;
图10示出了根据本文描述的一些实施例的用于数据处理系统的示例性图形软件架构;
图11A是示出根据本文描述的一些实施例的IP核心开发系统的框图;
图11B示出了根据本文描述的一些实施例的集成电路封装组装件的截面侧视图;
图12是示出根据实施例的示例性片上系统集成电路的框图;
图13A-13B是示出根据本文描述的实施例的在SoC内使用的示例性图形处理器的框图。
图14A-14B示出了根据本文描述实施例的附加的示例性图形处理器逻辑;
图15示出了根据本文描述的实施例的数据处理系统;
图16是示出了根据本文描述实施例的实现用于自适应页面大小的TLB设计的方法中的操作的流程图;
图17示出了根据本文描述的实施例的适于实现用于自适应页面大小的TLB设计的数据处理系统中的存储器分配的方面;
图18A-18B示出了根据本文描述的一些实施例的适于实现用于自适应页面大小的TLB设计的数据处理系统中的存储器管理的方面;
图19是示出了根据本文描述实施例的实现用于自适应页面大小的TLB设计的方法中的操作的流程图;
图20是根据本文描述的一些实施例的包括图形处理器的计算设备的框图。
具体实施方式
出于解释的目的,阐述了许多具体细节以提供对下面描述的各种实施例的透彻理解。然而,将对于本领域技术人员而言显而易见的是,可以在没有这些具体细节中的一些细节的情况下实践实施例。在其他实例中,以框图形式示出了公知的结构和设备,以避免使基本原理模糊,并提供对实施例的更透彻的理解。尽管参考图形处理器描述了以下实施例中的一些,但是本文所描述的技术和教导可以应用于各种类型的电路或半导体器件,包括通用处理设备或图形处理设备。本文对“一个实施例”或“实施例”的引用表示结合实施例或与实施例相关联地描述的特定特征、结构或特性可以包括在这样的实施例中的至少一个中。然而,在说明书中各处出现的短语“在一个实施例中”并不一定都指代同一实施例。
在下面的说明书和权利要求书中,可以使用术语“耦合”和“连接”及其派生词。应该理解的是,这些术语并不旨在彼此等同。“耦合”用于指示两个或更多个元件彼此协作或相互作用,这些元件可以或可以不彼此直接物理接触或电接触。“连接”用于指示在彼此耦合的两个或更多个元件之间建立通信。
在下面的说明书中,图1-14提供了并入各种实施例中或涉及各种实施例的示例性数据处理系统和图形处理器逻辑的概述。图15-25提供了各种实施例的具体细节。参考图形处理器描述了以下实施例的一些方面,而关于诸如中央处理单元(CPU)之类的通用处理器描述了其他方面。相似的技术和教导可以应用于其他类型的电路或半导体器件,包括但不限于许多集成核心处理器、GPU集群或现场可编程门阵列(FPGA)的一个或多个实例。通常,这些教导适用于操纵或处理图像(例如,样本、像素)、顶点数据或几何数据的任何处理器或机器。
系统概述
图1是根据实施例的处理系统100的框图。在各种实施例中,系统100包括一个或多个处理器102以及一个或多个图形处理器108,并且系统100可以是单个处理器台式系统、多处理器工作站系统或具有大量处理器102或处理器核心107的服务器系统。在一个实施例中,系统100是结合在片上系统(SoC)集成电路内以在移动、手持或嵌入式设备中使用的处理平台。
在一个实施例中,系统100可以包括或结合在基于服务器的游戏平台、游戏控制台内,该游戏控制台包括游戏和媒体控制台、移动游戏控制台、手持游戏控制台或在线游戏控制台。在一些实施例中,系统100是移动电话、智能电话、平板计算设备或移动互联网设备。处理系统100还可以包括可穿戴设备(例如,智能手表可穿戴设备、智能眼镜设备、增强现实设备或虚拟现实设备)、与该可穿戴设备耦合或集成在该可穿戴设备内。在一些实施例中,处理系统100是具有一个或多个处理器102以及由一个或多个图形处理器108生成的图形界面的电视或机顶盒设备。
在一些实施例中,一个或多个处理器102各自包括用于处理指令的一个或多个处理器核心107,当该指令被执行时执行针对系统和用户软件的操作。在一些实施例中,一个或多个处理器核心107中的每一个被配置用于处理特定的指令集109。在一些实施例中,指令集109可以促进复杂指令集计算(CISC)、精简指令集计算(RISC)或经由超长指令字(VLIW)的计算。多个处理器核心107可以各自处理不同的指令集109,不同的指令集109可以包括用于促进对其他指令集的仿真的指令。处理器核心107还可以包括其他处理设备,例如,数字信号处理器(DSP)。
在一些实施例中,处理器102包括高速缓冲存储器104。取决于架构,处理器102可以具有单个内部高速缓存或多个级别的内部高速缓存。在一些实施例中,高速缓冲存储器在处理器102的各种组件之间共享。在一些实施例中,处理器102还使用外部高速缓存(例如,3级(L3)高速缓存或最后一级高速缓存(LLC))(未示出),其可以使用已知的高速缓存一致性技术在处理器核心107之间共享。寄存器文件106另外地包括在处理器102中,该寄存器文件106可以包括用于存储不同类型数据的不同类型的寄存器(例如,整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器)。一些寄存器可以是通用寄存器,而其他寄存器可以是特定于处理器102的设计的。
在一些实施例中,一个或多个处理器102与一个或多个接口总线110耦合,以在处理器102与系统100中的其他组件之间发送诸如地址信号、数据信号或控制信号之类的通信信号。在一个实施例中,接口总线110可以是处理器总线,例如,直接媒体接口(DMI)总线的版本。然而,处理器总线不限于DMI总线,并且可以包括一个或多个外围组件互连总线(例如,PCI、PCI快速)、存储器总线或其他类型的接口总线。在一个实施例中,(多个)处理器102包括集成存储器控制器116和平台控制器中心130。存储器控制器116促进存储器设备与系统100的其他组件之间的通信,而平台控制器中心(PCH)130提供经由本地I/O总线与I/O设备的连接。
存储器设备120可以是动态随机存取存储器(DRAM)设备、静态随机存取存储器(SRAM)设备、闪速存储器设备、相变存储器设备或具有合适性能以用作过程存储器的一些其他存储器设备。在一个实施例中,存储器设备120可以作为系统100的系统存储器操作,以存储数据122和指令121,以便在一个或多个处理器102执行应用或过程时使用。存储器控制器116还与可选的外部图形处理器112耦合,该外部图形处理器112可以与处理器102中的一个或多个图形处理器108通信以执行图形操作和媒体操作。在一些实施例中,显示设备111可以连接到(多个)处理器102。显示设备111可以是内部显示设备(如在移动电子设备或膝上型设备中)或者经由显示接口(例如,显示端口(DisplayPort)等)附接的外部显示设备中的一个或多个。在一个实施例中,显示设备111可以是头戴式显示器(HMD),例如,用于虚拟现实(VR)应用或增强现实(AR)应用的立体显示设备。
在一些实施例中,平台控制器中心130使得外围设备能够经由高速I/O总线连接到存储器设备120和处理器102。I/O外围设备包括但不限于音频控制器146、网络控制器134、固件接口128、无线收发器126、触摸传感器125、数据存储设备124(例如,硬盘驱动器、闪速存储器等)。数据存储设备124可以经由存储接口(例如,SATA)或经由外围总线(例如,外围组件互连总线(例如,PCI、PCI快速))连接。触摸传感器125可以包括触摸屏传感器、压力传感器或指纹传感器。无线收发器126可以是Wi-Fi收发器、蓝牙收发器或诸如3G、4G或长期演进(LTE)收发器之类的移动网络收发器。固件接口128实现与系统固件的通信,并且可以是例如统一可扩展固件接口(UEFI)。网络控制器134可以实现与有线网络的网络连接。在一些实施例中,高性能网络控制器(未示出)与接口总线110耦合。在一个实施例中,音频控制器146是多通道高清晰度音频控制器。在一个实施例中,系统100包括用于将旧有(例如,个人系统2(PS/2))设备耦合到系统的可选的旧有I/O控制器140。平台控制器中心130还可以连接到一个或多个通用串行总线(USB)控制器142以连接输入设备,例如,键盘和鼠标143组合、相机144或其他USB输入设备。
将认识到的是,所示的系统100是示例性的而非限制性的,因为还可以使用被不同配置的其他类型的数据处理系统。例如,存储器控制器116和平台控制器中心130的实例可以集成到分立的外部图形处理器(例如,外部图形处理器112)中。在一个实施例中,平台控制器中心130和/或存储器控制器116可以在一个或多个处理器102的外部。例如,系统100可以包括外部存储器控制器116和平台控制器中心130,其可以被配置作为在与(多个)处理器102通信的系统芯片组内的存储器控制器中心和外围控制器中心。
图2是具有一个或多个处理器核心202A-202N、集成存储器控制器214和集成图形处理器208的处理器200的实施例的框图。图2中具有与本文任何其他附图中的元件相同的附图标记(或名称)的那些元件可以以与本文其他地方描述的方式类似的任何方式操作或起作用,但不限于此。处理器200可以包括附加的核心,直到包括由虚线框表示的附加核心202N。处理器核心202A-202N中的每一个包括一个或多个内部高速缓存单元204A-204N。在一些实施例中,每个处理器核心还具有对一个或多个共享高速缓存单元206的访问权。
内部高速缓存单元204A-204N和共享高速缓存单元206表示处理器200内的高速缓冲存储器层级。高速缓冲存储器层级可以包括每个处理器核心内的至少一个级别的指令和数据高速缓存以及一个或多个级别的共享中间级别高速缓存,例如,2级(L2)、3级(L3)、4级(L4)或其他级别的高速缓存,其中外部存储器之前的最高级别的高速缓存被分类为LLC。在一些实施例中,高速缓存一致性逻辑维持各种高速缓存单元206和204A-204N之间的一致性。
在一些实施例中,处理器200还可以包括一个或多个总线控制器单元216的集合和系统代理核心210。一个或多个总线控制器单元216管理外围总线的集合(例如,一个或多个PCI或快速PCI总线)。系统代理核心210为各种处理器组件提供管理功能。在一些实施例中,系统代理核心210包括一个或多个集成存储器控制器214以管理对各种外部存储器设备(未示出)的访问。
在一些实施例中,处理器核心202A-202N中的一个或多个包括对同时多线程的支持。在这样的实施例中,系统代理核心210包括用于在多线程处理期间协调并操作核心202A-202N的组件。系统代理核心210可以另外地包括功率控制单元(PCU),其包括用于调节处理器核心202A-202N和图形处理器208的功率状态的逻辑和组件。
在一些实施例中,处理器200另外地包括用于执行图形处理操作的图形处理器208。在一些实施例中,图形处理器208与共享高速缓存单元206的集合以及包括一个或多个集成存储器控制器214的系统代理核心210耦合。在一些实施例中,系统代理核心210还包括显示控制器211,其用于将图形处理器输出驱动到一个或多个耦合的显示器。在一些实施例中,显示控制器211还可以是经由至少一个互连与图形处理器耦合的单独模块,或者显示控制器211可以集成在图形处理器208内。
在一些实施例中,基于环形的互连单元212用于耦合处理器200的内部组件。然而,可以使用替代的互连单元,例如,点对点互连、交换互连或包括本领域公知的技术的其他技术。在一些实施例中,图形处理器208经由I/O链路213与环形互连212耦合。
示例性I/O链路213表示多种I/O互连中的至少一种,包括促进各种处理器组件与高性能嵌入式存储器模块218(例如,eDRAM模块)之间的通信的封装上I/O互连。在一些实施例中,处理器核心202A-202N中的每一个和图形处理器208使用嵌入式存储器模块218作为共享的最后一级高速缓存。
在一些实施例中,处理器核心202A-202N是执行相同指令集架构的同构核心。在另一实施例中,处理器核心202A-202N在指令集架构(ISA)方面是异构的,其中处理器核心202A-202N中的一个或多个执行第一指令集,而其他核心中的至少一个执行第一指令集的子集或不同的指令集。在一个实施例中,处理器核心202A-202N在微架构方面是异构的,其中具有相对较高功耗的一个或多个核心与具有较低功耗的一个或多个功率核心耦合。另外地,处理器200可以在一个或多个芯片上实现或者实现为具有所示组件以及其他组件的SoC集成电路。
图3是图形处理器300的框图,图形处理器300可以是分立的图形处理单元,或者可以是与多个处理核心集成的图形处理器。在一些实施例中,图形处理器经由与图形处理器上的寄存器的存储器映射的I/O接口并且利用放置在处理器存储器中的命令进行通信。在一些实施例中,图形处理器300包括用于对存储器进行存取的存储器接口314。存储器接口314可以是与本地存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存和/或系统存储器的接口。
在一些实施例中,图形处理器300还包括显示控制器302,其用于将显示输出数据驱动到显示设备320。显示控制器302包括用于显示或组成视频或用户界面元素的多个层的一个或多个覆盖平面的硬件。显示设备320可以是内部或外部显示设备。在一个实施例中,显示设备320是头戴式显示设备,例如,虚拟现实(VR)显示设备或增强现实(AR)显示设备。在一些实施例中,图形处理器300包括视频编解码器引擎306,其用于将媒体编码、解码为一种或多种媒体编码格式,将媒体从一种或多种媒体编码格式进行编码、解码或者将媒体在一种或多种媒体编码格式之间进行转码,该一种或多种媒体编码格式包括但不限于运动图像专家组(MPEG)格式(例如,MPEG-2)、高级视频编码(AVC)格式(例如,H.264/MPEG-4AVC)以及电影电视工程师协会(SMPTE)421M/VC-1和联合图像专家组(JPEG)格式(例如,JPEG和运动JPEG(MJPEG)格式)。
在一些实施例中,图形处理器300包括块图像传送(BLIT)引擎304,其用于执行二维(2D)光栅化操作,包括例如位边界块传送。然而,在一个实施例中,使用图形处理引擎(GPE)310的一个或多个组件来执行2D图形操作。在一些实施例中,GPE 310是用于执行图形操作的计算引擎,该图形操作包括三维(3D)图形操作和媒体操作。
在一些实施例中,GPE 310包括用于执行3D操作(例如,使用作用于3D基元形状(例如,矩形、三角形等)的处理功能来渲染三维图像和场景)的3D流水线312。3D流水线312包括可编程功能元件和固定功能元件,其执行元件内的各种任务和/或向3D/媒体子系统315产生执行线程。虽然3D流水线312可以用于执行媒体操作,但是GPE 310的实施例还包括媒体流水线316,该媒体流水线316专门用于执行媒体操作,例如,视频后处理和图像增强。
在一些实施例中,媒体流水线316包括固定功能逻辑单元或可编程逻辑单元,以代替或代表视频编解码器引擎306执行一个或多个专用媒体操作,例如,视频解码加速、视频反交错和视频编码加速。在一些实施例中,媒体流水线316另外地包括线程产生单元以产生用于在3D/媒体子系统315上执行的线程。产生的线程在3D/媒体子系统315中包括的一个或多个图形执行单元上执行针对媒体操作的计算。
在一些实施例中,3D/媒体子系统315包括用于执行由3D流水线312和媒体流水线316产生的线程的逻辑。在一个实施例中,流水线将线程执行请求发送到3D/媒体子系统315,该3D/媒体子系统315包括用于对针对可用线程执行资源的各种请求进行仲裁和分派的线程分派逻辑。执行资源包括用于处理3D线程和媒体线程的图形执行单元的阵列。在一些实施例中,3D/媒体子系统315包括用于线程指令和数据的一个或多个内部高速缓存。在一些实施例中,子系统还包括共享存储器,其包括寄存器和可寻址存储器,以在线程之间共享数据并且存储输出数据。
图形处理引擎
图4是根据一些实施例的图形处理器的图形处理引擎410的框图。在一个实施例中,图形处理引擎(GPE)410是图3中所示的GPE 310的一个版本。图4中具有与本文任何其他附图中的元件相同的附图标记(或名称)的元件可以以与本文其他地方描述的方式类似的任何方式操作或起作用,但不限于此。例如,示出了图3的3D流水线312和媒体流水线316。媒体流水线316在GPE 410的一些实施例中是可选的,并且可以不明确地包括在GPE 410内。例如,在至少一个实施例中,单独的媒体和/或图像处理器耦合到GPE 410。
在一些实施例中,GPE 410与命令流送器403耦合或者包括命令流送器403,该命令流送器403向3D流水线312和/或媒体流水线316提供命令流。在一些实施例中,命令流送器403与存储器耦合,该存储器可以是系统存储器或者是内部高速缓冲存储器和共享高速缓冲存储器中的一个或多个。在一些实施例中,命令流送器403接收来自存储器的命令并且将命令发送到3D流水线312和/或媒体流水线316。该命令是从环形缓冲器获取的指令,该环形缓冲器存储用于3D流水线312和媒体流水线316的命令。在一个实施例中,环形缓冲器可以另外地包括存储多个命令的批的批命令缓冲器。用于3D流水线312的命令还可以包括对存储在存储器中的数据的引用,例如但不限于用于3D流水线312的顶点和几何数据和/或用于媒体流水线316的图像数据和存储器对象。3D流水线312和媒体流水线316通过经由相应流水线内的逻辑执行操作或者通过将一个或多个执行线程分派给图形核心阵列414来处理命令和数据。在一个实施例中,图形核心阵列414包括一个或多个图形核心块(例如,(多个)图形核心415A、(多个)图形核心415B),每个块包括一个或多个图形核心。每个图形核心包括图形执行资源的集合,其包括用于执行图形和计算操作的通用执行逻辑和图形特定执行逻辑,以及固定功能纹理处理和/或机器学习和人工智能加速逻辑。
在各种实施例中,3D流水线312包括固定功能逻辑和可编程逻辑,以通过处理指令以及将执行线程分派给图形核心阵列414来处理一个或多个着色器程序,例如,顶点着色器程序、几何着色器程序、像素着色器程序、片段着色器程序、计算着色器程序或其他着色器程序。图形核心阵列414提供统一的执行资源块以用于处理这些着色器程序。图形核心阵列414的(多个)图形核心415A-415B内的多用途执行逻辑(例如,执行单元)包括对各种3D API着色器语言的支持,并且可以执行与多个着色器相关联的多个同时执行线程。
在一些实施例中,图形核心阵列414还包括用于执行媒体功能(例如,视频和/或图像处理)的执行逻辑。在一个实施例中,除了图形处理操作之外,执行单元另外地包括可编程以执行并行通用计算操作的通用逻辑。通用逻辑可以并行地或结合图1的(多个)处理器核心107或如图2中的核心202A-202N内的通用逻辑来执行处理操作。
由在图形核心阵列414上执行的线程生成的输出数据可以将数据输出到统一返回缓冲器(URB)418中的存储器。URB 418可以存储用于多个线程的数据。在一些实施例中,URB418可以用于在图形核心阵列414上执行的不同线程之间发送数据。在一些实施例中,URB418可以另外地用于在图形核心阵列上的线程与共享功能逻辑420内的固定功能逻辑之间进行同步。
在一些实施例中,图形核心阵列414是可缩放的,使得阵列包括可变数量的图形核心,每个图形核心基于GPE 410的目标功率和性能级别具有可变数量的执行单元。在一个实施例中,执行资源是动态可缩放的,使得可以根据需要启用或禁用执行资源。
图形核心阵列414与共享功能逻辑420耦合,该共享功能逻辑420包括在图形核心阵列中的图形核心之间共享的多个资源。共享功能逻辑420内的共享功能是向图形核心阵列414提供专用补充功能的硬件逻辑单元。在各种实施例中,共享功能逻辑420包括但不限于采样器421、数学422和线程间通信(ITC)423逻辑。另外地,一些实施例在共享功能逻辑420内实现一个或多个高速缓存425。
在针对给定专用功能的需求对于包括在图形核心阵列414内而言不足的情况下实现共享功能。相反,该专用功能的单个实例化在共享功能逻辑420中实现为独立实体,并且在图形核心阵列414内的执行资源之间共享。在图形核心阵列414之间共享并且包括在图形核心阵列414内的功能的精确集合跨实施例而变化。在一些实施例中,共享功能逻辑420内的由图形核心阵列414广泛使用的特定共享功能可以被包括在图形核心阵列414内的共享功能逻辑416内。在各种实施例中,图形核心阵列414内的共享功能逻辑416可以包括共享功能逻辑420内的一些或所有逻辑。在一个实施例中,共享功能逻辑420内的所有逻辑元件可以在图形核心阵列414的共享功能逻辑416内复制。在一个实施例中,共享功能逻辑420被排除以支持图形核心阵列414内的共享功能逻辑416。
图5是根据本文所描述的一些实施例的图形处理器核心500的硬件逻辑的框图。图5中具有与本文任何其他附图中的元件相同的附图标记(或名称)的元件可以以与本文其他地方描述的方式类似的任何方式操作或起作用,但不限于此。在一些实施例中,示出的图形处理器核心500被包括在图4的图形核心阵列414内。图形处理器核心500(有时称为核心切片)可以是模块化图形处理器内的一个或多个图形核心。图形处理器核心500是一个图形核心切片的示例,并且如本文所描述的图形处理器可以基于目标功率和性能包络包括多个图形核心切片。每个图形核心500可以包括与多个子核心501A-501F(也称为子切片,其包括通用逻辑和固定功能逻辑的模块化块)耦合的固定功能块530。
在一些实施例中,固定功能块530包括几何/固定功能流水线536,其可以由图形处理器500中的所有子核心共享,例如,在较低性能和/或较低功率图形处理器实现方式中。在各种实施例中,几何/固定功能流水线536包括3D固定功能流水线(例如,如图3和图4中的3D流水线312)、视频前端单元、线程产生器和线程分派器,以及管理统一返回缓冲器(例如,图4的统一返回缓冲器418)的统一返回缓冲器管理器。
在一个实施例中,固定功能块530还包括图形SoC接口537、图形微控制器538和媒体流水线539。图形SoC接口537提供图形核心500与片上系统集成电路内的其他处理器核心之间的接口。图形微控制器538是可编程子处理器,其可配置为管理图形处理器500的各种功能,包括线程分派、调度和抢占。媒体流水线539(例如,图3和图4的媒体流水线316)包括用于促进对多媒体数据(包括图像数据和视频数据)进行解码、编码、预处理和/或后处理的逻辑。媒体流水线539经由对在子核心501A-501F内的计算逻辑或采样逻辑的请求来实现媒体操作。
在一个实施例中,SoC接口537使得图形核心500能够与通用应用处理器核心(例如,CPU)和/或SoC内的其他组件(包括存储器层级元件,例如,共享最后一级高速缓冲存储器、系统RAM和/或嵌入式片上或封装上DRAM)通信。SoC接口537还可以实现与SoC内的固定功能设备(例如,相机成像流水线)的通信,并且使得能够使用和/或实现可以在图形核心500与SoC内的CPU之间共享的全局存储器原子。SoC接口537还可以实现对图形核心500的功率管理控制,并且启用图形核心500的时钟域与SoC内的其他时钟域之间的接口。在一个实施例中,SoC接口537实现对来自命令流送器和全局线程分派器的命令缓冲器的接收,命令流送器和全局线程分派器被配置为向图形处理器内的一个或多个图形核心中的每一个提供命令和指令。当要执行媒体操作时,可以将命令和指令分派给媒体流水线539,或者当要执行图形处理操作时,可以将命令和指令分派给几何和固定功能流水线(例如,几何和固定功能流水线536、几何和固定功能流水线514)。
图形微控制器538可以被配置为执行针对图形核心500的各种调度和管理任务。在一个实施例中,图形微控制器538可以对子核心501A-501F内的执行单元(EU)阵列502A-502F、504A-504F内的各种图形并行引擎执行图形和/或计算工作负载调度。在该调度模型中,在包括图形核心500的SoC的CPU核心上执行的主机软件可以提交多个图形处理器门铃中的一个的工作负载,该图形处理器门铃在适当的图形引擎上调用调度操作。调度操作包括确定下一个要运行的工作负载,将工作负载提交到命令流送器,抢占引擎上运行的现有工作负载,监视工作负载的进程,以及当工作负载完成时通知主机软件。在一个实施例中,图形微控制器538还可以促进图形核心500的低功率或空闲状态,从而独立于操作系统和/或系统上的图形驱动软件而跨低功率状态转换为图形核心500提供保存和恢复图形核心500内的寄存器的能力。
图形核心500可以具有多于或少于所示的子核心501A-501F,最多具有N个模块化子核心。对于N个子核心的每个集合,图形核心500还可以包括共享功能逻辑510、共享和/或高速缓冲存储器512、几何/固定功能流水线514以及用于加速各种图形和计算处理操作的附加的固定功能逻辑516。共享功能逻辑510可以包括与图4的共享功能逻辑420(例如,采样器逻辑、数学逻辑和/或线程间通信逻辑)相关联的逻辑单元,这些逻辑单元可以由图形核心500内的N个子核心中的每一个共享。共享和/或高速缓冲存储器512可以是针对图形核心500内的N个子核心501A-501F的集合的最后一级高速缓存,并且还可以用作可由多个子核心存取的共享存储器。在固定功能块530内可以包括几何/固定功能流水线514而不是几何/固定功能流水线536,并且可以包括相同或类似的逻辑单元。
在一个实施例中,图形核心500包括附加的固定功能逻辑516,该固定功能逻辑516可以包括供图形核心500使用的各种固定功能加速逻辑。在一个实施例中,附加的固定功能逻辑516包括用于仅位置着色的附加几何流水线。在仅位置着色中,存在两种几何流水线:剔除(cull)流水线以及几何/固定功能流水线536内的完整几何流水线,该剔除流水线是可以被包括在附加的固定功能逻辑516内的附加的几何流水线。在一个实施例中,剔除流水线是完整几何流水线的经裁减的版本。完整流水线和剔除流水线可以执行相同应用的不同实例,每个实例具有单独的上下文。仅位置着色可以隐藏已丢弃的三角形的长剔除运行,从而使得能够在某些实例中更早地完成着色。例如,在一个实施例中,附加的固定功能逻辑516内的剔除流水线逻辑可以与主应用并行地执行位置着色器,并且通常比完整流水线更快地生成关键结果,因为剔除流水线仅获取顶点的位置属性并对其进行着色,而没有执行光栅化以及将像素渲染到帧缓冲器。剔除流水线可以使用生成的关键结果来计算所有三角形的可见性信息,而不考虑这些三角形是否被剔除。完整流水线(在该实例中可以称为重放流水线)可以消耗可见性信息以跳过经剔除的三角形以仅对最终传递到光栅化阶段的可见三角形进行着色。
在一个实施例中,附加的固定功能逻辑516还可以包括机器学习加速逻辑,例如,固定功能矩阵乘法逻辑,其用于包括针对机器学习训练或推理的优化在内的实现方式。
在每个图形子核心501A-501F内包括执行资源的集合,该执行资源的集合可以用于响应于图形流水线、媒体流水线或着色器程序的请求来执行图形、媒体和计算操作。图形子核心501A-501F包括多个EU阵列502A-502F、504A-504F、线程分派和线程间通信(TD/IC)逻辑503A-503F、3D(例如,纹理)采样器505A-505F、媒体采样器506A-506F、着色器处理器507A-507F、以及共享本地存储器(SLM)508A-508F。EU阵列502A-502F、504A-504F各自包括多个执行单元,多个执行单元是能够在图形、媒体或计算操作的服务(包括图形、媒体或计算着色器程序)中执行浮点和整数/定点逻辑操作的通用图形处理单元。TD/IC逻辑503A-503F针对子核心内的执行单元执行本地线程分派和线程控制操作,并且促进在子核心的执行单元上执行的线程之间的通信。3D采样器505A-505F可以将纹理或其他3D图形相关数据读取到存储器中。3D采样器可以基于配置的样本状态以及与给定纹理相关联的纹理格式来不同地读取纹理数据。媒体采样器506A-506F可以基于与媒体数据相关联的类型和格式来执行类似的读取操作。在一个实施例中,每个图形子核心501A-501F可以替代地包括统一3D和媒体采样器。在子核心501A-501F中的每一个内的执行单元上执行的线程可以利用每个子核心内的共享本地存储器508A-508F,以使得在线程组内执行的线程能够使用片上存储器的公共池来执行。
执行单元
图6A-6B示出了根据本文所描述的实施例的包括在图形处理器核心中采用的处理元件的阵列的线程执行逻辑600。图6A-6B中具有与本文任何其他附图中的元件相同的附图标记(或名称)的元件可以以与本文其他地方描述的方式类似的任何方式操作或起作用,但不限于此。图6A示出了线程执行逻辑600的概述,该线程执行逻辑600可以包括利用图5的每个子核心501A-501F示出的硬件逻辑的变体。图6B示出了执行单元的示例性内部细节。
如图6A中示出的,在一些实施例中,线程执行逻辑600包括着色器处理器602、线程分派器604、指令高速缓存606、包括多个执行单元608A-608N的可缩放执行单元阵列、采样器610、数据高速缓存612和数据端口614。在一个实施例中,可缩放执行单元阵列可以通过基于工作负载的计算要求启用或禁用一个或多个执行单元(例如,执行单元608A、608B、608C、608D到608N-1和608N中的任一个)来动态地缩放。在一个实施例中,所包括的组件经由互连结构互连,该互连结构链接到组件中的每一个。在一些实施例中,线程执行逻辑600包括通过指令高速缓存606、数据端口614、采样器610和执行单元608A-608N中的一个或多个与存储器(例如,系统存储器或高速缓冲存储器)的一个或多个连接。在一些实施例中,每个执行单元(例如,608A)是独立的可编程通用计算单元,其能够执行多个同时硬件线程,同时针对每个线程并行处理多个数据元素。在各种实施例中,执行单元608A-608N的阵列是可缩放的以包括任何数量的单独的执行单元。
在一些实施例中,执行单元608A-608N主要用于执行着色器程序。着色器处理器602可以经由线程分派器604处理各种着色器程序并且分派与着色器程序相关联的执行线程。在一个实施例中,线程分派器包括用于仲裁来自图形流水线和媒体流水线的线程启动请求并且在执行单元608A-608N中的一个或多个执行单元上对所请求的线程进行实例化的逻辑。例如,几何流水线可以将顶点着色器、曲面细分着色器或几何着色器分派给线程执行逻辑以进行处理。在一些实施例中,线程分派器604还可以处理来自正在执行的着色器程序的运行时线程产生请求。
在一些实施例中,执行单元608A-608N支持包括对许多标准3D图形着色器指令的本地支持的指令集,使得来自图形库(例如,Direct 3D和OpenGL)的着色器程序在最小转换的情况下执行。执行单元支持顶点和几何处理(例如,顶点程序、几何程序、顶点着色器)、像素处理(例如,像素着色器、片段着色器)和通用处理(例如,计算着色器和媒体着色器)。执行单元608A-608N中的每一个能够进行多发单指令多数据(SIMD)执行,并且多线程操作在面对较高时延的存储器存取时实现高效的执行环境。每个执行单元内的每个硬件线程都具有专用的高带宽寄存器文件和相关联的独立线程状态。执行是每时钟多发到能够进行整数、单精度和双精度浮点运算、具有SIMD分支能力、能够进行逻辑运算、超越运算和其他杂项运算的流水线的。在等待来自共享功能中的一个或存储器的数据时,执行单元608A-608N内的相关性逻辑使得等待线程休眠,直到已经返回所请求的数据。当等待线程处于休眠时,硬件资源可能专用于处理其他线程。例如,在与顶点着色器操作相关联的延迟期间,执行单元可以执行针对像素着色器、片段着色器或其他类型的着色器程序(包括不同的顶点着色器)的操作。
在执行单元608A-608N中的每个执行单元对数据元素的阵列进行操作。数据元素的数量是“执行大小”或者用于指令的通道的数量。执行通道是用于数据元素访问、掩蔽和指令内流控制的逻辑执行单元。通道的数量可以独立于针对特定图形处理器的物理算术逻辑单元(ALU)或浮点单元(FPU)的数量。在一些实施例中,执行单元608A-608N支持整数和浮点数据类型。
执行单元指令集包括SIMD指令。各种数据元素可以作为打包数据类型存储在寄存器中,并且执行单元将基于元素的数据大小处理各种元素。例如,当对256位宽向量进行操作时,向量的256位存储在寄存器中,并且执行单元按照四个单独的64位打包数据元素(四字(QW)大小数据元素)、八个单独的32位打包数据元素(双字(DW)大小数据元素)、十六个单独的16位打包数据元素(字(W)大小数据元素)或者三十二个单独的8位数据元素(字节(B)大小数据元素)对向量进行操作。然而,不同的向量宽度和寄存器大小是可能的。
在一个实施例中,一个或多个执行单元可以组合成具有线程控制逻辑(607A-607N)的融合执行单元609A-609N,该线程控制逻辑对于融合EU是公共的。多个EU可以融合成EU组。融合EU组中的每个EU可以被配置为执行单独的SIMD硬件线程。融合EU组中的EU的数量可以根据实施例而变化。另外地,可以针对每个EU执行各种SIMD宽度,包括但不限于SIMD8、SIMD16和SIMD32。每个融合图形执行单元609A-609N包括至少两个执行单元。例如,融合执行单元609A包括第一EU 608A、第二EU 608B和线程控制逻辑607A,该线程控制逻辑607A对于第一EU 608A和第二EU 608B是公共的。线程控制逻辑607A控制在融合图形执行单元609A上执行的线程,从而允许融合执行单元609A-609N内的每个EU使用公共的指令指针寄存器来执行。
一个或多个内部指令高速缓存(例如,606)被包括在线程执行逻辑600中,以对用于执行单元的线程指令进行缓存。在一些实施例中,一个或多个数据高速缓存(例如,612)被包括以在线程执行期间对线程数据进行缓存。在一些实施例中,采样器610被包括以提供用于3D操作的纹理采样和用于媒体操作的媒体采样。在一些实施例中,采样器610包括专用纹理或媒体采样功能,以在采样过程期间在将采样数据提供给执行单元之前对纹理或媒体数据进行处理。
在执行期间,图形流水线和媒体流水线经由线程产生和分派逻辑将线程启动请求发送到线程执行逻辑600。一旦一组几何对象已经被处理并且光栅化为像素数据,则调用着色器处理器602内的像素处理器逻辑(例如,像素着色器逻辑、片段着色器逻辑等)以进一步计算输出信息并使得结果被写入到输出表面(例如,颜色缓冲器、深度缓冲器、模板缓冲器等)。在一些实施例中,像素着色器或片段着色器计算要跨光栅化对象插值的各种顶点属性的值。在一些实施例中,着色器处理器602内的像素处理器逻辑然后执行应用编程接口(API)——供应的像素或片段着色器程序。为了执行着色器程序,着色器处理器602经由线程分派器604将线程分派给执行单元(例如,608A)。在一些实施例中,着色器处理器602使用采样器610中的纹理采样逻辑来访问存储在存储器中的纹理图中的纹理数据。对纹理数据和输入几何数据进行的算术运算计算每个几何片段的像素颜色数据,或丢弃一个或多个像素以免进一步处理。
在一些实施例中,数据端口614提供用于线程执行逻辑600的存储器存取机制,以将处理后的数据输出到存储器以便在图形处理器输出流水线上进行进一步处理。在一些实施例中,数据端口614包括一个或多个高速缓冲存储器(例如,数据高速缓存612)或耦合到该一个或多个高速缓冲存储器,以经由数据端口对用于存储器存取的数据进行缓存。
如图6B中示出的,图形执行单元608可以包括指令获取单元637、通用寄存器文件阵列(GRF)624、架构寄存器文件阵列(ARF)626、线程仲裁器622、发送单元630、分支单元632、SIMD浮点单元(FPU)的集合634,并且在一个实施例中包括专用整数SIMD ALU的集合635。GRF 624和ARF 626包括通用寄存器文件和架构寄存器文件的集合,该通用寄存器文件和架构寄存器文件的集合与可以在图形执行单元608中活动的每个同时硬件线程相关联。在一个实施例中,每个线程架构状态维持在ARF 626中,而在线程执行期间使用的数据存储在GRF 624中。每个线程的执行状态(包括针对每个线程的指令指针)可以保持在ARF 626中的线程特定的寄存器中。
在一个实施例中,图形执行单元608具有作为同时多线程(SMT)和细粒度交织多线程(IMT)的组合的架构。该架构具有模块化配置,该模块化配置可以基于每个执行单元的同时线程的目标数量和寄存器数量在设计时进行微调,其中跨用于执行多个同时线程的逻辑对执行单元资源进行划分。
在一个实施例中,图形执行单元608可以共同发布多个指令,多个指令可以各自是不同的指令。图形执行单元线程608的线程仲裁器622可以将指令分派给发送单元630、分支单元632或(多个)SIMD FPU 634中的一个以用于执行。每个执行线程可以访问GRF 624内的128个通用寄存器,其中每个寄存器可以存储32个字节,该32个字节可以作为32位数据元素的SIMD 8元素向量访问。在一个实施例中,每个执行单元线程具有对GRF 624内的4千字节的访问权,但是实施例不限于此,并且在其他实施例中可以提供更多或更少的寄存器资源。在一个实施例中,多达七个线程可以同时执行,但是每个执行单元的线程数量也可以根据实施例而变化。在七个线程可以访问4千字节的实施例中,GRF 624可以存储总共28千字节。灵活的寻址模式可以允许寄存器被一起寻址以高效地构建更宽的寄存器或者以表示跨步矩形块数据结构。
在一个实施例中,经由消息传递发送单元630执行的“发送”指令来分派存储器操作、采样器操作和其他较长时延系统通信。在一个实施例中,将分支指令分派给专用分支单元632以促进SIMD发散和最终收敛。
在一个实施例中,图形执行单元608包括一个或多个SIMD浮点单元(FPU)634以执行浮点运算。在一个实施例中,(多个)FPU 634还支持整数计算。在一个实施例中,(多个)FPU 634可以SIMD执行多达数量M个32位浮点(或整数)运算,或者SIMD执行多达2M个16位整数运算或16位浮点运算。在一个实施例中,(多个)FPU中的至少一个提供扩展的数学能力以支持高吞吐量的超越数学函数和双精度64位浮点。在一些实施例中,还存在8位整数SIMDALU的集合635,并且可以专门地对该集合进行优化以执行与机器学习计算相关联的操作。
在一个实施例中,图形执行单元608的多个实例的阵列可以在图形子核心分组(例如,子切片)中实例化。对于可缩放性,产品架构师可以选择每个子核心分组的执行单元的精确数量。在一个实施例中,执行单元608可以跨多个执行通道执行指令。在另一实施例中,在图形执行单元608上执行的每个线程在不同的通道上执行。
图7是示出根据一些实施例的图形处理器指令格式700的框图。在一个或多个实施例中,图形处理器执行单元支持具有多种格式的指令的指令集。实线框示出了通常被包括在执行单元指令中的组件,而虚线包括可选的或仅包括在指令的子集中的组件。在一些实施例中,所描述并示出的指令格式700是宏指令,因为指令格式700是供应给执行单元的指令,而不是一旦指令被处理就由指令解码产生的微操作。
在一些实施例中,图形处理器执行单元本地地支持属于128位指令格式710的指令。基于所选定的指令、指令选项和操作数的数量,64位压缩指令格式730可用于某些指令。本地的128位指令格式710提供对所有指令选项的访问权,而在64位格式730中某些选项和操作受到限制。64位格式730中可用的本地指令因实施例而异。在一些实施例中,使用索引字段713中的索引值的集合来部分地压缩指令。执行单元硬件基于索引值引用压缩表的集合,并且使用压缩表输出来重构属于128位指令格式710的本地指令。
对于每种格式,指令操作码712定义执行单元要执行的操作。执行单元跨每个操作数的多个数据元素并行地执行每个指令。例如,响应于相加指令,执行单元跨表示纹理元素或图片元素的每个颜色通道执行同时相加运算。默认情况下,执行单元跨操作数的所有数据通道执行每条指令。在一些实施例中,指令控制字段714实现对某些执行选项(例如,通道选择(例如,预测)和数据通道顺序(例如,混合))的控制。对于属于128位指令格式710的指令,exec-size字段716限制将要并行执行的数据通道的数量。在一些实施例中,exec-size字段716不可用于64位压缩指令格式730。
一些执行单元指令具有多达三个操作数,包括两个源操作数(src0 720、src1722)和一个目的地718。在一些实施例中,执行单元支持双目的地指令,其中隐含了目的地中的一个。数据操纵指令可以具有第三个源操作数(例如,SRC2 724),其中指令操作码712确定源操作数的数量。指令的最后一个源操作数可以是与指令一起传递的立即数(例如,硬编码)值。
在一些实施例中,128位指令格式710包括存取/寻址模式字段726,该存取/寻址模式字段726指定例如是使用直接寄存器寻址模式还是间接寄存器寻址模式。当使用直接寄存器寻址模式时,一个或多个操作数的寄存器地址由指令中的位直接提供。
在一些实施例中,128位指令格式710包括存取/寻址模式字段726,该存取/寻址模式字段726指定指令的寻址模式和/或存取模式。在一个实施例中,存取模式用于定义指令的数据存取对齐。一些实施例支持包括16字节对齐的存取模式和1字节对齐的存取模式在内的存取模式,其中存取模式的字节对齐确定指令操作数的存取对齐。例如,当处于第一模式时,指令可以针对源操作数和目的地操作数使用字节对齐的寻址,并且当处于第二模式时,指令可以针对所有源操作数和目的地操作数使用16字节对齐的寻址。
在一个实施例中,存取/寻址模式字段726的寻址模式部分确定指令是要使用直接寻址还是间接寻址。当使用直接寄存器寻址模式时,指令中的位直接提供一个或多个操作数的寄存器地址。当使用间接寄存器寻址模式时,可以基于指令中的地址寄存器值和地址立即数字段来计算一个或多个操作数的寄存器地址。
在一些实施例中,基于操作码712位字段对指令进行分组以简化操作码解码740。对于8位操作码,位4、5和6允许执行单元确定操作码的类型。所示的精确操作码分组仅是示例。在一些实施例中,移动和逻辑操作码分组742包括数据移动和逻辑指令(例如,移动(mov)、比较(cmp))。在一些实施例中,移动和逻辑分组742共享五个最高有效位(MSB),其中移动(mov)指令是以0000xxxxb的形式,并且逻辑指令是以0001xxxxb的形式。流控制指令分组744(例如,调用、跳转(jmp))包括以0010xxxxb的形式(例如,0x20)的指令。杂项指令分组746包括指令的混合,包括以0011xxxxb的形式(例如,0x30)的同步指令(例如,等待、发送)。并行数学指令分组748包括以0100xxxxb的形式(例如,0x40)的按分量算术指令(例如,相加、相乘(mul))。并行数学分组748跨数据通道并行地执行算术运算。向量数学分组750包括以0101xxxxb的形式(例如,0x50)的算术指令(例如,dp4)。向量数学分组对向量操作数执行诸如点积计算之类的算术。
图形流水线
图8是图形处理器800的另一实施例的框图。图8中具有与本文任何其他附图中的元件相同的附图标记(或名称)的元件可以以与本文其他地方描述的方式类似的任何方式操作或起作用,但不限于此。
在一些实施例中,图形处理器800包括几何流水线820、媒体流水线830、显示引擎840、线程执行逻辑850和渲染输出流水线870。在一些实施例中,图形处理器800是在包括一个或多个通用处理核心的多核心处理系统内的图形处理器。图形处理器通过寄存器写入一个或多个控制寄存器(未示出)或通过经由环形互连802发布到图形处理器800的命令来控制。在一些实施例中,环形互连802将图形处理器800与其他处理组件(例如,其他图形处理器或通用处理器)耦合。来自环形互连802的命令由命令流送器803解释,该命令流送器803向几何流水线820或媒体流水线830的单独的组件提供指令。
在一些实施例中,命令流送器803指示顶点获取器805从存储器读取顶点数据并且执行由命令流送器803提供的顶点处理命令的操作。在一些实施例中,顶点获取器805将顶点数据提供给顶点着色器807,该顶点着色器807对每个顶点执行坐标空间变换和光照操作。在一些实施例中,顶点获取器805和顶点着色器807通过经由线程分派器831将执行线程分派给执行单元852A-852B来执行顶点处理指令。
在一些实施例中,执行单元852A-852B是具有用于执行图形和媒体操作的指令集的向量处理器的阵列。在一些实施例中,执行单元852A-852B具有附接的L1高速缓存851,该L1高速缓存851特定于每个阵列或在阵列之间共享。可以将高速缓存配置作为数据高速缓存、指令高速缓存或被划分以在不同分区中包含数据和指令的单个高速缓存。
在一些实施例中,几何流水线820包括曲面细分组件以执行对3D对象的硬件加速曲面细分。在一些实施例中,可编程外壳着色器811对曲面细分操作进行配置。可编程域着色器817提供曲面细分输出的后端评估。曲面细分器813在外壳着色器811的方向上操作,并且包含专用逻辑以基于作为对几何流水线820的输入被提供的粗略几何模型来生成详细几何对象的集合。在一些实施例中,如果不使用曲面细分,则可以绕过曲面细分组件(例如,外壳着色器811、曲面细分器813和域着色器817)。
在一些实施例中,完整的几何对象可以通过几何着色器819经由分派给执行单元852A-852B的一个或多个线程来处理,或者完整的几何对象可以直接进行到剪切器829。在一些实施例中,几何着色器对整个几何对象进行操作,而不是如在图形流水线的先前阶段中对顶点或顶点的图像块进行操作。如果禁用曲面细分,则几何着色器819接收来自顶点着色器807的输入。在一些实施例中,几何着色器819可由几何着色器程序编程,以在曲面细分单元被禁用时执行几何曲面细分。
在光栅化之前,剪切器829可以处理顶点数据。剪切器829可以是固定功能剪切器或具有剪切和几何着色器功能的可编程剪切器。在一些实施例中,渲染输出流水线870中的光栅化器和深度测试组件873分派像素着色器以将几何对象转换为每像素表示。在一些实施例中,像素着色器逻辑被包括在线程执行逻辑850中。在一些实施例中,应用可以绕过光栅化器和深度测试组件873并且经由流输出单元823访问未光栅化的顶点数据。
图形处理器800具有互连总线、互连结构或者允许在处理器的主要组件之间传递数据和消息的某种其他互连机制。在一些实施例中,执行单元852A-852B和相关联的逻辑单元(例如,L1高速缓存851、采样器854、纹理高速缓存858等)经由数据端口856互连,以执行存储器存取并且与处理器的渲染输出流水线组件通信。在一些实施例中,采样器854、高速缓存851、858和执行单元852A-852B各自具有单独的存储器存取路径。在一个实施例中,纹理高速缓存858还可以被配置作为采样器高速缓存。
在一些实施例中,渲染输出流水线870包含光栅化器和深度测试组件873,该光栅化器和深度测试组件873将基于顶点的对象转换为相关联的基于像素的表示。在一些实施例中,光栅化器逻辑包括用于执行固定功能三角形和线光栅化的加窗器/掩蔽器单元。相关联的渲染高速缓存878和深度高速缓存879在一些实施例中也是可用的。像素操作组件877对数据执行基于像素的操作,但是在一些情况下,与2D操作相关联的像素操作(例如,具有混合的位块图像传送)由2D引擎841执行,或者在显示时由显示控制器843使用覆盖显示平面代替。在一些实施例中,共享L3高速缓存875可用于所有图形组件,从而允许在不使用主系统存储器的情况下共享数据。
在一些实施例中,图形处理器媒体流水线830包括媒体引擎837和视频前端834。在一些实施例中,视频前端834接收来自命令流送器803的流水线命令。在一些实施例中,媒体流水线830包括单独的命令流送器。在一些实施例中,视频前端834在将命令发送到媒体引擎837之前处理媒体命令。在一些实施例中,媒体引擎837包括线程产生功能以产生线程以供经由线程分派器831分派给线程执行逻辑850。
在一些实施例中,图形处理器800包括显示引擎840。在一些实施例中,显示引擎840在处理器800外部,并且经由环形互连802或某种其他互连总线或结构与图形处理器耦合。在一些实施例中,显示引擎840包括2D引擎841和显示控制器843。在一些实施例中,显示引擎840包含能够独立于3D流水线操作的专用逻辑。在一些实施例中,显示控制器843与显示设备(未示出)耦合,该显示设备可以是系统集成显示设备(如在膝上型计算机中)或者经由显示设备连接器附接的外部显示设备。
在一些实施例中,几何流水线820和媒体流水线830可配置以基于多个图形和媒体编程接口执行操作,并且不特定于任何一个应用编程接口(API)。在一些实施例中,用于图形处理器的驱动软件将特定于特定图形或媒体库的API调用转换为可以由图形处理器处理的命令。在一些实施例中,为开放图形库(OpenGL)、开放计算语言(OpenCL)和/或Vulkan图形和计算API(其全部来自Khronos Group)提供支持。在一些实施例中,还可以为来自微软公司的Direct3D库提供支持。在一些实施例中,可以支持这些库的组合。还可以为开源计算机视觉库(OpenCV)提供支持。如果可以进行从具有兼容3D流水线的未来API的流水线到图形处理器的流水线的映射,则还将支持流水线未来API。
图形流水线编程
图9A是示出根据一些实施例的图形处理器命令格式900的框图。图9B是示出根据实施例的图形处理器命令序列910的框图。图9A中的实线框示出了通常被包括在图形命令中的组件,而虚线包括可选的或仅包括在图形命令的子集中的组件。图9A的示例性图形处理器命令格式900包括用于标识客户端902、命令操作代码(操作码)904以及用于命令的数据906的数据字段。在一些命令中还包括子操作码905和命令大小908。
在一些实施例中,客户端902指定图形设备的处理命令数据的客户端单元。在一些实施例中,图形处理器命令解析器检查每个命令的客户端字段以调节对命令的进一步处理并且将命令数据路由到适当的客户端单元。在一些实施例中,图形处理器客户端单元包括存储器接口单元、渲染单元、2D单元、3D单元和媒体单元。每个客户端单元具有处理命令的对应的处理流水线。一旦由客户端单元接收到命令,则客户端单元读取操作码904,并且如果存在,则读取子操作码905以确定要执行的操作。客户端单元使用数据字段906中的信息来执行命令。对于一些命令,期望显式命令大小908指定命令的大小。在一些实施例中,命令解析器基于命令操作码自动地确定命令中的至少一些的大小。在一些实施例中,命令经由双字的倍数对齐。
图9B中的流程图示出了示例性图形处理器命令序列910。在一些实施例中,以图形处理器的实施例为特征的数据处理系统的软件或固件使用所示的命令序列的版本来设置、执行和终止图形操作的集合。仅出于示例的目的示出并描述了样本命令序列,因为实施例不限于这些特定命令或该命令序列。此外,命令可以作为命令序列中的命令批而发布,使得图形处理器将至少部分地同时处理命令的序列。
在一些实施例中,图形处理器命令序列910可以开始于流水线冲洗命令912,以使得任何活动的图形流水线完成流水线的当前未决的流水线命令。在一些实施例中,3D流水线922和媒体流水线924不同时地操作。执行流水线冲洗以使得活动的图形流水线完成任何未决的命令。响应于流水线冲洗,图形处理器的命令解析器将暂停命令处理,直到活动的绘图引擎完成未决的操作并且相关的读取高速缓存是无效的。可选地,渲染高速缓存中标记为“脏”的任何数据可以被冲洗到存储器。在一些实施例中,流水线冲洗命令912可以用于流水线同步或者在将图形处理器置于低功率状态之前使用。
在一些实施例中,当命令序列要求图形处理器明确地在流水线之间切换时,使用流水线选择命令913。在一些实施例中,在发布流水线命令之前,除非上下文要发布针对两个流水线的命令,否则在执行上下文内仅要求一次流水线选择命令913。在一些实施例中,紧接在经由流水线选择命令913切换流水线之前要求流水线冲洗命令912。
在一些实施例中,流水线控制命令914对用于操作的图形流水线进行配置,并且流水线控制命令914用于对3D流水线922和媒体流水线924进行编程。在一些实施例中,流水线控制命令914对活动流水线的流水线状态进行配置。在一个实施例中,流水线控制命令914用于流水线同步,并且在处理命令批之前在活动流水线内从一个或多个高速缓冲存储器清除数据。
在一些实施例中,返回缓冲器状态命令916用于针对相应的流水线配置返回缓冲器的集合以写入数据。某些流水线操作要求分配、选择或配置一个或多个返回缓冲器,在处理期间操作将中间数据写入该一个或多个返回缓冲器中。在一些实施例中,图形处理器还使用一个或多个返回缓冲器来存储输出数据并执行跨线程通信。在一些实施例中,返回缓冲器状态916包括选择要用于流水线操作的集合的返回缓冲器的大小和数量。
命令序列中的其余命令基于用于操作的活动流水线而不同。基于流水线确定920,流水线命令序列被定制用于开始于3D流水线状态930的3D流水线922,或者流水线命令序列被定制用于开始于媒体流水线状态940的媒体流水线924。
用于配置3D流水线状态930的命令包括针对顶点缓冲器状态、顶点元素状态、恒定颜色状态、深度缓冲器状态以及在处理3D基元命令之前要配置的其他状态变量的3D状态设置命令。这些命令的值至少部分地基于使用的特定3D API来确定。在一些实施例中,如果将不使用某些流水线元素,则3D流水线状态930命令也能够选择性地禁用或绕过这些元素。
在一些实施例中,3D基元932命令用于提交要由3D流水线处理的3D基元。经由3D基元932命令传递到图形处理器的命令和相关联的参数被转发到图形流水线中的顶点获取功能。顶点获取功能使用3D基元932命令数据来生成顶点数据结构。顶点数据结构存储在一个或多个返回缓冲器中。在一些实施例中,3D基元932命令用于经由顶点着色器对3D基元执行顶点操作。为了处理顶点着色器,3D流水线922将着色器执行线程分派给图形处理器执行单元。
在一些实施例中,经由执行934命令或事件来触发3D流水线922。在一些实施例中,寄存器写入触发命令执行。在一些实施例中,经由命令序列中的“go”或“kick”命令触发执行。在一个实施例中,使用流水线同步命令来触发命令执行以冲洗命令序列通过图形流水线。3D流水线将执行针对3D基元的几何处理。一旦操作完成,生成的几何对象被光栅化,并且像素引擎对生成的像素进行上色。针对这些操作,还可以包括用于控制像素着色和像素后端操作的附加命令。
在一些实施例中,当执行媒体操作时,图形处理器命令序列910遵循媒体流水线924路径。通常,针对媒体流水线924的特定用途和编程方式取决于要执行的媒体操作或计算操作。在媒体解码期间,可以将特定媒体解码操作卸载到媒体流水线。在一些实施例中,还可以绕过媒体流水线,并且可以使用由一个或多个通用处理核心提供的资源来全部或部分地执行媒体解码。在一个实施例中,媒体流水线还包括用于通用图形处理器单元(GPGPU)操作的元件,其中图形处理器用于使用与对图形基元的渲染不明确相关的计算着色器程序来执行SIMD向量操作。
在一些实施例中,媒体流水线924以与3D流水线922类似的方式配置。用于配置媒体流水线状态940的命令的集合在媒体对象命令942之前被分派或放置到命令队列中。在一些实施例中,针对媒体流水线状态940的命令包括用于配置将用于处理媒体对象的媒体流水线元素的数据。这包括用于在媒体流水线内配置视频解码逻辑和视频编码逻辑的数据,例如,编码格式或解码格式。在一些实施例中,针对媒体流水线状态940的命令还支持使用指向包含一批状态设置的“间接”状态元素的一个或多个指针。
在一些实施例中,媒体对象命令942供应指向用于由媒体流水线处理的媒体对象的指针。媒体对象包括存储器缓冲器,该存储器缓冲器包含要被处理的视频数据。在一些实施例中,在发布媒体对象命令942之前,所有媒体流水线状态必须是有效的。一旦流水线状态被配置并且媒体对象命令942被排队,则经由执行命令944或等效执行事件(例如,寄存器写入)触发媒体流水线924。然后,可以通过由3D流水线922或媒体流水线924提供的操作对来自媒体流水线924的输出进行后处理。在一些实施例中,以与媒体操作类似的方式来配置并执行GPGPU操作。
图形软件架构
图10示出了根据一些实施例的用于数据处理系统1000的示例性图形软件架构。在一些实施例中,软件架构包括3D图形应用1010、操作系统1020和至少一个处理器1030。在一些实施例中,处理器1030包括图形处理器1032以及一个或多个通用处理器核心1034。图形应用1010和操作系统1020各自在数据处理系统的系统存储器1050中执行。
在一些实施例中,3D图形应用1010包含一个或多个着色器程序,该一个或多个着色器程序包括着色器指令1012。着色器语言指令可以采用诸如高级着色器语言(HLSL)或OpenGL着色器语言(GLSL)之类的高级着色器语言。该应用还包括采用适用于由通用处理器核心1034执行的机器语言的可执行指令1014。该应用还包括由顶点数据定义的图形对象1016。
在一些实施例中,操作系统1020是来自微软公司的
Figure BDA0002856828750000281
Figure BDA0002856828750000282
操作系统、使用Linux内核的变体的专有类UNIX操作系统或开源类UNIX操作系统。操作系统1020可以支持图形API 1022,例如,Direct3D API、OpenGL API或Vulkan API。当使用Direct3D API时,操作系统1020使用前端着色器编译器1024以将采用HLSL的任何着色器指令1012编译为较低级别的着色器语言。编译可以是即时(JIT)编译,或者应用可以执行着色器预编译。在一些实施例中,在编译3D图形应用1010期间,高级别着色器被编译为低级别着色器。在一些实施例中,着色器指令1012以中间形式提供,例如,Vulkan API使用的标准便携式中间表示(SPIR)的版本。
在一些实施例中,用户模式图形驱动程序1026包含后端着色器编译器1027,以将着色器指令1012转换为硬件特定表示。当使用OpenGL API时,采用GLSL高级语言的着色器指令1012被传递到用户模式图形驱动程序1026以进行编译。在一些实施例中,用户模式图形驱动程序1026使用操作系统内核模式功能1028来与内核模式图形驱动程序1029通信。在一些实施例中,内核模式图形驱动程序1029与图形处理器1032通信以分派命令和指令。
IP核心实现方式
可以通过存储在机器可读介质上的代表性代码来实现至少一个实施例的一个或多个方面,该代表性代码表示和/或定义诸如处理器之类的集成电路内的逻辑。例如,机器可读介质可以包括表示处理器内的各种逻辑的指令。当由机器读取时,指令可以使得机器制造逻辑以执行本文所描述的技术。这种被称为“IP核心”的表示是用于集成电路的可重用的逻辑单元,其可以存储在有形的机器可读介质上,作为描述集成电路的结构的硬件模型。可以将硬件模型供应给各种客户或制造设施,这些客户或制造设施将硬件模型加载到制造集成电路的制造机器上。可以制造集成电路,使得该电路执行与本文所描述的实施例中的任何一个相关联地描述的操作。
图11A是示出根据实施例的可以用于制造集成电路以执行操作的IP核心开发系统1100的框图。IP核心开发系统1100可以用于生成模块化、可重用的设计,其可以结合到更大的设计中或用于构建整个集成电路(例如,SOC集成电路)。设计设施1130可以采用高级编程语言(例如,C/C++)生成IP核心设计的软件仿真1110。软件仿真1110可以用于使用仿真模型1112设计、测试并验证IP核心的行为。仿真模型1112可以包括功能、行为和/或定时仿真。然后可以根据仿真模型1112创建或合成寄存器传送级别(RTL)设计1115。RTL设计1115是对集成电路(其对数字信号在硬件寄存器之间的流动进行建模,包括使用经建模的数字信号执行的相关联的逻辑)的行为的抽象。除了RTL设计1115之外,还可以创建、设计或合成逻辑级别或晶体管级别的较低级别设计。因此,初始设计和仿真的特定细节可以变化。
RTL设计1115或等效物可以由设计设施进一步合成为硬件模型1120,该硬件模型1120可以采用硬件描述语言(HDL)或物理设计数据的某种其他表示。可以进一步仿真或测试HDL以验证IP核心设计。可以存储IP核心设计以使用非易失性存储器1140(例如,硬盘、闪速存储器或任何非易失性存储介质)递送到第三方制造设施1165。可替代地,可以通过有线连接1150或无线连接1160(例如,经由互联网)发送IP核心设计。然后,制造设施1165可以制造至少部分地基于该IP核心设计的集成电路。制造的集成电路可以被配置为执行根据本文所描述的至少一个实施例的操作。
图11B示出了根据本文所描述的一些实施例的集成电路封装组装件1170的横截面侧视图。集成电路封装组装件1170示出了如本文所描述的一个或多个处理器或加速器设备的实现方式。封装组装件1170包括连接到衬底1180的多个硬件逻辑单元1172、1174。逻辑1172、1174可以至少部分地以可配置逻辑或固定功能逻辑硬件实现,并且可以包括本文所描述的(多个)处理器核心、(多个)图形处理器或其他加速器设备中的任一个中的一个或多个部分。每个逻辑单元1172、1174可以在半导体管芯内实现,并且经由互连结构1173与衬底1180耦合。互连结构1173可以被配置为在逻辑1172、1174与衬底1180之间路由电信号,并且该互连结构1173可以包括互连,例如但不限于凸块或支柱。在一些实施例中,互连结构1173可以被配置为路由电信号,例如,与逻辑1172、1174的操作相关联的输入/输出(I/O)信号和/或电源或接地信号。在一些实施例中,衬底1180是基于环氧树脂的层压衬底。在其他实施例中,封装衬底1180可以包括其他合适类型的衬底。封装组装件1170可以经由封装互连1183连接到其他电子设备。封装互连1183可以与衬底1180的表面耦合以将电信号路由到其他电子设备,例如,母板、其他芯片组或多芯片模块。
在一些实施例中,逻辑单元1172、1174与桥1182电耦合,该桥1182被配置为在逻辑1172、1174之间路由电信号。桥1182可以是提供用于电信号的路由的密集互连结构。桥1182可以包括由玻璃或合适的半导体材料构成的桥衬底。可以在桥衬底上形成电路由特征,以提供逻辑1172、1174之间的芯片到芯片连接。
尽管示出了两个逻辑单元1172、1174和桥1182,但是本文所描述的实施例可以在一个或多个管芯上包括更多或更少的逻辑单元。一个或多个管芯可以通过零个或更多个桥连接,因为当逻辑被包括在单个管芯上时可以排除桥1182。可替代地,多个管芯或逻辑单元可以通过一个或多个桥连接。另外地,多个逻辑单元、管芯和桥可以以其他可能的配置(包括三维配置)连接在一起。
示例性片上系统集成电路
图12-14示出了根据本文所描述的各种实施例的可以使用一个或多个IP核心制造的示例性集成电路和相关联的图形处理器。除了所示的内容之外,还可以包括其他逻辑和电路,包括附加的图形处理器/核心、外围接口控制器或通用处理器核心。
图12是示出根据实施例的可以使用一个或多个IP核心制造的示例性片上系统集成电路1200的框图。示例性集成电路1200包括一个或多个应用处理器1205(例如,CPU)、至少一个图形处理器1210,并且可以另外地包括图像处理器1215和/或视频处理器1220,其中任何一个可以是根据相同的或多个不同的设计设施的模块化IP核心。集成电路1200包括外围设备或总线逻辑,包括USB控制器1225、UART控制器1230、SPI/SDIO控制器1235和I2S/I2C控制器1240。另外地,集成电路可以包括显示设备1245,该显示设备1245与高清晰度多媒体接口(HDMI)控制器1250和移动工业处理器接口(MIPI)显示接口1255中的一个或多个耦合。存储装置可以由包括闪速存储器和闪速存储器控制器的闪速存储器子系统1260提供。可以经由存储器控制器1265提供存储器接口以存取SDRAM或SRAM存储器设备。一些集成电路另外地包括嵌入式安全引擎1270。
图13A-13B是示出根据本文所描述的实施例的在SoC内使用的示例性图形处理器的框图。图13A示出了根据实施例的可以使用一个或多个IP核心制造的片上系统集成电路的示例性图形处理器1310。图13B示出了根据实施例的可以使用一个或多个IP核心制造的片上系统集成电路的附加的示例性图形处理器1340。图13A的图形处理器1310是低功率图形处理器核心的示例。图13B的图形处理器1340是更高性能图形处理器核心的示例。图形处理器1310、1340中的每一个可以是图12的图形处理器1210的变体。
如图13A中示出的,图形处理器1310包括顶点处理器1305和一个或多个片段处理器1315A-1315N(例如,1315A、1315B、1315C、1315D到1315N-1和1315N)。图形处理器1310可以经由单独的逻辑执行不同的着色器程序,使得顶点处理器1305被优化以执行针对顶点着色器程序的操作,而一个或多个片段处理器1315A-1315N执行针对片段或像素着色器程序的片段(例如,像素)着色操作。顶点处理器1305执行3D图形流水线的顶点处理阶段并且生成基元和顶点数据。(多个)片段处理器1315A-1315N使用由顶点处理器1305生成的基元和顶点数据来产生显示在显示设备上的帧缓冲器。在一个实施例中,(多个)片段处理器1315A-1315N被优化以执行如OpenGL API中提供的片段着色器程序,该片段着色器程序可以用于执行与Direct 3D API中提供的像素着色器程序类似的操作。
图形处理器1310另外地包括一个或多个存储器管理单元(MMU)1320A-1320B、(多个)高速缓存1325A-1325B和(多个)电路互连1330A-1330B。一个或多个MMU 1320A-1320B为图形处理器1310(包括为顶点处理器1305和/或(多个)片段处理器1315A-1315N)提供虚拟到物理地址映射,其除了存储在一个或多个高速缓存1325A-1325B中的顶点或图像/纹理数据之外还可以参考存储在存储器中的顶点或图像/纹理数据。在一个实施例中,一个或多个MMU 1320A-1320B可以与系统内的其他MMU(包括与图12的一个或多个应用处理器1205、图像处理器1215和/或视频处理器1220相关联的一个或多个MMU)同步,使得每个处理器1205-1220可以参与共享或统一的虚拟存储器系统。根据实施例,一个或多个电路互连1330A-1330B使得图形处理器1310能够经由SoC的内部总线或经由直接连接与SoC内的其他IP核心相接合。
如图13B所示,图形处理器1340包括图13A的图形处理器1310的一个或多个MMU1320A-1320B、高速缓存1325A-1325B和电路互连1330A-1330B。图形处理器1340包括一个或多个着色器核心1355A-1355N(例如,1355A、1355B、1355C、1355D、1355E、1355F到1355N-1和1355N),一个或多个着色器核心1355A-1355N提供统一的着色器核心架构,其中单核心或类型或核心可以执行所有类型的可编程着色器代码,包括用于实现顶点着色器、片段着色器和/或计算着色器的着色器程序代码。存在的着色器核心的精确数量可以在实施例和实现方式之间变化。另外地,图形处理器1340包括核心间任务管理器1345,该核心间任务管理器1345用作线程分派器以将执行线程分派给一个或多个着色器核心1355A-1355N和图块拼接单元1358,图块拼接单元1358用于加速用于基于图块的渲染的图块拼接操作,其中针对场景的渲染操作在图像空间中被细分,以例如利用场景内的本地空间一致性或优化内部高速缓存的使用。
图14A-14B示出了根据本文所描述的实施例的附加的示例性图形处理器逻辑。图14A示出了可以包括在图12的图形处理器1210内的图形核心1400,并且该图形核心1400可以是如图13B中的统一的着色器核心1355A-1355N。图14B示出了适用于部署在多芯片模块上的高度并行通用图形处理单元1430。
如图14A中示出的,图形核心1400包括共享指令高速缓存1402、纹理单元1418和高速缓冲/共享存储器1420,它们对于图形核心1400内的执行资源是公共的。图形核心1400可以包括多个切片1401A-1401N或者每个核心的分区,并且图形处理器可以包括图形核心1400的多个实例。切片1401A-1401N可以包括支持逻辑,该支持逻辑包括本地指令高速缓存1404A-1404N、线程调度器1406A-1406N、线程分派器1408A-1408N以及寄存器的集合1410A-1410N。为了执行逻辑操作,切片1401A-1401N可以包括附加功能单元(AFU 1412A-1412N)、浮点单元(FPU 1414A-1414N)、整数算术逻辑单元(ALU 1416A-1416N)、地址计算单元(ACU1413A-1413N)、双精度浮点单元(DPFPU 1415A-1415N)和矩阵处理单元(MPU 1417A-1417N)的集合。
计算单元中的一些以特定精度操作。例如,FPU 1414A-1414N可以执行单精度(32位)和半精度(16位)浮点运算,而DPFPU 1415A-1415N执行双精度(64位)浮点运算。ALU1416A-1416N可以以8位、16位和32位精度执行可变精度整数运算,并且ALU 1416A-1416N可以被配置用于混合精度运算。MPU 1417A-1417N也可以被配置用于混合精度矩阵运算,包括半精度浮点运算和8位整数运算。MPU 1417A-1417N可以执行各种矩阵运算以加速机器学习应用框架,包括使得能够支持加速的通用矩阵到矩阵乘法(GEMM)。AFU 1412A-1412N可以执行浮点或整数单元不支持的附加逻辑运算,包括三角函数运算(例如,正弦、余弦等)。
如图14B中示出的,通用处理单元(GPGPU)1430可以被配置为使得高度并行的计算操作能够由图形处理单元的阵列执行。另外地,GPGPU 1430可以直接链接到GPGPU的其他实例以创建多GPU集群以改进特别深的神经网络的训练速度。GPGPU 1430包括主机接口1432以实现与主机处理器的连接。在一个实施例中,主机接口1432是PCI快速接口。然而,主机接口也可以是供应商特定的通信接口或通信结构。GPGPU 1430接收来自主机处理器的命令并且使用全局调度器1434将与那些命令相关联的执行线程分发到计算集群的集合1436A-1436H。计算集群1436A-1436H共享高速缓冲存储器1438。高速缓冲存储器1438可以用作计算集群1436A-1436H内的高速缓冲存储器的更高级别的高速缓存。
GPGPU 1430包括经由存储器控制器的集合1442A-1442B与计算集群1436A-1436H耦合的存储器1444A-1444B。在各种实施例中,存储器1444A-1444B可以包括各种类型的存储器设备,包括动态随机存取存储器(DRAM)或图形随机存取存储器,例如,同步图形随机存取存储器(SGRAM),包括图形双倍数据速率(GDDR)存储器。
在一个实施例中,计算集群1436A-1436H各自包括图形核心(例如,图14A的图形核心1400)的集合,该图形核心的集合可以包括多种类型的整数和浮点逻辑单元,其可以以包括适合于机器学习计算的精度范围执行计算操作。例如,在一个实施例中,至少计算集群1436A-1436H中的每一个中的浮点单元的子集可以被配置为执行16位或32位浮点运算,而浮点单元的不同子集可以被配置为执行64位浮点运算。
GPGPU 1430的多个实例可以被配置为作为计算集群操作。由计算集群使用以进行同步和数据交换的通信机制跨实施例而变化。在一个实施例中,GPGPU 1430的多个实例通过主机接口1432进行通信。在一个实施例中,GPGPU 1430包括I/O中心1439,该I/O中心1439将GPGPU 1430与GPU链路1440耦合,该GPU链路1440实现与GPGPU的其他实例的直接连接。在一个实施例中,GPU链路1440与专用GPU到GPU桥耦合,该专用GPU到GPU桥实现GPGPU 1430的多个实例之间的通信和同步。在一个实施例中,GPU链路1440与高速互连耦合以将数据发送到其他GPGPU或并行处理器,并且从其他GPGPU或并行处理器接收数据。在一个实施例中,GPGPU 1430的多个实例位于单独的数据处理系统中,并且经由网络设备进行通信,该网络设备可经由主机接口1432访问。在一个实施例中,除了主机接口1432之外或作为其替代,GPU链路1440可以被配置为实现与主机处理器的连接。
虽然GPGPU 1430的所示配置可以被配置用于训练神经网络,但是一个实施例提供了GPGPU 1430的替代配置,其可以被配置用于部署在高性能或低功率推理平台内。在推理配置中,GPGPU 1430相对于训练配置包括更少的计算集群1436A-1436H。另外地,与存储器1444A-1444B相关联的存储器技术可以在推理配置与训练配置之间不同,其中更高带宽的存储器技术专用于训练配置。在一个实施例中,GPGPU 1430的推理配置可以支持推理特定的指令。例如,推理配置可以提供对一个或多个8位整数点积指令的支持,这些指令通常在部署的神经网络的推理运算期间使用。
数据处理系统
图15A示出了根据本文描述的实施例的数据处理系统。图15的数据处理系统1500是具有处理器1502、统一存储器1510和GPGPU 1520的异构处理系统。处理器1502和GPGPU1520可以是本文描述的处理器和GPGPU/并行处理器中的任一个。统一存储器1510表示可以由处理器1502和GPGPU 1520访问的统一地址空间。统一存储器包括系统存储器1512以及GPGPU存储器1518。在一些实施例中,GPGPU存储器1518包括GPGPU 1520内的GPGPU本地存储器1528并且还可以包括系统存储器1512中的一些或全部。例如,存储在系统存储器1512中的编译代码1514B也可以映射到GPGPU存储器1518中,以供GPGPU 1520访问。在一个实施例中,系统存储器1512中的运行时库1516可以促进编译和/或编译代码1514B的执行。处理器1502可以执行用于存储在系统存储器1512中的编译器1515的指令。编译器1515可以将源代码1514A编译为编译代码1514B,以由处理器1502和/或GPGPU 1520执行。在一个实施例中,编译器1515是或可以包括着色器编译器,以编译专门用于由GPGPU 1520执行的着色器程序。
GPGPU 1520包括多个计算块1524A-1524N,这些计算块1524A-1524N包括本文描述的执行逻辑的一个或多个实例。GPGPU 1520还包括一组寄存器1525、高速缓冲存储器1527以及功率和性能模块1526,这些组件可以用作计算块1524A-1524N的共享资源。在一个实施例中,寄存器1525包括直接和间接可访问的寄存器,其中可以对间接可访问的寄存器进行优化以将其用于矩阵计算操作中。功率和性能模块1526可以被配置为调整计算块1524A-1524N的功率递送和时钟频率,以在繁重的工作负载下为计算块1524A-1524N内的门空闲组件供电。GPGPU 1520包括GPGPU本地存储器1528,该GPGPU本地存储器1528是与GPGPU 1520共享图形卡或多芯片模块的物理存储器模块。
在一个实施例中,GPGPU 1520包括硬件逻辑,该硬件逻辑包括存储器保留单元1521和地址转换单元1522。存储器保留单元1521可以包括至少部分地包括硬件逻辑的逻辑,该逻辑用于针对由处理器1502和/或GPGPU 1520实现的操作保留和分配存储器。地址转换单元1522可以包括至少部分地包括硬件逻辑的逻辑,该逻辑用于实现时间滤波算法。将在下面更详细地描述由这些单元实现的操作。
用于实现自适应页面大小的转换后备缓冲器(TLB)
如上面所描述的,信息处理设备可以使用一个或多个转换后备缓冲器(TLB)来将在处理设备上执行的应用所使用的虚拟存储器地址转换为存储器中的物理存储器地址。虚拟地址通常包括虚拟页号和页面偏移。
TLB未命中和页面错误异常会导致在进程的执行中的显著性能损失。当图形处理单元(GPU)用作中央处理单元(CPU)的加速器并实现统一的存储器空间时,性能影响可能特别显著。因此,用于改进TLB的效率和利用的技术例如在图形处理应用中可能是实用的。
已经尝试使用大页面来解决这些问题。例如,某些处理器支持4KB、2MB和1GB的存储器页面。然而,每种类型的页面大小都需要被不同地构造的特定TLB条目。因此,系统不一定是可互换的。此外,页面大小的数量是受限的,因此,如果块大小与支持的页面大小不匹配,则无法减少页面错误异常。已经还尝试了使用被称为透明大页面的技术来解决这些问题。然而,透明大页面对性能的影响取决于使用场景,并且有时甚至可能发生性能下降,因此许多供应商建议将其禁用。
本文所描述的主题通过在某些方面中提供一种创新的TLB结构来解决这些问题和其他问题,该创新的TLB结构使得能够按需将任何存储器请求分配到具有合适的页面大小(例如,4KB/8KB/16KB……/2MB/4MB/……16GB)的物理存储器,这减少了TLB未命中和页面错误异常。在某些实现方式中,对于每2N大小的存储器请求,可能仅存在一个页面错误异常。此外,使得页面大小能够动态地增加或减少以提高效率。在一些示例中,自适应页面大小可以通过硬件和/或软件来实现。存储器管理算法可以根据实际存储器使用动态地扩展页面大小。
图16是示出了实现用于自适应页面大小的TLB设计的方法中的操作的流程图,并且图17示出了根据实施例的适于实现用于自适应页面大小的TLB设计的数据处理系统中的存储器分配的方面。在某些示例中,参考图16-17,可以使用预先保留的物理存储器分配算法来分配存储器。该算法可以使用由大多数现代操作系统(OS)内核使用的惰性分配算法。然而,在本文实现的算法中,可以首先保留用于存储器分配请求的连续物理块,然后如果实际使用该连续物理块,则可以对其进行分配,或者如果不使用该连续物理块,则可以对其进行回收。
因此,在操作1610处,当在处理器1502和/或GPGPU 1520上执行的进程发起存储器分配请求时,存储器保留单元1521在64KB的对齐的物理地址处保留连续物理存储器1700的64KB的块1712。稍后,当写入保留的存储器块1712的分段时,存储器保留单元1521分配(操作1615)存储块1712的第一部分,以与在处理器1502和/或GPGPU 1520上执行的(多个)进程一起使用。在图16中描绘的示例中,从保留的存储器1712中分配一个4KB的存储器页面1714。
在操作1620处,确定在处理器1502和/或GPGPU 1520上执行的进程是否已经生成超过阈值的存储器要求。在一些示例中,阈值可以是静态阈值,其大约对应于在操作1615中分配的存储器的量。在其他示例中,可以响应于处理器1502和/或GPGPU或数据处理系统1500的其他组件的操作条件来动态地调整阈值。
如果在操作1620处,存储器要求未超过阈值,则控制循环回操作1620,并且存储器保留单元1521继续监视存储器要求。相反,如果在操作1620处,存储器要求超过阈值,则控制传递到操作1625,并且存储器保留单元1521将附加的存储器分配给存储器块1712的第一部分,以与在处理器1502和/或GPGPU 1520上执行的(多个)进程一起使用。在图16中描绘的示例中,从保留的存储器1712中分配一个4KB加上另一4KB的存储器页面1714(操作1625),从而得到8KB的存储器页面1714。在操作1630处,出于存储器管理的目的,增加页面1714的大小(例如,从4KB增加到8KB)。
在操作1620处,确定由在处理器1502和/或GPGPU 1520上执行的进程生成的存储器要求是否已经满足阈值或低于阈值。在一些示例中,阈值可以是静态阈值,其大约对应于在操作1625中分配的存储器的量。在其他示例中,可以响应于处理器1502和/或GPGPU或数据处理系统1500的其他组件的操作条件来动态地调整阈值。
参考图18A,在一些示例中,可以实现新颖的事务后备缓冲器(TLB)条目以支持本文所示的算法。参考图18A,在一个示例中,TLB条目1800可以包括物理页号(PPN)1810、标签1812、ESI(可扩展页面大小指示符)字段1814和ASI(实际页面大小指示符)字段1816。
在一些示例中,ESI字段包括多个位,并且ESI字段的每个位指示2阶的页面大小是否可扩展到更大的大小。可以假定4KB的值。因此,位0的值1指示可以将4KB的当前页面扩展到8KB,位1的值1指示可以将当前页面扩展到16KB,依此类推。例如,如果针对存储器请求保留了存储器中的64KB,则ESI字段的前4位将被设置为1,并且其余位将被设置为0。
在一些示例中,ASI字段指示当前分配的页面大小。可以假定4KB的值。因此,位0的值1表示当前页面大小为8KB,位1的值1表示当前页面大小为16KB,依此类推。实际分配的页面大小由ASI字段的为1’的有效位决定。因此,每个TLB条目可以以ASI字段支持不同的页面大小。
图18B示出了被配置为结合如图18A中描绘的TLB条目1800操作的地址结构。参考图18B,在一些示例中,64位的地址结构可以支持高达1GB的页面大小。高有效34位是页号字段1852,低有效12位定义页面的偏移字段1856,并且中间的18位定义灵活字段1854,并且可以在页位与偏移位之间进行配置。
图19是示出了根据本文描述的实施例的利用用于自适应页面大小的TLB设计的方法中的操作的流程图。在一些示例中,图19中描绘的操作中的至少一些操作可以由地址转换单元1522来实现。参考图19,在操作1910处,利用以下各项来配置查找表:供在处理器(例如,处理器1502和/或GPGPU 1520)上执行的进程使用的虚拟存储器地址到通信地耦合到处理器的物理存储器的块中的物理存储器地址的映射、标签、可扩展大小指示符字段和实际大小指示符字段,如参考图18A所描述的。在操作1915处,将查找表存储在计算机可读存储器中,例如,作为TLB存储在高速缓冲存储器中。
在操作1920处,地址转换单元1522从在处理器(例如,处理器1502和/或GPGPU1520)上执行的进程中接收对通信地耦合到该处理器的物理存储器的访问请求。在一些示例中,访问请求可以包括虚拟页号以及虚拟页号字段、偏移字段和中间字段之间的偏移分割(offset split),如图18B中描绘的。
在操作1925处,地址转换单元1522至少部分地基于中间字段的一部分中的数据,将访问请求中的虚拟页号转换为物理存储器中的物理地址。在某些示例中,当利用TLB条目检查虚拟页面地址时,将使用以下协议检查中间位:
如果ASI字段的对应位为1,则中间地址的这些位是偏移并且不检查匹配比较。相反,如果ASI字段的对应位为0,但对应的ESI字段为1,则意味着页面大小可以增加。如果ASI和ESI字段的对应位均为0,则中间地址的这些位属于页号,需要检查匹配比较。
当分配的存储器到达新页面的点时,如果ESI字段的对应位为1,则可以通过将ASI字段的对应位设置为1并将TLB条目推送到缓冲器中来自动加倍当前页面大小。随后,如果进程由于中断、异常或系统调用而切换到内核状态,则内核可以更新进程的存储器使用统计信息,从而可以消除任何页面错误。
因此,本文描述的结构和操作使得数据处理系统能够构造并利用被配置为实现自适应页面调整大小的TLB。本领域技术人员将认识到,最大支持的页面大小取决于实现方式,并且如果未实际使用存储器块,则OS内核可以回收保留的存储器块,但是必须在内核回收其保留的存储器之前终止该进程。如果不能针对分配请求保留连续的2阶个存储器块,则可以尝试保留连续的2阶减1个存储器块。如果失败,则可以尝试保留连续的2阶减2个存储器块,以此类推。在某些示例中,可以针对存储器使用设置阈值。当存储器使用大于阈值时,可以按需分配存储器,并且可以拒绝存储器保留请求。
图20是根据实施例的包括图形处理器2004的计算设备2000的框图。计算设备2000可以是如本文所描述的计算设备,例如,图1中的数据处理系统100。计算设备2000还可以是或包括在诸如机顶盒(例如,基于互联网的有线电视机顶盒等)之类的通信设备、基于全球定位系统(GPS)的设备等内。计算设备2000还可以是或包括在诸如蜂窝电话、智能电话、个人数字助理(PDA)、平板计算机、膝上型计算机、电子阅读器、智能电视、电视平台、可穿戴设备(例如,眼镜、手表、手镯、智能卡、珠宝、服装等)、媒体播放器等之类的移动计算设备内。例如,在一个实施例中,计算设备2000包括采用集成电路(“IC”)(例如,片上系统(“SoC”或“SOC”),其在单个芯片上集成计算设备2000的各种硬件和/或软件组件)的移动计算设备。
计算设备2000包括图形处理器2004。图形处理器2004表示本文所描述的任何图形处理器。图形处理器包括一个或多个图形引擎、图形处理器核心以及如本文所描述的其他图形执行资源。这样的图形执行资源可以以包括但不限于执行单元、着色器引擎、片段处理器、顶点处理器、流送多处理器、图形处理器集群或适合于处理图形和图像资源的计算资源的任何集合的形式呈现。
在一个实施例中,图形处理器2004包括高速缓存2014,该高速缓存2014可以是单个高速缓存或被分成高速缓冲存储器的多个分段,包括但不限于任何数量的L1、L2、L3或L4高速缓存、渲染高速缓存、深度高速缓存、采样器高速缓存和/或着色器单元高速缓存。在一个实施例中,图形处理器2004包括调度器2024,该调度器2024可以是图16的调度器单元1622的变体或本文所描述的其他调度器逻辑。除了包括用于执行如本文所描述的图形处理和通用指令执行的硬件逻辑的GPGPU引擎2044之外,图形处理器2004可以另外地包括命令流送器2026、线程分派器2034和屏障/同步逻辑2036。
如所示的,在一个实施例中,除了图形处理器2004之外,计算设备2000还可以包括任何数量和类型的硬件组件和/或软件组件,包括但不限于应用处理器2006、存储器2008和输入/输出(I/O)源2010。应用处理器2006可以与硬件图形流水线交互(如参考图3所示),以共享图形流水线功能。经处理的数据存储在硬件图形流水线的缓冲器中,并且状态信息存储在存储器2008中。结果数据可以传送到显示控制器以经由诸如图3的显示设备323之类的显示设备输出。显示设备可以是各种类型的,例如,阴极射线管(CRT)、薄膜晶体管(TFT)、液晶显示器(LCD)、有机发光二极管(OLED)阵列等,并且可以被配置为经由图形用户界面向用户显示信息。
应用处理器2006可以包括一个或多个处理器(例如,图1的(多个)处理器102),并且可以是至少部分地用于执行计算设备2000的操作系统(OS)2002的中央处理单元(CPU)。OS 2002可以用作计算设备2000的硬件和/或物理资源与一个或多个用户之间的接口。OS2002可以包括图形驱动程序逻辑2022,例如,图10的用户模式图形驱动程序1026和/或内核模式图形驱动程序1029。
可以预期,在一些实施例中,图形处理器2004可以作为应用处理器2006的一部分存在(例如,物理CPU封装的一部分),在这种情况下,存储器2008的至少一部分可以由应用处理器2006和图形处理器2004共享,尽管存储器2008的至少一部分可以是图形处理器2004独有的,或者图形处理器2004可以具有单独的存储器存储。存储器2008可以包括缓冲器(例如,帧缓冲器)的预分配区域;然而,本领域普通技术人员应该理解的是,实施例不限于此,并且可以使用较低图形流水线可访问的任何存储器。存储器2008可以包括各种形式的随机存取存储器(RAM)(例如,SDRAM、SRAM等),其包括利用图形处理器2004来渲染桌面或3D图形场景的应用。存储器控制器可以用于访问存储器2008中的数据并且将数据转发到图形处理器2004以进行图形流水线处理。可以使存储器2008对计算设备2000内的其他组件可用。例如,在软件程序或应用的实现方式中,从计算设备2000的各种I/O源2010接收的任何数据(例如,输入图形数据)可以在这些数据被一个或多个处理器(例如,应用处理器2006)操作之前临时排队到存储器2008中。类似地,软件程序确定应该通过计算系统接口中的一个从计算设备2000发送到外部实体或者存储在内部存储元件中的数据通常在该数据被传输或存储之前临时排队到存储器2008中。
I/O源可以包括诸如触摸屏、触摸板、触摸垫、虚拟或常规键盘、虚拟或常规鼠标、端口、连接器、网络设备等的设备。另外地,I/O源2010可以包括一个或多个I/O设备,其被实现用于向计算设备2000(例如,网络适配器)和/或从计算设备2000传输数据;或者,被实现用于计算设备2000内的大规模非易失性存储装置(例如,硬盘驱动器)。用户输入设备(包括字母数字和其他键)可以用于将信息和命令选择传送到图形处理器2004。另一种类型的用户输入设备是光标控件,例如,鼠标、轨迹球、触摸屏、触摸板或光标方向键,其用于将方向信息和命令选择传送到GPU并且用于控制显示设备上的光标移动。计算设备2000的相机和麦克风阵列可以用于观察手势、记录音频和视频以及接收和发送视觉和音频命令。
被配置作为网络接口的I/O源2010可以提供对网络(例如,LAN、广域网(WAN)、城域网(MAN)、个域网(PAN)、蓝牙、云网络、蜂窝或移动网络(例如,第三代(3G)、第四代(4G)等)、内联网、互联网等)的访问。(多个)网络接口可以包括例如具有一个或多个天线的无线网络接口。(多个)网络接口还可以包括例如有线网络接口,以经由网络电缆与远程设备通信,网络电缆可以是例如以太网电缆、同轴电缆、光纤电缆、串行电缆或者并行电缆。
(多个)网络接口可以(例如,通过符合IEEE 802.11标准)提供对LAN的访问,和/或无线网络接口可以(例如,通过符合蓝牙标准)提供对个域网的访问。还可以支持其他无线网络接口和/或协议,包括标准的先前版本和后续版本。除了经由无线LAN标准的通信之外或代替经由无线LAN标准的通信,(多个)网络接口可以使用例如时分多址(TDMA)协议、全球移动通信系统(GSM)协议、码分多址(CDMA)协议和/或任何其他类型的无线通信协议来提供无线通信。
应当认识到的是,对于某些实现方式,比上面所描述的示例更少或更多配备的系统可以是优选的。因此,取决于诸如价格约束、性能要求、技术改进或其他情况的许多因素,计算设备2000的配置可以根据实现方式而变化。示例包括(但不限于)移动设备、个人数字助理、移动计算设备、智能电话、蜂窝电话、手机、单向寻呼机、双向寻呼机、消息传递设备、计算机、个人计算机(PC)、台式计算机、膝上型计算机、笔记本计算机、手持计算机、平板计算机、服务器、服务器阵列或服务器群、web服务器、网络服务器、互联网服务器、工作站、微型计算机、主机计算机、超级计算机、网络设备、web设备、分布式计算系统、多处理器系统、基于处理器的系统、消费电子产品、可编程消费电子产品、电视、数字电视、机顶盒、无线接入点、基站、订户站、移动订户中心、无线电网络控制器、路由器、中心、网关、桥、交换机、机器或其组合。
以下条款和/或示例涉及具体实施例或其示例。可以在一个或多个实施例中的任何地方使用示例中的细节。不同实施例或示例的各种特征可以与包括的一些特征以及排除的其他特征不同地组合以适合各种不同的应用。示例可以包括根据本文所描述的实施例和示例的诸如以下各项的主题:方法,用于执行该方法的动作的模块,至少一种机器可读介质,其包括当由机器执行时使得机器执行该方法或装置或系统的动作的指令。各种组件可以是用于执行所描述的操作或功能的模块。
示例1是一种计算机实现的方法,包括:保留通信地耦合到处理器的物理存储器的块;分配物理存储器的块的第一部分以与在处理器上执行的一个或多个进程一起使用,该第一部分被配置作为具有第一页面大小的单个存储器页面;以及响应于确定在处理器上执行的一个或多个进程所要求的物理存储器量超过第一阈值:向物理存储器的块的第一部分分配附加的存储器;并且将单个存储器页面从第一页面大小增加到第二页面大小。
示例2可以包括示例1的主题,还包括:针对物理存储器的块的第一部分实现单个寻址方案。
示例3可以包括示例1-2中任一项的主题,其中,第一页面大小是4KB,并且第二页面大小是8KB。
示例4可以包括示例1-3中任一项的主题,还包括:响应于确定在处理器上执行的一个或多个进程所要求的物理存储器量超过第二阈值:向物理存储器的块的第一部分分配附加的存储器;并且将单个存储器页面从第二页面大小增加到第三页面大小。
示例5是一种非暂时性机器可读介质,其存储指令,该指令当由一个或多个处理器执行时,使得一个或多个处理器执行包括以下各项的操作:保留通信地耦合到处理器的物理存储器的块;分配物理存储器的块的第一部分以与在处理器上执行的一个或多个进程一起使用,该第一部分被配置作为具有第一页面大小的单个存储器页面;以及响应于确定在处理器上执行的一个或多个进程所要求的物理存储器量超过第一阈值:向物理存储器的块的第一部分分配附加的存储器;并且将单个存储器页面从第一页面大小增加到第二页面大小。
示例6可以包括示例5的主题,该操作另外地包括:针对物理存储器的块的第一部分实现单个寻址方案。
示例7可以包括示例5-6中任一项的主题,其中,第一页面大小是4KB,并且第二页面大小是8KB。
示例8可以包括示例5-7中任一项的主题,该操作另外地包括:响应于确定在处理器上执行的一个或多个进程所要求的物理存储器量超过第二阈值:向物理存储器的块的第一部分分配附加的存储器;并且将单个存储器页面从第二页面大小增加到第三页面大小。
示例9是一种电子设备,包括:处理器,其用于:保留通信地耦合到处理器的物理存储器的块;分配物理存储器的块的第一部分以与在处理器上执行的一个或多个进程一起使用,该第一部分被配置作为具有第一页面大小的单个存储器页面;以及响应于确定在处理器上执行的一个或多个进程所要求的物理存储器量超过第一阈值:向物理存储器的块的第一部分分配附加的存储器;并且将单个存储器页面从第一页面大小增加到第二页面大小;以及通信地耦合到处理器的存储器。
示例10可以包括示例9的主题,该处理器用于针对物理存储器的块的第一部分实现单个寻址方案。
示例11可以包括示例9-10中任一项的主题,其中,第一页面大小是4KB,并且第二页面大小是8KB。
示例12可以包括示例9-11中任一项的主题,该处理器用于:响应于确定在处理器上执行的一个或多个进程所要求的物理存储器量超过第二阈值:向物理存储器的块的第一部分分配附加的存储器;并且将单个存储器页面从第二页面大小增加到第三页面大小。
示例13是一种计算机实现的方法,包括:利用以下各项来配置查找表:供在处理器上执行的进程使用的虚拟存储器地址到通信地耦合到处理器的物理存储器的块中的物理存储器地址的映射、标签、可扩展大小指示符字段和实际大小指示符字段;将查找表存储在计算机可读存储器中;从在处理器上执行的进程中接收对通信地耦合到该处理器的物理存储器的访问请求,该访问请求包括虚拟页号以及虚拟页号字段、偏移字段和中间字段之间的偏移分割;以及至少部分地基于中间字段的一部分中的数据,将访问请求中的虚拟页号转换为物理存储器中的物理地址。
示例14可以包括示例13的主题,其中,可扩展大小指示符字段表示在物理存储器中针对页面保留的物理存储器量;并且实际大小指示符表示在物理存储器中页面占用的物理存储器量。
示例15可以包括示例13-14中任一项的主题,还包括:对物理存储器中的物理地址执行读取操作或写入操作中的至少一项。
示例16是一种非暂时性机器可读介质,其存储指令,该指令当由一个或多个处理器执行时,使得一个或多个处理器执行包括以下各项的操作:利用以下各项来配置查找表:供在处理器上执行的进程使用的虚拟存储器地址到通信地耦合到处理器的物理存储器的块中的物理存储器地址的映射、标签、可扩展大小指示符字段和实际大小指示符字段;将查找表存储在计算机可读存储器中;从在处理器上执行的进程中接收对通信地耦合到该处理器的物理存储器的访问请求,该访问请求包括虚拟页号以及虚拟页号字段、偏移字段和中间字段之间的偏移分割;以及至少部分地基于中间字段的一部分中的数据,将访问请求中的虚拟页号转换为物理存储器中的物理地址。
示例17可以包括示例16的主题,其中,可扩展大小指示符字段表示在物理存储器中针对页面保留的物理存储器量;并且实际大小指示符表示在物理存储器中页面占用的物理存储器量。
示例18可以包括示例16-17中任一项的主题,该操作另外地包括:对物理存储器中的物理地址执行读取操作或写入操作中的至少一项。
示例19是一种电子设备,包括:处理器,其用于:利用以下各项来配置查找表:供在处理器上执行的进程使用的虚拟存储器地址到通信地耦合到处理器的物理存储器的块中的物理存储器地址的映射、标签、可扩展大小指示符字段和实际大小指示符字段;将查找表存储在计算机可读存储器中;从在处理器上执行的进程中接收对通信地耦合到该处理器的物理存储器的访问请求,该访问请求包括虚拟页号以及虚拟页号字段、偏移字段和中间字段之间的偏移分割;以及至少部分地基于中间字段的一部分中的数据,将访问请求中的虚拟页号转换为物理存储器中的物理地址;以及通信地耦合到处理器的存储器。
示例20可以包括示例19的主题,其中,可扩展大小指示符字段表示在物理存储器中针对页面保留的物理存储器量;并且实际大小指示符表示在物理存储器中页面占用的物理存储器量。
示例21可以包括示例19-20中任一项的主题,该处理器用于:对物理存储器中的物理地址执行读取操作或写入操作中的至少一项。
例如,可以提供实施例作为计算机程序产品,其可以包括一种或多种机器可读介质,其上存储有机器可执行指令,该机器可执行指令当由诸如计算机、计算机网络或者其他电子设备之类的一个或多个机器执行时,可以导致一个或多个机器执行根据本文所描述的实施例的操作。机器可读介质可以包括但不限于软盘、光盘、CD-ROM(光盘只读存储器)和磁光盘、ROM、RAM、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪速存储器或适用于存储机器可执行指令的其他类型的介质/机器可读介质。
此外,可以将实施例下载为计算机程序产品,其中该程序可以通过以载波或其他传播介质体现和/或调制的一个或多个数据信号的方式经由通信链路(例如,调制解调器和/或网络连接)从远程计算机(例如,服务器)传送到请求计算机(例如,客户端)。
根据前述说明书,本领域技术人员将认识到的是,实施例的宽泛技术可以以各种形式实现。因此,虽然已经结合实施例的特定示例描述了实施例,但是实施例的真实范围不限于此,因为在研究了附图、说明书和所附权利要求书之后,其他修改对于本领域技术人员将变得显而易见。

Claims (21)

1.一种计算机实现的方法,包括:
保留通信地耦合到处理器的物理存储器的块;
分配所述物理存储器的块的第一部分以与在所述处理器上执行的一个或多个进程一起使用,所述第一部分被配置作为具有第一页面大小的单个存储器页面;以及
响应于确定在所述处理器上执行的所述一个或多个进程所要求的物理存储器量超过第一阈值:
向所述物理存储器的块的所述第一部分分配附加的存储器;并且
将所述单个存储器页面从第一页面大小增加到第二页面大小。
2.根据权利要求1所述的方法,还包括:
针对所述物理存储器的块的所述第一部分实现单个寻址方案。
3.根据权利要求1所述的方法,其中:
所述第一页面大小为4KB;并且
所述第二页面大小为8KB。
4.根据权利要求1所述的方法,还包括:
响应于确定在所述处理器上执行的所述一个或多个进程所要求的物理存储器量超过第二阈值:
向所述物理存储器的块的所述第一部分分配附加的存储器;并且
将所述单个存储器页面从第二页面大小增加到第三页面大小。
5.一种非暂时性机器可读介质,其存储指令,所述指令当由一个或多个处理器执行时,使得所述一个或多个处理器执行包括以下各项的操作:
保留通信地耦合到处理器的物理存储器的块;
分配所述物理存储器的块的第一部分以与在所述处理器上执行的一个或多个进程一起使用,所述第一部分被配置作为具有第一页面大小的单个存储器页面;以及
响应于确定在所述处理器上执行的所述一个或多个进程所要求的物理存储器量超过第一阈值:
向所述物理存储器的块的所述第一部分分配附加的存储器;并且
将所述单个存储器页面从第一页面大小增加到第二页面大小。
6.根据权利要求5所述的非暂时性机器可读介质,所述操作另外地包括:
针对所述物理存储器的块的所述第一部分实现单个寻址方案。
7.根据权利要求5所述的非暂时性机器可读介质,其中:
所述第一页面大小为4KB;并且
所述第二页面大小为8KB。
8.根据权利要求5所述的非暂时性机器可读介质,所述操作另外地包括:
响应于确定在所述处理器上执行的所述一个或多个进程所要求的物理存储器量超过第二阈值:
向所述物理存储器的块的所述第一部分分配附加的存储器;并且
将所述单个存储器页面从第二页面大小增加到第三页面大小。
9.一种电子设备,包括:
处理器,其用于:
保留通信地耦合到处理器的物理存储器的块;
分配所述物理存储器的块的第一部分以与在所述处理器上执行的一个或多个进程一起使用,所述第一部分被配置作为具有第一页面大小的单个存储器页面;以及
响应于确定在所述处理器上执行的所述一个或多个进程所要求的物理存储器量超过第一阈值:
向所述物理存储器的块的所述第一部分分配附加的存储器;并且
将所述单个存储器页面从第一页面大小增加到第二页面大小;以及
通信地耦合到所述处理器的存储器。
10.根据权利要求9所述的电子设备,所述处理器用于:
针对所述物理存储器的块的所述第一部分实现单个寻址方案。
11.根据权利要求9所述的电子设备,其中:
所述第一页面大小为4KB;并且
所述第二页面大小为8KB。
12.根据权利要求9所述的装置,所述处理器用于:
响应于确定在所述处理器上执行的所述一个或多个进程所要求的物理存储器量超过第二阈值:
向所述物理存储器的块的所述第一部分分配附加的存储器;并且
将所述单个存储器页面从第二页面大小增加到第三页面大小。
13.一种计算机实现的方法,包括:
利用以下各项来配置查找表:供在处理器上执行的进程使用的虚拟存储器地址到通信地耦合到所述处理器的物理存储器的块中的物理存储器地址的映射、标签、可扩展大小指示符字段和实际大小指示符字段;
将所述查找表存储在计算机可读存储器中;
从在所述处理器上执行的所述进程中接收对通信地耦合到所述处理器的所述物理存储器的访问请求,所述访问请求包括虚拟页号以及虚拟页号字段、偏移字段和中间字段之间的偏移分割;以及
至少部分地基于所述中间字段的一部分中的数据,将所述访问请求中的所述虚拟页号转换为所述物理存储器中的物理地址。
14.根据权利要求13所述的方法,其中:
所述可扩展大小指示符字段表示在物理存储器中针对页面保留的物理存储器量;并且
所述实际大小指示符表示在物理存储器中所述页面占用的物理存储器量。
15.根据权利要求13所述的方法,还包括:
对所述物理存储器中的所述物理地址执行读取操作或写入操作中的至少一项。
16.一种非暂时性机器可读介质,其存储指令,所述指令当由一个或多个处理器执行时,使得所述一个或多个处理器执行包括以下各项的操作:
利用以下各项来配置查找表:供在处理器上执行的进程使用的虚拟存储器地址到通信地耦合到所述处理器的物理存储器的块中的物理存储器地址的映射、标签、可扩展大小指示符字段和实际大小指示符字段;
将所述查找表存储在计算机可读存储器中;
从在所述处理器上执行的所述进程中接收对通信地耦合到所述处理器的所述物理存储器的访问请求,所述访问请求包括虚拟页号以及虚拟页号字段、偏移字段和中间字段之间的偏移分割;以及
至少部分地基于所述中间字段的一部分中的数据,将所述访问请求中的所述虚拟页号转换为所述物理存储器中的物理地址。
17.根据权利要求16所述的非暂时性机器可读介质,其中:
所述可扩展大小指示符字段表示在物理存储器中针对页面保留的物理存储器量;并且
所述实际大小指示符表示在物理存储器中所述页面占用的物理存储器量。
18.根据权利要求16所述的非暂时性机器可读介质,所述操作另外地包括:
对所述物理存储器中的所述物理地址执行读取操作或写入操作中的至少一项。
19.一种电子设备,包括:
处理器,其用于:
利用以下各项来配置查找表:供在处理器上执行的进程使用的虚拟存储器地址到通信地耦合到所述处理器的物理存储器的块中的物理存储器地址的映射、标签、可扩展大小指示符字段和实际大小指示符字段;
将所述查找表存储在计算机可读存储器中;
从在所述处理器上执行的所述进程中接收对通信地耦合到所述处理器的所述物理存储器的访问请求,所述访问请求包括虚拟页号以及虚拟页号字段、偏移字段和中间字段之间的偏移分割;以及
至少部分地基于所述中间字段的一部分中的数据,将所述访问请求中的所述虚拟页号转换为所述物理存储器中的物理地址;以及通信地耦合到所述处理器的存储器。
20.根据权利要求19所述的电子设备,其中:
所述可扩展大小指示符字段表示在物理存储器中针对页面保留的物理存储器量;并且
所述实际大小指示符表示在物理存储器中所述页面占用的物理存储器量。
21.根据权利要求19所述的电子设备,所述处理器用于:
对所述物理存储器中的所述物理地址执行读取操作或写入操作中的至少一项。
CN201880094995.9A 2018-09-28 2018-09-28 用于实现自适应页面大小的转换后备缓冲器 Pending CN112384900A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/108215 WO2020061992A1 (en) 2018-09-28 2018-09-28 Translation lookaside buffer to implement adapative page size

Publications (1)

Publication Number Publication Date
CN112384900A true CN112384900A (zh) 2021-02-19

Family

ID=69950903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880094995.9A Pending CN112384900A (zh) 2018-09-28 2018-09-28 用于实现自适应页面大小的转换后备缓冲器

Country Status (4)

Country Link
US (2) US11615034B2 (zh)
EP (1) EP3857387A4 (zh)
CN (1) CN112384900A (zh)
WO (1) WO2020061992A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11615034B2 (en) 2018-09-28 2023-03-28 Intel Corporation Translation lookaside buffer to implement adapative page size

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7408671B2 (ja) 2019-03-15 2024-01-05 インテル コーポレイション シストリックアレイに対するブロックスパース演算のためのアーキテクチャ
WO2020190796A1 (en) * 2019-03-15 2020-09-24 Intel Corporation Systems and methods for cache optimization
US20220179787A1 (en) 2019-03-15 2022-06-09 Intel Corporation Systems and methods for improving cache efficiency and utilization
US11934342B2 (en) 2019-03-15 2024-03-19 Intel Corporation Assistance for hardware prefetch in cache access
US11861761B2 (en) 2019-11-15 2024-01-02 Intel Corporation Graphics processing unit processing and caching improvements

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5946716A (en) 1996-05-30 1999-08-31 Hewlett-Packard Company Sectored virtual memory management system and translation look-aside buffer (TLB) for the same
US6715057B1 (en) * 2000-08-31 2004-03-30 Hewlett-Packard Development Company, L.P. Efficient translation lookaside buffer miss processing in computer systems with a large range of page sizes
US7418568B2 (en) * 2005-01-05 2008-08-26 Sap Ag Memory management technique
US9225518B2 (en) 2006-12-08 2015-12-29 Alcatel Lucent Method of providing fresh keys for message authentication
US8417912B2 (en) * 2010-09-03 2013-04-09 International Business Machines Corporation Management of low-paging space conditions in an operating system
US10102116B2 (en) * 2015-09-11 2018-10-16 Red Hat Israel, Ltd. Multi-level page data structure
US9898226B2 (en) * 2015-10-28 2018-02-20 International Business Machines Corporation Reducing page invalidation broadcasts in virtual storage management
EP3306479A1 (en) * 2016-10-06 2018-04-11 Stichting IMEC Nederland Memory structure comprising scratchpad memory
US11615034B2 (en) 2018-09-28 2023-03-28 Intel Corporation Translation lookaside buffer to implement adapative page size

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11615034B2 (en) 2018-09-28 2023-03-28 Intel Corporation Translation lookaside buffer to implement adapative page size

Also Published As

Publication number Publication date
WO2020061992A1 (en) 2020-04-02
EP3857387A4 (en) 2022-05-18
US11615034B2 (en) 2023-03-28
EP3857387A1 (en) 2021-08-04
US20230281134A1 (en) 2023-09-07
US20210248085A1 (en) 2021-08-12

Similar Documents

Publication Publication Date Title
US20230281134A1 (en) Translation lookaside buffer to implement adapative page size
US11373269B2 (en) Cache replacement mechanism
US11301384B2 (en) Partial write management in a multi-tiled compute engine
CN112130752A (zh) 共享本地存储器读取合并和多播返回
CN112950449A (zh) 经由掩膜累积提高分层深度缓冲器剔除效率
CN111798362A (zh) 硬件索引映射机制
US11579878B2 (en) Register sharing mechanism to equally allocate disabled thread registers to active threads
CN113094298A (zh) 对共享本地存储器进行分区的机制
CN110956685A (zh) 粗略计算着色
US20190163641A1 (en) Page translation prefetch mechanism
CN111708718A (zh) 存储器压缩散列机制
US10372621B2 (en) Mechanism to support variable size page translations
US11416402B2 (en) Control surface access using flat memory mapping
US10839478B2 (en) Accumulator pooling mechanism
KR20210059603A (ko) 병렬 압축해제 메커니즘
CN111667396A (zh) 用于支持每命令多个遍历器的系统和方法
CN111724294A (zh) 分布式拷贝引擎
EP3907621B1 (en) Cache memory with limits specified according to a class of service
US10691603B2 (en) Cache partitioning mechanism
US10839477B2 (en) Tile aware sector cache for graphics
US10831483B1 (en) Memory mapped virtual doorbell mechanism
US10733693B2 (en) High vertex count geometry work distribution for multi-tile GPUs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination