CN111724294A - 分布式拷贝引擎 - Google Patents

分布式拷贝引擎 Download PDF

Info

Publication number
CN111724294A
CN111724294A CN202010101629.0A CN202010101629A CN111724294A CN 111724294 A CN111724294 A CN 111724294A CN 202010101629 A CN202010101629 A CN 202010101629A CN 111724294 A CN111724294 A CN 111724294A
Authority
CN
China
Prior art keywords
sub
surface data
memory
block
graphics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010101629.0A
Other languages
English (en)
Inventor
P.瑟蒂
N.米斯特里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN111724294A publication Critical patent/CN111724294A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0647Migration mechanisms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/084Multiuser, multiprocessor or multiprocessing cache systems with a shared cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/06Addressing a physical block of locations, e.g. base addressing, module addressing, memory dedication
    • G06F12/0646Configuration or reconfiguration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0811Multiuser, multiprocessor or multiprocessing cache systems with multilevel cache hierarchies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0875Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches with dedicated cache, e.g. instruction or stack
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0893Caches characterised by their organisation or structure
    • G06F12/0897Caches characterised by their organisation or structure with two or more cache hierarchy levels
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0659Command handling arrangements, e.g. command buffers, queues, command scheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0673Single storage device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/60Memory management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1016Performance improvement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1016Performance improvement
    • G06F2212/1024Latency reduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/45Caching of specific data in cache memory
    • G06F2212/452Instruction code
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Image Generation (AREA)
  • Image Processing (AREA)

Abstract

公开了一种便于拷贝表面数据的装置。所述装置包括:拷贝引擎硬件,所述拷贝引擎硬件用于接收要将表面数据从存储器中的源位置存取到所述存储器中的目的地位置的命令,将所述表面数据划分成多个表面数据子块,处理所述表面数据子块以计算要执行对所述存储器的存取的虚拟地址并且执行所述存储器存取。

Description

分布式拷贝引擎
技术领域
本发明一般地涉及图形处理单元,并且特别地与拷贝表面数据有关。
背景技术
图形处理单元(GPU)是在其中并行地执行程序的数百个线程以实现高吞吐量的高度线程化机器。GPU通常包括可以用于拷贝并转移存储器内的表面数据的拷贝引擎。然而,当前的拷贝引擎不可扩展以与渐增的带宽需求匹配。此外,GPU正在越来越多地使用压缩表面来改进带宽效率并节约电力。常规的拷贝引擎也未能支持这样的压缩表面。
附图说明
为了可详细地理解本发明的上面叙述的特征的方式,可以通过参考实施例来具有在上面简要地概括的本发明的更特定描述,这些实施例中的一些被图示在附图中。然而,应当注意的是,附图仅图示本发明的典型实施例,并且因此不应被认为限制其范围,因为本发明可以容许其他同样有效的实施例。
图1是根据实施例的处理系统的框图;
图2是根据实施例的处理器的框图;
图3是根据实施例的图形处理器的框图;
图4是依照一些实施例的图形处理器的图形处理引擎的框图;
图5是由附加实施例提供的图形处理器的框图;
图6A和图6B图示包括在一些实施例中采用的处理元件的阵列的线程执行逻辑;
图7是图示根据一些实施例的图形处理器指令格式的框图;
图8是根据另一实施例的图形处理器的框图;
图9A和图9B图示根据一些实施例的图形处理器命令格式和命令序列;
图10图示根据一些实施例的用于数据处理系统的示例性图形软件架构;
图11A和图11B是图示根据实施例的IP核心开发系统的框图;
图12是图示根据实施例的示例性片上系统集成电路的框图;
图13A和图13B是图示附加示例性图形处理器的框图;
图14A和图14B是图示根据实施例的片上系统集成电路的附加示例性图形处理器的框图;
图15图示计算设备的一个实施例;
图16图示拷贝引擎的一个实施例;
图17图示子拷贝引擎的一个实施例;
图18图示依赖性处置逻辑的一个实施例;以及
图19图示用于快速清除的表面分割的一个实施例。
具体实施方式
在以下描述中,阐述了许多具体细节以提供对本发明的更透彻理解。然而,对于本领域的技术人员而言将显而易见的是,可以在没有这些具体细节中的一个或多个的情况下实践本发明。在其他情况下,尚未描述众所周知的特征以便避免使本发明混淆。
在实施例中,拷贝引擎将表面数据从存储器中的源位置拷贝到目的地位置。在这样的实施例中,拷贝引擎通过将数据划分成像素/纹理的块来生成子块(或子位块传输)并且将这些子位块传输传送到多个遍历器,所述多个遍历器计算要对其启动存储器读取/写入的虚拟地址,以及启动读取/写入。
系统概要
图1是根据实施例的处理系统100的框图。在各种实施例中,系统100包括一个或多个处理器102和一个或多个图形处理器108,并且可以是单处理器桌面系统、多处理器工作站系统或具有大量处理器102或处理器核心107的服务器系统。在一个实施例中,系统100是并入在用于在移动、手持或嵌入式设备中使用的片上系统(SoC)集成电路内的处理平台。
在一个实施例中,系统100可包括以下各项或者被并入在以下各项内:基于服务器的游戏平台、游戏控制台(包括游戏和媒体控制台)、移动游戏控制台、手持游戏控制台或联机游戏控制台。在一些实施例中,系统100是移动电话、智能电话、平板计算设备或移动因特网设备。处理系统100还可包括可穿戴设备,与可穿戴设备耦合,或者被集成在可穿戴设备内,所述可穿戴设备诸如智能手表可穿戴设备、智能护目镜设备、增强现实设备或虚拟现实设备。在一些实施例中,处理系统100是具有一个或多个处理器102以及由一个或多个图形处理器108生成的图形界面的电视机或机顶盒设备。
在一些实施例中,一个或多个处理器102各自包括一个或多个处理器核心107以处理指令,所述指令当被执行时,执行针对系统和用户软件的操作。在一些实施例中,一个或多个处理器核心107中的每一个均被配置成处理具体指令集109。在一些实施例中,指令集109可以便于复杂指令集计算(CISC)、精简指令集计算(RISC)或经由甚长指令字(VLIW)计算。多个处理器核心107可以各自处理不同的指令集109,所述指令集109可以包括便于其他指令集的仿真的指令。处理器核心107还可以包括其他处理设备,诸如数字信号处理器(DSP)。
在一些实施例中,处理器102包括高速缓存存储器104。取决于架构,处理器102可具有单个内部高速缓存或多级内部高速缓存。在一些实施例中,在处理器102的各种组件之间共享高速缓存存储器。在一些实施例中,处理器102还使用可以使用已知的高速缓存一致性技术来在处理器核心107之间共享的外部高速缓存(例如,第3级(L3)高速缓存或最后一级高速缓存(LLC))(未示出)。寄存器堆106被附加地包括在处理器102中,所述寄存器堆106可以包括用于存储不同类型的数据的不同类型的寄存器(例如,整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器)。一些寄存器可以是通用寄存器,然而其他寄存器可以特定于处理器102的设计。
在一些实施例中,一个或多个处理器102与一个或多个接口总线110耦合以在处理器102与系统100中的其他组件之间传送通信信号,诸如地址信号、数据信号或控制信号。在一个实施例中,接口总线110可以是处理器总线,诸如直接媒体接口(DMI)总线的版本。然而,处理器总线不限于DMI总线,并且可以包括一个或多个外围组件互连总线(例如,PCI、PCI Express)、存储器总线或其他类型的接口总线。在一个实施例中(一个或多个)处理器102包括集成存储器控制器116和平台控制器集线器130。存储器控制器116便于系统100的存储器设备和其他组件之间的通信,然而平台控制器集线器(PCH) 130经由本地I/O总线提供到I/O设备的连接。
存储器设备120可以是动态随机存取存储器(DRAM)设备、静态随机存取存储器(SRAM)设备、闪速存储器设备、相变存储器设备,或具有适合的性能以用作进程存储器的某个其他存储器设备。在一个实施例中存储器设备120可作为用于系统100的系统存储器来操作,以存储用于在一个或多个处理器102执行应用或进程时使用的数据122和指令121。存储器控制器116还与可选的外部图形处理器112耦合,所述外部图形处理器112可以与处理器102中的一个或多个图形处理器108进行通信以执行图形和媒体操作。在一些实施例中显示设备111可连接到(一个或多个)处理器102。显示设备111可以是内部显示设备中的一个或多个,如在移动电子设备或膝上型设备或经由显示接口(例如,DisplayPort等)附连的外部显示设备中一样。在一个实施例中显示设备111可以是头戴式显示器(HMD),诸如用于在虚拟现实(VR)应用或增强现实(AR)应用中使用的立体显示设备。
在一些实施例中平台控制器集线器130使得外围设备能够经由高速I/O总线连接到存储器设备120和处理器102。I/O外围设备包括但不限于音频控制器146、网络控制器134、固件接口128、无线收发器126、触摸传感器125、数据存储设备124 (例如,硬盘驱动器、闪速存储器等)。数据存储设备124可经由存储接口(例如,SATA)或者经由外围总线(诸如外围组件互连总线(例如,PCI、PCI Express)连接。触摸传感器125可包括触摸屏传感器、压力传感器或指纹传感器。无线收发器126可以是Wi-Fi收发器、蓝牙收发器或诸如3G、4G或长期演进(LTE)收发器之类的移动网络收发器。固件接口128使得能够与系统固件进行通信,并且可以是例如统一可扩展固件接口(UEFI)。网络控制器134可使得能实现到有线网络的网络连接。在一些实施例中,高性能网络控制器(未示出)与接口总线110耦合。在一个实施例中,音频控制器146是多通道高清晰度音频控制器。在一个实施例中系统100包括用于将传统(例如,个人系统2 (PS/2))设备耦合到系统的可选的传统I/O控制器140。平台控制器集线器130还可连接到一个或多个通用串行总线(USB)控制器142,所述一个或多个通用串行总线(USB)控制器142连接输入设备,诸如键盘和鼠标143组合、相机144或其他USB输入设备。
应领会的是,所示的系统100是示例性的而不是限制性的,因为还可以使用被不同地配置的其他类型的数据处理系统。例如,可以将存储器控制器116和平台控制器集线器130的实例集成到分立的外部图形处理器(诸如外部图形处理器112)中。在一个实施例中平台控制器集线器130和/或存储器控制器160可以在外部一个或多个处理器102外部。例如,系统100可包括外部存储器控制器116和平台控制器集线器130,所述平台控制器集线器130可以被配置为位于与(一个或多个)处理器102通信的系统芯片组内的存储器控制器集线器和外围控制器集线器。
图2是具有一个或多个处理器核心202A-202N、集成存储器控制器214和集成图形处理器208的处理器200的实施例的框图。图2的具有与本文任何其他图的元件相同的附图标记(或名称)的那些元件可以与在本文中别处描述的方式类似的任何方式操作或者起作用,但是不仅限于此。处理器200可包括直至并包括通过虚线框所表示的附加核心202N的附加核心。处理器核心202A-202N中的每一个均包括一个或多个内部高速缓存单元204A-204N。在一些实施例中每个处理器核心还能够访问一个或多个共享高速缓存单元206。
内部高速缓存单元204A-204N和共享高速缓存单元206表示处理器200内的高速缓存存储器层次结构。高速缓存存储器层次结构可以包括每个处理器核心内的至少一级指令和数据高速缓存以及一级或多级共享中级高速缓存,诸如第2级(L2)、第3级(L3)、第4级(L4)或其他级别的高速缓存,其中在外部存储器之前的最高级高速缓存被分类为LLC。在一些实施例中,高速缓存一致性逻辑维持各种高速缓存单元206与204A-204N之间的一致性。
在一些实施例中,处理器200还可以包括一组一个或多个总线控制器单元216和系统代理核心210。一个或多个总线控制器单元216管理一组外围总线,诸如一个或多个PCI或PCI Express总线。系统代理核心210为各种处理器组件提供管理功能性。在一些实施例中,系统代理核心210包括一个或多个集成存储器控制器214以管理对各种外部存储器设备(未示出)的访问。
在一些实施例中,处理器核心202A-202N中的一个或多个包括针对同时多线程处理的支持。在这样的实施例中,系统代理核心210包括用于在多线程处理期间协调并操作核心202A-202N的组件。系统代理核心210可以附加地包括电源控制单元(PCU),其包括用于调节处理器核心202A-202N和图形处理器208的电源状态的逻辑和组件。
在一些实施例中,处理器200附加地包括用于执行图形处理操作的图形处理器208。在一些实施例中,图形处理器208与所述一组共享高速缓存单元206和系统代理核心210(包括一个或多个集成存储器控制器214)耦合。在一些实施例中,系统代理核心210还包括用于驱动图形处理器到一个或多个耦合的显示器的输出的显示控制器211。在一些实施例中,显示控制器211也可以是经由至少一个互连与图形处理器耦合的单独的模块,或者可以被集成在图形处理器208内。
在一些实施例中,基于环的互连单元212用于耦合处理器200的内部组件。然而,可以使用替代互连单元,诸如点对点互连、交换互连或其他技术,包括本领域中众所周知的技术。在一些实施例中,图形处理器208经由I/O链路213与环形互连212耦合。
示例性I/O链路213表示多种I/O互连中的至少一种,包括便于在各种处理器组件与高性能嵌入式存储器模块218(诸如eDRAM模块)之间通信的封装上I/O互连。在一些实施例中,处理器核心202A-202N中的每一个和图形处理器208使用嵌入式存储器模块218作为共享最后一级高速缓存。
在一些实施例中,处理器核心202A-202N是执行相同的指令集架构的同质核心。在另一实施例中,处理器核心202A-202N在指令集架构(ISA)方面是异构的,其中处理器核心202A-202N中的一个或多个执行第一指令集,然而其他核心中的至少一个执行第一指令集的子集或不同的指令集。在一个实施例中处理器核心202A-202N在微架构方面是异构的,其中具有相对较高功耗的一个或多个核心与具有较低功耗的一个或多个功率核心耦合。附加地,处理器200可被实现在一个或多个芯片上或者作为具有所图示的组件又具有其他组件的SoC集成电路被实现。
图3是图形处理器300的框图,所述图形处理器300可以是分立的图形处理单元,或者可以是集成有多个处理核心的图形处理器。在一些实施例中,图形处理器经由存储器映射的I/O接口与图形处理器上的寄存器并与放置到处理器存储器中的命令进行通信。在一些实施例中,图形处理器300包括用于访问存储器的存储器接口314。存储器接口314可以是到本地存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存和/或到系统存储器的接口。
在一些实施例中,图形处理器300还包括用于驱动到显示设备320的显示输出数据的显示控制器302。显示控制器302包括用于多层视频或用户界面元素的显示和合成的一个或多个覆盖平面的硬件。显示设备320可以是内部或外部显示设备。在一个实施例中显示设备320是头戴式显示设备,诸如虚拟现实(VR)显示设备或增强现实(AR)显示设备。在一些实施例中,图形处理器300包括视频编解码器引擎306以将媒体编码为一种或多种媒体编码格式,根据一种或多种媒体编码格式对媒体进行解码,或者在一种或多种媒体编码格式之间对媒体进行转码,所述一种或多种媒体编码格式包括但不限于诸如MPEG-2之类的运动图像专家组(MPEG)格式、诸如H.264/MPEG-4 AVC之类的高级视频编码(AVC)格式以及运动图像与电视工程师协会(SMPTE) 421M/VC-1及诸如JPEG之类的联合摄影专家组(JPEG)格式和运动JPEG (MJPEG)格式。
在一些实施例中,图形处理器300包括用于执行二维(2D)光栅化器操作(包括例如位边界块转移)的块图像转移(BLIT)引擎304。然而,在一个实施例中,使用图形处理引擎(GPE) 310的一个或多个组件来执行2D图形操作。在一些实施例中,GPE 310是用于执行图形操作(包括三维(3D)图形操作和媒体操作)的计算引擎。
在一些实施例中,GPE 310包括用于执行3D操作的3D管线312,所述3D操作诸如使用对3D图元形状(例如,矩形、三角形等)起作用的处理功能来渲染三维图像和场景。3D管线312包括可编程和固定功能元件,其在元件内执行各种任务和/或向3D/媒体子系统315衍生执行线程。虽然3D管线312可用于执行媒体操作,但是GPE 310的实施例还包括专门地用于执行媒体操作(诸如视频后处理和图像增强)的媒体管线316。
在一些实施例中,媒体管线316包括用于代替或者代表视频编解码器引擎306执行一个或多个专门媒体操作(诸如视频解码加速、视频去隔行和视频编码加速)的固定功能或可编程逻辑单元。在一些实施例中,媒体管线316附加地包括用于衍生在3D/媒体子系统315上执行的线程的线程衍生单元。所衍生的线程在包括在3D/媒体子系统315中的一个或多个图形执行单元上针对媒体操作执行计算。
在一些实施例中,3D/媒体子系统315包括用于执行由3D管线312和媒体管线316衍生的线程的逻辑。在一个实施例中,管线向3D/媒体子系统315发送线程执行请求,所述3D/媒体子系统315包括用于仲裁各种请求并将各种请求分派给可用的线程执行资源的线程分派逻辑。执行资源包括用于处理3D和媒体线程的图形执行单元的阵列。在一些实施例中,3D/媒体子系统315包括用于线程指令和数据的一个或多个内部高速缓存。在一些实施例中,子系统还包括共享存储器,包括寄存器和可寻址存储器,以在线程之间共享数据并且以存储输出数据。
图形处理引擎
图4是依照一些实施例的图形处理器的图形处理引擎410的框图。在一个实施例中,图形处理引擎(GPE) 410是图3中所示的GPE 310的版本。图4的具有与本文任何其他图的元件相同的附图标记(或名称)的元件可以与在本文中别处描述的方式类似的任何方式操作或起作用,但是不限于此。例如,图示了图3的3D管线312和媒体管线316。媒体管线316在GPE410的一些实施例中是可选的并且可能未被显式地包括在GPE 410内。例如并在至少一个实施例中,单独的媒体和/或图像处理器被耦合到GPE 410。
在一些实施例中,GPE 410与命令流转化器403耦合或者包括命令流转化器403,所述命令流转化器403向3D管线312和/或媒体管线316提供命令流。在一些实施例中,命令流转化器403与存储器耦合,所述存储器可以是系统存储器或内部高速缓存存储器和共享高速缓存存储器中的一个或多个。在一些实施例中,命令流转化器403从存储器接收命令并且将这些命令发送到3D管线312和/或媒体管线316。命令是从环形缓冲器获取的指令,所述环形缓冲器存储用于3D管线312和媒体管线316的命令。在一个实施例中,环形缓冲器可附加地包括存储成批多个命令的成批命令缓冲器。用于3D管线312的命令还可包括对存储在存储器中的数据的引用,所述数据诸如但不限于用于3D管线312的顶点和几何数据和/或用于媒体管线316的图像数据和存储器对象。3D管线312和媒体管线316通过经由相应管线内的逻辑执行操作或者通过将一个或多个执行线程分派给图形核心阵列414来处理命令和数据。在一个实施例中图形核心阵列414包括图形核心(例如,(一个或多个)图形核心415A、(一个或多个)图形核心415B)的一个或多个块,每个块包括一个或多个图形核心。每个图形核心包括一组图形执行资源,所述图形执行资源包括用于执行图形和计算操作的通用和图形特定执行逻辑以及固定功能纹理处理和/或机器学习与人工智能加速逻辑。
在各种实施例中3D管线312包括用于通过处理指令并且将执行线程分派给图形核心阵列414来处理一个或多个着色器程序(诸如顶点着色器、几何着色器、像素着色器、片元着色器、计算着色器或其他着色器程序)的固定功能和可编程逻辑。图形核心阵列414提供执行资源的统一块以用于在处理这些着色器程序时使用。图形核心阵列414的(一个或多个)图形核心415A-414B内的多用途执行逻辑(例如,执行单元)包括针对各种3D API着色器语言的支持并且可执行与多个着色器相关联的多个同时执行线程。
在一些实施例中图形核心阵列414还包括用于执行媒体功能(诸如视频和/或图像处理)的执行逻辑。在一个实施例中,执行单元附加地包括可编程以除了执行图形处理操作之外还执行并行通用计算操作的通用逻辑。通用逻辑可与图1的(一个或多个)处理器核心107或如在图2中一样的核心202A-202N内的通用逻辑并行地或相结合地执行处理操作。
通过在图形核心阵列414上执行的线程所生成的输出数据可以将数据输出到统一返回缓冲器(URB) 418中的存储器。URB 418可存储用于多个线程的数据。在一些实施例中URB 418可以用于在图形核心阵列414上执行的不同线程之间发送数据。在一些实施例中URB 418可以附加地被用于图形核心阵列上的线程与共享功能逻辑420内的固定功能逻辑之间的同步。
在一些实施例中,图形核心阵列414是可扩展的,使得该阵列包括可变数量的图形核心,每个图形核心基于GPE 410的目标功率和性能水平具有可变数量的执行单元。在一个实施例中执行资源是动态可扩展的,使得可以按需启用或者禁用执行资源。
图形核心阵列414与共享功能逻辑420耦合,所述共享功能逻辑420包括在图形核心阵列中的图形核心之间共享的多个资源。共享功能逻辑420内的共享功能是向图形核心阵列414提供专门补充功能性的硬件逻辑单元。在各种实施例中,共享功能逻辑420包括但不限于采样器421、数学422和线程间通信(ITC) 423逻辑。附加地,一些实施例在共享功能逻辑420内实现一个或多个高速缓存425。
在对给定专门功能的需求不足以包括在图形核心阵列414内的情况下实现共享功能。替代地该专门功能的单个实例作为独立实体被实现在共享功能逻辑420中并且在图形核心阵列414内的执行资源之间共享。在图形核心阵列414之间共享并且在图形核心阵列414内包括的功能的精确集合跨实施例变化。在一些实施例中,共享功能逻辑420内的被图形核心阵列414广泛地使用的具体共享功能可以被包括在图形核心阵列414内的共享功能逻辑416内。在各种实施例中,图形核心阵列414内的共享功能逻辑416可包括共享功能逻辑420内的一些或全部逻辑。在一个实施例中,可以在图形核心阵列414的共享功能逻辑416内复制共享功能逻辑420内的所有逻辑元素。在一个实施例中共享功能逻辑420被排除以有利于图形核心阵列414内的共享功能逻辑416。
图5是根据本文描述的一些实施例的图形处理器核心500的硬件逻辑的框图。图5的具有与本文任何其他图的元件相同的附图标记(或名称)的元件可以与在本文中别处描述的方式类似的任何方式操作或者起作用,但是不限于此。在一些实施例中,所图示的图形处理器核心500被包括在图4的图形核心阵列414内。图形处理器核心500 (有时称为核心分片)可以是模块化图形处理器内的一个或多个图形核心。图形处理器核心500例示一个图形核心分片,并且如本文所描述的图形处理器可以基于目标功率和性能包络包括多个图形核心分片。每个图形核心500可包括与多个子核心501A-501F(也称为子分片)耦合的固定功能块530,所述多个子核心501A-501F包括通用和固定功能逻辑的模块化块。
在一些实施例中固定功能块530包括可被图形处理器500中的所有子核心共享的几何/固定功能管线536,例如,在较低性能和/或较低功率图形处理器实施方式中。在各种实施例中,几何/固定功能管线536包括3D固定功能管线(例如,如在图3和图4中一样的3D管线312)、视频前端单元、线程衍生器和线程分派器及统一返回缓冲器管理器,所述统一返回缓冲器管理器管理统一返回缓冲器,诸如图4的统一返回缓冲器418。
在一个实施例中固定功能块530还包括图形SoC接口537、图形微控制器538和媒体管线539。图形SoC接口537提供图形核心500与片上系统集成电路内的其他处理器核心之间的接口。图形微控制器538是可编程子处理器,其可配置成管理图形处理器500的各种功能,包括线程分派、调度和抢占。媒体管线539 (例如,图3和图4的媒体管线316)包括用于便于对多媒体数据(包括图像和视频数据)进行解码、编码、预处理和/或后处理的逻辑。媒体管线539经由对子核心501-501F内的计算或采样逻辑的请求来实现媒体操作。
在一个实施例中SoC接口537使得图形核心500能够与通用应用处理器核心(例如,CPU)和/或SoC内的其他组件进行通信,所述其他组件包括诸如共享最后一级高速缓存存储器、系统RAM和/或嵌入式片上或封装上DRAM之类的存储器层次结构元件。SoC接口537还可使得能够与SoC内的固定功能器件(诸如相机成像管线)进行通信,并且使得能够使用和/或实现可以在图形核心500与SoC内的CPU之间共享的全局存储器原子。SoC接口537还可实现用于图形核心500的电源管理控制并且使得能实现图形核心500的时钟域与SoC内的其他时钟域之间的接口。在一个实施例中SoC接口537使得能够从命令流转化器和全局线程分派器接收命令缓冲器,所述命令流转化器和全局线程分派器被配置成向图形处理器内的一个或多个图形核心中的每一个提供命令和指令。当要执行媒体操作时,可以将命令和指令分派给媒体管线539,或者当要执行图形处理操作时,可以将命令和指令分派给几何和固定功能管线(例如,几何和固定功能管线536、几何和固定功能管线514)。
图形微控制器538可被配置成对于图形核心500执行各种调度和管理任务。在一个实施例中图形微控制器538可在子核心501A-501F内的执行单元(EU)阵列502A-502F、504A-504F内的各种图形并行引擎上执行图形和/或计算工作负荷调度。在此调度模型中,在包括图形核心500的SoC的CPU核心上执行的主机软件可将工作负荷提交给多个图形处理器门铃中的一个,其在适当的图形引擎上调用调度操作。调度操作包括确定要接下来运行哪一个工作负荷、将工作负荷提交给命令流转化器、抢占在引擎上运行的现有工作负荷、监视工作负荷的进度并且在工作负荷完成时通知主机软件。在一个实施例中图形微控制器538还可便于图形核心500的低功率或空闲状态,从而给图形核心500提供独立于系统上的操作系统和/或图形驱动程序软件而跨低功率状态转变保存并恢复图形核心500内的寄存器的能力。
图形核心500可以具有多于或少于所图示的子核心501A-501F,最多N个模块化子核心。对于N个子核心的每个集合,图形核心500还可包括共享功能逻辑510、共享和/或高速缓存存储器512、几何/固定功能管线514以及用于使各种图形和计算处理操作加速的附加固定功能逻辑516。共享功能逻辑510可包括可被图形核心500内的每N个子核心共享的与图4的共享功能逻辑420相关联的逻辑单元(例如,采样器、数学和/或线程间通信逻辑)。共享和/或高速缓存存储器512可以是用于图形核心500内的N个子核心501A-501F的集合的最后一级高速缓存,并且还可用作可由多个子核心访问的共享存储器。可在固定功能块530内包括几何/固定功能管线514而不是几何/固定功能管线536,并且几何/固定功能管线514可包括相同或类似的逻辑单元。
在一个实施例中图形核心500包括附加固定功能逻辑516,所述附加固定功能逻辑516可包括用于由图形核心500使用的各种固定功能加速逻辑。在一个实施例中附加固定功能逻辑516包括用于在仅位置着色中使用的附加几何管线。在仅位置着色中,存在两个几何管线:位于几何/固定功能管线516、536内的完整几何管线以及剔除管线,所述剔除管线是可以被包括在附加固定功能逻辑516内的附加几何管线。在一个实施例中剔除管线是完整几何管线的裁减版本。完整管线和剔除管线可执行同一应用的不同实例,每个实例具有单独的上下文。仅位置着色可隐藏丢弃三角形的长剔除运行,从而使得能够在一些实例中较早地完成着色。例如并在一个实施例中附加固定功能逻辑516内的剔除管线逻辑可与主应用并行地执行位置着色器并且通常比完整管线更快地生成关键结果,因为剔除管线仅获取顶点的位置属性并对其进行着色,而不用执行像素到帧缓冲器的光栅化和渲染。剔除管线可使用所生成的关键结果来计算所有三角形的可见性信息,而不顾那些三角形是否被剔除。完整管线(其在此实例中可以被称为重播管线)可消费可见性信息以跳过所剔除的三角形以仅对被最终传递给光栅化阶段的可见三角形进行着色。
在一个实施例中,对于包括针对机器学习训练或推理的优化的实施方式,附加固定功能逻辑516还可包括机器学习加速逻辑,诸如固定功能矩阵乘法逻辑。
在每个图形子核心501A-501F内包括一组执行资源,其可以用于响应于通过图形管线、媒体管线或着色器程序的请求而执行图形、媒体和计算操作。图形子核心501A-501F包括多个EU阵列502A-502F、504A-504F、线程分派和线程间通信(TD/IC)逻辑503A-503F、3D(例如,纹理)采样器505A-505F、媒体采样器506A-506F、着色器处理器507A-507F及共享本地存储器(SLM) 508A-508F。EU阵列502A-502F、504A-504F各自包括多个执行单元,其是能够在图形、媒体或计算操作的服务中执行浮点和整数/定点逻辑操作的通用图形处理单元,包括图形、媒体或计算着色器程序。TD/IC逻辑503A-503F对于子核心内的执行单元执行本地线程分派和线程控制操作并且便于在子核心的执行单元上执行的线程之间进行通信。3D采样器505A-505F可将纹理或其他3D图形相关数据读取到存储器中。3D采样器可基于配置的采样状态和与给定纹理相关联的纹理格式不同地读取纹理数据。媒体采样器506A-506F可基于与媒体数据相关联的类型和格式来执行类似的读取操作。在一个实施例中,每个图形子核心501A-501F可替换地包括统一3D和媒体采样器。在子核心501A-501F中的每一个内的执行单元上执行的线程可利用每个子核心内的共享本地存储器508A-508F,以使得在线程组内执行的线程能够使用片上存储器的公共池来执行。
执行单元
图6A和图6B图示根据本文描述的实施例的包括在图形处理器核心中采用的处理元件的阵列的线程执行逻辑600。图6A和图6B的具有与本文任何其他图的元件相同的附图标记(或名称)的元件可以与在本文中别处描述的方式类似的任何方式操作或者起作用,但是不限于此。图6A图示线程执行逻辑600的概要,所述线程执行逻辑600可包括被图示有图5的每个子核心501A-501F的硬件逻辑的变体。图6B图示执行单元的示例性内部细节。
如图6A中所图示的,在一些实施例中线程执行逻辑600包括着色器处理器602、线程分派器604、指令高速缓存606、包括多个执行单元608A-608N的可扩展执行单元阵列、采样器610、数据高速缓存612和数据端口614。在一个实施例中可扩展执行单元阵列可通过基于工作负荷的计算要求来启用或者禁用一个或多个执行单元(例如,执行单元608A、608B、608C、608D至608N-1和608N中的任一个)动态地扩展。在一个实施例中所包括的组件经由互连结构互连,所述互连结构链接到这些组件中的每一个。在一些实施例中,线程执行逻辑600包括通过指令高速缓存606、数据端口614、采样器610和执行单元608A-608N中的一个或多个到存储器(诸如系统存储器或高速缓存存储器)的一个或多个连接。在一些实施例中,每个执行单元(例如608A)是能够执行多个同时硬件线程同时针对每个线程并行地处理多个数据元素的独立可编程的通用计算单元。在各种实施例中,执行单元608A-608N的阵列可扩展以包括任何数量的单独的执行单元。
在一些实施例中,执行单元608A-608N主要用于执行着色器程序。着色器处理器602可处理各种着色器程序并且经由线程分派器604分派与该着色器程序相关联的执行线程。在一个实施例中线程分派器包括用于仲裁来自图形和媒体管线的线程发起请求并且在执行单元608A-608N中的一个或多个执行单元上使所请求的线程实例化的逻辑。例如,几何管线可将顶点、细分(tessellation)或几何着色器分派给线程执行逻辑以进行处理。在一些实施例中,线程分派器604还可处理来自正在执行的着色器程序的运行时线程衍生请求。
在一些实施例中,执行单元608A-608N支持包括针对许多标准3D图形着色器指令的本机支持的指令集,使得来自图形库(例如,Direct 3D和OpenGL)的着色器程序被以最少转化执行。执行单元支持顶点和几何处理(例如,顶点程序、几何程序、顶点着色器)、像素处理(例如,像素着色器、片元着色器)和通用处理(例如,计算和媒体着色器)。执行单元608A-608N中的每一个均能够多发射单指令多数据(SIMD)执行,并且多线程操作在面对更高延迟存储器存取时使得能实现高效的执行环境。每个执行单元内的每个硬件线程有专用的高带宽寄存器堆和关联的独立线程状态。执行是对能够进行整数、单精度和双精度浮点运算、SIMD分支能力、逻辑运算、先验运算和其他混杂运算的管线的每时钟多发射。在等待来自存储器或共享功能中的一个的数据时,执行单元608A-608N内的依赖性逻辑使等待线程休眠直到所请求的数据已被返回为止。在等待线程正在休眠的同时,硬件资源可以专用于处理其他线程。例如,在与顶点着色器操作相关联的延迟期间,执行单元可对于像素着色器、片元着色器或另一类型的着色器程序(包括不同的顶点着色器)执行操作。
执行单元608A-608N中的每个执行单元对数据元素的阵列进行操作。数据元素的数量是“执行大小”或用于指令的通道的数量。执行通道是在指令内用于数据元素存取、掩蔽和流控制的逻辑执行单元。通道的数量可以独立于用于特定图形处理器的物理算术逻辑单元(ALU)或浮点单元(FPU)的数量。在一些实施例中,执行单元608A-608N支持整数和浮点数据类型。
执行单元指令集包括SIMD指令。可将各种数据元素作为压缩数据类型存储在寄存器中并且执行单元将基于元素的数据大小来处理各种元素。例如,当对256位宽向量进行操作时,向量的256个位被存储在寄存器中并且执行单元在向量上作为四个单独的64位压缩数据元素(四字(QW)大小数据元素)、八个单独的32位压缩数据元素(双字(DW)大小数据元素)、十六个单独的16位压缩数据元素(字(W)大小数据元素)或32个单独的8位数据元素(字节(B)大小数据元素)来操作。然而,不同的向量宽度和寄存器大小是可能的。
在一个实施例中可将一个或多个执行单元组合成具有为融合EU所共有的线程控制逻辑(607A-607N)的融合执行单元609A-609N。可将多个EU融合成EU组。融合EU组中的每个EU可被配置成执行单独的SIMD硬件线程。融合EU组中的EU的数量可根据实施例而变化。附加地,可按EU执行各种SIMD宽度,包括但不限于SIMD8、SIMD16和SIMD32。每个融合图形执行单元609A-609N包括至少两个执行单元。例如,融合执行单元609A包括第一EU 608A、第二EU 608B以及为第一EU 608A和第二EU 608B所共有的线程控制逻辑607A。线程控制逻辑607A控制在融合图形执行单元609A上执行的线程,从而允许融合执行单元609A-609N内的每个EU使用公共指令指针寄存器来执行。
一个或多个内部指令高速缓存(例如606)被包括在线程执行逻辑600中以缓存用于执行单元的线程指令。在一些实施例中,包括一个或多个数据高速缓存(例如,612)以在线程执行期间缓存线程数据。在一些实施例中,包括采样器610以提供用于3D操作的纹理采样和用于媒体操作的媒体采样。在一些实施例中,采样器610包括专门纹理或媒体采样功能性以在将采样数据提供给执行单元之前在采样过程期间处理纹理或媒体数据。
在执行期间,图形和媒体管线经由线程衍生和分派逻辑向线程执行逻辑600发送线程发起请求。一旦一组几何对象已被处理并光栅化成像素数据,则着色器处理器602内的像素处理器逻辑(例如,像素着色器逻辑、片元着色器逻辑等)被调用以进一步计算输出信息并且使结果被写入到输出表面(例如,颜色缓冲器、深度缓冲器、模板缓冲器等)。在一些实施例中,像素着色器或片元着色器计算将跨光栅化对象插值的各种顶点属性的值。在一些实施例中,着色器处理器602内的像素处理器逻辑然后执行应用编程接口(API)供应的像素或片元着色器程序。为了执行着色器程序,着色器处理器602经由线程分派器604将线程分派给执行单元(例如608A)。在一些实施例中,着色器处理器602使用采样器610中的纹理采样逻辑来访问存储在存储器中的纹理图中的纹理数据。对纹理数据和输入几何数据的算术运算为每个几何片元计算像素颜色数据,或者丢弃一个或多个像素以便进一步处理。
在一些实施例中,数据端口614提供用于线程执行逻辑600将处理的数据输出到存储器以便在图形处理器输出管线上进一步处理的存储器存取机制。在一些实施例中,数据端口614包括或者耦合到一个或多个高速缓存存储器(例如,数据高速缓存612)以缓存用于经由数据端口进行存储器存取的数据。
如图6B中所图示的,图形执行单元608可包括指令获取单元637、通用寄存器堆阵列(GRF) 624、架构寄存器堆阵列(ARF) 626、线程仲裁器622、发送单元630、分支单元632、一组SIMD浮点单元(FPU) 634,并且在一个实施例中包括一组专用整数SIMD ALU 635。GRF624和ARF 626包括通用寄存器堆以及与可能在图形执行单元608中活动的每个同时硬件线程相关联的架构寄存器堆的集合。在一个实施例中,每线程架构状态被维持在ARF 626中,然而在线程执行期间使用的数据被存储在GRF 624中。可将每个线程的执行状态(包括用于每个线程的指令指针)保持在ARF 626中的线程特定寄存器中。
在一个实施例中图形执行单元608具有作为同时多线程(SMT)和细粒度交错多线程(IMT)的组合的架构。该架构具有可在设计时基于同时线程的目标数量和每执行单元的寄存器的数量来微调的模块化配置,其中跨用于执行多个同时线程的逻辑划分执行单元资源。
在一个实施例中,图形执行单元608可共同发出多个指令,其可以各自是不同的指令。图形执行单元线程608的线程仲裁器622可将指令分派给发送单元630、分支单元642或(一个或多个)SIMD FPU 634中的一个以供执行。每个执行线程可访问GRF 624内的128个通用寄存器,其中每个寄存器可存储可作为32位数据元素的SIMD 8元素向量访问的32个字节。在一个实施例中,每个执行单元线程能够访问GRF 624内的4千字节,但是实施例不限于此,并且可以在其他实施例中提供更多或更少的寄存器资源。在一个实施例中最多七个线程可同时地执行,但是每执行单元的线程的数量也可根据实施例而变化。在其中七个线程可以访问4千字节的实施例中,GRF 624可存储总共28千字节。灵活的寻址模式可允许寄存器被一起寻址以有效地构建更宽的寄存器或者以表示跨步矩形块数据结构。
在一个实施例中,经由由消息传递发送单元630执行的“发送”指令来分派存储器操作、采样器操作和其他较长延迟系统通信。在一个实施例中,分支指令被分派给专用分支单元632以便于SIMD发散和最终收敛。
在一个实施例中图形执行单元608包括用于执行浮点运算的一个或多个SIMD浮点单元(FPU) 634。在一个实施例中,(一个或多个)FPU 634还支持整数计算。在一个实施例中(一个或多个)FPU 634可SIMD执行最多M个32位浮点(或整数)运算,或者SIMD执行最多2M个16位整数或16位浮点运算。在一个实施例中,(一个或多个)FPU中的至少一个提供扩展数学能力以支持高吞吐量先验数学功能和双精度64位浮点。在一些实施例中,一组8位整数SIMDALU 635还存在,并且可以被专门地优化以执行与机器学习计算相关联的操作。
在一个实施例中,可在图形子核心分组(例如,子分片)中使图形执行单元608的多个实例的阵列实例化。为了可扩展性,产品架构师可按照子核心分组选取确切数量的执行单元。在一个实施例中执行单元608可跨多个执行通道执行指令。在另一个实施例中,在不同的通道上执行在图形执行单元608上执行的每个线程。
图7是图示根据一些实施例的图形处理器指令格式700的框图。在一个或多个实施例中,图形处理器执行单元支持具有多种格式的指令的指令集。实线框图示通常被包括在执行单元指令中的组件,然而虚线包括可选的或者被仅包括在指令的子集中的组件。在一些实施例中,所描述和图示的指令格式700是宏指令,因为它们是供应给执行单元的指令,与一旦指令被处理就由指令解码产生的微操作相反。
在一些实施例中,图形处理器执行单元在本机支持128位指令格式710的指令。64位压缩指令格式730可基于所选择的指令、指令选项和操作数的数量用于一些指令。本机128位指令格式710提供对所有指令选项的访问,然而一些选项和操作在64位格式730方面受限制。可以64位格式730中得到的本机指令因实施例而变化。在一些实施例中,指令部分地使用索引字段713中的一组索引值来压缩。执行单元硬件基于索引值来引用一组压缩表并且使用压缩表输出来以128位指令格式710重建本机指令。
对于每种格式,指令操作码712定义执行单元将执行的操作。执行单元跨每个操作数的多个数据元素并行地执行每个指令。例如,响应于加法指令执行单元跨表示纹理元素或图片元素的每个颜色通道执行同时加法操作。默认情况下,执行单元跨操作数的所有数据通道执行每个指令。在一些实施例中,指令控制字段714使得能够控制某些执行选项,诸如通道选择(例如,预测)和数据通道次序(例如,调配)。对于128位指令格式710的指令,执行大小字段716限制将被并行地执行的数据通道的数量。在一些实施例中,执行大小字段716不可用于在64位紧凑指令格式730中使用。
一些执行单元指令具有最多三个操作数,其包括两个源操作数src0 720、src1722和一个目的地718。在一些实施例中,执行单元支持双目的地指令,其中目的地中的一个被暗示。数据操纵指令可具有第三源操作数(例如,SRC2 724),其中指令操作码712确定源操作数的数量。指令的最后源操作数可以是随指令传递的立即(例如,硬编码)值。
在一些实施例中,128位指令格式710包括指定例如使用直接寄存器寻址模式还是间接寄存器寻址模式的存取/地址模式字段726。当使用直接寄存器寻址模式时,通过指令中的各个位直接地提供一个或多个操作数的寄存器地址。
在一些实施例中,128位指令格式710包括存取/地址模式字段726,其为指令指定地址模式和/或存取模式。在一个实施例中存取模式用于为指令定义数据存取对齐。一些实施例支持包括16字节对齐存取模式和1字节对齐存取模式的存取模式,其中存取模式的字节对齐确定指令操作数的存取对齐。例如,当在第一模式中时,指令可以将字节对齐寻址用于源和目的地操作数,而当在第二模式中时,指令可以将16字节对齐寻址用于所有源和目的地操作数。
在一个实施例中,存取/地址模式字段726的地址模式部分确定指令将使用直接寻址还是间接寻址。当使用直接寄存器寻址模式时,指令中的各个位直接地提供一个或多个操作数的寄存器地址。当使用间接寄存器寻址模式时,可以基于指令中的地址寄存器值和地址立即字段来计算一个或多个操作数的寄存器地址。
在一些实施例中基于操作码712位字段对指令进行分组以简化操作码解码740。对于8位操作码,位4、5和6允许执行单元确定操作码的类型。所示的精确操作码分组仅仅是示例。在一些实施例中,移动和逻辑操作码组742包括数据移动和逻辑指令(例如,移动(mov)、比较(cmp))。在一些实施例中,移动和逻辑组742共享五个最高有效位(MSB),其中移动(mov)指令形式为0000xxxxb并且逻辑指令形式为0001xxxxb。流控制指令组744 (例如,调用、跳转(jmp))包括形式为0010xxxxb (例如,0x20)的指令。混杂指令组746包括指令的混合,包括形式为0011xxxxb (例如,0x30)的同步指令(例如,等待、发送)。并行数学指令组748包括形式为0100xxxxb (例如,0x40)的逐分量算术指令(例如,加法、乘法(mul))。并行数学组748跨数据通道并行地执行算术运算。向量数学组750包括形式为0101xxxxb (例如,0x50)的算术指令(例如,dp4)。向量数学组对向量操作数执行诸如点积计算之类的算术运算。
图形管线
图8是图形处理器800的另一实施例的框图。图8的具有与本文任何其他图的元件相同的附图标记(或名称)的元件可以与在本文中别处描述的方式类似的任何方式操作或者起作用,但是不限于此。
在一些实施例中,图形处理器800包括几何管线820、媒体管线830、显示引擎840、线程执行逻辑850和渲染输出管线870。在一些实施例中,图形处理器800是包括一个或多个通用处理核心的多核心处理系统内的图形处理器。图形处理器通过对一个或多个控制寄存器(未示出)的寄存器写入或者通过经由环形互连802发出给图形处理器800的命令来控制。在一些实施例中,环形互连802将图形处理器800耦合到其他处理组件,诸如其他图形处理器或通用处理器。来自环形互连802的命令由命令流转化器803解释,所述命令流转化器803将指令供应给几何管线820或媒体管线830的单独的组件。
在一些实施例中,命令流转化器803引导顶点获取器805的操作,所述顶点获取器805从存储器读取顶点数据并且执行由命令流转化器803提供的顶点处理命令。在一些实施例中,顶点获取器805将顶点数据提供给顶点着色器807,所述顶点着色器807对每个顶点执行坐标空间变换和照明操作。在一些实施例中,顶点获取器805和顶点着色器807通过经由线程分派器831将执行线程分派给执行单元852A-852B来执行顶点处理指令。
在一些实施例中,执行单元852A-852B是具有用于执行图形和媒体操作的指令集的向量处理器的阵列。在一些实施例中,执行单元852A-852B具有专用于每个阵列或者在阵列之间共享的附连的L1高速缓存851。可将高速缓存配置为数据高速缓存、指令高速缓存或被分区以在不同的分区中包含数据和指令的单个高速缓存。
在一些实施例中,几何管线820包括用于执行3D对象的硬件加速细分的细分组件。在一些实施例中,可编程外壳着色器811配置细分操作。可编程域着色器817提供细分输出的后端评估。细分器813在外壳着色器811指导下操作并且包含用于基于被作为输入提供给几何管线820的粗略几何模型来生成一组详细几何对象的专用逻辑。在一些实施例中,如果未使用细分,则可绕过细分组件(例如,外壳着色器811、细分器813和域着色器817)。
在一些实施例中,完整几何对象可由几何着色器819经由分派给执行单元852A-852B的一个或多个线程来处理,或者可直接地进行到裁剪器829。在一些实施例中,几何着色器对整个几何对象进行操作,而不是像在图形管线的先前阶段中一样对顶点或顶点的补片进行操作。如果细分被禁用则几何着色器819从顶点着色器807接收输入。在一些实施例中,如果细分单元被禁用则几何着色器819可由几何着色器程序编程以执行几何细分。
在光栅化之前,裁剪器829处理顶点数据。裁剪器829可以是固定功能裁剪器或具有裁剪和几何着色器功能的可编程裁剪器。在一些实施例中,渲染输出管线870中的光栅化器和深度测试组件873分派像素着色器以将几何对象转换成每像素表示。在一些实施例中,像素着色器逻辑被包括在线程执行逻辑850中。在一些实施例中,应用可绕过光栅化器和深度测试组件873并且经由流输出单元823访问未光栅化顶点数据。
图形处理器800具有允许在处理器的主要组件之间传递数据和消息的互连总线、互连结构或某种其他互连机制。在一些实施例中,执行单元852A-852B及关联的逻辑单元(例如,L1高速缓存851、采样器854、纹理高速缓存858等)经由数据端口856互连以执行存储器存取并且与处理器的渲染输出管线组件进行通信。在一些实施例中,采样器854、高速缓存851、858和执行单元852A-852B各自具有单独的存储器存取路径。在一个实施例中纹理高速缓存858也可被配置为采样器高速缓存。
在一些实施例中,渲染输出管线870包含将基于顶点的对象转换成关联的基于像素的表示的光栅化器和深度测试组件873。在一些实施例中,光栅化器逻辑包括用于执行固定功能三角形和线光栅化的加窗器/掩蔽器单元。在一些实施例中关联的渲染高速缓存878和深度高速缓存879也是可用的。像素操作组件877对数据执行基于像素的操作,但是在一些实例中,与2D操作关联的像素操作(例如,具有混合的位块图像转移)由2D引擎841执行,或者在显示时由显示控制器843使用覆盖显示平面来取代。在一些实施例中,共享L3高速缓存875可被所有图形组件利用,从而允许在不使用主系统存储器的情况下共享数据。
在一些实施例中,图形处理器媒体管线830包括媒体引擎837和视频前端834。在一些实施例中,视频前端834从命令流转化器803接收管线命令。在一些实施例中,媒体管线830包括单独的命令流转化器。在一些实施例中,视频前端834在将媒体命令发送到媒体引擎837之前处理这些命令。在一些实施例中,媒体引擎837包括用于衍生线程以便经由线程分派器831分派给线程执行逻辑850的线程衍生功能性。
在一些实施例中,图形处理器800包括显示引擎840。在一些实施例中,显示引擎840在处理器800外部并且经由环形互连802或某个其他互连总线或结构与图形处理器耦合。在一些实施例中,显示引擎840包括2D引擎841和显示控制器843。在一些实施例中,显示引擎840包含能够独立于3D管线而操作的专用逻辑。在一些实施例中,显示控制器843与显示设备(未示出)耦合,所述显示设备可以是系统集成显示设备(如在膝上型计算机中一样)或经由显示设备连接器附连的外部显示设备。
在一些实施例中,几何管线820和媒体管线830可配置成基于多个图形和媒体编程接口来执行操作并且不特定于任何一个应用编程接口(API)。在一些实施例中,用于图形处理器的驱动程序软件将特定于特定图形或媒体库的API调用转化成可由图形处理器处理的命令。在一些实施例中,为全部来自Khronos集团的开放图形库(OpenGL)、开放计算语言(OpenCL)和/或Vulkan图形与计算API提供了支持。在一些实施例中,还可以为来自微软公司的Direct3D库提供支持。在一些实施例中,可以支持这些库的组合。还可以为开源计算机视觉库(OpenCV)提供支持。如果可做出从将来API的管线到图形处理器的管线的映射,则还会支持具有兼容3D管线的将来API。
图形管线编程
图9A是图示根据一些实施例的图形处理器命令格式900的框图。图9B是图示根据实施例的图形处理器命令序列910的框图。图9A中的实线框图示通常被包括在图形命令中的组件,然而虚线包括可选的或者被仅包括在图形命令的子集中的组件。图9A的示例性图形处理器命令格式900包括用于识别客户端902的数据字段、命令操作代码(操作码) 904和用于命令的数据906。在一些命令中还包括子操作码905和命令大小908。
在一些实施例中,客户端902指定处理命令数据的图形设备的客户端单元。在一些实施例中,图形处理器命令解析器检查每个命令的客户端字段以调节命令的进一步处理并且将命令数据路由到适当的客户端单元。在一些实施例中,图形处理器客户端单元包括存储器接口单元、渲染单元、2D单元、3D单元和媒体单元。每个客户单元有处理命令的对应的处理管线。一旦命令被客户端单元接收,客户端单元就读取操作码904和子操作码905 (若存在的话)以确定要执行的操作。客户端单元使用数据字段906中的信息来执行命令。对于一些命令显式命令大小908预期指定命令的大小。在一些实施例中,命令解析器基于命令操作码自动地确定命令中的至少一些的大小。在一些实施例中命令经由双字的倍数对齐。
图9B中的流程图图示示例性图形处理器命令序列910。在一些实施例中,以图形处理器的实施例为特征的数据处理系统的软件或固件使用所示的命令序列的版本来建立、执行并终止一组图形操作。样本命令序列是仅为了示例而示出和描述的,因为实施例不限于这些具体命令或者限于此命令序列。此外,命令可以作为命令序列中的一批命令被发出,使得图形处理器将至少部分并发地处理命令序列。
在一些实施例中,图形处理器命令序列910可以从管线刷新命令912开始以使任何活动的图形管线针对该管线完成当前挂起命令。在一些实施例中,3D管线922和媒体管线924不会并发地操作。管线刷新被执行以使活动的图形管线完成所有挂起命令。响应于管线刷新,用于图形处理器的命令解析器将暂停命令处理,直到活动的绘图引擎完成挂起操作并且相关读取高速缓存无效为止。可选地,可将渲染高速缓存中的被标记为“脏”的任何数据刷新到存储器中。在一些实施例中,管线刷新命令912可被用于管线同步或者在将图形处理器置于低功率状态中之前。
在一些实施例中,当命令序列要求图形处理器在管线之间显式地切换时使用管线选择命令913。在一些实施例中,在发出管线命令之前在执行上下文内要求管线选择命令913仅一次,除非上下文将为两个管线发出命令。在一些实施例中,紧接在经由管线选择命令913进行管线切换之前要求管线刷新命令912。
在一些实施例中,管线控制命令914配置用于操作的图形管线并且用于对3D管线922和媒体管线924进行编程。在一些实施例中,管线控制命令914针对活动的管线配置管线状态。在一个实施例中,管线控制命令914被用于管线同步并且在处理一批命令之前从活动的管线内的一个或多个高速缓存存储器中清除数据。
在一些实施例中,返回缓冲器状态命令916用于为相应的管线配置一组返回缓冲器以写入数据。一些管线操作要求分配、选择或者配置操作在处理期间将中间数据写入到其中的一个或多个返回缓冲器。在一些实施例中,图形处理器还使用一个或多个返回缓冲器来存储输出数据并执行跨线程通信。在一些实施例中,返回缓冲器状态916包括选择要针对一组管线操作使用的返回缓冲器的大小和数量。
命令序列中的剩余命令基于用于操作的活动的管线而不同。基于管线确定920,为从3D管线状态930开始的3D管线922或以媒体管线状态940开始的媒体管线924定制命令序列。
用于配置3D管线状态930的命令包括用于顶点缓冲器状态、顶点元素状态、恒定颜色状态、深度缓冲器状态以及要在3D图元命令被处理之前配置的其他状态变量的3D状态设置命令。至少部分地基于使用中的特定3D API来确定这些命令的值。在一些实施例中,如果将不使用某些管线元件,则3D管线状态930命令也能够选择性地禁用或者绕过那些元件。
在一些实施例中,3D图元932命令用于提交要由3D管线处理的3D图元。经由3D图元932命令被传递给图形处理器的命令和关联的参数被转发到图形管线中的顶点获取功能。顶点获取功能使用3D图元932命令数据来生成顶点数据结构。顶点数据结构被存储在一个或多个返回缓冲器中。在一些实施例中,3D图元932命令用于经由顶点着色器对3D图元执行顶点操作。为了处理顶点着色器,3D管线922将着色器执行线程分派给图形处理器执行单元。
在一些实施例中,经由执行934命令或事件来触发3D管线922。在一些实施例中,寄存器写入触发命令执行。在一些实施例中经由命令序列中的“go(进行)”或“kick(开始操作)”命令来触发执行。在一个实施例中,使用管线同步命令来触发命令执行以通过图形管线来刷新命令序列。3D管线将对于3D图元执行几何处理。一旦操作完成,就使结果得到的几何对象光栅化并且像素引擎为结果得到的像素着色。对于那些操作还可以包括用于控制像素着色和像素后端操作的附加命令。
在一些实施例中,当执行媒体操作时图形处理器命令序列910遵循媒体管线924路径。通常,针对媒体管线924的编程的具体用途和方式取决于要执行的媒体或计算操作。可以在媒体解码期间将具体媒体解码操作卸载到媒体管线。在一些实施例中,还可绕过媒体管线并且可使用由一个或多个通用处理核心提供的资源来整个地或部分地执行媒体解码。在一个实施例中,媒体管线还包括用于通用图形处理器单元(GPGPU)操作的元件,其中图形处理器用于使用与图形图元的渲染不显式地有关的计算着色器程序来执行SIMD向量操作。
在一些实施例中,以与3D管线922类似的方式配置媒体管线924。用于配置媒体管线状态940的一组命令在媒体对象命令942之前被分派或者放置到命令队列中。在一些实施例中,用于媒体管线状态940的命令包括用于配置将用于处理媒体对象的媒体管线元件的数据。这包括用于在媒体管线内配置视频解码和视频编码逻辑的数据,诸如编码或解码格式。在一些实施例中,用于媒体管线状态940的命令还支持使用指向包含一批状态设置的“间接”状态元素的一个或多个指针。
在一些实施例中,媒体对象命令942供应指向媒体对象的指针以供由媒体管线处理。媒体对象包括包含要处理的视频数据的存储器缓冲器。在一些实施例中,所有媒体管线状态在发出媒体对象命令942之前必须是有效的。一旦管线状态被配置并且媒体对象命令942被排队,则经由执行命令944或等同执行事件(例如,寄存器写入)来触发媒体管线924。来自媒体管线924的输出然后可以通过由3D管线922或媒体管线924提供的操作被后处理。在一些实施例中,以与媒体操作类似的方式配置并执行GPGPU操作。
图形软件架构
图10图示根据一些实施例的用于数据处理系统1000的示例性图形软件架构。在一些实施例中,软件架构包括3D图形应用1010、操作系统1020和至少一个处理器1030。在一些实施例中,处理器1030包括图形处理器1032和一个或多个通用处理器核心1034。图形应用1010和操作系统1020各自在数据处理系统的系统存储器1050中执行。
在一些实施例中,3D图形应用1010包含包括有着色器指令1012的一个或多个着色器程序。着色器语言指令可以采用高级着色器语言,诸如高级着色器语言(HLSL)或OpenGL着色器语言(GLSL)。应用还包括适合于由通用处理器核心1034执行的机器语言的可执行指令1014。应用还包括通过顶点数据所定义的图形对象1016。
在一些实施例中,操作系统1020是来自微软公司的Microsoft® Windows®操作系统、专有类UNIX操作系统或使用Linux内核的变体的开源类UNIX操作系统。操作系统1020可支持图形API 1022,诸如Direct3D API、OpenGL API或Vulkan API。当使用Direct3D API时,操作系统1020使用前端着色器编译器1024来将采用HLSL的任何着色器指令1012编译成较低级着色器语言。编译可以是即时(JIT)编译或者应用可执行着色器预编译。在一些实施例中,高级着色器在3D图形应用1010的编译期间被编译成低级着色器。在一些实施例中,以中间形式(诸如通过Vulkan API所使用的标准便携式中间表示(SPIR)的版本)提供着色器指令1012。
在一些实施例中,用户模式图形驱动程序1026包含用于将着色器指令1012转换成硬件特定表示的后端着色器编译器1027。当使用OpenGL API时,采用GLSL高级语言的着色器指令1012被传递给用户模式图形驱动程序1026以进行编译。在一些实施例中,用户模式图形驱动程序1026使用操作系统内核模式功能1028来与内核模式图形驱动程序1029进行通信。在一些实施例中,内核模式图形驱动程序1029与图形处理器1032进行通信以分派命令和指令。
IP核心实施方式
至少一个实施例的一个或多个方面可以通过存储在机器可读介质上的代表性代码来实现,所述代表性代码表示和/或定义诸如处理器之类的集成电路内的逻辑。例如,机器可读介质可以包括表示处理器内的各种逻辑的指令。当由机器读取时,指令可以使机器制作用于执行本文描述的技术的逻辑。这样的表示(被称为“IP核心”)是用于集成电路的可重用逻辑单元,其可以作为描述该集成电路的结构的硬件模型被存储在有形机器可读介质上。可以将硬件模型供应给各种客户或制造设施,所述各种客户或制造设施将硬件模型加载在制造集成电路的制造机器上。可以制造集成电路,使得该电路执行与本文描述的实施例中的任一个关联地描述的操作。
图11A是图示根据实施例的可以用于制造集成电路以执行操作的IP核心开发系统1100的框图。IP核心开发系统1100可以用于生成可被并入到更大设计中的模块化可重用设计或者用于构建整个集成电路(例如,SOC集成电路)。设计设施1130可用高级编程语言(例如,C/C++)生成IP核心设计的软件模拟1110。软件模拟1110可用于使用模拟模型1112来设计、测试并验证IP核心的行为。模拟模型1112可以包括功能、行为和/或定时模拟。然后可从模拟模型1112创建或者合成寄存器转移级(RTL)设计1115。RTL设计1115是对硬件寄存器之间的数字信号流进行建模的集成电路的行为的抽象,包括使用经建模的数字信号来执行的关联逻辑。除了RTL设计1115之外,还可以创建、设计或者合成逻辑级或晶体管级下的较低级设计。因此,初始设计和模拟的特定细节可以变化。
RTL设计1115或等同物可以由设计设施进一步合成为硬件模型1120,所述硬件模型1120可以采用硬件描述语言(HDL)或物理设计数据的某种其他表示。可以进一步模拟或者测试HDL以验证IP核心设计。可使用非易失性存储器1140 (例如,硬盘、闪速存储器或任何非易失性存储介质)来存储IP核心设计以便交付给第三方制造设施1165。可替换地,可以(例如,经由因特网)通过有线连接1150或无线连接1160来发送IP核心设计。制造设施1165然后可以制造至少部分地基于IP核心设计的集成电路。所制造的集成电路可被配置成执行依照本文描述的至少一个实施例的操作。
图11B图示根据本文描述的一些实施例的集成电路封装组装件1170的横截面侧视图。集成电路封装组装件1170图示如本文所描述的一个或多个处理器或加速器器件的实施方式。封装组装件1170包括连接到基板1180的多个硬件逻辑单元1172、1174。逻辑1172、1174可以至少部分地用可配置的逻辑或固定功能性逻辑硬件加以实现,并且可包括(一个或多个)处理器核心、(一个或多个)图形处理器或本文描述的其他加速器器件中的任一个的一个或多个部分。每个逻辑单元1172、1174可被实现在半导体管芯内并且经由互连结构1173与基板1180耦合。互连结构1173可以被配置成在逻辑1172、1174与基板1180之间路由电信号,并且可包括互连,诸如但不限于凸块或立柱。在一些实施例中,互连结构1173可以被配置成路由电信号,诸如例如与逻辑1172、1174的操作相关联的输入/输出(I/O)信号和/或电源或接地信号。在一些实施例中,基板1180是基于环氧树脂的层压基板。在其他实施例中封装组装件1170可以包括其他适合类型的基板。封装组装件1170可经由封装互连1183被连接到其他电子器件。封装互连1183可以被耦合到基板1180的表面以将电信号路由到其他电子器件,诸如母板、其他芯片组或多芯片模块。
在一些实施例中,逻辑单元1172、1174与桥接器1182电耦合,所述桥接器1182被配置成在逻辑1172、1174之间路由电信号。桥接器1182可以是为电信号提供路由的密集互连结构。桥接器1182可以包括由玻璃或适合的半导体材料组成的桥接器基板。可在桥接器基板上形成电布线特征以在逻辑1172、1174之间提供芯片到芯片连接。
尽管图示了两个逻辑单元1172、1174和桥接器1182,然而本文描述的实施例可以在一个或多个管芯上包括更多或更少的逻辑单元。一个或多个管芯可以通过零个或多个桥接器来连接,因为当逻辑被包括在单个管芯上时可以排除桥接器1182。可替换地,可通过一个或多个桥接器来连接多个管芯或逻辑单元。附加地,可按照其他可能的配置(包括三维配置)将多个逻辑单元、管芯和桥接器连接在一起。
示例性片上系统集成电路
图12-14图示了根据本文描述的各种实施例的可以使用一个或多个IP核心来制造的示例性集成电路和关联的图形处理器。除了所图示的之外,还可以包括其他逻辑和电路,包括附加图形处理器/核心、外围接口控制器或通用处理器核心。
图12是图示根据实施例的可以使用一个或多个IP核心来制造的示例性片上系统集成电路1200的框图。示例性集成电路1200包括一个或多个应用处理器1205 (例如,CPU)、至少一个图形处理器1210,并且可以附加地包括图像处理器1215和/或视频处理器1220,其中的任一个可以是来自相同或多个不同的设计设施的模块化IP核心。集成电路1200包括外围或总线逻辑,所述外围或总线逻辑包括USB控制器1225、UART控制器1230、SPI/SDIO控制器1235和I2S/I2C控制器1240。附加地,集成电路可包括耦合到高清晰度多媒体接口(HDMI)控制器1250和移动工业处理器接口(MIPI)显示接口1255中的一个或多个的显示设备1245。存储装置可以由包括闪速存储器和闪速存储器控制器的闪速存储器子系统1260提供。可以经由存储器控制器1265提供存储器接口以用于访问SDRAM或SRAM存储器设备。一些集成电路附加地包括嵌入式安全引擎1270。
图13A和图13B是图示根据本文描述的实施例的用于在SoC内使用的示例性图形处理器的框图。图13A图示根据实施例的可以使用一个或多个IP核心来制造的片上系统集成电路的示例性图形处理器1310。图13B图示根据实施例的可以使用一个或多个IP核心来制造的片上系统集成电路的附加示例性图形处理器1340。图13A的图形处理器1310是低功率图形处理器核心的示例。图13B的图形处理器1340是更高性能图形处理器核心的示例。图形处理器1310、1340中的每一个均可以是图12的图形处理器1210的变体。
如图13A中所示,图形处理器1310包括顶点处理器1305和一个或多个片元处理器1315A-1315N (例如,1315A、1315B、1315C、1315D至1315N-1和1315N)。图形处理器1310可经由单独的逻辑来执行不同的着色器程序,使得顶点处理器1305被优化以执行针对顶点着色器程序的操作,同时一个或多个片元处理器1315A-1315N执行针对片元或像素着色器程序的片元(例如,像素)着色操作。顶点处理器1305执行3D图形管线的顶点处理阶段并且生成图元和顶点数据。(一个或多个)片元处理器1315A-1315N使用由顶点处理器1305生成的图元和顶点数据来产生被显示在显示设备上的帧缓冲器。在一个实施例中,(一个或多个)片元处理器1315A-1315N被优化以执行如在OpenGL API中所提供的片元着色器程序,其可以用于执行与如在Direct 3D API中所提供的像素着色器程序类似的操作。
图形处理器1310附加地包括一个或多个存储器管理单元(MMU) 1320A-1320B、(一个或多个)高速缓存1325A-1325B和(一个或多个)电路互连1330A-1330B。一个或多个MMU1320A-1320B为图形处理器1310(包括为顶点处理器1305和/或(一个或多个)片元处理器1315A-1315N)提供虚拟到物理地址映射,所述顶点处理器1305和/或(一个或多个)片元处理器1315A-1315N除了引用存储在一个或多个高速缓存1325A-1325B中的顶点或图像/纹理数据之外还可以引用存储在存储器中的顶点或图像/纹理数据。在一个实施例中一个或多个MMU 1320A-1320B可以与系统内的其他MMU (包括与图12的一个或多个应用处理器1205、图像处理器1215和/或视频处理器1220相关联的一个或多个MMU)同步,使得每个处理器1205-1220可参与共享或统一虚拟存储系统。根据实施例,一个或多个电路互连1330A-1330B使得图形处理器1310能够经由SoC的内部总线或者经由直接连接来与SoC内的其他IP核心对接。
如图13B中所示,图形处理器1340包括图13A的图形处理器1310的一个或多个MMU1320A-1320B、高速缓存1325A-1325B和电路互连1330A-1330B。图形处理器1340包括一个或多个着色器核心1355A-1355N (例如,1355A、1355B、1355C、1355D、1355E、1355F至1355N-1和1355N),其提供统一着色器核心架构,其中单个核心或单一类型的核心可执行所有类型的可编程着色器代码,包括用于实现顶点着色器、片元着色器和/或计算着色器的着色器程序代码。存在的着色器核心的确切数量可在实施例和实施方式之间变化。附加地,图形处理器1340包括:核心间任务管理器1345,所述核心间任务管理器1345作为用于将执行线程分派给一个或多个着色器核心1355A-1355N的线程分派器;以及拼贴单元1358,所述拼贴单元1358用于使用于基于拼贴的渲染的拼贴操作加速,在所述基于拼贴的渲染中针对场景的渲染操作在图像空间中被细分,例如以利用场景内的局部空间一致性或者以优化内部高速缓存的使用。
图14A和图14B图示根据本文描述的实施例的附加示例性图形处理器逻辑。图14A图示可以被包括在图12的图形处理器1210内并且可以是如在图13B中一样的统一着色器核心1355A-1355N的图形核心1400。图14B图示适合于在多芯片模块上部署的高度并行通用图形处理单元1430。
如图14A中所示,图形核心1400包括为图形核心1400内的执行资源所共有的共享指令高速缓存1402、纹理单元1418和高速缓存/共享存储器1420。图形核心1400可对于每个核心包括多个分片1401A-1401N或分区,并且图形处理器可包括图形核心1400的多个实例。分片1401A-1401N可包括支持逻辑,所述支持逻辑包括本地指令高速缓存1404A-1404N、线程调度器1406A-1406N、线程分派器1408A-1408N和一组寄存器1410A。为了执行逻辑运算,分片1401A-1401N可包括一组附加功能单元(AFU 1412A-1412N)、浮点单元(FPU 1414A-1414N)、整数算术逻辑单元(ALU 1416-1416N)、地址计算单元(ACU 1413A-1413N)、双精度浮点单元(DPFPU 1415A-1415N)和矩阵处理单元(MPU 1417A-1417N)。
计算单元中的一些以具体精度操作。例如,FPU 1414A-1414N可执行单精度(32位)和半精度(16位)浮点运算,然而DPFPU 1415A-1415N执行双精度(64位)浮点运算。ALU1416A-1416N可以8位、16位和32位精度执行可变精度整数运算,并且可被配置用于混合精度运算。MPU 1417A-1417N也可被配置用于混合精度矩阵运算,包括半精度浮点运算和8位整数运算。MPU 1417-1417N可执行各种矩阵运算来使机器学习应用框架加速,包括使得能够支持加速的通用矩阵到矩阵乘法(GEMM)。AFU 1412A-1412N可执行浮点或整数单元不支持的附加逻辑运算,包括三角运算(例如,正弦、余弦等)。
如图14B中所示,通用处理单元(GPGPU) 1430可被配置成使得高度并行计算操作能够由图形处理单元的阵列执行。附加地,GPGPU 1430可被直接地链接到GPGPU的其他实例以创建多GPU集群来针对特别深度神经网络改进训练速度。GPGPU 1430包括用于使得能够与主机处理器连接的主机接口1432。在一个实施例中主机接口1432是PCI Express接口。然而,主机接口也可以是供应商特定通信接口或通信结构。GPGPU 1430从主机处理器接收命令并且使用全局调度器1434来将与那些命令相关联的执行线程分发给一组计算集群1436A-1436H。计算群集1436A-1436H共享高速缓存存储器1438。高速缓存存储器1438可用作用于计算群集1436A-1436H内的高速缓存存储器的更高级高速缓存。
GPGPU 1430包括经由一组存储器控制器1442A-1442B与计算集群1436A-1436H耦合的存储器1434A-1434B。在各种实施例中,存储器1434A-1434B可包括各种类型的存储器设备,包括动态随机存取存储器(DRAM)或图形随机存取存储器,诸如同步图形随机存取存储器(SGRAM),包括图形双倍数据速率(GDDR)存储器。
在一个实施例中计算集群1436A-1436H各自包括一组图形核心,诸如图14A的图形核心1400,其可包括可以包括适于机器学习计算的一系列精度执行计算操作的多种类型的整数和浮点逻辑单元。例如并在一个实施例中至少计算集群1436A-1436H中的每一个中的浮点单元的子集可被配置成执行16位或32位浮点运算,然而浮点单元的不同子集可被配置成执行64位浮点运算。
GPGPU 1430的多个实例可被配置成作为计算集群来操作。被计算集群用于同步和数据交换的通信机制跨实施例变化。在一个实施例中GPGPU 1430的多个实例通过主机接口1432进行通信。在一个实施例中GPGPU 1430包括将GPGPU 1430与GPU链路1440耦合的I/O集线器1439,所述GPU链路1440使得能实现到GPGPU的其他实例的直接连接。在一个实施例中GPU链路1440被耦合到专用GPU到GPU桥接器,所述专用GPU到GPU桥接器使得能实现GPGPU1430的多个实例之间的通信和同步。在一个实施例中GPU链路1440与高速互连耦合以将数据传送和接收到其他GPGPU或并行处理器。在一个实施例中GPGPU 1430的多个实例位于单独的数据处理系统中并且经由可经由主机接口1432访问的网络设备进行通信。在一个实施例中GPU链路1440可被配置成使得能够作为主机接口1432的补充或替代方案连接到主机处理器。
虽然所图示的GPGPU 1430的配置可被配置成训练神经网络,但是一个实施例提供可被配置用于部署在高性能或低功耗推理平台内的GPGPU 1430的替代配置。在推理配置中GPGPU 1430相对于训练配置包括更少的计算集群1436A-1436H。附加地,与存储器1434A-1434B相关联的存储器技术可以在推理配置与训练配置之间不同,其中更高带宽存储器技术专用于训练配置。在一个实施例中GPGPU 1430的推理配置可支持推理特定指令。例如,推理配置可提供针对通常在针对部署的神经网络的推理操作期间使用的一个或多个8位整数点积指令的支持。
图15图示采用拷贝引擎1510来从存储器拷贝数据的计算设备1500。计算设备1500(例如,智能可穿戴设备、虚拟现实(VR)设备、头戴式显示器(HMD)、移动计算机、物联网(IoT)设备、膝上型计算机、台式计算机、服务器计算机等)可以与图1的处理系统100相同,并且因此,为了简洁、清楚和易于理解,此后不再讨论或者重复上面参考图1-14陈述的许多细节。如所图示的,在一个实施例中,计算设备1500被示出为托管拷贝引擎1510。
如所图示的,在一个实施例中,拷贝引擎1510由图形处理单元(“GPU”或“图形处理器”) 1514托管。在仍然其他的实施例中,拷贝引擎1510可以通过中央处理单元(“CPU”或“应用处理器”) 1512的固件来托管或者是中央处理单元(“CPU”或“应用处理器”) 1512的固件的一部分。为了简洁、清楚和易于理解,贯穿本文档的其余部分,可以将拷贝引擎1510作为GPU 1514的一部分来讨论;然而,实施例不限于此。
计算设备1500可以包括任何数量和类型的通信设备,诸如大型计算系统,诸如服务器计算机、台式计算机等,并且可以进一步包括机顶盒(例如,基于因特网的有线电视机顶盒等)、基于全球定位系统(GPS)的设备等。计算设备1500可以包括用作通信设备的移动计算设备,诸如包括智能电话的蜂窝电话、个人数字助理(PDA)、平板计算机、膝上型计算机、电子阅读器、智能电视、电视平台、可穿戴设备(例如,眼镜、手表、手镯、智能卡、珠宝、衣物等)、媒体播放器等。例如,在一个实施例中,计算设备1500可以包括采用计算机平台的移动计算设备,所述计算机平台托管在单个芯片上集成计算设备150的各种硬件和/或软件组件的集成电路(“IC”),诸如片上系统(“SoC”或“SOC”)。
如所图示的,在一个实施例中,计算设备1500可以包括任何数量和类型的硬件和/或软件组件,诸如(但不限于) GPU 1514、图形驱动程序(也称为“GPU驱动程序”、“图形驱动程序逻辑”、“驱动程序逻辑”、用户模式驱动程序(UMD)、UMD、用户模式驱动程序框架(UMDF)、UMDF或简称为“驱动程序”) 1516、CPU 1512、存储器1508、网络设备、驱动器等以及输入/输出(I/O)源1504,诸如触摸屏、触摸面板、触摸板、虚拟或常规键盘、虚拟或常规鼠标、端口、连接器等。
计算设备1500可以包括用作计算机设备1500的硬件和/或物理资源与用户之间的接口的操作系统(OS) 1506。设想了CPU 1512可以包括一个或多个处理器,然而GPU 1514可以包括一个或多个图形处理器。
应当注意的是,可以贯穿本文档互换地使用像“节点”、“计算节点”、“服务器”、“服务器设备”、“云计算机”、“云服务器”、“云服务器计算机”、“机器”、“主机”、“设备”、“计算设备”、“计算机”、“计算系统”等一样的术语。应当进一步注意的是,可以贯穿本文档互换地使用像“应用”、“软件应用”、“程序”、“软件程序”、“包”、“软件包”等一样的术语。另外,可以贯穿本文档互换地使用像“作业”、“输入”、“请求”、“消息”等一样的术语。
设想了并且如参考图1-14进一步描述的,如上所述的图形管线的一些过程用软件加以实现,然而其余部分用硬件加以实现。可以在图形协处理器设计中实现图形管线,其中CPU 1512被设计成与GPU 1514一起工作,所述GPU 1514可以被包括在CPU 1512中或者与CPU 1512位于一处。在一个实施例中,GPU 1514可以采用任何数量和类型的常规软件和硬件逻辑来执行与图形渲染有关的常规功能并且采用新颖软件和硬件逻辑来执行任何数量和类型的指令。
如前述,存储器1508可以包括含有具有对象信息的应用数据库的随机存取存储器(RAM)。存储器控制器集线器可以访问RAM中的数据并将它转发到GPU 1514以进行图形管线处理。RAM可以包括双倍数据速率RAM (DDR RAM)、扩展数据输出RAM (EDO RAM)等。CPU1512与硬件图形管线相互作用以共享图形管线功能性。
处理的数据被存储在硬件图形管线中的缓冲器中,并且状态信息被存储在存储器1508中。结果得到的图像然后被转移到I/O源1504,诸如用于显示图像的显示组件。设想了显示设备可以具有各种类型,诸如阴极射线管(CRT)、薄膜晶体管(TFT)、液晶显示器(LCD)、有机发光二极管(OLED)阵列等,以向用户显示信息。
存储器1508可以包括缓冲器(例如,帧缓冲器)的预分配区域;然而,本领域的普通技术人员应该理解的是,实施例不限于此,并且可以使用对下部图形管线可访问的任何存储器。计算设备1500可以进一步包括如图1中所引用的平台控制器集线器(PCH) 130作为一个或多个I/O源1504等。
CPU 1512可以包括用于执行指令以便执行计算系统实现的无论什么软件例程的一个或多个处理器。指令频繁地涉及对数据执行的某种操作。数据和指令都可以被存储在系统存储器1508和任何关联的高速缓存中。高速缓存通常被设计成具有比系统存储器1508短的延迟时间;例如,高速缓存可能被集成到与(一个或多个)处理器相同的(一个或多个)硅芯片上和/或用较快的静态RAM (SRAM)单元构建,然而系统存储器1508可能用较慢的动态RAM (DRAM)单元构建。与系统存储器1508相反,通过倾向于将更频繁地使用的指令和数据存储在高速缓存中,计算设备1500的总体性能效率改进。设想了在一些实施例中,GPU1514可以作为CPU 1512的一部分(诸如物理CPU封装的一部分)而存在,在此情况下,存储器1508可以被CPU 1512和GPU 1514共享或者保持分开。
系统存储器1508可以对计算设备1500内的其他组件可用。例如,从计算设备1500的各种接口(例如,键盘和鼠标、打印机端口、局域网(LAN)端口、调制解调器端口等)接收到的或者从计算机设备1500的内部存储元件(例如,硬盘驱动器)中检索到的任何数据(例如,输入图形数据)在它们被软件程序的实施方式中的一个或多个处理器操作之前被常常暂时排队到系统存储器1508中。类似地,软件程序确定的数据应该通过计算系统接口中的一个被从计算设备1500发送到外部实体,或者存储到内部存储元件中,在它被传送或者存储之前被常常暂时排队在系统存储器1508中。
进一步地,例如,PCH可以被用于确保这样的数据在系统存储器1508及其适当的对应的计算系统接口(和内部存储设备(若计算系统被如此设计的话))之间被适当地传递并且可以在它本身与所观察到的I/O源/设备1504之间具有双向点对点链路。类似地,MCH可以被用于管理对在CPU 1512和GPU 1514、接口和内部存储元件之间的可能相对于彼此在时间上近似地出现的对于系统存储器1508存取的各种竞争请求。
I/O源1504可以包括一个或多个I/O设备,所述一个或多个I/O设备被实现用于向和/或从计算设备1500转移数据(例如,联网适配器);或者,用于计算设备1500内的大规模非易失性存储(例如,硬盘驱动器)。用户输入设备(包括字母数字和其他键)可以用于将信息和命令选择传送给GPU 1514。另一类型的用户输入设备是光标控件,诸如鼠标、轨迹球、触摸屏、触摸板,或用于将方向信息和命令选择传送给GPU 1514并且用于控制光标在显示设备上的移动的光标方向键。可以采用计算机设备1500的相机和麦克风阵列来观察手势,记录音频和视频并且接收和传送视觉和音频命令。
计算设备1500可以进一步包括用于提供对网络的访问的(一个或多个)网络接口,所述网络诸如LAN、广域网(WAN)、城域网(MAN)、个域网(PAN)、蓝牙、云网络、移动网络(例如,第三代(3G)、第四代(4G)等)、内部网、因特网等。(一个或多个)网络接口可以包括例如具有天线的无线网络接口,所述天线可以表示一个或多个天线。(一个或多个)网络接口还可以包括例如用于经由网络电缆与远程设备进行通信的有线网络接口,所述网络电缆可以是例如以太网电缆、同轴电缆、光纤电缆、串行电缆或并行电缆。
(一个或多个)网络接口可以例如通过符合IEEE 802.11b和/或IEEE 802.11g标准来提供对LAN的访问,和/或无线网络接口可以例如通过符合蓝牙标准来提供对个域网的访问。还可以支持其他无线网络接口和/或协议,包括这些标准的先前和后续版本。除了经由无线LAN标准通信之外或代替经由无线LAN标准通信,(一个或多个)网络接口可以使用例如时分多址(TDMA)协议、全球移动通信系统(GSM)协议、码分多址(CDMA)协议和/或任何其他类型的无线通信协议来提供无线通信。
(一个或多个)网络接口可以包括一个或多个通信接口,诸如调制解调器、网络接口卡或其他众所周知的接口设备,诸如例如用于为了提供通信链路来支持LAN或WAN而耦合到以太网、令牌环或其他类型的物理有线或无线附件的那些接口设备。以这种方式,计算机系统还可以经由常规的网络基础设施(例如,包括内部网或因特网)被耦合到许多外围设备、客户端、控制表面、控制台或服务器。
应当领会的是,对于某些实施方式来说比上述示例或少或多装备的系统可以是优选的。因此,计算设备1500的配置可以取决于许多因素(诸如价格约束、性能要求、技术改进或其他情况)而从实施方式到实施方式变化。电子设备或计算机系统1500的示例可以包括(但不限于)移动设备、个人数字助理、移动计算设备、智能电话、蜂窝电话、手机、单向寻呼机、双向寻呼机、消息传递设备、计算机、个人计算机(PC)、台式计算机、膝上型计算机、笔记本计算机、手持计算机、平板计算机、服务器、服务器阵列或服务器场、web服务器、网络服务器、因特网服务器、工作站、小型计算机、大型计算机、超级计算机、网络器具、web器具、分布式计算系统、多处理器系统、基于处理器的系统、消费者电子装置、可编程消费者电子装置、电视、数字电视、机顶盒、无线接入点、基站、订户站、移动订户中心、无线电网络控制器、路由器、集线器、网关、桥接器、交换机、机器或其组合。
实施例可以作为下列中的任一个或组合被实现:使用母板来互连的一个或多个微芯片或集成电路、硬接线逻辑、由存储器设备存储并由微处理器执行的软件、固件、专用集成电路(ASIC)和/或现场可编程门阵列(FPGA)。作为示例,术语“逻辑”可以包括软件或硬件和/或软件和硬件的组合。
实施例可以例如作为计算机程序产品被提供,所述计算机程序产品可以包括在上面存储有机器可执行指令的一个或多个机器可读介质,所述机器可执行指令当由诸如计算机、计算机的网络或其他电子设备之类的一个或多个机器执行时,可以导致一个或多个机器执行依照本文描述的实施例的操作。机器可读介质可以包括但不限于软盘、光盘、CD-ROM(紧致盘只读存储器)和磁光盘、ROM、RAM、EPROM (可擦除可编程只读存储器)、EEPROM (电可擦除可编程只读存储器)、磁或光学卡、闪速存储器,或适合于存储机器可执行指令的其他类型的介质/机器可读介质。
此外,实施例可以作为计算机程序产品被下载,其中可以经由通信链路(例如,调制解调器和/或网络连接)通过具体实现在载波或其他传播介质中和/或通过载波或其他传播介质调制的一个或多个数据信号来将程序从远程计算机(例如,服务器)转移到请求计算机(例如,客户端)。
根据一个实施例,拷贝引擎1510是执行子资源拷贝以将数据从任意格式的源拷贝到任意格式的目的地的硬件组件。在这样的实施例中,拷贝引擎1510执行子位块传输生成过程以通过将表面细分成像素(或纹理元素)的较小块来将表面从存储器中的源位置拷贝到存储器中的目的地位置。
在另一个实施例中,这些较小块(或子位块传输)被随后提交给子位块传输遍历器硬件,所述子位块传输遍历器硬件计算要启动存储器读取/写入以执行相应的存取(例如,读取和写入)的虚拟地址。在此实施例中,子位块传输生成器将子位块传输供应给并行地操作的多个实例化子位块传输遍历器。因此,拷贝引擎1510不需要像在常规现有技术的拷贝引擎中发生的那样在提交后续子位块传输以便遍历之前等待当前的子位块传输遍历完成。进一步地,子位块传输生成器可以以每时钟一个子位块传输的峰值速率以负荷平衡方式将子位块传输提交给子位块传输遍历器。
图16图示拷贝引擎1510的一个实施例。如图16中所示,拷贝引擎1510包括中央拷贝引擎1600和子拷贝引擎1610 (例如,1610A-1610N)。根据一个实施例,中央拷贝引擎1600包括命令处理器1602,所述命令处理器1602用于接收存取(例如,拷贝和填充)命令分组作为输入,解释命令并且生成用于执行拷贝和填充操作的相关参数。在一个实施例中,从GPU1514内的命令流转化器1511接收命令分组。
子位块传输生成器1604接收参数并且将要拷贝/填充的表面划分成子位块传输。根据一个实施例,每个子位块传输有开始位置(例如,左上角(或X1、Y1))以及宽度和高度。在另一个实施例中,子位块传输的大小被对齐到4K边界,所述4K边界与存储器页面匹配。然后在子位块传输队列1605处使子位块传输排队以便由子位块传输调度器1606调度给子拷贝引擎1610。在实施例中实现的子拷贝引擎1610的数量取决于拷贝引擎1510的缩放比例。
在一个实施例中,每个子拷贝引擎1610处理两个命令和一个数据(2C + 1D)。在这样的实施例中,命令可以是两个读取、一个读取和一个写入或任何其他有效的组合。单个数据总线(例如,src/dst子位块传输命令总线)可以每时钟从每个子拷贝引擎1610接收单个写入命令。进一步地,读取和写入的排序被维持以对于重叠表面避免可能的数据损坏。附加地,在子位块传输级别(例如,而不是高速缓存行级别)下执行依赖性处置以提供简单的依赖性处置机制,这降低依赖性跟踪复杂性。
根据一个实施例,子位块传输调度器1606基于每个子拷贝引擎1610的当前负荷(或子块处理负荷)(例如,有多少高速缓存行正挂起以便在子拷贝引擎1610处处理)来将子位块传输调度给子拷贝引擎1610。在一个实施例中,每个子拷贝引擎1610使用PCC逻辑1615来启发式地计算挂起高速缓存行计数。在这样的实施例中,子位块传输调度器1606将在队列1605顶部处的子位块传输调度给具有最低挂起高速缓存行计数的子拷贝引擎1610。因此,PCC逻辑1615使得中央拷贝引擎1600能够执行平衡调度。
在一个实施例中,在子位块传输生成器1604处在子位块传输生成期间执行挂起高速缓存行计算。在此实施例中,子位块传输生成器1604计算并在下游发送每子位块传输的高速缓存行数(NumCLPerSubBlt)。在另一个实施例中,NumCLPerSubBlt基于目的地子位块传输大小。表1图示NumCLPerSubBlt计算的一个实施例:
表1
目的地拼贴 行数 字节数 每子位块传输的高速缓存行数(NumCLPerSubBlt)
拼贴的 ClNumLines ClNumBytes Ceil(ClNumLines/4) * Ceil(ClNumBytes/16)
线性的 ClNumLines ClNumBytes Ceil(ClNumBytes/64)
图17图示子拷贝引擎1610的一个实施例。子拷贝引擎1610包括两个子缓冲器、与目的地子位块传输遍历器1704相关联的目的地子缓冲器1702以及与源子位块传输遍历器1714相关联的源子缓冲器1712。在一个实施例中,每个子位块传输在源子位块传输遍历器1714被分配给它时用NumCLPerSubBlt初始化读取计数器。在另一个实施例中,每当读取返回回来时读取计数器就被递减。每当源子缓冲器1712被解除分配时读取计数器就被重置。
类似地当目的地子位块传输遍历器1704被分配时,写入计数器被用NumCLPerSubBlt初始化并且每当写入被传送到存储器时就被递减。在一个实施例中,针对所有子拷贝引擎1610的子缓冲器来将所有读取和写入计数器加在一起以生成要传送到中央拷贝引擎1600的最终挂起高速缓存行计数值。在另一个实施例中,每当挂起高速缓存行计数值相等时调度器1606实现循环算法。
根据一个实施例,当子位块传输被调度给子拷贝引擎1610时子缓冲器被指派给子位块传输。在这样的实施例中,(例如,在重叠表面情况下)通过设置依赖性使能位并且指派标识当前子位块传输依赖于的子缓冲器的相关子缓冲器标识符(id)来生成依赖性结构。依赖性结构提供链表结构,其中每个子项等待其父级完成。
在一个实施例中,当被指派给子拷贝引擎1610时源子位块传输遍历器1714将包括读取请求的所有子位块传输传送到存储器。随后,目的地子位块传输遍历器1704启动所有写入以在所有存储器读取请求返回并且本地缓冲器满时将在源读取期间检索到的数据写入到目的地存储器位置。
为了发起与子位块传输相关联的写入,子位块传输遍历器1704可以等待针对子缓冲器的所有读取完成,或者等待当前子位块传输依赖于的前一个子位块传输完成。由于存储器读取返回可能是乱序的,所以一个子位块传输的读取可能被稍后调度成在较早地调度的子位块传输之前完成。如果不存在依赖性则可以完成针对这样的子位块传输的写入。
根据一个实施例,子拷贝引擎1610包括用于解决上述问题的依赖性处置逻辑(DHL) 1703。图18图示DHL 1703的一个实施例。在一个实施例中,每个子缓冲器1810存储依赖性使能位和它依赖于的子缓冲器Id (例如,Dep_info)。每个子拷贝引擎1610向其他子拷贝引擎1610广播在当前时钟周期中被处置的子缓冲器Id。
匹配逻辑1820使依赖性信息与传入完成总线相匹配。在一个实施例中,有效匹配的最大数量等于子拷贝引擎1610的数量。解码器1830对在当前时钟中解析了依赖性的子缓冲器1810进行解码和输出。输出然后被存储并被存储在FIFO 1840中。在一个实施例中,FIFO 1840的输出包括竞争目的地写入遍历器分配的子缓冲器ID。这些子缓冲器使用循环仲裁机制来顺序地调度以选择要向分配有目的地子位块传输遍历器1704的子缓冲器Id。
根据一个实施例,拷贝引擎1510还可以经由清除颜色总线对可压缩表面执行快速清除和解析操作。如上面所讨论的,每个拷贝或填充命令被认为是位块传输。然而,可以执行快速清除过程以用清除值初始化表面并且解析压缩表面。在一个实施例中,快速清除过程像图19中所示出的那样实现用于将要快速清除的总表面分割为多个位块传输区域的位块传输创建算法。
图19示出要快速清除的表面1900,其提供可以用来用指定值(例如,清除值)填充表面的机制。这样的表面与对应的元数据相关联并且拷贝引擎1510添加用于用最少写入集来更新所关联的元数据的高效机制。拷贝引擎1500将输入表面1900划分成要清除的多个位块传输区域1-5。表2提供在X、Y坐标中定义的区域1-5的边界定义。
如表2中所示,表面1900的区域1、2、3和5不是要清除的64K块(部分)的倍数,然而区域4被以必须被清除的64K的整数倍调整大小。可以用单个特殊写入来更新与64K块相对应的元数据。对于部分表面(例如,区域1、2、3和5)来说,与区域4相比较要求更多的写入周期来更新元数据。此机制设法使用最少写入以便更新元数据以便快速清除表面1900。
通常,对每个表面的拷贝或填充操作被视为单个位块传输。然而对于快速清除操作,表面1900像图19中所示出的那样被分割成最多5个区域(1、2、3、4和5)。下表2示出如何创建每个区域的边界。这些区域或位块传输然后被单独地分割成子位块传输。
表2
区域 X开始 X结束 Y开始 Y结束 FCLEAR_PARTIAL
1 X1 X2 Y1 Yas 1
2 X1 X2 Yae Y2 1
3 X1 Xas Yas Yae 1
5 Xae X2 Yas Yae 1
4 Xas Xae Yas Yae 0
在一个实施例中,可以将位块传输创建算法定义为:
Figure DEST_PATH_IMAGE001
该算法试图创建为64K的倍数的最大可能的区域作为区域4。结果,该算法试图找到该区域的64K对齐的水平和垂直边界。还以一方式遍历非对齐区域(例如,其中该区域的所有水平/垂直界限不是64K对齐的),使得要求针对元数据更新的最少写入。这将非均匀步幅用于遍历。
上面描述的拷贝引擎提供页面感知分层硬件,其中在页面级别下管理依赖性,并且高速缓存行级拷贝操作由被实现来使存储器带宽饱和的并行子拷贝引擎管理。附加地,拷贝引擎辨识压缩表面并且可以以压缩或未压缩格式将这样的压缩表面的一部分拷贝到另一表面。拷贝引擎1510使用GPU中可用的公共压缩硬件来实现压缩/解压缩。
以下条款和/或示例和另外的实施例或示例有关。可以在一个或多个实施例中任何地方使用示例中的详情。不同的实施例或示例的各种特征可以与所包括的一些特征和所排除的其他特征不同地组合以适合各种不同的应用。示例可以包括诸如下列的主题:方法;用于执行所述方法的行为的装置;包括指令的至少一个机器可读介质,所述指令当由机器执行时,使所述机器执行所述方法的或根据本文描述的实施例和示例的用于便于混合通信的装置或系统的行为。
一些实施例和示例1有关,所述示例1包括一种便于拷贝表面数据的装置,所述装置包括:拷贝引擎硬件,所述拷贝引擎硬件用于接收要将表面数据从存储器中的源位置存取到所述存储器中的目的地位置的命令,将所述表面数据划分成多个表面数据子块,处理所述表面数据子块以计算用于每个高速缓存行执行存储器存取的虚拟地址。
示例2包括根据示例1所述的主题,其中所述拷贝引擎包括中央拷贝引擎,所述中央拷贝引擎用于接收所述存取命令并从给定输入表面生成所述子块并且将所述子块提交给多个子块拷贝引擎,所述多个子块拷贝引擎对那些子块并行地操作并且执行拷贝/填充操作所要求的必要的存储器存取。
示例3包括根据示例1和2所述的主题,其中所述中央拷贝引擎包括:子块生成器,所述子块生成器用于将所述表面数据划分成所述表面数据子块;以及队列,所述队列用于使所述表面数据子块排队以便于传送到所述多个拷贝引擎。
示例4包括根据示例1至3所述的主题,其中所述中央拷贝引擎进一步包括命令处理器,所述命令处理器用于接收一个或多个存取命令分组,解释包括在所述一个或多个存取命令分组中的命令并且生成用于执行存取操作的参数。
示例5包括根据示例1至4所述的主题,其中所述中央拷贝引擎进一步包括调度器,所述调度器用于从所述队列接收所述表面数据子块并且对所述表面数据子块进行调度以便在所述多个子拷贝引擎处处理。
示例6包括根据示例1至5所述的主题,其中所述调度器基于所述多个子拷贝引擎中的每一个处的当前子块处理负荷来对所述表面数据子块进行调度。
示例7包括根据示例1至6所述的主题,其中所述多个子拷贝引擎中的每一个均包括用于启发式地计算挂起高速缓存行计数以确定所述子块处理负荷的逻辑。
示例8包括根据示例1至7所述的主题,其中所述调度器将所述表面数据子块调度给具有最低挂起高速缓存行计数的所述子拷贝引擎。
示例9包括根据示例1至8所述的主题,其中所述多个子拷贝引擎中的每一个均进一步包括:源子缓冲器;源子块遍历器,所述源子块遍历器被耦合到所述源子缓冲器;目的地子缓冲器;以及目的地子块遍历器,所述目的地子块遍历器被耦合到所述目的地子缓冲器。
示例10包括根据示例1至9所述的主题,其中所述源子块遍历器向所述存储器传送表面数据子块读取请求,而所述目的地子块遍历器向所述存储器传送表面数据子块写入请求。
示例11包括根据示例1至10所述的主题,其中所述多个子拷贝引擎中的每一个均进一步包括用于处置来自存储器的高速缓存行数据的乱序返回的依赖性处置逻辑。
一些实施例和示例12有关,所述示例12包括一种便于拷贝表面数据的方法,包括:接收要将表面数据从存储器中的源位置存取到所述存储器中的目的地位置的命令,将所述表面数据划分成多个表面数据子块,处理所述表面数据子块以计算要执行对所述存储器的存取的虚拟地址并且执行所述存储器存取。
示例13包括根据示例12所述的主题,其中,接收所述命令包括:接收一个或多个存取命令分组;解释包括在所述一个或多个存取命令分组中的命令;以及生成用于执行存取操作的参数。
示例14包括根据示例12和13所述的主题,进一步包括对所述表面数据子块进行调度以便在多个子拷贝引擎处处理。
一些实施例和示例15有关,所述示例15包括一种便于拷贝表面数据的系统,所述系统包括:存储器,所述存储器用于存储表面数据;以及拷贝引擎硬件,所述拷贝引擎硬件被耦合到所述存储器,以接收要将表面数据从存储器中的源位置存取到所述存储器中的目的地位置的命令,将所述表面数据划分成多个表面数据子块,处理所述表面数据子块以计算要执行对所述存储器的存取的虚拟地址并且执行所述存储器存取。
示例16包括根据示例15所述的主题,其中所述拷贝引擎包括:中央拷贝引擎,所述中央拷贝引擎用于接收所述存取命令并生成所述表面数据子块;以及多个子拷贝引擎,所述多个子拷贝引擎用于并行地操作以处理所述表面数据子块并执行所述存储器存取。
示例17包括根据示例15和16所述的主题,其中所述中央拷贝引擎包括:子块生成器,所述子块生成器用于将所述表面数据划分成所述表面数据子块;以及队列,所述队列用于使所述表面数据子块排队以便于传送到所述多个拷贝引擎。
示例18包括根据示例15至17所述的主题,其中所述中央拷贝引擎进一步包括命令处理器,所述命令处理器用于接收一个或多个存取命令分组,解释包括在所述一个或多个存取命令分组中的命令并且生成用于执行存取操作的参数。
示例19包括根据示例15至18所述的主题,其中所述中央拷贝引擎进一步包括调度器,所述调度器用于从所述队列接收所述表面数据子块并且对所述表面数据子块进行调度以便在所述多个子拷贝引擎处处理。
示例20包括根据示例15至19所述的主题,其中所述调度器基于所述多个子拷贝引擎中的每一个处的当前子块处理负荷来对所述表面数据子块进行调度。
示例21包括根据示例15至20所述的主题,其中所述多个子拷贝引擎中的每一个均进一步包括:源子缓冲器;源子块遍历器,所述源子块遍历器被耦合到所述源子缓冲器;目的地子缓冲器;以及目的地子块遍历器,所述目的地子块遍历器被耦合到所述目的地子缓冲器。
示例22包括根据示例15至21所述的主题,其中所述源子块遍历器向所述存储器传送表面数据子块读取请求,而所述目的地子块遍历器向所述存储器传送表面数据子块写入请求。
一些实施例和示例23有关,所述示例23包括一种便于拷贝表面数据的装置,所述装置包括:拷贝引擎硬件,所述拷贝引擎硬件具有子块生成器以通过将表面划分成一个或多个块并且将所述所述一个或多个块划分成具有多个大小的多个子块来执行所述表面的快速清除。
示例24包括根据示例23所述的主题,其中每个子块被按不同的步幅遍历以生成最少数量的元数据更新写入周期。
已在上面参考具体实施例描述了本发明。然而,本领域的技术人员应理解的是,在不脱离如所附权利要求中阐述的本发明的更广精神和范围的情况下,可以对本发明做出各种修改和改变。因此,前面的描述和附图将在说明性而不是限制性意义上被考虑。

Claims (24)

1.一种便于拷贝表面数据的装置,所述装置包括:
拷贝引擎硬件,所述拷贝引擎硬件用于接收要将表面数据从存储器中的源位置存取到所述存储器中的目的地位置的命令,将所述表面数据划分成多个表面数据子块,处理所述表面数据子块以计算要执行对所述存储器的存取的虚拟地址并且执行所述存储器存取。
2.根据权利要求1所述的装置,其中所述拷贝引擎包括:
中央拷贝引擎,所述中央拷贝引擎用于接收所述存取命令并生成所述表面数据子块;以及
多个子拷贝引擎,所述多个子拷贝引擎用于并行地操作以处理所述表面数据子块并执行所述存储器存取。
3.根据权利要求2所述的装置,其中所述中央拷贝引擎包括:
子块生成器,所述子块生成器用于将所述表面数据划分成所述表面数据子块;以及
队列,所述队列用于使所述表面数据子块排队以便于传送到所述多个拷贝引擎。
4.根据权利要求3所述的装置,其中所述中央拷贝引擎进一步包括命令处理器,所述命令处理器用于接收一个或多个存取命令分组,解释包括在所述一个或多个存取命令分组中的命令并且生成用于执行存取操作的参数。
5.根据权利要求3所述的装置,其中所述中央拷贝引擎进一步包括调度器,所述调度器用于从所述队列接收所述表面数据子块并且对所述表面数据子块进行调度以便在所述多个子拷贝引擎处处理。
6.根据权利要求5所述的装置,其中所述调度器基于所述多个子拷贝引擎中的每一个处的当前子块处理负荷来对所述表面数据子块进行调度。
7.根据权利要求6所述的装置,其中所述多个子拷贝引擎中的每一个均包括用于计算挂起高速缓存行计数以确定所述子块处理负荷的逻辑。
8.根据权利要求7所述的装置,其中所述调度器将基于的所述表面数据子块调度给具有最低挂起高速缓存行计数的所述子拷贝引擎。
9.根据权利要求7所述的装置,其中所述多个子拷贝引擎中的每一个均进一步包括:
源子缓冲器;
源子块遍历器,所述源子块遍历器被耦合到所述源子缓冲器;
目的地子缓冲器;以及
目的地子块遍历器,所述目的地子块遍历器被耦合到所述目的地子缓冲器。
10.根据权利要求9所述的装置,其中所述源子块遍历器向所述存储器传送表面数据子块读取请求,而所述目的地子块遍历器向所述存储器传送表面数据子块写入请求。
11.根据权利要求10所述的装置,其中所述多个子拷贝引擎中的每一个均进一步包括用于依赖于请求的高速缓存行读取的乱序返回而处置写入请求的排序的依赖性处置逻辑。
12.一种便于拷贝表面数据的方法,包括:
接收要将表面数据从存储器中的源位置存取到所述存储器中的目的地位置的命令;
将所述表面数据划分成多个表面数据子块;
处理所述表面数据子块以计算要执行对所述存储器的存取的虚拟地址;并且
执行所述存储器存取。
13.根据权利要求12所述的方法,其中接收所述命令包括:
接收一个或多个存取命令分组;
解释包括在所述一个或多个存取命令分组中的命令;以及
生成用于执行存取操作的参数。
14.根据权利要求12所述的方法,进一步包括对所述表面数据子块进行调度以便在多个子拷贝引擎处处理。
15.一种便于拷贝表面数据的系统,包括:
存储器,所述存储器用于存储表面数据;以及
拷贝引擎硬件,所述拷贝引擎硬件被耦合到所述存储器,以接收要将表面数据从存储器中的源位置存取到所述存储器中的目的地位置的命令,将所述表面数据划分成多个表面数据子块,处理所述表面数据子块以计算要执行对所述存储器的存取的虚拟地址并且执行所述存储器存取。
16.根据权利要求15所述的系统,其中所述拷贝引擎包括:
中央拷贝引擎,所述中央拷贝引擎用于接收所述存取命令并生成所述表面数据子块;以及
多个子拷贝引擎,所述多个子拷贝引擎用于并行地操作以处理所述表面数据子块并执行所述存储器存取。
17.根据权利要求16所述的系统,其中所述中央拷贝引擎包括:
子块生成器,所述子块生成器用于将所述表面数据划分成所述表面数据子块;以及
队列,所述队列用于使所述表面数据子块排队以便于传送到所述多个拷贝引擎。
18.根据权利要求17所述的系统,其中所述中央拷贝引擎进一步包括命令处理器,所述命令处理器用于接收一个或多个存取命令分组,解释包括在所述一个或多个存取命令分组中的命令并且生成用于执行存取操作的参数。
19.根据权利要求18所述的系统,其中所述中央拷贝引擎进一步包括调度器,所述调度器用于从所述队列接收所述表面数据子块并且对所述表面数据子块进行调度以便在所述多个子拷贝引擎处处理。
20.根据权利要求19所述的装置,其中所述调度器基于所述多个子拷贝引擎中的每一个处的当前子块处理负荷来对所述表面数据子块进行调度。
21.根据权利要求20所述的系统,其中所述多个子拷贝引擎中的每一个均进一步包括:
源子缓冲器;
源子块遍历器,所述源子块遍历器被耦合到所述源子缓冲器;
目的地子缓冲器;以及
目的地子块遍历器,所述目的地子块遍历器被耦合到所述目的地子缓冲器。
22.根据权利要求21所述的系统,其中所述源子块遍历器向所述存储器传送表面数据子块读取请求,而所述目的地子块遍历器向所述存储器传送表面数据子块写入请求。
23.一种便于拷贝表面数据的装置,所述装置包括:
拷贝引擎硬件,所述拷贝引擎硬件具有子块生成器以通过将表面划分成一个或多个块并且将所述一个或多个块划分成具有多个大小的多个子块来执行所述表面的快速清除。
24.根据权利要求23所述的系统,其中每个子块被按不同的步幅遍历以生成最少数量的元数据更新写入周期。
CN202010101629.0A 2019-03-19 2020-02-19 分布式拷贝引擎 Pending CN111724294A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/358463 2019-03-19
US16/358,463 US10901647B2 (en) 2019-03-19 2019-03-19 Distributed copy engine

Publications (1)

Publication Number Publication Date
CN111724294A true CN111724294A (zh) 2020-09-29

Family

ID=72334199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010101629.0A Pending CN111724294A (zh) 2019-03-19 2020-02-19 分布式拷贝引擎

Country Status (3)

Country Link
US (3) US10901647B2 (zh)
CN (1) CN111724294A (zh)
DE (1) DE102020107554A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10901647B2 (en) 2019-03-19 2021-01-26 Intel Corporation Distributed copy engine
US11880686B2 (en) * 2022-06-16 2024-01-23 Ampere Computing Llc Devices transferring cache lines, including metadata on external links

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6016540A (en) * 1997-01-08 2000-01-18 Intel Corporation Method and apparatus for scheduling instructions in waves
JP4376040B2 (ja) * 2003-11-27 2009-12-02 株式会社日立製作所 複数のプロセッサを用いて情報処理を行う装置及び方法
US8838901B2 (en) * 2010-05-07 2014-09-16 International Business Machines Corporation Coordinated writeback of dirty cachelines
KR20140042420A (ko) * 2012-09-28 2014-04-07 에스케이하이닉스 주식회사 반도체 장치 및 그 동작 방법
KR20140042501A (ko) 2012-09-28 2014-04-07 에스케이하이닉스 주식회사 반도체 장치 및 그 동작 방법
US10095526B2 (en) * 2012-10-12 2018-10-09 Nvidia Corporation Technique for improving performance in multi-threaded processing units
US9720601B2 (en) * 2015-02-11 2017-08-01 Netapp, Inc. Load balancing technique for a storage array
US10163180B2 (en) * 2015-04-29 2018-12-25 Qualcomm Incorporated Adaptive memory address scanning based on surface format for graphics processing
US10684891B2 (en) * 2016-03-11 2020-06-16 Intel Corporation Memory operand descriptors
CN109726794B (zh) * 2017-10-27 2024-03-12 谷歌有限责任公司 基于关注的图像生成神经网络
US10901647B2 (en) 2019-03-19 2021-01-26 Intel Corporation Distributed copy engine

Also Published As

Publication number Publication date
US20200301597A1 (en) 2020-09-24
DE102020107554A1 (de) 2020-09-24
US20210232334A1 (en) 2021-07-29
US11360686B2 (en) 2022-06-14
US11775195B2 (en) 2023-10-03
US20220229576A1 (en) 2022-07-21
US10901647B2 (en) 2021-01-26

Similar Documents

Publication Publication Date Title
US11210841B2 (en) Apparatus and method for implementing bounding volume hierarchy (BVH) operations on tesselation hardware
CN111427680A (zh) 分布式图形设备上的工作负载调度和分发
US11593260B2 (en) Memory compression hashing mechanism
CN112384900A (zh) 用于实现自适应页面大小的转换后备缓冲器
US20200311042A1 (en) Hardware index mapping mechanism
US11775195B2 (en) Distributed copy engine
CN110956685A (zh) 粗略计算着色
US11579878B2 (en) Register sharing mechanism to equally allocate disabled thread registers to active threads
CN113094298A (zh) 对共享本地存储器进行分区的机制
US10579382B2 (en) Method and apparatus for a scalable interrupt infrastructure
US10726605B2 (en) Method and apparatus for efficient processing of derived uniform values in a graphics processor
US20190034326A1 (en) Dynamic configuration of caches in a multi-context supported graphics processor
US10969999B2 (en) Surface property tracking mechanism
CN112817882A (zh) 并行解压缩机制
US10839478B2 (en) Accumulator pooling mechanism
EP3618007A1 (en) Apparatus and method for runtime training of a denoising machine learning engine
CN111667396A (zh) 用于支持每命令多个遍历器的系统和方法
CN111754382A (zh) 使用平面存储器映射来控制表面访问
US10691603B2 (en) Cache partitioning mechanism
US20200183697A1 (en) Apparatus and method for widened simd execution within a constrained register file
US10831483B1 (en) Memory mapped virtual doorbell mechanism
US10733692B2 (en) Interface apparatus and method resilient to graphics hardware changes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination