CN107077717A

CN107077717A - 促进计算设备上的图形处理单元上的工作负荷执行的动态流水线化

Info

Publication number: CN107077717A
Application number: CN201580063100.1A
Authority: CN
Inventors: J·N·拉奥; P·K·兰卡
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2014-12-18
Filing date: 2015-10-21
Publication date: 2017-08-18
Anticipated expiration: 2035-10-21
Also published as: WO2016099653A1; CN107077717B; EP3234906A1; EP3234906A4; EP3234906B1; US10068306B2; US20160180486A1

Abstract

描述了一种机制，该机制用于促进计算设备上的图形处理单元处的工作负荷执行的动态流水线化。如本文中所描述的各实施例的一种方法包括：产生命令缓冲区，该命令缓冲区具有与要在图形处理单元(GPU)处被执行的多个工作负荷相关的多个内核；使要在GPU处进行处理的工作负荷流水线化，其中流水线化包括基于资源线程的可用性和与每个内核相关的一个或多个依赖性事件的状态中的至少一者而对要被执行的每个内核相对于所述多个内核的其他内核进行调度。

Description

促进计算设备上的图形处理单元上的工作负荷执行的动态流水线化

技术领域

本文中所描述的各实施例一般涉及计算机。更具体地，各实施例涉及用于促进计算设备上的图形处理单元处的工作负荷执行的动态流水线化的机制。

背景

在计算设备中，图形处理单元(GPU)擅长(excel at)并行处理，因为它们能够繁衍(spawn)数千个线程以用并行方式处理数据，诸如，使用解决并行数据处理问题的通用图形处理单元(GPGPU)。然而，常规技术在节约计算资源方面(诸如在最大化线程与高速缓存利用率等方面)不够有效。

附图说明

各实施例作为示例而非限制在所附附图中示出，在附图中，同样的参考编号指代同样的元件。

图1是根据实施例的数据处理系统的框图。

图2是处理器的实施例的框图，所述处理器具有一个或多个处理器核、集成存储器控制器以及集成图形处理器。

图3是图形处理器的一个实施例的框图，所述图形处理器可以是分立的图形处理单元，或可以是与多个处理核集成的图形处理器。

图4是用于图形处理器的图形处理引擎的实施例的框图；

图5是图形处理器的另一实施例的框图。

图6示出线程执行逻辑，所述线程执行逻辑包括在图形处理引擎的一个实施例中采用的处理元件的阵列。

图7是示出根据实施例的图形处理器执行单元指令格式的框图。

图8是图形处理器的另一实施例的框图，所述图形处理器包括图形流水线、媒体流水线、显示引擎、线程执行逻辑以及渲染输出流水线。

图9A是示出根据实施例的图形处理器命令格式的框图，以及图9B是示出根据实施例的图形处理器命令序列的框图。

图10示出根据实施例的用于数据处理系统的示例性图形软件架构。

图11示出了根据一个实施例的采用动态流水线化工作负荷执行机制的计算设备。

图12示出了根据一个实施例的动态流水线化工作负荷执行机制。

图13示出了根据一个实施例的用于流水线化并执行工作负荷的事务序列。

图14示出了根据一个实施例的用于流水线化并执行工作负荷的方法。

具体实施方式

在以下描述中，陈述了多个具体细节。然而，可在不具有这些特定细节的情况下实践本文中所述的诸实施例。在其他实例中，没有详细示出公知的电路、结构以及技术，以便不至于使对本描述的理解变得模糊。

各实施例提供了用于促进多个GPGPU工作负荷的动态流水线化与有效调度以及执行以用于在GPU处进行处理的技术。例如，可通过在GPU上执行相关联的程序内核来在GPU上执行工作负荷。在一个实施例中，可以流水线方式来检测并调度GPGPU工作负荷，该流水线方式允许在不需要停止计算设备的情况下执行多个工作负荷。以此方式，节省了系统资源，诸如最大化线程与高速缓存利用率等。

各实施例提供了GPU计算运行时间/驱动器逻辑，该GPU计算运行时间/驱动器逻辑采用了用于在不必要求任何附加硬件的情况下促进多个工作负荷的并行调度的机制。各实施例提供了在时间、功率与资源等方面相当有效的技术，并进一步提供了无缝且有效的并行处理路径。

此外，各实施例将由一个或多个应用所施加的任何数量与类型的事件和/或标准纳入考虑，该事件和/或标准在一些实现中可能必须在工作负荷的无缝并行处理可被执行之前首先被满足。例如，在GPU是生产者以及消费者的一些情况下，可能必须在其他消费者线程可开始之前完成一个或多个线程。类似地，例如，在GPU是生产者并且另一设备(例如，中央处理单元(CPU)等)是消费者的一些情况下，事件可需要被串行化并且串行化事件可被插入以通知另一设备；并且相反地，当另一设备是生产者而GPU是消费者时，GPU消费者可停止直到生产者准备好。进一步地，在一些实现中，对于跨多个队列的命令同步或当应用请求将被满足时，主机可能需要接收工作负荷完成的通知。

可以构想到，例如，开放计算语言(OpenCL^TM)(诸如，OpenCL^TM2.0)被认为是用于GPU相关的计算的工业标准应用编程接口(API)并提供在不需要返回主机的情况下允许内核入队的嵌套并行的新的图形范式。例如，在一些实施例中，OpenCL^TM2.0可用于提供直接访问并在不必涉及CPU或没有采用新硬件(能够创建命令包的硬件调度器)的情况下提供对内核的使用。进一步地，例如且在一个实施例中，OpenCL^TM软件应用可提交命令(对命令排队)并随后清除队列以将工作提交给GPU。软件应用可对多个内核进行排队并随后对GPU驱动器进行清除以使工作流水线化，其中，驱动器执行如将贯穿本文档进一步描述的用于使工作负荷流水线化的实施例。

可以构想到，当提及GPU时，内核可被视为计算机程序，该计算机程序从软件应用接收输入查询并将它们转换成例如用于CPU以及计算系统的其他组件的数据处理指令。

概述——图1-3

图1是根据实施例的数据处理系统100的框图。数据处理系统100包括一个或多个处理器102以及一个或多个图形处理器108，并且可以是单处理器台式系统、多核工作站系统或具有大量处理器102或处理器核107的服务器系统。在一个实施例中，数据处理系统100是在移动设备、手持式设备或嵌入式设备中使用的片上系统集成电路(SOC)。

数据处理系统100的实施例可包括或可并入以下各项内：基于服务器的游戏平台、游戏控制台(包括游戏和媒体控制台、移动游戏控制台、手持式游戏控制台或在线游戏控制台)。在一个实施例中，数据处理系统100是移动电话、智能电话、平板计算设备或移动互联网设备。数据处理系统100也可包括可穿戴设备，可与可穿戴设备耦合或可集成在可穿戴设备内，所述可穿戴设备诸如，智能手表可穿戴设备、智能眼镜设备、增强现实设备或虚拟现实设备。在一个实施例中，数据处理系统100是电视机或机顶盒设备，所述电视机或机顶盒设备具有一个或多个处理器102以及由一个或多个图形处理器108生成的图形界面。

一个或多个处理器102各自都包括一个或多个处理器核107，所述一个或多个处理器核107用于处理指令，所述指令当被执行时，执行用于系统和用户软件的操作。在一个实施例中，一个或多个处理器核107中的每一个都配置成处理特定的指令集109。指令集109可促进复杂指令集计算(CISC)、精简指令集计算(RISC)或经由超长指令字(VLIW)的计算。多个处理器核107各自都可处理不同的指令集109，不同的指令集109可包括用于促进对其他指令集的仿真的指令。处理器核107也可包括其他处理设备，诸如，数字信号处理器(DSP)。

在一个实施例中，处理器102包括高速缓存存储器104。取决于架构，处理器102可具有单个内部高速缓存或多级内部高速缓存。在一个实施例中，高速缓存存储器在处理器102的各种组件之间共享。在一个实施例中，处理器102也使用可利用已知的高速缓存一致性技术而在处理器核107之间共享的外部高速缓存(例如，第3级(L3)高速缓存或末级高速缓存(LLC))(未示出)。寄存器堆106附加地包括在处理器102中，寄存器堆106可包括用于存储不同类型数据的不同类型的寄存器(例如，整数寄存器、浮点寄存器、状态寄存器以及指令指针寄存器)。一些寄存器可以是通用寄存器，而其他寄存器可专用于处理器102的设计。

处理器102耦合至处理器总线110以在处理器102与系统100中的其他组件之间传输数据信号。系统100使用示例性“中枢”系统架构，所述示例性“中枢”系统架构包括存储器控制器中枢116和输入输出(I/O)控制器中枢130。存储器控制器中枢116促进存储器设备与系统100的其他组件之间的通信，而I/O控制器中枢(ICH)130提供经由本地I/O总线至I/O设备的连接。

存储器设备120可以是动态随机存取存储器(DRAM)设备、静态随机存取存储器(SRAM)设备、闪存设备或具有适当的性能以充当进程存储器的某个其他存储器设备。存储器120可存储用于在处理器102执行进程时使用的数据122和指令121。存储器控制器中枢116也与任选的外部图形处理器112耦合，所述任选的外部图形处理器112可与处理器102中的一个或多个图形处理器108通信以执行图形和媒体操作。

ICH 130使外围设备能够经由高速I/O总线而连接至存储器120和处理器102。IO外围设备包括音频控制器146、固件接口128、无线收发机126(例如，Wi-Fi、蓝牙)、数据存储设备124(例如，硬盘驱动器、闪存等)以及用于将旧式(legacy)(例如，个人系统2(PS/2))设备耦合至系统的旧式I/O控制器。一个或多个通用串行总线(USB)控制器142连接输入设备(诸如，键盘和鼠标144的组合)。网络控制器134也可耦合至ICH 130。在一个实施例中，高性能网络控制器(未示出)耦合至处理器总线110。

图2是处理器200的实施例的框图，所述处理器具有一个或多个处理器核102A-N，集成存储器控制器114以及集成图形处理器208。处理器200可包括附加的核，所述附加的核多至由虚线框表示的附加核102N并包括由虚线框表示的附加核202N。核102A-N中的每一个都包括一个或多个内部高速缓存单元104A-N。在一个实施例中，每一个核都具有对一个或多个共享高速缓存单元106的访问权。

内部高速缓存单元104A-N和共享高速缓存单元106表示处理器200内的高速缓存存储器层次结构。高速缓存存储器层次结构可包括每一个核内的至少一个层级的指令和数据高速缓存以及一个或多个层级的共享的中间级高速缓存(诸如，第2级(L2)、第3级(L3)、第4级(L4)或其他层级高速缓存)，其中，在外部存储器之前的最高层级的高速缓存被分类为末级高速缓存(LLC)。在一个实施例中，高速缓存一致性逻辑维持各种高速缓存单元106与104A-N之间的一致性。

处理器200也可包括一组一个或多个总线控制器单元116和系统代理110。一个或多个总线控制器单元管理一组外围总线(诸如，一个或多个外围组件互连总线(例如，PCI、PCI Express))。系统代理110提供用于各种处理器组件的管理功能。在一个实施例中，系统代理110包括用于管理对各种外部存储器设备(未示出)的访问的一个或多个集成存储器控制器114。

在一个实施例中，核102A-N中的一个或多个包括对同时的多线程操作的支持。在此类实施例中，系统代理110包括用于在多线程处理期间协调并操作核102A-N的组件。系统代理110可附加地包括功率控制单元(PCU)，所述PCU包括用于调节核102A-N和图形核208的功率状态的逻辑和组件。

处理器200附加地包括用于执行图形处理操作的图形处理器208。在一个实施例中，图形处理器208与一组共享高速缓存单元106以及系统代理单元110耦合，系统代理单元110包括一个或多个集成存储器控制器114。在一个实施例中，显示控制器211与图形处理器208耦合，以将图形处理器输出驱动至一个或多个所耦合的设备。显示控制器211可以是经由至少一个互连而与图形处理器耦合的分开的模块，或者可以集成在图形处理器208或系统代理110内。

在一个实施例中，使用基于环的互连单元112来耦合处理器200的多个内部组件，然而可使用替代的互连单元，诸如，点对点互连、交换互连或其他技术(包括本领域中公知的技术)。在一个实施例中，图形处理器208经由I/O链路213来与环形互连112耦合。

示例性I/O链路213表示各种各样的I/O互连中的至少一者，所述I/O互连包括促进各种处理器组件与高性能嵌入式存储器模块218(诸如，eDRAM模块)之间的通信的封装I/O互连。在一个实施例中，核102-N和图形处理器208中的每一者都将嵌入式存储器模块218用作共享的末级高速缓存。

在一个实施例中，核102A-N是执行相同的指令集架构的同构核。在另一实施例中，核102A-N就指令集架构(ISA)方面而言是异构的，其中，核102A-N中的一个或多个执行第一指令集，而其他核中的至少一个执行第一指令集的子集或不同的指令集。

处理器200可以是一个或多个基板的部分，或可使用各种工艺技术中的任一技术而实现在一个或多个基板上，所述工艺技术例如，互补式金属-氧化物半导体(CMOS)、双极结型/互补式金属-氧化物半导体(BiCMOS)或N型金属-氧化物-半导体逻辑(NMOS)。附加地，处理器200可实现在一个或多个芯片上，或可实现为片上系统(SOC)集成电路，所述SOC集成电路除其他组件之外还具有所示组件。

图3是图形处理器300的一个实施例的框图，所述图形处理器300可以是分立的图形处理单元，或可以是与多个处理核集成的图形处理器。在一个实施例中，经由至图形处理器上的寄存器的存储器映射的I/O接口，并且经由置入处理器存储器中的命令来与图形处理器通信。图形处理器300包括用于访问存储器的存储器接口314。存储器接口314可以是至以下各项的接口：本地存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存和/或系统存储器。

图形处理器300也包括用于将显示输出数据驱动到显示设备320的显示控制器302。显示控制器302包括用于显示的一个或多个覆盖平面(overlay plane)以及视频或用户接口元件的多个层的综合的硬件。在一个实施例中，图形处理器300包括用于将媒体编码至一个或多个媒体编码格式、从一个或多个媒体编码格式解码或在一个或多个媒体编码格式之间转码的视频编解码引擎306，所述媒体编码格式包括但不限于：移动图片专家组(MPEG)格式(诸如，MPEG-2)、高级视频译码(AVC)格式(诸如，H.264/MPEG-4AVC)以及电影电视工程师协会(SMPTE)421M/VC-1，以及联合图像专家组(JPEG)格式(诸如，JPEG和运动JPEG(MJPEG)格式)。

在一个实施例中，图形处理器300包括用于执行二维(2D)光栅化(rasterizer)操作(包括例如位边界块转移)的块图像转移(BLIT)引擎304。然而，在一个实施例中，使用图形处理引擎(GPE)310的一个或多个组件来执行2D图形操作。图形处理引擎310是用于执行图形操作(包括三维(3D)图形操作和媒体操作)的计算引擎。

GPE 310包括用于执行3D操作的3D流水线312，所述3D操作诸如，使用作用于3D基元形状(例如，矩形、三角形等)的处理函数来渲染三维图像和场景。3D流水线312包括可编程和固定功能元件，所述可编程和固定功能元件执行元件内的各种任务和/或繁衍(spawn)执行线程至3D/媒体子系统315。当3D流水线312可用于执行媒体操作时，GPE 310的实施例也包括专门用于执行媒体操作(诸如，视频后处理和图像增强)的媒体流水线316。

在一个实施例中，媒体流水线316包括用于执行一个或多个专业媒体操作的固定功能或可编程逻辑单元，所述专业媒体操作诸如，取代或代表视频编解码引擎306的视频解码加速、视频去隔行(de-interlacing)以及视频编码加速。在一个实施例中，媒体流水线316附加地包括用于繁衍出供在3D/媒体子系统315上执行的线程的线程繁衍单元。所繁衍的线程在3D/媒体子系统中所包括的一个或多个图形执行单元上执行用于媒体操作的计算。

3D/媒体子系统315包括用于执行由3D流水线312和媒体流水线316繁衍的线程的逻辑。在一个实施例中，流水线将线程执行请求发送至3D/媒体子系统315，所述3D/媒体子系统315包括用于仲裁各种请求并将各种请求分派至可用的线程执行资源的线程分派逻辑。执行资源包括用于处理3D和媒体线程的图形执行单元的阵列。在一个实施例中，3D/媒体子系统315包括用于线程指令和数据的一个或多个内部高速缓存。在一个实施例中，子系统也包括用于在多个线程之间共享数据并用于存储输出数据的共享存储器，所述共享存储器包括寄存器和可寻址存储器。

3D/媒体处理——图4

图4是用于图形处理器的图形处理引擎410的实施例的框图。在一个实施例中，图形处理引擎(GPE)410是图3中示出的GPE 310的某个版本。GPE 410包括3D流水线412和媒体流水线416，其中的每一者可以与图3的3D流水线312和媒体流水线316的实现方式不同或类似。

在一个实施例中，GPE 410与命令流送器403耦合，所述命令流送器403将命令流提供至GPE 3D和媒体流水线412、416。命令流送器403耦合至存储器，所述存储器可以是系统存储器、或者内部高速缓存存储器和共享高速缓存存储器中的一个或多个。命令流送器403从存储器接收命令，并且将这些命令发送至3D流水线412和/或媒体流水线416。3D和媒体流水线通过以下方式来处理命令：通过经由相应流水线内的逻辑来执行操作；或通过将一个或多个执行线程分派至执行单元阵列414。在一个实施例中，执行单元阵列414是可缩放的，使得此阵列包括基于GPE 410的目标功率和性能等级的可变数量的执行单元。

采样引擎430与存储器(例如，高速缓存存储器或系统存储器)和执行单元阵列414耦合。在一个实施例中，采样引擎430提供用于可缩放执行单元阵列414的存储器访问机制，所述存储器访问机制允许执行阵列414从存储器读取图形和媒体数据。在一个实施例中，采样引擎430包括用于为媒体执行专业图像采样操作的逻辑。

采样引擎430中的专业媒体采样逻辑包括去噪/去隔行模块432、运动估计模块434以及图像缩放和过滤模块436。去噪/去隔行模块432包括用于对经解码的视频数据执行去噪或去隔行中的一者或多者的逻辑。去隔行逻辑将隔行的(interlaced)视频内容的交替场组合为单个视频帧。去噪逻辑降低或去除来自视频和图像数据的数据噪声。在一个实施例中，去噪逻辑和去隔行逻辑是运动自适应的，并且基于在视频数据中检测到的运动量来使用空间或时间上的过滤。在一个实施例中，去噪/去隔行模块432包括专用运动检测逻辑(例如，在运动估计引擎434内)。

运动估计引擎434通过对视频数据执行视频加速功能(诸如，运动向量估计和预测)来提供对视频操作的硬件加速。运动估计引擎确定运动向量，所述运动向量描述图像数据在相继的视频帧之间的变换。在一个实施例中，图形处理器媒体编解码器使用视频运动估计引擎434以在宏块层级上执行对视频的操作，所述在宏块层级上对视频的操作原本可能是计算密集型的以使用通用处理器来执行。在一个实施例中，运动估计引擎434一般可用于图形处理器组件以辅助视频解码和处理功能，所述视频解码和处理功能对视频数据内的运动的方向和幅度是敏感的或自适应于视频数据内的运动的方向或幅度。

图像缩放和过滤模块436执行图像处理操作以增强所生成的图像和视频的视觉质量。在一个实施例中，缩放和过滤模块436在将数据提供至执行单元阵列414之前的采样操作期间处理图像和视频数据。

在一个实施例中，图形处理引擎410包括数据端口444，所述数据端口444为图形子系统提供访问存储器的附加机制。数据端口444促进用于操作的存储器访问，所述操作包括渲染目标写入、恒定缓冲器读取、抓取存储器空间读取/写入以及媒体表面访问。在一个实施例中，数据端口444包括用于对存储器的访问进行高速缓存的高速缓存存储器空间。高速缓存存储器可以是单个数据高速缓存，或者可分离为用于经由数据端口来访问存储器的多个子系统的多个高速缓存(例如，渲染缓冲器高速缓存、恒定缓冲器高速缓存，等等)。在一个实施例中，在执行单元阵列414中的执行单元上执行的线程通过经由数据分配互连交换消息来与数据端口通信，所述数据分配互连耦合图形处理引擎410的子系统中的每一个。

执行单元——图5-7

图5是图形处理器的另一实施例的框图。在一个实施例中，图形处理器包括环形互连502、流水线前端504、媒体引擎537和图形核580A-N。环形互连502将图形处理器耦合至其他处理单元(包括其他图形处理器或一个或多个通用处理器核)。在一个实施例中，图形处理器是集成在多核处理系统内的许多处理器中的一个。

图形处理器经由环形互连502接收批量命令。传入的命令由流水线前端504中的命令流送器503解释。图形处理器包括用于经由(多个)图形核580A-N来执行3D几何处理和媒体处理的可缩放执行逻辑。对于3D几何处理命令，命令流送器503将命令供应至几何流水线536。对于至少一些媒体处理命令，命令流送器503将命令供应至视频前端534，所述视频前端534与媒体引擎537耦合。媒体引擎537包括用于视频和图像后处理的视频质量引擎(VQE)530以及用于提供硬件加速的媒体数据编码和解码的多格式编码/解码(MFX)533引擎。几何流水线536和媒体引擎537各自都生成用于由至少一个图形核580A提供的线程执行资源的执行线程。

图形处理器包括可缩放线程执行资源，所述可缩放线程执行单元特征为模块化核580A-N(有时称为核片(core slice))，每一个模块化核都具有多个子核550A-N、560A-N(有时称为核子片(core sub-slice))。图形处理器可具有任何数量的图形核580A至580N。在一个实施例中，图形处理器包括图形核580A，所述图形核580A至少具有第一子核550A和第二核子核560A。在另一实施例中，图形处理器是具有单个子核(例如，550A)的低功率处理器。在一个实施例中，图形处理器包括多个图形核580A-N，每一个图形核都包括第一子核的集合550A-N以及第二子核的集合560A-N。第一子核的集合550A-N中的每一个子核都至少包括执行单元552A-N和媒体/纹理采样器554A-N的第一集合。第二子核的集合560A-N中的每一个子核都至少包括执行单元562A-N和采样器564A-N的第二集合。在一个实施例中，每一个子核550A-N、560A-N都共享一组共享资源570A-N。在一个实施例中，共享资源包括共享高速缓存存储器和像素操作逻辑。其他共享资源也可包括在图形处理器的各种实施例中。

图6示出线程执行逻辑600，所述线程执行逻辑600包括在图形处理引擎的一个实施例中采用的处理元件的阵列。在一个实施例中，线程执行逻辑600包括像素着色器602、线程分派器604、指令高速缓存606、包括多个执行单元608A-N的可缩放执行单元阵列、采样器610、数据高速缓存612和数据端口614。在一个实施例中，所包括的组件经由互连结构被互连，所述互连结构链接至组件中的每一个组件。线程执行逻辑600包括通过指令高速缓存606、数据端口614、采样器610和执行单元阵列608A-N中的一者或多者而至存储器(诸如，系统存储器或高速缓存存储器)的一个或多个连接。在一个实施例中，每一个执行单元(例如，608A)是能够为每一个线程并行地执行多个同时的线程并处理多个数据元素的单独的向量处理器。执行单元阵列608A-N包括任何数量的单独执行单元。

在一个实施例中，执行单元阵列608A-N主要用于执行“着色器”程序。在一个实施例中，阵列608A-N中的执行单元执行包括对许多标准的3D图形着色器指令的原生支持的指令集，使得以最少的转换来执行来自图形库(例如，Direct 3D和OpenGL)的着色器程序。执行单元支持顶点和几何处理(例如，顶点程序、几何程序、顶点着色器)、像素处理(例如，像素着色器、碎片着色器)和通用处理(例如，计算和媒体着色器)。

执行单元阵列608A-N中的每一个执行单元对数据元素的数组进行操作。数据元素的数量是“执行尺寸”或用于指令的通道数量。执行通道是用于数据元素访问、掩码和指令内的流控制的执行的逻辑单元。通道的数量可独立于用于特定的图形处理器的物理ALU或FPU的数量。执行单元608A-N支持整数和浮点数据类型。

执行单元指令集包括单指令多数据(SEVID)指令。各种数据元素可作为紧缩数据类型被存储在寄存器中，并且执行单元将基于元素的数据尺寸来处理各种元素。例如，当对256位宽的向量操作时，向量的256个位被存储在寄存器中，并且执行单元将此向量操作为四个单独的64位紧缩数据元素(四字(QW)尺寸的数据元素)、八个单独的32位紧缩数据元素(双字(DW)尺寸的数据元素)、十六个单独的16位紧缩数据元素(字(W)尺寸的数据元素)、或三十二个单独的8位数据元素(字节(B)尺寸的数据元素)。然而，不同的向量宽度和寄存器尺寸是可能的。

一个或多个内部指令高速缓存(例如，606)被包括在线程执行逻辑600中以对用于执行单元的线程指令进行高速缓存。在一个实施例中，一个或多个数据高速缓存(例如，612)被包括以对线程执行期间的线程数据进行高速缓存。采样器610被包括在内，以便为3D操作提供纹理采样，并为媒体操作提供媒体采样。在一个实施例中，采样器610包括专用纹理或媒体采样功能，用于在将所采样的数据提供至执行单元之前的采样过程期间处理纹理或媒体数据。

在执行期间，图形和媒体流水线经由线程繁衍和分派逻辑而将线程发起请求发送至线程执行逻辑600。线程执行逻辑600包括本地线程分派器604，所述本地线程分派器604仲裁来自图形和媒体流水线的线程发起请求，并且在一个或多个执行单元608A-N上实例化所请求的线程。例如，几何流水线(例如，图5的536)将顶点处理、曲面细分(tessellation)或集合处理线程分派至线程执行逻辑600。线程分派器604也可处理来自执行着色器程序的运行时线程繁衍请求。

一旦一组几何对象已被处理并光栅化为像素数据，就调用像素着色器602，以便进一步计算输出信息并使结果被写入输出表面(例如，颜色缓冲器、深度缓冲器、模板缓冲器等)。在一个实施例中，像素着色器602计算将跨光栅化的对象而被插值的各种顶点属性的值。随后，像素着色器602执行API供应的像素着色器程序。为了执行像素着色器程序，像素着色器602经由线程分派器604而将线程分派至执行单元(例如，608A)。像素着色器602使用采样器610中的纹理采样逻辑来访问存储在存储器中的纹理映射中的纹理数据。对纹理数据和输入几何数据的算术操作计算用于每一个几何碎片的像素颜色数据，或丢弃一个或多个像素而不进行进一步处理。

在一个实施例中，数据端口614提供存储器访问机制，以供线程执行逻辑600将经处理的数据输出到存储器，从而在图形处理器输出流水线上进行处理。在一个实施例中，数据端口614包括或耦合至一个或多个高速缓存存储器(例如，数据高速缓存612)，所述高速缓存存储器用于对用于经由数据端口进行的存储器访问的数据进行高速缓存。

图7是示出根据实施例的图形处理器执行单元指令格式的框图。在一个实施例中，图形处理器执行单元支持具有按照多种格式的指令的指令集。实线框示出一般被包括在执行单元指令中的组件，而虚线框包括任选的且仅被包括在指令的子集中的组件。所述和所示的指令格式是宏指令，体现在它们是供应至执行单元的指令，这与一旦指令经处理就由指令解码而得到的微操作相对照。

在一个实施例中，图形处理器执行单元原生地支持按照128位格式710的指令。基于所选择的指令、指令选项或操作数的数量，64位压缩的指令格式730可用于一些指令。原生的128位格式710提供对所有指令选项的访问，而在64位格式730中，一些选项和操作是受限的。在64位格式730中可用的原生指令随实施例不同而变化。在一个实施例中，使用索引字段713中的索引值集合来部分地压缩指令。执行单元硬件基于索引值来引用压缩表的集合，并且使用压缩表输出来重构按照128位格式710的原生指令。

对于每一种格式，指令操作码712定义执行单元将执行的操作。执行单元遍及(across)每一个操作数的多个数据元素地并行执行每一个指令。例如，响应于加法指令，执行单元遍及(across)表示纹理元素或图片元素的每一个颜色通道地执行同时的加法操作。默认地，执行单元跨操作数的所有数据通道执行每一条指令。指令控制字段712允许对某些执行选项(诸如，通道选择(例如，预测)和数据通道顺序(例如，拌和(swizzle)))的控制。对于128位指令710，执行尺寸(exec-size)字段716限制将被并行地执行的数据通道的数量。执行尺寸字段716不可用于64位紧凑的指令格式730。

一些执行单元指令具有多达三个操作数，这三个操作数包括两个源操作数scr0722、scr1 722以及一个目的地718。在一个实施例中，执行单元支持双目的地指令，其中目的地中的一个是隐含的。数据操纵指令可具有第三源操作数(例如，SRC2 724)，其中，指令操作码JJ12确定源操作数的数量。指令的最后一个源操作数可以是利用指令传递的立即数(例如，硬编码的)值。

在一个实施例中，基于操作码位字段对指令分组以简化操作码解码740。对于8位操作码，位4、5和6允许执行单元确定操作码的类型。示出的精确的操作码分组是示例性的。在一个实施例中，移动和逻辑操作码组742包括数据移动和逻辑指令(例如，mov,cmp)。移动和逻辑组742共享五个最高有效位(MSB)，其中，移动指令是0000xxxxb(例如，0x0x)形式的，并且逻辑指令是0001xxxxb(例如，0x01)形式的。流控制指令组744(例如，call,jmp)包括0010xxxxb(例如，0x20)形式的指令。混杂的指令组746包括指令的拌和，包括0011xxxxb(例如，0x30)形式的同步指令(例如，wait,send)。并行的数学指令组748包括0100xxxxb(例如，0x40)形式的逐成分的算术指令(例如，add,mul)。并行的数学组748跨数据通道并行地执行算术操作。向量数学组750包括0101xxxxb(例如,0x50)形式的算术指令(例如，dp4)。向量数学组对向量操作数执行算术(诸如，点积计算)。

图形流水线——图8

图8是图形处理器的另一实施例的框图，所述图形处理器包括图形流水线820、媒体流水线830、显示引擎840、线程执行逻辑850以及渲染输出流水线870。在一个实施例中，图形处理器是包括一个或多个通用处理核的多核处理系统内的图形处理器。图形处理器通过对一个或多个控制寄存器(未示出)的寄存器写入或经由通过环形互连802而发布至图形处理器的命令而受控。环形互连802将图形处理器耦合至其他处理组件(诸如，其他图形处理器或通用处理器)。由命令流送器803解释来自环形互连的命令，所述命令流送器803将指令供应至图形流水线820或媒体流水线830的各个组件。

命令流送器803指导顶点取出器805组件的操作，所述顶点取出器805从存储器读取顶点数据，并且执行由命令流送器803提供的顶点处理命令。顶点取出器805将顶点数据提供给顶点着色器807，所述顶点着色器807对每一个顶点执行坐标空间变换和照明操作。顶点取出器805和顶点着色器807通过经由线程分派器831将执行线程分派至执行单元852A、852B来执行顶点处理指令。

在一个实施例中，执行单元852A、852B是具有用于执行图形和媒体操作的指令集的向量处理器的阵列。执行单元852A、852B具有附连的L1高速缓存851，所述附连的L1高速缓存专用于每一个阵列或在多个阵列之间被共享。高速缓存可配置为数据高速缓存、指令高速缓存、或经分区以在不同的分区中包含数据和指令的单个高速缓存。

在一个实施例中，图形流水线820包括曲面细分组件,用于执行对3D对象的硬件加速的曲面细分。可编程壳体(hull)着色器811配置曲面细分操作。可编程域着色器817提供对曲面细分输出的后端评估。曲面细分器813在壳体着色器811的指示下操作，并且包含专用逻辑，所述专用逻辑用于基于作为输入而被提供至图形流水线820的粗糙的几何模型来生成精细的几何对象的集合。如果不使用曲面细分，则可绕过曲面细分组件811、813、817。

可由几何着色器819经由分派至执行单元852A、852B的一个或多个线程来处理完整的几何对象，或完整的几何对象可直接继续到裁剪器829。几何着色器对整个几何对象操作，而不是像在图形流水线的先前的级中那样对顶点或顶点微片处理。如果禁用曲面细分，则几何着色器819从顶点着色器807接收输入。几何着色器819是可由几何着色器程序编程的，以便在禁用曲面细分单元时执行几何曲面细分。

在光栅化之前，由裁剪器829处理顶点数据，所述裁剪器829是固定功能裁剪器或具有裁剪和几何着色器功能的可编程裁剪器。在一个实施例中，渲染输出流水线870中的光栅化器873分派像素着色器以将几何对象转换为它们各自的像素表示。在一个实施例中，像素着色器逻辑被包括在线程执行逻辑850中。

图形引擎具有允许数据和消息在图形引擎的主要组件之间传送的互连总线、互连结构或某个其他互连机制。在一个实施例中，执行单元852A、852B和相关联的(多个)高速缓存851、纹理和媒体采样器854、以及纹理/采样器高速缓存858经由数据端口856互连，以执行与图形引擎的渲染输出流水线组件的存储器访问和通信。在一个实施例中，采样器854、高速缓存851、858和执行单元852A、852B各自都具有分开的存储器访问路径。

在一个实施例中，渲染输出流水线870包含将基于顶点的对象转换为它们相关联的基于像素的表示的光栅化器和深度测试组件873。在一个实施例中，光栅化逻辑包括用于执行固定功能三角和直线光栅化的窗口器/掩码器单元。在一个实施例中，相关联的渲染和深度缓冲器高速缓存878、879也是可用的。像素操作组件877对数据执行基于像素的操作，但是在一些实例中，与2D操作相关联的像素操作(例如，利用混合(blend)进行的位块图像转移)由2D引擎841执行，或在显示时由显示控制器843使用上层的显示平面来替代。在一个实施例中，共享的L3高速缓存875可用于所有的图形组件，从而允许在不使用主系统存储器的情况下共享数据。

图形处理器媒体流水线830包括媒体引擎337和视频前端834。在一个实施例中，视频前端834从命令流送器803接收流水线命令。然而，在一个实施例中，媒体流水线830包括分开的命令流送器。视频前端834在将命令发送至媒体引擎837之前处理媒体命令。在一个实施例中，媒体引擎包括线程繁衍功能，以便繁衍用于经由线程分派器831而分派至线程执行逻辑850的线程。

在一个实施例中，图形引擎包括显示引擎840。在一个实施例中，显示引擎840在图形处理器外部，并且经由环形互连802或某个其他互连总线或结构而与图形处理器耦合。显示引擎840包括2D引擎841和显示控制器843。显示引擎840包含能够独立于3D流水线操作的专用逻辑。显示控制器843与显示设备(未示出)耦合，所述显示设备可以是如在膝上型计算机中的系统集成的显示设备或经由显示设备连接器而附连的外部显示设备。

图形流水线820和媒体流水线830可配置以基于多个图形和媒体编程接口来执行操作，并且不专用于任何一个应用编程接口(API)。在一个实施例中，用于图形处理器的驱动器软件将专用于特定图形或媒体库的API调用转化为可由图形处理器处理的命令。在各种实施例中，为Khronos Group所支持的开放图形库(OpenGL)和开放计算语言(OpenCL^TM)、来自微软公司的Direct3D库提供支持，或者在一个实施例中，为OpenGL和D3D两者提供支持。也可为开放源计算机视觉库(OpenCV)提供支持。如果可完成从未来API的流水线至图形处理器的流水线的映射，则也将支持兼容3D流水线的未来API。

图形流水线编程——图9A-9B

图9A是示出根据实施例的图形处理器命令格式的框图，以及图9B是示出根据实施例的图形处理器命令序列的框图。图9A中的实线框示出一般被包括在图形命令中的组件，而虚线包括任选的且仅被包括在图形命令的子集中的组件。图9A的示例性图形处理器命令格式900包括用于标识该命令的目标客户机的数据字段902、命令操作码(操作码)904以及用于命令的相关数据906。子操作码905和命令尺寸908也包括在一些命令中。

客户机902指定图形设备的处理命令数据的客户机单元。在一个实施例中，图形处理器命令解析器检查每一个命令的客户机字段以调整对命令的未来处理，并且将命令数据路由至适当的客户机单元。在一个实施例中，图形处理器客户机单元包括存储器接口单元、渲染单元、2D单元、3D单元和媒体单元。每一个客户机单元都具有处理命令的对应的处理流水线。一旦由客户机单元接收到命令，此客户机单元就读取操作码904以及子操作码905(如果存在)，以便确定将执行的操作。客户机单元使用命令的数据906字段中的信息来执行命令。对于一些命令，预期有显式的命令尺寸908来指定命令的尺寸。在一个实施例中，命令解析器基于命令操作码自动地确定命令中的至少一些命令的尺寸。在一个实施例中，命令经由双字的倍数而对准。

图9B中的流程图示出采样命令序列910。在一个实施例中，以图形处理器的实施例为特征的数据处理系统的软件或固件使用所示的命令序列的某个版本来建立、执行并终止图形操作的集合。出于示例性目的示出并描述采样命令序列，然而，实施例不限于这些命令，也不限于此命令序列。此外，命令能以命令序列中的批量命令被发布，使得图形处理器将以至少部分地并发的方式来处理命令序列。

取样命令序列910能以流水线转储清除(flush)命令912开始，以使任何活动的流水线完成用于流水线的当前待定的命令。在一个实施例中，3D流水线922和媒体流水线924不并发地操作。执行流水线转储清除以使活动的图形流水线完成任何待定的命令。响应于流水线转储清除，用于图形处理器的命令解析器将暂停命令处理，直到活动的绘制引擎完成待定的操作且相关读取高速缓存被无效为止。任选地，渲染高速缓存中被标记为“脏”(dirty)的任何数据可转储清除至存储器。”流水线转储清除命令912可用于流水线同步，或可在将图形处理器置于低功率状态之前使用。

当命令序列要求图形处理器在多个流水线之间显式地切换时，使用流水线选择命令913。除非上下文将为两个流水线发布命令，否则在发布流水线命令之前，在执行上下文内，流水线选择命令913仅需要一次。在一个实施例中，紧接着经由流水线选择命令913进行的流水线切换之前，需要流水线转储清除命令912。

流水线控制命令914配置用于操作的图形流水线，并且用于对3D流水线922和媒体流水线924编程。流水线控制命令914为活动的流水线配置流水线状态。在一个实施例中，流水线控制命令914用于流水线同步，并且用于在处理批量命令之前，清除来自活动的流水线内的一个或多个高速缓存存储器的数据。

返回缓冲器状态命令916用于配置供相应的流水线用于写入数据的返回缓冲器的集合。一些流水线操作需要对一个或多个返回缓冲器的分配、选择或配置，在处理期间，操作将中间数据写入到所述一个或多个返回缓冲器中。图形处理器也使用一个或多个返回缓冲器以存储输出数据并执行跨线程通信。返回缓冲器状态916包括选择用于流水线操作集合的返回缓冲器的尺寸和数量。

命令序列中的其余命令基于用于操作的活动的流水线而有所不同。基于流水线确定920，命令序列被定制至以3D流水线状态930开始的3D流水线922或以媒体流水线状态940开始的媒体流水线924。

用于3D流水线状态930的命令包括用于以下状态的3D状态设置命令：顶点缓冲器状态、顶点元素状态、恒定颜色状态、深度缓冲器状态以及在处理3D基元命令之前将配置的其他状态变量。至少部分地基于使用中的特定的3D API来确定这些命令的值。3D流水线状态930命令也能够在如果不使用某些流水线元件时选择性地禁用或绕过那些元件。

3D基元932命令用于提交将由3D流水线处理的3D基元。经由3D基元932命令而被传递至图形处理器的命令和相关联的参数被转发至图形流水线中的顶点取出函数。顶点取出函数使用3D基元932命令数据来生成顶点数据结构。顶点数据结构被存储在一个或多个返回缓冲器中。3D基元932命令用于经由顶点着色器对3D基元执行顶点操作。为了处理顶点着色器，3D流水线922将着色器执行线程分派至图形处理器执行单元。

3D流水线922经由执行934命令或事件来触发。在一个实施例中，寄存器写入触发命令执行。在一个实施例中，经由命令序列中的“go”(“走”)或“kick”(“踢除”)命令来触发执行。在一个实施例中，使用流水线同步命令以通过图形流水线来转储清除命令序列来触发命令执行。3D流水线将为3D基元执行几何处理。一旦操作完成，得到的几何对象被光栅化，并且像素引擎对得到的像素上色。用于控制像素着色和像素后端操作的附加命令也可被包括以用于那些操作。

当执行媒体操作时，采样命令序列910跟随媒体流水线924路径。一般而言，用于媒体流水线924的编程的特定使用和方式取决于将执行的媒体或计算操作。在媒体解码期间，特定的媒体解码操作可卸载至媒体流水线。也可绕过媒体流水线，并且可使用由一个或多个通用处理核提供的资源完全地或部分地执行媒体解码。在一个实施例中，媒体流水线也包括用于通用图形处理器单元(GPGPU)操作的元件，其中，图形处理器用于使用与图形基元的渲染不是显式相关的计算着色器程序来执行SIMD向量操作。

以与3D流水线922类似的方式来配置媒体流水线924。媒体流水线状态命令940的集合被分派或置入到命令序列中并在媒体对象命令942之前。媒体流水线状态命令940包括用于配置将用于处理媒体对象的媒体流水线元件的数据。这包括用于配置媒体流水线内的视频解码和视频编码逻辑的数据，诸如，编码或解码格式。媒体流水线状态命令940也支持使用指向包含批量状态设置的“间接”状态元素的一个或多个指针。

媒体对象命令942提供指向用于由媒体流水线处理的媒体对象的指针。媒体对象包括包含待处理的视频数据的存储器缓冲器。在一个实施例中，在发布媒体对象命令942之前，所有媒体流水线状态都必须是有效的。一旦流水线状态经配置，并且媒体对象命令942经排队列，媒体流水线924就经由执行934命令或等效的执行事件(例如，寄存器写入)来触发。随后，可通过由3D流水线922或媒体流水线924提供的操作对来自媒体流水线924的输出进行后处理。在一个实施例中，以与媒体操作类似的方式来配置和执行GPGPU操作。

图形软件架构——图10

图10示出根据实施例的用于数据处理系统的示例性图形软件架构。软件架构包括3D图形应用1010、操作系统1020以及至少一个处理器1030。处理器1030包括图形处理器1032以及一个或多个通用处理器核1034。图形应用1010和操作系统1020各自都在数据处理系统的系统存储器1050中执行。

在一个实施例中，3D图形应用1010包含一个或多个着色器程序，所述着色器程序包括着色器指令1012。着色器语言指令可以是高级着色器语言(诸如，高级着色器语言(HLSL)或OpenGL着色器语言(GLSL))中的。应用也包括适用于由通用处理器核1034执行的机器语言中的可执行指令1014。应用也包括由顶点数据定义的图形对象1016。

操作系统1020可以是来自微软公司的微软操作系统、专属的类UNIX操作系统、或使用Linux内核的变体的开放源类UNIX操作系统。当Direct3D API在使用中时，操作系统1020使用前端着色器编译器1024以将HLSL中的任何着色器指令1012编译为低级着色器语言。编译可以是即时(just-in-time)编译，或应用可执行共享预编译。在一个实施例中，在3D图形应用1010的编译期间，高级着色器被编译为低级着色器。

用户模式图形驱动器1026可包含后端着色器编译器1027以将着色器指令1012编译为硬件专用表示。当OpenGL API在使用中时，GLSL高级语言中的着色器指令1012被传递至用户模式图形驱动器1026以进行编译。用户模式图形驱动器使用操作系统内核模式函数1028来与内核模式图形驱动器1029通信。内核模式图形驱动器1029与图形处理器1032通信以分派命令和指令。

就本文中所描述的各种操作和功能的程度而言，它们可被描述或定义为硬件电路、软件代码、指令、配置和/或数据。内容可具体化在硬件逻辑中，或可具体化为直接可执行的软件(“目标”或“可执行”形式)、源代码、设计成用于在图形引擎上执行的高级着色器代码或用于特定处理器或图形核的指令集中的低级汇编语言代码。本文中所述的实施例的软件内容可经由具有存储于其上的内容的制品来提供，或者可经由操作通信接口以便经由此通信接口来发送数据的方法来提供。

非暂态机器可读存储介质可使机器执行所描述的功能或操作，并且包括以可由机器(例如，计算设备、电子系统等)访问形式存储信息的任何机制，诸如，可记录/非可记录介质(例如，只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪存设备等)。通信接口包括对接至硬连线的、无线的、光学介质等中的任一者以向另一设备通信的任何机制，诸如，存储器总线接口、处理器总线接口、网际连接、盘控制器等。通信接口通过以下方式来配置，提供配置参数或发送信号以使通信接口准备好提供描述软件内容的数据信号。可经由发送至该通信接口的一个或多个命令或信号来访问此通信接口。

所描述的各种组件可以是用于执行所描述的操作或功能的装置。本文所述的每个组件包括软件、硬件、或者软件和硬件的组合。组件可实现为软件模块、硬件模块、专用硬件(例如，专用硬件、专用集成电路(ASIC)、数字信号处理器(DSP)等)、嵌入式控制器、硬连线电路等。除了本文中所述的内容之外，还可对本发明的所公开的实施例和实现方式进行各种修改而不背离它们的范围。因此，本文中的示例和范例应当被解释成解说性的，而非限制性的。本发明的范围应当仅通过参照所附权利要求书来界定。

图11示出了根据一个实施例的采用动态流水线化的工作负荷执行机制1110的计算设备1100。计算设备1100(例如，移动计算设备)可以与图1的数据处理系统100相同，并因此，为了简洁与易于理解起见，如上参考图1-10所述的细节中的很多在下文中不进一步讨论或重复。

计算设备1100可包括移动计算设备(例如，智能手机、平板计算机、膝上型计算机、游戏控制台、便携式工作站等)，该移动计算设备用作用于主控(host)动态流水线化的工作负荷执行机制(“工作负荷机制”)1110的主机，所述动态流水线化的工作负荷执行机制1110用于促进基于动态图形域的流水线调度与多个工作负荷(也被称作“命令包”、“命令分组”、“分组”、“包”或简称为“命令”)的执行。

工作负荷机制1110可包括用于执行各种任务以促进基于GPU的有效工作负荷调度与执行(诸如，在计算设备1110的GPU 1114处)的任何数量与类型的部件，如将贯穿该文件进一步描述的。应当注意，贯穿该文件，类似“图形域”之类的术语可与“图形处理单元”互换地引用或简单地与“GPU”互换地引用，并且类似地，“CPU域”或“主机域”可与“计算机处理单元”互换地引用，或简单地与“CPU”互换地引用。

计算设备1100可包括任何数量与类型的通信设备，诸如大型计算设备(诸如，服务器计算机、台式计算机等等)，并可进一步包括机顶盒(例如，基于互联网的有线电视机顶盒等)、基于全球定位系统(GPS)的设备等。

计算设备1100可包括用作通信设备的移动计算设备，诸如包括智能手机的蜂窝电话、个人数字助理(PDA)、平板计算机、膝上型计算机、电子阅读器、智能电视、电视平台、可穿戴设备(诸如，眼镜、手表、手链、智能卡、珠宝、服装制品等)、媒体播放器等。

例如，在一个实施例中，计算设备1100可包括采用集成电路(“IC”)的移动计算设备(诸如片上系统(“SoC”或“SOC”)，该集成电路在单个芯片上集成了计算设备1100的各种硬件和/或软件组件。

如所示，在一个实施例中，除了采用工作负荷机制1110之外，计算设备1100可进一步包括任何数量与类型的硬件组件和/或软件组件，诸如(但不限于)CPU 1112、具有主控工作负荷机制1110的图形驱动器逻辑1116的GPU1114、存储器1108、网络设备、驱动器等等，以及输入/输出(I/O)源1104(诸如，触摸屏、触摸面板、触板、虚拟或常规键盘、虚拟或常规鼠标、端口、连接器等)。计算设备1100可包括操作系统(OS)1106，其用作计算机设备1100的硬件和/或物理资源与用户之间的接口。可以构想，CPU 1112可包括一个或多个处理器，诸如图1的处理器102，而GPU 1114可包括一个或多个图形处理器，诸如图1的图形处理器108。在一个实施例中且如将参考后续附图进行进一步描述的，工作负荷机制1110可与其主机驱动逻辑1116通信，该主机驱动逻辑1116与GPU 1114协作，以如贯穿本文档进行描述地去促进促成基于GPU的命令的并行调度的任何数量与类型的任务。

值得注意的是，贯穿本文档，可互换地使用像“节点”、“计算节点”、“服务器”、“服务器设备”“云计算机”、“云服务器”、“云服务器计算机”、“机器”、“主机”、“设备”、“计算设备”、“计算机”、“计算系统”等之类的术语。应当进一步注意的是，贯穿本文档，可互换地使用像“应用”、“软件应用”、“程序”、“软件程序”、“包”、“软件包”等之类的术语。同样，贯穿本文档，可互换地使用像“作业”、“输入”、“请求”、“消息”等之类的术语。

可以构想并参考图1-10进一步描述的，如上描述的图形流水线的某些过程在软件中实现，而其余则在硬件中实现。可在图形协处理器设计中实现图形流水线，其中，CPU1112被设计成与可包括在CPU 1112中或与CPU 1112共同定位(co-located)的GPU 1114一起工作。在一个实施例中，GPU 1114可采用用于执行与图形渲染相关的常规功能的任何数量与类型的常规软件与硬件逻辑，以及用于执行任何数量与类型的指令(诸如图1的指令121)以执行贯穿本文档所公开的工作负荷机制1110的各种新奇功能的新型软件与硬件逻辑。

如前文提及的，存储器1108可包括包含具有对象信息的应用数据库的随机存取存储器(RAM)。存储器控制器中枢(诸如，图1的存储器控制器中枢116)可访问RAM中的数据并将其转发到GPU 1114以用于图形流水线处理。RAM可包括双数据速率的RAM(DDR RAM)、扩展数据输出RAM(EDO RAM)等。CPU 1112与硬件图形流水线(如参考图3所示)交互，以共享图形流水线功能。经处理的数据存储在硬件图形流水线中的缓冲区中，且状态信息存储在存储器1108中。所得的图像随后被转移到显示组件或设备(诸如，图3的显示设备320)以用于显示。可以构想，显示设备可以是各种类型的(诸如，阴极射线管(CRT)、薄膜晶体管(TFT)、液晶显示器(LCD)、有机发光二极管(OLED)阵列等)以向用户显示信息。

存储器1108包括预先分配的缓冲器(例如，帧缓冲器)区域；然而，本领域普通技术人员应当理解，实施例不限于此，且可以使用可访问较低图形流水线的任何存储器。计算设备1100可进一步包括如在图1中引用的输入/输出(I/O)控制中枢(ICH)130、一个或多个I/O设备等。

CPU 1112可包括用于执行指令的一个或多个处理器，以便执行计算系统实现的无论什么软件例程。指令经常涉及对数据执行的某类操作。数据与指令两者都可被存储在系统存储器1108以及任何相关联的高速缓存中。高速缓存通常设计成具有比系统存储器1108更短的延迟时间；例如，高速缓存可被集成到与处理器相同的硅片上和/或用较快的静态RAM(SRAM)单元来构造，同时系统存储器1108可用较慢的动态RAM(DRAM)来构造。通过趋向于在与系统存储器1108相对的高速缓存中存储较频繁使用的指令和数据，改善了计算设备1100的整体性能效率。可构想到，在一些实施例中，GPU 1114可作为CPU 1112的一部分(诸如，物理CPU封装的一部分)而存在，在此情况下，存储器1108可由CPU 1112与GPU 1114共享或保持分离。

可使系统存储器1108可用于计算设备1100内的其它组件。例如，从各种接口接收至计算设备1100(例如，键盘与鼠标、打印机端口、局域网(LAN)端口、调制调节器端口等)的任何数据(例如，输入图形数据)或从计算机设备1100的内部存储元件(例如，硬盘驱动器)检索到的任何数据在它们被软件程序执行中的一个或多个处理器操作之前经常被临时地排队进入系统存储器1108。类似地，软件程序所确定的应当通过计算系统接口之一从计算设备1100发送到外部实体或存储到内部存储元件的数据在其被发送或存储之前经常在系统存储器1108中被临时地排队。

进一步地，例如，ICH(诸如图1的ICH 130)可用于确保此类数据在系统存储器1108与其适当的对应计算系统接口(以及内部存储器件，如果计算系统是如此设计的话)之间正确地传递并可在其自身与所示I/O器件之间具有双向点到点链路。类似地，MCH(诸如图1的MCH 116)可用于管理CPU 1112与GPU 1114、接口与内部存储元件之间对于系统存储器1108访问的多种竞争请求，这些请求可能在时间上彼此紧接地出现。

I/O源1104可包括一个或多个I/O设备，该I/O设备被实现用于将数据传递到计算设备1100(例如，网络适配器)和/或传递来自计算设备1100的数据；或者，对于大规模非易失性存储而言，在计算设备1100内(例如硬盘驱动器)传递数据。包括字母数字及其他键的用户输入设备可用于将信息和命令选择通信到GPU 1114。另一类型的用户输入设备是光标控件(诸如鼠标、跟踪球、触摸屏、触板或光标方向键)，用于将方向信息和命令选择通信到GPU 1114，并用于控制显示设备上的光标移动。计算机设备1100的相机和话筒阵列可用于观察手势，记录音频和视频以及接收和传输可视化和音频命令。

计算设备1100可进一步包括用于提供对诸如LAN、广域网(WAN)、城域网(MAN)、个域网(PAN)、蓝牙、云网络、移动网络(例如，第三代(3G)等)、内联网、因特网等之类的网络的访问的网络接口。网络接口可包括例如具有天线(其可表示一个或多个天线)的无线网络接口。网络接口还可包括例如用于经由网络缆线与远程设备进行通信的有线网络接口，该网络缆线可以是例如以太网缆线、同轴电缆、光纤电缆、串行缆线或并行缆线。

网络接口可以例如通过符合IEEE 802.11b和/或IEEE 802.11g标准来提供对LAN的访问，并且/或者无线网络接口可以例如通过符合蓝牙标准来提供对个域网的访问。还可以支持其他无线网络接口和/或协议，包括先前和后续版本的标准。除经由无线LAN标准的通信之外，或代替经由无线LAN标准的通信，网络接口还可以使用例如时分多址(TDMA)协议、全球移动通信系统(GSM)协议、码分多址(CDMA)协议和/或任何其他类型的无线通信协议来提供无线通信。

网络接口可包括一个或多个通信接口，诸如，调制解调器、网络接口卡，或其他公知的接口设备(诸如，用于耦合到以太网、令牌环网或其他类型的物理有线或无线附连以便例如提供支持LAN或WAN的通信链路的那些设备。以此方式，可经由常规网络架构(包括例如，内联网或因特网)将计算机系统耦合到多个外围设备、客户机、控制面、控制台或服务器。

应当理解，对于某些实现，比上文所描述的示例更少或更多配备的系统可以是优选的。因此，取决于诸如价格约束、性能要求、技术改善或其他情况之类的众多因素，计算设备1100的配置在各实现之间不同。电子设备或计算机系统1100的示例可包括(不限于)，移动设备、个人数字助理、移动计算设备、智能电话、蜂窝电话、手持设备、单向寻呼机、双向寻呼机、消息传送设备、计算机、个人计算机(PC)、台式计算机、膝上型计算机、笔记本计算机、手持式计算机、平板计算机、服务器、服务器阵列或服务器场、web服务器、网络服务器、互联网服务器、工作站、小型计算机、大型计算机、超级计算机、网络设备、web设备、分布式计算系统、多处理器系统、基于处理器的系统、消费电子产品、可编程消费电子产品、电视机、数字电视、机顶盒、无线接入点、基站、订户站、移动订户中心、无线电网络控制器、路由器、集线器、网关、桥接器、交换机、机器或其组合。

诸实施例可以被实现为下列各项中的任何一项或其组合：使用母板互连的一个或多个微芯片或集成电路、硬连线逻辑、由存储器设备存储并由微处理器执行的软件、固件、专用集成电路(ASIC)和/或现场可编程门阵列(FPGA)。术语“逻辑”作为示例可以包括软件、硬件和/或软件和硬件的组合。

可提供例如作为计算机程序产品的诸实施例，该计算机程序产品可以包括具有存储于其上的机器可执行指令的一种或多种机器可读介质，当由诸如计算机、计算机网络，或其他电子设备之类的一个或多个机器执行这些机器可执行指令时，这些指令可使一个或多个机器实施根据本文中所描述的诸实施例的操作。机器可读介质可包括但不限于，软盘、光盘、CD-ROM(紧致盘-只读存储器)，以及磁光盘、ROM、RAM、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦可编程只读存储器)、磁卡或光卡，闪存，或适于存储机器可执行指令的任何类型的介质/机器可读介质。

此外，各实施例还可以被作为计算机程序产品下载，其中，经由通信链路(例如，调制解调器和/或网络连接)，通过被具体化在载波或其他传播介质中和/或由载波或其他传播调制的一个或多个数据信号，可将程序从远程计算机(例如，服务器)传输到请求计算机(例如，客户机)。

图12示出了根据一个实施例的动态流水线化的工作负荷执行机制1110。在一个实施例中，工作负荷机制1110可包括任何数量与类型的组件，该组件用于在计算设备处(诸如，图11的计算设备1100)执行与促进动态与有效流水线调度以及多个工作负荷的执行相关的各种任务。例如且在一个实施例中，工作负荷机制1110可包括(但不限于)：检测与验证逻辑1201、合并内核逻辑(“合并逻辑”)1203、依赖性检查逻辑(“依赖性逻辑”)1205、数据一致性管理逻辑(“数据逻辑”)1207、状态管理逻辑(“状态逻辑”)1209、以及通信/兼容性逻辑1211。进一步示出且如参考图11前述的是，工作负荷机制1110可以是驱动器逻辑1116的一部分，该驱动器逻辑1116与GPU 1114协作，该GPU 1114进而促进与GPU 1114上的流水线中的多个工作负荷的基于GPU的并行执行相关的一个或多个任务的性能。

在一个实施例中，检测与验证逻辑1201可用于接收/检测命令缓冲区(也被称作“批量缓冲区”或简称为“命令”)，随后，该命令缓冲区可在于GPU处被处理之前由检测与验证逻辑1201进行认证/验证。例如，可构想到，正如在CPU处处理指令，在GPU处处理内核，并因此，命令缓冲区(其可包括任何数量与类型的命令)中的每个命令可与如例如由软件应用所指向的内核相关联或由如例如由软件应用所指向的内核增加。进一步构想到，新命令可以是由软件应用新发布的命令，或是被延迟达一段时间并且现在准备好进行处理的此前存储的命令，并且由此它可被检测与验证逻辑1201及时接收和/或检测到。

如将参考工作负荷机制1110的其他部件(诸如，依赖性检查逻辑1207)进一步描述的，诸如依赖性事件等之类的任何数量与类型的事件(也被称作“偶然性(contingency)事件”、“依赖性事件”，或简称为“偶然性”或“依赖性”等)和/或它们的状态可被检测与验证逻辑1201检测和认证，使得可在处理对应的命令之前恰当地处理这些事件。

当检测并验证到命令缓冲区、事件等时，在一个实施例中，合并逻辑1203可被触发以执行将工作负荷提交至GPU(诸如，GPU 1114)的操作，同时与操作系统(诸如，图11的操作系统1106)交互。例如，任何GPU工作负荷可被发送到命令缓冲区中的操作系统，该，命令缓冲区还可包含操作系统与相关硬件可能需要的任何相关联的状态信息；然而，这可导致大量的簿记(bookkeeping)(也被称作“大量开销”(“flush overhead”))为减少此大量开销，在一个实施例中，多个内核可如由合并逻辑1203所促进的那样被合并到一起成为单个命令缓冲区。该命令缓冲区可随后传递给操作系统以及任何相关的硬件以用于进一步处理，诸如，当认为系统资源不足以解析应用请求或指令时。

在一个实施例中，依赖性逻辑1205可随后用于确定在命令缓冲区中是否存在与内核相关的、对于命令缓冲区及其要被处理并完成的对应任务而言需要被满足的任何事件。例如且在一个实施例中，当使检测与验证逻辑1201如由合并逻辑1203所促进的那样使用命令缓冲区检测并验证到被流水线化的工作负荷时，正由内核使用的、与命令缓冲区相关联的任何资源可由GPU的驱动器或驱动器逻辑(诸如，经由图11的GPU 1114的驱动器逻辑1116)来维持。与维持资源一起，驱动器逻辑可进一步维持与该资源以及访问限定符的状态相关的任何信息。

如果依赖性逻辑1205检测或检查到一个或多个事件，则可插入一个或多个串行化事件；否则，命令缓冲区的内核被流水线化成在不需要插入任何串行化事件的情况下被处理。可以构想到，当此类依赖性或偶然性事件被处理或在正被解析时等待时，若干资源线程可能保持空闲，从而导致了浪费。例如，如果命令缓冲区包括要被处理的5个内核(例如，kl、k2、k3、k4、k5)，并且依赖性逻辑1205检测到软件应用要求在k2未经处理的情况下k3不能被处理，则整个命令缓冲区可能等待直到k2被处理。在一些情况下，应用可设置一条件，即可不处理k3直到k2被完全处理并完成并且在存储器中被引退，这导致甚至更大的延迟。可以构想到，如果不以特定的顺序或序列处理序列中的内核(例如，在无序序列的情况下)，继续以上示例，则可在k3等待k2被处理时处理k4与k5。

现在，例如，如果GPU具有128个线程且仅28个线程正在被k2使用，则由于k3的对k2的依赖性，进一步的处理可能必须在后续内核k3可以被处理之前等待，直到完成了在所有28个线程上进行处理的k2。在具有此类依赖性事件的该特定示例中，将近100个线程可使命令缓冲区的执行保持空闲直到完全满足依赖性事件。换言之，在没有要被满足的此依赖性事件的情况下，这些100个线程可与其他28个线程一起用于处理，从而使得系统更有效得多。

在一个实施例中，继续以上示例，依赖性逻辑1205可能检测到k2被满足之前K3不能被处理的依赖性事件，并且如果队列是有序的，则也可不开始处理k4与k5直到处理了它们的在前内核。当检测到依赖性事件时，依赖性逻辑1205可将该信息通信给合并逻辑1203，该合并逻辑1203随后可产生多个命令缓冲区(诸如，具有k1与k3的第一缓冲区，以及具有k3、k4与k5的第二缓冲区)，而不是产生具有所有五个内核kl-k5的单个命令缓冲区，并将两个命令缓冲区提交给流水线以用于在克服依赖性事件时进行处理。

在一个实施例中，数据逻辑1207可用于管理与GPU(诸如，图11的GPU1114)相关联的高速缓存，使得每个高速缓存用于其用于处理工作负荷的最大能力。由数据逻辑1207所促进的该高速缓存管理避免了或克服了强制清空GPU或强制一致的“监听”循环，从而使得可最小化任何资源损失并且可实现最高水平的性能。例如，可以构想到，GPU可具有高速缓存的分层结构，并且分层结构中的某些高速缓存可以与主操作系统是一致的，而其他高速缓存可以不是这样的。因此，在主机上清空GPU高速缓存或强制一致的“监听”循环也可影响性能。例如，GPU处的驱动器的驱动器逻辑(诸如图11的驱动器逻辑1114)可通过只在必要的时候清空高速缓冲来得当地(judiciously)管理高速缓存并且将某些表面标记为“不一致的”以便避免监听处罚。进一步地，表面类型可在决策中起作用，诸如，GPU中的纹理数据路径可与数据端口或缓冲器数据路径不同。纹理可不与主机一致，并且因此，写入纹理的工作负荷可为了正确性而清空合适的高速缓存。

因此，在一个实施例中且如前所述，高速缓存与数据一致性管理可通过数据逻辑1207来实现。

在一个实施例中，状态逻辑1209可用于在GPU上调度工作，其中，状态逻辑1209与GPU的驱动器逻辑(诸如，图11的GPU 1114的驱动器逻辑1114)协作，以编程命令缓冲区且在一些实施例中设置可以是硬件专用或软件转移的描述符。例如且在一个实施例中，如由状态逻辑1209促进的那样，可以通过执行一个或多个执行命令(诸如，GPGPU-WALKER)来调度内核线程。可在GPU内执行这些命令，且随后可由驱动器逻辑负责确保不停止GPU硬件流水线并且等待时间得以减少或消除。

在一个实施例中，状态逻辑1209可用于在发起执行命令(诸如，GPGPU-WALKER命令)之前动态地设置任何描述符。例如，GPGPU-WALKER可用作用于执行内核(例如，工作负荷)的GPU命令，其中，该命令在多个GPU线程上进行繁衍。该动态设置促进GPU在执行工作之前对状态进行编程，同时在GPGPU-WALKER可加载描述符之前，描述符写入是全局可见的，诸如，返回最后写入的数据。因此，在一个实施例中，并非使用“写入停止直到完成”，可由状态逻辑1209提供新的方案，使得后续的读取将写循环推入流水线中。此新颖与创新的技术在一个实施例中消除了由任何在后的(posted)写入所导致的流水线(例如，硬件流水线)中的停止。

在另一实施例中，数据结构(例如，硬件数据结构，诸如，接口描述符)可以是32位(例如，GPU中的高速缓存线的一半)，其中，硬件在执行内核时可缓存(cache)描述符。例如，如果经调度的后续内核使用映射到该高速缓存线的另外一半的下一个描述符，则后续的GPGPU-WALKER可获取未被监听的过期(stale)的描述符数据(例如，描述符)高速缓存。因此，驱动器逻辑(诸如图11的驱动器逻辑1116)可对描述符管理而言是智能的，以避免此类型的陷阱。

通信/兼容性逻辑1211可用于促进一个或多个计算设备(诸如，图11的计算设备1100)与以下各项之间的动态通信与兼容性：任意数量与类型的其他计算设备(诸如移动计算设备，台式计算机、服务器计算设备等)、处理设备(诸如，中央处理单元(CPU)、图形处理单元(GPU)等)、图像获取设备(诸如，相机)、显示元件(诸如，显示组件、显示设备、显示屏等)、用户/情境认知组件和/或标识/验证传感器/设备(诸如，生物计量传感器、扫描器等)、存储器或存储设备、数据库和/或数据源(诸如，数据存储设备、硬驱动器、固态驱动器、硬盘、存储器卡或设备、存储器电路等)、网络(诸如，云网络、互联网、内联网、蜂窝网络、邻近网络(诸如，蓝牙、蓝牙低能量(BLE)、蓝牙智能、Wi-Fi邻近、射频标识(RFID)、近场通信(NFC)、体域网(BAN)等))、无线或有线通信与相关协议(例如，WiMAX、以太网等)、连通性与位置管理技术、软件应用/网站(例如，诸如，等之类的社交/商业网络网站、商业应用、游戏或其他娱乐应用等)、可编程语言等，同时确保与改变技术、参数、协议、标准等的兼容性。

贯穿本文档，像“逻辑”、“组件”、“模块”、“框架”、“引擎”等之类的术语可互换地引用，并作为示例可包括软件、硬件、和/或软件与硬件的任意组合，诸如固件。进一步地，特定品牌、单词、术语、词组、名称、和/或首字母缩写词(诸如，“GPU”、“GPU域”、“CPU”、“CPU域”“线程”、“缓冲区”、“命令”、“命令缓冲区”、“批量缓冲区”、“并行”、“调度”、“流水线化”、“驱动器”、“驱动器逻辑”、“OpenCL^TM”、“内核”、“势垒”等)不应被解读成将各实施例限制成产品中或在该文件外部的文献中携带该标签的软件或设备。

可构想到，可以向工作负荷机制1110添加和/或从其中去除任何数量和类型的组件以促进包括添加、去除和/或增强某些特征的各实施例。为了简洁、清楚，并易于理解工作负荷机制1110起见，在此未示出或讨论标准和/或已知组件中的许多，诸如计算设备中的那些标准和/或已知组件。构想了本文中所描述的诸实施例不限于任何特定技术，拓扑、系统、架构和/或标准，并且它们足够动态以采用并适应于任何未来的变化。

图13示出了根据一个实施例的用于流水线化与执行GPU处的工作负荷的事务序列1300。事务序列1300可由处理逻辑来执行，该处理逻辑可以包括硬件(例如，电路、专用逻辑、可编程逻辑等)、软件(诸如，在处理设备上运行的指令)或其组合。在一个实施例中，事务序列1300可由图11-12的工作负荷机制1110来执行。为简洁与清楚呈现起见，以线性序列示出事务序列1300的过程；然而，可构想到，可以并行、异步或以不同的顺序执行任何数量的它们。为简洁起见，在下文中可不讨论或重复参考前述附图1-12所讨论的细节中的许多。

如所示，在一个实施例中，提供了要被执行以进行处理的样本代码1301(例如，伪对象约束语言(OCL)代码)。进一步地，示出了处理选项1303、1305，其中，第一处理选项不使用命令的流水线或流水线化，诸如，非流水线化的提交1303，而在一个实施例中第二处理选项使用命令的流水线或流水线化，诸如流水线化的提交1305。

如所示，示出非流水线化提交1303要长得多并具有较大数量的命令，其中，非流水线化提交1303包括多个高速缓存清除串行化，并随后继续到命令缓冲区的结束。在一个实施例中，另一方面，流水线化提交1305从一对WALKER命令的直接走到高速缓存清除并继续到命令缓冲区的结束。相应地，在所示的实施例中，非流水线化提交1303得到执行单元(EU)阵列1313，其比作为如由图11的工作负荷机制1110促进的流水线化提交1305的结果而产生的EU阵列1315大得多。如所示，在使用这些执行命令(诸如流水线走查器(例如，WALKERS))时，可实现显著的性能提升以及功率消耗的减少。

图14示出了根据一个实施例的用于在GPU处流水线化并执行工作负荷的的方法。方法1400可由处理逻辑来执行，该处理逻辑可包括硬件(例如，电路、专用逻辑、可编程逻辑等)、软件(诸如，在处理设备上运行的指令)或其组合的。在一个实施例中，方法1400可由图11-12的工作负荷机制1110来执行。为简洁与清楚呈现起见，以线性序列示出方法1400的过程；然而，可以构想，可以并行、异步或以不同的顺序执行任何数量的它们。

为简洁起见，在下文中可不讨论或重复参考前述附图1-13所讨论的细节中的许多。

方法1400在框1401处以存储正被命令缓冲区的特定内核使用的分配操作(handle)开始。分配操作包括对用户模式驱动器(UMD)从操作系统获得的存储器表面的操作。在框1403处，命令缓冲区中关于此内核的任何命令随后如由图12的合并逻辑1203以及状态逻辑1209所促进的那样被编程用于内核执行。在框1405处，作出关于是否有任何分配已存在于驱动器逻辑(诸如图12的驱动器逻辑1116)维持的分配列表中。在一个实施例中，框1405的决策过程是基于依赖性检查，该依赖性检查用于确定由图12的依赖性逻辑1205所确定并促进的命令缓冲区的内核之间的依赖性的任何偶然性。如果存在这样的列表，则在框1407处如由图12的数据逻辑1207所促进的那样作出关于分配是缓冲区还是图像的另一确定。如果分配是缓冲区，则在框1409处，可用命令处理器(例如，命令流送器(CS)停止，或STALL)修改先前内核执行的管道控制(pipe control)，并且为该缓冲区执行高速缓存清除(例如，DC清除)。然而，如果分配是图像，则在框1411处，用命令处理器(例如，命令流送器STALL)修改先前内核执行的先前管道控制，并且为纹理执行高速缓存清除(例如，层级L1、L2清除)。

在计算系统中，计算设备的中央处理单元(CPU)高速缓存指的是用于减少访问来自计算设备的主存储器的数据的平均时间的高速缓存。高速缓存一般是较小并且较快的存储器，其存储来自主存储器的经常使用的位置的数据的副本。可以构想，大多数CPU可具有以高速缓存层级的层级结构进行组织的不同的高速缓存，诸如数据高速缓存、指令高速缓存等。例如，数据高速缓存可被组织成具有如在本文件中所引用的高速缓存层级，诸如L1、L2、L3等。进一步地，可以构想到，高速缓存线被获取，并且从存储器获取单个高速缓存线所花费的时间(例如，读取延迟)可能是重要的，因为在此状态下CPU可能等待高速缓存线时做完了要执行的事情，其中CPU的此状态可被称作CPU停止或STALL，如在本文件中所称呼的那样。

返回参考框1405，在一个实施例中，如果在列表中没有分配，则处理在框1413处以另一确定而继续，如由图12的数据逻辑1207所促进的那样，此另一确定有关于此内核是否是命令缓冲区执行的最后内核。如果不是，在框1415处，不需要清除高速缓存，且在不需要使用命令处理器(例如，命令流送器STALL，以及无高速缓存清除且无操作(NOP)的先前管道控制)的情况下对管道控制进行编程(例如对此核心执行的管道控制进行编程)。如果是，则在框1417处，清除高速缓存，诸如利用命令处理器(例如，命令流送器STALL以及层级L3清除标签更新/邮箱写入)对此内核执行的管道控制进行编程。

对“一个实施例”、“实施例”、“示例实施例”、“各实施例”等等的引用指示如此描述的各实施例可包括特定特征、结构或特性，但是，不是每一个实施例都必定包括该特定特征、结构或特征。此外，一些实施例可以具有针对其他实施例所描述的特征中的一些或全部，或完全不具有这些特征。

在前述的说明书中，已经参考其特定示例性实施例描述了各实施例。然而，显然可对这些实施例作出各种修改和改变，而不背离如所附权利要求中所述的各实施例的更宽泛精神和范围。因此，说明书和附图应被认为是说明性而非限制性意义。

在所附描述以及权利要求书中，可以使用术语“耦合”及其派生词。“耦合”被用来指示两个或更多元件彼此协作或进行交互，但是，它们之间可以具有或可以不具有介于它们之间的物理组件或电组件。

如在权利要求书中所使用的那样，除非另外指定，否则用于描述共同元件的序数形容词“第一”、“第二”、“第三”等的使用仅仅指示正在指同样的元件的不同的实例，并且不旨在暗示如此所描述的元件必须按给定顺序(无论是在时间上、在空间上)，按排名或按任何其他方式。

以下条款和/或示例涉及进一步的实施例或示例。这些示例中的细节可以在一个或多个实施例中的任何地方被使用。能以各种方式将不同的实施例或示例的各种特征所包括的某些特征及被排除的其特征相结合以适应各种不同的应用。示例可包括主题，诸如，方法、用于执行所述方法的动作的装置、至少一个机器可读介质，所述机器可读介质包括指令，所述指令当由机器执行时使得机器执行所述方法、或用于根据本文中所描述的实施例与示例的促进混合通信的装置或系统的动作。

涉及示例1的一些实施例包括一种设备，该设备用于促进计算设备上的图形处理单元处的工作负荷执行的动态流水线化，所述设备包括：合并内核逻辑，其用于产生命令缓冲区(command buffer)，该命令缓冲区具有与要在图形处理单元(GPU)处被执行的多个工作负荷相关的多个内核；以及状态管理逻辑，其用于使要在GPU处进行处理的工作负荷流水线化，其中流水线化包括基于资源线程的可用性和与每个内核相关的一个或多个依赖性事件的状态中的至少一者而对要在GPU上被执行的每个内核相对于所述多个内核的其他内核进行调度。

示例2包括示例1的主题，进一步包括依赖性检查逻辑，其用于确定所述一个或多个依赖性事件的状态，其中，所述状态指示所述一个或多个依赖性事件是否保持未被解决，其中，依赖性事件包括与所述多个内核的基本内核相关的偶然性事件(contingencyevent)，该偶然性事件使得所述基本内核将被至少部分地执行以解析偶然性事件并发起对所述多个内核的一个或多个后续内核的执行。

示例3包括示例2的主题，进一步包括数据一致性管理逻辑，其用于基于所述一个或多个依赖性事件来确定资源线程的可用性，其中，确定可用性包括检测由于一个或多个依赖性事件保持未被解析而保持未被使用的一个或多个空闲资源线程。

示例4包括示例1的主题，其中，所述状态管理逻辑进一步用于获取所述一个或多个空闲资源线程，且使所述多个内核的一个或多个非依赖性内核流水线化，以用于在不需要延迟处理或停止GPU的情况下，在一个或多个后续内核等待满足所述一个或多个依赖性事件时即在一个或多个空闲资源线程上进行处理，其中所述状态管理逻辑进一步用于使一个或多个后续内核流水线化，以用于在不需要停止GPU的情况下，在满足一个或多个依赖性事件时即在GPU处进行处理。

示例5包括示例4的主题，其中，所述状态管理逻辑进一步用于使所述一个或多个后续内核流水线化，以用于在不需要停止GPU的情况下，在满足一个或多个依赖性事件时即在GPU处进行处理。

示例6包括示例1的主题，其中，所述资源线程包括GPU硬件线程、命令缓冲区、可执行代码以及存储器堆(memory heap)中的一个或多个。

示例7包括示例1的主题，其中，所述命令缓冲区包括与所述多个工作负荷相关联的多个命令，其中所述命令包括与所述多个工作负荷相关的一个或多个处理命令，并进一步包括具有与所述多个工作负荷相关的状态数据的数据，其中所述处理命令以及所述数据在流水线中被分派给GPU。

示例8包括示例2的主题，其中，所述一个或多个依赖性事件包括与基本内核相关联的基本命令的处理的未完成、以及所述资源线程中的一个或多个的不可用性中的至少一者，其中所述一个或多个后续内核与依赖于(depending from)所述基本命令的一个或多个后续命令相关联。

涉及示例9的一些实施例包括一种方法，所述方法用于促进计算设备上的图形处理单元处的工作负荷执行的动态流水线化，所述方法包括：产生命令缓冲区，该命令缓冲区具有与要在图形处理单元(GPU)处被执行的多个工作负荷相关的多个内核；使要在GPU处进行处理的工作负荷流水线化，其中流水线化包括基于以下的至少一者而对要被在GPU上执行的每个内核进行调度：资源线程的可用性，以及与每个内核相关的一个或多个依赖性事件相对于所述多个内核中的其他内核的状态。

示例10包括示例9的主题，进一步包括确定所述一个或多个依赖性事件的状态，其中，所述状态指示所述一个或多个依赖性事件是否保持未被解决，其中，依赖性事件包括与所述多个内核的基本内核相关的偶然性事件，该偶然性事件使得所述基本内核将被至少部分地执行，以解析偶然性事件并发起对所述多个内核的一个或多个后续内核的执行。

示例11包括示例10的主题，进一步包括：基于所述一个或多个依赖性事件来确定资源线程的可用性，其中，确定可用性包括检测由于一个或多个依赖性事件保持未被解析而保持未被使用的一个或多个空闲资源线程。

示例12包括示例9的主题，进一步包括：获取所述一个或多个空闲资源线程，并使所述多个内核的一个或多个非依赖性内核流水线化，以用于在不需要延迟处理或停止GPU的情况下,在所述一个或多个后续内核等待满足所述一个或多个依赖性事件时即在所述一个或多个空闲资源线程上进行处理。

示例13包括示例12的主题，进一步包括：使所述一个或多个后续内核流水线化，以用于在不需要停止GPU的情况下在满足一个或多个依赖性事件时在GPU处进行处理。

示例14包括示例9的主题，其中，所述资源线程包括GPU硬件线程、命令缓冲区、可执行代码以及存储器堆中的一个或多个。

示例15包括示例9的主题，其中，所述命令缓冲区包括与所述多个工作负荷相关联的多个命令，其中所述命令包括与所述多个工作负荷相关的一个或多个处理命令，并进一步包括具有与所述多个工作负荷相关的状态数据的数据，其中所述处理命令以及所述数据在流水线中被分派给GPU。

示例16包括示例10的主题，其中，所述一个或多个依赖性事件包括与基本内核相关联的基本命令的处理的未完成、以及所述资源线程中的一个或多个的不可用性中的至少一者，其中所述一个或多个后续内核与依赖于所述基本命令的一个或多个后续命令相关联。

示例17包括至少一种机器可读介质，所述机器可读介质包括多个指令，所述多个指令当在计算设备上执行时用于实现或执行任一前述权利要求中所要求的方法或实现任一前述权利要求中所要求的设备。

示例18包括至少一种非暂态或有形的机器可读介质，所述机器可读介质包括多个指令，所述多个指令当在计算设备上执行时用于实现或执行任一前述权利要求中所要求的方法或实现任一前述权利要求中所要求的设备。

示例19包括包含用于实现或执行任一前述权利要求中所要求的方法或实现任一前述权利要求中所要求的设备的机制的一种系统。

示例20包括一种设备，所述设备包括用于执行任一前述权利要求中所要求的方法的装置。

示例21包括一种计算设备，所述计算设备被安排用于实现或执行任一前述权利要求中所要求的方法或实现任一前述权利要求中所要求的设备。

示例22包括一种通信设备，所述通信设备被安排用于实现或执行任一前述权利要求中所要求的方法或实现任一前述权利要求中所要求的设备。

涉及示例23的一些实施例包括一种系统，所述系统包括具有指令的存储介质、以及处理器，所述处理器用于执行所述指令以促进用于执行一个或多个操作的机制，所述操作包括：产生命令缓冲区，该命令缓冲区具有与要在图形处理单元(GPU)处被执行的多个工作负荷相关的多个内核；使要在GPU处进行处理的工作负荷流水线化，其中流水线化包括基于源线程的可用性和与每个内核相关的一个或多个依赖性事件的状态中的至少一者而对要在GPU上被执行的每个内核相对于所述多个内核的其他内核进行调度。

示例24包括示例23的主题，进一步包括：确定所述一个或多个依赖性事件的状态，其中，所述状态指示所述一个或多个依赖性事件是否保持未被解决，其中，依赖性事件包括与所述多个内核的基本内核相关的偶然性事件，使得所述基本内核将被执行，以至少部分地解析偶然性事件并发起对所述多个内核的一个或多个后续内核的执行。

示例25包括示例24的主题，进一步包括：基于所述一个或多个依赖性事件来确定资源线程的可用性，其中，确定可用性包括检测由于一个或多个依赖性事件保持未被解析而保持未被使用的一个或多个空闲资源线程。

示例26包括示例23的主题，进一步包括：获取所述一个或多个空闲资源线程，并使所述多个内核的一个或多个非依赖性内核流水线化，以用于在不需要延迟处理或停止GPU的情况下在所述一个或多个后续内核等待满足所述一个或多个依赖性事件时在所述一个或多个空闲资源线程上进行处理。

示例27包括示例26的主题，进一步包括使所述一个或多个后续内核流水线化，以用于在不需要停止GPU的情况下在满足一个或多个依赖性事件时在GPU处进行处理。

示例28包括示例23的主题，其中，所述资源线程包括GPU硬件线程、命令缓冲区、可执行代码以及存储器堆中的一个或多个。

示例29包括示例23的主题，其中，所述命令缓冲区包括与所述多个工作负荷相关联的多个命令，其中所述命令包括与所述多个工作负荷相关的一个或多个处理命令，并进一步包括具有与所述多个工作负荷相关的状态数据的数据，其中所述处理命令以及所述数据在流水线中被分派给GPU。

示例30包括示例24的主题，其中，所述一个或多个依赖性事件包括与基本内核相关联的基本命令的处理的未完成、以及所述资源线程中的一个或多个的不可用性中的至少一者，其中所述一个或多个后续内核与依赖于所述基本命令的一个或多个后续命令相关联。

涉及示例31的一些实施例包括一种设备，所述设备包括：用于产生命令缓冲区的装置，所述命令缓冲区具有与要在图形处理单元(GPU)处被执行的多个工作负荷相关的多个内核；以及用于使要在GPU处进行处理的工作负荷流水线化的装置，其中流水线化包括基于源线程的可用性和与每个内核相关的一个或多个依赖性事件的状态中的至少一者而对要在GPU上被执行的每个内核相对于所述多个内核的其他内核进行调度。

示例32包括示例31的主题，进一步包括用于确定所述一个或多个依赖性事件的状态的装置，其中，所述状态指示所述一个或多个依赖性事件是否保持未被解决，其中，依赖性事件包括与所述多个内核的基本内核相关的偶然性事件，使得所述基本内核将被执行，以至少部分地解析偶然性事件并发起对所述多个内核的一个或多个后续内核的执行。

示例33包括示例32的主题，进一步包括用于基于所述一个或多个依赖性事件来确定资源线程的可用性的装置，其中，确定可用性包括检测由于一个或多个依赖性事件保持未被解析而保持未被使用的一个或多个空闲资源线程。

示例34包括示例31的主题，进一步包括用于获取所述一个或多个空闲资源线程的装置，并使所述多个内核的一个或多个非依赖性内核流水线化，以用于在不需要延迟处理或停止GPU的情况下在所述一个或多个后续内核等待满足所述一个或多个依赖性事件时在所述一个或多个空闲资源线程上进行处理。

示例35包括示例34的主题，进一步包括用于使所述一个或多个后续内核流水线化的装置，以用于在不需要停止GPU的情况下在满足一个或多个依赖性事件时在GPU处进行处理。

示例36包括示例31的主题，其中，所述资源线程包括GPU硬件线程、命令缓冲区、可执行代码以及存储器堆中的一个或多个。

示例37包括示例31的主题，其中，所述命令缓冲区包括与所述多个工作负荷相关联的多个命令，其中所述命令包括与所述多个工作负荷相关的一个或多个处理命令，并进一步包括具有与所述多个工作负荷相关的状态数据的数据，其中所述处理命令以及所述数据在流水线中被分派给GPU。

示例38包括示例32的主题，其中，所述一个或多个依赖性事件包括与基本内核相关联的基本命令的处理的未完成、以及所述资源线程中的一个或多个的不可用性中的至少一者，其中所述一个或多个后续内核与依赖于所述基本命令的一个或多个后续命令相关联。

附图以及前述描述给出了诸实施例的示例。本领域技术人员将理解，所描述的元件中的一个或多个可以合并成单个功能元件。或者，某些元件可以被拆分成多个功能元件。可以将来自一个实施例的元件添加到另一实施例中。例如，本文中所描述的过程的顺序可以改变，并且不限于本文中所描述的方式。此外，任何流程图的动作都不一定以图示的顺序来实现；也不一定需要执行所有这些动作。此外，不依赖于其他动作的那些动作也可以与其他动作并行地执行。各实施例的范围绝非由这些特定示例限制。众多变型(无论是否在说明书中显式地给出)，诸如结构、尺寸以及材料的使用方面的差异是可能的。诸实施例的范围至少与由所附权利要求书给出的范围一样广泛。

Claims

1.一种设备，所述设备用于促进计算设备上的图形处理单元处的工作负荷执行的动态流水线化，所述设备包括：

合并内核逻辑，所述合并内核逻辑用于产生命令缓冲区，所述命令缓冲区具有与在图形处理单元(GPU)处要被执行的多个工作负荷相关的多个内核；以及

状态管理逻辑，所述状态管理逻辑用于使要在所述GPU处被处理的所述工作负荷流水线化，其中，流水线化包括：基于资源线程的可用性和与每个内核相关的一个或多个依赖性事件的状态中的至少一者而对要在所述GPU上被执行的每个内核相对于所述多个内核中的其他内核进行调度。

2.如权利要求1所述的设备，进一步包括依赖性检查逻辑，所述依赖性检查逻辑用于确定所述一个或多个依赖性事件的所述状态，其中，所述状态指示所述一个或多个依赖性事件是否保持未被解决，其中，依赖性事件包括与所述多个内核的基本内核相关的偶然性事件，该偶然性事件使得所述基本内核将被至少部分地执行以解析所述偶然性事件并发起对所述多个内核的一个或多个后续内核的执行。

3.如权利要求1或2所述的设备，进一步包括数据一致性管理逻辑，所述数据一致性管理逻辑用于基于所述一个或多个依赖性事件来确定资源线程的所述可用性，其中，确定所述可用性包括检测由于所述一个或多个依赖性事件保持未被解析而保持未被使用的一个或多个空闲资源线程。

4.如权利要求1所述的设备，其特征在于，所述状态管理逻辑进一步用于获取所述一个或多个空闲资源线程，并且使所述多个内核的一个或多个非依赖性内核流水线化，以用于在不需要延迟所述处理或停止所述GPU的情况下，在所述一个或多个后续内核等待满足所述一个或多个依赖性事件时即在所述一个或多个空闲资源线程上进行处理，其中所述状态管理逻辑进一步用于使所述一个或多个后续内核流水线化，以用于在不需要停止所述GPU的情况下，在满足所述一个或多个依赖性事件时即在所述GPU处进行处理。

5.如权利要求1或4所述的设备，其特征在于，所述状态管理逻辑进一步用于使所述一个或多个后续内核流水线化，以用于在不需要停止所述GPU的情况下,在满足所述一个或多个依赖性事件时即在所述GPU处进行处理。

6.如权利要求1所述的设备，其特征在于，所述资源线程包括GPU硬件线程、命令缓冲区、可执行代码以及存储器堆中的一个或多个。

7.如权利要求1所述的设备，其特征在于，所述命令缓冲区包括与所述多个工作负荷相关联的多个命令，其中所述命令包括与所述多个工作负荷相关的一个或多个处理命令，并进一步包括具有与所述多个工作负荷相关的状态数据的数据，其中所述处理命令以及所述数据在流水线中被分派给所述GPU。

8.如权利要求1或2所述的设备，其特征在于，所述一个或多个依赖性事件包括与所述基本内核相关联的基本命令的处理的未完成、以及所述资源线程中的一个或多个的不可用性中的至少一者，其中所述一个或多个后续内核与依赖于所述基本命令的一个或多个后续命令相关联。

9.一种方法，所述方法用于促进计算设备上的图形处理单元处的工作负荷执行的动态流水线化，所述方法包括：

产生命令缓冲区，所述命令缓冲区具有与在图形处理单元(GPU)处要被执行的多个工作负荷相关的多个内核；以及

使要在所述GPU处被处理的所述工作负荷流水线化，其中，流水线化包括，基于以下的至少一者而对要在所述GPU上被执行的每个内核进行调度：资源线程的可用性，以及与每个内核相关的一个或多个依赖性事件相对于所述多个内核中的其他内核的状态。

10.如权利要求9所述的方法，进一步包括：确定所述一个或多个依赖性事件的所述状态，其中，所述状态指示所述一个或多个依赖性事件是否保持未被解决，其中，依赖性事件包括与所述多个内核的基本内核相关的偶然性事件，该偶然性事件使得所述基本内核将被至少部分地执行以解析所述偶然性事件并发起对所述多个内核的一个或多个后续内核的执行。

11.如权利要求10所述的方法，进一步包括：基于所述一个或多个依赖性事件来确定资源线程的所述可用性，其中，确定所述可用性包括检测由于所述一个或多个依赖性事件保持未被解析而保持未被使用的一个或多个空闲资源线程。

12.如权利要求9所述的方法，进一步包括：获取所述一个或多个空闲资源线程，并使所述多个内核的一个或多个非依赖性内核流水线化，以用于在不需要延迟所述处理或停止所述GPU的情况下，在所述一个或多个后续内核等待满足所述一个或多个依赖性事件时即在所述一个或多个空闲资源线程上进行处理。

13.如权利要求12所述的方法，进一步包括：使所述一个或多个后续内核流水线化，以用于在不需要停止所述GPU的情况下，在满足所述一个或多个依赖性事件时即在所述GPU处进行处理。

14.如权利要求9所述的方法，其特征在于，所述资源线程包括GPU硬件线程、命令缓冲区、可执行代码以及存储器堆中的一个或多个。

15.如权利要求9所述的方法，其特征在于，所述命令缓冲区包括与所述多个工作负荷相关联的多个命令，其中所述命令包括与所述多个工作负荷相关的一个或多个处理命令，并进一步包括具有与所述多个工作负荷相关的状态数据的数据，其中所述处理命令以及所述数据在流水线中被分派给所述GPU。

16.如权利要求10所述的方法，其特征在于，所述一个或多个依赖性事件包括与所述基本内核相关联的基本命令的处理的未完成、以及所述资源线程中的一个或多个的不可用性中的至少一者，其中所述一个或多个后续内核与依赖于所述基本命令的一个或多个后续命令相关联。

17.至少一种机器可读介质，所述机器可读介质包括多个指令，所述指令当在计算设备上执行时，用于实现或执行如权利要求9-16中任一项所述的方法。

18.一种系统，所述系统包括用于实现或执行如权利要求9-16中任一项所述的方法的机制。

19.一种设备，所述设备包括用于执行如权利要求9-16中任一项所述的方法的装置。

20.一种计算设备，所述计算设备被安排用于实现或执行如权利要求9-16中任一项所述的方法。

21.一种通信设备，所述通信设备被安排用于实现或执行如权利要求9-16中任一项所述的方法。