CN103793206A

CN103793206A - 基于工作队列的图形处理单元工作创建

Info

Publication number: CN103793206A
Application number: CN201310518042.XA
Authority: CN
Inventors: 依格纳西奥·利亚马斯; 克雷格·罗斯·杜特韦勒; 杰弗里·A·博尔兹; 丹尼尔·埃利奥特·韦克斯勒
Original assignee: Nvidia Corp
Current assignee: Nvidia Corp
Priority date: 2012-10-26
Filing date: 2013-10-28
Publication date: 2014-05-14
Also published as: DE102013017514A1; TW201432573A; US20140123144A1; US9135081B2

Abstract

本发明的一个实施例使得在处理器上执行的线程能够通过工作队列和命令块的方式在该处理器内本地生成并执行工作。作为用于建立使得线程能够本地生成并执行工作的存储器对象的初始化过程，设备驱动程序生成工作队列，并且将工作队列的GP_GET指针设置为工作队列中的第一条目。设备驱动程序还在初始化过程期间将工作队列的GP_PUT指针设置为包括在工作队列中的最后自由条目，从而建立由线程所生成的新的工作可以被加载到其中并且随后由处理器执行的工作队列中的条目的范围。之后线程利用所生成的工作填充命令块并且将工作队列中的条目指向命令块以实行存储在命令块中的工作的处理器执行。

Description

基于工作队列的图形处理单元工作创建

技术领域

本发明总地涉及计算机处理，并且更具体地，涉及使能图形处理单元（GPU）内的工作的本地生成。

背景技术

图形处理单元（GPU）设计为处理计算系统内的各种密集任务，诸如图形处理工作和计算应用工作。在典型的配置中，中央处理单元（CPU）生成基于GPU的工作并且将基于GPU的工作加载到CPU和GPU二者都可访问的全局存储器中。CPU之后访问GPU的工作队列-通常称为“信道”-CPU能够通过其使GPU处理存储在全局存储器中的基于GPU的工作。

在一个配置中，GPU的处理活动由两个分开的指针的操纵所控制，每个指针涉及工作队列中的条目，本文称为GP_GET指针和GP_PUT指针。GP_GET指针指向工作队列中的特定条目并且向CPU指示GPU在执行存储在工作队列中的工作方面的进展情况。可替换地，GP_PUT指针指向工作队列中刚好在由CPU所写的最后条目之后的条目。当GPU完成由给定的工作队列条目所指向的基于GPU的工作的执行时，GPU增大GP_GET。显而易见地，因为工作队列是循环的，所以当GP_GET达到工作队列的条目计数时，将GP_GET重新设置为零值。如果在被增大之后，GP_GET等于GP_PUT，那么工作队列中没有更多的条目留待处理。否则，GPU执行由GP_GET所指向的工作。另外，如果GP_GET等于“（GP_PUT+1）对‘工作队列中的条目的数目’取模”，那么工作队列被认为是满的。只要工作队列不是满的，CPU就能够增大GP_PUT指针以提交在工作队列中所写的新的条目用于GPU处理。GPU监视由CPU所实施的对GP_PUT的改变，使得CPU所提交的工作队列条目以及时的方式加以处理。

在许多情况下，使得GPU能够生成能够由GPU加载到工作队列中并且由GPU所处理的附加（即嵌套（nested））工作是可取的。不幸地，特定硬件限制存在于流行的CPU至GPU通信信道之间-诸如快速外围部件互连（PCI-E）-并且防止GPU能够修改GP_PUT指针，如以上所描述的，该GP_PUT指针需要在将新的工作插入工作队列之后被增大。结果是，GPU必须依赖CPU来生成并执行嵌套工作，其与在GPU内本地生成并执行嵌套工作相比是低效的。

因此，本领域需要的是用于在CPU至GPU通信信道硬件限制存在的情况下使得GPU能够本地生成工作的技术。

发明内容

本发明的一个实施例阐述了用于配置工作队列以使得在并行处理子系统中执行的线程能够在并行处理子系统内生成并执行工作的方法。方法包括生成工作队列的步骤，其中工作队列包括多个条目并且与第一指针和第二指针相关联，其中第一指针和第二指针中的每一个对线程是不可访问的，建立工作队列中的自由条目的范围，通过：将第一指针指向多个条目的第一条目；以及将第二指针指向多个条目的最后条目；生成指向多个条目的第一条目的第三指针，其中第三指针对线程是可访问的，生成指向多个条目的最后条目的第四指针，其中第四指针对线程是可访问的，将工作队列的第一条目指向包含指向被阻塞的信号量的信号量获得命令的命令块，经由第三和第四指针将工作加载到工作队列中，确定线程已经完成加载工作；以及释放信号量以使第一指针前进到工作队列中的下一个条目并且使并行处理子系统执行由线程所生成的工作。

本发明所公开的实施例的一个优势是它们使得在处理单元上执行的线程能够在处理单元内创建嵌套工作而不需要向CPU发出这样做的请求。结果是，跨CPU和处理单元之间的通信路径消耗较少的带宽，并且进一步地，CPU102的工作负载减少，从而提高效率。此外，线程能够执行有用的嵌套工作而不需要依赖CPU授权或不必等待CPU响应将所生成的嵌套工作提交到GPU的请求。

附图说明

因此，可以详细地理解本发明的上述特征，并且可以参考实施例得到对如上面所简要概括的本发明更具体的描述，其中一些实施例在附图中示出。然而，应当注意的是，附图仅示出了本发明的典型实施例，因此不应被认为是对其范围的限制，本发明可以具有其他等效的实施例。

图1是示出了配置为实现本发明的一个或多个方面的计算机系统的框图。

图2是根据本发明的一个实施例的、用于图1的计算机系统的并行处理子系统的框图。

图3A是根据本发明的一个实施例的、图2的任务/工作单元的框图。

图3B是根据本发明的一个实施例的、图2的并行处理单元之一内的通用处理集群的框图。

图3C是根据本发明的一个实施例的、图3B的流多处理器的一部分的框图。

图4A示出了根据本发明一个实施例的、用于初始化使得在用于图1的计算机系统的并行处理子系统之一上执行的线程能够本地生成工作的工作队列的方法。

图4B-4C示出了根据本发明一个实施例的、用于通过线程在用于图1的计算机系统的并行处理子系统之一上执行的方式本地生成工作的方法。

图5示出了根据本发明一个实施例的、配置为存储在图1的计算机系统的并行处理子系统之一内本地生成的工作的各存储器对象的示范性框图。

图6A-6F示出了根据本发明一个实施例的、使得工作能够在图1的计算机系统的并行处理子系统之一内被本地生成并且执行的两个不同信道之间的示范性交互。

具体实施方式

在下面的描述中，将阐述大量的具体细节以提供对本发明更透彻的理解。然而，本领域的技术人员应该清楚，本发明可以在没有一个或多个这些具体细节的情况下得以实施。在其他实例中，未描述公知特征以避免对本发明造成混淆。

系统概述

图1是示出了配置为实现本发明的一个或多个方面的计算机系统100的框图。计算机系统100包括经由可以包括存储器桥105的互连路径通信的中央处理单元（CPU）102和系统存储器104。存储器桥105可以是例如北桥芯片，经由总线或其他通信路径106（例如超传输（HyperTransport）链路）连接到I/O（输入/输出）桥107。I/O桥107，其可以是例如南桥芯片，从一个或多个用户输入设备108（例如键盘、鼠标）接收用户输入并且经由通信路径106和存储器桥105将该输入转发到CPU102。并行处理子系统112经由总线或第二通信路径113（例如外围部件互连（PCI）Express、加速图形端口或超传输链路）耦连到存储器桥105；在一个实施例中，并行处理子系统112是将像素传递到显示设备110的图形子系统，显示设备110可以是任何常规的阴极射线管、液晶显示器、发光二极管显示器等等。系统盘114也连接到I/O桥107并且可以配置为存储内容和应用和数据用于由CPU102和并行处理子系统112使用。系统盘114为应用和数据提供非易失性存储并且可以包括固定的或可移动的硬盘驱动器、闪存设备和压缩光盘只读存储器（CD-ROM）、数字通用光盘-ROM（DVD-ROM）、蓝光、高清DVD（HD-DVD）或其他磁性、光学或固态存储设备。

交换器116提供I/O桥107与诸如网络适配器118以及各种插卡120和121的其他部件之间的连接。其他部件（未明确示出），包括通用串行总线（USB）或其他端口连接、压缩光盘（CD）驱动器、数字通用光盘（DVD）驱动器、胶片录制设备及类似部件，也可以连接到I/O桥107。图1所示的各种通信路径包括具体命名的通信路径106和113可以使用任何适合的协议实现，诸如PCI-Express、AGP（加速图形端口）、超传输或者任何其他总线或点到点通信协议，并且如本领域已知的，不同设备间的连接可使用不同协议。

在一个实施例中，并行处理子系统112包含经优化用于图形和视频处理的电路，包括例如视频输出电路，并且构成图形处理单元（GPU）。在另一个实施例中，并行处理子系统112包含经优化用于通用处理的电路，同时保留底层（underlying）的计算架构，本文将更详细地进行描述。在又一个实施例中，可以将并行处理子系统112与一个或多个其他系统元件集成在单个子系统中，诸如结合存储器桥105、CPU102以及I/O桥107，以形成片上系统（SoC）。

应该理解，本文所示系统是示例性的，并且变化和修改都是可能的。连接拓扑，包括桥的数目和布置、CPU102的数目以及并行处理子系统112的数目，可根据需要修改。例如，在一些实施例中，系统存储器104直接连接到CPU102而不是通过桥，并且其他设备经由存储器桥105和CPU102与系统存储器104通信。在其他替代性拓扑中，并行处理子系统112连接到I/O桥107或直接连接到CPU102，而不是连接到存储器桥105。而在其他实施例中，I/O桥107和存储器桥105可能被集成到单个芯片上而不是作为一个或多个分立设备存在。大型实施例可以包括两个或更多个的CPU102以及两个或更多个的并行处理子系统112。本文所示的特定部件是可选的；例如，任何数目的插卡或外围设备都可能得到支持。在一些实施例中，交换器116被去掉，网络适配器118和插卡120、121直接连接到I/O桥107。

图2示出了根据本发明一个实施例的并行处理子系统112。如所示的，并行处理子系统112包括一个或多个并行处理单元（PPU）202，每个并行处理单元202都耦连到本地并行处理（PP）存储器204。通常，并行处理子系统包括U个PPU，其中U≥1。（本文中，类似对象的多个实例需要时以标识对象的参考数字和标识实例的括号中的数字来表示。）PPU202和并行处理存储器204可使用一个或多个集成电路设备来实现，诸如可编程处理器、专用集成电路（ASIC）或存储器设备，或者以任何其他技术可行的方式来实现。

再参考图1以及图2，在一些实施例中，并行处理子系统112中的一些或所有PPU202是具有渲染管线的图形处理器，其可以配置为实施与下述相关的各种操作：经由存储器桥105和第二通信路径113从CPU102和/或系统存储器104所供应的图形数据生成像素数据，与本地并行处理存储器204（可被用作图形存储器，包括例如常规帧缓冲区（buffer））交互以存储和更新像素数据，传递像素数据到显示设备110等等。在一些实施例中，并行处理子系统112可包括一个或多个作为图形处理器而操作的PPU202以及一个或多个用于通用计算的其他PPU202。这些PPU可以是同样的或不同的，并且每个PPU可具有专用并行处理存储器设备或不具有专用并行处理存储器设备。并行处理子系统112中的一个或多个PPU202可输出数据到显示设备110，或者并行处理子系统112中的每个PPU202可输出数据到一个或多个显示设备110。

在操作中，CPU102是计算机系统100的主处理器，控制和协调其他系统部件的操作。具体地，CPU102发出控制PPU202的操作的命令。在一些实施例中，CPU102写入用于每个PPU202的命令流到数据结构中（在图1或图2中未明确示出），该数据结构可位于系统存储器104、并行处理存储器204、或CPU102和PPU202都可访问的其他存储位置中。将指向每个数据结构的指针写到工作队列以发起对数据结构中的命令流的处理。PPU202从一个或多个工作队列读取命令流，然后相对于CPU102的操作异步地执行命令。可以经由设备驱动程序103由应用程序为每个工作队列指定执行优先级以控制对不同工作队列的调度。

现在返回参考图2和图1，每个PPU202包括经由连接到存储器桥105（或者，在一个替代性实施例中，直接连接到CPU102）的通信路径113与计算机系统100的其余部分通信的I/O（输入/输出）单元205。PPU202到计算机系统100的其余部分的连接也可以变化。在一些实施例中，并行处理子系统112可实现为可插入到计算机系统100的扩展槽中的插卡。在其他实施例中，PPU202可以和诸如存储器桥105或I/O桥107的总线桥集成在单个芯片上。而在其他实施例中，PPU202的一些或所有元件可以和CPU102集成在单个芯片上。

在一个实施例中，通信路径113是PCI Express链路，如本领域所知的，其中专用通道被分配到每个PPU202。也可以使用其他通信路径。I/O单元205生成用于在通信路径113上传送的包（或其他信号），并且还从通信路径113接收所有传入的包（或其他信号），将传入的包引导到PPU202的适当部件。例如，可将与处理任务相关的命令引导到主机接口206，而将与存储器操作相关的命令（例如，对并行处理存储器204的读取或写入）引导到存储器交叉开关单元210。主机接口206读取每个工作队列，并且将存储在工作队列中的命令流输出到前端212。

有利地，每个PPU202都实现高度并行处理架构。如详细示出的，PPU202（0）包括处理集群阵列230，该阵列230包括C个通用处理集群（GPC）208，其中C≥1。每个GPC208能够并发执行大量的（例如，几百或几千）线程，其中每个线程是程序的实例（instance）。在各种应用中，可分配不同的GPC208用于处理不同类型的程序或用于执行不同类型的计算。GPC208的分配可以取决于因每种类型的程序或计算所产生的工作量而变化。

GPC208从任务/工作单元207内的工作分布单元接收所要执行的处理任务。工作分布单元接收指向编码为任务元数据（TMD）并存储在存储器中的处理任务的指针。指向TMD的指针包括在存储为工作队列并由前端单元212从主机接口206接收的命令流中。可以编码为TMD的处理任务包括所要处理的数据的索引，以及定义数据将被如何处理（例如，什么程序将被执行）的状态参数和命令。任务/工作单元207从前端212接收任务并确保在每一个TMD所指定的处理发起前，将GPC208配置为有效状态。可以为每个TMD指定用来调度处理任务的执行的优先级。还可从处理集群阵列230接收处理任务。可选地，TMD可包括控制将TMD添加到处理任务列表（或指向处理任务的指针的列表）的头部还是尾部的参数，从而提供除优先级以外的另一级别的控制。

存储器接口214包括D个分区单元215，每个分区单元215直接耦连到并行处理存储器204的一部分，其中D≥1。如所示的，分区单元215的数目一般等于动态随机存取存储器（DRAM）220的数目。在其他实施例中，分区单元215的数目也可以不等于存储器设备的数目。本领域的技术人员应该理解DRAM220可以用其他合适的存储设备来替代并且可以是一般常规的设计。因此省略了详细描述。诸如帧缓冲区或纹理映射图的渲染目标可以跨DRAM220加以存储，这允许分区单元215并行写入每个渲染目标的各部分以有效地使用并行处理存储器204的可用带宽。

任何一个GPC208都可以处理要被写到并行处理存储器204内的任何DRAM220的数据。交叉开关单元210配置为路由每个GPC208的输出到任何分区单元215的输入或到另一个GPC208用于进一步处理。GPC208通过交叉开关单元210与存储器接口214通信，以对各种外部存储器设备进行读取或写入。在一个实施例中，交叉开关单元210具有到存储器接口214的连接以和I/O单元205通信，以及到本地并行处理存储器204的连接，从而使得在不同GPC208内的处理内核能够与系统存储器104或对于PPU202而言非本地的其他存储器通信。在图2所示的实施例中，交叉开关单元210直接与I/O单元205连接。交叉开关单元210可使用虚拟信道来分开GPC208与分区单元215之间的业务流。

另外，GPC208可被编程以执行与种类繁多的应用相关的处理任务，包括但不限于，线性和非线性数据变换、视频和/或音频数据过滤、建模操作（例如，应用物理定律以确定对象的位置、速率和其他属性）、图像渲染操作（例如，曲面细分（tessellation）着色器、顶点着色器、几何着色器、和/或像素着色器程序）等等。PPU202可将数据从系统存储器104和/或本地并行处理存储器204转移到内部（片上）存储器中，处理该数据，并且将结果数据写回到系统存储器104和/或本地并行处理存储器204，其中这样的数据可以由其他系统部件访问，所述其他系统部件包括CPU102或另一个并行处理子系统112。

PPU202可配备有任何容量（amount）的本地并行处理存储器204，包括没有本地存储器，并且可以以任何组合方式使用本地存储器和系统存储器。例如，在统一存储器架构（UMA）实施例中，PPU202可以是图形处理器。在这样的实施例中，将不提供或几乎不提供专用的图形（并行处理）存储器，并且PPU202会以排他或几乎排他的方式使用系统存储器。在UMA实施例中，PPU202可集成到桥式芯片中或处理器芯片中，或作为具有高速链路（例如，PCI Express）的分立芯片提供，所述高速链路经由桥式芯片或其他通信手段将PPU202连接到系统存储器。

如上所示，在并行处理子系统112中可以包括任何数目的PPU202。例如，可在单个插卡上提供多个PPU202、或可将多个插卡连接到通信路径113、或可将一个或多个PPU202集成到桥式芯片中。在多PPU系统中的PPU202可以彼此同样或不同。例如，不同的PPU202可能具有不同数目的处理内核、不同容量的本地并行处理存储器等等。在存在多个PPU202的情况下，可并行操作那些PPU从而以高于单个PPU202所可能达到的吞吐量来处理数据。包含一个或多个PPU202的系统可以以各种配置和形式因素来实现，包括台式电脑、笔记本电脑或手持式个人计算机、服务器、工作站、游戏控制台、嵌入式系统等等。

多个并发任务调度

可以在GPC208上并发执行多个处理任务并且处理任务在执行期间可以生成一个或多个“子”处理任务。任务/工作单元207接收任务并动态调度处理任务和子处理任务用于由GPC208执行。

图3A是根据本发明一个实施例的图2的任务/工作单元207的框图。任务/工作单元207包括任务管理单元300和工作分布单元340。任务管理单元300基于执行优先级级别来组织所要调度的任务。对于每个优先级级别，任务管理单元300将指向与任务相对应的TMD322的指针的列表存储在调度器表321中，其中所述列表可以实现为链表。可以将TMD322存储在PP存储器204或系统存储器104中。任务管理单元300接受任务并将任务存储在调度器表321中的速度与任务管理单元300调度任务用于执行的速度是解耦的。因此，任务管理单元300可以在调度任务之前收集数个任务。之后可以基于优先级信息或使用其他技术诸如轮叫调度来调度所收集的任务。

工作分布单元340包括具有槽的任务表345，每个槽可以被用于正在执行的任务的TMD322所占用。当任务表345中有空闲槽时，任务管理单元300可以调度任务用于执行。当没有空闲槽时，未占用槽的较高优先级任务可以驱逐占用槽的较低优先级任务。当任务被驱逐时，该任务被停止，并且如果该任务的执行没有完成，则将指向该任务的指针添加到所要调度的任务指针的列表以使得任务的执行稍后将恢复。当生成子处理任务时，在任务的执行期间，将指向该子任务的指针添加到所要调度的任务指针的列表。可以由在处理集群阵列230中执行的TMD322生成子任务。

不同于由任务/工作单元207从前端212接收的任务，子任务从处理集群阵列230接收。子任务不被插入工作队列或传送到前端。当生成子任务或将用于子任务的数据存储在存储器中时不通知CPU102。通过工作队列提供的任务与子任务之间的另一个区别是通过工作队列提供的任务由应用程序来定义而子任务是在任务执行期间动态生成的。

任务处理概述

图3B是根据本发明一个实施例的在图2的PPU202之一内的GPC208的框图。每个GPC208可配置为并行执行大量线程，其中术语“线程”是指在特定输入数据集上执行的特定程序的实例。在一些实施例中，单指令、多数据（SIMD）指令发出技术用于在不提供多个独立指令单元的情况下支持大量线程的并行执行。在其他实施例中，单指令、多线程（SIMT）技术用于使用配置为向GPC208中的每一个内的处理引擎集发出指令的公共指令单元来支持大量一般来说同步的线程的并行执行。不同于所有处理引擎通常都执行同样指令的SIMD执行机制，SIMT执行通过给定线程程序允许不同线程更容易跟随分散执行路径。本领域普通技术人员应该理解SIMD处理机制代表SIMT处理机制的功能子集。

经由将处理任务分布到流多处理器（SM）310的管线管理器305来有利地控制GPC208的操作。管线管理器305还可配置为通过为由SM310所输出的处理数据指定目的地来控制工作分布交叉开关330。

在一个实施例中，每个GPC208包括M个SM310，其中M≥1，每个SM310配置为处理一个或多个线程组。另外，如本领域已知的，每个SM310有利地包括可以管线化的同样功能执行单元集（例如执行单元和加载-存储单元—在图3C中示出为Exec单元302和LSU303），其允许在前一个指令完成之前发出新指令。可提供功能执行单元的任何组合。在一个实施例中，功能单元支持各种各样的操作，包括整数和浮点运算（例如加法和乘法）、比较操作、布尔操作（AND、OR、XOR）、移位和各种代数函数的计算（例如平面插值、三角函数、指数函数和对数函数等等）；以及相同功能单元硬件可均衡地用来实施不同的操作。

如本文之前所定义的，传送到特定GPC208的一系列指令构成线程，并且跨SM310内的并行处理引擎（未示出）的某一数目的并发执行线程的集合在本文中称为“线程束（warp）”或“线程组”。如本文所使用的，“线程组”是指对不同输入数据并发执行相同程序的一组线程，所述组的一个线程被指派到SM310内的不同处理引擎。线程组可以包括比SM310内的处理引擎数目少的线程，在这种情况下一些处理引擎将在该线程组正在被处理的周期期间处于闲置状态。线程组还可以包括比SM310内的处理引擎数目多的线程，在这种情况下处理将在连续的时钟周期内发生。因为每个SM310可以并发支持多达G个线程组，结果是在任何给定时间在GPC208中可以执行多达G*M个线程组。

此外，多个相关线程组可以在SM310内同时活动（在执行的不同阶段）。该线程组集合在本文中称为“协作线程阵列”（“CTA”）或“线程阵列”。特定CTA的大小等于m*k，其中k是线程组中并发执行线程的数目并且通常是SM310内的并行处理引擎数目的整数倍，以及m是SM310内同时活动的线程组的数目。CTA的大小一般由编程者以及可用于CTA的硬件资源诸如存储器或寄存器的容量来确定。

每个SM310包含一级（L1）高速缓存（图3C所示）或使用用于实施加载和存储操作的SM310外部的相应L1高速缓存中的空间。每个SM310都还有权访问在所有GPC208之间共享并且可用于在线程之间转移数据的二级（L2）高速缓存。最后，SM310还有权访问片外“全局”存储器，所述“全局”存储器可以包括例如并行处理存储器204和/或系统存储器104。应该理解，PPU202外部的任何存储器可用作全局存储器。此外，一点五级（L1.5）高速缓存335可以包括在GPC208内，其配置为接收并保持由SM310所请求的经由存储器接口214从存储器获取的数据，包括指令、一致（uniform）数据和常数数据，并将所请求的数据提供给SM310。在GPC208中具有多个SM310的实施例有利地共享了高速缓存在L1.5高速缓存335中的公共指令和数据。

每个GPC208可以包括配置为将虚拟地址映射到物理地址中的存储器管理单元（MMU）328。在其他实施例中，MMU328可以驻留在存储器接口214内。MMU328包括用于将虚拟地址映射到像素块（tile）的物理地址的页表条目（PTE）集和可选地包括高速缓存行索引。MMU328可以包括地址转换后备缓冲区（TLB）或可以驻留在多处理器SM310或L1高速缓存或GPC208内的高速缓存。物理地址经处理以分布表面数据访问位置来允许高效请求在分区单元215之间交错。高速缓存行索引可用于确定用于高速缓存行的请求是命中还是未命中。

在图形和计算应用中，GPC208可配置为使得每个SM310耦连到用于实施纹理映射操作例如确定纹理样本位置、读取纹理数据以及过滤该纹理数据的纹理单元315。从内部纹理L1高速缓存（未示出）或者在一些实施例中从SM310内的L1高速缓存读取纹理数据并根据需要从在所有GPC208之间共享的L2高速缓存、并行处理存储器204或系统存储器104中获取纹理数据。为了将所处理的任务提供给另一个GPC208用于进一步处理或为了经由交叉开关单元210将所处理的任务存储在L2高速缓存、并行处理存储器204或系统存储器104中，每个SM310将所处理的任务输出到工作分布交叉开关330。preROP（预光栅操作）325配置为从SM310接收数据、将数据引导到分区单元215内的ROP单元以及针对颜色混合实施优化、组织像素颜色数据和实施地址转译。

应该理解本文所述的内核架构是示例性的并且变化和修改都是可能的。任何数目的处理单元例如SM310或纹理单元315、preROP325可以包括在GPC208内。进一步地，如图2所示，PPU202可以包括任何数目的GPC208，所述GPC208有利地在功能上彼此相似以使得执行行为不取决于哪个GPC208接收特定处理任务。进一步地，每个GPC208有利地使用分开且各异的处理单元、L1高速缓存来独立于其他GPC208操作以为一个或多个应用程序执行任务。

本领域普通技术人员应该理解图1、2、3A和3B所描述的架构决不限制本发明的范围并且在不脱离本发明范围的情况下本文所教导的技术可以在任何经适当配置的处理单元上实现，所述处理单元包括但不限于一个或多个CPU、一个或多个多核CPU、一个或多个PPU202、一个或多个GPC208、一个或多个图形或专用处理单元等等。

在本发明的实施例中，使用计算系统的PPU202或其他处理器来使用线程阵列执行通用计算是可取的。为线程阵列中的每个线程指派在线程的执行期间对于线程可访问的唯一的线程标识符（“线程ID”）。可被定义为一维或多维数值的线程ID控制线程处理行为的各方面。例如，线程ID可用于确定线程将要处理输入数据集的哪部分和/或确定线程将要产生或写输出数据集的哪部分。

每线程指令序列可包括定义线程阵列的代表性线程和一个或多个其他线程之间的协作行为的至少一个指令。例如，每线程指令序列可能包括在序列中的特定点处挂起用于代表性线程的操作执行直到诸如其他线程的一个或多个到达该特定点的时间为止的指令、用于代表性线程将数据存储在其他线程的一个或多个有权访问的共享存储器中的指令、用于代表性线程原子地读取和更新存储在其他线程的一个或多个基于它们的线程ID有权访问的共享存储器中的数据的指令等等。CTA程序还可以包括计算数据将从其读取的共享存储器中的地址的指令，该地址是线程ID的函数。通过定义合适的函数并提供同步技术，可以以可预测的方式由CTA的一个线程将数据写入共享存储器中的给定位置并由同一个CTA的不同线程从该位置读取数据。因此，数据在线程之间共享的任何期望模式可以得到支持，以及CTA中的任何线程可以与同一个CTA中的任何其他线程共享数据。如果存在数据在CTA的线程之间的共享，则其范围由CTA程序确定；因此，应该理解的是，在使用CTA的特定应用中，CTA的线程可能会或可能不会真正互相共享数据，这取决于CTA程序，术语“CTA”和“线程阵列”在本文作为同义词使用。

图3C是根据本发明一个实施例的图3B的SM310的框图。SM310包括配置为经由L1.5高速缓存335从存储器接收指令和常数的指令L1高速缓存370。线程束调度器和指令单元312从指令L1高速缓存370接收指令和常数并根据该指令和常数控制本地寄存器堆304和SM310功能单元。SM310功能单元包括N个exec（执行或处理）单元302和P个加载-存储单元（LSU）303。

SM310提供具有不同级别的可访问性的片上（内部）数据存储。特殊寄存器（未示出）对于LSU303可读但不可写并且用于存储定义每个线程的“位置”的参数。在一个实施例中，特殊寄存器包括每线程（或SM310内的每exec单元302）一个的存储线程ID的寄存器；每个线程ID寄存器仅由各自的exec单元302可访问。特殊寄存器还可以包括附加寄存器，其对于执行由TMD322所代表的同一个处理任务的所有线程（或由所有LSU303）可读，其存储CTA标识符、CTA维数、CTA所属网格（grid）的维数（或队列位置,如果TMD322编码队列任务而不是网格任务的话）、以及CTA被指派到的TMD322的标识符。

如果TMD322是网格TMD，则TMD322的执行会启动和执行固定数目的CTA以处理存储在队列525中的固定量的数据。将CTA的数目指定为网格宽度、高度和深度的乘积。可以将固定量的数据存储在TMD322中或TMD322可以存储指向将由CTA所处理的数据的指针。TMD322还存储由CTA所执行的程序的开始地址。

如果TMD322是队列TMD，那么使用TMD322的队列特点，这意味着将要被处理的数据量不一定是固定的。队列条目存储用于由指派到TMD322的CTA所处理的数据。队列条目还可以代表在线程执行期间由另一个TMD322所生成的子任务，从而提供嵌套并行性。通常线程或包括线程的CTA的执行被挂起直到子任务的执行完成。可以将队列存储在TMD322中或与TMD322分开存储，在该情况下TMD322存储指向该队列的队列指针。有利地，当代表子任务的TMD322正在执行时可以将由子任务所生成的数据写到队列。队列可以实现为循环队列以使得数据的总量不限于队列的大小。

属于网格的CTA具有指示网格内各自CTA的位置的隐含网格宽度、高度和深度参数。在初始化期间响应于经由前端212从设备驱动程序103所接收的命令来写特殊寄存器并且在处理任务的执行期间特殊寄存器不改变。前端212调度每个处理任务用于执行。每个CTA与具体TMD322相关联用于一个或多个任务的并发执行。此外，单个GPC208可以并发执行多个任务。

参数存储器（未示出）存储可由同一个CTA内的任何线程（或任何LSU303）读取但不可由其写入的运行时间参数（常数）。在一个实施例中，设备驱动程序103在引导SM310开始执行使用参数的任务之前将这些参数提供给参数存储器。任何CTA内的任何线程（或SM310内的任何exec单元302）可以通过存储器接口214访问全局存储器。可以将全局存储器的各部分存储在L1高速缓存320中。

每个线程将本地寄存器堆304用作暂存空间；每个寄存器被分配以专用于一个线程，并且在本地寄存器堆304的任何部分中的数据仅对于寄存器被分配到的线程可访问。本地寄存器堆304可以实现为物理上或逻辑上分为P个通道的寄存器堆，每个通道具有一定数目的条目（其中每个条目可以存储例如32位字）。将一个通道指派到N个exec单元302和P个下载-存储单元LSU303的每一个，并且利用用于执行同一个程序的不同线程的数据来填充不同通道中的相应条目以帮助SIMD执行。可以将通道的不同部分分配到G个并发线程组中的不同线程组，以使得本地寄存器堆304中的给定条目仅对于特定线程可访问。在一个实施例中，保留本地寄存器堆304内的某些条目用于存储线程标识符，实现特殊寄存器之一。此外，一致L1高速缓存375存储用于N个exec单元302和P个下载-存储单元LSU303的每个通道的一致值或常数值。

共享存储器306对于单个CTA内的线程可访问；换言之，共享存储器306中的任何位置对于同一个CTA内的任何线程（或对于SM310内的任何处理引擎）可访问。共享存储器306可以实现为具有允许任何处理引擎对共享存储器中的任何位置读取或写入的互连的共享寄存器堆或共享片上高速缓存存储器。在其他实施例中，共享状态空间可能映射到片外存储器的每CTA区上并被高速缓存在L1高速缓存320中。参数存储器可以实现为在实现共享存储器306的同一个共享寄存器堆或共享高速缓存存储器内的指定部分，或者实现为LSU303对其具有只读访问权限的分开的共享寄存器堆或片上高速缓存存储器。在一个实施例中，实现参数存储器的区域还用于存储CTA ID和任务ID，以及CTA和网格维数或队列位置，实现特殊寄存器的各部分。SM310中的每个LSU303耦连到统一地址映射单元352，统一地址映射单元352将为在统一存储器空间中所指定的加载和存储指令所提供的地址转换为每个各异存储器空间中的地址。因此，指令可以用于通过指定统一存储器空间中的地址来访问本地、共享或全局存储器空间中的任何一个。

每个SM310中的L1高速缓存320可以用于高速缓存私有的每线程本地数据还有每应用全局数据。在一些实施例中，可以将每CTA共享数据高速缓存在L1高速缓存320中。LSU303经由存储器和高速缓存互连380耦连到共享存储器306和L1高速缓存320。

基于工作队列的GPU工作创建

如本文所更详细阐述的，本发明使得在PPU202上执行的线程能够通过工作队列和命令块的方式在该PPU202内本地生成并执行工作。在一个实施例中，设备驱动程序103，作为用于建立使得线程能够本地生成并执行工作的存储器对象的初始化过程，生成属于PPU202的工作队列，并且将属于PPU202的工作队列的GP_GET指针设置为包括在属于PPU202的工作队列中的第一条目。设备驱动程序103还在初始化过程期间将属于PPU202的工作队列的GP_PUT指针设置为包括在属于PPU202的工作队列中的最后条目，从而建立属于PPU202的工作队列中的条目的范围，由线程所生成的新的工作可被加载到其中并且随后由PPU202执行。以下结合图4A提供对初始化过程的详细描述。

为了组织GP_GET指针前进通过属于PPU202的工作队列的方式-如本文所阐述的，其控制哪个PPU所生成的工作由PPU202执行-本发明的实施例采用信号量，其是存储在CPU102和PPU202二者都可访问的全局存储器中的对象，该全局存储器例如PP存储器204。如以下所进一步详细描述的，基于由在PPU202上本地执行的线程所生成的工作，将获得或释放信号量的命令插入到由工作队列的条目所指向的不同的命令块，以建立PPU202通过其执行本地生成的工作的受控制的调度。以下结合图4B-4C对线程如何将工作插入工作队列的详细描述进行描述。

图4A示出了根据本发明一个实施例的、用于初始化使得在图2的PPU202之一上执行的线程能够本地生成工作的工作队列的方法400。为了清楚，以下所包括的方法400的描述包括对图5和图6A-6F的引用，其示出了贯穿方法400所论述的各存储器对象之间的示范性关系和内容。尽管结合图1、2、3A、3B和3C的系统对方法步骤进行了描述，但是本领域普通技术人员应该理解配置为以任何顺序实施方法步骤的任何系统均在本发明的范围内。

如所示的，方法400始于步骤402，其中设备驱动程序103在于CPU102上执行的同时接收工作请求，并且工作请求包括使在PPU202上执行的线程在PPU202内本地生成并执行附加工作的指令。在一个实施例中，工作请求引用由设备驱动程序103所支持的特定应用编程接口（API）内的函数，其使得开发者能够向设备驱动程序103指示工作请求当被执行时将使在PPU202上执行的一个或多个线程本地生成将由PPU202执行的附加（即嵌套工作）。以此方式，使设备驱动程序103根据以下所描述的步骤404-416建立工作队列。

在步骤404，设备驱动程序103生成属于PPU202的工作队列，其中属于PPU202的工作队列包括多个条目，并且每个条目可以配置为指向非空命令块。属于PPU202的工作队列的一个示例示出为图5中的工作队列504，其包括多个条目506。在步骤405，设备驱动程序103还在属于PPU202的工作队列中分配两个存储器块：一个用于信号量X，一个用于信号量Y-其可以在图6A-6F中的信号量获得和释放命令中被引用-并且将信号量X和信号量Y初始化为零。对于在步骤402所接收的每个工作请求，设备驱动程序103生成命令块，其包含：“内核启动”、“等待空闲”、“信号量释放X”和“信号量获得Y”命令，并且将属于CPU的信道（例如图6所示的属于CPU的信道602）中的一个或多个条目指向这些所生成的命令块，如在图6A-6F所示的以及以下所进一步详细描述的。

在步骤406，设备驱动程序103生成包含阻塞直到将值写入信号量X的存储器块的信号量获得命令的命令块。以此方式，间接指向信号量获得命令的GP_GET指针阻止主机接口206增大GP_GET指针直到信号量X被解阻塞。该命令块的示例在图5中示出为命令块518-1，其中第一命令块518-1中的信号量获得命令针对信号量514-1，其存在于存储器的特定区域。信号量获得命令阻塞主机接口206直到将值写入存储器的该区域（即信号量被释放）。在一个实施例中，将多个信号量组织为包括与属于PPU202的工作队列数目相同的条目的数据对象，其在图5中示出为信号量512。另外在图5中示出了信号量512的信号量条目514和工作队列504的条目506之间存在的一一对应516。

如本文所描述的，GP_GET指针是属于PPU202的工作队列的多个条目的第一可用条目的索引。在步骤408，设备驱动程序103读取属于PPU的工作队列（例如图6B的属于PPU的信道612）的GP_GET指针并且将工作队列中的第一可用条目指向在步骤406所生成的命令块。这在图6B中示出为指向工作队列614的第一条目的GP_GET615。在步骤410，设备驱动程序103将GP_PUT指针指向属于PPU202的工作队列的多个条目中的最后条目，以允许线程将位于GP_GET和GP_PUT之间的自由条目指向包括本地生成的PPU202工作的所生成的命令块。在一个实施例中，将GP_PUT指针指向由函数“wrap（GP_GET-1,work_queue_entry_count）”所产生的返回值，其中work_queue_entry_count表示工作队列中的条目的总数。在一个实施例中，wrap（）函数以基于工作队列中的条目的数目的方式加以执行。更具体地，如果work_queue_entry_count的值不是2的幂，那么wrap（）函数被执行如下：

由于PCI Express规范中的限制，用于任何信道的GP_GET和GP_PUT的值对在PPU202上运行的线程是不可访问的。结果是，线程无法通过操纵这些值将工作添加到属于PPU202的工作队列。为了消除该缺陷，在步骤412对通过其线程能够以受控制的方式并发地将工作添加到工作队列中的方法进行了描述。在该步骤中，设备驱动程序103生成“soft GP_PUT”指针和“shadow GP_PUT”指针，其中“soft GP_PUT”指针经初始化以指向在由属于PPU的工作队列的GP_GET指针所指向的条目之后的条目，并且“shadow GP_PUT”指针经初始化以指向与属于PPU的工作队列的GP_PUT指针相同的条目。不同于GP_GET指针和GP_PUT指针，“softGP_PUT”指针和“shadow GP_PUT”指针二者都对线程是可访问的。以该方式，线程可以原子地更新并且读取“soft GP_PUT”指针和“shadowGP_PUT”指针以确定新的工作可以插入其中的属于PPU202的工作队列下一个可用条目。

在步骤414，主机接口206执行在步骤404所插入的“等待空闲”命令，等待直到在PPU202上执行的所有线程已经指示它们已经完成执行为止，包括它们所生成的所有存储器事务。在图6A中示出为WFI命令的该步骤阻止GP_GET606被增大直到线程已经完成为止。在接收到这类指示时，方法400继续进行到步骤416，其中主机接口206执行信号量释放命令，其释放在步骤406所生成的信号量以使属于PPU202的工作队列中的PPU所生成的工作开始执行。以下结合6C-6F对在主机接口206释放信号量之后发生什么的示范性示出进行了描述。

图4B-4C示出了根据本发明一个实施例的、用于通过线程在用于图1的计算机系统的并行处理子系统之一上执行的方式本地生成工作的方法450。为了清楚，以下所包括的方法450的描述包括对图5和6A-6F的引用，其示出了贯穿方法450所论述的各存储器对象之间的示范性关系和内容。尽管结合图1、2、3A、3B和3C的系统对方法步骤进行了描述，但是本领域普通技术人员应该理解配置为以任何顺序实施方法步骤的任何系统均在本发明的范围内。

如所示的，方法450始于步骤452，其中在PPU202之一内执行的线程接收1）指向属于PPU202的工作队列的指针-该属于PPU202的工作队列由设备驱动程序103根据图4A的步骤404生成-其配置为使能在PPU202上的工作的本地生成和执行，2）“soft GP_PUT”指针-其也由设备驱动程序103根据图4A的步骤412生成-以及3）“shadow GP_PUT”指针-其由设备驱动程序103根据图4A的步骤412进一步生成。

在步骤454，线程生成N个命令块，每个命令块包括多个命令。这类命令块的示例在图5中示出为命令块518-2，其包括由线程所生成的多个基于PPU的命令520。在步骤456，线程利用基于PPU202的指令填充命令块。

在步骤458，线程生成另一个命令块并且它将信号量获得命令插入命令块的第一条目。该命令当稍后由主机接口206执行时将使它阻塞直到将值写入与信号量相对应的存储器的区域。这类单条目命令块的示例在图5中示出为命令块518-3。在步骤460，线程发出原子请求以将“soft GP_PUT”增大N+1。由原子增大请求所返回的值用作已经为线程的工作所分配的属于PPU202的工作队列中的N+1个条目（将用来指向在步骤454中所生成的命令块的N个条目和将用来指向在步骤458中所生成的命令块的一个条目）的序列中的第一条目的索引。

在步骤462，线程确定在属于PPU202的工作队列中是否存在可以分别指向在步骤454和458所生成的N+1个命令块的足够的可用自由条目。在一个实施例中，该确定通过将由步骤460的原子增大请求所返回的值与“shadow GP_PUT”指针作比较做出，以确保“soft GP_PUT”加上N+1的加法不超过“shadow GP_PUT”指针，其指示在属于PPU202的工作队列中存在足够的可用自由条目。之后线程将属于PPU的工作队列中的N个条目指向在步骤454中所生成的命令块，并且进一步地将在属于PPU202的工作队列中的N+1个经分配的条目中的最后一个指向具有在步骤458所生成的信号量获得命令的命令块。

在步骤464，线程确定由线程所生成的所有新的工作是否已经被完全插入属于PPU的工作队列。当所有新的工作已经事实上完全被插入工作队列时，那么在步骤466，线程释放与紧接在由步骤460的原子增大所导致的条目之前的工作队列条目相对应的信号量。在该情况下信号量释放通过将对应信号量获得命令配置为等待的值写到信号量的存储器块来实施。这将允许一旦主机接口206可以调度包括在由步骤454和458中的线程所生成的命令块中的工作（命令），就由主机接口206执行它们。这将仅在插入工作队列中的由线程在步骤454和458中所生成的命令块之前的所有命令块执行之后发生，其可以包括信号量获得命令，诸如那些在步骤458或在步骤406中所插入的，其将阻止主机接口206取得进步，暂停它们的释放。步骤464的示范性场景在图6D和6E中示出。

在步骤468，线程通过专用逻辑的方式确定附加工作是否需要被插入属于PPU202的工作队列。如果需要，那么方法450前进到步骤470，其中线程将指向包含“等待空闲”（WFI）命令、“信号量释放Y”命令和“信号量获得X”命令的命令块的条目插入属于PPU202的工作队列，跟随在步骤454到464中所描述的方法之后。当主机接口206执行这些命令时，首先，“等待空闲”命令保证属于PPU的信道612中的所有工作（还称为属于PPU202的工作队列）已经完成，其次，“信号量释放Y”命令将值写入信号量Y的存储器块，其解阻塞由在步骤404所生成的“信号量获得Y”命令阻塞的属于CPU的工作队列中的任何工作。最后，“信号量获得X”命令在主机接口206处理属于PPU的信道612的同时阻塞主机接口206的进一步进展。该事件的示范性场景在图6F中示出。

图6A-6F示出了根据本发明一个实施例的、使得工作能够在PPU202之一内被本地生成并且执行的两个不同信道之间的示范性交互。如图6A所示，属于CPU的信道602包括工作队列604，工作队列604包括多个条目，GP_GET指针606和GP_PUT指针608。属于CPU的信道602代表通过其CPU102能够使PPU202执行工作的信道。在该示例中，包括在内核启动中的工作根据本文所描述的技术使附加工作在PPU202内生成并且在PPU202内执行。

在图6A中，GP_GET指针606指向包括对由设备驱动程序103所支持的特定API内的函数的引用的内核启动，设备驱动程序103使得开发者能够向主机接口206指示当工作请求被执行时其将使在PPU202上执行的一个或多个线程本地生成将由PPU202加以执行的附加（即嵌套工作）。设备驱动程序103根据以上结合图4A所描述的技术初始化在图6B中所示出的属于PPU的信道612。

如图6B所示，属于PPU的信道612包括多个条目，其包括当属于CPU的信道602内的“释放X”条目指向GP_GET606时被解阻塞的“获得X”条目。另外在图6B中示出了GP_PUT616，其已经被设置为指向工作队列614的最后条目，以建立线程可以把将要被执行的新的工作插入其中的条目的范围。另外在图6B中示出了第一命令块（PBS-1），其由当生成“PBS-2”的线程指示没有附加工作将由线程生成时由线程解阻塞的“获得A”信号量条目所跟随。属于PPU的信道612还包括第二命令块（“PBS-2”），其由当线程确定没有附加工作需要被生成并且实施步骤468时被解阻塞的“获得B”信号量条目所跟随。

图6C示出了属于CPU的信道602内的信号量X的释放，其在图4A的步骤416发生并且使GP_GET指针615移动到工作队列614中的下一个条目，即PBS-1。图6D示出了包括在PBS-1中的工作的执行。当生成PBS-2的线程指示PBS-2已经完全被插入工作队列中时释放信号量A，在此之后主机接口206将GP_GET推进到指向包含PBS-2的条目。图6E示出了包括在PBS-2中的工作的执行。最后，信号量B当线程确定不再有工作将被生成并且实施步骤468时被释放。示出在图6D和6E二者中的事件代表以上所描述的方法450的方法步骤464-466。最后，图6F示出了信号量Y的释放，其使控制返回到属于CPU的信道602。特别地，图6F示出了以上所描述的方法450的步骤470。

组合起来，本发明所描述的实施例使得在PPU202上执行的线程能够通过属于PPU202的工作队列和命令块的方式在PPU202内本地生成并执行工作。属于PPU202的工作队列的GP_GET和GP_PUT指针由设备驱动程序103设置以创建线程能够直接将新的工作插入其中用于执行的属于PPU202的工作队列内的条目的范围，其中工作存储在由属于PPU202的工作队列中的条目所指向的命令块中。线程还将属于PPU202的工作队列中的条目指向信号量，以阻止GP_GET在线程完成它们的工作生成之前前进通过属于PPU202的工作队列并且执行本文所包括的工作。

所公开的实施例的一个优势是在PPU202上执行的线程可以在PPU202内创建嵌套工作而不需要向CPU102发出这样做的请求。结果是，跨通信路径113消耗较少的带宽，并且进一步地，CPU102的工作负载减少，从而提高效率。此外，线程能够执行有用的嵌套工作而不需要依赖CPU102授权或不必等待CPU102响应执行嵌套工作的请求。

本发明的一个实施例可被实施为与计算机系统一起使用的程序产品。该程序产品的程序定义实施例的各功能（包括本文中描述的方法）并且可以被包含在各种计算机可读存储介质上。示出的计算机可读存储介质包括但不限于：（i）不可写的存储介质（例如，计算机内的只读存储器设备，诸如可由CD-ROM驱动器读取的压缩光盘只读存储器（CD-ROM）盘、闪存、只读存储器（ROM）芯片或任何类型的固态非易失性半导体存储器），在其上存储永久性信息；和（ii）可写的存储介质（例如，磁盘驱动器或硬盘驱动器内的软盘或者任何类型的固态随机存取半导体存储器），在其上存储可更改的信息。

以上已参照特定实施例对本发明进行了描述。然而，本领域普通技术人员将理解的是，可对此做出各种修改和变化而不脱离如随附权利要求书中所阐释的本发明的较宽精神和范围。因此，前面的描述以及附图应被视为是例示性而非限制性的意义。

因此，本发明的实施例的范围在随附的权利要求书中加以阐述。

Claims

1.一种用于配置工作队列以使能在并行处理子系统中执行的线程在所述并行处理子系统内生成并执行工作的方法，所述方法包括：

生成所述工作队列，其中所述工作队列包括多个条目并且与第一指针和第二指针相关联，所述第一指针和所述第二指针中的每一个对所述线程是不可访问的；

建立所述工作队列中的自由条目的范围，通过：

将所述第一指针指向所述多个条目的第一条目；以及

将所述第二指针指向所述多个条目的最后条目；

生成指向所述多个条目的所述第一条目的第三指针，其中所述第三指针对所述线程是可访问的；

生成指向所述多个条目的所述最后条目的第四指针，其中所述第四指针对所述线程是可访问的；

将所述工作队列的所述第一条目指向包含指向被阻塞的信号量的信号量获得命令的命令块；

经由所述第三和第四指针将工作加载到所述工作队列中；

确定所述线程已经完成加载工作；以及

释放所述信号量以使所述第一指针前进到所述工作队列中的下一个条目并且使所述并行处理子系统执行由所述线程所生成的工作。

2.如权利要求1所述的方法，其中所述第一指针和所述第二指针二者都包括基于快速外围部件互连（PCI-E）的指针。

3.如权利要求1所述的方法，其中所述第三指针和所述第四指针二者都存储在对所述线程可访问的、包括在所述并行处理子系统中的存储器的区域。

4.如权利要求1所述的方法，其中释放所述第一信号量包括将值写入所述第一信号量所针对的存储器的区域。

5.如权利要求1所述的方法，其中所述工作队列响应于检测到所述线程正在引用一个或多个应用编程接口（API）函数而生成，所述一个或多个应用编程接口（API）函数针对在所述并行处理子系统内生成并执行工作。

6.如权利要求1所述的方法，其中所述工作队列中的每个条目配置为指向命令块。

7.如权利要求1所述的方法，其中每个命令块配置为存储由所述并行处理子系统可执行的指令或命令。

8.一种并行处理子系统，包括使能在所述并行处理子系统中执行的线程在所述并行处理子系统内生成并执行工作的工作队列，所述系统包括：

所述并行处理子系统；以及

驱动程序，与所述并行处理子系统相配合，其中所述驱动程序配置为：

生成所述工作队列，其中所述工作队列包括多个条目并且与第一指针和第二指针相关联，其中所述第一指针和所述第二指针中的每一个对所述线程是不可访问的；

建立所述工作队列中的自由条目的范围，通过：

将所述第一指针指向所述多个条目的第一条目；以及

将所述第二指针指向所述多个条目的最后条目；

生成指向所述多个条目的所述第一条目的第三指针，其中第三指针对所述线程是可访问的；

经由所述第三和第四指针将工作加载到所述工作队列中；

确定所述线程已经完成将工作加载到所述工作队列中；以及

9.如权利要求8所述的并行处理子系统，其中所述工作队列响应于检测到所述线程正在引用一个或多个应用编程接口（API）函数而生成，所述一个或多个应用编程接口（API）函数针对在所述并行处理子系统内生成并执行工作。

10.如权利要求8所述的并行处理子系统，其中所述工作队列中的每个条目配置为指向命令块。