CN103809936A

CN103809936A - 编译或运行时执行分叉-合并数据并行程序的系统和方法

Info

Publication number: CN103809936A
Application number: CN201310538671.9A
Authority: CN
Inventors: 林�源; 高塔姆·查克拉瓦蒂; 杰迪普·马拉蒂; 权冠; 阿米特·萨布尼
Original assignee: Nvidia Corp
Current assignee: Nvidia Corp
Priority date: 2012-11-05
Filing date: 2013-11-04
Publication date: 2014-05-21
Also published as: TW201439907A; US20140129812A1; US9727338B2; CN103809964A; US20140129783A1; US9747107B2; TW201439905A; TW201443783A; TWI510919B; CN103809964B; US20140130021A1; TW201443639A; US9710275B2; US20140130052A1; CN103809963A; TWI488111B; TWI494853B; US9436475B2; CN103885751A

Abstract

用于采用函数调用来编译或运行时执行分叉-合并数据并行程序的系统和方法。在一个实施例中，系统包括：（1）分区器，其可操作以将组分区成主组和至少一个工作者组，以及（2）线程指定器，其与分区器相关联并可操作以指定来自主组的仅一个线程用于执行和该至少一个工作者组中的所有线程用于执行。

Description

编译或运行时执行分叉-合并数据并行程序的系统和方法

相关申请的交叉引用

本申请要求于2012年11月5日由Lin等人所提交的、序列号为61/722,661的、标题为“EXECUTING SEQUENTIAL CODE USING AGROUP OF THREADS”的美国临时申请以及于2012年12月21日由Lin等人所提交的、序列号为13/724,359的、标题为“SYSTEM AND METHODFOR COMPILING OR RNTME EXECUTING A FORK-JOIN DATAPARALLEL PROGRAM WITH FUNCTION CALLS ON ASINGLE-INSTRUCTION-MULTIPLE-THREAD PROCESSOR”的美国申请的优先权，在先申请与本申请共同受让，并在本文通过援引的方式对二者加以合并。

技术领域

本申请总地指向并行处理器，并且，更具体地，指向用于在单指令多线程（SIMT）处理器上采用函数调用来编译或运行时（runtime）执行分叉-合并（fork-join）数据并行程序的系统和方法。

背景技术

如相关领域技术人员意识到的，可并行地执行应用或程序以增加其性能。数据并行程序在不同数据上并发实行相同进程。任务并行程序在相同数据上并发实行不同进程。静态并行程序是具有可在其执行之前被确定并行度级别的程序。相反，由动态并行程序可达到的并行度仅可随着其执行而被确定。无论程序是数据或任务并行、或静态或动态并行，其可在管线中执行，这通常是用于图形程序的情况。

SIMT处理器尤其擅长执行数据并行程序。SIMT处理器中的控制单元创建执行的线程组并调度其用于执行，在执行期间组中的所有线程并发执行相同指令。在一个特定处理器中，每个组或“线程束（warp）”具有32个线程，与SIMD处理器中的32个执行管线或通道（lane）相对应。

分叉-合并数据并行程序采用单线程的主体（main）程序来开始。程序在该级的顺序阶段或区中。在主体程序的执行期间的某一点处，主体或“主（master）”线程遭遇并行阶段或区的序列。每个并行区具有独立数据集并可由多个线程并发执行。当并行区开始时每个并行区中的并发任务的数目被确定，并且在并行区期间不改变。当遭遇并行区时，主体线程将一队线程（称为工作者（worker）线程）分叉以并行地执行并行区。程序随后进入并行区。如果工作者线程遭遇新并行区，那么新并行区将被序列化，即将由遭遇的工作者线程本身执行并行区。主线程等待直到并行区结束为止。一退出并行区，工作者线程与主线程合并，其随后在程序进入顺序区的点处恢复主体程序的执行。

下文的表1阐述分叉-合并数据并行程序的示例。

表1–分叉-合并数据并行程序的示例

出于理解表1和本公开的剩余内容的目的，术语“foo”和“bar”是函数的任意名称。因此“foo”和“bar”可替代任何函数。

分叉-合并数据并行模型通常在并行编程中使用。例如，OpenMP标准采用该模型作为其基本线程执行模型。OpenACC标准针对组中称为“gang”的工作者线程使用该模型。

发明内容

一个方面提供用于采用函数调用来编译或运行时执行分叉-合并数据并行程序的系统。在一个实施例中，系统包括：（1）分区器，其可操作以将线程束分区成主线程束和至少一个工作者线程束，以及（2）线程指定器，其与分区器相关联并可操作以指定来自主线程束的仅一个线程用于执行和该至少一个工作者线程束中的所有线程用于执行。

另一方面提供采用函数调用来编译或运行时执行分叉-合并数据并行程序的方法。在一个实施例中，方法包括：（1）将线程束分区成主线程束和至少一个工作者线程束，以及（2）指定来自主线程束的仅一个线程用于执行和该至少一个工作者线程束中的所有线程用于执行。

附图说明

现在结合附图对下面的描述加以参考，其中：

图1是SIMT处理器的框图，该SIMT处理器可操作以包含或实行用于采用函数调用来编译或运行时执行分叉-合并数据并行程序；

图2是用于采用函数调用来编译或运行时执行分叉-合并数据并行程序的系统的一个实施例的框图；以及

图3是采用函数调用来编译或运行时执行分叉-合并数据并行程序的方法的一个实施例的流程图。

具体实施方式

在SIMT处理器中，执行的多个线程被隔离成组。组中的所有线程同时执行相同指令。在可从市场上买到的来自加利福尼亚州圣塔克拉拉市的Nvidia公司的图形处理单元（GPU）中，其为一个类型的SIMT处理器，组被称为“线程束”，其按块执行。

SIMT处理器的管线控制单元创建、管理、调度、执行并提供机制以将组同步。Nvidia GPU提供bar.sync指令以将组同步。Nvidia GPU还支持由组进行的“发散”条件分支的执行；组中的一些线程需要采取分支（因为分支条件断言评估为“真”），并且其他线程需要落到下一指令（因为分支条件断言评估为“伪”）。管线控制单元保持跟踪组中的活动线程。其首先执行路径中的一个（所采取的分支或未被采取的分支）并且随后其他路径；在每个路径上使能适当的线程。

本文认识到的是，虽然GPU线程块内的所有线程在相同程序地址开始，但管线控制单元将受益于软件机制来将线程分区并调度成主体线程和工作者线程使得其可实施在分叉-合并模型中。

进一步认识到的是，软件机制的某些实施例应按组管理和同步线程，因为管线控制单元按组管理线程。

又进一步认识到的是，由于主体程序在分叉-合并模型中被单线程地执行，因此软件机制的某些实施例应达到顺序区语义而不引入副作用。导致副作用的指令的实施例是采用共享资源的那些指令，诸如共享存储器读或写或者可唤起共享异常处置器的任何代码操作（例如划分）。

还进一步认识到的是，软件机制的某些实施例应支持可在顺序区内和并行区内被调用的函数。这类函数可包含并行构造（parallel construct）本身。仍进一步认识到的是，软件机制的某些实施例应支持可分叉-合并并行区的函数调用。

仍进一步认识到的是，软件机制的某些实施例应支持外来函数，即并非由同一编译器编译为程序的函数。例如，现有GPU数学库中的数学函数，以及系统函数如malloc、free和print。在某些实施例中，顺序区中的主线程和并行区中的工作者线程二者应均能够调用外来函数。

因此，本文所描述的是用于在诸如GPU的SIMT处理器上采用函数调用来编译和执行分叉-合并数据并行程序的系统和方法的各种实施例。

在描述系统和方法的某些实施例之前，将描述SIMT处理器，其可操作以包含或实行用于采用函数调用来编译或运行时执行分叉-合并数据并行程序的系统或方法。

图1是SIMT处理器100的框图。SIMT处理器100包括被组织成线程组104或“线程束”的多个线程处理器或核心106。SIMT处理器100包含J个线程组104-1到104-J，每组具有K个核心106-1到106-K。在某些实施例中，线程组104-1到104-J可进一步被组织成一个或多个线程块102。某些实施例包括每线程组104三十二个核心106。其他实施例可包括少如每线程组中四个核心或多如数万核心。某些实施例将核心106组织成单线程组104，而其他实施例可具有数百或甚至数千个线程组104。SIMT处理器100的替代实施例可将核心106仅组织成线程组104，省略线程块组织级别。

SIMT处理器100进一步包括管线控制单元108、块共享存储器110和与线程组104-1到104-J相关联的本地存储器112-1到112-J的阵列。管线控制单元108通过数据总线114将任务分布到各个线程组104-1到104-J。线程组106-j内的核心106相互并行地执行。线程组104-1到104-J通过存储器总线116与块共享存储器110进行通信。线程组104-1到104J通过本地总线118-1到118-J分别与本地存储器112-1到112-J进行通信。例如线程组104-J以通过总线118-J进行通信来利用本地存储器112-J。SIMT处理器100的某些实施例将块共享存储器110的共享部分分配到每个线程块102，并允许由线程块102内的所有线程组104访问块共享存储器110的共享部分。某些实施例包括仅使用本地存储器112的线程组104。许多其他实施例包括平衡本地存储器112和块共享存储器110的使用的线程组104。

图1的实施例包括主线程组104-1。其余线程组104-2到104-J中的每一个被视为“工作者”线程组。主线程组104-1包括许多核心，其中的一个是主核心106-1，该主核心106-1最终执行主线程。在SIMT处理器110上所执行的程序被构造为内核的序列。典型地，每个内核在下一内核开始之前完成执行。在某些实施例中，SIMT处理器100可并行执行多个内核，这取决于内核的大小。每个内核被组织为要在核心106上所执行的线程的层级。

已描述其内可包含或实行本文所引入的系统或方法的SIMT处理器，将描述系统和方法的各种实施例。

本文所引入的系统的一个实施例包括编译器和设备运行时库。设备运行时库实现线程和组管理功能性。编译器将分叉-合并数据并行程序转译成主体线程程序和所括出的函数的集合，每个函数与并行构造相对应。经转译的代码对设备运行时库中的函数进行调用以实施线程和组管理。

下文的表2示出示范性程序以例示编译器转译和设备运行时实现方案。

表2–用于编译器转译和设备运行时实现方案的示范性程序

表2的main()程序的流程采用单主线程开始。主线程调用具有对编译器可见并由该编译器所编译的体的函数foo()。主线程随后调用函数ext()，其是具有对该编译器不可见的体的外部或外来函数。对外来函数的调用按原状被转译，不用由编译器进行任何特殊处置。主线程随后遭遇第一并行区。工作者线程将执行并行区而主线程等待其完成。在并行区内，每个工作者线程调用函数foo()和bar()。函数bar()包含另一并行区；然而，bar()已经在并行区之中。因为bar()已经在并行区之中，所以bar()之中的并行区将由每个工作者线程顺序地执行。

在第一并行区之后，主线程遭遇第二并行区。在第二并行区内，每个工作者线程调用外部外来函数ext()。在第二并行区之后，主线程调用函数bar()。在bar()内，主线程遭遇将再次由工作者线程执行的第三并行区。

函数Main()被称为入口函数，因为其是程序开始之处。诸如foo()和bar()的函数是非入口函数。

针对入口函数，编译器首先制作命名为main_core()的克隆拷贝。克隆拷贝随后如下文所描述被作为非入口函数处理。针对main()函数，编译器生成类似于下文表3中所示的代码，其中groupID()返回线程组的ID，所述线程组包含执行语句的线程。threadID()返回线程的ID。init()、

signal_done()和scheduler()是设备运行时库中的函数。

表3–示范性编译器生成的代码

当GPU线程块开始时，块内的所有线程执行main()；然而，其采取不同路径。线程0是主线程并执行init()、main_core()和singal_done()。组0内的其他线程直奔main()函数的结束并在那里等待。其余组中的线程执行scheduler()。

对于非入口函数，比如foo()、bar()和main_core()，编译器就如没有并行构造存在那样来转译代码。如果非入口函数包含并行构造，那么针对每个并行构造，编译器创建包含并行构造的体的函数（所括出的函数），并随后创建条件分支，所述条件分支检查执行线程是否是主线程。在伪分支中，编译器插入执行循环的代码。在真分支中，编译器插入对设备运行时库的调用以指派任务、唤醒工作者线程并执行屏障。当非入口函数在并行区之外被调用时条件为真。当非入口函数在并行区之内被调用时条件为假，在该情况下并行循环由执行线程顺序地执行。

例如，下文表4中示出用于函数bar()的经转译的代码。

表4-用于函数bar()的经转译的代码

signal_task()和barrier()是设备运行时库中的函数。bar_par_frunc()是与原始函数bar()中的并行构造相对应的所括出的函数。

此外，在该实施例中，设备运行时库包括下面的函数：init()、sheduler()、signal_task()、signal_done()和barrier()。库还实现以下函数用于内部使用：signal()、wait()和fetch_task()。

所有工作者线程执行scheduler()函数。工作者线程进行睡眠-唤醒-执行的循环直到被指示退出为止。

表5–使用程序退出标记的示范性代码

布尔变量‘exit_flag’被放入块共享存储器中并可由线程块内的所有线程访问。其由主线程用来以向工作者线程传达其是否应全部退出执行。‘exit_flag’在init()函数中设为伪，并且在signal_done()函数中设为真。两个函数均由主线程所调用。

表6–用于改变程序退出标记级的示范性代码

另一个块共享存储器用来传达当前任务。由主线程在signal_task()函数中设置当前任务，并且由工作者线程在fetch_task()函数中加以获取。块共享存储器包含指向与并行构造相对应的所括出的函数的指针。

表7–用于使用指针标识当前任务的示范性代码

因为并行区在线程块内被按顺序执行，所以在任何时刻仅一个任务是活动的。如果并行区可被异步地执行，那么典型地需要较复杂的数据结构诸如堆栈、队列或树来存储活动任务。

使用硬件屏障来实现barrier()、signal()和wait()函数。

表8–示范性barrier()、signal()和wait()函数

图2是用于采用函数调用来编译或运行时执行分叉-合并数据并行程序210的系统200的一个实施例的框图。程序210包括入口函数212、非入口函数214和外来函数216。系统200包括分区器202、线程指定器204、线程调度器206、函数处理器208、设备运行时库218和图1的SIMT处理器100。

SIMT处理器100包括图1的管线控制单元108、数据总线114、本地总线118-1和118-2以及共享存储器110。在图2的实施例中，SIMT处理器100示出为具有单线程块，其包含两个线程组：主线程组104-1和工作者线程组104-2。线程组104-1和104-2中的每一个包含线程106。

分区器202指定线程组104-1作为主线程组并且指定其余线程组作为工作者线程组。在图2的实施例中，示出单工作者线程组104-2。在替代实施例中，可采用许多工作者线程组。线程指定器204指定主线程组104-1的主线程106-1。主线程组104-1中的所有其他线程实际上是空闲的。线程指定器204还指定工作者线程组104-2中的线程106中的每一个作为工作者线程。

线程调度器206转译程序210使得管线控制单元108适当地控制主线程106-1和工作者线程组104-2中的各工作者线程的执行。线程调度器206转译程序210使得当主线程执行开始时，程序退出标记被禁止。线程调度器206调度主线程106-1以执行，直到到达程序210的并行区或结束为止。当到达程序210的并行区时，线程调度器206设置并行任务，并且工作者线程组104-2中的工作者线程开始执行。线程调度器206还针对工作者线程中的每一个设置屏障，使得当进入屏障时主线程106-1的执行恢复。当到达程序210的结束时，程序退出标记被使能，这使所有工作者线程停止执行。

函数处理器208对程序210的函数进行操作。处理入口函数212包括创建随后被作为非入口函数所处理的入口函数的克隆拷贝。处理原始入口函数使得主线程106-1将在其他调用之中执行克隆拷贝，并且工作者线程将执行循环，该循环是睡眠、唤醒、获取和执行由线程调度器206所设置的并行任务。

函数处理器208以两种方式转译非入口函数214。如果在非入口函数中不存在并行构造，那么简单地按原状处理函数。当存在并行构造时，创建包含并行构造的体的所括出的函数。函数处理器208随后创建分支条件，该分支条件将顺序地执行并行构造或采用设备运行时库218以指派任务、唤醒工作者线程和执行屏障，如上文所述。唤醒和睡眠功能性通过使用运行时设备库218的硬件屏障功能来实现。在屏障处的线程不被调度用于由硬件执行，所以其不浪费执行循环。在主线程组104-1内，仅主线程106-1参与屏障。之所以如此是因为硬件屏障是基于组的。如果组内的任何线程在屏障处，那么组视为在屏障处。

类似于处理不具有并行构造的非入口函数，外来函数216由函数处理器208按原状处理。

分叉-合并数据并行程序被分区成主程序和并行任务的集合。主程序是将由主体线程所执行的程序。并行任务与由工作者线程所执行的并行区相对应。主程序包含调度在该处主线程将指派并行任务的点、唤醒工作者线程和等待工作者线程完成。

专用主组中的专用主线程将正在执行程序的顺序区。

可替代地，可在组中的所有线程正在执行代码的同时在顺序区中仿真单线程行为。然而，仿真方案具有性能和工程复杂性这二者的限制，使其用处较小。必要的断言和同步引入执行开销。此外，可能从顺序区和并行区二者所调用的所有函数需要被不同地克隆和编译。

给定线程和组分区，工作者线程和主线程假定下面的寿命循环：

工作者线程的一个实施例在寿命循环中经历以下级：

1）线程块开始；

2）睡眠直到由主线程所唤醒为止；

3）如果程序退出标记设为真则退出；

4）获取并执行由主线程所指派的任务；

5）进入屏障；以及

6）回到级2。

主线程的一个实施例在寿命循环中经历以下级：

1）线程块开始；

2）将程序退出标记设为伪；

3）执行主程序直到到达并行区或到达主程序的结束为止；

4）在并行区的开始处：

a.设置并行任务，

b.唤醒工作者线程，

c.进入屏障，以及

d.恢复主程序（级3）；以及

5）在主程序的结束处：

a.将程序退出标记设为真，

b.唤醒工作者线程，以及

c.退出。

主组中的其他线程实质上在程序的结束处等待，其处于空闲。由主线程和工作者线程交错地执行程序。这产生良好的指令高速缓存足迹（foot-print），其比由主线程和工作者线程二者均活动并执行不同代码路径的方法所产生的足迹更好。

图3是采用函数调用来编译或运行时执行分叉-合并数据并行程序的方法的一个实施例的流程图。方法开始于开始步骤310。在步骤320，将线程块内的线程组分区成主线程组和至少一个工作者线程组。在步骤330，指定来自主线程组的一个线程作为主线程。主组的其余线程实质上在执行的从始至终是空闲的。并且在步骤330，指定该至少一个工作者线程组中的所有线程作为工作者线程。方法结束于结束步骤340。

本申请相关领域技术人员应理解的是，可对所描述的实施例做出其他和进一步的添加、删除、替换和修改。

Claims

1.一种用于采用函数调用来编译或运行时执行分叉-合并数据并行程序的系统，包括：

分区器，其可操作以将组分区成主组和至少一个工作者组；以及

线程指定器，其与所述分区器相关联并可操作以指定来自所述主组的仅一个线程用于作为主线程执行和所述至少一个工作者组中的所有线程用于作为工作者线程执行。

2.根据权利要求1所述的系统，进一步包括线程调度器，其与所述线程指定器相关联并可操作以使单指令多线程处理器的管线控制单元调度所述主线程的执行如下：

当所述主线程开始执行时将程序退出标记设为第一状态；

所述主线程执行直到到达所述程序的并行区或结束为止；

一到达所述并行区，则设置并行任务、进入第一屏障、进入第二屏障并且恢复所述主线程的执行；以及

一到达所述结束，则将所述程序退出标记设为第二状态、进入屏障并且所述主线程停止执行。

3.根据权利要求1所述的系统，进一步包括线程调度器，其与所述线程指定器相关联并可操作以使单指令多线程处理器的管线控制单元调度所述工作者线程的执行如下：

所述工作者线程进入第一屏障；

当所述主线程到达并行区并且所述主线程进入屏障时所述工作者线程开始由所述主线程所设置的并行任务的执行；

所述并行任务一完成，则所述工作者线程进入第二屏障；以及

如果将程序退出标记设为第二状态并且所述主线程进入屏障那么所述工作者线程退出。

4.根据权利要求1所述的系统，进一步包括线程调度器，其与所述线程指定器相关联并可操作以采用单指令多线程处理器的管线控制单元的屏障函数以控制所述工作者线程的执行和停止。

5.根据权利要求1所述的系统，进一步包括函数处理器，其与所述线程指定器相关联并可操作以创建入口函数的克隆拷贝，并且将所述入口函数作为非入口函数处理。

6.根据权利要求1所述的系统，进一步包括函数处理器，其与所述线程指定器相关联并可操作以通过以下各项转译具有并行构造的非入口函数：

创建包含所述并行构造的体的函数；以及

如果所述函数正在所述主线程内执行，那么插入对设备运行时库的调用。

7.根据权利要求1所述的系统，进一步包括函数处理器，其与所述线程指定器相关联并可操作以按原状转译对外来函数的调用。

8.根据权利要求1所述的系统，进一步包括函数处理器，其与所述线程指定器相关联并可操作以采用设备运行时库，所述设备运行时库提供能从经编译的用户代码和内部函数所调用的函数。

9.根据权利要求1所述的系统，进一步包括函数处理器，其与所述线程指定器相关联并可操作以采用退出标记，所述退出标记存储在共享存储器中并被采用以允许所述主线程向所述工作者线程传达何时所述工作者线程应停止执行。

10.根据权利要求1所述的系统，其中所述系统可操作以配置单指令多线程处理器的共享存储器以标识当前任务。