CN103885751A

CN103885751A - 将区别属性的存储器分配给共享数据对象的系统和方法

Info

Publication number: CN103885751A
Application number: CN201310538409.4A
Authority: CN
Inventors: 杰迪普·马拉蒂; 林�源; 高塔姆·查克拉瓦蒂; 权冠; 阿米特·萨布尼
Original assignee: Nvidia Corp
Current assignee: Nvidia Corp
Priority date: 2012-11-05
Filing date: 2013-11-04
Publication date: 2014-06-25
Also published as: TW201439907A; US20140129812A1; US9727338B2; CN103809964A; US20140129783A1; US9747107B2; TW201439905A; TW201443783A; TWI510919B; CN103809964B; US20140130021A1; TW201443639A; US9710275B2; CN103809936A; US20140130052A1; CN103809963A; TWI488111B; TWI494853B; US9436475B2

Abstract

用于将区别属性的共享存储器分配给共享数据对象的系统和方法以及混合堆栈数据结构。在一个实施例中，系统包括：（1）混合堆栈创建器，配置为在共享存储器中创建具有较低部分和较高部分的混合堆栈数据结构，该较低部分具有较多有利属性，该较高部分具有较少有利属性，以及（2）数据对象分配器，与混合堆栈创建器相关联并配置为如果较低部分具有充足剩余容量以包含共享数据对象那么将用于共享数据对象的存储分配在较低部分中，以及如果较低部分具有不足的剩余容量以包含共享数据对象那么可替代地将用于共享数据对象的存储分配在较高部分中。

Description

将区别属性的存储器分配给共享数据对象的系统和方法

相关申请的交叉引用

本申请要求于2012年11月5日由Lin等人所提交的、序列号为61/722,661的、标题为“EXECUTING SEQUENTIAL CODE USING AGROUP OF THREADS”的美国临时申请以及于2012年12月21日由Lin等人所提交的、序列号为13/724,089的、标题为“SYSTEM AND METHODFOR ALLOCATING MEMORY OF DIFFERING PROPERTIES TO SHAREDDATA OBJECTS”的美国申请的优先权，在先申请与本申请共同受让，并在本文通过援引的方式对二者加以合并。

技术领域

本申请总地指向并行处理器，并且，更具体地，指向用于将区别属性的存储器分配给共享数据对象的系统和方法。

背景技术

如相关领域技术人员意识到的，可并行地执行应用以增加其性能。数据并行应用在不同数据上并发实行相同进程。任务并行应用在相同数据上并发实行不同进程。静态并行应用是具有可在其执行之前被确定的并行度级别的应用。相反，由动态并行应用可达到的并行度仅可随着其执行而被确定。无论应用是数据或任务并行、或静态或动态并行，其可在管线中执行，这通常是用于图形应用的情况。

某些计算系统，诸如单指令、多数据（SIMD）处理器，尤其擅长执行数据并行应用。SIMD处理器中的管线控制单元创建执行的线程组并调度其用于执行，在执行期间组中的所有线程并发执行相同指令。在一个特定处理器中，每个组具有32个线程，与SIMD处理器中的32个执行管线或通道（lane）相对应。

考虑实现在并行处理计算系统上的交叉-合并（fork-join）并行编程模型诸如OpenMP或OpenACC。在该模型中，程序代码的一些部分仅由一个线程（“主”线程）所执行，而其他部分由并行的多个线程（“工作者”线程）所执行。执行以仅主线程活动而开始。在工作创建构造处，当主线程激活工作者线程并对每个工作者指派“执行任务”诸如循环的某个数目的迭代时，执行被分叉。工作者线程随后典型地并行执行其被指派的任务。一旦工作者线程结束，则它们停用，并且当主线程恢复其余程序代码的执行时执行被合并。当仅一个线程活动时的程序执行期在本文将称为顺序区或阶段，并且当多于一个线程活动时的程序执行期在本文将称为并行区或阶段。

在包括OpenMP和OpenACC的许多交叉-合并模型中，可在并行区中访问被分配在顺序区中的数据对象。因此，并行处理器架构提供存储器用于存储数据对象，多个线程在它们的执行期间可获得对该数据对象的访问权限。可由许多属性来表征该存储器，包括大小、时延、易失性和其他，以及它们的伴随的优点和缺点。

发明内容

一个方面提供用于将区别属性的共享存储器分配给共享数据对象的系统和混合堆栈（hybrid stack）数据结构。在一个实施例中，系统包括：（1）混合堆栈创建器，配置为在共享存储器中创建具有较低部分和较高部分的混合堆栈数据结构，该较低部分具有较多有利属性，该较高部分具有较少有利属性，以及（2）数据对象分配器，与混合堆栈创建器相关联并配置为如果较低部分具有充足剩余容量以包含共享数据对象那么将用于共享数据对象的存储分配在较低部分中，以及如果较低部分具有不足的剩余容量以包含共享数据对象那么可替代地将用于共享数据对象的存储分配在较高部分中。

另一方面提供将区别属性的共享存储器分配给共享数据对象的方法。在一个实施例中，方法包括：（1）在共享存储器中创建混合堆栈数据结构，该数据结构具有较低部分和较高部分，该较低部分具有较多有利属性，该较高部分较少有利属性，（2）当线程要求共享数据对象时，（2a）如果较低部分具有充足剩余容量以包含共享数据对象那么将用于共享数据对象的存储分配在较低部分中，以及（2b）如果较低部分具有不足的剩余容量以包含共享数据对象那么可替代地将用于共享数据对象的存储分配在较高部分中，以及（3）当没有线程进一步要求共享数据对象时，释放存储。

又一方面提供混合堆栈数据结构。在一个实施例中，数据结构包括：（1）共享存储器中的具有较多有利属性的较低部分，以及（2）共享存储器中的具有较少有利属性的较高部分。

附图说明

现在结合附图对下面的描述加以参考，其中：

图1是并行处理器的框图，并行处理器可操作以包含或实行用于将区别属性的存储器分配给共享数据对象的系统或方法；

图2是混合堆栈的一个实施例的图示；以及

图3是用于将区别时延的存储器分配给共享数据对象的系统的一个实施例的框图；以及

图4是将区别属性的存储器分配给共享数据对象的方法的一个实施例的流程图。

具体实施方式

如上文所阐明的，由许多属性来表征并行处理器架构。例如存储器可分层成具有较高时延的较大存储器和具有较低时延的较小（可能在数量级上）的存储器。架构通常包括数个具有各种属性和用途的存储器块。多个线程通常需要获得对该存储器的访问权限以共享数据对象。

在许多交叉-合并编程模型中，可在并行区中访问被分配在顺序区中的数据对象。然而，在一些执行平台上，线程本地存储器不可由其他线程访问。例如，在一些市场上可买到的图形处理单元（GPU）中，驻留在一个线程的本地存储器中的数据对象对不同线程是不可访问的。因此将软件程序转译成可执行形式的编译器或运行时系统，被分派负责将存储器分配给潜在共享的对象使得其可由并行区中的活动线程访问。

在顺序区期间所分配的、本地于函数的数据对象可方便地置于堆栈数据结构上。然而，本文认识到的是，针对在仅一个类型的存储器（例如，仅全局共享存储器，或仅块共享存储器）中的共享数据对象实现堆栈数据结构有缺点。如果堆栈数据结构要全部置于趋向于更小的块共享存储器中，那么栈可能容易溢出，并且程序将需要终止。另一方面，如果堆栈数据结构要全部置于趋向于更高时延的全局共享存储器中，那么如果对共享对象的访问很繁重则程序的性能将降低，因为平均访问时延将增加。如果程序几乎不具有小的共享对象那么这可能尤其有害。

本文所引入的是用于将区别属性的存储器分配给共享数据对象的系统和方法的各种实施例。系统和方法实施例一般指向构造混合堆栈数据结构，也就是说，采用多个类型的物理存储器所实现的堆栈数据结构。系统和方法实施例利用每个类型的存储器的强项，得到与当仅使用一个类型的存储器所可能得到的相比限制性较小并达到较高性能的机制。例如，在某些实施例中，当在通常情况下相对较少对象被分配在堆栈上时，混合堆栈提供使用块共享存储器的时延优点。然而，如果许多大的对象被分配在堆栈上，混合堆栈通过巧妙的“落回（falling back）”到使用较高时延的全局共享存储器来提供鲁棒性。

在任何常规或以后所开发的并行编程系统中，在共享对象由多个线程访问并且执行衬底提供具有区别资源限制和性能特性的多个物理存储器的情况下，可采用系统和方法的各种实施例。

在一些实施例中，存储器片段（segment）可配置为例如编译时（compile-time）或运行时（run-time）参数。这允许用户决定如何最好地平衡存储器资源使用和程序性能。例如，在块共享存储器片段中分配较多对象典型地减少平均访问时延并因此增加程序性能。类似地，在某些实施例中，混合堆栈的每一层的大小可配置为，最低层最小，下一层较大，而最高层最大。

下文将示出并描述数个实施例。所示出和描述的实施例中的许多实施例表现为特定于具有位于两个不同存储器中的片段的混合堆栈。然而，相关领域技术人员将理解，这些实施例中的许多实施例与其他实施例一起指向具有多于两个片段并因此位于多于两个存储器中的混合堆栈。本发明不针对混合堆栈可容纳的不同存储器的数目加以限制。

在描述系统和方法的某些实施例之前，将描述并行处理器，其可操作以包含或实行用于将区别属性的存储器分配给共享数据对象的系统和方法。

图1是并行处理器100的框图。并行处理器100包括被组织成线程组104或“线程束（warp）”的多个线程处理器或核心106。并行处理器100包含J个线程组104-1到104-J，每组具有K个核心106-1到106-K。在某些实施例中，线程组104-1到104-J可进一步被组织成一个或多个线程块102。某些实施例包括每线程组104三十二个核心106。其他实施例可包括少如每线程组中四个核心或多如数万核心。某些实施例将核心106组织成单线程组104，而其他实施例可具有数百或甚至数千个线程组104。并行处理器100的替代实施例可将核心106仅组织成线程组104，省略线程块组织级别。

并行处理器100进一步包括管线控制单元108、块共享存储器110和与线程组104-1到104-J相关联的本地存储器112-1到112-J的阵列。管线控制单元108通过数据总线114将任务分布到各个线程组104-1到104-J。线程组106-j内的核心106相互并行地执行。线程组104-1到104-J通过存储器总线116与块共享存储器110进行通信。线程组104-1到104J通过本地总线118-1到118-J分别与本地存储器112-1到112-J进行通信。例如线程组104-J以通过总线118-J进行通信来利用本地存储器112-J。并行处理器100的某些实施例将块共享存储器110的共享部分分配到每个线程块102，并允许由线程块102内的所有线程组104访问块共享存储器110的共享部分。某些实施例包括仅使用本地存储器112的线程组104。许多其他实施例包括平衡本地存储器112和块共享存储器110的使用的线程组104。

图1的实施例包括主线程组104-1。其余线程组104-2到104-J中的每一个被视为“工作者”线程组。主线程组104-1包括许多核心，其中的一个是主核心106-1，该主核心106-1最终执行主线程。在并行处理器110上所执行的程序被构造为内核的序列。典型地，每个内核在下一内核开始之前完成执行。在某些实施例中，并行处理器100可并行执行多个内核，这取决于内核的大小。每个内核被组织为要在核心106上所执行的线程的层级。

在下面的示例中，并且不损失普遍性，将使用可从市场上买到的来自加利福尼亚州圣塔克拉拉市的Nvidia公司的GPU作为执行平台并且将使用OpenACC作为用于程序的交叉-合并并行编程模型。如先前所描述的，Nvidia GPU提供二者均可由作为相同线程块的一部分的所有线程所访问的全局和共享存储器。全局共享存储器访问时延比块共享存储器访问时延高多于一个数量级。全局共享存储器的大小比块共享存储器的大小大多于一个数量级。下文的表1阐述了OpenACC程序的示例，其中并行区中的线程访问被分配在顺序区中的共享变量。

表1-示范性OpenACC程序

在表1的示例程序中，分叉和合并并行构造是“pragma acc loop worker”和“pragma acc parallel”，并且共享数据变量是“arr”和“scalar”。

“pragma acc parallel”构造在每“组”激活一个主线程，并且“pragmaacc loop”激活组中的其他工作者线程。在组中的其他线程被激活之前，仅组的一个线程是活动的（主线程）。函数“foo”被主线程所调用。变量函数本地变量“arr”和“scalar”的地址被传递到函数“bar”，其激活工作者线程。工作者线程访问“arr”和“scalar”对象。

为了正确的执行，变量“arr”和“scalar”应被分配在可由工作者线程访问的存储器区中。在该示例中，变量被分配在混合数据堆栈上。使用两个预分配的缓冲区来实现混合数据堆栈：块共享存储器中一个和全局共享存储器中一个。如果在分配给混合堆栈时有空间，那么变量被分配在块共享存储器片段中。否则被分配在全局共享存储器中。与两个片段的最大大小、当前活动片段和在活动片段内应尝试下一堆栈的位置有关的内务处理（housekeeping）信息被加以维持。

图2是具有较低部分202和较高部分204的混合堆栈200的一个实施例的示意图。在某些实施例中，较低部分202存在于具有较低时延的块共享存储器片段中，并且较高部分204存在与具有较高时延的全局共享存储器片段中。栈底206存在于较低部分202中并表示混合堆栈200中首先可用的或最低的存储器地址。相似地，栈顶208存在于较高部分204中并表示混合堆栈200中最后可用的或最高的存储器地址。

首先在较低部分202中对栈底206做出分配。随着分配增加，较低部分逐渐填满直到到达较低部分中的最大分配210为止。较低部分中的最大分配210实质上是混合堆栈的较低部和较高部之间的界限，或者在某些实施例中是混合堆栈的块共享和全局共享片段之间的界限。在替代实施例中，在运行时处指定较低部分中的最大分配210；并且在其他实施例中在编译时处指定。可通过定制较低部分存储器片段和较高部分存储器片段的大小来做出该指定，以达到堆栈属性和性能诸如容量和堆栈时延的适当平衡。

在采用变化大小和时延的存储器的某些实施例中，情况通常是混合堆栈200将不超过较低部分中的最大分配210；某些程序简单地不采用足够大数量的在线程之间所共享的数据来填满混合堆栈200的较小、较低时延的存储器片段。当混合堆栈200的较低部分202被填满时，对混合堆栈200的下一分配被分配到较高部分204的最低地址中。术语“最低”是指混合堆栈200上的仅在最低部分中的最大分配210之上的位置。随着分配的继续增加，较高部分204被填满并且混合堆栈200的整体时延爬升。随着存储器从混合堆栈200中被释放，释放首先来自较高部分204，即较高时延的全局共享存储器片段。随着存储器继续被释放，时延下降，全局共享存储器片段清空，最终再次到达较低部分中的最大分配210。进一步的释放随后来自较低部分202，即块共享存储器。

下文的表2是阐述采用特定内务处理变量集的混合堆栈的实现方案。还给定用于从混合堆栈中分配和释放变量的伪代码。注释“__shared__”和“__device__”指示变量应分别被分配在共享和全局GPU存储器中。注意，该简化的实现方案不视为是针对正被分配在堆栈上的对象的队列（alignment）要求。

表2–示范性混合堆栈

在表2中，“shared_mem_top”和“global_mem_top”指示在该处应分别尝试分配的共享和全局共享存储器片段中的位置。“Using_shared_mem_segment”是指示是否应使用块共享存储器片段用于分配的布尔标记。

表3–示范性混合堆栈数据对象分配例程

表4–示范性混合堆栈数据对象释放例程

如果在块共享存储器片段中存在足够空间那么“Allocate_on_hybrid_stack”分配在块共享存储器片段中的存储器；否则对象被分配在全局共享存储器片段中。

“Deallocate_from_hybrid_stack”在适当的存储器片段中调整堆栈指针，并且如果全局共享存储器片段完全是空的（即目前没有对象被分配在该片段中）那么可切换回到使用块共享存储器片段。

从混合堆栈对块共享存储器的分配和释放仅发生在程序的顺序区期间，所以在分配和释放期间不存在线程安全问题。

图3是用于将区别时延的存储器分配给共享数据对象306的系统300的一个实施例的框图。系统300包括混合堆栈创建器302和数据对象分配器304。混合堆栈创建器302配置为创建图2的混合堆栈200。混合堆栈200如图3所示，包括块共享存储器片段308和全局共享存储器片段310，即图2的较低和较高部分。

数据对象分配器304在共享数据对象306上进行操作以将共享数据对象306存储在混合堆栈200中。在某些实施例中，数据对象分配器304在编译时处操作，而在其他实施例中数据对象分配器304在运行时处操作。

数据对象分配器304有利于分配到块共享存储器片段308。在分配时，数据对象分配器304检查块共享存储器片段308是否具有可用容量来存储数据对象。如果块共享存储器片段308中存在容量，那么数据对象被存储在块共享存储器片段308中。如果块共享存储器片段308中不存在容量，那么数据被存储在全局共享存储器片段310中。

图4是将区别属性的存储器分配给共享数据对象的方法的一个实施例的流程图。方法开始于开始步骤410。在步骤420中，创建共享存储器中的混合堆栈数据结构，该混合堆栈数据结构具有较低部分和较高部分，该较低部分具有较多有利属性，该较高部分具有较少有利属性。在该点，针对由任何线程所要求被包含在数据结构中的共享数据对象在数据结构中做出分配。因此，在决策步骤430中，确定较低部分是否具有充足剩余容量以包含给定的所要求的共享数据对象。如果是，那么在步骤440中将用于共享数据对象的存储分配在较低部分中。如果否，那么在步骤450中替代地将用于共享数据对象的存储分配在较高部分中。在步骤460中，针对不再由任何线程所要求被包含在数据结构中的任何共享数据对象来释放存储。方法结束于结束步骤470。

本申请相关领域技术人员应理解的是，可对所描述的实施例做出其他和进一步的添加、删除、替换和修改。

Claims

1.一种用于将区别属性的共享存储器分配给共享数据对象的系统，包括：

混合堆栈创建器，配置为在所述共享存储器中创建具有较低部分和较高部分的混合堆栈数据结构，所述较低部分具有较多有利属性，所述较高部分具有较少有利属性；以及

数据对象分配器，与所述混合堆栈创建器相关联并配置为如果所述较低部分具有充足剩余容量以包含共享数据对象那么将用于所述共享数据对象的存储分配在所述较低部分中，以及如果所述较低部分具有不足的剩余容量以包含所述共享数据对象那么可替代地将用于所述共享数据对象的存储分配在所述较高部分中。

2.根据权利要求1所述的系统，其中所述较多有利属性是较低时延，并且所述较少有利属性是较高时延。

3.根据权利要求2所述的系统，其中具有较低时延的所述较低部分是块共享存储器，具有较高时延的所述较高部分是全局共享存储器，并且所述系统在具有本地存储器的并行处理计算系统中可操作。

4.根据权利要求1所述的系统，其中所述较低部分最多比所述较高部分小一个数量级。

5.根据权利要求1所述的系统，其中所述较低和较高部分的大小是可软件配置的。

6.根据权利要求1所述的系统，其中所述混合堆栈创建器和所述数据对象分配器可在从包括下面各项的组中所选择的一个中实现：

编译器，以及

运行时系统。

7.根据权利要求1所述的系统，其中所述数据对象分配器仅在程序执行的顺序区期间可操作。

8.一种混合堆栈数据结构，包括：

共享存储器中的具有较多有利属性的较低部分，以及

所述共享存储器中的具有较少有利属性的较高部分。

9.根据权利要求8所述的数据结构，其中所述较多有利属性是较低时延，并且所述较少有利属性是较高时延。

10.根据权利要求9所述的数据结构，其中具有较低时延的所述较低部分是块共享存储器，具有较高时延的所述较高部分是全局共享存储器，并且所述系统在具有本地存储器的并行处理计算系统中可操作。