CN107408054A

CN107408054A - 用于通用计算图形处理单元中的语言嵌入式编程的流控制

Info

Publication number: CN107408054A
Application number: CN201680013001.7A
Authority: CN
Inventors: I·乔索帕特
Original assignee: Individual
Current assignee: Individual
Priority date: 2015-03-05
Filing date: 2016-03-03
Publication date: 2017-11-28
Anticipated expiration: 2036-03-03
Also published as: EP3065051A1; US20180046440A1; CN107408054B; US10459702B2; WO2016139305A1

Abstract

本发明公开了一种计算设备中的流控制方法以及存储该方法的计算机程序产品，所述方法用于处理流控制语句以适应在计算设备上运行的程序的数据结构。本发明从而允许在编译时将内核集成到主程序中。CPU程序部分和内核的整个解析由一个单个标准编译器完成。用于设备的实际编译器可以作为库被链接，并且不需要进行任何解析。本发明还允许在语言嵌入式GPGPU编程中使用循环和if子句，使得能够以完全嵌入普通编程语言中的方式实现设备的全通用编程。所述设备可以是高度并行的计算设备，诸如视频卡或一些其它计算设备。

Description

用于通用计算图形处理单元中的语言嵌入式编程的流控制

技术领域

本发明涉及借助通用计算图形处理单元的数据处理。具体地，本发明涉及一种称为“语言嵌入式编程”的新技术。

背景技术

术语通用计算图形处理单元(GPGPU)用于使用专门的高度并行的硬件来执行通常在标准处理器上执行的计算上要求苛刻的任务。所述硬件可以是视频卡或一些其它计算设备。在大多数GPGPU编程环境中，可以在中央处理单元(CPU)上运行的主程序、以及针对计算上要求苛刻的任务在设备上运行的内核由单独的编译器解析。主程序由普通编译器解析，并以普通编程语言编写，而内核由专用编译器解析并以专门的编程语言编写。

涉及语言嵌入式编程的技术首先由Thomas C.Jansen在其博士论文“GPU++-AnEmbedded GPU Development System for General-Purpose Computations”(慕尼黑技术大学，2007年)中进行了描述。其中不包括流控制的方法，诸如循环或if子句。因此，本公开限于非常小的程序集，并且不能实现通用编程。

WO2012/097316描述了用于利用并行处理单元扩展通用图形处理单元的架构以允许基于流水线的应用的有效处理的技术。所述技术包括配置连接到作为处理流水线的阶段操作的并行处理单元的本地存储器缓冲器，以保持用于在并行处理单元之间传送的数据。

面向对象的编程语言允许定义新的数据类型以及对应的操作符。在语言嵌入式编程中，以这样的方式代替进行实际计算来定义特定数据类型，计算的步骤被记录并用于生成用于设备的机器码。以这种方式，内核被完全集成到主程序中，并且不必由特定编译器进行解析。

这些特定数据类型用于表示驻留在设备上的值。这些值通常将被存储在寄存器中。在一个示例中，用于设备值的类型名称是以表达式“gpu_”为前缀的内在(intrinsic)类型名称，即，int变为gpu_int，float变为gpu_float等。其它命名规格也是可以的。内核可以作为使用这些特定数据类型的函数被访问。当在CPU上执行这样的内核函数时，设备数据类型的使用将创建其中表示计算步骤的表达图(expression graph)。每个设备变量都拥有指向表达图中节点的指针，该指针确定如何计算该变量的值。根据该表达图生成内核代码。

利用现有技术的教导，内核不能被集成到主程序中，除非使用两个单独的编译器。

发明内容

本发明克服了现有技术的缺点，并且因此允许将内核集成到主程序中。CPU程序部分和内核的整个解析由一个单个标准编译器完成。用于设备的实际编译器可以作为库被链接，并且不需要进行任何解析。

本发明还允许在语言嵌入式GPGPU编程中使用循环和if子句，使得能够以完全嵌入普通编程语言中的方式实现设备的全通用编程。该设备可以是高度并行的计算设备，诸如视频卡或其它计算设备。

上述目的通过根据权利要求1的计算设备中的流控制的方法(用于处理流控制语句以适应在计算设备上运行的程序的数据结构)以及根据权利要求14的计算机程序产品来实现。在从属权利要求中限定了其它有利特征。

附图说明

图1是空变量列表的图。

图2是包含变量a、b和c的设备变量列表的图。

图3是在引入变量的副本之前的表达图。

图4是在引入变量的副本之后的表达图。

图5是循环之前以及评估指令节点之后的表达图。

图6是在循环体的结束处的表达图。

图7是示出替换指针的表达图。

图8是评估替换指针的效果之后的表达图。

图9是循环之后的表达图。

图10是示例内核的结束处的表达图。

图11是示出流控制语句的全表达图。

具体实施方式

本发明允许在语言嵌入式编程中使用流控制语句，诸如循环和if子句。

存在不同种类的流控制语句。最常见的是if子句、while循环和for循环。本发明适用于全部它们三个，但是本发明的一般原理也可以适用于其它种类的流控制语句。

在上面列出的三个流控制语句中，if子句是最基本的一个。循环有一些额外的要求。

在while循环中，循环条件在循环体内修改。因此，必须特别小心。解决这个问题的一种方法是将循环条件实例化为循环外的布尔值(Boolean)。

例如，

可以被实现为

For循环总是可以通过在循环之前声明循环变量并在循环体中使其递增而表示为while循环。

为了使编程更加用户友好，建议模仿传统的循环语法。然而，根据本发明，要求在循环体的开始和结束处调用函数。代替编写：

需要编写像下面的语句：

为了实现前面的语法，可以使用语言特征。例如，在C++中，这可以利用宏、for循环和constructor/destructors来实现。

用于跳过循环体的其余部分并继续下一个循环的“continue”语句可以被实现为覆盖循环体的其余部分的if子句，或者在继续语句是在子句中的情况下被实现为多个if子句。

作为示例，考虑以下循环：

gpu_continue()语句可以通过将循环变换成以下程序来实现，优选地由编译器库进行变换：

用于退出循环的“break”语句可以像“continue”语句一样被实现，但是其中循环条件也被修改，以便退出循环。

作为关于本发明的基础技术的示例，以下程序是一个示例：

在示例程序中，b用作循环变量，针对小于10的所有奇数自然数运行。变量a会将这些数字相加，并返回结果。为了在设备上执行该程序，对其进行如下修改：

将变量改变为相应的设备数据类型，设备值由前缀gpu_指示，因此int变为gpu_int。在循环体的开始和结束处，分别调用特定函数gpu_while_begin和gpu_while_end。

对于其它流控制语句，诸如if子句，可以使用其它函数(诸如gpu_if_begin和gpu_if_end)代替。代替在此明确地调用这些函数，可以使用构造函数/析构函数机制或其它语言特征来使循环声明更加用户友好。然而，本发明不限于任何这样的方法，并且出于解释性原因，在此将使用更基本的方法来在示例中明确地调用gpu_while_begin和gpu_while_end函数。结果被写入到资源res，资源res提供内存访问。资源访问的实现是本领域技术人员公知的，因此在本文中不再详细描述。假设使用“[]”运算符生成适当的指令。程序代码可以作为某一函数或类来访问。在本文中，作为示例，使用函数example_kernel()，以便可以从编译器库中调用它。

使用语言嵌入式编程技术。在内核可以在设备上运行之前，需要生成内核程序指令。为此，在CPU上执行内核函数。与标准内在变量相反，声明为设备类型的所有变量(在本示例中为gpu_int和gpu_bool)将不会立即执行计算，而是将计算步骤记录在表达图中，该表达图是有向且非循环图。每个设备变量都包含指向其表达图中当前值的指针。只要设备变量被分配了一个新值，其指针就改变成该新值。不再被参考的节点可能会被删除。两个或更多个变量可能指向同一节点。如果变量被复制，或者在表达式被优化之后，则可能会发生这种情况。根据该表达图生成内核代码。这可以是直接机器代码，或是一些中间代码，诸如OpenCL。

对于本发明，可以单独地或组合地实现以下过程：

以某种方式登记设备变量，使得计算机可以在任何时间访问存在于当前作用域(scope)内的所有设备变量的列表。这些变量也称为主动变量。大多数现代编程语言都支持作用域的概念。局部变量只在给定作用域内有效。请考虑以下示例：

在上面的代码段中，变量在以下作用域内有效：变量a从第3行到第9行，变量i从第4行到第7行，以及变量b从第6行到第7行。

对应的局部变量(在该示例中为变量a、i和b)仅从这样的点开始存在：它们被限定为对应作用域的结束。在执行期间的任一点处，都有明确定义的一组变量都是活跃的。在一些编程语言中，当变量首次存在时调用构造函数，并且当对应的作用域结束时调用析构函数。变量也可以在堆上被分配，在这种情况下，程序员可以选择何时创建和何时销毁它们。在本发明中，设备变量在创建它们的相同作用域内被销毁。否则，在设备上将需要动态内存管理，并且变量不能被存储在寄存器中。

参照图1，说明在运行时访问主动变量的列表的方法。如果编程语言支持构造函数和析构函数，许多选项中的一个(但可能是最有效的实现方法)就是使用构造函数和析构函数以及双向链表。所有设备变量存储指向前一个变量和下一个变量的两个指针。可选地，可以使用基类。根节点存储为静态变量。根节点用作列表的入口点。利用根节点地址本身初始化根节点的两个指针prev和next。

然后，当设备变量进入作用域时，将通过按以下方式设置指针来调用其构造函数，该构造函数将新变量插入到列表中：

this->prev＝root->prev

this->next＝root

root->prev->next＝this

root->prev＝this

其中“this”指向新变量，并且“root”指向静态根节点。

图2示出了具有三个变量a、b和c的列表结构。当设备变量离开作用域时，调用其析构函数，该析构函数将通过如下设置指针从列表中删除所述变量：

this->prev->next＝this->next

this->next->prev＝this->prev

利用这样的列表，可以通过在根节点处开始并且通过跟随下一个指针来访问当前存在的所有设备变量，直到再次到达根节点。另选地，可以使用其它方法来跟踪主动变量，这取决于编程语言支持哪些特征。

在CPU上执行内核程序以生成表达图，表达图稍后将用于创建用于设备的内核指令。

只要在处理期间遇到循环或if子句，函数gpu_while_begin()或gpu_if_begin()或适用于遇到的流控制语句的任何其它函数都在循环体的开始处被调用。图3示出了当调用gpu_while_begin()时，在循环的开始处的程序“example_kerneF”的表达图。

该函数可以具有以下效果中的一个或更多个：

参照图3，对于当前存在的每个设备变量，其值被其自身的副本替换，即，创建复制节点，并且改变变量中的节点指针以指向新的复制节点。新的复制节点指向原始节点。从而指向相同表达节点的多个变量被分离以指向不同的节点。因此，可以向所有设备变量分配寄存器，否则对于所有节点条目(诸如常数)可能不是这种情况。以这种方式，保证每个设备变量都可以被分配唯一的寄存器名称。复制节点的创建对于每个变量可能不是严格必需的，但是稍后可以去除冗余的复制操作。

图4示出了在引入复制节点之后的表达图。这些框表示变量，圆圈表示确定它们的值所需的操作。

为了处理先前指令的表达图，执行以下操作：立即评估当前的表达图。如图5所示，这将生成内核指令，直到循环开始，并将寄存器名称分配给所有现有变量。

参照图5至图8，其中所描绘的表达图包含已经被评估的节点。已评估的节点被标记为虚线(dashed)圆。此外，虚线箭头表示替换的标记，点线(dotted)箭头表示依赖关系(dependency)。作为其评估的结果，生成以下伪代码：

Rl＝0

R2＝1

R3＝(1<10)

图5示出了循环之前以及评估指令节点之后的表达图。上面的程序代码是从已经被评估的指令节点生成的代码。仍然被参考的三个节点被标记为已评估，并且具有分配给它们的寄存器。

对于当前存在的每个设备变量，其当前节点指针被存储为“原始节点指针”，使得稍后其可以与在循环体结束处具有的值进行比较。

然后执行循环体，并且设备数据类型记录表达图中的所有计算步骤。图6中示出了循环体结束处的表达图。点划线(dash-dotted)箭头指向循环体开始处的原始节点。如果循环体还包含流控制语句(诸如嵌套循环或if语句)，则通过将相关过程应用于此嵌套流控制语句，递归地处理这样的流控制语句。

在循环体的结束处，调用函数gpu_while_end()或适用于遇到的流控制语句的任何其它函数。

该函数可以具有以下效果中的一个或更多个：

参照图7，对于每个主动设备变量，将其当前节点指针与先前存储的原始节点指针进行比较。如果其已被改变，则标记新节点以替换旧节点。在下面的描述中，为在循环体中其值已改变的那些变量添加替换指针。在设备类型数据结构中，这可以被实现为附加指针。实现相同功能的其它手段是可能的，诸如直接添加适当的依赖关系指针。因为设备变量在创建其的相同作用域内被销毁，即没有变量在堆上被永久创建或销毁，所以在循环体之前和之后都存在相同的变量。

参照图8，当要将寄存器分配给被标记为替换另一个节点的节点时，该寄存器将被给予与正被替换的节点相同的寄存器名称。对于所有替换指针，添加依赖关系，使得在正在替换的节点之前计算访问正在替换的节点的每个节点。这是必要的，因为寄存器值被重写，并且使用其原始值的所有节点在被重写之前必须使用它。在图8中，寄存器R1、R2和R3被替换。如图8所示，由于左边的“+”(加)节点使用被另一个节点(在这种情况下为中间的“+”(加)节点)替换的节点(在这种情况下是顶部的中间“复制”节点)，添加依赖关系以确保在重写之前使用寄存器“R2”的原始值。

参照图9，评估表达图，并且循环装饰(decoration)(这里例如是语句“while(R3)”)连同作用域括号或其它手段以适当的方式被添加到输出代码，以在输出代码中指示所述循环。循环后的程序伪代码是：

然后执行内核函数的其余部分，并且图10示出了示例内核的结束处的表达图。变量a和b已经离开作用域。写入语句仍然可以通过例如“流指针”访问。使用流指针，使得写入节点仍然被参考而不被删除。

表达图被转换成用于设备的程序指令。最终的程序代码可以是机器代码或某种中间代码。在给定的示例中，生成的代码对应于以下伪代码：

该代码，无论是直接代码(例如机器代码)还是间接代码(例如OpenCL代码或某种其它中间代码)都准备好在设备上执行。

参照图11，另选地，对处理先前指令的表达图的上述描述，可以执行以下操作：流控制语句(所述流控制语句中的每一个由入口节点和出口节点组成)被构成表达图的一部分。依赖关系用于强制实施正确的指令排序。图11示出了包含流控制语句的全表达图。其中虚线箭头指的是替换指针，点线箭头指的是依赖关系，而实线箭头指的是用作输入值。寄存器R1、R2和R3没有在开始时被分配，而是在图中被示出为指示由于替换指针而将哪些值分配给相同的寄存器。此过程类似于上面详细描述的过程，但代码生成被延迟。在内核函数结束之前，不评估表达图，必须使用依赖关系来确保生成的代码是正确的。

流控制语句必须以正确的方式被排序，通常以与源代码中出现的相应语句相同的顺序，或可能稍微放宽一点。这可以通过在流控制节点之间添加依赖关系指针来实现。这里使用输入值指针代替；它们在图11中被标记为实线箭头。从而该过程具有用于流控制语句的节点不被删除的额外益处。仅被依赖关系指针参考而不被输入值指针参考的节点可以从图中被去除。

被其它节点替换的节点需要在正确的作用域中被评估(在它们被替换的流控制语句的入口节点之前)。使用这些节点作为输入的所有节点必须在该入口节点之后被评估。替换其它节点的节点必须通过添加依赖关系来锚定在正确的流控制作用域内(在入口节点与出口节点之间)。写入内存必须在正确的作用域内被评估。不应在子作用域内评估节点。这意味着如果存在递归流控制语句(例如while循环中的if子句)，则与while循环相关的所有节点必须在“if begin”节点之前或“if end”节点之后被评估。节点可以在父作用域内被预先计算，但是除非依赖关系阻止该计算。

为了提高性能，可以对表达图执行优化。例如，在上面的示例中，以值1和10作为输入的“<”(小于)节点是恒定表达式，并且可以用值“true”替换。

本文的主题可以在各种各样的设备或装置中实现。上述设备仅构成示例。已经对本发明方法的各种示例进行了描述。这些和其它示例在所附权利要求的范围内。

Claims

1.一种计算设备中的流控制的方法，所述方法用于处理流控制语句以适应在所述计算设备上运行的程序的数据结构，其特征在于：

将所述计算设备的多个变量寄存在变量列表中，

针对所述多个变量中的当前存在的每一个，存储节点指针作为该变量的原始节点指针，

处理包含在所述流控制语句内的指令，

针对所述多个变量中的当前存在的每一个，确定当前节点指针是否与所述原始节点指针不同，

将所述多个变量中的每一个的、已经确定与原始节点不同的当前节点标记为用于所述原始节点的替换，

评估所述数据结构并创建代码输出，其中，将语言特定的流控制语句添加到所述代码输出。

2.根据前述权利要求中的任一项所述的方法，其中，所述多个变量中的每一个被寄存在构造所述变量的构造函数调用中，和/或其中，在析构函数调用中从所述变量列表中去除所述多个变量中的每一个。

3.根据前述权利要求中的任一项所述的方法，其中，评估所述数据结构的步骤包括：向所述数据结构中的所述节点中的至少一个分配寄存器名称。

4.根据前述权利要求中的任一项所述的方法，其中，所述数据结构是表达图。

5.根据前述权利要求中的任一项所述的方法，其中，所述方法还包括：基于所述数据结构创建用于所述计算设备的内核指令。

6.根据前述权利要求中的任一项所述的方法，其中，处理包含在所述流控制语句内的指令的步骤还包括：通过设备数据类型记录计算的全部步骤。

7.根据前述权利要求中的任一项所述的方法，其中，将所述多个变量中的每一个的、已经确定与所述原始节点不同的所述当前节点标记为用于所述原始节点的替换的步骤还包含：向所述原始节点添加替换指针。

8.根据前述权利要求中的任一项所述的方法，其中，标记所述当前节点的步骤还包括：添加依赖关系以防止意外重写变量。

9.根据前述权利要求中的任一项所述的方法，其中，在每个流控制语句开始处，从所述数据结构生成输出代码。

10.根据权利要求1至8中的任一项所述的方法，其中，流控制语句的入口和出口在所述数据结构内由入口节点和出口节点表示，并且所述数据结构的所述评估在所述处理的结束处实现。

11.根据权利要求10所述的方法，其中，所述流控制语句的顺序通过使用依赖关系指针被强制实施，和/或

其中，被其它节点替换的节点在相应的流控制语句的入口节点之前被评估，和/或

其中，被其它节点替换的、使用其它节点作为输入参数的节点在相应的流控制语句的入口节点之后被评估，和/或

其中，正被其它节点替换的节点被锚定在相应的流控制语句的入口节点与出口节点之间。

12.根据权利要求10至11中的任一项所述的方法，其中，节点能够在父作用域内被评估，除非这被依赖关系阻止，但是节点不能在子作用域内被评估。

13.根据权利要求1至12中的任一项所述的方法，其中，在评估所述数据结构之前对所述数据结构执行优化。

14.一种包括用于处理设备的程序的计算机程序产品，所述计算机程序产品包括用于当所述程序在所述处理设备上运行时执行根据权利要求1至13中的任一项所述的步骤的软件代码部分。

15.根据权利要求14所述的计算机程序产品，其中，所述计算机程序产品包括其上存储有所述软件代码部分的计算机可读介质，并且其中，所述程序能够直接加载到所述处理设备的内部存储器中。