CN101944040A

CN101944040A - 一种基于谓词的自动并行优化方法

Info

Publication number: CN101944040A
Application number: CN2010102817998A
Authority: CN
Inventors: 杨克峤; 李弋; 臧斌宇
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2010-09-15
Filing date: 2010-09-15
Publication date: 2011-01-12

Abstract

本发明属于程序编译技术领域，具体为一种基于谓词的自动并行优化方法。该方法主要包括：(1)谓词的构建，通过用户程序的多种已知信息，构建程序的并行谓词，消除程序的简单依赖；(2)构建并行循环结构，在谓词条件的约束下，展开后续并行化分析，判断是否需要采纳并行谓词。并行谓词的构建基于传统的数组数据流分析和循环依赖性测试。通过构建谓词，消除由循环信息不精确而导致的循环简单依赖，从而扩大传统自动并行优化的分析范围和并行优化效果。在程序的实际执行中，如果谓词不满足，则程序执行原始串行版本，增加的判断和跳转操作对程序的总体性能几乎没有影响；如果谓词满足，则执行循环结构的并行版本，能够显著的提升程序性能。

Description

一种基于谓词的自动并行优化方法

技术领域

本发明属于程序编译技术领域，具体涉及一种自动并行优化方法。

背景技术

循环是程序中蕴含并行性最丰富的一种结构，也往往是程序执行最耗时的部分。对串行程序并行优化的实质是针对循环体的并行性分析。并行性分析的目的是找出串行程序中适合并行优化的循环体，并且保证修改后的并行程序与原串行程序保持相同的语义。并行性分析根据数据依赖分析的结果，尽可能多的发掘程序中的并行性，以便并行优化工作可以从中权衡取舍，获得一个全局较优的并行优化方案。

数据依赖分析是一个整数线性规划问题，因此它不可能有精确且有效的解决方案。实际程序中的循环结构一般也比较复杂，其中含有若干影响并行优化的依赖关系。当含有无法确定的依赖信息时，无法通过循环变换技术来消除依赖。例如程序中存在一些编译时无法确定的信息出现在嵌套内层循环的上下界或数组访问的函数中时，分析器就无法精确计算嵌套循环体内数组依赖信息，如数组的定义-使用信息、定义是否覆盖可能使用，这就限制了对外层嵌套循环的并行识别。只有当一个串行循环内嵌套的所有并行循环包含的数组定义和引用之间都不存在数据依赖，那么并行结构可以直接扩展到该串行循环的最外层。循环信息的不精确使得依赖分析保守认为循环存在简单依赖，因而无法并行优化。

本发明提出基于谓词的自动并行优化方法，依据已知程序信息推导可并行条件，提升对简单依赖循环的并行优化效果。一般情况下，用户程序的循环携带依赖关系比较简单，复杂的情况并不常见，因而谓词并行优化技术具备一般性，假设的并行条件在程序的实际执行中的命中率比较高。

发明内容

本发明的目的在于提出一种基于谓词的自动并行优化方法，以消除循环体的数据依赖，实现对循环结构的自动并行优化。

本发明提出的基于谓词的自动并行优化方法，主要包括：(1)谓词的构建；(2)基于谓词构建并行循环版本。

谓词的构建，是依据传统的数组数据流分析和循环依赖性分析，通过程序的已知信息推导出并行谓词，消除循环的简单依赖，发掘循环结构的并行潜力；

基于谓词构建并行循环版本，是在谓词的约束条件下，判断嵌套循环能否最外层完全并行，如果能够最外层完全并行，则将谓词作为运行时的并行条件，创建循环结构的并行版本；否则，放弃假设的谓词。

本发明提出的基于谓词的自动并行优化方法，依据程序的多种特征，通过假设并行条件谓词，构造一个可并行的循环版本；运行时，程序依据构造的谓词条件，决定是否运行的并行循环版本。在精确数组数据流分析过程中，当遇到不精确信息导致循环简单依赖时，则依据已知循环信息推导循环的可并行条件，在可并行条件的约束下，构建并行的循环结构。

本发明在自动并行优化过程中主要面向由不精确信息导致的简单依赖循环。通过构建谓词信息，进一步展开自动并行优化分析；在谓词约束条件下，如果能够展开嵌套循环最外层的完全并行，则采纳假设的谓词，构建并行循环版本。对于嵌套循环的最外层并行，一般都有较大的性能收益，从而避免并行开销评估模型的不精确。

并行谓词条件的构建依赖数据流依赖分析，在传统的数组数据流分析方法和依赖相关性测试中获取循环的已知信息。当依赖相关性测试因为依赖关系不明确而采用保守估计时，触发对并行谓词的构建和采用基于谓词的自动并行优化化技术。通过假设并行谓词条件，消除不精确数据依赖关系，使得自动并行优化继续展开后续分析。

附图说明

图1是包含简单依赖的循环示例。由于内层循环边界N和外层循环边界间的关系不明确，使得数组数据流分析认为循环内对数组a的读写操作存在数据依赖，因而无法自动并行优化。

具体实施方式

下面进一步介绍本发明方法的具体操作步骤：

第一，将源程序转化为编译器中间表示

并行化过程中首先将源程序转变成中间表示形式。程序的中间表示以结构化形式描述程序的抽象语法树结构，并记录在程序分析和优化过程中收集和产生的各种信息，它为程序分析、变换和优化的各个阶段提供所需的程序信息支持。

第二，数组数据流的依赖性测试

采用传统的数组数据流分析方法，对两层嵌套循环中可能存在的数据依赖的分析过程：

a. 构建循环边界与数组下标的等式

首先找出两层嵌套循环的代码中可能存在数据依赖的定义，设两层嵌套循环的下标分别为i和j，存在数组引用对：对a数组的写引用a[A1i+B1j+C1]和对a数组的读引用a[A2i+B2j+C2]。由数组a的定义和引用关系，可建立如下等式：

A1i + B1j+ C1 = A2i +B2j + C2

和限制条件不等式：

m<= i <=n

x<= j <=y

等式可以写成如下矩阵的形式：

（A1 - A2，B1 – B2）

= C2 – C1

即Av ＝ c，这里v=<i,j>, c=<C2 – C1>

b. 依据等式系统，进行数组数据流的依赖性测试。对上面的等式的测试过程如下：

A I

（A1 - A2 B1 – B2）

把A的第一列*

加到第二列，得到：

（A1 – A2 0）

D U

求解等式Dt = c，得t = <C2 – C1, t2>，此时<i, j> = Ut，因此

i=

j = t2

依据条件不等式

m<=

<=n

x <= t2 <= y

得到最终判定不等式：

<=t2 <=

x <= t2 <= y

若 x,y<=

或

<=x,y，则t2无解，a数组的访问没有依赖；然而依赖分析无法判定x和y或者m和n的范围，因而依赖性测试认为可能存在依赖，不能做最外层完全并行。

c.谓词构造

上例中，由于x和y关系的不精确，从而导致数据依赖。这将触发并行谓词的构造。

将不等式系统中最后判定的不等式转化为使得数组数据流无依赖的并行谓词，如上面的最终判定条件转化为条件谓词x,y<=

或

<=x，y。并基于该条件谓词更新循环信息，继续后续并行优化分析。

第三，判断能否对嵌套循环最外层进行完全并行

基于更新后循环迭代信息，进行相关性测试判定能否嵌套循环最外层的完全并行；如果能够完全并行，则采纳构建的并行谓词，并以该谓词作为运行时的并行执行条件，生成并行循环结构。

第四，将中间表示翻译成带OpenMP标注的并行程序

自动并行优化过程通常采用源到源的程序转换，将串行程序优化成带OpenMP并行指示的并行程序。基于谓词的自动并行优化方法将把程序翻译成如下形式：

IF (( y .le.) .or.

(x .ge.

.and. y .ge.

))THEN

#pragma parallel do

嵌套循环程序

ELSE

嵌套循环程序

ENDIF。

通过上述四个步骤，一个两层嵌套循环程序能够被自动并行优化。用户程序中的依赖往往比较简单，在实际运行中，谓词被满足的可能性比较大。基于谓词的自动并行优化技术能够扩大并行优化的效果，如NPB基准测试集中的SP和SPECCPU2006基准测试集中ZEUSMP测试用例都可以通过基于谓词的自动并行优化得到性能提升。