CN112527304A

CN112527304A - 基于异构平台的自适应节点融合编译优化方法

Info

Publication number: CN112527304A
Application number: CN201910885756.1A
Authority: CN
Inventors: 王飞; 沈莉; 吴伟; 胡浩; 钱宏
Original assignee: Wuxi Jiangnan Computing Technology Institute
Current assignee: Wuxi Jiangnan Computing Technology Institute
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2021-03-19
Anticipated expiration: 2039-09-19
Also published as: CN112527304B

Abstract

本发明公开一种基于异构平台的自适应节点融合编译优化方法，包括以下步骤：S1、生成中间表示；S2、DAG融合子图识别；S3、节点融合策略；S4、代价评估；S5、自适应选择节点融合策略，即根据S4计算得到的第k个融合策略代价，结合目标后端的寄存器、cache、内存使用情况，自适应地选择最优的节点融合策略；S6、目标相关节点融合，根据节点融合策略，将S23中匹配得到的DAG子图的控制流和数据流关系，转移到S5选择出的节点融合策略所生成的融合后的DAG子图上，使用融合后的DAG子图替换融合前的DAG子图，转到S22；S7、生成目标代码，即编译器对降级完成后的DAG进行编译处理，生成异构平台代码。本发明为异构平台的节点融合优化提供精确指导，能够进一步挖掘异构平台复合指令的潜力，提升异构平台的性能。

Description

基于异构平台的自适应节点融合编译优化方法

技术领域

本发明涉及一种基于异构平台的自适应节点融合编译优化方法，属于编译器优化技术领域。

背景技术

精简指令集计算机和复杂指令集计算机是当前CPU的两种架构，它们的区别在于不同的CPU设计理念和方法。早期的CPU全部是复杂指令集架构，它的设计目的是要用最少的机器语言指令来完成所需的计算任务。长期以来，计算机的性能的提高往往是通过增加硬件的复杂性来获得，一般的复杂指令计算机所含的指令数目至少300条，有的甚至超过了500条。复杂指令集计算机虽然能带来较大的性能提升，但是对于一个典型的程序而言，其运算过程所使用的80%指令只占一个处理器指令系统的20%，由此可见指令和成本之间存在巨大的不平衡。此外，尽管超大规模集成电路技术现在已经达到很高的水平，但也很难把复杂指令集计算机的全部硬件做在一个芯片上，这也妨碍单片计算机的发展。精简指令集系统只包含那些使用频繁的指令，并提供一些必要的指令以支持操作系统和高级语言。使用精简指令集的计算机不仅制造工艺简单而且成本低廉。

复合指令是在基础的精简指令集的基础之上，增加的一些用于提升程序性能、增加指令并行度的特殊指令。可以说复合指令的出现标志着精简指令集计算机和复杂指令计算机正在逐渐走向融合，比如常见的复合指令——乘加指令就是由专门的乘加器来完成乘加运算，对于一些机器学习、科学计算的课题而言，乘加指令使用得相当频繁。如神经网络中最常见的表达式y = x × w + b可以通过乘加指令来完成，表达式中x为[x₁,x₂,…,x_n]，w为[w₁,w₂,…,w_n]^T， b为一个常量。当然还有其他的一些复合指令来针对某些课题进行加速，所以通过使用复合指令可以进一步释放CPU的潜力，提升CPU的性能。复合指令是通过专用的硬件逻辑来完成复杂的功能，相比于软件实现，硬件实现效率更高。该类指令被广泛用于提升课题执行效率上，且达到很好的加速效果。

传统的编译器所采用的节点融合优化技术主要都是通过在源代码中调用内建函数接口或用中间表示进行模板匹配等方式来生成复合指令。内建函数调用方式与后端指令信息是强相关的，这在一定程度上限制了目标无关的节点优化，不利于编译器优化技术的发展，而且增加了程序员开发程序的复杂度。模板匹配方式生成复合指令是通过匹配一个子图然后替换为相应的复合指令，这种方式没有充分考虑指令集、数据流和控制流信息对复合指令的影响，导致生成的可执行文件的无法充分发挥复合指令的性能，不利于处理器复合指令性能的充分提升。该类方式的优点是简单且易于实现，但是没有充分考虑后端特征和当前数据流等信息，导致生成的指令序列不能达到所期待的加速效果，甚至还可能导致倒加速，极大地限制了复合指令的性能。

发明内容

本发明的目的是提供一种基于异构平台的自适应节点融合编译优化方法，该基于异构平台的自适应节点融合编译优化方法为异构平台的节点融合优化提供精确指导，能够进一步挖掘异构平台复合指令的潜力，提升异构平台的性能。

为达到上述目的，本发明采用的技术方案是：一种基于异构平台的自适应节点融合编译优化方法，包括以下步骤：

S1、源程序经过编译器的编译处理，生成编译器的中间表示DAG，对DAG进行降级处理，并在DAG降级阶段，对DAG进行以下操作：

S2、进行DAG融合子图识别，进一步包括以下步骤：

S21、对DAG进行拓扑排序、得到拓扑序列，将DAG中的节点按照拓扑序列的顺序，添加到节点融合优化的工作列表中；

S22、编译器自S21生成的工作列表的首节点开始，顺序取出工作列表的一个节点，并将此节点从工作列表中删除，检查此节点的操作码、操作数值类型和结果值类型，若此节点的操作码、操作数值类型以及结构值类型是合法的，则此节点可以进行节点融合，进行S23，否则继续进行S22，直到工作列表为空，转到S71；

S23、以S22中取出的节点为根节点，根据编译器后端的DAG子图匹配模板，使用图匹配算法，找到所有以S22中取出的节点为根节点的、可进行节点融合的n个DAG子图，转到S24；

S24、若S23未找到可进行节点融合的DAG子图，则转到S22，否则转到S31；

S3、S23中找到的n个可进行节点融合的DAG子图一一对应n种节点融合策略，根据第k个节点融合策略，将S23找到的第k个可进行节点融合的DAG子图进行节点融合，其中，k=1，2，3，4，...，n，将第k个可进行节点融合的DAG子图的多个节点融合为一个节点，并将第k个DAG子图和Pattern模板进行匹配，获得Pattern模板的输出子图，从而生成第k个可进行节点融合的DAG子图的融合后的DAG子图，编译器记录融合后的DAG子图的所有节点，转到S41；

S4、融合策略代价评估，即根据S3中融合后的DAG子图所有节点的数据引用和异构平台的指令集信息，计算将S3中生成的融合后的第k个DAG子图转换为指令序列后，运行该段指令序列中的指令所要花费的代价，所述代价包括花费的时钟周期数、寄存器数以及占用内存的大小，转到S51；

S5、自适应选择节点融合策略，即根据S4计算得到的第k个融合策略代价，结合目标后端的寄存器、cache、内存使用情况，自适应地选择最优的节点融合策略，即对目标后端提升性能效果最好的节点融合策略，转到S6；

S6、目标相关节点融合，即根据S5选择出的节点融合策略，将S23中匹配得到的DAG子图的控制流和数据流关系，转移到由S5选择出的节点融合策略所生成的融合后的DAG子图上，并使用融合后的DAG子图替换融合前的DAG子图，转到S22；

S7、生成目标代码，即编译器对降级完成后的DAG进行编译处理，生成异构平台代码。

上述技术方案中进一步改进的方案如下：

1. 上述方案中，所述工作列表是一种线性的数据结构，包含所有待处理的节点。

2. 上述方案中，不同的根节点对应不同的DAG子图匹配模板，所述DAG子图匹配模板也是一个DAG子图。

3. 上述方案中，DAG中的一个节点对应异构平台的指令集中的一条指令。

4. 上述方案中，S23中匹配得到的DAG子图即与融合后的DAG子图对应的、节点融合优化前的DAG子图。

由于上述技术方案的运用，本发明与现有技术相比具有下列优点：

本发明基于异构平台的自适应节点融合编译优化方法，其在异构平台上，提供一个自适应节点融合编译优化接口和一种自适应节点融合编译优化算法，在DAG降级阶段，利用DAG图的数据流和控制流信息，结合目标后端的指令集信息，对融合前后的子图进行代价评估，根据评估结果自适应的选择最优的节点融合优化策略，从而生成更高效的程序代码，简化了DAG图，减小了其他优化的复杂度，为其他优化提供了更多可能，同时为异构平台的节点融合优化提供精确指导，能够进一步挖掘异构平台复合指令的潜力，提升异构平台的性能。

附图说明

附图1为本发明基于异构平台的自适应节点融合编译优化方法流程图。

具体实施方式

实施例：一种基于异构平台的自适应节点融合编译优化方法，基于大规模异构系统，包括以下步骤：

S2、进行DAG融合子图识别，进一步包括以下步骤：

S23、以S22中取出的节点为根节点，根据编译器后端的DAG子图匹配模板，匹配模板指的是Pattern模板，Pattern是编译器的一种数据结构，用于模板匹配，其输入是DAG子图，输出也是DAG子图，而Pattern所做的工作就是将输入的DAG子图变换为输出的DAG子图，使用图匹配算法，找到所有以S22中取出的节点为根节点的、可进行节点融合的n个DAG子图，转到S24；

S5、自适应选择节点融合策略，即根据S4计算得到的第k个融合策略代价，结合目标后端的寄存器、cache、内存使用情况，自适应地选择最优的节点融合策略，即对目标后端提升性能效果最好的节点融合策略，如cache剩余资源较少，可以选择访存代价较小的融合策略，转到S6；

上述工作列表是一种线性的数据结构，包含所有待处理的节点。

不同的根节点对应不同的DAG子图匹配模板，所述DAG子图匹配模板也是一个DAG子图。

DAG中的一个节点对应异构平台的指令集中的一条指令。

S23中匹配得到的DAG子图即与融合后的DAG子图对应的、节点融合优化前的DAG子图。

实施例进一步解释如下：

本发明具体流程如图1所示，编译器对DAG图进行优化降级的过程中，按照拓扑序列从根节点开始遍历DAG图，以每一个节点为根节点进行DAG融合子图的识别，然后根据DAG控制流和数据流信息以及后端特征平台的指令集信息评估多种节点融合策略的代价，根据代价自适应的选择最优的节点融合优化策略。

具体流程如下：

1）生成中间表示

a）源程序经过编译器编译处理，生成编译器的中间表示DAG，转到2 a）；

2）DAG融合子图识别

a）在DAG降级阶段，对DAG进行拓扑排序得到拓扑序列，将DAG中的节点按照拓扑序列的顺序添加到工作列表（工作列表是一种线性的数据结构，包含所有待处理的节点）中，转到2b）；

b）取出工作列表的首节点并从工作列表中删除，检查节点的操作码、操作数值类型和结果值类型，若节点可以进行节点融合，则进行2 c），否则继续进行2b），直到工作列表为空，转到7 a）；

c）以2b）中找到的节点为根节点，根据后端的DAG子图匹配模板（不同的根节点对应不同的模板，该模板也是一个DAG子图），使用图匹配算法，找到所有以2 b）找到的节点为根节点的可进行节点融合的n个DAG子图，转到2 d）；

d）若2 c）未找到可进行节点融合的DAG子图，则转到2 b），否则转到3 a）；

3）节点融合策略n

a）根据节点融合策略n，将2 c）找到的第n个DAG子图进行节点融合（多个节点融合为一个节点）生成（通过模板匹配，即匹配到一个子图，然后替换成另一个子图）融合后的DAG子图，并记录融合后DAG子图的所有节点，转到4a）；

4）代价评估

a）根据节点的数据引用和异构平台的指令集信息（DAG中的一个节点对应指令集中的一条指令），评估进行3 a）节点融合策略n后的融合后的DAG子图转换为指令序列后运行该段指令所要花费的代价，所述代价包括花费的时钟周期数、寄存器数以及占用内存的大小等，转到5 a）；

5）自适应选择节点融合策略

a）根据4 a）计算得到的n个融合策略代价，结合目标后端寄存器、cache、内存使用的情况，自适应地选择最优的节点融合策略（对目标后端提升性能效果最好的节点融合策略，如cache剩余资源较少，可以选择访存代价较小的融合策略），转到6 a）；

6）目标相关节点融合

a）根据5 a）选择出的节点融合策略，将2 c）匹配得到的DAG子图（和融合后的DAG子图对应的节点融合优化前的DAG子图）的控制流和数据流关系，转移到由5 a）选择出的节点融合策略所生成的融合后的DAG子图上并使用融合后的DAG子图替换融合前的DAG子图，转到2b）；

7）生成目标代码

a）DAG降级完成后，编译器对DAG进行编译处理生成异构平台代码。

采用上述基于异构平台的自适应节点融合编译优化方法时，其在异构平台上，提供一个自适应节点融合编译优化接口和一种自适应节点融合编译优化算法，在DAG降级阶段，利用DAG图的数据流和控制流信息，结合目标后端的指令集信息，对融合前后的子图进行代价评估，根据评估结果自适应的选择最优的节点融合优化策略，从而生成更高效的程序代码，简化了DAG图，减小了其他优化的复杂度，为其他优化提供了更多可能，同时为异构平台的节点融合优化提供精确指导，能够进一步挖掘异构平台复合指令的潜力，提升异构平台的性能。

为了便于更好的理解本发明，下面将对本文中使用的术语进行简要的解释：

DAG（Directed acyclic graph）：有向无环图，编译优化中的一种中间表示，用于中间表示的降级和优化。

拓扑排序：对一个有向无环图G进行拓扑排序，是将G中所有的顶点排成一个线性序列，使得图中任意一对顶点u和v，若边<u，v>属于E（G），则u在线性序列中出现在v之前。

拓扑序列：有向无环图经拓扑排序后得到的线性序列称之为拓扑序列。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于异构平台的自适应节点融合编译优化方法，其特征在于：包括以下步骤：

S2、进行DAG融合子图识别，进一步包括以下步骤：

2.根据权利要求1所述的基于异构平台的自适应节点融合编译优化方法，其特征在于：所述工作列表是一种线性的数据结构，包含所有待处理的节点。

3.根据权利要求1所述的基于异构平台的自适应节点融合编译优化方法，其特征在于：不同的根节点对应不同的DAG子图匹配模板，所述DAG子图匹配模板也是一个DAG子图。

4.根据权利要求1所述的基于异构平台的自适应节点融合编译优化方法，其特征在于：DAG中的一个节点对应异构平台的指令集中的一条指令。

5.根据权利要求1所述的基于异构平台的自适应节点融合编译优化方法，其特征在于：S23中匹配得到的DAG子图即与融合后的DAG子图对应的、节点融合优化前的DAG子图。