CN111857727A

CN111857727A - 一种多维循环自动向量化分块因子分块方法及装置

Info

Publication number: CN111857727A
Application number: CN202010706144.4A
Authority: CN
Inventors: 刘松; 伍卫国; 柴晓菲; 屈彬; 马洁
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2020-10-30
Anticipated expiration: 2040-07-21
Also published as: CN111857727B

Abstract

本发明公开了一种多维循环自动向量化分块因子分块方法及装置，对已进行常规分块的循环代码识别可向量化循环层，为可向量化循环层选择分块因子，为可向量化循环层选择分块因子使得循环体中所有可向量化数据的数目最大，将可向量化循环层的分块因子进行调整，以优化程序并行性和局部性为目标，通过数学规划的方法计算和调整其他循环层的分块因子，针对具有病态规模的循环较现有方法可以获得更好的程序加速比，同时具有良好的可扩展性，本发明通过为可向量化循环层选择合理的分块因子，增强数据的对齐性，增加可向量化数据的数目，从而使程序在向量处理器上获得更好的性能。

Description

一种多维循环自动向量化分块因子分块方法及装置

技术领域

本发明属于编译优化领域，特别涉及一种多维循环自动向量化分块因子分块方法及装置。

背景技术

在计算密集型应用程序中，特别是科学和工程计算应用程序，循环嵌套计算会耗费大部分的运行时间，称为亟待解决的程序热点。处理器计算程序的循环分块是一种应用广泛的循环优化技术，通过仿射变换对程序计算的嵌套循环部分进行代码转换，一方面增加程序的数据局部性，降低cache失效率；另一方面开发循环代码的粗粒度并行性，充分利用多核处理器的计算性能。分块后的循环迭代根据分块因子大小重置访存顺序，从而减小数据重用距离。因此，分块因子大小的选择对循环分块代码的性能有着重要的影响。近年来，随着SIMD扩展部件在微处理器和协处理器中的发展，向量寄存器的位数逐渐增加，使得自动向量化技术在开发嵌套循环的细粒度并行性方面得到有效提高。但是，循环分块的分块因子大小选择不仅影响处理器程序的局部性，也影响程序的自动向量化收益，现有方法在开发多维(维度大于1)循环自动向量化过程中因数据不对齐易导致向量化收益低下，出现病态规模问题，从而降低了处理器的处理速度。因此，如何实现分块因子的有效循环分块，在保持程序访存局部性的同时充分利用向量化收益，对处理器计算程序性能的提高具有积极意义。

发明内容

本发明的目的在于提供一种多维循环自动向量化分块因子分块方法及装置，以克服现有方法在多维循环自动向量化过程中因数据不对齐导致向量化收益低下的问题。

为达到上述目的，本发明采用如下技术方案：

一种多维循环自动向量化分块因子分块方法，包括以下步骤：

步骤1)、对已进行常规分块的循环代码识别可向量化循环层；

步骤2)、为可向量化循环层选择分块因子；

步骤3)、以优化程序并行性和局部性为目标，通过数学规划的方法计算和调整其他循环层的分块因子，将可向量化循环层的分块因子调整为最佳分块因子，实现多维循环自动向量化分块因子分块。

进一步的，可向量化循环层是满足编译器自动向量化条件的循环层，满足编译器自动向量化条件包括迭代次数可数、所有数据共享相同的控制流和无条件分支。

进一步的，可向量化循环层包括嵌套循环中的最内层循环和单层循环。

进一步的，分块因子J的大小使得循环体中所有可向量化数据的数目最大。

进一步的，可向量化数据的数目为所有可向量化数据块中的数据个数。

进一步的，可向量化数据块为内存中连续的向量因子大小的数据，其第一个数据的地址对齐于向量寄存器。

进一步的，设可向量化循环层访问的数组最后一维的长度为W，向量因子为V，遍历所有的分块因子J，V≤J≤W，并计算对应的可向量化数据的数目值，取使得可向量化数据的数目值最大的分块因子作为最佳分块因子。

进一步的，向量因子为向量寄存器可容纳的最大操作数数目。

进一步的，可向量化数据的数目计算具体步骤为：

1)、初始化使可向量化数据的数目归零；

2)、从可向量化数据块数组第0行第0列开始，向右遍历数组元素，每当碰到一对相邻的地址对齐线时，若它们之间的所有元素位于同一个分块内，则使NUM_VEC累加向量因子；

3)、重复步骤2)继续遍历剩下的行，直至所有的行都被遍历完毕，即可得到可向量化数据的数目。

一种多维循环自动向量化分块因子分块装置，包括可向量化循环层识别模块、分块因子选择模块和多维向量化分块因子分块模块，其中，可向量化循环层识别模块用于识别获取已进行常规分块的循环代码的可向量化循环层，可向量化循环层满足编译器自动向量化条件的循环层，满足编译器自动向量化条件包括迭代次数可数、所有数据共享相同的控制流和无条件分支；分块因子选择模块用于为可向量化循环层选择分块因子；多维向量化分块因子分块模块用于以优化程序并行性和局部性为目标，通过数学规划的方法计算和调整其他循环层的分块因子，将可向量化循环层的分块因子调整为最佳分块因子，实现多维循环自动向量化分块因子分块。

与现有技术相比，本发明具有以下有益的技术效果：

本发明一种多维循环自动向量化分块因子分块方法，对已进行常规分块的循环代码识别可向量化循环层，为可向量化循环层选择分块因子，为可向量化循环层选择分块因子使得循环体中所有可向量化数据的数目最大，将可向量化循环层的分块因子进行调整，以优化程序并行性和局部性为目标，通过数学规划的方法计算和调整其他循环层的分块因子，针对具有病态规模的循环较现有方法可以获得更好的程序加速比，同时具有良好的可扩展性，本发明通过为可向量化循环层选择合理的分块因子，增强数据的对齐性，增加可向量化数据的数目，从而提高了处理器计算效率，使处理器中病态规模程序计算在向量处理器上获得更好的性能。

进一步的，对于单层循环以及嵌套循环中的最内层循环，编译器能够自动向量化，访问速度快。

本发明一种多维循环自动向量化分块因子分块装置，结构简单，通过为可向量化循环层选择合理的分块因子，增强数据的对齐性，增加可向量化数据的数目，从而使病态规模程序计算在向量处理器上获得更好的性能。

附图说明

图1为本发明实施例中可向量化循环层输出组在内存中的数据布局示意图。

具体实施方式

下面结合附图对本发明做进一步详细描述：

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步地详细说明。应当理解，此处描述的实施用例仅用于解释本发明的基本构想，并不用于限定本发明的保护范围。

本发明采用矩阵乘matmul程序作为程序实例，输入数组分别为A、B，输出数组为C，问题规模为N，行分块因子为I，可向量化循环层分块因子为J。图1为matmul程序中数组C在内存中的数据布局。本发明的程序实例涉及的数据类型为双精度浮点数。

本发明一种多维循环自动向量化分块因子分块方法，包括以下步骤：

可向量化循环层是满足编译器自动向量化条件的循环层，满足编译器自动向量化条件包括迭代次数可数、所有数据共享相同的控制流和无条件分支；对于单层循环，以及嵌套循环中的最内层循环，编译器能够自动向量化，因此，嵌套循环中的最内层循环，以及单层循环都是可向量化循环层。

步骤2)、为可向量化循环层选择分块因子J；

可向量化数据的数目为所有可向量化数据块中的数据个数，可向量化数据越多，向量化收益也越大。为获得最大的向量化收益，分块因子J的大小使得循环体中所有可向量化数据的数目NUM_VEC最大；可向量化数据块为内存中连续的向量因子大小的数据，其第一个数据的地址对齐于向量寄存器。

步骤3)、以优化程序并行性和局部性为目标，通过数学规划的方法计算和调整其他循环层的分块因子，将可向量化循环层的分块因子J调整为Best_J，实现多维循环自动向量化分块因子分块。设可向量化循环层访问的数组最后一维的长度为W，向量因子为V，遍历所有的分块因子J(V≤J≤W)，并计算对应的可向量化数据的数目NUM_VEC值，取使得可向量化数据的数目NUM_VEC值最大的分块因子作为最佳分块因子Best_J；向量因子为向量寄存器可容纳的最大操作数数目。

可向量化数据的数目NUM_VEC具体计算方式包括以下步骤：

1、初始化，使可向量化数据的数目NUM_VEC归零；

2、从可向量化数据块数组第0行第0列开始，向右遍历数组元素，每当碰到一对相邻的地址对齐线时，若它们之间的所有元素位于同一个分块内，则使NUM_VEC累加V；地址对齐线如图1所示。

3、重复步骤2继续遍历剩下的行，直至所有的行都被遍历完毕，即可得到可向量化数据的数目NUM_VEC。

本发明的硬件实例中，向量寄存器的宽度为32字节，能同时容纳4个双精度浮点数，向量因子为4。

如图1所示，数组C的第一行C[0][:]分成三部分，分别位于三个可向量化数据块中。第一可向量化数据块中的C[0][0:5]首先被载入cache中参与计算，其中C[0][0:3]是可向量化数据，而C[0][4:5]的长度小于向量处理单元的宽度，无法被向量化，故C[0][0:5]可向量化数据个数NUM_VEC(C[0][0:5])＝4。第二可向量化数据块中的C[0][6:11]被载入cache中参与计算时，C[0][6]的地址非对齐，C[0][6:7]无法被向量化，而C[0][8:11]可以被向量化，故C[0][6:11]可向量化数据个数NUM_VEC(C[0][6:11])＝4。同理分析数组C的其余行，计算得到当分块因子J＝6时，数组C的可向量化数据的数目NUM_VEC(C)＝80。

计算当J等于其他值时对应的NUM_VEC，列出并比较结果(表1)

表1不同J对应的NUM_VEC值

其中，最大的NUM_VEC值为160，对应的J为11，因此11为本实例中最佳的可向量化循环层分块因子，Best_J＝11。

在确定Best_J后，将程序可向量化循环层的分块因子J的值设置为Best_J，同时以最优化程序并行性和局部性为目标，通过数学规划的方法计算和调整其他循环层的分块因子。对已进行常规分块的循环代码识别可向量化循环层，对于单层循环以及嵌套循环中的最内层循环，编译器能够自动向量化，为可向量化循环层选择分块因子使得循环体中所有可向量化数据的数目最大，将可向量化循环层的分块因子进行调整，以优化程序并行性和局部性为目标，通过数学规划的方法计算和调整其他循环层的分块因子，针对具有病态规模的循环较现有方法可以获得更好的程序加速比，同时具有良好的可扩展性。通过为可向量化循环层选择合理的分块因子，增强数据的对齐性，增加可向量化数据的数目，从而使程序在向量处理器上获得更好的性能。

本发明在一台Intel Xeon E7-4820服务器上进行了实验验证，实验结果表明，本发明针对病态规模问题能够明显增加可向量化数据的数目，相对基线程序有更好的性能表现。选择病态问题规模的8个测试程序进行对比测试，与现有方法SICA、TTS相比，本发明实现的多维循环自动向量化分块因子选择方法将并行任务的执行速度平均提高了8.7％。

Claims

1.一种多维循环自动向量化分块因子分块方法，其特征在于，包括以下步骤：

步骤1)、识别获取已进行常规分块的循环代码的可向量化循环层；

步骤2)、为可向量化循环层选择分块因子；

2.根据权利要求1所述的一种多维循环自动向量化分块因子分块方法，其特征在于，可向量化循环层是满足编译器自动向量化条件的循环层，满足编译器自动向量化条件包括迭代次数可数、所有数据共享相同的控制流和无条件分支。

3.根据权利要求1或2所述的一种多维循环自动向量化分块因子分块方法，其特征在于，可向量化循环层包括嵌套循环中的最内层循环和单层循环。

4.根据权利要求1所述的一种多维循环自动向量化分块因子分块方法，其特征在于，分块因子J的大小使得循环体中所有可向量化数据的数目最大。

5.根据权利要求4所述的一种多维循环自动向量化分块因子分块方法，其特征在于，可向量化数据的数目为所有可向量化数据块中的数据个数。

6.根据权利要求4所述的一种多维循环自动向量化分块因子分块方法，其特征在于，可向量化数据块为内存中连续的向量因子大小的数据，其第一个数据的地址对齐于向量寄存器。

7.根据权利要求1所述的一种多维循环自动向量化分块因子分块方法，其特征在于，设可向量化循环层访问的数组最后一维的长度为W，向量因子为V，遍历所有的分块因子J，V≤J≤W，并计算对应的可向量化数据的数目值，取使得可向量化数据的数目值最大的分块因子作为最佳分块因子。

8.根据权利要求1所述的一种多维循环自动向量化分块因子分块方法，其特征在于，向量因子为向量寄存器可容纳的最大操作数数目。

9.根据权利要求1所述的一种多维循环自动向量化分块因子分块方法，其特征在于，可向量化数据的数目计算具体步骤为：

1)、初始化使可向量化数据的数目归零；

10.一种多维循环自动向量化分块因子分块装置，其特征在于，包括可向量化循环层识别模块、分块因子选择模块和多维向量化分块因子分块模块，其中，可向量化循环层识别模块用于识别获取已进行常规分块的循环代码的可向量化循环层，可向量化循环层满足编译器自动向量化条件的循环层，满足编译器自动向量化条件包括迭代次数可数、所有数据共享相同的控制流和无条件分支；分块因子选择模块用于为可向量化循环层选择分块因子；多维向量化分块因子分块模块用于以优化程序并行性和局部性为目标，通过数学规划的方法计算和调整其他循环层的分块因子，将可向量化循环层的分块因子调整为最佳分块因子，实现多维循环自动向量化分块因子分块。