CN103226487A

CN103226487A - 面向异构众核多级存储结构的数据分布与局部性优化方法

Info

Publication number: CN103226487A
Application number: CN2013101483264A
Authority: CN
Inventors: 姚远; 赵荣彩; 韩林; 李雁冰; 黄品丰
Original assignee: PLA Information Engineering University
Current assignee: PLA Information Engineering University
Priority date: 2013-04-25
Filing date: 2013-04-25
Publication date: 2013-07-31
Anticipated expiration: 2033-04-25
Also published as: CN103226487B

Abstract

本发明涉及一种面向异构众核多级存储结构的数据分布与局部性优化方法，具体为：对程序进行数据流分析，完成数据在不同类型核心的存储器之间的高效映射和布局，通过自动生成指导数据分布的相关数据管理子句，显式控制局部存储器与主存储器的数据传输，决定数据进入局部存储器以及从局部存储器写回的时机、位置和内容，优化异构众核多级存储结构的存储性能；具体含有下列步骤：步骤1：数据规模自适应的数组分块；步骤2：数组访问模式指导的数据分布；步骤3：主从协作的数组转置；步骤4：外围数据传输简化；本发明提升了程序的执行效率。

Description

面向异构众核多级存储结构的数据分布与局部性优化方法

（一）、技术领域：本发明涉及一种数据分布与局部性优化方法，特别是涉及一种面向异构众核多级存储结构的数据分布与局部性优化方法。

（二）、背景技术:传统的单核处理器主要通过提高运行频率来提高性能。随着时钟频率的持续增长，单芯片集成的晶体管数越来越多，功耗和发热量呈指数上升，共同制约了处理器性能的进一步提升。于是多核技术应运而生并成为当前处理器设计的主流，与单核处理器相比，多核及众核处理器具有更加丰富的计算资源和存储资源。

异构众核处理器由结构和功能相异的处理器核组成，一般采用“主处理器核（主核）+协处理器核（从核）”结构。主处理器核运行操作系统，负责任务的划分和资源的调度。协处理器核负责完成划分后的计算任务。异构众核处理器可以使用不同类型的处理器核来完成不同类型的任务，如任务并行度较高，则使用众多精简的协处理器核提速，否则用强大的通用计算主核运行。这比用相同的处理器核执行所有任务更有效率，更利于提高处理器的性能。异构众核处理器已成为学术界和工业界的研究热点，并逐步应用于需要海量计算能力和数据吞吐能力的航空航天领域、气象领域、生物领域、高难密码破译领域、信号分析等领域。

异构众核处理器的主核包含有容量较大的主存和访问速度快速的cache（高速缓冲存储器），从核包含软件管理的局部数据存储器。与硬件cache相比，局部数据存储器占用的芯片面积更少，功耗更低，访问速度更快。但由于容量的限制，局部数据存储器往往无法满足包含大数组的科学计算的存储需求。大部分数据存储在主存，导致局部存储失效时，必须通过DMA操作完成主存与局部存储的数据传输。然而DMA（Direct Memory Access，直接存储器访问）操作开销较大，DMA次数过多会大大降低程序性能。因此，由程序显式控制局部存储与主存的数据传输，决定数据进入局部存储以及从局部存储写回的时机、位置和内容，成为改善局存空间利用率，发挥异构处理器性能的关键。

（三）、发明内容：

本发明要解决的技术问题是：克服现有技术的缺陷，提供一种面向异构众核多级存储结构的数据分布与局部性优化方法，该方法提升了程序的执行效率。

本发明的技术方案：

一种面向异构众核多级存储结构的数据分布与局部性优化方法，具体为：对程序进行数据流分析，完成数据在不同类型核心的存储器之间的高效映射和布局，通过自动生成指导数据分布的相关数据管理子句，显式控制局部存储器与主存储器的数据传输，决定数据进入局部存储器以及从局部存储器写回的时机、位置和内容，优化异构众核多级存储结构的存储性能；具体含有下列步骤：

步骤1：数据规模自适应的数组分块：通过自动生成数组分块子句，把程序中不同规模的大数组划分为小数组，该小数组的大小适合于运算核心中的局部存储器的容量；

步骤2：数组访问模式指导的数据分布：分析小数组的访问模式，若该访问模式是规则访问，则生成带数据划分信息的数据拷贝子句，将计算所需数据截取和传输进局部存储器；若该访问模式不是规则访问，则生成缓存子句，将不规则访问的数组映射到软件cache；

步骤3：主从协作的数组转置：判断小数组下标索引变量次序和循环嵌套迭代次序是否一致，当两个次序不一致时，按循环嵌套的迭代次序对数组进行转置，通过数组转置子句使数组通过连续的数据拷贝操作从主存储器传送到从核的局部存储器，并获得与循环嵌套访问方式一致的存储方式，从而将不连续访存转换为连续访存，提高并行程序性能；

步骤4：外围数据传输简化：生成加速数据区编译指示，将循环嵌套内层并行循环的数据传输子句转移到循环嵌套外层的加速数据区，仅在循环计算开始前和循环计算结束后进行数据传输，避免外层串行循环执行时内层并行循环的多次数据拷贝。

步骤1中：采用动态分配的编译指导方法，在并行编译指示内插入数组分块子句，将超过局部存储器的容量限制的大数组划分为小数组，使大数组的部分数据也能由当前计算调度进入局部存储器，以利用局部存储器的快捷性加快运算功能。

步骤1中：在生成数组分块子句时，采用基于贪婪策略的启发式搜索算法来获得最优的数组分块方案，该数组分块方案在把循环引用的数组装载进局部数据存储器的前提下，最大化局部数据存储器的空间的利用率，同时保证程序数据的局部性。

步骤2中：通过对小数组下标表达式的分析来判断小数组的访问模式，如该访问模式是规则访问，则分析小数组的访问规律，获得小数组的划分信息，生成带数组划分信息的数据拷贝子句，由基础编译器依据数据拷贝子句将计算所需数据进行截取和传输进局部存储器。

步骤4中：需要简化的外围数据传输为外层串行、内层并行的多重嵌套循环；外围数据传输简化还含有对该多重嵌套循环的并行化编译过程的改善，编译系统在并行化内层循环时不添加数据传输子句，遍历完内层循环回溯到外层串行循环时添加数据区编译指示，并根据整个循环嵌套的数据流分析结果，把需要传输的变量放到数据拷贝子句、缓存子句中。

本发明的有益效果：

1、本发明能够由程序显式控制局部存储器与主存储器的数据传输，决定数据进入局部存储器以及从局部存储器写回的时机、位置和内容，可以有效改善异构众核处理器局部存储器的空间利用率，优化异构众核处理器多级存储结构的存储性能，提升程序的执行效率，有效发挥了异构处理器的性能。

2、本发明将优化过程分为数组分块、数据分部、数组转置以及外围数据传输简化四步，能够针对不同特征的数据多层次多粒度地优化数据的传输、存储和访问。

3、本发明通过在程序中自动生成指导数据分布数据管理子句的方式控制局部存储器与主存储器的数据传输，具有良好的可读性、可扩展性和平台无关性。

（四）、附图说明：

图1为面向异构众核多级存储结构的数据分布与局部性优化方法的说明示意图。

（五）、具体实施方式：

参见图1，面向异构众核多级存储结构的数据分布与局部性优化方法具体为：对程序进行数据流分析，完成数据在不同类型核心的存储器之间的高效映射和布局，通过自动生成指导数据分布的相关数据管理子句，显式控制局部存储器与主存储器的数据传输，决定数据进入局部存储器以及从局部存储器写回的时机、位置和内容，优化异构众核多级存储结构的存储性能；具体含有下列步骤：

以上步骤1-3是针对数组进行的局部性优化，步骤4是针对嵌套循环中内层并行循环做的整体性传输优化。

步骤1完成的主要工作是对数据和计算进行分割，生成数组分块子句。在对数据和计算进行划分时采用了一种基于贪婪策略的启发式搜索算法来获得最优的数组分块方案。该算法求解过程为：

设循环嵌套为{L₁,L₂,...,L_n}，L₁为最外层循环，L_n为最内层循环，循环引用数组A₁、A₂、...、A_m，数组元素的大小为s_k(1≤k≤m)字节，数组维数为l_k，局部数据存储器的大小为M。由于各个数组的维数可能不一致，所以难以以某个数组为研究对象求出适用于所有数组的分块方案。假设数组下标表达式是循环嵌套索引变量的简单仿射函数（只有一个循环索引变量），则可以索引变量为依据，对下标包含此索引变量的数组维进行分块，块大小为d_i(1≤i≤l_k)。循环嵌套层L_j(1≤j≤n)索引变量对应的分块值为x_j。最佳数组分块方案的求解问题可以建模为：

\max Σ_{k = 1}^{m} (s_{k} \cdot Π_{i_{k} = 1}^{l_{k}} {d_{i}}_{k})

s . t . {d_{i}}_{k} = \{\begin{matrix} {D_{i}}_{k} & if & {x_{i}}_{k} = 0 \\ {x_{i}}_{k} & if & {x_{i}}_{k} &NotEqual; 0 \end{matrix}

Σ_{k = 1}^{m} (s_{k} \cdot Π_{i_{k} = 1}^{l_{k}} {d_{i}}_{k}) \leq M

其中

是数组第i_k维的元素个数。当

时，数组该维不分块，当

时，

即为分块值。最优数组分块方案的求解可诠释为求满足条件的向量

x=(x₁,x₂,...,x_n)^T（T为T矩阵理论里的基本记号，表示转置，表示x是一个列向量），使各数组的数据块之和所占空间尽可能地大。实际计算时，为了降低时间复杂度，并保证数据局部性，常常自数组高维向低维划分，并尽可能不划分低维。由于数组分块是以循环索引变量作为划分的标志，且数组各维存储顺序一般与循环嵌套访问顺序具有一致性，所以按循环嵌套索引变量的迭代次序，自顶向下的赋值计算。如一个n层循环嵌套的数组分块方案计算方法为：

（1）x初始化为(0,0,...,0)^T；

（2）令x=(1,0,×××,0)^T，即index₁对应维的块大小为1；遍历循环引用的数组，对下标索引变量是index₁的维分块为1，其他维不分块，获得数组分配给一个局部数据存储器的数据块；

（3）计算所有数组数据块占用的总空间，若大于局部存储空间，说明对数组该维的最小分块仍会使局部存储空间溢出，令x=(1,1,...,0)^T，对下一个数组维进行分块；否则说明该维的最小分块已满足局部存储空间的限制，为充分利用局部存储空间，应增加分块大小，令x=(2,0,...,0)^T，计算新分块方案下数组数据块所占空间，若小于局部存储空间，则令x=(3,0,...,0)^T，继续计算判断。当x=(a,0,...,0)^T，局部存储空间溢出时，说明已到达临界点，x=(a-1,0,...,0)^T即为最优分块值。

（4）重复步骤（3）的计算模式，逐维对数组分块，直至获得每一维的最优值，构成最终数组分块方案。

该方案在能够把循环引用的数组装载进局部数据存储器的前提下，最大化局部存储空间的利用率，同时保证程序数据的局部性。

步骤2的主要工作是根据不同的数组访问模式，对程序中的数组进行分类处理，使规则访问数组得到精确划分，不规则访问数组得到高效映射，生成相应的数据拷贝子句和缓存子句。

以数组下标表达式为依据，分析数组的类型和访问特征，获得数组数据划分信息和占用空间信息。对不规则访问数组，计算它所需的cache行个数，把计算结果与数组名插入数据缓存子句中。对规则访问数组，检查数组各维下标表达式，若下标索引变量个数大于1，该维不划分，否则检查索引变量与前一同名数组的同维下标索引变量是否相同，若不同，标记该维不划分，若相同，存储下标索引变量的系数和常数项。当遍历完循环内的同名引用时，判断各维的划分标记，并分析已存储的下标索引变量的系数和常数项的值，获得各维的数据划分信息，把这些信息和数组名一起添加到合适的数据拷贝子句中。

步骤3的主要工作是对循环中访问不连续的规则数组生成数组转置子句，使这些数组可以通过连续的数据拷贝操作从主存传送到从核局存，并获得与循环嵌套访问方式一致的存储方式，从而将不连续访存转换为连续访存。

由于数组是否连续访问与数组下标索引变量次序和循环嵌套迭代次序是否一致有关，判断数组是否需要转置的过程即两个次序的比对过程。当两个次序不一致时，即要按循环嵌套的迭代顺序对数组进行转置。数组转置顺序分析过程为：首先将引用数组的下标索引变量从低维到高维依次存到数组ref_order中，再将循环嵌套索引变量从外层到内层依次存到数组loop_order中，然后从最后一个元素，即最内层循环索引开始遍历，查找其在数组中的编号，存到整型数组swap_order中，若swap_order与数组编号不一致，说明数组需要转置，置标志位为真，并把swap_order作为数组转置顺序添加到数组转置子句中。

步骤4的主要工作是针对外层串行、内层并行的多重嵌套循环创建加速数据区，解决内层并行循环的数据多次传输的问题，并添加数据区编译指示，并根据整个循环嵌套的数据流分析结果，把需要传输的变量放到数据拷贝子句、缓存子句等子句中。

自动生成加速数据区编译指示及子句，首先要确定需要优化数据传输的循环。能够使用加速数据区编译指示进行优化的循环一般是外层串行、内层并行的多重嵌套循环。并行化编译对这类循环的一般处理过程是自顶向下分析，若外层循环不具有并行性，则分析内层循环，若内层循环可并行加速，则添加作用于该层循环的并行编译指示及数据传输子句。由于并行循环包含于串行循环，其上的数据传输操作往往由于串行循环的迭代而被多次启动。对这类循环的并行化编译过程进行改善，使编译系统在并行化内层循环时不添加数据传输子句，遍历完内层循环回溯到外层串行循环时，添加加速数据区编译指示，并根据整个循环嵌套的数据流分析结果，把需要传输的变量放到数据拷贝子句、缓存子句等子句中。

Claims

1.一种面向异构众核多级存储结构的数据分布与局部性优化方法，其特征是：对程序进行数据流分析，完成数据在不同类型核心的存储器之间的高效映射和布局，通过自动生成指导数据分布的相关数据管理子句，显式控制局部存储器与主存储器的数据传输，决定数据进入局部存储器以及从局部存储器写回的时机、位置和内容，优化异构众核多级存储结构的存储性能；具体含有下列步骤：

2.根据权利要求1所述的面向异构众核多级存储结构的数据分布与局部性优化方法，其特征是：所述步骤1中：采用动态分配的编译指导方法，在并行编译指示内插入数组分块子句，将超过局部存储器的容量限制的大数组划分为小数组，使大数组的部分数据也能由当前计算调度进入局部存储器，以利用局部存储器的快捷性加快运算功能。

3.根据权利要求1所述的面向异构众核多级存储结构的数据分布与局部性优化方法，其特征是：所述步骤1中：在生成数组分块子句时，采用基于贪婪策略的启发式搜索算法来获得最优的数组分块方案。

4.根据权利要求1所述的面向异构众核多级存储结构的数据分布与局部性优化方法，其特征是：所述步骤2中：通过对小数组下标表达式的分析来判断小数组的访问模式，如该访问模式是规则访问，则分析小数组的访问规律，获得小数组的划分信息，生成带数组划分信息的数据拷贝子句，由基础编译器依据数据拷贝子句将计算所需数据进行截取和传输进局部存储器。

5.根据权利要求1所述的面向异构众核多级存储结构的数据分布与局部性优化方法，其特征是：所述步骤4中：需要简化的外围数据传输为外层串行、内层并行的多重嵌套循环；外围数据传输简化还含有对该多重嵌套循环的并行化编译过程的改善，编译系统在并行化内层循环时不添加数据传输子句，遍历完内层循环回溯到外层串行循环时添加数据区编译指示，并根据整个循环嵌套的数据流分析结果，把需要传输的变量放到数据拷贝子句、缓存子句中。