CN109144702B

CN109144702B - 一种用于行列并行粗粒度可重构阵列多目标优化自动映射调度方法

Info

Publication number: CN109144702B
Application number: CN201811034634.3A
Authority: CN
Inventors: 陈彦楠
Original assignee: Lanzhou University
Current assignee: Lanzhou University
Priority date: 2018-09-06
Filing date: 2018-09-06
Publication date: 2021-12-07
Anticipated expiration: 2038-09-06
Also published as: CN109144702A

Abstract

本发明揭示了一种用于行列并行粗粒度可重构阵列多目标优化自动映射调度方法，计算密集型任务通过C等代码描述，通过语义解析将其转换为数据流图的中间表示，然后通过代码级的软硬件划分，通过核心循环工具软件展开循环，可重构单元阵列的互连、规模约束等平台信息和循环数据流任务集合为输入，初始化就绪任务队列，然后去除就绪跨层、错位任务，计算运算节点的优先级，选择执行单元进行一一映射。此方案基于任务节点间的紧密度依赖，任务节点的并行度等条件下给出解决方案，有效解决了传统方法中计算阵列间通信成本大、执行时延长与任务的调度不能有效融合的问题，并且可以获得较高的加速比，同时较少的配置成本和重构单元较高的资源利用率。

Description

一种用于行列并行粗粒度可重构阵列多目标优化自动映射调度方法

技术领域

本发明涉及计算机体系结构领域,具体是一种涉及行列任务可并行粗粒度可重构平台任务概率计算与映射调度方法。

背景技术

传统通用处理器的计算模式具有可编程性、灵活性等优点，但是对多媒体计算、图形图像计算或处理等含有大量循环的计算密集型任务来说，处理速度较慢；专用集成电路(application specific integrated circuit,ASIC)具有计算速度快等优点，但是具体专用性、不灵活等缺点；可重构计算平台融合了通用处理器和ASIC两种计算模式的优点，兼具灵活编程和较高的计算速度等优点，可重构计算结构可以通过操作任务节点在可重构计算阵列上的调度映射和一块或多块可重构运算单元阵列重复使用来实现计算密集型任务的流水或非流水运算。

可重构处理器由一个主处理器、可重构单元阵列、直接数据传输机制、多个配置控制存储器组、高速总线、若干个数据寄存器、主和局部存储器等部件构成，具有较高的计算效率和低的功耗消耗等优点，音视频编解码、密码算法、图形图像处理等计算密集型任务均适合用可重构计算方式来实现。

目前应用于粗粒度可重构单元阵列的映射调度算法仅仅考虑任务图的高度等简单因素，也没有考虑可重构单元阵列的评价指标体系，对计算密集型循环数据流图的任务之间的依赖关系、计算任务之间的并发执行度等考虑不够，难以获得一个计算密集型任务转换来的循环数据流图在一个规模和互连关系等包含多个约束的可重构单元阵列高的执行效率和低的可重构单元阵列块间通信成本。计算任务映射是评测可重构计算系统性能的关键，计算任务映射分为手工映射和自动映射两种形式，但是手工映射的缺点是一是费时费力，容易出错；二是可重构单元阵列互连等约束方式复杂，循环DFG规模较大的情况下，手工映射容易引起任务节点之间的运算死锁。由此看出计算任务的自动映射是实现可重构计算系统的核心技术之一。

发明内容

本发明所要解决的技术问题是实现一种满足行或列可并行执行任务的粗粒度可重构单元阵列的概率计算与映射调度方法，该方法可以根据PEA中PE行列数量、以及各PE的连接方式来调整其DFG图中运算节点的放置顺序，使其能够对PEA的硬件碎片的有效利用，获得PEA块间通信成本的最小化，实现对运算节点的有效调度，获得较少的任务总执行时间。

为了实现上述目的，本发明采用的技术方案为：一种用于行列并行粗粒度可重构阵列多目标优化自动映射调度方法,包括以下步骤：

预处理工作：计算密集型任务已用C等计算机编码语言实现，对C等进行源文件解析，将计算密集型任务转换为数据流图DFG(Data Flow Graph)的中间表达形式，对中间表达进行代码级划分，分为通用处理器可以直接执行的顺序代码部分(主要是非原始输入输出与存储器交换的数据部分)和可重构单元阵列可处理的循环部分。

步骤1，输入循环数据流任务图，可重构单元阵列的互连、约束模式目标架构信息；

步骤2，初始化并建立就绪任务节点列表；

步骤3，跨层就绪节点处理：加过渡节点，目的是最小的处理单元阵列PEA(Processing Element Array，PEA)跨层数据传输互连时延；

步骤4，通过概率模型公式计算每个就绪节点的权重值，动态更新就绪节点列表；

步骤5，选择权重值大且优先级高的队首任务节点；

步骤6，选择重构处理单元(Processing Element，PE)，处理单元阵列PEA按从左到右依次选择第一个没有被使用的PE，映射任务节点；

步骤7，如果当前PEA块没有放满，则重复转步骤2；当前PEA已经放满或没有放满但是按硬件约束不能放置节点了，说明本块已经放置完毕，转步骤8；

步骤8，当前块PEA、单个PE等配置字与配置文件生成，执行；

步骤9，计算密集型任务的节点没有全部映射完，就绪队列不为空，开辟新块，

PEA块数+1，变量初始化，则重复转步骤2，否则转步骤10；

步骤10，最后一块PEA、单个PE等配置字与配置文件生成，执行；通用处理器做二进制代码融合，编译；

步骤11，输出计算任务的执行通信成本、总时延等参数，性能评估。

所述步骤1中：

可重构目标架构信息＝(PE，I，O，R，MI，MO，CON)

式中：PE＝{PE_0,0，PE_0,1......PE_m,n}，每个PE_m,n(1≤m≤Row，1≤n≤Col)；

I＝{I(PE_0,0)∪I(PE_0,1)∪......∪I(PE_m,n)}，I(PE_m,n)为PE_m,n输入端口的集合；O＝{O(PE_0,0)∪O(PE_0,1)∪......∪O(PE_m,n)}，O(PE_m,n)为PE_m,n输出端口的集合；

是一有限集合，其中每一个元素代表一PE输出口到另一PE输入口存在连接关系；

MI＝{MI(PE_0,0)∪MI(PE_0,1)∪......∪MI(PE_m,n)}，MI(PE_m,n)为PE_m,n与存储器输入端口的集合；

MO＝{MO(PE_0,0)∪MO(PE_0,1)∪......∪MO(PE_m,n)}，MO(PE_m,n)为PE_m,n与存储器输出端口的集合；

CON＝{CON(PE_0,0)∪CON(PE_0,1)∪......∪CON(PE_m,n)}，CON(PE_m,n)为PE_m,n与配置端口的集合；

输入循环数据流任务图DFG＝(V，E，W，D)；

DFG表示循环任务数据流图展开的中间表示；顶点集V＝{v₁，v₂......v_n}，v_i(i∈(1,n))表示有序运算符号，|V|＝n表示运算符的个数；边集E＝{e₁₁，e₁₂......e_nn}，e_ij表示从v_i到v_j有一条有向边，v_i为v_j的直接前驱，v_j为v_i的直接后继，v_j的执行依赖于v_i的运算结果，|E|＝m表示循环DFG边的个数；W＝{w_i|w_i表示v_i所占的硬件资源面积，i∈(1,n)}；运算时延集D＝{d_i|d_i表示v_i的运算时延，i∈(1,n)}；

输入可重构单元阵列的互连及多约束模式：包括行列并行粗粒度可重构阵列的行和列PE单元的个数，行列并行粗粒度可重构阵列的面积APEA(APEA为PEA的面积)的大小，PE之间的互连关系。

所述步骤2中，就绪任务节点的前提条件是：当前任务节点的入度为0，并且当前任务节点的前驱已经映射到上一块PEA，当前任务节点的输入数据已经存入寄存器文件或局部存储器中，当前任务节点的计算输入从寄存器文件或局部存储器中取得。

所述步骤5中，优先级选择方法：按就绪节点的概率权值prior-cal(v_i)进行优先级排序，每次选择优先级较大的节点映射到当前可重构执行单元PE，每映射一个节点就更新一次就绪列表，把概率值大的运算节点放置队列的首位。

所述步骤10，编译获得计算密集型任务的解；

所述步骤11，输出计算密集型任务的解，求解过程所需的通信成本、执行时延、配置成本、执行总时延等参数，对不同映射方案进行总体性能评估。

所述步骤11中：计算总时延参数T_total＝(T_part-num，T_CON，T_in，T_out，T_comp-delay，T_inter-delay)；

式中：T_part-num表示一个DFG所用的划分块数；T_CON表示完成一个DFG运算所用的配置时间；T_in表示所有划分块间的非原始输入次数；T_out表示所有划分块间的非原始输出次数；T_comp-delay为一个DFG在PEA上执行所需的计算延迟；T_inter-delay表示PEA块内跨层数据传输而产生的延迟。

计算总时延参数T_total计算的表达式为：

T_total＝α×T_part-num+β×T_CON+γ×T_in+ε×T_out+μ×T_comp-delay+θ×T_inter-delay；

其中α,β,γ,ε,μ,θ

分别为一个DFG所用的划分块数，完成一个DFG运算所用的配置时间，所有划分块间的非原始输入次数，所有划分块间的非原始输出次数，为一个DFG在PEA上执行所需的计算延迟，PEA块内跨层数据传输而产生的延迟，取值范围均为(0,+∞)；

加速参数为Speedup＝T_one-cpu/T_total。

本发明是一种用于行列并行粗粒度可重构阵列多目标优化自动映射调度方法，综合考虑了行列并行粗粒度可重构阵列的多约束情形，综合考虑了循环DFG的映射方案，给出的多目标优化方案分别考虑了PEA块内跨层数据传输的互连时延；考虑了运算任务之间的依赖关系；考虑了运算任务之间的执行时延的均衡化；考虑了运算任务之间行并行度的最大化；考虑了PEA阵列空闲PE的利用率，采用贪婪映射方案，相比较单核处理器，本发明获得了较高的加速比，相比较其他算法获得了较好的优化。

附图说明

下面对本发明说明书中每幅附图表达的内容作简要说明：

图1为通用粗粒度可重构体系结构示意图；

图2为PEA互连示意图；

图3为自动映射流程图；

图4为一个循环DFG子图

图5-7为多目标映射结果示意图。

具体实施方式

图1为通用的具有单个PEA阵列的粗粒度可重构体系总体结构图，该结构图主要部件包括主处理器、主存储器、AHB高速总线、可重构处理单元、配置存储器、配置控制器、局部存储器、PEA阵列等，相关互连方式如图1所示。

图2为PEA阵列的具体行和列路由互连方式，本发明设定某个PE单元执行运算时，来自指令存储器中的操作码和数据存储器中的数据能够同步到达编译。

参见图3所示一种用于行列并行粗粒度可重构阵列多目标优化自动映射调度方法流程，结合具体实例，具体包括以下步骤：

预处理步骤：计算密集型任务已用C语言等高级语言实现，对C语言等源文件进行解析和提取，并把其转换为数据流图DFG的中间表达，进行中间表达的代码级软硬件划分：主处理器软件部分：把计算任务的原始输入输出，其要经过PEA和局部存储器交互的存储或读取代码由主处理器直接控制执行；PEA硬件阵列部分：获得计算密集型任务的关键循环DFG的中间表达，将循环DFG展开。

步骤1，输入循环数据流图和约束条件：循环DFG展开的数据表，可重构单元阵列的面积，互连模式等信息。

步骤2，扫描循环DFG把入度为0的运算节点找出，组成一个初步的就绪节点列表集合V'＝{v₁,...v_k}。

步骤3，就绪节点列表集合中去除跨层与错位的就绪节点，其目的是获得最小的跨层数据传输块内互连时延T_inter-delay。

步骤4，计算合法就绪节点的概率权值prior-cal(v_i)，按从大到小排序动态更新就绪节点列表，约定概率权值越大，其优先级越高。

步骤5，选择优先级高的队首任务节点，概率权值相等的节点取序号小的。

步骤6，选择重构处理单元PE，按从左到右从上到下原则，依次选择PEA中没有被使用的PE，一一映射，每映射一个节点，将该节点的映射标志置1，处理后续任务的工作是每映射一个节点就把该节点后续节点的入度减1，若已经映射节点的直接后继入度为0，则直接加入就绪任务队列。

步骤7，扫描PEA看有无空闲PE并且按硬件约束可以放置节点，若满足放置条件则转步骤2，重复步骤2-步骤6；否则，说明本块已经放置完毕，转步骤8；

步骤8，启动主处理器，控制、融合主处理器顺序执行代码和已经完成的当前PEA整体、PE、PE之间互连关系等配置字与配置文件生成机器码，编译执行，编译完成后，把获得的计算结果存入到局部存储器中，为下一块PEA的计算任务提供非原始数据输入或将最终的计算结果传输到主存中；

步骤9，扫描循环DFG，若任务节点没有全部映射完，就绪队列不为空，开辟新块，PEA块数+1，变量初始化，则重复转步骤2，否则转步骤10；

步骤10，启动主处理器，控制、融合主处理器顺序执行代码和最后一块PEA整体、PE、PE之间互连关系等配置字与配置文件生成机器码，编译执行，做二进制代码融合编译成机器码，硬件执行获得整个计算任务的运算结果；

下面通过一个实例来说明行列可并行粗粒度可重构计算平台的计算任务的映射编译的具体流程。

在本实施例中，设定PEA阵列的规模为4*4，即16个可重构PE单元，行列可并行粗粒度可重构计算平台还具有主存和主处理器、局部存储器、配置控制存储器等组件。

本实施例待映射的循环DFG子图如图4所示，该循环DFG子图原始输入17次，原始输出1次，共有32个运算节点，其中乘法运算7个，加法运算10个，赋值运算5个，减法运算4个，由地址取内容运算5个，算术开平方根运算1个，循环DFG子图所用的运算符号、含义、执行时延如表1所述。

第1步：输入循环数据流图和可重构单元阵列规模的面积(设为APEA＝16)，互连模式见图2。

表1循环DFG子图所用的运算符号相关说明

第2步：扫描DFG，将入度为0的节点组成一个就绪节点列表V'＝{v₁,v₃,v₄,v₅}。

第3步：本循环DFG跨层就绪节点处理：加过渡节点v_d，目的使得T_inter-delay＝0，继续。

第4步：按prior-cal(v_i)＝delay(v_i)+λ×prob(v_i|v_j),λ＝1，计算就绪节点的概率权值:

prior-cal(v₁)＝prior-cal(v₃)＝prior-cal(v₄)＝prior-cal(v₅)＝2cycle。

第5步：概率权值一样时，节点序号越小越优先，故v₁为队首元素。

第6步：调用映射位置函数Mapping-place()，搜索到合适的位置一一映射，刚开始v₁是映射到左上角第一个PE，需要说明的是Mapping-place()作用是：若映射节点是前一个节点后继依赖，则向下映射，否则找层次最小的PE位置点映射，依次类推。映射完后，PEA映射位置加映射标志PEA-flag(PE(1，1))＝1，同时mapping-flag(v₁)＝1，v₁后继v₂入度减1，v₂入度变为0，把v₂加入到就绪队列中。

第7步：扫描PEA阵列，寻找PEA有无空闲重构单元，若有，则转第二步重复步骤2-步骤6；否则，说明本块已经放置完毕，转步骤8；

第8步，启动主处理器编译执行，编译完成后，把获得的计算结果存入到局部存储器中，为下一块PEA计算任务提供非原始数据输入或将最终计算结果传输到主存中；

第9步，扫描循环DFG，若任务节点没有全部映射完，开辟新块，PEA块数+1，则重复转步骤2，否则转步骤10；

第10步，启动主处理器，对最后一块PEA编译执行，做二进制代码融合编译成机器码，获得整个计算任务的运算结果；

步骤11，输出T_part-num，T_CON，T_in，T_out，T_comp-delay，T_inter-delay，T_total

T_total的计算公式及修正系数如下所述：

T_total＝α×T_part-num+β×T_CON+γ×T_in+ε×T_out+μ×T_comp-delay+θ×T_inter-delay，令α＝β＝γ＝ε＝μ＝θ＝1，基于实施例(APEA_4*4)，表2给出了本发明提出的多目标映射(Multi-objective Mapping，MM)和传统高度优先不贪婪(High-first-no-greedy Mapping，HM)执行时延比较。

基于实施例(APEA_4*4)，表3给出了本发明MM算法相比较一个One-cpu的执行时延比较和加速比Speedup，Speedup＝2。

表2MM和HM执行时延比较

表3MM和One-cpu加速比Speedup

上面结合附图对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围之内。

Claims

1.一种用于行列并行粗粒度可重构阵列多目标优化自动映射调度方法，其特征在于，包括以下步骤：

步骤1，输入可重构目标架构信息、循环任务数据流图、可重构单元阵列的互连及多约束模式；

步骤2，初始化并建立就绪任务节点列表；

步骤3，跨层就绪节点处理：加过渡节点，获得最小的处理单元阵列跨层数据传输互连时延；

步骤5，选择权重值大且优先级高的队首任务节点；

步骤6，选择重构处理单元，处理单元阵列按设定次序依次选择第一个没有被使用的重构处理单元，映射任务节点；

步骤7，如果当前处理单元阵列块没有放满，则返回步骤2；如果当前处理单元阵列已经放满或没有放满但是按硬件约束不能放置节点了，则执行步骤8；

步骤8，当前块处理单元阵列、单个重构处理单元配置字与配置文件生成，执行；

步骤9，若计算密集型任务的节点没有全部映射完，就绪队列不为空，开辟新块，处理单元阵列块数+1，变量初始化，并返回步骤2，就绪队列为空，任务节点全部映射完毕，则执行步骤10；

步骤10，最后一块处理单元阵列、单个重构处理单元配置字与配置文件生成，执行，通用处理器做二进制代码融合，编译；

步骤11，输出计算任务的执行通信成本、总时延参数，性能评估；

自动映射调度方法执行前设有预处理步骤：计算密集型任务程序源文件解析，将计算密集型任务转换为数据流图的中间表达形式，对中间表达进行代码级划分，分为通用处理器可以直接执行的顺序代码部分和可重构单元阵列可处理的循环部分。

2.根据权利要求1所述的自动映射调度方法，其特征在于：

所述步骤1中：

可重构目标架构信息＝(PE，I，O，R，MI，MO，CON)

式中：PE＝{PE_0，0，PE_0，1......PE_m，n}，PE_m，n(1≤m≤Row，1≤n≤Col)；

I＝{I(PE_0，0)∪I(PE_0，1)∪......∪I(PE_m，n)}，I(PE_m，n)为PE_m，n输入端口的集合；O＝{O(PE_0，0)∪O(PE_0，1)∪......∪O(PE_m，n)}，O(PE_m，n)为PE_m，n输出端口的集合；

R＝I×O＝{＜o，i＞|o∈O，i∈I}是一有限集合，其中每一个元素代表一PE输出口到另一PE输入口存在连接关系；

MI＝{MI(PE_0，0)∪MI(PE_0，1)∪......∪MI(PE_m，n)}，MI(PE_m，n)为PE_m，n与存储器输入端口的集合；

MO＝{MO(PE_0，0)∪MO(PE_0，1)∪......∪MO(PE_m，n)}，MO(PE_m，n)为PE_m，n与存储器输出端口的集合；

CON＝{CON(PE_0，0)∪CON(PE_0，1)∪......∪CON(PE_m，n)}，CON(PE_m，n)为PE_m，n与配置端口的集合；

输入循环数据流任务图DFG＝(V，E，W，D)；

DFG表示循环任务数据流图展开的中间表示；顶点集V＝{v₁，v₂......v_n}，v_i(i∈(1，n))表示有序运算符号，|V|＝n表示运算符的个数；边集E＝{e₁₁，e₁₂......e_nn}，e_ij表示从v_i到v_j有一条有向边，v_i为v_j的直接前驱，v_j为v_i的直接后继，v_j的执行依赖于v_i的运算结果，|E|＝m表示循环DFG边的个数；W＝{w_i|w_i表示v_i所占的硬件资源面积，i∈(1,n)}；运算时延集D＝{d_i|d_i表示v_i的运算时延，i∈(1,n)}；

输入可重构单元阵列的互连及多约束模式：包括行列并行粗粒度可重构阵列的行和列PE单元的个数，行列并行粗粒度可重构阵列的面积APEA的大小，PE之间的互连关系。

3.根据权利要求1所述的自动映射调度方法，其特征在于：所述步骤2中，就绪任务节点的前提条件是：当前任务节点的入度为0，并且当前任务节点的前驱已经映射到上一块处理单元阵列PEA，当前任务节点的输入数据已经存入寄存器文件或局部存储器中，当前任务节点的计算输入从寄存器文件或局部存储器中取得。

4.根据权利要求1所述的自动映射调度方法，其特征在于：所述步骤5中，优先级选择方法：按就绪节点的概率权值prior-cal(v_i)进行优先级排序，每次选择优先级较大的节点映射到当前可重构执行单元PE，每映射一个节点就更新一次就绪列表，把概率值大的运算节点放置队列的首位。

5.根据权利要求1所述的自动映射调度方法，其特征在于：

所述步骤10，编译获得计算密集型任务的解；

6.根据权利要求1所述的自动映射调度方法，其特征在于：

式中：T_part-num表示一个DFG所用的划分块数；T_CON表示完成一个DFG运算所用的配置时间；T_in表示所有划分块间的非原始输入次数；T_out表示所有划分块间的非原始输出次数；T_comp-delay为一个DFG在PEA上执行所需的计算延迟；T_inter-delay表示PEA块内跨层数据传输而产生的延迟；

计算总时延参数T_total计算的表达式为：

其中α，β，γ，ε，μ，θ；

分别为一个DFG所用的划分块数，完成一个DFG运算所用的配置时间，所有划分块间的非原始输入次数，所有划分块间的非原始输出次数，为一个DFG在PEA上执行所需的计算延迟，PEA块内跨层数据传输而产生的延迟，取值范围均为(0，+∞)；

加速参数为Speedup＝T_one-cpu/T_total。