CN111897580A

CN111897580A - 一种可重构阵列处理器的指令调度系统及方法

Info

Publication number: CN111897580A
Application number: CN202011053339.XA
Authority: CN
Inventors: 朱科嘉; 张振; 欧阳鹏
Original assignee: Beijing Qingwei Intelligent Technology Co ltd
Current assignee: Beijing Qingwei Intelligent Technology Co ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2020-11-06
Anticipated expiration: 2040-09-29
Also published as: CN111897580B; WO2022068124A1; US20220214883A1; US11928473B2

Abstract

本发明公开一种可重构阵列处理器的指令调度系统及方法，属于低功耗语音关键词识别技术领域。包括：一个由软件算法生成的数据流图。先检查数据流图是否符合可重构阵列的硬件约束，利用重定时技术对数据流图进行处理，接着对指令进行发射排序，对同一时刻发射的指令进行硬件资源约束检查，硬件资源约束检查通过之后会对数据流图进行寄存器资源约束检查，在指令发射的间隔中插入路由指令来保证执行功能的正确性，最后利用最大团算法求出每一条指令对应的处理单元位置，完成指令分发。本发明解决了现有技术中需要依靠设计人员具备扎实的硬件知识设计出良好的单个阶段算法才能使得最终调度性能良好的问题。

Description

一种可重构阵列处理器的指令调度系统及方法

技术领域

本发明属于基于专用硬件架构编译器技术领域，尤其涉及一种可重构阵列处理器的指令调度系统及方法。

背景技术

可重构阵列是一种新型且位于学术界前沿的通用硬件设计架构。通常可重构阵列由一些具有相同运算功能的处理单元组成。这些处理单元能够实现的运算功能被称为算子。一个运算单元包含多个算子，且可以通过不同的配置指令完成不同的运算功能。配置指令的调度与发射方式在很大程度上影响可重构阵列的性能。

现有的调度算法则是将指令调度分为多个阶段，包括硬件架构约束处理、提取数据流图迭代间隔、指令发射时间排序以及利用最大团算法求出可行解。分割了调度算法，减小整个算法的设计空间，因此计算时间更快，但是需要设计人员需要具备扎实的硬件知识，才能够设计出良好的单个阶段算法，且最终调度性能是由单阶段算法质量决定的。

发明内容

本发明的目的是提供一种可重构阵列处理器的指令调度系统及方法，以解决现有技术中需要依靠设计人员具备扎实的硬件知识设计出良好的单个阶段算法才能使得最终调度性能良好的问题。

为了实现上述目的，本发明提供如下技术方案：

一种可重构阵列处理器的指令调度方法，包括：

步骤S101，判断数据流图中节点的扇出数是否小于可重构阵列中处理单元实际的互联数，若是，则继续步骤S102，若否，则返回本步骤，直到数据流图中节点的扇出数是否小于可重构阵列中处理单元实际的互联数为止。数据流图中的节点为指令节点。

步骤S102，建立数据流图中的节点和可重构阵列中处理单元的相关算子对应关系，形成重定时不等式组。

根据不等式组的解在数据流图中的有向边上引入标记算子所需寄存器，在引入标记算子所需寄存器后，获取数据流图中的各节点的重定时值，以使数据流图中的各节点转换为处理单元的抽象模型。

步骤S103，根据各指令节点的重定时值，将当前的多个指令节点所对应的指令按照对应的重定时值从小到大的顺序进行排列，获取指令的发射时间与调度顺序。

步骤S104，根据数据流图的初始迭代周期对数据流图折叠。若一个第一时刻上并行发射的数据流图的指令节点大于可重构阵列中处理单元所连接单元的数量，则会将依赖数前序指令最小的指令至于第一时刻之后的时刻对应的指令节点。

若所有时刻都满足约束后，若一个或多个指令节点与其前序依赖指令节点之间发射时间间隔大于设定时间间隔，则在一个或多个指令节点与其前序依赖指令节点之前插入寄存器，以打断其依赖关系获取当前数据流图。寄存器的数量与迭代周期与时间间隔相对应。

步骤S105，根据当前数据流图通过最大团算法获取当前数据流图与可重构阵列的公共最大子集。若最大子集数量等于数据流图的节点数，则分发指令节点对应的指令。

在上述技术方案的基础上，本发明还可以做如下改进：

进一步地，步骤S101前还包括：

步骤S100,输入数据流图。数据流图是一个包含运算指令以及指令之间依赖关系的图数据结构。运算指令构成图的节点。依赖关系形成图的有向边。

进一步地，步骤S102中还包括：

步骤S201，根据数据流图获取数据流图的节点。

步骤S202，根据和可重构阵列中处理单元信息获取处理单元的相关算子。

进一步地，设定时间间隔为1s~2s。

进一步地，步骤S105中还包括：

步骤S301，根据当前数据流图输出当前指令队列。

一种可重构阵列处理器的指令调度系统，包括：

硬件资源检查单元，其配置为判断数据流图中节点的扇出数是否小于可重构阵列中处理单元实际的互联数，若是，则继续步骤S102，若否，则返回本步骤，直到数据流图中节点的扇出数是否小于可重构阵列中处理单元实际的互联数为止。数据流图中的节点为指令节点。

重定时处理单元，其配置为建立数据流图中的节点和可重构阵列中处理单元的相关算子对应关系，形成重定时不等式组。

指令排序单元，其配置为根据各指令节点的重定时值，将当前的多个指令节点所对应的指令按照对应的重定时值从小到大的顺序进行排列，获取指令的发射时间与调度顺序。

资源检查单元，其配置为根据数据流图的初始迭代周期对数据流图折叠。若一个第一时刻上并行发射的数据流图的指令节点大于可重构阵列中处理单元所连接单元的数量，则会将依赖数前序指令最小的指令至于第一时刻之后的时刻对应的指令节点。

指令分发单元，其配置为根据当前数据流图通过最大团算法获取当前数据流图与可重构阵列的公共最大子集。若最大子集数量等于数据流图的节点数，则分发指令节点对应的指令。

进一步地，硬件资源检查单元还包括：

输入数据流图。数据流图是一个包含运算指令以及指令之间依赖关系的图数据结构。运算指令构成图的节点。依赖关系形成图的有向边。

进一步地，重定时处理单元，还配置为根据数据流图获取数据流图的节点。根据和可重构阵列中处理单元信息获取处理单元的相关算子。

进一步地，设定时间间隔为1s~2s。

进一步地，指令分发单元，还配置为根据当前数据流图输出当前指令队列。

本发明具有如下优点：检查数据流图是否符合可重构阵列的硬件约束，利用重定时技术对数据流图进行处理，接着对指令进行发射排序，对同一时刻发射的指令进行硬件资源约束检查，硬件资源约束检查通过之后会对数据流图进行寄存器资源约束检查，在指令发射的间隔中插入路由指令来保证执行功能的正确性，最后利用最大团算法求出每一条指令对应的处理单元位置，完成指令分发简化了调度算法执行流程，使得指令调度算法的性能得到提高，且增强调度算法的通用性，包括提高对不同周期算子的兼容性、提高寄存器以及路由单元的使用效率。

附图说明

为了更清楚地说明本发明实施方式的技术方案，下面将对实施方式描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明指令调度方法的流程图。

图2为本发明指令调度方法的流程图。

图3为本发明指令调度方法的流程图。

图4为本发明指令调度系统产生的数据流示意图。

图5为本发明指令调度系统的映射结果示意图。

图6为本发明指令调度系统对数据流图路径延时冲突自动化处理流程图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

如图1-3所示，本发明提供了一种可重构阵列处理器的指令调度方法，包括：

步骤S101，硬件资源检查阶段。

本步骤中，判断数据流图中节点的扇出数是否小于可重构阵列中处理单元实际的互联数，若是，则继续步骤S102，若否，则返回本步骤，直到数据流图中节点的扇出数是否小于可重构阵列中处理单元实际的互联数为止。数据流图中的节点为指令节点。

步骤S102，重定时处理阶段。

本步骤中，建立数据流图中的节点和可重构阵列中处理单元的相关算子对应关系，形成重定时不等式组。

根据不等式组的解在数据流图中的有向边上引入标记算子所需寄存器，在引入标记算子所需寄存器后，获取数据流图中的各节点的重定时值，以使数据流图中的各节点转换为处理单元的抽象模型。同时保证程序功能的正确性。此阶段会输出各节点的重定时值以及数据流图的迭代间隔信息。

步骤S103，指令排序阶段。

本步骤中，根据各指令节点的重定时值，将当前的多个指令节点所对应的指令按照对应的重定时值从小到大的顺序进行排列，获取指令的发射时间与调度顺序。可以快速的得出指令的发射时间与调度顺序，相同重定时值的指令允许并行发射。

步骤S104，寄存器资源检查阶段。

本步骤中，根据数据流图的初始迭代周期对数据流图折叠。若一个第一时刻上并行发射的数据流图的指令节点大于可重构阵列中处理单元所连接单元的数量，则会将依赖数前序指令最小的指令至于第一时刻之后的时刻对应的指令节点。

数据流图简称DFD（Data Flow Diagram），它从数据传递和加工角度，以图形方式来表达系统的逻辑功能、数据在系统内部的逻辑流向和逻辑变换过程，是结构化系统分析方法的主要表达工具及用于表示软件模型的一种图示方法。

迭代间隔对于DFG来说就是数据流入DFG的时间间隔。对于DFG来说，最基本的时间单位被成为时间步，因此DFG中的迭代间隔通常用时间步的数量表示。对于可重构阵列来说，迭代间隔指的是新数据进入阵列中的时间间隔，通常以可重构阵列执行时的时钟周期作为基本单位。

迭代周期越大，表明硬件空闲的时钟越多，因此需要插入更多的寄存器填补空闲时钟。时间间隔越大，表明该路径所需延时较长，也需要插入更多的寄存器增加延时。

步骤S105，指令分发阶段。

本步骤中，根据当前数据流图通过最大团算法获取当前数据流图与可重构阵列的公共最大子集。若最大子集数量等于数据流图的节点数，则分发指令节点对应的指令。公共子集就反应了数据流图上的指令与可重构阵列的对应关系。

最大团算法主要是构造了三个集合，假设：R集合记录的是当前极大团中已经加入的点。P集合记录的是可能还能加入的点。X集合记录的是已经完成极大团计数的点。基础的最大团算法，对于每一个点P中的点v，把v加入集合R，对在P集合中且与点v相连的这部分集合中寻找下一个可能加入R集合的点，回溯时把v从P集合中移出，加入X集合，代表当前状态下对包含点v的极大团已经计算完毕了。程序结束后，如果R集合中的结点数量等于DFG的节点数，则映射成功，如果小于DFG的节点数则映射失败。

当一张数据流图（DFG）要在PE阵列上映射时，并不能简单的把一个DFG图中的计算节点映射为一个PE的操作。原因是PE单元除了包含对应的计算操作，还包括一个输入端寄存器和输出端寄存器，对于乘法与乘加等复杂计算，PE单元还会多增加两个在计算阶段的寄存器用于提高时钟频率。

如果直接将原始DFG图映射到PE上，PE中的寄存器可能会使得最终映射之后的电路传输函数与原始DFG的传输函数不同。需要用到重定时技术。PE内部的寄存器可以看成原DFG重定时之后，连接计算节点的边对应增加的延迟数。为保持DFG功能不变，可以利用重定时理论，对其它对应的边经行对应的变化。最终使得DFG的计算节点完全变为了对应的PE单元，同时连接原DFG计算节点的边变为了带有零或者多个延迟的边，这些有延迟的边可以在一定的情况下被转化成对应的做Route功能的PE以及连接该PE输入与输出的没有延迟的边。

重定时(Retiming)：是一种变换技术，在不改变系统的输入输出特性的前提下，改变电路延迟元件的配置。

假设原DFG有两个节点U，V以及一条有向边由U到V，边的延迟为

，则重定时之后边的延迟

为:

其中R（）为对应端点的重定时值。重定时值由一组不等式方程和一个目标函数利用线性规划计算得出。

获取输入DFG和PE计算相关的寄存器信息：要求的输入DFG为符合硬件电路含义的DFG，即有向边需要包含延迟数。此外DFG中计算节点的计算时间都视为1个单位时间。PE相关的寄存器信息为

和

。

其中OP（）为PE对应的ALU操作，

为该操作时PE在执行阶段插入的寄存器数量。

进行重定时变换：因为重定时后DFG的时钟周期可以确定为1个时间单位，因此重定时的约束为可行性约束：

即

此外，可以添加最小化目标函数来使重定时后的寄存器数量最小，目标函数为：

化简后即：

根据最小化目标函数和一组可行性约束推出的不等式，可以利用整数线性规划方法求解出各计算节点的重定时值，最终求出重定时后新的边延迟。这里还有一个需要注意的问题，重定时后的DFG只是改变了每一个边的延迟，并没有对同一起点出发的具有相同延迟的边进行合并。所以重定时之后需要进行寄存器共享的优化。

如果重定时求解失败，可以对原DFG进行降速处理，再进行重定时。

对新DFG边延迟的处理：重定时后需要将带有延迟的边替换为一个作为Route操作的PE和一条指向该PE和由该PE出发的无延迟的边。由于Route至少包括两个寄存器，也就是至少表示两个单位时间的延迟，因此如果重定时之后边的延迟为一个单位时间，那么这条边是不能完整映射到PEA上的，导致的结果就是DFG重定时失败，需要对原DFG经行降速处理。

软件代码为： For(int i =0; i<10; i++)

{

B[i]=a[i]*a[i]+a[i]-10;

}

软件代码是一个10维向量处理操作，输入为一个向量，输出为一个向量，输入向量中的元素执行乘法、加法和减法操作后得到输出向量中对应位置的元素。

在一个数据流图中，如果存在从同一个节点出发的几条路径，各自经过不同节点后，又同时结束于同一个节点，那么在把数据流图转化为指令，映射到可重构阵列上时，可能会出现路径延时不一致的情况，这会导致最后路径终点的节点不能正确的接受数据。

如图4所示，从加法节点出发，一共有两条路径同时结束于左移节点。如图5所示，是假设所有节点具有同样的计算时间的情况下的一个映

射结果。但实际情况下，乘法节点的运行时间可能大于减法节点，此时两条路径的延时不一致，需要在延时较短的路径上添加路由(route)指令，使得两条路径的延时相同。

如图6所示。在本发明采用重定时算法用来检查数据流图中路径延时的冲突并在不改变数据流图语义的情况下添加路由指令，实现了对数据流图路径延时冲突问题的自动化处理。

本发明可重构阵列调度算法的输入为由软件算法生成的数据流图。本发明可重构阵列调度算法首先会检查数据流图是否符合可重构阵列的硬件约束，符合硬件约束即满足硬件的PE资源约束和满足PE的扇出约束。利用重定时技术对数据流图进行处理，接着对指令进行发射排序，对同一时刻发射的指令进行硬件资源约束检查，如果DFG结点大于硬件资源，则会裁剪DFG。

如果不满住PE扇出约束，则会将原结点复制多分，平均分担扇出，直到满足扇出约束为止。硬件资源约束检查通过之后会对数据流图进行寄存器资源约束检查，在指令发射的间隔中插入路由指令来保证执行功能的正确性，最后利用最大团算法求出每一条指令对应的处理单元位置，完成指令分发。假设一个无向图，一个团是图的子图，该子图中的所有顶点之间都有边将它们相连。极大团指的是，该团不包含于图的任何其他团，即不是任何其他团的真子集。最大团指的是结点数量最多的极大团。最大团算法一般采用Bron–Kerbosch回溯算法。最大团算法采用的是一些开源方法，不属于本发明需要重点讨论和解释的对象。

在上述技术方案的基础上，本发明还可以做如下改进：

步骤S101前还包括：

步骤S100，输入数据流图。

本步骤中，输入数据流图。数据流图是一个包含运算指令以及指令之间依赖关系的图数据结构。运算指令构成图的节点。依赖关系形成图的有向边。

步骤S102中还包括：

步骤S201，根据数据流图获取数据流图的节点。

本步骤中，根据数据流图获取数据流图的节点。

步骤S202，根据可重构阵列中处理单元信息获取处理单元的相关算子。

本步骤中，根据可重构阵列中处理单元信息获取处理单元的相关算子。

设定时间间隔为1s~2s。

步骤S105中还包括：

步骤S301，根据当前数据流图输出当前指令队列。

本步骤中，根据当前数据流图输出当前指令队列。

一种可重构阵列处理器的指令调度系统，本发明的可重构阵列处理器的指令调度系统场景是将由软件代码形成的数据流图转变为机器指令，映射到可重构阵列的运算单元上。包括：

硬件资源检查单元还包括：

重定时处理单元，还配置为根据数据流图获取数据流图的节点。根据和可重构阵列中处理单元信息获取处理单元的相关算子。

设定时间间隔为1s~2s。

指令分发单元，还配置为根据当前数据流图输出当前指令队列。

最后应说明的是：以上实施方式仅用以说明本发明的技术方案，而非对其限制。尽管参照前述实施方式对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施方式技术方案的精神和范围。

Claims

1.一种可重构阵列处理器的指令调度方法，其特征在于，包括：

步骤S101，判断数据流图中节点的扇出数是否小于可重构阵列中处理单元实际的互联数，若是，则继续步骤S102，若否，则返回本步骤，直到数据流图中节点的扇出数是否小于可重构阵列中处理单元实际的互联数为止；所述数据流图中的节点为指令节点；

步骤S102，建立所述数据流图中的节点和所述可重构阵列中处理单元的相关算子对应关系，形成重定时不等式组；

根据所述不等式组的解在所述数据流图中的有向边上引入标记算子所需寄存器，在引入标记算子所需寄存器后，获取所述数据流图中的各节点的重定时值，以使数据流图中的各节点转换为处理单元的抽象模型；

步骤S103，根据所述各指令节点的重定时值，将当前的多个指令节点所对应的指令按照对应的重定时值从小到大的顺序进行排列，获取指令的发射时间与调度顺序；

步骤S104，根据所述数据流图的初始迭代周期对所述数据流图折叠；若一个第一时刻上并行发射的所述数据流图的指令节点大于所述可重构阵列中处理单元所连接单元的数量，则会将依赖数前序指令最小的指令至于所述第一时刻之后的时刻对应的指令节点；

若所有时刻都满足约束后，若一个或多个指令节点与其前序依赖指令节点之间发射时间间隔大于设定时间间隔，则在所述一个或多个指令节点与其前序依赖指令节点之前插入寄存器，以打断其依赖关系获取当前数据流图；所述寄存器的数量与迭代周期与时间间隔相对应；

步骤S105，根据所述当前数据流图通过最大团算法获取所述当前数据流图与可重构阵列的公共最大子集；若最大子集数量等于数据流图的节点数，则分发所述指令节点对应的指令。

2.根据权利要求1所述的指令调度方法，其特征在于，所述步骤S101前还包括：

步骤S100,输入数据流图；所述数据流图是一个包含运算指令以及指令之间依赖关系的图数据结构；所述运算指令构成图的节点；所述依赖关系形成图的有向边。

3.根据权利要求1或2所述的指令调度方法，其特征在于，所述步骤S102中还包括：

步骤S201，根据所述数据流图获取所述数据流图的节点；

步骤S202，根据和所述可重构阵列中处理单元信息获取所述处理单元的相关算子。

4.根据权利要求3所述的指令调度方法，其特征在于，所述设定时间间隔为1s~2s。

5.根据权利要求1所述的指令调度方法，其特征在于，所述步骤S105中还包括：

步骤S301，根据所述当前数据流图输出当前指令队列。

6.一种可重构阵列处理器的指令调度系统，其特征在于，包括：

硬件资源检查单元，其配置为判断数据流图中节点的扇出数是否小于可重构阵列中处理单元实际的互联数，若是，则继续步骤S102，若否，则返回本步骤，直到数据流图中节点的扇出数是否小于可重构阵列中处理单元实际的互联数为止；所述数据流图中的节点为指令节点；

重定时处理单元，其配置为建立所述数据流图中的节点和所述可重构阵列中处理单元的相关算子对应关系，形成重定时不等式组；

指令排序单元，其配置为根据所述各指令节点的重定时值，将当前的多个指令节点所对应的指令按照对应的重定时值从小到大的顺序进行排列，获取指令的发射时间与调度顺序；

资源检查单元，其配置为根据所述数据流图的初始迭代周期对所述数据流图折叠；若一个第一时刻上并行发射的所述数据流图的指令节点大于所述可重构阵列中处理单元所连接单元的数量，则会将依赖数前序指令最小的指令至于所述第一时刻之后的时刻对应的指令节点；

指令分发单元，其配置为根据所述当前数据流图通过最大团算法获取所述当前数据流图与可重构阵列的公共最大子集；若最大子集数量等于数据流图的节点数，则分发所述指令节点对应的指令。

7.根据权利要求6所述的指令调度系统，其特征在于，所述硬件资源检查单元还包括：

输入数据流图；所述数据流图是一个包含运算指令以及指令之间依赖关系的图数据结构；所述运算指令构成图的节点；所述依赖关系形成图的有向边。

8.根据权利要求6或7所述的指令调度系统，其特征在于，所述重定时处理单元，还配置为根据所述数据流图获取所述数据流图的节点；根据和所述可重构阵列中处理单元信息获取所述处理单元的相关算子。

9.根据权利要求6所述的指令调度系统，其特征在于，所述设定时间间隔为1s~2s。

10.根据权利要求6所述的指令调度系统，其特征在于，指令分发单元，还配置为根据所述当前数据流图输出当前指令队列。