CN111475205B

CN111475205B - 一种基于数据流解耦合的粗粒度可重构阵列结构设计方法

Info

Publication number: CN111475205B
Application number: CN202010135772.1A
Authority: CN
Inventors: 景乃锋; 洪途; 张子涵; 关宁; 王琴; 毛志刚; 贺光辉; 蒋剑飞; 绳伟光
Original assignee: Shanghai aerospace computer technology research institute; Shanghai Jiaotong University
Current assignee: Shanghai aerospace computer technology research institute; Shanghai Jiaotong University
Priority date: 2020-03-02
Filing date: 2020-03-02
Publication date: 2023-03-17
Anticipated expiration: 2040-03-02
Also published as: CN111475205A

Abstract

本发明公开了一种基于数据流解耦合的粗粒度可重构阵列结构设计方法以及解耦合单元，涉及计算机协处理器加速领域，通过对造成静态CGRA中流水线停顿的数据流耦合现象归纳为访存、控制等因素导致的数据流速率不同而产生的互相影响，进行解耦合并设计解耦合单元，将其插入不同区域间耦合交互的位置，并将其作为统一的内存访问接口，优化了不同形式的流水线停顿，提高了CGRA的性能和资源利用率。

Description

一种基于数据流解耦合的粗粒度可重构阵列结构设计方法

技术领域

本发明涉及计算机协处理器加速领域，尤其涉及一种基于数据流解耦合的粗粒度可重构阵列结构设计方法。

背景技术

现有的粗粒度可重构阵列(Coarse-Grained ReconfigurableArray,CGRA)通过可配置的处理单元(Processing Element,PE)以及互联网络实现应用功能的映射。常见的粗粒度可重构系统包括主机接口，控制器，存储层次结构以及PE阵列。主机接口完成CGRA与主控核之间的交互，比如从主核到CGRA的任务调度，CGRA到主核的任务完成信号等等。控制器完成任务在PE阵列上的调度，执行前的阵列配置以及PE阵列状态监控等工作。存储层次结构为CGRA提供数据存储空间。CGRA使PE阵列以空间流水线的方式工作，提高了计算的并行度。

CGRA根据在一个应用的执行期间能否进行配置调度可以分为静态的空间映射以及动态的时空映射两种。静态CGRA由于去除了上下文调度的开销具有更高的算力以及更低的面积功耗开销，但由于空间映射难以抵抗动态延时，容易产生流水线停顿导致性能下降。

静态CGRA尽管在算力规模以及功耗面积开销上具有优势，但由于在应用的执行过程中缺乏动态调度，很容易受访存、控制等原因导致的动态延时影响，出现流水线停顿，导致计算单元的利用率下降。

因此，本领域的技术人员致力于开发一种基于数据流解耦合的粗粒度可重构阵列结构设计方法，优化静态CGRA存在的流水线停顿问题并保持较高的资源利用率。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是优化静态CGRA存在的流水线停顿问题，提高资源利用率。为实现上述目的，本发明提供了一种基于数据流解耦合的粗粒度可重构阵列结构设计方法，包括以下步骤：

步骤1、对造成静态CGRA中流水线停顿的数据流耦合现象进行解耦合；

步骤2、设计解耦合单元；

步骤3、将所述解耦合单元插入不同区域间耦合交互的位置。

进一步地，耦合现象包括具有相同数据生产者和消费者的两条数据流通路的不平衡路径耦合现象、访存延时长且可变导致的访存与计算耦合现象、内外层循环间耦合现象。

进一步地，将去除内存访问和计算执行之间非数据相关的依赖性扩展为去除整个CGRA数据流图中的非数据相关同步。

进一步地，解耦合单元包括轻量级的存储空间以及控制逻辑。

进一步地，将解耦合单元作为访存单元。

进一步地，将解耦合单元作为CGRA内存访问接口。

进一步地，解耦合单元被配置为解耦合单元对。

进一步地，解耦合单元对的协同方式包括对齐模式和串联模式。

进一步地，解耦合单元以组的方式分布在CGRA四周。

本发明还公开了一种解耦合单元，按照上述方法进行设计。

本发明通过将动态延时产生的不必要的流水线停顿总结为控制、访存等因素导致的不同速率数据流之间的耦合同步带来的性能损失，通过统一的解耦合单元结构对其进行解耦合优化，同时解耦合单元还具有内存访问接口的功能，帮助CGRA阵列完成内存读写。因此，解耦合单元具有抽象一致性以及高硬件利用率，提高了CGRA的性能和资源利用率。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例的基于数据流解耦合的粗粒度可重构阵列结构示意图；

图2是不平衡路径产生的流水线停顿示意图；

图3是嵌套循环产生的流水线停顿示意图；

图4是内存访问产生的流水线停顿示意图；

图5是示例代码图；

图6是不平衡路径的解耦合示意图；

图7是嵌套循环解耦合示意图；

图8是内存访问解耦合示意图；

图9是本发明的一个较佳实施例的单个DSE结构图；

图10是本发明的一个较佳实施例的DSE对示意图；

图11是本发明的一个较佳实施例的DSE对对齐示意图；

图12是本发明的一个较佳实施例的DSE对串联示意图；

图13是本发明的一个较佳实施例的内存访问解耦合实现方式示意图；

图14是本发明的一个较佳实施例的写请求映射方式示意图；

图15是本发明的性能对照实验结果图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的，本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰，附图中有些地方适当夸大了部件的厚度。

CGRA以数据流图(DFG)作为软件代码和硬件映射之间的中间产物，数据流图能够有效地表达运算之间的依赖关系，并且能够去除非数据相关的依赖性从而实现更高的并行度。

通过对数据流图的分析，应用中存在多种可能性导致流水线停顿。

如图2、图3、图4所示，分别为不平衡路径、嵌套循环、访存导致的流水线停顿。这些现象可以归纳总结为访存、控制等因素使数据流图中的数据流具有了不同的执行速率，而这些不同速率的执行区域在进行控制同步或数据交互时会产生延时传递，区域间的互相干扰导致了性能的下降。

针对这一问题，本发明采用以下几点思路解决该问题：

第一，将访存计算解耦合中的去除内存访问和计算执行之间非数据相关的依赖性扩展为去除整个阵列数据流图中的非数据相关同步，从而实现访存、嵌套循环的异步执行。避免不同速率区域之间的延时传递。

第二，设计一个存储空间存放生产者区域由于非阻塞执行提前产生的数据，通过存储空间实现生产者和消费者之间在迭代进度上的异步执行。其中生产者意为产生某个数据的硬件单元，而消费者为使用这个数据进行计算的硬件单元。

第三，在生产者和消费者之间建立同步机制，异步执行的生产者和消费者需要在传递数据时在迭代进度上同步。

如图5-图8所示，展示了解耦合的技术方案。

其中图5为示例代码。

图6展示了不平衡路径的解耦合。在具有共同数据生产者和消费者的不同路径延时的长短路径中，将解耦合单元作为FIFO插入到短路径中实现不平衡路径解耦合从而提高吞吐率。

图7则展示了循环间依赖的解耦合。通过将解耦合单元插入到内外层循环交界处可以实现循环间的解耦合执行，内外层循环可以异步执行。在内层循环迭代结束后无需等待外层循环的重启延时即可接受下一个来自外层循环的输入数据。

图8以内存访问为例展示了三点设计思路，通过第一点移除了计算执行完成与下一次内存访问之间的非数据相关同步实现了访存的非阻塞执行，提高了流水线的填充率。通过第二点在内存访问与核心计算之间插入了存储空间从而允许内存访问与核心计算异步执行，通过存储空间迭代隔离的效果使内存访问能够提前执行，实现预取的效果。通过存储空间的先进先出(FIFO)协议实现了第三点，以先入先出作为生产者和消费者之间的数据交互同步协议。

通过以上三点解耦合原则，实现了长短延时路径之间、内外层循环之间的异步执行，移除了耦合同步带来的性能开销。在图6-图8中都使用了FIFO作为存储空间和交互同步协议。

基于三点解耦合原则，本发明提出了解耦合单元(Decoupled Storage Element,DSE)的设计。

如图9所示，为单个DSE的结构，一个DSE由具有控制能力的控制块和一块轻量级存储空间共同组成(CB为控制块，其它为存储单元)，控制块中有一个线程计数器、一个请求缓冲区和一个用于实现控制的有限状态机。而数据通路和存储空间能够在不同的控制模式下表现出不同的行为，在读请求时，进入DSE的数据将由线程计数器打上标签并被作为地址发送到内存中。而存储空间将工作在FIFO模式，接收从内存返回的数据，并根据线程计数器打上的标签存放进对应的存储条目中，并根据指针向外输出。

如图10所示，每两个DSE可以组成一个DSE对，进行协同工作。其中CBM为主控制块，CBS为从控制块。

DSE对能够以对齐的方式完成两条数据流数据的匹配，也能以串联的方式实现存储空间的合并(其中CBM为主控制块，CBS为从控制块)。

如图11所示为对齐方式，对齐的方式能够实现写操作的映射，DSE对中的两个DSE单元一个接收数据一个接收地址，并在DSE之间进行匹配，当对应线程标签的数据和地址都有效时可以组成一个完整的写请求并发送到内存。

如图12所示为串联方式，串联的方式能够实现更大的DSE存储空间，DSE对中的主控制块可以控制DSE对中的两个存储空间，并相应地修改线程计数器的计数最大值。

若干个DSE或DSE对可以构成一组，分布在CGRA阵列四周，基于数据流解耦合的CGRA阵列结构如图1所示。DSE组内DSE数量可根据架构定位和PE数量进行扩展或缩减，图中一组为4个DSE。

本发明提出的基于数据流解耦合的粗粒度可重构阵列结构，利用图9-图12中的解耦合单元实现不同速率区域之间的异步执行，从而消除区域间耦合同步导致的流水线停顿，达到提高性能的目的。

对不同数据流耦合现象的解耦合实现方法如下：

对于内存读取，通过解耦合单元可以如图13所示的方式进行内存读取的解耦合，通过FIFO模式的DSE实现了核心计算和地址计算之间迭代进度的隔离。在运行的某个时刻，核心计算部分的PE工作在循环的第1第2次迭代，而地址计算部分工作在第19第20次迭代，这使得地址计算能够更早地工作并触发访存动作从而实现预取的效果，掩盖访存延时。DSE对间的数据协同可以通过图13中的虚线路径实现图12中的串联协同，将DSE对中的两块存储空间都进行利用。串联操作能够在访存具有更高延时以容纳更多正在进行访存的请求，实现更远距离的迭代进度隔离，也被用于不平衡路径的解耦合中。

作为阵列与内存层次结构之间的接口，DSE除了需要完成读请求之外，还需要有完成写请求的能力。图14中通过一个DSE对实现了一个写操作。DSE对中的两个DSE分别暂存写请求的数据和地址，并分别打上对应的迭代标签。由于在数据流图中，写请求的地址计算和数据计算来自两条并行的数据流通路，写请求的地址和数据可能不会同时到达DSE对。DSE对中的主控制块通过同时控制两块存储空间来实现地址和数据的协同。只有当某一个迭代标签的数据和地址都凑齐时，DSE对才会共同输出地址和数据从而形成一个完整的写请求，这种协同方式称为对齐。DSE的存储空间为地址和数据通路之间也提供了解耦合关系，当一条通路延迟较长时通过存储空间为短路径保留更多的请求从而防止短路径的堵塞。DSE兼具读请求和写请求的功能，能够在访存操作上保持良好的抽象一致性并在具有不同读写比的应用中有较高的利用率。

本发明提出了一种基于数据流解耦合的粗粒度可重构阵列结构，通过数据流解耦合实现了不同速率区域间的异步执行从而消除了耦合同步带来的性能开销。实验中评估了与中央处理器(CPU)以及现有同类结构的对比性能，在硬件利用率和面积开销方面也进行了量化实验。性能对比实验以及面积对比实验的结果分别如图15和下表所示。

实验设定：内存模型使用了周期精确的DRAMSim2，DRAM设备选择了DDR3_micron_16M_x8_sg15作为内存仿真参数来源，能够为阵列提供10.66GB/s的内存带宽，实验中所有对照组具有以上相同的内存带宽条件。在对照组设置方面提供了以下几组：

(1)使用DSE用作解耦合的本文架构。

(2)与(1)同样结构但不使用DSE的基准CGRA性能结果。

(3)在同样实验平台下复现的现有CGRA架构FPCA(Fully Pipelined anddynamically Composable Architecture)的性能结果。

(4)除了CGRA平台之外加入了CPU平台的ARM CortexA7的结果。

在面积开销对比上，与现有的Plasticine的CGRA结构进行了对比。

性能：实验中不同特征应用的实验结果如图15所示(其中，Stencil:卷积模板；NW:Needleman-Wunsch Algorithm，序列匹配算法；BFS:Breadth-First-Search，广度优先搜索；MD:Molecular Dynamics，分子动力学算法；SPMV:Sparse Matrix-VectorMultiplication，稀疏矩阵向量乘)在CGRA擅长的计算密集型应用如卷积、滤波等，本发明的数据流解耦合相比同类CGRA能够获得21％的性能优化，相比CPU平台的ARMCortex A7，由于算力规模上的优势达到了40.9倍的性能。在CPU擅长的控制密集型应用中，由于通过解耦合实现了不同控制区域的异步执行，相比同类CGRA架构提高了64％的性能，相比CPU也能达到57％的性能提升，实验数据说明解耦合能够在控制密集型应用中相比原有结构具有较大优势，且能在CPU所擅长的计算任务中具有更高的性能。

利用率：本发明由于实现了统一的解耦合以及访存单元，在不同的计算访存比下都具有较高的硬件利用率。实验中具有平均71％的硬件资源利用率，相比同类研究39％的平均利用率有所提升。

面积开销：面积对比实验如下表所示，与同类CGRA结构Plasticine进行了片上存储面积开销的对比(整个CGRA协处理器由多个阵列组成)，由于解耦合引入了细粒度的访存和计算之间的同步(数据可用性同步)，实现了更小的片上存储面积开销，在相同算力规模的情况下片上存储单元面积是同类CGRA的58％。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于数据流解耦合的粗粒度可重构阵列结构设计方法，其特征在于，包括以下步骤：

步骤2、设计解耦合单元；每一个解耦合单元由具有控制能力的控制块和一块轻量级存储空间共同组成，控制块中有一个线程计数器、一个请求缓冲区和一个用于实现控制的有限状态机，而数据通路和存储空间能够在不同的控制模式下表现出不同的行为，在读请求时，进入解耦合单元的数据将由线程计数器打上标签并被作为地址发送到内存中，而存储空间将工作在FIFO模式，接收从内存返回的数据，并根据线程计数器打上的标签存放进对应的存储条目中，并根据指针向外输出；每两个解耦合单元可以组成一个解耦合单元对，进行协同工作；

步骤3、将所述解耦合单元插入不同区域间耦合交互的位置。

2.如权利要求1所述的基于数据流解耦合的粗粒度可重构阵列结构设计方法，其特征在于，所述耦合现象包括具有相同数据生产者和消费者的两条数据流通路的不平衡路径耦合现象、访存延时长且可变导致的访存与计算耦合现象、内外层循环间耦合现象。

3.如权利要求1所述的基于数据流解耦合的粗粒度可重构阵列结构设计方法，其特征在于，将去除内存访问和计算执行之间非数据相关的依赖性扩展为去除整个所述CGRA数据流图中的非数据相关同步。

4.如权利要求1所述的基于数据流解耦合的粗粒度可重构阵列结构设计方法，其特征在于，所述解耦合单元包括轻量级的存储空间以及控制逻辑。

5.如权利要求4所述的基于数据流解耦合的粗粒度可重构阵列结构设计方法，其特征在于，将所述解耦合单元作为访存单元。

6.如权利要求4所述的基于数据流解耦合的粗粒度可重构阵列结构设计方法，其特征在于，将所述解耦合单元作为所述CGRA内存访问接口。

7.如权利要求4所述的基于数据流解耦合的粗粒度可重构阵列结构设计方法，其特征在于，所述解耦合单元被配置为解耦合单元对。

8.如权利要求7所述的基于数据流解耦合的粗粒度可重构阵列结构设计方法，其特征在于，所述解耦合单元对的协同方式包括对齐模式和串联模式。

9.如权利要求4所述的基于数据流解耦合的粗粒度可重构阵列结构设计方法，其特征在于，所述解耦合单元以组的方式分布在所述CGRA四周。

10.一种解耦合单元，其特征在于，按照如权利要求1-9任一项所述的方法进行设计。