CN102799563B

CN102799563B - 一种可重构计算阵列及构建方法

Info

Publication number: CN102799563B
Application number: CN201110138138.4A
Authority: CN
Inventors: 邬江兴; 罗兴国; 曹伟; 斯雪明; 张兴明; 祝永新; 庞建民; 雷咏梅; 张铮; 张帆; 祝卫华; 刘超; 李弋; 陈韬; 齐宁; 倪明; 王伶俐; 谢光伟; 魏晓; 谈满堂
Original assignee: Shanghai Redneurons Co Ltd; PLA Information Engineering University
Current assignee: Shanghai Redneurons Co Ltd; PLA Information Engineering University
Priority date: 2011-05-26
Filing date: 2011-05-26
Publication date: 2015-08-26
Anticipated expiration: 2031-05-26
Also published as: CN102799563A

Abstract

本发明公开了一种可重构计算阵列及构建方法，包括：预设个数的单核和互连模块，其中任意一个单核包括：可重构计算模块、可重构存储模块、可重构控制逻辑模块和配置模块，可重构计算模块、可重构存储模块和可重构控制逻辑模块参照某一应用集合所包含的基础算核集的硬件结构构建，预设个数的单核能够支持应用集合所包含的全部基础算核，互连模块参考应用集合内各应用基于基础算核集的硬件实现，对预设个数的单核进行互连。本发明实施例公开的可重构计算阵列实现了直接映射应用算法的硬件结构的目的，提高了应用的处理效率。并且，由于阵列自身的可重构性，使得硬件结构可以灵活的对应各个应用，提高了阵列的灵活性。

Description

一种可重构计算阵列及构建方法

技术领域

本发明涉计算机体系结构领域，尤其涉及一种可重构计算阵列及构建方法。

背景技术

处理器是计算机系统的核心，随着半导体工艺水平的进步，多核处理器已逐渐成为主流结构，并行处理技术正从传统的并行计算机渗透到单芯片多核处理器，像CPU、数字信号处理器DSP和图形处理器GPU等都可以支持不同程度的并行计算来应对应用中的密集计算。

根据扩展的Flynn分类模型，在指令流计算模式下，通常利用通用片上多核处理器(Chip Multiprocessor，简称CMP)，DSP、GPU、CELL、Imagine等多核处理器针对数据密集型、计算密集型应用。但是，基于指令的处理器的单核依然采用存储程序的串行方式实现应用算法，其执行过程必须经过“取指令——>指令译码——>地址生成——>取操作数——>执行——>存储或写回”6个步骤，需要消耗大量的控制逻辑，对芯片面积和功耗都有非常大的影响，因此，此类处理器在效率较低。而专硬件的缺点在于灵活性差，目前多采用现场可编程门阵列FPGA对计算做硬件加速。不同于上述处理器的指令执行方式，FPGA实现算法到硬件的空间映射，且具备较好的通用性，但是，FPGA是细粒度的可重构器件，以查找表LUT为基本单元，基于静态随机存储器SRAM的LUT单元同专用集成电路ASIC相比需要更多晶体管来执行逻辑功能，再有FPGA的布线资源占据高达80％的芯片面积，通常FPGA实现相同功能电路的面积是ASIC的23～55倍，功耗是6～26倍，可见FPGA同样面临严重的效率问题。

当前粗粒度的可重构结构，大都采用算术逻辑单元ALU或乘加单元MAC作为基本功能单元，ALU的本质依然是时间上串行的控制流执行方式，即按功能模式选择的执行方式，而MAC的灵活性不够。

综上所述，现有的通用和专用器件的结构无法实现高效率和高灵活性的统一。

发明内容

有鉴于此，本发明提供一种可重构计算阵列及构建方法，其具体方案如下：

一种可重构计算阵列，包括：

预设个数的单核和互连模块，其中任意一个单核包括：可重构计算模块、可重构存储模块、可重构控制逻辑模块和配置模块，单核内的可重构计算模块、可重构存储模块和可重构控制逻辑模块参照某一应用集合所包含的基础算核集的硬件结构构建，所述预设个数的单核能够支持所述应用集合所包含的全部基础算核，所述基础算核为，对某一应用集合的应用算法进行分析后获得的基本操作的硬件实现；

所述互连模块用于，参考所述应用集合内各应用基于基础算核集的硬件实现，对所述预设个数的单核进行互连。

优选的，当实现所述应用集合中的某一待处理应用时，与所述待处理应用对应的单核内的可重构计算模块、可重构存储模块、可重构控制逻辑模块根据所述待处理应用所包含的基础算核进行配置；

所述互连模块参考所述待处理应用基于基础算核集的硬件实现，按照所述待处理应用将配置后的单核进行互连，以实现所述待处理应用。

优选的，所述阵列还包括：输入输出I/O模块，所述输入输出I/O模块用于，所述可重构计算阵列与其他可重构计算阵列或其他片外资源进行通信。

优选的，所述预设个数的单核具有统一的接口，所述预设个数单核中的任意一个单核与其他单核为同构结构或异构结构。

一种可重构计算阵列构建方法，包括：

对某一应用集合内的应用算法进行分析，获得与该应用集合对应的基础算核集合；

参照基础算核集的硬件结构构建预设个数的单核内部的可重构计算模块、可重构存储模块和可重构控制逻辑模块，使所述预设个数的单核能够支持所述应用集合所包含的全部基础算核；

参考所述应用集合内各应用基于基础算核集的硬件实现，将所述预设个数的单核通过互连模块连接构成可重构计算阵列。

优选的，还包括：

当实现某一待处理应用时，确定待处理应用所包含的基础算核；

参考所述待处理应用基于基础算核集的硬件实现，将所述待处理应用所对应的单核配置成所述待处理应用对应的基础算核，并经由互连模块连接构成实现所述待处理应用的硬件结构。

本发明实施例公开的可重构计算阵列中的单核依据待处理应用所对应的应用集合包含的基础算核集进行配置，并且参考所述应用集合内各应用基于基础算核集的硬件实现，通过互连模块连接。该可重构计算阵列实现了直接映射应用算法的硬件结构的目的，提高了应用的处理效率。并且，由于阵列自身的可重构性，使得硬件结构可以灵活的对应各个应用，提高了阵列的灵活性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的可重构计算阵列结构示意图；

图2为本发明实施例公开的单核的结构示意图；

图3为本发明实施例公开的互连模块的结构示意图；

图4为本发明实施例公开的应用算法在HRCA中的实现流程图；

图5为本发明实施例公开的可重构计算阵列的构建方法流程图；

图6为本发明实施例公开的又一可重构计算阵列的构建方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的出发点是根据应用的需求寻找多样的计算单位，然后根据不同计算单位的特征发展新的体系结构，新的解决方法，即在灵活性与效率之间寻找一个平衡点。本发明实施例公开了一种可重构计算阵列(HybridReconfigurable Computing Array，HRCA)，该阵列包括多个单核，具体的结构由当前处理的应用决定，即通过应用驱动，这里的应用驱动是指在设计可重构阵列结构之初，首先需要对该可重构阵列结构所对应的应用领域内的全部应用统一为应用集合，对该集合内的算法的分析，提取可共用的基本操作，对某一应用领域内的应用算法进行分析后获得的基本操作可以通过基础算核来进行硬件实现，将实现全部基本操作的硬件实现构成基础算核集合。综合基础算核的硬件结构特点，构建一系列不同粒度的计算、存储和控制逻辑单元来构成单核结构。同时，单核经由满足应用硬件结构互连需求的互连模块构成规模可扩展的可重构阵列。由于阵列结构完全符合待处理应用的要求，因此能够实现对应用处理效率的最大化。阵列中不同粒度的计算、存储和控制逻辑单元以变化的组织形态来实现不同的应用，这种变化的组织形态是通过可重构来实现的。

本发明实施例公开的可重构计算阵列结构如图1所示，包括16个单核11和互连模块12。其中任意一个单核的结构如图2所示，包括：可重构计算模块21、可重构存储模块22、可重构控制逻辑模块23、配置模块24、数据通路交换开关25和控制信号交换开关26。

本实施例中的16个单核对应一个应用集合。每一单核内的配置模块依据该应用集合所包含的基础算核集的硬件结构构建对该单核的可重构计算模块、可重构存储模块和可重构控制逻辑模块进行配置，使得每个单核能够支持一个或多个应用集合所包含的基础算核，图中16个单核能够支持该应用集合所包含的全部基础算核。

互连模块12用于参考所述待处理应用集合内各应用基于基础算核集的硬件实现，按照所述待处理应用将配置后的单核连通，以实现整个待处理应用。

在可重构阵列构建之处，需要对其对应的应用集合内的应用进行统一考虑，将每一个应用在硬件上的实现形式进行综合，然后在硬件资源上将其能够应用到的连接形式进行预先设置，也就是将应用基于基础算核集的硬件上实现。

当需要实现所述应用集合中的某一待处理应用时，将单核内的可重构计算模块、可重构存储模块、可重构控制逻辑模块根据待处理应用所包含的基础算核进行配置，同时互连模块按照所述待处理应用基于基础算核的硬件实现将配置后的单核进行互连，以实现对该应用的硬件实现。

本实施例并不限定单核的个数为16个，其可以为根据不同的应用进行相应的预先设定，以使得单核的个数能够满足对不同应用的实现。

可重构计算模块21的主要功能是密集计算，由粗粒度计算单元构成，比如定/浮点计算单元、移位单元、寄存延迟单元和多路选择单元等，这些单元根据应用需要，按特定比例和顺序排列组成可重构阵列形式。可重构计算模块可以根据应用需要，实现不同位宽的定浮点加、减、乘、除、开方、对数和三角函数等功能，或者其他更大规模的组合计算功能。本实施例公开的可重构阵列的可重构功能，就是通过各个单核的可重构计算模块根据不同的应用的需要而实现的，当其面临一个应用时，根据该应用的基本操作进行配置，而当其面临其他应用时，根据其他应用的基本操作进行配置。

可重构存储模块22主要功能是输入/输出数据缓冲和计算中间结果缓存，其基本单元是双端口SRAM块，配合可重构细粒度逻辑单元阵列可实现可变宽度深度和可变存取方式，如随机存取、单路数据缓存输出FIFO、转置等。该模块实现在对应用的处理过程中，对运算的中间结果进行缓存，同时对需要进行计算的数据进行缓存。

可重构控制逻辑模块23主要功能是实现一些逻辑控制功能，如与、或、非、异或、地址产生函数和状态机等。

配置模块24用于控制单核的行为和单核间通信等，包含一个状态机用于初始化；同时，为了降低功耗，该内核还支持多级时钟频率控制和多电压的供电管理，可以根据应用映射情况(如单核内不同的负载情况)来调整单核内的时钟频率和工作电压(甚至深度休眠)以达到节省功耗的目的。例如，当前的负载情况较小，无需用到全部的单核进行工作时，配置模块24配置单核进入休眠状态，以节省功耗。

配置模块根据面临的应用集合对单核内的各个模块进行配置，使得可重构计算阵列的单核结构可以根据不同的应用进行变化，并且，单核间的连接关系通过核间通信的改变而改变，以适应不同的应用需求。当其需要顺次处理一个应用集合中的多个应用时，首先根据第一个应用的特点配置单核的各个模块，然后进行单核间的连接，当第一个应用处理完成后，通过状态机对单核进行初始化，将单核恢复到初始状态，然后再依据下一个应用的特点进行配置。

数据通路交换开关25和控制信号交换开关26将上述模块组合成单核结构。

进一步的，本实施例中的可重构阵列还包括输入输出I/O模块13，即I/O接口，主要负责HRCA同其他可重构计算阵列和其他片外资源的通信，例如处理器、存储器等。通过提供对片外的高通信带宽来平衡芯片内部计算速度和对片外存储的大数据量需求。为获得高通信带宽，I/O模块内部可以集成高速的通信接口，如DDR3/QDR-SRAM/PCI-E控制器等。另外，HRCA芯片还可通过I/O模块直连获得更大规模的多核扩展。

理论上HRCA可由单核经互连模块和I/O模块扩展成任意规模(核的数量)的多核阵列，这种扩展是通过一种支持多时钟域数据交换的异步互连单元实现的。HRCA可以是同构结构，即每个单核都是完全相同的结构，也可以是异构结构，即阵列中的单核具有不同的结构。阵列中每个单核都具有一致的接口结构。

互连模块12主要功能是单核之间以及同I/O接口之间的通信。其结构如图3所示，其中包括：异步缓冲区31、输入端口32、输出端口33、输入信号互联网络34和输出信号互联网络35。多个单核间是异步工作方式，处于不同的时钟域，因此，采用异步缓冲区31作为不同时钟域之间的数据交换。输入信号互连网络34和输出信号互连网络35用于实现互连模块12在多个方向上的数据交换和基于单核的任意扩展，输入端口32用于接收原始数据，输出端口33用于输出处理后的最终数据。

本实施例公开的可重构计算阵列HRCA直接面对应用算法的实现，不以传统的指令为基础，而是采用算法到结构的空间映射方式，直接将应用分解成基础算核集合，该基础算核集可以由阵列中的多个单核来支持。实现应用的各算核之间的连接关系严格遵守算法执行过程中对数据的加工处理过程，而各单核间的连接也完全依照应用中数据流处理的投入产出关系来实现，因此，对应用的支持可以获得最高的效率。并且，由于其采用的单核的可重构特性，所以能够根据不同的应用进行灵活的构建，实现了灵活性和高效性的统一。

应用算法在HRCA中的实现可概括成图4所示过程。应用算法对原始数据的处理可分解成多个算核组成的集合，这些算核可以是基础算核也可以是更高阶的算核。算核由HRCA中的单核实现，而算核间的数据通信则由互连模块实现，原始数据的输入和最终数据的输出都是通过IO模块实现的。

本发明实施例同时公开了一种可重构计算阵列构建方法，其流程如图5所示，包括：

步骤S51、对某一应用集合内的应用算法进行分析，获得与该应用集合对应的基础算核集合；

所述基础算核为对所述某一应用领域内的应用算法进行分析后得到的基本操作的硬件实现。通过上述步骤，确定处理该应用所需要用到的基础算核。

步骤S52、参照基础算核集的硬件结构构建预设个数的单核内部的可重构计算模块、可重构存储模块和可重构控制逻辑模块，使所述预设个数的单核能够支持所述应用集合所包含的全部基础算核；

基础算核为预先对各个应用算法进行分析，确定出基本操作，用于实现所述基本操作的算核，基础算核的类型至少包括：加基础算核、减基础算核、乘基础算核、除基础算核、开方基础算核、对数基础算核和三角函数基础算核。当然，还可以包括实现其他较为复杂的基本操作算核，或者将基本操作进行结合后的操作对应的算核。基础算核为单核通过支持不同时钟域数据交换的互连模块相互连接构成。以及基础算核集的硬件结构，将与该应用集合对应的单核内部的各个模块进行构建，使得这些单核能够支持该应用集合包含的全部基础算核。

步骤S53、参考所述应用集合内各应用基于基础算核集的硬件实现，将所述预设个数的单核通过互连模块连接构成可重构计算阵列。

在可重构阵列构建时，需要对其对应的应用集合内的应用进行统一考虑，将每一个应用在硬件上的实现形式进行综合，对基础算核集内的各个基础算核都通过单核进行支持，然后在硬件资源上将其能够应用到连接形式进行预先设置，也就是将待处理应用基于基础算核集的硬件上实现，当需要实现其中一个应用时，按照上述过程将单核进行配置后，根据该应用的特点，连通实现该应用的各个单核，以实现对该应用的硬件实现。

通过上述步骤，实现利用单核构建可重构计算阵列的目的。

图6所示为按照图5所述过程构建可重构阵列后，在该可重构阵列上构建一个待处理应用对应的硬件结构的过程，包括：

步骤S61、确定待处理应用所包含的基础算核；

步骤S62、参考所述待处理应用基于基础算核集的硬件实现，将所述待处理应用所对应的单核配置成所述待处理应用对应的基础算核，并经由互连模块连接构成实现所述待处理应用的硬件结构。

以图1所示结构为例，16个单核可以实现应用集合内的全部应用，而对应其中一个应用时，可能只需从中选取1个、5个或其他个数的单核。所以当确定待处理应用后，同时需要确定该待处理应用需要用到哪些单核，然后将这些单核配置成该待处理应用所对应的基础算核，最后，根据该待处理应用的特点，将各个单核进行互连，最终构成与待处理应用对应的硬件结构，从而实现利用可重构阵列硬件实现应用算法的目的。

本发明实施例公开的方法，采用算法到结构的空间映射的方式，直接构建与应用对应的可重构阵列结构，使得该结构能够快速的对应用进行处理，提高了结构的处理效率。并且，该构建过程可以适应于任何一种应用的场景，使用方便灵活，其构建出的阵列结构同样具有该特点。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种可重构计算阵列，其特征在于，包括：

所述配置模块用于依据该应用集合所包含的基础算核集的硬件结构构建对单核的可重构计算模块、可重构存储模块和可重构控制逻辑模块进行配置，包括控制单核的行为和单核间通信，使得每个单核能够支持一个或多个应用集合所包含的基础算核，其中，控制单核的行为包括状态机用于初始化，根据应用映射情况调整单核内的时钟频率和工作电压；

2.根据权利要求1所述的阵列，其特征在于，当实现所述应用集合中的某一待处理应用时，与所述待处理应用对应的单核内的可重构计算模块、可重构存储模块、可重构控制逻辑模块根据所述待处理应用所包含的基础算核进行配置；

3.根据权利要求2所述的阵列，其特征在于，所述阵列还包括：输入输出I/O模块，所述输入输出I/O模块用于，所述可重构计算阵列与其他可重构计算阵列或其他片外资源进行通信。

4.根据权利要求3所述的阵列，其特征在于，所述预设个数的单核具有统一的接口，所述预设个数单核中的任意一个单核与其他单核为同构结构或异构结构。