CN103970720B

CN103970720B - 基于大规模粗粒度嵌入式可重构系统及其处理方法

Info

Publication number: CN103970720B
Application number: CN201410241289.6A
Authority: CN
Inventors: 刘波; 朱婉瑜; 刘杨; 曹鹏; 杨锦江; 汪芮合; 杨苗苗; 刘雷波; 魏少军; 袁航; 王星
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2014-05-30
Filing date: 2014-05-30
Publication date: 2018-02-02
Anticipated expiration: 2034-05-30
Also published as: CN103970720A

Abstract

本发明公开了一种基于大规模粗粒度嵌入式可重构系统及其处理方法，其包括：系统总线、配置总线、嵌入式微处理器、数据存储器、可重构处理器、重构控制器、中断控制器和直接存储器访问控制器。该方法针对常用的矩阵求逆算法，在可重构处理器中设计了4个特殊的可重构阵列和一个片上数据传输单元，通过将矩阵求逆算法映射到包含多个基本运算的可重构阵列上，提高运算并行度，从而提升运算效率。同时，通过片上数据传输网络优化了阵列间的数据交换。

Description

基于大规模粗粒度嵌入式可重构系统及其处理方法

技术领域

本发明涉及嵌入式可重构系统领域，尤其涉及一种应用于雷达、通信等领域的基于大规模粗粒度嵌入式可重构系统及其处理方法。

背景技术

通用处理器和专用集成电路(ASIC)一直以来都是两种主要的计算模式。随着对计算效率的要求不断提高，一种兼顾通用处理器灵活性和专用集成电路高效性的可重构计算技术开始进入人们眼帘。可重构计算技术通过对运算单元的配置，能够将某一算法转换为数据流的形式，提高运算效率。这里提到的大规模粗粒度动态可重构处理器就是一种基于可重构计算技术的片上系统芯片。

在雷达、数字通信、多媒体处理等应用场合中，矩阵求逆算法经常会被用到。如今对数据量和处理速度的要求日益增长，常用的方案已逐渐跟不上时代的需要，逐渐成为整个系统的性能瓶颈。矩阵求逆的实现通常使用数字信号处理芯片(DSP)和现场可编程门阵列(FPGA)两种芯片方案。其中数字信号处理芯片是通用处理器，在计算过程中需要先读取指令，然后取出数据进行相应的处理。相比较与可重构处理器，这样的过程不仅增加了读取指令的时间，而且无法进行并行计算，导致性能低下。现场可编程门阵列虽然同样拥有高效的运算速度，但缺乏灵活性，设计完成后无法继续完成其他算法的计算。目前国内外已设计多种可重构系统用于矩阵运算，能够有效地完成矩阵加减法、矩阵乘法、三角矩阵求逆等运算，但是并没有针对矩阵求逆运算进行优化，在运算过程中将产生许多流水气泡，影响运算效率。同时，大部分已有的可重构系统只能完成4阶以下的矩阵运算，对于大规模矩阵只能通过矩阵分解来完成矩阵求逆运算，这将大大降低运算效率。本发明可以直接进行最高48阶矩阵求逆，提高并行度，并且合理规划数据流，减少流水气泡，加快运算速度。

发明内容

有鉴于此，本发明针对现有技术中的一种或多种不足，提出了一种基于大规模粗粒度嵌入式可重构系统及其处理方法，其能够通过配置操作实现不同算法的运算，还能够将矩阵求逆的运算转换为数据流，通过对流水线的优化和完善的数据预取操作，兼具高效性和灵活性，能显著提高高阶矩阵求逆的运算效率。

本发明提出了一种基于大规模粗粒度嵌入式可重构系统,其包括：系统总线、配置总线、嵌入式微处理器、数据存储器、可重构处理器、重构控制器、中断控制器和直接存储器访问控制器；

可重构处理器，用于映射高阶矩阵求逆数据，其中，所述高阶矩阵求逆数据是根据数据流图确定的流程和矩阵求逆输入数据不断更新的特点确定的，而所述数据流图是根据分析矩阵求逆，将其算法各步骤的运算转换得到的；

直接存储器访问控制器，其将配置信息以及所需用到的初始数据存入相应数据存储器中；

嵌入式微处理器，通过对其进行设置，启动所述重构控制器，将所述配置信息从所述配置总线发送到所述可重构处理器；

可重构处理器，通过控制其任务的执行，当所述可重构处理器完成当前任务后，发送中断信号给所述嵌入式微处理器；

系统总线，用于连接可重构系统中的各个功能部件，包括嵌入式微处理器、数据存储器、可重构处理器、重构控制器、中断控制器和直接存储器访问控制器，以构成一个完整的嵌入式可重构系统。系统总线对于所有连接到其上的功能部件，都支持双向的数据访问。通过系统总线，嵌入式微处理器可以访问并控制系统中各个功能部件的工作状态，或从数据存储器中读取所需的指令和数据信息；此外，可重构处理器和直接存储器访问控制器也可以通过系统总线访问数据存储器，读取或写入所需的数据信息；

配置总线，用于可重构处理器和重构控制器；其中，重构控制器在嵌入式微处理器的控制下，动态生成配置信息，并将这些配置信息通过配置总线依次发送到可重构处理器，从而实现可重构处理器功能的动态配置。配置总线仅支持单向的数据传输功能，其中，重构控制器将配置信息单向写入到配置总线上，然后配置总线将这些配置信息单向地发送到可重构处理器；

中断控制器，用于系统中各个功能部件之间的系统同步设置；其中，中断输入源包括直接存储器访问控制器和可重构处理器。当直接存储器访存控制器完成一次数据搬运时，将通过中断控制器向嵌入式微处理器发起一次中断请求，以完成后续的功能；当可重构处理器完成一套或多套配置所对应的计算任务时，也将通过中断控制器向嵌入式微处理器发起一次中断请求，以通知嵌入式微处理器启动重构控制器，发出下一套或多套的配置信息；

数据存储器，用于存储本系统运行过程中所需的指令和数据信息。

优选地，所述可重构处理器由4个可重构阵列、1个片上数据传输单元、4个可重构阵列配置寄存器、1个片上数据传输单元配置寄存器堆、1个配置信息访问接口、1个外存访问接口构成；4个可重构阵列间通过一个共享的所述片上数据传输单元实现运算过程中中间结果的存储和传递；所述可重构阵列配置寄存器堆的编号为可重构阵列配置寄存器堆#0-#3，分别用于对应可重构阵列#0-#3的功能配置；所述片上数据传输单元配置寄存器堆用于片上数据传输单元的功能配置。

优选地，所述可重构阵列包括由8个除法器构成的1*8一维除法阵列，48个基本运算单元构成的6*8二维乘加基本运算阵列，其包括15个加法器、1个乘法器和1个累加器构成的倒三角累加阵列；除法阵列包含的8个除法器为流水关系。

优选地，所述基本运算阵列包含的6*8个基本运算单元可实现乘法运算、移位加减法、逻辑运算；其包括：分成6行的倒三角累加阵列，第一行有8个加法器，第二行有4个加法器，第三行有2个加法器，第四行有1个加法器，第五行有1个累加器，第六行有1个乘法器；所述除法阵列与所述基本运算阵列间通过两组寄存器分两个周期节拍完成两个阵列间的数据传递；所述基本运算阵列最后四行的基本运算单元与倒三角累加阵列直接相连，完成这两个阵列间的数据传递；所述基本运算阵列中的每个基本运算单元都附带一个寄存器，用于暂存下一步计算所需的数据。

优选地，所述片上数据传输单元包括4个共享存储单元，1个外存访问接口和1个控制模块；其中，所述共享存储单元用于存储所述4个可重构阵列计算时共同使用到的数据；所述外存访问接口用于实现共用存储模块与外部存储器之间的数据交互；所述控制模块用于控制所述4个可重构阵列对所述4个共享存储单元的读写，以及所述外存访问接口对所述外部存储器的访问。

优选地，矩阵求逆可分为LU分解、三角矩阵求逆、矩阵相乘三个步骤，每个步骤都有对应的映射方式；N阶矩阵的LU分解采取高斯消元法，需要进行(1+2+…+(N-1))次消元运算，一次消元运算即除法阵列从向量a、b获得除数、被除数完成除法运算，二维乘加运算阵列将除法阵列得到的结果与向量a中每一个元素相乘，然后将得到的新向量与向量b相减，得到运算结果；N阶三角矩阵的求逆需要进行(1+2+…+(N-1))次运算，一次运算包括一次向量乘法运算和一次乘法预算，一次运算即二维乘加运算阵列将向量a、b的所有元素两两相乘，然后倒三角累加阵列完成累加计算并与当前行的对角线元素相乘，得到运算结果；N阶矩阵相乘需要完成N*N次向量乘法，一次向量乘法运算即二维乘加阵列将向量a、b的所有元素两两相乘，然后倒三角累加阵列完成累加计算，得到运算结果。

本发明还提供了一种基于大规模粗粒度嵌入式可重构系统处理方法,其包括以下步骤：

1)分析矩阵求逆，将其算法各步骤的运算转换成数据流图的形式；

2)根据数据流图确定的流程和矩阵求逆输入数据不断更新的特点，确定高阶矩阵求逆的数据输入方式；

3)在明确数据流图和数据输入方式后，将高阶矩阵求逆算法映射到可重构处理器上；

4)通过直接存储器访问控制器将配置信息以及所需用到的初始数据存入相应存储器中；

5)最后对嵌入式处理器进行设置，启动重构控制器，将配置信息从配置总线发送到可重构处理器，控制可重构处理器任务的执行。

6)当可重构处理器完成当前任务后，发送中断信号给嵌入式微处理器。

优选地，在所述步骤1)中，所述矩阵求逆可分为LU分解、三角矩阵求逆、矩阵相乘三个步骤，每个步骤都有对应的映射方式；N阶矩阵的LU分解采取高斯消元法，需要进行(1+2+…+(N-1))次消元运算，一次消元运算即除法阵列从向量a、b获得除数、被除数完成除法运算，二维乘加运算阵列将除法阵列得到的结果与向量a中每一个元素相乘，然后将得到的新向量与向量b相减，得到运算结果；N阶三角矩阵的求逆需要进行(1+2+…+(N-1))次运算，一次运算包括一次向量乘法运算和一次乘法预算，一次运算即二维乘加运算阵列将向量a、b的所有元素两两相乘，然后倒三角累加阵列完成累加计算并与当前行的对角线元素相乘，得到运算结果；N阶矩阵相乘需要完成N*N次向量乘法，一次向量乘法运算即二维乘加阵列将向量a、b的所有元素两两相乘，然后倒三角累加阵列完成累加计算，得到运算结果。

本发明基于大规模粗粒度动态可重构处理器，通过4个可重构阵列和多个运算单元实现了多层次的并行计算，特别对于高阶矩阵的求逆拥有显著效果。同时通过重构控制器对配置信息的传送与控制，可实现对不同阶数矩阵的求逆运算，具有一定灵活性。最后通过仿真验证，实现96阶矩阵求逆运算仅需34608个时钟周期，其运算周期明显提升。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为基于大规模粗粒度嵌入式可重构系统结构框图；

图2为片上存储网络的结构框图；

图3为可重构阵列的结构框图。

具体实施方式

下面结合附图对本发明进一步说明。

表1为本发明的一种基于大规模粗粒度嵌入式可重构系统及其处理方法涉及到的可重构阵列内部寄存器说明。

表2～表4为本发明的一种基于大规模粗粒度嵌入式可重构系统及其处理方法涉及到的可重构阵列配置信息说明。

表1

表2

表3

表4

图1为基于大规模粗粒度嵌入式可重构系统结构框图，如图1所示，本发明提出一种基于大规模粗粒度嵌入式可重构系统，其包括：嵌入式微处理器，如以ARM作为嵌入式微处理器，可重构处理器，如以颗粒度为16bit的可重构处理器作为协处理器，还包括重构控制器、直接存储器访问控制器和中断控制器。

其中，可重构处理器内部包括4个可重构阵列、1个片上数据传输单元、4个可重构阵列配置寄存器堆、1个片上数据传输单元配置寄存器堆，如图2所示。其中4个可重构阵列用来加速矩阵计算，提高计算并行度；4个可重构阵列间通过一个共享的片上存储单元结构实现运算过程中中间结果的存储和传递；可重构阵列配置寄存器堆的编号为可重构阵列配置寄存器堆#0～#3，分别用于对应可重构阵列#0～#3的功能配置；片上数据传输单元配置寄存器堆用于片上数据传输单元的功能配置；配置信息访问接口与重构控制器进行交互，接收配置信息；外存访问接口与数据存储器进行交互，接收外部信息。

其中，可重构阵列包括1个除法阵列、1个基本运算阵列、一个倒三角累加阵列，如图3所示。除法阵列包含的8个除法器为流水关系，显著提高除法运算效率；基本运算阵列包含的6*8个基本运算单元可实现乘法运算、移位加减法、逻辑运算；倒三角累加阵列分成5行，第一行有8个加法器，第二行有4个加法器，第三行有2个加法器，第四行有1个加法器，第五行有1个累加器，显著提高累加效率；除法阵列与基本运算阵列间通过两组寄存器分两个周期节拍完成两个阵列间的数据传递；乘加阵列最后两行的基本运算单元与倒三角累加阵列直接相连，完成这两个阵列间的数据传递；基本运算阵列中的每个基本运算单元都附带一个寄存器，用于暂存下一步计算所需的数据。

整个系统的工作流程为，首先分析矩阵求逆，将其算法各步骤的运算转换成数据流图的形式；再根据数据流图确定的流程和矩阵求逆输入数据不断更新的特点，确定高阶矩阵求逆的数据输入方式；其次在明确数据流图和数据输入方式后，将高阶矩阵求逆算法映射到可重构处理器上；然后通过直接存储器访问控制器将配置信息以及所需用到的初始数据存入相应存储器中；随后对嵌入式处理器进行设置，启动重构控制器，将配置信息从配置总线发送到可重构处理器，控制可重构处理器任务的执行；最后当可重构处理器完成当前任务后，发送中断信号给嵌入式微处理器。

以对96阶矩阵进行求逆为例，计算流程为：

(1)将原矩阵A分成4块48阶矩阵，分别为A₁₁、A₁₂、A₂₁、A₂₂；

(2)对A₁₁进行LU分解，得到L₁₁ ^-1、U₁₁两个三角矩阵；

(3)对L₁₁ ^-1、U₁₁进行三角矩阵求逆运算，得到L₁₁、U₁₁ ^-1；

(4)通过L₁₁ ^-1*A₁₂，A₂₁*U₁₁ ^-1两次矩阵乘法得到U₁₂和L₂₁；

(5)对A₂₂-L₂₁*U₁₂进行LU分解得到L₂₂ ^-1、U₂₂ ^-1两个三角矩阵；

(6)由分块矩阵公式,完成多次矩阵乘法运算得到A^-1。

对于LU分解，我们使用高斯消元法对原矩阵A不断进行消元运算，将A矩阵变换为三角矩阵U，变换过程中的消元因子构成三角矩阵L，由此得到L、U两个三角矩阵。求解过程中，由A矩阵第一列开始，逐列完成消元，消元公式为a_ij ^(k+1)＝a_ij ^(k)-l_ik*a_kj ^(k)(k+1≤i≤n，k+1≤j≤n+1),l_ik＝a_ik ^(k)/a_kk ^(k)。其中a为A矩阵中的元素，k为当前完成消元的列数，i为当前正在消元的列数，j为当前正在消元的行数。根据公式，可重构阵列先由除法阵列计算得到消元因子l_ik，然后基本运算单元先乘法运算(即l_ik*a_kj ^(k))，再执行减法运算即(a_ij ^(k)-l_ik*a_kj ^(k))，完成一次消元。由于可重构阵列中包含48个基本运算单元，所以1个可重构阵列计算一次能完成48次消元运算，4个阵列同时工作，逐列完成L、U矩阵的求解。

对于三角矩阵求逆，根据算法分析有公式：b_ij＝-1/a_ii*(a_i*b_j)，其中b_ij为求得的逆矩阵B中的元素，a_i为原矩阵A中的第i行向量，b_j为结果矩阵b中的第j列向量。计算顺序为矩阵B从对角线开始，逐斜行地求出逆矩阵B中的元素。在可重构阵列中，首先由基本运算阵列完成k次乘法运算，然后倒三角累加阵列完成累加运算，最后乘以当前行的对角线元素，所以一个可重构阵列计算一次便求得一个元素，即完成一次上述公式的计算，4个可重构阵列可以同时计算，充分利用并发执行的特点。

对于矩阵乘法，假设矩阵A乘以矩阵B得到矩阵C，公式为c_ji＝a_i×b_j，其中ai表示A矩阵的第i个列向量，bj表示B矩阵中的第j个行向量。在可重构阵列中，首先由48个基本运算单元完成48次乘法，实现两个向量的对应元素相乘，然后由倒三角累加阵列完成这些结果的累加，得到结果矩阵C中的一个元素。所以一个可重构阵列计算一次便完成一次向量乘法运算，4个可重构阵列同时计算48*48/4次便完成了矩阵乘法的计算。

在矩阵求逆过程中，各步骤的计算都是对结果矩阵的不断更新，同时计算过程中可能会用到之前运算得到的结果。所以，对于可重构阵列的数据输入，我们采取4个可重构阵列共用一个共享存储单元单元的方法，同时将这个共享存储单元分成4块，每个可重构阵列对应一块，避免访问冲突，影响计算性能。

以上详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种等同变换，这些等同变换均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

Claims

1.一种基于大规模粗粒度嵌入式可重构系统,其包括：

系统总线、嵌入式微处理器、数据存储器、可重构处理器、重构控制器、中断控制器和直接存储器访问控制器；

嵌入式处理器，通过对其进行设置，启动所述重构控制器，将所述配置信息从所述配置总线发送到所述可重构处理器；

重构控制器，通过控制其任务的执行，当所述可重构处理器完成当前任务后，发送中断信号给所述嵌入式微处理器；

中断控制器，用于系统中各个功能部件之间的系统同步设置；

矩阵求逆可分为LU分解、三角矩阵求逆、矩阵相乘三个步骤，每个步骤都有对应的映射方式；N阶矩阵的LU分解采取高斯消元法，需要进行(1+2+…+(N-1))次消元运算，一次消元运算即除法阵列从向量a、b获得除数、被除数完成除法运算，二维乘加运算阵列将除法阵列得到的结果与向量a中每一个元素相乘，然后将得到的新向量与向量b相减，得到运算结果；N阶三角矩阵的求逆需要进行(1+2+…+(N-1))次运算，一次运算包括一次向量乘法运算和一次乘法预算，一次运算即二维乘加运算阵列将向量a、b的所有元素两两相乘，然后倒三角累加阵列完成累加计算并与当前行的对角线元素相乘，得到运算结果；N阶矩阵相乘需要完成N*N次向量乘法，一次向量乘法运算即二维乘加阵列将向量a、b的所有元素两两相乘，然后倒三角累加阵列完成累加计算，得到运算结果；

还包括可重构阵列，所述可重构阵列包括由8个除法器构成的1*8一维除法阵列，48个基本运算单元构成的6*8二维乘加基本运算阵列，其包括15个加法器、1个乘法器和1个累加器构成的倒三角累加阵列；除法阵列包含的8个除法器为流水关系；

所述基本运算阵列包含的6*8个基本运算单元可实现乘法运算、移位加减法和逻辑运算；其包括：分成6行的倒三角累加阵列，第一行有8个加法器，第二行有4个加法器，第三行有2个加法器，第四行有1个加法器，第五行有1个累加器，第六行有1个乘法器；所述除法阵列与所述基本运算阵列间通过两组寄存器分两个周期节拍完成两个阵列间的数据传递；所述基本运算阵列最后四行的基本运算单元与倒三角累加阵列直接相连，完成这两个阵列间的数据传递；所述基本运算阵列中的每个基本运算单元都附带一个寄存器，用于暂存下一步计算所需的数据。

2.如权利要求1所述的嵌入式可重构系统，其特征在于：所述可重构处理器由4个可重构阵列、1个片上数据传输单元、4个可重构阵列配置寄存器、1个片上数据传输单元配置寄存器堆、1个配置信息访问接口、1个外存访问接口构成；4个可重构阵列间通过一个共享的所述片上数据传输单元实现运算过程中中间结果的存储和传递；所述可重构阵列配置寄存器堆的编号为可重构阵列配置寄存器堆#0-#3，分别用于对应可重构阵列#0-#3的功能配置；所述片上数据传输单元配置寄存器堆用于片上数据传输单元的功能配置；配置信息访问接口与重构控制器进行交互，接收配置信息；外存访问接口与数据存储器进行交互，接收外部信息。

3.如权利要求2所述的嵌入式可重构系统，其特征在于：所述片上数据传输单元包括4个共享存储单元，1个外存访问接口和1个控制模块；其中，所述共享存储单元用于存储所述4个可重构阵列计算时共同使用到的数据；所述外存访问接口用于实现共用存储模块与外部存储器之间的数据交互；所述控制模块用于控制所述4个可重构阵列对所述4个共享存储单元的读写，以及所述外存访问接口对所述外部存储器的访问。

4.一种根据权利要求1所述的基于大规模粗粒度嵌入式可重构系统的处理方法,其包括以下步骤：

1)分析矩阵求逆，将其算法各步骤的运算转换成数据流图的形式，其中，所述矩阵求逆可分为LU分解、三角矩阵求逆、矩阵相乘三个步骤，每个步骤都有对应的映射方式；N阶矩阵的LU分解采取高斯消元法，需要进行(1+2+…+(N-1))次消元运算，一次消元运算即除法阵列从向量a、b获得除数、被除数完成除法运算，二维乘加运算阵列将除法阵列得到的结果与向量a中每一个元素相乘，然后将得到的新向量与向量b相减，得到运算结果；N阶三角矩阵的求逆需要进行(1+2+…+(N-1))次运算，一次运算包括一次向量乘法运算和一次乘法预算，一次运算即二维乘加运算阵列将向量a、b的所有元素两两相乘，然后倒三角累加阵列完成累加计算并与当前行的对角线元素相乘，得到运算结果；N阶矩阵相乘需要完成N*N次向量乘法，一次向量乘法运算即二维乘加阵列将向量a、b的所有元素两两相乘，然后倒三角累加阵列完成累加计算，得到运算结果；

5)最后对嵌入式微处理器进行设置，启动重构控制器，将配置信息从配置总线发送到可重构处理器，控制可重构处理器任务的执行；