CN103970720B - 基于大规模粗粒度嵌入式可重构系统及其处理方法 - Google Patents

基于大规模粗粒度嵌入式可重构系统及其处理方法 Download PDF

Info

Publication number
CN103970720B
CN103970720B CN201410241289.6A CN201410241289A CN103970720B CN 103970720 B CN103970720 B CN 103970720B CN 201410241289 A CN201410241289 A CN 201410241289A CN 103970720 B CN103970720 B CN 103970720B
Authority
CN
China
Prior art keywords
reconfigurable
array
data
matrix
arrays
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410241289.6A
Other languages
English (en)
Other versions
CN103970720A (zh
Inventor
刘波
朱婉瑜
刘杨
曹鹏
杨锦江
汪芮合
杨苗苗
刘雷波
魏少军
袁航
王星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201410241289.6A priority Critical patent/CN103970720B/zh
Publication of CN103970720A publication Critical patent/CN103970720A/zh
Application granted granted Critical
Publication of CN103970720B publication Critical patent/CN103970720B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)
  • Advance Control (AREA)

Abstract

本发明公开了一种基于大规模粗粒度嵌入式可重构系统及其处理方法,其包括:系统总线、配置总线、嵌入式微处理器、数据存储器、可重构处理器、重构控制器、中断控制器和直接存储器访问控制器。该方法针对常用的矩阵求逆算法,在可重构处理器中设计了4个特殊的可重构阵列和一个片上数据传输单元,通过将矩阵求逆算法映射到包含多个基本运算的可重构阵列上,提高运算并行度,从而提升运算效率。同时,通过片上数据传输网络优化了阵列间的数据交换。

Description

基于大规模粗粒度嵌入式可重构系统及其处理方法
技术领域
本发明涉及嵌入式可重构系统领域,尤其涉及一种应用于雷达、通信等领域的基于大规模粗粒度嵌入式可重构系统及其处理方法。
背景技术
通用处理器和专用集成电路(ASIC)一直以来都是两种主要的计算模式。随着对计算效率的要求不断提高,一种兼顾通用处理器灵活性和专用集成电路高效性的可重构计算技术开始进入人们眼帘。可重构计算技术通过对运算单元的配置,能够将某一算法转换为数据流的形式,提高运算效率。这里提到的大规模粗粒度动态可重构处理器就是一种基于可重构计算技术的片上系统芯片。
在雷达、数字通信、多媒体处理等应用场合中,矩阵求逆算法经常会被用到。如今对数据量和处理速度的要求日益增长,常用的方案已逐渐跟不上时代的需要,逐渐成为整个系统的性能瓶颈。矩阵求逆的实现通常使用数字信号处理芯片(DSP)和现场可编程门阵列(FPGA)两种芯片方案。其中数字信号处理芯片是通用处理器,在计算过程中需要先读取指令,然后取出数据进行相应的处理。相比较与可重构处理器,这样的过程不仅增加了读取指令的时间,而且无法进行并行计算,导致性能低下。现场可编程门阵列虽然同样拥有高效的运算速度,但缺乏灵活性,设计完成后无法继续完成其他算法的计算。目前国内外已设计多种可重构系统用于矩阵运算,能够有效地完成矩阵加减法、矩阵乘法、三角矩阵求逆等运算,但是并没有针对矩阵求逆运算进行优化,在运算过程中将产生许多流水气泡,影响运算效率。同时,大部分已有的可重构系统只能完成4阶以下的矩阵运算,对于大规模矩阵只能通过矩阵分解来完成矩阵求逆运算,这将大大降低运算效率。本发明可以直接进行最高48阶矩阵求逆,提高并行度,并且合理规划数据流,减少流水气泡,加快运算速度。
发明内容
有鉴于此,本发明针对现有技术中的一种或多种不足,提出了一种基于大规模粗粒度嵌入式可重构系统及其处理方法,其能够通过配置操作实现不同算法的运算,还能够将矩阵求逆的运算转换为数据流,通过对流水线的优化和完善的数据预取操作,兼具高效性和灵活性,能显著提高高阶矩阵求逆的运算效率。
本发明提出了一种基于大规模粗粒度嵌入式可重构系统,其包括:系统总线、配置总线、嵌入式微处理器、数据存储器、可重构处理器、重构控制器、中断控制器和直接存储器访问控制器;
可重构处理器,用于映射高阶矩阵求逆数据,其中,所述高阶矩阵求逆数据是根据数据流图确定的流程和矩阵求逆输入数据不断更新的特点确定的,而所述数据流图是根据分析矩阵求逆,将其算法各步骤的运算转换得到的;
直接存储器访问控制器,其将配置信息以及所需用到的初始数据存入相应数据存储器中;
嵌入式微处理器,通过对其进行设置,启动所述重构控制器,将所述配置信息从所述配置总线发送到所述可重构处理器;
可重构处理器,通过控制其任务的执行,当所述可重构处理器完成当前任务后,发送中断信号给所述嵌入式微处理器;
系统总线,用于连接可重构系统中的各个功能部件,包括嵌入式微处理器、数据存储器、可重构处理器、重构控制器、中断控制器和直接存储器访问控制器,以构成一个完整的嵌入式可重构系统。系统总线对于所有连接到其上的功能部件,都支持双向的数据访问。通过系统总线,嵌入式微处理器可以访问并控制系统中各个功能部件的工作状态,或从数据存储器中读取所需的指令和数据信息;此外,可重构处理器和直接存储器访问控制器也可以通过系统总线访问数据存储器,读取或写入所需的数据信息;
配置总线,用于可重构处理器和重构控制器;其中,重构控制器在嵌入式微处理器的控制下,动态生成配置信息,并将这些配置信息通过配置总线依次发送到可重构处理器,从而实现可重构处理器功能的动态配置。配置总线仅支持单向的数据传输功能,其中,重构控制器将配置信息单向写入到配置总线上,然后配置总线将这些配置信息单向地发送到可重构处理器;
中断控制器,用于系统中各个功能部件之间的系统同步设置;其中,中断输入源包括直接存储器访问控制器和可重构处理器。当直接存储器访存控制器完成一次数据搬运时,将通过中断控制器向嵌入式微处理器发起一次中断请求,以完成后续的功能;当可重构处理器完成一套或多套配置所对应的计算任务时,也将通过中断控制器向嵌入式微处理器发起一次中断请求,以通知嵌入式微处理器启动重构控制器,发出下一套或多套的配置信息;
数据存储器,用于存储本系统运行过程中所需的指令和数据信息。
优选地,所述可重构处理器由4个可重构阵列、1个片上数据传输单元、4个可重构阵列配置寄存器、1个片上数据传输单元配置寄存器堆、1个配置信息访问接口、1个外存访问接口构成;4个可重构阵列间通过一个共享的所述片上数据传输单元实现运算过程中中间结果的存储和传递;所述可重构阵列配置寄存器堆的编号为可重构阵列配置寄存器堆#0-#3,分别用于对应可重构阵列#0-#3的功能配置;所述片上数据传输单元配置寄存器堆用于片上数据传输单元的功能配置。
优选地,所述可重构阵列包括由8个除法器构成的1*8一维除法阵列,48个基本运算单元构成的6*8二维乘加基本运算阵列,其包括15个加法器、1个乘法器和1个累加器构成的倒三角累加阵列;除法阵列包含的8个除法器为流水关系。
优选地,所述基本运算阵列包含的6*8个基本运算单元可实现乘法运算、移位加减法、逻辑运算;其包括:分成6行的倒三角累加阵列,第一行有8个加法器,第二行有4个加法器,第三行有2个加法器,第四行有1个加法器,第五行有1个累加器,第六行有1个乘法器;所述除法阵列与所述基本运算阵列间通过两组寄存器分两个周期节拍完成两个阵列间的数据传递;所述基本运算阵列最后四行的基本运算单元与倒三角累加阵列直接相连,完成这两个阵列间的数据传递;所述基本运算阵列中的每个基本运算单元都附带一个寄存器,用于暂存下一步计算所需的数据。
优选地,所述片上数据传输单元包括4个共享存储单元,1个外存访问接口和1个控制模块;其中,所述共享存储单元用于存储所述4个可重构阵列计算时共同使用到的数据;所述外存访问接口用于实现共用存储模块与外部存储器之间的数据交互;所述控制模块用于控制所述4个可重构阵列对所述4个共享存储单元的读写,以及所述外存访问接口对所述外部存储器的访问。
优选地,矩阵求逆可分为LU分解、三角矩阵求逆、矩阵相乘三个步骤,每个步骤都有对应的映射方式;N阶矩阵的LU分解采取高斯消元法,需要进行(1+2+…+(N-1))次消元运算,一次消元运算即除法阵列从向量a、b获得除数、被除数完成除法运算,二维乘加运算阵列将除法阵列得到的结果与向量a中每一个元素相乘,然后将得到的新向量与向量b相减,得到运算结果;N阶三角矩阵的求逆需要进行(1+2+…+(N-1))次运算,一次运算包括一次向量乘法运算和一次乘法预算,一次运算即二维乘加运算阵列将向量a、b的所有元素两两相乘,然后倒三角累加阵列完成累加计算并与当前行的对角线元素相乘,得到运算结果;N阶矩阵相乘需要完成N*N次向量乘法,一次向量乘法运算即二维乘加阵列将向量a、b的所有元素两两相乘,然后倒三角累加阵列完成累加计算,得到运算结果。
本发明还提供了一种基于大规模粗粒度嵌入式可重构系统处理方法,其包括以下步骤:
1)分析矩阵求逆,将其算法各步骤的运算转换成数据流图的形式;
2)根据数据流图确定的流程和矩阵求逆输入数据不断更新的特点,确定高阶矩阵求逆的数据输入方式;
3)在明确数据流图和数据输入方式后,将高阶矩阵求逆算法映射到可重构处理器上;
4)通过直接存储器访问控制器将配置信息以及所需用到的初始数据存入相应存储器中;
5)最后对嵌入式处理器进行设置,启动重构控制器,将配置信息从配置总线发送到可重构处理器,控制可重构处理器任务的执行。
6)当可重构处理器完成当前任务后,发送中断信号给嵌入式微处理器。
优选地,在所述步骤1)中,所述矩阵求逆可分为LU分解、三角矩阵求逆、矩阵相乘三个步骤,每个步骤都有对应的映射方式;N阶矩阵的LU分解采取高斯消元法,需要进行(1+2+…+(N-1))次消元运算,一次消元运算即除法阵列从向量a、b获得除数、被除数完成除法运算,二维乘加运算阵列将除法阵列得到的结果与向量a中每一个元素相乘,然后将得到的新向量与向量b相减,得到运算结果;N阶三角矩阵的求逆需要进行(1+2+…+(N-1))次运算,一次运算包括一次向量乘法运算和一次乘法预算,一次运算即二维乘加运算阵列将向量a、b的所有元素两两相乘,然后倒三角累加阵列完成累加计算并与当前行的对角线元素相乘,得到运算结果;N阶矩阵相乘需要完成N*N次向量乘法,一次向量乘法运算即二维乘加阵列将向量a、b的所有元素两两相乘,然后倒三角累加阵列完成累加计算,得到运算结果。
本发明基于大规模粗粒度动态可重构处理器,通过4个可重构阵列和多个运算单元实现了多层次的并行计算,特别对于高阶矩阵的求逆拥有显著效果。同时通过重构控制器对配置信息的传送与控制,可实现对不同阶数矩阵的求逆运算,具有一定灵活性。最后通过仿真验证,实现96阶矩阵求逆运算仅需34608个时钟周期,其运算周期明显提升。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为基于大规模粗粒度嵌入式可重构系统结构框图;
图2为片上存储网络的结构框图;
图3为可重构阵列的结构框图。
具体实施方式
下面结合附图对本发明进一步说明。
表1为本发明的一种基于大规模粗粒度嵌入式可重构系统及其处理方法涉及到的可重构阵列内部寄存器说明。
表2~表4为本发明的一种基于大规模粗粒度嵌入式可重构系统及其处理方法涉及到的可重构阵列配置信息说明。
表1
表2
表3
表4
图1为基于大规模粗粒度嵌入式可重构系统结构框图,如图1所示,本发明提出一种基于大规模粗粒度嵌入式可重构系统,其包括:嵌入式微处理器,如以ARM作为嵌入式微处理器,可重构处理器,如以颗粒度为16bit的可重构处理器作为协处理器,还包括重构控制器、直接存储器访问控制器和中断控制器。
其中,可重构处理器内部包括4个可重构阵列、1个片上数据传输单元、4个可重构阵列配置寄存器堆、1个片上数据传输单元配置寄存器堆,如图2所示。其中4个可重构阵列用来加速矩阵计算,提高计算并行度;4个可重构阵列间通过一个共享的片上存储单元结构实现运算过程中中间结果的存储和传递;可重构阵列配置寄存器堆的编号为可重构阵列配置寄存器堆#0~#3,分别用于对应可重构阵列#0~#3的功能配置;片上数据传输单元配置寄存器堆用于片上数据传输单元的功能配置;配置信息访问接口与重构控制器进行交互,接收配置信息;外存访问接口与数据存储器进行交互,接收外部信息。
其中,可重构阵列包括1个除法阵列、1个基本运算阵列、一个倒三角累加阵列,如图3所示。除法阵列包含的8个除法器为流水关系,显著提高除法运算效率;基本运算阵列包含的6*8个基本运算单元可实现乘法运算、移位加减法、逻辑运算;倒三角累加阵列分成5行,第一行有8个加法器,第二行有4个加法器,第三行有2个加法器,第四行有1个加法器,第五行有1个累加器,显著提高累加效率;除法阵列与基本运算阵列间通过两组寄存器分两个周期节拍完成两个阵列间的数据传递;乘加阵列最后两行的基本运算单元与倒三角累加阵列直接相连,完成这两个阵列间的数据传递;基本运算阵列中的每个基本运算单元都附带一个寄存器,用于暂存下一步计算所需的数据。
整个系统的工作流程为,首先分析矩阵求逆,将其算法各步骤的运算转换成数据流图的形式;再根据数据流图确定的流程和矩阵求逆输入数据不断更新的特点,确定高阶矩阵求逆的数据输入方式;其次在明确数据流图和数据输入方式后,将高阶矩阵求逆算法映射到可重构处理器上;然后通过直接存储器访问控制器将配置信息以及所需用到的初始数据存入相应存储器中;随后对嵌入式处理器进行设置,启动重构控制器,将配置信息从配置总线发送到可重构处理器,控制可重构处理器任务的执行;最后当可重构处理器完成当前任务后,发送中断信号给嵌入式微处理器。
以对96阶矩阵进行求逆为例,计算流程为:
(1)将原矩阵A分成4块48阶矩阵,分别为A11、A12、A21、A22
(2)对A11进行LU分解,得到L11 -1、U11两个三角矩阵;
(3)对L11 -1、U11进行三角矩阵求逆运算,得到L11、U11 -1
(4)通过L11 -1*A12,A21*U11 -1两次矩阵乘法得到U12和L21
(5)对A22-L21*U12进行LU分解得到L22 -1、U22 -1两个三角矩阵;
(6)由分块矩阵公式,完成多次矩阵乘法运算得到A-1
对于LU分解,我们使用高斯消元法对原矩阵A不断进行消元运算,将A矩阵变换为三角矩阵U,变换过程中的消元因子构成三角矩阵L,由此得到L、U两个三角矩阵。求解过程中,由A矩阵第一列开始,逐列完成消元,消元公式为aij (k+1)=aij (k)-lik*akj (k)(k+1≤i≤n,k+1≤j≤n+1),lik=aik (k)/akk (k)。其中a为A矩阵中的元素,k为当前完成消元的列数,i为当前正在消元的列数,j为当前正在消元的行数。根据公式,可重构阵列先由除法阵列计算得到消元因子lik,然后基本运算单元先乘法运算(即lik*akj (k)),再执行减法运算即(aij (k)-lik*akj (k)),完成一次消元。由于可重构阵列中包含48个基本运算单元,所以1个可重构阵列计算一次能完成48次消元运算,4个阵列同时工作,逐列完成L、U矩阵的求解。
对于三角矩阵求逆,根据算法分析有公式:bij=-1/aii*(ai*bj),其中bij为求得的逆矩阵B中的元素,ai为原矩阵A中的第i行向量,bj为结果矩阵b中的第j列向量。计算顺序为矩阵B从对角线开始,逐斜行地求出逆矩阵B中的元素。在可重构阵列中,首先由基本运算阵列完成k次乘法运算,然后倒三角累加阵列完成累加运算,最后乘以当前行的对角线元素,所以一个可重构阵列计算一次便求得一个元素,即完成一次上述公式的计算,4个可重构阵列可以同时计算,充分利用并发执行的特点。
对于矩阵乘法,假设矩阵A乘以矩阵B得到矩阵C,公式为cji=ai×bj,其中ai表示A矩阵的第i个列向量,bj表示B矩阵中的第j个行向量。在可重构阵列中,首先由48个基本运算单元完成48次乘法,实现两个向量的对应元素相乘,然后由倒三角累加阵列完成这些结果的累加,得到结果矩阵C中的一个元素。所以一个可重构阵列计算一次便完成一次向量乘法运算,4个可重构阵列同时计算48*48/4次便完成了矩阵乘法的计算。
在矩阵求逆过程中,各步骤的计算都是对结果矩阵的不断更新,同时计算过程中可能会用到之前运算得到的结果。所以,对于可重构阵列的数据输入,我们采取4个可重构阵列共用一个共享存储单元单元的方法,同时将这个共享存储单元分成4块,每个可重构阵列对应一块,避免访问冲突,影响计算性能。
以上详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种等同变换,这些等同变换均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。

Claims (4)

1.一种基于大规模粗粒度嵌入式可重构系统,其包括:
系统总线、嵌入式微处理器、数据存储器、可重构处理器、重构控制器、中断控制器和直接存储器访问控制器;
可重构处理器,用于映射高阶矩阵求逆数据,其中,所述高阶矩阵求逆数据是根据数据流图确定的流程和矩阵求逆输入数据不断更新的特点确定的,而所述数据流图是根据分析矩阵求逆,将其算法各步骤的运算转换得到的;
直接存储器访问控制器,其将配置信息以及所需用到的初始数据存入相应数据存储器中;
嵌入式处理器,通过对其进行设置,启动所述重构控制器,将所述配置信息从所述配置总线发送到所述可重构处理器;
重构控制器,通过控制其任务的执行,当所述可重构处理器完成当前任务后,发送中断信号给所述嵌入式微处理器;
中断控制器,用于系统中各个功能部件之间的系统同步设置;
矩阵求逆可分为LU分解、三角矩阵求逆、矩阵相乘三个步骤,每个步骤都有对应的映射方式;N阶矩阵的LU分解采取高斯消元法,需要进行(1+2+…+(N-1))次消元运算,一次消元运算即除法阵列从向量a、b获得除数、被除数完成除法运算,二维乘加运算阵列将除法阵列得到的结果与向量a中每一个元素相乘,然后将得到的新向量与向量b相减,得到运算结果;N阶三角矩阵的求逆需要进行(1+2+…+(N-1))次运算,一次运算包括一次向量乘法运算和一次乘法预算,一次运算即二维乘加运算阵列将向量a、b的所有元素两两相乘,然后倒三角累加阵列完成累加计算并与当前行的对角线元素相乘,得到运算结果;N阶矩阵相乘需要完成N*N次向量乘法,一次向量乘法运算即二维乘加阵列将向量a、b的所有元素两两相乘,然后倒三角累加阵列完成累加计算,得到运算结果;
还包括可重构阵列,所述可重构阵列包括由8个除法器构成的1*8一维除法阵列,48个基本运算单元构成的6*8二维乘加基本运算阵列,其包括15个加法器、1个乘法器和1个累加器构成的倒三角累加阵列;除法阵列包含的8个除法器为流水关系;
所述基本运算阵列包含的6*8个基本运算单元可实现乘法运算、移位加减法和逻辑运算;其包括:分成6行的倒三角累加阵列,第一行有8个加法器,第二行有4个加法器,第三行有2个加法器,第四行有1个加法器,第五行有1个累加器,第六行有1个乘法器;所述除法阵列与所述基本运算阵列间通过两组寄存器分两个周期节拍完成两个阵列间的数据传递;所述基本运算阵列最后四行的基本运算单元与倒三角累加阵列直接相连,完成这两个阵列间的数据传递;所述基本运算阵列中的每个基本运算单元都附带一个寄存器,用于暂存下一步计算所需的数据。
2.如权利要求1所述的嵌入式可重构系统,其特征在于:所述可重构处理器由4个可重构阵列、1个片上数据传输单元、4个可重构阵列配置寄存器、1个片上数据传输单元配置寄存器堆、1个配置信息访问接口、1个外存访问接口构成;4个可重构阵列间通过一个共享的所述片上数据传输单元实现运算过程中中间结果的存储和传递;所述可重构阵列配置寄存器堆的编号为可重构阵列配置寄存器堆#0-#3,分别用于对应可重构阵列#0-#3的功能配置;所述片上数据传输单元配置寄存器堆用于片上数据传输单元的功能配置;配置信息访问接口与重构控制器进行交互,接收配置信息;外存访问接口与数据存储器进行交互,接收外部信息。
3.如权利要求2所述的嵌入式可重构系统,其特征在于:所述片上数据传输单元包括4个共享存储单元,1个外存访问接口和1个控制模块;其中,所述共享存储单元用于存储所述4个可重构阵列计算时共同使用到的数据;所述外存访问接口用于实现共用存储模块与外部存储器之间的数据交互;所述控制模块用于控制所述4个可重构阵列对所述4个共享存储单元的读写,以及所述外存访问接口对所述外部存储器的访问。
4.一种根据权利要求1所述的基于大规模粗粒度嵌入式可重构系统的处理方法,其包括以下步骤:
1)分析矩阵求逆,将其算法各步骤的运算转换成数据流图的形式,其中,所述矩阵求逆可分为LU分解、三角矩阵求逆、矩阵相乘三个步骤,每个步骤都有对应的映射方式;N阶矩阵的LU分解采取高斯消元法,需要进行(1+2+…+(N-1))次消元运算,一次消元运算即除法阵列从向量a、b获得除数、被除数完成除法运算,二维乘加运算阵列将除法阵列得到的结果与向量a中每一个元素相乘,然后将得到的新向量与向量b相减,得到运算结果;N阶三角矩阵的求逆需要进行(1+2+…+(N-1))次运算,一次运算包括一次向量乘法运算和一次乘法预算,一次运算即二维乘加运算阵列将向量a、b的所有元素两两相乘,然后倒三角累加阵列完成累加计算并与当前行的对角线元素相乘,得到运算结果;N阶矩阵相乘需要完成N*N次向量乘法,一次向量乘法运算即二维乘加阵列将向量a、b的所有元素两两相乘,然后倒三角累加阵列完成累加计算,得到运算结果;
2)根据数据流图确定的流程和矩阵求逆输入数据不断更新的特点,确定高阶矩阵求逆的数据输入方式;
3)在明确数据流图和数据输入方式后,将高阶矩阵求逆算法映射到可重构处理器上;
4)通过直接存储器访问控制器将配置信息以及所需用到的初始数据存入相应存储器中;
5)最后对嵌入式微处理器进行设置,启动重构控制器,将配置信息从配置总线发送到可重构处理器,控制可重构处理器任务的执行;
6)当可重构处理器完成当前任务后,发送中断信号给嵌入式微处理器。
CN201410241289.6A 2014-05-30 2014-05-30 基于大规模粗粒度嵌入式可重构系统及其处理方法 Active CN103970720B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410241289.6A CN103970720B (zh) 2014-05-30 2014-05-30 基于大规模粗粒度嵌入式可重构系统及其处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410241289.6A CN103970720B (zh) 2014-05-30 2014-05-30 基于大规模粗粒度嵌入式可重构系统及其处理方法

Publications (2)

Publication Number Publication Date
CN103970720A CN103970720A (zh) 2014-08-06
CN103970720B true CN103970720B (zh) 2018-02-02

Family

ID=51240238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410241289.6A Active CN103970720B (zh) 2014-05-30 2014-05-30 基于大规模粗粒度嵌入式可重构系统及其处理方法

Country Status (1)

Country Link
CN (1) CN103970720B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636315B (zh) * 2015-02-06 2017-12-22 中国人民解放军国防科学技术大学 面向gpdsp的矩阵lu分解向量化计算的方法
CN105630735A (zh) * 2015-12-25 2016-06-01 南京大学 一种基于可重构计算阵列的协处理器
CN105790809B (zh) * 2016-02-24 2018-08-21 东南大学 面向mimo信道检测系统中粗粒度可重构阵列及路由结构
CN111857820B (zh) * 2016-04-26 2024-05-07 中科寒武纪科技股份有限公司 一种用于执行矩阵加/减运算的装置和方法
CN105955923A (zh) * 2016-04-27 2016-09-21 南京大学 一种可配置流水信号处理核的高效率控制器及控制方法
CN107368459B (zh) * 2017-06-24 2021-01-22 中国人民解放军信息工程大学 基于任意维数矩阵乘法的可重构计算结构的调度方法
CN107341133B (zh) * 2017-06-24 2021-01-22 中国人民解放军信息工程大学 基于任意维数矩阵lu分解的可重构计算结构的调度方法
CN107491416B (zh) * 2017-08-31 2020-10-23 中国人民解放军信息工程大学 适用于任意维数卷积需求的可重构计算结构及计算调度方法和装置
CN108595149B (zh) * 2018-04-28 2021-05-04 天津芯海创科技有限公司 可重构乘加运算装置
CN112395549B (zh) * 2020-11-12 2024-04-19 华中科技大学 一种用于矩阵乘法密集型算法的可重构矩阵乘法加速系统
CN112559442A (zh) * 2020-12-11 2021-03-26 清华大学无锡应用技术研究院 一种基于软件定义硬件的阵面数字信号处理系统
CN113055060B (zh) * 2021-03-08 2022-04-05 上海交通大学 面向大规模mimo信号检测的粗粒度可重构架构系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043761A (zh) * 2011-01-04 2011-05-04 东南大学 一种基于可重构技术的傅立叶变换的实现方法
CN103336877A (zh) * 2013-07-25 2013-10-02 哈尔滨工业大学 一种基于rvm动态可重构的卫星锂离子电池剩余寿命预测系统及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101730134B (zh) * 2008-11-03 2012-09-05 中兴通讯股份有限公司 一种适用于基带处理系统的矩阵分解方法及实现装置
KR101912427B1 (ko) * 2011-12-12 2018-10-29 삼성전자주식회사 재구성가능 프로세서 및 재구성가능 프로세서의 미니 코어
KR20130131789A (ko) * 2012-05-24 2013-12-04 삼성전자주식회사 미니코어 기반의 재구성 가능 프로세서 및 그 재구성 가능 프로세서를 이용한 유연한 다중 데이터 처리 방법
CN103532888B (zh) * 2012-07-02 2017-11-21 中兴通讯股份有限公司 数据处理装置以及消除干扰的方法
CN103631761B (zh) * 2012-08-29 2018-02-27 睿励科学仪器(上海)有限公司 并行处理架构进行矩阵运算并用于严格波耦合分析的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043761A (zh) * 2011-01-04 2011-05-04 东南大学 一种基于可重构技术的傅立叶变换的实现方法
CN103336877A (zh) * 2013-07-25 2013-10-02 哈尔滨工业大学 一种基于rvm动态可重构的卫星锂离子电池剩余寿命预测系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于FPGA的矩阵运算实现;林皓;《中国优秀硕士学位论文全文数据库 信息科技辑》;20080215(第2期);正文第6-9、41页 *
基于粗粒度可重构架构的并行FFT算法实现;曹鹏等;《东南大学学报(自然科学版)》;20131120;第43卷(第6期);正文第1节,图1-2 *

Also Published As

Publication number Publication date
CN103970720A (zh) 2014-08-06

Similar Documents

Publication Publication Date Title
CN103970720B (zh) 基于大规模粗粒度嵌入式可重构系统及其处理方法
CN108805266B (zh) 一种可重构cnn高并发卷积加速器
CN103984560B (zh) 基于大规模粗粒度嵌入式可重构系统及其处理方法
CN104915322B (zh) 一种卷积神经网络硬件加速方法
CN103955447B (zh) 基于dsp芯片的fft加速器
CN107807819A (zh) 一种支持离散数据表示的用于执行人工神经网络正向运算的装置及方法
CN112612521A (zh) 一种用于执行矩阵乘运算的装置和方法
CN101847137B (zh) 一种实现基2fft计算的fft处理器
CN115880132B (zh) 图形处理器、矩阵乘法任务处理方法、装置及存储介质
EP4318275A1 (en) Matrix multiplier and method for controlling matrix multiplier
CN111723336B (zh) 一种采用循环迭代方式的基于cholesky分解的任意阶矩阵求逆硬件加速系统
CN102495721A (zh) 一种支持fft加速的simd向量处理器
CN103984677A (zh) 基于大规模粗粒度嵌入式可重构系统及其处理方法
CN106933777B (zh) 基于国产申威26010处理器的基2一维fft的高性能实现方法
CN107957977A (zh) 一种计算方法及相关产品
CN103034621B (zh) 基2×k并行fft架构的地址映射方法及系统
Cho et al. FARNN: FPGA-GPU hybrid acceleration platform for recurrent neural networks
CN104679670A (zh) 一种面向fft和fir的共享数据缓存结构及管理方法
CN101561797A (zh) 在处理系统上对矩阵进行奇异值、特征值分解的方法和装置
CN102799564A (zh) 基于多核dsp平台的fft并行方法
CN102541813B (zh) 一种多粒度并行fft蝶形计算的方法及相应的装置
CN108108189A (zh) 一种计算方法及相关产品
CN102129419A (zh) 基于快速傅立叶变换的处理器
CN109460535A (zh) 一种基于云的有限域矩阵求逆装置及求逆方法
CN110096672A (zh) 基于fpga的低成本流水线型fft处理器实现方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent for invention or patent application
CB03 Change of inventor or designer information

Inventor after: Liu Bo

Inventor after: Yuan Hang

Inventor after: Wang Xing

Inventor after: Zhu Wanyu

Inventor after: Liu Yang

Inventor after: Cao Peng

Inventor after: Yang Jinjiang

Inventor after: Wang Ruihe

Inventor after: Yang Miaomiao

Inventor after: Liu Leibo

Inventor after: Wei Shaojun

Inventor before: Liu Bo

Inventor before: Zhu Wanyu

Inventor before: Liu Yang

Inventor before: Cao Peng

Inventor before: Wang Ruihe

Inventor before: Yang Miaomiao

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: LIU BO ZHU WANYU LIU YANG CAO PENG WANG RUIHE YANG MIAOMIAO TO: LIU BO ZHU WANYU LIU YANG CAO PENG YANG JINJIANG WANG RUIHE YANG MIAOMIAO LIU LEIBO WEI SHAOJUN YUAN HANG WANG XING

GR01 Patent grant
GR01 Patent grant