CN101533387A - 基于fpga的边角块稀疏矩阵并行lu分解器 - Google Patents

基于fpga的边角块稀疏矩阵并行lu分解器 Download PDF

Info

Publication number
CN101533387A
CN101533387A CN200910022192A CN200910022192A CN101533387A CN 101533387 A CN101533387 A CN 101533387A CN 200910022192 A CN200910022192 A CN 200910022192A CN 200910022192 A CN200910022192 A CN 200910022192A CN 101533387 A CN101533387 A CN 101533387A
Authority
CN
China
Prior art keywords
parallel
data
matrix
module
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910022192A
Other languages
English (en)
Inventor
石光明
王亚南
李甫
张犁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN200910022192A priority Critical patent/CN101533387A/zh
Publication of CN101533387A publication Critical patent/CN101533387A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明针对边角块稀疏矩阵能够进行并行计算的特点,提供了一种基于FPGA的边角块稀疏矩阵并行LU分解器。它主要由模拟排序模块、符号分解模块和并行数值LU分解模块构成三层处理平台结构,该并行数值LU分解模块用于完成对矩阵数据进行并行LU分解,位于整个处理结构的末端;该符号分解模块用于标记矩阵中待修改元的位置,位于整个处理结构的中间端;该模拟排序算法模块用于确定矩阵的消去顺序,位于整个处理结构的最前端,所述的三个模块之间通过共用存储单元相连接。本发明具有实时并行LU分解边角块稀疏矩阵的优点,与使用并行计算机和分布式计算机相比能极大的节省开发成本,可应用于实时电子网络分析领域。

Description

基于FPGA的边角块稀疏矩阵并行LU分解器
技术领域
本发明属于数据处理技术领域,涉及并行LU分解器,适用于边角块稀疏矩阵(Bordered-Diagonal-Block)的并行LU分解。
背景技术
边角块稀疏矩阵广泛的应用于电子网络设计、电力系统优化设计、图论等科学技术和工程领域中。而稀疏线性方程组求解是许多科学技术领域的核心问题,如果需要在矩阵A不变的情况下,对不同的右端向量b多次求解,矩阵LU分解法将显著节省运算时间。并且矩阵LU分解法可以利用矩阵的稀疏性,大量地节省存储空间,因此这种方法适于解大型稀疏矩阵问题。
目前一些超级计算机和分布式计算机在该领域占据了主导地位,但它们高昂的价格和较长的开发周期,以及复杂的编程环境和较高的维护成本,一定程度上限制了它们在该领域的应用。目前数字信号处理领域中,使用器件的趋势是DSP(DigitalSignal Processor)和FPGA(Field Programmable Gate Array),专用DSP和通用DSP并举。DSP和FPGA在功能上不仅资源丰富,而且具有很大的编程灵活性。DSP在速度方面占有优势,但在某一时刻只能完成有限的任务,要想搭建并行处理结构必须使用多片DSP芯片,这样将大大增加系统开发成本和复杂度;高等级的FPGA的芯片虽然在速度上与DSP略有差距,但能实现并行结构,对同时可完成的任务几乎没有限制。因此选择可编程的逻辑器件进行数字信号处理是当今世界的发展趋势。而使用FPGA内部NIOS核编程的实现方式,其灵活性很大,但执行效率较低,执行速度较慢且稳定性较差。
发明内容
本发明的目的在于克服上述已有技术的不足,提供一种基于FPGA的边角块稀疏矩阵并行LU分解器,该分解器全部由硬件描述语言实现,以提升数据处理系统的运行速度和稳定性,提高数据的计算效率,节省开发成本。
为实现上述目的,本发明的并行LU分解器包括:模拟排序算法模块,用于确定边角块稀疏矩阵的消去顺序;符号分解模块,用于完成标记待修改元的位置;并行数值LU分解模块,用于完成对矩阵数据进行并行LU分解;所述的这三个模块之间通过共用存储单元相连接。
上述的并行LU分解器,其中符号分解模块位于模拟排序算法模块和并行数值LU分解模块之间,该三个模块均由硬件描述语言实现。
上述的并行LU分解器,其中并行数值LU分解模块由包括并行处理阵列和全局数据处理及通信控制单元组成,该并行处理阵列由n个并行的数据处理单元组成,n≥3:该全局数据处理及通信控制单元,分别与每个处理单元双向连接,实现与各个处理单元的数据通信和程序控制。
本发明具有如下优点:
(1)本发明由模拟排序算法模块、符号分解模块和并行数值LU分解模块三个模块组成,各个模块完成各自的任务,形成了一个通用的处理平台,可以在不改变各自模块硬件结构的情况下,在此平台上完成不同阶数边角块稀疏矩阵的LU分解,以及对称稀疏矩阵的排序及符号分解。
(2)本发明由于采用硬件描述语言的方式搭建并行处理结构,能够实现完全并行的高速信号处理,提高数据速度,并方便在其它公司的器件上进行移植。
(3)本发明的硬件描述语言是针对边角块稀疏矩阵LU分解领域,以FPGA为载体,开发出一套量身定做的算法处理结构,这种方式结合了分布式计算机体系结构,DSP芯片的可编程特性和FPGA的算法针对性及运算高速性的优点,可以最大限度的开发算法的并行性、运算单元的针对性和数据结构的特殊性,并具有系统参数和功能灵活可变、设计复杂程度适当、设计重复利用性好的优点,特别是采用FPGA可以相对容易地在单个芯片中集成多个处理单元,相比分布式计算机和并行计算机能大大降低系统成本。
附图说明
图1为本发明的整体结构框图;
图2为本发明的并行数值LU分解模块结构框图;
图3为本发明数值LU分解处理单元的结构框图。
具体实施方式
下面结合附图和实例对本发明进行详细说明。
参照图1,本发明基于FPGA实现边角块稀疏矩阵并行LU分解器。该分解器由模拟排序模块、符号分解模块和并行数值LU分解模块构成通用处理平台结构。其中:
模拟排序模块,作为整个系统数据的输入模块,为边角块稀疏矩阵的符号分解确定消去顺序并确定填入元的位置,位于整个器件的最前端;该模拟排序模块把原先按照自然顺序排列的原始数据进行了重新的组合。比如:一个四阶的边角块稀疏矩阵,原先是按照从第一行第一列的顺序依次向下的顺序进行消去,直到第四行第四列结束为止,经过模拟排序子模块后消去顺序可能会发生改变。比如:先消去第四行第四列,然后再按照自然顺序从第一行第一列开始消去。模拟排序模块还可以确定在矩阵元素消去过程中填入元的位置。比如:矩阵中一个零元在消去过程中变为了非零元,这个元素的位置也可以由该模块确定。
符号分解模块,位于整个器件的中间层,并通过公用存储单元与模拟排序模块和并行数值LU分解模块相连接。该符号分解模块用于确定稀疏矩阵中待修改元的位置,使真正的数值LU分解没有额外的查找,只进行必要的数值运算。比如:原先待修改的矩阵元素都是通过循环遍历的方式进行查找,而有些元素在消去过程中并不需要修改。经过符号分解模块处理后的,并且凡是被记录为待修改的元素都会被统一存放到一个专用RAM中去。因此该模块是为并行数值LU分解进行预处理工作。
并行数值LU分解模块,如图2所示,它作为整个分解器的核心处理模块,由全局数据处理及通信控制单元和n个并行的数据处理单元,n≥3组成。全局数据处理及通信控制单元分别与每个数据处理单元双向连接,实现与各个处理单元的数据交换和指令控制和状态读取。该并行数值LU分解模块构成LU分解阵列,形成“多通道处理”的并行算法结构,即将待处理的矩阵数据进行分块处理。每一个数据处理单元负责处理矩阵中的一个子块。由于该数据处理单元相当于一个专用的CPU,因此这些数据处理单元的内部电路结构完全一致,可以采用直接拷贝的方法生成。各个数据处理单元根据矩阵分块后的结构来选择所要处理的数据,前n-1个数据处理单元共同完成对矩阵的分解运算,最后一个数据处理单元待前n-1个数据处理单元完成分解运算后再开始运算。采用并行处理的方式可以提高系统的数据处理能力和数据吞吐率,提高系统的工作效率。
参照图3,本法明并行数值LU分解模块中的数据处理单元以FPGA为载体,是一种针对稀疏矩阵LU分解的专用处理结构,每一个数据处理单元均由数组指针RAM、原始数据RAM和浮点运算子单元组成。该数组指针RAM用来控制原始数据RAM的输入和输出地址,它包括矩阵元素的消去顺序索引RAM、列非零元首地址索引RAM、非零元行号索引RAM、非零元指针索引RAM。该原始数据RAM中包括对角线元素RAM、上三角元素RAM、下三角元素RAM。在设计中采用FPGA中的宏模块单元来完成,其中RAM的位宽需要根据数据的位宽来选择,RAM的存储深度根据输入数据的多少来选择。该浮点运算单元由浮点加法器、浮点乘法器、浮点除法器构成。其中浮点除法器用于求对角线上主元导数及完成主行元除以主元的运算;浮点乘法器和浮点加法器用于完成修改剩余矩阵元素的运算。在设计中采用FPGA的浮点运算宏模块,输入输出位宽与数据存储器中的数据位宽相同。
数据处理单元工作时,需要使用状态机对程序进行控制。按照LU分解处理算法主要涉及运算、控制和传输类操作。运算操作包括加、乘加、除法操作;控制和传输操作用来完成数据的存储和搬移、读取以及输出数据;程序控制类操作主要是控制状态机的有条件、无条件跳转、循环等操作。
本发明LU分解器件的工作原理如下:
模拟排序模块为符号分解模块确定矩阵的消去顺序和填入元的位置;符号分解模块为并行数值LU分解模块记录被修改元的位置,并将该修改元的位置信息分别写入到消去顺序索引、列非零元首地址索引、非零元行号索引和非零元指针索引。当写入数据结束之后,全局数据处理及通信控制单元会向前n-1个处理单元发出系统复位信号。前n-1个数据处理单元在接收到系统复位信号之后,在系统时钟信号的驱动下对输入数据进行处理,其处理过程为:首先将每个处理单元将要分解的矩阵维数用一个专用的寄存器进行存储,该寄存器内的数据也将作为状态机的循环计数器;然后根据链表指针RAM中的数据从对角元RAM中取出数据并送入除法运算单元进行求倒数的运算,运算结果用一个专用寄存器单元进行存储并将其送入浮点乘法单元,同时根据链表指针RAM读取上三角元RAM中的数据,并将该数据依次送入浮点乘法单元,这样就完成了主行元除以主元倒数的操作;接下来从链表指针RAM读取出主行非零元和主列非零元的个数并用专用寄存器进行存储,同时也作为修改剩余矩阵的循环计数器;最后依据链表指针从上三角矩阵元素和下三角矩阵元素中找到被修改元的位置,并送入浮点乘法器和加法器中进行修改。此外,在整个并行LU分解处理过程中,各个处理单元之间并不需要相互交换数据或者相互通信,它们只需要在并行数值LU分解模块中的全局数据处理及通信控制单元完成相应的处理。本发明中的每个数据处理单元都设置了专用的通信I/O,这通信I/O和一个全局数据处理和通信控制单元相连接,在此单元内完成数据处理单元中的数据交换和控制信号传递。这里的通信采用“握手”通信的方式,该方式由四步完成:第一步,由全局数据处理和通信控制单元发出通信请求,数据处理单元做出响应,全局数据处理和通信控制单元发出响应的控制信号,数据处理单元接收到该信号后开始进行数据运算。第二步是当数据处理完成后,数据处理单元将数据存入输出RAM中,并且发送状态信号给全局数据处理和通信控制单元,允许其读取输出结果寄存器RAM中的数据。读取过程中,全局数据处理和通信控制单元将输出结果存入它本身自带的存储单元中,并完成更新最后一个数据处理单元的工作。第三步,控制单元向最后一个数据处理单元发送请求通信要求,并将更新之后的数据和控制信号发送到最后一个数据处理单元。第四步与待最后一个数据处理单元处理结束之后,向全局数据处理和通信控制单元发送结束指令,整个分解工作完成。
利用本发明可以完成边角块稀疏矩阵的并行LU分解。通过调整内部寄存器的初始值设置,可以很方便的完成不同阶数稀疏矩阵的分解工作。由于整个处理系统的程序都是采用硬件描述语言方式实现,速度较NIOS核等高级语言实现的方式要快,稳定性也较高,而且易于封装成为专用的IP核,同时能大大降低系统的开发成本。

Claims (7)

1.一种基于FPGA的边角块稀疏矩阵并行LU分解器,包括:
模拟排序算法模块,用于确定边角块稀疏矩阵的消去顺序;
符号分解模块,用于完成标记待修改元的位置;
并行数值LU分解模块,用于完成对矩阵数据进行并行LU分解;
所述的这三个子模块之间通过共用存储单元相连接。
2.如权利要求1所述的并行LU分解器,其特征在于,符号分解模块位于模拟排序算法模块和并行数值LU分解模块之间,该三个模块均由硬件描述语言实现。
3.如权利要求1所述的并行LU分解器,其特征在于:并行数值LU分解模块由包括并行处理阵列和全局数据处理及通信控制单元组成,该并行处理阵列由n个并行的数据处理单元组成,n≥3;该全局数据处理及通信控制单元,分别与每个处理单元双向连接,实现与各个处理单元的数据通信和程序控制。
4.如权利要求3所述的并行LU分解器,其特征在于:数据处理单元主要由用于存储矩阵数组元素及链表指针的双端口RAM,以及用于完成对RAM中的数据处理浮点运算单元和用于完成程序流程控制的状态机构成。
5.如权利要求4所述的并行LU分解器,其特征在于:双端口RAM中包括:
矩阵元素的消去顺序索引,用于标记矩阵的消去顺序;
列非零元首地址索引,用于标记每一列第一个非零元的在链表中的位置;
非零元行号索引,用于标记非零元在稀疏矩阵中的行坐标;
非零元指针索引,用于连接每列中的非零元素;
对角线元素存储单元,用于存储稀疏矩阵的对角线上的元素;
上三角元素存储单元,用于存储稀疏矩阵的上三角中的非零元;
下三角元素存储单元,用于存储稀疏矩阵的下三角中的非零元。
6.如权利要求4所述的并行LU分解器,其特征在于,浮点运算单元包括:用于求主元导数运算的浮点除法器,以及用于完成修改剩余矩阵元素运算的浮点加法器和浮点乘法器。
7.如权利要求3所述的并行LU分解器,其特征在于:全局数据处理及通信控制单元包括浮点加法器、专用数据寄存器组、复位及准备就绪信号、双向数据传输接口,该双向数据传输接口用于接收前n-1个处理单元的数据并向最后一个处理单元发送数据;该复位及准备就绪信号用于向每个处理单元发送开始运算的指令并接收处理结束的指令;该浮点加法器用于完成更新最后一个处理单元数据的运算;该专用寄存器组用于存放待修改的最后一个处理单元的数据。
CN200910022192A 2009-04-24 2009-04-24 基于fpga的边角块稀疏矩阵并行lu分解器 Pending CN101533387A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910022192A CN101533387A (zh) 2009-04-24 2009-04-24 基于fpga的边角块稀疏矩阵并行lu分解器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910022192A CN101533387A (zh) 2009-04-24 2009-04-24 基于fpga的边角块稀疏矩阵并行lu分解器

Publications (1)

Publication Number Publication Date
CN101533387A true CN101533387A (zh) 2009-09-16

Family

ID=41103997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910022192A Pending CN101533387A (zh) 2009-04-24 2009-04-24 基于fpga的边角块稀疏矩阵并行lu分解器

Country Status (1)

Country Link
CN (1) CN101533387A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101847086A (zh) * 2010-05-14 2010-09-29 清华大学 一种基于循环雅克比的实对称阵特征分解装置
CN102141976A (zh) * 2011-01-10 2011-08-03 中国科学院软件研究所 稀疏矩阵的对角线数据存储方法及基于该方法的SpMV实现方法
CN102156777A (zh) * 2011-04-08 2011-08-17 清华大学 电路仿真时电路稀疏矩阵的基于消去图的并行分解方法
CN102426619A (zh) * 2011-10-31 2012-04-25 清华大学 针对电路仿真的自适应并行lu分解方法
CN102722470A (zh) * 2012-05-18 2012-10-10 大连理工大学 一种线性方程组的单机并行求解方法
CN103399841A (zh) * 2013-07-31 2013-11-20 清华大学 基于gpu的稀疏矩阵lu分解方法
CN104636315A (zh) * 2015-02-06 2015-05-20 中国人民解放军国防科学技术大学 面向gpdsp的矩阵lu分解向量化计算的方法
CN105373517A (zh) * 2015-11-09 2016-03-02 南京大学 基于Spark的分布式稠密矩阵求逆并行化运算方法
CN105593843A (zh) * 2013-08-30 2016-05-18 微软技术许可有限责任公司 稀疏矩阵数据结构
CN106301503A (zh) * 2016-11-17 2017-01-04 上海科技大学 一种大规模天线系统的信号传输方法
CN106998307A (zh) * 2017-06-01 2017-08-01 电子科技大学 一种用于大规模天线系统的盲信号检测及信道估计方法
CN110457648A (zh) * 2019-07-30 2019-11-15 暨南大学 一种用于lu分解的脉动阵列结构的实现方法
CN111052111A (zh) * 2017-09-14 2020-04-21 三菱电机株式会社 运算电路、运算方法以及程序
CN111222092A (zh) * 2018-11-26 2020-06-02 北京华航无线电测量研究所 一种基于fpga的矩阵特征分解方法
CN111427537A (zh) * 2020-03-17 2020-07-17 云南大学 一种基于fpga的脉动阵列并行排序方法及装置
CN111597782A (zh) * 2020-05-20 2020-08-28 比科奇微电子(杭州)有限公司 数据的排序处理方法及处理装置
CN111897262A (zh) * 2020-07-30 2020-11-06 电子科技大学 基于多块dsp的并行信号采集处理系统
CN112231630A (zh) * 2020-10-26 2021-01-15 国家超级计算无锡中心 基于fpga并行加速的稀疏矩阵求解方法
CN114996649A (zh) * 2022-05-09 2022-09-02 深圳市国微电子有限公司 一种矩阵分解和下三角矩阵求逆的实现方法

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101847086A (zh) * 2010-05-14 2010-09-29 清华大学 一种基于循环雅克比的实对称阵特征分解装置
CN101847086B (zh) * 2010-05-14 2012-10-10 清华大学 一种基于循环雅克比的实对称阵特征分解装置
CN102141976A (zh) * 2011-01-10 2011-08-03 中国科学院软件研究所 稀疏矩阵的对角线数据存储方法及基于该方法的SpMV实现方法
CN102141976B (zh) * 2011-01-10 2013-08-14 中国科学院软件研究所 稀疏矩阵的对角线数据存储方法及基于该方法的SpMV实现方法
CN102156777B (zh) * 2011-04-08 2016-05-25 清华大学 电路仿真时电路稀疏矩阵的基于消去图的并行分解方法
CN102156777A (zh) * 2011-04-08 2011-08-17 清华大学 电路仿真时电路稀疏矩阵的基于消去图的并行分解方法
CN102426619B (zh) * 2011-10-31 2013-07-03 清华大学 针对电路仿真的自适应并行lu分解方法
CN102426619A (zh) * 2011-10-31 2012-04-25 清华大学 针对电路仿真的自适应并行lu分解方法
CN102722470A (zh) * 2012-05-18 2012-10-10 大连理工大学 一种线性方程组的单机并行求解方法
CN102722470B (zh) * 2012-05-18 2015-04-22 大连理工大学 一种线性方程组的单机并行求解方法
CN103399841A (zh) * 2013-07-31 2013-11-20 清华大学 基于gpu的稀疏矩阵lu分解方法
CN105593843B (zh) * 2013-08-30 2018-11-16 微软技术许可有限责任公司 稀疏矩阵数据结构
CN105593843A (zh) * 2013-08-30 2016-05-18 微软技术许可有限责任公司 稀疏矩阵数据结构
CN104636315B (zh) * 2015-02-06 2017-12-22 中国人民解放军国防科学技术大学 面向gpdsp的矩阵lu分解向量化计算的方法
CN104636315A (zh) * 2015-02-06 2015-05-20 中国人民解放军国防科学技术大学 面向gpdsp的矩阵lu分解向量化计算的方法
CN105373517A (zh) * 2015-11-09 2016-03-02 南京大学 基于Spark的分布式稠密矩阵求逆并行化运算方法
CN106301503B (zh) * 2016-11-17 2019-10-25 上海科技大学 一种大规模天线系统的信号传输方法
CN106301503A (zh) * 2016-11-17 2017-01-04 上海科技大学 一种大规模天线系统的信号传输方法
CN106998307A (zh) * 2017-06-01 2017-08-01 电子科技大学 一种用于大规模天线系统的盲信号检测及信道估计方法
CN111052111A (zh) * 2017-09-14 2020-04-21 三菱电机株式会社 运算电路、运算方法以及程序
CN111222092A (zh) * 2018-11-26 2020-06-02 北京华航无线电测量研究所 一种基于fpga的矩阵特征分解方法
CN111222092B (zh) * 2018-11-26 2023-06-13 北京华航无线电测量研究所 一种基于fpga的矩阵特征分解方法
CN110457648B (zh) * 2019-07-30 2023-02-03 暨南大学 一种用于lu分解的脉动阵列结构的实现方法
CN110457648A (zh) * 2019-07-30 2019-11-15 暨南大学 一种用于lu分解的脉动阵列结构的实现方法
CN111427537A (zh) * 2020-03-17 2020-07-17 云南大学 一种基于fpga的脉动阵列并行排序方法及装置
CN111597782A (zh) * 2020-05-20 2020-08-28 比科奇微电子(杭州)有限公司 数据的排序处理方法及处理装置
CN111597782B (zh) * 2020-05-20 2023-10-27 比科奇微电子(杭州)有限公司 数据的排序处理方法及处理装置
CN111897262A (zh) * 2020-07-30 2020-11-06 电子科技大学 基于多块dsp的并行信号采集处理系统
CN111897262B (zh) * 2020-07-30 2023-08-11 电子科技大学 基于多块dsp的并行信号采集处理系统的数据处理方法
CN112231630A (zh) * 2020-10-26 2021-01-15 国家超级计算无锡中心 基于fpga并行加速的稀疏矩阵求解方法
CN112231630B (zh) * 2020-10-26 2024-02-02 国家超级计算无锡中心 基于fpga并行加速的稀疏矩阵求解方法
CN114996649A (zh) * 2022-05-09 2022-09-02 深圳市国微电子有限公司 一种矩阵分解和下三角矩阵求逆的实现方法

Similar Documents

Publication Publication Date Title
CN101533387A (zh) 基于fpga的边角块稀疏矩阵并行lu分解器
CN104391820B (zh) 基于fpga的通用浮点矩阵处理器硬件结构
Ahn et al. PIM-enabled instructions: A low-overhead, locality-aware processing-in-memory architecture
CN111433758B (zh) 可编程运算与控制芯片、设计方法及其装置
CN103617150B (zh) 一种基于gpu的大规模电力系统潮流并行计算的系统及其方法
Pedram et al. Codesign tradeoffs for high-performance, low-power linear algebra architectures
CN110018850A (zh) 用于可配置空间加速器中的多播的设备、方法和系统
CN110231958A (zh) 一种矩阵乘向量运算方法及装置
US20080250227A1 (en) General Purpose Multiprocessor Programming Apparatus And Method
CN103810111B (zh) 有源存储器件中的地址生成的方法及其处理元件
Bu et al. A design methodology for fixed-size systolic arrays
CN101782893A (zh) 可重构数据处理平台
Sano et al. Scalable streaming-array of simple soft-processors for stencil computations with constant memory-bandwidth
Shan et al. FPGA and GPU implementation of large scale SpMV
CN103777923A (zh) Dma向量缓冲区
CN101504599A (zh) 适于数字信号处理应用的专用指令集微处理系统
CN117992396B (zh) 流式张量处理器
Yang et al. ISOSceles: Accelerating sparse CNNs through inter-layer pipelining
CN101211256A (zh) 一种专用双流水线risc指令系统及其操作方法
CN113901746B (zh) 一种用于向量代数的硬件加速器的设计方法
JP2009116813A (ja) 大規模計算用カスタムメイド計算機
US8539207B1 (en) Lattice-based computations on a parallel processor
Davis et al. Paradigmatic shifts for exascale supercomputing
CN116774968A (zh) 具有一组线程束的高效矩阵乘法和加法
WO2022139666A1 (en) A netwok on chip processing system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090916