CN101089840A - 基于多fpga的矩阵乘法并行计算系统 - Google Patents

基于多fpga的矩阵乘法并行计算系统 Download PDF

Info

Publication number
CN101089840A
CN101089840A CN 200710069953 CN200710069953A CN101089840A CN 101089840 A CN101089840 A CN 101089840A CN 200710069953 CN200710069953 CN 200710069953 CN 200710069953 A CN200710069953 A CN 200710069953A CN 101089840 A CN101089840 A CN 101089840A
Authority
CN
China
Prior art keywords
fpga
matrix
matrix multiplication
data
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200710069953
Other languages
English (en)
Other versions
CN100449522C (zh
Inventor
陈耀武
田翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CNB2007100699533A priority Critical patent/CN100449522C/zh
Publication of CN101089840A publication Critical patent/CN101089840A/zh
Application granted granted Critical
Publication of CN100449522C publication Critical patent/CN100449522C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Multi Processors (AREA)
  • Microcomputers (AREA)

Abstract

本发明公开了一种基于多FPGA的矩阵乘法并行计算系统,该系统使用FPGA作为处理单元来完成矩阵乘法计算。在FPGA内部使用乘法器或DSP48(E)单元实现大小为p×q的乘加器PE阵列,并在PE阵列前配置有数据预处理单元,使FPGA在完成稠密矩阵乘法计算的同时,对稀疏矩阵乘法计算性能有所提升。系统采用以太网或RapidIO互连技术,以星形连接拓扑结构组成主从分布式多FPGA并行计算系统。利用以太网和RapidIO的组播发送方式,对所有需要相同数据的处理单元进行数据组播发送,降低了系统的通信开销。系统采用基于按行一维划分输出矩阵的并行算法进行矩阵乘法并行计算,使得在进行多次矩阵连乘法计算时,中间结果无需在处理单元与主处理器之间、处理单元与处理单元之间进行数据交互,进一步降低了系统的通信开销。

Description

基于多FPGA的矩阵乘法并行计算系统
技术领域
本发明涉及FPGA技术及并行计算技术,具体来说是一种基于多FPGA的矩阵乘法并行计算系统。
背景技术
矩阵乘法操作是科学计算中的一个基本操作,在过程控制、图像处理、数字信号处理等领域广泛存在,并且通常为计算过程中最为耗时的关键操作。矩阵乘法计算的时间复杂性较高,通常为O(N3),其计算性能直接影响到系统的整体性能。
以前的矩阵乘法器通常采用通用处理器或数字信号处理器(DigitalSignal Processor,DSP)实现。通用处理器和DSP具有技术较为成熟、实现工具完善、编程简单等优点,但由于其内部结构的限制,在进行计算时经常会出现缓存扑空(Cache Miss)等现象,影响系统计算性能。基于通用处理器和DSP技术的设计通常持续计算性能只能维持在其峰值计算性能的10%~33%,无法取得很高的计算性能。
近年来FPGA技术取得了飞速发展,已经从最初只能面向纯逻辑替代的应用转变为能够面向复杂的计算密集型应用。最新推出的FPGA器件中,不仅集成有丰富的可配置逻辑块资源(Configurable Logic Block,CLB),还包括大量面向计算密集应用的DSP单元、块状RAM(BlockRAM,BRAM)和用于高速串行通信的RocketIO GTP收发器单元。同时为方便FPGA的调试,各FPGA厂商还推出了片内逻辑分析测试工具(如Xilinx公司的ChipScope),在软硬件上保证了在FPGA上实现高性能计算的可行性。
虽然单FPGA芯片已经取得了较高的计算性能,但受到半导体工艺的限制,器件的速度和性能不可能无限提高。而且由于高速器件的应用,也给系统的设计和可靠性带来了一系列的新问题,如功耗增大、信号完整性恶化、系统的电磁兼容性难以保证等。并行计算技术的引入则为克服单器件的性能限制、满足系统的高性能需求提供了很好的解决方案。为了在现有技术条件下进一步提高系统的计算性能,需要采用并行计算技术。
发明内容
本发明提供了一种基于多FPGA的主从分布式矩阵乘法并行计算系统,该系统可以兼顾稠密矩阵乘法和稀疏矩阵乘法,并对稀疏矩阵乘法计算性能有所提升,同时该系统具有较低的通信开销。
一种基于多FPGA的矩阵乘法并行计算系统,包括接入同一互联网络的主处理器和若干个FPGA处理单元。
所述的系统采用主从分布式结构。
所述的主处理器采用嵌入式处理器。
所述的主处理器包括数据发送模块、命令发送模块、响应接收模块、数据接收模块和互连网络控制器。
所述的FPGA处理单元包含有:
假定单FPGA内部可以实现p×q个PE(Processing Element,计算单元)单元,将其排列形成的p×q(p为行数,q为列数)的PE(ProcessingElement,计算单元)阵列(110),每个PE单元配有一个计算结果存储单元;
设于PE阵列前的数据预处理模块,用于对输入矩阵元素值进行分析,避免稀疏矩阵中0元素块参与乘加计算,提高稀疏矩阵乘法计算性能;
读FIFO、写FIFO,设于数据预处理模块与FPGA内部数据总线之间,用于提高PE阵列的计算时间与数据通信时间的重叠程度;
存储器控制器,用于扩展本地存储单元;
互连网络控制器,用于扩展互连网络接口;
控制逻辑单元,用于控制整个FPGA处理单元的数据流及互连网络协议栈的运行。
所述的计算单元PE采用FPGA内部DSP单元实现(包括V-II系列的18×18乘法器、V-4系列的DSP48单元和V-5系列的DSP48E单元)。
所述的计算单元PE采用按行一维划分输出矩阵的并行算法进行矩阵乘法计算,当进行多个矩阵连乘法计算时,由于中间计算结果无需在FPGA处理单元与主处理器之间进行交互,进一步降低了系统的通信开销。
所述的互联网络采用以太网或RapidIO互连技术,以太网和RapidIO互连技术支持组播发送方式,当多个FPGA处理单元需要相同数据时,采用组播发送方式将数据发送给所有这些FPGA处理单元,使系统具有较低通信开销。
所述的互联网络采用星形拓扑结构进行互联。
本发明优点为:系统可以兼顾稠密矩阵乘法和稀疏矩阵乘法,并对稀疏矩阵乘法计算性能有所提升,同时具有较低的通信开销,对系统硬件资源要求较低。
附图说明
图1为本发明系统的网络拓扑结构示意图;
图2为本发明系统的结构示意框图;
图3为本发明FPGA处理单元的内部结构示意框图;
图4为本发明PE阵列的工作流程图;
图5为本发明数据预处理模块的工作流程图;
图6为本发明采用基于按行一维划分输出矩阵并行算法进行多个矩阵连乘法计算的操作示意框图。
具体实施方式
如图1、2所示,一种基于多FPGA的采用主从分布式结构的矩阵乘法并行计算系统,以嵌入式处理器作为主处理器420,采用以太网或RapidIO互连技术,以星形互连拓扑结构,组成主从分布式多FPGA矩阵乘法并行计算系统。以太网和RapidIO互连技术支持组播发送方式,当多个处理单元410需要相同数据时,主处理器420通过以太网交换器或RapidIO交换器430,采用组播发送方式,将数据发送给所有这些处理单元。相对其它点对点互连技术,如PCI-e,该系统具有较低的通信开销。
主处理器420包括数据发送模块510、命令发送模块520、响应接收模块530和数据接收模块540。通过这些模块,主处理器420完成对P个FPGA处理单元任务的分配、数据和命令发送及响应和结果的接收,而各个FPGA处理单元则负责对分配的子矩阵块进行计算。
如图3所示,各FPGA处理单元410包含有:
假定单FPGA内部可以实现p×q个PE(Processing Element,计算单元)单元111,将其排列形成的p×q(p为行数,q为列数)的PE(ProcessingElement,计算单元)阵列110,用于对输入数据进行乘加计算操作,乘加器PE单元111采用FPGA内部DSP单元实现(包括V-II系列的18×18乘法器、V-4系列的DSP48单元和V-5系列的DSP48E单元)。
每个计算单元PE 111配有一个计算结果存储单元112,用于存储计算结果;
设于PE阵列110前的数据预处理模块120,用于对输入矩阵元素的值进行分析,当读入的p个被乘数矩阵的元素全部为0或q个乘数矩阵元素全部为0时,将本次读入元素排除在矩阵乘法计算之外。通过避免稀疏矩阵中的0元素块参与乘加计算,提高了稀疏矩阵乘法计算的性能;
读FIFO130、写FIFO140,设于数据预处理模块120与FPGA内部数据总线之间,用于提高PE阵列110的计算时间与数据通信时间的重叠程度,以提高PE阵列110的效率;
存储器控制器160,用于扩展本地存储单元,对输入输出数据进行本地缓存;
互连网络控制器150,用于扩展互连网络接口,与主处理器420通讯。
控制逻辑单元170,用于控制整个FPGA处理单元的数据流及互连网络协议栈的运行。
其中,PE阵列110的工作过程如图4所示,复位后PE阵列110处于空闲状态,当接收到“开始计算”的命令后,PE阵列110对内部变量进行初始化,将中间结果存储单元清零,并根据接收到的参数设置本次乘加计算的长度(即矩阵A的列数);初始化完成后,PE阵列110便可以在每个工作周期内接收P个矩阵A的元素和P个矩阵B的元素进行乘加计算,直至完成P2个矩阵C的元素的计算。PE阵列110还配置有“终止计算”命令,在需要时可通过该命令强制终止PE阵列110的计算。在计算完成或被终止后,本次计算的结果将被写入PE阵列110的结果存储单元Cxy,同时PE阵列110回复到空闲状态。
数据预处理模块120的工作过程如图5所示。复位结束后,数据预处理模块120首先处于空闲状态。当接收到“开始计算”命令时,数据预处理模块120根据输入的参数来初始化内部变量,如矩阵A的行数和列数、矩阵B的列数等。完成初始化后,数据预处理模块开始进行数据的读取与分析工作,并将需要计算的数据排入PE阵列110计算队列。完成所有数据的读取分析后,如果没有计算被跳过,数据预处理模块可以直接等待PE阵列110计算结束;如果有无效计算被跳过,会出现PE阵列110接收到的计算次数参数与实际需要的计算次数不同的情况,此时需要该数据预处理模块向PE阵列110发送“终止计算”命令强制结束PE阵列110的计算后,再进入等待计算结束状态。当PE阵列110计算完成后,数据预处理模块120便回复到空闲状态。
整个并行计算系统采用基于按行一维划分输出矩阵的并行算法进行矩阵乘法计算,其算法示意如图6(a)所示。对于在包含P个FPGA处理单元410的并行计算系统中进行的两个大小为N×N的矩阵乘法计算,每个FPGA处理单元410需要得到被乘数矩阵的
Figure A20071006995300081
行元素和整个乘数矩阵的元素,以完成结果矩阵的一个大小为
Figure A20071006995300082
的子矩阵块。当进行多次矩阵连乘法计算时,该算法无需在主处理器420与FPGA处理单元410之间进行中间结果的交互,从而整个系统具有较低的通信开销。以两次矩阵连乘法计算Z=A×B×C为例,假定A、B、C和Z分别为N×M、M×M、M×N和N×N矩阵,并令X=A×B,则其在并行系统中的计算步骤为:
1)主处理器420分别为每个FPGA处理单元410按行分配矩阵A的
Figure A20071006995300083
个元素,并将整个矩阵B通过互连网络交换机430以组播发送方式发送给所有FPGA处理单元410。每个FPGA处理单元410在接收到数据后,使用各自内部PE阵列110来计算矩阵X的一个大小为
Figure A20071006995300084
的子矩阵块。
2)在各个FPGA处理单元410计算矩阵X的同时,主处理器420通过组播发送方式将整个矩阵C发送给所有FPGA处理单元410。各FPGA处理单元在完成矩阵X的计算后,直接利用本地计算结果与矩阵C的元素,使用各自内部PE阵列110计算出矩阵Z的一个大小为
Figure A20071006995300085
的子块。各FPGA处理单元410完成计算后将各自计算结果发送回主处理器420,完成矩阵连乘法计算。图6(b)为P=3,M=4,N=6时两次矩阵连乘法计算过程的示意。
由计算过程可以看出,各个FPGA处理单元410产生的中间结果均可在本地复用,而无需与其它任何单元进行交互,降低了系统的通信开销。

Claims (9)

1.一种基于多FPGA的矩阵乘法并行计算系统,其特征在于包括接入同一互联网络的主处理器(420)和若干个FPGA处理单元(410)。
2.如权利要求1所述的系统,其特征在于:所述的系统采用主从分布式结构。
3.如权利要求1所述的系统,其特征在于:所述的主处理器(420)采用嵌入式处理器。
4.如权利要求1所述的系统,其特征在于:所述的主处理器(420)包括数据发送模块(510)、命令发送模块(520)、响应接收模块(530)、数据接收模块(540)和互连网络控制器。
5.如权利要求1所述的系统,其特征在于:所述的FPGA处理单元(410)包含有:
由p行×q列个计算单元PE(11 1)排列形成的p行×q列个PE阵列(110),每个PE单元(111)配有一个计算结果存储单元(112);
设于PE阵列(110)前的数据预处理模块(120),用于对输入矩阵元素值进行分析,避免稀疏矩阵中0元素块参与乘加计算,提高稀疏矩阵乘法计算性能;
读FIFO(130)、写FIFO(140),设于数据预处理模块(120)与FPGA内部数据总线之间,用于提高PE阵列(110)的计算时间与数据通信时间的重叠程度;
存储器控制器(160),用于扩展本地存储单元;
互连网络控制器(150),用于扩展互连网络接口;
控制逻辑单元(170),用于控制整个FPGA处理单元的数据流及互连网络协议栈的运行。
6.如权利要求4所述的系统,其特征在于:所述的计算单元PE(111)采用FPGA内部DSP单元实现。
7.如权利要求5所述的系统,其特征在于:所述的计算单元PE(111)采用按行一维划分输出矩阵的并行算法进行矩阵乘法计算。
8.如权利要求1所述系统,其特征在于:所述的互联网络采用以太网或RapidIO互连技术,以太网和RapidIO互连技术支持组播发送方式。
9.如权利要求1所述系统,其特征在于:所述的互联网络采用星形拓扑结构进行互联。
CNB2007100699533A 2007-07-12 2007-07-12 基于多fpga的矩阵乘法并行计算系统 Expired - Fee Related CN100449522C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2007100699533A CN100449522C (zh) 2007-07-12 2007-07-12 基于多fpga的矩阵乘法并行计算系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2007100699533A CN100449522C (zh) 2007-07-12 2007-07-12 基于多fpga的矩阵乘法并行计算系统

Publications (2)

Publication Number Publication Date
CN101089840A true CN101089840A (zh) 2007-12-19
CN100449522C CN100449522C (zh) 2009-01-07

Family

ID=38943201

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007100699533A Expired - Fee Related CN100449522C (zh) 2007-07-12 2007-07-12 基于多fpga的矩阵乘法并行计算系统

Country Status (1)

Country Link
CN (1) CN100449522C (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033854A (zh) * 2010-12-17 2011-04-27 中国科学院软件研究所 针对稀疏矩阵的数据存储方法及基于该方法的SpMV实现方法
CN102411558A (zh) * 2011-10-31 2012-04-11 中国人民解放军国防科学技术大学 面向向量处理器的大矩阵相乘的向量化实现方法
CN102541814A (zh) * 2010-12-27 2012-07-04 北京国睿中数科技股份有限公司 用于数据通信处理器的矩阵计算装置和方法
CN101616175B (zh) * 2009-07-24 2013-01-09 中国科学院上海技术物理研究所 用于分布式多dsp系统的网络拓扑结构获取方法和装置
CN103345458A (zh) * 2013-06-24 2013-10-09 北京工业大学 一种面向高性能计算的多fpga互联结构及逻辑划分方法
CN104391820A (zh) * 2014-11-25 2015-03-04 清华大学 基于fpga的通用浮点矩阵处理器硬件结构
CN104462023A (zh) * 2014-12-31 2015-03-25 合一网络技术(北京)有限公司 基于mapreduce框架的超大规模稀疏矩阵乘法运算的方法
CN105045565A (zh) * 2015-07-14 2015-11-11 郑州航空工业管理学院 适合分布式并行计算的PBiCOR方法
CN105045566A (zh) * 2015-08-13 2015-11-11 山东华宇航天空间技术有限公司 一种嵌入式并行计算系统及采用其的并行计算方法
CN105530195A (zh) * 2014-10-21 2016-04-27 思科技术公司 用于确定性以太网的稀疏图码调度
CN105589677A (zh) * 2014-11-17 2016-05-18 沈阳高精数控智能技术股份有限公司 一种基于fpga的脉动结构矩阵乘法器及其实现方法
CN106027424A (zh) * 2016-05-23 2016-10-12 上海电控研究所 基于RapidIO交换技术的以太网交换装置
CN106230738A (zh) * 2016-07-26 2016-12-14 中国电子科技集团公司第十研究所 块发送通信网络数据的传输方法
CN106250349A (zh) * 2016-08-08 2016-12-21 浪潮(北京)电子信息产业有限公司 一种高能效异构计算系统
CN106980600A (zh) * 2016-01-18 2017-07-25 普天信息技术有限公司 一种lte接收系统中fpga处理复数矩阵乘法的方法及系统
CN107015762A (zh) * 2015-11-13 2017-08-04 Hgst荷兰公司 用于科学计算的存储处理器阵列
CN107111662A (zh) * 2015-02-15 2017-08-29 华为技术有限公司 用于处理数据的系统、装置和方法
CN107168683A (zh) * 2017-05-05 2017-09-15 中国科学院软件研究所 国产申威26010众核cpu上gemm稠密矩阵乘高性能实现方法
CN107368459A (zh) * 2017-06-24 2017-11-21 中国人民解放军信息工程大学 基于任意维数矩阵乘法的可重构计算结构的调度方法
JP2021508125A (ja) * 2017-12-29 2021-02-25 ホアウェイ・テクノロジーズ・カンパニー・リミテッド 行列乗算器
CN112992248A (zh) * 2021-03-12 2021-06-18 西安交通大学深圳研究院 一种基于fifo的可变长循环移位寄存器的pe计算单元结构

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9558156B1 (en) 2015-11-24 2017-01-31 International Business Machines Corporation Sparse matrix multiplication using a single field programmable gate array module

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100416250B1 (ko) * 2001-02-05 2004-01-24 삼성전자주식회사 시분할 방식의 행렬연산기
CN1682214A (zh) * 2003-03-07 2005-10-12 松下电器产业株式会社 矩阵运算装置
CN1567200A (zh) * 2003-06-17 2005-01-19 中国科学院长春应用化学研究所 奇异值分解最小二乘法软件

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101616175B (zh) * 2009-07-24 2013-01-09 中国科学院上海技术物理研究所 用于分布式多dsp系统的网络拓扑结构获取方法和装置
CN102033854A (zh) * 2010-12-17 2011-04-27 中国科学院软件研究所 针对稀疏矩阵的数据存储方法及基于该方法的SpMV实现方法
CN102541814A (zh) * 2010-12-27 2012-07-04 北京国睿中数科技股份有限公司 用于数据通信处理器的矩阵计算装置和方法
CN102541814B (zh) * 2010-12-27 2015-10-14 北京国睿中数科技股份有限公司 用于数据通信处理器的矩阵计算装置和方法
CN102411558A (zh) * 2011-10-31 2012-04-11 中国人民解放军国防科学技术大学 面向向量处理器的大矩阵相乘的向量化实现方法
CN102411558B (zh) * 2011-10-31 2015-05-13 中国人民解放军国防科学技术大学 面向向量处理器的大矩阵相乘的向量化实现方法
CN103345458A (zh) * 2013-06-24 2013-10-09 北京工业大学 一种面向高性能计算的多fpga互联结构及逻辑划分方法
CN105530195A (zh) * 2014-10-21 2016-04-27 思科技术公司 用于确定性以太网的稀疏图码调度
CN105530195B (zh) * 2014-10-21 2019-04-05 思科技术公司 用于确定性以太网的稀疏图码调度的方法和设备
CN105589677A (zh) * 2014-11-17 2016-05-18 沈阳高精数控智能技术股份有限公司 一种基于fpga的脉动结构矩阵乘法器及其实现方法
CN104391820B (zh) * 2014-11-25 2017-06-23 清华大学 基于fpga的通用浮点矩阵处理器硬件结构
CN104391820A (zh) * 2014-11-25 2015-03-04 清华大学 基于fpga的通用浮点矩阵处理器硬件结构
CN104462023A (zh) * 2014-12-31 2015-03-25 合一网络技术(北京)有限公司 基于mapreduce框架的超大规模稀疏矩阵乘法运算的方法
CN104462023B (zh) * 2014-12-31 2017-07-21 合一网络技术(北京)有限公司 基于mapreduce框架的超大规模稀疏矩阵乘法运算的方法
CN107111662B (zh) * 2015-02-15 2020-06-26 华为技术有限公司 用于处理数据的系统、装置和方法
CN107111662A (zh) * 2015-02-15 2017-08-29 华为技术有限公司 用于处理数据的系统、装置和方法
CN105045565A (zh) * 2015-07-14 2015-11-11 郑州航空工业管理学院 适合分布式并行计算的PBiCOR方法
CN105045566B (zh) * 2015-08-13 2018-11-20 山东华宇航天空间技术有限公司 一种嵌入式并行计算系统及采用其的并行计算方法
CN105045566A (zh) * 2015-08-13 2015-11-11 山东华宇航天空间技术有限公司 一种嵌入式并行计算系统及采用其的并行计算方法
CN107015762A (zh) * 2015-11-13 2017-08-04 Hgst荷兰公司 用于科学计算的存储处理器阵列
CN107015762B (zh) * 2015-11-13 2020-01-07 Hgst荷兰公司 用于科学计算的存储处理器阵列
CN106980600B (zh) * 2016-01-18 2019-09-06 普天信息技术有限公司 一种lte接收系统中fpga处理复数矩阵乘法的方法及系统
CN106980600A (zh) * 2016-01-18 2017-07-25 普天信息技术有限公司 一种lte接收系统中fpga处理复数矩阵乘法的方法及系统
CN106027424A (zh) * 2016-05-23 2016-10-12 上海电控研究所 基于RapidIO交换技术的以太网交换装置
CN106230738B (zh) * 2016-07-26 2019-03-19 中国电子科技集团公司第十研究所 块发送通信网络数据的传输方法
CN106230738A (zh) * 2016-07-26 2016-12-14 中国电子科技集团公司第十研究所 块发送通信网络数据的传输方法
CN106250349A (zh) * 2016-08-08 2016-12-21 浪潮(北京)电子信息产业有限公司 一种高能效异构计算系统
CN107168683A (zh) * 2017-05-05 2017-09-15 中国科学院软件研究所 国产申威26010众核cpu上gemm稠密矩阵乘高性能实现方法
CN107168683B (zh) * 2017-05-05 2020-06-09 中国科学院软件研究所 申威26010众核cpu上gemm稠密矩阵乘高性能实现方法
CN107368459B (zh) * 2017-06-24 2021-01-22 中国人民解放军信息工程大学 基于任意维数矩阵乘法的可重构计算结构的调度方法
CN107368459A (zh) * 2017-06-24 2017-11-21 中国人民解放军信息工程大学 基于任意维数矩阵乘法的可重构计算结构的调度方法
US11934481B2 (en) 2017-12-29 2024-03-19 Huawei Technologies Co., Ltd. Matrix multiplier
JP2021508125A (ja) * 2017-12-29 2021-02-25 ホアウェイ・テクノロジーズ・カンパニー・リミテッド 行列乗算器
US11334648B2 (en) 2017-12-29 2022-05-17 Huawei Technologies Co., Ltd. Matrix multiplier
CN112992248A (zh) * 2021-03-12 2021-06-18 西安交通大学深圳研究院 一种基于fifo的可变长循环移位寄存器的pe计算单元结构

Also Published As

Publication number Publication date
CN100449522C (zh) 2009-01-07

Similar Documents

Publication Publication Date Title
CN100449522C (zh) 基于多fpga的矩阵乘法并行计算系统
CN104899182A (zh) 一种支持可变分块的矩阵乘加速方法
TWI749249B (zh) 芯片裝置、芯片、智能設備以及神經網絡的運算方法
CN100465876C (zh) 基于单fpga的矩阵乘法器装置
CN111459877B (zh) 基于FPGA加速的Winograd YOLOv2目标检测模型方法
CN109447241B (zh) 一种面向物联网领域的动态可重构卷积神经网络加速器架构
CN110210610B (zh) 卷积计算加速器、卷积计算方法及卷积计算设备
CN108537331A (zh) 一种基于异步逻辑的可重构卷积神经网络加速电路
CN104820657A (zh) 一种基于嵌入式异构多核处理器上的核间通信方法及并行编程模型
CN102799563B (zh) 一种可重构计算阵列及构建方法
CN109670581B (zh) 一种计算装置及板卡
CN102508803A (zh) 一种矩阵转置存储控制器
CN111782580B (zh) 复杂计算装置、方法、人工智能芯片和电子设备
CN110163349A (zh) 一种网络模型的计算方法及装置
CN108647780B (zh) 面向神经网络的可重构池化操作模块结构及其实现方法
CN108494705A (zh) 一种网络报文高速处理系统和方法
CN112395549A (zh) 一种用于矩阵乘法密集型算法的可重构矩阵乘法加速系统
US20230128421A1 (en) Neural network accelerator
CN101694648B (zh) 傅里叶变换处理方法和装置
CN115756389A (zh) 一种基于fpga的浮点乘加器及计算方法
CN206258865U (zh) 一种可重构的信号处理器asic架构
CN103678202A (zh) 一种多核处理器的dma控制器
CN209784807U (zh) 一种基于fpga的综合能源系统实时仿真器模数接口
Oukaira et al. New architecture for real-time image computing using parallel processing based on DSP/FPGA
CN101453486A (zh) 基于多fpga的并行波束形成器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Assignee: Insigma Mechanical & Electrical Engineering Co.,Ltd.

Assignor: Zhejiang University

Contract fulfillment period: 2008.11.23 to 2013.11.22

Contract record no.: 2010330000115

Denomination of invention: Matrix multiplication parallel computing system based on multi-FPGA

Granted publication date: 20090107

License type: Exclusive license

Record date: 20100122

LIC Patent licence contract for exploitation submitted for record

Free format text: EXCLUSIVE LICENSE; TIME LIMIT OF IMPLEMENTING CONTACT: 2008.11.23 TO 2013.11.22; CHANGE OF CONTRACT

Name of requester: ZHEJIANG INSIGMA ELECTRICAL ENGINEERING CO., LTD.

Effective date: 20100122

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090107

Termination date: 20200712