CN110989970B - 一种双精度浮点矩阵运算处理器及方法 - Google Patents

一种双精度浮点矩阵运算处理器及方法 Download PDF

Info

Publication number
CN110989970B
CN110989970B CN201911181389.3A CN201911181389A CN110989970B CN 110989970 B CN110989970 B CN 110989970B CN 201911181389 A CN201911181389 A CN 201911181389A CN 110989970 B CN110989970 B CN 110989970B
Authority
CN
China
Prior art keywords
matrix
point
double
unit
floating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911181389.3A
Other languages
English (en)
Other versions
CN110989970A (zh
Inventor
邹四
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Haige Communication Group Inc Co
Original Assignee
Guangzhou Haige Communication Group Inc Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Haige Communication Group Inc Co filed Critical Guangzhou Haige Communication Group Inc Co
Priority to CN201911181389.3A priority Critical patent/CN110989970B/zh
Publication of CN110989970A publication Critical patent/CN110989970A/zh
Application granted granted Critical
Publication of CN110989970B publication Critical patent/CN110989970B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/483Computations with numbers represented by a non-linear combination of denominational numbers, e.g. rational numbers, logarithmic number system or floating-point numbers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Nonlinear Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Complex Calculations (AREA)
  • Advance Control (AREA)

Abstract

本发明公开的一种双精度浮点矩阵运算处理器,矩阵运算处理器包括控制单元接口单元、存储单元及浮点运算单元;控制单元根据运算模式进行选择,通过对浮点运算单元输入输出进行运算和存储控制;接口单元用于与嵌入式处理器交互,对嵌入式处理器发出指令进行响应并回馈状态,获取矩阵运算所需矩阵数据及放回矩阵运算结果至嵌入式处理器指定地址;存储单元包括若干个单口RAM,用于存储矩阵数据;浮点运算单元包括双精度浮点加法模块、双精度浮点乘法模块和双精度浮点倒数运算模块,用于进行矩阵数据运算;本发明采用并行双精度浮点运算提升矩阵运算速度;同时采用不同矩阵运算模式共享运算单元与存储单元,降低矩阵协处理面积与功耗。

Description

一种双精度浮点矩阵运算处理器及方法
技术领域
本发明涉及矩阵运算的研究领域,特别涉及一种双精度浮点矩阵运算处理器及方法。
背景技术
随着GPS、GLONASS、GALILEO与BDS的建设,导航接收机开始逐步由单系统单频点定位解算向多系统多频点融合解算发展,其中相关器的个数也由早期的十几个相关器通道提升至几百个,涉及信号处理与定位解算的矩阵运算维度与矩阵运算次数也在不断攀升。因此,如何降低处理器运算复杂度与运算量并快速实现多种矩阵运算,成为目前导航接收机尤其是高精度导航接收机需要解决的问题。
现有技术中,矩阵运算采用外界提供的软件封装库或自己编写代码实现,在嵌入式处理器中运行,如DSP芯片、ARM芯片等。存在以下问题:在嵌入式处理器中完成矩阵运算,由于FPU数目有限运算速度低、处理器占用率高,可能导致接收到的卫星信号失锁、无法实时完成信号处理与定位解算。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种双精度浮点矩阵运算处理器,只需嵌入式处理器在设置运算模式、矩阵维度与输入输出矩阵基地址等信息后,启动双精度浮点矩阵运算处理器,双精度浮点矩阵运算处理器将自行通过DMA方式传输输入矩阵数据进行运算,并将矩阵运算结果通过DMA方式返回嵌入式处理器,为嵌入式处理器节约了大量的双精度浮点运算时间,嵌入式处理器可将更多运算资源投入流程控制、资源调度,有效降低嵌入式处理器占用率高的问题,同时双精度浮点矩阵运算处理器采取多路双精度浮点运算模块方式进行运算加速,不受嵌入式处理器FPU数目有限运算速度低的限制。
本发明的另一目的在于提供一种双精度浮点矩阵运算处理方法。
本发明的目的通过以下的技术方案实现:
一种双精度浮点矩阵运算处理器,其特征在于,所述矩阵运算处理器包括控制单元和分别与控制单元连接的接口单元、存储单元及浮点运算单元;
所述控制单元根据运算模式进行选择,通过对浮点运算单元输入输出进行运算和存储的控制,完成不同矩阵运算;控制单元根据接口单元接收的指令,启动对应运算模式的控制模块,并连接浮点运算单元与存储单元的输入输出信号。在各运算控制模块内部,使用多个多路选择器连接浮点运算单元与存储单元的输入输出端口,通过控制浮点运算单元与存储单元的输入输出数据与时序,实现不同的运算模式。
所述接口单元通过外部总线连接嵌入式处理器,用于与嵌入式处理器交互,对嵌入式处理器发出指令进行响应并回馈状态,获取矩阵运算所需矩阵数据及放回矩阵运算结果至嵌入式处理器指定地址;
所述存储单元包括若干个单口RAM,用于存储矩阵数据;
所述浮点运算单元包括双精度浮点加法模块、双精度浮点乘法模块和双精度浮点倒数运算模块,用于进行矩阵数据运算。
进一步地,根据权利要求1所述的一种双精度浮点矩阵运算处理器,其特征在于,所述控制器的运算模式包括矩阵乘法运算模式、矩阵分解运算模式、矩阵求逆运算模式。
进一步地,所述接口单元通过DMA方式获取矩阵运算所需要的输入数据。
进一步地,所述存储单元由M个存储深度为K,数据位宽为64bit的单口RAM组成。
进一步地,所述RAM个数M根据并行度的提升而提升;所述存储深度K根据支持矩阵运算维度可扩展。
进一步地,所述浮点运算单元包括L个双精度浮点加法模块、N个双精度浮点乘法模块和P个双精度浮点倒数运算模块。矩阵乘法、矩阵LDLτ分解和矩阵求逆的绝大部分运算由双精度浮点乘法和双精度浮点加法组成,其中矩阵LDLτ分解和矩阵求逆还需进行少量的双精度浮点除法运算,为节约资源和运算时间,除法部分由倒数运算和乘法运算替代。因此,若需提升双精度浮点矩阵运算处理器的运行速度,需同步提升双精度浮点加法模块和双精度浮点乘法模块的数量,同时增加同等数量的存储模块。
进一步地,所述L≥2,N≥2,P≥1。
本发明的另一目的通过以下的技术方案实现:
一种双精度浮点矩阵运算方法,其特征在于,包括以下步骤:
根据矩阵运算模式的不同,嵌入式处理器设置相应的工作模式,并设置相应输入输出矩阵维度与各自内存基地址,启动矩阵运算处理器;
其中,当矩阵运算模式为矩阵乘法运算时,通过DMA传输第一矩阵至存储单元;根据工作模式的不同,传输相应的输入矩阵数据至存储单元;当工作模式为第一工作模式时,通过DMA传输第二矩阵的列向量至存储单元,否则传输第二矩阵的行向量至存储单元;第一矩阵与输入的第二矩阵向量进行矩阵乘法运算,将运算结果存储并传输至第三矩阵的内存空间,直至完成所有运算;当工作模式为第二工作模式时,运算结束,进入空闲状态,否则进入下一步;当工作模式为第三工作模式时,通过DMA传输第四矩阵至存储单元,否则传输第二矩阵至存储单元;通过DMA传输第三矩阵的行数据至存储单元,第二矩阵或第四矩阵与第三矩阵的行数据进行矩阵乘法运算,将运算结果存储并传输至第三矩阵的内存空间,直至所有运算完成,则运算结束,进入空闲状态;
当矩阵运算模式为矩阵分解运算时,通过DMA传输第一矩阵至存储单元;循环计算第一矩阵中数据并缓存至存储单元,完成第一工作模式分解运算;若工作模式为第一工作模式,通过DMA传输第二矩阵、第三矩阵至指定内存空间,否则计算第二矩阵逆矩阵,根据第二矩阵逆矩阵计算第一矩阵逆矩阵,通过DMA传输第一矩阵逆矩阵至指定内存空间;
当矩阵运算模式为矩阵求逆运算时,通过DMA传输第一矩阵至存储单元,读取第一矩阵中第i行第一个数据至第N行第一个数据,记录第i行至第N行中第一个数据为非零的行号,若为i,则无须动作,若不为i,则将对应行数据与第i行数据互换,若不存在,则上报矩阵无法求逆;对数据进行归一化处理,消除其他行对应的列,进行列变换,通过DMA传输第一矩阵逆矩阵至指定内存空间。
本发明与现有技术相比,具有如下优点和有益效果:
本发明采用DMA主动传输,无需嵌入式处理器介入,处理器计算资源占用极少;浮点运算采用并行双精度浮点运算提升矩阵运算速度;同时采用不同矩阵运算模式共享运算单元与存储单元,降低矩阵协处理面积与功耗;采用不同矩阵运算模式共享存储单元与浮点运算单元的模式,资源与面积占用小;可支持矩阵乘法、矩阵分解与矩阵求逆等多种运算模式,应用范围广泛;后续可通过修改控制单元增添其他矩阵运算模式,且可通过提升浮点运算单元并行度进一步提升运行速度,拥有较大的性能提升空间。
附图说明
图1为本发明所述一种双精度浮点矩阵运算处理器结构框图;
图2为本发明所述实施例中控制单元运算模式组成框图;
图3为本发明所述实施例中浮点运算单元组成结构框图;
图4为本发明所述实施例中矩阵乘法运算模式运算流程图;
图5为本发明所述实施例中矩阵分解运算模式运算流程图;
图6为本发明所述实施例中矩阵求逆运算模式初等变换求逆运算流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
一种双精度浮点矩阵运算处理器,如图1所示,所述矩阵运算处理器包括控制单元和分别与控制单元连接的接口单元、存储单元及浮点运算单元;
所述控制单元根据运算模式进行选择,通过对浮点运算单元输入输出进行运算和存储的控制,完成不同矩阵运算模式的运算功能;所述控制器的运算模式包括矩阵乘法运算模式、矩阵分解运算模式、矩阵求逆运算模式,如图2所示;控制单元根据接口单元接收的指令,启动对应运算模式的控制模块,并连接浮点运算单元与存储单元的输入输出信号。在各运算控制模块内部,使用多个多路选择器连接浮点运算单元与存储单元的输入输出端口,通过控制浮点运算单元与存储单元的输入输出数据与时序,实现不同的运算模式。
所述接口单元通过外部总线连接嵌入式处理器,用于与嵌入式处理器交互,对嵌入式处理器发出指令进行响应并回馈状态,通过DMA方式获取矩阵运算所需矩阵数据及放回矩阵运算结果至嵌入式处理器指定地址;
所述存储单元包括137个存储深度128、数据位宽64bit的单口RAM,用于存储矩阵数据,RAM个数可根据并行度的提升而提升,RAM存储深度可根据最大支持矩阵运算维度进行扩展;
所述浮点运算单元如图3所示,包括8个双精度浮点加法模块、8个双精度浮点乘法模块和1个双精度浮点倒数运算模块,用于进行矩阵数据运算。矩阵乘法、矩阵LDLτ分解和矩阵求逆的绝大部分运算由双精度浮点乘法和双精度浮点加法组成,其中矩阵LDLτ分解和矩阵求逆还需进行少量的双精度浮点除法运算,为节约资源和运算时间,除法部分由倒数运算和乘法运算替代。因此,若需提升双精度浮点矩阵运算处理器的运行速度,需同步提升双精度浮点加法模块和双精度浮点乘法模块的数量,同时增加同等数量的存储模块。
根据不同模式的运算过程如下:
矩阵乘法运算,如图4所示,对于AB、ABAτ、AτBA等常见的矩阵乘法运算,为节约存储资源带来的面积与功耗,对于ABAτ、AτBA采用分步骤计算的方式,第一步计算矩阵乘法AB、AτB,第二步计算矩阵乘法ABAτ、AτBA。此外,在矩阵乘法中,采用数据传输与矩阵运算同步进行的设计,降低传输时间对矩阵运算速度的影响。具体如下:
1)嵌入式处理器设置工作模式为AB、ABAτ或AτBA,设置输入输出矩阵维度与各自内存基地址,启动矩阵运算处理器;
2)DMA传输第一矩阵B至存储单元;
3)若工作模式为第一工作模式AτBA,则DMA传输第二矩阵A的列向量至存储单元,否则传输第二矩阵A的行向量至存储单元;
4)第一矩阵B与输入的第二矩阵A向量进行矩阵乘法运算;
5)存储并传输矩阵乘法运算结果至第三矩阵C的内存空间,若所有运算完毕,则进入下一步,否则重复步骤3)~5);
6)若工作模式为第二工作模式AB,运算结束,进入空闲状态,否则进入下一步;
7)若工作模式为第三工作模式ABAτ,则DMA传输第四矩阵Aτ至存储单元,否则传输第二矩阵A至存储单元;
8)DMA传输第三矩阵C的行数据至存储单元;
9)第二矩阵A或第四矩阵Aτ与第三矩阵C的行数据进行矩阵乘法运算;
10)存储并传输矩阵乘法运算结果至第三矩阵C的地址空间,若所有运算完毕,则运算结束,进入空闲状态;否则重复步骤8)~10)。
矩阵分解运算,如图5所示,针对正定矩阵的LDLτ分解及基于LDLτ分解的矩阵求逆,由于LDL分解部分共用,对其控制部分进行统一设计,根据模式选择是否求逆运算。正定矩阵的LDLτ分解表达式为A=LDLτ,其中:
Figure BDA0002291366680000051
Figure BDA0002291366680000061
其递推公式为:
λi,j=0(j>i),
λi,i=1(i=1,2,…,n),
Figure BDA0002291366680000062
Figure BDA0002291366680000063
Figure BDA0002291366680000064
需要进行基于LDLτ分解的求逆运算,在LDLτ分解的基础上计算L-1
Figure BDA0002291366680000065
其递推公式为:
ρi,i=1,
Figure BDA0002291366680000066
对于A-1,其计算公式为:
Figure BDA0002291366680000067
其中,
Figure BDA0002291366680000068
具体过程如下:
1)嵌入式处理器设置运算模式为LDLτ矩阵分解或LDLτ矩阵分解求逆,设置输入输出矩阵维度与各自内存基地址,启动矩阵运算处理器;
2)DMA传输第一矩阵A至存储单元;
Figure BDA0002291366680000071
3)循环计算x、λ、d、1/d并缓存至存储单元,完成LDLτ分解运算;
Figure BDA0002291366680000072
4)若运算模式为第一工作模式LDLτ矩阵分解,则DMA传输第二矩阵L、第三矩阵D至指定内存空间;否则计算第二矩阵逆矩阵L-1
Figure BDA0002291366680000073
5)根据第二矩阵逆矩阵L-1,计算第一矩阵逆矩阵A-1
Figure BDA0002291366680000074
6)DMA传输第一矩阵逆矩阵A-1至指定内存空间。
矩阵求逆运算,如图6所示,与只针对正定矩阵的基于LDLτ分解的矩阵求逆不同,初等变换矩阵求逆适用于所有可逆矩阵。对于初等变换求逆,其原理为通过行变换来完成求逆过程,求逆过程中固定数值或被消除的数值均无需存储,每次需要缓存的数据数量保持不变。为适应非正定矩阵的求逆运算,在过程中需增加非零项的处理,若存在非零项,在归一化之前进行行交换,并在求逆运算完毕后进行列变换。
矩阵A的初等变换矩阵求逆过程如下:
Figure BDA0002291366680000081
由上可见,初等变换求逆的过程即通过行变换消元的方式将单位矩阵I变换为矩阵A的逆矩阵的过程。根据观察,矩阵变换过程中左侧矩阵已运算部分和右侧矩阵待运算部分均为单位矩阵I的其中一部分为固定值,在实际运算过程中可只存储非固定值部分,此方法可节约近一半的存储空间。
具体过程如下:
1)嵌入式处理器设置运算模式为初等变换矩阵求逆,设置输入输出矩阵维度与各自内存基地址,启动矩阵运算处理器;
2)DMA传输第一矩阵A至存储单元;
3)读取第i行第一个数据(归一化第i行时,该行的第i列数据已经存储至第一个数据)至第N行第一个数据,记录第i行至第N行中第一个数据为非零的行号,若为i,则无需动作;若非i,则将对应行数据与第i行数据互换,若不存在,则上报矩阵无法求逆。(若为正定矩阵,无需此步骤)
4)求1/Ai,i后归一化;
5)消除其他行对应的列;
6)列变换,消除初等行变换造成的影响;
7)DMA传输矩阵A-1至指定内存空间。
与现有的方法相比,双精度浮点矩阵运算处理器在矩阵运算速度上有如下优点:矩阵数据传输采用DMA主动传输,无需嵌入式处理器介入,处理器计算资源占用极少;浮点运算并行度,速度提升明显;采用不同矩阵运算模式共享存储单元与浮点运算单元的模式,资源与面积占用小;可支持矩阵乘法、矩阵分解与矩阵求逆等多种运算模式,应用范围广泛;后续可通过修改控制单元增添其他矩阵运算模式,且可通过提升浮点运算单元并行度进一步提升运行速度,拥有较大的性能提升空间。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.一种双精度浮点矩阵运算处理器,其特征在于,所述矩阵运算处理器包括控制单元和分别与控制单元连接的接口单元、存储单元及浮点运算单元;
所述控制单元根据运算模式进行选择,通过对浮点运算单元输入输出进行运算和存储的控制,完成不同矩阵运算;控制单元根据接口单元接收的指令,启动对应运算模式的控制模块,并连接浮点运算单元与存储单元的输入输出信号,在各运算控制模块内部,使用若干个多路选择器连接浮点运算单元与存储单元的输入输出端口,通过控制浮点运算单元与存储单元的输入输出数据与时序,实现不同的运算模式;
所述接口单元用于与嵌入式处理器交互,对嵌入式处理器发出指令进行响应并回馈状态,通过DMA方式获取矩阵运算所需矩阵数据及放回矩阵运算结果至嵌入式处理器指定地址;
所述存储单元包括若干个单口RAM,用于存储矩阵数据;
所述浮点运算单元包括双精度浮点加法模块、双精度浮点乘法模块和双精度浮点倒数运算模块,用于进行矩阵数据运算。
2.根据权利要求1所述的一种双精度浮点矩阵运算处理器,其特征在于,所述控制单元的运算模式包括矩阵乘法运算模式、矩阵分解运算模式、矩阵求逆运算模式。
3.根据权利要求1所述的一种双精度浮点矩阵运算处理器,其特征在于,所述存储单元由M个存储深度为K,数据位宽为64bit的单口RAM组成。
4.根据权利要求3所述的一种双精度浮点矩阵运算处理器,其特征在于,所述RAM个数M根据并行度的提升而提升;所述存储深度K根据支持矩阵运算维度可扩展。
5.根据权利要求1所述的一种双精度浮点矩阵运算处理器,其特征在于,所述浮点运算单元包括L个双精度浮点加法模块、N个双精度浮点乘法模块和P个双精度浮点倒数运算模块。
6.根据权利要求5所述的一种双精度浮点矩阵运算处理器,其特征在于,所述L≥2,N≥2,P≥1。
7.一种双精度浮点矩阵运算方法,其特征在于,包括以下步骤:
根据矩阵运算模式的不同,嵌入式处理器设置相应的工作模式,并设置相应输入输出矩阵维度与各自内存基地址,启动矩阵运算处理器;
其中,当矩阵运算模式为矩阵乘法运算时,通过DMA传输第一矩阵至存储单元;根据工作模式的不同,传输相应的输入矩阵数据至存储单元;当工作模式为第一工作模式时,通过DMA传输第二矩阵的列向量至存储单元,否则传输第二矩阵的行向量至存储单元;第一矩阵与输入的第二矩阵向量进行矩阵乘法运算,将运算结果存储并传输至第三矩阵的内存空间,直至完成所有运算;当工作模式为第二工作模式时,运算结束,进入空闲状态,否则进入下一步;当工作模式为第三工作模式时,通过DMA传输第四矩阵至存储单元,否则传输第二矩阵至存储单元;通过DMA传输第三矩阵的行数据至存储单元,第二矩阵或第四矩阵与第三矩阵的行数据进行矩阵乘法运算,将运算结果存储并传输至第三矩阵的内存空间,直至所有运算完成,则运算结束,进入空闲状态;
当矩阵运算模式为矩阵分解运算时,通过DMA传输第一矩阵至存储单元;循环计算第一矩阵中数据并缓存至存储单元,完成第一工作模式分解运算;若工作模式为第一工作模式,通过DMA传输第二矩阵、第三矩阵至指定内存空间,否则计算第二矩阵逆矩阵,根据第二矩阵逆矩阵计算第一矩阵逆矩阵,通过DMA传输第一矩阵逆矩阵至指定内存空间;
当矩阵运算模式为矩阵求逆运算时,通过DMA传输第一矩阵至存储单元,读取第一矩阵中第i行第一个数据至第N行第一个数据,记录第i行至第N行中第一个数据为非零的行号,若为i,则无须动作,若不为i,则将对应行数据与第i行数据互换,若不存在,则上报矩阵无法求逆;对数据进行归一化处理,消除其他行对应的列,进行列变换,通过DMA传输第一矩阵逆矩阵至指定内存空间。
CN201911181389.3A 2019-11-27 2019-11-27 一种双精度浮点矩阵运算处理器及方法 Active CN110989970B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911181389.3A CN110989970B (zh) 2019-11-27 2019-11-27 一种双精度浮点矩阵运算处理器及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911181389.3A CN110989970B (zh) 2019-11-27 2019-11-27 一种双精度浮点矩阵运算处理器及方法

Publications (2)

Publication Number Publication Date
CN110989970A CN110989970A (zh) 2020-04-10
CN110989970B true CN110989970B (zh) 2023-04-11

Family

ID=70087254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911181389.3A Active CN110989970B (zh) 2019-11-27 2019-11-27 一种双精度浮点矩阵运算处理器及方法

Country Status (1)

Country Link
CN (1) CN110989970B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186186B (zh) * 2020-09-15 2023-08-04 华为技术有限公司 矩阵计算方法及相关设备
CN113076519A (zh) * 2021-04-21 2021-07-06 湖北九同方微电子有限公司 基于arm架构的大型矩阵求解方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110036369A (zh) * 2017-07-20 2019-07-19 上海寒武纪信息科技有限公司 一种计算方法及相关产品
CN110162742A (zh) * 2019-03-31 2019-08-23 西南电子技术研究所(中国电子科技集团公司第十研究所) 实数矩阵求逆的浮点运算电路实现方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8924454B2 (en) * 2012-01-25 2014-12-30 Arm Finance Overseas Limited Merged floating point operation using a modebit

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110036369A (zh) * 2017-07-20 2019-07-19 上海寒武纪信息科技有限公司 一种计算方法及相关产品
CN110162742A (zh) * 2019-03-31 2019-08-23 西南电子技术研究所(中国电子科技集团公司第十研究所) 实数矩阵求逆的浮点运算电路实现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于FPGA的矩阵尺寸自适应的双精度浮点数矩阵乘法器;朱耀国等;《电脑知识与技术》;20170515(第14期);全文 *

Also Published As

Publication number Publication date
CN110989970A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
KR102316670B1 (ko) 연산 가속기
CN107301455B (zh) 用于卷积神经网络的混合立方体存储系统及加速计算方法
CN108805266B (zh) 一种可重构cnn高并发卷积加速器
CN109977347B (zh) 一种支持多模式配置的可重构fft处理器
CN111915001B (zh) 卷积计算引擎、人工智能芯片以及数据处理方法
CN110989970B (zh) 一种双精度浮点矩阵运算处理器及方法
US11880684B2 (en) RISC-V-based artificial intelligence inference method and system
EP4318275A1 (en) Matrix multiplier and method for controlling matrix multiplier
CN115983348A (zh) 支持卷积神经网络扩展指令的risc-v加速器系统
WO2023098256A1 (zh) 神经网络运算方法、装置、芯片、电子设备和存储介质
CN116361605A (zh) 递归型fft处理器的低功耗优化方法和装置
CN111459552A (zh) 一种并行化存内计算的方法及装置
CN113033785B (zh) 芯片、神经网络训练系统、内存管理方法及装置、设备
CN111047037B (zh) 数据处理方法、装置、设备及存储介质
CN110737612A (zh) 一种含有存储内计算的处理器
CN116431562B (zh) 一种基于加速处理器的多头注意力机制融合计算分配方法
CN116521096B (zh) 存储器访问电路及存储器访问方法、集成电路和电子设备
US10127040B2 (en) Processor and method for executing memory access and computing instructions for host matrix operations
CN111158757A (zh) 并行存取装置和方法以及芯片
CN108234147A (zh) Gpdsp中基于主机计数的dma广播数据传输方法
CN114626005A (zh) 一种视频sar实时成像中cs算法的fpga实现方法
CN109522125B (zh) 一种矩阵乘积转置的加速方法、装置及处理器
Sun et al. Efficient and flexible 2-d data controller for sar imaging system
CN111126586A (zh) 数据通信电路、电子设备和数据通信方法
CN117312733B (zh) 一种动态调整计算速度的fft实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant