CN111045958B - 加速引擎及处理器 - Google Patents

加速引擎及处理器 Download PDF

Info

Publication number
CN111045958B
CN111045958B CN201811185199.4A CN201811185199A CN111045958B CN 111045958 B CN111045958 B CN 111045958B CN 201811185199 A CN201811185199 A CN 201811185199A CN 111045958 B CN111045958 B CN 111045958B
Authority
CN
China
Prior art keywords
buffer
data
output
multiply
coupled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811185199.4A
Other languages
English (en)
Other versions
CN111045958A (zh
Inventor
林威廷
康一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Spreadtrum Communications Shanghai Co Ltd
Original Assignee
Spreadtrum Communications Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Spreadtrum Communications Shanghai Co Ltd filed Critical Spreadtrum Communications Shanghai Co Ltd
Priority to CN201811185199.4A priority Critical patent/CN111045958B/zh
Publication of CN111045958A publication Critical patent/CN111045958A/zh
Application granted granted Critical
Publication of CN111045958B publication Critical patent/CN111045958B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0862Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches with prefetch
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0893Caches characterised by their organisation or structure

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

一种加速引擎及处理器,加速引擎包括:控制序列发生器、预取缓存器、输入缓存器、乘法累加阵列以及输出缓存器,其中:控制序列发生器,与所述预取缓存器、所述输入缓存器以及所述输出缓存器耦接;预取缓存器,与CPU集群中的二级缓存以及所述输入缓存器耦接;输入缓存器,与乘法累加阵列耦接,适于从所述预取缓存器中读取所缓存的数据并缓存;乘法累加阵列,与输出缓存器耦接,适于对所述输入缓存器中缓存的数据进行乘法累加运算,并将运算结果输出至所述输出缓存器;输出缓存器,与所述二级缓存耦接,适于缓存所述乘法累加阵列输出的运算结果,以及将所缓存的运算结果输出至所述二级缓存。上述方案能够提高加速引擎的性能。

Description

加速引擎及处理器
技术领域
本发明涉及处理器领域,尤其涉及一种加速引擎及处理器。
背景技术
机器学习(Machine Learning)加速引擎(Acceleration Engine)已经成为最为热门的研究课题之一。例如,谷歌公司推出的高性能处理器(Tensor Processing Unit,TPU),利用收缩阵列来提高计算推理能力以及吞吐量。英伟达(NVIDIA)公司采用基于加速引擎的图形处理器(Graphics Processing Unit,GPU)已经广泛应用在深度学习中的推断应用。
现有的加速引擎的运算性能较差。
发明内容
本发明实施例解决的是加速引擎的运算性能较差的问题。
为解决上述技术问题,本发明实施例提供一种加速引擎,包括:控制序列发生器、预取缓存器、输入缓存器、乘法累加阵列以及输出缓存器,其中:所述控制序列发生器,与所述预取缓存器、所述输入缓存器以及所述输出缓存器耦接,适于向所述预取缓存器发送第一数据读取指令、向所述输出缓存器发送数据输出指令、向所述输入缓存器发送第二数据读取指令;所述预取缓存器,与所述控制序列发生器、CPU集群中的二级缓存以及所述输入缓存器耦接,适于在接收到所述第一数据读取指令时,从所述二级缓存中读取数据并缓存;所述输入缓存器,与所述控制序列发生器、所述预取缓存器以及所述乘法累加阵列耦接,适于在接收到所述第二数据读取指令时,从所述预取缓存器中读取所缓存的数据并缓存;所述乘法累加阵列,与所述输入缓存器以及所述输出缓存器耦接,适于对所述输入缓存器中缓存的数据进行乘法累加运算,并将运算结果输出至所述输出缓存器;所述输出缓存器,与所述乘法累加阵列、所述二级缓存以及所述控制序列发生器耦接,适于缓存所述乘法累加阵列输出的运算结果,以及在接收到所述数据输出指令时将所缓存的运算结果输出至所述二级缓存。
可选的,所述加速引擎还包括:数据格式转换器,耦接在所述预取缓存器与所述输入缓存器之间,适于将所述预取缓存器输出的数据格式转换成所述输入缓存器支持的数据格式。
可选的,所述输入缓存器,适于在接收到所述第二数据读取指令时,读取所述数据格式转换器输出的数据。
可选的,所述预取缓存器,还包括:旋转器;所述旋转器适于对所述预取缓存器从所述二级缓存中依次读取到的两组长度为N比特的数据进行旋转移动,使得旋转移动后的所述读取到的两组长度为N比特的数据行对齐;所述预取缓存器的读端口数据宽度与写端口数据宽度均为2N比特;N为正整数。
可选的,所述数据格式转换器与所述输入缓存器一一对应。
可选的,所述乘法累加阵列,与所述输出缓存器耦接,还适于将所述输入缓存器中缓存的数据与所述输出缓存器中最新存入的运算结果进行乘法累加运算。
可选的,所述加速引擎还包括:存储器,与所述输出缓存器耦接;所述输出缓存器,还适于在其中存储的运算结果的个数大于预设值时,将其中存储的运算结果输出至所述存储器。
本发明实施例还提供了一种处理器,所述加速器包括上述任一种所述的加速引擎。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
在加速引擎中,控制序列发生器向预取缓存器发送第一数据读取指令。预取缓存器根据第一数据读取指令,从CPU集群中的二级缓存中读取相应的数据并缓存。通过乘法累加阵列实现矩阵的运算,并将运算结果输出至输出缓存器。当输出缓存器接收到数据输出指令时,将存储的运算结果输出至二级缓存,从而实现对二级缓存中的矩阵数据进行运算。加速引擎直接对二级缓存中的数据进行运算,从而提高加速引擎的性能,实现对CPU运算的加速。
进一步,当输出缓存器中存储的运算结果的个数达到一定值时,将输出缓存器中存储的运算结果输出至存储器。当出现中断时,可以将存储器中存储的运算结果重新加载,从而可以降低计算量。
附图说明
图1是本发明实施例中的一种加速引擎的结构示意图;
图2是本发明实施例中的另一种加速引擎的结构示意图。
具体实施方式
如上所述,现有的加速引擎与CPU紧密耦合,灵活性较差。
在加速引擎中,控制序列发生器向预取缓存器发送第一数据读取指令。预取缓存器根据第一数据读取指令,从CPU集群中的二级缓存中读取相应的数据并缓存。通过乘法累加阵列实现矩阵的运算,并将运算结果输出至输出缓存器。当输出缓存器接收到数据输出指令时,将存储的运算结果输出至二级缓存,从而实现对二级缓存中的矩阵数据进行运算。加速引擎直接对二级缓存中的数据进行运算,从而提高加速引擎的性能,实现对CPU运算的加速。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
参照图1,本发明实施例提供了一种加速引擎,包括:控制序列发生器11、预取缓存器12、输入缓存器13、乘法累加阵列14以及输出缓存器15,其中:
控制序列发生器11,与预取缓存器12、输入缓存器13以及输出缓存器15耦接,适于向预取缓存器12发送第一数据读取指令、向输入缓存器13发送第二数据读取指令、向输出缓存器15发送数据输出指令;
预取缓存器12,与控制序列发生器11、CPU集群中的二级缓存10以及输入缓存器13耦接,适于在接收到控制序列发生器11发送的第一数据读取指令时,从二级缓存10中读取数据并缓存;
输入缓存器13,与控制序列发生器11、预取缓存器12以及乘法累加阵列14耦接,适于在接收到控制序列发生器11发送的第二数据读取指令时,从预取缓存器12中读取所缓存的数据并缓存;
乘法累加阵列14,与输入缓存器13以及输出缓存器15耦接,适于对输入缓存器13中缓存的数据进行乘法累加运算,并将运算结果输出至输出缓存器15;
输出缓存器15,与乘法累加阵列14、二级缓存10以及控制序列发生器11耦接,适于缓存乘法累加阵列14输出的运算结果,并在接收到数据输出指令时将缓存的运算结果输出至二级缓存10。
在本发明实施例中,加速引擎可以搭建在CPU集群中的二级缓存10上,对CPU集群中的二级缓存10中存储的矩阵数据进行相应的运算。
在具体实施中,控制序列发生器11可以控制预取缓存器12的读取、输入缓存器13的读取以及输出缓存器15的输出。控制序列发生器11可以向预取缓存器12发送第一数据读取指令。预取缓存器12在接收到第一数据读取指令后,即可从CPU集群中的二级缓存10中读取第一数据读取指令对应的数据并缓存。
在本发明实施例中,预取缓存器12以行对齐格式存储数据,而输入缓存器13以收缩阵列所需的交错格式存储数据。因此,预取缓存器12输出数据的格式与输入缓存器13输入数据的格式不同。预取缓存器12的输出数据无法直接输入到输入缓存器13中。
在本发明实施例中,为将预取缓存器12的输出数据正常输入至输入缓存器13中,可以在预取缓存器12与输入缓存器13之间设置数据格式转换器16。数据格式转换器16可以接收预取缓存器12输出的行对齐格式的数据,将其转换成交错格式的数据并输出至输入缓存器13。
在具体实施中,数据格式转换器16可以与输入缓存器13一一对应。输入缓存器13的个数可以由需要进行运算的矩阵的个数决定。例如,加速引擎需要进行运算的矩阵为矩阵A和矩阵B,则输入缓存器13的个数为2个,其中一个用于存储矩阵A对应的数据,另一个用于存储矩阵B对应的数据。
在具体实施中,预取缓存器12的读端口和写端口宽度可以相同。然而,预取缓存器12从二级缓存10中读取到的数据的长度可能与写端口宽度不等,导致预取缓存器12无法将读取到的数据输出。
在本发明实施例中,为避免上述情况的出现,在预取缓存器12中可以设置有旋转器,通过旋转器对从二级缓存10中依次读取到的两组长度为N比特的数据进行旋转移动,从而使得旋转移动后的两组长度为N比特的数据行对齐,从而得到长度为2N比特的数据。
例如,预取缓存器的读端口和写端口宽度为32B。预取缓存器从二级缓存中读取到两个半行,其中一个半行为矩阵A的一行的结尾,另一个半行为矩阵A的下一行的开始的半行,此时,预取缓存器读取到的两组数据的长度均与预取缓存器的写端口的宽度不同。因此,通过旋转器对两个读取到的半行进行旋转移动,使得两个半行实现行对齐。在将两个半行进行行对齐后,将行对齐后的数据输出至数据格式转换器。
在具体实施中,为满足对任意大的矩阵进行运算,因此,可以预先对需要进行运算的矩阵进行处理。
在本发明一实施例中,将矩阵中相邻的16×16大小的区域作为分区,将相邻的8×8的分区作为块,对矩阵进行划分,从而将矩阵划分为多个块和多个分区。此时,一个分区内的矩阵元素的个数为256个,一个块内存在64个分区。
可以理解的是,在实际应用中,可以根据实际需求来对需要进行运算的矩阵进行分块处理。通过对矩阵进行分块处理,在运算过程中,对矩阵的分块进行运算,可以降低缓存器的读取带宽,降低成本。
在具体实施中,为降低输入缓存器13的大小,在计算两个矩阵之间的运算时,可以通过多次传递完成。例如,在计算矩阵A与矩阵B之间的乘积时,可以先将矩阵A中的一个块与矩阵B中的一个块进行运算,并将得到的运算结果存储在输出缓存区。之后,再进行矩阵A中的下一个块与矩阵B中的下一个块的运算。在对矩阵A中的块与矩阵B中的块进行运算时,结合最近一次得到的矩阵A中的块与矩阵B中的块的运算结果,对矩阵A中的块与矩阵B中的块进行运算。
在具体实施中,乘法累加阵列14还可以与输出缓存器15耦接。乘法累加阵列14在将输入缓存器13中缓存的数据进行乘法累加运算时,还可以将输入缓存器13中缓存的数据与输出缓存器15中最新存入的运算结果进行乘法累加运算。
换而言之,乘法累加阵列14是将输入缓存器13中缓存的数据与输出缓存器15中最新存入的运算结果进行乘法累加运算。
例如,输入缓存器包括第一输入缓存器和第二输入缓存器,其中:第一输入缓存器中存储的是矩阵A对应的块数据,第二输入缓存器中存储的是矩阵B对应的块数据,乘法累加阵列从第一输入缓存器中读取矩阵A的块数据2,从第二输入缓存器中读取矩阵B的块数据2,输出缓存器中最新存入的运算结果为矩阵A的块数据1与矩阵B的块数据1的运算结果1。则乘法累加阵列对矩阵A的块数据2、矩阵B的块数据2以及运算结果1进行乘法累加运算,得到运算结果2并输出至输出缓存器。
设定矩阵A的块数据2对应的长度为8bit,矩阵B的块数据2对应的长度为8bit,运算结果1对应的长度为32bit,则乘法累加阵列在进行运算时,分别输入长度为8bit的矩阵A的块数据2、长度为8bit的矩阵B的块数据2以及长度为32bit的运算结果1。
在具体实施中,加速引擎还可以包括存储器,存储器可以与输出缓存器15耦接。输出缓存器15可以获知其中存储的运算结果的个数。当输出缓存器15检测到其中存储的运算结果的个数达到预设值时,可以将存储的运算结果输出至存储器。若在后续的运算过程中出现中断。则可以从存储器中读取存储的运算结果并重新加载,无需重新开始计算,从而可以降低计算量。
参照图2,给出了本发明实施例中的另一种加速引擎。下面结合图1进行说明。
在图2中所提供的加速引擎,可以用于两个矩阵的运算。因此,在图2中,加速引擎的输入缓存器包括第一输入缓存器131以及第二输入缓存器132。相应地,加速引擎的数据格式转换器16也可以包括第一数据格式转换器161以及第二数据格式转换器162。
由此可见,本发明实施例提供的加速引擎中,控制序列发生器向预取缓存器发送第一数据读取指令。预取缓存器根据第一数据读取指令,从CPU集群中的二级缓存中读取相应的数据并缓存。通过乘法累加阵列实现矩阵的运算,并将运算结果输出至输出缓存器。当输出缓存器接收到数据输出指令时,将存储的运算结果输出至二级缓存,从而实现对二级缓存中的矩阵数据进行运算。加速引擎直接对二级缓存中的数据进行运算,从而提高加速引擎的性能,实现对CPU运算的加速。
在图1及图2中,为使图1与图2能够简洁地展示,控制序列发生器11与预取缓存器12、输入缓存器13以及输出缓存器15之间并没有使用线段连接。但是,在实际应用中,控制序列发生器11,与预取缓存器12、输入缓存器13以及输出缓存器15需要存在电连接关系。
本发明实施例还提供了一种处理器,包括本发明上述任一实施例中提供的加速引擎。
在具体实施中,针对一个处理器,可以设置一个对应的加速引擎,也可以设置多个加速引擎。当一个处理器包括多个加速引擎时,可以提高处理器的总数据吞吐量。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (7)

1.一种加速引擎,其特征在于,包括:控制序列发生器、预取缓存器、输入缓存器、乘法累加阵列以及输出缓存器、存储器,其中:
所述控制序列发生器,与所述预取缓存器、所述输入缓存器以及所述输出缓存器耦接,适于向所述预取缓存器发送第一数据读取指令、向所述输出缓存器发送数据输出指令、向所述输入缓存器发送第二数据读取指令;
所述预取缓存器,与所述控制序列发生器、CPU集群中的二级缓存以及所述输入缓存器耦接,适于在接收到所述第一数据读取指令时,从所述二级缓存中读取数据并缓存;
所述输入缓存器,与所述控制序列发生器、所述预取缓存器以及所述乘法累加阵列耦接,适于在接收到所述第二数据读取指令时,从所述预取缓存器中读取所缓存的数据并缓存;
所述乘法累加阵列,与所述输入缓存器以及所述输出缓存器耦接,适于对所述输入缓存器中缓存的数据进行乘法累加运算,并将运算结果输出至所述输出缓存器;
所述输出缓存器,与所述乘法累加阵列、所述二级缓存以及所述控制序列发生器耦接,适于缓存所述乘法累加阵列输出的运算结果,以及在接收到所述数据输出指令时将所缓存的运算结果输出至所述二级缓存;
所述存储器,与所述输出缓存器耦接;所述输出缓存器,还适于在其中存储的运算结果的个数大于预设值时,将其中存储的运算结果输出至所述存储器。
2.如权利要求1所述的加速引擎,其特征在于,还包括:数据格式转换器,耦接在所述预取缓存器与所述输入缓存器之间,适于将所述预取缓存器输出的数据格式转换成所述输入缓存器支持的数据格式。
3.如权利要求2所述的加速引擎,其特征在于,所述输入缓存器,适于在接收到所述第二数据读取指令时,读取所述数据格式转换器输出的数据。
4.如权利要求2所述的加速引擎,其特征在于,所述预取缓存器,还包括:旋转器;所述旋转器适于对所述预取缓存器从所述二级缓存中依次读取到的两组长度为N比特的数据进行旋转移动,使得旋转移动后的所述读取到的两组长度为N比特的数据行对齐;所述预取缓存器的读端口数据宽度与写端口数据宽度均为2N比特;N为正整数。
5.如权利要求2所述的加速引擎,其特征在于,所述数据格式转换器与所述输入缓存器一一对应。
6.如权利要求1所述的加速引擎,其特征在于,所述乘法累加阵列,与所述输出缓存器耦接,还适于将所述输入缓存器中缓存的数据与所述输出缓存器中最新存入的运算结果进行乘法累加运算。
7.一种处理器,其特征在于,包括如权利要求1~6任一项所述的加速引擎。
CN201811185199.4A 2018-10-11 2018-10-11 加速引擎及处理器 Active CN111045958B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811185199.4A CN111045958B (zh) 2018-10-11 2018-10-11 加速引擎及处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811185199.4A CN111045958B (zh) 2018-10-11 2018-10-11 加速引擎及处理器

Publications (2)

Publication Number Publication Date
CN111045958A CN111045958A (zh) 2020-04-21
CN111045958B true CN111045958B (zh) 2022-09-16

Family

ID=70229066

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811185199.4A Active CN111045958B (zh) 2018-10-11 2018-10-11 加速引擎及处理器

Country Status (1)

Country Link
CN (1) CN111045958B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8683132B1 (en) * 2003-09-29 2014-03-25 Nvidia Corporation Memory controller for sequentially prefetching data for a processor of a computer system
CN104813278A (zh) * 2012-12-27 2015-07-29 英特尔公司 对二进制转换的自修改代码以及交叉修改代码的处理
CN106250103A (zh) * 2016-08-04 2016-12-21 东南大学 一种卷积神经网络循环卷积计算数据重用的系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7516274B2 (en) * 2005-11-15 2009-04-07 Sun Microsystems, Inc. Power conservation via DRAM access reduction
CN103294648B (zh) * 2013-05-08 2016-06-01 中国人民解放军国防科学技术大学 支持多mac运算部件向量处理器的分块矩阵乘法向量化方法
CN104391820B (zh) * 2014-11-25 2017-06-23 清华大学 基于fpga的通用浮点矩阵处理器硬件结构
CN104572011B (zh) * 2014-12-22 2018-07-31 上海交通大学 基于fpga的通用矩阵定点乘法器及其计算方法
CN104915322B (zh) * 2015-06-09 2018-05-01 中国人民解放军国防科学技术大学 一种卷积神经网络硬件加速方法
US10664751B2 (en) * 2016-12-01 2020-05-26 Via Alliance Semiconductor Co., Ltd. Processor with memory array operable as either cache memory or neural network unit memory
CN107341544B (zh) * 2017-06-30 2020-04-10 清华大学 一种基于可分割阵列的可重构加速器及其实现方法
CN108229671B (zh) * 2018-01-16 2022-03-04 华南理工大学 一种降低加速器外部数据存储带宽需求的系统和方法
CN108416434B (zh) * 2018-02-07 2021-06-04 复旦大学 针对神经网络的卷积层与全连接层进行加速的电路结构

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8683132B1 (en) * 2003-09-29 2014-03-25 Nvidia Corporation Memory controller for sequentially prefetching data for a processor of a computer system
CN104813278A (zh) * 2012-12-27 2015-07-29 英特尔公司 对二进制转换的自修改代码以及交叉修改代码的处理
CN106250103A (zh) * 2016-08-04 2016-12-21 东南大学 一种卷积神经网络循环卷积计算数据重用的系统

Also Published As

Publication number Publication date
CN111045958A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN110991634B (zh) 人工智能加速器、设备、芯片及数据处理方法
CN106846235B (zh) 一种利用NVIDIA Kepler GPU汇编指令加速的卷积优化方法及系统
CN109219805B (zh) 一种多核系统内存访问方法、相关装置、系统及存储介质
Qiao et al. High-throughput lossless compression on tightly coupled CPU-FPGA platforms
WO2022007266A1 (zh) 一种卷积神经网络的加速方法及装置
EP2137821A1 (en) A circuit for compressing data and a processor employing same
CN111931918A (zh) 神经网络加速器
EP2943875A1 (en) Data processor and method for data processing
CN111045958B (zh) 加速引擎及处理器
CN106227506A (zh) 一种内存压缩系统中的多通道并行压缩解压系统及方法
CN117539546A (zh) 基于非空列存储的稀疏矩阵向量乘加速方法及装置
US8825729B1 (en) Power and bandwidth efficient FFT for DDR memory
JPWO2011036918A1 (ja) データ並べ替え回路、可変遅延回路、高速フーリエ変換回路、およびデータ並べ替え方法
JP2015503785A (ja) Fft/dftの逆順ソーティングシステム、方法およびその演算システム
CN116431562B (zh) 一种基于加速处理器的多头注意力机制融合计算分配方法
US9268744B2 (en) Parallel bit reversal devices and methods
CN111221501B (zh) 一种用于大数乘法的数论变换电路
CN114970848A (zh) 用于并行处理器的数据搬运装置及相应处理器
CN109558638B (zh) Fft处理器
CN110532510B (zh) 一种生成旋转因子和校正因子的生成器
CN112639747A (zh) 处理器的寻址方法、处理器、可移动平台和电子设备
CN109753629B (zh) 多粒度并行fft计算装置
CN109307791B (zh) 具有fft功能的示波器
CN112149049A (zh) 用于变换矩阵的装置和方法、数据处理系统
CN105653500A (zh) 蝶形模块、快速傅里叶变换处理器及控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant