CN109496306B - 多功能运算装置及快速傅里叶变换运算装置 - Google Patents

多功能运算装置及快速傅里叶变换运算装置 Download PDF

Info

Publication number
CN109496306B
CN109496306B CN201780043429.0A CN201780043429A CN109496306B CN 109496306 B CN109496306 B CN 109496306B CN 201780043429 A CN201780043429 A CN 201780043429A CN 109496306 B CN109496306 B CN 109496306B
Authority
CN
China
Prior art keywords
output
butterfly
mac
input
multiplication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780043429.0A
Other languages
English (en)
Other versions
CN109496306A (zh
Inventor
金泰亨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Molumi Ltd
Original Assignee
Molumi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020160088659A external-priority patent/KR101842937B1/ko
Priority claimed from KR1020160156445A external-priority patent/KR101859294B1/ko
Application filed by Molumi Ltd filed Critical Molumi Ltd
Publication of CN109496306A publication Critical patent/CN109496306A/zh
Application granted granted Critical
Publication of CN109496306B publication Critical patent/CN109496306B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • G06F17/142Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/544Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices for evaluating functions by calculation
    • G06F7/5443Sum of products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/0215Addressing or allocation; Relocation with look ahead addressing means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/3001Arithmetic instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3004Arrangements for executing specific machine instructions to perform operations on memory
    • G06F9/30043LOAD or STORE instructions; Clear instruction
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Discrete Mathematics (AREA)
  • Computing Systems (AREA)
  • Complex Calculations (AREA)

Abstract

根据本发明的一种多功能运算装置,包括:乘积累加单元,具备多个乘积累加电路;地址生成单元,生成阅读地址组,并将所生成的所述阅读地址组传达至储存器,而所述阅读地址组具备多个阅读地址;以及多个库,储存多个阅读数据组,并且,在多个阅读数据组中,将与所述阅读地址组对应的阅读数据组传达至与所述阅读地址组对应的所述乘积累加单元,而所述阅读数据组包括具备多个阅读数据的所述储存器。

Description

多功能运算装置及快速傅里叶变换运算装置
技术领域
在下面,将说明的技术涉及多功能运算装置及FTT(快速傅里叶变换)运算装置。
背景技术
MAC(multiply-accumulate)电路具备连接于乘法器与乘法器输出的累积器。MAC电路用于有限脉冲响应滤波器(FIR filter),无线脉冲响应滤波器(IIR filter),快速傅里叶变换(FFT)及反傅立叶变换(IFFT)等各种用途。在初期,MAC电路多被应用于数据信号处理器(digital signal processor),但是,现在,还频繁地被应用于通用处理器GPP(general purpose processor)。
作为并列使用多个MAC的多重MAC的现有技术,有公开于韩国注册专利第10-0835173号(发明名称:用于乘法累积运算的数据信号处理装置及方法)的技术。根据现有技术,控制单元可从程序储存器呼叫指令程序将其传达至数据地址生成单元。这对控制部给予很多负荷,并降低整个系统效率。
发明内容
技术课题
因此,本发明为解决现有问题而提出,提供一种控制单元不用在每周期从程序储存器呼叫指令程序的多功能运算装置及FTT运算装置。
此外,本发明可提供可同时使用多个MAC电路,同时,提供可使所用的储存器容量最小化的多功能运算装置及FTT运算装置。
解决手段
一种多功能运算装置,可包括:乘积累加单元,具备多个乘积累加电路;地址生成单元,生成阅读地址组,并将所生成的所述阅读地址组传达至储存器,而所述阅读地址组具备多个阅读地址;及多个库,储存多个阅读数据库组,并且,在多个阅读数据库组中,将与所述阅读地址组对应的阅读数据组传达至与所述阅读地址组对应的所述乘积累加单元,而所述阅读数据组包括具备多个阅读数据的所述储存器。
一种FFT运算装置,可包括:乘法单元,具备多个乘法电路;地址生成单元,生成阅读地址组,将所生成的所述阅读地址组传达至储存器;及具备储存多个阅读数据组的多个库,并且,在所述多个阅读数据组中,将与所述阅读地址组对应的阅读数据传达至所述乘法单元,而所述阅读数据组包括具备多个阅读数据的所述储存器。
技术效果
根据本发明的多功能运算装置及FFT运算装置具有以下好处:地址生成单元仅通过具备查询表(lookup table)或者状态机(state machine)生成地址可减少控制单元的负荷,其中,不需要用控制单元。
此外,多功能运算装置及FFT运算装置通过按预定顺序储存数据,具有可避免冲突的发生,可减少所需储存器容量的好处。
附图说明
图1是示出根据一个实施例的多功能运算装置的图。
图2至图10是示出在图1所示的多功能运算装置具备8个MAC,执行6-点FFT(16-point fast Fourier transform)运算时动作的示意图。
图1至图14是示出多功能运算装置具备8个MAC电路,并执行FIR运算时动作的示意图。
图15是示出根据一个实施例的FFT运算装置的图。
图16至24是示出在图15中所示的FFT运算装置具备8个乘法电路,并执行16-点FFT(16-point fast Fourier transform)运算时动作的图。
具体实施方式
以下,参照附图详细地说明实施例。以下说明的实施例可施加多种变更。以下实施例不限定实施形态,应该理解为,包括对这些的所有变更、均等物至代替物。
第1或第2等,A,B等术语在说明多种构成要素时可被使用,但这些术语应该以区分一种构成要素与另一种要素为目的被揭示。比如,第1构成要件可被命名为第2构成要件,类似地,第2构成要件可被命名为第1构成要件。及/或指多个相关项目的组合或者与多个与记载的相关的项目中的一个项目。
单数表达在语境上如没有明确的不同用处,还包含复数语义。在本说明中,“包含”,或“具有”等词语用于指明在记载于说明书上的特征﹑数字﹑步骤﹑动作﹑构成因素或其组合的概念,不应被理解为用于提前排除一个或一个以上的其他特征或数字﹑步骤﹑动作﹑构成因素或其组合的概念或附加可能性。
图1是示出根据一个实施例的多功能运算装置的图。参照图1,多功能运算装置包括MAC单元110、地址生成部120、储存器130、阅读映射器140、编写映射器150及控制部160。
MAC单元110包括多个MAC电路111及算术单元116。多个MAC电路111分别包括乘法器112及累积器115。累积器115累积乘法器112的输出,为此,累积器115包括加法器113及寄存器114。
在MAC电路111可省略累积器115或者寄存器114。严格地,在MAC电路111中,省略寄存器114的电路相当于乘法-加法电路,但在本发明中,这种乘法-加法电路包括在MAC电路111范畴内。
此外,严格而言,在MAC电路111中,省略累积器115的电路属于乘法电路,但在本发明中,这种乘法电路包括在MAC电路111的范畴内。即,本发明中的MAC电路111为除了原来的乘法-累加电路外,还包括乘法-加法电路及乘法电路的广义的MAC电路。
算术部116针对从多个MAC电路111被输出的多个输出执行和、差、累积及移数中的至少一个运算。算术单元116输出由至少一个运算结果获得的一个以上的MAC输出(Mout1~MoutC,其中,C为整数)。
算术部116可进一步输出通知最终运算结果的标志(FL)。在算术单元116执行的运算可根据运算装置将要执行的运算(例如:FFT,FIR等)被变更。因此,算数部116可根据从控制单元160被传达的算术控制信号(ACS)变更所执行的运算。
地址生成部120通过生成阅读地址组(RAG),将其传达至储存器(130)。阅读地址组(RAG)具备多个阅读地址。地址生成部120通过生成编写地址组(WAG),将其传达至储存器130。编写地址组(WAG)具备多个编写地址。地址生成部通过生成阅读映射值(RMV)及编写映射值(WMV),将其分别传达至阅读映射器(140)及编写映射器(150)。
比如,地址生成单元120具备计数器122及查询表124。计数器122根据时钟信号(CK)输出变化值。
例如,计数器122可输出根据时钟信号(CK)增加的整数值。查询表124在多个阅读地址组中,根据在计数器122被输出的值,输出被选定的阅读地址组(RAG)。
为此,多个查询表124可储存多个编写地址组。此外,查询表124从多个编写地址组中,根据从计数器122输出的值,可输出被选定的编写地址组(WAG)。
为此,查询表124可储存多个编写地址组。通过延迟阅读地址组(RAG)可获取编写地址组(WAG),从而,可取代从查询表124输出编写地址组(WAG)。在多个阅读映射值中,查询表124可根据从计数器122输出的值输出所选定的阅读映射值(RMV)。为此,多个查询表124可储存多个阅读映射值。查询表124在多个编写映射值中,可根据从计数器122输出的值,输出所选定的编写映射值(WMV)。为此,查询表124可储存多个编写映射值。
与图不同,地址生成单元120可包括状态机(未图示)。状态机可根据时钟信号,生成阅读地址组(RAG),编写地址组(WAG),阅读映射值(RMV)及编写映射值(WMV)。当地址生成单元120具备状态机时,可不具备查询表124或者计数器122。
储存器130可具备多个库132。因此,储存器130可同时阅读或编写许多数据。例如,当储存器130具备四个库132时,储存器130可同时阅读或编写4个数据。当然,在此情况下,4个数据应位于不同的库132。
例如,储存器130,可为双端口。在此情况下,储存器130可同时执行编写动作与阅读动作。例如,当储存器130具备4个库132时,储存器130可同时阅读4个数据并编写4个数据。当然,在此情况下,所阅读的四个数据位于相互不同的库112,并且,编写的4个数据应位于相互不同的库132中。
多个库132储存多个阅读数据组。储存器130在多个阅读数据组中,将与阅读地址组(RAG)对应的阅读数据组(RDG)传达至MAC单元110。阅读数据组(RDG)包括多个阅读数据。多个阅读数据分别可为复数,实数或者整数。
多个阅读数据从不同的库132被输出。当储存器130具备第一至第四库时,在多个阅读数据中,第一至第四阅读数据可从第一至第4库分别被输出。多个阅读数据可位于相同的行。例如,第一及第四阅读数据可分别为第一及第四库的第一个数据、多个阅读数据可位于不同的行。例如,第一及第三阅读数据分别为第1及第三库的第五个数据,第二及第四阅读数据可分别为第二及第四库的第六个数据。
多个库132可储存一个以上的编写数据组。储存器130将编写数据组(WDG)储存于与编写地址组(WAG)对应的位置。编写数据组(WDG)可具备一个以上的编写数据。
一个以上的编写数据可分别为复数,实数或者整数。一个以上的编写数据可储存于相互不同的库132中。当储存器130具备第1至第四库时,在一个以上的编写数据中,第一至第四编写数据可分别储存于第一至第四库中。一个以上的编写数据可储存于相同的行。
例如,第一至第四编写数据可分别储存于第一及第四库的第一个位置。多个编写数据可储存于相互不同的行。例如,第一及第三数据可分别储存于第一及第三库的第五个位置,第二及第四数据可分别储存与第二库及第四库的第六个位置。
阅读映射器140根据阅读映射值(RMV)将多个阅读数据映射至多个MAC输出(Min1~MinB,其中,B为整数)。编写映射器150根据编写映射值(WMV)将一个以上的MAC(Mout1~MoutC)映射为一个以上的编写数据。
控制部160,在储存器130储存初期阅读数据组,并且,在查询表124储存多个阅读地址组之后,可驱动地址生成单元120。
即使多个MAC电路111同时动作,控制单元160可将初期阅读数据储存于所述储存器,以使多个阅读数据从多个库132中,从相互不同的库被输出。
此外,控制单元160可将对应于多功能运算装置将执行的运算的算术控制信号(ACS)传达至算术单元116。同样,控制单元160主要干预多功能运算装置的动作初期,而多功能运算装置在执行运算(例如:FFT,FIR时)可完全不干涉,或者偶尔进行干涉。即,当执行运算时,主要由地址生成部120的动作可执行运算。因此,可减小控制部160的负担。例如,控制部160可为CPU。
在图1中所示的多功能运算装置可执行FFT运算。在图2至10是示出,在图1中所示的多功能运算装置具备8个MAC,并执行16-点FFT(16-point fast Fourier transform)运算时的动作的示意图。图2是示出作为16-点FFT的运算实施例的"radix2,decimation intime"运算的图。
16-点FFT运算具有4个(stage),并在各阶段执行8个蝴蝶云端。16-点FFT具有16个输入(X(1)~X(16))及16个输出(Y(1)~Y(16))。
图3是示出蝴蝶运算的示意图。在图3中,蝴蝶被输入第1及第2蝴蝶输入(x1,x2)及旋转因子(twiddle factor,w),并输出第一及第二旋转输出(y1,y2)。
图4是示出MAC单元动作的示意图。参照图4,MAC单元110包括第一蝴蝶电路410及第二蝴蝶电路470。第一蝴蝶电路410包括第一至第4MAC单元420,430,440,450及第一算术部460。
在第一至第四MAC电路420,430,440,450中,各MAC电路包括乘法器112及累积器。
第1MAC电路(420)输出使第一及第二MAC输入(Min1,Min2)相乘的值。
第2MAC电路(430)输出使第三及第四MAC输入(Min3,Min4)相乘的值。
第3MAC电路(440)输出使第五及第六MAC输入(Min5,Min6)相乘的值。
第4MAC电路(450)输出使第七及第八MAC输入(Min7,Min8)相乘的值。
第一算术单元480输出第1至第四输出(Mout1~Mout4)。
第一输出(Mout1)属于在第九输入(Min9)附加第一MAC电路420的输出,并减去第2MAC电路的输出的值。
第二输出(Mout2)属于在第九输入(Min9)减去第一MAC电路420的输出,并减去第2MAC电路的输出的值。
第三输出(Mou31)属于在第10输入(Min10)附加第三MAC电路440的输出,并减去第4MAC电路450的输出的值。
第四输出(Mout4)属于在第10输入(Min10)减去第三MAC电路440的输出,并减去第4MAC电路450的输出的值。
为执行这种运算,第一算术部460可包括第一至第6合算部461~466。
第一合算单元461在第一MAC电路420的输出减去第二MAC电路430的输出。第二合算单元462在第三MAC电路440的输出加上第四MAC电路450的输出。第三合算单元463在第九MAC电路的输入(Min9)加上第一合算单元461的输出。第四合算单元464在第九MAC输入(Min9)减去第一合算单元461的输出。第五合算部465在第十MAC输入(Min10)加上第二合算单元462的输出。第六合算单元466在第十MAC输入(Min10)减去第二合算单元462的输出。
第二蝴蝶电路470被输入第11至第20MAC输入(Min11~Min20),并输出第五至第8MAC输出(Mout5~Mout8)。因第二蝴蝶电路470的构成与第一蝴蝶电路420相同,省略进行对于此的详细说明。
图4中的蝴蝶电路410为执行蝴蝶运算,将第一蝴蝶输入(x1)的实数(x1[R])及虚数(x1[I])分别输入于第九及第10MAC输入(Min9,Min10)。
将第二蝴蝶输入(x2)的实数(x2[R])分别输入于第一及第5MAC输入(Min1,Min5)。
将第二蝴蝶输入(x2)的虚数(x2[I])输入于第三及第七MAC输入(Min3,Min7)。
将旋转因子(w)的实数(w[R])输入于第二及第8MAC输入(Min2,Min8)。
将旋转因子(w)的虚数(w[I])输入于第4及第6MAC输入(Min2,Min8)。
以如上所述的方法输入,第1MAC输出(Mout1)属于第一蝴蝶输出(y1)的实数。第2MAC输出(Mout2)属于第二蝴蝶输出(y2)的实数。第3MAC输出(Mout3)属于第一蝴蝶输出(y1)的虚数。第4MAC输出(Mout4)属于第二蝴蝶输出(y2)的虚数。
参照图5,储存器130包括第一至第6库510~560。例如,第一至第四库510~540作为双端口,可同时执行4个输出与四个输入。例如,第5及第6库550~560作为单端口,可同时执行两个输出。
第1至第4库510~540输出与第1至第4蝴蝶输入地址(XA1~XA4)分别对应的第1至第4蝴蝶输入(X1~X4)。与第一至第四蝴蝶输出地址(YA1~YA4)分别对应的第一至第四蝴蝶输出(Y1~Y4)输入于第一至第四库510~540。第5及第6库550,560输出与第一及第二旋转因子地址WA1,WA2分别对应的第一及第二旋转因子(W1,W2)。
第一至第四蝴蝶输入地址XA1~XA4及第1及第2旋转因子地址(WA1,WA2)对应于图1中的阅读地址组(RAG)。即,阅读地址组(RAG)作为多个阅读地址,包括第1至第4蝴蝶输入地址(XA1~XA4)及第1及第二旋转因子地址(WA1,WA2)。
第1至第4蝴蝶输出地址(YA1~YA4)对应于图1的编写地址组(WAG)。即,编写地址组(WAG)作为多个编写地址,可包括第1至第4蝴蝶输出地址(YA1~YA4)。第1至第4蝴蝶输入(X1~X4)及第一及第二旋转因子(W1,W2)对应于图1中的阅读数据组(RDG)。即,阅读数据组(RDG)作为多个阅读数据,包括第1至4蝴蝶输出(X1~X4)及第1及第2旋转因子(W1,W2)。第1至第4蝴蝶输出(Y1~Y4)对应于图1中的编写数据组(WDG)。即,编写数据组(WDG)作为多个编写数据,包括第1至第4蝴蝶输出(Y1~Y4)。
储存器130根据一定顺序储存初期阅读数据组(X(1)~X(16),W(1)~W(8)),以防止以免FFT运算中的多个库510~560之间的冲突。初期阅读数据组(X(1)~X(16),W(1)~W(8))作为进行FFT运算前储存于储存器130的值,可由控制单元160被储存。在图中,1/X(1)是指在1号储存X(1),5/W(1)是指在5号储存W(1)。
通常,16点FFT输入(X(1)~X(16))依序(X(1),X(2),X(3),X(4),X(5),X(6),X(7),X(8),X(9),X(10),X(11),X(12),X(13),X(14),X(15),X(16))被储存,但在本实施例中,可根据一定顺序(X(1),X(2),X(3),X(4),X(7),X(8),X(5),X(6),X(11),X(12),X(9),X(10),X(13),X(14),X(15),X(16))被储存。
例如,即使一定的顺序是不依次的,但作为行单位,是依次的。即,X(1)至X(4)位于第一行,X(5)至X(8)位于第二行,X(9)至X(12)位于第三行,X(13)至X(16)位于第四行。
一定顺序可通过预先模拟取得,以免发生FFT运算中的库550~560之间发生冲突。
其中,库510~540之间发生冲突是指第1至第4蝴蝶输入(X1~X4)中的两个以上的蝴蝶输入同时从一个库被获取。因为一个库只能同时输出一个蝴蝶输入,如果发生两个以上的蝴蝶输入需要从一个库被阅读的情况时,不可进行正常动作。
模拟可执行于程序编译过程。例如,编译器通过核实各库之间的是否有发生冲突,如果发生了,可通过反复进行改变初期FFT输入(X(1)~X(16))中的部分输入位置的过程,决定一定顺序。
通常,八个旋转因子(W(1)~W(8))依序(W(1),W(2),W(3),W(4),W(5),W(6),W(7),W(8))被储存,但在本实施例中,可根据一定顺序(W(1),W(2),W(4),W(3),W(6),W(5),W(7),W(8))被储存。例如,即使一定顺序是不依次的,但以行单位是依次的。即,W(1)及W(2)位于第1行,W(3)及W(4)位于第2行,W(5)及W(6)位于第3行,W(7)及W(8)位于第4行。一定顺序可通过预先模拟取得,以免发生FFT运算中的库550~560之间发生冲突。
参照图6,地址生成器120的查询表124包括蝴蝶查询表610,旋转因素查询表620,阅读映射值查询表630,编写映射值查询表640及寄存器650。例如,控制单元160输入需填于蝴蝶查询表610,旋转因素查询表620,阅读映射值查询表630,编写映射值查询表640的值后,驱动计数器122。
蝴蝶查询表610输出与计数器122的输出值对应的多个蝴蝶输入地址(XA1~XA4)。寄存器650可输出将多个蝴蝶输入地址(XA1~XA4)延迟到一个以上的时钟周期的多个蝴蝶输出地址(YA1~YA4)。由寄存器650的延迟,在与多个蝴蝶输入(X1~X4)从储存器130被输出后,作为多个蝴蝶输出(Y1~Y4),与到输入于储存器130所需要的延迟对应。
即使在图1未明确地示出,多个蝴蝶输入(X1~X4)从储存器130被输出后,作为多个蝴蝶输出(Y1~Y4),直到被输入至储存器130,需要一个以上的时钟周期。
作为多个蝴蝶输出地址(YA1~YA4),通过使用延迟多个蝴蝶地址(XA1~XA4)的延迟的值,多个蝴蝶输出(Y1~Y4)可分别储存在储存器130内的多个蝴蝶输入(X1~X4)所在的位置。
旋转因子查询表620输出与计数器122的输出值对应的一个以上的旋转因子地址(WA1,WA2)。阅读射影值查询表630输出与计数器的输出值对应的阅读射影值(RMV)。编写射影值查寻表640输出与计数器的输出值对应的编写射影值(WMV)。
图7是示出储存于查询表610的值的图。参照图7,在第一周,蝴蝶查询表610作为多个蝴蝶输入地址(XA1~XA4),可输出1,2,3,4。因此,储存器130可将位于1,2,3,4号的X(1),X(2),X(3),X(4)作为多个蝴蝶输出(X1~X4)进行输出。因为多个蝴蝶输入地址(XA1~XA4)还被使用为多个蝴蝶输出地址(YA1~YA4),多个蝴蝶输出(Y1~Y4)储存与储存器的相同位置,即1,2,3,4号。在第二周,蝴蝶查询表610作为多个蝴蝶输入地址(XA1~XA4)输出7,8,9,10。
因此,储存器130将位于7,8,9,10号的X(7),X(8),X(5),X(6)作为多个蝴蝶输入(X1~X4)输出。因为多个蝴蝶输入地址(XA1~XA4)还使用为多个蝴蝶输出地址(YA1~YA4),多个蝴蝶输出(Y1~Y4)可储存于与储存器相同的位置即7,8,9,10号。以上述方式,在第三周,蝴蝶查询表610可输出13,14,15,16,并且,储存器130可输出X(11),X(12),X(9),X(10)。在第四周,蝴蝶查询表610输出19,20,21,22,储存器130输出X(13),X(14),X(15),X(16)。以后的动作,因与之前的方式相同,予以省略。
图8是示出储存于旋转因子查询表620的值的图。参照图8,第一至第四周,旋转因子查询表620作为一个以上的蝴蝶输入地址(WA1,WA2),输出5,NA。其中,NA指无输出值。储存器130输出将位于5号的W(1)作为一个以上的旋转因子(W1)进行输出。在第五周,旋转因子查询表620可将5,18作为一个以上的蝴蝶输入地址(WA1,WA2)进行输出。
图8是示出储存于旋转因子查询表620的值的图。参照图8,在第一至第四周期,旋转因子查询表620作为一个以上的蝴蝶输入地址WA1,WA2,可输出5,NA。其中,NA是指无输出值。储存器130将位于5号的W(1)作为一个以上的旋转因子(W1)进行输出。第五周期,旋转因子查询表620作为一个以上的蝴蝶输入地址(WA1,WA2),可输出5,18。因为以后的动作方式与其之前的方式相同,予以省略。
图9是示出说明阅读射影器140的动作的图。
参照图9,在第一周期,阅读映射器140可将第二蝴蝶输入(X2)的实数(X2[R])映射于第1MAC输入(Min1),将第1旋转因子(W1)的实数(W1[R])映射于第2MAC输入(Min2),将第二蝴蝶输入(X2)的虚数(X2[I])映射于第3MAC输入(Min3),将第1旋转因子(W1)的实数(W1[R])映射于第4MAC输入(Min4)。
同样,可将X2[R],W1[I],X2[I],W1[R],X1[R],X1[I],X4[R],W1[R],X4[I],W1[I],X4[R],W1[I],X4[I],W1[R],X3[R],X3[I]分别映射于第5至第20MAC输入(Min5~Min20)。在第二周期,阅读映射器140可将X4[R],W1[R],X4[I],W1[I],X4[R],W1[I],X4[I],W1[R],X3[R],X3[I],X2[R],W1[R],X2[I],W1[I],X2[R],W1[I],X2[I],W1[R],X1[R],X1[I]分别映射于第1至第20MAC输入(Min5~Min20)。因为以后的动作方式与其之前的方式相同,予以省略。
此外,在相同的行中,可变更数据之间的储存位置,并且,可通过使变更的行的变更规则变得有规律,可降低映射器的复杂度。此外,在映射信息中,针对相同行内的数据之间的位置变更的地址变更内容可合并于阅读或编写地址储存器(蝴蝶查询表610、旋转因子查询表620)。此过程的执行与内容可根据预先的模拟实验决定并获得。
图10是示出编写映射器150的动作的示意图。参照图10,在第一周期,编写映射器150可将第一MAC输出(Mout1)映射于第一蝴蝶输出(Y1)的实数值(Y1[R]),且可将第二MAC输出(Mout1)映射于第一蝴蝶输出(Y1)的实数值(Y1[R]),将第三MAC输出(Mout3)映射于第一蝴蝶输出(Y1)的虚数值(Y1[R]),第四MAC输出(Mout4)映射于第二蝴蝶输出(Y2)的虚数值(Y2[I])。
此外,将第五至8MAC输出(Mout5~Mout8)分别映射于Y3[R],Y4[R],Y3[I],Y4[I]。在第二周期,可将第1至8MAC输出(Mout1~Mout8)可分别映射于Y3[R],Y4[R],Y3[I],Y4[I],Y1[R],Y2[R],Y1[I],Y2[I]。因为以后的动作方式与其之前的方式相同,予以省略。
在图1中所示的多功能运算装置可执行FIR运算。在图11至图13中,多功能运算装置具备8个MAC电路,并且,其为说明执行FIR运算时的动作的图。
参照图11,MAC单元110包括8个MAC电路111及算术部116。8个MAC电路分别包括乘法器112及累积器115,并使两个MAC输出相乘,并累积相乘的值。算术部116包括多个加算器,并且,可将所有的从8个MAC电路111被输出的值和起来。假设奇数次MAC输入(Min1,Min3,...Min15)为FIR过滤器的输入,偶数次MAC输入(Min2,Min4,...Min16)为FIR过滤器的系数时,MAC部110可同时处理8个输入。因此,当32阀门(tap)为FIR过滤器时,如果MAC部(110)动作4周期,可获得其结果。如上所述,算数部116可根据从控制部160传达的算术控制信号(ACS),如图变更所执行的运算。算数部116的构成可根据算术控制信号(ACS)变更为适合用于FFT运算,或者,变更为适合用于FIR运算,可通过组合加算器与开关可实现。对于对此的具体构成的说明,予以省略。
参照图12,储存器130可包括第1至第16库。第1至第8库可储存FIR输入(In(1)~In(32)),第9至第16库可储存FIR系数(C(1)~C(8))。储存器130在第一周期可输出In(1)至In(8)与C(1)至C(8)。
In(1)至In(8)可由阅读映射器140映射于Min1,Min3,...Min15,C(1)至C(8)映射于Min2,Min4,...Min16。在第二周期,储存器(130)可输出In(9)至In(16)与C(1)至C(8)。
由阅读映射器140,In(9)至n(16)可由Min1,Min3,...Min15被映射,C(1)至C(8)可由Min2,Min4,...Min16被映射。因为以后的动作方式与其之前的方式相同,予以省略。因为系数(C(1)~C(8))连续被输出,可代替库,使用寄存器实现。在此情况下,可减少使用于储存器130的库的个数。
图13是示出将地址生成部120实现为状态机的例子。因为阅读映射值(RMV)与传达至第9至第16库的地址属于常数,为了便利于说明,未表示在附图上。并且,在图中仅表示了从第一库传达至第8库的地址的生成。地址生成部120包括计数器1301、乘法器1302、第1至第8(1311,1312,...1318)。计数器1301输出从0开始的每增加1的整数。乘法器1302可在计数器的输出乘以16。加算器(1311~1318)可在乘法器1302的输出增加0至7。加算器(1311~1318)的输出可传达至第1库至第8库。
图14是示出在图11中所表现的MAC单元110的变形实施例的图。参照图14,MAC单元110包括八个MAC电路111及算术单元116。
与图11不同,各个8个MAC电路111仅包括乘法器112。此外,算术部116除了多个加法器113以外,还包括累积器115。累积器115具备加法器113与寄存器114。同样,当将位于MAC电路的累积器115移动至算数部116时,累积器115的个数可减少。
如上所示,本发明虽然已参照有限的实施例和附图进行了说明,但是本发明并不局限于所述实施例,在本发明所属领域中具备通常知识的人均可以从此记载中进行各种修改和变形。例如,在本实施例中,即使例示性地示出了利用8MAC的FFT运算,从业者可将8MAC充分利用于16MAC或者6MAC以上的MAC。
图15是示出根据一个实施例的FFT运算装置的图。参照图15,FFT运算装置具备乘法单元,地址生成单元120,储存器130,阅读映射器140,编写映射器150及控制部160。
乘法单元110包括多个乘法电路111及算术单元116。算术单元116针对多个乘法电路111输出的多个输出,执行和及差中的至少一个运算。算术部116输出由至少一个运算结果获得的多个乘法单元输出(Mout1~MoutC,其中,C为整数)。
地址生成单元120通过生成阅读地址组(RAG),将其传达至储存器130。阅读地址组(RAG)包括多个阅读地址。地址生成部120通过生成编写地址组(WAG),将其传达至储存器130。编写地址组(WAG)包括多个编写地址。地址生成单元通过生成阅读映射值(RMV)及编写映射值(WMV),将其分别传达至阅读映射器140及编写映射器150。
例如,地址生成部120具备计数器122及查询表124。计数器122可输出根据时钟信号(CK)变更的值。例如,计数器122可输出根据时钟信号(CK)增加的整数值。查询表124在多个阅读地址组中,可根据从计数器122输出的值输出所选定的阅读地址组(RAG),为此,查询表124可储存多个阅读地址组。
此外,查询表124可根据在多个编写地址组中从计数器122被输出的值,输出所选定的编写地址组(WAG)。为此,查询表124可储存多个编写地址组。编写地址组(WAG)除了从查询表124输出外,可通过延迟阅读地址组(RAG)取得编写地址组(WAG)。查询表(124)根据在多个阅读映射值中,从计数器122被输出的值,输出所选定的映射值(RMV)。为此,查询表124可储存多个阅读映射值。查询表124在多个编写映射值中,根据从计数器122被输出的值,可输出所选定的映射值(WMV)。为此,查询表124可储存多个编写映射值。
与图不同,地址生成部120可包括状态机(未图示)。状态机可根据时钟信号生成阅读地址组(RAG)、编写地址组(WAG)、阅读映射值(RMV)及编写映射值(WMV)。当地址生成部120具备状态机时,可省略查询表124或者计数器122。
储存器130可具备多个库132。因此,储存器130可同时读或写多个数据。比如,当储存器130具备4个库132时,储存器可同时阅读或编写4个数据。当然,在此情况下,4个数据应位于相互不同的库132中。比如,储存器130可为双端口储存器。在此情况下,储存器130可同时执行编写动作与阅读动作。例如,当储存器130具备4个库132时,储存器130可同时阅读四个数据,并编写4个数据。当然,在此情况下,阅读的四个数据位于相不同的库112中,并且,编写的四个数据也应位于相互不同的库132中。
多个库132储存多个阅读数据组。储存器130,在多个阅读数据组中,将与阅读地址组对应的阅读数据组(RDG)传达至乘法部110。阅读数据组(RDG)具备多个阅读数据。
多个阅读数据分别可为复述、实数或者整数。多个阅读数据可从相互不同的库132被输出。当储存器130具备第一至第四库时,在多个阅读数据中,第一至第四阅读数据可从第一至第四库分别被输出。比如,第一至第四阅读数据可分别为第一至第四库的第一数据。多个阅读数据可位于相互不同的行中。比如,第一及第三阅读数据分别为第一及第三库的第五数据,第二及第四阅读数据分别可为第二及第四库的第六数据。
多个库132储存多个编写数据组。
储存器130将编写数据组储存于与编写地址组对应的位置。编写数据组包括多个编写数据。多个编写数据可分别为复数、实数或者整数。
多个编写数据被储存于不同的库132中。当储存器130具备第一至第四库时,多个编写数据中,第一至第四编写数据可分别储存于第一至第四库中。多个编写数据可被储存于相同的行中。
例如,第一至第四编写数据可分别储存于第一至第四库的第一个位置。多个编写数据可储存于相互不同的行中。例如,第一及第三编写数据可分别储存于第一及第三库的第五个位置,第二及第四数据可分别储存于第二及第四库的第六个位置。
阅读映射器140可根据阅读映射值(RMV)将多个阅读数据映射于多个乘法单元输入(Min1~MinB,其中,B为整数)。编写映射器150可根据编写映射值(WMV)将多个乘法单元输出(Mout1~MoutC)映射为多个编写数据。
控制部160在储存器130储存初期阅读数据组,并在查询表124储存多个阅读地址组之后,驱动地址生成部120。即使多个乘法电路111同时动作,控制部160将初期阅读数据组储存于所述储存器,使多个阅读数据在多个库132中,从不同的库被输出。
如上所述,控制部160主要干预FFT运算装置的进行动作的初期,而FFT运算装置在执行运算时可完全不干涉,或者偶尔进行干涉。即,当执行运算时,主要由地址生成部120的动作可执行运算。因此,可减小控制部160的负担。例如,控制部160可为CPU。
图16至24是示出在图15中所示的FFT运算装置具备8个乘法电路,并执行16-点FFT(16-point fast Fourier transform)运算,例如,执行"radix2,decimation in time"运算时的动作的示意图。16-点FFT运算具备4个阶段(stage),并且,在各阶段执行8个蝴蝶运算。
16-点FFT具备16个输入(X(1)~X(16))及16个输出(Y(1)~Y(16))。图17是示出蝴蝶运算的示意图。图17中的蝴蝶可被输入第1及第2蝴蝶输入(x1,x2)及旋转因子(twiddlefactor,w),并输出第1及第2蝴蝶输出(y1,y2)。
图18是示出乘法部动作的示意图。参照图18,乘法部110可包括第一蝴蝶电路410及第二蝴蝶电路470。
第一蝴蝶电路410可具备第1至第4乘法电路(420,430,440,450)及第1算数部460。并且,第一乘法电路420可输出使第1及第2乘法部输入(Min1,Min2)相乘的值。第二乘法电路430可输出使第5及第6乘法部输入(Min5,Min6)相乘的值。第4乘法电路450可输出使第7及第8乘法部输入(Min7,Min8)相乘的值。
第1算术部460可输出第一至第四乘法部输出(Mout1~Mout4)。在第一乘法部输出(Mout1)
在第九乘法部输出(Min9)加上第一乘法电路420的输出,并减去第二乘法电路430的输出的值。
第二乘法部输出(Mout2)属于在第九乘法部输入(Min9)减去第一乘法电路420的输出,并加上第2乘法电路430的输出的值。
第三乘法部输出(Mout3)属于在第十乘法部输入(Min10)加上第三乘法电路440的输出,并加上第4乘法电路450的输出的值。
第四乘法部输出(Mout4)属于在第十乘法部输入(Min10)减去第三乘法电路440的输出,并减去第4乘法电路450的输出的值。为执行这种运算,第一算术部460可包括第一至第6合算部461~466。第1合算部(461)在第1乘法电路420的输出前去第二乘法电路430的输出。第2合算部(462)在第3乘法电路440的输出加上第四乘法电路450的输出。第3合算部(463)从第9乘法部输入(Min9)减去第一合算部461的输出。第五合算部465可在第10乘法部的输入(Min10)加上第二合算部462的输出。第六合算部466可在第10乘法部的输入(Min10)减去第二合算部462的输出。
第二蝴蝶电路470被输入第11至第20乘法部输入(Min11~Min20),并输出第5至第8乘法部输出(Mout5~Mout8)。因为第二蝴蝶电路470的构成与第一蝴蝶电路420相同,省略进行对于此的详细说明。
为执行蝴蝶运算,图18中的蝴蝶电路410可将第一蝴蝶输入(x1)的实数(x1[R])及虚数(x1[I])分别输入于第九至第十乘法部的输入(Min9,Min10)。
以如上所述的方法输入,第一蝴蝶输入(x2)的实数(x2[R]),可输入于第一及第五乘法部输入Min3,Min7。并且,旋转因子(w)的实数(w[R])可输入于第二及第八乘法部输入(Min2,Min8)。旋转因子(w)虚数(w[I])可输入于第四及第六乘法部输入(Min2,Min8)。以如上所述的方法输入,第一乘法部输出(Mout1)属于第一蝴蝶输出(y1)的实数。
第二乘法单元输出(Mout2)属于第二蝴蝶输出(y2)的实数。第三乘法单元输出(Mout3)属于第一蝴蝶输出(y1)的虚数。第四乘法单元输出(Mout4)属于第二蝴蝶输出y2的虚数。
参照图19,储存器130,包括第1至第6库510~560。例如,第1至第4库510~540作为双端口储存器,可同时进行4个输出与4个输入。例如,第5及第6库550~560作为单端口,可同时进行2个输出。
第一至第四库510~540可输出分别与第一至第四蝴蝶输入地址(XA1~XA4)对应的第一至第四蝴蝶输入(X1~X4)。第一至第四库510~540可被输入与第一至第四蝴蝶输出地址(YA1~YA4)对应的第一至第四蝴蝶输出(Y1~Y4)。第五及第六库(550,560)可输出与第一及第二旋转因此地址(WA1,WA2)分别对应的第一及第二旋转因子(W1,W2)。
第1至第4蝴蝶输入地址(XA1~XA4)及第1及第2旋转因子地址(WA1,WA2)与图15中的阅读地址组(RAG)对应。即,阅读地址组(RAG)作为多个阅读地址,包括第1至第4蝴蝶输入地址(XA1~XA4)及第1及第2旋转因子地址(WA1,WA2)。第1至第4蝴蝶输出地址(YA1~YA4)与图15中的编写地址组(WAG)对应。即,编写数据组(WAG)作为多个编写地址,包括第1至第4蝴蝶输出地址(YA1~YA4)。第1至第4蝴蝶输入(X1~X4)及第1及第2旋转因子(W1,W2)与图15中的阅读数据组(RDG)对应。即,阅读数据组(RDG)作为多个阅读数据,可包括第1至第4蝴蝶输入(X1~X4)及第1及第2旋转因子(W1,W2)。第1至第4蝴蝶输出(Y1~Y4)与图15中的编写数据组(WDG)对应。即,编写数据组(WDG)作为多个编写数据,包括第1至第4蝴蝶输出(Y1~Y4)。
储存器130根据一定顺序,储存初期阅读数据组(X(1)~X(16),W(1)~W(8)),以防止以免FFT运算中的多个库510~560之间的冲突。初期阅读数据组(X(1)~X(16),W(1)~W(8))为FFT运算前储存于储存器(130)的值,例如,可由控制部160储存。在附图中,1/X(1)指在1号X(1)可被储存,5/W(1)表示在5号W(1)被储存。
通常,16点FFT(X(1)~X(16))依序(X(1),X(2),X(3),X(4),X(5),X(6),X(7),X(8),X(9),X(10),X(11),X(12),X(13),X(14),X(15),X(16))被储存,但在本实施例中,可根据一定顺序(X(1),X(2),X(3),X(4),X(7),X(8),X(5),X(6),X(11),X(12),X(9),X(10),X(13),X(14),X(15),X(16))被储存。例如,即使一定顺序是不依次的,但以行单位是依次的。
即,W(1)及W(4)位于第1行,W(5)及W(8)位于第2行,W(9)及W(12)位于第3行,W(13)及W(16)位于第4行。一定顺序可通过预先模拟取得,以免发生FFT运算中的库510~540之间发生冲突。
其中,库510~540之间发生冲突指在第1至第4蝴蝶输入(X1~X4)中,两个以上的蝴蝶输入同时在一个库被阅读。因为一个库仅可同时输出1个蝴蝶输入,当发生两个以上的蝴蝶输入需要在一个库被阅读的情况时,不能进行正常的动作。模拟程序可用于程序编译过程。例如,编译器通过核实各库之间的是否有发生冲突,如果发生冲突了,可通过反复进行改变初期FFT输入(X(1)~X(16))中的部分输入位置的过程,决定一定顺序。
通常,八个旋转因子(W(1)~W(8))依序(W(1),W(2),W(3),W(4),W(5),W(6),W(7),W(8))被储存,但在本实施例中,可根据一定顺序(W(1),W(2),W(4),W(3),W(6),W(5),W(7),W(8))被储存。例如,即使一定顺序是不依次的,但以行单位是依次的。即,W(1)及W(2)位于第1行,W(3)及W(4)位于第2行,W(5)及W(6)位于第3行,W(7)及W(8)位于第4行。一定顺序可通过预先模拟取得,以免发生FFT运算中的库550~560之间发生冲突。
参照图20,地址生成器120的查询表124包括蝴蝶查询表610、旋转因子查询表620、阅读映射值查询表630,编写映射值查询表640及寄存器650。例如,控制单元160输入需填于蝴蝶查询表610,旋转因素查询表620,阅读映射值查询表630,编写映射值查询表640的值后,驱动计数器122。
蝴蝶查询表610可输出对应于计数器122输出值的多个蝴蝶输入地址(XA1~XA4)。
寄存器650将多个蝴蝶输入地址XA1~XA4输出为延迟至一个以上的时钟周期的多个蝴蝶输出地址(YA1~YA4)。
由于寄存器650的延迟,多个蝴蝶输入(X1~X4)从储存器130被输出后,作为多个蝴蝶输出(Y1~Y4),到输入至储存器130所需要的时间对应。
即使在图15中未明确地示出,多个蝴蝶输入(X1~X4)从储存器130被输出后,作为多个蝴蝶输出(Y1~Y4),直到被输入于多个储存器(130)需要一个以上的时钟周期。多个蝴蝶输出地址(YA1~YA4)通过只用延迟多个蝴蝶输入地址(XA1~XA4)的值,多个蝴蝶输出(Y1~Y4)储存在储存器130内的多个蝴蝶输入X1~X4所在的位置。
旋转因子查询表620可输出与计数器122的输出值对应的一个以上的旋转因子地址(WA1,WA2)。阅读映射值查询表630可输出与计数器的输出值对应的阅读映射值(RMV)。编写映射值查询表640可输出与计数器的输出值对应的编写映射值(WMV)。
图21是示出储存于蝴蝶查询表610的值的图。参照图21,在第一周期,蝴蝶查询表610作为多个蝴蝶输入地址(XA1~XA4)可输出1,2,3,4。因此,储存器130可将位于1,2,3,4号的X(1),X(2),X(3),X(4)作为多个蝴蝶输入(X1~X4)进行输出。
因为多个蝴蝶输入地址(XA1~XA4)还使用为多个蝴蝶输出地址(YA1~YA4),多个蝴蝶输出(Y1~Y4)可储存于储存器的相同位置,即1,2,3,4号。在第二周期,蝴蝶查询表610作为多个蝴蝶输入地址(XA1~XA4)可输出7,8,9,10。
因此,储存器130可将位于7,8,9,10号的X(7),X(8),X(5),X(6)作为蝴蝶输出(X1~X4)进行输出。因为多个蝴蝶输入地址(XA1~XA4)还使用为多个蝴蝶输出地址(YA1~YA4),多个蝴蝶输出(Y1~Y4)储存于储存器的相同位置,即7,8,9,10号。
以如上所述的方式,在第三周期,蝴蝶查询表610可输出13,14,15,16,储存器130输出X(11),X(12),X(9),X(10)。在第四周期,蝴蝶查询表610可输出19,20,21,22,储存器130可输出X(13),X(14),X(15),X(16)。因为以后的动作方式与其之前的方式相同,予以省略。
图22是指储存于旋转因子查询表620的值的图。参照图22,在第1至第四周期,旋转因子查询表620作为一个以上的蝴蝶输入地址(WA1,WA2),可输出5,NA。其中,NA表示没有输出值。储存器130将位于五号的W(1)作为一个以上的旋转因子(W1)进行输出,在第五周期,旋转因子查询表620作为一个以上的蝴蝶输入地址WA1,WA2,输出5,18。储存器130将位于五号,18号的W(1),W(5)作为一个以上的旋转因子(W1,W2)进行输出。其之后的动作,由于与之前的方式相同,为便于说明,进行省略。
图23是示出阅读映射器140的动作的示意图。
参照图23,在第1周期,阅读映射器140可将第二蝴蝶输入(X2)的实数(X2[R])映射于第一乘法部输入(Min1),将第1旋转因子(W1)的实数(W1[R])映射于第二乘法部输入(Min2),将第2旋转因子(X2)的虚数(X2[I])映射于第三乘法部输入(Min3),将第1旋转因子(X2)的虚数(W2[I])映射于第4乘法部输入(Min4)。
以上述方式,可将X2[R],W1[I],X2[I],W1[R],X1[R],X1[I],X4[R],W1[R],X4[I],W1[I],X4[R],W1[I],X4[I],W1[R],X3[R],X3[I]分别映射于第五至第20乘法部输入(Min5~Min20)。在第二周期,阅读映射器140可将X4[R],W1[R],X4[I],W1[I],X4[R],W1[I],X4[I],W1[R],X3[R],X3[I],X2[R],W1[R],X2[I],W1[I],X2[R],W1[I],X2[I],W1[R],X1[R],X1[I]分别映射于第一至第20乘法部输入(Min1~Min20)。因为以后的动作方式与其之前的方式相同,予以省略。
此外,在相同的行中,可变更数据之间的储存位置,并且,可通过使变更的行的变更规则变得有规律,可降低映射器的复杂度。此外,在映射信息中,针对相同行内的数据之间的位置变更的地址变更内容可合并于旋转因子查询表620。此过程的执行与内容可根据预先的模拟实验决定并获得。
图24是示出映射器150的动作的示意图。参照图24,在第1周期,映射器150将第1乘法部输出(Mout1)映射于第1蝴蝶输出(Y1)的实数值(Y1[R]),并且,可将第二乘法部输出(Mout2)映射于第1蝴蝶输出(Y2)的实数值(Y2[R]),将第三乘法部输出(Mout3)映射于第1蝴蝶输出(Y1)的虚数值(Y1[I]),将第四乘法部输出(Mout4)映射于第2蝴蝶输出(Y2)的虚数值(Y2[I])。此外,可将第5至第8乘法部输出(Mout5~Mout8)分别映射于Y3[R],Y4[R],Y3[I],Y4[I]。在第2周期,可将第1至第8乘法部输出(Mout1~Mout8)映射于Y3[R],Y4[R],Y3[I],Y4[I],Y1[R],Y2[R],Y1[I],Y2[I]。下面的动作,因与之前方式相同,予以省略。
如上所示,本发明虽然已参照有限的实施例和附图进行了说明,但是本发明并不局限于所述实施例,在本发明所属领域中具备通常知识的人均可以从此记载中进行各种修改和变形。例如,在本实施例中,即使通过例子示例性地表达了利用9乘法电路的FFT运算,但从业者可将适用于16乘法电路或者16乘法以上的乘法电路。

Claims (26)

1.一种多功能运算装置,包括:
乘积累加MAC单元,具备多个乘积累加电路;
地址生成单元,生成阅读地址组,并将所生成的所述阅读地址组传达至储存器,而所述阅读地址组具备多个阅读地址;及
储存器,具有多个库,储存多个阅读数据组,并且,
在多个阅读数据组中,将与所述阅读地址组对应的阅读数据组传达至所述MAC单元,而所述阅读数据组包括多个阅读数据;
其中,所述MAC单元还包括针对从所述多个MAC电路被输出的多个输出,执行和、差、累积及移位中的至少一个运算,并输出由所述至少一个运算结果取得的一个以上的MAC输出的算术单元;
其中,当所述多功能运算装置以FFT模式动作时,所述多个阅读数据组作为所述多个阅读数据,包括一个以上的旋转因子及多个蝴蝶输入,编写数据组作为多个编写数据包括多个蝴蝶输出,并且,由所述MAC单元执行蝴蝶运算;
其中,所述地址生成单元包括:
计数器,根据时钟输出变化值;
旋转因子查找表,输出与所述值对应的一个以上的旋转因子地址;
蝴蝶查找表,输出与所述值对应的多个蝴蝶输入地址;
寄存器,输出延迟所述多个蝴蝶输入地址的多个蝴蝶输出地址;
将所述多个以上的旋转因子地址及所述多个蝴蝶输入地址作为所述多个阅读地址传达至所述储存器,将所述多个蝴蝶输出地址作为多个编写地址传达至所述储存器。
2.根据权利要求1所述的多功能运算装置,还包括:控制单元,在所述储存器储存初期阅读数据组,并且,在所述地址生成单元储存所述多个阅读地址组之后,驱动所述地址生成单元。
3.根据权利要求2所述的多功能运算装置,其中,所述控制单元与所述多个MAC电路同时动作,同时,将所述初期阅读数据组储存在所述储存器,以使所述多个阅读数据从所述多个库中的一些相互不同的库被输出。
4.根据权利要求1所述的多功能运算装置,其中,所述多个MAC电路分别包括乘法器及累积器。
5.根据权利要求1所述的多功能运算装置,其中,所述多个MAC电路分别包括乘法器或者乘法器及加算器。
6.根据权利要求1所述的多功能运算装置,还包括:根据从所述地址生成单元被输出的阅读映射值,将所述多个阅读数据映射为多个MAC输入,并将所述多个MAC输入传达至所述多个MAC电路的阅读映射器。
7.根据权利要求1所述的多功能运算装置,其中,还包括:根据从所述地址生成单元所输出的编写映射值,将所述一个以上的MAC输出映射到一个以上的编写数据,并且,将所述一个以上的编写数据传达至所述储存器的编写映射器。
8.根据权利要求1所述的多功能运算装置,其中,所述地址生成单元通过控制所述储存器,使所述多个蝴蝶输出分别储存于所述储存器内的所述多个蝴蝶输入所在的位置。
9.根据权利要求1所述的多功能运算装置,其中,所述储存器根据一定顺序储存初期阅读数据组,以防止在FFT运算过程中,所述多个库之间发生冲突。
10.根据权利要求9所述的多功能运算装置,其中,所述一定顺序是不依次的,但作为行单位是依次的。
11.根据权利要求1所述的多功能运算装置,其中,
所述MAC单元作为所述多个MAC电路包括第一至第四MAC电路,
所述第一MAC电路使第一MAC输入及第二MAC输入相乘,
所述第二MAC电路使第三MAC输入及第四MAC输入相乘,
所述第三MAC电路使第五MAC输入及第六MAC输入相乘,
所述第四MAC电路使第七MAC输入及第八MAC输入相乘,
所述算术单元作为所述一个以上的MAC输出,输出第一至第四MAC输出,
所述第一MAC输出属于在第九输入加上所述第一MAC电路的输出,并减去所述第二MAC电路的输出的值,
所述第二MAC输出属于在第九输入减去所述第一MAC电路的输出,并减去所述第二MAC电路的输出的值,
所述第三MAC输出属于在第十输入加上所述第三MAC电路的输出,并加上所述第四MAC电路的输出的值,
所述第四MAC输出属于在第十输入减去所述第三MAC电路的所述输出,并减去所述第四MAC电路的所述输出的值。
12.根据权利要求11所述的多功能运算装置,其中,在所述多个蝴蝶输入中,第一蝴蝶输入的实数值传达至所述第九MAC输入,
所述第一蝴蝶输入的虚数值传达至所述第十MAC输入,
所述多个蝴蝶输入中,第二蝴蝶输入的实数值传达至所述第一及第五MAC输入,
将所述第二蝴蝶输入的虚数值传达至所述第三及第七MAC输入,
在所述一个以上的旋转因子中,将一个旋转因子的实数值传达至第二及第八MAC输入,
所述一个旋转因子的虚数值传达至所述第四及第六MAC输入。
13.根据权利要求12所述的多功能运算装置,其中,所述第一MAC输出属于所述多个蝴蝶输出中的第一蝴蝶输出的实数值,
所述第二MAC输出属于所述多个蝴蝶输出中的第二蝴蝶输出的实数值,
所述第三MAC输出属于所述第一蝴蝶输出的虚数值,
所述第四MAC输出属于所述第二蝴蝶输出的虚数值。
14.根据权利要求1所述的多功能运算装置,还包括:控制单元,在所述储存器储存初期FFT输入,并在所述地址生成单元储存多个蝴蝶输入地址之后,驱动所述地址生成单元。
15.一种FFT运算装置,包括:
乘法单元,具备多个乘法电路;
地址生成单元,生成阅读地址组,将所生成的所述阅读地址组传达至储存器;及
储存器,具备储存多个阅读数据组的多个库,并且,
在所述多个阅读数据组中,将与所述阅读地址组对应的阅读数据传达至所述乘法单元,而所述阅读数据组包括具备多个阅读数据;
其中,所述乘法单元还包括针对从所述多个乘法电路输出的多个输出,执行和及差中的至少一个运算,并且,输出由所述至少一个运算结果取得的多个乘法单元输出的算术单元;
其中,所述阅读数据组作为所述多个阅读数据包括一个以上的旋转因子及多个蝴蝶输入,编写数据组作为多个编写数据包括多个蝴蝶输出,并且,由所述乘法单元执行蝴蝶运算;
其中,所述地址生成单元包括:
根据时钟输出变化值的计数器;
输出对应于所述值的一个以上的旋转因子地址的旋转因子查询表;
输出对应于所述值的多个蝴蝶输入地址的蝴蝶查询表;及
输出延迟所述多个蝴蝶输入地址的多个蝴蝶输出地址的寄存器;
将所述一个以上的旋转因子地址及所述多个蝴蝶输入地址作为所述多个阅读地址传达至所述储存器,所述多个蝴蝶输出地址作为多个编写地址传达至所述储存器。
16.根据权利要求15所述的FFT运算装置,还包括:在所述储存器储存初期阅读数据组,并在所述地址生成单元储存所述多个阅读地址组之后,驱动所述地址生成单元的控制单元。
17.根据权利要求16所述的FFT运算装置,其中,所述控制单元与所述多个乘法电路同时动作,同时,将所述初期阅读数据组储存在所述储存器,以使所述多个阅读数据从所述多个库中的一些相互不同的库被输出。
18.根据权利要求15所述的FFT运算装置,还包括:根据从所述地址生成单元被输出的映射值,将所述多个阅读数据映射到多个乘法单元的输入,并将所述多个乘法单元输入传达至所述多个乘法电路的阅读映射器。
19.根据权利要求15所述的FFT运算装置,还包括:根据从所述地址生成单元所生成的编写映射值,将所述多个乘法单元的输出映射到多个编写数据,并且,将所述多个编写数据传达至所述储存器的编写映射器。
20.根据权利要求15所述的FFT运算装置,其中,所述地址生成单元,通过控制所述储存器,使所述多个蝴蝶输出分别储存于所述储存器内的所述多个蝴蝶输入所在的位置。
21.根据权利要求15所述的FFT运算装置,其中,所述储存器根据一定顺序储存初期阅读数据组,以防止在FFT运算过程中,所述多个库之间发生冲突。
22.根据权利要求21所述的FFT运算装置,其中,
即使一定的顺序是不依次的,但作为行单位,是依次的。
23.根据权利要求15所述的FFT运算装置,其中,所述乘法单元作为所述多个乘法电路,包括第一至第四乘法电路,
所述第一乘法电路使第一乘法单元输入及第二乘法单元输入相乘,
所述第二乘法电路使第三乘法单元输入及第四乘法单元输入相乘,
所述第三乘法电路使第五乘法单元输入及第六乘法单元的输入相乘,
所述第四乘法电路使第七乘法单元输入及第八乘法单元的输入相乘,
所述算术单元作为所述多个乘法单元输出,输出第一至第四乘法单元输出,
所述第一乘法单元的输出,在第九乘法单元的输出加上所述第一乘法电路的输出,并且,其属于所述第二乘法单元的输出属于在所述第九乘法单元的输入减去第一乘法电路的所述输出,并加上在所述第二乘法电路的所述输出的值,
所述第三乘法单元的输出属于在第十乘法单元输入加上所述第三乘法电路的输出,并加上所述第四乘法电路的输出的值,
所述第四乘法单元的输出属于在所述第十乘法单元的输入减去第三乘法电路的所述输出与所述第四乘法电路的所述输出的值。
24.根据权利要求23所述的FFT运算装置,其中,在所述多个蝴蝶输入中,第一蝴蝶输入的实数值传达至所述第九乘法单元输入,
所述第一蝴蝶输入的虚数值传达至所述第十乘法单元输入,
在所述多个蝴蝶输入中,第二蝴蝶输入的实数值传达至所述第一及第五乘法单元输入,
所述第二蝴蝶输入的虚数值传达至所述第三及第七乘法单元输入,
在所述一个以上的旋转因子中,一个旋转因子的实数值传达至所述第二及第八乘法单元输入,
所述一个旋转因子的虚数值传达至所述第四及第六乘法单元输入。
25.根据权利要求24所述的FFT运算装置,其中,
所述第一乘法单元输出属于所述多个蝴蝶输出中的第一蝴蝶输出的实数值,
所述第二乘法单元输出属于所述多个蝴蝶输出中的第二蝴蝶输出的实数值,
所述第三乘法单元输出属于所述第一蝴蝶输出的虚数值,
所述第四乘法单元输出属于所述第二蝴蝶输出的虚数值。
26.根据权利要求15所述的FFT运算装置,还包括:在所述储存器储存初期FFT输入,并在所述地址生成单元储存多个蝴蝶输入地址之后,驱动所述地址生成单元的控制单元。
CN201780043429.0A 2016-07-13 2017-07-10 多功能运算装置及快速傅里叶变换运算装置 Active CN109496306B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
KR1020160088659A KR101842937B1 (ko) 2016-07-13 2016-07-13 다기능 연산 장치
KR10-2016-0088659 2016-07-13
KR10-2016-0156445 2016-11-23
KR1020160156445A KR101859294B1 (ko) 2016-11-23 2016-11-23 고속 푸리에 변환 연산 장치
PCT/KR2017/007358 WO2018012828A1 (ko) 2016-07-13 2017-07-10 다기능 연산 장치 및 고속 푸리에 변환 연산 장치

Publications (2)

Publication Number Publication Date
CN109496306A CN109496306A (zh) 2019-03-19
CN109496306B true CN109496306B (zh) 2023-08-29

Family

ID=60952604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780043429.0A Active CN109496306B (zh) 2016-07-13 2017-07-10 多功能运算装置及快速傅里叶变换运算装置

Country Status (3)

Country Link
US (1) US10949493B2 (zh)
CN (1) CN109496306B (zh)
WO (1) WO2018012828A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344964B (zh) * 2018-08-08 2020-12-29 东南大学 一种适用于神经网络的乘加计算方法和计算电路
US11226822B2 (en) * 2019-05-27 2022-01-18 Texas Instmments Incorporated Look-up table initialize
CN113094639B (zh) * 2021-03-15 2022-12-30 Oppo广东移动通信有限公司 一种dft并行处理方法、装置、设备及存储介质
CN114185514B (zh) * 2021-12-13 2024-03-08 合肥工业大学 一种基于费马模数的多项式乘法器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081592A (zh) * 2009-11-27 2011-06-01 重庆重邮信科通信技术有限公司 一种混合基dft和idft快速实现方法及装置
KR20120100197A (ko) * 2011-03-03 2012-09-12 삼성전기주식회사 리포지션된 순서로 데이터를 출력하는 고속 푸리에 변환 장치
US8812819B1 (en) * 2011-08-18 2014-08-19 Altera Corporation Methods and apparatus for reordering data signals in fast fourier transform systems

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0228187B2 (ja) 1983-05-04 1990-06-21 Victor Company Of Japan Kosokufuuriehenkannoenzansochi
ATE297567T1 (de) 1998-03-18 2005-06-15 Qualcomm Inc Digitaler signalprozessor zur reduzierung des zugriffswettbewerbs
US6839728B2 (en) * 1998-10-09 2005-01-04 Pts Corporation Efficient complex multiplication and fast fourier transform (FFT) implementation on the manarray architecture
JP2001022577A (ja) 1999-07-13 2001-01-26 Matsushita Electric Ind Co Ltd 情報処理装置
US20040181503A1 (en) * 2003-03-13 2004-09-16 Motorola, Inc. Information storage and retrieval method and apparatus
KR100835173B1 (ko) 2006-09-20 2008-06-05 한국전자통신연구원 곱셈 누적 연산을 위한 디지털 신호처리 장치 및 방법
GB2464292A (en) 2008-10-08 2010-04-14 Advanced Risc Mach Ltd SIMD processor circuit for performing iterative SIMD multiply-accumulate operations
US20150331634A1 (en) * 2013-01-09 2015-11-19 Sergei I. SALISHCHEV Continuous-flow conflict-free mixed-radix fast fourier transform in multi-bank memory
KR102357863B1 (ko) 2014-12-15 2022-02-04 삼성전자주식회사 메모리 접근 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081592A (zh) * 2009-11-27 2011-06-01 重庆重邮信科通信技术有限公司 一种混合基dft和idft快速实现方法及装置
KR20120100197A (ko) * 2011-03-03 2012-09-12 삼성전기주식회사 리포지션된 순서로 데이터를 출력하는 고속 푸리에 변환 장치
US8812819B1 (en) * 2011-08-18 2014-08-19 Altera Corporation Methods and apparatus for reordering data signals in fast fourier transform systems

Also Published As

Publication number Publication date
US20190294650A1 (en) 2019-09-26
US10949493B2 (en) 2021-03-16
CN109496306A (zh) 2019-03-19
WO2018012828A1 (ko) 2018-01-18

Similar Documents

Publication Publication Date Title
CN109496306B (zh) 多功能运算装置及快速傅里叶变换运算装置
US11720353B2 (en) Processing apparatus and processing method
KR920006283B1 (ko) 디지탈신호 처리방식
CN103778100B (zh) 向量处理器的存储器互连网络体系结构
CA2758366C (en) System, device, and method for on-the-fly permutations of vector memories for executing intra-vector operations
US11093682B2 (en) Language and compiler that generate synchronous digital circuits that maintain thread execution order
RU2010107218A (ru) Схема для упаковки и связывания переменной в графических системах
CN111651203B (zh) 一种用于执行向量四则运算的装置和方法
CN114008586A (zh) 使用处理元件阵列的转置运算
CN102999313A (zh) 一种基于蒙哥马利模乘的数据处理方法
CN102171682A (zh) 用于高效fft和fir硬件加速器的计算模块
CN103870335A (zh) 用于信号流编程的数字信号处理器代码的高效资源管理的系统和方法
CN104050148B (zh) 快速傅里叶变换加速器
CN109993293A (zh) 一种适用于堆叠式沙漏网络的深度学习加速器
CN105045789A (zh) 一种游戏服务器数据库缓存方法及系统
KR101859294B1 (ko) 고속 푸리에 변환 연산 장치
US20070260660A1 (en) Efficient mapping of FFT to a reconfigurable parallel and pipeline data flow machine
KR101842937B1 (ko) 다기능 연산 장치
KR101715456B1 (ko) 스레드 오프셋 카운터
CN107506332B (zh) Kalman滤波器快速实现方法
KR20180058166A (ko) 고속 푸리에 변환 연산 장치
CN103389965B (zh) 一种实现sm2密码体制的大整数求乘逆方法
JP2010524080A (ja) 複数のコンピュータ・プロセッサを用いる畳み込み計算システム
CN112631955A (zh) 数据处理方法、装置、电子设备以及介质
CN111832714B (zh) 运算方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210514

Address after: Han Guojingjidao

Applicant after: Molumi Ltd.

Address before: Han Guojingjidao

Applicant before: Jin Taiheng

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant