CN101937332B

CN101937332B - 基于基-24算法的多路fft处理器中乘法器的复用方法

Info

Publication number: CN101937332B
Application number: CN201010257622.4A
Authority: CN
Inventors: 周晓方; 汪文义; 王琳凯
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2010-08-19
Filing date: 2010-08-19
Publication date: 2014-04-02
Anticipated expiration: 2030-08-19
Also published as: CN101937332A

Abstract

本发明属于数字信号处理集成电路设计技术领域，具体为基于基2⁴算法的多路FFT处理器中乘法器的复用方法。本发明提出了一种改进的基2⁴频域抽取FFT算法，减少FFT处理器设计中通用乘法器的数目，并且使基于此算法设计的单路FFT处理器中蝶形运算的常复系数乘法器利用率低于50％，从而提出多路FFT处理器中常复系数乘法器的复用方法及相应的FFT处理器结构。本发明实现不同路中常复系数乘法器的复用，减少了FFT处理器的乘法器数目，同时维持吞吐率不变。

Description

基于基-24算法的多路FFT处理器中乘法器的复用方法

技术领域

本发明属于数字信号处理集成电路设计技术领域，具体涉及设计单路FFT处理器时常复系数乘法器利用率都低于50％的基-2⁴算法，并实现对基于此算法的多路FFT处理器中常复系数乘法器的复用方法。

背景技术

离散傅立叶变换(DFT)是数字信号处理中的重要模块，被广泛应用于数字信号处理的各个领域，但受DFT计算复杂度的限制，DFT在实际应用中受到很大的限制。自Cooly和Turkey提出基-2FFT算法后[1]，使DFT的计算复杂度从N²降低到(N/2)log₂N，而且该算法具有良好的规整性，便于VLSI实现，使得FFT得到广泛应用。He和Torksen在1998年提出了基-2²和基-2³FFT算法[2]，减少了计算复杂度，又维持了基-2FFT算法的规则性，被认为是实现FFT处理器的最优算法之一。

在FFT处理器设计中，流水线结构可以以适当的硬件规模来获得较高的吞吐率，是目前FFT处理器中普遍采用的结构，其要求FFT算法具有规整性，[2][3]等目前大多数对FFT的研究都基于流水线结构来设计FFT处理器。FFT的流水线结构主要可被划分为两类，全并行流水线结构(MDC)和单路数据反馈结构(SDF)，前者提供高吞吐率，但存储单元利用率低，存储单元和硬件规模较大，后者吞吐率相对低些，但提高了存储单元利用率，减少了存储单元，硬件规模小。本发明采用SDF结构以节省面积。

随着传输信息量的不断增加，多天线正交频分复用技术日益成为无线通信系统中的关键技术，而多路FFT处理器是其中的重要模块，吞吐率高但是硬件规模很大。为了进一步降低计算复杂度，[4]中根据基-2³DIF FFT算法[2]推导出一种基-2⁴算法，但用于设计单路FFT处理器时蝶形运算(BF)II后的常复系数乘法器利用率高于50％，在设计多路FFT处理器时若采用[4]中基-2⁴算法，劂常复系数乘法器不能在维持吞吐率不变的同时实现复用。针对上述问题，本发明在此根据基-2³算法推导一种新型的基-2⁴算法，基于此算法设计单路FFT处理器时可得到BF II和BFIII后的常复系数乘法器利用率低于50％，为设计多路基-2⁴FFT处理器时维持吞吐率不变，同时复用常复系数乘法器以减少硬件规模提供了可能，在此基础上本发明提出了一种多路基-2⁴FFT处理器结构，通过调整不同路输入和中间数据的顺序关系，错开常复系数乘法器，实现复用常复系数乘法器的复用，可以减少乘法器数目且维持吞吐率不变。

[1]J.W.Cooley and J.Tukey，“An algorithm for the machine calculation of complex Fourier series，”Math.Comput.，1965，vo1.19，pp.297-301.

[2]Shousheng He，Mars Torkelson.Designing pipeline FFT processor for OFDM (de)modulation.Pisa：URSI International Symposium on Signals，Systems，and Electronics.1998，257-262.

[3]Yu-Wei Lin，Wan-Chun Liao and Chen-Yi Lee，a MRMDF FFT processor for MIMO OFDM Application.Asian Solid-State Circuits Conference.2005，225-228.

[4]Jung-yeol Oh，Myoung-seob Lim.Fast fourier transform processor based on low-power and area-efficient algorithm.IEEE Asia-Pacific Conference on Advanced System Integrated Circuits.2004，198-201.

发明内容

为了进一步提高处理器中运算单元的利用率，降低硬件复杂度，本发明提出一种基-2⁴频域抽取(DIF)FFT算法，以减少FFT设计中通用乘法器的数目，并采用SDF结构，通过调整输入和中间数据的顺序关系，实现常复系数乘法器的复用，减少FFT处理器的乘法器数目，同时维持吞吐率不变。

本发明提出的基-2⁴DIF FFT分解算法，具体过程如下：

对于N点(N是2的幂)序列x(n)，其离散傅立叶变换定义为：

X (k) = Σ_{n = 0}^{N - 1} x (n) W_{N}^{nk}, k = 0,1,2 . . . N - 1 - - - (1)

其中，x(n)和X(k)是复数序列，旋转因子

W_{N}^{nk} = e^{- j (2 πnk / N)} = \cos (2 πnk / N) - j \sin (2 πnk / N) .

n = < \frac{N}{2} n_{1} + \frac{N}{4} n_{2} + \frac{N}{8} n_{3} + \frac{N}{16} n_{4} + n_{5} >_{N}, n_{1}, n_{2}, n_{3}, n_{4} = 0,1; n_{5} = 0 . . . \frac{N}{16} - 1

k = < k_{1} + {2 k}_{2} + {4 k}_{3} + {8 k}_{4} + {16 k}_{5} >_{N}, k_{1}, k_{2}, k_{3}, k_{4} = 0,1; k_{5} = 0 . . . \frac{N}{16} - 1

将上式代入(1)中有：

X (k_{1} + {2 k}_{2} + {4 k}_{3} + {8 k}_{4} + {16 k}_{5}) = Σ_{n_{5} = 0}^{\frac{N}{16} - 1} Σ_{n_{4} = 0}^{1} Σ_{n_{3} = 0}^{1} Σ_{n_{2} = 0}^{1} Σ_{n_{1} = 0}^{1} x (\frac{N}{2} n_{1} + \frac{N}{4} n_{2} + \frac{N}{8} n_{3} + \frac{N}{16} n_{4} + n_{5}) W_{N}^{nk} - - - (2)

其中旋转因子

可表示为：

\begin{matrix} W_{N}^{nk} = W_{N}^{(\frac{N}{2} n_{1} + \frac{N}{4} n_{2} + \frac{N}{8} n_{3} + \frac{N}{16} n_{4} + n_{5}) (k_{1} + {2 k}_{2} + {4 k}_{3} + {8 k}_{4} + {16 k}_{5})} \\ = W_{N}^{\frac{N}{2} n_{1} k_{1}} W_{N}^{\frac{N}{4} n_{2} (k_{1} + {2 k}_{2})} W_{N}^{\frac{N}{8} n_{3} (k_{1} + {2 k}_{2} + {4 k}_{3})} * W_{N}^{\frac{N}{16} n_{4} (k_{1} + {2 k}_{2} + {4 k}_{3} + {8 k}_{4})} W_{N}^{n_{5} (k_{1} + 2 k_{2} + {4 k}_{3} + {8 k}_{4} + {16 k}_{5})} \\ = {(- 1)}^{n_{1} k_{2}} {(- j)}^{n_{2} (k_{1} + {2 k}_{2})} W_{N}^{\frac{N}{8} n_{3} (k_{1} + {2 k}_{2} + {4 k}_{3})} * W_{N}^{\frac{N}{16} n_{4} (k_{1} + {2 k}_{2} + {4 k}_{3} + {8 k}_{4})} W_{N}^{n_{5} (k_{1} + {2 k}_{2} + {4 k}_{3} + {8 k}_{4})} W_{N}^{16 n_{5} k_{5}} \end{matrix} - - - (3)

将(3)代入(2)式中，并简化可得到一组长度为N/16DFT的集合如下：

X (k_{1} + {2 k}_{2} + {4 k}_{3} + {8 k}_{4} + {16 k}_{5}) = Σ_{n_{5} = 0}^{\frac{N}{16} - 1} [Q_{\frac{N}{16}} (n_{5}, k_{1}, k_{2}, k_{3}, k_{4}) W_{N}^{n_{5} (k_{1} + {2 k}_{2} + {4 k}_{3} + {8 k}_{4})}] W_{\frac{N}{16}}^{n_{5} k_{5}}

其中，令Q(n₅，k₁，k₂，k₃，k₄)为第四级蝶形运算，表达式为：

其中T(n₅，k₁，k₂，k₃)为第三级蝶形运算，表达式为：

其中H(n₅，k₁，k₂)为第二级蝶形运算，表达式为：

其中B(n₅，k₁)为第一级蝶形运算，表达式为：

B_{\frac{N}{2}} (\frac{N}{4} n_{2} + \frac{N}{8} n_{3} + \frac{N}{16} n_{4} + n_{5}, k_{1}) = x (\frac{N}{4} n_{2} + \frac{N}{8} n_{3} + \frac{N}{16} n_{4} + n_{5}) + {(- 1)}^{k_{1}} x (\frac{N}{4} n_{2} + \frac{N}{8} n_{3} + \frac{N}{16} n_{4} + n_{5} + \frac{N}{2}) - - - (7) .

本发明提出的新型的基-2⁴算法计算复杂度比基-2³算法小，且具有基-2算法的规则性，适合于流水线结构设计，图1表示了N=32的基于该算法的FFT信号流程图，由式(4)、(5)和(6)可知，改进的基-2⁴算法中有常复系数-j、W₈ ¹、W₁₆ ¹、W₁₆ ³及其乘积组合，可见图1。-j乘法运算相当于实部虚部互换和符号位取反操作，可以合并到蝶形运算中且不增加硬件消耗；将实现式(5)，式(6)中的常复系数乘法运算的两个乘法器，分别记为常复系数乘法器1和常复系数乘法器2，前者只包含W₈ ¹乘法运算，如图1中间第二列所示；后者包含W₈ ¹、W₁₆ ¹、W₁₆ ³乘法运算，如图1中间第三列所示。

由公式和图1可知，基于改进基-2⁴算法设计的单路FFT处理器中常复系数乘法器利用率低于50％，为多路FFT处理器中常复系数乘法器的复用提供了可行方案。具体方法如下：为了充分利用乘法器，将m路FFT处理器输入数据均分为上下两组，并将两组输入数据分别以正序和逆序数据并行输入，在每一级的蝶形运算单元中，都是先将两数的加法结果先输出到下一级运算中，而减法结果被暂时存储在存储单元中，本发明采用SDF结构，所以减法结果在N/2^L(L表示第L级蝶形运算)个周期后输出到下一级运算。两路数据的32点FFT信号流程图如图2所示。

本发明根据基-2³算法提出了一种新型的基-2⁴算法，基于此算法设计单路FFT处理器时可得到BF II和BFIII后的常复系数乘法器利用率低于50％，为设计多路基-2⁴FFT处理器时维持吞吐率不变，同时复用常复系数乘法器以减少硬件规模提供了可能，在此基础上本发明提出了一种多路FFT处理器中常复系数乘法器的复用方法，以及相应的多路基-2⁴FFT处理器结构，即通过调整不同路输入和中间数据的顺序关系，错开常复系数乘法器，实现复用常复系数乘法器的复用，可以减少乘法器数目且维持吞吐率不变。

附图说明

图1是N=32点的基-2⁴DIF FFT信号流程图。

图2是调整数据顺序的两路32点基-2⁴DIF FFT信号流程图。

图3是采用本发明的两路256点FFT处理器的整体结构。

具体实施方式

本发明中的多路FFT处理器是上文中的基于基-2⁴算法，为实现多路FFT处理器的常复系数乘法器的复用提供了可能，并且采用SDF结构来实现，通过调整不同路数据的输入数据顺序和中间数据顺序来错开常复系数乘法器，实现常复系数乘法器的复用，其具体实施步骤如下：

(1)本发明是针对含有基-2⁴算法FFT的设计，设计多路N(N≥16)点FFT处理器时，首先根据本发明上文中提到的DIF基-2⁴算法对FFT逐步进行分解，可根据表达式画出基于基-2⁴算法的DIF FFT的信号流程图，类似于图1。

(2)将多路FFT均分成上下两组，则对应的数据也分为两组。

(3)将上下两组输入数据分别以正逆序输入，可以以两路32点FFT为例画出相应的信号流程图，如图2所示，上行数据输入顺序依次是x_u(0)、x_u(1)……x_u(31)，下行数据输入顺序依次是x_d(31)、x_d(30)……x_d(0)，数据FFT中间蝶形运算得到两个加减结果，加法结果立即被输出到下一级运算中，减法结果在N/2^L(L表示第L级蝶形运算)个时钟周期后输出到下一级运算。

(4)采用步骤(2)、(3)方法错开了常复系数乘法器，实现常复系数乘法器的复用。可以图2为例，中间列的数字表示该级数据输出到下一级运算的相对时间，如中间第一列横线上的“0”表示该级第一个数据输出到下一级运算，“1”表示第二个，以此类推数据依次输出到下一级运算中。由图2可知，通过调整其中一路数据的顺序，中间列的第二和第三列的常复系数乘法运算在时间上没有冲突，以第二列为例，上行数据在相对时间“20”到“23”和“28”到“31”乘以常复系数W₈ ¹，下行数据在相对时间“16”到“19”和“24”到“27”乘以常复系数W₈ ¹，所以可以实现对多路基-2⁴FFT处理器结构中常复系数乘法器的复用，减少了硬件规模，同时维持吞吐率不变。

(5)根据步骤(4)中得到的多路FFT信号流程图可映射得到多路FFT处理器的整体结构，以两路256点FFT处理器为例，其整体结构如图3所示，其中Mem表示存储单元，蝶形运算单元1不包含-j乘法运算，蝶形运算单元2是包含-j乘法运算，常复系数乘法器1只包含W₈ ¹乘法运算，常复系数乘法器2包含W₈ ¹、W₁₆ ¹、W₁₆ ³乘法运算，通用复数乘法器是实现旋转因子TF的乘法运算。本发明实现了本发明对常复系数乘法器的复用，同时维持吞吐率不变。基于映射得到的整体结构就可以去具体实现FFT多路处理器。