CN110096672A

CN110096672A - 基于fpga的低成本流水线型fft处理器实现方法

Info

Publication number: CN110096672A
Application number: CN201910339605.6A
Authority: CN
Inventors: 高静; 桑田; 徐江涛; 聂凯明
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2019-08-06

Abstract

本发明公开一种基于FPGA的低成本流水线型FFT处理器实现方法，包括多个连接在一起形成数据处理流水线的FFT运算处理单元，每个所述FFT运算处理单元包括：一由基2频率抽取FFT算法产生的蝶形运算单元、一MSR‑CORDIC处理器、一组用于延时和暂存数据的移位寄存器；所述MSR‑CORDIC处理器由一用于存储建模得到的控制字的查找表控制。本发明所提出的改进的MSR‑CORDIC优化了硬件资源的使用和芯片所需的面积，查找表只存储控制字，从而降低了内存需求并提高了处理速度。

Description

基于FPGA的低成本流水线型FFT处理器实现方法

技术领域

本发明涉及FFT处理器技术领域，特别是涉及基于FPGA的低成本流水线型FFT处理器实现方法。

背景技术

FFT广泛用于诸如通信和图像处理的各种领域，经常占用硬件实现系统中的大部分芯片区域，加快FFT处理速度、减少资源消耗、实时性的要求已成为数字信号处理的研究热点。目前的FFT实现方法主要为流水线结构，以提高速度和吞吐量。利用CORDIC算法处理FFT处理器中的旋转因子(TF)可代替传统的复数加法器和乘法器，显著减少实现TF乘法所需的资源，提高系统的速度。

已有的低成本FFT处理器主要通过结合传统流水线型CORDIC和正则编码(CSD)、提高FFT的基或者构建近似乘法器来实现。传统流水线型CORDIC需要增加级数来提高精度，这增加了实现的成本并且会导致大的延迟，而FFT基的升高对于无法被基整除的数据数需要进行补零等处理，浪费资源，而进一步提出的混合基FFT处理器增加了控制的复杂度。构建近似乘法器容易造成精度的损失，需要增加额外的补偿机制。

发明内容

本发明的目的是针对现有技术中存在的技术缺陷，而提供一种基于FPGA的低成本流水线型FFT处理器实现方法，采用改进的混合缩放坐标旋转数字计算方法((MSR-CORDIC)来处理SDF架构的FFT处理器的旋转因子，完成信号从时域到频域的变换。

为实现本发明的目的所采用的技术方案是：

一种基于FPGA的低成本流水线型FFT处理器实现方法，包括：

多个连接在一起形成数据处理流水线的FFT运算处理单元，每个所述FFT运算处理单元包括：一由基2频率抽取FFT算法产生的蝶形运算单元、一MSR-CORDIC处理器、一组用于延时和暂存数据的移位寄存器；所述MSR-CORDIC处理器由一用于存储建模得到的控制字的查找表控制；

工作过程中，运算数据顺序流入，按照FFT算法原理的奇偶分离原理，将前半部分数据串行送入移位寄存器，下半部分数据到达时，通过控制多路复用器选择当前输入为反馈回的信号输入，实现下部分数据与对应延时数据匹配送入蝶形运算单元运算，蝶形运算单元运算处理后的一路输出接入MSR-CORDIC得到与旋转因子相乘的结果送入前置Mux，另一路输出直接送入该前置Mux，通过前置Mux进行选择作为下一级FFT运算处理单元的输入，构成流水线。

其中，所述运算处理单元的延时周期分别为N/2^M，M＝1,2,3,4为级数。

其中，所述MSR-CORDIC处理器包括：两个桶形移位器阵列,用于执行移位操作，由通过建模得到的控制字进行控制；四个加法器/减法器，与两个桶形移位器阵形通过三个多路复位用器连接，用于执行输出的总和：其中输出为：

其中，μ_j(m),η_i(m)∈{-1,0,1}是每次旋转缩放的符号因子，s_i(m),t_j(m)∈{0,1,…S}，S为最大位移量，输出x_m、y_m是其上一状态x_m-1y_m-1的线性组合I和J分别表示x_m和y_m的二次方项的数量，被称为扩展因子，I+J＝3。

其中，所述MSR-CORDIC处理器将输入(x₀、y₀)进行m次旋转迭代和缩放后得到通过计算旋转迭代和缩放方程得到每次旋转角度θ_m，将角度值累加，累加后的角度值，即为完成旋转迭代后变换的总角度值Z_m，其公式如下：

k＝2^(M-1),M＝1,2…log2(N)

其中，M为FFT运算处理单元的级数，m为旋转迭代和缩放的次数。

其中，所述MSR-CORDIC处理器处理时，计算每次旋转的放大因子p_m，并累乘得到最终的放大因子P；其公式如下。

其中，所述控制字通过以下步骤获得：

创建三个控制旋转方向的数组：mu1＝[-1,0,1]，mu2＝[-1,0,1]，mu3＝[-1,0,1]；

创建三个控制移位的数组：s1＝[-1,0,…S]，s2＝[-1,0,…S]，s3＝[-1,0,…S]，S为最大移位量；

进行旋转迭代的嵌套循环，将N点FFT运算所需的角度做为目标角度值，建立算法原理计算式，循环结束后得到[mu1,s1,mu2,s2,mu3,s3]，做为移位和加减法运算的控制码字。

其中，控制码字存储时，用两位的位宽存储mu1-mu3，采用四位的位宽存储s1-s3，采用三个一位的位宽存储每一个移位控制的使能信号，最终得到控制字一共为21位，将控制字存入查找表。

与现有技术相比，本发明的有益效果是：

本发明通过将改进的MSR-CORDIC算法用于实现FFT的复数运算，并采用移位寄存器代替传统SDF FFT的ROM延时模块，最终实现FFT处理器在FPGA的验证中不占用ROM和乘法器模块，只使用寄存器和逻辑资源且资源占用进一步减少，同时不增加FFT处理器控制的复杂度。

附图说明

图1所示为基2频率抽取FFT算法的基2蝶形运算单元结构图；

图2所示为16点基2频域抽取SDF FFT处理器实现结构图；

图3所示为MSR-CORDIC硬件实现结构图；

图4为基于改进的MSR-CORDIC算法的16点SDF FFT处理器单元结构图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明基于FPGA的低成本流水线型FFT处理器实现方法的实现步骤如下：

一、SDF FFT处理器构建:

FFT算法基本上分为两大类：时间抽取FFT和频率抽取FFT。“基2”-频率抽取FFT，是在频域内逐次将序列分解为奇数子序列和偶数子序列，通过求子序列的离散傅里叶变换来实现整个序列的傅里叶变换，且满足输入序列长度N是2的整数次幂，称为“基2”频率抽取FFT算法。

本发明中采用基2频率抽取FFT算法，对输入序列x(n)做离散傅里叶变换：

其中，为复指数旋转因子,其展开为三角函数表示：

用于FFT计算的基数为2的蝶形单元实现如图1所示，它涉及加法器和减法器，后跟乘法器。加法器和减法器构成蝶形运算(BF)，之后将减法的一端通过乘法器乘以旋转因子，构成整体的蝶形运算单元。由于基2频率抽取产生了体系结构中最小的BF单元，因此相对于其他算法，它使设计空间更加灵活。

FFT处理器SDF结构基于反馈流水线技术设计，由于结构简单而使用较少的资源，占用较小的区域，同时具有高速的性能。SDF结构最重要的特性是它允许输出反馈到用于存储输入的存储器中，这种存储共享架构降低了硬件的复杂度。

本发明中，反馈延时部分不使用大量存储器块，而是仅使用移位寄存器(Shiftreg)来存储每个流水线级的实时数据。对乘法器和存储器的要求最低，控制逻辑也相当简单，在FPGA上的系统实现具有低的资源占用和低复杂性。

16点基2频域抽取SDF FFT处理器实现的结构如图2所示，运算数据顺序流入，将输入数据的前半部分串行送入到移位寄存器Shift reg，当下半部分第一个数据到来时，将第一个送入到缓存单元中的数据取出，两者同时送入BF1进行运算并将运算后的结果送到乘法器，之后送入下一级处理单元，后续的各级BF皆采用相似的处理机制。

其中，每一级的延时不同，对于采用的基2频率抽取运算，N点FFT的第M级运算来说延时为N/2^M，比如N为16点时，每一级BF的输出分别经过8、4、2、1个移位寄存器的延时反馈到其输入端，通过多路复用器Mux选择当前的输入，将M个处理单元连接起来构成一条完整的流水线。

二、MSR-CORDIC算法验证与硬件实现

通过改进的MSR-CORDIC算法得到N个点FFT计算的TF。这个过程中，首先将输入(x₀、y₀)进行m次旋转迭代和缩放，μ_j(m),η_i(m)∈{-1,0,1}是每次旋转缩放的符号因子，s_i(m),t_j(m)∈{0,1,…S}，S为最大位移量。I和J分别表示x_m和y_m的二次方项的数量，被称为扩展因子，值越大精度越高，但实现后的延时也越大，综合考虑后取I+J＝3。

通过计算旋转迭代和缩放方程得到每次旋转角度θ_m，即当前x、y的反正切角度值，将角度值累加，累加后的角度值即为完成旋转迭代后变换的总角度值。FFT每一级BF的k值为2^(M-1)，M为级数。TF是角度为-2πkn/N的复指数函数，将-2πkn/N作为总角度的目标值Z_m，从而无需之后再做角度变换，提高算法精度，得到最终的x_m和y_m，即分别为输入(x₀、y₀)与给定角度的正余弦值的乘积，公式如下。

k＝2^(M-1),M＝1,2…log2(N)

计算每次旋转的放大因子p_m，并累乘得到最终的放大因子P，提高精度，公式如下。

按照原理对算法进行建模，建模实现过程如下。

创建三个控制旋转方向的数组：mu1＝[-1,0,1]，mu2＝[-1,0,1]，mu3＝[-1,0,1]，或者说是迭代的加减。

创建三个控制移位的数组：s1＝[-1,0,…S]，s2＝[-1,0,…S]，s3＝[-1,0,…S]，S为最大移位量，由于信号的位宽为16位，此处S选择为15。

I和J的组合可能有(0,3),(1,2),(2,1),(3,0)，进行旋转迭代的嵌套循环，创建四种组合下的所有方向和移位可能的旋转迭代，将N点FFT运算所需的角度做为目标角度值，建立算法原理计算式，循环结束后即可得到相应的[mu1,s1,mu2,s2,mu3,s3]，可做为移位和加减法运算的控制码字。

MSR-CORDIC硬件实现过程中，由于控制方向中只有-1、0、1，所以用两位的位宽存储mu1-mu3，由于S为15，采用四位的位宽存储s1-s3，采用三个一位的位宽存储每一个移位控制的使能信号，最终得到控制字一共为21位，将控制字存入查找表(LUT)，控制桶型移位寄存器(Barrel Shifter)的移位和逻辑模块进行旋转移位与迭代。

MSR-CORDIC的硬件实现如图3所示。为提高速度，在设计中采用两级流水线。基于其算法原理，输出x(m)、y(m)是其上一状态x(m-1)、y(m-1)的线性组合。两个桶形移位器(Barrel Shifter)阵列用于执行移位操作，通过建模得到的控制字进行控制。每个BarrelShifter中的输出信号的数量是3。

四个加法器/减法器(Add/Sub)用于执行输出的总和。因此每个MSR-CORDIC模块中仅需要4次加法或减法。桶形移位器的最大移位值等于字长为16，使得旋转角度和规范的量化误差同时满足系统性能要求，可避免缩放操作。由于不需要额外缩放操作，MSR-CORDIC的计算速度更快，相应的硬件成本也降低了。

三、将MSR-CORDIC算法与SDF FFT处理器结合进行硬件实现

利用MSR-CORDIC代替传统的乘法器，结构图如图4所示，16点的FFT运算共包括4级，每一级的单元结构中包含一个BF，一个MSR-CORDIC处理器，一组用于延时和暂存数据的Shift regs，其中，所述BF的两路输出分别连接两个多路复用器Mux的一路输入,通过所述两个多路复用器Mux分别与个MSR-CORDIC处理器，下一级FFT运算处理单元的前置多路复用器Mux连接，前置多路复用器Mux的输出与下一级FFT运算处理单元的输入相连接，两个多路复用器Mux中一个所述的多路复用器Mux与Shift regs连接，输入数据有两路进入BF,另外两路分别输入到两个所述的多路复用器Mux。

其中，MSR-CORDIC部分由一个用于存储建模得到的控制字的查找表LUT来控制。在工作过程中，运算数据顺序流入，按照FFT算法原理的奇偶分离原理，将输入数据的前半部分串行送入到Shift reg组成的延时缓存单元，当下半部分数据到达时，通过控制Mux选择当前的输入为反馈回的信号输入，实现数据与其延时的数据匹配送入BF，且每一级的延时周期分别为N/2^M，M＝1,2,3,4为级数，之后将输出送入MSR-CORDIC处理器，处理器通过LUT读取控制字control控制移位和加减运算，可得到相应角度的复数乘法运算结果。将运算结果送入下一级运算单元，将所需的M个处理单元连接起来构成一条完整的流水线。

本发明中，所提出的改进的MSR-CORDIC优化了硬件资源的使用和芯片所需的面积，LUT只存储控制字，从而降低了内存需求并提高了处理速度。

在每个单元阶段，BF单元仅包括加法器和减法器，BF的一路输出接入MSR-CORDIC得到与旋转因子相乘的结果，另一路输出直接送入Mux，通过Mux进行选择作为下一单元的输入，构成流水线。

将改进的MSR-CORDIC算法建模，验证其功能及精度后，加入FFT函数结合建模，测试其用于FFT计算的可行性以及误码率。调试得到算法中的各参数值作为控制字存储并进行提高精度的优化。

改进的MSR-CORDIC与SDF FFT处理器的硬件实现用Verilog语言搭建，实现N为16、128、1024、4096时的结构，仿真查看硬件实现所用的资源，以清晰地观察到资源占用随N增大的增长趋势，保证在N的增长下维持低的资源占用量。随机生成N为16、128、1024、4096的输入信号，以保证无规律性且覆盖各个象限，进行整体的时序和功能验证。

可以看出，本发明使用改进的MSR-CORDIC算法来优化混合旋转方案实现SDF FFT处理器，完全取代复数乘法器。提出的改进的MSR-CORDIC算法将目的角度值与FFT的复指数角度值结合，预先计算好最佳旋转系数和角度，添加控制单元来减少存储TF的存储需求，提高系统速度和资源利用率；并且在硬件实现中通过将信号位宽分段处理实现不同的移位，提高其精度而无需增加级数，从而节省资源和芯片面积。

本发明所实现的SDF流水线FFT处理器仅需要使用加法器、移位寄存器、多路选择器和分布式逻辑资源这些基本模块，从而消除目前广泛使用的专用功能模块来节省大量资源。

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.基于FPGA的低成本流水线型FFT处理器实现方法，其特征在于，包括多个连接在一起形成数据处理流水线的FFT运算处理单元，每个所述FFT运算处理单元包括：一由基2频率抽取FFT算法产生的蝶形运算单元、一MSR-CORDIC处理器、一组用于延时和暂存数据的移位寄存器；所述MSR-CORDIC处理器由一用于存储建模得到的控制字的查找表控制；

2.如权利要求1所述基于FPGA的低成本流水线型FFT处理器实现方法，其特征在于，所述运算处理单元的延时周期分别为N/2^M，M＝1，2，3，4为级数。

3.如权利要求1或2所述基于FPGA的低成本流水线型FFT处理器实现方法，其特征在于，所述MSR-CORDIC处理器包括：两个桶形移位器阵列，用于执行移位操作，由通过建模得到的控制字进行控制；四个加法器/减法器，与两个桶形移位器阵形通过三个多路复位用器连接，用于执行输出的总和：其中输出为：

其中，μ_j(m)，η_i(m)∈{-1，0，1}是每次旋转缩放的符号因子，s_i(m)，t_j(m)∈{0，1，...S}，S为最大位移量，输出x_m、y_m是其上一状态x_m-1y_m-1的线性组合，I和J分别表示x_m和y_m的二次方项的数量，被称为扩展因子，I+J＝3。

4.如权利要求3所述基于FPGA的低成本流水线型FFT处理器实现方法，其特征在于，所述MSR-CORDIC处理器将输入(x₀、y₀)进行m次旋转迭代和缩放后得到通过计算旋转迭代和缩放方程得到每次旋转角度θ_m，将角度值累加，累加后的角度值，即为完成旋转迭代后变换的总角度值Z_m，其公式如下：

k＝2^(M-1)，M＝1，2...log2(N)

5.如权利要求3所述基于FPGA的低成本流水线型FFT处理器实现方法，其特征在于，所述MSR-CORDIC处理器处理时，计算每次旋转的放大因子p_m，并累乘得到最终的放大因子P；其公式如下。

6.如权利要求1所述基于FPGA的低成本流水线型FFT处理器实现方法，其特征在于，所述控制字通过以下步骤获得：

创建三个控制旋转方向的数组：mu1＝[-1，0，1]，mu2＝[-1，0，1]，mu3＝[-1，0，1]；

创建三个控制移位的数组：s1＝[-1，0，…S]，s2＝[-1，0，…S]，s3＝[-1，0，…S]，S为最大移位量；

进行旋转迭代的嵌套循环，将N点FFT运算所需的角度做为目标角度值，建立算法原理计算式，循环结束后得到[mul，s1，mu2，s2，mu3，s3]，做为移位和加减法运算的控制码字。

7.如权利要求1所述基于FPGA的低成本流水线型FFT处理器实现方法，其特征在于，控制码字存储时，用两位的位宽存储mu1-mu3，采用四位的位宽存储s1-s3，采用三个一位的位宽存储每一个移位控制的使能信号，最终得到控制字一共为21位，将控制字存入查找表。