CN109977347B

CN109977347B - 一种支持多模式配置的可重构fft处理器

Info

Publication number: CN109977347B
Application number: CN201910251542.9A
Authority: CN
Inventors: 李丽; 曹智奕; 傅玉祥; 黄延; 何书专
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2023-06-13
Anticipated expiration: 2039-03-29
Also published as: CN109977347A

Abstract

本发明的支持多模式配置的可重构FFT处理器，包括：片上SRAM存储器，通过数据对外传输模块与片外存储器进行通信；可重构计算阵列，包含有若干基于IEEE‑754标准的单精度浮点加法器、减法器以及浮点乘法器；FFT控制器，控制FFT运算的整个流程；数据对外传输模块，控制处理器与片外存储器之间的数据传输。有益效果：该处理器具有运算精度高，加速效果明显，硬件资源利用率高的优点。

Description

一种支持多模式配置的可重构FFT处理器

技术领域

本发明属于数字信号处理技术领域，尤其涉及一种支持多模式配置的可重构FFT处理器。

背景技术

在现代通信领域，特别是无线通信中，FFT是最为广泛应用的算法之一。针对各种不同的应用场景，或同一场景中的不同信号，对同一硬件结构执行不同点数的FFT运算提出了要求，而运算点数范围、运算速度和运算精度是设计人员最为关心的三个指标。

现有技术中，可将FFT的实现归纳为软件和硬件两大类实现方法。采用软件方式，易于实现，具有很高的灵活性，但其运算速度存在瓶颈，难以满足高速信号处理领域的要求。采用传统硬件方式，以专用集成电路为代表的专用计算结构，虽然其执行速度快、功耗小、成本低，却有一个致命缺陷——灵活性和拓展性差，这主要体现在其支持的FFT运算点数较小，一旦对于FFT运算提出更高运算点数的需求，就需要重新设计整个运算架构，造成设计到应用的迭代周期过长。

针对小点数一维FFT，大点数二维FFT和一些特定点数FFT各自的特点，将可重构架构引入FFT处理器设计方法的实现中，既可满足其在高速信号处理领域的要求，又具有一定程度的灵活性，是当下芯片研究的重点所在。

发明内容

本发明目的在于克服上述现有技术的不足，针对不同点数FFT运算中存在的技术问题，提供一种易于实现、支持256点以下FFT运算的多批次处理的可重构FFT处理器，支持大点数二维FFT运算的动态划分、运算规模大、运算速度快，具体由以下技术方案实现：

所述支持多模式配置的可重构FFT处理器，包括：

片上SRAM存储器，通过数据对外传输模块与片外存储器进行通信；

可重构计算阵列，包含有若干基于IEEE-754标准的单精度浮点加法器、减法器以及浮点乘法器，根据配置信息重构出蝶形运算单元、旋转因子生成单元以及乘旋转因子单元；

FFT控制器，控制FFT运算的整个流程；

数据对外传输模块，包含有用于存储运算配置信息的配置寄存器，控制处理器与片外存储器之间的数据传输。

所述支持多模式配置的可重构FFT处理器的进一步设计在于，所述片上SRAM存储器包括：用于存储源数据、结果数据的第一SRAM单元与用于常数数据的存储的第二SRAM单元，所述常数数据指外部计算得到的2K个旋转因子的常数结果。

所述支持多模式配置的可重构FFT处理器的进一步设计在于，第一SRAM单元为32个深度为4K，位宽为64bit的单端口SRAM，能够存储的最大点数N0为128K复数点。

所述支持多模式配置的可重构FFT处理器的进一步设计在于，第二SRAM单元为16个深度为1K，位宽为64bit的单端口SRAM。

所述支持多模式配置的可重构FFT处理器的进一步设计在于，所述FFT控制器包括：

地址产生模块，产生数据点的索引，并将索引对应的索引信息输出给地址映射模块；

地址映射模块，在FFT运算的存取数据过程中将索引映射为SRAM中的对应地址；

数据传输控制模块，根据索引产生的对应地址，并对该地址进行数据的读取或写入操作，控制数据流向；

FFT运算控制模块，解析配置寄存器中的运算配置信息，配置可重构计算阵列，输出控制信号；

FFT运算模块，接收所述控制信号，调用可重构计算阵列中配置好的蝶形运算单元、旋转因子生成单元以及乘旋转因子单元，完成FFT运算。

所述支持多模式配置的可重构FFT处理器的进一步设计在于，所述地址产生模块针对基2、基4、小点数流水以及大点数分别设有四种对应的索引生成模式。

所述支持多模式配置的可重构FFT处理器的进一步设计在于，所述FFT运算控制模块首先根据运算配置信息中的FFT运算点数N与运算批数；

再判断是否需要进行256点以下FFT多批次流水处理运算，若判定需要进行多批次流水处理运算，则将可重构计算阵列配置为流水式运算结构，控制FFT运算模块进行N点的流水处理FFT运算；若为不需要进行多批次流水处理运算，则将可重构计算阵列配置为非流水式运算结构；

接着判断FFT运算点数N是否大于SRAM能够存储的最大点数N0，当运算点数小于N0时，控制FFT运算模块进行N点的一维FFT运算；当运算点数大于N0时，控制FFT运算模块进行N点的二维FFT运算。

所述支持多模式配置的可重构FFT处理器的进一步设计在于，所述流水式运算结构中包括：八个基本运算单元、输出级数选择模块以及数据输出模块，所述八个基本运算单元串行连接形成一个八级流水的结构，上一级基本运算单元的输出作为下一级基本运算单元的输入，最终运算结果将通过输出级数选择模块及数据输出模块传输回片上SRAM存储器。

所述支持多模式配置的可重构FFT处理器的进一步设计在于，所述非流水式运算结构中包括八个并行执行的蝶形运算单元、八个并行执行的旋转因子生成单元以及八个并行执行的乘旋转因子单元，蝶形运算单元和旋转因子生成单元的结果将同时传输到乘旋转因子单元中进行运算。

所述支持多模式配置的可重构FFT处理器的进一步设计在于，所述N点的二维FFT运算，2^n-1＜N≤2ⁿ，n为偶数时，会将补0后长度为2ⁿ的序列动态划分为行列为2^n/2×2^n/2的矩阵；n为奇数时，会将补0后长度为2ⁿ的序列动态划分为行列为2^(n+1)/2×2^(n-1)/2的矩阵。

本发明的优点如下：

本发明的支持多模式配置的可重构FFT处理器，可根据不同的配置信息重构出两种不同的运算架构，并可根据FFT点数选择相应的处理模式：当FFT点数小于256点时，可选择执行多批次流水FFT运算；当FFT点数小于SRAM能够存储的最大点数时，执行一维FFT运算；当FFT点数大于SRAM能够存储的最大点数时，执行支持动态划分的二维FFT运算。本发明具有运算精度高，加速效果明显，硬件资源利用率高的优点。

附图说明

图1是本发明中FFT处理器的硬件实现架构图。

图2是本发明的地址映射规则示意图。

图3是本发明的流水式运算结构的整体架构示意图。

图4是本发明的流水式运算结构中基本运算单元示意图。

图5是本发明的非流水式运算结构的整体架构示意图。

图6是本发明的非流水式运算结构中蝶形运算单元示意图。

图7是本发明的N点一维FFT运算流程示意图。

图8是本发明的N点二维FFT运算流程示意图。

图9是本发明与同类设计进行FFT运算时的性能对比图。

具体实施方式

以下结合附图，对本发明的技术方案进行详细说明。

本实施例的支持多模式配置的可重构FFT处理器，如图1，该实施例阐述了一种支持多模式配置的可重构FFT处理器设计方法，主要包括片上SRAM存储器、可重构计算阵列、FFT控制器以及数据对外传输模块。

运算开始前，片外存储器中存储了需要处理的源数据，2K个常数旋转因子以及运算相关配置信息，其中运算相关配置信息存储在片外存储器中特定位置，当运算结束后，得到的结果数据会写回片外存储器中。片上SRAM存储器(后文简称SRAM)包括两部分：其一为32个深度为4K，位宽为64bit的单端口SRAM，用于源数据、结果数据的存储；其二为16个深度为1K，位宽为64bit的单端口SRAM，用于常数数据的存储，常数数据即为存储在片外存储器中的2K个旋转因子。

本实施例的数据对外传输模块负责完成处理器与片外存储器之间的数据传输，支持一维数据和二维数据传输，当进行一维FFT运算时，数据对外传输模块启用一维数据传输，当进行二维FFT运算时，数据对外传输模块启用二维数据传输。数据存入SRAM和写回片外存储器按照如下索引规则进行：

当运算点数小于SRAM所能存储的最大点数(本实施例为128K)时，数据不需要进行乒乓操作，有：

address[16]＝index[4]^index[5]^……^index[16]

address[11：0]＝index[16：5]

address[15：12]＝index[3：0]

当运算点数大于SRAM所能存储的最大点数(本实施例为128K)时，数据需要进行乒乓操作，有：

address[15]＝index[3]^index[4]^……^index[15]

address[11：0]＝index[15：4]

address[14：12]＝index[2：0]

其中，index指FFT序列中该数据为序列中的第几个数据，从0开始计数，用17位的二进制数来表示；address指数据存放的具体位置，用一个17位的二进制数来表示，address[16：12]具体对应SRAM的编号，address[11：0]具体对应SRAM中的深度，具体映射规则如图2所示。

FFT运算启动后，FFT控制器中的FFT运算控制模块会解析配置寄存器中的配置信息，并将解析后的信息分别写入数据对外传输模块内部寄存器以及可重构计算阵列内部寄存器中，启动数据对外传输模块进行数据传输，将可重构计算阵列重构为相应的运算结构，若需进行256点以下(含256点)的FFT多批次处理运算，则将可重构计算阵列重构为流水式运算结构，如图3所示为流水式运算结构的整体架构，图4所示为流水式运算结构中的基本运算单元。流水式运算结构共由八级构成，每一级均为一个基本运算单元，每个基本运算单元由基2蝶形运算单元，乘旋转因子单元以及旋转因子存储器构成，其中基2蝶形运算单元由两个IEEE-754标准的单精度浮点数加法器构成。所述流水式运算结构本质上是一个八级全流水的运算架构，会根据点数的不同选择相应级结果作为最终的计算结果输出，在本实施例中可搭建一路流水式运算结构；若配置信息解析为非上述情况，即包括一般的小点数情况和大点数情况，则将可重构计算阵列重构为非流水式运算结构，如图5所示为非流水式运算结构的整体架构。非流水式运算结构共包含八路蝶形运算单元，蝶形运算单元具体结构如图6所示，每个蝶形运算单元由两个IEEE-754标准的单精度浮点数加法器构成，加法器高度复用，搭建了1/2路基2单元和1/4路基4单元，其中加法器右下脚的下标相同则表示为同一个加法器，可见加法器1在该蝶形运算单元中复用了三次。非流水式运算结构中的旋转因子生成模块中包含了八路旋转因子生成单元，正好与八路蝶形运算单元一一对应，每路旋转因子生成单元的源数据由两个存储常数数据的SRAM供数，通过一个IEEE-754标准的单精度浮点数乘法器和对称性模块来得到需要的旋转因子。

本实施例中，采用上述一种支持多模式配置的可重构FFT处理器的数据处理方法具体步骤为：

步骤1：从片外存储器读取数据到SRAM中；

步骤2：FFT运算控制模块解析配置寄存器中的配置信息，并将解析后的信息分别写入数据对外传输模块内部寄存器以及可重构计算阵列内部寄存器中，启动数据对外传输模块进行数据传输，将可重构计算阵列重构为相应的运算结构，并确定对应的FFT运算模式；

步骤3：根据对应的运算模式，启动地址产生模块和地址映射模块，产生读源数据地址，启动旋转因子生成单元，产生读旋转因子系数地址；

步骤4：启动FFT运算模块，数据进入蝶形运算单元和旋转因子生成单元进行运算；

步骤5：地址产生模块和地址映射模块产生结果数的存储地址；

步骤6：蝶形运算单元和旋转因子生成单元的结果送往乘旋转因子单元进行运算，结果根据步骤5中产生的地址送往SRAM中存储；

步骤7：对于不同长度的输入序列，可能需要进行多级运算，即步骤4～步骤6需循环多次才能得到最终结果；

步骤8：将最终结果从SRAM写回片外存储器。

以下将给出三个实例进行进一步说明：

若FFT运算点数N＝60，运算批数为2K，则可重构计算阵列会被重构为流水式运算结构，对应本实施例的第一种运算模式。每一个独立的60点序列都会首先被补0到一个64点的序列，相当于接下来是进行2K批次的64点FFT运算。由于64等于2的六次方，则会选择第六级的运算结果作为最终结果输出。连续计算时，每一级流水时间内可以输出一次FFT的结果，在本实施例中，一级流水时间大概是64个周期，2K批次运算总时间为131392周期。

若FFT运算点数N＝100K，则可重构计算阵列会被重构为非流水式运算结构，对应本实施例的第二种运算模式。完成补0操作后，FFT序列成为了一个128K点的序列，为本实施例SRAM可存储的最大点数。如图7所示为该模式下的运算流程，128k点首先被解析为2*4⁸，共需要9级运算，其中需要1级基2运算，8级基4运算，这里所说的基2和基4运算包含了乘旋转因子的操作。在本例中，完成整个运算的时间为148608个周期。

若FFT运算点数N＝1M，则可重构计算阵列会被重构为非流水式运算结构，对应本实施例的第三种运算模式。由于1M正好为2的整数幂次方，因此不需要进行补0操作。由于1M大于本实施例SRAM可存储的最大点数，因此会进行二维FFT运算，如图8所示为二维FFT的运算流程。根据二维FFT的算法特性，会首先将一维的FFT序列转换为二维矩阵，而1M＝1K*1K，正好可以将本例的1M点序列转换为一个行列为1K*1K的矩阵。若进行此操作时，FFT运算点数不满足2的偶数幂次方，假设为2^2n-1则将其分解为2^n-1*2ⁿ，比如512K点分解为行列为512*1K的矩阵。这也即权利要求书中提到的二维FFT动态划分，是本发明的核心技术之一。接下来会进行列FFT运算，也即进行1K次的1K点FFT运算，对应数据传输方式为读写方式1；当列FFT完成后，会进行旋转因子补偿以及行FFT运算，也即进行1K次1K点序列的旋转因子补偿和FFT运算，对应数据传输方式为读写方式2。读写方式1和读写方式2均采用“乒乓”操作，每次读入或写出的序列长度为64K，则列FFT和行FFT运算均需要16次“乒乓”操作。对列FFT运算，完成一次“乒乓”操作后的运算时间为81920个周期；对行FFT运算，完成一次“乒乓”操作后的运算时间为94208个周期；总运算周期为2818048个周期。

本实施例完成的设计可支持长度为6至1M复数点的FFT变换，工作频率可达1GHz，图9展示了本实施例与TI C6672进行不同点数，不同批数FFT变换时的性能对照。可以看出本实施例在应用中有明显的性能优势，对于256点的多批次处理，当数据批数足够多时，运算速度可提升接近9倍，对于普通单批次的FFT运算，运算速度提升最多可达6.8倍。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种支持多模式配置的可重构FFT处理器，其特征在于包括：

FFT控制器，控制FFT运算的整个流程；

数据对外传输模块，包含有用于存储运算配置信息的配置寄存器，控制处理器与片外存储器之间的数据传输；

所述FFT控制器包括：

FFT运算模块，接收所述控制信号，调用可重构计算阵列中配置好的蝶形运算单元、旋转因子生成单元以及乘旋转因子单元，完成FFT运算；

所述地址产生模块针对基2、基4、小点数流水以及大点数分别设有四种对应的索引生成模式；

所述FFT运算控制模块首先确定运算配置信息中的FFT运算点数N与运算批数；再判断是否需要进行256点以下的FFT多批次流水处理运算，若判定需要进行多批次流水处理运算，则将可重构计算阵列配置为流水式运算结构，控制FFT运算模块进行N点的流水处理FFT运算；若为不需要进行多批次流水处理运算，则将可重构计算阵列配置为非流水式运算结构；

2.根据权利要求1所述的支持多模式配置的可重构FFT处理器，其特征在于：所述片上SRAM存储器包括：用于存储源数据、结果数据的第一SRAM单元与用于常数数据的存储的第二SRAM单元，所述常数数据指外部计算得到的2K个旋转因子的常数结果。

3.根据权利要求2所述的支持多模式配置的可重构FFT处理器，其特征在于：第一SRAM单元为32个深度为4K，位宽为64bit的单端口SRAM，能够存储的最大点数N0为128K复数点。

4.根据权利要求2所述的支持多模式配置的可重构FFT处理器，其特征在于：第二SRAM单元为16个深度为1K，位宽为64bit的单端口SRAM。

5.根据权利要求1所述的支持多模式配置的可重构FFT处理器，其特征在于，所述流水式运算结构中包括：八个基本运算单元、输出级数选择模块以及数据输出模块，所述八个基本运算单元串行连接形成一个八级流水的结构，上一级基本运算单元的输出作为下一级基本运算单元的输入，最终运算结果将通过输出级数选择模块及数据输出模块传输回片上SRAM存储器。

6.根据权利要求1所述的支持多模式配置的可重构FFT处理器，其特征在于，所述非流水式运算结构中包括八个并行执行的蝶形运算单元、八个并行执行的旋转因子生成单元以及八个并行执行的乘旋转因子单元，蝶形运算单元和旋转因子生成单元的结果将同时传输到乘旋转因子单元中进行运算。

7.根据权利要求4所述的支持多模式配置的可重构FFT处理器，其特征在于，所述N点的二维FFT运算，2^n-1＜N≤2ⁿ，n为偶数时，会将补0后长度为2ⁿ的序列动态划分为行列为2^n/2×2^n/2的矩阵；n为奇数时，会将补0后长度为2ⁿ的序列动态划分为行列为2^(n+1)/2×2^(n-1)/2的矩阵。