CN106372034B

CN106372034B - 一种混合基fft处理器

Info

Publication number: CN106372034B
Application number: CN201610757111.6A
Authority: CN
Inventors: 刘大可; 刘劭晗
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2016-08-29
Filing date: 2016-08-29
Publication date: 2019-09-17
Anticipated expiration: 2036-08-29
Also published as: CN106372034A

Abstract

本发明涉及处理器技术领域，公开了一种混合基FFT处理器，包括存储单元、控制单元、块浮点单元以及运算单元。该处理器采用基于存储的架构，通过支持基2、基3、基4、基5、基8以及基16的运算单元实现支持多种FFT运算和DFT运算。该FFT处理器可以用于多模无线通信系统，相比于传统方案可以节省芯片的面积和功耗，并减小SOC设计复杂度。

Description

一种混合基FFT处理器

技术领域

本发明涉及处理器技术领域，特别是涉及一种混合基FFT处理器。

背景技术

FFT是一种用于正交频分复用(OFDM)系统物理层的计算密集型算法，可以将数据在时域和频域之间进行转换。融合多模的OFDM无线通信系统要求FFT处理器具有较高的运算速度，并且能够支持多种FFT运算和DFT运算。

基于存储架构的FFT处理器的运算速度取决于处理器支持的基数以及数据并行度。基数越大，数据并行度越多，处理器的运算速度就越块。FFT处理器能够支持的基数决定了处理器能否支持FFT运算和DFT运算。若处理器仅支持2的整数幂的基数，如基2，基4，基8，基16，则此处理器仅支持FFT运算，若除此之外处理器还支持基3和基5运算，则此处理器能够支持FFT和DFT运算。

目前，FFT处理器通常仅支持基2和基4运算，其数据并行度不超过8，这种FFT处理器仅能支持FFT运算，且无法达到较高的运算速度；一些FFT处理器可以支持基2、基4、基8以及基16运算，其数据并行度可以达到16或更高，这种FFT处理器可以达到很高的运算速度，但是不能支持DFT运算；少数FFT处理器可以支持基2、基3、基4以及基5运算，其数据并行度不超过8，这种FFT处理器可以支持FFT运算和DFT运算，但是无法达到较高的运算速度。

FFT处理器无法做到一个处理器同时支持所有的FFT和DFT运算，并且支持FFT高速处理，所以在多模无线通信系统中需要采用FFT核和DFT核分别支持FFT运算和DFT运算。然而，这种解决方案不仅增大了芯片的面积和功耗，同时，也会增大SOC的设计复杂度。

发明内容

(一)要解决的技术问题

本发明的目的是提供一种混合基FFT处理器，通过恰当的处理器运算单元设计实现FFT的高速处理，以及同时支持FFT运算和DFT运算的功能。

(二)技术方案

为了解决上述技术问题，本发明提供一种混合基FFT处理器，包括：存储单元，用于存储输入数据、中间运算结果和输出数据；控制单元，用于根据FFT算法，计算需要读取和存储的数据的存储地址并控制运算单元进行蝶形运算；块浮点单元，用于进行块浮点操作和块浮点指数的存储和读取；以及运算单元，用于进行蝶形运算。

其中，所述运算单元包括乘法单元和蝶形单元，其数据并行度为16。

其中，所述运算单元最多可同时进行一个基16、两个基8、两个基5、四个基4、四个基3或八个基2的蝶形运算。

其中，所述乘法单元包括15个旋转因子乘法器，所述旋转因子乘法器采用CORDIC算法实现。在多路并行数据中，除第一路数据外，其余路的数据均需通过所述旋转因子乘法器进行旋转因子乘法运算。

其中，所述蝶形单元包括六个交织模块和五级运算单元，其中，所述六个交织模块分别为第一交织模块、第二交织模块、第三交织模块、第四交织模块、第五交织模块以及第六交织模块；

所述五级运算单元分别为第一级运算单元、第二级运算单元、第三级运算单元、第四级运算单元以及第五级运算单元。

其中，所述第一交织模块的输入数据为所述乘法单元输出的且经过对齐操作后的数据，所述第一交织模块输出的数据为所述第一级运算单元的输入数据；

所述第二交织模块、第三交织模块、第四交织模块、第五交织模块以及第六交织模块的输入数据为上一级运算单元的输出数据；

所述第二交织模块、第三交织模块、第四交织模块以及第五交织模块的输出数据为本级运算单元的输入数据；

所述第六交织模块的输出数据为所述蝶形单元的输出数据。

其中，所述第一级运算单元由并行的8个基二蝶形单元组成；

所述第二级运算单元由并行的4个基二蝶形单元、4个可变蝶形单元和4个简单乘法器组成；

所述第三级运算单元包括并行的简单乘法器、多个复杂乘法器以及2个复数加法器组成；

所述第四级运算单元由8个并行的基二蝶形单元组成；

所述第五级运算单元由8个并行的基二蝶形单元和4个简单乘法器组成。

其中，所述基二蝶形单元具有两个并行的数据输入端口和两个并行的数据输出端口，所述基二蝶形单元包括一个复数加法器和一个复数减法器，其中，第一个输入数据为a，第二个输入数据为b，则第一个输出数据c＝a+b，第二个输出数据d＝a-b。

其中，所述可变蝶形单元具有两个并行的数据输入端口和两个并行的数据输出端口。所述可变蝶形单元包括一个复数加法器和一个复数减法器。其中，第一个输入数据为a，第二个输入数据为b，则第一个输出数据c＝a+b，当进行基2、基4、基8或基16运算时，第二个输出数据d＝a-b，当进行基3或基5运算时，第二个输出数据d＝a-(b/2)。

其中，所述简单乘法器具有一个数据输入端口和一个数据输出端口，当进行基3和基5运算时，基于输入数据和输出数据构建的第一平衡方程为

b＝a＝m+(i×n)

其中，b为输出数据，a为输入数据，i为虚部单位，m为输入数据a的实部，n为输入数据a的虚部；

当进行基4、基8和基16运算时，基于输入数据和输出数据构建的第二平衡方程为b＝a×(-i)＝n-(i×m)，其中，b为输出数据，a为输入数据，i为虚部单位，m为输入数据a的实部，n为输入数据a的虚部。

其中，所述复杂乘法器具有一个数据输入端口和一个数据输出端口，基于输入数据和输出数据构建的第三平衡方程为b＝e×a，

其中，b为输出数据，a为输入数据，e为系数。复杂乘法器根据当前进行运算的基选择系数e。

(三)有益效果

本发明提供的FFT处理器与现有技术相比，具有如下优点：

数据并行度为16，最大支持基16运算，可以实现FFT高速处理运算单元能够进行基2、基3、基4、基5、基8以及基16运算，保证了处理器能够支持FFT和DFT运算。

附图说明

图1为本申请的实施例的混合基FFT处理器的整体结构示意图；

图2为图1中的运算单元中的蝶形单元的结构示意图；

图3为图1中的运算单元中的乘法单元的结构示意图；

图4为图2中的基二蝶形单元的结构示意图；

图5为图2中的可变蝶形单元的结构示意图。

图中，100：FFT处理器；1：存储单元；11：第一存储子单元；12：第二存储子单元；2：控制单元；3：块浮点单元；4：运算单元；41：乘法单元；411：旋转因子乘法器；42：蝶形单元；420a：第一交织模块；421a：第一级运算单元；420b：第二交织模块；421b：第二级运算单元；420c：第三交织模块；421c：第三级运算单元；420d：第四交织模块；421d：第四级运算单元；420e：第五交织模块；421e：第五级运算单元；420f：第六交织模块；51：基二蝶形单元；511：复数加法器；512：复数减法器；52：可变蝶形单元；521：复数加法器；522：复数减法器；523：1/2乘法器；524：多路选择器；6：简单乘法器；7：复数加法器；8：复杂乘法器。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实例用于说明本发明，但不用来限制本发明的范围。

如图1和图2所示，其中，图1示意性地显示了本申请的FFT处理器100包括存储单元1、控制单元2、块浮点单元3以及运算单元4。其中，存储单元1、控制单元2、块浮点单元3以及运算单元4彼此间相互连接，并能实现信号的传递。

该存储单元1，其作用在于存储输入数据、中间运算结果和输出数据。该存储单元为ping-pang结构，其包括第一存储子单元11和第二存储子单元12，各存储子单元均为单口SRAM。

在一个具体的实施例中，每个存储子单元均包括16个组(bank)，每个组的深度为512。

控制单元2，其作用在于根据无冲突存取算法，计算需要读取和存储的数据的存储地址。另外，该控制单元2还用于控制运算单元4进行蝶形运算。

块浮点单元3用于在数据经过乘法单元41之后，进入蝶形单元42之前进行对齐操作；在数据经过蝶形单元42之后进行缩放操作；块浮点指数的存储和读取。

运算单元4用于既支持FFT运算又支持DFT运算。这样，本申请的FFT处理器100中的运算单元4由于具有既支持FFT运算又支持DFT运算的功能，因而，也就是说本申请的FFT处理器100能够支持2的整数幂点FFT运算和非2的整数幂点DFT运算。同时，本申请的FFT处理器100采用16路并行的数据通路以及基16运算，从而提高了数据的吞吐率。容易理解，相比于现有技术需要多个处理器分别进行FFT运算和DFT运算而言，本申请的FFT处理器100节省了芯片的面积和功耗，同时，也降低了SOC的设计复杂度。

如图1和图2所示，在一个实施例中，该运算单元4包括乘法单元41和蝶形单元42，其中，蝶形单元42支持基2、基3、基4、基5、基8以及基16运算。即，可以同时进行一个基16、两个基8、两个基5、四个基4、四个基3或八个基2的运算。

如图3所示，图1还示意性地显示了该乘法单元41包括多个旋转因子乘法器411，在多路并行数据中，除第一路数据外，其余路的并行数据均需通过多个旋转因子乘法器411中的一个旋转因子乘法器411进行旋转因子乘法运算。在一个具体的实施例中，该乘法单元41包括15个旋转因子乘法器411，各旋转因子乘法器411采用CORDIC算法(坐标旋转数字计算方法)。在16路并行数据中，除第一路数据之外，其余15路均需通过一个旋转因子乘法器411进行与旋转因子相乘的运算。

如图2所示，，还示意性地显示了该蝶形单元42包括六个交织模块和五级运算单元，其中，六个交织模块分别为第一交织模块420a、第二交织模块420b、第三交织模块420c、第四交织模块420d以及第五交织模块420e以及第六交织模块420f。

五级运算单元分别为第一级运算单元421a、第二级运算单元421b、第三级运算单元421c、第四级运算单元421d以及第五级运算单元421e。

在另一个实施例中，该第一交织模块420a的输入数据为乘法单元41输出的且经过对齐操作后的数据，第一交织模块420b输出的数据为第一级运算单元421a的输入数据。

第二交织模块420b、第三交织模块420c、第四交织模块420d、第五交织模块420e以及第六交织模块420f的输入数据为上一级运算单元的输出数据。

第二交织模块420b、第三交织模块420c、第四交织模块420d、第五交织模块420e的输出数据为本级运算单元的输入数据。

第六交织模块420f的输出数据为蝶形单元42的输出数据。

在一个实施例中，在第一级运算单元421a之前，每两级运算单元之间和第五级运算单元421e之后就有一个交织模块，以进行数据交织处理。

如图2所示，图2还示意性地显示了该第一级运算单元421a由8个并行的基二蝶形单元51组成。

如图2所示，该第二级运算单元421b由并行的4个基二蝶形单元51、4个可变蝶形单元52和4个简单乘法器6组成。其中，4个简单乘法器6的输出数据分别作为四个基二蝶形单元5的第二个输入数据。

如图2所示，该第三级运算单元421c包括并行的简单乘法器6、8个复杂乘法器8以及2个复数加法器7组成。

该第四级运算单元由8个并行的基二蝶形单元51组成。

该第五级运算单元421e由8个并行的基二蝶形单元51和4个简单乘法器6组成。其中，4个简单乘法器6的输出数据分别作为四个基二蝶形单元51的第二个输入数据。

如图4所示，图4还示意性地显示了该基二蝶形单元51具有两个并行的数据输入端口和两个数据输出端口，该基二蝶形单元51包括一个复数加法器511和一个复数减法器512。其中，若第一输入数据为a，第二个输入数据为b，则第一个输出数据c＝a+b，第二个输出数据d＝a-b。

如图5所示，图5还示意性地显示了该可变蝶形单元52具有两个并行的数据输入端口和两个数据输出端口，该可变蝶形单元52包括一个复数加法器521、一个复数减法器522、一个1/2乘法器523和一个多路选择器524。其中，若第一个输入数据为a，第二个输入数据为b，则第一个输出数据c＝a+b，当进行基2、基4、基8或基16运算时，第二个输出数据d＝a-b，当进行基3或基5运算时，第二个输出数据d＝a-(b/2)。

在另一个实施例中，简单乘法器6具有一个数据输入端口和一个数据输出端口，当进行基3和基5运算时，基于输入数据和输出数据构建的第一平衡方程为，

b＝a＝m+(i×n)，

其中，b为输出数据，a为输入数据，i为虚部单位，m为输入数据a的实部，n为输入数据a的虚部；当进行基4、基8和基16运算时，基于输入数据和输出数据构建的第二平衡方程为

b＝a×(-i)＝n-(i×m),

其中，b为输出数据，a为输入数据，i为虚部单位，m为输入数据a的实部，n为输入数据a的虚部。

在另一个实施例中，复杂乘法器8具有一个数据输入端口和一个数据输出端口，基于输入数据和输出数据构建的第三平衡方程为

b＝e×a，

其中，b为输出数据，a为输入数据，e为系数。复杂乘法器根据当前进行运算的基选择系数e。容易理解，该控制单元2可根据当前进行运算的基控制复数乘法器选择相应的系数e。

在一个实施例中，第三级运算单元421c中的复数加法器6也可以移动到第二级运算单元421b或第四级运算单元421d中，同时，在对复数加法器6的位置进行调整时，也要相应地调整交织模块的连接关系。

综上所述，本申请的FFT处理器100中的运算单元4具有既支持FFT运算又支持DFT运算的优点。这样，本申请的FFT处理器100中的运算单元4由于具有既支持FFT运算又支持DFT运算的功能，因而，也就是支持2的整数幂点FFT运算和非2的整数幂点DFT运算。同时，本申请的FFT处理器100采用16路并行的数据通路以及基16运算，从而提高了数据的吞吐率。容易理解，相比于现有技术需要多个处理器分别进行FFT运算和DFT运算而言，本申请的FFT处理器100则节省了芯片的面积和功耗，同时，也降低了SOC的设计的复杂度。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种混合基FFT处理器，其特征在于，包括：

存储单元，用于存储输入数据、中间运算结果和输出数据；

控制单元，用于根据FFT算法，计算需要读取和存储的数据的存储地址并控制运算单元进行蝶形运算；

块浮点单元，用于进行块浮点操作和块浮点指数的存储和读取；以及

运算单元，用于进行蝶形运算；

所述运算单元包括乘法单元和蝶形单元，其数据并行度为16；

所述蝶形单元包括六个交织模块和五级运算单元，其中，所述六个交织模块分别为第一交织模块、第二交织模块、第三交织模块、第四交织模块、第五交织模块以及第六交织模块；

2.根据权利要求1所述的混合基FFT处理器，其特征在于，所述运算单元最多可同时进行一个基16、两个基8、两个基5、四个基4、四个基3或八个基2的蝶形运算。

3.根据权利要求1所述的混合基FFT处理器，其特征在于，所述乘法单元包括15个旋转因子乘法器，所述旋转因子乘法器采用CORDIC算法实现；在多路并行数据中，除第一路数据外，其余路的数据均需通过所述旋转因子乘法器进行旋转因子乘法运算。

4.根据权利要求1所述的混合基FFT处理器，其特征在于，所述第一交织模块的输入数据为所述乘法单元输出的且经过对齐操作后的数据，所述第一交织模块输出的数据为所述第一级运算单元的输入数据；

所述第六交织模块的输出数据为所述蝶形单元的输出数据。

5.根据权利要求1所述的混合基FFT处理器，其特征在于，所述第一级运算单元由8个并行的基二蝶形单元组成；

所述第三级运算单元包括并行的1个简单乘法器、8个复杂乘法器以及2个复数加法器组成；

所述第四级运算单元由8个并行的基二蝶形单元组成；

所述第五级运算单元由并行的8个基二蝶形单元和4个简单乘法器组成。

6.根据权利要求5所述的混合基FFT处理器，其特征在于，所述基二蝶形单元具有两个并行的数据输入端口和两个并行的数据输出端口，所述基二蝶形单元包括一个复数加法器和一个复数减法器，其中，第一个输入数据为a，第二个输入数据为b，则第一个输出数据c＝a+b，第二个输出数据d＝a-b。

7.根据权利要求5所述的混合基FFT处理器，其特征在于，所述可变蝶形单元具有两个并行的数据输入端口和两个并行的数据输出端口；所述可变蝶形单元包括一个复数加法器和一个复数减法器；其中，第一个输入数据为a，第二个输入数据为b，则第一个输出数据c＝a+b，当进行基2、基4、基8或基16运算时，第二个输出数据d＝a-b，当进行基3或基5运算时，第二个输出数据d＝a-(b/2)。

8.根据权利要求5所述的混合基FFT处理器，其特征在于，所述简单乘法器具有一个数据输入端口和一个数据输出端口，当进行基3和基5运算时，基于输入数据和输出数据构建的第一平衡方程为

b＝a＝m+(i×n)

当进行基4、基8和基16运算时，基于输入数据和输出数据构建的第二平衡方程为

b＝a×(-i)＝n-(i×m)，

9.根据权利要求5所述的混合基FFT处理器，其特征在于，所述复杂乘法器具有一个数据输入端口和一个数据输出端口，基于输入数据和输出数据构建的第三平衡方程为

b＝e×a，

其中，b为输出数据，a为输入数据，e为系数；复杂乘法器根据当前进行运算的基选择系数e。