CN103902506A

CN103902506A - 一种基于龙芯3b的fftw3优化方法

Info

Publication number: CN103902506A
Application number: CN201410153672.6A
Authority: CN
Inventors: 顾乃杰; 王小乐; 张明; 任开新
Original assignee: Institute of Advanced Technology University of Science and Technology of China
Current assignee: Institute of Advanced Technology University of Science and Technology of China
Priority date: 2014-04-16
Filing date: 2014-04-16
Publication date: 2014-07-02
Anticipated expiration: 2034-04-16
Also published as: CN103902506B

Abstract

本发明公开了一种基于龙芯3B的FFTW3优化方法，其特征是：在计算规模为和数的复数离散傅里叶变换中利用所述向量指令方法和Cooley-Tukey算法进行优化；在计算实数离散傅里叶变换中利用所述向量指令方法和实部和虚部单独计算处理方法进行优化。本发明能有效提高FFTW3在龙芯3B处理器上的运行性能，从而达到在龙芯3B处理器上FFTW3的高效实现。

Description

一种基于龙芯3B的FFTW3优化方法

技术领域

本发明属于电数字数据处理技术领域，具体涉及龙芯3B处理器上FFTW3实现优化方法。

背景技术

龙芯3B是首款国产商用8核处理器，主频达到1GHz，支持向量运算加速，峰值计算能力达到128GFLOPS，具有很高的性能功耗比。龙芯3B主要用于高性能计算机、高性能服务器、数字信号处理等领域。FFTW(the Faster Fourier Transform in the West)是一个快速计算离散傅里叶变换的标准C语言程序集，其由MIT的M.Frigo和S.Johnson开发，可计算一维或多维实数和复数数据以及任意规模的离散傅里叶变换(DFT，Discrete Fourier Transform)。FFTW3是在FFTW的基础上进行二次开发而成的新版本，新增了对共享和分布式存储系统的并行变换，可自动适应你的机器，缓存，存储器大小，寄存器个数。FFTW3通常比目前其它开源的傅里叶变换程序运行效率高，其最新版本为fftw-3.3.3。FFTW3的高效实现是通过将规模大的离散傅里叶变换分解为多个小规模的离散傅里叶变换，其核心代码也就是完成小规模离散傅里叶变换，这些代码比较短，采用汇编语言实现将会获得更好的性能，龙芯3B处理有132个向量寄存器，能够保证其汇编实现对寄存器数量的需要。

目前实际应用的FFTW3并没有针对龙芯3B处理器进行优化，因此通用的FFTW3单纯移植在龙芯3B处理器上不能较好地发挥龙芯3B处理器的特性。

发明内容

本发明是为避免上述现有技术所存在的不足之处，提供基于龙芯3B的FFTW3优化方法，以期提高FFTW3在龙芯3B处理器上的运行性能，从而达到在龙芯3B处理器上FFTW3的高效实现。

本发明为解决以上技术问题采用如下方案：

本发明一种基于龙芯3B的FFTW3优化方法的特点是：所述优化方法是利用向量指令方法、Cooley-Tukey算法以及实部和虚部单独计算处理方法，分别按如下情况对离散傅里叶变换函数进行优化；

情况一：在计算规模为和数的复数离散傅里叶变换中利用所述向量指令方法和Cooley-Tukey算法进行优化；

情况二：在计算实数离散傅里叶变换中利用所述向量指令方法和实部和虚部单独计算处理方法进行优化；

所述向量指令方法是指使用所定义的128位访存指令和计算指令对所述离散傅里叶变换函数中的输入参数分别进行访存和2点FFT计算：

所述128位访存指令定义为：

读取指令VLDC1vd，addr，用于读取寻址地址寄存器addr中的128位数据到向量寄存器vd中；

存放指令VLSC1vd，addr，用于将寄存器vd中低128位数据存放到地址寄存器addr中；

所述计算指令定义为：

低128位2点FFT计算指令对VMULADD vd，vs，vt，vr和VMULADDL vd，vs，vt，vr，用于共同完成向量双精度FFT运算低128位数据计算；

高128位2点FFT计算指令对VMULADDH vd，vs，vt，vr和VMULADDLH vd，vs，vt，vr，用于共同完成向量双精度FFT运算高128位数据计算；

所述Cooley-Tukey算法是按如下步骤进行：

步骤1：利用式(1)和式(2)对所述离散傅里叶变换函数中计算规模N进行索引变换：

n＝N₂×n₁+n₂ 式(1)

K＝k₁+N₁×k₂ 式(2)

式(1)和式(2)中，N₁和N₂为所述计算规模N的因子，且满足N₁×N₂＝N；参数n的值域为[0,N-1]，参数K的值域为[0,N-1]，参数n₁和参数k₁的值域都为[0,N₁-1]，参数n₂和参数k₂的值域都为[0,N₂-1]；

步骤2：利用式(3)进行离散傅里叶变换获得离散傅里叶变换的输出值X(k₁+N₁k₂)：

X (k_{1} + N_{1} k_{2}) = Σ_{n_{2} = 0}^{N_{2} - 1} W_{N_{2}}^{n_{2} k_{2}} \times (W_{N}^{n_{2} k_{1}} \times (Σ_{n_{1} = 0}^{N_{1} - 1} x (N_{2} \times n_{1} + n_{2}) \times W_{N_{1}}^{n_{1} k_{1}}))

式(3)

式(3)中，

为所述计算规模N的第n₂k₁个旋转因子；为所述因子N₂的第n₂k₂个旋转因子；为所述因子N₁的第n₁k₁个旋转因子；

由此，将所述计算规模为N的离散傅里叶变换优化成规模为因子N₁和因子N₂的离散傅里叶变换；

所述实部和虚部单独计算处理方法按如下步骤进行：

步骤a：判断所述离散傅里叶变换中的计算规模N的奇偶性，若计算规模N为偶数，则执行步骤b后结束；若计算规模N为奇数，则跳转到步骤c，执行步骤c后结束；

步骤b：利用式(4)、式(5)和式(6)获得所述离散傅里叶变换在偶数点时输出序列的实部X_real(k)：

X_{real} (0) = (x (0) + x (\frac{n}{2})) + (x (1) + x (n - 1)) + . . . + (x (\frac{n}{2} - 1) + x (\frac{n}{2} + 1))

式(4)

X_{real} (k) = Σ_{i = 1}^{\frac{n}{2} - 1} (x (i) + x (n - i)) \times W_{N}^{ik} + x (\frac{n}{2}) \times {(- 1)}^{k}

式(5)

X_{real} (\frac{n}{2}) = (x (0) - x (\frac{n}{2})) - (x (1) + x (n - 1)) + (x (2) + x (n - 2)) + . . . + (x (\frac{n}{2} - 1) + x (\frac{n}{2} + 1))

式(6)

利用式(7)获得所述离散傅里叶变换在偶数点时输出序列的虚部X_image(k)：

X_{image} (k) = Σ_{i = 1}^{\frac{n}{2} - 1} (x (i) - x (n - i)) \times W_{N}^{ik}

式(7)

式(4)、式(5)、式(6)和式(7)中，x(0),x(1),…x(n)为离散傅里叶变换序列；X_real(0)为所述输出序列第1个位置的实部值，X_real(k)表示所述输出序列第k个位置的实部值，参数k的值域为

为所述输出序列第

个位置的实部值；X_image(k)为所述输出序列第个k位置的虚部值，参数i的值域为

表示计算规模N的第ik个旋转因子；

步骤c：利用式(8)和式(9)获得所述离散傅里叶变换在奇数点时输出序列的实部X_real(k)：

X_{real} (0) = (x (1) + x (n - 1)) + (x (2) + x (n - 2)) + . . . + (x (\frac{n}{2} - 1) + x (\frac{n}{2} + 1)) + x (0)

式(8)

X_{real} (k) = Σ_{i = 1}^{\frac{n}{2} - 1} (x (i) + x (n - i)) \times W_{N}^{ik} + x (0)

式(9)

利用式(10)获得所述离散傅里叶变换在奇数点时输出序列的虚部X_image(k)：

X_{image} (k) = Σ_{i = 1}^{\frac{n}{2} - 1} (x (i) - x (n - i)) \times W_{N}^{ik}

式(10)

式(8)、式(9)和式(10)中，X_real(0)为所述输出序列第1个位置的实部值，X_real(k)为所述输出序列第k个位置的实部值，参数k的值域为

为所述输出序列第

表示计算规模N的第ik个旋转因子。

与已有技术相比，本发明有益效果体现在：

1、与直接的移植实现在龙芯3B处理器上的通用FFTW3相比，本发明通过采用使用向量指令方法减少访存次数，采用Cooley-Tukey算法以及实部和虚部单独计算处理方法，减少了计算量，从而提升了FFTW3性能；

2、由于发明采用向量指令方法，使用128位访存指令能够减少访存次数，访存效率大幅度上升；计算指令的使用减少了程序的计算量，从而提高了FFTW3性能；

3、由于发明采用Cooley-Tukey算法，使程序计算一个大规模离散傅里叶变换变为计算多个小规模离散傅里叶变换，减少了计算量，从而提高了FFTW3的性能；

4、由于本发明采用实部和虚部单独计算处理方法，通过对具有相同旋转因子位置点的合并计算，使原来的乘法次数减半，降低了程序所需计算量，提高了程序的运行速度；

5、经过实验验证，本发明方法在复数离散傅里叶变换中，计算规模N为6时性能提升为37.99%，计算规模N为10时性能提升为25.21%，计算规模N为11时性能提升为188.04%，计算规模N为12时性能提升为25.14%，计算规模N为16时性能提升为81.35%；在实数离散傅里叶变换中，计算规模N为6时性能提升为59.91%，计算规模N为10时性能提升为40.83%，计算规模N为11时性能提升为85.43%，计算规模N为12时性能提升为23.49%。对FFTW3中小规模离散傅里叶变换的优化对大规模离散傅里叶变换计算也有一定的提升。

具体实施方式

本发明的目的是提出一种FFTW3的优化方法，以用来克服通用FFTW3没有针对龙芯3B处理器硬件特性进行优化而运行性能不高的问题。

龙芯3B处理器是支持MIPS64指令集及龙芯扩展指令集，9级超流水线结构，四发射乱序执行结构，2个定点单元、2个浮点单元和1个访存单元，每个浮点单元支持256位向量运算。本发明将最新版本FFTW3fftw-3.3.3移植到龙芯3B处理器上。

龙芯3B的FFTW3优化方法是采用利用向量指令方法、Cooley-Tukey算法以及实部和虚部单独计算处理方法分别按如下情况对离散傅里叶变换函数进行优化；

情况一：在计算规模为和数的复数离散傅里叶变换中利用向量指令方法和Cooley-Tukey算法进行优化；

情况二：在计算实数离散傅里叶变换中利用向量指令方法和实部和虚部单独计算处理方法进行优化；

向量指令方法是指使用所定义的128位访存指令和计算指令对离散傅里叶变换函数中的输入参数分别进行访存和2点FFT计算：

128位访存指令定义：

存放指令VLSC1vd，addr，用于将寄存器vd的低128位数据存放到地址寄存器addr中；

龙芯3B处理器自身具有的128位访存指令，可以对输入和输出数据加倍进行处理，使用128位访存指令进行访存优化也适用于非合数复数离散傅里叶变换。

计算指令定义：

龙芯3B处理器自身具有的计算指令一次可以完成为256位数据的计算；

2点FFT变换，即计算规模N为2的离散傅里叶变换函数，龙芯3B处理器拥有完成上述指令功能相关的指令。

Cooley-Tukey算法是按如下步骤进行：

步骤1：利用式(1)和式(2)对离散傅里叶变换函数中计算规模N进行索引变换：

n＝N₂×n₁+n₂ 式(1)

K＝k₁+N₁×k₂ 式(2)

式(1)和式(2)中，N₁和N₂为计算规模N的因子，且满足N₁×N₂＝N；参数n的值域为[0,N-1]，参数K的值域为[0,N-1]，参数n₁和参数k₁的值域都为[0,N₁-1]，参数n₂和参数k₂的值域都为[0,N₂-1]；

本实施例中，以N=12，N₁=3，N₂=4为例，则参数n值域为[0,11]，参数K值域为[0,11]，参数n₁和参数k₁的值域都为[0,2]，参数n₂和参数k₂的值域都为[0,3]；按照式(1)和式(2)分别建立表一索引n和表二索引K如下所示：

表一索引n

表二索引K

X (k_{1} + N_{1} k_{2}) = Σ_{n_{2} = 0}^{N_{2} - 1} W_{N_{2}}^{n_{2} k_{2}} \times (W_{N}^{n_{2} k_{1}} \times (Σ_{n_{1} = 0}^{N_{1} - 1} x (N_{2} \times n_{1} + n_{2}) \times W_{N_{1}}^{n_{1} k_{1}}))

式(3)

式(3)中，

为计算规模N的第n₂k₁个旋转因子；为因子N₂的第n₂k₂个旋转因子；为因子N₁的第n₁k₁个旋转因子；

由此，将计算规模为N的离散傅里叶变换优化成规模为因子N₁和因子N₂的离散傅里叶变换；

本实施例中，利用式（3）获得输出值X(k₁+N₁k₂)，需要分2部分进行计算：第1部分是计算N₂=4个规模为N₁=3的离散傅里叶变换，即对表一中每一列作为一个规模为N₁=3的离散傅里叶变换，将相应位置变换结果分别再乘以相应的

得到式（3）中

部分计算，结果保存为Y(k₁+N₁×k₂)；第2部分是计算N₁=3个规模为N₂=4的离散傅里叶变换，即对表二中每一行作为一个规模为N₂=4的离散傅里叶变换，结果保存为X(k₁+N₁k₂)；第1部分计算过程的核心伪代码如下：

第1部分计算过程的核心伪代码中步骤③实现的核心代码如下，以Y[1]求解为例：

查找表二知k₁＝1,k₂＝0，查找表一知n₂＝0。用寄存器v0-v2表示输入数据x[0]-x[2]，寄存器v20表示计算规模N为3的第0个旋转因子，寄存器v24表示计算规模N为3的第1个旋转因子，寄存器v28表示计算规模N为3的第2个旋转因子，v31表示存放离散傅里叶变换输出序列的第2个位置的数值，即X[1]的值，寄存器v100是初始值为0，这些寄存器都是龙芯3B向量256向量寄存器。下面3条指令用于完成X[1]的计算过程：

VMULADDL v31，v100，v20，v0//这条指令完成X[1]=0+x(0)W₃ ⁰

VMULADDL v31，v31，v24，v1//完成X[1]=X[1]+x(1)W₃ ¹

VMULADDL v31，v31，v28，v2//完成X[1]=X[1]+x(2)W₃ ²

其他语句实现方式与X[1]实现方式类似，本发明采用的是对所有X(k₁+N₁k₂)求解都采用汇编语言展开循环依次实现，在求解出X(k₁+N₁k₂)各个值后即完成规模为N=12的离散傅里叶变换。

实部和虚部单独计算处理方法按如下步骤进行：

步骤b：利用式(5)、式(6)和式(7)获得所述离散傅里叶变换在偶数点时输出序列的实部X_real(k)：

FFTW3是将多点离散傅里叶变换拆分为多个小点离散傅里叶变换，因此FFTW3的核心代码是计算小点数离散傅里叶变换。小点数离散傅里叶变换代码量少，为了进一步获得高性能本发明使用汇编语言，下面的for循环和其他语句的实现过程也是依次展开由汇编语言实现；

X_{real} (0) = (x (0) + x (\frac{n}{2})) + (x (1) + x (n - 1)) + . . . + (x (\frac{n}{2} - 1) + x (\frac{n}{2} + 1))

式（5）

实现核心伪代码如下：

利用式(8)获得所述离散傅里叶变换在偶数点时输出序列的虚部X_image(k)：

X_{image} (k) = Σ_{i = 1}^{\frac{n}{2} - 1} (x (i) - x (n - i)) \times W_{N}^{ik}

式(8)

实现核心伪代码如下：

式(5)、式(6)、式(7)和式(8)中，x(0),x(1),…x(n)为离散傅里叶变换序列；X_real(0)为所述输出序列第1个位置的实部值，X_real(k)表示所述输出序列第k个位置的实部值，参数k的值域为

为所述输出序列第

表示计算规模N的第ik个旋转因子；

步骤c：计利用式(9)和式(10)获得所述离散傅里叶变换在奇数点时输出序列的实部X_real(k)：

X_{real} (0) = (x (1) + x (n - 1)) + (x (2) + x (n - 2)) + . . . + (x (\frac{n}{2} - 1) + x (\frac{n}{2} + 1)) + x (0)

式(9)

实现核心伪代码如下：

X_{real} (k) = Σ_{i = 1}^{\frac{n}{2} - 1} (x (i) + x (n - i)) \times W_{N}^{ik} + x (0)

式(10_)

实现核心伪代码如下：

利用式(11)获得所述离散傅里叶变换在奇数点时输出序列的虚部X_image(k)：

X_{image} (k) = Σ_{i = 1}^{\frac{n}{2} - 1} (x (i) - x (n - i)) \times W_{N}^{ik}

式(11)

实现核心伪代码如下：

式(9)、式(10)和式(11)中，X_real(0)为所述输出序列第1个位置的实部值，X_real(k)为所述输出序列第k个位置的实部值，参数k的值域为

为所述输出序列第

表示计算规模N的第ik个旋转因子；由此，将计算规模为N的离散傅里叶变换优化成规模为因子N₁和因子N₂的离散傅里叶变换。在实数离散傅里叶变换中输出的实部和虚部之间的计算没有任何关系，本发明通过将实部和虚部分解求解，同时将具有相同旋转因子的位置合并在一起计算，减少了乘法运算次数。