CN106933777B

CN106933777B - 基于国产申威26010处理器的基2一维fft的高性能实现方法

Info

Publication number: CN106933777B
Application number: CN201710150446.6A
Authority: CN
Inventors: 张佳佳; 杨超; 尹万旺; 赵玉文; 魏迪; 刘芳芳; 袁欣辉
Original assignee: Institute of Software of CAS; Wuxi Jiangnan Computing Technology Institute
Current assignee: Institute of Software of CAS; Wuxi Jiangnan Computing Technology Institute
Priority date: 2017-03-14
Filing date: 2017-03-14
Publication date: 2019-03-19
Anticipated expiration: 2037-03-14
Also published as: CN106933777A

Abstract

本发明提出一种基于国产申威26010处理器的基2一维FFT的高性能实现方法，基于国产处理器申威26010平台，设计从核内行或列寄存器通信机制、访存‑计算重叠的双缓冲机制和256位单指令流多数据流的向量化运算等多种优化技术，同时提出基于两层分解的Stockham FFT计算框架且分解规则为库利‑图基算法，设计“接口层‑主核层‑从核层‑核心层”的四层结构框架进行基2一维FFT计算，从而有效解决FFT计算的访存带宽受限问题，有效提升基2一维FFT计算性能。与开源FFTW库相比，基于本平台的基2一维FFT计算性能急剧升高，以FFT计算的每秒浮点运算次数为例，其平均加速比为34.4，最高加速比达到50.3。

Description

基于国产申威26010处理器的基2一维FFT的高性能实现方法

技术领域

本发明属于傅里叶变换领域，具体涉及基于国产申威26010处理器的基2一维FFT的高性能实现方法。

背景技术

快速傅里叶变换(Fast Fourier Transform，FFT)是离散傅里叶变换的快速计算方法。离散傅里叶变换(Discrete Fourier Transform，DFT)是指傅里叶变换在时域和频域都表示为离散状态，将信号的时域采样变换为离散时间傅里叶变换的频域采样。DFT将自然科学与工程技术中连续而复杂的问题转换为离散而简单的运算。对于数据规模为N的一维输入序列，DFT计算公式如下：

其中，ω_N为旋转因子(twiddle factor)序列，ω_N＝e^-i2π/N,e^ix＝cos x+i sin x,由DFT计算公式可知，其实质为DFT矩阵与输入向量x的矩阵向量乘。规模为N的一维DFT矩阵的数学表达式为：

FFT主要利用ω_N的对称性和周期性，将DFT分解为若干有规律的矩阵向量乘，使得DFT的浮点运算量减少到O(NlogN)。FFT算法种类繁多，变换形式复杂，主要处理对象有基2变换规模和非基2变换规模以及合数变换规模和素数变换规模，数据类型有单精度复数、双精度复数、单精度实数与双精度实数。本发明中，处理对象为基2一维FFT，数据类型为双精度复数。

国产申威26010处理器是江南计算技术研究所自主研制的高性能计算平台，该平台是1个主核与64个从核组成单个核组、并由4个核组组成单个CPU的众核平台。平台使用扩展的ALPHA架构指令集，支持从核核组寄存器通信机制、访存指令和计算指令同步发射机制以及256位SIMD向量化运算。该高性能计算平台性能优越，越来越多的科学计算与工业应用运行于该平台，然而目前开源FFTW函数库直接应用于该平台的计算性能较差，因此针对该申威平台开发FFT函数库是必需的。

发明内容

本发明技术解决问题：克服现有技术的基于开源FFTW函数库直接应用于本平台性能较低的问题，提供一种基于国产申威26010处理器的基2一维快速傅里叶变换的高性能实现方法，设计多种高性能优化手段，并且提出两层分解的FFT算法结构，有效应用于基2一维FFT计算，充分提高FFT函数库性能。

传统FFT算法并行度有限且访存局部性低，在申威众核平台上难以充分利用众多计算资源。依据众核计算平台的核间拓扑结构和存储层次特点，本发明基于国产申威26010处理的一个核组，设计接口层、主核层、从核层和核心层的四层结构框架进行FFT处理。一个核组由一个主核与64个从核组成；接口层和主核层为主核上操作，且操作输入输出数据存储于主核内存，从核层和核心层为从核上操作，且操作输入输出数据存储于从核局存LDM，即Local Direct Memory。具体实现如下：

(1)接口层建立输入数据的描述符；所述描述符设置FFT计算的基本信息，所述基本信息包括FFT计算中输入序列的数据维度、数据规模、数据精度以及变换类型；所述数据维度为一维，所述数据规模为2的幂，所述数据精度包括64位双精度数据与32位单精度数据，所述变换类型为复数到复数的变换，即输入输出数据皆为复数；本发明所述数据皆默认为双精度复数数据，若操作单精度复数数据，下文无特殊说明时，所述数据规模乘2即可；

(2)基于(1)所述描述符信息，当输入数据规模N小于等于256时，主核层直接对输入序列进行FFT计算；当输入数据规模N大于等于512时，主核层设计基于两层分解的算法结构对输入序列进行分解，分解结果为多个小因子序列，小因子数据规模小于等于32，则输入序列的FFT计算转化为多个小因子序列的FFT计算，小因子序列的FFT计算在从核上执行；此外，不计输入数据规模N的大小，主核层负责FFT计算过程中所必需的旋转因子序列ω_N的计算，ω_N为不同n,l数值下旋转因子的统一表达方式，主核层直接计算数据为旋转因子 n表示输入序列中数据的下标，l表示输出序列中数据的下标，下标即为序列中某一数据于序列中的位置序号；存放于临时数组中，作用于核心层小因子序列的FFT计算；

(3)主核上操作完毕之后，从核层发起DMA，即直接内存访问Direct MemoryAccess，读取主核内存数据至从核LDM中，然后从核对LDM数据进行小因子序列的FFT计算，最后DMA将从核LDM内的FFT计算结果写入主核内存；

(4)根据(3)所述的从核对LDM数据进行小因子序列的FFT计算，此计算操作由核心层完成，核心层基于256位SIMD进行向量化运算的小因子优化函数进行小因子序列的FFT计算；SIMD为单指令流多数据流，256位SIMD表示一条指令同时处理256位数据，即FFT计算粒度为256位向量数据；此外，各从核分别进行小因子序列的FFT计算，计算结果存储于各自的LDM中。

步骤(2)中当输入数据规模N大于等于512时，主核层设计基于两层分解的算法结构对输入序列进行分解，该基于两层分解的算法基于迭代的Stockham计算框架，将输入序列分解为一系列的小因子序列，分解规则为库利-图基即Cooley-Turkey算法；Stockham计算框架首先基于N＝N₁*...*N_i*...*N_m的分解模式使用迭代的方法进行分解，其中i＝1,2,...,m，之后对数据N_i的处理分为两种情况：

1)当数据规模N_i为小因子数据规模时，则不再进行分解，即只进行一层分解；

2)当数据规模N_i大于小因子数据规模时，则递归地基于N_i＝f₁*...*f_k*...的分解模式进行二层分解，其中k＝1,2,...，且分解时确保f_k为小因子数据规模，则输入序列被分解为多个小因子序列。

步骤(3)所述的从核层发起DMA，读取主核内存数据至从核LDM中的具体情况如下：

1)从核层发起DMA读取主核内存数据时，数据传输的起始地址满足128字节对齐且传输量至少为256字节的倍数；

2)从核层读取数据至从核LDM时，依据主核输入数据规模，当输入数据规模N大于等于512且小于等于2048时，8个从核LDM均匀分担DMA读取的主核内存数据；当输入数据规模N大于等于4096时，64个从核LDM均匀分担DMA读取的主核内存数据。

步骤(3)所述的从核对LDM数据进行小因子序列的FFT计算，具体情况为：从核层以V*N_i为工作集，其中，N_i为基于N＝N₁*...*N_i*...*N_m分解模式进行分解后的数据规模，大于等于小因子数据规模，即N_i大于等于32，i＝1,2,...,m；V表示每次调用核心层优化函数进行小因子序列FFT计算的个数，即调用核心层优化函数一次，则进行V个小因子序列的FFT计算，V≥16，若数据精度为8位单精度数据，V≥32；

1)当512≤V*N_i≤2048时，数据规模为V*N_i的FFT计算由一行8个从核共同完成计算，进一步分解N_i＝f₁*f₂，f₁与f₂为小因子数据规模；在核心层进行V个数据规模为f₁的小因子序列的FFT计算之后，以从核的寄存器通信机制对从核上计算结果进行重新排布，随后于核心层进行V个数据规模为f₂的小因子序列的FFT计算；

2)V*N_i大于等于4096时，数据规模为V*N_i的FFT计算由64个从核共同完成计算，进一步分解N_i＝f₁*f₂*...，以f_k代表f₁,f₂,...其中之一，f_k为小因子数据规模；各个数据规模为f_k的小因子序列的FFT计算之间，需以从核的行寄存器通信或列寄存器通信重新排布从核数据。

步骤(3)所述的从核层发起DMA，读取主核内存数据以及从核进行小因子数据的FFT计算，有下面特殊情况：受限于64个从核的LDM空间，当数据规模N大于等于65536时，需进行多次DMA访存操作，即读取和写入操作，因此设计从核层基于访存-计算重叠的双缓冲机制同时进行DMA访存操作与小因子数据的FFT计算操作，即以DMA访存时间覆盖FFT计算时间。

与开源FFTW技术相比：

(1)本发明基于国产申威26010处理器，提出基于两层分解的Stockham FFT计算框架进行FFT计算，有效应用于基2一维FFT计算，充分提高FFT函数库性能。

(2)本发明设计从核内行或列寄存器通信机制、访存-计算重叠的双缓冲机制和256位SIMD向量化运算等多种优化技术，有效解决FFT计算的访存带宽受限问题，提升基2一维FFT运算性能。

(3)以每秒浮点运算次数即Gflops表示FFT计算性能为例，本发明基2一维FFT计算性能相比于FFTW中基2一维FFT计算性能的平均加速比为34.4，最高加速比高达50.3。

附图说明

图1为基于申威平台的FFT四层结构框架，包含接口层、主核层、从核层和核心层；

图2为以N＝N₁*N₂分解模式的FFT计算流程；

图3为数据规模为64，以8*8的分解模式进行分解时，DMA对数据的读取与写入方式，以及行寄存器通信机制对各从核LDM数据的调整；其中，(a)为数据规模为64时，数据序列于主核内存上的存储格式；(b)为DMA读取主核数据至8个从核之后，各从核LDM数据的存储格式；(c)为对8个从核LDM的数据经行寄存器通信之后，各从核LDM数据的分配格式；(d)为DMA将LDM数据写入至主核之后，数据序列于主核内存上的存储格式。

具体实施方式

如图1所示，本发明是基于国产申威26010处理器的基2一维FFT的高性能实现方法，设计框架包含四层：接口层、主核层、从核层、核心层，调用关系为接口层-主核层-从核层-核心层，从核层多次调用核心层。接口层建立包含输入数据规模、数据维度等信息的描述符；主核层基于描述符信息，当输入数据规模大于等于512时，对输入序列进行分解，当输入数据规模小于等于256时，直接于主核上进行FFT计算；从核层依据主核层的数据分解结果，负责主存数据与局存数据的读取与存储，以及数据于64个从核上的分配模式；核心层负责小因子序列的FFT计算。

四层设计框架具体实施方式如下：

1.接口层：描述符操作

(1)接口层首先建立描述符，设置FFT计算所需的数据精度、数据维度、数据规模等基本信息；

(2)提交描述符至主核层，主核层进行FFT计算所需的运算；

(3)调用从核接口传输数据至从核；

(4)主从核上FFT计算结束后，释放描述符。

FFT计算调用从核接口时，有两种接口类型，分别为正变换接口与逆变换接口。FFT正逆变换算法相同，逆变换主要用于判断FFT算法的正确性，输入数据x经正变换得到输出数据y，而后输出数据y经逆变换得到输出数据z，通过比较输入数据x与输出数据z，即以x与z的2范数与某一阈值进行比较，确定FFT算法的正确性。

2.主核层：

本发明中，FFT是基于两层分解的算法结构，算法基于迭代的Stockham计算框架，将大规模FFT计算分解为一系列小规模计算，分解规则为Cooley-Tukey算法。对于输入数据规模N的一维FFT计算，分为两种情况：

(1)若输入数据规模N小于等于256时，主核层直接进行输入序列的FFT计算；

(2)若输入数据规模N大于等于512时，将数据序列均匀分布到8个或64个从核中进行计算。对于输入序列，Stockham FFT计算框架基于N＝N₁*...*N_i*...*N_m(i＝1,2,...,m)的分解模式使用迭代方法将输入数据规模为N的一维FFT计算任务转化为一系列数据规模为N_i的FFT计算，而后根据数据规模N_i，分为两种情况：

1)若数据规模N_i为小因子数据规模，即数据规模小于等于32，则N_i不再进行分解，直接调用核心层的小因子优化函数进行小因子序列的FFT计算；

2)若数据规模N_i大于小因子数据规模，则对N_i递归地应用Cooley-Tukey算法进行二层分解，分解模式为N_i＝f₁*,...,*f_k*...(k＝1,2,...)，f_k为小因子数据规模，则f_k直接调用核心层的小因子优化函数进行小因子序列的FFT计算。

此外，主核层负责FFT计算过程中所必需的旋转因子序列ω_N的计算，ω_N为不同n,l数值下旋转因子的统一表达方式，主核层直接计算数据为旋转因子 n表示输入序列中数据的下标，l表示输出序列中数据的下标，下标即为序列中某一数据于序列中的位置序号；存放于临时数组中，作用于核心层小因子序列的FFT计算。

基于Cooley-Tukey算法，假设输入数据规模为N的序列分解为N＝N₁*N₂，则输入序列按行优先方式映射为二维数组，具体计算步骤如图2，其表述如下：

(1)N₂个数据规模为N₁的一维FFT计算，每个FFT计算的输入序列为x[*,l](0≤l＜N₂)；

(2)FFT后每个数据乘旋转因子：

(3)N₁个数据规模为N₂的一维FFT计算，每个FFT计算的输入序列为x[j,*](0≤j＜N₁)；

(4)FFT后的二维数组转置：x[j,l]→x[l,j]，得到N点一维FFT计算结果。

严格依照上面4个步骤执行FFT计算时，当数据规模N大于片上存储规模N_r时，需对片下内存数组读写4次，则总访存量为8N。因此，具体实现时，通常将步骤(2)的乘旋转因子合并到步骤(1)中，将步骤(4)的数据转置合并到步骤(3)中，则访存量降低为4N。与输入输出数据访存量相比，旋转因子产生访存量极低，因此忽略旋转因子访存量。

3.从核层：从核核组对各种规模FFT的计算方案

该平台上，通过DMA实现主存与LDM之间数据的快速交换。数据规模为N_i的一维FFT计算包含三个步骤：DMA传输输入数据至LDM；于从核LDM上发起数据规模为N_i的一维FFT；DMA将计算结果存入内存。

从算法设计和访存带宽利用角度出发，同时计算V个数据规模为N_i的一维FFT计算，即核组每次计算的工作集为V*N_i，V表示每次调用核心层优化函数进行小因子序列FFT计算的个数，即调用核心层优化函数一次，则进行V个小因子序列的FFT计算，V≥16，若数据精度为单精度复数，V≥32。依据从核间通信特征，数据规模为N_i的FFT计算有三种方案：

(1)仅由1个从核完成，没有从核间通信，数据V*N_i分布在单个从核LDM中，直接进行V个数据规模为N_i的基2一维FFT；

(2)由一行(列)8个从核共同完成计算，仅涉及从核的行寄存器通信，单个从核LDM中分布数据为V*(N_i/8)，N_i进行二次分解N_i＝f₁*f₂；

(3)由整个从核即64个从核共同完成计算，包含从核的行寄存器通信与列寄存器通信，单个从核LDM中分布数据为V*(N_i/64)，N_i进行二次分解N_i＝f₁*f₂*f₃，通常f₃＝8。

由于方案(1)中每次计算的分量较小，于内存数组的遍历次数较多，实际情况中，本方案使用概率极少。

对于方案(2)，由于LDM容量限制，工作集V*N_i无法完全加载到同一从核，故而由一行上8个从核协同计算。如图3所示，N_i＝64，分解为N_i＝f₁*f₂＝8*8进行计算，计算结果以f₂*f₁的维度写入片下内存。该方案由图3中4个步骤组成。

1)基于Cooley-Tukey分解规则，f₁点FFT计算所需数据在片下内存中不连续分布，如图3中的(a)所示，通过适当的DMA传输方式，将f₁点数据加载到同一从核中，如图3中的(b)所示；

2)在8个从核上分别进行V个f₁点FFT计算，与分解N_i＝f₁*f₂产生的旋转因子相乘；

3)基于从核的行寄存器通信机制，将f₂点FFT计算所需数据加载到同一从核中，而后于8个从核上分别进行V个f₂点FFT计算，如图3中(c)所示；

4)通过DMA将计算结果以f₂*f₁的方式写入片下内存中，如图3中(d)所示。

N_i为本方案其他规模时，计算方式类似，不再详述。

对于方案(3)，工作集V*N_i由64个从核协同计算，N_i＝f₁*f₂*f₃，分为N_i＝f₁₂*f₃和f₁₂＝f₁*f₂两步进行计算。基于Cooley-Tukey算法，依次完成f₁、f₂和f₃点FFT计算，计算结果以f₃*f₂*f₁的维度写入片下内存。该方案由5个步骤组成：

1)f₁点FFT计算所需数据在片下内存中不连续分布，通过适当的DMA传输方式，将f₁维度上相应数据加载到同一LDM中；

2)在64个从核上分别进行V个f₁点FFT计算，与f₁₂＝f₁*f₂分解产生的旋转因子相乘；

3)基于从核的行寄存器通信机制，将f₂维度上相应数据加载到同一从核中，而后于64个从核上分别进行V个f₂点FFT计算，与N_i＝f₁₂*f₃分解产生的旋转因子相乘；

4)基于从核的列寄存器通信机制，将f₃维度上相应数据加载到同一从核中，而后于64个从核上分别进行V个f₃点FFT计算；

5)通过DMA将计算结果以f₃*f₂*f₁的方式写入片下内存中。

N_i为本方案其他规模时，计算方式类似，不再详述。

当输入数据规模N大于64个从核协同计算的数据规模N_r时，DMA需对主存数据进行多次读写。基于访存-计算重叠的双缓冲机制，当从核对DMA当次读入LDM的数据进行FFT计算时，DMA进行下次FFT计算所需数据的读取以及当次FFT计算结果向主核内存的写入。输入数据规模N越大，双缓冲效用越明显，有效提升FFT计算性能。

4.核心层：进行小因子序列的FFT计算

当输入数据规模N划分到小因子数据规模f_k或N_i时，直接调用小因子优化函数完成小因子序列的FFT计算。小因子序列的FFT计算是基于256位SIMD进行的向量化运算，即运算粒度为256位向量数据，即4个64位双精度数据。SIMD指单指令流多数据流SingleInstruction Multiple Data，一条SIMD指令同时处理256位数据。因此，相对于运算粒度为单个64位双精度数据的计算，基于256位SIMD的高效率计算，若单从核工作集为V*f_k，即V个f_k点FFT计算，则V次f_k点FFT计算有效转化为V/4次f_k点FFT计算。

本发明基于申威26010平台，设计两层分解的FFT计算框架、寄存器通信机制、访存计算重叠的双缓冲机制以及SIMD向量化运算等与计算平台相关的优化手段，有效提高FFT计算性能。表1统计了数据类型为双精度复数时，基于本平台的基2一维FFT的性能数据与开源FFTW的基2一维FFT的性能数据，其中，数据规模取16384、32768、65536、131072、262144、524288、4194304，由表1得知，基2一维FFT平均加速比为34.4，最高加速比达到50.3。

表1 基2一维FFT性能

注：上述以xMath-FFT表示基于国产申威26010处理器的FFT。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于国产申威26010处理器的基2一维FFT的高性能实现方法，其特征在于：所述方法基于国产申威26010处理器的一个核组，所述核组由一个主核与64个从核组成，所述方法以接口层、主核层、从核层和核心层的四层结构框架进行FFT处理；接口层和主核层为主核上操作且操作输入输出数据存储于主核内存，从核层和核心层为从核上操作，且操作输入输出数据存储于从核局存LDM，即Local Direct Memory；具体实现如下：

(1)接口层建立输入数据的描述符；所述描述符设置FFT计算的基本信息，所述基本信息包括FFT计算中输入序列的数据维度、数据规模、数据精度以及变换类型；所述数据维度为一维，所述数据规模为2的幂，所述数据精度包括64位双精度数据与32位单精度数据，所述变换类型为复数到复数的变换，即输入输出数据皆为复数；；

(2)基于步骤(1)所述描述符信息，当输入数据规模N小于等于256时，主核层直接对输入序列进行FFT计算；当输入数据规模N大于等于512时，主核层设计基于两层分解的算法结构对输入序列进行分解，分解结果为多个小因子序列，小因子数据规模小于等于32，则输入序列的FFT计算转化为多个小因子序列的FFT计算，小因子序列的FFT计算在从核上执行；此外，不计输入数据规模N的大小，主核层负责FFT计算过程中所必需的旋转因子序列ω_N的计算，ω_N为不同n,l数值下旋转因子的统一表达方式，主核层直接计算数据为旋转因子 n表示输入序列中数据的下标，l表示输出序列中数据的下标，下标即为序列中某一数据于序列中的位置序号；存放于临时数组中，作用于核心层小因子序列的FFT计算；

(3)主核上操作完毕之后，从核层发起DMA，即直接内存访问Direct Memory Access，读取主核内存数据至从核LDM中，然后从核对LDM数据进行小因子序列的FFT计算，最后DMA将从核LDM内的FFT计算结果写入主核内存；

(4)根据步骤(3)所述的从核对LDM数据进行小因子序列的FFT计算，此计算操作由核心层完成，核心层基于256位SIMD进行向量化运算的小因子优化函数进行小因子序列的FFT计算；SIMD为单指令流多数据流，256位SIMD表示一条指令同时处理256位数据，即FFT计算粒度为256位向量数据；此外，各从核分别进行小因子序列的FFT计算，计算结果存储于各自的LDM中。

2.权利要求1所述的基于国产申威26010处理器的基2一维FFT的高性能实现方法，其特征在于：所述步骤(2)中当输入数据规模N大于等于512时，主核层设计基于两层分解的算法结构对输入序列进行分解，该基于两层分解的算法基于迭代的Stockham计算框架，将输入序列分解为一系列的小因子序列，分解规则为库利-图基即Cooley-Turkey算法；Stockham计算框架首先基于N＝N₁*...*N_i*...*N_m的分解模式使用迭代的方法进行分解，其中i＝1,2,...,m，之后对数据N_i的处理分为两种情况：

(11)当数据规模N_i为小因子数据规模时，则不再进行分解，即只进行一层分解；

(12)当数据规模N_i大于小因子数据规模时，则递归地基于N_i＝f₁*...*f_k*...的分解模式进行二层分解，其中k＝1,2,...，且分解时确保f_k为小因子数据规模，则输入序列被分解为多个小因子序列。

3.根据权利要求1所述的基于国产申威26010处理器的基2一维FFT的高性能实现方法，其特征在于：步骤(3)所述的从核层发起DMA，读取主核内存数据至从核LDM中的具体情况如下：

(21)从核层发起DMA读取主核内存数据时，数据传输的起始地址满足128字节对齐且传输量至少为256字节的倍数；

(22)从核层读取数据至从核LDM时，依据主核输入数据规模，当输入数据规模N大于等于512且小于等于2048时，8个从核LDM均匀分担DMA读取的主核内存数据；当输入数据规模N大于等于4096时，64个从核LDM均匀分担DMA读取的主核内存数据。

4.根据权利要求1所述的基于国产申威26010处理器的基2一维FFT的高性能实现方法，其特征在于：步骤(3)所述的从核对LDM数据进行小因子序列的FFT计算，具体情况为：从核层以V*N_i为工作集，其中，N_i为基于N＝N₁*...*N_i*...*N_m分解模式进行分解后的数据规模，大于等于小因子数据规模，即N_i大于等于32，i＝1,2,...,m；V表示每次调用核心层优化函数进行小因子序列FFT计算的个数，即调用核心层优化函数一次，则进行V个小因子序列的FFT计算，V≥16，若数据精度为8位单精度数据，V≥32；

(31)当512≤V*N_i≤2048时，数据规模为V*N_i的FFT计算由一行8个从核共同完成计算，进一步分解N_i＝f₁*f₂，f₁与f₂为小因子数据规模；在核心层进行V个数据规模为f₁的小因子序列的FFT计算之后，以从核的寄存器通信机制对从核上计算结果进行重新排布，随后于核心层进行V个数据规模为f₂的小因子序列的FFT计算；

(32)V*N_i大于等于4096时，数据规模为V*N_i的FFT计算由64个从核共同完成计算，进一步分解N_i＝f₁*f₂*...，以f_k代表f₁,f₂,...其中之一，f_k为小因子数据规模；各个数据规模为f_k的小因子序列的FFT计算之间，需以从核的行寄存器通信或列寄存器通信重新排布从核数据。

5.根据权利要求1所述的基于国产申威26010处理器的基2一维FFT的高性能实现方法，其特征在于：步骤(3)所述的从核层发起DMA，读取主核内存数据以及从核进行小因子序列的FFT计算时，有下面特殊情况：受限于64个从核的LDM空间，当数据规模N大于等于65536时，需进行多次DMA访存操作，即读取和写入操作，采用从核层基于访存-计算重叠的双缓冲机制同时进行DMA访存操作与小因子序列的FFT计算操作，即以DMA访存时间覆盖FFT计算时间。