CN106933777B - 基于国产申威26010处理器的基2一维fft的高性能实现方法 - Google Patents
基于国产申威26010处理器的基2一维fft的高性能实现方法 Download PDFInfo
- Publication number
- CN106933777B CN106933777B CN201710150446.6A CN201710150446A CN106933777B CN 106933777 B CN106933777 B CN 106933777B CN 201710150446 A CN201710150446 A CN 201710150446A CN 106933777 B CN106933777 B CN 106933777B
- Authority
- CN
- China
- Prior art keywords
- fft
- data
- core
- small factor
- calculated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 239000010410 layer Substances 0.000 claims abstract description 34
- 239000012792 core layer Substances 0.000 claims abstract description 30
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 28
- 238000004891 communication Methods 0.000 claims abstract description 18
- 238000013461 design Methods 0.000 claims abstract description 14
- 230000007246 mechanism Effects 0.000 claims abstract description 13
- 238000003860 storage Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 15
- 230000009466 transformation Effects 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 4
- 230000008707 rearrangement Effects 0.000 claims description 4
- 230000003139 buffering effect Effects 0.000 claims description 3
- 230000000977 initiatory effect Effects 0.000 claims 1
- 239000000872 buffer Substances 0.000 abstract description 4
- 238000003775 Density Functional Theory Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000000686 essence Substances 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/141—Discrete Fourier transforms
- G06F17/142—Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
Abstract
本发明提出一种基于国产申威26010处理器的基2一维FFT的高性能实现方法,基于国产处理器申威26010平台,设计从核内行或列寄存器通信机制、访存‑计算重叠的双缓冲机制和256位单指令流多数据流的向量化运算等多种优化技术,同时提出基于两层分解的Stockham FFT计算框架且分解规则为库利‑图基算法,设计“接口层‑主核层‑从核层‑核心层”的四层结构框架进行基2一维FFT计算,从而有效解决FFT计算的访存带宽受限问题,有效提升基2一维FFT计算性能。与开源FFTW库相比,基于本平台的基2一维FFT计算性能急剧升高,以FFT计算的每秒浮点运算次数为例,其平均加速比为34.4,最高加速比达到50.3。
Description
技术领域
本发明属于傅里叶变换领域,具体涉及基于国产申威26010处理器的基2一维FFT的高性能实现方法。
背景技术
快速傅里叶变换(Fast Fourier Transform,FFT)是离散傅里叶变换的快速计算方法。离散傅里叶变换(Discrete Fourier Transform,DFT)是指傅里叶变换在时域和频域都表示为离散状态,将信号的时域采样变换为离散时间傅里叶变换的频域采样。DFT将自然科学与工程技术中连续而复杂的问题转换为离散而简单的运算。对于数据规模为N的一维输入序列,DFT计算公式如下:
其中,ωN为旋转因子(twiddle factor)序列,ωN=e-i2π/N,eix=cos x+i sin x,由DFT计算公式可知,其实质为DFT矩阵与输入向量x的矩阵向量乘。规模为N的一维DFT矩阵的数学表达式为:
FFT主要利用ωN的对称性和周期性,将DFT分解为若干有规律的矩阵向量乘,使得DFT的浮点运算量减少到O(NlogN)。FFT算法种类繁多,变换形式复杂,主要处理对象有基2变换规模和非基2变换规模以及合数变换规模和素数变换规模,数据类型有单精度复数、双精度复数、单精度实数与双精度实数。本发明中,处理对象为基2一维FFT,数据类型为双精度复数。
国产申威26010处理器是江南计算技术研究所自主研制的高性能计算平台,该平台是1个主核与64个从核组成单个核组、并由4个核组组成单个CPU的众核平台。平台使用扩展的ALPHA架构指令集,支持从核核组寄存器通信机制、访存指令和计算指令同步发射机制以及256位SIMD向量化运算。该高性能计算平台性能优越,越来越多的科学计算与工业应用运行于该平台,然而目前开源FFTW函数库直接应用于该平台的计算性能较差,因此针对该申威平台开发FFT函数库是必需的。
发明内容
本发明技术解决问题:克服现有技术的基于开源FFTW函数库直接应用于本平台性能较低的问题,提供一种基于国产申威26010处理器的基2一维快速傅里叶变换的高性能实现方法,设计多种高性能优化手段,并且提出两层分解的FFT算法结构,有效应用于基2一维FFT计算,充分提高FFT函数库性能。
传统FFT算法并行度有限且访存局部性低,在申威众核平台上难以充分利用众多计算资源。依据众核计算平台的核间拓扑结构和存储层次特点,本发明基于国产申威26010处理的一个核组,设计接口层、主核层、从核层和核心层的四层结构框架进行FFT处理。一个核组由一个主核与64个从核组成;接口层和主核层为主核上操作,且操作输入输出数据存储于主核内存,从核层和核心层为从核上操作,且操作输入输出数据存储于从核局存LDM,即Local Direct Memory。具体实现如下:
(1)接口层建立输入数据的描述符;所述描述符设置FFT计算的基本信息,所述基本信息包括FFT计算中输入序列的数据维度、数据规模、数据精度以及变换类型;所述数据维度为一维,所述数据规模为2的幂,所述数据精度包括64位双精度数据与32位单精度数据,所述变换类型为复数到复数的变换,即输入输出数据皆为复数;本发明所述数据皆默认为双精度复数数据,若操作单精度复数数据,下文无特殊说明时,所述数据规模乘2即可;
(2)基于(1)所述描述符信息,当输入数据规模N小于等于256时,主核层直接对输入序列进行FFT计算;当输入数据规模N大于等于512时,主核层设计基于两层分解的算法结构对输入序列进行分解,分解结果为多个小因子序列,小因子数据规模小于等于32,则输入序列的FFT计算转化为多个小因子序列的FFT计算,小因子序列的FFT计算在从核上执行;此外,不计输入数据规模N的大小,主核层负责FFT计算过程中所必需的旋转因子序列ωN的计算,ωN为不同n,l数值下旋转因子的统一表达方式,主核层直接计算数据为旋转因子 n表示输入序列中数据的下标,l表示输出序列中数据的下标,下标即为序列中某一数据于序列中的位置序号;存放于临时数组中,作用于核心层小因子序列的FFT计算;
(3)主核上操作完毕之后,从核层发起DMA,即直接内存访问Direct MemoryAccess,读取主核内存数据至从核LDM中,然后从核对LDM数据进行小因子序列的FFT计算,最后DMA将从核LDM内的FFT计算结果写入主核内存;
(4)根据(3)所述的从核对LDM数据进行小因子序列的FFT计算,此计算操作由核心层完成,核心层基于256位SIMD进行向量化运算的小因子优化函数进行小因子序列的FFT计算;SIMD为单指令流多数据流,256位SIMD表示一条指令同时处理256位数据,即FFT计算粒度为256位向量数据;此外,各从核分别进行小因子序列的FFT计算,计算结果存储于各自的LDM中。
步骤(2)中当输入数据规模N大于等于512时,主核层设计基于两层分解的算法结构对输入序列进行分解,该基于两层分解的算法基于迭代的Stockham计算框架,将输入序列分解为一系列的小因子序列,分解规则为库利-图基即Cooley-Turkey算法;Stockham计算框架首先基于N=N1*...*Ni*...*Nm的分解模式使用迭代的方法进行分解,其中i=1,2,...,m,之后对数据Ni的处理分为两种情况:
1)当数据规模Ni为小因子数据规模时,则不再进行分解,即只进行一层分解;
2)当数据规模Ni大于小因子数据规模时,则递归地基于Ni=f1*...*fk*...的分解模式进行二层分解,其中k=1,2,...,且分解时确保fk为小因子数据规模,则输入序列被分解为多个小因子序列。
步骤(3)所述的从核层发起DMA,读取主核内存数据至从核LDM中的具体情况如下:
1)从核层发起DMA读取主核内存数据时,数据传输的起始地址满足128字节对齐且传输量至少为256字节的倍数;
2)从核层读取数据至从核LDM时,依据主核输入数据规模,当输入数据规模N大于等于512且小于等于2048时,8个从核LDM均匀分担DMA读取的主核内存数据;当输入数据规模N大于等于4096时,64个从核LDM均匀分担DMA读取的主核内存数据。
步骤(3)所述的从核对LDM数据进行小因子序列的FFT计算,具体情况为:从核层以V*Ni为工作集,其中,Ni为基于N=N1*...*Ni*...*Nm分解模式进行分解后的数据规模,大于等于小因子数据规模,即Ni大于等于32,i=1,2,...,m;V表示每次调用核心层优化函数进行小因子序列FFT计算的个数,即调用核心层优化函数一次,则进行V个小因子序列的FFT计算,V≥16,若数据精度为8位单精度数据,V≥32;
1)当512≤V*Ni≤2048时,数据规模为V*Ni的FFT计算由一行8个从核共同完成计算,进一步分解Ni=f1*f2,f1与f2为小因子数据规模;在核心层进行V个数据规模为f1的小因子序列的FFT计算之后,以从核的寄存器通信机制对从核上计算结果进行重新排布,随后于核心层进行V个数据规模为f2的小因子序列的FFT计算;
2)V*Ni大于等于4096时,数据规模为V*Ni的FFT计算由64个从核共同完成计算,进一步分解Ni=f1*f2*...,以fk代表f1,f2,...其中之一,fk为小因子数据规模;各个数据规模为fk的小因子序列的FFT计算之间,需以从核的行寄存器通信或列寄存器通信重新排布从核数据。
步骤(3)所述的从核层发起DMA,读取主核内存数据以及从核进行小因子数据的FFT计算,有下面特殊情况:受限于64个从核的LDM空间,当数据规模N大于等于65536时,需进行多次DMA访存操作,即读取和写入操作,因此设计从核层基于访存-计算重叠的双缓冲机制同时进行DMA访存操作与小因子数据的FFT计算操作,即以DMA访存时间覆盖FFT计算时间。
与开源FFTW技术相比:
(1)本发明基于国产申威26010处理器,提出基于两层分解的Stockham FFT计算框架进行FFT计算,有效应用于基2一维FFT计算,充分提高FFT函数库性能。
(2)本发明设计从核内行或列寄存器通信机制、访存-计算重叠的双缓冲机制和256位SIMD向量化运算等多种优化技术,有效解决FFT计算的访存带宽受限问题,提升基2一维FFT运算性能。
(3)以每秒浮点运算次数即Gflops表示FFT计算性能为例,本发明基2一维FFT计算性能相比于FFTW中基2一维FFT计算性能的平均加速比为34.4,最高加速比高达50.3。
附图说明
图1为基于申威平台的FFT四层结构框架,包含接口层、主核层、从核层和核心层;
图2为以N=N1*N2分解模式的FFT计算流程;
图3为数据规模为64,以8*8的分解模式进行分解时,DMA对数据的读取与写入方式,以及行寄存器通信机制对各从核LDM数据的调整;其中,(a)为数据规模为64时,数据序列于主核内存上的存储格式;(b)为DMA读取主核数据至8个从核之后,各从核LDM数据的存储格式;(c)为对8个从核LDM的数据经行寄存器通信之后,各从核LDM数据的分配格式;(d)为DMA将LDM数据写入至主核之后,数据序列于主核内存上的存储格式。
具体实施方式
如图1所示,本发明是基于国产申威26010处理器的基2一维FFT的高性能实现方法,设计框架包含四层:接口层、主核层、从核层、核心层,调用关系为接口层-主核层-从核层-核心层,从核层多次调用核心层。接口层建立包含输入数据规模、数据维度等信息的描述符;主核层基于描述符信息,当输入数据规模大于等于512时,对输入序列进行分解,当输入数据规模小于等于256时,直接于主核上进行FFT计算;从核层依据主核层的数据分解结果,负责主存数据与局存数据的读取与存储,以及数据于64个从核上的分配模式;核心层负责小因子序列的FFT计算。
四层设计框架具体实施方式如下:
1.接口层:描述符操作
(1)接口层首先建立描述符,设置FFT计算所需的数据精度、数据维度、数据规模等基本信息;
(2)提交描述符至主核层,主核层进行FFT计算所需的运算;
(3)调用从核接口传输数据至从核;
(4)主从核上FFT计算结束后,释放描述符。
FFT计算调用从核接口时,有两种接口类型,分别为正变换接口与逆变换接口。FFT正逆变换算法相同,逆变换主要用于判断FFT算法的正确性,输入数据x经正变换得到输出数据y,而后输出数据y经逆变换得到输出数据z,通过比较输入数据x与输出数据z,即以x与z的2范数与某一阈值进行比较,确定FFT算法的正确性。
2.主核层:
本发明中,FFT是基于两层分解的算法结构,算法基于迭代的Stockham计算框架,将大规模FFT计算分解为一系列小规模计算,分解规则为Cooley-Tukey算法。对于输入数据规模N的一维FFT计算,分为两种情况:
(1)若输入数据规模N小于等于256时,主核层直接进行输入序列的FFT计算;
(2)若输入数据规模N大于等于512时,将数据序列均匀分布到8个或64个从核中进行计算。对于输入序列,Stockham FFT计算框架基于N=N1*...*Ni*...*Nm(i=1,2,...,m)的分解模式使用迭代方法将输入数据规模为N的一维FFT计算任务转化为一系列数据规模为Ni的FFT计算,而后根据数据规模Ni,分为两种情况:
1)若数据规模Ni为小因子数据规模,即数据规模小于等于32,则Ni不再进行分解,直接调用核心层的小因子优化函数进行小因子序列的FFT计算;
2)若数据规模Ni大于小因子数据规模,则对Ni递归地应用Cooley-Tukey算法进行二层分解,分解模式为Ni=f1*,...,*fk*...(k=1,2,...),fk为小因子数据规模,则fk直接调用核心层的小因子优化函数进行小因子序列的FFT计算。
此外,主核层负责FFT计算过程中所必需的旋转因子序列ωN的计算,ωN为不同n,l数值下旋转因子的统一表达方式,主核层直接计算数据为旋转因子 n表示输入序列中数据的下标,l表示输出序列中数据的下标,下标即为序列中某一数据于序列中的位置序号;存放于临时数组中,作用于核心层小因子序列的FFT计算。
基于Cooley-Tukey算法,假设输入数据规模为N的序列分解为N=N1*N2,则输入序列按行优先方式映射为二维数组,具体计算步骤如图2,其表述如下:
(1)N2个数据规模为N1的一维FFT计算,每个FFT计算的输入序列为x[*,l](0≤l<N2);
(2)FFT后每个数据乘旋转因子:
(3)N1个数据规模为N2的一维FFT计算,每个FFT计算的输入序列为x[j,*](0≤j<N1);
(4)FFT后的二维数组转置:x[j,l]→x[l,j],得到N点一维FFT计算结果。
严格依照上面4个步骤执行FFT计算时,当数据规模N大于片上存储规模Nr时,需对片下内存数组读写4次,则总访存量为8N。因此,具体实现时,通常将步骤(2)的乘旋转因子合并到步骤(1)中,将步骤(4)的数据转置合并到步骤(3)中,则访存量降低为4N。与输入输出数据访存量相比,旋转因子产生访存量极低,因此忽略旋转因子访存量。
3.从核层:从核核组对各种规模FFT的计算方案
该平台上,通过DMA实现主存与LDM之间数据的快速交换。数据规模为Ni的一维FFT计算包含三个步骤:DMA传输输入数据至LDM;于从核LDM上发起数据规模为Ni的一维FFT;DMA将计算结果存入内存。
从算法设计和访存带宽利用角度出发,同时计算V个数据规模为Ni的一维FFT计算,即核组每次计算的工作集为V*Ni,V表示每次调用核心层优化函数进行小因子序列FFT计算的个数,即调用核心层优化函数一次,则进行V个小因子序列的FFT计算,V≥16,若数据精度为单精度复数,V≥32。依据从核间通信特征,数据规模为Ni的FFT计算有三种方案:
(1)仅由1个从核完成,没有从核间通信,数据V*Ni分布在单个从核LDM中,直接进行V个数据规模为Ni的基2一维FFT;
(2)由一行(列)8个从核共同完成计算,仅涉及从核的行寄存器通信,单个从核LDM中分布数据为V*(Ni/8),Ni进行二次分解Ni=f1*f2;
(3)由整个从核即64个从核共同完成计算,包含从核的行寄存器通信与列寄存器通信,单个从核LDM中分布数据为V*(Ni/64),Ni进行二次分解Ni=f1*f2*f3,通常f3=8。
由于方案(1)中每次计算的分量较小,于内存数组的遍历次数较多,实际情况中,本方案使用概率极少。
对于方案(2),由于LDM容量限制,工作集V*Ni无法完全加载到同一从核,故而由一行上8个从核协同计算。如图3所示,Ni=64,分解为Ni=f1*f2=8*8进行计算,计算结果以f2*f1的维度写入片下内存。该方案由图3中4个步骤组成。
1)基于Cooley-Tukey分解规则,f1点FFT计算所需数据在片下内存中不连续分布,如图3中的(a)所示,通过适当的DMA传输方式,将f1点数据加载到同一从核中,如图3中的(b)所示;
2)在8个从核上分别进行V个f1点FFT计算,与分解Ni=f1*f2产生的旋转因子相乘;
3)基于从核的行寄存器通信机制,将f2点FFT计算所需数据加载到同一从核中,而后于8个从核上分别进行V个f2点FFT计算,如图3中(c)所示;
4)通过DMA将计算结果以f2*f1的方式写入片下内存中,如图3中(d)所示。
Ni为本方案其他规模时,计算方式类似,不再详述。
对于方案(3),工作集V*Ni由64个从核协同计算,Ni=f1*f2*f3,分为Ni=f12*f3和f12=f1*f2两步进行计算。基于Cooley-Tukey算法,依次完成f1、f2和f3点FFT计算,计算结果以f3*f2*f1的维度写入片下内存。该方案由5个步骤组成:
1)f1点FFT计算所需数据在片下内存中不连续分布,通过适当的DMA传输方式,将f1维度上相应数据加载到同一LDM中;
2)在64个从核上分别进行V个f1点FFT计算,与f12=f1*f2分解产生的旋转因子相乘;
3)基于从核的行寄存器通信机制,将f2维度上相应数据加载到同一从核中,而后于64个从核上分别进行V个f2点FFT计算,与Ni=f12*f3分解产生的旋转因子相乘;
4)基于从核的列寄存器通信机制,将f3维度上相应数据加载到同一从核中,而后于64个从核上分别进行V个f3点FFT计算;
5)通过DMA将计算结果以f3*f2*f1的方式写入片下内存中。
Ni为本方案其他规模时,计算方式类似,不再详述。
当输入数据规模N大于64个从核协同计算的数据规模Nr时,DMA需对主存数据进行多次读写。基于访存-计算重叠的双缓冲机制,当从核对DMA当次读入LDM的数据进行FFT计算时,DMA进行下次FFT计算所需数据的读取以及当次FFT计算结果向主核内存的写入。输入数据规模N越大,双缓冲效用越明显,有效提升FFT计算性能。
4.核心层:进行小因子序列的FFT计算
当输入数据规模N划分到小因子数据规模fk或Ni时,直接调用小因子优化函数完成小因子序列的FFT计算。小因子序列的FFT计算是基于256位SIMD进行的向量化运算,即运算粒度为256位向量数据,即4个64位双精度数据。SIMD指单指令流多数据流SingleInstruction Multiple Data,一条SIMD指令同时处理256位数据。因此,相对于运算粒度为单个64位双精度数据的计算,基于256位SIMD的高效率计算,若单从核工作集为V*fk,即V个fk点FFT计算,则V次fk点FFT计算有效转化为V/4次fk点FFT计算。
本发明基于申威26010平台,设计两层分解的FFT计算框架、寄存器通信机制、访存计算重叠的双缓冲机制以及SIMD向量化运算等与计算平台相关的优化手段,有效提高FFT计算性能。表1统计了数据类型为双精度复数时,基于本平台的基2一维FFT的性能数据与开源FFTW的基2一维FFT的性能数据,其中,数据规模取16384、32768、65536、131072、262144、524288、4194304,由表1得知,基2一维FFT平均加速比为34.4,最高加速比达到50.3。
表1 基2一维FFT性能
注:上述以xMath-FFT表示基于国产申威26010处理器的FFT。
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。
Claims (5)
1.一种基于国产申威26010处理器的基2一维FFT的高性能实现方法,其特征在于:所述方法基于国产申威26010处理器的一个核组,所述核组由一个主核与64个从核组成,所述方法以接口层、主核层、从核层和核心层的四层结构框架进行FFT处理;接口层和主核层为主核上操作且操作输入输出数据存储于主核内存,从核层和核心层为从核上操作,且操作输入输出数据存储于从核局存LDM,即Local Direct Memory;具体实现如下:
(1)接口层建立输入数据的描述符;所述描述符设置FFT计算的基本信息,所述基本信息包括FFT计算中输入序列的数据维度、数据规模、数据精度以及变换类型;所述数据维度为一维,所述数据规模为2的幂,所述数据精度包括64位双精度数据与32位单精度数据,所述变换类型为复数到复数的变换,即输入输出数据皆为复数;;
(2)基于步骤(1)所述描述符信息,当输入数据规模N小于等于256时,主核层直接对输入序列进行FFT计算;当输入数据规模N大于等于512时,主核层设计基于两层分解的算法结构对输入序列进行分解,分解结果为多个小因子序列,小因子数据规模小于等于32,则输入序列的FFT计算转化为多个小因子序列的FFT计算,小因子序列的FFT计算在从核上执行;此外,不计输入数据规模N的大小,主核层负责FFT计算过程中所必需的旋转因子序列ωN的计算,ωN为不同n,l数值下旋转因子的统一表达方式,主核层直接计算数据为旋转因子 n表示输入序列中数据的下标,l表示输出序列中数据的下标,下标即为序列中某一数据于序列中的位置序号;存放于临时数组中,作用于核心层小因子序列的FFT计算;
(3)主核上操作完毕之后,从核层发起DMA,即直接内存访问Direct Memory Access,读取主核内存数据至从核LDM中,然后从核对LDM数据进行小因子序列的FFT计算,最后DMA将从核LDM内的FFT计算结果写入主核内存;
(4)根据步骤(3)所述的从核对LDM数据进行小因子序列的FFT计算,此计算操作由核心层完成,核心层基于256位SIMD进行向量化运算的小因子优化函数进行小因子序列的FFT计算;SIMD为单指令流多数据流,256位SIMD表示一条指令同时处理256位数据,即FFT计算粒度为256位向量数据;此外,各从核分别进行小因子序列的FFT计算,计算结果存储于各自的LDM中。
2.权利要求1所述的基于国产申威26010处理器的基2一维FFT的高性能实现方法,其特征在于:所述步骤(2)中当输入数据规模N大于等于512时,主核层设计基于两层分解的算法结构对输入序列进行分解,该基于两层分解的算法基于迭代的Stockham计算框架,将输入序列分解为一系列的小因子序列,分解规则为库利-图基即Cooley-Turkey算法;Stockham计算框架首先基于N=N1*...*Ni*...*Nm的分解模式使用迭代的方法进行分解,其中i=1,2,...,m,之后对数据Ni的处理分为两种情况:
(11)当数据规模Ni为小因子数据规模时,则不再进行分解,即只进行一层分解;
(12)当数据规模Ni大于小因子数据规模时,则递归地基于Ni=f1*...*fk*...的分解模式进行二层分解,其中k=1,2,...,且分解时确保fk为小因子数据规模,则输入序列被分解为多个小因子序列。
3.根据权利要求1所述的基于国产申威26010处理器的基2一维FFT的高性能实现方法,其特征在于:步骤(3)所述的从核层发起DMA,读取主核内存数据至从核LDM中的具体情况如下:
(21)从核层发起DMA读取主核内存数据时,数据传输的起始地址满足128字节对齐且传输量至少为256字节的倍数;
(22)从核层读取数据至从核LDM时,依据主核输入数据规模,当输入数据规模N大于等于512且小于等于2048时,8个从核LDM均匀分担DMA读取的主核内存数据;当输入数据规模N大于等于4096时,64个从核LDM均匀分担DMA读取的主核内存数据。
4.根据权利要求1所述的基于国产申威26010处理器的基2一维FFT的高性能实现方法,其特征在于:步骤(3)所述的从核对LDM数据进行小因子序列的FFT计算,具体情况为:从核层以V*Ni为工作集,其中,Ni为基于N=N1*...*Ni*...*Nm分解模式进行分解后的数据规模,大于等于小因子数据规模,即Ni大于等于32,i=1,2,...,m;V表示每次调用核心层优化函数进行小因子序列FFT计算的个数,即调用核心层优化函数一次,则进行V个小因子序列的FFT计算,V≥16,若数据精度为8位单精度数据,V≥32;
(31)当512≤V*Ni≤2048时,数据规模为V*Ni的FFT计算由一行8个从核共同完成计算,进一步分解Ni=f1*f2,f1与f2为小因子数据规模;在核心层进行V个数据规模为f1的小因子序列的FFT计算之后,以从核的寄存器通信机制对从核上计算结果进行重新排布,随后于核心层进行V个数据规模为f2的小因子序列的FFT计算;
(32)V*Ni大于等于4096时,数据规模为V*Ni的FFT计算由64个从核共同完成计算,进一步分解Ni=f1*f2*...,以fk代表f1,f2,...其中之一,fk为小因子数据规模;各个数据规模为fk的小因子序列的FFT计算之间,需以从核的行寄存器通信或列寄存器通信重新排布从核数据。
5.根据权利要求1所述的基于国产申威26010处理器的基2一维FFT的高性能实现方法,其特征在于:步骤(3)所述的从核层发起DMA,读取主核内存数据以及从核进行小因子序列的FFT计算时,有下面特殊情况:受限于64个从核的LDM空间,当数据规模N大于等于65536时,需进行多次DMA访存操作,即读取和写入操作,采用从核层基于访存-计算重叠的双缓冲机制同时进行DMA访存操作与小因子序列的FFT计算操作,即以DMA访存时间覆盖FFT计算时间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710150446.6A CN106933777B (zh) | 2017-03-14 | 2017-03-14 | 基于国产申威26010处理器的基2一维fft的高性能实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710150446.6A CN106933777B (zh) | 2017-03-14 | 2017-03-14 | 基于国产申威26010处理器的基2一维fft的高性能实现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106933777A CN106933777A (zh) | 2017-07-07 |
CN106933777B true CN106933777B (zh) | 2019-03-19 |
Family
ID=59433788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710150446.6A Expired - Fee Related CN106933777B (zh) | 2017-03-14 | 2017-03-14 | 基于国产申威26010处理器的基2一维fft的高性能实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106933777B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451097B (zh) * | 2017-08-04 | 2020-02-11 | 中国科学院软件研究所 | 国产申威26010众核处理器上多维fft的高性能实现方法 |
CN110516194B (zh) * | 2018-08-15 | 2021-03-09 | 北京航空航天大学 | 基于异构众核处理器的格点量子色动力学并行加速方法 |
CA3122750C (en) * | 2019-01-24 | 2023-09-19 | Mitsubishi Electric Corporation | Fourier transform device and fourier transform method |
CN112181894B (zh) * | 2019-07-04 | 2022-05-31 | 山东省计算中心(国家超级计算济南中心) | 一种基于申威众核处理器的核组内分组自适应调整运行方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102375805A (zh) * | 2011-10-31 | 2012-03-14 | 中国人民解放军国防科学技术大学 | 面向向量处理器的基于simd的fft并行计算方法 |
CN102652315A (zh) * | 2009-12-16 | 2012-08-29 | 瑞典爱立信有限公司 | 信息处理设备、其控制方法、程序及计算机可读存储媒体 |
CN104992421A (zh) * | 2015-07-09 | 2015-10-21 | 西安电子科技大学 | 一种基于OpenCL的图像去噪算法的并行优化方法 |
US9582473B1 (en) * | 2014-05-01 | 2017-02-28 | Cadence Design Systems, Inc. | Instruction set to enable efficient implementation of fixed point fast fourier transform (FFT) algorithms |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070106718A1 (en) * | 2005-11-04 | 2007-05-10 | Shum Hoi L | Fast fourier transform on a single-instruction-stream, multiple-data-stream processor |
-
2017
- 2017-03-14 CN CN201710150446.6A patent/CN106933777B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102652315A (zh) * | 2009-12-16 | 2012-08-29 | 瑞典爱立信有限公司 | 信息处理设备、其控制方法、程序及计算机可读存储媒体 |
CN102375805A (zh) * | 2011-10-31 | 2012-03-14 | 中国人民解放军国防科学技术大学 | 面向向量处理器的基于simd的fft并行计算方法 |
US9582473B1 (en) * | 2014-05-01 | 2017-02-28 | Cadence Design Systems, Inc. | Instruction set to enable efficient implementation of fixed point fast fourier transform (FFT) algorithms |
CN104992421A (zh) * | 2015-07-09 | 2015-10-21 | 西安电子科技大学 | 一种基于OpenCL的图像去噪算法的并行优化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106933777A (zh) | 2017-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108268423B (zh) | 实现用于具有写到读依赖关系的稀疏线性代数运算的增强的并行性的微架构 | |
CN106933777B (zh) | 基于国产申威26010处理器的基2一维fft的高性能实现方法 | |
Li et al. | Faster model matrix crossproducts for large generalized linear models with discretized covariates | |
CN103970720B (zh) | 基于大规模粗粒度嵌入式可重构系统及其处理方法 | |
CN105426344A (zh) | 基于Spark的分布式大规模矩阵乘法的矩阵计算方法 | |
CN107451097B (zh) | 国产申威26010众核处理器上多维fft的高性能实现方法 | |
CN103955446B (zh) | 基于dsp芯片的可变长度fft计算方法 | |
Liang et al. | An efficient hardware design for accelerating sparse CNNs with NAS-based models | |
Liu | Parallel and scalable sparse basic linear algebra subprograms | |
Bekas et al. | Low‐cost data uncertainty quantification | |
US20220350662A1 (en) | Mixed-signal acceleration of deep neural networks | |
Gao et al. | A multi-GPU parallel optimization model for the preconditioned conjugate gradient algorithm | |
US20180373677A1 (en) | Apparatus and Methods of Providing Efficient Data Parallelization for Multi-Dimensional FFTs | |
Verma et al. | AMulti-GPU PCISPH Implementation with Efficient Memory Transfers | |
Liu et al. | A GPU-accelerated parallel shooting algorithm for analysis of radio frequency and microwave integrated circuits | |
Li et al. | Automatic FFT performance tuning on OpenCL GPUs | |
Il’in | On an integrated computational environment for numerical algebra | |
Altinkaynak | An efficient sparse matrix‐vector multiplication on CUDA‐enabled graphic processing units for finite element method simulations | |
JP2000200261A (ja) | フ―リエ変換方法、シミュレ―ション方法およびプログラム記録媒体 | |
Lee et al. | Large‐scale 3D fast Fourier transform computation on a GPU | |
JP4052181B2 (ja) | 通信隠蔽型の並列高速フーリエ変換方法 | |
Liu et al. | Integrating alternating direction method of multipliers and bush for solving the traffic assignment problem | |
Zhang et al. | Mixed-precision block incomplete sparse approximate preconditioner on Tensor core | |
Ghosh et al. | A parallel cyclic reduction algorithm for pentadiagonal systems with application to a convection-dominated Heston PDE | |
CN106095730A (zh) | 一种基于ilp和dlp的fft浮点优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190319 |