CN101937422A - 基于gpu众核平台的fft并行方法 - Google Patents

基于gpu众核平台的fft并行方法 Download PDF

Info

Publication number
CN101937422A
CN101937422A CN2009100883738A CN200910088373A CN101937422A CN 101937422 A CN101937422 A CN 101937422A CN 2009100883738 A CN2009100883738 A CN 2009100883738A CN 200910088373 A CN200910088373 A CN 200910088373A CN 101937422 A CN101937422 A CN 101937422A
Authority
CN
China
Prior art keywords
thread block
designated
fft
data
gpu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009100883738A
Other languages
English (en)
Other versions
CN101937422B (zh
Inventor
姚迪
龙腾
靳星星
刘峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN200910088373A priority Critical patent/CN101937422B/zh
Publication of CN101937422A publication Critical patent/CN101937422A/zh
Application granted granted Critical
Publication of CN101937422B publication Critical patent/CN101937422B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于GPU众核平台的FFT并行方法,在存储方面,依据单次通信海量运算的原则,通信一次,完成了N个M点FFT运算,大大隐藏了通信消耗;利用到了每个线程块内部的高速缓存:共享存储器,进一步减少通信时间,提高了运行效率。本发明通过科学的统筹安排,成百上千个处理核心并行处理数据,最大限度的提高了并行度,高效完成了运算并提高了运算精度。

Description

基于GPU众核平台的FFT并行方法
技术领域
本发明涉及一种基于GPU众核平台的FFT并行方法,以及在工程实践中的应用。
背景技术
FFT,即快速傅立叶变换,在工程中大量使用,是影响工程效率的重要因素。虽然目前已经有各种各样的不同的算法来实现FFT,但是它们均是在CPU上进行串行处理。CPU作为传统的核心处理器,其强大的指令控制和数据处理能力不容置疑,但是,因为CPU芯片的将近75%的面积都要用来做存储,因此其集成度比较低,目前做的较为卓越的也就是IBM和SONY共同推出的8核处理器:CELL。而近年来,图形处理器(GPU)性能得到大幅度提高,与CPU不同,GPU是一个并行的向量处理器,可以集成成百上千个处理核心,并且以单指令多数据模式(SIMD)工作,因此具有强大的并行计算能力。但是目前还很少在这种含有成百上千个处理核心的具有强大计算能力的GPU上面并行实现FFT运算。
发明内容
本发明所要解决的技术问题是提供一种基于GPU众核平台的FFT并行方法,能够在包含成百上千个处理核心的GPU上并行、高效的实现FFT运算以及在工程中应用。
该基于众核平台的FFT并行方法包括以下步骤:
第一步:将需要进行一维FFT运算的N个一维数组(每个数组有M个元素)分别标识为:A1、A2…An,然后将N个一维数组按照标识符从小到大的次序首尾相接组成一个一维数组,记为B;
第二步:计算B所占存储空间的大小,并标识为C;
第三步:根据计算出的C,在GPU的全局存储器上分配大小为C的存储空间,标识为D,然后将内存上的数据B拷贝到全局存储器的D;
第四步:将D的数据每M个元素进行一次切割,得到与原始数据对应的N组数据,分别标识为D1、D2…Dn;
第五步:GPU组织包括线程网格层、线程块层、线程层,即一个线程网格包含两个或两个以上线程块,每个线程块包含两个或两个以上线程,同时,每个线程块有一个该线程块内所有线程可见的共享存储器;设定完成所有运算的线程网格有N个线程块,分别标识为E1、E2…En,将数据D1、D2…Dn分别对应导入E1、E2…En的共享存储器;
第六步:在每个线程块内部,将属于该线程块的共享存储器的原始数据进行FFT运算,结果同样保存在该线程块的共享存储器中;N个线程块执行同样的操作;
第七步:同步每个线程块内的所有线程,然后将每个线程块内共享存储器的运算结果对应的导出到D1、D2…Dn;将D1到Dn的结果数据首尾相接,组成一维数组,标识为F;然后将F的数据拷贝到内存,标识为G;
第八步:将一维数组G每M个元素进行一次切割,依次分为G1、G2…Gn,即是要进行一维M点FFT运算的N个一维数组的N个对应的结果。
通过以上步骤就完成了基于GPU众核平台的FFT并行方法。
本发明的有益效果:
1、通过科学的统筹安排,成百上千个处理核心并行处理数据,最大限度的提高了并行度,高效完成了运算并提高了运算精度;
2、在存储方面,依据单次通信海量运算的原则,通信一次,完成了N个M点FFT运算,这样大大隐藏了通信消耗;
3、利用到了每个线程块内部的高速缓存:共享存储器,进一步减少通信时间,提高了运行效率。
附图说明
图1为本发明的流程图。
具体实施方式
以在SAR成像系统中对一个4096×4096的点目标成像这一应用为例,本专利的实现主要包括以下几个流程:
第一步:在SAR成像算法中,原始数据是一个4096×4096的二维数组,每个元素类型是浮点数,对这个矩阵的每一行都要进行FFT,也就是说要进行4096次的一维4096点FFT;把不同行的数据分别标识为idata1、idata2…idata4096,然后按标识符从小到大的次序将它们首尾相接,把二维数组组成一个一维数组,并记作idata;
第二步:计算idata所占存储空间的大小:mem_size=sizeof(float)*4096*4096;
第三步:在GPU全局存储器上分配mem_size大小的存储空间标识为idata_gpu,然后通过函数cudamemcopy将内存上的数据idata拷贝到GPU全局存储器的idata_gpu;
第四步:将idata_gpu的数据每4096个元素进行一次切割,得到与原始数据对应的4096组数据,分别标识为idata_gpu1、idata_gpu2…idata_gpu4096;
第六步:设置完成所有运算的线程网格有4096个线程块,然后将GPU全局存储器上的4096组数据idata_gpu1、idata_gpu2…idata_gpu4096分别对应导入线程块1、线程块2…线程块4096的共享存储器;
第七步:在每个线程块内部,将属于该线程块的共享存储器的4096点数据进行一维4096点FFT运算,结果同样保存在该线程块的共享存储器中;4096个线程块执行同样的操作;
第八步:采用同步,保证4096个线程块均计算完毕,然后将每个线程块内共享存储器的运算结果对应的导出到idata_gpu1、idata_gpu2…idata_gpu4096;然后将idata_gpu1到idata_gpu4096的结果数据首尾相接,组成一维数组,标识为odata_gpu;然后将odata_gpu的数据拷贝到内存,标识为odata;
第九步:将odata一维数组每4096个元素进行一次切割,依次分为odata1、odata2…odata4096,这就是要进行一维4096点FFT运算的4096个一维数组的4096个对应的结果;然后将这4096组一维数组按照标识符从小到大的次序分别作为二维数组的一行,最终组成一个二维数组,即为FFT的结果;然后将结果返回到SAR成像算法中,完成SAR成像。
通过以上九步就实现了SAR成像系统中的FFT并行运算。
由于在同一时刻总是有上百的处理核心在运算数据,因此并行度很高,运行效率也得到提升。再有就是单次通信海量运算的策略很大程度的减少了内存与GPU全局存储器之间的通信时间。综合来说,通过以上的流程,实现了在含有成百上千个处理核心的GPU上高效、并行的FFT运算,为工程实践提供了一种更为高效的数学工具。

Claims (1)

1.一种基于众核平台的FFT并行方法,其特征在于:包括以下步骤:
第一步:将需要进行一维FFT运算的N个一维数组(每个数组有M个元素)分别标识为:A1、A2…An,然后将N个一维数组按照标识符从小到大的次序首尾相接组成一个一维数组,记为B;
第二步:计算B所占存储空间的大小,并标识为C;
第三步:根据计算出的C,在GPU的全局存储器上分配大小为C的存储空间,标识为D,然后将内存上的数据B拷贝到全局存储器的D;
第四步:将D的数据每M个元素进行一次切割,得到与原始数据对应的N组数据,分别标识为D1、D2…Dn;
第五步:GPU组织包括线程网格层、线程块层、线程层,即一个线程网格包含两个或两个以上线程块,每个线程块包含两个或两个以上线程,同时,每个线程块有一个该线程块内所有线程可见的共享存储器;设定完成所有运算的线程网格有N个线程块,分别标识为E1、E2…En,将数据D1、D2…Dn分别对应导入E1、E2…En的共享存储器;
第六步:在每个线程块内部,将属于该线程块的共享存储器的原始数据进行FFT运算,结果同样保存在该线程块的共享存储器中;N个线程块执行同样的操作;
第七步:同步每个线程块内的所有线程,然后将每个线程块内共享存储器的运算结果对应的导出到D1、D2…Dn;将D1到Dn的结果数据首尾相接,组成一维数组,标识为F;然后将F的数据拷贝到内存,标识为G;
第八步:将一维数组G每M个元素进行一次切割,依次分为G1、G2…Gn,即是要进行一维M点FFT运算的N个一维数组的N个对应的结果。
通过以上步骤就完成了基于GPU众核平台的FFT并行方法。
CN200910088373A 2009-07-02 2009-07-02 基于gpu众核平台的fft并行方法 Expired - Fee Related CN101937422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910088373A CN101937422B (zh) 2009-07-02 2009-07-02 基于gpu众核平台的fft并行方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910088373A CN101937422B (zh) 2009-07-02 2009-07-02 基于gpu众核平台的fft并行方法

Publications (2)

Publication Number Publication Date
CN101937422A true CN101937422A (zh) 2011-01-05
CN101937422B CN101937422B (zh) 2012-09-05

Family

ID=43390756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910088373A Expired - Fee Related CN101937422B (zh) 2009-07-02 2009-07-02 基于gpu众核平台的fft并行方法

Country Status (1)

Country Link
CN (1) CN101937422B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799564A (zh) * 2012-06-28 2012-11-28 电子科技大学 基于多核dsp平台的fft并行方法
CN105224506A (zh) * 2015-10-29 2016-01-06 北京大学 一种用于gpu异构集群的高性能fft方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441271B (zh) * 2008-12-05 2011-07-20 航天恒星科技有限公司 基于gpu的sar实时成像处理设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799564A (zh) * 2012-06-28 2012-11-28 电子科技大学 基于多核dsp平台的fft并行方法
CN105224506A (zh) * 2015-10-29 2016-01-06 北京大学 一种用于gpu异构集群的高性能fft方法

Also Published As

Publication number Publication date
CN101937422B (zh) 2012-09-05

Similar Documents

Publication Publication Date Title
Kim et al. Zena: Zero-aware neural network accelerator
Zaruba et al. Manticore: A 4096-core RISC-V chiplet architecture for ultraefficient floating-point computing
US20210201124A1 (en) Systems and methods for neural network convolutional layer matrix multiplication using cache memory
CN105487838B (zh) 一种动态可重构处理器的任务级并行调度方法与系统
JP2020532780A (ja) チップ上に常駐するパラメータを用いたニューラルネットワークアクセラレータ
Hong-Tao et al. K-means on commodity GPUs with CUDA
Shah et al. Runtime programmable and memory bandwidth optimized FPGA-based coprocessor for deep convolutional neural network
CN109993297A (zh) 一种负载均衡的稀疏卷积神经网络加速器及其加速方法
CN104636273B (zh) 一种带多级Cache的SIMD众核处理器上的稀疏矩阵存储方法
CN108805266A (zh) 一种可重构cnn高并发卷积加速器
CN104317768B (zh) 面向cpu+dsp异构系统的矩阵乘加速方法
CN101937425B (zh) 基于gpu众核平台的矩阵并行转置方法
CN110516316B (zh) 一种间断伽辽金法求解欧拉方程的gpu加速方法
Meloni et al. A high-efficiency runtime reconfigurable IP for CNN acceleration on a mid-range all-programmable SoC
CN112947870B (zh) 一种3D打印模型的G-code并行生成方法
Liu Parallel and scalable sparse basic linear algebra subprograms
Torabzadehkashi et al. Accelerating hpc applications using computational storage devices
Wu et al. Optimizing dynamic programming on graphics processing units via adaptive thread-level parallelism
Que et al. A reconfigurable multithreaded accelerator for recurrent neural networks
Zhou et al. Gcnear: A hybrid architecture for efficient gcn training with near-memory processing
CN101937422B (zh) 基于gpu众核平台的fft并行方法
Li et al. A speculative HMMER search implementation on GPU
Diamantopoulos et al. A system-level transprecision FPGA accelerator for BLSTM using on-chip memory reshaping
Morari et al. Efficient sorting on the tilera manycore architecture
Wu et al. Optimizing dynamic programming on graphics processing units via data reuse and data prefetch with inter-block barrier synchronization

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120905

Termination date: 20150702

EXPY Termination of patent right or utility model