CN101937555A

CN101937555A - 基于gpu众核平台的脉冲压缩参考矩阵并行生成方法

Info

Publication number: CN101937555A
Application number: CN2009100883742A
Authority: CN
Inventors: 姚迪; 龙腾; 靳星星; 刘峰
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2009-07-02
Filing date: 2009-07-02
Publication date: 2011-01-05
Anticipated expiration: 2029-07-02
Also published as: CN101937555B

Abstract

本发明公开了一种基于众核平台的脉冲压缩参考矩阵的并行生成方法，该方法通过并行编程，实现了在GPU上的脉冲压缩参考矩阵的并行，将用到的临时自变量都在每个线程块的共享存储器中生成，运算时自变量直接在共享存储器中找而不必到全局存储器去取数据，充分利用内部共享存储器的结构，通过GPU的同步机制，保证所有元素均成功生成之后再将结果回写到CPU内存；本发明所采用的海量计算结合单次通信的策略大大隐藏了通信消耗，提高了程序的并行度，使得运行效率很大的提高，运算时间大大减少。

Description

基于GPU众核平台的脉冲压缩参考矩阵并行生成方法

技术领域

本发明涉及一种基于GPU众核平台的脉冲压缩参考矩阵的并行生成方法以及在工程实践中的应用。

背景技术

合成孔径雷达是一种二维微波遥感成像雷达，这种雷达具有远距离全天候高分辨率成像、自动识别目标和先进的数字处理能力等特点，而其中的高分辨率一方面是方位向的合成孔径技术的结果，另一方面是距离向的脉冲压缩的结果，可见脉冲压缩技术的成熟程度和精确程度在很大程度上影响着SAR最终成像的质量。在脉冲压缩技术中，脉冲压缩参考矩阵的生成是重要的一步而且往往占用SAR成像算法的很大一部分的时间，因此，对参考矩阵的生成的优化就很有价值。目前，参考矩阵的生成均是采用二重循环的办法，在CPU上串行生成，但是CPU的集成度比较低，算法并行度较差，运行效率比较低，而GPGPU是一种处理密集型数据和并行数据的可以内含成百上千个处理核心的处理器，因此更适合于大规模并行计算。但是，目前并没有在数百个处理核心上同时并行处理完成脉冲压缩参考矩阵的生成。

发明内容

本专利要解决的问题就是提供一种基于众核平台的脉冲压缩参考矩阵的并行生成方法，能够在包含成百上千个处理核心的GPGPU上并行、高效的实现脉冲压缩参考矩阵的生成并在各种工程实践中加以应用，从而提高了运算效率和运算的精度。

该基于众核平台的脉冲压缩参考矩阵的并行生成方法包括以下步骤：

第一步：计算存储空间的大小：设参考矩阵是M行N列，根据参考矩阵的大小和矩阵元素的数据类型计算存储空间的大小，标识为A；

第二步：分别在内存和GPU的全局存储器分配大小为A的一维数组：分别标识为B、C；

第三步：数据分割：GPU的组织包括线程网格层、线程块层、线程层，即一个网格包含两个以上线程块，是一维组织或二维组织以及三维组织，每个线程块包含两个以上运行线程，组织成一维到三维之间，每个块有一个被该线程块内所有线程可见的共享存储器；线程块层设置为二维的而且每维的大小一致；线程网格层设置成二维的，大小由原矩阵的大小M、N决定；

第四步：查阅硬件允许的每个线程块内共享存储器的上限W，计算每个线程块内所需要的临时自变量所占的总的存储空间Q，要求Q＜W，否者，多余的临时自变量分配在GPU全局存储器；计算频繁，使用频率高的临时自变量优先分配在共享存储器，然后在每个线程块的共享存储器或GPU全局存储器上分配临时自变量；

第五步：输入数据索引：以线程块为单位运算，根据要求得到的矩阵模型和GPU通用编程的内置变量计算出行方向对原始矩阵的索引以及列方向的索引；

第六步：根据索引和参考函数的物理关系，生成临时自变量；

第七步：根据第六步的临时自变量生成对应于每个线程的每个参考矩阵元素相位，然后计算实部与虚部，结果保存在对应元素的存储空间C；

第八步：同步所有的线程，所有的线程均运算完毕，将一维数组C拷贝到CPU内存B；

第九步：将B每N个数切割一次成为一行并按序组合成一个M行N列的二维数组，此即为时域的脉冲压缩参考矩阵。

通过以上步骤就实现了基于GPU众核平台的脉冲压缩参考矩阵的并行生成。

本发明的有益效果：

1、通过并行编程，实现了在GPU上的脉冲压缩参考矩阵的并行实现，提高了程序的并行度，使得运行效率很大的提高，运算时间大大减少；

2、在实现过程中，我把需要用到的临时自变量都在每个块block的shared memory中生成，这样运算时自变量直接在共享存储器中找而不必到显存去取数据，这种充分利用内部共享存储器的结构大大提高了程序的运行效率；

3、先通过GPU的同步机制，保证所有元素均成功生成之后再将结果回写到CPU内存，这种海量计算结合单次通信的策略大大隐藏了通信消耗。

附图说明

图1为本发明的流程图。

具体实施方式

以在SAR系统中4096×4096点目标成像的方位向脉冲压缩参考矩阵的生成为例，GPU平台是NVIDIA的GPU，型号quadro fx 5600，本专利的实现主要包括以下流程：

1.先将要用到的字符串常量写成头文件，标识为RefMatrixConst.h，并将该文件包含在主程序中；

2.计算存储空间的大小：在本系统应用中，矩阵元素的数据类型为浮点数，那么GPU生成的一维数组所占存储空间为：mem_size＝sizeof(float)*4096*4096＝67108864b ytes；

3.分别在CPU内存和GPU全局存储器分配mem_size大小的一维数组：CPU实部RefMatrix_Re_h[16777216]，CPU虚部RefMatrix_Im_h[16777216]，GPU实部RefMatrix_Re_d[16777216]，GPU虚部RefMatrix_Im_d[16777216]；

4.数据分割：先考虑线程块层，quadro_fx_5600允许的线程块内含的线程不可以超过512，为了方便处理，我们设置为二维的而且每维的大小一致即每个线程块包含16×16个线程；考虑网格层，为方便处理，我们也设置成二维的，但是大小由原矩阵的大小决定：沿行的方向gridx＝4096/16＝256，沿列的方向gridy＝4096/16＝256；

5.Quadro_FX_5600允许的每个线程块内共享存储器的上限为16384bytes，而每个线程块内所需要的临时自变量包括：

_shared_double Rr_D[16]；

_shared_double ChirpSlope_Azimuth_D[16]；

shared_double_AzimuthTime_D[16]；

_shared_double AzimuthReArg_D[16][16]；

以上自变量依次是：距离向距离数组、方位向调频率、方位向时间、方位向参考相位矩阵，那么所占存储空间为：sizeof(double)*(16*3+16*16)＝2432bytes＜16384bytes，因此所有临时自变量均分配在共享存储器；

6.输入数据索引：以线程块为单位运算，首先根据要生成的矩阵的模型和GPU通用编程的内置变量blockIdx.x和threadIdx.x计算出行方向的索引：xIndex＝blockIdx.x*16+threadIdx.x，同理计算出列方向的索引：yIndex＝blockIdx.y*16+threadIdx.y；

7.先生成临时自变量距离向距离数组、方位向调频率、方位向时间；

8.由以上准备好的临时自变量生成对应于每个线程的每个参考矩阵元素相位，然后将该相位的余弦和正弦分别对应输出到全局存储器上的一维的实部数组和虚部数组；

9.采用GPU内部函数_syncthreads()来进行同步，然后将GPU运算得到的实部和虚部拷贝到CPU内存RefMatrix_Re_h和RefMatrix_Im_h；

10.将RefMatrix_Re_h和RefMatrix_Im_h每4096个数切割一次成为一行并按序组合成一个4096行4096列的二维数组，此即为时域的脉冲压缩参考矩阵。

通过以上十步就实现了在GPU上对SAR成像系统中脉冲压缩方位向参考矩阵的并行生成。在本方法中，为充分利用GPU的数百的处理核心，对数据进行了三个层次的分割，同时采用了单词通信海量运算的模式来最大程度的提高运行效率，还有就是充分利用了GPU的高效内部存储器：共享存储器，从而进一步减少了运行时间，总之，通过以上三个策略，最终完成了对参考矩阵的高效、并行生成。

Claims

1.基于众核平台的脉冲压缩参考矩阵的并行生成方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于众核平台的脉冲压缩参考矩阵的并行生成方法，其特征在于：线程块层设置为二维或二维以上，而且每维的大小一致。

3.根据权利要求1所述的一种基于众核平台的脉冲压缩参考矩阵的并行生成方法，其特征在于：线程网格层设置成二维或二维以上，大小由原矩阵的大小M、N决定。