CN105243280B

CN105243280B - 基于cpu与gpu混合异步并行方式的时域物理光学计算方法

Info

Publication number: CN105243280B
Application number: CN201510725129.3A
Authority: CN
Inventors: 徐乐; 赵伟; 李蕊; 史小卫
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2015-10-30
Filing date: 2015-10-30
Publication date: 2018-02-02
Anticipated expiration: 2035-10-30
Also published as: CN105243280A

Abstract

本发明公开了一种基于CPU与GPU混合异步并行方式的时域物理光学算法。包括步骤：1：采用3Dmax建模，以三角面元进行剖分，导出模型为OBJ格式。2：用MPI并行方式，取三线程分别同步读取①模型文件的三角面元顶点坐标和顶点数量②模型文件的面元顶点编号和面元数量③入射电场等有用信息。3：采用OpenMP并行加速整个过程。4：向GPU里传输数据如高斯节点数组，三角面元数组等等；GPU加速高斯积分数值运算，得散射场传入CPU中。5：散射场时域经傅里叶变换为频域与入射电场频域相除，得RCS数组。本发明对电大目标的瞬态散射计算量较大时以此方法将大大节省时间。

Description

基于CPU与GPU混合异步并行方式的时域物理光学计算方法

技术领域

本发明属于电磁场数值分析领域，涉及数学数值分析中的高斯积分公式，具体是一种基于CPU与GPU混合异步并行方式的时域物理光学计算方法。

背景技术

超宽带雷达和微波、毫米波雷达的广泛应用，使得对电大尺寸目标宽频带时域特性的研究受到广泛重视。物理光学近似是分析电大尺寸目标频域电磁特性的高效方法之一。然而，在时域只有有限的关于瞬态或脉冲激励的物理光学分析见于报道。早期的时域物理光学近似是先得到目标被时谐源激励的频域响应，然后利用逆傅里叶变换得到所需的时域数据。直到1994年Sun用傅里叶级数展开得到了真正意义上的TDPO(时域物理光学)方法。然而对于电大尺寸目标或者超电大尺寸目标，如毫米波雷达工作条件下的目标(飞机、舰船等)，其特征尺寸约数千个波长，在现有普通微机的计算条件下，不但计算时间长，甚至单台微机根本无法计算。国外如Corradi,Antonio等人在文献《An environment based onparallel OBJects:PO》文章中到提到基于MPI(信息传递)的po并行，1989年，南非的EMSS公司在商业软件FEKO里首次实现对PO进行了并行加速，2007年，国内西安电子科技大学的杨凌霞博士的文章《TDPO及其并行算法在电磁散射中的应用》第一次提出了基于MPI的TDPO，2014年西电智能天线实验室史伟强文章《电大复杂目标散射时频域分析及RCS(雷达散射截面)统计》的提出了基于OpenMP的TDPO。但是，这些并行TDPO都是基于CPU来实现的，平台单一，为了实现高加速比，常常需高性能工作站甚至PC集群,占用空间大，而且价格昂贵，仿真硬件成本高，由于CPU众多，编程调试难度增加，急需一种简易高效的并行编程方式和平台，降低软件开发和硬件仿真的成本。

发明内容

本发明的目的是克服上述现有技术中存在的问题，提供一种基于CPU和GPU的异步架构并行方式，具体是用基于CPU的MPI进行文件信息读写和基于CPU的OpenMP并行对文件进行预处理操作，本发明基于GPU的OpenACC指令加速数值计算，编程难度大大降低，相比多核CPU而言，高性能GPU来实现并行成本更是低廉，节约空间和时间。

本发明的技术方案：本发明提供了一种基于CPU与GPU混合异步并行方式的时域物理光学计算方法，包括以下步骤：

01)对目标建模：用3dmax建模，建立基于三角面片为基本单位的模型，导出以OBJ格式的模型文件，面片只包含三角面片顶点坐标及面片顶点坐标编号；

02)读取数据：基于MPI并行方式读取模型信息和入射电磁场信息，程序分配三线程分别同步读取：①模型文件的三角面片顶点坐标以及顶点数量；②模型文件的面片的顶点编号以及面片数量；③模拟入射电场的时域离散数组、频域离散数组、极化方向以及入射方向；

03)模型文件预处理：该过程采用基于CPU中央处理器OpenMP来加速计算，对模型文件进行自遮挡判断，筛选符合条件的三角面片的三个顶点与各自编号，根据三维高斯积分，将筛选出的单个三角面片变为7个高斯节点：

ii为面元编号

高斯节点[ii,1]＝1/3·顶点1(ii)+1/3·顶点2(ii)+1/3·顶点3(ii)

高斯节点[ii,2]＝0.1028·顶点1(ii)+0.1028·顶点2(ii)+0.79372·顶点3(ii)

高斯节点[ii,3]＝0.1028·顶点1(ii)+0.79372·顶点2(ii)+0.1028·顶点3(ii)

高斯节点[ii,4]＝0.79372·顶点1(ii)+0.1028·顶点2(ii)+0.1028·顶点3(ii)

高斯节点[ii,5]＝0.47014·顶点1(ii)+0.47014·顶点2(ii)+0.05971587·顶点3(ii)

高斯节点[ii,6]＝0.47014·顶点1(ii)+1/3·0.05971587(ii)+0.47014·顶点3(ii)

高斯节点[ii,7]＝0.05971587·顶点1(ii)+0.47014·顶点2(ii)+0.47014·顶点3(ii)

04)数值计算:分为两部分，即传输声明区和数值计算区；

传输：向GPU传入高斯点数组，面片法向量，面片编号，入射电场极化向量，电场入射方向，入射电场时域离散数组；

数值计算：采用基于GPU的OpenACC指令集加速程序的数值计算区

TDPO:

为散射电场，为入射电场，为极化矢量，为入射场极化，为面片法向量，为高斯点，r₀为建模的原点到目标距离，C为光速，为偏微分符号，t是时间，ds是在一个面片的积分，N是面片的总数,k为面片编号，S_K为第k个面片；

高斯公式：

a_k1,a_k2,a_k3,a_k4……a_kn……为高斯权值，x₁,x₂,x₃,……x_n……为高斯节点，由TDPO结合高斯积分求时域散射场；

05)得到结果：从GPU中得到的散射时域电场，然后傅里叶变换后变为散射频域电场，与入射电场频域形式相除,根据如下公式进一步算得RCS：

E^S为步骤4)里求得的散射场，E^I为设定的入射场,r为目标与场源的距离。

上述步骤1)中所述对目标建模不含纹理坐标以及编号，不需要贴图，不需要包含材质模型信息。

上述步骤2)中，MPI分配3个线程，要负载均衡，或者加MPI_Barrier()函数确保每个进程运行完任务后结束，将读取文件存入设好的数组中。

上述步骤4)中整个过程中不要加逻辑运算与if判断。

上述步骤5)中，傅里叶变换和RCS计算不需要并行化，只需普通串行。

本发明的有益效果：本发明提出了一种基于CPU与GPU混合异步并行方式的时域物理光学计算方法，分别是基于MPI的消息接口、并行编程基于OpenMP的共享内存式并行编程和基于OpenACC的应用编程接口，可以大大可节省时间，降低硬件和软件开发编写成本。

本发明有如下优点：

1)GPU与CPU并行，硬件空间与传统集群相比所占空间小且高效，降低硬件成本；

2)只是在原有TDPO算法上简单改动，具有可扩展性；

3)与传统相比加速比大大提高，节省时间；

4)OpenACC指令明确，格式简单，上手快。

附图说明

图1是模型文件图；

图2是模型局部放大图；

图3是三角面片顶点图；

图4是三角面片顶点编号图；

图5是算法流程图；

图6是金属球的雷达散射面积计算值与理论值对比图。

具体实施方式

以下将结合附图对本发明做进一步详细说明。

本发明属于电磁场数值分析领域，涉及数学数值分析中的高斯积分公式，是求解时域物理光学方程这种无原函数的积分方程的一种易于理解实施的高效计算方法，结合MPI(CPU信息传递的并行编程)并行方式加速读取模型文件，入射场信息，结合OpenMP(CPU共享内存式并行)并行方式加速文件预处理，结合OpenACC(GPU应用编程接口)并行方式加速数值计算，可用于加速需大量时间的电大目标RCS(雷达散射截面)和实现电大目标实时RCS(雷达散射截面)预估等方面，本发明具体是一种基于CPU(中央处理器)与GPU混合异步并行方式的(TDPO)时域物理光学计算方法。

本发明提供的这种基于CPU与GPU混合异步并行方式的时域物理光学计算方法，包括以下步骤：

02)读取数据：基于MPI(信息传递)并行方式读取模型信息和入射电磁场信息，程序分配三线程分别同步读取：①模型文件的三角面片顶点坐标以及顶点数量；②模型文件的面片的顶点编号以及面片数量；③模拟入射电场的时域离散数组、频域离散数组、极化方向以及入射方向；

03)模型文件预处理：该过程采用基于CPU(中央处理器)的OpenMP来加速计算，对模型文件进行自遮挡判断，筛选符合条件的三角面片的三个顶点与各自编号，根据三维高斯积分，将筛选出的单个三角面片变为7个高斯节点：

ii为面元编号

高斯节点[ii,1]＝1/3·顶点1(ii)+1/3·顶点2(ii)+1/3·顶点3(ii)

04)数值计算:分为两部分，即传输声明区和数值计算区；

数值计算：采用基于GPU(图形处理器)的OpenACC指令集加速程序的数值计算区

TDPO:

为散射电场，为入射电场，为极化矢量，为入射场极化，为面片法向量，为高斯点，r₀为建模的原点到目标距离，C为光速，为偏微分符号，t是时间，ds是在一个面片的积分，N是面片的总数，k为面片编号，S_K为第k个面片；

高斯公式：

05)得到结果：从GPU(图形处理器)中得到的散射时域电场，然后傅里叶变换后变为散射频域电场，与入射电场频域形式相除,根据如下公式进一步算得RCS(雷达散射截面)：

E^S为步骤4)里求得的散射场，E^I为设定的入射场,r为目标与场源的距离

其中步骤1)中所述对目标建模不含纹理坐标以及编号，不需要贴图，不需要包含材质模型信息。步骤2)中，MPI分配3个线程，必须注意要负载均衡，或者加MPI_Barrier()函数确保每个进程运行完任务后结束，将这些读取文件存入设好的数组中。步骤4)中，parallel指令循环区尽量不要加或少加逻辑运算与if判断，GPU(图形处理器)对大量逻辑运算能力支持较弱。步骤5)中，傅里叶变换和RCS(雷达散射截面)计算不需要进行并行化，只需普通串行，因为进程开销和数据传递的时间远大于计算，降低效率。

如图5所示为本发明算法流程，以及步骤所对应的硬件执行平台,本人硬件CPU为intel E3-1231V3,GPU为NVIDA GeForce GTX970，软件采用PGI 15.7fortran编译。

第一步，如图1所示对目标建模：用3dmax建一个半径为1m的球，并且三角面片为基本单位的模型，图2为球的局部放大图，可以看到是三角面片所构成。导出以OBJ格式的模型文件，名字叫Sphere.OBJ,面片只包含三角面片顶点坐标及三角面片顶点坐标编号，如图3所示坐标1为(0.00,1.00，0.00)坐标2(0.01107100，0.99999，-0.00000)坐标3为(0.003421，0.99999，-0.0105029)如图4第一个面片顶点标号为1,2,3则第一个面片的顶点标号1对应坐标1，顶点2对应坐标2，顶点3对应坐标3,本例中球体为面片为200000，顶点个数为100002。

第二步，读取数据：基于CPU的MPI(信息传递接口)并行方式，分配3个进程，进程1读读取模型文件的三角面片顶点坐标以及顶点数量，进程2读取模型文件的面片的顶点编号以及面片数量，进程3读取模拟入射电场的时域离散数组，频域离散数组，极化方向，入射方向，上述3进程把读到的数据汇总在缓冲区，本例中用的激励源为高斯调整脉冲：频率为4ghz-6ghz，τ＝2/(6-4)＝1ns t₀＝0.8τ＝0.8ns入射方向θ＝180°Ψ＝0°，ψψ极化。

第三步基于CPU的OpenMP的并行方式对模型文件预处理进行加速，而预处理过程如下：

对其模型文件进行自遮挡判断：

为入射场方向矢量，为面片的法向量矢量，此时面片存在入射场，用上述公式筛选的三角面片的三个顶点与各自编号。

由表1可查得高斯节点权值表，如表2所示

则

ii为第ii个面片将筛选出的单个三角面片变为7个高斯节点，遍历每个面片，组变成高斯点数组；

表2：7点高斯节点权值表

1/3	1/3	1/3
			0.10286507323456	0.10286507323456	0.793726985353087
0.10286507323456	0.793726985353087	0.10286507323456
			0.793726985353087	0.10286507323456	0.10286507323456
0.470142064102115	0.470142064102115	0.0597185871789770
			0.470142064102115	0.0597185871789770	0.470142064102115
0.0597185871789770	0.470142064102115	0.470142064102115

第四步，数值计算：分为变量声明区和数值计算区

首先变量声明，声明要向GPU(图形处理器)(图形处理器)传入的数组，传出的数组，临时变量。

传入的数组如：高斯点数组，面片法向量，面片编号，入射电场极化向量，入射电场入射方向，入射电场时域离散数组

声明要输出的数组：散射电场离散时域数组

声明积分过程中产生的零时变量:积分变量，临时向量

数值计算区：采用基于GPU(图形处理器)(图形处理器)的OpenACC的parallelloop(OpenACC加速指令)指令加速整个数值计算区。其中TDPO函数为：

为散射电场，为入射电场，为极化矢量，为入射场极化，为面片法向量，为高斯点，r₀为建模的原点到目标距离，C为光速，为偏微分符号，t是时间，ds'是在一个面片的积分，N是面片的总数，k为面片编号，S_K为第k个面片；

高斯公式：

a₁,a₂,a₃,a₄……a_n……为高斯权值，x₁,x₂,x₃,……x_n……为高斯节点，

如表1所示的高斯表可查高斯权值为：

(0.11250,0.062969590272,0.062969590272,0.062969590272,0.06619707639,0.06619707639,0.0661970763)

其中：

为入射电场的时域微分，为入射电场的时域延迟，

t为时间，为入射场，x₁,x₂,x₃......为高斯节点，a₁.,a₂,a₃............为高斯权值，c为光速，r₀坐标系原地与入射场源距离。

本例中采样20ns，离散为2000个点，时间为外循环，假设第i个点为t1，面片总数为num，把这个式子分成2步来求。第1，用高斯积分求第ii个面片的，求出传递给积分临时变量，与ii的面片法矢点乘后得到一个向量传递给临时向量；第2，从1到num循环，所有临时向量相加，在点乘入射场方向，在点乘极化向量后，除以2πrc，得到t1时刻的散射场，那么循环从1到2000所有时间点，即得到时域散射场，向CPU(中央处理器)(中央处理器)传输。

表1高斯积分表

第五步得到结果：从GPU(图形处理器)中得到的散射时域电场，然后傅里叶变换后变为散射频域电场，与入射电场频域形式相除，进一步算得RCS(雷达散射截面)

E^S为步骤4)里求得的散射场，E^I为设定的入射场,r为目标与场源的距离1m的球体RCS(雷达散射截面)如图6直线为球体MIE级数理论值，蓝线为计算值，根据RCS(雷达散射截面)均分根误差为：测出均方根误差为σ＝-0.1140db，可见精度非常高。

又分别测试了F22模型，平板模型其加速比如表3和表4。

表3多个数组计算区加速比

表4文件读取加速比

综上，本发明算法模型为CPU(中央处理器)->GPU(图形处理器)->CPU(中央处理器)。CPU(中央处理器)部分；包括步聚1步聚2步聚3步聚5，GPU(图形处理器)部分：包括步聚4。步聚1：采用3Dmax建模，以三角面片进行剖分，导出模型为OBJ格式。步聚2：用MPI(信息传递)并行方式，选取三线程分别同步①读取模型文件的三角面片顶点坐标以及顶点数量②读取模型文件的面片顶点编号以及面片数量③读取模拟入射电场的时域离散数组，频域离散数组，极化方向，入射方向。步聚3：采用OpenMP并行方式，对模型文件自遮挡判断加速，筛选符合条件的三角面片三个顶点坐标与各自编号，计算三角面片的法向量，根据高斯积分条件，单个面片变为7个高斯节点，加速整个面片组变为高斯节点数组。步聚4：向GPU(图形处理器)里传输数据包括高斯节点数组，三角面片的面片编号数组，面片向量数组，入射场极化方向，入射方向，高斯权重数组；GPU(图形处理器)加速高斯数值运算，得到结果往CPU(中央处理器)里传输；步聚5：得到的散射电场时域数组经傅里叶变换为频域数组与入射电场频域离散数组相除，进一步求解宽带RCS(雷达散射截面)。本发明对电大目标的瞬态散射计算量较大时，以此并行架构的TDPO将大大节省时间和需求对电大目标的瞬态散射场实时预估，获得精确结果。本发明分别是基于MPI的消息接口、并行编程基于OpenMP的共享内存式并行编程和基于OpenACC的应用编程接口，可以大大可节省时间，降低硬件和软件开发编写成本。本发明有如下优点：

2)只是在原有TDPO算法上简单改动，具有可扩展性；

3)与传统相比加速比大大提高，节省时间；

4)OpenACC指令明确，格式简单，上手快。

本实施方式中没有详细叙述的部分属本行业的公知的常用手段，这里不一一叙述。以上例举仅仅是对本发明的举例说明，并不构成对本发明的保护范围的限制，凡是与本发明相同或相似的设计均属于本发明的保护范围之内。

Claims

1.基于CPU与GPU混合异步并行方式的时域物理光学计算方法，其特征在于，包括以下步骤：

03)模型文件预处理：采用基于CPU中央处理器OpenMP来加速计算，对模型文件进行自遮挡判断，筛选符合条件的三角面片的三个顶点与各自编号，根据三维高斯积分，将筛选出的单个三角面片变为7个高斯节点：

ii为面元编号

高斯节点[ii,1]＝1/3·顶点1(ii)+1/3·顶点2(ii)+1/3·顶点3(ii)

04)数值计算:分为两部分，即传输声明区和数值计算区；

数值计算：采用基于GPU的OpenACC指令集加速程序的数值计算区

TDPO:

为散射电场，为入射电场，为极化矢量，为入射场极化，为面片法向量，为高斯点，r₀为建模的原点到目标距离，C为光速，为偏微分符号，t是时间，ds是在一个面片的积分，N是面片总数,k为面片编号，S_K为第k个面片；高斯公式：为高斯权值，x₁,x₂,x₃,……x_n……为高斯节点，由TDPO结合高斯积分求时域散射场；

2.如权利要求1所述的基于CPU与GPU混合异步并行方式的时域物理光学计算方法，其特征在于，步骤1)中所述对目标建模不含纹理坐标以及编号，不需要贴图，不需要包含材质模型信息。

3.如权利要求1所述的基于CPU与GPU混合异步并行方式的时域物理光学计算方法，其特征在于，步骤2)中，MPI分配3个线程，要负载均衡，或者加MPI_Barrier()函数确保每个进程运行完任务后结束，将读取文件存入设好的数组中。

4.如权利要求1所述的基于CPU与GPU混合异步并行方式的时域物理光学计算方法，其特征在于，步骤4)中整个过程中不要加逻辑运算与if判断。

5.如权利要求1所述的基于CPU与GPU混合异步并行方式的时域物理光学计算方法，其特征在于，步骤5)中，傅里叶变换和RCS计算不需要并行化，只需普通串行。