CN107728199A

CN107728199A - 基于多gpu并行的多分量各向异性叠前时间偏移加速方法

Info

Publication number: CN107728199A
Application number: CN201710864617.1A
Authority: CN
Inventors: 刘帅; 季晓慧; 芦俊; 荣骏召
Original assignee: China University of Geosciences Beijing
Current assignee: China University of Geosciences Beijing
Priority date: 2017-09-22
Filing date: 2017-09-22
Publication date: 2018-02-23
Anticipated expiration: 2037-09-22
Also published as: CN107728199B

Abstract

本发明公开了一种基于多GPU并行的多分量各向异性叠前时间偏移加速方法，属于地震数据偏移处理领域，该方法用于处理CMP道集或ACP道集地震数据，运行于带有若干个GPU的服务器，包括把整体成像网格以参与计算的GPU个数为单位划分为多个部分，计算每个成像部分称为一个计算周期，在每个计算周期中，分别在各个GPU上声明变量、CMP道集或ACP道集地震数据空间、通过各向异性抽道集方法得到的速度数据空间、各向异性参数空间及一条CIP道集主测线成像空间，传输上述数据后在各个GPU中开启多个GPU线程同时进行偏移计算，偏移完成后，将偏移所得CIP道集地震数据传输回CPU，输出到成像结果文件中，直至全部网格成像完毕。本发明能耗低、造价低、占地面积小并且加速明显。

Description

基于多GPU并行的多分量各向异性叠前时间偏移加速方法

技术领域

本发明涉及地震数据偏移处理领域，特别是指一种基于多GPU并行的多分量各向异性叠前时间偏移加速方法。

背景技术

传统地震勘探利用纵波信息来解决构造问题，但随着剩余油气勘探难度的增加，仅使用纵波信息已不能满足现代油气勘探的需求。多分量地震勘探是一种能够同时获得纵波和转换波资料的勘探技术，已成功应用于海上地震勘探。

多分量地震数据的各向异性叠前时间偏移随着各向异性理论的发展，已经成为地震勘探的前沿技术，各向异性参数也被证明是提高地震偏移成像精度的关键因素。Kirchhoff叠前时间偏移算法是经典偏移算法，该算法计算量非常庞大，也是整个常规数据处理周期中最为费时的环节。随着勘探目标越来越大，地震数据处理周期也越来越长，无法满足地震资料解释的需求，需要配合并行计算提高计算效率，缩短处理时间。

传统的CPU并行加速框架受限于CPU的计算核心数，想要达到较好的加速效果，需要的CPU数很多，相应的就需要更多的服务器支撑，会导致占地面积太大、维护困难、能耗高等问题。

发明内容

本发明提供一种能耗低、造价低、占地面积小并且加速明显的基于多GPU并行的多分量各向异性叠前时间偏移加速方法。

为解决上述技术问题，本发明提供技术方案如下：

本发明提供一种基于多GPU并行的多分量各向异性叠前时间偏移加速方法，其特征在于，所述方法运行于带有若干个GPU的计算机或服务器，所述方法，包括：

步骤1：从参数文件中读取偏移参数，并根据偏移参数设置成像网格，同时在GPU上声明通过各向异性抽道集方法得到的速度数据、各向异性参数数据及各地震道坐标数据的纹理内存空间；

步骤2：按顺序选定GPU个数条成像主测线，并根据偏移参数中的扩展线数属性，读取本计算周期所需CMP道集或ACP道集地震数据、速度数据和各向异性参数数据；

步骤3：开启多个CPU线程，并使每个CPU线程唯一对应一个GPU，同时根据各个CPU线程的线程号分割所需CMP道集或ACP道集数据、速度数据和各向异性参数数据，并传输到各个对应的GPU上；

步骤4：在各个GPU上创建其专属的一条主测线成像空间，偏移开始，每个GPU开启多个GPU线程同时进行部分成像空间内各个成像点的偏移，每个线程分别计算各道CMP道集或ACP道集地震数据相对全部采样点的地震波旅行时，并将旅行时对应的CMP道集或ACP道集地震数据点叠加到相应的成像点上；

步骤5：将各个GPU计算所得CIP道集数据按顺序传输到CPU上并写入成像结果文件中，若全部成像网格偏移完毕，则退出计算，否则，返回步骤2，按顺序选择下一个部分的成像网格进行计算。

进一步的，所述步骤1中，所述成像网格的分辨率和速度数据、各向异性参数数据及各地震道坐标数据的纹理内存空间均通过参数文件修改。

进一步的，所述步骤2中，设置协同CPU加速的GPU个数，同时输入通过各向异性抽道集方法得到的速度数据、各向异性参数数据，配合CMP道集或ACP道集地震数据进行偏移计算。

进一步的，所述步骤3中精确分割各个GPU所需数据，在输入CMP道集或ACP道集地震数据时需要创建用于辅助分割的数据地址索引。

进一步的，所述步骤4中，每个GPU线程控制一道CMP道集或ACP道集地震数据的偏移；

所述步骤4中，利用CUDA的核函数结合OpenMP技术，实现其在多个GPU上的线程级并行。

进一步的，所述步骤4中，求解地震波旅行时的公式为基于Kirchhoff叠前时间偏移改进的VTI介质精确时差公式：

其中：t_PS是PS波旅行时，t_PP是PP波旅行时，x_P和x_P1是炮点到成像点距离，x_S和x_P2是检波点到成像点距离，t_0P和t_0PS分别是PP波与PS波的自激自收时间，V_P是PP波NMO速度，V_S是PS波NMO速度，θ_P和θ_P1是PP波入射角，θ_S和θ_P2分别是PS波与PP波的出射角，η_p是PP波速度的各向异性参数，η_s是PS波速度的各向异性参数。

进一步的，所述步骤5中，写入成像结果文件时按照主测线号的顺序进行。

进一步的，基于CUDA的并行架构，通过设定线程格Grid、线程格内线程块Block及线程块内线程Thread的数量，设定并行加速的GPU总线程量，从而实现线程级并行。

进一步的，所述步骤1中，将最常使用的参数载入读取速度最快的寄存器中；将数据量最大且读取不频繁的数据载入容量最大但读取速度慢的全局内存中；将固定不变的参数载入读取速度最快且运行期间只读的常量内存中；将读取位置在逻辑上比较靠近且读取频繁的数据载入纹理内存中。

进一步的，通过基于共享内存并行架构的OpenMP技术开启多个CPU线程，并且每个CPU线程控制一个GPU。

本发明具有以下有益效果：

本发明通过多分量各向异性叠前时间偏移算法进行并行化处理，实现了多个GPU并行，在占地空间小、计算成本低、能耗小的情况下获得了极大的速度提升。

附图说明

图1为本发明的基于多GPU并行的多分量各向异性叠前时间偏移加速方法的流程图；

图2为本发明的基于多GPU并行的多分量各向异性叠前时间偏移加速方法的CUDA多线程模式与GPU存储模式示意图；

图3为本发明的基于多GPU并行的多分量各向异性叠前时间偏移加速方法的实施例1的一个计算周期的示意图；

图4为本发明的基于多GPU并行的多分量各向异性叠前时间偏移加速方法的实施例1实验结果图；

图5为本发明的基于多GPU并行的多分量各向异性叠前时间偏移加速方法的实施例1的加速比对比图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明提供一种基于多GPU并行的多分量各向异性叠前时间偏移加速方法，如图1～5所示，基于多GPU并行的多分量各向异性叠前时间偏移加速方法运行于带有若干个GPU的计算机或服务器，该加速方法包括：

步骤1：从参数文件中读取偏移参数，并根据偏移参数设置成像网格，同时在GPU上声明通过各向异性抽道集方法得到的速度数据、各向异性参数数据及各地震道坐标数据的纹理内存空间，加快数据读取速度；

步骤3：开启多个CPU线程，并使每个CPU线程唯一对应一个GPU，同时根据各个CPU线程的线程号分割所需CMP道集或ACP道集地震数据、速度数据和各向异性参数数据，并传输到各个对应的GPU上；

步骤4：在各个GPU上创建其专属的一条CIP道集主测线成像空间，偏移开始，每个GPU开启多个GPU线程同时进行部分成像空间内各个成像点的偏移，每个GPU线程分别计算各道CMP道集或ACP道集地震数据相对全部采样点的地震波旅行时，并将旅行时对应的CMP道集或ACP道集地震数据点叠加到相应的成像点上；

步骤5：将各个GPU计算所得CIP道集数据，按顺序传输到CPU上并写入成像结果文件中，若全部成像网格偏移完毕，则退出计算，否则，返回步骤2，按顺序选择下一个部分的成像网格进行计算。

本发明的有益效果在于：

进一步的，步骤1中，成像网格分辨率及各个成像参数可以通过参数文件修改，初始化时需要设置协同CPU加速的GPU个数，以及输入通过各向异性抽道集得到的速度数据、各向异性参数数据，配合CMP道集或ACP道集地震数据进行偏移计算。偏移参数中的扩展线数x作用是当偏移第A(数字)号线时，输入A-x到A+x号线CMP道集或ACP道集地震数据共同对第A号线进行偏移，以提高偏移成像效果及分辨率，同时，算法的整体计算量相比无扩展线数算法成倍增加。

进一步的，整体任务划分的同时需要精确分割各个GPU所需数据，并且考虑到算法性能，需要在输入数据时创建数据地址索引，辅助进行分割数据。

优选的，使用多GPU线程偏移计算每个GPU线程控制一道CMP道集或ACP道集地震数据的偏移，达到并行加速的效果，写入成像结果文件必须按照主测线号的顺序进行；

所述步骤4中，利用CUDA的核函数结合OpenMP技术，实现其在多个GPU上的线程级并行。基于CUDA的并行架构，通过设定线程格Grid、线程格内线程块Block及线程块内线程Thread的数量，设定并行加速的GPU总线程量，从而实现线程级并行。

其中，步骤4中，求解地震波旅行时的公式为基于Kirchhoff叠前时间偏移改进的VTI介质精确时差公式：

本发明中，充分利用GPU各种不同存储结构的特点优化数据读取方式，将最常使用的参数载入读取速度最快的寄存器中；将数据量最大且读取不频繁的数据载入容量最大但读取速度慢的全局内存中；将固定不变的参数载入读取速度最快且运行期间只读的常量内存中；将读取位置在逻辑上比较靠近且读取频繁的数据载入纹理内存中，以适应各类数据的读取特点。

另外，通过基于共享内存并行架构的OpenMP技术，开启多个CPU线程，并且每个CPU线程控制一个GPU，充分利用了服务器上多个GPU卡的情况，每个计算周期计算更多数据，进一步加快了计算速度。

上述方法选用具有多个GPU作为加速部件的服务器执行，同时由于分割了整体计算任务，具有内存使用率低、能耗低、造价低占地面积小的优点，同时加速效果明显。

实施例1：

下面通过一个实际工区的叠前偏移对本发明进行进一步描述，在PP纵波叠前时间偏移计算过程中，扩展线数属性为2条，偏移孔径为50米，偏移角度为10度，拉伸切除比为1.2。在PS转换波叠前时间偏移计算过程中，扩展线数属性为2条，偏移孔径为50米，偏移角度为15度，拉伸切除比为1.2。偏移成像文件网格与输入文件相同。对此实际工区的具体多分量叠前时间偏移加速过程如图1所示：

步骤1：从参数文件中读取偏移参数，并根据参数设置成像网格，同时在GPU上声明速度数据通过各向异性抽道集方法得到的速度数据、各向异性参数数据及各地震道坐标数据的纹理内存空间，加快数据读取速度。

步骤2：按顺序选定GPU个数条成像主测线，并根据偏移参数中的扩展线数属性，读取本计算周期所需CMP道集或ACP道集地震数据、速度数据通过各向异性抽道集方法得到的速度数据、各向异性参数数据。同时浏览全部数据，创建地址索引数组，以方便在后面的计算过程中准确而快速地多次读取所需数据。由于将整体任务分割成多个小任务，所以在计算每个小任务时，系统的内存占用率很低，可以通用于比实施例1数据更大的工区。

步骤3：开启多个CPU线程，并使每个CPU线程都唯一对应一个GPU，同时根据各个CPU线程的线程号分割计算所需数据，并将其数据传输到各个对应的GPU上。分割数据时需要根据工区边缘情况自适应扩展线数属性。如在工区左边界时，第1条成像主测线只能根据输入的第1～3条CMP道集或ACP道集主测线地震数据计算，第2条成像主测线只能根据输入的第1～4条CMP道集或ACP道集主测线地震数据计算；工区右边界同理。

步骤4：在各个GPU上创建其专属的一条主测线成像空间。偏移开始，每个GPU开启多个GPU线程同时进行部分成像空间内各个成像点的偏移，每个GPU线程分别计算各道输入CMP道集或ACP道集地震数据相对全部采样点的地震波旅行时，并将旅行时对应的输入CMP道集或ACP道集地震数据点叠加到相应的成像点上。求解地震波旅行时的过程，是基于Kirchhoff叠前时间偏移改进的VTI介质精确时差公式：

步骤5：将各个GPU计算所得数据，按顺序传输到CPU上并写入结果成像文件中，若全部成像网格偏移完毕，则退出计算，否则返回步骤2，按顺序选择下一个部分的成像网格进行计算。本实施例1的第1个计算周期过程如图3所示。

基于CPU与多GPU并行的多分量各向异性叠前时间偏移加速系统硬件部分为带有多个GPU作为加速部件的服务器，软件部分均在该服务器上执行。具体的，该发明计算核心部分由CUDA的核函数结合OpenMP技术实现其在多个GPU上的线程级并行。

通过CUDA实现函数的线程级并行时，需要设定线程格Grid、线程格内线程块Block以及块内线程Thread的数量，从而设定并行使用的GPU的总线程数。本实施例1将线程格设定为1，每个线程块的线程数设置为512，线程块的数量与各个GPU分配的CMP或ACP道集地震道数相适应自动调整。在和函数中，通过threadIdx.x+blockIdx.x*blockDim.x获得每个GPU线程的绝对线程号，从而控制每一个GPU线程执行地震数据偏移操作。CUDA的执行模型和GPU的存储模型如图2所示。

在计算过程中必然需要通过GPU内存读取数据，包括每个GPU线程独立的寄存器、本地内存，线程块内共享的共享内存以及全部GPU线程可见的全局内存等，还有存储容量小但读取速度快且在计算过程中只读的常量内存，容量较大且读取速度较快、计算过程中只读的纹理内存。常量内存需要通过全局的__constant__关键字定义，且在核函数计算之前通过cudaMemcpyToSymbol()函数相分配在GPU上的常量内存传输数据。纹理内存需要通过全局的texture<type>声明，并且要在使用cudaMemcpy()将数据拷贝到全局内存后，使用cudaBindTexture()函数绑定到纹理内存上。通过使用不同层次的GPU存储结构，优化数据读取效率。

进一步的，通过基于共享内存的OpenMP并行架构，可以开启多个CPU线程，同时控制多个GPU参与计算，进一步扩充总计算线程数量，从而实现了更多主测线的并行，进一步缩短计算时间。

每个GPU只进行部分主测线的计算，所以实际上每个GPU只计算了成像主测线数/GPU个数条主测线。

写结果文件时时，每个GPU计算的结果必须按照顺序写入结果文件中，所以必须串行写入文件中。

本实施例1在多个GPU作为加速部件的服务器上并行的结果如图4所示，图4(a)为PP纵波偏移结果，图4(b)为PS转换波偏移结果，可以看出PP纵波2.5秒到3.1秒层位对应PS转换波3.5秒到4.5秒，PP纵波3.6秒到3.9秒层位对应PS转换波5秒到5.5秒。

本实施例1在具有多个GPU作为加速部件的服务器上实现并行获得的加速比如图5所示，图5(a)为PP波偏移结果加速比，图5(b)为PS波偏移结果加速比，可以看出，采用多个GPU提速效果明显。

本发明是把整体工区的成像网格以参与计算的GPU个数为单位划分为多个部分，按顺序依次计算各个成像部分，计算每个成像部分称为一个计算周期。每个计算周期中，分别在各个GPU上声明变量、CMP道集或ACP道集地震数据空间、通过各向异性抽道集方法得到的速度数据空间及各向异性参数空间，将CPU上涉及到计算的数据传入各个GPU，在各个GPU中开启多个GPU线程同时进行地震数据的偏移，偏移完成后传输回CPU，进行成像文件输出，直至全部网格成像完毕。本发明采用具有多个GPU作为协处理器加速的服务器，具有能耗低、造价低、占地面积小的特点，且算法加速效果明显。

本发明通过对多分量各向异性叠前时间偏移算法进行并行化处理，实现了在具有多个GPU作为加速部件的服务器上的运行，在占地空间更小、计算成本更低、能耗更小的情况下获得了极大的速度提升，在保证精度的基础上提供较高的运行效率。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于多GPU并行的多分量各向异性叠前时间偏移加速方法，其特征在于，所述方法运行于带有若干个GPU的计算机或服务器，所述方法，包括：

步骤4：在各个GPU上创建其专属的一条CIP道集主测线成像空间，偏移开始，每个GPU开启多个GPU线程同时进行部分成像空间内各个成像点的偏移，每个线程分别计算各道CMP道集或ACP道集地震数据相对全部采样点的地震波旅行时，并将旅行时对应的CMP道集或ACP道集地震数据点叠加到相应的成像点上；

2.根据权利要求1所述的基于多GPU并行的多分量各向异性叠前时间偏移加速方法，其特征在于，所述步骤1中，所述成像网格的分辨率和速度数据、各向异性参数数据及各地震道坐标数据的纹理内存空间均通过参数文件修改。

3.根据权利要求1所述的基于多GPU并行的多分量各向异性叠前时间偏移加速方法，其特征在于，所述步骤2中，设置协同CPU加速的GPU个数，同时输入通过各向异性抽道集方法得到的速度数据、各向异性参数数据，配合CMP道集或ACP道集地震数据进行偏移计算。

4.根据权利要求1所述的基于多GPU并行的多分量各向异性叠前时间偏移加速方法，其特征在于，所述步骤3中精确分割各个GPU所需数据，在输入CMP道集或ACP道集地震数据时需要创建用于辅助分割的数据地址索引。

5.根据权利要求1所述的基于多GPU并行的多分量各向异性叠前时间偏移加速方法，其特征在于，所述步骤4中，每个GPU线程控制一道CMP道集或ACP道集地震数据的偏移；

6.根据权利要求5所述的基于多GPU并行的多分量各向异性叠前时间偏移加速方法，其特征在于，所述步骤4中，求解地震波旅行时的公式为基于Kirchhoff叠前时间偏移改进的VTI介质精确时差公式：

<mrow> <msub> <mi>t</mi> <mrow> <mi>P</mi> <mi>S</mi> </mrow> </msub> <mo>=</mo> <msqrt> <mrow> <msubsup> <mi>t</mi> <mrow> <mn>0</mn> <mi>P</mi> <mi>S</mi> </mrow> <mn>2</mn> </msubsup> <mo>+</mo> <mfrac> <msubsup> <mi>x</mi> <mi>P</mi> <mn>2</mn> </msubsup> <mrow> <msubsup> <mi>V</mi> <mi>P</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mn>2</mn> <msub> <mi>&eta;</mi> <mi>P</mi> </msub> <msup> <mi>sin</mi> <mn>2</mn> </msup> <msub> <mi>&theta;</mi> <mi>P</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </msqrt> <mo>+</mo> <msqrt> <mrow> <msubsup> <mi>t</mi> <mrow> <mn>0</mn> <mi>P</mi> <mi>S</mi> </mrow> <mn>2</mn> </msubsup> <mo>+</mo> <mfrac> <msubsup> <mi>x</mi> <mi>S</mi> <mn>2</mn> </msubsup> <mrow> <msubsup> <mi>V</mi> <mi>S</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mn>2</mn> <msub> <mi>&eta;</mi> <mi>S</mi> </msub> <msup> <mi>sin</mi> <mn>2</mn> </msup> <msub> <mi>&theta;</mi> <mi>S</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </msqrt> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>t</mi> <mrow> <mi>P</mi> <mi>P</mi> </mrow> </msub> <mo>=</mo> <msqrt> <mrow> <msubsup> <mi>t</mi> <mrow> <mn>0</mn> <mi>P</mi> </mrow> <mn>2</mn> </msubsup> <mo>+</mo> <mfrac> <msubsup> <mi>x</mi> <mrow> <mi>P</mi> <mn>1</mn> </mrow> <mn>2</mn> </msubsup> <mrow> <msubsup> <mi>V</mi> <mi>P</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mn>2</mn> <msub> <mi>&eta;</mi> <mi>P</mi> </msub> <msup> <mi>sin</mi> <mn>2</mn> </msup> <msub> <mi>&theta;</mi> <mrow> <mi>P</mi> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </msqrt> <mo>+</mo> <msqrt> <mrow> <msubsup> <mi>t</mi> <mrow> <mn>0</mn> <mi>P</mi> </mrow> <mn>2</mn> </msubsup> <mo>+</mo> <mfrac> <msubsup> <mi>x</mi> <mrow> <mi>P</mi> <mn>2</mn> </mrow> <mn>2</mn> </msubsup> <mrow> <msubsup> <mi>V</mi> <mi>P</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mn>2</mn> <msub> <mi>&eta;</mi> <mi>P</mi> </msub> <msup> <mi>sin</mi> <mn>2</mn> </msup> <msub> <mi>&theta;</mi> <mrow> <mi>P</mi> <mn>2</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </msqrt> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

7.根据权利要求1所述的基于多GPU并行的多分量各向异性叠前时间偏移加速方法，其特征在于，所述步骤5中，写入成像结果文件时按照主测线号的顺序进行。

8.根据权利要求5所述的基于多GPU并行的多分量各向异性叠前时间偏移加速方法，其特征在于，基于CUDA的并行架构，通过设定线程格Grid、线程格内线程块Block及线程块内线程Thread的数量，设定并行加速的GPU总线程量，从而实现线程级并行。

9.根据权利要求1所述的基于多GPU并行的多分量各向异性叠前时间偏移加速方法，其特征在于，所述步骤1中，将最常使用的参数载入读取速度最快的寄存器中；将数据量最大且读取不频繁的数据载入容量最大但读取速度慢的全局内存中；将固定不变的参数载入读取速度最快且运行期间只读的常量内存中；将读取位置在逻辑上比较靠近且读取频繁的数据载入纹理内存中。

10.根据权利要求9所述的基于多GPU并行的多分量各向异性叠前时间偏移加速方法，其特征在于，通过基于共享内存并行架构的OpenMP技术开启多个CPU线程，并且每个CPU线程控制一个GPU。