CN104794120A

CN104794120A - 一种海量地震数据并行抽道集方法

Info

Publication number: CN104794120A
Application number: CN201410022941.5A
Authority: CN
Inventors: 黄忠玉; 刘兰锋; 魏修成; 季玉新
Original assignee: China Petroleum and Chemical Corp; Sinopec Exploration and Production Research Institute
Current assignee: China Petroleum and Chemical Corp; Sinopec Exploration and Production Research Institute
Priority date: 2014-01-17
Filing date: 2014-01-17
Publication date: 2015-07-22
Anticipated expiration: 2034-01-17
Also published as: CN104794120B

Abstract

本发明涉及一种海量地震数据并行抽道集方法，其包括多级数据并行排序步骤，第一级数据并行排序步骤包括对原始地震数据的并行局部排序，以及对并行局部排序结果的全局排序，全局排序结果作为本级处理结果输出，以备第二级数据并行排序步骤使用；第二级以及其它级数据并行排序步骤包括对前一级数据并行排序步骤的处理结果的并行局部排序，并行局部排序结果作为本级处理结果输出，以备后一级数据并行排序步骤使用；并行局部排序包括将原始地震数据或者前一级数据并行排序步骤的处理结果分成多个数据包分发给多个并行节点，各并行节点分别按照排序关键字对数据包中的数据进行排序；全局排序包括按照排序关键字调整各并行节点的数据排序结果之间的顺序。本发明有效缩短抽道集时间。

Description

一种海量地震数据并行抽道集方法

技术领域

本发明涉及地球物理勘探技术领域，尤其涉及一种海量地震数据并行抽道集方法。

背景技术

现今随着油气田勘探开发程度的日益加深，勘探目标越来越隐蔽，采集精度也越来越高，需要采用高分辨率地震勘探和四维地震勘探等高新技术进行野外勘探，由此野外采集的地震数据量也随之成倍增长，因此地震资料处理系统必须具备海量（TB级）数据管理能力，不仅可以存取大量的数据文件，而且还可以高速地访问处理数据。不同的数据处理算法需要输入不同域的地震数据，例如共炮点（CSP）、共中心点（CMP）或者共深度点（CDP）道集等地震数据。因此地震资料处理系统不仅要有海量（TB级）数据管理能力，而且还要有高效的道集排序能力，在不同道集之间快速转换，或者将杂乱无序的道集数据快速地整理成一个有序道集，从而为复杂的偏移成像算法快速地提供不同域的道集数据，节约宝贵的计算机时。现有技术中，对于抽道集等地震数据预处理算法，按照排序过程中地震数据存储的形式，可以分为两种道集排序方式：一是内部排序，即将地震数据全部读入到计算内存中进行常规排序，完成后将结果输出到硬盘文件；二是外部排序，即将一部分地震数据读入到内存中进行常规排序，然后将中间结果输出到临时文件中，最后根据临时文件再次排序、合并。这种外部排序的缺点是当地震数据量很大时（TB级），临时文件会非常大，随机读取海量的临时文件会带来二次排序问题。2001年西方地球物理公司的Yi Luo等人提出，根据B-Tree排序理论将内存中的地震数据进行内部排序，然后输出到多个个较小的临时文件中，以减少随机读取临时文件的次数。虽然该方法在一定程度上解决了临时文件的二次排序问题，但是单线程的运行方式限制了运行效率的进一步提升。

目前，国内外的研究学者对海量地震数据处理的研究方向主要集中在并行处理算法上。并行处理也称为模块内部并行，是对某些计算量巨大的模块（如叠前偏移模块）直接以并行算法实现，从而最大程度地利用并行节点的物理计算能力。并行算法通常比较复杂，难点是如何巧妙地分割算法任务和输入数据，同时精确控制进程、线程间的同步以获得最佳的并行加速比。本发明的发明人正是基于长期的实务经验和相关的专业知识，探索出一种能够利用计算机集群硬件实现多节点数据高效并行处理的地震数据处理方法。

发明内容

基于上述原因，本发明的目的是提供一种利用计算机集群硬件实现多节点数据高效并行处理的海量地震数据并行抽道集方法。

该方法包括两级或两级以上数据并行排序步骤，其中：

第一级数据并行排序步骤包括对原始地震数据进行并行局部排序，以及对并行局部排序结果进行全局排序，全局排序结果作为本级处理结果输出，以备第二级数据并行排序步骤使用；

第二级以及其它级数据并行排序步骤包括对前一级数据并行排序步骤的处理结果进行并行局部排序，并行局部排序结果作为本级处理结果输出，以备后一级数据并行排序步骤使用；

所述并行局部排序包括将原始地震数据或者前一级数据并行排序步骤的处理结果分成多个数据包分发给多个并行节点，各并行节点分别按照排序关键字对数据包中的数据进行排序；

所述全局排序包括按照排序关键字调整各并行节点的数据排序结果之间的顺序。

根据本发明的实施例，在上述并行局部排序中，每一并行节点在完成数据排序时接触阻塞，将自己的同步标志位置真，然后检查其它并行节点的同步标志位的状态：

若其它并行节点的同步标志位均为真，则结束阻塞，否则继续阻塞，以等待其它并行节点完成数据排序。

根据本发明的实施例，在上述每一级数据并行排序步骤中，可以由最后一个完成数据排序的并行节点收集所有并行节点的数据排序结果。

进一步地，在第一级数据并行排序步骤中，由最后一个完成数据排序的并行节点执行全局排序。

进一步地，在第二级以及其它级数据并行排序步骤中，由前一级数据并行排序步骤中最后一个完成数据排序的并行节点将前一级数据并行排序步骤的处理结果按照前一级排序关键字分成多个数据包分发给多个并行节点。

此外，在第一级数据并行排序步骤中，可以由第一个开始任务进程的并行节点执行并行局部排序的初始化操作，待初始化操作完成后各并行节点才开始数据排序；

在最后一级数据并行排序步骤中，可以由最后一个完成数据排序的并行节点执行并行局部排序的收尾操作。

根据本发明的实施例，可以采用哈希表快速排序法进行并行局部排序和全局排序。

具体地，根据本发明的实施例，上述海量地震数据并行抽道集方法可以包括三级数据并行排序步骤：

在第一级数据并行排序步骤中，并行局部排序包括将原始地震数据按照道序号分成多个数据包分发给多个并行节点，各并行节点分别以线号为排序关键字对数据包中的数据进行排序，全局排序以线号为排序关键字调整各并行节点的数据排序结果之间的顺序；

在第二级数据并行排序步骤中，并行局部排序包括将第一级数据并行排序步骤的全局排序结果按照线号分成多个数据包分发给多个并行节点，各并行节点分别以道集序号为排序关键字对数据包中的数据进行排序；

在第三级数据并行排序步骤中，并行局部排序包括将第二级数据并行排序步骤的并行局部排序结果按照道集序号分成多个数据包分发给多个并行节点，各并行节点分别以偏移距为排序关键字对数据包中的数据进行排序。

与现有技术相比，本发明提供的海量地震数据并行抽道集方法具有以下优点：

1、本发明根据地震数据的存储形式，将地震数据抽道集过程分为两级或两极以上数据并行排序步骤，在每一级并行排序步骤中，将待处理的数据体分割成多个数据包分发给多个并行节点，每个并行节点启动独立的排序作业，即对接收的数据包中的数据进行排序，当所有并行节点完成排序作业后，合并所有并行节点的排序结果。这种方法简单易行，能够充分利用现今计算机集群硬件多节点、多进程的并行处理能力，极大地缩短了地震数据抽道集的运行时间，提高了地震处理系统对海量数据管理能力和运行效率。2、本发明在地震数据抽道集过程中，将地震数据按照道序号进行索引排序，仅将道头信息读入内存，与现有技术中需将地震道数据和道头信息同时读入内存的方法相比，大大减少了内存的占用量和访问量，进一步提升了地震处理系统的运行效率。3、本发明在每一级数据并行排序步骤中，通过判断各并行节点任务进程的先后次序以及利用时间阻塞来实现并行节点之间的同步运行，解决了进程、线程间同步精确控制的难题，获得了出色的并行加速比。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其它优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明海量地震数据并行抽道集方法的工作流程示意图；

图2是本发明一实施例将地震数据抽成CDP道集的工作流程示意图；

图3是图1所示实施例实现各并行节点之间同步运行的工作流程示意图；

图4是图1所示实施例将地震数据抽成CDP道集的最终结果示意图；

图5是本发明另一实施例将地震数据抽成炮集的最终结果示意图。

具体实施方式

如图1所示，本发明提出的海量地震数据并行抽道集方法包括两级或两极以上数据并行排序步骤，其中：

为使本发明的目的、技术方案和优点更加清楚，以下结合具体实施例对上述并行抽道集方法及其中的并行局部排序和全局排序过程作进一步地详细说明。

对一批来自四川省丰谷地区实地采集的三维三分量地震数据（约为970G，共计64855988道）进行并行抽道集处理。以抽成CDP道集为例，即以线号、道集序号和偏移距分别为第一、第二和第三排序关键字进行三级排序。每一级排序过程中，可以将数据分成15个数据包，分发给15个并行节点，以进行数据包内部数据的排序作业，当然也可以不限于此。

如图2所示，三级排序大致包括以下步骤：

S110、将原始地震数据按照道序号分成15个数据包，分发给15个并行节点。

S120、各并行节点分别以线号为第一排序关键字对接收的数据包中的数据进行排序，输出数据排序结果。

S130、待所有并行节点完成数据排序后，收集所有并行节点的数据排序结果，按照线号调整各并行节点的数据排序结果之间的顺序，从而获得第一级数据并行排序步骤的处理结果，也即线排序结果。

S210、将第一级数据并行排序步骤的处理结果按照线号分成15个数据包，分发给15个并行节点。

S220、各并行节点分别以道集序号为第二排序关键字对接收的数据包中的数据进行排序，输出数据排序结果。

S230、待所有并行节点完成数据排序后，收集所有并行节点的数据排序结果，从而获得第二级数据并行排序步骤的处理结果，也即道集排序结果。

S310、将第二级数据并行排序步骤的处理结果按照道集序号分成15个数据包，分发给15个并行节点。

S320、各并行节点分别以偏移距为第三排序关键字对接收的数据包中的数据进行排序，输出数据排序结果。

S330、待所有并行节点完成数据排序后，收集所有并行节点的数据排序结果，从而获得第三级数据并行排序步骤的处理结果，也即道集内排序结果。该结果也即整个并行抽道集处理的最终结果。

正如背景技术中所提及的，如何精确控制各进程、线程间的同步以获得最佳的并行加速比，进而提高系统的运行效率是并行处理算法的一个关键问题。本发明在实施上述并行抽道集的过程中，通过判断各并行节点任务进程的先后次序以及利用时间阻塞实现各并行节点之间的同步运行，以获得良好的并行加速比。如图3所示，具体过程包括以下步骤：

S110、将原始地震数据按照道序号分成多个数据包，分发给多个并行节点。

S121、每一个并行节点在开始任务进程时，判断是否是第一个开始任务进程的并行节点：

若是，则执行初始化操作，例如建立临时文件存储目录；

若否，则通过阻塞进入睡眠等待状态，直至第一个开始任务进程的并行节点完成初始化操作。

S122、待初始化操作完成后，各并行节点分别以线号为第一排序关键字进行数据排序，输出数据排序结果到临时文件。

S123、每一个并行节点在完成数据排序时，判断是否是最后一个完成数据排序的并行节点：

若是，则进入步骤S130；

若否，则通过阻塞进入睡眠等待状态，直至所有并行节点完成数据排序。

S130、待所有并行节点完成数据排序后，由最后一个完成数据排序的并行节点收集所有并行节点的数据排序结果，按照线号调整各并行节点的数据排序结果之间的顺序，从而获得第一级数据并行排序步骤的处理结果。

S210、由第一级数据并行排序步骤中最后一个完成数据排序的并行节点将第一级数据并行排序步骤的处理结果按照线号分成多个数据包，分发给多个并行节点。

S221、各并行节点分别以道集序号为第二排序关键字进行数据排序，输出数据排序结果到临时文件。

S222、每一个并行节点在完成数据排序时，判断是否是最后一个完成数据排序的并行节点：

若是，则进入步骤S230；

S230、待所有并行节点完成数据排序后，由最后一个完成数据排序的并行节点收集所有并行节点的数据排序结果，从而获得第二级数据并行排序步骤的处理结果，也即道集排序结果。

S310、由第二级数据并行排序步骤中最后一个完成数据排序的并行节点将第二级数据并行排序步骤的处理结果按照道集序号分成多个数据包，分发给多个并行节点。

S321、各并行节点分别以偏移距为第三排序关键字进行数据排序，输出数据排序结果到临时文件。

S322、每一个并行节点在完成数据排序时，判断是否是最后一个完成数据排序的并行节点：

若是，则进入步骤S330；

S330、待所有并行节点完成数据排序后，由最后一个完成数据排序的并行节点收集所有并行节点的数据排序结果，从而获得第三级数据并行排序步骤的处理结果，也即道集内排序结果，该结果作为最终结果进行转存。此外，最后一个完成数据排序的并行节点还执行收尾操作，例如清除临时文件存储目录。

在具体实施时，本发明优选借助MySQL数据库的存储过程判断各并行节点任务进程的先后次序以及控制并行节点之间的同步运行。当并行抽道集过程的控制算法首次加载运行时，SQL Server为其产生查询计划并将其保存在内存中，这样在后期存储过程中就不必反复编译，从而能够大幅度地提升系统工作性能，减少网络数据流量。同时，SQL Server在计算任务表中为每一个并行节点分配一个同步标志字段，通过存储过程操作字段中相应的同步标志位就可以判断多任务进程间的运行次序和实现并行节点之间的同步运行。具体方法如下：

在步骤S121中，每一并行节点在开始任务进程时接触阻塞，并将自己的同步标志位置真，然后检查其它并行节点的同步标志位的状态：

若其它并行节点的同步标志位均为假，则表明该并行节点是第一个开始任务进程的并行节点，结束阻塞，开始执行初始化操作；

否则继续阻塞，以等待第一个开始任务进程的并行节点完成初始化操作。

在步骤S123、S221和S321中，每一个并行节点在完成本级数据排序时接触阻塞，并将自己的同步标志位置真，然后检查其它并行节点的同步标志位的状态：

若其它并行节点的同步标志位均为真，则表明该并行节点是最后一个完成本级数据排序的并行节点，结束阻塞，进入下一步步骤；

否则继续阻塞，以等待其它并行节点完成本级数据排序。

需要说明的是，在上述过程中每次阻塞结束后，进入下一步步骤时，各并行节点的同步标志位需要自行恢复初始状态。该技术是现有技术，因此此处不做详述。

此外，本发明优选装设有哈希表快速排序算法的由Qt软件开发工具集成的数据容器QMap为数据包内的数据进行快速排序。

如图4所示，是将上述四川省丰谷地区实地采集的三维三分量地震数据抽成CDP道集的结果示意图。图中，横坐标中的line为线号，横坐标中的cdp为道集序号，横坐标中的offset为偏移距。从启动按照道序号分配排序任务到将最终排序结果转存加载到处理系统中，耗时共计2小时35分，极大缩短了数据I/O时间，提高了地震处理系统的效率。

当然本发明远不限于上述实施例。如图5所示，是对上述四川省丰谷地区实地采集的三维三分量地震数据抽成炮集的结果示意图。该过程为二级排序，图中，横坐标中的fldr为第一排序关键字炮号，横坐标中的offset为第二排序关键字偏移距。

本发明提供的并行抽道集方法利用集群多节点、多进程并行加载地震数据，快速的完成了地震数据的道集抽取，能够为下一步复杂的地震成像算法提供了不同域的道集数据，节省了宝贵的计算机时。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种海量地震数据并行抽道集方法，包括两级或两级以上数据并行排序步骤，其中：

2.如权利要求1所述的并行抽道集方法，其特征在于，在并行局部排序中，每一并行节点在完成数据排序时接触阻塞，将自己的同步标志位置真，然后检查其它并行节点的同步标志位的状态：

3.如权利要求1或2所述的并行抽道集方法，其特征在于：在每一级数据并行排序步骤中，由最后一个完成数据排序的并行节点收集所有并行节点的数据排序结果。

4.如权利要求3所述的并行抽道集方法，其特征在于，进一步地，在第一级数据并行排序步骤中，由最后一个完成数据排序的并行节点执行全局排序。

5.如权利要求3所述的并行抽道集方法，其特征在于，进一步地，在第二级以及其它级数据并行排序步骤中，由前一级数据并行排序步骤中最后一个完成数据排序的并行节点将前一级数据并行排序步骤的处理结果按照前一级排序关键字分成多个数据包分发给多个并行节点。

6.如权利要求1～5任意一项所述的并行抽道集方法，其特征在于：

在第一级数据并行排序步骤中，由第一个开始任务进程的并行节点执行并行局部排序的初始化操作，待初始化操作完成后各并行节点才开始数据排序；

在最后一级数据并行排序步骤中，由最后一个完成数据排序的并行节点执行并行局部排序的收尾操作。

7.如权利要求6所述的并行抽道集方法，其特征在于：采用哈希表快速排序法进行并行局部排序和全局排序。

8.如权利要求7所述的并行抽道集方法，其特征在于，包括三级数据并行排序步骤：