CN103221923A

CN103221923A - 用于地震数据处理的计算加速的方法和系统

Info

Publication number: CN103221923A
Application number: CN2011800550862A
Authority: CN
Inventors: 胡朝舜; 王躍; T·尼姆西
Original assignee: Chevron USA Inc
Current assignee: Chevron USA Inc
Priority date: 2010-12-15
Filing date: 2011-09-20
Publication date: 2013-07-24
Also published as: WO2012082202A1; BR112013008055A2; AU2011341716A1; EA201390868A1; EP2652612A1; CA2816403A1; US20120159124A1

Abstract

描述了用于地震数据处理的计算加速的计算机实现的方法和系统。该方法包括：根据要处理的数据来定义处理器中的多个核的特定非统一存储器访问（NUMA）调度；以及通过所述多个核中的每个核运行两个或更多个线程。

Description

用于地震数据处理的计算加速的方法和系统

技术领域

本发明总体上涉及计算方法，尤其涉及用于地震数据处理的计算加速的计算机系统和计算机实现的方法。

背景技术

由于计算中所涉及的点的数量，包括三维（3D）和四维（4D）地震数据处理以及深度成像应用的地震数据处理通常是计算机和时间密集的。例如，在一次计算中会使用多达十亿个点（10⁹个点）。总的来说，点的数量越大，执行计算所需的时间周期越大。计算时间可以通过增加计算资源，例如通过使用多处理器计算机，或者通过在联网的分布式计算环境中执行计算来减少。

在过去的几十年里，实现了提高中央处理单元（CPU）速度，以提高计算机能力，从而满足地震勘测中的计算需求。然而，CPU速度达到了极限，并且进一步的提高变得日益困难。使用多核或多处理器的计算系统被用来提供前所未有的计算能力。然而，通过多核处理器的使用所获得的性能强烈依赖于软件算法和实现。由于缺乏CPU处理能力与软件并行化之间的交互或协同，常规的地球物理应用没有实现大的加速因子。

本发明解决关于以上所述的各种问题。

发明内容

本发明的一方面将提供一种用于地震数据处理的计算加速的计算机实现的方法。该方法包括：根据要处理的数据，定义处理器中的多个核的特定非统一存储器访问（NUMA）调度；以及通过所述多个核中的每一个核运行两个或更多个线程。

本发明的另一方面将提供一种用于地震数据处理的计算加速的系统。该系统包括具有多个核的处理器。根据要处理的数据，定义所述多个核的特定非统一存储器访问（NUMA）调度，以及所述多个核中的每一个核都被配置成运行多个线程中的两个或更多个。

本发明的再一方面将提供一种用于增加地球物理数据计算中的处理速度的计算机实现的方法。该方法包括：把地球物理数据存储在计算机可读存储器中；利用处理器对要处理的地球物理数据应用地球物理处理；根据要由处理器处理的数据，定义处理器中的多个核的特定非统一存储器访问调度；以及通过所述多个核中的每一个核运行两个或更多个线程。

尽管所提供的方法的各个步骤在以上段落中描述为按某种次序发生，但本申请不受其中各个步骤发生的所述次序的限定。事实上，在备选实施例中，各个步骤可以与上述或本文中描述的次序不同的次序执行。

当参考附图考虑以下描述和所附权利要求时，本发明的这些与其它目标、特征和特性，及操作方法与结构和部件组合的相关元件的功能和制造的经济性，都将变得更加显然，其中附图、描述和权利要求都构成本说明书的一部分，其中在各个图中相同的标号都指示对应的部分。在本发明的一种实施例中，在此所说明的结构性部件是缩小了的。但是，应当明确地理解，附图仅仅是为了说明和描述的目的而不是要作为本发明限制的定义。如在说明书和权利要求中所使用的，除非上下文清楚地另外指出，否则单数形式“一”、“一个”和“这个”也包括复数的所指对象。

附图说明

附图中：

图1是根据本发明的一种实施例、用于地震数据处理的计算加速的方法的逻辑流程图；

图2是根据本发明的一种实施例、用于实现地震数据处理的计算加速的方法的处理器的典型体系结构的简化示意图，其中所述处理器具有多个核；

图3是示出根据本发明的一种实施例、对典型数据集计算两维tau-p变换的不同方法之间的运行时间比较的条形图；

图4A是示出根据本发明的一种实施例、在没有加速的情况下典型的三维（3D）炮点聚束法对一个数据集的运行时间分布的条形图；

图4B是示出根据本发明的一种实施例、在有加速的情况下典型的3D炮点聚束法对相同数据集的运行时间分布的条形图；

图5是示出根据本发明的一种实施例、计算两维（2D）有限差分模型的不同方法之间的运行时间比较的条形图；

图6是根据本发明的一种实施例、代表用于实现所述方法的计算机系统的示意图；以及

图7是根据本发明的一种实施例、用于增加地球物理数据计算中的处理速度的计算机实现的方法的逻辑流程图。

具体实施方式

为了加速地震处理和成像应用或者其它数据密集应用，可以实现不同程度的并行化和优化的存储器使用。图1是根据本发明的一种实施例、用于地震数据处理的计算加速的方法的逻辑流程图。该方法包括：在S10，根据要处理的数据（例如，数据的大小、数据的类型等），定义处理器中的多个核的特定非统一存储器访问（NUMA）调度或存储器布置策略。在多核体系结构中，NUMA提供每个核的存储器分配，以防止在若干个核试图寻址同一个存储器时的性能下降。

图2是根据本发明的一种实施例、具有多个核的处理器的典型体系结构的简化示意图。如图2中所示，处理器10可以具有多个核，例如4个核。每个核都具有寄存器。例如，核111具有寄存器REG1111，核212具有寄存器REG2121，核313具有寄存器REG3131，而核414具有寄存器REG2141。每个核都与一个高速缓冲存储器相关联。例如，核111与层一（L1）高速缓冲存储器（1）21相关联，核212与层一（L1）高速缓冲存储器（2）22相关联，核313与层一（L1）高速缓冲存储器（3）23相关联，而核414与层一（L1）高速缓冲存储器（1）24相关联。此外，每个核（核1、核2、核3、核4）都可以访问层2（L2）共享存储器30。尽管共享存储器30在这里被绘制为L2共享存储器，但是就像可以认识到的，共享存储器可以是任何期望的层L2、L3等。

高速缓冲存储器由核用来减少访问主存储器的平均时间。高速缓冲存储器是更快的存储器，它存储来自最频繁使用的主存储器位置的数据的拷贝。当核需要读写主存储器中的一个位置时，核首先检查那个数据的拷贝是否在高速缓冲存储器中。如果数据的拷贝在高速缓冲存储器中，核就对高速缓冲存储器进行读写，这比读写主存储器更快。大部分核都具有至少三个独立的高速缓冲存储器，包括一个加速可执行指令提取的指令高速缓冲存储器、一个加速数据提取和存储的数据高速缓冲存储器和一个用于加速可执行指令与数据的虚拟-物理地址翻译的翻译旁视缓冲区。

例如，在图2所示的例子中，NUMA规定，对于每个核（例如，核1、核2等），特定尺寸的高速缓冲存储器被分配或者提供给每个核，以防止当若干个核试图寻址一个高速缓冲存储器（例如，共享高速缓冲存储器）时那个核的性能下降。此外，启用了NUMA的处理器系统还可以包括附加的硬件或软件，以便在高速缓冲存储器组之间移动数据。例如，在图2所示的实施例中，特定的预定义NUMA可以在高速缓冲存储器（1）21、高速缓冲存储器（2）22、高速缓冲存储器（3）23和高速缓冲存储器（4）24之间移动数据。这种操作的效果是向请求数据的核提供数据进行处理，从而基本上减少或防止由于NUMA造成的核的数据饥饿并由此提供整体速度增加。在NUMA中，专用的硬件可被用于维持被标识为“高速缓存相干NUMA”（ccNUMA）的高速缓存相干性。

如图1中所示，该方法还包括：在S12，利用超线索化启动多个线程，并且通过多个核中的每个核运行一个或多个线程。在一种实施例中，每个核（例如，核1、核2、核3、核4）被分配在该核上运行的两个或更多个线程。在一种实施例中，分配给各个核的高速缓冲存储器可在不同线程之间被连续地访问。当两个逻辑线程在同一个核上运行时，这两个线程共享分配给线程通过其运行的该特定核的高速缓冲存储器。例如，当两个逻辑线程在核111上运行时，这两个逻辑线程共享与核111相关联或者分配给核111的同一个高速缓冲存储器（1）21。在这种情况下，如果有N个核，就有2N个逻辑线程可以通过这N个核运行，每个核能够运行2个线程。例如，如果第一个线程编号为0，则下一个线程编号为1，最后一个线程编号为2N-1，如图1中所示。

在一种实施例中，超线索化是在新一代的高性能计算（HPC）机器中实现的，例如Intel公司的Nehalem（例如，使用核i7系列）和Westmere（例如，使用核i3、i5和i7系列）微体系结构。尽管在这里超线索化处理被描述为在一种类型的CPU系列上实现，但是在此所述的方法不以任何方式限定到这些CPU例子，而是可以在任何类型的CPU体系结构上实现，包括但不限于，由高级微设备（AMD）公司、Motorola公司或者Sun微系统公司等制造的CPU。

因为地球物理数据集包含非常大量的数据点，而且没有足够快的高速缓冲存储器可用于填充数据，所以该方法还包括：在S14，在分配给多个核的高速缓冲存储器间高速缓存分块数据，以便把整个数据集分成小的数据块。在一种实施例中，一个数据块适合在分配给一个核的一个高速缓冲存储器内。例如，在一种实施例中，第一数据块适合高速缓冲存储器（1）21，第二数据块适合高速缓冲存储器（2）22，第三数据块适合高速缓冲存储器（3）23，而第四数据块适合高速缓冲存储器（4）24。在另一种实施例中，一个或多个数据块可以分配给一个核。例如，两个、三个或者更多个数据块可分配给核111。在这种情况下，核111将与两个、三个或更多个高速缓冲存储器而不是一个高速缓冲存储器相关联。在一种实施例中，通过把大的数据阵列再分成更小的数据块或阵列，高速缓存分块重构对大的数据阵列频繁操作。数据阵列内的每个数据点都在一个数据块内提供。

该方法还包括：在S16，把多个数据块加载到多个单指令多数据（SIMD）寄存器中（例如，核111中的REG1111，核212中的REG2121，核313中的REG3131和核414中的REG4141）。每个数据块都加载到一个核的SIMD寄存器中。在SIMD中，在一个操作中，一个操作或指令（例如，加、减等）被应用于每个数据块。在一种实施例中，作为由Intel公司设计的对x86体系结构的一组SIMD指令的流式SIMD扩展（SSE）被应用于数据块，以便运行数据级矢量化计算。不同的线程可以利用OpenMPI或者利用POSIX线程（P线程）来运行。

图7是根据本发明的一种实施例、用于提高地球物理数据计算中的处理速度的计算机实现的方法的逻辑流程图。该方法包括：在S20，读取存储在计算机可读存储器中的地球物理数据。该方法还包括：在S22，对要处理的地球物理数据应用地球物理处理。该方法还包括：在S24，根据要由处理器处理的数据，定义处理器中的多个核的特定非统一存储器访问调度，以及在S26，通过所述多个核中的每一个核运行两个或更多个线程。

利用多核平台的地震数据处理和成像应用提出了许多挑战。第一个挑战可能是时间数据依赖性。事实上，地球物理处理可能包括暂时数据依赖处理。暂时数据依赖处理包括时域tau-p变换处理、时域radon变换、时域数据处理与成像，或者两个或更多个这种处理的任意组合。Tau-p变换是从时间-空间域到波数偏移时域的变换。Tau-p变换可被用于地震数据中的噪声过滤。第二个挑战可能是空间模板或者空间数据依赖计算。事实上，地球物理处理还可包括空间数据依赖处理。空间数据依赖处理包括偏微分方程处理（例如，有限差分建模）、常微分方程（例如，程函求解）、储层数值模拟，或者这些处理中的两个或更多个的任意组合。

在一种实施例中，例如，为了解决第一个挑战并且执行Tau-p计算，生成并重新组织原始输入数据集的若干拷贝。可以组合不同的数据拷贝。为了最小化存储器访问等待时间和丢失数据，该方法包括通过分成多个数据块来高速缓存分块数据。在一种实施例中，为了快速访问，数据被分成数据块并且提取到L1/L2高速缓冲存储器中。然后，数据块经由流水线技术被发送或传输到分配的SIMD寄存器以实现SMID计算并由此加速整体数据处理。

在一种实施例中，为了解决第二个挑战并且执行模板计算，数据被重新组织，以便完全利用存储器分层体系结构。首先，（例如，在三个维度中提供的）整个数据集被分割成更小的数据块。通过分割成更小的数据块（即，通过高速缓存分块），可以防止不同层的高速缓冲存储器（例如，L3高速缓存）容量缺失。

此外，在一种实施例中，每个数据块可被进一步分割成一系列线程块，以便通过单个线程块运行（每个线程块可专用于一个线程）。通过进一步把每个块分割成一系列线程块，每个线程能够完全利用共享高速缓存或本地存储器中的局域性。例如，在以上所讨论的其中两个线程通过一个核（例如，核111）运行的情况下，与这个核（核111）相关联的高速缓冲存储器21可被进一步分割成或者分成两个线程块，其中每个线程块专用于两个线程中的一个。

此外，在另一种实施例中，每个线程块可被分解成寄存器块，并且通过每个核的多个寄存器利用SIMD来处理所述寄存器块。通过把每个线程块分解成寄存器块，可以使用数据级并行化SIMD。对于每个计算步骤（例如，数学运算），输入和输出网格或点每个都单独地作为一个大的阵列来分配。由于NUMA系统考虑“第一触摸”页面映射策略，因此使用初始化数据的并行初始化例程。“第一触摸”页面映射策略的使用使得能够靠近初始化存储器的线程来分配该存储器。换句话说，存储器在靠近包含线程在其上运行的核的节点的节点上被分配。每个数据点都被正确地分配给一个线程块。在一种实施例中，当使用NUMA感知分配时，速度计算性能大致被翻倍。

图3是示出根据本发明的一种实施例、对典型数据集计算两维tau-p变换的不同方法之间的运行时间比较的条形图。纵轴代表以秒为单位的实现两维tau-p变换所用的时间。横坐标轴上报告的是用于实现两维tau-p变换的各种方法。被标记为“常规tau-p（CWP）”的第一个条301指示利用由科罗拉多矿业学院的波现象研究中心（CWP）开发的常规方法来运行两维tau-p变换所用的时间。这种常规的tau-p（CWP）方法在大约9.62秒的时间内执行tau-p计算。被标记为“常规tau-p（Peter）”的第二个条302指示利用来自Chevron公司的常规方法来运行两维tau-p变换所用的时间。这种常规的tau-p（Peter）方法在大约6.15秒的时间内执行tau-p计算。被标记为“利用未对齐的SSE的tau-p”的第三个条303指示利用根据本发明实施例的未对齐流式SIMD扩展（SSE）方法来运行两维tau-p变换所用的时间。未对齐的SSE方法在大约6.07秒的时间内执行tau-p计算。被标记为“利用对齐的SSE和高速缓存优化的tau-p”的第四个条304指示利用根据本发明另一种实施例的对齐的SSE和高速缓存优化方法来运行两维tau-p变换所用的时间。对齐的SSE和高速缓存优化方法在大约1.18秒的时间内执行tau-p计算。被标记为“利用对齐的SSE和高速缓存优化+XMM寄存器流水线”的第五个条305指示利用根据本发明再一种实施例的对齐的SSE和高速缓存优化以及两个XMM寄存器流水线（即，使用SIMD）的方法来运行两维tau-p变换所用的时间。对齐的SSE和高速缓存优化以及两个XMM寄存器的方法在大约0.96秒的时间内执行tau-p计算。如图3中所示，通过使用对齐的SSE和高速缓存优化，tau-p计算的速度从未对齐的SSE方法增加到大约6倍。此外，通过使用对齐的SSE和高速缓存优化以及两个XMM寄存器流水线，计算的速度被进一步提高。事实上，在常规方法与根据本发明实施例的对齐的SSE和高速缓存优化以及两个XMM寄存器的之间，实现了大约为10的加速因子。

图4A是示出在没有加速的情况下，典型3D炮点聚束法对一个数据集的运行时间分布的条形图。聚束法是在地震数据处理中使用的一种常规方法。纵轴代表以秒为单位的实现聚束方法中的各个步骤所用的时间。在横坐标轴上报告的是用于实现两维tau-p变换的各个步骤。图4A示出准备去聚束的运行时间401是大约0.434秒，输入数据的运行时间402是大约305.777秒，执行聚束操作的运行时间403是大约14602.7秒，而输出数据的运行时间404是大约612.287秒。执行聚束方法的总运行时间405是大约243.4分钟。

图4B是示出在有加速的情况下，典型3D炮点聚束法对同一个数据集的运行时间分布的条形图。根据本发明的一种实施例，在这种情况下，相同的聚束方法被用于相同的数据集，但是使用SSE和高速缓存分块而没有2MMX寄存器流水线加速。纵轴代表以秒为单位的实现聚束方法中的各种步骤所用的时间。在横坐标轴上报告的是用于实现两维tau-p变换的各个步骤。图4B示出在这种情况下准备去聚束的运行时间411是大约0.45秒，输入数据的运行时间412是大约162.43秒，执行聚束操作的运行时间413是大约3883秒，而输出数据的运行时间414是大约609.27秒。执行聚束方法的总运行时间415是大约61分钟。因此，通过大约为4（243分钟/61分钟）的比率实现了整体计算的加速。聚束操作的处理速度增加到大约4倍。

图5是示出根据本发明一种实施例、计算两维有限差分建模的不同方法之间的运行时间比较的条形图。纵轴代表以秒为单位的实现两维有限差分计算所用的运行时间。在横坐标轴上报告的是用于实现两维有限差分建模的各种方法。被标记为“单核（OMP-NUM-THREADS=1）”的第一个条501指示利用常规单核处理器来运行两维有限差分计算所用的时间。使用单核和一个线程的常规方法在大约82.102秒的时间内执行有限差分计算。被标记为“仅SSE（OMP-NUM-THREADS=1）”的第二个条502指示利用SSE方法但每个核运行一个线程来运行两维有限差分计算所用的时间。这种方法在28.608秒的时间内执行有限差分计算。被标记为“openMP（OMP-NUM-THREADS=8）”的第三个条503指示根据本发明一种实施例的利用每个核运行8个线程的openMP来运行两维有限差分计算所用的时间。这种方法在大约12.542秒的时间内执行有限差分计算。被标记为“openMP+SSE+ccNUMA+HT（OMP-NUM-THREADS=16）”的第四个条504指示根据本发明另一种实施例的利用openMP连同SSE和ccNUMA以及每个核运行16个线程的超线索化（HT）来运行两维有限差分计算所用的时间。这种方法在大约2.132秒的时间内执行有限差分计算。

如图5中所示，通过使用常规方法（利用一个单核并且每个核运行一个线程），运行时间为大约82秒。利用使用SSE、高速缓存分块、超线索化（HT）和NUMA感知存储器访问的方法，运行时间减少到大约2.132秒。可以获得约为40的加速因子。

在一种实施例中，所述方法是作为可以由计算机中的处理设备执行的一系列指令来实现的。如可以认识到的，术语“计算机”在这里用于包含任何类型的计算系统或设备，包括个人计算机（例如，台式计算机、膝上型计算机或者任何其它手持式计算设备）或者大型计算机（例如，IBM大型机）。

例如，所述方法还可被实现为可以存储在计算机可读介质中的软件程序应用，其中的计算机可读介质例如硬盘、CDROM、光盘、DVD、磁光盘、RAM、EPROM、EEPROM、磁或光卡、闪存卡（例如，USB闪存卡）、PCMCIA存储卡、智能卡或者其它介质。程序应用可被用于编程并控制具有多个核的一个或多个CPU的操作。

可选地，一部分或者整个软件程序产品可以经网络从远程计算机或服务器下载，其中的网络例如是互联网、ATM网络、广域网（WAN）或局域网。

图6是根据本发明一种实施例、代表用于实现所述方法的计算机系统10的示意图。如图6中所示，计算机系统600包括（具有多个核的）处理器610，例如图2中所绘出的处理器，还包括与处理器610通信的存储器620。计算机系统600可以进一步包括用于输入数据的输入设备630（例如键盘、鼠标或另一种处理器）和例如用于显示计算结果的显示设备的输出设备640。

尽管已经为了说明的目的而基于目前被认为最实用并且最优的实施例详细地描述了本发明，但是应当理解，这种细节仅仅是为了那个目的而且本发明不限于所公开的实施例，相反，本发明是要覆盖属于所附权利要求主旨与范围的修改与等效布置。例如，应当理解，本发明预期，就可能的程度，任何实施例的一个或多个特征都可以与任何其它实施例的一个或多个特征组合。

此外，由于许多修改和变化对于本发明技术人员来说都是很容易想到的，因此不期望把本发明限定到在此所述的精确构造与操作。相应地，所有合适的修改与等价物都应当被认为属于本发明的主旨与范围。

Claims

1.一种用于地震数据处理的计算加速的计算机实现的方法，包括：

根据要处理的数据来定义处理器中的多个核的特定非统一存储器访问（NUMA）调度；以及

通过所述多个核中的每个核运行两个或更多个线程。

2.如权利要求1所述的方法，其中，定义特定非统一存储器访问包括：通过向所述多个核中的每个核分配至少一个高速缓冲存储器，向所述多个核分配多个高速缓冲存储器。

3.如权利要求2所述的方法，其中，通过每个核运行的两个或更多个线程共享分配给所述每个核的至少一个高速缓冲存储器。

4.如权利要求2所述的方法，进一步包括：在分配给所述多个核的多个高速缓冲存储器当中，把数据分成数据块。

5.如权利要求4所述的方法，其中，每个数据块适合分配给所述多个核中的每个核的至少一个高速缓冲存储器。

6.如权利要求5所述的方法，进一步包括：把每个数据块加载到在所述多个核中的每个核内提供的多个单指令多数据（SIMD）寄存器中。

7.如权利要求6所述的方法，进一步包括：在一次操作中把单指令多数据（SIMD）指令应用于每个数据块。

8.如权利要求4所述的方法，进一步包括：把每个数据块分割成多个线程块，使得每个线程块专用于一个线程。

9.如权利要求8所述的方法，进一步包括：把每个线程块分解成多个寄存器块，并且通过每个核内的多个寄存器，利用单指令多数据（SIMD）来处理所述寄存器块。

10.一种用于地震数据处理的计算加速的系统，包括：

包括多个核的处理器，其中，根据要处理的数据来定义所述多个核的特定非统一存储器访问（NUMA）调度，并且其中，所述多个核中的每个核都被配置成运行多个线程中的两个或更多个线程。

11.如权利要求10所述的系统，进一步包括分配给所述多个核的多个高速缓冲存储器，其中，至少一个高速缓冲存储器被分配给所述多个核中的每个核。

12.如权利要求11所述的系统，其中，通过每个核运行的两个或更多个线程共享分配给所述每个核的至少一个高速缓冲存储器。

13.一种提高地球物理数据计算中的处理速度的计算机实现的方法，包括：

读取存储在计算机可读存储器中的地球物理数据；

利用处理器对要处理的地球物理数据应用地球物理处理；

根据要由处理器处理的数据来定义处理器中的多个核的特定非统一存储器访问调度；以及

通过所述多个核中的每个核运行两个或更多个线程。

14.如权利要求13所述的方法，其中，所述地球物理处理包括暂时数据依赖处理。

15.如权利要求13所述的方法，其中，所述地球物理处理包括空间数据依赖处理。