CN116167304A

CN116167304A - 基于神威架构的油藏数值模拟gmres优化方法及系统

Info

Publication number: CN116167304A
Application number: CN202310436896.7A
Authority: CN
Inventors: 杜伟; 田敏; 张赞军; 王英龙; 杨美红; 潘景山
Original assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-05-26
Anticipated expiration: 2043-04-23
Also published as: CN116167304B

Abstract

本发明涉及油藏数值模拟技术领域，本发明公开了基于神威架构的油藏数值模拟GMRES优化方法及系统，包括：将油藏数值模拟压力方程离散后得到的压力线性方程组的求解任务，按系数矩阵的维度划分为若干个计算任务，并将计算任务并行分发至多个主核；每个主核将计算任务中热点函数的数据平均分发至从核，并调用从核进行热点函数计算；主核根据从核回传的计算结果，计算得到压力线性方程组的解。实现了两级并行和负载均衡，极大的缩短了计算时间。

Description

基于神威架构的油藏数值模拟GMRES优化方法及系统

技术领域

本发明涉及油藏数值模拟技术领域，具体的说，是涉及基于神威架构的油藏数值模拟GMRES优化方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

石油开采是重大项目，资金耗费较大，通常用油藏数值模拟来调整油藏模型、分析剩余油分布，且通过模拟油田的开发动态来评估开发方案风险系数。

然而，油藏地质模型的精细化、网格复杂化、井数目的增加、井模型的多样化会导致油藏数值模拟的时间较长，用普通的计算机或工作站进行模拟需要耗费几天甚至几个月时间，或者因为内存不足根本无法模拟，模拟速度成为数值模拟技术广泛应用的瓶颈。

发明内容

本发明为了解决上述问题，本发明提供基于神威架构的油藏数值模拟GMRES优化方法及系统，将油藏数值模拟的压力线性方程组的求解任务按系数矩阵的维度平均划分为多个计算任务，并行分发至多个主核，实现了进程级并行；并调用从核阵列函数，实现众核化；在从核上启动并进行计算，实现负载均衡，极大的缩短了计算时间。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供基于神威架构的油藏数值模拟GMRES优化方法，其包括：

将油藏数值模拟压力方程离散后得到的压力线性方程组的求解任务，按系数矩阵的维度划分为若干个计算任务，并将计算任务并行分发至多个主核；

每个主核将计算任务中热点函数的数据平均分发至从核；

主核调用从核进行热点函数计算，并根据从核回传的计算结果，计算得到压力线性方程组的解。

进一步地，所述从核在计算热点函数过程中，主核处于等待状态。

进一步地，在主核将计算任务中热点函数的数据平均分发至从核之前，进行从核线程初始化。

进一步地，采用直接存储器访问的非阻塞传输方式将数据从主存传输到从核的局存。

进一步地，所述热点函数包括Arnoldi过程和平面旋转变换过程的向量内积运算和2-范数运算。

进一步地，在进行所述向量内积运算时，每个从核把计算结果传输回主核，主核对从核传输回的计算结果，再进行一次累计求和操作。

进一步地，在进行所述2-范数运算时，每个从核把计算结果传输回主核，主核对从核传输回的计算结果，再进行一次累计求和以及开方操作。

进一步地，主核对从核传输回的计算结果进行累计求和时，采用向量化计算。

本发明的第二个方面提供一种基于第一方面所述的生物序列分析系统的生物序列分析系统，其包括：

任务分解模块，其被配置为：将油藏数值模拟压力方程离散后得到的压力线性方程组的求解任务，按系数矩阵的维度划分为若干个计算任务，并将计算任务并行分发至多个主核；

数据分发模块，其被配置为：每个主核将计算任务中热点函数的数据平均分发至从核；

计算模块，其被配置为：主核调用从核进行热点函数计算，并根据从核回传的计算结果，计算得到压力线性方程组的解。

与现有技术相比，本发明的有益效果为：

本发明提供了基于神威架构的油藏数值模拟GMRES优化方法，其将油藏数值模拟的压力线性方程组的求解任务按维度平均划分为多个计算任务，并行分发至多个主核，实现了进程级并行；并调用从核阵列函数，在从核上启动并进行计算，尽量做到负载均衡，实现众核化。

本发明提供的基于神威架构的油藏数值模拟GMRES优化方法，其数据传输使用DMA操作，结合批量回传、计算和通信叠加，提高访存效率，极大的缩短计算时间。

本发明提供的基于神威架构的油藏数值模拟GMRES优化方法，其将并行求解进行向量化计算，降低了对指令访问带宽的要求，提高了计算效率。

本发明提供的基于神威架构的油藏数值模拟GMRES优化方法，其热点函数加速比达到18.89，求解阶段加速比达到3.3，提高了油藏数值模拟的压力求解速度。

附图说明

构成本发明的一部分说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的限定。

图1是本发明实施例一的基于神威架构的油藏数值模拟GMRES优化方法的流程图；

图2是本发明实施例一的主从加速并行示意图；

图3是本发明实施例一的优化前后时间对比图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

术语解释：

GMRES（Generalized Minimal Residual，广义极小残量法）：求解稀疏线性方程组的常用方法，其通过克雷洛夫（Krylov）子空间中得到的使残量最小的向量来趋近方程的解。GMRES主要包括设置初值、阿诺尔迪（Arnoldi）过程、构造吉文斯变换(Givenstransformation，亦称，平面旋转变换)等过程。当线性方程组的矩阵规模高达百万维甚至千万维以上，随着迭代步数的增加，GMRES算法所需的计算量和存储量也会大幅度提高，工作站和小规模单集群处理器性能无法满足大规模计算对于计算速度、精确度的要求，求解工作难以进行，借助超级计算机设计大规模并行求解算法是解决此问题的一种有效方法。但目前没有基于神威架构对GMRES算法的相关优化研究，这使得GMRES算法在神威架构上难以发挥其收敛速度快、稳定性强的等优势特点。

Arnoldi过程：利用格拉姆—施密特(Gram-Schmidt)正交化方法来构造Krylov子空间的一组标准正交基。

神威新一代超级计算机系统：系统由高速计算系统、辅助计算系统、高速计算互连网络、辅助计算互连网络、高速计算存储系统、辅助计算存储系统和相应的软件系统等组成。神威新一代高性能异构众核处理器采用主从异构结构，由通用计算主核和精简的计算从核组成，具有超高的定点和浮点峰值性能。每个处理器集成6个核组，每个核组包括1个主核和1个从核阵列，1个从核阵列包含64个从核。从核以8×8阵列方式排布的从核阵列为基本单位进行管理，从核之间以及从核与外部的交互通过阵列内网络进行互连。每个从核具有一块高速的本地局部数据存储空间（局存（Local Data Momery，LDM）），总容量为256KB。

crts_dma_iget接口：神威新一代超级计算机的一个函数接口，是从核发起从主存到本地局存（LDM）的DMA数据传输。

crts_dma_iput接口：神威新一代超级计算机的一个函数接口，是从核发起从本地局存（LDM）到主存的DMA数据传输。

MPI：消息传递接口（Massage Passing Interface，MPI），基于信息传递的并行编程技术，MPI是一种编程接口标准。

Athread：神威计算机系统加速线程库，是针对两级并行编程模型（主从加速编程模型）所设计的程序加速库，其目的是为了用户能够方便、快捷地对核组内的线程进行灵活的控制和调度，从而更好地发挥核组内多从核并发执行的加速性能。

RMA：远程存储访问（Remote Memory Access，RMA），即众核处理器核组内的从核局部存储空间之间进行的远程数据传输操作。

实施例一

为了使油藏数值模拟的效率更高，本实施例提供了基于神威架构的油藏数值模拟GMRES优化方法，将神威超级计算机、油藏数值模拟和GMRES算法三者结合起来，利用超级计算机和并行优化技术提高油藏数值模拟效率。

本实施例提供的基于神威架构的油藏数值模拟GMRES优化方法，针对神威新一代超级计算机体系结构的特征以及GMRES算法优化的需要，提供了高效的并行实现方式，可以解决大规模线性方程组快速求解的问题，对油藏模拟有一定的指导意义。

本实施例提供的基于神威架构的油藏数值模拟GMRES优化方法，基于SW26010Pro处理器实现，采用主从加速并行的编程模式，消息传递接口（MPI）和神威计算机系统加速线程库（Athread）两层加速计算，主核完成应用程序的通信、I/O和部分计算，从核负责热点函数的计算，从核在计算热点函数过程中，主核处于等待状态，直到从核完成该热点函数的计算任务。

本实施例提供的基于神威架构的油藏数值模拟GMRES优化方法，如图1所示，包括如下步骤：

步骤1、设定最大重启步数、初始解X₀、精度要求和最大迭代次数IterMax。

步骤2、划分任务，即划分油藏数值模拟压力方程离散后得到的压力线性方程组的求解任务（计算任务），并行分发至多个主核，主核获取计算任务。

油藏数值模拟的压力方程为如下形式：

其中，

是参考压力下的孔隙度，C _t为总压缩系数，t是时间，P为压力，k为岩石的渗透率，λ _rw和λ _ro分别是水相和油相的流度，γ _w和γ _o分别是水相和油相的相对密度，P _c是毛管压力，D是深度，q _w和q _o分别为水和油的源汇流量，div是散度，▽是梯度。

压力方程经过离散之后，变成压力线性方程组，将压力线性方程组的求解任务，按系数矩阵维度平均划分为多个计算任务，并行分发至多个主核；如果不能完全均分，则由最后一个主核承担剩余的计算任务。

若使用的主核个数为p个，系数矩阵A的维数是N，则第i个计算任务对应的子矩阵A_i或子向量b_i的维度nrow _i为：

根据划分的计算任务，进行热点函数分析，得到Arnoldi过程和Givens变换过程的向量内积运算和2-范数运算调用次数较多且耗时较长，即，热点函数包括Arnoldi过程和Givens变换过程的向量内积运算和2-范数运算。

需要说明的是，假设整个求解任务为AX=b，其中，A为系数矩阵，b为右端项；划分成多个计算任务后，每个计算任务就变成了A_iX_i=b_i，A_i是第i个计算任务对应的子矩阵，b_i是第i个计算任务对应的右端项（子向量）。

步骤3、众核化热点函数，即依次众核化Arnoldi过程和Givens变换过程的向量内积运算和2-范数运算，包括：主核初始化从核，主核将数据分发并传输至从核，主核调用从核进行热点函数计算、并获取从核回传的计算结果。

需要注意的是，在Givens变换过程中会用到Arnoldi过程的计算结果。

步骤301、主核初始化从核。

主核负责初始化从核，获取从核的环境参数，便于分配调度核组中各个从核。

一个计算周期中，从核线程的初始化所需时间甚至高于从核计算时间，尽可能避免每次调用从核计算函数都要进行从核线程初始化，因此，本实施例中每个热点函数的从核初始化仅进行一次，能够大幅度提高从核的计算效率。

步骤302、主核将数据分发并传输至从核（即数据分发和分配LDM）。

如图2所示，采用主从加速并行方法，为了确保主核与从核间尽可能少的通讯且从核之间尽量做到负载均衡，每个主核将计算任务中热点函数对应的数据平均分发给64个从核（一个主核对应一个8×8从核阵列），采用直接存储器访问（Direct Memory Access，DMA）的非阻塞传输方式将数据从主存传输到从核的局存LDM，这样每个主核是将连续的内存分给了相应的从核，可以节省跨步寻址的时间。

如果数据不能均分给64个从核，则由0号从核负责剩余的数据。

每个从核都有自己单独的计算任务，不需要考虑从核间的运行依赖性，从而提高计算效率。

步骤303、主核调用从核进行热点函数计算、并获取从核回传的计算结果。

如图2所示，主核调用从核阵列函数，从核阵列函数在从核上启动并进行热点函数计算，计算完成后，将计算结果返回主核，局存LDM释放，转为空闲状态；主核根据从核回传的计算结果，计算得到热点函数最终计算结果。

假设每个主核分得两个k维向量a和b，每个核组内的每个从核需分配t=k/64个数字空间大小的向量lda和ldb，如果k不能整除64，由0号从核负责剩余的数据；每个从核定义一个变量tmp来存储lda与ldb乘积的累加和；利用crts_dma_iget接口，主核将向量a和b的t个数据传输到从核，每个从核得到一个向量lda和一个向量ldb；每个从核计算lda与ldb的乘积，累加求和得到tmp。

因为向量内积运算涉及求和操作，如果从核之间相互进行RMA通信，不利于提高整个算法的效率，因此，在进行向量内积运算时，每个从核利用crts_dma_iput接口把tmp传输回主核，主核对从核传输回的计算结果，再进行一次累计求和操作。

其中，主核对从核传输回的计算结果进行累计求和时，采用向量化计算，提升指令级并行的能力。由于SW26010 Pro众核处理器主核支持的SIMD（单指令多数据流，SingleInstruction Multiple Data）处理长度为256位，从核支持的SIMD处理长度为512位。一个循环处理一个数组的时候，每次处理1个数据，共处理N次；通过向量化计算，处理一个数组的时候，每次同时处理8个数据，共处理N/8次。

2-范数运算与向量内积运算相似，不同的是，只有一个向量，先进行向量的平方和，后开方的运算。

假设每个主核分得u维向量c，每个核组内的每个从核需分配v=u/64个数字空间大小的向量ldc，如果u不能整除64，由0号从核负责剩余的数据；每个从核定义一个变量tmpv来存储ldc平方的累加和；利用crts_dma_iget接口，主核将向量c的v个数据传输到从核，每个从核得到一个向量ldc；每个从核计算ldc的平方，累加求和得到tmpv。

因为2-范数运算涉及求和之后再开方的操作，如果从核之间相互进行RMA通信，不利于提高整个算法的效率，因此，在进行2-范数运算时，每个从核利用crts_dma_iput接口把tmpv传输回主核，主核对从核传输回的计算结果，进行一次累计求和再开方的操作。

步骤4、判断是否达到最大重启步数，如果达到，主核计算相对残差量以及进行最小二乘问题的求解，然后结合初始解进行回代求解，得到压力线性方程组的解（即油藏数值模拟的压力），并进入步骤5；如果没有达到，重启计数加1，并返回到步骤3，进行下一次的循环，直到满足条件。

步骤5、判断达到最大重启步数时相对残差量是否满足精度要求，如果满足要求，就输出压力线性方程组的解；如果不满足，判断迭代次数是否达到最大迭代次数IterMax，如果没有，就将压力线性方程组的解作为初始解，迭代次数加1，并返回步骤3，进行下一次的迭代，直到满足条件。

在实验中，测试环境选取神威新一代超级计算机原型机；测试模型为：油藏数值模拟的压力线性方程组求解，设定重启步数为60，初始解是0，精度是10^-5，最大迭代次数IterMax是2000，压力线性方程组的系数矩阵维数为1568220；测试核心为4个核组，包括4个主核、256个从核。

如图3所示，是使用4个核组，压力线性方程组系数矩阵维度为1568220下，纯主核运行时间和众核优化加速后时间的对比，包括热点函数优化前后、整个求解时间优化前后的对比，可以看出，热点优化前后可达到18.89倍的加速，求解时间优化前后可达到3.3倍的加速，表明本实施例发挥了超算强大的计算能力，提高了油藏数值模拟压力求解的速度。

本实施例提供的基于神威架构的油藏数值模拟GMRES优化方法，将油藏数值模拟压力线性方程组的求解任务平均划分为多个计算任务，并行分发至多个主核，实现进程级并行；数据传输采用DMA操作，结合批量回传、计算和通信叠加，提高访存效率，极大的缩短计算时间；将并行求解进行SIMD向量化，降低了对指令访问带宽的要求，提高了计算效率；调用从核阵列函数，实现众核化，在从核上启动并进行计算，尽量做到负载均衡。

实施例二

本实施例二的目的是提供基于神威架构的油藏数值模拟GMRES优化系统，

此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于神威架构的油藏数值模拟GMRES优化方法，其特征在于，包括：

每个主核将计算任务中热点函数的数据平均分发至从核；

2.如权利要求1所述的基于神威架构的油藏数值模拟GMRES优化方法，其特征在于，所述从核在计算热点函数过程中，主核处于等待状态。

3.如权利要求1所述的基于神威架构的油藏数值模拟GMRES优化方法，其特征在于，在主核将计算任务中热点函数的数据平均分发至从核之前，进行从核线程初始化。

4.如权利要求1所述的基于神威架构的油藏数值模拟GMRES优化方法，其特征在于，采用直接存储器访问的非阻塞传输方式将数据从主存传输到从核的局存。

5.如权利要求1所述的基于神威架构的油藏数值模拟GMRES优化方法，其特征在于，所述热点函数包括Arnoldi过程和平面旋转变换过程的向量内积运算和2-范数运算。

6.如权利要求5所述的基于神威架构的油藏数值模拟GMRES优化方法，其特征在于，在进行所述向量内积运算时，每个从核把计算结果传输回主核，主核对从核传输回的计算结果，再进行一次累计求和操作；

或者，在进行所述2-范数运算时，每个从核把计算结果传输回主核，主核对从核传输回的计算结果，再进行一次累计求和以及开方的操作。

7.如权利要求6所述的基于神威架构的油藏数值模拟GMRES优化方法，其特征在于，主核对从核传输回的计算结果进行累计求和时，采用向量化计算。

8.基于神威架构的油藏数值模拟GMRES优化系统，其特征在于，包括：