CN104182209B

CN104182209B - 一种基于PETSc的GCRO‑DR算法并行处理方法

Info

Publication number: CN104182209B
Application number: CN201410427589.3A
Authority: CN
Inventors: 刘芳芳; 杨超
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2014-08-27
Filing date: 2014-08-27
Publication date: 2017-06-16
Anticipated expiration: 2034-08-27
Also published as: CN104182209A

Abstract

本发明公开一种基于PETSc的GCRO‑DR算法并行处理方法，(1)并行进行m步Arnoldi迭代，生成子空间V_m+1和hessenberg矩阵(2)串行求解最小二乘问题特征值问题和Reduced QR分解；(3)开始进行迭代，并行进行m‑k步Arnoldi过程；(4)并行求解(5)串行求解最小二乘问题和Reduced QR分解；(6)进行下一个迭代步，直至收敛；(7)当求解第二个及以后的系统时，先并行更新回收矩阵C_k和U_k，然后开始迭代，直至收敛。本发明提出的并行实现方法通过调用PETSc库能实现多个节点协同计算，进而可以提高GCRO‑DR算法的整体性能。

Description

一种基于PETSc的GCRO-DR算法并行处理方法

技术领域

本发明涉及一种基于PETSc(Portable,Extensible,Toolkit for ScientificComputation)的GCRO-DR(Generalized Conjugate Residual with Orthogonalizationwith Deflated Restarting)算法的并行处理方法，属于计算机技术领域。

背景技术

Krylov子空间迭代法是求解稀疏方程组比较流行的一类方法，于1951年由俄国人Nikolai Krylov提出，该类方法具有占用内存小，实用性强的特点，广泛应用在气象、湍流模拟、天体物理、油藏模拟等科学计算和实际应用中。Krylov子空间迭代法很多，如求解对称正定方程组的CG(Conjugate Gradient)，求解非对称方程组的GMRES(GeneralizedMinimum RESidual)，GCR(Generalized Conjugate Residual)等，这些方法一直是国际上研究的热点，为了改善收敛性，新的演进算法不断被提出，GCRO-DR就是其中的一个,它是2006年由Michael L.Parks提出的。该算法是GMRES的演进版GMRES-DR和GCR的演进版GCROT组合得到的，其不仅能改善求解单个方程组的收敛性，更能改善求解由若干个相似方程组组成的线性系统的整体收敛性。

由于实际应用中计算问题规模很大,计算时间很长,单单使用串行的算法很难满足应用需求,为了能够在高性能计算机系统上应用Krylov子空间的这些算法，国内外有学者已经进行了很多研究。在1995年，法国科学家JOCELYNE ERHEL就提出了GMRES算法的分布式并行版本，Maria Sosonkina等人分析了GMRES并行实现的可扩展性，Maria Sosonkina等人提出了GPU上该方法的并行方案，2010年，D′esir′e NUENTSA WAKAM_等人基于PETSc软件包提出了截断GMRES方法的并行实现。PETSc软件包也实现了GMRES各种版本的并行，包括FGMRES、AGMRES、DGMRES等，在实际应用中被广泛使用。2008年，E.ULLMANN研究了GCRO-DR算法，并将其应用到二阶椭圆随机偏微分方程中，2007年，CHAO JIN等人将该算法运用到随机椭圆方程中，2013年，CUI CONG等人将该算法运用到随机椭圆型方程中。从这些工作中可以看出，GCRO-DR算法收敛性更好，但是串行算法计算很慢，很难满足实际应用的需求，本发明即是为了解决该算法求解速度较慢的问题，提出了一种并行处理方法，使用户能够快速使用该算法求解实际应用问题。

发明内容

本发明技术解决问题：克服现有技术花费时间较长的不足，提出一种基于PETSc的GCRO-DR算法并行处理方法可快速求解实际应用中产生的稀疏线性系统，大幅降低求解时间。

本发明主要针对该算法中几个核心部分包括总体并行方案、数据结构定义、Reduced QR分解、正交化过程、特征值及特征向量的计算、最小二乘问题的计算提出实现方案。通过这几部分的并行实现，可以组成整个GCRO-DR基于PETSc的并行实现，从而可以通过PETSc库来进行调用，方便科学计算领域用户的使用。

本发明的技术方案为，基于PETSc的GCRO-DR算法并行处理方法，包括如下步骤：

(1)总体并行方案

a)迭代所需的矩阵和向量分布在各个处理器上，每个处理器拥有一部分；

b)求解第一个稀疏线性系统时，先并行进行Arnoldi迭代，该迭代过程主要进行的是向量矩阵操作，调用PETSc相应函数即可实现；迭代过程中产生的hessenberg矩阵每个处理器各存储一份，并分别计算特征值和特征向量，然后分别形成Reduced QR分解所需的矩阵，每个处理器通过调用LAPACK函数dlarfg和dlarf分别进行QR分解，但是在分解过程中不显示存储Q，直接形成回收矩阵C_k。后续迭代过程中，采用类似的方案进行处理。在求解第二个及后续的系统时，先并行求解回收矩阵C和U，再进行和第一个系统类似的迭代过程，总体并行方案见图1。

(2)数据结构

整个系统使用的回收空间向量由用户采用全局向量的方式申请，确保每个子系统都可以得到该向量。其余工作向量统一申请地址空间，通过指针访问。稀疏矩阵和向量均采用分布式存储，每个子进程只拥有向量或者矩阵的一部分。但是为了避免通信，算法所需的特征值、特征向量以及QR分解产生的Q、R矩阵都在本地生成、本地存储。

(3)当回收空间向量存在时Reduced QR分解的计算

QR分解可以用多种方法进行计算包括Householder、分块Householder、Givens和快速Givens、Gram-Schmidt正交化方法和修正Gram-Schmidt方法，采用的是修正Gram-Schmidt方法，该方法很容易使用PETSc工具箱进行并行实现，因为该算法中全是向量之间的操作，包括向量2范数、向量点积、向量更新，直接调用PETSc相应的子函数VecNorm、VecDot、VecAXPY即可实现。

(4)的计算

采用线性算子(其中I是单位矩阵，C_k是回收矩阵，A是问题对应的稀疏矩阵)进行Arnoldi过程时，需要进行(x是迭代解)的计算，为了减少矩阵之间的操作，优化性能，对上述公式进行适当改写：

先计算p＝Ax，然后再计算的计算采用PETSc函数VecMDot即可完成，C_kq的计算采用PETSc函数VecMAXPY完成。

(5)的计算

根据GCRO-DR算法的定义，(其中V_m-k+1是Arnoldi过程形成的Krylov子空间，C_k是回收空间)，且的列是正交的，又v₁＝r/||r||₂(其中r是每步迭代的初始残量)是V_m-k+1的第一个向量，所以

即求解G_my≈e_k+1||r||₂，因为

即可得到

D_ky_k+B_ky_m-k＝0

先计算y_m-k，再计算y_k。D_k的元素为U_k中每列元素的2-范数的倒数，以保证而

即将B_ky_m-k的每个元素除以D_k中相应值，也即乘以U_k中每列元素的2-范数。

(6)关于残量的计算

||b-Ax_m||₂即等于的2范数，在上述(5)计算过程中即可得到。

本发明的有益效果：

(1)本发明基于PETSc实现了GCRO-DR算法的节点间并行。目前国内，尚没有对该算法的并行处理方法，为了使国内用户能有效使用该算法来求解实际问题，通过选用合理的数据结构，对算法进行深度剖析，合理设计所有模块的并行处理方法，充分考虑计算和通信开销的平衡等，最终形成了该算法的并行处理方法。基于本发明，用户可快速求解实际应用问题，大幅缩减了问题求解时间，选用了天体大规模数值模拟软件包例子在深腾7000高性能计算机系统上进行了实验，结果表明，采用512个进程时，求解时间从串行实现的354.7s降到了6.4s，加速比达到了55倍。

(2)本发明还修改了PETSc软件包中相应接口函数。基于本发明，用户可以直接调用该函数，具体调用方法与PETSc其它解法器相同。既可通过命令行-ksp_type gcrodr指定，也可通过程序中

ierr＝KSPSetType(ksp,KSPGCRODR)

调用上述函数实现。另外该算法有两个必选参数，一个是restart步数，指定经过多少步迭代后重启；另一个是recylen大小，指定需要回收的krylov子空间的大小。restart步数可通过命令行-ksp_gcrodr_restart指定，recylen可通过命令行-ksp_gcrodr_recylen指定。这样用户就可以通过PETSc软件包来使用该算法，并且与PETSc中现有算法使用方法完全一致，可大大方便用户的使用。

附图说明

图1是GCRO-DR并行处理方法示意图；

图2是测试用例性能结果示意图。

具体实施方式

如图1所示，本发明具体实现如下：

1.求解第一个系统，假设restart步数为m，recylen步数为k，先并行进行m步Arnoldi迭代，生成子空间V_m+1和hessenberg矩阵先用残量r计算第一个子空间向量v1，然后调用PETSc函数KSP_PCApplyBAorAB并行计算w＝Av₁，然后对w进行正交化，该步主要操作是向量点积、向量更新、向量范数，可分别调用PETSc函数VecDot、VecAXPY、VecNorm来并行计算，然后继续生成下一个子空间向量，直至V_m+1全部生成，hessenberg矩阵由向量点积结果生成。

2.求解最小二乘问题(其中c＝||r₀||₂e₁，r₀是初始残量，e₁是单位向量，y是最小二乘解)，首先将hessenberg矩阵转换成上三角矩阵，然后求解一个m维的上三角方程组。这两步均可以通过调用底层库多核并行。由于该步的计算量比较小，我们在每个处理器分别进行求解，最后每个处理器都存储了一份y，这样可以通过较小的计算开销来代替较大的通信开销。

3.利用上一步求解得到的y，通过PETSc函数VecMAXPY来并行计算x＝x+V_my，并利用公式计算残量r的值。

4.利用国际开源线性代数软件包LAPACK中函数dgeev，求解的特征值和特征向量，其中公式左边的矩阵求逆操作采用LAPACK函数dgetri进行计算。dgeev函数可以求解出所有的特征值和特征向量，对特征值进行排序并选出相应于最小的recylen个特征值的特征向量形成P_k，该步在每个处理器上分别进行求解，最后每个处理器均存储一份P_k；

5.利用步骤4得到的P_k，采用PETSc函数多向量更新VecMAXPY计算回收矩阵在每个处理器上利用国际开源稠密矩阵计算软件包BLAS函数dgemm计算此时，每个处理器可分别计算Reduced QR分解，并更新回收矩阵C_k和U_k，其中Reduced QR分解采用Householder变换方法进行计算，该方法数值稳定性较好，但不会显式生成Q矩阵，在计算过程中可通过调用LAPACK函数dlarf完成C_k的更新。如果只由1个处理器计算ReducedQR分解，则需要该处理器把得到的Q,R分发给其他处理器，这样就会有较大的通信开销，本发明以较小的计算开销代替了较大的通信开销，从而可以提高整体的性能；

6.此时，可以开始进行迭代，当时残量的2范数小于设定好的阀值时，一直进行迭代。每次先进行m-k步Arnoldi过程，生成子空间以及具体过程同步骤1，唯一的区别是线性算子由A变成了生成B_k时，可重复利用Arnoldi过程中稀疏矩阵向量乘的结果，这样可以减少整个算法稀疏矩阵向量乘次数，进而优化性能。

7.这两个矩阵均是由现有矩阵组合而成，通过VecCopy、VecScale、VecNorm等函数，可以很容易得到。

8.采用技术方案中第4条，求解的解，即先按照步骤2中类似的方式求解y_m-k,然后采用公式计算y_k，并组成整体的y，并采用技术方案第5条，通过得到的残量2范数来验证收敛条件，该步在每个处理器分别进行。

9.采用与第5步类似的方式进行Reduced QR分解，并更新C_k和U_k，然后进行下一个restart步，直到收敛，唯一不同的是，该步计算的是广义特征值和特征向量，才有LAPACK函数dggev来进行计算。

10.当求解第二个及以后的系统时，先进行C_k和U_k的更新，这也需要做Reduced QR分解，由于Householder变换方法不显式生成Q矩阵，而此时C_k＝Q，为了计算C_k，需要额外进行大量的计算，为了优化性能，直接生成Q、R矩阵，采用的是修正的Gram-Schmidt算法进行实现，由各个处理器协同计算，具体见技术方案里第3条，然后进行上述6-9步，直至收敛。

当这若干个稀疏线性系统求解结束后，实际应用中的问题即得到解决。本发明阐述了一种求解该稀疏线性系统算法GCRO-DR的并行处理方法，对GCRO-DR算法中的每个技术细节均提出了相应的解决方案。采用该方法，稀疏线性系统在高性能计算机上可快速得到求解，进而减少了实际问题的求解时间。

利用以上介绍的方法，采用深腾7000高性能计算机系统和天体大规模数值模拟软件包中的测试代码进行验证。

测试平台信息如下：采用深腾7000刀片节点，每个刀片配置两颗四核Xeon处理器E5450，主频3.00GHz，32GB内存；采用OpenMPI库；gcc 4.1.2进行编译。

天体大规模数值模拟软件包是基于PETSc软件包自主研发的，主要模拟旋转行星内部球壳中流体的热对流情况。该软件包先求解速度方程，再求解压力方程，完成一个时间步迭代。其中压力方程的求解难度较大，需要的迭代步比较多。通过压力方程的求解来进行GCRO-DR算法的验证。分别采用1,8,64,128,256,512个进程对本发明实现的并行GCRO-DR算法进行了验证，restart步选为30步，recylen大小选为10，时间步运行了5步。

图2中展示了测试结果，横轴是进程数，对1、8、64、128、256、512进程分别进行了测试，并记录了每个时间步压力方程的计算时间，将5个时间步的计算时间求和，1进程的加速比记为1，图中展示了8、64、128、256、512相对于1进程的加速比，最终512个进程达到了55倍加速，这说明本发明的并行处理方法可大幅降低计算时间，从1进程的354.7s降低到了512进程的6.4s，进而可快速求解实际应用问题。

本发明一种基于PETSc的GCRO-DR算法并行实现方法。基于PETSc-3.4.2软件包，设计了GCRO-DR算法的一整套并行方案，包括算法中数据结构设计、Reduced QR分解的实现方案、最小平方问题的实现方案、残量求解方案等，并基于PETSc3.4.2库加以实现。本发明还采用行星流体动力学问题进行了验证。在深腾7000上最高测试到512进程，相比串行实现，该问题运行时间大幅减少，最高加速比达到了55倍。

Claims

1.一种基于PETSc(Portable,Extensible,Toolkit for Scientific Computation)的GCRO-DR(Generalized Conjugate Residual with Orthogonalization with DeflatedRestarting)算法并行处理方法，所述方法主要用于并行求解稀疏线性系统，其特征在于包括如下步骤：

(1)求解第一个稀疏线性系统时，重启(restart)步数为m，回收步数(recylen)为k，先并行进行m步Arnoldi迭代，生成子空间V_m+1和hessenberg矩阵H _m；

(2)通过将hessenberg矩阵转换成上三角矩阵来求解最小二乘问题min||c-H _my||₂的解，其中min表示求解最小值，y为最小二乘解，c为初始残量的2范数与单位向量e₁的乘积，该步骤在每个处理器分别进行求解，最后每个处理器都存储了一份y；

(3)利用步骤(2)求解得到的y，并行计算线性系统的解x，并利用公式r＝V_m+1(c-H _my)计算残量r的值，其中r为残量；

(4)利用国际开源线性代数软件包LAPACK中函数dgeev，求解的特征值和特征向量，并利用回收步数(recylen)k个相应于最小特征值的特征向量形成P_k，该步在每个处理器上分别进行求解，最后每个处理器均存储一份P_k；

(5)利用步骤(4)得到的P_k，采用PETSc函数VecMAXPY计算回收矩阵利用国际开源稠密矩阵计算软件包BLAS函数dgemm计算H _mP_k；此时，每个处理器可分别计算Reduced QR分解，并更新回收矩阵C_k和U_k；

(6)开始进行迭代，当时残量的2范数小于设定好的阀值时，一直进行迭代，每次先进行m-k步Arnoldi过程，生成子空间V_m-k+1,H _m-k,以及生成B_k时，可重复利用Arnoldi过程中稀疏矩阵向量乘的结果，这样减少整个算法稀疏矩阵向量乘次数，进而优化性能；

(7)通过PETSc函数向量拷贝VecCopy、向量扩展VecScale、向量范数VecNorm得到

(8)求解的解时，其中min表示求解最小值，W和G是子空间矩阵，r是残量，y是最小二乘解，先按照步骤(2)中类似的方式求解y_m-k,然后采用公式计算y_k，并组成整体的y，通过上述过程中得到的残量2范数来验证收敛条件；该步骤在每个处理器分别进行；

(9)当求解第二个及以后的稀疏线性系统时，先采用修正的Gram-Schmidt算法由各个处理器协同计算Reduced QR分解，然后进行C_k和U_k的更新，然后进行上述(6)-(9)步，直至收敛。

2.根据权利要求1所述的基于PETSc的GCRO-DR算法并行处理方法，其特征在于：步骤(1)中m步Arnoldi过程中核心操作是稀疏矩阵向量乘和向量范数，由于稀疏矩阵和向量初始时采用分布式存储方式进行存储，所有参与计算的处理器均拥有矩阵和向量的一部分，通过调用PETSc软件包可以使所有处理器上的矩阵和向量同时进行分布式并行计算，进而提高运算效率。

3.根据权利要求1所述的基于PETSc的GCRO-DR算法并行处理方法，其特征在于：步骤(2)和步骤(8)中通过每个处理器分别计算最小二乘问题来替代处理器间的通信，且该最小二乘问题可通过调用底层库多核并行，这样可以通过较小的计算开销来替换较大的通信开销。

4.根据权利要求1所述的基于PETSc的GCRO-DR算法并行处理方法，其特征在于:步骤(4)中每个处理器分别计算特征值问题，以较小的计算开销来替换较大的通信开销。

5.根据权利要求1所述的基于PETSc的GCRO-DR算法并行处理方法，其特征在于:步骤(5)和步骤(9)的Reduced QR分解采用的算法为Householder变换方法，该Householder变换方法的操作由每个处理器分别进行计算。

6.根据权利要求1所述的基于PETSc的GCRO-DR算法并行处理方法，其特征在于:步骤(9)中C_k和U_k的更新前，也需要做Reduced QR分解，此时采用的是修正的Gram-Schmidt算法进行实现，由各个处理器协同计算。