CN104182209B - 一种基于PETSc的GCRO‑DR算法并行处理方法 - Google Patents

一种基于PETSc的GCRO‑DR算法并行处理方法 Download PDF

Info

Publication number
CN104182209B
CN104182209B CN201410427589.3A CN201410427589A CN104182209B CN 104182209 B CN104182209 B CN 104182209B CN 201410427589 A CN201410427589 A CN 201410427589A CN 104182209 B CN104182209 B CN 104182209B
Authority
CN
China
Prior art keywords
petsc
vector
parallel
matrix
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410427589.3A
Other languages
English (en)
Other versions
CN104182209A (zh
Inventor
刘芳芳
杨超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN201410427589.3A priority Critical patent/CN104182209B/zh
Publication of CN104182209A publication Critical patent/CN104182209A/zh
Application granted granted Critical
Publication of CN104182209B publication Critical patent/CN104182209B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开一种基于PETSc的GCRO‑DR算法并行处理方法,(1)并行进行m步Arnoldi迭代,生成子空间Vm+1和hessenberg矩阵(2)串行求解最小二乘问题特征值问题和Reduced QR分解;(3)开始进行迭代,并行进行m‑k步Arnoldi过程;(4)并行求解(5)串行求解最小二乘问题和Reduced QR分解;(6)进行下一个迭代步,直至收敛;(7)当求解第二个及以后的系统时,先并行更新回收矩阵Ck和Uk,然后开始迭代,直至收敛。本发明提出的并行实现方法通过调用PETSc库能实现多个节点协同计算,进而可以提高GCRO‑DR算法的整体性能。

Description

一种基于PETSc的GCRO-DR算法并行处理方法
技术领域
本发明涉及一种基于PETSc(Portable,Extensible,Toolkit for ScientificComputation)的GCRO-DR(Generalized Conjugate Residual with Orthogonalizationwith Deflated Restarting)算法的并行处理方法,属于计算机技术领域。
背景技术
Krylov子空间迭代法是求解稀疏方程组比较流行的一类方法,于1951年由俄国人Nikolai Krylov提出,该类方法具有占用内存小,实用性强的特点,广泛应用在气象、湍流模拟、天体物理、油藏模拟等科学计算和实际应用中。Krylov子空间迭代法很多,如求解对称正定方程组的CG(Conjugate Gradient),求解非对称方程组的GMRES(GeneralizedMinimum RESidual),GCR(Generalized Conjugate Residual)等,这些方法一直是国际上研究的热点,为了改善收敛性,新的演进算法不断被提出,GCRO-DR就是其中的一个,它是2006年由Michael L.Parks提出的。该算法是GMRES的演进版GMRES-DR和GCR的演进版GCROT组合得到的,其不仅能改善求解单个方程组的收敛性,更能改善求解由若干个相似方程组组成的线性系统的整体收敛性。
由于实际应用中计算问题规模很大,计算时间很长,单单使用串行的算法很难满足应用需求,为了能够在高性能计算机系统上应用Krylov子空间的这些算法,国内外有学者已经进行了很多研究。在1995年,法国科学家JOCELYNE ERHEL就提出了GMRES算法的分布式并行版本,Maria Sosonkina等人分析了GMRES并行实现的可扩展性,Maria Sosonkina等人提出了GPU上该方法的并行方案,2010年,D′esir′e NUENTSA WAKAM_等人基于PETSc软件包提出了截断GMRES方法的并行实现。PETSc软件包也实现了GMRES各种版本的并行,包括FGMRES、AGMRES、DGMRES等,在实际应用中被广泛使用。2008年,E.ULLMANN研究了GCRO-DR算法,并将其应用到二阶椭圆随机偏微分方程中,2007年,CHAO JIN等人将该算法运用到随机椭圆方程中,2013年,CUI CONG等人将该算法运用到随机椭圆型方程中。从这些工作中可以看出,GCRO-DR算法收敛性更好,但是串行算法计算很慢,很难满足实际应用的需求,本发明即是为了解决该算法求解速度较慢的问题,提出了一种并行处理方法,使用户能够快速使用该算法求解实际应用问题。
发明内容
本发明技术解决问题:克服现有技术花费时间较长的不足,提出一种基于PETSc的GCRO-DR算法并行处理方法可快速求解实际应用中产生的稀疏线性系统,大幅降低求解时间。
本发明主要针对该算法中几个核心部分包括总体并行方案、数据结构定义、Reduced QR分解、正交化过程、特征值及特征向量的计算、最小二乘问题的计算提出实现方案。通过这几部分的并行实现,可以组成整个GCRO-DR基于PETSc的并行实现,从而可以通过PETSc库来进行调用,方便科学计算领域用户的使用。
本发明的技术方案为,基于PETSc的GCRO-DR算法并行处理方法,包括如下步骤:
(1)总体并行方案
a)迭代所需的矩阵和向量分布在各个处理器上,每个处理器拥有一部分;
b)求解第一个稀疏线性系统时,先并行进行Arnoldi迭代,该迭代过程主要进行的是向量矩阵操作,调用PETSc相应函数即可实现;迭代过程中产生的hessenberg矩阵每个处理器各存储一份,并分别计算特征值和特征向量,然后分别形成Reduced QR分解所需的矩阵,每个处理器通过调用LAPACK函数dlarfg和dlarf分别进行QR分解,但是在分解过程中不显示存储Q,直接形成回收矩阵Ck。后续迭代过程中,采用类似的方案进行处理。在求解第二个及后续的系统时,先并行求解回收矩阵C和U,再进行和第一个系统类似的迭代过程,总体并行方案见图1。
(2)数据结构
整个系统使用的回收空间向量由用户采用全局向量的方式申请,确保每个子系统都可以得到该向量。其余工作向量统一申请地址空间,通过指针访问。稀疏矩阵和向量均采用分布式存储,每个子进程只拥有向量或者矩阵的一部分。但是为了避免通信,算法所需的特征值、特征向量以及QR分解产生的Q、R矩阵都在本地生成、本地存储。
(3)当回收空间向量存在时Reduced QR分解的计算
QR分解可以用多种方法进行计算包括Householder、分块Householder、Givens和快速Givens、Gram-Schmidt正交化方法和修正Gram-Schmidt方法,采用的是修正Gram-Schmidt方法,该方法很容易使用PETSc工具箱进行并行实现,因为该算法中全是向量之间的操作,包括向量2范数、向量点积、向量更新,直接调用PETSc相应的子函数VecNorm、VecDot、VecAXPY即可实现。
(4)的计算
采用线性算子(其中I是单位矩阵,Ck是回收矩阵,A是问题对应的稀疏矩阵)进行Arnoldi过程时,需要进行(x是迭代解)的计算,为了减少矩阵之间的操作,优化性能,对上述公式进行适当改写:
先计算p=Ax,然后再计算 的计算采用PETSc函数VecMDot即可完成,Ckq的计算采用PETSc函数VecMAXPY完成。
(5)的计算
根据GCRO-DR算法的定义,(其中Vm-k+1是Arnoldi过程形成的Krylov子空间,Ck是回收空间),且的列是正交的,又v1=r/||r||2(其中r是每步迭代的初始残量)是Vm-k+1的第一个向量,所以
即求解Gmy≈ek+1||r||2,因为
即可得到
Dkyk+Bkym-k=0
先计算ym-k,再计算yk。Dk的元素为Uk中每列元素的2-范数的倒数,以保证
即将Bkym-k的每个元素除以Dk中相应值,也即乘以Uk中每列元素的2-范数。
(6)关于残量的计算
||b-Axm||2即等于的2范数,在上述(5)计算过程中即可得到。
本发明的有益效果:
(1)本发明基于PETSc实现了GCRO-DR算法的节点间并行。目前国内,尚没有对该算法的并行处理方法,为了使国内用户能有效使用该算法来求解实际问题,通过选用合理的数据结构,对算法进行深度剖析,合理设计所有模块的并行处理方法,充分考虑计算和通信开销的平衡等,最终形成了该算法的并行处理方法。基于本发明,用户可快速求解实际应用问题,大幅缩减了问题求解时间,选用了天体大规模数值模拟软件包例子在深腾7000高性能计算机系统上进行了实验,结果表明,采用512个进程时,求解时间从串行实现的354.7s降到了6.4s,加速比达到了55倍。
(2)本发明还修改了PETSc软件包中相应接口函数。基于本发明,用户可以直接调用该函数,具体调用方法与PETSc其它解法器相同。既可通过命令行-ksp_type gcrodr指定,也可通过程序中
ierr=KSPSetType(ksp,KSPGCRODR)
调用上述函数实现。另外该算法有两个必选参数,一个是restart步数,指定经过多少步迭代后重启;另一个是recylen大小,指定需要回收的krylov子空间的大小。restart步数可通过命令行-ksp_gcrodr_restart指定,recylen可通过命令行-ksp_gcrodr_recylen指定。这样用户就可以通过PETSc软件包来使用该算法,并且与PETSc中现有算法使用方法完全一致,可大大方便用户的使用。
附图说明
图1是GCRO-DR并行处理方法示意图;
图2是测试用例性能结果示意图。
具体实施方式
如图1所示,本发明具体实现如下:
1.求解第一个系统,假设restart步数为m,recylen步数为k,先并行进行m步Arnoldi迭代,生成子空间Vm+1和hessenberg矩阵先用残量r计算第一个子空间向量v1,然后调用PETSc函数KSP_PCApplyBAorAB并行计算w=Av1,然后对w进行正交化,该步主要操作是向量点积、向量更新、向量范数,可分别调用PETSc函数VecDot、VecAXPY、VecNorm来并行计算,然后继续生成下一个子空间向量,直至Vm+1全部生成,hessenberg矩阵由向量点积结果生成。
2.求解最小二乘问题(其中c=||r0||2e1,r0是初始残量,e1是单位向量,y是最小二乘解),首先将hessenberg矩阵转换成上三角矩阵,然后求解一个m维的上三角方程组。这两步均可以通过调用底层库多核并行。由于该步的计算量比较小,我们在每个处理器分别进行求解,最后每个处理器都存储了一份y,这样可以通过较小的计算开销来代替较大的通信开销。
3.利用上一步求解得到的y,通过PETSc函数VecMAXPY来并行计算x=x+Vmy,并利用公式计算残量r的值。
4.利用国际开源线性代数软件包LAPACK中函数dgeev,求解的特征值和特征向量,其中公式左边的矩阵求逆操作采用LAPACK函数dgetri进行计算。dgeev函数可以求解出所有的特征值和特征向量,对特征值进行排序并选出相应于最小的recylen个特征值的特征向量形成Pk,该步在每个处理器上分别进行求解,最后每个处理器均存储一份Pk
5.利用步骤4得到的Pk,采用PETSc函数多向量更新VecMAXPY计算回收矩阵在每个处理器上利用国际开源稠密矩阵计算软件包BLAS函数dgemm计算此时,每个处理器可分别计算Reduced QR分解,并更新回收矩阵Ck和Uk,其中Reduced QR分解采用Householder变换方法进行计算,该方法数值稳定性较好,但不会显式生成Q矩阵,在计算过程中可通过调用LAPACK函数dlarf完成Ck的更新。如果只由1个处理器计算ReducedQR分解,则需要该处理器把得到的Q,R分发给其他处理器,这样就会有较大的通信开销,本发明以较小的计算开销代替了较大的通信开销,从而可以提高整体的性能;
6.此时,可以开始进行迭代,当时残量的2范数小于设定好的阀值时,一直进行迭代。每次先进行m-k步Arnoldi过程,生成子空间以及具体过程同步骤1,唯一的区别是线性算子由A变成了生成Bk时,可重复利用Arnoldi过程中稀疏矩阵向量乘的结果,这样可以减少整个算法稀疏矩阵向量乘次数,进而优化性能。
7.这两个矩阵均是由现有矩阵组合而成,通过VecCopy、VecScale、VecNorm等函数,可以很容易得到。
8.采用技术方案中第4条,求解的解,即先按照步骤2中类似的方式求解ym-k,然后采用公式计算yk,并组成整体的y,并采用技术方案第5条,通过得到的残量2范数来验证收敛条件,该步在每个处理器分别进行。
9.采用与第5步类似的方式进行Reduced QR分解,并更新Ck和Uk,然后进行下一个restart步,直到收敛,唯一不同的是,该步计算的是广义特征值和特征向量,才有LAPACK函数dggev来进行计算。
10.当求解第二个及以后的系统时,先进行Ck和Uk的更新,这也需要做Reduced QR分解,由于Householder变换方法不显式生成Q矩阵,而此时Ck=Q,为了计算Ck,需要额外进行大量的计算,为了优化性能,直接生成Q、R矩阵,采用的是修正的Gram-Schmidt算法进行实现,由各个处理器协同计算,具体见技术方案里第3条,然后进行上述6-9步,直至收敛。
当这若干个稀疏线性系统求解结束后,实际应用中的问题即得到解决。本发明阐述了一种求解该稀疏线性系统算法GCRO-DR的并行处理方法,对GCRO-DR算法中的每个技术细节均提出了相应的解决方案。采用该方法,稀疏线性系统在高性能计算机上可快速得到求解,进而减少了实际问题的求解时间。
利用以上介绍的方法,采用深腾7000高性能计算机系统和天体大规模数值模拟软件包中的测试代码进行验证。
测试平台信息如下:采用深腾7000刀片节点,每个刀片配置两颗四核Xeon处理器E5450,主频3.00GHz,32GB内存;采用OpenMPI库;gcc 4.1.2进行编译。
天体大规模数值模拟软件包是基于PETSc软件包自主研发的,主要模拟旋转行星内部球壳中流体的热对流情况。该软件包先求解速度方程,再求解压力方程,完成一个时间步迭代。其中压力方程的求解难度较大,需要的迭代步比较多。通过压力方程的求解来进行GCRO-DR算法的验证。分别采用1,8,64,128,256,512个进程对本发明实现的并行GCRO-DR算法进行了验证,restart步选为30步,recylen大小选为10,时间步运行了5步。
图2中展示了测试结果,横轴是进程数,对1、8、64、128、256、512进程分别进行了测试,并记录了每个时间步压力方程的计算时间,将5个时间步的计算时间求和,1进程的加速比记为1,图中展示了8、64、128、256、512相对于1进程的加速比,最终512个进程达到了55倍加速,这说明本发明的并行处理方法可大幅降低计算时间,从1进程的354.7s降低到了512进程的6.4s,进而可快速求解实际应用问题。
本发明一种基于PETSc的GCRO-DR算法并行实现方法。基于PETSc-3.4.2软件包,设计了GCRO-DR算法的一整套并行方案,包括算法中数据结构设计、Reduced QR分解的实现方案、最小平方问题的实现方案、残量求解方案等,并基于PETSc3.4.2库加以实现。本发明还采用行星流体动力学问题进行了验证。在深腾7000上最高测试到512进程,相比串行实现,该问题运行时间大幅减少,最高加速比达到了55倍。

Claims (6)

1.一种基于PETSc(Portable,Extensible,Toolkit for Scientific Computation)的GCRO-DR(Generalized Conjugate Residual with Orthogonalization with DeflatedRestarting)算法并行处理方法,所述方法主要用于并行求解稀疏线性系统,其特征在于包括如下步骤:
(1)求解第一个稀疏线性系统时,重启(restart)步数为m,回收步数(recylen)为k,先并行进行m步Arnoldi迭代,生成子空间Vm+1和hessenberg矩阵H m
(2)通过将hessenberg矩阵转换成上三角矩阵来求解最小二乘问题min||c-H my||2的解,其中min表示求解最小值,y为最小二乘解,c为初始残量的2范数与单位向量e1的乘积,该步骤在每个处理器分别进行求解,最后每个处理器都存储了一份y;
(3)利用步骤(2)求解得到的y,并行计算线性系统的解x,并利用公式r=Vm+1(c-H my)计算残量r的值,其中r为残量;
(4)利用国际开源线性代数软件包LAPACK中函数dgeev,求解的特征值和特征向量,并利用回收步数(recylen)k个相应于最小特征值的特征向量形成Pk,该步在每个处理器上分别进行求解,最后每个处理器均存储一份Pk
(5)利用步骤(4)得到的Pk,采用PETSc函数VecMAXPY计算回收矩阵利用国际开源稠密矩阵计算软件包BLAS函数dgemm计算H mPk;此时,每个处理器可分别计算Reduced QR分解,并更新回收矩阵Ck和Uk
(6)开始进行迭代,当时残量的2范数小于设定好的阀值时,一直进行迭代,每次先进行m-k步Arnoldi过程,生成子空间Vm-k+1,H m-k,以及生成Bk时,可重复利用Arnoldi过程中稀疏矩阵向量乘的结果,这样减少整个算法稀疏矩阵向量乘次数,进而优化性能;
(7)通过PETSc函数向量拷贝VecCopy、向量扩展VecScale、向量范数VecNorm得到
(8)求解的解时,其中min表示求解最小值,W和G是子空间矩阵,r是残量,y是最小二乘解,先按照步骤(2)中类似的方式求解ym-k,然后采用公式计算yk,并组成整体的y,通过上述过程中得到的残量2范数来验证收敛条件;该步骤在每个处理器分别进行;
(9)当求解第二个及以后的稀疏线性系统时,先采用修正的Gram-Schmidt算法由各个处理器协同计算Reduced QR分解,然后进行Ck和Uk的更新,然后进行上述(6)-(9)步,直至收敛。
2.根据权利要求1所述的基于PETSc的GCRO-DR算法并行处理方法,其特征在于:步骤(1)中m步Arnoldi过程中核心操作是稀疏矩阵向量乘和向量范数,由于稀疏矩阵和向量初始时采用分布式存储方式进行存储,所有参与计算的处理器均拥有矩阵和向量的一部分,通过调用PETSc软件包可以使所有处理器上的矩阵和向量同时进行分布式并行计算,进而提高运算效率。
3.根据权利要求1所述的基于PETSc的GCRO-DR算法并行处理方法,其特征在于:步骤(2)和步骤(8)中通过每个处理器分别计算最小二乘问题来替代处理器间的通信,且该最小二乘问题可通过调用底层库多核并行,这样可以通过较小的计算开销来替换较大的通信开销。
4.根据权利要求1所述的基于PETSc的GCRO-DR算法并行处理方法,其特征在于:步骤(4)中每个处理器分别计算特征值问题,以较小的计算开销来替换较大的通信开销。
5.根据权利要求1所述的基于PETSc的GCRO-DR算法并行处理方法,其特征在于:步骤(5)和步骤(9)的Reduced QR分解采用的算法为Householder变换方法,该Householder变换方法的操作由每个处理器分别进行计算。
6.根据权利要求1所述的基于PETSc的GCRO-DR算法并行处理方法,其特征在于:步骤(9)中Ck和Uk的更新前,也需要做Reduced QR分解,此时采用的是修正的Gram-Schmidt算法进行实现,由各个处理器协同计算。
CN201410427589.3A 2014-08-27 2014-08-27 一种基于PETSc的GCRO‑DR算法并行处理方法 Active CN104182209B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410427589.3A CN104182209B (zh) 2014-08-27 2014-08-27 一种基于PETSc的GCRO‑DR算法并行处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410427589.3A CN104182209B (zh) 2014-08-27 2014-08-27 一种基于PETSc的GCRO‑DR算法并行处理方法

Publications (2)

Publication Number Publication Date
CN104182209A CN104182209A (zh) 2014-12-03
CN104182209B true CN104182209B (zh) 2017-06-16

Family

ID=51963290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410427589.3A Active CN104182209B (zh) 2014-08-27 2014-08-27 一种基于PETSc的GCRO‑DR算法并行处理方法

Country Status (1)

Country Link
CN (1) CN104182209B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105071849B (zh) * 2015-06-03 2017-12-29 华中科技大学 一种实现TD‑LTE‑Advanced中多流波束赋形的方法
CN104899823B (zh) * 2015-07-03 2017-10-03 鲁东大学 基于Hessenberg分解的双彩色图像盲水印方法
CN105045565A (zh) * 2015-07-14 2015-11-11 郑州航空工业管理学院 适合分布式并行计算的PBiCOR方法
CN105045768A (zh) * 2015-09-01 2015-11-11 浪潮(北京)电子信息产业有限公司 一种实现gmres算法的方法和系统
CN109558888A (zh) * 2017-09-27 2019-04-02 武汉嫦娥信息科技有限公司 一种高光谱遥感图像分类的并行化加速算法
CN109525288A (zh) * 2018-11-28 2019-03-26 广州市高峰科技有限公司 用于无线通信去相关运算的并行处理架构
CN109743090A (zh) * 2018-12-10 2019-05-10 深圳市海派通讯科技有限公司 一种非码本线性预编码的快速算法
CN112837205B (zh) * 2021-03-05 2022-07-26 中国科学院计算机网络信息中心 一种图形处理器上基于延迟修正的批量矩阵求逆方法
CN113191105A (zh) * 2021-03-22 2021-07-30 梁文毅 一种基于分布式并行运算方法的电气仿真方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999316A (zh) * 2012-11-16 2013-03-27 清华大学 正交追踪算法在gpu上的并行实现方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050071405A1 (en) * 2003-09-29 2005-03-31 International Business Machines Corporation Method and structure for producing high performance linear algebra routines using level 3 prefetching for kernel routines

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999316A (zh) * 2012-11-16 2013-03-27 清华大学 正交追踪算法在gpu上的并行实现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Performance of parallel sparse matrix-vector multiplications in linear solves on multiple GPUs;Ben Jamroz;《Application Accelerators in High Performance Computing》;20121231;1-4 *
采用PETSc的有限元并行计算实现与优化;张健飞;《计算机工程与应用》;20101231;1-3 *

Also Published As

Publication number Publication date
CN104182209A (zh) 2014-12-03

Similar Documents

Publication Publication Date Title
CN104182209B (zh) 一种基于PETSc的GCRO‑DR算法并行处理方法
Yi et al. Improved gradient-based neural networks for online solution of Lyapunov matrix equation
CN103617150A (zh) 一种基于gpu的大规模电力系统潮流并行计算系统及其方法
Yamazaki et al. Improving the performance of CA-GMRES on multicores with multiple GPUs
Krasnopolsky The reordered BiCGStab method for distributed memory computer systems
CN116258042B (zh) 一种基于ddm的大规模传热异构并行仿真方法
Zhang et al. Eigenanalysis-based task mapping on parallel computers with cellular networks
Halilu et al. Enhanced matrix-free method via double step length approach for solving systems of nonlinear equations
Vaughn et al. A GPU-accelerated barycentric Lagrange treecode
CN102682184B (zh) 随机分布三维裂隙网络中裂隙对相交判断方法
Belavin et al. Correlation functions with fusion-channel multiplicity in $${\mathcal {W}} _3 $$ Toda field theory
Ju et al. Numerical investigation of ensemble methods with block iterative solvers for evolution problems
Kwedlo A parallel EM algorithm for Gaussian mixture models implemented on a NUMA system using OpenMP
CN107273333A (zh) 基于gpu+cpu异构平台的三维大地电磁反演并行方法
CN111339688B (zh) 基于大数据并行算法求解火箭仿真模型时域方程的方法
Chien et al. sputniPIC: an implicit particle-in-cell code for multi-GPU systems
Qiu et al. Parallelizing and balancing coupled DSMC/PIC for large-scale particle simulations
Li et al. Multiple linear system techniques for 3D finite element method modeling of direct current resistivity
Fu et al. The ACA–BEM approach with a binary-key mosaic partitioning for modelling multiple bubble dynamics
Oancea et al. Developing a high performance software library with MPI and CUDA for matrix computations
Garcia et al. GPU-accelerated Poincaré map method for harmonic-oriented analyses of power systems
Meng et al. A Flexible Global GCRO-DR Method for Shifted Linear Systems and General Coupled Matrix Equations
Bergamaschi et al. Spectral acceleration of parallel iterative eigensolvers for large scale scientific computing
Fan et al. Parallel computing study for the large-scale generalized eigenvalue problems in modal analysis
Yamazaki et al. Access-averse framework for computing low-rank matrix approximations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant