CN105045565A - 适合分布式并行计算的PBiCOR方法 - Google Patents

适合分布式并行计算的PBiCOR方法 Download PDF

Info

Publication number
CN105045565A
CN105045565A CN201510411590.1A CN201510411590A CN105045565A CN 105045565 A CN105045565 A CN 105045565A CN 201510411590 A CN201510411590 A CN 201510411590A CN 105045565 A CN105045565 A CN 105045565A
Authority
CN
China
Prior art keywords
processor
time
communication
matrix
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510411590.1A
Other languages
English (en)
Inventor
张理涛
张国辉
周永卫
武大勇
刘敬怀
张炎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University of Aeronautics
Original Assignee
Zhengzhou University of Aeronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University of Aeronautics filed Critical Zhengzhou University of Aeronautics
Priority to CN201510411590.1A priority Critical patent/CN105045565A/zh
Publication of CN105045565A publication Critical patent/CN105045565A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)

Abstract

本发明适合分布式并行计算的PBiCOR方法,有效解决了分布式存储并行机全局通讯互相影响的问题;其方案是,假设并行机具有P台处理机,每台处理机分别具有局部存储模块和相应的处理单元,处理单元之间通过互联网相连;假定采用SPMD模型,即所有的处理单元执行相同的程序,且一个处理单元需要远程处理单元的数据时,必须通过消息传递完成;本发明实现全局通讯次数减少,使得PBiCOR方法的并行通讯性能得到了有效提升,具有更好的并行性和扩展性,提高了通讯性能改进比率,势必为油藏模拟、天气预报、计算流体力学、计算电磁学、天体物理和惯性约束聚变(ICF)二维数值模拟等领域提供了理论基础。

Description

适合分布式并行计算的PBiCOR方法
技术领域
本发明涉及并行机通讯技术领域,特别是适合分布式并行计算的PBiCOR方法。
背景技术
随着大规模并行计算机的发展和应用,复杂物理系统的高分辨率数值模拟已被提上议事日程,并行计算机按存储方式划分,可分为共享内存和分布式内存两种基本的并行计算机存储方式,共享内存的并行计算机,各个处理单元通过对共享内存的访问来交换信息、协调各处理器对并行任务的处理,对这种共享内存的编程,实现起来相对简单,但共享内存往往成为性能特别是扩展性的重要瓶颈,分布式内存的并行计算机,各个处理单元都拥有自己独立的局部存储器,由于不存在公共可用的存储单元,因此各个处理器之间通过消息传递来交换信息、协调和控制各个处理器的执行,不难看出,通讯对分布式内存并行计算机的性能有重要的影响,复杂的消息传递语句的编写成为在分布式并行计算机上进行并行程序设计的难点所在,但是,对于分布式并行计算机,由于它有很好的扩展性和很高的性能,它的应用非常广泛。
对于分布式存储并行机,由于矩阵和向量被分布存储在各处理器上,因此,即使矩阵运算通过并行运算可有效地实现,全局通讯,即内积计算所引起的所有处理器间的通讯,我们仍不能有效避免,Yang等分别提出了并行化的CGS和Bi-CGSTAB方法,Sturler等提出了如何降低GMRES和CG算法中全局通讯影响的方法,Gu和Zuo等分别给出了并行化的BICGSTAB(2)、GPBiCG和IICGS方法,Collignon等给出了并行IDR(s)方法;同时,基于区域分解,Gu,Liu和Mo给出了一种不需整体内积计算的CG类方法,即多搜索方向共轭梯度(MSD-CG)方法,该方法将CG方法中的内积计算用小线性方程组来代替,从而完全消除了全局通讯。
发明内容
针对上述情况,为克服现有技术之缺陷,本发明之目的在于提供适合分布式并行计算的PBiCOR方法,有效解决了分布式存储并行机全局通讯互相影响的问题。
其解决的技术方案是,假设并行机具有P台处理机,每台处理机分别具有局部存储模块和相应的处理单元,处理单元之间通过互联网相连;
假定采用SPMD模型,即所有的处理单元执行相同的程序,且一个处理单元需要远程处理单元的数据时,必须通过消息传递完成;
P为处理器台数,N为稀疏矩阵A的维数,nz为矩阵A每行(列)非零元素的平均个数,tfl为一个浮点操作的时间,ts为一个消息启动时间,tw为一个字在两台处理器间传递所需的时间,一个内积或一个向量校正的计算时间为2tflN/P,其中N/P为分配给每个处理器的未知量个数,(2nz-1)tflN/P为稀疏矩阵向量乘积的计算时间;
具有P台处理器的矩阵(或网状)分布式并行式,并假设通讯是二叉树方式进行的,则一个内积的整体聚集和广播的时间为2logP(ts+tw),而同时聚集和广播K个内积的时间为2logP(ts+ktw),稀疏矩阵已被映射到各处理器,使得矩阵向量乘积只需相邻处理器间的局部通讯,矩阵向量乘积所需的通讯是交换边界数据,即从其他处理器接收边界数据和向其他处理器发送边界数据,假设每个处理器必须接收和发送nm个信息,每个处理器上有nb边界数据单元个数,因此,每个处理器必须进行通讯的总字长为2(2nb+nm);
由于不需通讯,一个向量校正的时间为:
tvec_upd=2tflN/P(2)
只需一次全局通讯的K个内积的时间为:
tinn_prod(k)=2ktflN/P+2logP(ts+ktw)(3)
只需局部通讯的一个矩阵向量乘积的时间为:
tmat_vec=(2nz-1)tflN/P+2nmts+2(2nb+nm)tw(4)
一个矩阵向量乘积的通讯时间为2nmts+2(2nb+nm)tw
本发明实现全局通讯次数减少,使得PBiCOR方法的并行通讯性能得到了有效提升,具有更好的并行性和扩展性,提高了通讯性能改进比率,势必为油藏模拟、天气预报、计算流体力学、计算电磁学、天体物理和惯性约束聚变(ICF)二维数值模拟等领域提供了理论基础。
附图说明
图1为已知文献中的双共轭A-正交的BiCOR方法。
图2为本发明的适合分布式并行计算的PBiCOR方法。
图3为BiCOR方法与PBiCOR方法每次迭代的计算量及所需全局通讯次数的比较情况。
具体实施方式
以下结合附图,对本发明的具体实施方式作进一步详细说明。
现结合图1至图3所示,本发明适合分布式并行计算的PBiCOR方法,假设并行机具有P台处理机,每台处理机分别具有局部存储模块和相应的处理单元,处理单元之间通过互联网相连;
假定采用SPMD模型,即所有的处理单元执行相同的程序,且一个处理单元需要远程处理单元的数据时,必须通过消息传递完成;
P为处理器台数,N为稀疏矩阵A的维数,nz为矩阵A每行(列)非零元素的平均个数,tfl为一个浮点操作的时间,ts为一个消息启动时间,tw为一个字在两台处理器间传递所需的时间,一个内积或一个向量校正的计算时间为2tflN/P,其中N/P为分配给每个处理器的未知量个数,(2nz-1)tflN/P为稀疏矩阵向量乘积的计算时间;
具有P台处理器的矩阵(或网状)分布式并行式,并假设通讯是二叉树方式进行的,则一个内积的整体聚集和广播的时间为2logP(ts+tw),而同时聚集和广播K个内积的时间为2logP(ts+ktw),稀疏矩阵已被映射到各处理器,使得矩阵向量乘积只需相邻处理器间的局部通讯,矩阵向量乘积所需的通讯是交换边界数据,即从其他处理器接收边界数据和向其他处理器发送边界数据,假设每个处理器必须接收和发送nm个信息,每个处理器上有nb边界数据单元个数,因此,每个处理器必须进行通讯的总字长为2(2nb+nm);
由于不需通讯,一个向量校正的时间为:
tvec_upd=2tflN/P(2)
只需一次全局通讯的K个内积的时间为:
tinn_prod(k)=2ktflN/P+2logP(ts+ktw)(3)
只需局部通讯的一个矩阵向量乘积的时间为:
tmat_vec=(2nz-1)tflN/P+2nmts+2(2nb+nm)tw(4)
一个矩阵向量乘积的通讯时间为2nmts+2(2nb+nm)tw
考虑迭代求解大型稀疏复对称线性代数方程组
Ax=b,(1)
其中A∈CN×N,A≠A-T,A=AT,x,b∈CN,记x1和r1=b-Ax1分别为初始猜测和初始残差,在分布式存储并行机上,假设系数矩阵和相应的向量,已经按行(列)被映射到各个处理器上,且负载平衡,由此可知,矩阵向量乘积只需局部通讯,向量内积计算需要全局通讯,而全局通讯是影响Krylov迭代方法并行计算效率的主要瓶颈。
由图1可知,第4)和第8)步骤中需要内积计算,而其他计算步骤又和内积计算密切相关,且从BiCOR算法中可以看出,第4)和第8)步的内积计算具有紧密的数据关联性,因此,BiCOR算法的每一步迭代中就需要两次全局通讯,这对其并行执行效率具有非常严重的影响。
由图2可知,向量内积计算只出现在第3)步,且它们之间没有数据相关性,可同时计算,因此PBiCOR算法的每个迭代只需一次全局通讯,同时,通过比较BiCOR算法和PBiCOR算法可知,PBiCOR算法在保证计算次序不变的同时,矩阵向量乘个数减少一次,内积增加六次,但全局通讯次数已从原来的两次变为一次,计算次序不变,使得PBiCOR算法比BiCOR算法具有相同的数值稳定性,全局通讯次数减少,使得PBiCOR算法的并行通讯性能得到了有效提升。
从PBiCOR算法的推导过程可知,PBiCOR算法和BiCOR算法是数学等价的,且它们的计算次序完全相同,BiCOR算法和PBiCOR算法每次迭代的计算量及所需全局通讯次数的比较情况如图3。
由图3可知,为了消除一次全局通讯,对比BiCOR算法,PBiCOR算法增加了六次内积计算,而矩阵向量乘个数减少一个,由于Krylov子空间方法的计算时间,矩阵向量乘积和内积引起的全局通讯,因此相对于全局通讯时间的减少,增加六个内积计算是微不足道的。
由图3可知,BiCOR算法每次迭代所需的总时间为:
TBiCOR=2tvec_upd+2tinn_prod(1)+4tmat_vec
=(8nz+4)tflN/P+4logP(ts+tw)+8nmts+8(2nb+nm)tw(5)PBiCOR每次迭代所需的总时间为:
TPBiCOR=2tvec_upd+tinn_prod(8)+3tmat_vec
=(6nz+17)tflN/P+2logP(ts+8tw)+6nmts+6(2nb+nm)tw(6)
利用(5)和(6)式对处理器台数P极小化TBiCOR和TPBiCOR,可得求解相同问题规模时,两种方法具有最小并行执行时间的处理器台数P分别为:
P B i C O R = ( 8 n z + 4 ) t f l N l n 2 4 ( t s + t w ) = ( 2 n z + 1 2 ) t f l N l n 2 t s + t w - - - ( 7 )
P P B i C O R = ( 6 n z + 17 ) t f l N l n 2 2 ( t s + 2 t w ) ) = ( 3 n z + 17 2 ) t f l N l n 2 t s + t w - - - ( 8 )
对大规模分布式并行计算机,由于ts□tw,从而(对任意nz>0),此结果表明,当问题规模固定时,PBiCOR方法具有最小并行执行时间时,所启动的处理器台数至少是BiCOR方法的3/2倍,因此,PBiCOR方法与BiCOR方法具有更好的并行可扩展性。
同时,当N固定,处理器台数P充分的大的话,PBiCOR方法相对于BiCOR方法的通讯性能改进比率为:
η = T B i C O R - T P B i C O R T B i C O R ≈ 2 t s P log P - ( 2 n z - 13 ) t f l N 4 t s P log P + ( 8 n z + 4 ) t f l N → 50 % - - - ( 8 )
这说明对比BiCOR方法,PBiCOR方法的通讯性能改进比率趋向50%。
本发明实现全局通讯次数减少,使得PBiCOR方法的并行通讯性能得到了有效提升,具有更好的并行性和扩展性,提高了通讯性能改进比率,势必为油藏模拟、天气预报、计算流体力学、计算电磁学、天体物理和惯性约束聚变(ICF)二维数值模拟等领域提供了理论基础。

Claims (1)

1.适合分布式并行计算的PBiCOR方法,其特征在于,假设并行机具有P台处理机,每台处理机分别具有局部存储模块和相应的处理单元,处理单元之间通过互联网相连;
假定采用SPMD模型,即所有的处理单元执行相同的程序,且一个处理单元需要远程处理单元的数据时,必须通过消息传递完成;
P为处理器台数,N为稀疏矩阵A的维数,nz为矩阵A每行(列)非零元素的平均个数,tfl为一个浮点操作的时间,ts为一个消息启动时间,tw为一个字在两台处理器间传递所需的时间,一个内积或一个向量校正的计算时间为2tflN/P,其中N/P为分配给每个处理器的未知量个数,(2nz-1)tflN/P为稀疏矩阵向量乘积的计算时间;
具有P台处理器的矩阵(或网状)分布式并行式,并假设通讯是二叉树方式进行的,则一个内积的整体聚集和广播的时间为2logP(ts+tw),而同时聚集和广播K个内积的时间为2logP(ts+ktw),稀疏矩阵已被映射到各处理器,使得矩阵向量乘积只需相邻处理器间的局部通讯,矩阵向量乘积所需的通讯是交换边界数据,即从其他处理器接收边界数据和向其他处理器发送边界数据,假设每个处理器必须接收和发送nm个信息,每个处理器上有nb边界数据单元个数,因此,每个处理器必须进行通讯的总字长为2(2nb+nm);
由于不需通讯,一个向量校正的时间为:
tvec_upd=2tflN/P(2)
只需一次全局通讯的K个内积的时间为:
tinn_prod(k)=2ktflN/P+2logP(ts+ktw)(3)
只需局部通讯的一个矩阵向量乘积的时间为:
tmat_vec=(2nz-1)tflN/P+2nmts+2(2nb+nm)tw(4)
一个矩阵向量乘积的通讯时间为2nmts+2(2nb+nm)tw
CN201510411590.1A 2015-07-14 2015-07-14 适合分布式并行计算的PBiCOR方法 Pending CN105045565A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510411590.1A CN105045565A (zh) 2015-07-14 2015-07-14 适合分布式并行计算的PBiCOR方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510411590.1A CN105045565A (zh) 2015-07-14 2015-07-14 适合分布式并行计算的PBiCOR方法

Publications (1)

Publication Number Publication Date
CN105045565A true CN105045565A (zh) 2015-11-11

Family

ID=54452131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510411590.1A Pending CN105045565A (zh) 2015-07-14 2015-07-14 适合分布式并行计算的PBiCOR方法

Country Status (1)

Country Link
CN (1) CN105045565A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108259607A (zh) * 2018-01-19 2018-07-06 郑州航空工业管理学院 面向物联网大数据的处理分析系统
CN115408653A (zh) * 2022-11-01 2022-11-29 泰山学院 一种IDRstab算法高可扩展并行处理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040193841A1 (en) * 2003-03-31 2004-09-30 Fujitsu Limited Matrix processing device in SMP node distributed memory type parallel computer
CN101089840A (zh) * 2007-07-12 2007-12-19 浙江大学 基于多fpga的矩阵乘法并行计算系统
US20090216996A1 (en) * 2008-02-22 2009-08-27 Isis Innovation Limited Parallel Processing
CN104182209A (zh) * 2014-08-27 2014-12-03 中国科学院软件研究所 一种基于PETSc的GCRO-DR算法并行处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040193841A1 (en) * 2003-03-31 2004-09-30 Fujitsu Limited Matrix processing device in SMP node distributed memory type parallel computer
CN101089840A (zh) * 2007-07-12 2007-12-19 浙江大学 基于多fpga的矩阵乘法并行计算系统
US20090216996A1 (en) * 2008-02-22 2009-08-27 Isis Innovation Limited Parallel Processing
CN104182209A (zh) * 2014-08-27 2014-12-03 中国科学院软件研究所 一种基于PETSc的GCRO-DR算法并行处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TONG-XIANG GU等: "An improved bi-conjugate residual algorithm suitable for distributed parallel computing", 《APPLIED MATHEMATICS & COMPUTATION》 *
张理涛等: "一种适合于分布式并行计算改进的平方共轭残差法", 《微电子学与计算机》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108259607A (zh) * 2018-01-19 2018-07-06 郑州航空工业管理学院 面向物联网大数据的处理分析系统
CN108259607B (zh) * 2018-01-19 2019-07-23 郑州航空工业管理学院 面向物联网大数据的处理分析系统
CN115408653A (zh) * 2022-11-01 2022-11-29 泰山学院 一种IDRstab算法高可扩展并行处理方法及系统

Similar Documents

Publication Publication Date Title
Marek et al. The ELPA library: scalable parallel eigenvalue solutions for electronic structure theory and computational science
Simoncini et al. On two numerical methods for the solution of large-scale algebraic Riccati equations
Blackford et al. ScaLAPACK users' guide
CN103617150A (zh) 一种基于gpu的大规模电力系统潮流并行计算系统及其方法
Yamazaki et al. Improving the performance of CA-GMRES on multicores with multiple GPUs
Hapla et al. Use of direct solvers in TFETI massively parallel implementation
Ogita et al. Iterative refinement for symmetric eigenvalue decomposition
CN103106183A (zh) 基于mapreduce的大规模稀疏矩阵乘法运算的方法
Ida Lattice H-matrices on distributed-memory systems
Dang et al. A parallel implementation on GPUs of ADI finite difference methods for parabolic PDEs with applications in finance
Granat et al. Parallel solvers for Sylvester-type matrix equations with applications in condition estimation, Part I: theory and algorithms
CN101980182A (zh) 基于矩阵运算的并行计算方法
Bekas et al. Low‐cost data uncertainty quantification
CN105608059A (zh) 一种基于改进的按位替换法求矩阵三角分解的模块
Magoulès et al. Auto-tuned Krylov methods on cluster of graphics processing unit
CN105045565A (zh) 适合分布式并行计算的PBiCOR方法
Andez et al. A robust and efficient parallel SVD solver based on restarted Lanczos bidiagonalization
Khimich et al. Numerical study of the stability of composite materials on computers of hybrid architecture
Heien et al. Understanding long-term earthquake behavior through simulation
CN101561797A (zh) 在处理系统上对矩阵进行奇异值、特征值分解的方法和装置
CN109408148B (zh) 一种国产化计算平台及其应用加速方法
Chen et al. Parallel integer polynomial multiplication
Heuveline et al. Parallel smoothers for matrix-based geometric multigrid methods on locally refined meshes using multicore CPUs and GPUs
Wyrzykowski et al. Parallel processing and applied mathematics
Du et al. Providing GPU capability to LU and QR within the ScaLAPACK framework

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20180625

Address after: 450015 Middle Road, 27 District University, Zhengzhou, Henan Province, No. 2

Applicant after: Zhengzhou Institute of Aeronautical Industry Management

Applicant after: Zhang Litao

Address before: 450015 Middle Road, 27 District University, Zhengzhou, Henan Province, No. 2

Applicant before: Zhengzhou Institute of Aeronautical Industry Management

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180821

Address after: 450015 Middle Road, 27 District University, Zhengzhou, Henan Province, No. 2

Applicant after: Zhengzhou Institute of Aeronautical Industry Management

Address before: 450015 Middle Road, 27 District University, Zhengzhou, Henan Province, No. 2

Applicant before: Zhengzhou Institute of Aeronautical Industry Management

Applicant before: Zhang Litao

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20151111

RJ01 Rejection of invention patent application after publication