CN105045565A

CN105045565A - 适合分布式并行计算的PBiCOR方法

Info

Publication number: CN105045565A
Application number: CN201510411590.1A
Authority: CN
Inventors: 张理涛; 张国辉; 周永卫; 武大勇; 刘敬怀; 张炎
Original assignee: Zhengzhou University of Aeronautics
Current assignee: Zhengzhou University of Aeronautics
Priority date: 2015-07-14
Filing date: 2015-07-14
Publication date: 2015-11-11

Abstract

本发明适合分布式并行计算的PBiCOR方法，有效解决了分布式存储并行机全局通讯互相影响的问题；其方案是，假设并行机具有P台处理机，每台处理机分别具有局部存储模块和相应的处理单元，处理单元之间通过互联网相连；假定采用SPMD模型，即所有的处理单元执行相同的程序，且一个处理单元需要远程处理单元的数据时，必须通过消息传递完成；本发明实现全局通讯次数减少，使得PBiCOR方法的并行通讯性能得到了有效提升，具有更好的并行性和扩展性，提高了通讯性能改进比率，势必为油藏模拟、天气预报、计算流体力学、计算电磁学、天体物理和惯性约束聚变（ICF）二维数值模拟等领域提供了理论基础。

Description

适合分布式并行计算的PBiCOR方法

技术领域

本发明涉及并行机通讯技术领域，特别是适合分布式并行计算的PBiCOR方法。

背景技术

随着大规模并行计算机的发展和应用，复杂物理系统的高分辨率数值模拟已被提上议事日程，并行计算机按存储方式划分，可分为共享内存和分布式内存两种基本的并行计算机存储方式，共享内存的并行计算机，各个处理单元通过对共享内存的访问来交换信息、协调各处理器对并行任务的处理，对这种共享内存的编程，实现起来相对简单，但共享内存往往成为性能特别是扩展性的重要瓶颈，分布式内存的并行计算机，各个处理单元都拥有自己独立的局部存储器，由于不存在公共可用的存储单元，因此各个处理器之间通过消息传递来交换信息、协调和控制各个处理器的执行，不难看出，通讯对分布式内存并行计算机的性能有重要的影响，复杂的消息传递语句的编写成为在分布式并行计算机上进行并行程序设计的难点所在，但是，对于分布式并行计算机，由于它有很好的扩展性和很高的性能，它的应用非常广泛。

对于分布式存储并行机，由于矩阵和向量被分布存储在各处理器上，因此，即使矩阵运算通过并行运算可有效地实现，全局通讯，即内积计算所引起的所有处理器间的通讯，我们仍不能有效避免，Yang等分别提出了并行化的CGS和Bi-CGSTAB方法，Sturler等提出了如何降低GMRES和CG算法中全局通讯影响的方法，Gu和Zuo等分别给出了并行化的BICGSTAB(2)、GPBiCG和IICGS方法，Collignon等给出了并行IDR(s)方法；同时，基于区域分解，Gu，Liu和Mo给出了一种不需整体内积计算的CG类方法，即多搜索方向共轭梯度(MSD-CG)方法，该方法将CG方法中的内积计算用小线性方程组来代替，从而完全消除了全局通讯。

发明内容

针对上述情况，为克服现有技术之缺陷，本发明之目的在于提供适合分布式并行计算的PBiCOR方法，有效解决了分布式存储并行机全局通讯互相影响的问题。

其解决的技术方案是，假设并行机具有P台处理机，每台处理机分别具有局部存储模块和相应的处理单元，处理单元之间通过互联网相连；

假定采用SPMD模型，即所有的处理单元执行相同的程序，且一个处理单元需要远程处理单元的数据时，必须通过消息传递完成；

P为处理器台数，N为稀疏矩阵A的维数，n_z为矩阵A每行(列)非零元素的平均个数，t_fl为一个浮点操作的时间，t_s为一个消息启动时间，t_w为一个字在两台处理器间传递所需的时间，一个内积或一个向量校正的计算时间为2t_flN/P，其中N/P为分配给每个处理器的未知量个数，(2n_z-1)t_flN/P为稀疏矩阵向量乘积的计算时间；

具有P台处理器的矩阵(或网状)分布式并行式，并假设通讯是二叉树方式进行的，则一个内积的整体聚集和广播的时间为2logP(t_s+t_w)，而同时聚集和广播K个内积的时间为2logP(t_s+kt_w)，稀疏矩阵已被映射到各处理器，使得矩阵向量乘积只需相邻处理器间的局部通讯，矩阵向量乘积所需的通讯是交换边界数据，即从其他处理器接收边界数据和向其他处理器发送边界数据，假设每个处理器必须接收和发送n_m个信息，每个处理器上有n_b边界数据单元个数，因此，每个处理器必须进行通讯的总字长为2(2n_b+n_m)；

由于不需通讯，一个向量校正的时间为：

t_{vec_upd}＝2t_flN/P(2)

只需一次全局通讯的K个内积的时间为：

t_{inn_prod}(k)＝2kt_flN/P+2logP(t_s+kt_w)(3)

只需局部通讯的一个矩阵向量乘积的时间为：

t_{mat_vec}＝(2n_z-1)t_flN/P+2n_mt_s+2(2n_b+n_m)t_w(4)

一个矩阵向量乘积的通讯时间为2n_mt_s+2(2n_b+n_m)t_w。

本发明实现全局通讯次数减少，使得PBiCOR方法的并行通讯性能得到了有效提升，具有更好的并行性和扩展性，提高了通讯性能改进比率，势必为油藏模拟、天气预报、计算流体力学、计算电磁学、天体物理和惯性约束聚变(ICF)二维数值模拟等领域提供了理论基础。

附图说明

图1为已知文献中的双共轭A-正交的BiCOR方法。

图2为本发明的适合分布式并行计算的PBiCOR方法。

图3为BiCOR方法与PBiCOR方法每次迭代的计算量及所需全局通讯次数的比较情况。

具体实施方式

以下结合附图，对本发明的具体实施方式作进一步详细说明。

现结合图1至图3所示，本发明适合分布式并行计算的PBiCOR方法，假设并行机具有P台处理机，每台处理机分别具有局部存储模块和相应的处理单元，处理单元之间通过互联网相连；

由于不需通讯，一个向量校正的时间为：

t_{vec_upd}＝2t_flN/P(2)

只需一次全局通讯的K个内积的时间为：

t_{inn_prod}(k)＝2kt_flN/P+2logP(t_s+kt_w)(3)

只需局部通讯的一个矩阵向量乘积的时间为：

t_{mat_vec}＝(2n_z-1)t_flN/P+2n_mt_s+2(2n_b+n_m)t_w(4)

一个矩阵向量乘积的通讯时间为2n_mt_s+2(2n_b+n_m)t_w。

考虑迭代求解大型稀疏复对称线性代数方程组

Ax＝b,(1)

其中A∈C^N×N，A≠A^-T,A＝A^T，x,b∈C^N，记x₁和r₁＝b-Ax₁分别为初始猜测和初始残差，在分布式存储并行机上，假设系数矩阵和相应的向量，已经按行(列)被映射到各个处理器上，且负载平衡，由此可知，矩阵向量乘积只需局部通讯，向量内积计算需要全局通讯，而全局通讯是影响Krylov迭代方法并行计算效率的主要瓶颈。

由图1可知，第4)和第8)步骤中需要内积计算，而其他计算步骤又和内积计算密切相关，且从BiCOR算法中可以看出，第4)和第8)步的内积计算具有紧密的数据关联性，因此，BiCOR算法的每一步迭代中就需要两次全局通讯，这对其并行执行效率具有非常严重的影响。

由图2可知，向量内积计算只出现在第3)步，且它们之间没有数据相关性，可同时计算，因此PBiCOR算法的每个迭代只需一次全局通讯，同时，通过比较BiCOR算法和PBiCOR算法可知，PBiCOR算法在保证计算次序不变的同时，矩阵向量乘个数减少一次，内积增加六次，但全局通讯次数已从原来的两次变为一次，计算次序不变，使得PBiCOR算法比BiCOR算法具有相同的数值稳定性，全局通讯次数减少，使得PBiCOR算法的并行通讯性能得到了有效提升。

从PBiCOR算法的推导过程可知，PBiCOR算法和BiCOR算法是数学等价的，且它们的计算次序完全相同，BiCOR算法和PBiCOR算法每次迭代的计算量及所需全局通讯次数的比较情况如图3。

由图3可知，为了消除一次全局通讯，对比BiCOR算法，PBiCOR算法增加了六次内积计算，而矩阵向量乘个数减少一个，由于Krylov子空间方法的计算时间，矩阵向量乘积和内积引起的全局通讯，因此相对于全局通讯时间的减少，增加六个内积计算是微不足道的。

由图3可知，BiCOR算法每次迭代所需的总时间为：

T_BiCOR＝2t_{vec_upd}+2t_{inn_prod}(1)+4t_{mat_vec}

＝(8n_z+4)t_flN/P+4logP(t_s+t_w)+8n_mt_s+8(2n_b+n_m)t_w(5)PBiCOR每次迭代所需的总时间为：

T_PBiCOR＝2t_{vec_upd}+t_{inn_prod}(8)+3t_{mat_vec}

＝(6n_z+17)t_flN/P+2logP(t_s+8t_w)+6n_mt_s+6(2n_b+n_m)t_w(6)

利用(5)和(6)式对处理器台数P极小化T_BiCOR和T_PBiCOR，可得求解相同问题规模时，两种方法具有最小并行执行时间的处理器台数P分别为：

P_{B i C O R} = \frac{(8 n_{z} + 4) t_{f l} N l n 2}{4 (t_{s} + t_{w})} = \frac{(2 n_{z} + \frac{1}{2}) t_{f l} N l n 2}{t_{s} + t_{w}} - - - (7)

和

P_{P B i C O R} = \frac{(6 n_{z} + 17) t_{f l} N l n 2}{2 (t_{s} + 2 t_{w})}) = \frac{(3 n_{z} + \frac{17}{2}) t_{f l} N l n 2}{t_{s} + t_{w}} - - - (8)

对大规模分布式并行计算机，由于t_s□t_w，从而(对任意n_z>0)，此结果表明，当问题规模固定时，PBiCOR方法具有最小并行执行时间时，所启动的处理器台数至少是BiCOR方法的3/2倍，因此，PBiCOR方法与BiCOR方法具有更好的并行可扩展性。

同时，当N固定，处理器台数P充分的大的话，PBiCOR方法相对于BiCOR方法的通讯性能改进比率为：

η = \frac{T_{B i C O R} - T_{P B i C O R}}{T_{B i C O R}} \approx \frac{2 t_{s} P \log P - (2 n_{z} - 13) t_{f l} N}{4 t_{s} P \log P + (8 n_{z} + 4) t_{f l} N} &RightArrow; 50 % - - - (8)

这说明对比BiCOR方法，PBiCOR方法的通讯性能改进比率趋向50％。

Claims

1.适合分布式并行计算的PBiCOR方法，其特征在于，假设并行机具有P台处理机，每台处理机分别具有局部存储模块和相应的处理单元，处理单元之间通过互联网相连；

由于不需通讯，一个向量校正的时间为：

t_{vec_upd}＝2t_flN/P(2)

只需一次全局通讯的K个内积的时间为：

t_{inn_prod}(k)＝2kt_flN/P+2logP(t_s+kt_w)(3)

只需局部通讯的一个矩阵向量乘积的时间为：

t_{mat_vec}＝(2n_z-1)t_flN/P+2n_mt_s+2(2n_b+n_m)t_w(4)

一个矩阵向量乘积的通讯时间为2n_mt_s+2(2n_b+n_m)t_w。