CN102110079B

CN102110079B - 一种基于mpi的分布式共轭梯度法的调优计算方法

Info

Publication number: CN102110079B
Application number: CN201110053792A
Authority: CN
Inventors: 张纪林; 徐向华; 万健; 蒋从锋; 张伟; 任永坚
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2011-03-07
Filing date: 2011-03-07
Publication date: 2012-09-05
Anticipated expiration: 2031-03-07
Also published as: CN102110079A

Abstract

本发明涉及一种基于MPI的分布式共轭梯度法的调优计算方法。传统的串行计算方法的演算流程不能有效地利用多核平台的优势。本发明当有新的节点加入计算集群时，采用预调优算法确定该节点的计算线程数并得到适用于集群计算的最优矩阵分块大小；将矩阵数据结构按最优分块大小，转换为分块压缩结构；在计算任务执行之前，根据各个节点的预调优数据为每个节点的线程分配计算量；当共轭梯度法演算流程执行矩阵与向量乘时，利用MPI自动将计算任务分配到集群中的计算节点，当计算完成后将结果主动归约到主节点。本发明采用高度压缩及灵活方便的

Figure 2011100537925100004DEST_PATH_IMAGE002

结构针对稀疏矩阵进行分块处理，降低了计算时间复杂度中的常数，节省了存储空间。

Description

一种基于MPI的分布式共轭梯度法的调优计算方法

技术领域

本发明涉及一种基于共轭梯度法的计算方法，尤其涉及一种基于MPI的分布式共轭梯度法的调优计算方法。

背景技术

传统的共轭梯度法演算计算方法为串行方法，该方法是共轭梯度法在计算机上的一种简单实现。共轭梯度法是求解特定线性系统的数值解的方法，其中的系数矩阵为对称和正定的实数阵。共轭梯度法是一个迭代方法，所以它适用于稀疏矩阵系统，因为这些系统通过类似乔莱斯基分解这样的直接方法去计算量太大。而这类系统在数值求解偏微分方程时是很常见的。

共轭梯度法主要用于求解下列线性系统：

Figure 2011100537925100002DEST_PATH_IMAGE001

，其中

矩阵

Figure 2011100537925100002DEST_PATH_IMAGE003

是对称的(即

)，正定的(即对于所有非0向量属于

，

Figure 2011100537925100002DEST_PATH_IMAGE007

)实系数矩阵。经过一些简化，可以得到求解

的算法，如图1所示。其中

是实对称正定矩阵。

传统的串行计算方法严格按照以上的算法流程进行演算，并能够得到正确的演算结果。然而由于串行计算本身存在的瓶颈，当计算量相对较大，计算机本身的性能将大大制约其进行演算的效率。并且当实对称正定矩阵维数过大，计算机也无法对其数据进行有效的存储与管理。

近年来，随着计算机硬件的不断发展，越来越多的计算机采用了多核的平台构架，传统的串行计算方法的演算流程不能有效地利用多核平台的优势，其对机器本身性能的利用也不充分。随着分布式计算技术的不断推广，也使得集群并行计算成为提高计算性能的有效方法。相比而言，传统的串行计算方法则表现出计算上极大的局限性。

发明内容

针对上述传统的串行计算方法存在的问题，本发明提出一种能充分利用计算机性能以及硬件平台，组织进行分布式计算的方法。该方法应拥有自动调优的功能，使之能根据所部署计算机的特性进行调整，从而使其作为节点所参与的并行计算体现出更高的计算性能。通过利用集群以及多核平台的优势，提升共轭梯度法的演算效率，充分利用计算机硬件与网络资源，进行高性能计算，解决传统串行计算方法资源利用不足，演算效率低下的问题。

传统的串行计算方法如下方伪代码所示：

其中向量

用于判断是否满足演算的精度需要，若满足则演算结束。

本发明关注于传统的串行计算方法在演算中极为活跃的计算热点——矩阵与向量乘，设计了一种基于MPI的分布式共轭梯度法的调优计算方法，该方法的优化工作包括：当有新的节点加入计算集群时，采用预调优算法确定该节点的计算线程数并得到适用于集群计算的最优矩阵分块大小；读入系数矩阵时，将矩阵数据结构按最优分块大小，转换为方便灵活的分块压缩结构；在计算任务执行之前，根据各个节点的预调优数据为每个节点的线程分配计算量；当共轭梯度法演算流程执行矩阵与向量乘时，利用MPI自动将计算任务分配到集群中的计算节点，当计算完成后将结果主动归约到主节点，以多线程集群的工作方式提高运算效率。

本发明方法的具体步骤是：

(1) 准备节点

1-1.首先进行各节点的硬件部署；

1-2.判断是否有新节点加入，如果有，则进行步骤1-3的预调优过程，否则转入步骤2进行数据格式化过程。

1-3.所涉及的预调优过程，利用选取的个矩阵所构成的基准矩阵集

Figure 2011100537925100002DEST_PATH_IMAGE011

，对集群计算性能进行调优，其具体过程如下：

设

为的基准矩阵，其中

与分别为相应基准矩阵的行数与列数，对其生成

的随机向量

Figure 2011100537925100002DEST_PATH_IMAGE017

，选用所有

的矩阵分块方式，将基准矩阵按分块方式格式化为相应的BCSR结构，利用计算量分配算法进行节点部署，根据进行节点部署时得到的计算量分配方案，通过MPI控制集群中的各计算节点进行并行的矩阵向量乘运算，从而统计出集群在不同分块方式下的运算开销。

在完成基准矩阵集的运算开销的统计之后，对于不同的分块方式分别计算出集群运算的平均开销，选取其中平均开销最小的分块方式作为集群进行矩阵向量乘的最终分块方式。

其中基准矩阵按分块方式格式化为相应的BCSR结构的具体流程如下：

1. 首先按照行主序依次读入待划分矩阵中的非零元素，并按先后顺序将其列号记录于

Figure 2011100537925100002DEST_PATH_IMAGE019

向量内，数值记录于

向量内。

2. 将待划分矩阵按分块方式的行高，对行进行平均划分，并对每个划分内的元素按列主序重新排序存储，此次排序将重新调整

向量与

向量中元素的分布。

3. 在当前划分区间内，不断以第一个未被划分进

Figure 2011100537925100002DEST_PATH_IMAGE021

向量所在区间的非零元素所在列为起始列，按分块方式的列宽划分出子矩阵块，并用向量控制当前块中非零元素在

向量与向量内所处的区间，直到所有的非零元素均被成功划分，此时用

向量记录该划分内所形成的块在向量内的索引区间。

计算量分配算法其流程如下：

1．从

向量中获得待划分矩阵所划分的总块数。

2．根据集群节点数将计算子矩阵的块数平均分配到各节点。

3．各节点根据自身CPU的核数，将计算量再平均分配到相应的CPU核上。

以上为本发明方法的预调优过程，通过该过程将使集群的计算性能达到一种平均最优的状态。

(2)准备数据

2-1判断是否有计算任务，若无计算任务，则结束，否则对矩阵进行读取，

2-2对读取的矩阵按步骤1得到的最终分块方式格式化为相应的BCSR结构；

(3)分配部署

通过计算量分配算法针对当前计算任务进行节点的部署，来获得计算量的分配方案。其目的在于获得一个令集群中各个节点的计算量大致相等的方案，从而达到负载平衡的目的。

(4) 演算

4-1．开始共轭梯度法的迭代；

4-2．判断演算流程是否涉及到矩阵向量乘，若涉及到矩阵向量乘，则根据步骤3中得到的分配方案，对子矩阵在集群节点上的进行分配；否则跳转至步骤4-4；

4-3．通过MPI控制集群中的各计算节点进行并行计算，然后跳转至步骤4-5；

4-4．利用主节点进行演算，严格按照计算量的分配，开启计算线程，并与CPU核一一绑定，从而使得各CPU核之间的运算以及各自cache的命中与刷新互不干扰；

4-5．判断迭代是否结束，未结束则跳转至步骤4-2，否则转入步骤4-6；

4-6．判断向量是否满足演算终止条件，若满足，则演算结束，否则转入步骤4-1重新开始迭代。

本发明具有的效果是：

1、本发明利用了cache局部性原理，采用高度压缩及灵活方便的

Figure 2011100537925100002DEST_PATH_IMAGE023

结构针对稀疏矩阵进行分块处理，大大降低了计算时间复杂度中的常数，节省了大量的存储空间，提升了算法的演算效率。

2、本发明充分利用了多核平台以及集群计算的性能优势，将计算中的热点并行化处理，利用多线程以及MPI的分布式技术，以较小的通讯开销换取了高性能的计算效率。

3、本发明对集群可以进行整体性能上的自动调优，新的节点可以在加入后迅速发挥计算效力。

4、本发明方法可适用于计算数学和计算物理等科学与工程计算领域中求解大规模稀疏线性代数方程组。

附图说明

图1为本发明进行共轭梯度法演算的流程图。

具体实施方式

下面结合附图和实施方法对本发明作进一步的详细说明。

参照图1执行步骤来说明本发明实施过程：

(1)准备节点

步骤1-1进行各节点的硬件部署；

步骤1-2判断是否有新节点加入，如果有，则进行步骤1-3的预调优过程，否则转入步骤(2)进行数据格式化过程；

步骤1-3所涉及的预调优过程，利用选取的

个矩阵所构成的基准矩阵集

，对集群计算性能进行调优，其具体步骤描述如下：

利用选取的

个矩阵所构成的基准矩阵集

，对集群计算性能进行调优，其具体过程如下：

设

为

的基准矩阵，其中

与

分别为相应基准矩阵的行数与列数，对其生成

的随机向量

，选用所有

向量内，数值记录于

向量内。

向量与向量中元素的分布。

3. 在当前划分区间内，不断以第一个未被划分进

向量所在区间的非零元素所在列为起始列，按分块方式的列宽划分出子矩阵块，并用

向量控制当前块中非零元素在

向量与

向量内所处的区间，直到所有的非零元素均被成功划分，此时用

向量记录该划分内所形成的块在

向量内的索引区间。

计算量分配算法其流程如下：

1．从

向量中获得待划分矩阵所划分的总块数。

2．根据集群节点数将计算子矩阵的块数平均分配到各节点。

(2)准备数据

节点准备过程结束后，通过执行步骤2-1判断是否有计算任务，若无计算任务，则结束演算，否则对矩阵进行读取，然后进行步骤2-2的数据格式化过程，采用了

结构来对数据进行格式化，该结构降低了存储的冗余度，使用了四个不同意义的向量

，有效保存了原矩阵的信息，并保持了对矩阵中划分块的控制，从而便于计算量在各个节点上的相关部署。

(3)部署分配

执行完数据格式化过程，转入步骤3-1通过节点部署算法针对当前计算任务进行节点的部署，来获得计算量的分配方案。其目的在于获得一个令集群中各个节点的计算量大致相等的方案，从而达到负载平衡的目的。

(4)演算过程

完成节点部署后，执行步骤4-1，开始共轭梯度法的迭代。该方法中的共轭梯度法的演算采用传统串行方法的基本流程来求解下列线性系统：

，其中

矩阵

是对称的(即

)，正定的(即对于所有非0向量属于

，

)实系数矩阵。经过一些简化，可以得到求解的算法，如图1所示。其中

是实对称正定矩阵。

转入步骤4-2，判断演算流程是否涉及到矩阵向量乘，若涉及到矩阵向量乘，则根据步骤3中得到的分配方案，对子矩阵在集群节点上的进行分配；否则跳转至步骤4-4

进入步骤4-3，通过MPI控制集群中的各计算节点进行并行计算，然后跳转至步骤4-5

进入步骤4-4，利用主节点进行演算，严格按照计算量的分配，开启计算线程，并与CPU核一一绑定，从而使得各CPU核之间的运算以及各自cache的命中与刷新互不干扰。

进入步骤4-5，判断迭代是否结束，未结束则跳转至步骤4-2，否则转入步骤4-6。

进入步骤4-6，判断是否满足演算终止条件，若满足，则演算结束，否则转入步骤4-1重新开始迭代。

Claims

1.一种基于MPI的分布式共轭梯度法的调优计算方法，其特征在于该方法包括以下步骤：

步骤1.准备节点，具体是：

1-1.进行各节点的硬件部署；

1-2.判断是否有新节点加入，如果有新节点加入，则进行步骤1-3的预调优，否则转入步骤2；

1-3.利用选取的

个矩阵所构成的基准矩阵集

，对集群计算性能进行调优，其具体过程如下：

设

为

的基准矩阵，其中与

分别为相应基准矩阵的行数与列数，对其生成的随机向量，选用所有

的矩阵分块方式，将基准矩阵按分块方式格式化为相应的BCSR结构，利用计算量分配算法进行节点部署，根据进行节点部署时得到的计算量分配方案，通过MPI控制集群中的各计算节点进行并行的矩阵向量乘运算，从而统计出集群在不同分块方式下的运算开销，其中；

在完成基准矩阵集的运算开销的统计之后，对于不同的分块方式分别计算出集群运算的平均开销，选取其中平均开销最小的分块方式作为集群进行矩阵向量乘的最终分块方式；

步骤2.准备数据，具体是：

2-1.判断是否有计算任务，若无计算任务，则结束，否则对矩阵进行读取；

2-2.对读取的矩阵按步骤1得到的最终分块方式格式化为相应的BCSR结构；

步骤3.分配部署，具体是：通过计算量分配算法针对当前计算任务进行节点的部署，来获得计算量的分配方案；

步骤4.进行演算，具体是：

4-1.开始共轭梯度法的迭代；

4-2.判断演算流程是否涉及到矩阵向量乘，若涉及到矩阵向量乘，则根据步骤3中得到的分配方案，对子矩阵在集群节点上的进行分配；否则跳转至步骤4-4；

4-3.通过MPI控制集群中的各计算节点进行并行计算，然后跳转至步骤4-5

4-4.利用主节点进行演算，按照计算量的分配，开启计算线程，并与CPU核一一绑定，从而使得各CPU核之间的运算以及各自cache的命中与刷新互不干扰；

4-5.判断迭代是否结束，未结束则跳转至步骤4-2，否则转入步骤4-6；

4-6.判断是否满足演算终止条件，若满足，则演算结束，否则转入步骤4-1重新开始迭代；

步骤1-3中基准矩阵按分块方式格式化为相应的BCSR结构的具体流程如下：

A.按照行主序依次读入待划分矩阵中的非零元素，并按先后顺序将其列号记录于

向量内，数值记录于

向量内；

B.将待划分矩阵按分块方式的行高，对行进行平均划分，并对每个划分内的元素按列主序重新排序存储，此次排序将重新调整向量与

向量中元素的分布；

C.在当前划分区间内，不断以第一个未被划分进

向量控制当前块中非零元素在向量与

向量记录该划分内所形成的块在

向量内的索引区间；

步骤1-3中计算量分配算法其流程如下：

1)从

向量中获得待划分矩阵所划分的总块数；

2)根据集群节点数将计算子矩阵的块数平均分配到各节点；

3)各节点根据自身CPU的核数，将计算量再平均分配到相应的CPU核上。