CN102110079B - 一种基于mpi的分布式共轭梯度法的调优计算方法 - Google Patents

一种基于mpi的分布式共轭梯度法的调优计算方法 Download PDF

Info

Publication number
CN102110079B
CN102110079B CN201110053792A CN201110053792A CN102110079B CN 102110079 B CN102110079 B CN 102110079B CN 201110053792 A CN201110053792 A CN 201110053792A CN 201110053792 A CN201110053792 A CN 201110053792A CN 102110079 B CN102110079 B CN 102110079B
Authority
CN
China
Prior art keywords
matrix
node
vector
cluster
computing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110053792A
Other languages
English (en)
Other versions
CN102110079A (zh
Inventor
张纪林
徐向华
万健
蒋从锋
张伟
任永坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201110053792A priority Critical patent/CN102110079B/zh
Publication of CN102110079A publication Critical patent/CN102110079A/zh
Application granted granted Critical
Publication of CN102110079B publication Critical patent/CN102110079B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明涉及一种基于MPI的分布式共轭梯度法的调优计算方法。传统的串行计算方法的演算流程不能有效地利用多核平台的优势。本发明当有新的节点加入计算集群时,采用预调优算法确定该节点的计算线程数并得到适用于集群计算的最优矩阵分块大小;将矩阵数据结构按最优分块大小,转换为分块压缩结构;在计算任务执行之前,根据各个节点的预调优数据为每个节点的线程分配计算量;当共轭梯度法演算流程执行矩阵与向量乘时,利用MPI自动将计算任务分配到集群中的计算节点,当计算完成后将结果主动归约到主节点。本发明采用高度压缩及灵活方便的
Figure 2011100537925100004DEST_PATH_IMAGE002
结构针对稀疏矩阵进行分块处理,降低了计算时间复杂度中的常数,节省了存储空间。

Description

一种基于MPI的分布式共轭梯度法的调优计算方法
技术领域
本发明涉及一种基于共轭梯度法的计算方法,尤其涉及一种基于MPI的分布式共轭梯度法的调优计算方法。
背景技术
传统的共轭梯度法演算计算方法为串行方法,该方法是共轭梯度法在计算机上的一种简单实现。共轭梯度法是求解特定线性系统的数值解的方法,其中的系数矩阵为对称和正定的实数阵。共轭梯度法是一个迭代方法,所以它适用于稀疏矩阵系统,因为这些系统通过类似乔莱斯基分解这样的直接方法去计算量太大。而这类系统在数值求解偏微分方程时是很常见的。
共轭梯度法主要用于求解下列线性系统:
Figure 2011100537925100002DEST_PATH_IMAGE001
,其中
Figure 778044DEST_PATH_IMAGE002
矩阵
Figure 2011100537925100002DEST_PATH_IMAGE003
是对称的(即
Figure 223938DEST_PATH_IMAGE004
),正定的(即对于所有非0向量属于
Figure 401104DEST_PATH_IMAGE006
Figure 2011100537925100002DEST_PATH_IMAGE007
)实系数矩阵。经过一些简化,可以得到求解
Figure 466012DEST_PATH_IMAGE001
的算法,如图1所示。其中
Figure 553179DEST_PATH_IMAGE003
是实对称正定矩阵。
传统的串行计算方法严格按照以上的算法流程进行演算,并能够得到正确的演算结果。然而由于串行计算本身存在的瓶颈,当计算量相对较大,计算机本身的性能将大大制约其进行演算的效率。并且当实对称正定矩阵维数过大,计算机也无法对其数据进行有效的存储与管理。
近年来,随着计算机硬件的不断发展,越来越多的计算机采用了多核的平台构架,传统的串行计算方法的演算流程不能有效地利用多核平台的优势,其对机器本身性能的利用也不充分。随着分布式计算技术的不断推广,也使得集群并行计算成为提高计算性能的有效方法。相比而言,传统的串行计算方法则表现出计算上极大的局限性。
发明内容
针对上述传统的串行计算方法存在的问题,本发明提出一种能充分利用计算机性能以及硬件平台,组织进行分布式计算的方法。该方法应拥有自动调优的功能,使之能根据所部署计算机的特性进行调整,从而使其作为节点所参与的并行计算体现出更高的计算性能。通过利用集群以及多核平台的优势,提升共轭梯度法的演算效率,充分利用计算机硬件与网络资源,进行高性能计算,解决传统串行计算方法资源利用不足,演算效率低下的问题。
传统的串行计算方法如下方伪代码所示:
   
Figure 83703DEST_PATH_IMAGE008
 
其中向量
Figure 2011100537925100002DEST_PATH_IMAGE009
用于判断是否满足演算的精度需要,若满足则演算结束。
本发明关注于传统的串行计算方法在演算中极为活跃的计算热点——矩阵与向量乘,设计了一种基于MPI的分布式共轭梯度法的调优计算方法,该方法的优化工作包括:当有新的节点加入计算集群时,采用预调优算法确定该节点的计算线程数并得到适用于集群计算的最优矩阵分块大小;读入系数矩阵时,将矩阵数据结构按最优分块大小,转换为方便灵活的分块压缩结构;在计算任务执行之前,根据各个节点的预调优数据为每个节点的线程分配计算量;当共轭梯度法演算流程执行矩阵与向量乘时,利用MPI自动将计算任务分配到集群中的计算节点,当计算完成后将结果主动归约到主节点,以多线程集群的工作方式提高运算效率。
本发明方法的具体步骤是:
(1) 准备节点
1-1.首先进行各节点的硬件部署;
1-2.判断是否有新节点加入,如果有,则进行步骤1-3的预调优过程,否则转入步骤2进行数据格式化过程。
1-3.所涉及的预调优过程,利用选取的个矩阵所构成的基准矩阵集
Figure 2011100537925100002DEST_PATH_IMAGE011
,对集群计算性能进行调优,其具体过程如下:
Figure 690713DEST_PATH_IMAGE012
的基准矩阵,其中
Figure 416093DEST_PATH_IMAGE014
分别为相应基准矩阵的行数与列数,对其生成
Figure 493815DEST_PATH_IMAGE016
的随机向量
Figure 2011100537925100002DEST_PATH_IMAGE017
,选用所有
Figure 900525DEST_PATH_IMAGE018
的矩阵分块方式,将基准矩阵按分块方式格式化为相应的BCSR结构,利用计算量分配算法进行节点部署,根据进行节点部署时得到的计算量分配方案,通过MPI控制集群中的各计算节点进行并行的矩阵向量乘运算,从而统计出集群在不同分块方式下的运算开销。
在完成基准矩阵集的运算开销的统计之后,对于不同的分块方式分别计算出集群运算的平均开销,选取其中平均开销最小的分块方式作为集群进行矩阵向量乘的最终分块方式。
其中基准矩阵按分块方式格式化为相应的BCSR结构的具体流程如下:
1. 首先按照行主序依次读入待划分矩阵中的非零元素,并按先后顺序将其列号记录于
Figure 2011100537925100002DEST_PATH_IMAGE019
向量内,数值记录于
Figure 24601DEST_PATH_IMAGE020
向量内。
2. 将待划分矩阵按分块方式的行高,对行进行平均划分,并对每个划分内的元素按列主序重新排序存储,此次排序将重新调整
Figure 592986DEST_PATH_IMAGE020
向量与
Figure 809204DEST_PATH_IMAGE019
向量中元素的分布。
3. 在当前划分区间内,不断以第一个未被划分进
Figure 2011100537925100002DEST_PATH_IMAGE021
向量所在区间的非零元素所在列为起始列,按分块方式的列宽划分出子矩阵块,并用向量控制当前块中非零元素在
Figure 168827DEST_PATH_IMAGE020
向量与向量内所处的区间,直到所有的非零元素均被成功划分,此时用
Figure 847512DEST_PATH_IMAGE022
向量记录该划分内所形成的块在向量内的索引区间。
计算量分配算法其流程如下:
1.从
Figure 803016DEST_PATH_IMAGE022
向量中获得待划分矩阵所划分的总块数。
2.根据集群节点数将计算子矩阵的块数平均分配到各节点。
3.各节点根据自身CPU的核数,将计算量再平均分配到相应的CPU核上。
以上为本发明方法的预调优过程,通过该过程将使集群的计算性能达到一种平均最优的状态。
(2)准备数据
2-1判断是否有计算任务,若无计算任务,则结束,否则对矩阵进行读取, 
2-2对读取的矩阵按步骤1得到的最终分块方式格式化为相应的BCSR结构;
(3)分配部署
通过计算量分配算法针对当前计算任务进行节点的部署,来获得计算量的分配方案。其目的在于获得一个令集群中各个节点的计算量大致相等的方案,从而达到负载平衡的目的。
(4) 演算
4-1.开始共轭梯度法的迭代;
4-2.判断演算流程是否涉及到矩阵向量乘,若涉及到矩阵向量乘,则根据步骤3中得到的分配方案,对子矩阵在集群节点上的进行分配;否则跳转至步骤4-4;
4-3.通过MPI控制集群中的各计算节点进行并行计算,然后跳转至步骤4-5;
4-4.利用主节点进行演算,严格按照计算量的分配,开启计算线程,并与CPU核一一绑定,从而使得各CPU核之间的运算以及各自cache的命中与刷新互不干扰;
4-5.判断迭代是否结束,未结束则跳转至步骤4-2,否则转入步骤4-6;
4-6.判断向量是否满足演算终止条件,若满足,则演算结束,否则转入步骤4-1重新开始迭代。
本发明具有的效果是:
1、本发明利用了cache局部性原理,采用高度压缩及灵活方便的
Figure 2011100537925100002DEST_PATH_IMAGE023
结构针对稀疏矩阵进行分块处理,大大降低了计算时间复杂度中的常数,节省了大量的存储空间,提升了算法的演算效率。
2、本发明充分利用了多核平台以及集群计算的性能优势,将计算中的热点并行化处理,利用多线程以及MPI的分布式技术,以较小的通讯开销换取了高性能的计算效率。
3、本发明对集群可以进行整体性能上的自动调优,新的节点可以在加入后迅速发挥计算效力。
4、本发明方法可适用于计算数学和计算物理等科学与工程计算领域中求解大规模稀疏线性代数方程组。
附图说明
图1为本发明进行共轭梯度法演算的流程图。
具体实施方式
下面结合附图和实施方法对本发明作进一步的详细说明。
参照图1执行步骤来说明本发明实施过程:
(1)准备节点
步骤1-1进行各节点的硬件部署;
步骤1-2判断是否有新节点加入,如果有,则进行步骤1-3的预调优过程,否则转入步骤(2)进行数据格式化过程;
步骤1-3所涉及的预调优过程,利用选取的
Figure 904013DEST_PATH_IMAGE010
个矩阵所构成的基准矩阵集
Figure 190638DEST_PATH_IMAGE011
,对集群计算性能进行调优,其具体步骤描述如下:
利用选取的
Figure 517714DEST_PATH_IMAGE010
个矩阵所构成的基准矩阵集
Figure 802065DEST_PATH_IMAGE011
,对集群计算性能进行调优,其具体过程如下:
Figure 512794DEST_PATH_IMAGE012
Figure 353842DEST_PATH_IMAGE013
的基准矩阵,其中
Figure 597742DEST_PATH_IMAGE014
Figure 52994DEST_PATH_IMAGE015
分别为相应基准矩阵的行数与列数,对其生成
Figure 15133DEST_PATH_IMAGE016
的随机向量
Figure 581244DEST_PATH_IMAGE017
,选用所有
Figure 617333DEST_PATH_IMAGE018
的矩阵分块方式,将基准矩阵按分块方式格式化为相应的BCSR结构,利用计算量分配算法进行节点部署,根据进行节点部署时得到的计算量分配方案,通过MPI控制集群中的各计算节点进行并行的矩阵向量乘运算,从而统计出集群在不同分块方式下的运算开销。
在完成基准矩阵集的运算开销的统计之后,对于不同的分块方式分别计算出集群运算的平均开销,选取其中平均开销最小的分块方式作为集群进行矩阵向量乘的最终分块方式。
其中基准矩阵按分块方式格式化为相应的BCSR结构的具体流程如下:
1. 首先按照行主序依次读入待划分矩阵中的非零元素,并按先后顺序将其列号记录于
Figure 807268DEST_PATH_IMAGE019
向量内,数值记录于
Figure 928808DEST_PATH_IMAGE020
向量内。
2. 将待划分矩阵按分块方式的行高,对行进行平均划分,并对每个划分内的元素按列主序重新排序存储,此次排序将重新调整
Figure 360926DEST_PATH_IMAGE020
向量与向量中元素的分布。
3. 在当前划分区间内,不断以第一个未被划分进
Figure 314156DEST_PATH_IMAGE021
向量所在区间的非零元素所在列为起始列,按分块方式的列宽划分出子矩阵块,并用
Figure 985309DEST_PATH_IMAGE021
向量控制当前块中非零元素在
Figure 893222DEST_PATH_IMAGE020
向量与
Figure 903903DEST_PATH_IMAGE019
向量内所处的区间,直到所有的非零元素均被成功划分,此时用
Figure 934176DEST_PATH_IMAGE022
向量记录该划分内所形成的块在
Figure 30308DEST_PATH_IMAGE021
向量内的索引区间。
计算量分配算法其流程如下:
1.从
Figure 305694DEST_PATH_IMAGE022
向量中获得待划分矩阵所划分的总块数。
2.根据集群节点数将计算子矩阵的块数平均分配到各节点。
3.各节点根据自身CPU的核数,将计算量再平均分配到相应的CPU核上。
以上为本发明方法的预调优过程,通过该过程将使集群的计算性能达到一种平均最优的状态。
(2)准备数据
节点准备过程结束后,通过执行步骤2-1判断是否有计算任务,若无计算任务,则结束演算,否则对矩阵进行读取,然后进行步骤2-2的数据格式化过程,采用了
Figure 436461DEST_PATH_IMAGE023
结构来对数据进行格式化,该结构降低了存储的冗余度,使用了四个不同意义的向量
Figure 637635DEST_PATH_IMAGE024
,有效保存了原矩阵的信息,并保持了对矩阵中划分块的控制,从而便于计算量在各个节点上的相关部署。
(3)部署分配
执行完数据格式化过程,转入步骤3-1通过节点部署算法针对当前计算任务进行节点的部署,来获得计算量的分配方案。其目的在于获得一个令集群中各个节点的计算量大致相等的方案,从而达到负载平衡的目的。
(4)演算过程
完成节点部署后,执行步骤4-1,开始共轭梯度法的迭代。该方法中的共轭梯度法的演算采用传统串行方法的基本流程来求解下列线性系统:
,其中
Figure 533096DEST_PATH_IMAGE002
矩阵
Figure 518369DEST_PATH_IMAGE003
是对称的(即
Figure 828128DEST_PATH_IMAGE004
),正定的(即对于所有非0向量属于
Figure 748996DEST_PATH_IMAGE006
Figure 152558DEST_PATH_IMAGE007
)实系数矩阵。经过一些简化,可以得到求解的算法,如图1所示。其中
Figure 253555DEST_PATH_IMAGE028
是实对称正定矩阵。
转入步骤4-2,判断演算流程是否涉及到矩阵向量乘,若涉及到矩阵向量乘,则根据步骤3中得到的分配方案,对子矩阵在集群节点上的进行分配;否则跳转至步骤4-4
进入步骤4-3,通过MPI控制集群中的各计算节点进行并行计算,然后跳转至步骤4-5
进入步骤4-4,利用主节点进行演算,严格按照计算量的分配,开启计算线程,并与CPU核一一绑定,从而使得各CPU核之间的运算以及各自cache的命中与刷新互不干扰。
进入步骤4-5,判断迭代是否结束,未结束则跳转至步骤4-2,否则转入步骤4-6。
进入步骤4-6,判断是否满足演算终止条件,若满足,则演算结束,否则转入步骤4-1重新开始迭代。

Claims (1)

1.一种基于MPI的分布式共轭梯度法的调优计算方法,其特征在于该方法包括以下步骤:
步骤1.准备节点,具体是:
1-1.进行各节点的硬件部署;
1-2.判断是否有新节点加入,如果有新节点加入,则进行步骤1-3的预调优,否则转入步骤2;
1-3.利用选取的 
Figure 574456DEST_PATH_IMAGE001
个矩阵所构成的基准矩阵集
Figure 346103DEST_PATH_IMAGE002
,对集群计算性能进行调优,其具体过程如下:
Figure 359058DEST_PATH_IMAGE003
Figure 303880DEST_PATH_IMAGE004
的基准矩阵,其中
Figure 162694DEST_PATH_IMAGE006
分别为相应基准矩阵的行数与列数,对其生成的随机向量,选用所有
Figure 618449DEST_PATH_IMAGE009
的矩阵分块方式,将基准矩阵按分块方式格式化为相应的BCSR结构,利用计算量分配算法进行节点部署,根据进行节点部署时得到的计算量分配方案,通过MPI控制集群中的各计算节点进行并行的矩阵向量乘运算,从而统计出集群在不同分块方式下的运算开销,其中
在完成基准矩阵集的运算开销的统计之后,对于不同的分块方式分别计算出集群运算的平均开销,选取其中平均开销最小的分块方式作为集群进行矩阵向量乘的最终分块方式;
步骤2.准备数据,具体是:
2-1.判断是否有计算任务,若无计算任务,则结束,否则对矩阵进行读取;
2-2.对读取的矩阵按步骤1得到的最终分块方式格式化为相应的BCSR结构;
步骤3.分配部署,具体是:通过计算量分配算法针对当前计算任务进行节点的部署,来获得计算量的分配方案;
步骤4.进行演算,具体是:
4-1.开始共轭梯度法的迭代;
4-2.判断演算流程是否涉及到矩阵向量乘,若涉及到矩阵向量乘,则根据步骤3中得到的分配方案,对子矩阵在集群节点上的进行分配;否则跳转至步骤4-4;
4-3.通过MPI控制集群中的各计算节点进行并行计算,然后跳转至步骤4-5
4-4.利用主节点进行演算,按照计算量的分配,开启计算线程,并与CPU核一一绑定,从而使得各CPU核之间的运算以及各自cache的命中与刷新互不干扰;
4-5.判断迭代是否结束,未结束则跳转至步骤4-2,否则转入步骤4-6;
4-6.判断是否满足演算终止条件,若满足,则演算结束,否则转入步骤4-1重新开始迭代;
步骤1-3中基准矩阵按分块方式格式化为相应的BCSR结构的具体流程如下:
A.按照行主序依次读入待划分矩阵中的非零元素,并按先后顺序将其列号记录于
Figure 719446DEST_PATH_IMAGE011
向量内,数值记录于
Figure 507536DEST_PATH_IMAGE012
向量内;
B.将待划分矩阵按分块方式的行高,对行进行平均划分,并对每个划分内的元素按列主序重新排序存储,此次排序将重新调整向量与
Figure 915701DEST_PATH_IMAGE011
向量中元素的分布;
C.在当前划分区间内,不断以第一个未被划分进
Figure 328227DEST_PATH_IMAGE013
向量所在区间的非零元素所在列为起始列,按分块方式的列宽划分出子矩阵块,并用
Figure 418543DEST_PATH_IMAGE013
向量控制当前块中非零元素在向量与
Figure 55378DEST_PATH_IMAGE011
向量内所处的区间,直到所有的非零元素均被成功划分,此时用
Figure 751938DEST_PATH_IMAGE014
向量记录该划分内所形成的块在
Figure 318049DEST_PATH_IMAGE013
向量内的索引区间;
步骤1-3中计算量分配算法其流程如下:
1)从
Figure 183499DEST_PATH_IMAGE014
向量中获得待划分矩阵所划分的总块数;
2)根据集群节点数将计算子矩阵的块数平均分配到各节点;
3)各节点根据自身CPU的核数,将计算量再平均分配到相应的CPU核上。
CN201110053792A 2011-03-07 2011-03-07 一种基于mpi的分布式共轭梯度法的调优计算方法 Expired - Fee Related CN102110079B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110053792A CN102110079B (zh) 2011-03-07 2011-03-07 一种基于mpi的分布式共轭梯度法的调优计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110053792A CN102110079B (zh) 2011-03-07 2011-03-07 一种基于mpi的分布式共轭梯度法的调优计算方法

Publications (2)

Publication Number Publication Date
CN102110079A CN102110079A (zh) 2011-06-29
CN102110079B true CN102110079B (zh) 2012-09-05

Family

ID=44174242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110053792A Expired - Fee Related CN102110079B (zh) 2011-03-07 2011-03-07 一种基于mpi的分布式共轭梯度法的调优计算方法

Country Status (1)

Country Link
CN (1) CN102110079B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045767A (zh) * 2015-06-24 2015-11-11 南昌大学 一种快速存贮及读取电力系统稀疏矩阵数据的方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013070106A1 (en) * 2011-11-08 2013-05-16 Intel Corporation Message passing interface tuning using collective operation modeling
CN102521463B (zh) * 2011-12-26 2013-12-18 杭州电子科技大学 一种优化Cache行为提升油藏数值模拟效率的方法
CN102737010B (zh) * 2012-04-09 2014-12-17 深圳大学 以摩尔图为拓扑结构的并行矩阵乘计算的方法和系统
CN103150290A (zh) * 2013-02-28 2013-06-12 杭州电子科技大学 一种新型的三维不可压缩管流数值模拟方法
CN105005505B (zh) * 2015-06-25 2018-06-26 南京航空航天大学 空中多目标轨迹预测的并行处理方法
US10310826B2 (en) * 2015-11-19 2019-06-04 Intel Corporation Technologies for automatic reordering of sparse matrices
CN107305535B (zh) * 2016-04-19 2022-07-26 全球能源互联网研究院 一种加速电路网络状态方程迭代求解的方法
CN111176797B (zh) * 2019-12-18 2023-10-27 北京百度网讯科技有限公司 数据并发的处理方法、装置、电子设备及可读存储介质
CN111240744B (zh) * 2020-01-03 2022-03-22 支付宝(杭州)信息技术有限公司 一种提高涉及稀疏矩阵并行计算效率的方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763087A (zh) * 2009-12-29 2010-06-30 浙江大学 一种基于非线性共轭梯度法的工业过程动态优化系统及方法
CN101908087A (zh) * 2010-07-16 2010-12-08 清华大学 基于gpu的集成电路电源地线网络的并行仿真方法
CN101977120A (zh) * 2010-10-15 2011-02-16 清华大学 基于图形处理器的大规模静态网络划分方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102138146A (zh) * 2008-09-30 2011-07-27 埃克森美孚上游研究公司 使用并行多级不完全因式分解求解储层模拟矩阵方程的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763087A (zh) * 2009-12-29 2010-06-30 浙江大学 一种基于非线性共轭梯度法的工业过程动态优化系统及方法
CN101908087A (zh) * 2010-07-16 2010-12-08 清华大学 基于gpu的集成电路电源地线网络的并行仿真方法
CN101977120A (zh) * 2010-10-15 2011-02-16 清华大学 基于图形处理器的大规模静态网络划分方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045767A (zh) * 2015-06-24 2015-11-11 南昌大学 一种快速存贮及读取电力系统稀疏矩阵数据的方法
CN105045767B (zh) * 2015-06-24 2017-11-17 南昌大学 一种快速存贮及读取电力系统稀疏矩阵数据的方法

Also Published As

Publication number Publication date
CN102110079A (zh) 2011-06-29

Similar Documents

Publication Publication Date Title
CN102110079B (zh) 一种基于mpi的分布式共轭梯度法的调优计算方法
Lu et al. SpWA: An efficient sparse winograd convolutional neural networks accelerator on FPGAs
EP2212806B1 (en) Allocation of resources for concurrent query execution via adaptive segmentation
Yang et al. A hybrid computing method of SpMV on CPU–GPU heterogeneous computing systems
Tang et al. Optimizing and auto-tuning scale-free sparse matrix-vector multiplication on Intel Xeon Phi
Hong et al. Efficient sparse-matrix multi-vector product on gpus
CN103336758A (zh) 一种稀疏矩阵的存储方法CSRL及基于该方法的SpMV实现方法
CN110222029A (zh) 一种大数据多维分析计算效率提升方法及系统
CN109978171B (zh) 一种基于云计算的Grover量子仿真算法优化方法
Yao et al. Evaluating and analyzing the energy efficiency of CNN inference on high‐performance GPU
CN103279330A (zh) 一种基于虚拟机GPU计算下的MapReduce并行编程模型
Motamedi et al. Fast and energy-efficient CNN inference on IoT devices
CN105808339A (zh) 大数据并行计算方法及装置
US9965343B2 (en) System and method for determining concurrency factors for dispatch size of parallel processor kernels
Han et al. Distme: A fast and elastic distributed matrix computation engine using gpus
WO2015143985A1 (zh) 一种确定结果向量的方法和装置
CN103593304B (zh) 基于并行设备模型的高效使用缓存的量化方法
CN112560356A (zh) 面向众核架构的稀疏矩阵向量乘众核优化方法
CN116167304B (zh) 基于神威架构的油藏数值模拟gmres优化方法及系统
CN103049322A (zh) 一种针对拓扑关系并行计算的矢量目标集均衡划分方法
CN103150290A (zh) 一种新型的三维不可压缩管流数值模拟方法
CN115130672A (zh) 一种软硬件协同优化卷积神经网络计算的方法及装置
CN110415162B (zh) 大数据中面向异构融合处理器的自适应图划分方法
CN102073798B (zh) 基于多核处理器的核糖核酸次级结构并行预测方法
CN104793985A (zh) 一种虚拟机调度方法和管理设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120905