CN105260342A - 一种对称正定线性方程组的求解方法与系统 - Google Patents
一种对称正定线性方程组的求解方法与系统 Download PDFInfo
- Publication number
- CN105260342A CN105260342A CN201510608754.XA CN201510608754A CN105260342A CN 105260342 A CN105260342 A CN 105260342A CN 201510608754 A CN201510608754 A CN 201510608754A CN 105260342 A CN105260342 A CN 105260342A
- Authority
- CN
- China
- Prior art keywords
- mpi
- linear equations
- task
- vector
- target system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Complex Calculations (AREA)
Abstract
本发明公开了一种对称正定线性方程组的求解方法与系统,利用MPI方式进行求目标线性方程组的任务划分,确定目标线性方程组,确定所述目标线性方程组的稀疏矩阵与矢量,根据节点数量与节点内CPU的数量开启进程,将所述稀疏矩阵与所述矢量根据开启的进程数进行分块,将分块后的稀疏矩阵数据块与矢量数据块分别分配给对应的进程,得到每个进程对应的计算任务,然后执行MPI多进程任务,利用OpenMP的方式进行多线程求解计算,利用MPI负责设备间数据、任务划分以及消息传递,OpenMP负责算法内核的并行加速,节点之间利用MPI实现并行计算,节点之内利用OpenMP实现并行计算,MPI与OpenMP联合,可实现线性方程的快速求解,求解效率高。
Description
技术领域
本发明涉及算法求解领域,特别是涉及一种对称正定线性方程组的求解方法与系统。
背景技术
众所周知,数学物理模型的求解是众多工程生产与科研领域必不可少的工作之一。随着计算机的发展,有限差分(FD)、有限元(FEM)、边界元(BEM)、无网格方法(MeshlessMethod)等一系列的数值计算方法相继诞生。特别是有限元方法,到目前为止理论体系已经比较完善,并已在机械制造、材料加工、航空航天、汽车、土木建筑、国防军工、船舶、铁道、石化、能源、科学研究等各个领域中广泛应用,成为工程设计中的重要工具。这些数值计算方法具有一个相同之处:将实际问题导出的数学物理模型通过特定的方式离散成一个线性代数方程组。除此之外,结构分析、网络分析、天地测量、数据及最优化问题等都常遇到线性方程组的求解问题。运用有限元方法离散得到的线性方程组往往是对称正定的或经过简单的处理编程对称正定问题。因此,可以毫不夸张的讲很多的科学与工程问题都要归结为一个对称正定线性方程组的求解问题。然而,随着问题规模的增大,线性方程组的求解成为工程生产和科研中的一大瓶颈。对于大规模乃至超大规模的线性方程组,求解变得十分困难。
发明内容
有鉴于此,本发明的主要目的在于提供一种对称正定线性方程组的求解方法与系统,可以高效地进行线性方程组的求解。
为实现上述目的,本发明提供了一种对称正定线性方程组的求解方法,包括:
利用MPI方式进行求目标线性方程组的任务划分;
执行MPI多进程任务,利用OpenMP的方式根据预设法则进行多线程求解计算;
其中,利用MPI方式进行求目标线性方程组的任务划分包括:
确定目标线性方程组,确定所述目标线性方程组的稀疏矩阵与矢量,根据节点数量与节点内CPU的数量开启进程,将所述稀疏矩阵与所述矢量根据开启的进程数进行分块,将分块后的稀疏矩阵数据块与矢量数据块分别分配给对应的进程,得到每个进程对应的计算任务。
优选地,执行MPI多进程任务包括:
步骤A:主进程读取数据并将所述读取的数据广播给其他进程,其他进程执行对应的计算任务并将结果反馈至主进程;
步骤B:循环步骤A直至完成求目标线性方程组的计算。
优选地,利用OpenMP的方式进行多线程计算包括:
根据所述CPU的数量与每个CPU的核心数量确定开启的线程数量,并开启多线程进行并行计算。
优选地,利用MPI方式进行求目标线性方程组的任务划分前还包括:
配置每个节点的内存大小、内存类型与CPU数量均一致,配置每个CPU的核心数目与主频率均一致。
优选地,所述预设法则为共轭梯度法。
本发明还提供了一种对称正定线性方程组的求解系统,包括:
任务划分模块,用于利用MPI方式进行求目标线性方程组的任务划分;
MPI并行模块,执行MPI多进程任务,利用OpenMP的方式根据预设法则进行多线程求解计算;
所述任务划分模块包括:
确定子模块,用于确定目标线性方程组,确定所述目标线性方程组的稀疏矩阵与矢量;
进程开启子模块,用于根据节点数量与节点内CPU的数量开启进程;
分块子模块,用于将所述稀疏矩阵与所述矢量根据开启的进程数进行分块;
任务分配子模块,用于将分块后的稀疏矩阵数据块与矢量数据块分别分配给对应的进程,得到每个进程对应的计算任务。
优选地,所述MPI并行模块包括:
进程执行子模块,用于令主进程读取数据并将所述读取的数据广播给其他进程,其他进程执行对应的计算任务并将结果反馈至主进程;
循环子模块,用于循环所述进程执行子模块的步骤直至完成求目标线性方程组的计算。
优选地,所述的系统还包括:
配置模块,用于配置每个节点的内存大小、内存类型与CPU数量均一致,配置每个CPU的核心数目与主频率均一致。
应用本发明提供的一种对称正定线性方程组的求解方法与系统,利用MPI方式进行求目标线性方程组的任务划分,确定目标线性方程组,确定所述目标线性方程组的稀疏矩阵与矢量,根据节点数量与节点内CPU的数量开启进程,将所述稀疏矩阵与所述矢量根据开启的进程数进行分块,将分块后的稀疏矩阵数据块与矢量数据块分别分配给对应的进程,得到每个进程对应的计算任务,然后执行MPI多进程任务,利用OpenMP的方式进行多线程求解计算,利用MPI负责设备间数据、任务划分以及消息传递,OpenMP负责算法内核的并行加速,节点之间利用MPI实现并行计算,节点之内利用OpenMP实现并行计算,MPI与OpenMP联合,可实现线性方程的快速求解,求解效率高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明一种对称正定线性方程组的求解方法实施例一的流程图;
图2为本发明一种对称正定线性方程组的求解方法实施例一共轭梯度算法的流程图;
图3为本发明对称正定线性方程组的求解方法实施例一的详细流程图;
图4为本发明一种对称正定线性方程组的求解方法实施例一的原理示意图;
图5为本发明一种对称正定线性方程组的求解方法实施例一的又一原理示意图;
图6为本发明一种对称正定线性方程组的求解方法实施例一的硬件平台搭建示意图;
图7为本发明一种对称正定线性方程组的求解方法实施例二的结构示意图;
图8为本发明一种对称正定线性方程组的求解方法实施例二的详细结构示意图;
图9为本发明一种对称正定线性方程组的求解方法实施例三的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种对称正定线性方程组的求解方法,图1示出了本发明对称正定线性方程组的求解方法实施例一的流程图,包括:
步骤S101:利用MPI方式进行求目标线性方程组的任务划分;
MPI(MessagePassingInterface)消息传递接口编程模型是1994年5月份发布并由众多并行计算机厂商、软件开发组织及并行应用单位共同维护一种消息传递接口,是目前国际上最流行的并行编程环境之一,尤其是分布式存储的可缩放并行计算机和工作站网络以及机群的一种编程范例。MPI主要由Fortran+MPI或C+MPI组成,有上百个函数调用接口,可直接调用。MPI具有很多优点:具有可移植性和易用性;有完备的异步通信功能;有正式和详细的精确定义。MPI已在PC机、MSWindows上及所有主要的UNIX/Linux工作站、主流并行机上得到实现,在以低级消息传递程序为基础的较高级和抽象程序所构成的分布式存储环境中,MPI标准化所带来的效益明显。
步骤S102:执行MPI多进程任务,利用OpenMP的方式根据预设法则进行多线程求解计算;
OpenMP为共享内存的多线程并行编程模型,上述预设算法可为共轭梯度算法,如图2所示,为共轭梯度算法的流程图,共轭梯度法(CG法)是50年代初期由Hestenes和Stiefel首先提出的,进几十年来有关的研究得到了前所未有的发展,目前有关的理论和方法已经十分成熟。是当前最受欢迎的求解对称大规模稀疏线性方程组的一类方法。之所以如此受欢迎,是由于CG的求解仅需利用一阶导数信息,具有比最速下降法更快的收敛速度,比牛顿迭代法计算量更小,且不需确定任何参数。因此,CG具有存储小,收敛快,稳定性强,无需外来参数且适合并行等优点。对于稀疏线性方程组Ax=b,本利采用的共轭梯度法算法流程如下:
1:选初始向量x0,给定误差ε
2:k=0;r=b-Ax0;ρ=rTr
3:whileand(k<kmax)
4:k=k+1
5:ifk=1
6:p=r
7:else
8:p=r+βp
9:end
10:w=Ap;α=ρ/pTw;x=x+αp
11:r=r-αw;ρ=rTr
12:end
可将共轭梯度算法可分为前期预处理、迭代部分、结果输出等三大部分,其中迭代部分为CG算法的主体,其运算量占整体的98%以上。其余部分以I/O操作为主,不适于并行处理。而单次迭代操作流程除了少量的分支判断之外,主要包括矩阵向量相乘、标量乘以向量、向量范数以及向量相加等矩阵向量操作。因此,矩阵向量运算为计算热点,适合并行加速。
本实施例中,如图3所示,步骤S101具体包括:
步骤S201:确定目标线性方程组,确定所述目标线性方程组的稀疏矩阵与矢量;
节点间的任务划分采用静态划分方式,按行划分,假设所求线性方程组为Ax=b且稀疏矩阵A中的非零元素个数为size,行数为n。
步骤S202:根据节点数量与节点内CPU的数量开启进程;
根据集群内节点的数量以及节点内CPU的数量开启进程,假设,集群中有Nnode个计算节点,每个计算节点有Ncpu颗CPU,可开启N_p=Nnode(或N_p=Nnode*Ncpu)个MPI进程,每个MPI进程负责控制1个计算节点(或一颗CPU)的计算与节点间(或CPU之间)的消息传递。将数据划分乘N_p个数据块,每个进程负责一个数据块的计算任务。
步骤S203:将所述稀疏矩阵与所述矢量根据开启的进程数进行分块;
假设开启l个进程P0,P1,…,Pl-1,可将系数矩阵A与矢量b按行划分成l块,即A=[A0 T,A1 T,…,Al-1 T]T,b=[b0 T,b1 T,…,bl-1 T]T。
步骤S204:将分块后的稀疏矩阵数据块与矢量数据块分别分配给对应的进程,得到每个进程对应的计算任务。
将数据块A0~Al-1及b0~bl-1分别分配给进程P0~Pl-1,而矢量x为所有进程共享。具体如图4所示。因此,每个进程定义的x大小均为n,每个进程只计算x中的n/l个元素,每次计算之后进程间需要通信,获得x向量。每个进程处理的行数用数组H[N]表示,实现代码如下:
为了方便通信,定义数组Hpos[l+1],代表每个进程计算的数据开始的位置,代码如下:
1:Hpos[0]=0;
2:for(i=1;i<l+1;i++)
3:Hpos[i]=Hpos[i-1]+H[i-1];
步骤S102中多进程流程如图5所示,首先启动l个进程P0,P1,…,Pl-1,其中进程p0为主进程;每个进程根据任务开辟私有的存储空间,进程p0负责读取数据,并将数据按需广播给其它进程;进程p0-pl-1分别执行各自的计算任务,并将结果反馈给主进程p0;主进程对反馈结果进行处理、整合,并将必要的结果广播给其它进程;重复上两步操作直至计算完成。在MPI并行具体实现中主要采用了集合通信的方式完成进程间的消息传递。调用的MPI消息传递库函数包括:MPI_Reduce,MPI_ALLReduce,MPI_Bcast以及MPI_Allgatherv。MPI设计框架伪代码如下:
本发明将算法中矩阵向量相乘,向量内积,标量乘以向量以及向量相加等矩阵向量操作作为多线程并行区域。因此,本案算法中通过调用子函数的方式完成以上四种矩阵向量操作。通过“#pragmaomp”引语的方式完成内核加速设计。四种子函数内核OpenMP设计框架如下:
1>内核函数之矩阵向量乘
2>内核函数之向量数乘
3>内核函数之向量内积
4>内核函数之向量相加
本实施例用MPI方式进行求目标线性方程组的任务划分前首先需要搭建硬件平台,硬件平台的搭建如图6所示,要保证节点之间以及节点内部配置的均衡。为更清晰地描述发明内容,以双路服务器构建集群平台为例,每个节点内部配置两颗相同的处理器,以保证处理器的核心数量,主频相同,每个节点配置类型及大小相同的内存(不小于128GB),且保证两颗CPU分配的内存大小相同。节点之间采用FDRInfiniband高速网络互联,IB交换机采用全连接的方式。
应用本实施例提供的一种对称正定线性方程组的求解方法,利用MPI方式进行求目标线性方程组的任务划分,确定目标线性方程组,确定所述目标线性方程组的稀疏矩阵与矢量,根据节点数量与节点内CPU的数量开启进程,将所述稀疏矩阵与所述矢量根据开启的进程数进行分块,将分块后的稀疏矩阵数据块与矢量数据块分别分配给对应的进程,得到每个进程对应的计算任务,然后执行MPI多进程任务,利用OpenMP的方式进行多线程求解计算,利用MPI负责设备间数据、任务划分以及消息传递,OpenMP负责算法内核的并行加速,节点之间利用MPI实现并行计算,节点之内利用OpenMP实现并行计算,MPI与OpenMP联合,可实现线性方程的快速求解,求解效率高。
本发明还提供了一种对称正定线性方程组的求解系统,图7示出了本发明对称正定线性方程组的求解系统实施例二的结构示意图,包括:
任务划分模块101,用于利用MPI方式进行求目标线性方程组的任务划分;
MPI并行模块102,用于执行MPI多进程任务,利用OpenMP的方式根据预设法则进行多线程求解计算;
如图8所示,所述任务划分模块101包括:
确定子模块201,用于确定目标线性方程组,确定所述目标线性方程组的稀疏矩阵与矢量;
进程开启子模块202,用于根据节点数量与节点内CPU的数量开启进程;
分块子模块203,用于将所述稀疏矩阵与所述矢量根据开启的进程数进行分块;
任务分配子模块204,用于将分块后的稀疏矩阵数据块与矢量数据块分别分配给对应的进程,得到每个进程对应的计算任务。
应用本实施例提供的一种对称正定线性方程组的求解系统,利用MPI方式进行求目标线性方程组的任务划分,确定目标线性方程组,确定所述目标线性方程组的稀疏矩阵与矢量,根据节点数量与节点内CPU的数量开启进程,将所述稀疏矩阵与所述矢量根据开启的进程数进行分块,将分块后的稀疏矩阵数据块与矢量数据块分别分配给对应的进程,得到每个进程对应的计算任务,然后执行MPI多进程任务,利用OpenMP的方式进行多线程求解计算,利用MPI负责设备间数据、任务划分以及消息传递,OpenMP负责算法内核的并行加速,节点之间利用MPI实现并行计算,节点之内利用OpenMP实现并行计算,MPI与OpenMP联合,可实现线性方程的快速求解,求解效率高。
图9示出了本发明对称正定线性方程组的求解系统的实施例三的结构示意图,对应于图7,还包括:
配置模块103,用于配置每个节点的内存大小、内存类型与CPU数量均一致,配置每个CPU的核心数目与主频率均一致。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的方法和系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种对称正定线性方程组的求解方法,其特征在于,包括:
利用MPI方式进行求目标线性方程组的任务划分;
执行MPI多进程任务,利用OpenMP的方式根据预设法则进行多线程求解计算;
其中,利用MPI方式进行求目标线性方程组的任务划分包括:
确定目标线性方程组,确定所述目标线性方程组的稀疏矩阵与矢量,根据节点数量与节点内CPU的数量开启进程,将所述稀疏矩阵与所述矢量根据开启的进程数进行分块,将分块后的稀疏矩阵数据块与矢量数据块分别分配给对应的进程,得到每个进程对应的计算任务。
2.根据权利要求1所述的方法,其特征在于,执行MPI多进程任务包括:
步骤A:主进程读取数据并将所述读取的数据广播给其他进程,其他进程执行对应的计算任务并将结果反馈至主进程;
步骤B:循环步骤A直至完成求目标线性方程组的计算。
3.根据权利要求2所述的方法,其特征在于,利用OpenMP的方式进行多线程计算包括:
根据所述CPU的数量与每个CPU的核心数量确定开启的线程数量,并开启多线程进行并行计算。
4.根据权利要求3所述的方法,其特征在于,利用MPI方式进行求目标线性方程组的任务划分前还包括:
配置每个节点的内存大小、内存类型与CPU数量均一致,配置每个CPU的核心数目与主频率均一致。
5.根据权利要求1所述的方法,其特征在于,所述预设法则为共轭梯度法。
6.一种对称正定线性方程组的求解系统,其特征在于,包括:
任务划分模块,用于利用MPI方式进行求目标线性方程组的任务划分;
MPI并行模块,用于执行MPI多进程任务,利用OpenMP的方式根据预设法则进行多线程求解计算;
所述任务划分模块包括:
确定子模块,用于确定目标线性方程组,确定所述目标线性方程组的稀疏矩阵与矢量;
进程开启子模块,用于根据节点数量与节点内CPU的数量开启进程;
分块子模块,用于将所述稀疏矩阵与所述矢量根据开启的进程数进行分块;
任务分配子模块,用于将分块后的稀疏矩阵数据块与矢量数据块分别分配给对应的进程,得到每个进程对应的计算任务。
7.根据权利要求6所述的系统,其特征在于,所述MPI并行模块包括:
进程执行子模块,用于令主进程读取数据并将所述读取的数据广播给其他进程,其他进程执行对应的计算任务并将结果反馈至主进程;
循环子模块,用于循环所述进程执行子模块的步骤直至完成求目标线性方程组的计算。
8.根据权利要求7所述的系统,其特征在于,还包括:
配置模块,用于配置每个节点的内存大小、内存类型与CPU数量均一致,配置每个CPU的核心数目与主频率均一致。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510608754.XA CN105260342A (zh) | 2015-09-22 | 2015-09-22 | 一种对称正定线性方程组的求解方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510608754.XA CN105260342A (zh) | 2015-09-22 | 2015-09-22 | 一种对称正定线性方程组的求解方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105260342A true CN105260342A (zh) | 2016-01-20 |
Family
ID=55100039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510608754.XA Pending CN105260342A (zh) | 2015-09-22 | 2015-09-22 | 一种对称正定线性方程组的求解方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105260342A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975331A (zh) * | 2016-04-26 | 2016-09-28 | 浪潮(北京)电子信息产业有限公司 | 一种数据并行处理方法及装置 |
CN106598913A (zh) * | 2016-12-23 | 2017-04-26 | 郑州云海信息技术有限公司 | 一种knl集群加速求解方法及装置 |
CN106897163A (zh) * | 2017-03-08 | 2017-06-27 | 郑州云海信息技术有限公司 | 一种基于knl平台的代数系统求解方法及系统 |
CN107273339A (zh) * | 2017-06-21 | 2017-10-20 | 郑州云海信息技术有限公司 | 一种任务处理方法及装置 |
CN113191105A (zh) * | 2021-03-22 | 2021-07-30 | 梁文毅 | 一种基于分布式并行运算方法的电气仿真方法 |
CN115952385A (zh) * | 2023-03-10 | 2023-04-11 | 山东省计算中心(国家超级计算济南中心) | 用于大规模稀疏方程组求解的并行超节点排序方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101819651A (zh) * | 2010-04-16 | 2010-09-01 | 浙江大学 | 粒子群算法在多机上并行执行的方法 |
CN104461466A (zh) * | 2013-09-25 | 2015-03-25 | 广州中国科学院软件应用技术研究所 | 基于MPI和OpenMP混合编程模型并行计算提高计算速度的方法 |
CN104461467A (zh) * | 2013-09-25 | 2015-03-25 | 广州中国科学院软件应用技术研究所 | 针对SMP集群系统采用MPI和OpenMP混合并行提高计算速度的方法 |
-
2015
- 2015-09-22 CN CN201510608754.XA patent/CN105260342A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101819651A (zh) * | 2010-04-16 | 2010-09-01 | 浙江大学 | 粒子群算法在多机上并行执行的方法 |
CN104461466A (zh) * | 2013-09-25 | 2015-03-25 | 广州中国科学院软件应用技术研究所 | 基于MPI和OpenMP混合编程模型并行计算提高计算速度的方法 |
CN104461467A (zh) * | 2013-09-25 | 2015-03-25 | 广州中国科学院软件应用技术研究所 | 针对SMP集群系统采用MPI和OpenMP混合并行提高计算速度的方法 |
Non-Patent Citations (3)
Title |
---|
HAOQIANG JIN等: ""High performance computing using MPI and OpenMP on multi-core parallel systems"", 《PARALLEL COMPUTING》 * |
ROLF RABENSEIFNER等: "《Parallel, Distributed and Network-based Processing, 2009 17th Euromicro International Conference on》", 31 January 2009 * |
石志才: ""异构平台上协同计算的相关研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975331A (zh) * | 2016-04-26 | 2016-09-28 | 浪潮(北京)电子信息产业有限公司 | 一种数据并行处理方法及装置 |
CN106598913A (zh) * | 2016-12-23 | 2017-04-26 | 郑州云海信息技术有限公司 | 一种knl集群加速求解方法及装置 |
CN106897163A (zh) * | 2017-03-08 | 2017-06-27 | 郑州云海信息技术有限公司 | 一种基于knl平台的代数系统求解方法及系统 |
CN107273339A (zh) * | 2017-06-21 | 2017-10-20 | 郑州云海信息技术有限公司 | 一种任务处理方法及装置 |
CN113191105A (zh) * | 2021-03-22 | 2021-07-30 | 梁文毅 | 一种基于分布式并行运算方法的电气仿真方法 |
CN115952385A (zh) * | 2023-03-10 | 2023-04-11 | 山东省计算中心(国家超级计算济南中心) | 用于大规模稀疏方程组求解的并行超节点排序方法及系统 |
CN115952385B (zh) * | 2023-03-10 | 2023-05-05 | 山东省计算中心(国家超级计算济南中心) | 用于大规模稀疏方程组求解的并行超节点排序方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105260342A (zh) | 一种对称正定线性方程组的求解方法与系统 | |
CN107085562B (zh) | 一种基于高效复用数据流的神经网络处理器及设计方法 | |
US9158719B2 (en) | Heterogeneous parallel systems for accelerating simulations based on discrete grid numerical methods | |
Du et al. | Model parallelism optimization for distributed inference via decoupled CNN structure | |
Wang et al. | An FPGA implementation of the Hestenes-Jacobi algorithm for singular value decomposition | |
Erguiz et al. | Assessing sparse triangular linear system solvers on GPUs | |
CN116258042A (zh) | 一种基于ddm的大规模传热异构并行仿真方法 | |
Abi-Karam et al. | GenGNN: A generic FPGA framework for graph neural network acceleration | |
CN109753682B (zh) | 一种基于gpu端的有限元刚度矩阵模拟方法 | |
Cho et al. | FARNN: FPGA-GPU hybrid acceleration platform for recurrent neural networks | |
Wan et al. | Efficient CPU‐GPU cooperative computing for solving the subset‐sum problem | |
Villa et al. | Effects of floating-point non-associativity on numerical computations on massively multithreaded systems | |
CN116167304B (zh) | 基于神威架构的油藏数值模拟gmres优化方法及系统 | |
Bernhard | Computers: Computing at the speed limit: Computers 1000 times faster than today's supercomputers would benefit vital scientific applications | |
Alvarez et al. | Strategies for the heterogeneous execution of large-scale simulations on hybrid supercomputers | |
Lastovetsky | Heterogeneous parallel computing: from clusters of workstations to hierarchical hybrid platforms | |
Peng et al. | A Carry-free multiplication implementation method | |
Ramamonjisoa et al. | Simulation of asynchronous iterative algorithms using simgrid | |
Wang et al. | Parallel 3D deterministic particle transport on Intel MIC architecture | |
CN113705017A (zh) | 芯片设计方法、装置、芯片、电子设备及存储介质 | |
US9600446B2 (en) | Parallel multicolor incomplete LU factorization preconditioning processor and method of use thereof | |
Gonz'lez-Domínguez et al. | Design and performance issues of cholesky and lu solvers using upcblas | |
Wang et al. | An efficient architecture for floating-point eigenvalue decomposition | |
Campeanu et al. | Run-time component allocation in CPU-GPU embedded systems | |
Bernabé et al. | Exploiting hybrid parallelism in the kinematic analysis of multibody systems based on group equations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160120 |