CN112433853A - 一种面向超级计算机数据并行应用的异构感知数据划分方法 - Google Patents
一种面向超级计算机数据并行应用的异构感知数据划分方法 Download PDFInfo
- Publication number
- CN112433853A CN112433853A CN202011385997.9A CN202011385997A CN112433853A CN 112433853 A CN112433853 A CN 112433853A CN 202011385997 A CN202011385997 A CN 202011385997A CN 112433853 A CN112433853 A CN 112433853A
- Authority
- CN
- China
- Prior art keywords
- data
- communication
- supercomputer
- application
- partitioning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5066—Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3447—Performance evaluation by modeling
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Hardware Design (AREA)
- Bioinformatics & Computational Biology (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multi Processors (AREA)
Abstract
本发明公开了一种面向超级计算机数据并行应用的异构感知数据划分方法,针对超级计算机体系结构与其编程特点,结合数据并行应用的程序特性,将函数性能模型与τ‑Lop通信模型相结合,对数据划分问题进行最优化建模,并将最优化问题抽象为搜索树的搜索算法,利用强化学习中的蒙特卡洛树搜索方法快速搜索最优解,从而得出应用程序在超算平台上的最优划分结果。此方法为针对超级计算机平台开发、移植或优化数据并行应用的开发人员提供了一种通用的数据划分方法,实现对超算平台计算资源的充分利用,减小程序计算和通信开销,提升程序性能。
Description
技术领域
本发明属于计算机系统结构中的高性能计算领域,特别涉及一种面向超级计算机数据并行应用的异构感知数据划分方法。
背景技术
数据并行应用是指把数据划分成若干块分别映像到不同的处理器上,每一台处理器运行同样的处理程序对所分派的数据进行处理的应用,尤其对于异构处理器来说,数据并行应用的运行性能很大程度上取决于如何将所计算的数据在不同的处理器上进行划分与映射。
由于TianHe-2A超算平台中CPU与加速器的计算性能的巨大差异,以及节点间、节点内处理器间以及处理器内的各种通信方式的巨大性能差异,使得在TianHe-2A系统中对数据并行应用做数据划分成为了对应用做性能优化的关键步骤。现有技术无法实现结合TianHe-2A体系架构与编程特点使其上的数据并行应用充分发挥TianHe-2A超算平台及其处理器强大的计算能力并且能够完美地在CPU与加速器之间保持负载均衡。
发明内容
本发明的目的在于提供一种面向超级计算机数据并行应用的异构感知数据划分方法,以解决上述问题。
为实现上述目的,本发明采用以下技术方案:
一种面向超级计算机数据并行应用的异构感知数据划分方法,包括以下步骤:
步骤1,分析数据并行应用的计算特性,获取能够代表该应用计算特征的特征程序;
步骤2,使用步骤1获得的特征程序在超级计算机上进行实际测试,给定不同的计算数据量,得出相应的计算时间开销,从而得到不同的异构处理器的计算速度与所计算数据量大小的函数关系,构建函数性能模型;
步骤3,使用步骤2获得的函数性能模型,来预测出给定拓扑条件下应用的计算开销;
步骤4,分析数据并行应用的通信特性,结合超级计算机的硬件架构特性,得到给定拓扑条件下的通信关系与通信方式;
步骤5,使用τ-Lop通信模型对数据并行应用中的通信行为进行建模,再通过给定的benchmark在超级计算机上实测出τ-Lop模型的模型参数;
步骤6,使用步骤5获得的τ-Lop模型来预测给定拓扑条件下应用的通信开销;
步骤7,在给定拓扑条件下,针对步骤3预测的计算开销与步骤6预测的通信开销,对面向超级计算机的数据并行应用的异构感知数据划分问题建立最优化模型;
步骤8,对步骤7所建立的最优化模型,构建一棵多路平衡搜索树,由于该树在结构上的特殊性,采用蒙特卡洛树搜索的方法进行最优划分方案的求解,面向超级计算机的数据并行应用的异构感知数据划分方法结束。
进一步的,在步骤1中,数据并行应用是指把数据划分成若干块分别映像到不同的处理器上,每一台处理器运行同样的处理程序对所分派的数据进行处理的应用;计算特性是指对应用程序的运行时间与所计算数据量大小的函数关系的一种抽象;特征程序是指能够代表原应用程序的计算特征,并且运行时间尽可能小的程序,为原应用程序的一次迭代。
进一步的,在步骤2中,超级计算机指的是天河二号升级系统;
在天河二号升级系统上做实际测试时包含:
4)对于天河二号升级系统单节点的硬件平台,抽象为10个处理器,包括8个由一个SN与一个专用CPU核组成的抽象处理器与2个去除专用核的CPU组成的抽象处理器;
5)对每一组计算数据量,要在不同的处理器上同时运行程序以考虑资源竞争的影响;
6)对每一组计算数据量,要反复测试直到测得的运行时间满足一定的精度条件以破除随机性的影响,展示客观规律;
函数性能模型是指一种用于描述处理器性能的计算性能模型,它将处理器的速度抽象化为一个特定于具体应用且随着计算数据量大小变化而变化的函数,利用这些处理器速度函数对给定计算量的应用做只考虑计算性能的数据划分。
进一步的,在步骤3中,拓扑条件是指对数据划分方案的一种抽象,其表示为一个长度为p的数组x=[x1,x2,...,xp],其中xi表示第i个处理器所分配到的数据量,数组所有元素之和等于应用程序总数据量n;给定拓扑条件下的应用计算开销是指如下公式,其中si(x)表示第i个处理器计算x个数据量的速度,M为速度函数自变量取值范围,tcomp为其计算开销;
subjectto x0+x1+…+xp-1=n
0≤xi≤M,i=0,1,…,p-1
where p,n∈Z≥0and si(x)∈R>0
进一步的,在步骤4中,分析给定拓扑条件下的通信关系与通信方式是指在给定数据划分方案即x数组以后,确定要通信的两端的数据分别位于哪一节点/处理器/核上计算,从而根据硬件平台信息确定任意一对通信关系所经历的通信信道,在天河二号升级系统中,节点之间采用网络通信,节点内部CPU与SN之间采用RDMA方式通信,而处理器内部核之间采用共享内存方式通信。
进一步的,在步骤5中,τ-Lop通信模型是指用于预测并行应用的通信开销的一种通信性能模型,它对点对点通信以及集合通信都做了详细的建模,支持并发传输的建模,并且对异构系统有相应的扩展,其中点对点通信中包含了对共享内存通信、网络通信、RDMA通信以及并发通信四种方式的建模;benchmark是指基准测试程序,是用来测量性能的一系列基准程序;τ-Lop的模型参数主要包含两部分,oc表示在通信信道c中从通信函数调用到通信开始的时间,Lc(m,τ)表示在通信信道c中τ个长度为m的数据并发传输所需要的时间,这两个参数通过在超级计算机上运行IMB基准测试程序得到。
进一步的,在步骤6中,给定拓扑条件下应用的通信开销是指如下公式,其中p表示处理器个数,xi表示第i个处理器所分配到的数据量,mj为第j个数据块要通信的长度,cj为第j个数据块通信所用的传输信道,tcomm为其通信开销;
subject to x0+x1+…+xp-1=n
where p,n,m,c∈Z≥0。
进一步的,在步骤7中,建立的最优化模型是指如下公式所示,其中p表示处理器个数,n表示数据总量,xi表示第i个处理器所分配到的数据量,mj为第j个数据块要通信的长度,cj为第j个数据块通信所用的传输信道,si(x)表示第i个处理器的速度函数,速度函数自变量取值范围为0~M,Dopt为最优的划分方案,topt为其最优运行时间。该式子表示对于一个数据并行应用来说,优化目标是找到最优的划分方案使得应用程序的计算开销与通信开销之和最小;
subject to x0+x1+…+xp-1=n
0≤xi≤M,i=0,1,…,p-1
where p,m,c,n∈Z≥0and si(x)∈R>0。
进一步的,在步骤8中,构建多路平衡搜索树是指对于数据划分问题的最优化模型,将其抽象为一个P层M叉的搜索树,其中P为处理器个数,M为处理器速度函数的自变量取值范围,该搜索树的每个节点表示当前还有多少数据尚未分配,搜索树的每一条边表示给当前处理器分配若干数据的操作,求解最优化模型被抽象为在搜索树中搜索最优叶子节点的模型;该树在结构上的特殊性是指该树上每一个节点的值都是当前拓扑的计算开销与通信开销之和,该搜索树为非叶子节点值均为0的搜索树;蒙特卡洛树搜索通过选择、扩展、仿真、反向传播四个步骤来构建一个原搜索树的子树,搜索出最优解。
与现有技术相比,本发明有以下技术效果:
本发明公开了一种面向超级计算机数据并行应用的异构感知数据划分方法,针对超级计算机体系结构与其编程特点,结合数据并行应用的程序特性,将函数性能模型与τ-Lop通信模型相结合,对数据划分问题进行最优化建模,并将最优化问题抽象为搜索树的搜索算法,利用强化学习中的蒙特卡洛树搜索方法快速搜索最优解,从而得出应用程序在超级计算机上的最优划分结果。此方法为针对超级计算机平台开发、移植或优化数据并行应用的开发人员提供了一种通用的数据划分方法,实现对超算平台计算资源的充分利用,减小程序计算和通信开销,提升程序性能。
附图说明
图1为本发明的流程图。
具体实施方式
以下结合附图对本发明进一步说明:
本发明提出的一种面向超级计算机数据并行应用的异构感知数据划分方法,针对超级计算机平台体系结构及其编程特性,结合数据并行应用的程序特性,对数据划分问题进行最优化建模,利用强化学习中的蒙特卡洛树搜索方法快速搜索最优解,从而得出应用程序在超算平台上的最优划分方案。
请参阅图1,一种面向超级计算机数据并行应用的异构感知数据划分方法,包括以下步骤:
步骤1,分析数据并行应用的计算特性,即应用程序的运行时间大致受哪些因素影响,哪些影响较大等,然后获取能够代表该应用计算特征的特征程序,特征程序应尽可能大使得其能完美代表原应用程序的计算特性,特征程序也应尽可能小使得其运行时间尽可能短,通常特征程序选择为原应用程序的一次迭代;
步骤2,使用步骤1获得的特征程序在超级计算机系统上进行实际测试,其中超级计算机指的是天河二号升级系统。由于TianHe-2A单节点体系结构包含2个12核的CPU和8个32核的SN,而且SN的使用需要CPU核的参与调动,因此将TianHe-2A单节点抽象为10个抽象处理器,包含8个SN+专用CPU核组成的抽象处理器以及2个8CPU核组成的抽象处理器。在TianHe-2A平台实际测试时,对每一组计算数据量,要在不同的处理器上同时运行程序,用来考虑资源竞争的影响,同时对每一组计算数据量,要反复测试直到测试得到的运行时间满足一定的精度条件,比如要在95%置信区间中达到0.05的精度,用来破除随机性的影响,从而显示出客观规律;在实际测试之后,就可以用测得的给定计算数据量下特征程序的运行时间来构造出一个抽象处理器性能与应用程序数据量之间的函数关系,从而得到函数性能模型;
步骤3,使用步骤2获得的函数性能模型,那么如果给定一个拓扑条件/数据划分方案,即一个长度为p的数组x(p为处理器个数),其中xi表示第i个处理器所分配到的数据量,数组所有元素之和等于应用程序总数据量n,那么就可以预测当前拓扑条件下应用的计算开销,如下公式所示,其中si(x)表示第i个处理器的速度函数,M为速度函数自变量取值范围,tcomp为其计算开销;
subject to x0+x1+…+xp-1=n
0≤xi≤M,i=0,1,…,p-1
where p,n∈Z≥0and si(x)∈R>0
步骤4,分析数据并行应用的通信特性,在给定拓扑条件下,即指定划分方案数组x后,就可以确定通信的两端的数据分别位于哪一节点/处理器/核上计算,再结合TianHe-2A硬件平台特性,就可以确定任意一对通信关系所经历的通信信道,其中,节点之间采用网络通信,节点内部CPU与SN之间采用RDMA方式通信,而处理器内部核之间采用共享内存方式通信,从而就得到了给定拓扑条件下的通信关系与通信方式;
步骤5,使用τ-Lop通信模型对数据并行应用中的通信行为进行建模,这种通信模型是一种用于预测并行应用的通信开销的性能模型,它对点对点通信以及集合通信都做了详细的建模,支持并发传输的建模,并且对异构系统有相应的扩展,其中点对点通信中包含了对共享内存通信、网络通信、RDMA通信以及并发通信四种方式的建模,再通过IMB基准测试程序在TianHe-2A系统上实测出τ-Lop模型的模型参数,包含oc与Lc(m,τ)两部分,oc表示在通信信道c中从通信函数调用到通信开始的时间,Lc(m,τ)表示在通信信道c中τ个长度为m的数据并发传输所需要的时间;
步骤6,使用步骤5获得的τ-Lop模型来预测给定拓扑条件下应用的通信开销,如下公式所示,p表示处理器个数,xi表示第i个处理器所分配到的数据量,mj为第j个数据块要通信的长度,cj为第j个数据块通信所用的传输信道,tcomm为其通信开销;
subject to x0+x1+…+xp-1=n
where p,n,m,c∈Z≥0
步骤7,在给定拓扑条件下,针对步骤3预测的计算开销与步骤6预测的通信开销,对基于TianHe-2A系统的数据并行应用的数据划分问题建立最优化模型,模型如下公式所示,其中p表示处理器个数,n表示数据总量,xi表示第i个处理器所分配到的数据量,mj为第j个数据块要通信的长度,cj为第j个数据块通信所用的传输信道,si(x)表示第i个处理器的速度函数,速度函数自变量取值范围为0~M,Dopt为最优的划分方案,topt为其最优运行时间。该式子表示对于一个数据并行应用来说,优化目标是找到最优的划分方案使得应用程序的计算开销与通信开销之和最小。
subject to x0+x1+…+xp-1=n
0≤xi≤M,i=0,1,…,p-1
where p,m,c,n∈Z≥0and si(x)∈R>0
步骤8,对步骤7所建立的最优化模型,将其抽象成一棵多路平衡搜索树,该树共p层M叉,其中P为处理器个数,M为处理器速度函数的自变量取值范围,该搜索树的每个节点表示当前还有多少数据尚未分配,搜索树的每一条边表示给当前处理器分配若干数据的操作,求解最优化模型被抽象为在搜索树中搜索最优叶子节点的模型;由于该树在结构上的特殊性,即该树上每一个节点的值都是当前拓扑的计算开销与通信开销之和,由于最终拓扑的确定是预测通信开销的必要条件,因此该搜索树中非叶子节点的值是不可确定的,也就是说该搜索树为非叶子节点值均为0的搜索树,因此该搜索树需采用强化学习方法求解,同时由于该树的搜索空间极大(MP),而可行解空间极度稀疏,因此采用蒙特卡洛树搜索的方法进行最优划分方案的求解;蒙特卡洛树搜索是指一种启发式搜索算法,通过选择、扩展、仿真、反向传播四个步骤来构建一个原搜索树的子树,从而快速搜索出最优解,需要说明的是,搜索出的解一般是局部最优解,因此求解时需要指定最大迭代步数或者最长计算时间,从而搜索出在指定条件下的最优划分方案。
完成以上步骤之后就得到了当前数据并行应用的最优划分方案,后续可以根据该划分方案进行应用的配置。至此,面向超级计算机的数据并行应用的异构感知数据划分方法结束。
Claims (9)
1.一种面向超级计算机数据并行应用的异构感知数据划分方法,其特征在于,包括以下步骤:
步骤1,分析数据并行应用的计算特性,获取能够代表该应用计算特征的特征程序;
步骤2,使用步骤1获得的特征程序在超级计算机上进行实际测试,给定不同的计算数据量,得出相应的计算时间开销,从而得到不同的异构处理器的计算速度与所计算数据量大小的函数关系,构建函数性能模型;
步骤3,使用步骤2获得的函数性能模型,来预测出给定拓扑条件下应用的计算开销;
步骤4,分析数据并行应用的通信特性,结合超级计算机的硬件架构特性,得到给定拓扑条件下的通信关系与通信方式;
步骤5,使用τ-Lop通信模型对数据并行应用中的通信行为进行建模,再通过给定的benchmark在超级计算机上实测出τ-Lop模型的模型参数;
步骤6,使用步骤5获得的τ-Lop模型来预测给定拓扑条件下应用的通信开销;
步骤7,在给定拓扑条件下,针对步骤3预测的计算开销与步骤6预测的通信开销,对面向超级计算机的数据并行应用的异构感知数据划分问题建立最优化模型;
步骤8,对步骤7所建立的最优化模型,构建一棵多路平衡搜索树,由于该树在结构上的特殊性,采用蒙特卡洛树搜索的方法进行最优划分方案的求解,面向超级计算机的数据并行应用的异构感知数据划分方法结束。
2.根据权利要求1所述的一种面向超级计算机数据并行应用的异构感知数据划分方法,其特征在于,在步骤1中,数据并行应用是指把数据划分成若干块分别映像到不同的处理器上,每一台处理器运行同样的处理程序对所分派的数据进行处理的应用;计算特性是指对应用程序的运行时间与所计算数据量大小的函数关系的一种抽象;特征程序是指能够代表原应用程序的计算特征,并且运行时间尽可能小的程序,为原应用程序的一次迭代。
3.根据权利要求1所述的一种面向超级计算机数据并行应用的异构感知数据划分方法,其特征在于,在步骤2中,超级计算机指的是天河二号升级系统;
在天河二号升级系统上做实际测试时包含:
1)对于天河二号升级系统单节点的硬件平台,抽象为10个处理器,包括8个由一个SN与一个专用CPU核组成的抽象处理器与2个去除专用核的CPU组成的抽象处理器;
2)对每一组计算数据量,要在不同的处理器上同时运行程序以考虑资源竞争的影响;
3)对每一组计算数据量,要反复测试直到测得的运行时间满足一定的精度条件以破除随机性的影响,展示客观规律;
函数性能模型是指一种用于描述处理器性能的计算性能模型,它将处理器的速度抽象化为一个特定于具体应用且随着计算数据量大小变化而变化的函数,利用这些处理器速度函数对给定计算量的应用做只考虑计算性能的数据划分。
5.根据权利要求1所述的一种面向超级计算机数据并行应用的异构感知数据划分方法,其特征在于,在步骤4中,分析给定拓扑条件下的通信关系与通信方式是指在给定数据划分方案即x数组以后,确定要通信的两端的数据分别位于哪一节点/处理器/核上计算,从而根据硬件平台信息确定任意一对通信关系所经历的通信信道,在天河二号升级系统中,节点之间采用网络通信,节点内部CPU与SN之间采用RDMA方式通信,而处理器内部核之间采用共享内存方式通信。
6.根据权利要求1所述的一种面向超级计算机数据并行应用的异构感知数据划分方法,其特征在于,在步骤5中,τ-Lop通信模型是指用于预测并行应用的通信开销的一种通信性能模型,它对点对点通信以及集合通信都做了详细的建模,支持并发传输的建模,并且对异构系统有相应的扩展,其中点对点通信中包含了对共享内存通信、网络通信、RDMA通信以及并发通信四种方式的建模;benchmark是指基准测试程序,是用来测量性能的一系列基准程序;τ-Lop的模型参数主要包含两部分,oc表示在通信信道c中从通信函数调用到通信开始的时间,Lc(m,τ)表示在通信信道c中τ个长度为m的数据并发传输所需要的时间,这两个参数通过在超级计算机上运行IMB基准测试程序得到。
8.根据权利要求1所述的一种面向超级计算机数据并行应用的异构感知数据划分方法,其特征在于,在步骤7中,建立的最优化模型是指如下公式所示,其中p表示处理器个数,n表示数据总量,xi表示第i个处理器所分配到的数据量,mj为第j个数据块要通信的长度,cj为第j个数据块通信所用的传输信道,si(x)表示第i个处理器的速度函数,速度函数自变量取值范围为0~M,Dopt为最优的划分方案,topt为其最优运行时间;该式子表示对于一个数据并行应用来说,优化目标是找到最优的划分方案使得应用程序的计算开销与通信开销之和最小;
subject to x0+x1+…+xp-1=n
0≤xi≤M,i=0,1,…,p-1
where p,m,c,n∈Z≥0 and si(x)∈R>0。
9.根据权利要求1所述的一种面向超级计算机数据并行应用的异构感知数据划分方法,其特征在于,在步骤8中,构建多路平衡搜索树是指对于数据划分问题的最优化模型,将其抽象为一个P层M叉的搜索树,其中P为处理器个数,M为处理器速度函数的自变量取值范围,该搜索树的每个节点表示当前还有多少数据尚未分配,搜索树的每一条边表示给当前处理器分配若干数据的操作,求解最优化模型被抽象为在搜索树中搜索最优叶子节点的模型;该树在结构上的特殊性是指该树上每一个节点的值都是当前拓扑的计算开销与通信开销之和,该搜索树为非叶子节点值均为0的搜索树;蒙特卡洛树搜索通过选择、扩展、仿真、反向传播四个步骤来构建一个原搜索树的子树,搜索出最优解。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011385997.9A CN112433853B (zh) | 2020-11-30 | 2020-11-30 | 一种面向超级计算机数据并行应用的异构感知数据划分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011385997.9A CN112433853B (zh) | 2020-11-30 | 2020-11-30 | 一种面向超级计算机数据并行应用的异构感知数据划分方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112433853A true CN112433853A (zh) | 2021-03-02 |
CN112433853B CN112433853B (zh) | 2023-04-28 |
Family
ID=74698749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011385997.9A Active CN112433853B (zh) | 2020-11-30 | 2020-11-30 | 一种面向超级计算机数据并行应用的异构感知数据划分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112433853B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113448425A (zh) * | 2021-07-19 | 2021-09-28 | 哈尔滨工业大学 | 一种基于强化学习的动态并行应用程序能耗运行时优化方法及系统 |
CN113553279A (zh) * | 2021-07-30 | 2021-10-26 | 中科计算技术西部研究院 | 一种rdma通信加速集合通信的方法及系统 |
CN116450486A (zh) * | 2023-06-16 | 2023-07-18 | 浪潮电子信息产业股份有限公司 | 多元异构计算系统内节点的建模方法、装置、设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060101104A1 (en) * | 2004-10-12 | 2006-05-11 | International Business Machines Corporation | Optimizing layout of an application on a massively parallel supercomputer |
CN104834746A (zh) * | 2015-05-23 | 2015-08-12 | 华东交通大学 | 基于图形处理单元的异构特征时序数据演化聚类方法 |
CN106648654A (zh) * | 2016-12-20 | 2017-05-10 | 深圳先进技术研究院 | 一种数据感知的Spark配置参数自动优化方法 |
CN107168683A (zh) * | 2017-05-05 | 2017-09-15 | 中国科学院软件研究所 | 国产申威26010众核cpu上gemm稠密矩阵乘高性能实现方法 |
CN109408867A (zh) * | 2018-09-12 | 2019-03-01 | 西安交通大学 | 一种基于mic协处理器的显式r-k时间推进加速方法 |
CN110543663A (zh) * | 2019-07-22 | 2019-12-06 | 西安交通大学 | 一种面向粗粒度MPI+OpenMP混合并行的结构网格区域划分方法 |
CN111934948A (zh) * | 2020-07-20 | 2020-11-13 | 浙江理工大学 | 基于蒙特卡洛树搜索的efsm可执行测试序列生成方法 |
-
2020
- 2020-11-30 CN CN202011385997.9A patent/CN112433853B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060101104A1 (en) * | 2004-10-12 | 2006-05-11 | International Business Machines Corporation | Optimizing layout of an application on a massively parallel supercomputer |
CN104834746A (zh) * | 2015-05-23 | 2015-08-12 | 华东交通大学 | 基于图形处理单元的异构特征时序数据演化聚类方法 |
CN106648654A (zh) * | 2016-12-20 | 2017-05-10 | 深圳先进技术研究院 | 一种数据感知的Spark配置参数自动优化方法 |
CN107168683A (zh) * | 2017-05-05 | 2017-09-15 | 中国科学院软件研究所 | 国产申威26010众核cpu上gemm稠密矩阵乘高性能实现方法 |
CN109408867A (zh) * | 2018-09-12 | 2019-03-01 | 西安交通大学 | 一种基于mic协处理器的显式r-k时间推进加速方法 |
CN110543663A (zh) * | 2019-07-22 | 2019-12-06 | 西安交通大学 | 一种面向粗粒度MPI+OpenMP混合并行的结构网格区域划分方法 |
CN111934948A (zh) * | 2020-07-20 | 2020-11-13 | 浙江理工大学 | 基于蒙特卡洛树搜索的efsm可执行测试序列生成方法 |
Non-Patent Citations (3)
Title |
---|
李秉政 等: "面向申威众核处理器的LZMA并行算法设计与优化", 《计算机科学与探索》 * |
洪文杰等: "面向神威-太湖之光的PETSc可扩展异构并行算法及其性能优化", 《计算机学报》 * |
王勇献等: "结构网格CFD应用程序在天河超级计算机上的高效并行与优化", 《电子学报》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113448425A (zh) * | 2021-07-19 | 2021-09-28 | 哈尔滨工业大学 | 一种基于强化学习的动态并行应用程序能耗运行时优化方法及系统 |
CN113448425B (zh) * | 2021-07-19 | 2022-09-09 | 哈尔滨工业大学 | 一种基于强化学习的动态并行应用程序能耗运行时优化方法及系统 |
CN113553279A (zh) * | 2021-07-30 | 2021-10-26 | 中科计算技术西部研究院 | 一种rdma通信加速集合通信的方法及系统 |
CN116450486A (zh) * | 2023-06-16 | 2023-07-18 | 浪潮电子信息产业股份有限公司 | 多元异构计算系统内节点的建模方法、装置、设备及介质 |
CN116450486B (zh) * | 2023-06-16 | 2023-09-05 | 浪潮电子信息产业股份有限公司 | 多元异构计算系统内节点的建模方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112433853B (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112433853B (zh) | 一种面向超级计算机数据并行应用的异构感知数据划分方法 | |
You et al. | Fast deep neural network training on distributed systems and cloud TPUs | |
Bhimani et al. | Fim: performance prediction for parallel computation in iterative data processing applications | |
CN101278293B (zh) | 多处理器系统的性能仿真 | |
US8397204B2 (en) | System and methodology for development of a system architecture using optimization parameters | |
CN113095474A (zh) | 深度学习模型的资源使用情况预测 | |
CN111966495B (zh) | 数据处理方法和装置 | |
Lee et al. | A systematic design space exploration of MPSoC based on synchronous data flow specification | |
CN108509453B (zh) | 一种信息处理方法及装置 | |
CN111752678A (zh) | 面向边缘计算中分布式协同学习的低功耗容器放置方法 | |
Rico-Gallego et al. | Model-based estimation of the communication cost of hybrid data-parallel applications on heterogeneous clusters | |
Cai et al. | Tensoropt: Exploring the tradeoffs in distributed dnn training with auto-parallelism | |
CN109088776A (zh) | 一种基于超级计算机的并行cfd计算与通信重叠优化方法 | |
Zhang et al. | Optimizing execution for pipelined‐based distributed deep learning in a heterogeneously networked GPU cluster | |
CN104778088A (zh) | 一种基于减少进程间通信开销的并行i/o优化方法与系统 | |
CN116868202A (zh) | 一种数据处理方法、装置、设备及介质 | |
CN109711555B (zh) | 一种预测深度学习模型单轮迭代时间的方法和系统 | |
Chen et al. | Performance evaluation of convolutional neural network on Tianhe-3 prototype | |
CN116303219A (zh) | 一种网格文件的获取方法、装置及电子设备 | |
Uddin et al. | Cache-based high-level simulation of microthreaded many-core architectures | |
Alaniz et al. | Mbspdiscover: An automatic benchmark for multibsp performance analysis | |
Bytyn et al. | Dataflow aware mapping of convolutional neural networks onto many-core platforms with network-on-chip interconnect | |
CN108846248B (zh) | 一种应用建模及性能预测方法 | |
Tran et al. | A distributed data mining framework accelerated with graphics processing units | |
Zykov et al. | Application of information processes applicative modelling to virtual machines auto configuration |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |