CN113127200A - 一种基于异构众核的lbm并行优化方法 - Google Patents
一种基于异构众核的lbm并行优化方法 Download PDFInfo
- Publication number
- CN113127200A CN113127200A CN202110440081.7A CN202110440081A CN113127200A CN 113127200 A CN113127200 A CN 113127200A CN 202110440081 A CN202110440081 A CN 202110440081A CN 113127200 A CN113127200 A CN 113127200A
- Authority
- CN
- China
- Prior art keywords
- lbm
- core
- calculation
- communication
- parallel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000005457 optimization Methods 0.000 title claims abstract description 21
- 238000004364 calculation method Methods 0.000 claims abstract description 64
- 230000006854 communication Effects 0.000 claims abstract description 46
- 238000004891 communication Methods 0.000 claims abstract description 43
- 230000008569 process Effects 0.000 claims abstract description 39
- 238000013500 data storage Methods 0.000 claims abstract description 11
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 4
- 238000013508 migration Methods 0.000 claims description 13
- 230000005012 migration Effects 0.000 claims description 13
- 238000005315 distribution function Methods 0.000 claims description 12
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000001133 acceleration Effects 0.000 claims description 2
- 230000003139 buffering effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 4
- 238000005192 partition Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000012530 fluid Substances 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/14—Handling requests for interconnection or transfer
- G06F13/20—Handling requests for interconnection or transfer for access to input/output bus
- G06F13/28—Handling requests for interconnection or transfer for access to input/output bus using burst mode transfer, e.g. direct memory access DMA, cycle steal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/28—Design optimisation, verification or simulation using fluid dynamics, e.g. using Navier-Stokes equations or computational fluid dynamics [CFD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/3005—Arrangements for executing specific machine instructions to perform operations for flow control
- G06F9/30065—Loop control instructions; iterative instructions, e.g. LOOP, REPEAT
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30098—Register arrangements
- G06F9/30141—Implementation provisions of register files, e.g. ports
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3854—Instruction completion, e.g. retiring, committing or graduating
- G06F9/3856—Reordering of instructions, e.g. using queues or age tags
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Fluid Mechanics (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及一种基于异构众核的LBM并行优化方法,其包括以下步骤:步骤一,根据LBM并行运算特性对“神威·太湖之光”的单核组进行数据储存、循环运算、通信方式上进行优化;步骤二,在LDM上,采取双缓冲模式让LBM并行计算更加高效,同时采取了新的数据块格式;步骤三,在进程任务划分上,根据并行度和算法难易,采取二维划分策略,同时根据LBM并行运算特性进行了计算结构的优化。本发明使得“神威·太湖之光”的物理架构能够有更加适合LBM并行的数据通信方式和数据结构,同时通过合理的分配方案,进一步提高LBM方法的并行效率。
Description
技术领域
本发明涉及一种LBM并行优化方法,尤其是涉及一种基于异构众核的LBM并行优化方法。
背景技术
随着CFD应用到不同的领域,相应的物理过程和几何模型变得越来越复杂,计算的网格规模变得更大,这些对机器的计算能力、存储容量、网络带宽和计算资源提出了更高的挑战。LBM方法作为一种十分重要的计算流体力学方法,由于其是基于介观动力学,需要大量的计算资源。对于此问题展开了大量的并行计算研究。
目前已经有大量针对LBM方法的并行研究,有相应的科学应用。这些大多以GPU架构或者多核CPU结构为研究基础,然而现在仍然缺少针对“神威·太湖之光”异构众核的体系结构的LBM方法并行的研究。
目前,对于“神威·太湖之光”异构众核的体系结构的LBM并行计算,主要包括以下问题:
(1)LBM程序中,有着大量的计算变量,每次进行计算都要从不同区域获取变量,增加了数据读取的时间消耗。
(2)LBM并行计算过程中,数据之间的通信会带来时间的消耗,从而影响计算速度。
(3)并行计算过程中,从核的数据通信也是影响计算速度的一个关键点。
(4)多节点的并行优化
发明内容
本发明的目的在于对“神威·太湖之光”异构众核的体系结构的LBM并行计算进行优化,进而节省计算资源和计算时间,提出了一种基于异构众核的LBM并行优化方法。LBM程序并行流程包括串行部分的计算区域和物理模型的建立、计算任务的并行划分、初始物理参数的设计和边界条件的选择等等。并行部分包括碰撞过程和迁移过程的计算、边界部分的处理、宏观量的计算。对于一个特定物理问题的计算,首先需要进行相应的前处理步骤,计算区域大小的选择、物理模型位置的确定和选择合适的格子Boltzmann模型,根据格子Boltzmann模型,选择相应的控制方程。根据计算区域和物理模型生成基于笛卡尔坐标系的流场网格。然后,根据计算节点的个数进行计算任务的划分,使每个计算节点计算任务量达到负载均衡为目标。
应用该并行优化方法一方面可以使得“神威·太湖之光”的物理架构能够有更加适合LBM并行的数据通信方式和数据结构,同时通过合理的分配方案,进一步提高LBM方法的并行效率。
为达到上述目的,本发明的构思是:首先基于LBM并行运算的特性对“神威·太湖之光”的单个核组进行优化,“神威·太湖之光”处理器的特殊物理架构可以更好的利用主从核的资源。在数据储存的优化上,将数据储存格式改为数据结构体结构,按照格点信息类别分别储存;在循环运算上,对循环迭代过程进行展开、指令重排;在通信方式上,启动从核之间的寄存器通信;在LDM上,采取双缓冲模式让碰撞迁移计算过程更加高效。最后在进程任务划分上,综合了并行度和算法设计难度,采取了二维划分策略。
根据上述发明构思,本发明一种基于异构众核的LBM并行优化方法包括以下步骤:
步骤一,根据LBM并行运算特性对“神威·太湖之光”的单核组进行数据储存、循环运算、通信方式上进行优化;
步骤二,在LDM上,采取双缓冲模式让LBM并行计算更加高效,同时采取了新的数据块格式;
步骤三,在进程任务划分上,根据并行度和算法难易,采取二维划分策略,同时根据LBM并行运算特性进行了计算结构的优化。
优选地,所述步骤一包括:
步骤十一,优化后的数据存储格式,存储格式为数组结构体结构体(Structure ofArray)结构。按照格点信息类别分别存储格点的类型信息、格点的邻居信息和格点的分布函数(包括碰撞后和迁移后的分布函数),但是化后的格点碰撞过程仍然需要其18个邻居的分布函数信息,但是由于其所有邻居的分布函数存储在内存连续的区域,因此计算过程在读取过程没有过多消耗;
步骤十二,LBM并行程序中存在大量循环迭代计算,通过对这些循环迭代过程进行展开、指令重排能够提高对寄存器的利用效率,避免过多不必要的读写操作,提高程序的访存效率,加快程序的执行效率;
步骤十三,为了充分减少通信带来的时间消耗,启动从核之间的寄存器通信,该通信方式速度远超过直接访问主存方式。这个过程需要将64个计算核心的数据规约到0号核心。因为从核之间的寄存器通信只能进行行与行或者列与列之间的通信,为了加快该规约过程的速度,程序规约过程。首先,对于每一行,0、2、4、6号核心分别接收1、3、5、7号核心的结果。然后,0号和4号核心分别接收2、6号核心的结果。最后0号核心得到每行最终的结果。
优选地,所述步骤二的LDM优化,申威26010处理器中每个计算核心有64KB大小的LDM,从核可以通过DMA方式与主存进行数据通信,为了提高“申威26010”处理器的加速性能,降低从核间的通信开销是一个关键步骤。双缓冲模式是在需要多次DMA读写操作的碰撞迁移计算过程中,在从核的局部存储空间上申请大小为通信数据2倍的内存空间,用来存放两份同样大小且互为对方的缓冲数据。通过程序控制来实现双缓冲模式,除了第一次和最后一次的数据通信过程,每次从核进行计算的同时,进行下一次计算的读取(或存储)数据的通信。同时提出新的数据块格式,以适合双缓冲模式的数据块传递。
优选地,所述步骤三的进程任务划分,二维划分策略需要跟上下左右四个面交换面上的数据,跟右上、左上、左下和右下交换边的数据。这种策略能够保证并行度和通信复杂度都能得到均衡,为算法的可扩展性提供了很好的基础;计算结构上,计算核心阵列负责算法中碰撞与迁移部分的计算,这部分也是算法中计算最密集的部分,能够充分利用计算核心资源。
本发明的方法,与现有技术相比,具有以下突出的实质性特点和显著优点:
一、本发明根据LBM并行运算的特点,对神威太湖之光的数据储存改编为数组结构体结构大大减小了读取过程中时间的消耗,对于并行运算进行了展开和重排使得其效率更好,同时也优化了通信方式,大大减小了通信所带来的时间消耗。
二、本发明在充分研究了申威26010处理的LDM特点后,根据对并行运算的特性,优化了LDM,采取了双缓冲模式,每一次从核进行计算的同时,进行下一次计算的读取,大大降低了从核之间的通信开销,与此同时改进了数据块格式。
三、本发明在任务进程划分上采取了二维划分策略,这种划分保证了算法的并行性和扩展性,同时算法设计难度也降低了,计算结构上讲计算核心阵列负责LBM并行算法中的碰撞与迁移部分,优化了计算结构。
附图说明
图1为LBM并行算法流程图。
图2为优化后数据结构图。
图3为优化后迭代过程图
图4为寄存器通信优化图
图5为双缓冲模式下第i步的通信和计算的相互隐藏原理图
图6为算法数据存储结构图
图7为二维划分策略通信方式图
图8为计算结构图
图9为两个算法的通信和计算时间占比
具体实施方式
以下结合附图对本发明的优选实施例进一步详细说明。
如图1所示,LBM并行算法括串行部分的计算区域和物理模型的建立、计算任务的并行划分、初始物理参数的设计和边界条件的选择等等。并行部分包括碰撞过程和迁移过程的计算、边界部分的处理、宏观量的计算
对于一个特定物理问题的计算,首先需要进行相应的前处理步骤,计算区域大小的选择、物理模型位置的确定和选择合适的格子Boltzmann模型,根据格子Boltzmann模型,选择相应的控制方程。根据计算区域和物理模型生成基于笛卡尔坐标系的流场网格。然后,根据计算节点的个数进行计算任务的划分,使每个计算节点计算任务量达到负载均衡为目标。
在前处理处理结束后,确定流场内每个网格点相应的物理参数,雷诺数、初始速度方向和大小、初始密度和温度等,并计算网格点的平衡态分布函数。其次,根据控制方程,采用格子Boltzmann模型的碰撞迁移规则进行迭代计算,求解包括流场点和边界点的分布函数。最后,判断迭代过程是否结束。
本实施例是流场规模为3000*1000*8000共24亿网格,分别利用200个主核和200个核组(共13000核)。
步骤一,首先在计算之间,对神威·太湖之光”的单核组进行数据储存、循环运算、通信方式上进行优化,然后在进行200个主核和200个核组(共13000核)的LBM并行计算。
步骤十一,如图2所示在进行计算之前把数据储存格式进行优化,首先要确定所有格点的类型,然后确定所有格点的邻居信息,最后确定所有格点的分布函数,通过确定格点类型、邻居信息、分布函数,分别进行储存,这样可以减少性能的损失。
步骤十二,如图3所示把所有的迭代循环进行拆开,可以看见每次计算过程中执行更多的数据操作,减少了多次循环开销带来的影响。
步骤十三,如图4所示,首先,对于每一行,0、2、4、6号核心分别接收1、3、5、7号核心的结果。然后,0号和4号核心分别接收2、6号核心的结果。最后0号核心得到每行最终的结果。之后每列循环在行上的操作,最终0号核心可以得到64个核心的结果。
步骤二,如图5所示,在从核的局部存储空间上申请大小为通信数据2倍的内存空间,用来存放两份同样大小且互为对方的缓冲数据,可以看出在第一块内存进行计算过程的时候,第二块数据块进行通信过程,同时采取(2+2)*(2+2)*h大小的数据块区计算2*2*h大小的运算数据。这一改动可以使得计算每个格点数据所需要的格点数据可以由9个变成4.5个,DMA传输数据效率提高一倍。
步骤三,如图6中显示了算法的计算数据结构示意图,边界格点区域和内部格点区域是需要计算的格点,所有格点在计算时需要其周围邻居节点的信息,缓冲格点作为缓冲区从邻居进程接收数据,接收的数据为位于邻居进程的边界格点数据,边界格点需要缓冲数据接收完毕后进行计算,内部数据区不需要接收的数据直接进行计算。如图7中展示了二维划分策略的数据传递方法。二维划分策略需要跟上下左右四个面交换面上的数据,跟右上、左上、左下和右下交换边的数据。这种策略能够保证并行度和通信复杂度都能得到均衡,为算法的可扩展性提供了很好的基础。如图8所示,计算核心阵列负责算法中碰撞与迁移部分的计算,这部分也是算法中计算最密集的部分,能够充分利用计算核心资源。我们对算法进行了优化,计算核心进行碰撞迁移计算的同时,计算管理核心进行数据交换操作,即相邻进程的边界数据发送到其邻居的缓冲数据区。这种分配主核和从核进行不同的任务,能够把通信花费的时间隐藏在计算过程中,计算核心可以持续的进行计算,而不需要在一个时间步结束后进行等待。
本文将此方法和传统LBM并行算法进行对比,两个方法的通信和计算时间占比,如图9所示,首先,可以发现在众核结构中,通信时间相对于计算时间的比例较大,算法中通过主核通信和计算核心计算同时进行的方式能够明显的提高计算性能。其次,算法中通过利用计算核心的并行能力提高了算法68.5倍的计算效率。
本文结合说明书附图和具体实施例进行阐述只是用于帮助理解本发明的方法和核心思想。本发明所述的方法并不限于具体实施方式中所述的实施例,本领域技术人员依据本发明的方法和思想得出的其它实施方式,同样属于本发明的技术创新范围。本说明书内容不应理解为对本发明的限制。
Claims (4)
1.一种基于异构众核的LBM并行优化方法,其特征在于,其包括以下步骤:
步骤一,根据LBM并行运算特性对“神威·太湖之光”的单核组进行数据储存、循环运算、通信方式上进行优化;
步骤二,在LDM上,采取双缓冲模式让LBM并行计算更加高效,同时采取了新的数据块格式;
步骤三,在进程任务划分上,根据并行度和算法难易,采取二维划分策略,同时根据LBM并行运算特性进行了计算结构的优化。
2.根据权利要求1所述的基于异构众核的LBM并行优化方法,其特征在于,所述步骤一包括:
步骤十一,优化后的数据存储格式,存储格式为数组结构体结构体(Structure ofArray)结构。按照格点信息类别分别存储格点的类型信息、格点的邻居信息和格点的分布函数(包括碰撞后和迁移后的分布函数),但是化后的格点碰撞过程仍然需要其18个邻居的分布函数信息,但是由于其所有邻居的分布函数存储在内存连续的区域,因此计算过程在读取过程没有过多消耗;
步骤十二,LBM并行程序中存在大量循环迭代计算,通过对这些循环迭代过程进行展开、指令重排能够提高对寄存器的利用效率,避免过多不必要的读写操作,提高程序的访存效率,加快程序的执行效率;
步骤十三,为了充分减少通信带来的时间消耗,启动从核之间的寄存器通信,该通信方式速度远超过直接访问主存方式。这个过程需要将64个计算核心的数据规约到0号核心。因为从核之间的寄存器通信只能进行行与行或者列与列之间的通信,为了加快该规约过程的速度,程序规约过程。首先,对于每一行,0、2、4、6号核心分别接收1、3、5、7号核心的结果。然后,0号和4号核心分别接收2、6号核心的结果。最后0号核心得到每行最终的结果。
3.根据权利要求1所述的基于异构众核的LBM并行优化方法,其特征在于,所述步骤二LDM优化包括:
申威26010处理器中每个计算核心有64KB大小的LDM,从核可以通过DMA方式与主存进行数据通信,为了提高“申威26010”处理器的加速性能,降低从核间的通信开销是一个关键步骤。双缓冲模式是在需要多次DMA读写操作的碰撞迁移计算过程中,在从核的局部存储空间上申请大小为通信数据2倍的内存空间,用来存放两份同样大小且互为对方的缓冲数据。通过程序控制来实现双缓冲模式,除了第一次和最后一次的数据通信过程,每次从核进行计算的同时,进行下一次计算的读取(或存储)数据的通信。同时提出新的数据块格式,以适合双缓冲模式的数据块传递。
4.根据权利要求1所述的基于异构众核的LBM并行优化方法,其特征在于,所述步骤三包括:
二维划分策略需要跟上下左右四个面交换面上的数据,跟右上、左上、左下和右下交换边的数据。这种策略能够保证并行度和通信复杂度都能得到均衡,为算法的可扩展性提供了很好的基础;计算结构上,计算核心阵列负责算法中碰撞与迁移部分的计算,这部分也是算法中计算最密集的部分,能够充分利用计算核心资源。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110440081.7A CN113127200A (zh) | 2021-04-23 | 2021-04-23 | 一种基于异构众核的lbm并行优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110440081.7A CN113127200A (zh) | 2021-04-23 | 2021-04-23 | 一种基于异构众核的lbm并行优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113127200A true CN113127200A (zh) | 2021-07-16 |
Family
ID=76779339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110440081.7A Pending CN113127200A (zh) | 2021-04-23 | 2021-04-23 | 一种基于异构众核的lbm并行优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113127200A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188462A (zh) * | 2019-05-29 | 2019-08-30 | 无锡恒鼎超级计算中心有限公司 | 基于神威架构的lbm算法优化方法 |
CN110187975A (zh) * | 2019-06-04 | 2019-08-30 | 成都申威科技有限责任公司 | 一种基于lbm的处理器节点分配计算方法、存储介质及终端设备 |
-
2021
- 2021-04-23 CN CN202110440081.7A patent/CN113127200A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188462A (zh) * | 2019-05-29 | 2019-08-30 | 无锡恒鼎超级计算中心有限公司 | 基于神威架构的lbm算法优化方法 |
CN110187975A (zh) * | 2019-06-04 | 2019-08-30 | 成都申威科技有限责任公司 | 一种基于lbm的处理器节点分配计算方法、存储介质及终端设备 |
Non-Patent Citations (2)
Title |
---|
刘垚: "基于申威众核架构的启发式算法的异构并行研究", 基于申威众核架构的启发式算法的异构并行研究, no. 2019, 15 September 2019 (2019-09-15), pages 1 - 156 * |
王良军: "基于国产神威超级计算机的格子Boltzmann方法及应用研究", 硕士电子期刊, no. 2020, 15 March 2020 (2020-03-15), pages 1 - 72 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110619595B (zh) | 一种基于多fpga加速器互联的图计算优化方法 | |
CN112306678B (zh) | 一种基于异构众核处理器的算法并行处理方法及系统 | |
CN109002659B (zh) | 一种基于超级计算机的流体机械仿真程序优化方法 | |
CN113835758B (zh) | 基于向量指令加速计算的Winograd卷积实现方法 | |
CN113220630B (zh) | 一种硬件加速器的可重构阵列优化方法及自动调优方法 | |
CN112181894B (zh) | 一种基于申威众核处理器的核组内分组自适应调整运行方法 | |
CN114970294A (zh) | 基于神威架构的三维应变仿真pcg并行优化方法及系统 | |
CN111429974B (zh) | 超级计算机平台上的分子动力学模拟短程力并行优化方法 | |
JP6551751B2 (ja) | マルチプロセッサ装置 | |
CN110414672B (zh) | 卷积运算方法、装置及系统 | |
CN110222007B (zh) | 一种基于申威众核处理器的加速运行方法 | |
US20090064120A1 (en) | Method and apparatus to achieve maximum outer level parallelism of a loop | |
CN118012629A (zh) | 基于向量化的异构多域处理器的lbm自适应多层网格划分与调度优化方法 | |
Xu et al. | Loop interchange and tiling for multi-dimensional loops to minimize write operations on NVMs | |
CN113127200A (zh) | 一种基于异构众核的lbm并行优化方法 | |
Lin et al. | swFLOW: A dataflow deep learning framework on sunway taihulight supercomputer | |
US8090762B2 (en) | Efficient super cluster implementation for solving connected problems in a distributed environment | |
CN111191774A (zh) | 面向精简卷积神经网络的低代价加速器架构及其处理方法 | |
US11886934B2 (en) | Control of data transfer between processing nodes | |
CN110415162B (zh) | 大数据中面向异构融合处理器的自适应图划分方法 | |
CN110704693A (zh) | 分布式图计算系统和分布式图计算方法 | |
CN113065035A (zh) | 一种单机核外属性图计算方法 | |
CN118409801B (zh) | 基于申威众核处理器的含依赖及交叉循环从核优化方法 | |
EP2793141B1 (en) | Engine control device | |
CN112559031B (zh) | 基于数据结构的众核程序重构方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |