CN113127200A - 一种基于异构众核的lbm并行优化方法 - Google Patents

一种基于异构众核的lbm并行优化方法 Download PDF

Info

Publication number
CN113127200A
CN113127200A CN202110440081.7A CN202110440081A CN113127200A CN 113127200 A CN113127200 A CN 113127200A CN 202110440081 A CN202110440081 A CN 202110440081A CN 113127200 A CN113127200 A CN 113127200A
Authority
CN
China
Prior art keywords
lbm
core
calculation
communication
parallel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110440081.7A
Other languages
English (en)
Inventor
张武
张晓潇
其他发明人请求不公开姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Information Technology Co ltd
Original Assignee
Suzhou Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Information Technology Co ltd filed Critical Suzhou Information Technology Co ltd
Priority to CN202110440081.7A priority Critical patent/CN113127200A/zh
Publication of CN113127200A publication Critical patent/CN113127200A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/14Handling requests for interconnection or transfer
    • G06F13/20Handling requests for interconnection or transfer for access to input/output bus
    • G06F13/28Handling requests for interconnection or transfer for access to input/output bus using burst mode transfer, e.g. direct memory access DMA, cycle steal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/28Design optimisation, verification or simulation using fluid dynamics, e.g. using Navier-Stokes equations or computational fluid dynamics [CFD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3005Arrangements for executing specific machine instructions to perform operations for flow control
    • G06F9/30065Loop control instructions; iterative instructions, e.g. LOOP, REPEAT
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/30141Implementation provisions of register files, e.g. ports
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3854Instruction completion, e.g. retiring, committing or graduating
    • G06F9/3856Reordering of instructions, e.g. using queues or age tags
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Fluid Mechanics (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种基于异构众核的LBM并行优化方法,其包括以下步骤:步骤一,根据LBM并行运算特性对“神威·太湖之光”的单核组进行数据储存、循环运算、通信方式上进行优化;步骤二,在LDM上,采取双缓冲模式让LBM并行计算更加高效,同时采取了新的数据块格式;步骤三,在进程任务划分上,根据并行度和算法难易,采取二维划分策略,同时根据LBM并行运算特性进行了计算结构的优化。本发明使得“神威·太湖之光”的物理架构能够有更加适合LBM并行的数据通信方式和数据结构,同时通过合理的分配方案,进一步提高LBM方法的并行效率。

Description

一种基于异构众核的LBM并行优化方法
技术领域
本发明涉及一种LBM并行优化方法,尤其是涉及一种基于异构众核的LBM并行优化方法。
背景技术
随着CFD应用到不同的领域,相应的物理过程和几何模型变得越来越复杂,计算的网格规模变得更大,这些对机器的计算能力、存储容量、网络带宽和计算资源提出了更高的挑战。LBM方法作为一种十分重要的计算流体力学方法,由于其是基于介观动力学,需要大量的计算资源。对于此问题展开了大量的并行计算研究。
目前已经有大量针对LBM方法的并行研究,有相应的科学应用。这些大多以GPU架构或者多核CPU结构为研究基础,然而现在仍然缺少针对“神威·太湖之光”异构众核的体系结构的LBM方法并行的研究。
目前,对于“神威·太湖之光”异构众核的体系结构的LBM并行计算,主要包括以下问题:
(1)LBM程序中,有着大量的计算变量,每次进行计算都要从不同区域获取变量,增加了数据读取的时间消耗。
(2)LBM并行计算过程中,数据之间的通信会带来时间的消耗,从而影响计算速度。
(3)并行计算过程中,从核的数据通信也是影响计算速度的一个关键点。
(4)多节点的并行优化
发明内容
本发明的目的在于对“神威·太湖之光”异构众核的体系结构的LBM并行计算进行优化,进而节省计算资源和计算时间,提出了一种基于异构众核的LBM并行优化方法。LBM程序并行流程包括串行部分的计算区域和物理模型的建立、计算任务的并行划分、初始物理参数的设计和边界条件的选择等等。并行部分包括碰撞过程和迁移过程的计算、边界部分的处理、宏观量的计算。对于一个特定物理问题的计算,首先需要进行相应的前处理步骤,计算区域大小的选择、物理模型位置的确定和选择合适的格子Boltzmann模型,根据格子Boltzmann模型,选择相应的控制方程。根据计算区域和物理模型生成基于笛卡尔坐标系的流场网格。然后,根据计算节点的个数进行计算任务的划分,使每个计算节点计算任务量达到负载均衡为目标。
应用该并行优化方法一方面可以使得“神威·太湖之光”的物理架构能够有更加适合LBM并行的数据通信方式和数据结构,同时通过合理的分配方案,进一步提高LBM方法的并行效率。
为达到上述目的,本发明的构思是:首先基于LBM并行运算的特性对“神威·太湖之光”的单个核组进行优化,“神威·太湖之光”处理器的特殊物理架构可以更好的利用主从核的资源。在数据储存的优化上,将数据储存格式改为数据结构体结构,按照格点信息类别分别储存;在循环运算上,对循环迭代过程进行展开、指令重排;在通信方式上,启动从核之间的寄存器通信;在LDM上,采取双缓冲模式让碰撞迁移计算过程更加高效。最后在进程任务划分上,综合了并行度和算法设计难度,采取了二维划分策略。
根据上述发明构思,本发明一种基于异构众核的LBM并行优化方法包括以下步骤:
步骤一,根据LBM并行运算特性对“神威·太湖之光”的单核组进行数据储存、循环运算、通信方式上进行优化;
步骤二,在LDM上,采取双缓冲模式让LBM并行计算更加高效,同时采取了新的数据块格式;
步骤三,在进程任务划分上,根据并行度和算法难易,采取二维划分策略,同时根据LBM并行运算特性进行了计算结构的优化。
优选地,所述步骤一包括:
步骤十一,优化后的数据存储格式,存储格式为数组结构体结构体(Structure ofArray)结构。按照格点信息类别分别存储格点的类型信息、格点的邻居信息和格点的分布函数(包括碰撞后和迁移后的分布函数),但是化后的格点碰撞过程仍然需要其18个邻居的分布函数信息,但是由于其所有邻居的分布函数存储在内存连续的区域,因此计算过程在读取过程没有过多消耗;
步骤十二,LBM并行程序中存在大量循环迭代计算,通过对这些循环迭代过程进行展开、指令重排能够提高对寄存器的利用效率,避免过多不必要的读写操作,提高程序的访存效率,加快程序的执行效率;
步骤十三,为了充分减少通信带来的时间消耗,启动从核之间的寄存器通信,该通信方式速度远超过直接访问主存方式。这个过程需要将64个计算核心的数据规约到0号核心。因为从核之间的寄存器通信只能进行行与行或者列与列之间的通信,为了加快该规约过程的速度,程序规约过程。首先,对于每一行,0、2、4、6号核心分别接收1、3、5、7号核心的结果。然后,0号和4号核心分别接收2、6号核心的结果。最后0号核心得到每行最终的结果。
优选地,所述步骤二的LDM优化,申威26010处理器中每个计算核心有64KB大小的LDM,从核可以通过DMA方式与主存进行数据通信,为了提高“申威26010”处理器的加速性能,降低从核间的通信开销是一个关键步骤。双缓冲模式是在需要多次DMA读写操作的碰撞迁移计算过程中,在从核的局部存储空间上申请大小为通信数据2倍的内存空间,用来存放两份同样大小且互为对方的缓冲数据。通过程序控制来实现双缓冲模式,除了第一次和最后一次的数据通信过程,每次从核进行计算的同时,进行下一次计算的读取(或存储)数据的通信。同时提出新的数据块格式,以适合双缓冲模式的数据块传递。
优选地,所述步骤三的进程任务划分,二维划分策略需要跟上下左右四个面交换面上的数据,跟右上、左上、左下和右下交换边的数据。这种策略能够保证并行度和通信复杂度都能得到均衡,为算法的可扩展性提供了很好的基础;计算结构上,计算核心阵列负责算法中碰撞与迁移部分的计算,这部分也是算法中计算最密集的部分,能够充分利用计算核心资源。
本发明的方法,与现有技术相比,具有以下突出的实质性特点和显著优点:
一、本发明根据LBM并行运算的特点,对神威太湖之光的数据储存改编为数组结构体结构大大减小了读取过程中时间的消耗,对于并行运算进行了展开和重排使得其效率更好,同时也优化了通信方式,大大减小了通信所带来的时间消耗。
二、本发明在充分研究了申威26010处理的LDM特点后,根据对并行运算的特性,优化了LDM,采取了双缓冲模式,每一次从核进行计算的同时,进行下一次计算的读取,大大降低了从核之间的通信开销,与此同时改进了数据块格式。
三、本发明在任务进程划分上采取了二维划分策略,这种划分保证了算法的并行性和扩展性,同时算法设计难度也降低了,计算结构上讲计算核心阵列负责LBM并行算法中的碰撞与迁移部分,优化了计算结构。
附图说明
图1为LBM并行算法流程图。
图2为优化后数据结构图。
图3为优化后迭代过程图
图4为寄存器通信优化图
图5为双缓冲模式下第i步的通信和计算的相互隐藏原理图
图6为算法数据存储结构图
图7为二维划分策略通信方式图
图8为计算结构图
图9为两个算法的通信和计算时间占比
具体实施方式
以下结合附图对本发明的优选实施例进一步详细说明。
如图1所示,LBM并行算法括串行部分的计算区域和物理模型的建立、计算任务的并行划分、初始物理参数的设计和边界条件的选择等等。并行部分包括碰撞过程和迁移过程的计算、边界部分的处理、宏观量的计算
对于一个特定物理问题的计算,首先需要进行相应的前处理步骤,计算区域大小的选择、物理模型位置的确定和选择合适的格子Boltzmann模型,根据格子Boltzmann模型,选择相应的控制方程。根据计算区域和物理模型生成基于笛卡尔坐标系的流场网格。然后,根据计算节点的个数进行计算任务的划分,使每个计算节点计算任务量达到负载均衡为目标。
在前处理处理结束后,确定流场内每个网格点相应的物理参数,雷诺数、初始速度方向和大小、初始密度和温度等,并计算网格点的平衡态分布函数。其次,根据控制方程,采用格子Boltzmann模型的碰撞迁移规则进行迭代计算,求解包括流场点和边界点的分布函数。最后,判断迭代过程是否结束。
本实施例是流场规模为3000*1000*8000共24亿网格,分别利用200个主核和200个核组(共13000核)。
步骤一,首先在计算之间,对神威·太湖之光”的单核组进行数据储存、循环运算、通信方式上进行优化,然后在进行200个主核和200个核组(共13000核)的LBM并行计算。
步骤十一,如图2所示在进行计算之前把数据储存格式进行优化,首先要确定所有格点的类型,然后确定所有格点的邻居信息,最后确定所有格点的分布函数,通过确定格点类型、邻居信息、分布函数,分别进行储存,这样可以减少性能的损失。
步骤十二,如图3所示把所有的迭代循环进行拆开,可以看见每次计算过程中执行更多的数据操作,减少了多次循环开销带来的影响。
步骤十三,如图4所示,首先,对于每一行,0、2、4、6号核心分别接收1、3、5、7号核心的结果。然后,0号和4号核心分别接收2、6号核心的结果。最后0号核心得到每行最终的结果。之后每列循环在行上的操作,最终0号核心可以得到64个核心的结果。
步骤二,如图5所示,在从核的局部存储空间上申请大小为通信数据2倍的内存空间,用来存放两份同样大小且互为对方的缓冲数据,可以看出在第一块内存进行计算过程的时候,第二块数据块进行通信过程,同时采取(2+2)*(2+2)*h大小的数据块区计算2*2*h大小的运算数据。这一改动可以使得计算每个格点数据所需要的格点数据可以由9个变成4.5个,DMA传输数据效率提高一倍。
步骤三,如图6中显示了算法的计算数据结构示意图,边界格点区域和内部格点区域是需要计算的格点,所有格点在计算时需要其周围邻居节点的信息,缓冲格点作为缓冲区从邻居进程接收数据,接收的数据为位于邻居进程的边界格点数据,边界格点需要缓冲数据接收完毕后进行计算,内部数据区不需要接收的数据直接进行计算。如图7中展示了二维划分策略的数据传递方法。二维划分策略需要跟上下左右四个面交换面上的数据,跟右上、左上、左下和右下交换边的数据。这种策略能够保证并行度和通信复杂度都能得到均衡,为算法的可扩展性提供了很好的基础。如图8所示,计算核心阵列负责算法中碰撞与迁移部分的计算,这部分也是算法中计算最密集的部分,能够充分利用计算核心资源。我们对算法进行了优化,计算核心进行碰撞迁移计算的同时,计算管理核心进行数据交换操作,即相邻进程的边界数据发送到其邻居的缓冲数据区。这种分配主核和从核进行不同的任务,能够把通信花费的时间隐藏在计算过程中,计算核心可以持续的进行计算,而不需要在一个时间步结束后进行等待。
本文将此方法和传统LBM并行算法进行对比,两个方法的通信和计算时间占比,如图9所示,首先,可以发现在众核结构中,通信时间相对于计算时间的比例较大,算法中通过主核通信和计算核心计算同时进行的方式能够明显的提高计算性能。其次,算法中通过利用计算核心的并行能力提高了算法68.5倍的计算效率。
本文结合说明书附图和具体实施例进行阐述只是用于帮助理解本发明的方法和核心思想。本发明所述的方法并不限于具体实施方式中所述的实施例,本领域技术人员依据本发明的方法和思想得出的其它实施方式,同样属于本发明的技术创新范围。本说明书内容不应理解为对本发明的限制。

Claims (4)

1.一种基于异构众核的LBM并行优化方法,其特征在于,其包括以下步骤:
步骤一,根据LBM并行运算特性对“神威·太湖之光”的单核组进行数据储存、循环运算、通信方式上进行优化;
步骤二,在LDM上,采取双缓冲模式让LBM并行计算更加高效,同时采取了新的数据块格式;
步骤三,在进程任务划分上,根据并行度和算法难易,采取二维划分策略,同时根据LBM并行运算特性进行了计算结构的优化。
2.根据权利要求1所述的基于异构众核的LBM并行优化方法,其特征在于,所述步骤一包括:
步骤十一,优化后的数据存储格式,存储格式为数组结构体结构体(Structure ofArray)结构。按照格点信息类别分别存储格点的类型信息、格点的邻居信息和格点的分布函数(包括碰撞后和迁移后的分布函数),但是化后的格点碰撞过程仍然需要其18个邻居的分布函数信息,但是由于其所有邻居的分布函数存储在内存连续的区域,因此计算过程在读取过程没有过多消耗;
步骤十二,LBM并行程序中存在大量循环迭代计算,通过对这些循环迭代过程进行展开、指令重排能够提高对寄存器的利用效率,避免过多不必要的读写操作,提高程序的访存效率,加快程序的执行效率;
步骤十三,为了充分减少通信带来的时间消耗,启动从核之间的寄存器通信,该通信方式速度远超过直接访问主存方式。这个过程需要将64个计算核心的数据规约到0号核心。因为从核之间的寄存器通信只能进行行与行或者列与列之间的通信,为了加快该规约过程的速度,程序规约过程。首先,对于每一行,0、2、4、6号核心分别接收1、3、5、7号核心的结果。然后,0号和4号核心分别接收2、6号核心的结果。最后0号核心得到每行最终的结果。
3.根据权利要求1所述的基于异构众核的LBM并行优化方法,其特征在于,所述步骤二LDM优化包括:
申威26010处理器中每个计算核心有64KB大小的LDM,从核可以通过DMA方式与主存进行数据通信,为了提高“申威26010”处理器的加速性能,降低从核间的通信开销是一个关键步骤。双缓冲模式是在需要多次DMA读写操作的碰撞迁移计算过程中,在从核的局部存储空间上申请大小为通信数据2倍的内存空间,用来存放两份同样大小且互为对方的缓冲数据。通过程序控制来实现双缓冲模式,除了第一次和最后一次的数据通信过程,每次从核进行计算的同时,进行下一次计算的读取(或存储)数据的通信。同时提出新的数据块格式,以适合双缓冲模式的数据块传递。
4.根据权利要求1所述的基于异构众核的LBM并行优化方法,其特征在于,所述步骤三包括:
二维划分策略需要跟上下左右四个面交换面上的数据,跟右上、左上、左下和右下交换边的数据。这种策略能够保证并行度和通信复杂度都能得到均衡,为算法的可扩展性提供了很好的基础;计算结构上,计算核心阵列负责算法中碰撞与迁移部分的计算,这部分也是算法中计算最密集的部分,能够充分利用计算核心资源。
CN202110440081.7A 2021-04-23 2021-04-23 一种基于异构众核的lbm并行优化方法 Pending CN113127200A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110440081.7A CN113127200A (zh) 2021-04-23 2021-04-23 一种基于异构众核的lbm并行优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110440081.7A CN113127200A (zh) 2021-04-23 2021-04-23 一种基于异构众核的lbm并行优化方法

Publications (1)

Publication Number Publication Date
CN113127200A true CN113127200A (zh) 2021-07-16

Family

ID=76779339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110440081.7A Pending CN113127200A (zh) 2021-04-23 2021-04-23 一种基于异构众核的lbm并行优化方法

Country Status (1)

Country Link
CN (1) CN113127200A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188462A (zh) * 2019-05-29 2019-08-30 无锡恒鼎超级计算中心有限公司 基于神威架构的lbm算法优化方法
CN110187975A (zh) * 2019-06-04 2019-08-30 成都申威科技有限责任公司 一种基于lbm的处理器节点分配计算方法、存储介质及终端设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188462A (zh) * 2019-05-29 2019-08-30 无锡恒鼎超级计算中心有限公司 基于神威架构的lbm算法优化方法
CN110187975A (zh) * 2019-06-04 2019-08-30 成都申威科技有限责任公司 一种基于lbm的处理器节点分配计算方法、存储介质及终端设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘垚: "基于申威众核架构的启发式算法的异构并行研究", 基于申威众核架构的启发式算法的异构并行研究, no. 2019, 15 September 2019 (2019-09-15), pages 1 - 156 *
王良军: "基于国产神威超级计算机的格子Boltzmann方法及应用研究", 硕士电子期刊, no. 2020, 15 March 2020 (2020-03-15), pages 1 - 72 *

Similar Documents

Publication Publication Date Title
CN110619595B (zh) 一种基于多fpga加速器互联的图计算优化方法
CN112306678B (zh) 一种基于异构众核处理器的算法并行处理方法及系统
CN109002659B (zh) 一种基于超级计算机的流体机械仿真程序优化方法
CN113835758B (zh) 基于向量指令加速计算的Winograd卷积实现方法
CN113220630B (zh) 一种硬件加速器的可重构阵列优化方法及自动调优方法
CN112181894B (zh) 一种基于申威众核处理器的核组内分组自适应调整运行方法
CN114970294A (zh) 基于神威架构的三维应变仿真pcg并行优化方法及系统
CN111429974B (zh) 超级计算机平台上的分子动力学模拟短程力并行优化方法
JP6551751B2 (ja) マルチプロセッサ装置
CN110414672B (zh) 卷积运算方法、装置及系统
CN110222007B (zh) 一种基于申威众核处理器的加速运行方法
US20090064120A1 (en) Method and apparatus to achieve maximum outer level parallelism of a loop
CN118012629A (zh) 基于向量化的异构多域处理器的lbm自适应多层网格划分与调度优化方法
Xu et al. Loop interchange and tiling for multi-dimensional loops to minimize write operations on NVMs
CN113127200A (zh) 一种基于异构众核的lbm并行优化方法
Lin et al. swFLOW: A dataflow deep learning framework on sunway taihulight supercomputer
US8090762B2 (en) Efficient super cluster implementation for solving connected problems in a distributed environment
CN111191774A (zh) 面向精简卷积神经网络的低代价加速器架构及其处理方法
US11886934B2 (en) Control of data transfer between processing nodes
CN110415162B (zh) 大数据中面向异构融合处理器的自适应图划分方法
CN110704693A (zh) 分布式图计算系统和分布式图计算方法
CN113065035A (zh) 一种单机核外属性图计算方法
CN118409801B (zh) 基于申威众核处理器的含依赖及交叉循环从核优化方法
EP2793141B1 (en) Engine control device
CN112559031B (zh) 基于数据结构的众核程序重构方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination