CN106095583A - 基于新神威处理器的主从核协同计算编程框架 - Google Patents

基于新神威处理器的主从核协同计算编程框架 Download PDF

Info

Publication number
CN106095583A
CN106095583A CN201610439755.0A CN201610439755A CN106095583A CN 106095583 A CN106095583 A CN 106095583A CN 201610439755 A CN201610439755 A CN 201610439755A CN 106095583 A CN106095583 A CN 106095583A
Authority
CN
China
Prior art keywords
core
processor
cpe
principal
mpe
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610439755.0A
Other languages
English (en)
Other versions
CN106095583B (zh
Inventor
乔方利
赵伟
尹训强
宋振亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
First Institute of Oceanography SOA
Original Assignee
First Institute of Oceanography SOA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by First Institute of Oceanography SOA filed Critical First Institute of Oceanography SOA
Priority to CN201610439755.0A priority Critical patent/CN106095583B/zh
Publication of CN106095583A publication Critical patent/CN106095583A/zh
Application granted granted Critical
Publication of CN106095583B publication Critical patent/CN106095583B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
    • G06F15/17306Intercommunication techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5018Thread allocation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一种基于新神威处理器的主从核协同计算编程框架,该基于新神威处理器包含4个核组(CG),核组之间通过片上网络链接,每个核组包含一个管理单元(MPE)和64个计算单元(CPE),每个核组拥有独立的内存空间,管理单元和计算单元通过一个内存控制器(MC)访问内存空间;各处理器之间通过系统接口(SI)建立联系,其特征在于,把新神威处理器的多个核组作为多个独立的线程使用,与管理单元(MPE)或主CPU共同完成相应的计算,基于利用局部内存(LDM)、主存、寄存器通信协同实现高效的MPE与CPE之间及CPE之间同步代替OpenACC的fork/join,能够更有效地利用新神威处理器设计的MPE和CPE计算资源。

Description

基于新神威处理器的主从核协同计算编程框架
技术领域
本发明针对我国独立自主研发的新神威处理器构成的超级计算机系统提出了主从核协同计算框架。该编程框架采用MPI实现上层的并行计算,通过Athread启动众核处理器,主核与从核作为多个独立的线程使用,共同完成相关的计算,从而使得编程人员可以直接控制各个线程的行为,最大限度地提高加速效率。采用编程框架可有效提高海洋或大气数值模式对新神威机器计算能力的利用率。
背景技术
新神威处理器是我国独立自主研发的一种世界领先的众核处理器,已应用在无锡超级计算中心的高性能计算系统。如图1所示,每个新神威处理器包括4个核组(CG),并通过片上网络互相链接。每个CG包括1个管理单元(MPE,亦称为主核)和8x8=64个计算单元(CPE,亦称为从核)。每个CG拥有独立的内存空间,称为主存,MPE和CPE等单元通过一个内存控制器(MC)访问内存空间。处理器之间通过系统接口(SI)进行联系,新神威计算机之间的链接为胖树网络。单个新神威处理器的峰值计算性能可达到3TFlops,而充分发挥这种处理器的计算能力是其推广应用的一个至关重要的问题。
对于这种新型机器架构,相应的编译器提供了基于OpenACC的编程方式,能够从一定程度上发挥这种机器的计算能力。但由于采用了fork/join方式的开发模型,把CPE作为加速硬件使用,可以让用户快速的入门开发,但加速效率受到较大的限制,不能充分利用CPE的计算能力。
发明内容
本发明基于底层的Athread,提出了一种主从核协同计算的编程框架:使用Athread启动众核后,众核作为多个独立的线程使用,与主核或主CPU共同完成相应的计算,编程人员可以直接控制各个线程的行为,最大限度的提高加速效率。
本发明的技术方案是:一种基于新神威处理器的主从核协同计算编程框架,该基于新神威处理器包含4个核组(CG),核组之间通过片上网络链接,每个核组包含一个管理单元(MPE)和64个计算单元(CPE),每个核组拥有独立的内存空间,管理单元和计算单元通过一个内存控制器(MC)访问内存空间;各处理器之间通过系统接口(SI)建立联系,其特征在于,把新神威处理器的多个核组作为多个独立的线程使用,与管理单元(MPE)共同完成相应的计算,基于利用从核的局部内存(LDM)、核组共用的主存、从核的寄存器通信协同实现高效的MPE与CPE之间及CPE之间同步代替基于OpenACC接口的拆分/合并(Fork/Join)的编程框架,能够更有效地利用新神威处理器设计的MPE和CPE计算资源。
所述的MPE与CPE之间的协同计算包括:
步骤(1):上层基于信息传递应用程序接口(MPI)的并行计算与计算通信重叠;
步骤(2):MPE、CPE多线程任务分配。
所述的步骤(1)上层的MPI并行计算与计算通信重叠的具体方法:将每个众核处理器的一个核组作为1个MPI进程,基于MPI技术实现模式的大规模并行计算;通过地理空间的网格划分,将计算任务均衡地分配到每个进程;对MPI并行分区对每个分块,模式网格点包括内区(inner)和外区(outer)两部分,inner区的计算不依赖于MPI交换,outer区的计算需要等待MPI交换的结果,该分区的outer区的上一步的计算结果需要通过MPI发送给邻区,而outer区的计算也需要从邻区接收上一步的计算结果,所需接收的计算点记为halo区;在协同计算过程中,在MPE上对外区的变量通过MPI的非阻塞式发送(ISEND)函数发送给邻区,通过非阻塞式接受(IRECV)函数接收邻区的数据,实现halo区的数据交换。
在所述的步骤(1)上层的MPI并行计算与计算通信重叠的具体方法的过程中,MPI通讯和内区的计算完全重叠进行,提高MPI并行的效率。
所述的步骤(2)主从核(MPE、CPE)多线程任务分配的具体方法:在步骤(1)完成后,每个核组将分配到近绝对均衡的计算任务,在每个核组上通过Athread启动众核多线程,进一步将计算任务平均分配到每个从核线程,而主核线程主要负责MPI通讯和数据的输入输出;每个从核线程的计算点确定后,其计算过程与单纯的MPI并行计算过程类似,但核间的数据交换通过访问主存实现,而同步则采用主从核及从核间快速同步。
所述的主从核及从核间快速同步的具体实现方法:在线程间同步频率较高的应用场合,主从核及从核间同步效率也是模式效率的一个重要限制条件,利用LDM、主存、寄存器通信协同实现高效的主从核及从核间同步;神威处理器中主核能够访问每个从核的LDM,从核也能够直接访问主存,从核间可以进行寄存器通信和硬同步;主核线程状态设置从核线程组0号线程LDM状态标识,从核线程组0号线程检测标识后同步到从核线程组;从核线程组同步后,0号线程设置主存标识,主线程检测主存标识。
在MPE上,当halo区的数据交换完成后,在CPE-0的LDM上设置一个flag;由于内区的源函数的计算和海浪传播计算与halo区的相应计算是相互独立的,可以在CPE上首先进行;此后,每个CPE需要检查flag以便确定halo区的交换是否完成。当这个flag被设置后,外区的海浪传播便可以开始计算;然后,在开始计算结果输出之前,所有的CPE需要进行同步;这个同步是通过在内存中设置一个flag来实现的;为了避免MPE在设置CPE的flag和检查同步flag期间的资源闲置,给MPE额外分配了一些计算任务并预取下一次循环所需的风场数据;通过计算点点序列化处理,实现了主核与从核之间MASNUM海浪模式的协同计算。
本发明的优点是:基于底层的Athread,使用Athread启动众核后,众核作为多个独立的线程使用,与主核或主CPU共同完成相应的计算,编程人员可以直接控制各个线程的行为,可以大幅度提高计算效率,远高于OpenACC;熟悉MPI开发的编程人员可以快速适应这种开发模式,中后期开发代价低于OpenACC。利用LDM、主存、寄存器通信协同实现高效的主从核及从核间同步,同步效率得到大幅度提高。
附图说明
图1是现有新神威处理器架构示意图(图中:MPE:管理单元;CPE:计算单元;MC:内存控制器;Core-group(CG):核组;main memory:主存;Network on Chip (NoC):片上网络;SI:系统接口)。
图2是本发明的MASNUM海浪模式主从核协同计算框架图(图中:MPE:管理单元;CPE:计算单元;Halo update:halo区数据更新;Set flag:设置flag)。
具体实施方式
本发明针对的计算机系统是由新型神威处理器构建的新神威超级计算机系统,这种处理器的硬件结构如图1所示。每个新神威处理器包括4个核组(CG),并通过片上网络互相链接。每个CG包括1个管理单元(MPE,亦称为主核)和8x8=64个计算单元(CPE,亦称为从核)。每个CG拥有独立的内存空间,称为主存,MPE和CPE等单元通过一个内存控制器(MC)访问内存空间。处理器之间通过系统接口(SI)进行联系,新神威计算机之间的链接为胖树网络。
在本发明的编程框架中,64个CPE将用于解决大规模计算问题,而MPE用于执行每个CG上的任务管理或规划。本发明把众核作为多个独立的线程使用,与主核或主CPU共同完成相应的计算,基于利用LDM、主存、寄存器通信协同实现高效的主从核及从核间同步代替OpenACC的fork/join,可以更有效利用新神威处理器设计的MPE和CPE计算资源。该框架的实现主要包括4部分,1)上层的MPI并行计算与计算通信重叠;2)主从核多线程任务分配;3)主从核及从核间快速同步的实现;4)主从核协同计算流程调整。实现过程中,首先对整体计算任务进行上层的MPI并行设计,MPI任务分配以核组为单位,保证MPI各进程的任务均衡和通讯计算重叠;在每个核组上启动多线程,对计算任务再次进行分配;基于硬件特征,设计实现核间快速同步;重新调整各个过程的实现流程,实现主从核协同计算。
以MASNUM海浪模式为例,基于新神威处理器的主从核协同计算框架如图2所示。主核主要负责MPI通讯、风场强迫数据的读入和结果输出,而从核负责主要的计算,为了充分利用新神威处理器的计算资源。基于新神威处理器的主从核协同计算框架各部分实现的详细说明如下:
步骤(1):上层的MPI并行计算与计算通信重叠:将每个众核处理器的一个核组作为1个MPI进程,基于MPI技术实现模式的大规模并行计算。通过地理空间的网格划分,可将计算任务均衡地分配到每个进程;对MPI并行分区对每个分块,模式网格点包括内区(inner)和外区(outer)两部分。inner区的计算不依赖于MPI交换。outer区的计算需要等待MPI交换的结果,该分区的outer区的上一步的计算结果需要通过MPI发送给邻区,而outer区的计算也需要从邻区接收上一步的计算结果,所需接收的计算点记为halo区。在协同计算过程中,在MPE上对外区的变量通过MPI的ISEND函数发送给邻区,通过IRECV函数接收邻区的数据,实现halo区的数据交换。在上述这几个过程中,MPI通讯和内区的计算可以完全重叠进行,提高MPI并行的效率。
步骤(2):主从核多线程任务分配:在前一步完成后,每个核组将分配到近绝对均衡的计算任务,在每个核组上通过Athread启动众核多线程,进一步将计算任务平均分配到每个从核线程,而主核线程主要负责MPI通讯和数据的输入输出。每个从核线程的计算点确定后,其计算过程与单纯的MPI并行计算过程类似,但需要考虑核间的数据交换与同步。由于新神威处理器架构采用了共享局部内存(LDM)的设计方式,每个线程的计算结果直接可写入到内存中,无需进行相应的数据通讯,主从核及从核间快速同步将在下一步详细说明。
主从核及从核间快速同步的实现:在海洋大气气候等模式应用中,线程间同步频率较高,主从核及从核间同步效率也是模式效率的一个重要限制条件,利用LDM、主存、寄存器通信协同实现高效的主从核及从核间同步。神威处理器中主核可以访问每个从核的LDM,从核也可以直接访问主存,从核间可以进行寄存器通信和硬同步;主核线程状态设置从核线程组0号线程LDM状态标识,从核线程组0号线程检测标识后同步到从核线程组;从核线程组同步后,0号线程设置主存标识,主线程检测主存标识;这种方式实现主从核通讯与同步,可以减少防存带宽竞争,提高同步效率。
以MASNUM海浪模式为例的主从核协同计算流程调整的具体方法:在MPE上,当halo区的数据交换完成后,在CPE-0的LDM上设置一个flag。由于内区的源函数的计算和海浪传播计算与halo区的相应计算是相互独立的,可以在CPE上首先进行。此后,每个CPE需要检查flag以便确定halo区的交换是否完成。当这个flag被设置后,外区的海浪传播便可以开始计算。然后,在开始计算结果输出之前,所有的CPE需要进行同步。这个同步是通过在内存中设置一个flag来实现的。为了避免MPE在设置CPE的flag和检查同步flag期间的资源闲置,我们给MPE额外分配了一些计算任务并预取下一次循环所需的风场数据。通过计算点点序列化处理,我们实现了主核与从核之间MASNUM海浪模式的协同计算。

Claims (7)

1.一种基于新神威处理器的主从核协同计算编程框架,该基于新神威处理器包含4个核组(CG),核组之间通过片上网络链接,每个核组包含一个管理单元(MPE)和64个计算单元(CPE),每个核组拥有独立的内存空间,管理单元和计算单元通过一个内存控制器(MC)访问内存空间;各处理器之间通过系统接口(SI)建立联系,其特征在于,把新神威处理器的多个核组作为多个独立的线程使用,与管理单元(MPE)共同完成相应的计算,基于利用从核的局部内存(LDM)、核组共用的主存、从核的寄存器通信协同实现高效的MPE与CPE之间及CPE之间同步代替基于OpenACC接口的拆分/合并(Fork/Join)的编程框架,能够更有效地利用新神威处理器设计的MPE和CPE计算资源。
2.根据权利要求1所述的基于新神威处理器的主从核协同计算编程框架,其特征在于,所述的MPE与CPE之间的协同计算包括:
步骤(1):上层基于信息传递应用程序接口(MPI)的并行计算与计算通信重叠;
步骤(2):MPE、CPE多线程任务分配。
3.根据权利要求2所述的基于新神威处理器的主从核协同计算编程框架,其特征在于,所述的步骤(1)上层的MPI并行计算与计算通信重叠的具体方法:将每个众核处理器的一个核组作为1个MPI进程,基于MPI技术实现模式的大规模并行计算;通过地理空间的网格划分,将计算任务均衡地分配到每个进程;对MPI并行分区对每个分块,模式网格点包括内区(inner)和外区(outer)两部分,inner区的计算不依赖于MPI交换,outer区的计算需要等待MPI交换的结果,该分区的outer区的上一步的计算结果需要通过MPI发送给邻区,而outer区的计算也需要从邻区接收上一步的计算结果,所需接收的计算点记为halo区;在协同计算过程中,在MPE上对外区的变量通过MPI的非阻塞式发送(ISEND)函数发送给邻区,通过非阻塞式接受(IRECV)函数接收邻区的数据,实现halo区的数据交换。
4.根据权利要求3所述的基于新神威处理器的主从核协同计算编程框架,其特征在于,在所述的步骤(1)上层的MPI并行计算与计算通信重叠的具体方法的过程中,MPI通讯和内区的计算完全重叠进行,提高MPI并行的效率。
5.根据权利要求2所述的基于新神威处理器的主从核协同计算编程框架,其特征在于,所述的步骤(2)主从核(MPE、CPE)多线程任务分配的具体方法:在步骤(1)完成后,每个核组将分配到近绝对均衡的计算任务,在每个核组上通过Athread启动众核多线程,进一步将计算任务平均分配到每个从核线程,而主核线程主要负责MPI通讯和数据的输入输出;每个从核线程的计算点确定后,其计算过程与单纯的MPI并行计算过程类似,但核间的数据交换通过访问主存实现,而同步则采用主从核及从核间快速同步。
6.根据权利要求5所述的基于新神威处理器的主从核协同计算编程框架,其特征在于,所述的主从核及从核间快速同步的具体实现方法:在线程间同步频率较高的应用场合,主从核及从核间同步效率也是模式效率的一个重要限制条件,利用LDM、主存、寄存器通信协同实现高效的主从核及从核间同步;神威处理器中主核能够访问每个从核的LDM,从核也能够直接访问主存,从核间可以进行寄存器通信和硬同步;主核线程状态设置从核线程组0号线程LDM状态标识,从核线程组0号线程检测标识后同步到从核线程组;从核线程组同步后,0号线程设置主存标识,主线程检测主存标识。
7.根据权利要求2所述的基于新神威处理器的主从核协同计算编程框架,其特征在于,在MPE上,当halo区的数据交换完成后,在CPE-0的LDM上设置一个flag;由于内区的源函数的计算和海浪传播计算与halo区的相应计算是相互独立的,可以在CPE上首先进行;此后,每个CPE需要检查flag以便确定halo区的交换是否完成;
当这个flag被设置后,外区的海浪传播便可以开始计算;然后,在开始计算结果输出之前,所有的CPE需要进行同步;这个同步是通过在内存中设置一个flag来实现的;为了避免MPE在设置CPE的flag和检查同步flag期间的资源闲置,给MPE额外分配了一些计算任务并预取下一次循环所需的风场数据;通过计算点点序列化处理,实现了主核与从核之间MASNUM海浪模式的协同计算。
CN201610439755.0A 2016-06-20 2016-06-20 基于新神威处理器的主从核协同计算编程框架 Active CN106095583B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610439755.0A CN106095583B (zh) 2016-06-20 2016-06-20 基于新神威处理器的主从核协同计算编程框架

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610439755.0A CN106095583B (zh) 2016-06-20 2016-06-20 基于新神威处理器的主从核协同计算编程框架

Publications (2)

Publication Number Publication Date
CN106095583A true CN106095583A (zh) 2016-11-09
CN106095583B CN106095583B (zh) 2018-04-17

Family

ID=57236970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610439755.0A Active CN106095583B (zh) 2016-06-20 2016-06-20 基于新神威处理器的主从核协同计算编程框架

Country Status (1)

Country Link
CN (1) CN106095583B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446253A (zh) * 2018-03-28 2018-08-24 北京航空航天大学 一种针对神威体系架构的稀疏矩阵向量乘的并行计算方法
CN108920288A (zh) * 2018-07-03 2018-11-30 国家超级计算无锡中心 基于有向无环图模型的寄存器级从核消息传递方法
CN109002659A (zh) * 2018-09-07 2018-12-14 西安交通大学 一种基于超级计算机的流体机械仿真程序优化方法
CN109271344A (zh) * 2018-08-07 2019-01-25 浙江大学 基于申威芯片架构并行文件读取的数据预处理方法
CN109828790A (zh) * 2019-01-31 2019-05-31 上海赜睿信息科技有限公司 一种基于申威异构众核处理器的数据处理方法和系统
CN110119375A (zh) * 2019-05-16 2019-08-13 湖南毂梁微电子有限公司 一种将多个标量核链接为单核向量处理阵列的控制方法
CN110222007A (zh) * 2019-06-20 2019-09-10 山东省计算中心(国家超级计算济南中心) 一种基于申威众核处理器的加速运行方法
CN110262884A (zh) * 2019-06-20 2019-09-20 山东省计算中心(国家超级计算济南中心) 一种基于申威众核处理器的核组内多程序多数据流分区并行的运行方法
CN111104765A (zh) * 2019-12-24 2020-05-05 清华大学 基于神威架构的气体动理学算法优化方法
CN111368484A (zh) * 2020-03-19 2020-07-03 山东大学 基于神威架构的宇宙n体数值模拟优化方法及系统
CN112148361A (zh) * 2020-08-27 2020-12-29 中国海洋大学 一种用于处理器加密算法移植的方法及系统
CN112181894A (zh) * 2019-07-04 2021-01-05 山东省计算中心(国家超级计算济南中心) 一种基于申威众核处理器的核组内分组自适应调整运行方法
CN112306678A (zh) * 2020-10-22 2021-02-02 中国海洋大学 一种基于异构众核处理器的算法并行处理方法及系统
CN112463711A (zh) * 2020-12-11 2021-03-09 北京航空航天大学 一种针对众核处理器的从核软件缓存共享方法
CN113190984A (zh) * 2021-04-21 2021-07-30 中国海洋大学 水下声场模型bellhop并行实现方法
CN113190511A (zh) * 2021-04-21 2021-07-30 中国海洋大学 基于众核集群的大数据并发调度及加速处理方法
CN114359683A (zh) * 2021-12-31 2022-04-15 电子科技大学 一种面向文本定位的单内核hog高效异构加速方法
CN114970294A (zh) * 2022-08-02 2022-08-30 山东省计算中心(国家超级计算济南中心) 基于神威架构的三维应变仿真pcg并行优化方法及系统
CN116431562A (zh) * 2023-06-12 2023-07-14 太初(无锡)电子科技有限公司 一种基于加速处理器的多头注意力机制融合计算分配方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101013388A (zh) * 2007-01-26 2007-08-08 浙江大学 面向异构多核体系的进程调度方法
CN103440225A (zh) * 2013-08-21 2013-12-11 复旦大学 一种可重构单指令多进程的多核处理器及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101013388A (zh) * 2007-01-26 2007-08-08 浙江大学 面向异构多核体系的进程调度方法
CN103440225A (zh) * 2013-08-21 2013-12-11 复旦大学 一种可重构单指令多进程的多核处理器及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄品丰: "面向异构处理器的代价模型及存储优化技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446253B (zh) * 2018-03-28 2021-07-23 北京航空航天大学 一种针对神威体系架构的稀疏矩阵向量乘的并行计算方法
CN108446253A (zh) * 2018-03-28 2018-08-24 北京航空航天大学 一种针对神威体系架构的稀疏矩阵向量乘的并行计算方法
CN108920288B (zh) * 2018-07-03 2021-06-22 国家超级计算无锡中心 基于有向无环图模型的寄存器级从核消息传递方法
CN108920288A (zh) * 2018-07-03 2018-11-30 国家超级计算无锡中心 基于有向无环图模型的寄存器级从核消息传递方法
CN109271344A (zh) * 2018-08-07 2019-01-25 浙江大学 基于申威芯片架构并行文件读取的数据预处理方法
CN109002659A (zh) * 2018-09-07 2018-12-14 西安交通大学 一种基于超级计算机的流体机械仿真程序优化方法
CN109828790A (zh) * 2019-01-31 2019-05-31 上海赜睿信息科技有限公司 一种基于申威异构众核处理器的数据处理方法和系统
CN110119375A (zh) * 2019-05-16 2019-08-13 湖南毂梁微电子有限公司 一种将多个标量核链接为单核向量处理阵列的控制方法
CN110262884A (zh) * 2019-06-20 2019-09-20 山东省计算中心(国家超级计算济南中心) 一种基于申威众核处理器的核组内多程序多数据流分区并行的运行方法
CN110222007A (zh) * 2019-06-20 2019-09-10 山东省计算中心(国家超级计算济南中心) 一种基于申威众核处理器的加速运行方法
CN110222007B (zh) * 2019-06-20 2023-11-24 山东省计算中心(国家超级计算济南中心) 一种基于申威众核处理器的加速运行方法
CN112181894B (zh) * 2019-07-04 2022-05-31 山东省计算中心(国家超级计算济南中心) 一种基于申威众核处理器的核组内分组自适应调整运行方法
CN112181894A (zh) * 2019-07-04 2021-01-05 山东省计算中心(国家超级计算济南中心) 一种基于申威众核处理器的核组内分组自适应调整运行方法
CN111104765A (zh) * 2019-12-24 2020-05-05 清华大学 基于神威架构的气体动理学算法优化方法
CN111368484A (zh) * 2020-03-19 2020-07-03 山东大学 基于神威架构的宇宙n体数值模拟优化方法及系统
CN111368484B (zh) * 2020-03-19 2022-04-15 山东大学 基于神威架构的宇宙n体数值模拟优化方法及系统
CN112148361A (zh) * 2020-08-27 2020-12-29 中国海洋大学 一种用于处理器加密算法移植的方法及系统
CN112306678A (zh) * 2020-10-22 2021-02-02 中国海洋大学 一种基于异构众核处理器的算法并行处理方法及系统
CN112463711A (zh) * 2020-12-11 2021-03-09 北京航空航天大学 一种针对众核处理器的从核软件缓存共享方法
CN112463711B (zh) * 2020-12-11 2023-03-31 北京航空航天大学 一种针对众核处理器的从核软件缓存共享方法
CN113190511A (zh) * 2021-04-21 2021-07-30 中国海洋大学 基于众核集群的大数据并发调度及加速处理方法
CN113190511B (zh) * 2021-04-21 2022-09-13 中国海洋大学 基于众核集群的大数据并发调度及加速处理方法
CN113190984A (zh) * 2021-04-21 2021-07-30 中国海洋大学 水下声场模型bellhop并行实现方法
CN114359683A (zh) * 2021-12-31 2022-04-15 电子科技大学 一种面向文本定位的单内核hog高效异构加速方法
CN114359683B (zh) * 2021-12-31 2023-10-20 电子科技大学 一种面向文本定位的单内核hog高效异构加速方法
CN114970294A (zh) * 2022-08-02 2022-08-30 山东省计算中心(国家超级计算济南中心) 基于神威架构的三维应变仿真pcg并行优化方法及系统
CN116431562A (zh) * 2023-06-12 2023-07-14 太初(无锡)电子科技有限公司 一种基于加速处理器的多头注意力机制融合计算分配方法
CN116431562B (zh) * 2023-06-12 2023-11-28 太初(无锡)电子科技有限公司 一种基于加速处理器的多头注意力机制融合计算分配方法

Also Published As

Publication number Publication date
CN106095583B (zh) 2018-04-17

Similar Documents

Publication Publication Date Title
CN106095583A (zh) 基于新神威处理器的主从核协同计算编程框架
CN102135949B (zh) 基于图形处理器的计算网络系统、方法及装置
CN108011915B (zh) 一种基于云通讯的采集前置系统
CN103716381B (zh) 一种分布式系统的控制方法,及管理节点
CN102158392B (zh) 集散型构架卫星的aos遥测方法
CN105183698A (zh) 一种基于多核dsp的控制处理系统和方法
CN107122244A (zh) 一种基于多gpu的图数据处理系统及方法
CN106649085A (zh) 一种基于云计算的软件测试系统
CN109905898A (zh) 基带处理资源分配方法
CN105681443A (zh) 一种基于大数据的云计算架构方法及系统
CN103955397B (zh) 一种基于微架构感知的虚拟机调度多策略选择方法
CN102299820B (zh) 一种盟员节点装置及hla系统构架的实现方法
CN105530157A (zh) Afdx网络交换机多个虚拟链路共享信用的方法
CN103973793A (zh) 分布式航空电子测试系统
CN104468379B (zh) 基于最短逻辑距离的虚拟Hadoop集群节点选择方法及装置
CN107220114A (zh) 基于资源统一调度的分布式资源调度方法
CN103747439A (zh) 无线控制器设备、无线认证处理方法、系统、组网
CN102195361A (zh) 一种多核单芯片的配电智能终端的数据采集处理方法
CN105721956A (zh) 一种机架及通讯方法
CN107665127A (zh) 一种数据流架构中基于网络负载特征进行指令调度的方法
CN110297802A (zh) 一种新型处理器之间互联结构
CN108255590A (zh) 一种数据流控制方法和装置
CN111224844B (zh) 一种物联网测试系统及其工作流程
CN103077007A (zh) 基于cuda-gpu集群平台的混合式并行绘制方法
CN113806606A (zh) 基于三维场景的电力大数据快速可视化分析方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant