CN109271344A - 基于申威芯片架构并行文件读取的数据预处理方法 - Google Patents

基于申威芯片架构并行文件读取的数据预处理方法 Download PDF

Info

Publication number
CN109271344A
CN109271344A CN201810893877.6A CN201810893877A CN109271344A CN 109271344 A CN109271344 A CN 109271344A CN 201810893877 A CN201810893877 A CN 201810893877A CN 109271344 A CN109271344 A CN 109271344A
Authority
CN
China
Prior art keywords
data
calculation procedure
dimension
file
read
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810893877.6A
Other languages
English (en)
Other versions
CN109271344B (zh
Inventor
陈建海
周宇
张淼
何钦铭
沈钦仙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201810893877.6A priority Critical patent/CN109271344B/zh
Publication of CN109271344A publication Critical patent/CN109271344A/zh
Application granted granted Critical
Publication of CN109271344B publication Critical patent/CN109271344B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于申威芯片架构并行文件读取的数据预处理方法,包括以下步骤:(1)将内存运行模式设置为全片共享模式;(2)预处理进程读取数据文件的元数据信息,根据所述的元数据信息对计算进程进行分组;(3)预处理进程根据计算进程分组信息,建立对应的MPI模型,调用MPI‑IO并行读取函数读取数据文件;(4)对预处理进程所读取的数据进行维度转化,使对应计算进程组中每个计算进程所对应的数据块连续排布;将维度转化后的数据写回到对应的计算进程组对应的数据文件中,并建立对应的元数据文件。本发明的数据预处理方法,可大大提高大文件的读取效率。

Description

基于申威芯片架构并行文件读取的数据预处理方法
技术领域
本发明涉及科学计算领域中的并行IO技术,尤其涉及一种基于申威芯片架构并行文件读取的数据预处理方法。
背景技术
科学及工程应用计算对计算资源的需求较大,且随着求解问题规模的不断增大,后摩尔时代的单机处理能力难以为继。为解决科学应用中所需计算力紧缺的问题,一种可行的方案是将科学应用移植到超算平台,借助超算平台提供大规模并行计算的优势。神威太湖之光是世界首台峰值运算速度超过10亿亿次量级的超级计算机,基于此平台并行优化的高性能应用已经连续两年夺得高性能应用领域最杰出的奖项——戈登贝尔奖。将科学计算应用程序移植到国产平台神威太湖之光,不仅可以利用神威太湖之光的超高计算能力,而且有助于建设国产超算平台的软件生态环境。
神威太湖之光采用的芯片为国产申威芯片,其内存架构为:一块申威处理器拥有32G内存,并提供两种内存运行模式,全片内存共享模式以及内存私有模式。在全片共享模式中,芯片中的四个核组共享32G内存;在私有模式中,每个核组拥有各自对应的8G内存。
移植到神威平台上的科学计算应用程序通常采用内存私有模式,即每个核组独占8G内存,这样的内存划分使得每个核组负载基本均衡,得以充分利用从核阵列的计算能力,从而提高计算效率。另外神威平台中的高速计算存储系统为自主研发的online1与online2,然而其目前并没有提供高层IO库,比如hdf5和NetCDF等,所以开发人员需要自主进行数据的切分与分发操作。
科学计算应用程序通常是对多维数学模型的求解,其热点通常为最近邻计算。最近邻计算中,每个计算节点对应的数据在文件中是不连续排布的,所以进程读取数据时,需要考虑数据在文件中的偏移量以及数据在文件中排布的特点。
神威平台对这种大规模并行计算中不连续数据文件的读取,主要有三种MPI(信息传递接口)方式:传统的MPI-1主从通信方式、MPI-2提出的MPI-IO协同方式以及改进的MPI-IO方式,其中:
(1)MPI-1主从通信方式:主进程读取数据文件,将所读取到的数据切分并通过调用MPI进程间通信函数分发给其他进程。这种主从通信方式实现较为繁琐,主从进程间通信次数频繁,且在通信过程中大部分进程处于闲置状态,导致资源的闲置,故这种方式适用于并行规模较小的情况。
(2)MPI-IO协同方式:MPI-2提出了一套并行I/O接口,实现了进程间并行读写文件的方法。此方法采用了文件视图,进程可以并行地对不连续的数据进行读取。相对于MPI-1的主从通信方式,此方式消除了进程间通信的开销,整体提高了进程读取数据的速率,故这种方式适用于并行规模较大的情况。然而随着并行规模的进一步扩大,MPI自身实现的缺陷,导致性能会急剧下降。
(3)改进的MPI-IO方式:对(2)中读取数据方式的一种改进是将进程分组,每组包含一定的进程数,组内又分为组主进程和组从进程,各个组主进程调用MPI-IO读取文件数据,然后将数据分别通过MPI进程间通信方式传递给组从进程。对进程进行分组的方式有效降低了并行读取数据的进程规模,但是只有组主进程读取数据又导致了其读取数据量过大,从而加剧了其对内存的需求。由于大规模并行计算通常采用内存独占方式来提升计算效率,组主进程读取数据的大小受到限制,进而被迫使用过多的进程采用协同方式读取文件数据,这在很大程度上抵消了分组读取数据的效率。同时,由于组从进程对应的数据在组主进程中不连续的排布的特点,组主进程还需要进行非常的繁琐的数据分发工作。另外在实际开发过程中,并不是随时都有充足的闲置资源来满足超大规模并行计算,因此降低大规模并行计算时对数据读取的时间,具有现实意义。
目前,急需一种针对神威太湖之光平台下,对大文件的读取效率低下的解决方法。
发明内容
本发明提供了一种基于申威芯片架构并行文件读取的数据预处理方法,可大大提高大文件的读取效率。
本发明提供了如下技术方案:
一种基于申威芯片架构并行文件读取的数据预处理方法,包括以下步骤:
(1)将内存运行模式设置为全片共享模式;
(2)预处理进程读取数据文件的元数据信息,根据所述的元数据信息对计算进程进行分组;
所述元数据信息包括数据文件的维度以及每个维度的长度、计算进程数以及每个计算进程需要读取的数据大小;
(3)预处理进程根据计算进程分组信息,建立对应的MPI模型,调用MPI-IO并行读取函数读取数据文件;
(4)对预处理进程所读取的数据进行维度转化,使对应计算进程组中每个计算进程所对应的数据块连续排布;将维度转化后的数据写回到对应的计算进程组对应的数据文件中,并建立对应的元数据文件。
所述的数据预处理进程数小于计算进程数。本发明的预处理方法适用于基于申威芯片架构的神威太湖之光超算平台。
在本发明的数据预处理方法中,将并行计算阶段拆分为两个阶段,一个是数据预处理阶段、另一个是计算阶段。计算阶段负责求解科学计算问题,数据预处理阶段负责对大文件数据进行预处理,将计算阶段对大文件的读取改为对一组小文件的读取。因为数据预处理阶段中的MPI进程数少于计算阶段中的MPI进程数,相对于计算阶段,数据预处理阶段只需要较少的计算资源。数据预处理阶段中的进程称为预处理进程,计算阶段中进程称为计算进程。本发明的数据预处理方法主要针对数据预处理阶段。
步骤(1)中,将内存运行模式设置为全片内存共享模式后,各个核组占用节点内全部内存资源。
步骤(2)中,所述元数据信息包括数据文件的维度、每个维度的长度以及数据类型,还包括计算进程数以及每个计算进程需要读取的数据大小;所述数据大小包括数据对应在每个维度上的长度。
进一步的,步骤(2)包括:
(2-1)预处理主进程读取数据文件的元数据信息;
(2-2)将一个计算进程需要读取的数据作为一个数据块,将数据文件划分成若干个数据块,将数据文件抽象成一个网格;该网格每个维度上数据块的个数作为该网格维度的长度;
(2-3)对计算进程进行分组:
(a)确定计算进程组数:
设计算进程总数为k,预处理进程总数为M;
从M到1,按照从大到小的方式逐步调整m值,每次调整幅度为1,直至m为k的约数,停止,将此m值作为计算进程组数;
(b)对计算进程组数m做质因数分解,并按降序排列分解出的质因数;
(c)将质因数分配至合适的网格维度上:
每次寻找长度最大的网格维度,按照从大到小的顺序依次选择质因数;
若最大网格维度的长度是该质因数的倍数,则将该网格维度的长度更新为该网格维度的长度与该质因数的商,将该质因数置为0;
若最大网格维度的长度不是该质因数的倍数,则按照从大到小的顺序选择下一质因数;
(d)重复步骤(c),直至将所有的质因数分配完毕;若没有质因数分配到某个网格维度,则默认该网格维度上分配的质因数为1;
(e)每个网格维度的长度除以该网格维度上所分配的质因数之积,所得的商为一个计算进程组在该网格维度上的计算进程数,得到计算进程组的空间关系,以此对计算进程进行分组;
(2-4)预处理主进程将元数据信息和计算进程分组信息广播给其他预处理进程。
步骤(3)包括:
(3-1)预处理进程根据计算进程组的空间关系,建立对应维度和维度长度的笛卡尔通信域;
根据预处理进程在笛卡尔通信域中的坐标,每个预处理进程对应着一个计算进程组。
需要注意,在笛卡尔通信域中,预处理进程数等于计算进程组数m;笛卡尔通信域中一个预处理进程待读取的数据对应着一个计算进程组待读取的数据。
(3-2)根据元数据信息中数据类型、维度以及每个维度的长度,笛卡尔通信域中的预处理进程建立对应的MPI数据类型和文件视图;
(3-3)笛卡尔通信域中预处理进程调用MPI-IO函数并行读取数据文件。
步骤(4)中,所述的维度转化是指:在预处理进程对应的计算进程组中,按照计算进程的空间关系,将该预处理进程所读取的数据顺序排布。
维度转化使得一个计算进程组中,一个计算进程所对应的数据块是连续排布的,这样计算进程在读取数据时可以连续读取所有需要的数据,避免计算进程之间交叉读取数据,降低了计算进程组中的通信次数。
进一步的,步骤(4)中,对预处理进程所读取的数据块进行维度转化具有两种方式:
(i)在预处理进程的内存中,对数据块的存放顺序进行维度转化,使一个计算进程所对应的数据块连续排布;
或,(ii)在将预处理进程中的数据写回到各计算进程的数据文件过程中,将一个计算进程所对应的所有数据块写回完成后,再写回下一计算进程所对应的所有数据块,直至数据写回完成。
在(i)方式中,维度转化在预处理进程的内存中进行,适用于预处理进程内存压力较小的情况。在(ii)方式中,在预处理进程的内存中不进行重新排布,重新排布发生在写回过程中,根据所述的映射关系,选取一个计算进程所对应的所有数据块,连续写回至该计算进程的数据文件中,该计算进程所对应的所有数据块写回完成后,再按照同样的方法写回下一计算进程所对应的所有数据块,直至完成所有数据块的写回操作。在(ii)方式中,重新排布不占用预处理进程的内存,适用于预处理进程内存压力较大的情况。
进一步的,步骤(4)中,所述的元数据文件包括:计算进程组中每个计算进程所对应数据的起始位置以及数据量、数据类型。
与现有技术相比,本发明的有益效果为:
(1)通过采用全片内存共享模式读取文件数据,将数据的读取从独占模式中仅有的8GB内存提升到数据预处理方法可使用的32GB内存,并减少MPI-IO并行读取数据的进程数,进而提高了性能;
(2)对预处理阶段中获取的数据进行维度转化,MPI-IO获取的数据对于计算阶段中的进程并不是连续存储的,预处理进程根据对应的计算进程组中,依次将计算进程对应的不连续的数据排布改为连续存储,这简化了计算阶段中计算进程对数据的读取操作,降低了计算进程组中的通信次数;
(3)每个预处理进程将其所读取到的数据写入到其对应的小文件中,并为每个小文件创建对应的元数据文件。在计算阶段中每个小文件对应一组计算进程。本发明将大规模同时读取一个文件,转化成每组计算进程分别读取一个小文件,消除了计算阶段中大规模调用MPI-IO对同一个文件读取数据的操作。
附图说明
图1为本发明数据预处理方法的流程示意图;
图2为对计算进程进行分组的流程示意图;
图3为数据读取的流程示意图;
图4为数据写回流程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
本发明基于申威芯片架构并行文件读取的数据预处理方法,包括以下步骤:
(1)将内存运行模式设置为全片内存共享模式;
(2)预处理进程根据待读取文件的元数据信息,对计算进程进行分组。
(3)建立对应MPI模型以及预处理进程与计算进程组的映射关系,并行读取数据文件。
(4)对数据进行维度转化并写回到对应的计算进程组对应的数据文件,创建数据文件对应的元数据文件。
假设,待读取文件是大小为1024×1024的二维矩阵,计算进程规模为16×16,预处理进程规模为4×4,每个计算进程获取一个小的二维矩阵,即一个计算进程获取64×64的子矩阵,一个预处理进程读取的数据对应着4×4个计算进程读取的数据。
本发明的预处理方法通过四个模块实现:大内存开启启动模块、映射关系模块、数据读取模块、维度转化模块,其流程如图1所示,包括以下步骤:
(1)大内存开启启动模块中提交命令中包含-master选项,一个预处理进程独占32GB内存。
(2)映射关系模块中建立预处理进程和计算进程组的对应关系,如图2所示。具体步骤如下:
(2-1)根据元数据信息可知数据维度为2,每个维度的长度为1024,计算进程数为16×16个。
每个计算进程待读取的数据量为64×64,对应在二维矩阵上的各个维度长度皆为64。
(2-2)对计算进程进行分组,方法以如下的伪代码进行表达:
计算进程分组数为m,每个进程组对应在空间维度上的长度保存在l[0...N-1]中。
数据文件存储二维矩阵,每个维度的长度为1024,每个计算进程对应着64×64的子矩阵,以64为每个维度的单位长度,将数据文件抽象成每个维度长度为16的二维空间,根据伪代码可知计算进程组数为16,每个计算进程组对应每个维度的长度为4,即每个计算进程组在每个维度上包含4个计算进程。
(2-3)将计算进程分组信息以及数据信息广播给其余预处理进程。
(3)在数据读取模块中,根据待读取文件的元数据内容,调用MPI-IO对待读取文件进行并行读取,如图3所示。具体步骤如下:
(3-1)根据计算进程组之间的空间关系,建立对应的二维MPI笛卡尔通信域,每个维度的长度为4,根据二维坐标每个预处理进程对应一个计算进程组的数据。二维空间上的每个点对应着一个预处理进程。
(3-2)每个预处理进程根据每个维度的待读取数据的长度和数据类型建立对应的数据结构(MPI_Type_create)以及文件视图(MPI_File_set_view)。
(3-3)调用MPI-IO并行读取函数(MPI_File_read_at_all或MPI_File_read_all等函数)读取数据文件。
(4)数据写回模块将每个预处理进程中数据进行维度转化并写回到对应计算进程组的数据文件中,并创建对应的元数据文件,如图4所示。具体步骤如下:
(4-11)如果预处理进程中内存压力大,那么在数据写回模块中,按对应的计算进程组内序号顺序,依次将每个计算进程对应的数据写入该计算进程组的数据文件;
(4-12)如果预处理进程中内存压力不大,那么根据计算进程组中序号大小,重新排布内存中的数据,使得一个计算进程对应的数据由二维的不连续排布,变为连续的排布。
(4-2)预处理进程为对应的计算进程组创建元数据文件,元数据文件中包括对应计算进程组中每个进程对应数据的起始位置以及偏移量,还有数据类型信息。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于申威芯片架构并行文件读取的数据预处理方法,其特征在于,包括以下步骤:
(1)将内存运行模式设置为全片共享模式;
(2)预处理进程读取数据文件的元数据信息,根据所述的元数据信息对计算进程进行分组;
(3)预处理进程根据计算进程分组信息,建立对应的MPI模型,调用MPI-IO并行读取函数读取数据文件;
(4)对预处理进程所读取的数据进行维度转化,使对应计算进程组中每个计算进程所对应的数据块连续排布;
将维度转化后的数据写回到对应的计算进程组对应的数据文件中,并建立对应的元数据文件。
2.根据权利要求1所述的基于申威芯片架构并行文件读取的数据预处理方法,其特征在于,步骤(2)中,所述元数据信息包括数据文件的维度、每个维度的长度以及数据类型,还包括计算进程数以及每个计算进程需要读取的数据大小;所述数据大小包括数据对应在每个维度上的长度。
3.根据权利要求1所述的基于申威芯片架构并行文件读取的数据预处理方法,其特征在于,步骤(2)包括:
(2-1)预处理主进程读取数据文件的元数据信息;
(2-2)将一个计算进程需要读取的数据作为一个数据块,将数据文件划分成若干个数据块,将数据文件抽象成一个网格;该网格每个维度上数据块的个数作为该网格维度的长度;
(2-3)对计算进程进行分组:
(a)确定计算进程组数:
设计算进程总数为k,预处理进程总数为M;
从M到1,按照从大到小的方式逐步调整m值,每次调整幅度为1,直至m为k的约数,停止,将此m值作为计算进程组数;
(b)对计算进程组数m做质因数分解,并按降序排列分解出的质因数;
(c)将质因数分配至合适的网格维度上:
每次寻找长度最大的网格维度,按照从大到小的顺序依次选择质因数;
若最大网格维度的长度是该质因数的倍数,则将该网格维度的长度更新为该网格维度的长度与该质因数的商,将该质因数置为0;
若最大网格维度的长度不是该质因数的倍数,则按照从大到小的顺序选择下一质因数;
(d)重复步骤(c),直至将所有的质因数分配完毕;若没有质因数分配到某个网格维度,则默认该网格维度上分配的质因数为1;
(e)每个网格维度的长度除以该网格维度上所分配的质因数之积,所得的商为一个计算进程组在该网格维度上的计算进程数,得到计算进程组的空间关系,以此对计算进程进行分组;
(2-4)预处理主进程将元数据信息和计算进程分组信息广播给其他预处理进程。
4.根据权利要求1所述的基于申威芯片架构并行文件读取的数据预处理方法,其特征在于,步骤(3)包括:
(3-1)预处理进程根据计算进程组的空间关系,建立对应维度和维度长度的笛卡尔通信域;
(3-2)根据元数据信息中数据类型、维度以及每个维度的长度,笛卡尔通信域中的预处理进程建立对应的MPI数据类型和文件视图;
(3-3)笛卡尔通信域中预处理进程调用MPI-IO函数并行读取数据文件。
5.根据权利要求4所述的基于申威芯片架构并行文件读取的数据预处理方法,其特征在于,在笛卡尔通信域中,预处理进程数等于计算进程组数。
6.根据权利要求1所述的基于申威芯片架构并行文件读取的数据预处理方法,其特征在于,步骤(4)中,所述的维度转化是指:在预处理进程对应的计算进程组中,按照计算进程的空间关系,将该预处理进程所读取的数据顺序排布。
7.根据权利要求1所述的基于申威芯片架构并行文件读取的数据预处理方法,其特征在于,步骤(4)中,对预处理进程所读取的数据块进行维度转化具有两种方式:
(i)在预处理进程的内存中,对数据块的存放顺序进行维度转化,使一个计算进程所对应的数据块连续排布;
或,(ii)在将预处理进程中的数据写回到各计算进程的数据文件过程中,将一个计算进程所对应的所有数据块写回完成后,再写回下一计算进程所对应的所有数据块,直至数据写回完成。
8.根据权利要求1所述的基于申威芯片架构并行文件读取的数据预处理方法,其特征在于,步骤(4)中,所述的元数据文件包括:计算进程组中每个计算进程所对应数据的起始位置以及数据量、数据类型。
CN201810893877.6A 2018-08-07 2018-08-07 基于申威芯片架构并行文件读取的数据预处理方法 Active CN109271344B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810893877.6A CN109271344B (zh) 2018-08-07 2018-08-07 基于申威芯片架构并行文件读取的数据预处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810893877.6A CN109271344B (zh) 2018-08-07 2018-08-07 基于申威芯片架构并行文件读取的数据预处理方法

Publications (2)

Publication Number Publication Date
CN109271344A true CN109271344A (zh) 2019-01-25
CN109271344B CN109271344B (zh) 2020-08-04

Family

ID=65153228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810893877.6A Active CN109271344B (zh) 2018-08-07 2018-08-07 基于申威芯片架构并行文件读取的数据预处理方法

Country Status (1)

Country Link
CN (1) CN109271344B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116225308A (zh) * 2022-11-21 2023-06-06 中科三清科技有限公司 数据读写方法、装置、存储介质与芯片
CN118012818A (zh) * 2024-04-10 2024-05-10 山东省计算中心(国家超级计算济南中心) 一种基于新一代申威众核处理器的进程间通信优化方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034698A (zh) * 2012-12-05 2013-04-10 北京奇虎科技有限公司 数据存储方法及装置
CN104461466A (zh) * 2013-09-25 2015-03-25 广州中国科学院软件应用技术研究所 基于MPI和OpenMP混合编程模型并行计算提高计算速度的方法
CN104765589A (zh) * 2014-01-02 2015-07-08 广州中国科学院软件应用技术研究所 基于mpi的网格并行预处理方法
CN106095583A (zh) * 2016-06-20 2016-11-09 国家海洋局第海洋研究所 基于新神威处理器的主从核协同计算编程框架
CN107247623A (zh) * 2017-05-22 2017-10-13 哈工大大数据产业有限公司 一种基于多核cpu的分布式集群系统及数据连接方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034698A (zh) * 2012-12-05 2013-04-10 北京奇虎科技有限公司 数据存储方法及装置
CN104461466A (zh) * 2013-09-25 2015-03-25 广州中国科学院软件应用技术研究所 基于MPI和OpenMP混合编程模型并行计算提高计算速度的方法
CN104765589A (zh) * 2014-01-02 2015-07-08 广州中国科学院软件应用技术研究所 基于mpi的网格并行预处理方法
CN106095583A (zh) * 2016-06-20 2016-11-09 国家海洋局第海洋研究所 基于新神威处理器的主从核协同计算编程框架
CN107247623A (zh) * 2017-05-22 2017-10-13 哈工大大数据产业有限公司 一种基于多核cpu的分布式集群系统及数据连接方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘超: "通用多核集群并行编程与优化技术的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116225308A (zh) * 2022-11-21 2023-06-06 中科三清科技有限公司 数据读写方法、装置、存储介质与芯片
CN116225308B (zh) * 2022-11-21 2023-12-08 中科三清科技有限公司 数据读写方法、装置、存储介质与芯片
CN118012818A (zh) * 2024-04-10 2024-05-10 山东省计算中心(国家超级计算济南中心) 一种基于新一代申威众核处理器的进程间通信优化方法

Also Published As

Publication number Publication date
CN109271344B (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN102629258B (zh) 重复数据删除方法和装置
CN101717817B (zh) 对基于随机上下文无关文法的rna二级结构预测进行加速的方法
CN108805266A (zh) 一种可重构cnn高并发卷积加速器
Pennycook et al. Performance analysis of a hybrid MPI/CUDA implementation of the NASLU benchmark
CN104881466B (zh) 数据分片的处理以及垃圾文件的删除方法和装置
CN103761215B (zh) 基于图形处理器的矩阵转置优化方法
CN103218348B (zh) 快速傅里叶变换处理方法和系统
CN109145255B (zh) 一种稀疏矩阵lu分解行更新的异构并行计算方法
CN117472448B (zh) 一种申威众核处理器从核簇加速并行方法、设备及介质
Jain et al. Input/output in parallel and distributed computer systems
CN101937425B (zh) 基于gpu众核平台的矩阵并行转置方法
CN101083643A (zh) 一种低存储器开销的混合基fft处理器及其方法
CN102279818A (zh) 支持有限共享的向量数据访存控制方法及向量存储器
CN103019855A (zh) MapReduce作业执行时间预测方法
CN109271344A (zh) 基于申威芯片架构并行文件读取的数据预处理方法
Kumar et al. Efficient data restructuring and aggregation for I/O acceleration in PIDX
CN111783933A (zh) 一种对深度卷积神经网络计算加速的、结合主存储器的数据载入装置的硬件电路设计及方法
CN101014948A (zh) 单指令多数据处理器结构中的互连
CN111522776B (zh) 一种计算架构
CN112988621A (zh) 一种张量数据的数据载入装置及方法
CN103150157B (zh) 基于访存分歧的gpu核心程序重组优化方法
CN113900808B (zh) 一种基于任意多面体非结构网格的mpi并行数据结构
CN116074179A (zh) 基于cpu-npu协同的高扩展节点系统及训练方法
CN105183628B (zh) 一种嵌入式系统日志收集装置、记录系统及方法
CN113297537B (zh) 一种稀疏结构化三角方程组求解的高性能实现方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant