CN102597959B - 对包含多对多通信的多个计算处理进行调度的方法和系统 - Google Patents

对包含多对多通信的多个计算处理进行调度的方法和系统 Download PDF

Info

Publication number
CN102597959B
CN102597959B CN201080050810.8A CN201080050810A CN102597959B CN 102597959 B CN102597959 B CN 102597959B CN 201080050810 A CN201080050810 A CN 201080050810A CN 102597959 B CN102597959 B CN 102597959B
Authority
CN
China
Prior art keywords
many
communication
axle
node
partial groups
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201080050810.8A
Other languages
English (en)
Other versions
CN102597959A (zh
Inventor
土井淳
根岸康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN102597959A publication Critical patent/CN102597959A/zh
Application granted granted Critical
Publication of CN102597959B publication Critical patent/CN102597959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/80Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
    • G06F15/8007Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors single instruction multiple data [SIMD] multiprocessors
    • G06F15/803Three-dimensional arrays or hypercubes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5066Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/30Definitions, standards or architectural aspects of layered protocol stacks
    • H04L69/32Architecture of open systems interconnection [OSI] 7-layer type protocol stacks, e.g. the interfaces between the data link level and the physical level
    • H04L69/322Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions
    • H04L69/329Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions in the application layer [OSI layer 7]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Multi Processors (AREA)

Abstract

在构成n维的(环形或网状)网络的多个节点(处理器)之间,对包含多对多(A2A)通信的多个计算处理进行最佳调度。将构成网络的多个节点(处理器)分为仅对第1部分组内包含的多个节点之间的多对多通信需要的通信(计算处理)阶段(A2A-L)、和仅对第2部分组内包含的多个节点之间的多对多通信需要的通信(计算处理)阶段(A2A-P),在遍及多个线程(线程1、线程2、线程3、线程4),使各个阶段重叠而进行并行处理。即使对于FFT(快速傅立叶变换)或T(转置)((内部转置)这样的多个计算处理,也能够进行并行处理。

Description

对包含多对多通信的多个计算处理进行调度的方法和系统
技术领域
本发明涉及在构成n维的(环形或网状)网络的多个节点(处理器)之间,对包含多对多通信(A2A:all-to-all communication)的多个计算处理进行最佳调度。
背景技术
在通过环形(torus)或网状(mesh)等网络连接的并行计算机中,多个节点(处理器)之间的通信的性能极大地影响计算处理的速度。作为代表性的通信模式(pattern),已知全部节点向其它的全部节点发送对每个节点不同的数据的多对多通信(all-to-all communication,缩写为“A2A”),需要最多的通信传送量。已知多对多通信是在矩阵或数组(矩阵)的转置(transpose,缩写为“T”)或快速傅立叶变换(Fast Fourier Transform,缩写为“FFT”)等很多的计算中,频繁地被利用的通信形态。
专利文献1表示在FFT的计算中,将数组转置或在1维(1D)FFT的计算中使作为2维(2D)FFT来处理处于一般的技术水准。横跨多个处理器处理第1维,横跨多个处理器处理第2维。
专利文献2记载了在n维环形网络中的多对多通信内部的处理中,将阶段(phase)重叠以实现高效率的办法。这里,进行专利文献2和本发明的对比说明。本发明是将多对多通信变换为多个局部的多对多通信,以多对多通信为单位进行流水线处理(pipeline),所以不含多对多通信内部的安装方式,发明的适用对象不同。另外,调度的对象不同,在专利文献2中不包含如本发明那样的多对多通信以外的处理和多对多通信内的处理的重合。
现有技术文献
专利文献
专利文献1:专利第3675537号(日本)
专利文献2:专利第2601591号(日本)
发明内容
发明要解决的问题
希望在构成n维(环形或网状)网络的多个节点(处理器)之间,将包含多对多通信(A2A:all-to-all communication)的多个计算处理进一步高效率。
解决问题的方案
将构成网络的多个节点(处理器)分为:进行仅对第1部分组中包含的多个节点之间的多对多通信所需要的计算处理阶段(A2A-L),和进行仅对第2部分组中包含的多个节点之间的多对多通信所需要的计算处理阶段(A2A-P),在遍及Nt个的多个线程(线程1、线程2、线程3、线程4、…、线程Nt)),使各个阶段重叠进行并行处理。
发明效果
在构成n维(环形或网状)网络的多个节点(处理器)之间,能够对包含多对多通信(A2A:all-to-all communication)的多个计算处理进行最佳调度,能够提高计算性能。
附图说明
图1的(A)~(C)是说明在并行计算机中对1维(1D)FFT(长度N)进行计算处理的示意图。
图2的(A)和(B)是表示节点(处理器)的结构的示意图。
图3是作为用于说明网络的维和最长的轴的示意图而图示4维环形网络的图。
图4是图示并行1维(1D)FFT的性能因构成环形的节点(处理器)的轴的数的结构而如何不同的图。
图5是表示适用本发明,在多个节点(处理器)之间,对包含多对多通信(A2A:all-to-all communication)的多个计算处理进行调度的方法的图。
图6是作为适用了本发明的情况的效果,表示并行1维(1D)FFT的性能因构成环形的节点(处理器)的轴的数的结构而如何不同的图。
具体实施方式
图1是说明将1维(1D)FFT(长度N)在并行计算机中进行计算处理的示意图。
图1的(A)表示为了将1维(1D)FFT(长度N)用并行计算机进行计算处理,将其变形为2维(2D)FFT(N1,N2)(N=N1×N2)这样的形式,分为N1和N2长度的2个FFT进行并行处理。换句话说,作为N1和N2的2维(2D),表示改变并行处理的方向来进行处理。其中,np是处理器(节点)的数(number ofprocessor)。
图1的(B)表示并行过的1维(1D)FFT算法。已知在并行过的1维(1D)FFT中的计算处理中,在从输入得到输出的过程中需要3次转置(transpose,“T”)。例如在专利文献1中,这种情况也作为一般的技术水准来表示。
图1的(C)表示转置(transpose“T”)是将行和列交换的处理。图示了在以i为行号并且以j为列号的情况下,相当于ij情形的位置被置换为相当于ji情形的位置。作为第1步骤,使用多对多通信(A2A:all-to-all communication),以情形的位置为单位被分块进行处理,所以作为第2步骤,即使在该块的内部也需要进行内部转置(internal transpose,“IT”)。
图2是表示节点(处理器)的结构的示意图。图2的(A)中将1个节点作为立方体(cubic)的图像来表现。按照这样的表现时,容易在与空间上邻接的其它节点(处理器)之间,将从立方体的6个面进行通信的6条双方向通信路径(也可以是12根单方向通信路径)图像化,3维网络的结构容易图像化。
图2的(B)中表示节点(处理器)的内部结构。作为并行计算机的特征,存在遍及多个线程,也称为多线程。作为类似的情况,用多核、多处理器等各种表现来称呼,这些称呼也不必被单义地区别加以使用。当然,本发明的适用在于能够在节点(处理器)内并行地进行处理(流水线处理),能够重叠(overlap)要处理的内容,所以作为能够适用本发明的对象,区别它们毫无意义。
已知对于1个节点(处理器)内的线程的数,存在各种各样的制品。其中,作为4个线程,表示为线程1、线程2、线程3、线程4。线程典型地是硬件,但是可以作为如共有硬件那样制定的软件、或者作为硬件和软件的组合而实现。
而且,在节点(处理器)内有存储器,存储有关在当前的时间点上哪个通信处理处于专有线程的状态的信息、有关接着在线程中执行哪个通信处理的信息(例如,如表格那样的信息)等。存储器典型地具体化为硬件,但是也能够在与软件的组合中形成虚拟的区域。
另外,在节点(处理器)内有控制器,进行通过通信路径所发送接收的信息的访问(access)许可的控制。控制器能够作为硬件、软件、或者硬件和软件的组合而实现。
本发明的调度方法,可以对单数的每个节点(处理器)内独立地动作,也可以在构成局部组的邻接的多个节点(处理器)之间协同地动作。调度方法还能够作为各个节点(处理器)能够动作的那样的具有多个代码的程序(或者程序制品)来提供。另外,作为多个节点(处理器)的组,还可以作为可进行本发明的调度的并行计算机系统来提供。
图3是图示了作为用于说明网络的维和最长的轴的示意图的4维环形网络的图。如已经说明的那样,如果是3维网络,则也容易直观地图像化为通过图2的立方体(cubic)的6面进行通信的6条双向通信路径。
这里,邻接的8个立方体形成1个局部组(子组),该局部组横向地排列3个。每个局部组的轴的数沿着x轴、y轴、z轴这样的熟悉的坐标系,如L个、M个、N个这样地计算节点(处理器)的数,x轴计算为2,y轴计算为2,z轴计算为2。这里,全部轴的长度相等,表示为2×2×2,这三轴是相同长度的轴。
下面说明4维网络。这里,作为将横向地排列3个的局部组之间连结的双向通信路径,表示从1个节点(处理器)进一步追加2条双向通信路径(即使在3维空间中也能看见的形态),对于1个节点(处理器),能够图像化8条双向通信路径。将沿新追加的双向通信路径的轴作为t轴来计算节点(处理器)的数时成为3,表现为2×2×2×3,所以该例子中最长的轴为对着该第4维的轴的3。在本发明中,“最长的轴”有重要的意义。而且,对于n维网络,只要是本领域技术人员,就可以容易地扩展适用本发明。
图4是表示并行1维(1D)FFT的性能因构成环形的节点(处理器)的轴的数的结构而如何不同的图。
首先,在虚线内,图示了2×2×2(=8)的立方体(cubic)环形和2×2×4(=16)的非立方体(non-cubic)环形,作为3维网络的立方体(cubic)图像。有节点(处理器)的数的限制时,例如未必能够构成为3×3×3(=27)的立方体(cubic),所以利用非立方体(non-cubic)的结构的状况多。
在2×1×1的结构中的网状和环形的区别在于,如虚线内图示的连结立方体的各轴两端的节点(处理器)的双向通信路径是否存在。在形成组的状态下表现上繁杂,所以没有图示那些双向通信路径。
为了比较性能,用8×8×8(=512)的环形和8×8×16(=1024)的非立方体(non-cubic)环形来比较并行1维(1D)FFT的性能。所谓“基于维的形状”在该图中是“取决于3维的形状”,是立方体(cubic)或者是非立方体(non-cubic)。
在蓝基因(Blue Gene)/P(Blue Gene和Blue Gene/P是IBM公司的商标)中测定了该性能。GFLOP是每秒10亿次浮点运算的单位。由于本来能够利用的节点(处理器)的数从512变为2倍1024,所以期待性能也变为2倍,但是峰值性能仍被维持原样。
另外,在全体的通信中的多对多(all-to-all)通信所占的比例从54%增大到70%,最长的轴的长度为16,变为8的2倍时,多对多(all-to-all)通信的带宽变为一半以下。
图5是表示适用本发明,在多个节点(处理器)之间对包含多对多通信(A2A:all-to-all communication)的多个计算处理进行调度的方法的图。根据图1的(B)的并行1D(1维)FFT算法,如图所示,分为阶段1和阶段2进行处理。此时,根据图2的(B)的节点(处理器)的内部结构,假定有4个线程,对采用了多个线程的流水线处理进行调度。
对于用多个节点(处理器)4×4×8(=128)构成3维网络的非立方体(non-cubic)环形,最长的轴是8,将位于轴状内的8个的多个节点(处理器)选择为包含最长的轴的第1局部组。将用于仅对该第1局部组中包含的8个的多个节点(处理器)之间的多对多通信进行处理的通信阶段称为A2A-L(L是Longest(最长)的第一个字母)。
对于用多个节点(处理器)4×4×8(=128)构成3维网络的非立方体(non-cubic)环形,包含最长的轴以外的全部的轴(4×4)的第2局部组内的节点(处理器)成为平面(即,作为轴的数为2而取决于2维的形状),将用于仅对该第2局部组中包含的16(4×4)的多个节点(处理器)之间的多对多通信进行处理的通信阶段称为A2A-P(P是Plane(平面)的第一个字母)。
在作为最长的轴不是1个的情况下,成为取决于以作为最长的轴的数设为维数的形状的第1局部组,但在这里没有图示。同样地,在有多个作为最长的轴的情况下,第2局部组的形状不是平面或多维的立方体,有时也成为轴或空集合(0维),但这里没有图示。
这里,注意到在第1局部组中包含的节点(处理器)和第2局部组中包含的节点(处理器)两者中有共同包含的节点(处理器)。在该情况下,仅是1个节点(处理器),而通过该节点,第1局部组的计算处理的结果和第2局部组的计算处理的结果具有联系。
接下来进行阶段1和阶段2的流水线处理的调度,看成在遍及线程1、线程2、线程3、线程4中,能够并行地处理(流水线处理)多个计算处理(进行重叠)。
另外,特征在于进行调度以可以仅一个线程一次进行A2A-L。如虚线所示,进行调度以等待A2A-L的处理完成后进行下面的处理。典型的是,进行调度以在虚线表示的部分内无接缝、顺序地(或无缝地)被执行。
特征还在于A2A-L和A2A-P被重叠,由此能够巧妙地有效利用A2A-L所需要的时间。例如,能够有效利用FFT的计算处理和T(转置,这里是内部转置(internaltranspose))的计算处理。
图6是作为适用了本发明的情况的效果,表示并行1维(1D)FFT的性能因构成环形的节点(处理器)的轴的数的结构而如何不同的图。表的一部分与图4中的内容相同。
在采用了本发明的情况下,与未使用本发明的情况相比,可知处理速度提高。尤其是,在节点(处理器)的轴构成为非立方体(non-cubic)环形的情况下,其优势特别明显。

Claims (8)

1.一种调度方法,用于在n维的轴上构成形状取决于该n维的维数的环形或网状网络的多个节点之间,对包含多对多通信的多个计算处理进行调度,其中所述节点为处理器,并且n>2,该调度方法具有:
将包含最长的轴的组内的多个节点选择为第1局部组的步骤,其中,如果最长的轴为1个,则该多个节点为轴状,如果有不止一个最长的轴,则该多个节点为取决于将最长的轴的数作为维数的形状;
提供用于仅对该第1局部组内包含的多个节点之间的多对多通信进行处理的第1通信阶段的步骤;
将包含最长的轴以外的其余全部轴的组内的多个节点选择为第2局部组的步骤;
提供用于仅对该第2局部组内包含的多个节点之间的多对多通信进行处理的第2通信阶段的步骤;以及
对多个计算处理进行调度的步骤,所述步骤使得第1通信阶段和第2通信阶段能够重叠进行从而在节点内并行地处理,并且能够等待第1局部组中的全部多对多通信完成后进入下面的处理。
2.一种调度方法,用于在3维的轴上构成立方体形状或非立方体形状的环形或网状网络的多个节点之间,对包含多对多通信的多个计算处理进行调度,其中,所述节点为处理器,该调度方法具有:
将包含最长的轴的组内的多个节点选择为第1局部组的步骤,其中,如果最长的轴为1个,则该多个节点为轴状,如果有不止一个最长的轴,则该多个节点为平面状;
提供用于仅对该第1局部组内包含的多个节点之间的多对多通信进行处理的第1通信阶段的步骤;
将包含最长的轴以外的其余全部轴的组内的多个节点选择为第2局部组的步骤;
提供用于仅对该第2局部组内包含的多个节点之间的多对多通信进行处理的第2通信阶段的步骤;以及
对多个计算处理进行调度的步骤,所述步骤使得第1通信阶段和第2通信阶段能够重叠进行从而在节点内并行地处理,并且能够等待第1局部组中的全部多对多通信结束后进入下面的处理。
3.如权利要求1或2所述的方法,
还具有在全部轴的长度相等的情况下进行调度,以将包含全部节点的组选择为第1局部组,顺序地执行第1局部组中的多对多通信的步骤。
4.如权利要求1或2所述的方法,
其中,所述对多个计算处理进行调度的步骤进一步使得第1通信阶段的计算处理与FFT的计算处理或矩阵转置的计算处理能够重叠进行以便并行地处理。
5.一种调度系统,用于在n维的轴上构成形状取决于该n维的维数的环形或网状网络的多个节点之间,对包含多对多通信的多个计算处理进行调度,其中所述节点为处理器,并且n>2,该系统具有:
用于将包含最长的轴的组内的多个节点选择为第1局部组的装置,其中,如果最长的轴为1个,则该多个节点为轴状,如果有不止一个最长的轴,则该多个节点为取决于以最长的轴的数作为维数的形状;
用于提供用于仅对该第1局部组内包含的多个节点之间的多对多通信进行处理的第1通信阶段的装置;
用于将包含最长的轴以外的其余全部轴的组内的多个节点选择为第2局部组的装置;
用于提供用于仅对该第2局部组内包含的多个节点之间的多对多通信进行处理的第2通信阶段的装置;以及
用于对多个计算处理进行调度的装置,所述装置使得第1通信阶段和第2通信阶段能够重叠进行从而在节点内并行地处理,并且能够等待第1局部组中的全部多对多通信完成后进行下面的处理。
6.一种调度系统,用于在3维的轴上构成立方体形状或非立方体形状的环形或网状网络的多个节点之间,对包含多对多通信的多个计算处理进行调度,其中,所述节点为处理器,该系统具有:
用于将包含最长的轴的组内的多个节点选择为第1局部组的装置,其中,如果最长的轴为1个,则该多个节点为轴状,如果有不止一个最长的轴,则该多个节点为平面状;
用于提供用于仅对该第1局部组内包含的多个节点之间的多对多通信进行处理的第1通信阶段的装置;
用于将包含最长的轴以外的其余全部轴的组内的多个节点选择为第2局部组的装置;
用于提供用于仅对该第2局部组内包含的多个节点之间的多对多通信进行处理的第2通信阶段的装置;以及
用于对多个计算处理进行调度的装置,所述装置使得第1通信阶段和第2通信阶段能够重叠进行从而在节点内并行地处理,并且能够等待第1局部组中的全部多对多通信完成后进行下面的处理。
7.如权利要求5或6所述的系统,
还具有用于进行调度,以在全部轴的长度相等的情况下,将包含全部节点的组选择为第1局部组,顺序地执行第1局部组中的多对多通信的装置。
8.如权利要求5或6所述的系统,
用于对多个计算处理进行调度的装置进一步使得第1通信阶段的计算处理与FFT的计算处理或矩阵转置的计算处理能够重叠进行以便并行地处理。
CN201080050810.8A 2009-11-16 2010-11-15 对包含多对多通信的多个计算处理进行调度的方法和系统 Active CN102597959B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009-261113 2009-11-16
JP2009261113 2009-11-16
PCT/JP2010/070314 WO2011059090A1 (ja) 2009-11-16 2010-11-15 ネットワークを構成している複数のノード(プロセッサ)間において、全対全通信(A2A:all-to-allcommunication)を含む、複数の計算処理をスケジューリングする方法、プログラム及び並列計算機システム。

Publications (2)

Publication Number Publication Date
CN102597959A CN102597959A (zh) 2012-07-18
CN102597959B true CN102597959B (zh) 2015-04-15

Family

ID=43991743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080050810.8A Active CN102597959B (zh) 2009-11-16 2010-11-15 对包含多对多通信的多个计算处理进行调度的方法和系统

Country Status (6)

Country Link
US (1) US9251118B2 (zh)
JP (2) JP5153945B2 (zh)
CN (1) CN102597959B (zh)
DE (1) DE112010003810B4 (zh)
GB (1) GB2487684B (zh)
WO (1) WO2011059090A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104321761B (zh) * 2012-07-02 2017-12-22 英特尔公司 基于异步分布式计算的系统
JP6191401B2 (ja) * 2013-11-01 2017-09-06 富士通株式会社 並列計算機システム、制御装置、並列計算機システムの制御方法及び制御装置の制御プログラム
JP6666548B2 (ja) 2016-03-14 2020-03-18 富士通株式会社 並列計算機、fft演算プログラムおよびfft演算方法
JP6844198B2 (ja) 2016-10-25 2021-03-17 富士通株式会社 情報処理装置、情報処理方法、およびプログラム
JP6874564B2 (ja) * 2017-06-27 2021-05-19 富士通株式会社 情報処理システム、管理装置及びプログラム
JP6915434B2 (ja) 2017-08-01 2021-08-04 富士通株式会社 情報処理システム、情報処理方法及びプログラム
JP6930381B2 (ja) * 2017-11-06 2021-09-01 富士通株式会社 情報処理システム、演算処理装置及び情報処理システムの制御方法
JP7167687B2 (ja) * 2018-12-18 2022-11-09 富士通株式会社 情報処理装置、情報処理方法および情報処理プログラム
WO2024185430A1 (ja) * 2023-03-07 2024-09-12 株式会社デンソー 演算装置及びデータ移動方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2601591B2 (ja) * 1991-11-26 1997-04-16 富士通株式会社 並列計算機およびその全対全通信方法
EP1001351A1 (en) * 1993-12-10 2000-05-17 Cray Research, Inc. Multidimensional interconnection and routing network for an MPP computer

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0235654A (ja) * 1989-03-31 1990-02-06 Canon Electron Inc デイスク駆動装置
JPH03116357A (ja) * 1989-09-29 1991-05-17 Fujitsu Ltd 並列処理方式
JP3116357B2 (ja) 1990-02-21 2000-12-11 井関農機株式会社 農作業機
JPH04235654A (ja) * 1991-01-10 1992-08-24 Fujitsu Ltd ネットワーク制御方式
US5689719A (en) * 1991-06-28 1997-11-18 Sanyo Electric O., Ltd. Parallel computer system including processing elements
JPH07200508A (ja) * 1993-12-28 1995-08-04 Toshiba Corp ノード間結合方式
JP3675537B2 (ja) 1995-11-29 2005-07-27 富士通株式会社 高速フーリエ変換を行うメモリ分散型並列計算機およびその方法
JPH11259441A (ja) * 1998-03-13 1999-09-24 Hitachi Ltd 並列計算機における全対全通信方法
EP1050808B1 (en) * 1999-05-03 2008-04-30 STMicroelectronics S.A. Computer instruction scheduling
US6711607B1 (en) * 2000-02-04 2004-03-23 Ensim Corporation Dynamic scheduling of task streams in a multiple-resource system to ensure task stream quality of service
US7143401B2 (en) * 2000-02-17 2006-11-28 Elbrus International Single-chip multiprocessor with cycle-precise program scheduling of parallel execution
CA2437036A1 (en) * 2001-02-24 2002-09-06 International Business Machines Corporation Efficient implementation of a multidimensional fast fourier transform on a distributed-memory parallel multi-node computer
US7185138B1 (en) * 2004-05-14 2007-02-27 Peter Galicki Multi-dimensional data routing fabric
JP4291281B2 (ja) * 2005-02-03 2009-07-08 富士通株式会社 情報処理システム、計算ノード、情報処理システムの制御方法
US7809009B2 (en) * 2006-02-21 2010-10-05 Cisco Technology, Inc. Pipelined packet switching and queuing architecture
US20080092146A1 (en) * 2006-10-10 2008-04-17 Paul Chow Computing machine
WO2008114440A1 (ja) * 2007-03-20 2008-09-25 Fujitsu Limited 一意情報集団通信プログラム、コンピュータ、一意情報集団通信方法、および記録媒体
US7761687B2 (en) * 2007-06-26 2010-07-20 International Business Machines Corporation Ultrascalable petaflop parallel supercomputer
US8291427B2 (en) * 2008-06-09 2012-10-16 International Business Machines Corporation Scheduling applications for execution on a plurality of compute nodes of a parallel computer to manage temperature of the nodes during execution

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2601591B2 (ja) * 1991-11-26 1997-04-16 富士通株式会社 並列計算機およびその全対全通信方法
EP1001351A1 (en) * 1993-12-10 2000-05-17 Cray Research, Inc. Multidimensional interconnection and routing network for an MPP computer

Also Published As

Publication number Publication date
US9251118B2 (en) 2016-02-02
DE112010003810T5 (de) 2012-11-22
JP2013037723A (ja) 2013-02-21
GB201206822D0 (en) 2012-05-30
DE112010003810B4 (de) 2019-02-21
GB2487684A (en) 2012-08-01
CN102597959A (zh) 2012-07-18
JP5153945B2 (ja) 2013-02-27
WO2011059090A1 (ja) 2011-05-19
GB2487684B (en) 2016-09-14
JPWO2011059090A1 (ja) 2013-04-04
US20120233621A1 (en) 2012-09-13
JP5425993B2 (ja) 2014-02-26

Similar Documents

Publication Publication Date Title
CN102597959B (zh) 对包含多对多通信的多个计算处理进行调度的方法和系统
US9146777B2 (en) Parallel processing with solidarity cells by proactively retrieving from a task pool a matching task for the solidarity cell to process
US10430375B2 (en) Parallel computing system and communication control program
US10002205B2 (en) Efficient method for indexing data transferred between machines in distributed graph processing systems
EP2652632A2 (en) Supporting distributed key-based processes
CN105022377A (zh) 一种基于Petri网的自动制造系统的控制方法
Li et al. Metacube—a versatile family of interconnection networks for extremely large-scale supercomputers
CN101604261A (zh) 超级计算机的任务调度方法
CN102436390A (zh) 多核处理器软件升级方法及设备
CN105224410A (zh) 一种调度gpu进行批量运算的方法及装置
CN103530130B (zh) 多核系统中实现多入多出队列的方法和设备
CN113785280B (zh) 环形计算机网络上的嵌入环
CN110119375B (zh) 一种将多个标量核链接为单核向量处理阵列的控制方法
CN110008436A (zh) 基于数据流架构的快速傅里叶变换方法、系统和存储介质
US11886934B2 (en) Control of data transfer between processing nodes
Zhang et al. An effective 2-dimension graph partitioning for work stealing assisted graph processing on multi-FPGAs
US20240004828A1 (en) Distributed Processing System and Method
US20210312268A1 (en) Control of Processing Node Operations
Awwad et al. The Load Balancing Algorithm for the Star Interconnection Network
CN106874272A (zh) 一种分布式连接方法及系统
KR20240025703A (ko) 다중 타일 프로세싱 유닛의 동기화
CN118394525A (zh) 计算装置及其操作方法
KR20240138294A (ko) 그래프 신경망의 기계 학습 장치 및 방법
Nozawa et al. Spatio-temporal indexing methods for moving objects for highly interactive environment
CN111913748A (zh) 一种适合复杂异构系统的hpl矩阵更新优化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant