CN102597959B

CN102597959B - 对包含多对多通信的多个计算处理进行调度的方法和系统

Info

Publication number: CN102597959B
Application number: CN201080050810.8A
Authority: CN
Inventors: 土井淳; 根岸康
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2009-11-16
Filing date: 2010-11-15
Publication date: 2015-04-15
Anticipated expiration: 2030-11-15
Also published as: US9251118B2; DE112010003810T5; JP2013037723A; GB201206822D0; DE112010003810B4; GB2487684A; CN102597959A; JP5153945B2; WO2011059090A1; GB2487684B; JPWO2011059090A1; US20120233621A1; JP5425993B2

Abstract

在构成n维的(环形或网状)网络的多个节点(处理器)之间，对包含多对多(A2A)通信的多个计算处理进行最佳调度。将构成网络的多个节点(处理器)分为仅对第1部分组内包含的多个节点之间的多对多通信需要的通信(计算处理)阶段(A2A-L)、和仅对第2部分组内包含的多个节点之间的多对多通信需要的通信(计算处理)阶段(A2A-P)，在遍及多个线程(线程1、线程2、线程3、线程4)，使各个阶段重叠而进行并行处理。即使对于FFT(快速傅立叶变换)或T(转置)((内部转置)这样的多个计算处理，也能够进行并行处理。

Description

对包含多对多通信的多个计算处理进行调度的方法和系统

技术领域

本发明涉及在构成n维的(环形或网状)网络的多个节点(处理器)之间，对包含多对多通信(A2A：all-to-all communication)的多个计算处理进行最佳调度。

背景技术

在通过环形(torus)或网状(mesh)等网络连接的并行计算机中，多个节点(处理器)之间的通信的性能极大地影响计算处理的速度。作为代表性的通信模式(pattern)，已知全部节点向其它的全部节点发送对每个节点不同的数据的多对多通信(all-to-all communication，缩写为“A2A”)，需要最多的通信传送量。已知多对多通信是在矩阵或数组(矩阵)的转置(transpose，缩写为“T”)或快速傅立叶变换(Fast Fourier Transform，缩写为“FFT”)等很多的计算中，频繁地被利用的通信形态。

专利文献1表示在FFT的计算中，将数组转置或在1维(1D)FFT的计算中使作为2维(2D)FFT来处理处于一般的技术水准。横跨多个处理器处理第1维，横跨多个处理器处理第2维。

专利文献2记载了在n维环形网络中的多对多通信内部的处理中，将阶段(phase)重叠以实现高效率的办法。这里，进行专利文献2和本发明的对比说明。本发明是将多对多通信变换为多个局部的多对多通信，以多对多通信为单位进行流水线处理(pipeline)，所以不含多对多通信内部的安装方式，发明的适用对象不同。另外，调度的对象不同，在专利文献2中不包含如本发明那样的多对多通信以外的处理和多对多通信内的处理的重合。

现有技术文献

专利文献

专利文献1：专利第3675537号(日本)

专利文献2：专利第2601591号(日本)

发明内容

发明要解决的问题

希望在构成n维(环形或网状)网络的多个节点(处理器)之间，将包含多对多通信(A2A：all-to-all communication)的多个计算处理进一步高效率。

解决问题的方案

将构成网络的多个节点(处理器)分为：进行仅对第1部分组中包含的多个节点之间的多对多通信所需要的计算处理阶段(A2A-L)，和进行仅对第2部分组中包含的多个节点之间的多对多通信所需要的计算处理阶段(A2A-P)，在遍及Nt个的多个线程(线程1、线程2、线程3、线程4、…、线程Nt))，使各个阶段重叠进行并行处理。

发明效果

在构成n维(环形或网状)网络的多个节点(处理器)之间，能够对包含多对多通信(A2A：all-to-all communication)的多个计算处理进行最佳调度，能够提高计算性能。

附图说明

图1的(A)～(C)是说明在并行计算机中对1维(1D)FFT(长度N)进行计算处理的示意图。

图2的(A)和(B)是表示节点(处理器)的结构的示意图。

图3是作为用于说明网络的维和最长的轴的示意图而图示4维环形网络的图。

图4是图示并行1维(1D)FFT的性能因构成环形的节点(处理器)的轴的数的结构而如何不同的图。

图5是表示适用本发明，在多个节点(处理器)之间，对包含多对多通信(A2A：all-to-all communication)的多个计算处理进行调度的方法的图。

图6是作为适用了本发明的情况的效果，表示并行1维(1D)FFT的性能因构成环形的节点(处理器)的轴的数的结构而如何不同的图。

具体实施方式

图1是说明将1维(1D)FFT(长度N)在并行计算机中进行计算处理的示意图。

图1的(A)表示为了将1维(1D)FFT(长度N)用并行计算机进行计算处理，将其变形为2维(2D)FFT(N1，N2)(N＝N1×N2)这样的形式，分为N1和N2长度的2个FFT进行并行处理。换句话说，作为N1和N2的2维(2D)，表示改变并行处理的方向来进行处理。其中，np是处理器(节点)的数(number ofprocessor)。

图1的(B)表示并行过的1维(1D)FFT算法。已知在并行过的1维(1D)FFT中的计算处理中，在从输入得到输出的过程中需要3次转置(transpose，“T”)。例如在专利文献1中，这种情况也作为一般的技术水准来表示。

图1的(C)表示转置(transpose“T”)是将行和列交换的处理。图示了在以i为行号并且以j为列号的情况下，相当于ij情形的位置被置换为相当于ji情形的位置。作为第1步骤，使用多对多通信(A2A：all-to-all communication)，以情形的位置为单位被分块进行处理，所以作为第2步骤，即使在该块的内部也需要进行内部转置(internal transpose，“IT”)。

图2是表示节点(处理器)的结构的示意图。图2的(A)中将1个节点作为立方体(cubic)的图像来表现。按照这样的表现时，容易在与空间上邻接的其它节点(处理器)之间，将从立方体的6个面进行通信的6条双方向通信路径(也可以是12根单方向通信路径)图像化，3维网络的结构容易图像化。

图2的(B)中表示节点(处理器)的内部结构。作为并行计算机的特征，存在遍及多个线程，也称为多线程。作为类似的情况，用多核、多处理器等各种表现来称呼，这些称呼也不必被单义地区别加以使用。当然，本发明的适用在于能够在节点(处理器)内并行地进行处理(流水线处理)，能够重叠(overlap)要处理的内容，所以作为能够适用本发明的对象，区别它们毫无意义。

已知对于1个节点(处理器)内的线程的数，存在各种各样的制品。其中，作为4个线程，表示为线程1、线程2、线程3、线程4。线程典型地是硬件，但是可以作为如共有硬件那样制定的软件、或者作为硬件和软件的组合而实现。

而且，在节点(处理器)内有存储器，存储有关在当前的时间点上哪个通信处理处于专有线程的状态的信息、有关接着在线程中执行哪个通信处理的信息(例如，如表格那样的信息)等。存储器典型地具体化为硬件，但是也能够在与软件的组合中形成虚拟的区域。

另外，在节点(处理器)内有控制器，进行通过通信路径所发送接收的信息的访问(access)许可的控制。控制器能够作为硬件、软件、或者硬件和软件的组合而实现。

本发明的调度方法，可以对单数的每个节点(处理器)内独立地动作，也可以在构成局部组的邻接的多个节点(处理器)之间协同地动作。调度方法还能够作为各个节点(处理器)能够动作的那样的具有多个代码的程序(或者程序制品)来提供。另外，作为多个节点(处理器)的组，还可以作为可进行本发明的调度的并行计算机系统来提供。

图3是图示了作为用于说明网络的维和最长的轴的示意图的4维环形网络的图。如已经说明的那样，如果是3维网络，则也容易直观地图像化为通过图2的立方体(cubic)的6面进行通信的6条双向通信路径。

这里，邻接的8个立方体形成1个局部组(子组)，该局部组横向地排列3个。每个局部组的轴的数沿着x轴、y轴、z轴这样的熟悉的坐标系，如L个、M个、N个这样地计算节点(处理器)的数，x轴计算为2，y轴计算为2，z轴计算为2。这里，全部轴的长度相等，表示为2×2×2，这三轴是相同长度的轴。

下面说明4维网络。这里，作为将横向地排列3个的局部组之间连结的双向通信路径，表示从1个节点(处理器)进一步追加2条双向通信路径(即使在3维空间中也能看见的形态)，对于1个节点(处理器)，能够图像化8条双向通信路径。将沿新追加的双向通信路径的轴作为t轴来计算节点(处理器)的数时成为3，表现为2×2×2×3，所以该例子中最长的轴为对着该第4维的轴的3。在本发明中，“最长的轴”有重要的意义。而且，对于n维网络，只要是本领域技术人员，就可以容易地扩展适用本发明。

图4是表示并行1维(1D)FFT的性能因构成环形的节点(处理器)的轴的数的结构而如何不同的图。

首先，在虚线内，图示了2×2×2(＝8)的立方体(cubic)环形和2×2×4(＝16)的非立方体(non－cubic)环形，作为3维网络的立方体(cubic)图像。有节点(处理器)的数的限制时，例如未必能够构成为3×3×3(＝27)的立方体(cubic)，所以利用非立方体(non－cubic)的结构的状况多。

在2×1×1的结构中的网状和环形的区别在于，如虚线内图示的连结立方体的各轴两端的节点(处理器)的双向通信路径是否存在。在形成组的状态下表现上繁杂，所以没有图示那些双向通信路径。

为了比较性能，用8×8×8(＝512)的环形和8×8×16(＝1024)的非立方体(non－cubic)环形来比较并行1维(1D)FFT的性能。所谓“基于维的形状”在该图中是“取决于3维的形状”，是立方体(cubic)或者是非立方体(non－cubic)。

在蓝基因(Blue Gene)/P(Blue Gene和Blue Gene/P是IBM公司的商标)中测定了该性能。GFLOP是每秒10亿次浮点运算的单位。由于本来能够利用的节点(处理器)的数从512变为2倍1024，所以期待性能也变为2倍，但是峰值性能仍被维持原样。

另外，在全体的通信中的多对多(all-to-all)通信所占的比例从54％增大到70％，最长的轴的长度为16，变为8的2倍时，多对多(all-to-all)通信的带宽变为一半以下。

图5是表示适用本发明，在多个节点(处理器)之间对包含多对多通信(A2A：all-to-all communication)的多个计算处理进行调度的方法的图。根据图1的(B)的并行1D(1维)FFT算法，如图所示，分为阶段1和阶段2进行处理。此时，根据图2的(B)的节点(处理器)的内部结构，假定有4个线程，对采用了多个线程的流水线处理进行调度。

对于用多个节点(处理器)4×4×8(＝128)构成3维网络的非立方体(non－cubic)环形，最长的轴是8，将位于轴状内的8个的多个节点(处理器)选择为包含最长的轴的第1局部组。将用于仅对该第1局部组中包含的8个的多个节点(处理器)之间的多对多通信进行处理的通信阶段称为A2A－L(L是Longest(最长)的第一个字母)。

对于用多个节点(处理器)4×4×8(＝128)构成3维网络的非立方体(non－cubic)环形，包含最长的轴以外的全部的轴(4×4)的第2局部组内的节点(处理器)成为平面(即，作为轴的数为2而取决于2维的形状)，将用于仅对该第2局部组中包含的16(4×4)的多个节点(处理器)之间的多对多通信进行处理的通信阶段称为A2A－P(P是Plane(平面)的第一个字母)。

在作为最长的轴不是1个的情况下，成为取决于以作为最长的轴的数设为维数的形状的第1局部组，但在这里没有图示。同样地，在有多个作为最长的轴的情况下，第2局部组的形状不是平面或多维的立方体，有时也成为轴或空集合(0维)，但这里没有图示。

这里，注意到在第1局部组中包含的节点(处理器)和第2局部组中包含的节点(处理器)两者中有共同包含的节点(处理器)。在该情况下，仅是1个节点(处理器)，而通过该节点，第1局部组的计算处理的结果和第2局部组的计算处理的结果具有联系。

接下来进行阶段1和阶段2的流水线处理的调度，看成在遍及线程1、线程2、线程3、线程4中，能够并行地处理(流水线处理)多个计算处理(进行重叠)。

另外，特征在于进行调度以可以仅一个线程一次进行A2A－L。如虚线所示，进行调度以等待A2A－L的处理完成后进行下面的处理。典型的是，进行调度以在虚线表示的部分内无接缝、顺序地(或无缝地)被执行。

特征还在于A2A－L和A2A－P被重叠，由此能够巧妙地有效利用A2A－L所需要的时间。例如，能够有效利用FFT的计算处理和T(转置，这里是内部转置(internaltranspose))的计算处理。

图6是作为适用了本发明的情况的效果，表示并行1维(1D)FFT的性能因构成环形的节点(处理器)的轴的数的结构而如何不同的图。表的一部分与图4中的内容相同。

在采用了本发明的情况下，与未使用本发明的情况相比，可知处理速度提高。尤其是，在节点(处理器)的轴构成为非立方体(non-cubic)环形的情况下，其优势特别明显。

Claims

1.一种调度方法，用于在n维的轴上构成形状取决于该n维的维数的环形或网状网络的多个节点之间，对包含多对多通信的多个计算处理进行调度，其中所述节点为处理器，并且n>2，该调度方法具有：

将包含最长的轴的组内的多个节点选择为第1局部组的步骤，其中，如果最长的轴为1个，则该多个节点为轴状，如果有不止一个最长的轴，则该多个节点为取决于将最长的轴的数作为维数的形状；

提供用于仅对该第1局部组内包含的多个节点之间的多对多通信进行处理的第1通信阶段的步骤；

将包含最长的轴以外的其余全部轴的组内的多个节点选择为第2局部组的步骤；

提供用于仅对该第2局部组内包含的多个节点之间的多对多通信进行处理的第2通信阶段的步骤；以及

对多个计算处理进行调度的步骤，所述步骤使得第1通信阶段和第2通信阶段能够重叠进行从而在节点内并行地处理，并且能够等待第1局部组中的全部多对多通信完成后进入下面的处理。

2.一种调度方法，用于在3维的轴上构成立方体形状或非立方体形状的环形或网状网络的多个节点之间，对包含多对多通信的多个计算处理进行调度，其中，所述节点为处理器，该调度方法具有：

将包含最长的轴的组内的多个节点选择为第1局部组的步骤，其中，如果最长的轴为1个，则该多个节点为轴状，如果有不止一个最长的轴，则该多个节点为平面状；

对多个计算处理进行调度的步骤，所述步骤使得第1通信阶段和第2通信阶段能够重叠进行从而在节点内并行地处理，并且能够等待第1局部组中的全部多对多通信结束后进入下面的处理。

3.如权利要求1或2所述的方法，

还具有在全部轴的长度相等的情况下进行调度，以将包含全部节点的组选择为第1局部组，顺序地执行第1局部组中的多对多通信的步骤。

4.如权利要求1或2所述的方法，

其中，所述对多个计算处理进行调度的步骤进一步使得第1通信阶段的计算处理与FFT的计算处理或矩阵转置的计算处理能够重叠进行以便并行地处理。

5.一种调度系统，用于在n维的轴上构成形状取决于该n维的维数的环形或网状网络的多个节点之间，对包含多对多通信的多个计算处理进行调度，其中所述节点为处理器，并且n>2，该系统具有：

用于将包含最长的轴的组内的多个节点选择为第1局部组的装置，其中，如果最长的轴为1个，则该多个节点为轴状，如果有不止一个最长的轴，则该多个节点为取决于以最长的轴的数作为维数的形状；

用于提供用于仅对该第1局部组内包含的多个节点之间的多对多通信进行处理的第1通信阶段的装置；

用于将包含最长的轴以外的其余全部轴的组内的多个节点选择为第2局部组的装置；

用于提供用于仅对该第2局部组内包含的多个节点之间的多对多通信进行处理的第2通信阶段的装置；以及

用于对多个计算处理进行调度的装置，所述装置使得第1通信阶段和第2通信阶段能够重叠进行从而在节点内并行地处理，并且能够等待第1局部组中的全部多对多通信完成后进行下面的处理。

6.一种调度系统，用于在3维的轴上构成立方体形状或非立方体形状的环形或网状网络的多个节点之间，对包含多对多通信的多个计算处理进行调度，其中，所述节点为处理器，该系统具有：

用于将包含最长的轴的组内的多个节点选择为第1局部组的装置，其中，如果最长的轴为1个，则该多个节点为轴状，如果有不止一个最长的轴，则该多个节点为平面状；

7.如权利要求5或6所述的系统，

还具有用于进行调度，以在全部轴的长度相等的情况下，将包含全部节点的组选择为第1局部组，顺序地执行第1局部组中的多对多通信的装置。

8.如权利要求5或6所述的系统，

用于对多个计算处理进行调度的装置进一步使得第1通信阶段的计算处理与FFT的计算处理或矩阵转置的计算处理能够重叠进行以便并行地处理。