JP7440739B2

JP7440739B2 - 情報処理装置および並列演算プログラム

Info

Publication number: JP7440739B2
Application number: JP2019212155A
Authority: JP
Inventors: 晃成林; 貴史野瀬
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2024-02-29
Anticipated expiration: 2039-11-25
Also published as: US20210157658A1; US11656920B2; JP2021086178A

Description

本発明は情報処理装置および並列演算プログラムに関する。

計算量の大きな問題を複数の小さな問題に分割し、ネットワークに接続された複数の情報処理装置を並列に動作させて計算する並列処理システムがある。並列処理システムを利用する場合、計算途中において情報処理装置間で通信が発生することがある。そこで、並列処理システム用のアプリケーションプログラムを作成する際に、ＭＰＩ（Message Passing Interface）ライブラリなどの通信ライブラリが利用されることがある。通信ライブラリを利用することで、ユーザは情報処理装置間の通信手順の詳細をアプリケーションプログラム中に記述しなくてよい。

例えば、ネットワークで結合された分散メモリ型並列計算機内要素計算機間のデータ通信方法が提案されている。この提案では、ｎ台の要素計算機が、各通信ステップで二台ずつの要素計算機の組による相互通信を行い、かつ各通信ステップでは以前の通信ステップにおける要素計算機の組とは異なる組を形成する。これにより、ｎ回の通信ステップで各要素計算機内のデータを全ての要素計算機間で相互に送受信する全対全通信を行う。

また、複数のプロセスが実行されるサーバによるクラスタシステムにおけるプロセス間通信方法が提案されている。提案のプロセス間通信方法では、サーバは、全対全のプロセス間通信の同一回の送信先サーバ決定において、複数のサーバが互いに異なるサーバを送信先サーバとして決定する。サーバは、当該送信先サーバで動作しているプロセスを順番に送信先プロセスとして決定し、決定された送信先プロセスに対して送信データを送信する。

特開平１１－１１０３６２号公報特開２０１１－１０８２０２号公報

情報処理装置に設けられた複数のノードにより複数のプロセスを並列に実行可能にすることが考えられる。複数のプロセスにより全対全通信を行う場合に、ユーザや所定のアプリケーションなどによってプロセス毎に予め付与された識別番号に基づいて、あるプロセスに対する通信先のプロセスが決定されることがある。当該識別番号はランク番号または単にランクなどと呼ばれる。しかし、ユーザや所定のアプリケーションなどによって予め付与された当該識別番号を用いて通信先を決定すると、プロセスの複数の組が並行して通信を行う際に、情報処理装置の内部の通信路で輻輳が発生することがある。

１つの側面では、本発明は、輻輳の発生を抑えることができる情報処理装置および並列演算プログラムを提供することを目的とする。

１つの態様では、情報処理装置が提供される。情報処理装置は、記憶部と処理部とを有する。記憶部は、複数のプロセスの各々に対して固有の仮想ランク番号を記憶する。処理部は、プロセス間の全対全通信の初期設定時に、ハードウェア情報から各プロセスに固有のノード順プロセス番号を生成し、ノード順プロセス番号を基に各プロセスの仮想ランク番号を算出して記憶部に格納し、複数のプロセスにおけるプロセス間の全対全通信処理時に、記憶部に記憶された仮想ランク番号と全対全通信のステップ数とに基づく排他的論理和演算を行うことで現ステップにおける通信先のプロセスのノード順プロセス番号を各プロセスに対して決定し、各プロセスに対して決定した、通信先のプロセスのノード順プロセス番号を基に各プロセスの通信先のプロセスの仮想ランク番号を算出し、各プロセスに対して決定した、通信先のプロセスの仮想ランク番号に基づいて、各プロセスから通信先のプロセスに対する通信を行う。

また、１つの態様では、並列演算プログラムが提供される。

１つの側面では、輻輳の発生を抑えることができる。

第１の実施の形態の情報処理装置の例を示す図である。第２の実施の形態の情報処理装置のハードウェア例を示す図である。ノードに属するコアの例を示す図である。輻輳が発生しない通信の例を示す図である。集団通信の例を示す図である。ノードで実行されるプロセスの例を示す図である。ルーティングの例を示す図である。発生しないルーティングの例を示す図である。輻輳が発生する通信パターンの例を示す図である。輻輳が発生しない通信パターンの例を示す図である。輻輳が多発する全対全通信の例を示す図である。輻輳が多発する全対全通信の例を示す図である。情報処理装置の処理例を示すフローチャートである。データ構造例を示す図である。データ構造例を示す図である。仮想ランク番号の決定例を示す図である。送信先の仮想ランク番号の計算例を示す図である。送信元の仮想ランク番号の計算例を示す図である。仮想ランク番号に基づく全対全通信の例を示す図である。仮想ランク番号に基づく全対全通信の例を示す図である。仮想ランク番号に基づく全対全通信の例を示す図である。仮想ランク番号に基づく全対全通信の例を示す図である。第３の実施の形態の仮想ランク番号の決定例を示す図である。仮想ランク番号に基づく全対全通信の例を示す図である。仮想ランク番号に基づく全対全通信の例を示す図である。仮想ランク番号に基づく全対全通信の例を示す図である。第４の実施の形態の仮想ランク番号の決定例を示す図である。送信先の仮想ランク番号の計算例を示す図である。仮想ランク番号に基づく全対全通信の例を示す図である。仮想ランク番号に基づく全対全通信の例を示す図である。並列処理システムの例を示す図である。

以下、本実施の形態について図面を参照して説明する。
［第１の実施の形態］
第１の実施の形態を説明する。

図１は、第１の実施の形態の情報処理装置の例を示す図である。
情報処理装置１は、記憶部１ａ０，１ａ１，１ａ２，１ａ３と処理部１ｂとを有する。
記憶部１ａ０，１ａ１，１ａ２，１ａ３は、処理部１ｂの処理に用いられるデータを記憶する主記憶装置である。記憶部１ａ０，１ａ１，１ａ２，１ａ３としては、例えば、ＨＢＭ（High Bandwidth Memory）２などのＲＡＭ（Random Access Memory）が用いられる。

処理部１ｂは、ジョブに属する複数のプロセスを並列に実行する。処理部１ｂは、例えば、ＣＰＵ（Central Processing Unit）などのプロセッサである。処理部１ｂは、複数のプロセッサコアを含む。処理部１ｂは、マルチコアプロセッサと呼ばれてもよい。プロセッサコアは、ＣＰＵコアあるいは単にコアと呼ばれることがある。処理部１ｂにおける複数のコアは、所定数単位にグループ化される。所定数のコアが属するグループはノードと呼ばれる。１つのノードにおいて、当該ノードに属する２以上のコアを用いて、２以上のプロセスを並列に実行することができる。処理部１ｂにおける各ノードは、処理部１ｂ内のバスに接続される。

例えば、処理部１ｂは、ノード１ｂ０，１ｂ１，１ｂ２，１ｂ３およびリングバス１ｂ４を有する。ノード１ｂ０，１ｂ１，１ｂ２，１ｂ３は、それぞれが２以上のコアを有する。ただし、図１では、コアの図示を省略している。ノード１ｂ０は、記憶部１ａ０に接続される。ノード１ｂ１は、記憶部１ａ１に接続される。ノード１ｂ２は、記憶部１ａ２に接続される。ノード１ｂ３は、記憶部１ａ３に接続される。ここで、記憶部１ａ０，１ａ１，１ａ２，１ａ３を総称して「記憶部」と呼ぶことができ、当該「記憶部」に記憶部１ａ０，１ａ１，１ａ２，１ａ３が含まれると言うこともできる。

リングバス１ｂ４は、ノード間の通信路である。リングバス１ｂ４には、ノード１ｂ０，１ｂ２，１ｂ３，１ｂ１が、この順に、時計回りに、接続されている。
処理部１ｂは、ノード１ｂ０，１ｂ１，１ｂ２，１ｂ３により並列に情報処理を実行することができる。情報処理を実行している間、ノード１ｂ０，１ｂ１，１ｂ２，１ｂ３それぞれで実行されるプロセスは、他のプロセスに対してデータを送信することがある。プロセス間のデータ通信は、例えば、ＭＰＩなどの通信ライブラリによって実装される。プロセス間のデータ通信としては、複数のプロセスが一斉にデータ送信に参加する集団通信がある。集団通信には、各プロセスが全プロセスにデータを送信する全対全通信が含まれる。全対全通信は、プロセス間の一対一通信を組み合わせて実行される。すなわち、全対全通信は、通信の各ステップにおいて、各プロセスに対する通信先のプロセスを順次変更することで行われる。

例えば、ノード１ｂ０は、プロセスＰ０，Ｐ１を実行する。ノード１ｂ１は、プロセスＰ２，Ｐ３を実行する。ノード１ｂ２は、プロセスＰ４，Ｐ５を実行する。ノード１ｂ３は、プロセスＰ６，Ｐ７を実行する。

互いに異なるノード上にあるプロセスのペアは、リングバス１ｂ４を介して通信する。リングバス１ｂ４では、時計回りの通信路と、反時計回りの通信路とが独立に存在する。したがって、時計回りの通信と反時計回りの通信とは互いに干渉しない。また、ノード間の通信路のうち、ノード１ｂ０，１ｂ１，１ｂ２，１ｂ３それぞれとリングバス１ｂ４とを接続する接続部分で利用可能な通信帯域は、リングバス１ｂ４内部の通信路で利用可能な通信帯域に比べて十分に大きい。このため、当該接続部分においてノード側からリングバス１ｂ４側への通信と、リングバス１ｂ４側からノード側への通信が同時に発生しても輻輳は発生しないと考えてよい。

リングバス１ｂ４におけるルーティングは、送信元ノードおよび送信先ノードの組によって決まり、動的に変更されることはない。リングバス１ｂ４におけるルーティングのルールは次の通りである。

第１に、時計回りと反時計回りとで経路のホップ数が異なる場合は、ホップ数が小さい方の経路が使用される。
第２に、時計回りと反時計回りとで経路のホップ数が同じ場合は、ノード１ｂ０とノード１ｂ３との場合に反時計回りの経路、ノード１ｂ１とノード１ｂ２との場合に時計回りの経路がそれぞれ使用される。

ここで、ホップ数は、リングバス１ｂ４上で経由するノードの数である。例えば、ノード１ｂ０から反時計回りにノード１ｂ１にデータ送信する場合のホップ数は１である。また、ノード１ｂ０からノード１ｂ３に反時計回りにデータ送信する場合のホップ数は２である。ノード１ｂ０からノード１ｂ２に反時計回りにデータ送信する場合のホップ数は３である。

ノード１ｂ０，１ｂ１，１ｂ２，１ｂ３には、ノード番号が予め付与されている。ノード１ｂ０のノード番号は「＃０」である。ノード１ｂ１のノード番号は「＃１」である。ノード１ｂ２のノード番号は「＃２」である。ノード１ｂ３のノード番号は「＃３」である。各ノードのノード番号は、回転移動や対称移動を行うことで上記のような順序となるように付与される。各ノードのノード番号を含むハードウェア情報は、記憶部１ａ０～１ａ３、あるいは、処理部１ｂに接続された所定の記憶装置（図示を省略している）に格納されている。

処理部１ｂは、プロセス間の全対全通信の初期設定時に、ハードウェア情報から各プロセスに固有のノード順プロセス番号を生成する。ノード順プロセス番号は、プロセスＰ０～Ｐ７に対して、ノード番号の順に付与される番号である。１つのノードで複数のプロセスが実行される場合、処理部１ｂは、該当のノードにおける各プロセスに対して任意の順にノード順プロセス番号を付与する。図１では、ノード順プロセス番号を「ｎｕｍ」と表記している。

例えば、ノード１ｂ０は、プロセスＰ０に対してノード順プロセス番号ｎｕｍ＝０を生成する。ノード１ｂ０は、プロセスＰ１に対してノード順プロセス番号ｎｕｍ＝１を生成する。ノード１ｂ１は、プロセスＰ２に対してノード順プロセス番号ｎｕｍ＝２を生成する。ノード１ｂ１は、プロセスＰ３に対してノード順プロセス番号ｎｕｍ＝３を生成する。ノード１ｂ２は、プロセスＰ４に対してノード順プロセス番号ｎｕｍ＝４を生成する。ノード１ｂ２は、プロセスＰ５に対してノード順プロセス番号ｎｕｍ＝５を生成する。ノード１ｂ３は、プロセスＰ６に対してノード順プロセス番号ｎｕｍ＝６を生成する。ノード１ｂ３は、プロセスＰ７に対してノード順プロセス番号ｎｕｍ＝７を生成する。

処理部１ｂは、ノード順プロセス番号を基に各プロセスの仮想ランク番号を算出する。処理部１ｂは、算出した仮想ランク番号を記憶部に格納する。仮想ランク番号は、プロセス間の全対全通信を行う際に、通信先のプロセスの決定に用いられる情報である。図１では、仮想ランク番号を「ｖｒａｎｋ」と表記している。仮想ランク番号は、ノード順プロセス番号に対する下記の式（１）によって求められる。ここで、式（１）はＣ言語の表記により記述されている。

ｖｒａｎｋ＝（ｎｕｍ％２＝＝０？ｎｕｍ：ｓｉｚｅ－ｎｕｍ）・・・（１）
ｓｉｚｅは、処理部１ｂにおけるプロセスの総数である。図１の例では、ｓｉｚｅ＝８である。式（１）は次の意味をもつ。第１に、ノード順プロセス番号で偶数の番号が与えられたプロセスに対し、当該ノード順プロセス番号を仮想ランク番号とする。第２に、ノード順プロセス番号で奇数の番号が与えられたプロセスに対し、ｓｉｚｅからノード順プロセス番号を引いた値を仮想ランク番号とする。

例えば、ノード１ｂ０は、プロセスＰ０に対して仮想ランク番号ｖｒａｎｋ＝０を算出する。ノード１ｂ０は、プロセスＰ１に対して仮想ランク番号ｖｒａｎｋ＝７を算出する。ノード１ｂ１は、プロセスＰ２に対して仮想ランク番号ｖｒａｎｋ＝２を算出する。ノード１ｂ１は、プロセスＰ３に対して仮想ランク番号ｖｒａｎｋ＝５を算出する。ノード１ｂ２は、プロセスＰ４に対して仮想ランク番号ｖｒａｎｋ＝４を算出する。ノード１ｂ２は、プロセスＰ５に対して仮想ランク番号ｖｒａｎｋ＝３を算出する。ノード１ｂ３は、プロセスＰ６に対して仮想ランク番号ｖｒａｎｋ＝６を算出する。ノード１ｂ３は、プロセスＰ７に対して仮想ランク番号ｖｒａｎｋ＝１を算出する。ノード１ｂ０，１ｂ１，１ｂ２，１ｂ３は、それぞれ記憶部１ａ０，１ａ１，１ａ２，１ａ３に、算出した仮想ランク番号を格納する。

処理部１ｂは、複数のプロセスにおけるプロセス間の全対全通信処理時に、記憶部に記憶された仮想ランク番号と全対全通信のステップ数とに基づく排他的論理和演算を行うことで現ステップにおける通信先のプロセスを各プロセスに対して決定する。

前述のように、全対全通信は、一対一通信の組み合わせにより行われる。全対全通信のステップ数は、全対全通信において複数回行われる通信のうち、何回目の通信であるかを示す。全対全通信のステップ数は０から数えるものとする。第１の実施の形態の例では、１個のプロセス当たり、自プロセスを含めて計８個のプロセスに対してデータ送信を行うので、全ステップ数は８となる。ここで、ステップ数を「ｓｔｅｐ」と記述する。ｓｔｅｐが取る値の範囲は、ｓｉｚｅが２の冪であるか、そうでないかにより変化する。ｓｉｚｅが２の冪のとき、ｓｔｅｐは、０からｓｉｚｅ－１の値を取る。この場合、ステップの個数を表す変数ｍａｘｓｔｅｐを、ｍａｘｓｔｅｐ＝ｓｉｚｅとする。また、ｓｉｚｅが２の冪でない場合、ｍａｘｓｔｅｐは、ｓｉｚｅよりも大きい最小の２の冪の数を取る。例えば、ｓｉｚｅ＝５のときは、５よりも大きな最小の２の冪の数は８であるので、ステップの個数は８（ｓｔｅｐ＝０～７）であり、ｍａｘｓｔｅｐ＝８となる。

処理部１ｂは、仮想ランク番号ｖｒａｎｋのプロセスに対するデータ送信先のプロセスのノード順プロセス番号ｎｕｍ＿ｄを、式（２）によって求める。式（２）では、排他的論理和演算（ＸＯＲ）の演算子を「＾」と表している。

ｎｕｍ＿ｄ＝ｓｔｅｐ＾ｖｒａｎｋ・・・（２）
処理部１ｂは、仮想ランク番号ｖｒａｎｋのプロセスに対するデータ送信先のプロセスの仮想ランク番号を、式（１）のｎｕｍにｎｕｍ＿ｄを代入することで算出する。

一対一通信では、各プロセスに対してデータ受信を行うためにデータ送信元のプロセスの指定も行われることがある。例えば、処理部１ｂは、各プロセスに対するデータ送信元のプロセスのノード順プロセス番号ｎｕｍ＿ｓを、式（３）によって求める。

ｎｕｍ＿ｓ＝（ｓｔｅｐ％２＝＝０？ｓｔｅｐ：ｍａｘｓｔｅｐ－ｓｔｅｐ）＾ｖｒａｎｋ・・・（３）
式（３）は次の意味をもつ。第１に、ｓｔｅｐが偶数のとき、ｓｔｅｐとｖｒａｎｋとの排他的論理和を取る。第２に、ｓｔｅｐが奇数のとき、（ｍａｘｓｔｅｐ－ｓｔｅｐ）の値とｖｒａｎｋとの排他的論理和を取る。

処理部１ｂは、仮想ランク番号ｖｒａｎｋのプロセスに対するデータ送信元のプロセスの仮想ランク番号を、式（１）のｎｕｍにｎｕｍ＿ｓを代入することで算出する。
あるプロセスに対するデータ送信先プロセスの仮想ランク番号およびデータ送信元プロセスの仮想ランク番号は、該当のプロセスを実行するノードによって決定される。

例えばｓｔｅｐ＝０の場合、各プロセスのデータ送信先のプロセスは次のようになる。
プロセスＰ０のデータ送信先は、プロセスＰ０である。プロセスＰ１のデータ送信先は、プロセスＰ７である。プロセスＰ２のデータ送信先は、プロセスＰ２である。プロセスＰ３のデータ送信先は、プロセスＰ５である。プロセスＰ４のデータ送信先は、プロセスＰ４である。プロセスＰ５のデータ送信先は、プロセスＰ３である。プロセスＰ６のデータ送信先は、プロセスＰ６である。プロセスＰ７のデータ送信先は、プロセスＰ１である。処理部１ｂは、各プロセスから該当のプロセスに対して決定したデータ送信先のプロセスへのデータの送信を並列に行う。処理部１ｂは、各プロセスによるデータ送信とともに、各プロセスによるデータ送信元のプロセスからのデータの受信も行う。処理部１ｂは、各プロセスによるｓｔｅｐ＝０の一対一通信が完了すると、ステップ数をインクリメントして、次のステップに進む。各プロセスによる一対一通信の完了の同期は、例えば１ステップ毎に行われる。ただし、各プロセスによる一対一通信の完了の同期は、複数ステップ毎に行われてもよい。

例えばｓｔｅｐ＝１の場合、各プロセスのデータ送信先のプロセスは次のようになる。
プロセスＰ０のデータ送信先は、プロセスＰ１である。プロセスＰ１のデータ送信先は、プロセスＰ６である。プロセスＰ２のデータ送信先は、プロセスＰ３である。プロセスＰ３のデータ送信先は、プロセスＰ４である。プロセスＰ４のデータ送信先は、プロセスＰ５である。プロセスＰ５のデータ送信先は、プロセスＰ２である。プロセスＰ６のデータ送信先は、プロセスＰ７である。プロセスＰ７のデータ送信先は、プロセスＰ０である。処理部１ｂは、各プロセスから該当のプロセスに対して決定したデータ送信先のプロセスへのデータの送信とともに、各プロセスによるデータ送信元のプロセスからのデータの受信を行う。以降、同様に、処理部１ｂは、最終ステップに達するまで、プロセス間の一対一通信を実行することで、プロセス間の全対全通信を行う。

情報処理装置１によれば、複数のプロセスにおけるプロセス間の全対全通信の初期設定時に、ハードウェア情報から各プロセスに固有のノード順プロセス番号が生成され、ノード順プロセス番号を基に各プロセスの仮想ランク番号が算出されて記憶部に格納される。複数のプロセスにおけるプロセス間の全対全通信処理時に、記憶部に記憶された仮想ランク番号と全対全通信のステップ数とに基づく排他的論理和演算を行うことで現ステップにおける通信先のプロセスが各プロセスに対して決定される。そして、各プロセスから通信先のプロセスに対する通信が行われる。

これにより、輻輳の発生を抑えることができる。例えば、複数のプロセスの全対全通信を行う場合に、ユーザや所定のアプリケーションなどによってプロセス毎に予め付与された識別番号に基づいて、あるプロセスに対する通信先のプロセスを決定することも考えられる。しかし、予め付与された識別番号を使用すると、リングバス１ｂ４における時計回りの経路の一部分、または、反時計回りの経路の一部分が、複数の一対一通信で共有されて、輻輳が発生する可能性が高まる。

そこで、情報処理装置１では、ハードウェア情報に基づくノード順プロセス番号から算出される仮想ランク番号に基づいて、通信先のプロセスを決定する。仮想ランク番号を用いて、上記の式（１）～（３）により各プロセスに対する通信先プロセスを決定することで、リングバス１ｂ４における時計回りの経路の一部分、または、反時計回りの経路の一部分が複数の一対一通信で共有される可能性を減らせる。

例えば、上記のｓｔｅｐ＝０の場合では、プロセスＰ３からプロセスＰ５への時計回りの通信と、プロセスＰ５からプロセスＰ３への時計回りの通信とが、リングバス１ｂ４上の時計回りの通信路を共有せずに行われる。また、プロセスＰ１からプロセスＰ７への反時計回りの通信と、プロセスＰ７からプロセスＰ１への反時計回りの通信とが、リングバス１ｂ４上の反時計回りの通信路を共有せずに行われる。

また、上記のｓｔｅｐ＝１の場合では、プロセスＰ３からプロセスＰ４への時計回りの通信と、プロセスＰ５からプロセスＰ２への時計回りの通信とが、リングバス１ｂ４上の時計回りの通信路を共有せずに行われる。また、プロセスＰ１からプロセスＰ６への反時計回りの通信と、プロセスＰ７からプロセスＰ０への反時計回りの通信とが、リングバス１ｂ４上の反時計回りの通信路を共有せずに行われる。他のｓｔｅｐについても同様に、リングバス１ｂ４における時計回りの経路の一部分、または、反時計回りの経路の一部分が複数の一対一通信で共有されることを抑えられる。

このように、情報処理装置１は、ＮＵＭＡ（Non-Uniform Memory Access）を意識した識別番号である仮想ランク番号を各プロセスに付与することで、全対全通信を構成する各一対一通信の発行順序を、輻輳が極力起きないように並び替えることができる。

こうして、リングバス１ｂ４における輻輳の発生を抑えることができる。その結果、全対全通信を高速化できる。また、ユーザやＯＳ（Operating System）、通信ライブラリおよびジョブスケジューラなどの外部の要因による、各プロセスに対する識別番号の割り当てポリシーに依らずに、高速な全対全通信を行えるようになる。更に、情報処理装置１は、各プロセスに対する通信先のプロセスの決定を、排他的論理和を用いた単純な演算で行うので、当該通信先のプロセスの決定を高速に実行でき、全対全通信の高速化を図れる。

［第２の実施の形態］
次に、第２の実施の形態を説明する。
図２は、第２の実施の形態の情報処理装置のハードウェア例を示す図である。

情報処理装置１０は、ＣＰＵ１１およびメモリ１２，１３，１４，１５を有する。ＣＰＵ１１は、第１の実施の形態の処理部１ｂに対応する。メモリ１２，１３，１４，１５は、第１の実施の形態の記憶部１ａ０，１ａ１，１ａ２，１ａ３に対応する。

ＣＰＵ１１は、ノード１１ａ０，１１ａ１，１１ａ２，１１ａ３およびリングバス１１ｂを有する。ＣＰＵ１１のノード数は４つに限らず、他の数でもよい。
ノード１１ａ０，１１ａ１，１１ａ２，１１ａ３は、それぞれ複数のコアを有し、複数のコアにより同一ジョブに属する複数のプロセスを並列に実行する。

リングバス１１ｂは、ノード間の通信路である。リングバス１１ｂは、ノード１１ａ０，１１ａ１，１１ａ２，１１ａ３が接続される。ノード１１ａ０，１１ａ１，１１ａ２，１１ａ３は、例えば、図２で表されるようにＣＰＵ１１が配置される基板面上に区画される。リングバス１１ｂには、基板面を上方から見たときに、ノード１１ａ０，１１ａ２，１１ａ３，１１ａ１がこの順に時計回りに接続されている。ノード１１ａ０，１１ａ１，１１ａ２，１１ａ３それぞれには、ノード番号が付与されている。ノード１１ａ０のノード番号は、「＃０」である。ノード１１ａ１のノード番号は、「＃１」である。ノード１１ａ２のノード番号は、「＃２」である。ノード１１ａ３のノード番号は、「＃３」である。ここで、ノード番号は、回転移動や対称移動によって、時計回りに「＃０」、「＃２」、「＃３」、「＃１」の順になるように付与されていればよい。

リングバス１１ｂは、第１通信路１１ｂ０および第２通信路１１ｂ１を有する。第１通信路１１ｂ０は、時計回りの通信路である。第２通信路１１ｂ１は、反時計回りの通信路である。第１通信路１１ｂ０および第２通信路１１ｂ１は、物理的に独立して設けられている。第１通信路１１ｂ０による通信、および、第２通信路１１ｂ１による通信は互いに干渉しない。

ＣＰＵ１１は、ノードとリングバスとの間を接続する接続バス１１ｃ０，１１ｃ１，１１ｃ２，１１ｃ３を有する。ノード１１ａ０は、接続バス１１ｃ０を介して第１通信路１１ｂ０および第２通信路１１ｂ１に接続される。ノード１１ａ１は、接続バス１１ｃ１を介して第１通信路１１ｂ０および第２通信路１１ｂ１に接続される。ノード１１ａ２は、接続バス１１ｃ２を介して第１通信路１１ｂ０および第２通信路１１ｂ１に接続される。ノード１１ａ３は、接続バス１１ｃ３を介して第１通信路１１ｂ０および第２通信路１１ｂ１に接続される。

メモリ１２，１３，１４，１５は、それぞれノード１１ａ０，１１ａ１，１１ａ２，１１ａ３に接続される主記憶装置である。メモリ１２，１３，１４，１５としては、例えばＨＢＭ２などのＲＡＭが用いられる。メモリ１２，１３，１４，１５は、それぞれノード１１ａ０，１１ａ１，１１ａ２，１１ａ３により実行されるプログラムやプログラムの処理に用いられるデータなどを記憶する。メモリ１２，１３，１４，１５は、送信データを記憶する送信バッファ、および、受信データを記憶する受信バッファとしても用いられる。

ここで、情報処理装置１０は、更に、ＣＰＵ１１の各ノードとメモリ１２，１３，１４，１５とを接続する接続バス１６，１７，１８，１９を有する。接続バス１６は、ノード１１ａ０とメモリ１２とを接続する。接続バス１７は、ノード１１ａ１とメモリ１３とを接続する。接続バス１８は、ノード１１ａ２とメモリ１４とを接続する。接続バス１９は、ノード１１ａ３とメモリ１５とを接続する。

接続バス１１ｃ０～１１ｃ３，１６～１９で利用可能な通信帯域は、第１通信路１１ｂ０および第２通信路１１ｂ１で利用可能な通信帯域に比べて十分に大きい。このため、複数の通信が接続バス１１ｃ０～１１ｃ３，１６～１９を共有しても、輻輳は発生しない。

図３は、ノードに属するコアの例を示す図である。
１つのノードは１２個の演算用のコアを有する。図３ではノード１１ａ０のコアを例示するが、ノード１１ａ１，１１ａ２，１１ａ３も同様に１２個のコアを有する。ただし、各ノードは、主に各ノードの制御に用いられるアシスタントコアを、例えば１つずつ更に有してもよい。

ノード１１ａ０は、コアｃ０～ｃ１１を有する。ノード１１ａ０は、コアｃ０～ｃ１１により複数のプロセスを実行可能である。１つのプロセスは１以上のコアにより実行される。１つのプロセスを複数のコアにより実行する場合、例えば、当該１つのプロセスに対応する複数のスレッドを複数のコアにより並列に実行することができる。なお、各ノードが有するコアの数は１２個に限らず、他の数（例えば、２個や４個や１６個など）でもよい。

図４は、輻輳が発生しない通信の例を示す図である。
前述のように、リングバス１１ｂでは、第１通信路１１ｂ０と第２通信路１１ｂ１とでは、干渉せずに通信を行える。このため、例えば、ノード１１ａ２からノード１１ａ３へのデータ送信と、ノード１１ａ３からノード１１ａ２へのデータ送信とが同時に行われたとしても、リングバス１１ｂでは輻輳が発生しない。

ここで、以下の説明では、リングバス１１ｂにおける第１通信路１１ｂ０および第２通信路１１ｂ１の図示を省略することがある。
図５は、集団通信の例を示す図である。

情報処理装置１０におけるプロセス間の通信には、ＭＰＩライブラリなどの通信ライブラリが用いられる。当該通信ライブラリによるプロセス間の通信は、集団通信を含む。集団通信は、多数のプロセスが通信を行い、データのやり取りを行う通信である。例えば、集団通信における全対全通信は、全プロセスが他の全プロセスにそれぞれ異なるデータを送信することで、転置のような動作を実現する。

例えば、送信バッファＭ１における行方向に各プロセス（ここでは、「プロセス０～３」とする）の送信データが格納されている。「プロセス０」の送信データは、データＡ１，Ａ２，Ａ３，Ａ４である。「プロセス１」の送信データは、データＢ１，Ｂ２，Ｂ３，Ｂ４である。「プロセス２」の送信データは、データＣ１，Ｃ２，Ｃ３，Ｃ４である。「プロセス３」の送信データは、データＤ１，Ｄ２，Ｄ３，Ｄ４である。

全対全通信の結果、受信バッファＭ２には「プロセス０～３」に対して次の受信データが格納される。「プロセス０」の受信データは、データＡ１，Ｂ１，Ｃ１，Ｄ１である。「プロセス１」の受信データは、データＡ２，Ｂ２，Ｃ２，Ｄ２である。「プロセス２」の受信データは、データＡ３，Ｂ３，Ｃ３，Ｄ３である。「プロセス３」の受信データは、データＡ４，Ｂ４，Ｃ４，Ｄ４である。

集団通信は、一対一通信を組み合わせることで構成される。各プロセスは、一対一通信をプロセス数に相当する回数だけ行うことで、集団通信を実現する。ステップ数は、当該プロセス数回繰り返される通信のうち、何回目であるかを示す。ただし、アルゴリズムによっては、全体ステップ数がプロセス数にならないこともある。

一対一通信では、送信側プロセスが送信先のプロセスを指定するだけでなく、受信側プロセスも、送信元のプロセスを指定することがある。その場合、一対一通信の組み合わせによる集団通信では、各プロセスは、送信先および送信元をステップ毎に求めて、通信コマンドを発行する。

例えば、ＭＰＩ規格における通信では、送信先プロセスおよび送信元プロセスの指定にランク番号またはランクと呼ばれる、各プロセスの識別子が用いられる。ＭＰＩ規格の場合、送信側プロセス、受信側プロセスがそれぞれ送信関数、受信関数を呼び出すことにより一対一通信が行われる。このとき、送信関数に対して送信先プロセスのランク番号が指定され、受信関数に対して送信元プロセスのランク番号が指定され得る。

ただし、各プロセスが送信先のプロセスを指定し、送信元のプロセスの指定を行わずにプロセス間の一対一通信を行う方法も考えられる。
図６は、ノードで実行されるプロセスの例を示す図である。

第２の実施の形態の例では、ノード１１ａ０～１１ａ３それぞれは、２つのプロセスを並列に実行する。したがって、ノード１１ａ０～１１ａ３では、合計で８個のプロセスが並列に実行される。ただし、後述されるように、各ノードで並列に実行されるプロセスの数は、２以外でもよいし、一部ノードにおいて並列に実行されるプロセスの数が他のノードで並列に実行されるプロセスの数と異なっていてもよい。

ノード１１ａ０は、プロセスｐ０，ｐ１を並列に実行する。ノード１１ａ１は、プロセスｐ２，ｐ３を並列に実行する。ノード１１ａ２は、プロセスｐ４，ｐ５を並列に実行する。ノード１１ａ３は、プロセスｐ６，ｐ７を並列に実行する。

図７は、ルーティングの例を示す図である。
リングバス１１ｂにおけるルーティングは、送信元ノードと送信先ノードとの組によってのみ決まり、動的にルーティングが変更されることはない。リングバス１１ｂにおけるルーティングのルールは次の通りである。

第１のルールは、時計回りと反時計回りとで経路のホップ数が異なる場合、ホップ数が小さい方の経路が使用されるというルールである。
第２のルールは、時計回りと反時計回りとで経路のホップ数が同じ場合、ノード１１ａ０，１１ａ３の組では反時計回りの経路が使用され、ノード１１ａ１，１１ａ２の組では時計回りの経路が使用されるというルールである。

ここで、図中、時計回りの通信を実線の矢印で表し、反時計回りの通信を点線の矢印で表す。また、図中、プロセスを円で表す。円の中の数字はランク番号である。図７～１２の説明において、一例として、プロセスｐ０～ｐ７それぞれに対し、ユーザや所定のソフトウェアにより、ランク番号「０」～「７」が予め付与されているものとする。

図７（Ａ）は、ルーティングの第１の例を示す。
図７（Ａ）について、互いに隣接するノード間の通信には、最短経路が用いられる。互いに隣接するノード間の通信とは、例えば、ノード１１ａ１とノード１１ａ３との通信、ノード１１ａ０とノード１１ａ２との通信、ノード１１ａ０とノード１１ａ１との通信、および、ノード１１ａ２とノード１１ａ３との通信である。

図７（Ｂ）は、ルーティングの第２の例を示す。
図７（Ｂ）について、ノード１１ａ０とノード１１ａ３との通信、および、ノード１１ａ１とノード１１ａ２との通信では、時計回りおよび反時計回りのどちらを選択してもホップ数は２である。この場合は、ノード１１ａ１とノード１１ａ２との通信では時計回りの経路（第１通信路１１ｂ０）が用いられる。また、ノード１１ａ０とノード１１ａ３との通信では反時計回りの経路（第２通信路１１ｂ１）が用いられる。

図８は、発生しないルーティングの例を示す図である。
図８（Ａ）は、発生しないルーティングの第１の例を示す。
図８（Ａ）のルーティングは、互いに隣接するノード１１ａ１，１１ａ３の通信に最短経路が用いられておらず、図７で説明したルーティングの第１のルールに反する。このため、リングバス１１ｂでは、図８（Ａ）のルーティングは発生しない。

図８（Ｂ）は、発生しないルーティングの第２の例を示す。
図８（Ｂ）のルーティングは、ノード１１ａ０，１１ａ３の通信に時計回りの経路が用いられている。また、ノード１１ａ１，１１ａ２の通信に反時計回りの経路が用いられている。すなわち、図７で説明したルーティングの第２のルールに反する。このため、リングバス１１ｂでは、図８（Ｂ）のルーティングは発生しない。

図９は、輻輳が発生する通信パターンの例を示す図である。
図９（Ａ）は、輻輳が発生する通信パターンの第１の例を示す。
図９（Ａ）の例では、プロセスｐ０からプロセスｐ２への通信とプロセスｐ１からプロセスｐ３への通信とが反時計回りの経路の一部を共有して行われている。この場合、リングバス１１ｂの第２通信路１１ｂ１におけるノード１１ａ０とノード１１ａ１との間の区間で輻輳が発生する。

図９（Ｂ）は、輻輳が発生する通信パターンの第２の例を示す。
図９（Ｂ）の例では、プロセスｐ６からプロセスｐ０への通信とプロセスｐ７からプロセスｐ５への通信とが反時計回りの経路の一部を共有して行われている。この場合、リングバス１１ｂの第２通信路１１ｂ１におけるノード１１ａ２とノード１１ａ３との間の区間で輻輳が発生する。

図１０は、輻輳が発生しない通信パターンの例を示す図である。
図１０（Ａ）は、輻輳が発生しない通信パターンの第１の例を示す。
図１０（Ａ）の例では、プロセスｐ０からプロセスｐ２への反時計回りの通信と、プロセスｐ３からプロセスｐ１への時計回りの通信とが行われているが、リングバス１１ｂ上では、同一経路が共有されていない。すなわち、プロセスｐ０からプロセスｐ２への反時計回りの通信には第２通信路１１ｂ１が用いられ、プロセスｐ３からプロセスｐ１への時計回りの通信には第１通信路１１ｂ０が用いられる。時計回りの通信と反時計回りの通信とは干渉しないため、図１０（Ａ）の通信パターンでは、輻輳が発生しない。

図１０（Ｂ）は、輻輳が発生しない通信パターンの第２の例を示す。
図１０（Ｂ）の例では、プロセスｐ３からプロセスｐ７への反時計回りの通信と、プロセスｐ７からプロセスｐ０への反時計回りの通信とが行われているが、リングバス１１ｂ上では、反時計回りの経路で共有される部分はない。また、ノード１１ａ３とリングバス１１ｂとの間の経路（接続バス１１ｃ３）が共有されているが、前述のように、接続バス１１ｃ３が共有されても輻輳は起きない。このため、図１０（Ｂ）の通信パターンでは、輻輳が発生しない。

図１１は、輻輳が多発する全対全通信の例を示す図である。
図１１，１２では、図７で例示した各プロセスのランク番号に基づいて全対全通信を行う例を説明する。ここでは、当該ランク番号に基づいて、単純なアルゴリズムで通信先が決定される例を示す。当該アルゴリズムでは、各プロセスは、自身のランク番号にステップ数を加算した値を８で割った剰余を、データ送信先のプロセスのランク番号とする。また、全対全通信のステップ数をｓｔｅｐと表記する。ｓｔｅｐは０から１ずつ昇順に増えるものとする。

図中、リングバス１１ｂのうち、時計回りの通信に対応する実線の矢印が２本以上通っている区間、および、反時計回りの通信に対応する点線の矢印が２本以上通っている区間で輻輳が発生している。

この例では、図１１に示されるｓｔｅｐ＝０～３のうち、ｓｔｅｐ＝２，３で輻輳が発生する。ｓｔｅｐ＝２では、次の箇所に輻輳が発生する。第１に、ノード１１ａ３からノード１１ａ０への反時計回りの経路部分である。第２に、ノード１１ａ０からノード１１ａ１への反時計回りの経路部分である。第３に、ノード１１ａ１からノード１１ａ２への時計回りの経路部分である。第４に、ノード１１ａ２からノード１１ａ３への時計回りの経路部分である。

ｓｔｅｐ＝３では、次の箇所に輻輳が発生する。第１に、ノード１１ａ２からノード１１ａ０への反時計回りの経路部分である。第２に、ノード１１ａ０からノード１１ａ２への時計回りの経路部分である。

ｓｔｅｐ＝３の次は、ｓｔｅｐ＝４に進む。
図１２は、輻輳が多発する全対全通信の例を示す図である。
この例では、図１２に示されるｓｔｅｐ＝４～７のうち、ｓｔｅｐ＝４～６で輻輳が発生する。ｓｔｅｐ＝４では、次の箇所に輻輳が発生する。第１に、ノード１１ａ２から１１ａ０への反時計回りの経路部分である。第２に、ノード１１ａ１からノード１１ａ３への反時計回りの経路部分である。第３に、ノード１１ａ０からノード１１ａ２への時計回りの経路部分である。第４に、ノード１１ａ３からノード１１ａ１への時計回りの経路部分である。

ｓｔｅｐ＝５では、次の箇所に輻輳が発生する。第１に、ノード１１ａ１からノード１１ａ３への反時計回りの経路部分である。第２に、ノード１１ａ３からノード１１ａ１への時計回りの経路部分である。

ｓｔｅｐ＝６では、次の箇所に輻輳が発生する。第１に、ノード１１ａ３からノード１１ａ２への反時計回りの経路部分である。第２に、ノード１１ａ０からノード１１ａ３への反時計回りの経路部分である。第３に、ノード１１ａ２からノード１１ａ１への時計回りの経路部分である。第４に、ノード１１ａ１からノード１１ａ０への時計回りの経路部分である。

図１１，１２で例示されるように、ユーザなどによって予め付与されたランク番号を用いて全対全通信を行うと、輻輳が多発する可能性がある。そこで、ノード１１ａ０～１１ａ３は、予め付与されたランク番号ではなく、ＣＰＵ１１におけるハードウェア構成に応じた仮想ランク番号を用いて全対全通信を行うことで、輻輳の発生を抑制する機能を提供する。

情報処理装置１０において全対全通信を行うための手順は次の２つに分かれる。第１に、仮想ランク番号の割り当てである。第２に、全対全通信の実行である。仮想ランク番号の割り当てでは、ＣＰＵ１１の初期化時や全対全通信の発行開始時に、ユーザなどにより予め付与されたランク番号とは別に、仮想ランク番号を割り当てる。仮想ランク番号は、全対全通信を行うための識別子として用いられる。すなわち、全対全通信を構成する一対一通信において、送信側プロセスは、送信関数を呼び出す際に、送信関数に対して送信先プロセスの仮想ランク番号を指定する。また、受信側プロセスは、受信関数を呼び出す際に、受信関数に対して送信元プロセスの仮想ランク番号を指定することがある。

次に、情報処理装置１０の全対全通信の処理手順の例を説明する。
図１３は、情報処理装置の処理例を示すフローチャートである。
ここで、図１３では、ノード１１ａ０のプロセスｐ０，ｐ１に着目するが、ノード１１ａ１，１１ａ２，１１ａ３上の他のプロセスも同様の処理を並列に実行する。また、図中、プロセスｐ０の処理に対応するプロセスｐ１の処理を、例えば、プロセスｐ０の「ステップＳ１０」に対して、プロセスｐ１の「ステップＳ１０ａ」のように、符号の末尾に「ａ」の文字を付して表記することがある。プロセスｐ１の各ステップにおける処理内容はプロセスｐ０と同様であるため、説明を省略する。下記のステップＳ１０は、情報処理装置１０により並列プログラムが実行開始されると実行される。並列プログラムの実行開始に応じて、並列プログラムのプロセスｐ０～ｐ７が起動される。

（Ｓ１０）プロセスｐ０は、ユーザ定義プロセス番号を決定する。ユーザ定義プロセス番号は、ユーザなどによって予め付与されるランク番号に相当する。
（Ｓ１１）プロセスｐ０は、プログラムの実行を開始する。

（Ｓ１２）プロセスｐ０は、並列プログラムの初期化処理を開始する。初期化処理は、下記のステップＳ１３～Ｓ１６を含む。
（Ｓ１３）プロセスｐ０は、メモリ１２に予め記憶されたハードウェア情報に基づいて、ＣＰＵコア番号を取得する。

（Ｓ１４）プロセスｐ０は、プロセス間で通信を行い、プロセスのランク番号とＣＰＵコア番号とを対応付けた表データ（ランク番号表と呼ぶ）を作成し、メモリ１２に格納する。

（Ｓ１５）プロセスｐ０は、各プロセスのノード順プロセス番号を決定する。ノード順プロセス番号は、ノード番号の昇順に、各ノードで実行されるプロセスに対して０から昇順に割り当てられる。メモリ１２に記憶されるハードウェア情報には、ノード番号とＣＰＵコア番号との対応関係を示す情報（ＣＰＵコア番号表）が含まれる。このため、プロセスｐ０は、ＣＰＵコア番号表とステップＳ１４で作成したランク番号表とに基づいて、各プロセスに対するノード番号の順序を識別する。例えば、プロセスｐ０は、決定したノード順プロセス番号を記録したノード順プロセス番号表を作成し、メモリ１２に格納してもよい。

（Ｓ１６）プロセスｐ０は、ノード順プロセス番号から仮想ランク番号を決定する。ノード順プロセス番号をｎｕｍ、仮想ランク番号をｖｒａｎｋとすると、ノード順プロセス番号ｎｕｍに対応する仮想ランク番号ｖｒａｎｋは、式（１）により表される。式（１）を再掲する。

ｖｒａｎｋ＝（ｎｕｍ％２＝＝０？ｎｕｍ：ｓｉｚｅ－ｎｕｍ）・・・（１）
第２の実施の形態の例ではｓｉｚｅ＝８である。例えば、プロセスｐ０は、決定した仮想ランク番号を記録した仮想ランク番号表を作成し、メモリ１２に格納してもよい。

（Ｓ１７）プロセスｐ０は、並列プログラムの初期化処理を終了する。
（Ｓ１８）プロセスｐ０は、ユーザにより定義された所定の演算を実行する。
（Ｓ１９）プロセスｐ０は、全対全通信を開始する。プロセスｐ０は、ステップ数ｓｔｅｐ＝０に設定する。

（Ｓ２０）プロセスｐ０は、現在のステップ数ｓｔｅｐに対応する通信相手のプロセスを、プロセスｐ０の仮想ランク番号に基づいて決定し、通信を実行する。通信相手のプロセスは、プロセスｐ０のデータ送信先のプロセスおよびプロセスｐ０へのデータ送信元のプロセスを示す。データ送信先のプロセスのノード順プロセス番号ｎｕｍ＿ｄは、データ送信元のプロセスの仮想ランク番号ｖｒａｎｋを用いて式（２）により表される。式（２）を再掲する。

ｎｕｍ＿ｄ＝ｓｔｅｐ＾ｖｒａｎｋ・・・（２）
「＾」は、両辺の値を２進数で表した値の排他的論理和演算を取ることを示す。プロセスｐ０は、プロセスｐ０からのデータ送信先のプロセスの仮想ランク番号を、式（１）のｎｕｍにｎｕｍ＿ｄを代入することで算出する。

また、データ送信元のプロセスのノード順プロセス番号ｎｕｍ＿ｓは、データ送信先のプロセスの仮想ランク番号ｖｒａｎｋを用いて、式（３）により表される。式（３）を再掲する。

ｎｕｍ＿ｓ＝（ｓｔｅｐ％２＝＝０？ｓｔｅｐ：ｍａｘｓｔｅｐ－ｓｔｅｐ）＾ｖｒａｎｋ・・・（３）
第２の実施の形態の例ではｓｉｚｅ＝８であり、ｍａｘｓｔｅｐ＝８である。

プロセスｐ０は、プロセスｐ０へのデータ送信元のプロセスの仮想ランク番号を、式（１）のｎｕｍにｎｕｍ＿ｓを代入することで算出する。
（Ｓ２１）プロセスｐ０は、ｓｔｅｐが最終ステップに到達したか否かを判定する。第２の実施の形態の例では、ｓｔｅｐ＝７の場合に、最終ステップに到達したことになる。最終ステップに到達した場合、ステップＳ２３に処理が進む。最終ステップに到達していない場合、ステップＳ２２に処理が進む。

（Ｓ２２）プロセスｐ０は、ｓｔｅｐに１を加算する。すなわち、プロセスｐ０は、ステップ数をインクリメントする。そして、ステップＳ２０に処理が進む。
（Ｓ２３）プロセスｐ０は、全対全通信を終了する。

（Ｓ２４）プロセスｐ０は、ユーザにより定義された所定の演算を実行する。
（Ｓ２５）プロセスｐ０は、プログラムの演算を終了する。同様に他のプロセスの演算も終了し、並列プログラムの実行が終了する。

このようにして、プロセスｐ０～ｐ７は、仮想ランク番号に基づいて全対全通信を行う。ステップＳ２０では、ＣＰＵ１１は、各プロセスの仮想ランク番号とステップ数とに基づく式（２）の排他的論理和演算を行うことで現ステップにおけるデータ送信先のプロセスを該当のプロセスに対して決定する。また、ＣＰＵ１１は、各プロセスの仮想ランク番号とステップ数とに基づく式（３）の排他的論理和演算を行うことで現ステップにおけるデータ送信元のプロセスを該当のプロセスに対して決定する。ＣＰＵ１１は、各プロセスによるデータ送信先のプロセスへのデータ送信、および、データ送信元のプロセスからのデータ受信を実行する。

プロセスｐ０～ｐ７は、ステップＳ２４，Ｓ２４ａの後に、再度、全対全通信を行ってもよい。例えば、プロセスｐ０～ｐ７は、ステップＳ１８～Ｓ２３に相当する処理を、複数回繰り返して実行してもよい。

また、ステップＳ２０における各プロセスによる一対一通信の完了の同期を取る処理は、例えば、各プロセスによって全対全通信の１ステップ毎に、プロセス間で所定の通知を送受信することで行われる。ＣＰＵ１１は、当該同期を取る処理を行った後に、ステップ数をインクリメントする。ＣＰＵ１１は、全対全通信の複数ステップ毎に、同期を取る処理を行うようにしてもよい。また、プロセス間の一対一通信の所要時間が、通信を行うプロセスの組毎にほぼ同一である場合も考えられる。この場合、あるプロセス間での一対一通信が完了した場合には、他のプロセス間での一対一通信も完了しているので、ＣＰＵ１１は、各プロセスによる一対一通信の完了の同期を取る処理を行わないようにしてもよい。その場合、例えば、各プロセスは、自身による一対一通信が完了すると、ステップ数をインクリメントして、次のステップに進む。

図１４は、データ構造例を示す図である。
図１４（Ａ）は、ＣＰＵコア番号表１２１を示す。ＣＰＵコア番号表１２１は、ノードのノード番号と当該ノードに含まれるコアのＣＰＵコア番号との対応関係を示すハードウェア情報である。ＣＰＵコア番号は、ＣＰＵ１１内で各コアに対して一意に付与されたコアの識別番号である。ＣＰＵコア番号表１２１は、例えば、メモリ１２，１３，１４，１５に予め格納される。ただし、ＣＰＵコア番号表１２１は、ノード１１ａ０～１１ａ３により参照可能な、メモリ１２，１３，１４，１５以外の他のメモリに予め格納されてもよい。

ＣＰＵコア番号表１２１は、ノード番号およびＣＰＵコア番号の項目を含む。ノード番号の項目にはノードのノード番号が登録される。ＣＰＵコア番号の項目には該当のノードに設けられたコアのＣＰＵコア番号が登録される。

例えば、ＣＰＵコア番号表１２１には、ノード番号が「０」、ＣＰＵコア番号が「０」という情報が含まれる。これは、ノード番号「０」のノードにＣＰＵコア番号「０」のコアが存在することを示す。

図１４（Ｂ）は、ランク番号表１２２を示す。ランク番号表１２２は、ステップＳ１４に相当する処理により作成される。ランク番号表は、ＣＰＵコア番号の項目およびランク番号の項目を含む。ＣＰＵコア番号の項目にはＣＰＵコア番号が登録される。ランク番号の項目には、該当のＣＰＵコア番号のコアで実行されるプロセスに対してユーザなどにより予め付与されたランク番号が登録される。当該ランク番号は、ユーザ定義プロセス番号に相当する。

例えば、ランク番号表１２２には、ＣＰＵコア番号が「０」、ランク番号が「２」という情報が含まれる。これは、ＣＰＵコア番号「０」のコアが、ランク番号「２」のプロセスの実行に用いられることを示す。例えば、複数のコアを用いて１つのプロセスを実行する場合、複数のＣＰＵコア番号に対して該当のプロセスのランク番号が対応付けられる。

ＣＰＵコア番号表１２１で示されるように、メモリ１２，１３，１４，１５に格納されるハードウェア情報は、複数のプロセスを実行する複数のノードそれぞれのノード番号と、各ノードに含まれる複数のコアそれぞれのコア番号とを含んでいる。ＣＰＵ１１は、複数のプロセスそれぞれが割り当てられたコアのコア番号を取得し、ハードウェア情報に基づいて、コア番号に対応するノード番号の順に、コアに割り当てられたプロセスのノード順プロセス番号を生成する。

図１５は、データ構造例を示す図である。
図１５（Ａ）は、ノード順プロセス番号表１２３を示す。ノード順プロセス番号表１２３は、ＣＰＵコア番号の項目およびノード順プロセス番号の項目を含む。ＣＰＵコア番号の項目にはＣＰＵコア番号が登録される。ノード順プロセス番号の項目には、該当のＣＰＵコア番号のコアで実行されるプロセスのノード順プロセス番号が登録される。

例えば、ノード順プロセス番号表１２３には、ＣＰＵコア番号が「０」、ノード順プロセス番号が「０」という情報が含まれる。これは、ＣＰＵコア番号「０」のコアで実行されるプロセスのノード順プロセス番号が「０」であることを示す。例えば、複数のコアを用いて１つのプロセスを実行する場合、複数のＣＰＵコア番号に対して該当のプロセスのノード順プロセス番号が対応付けられる。

図１５（Ｂ）は、仮想ランク番号表１２４を示す。仮想ランク番号表１２４は、ＣＰＵコア番号の項目および仮想ランク番号の項目を含む。ＣＰＵコア番号の項目にはＣＰＵコア番号が登録される。仮想ランク番号の項目には、該当のＣＰＵコア番号のコアで実行されるプロセスの仮想ランク番号が登録される。

例えば、仮想ランク番号表１２４には、ＣＰＵコア番号が「０」、仮想ランク番号が「０」という情報が含まれる。これは、ＣＰＵコア番号「０」のコアで実行されるプロセスの仮想ランク番号が「０」であることを示す。例えば、複数のコアを用いて１つのプロセスを実行する場合、複数のＣＰＵコア番号に対して該当のプロセスの仮想ランク番号が対応付けられる。

図１６は、仮想ランク番号の決定例を示す図である。
プロセスｐ０～ｐ７は、予め指定されたユーザ定義プロセス番号をプロセスｐ０～ｐ７に割り当てる（ＳＴ１１）。例えば、プロセスｐ０のユーザ定義プロセス番号は「２」である。プロセスｐ１のユーザ定義プロセス番号は「６」である。プロセスｐ２のユーザ定義プロセス番号は「４」である。プロセスｐ３のユーザ定義プロセス番号は「３」である。プロセスｐ４のユーザ定義プロセス番号は「１」である。プロセスｐ５のユーザ定義プロセス番号は「０」である。プロセスｐ６のユーザ定義プロセス番号は「５」である。プロセスｐ７のユーザ定義プロセス番号は「７」である。ユーザ定義プロセス番号は、ユーザなどにより予め定められるランク番号に相当する。

プロセスｐ０～ｐ７は、ＣＰＵコア番号表１２１およびランク番号表１２２に基づいて、プロセスｐ０～ｐ７それぞれに対するノード順プロセス番号を決定する（ＳＴ１２）。ノード順プロセス番号は、０を最小値として、ＣＰＵコア番号表１２１を基に、所属するノードのノード番号が小さいプロセスから昇順に付与される。１つのノードで複数のプロセスが実行される場合、当該複数のプロセスに対しては任意の順にノード順プロセス番号が付与される。例えば、ＣＰＵコア番号の順にノード順プロセス番号が付与されてもよい。

プロセスｐ０のノード順プロセス番号は「０」である。プロセスｐ１のノード順プロセス番号は「１」である。プロセスｐ２のノード順プロセス番号は「２」である。プロセスｐ３のノード順プロセス番号は「３」である。プロセスｐ４のノード順プロセス番号は「４」である。プロセスｐ５のノード順プロセス番号は「５」である。プロセスｐ６のノード順プロセス番号は「６」である。プロセスｐ７のノード順プロセス番号は「７」である。

プロセスｐ０～ｐ７は、プロセスｐ０～ｐ７それぞれのノード順プロセス番号に基づいて、式（１）により、プロセスｐ０～ｐ７それぞれの仮想ランク番号を決定する（ＳＴ１３）。プロセスｐ０の仮想ランク番号は「０」である。プロセスｐ１の仮想ランク番号は「７」である。プロセスｐ２の仮想ランク番号は「２」である。プロセスｐ３の仮想ランク番号は「５」である。プロセスｐ４の仮想ランク番号は「４」である。プロセスｐ５の仮想ランク番号は「３」である。プロセスｐ６の仮想ランク番号は「６」である。プロセスｐ７の仮想ランク番号は「１」である。

ここで、プロセスｐ０～ｐ７は、自プロセスの仮想ランク番号を入力として、式（２）によりデータ送信先のプロセスのノード順プロセス番号を求めることが可能である。また、プロセスｐ０～ｐ７は、自プロセスの仮想ランク番号を入力として、式（３）によりデータ送信元のプロセスのノード順プロセス番号を求めることが可能である。

ノード順プロセス番号に加えて、仮想ランク番号を導入することで、送信先プロセスを求める式（２）や送信元プロセスを求める式（３）を比較的単純な式で表すことができ、演算を単純化できる。

図１７は、送信先の仮想ランク番号の計算例を示す図である。
表１２５は、全対全通信の各ステップにおける、仮想ランク番号「７」のプロセスｐ１に着目したデータ送信先のプロセスの仮想ランク番号の計算例を示す。

ｓｔｅｐ＝０の場合、式（２）により算出されるデータ送信先のプロセスのノード順プロセス番号は「０＾７＝７」である。したがって、式（１）により算出されるデータ送信先のプロセスの仮想ランク番号は「１」である。

ｓｔｅｐ＝１の場合、データ送信先のプロセスのノード順プロセス番号は「１＾７＝６」である。したがって、データ送信先のプロセスの仮想ランク番号は「６」である。
ｓｔｅｐ＝２の場合、データ送信先のプロセスのノード順プロセス番号は「２＾７＝５」である。したがって、データ送信先のプロセスの仮想ランク番号は「３」である。

ｓｔｅｐ＝３の場合、データ送信先のプロセスのノード順プロセス番号は「３＾７＝４」である。したがって、データ送信先のプロセスの仮想ランク番号は「４」である。
ｓｔｅｐ＝４の場合、データ送信先のプロセスのノード順プロセス番号は「４＾７＝３」である。したがって、データ送信先のプロセスの仮想ランク番号は「５」である。

ｓｔｅｐ＝５の場合、データ送信先のプロセスのノード順プロセス番号は「５＾７＝２」である。したがって、データ送信先のプロセスの仮想ランク番号は「２」である。
ｓｔｅｐ＝６の場合、データ送信先のプロセスのノード順プロセス番号は「６＾７＝１」である。したがって、データ送信先のプロセスの仮想ランク番号は「７」である。

ｓｔｅｐ＝７の場合、データ送信先のプロセスのノード順プロセス番号は「７＾７＝０」である。したがって、データ送信先のプロセスの仮想ランク番号は「０」である。
図１８は、送信元の仮想ランク番号の計算例を示す図である。

表１２６は、全対全通信の各ステップにおける、仮想ランク番号「７」のプロセスｐ１に着目したデータ送信元の仮想ランク番号の計算例を示す。
表１２６では、表１２５の項目に加えて、ステップ評価値を示している。ステップ評価値は、式（３）の括弧で閉じられた項、すなわち、（ｓｔｅｐ％２＝＝０？ｓｔｅｐ：ｍａｘｓｔｅｐ－ｓｔｅｐ）の計算結果を示す。

ｓｔｅｐ＝０の場合、ステップ評価値は「０」である。この場合、式（３）により算出されるデータ送信元のプロセスのノード順プロセス番号は「０＾７＝７」である。したがって、式（１）により算出されるデータ送信元のプロセスの仮想ランク番号は「１」である。

ｓｔｅｐ＝１の場合、ステップ評価値は「７」である。この場合、データ送信元のプロセスのノード順プロセス番号は「７＾７＝０」である。したがって、データ送信元のプロセスの仮想ランク番号は「０」である。

ｓｔｅｐ＝２の場合、ステップ評価値は「２」である。この場合、データ送信元のプロセスのノード順プロセス番号は「２＾７＝５」である。したがって、データ送信元のプロセスの仮想ランク番号は「３」である。

ｓｔｅｐ＝３の場合、ステップ評価値は「５」である。この場合、データ送信元のプロセスのノード順プロセス番号は「５＾７＝２」である。したがって、データ送信元のプロセスの仮想ランク番号は「２」である。

ｓｔｅｐ＝４の場合、ステップ評価値は「４」である。この場合、データ送信元のプロセスのノード順プロセス番号は「４＾７＝３」である。したがって、データ送信元のプロセスの仮想ランク番号は「５」である。

ｓｔｅｐ＝５の場合、ステップ評価値は「３」である。この場合、データ送信元のプロセスのノード順プロセス番号は「３＾７＝４」である。したがって、データ送信元のプロセスの仮想ランク番号は「４」である。

ｓｔｅｐ＝６の場合、ステップ評価値は「６」である。この場合、データ送信元のプロセスのノード順プロセス番号は「６＾７＝１」である。したがって、データ送信元のプロセスの仮想ランク番号は「７」である。

ｓｔｅｐ＝７の場合、ステップ評価値は「１」である。この場合、データ送信元のプロセスのノード順プロセス番号は「１＾７＝６」である。したがって、データ送信元のプロセスの仮想ランク番号は「６」である。

図１９は、仮想ランク番号に基づく全対全通信の例を示す図である。
図１９，２０ではプロセスｐ１（仮想ランク番号「７」）に着目し、プロセスｐ１が送信元または送信先となる通信を例示する。プロセスｐ０～ｐ７それぞれを表す円の中に記載された数値は、該当のプロセスの仮想ランク番号を示す。

ｓｔｅｐ＝０では、プロセスｐ１は、反時計回りの経路を用いてプロセスｐ７にデータを送信する。プロセスｐ７は、プロセスｐ１からデータを受信する。また、プロセスｐ７は、反時計回りの経路を用いてプロセスｐ１にデータを送信する。プロセスｐ１は、プロセスｐ７からデータを受信する。

ｓｔｅｐ＝１では、プロセスｐ１は、反時計回りの経路を用いてプロセスｐ６にデータを送信する。プロセスｐ６は、プロセスｐ１からデータを受信する。また、プロセスｐ０は、プロセスｐ１にデータを送信する。プロセスｐ１は、プロセスｐ０からデータを受信する。同一ノード内での通信ではリングバス１１ｂは使用されない。

ｓｔｅｐ＝２では、プロセスｐ１は、時計回りの経路を用いてプロセスｐ５にデータを送信する。プロセスｐ５は、プロセスｐ１からデータを受信する。また、プロセスｐ５は、反時計回りの経路を用いてプロセスｐ１にデータを送信する。プロセスｐ１は、プロセスｐ５からデータを受信する。

ｓｔｅｐ＝３では、プロセスｐ１は、時計回りの経路を用いてプロセスｐ４にデータを送信する。プロセスｐ４は、プロセスｐ１からデータを受信する。また、プロセスｐ２は、時計回りの経路を用いてプロセスｐ１にデータを送信する。プロセスｐ１は、プロセスｐ２からデータを受信する。

図２０は、仮想ランク番号に基づく全対全通信の例を示す図である。
ｓｔｅｐ＝４では、プロセスｐ１は、反時計回りの経路を用いてプロセスｐ３にデータを送信する。プロセスｐ３は、プロセスｐ１からデータを受信する。また、プロセスｐ３は、時計回りの経路を用いてプロセスｐ１にデータを送信する。プロセスｐ１は、プロセスｐ３からデータを受信する。

ｓｔｅｐ＝５では、プロセスｐ１は、反時計回りの経路を用いてプロセスｐ２にデータを送信する。プロセスｐ２は、プロセスｐ１からデータを受信する。また、プロセスｐ４は、反時計回りの経路を用いてプロセスｐ１にデータを送信する。プロセスｐ１は、プロセスｐ４からデータを受信する。

ｓｔｅｐ＝６では、プロセスｐ１は、プロセスｐ１にデータを送信する。プロセスｐ１は、プロセスｐ１からデータを受信する。例えば、プロセスｐ１からプロセスｐ１へのデータ送信により、プロセスｐ１の送信バッファに格納されたデータが受信バッファに移される。

ｓｔｅｐ＝７では、プロセスｐ１は、プロセスｐ０にデータを送信する。プロセスｐ０は、プロセスｐ１からデータを受信する。また、プロセスｐ６は、反時計回りの経路を用いてプロセスｐ１にデータを送信する。プロセスｐ１は、プロセスｐ６からデータを受信する。

次に、全対全通信の各ステップにおける全てのプロセスｐ０～ｐ７の通信を例示する。
図２１は、仮想ランク番号に基づく全対全通信の例を示す図である。
ｓｔｅｐ＝０では、次の通信が実行される。なお、各プロセスによるデータの受信の説明を省略する。

プロセスｐ０は、プロセスｐ０にデータを送信する。
プロセスｐ１は、反時計回りの経路を用いてプロセスｐ７にデータを送信する。
プロセスｐ２は、プロセスｐ２にデータを送信する。

プロセスｐ３は、時計回りの経路を用いてプロセスｐ５にデータを送信する。
プロセスｐ４は、プロセスｐ４にデータを送信する。
プロセスｐ５は、時計回りの経路を用いてプロセスｐ３にデータを送信する。

プロセスｐ６は、プロセスｐ６にデータを送信する。
プロセスｐ７は、反時計回りの経路を用いてプロセスｐ１にデータを送信する。
ｓｔｅｐ＝１では、次の通信が実行される。

プロセスｐ０は、プロセスｐ１にデータを送信する。
プロセスｐ１は、反時計回りの経路を用いてプロセスｐ６にデータを送信する。
プロセスｐ２は、プロセスｐ３にデータを送信する。

プロセスｐ３は、時計回りの経路を用いてプロセスｐ４にデータを送信する。
プロセスｐ４は、プロセスｐ５にデータを送信する。
プロセスｐ５は、時計回りの経路を用いてプロセスｐ２にデータを送信する。

プロセスｐ６は、プロセスｐ７にデータを送信する。
プロセスｐ７は、反時計回りの経路を用いてプロセスｐ０にデータを送信する。
ｓｔｅｐ＝２では、次の通信が実行される。

プロセスｐ０は、反時計回りの経路を用いてプロセスｐ２にデータを送信する。
プロセスｐ１は、時計回りの経路を用いてプロセスｐ５にデータを送信する。
プロセスｐ２は、時計回りの経路を用いてプロセスｐ０にデータを送信する。

プロセスｐ３は、反時計回りの経路を用いてプロセスｐ７にデータを送信する。
プロセスｐ４は、時計回りの経路を用いてプロセスｐ６にデータを送信する。
プロセスｐ５は、反時計回りの経路を用いてプロセスｐ１にデータを送信する。

プロセスｐ６は、反時計回りの経路を用いてプロセスｐ４にデータを送信する。
プロセスｐ７は、時計回りの経路を用いてプロセスｐ３にデータを送信する。
ｓｔｅｐ＝３では、次の通信が実行される。

プロセスｐ０は、反時計回りの経路を用いてプロセスｐ３にデータを送信する。
プロセスｐ１は、時計回りの経路を用いてプロセスｐ４にデータを送信する。
プロセスｐ２は、時計回りの経路を用いてプロセスｐ１にデータを送信する。

プロセスｐ３は、反時計回りの経路を用いてプロセスｐ６にデータを送信する。
プロセスｐ４は、時計回りの経路を用いてプロセスｐ７にデータを送信する。
プロセスｐ５は、反時計回りの経路を用いてプロセスｐ０にデータを送信する。

プロセスｐ６は、反時計回りの経路を用いてプロセスｐ５にデータを送信する。
プロセスｐ７は、時計回りの経路を用いてプロセスｐ２にデータを送信する。
図２２は、仮想ランク番号に基づく全対全通信の例を示す図である。

ｓｔｅｐ＝４では、次の通信が実行される。
プロセスｐ０は、時計回りの経路を用いてプロセスｐ４にデータを送信する。
プロセスｐ１は、反時計回りの経路を用いてプロセスｐ３にデータを送信する。

プロセスｐ２は、反時計回りの経路を用いてプロセスｐ６にデータを送信する。
プロセスｐ３は、時計回りの経路を用いてプロセスｐ１にデータを送信する。
プロセスｐ４は、反時計回りの経路を用いてプロセスｐ０にデータを送信する。

プロセスｐ５は、時計回りの経路を用いてプロセスｐ７にデータを送信する。
プロセスｐ６は、時計回りの経路を用いてプロセスｐ２にデータを送信する。
プロセスｐ７は、反時計回りの経路を用いてプロセスｐ５にデータを送信する。

ｓｔｅｐ＝５では、次の通信が実行される。
プロセスｐ０は、時計回りの経路を用いてプロセスｐ５にデータを送信する。
プロセスｐ１は、反時計回りの経路を用いてプロセスｐ２にデータを送信する。

プロセスｐ２は、反時計回りの経路を用いてプロセスｐ７にデータを送信する。
プロセスｐ３は、時計回りの経路を用いてプロセスｐ０にデータを送信する。
プロセスｐ４は、反時計回りの経路を用いてプロセスｐ１にデータを送信する。

プロセスｐ５は、時計回りの経路を用いてプロセスｐ６にデータを送信する。
プロセスｐ６は、時計回りの経路を用いてプロセスｐ３にデータを送信する。
プロセスｐ７は、反時計回りの経路を用いてプロセスｐ４にデータを送信する。

ｓｔｅｐ＝６では、次の通信が実行される。
プロセスｐ０は、反時計回りの経路を用いてプロセスｐ６にデータを送信する。
プロセスｐ１は、プロセスｐ１にデータを送信する。

プロセスｐ２は、時計回りの経路を用いてプロセスｐ４にデータを送信する。
プロセスｐ３は、プロセスｐ３にデータを送信する。
プロセスｐ４は、時計回りの経路を用いてプロセスｐ２にデータを送信する。

プロセスｐ５は、プロセスｐ５にデータを送信する。
プロセスｐ６は、反時計回りの経路を用いてプロセスｐ０にデータを送信する。
プロセスｐ７は、プロセスｐ７にデータを送信する。

ｓｔｅｐ＝７では、次の通信が実行される。
プロセスｐ０は、反時計回りの経路を用いてプロセスｐ７にデータを送信する。
プロセスｐ１は、プロセスｐ０にデータを送信する。

プロセスｐ２は、時計回りの経路を用いてプロセスｐ５にデータを送信する。
プロセスｐ３は、プロセスｐ２にデータを送信する。
プロセスｐ４は、時計回りの経路を用いてプロセスｐ３にデータを送信する。

プロセスｐ５は、プロセスｐ４にデータを送信する。
プロセスｐ６は、反時計回りの経路を用いてプロセスｐ１にデータを送信する。
プロセスｐ７は、プロセスｐ６にデータを送信する。

このように、ＣＰＵ１１は、排他的論理和演算により各プロセスに対する通信先のプロセスを決定することで、第１通信路１１ｂ０の一部の区間および第２通信路１１ｂ１の一部の区間がプロセスの２以上の組の通信により共有されることを回避する。

第２の実施の形態の例では、全対全通信の各ステップにおいて、リングバス１１ｂの時計回りの経路（第１通信路１１ｂ０）、および、反時計回りの経路（第２通信路１１ｂ１）の何れの箇所も共有されることがない。このため、リングバス１１ｂで輻輳を発生させずに、高速に全対全通信を行える。

また、仮想ランク番号を用いることで、ユーザやＯＳ、通信ライブラリおよびジョブスケジューラなどの外部の要因による、各プロセスに対する識別番号の割り当てポリシーに依らずに、高速な全対全通信を行えるようになる。更に、各プロセスに対する通信先のプロセスの決定が排他的論理和を用いた単純な演算で行える。このため、各プロセスに対する通信先のプロセスの決定を高速に実行できる。

［第３の実施の形態］
次に、第３の実施の形態を説明する。前述の第２の実施の形態と相違する事項を主に説明し、共通する事項の説明を省略する。

第２の実施の形態では、ノード１１ａ０～１１ａ３それぞれが２つのプロセスを実行する例を示したが、ノード１１ａ０～１１ａ３それぞれが３以上のプロセスを実行してもよい。そこで、第３の実施の形態では、ノード１１ａ０～１１ａ３それぞれが３つのプロセスを実行する例を説明する。第３の実施の形態の情報処理装置１０のハードウェア例は、図２で例示した第２の実施の形態のハードウェア例と同様である。各プロセスは、図１３で例示した手順を実行することで、並列プログラムの処理に伴う全対全通信を実行する。

図２３は、第３の実施の形態の仮想ランク番号の決定例を示す図である。
ノード１１ａ０～１１ａ３それぞれのノード番号は、第２の実施の形態と同様である。すなわち、ノード１１ａ０のノード番号は「０」である。ノード１１ａ１のノード番号は「１」である。ノード１１ａ２のノード番号は「２」である。ノード１１ａ３のノード番号は「３」である。

ノード１１ａ０は、プロセスｐ０，ｐ１，ｐ２を並列に実行する。ノード１１ａ１は、プロセスｐ３，ｐ４，ｐ５を並列に実行する。ノード１１ａ２は、プロセスｐ６，ｐ７，ｐ８を並列に実行する。ノード１１ａ３は、プロセスｐ９，ｐ１０，ｐ１１を並列に実行する。

プロセスｐ０～ｐ１１は、予め指定されたユーザプロセス番号をプロセスｐ０～ｐ１１に割り当てる（ＳＴ２１）。例えば、プロセスｐ０のユーザ定義プロセス番号は「２」である。プロセスｐ１のユーザ定義プロセス番号は「１１」である。プロセスｐ２のユーザ定義プロセス番号は「６」である。プロセスｐ３のユーザ定義プロセス番号は「４」である。プロセスｐ４のユーザ定義プロセス番号は「９」である。プロセスｐ５のユーザ定義プロセス番号は「３」である。プロセスｐ６のユーザ定義プロセス番号は「１」である。プロセスｐ７のユーザ定義プロセス番号は「１０」である。プロセスｐ８のユーザ定義プロセス番号は「０」である。プロセスｐ９のユーザ定義プロセス番号は「５」である。プロセスｐ１０のユーザ定義プロセス番号は「８」である。プロセスｐ１１のユーザ定義プロセス番号は「７」である。ユーザ定義プロセス番号は、ユーザなどにより予め定められるランク番号に相当する。

プロセスｐ０～ｐ１１は、プロセス間で通信してランク番号表１２２を作成する。プロセスｐ０～ｐ１１は、ＣＰＵコア番号表１２１およびランク番号表１２２に基づいて、プロセスｐ０～ｐ１１それぞれに対するノード順プロセス番号を決定する（ＳＴ２２）。ノード順プロセス番号は、０を最小値として、ＣＰＵコア番号表１２１を基に、所属するノードのノード番号が小さいプロセスから昇順に付与される。１つのノードで複数のプロセスが実行される場合、当該複数のプロセスに対しては任意の順にノード順プロセス番号が付与される。例えば、ＣＰＵコア番号の順にノード順プロセス番号が付与されてもよい。

プロセスｐ０のノード順プロセス番号は「０」である。プロセスｐ１のノード順プロセス番号は「１」である。プロセスｐ２のノード順プロセス番号は「２」である。プロセスｐ３のノード順プロセス番号は「３」である。プロセスｐ４のノード順プロセス番号は「４」である。プロセスｐ５のノード順プロセス番号は「５」である。プロセスｐ６のノード順プロセス番号は「６」である。プロセスｐ７のノード順プロセス番号は「７」である。プロセスｐ８のノード順プロセス番号は「８」である。プロセスｐ９のノード順プロセス番号は「９」である。プロセスｐ１０のノード順プロセス番号は「１０」である。プロセスｐ１１のノード順プロセス番号は「１１」である。

プロセスｐ０～ｐ１１は、プロセスｐ０～ｐ１１それぞれのノード順プロセス番号に基づいて、式（１）により、プロセスｐ０～ｐ１１それぞれの仮想ランク番号を決定する（ＳＴ２３）。ここで、第３の実施の形態では、式（１）のｓｉｚｅ＝１２である。プロセスｐ０の仮想ランク番号は「０」である。プロセスｐ１の仮想ランク番号は「１１」である。プロセスｐ２の仮想ランク番号は「２」である。プロセスｐ３の仮想ランク番号は「９」である。プロセスｐ４の仮想ランク番号は「４」である。プロセスｐ５の仮想ランク番号は「７」である。プロセスｐ６の仮想ランク番号は「６」である。プロセスｐ７の仮想ランク番号は「５」である。プロセスｐ８の仮想ランク番号は「８」である。プロセスｐ９の仮想ランク番号は「３」である。プロセスｐ１０の仮想ランク番号は「１０」である。プロセスｐ１１の仮想ランク番号は「１」である。

図２４は、仮想ランク番号に基づく全対全通信の例を示す図である。
図２４～２６ではプロセスｐ２（仮想ランク番号「２」）に着目し、プロセスｐ２が送信元または送信先となる通信を例示する。プロセスｐ０～ｐ１１それぞれを表す円の中に記載された数値は、該当のプロセスの仮想ランク番号を示す。

全対全通信の各ステップにおいて、各プロセスに対するデータ送信先のプロセスの仮想ランク番号は、式（２）および式（１）により計算される。また、各プロセスに対するデータ送信元のプロセスの仮想ランク番号は、式（３）および式（１）により計算される。

ｓｔｅｐ＝０では、プロセスｐ２は、プロセスｐ２にデータを送信する。プロセスｐ２は、プロセスｐ２からデータを受信する。例えば、プロセスｐ２からプロセスｐ２へのデータ送信により、プロセスｐ２の送信バッファに格納されたデータが受信バッファに移される。

ｓｔｅｐ＝１では、プロセスｐ２は、リングバス１１ｂの反時計回りの経路を用いてプロセスｐ３にデータを送信する。プロセスｐ３は、プロセスｐ２からデータを受信する。また、プロセスｐ９は、反時計回りの経路を用いてプロセスｐ２にデータを送信する。プロセスｐ２は、プロセスｐ９からデータを受信する。

ｓｔｅｐ＝２では、プロセスｐ２は、プロセスｐ０にデータを送信する。プロセスｐ０は、プロセスｐ２からデータを受信する。また、プロセスｐ０は、プロセスｐ２にデータを送信する。プロセスｐ２は、プロセスｐ０からデータを受信する。

ｓｔｅｐ＝３では、プロセスｐ２は、プロセスｐ１にデータを送信する。プロセスｐ１は、プロセスｐ２からデータを受信する。また、プロセスｐ１１は、反時計回りの経路を用いてプロセスｐ２にデータを送信する。プロセスｐ２は、プロセスｐ１１からデータを受信する。

図２５は、仮想ランク番号に基づく全対全通信の例を示す図である。
ｓｔｅｐ＝４では、プロセスｐ２は、時計回りの経路を用いてプロセスｐ６にデータを送信する。プロセスｐ６は、プロセスｐ２からデータを受信する。また、プロセスｐ６は、反時計回りの経路を用いてプロセスｐ２にデータを送信する。プロセスｐ２は、プロセスｐ６からデータを受信する。

ｓｔｅｐ＝５では、プロセスｐ２は、時計回りの経路を用いてプロセスｐ７にデータを送信する。プロセスｐ７は、プロセスｐ２からデータを受信する。また、プロセスｐ５は、時計回りの経路を用いてプロセスｐ２にデータを送信する。プロセスｐ２は、プロセスｐ５からデータを受信する。

ｓｔｅｐ＝６では、プロセスｐ２は、反時計回りの経路を用いてプロセスｐ４にデータを送信する。プロセスｐ４は、プロセスｐ２からデータを受信する。また、プロセスｐ４は、時計回りの経路を用いてプロセスｐ２にデータを送信する。プロセスｐ２は、プロセスｐ４からデータを受信する。

ｓｔｅｐ＝７では、プロセスｐ２は、反時計回りの経路を用いてプロセスｐ５にデータを送信する。プロセスｐ５は、プロセスｐ２からデータを受信する。また、プロセスｐ７は、反時計回りの経路を用いてプロセスｐ２にデータを送信する。プロセスｐ２は、プロセスｐ７からデータを受信する。

図２６は、仮想ランク番号に基づく全対全通信の例を示す図である。
ｓｔｅｐ＝８では、プロセスｐ２は、反時計回りの経路を用いてプロセスｐ１０にデータを送信する。プロセスｐ１０は、プロセスｐ２からデータを受信する。また、プロセスｐ１０は、反時計回りの経路を用いてプロセスｐ２にデータを送信する。プロセスｐ２は、プロセスｐ１０からデータを受信する。

ｓｔｅｐ＝９では、プロセスｐ２は、反時計回りの経路を用いてプロセスｐ１１にデータを送信する。プロセスｐ１１は、プロセスｐ２からデータを受信する。また、プロセスｐ１は、プロセスｐ２にデータを送信する。プロセスｐ２は、プロセスｐ１からデータを受信する。

ｓｔｅｐ＝１０では、プロセスｐ２は、時計回りの経路を用いてプロセスｐ８にデータを送信する。プロセスｐ８は、プロセスｐ２からデータを受信する。また、プロセスｐ８は、反時計回りの経路を用いてプロセスｐ２にデータを送信する。プロセスｐ２は、プロセスｐ８からデータを受信する。

ｓｔｅｐ＝１１では、プロセスｐ２は、反時計回りの経路を用いてプロセスｐ９にデータを送信する。プロセスｐ９は、プロセスｐ２からデータを受信する。また、プロセスｐ３は、時計回りの経路を用いてプロセスｐ２にデータを送信する。プロセスｐ２は、プロセスｐ３からデータを受信する。

プロセスｐ２以外の他のプロセスについても、各ステップにおいて、他のプロセスとの通信を行う。このように、各ノードで実行されるプロセス数が３以上の場合であっても、仮想ランク番号に基づく全対全通信を行える。また、全対全通信における通信路の共有を極力回避することができ、ユーザなどにより予め付与されたランク番号を用いるよりも輻輳の発生を抑えることができる。すなわち、全対全通信の最初のステップから最終のステップに亘って、輻輳が発生する頻度を低減できる。その結果、全対全通信を高速化できる。

［第４の実施の形態］
次に、第４の実施の形態を説明する。前述の第２，第３の実施の形態と相違する事項を主に説明し、共通する事項の説明を省略する。

第２，第３の実施の形態では、ノード１１ａ０～１１ａ３それぞれが同じ数のプロセスを実行する例を示したが、ノード１１ａ０～１１ａ３の一部が異なる数のプロセスを実行してもよい。そこで、第４の実施の形態では、ＣＰＵ１１のノード１１ａ０～１１ａ２のそれぞれが２つのプロセスを実行し、ノード１１ａ３が１つのプロセスを実行する例を説明する。第４の実施の形態の情報処理装置１０のハードウェア例は、図２で例示した第２の実施の形態のハードウェア例と同様である。各プロセスは、図１３で例示した手順を実行することで、並列プログラムの処理に伴う全対全通信を実行する。

図２７は、第４の実施の形態の仮想ランク番号の決定例を示す図である。
ノード１１ａ０～１１ａ３それぞれのノード番号は、第２の実施の形態と同様である。すなわち、ノード１１ａ０のノード番号は「０」である。ノード１１ａ１のノード番号は「１」である。ノード１１ａ２のノード番号は「２」である。ノード１１ａ３のノード番号は「３」である。

ノード１１ａ０は、プロセスｐ０，ｐ１を並列に実行する。ノード１１ａ１は、プロセスｐ２，ｐ３を並列に実行する。ノード１１ａ２は、プロセスｐ４，ｐ５を並列に実行する。ノード１１ａ３は、プロセスｐ６を実行する。

プロセスｐ０～ｐ６は、予め指定されたユーザプロセス番号をプロセスｐ０～ｐ６に割り当てる（ＳＴ３１）。例えば、プロセスｐ０のユーザ定義プロセス番号は「２」である。プロセスｐ１のユーザ定義プロセス番号は「６」である。プロセスｐ２のユーザ定義プロセス番号は「４」である。プロセスｐ３のユーザ定義プロセス番号は「３」である。プロセスｐ４のユーザ定義プロセス番号は「１」である。プロセスｐ５のユーザ定義プロセス番号は「０」である。プロセスｐ６のユーザ定義プロセス番号は「５」である。ユーザ定義プロセス番号は、ユーザなどにより予め定められるランク番号に相当する。

プロセスｐ０～ｐ６は、プロセス間で通信してランク番号表１２２を作成する。プロセスｐ０～ｐ６は、ＣＰＵコア番号表１２１およびランク番号表１２２に基づいて、プロセスｐ０～ｐ６それぞれに対するノード順プロセス番号を決定する（ＳＴ３２）。ノード順プロセス番号は、０を最小値として、ＣＰＵコア番号表１２１を基に、所属するノードのノード番号が小さいプロセスから昇順に付与される。１つのノードで複数のプロセスが実行される場合、当該複数のプロセスに対しては任意の順にノード順プロセス番号が付与される。例えば、ＣＰＵコア番号の順にノード順プロセス番号が付与されてもよい。

プロセスｐ０のノード順プロセス番号は「０」である。プロセスｐ１のノード順プロセス番号は「１」である。プロセスｐ２のノード順プロセス番号は「２」である。プロセスｐ３のノード順プロセス番号は「３」である。プロセスｐ４のノード順プロセス番号は「４」である。プロセスｐ５のノード順プロセス番号は「５」である。プロセスｐ６のノード順プロセス番号は「６」である。

プロセスｐ０～ｐ６は、プロセスｐ０～ｐ６それぞれのノード順プロセス番号に基づいて、式（１）により、プロセスｐ０～ｐ６それぞれの仮想ランク番号を決定する（ＳＴ３３）。ｓｉｚｅが奇数のとき、仮想ランク番号を求める際の式（１）のｓｉｚｅをｓｉｚｅ’＝ｓｉｚｅ－１に置き換えてもよい。プロセスｐ０の仮想ランク番号は「０」である。プロセスｐ１の仮想ランク番号は「５」である。プロセスｐ２の仮想ランク番号は「２」である。プロセスｐ３の仮想ランク番号は「３」である。プロセスｐ４の仮想ランク番号は「４」である。プロセスｐ５の仮想ランク番号は「１」である。プロセスｐ６の仮想ランク番号は「６」である。

図２８は、送信先の仮想ランク番号の計算例を示す図である。
表１２７は、全対全通信の各ステップにおける、仮想ランク番号「５」のプロセスｐ１に着目したデータ送信先のプロセスの仮想ランク番号の計算例を示す。第４の実施の形態の例では、ｓｉｚｅ＝７であり、２の冪でないため、ｍａｘｓｔｅｐは７よりも大きい最小の２の冪である８となる。

ｓｔｅｐ＝０の場合、式（２）により算出されるデータ送信先のプロセスのノード順プロセス番号は「０＾５＝５」である。したがって、データ送信先のプロセスの仮想ランク番号は「１」である。

ｓｔｅｐ＝１の場合、データ送信先のプロセスのノード順プロセス番号は「１＾５＝４」である。したがって、データ送信先のプロセスの仮想ランク番号は「４」である。
ｓｔｅｐ＝２の場合、データ送信先のプロセスのノード順プロセス番号は「２＾５＝７」である。ノード順プロセス番号「７」は存在しない。したがって、データ送信先のプロセスはなし（ハイフン記号「－」で表記している）となる。

ｓｔｅｐ＝３の場合、データ送信先のプロセスのノード順プロセス番号は「３＾５＝６」である。したがって、データ送信先のプロセスの仮想ランク番号は「６」である。
ｓｔｅｐ＝４の場合、データ送信先のプロセスのノード順プロセス番号は「４＾５＝１」である。したがって、データ送信先のプロセスの仮想ランク番号は「５」である。

ｓｔｅｐ＝５の場合、データ送信先のプロセスのノード順プロセス番号は「５＾５＝０」である。したがって、データ送信先のプロセスの仮想ランク番号は「０」である。
ｓｔｅｐ＝６の場合、データ送信先のプロセスのノード順プロセス番号は「６＾５＝３」である。したがって、データ送信先のプロセスの仮想ランク番号は「３」である。

ｓｔｅｐ＝７の場合、データ送信先のプロセスのノード順プロセス番号は「７＾５＝２」である。したがって、データ送信先のプロセスの仮想ランク番号は「２」である。
次に、全対全通信の各ステップにおけるプロセスｐ０～ｐ６の通信を例示する。

図２９は、仮想ランク番号に基づく全対全通信の例を示す図である。
ｓｔｅｐ＝０では、次の通信が実行される。なお、各プロセスによるデータの受信の説明を省略する。

プロセスｐ０は、プロセスｐ０にデータを送信する。
プロセスｐ１は、時計回りの経路を用いてプロセスｐ５にデータを送信する。
プロセスｐ２は、プロセスｐ２にデータを送信する。

プロセスｐ３は、プロセスｐ３にデータを送信する。
プロセスｐ４は、プロセスｐ４にデータを送信する。
プロセスｐ５は、反時計回りの経路を用いてプロセスｐ１にデータを送信する。

プロセスｐ６は、プロセスｐ６にデータを送信する。
ｓｔｅｐ＝１では、次の通信が実行される。
プロセスｐ０は、プロセスｐ１にデータを送信する。

プロセスｐ１は、時計回りの経路を用いてプロセスｐ４にデータを送信する。
プロセスｐ２は、プロセスｐ３にデータを送信する。
プロセスｐ３は、プロセスｐ２にデータを送信する。

プロセスｐ４は、プロセスｐ５にデータを送信する。
プロセスｐ５は、反時計回りの経路を用いてプロセスｐ０にデータを送信する。
プロセスｐ６は、データ送信を行わない。

ｓｔｅｐ＝２では、次の通信が実行される。
プロセスｐ０は、反時計回りの経路を用いてプロセスｐ２にデータを送信する。
プロセスｐ１は、データ送信を行わない。

プロセスｐ２は、時計回りの経路を用いてプロセスｐ０にデータを送信する。
プロセスｐ３は、時計回りの経路を用いてプロセスｐ１にデータを送信する。
プロセスｐ４は、時計回りの経路を用いてプロセスｐ６にデータを送信する。

プロセスｐ５は、時計回りの経路を用いてプロセスｐ３にデータを送信する。
プロセスｐ６は、反時計回りの経路を用いてプロセスｐ４にデータを送信する。
ｓｔｅｐ＝３では、次の通信が実行される。

プロセスｐ０は、反時計回りの経路を用いてプロセスｐ３にデータを送信する。
プロセスｐ１は、反時計回りの経路を用いてプロセスｐ６にデータを送信する。
プロセスｐ２は、時計回りの経路を用いてプロセスｐ１にデータを送信する。

プロセスｐ３は、時計回りの経路を用いてプロセスｐ０にデータを送信する。
プロセスｐ４は、データ送信を行わない。
プロセスｐ５は、時計回りの経路を用いてプロセスｐ２にデータを送信する。

プロセスｐ６は、反時計回りの経路を用いてプロセスｐ５にデータを送信する。
図３０は、仮想ランク番号に基づく全対全通信の例を示す図である。
ｓｔｅｐ＝４では、次の通信が実行される。

プロセスｐ０は、時計回りの経路を用いてプロセスｐ４にデータを送信する。
プロセスｐ１は、プロセスｐ１にデータを送信する。
プロセスｐ２は、反時計回りの経路を用いてプロセスｐ６にデータを送信する。

プロセスｐ３は、データ送信を行わない。
プロセスｐ４は、反時計回りの経路を用いてプロセスｐ０にデータを送信する。
プロセスｐ５は、プロセスｐ５にデータを送信する。

プロセスｐ６は、時計回りの経路を用いてプロセスｐ２にデータを送信する。
ｓｔｅｐ＝５では、次の通信が実行される。
プロセスｐ０は、時計回りの経路を用いてプロセスｐ５にデータを送信する。

プロセスｐ１は、プロセスｐ０にデータを送信する。
プロセスｐ２は、データ送信を行わない。
プロセスｐ３は、反時計回りの経路を用いてプロセスｐ６にデータを送信する。

プロセスｐ４は、反時計回りの経路を用いてプロセスｐ１にデータを送信する。
プロセスｐ５は、プロセスｐ４にデータを送信する。
プロセスｐ６は、時計回りの経路を用いてプロセスｐ３にデータを送信する。

ｓｔｅｐ＝６では、次の通信が実行される。
プロセスｐ０は、反時計回りの経路を用いてプロセスｐ６にデータを送信する。
プロセスｐ１は、反時計回りの経路を用いてプロセスｐ３にデータを送信する。

プロセスｐ２は、時計回りの経路を用いてプロセスｐ４にデータを送信する。
プロセスｐ３は、時計回りの経路を用いてプロセスｐ５に送信する。
プロセスｐ４は、時計回りの経路を用いてプロセスｐ２にデータを送信する。

プロセスｐ５は、データ送信を行わない。
プロセスｐ６は、反時計回りの経路を用いてプロセスｐ０にデータを送信する。
ｓｔｅｐ＝７では、次の通信が実行される。

プロセスｐ０は、データ送信を行わない。
プロセスｐ１は、反時計回りの経路を用いてプロセスｐ２にデータを送信する。
プロセスｐ２は、時計回りの経路を用いてプロセスｐ５にデータを送信する。

プロセスｐ３は、時計回りの経路を用いてプロセスｐ４にデータを送信する。
プロセスｐ４は、時計回りの経路を用いてプロセスｐ３にデータを送信する。
プロセスｐ５は、時計回りの経路を用いてプロセスｐ６にデータを送信する。

プロセスｐ６は、反時計回りの経路を用いてプロセスｐ１にデータを送信する。
このように、ノード１１ａ０～１１ａ３の一部が異なる数のプロセスを実行していても、ＣＰＵ１１はプロセス間の全対全通信を行える。

なお、上記のように、ノード１１ａ３上のプロセス数が他のノードよりも少なくなるケースとして、第２の実施の形態のように各ノードで２つずつプロセスを実行している状態からの何れかのプロセスが消滅するケースが考えられる。プロセスの消滅は、例えば、ノード１１ａ３におけるコアの減縮（一部のコアが障害などにより利用できなくなるなど）に起因して発生し得る。例えば、各ノードで２つずつプロセスを実行している状態で、何れかのプロセスが消滅した場合には、各プロセスは、図１３のステップＳ１２～Ｓ１７を再実行することで、各プロセスのノード順プロセス番号および仮想ランク番号を再決定する。

このように、ＣＰＵ１１は、仮想ランク番号を算出した後に、ＣＰＵ１１における複数のプロセスの数が減ると、残りのプロセスのノード順プロセス番号および仮想ランク番号を更新する。これにより、並列プログラムの処理途中において一部のプロセスでプロセスの数が減ったとしても、残りのプロセスで全対全通信を実行し、処理を継続できる。

ここで、上記の第２～第４の実施の形態に対して次のことが言える。
情報処理装置１０において輻輳の発生を最も抑えられるのは、「ノード内に２の冪のプロセス数（１，２，４，８，１６，…）が存在し、かつ、全てのノードにおいて、プロセス数が同じであること」という条件を満たすときである。第２の実施の形態の例は、当該条件を満たすケースである。ただし、当該条件を満たさなくても、ユーザなどにより予め用いられたランク番号を用いるよりも、輻輳の発生を抑えることができる。また、何れかのノードでコアの縮退などによりプロセス数が変化しても、仮想ランク番号を再決定することで、残りのプロセスで全対全通信を行って処理を継続できる。

次に、第２～第４の実施の形態で例示した情報処理装置１０を複数用いた並列処理システムを例示する。
図３１は、並列処理システムの例を示す図である。

並列処理システム１００は、情報処理装置１０，１０ａ，１０ｂ，１０ｃ，…を有する。並列処理システム１００は、同一のジョブに属する複数のプロセスを、情報処理装置１０，１０ａ，１０ｂ，１０ｃ，…を用いて並列に実行する。１つの情報処理装置は、複数のノードおよび複数のノードが接続されるリングバスを含むＣＰＵと、各ノードに接続されたＨＢＭ２などのメモリとを有する。

例えば、情報処理装置１０は、前述のように、ノード１１ａ０，１１ａ１，１１ａ２，１１ａ３、リングバス１１ｂおよびメモリ１２，１３，１４，１５を有する。ノード１１ａ０，１１ａ１，１１ａ２，１１ａ３はリングバス１１ｂに接続される。ノード１１ａ０はメモリ１２に接続される。ノード１１ａ１はメモリ１３に接続される。ノード１１ａ２はメモリ１４に接続される。ノード１１ａ３はメモリ１５に接続される。また、情報処理装置１０は、通信インタフェース（図示を省略している）を有する。情報処理装置１０は、当該通信インタフェースを介してネットワーク５０に接続し、他のコンピュータと通信する。また、情報処理装置１０は、並列処理システム１００が備えるインターコネクト（図示を省略している）を介して、並列処理システム１００における他の情報処理装置と相互に通信する。インターコネクトには、例えばＴｏｆｕ（登録商標）インターコネクトなどの６次元メッシュ／トーラスのトポロジーによる直接網が用いられる。

ネットワーク５０には、サーバ２００および端末装置３００が接続される。
サーバ２００は、ＣＰＵ、ＲＡＭおよびＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）などの補助記憶装置を有し、共有ファイルシステム２１０を実現するサーバコンピュータである。

情報処理装置１０，１０ａ，１０ｂ，１０ｃ，…は、ネットワーク５０を介して共有ファイルシステム２１０にアクセスし、共有ファイルシステム２１０に格納されたプログラム２１１やデータをダウンロードし、各情報処理装置のメモリに格納する。各情報処理装置のメモリに格納されたプログラムは、各情報処理装置のＣＰＵによって実行される。

例えば、サーバ２００は、記録媒体２０に格納されたプログラム２１１やデータを読み取る媒体リーダを有し、記録媒体２０に格納されたプログラム２１１やデータを共有ファイルシステム２１０に格納する。記録媒体２０として、例えば、磁気ディスク、光ディスク、光磁気ディスク（ＭＯ：Magneto-Optical disk）、半導体メモリなどを使用できる。磁気ディスクには、フレキシブルディスク（ＦＤ：Flexible Disk）やＨＤＤが含まれる。光ディスクには、ＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）が含まれる。記録媒体２０は可搬型記録媒体と呼ばれてもよく、プログラムやデータの配布に用いられることがある。また、記録媒体２０は、コンピュータ読み取り可能な記録媒体と呼ばれることもある。

端末装置３００は、ユーザによって利用されるクライアントコンピュータである。例えば、端末装置３００は、並列処理システム１００に対する並列プログラムの実行開始指示を入力したり、並列プログラムの実行スケジュールを並列処理システム１００に設定したりする。また、端末装置３００は、並列プログラムの実行結果を端末装置３００が備えるディスプレイに表示し、ユーザによる当該実行結果の確認に用いられてもよい。

ここで、ＨＰＣ（High-Performance Computing）分野では、性能向上のためにノード数の増加やＣＰＵのコア数を増やすメニーコア化による大規模化が進んでいる。
ＨＰＣ分野では、並列計算のための規格としてＭＰＩが用いられることが多い。並列処理システム１００では、ＭＰＩプロセスを同時に多数実行することで、並列計算が実現される。大規模化によって、実行されるＭＰＩプロセスの数は多くなるため、ＭＰＩプロセス間の通信性能が重要となる。情報処理装置１０，１０ａ，１０ｂ，１０ｃ，…により、各情報処理装置内のプロセス間の全対全通信を伴う処理を高速に実行でき、並列処理システム１００全体の処理の高速化を図ることができる。

１情報処理装置
１ａ０，１ａ１，１ａ２，１ａ３記憶部
１ｂ処理部
１ｂ０，１ｂ１，１ｂ２，１ｂ３ノード
１ｂ４リングバス
Ｐ０，Ｐ１，Ｐ２，Ｐ３，Ｐ４，Ｐ５，Ｐ６，Ｐ７プロセス

Claims

複数のプロセスの各々に対して固有の仮想ランク番号を記憶する記憶部と、
プロセス間の全対全通信の初期設定時に、ハードウェア情報から各プロセスに固有のノード順プロセス番号を生成し、前記ノード順プロセス番号を基に各プロセスの前記仮想ランク番号を算出して前記記憶部に格納し、前記複数のプロセスにおけるプロセス間の全対全通信処理時に、前記記憶部に記憶された前記仮想ランク番号と全対全通信のステップ数とに基づく排他的論理和演算を行うことで現ステップにおける通信先のプロセスの前記ノード順プロセス番号を各プロセスに対して決定し、各プロセスに対して決定した、前記通信先のプロセスの前記ノード順プロセス番号を基に各プロセスの前記通信先のプロセスの前記仮想ランク番号を算出し、各プロセスに対して決定した、前記通信先のプロセスの前記仮想ランク番号に基づいて、各プロセスから前記通信先のプロセスに対する通信を行う処理部と、
を有する情報処理装置。
前記処理部は、前記複数のプロセスそれぞれによる前記通信の完了の同期を取る処理を行い、前記ステップ数をインクリメントする、請求項１記載の情報処理装置。
前記ハードウェア情報は、前記複数のプロセスを実行する複数のノードそれぞれのノード番号と、各ノードに含まれる複数のコアそれぞれのコア番号とを含み、
前記処理部は、前記複数のプロセスそれぞれが割り当てられたコアの前記コア番号を取得し、前記ハードウェア情報に基づいて、前記コア番号に対応する前記ノード番号の順に、前記コアに割り当てられたプロセスの前記ノード順プロセス番号を生成する、
請求項１記載の情報処理装置。
前記処理部は、
前記複数のプロセスを実行する複数のノードと、前記複数のノードが接続され、時計回りの第１通信路と反時計回りの第２通信路とを備えるリングバスと、を有し、
前記排他的論理和演算により各プロセスに対する前記通信先のプロセスを決定することで、前記第１通信路の一部の区間および前記第２通信路の一部の区間がプロセスの２以上の組の通信により共有されることを回避する、
請求項１記載の情報処理装置。
前記処理部は、
前記仮想ランク番号と前記ステップ数とに基づく第１の排他的論理和演算を行うことで現ステップにおけるデータ送信先のプロセスを各プロセスに対して決定し、
前記仮想ランク番号と前記ステップ数とに基づく第２の排他的論理和演算を行うことで現ステップにおけるデータ送信元のプロセスを各プロセスに対して決定し、
各プロセスによる前記データ送信先のプロセスへのデータ送信、および、前記データ送信元のプロセスからのデータ受信を実行する、
請求項１記載の情報処理装置。
前記処理部は、前記仮想ランク番号を算出した後に、前記複数のプロセスの数が減ると、残りのプロセスの前記ノード順プロセス番号および前記仮想ランク番号を更新する、請求項１記載の情報処理装置。
コンピュータに、
複数のプロセスにおけるプロセス間の全対全通信の初期設定時に、ハードウェア情報から各プロセスに固有のノード順プロセス番号を生成し、前記ノード順プロセス番号を基に各プロセスの仮想ランク番号を算出して記憶部に格納し、
前記複数のプロセスにおけるプロセス間の全対全通信処理時に、前記記憶部に記憶された前記仮想ランク番号と全対全通信のステップ数とに基づく排他的論理和演算を行うことで現ステップにおける通信先のプロセスの前記ノード順プロセス番号を各プロセスに対して決定し、
各プロセスに対して決定した、前記通信先のプロセスの前記ノード順プロセス番号を基に各プロセスの前記通信先のプロセスの前記仮想ランク番号を算出し、
各プロセスに対して決定した、前記通信先のプロセスの前記仮想ランク番号に基づいて、各プロセスから前記通信先のプロセスに対する通信を行う、
処理を実行させる並列演算プログラム。