JP6870487B2

JP6870487B2 - 情報処理システム及び情報処理方法

Info

Publication number: JP6870487B2
Application number: JP2017116260A
Authority: JP
Inventors: 清水　俊宏; 俊宏清水; 耕太中島
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-06-13
Filing date: 2017-06-13
Publication date: 2021-05-12
Anticipated expiration: 2037-06-13
Also published as: JP2019003345A; US10498554B2; US20180359114A1

Description

本発明は、集団通信の技術に関する。

並列計算機におけるサーバ及びスイッチの接続形態（すなわちネットワークトポロジ）の最適化により並列計算機内での通信を効率化すれば、並列計算機が実行する並列分散処理のスループットを高めることができる。また、並列計算機におけるネットワークトポロジの最適化により少数のスイッチで多数のサーバを接続することができれば、並列計算機の構築コストを抑えることができる。

或る文献は、ラテン方陣ファットツリーと呼ばれるネットワークトポロジを開示する。ラテン方陣ファットツリーは、任意の異なる２つのＬｅａｆスイッチ間においてＳｐｉｎｅスイッチを経由する経路がただひとつ存在するという特徴を有する。ラテン方陣ファットツリーを使用すれば、一般的な２段ファットツリーと比べ、同じスイッチ数でより多くのサーバを接続することが可能である。

並列計算機においては、オールリデュース通信と呼ばれる集団通信がしばしば実行される。オールリデュース通信とは、対象の全ノードが持つデータを用いて実行した演算の結果を対象の全ノードが持つための通信のことであり、オールリデュースとは、その演算のことである。ラテン方陣ファットツリーを採用したシステム（以下、ラテン方陣ファットツリーシステムと呼ぶ）の全サーバによるオールリデュースを実現できれば、より多くのサーバを必要とする並列分散処理を実行することが可能になる。

M. Valerio, L. E. Moser and P. M. Melliar-Smith, "Recursively Scalable Fat-Trees as Interconnection Networks", IEEE 13th Annual International Phoenix Conference on Computers and Communications, 1994

本発明の目的は、１つの側面では、ラテン方陣ファットツリーシステムの全サーバによりオールリデュースを実行するための技術を提供することである。

一態様に係る情報処理システムは、接続形態がラテン方陣ファットツリーである複数のスイッチと、複数のスイッチのいずれかにそれぞれ接続される複数の情報処理装置とを有する。そして、ラテン方陣ファットツリーに対応する有限射影平面における特定の１点に相当する第１スイッチ以外のスイッチに接続される情報処理装置の各々が、当該情報処理装置と同じスイッチに接続される他の情報処理装置との間で、当該同じスイッチに接続される情報処理装置のうち第１情報処理装置が結果を持つ第１リデュースを実行し、第１スイッチに接続される情報処理装置の各々が、当該情報処理装置に対応するグループに属する各スイッチの第１情報処理装置との間で、当該情報処理装置が結果を持つ第２リデュースを実行し、第１スイッチに接続される情報処理装置が、第２リデュースの結果に基づきオールリデュースを実行し、第１スイッチに接続される情報処理装置の各々が、当該情報処理装置に対応するグループに属する各スイッチの第１情報処理装置に対して、オールリデュースの結果を送信し、オールリデュースの結果を受信した第１情報処理装置の各々が、当該第１情報処理装置と同じスイッチに接続される他の情報処理装置に対して、オールリデュースの結果を送信する。

１つの側面では、ラテン方陣ファットツリーシステムの全サーバによりオールリデュースを実行できるようになる。

図１は、オールリデュース通信について説明するための図である。図２は、オールリデュース通信について説明するための図である。図３は、オールリデュース通信について説明するための図である。図４は、オールリデュース通信について説明するための図である。図５は、オールリデュース通信を一般的なツリー構造のトポロジにおいて実行した場合の経路競合を示す図である。図６は、ファットツリー構造のトポロジにおいて実行した場合の経路競合を示す図である。図７は、本実施の形態のラテン方陣ファットツリーシステムの概要を示す図である。図８は、有限射影平面を示す図である。図９は、本実施の形態におけるラテン方陣ファットツリーシステムを別の形態で示す図である。図１０は、インフィニバンドのネットワークにおけるルーティングについて説明するための図である。図１１は、管理装置の機能ブロック図である。図１２は、サーバの機能ブロック図である。図１３は、管理装置が実行する処理の処理フローを示す図である。図１４は、第１生成処理の処理フローを示す図である。図１５は、第１の通信表にて実現されるリデュースについて説明するための図である。図１６は、第１の通信表にて実現されるリデュースについて説明するための図である。図１７は、第１の通信表にて実現されるリデュースについて説明するための図である。図１８は、第１の通信表の一例を示す図である。図１９は、第２生成処理の処理フローを示す図である。図２０は、第２の通信表にて実現されるリデュースについて説明するための図である。図２１は、第２の通信表にて実現されるリデュースについて説明するための図である。図２２は、第２の通信表にて実現されるリデュースについて説明するための図である。図２３は、第２の通信表の一例を示す図である。図２４は、第３生成処理の処理フローを示す図である。図２５は、Ｌｅａｆスイッチに接続されるサーバ間でのオールリデュースについて説明するための図である。図２６は、Ｌｅａｆスイッチに接続されるサーバ間でのオールリデュースについて説明するための図である。図２７は、Ｌｅａｆスイッチに接続されるサーバ間でのオールリデュースについて説明するための図である。図２８は、Ｌｅａｆスイッチに接続されるサーバ間でのオールリデュースについて説明するための図である。図２９は、Ｌｅａｆスイッチに接続されるサーバ間でのオールリデュースについて説明するための図である。図３０は、代表スイッチに接続されるサーバ間でのオールリデュースについて説明する。図３１は、代表スイッチに接続されるサーバ間でのオールリデュースについて説明する。図３２は、代表スイッチに接続されるサーバ間でのオールリデュースについて説明する。図３３は、第３の通信表の一例を示す図である。図３４は、第４生成処理の処理フローを示す図である。図３５は、第４の通信表にて実現される結果配布について説明するための図である。図３６は、第４の通信表にて実現される結果配布について説明するための図である。図３７は、第４の通信表の一例を示す図である。図３８は、第５生成処理の処理フローを示す図である。図３９は、第５の通信表にて実現される結果配布について説明するための図である。図４０は、第５の通信表にて実現される結果配布について説明するための図である。図４１は、第５の通信表にて実現される結果配布について説明するための図である。図４２は、第５の通信表の一例を示す図である。図４３は、サーバが実行する処理の処理フローを示す図である。図４４は、サーバが実行する処理の処理フローを示す図である。図４５は、サーバが実行する処理の処理フローを示す図である。図４６は、ラテン方陣ファットツリーおよび有限射影平面について説明するための図である。図４７は、ラテン方陣ファットツリーおよび有限射影平面について説明するための図である。図４８は、ラテン方陣ファットツリーおよび有限射影平面について説明するための図である。図４９は、ラテン方陣ファットツリーおよび有限射影平面について説明するための図である。図５０は、コンピュータの機能ブロック図である。図５１は、スイッチの機能ブロック図である。

図１乃至図４は、オールリデュース通信について説明するための図である。図１においては、サーバｎ０が値「４」を持っており、サーバｎ１が値「８」を持っており、サーバｎ２が値「１」を持っており、サーバｎ３が値「５」を持っており、サーバｎ４が値「６」を持っており、サーバｎ５が値「３」を持っている。オールリデュースにおいて指定された演算が「加算」である場合、サーバｎ０乃至ｎ５はそれぞれ値「２７」を持つことになる。

図１の右側に示した状態を実現するためのオールリデュース通信は、例えば図２及び図３に示すように行われる。まず、図２（ａ）に示すように、サーバｎ０とサーバｎ３との間で値が共有されて加算により値「９」が算出され、サーバｎ１とサーバｎ４との間で値が共有されて加算により値「１４」が算出され、サーバｎ２とサーバｎ５との間で値が共有されて加算により値「４」が算出される。

そして、図２（ｂ）に示すように、サーバｎ０とサーバｎ１との間で値が共有されて加算により値「２３」が算出され、サーバｎ３とサーバｎ４との間で値が共有されて加算により値「２３」が算出される。

そして、図３（ａ）に示すように、サーバｎ１とサーバｎ２との間で値が共有されて加算により値「２７」が算出され、サーバｎ４とサーバｎ５との間で値が共有されて加算により値「２７」が算出される。

最後に、図３（ｂ）に示すように、サーバｎ１がサーバｎ０に値「２７」を送信し、サーバｎ４がサーバｎ３に値「２７」を送信する。これにより、図３（ｂ）に示すように、サーバｎ０乃至ｎ５が値「２７」を持つことができる。

ここで、対象はサーバｎ０乃至ｎ５の全てでなくてもよく、サーバｎ０乃至ｎ５のうち一部のサーバを対象としてもよい。一例として、サーバｎ０、ｎ１、ｎ３及びｎ４を対象とする場合のオールリデュース通信について説明する。まず、図４（ａ）に示すように、サーバｎ０とサーバｎ３との間で値が共有されて加算により値「９」が算出され、サーバｎ１とサーバｎ４との間で値が共有されて加算により値「１４」が算出される。

そして、図４（ｂ）に示すように、サーバｎ０とサーバｎ１との間で値が共有されて加算により値「２３」が算出され、サーバｎ３とサーバｎ４との間で値が共有されて加算により値「２３」が算出される。これにより、サーバｎ０、ｎ１、ｎ３及びｎ４が値「２３」を持つことができる。

本実施の形態においては、このようなオールリデュース通信をラテン方陣ファットツリーシステムにおける全サーバにより実行する場合に経路競合が発生しないようにすることを考える。ここで、経路競合とは、１つの経路の同一方向に同時に複数のパケットが送信されることを意味し、経路競合の発生により通信時間が長くなる。例として、図５に、オールリデュース通信を一般的なツリー構造のトポロジにおいて実行した場合の経路競合を示す。図５において、丸の図形はサーバを表し、ハッチングされていない正方形の図形はＬｅａｆスイッチを表し、ハッチングされた正方形の図形はＳｐｉｎｅスイッチを表す。図５において、経路Ｒ１において経路競合が発生し、経路Ｒ２においても経路競合が発生する。このケースにおいては、例えば図６に示すように、ツリー構造をファットツリー構造に変えることで経路競合を回避することが可能であるが、ファットツリー構造を採用すると総スイッチ数は図５の例よりも多くなる。

図７は、本実施の形態のラテン方陣ファットツリーシステム１０００を示す図である。本実施の形態においては、１３台のＳｐｉｎｅスイッチと、１３台のＬｅａｆスイッチとの接続形態がラテン方陣ファットツリーである。各Ｌｅａｆスイッチには４台のサーバが接続されているので、ラテン方陣ファットツリーシステム１０００は、並列分散処理を実行する５２台のサーバを有する。Ｓｐｉｎｅスイッチ及びＬｅａｆスイッチは、例えばインフィニバンドスイッチである。サーバは、例えば、物理サーバである。以下では、Ｌｅａｆスイッチに接続されるサーバの数をｄとする。本実施の形態においてはｄ＝４である。

なお、図７の例においてはＳｐｉｎｅスイッチの数及びＬｅａｆスイッチの数は１３であるが、１３以外であってもよい。他の例については、付録を参照されたい。

図７において、各Ｓｐｉｎｅスイッチ及び各Ｌｅａｆスイッチには、図７に示したラテン方陣ファットツリーに対応する有限射影平面の点を表す文字列が付されている。図８は、図７に示したラテン方陣ファットツリーに対応する有限射影平面を示す図である。図８に示した有限射影平面の位数ｎは３であり、Ｓｐｉｎｅスイッチ及びＬｅａｆスイッチのポート数は８である。点はＬｅａｆスイッチを表し、直線はＳｐｉｎｅスイッチを表す。図７に示したように格子部分を定めた場合において、ＬｅａｆスイッチＰ、ＬｅａｆスイッチＰ（０）、ＬｅａｆスイッチＰ（１）及びＬｅａｆスイッチＰ（２）は無限遠点に相当する。なお、有限射影平面については付録を参照されたい。

図９は、本実施の形態におけるラテン方陣ファットツリーシステム１０００を別の形態で示す図である。図９において、正方形の図形はＬｅａｆスイッチを表し、直線はＳｐｉｎｅスイッチを表す。ＬｅａｆスイッチＰ、ＬｅａｆスイッチＰ（２，０）、ＬｅａｆスイッチＰ（２，１）及びＬｅａｆスイッチＰ（２，２）をつなぐ直線はＳｐｉｎｅスイッチＬ（２）に相当する。ＬｅａｆスイッチＰ、ＬｅａｆスイッチＰ（１，０）、ＬｅａｆスイッチＰ（１，１）及びＬｅａｆスイッチＰ（１，２）をつなぐ直線はＳｐｉｎｅスイッチＬ（１）に相当する。ＬｅａｆスイッチＰ、ＬｅａｆスイッチＰ（０，０）、ＬｅａｆスイッチＰ（０，１）及びＬｅａｆスイッチＰ（０，２）をつなぐ直線はＳｐｉｎｅスイッチＬ（０）に相当する。ＬｅａｆスイッチＰ、ＬｅａｆスイッチＰ（０）、ＬｅａｆスイッチＰ（１）及びＬｅａｆスイッチＰ（２）をつなぐ直線はＳｐｉｎｅスイッチＬに相当する。ＳｐｉｎｅスイッチＬ（０，０）、ＳｐｉｎｅスイッチＬ（０，１）、ＳｐｉｎｅスイッチＬ（０，２）、ＳｐｉｎｅスイッチＬ（１，０）、ＳｐｉｎｅスイッチＬ（１，１）、ＳｐｉｎｅスイッチＬ（１，２）、ＳｐｉｎｅスイッチＬ（２，０）、ＳｐｉｎｅスイッチＬ（２，１）及びＳｐｉｎｅスイッチＬ（２，２）の記載は省略されている。説明をわかりやすくするため、以下では、図９に示した形態のラテン方陣ファットツリーについて通信の説明を行う。

本実施の形態のラテン方陣ファットツリーシステム１０００においては、経路競合を回避するため、規則的且つ固定的なルーティングが行われるインフィニバンドのネットワークが利用される。図１０を用いて、インフィニバンドのネットワークにおけるルーティングについて説明する。図１０において、丸の図形はサーバを表し、正方形の図形はスイッチを表す。線分はインフィニバンドのリンクを表し、線分の傍にある文字列は宛先のサーバの識別情報を表す。太い実線の矢印は通信経路を表す。

図１０の例においては、サーバＮ３が、宛先がサーバＮ１であるパケットを送信する。パケットのヘッダには、宛先の識別情報（例えばＬＩＤ（Local IDentifier））が含まれる。各スイッチにおける各出力ポートには宛先のサーバの識別情報が対応付けられているので、各スイッチは、パケットに含まれる宛先の識別情報に対応する出力ポートにパケットを出力する。図１０の例では、パケットはスイッチＳＷ１、スイッチＳＷ２及びスイッチＳＷ４を経由してサーバＮ１に到達する。

このように、本実施の形態のネットワークは、イーサネット（登録商標）のように自動的に経路が決定されるネットワークではなく、規則的且つ固定的なルーティングが行われるネットワークである。

なお、上記の識別情報とは別に、各サーバには番号が割り振られているとする。具体的には、各Ｌｅａｆスイッチに接続される４台の各サーバには、０から３までのいずれかの番号が割り当てられ、各Ｌｅａｆスイッチには「０」が割り振られたサーバと「１」が割り振られたサーバと「２」が割り振られたサーバと「３」が割り振られたサーバとが接続される。

以下では、ＬｅａｆスイッチＰを代表スイッチと呼ぶ。代表スイッチ以外の各Ｌｅａｆスイッチに接続される４台のサーバのうち「０」が割り当てられたサーバを代表サーバと呼ぶ。

図１１に示すように、ラテン方陣ファットツリーシステム１０００は管理装置３に管理ＬＡＮ（Local Area Network）等で接続され、ラテン方陣ファットツリーシステム１０００における通信は管理装置３により管理される。管理装置３は、通信表生成部３０１と、通信表格納部３０３と、トポロジデータ格納部３０５とを有する。

通信表生成部３０１は、トポロジデータ格納部３０５に格納されている、ラテン方陣ファットツリーシステム１０００のネットワークトポロジの情報に基づき、第１乃至第５の通信表を生成し、生成された第１乃至第５の通信表を通信表格納部３０３に格納する。通信表生成部３０１は、通信表格納部３０３に格納された第１乃至第５の通信表を、所定のタイミングで又はリクエストに応じて、ラテン方陣ファットツリーシステム１０００における各サーバに送信する。

図１２は、サーバの機能ブロック図である。サーバは、処理部１０１と、通信表格納部１０３とを有する。処理部１０１は、第１通信部１０１１と、第２通信部１０１３と、第３通信部１０１５と、第４通信部１０１７と、第５通信部１０１９とを有する。

通信表格納部１０３には、管理装置３から受信した第１乃至第５の通信表が格納される。第１通信部１０１１は、通信表格納部１０３に格納された第１の通信表に従って通信を行う。第２通信部１０１３は、通信表格納部１０３に格納された第２の通信表に従って通信を行う。第３通信部１０１５は、通信表格納部１０３に格納された第３の通信表に従って通信を行う。第４通信部１０１７は、通信表格納部１０３に格納された第４の通信表に従って通信を行う。第５通信部１０１９は、通信表格納部１０３に格納された第５の通信表に従って通信を行う。

次に、図１３乃至図４２を用いて、管理装置３が実行する処理について説明する。

管理装置３における通信表生成部３０１は、ラテン方陣ファットツリーシステム１０００のネットワークトポロジの情報をトポロジデータ格納部３０５から読み出す（図１３：ステップＳ１）。ネットワークトポロジの情報は、例えば、Ｓｐｉｎｅスイッチ、Ｌｅａｆスイッチ及びサーバの接続関係の情報等を含む。

通信表生成部３０１は、ステップＳ１において読み出したネットワークトポロジの情報に基づき、第１の通信表を生成する処理である第１生成処理を実行する（ステップＳ３）。第１生成処理については後で説明する。

通信表生成部３０１は、ステップＳ１において読み出したネットワークトポロジの情報に基づき、第２の通信表を生成する処理である第２生成処理を実行する（ステップＳ５）。第２生成処理については後で説明する。

通信表生成部３０１は、ステップＳ１において読み出したネットワークトポロジの情報に基づき、第３の通信表を生成する処理である第３生成処理を実行する（ステップＳ７）。第３生成処理については後で説明する。

通信表生成部３０１は、ステップＳ１において読み出したネットワークトポロジの情報に基づき、第４の通信表を生成する処理である第４生成処理を実行する（ステップＳ９）。第４生成処理については後で説明する。

通信表生成部３０１は、ステップＳ１において読み出したネットワークトポロジの情報に基づき、第５の通信表を生成する処理である第５生成処理を実行する（ステップＳ１１）。そして処理は終了する。第５生成処理については後で説明する。

そして、通信表生成部３０１は、通信表格納部３０３に格納された第１乃至第５の通信表を読み出し、読み出した第１乃至第５の通信表をラテン方陣ファットツリーシステム１０００における各サーバに送信する（ステップＳ１３）。そして処理は終了する。

以上のような処理を実行すれば、各サーバは第１乃至第５の通信表に従って適切な手順で通信を実行できるようになる。

図１４乃至図１８を用いて、第１生成処理について説明する。図１４は、第１生成処理の処理フローを示す図である。

通信表生成部３０１は、代表スイッチ以外の各Ｌｅａｆスイッチでのリデュースの各フェーズで通信を実行するサーバの識別情報を含む第１の通信表を生成する（図１４：ステップＳ２１）。

なお、リデュース通信とは対象の全ノードが持つデータを用いて実行した演算の結果をいずれか１台のノードが持つための通信のことであり、リデュースとは、その演算のことである。第１の通信表にて実現されるリデュースでは、代表スイッチ以外の各Ｌｅａｆスイッチの代表サーバが結果を持つように通信が行われる。

図１５乃至図１７を用いて、第１の通信表にて実現されるリデュースについて説明する。図１５乃至図１７には、一例として、ＬｅａｆスイッチＰ（２，２）と、ＬｅａｆスイッチＰ（２，２）に接続される４台のサーバとが示されており、最も左に位置するサーバは代表サーバである。ここでは、代表サーバの識別情報はｎ２２１であり、値「２」を持つサーバの識別情報はｎ２２２であり、値「３」を持ち且つ代表サーバではないサーバの識別情報はｎ２２３であり、値「１」を持つサーバの識別情報はｎ２２４であるとする。はじめに、図１５に示すように、サーバｎ２２２は値「２」を代表サーバ（すなわちサーバｎ２２１）に送信し、並行してサーバｎ２２４は値「１」をサーバｎ２２３に送信する。代表サーバ及びサーバｎ２２３は演算（ここでは加算）を実行する。

すると、図１６に示すように、代表サーバは値「５」を持ち、サーバｎ２２３は値「４」を持つ。そして、サーバｎ２２３は値「４」を代表サーバに送信する。代表サーバは演算を実行する。

すると、図１７に示すように、代表サーバは、元の４つの数の合計に相当する値「９」を持つ。以上のようにしてリデュースが実現される。フェーズ数は２であり且つサーバ数ｄは４であるので、Ｏ（ｌｏｇ（ｄ））フェーズでリデュースが実現されている。対数の底は２である。いずれのフェーズにおいても、複数のパケットが同じ方向に同時に送信されるリンクは存在しないので、経路競合は発生していない。

図１８は、第１の通信表の一例を示す図である。図１８においては、Ｌｅａｆスイッチに接続されるサーバ間で実行される通信の通信情報がＬｅａｆスイッチ毎に格納されている。例えばフェーズ１においては、ＬｅａｆスイッチＰ（２，２）において、サーバｎ２２２からサーバｎ２２１への送信と、サーバｎ２２４からサーバｎ２２３への送信とが並行して行われる。また、ＬｅａｆスイッチＰ（２，１）において、サーバｎ２１２からサーバｎ２１１への送信と、サーバｎ２１４からサーバｎ２１３への送信とが並行して行われる。

図１４の説明に戻り、通信表生成部３０１は、ステップＳ２１において生成された第１の通信表を通信表格納部３０３に格納する（ステップＳ２３）。そして処理は呼び出し元に戻る。

次に、図１９乃至図２３を用いて、第２生成処理について説明する。図１９は、第２生成処理の処理フローを示す図である。

通信表生成部３０１は、代表スイッチに接続される各サーバと当該サーバに対応するグループに属するスイッチに接続される代表サーバとの間で行われるリデュースの各フェーズで通信を実行するサーバの識別情報を含む第２の通信表を生成する（図１９：ステップＳ３１）。第２の通信表で実現されるオールリデュースにおいては、代表スイッチに接続される各サーバがリデュースの結果を持つように通信が行われる。

なお、代表スイッチ以外の各Ｌｅａｆスイッチは、図８において同じ直線上に配置される（すなわち、同じＳｐｉｎｅスイッチに接続される）他のＬｅａｆスイッチと同じグループに属し、各グループは、代表スイッチに接続されるサーバのうち１台のサーバに対応する。図８における直線には予め番号（０から３（＝ｄ−１）まで）が割り振られており、各直線には他の直線とは異なる番号が割り振られる。よって、各直線（すなわち、各グループ）に対して、代表スイッチに接続されるサーバのうち同じ番号を有するサーバを対応付けることができる。

図２０乃至図２２を用いて、第２の通信表にて実現されるリデュースについて説明する。図２０は、代表スイッチ以外のＬｅａｆスイッチに接続される代表サーバが持つ値を示す図である。図２０において、代表スイッチ以外の各Ｌｅａｆスイッチ内の数字が、当該Ｌｅａｆスイッチに接続される代表サーバが持つ値を表す。

図２１は、第２の通信表にて実現されるリデュースにおけるデータの流れを示す図である。図２１においては、ＬｅａｆスイッチＰ（０）、ＬｅａｆスイッチＰ（１）及びＬｅａｆスイッチＰ（２）が属するグループが、代表スイッチに接続されるサーバのうち値「１」を持つサーバに対応付けられている。ＬｅａｆスイッチＰ（０，０）、ＬｅａｆスイッチＰ（０，１）及びＬｅａｆスイッチＰ（０，２）が属するグループが、代表スイッチに接続されるサーバのうち値「４」を持つサーバに対応付けられている。ＬｅａｆスイッチＰ（１，０）、ＬｅａｆスイッチＰ（１，１）及びＬｅａｆスイッチＰ（１，２）が属するグループが、代表スイッチに接続されるサーバのうち値「２」を持つサーバに対応付けられている。ＬｅａｆスイッチＰ（２，０）、ＬｅａｆスイッチＰ（２，１）及びＬｅａｆスイッチＰ（２，２）が属するグループが、代表スイッチに接続されるサーバのうち値「３」を持つサーバに対応付けられている。

図２１の例の場合、フェーズ数は２である。例えば、ＬｅａｆスイッチＰ（０）、ＬｅａｆスイッチＰ（１）及びＬｅａｆスイッチＰ（２）が属するグループに着目する。フェーズ１においては、ＬｅａｆスイッチＰ（０）に接続される代表サーバから値「１」を持つサーバへの送信と、ＬｅａｆスイッチＰ（２）に接続される代表サーバからＬｅａｆスイッチＰ（１）に接続される代表サーバへの送信とが並行して行われる。フェーズ２においては、ＬｅａｆスイッチＰ（１）に接続される代表サーバから値「２」（＝１＋１）を持つサーバへの送信が行われる。これにより、リデュースが実現される。その他のグループも同様である。フェーズ数は２であり且つサーバ数ｄは４であるので、Ｏ（ｌｏｇ（ｄ））のフェーズでリデュースが実現されている。いずれのフェーズにおいても、複数のパケットが同じ方向に同時に送信されるリンクは存在しないので、経路競合は発生していない。

図２２は、第２の通信表に従って実行されるリデュースの結果を示す図である。図２２において、代表スイッチに接続されるサーバのうち、ＬｅａｆスイッチＰ（０）、ＬｅａｆスイッチＰ（１）及びＬｅａｆスイッチＰ（２）が属するグループに対応するサーバは、値「１３」（＝１＋１＋３＋８）を持つ。代表スイッチに接続されるサーバのうち、ＬｅａｆスイッチＰ（０，０）、ＬｅａｆスイッチＰ（０，１）及びＬｅａｆスイッチＰ（０，２）が属するグループに対応するサーバは、値「１６」（＝４＋３＋７＋２）を持つ。代表スイッチに接続されるサーバのうち、ＬｅａｆスイッチＰ（１，０）、ＬｅａｆスイッチＰ（１，１）及びＬｅａｆスイッチＰ（１，２）が属するグループに対応するサーバは、値「１２」（＝２＋５＋４＋１）を持つ。代表スイッチに接続されるサーバのうち、ＬｅａｆスイッチＰ（２，０）、ＬｅａｆスイッチＰ（２，１）及びＬｅａｆスイッチＰ（２，２）が属するグループに対応するサーバは、値「２０」（＝３＋２＋６＋９）を持つ。

図２３は、第２の通信表の一例を示す図である。図２３においては、代表サーバが実行する通信の通信情報がグループ毎に格納されている。例えばフェーズ１においては、ＳｐｉｎｅスイッチＬ（２）に接続されるＬｅａｆスイッチが属するグループについて、サーバｎ２０１からサーバｎ４への送信と、サーバｎ２２１からサーバｎ２１１への送信とが並行して行われる。また、ＳｐｉｎｅスイッチＬ（１）に接続されるＬｅａｆスイッチが属するグループについて、サーバｎ１０１からサーバｎ３への送信と、サーバｎ１２１からサーバｎ１１１への送信とが並行して行われる。

図１９の説明に戻り、通信表生成部３０１は、ステップＳ３１において生成された第２の通信表を通信表格納部３０３に格納する（ステップＳ３３）。そして処理は呼び出し元に戻る。

次に、図２４乃至図３３を用いて、第３生成処理について説明する。図２４は、第３生成処理の処理フローを示す図である。

通信表生成部３０１は、代表スイッチに接続されるサーバ間で行われるオールリデュースの各フェーズで通信を実行するサーバの識別情報を含む第３の通信表を生成する（図２４：ステップＳ４１）。

図２５乃至図２９は、Ｌｅａｆスイッチに接続されるサーバ間でのオールリデュースについて説明するための図である。図２５乃至図２９において、正方形の図形はＬｅａｆスイッチを表し、丸の図形はサーバを表し、Ｌｅａｆスイッチとサーバとを結ぶ線分はリンクを表す。サーバに付された数字はサーバが持つ値を表す。

まず、図２５及び図２６を用いて、Ｌｅａｆスイッチに接続されるサーバの数が偶数（ここでは、２の冪である４）である場合について説明する。

例えば、図２５（ａ）に示すように、４台のサーバがそれぞれ「３」、「７」、「８」、「５」を持つとする。この場合、２台のサーバを含むペアの各々において値が共有され、値の演算（ここでは加算）が行われる。ここでは、１つの経路の同一方向に同時に複数のパケットが送信されることはないので、経路競合は発生しない。

すると、図２５（ｂ）に示すように、２台のサーバが値「１０」を持ち、残りの２台のサーバが値「１３」を持つ。そして、値「１０」を持つサーバと値「１３」を持つサーバとを含む各ペアにおいて値が共有され、値の演算（ここでは加算）が行われる。ここでは、１つの経路の同一方向に同時に複数のパケットが送信されることはないので、経路競合は発生しない。

これにより、最終的には図２６に示すように各サーバが値「２３」を持つ。

次に、図２７乃至図２９を用いて、Ｌｅａｆスイッチに接続されるサーバの数が奇数（ここでは５）である場合について説明する。

例えば、図２７（ａ）に示すように、５台のサーバがそれぞれ「１」、「４」、「５」、「２」、「８」を持つとする。この場合、５台のうち２台のサーバにおいて値が共有され、値の演算（ここでは加算）が行われる。ここでは、１つの経路の同一方向に同時に複数のパケットが送信されることはないので、経路競合は発生しない。

すると、図２７（ｂ）に示すように、５台のサーバがそれぞれ「１」、「４」、「５」、「１０」、「１０」を持つ。そして、値「１」を持つサーバと値「４」を持つサーバとの間で値が共有され値の演算が行われ、値「５」を持つサーバと値「１０」を持つサーバとの間で値が共有され値の演算が行われる。ここでは、１つの経路の同一方向に同時に複数のパケットが送信されることはないので、経路競合は発生しない。

すると、図２８（ａ）に示すように、５台のサーバがそれぞれ「５」、「５」、「１５」、「１５」、「１０」を持つ。そして、値「５」を持つサーバと値「１５」を持つサーバとの間で値が共有され値の演算が行われ、値「５」を持つサーバと値「１５」を持つサーバとの間で値が共有され値の演算が行われる。ここでは、１つの経路の同一方向に同時に複数のパケットが送信されることはないので、経路競合は発生しない。

すると、図２８（ｂ）に示すように、５台のサーバがそれぞれ「２０」、「２０」、「２０」、「２０」、「１０」を持つ。そして、値「２０」を持つサーバが値「１０」を持つサーバに対して値「２０」を通知する。ここでは、１つの経路の同一方向に同時に複数のパケットが送信されることはないので、経路競合は発生しない。

すると、図２９に示すように、最終的に５台のサーバがそれぞれ値「２０」を持つようになる。

なお、サーバ数が上で述べた例以外の数である場合においても、基本的には同様の方法でオールリデュースを行うことができる。

ここで、ｎ台（ｎは自然数）のサーバの間でのオールリデュースを行う場合における通信表を生成する処理（以下、Ａｌｌｒｅｄｕｃｅ（ｎ）のように呼ぶ）について説明する。本実施の形態においては、再帰的な処理によって通信表が生成される。

（１）Ｌｅａｆスイッチに接続されるサーバの数ｎが１である場合、処理は終了する。

（２）Ｌｅａｆスイッチに接続されるサーバの数ｎが２である場合、２台のサーバの間での通信についての通信情報（具体的には、サーバのペアの情報）が通信表に書き込まれる。

（３）Ｌｅａｆスイッチに接続されるサーバの数ｎが奇数２ｍ＋１（ｍは自然数）である場合、ｎ台のサーバのうち２台のサーバ（サーバＳＰおよびサーバＳＱ）が選択され、サーバＳＰとサーバＳＱとの間でオールリデュース通信についての通信情報が通信表に書き込まれる。そして、サーバＳＰ及びサーバＳＱのうちいずれかのサーバと残りの（２ｍ−１）台のサーバと（つまり、２ｍ台のサーバ）について、Ａｌｌｒｅｄｕｃｅ（２ｍ）が呼び出される。そして、Ａｌｌｒｅｄｕｃｅ（２ｍ）の結果をサーバＳＰからサーバＳＱに伝えるための通信情報が通信表に書き込まれる。

（４）Ｌｅａｆスイッチに接続されるサーバの数が２ｍ（ｍは２以上の自然数）である場合、Ｌｅａｆスイッチはｍ台のグループとｍ台のグループとに分けられ、それぞれのグループについてＡｌｌｒｅｄｕｃｅ（ｍ）が呼び出されて同時並行で処理が進む。

以上のような処理を実行すれば、ｎ台のサーバの間でのオールリデュースを行う場合における通信表が生成される。図２５乃至図２９の説明から明らかなように、このような方法で生成された通信表に従ってオールリデュース通信が行われれば経路競合は発生しない。

以上の説明を踏まえ、代表スイッチに接続されるサーバ間でのオールリデュースについて説明する。図３０には、代表スイッチであるＬｅａｆスイッチＰと、代表スイッチに接続される４台のサーバとが示されている。図３０に示すように、フェーズ１においては、値「２０」を持つサーバと値「１２」を持つサーバとの間で値が共有され値の演算が行われ、値「１６」を持つサーバと値「１３」を持つサーバとの間で値が共有され値の演算が行われる。

図３１に示すように、フェーズ２においては、値「３２」を持つサーバと値「２９」を持つサーバとの間で値が共有され値の演算が行われ、値「３２」を持つサーバと値「２９」を持つサーバとの間で値が共有され値の演算が行われる。

以上の処理によって、図３２に示すように、各サーバが値「６１」を持つようになる。フェーズ数は２であり且つサーバ数ｄは４であるので、Ｏ（ｌｏｇ（ｄ））フェーズでオールリデュースが実現されている。

図３３は、第３の通信表の一例を示す図である。図３３においては、代表スイッチに接続されるサーバ間で行われる通信の通信情報が格納されている。括弧内の識別情報は通信を実行するサーバのペアの識別情報を表す。例えばフェーズ１においては、サーバｎ１とサーバｎ２との間で値が共有され値の演算が行われ、サーバｎ３とサーバｎ４との間で値が共有され値の演算が行われる。また、フェーズ２においては、サーバｎ１とサーバｎ３との間で値が共有され値の演算が行われ、サーバｎ２とサーバｎ４との間で値が共有され値の演算が行われる。

図２４の説明に戻り、通信表生成部３０１は、ステップＳ４１において生成された第３の通信表を通信表格納部３０３に格納する（ステップＳ４３）。そして処理は呼び出し元に戻る。

次に、図３４乃至図３７を用いて、第４生成処理について説明する。図３４は、第４生成処理の処理フローを示す図である。

通信表生成部３０１は、代表スイッチに接続される各サーバから当該サーバに対応するグループに属するＬｅａｆスイッチに接続される代表サーバへの結果配布における各フェーズにおいて通信を実行するサーバの識別情報を含む第４の通信表を生成する（図３４：ステップＳ５１）。結果配布とは、代表スイッチに接続される各サーバが持つオールリデュースの結果を、その結果を持たないサーバへ配布する処理である。

図３５及び図３６を用いて、第４の通信表にて実現される結果配布について説明する。図３５は、第４の通信表にて実現される結果配布におけるデータの流れを示す図である。図３５においては、代表スイッチに接続されるサーバのうち右から１番目のサーバは、ＬｅａｆスイッチＰ（０）、ＬｅａｆスイッチＰ（１）及びＬｅａｆスイッチＰ（２）が属するグループに対応付けられている。代表スイッチに接続されるサーバのうち右から２番目のサーバは、ＬｅａｆスイッチＰ（０，０）、ＬｅａｆスイッチＰ（０，１）及びＬｅａｆスイッチＰ（０，２）が属するグループに対応付けられている。代表スイッチに接続されるサーバのうち右から３番目のサーバは、ＬｅａｆスイッチＰ（１，０）、ＬｅａｆスイッチＰ（１，１）及びＬｅａｆスイッチＰ（１，２）が属するグループに対応付けられている。代表スイッチに接続されるサーバのうち右から４番目のサーバは、ＬｅａｆスイッチＰ（２，０）、ＬｅａｆスイッチＰ（２，１）及びＬｅａｆスイッチＰ（２，２）が属するグループに対応付けられている。

図３５の例の場合、フェーズ数は２である。例えば、代表スイッチに接続されるサーバのうち右から１番目のサーバに着目する。フェーズ１においては、代表スイッチに接続されるサーバのうち右から１番目のサーバがＬｅａｆスイッチＰ（１）に接続される代表サーバへ値「６１」を送信する。フェーズ２においては、代表スイッチに接続されるサーバのうち右から１番目のサーバがＬｅａｆスイッチＰ（０）に接続される代表サーバへ値「６１」を送信し、ＬｅａｆスイッチＰ（１）に接続される代表サーバがＬｅａｆスイッチＰ（２）に接続される代表サーバに値「６１」を送信する。

図３６は、第４の通信表に従って実行される結果配布の結果を示す図である。図３６において、各Ｌｅａｆスイッチ内の値は、そのＬｅａｆスイッチに接続される代表サーバが持つ値を示している。従って、ラテン方陣ファットツリーシステム１０００における各代表サーバがオールリデュースの結果を持つ。但し、この時点では、代表スイッチ以外の各Ｌｅａｆスイッチに接続されるサーバのうち代表サーバ以外のサーバはオールリデュースの結果を持たない。

図３７は、第４の通信表の一例を示す図である。図３７においては、代表スイッチに接続されるサーバが実行する通信の通信情報がグループ毎に格納されている。例えばフェーズ１においては、ＳｐｉｎｅスイッチＬ（２）に接続されるＬｅａｆスイッチが属するグループの代表サーバであるサーバｎ２１１に対して、サーバｎ４が値を送信する。また、ＳｐｉｎｅスイッチＬ（１）に接続されるＬｅａｆスイッチが属するグループの代表サーバであるサーバｎ１１１に対して、サーバｎ３が値を送信する。

以上のようにして第４の通信表による結果配布が実現される。フェーズ数は２であり且つサーバ数ｄは４であるので、Ｏ（ｌｏｇ（ｄ））フェーズで第４の通信表による結果配布が実現されている。いずれのフェーズにおいても、複数のパケットが同じ方向に同時に送信されるリンクは存在しないので、経路競合は発生していない。

図３４の説明に戻り、通信表生成部３０１は、ステップＳ５１において生成された第４の通信表を通信表格納部３０３に格納する（ステップＳ５３）。そして処理は呼び出し元に戻る。

次に、図３８乃至図４２を用いて、第５生成処理について説明する。図３８は、第５生成処理の処理フローを示す図である。

通信表生成部３０１は、各代表サーバから当該代表サーバと同じＬｅａｆスイッチに接続される他サーバへの結果配布における各フェーズで通信を実行するサーバの識別情報を含む第５の通信表を生成する（図３８：ステップＳ６１）。

図３９乃至図４１を用いて、第５の通信表にて実現される結果配布について説明する。図３９乃至図４１には、一例として、ＬｅａｆスイッチＰ（２，２）とＬｅａｆスイッチＰ（２，２）に接続される４台のサーバとが示されており、最も左に位置するサーバは代表サーバである。ここでは、代表サーバの識別情報はｎ２２１であり、値「２」を持つサーバの識別情報はｎ２２２であり、値「４」を持つサーバの識別情報はｎ２２３であり、値「１」を持つサーバの識別情報はｎ２２４であるとする。はじめに、図３９に示すように、代表サーバは値「６１」をサーバｎ２２３に送信する。

すると、図４０に示すように、代表サーバ及びサーバｎ２２３は値「６１」を持ち、サーバｎ２２２は値「２」を持ち、サーバｎ２２４は値「１」を持つ。そして、図４０に示すように、代表サーバは値「６１」をサーバｎ２２２に送信し、サーバｎ２２３は値「６１」をサーバｎ２２４に送信する。

すると、図４１に示すように、各サーバはオールリデュースの結果である値「６１」を持つ。以上のようにして第５の通信表による結果配布が実現される。フェーズ数は２であり且つサーバ数ｄは４であるので、Ｏ（ｌｏｇ（ｄ））フェーズで第５の通信表による結果配布が実現されている。いずれのフェーズにおいても、複数のパケットが同じ方向に同時に送信されるリンクは存在しないので、経路競合は発生していない。

図４２は、第５の通信表の一例を示す図である。図４２においては、Ｌｅａｆスイッチに接続されるサーバ間で行われる通信の通信情報がＬｅａｆスイッチ毎に格納されている。例えばフェーズ１においては、ＬｅａｆスイッチＰ（２，２）において、サーバｎ２２１からサーバｎ２２３への送信が行われる。また、フェーズ２においては、サーバｎ２２１からサーバｎ２２２への送信と、サーバｎ２２３からサーバｎ２２４への送信とが並行して行われる。

図３８の説明に戻り、通信表生成部３０１は、ステップＳ６１において生成された第５の通信表を通信表格納部３０３に格納する（ステップＳ６３）。そして処理は呼び出し元に戻る。

次に、図４３乃至図４５を用いて、サーバが実行する処理について説明する。本処理は、第１乃至第５の通信表を管理装置３から受信した各サーバが実行する処理である。

図４３は、サーバが実行する処理の処理フローを示す図である。

サーバにおける第１通信部１０１１は、フェーズ番号を表す変数に１を設定する（図４３：ステップＳ７１）。

第１通信部１０１１は、通信表格納部１０３に格納されている第１の通信表から、フェーズｉの通信情報を特定する（ステップＳ７３）。

第１通信部１０１１は、自サーバ（すなわち、本処理を実行しているサーバ）がフェーズｉにおいて通信を実行するか判定する（ステップＳ７５）。自サーバがフェーズｉにおいて通信を実行するか否かは、特定された通信情報に自サーバの識別情報が含まれているか否かにより判定される。

自サーバがフェーズｉにおいて通信を実行しない場合（ステップＳ７５：Ｎｏルート）、処理はステップＳ７９に移行する。一方、自サーバがフェーズｉにおいて通信を実行する場合（ステップＳ７５：Ｙｅｓルート）、第１通信部１０１１は、ステップＳ７３において特定された通信情報に従って通信を実行する（ステップＳ７７）。

上で述べたように、第１の通信表に従って行われる通信は、同一のＬｅａｆスイッチに接続されるサーバ間でのリデュース通信であり、他のサーバから値を受信したサーバはリデュースに係る演算を実行する。

第１通信部１０１１は、ｉ＝ｉ_max1が成立するか判定する（ステップＳ７９）。ｉ_max1は、第１の通信表に従って行われる通信のフェーズ番号の最大値である。ｉ＝ｉ_max1が成立しない場合（ステップＳ７９：Ｎｏルート）、第１通信部１０１１は、ｉを１インクリメントする（ステップＳ８１）。そして処理はステップＳ７３に移行する。なお、フェーズの終了はバリア同期によって確認される。

一方、ｉ＝ｉ_max1が成立する場合（ステップＳ７９：Ｙｅｓルート）、第２通信部１０１３は、フェーズ番号を表す変数に１を設定する（ステップＳ８３）。

第２通信部１０１３は、通信表格納部１０３に格納されている第２の通信表から、フェーズｉの通信情報を特定する（ステップＳ８５）。

第２通信部１０１３は、自サーバ（すなわち、本処理を実行しているサーバ）がフェーズｉにおいて通信を実行するか判定する（ステップＳ８７）。自サーバがフェーズｉにおいて通信を実行するか否かは、特定された通信情報に自サーバの識別情報が含まれているか否かにより判定される。

自サーバがフェーズｉにおいて通信を実行しない場合（ステップＳ８７：Ｎｏルート）、処理はステップＳ９１に移行する。一方、自サーバがフェーズｉにおいて通信を実行する場合（ステップＳ８７：Ｙｅｓルート）、第２通信部１０１３は、ステップＳ８５において特定された通信情報に従って通信を実行する（ステップＳ８９）。

上で述べたように、第２の通信表に従って行われる通信は、代表スイッチに接続される各サーバと当該サーバに対応するグループに属するＬｅａｆスイッチに接続される代表サーバとの間のリデュース通信であり、他のサーバから値を受信したサーバはリデュースに係る演算を実行する。

第２通信部１０１３は、ｉ＝ｉ_max2が成立するか判定する（ステップＳ９１）。ｉ_max2は、第２の通信表に従って行われる通信のフェーズ番号の最大値である。ｉ＝ｉ_max2が成立しない場合（ステップＳ９１：Ｎｏルート）、第２通信部１０１３は、ｉを１インクリメントする（ステップＳ９３）。そして処理はステップＳ８５に移行する。なお、フェーズの終了はバリア同期によって確認される。

一方、ｉ＝ｉ_max2が成立する場合（ステップＳ９１：Ｙｅｓルート）、処理は端子Ａを介して図４４のステップＳ９５に移行する。

図４４の説明に移行し、第３通信部１０１５は、フェーズ番号を表す変数に１を設定する（図４４：ステップＳ９５）。

第３通信部１０１５は、通信表格納部１０３に格納されている第３の通信表から、フェーズｉの通信情報を特定する（ステップＳ９７）。

第３通信部１０１５は、自サーバ（すなわち、本処理を実行しているサーバ）がフェーズｉにおいて通信を実行するか判定する（ステップＳ９９）。自サーバがフェーズｉにおいて通信を実行するか否かは、特定された通信情報に自サーバの識別情報が含まれているか否かにより判定される。

自サーバがフェーズｉにおいて通信を実行しない場合（ステップＳ９９：Ｎｏルート）、処理はステップＳ１０３に移行する。一方、自サーバがフェーズｉにおいて通信を実行する場合（ステップＳ９９：Ｙｅｓルート）、第３通信部１０１５は、ステップＳ９７において特定された通信情報に従って通信を実行する（ステップＳ１０１）。

上で述べたように、第３の通信表に従って行われる通信は、代表スイッチに接続されるサーバ間でのオールリデュース通信であり、各サーバはオールリデュースに係る演算を実行する。

第３通信部１０１５は、ｉ＝ｉ_max3が成立するか判定する（ステップＳ１０３）。ｉ_max3は、第３の通信表に従って行われる通信のフェーズ番号の最大値である。ｉ＝ｉ_max3が成立しない場合（ステップＳ１０３：Ｎｏルート）、第３通信部１０１５は、ｉを１インクリメントする（ステップＳ１０５）。そして処理はステップＳ９７に移行する。なお、フェーズの終了はバリア同期によって確認される。

一方、ｉ＝ｉ_max3が成立する場合（ステップＳ１０３：Ｙｅｓルート）、第４通信部１０１７は、フェーズ番号を表す変数に１を設定する（ステップＳ１０７）。

第４通信部１０１７は、通信表格納部１０３に格納されている第４の通信表から、フェーズｉの通信情報を特定する（ステップＳ１０９）。

第４通信部１０１７は、自サーバ（すなわち、本処理を実行しているサーバ）がフェーズｉにおいて通信を実行するか判定する（ステップＳ１１１）。自サーバがフェーズｉにおいて通信を実行するか否かは、特定された通信情報に自サーバの識別情報が含まれているか否かにより判定される。

自サーバがフェーズｉにおいて通信を実行しない場合（ステップＳ１１１：Ｎｏルート）、処理はステップＳ１１５に移行する。一方、自サーバがフェーズｉにおいて通信を実行する場合（ステップＳ１１１：Ｙｅｓルート）、第４通信部１０１７は、ステップＳ１０９において特定された通信情報に従って通信を実行する（ステップＳ１１３）。

上で述べたように、第４の通信表に従って行われる通信は、代表スイッチに接続される各サーバから当該サーバに対応するグループに属するＬｅａｆスイッチに接続される代表サーバへの結果配布である。

第４通信部１０１７は、ｉ＝ｉ_max4が成立するか判定する（ステップＳ１１５）。ｉ_max4は、第４の通信表に従って行われる通信のフェーズ番号の最大値である。ｉ＝ｉ_max4が成立しない場合（ステップＳ１１５：Ｎｏルート）、第４通信部１０１７は、ｉを１インクリメントする（ステップＳ１１７）。そして処理はステップＳ１０９に移行する。なお、フェーズの終了はバリア同期によって確認される。

一方、ｉ＝ｉ_max4が成立する場合（ステップＳ１１５：Ｙｅｓルート）、処理は端子Ｂを介して図４５のステップＳ１１９に移行する。

図４５の説明に移行し、第５通信部１０１９は、フェーズ番号を表す変数に１を設定する（図４５：ステップＳ１１９）。

第５通信部１０１９は、通信表格納部１０３に格納されている第５の通信表から、フェーズｉの通信情報を特定する（ステップＳ１２１）。

第５通信部１０１９は、自サーバ（すなわち、本処理を実行しているサーバ）がフェーズｉにおいて通信を実行するか判定する（ステップＳ１２３）。自サーバがフェーズｉにおいて通信を実行するか否かは、特定された通信情報に自サーバの識別情報が含まれているか否かにより判定される。

自サーバがフェーズｉにおいて通信を実行しない場合（ステップＳ１２３：Ｎｏルート）、処理はステップＳ１２７に移行する。一方、自サーバがフェーズｉにおいて通信を実行する場合（ステップＳ１２３：Ｙｅｓルート）、第５通信部１０１９は、ステップＳ１２１において特定された通信情報に従って通信を実行する（ステップＳ１２５）。

上で述べたように、第５の通信表に従って行われる通信は、各代表サーバから当該代表サーバと同じＬｅａｆスイッチに接続される他のサーバへの結果配布である。

第５通信部１０１９は、ｉ＝ｉ_max5が成立するか判定する（ステップＳ１２７）。ｉ_max5は、第５の通信表に従って行われる通信のフェーズ番号の最大値である。ｉ＝ｉ_max5が成立しない場合（ステップＳ１２７：Ｎｏルート）、第５通信部１０１９は、ｉを１インクリメントする（ステップＳ１２９）。そして処理はステップＳ１２１に移行する。なお、フェーズの終了はバリア同期によって確認される。

一方、ｉ＝ｉ_max5が成立する場合（ステップＳ１２７：Ｙｅｓルート）、処理は終了する。

以上のような処理を実行すれば、ラテン方陣ファットツリーシステム１０００の全サーバによるオールリデュースを実現することができるようになる。よって、より多くのサーバを必要とする並列分散処理をラテン方陣ファットツリーシステム１０００において実行することができるようになる。

上で述べたように、本実施の形態においては、オールリデュース通信の各過程において経路競合が発生することはない。

また、本実施の形態の方法であれば、Ｏ（ｌｏｇＮ）（Ｎはラテン方陣ファットツリーシステム１０００における全サーバの台数）程度の計算量でオールリデュースを実行することができるようになる。なお、本実施の形態においてはＮ＝５２である。

以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上で説明した管理装置３及びサーバの機能ブロック構成は実際のプログラムモジュール構成に一致しない場合もある。

また、上で説明した各テーブルの構成は一例であって、上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ処理の順番を入れ替えることも可能である。さらに、並列に実行させるようにしても良い。

また、上で述べた例においては、オールリデュース及びリデュースの演算として加算が行われるが、加算以外の演算（例えば乗算）が行われてもよい。

また、第１生成処理および第２生成処理においてはリデュースについての通信表を生成しているが、オールリデュースについての通信表を生成してもよい。

［付録］
本付録においては、ラテン方陣ファットツリーおよび有限射影平面について説明する。

有限射影平面とは、普通の平面に無限遠点をいくつか加え且つ「平行な２直線」をなくした平面に相当する。図４６に、位数（以下ｎとする）が２であり且つポート数が６（＝２（ｎ＋１））である場合の有限射影平面の構造を示す。図４６において、枠４８２で囲まれた３（＝ｎ＋１）台のＬｅａｆスイッチは無限遠点に相当する。

有限射影平面においては、１個の点Ｐが設定され、ｎ個の点Ｐ（ｃ）（ｃ＝０，１，．．．，ｎ−１）が設定され、ｎ²個の点Ｐ（ｃ，ｒ）（ｃ，ｒ＝０，１，．．．，ｎ−１）が設定される。また、１本の直線Ｌ＝｛Ｐ，Ｐ（０），．．．，Ｐ（ｎ−１）｝が設定され、ｎ本の直線Ｌ＝｛Ｐ，Ｐ（ｃ，０），．．．，Ｐ（ｃ，ｎ−１）｝（ｃ＝０，１，．．．，ｎ−１）が設定され、ｎ²本の直線Ｌ（ｃ，ｒ）＝｛Ｐ（ｃ）およびＰ（ｉ，（ｒ＋ｃｉ）ｍｏｄｎ）｝（ｉ，ｃ，ｒ＝０，１，．．．，ｎ−１）が設定される。

有限射影平面の特徴として、（ｎ²＋ｎ＋１）の点が存在し、直線の数は（ｎ²＋ｎ＋１）である。任意の２直線は１点で交わり、任意の２点を結ぶ直線がただ一つ存在する。但し、ｎは素数であるという制約がある。

有限射影平面の構造は、トポロジ構造に置き換えられる。例えば、図４７（ａ）に示した有限射影平面の構造は、図４７（ｂ）に示したトポロジ構造に置き換えられる。図４７（ａ）において、直線はＳｐｉｎｅスイッチを表し、点はＬｅａｆスイッチを表す。図４７（ｂ）において、ハッチングされた矩形はＳｐｉｎｅスイッチを表し、ハッチングされていない矩形はＬｅａｆスイッチを表す。

図４８（ａ）に示したトポロジ構造は、Ｓｐｉｎｅスイッチの数が７であり且つＬｅａｆスイッチの数が７であるラテン方陣ファットツリーのトポロジ構造であり、図４８（ｂ）に示した有限射影平面の構造に対応する。図４８（ａ）において太線で囲まれた部分のトポロジ構造は、図４７（ｂ）のトポロジ構造と同じである。また、図４８（ｂ）において太線で囲まれた部分の構造は、図４８（ａ）において太線で囲まれた部分のトポロジ構造に対応する。

図４６に示した構造は、図４９に示す構造に変換することができる。図４９において、ハッチングされた格子部分に含まれる４（＝ｎ＊ｎ）台のＬｅａｆスイッチは、図４６において枠４８１に囲まれた部分に含まれる４台のＬｅａｆスイッチに対応する。格子部分において平行な直線群は、追加の点において交わるように変換される。すなわち、傾きが等しい直線同士が交わるように変換される。

以上で付録を終了する。

なお、上で述べた管理装置３及びサーバは、コンピュータ装置であって、図５０に示すように、メモリ２５０１とＣＰＵ（Central Processing Unit）２５０３とハードディスク・ドライブ（ＨＤＤ：Hard Disk Drive）２５０５と表示装置２５０９に接続される表示制御部２５０７とリムーバブル・ディスク２５１１用のドライブ装置２５１３と入力装置２５１５とネットワークに接続するための通信制御部２５１７とがバス２５１９で接続されている。オペレーティング・システム（ＯＳ：Operating System）及び本実施例における処理を実施するためのアプリケーション・プログラムは、ＨＤＤ２５０５に格納されており、ＣＰＵ２５０３により実行される際にはＨＤＤ２５０５からメモリ２５０１に読み出される。ＣＰＵ２５０３は、アプリケーション・プログラムの処理内容に応じて表示制御部２５０７、通信制御部２５１７、ドライブ装置２５１３を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ２５０１に格納されるが、ＨＤＤ２５０５に格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク２５１１に格納されて頒布され、ドライブ装置２５１３からＨＤＤ２５０５にインストールされる。インターネットなどのネットワーク及び通信制御部２５１７を経由して、ＨＤＤ２５０５にインストールされる場合もある。このようなコンピュータ装置は、上で述べたＣＰＵ２５０３、メモリ２５０１などのハードウエアとＯＳ及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。

また、上で述べたＬｅａｆスイッチ及びＳｐｉｎｅスイッチは、図５１に示すように、メモリ２６０１とＣＰＵ２６０３とＨＤＤ２６０５と表示装置２６０９に接続される表示制御部２６０７とリムーバブル・ディスク２６１１用のドライブ装置２６１３と入力装置２６１５とネットワークに接続するための通信制御部２６１７（図５１では、２６１７ａ乃至２６１７ｃ）とがバス２６１９で接続されている構成の場合もある。なお、場合によっては、表示制御部２６０７、表示装置２６０９、ドライブ装置２６１３、入力装置２６１５は含まれない場合もある。オペレーティング・システム（ＯＳ：Operating System）及び本実施の形態における処理を実施するためのアプリケーション・プログラムは、ＨＤＤ２６０５に格納されており、ＣＰＵ２６０３により実行される際にはＨＤＤ２６０５からメモリ２６０１に読み出される。必要に応じてＣＰＵ２６０３は、表示制御部２６０７、通信制御部２６１７、ドライブ装置２６１３を制御して、必要な動作を行わせる。なお、通信制御部２６１７のいずれかを介して入力されたデータは、他の通信制御部２６１７を介して出力される。ＣＰＵ２６０３は、通信制御部２６１７を制御して、適切に出力先を切り替える。また、処理途中のデータについては、メモリ２６０１に格納され、必要があればＨＤＤ２６０５に格納される。本技術の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク２６１１に格納されて頒布され、ドライブ装置２６１３からＨＤＤ２６０５にインストールされる。インターネットなどのネットワーク及び通信制御部２６１７を経由して、ＨＤＤ２６０５にインストールされる場合もある。このようなコンピュータ装置は、上で述べたＣＰＵ２６０３、メモリ２６０１などのハードウエアとＯＳ及び必要なアプリケーション・プログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。

以上述べた本発明の実施の形態をまとめると、以下のようになる。

本実施の形態の第１の態様に係る情報処理システムは、接続形態がラテン方陣ファットツリーである複数のスイッチ（実施の形態におけるＬｅａｆスイッチは上記スイッチの一例である）と、複数のスイッチのいずれかにそれぞれ接続される複数の情報処理装置（実施の形態におけるサーバは上記情報処理装置の一例である）とを有する。そして、（Ａ）ラテン方陣ファットツリーに対応する有限射影平面における特定の１点に相当する第１スイッチ以外のスイッチに接続される情報処理装置の各々が、当該情報処理装置と同じスイッチに接続される他の情報処理装置との間で、当該同じスイッチに接続される情報処理装置のうち第１情報処理装置が結果を持つ第１リデュースを実行し、（Ｂ）第１スイッチに接続される情報処理装置の各々が、当該情報処理装置に対応するグループに属する各スイッチの第１情報処理装置との間で、当該情報処理装置が結果を持つ第２リデュースを実行し、（Ｃ）第１スイッチに接続される情報処理装置が、第２リデュースの結果に基づきオールリデュースを実行し、（Ｄ）第１スイッチに接続される情報処理装置の各々が、当該情報処理装置に対応するグループに属する各スイッチの第１情報処理装置に対して、オールリデュースの結果を送信し、（Ｅ）オールリデュースの結果を受信した第１情報処理装置の各々が、当該第１情報処理装置と同じスイッチに接続される他の情報処理装置に対して、オールリデュースの結果を送信する。

このようにすれば、ラテン方陣ファットツリーシステムにおける全情報処理装置が参加するオールリデュースを実行できるようになる。

また、特定の１点は、有限射影平面における無限遠点であってもよい。

また、有限射影平面において同一の直線上に有る複数の点に相当する複数のスイッチは、同じグループに属してもよい。

効率的に通信を行えるようになる。

また、第１スイッチ以外のスイッチにおける情報処理装置の各々が、（ａ１）第１リデュースの通信のフェーズのうち当該情報処理装置がデータを送信するフェーズにおいて、他の情報処理装置からの他のデータを受信しない情報処理装置に対してデータを送信してもよい。

このようにすれば、第１リデュースの通信において経路競合が発生することを防げるようになる。

また、第１スイッチに接続される情報処理装置の各々は、（ｂ１）第２リデュースの各フェーズにおいて、１台の第１情報処理装置からデータを受信してもよい。

このようにすれば、第２リデュースの通信において経路競合が発生することを防げるようになる。

また、第１スイッチに接続される情報処理装置の各々は、（ｃ１）オールリデュースの通信のフェーズのうち当該情報処理装置がデータを送信するフェーズにおいて、他の情報処理装置からの他のデータを受信しない情報処理装置に対してデータを送信してもよい。

このようにすれば、第１スイッチに接続される情報処理装置が実行するオールリデュースにおいて経路競合が発生することを防げるようになる。

また、第１のスイッチに接続される情報処理装置の各々は、（ｄ１）当該情報処理装置に対応するグループに属するスイッチの各第１情報処理装置に対してオールリデュースの結果を送信する通信の各フェーズにおいて、他の情報処理装置からの他のデータを受信しない情報処理装置に対してオールリデュースの結果を送信してもよい。

第１のスイッチに接続される情報処理装置から第１情報処理装置へオールリデュースの結果を送信する通信において経路競合が発生することを防げるようになる。

また、オールリデュースの結果を受信した第１情報処理装置の各々は、（ｅ１）当該第１情報処理装置と同じスイッチに接続される他の情報処理装置に対してオールリデュースの結果を送信する通信の各フェーズにおいて、他の情報処理装置からの他のデータを受信しない情報処理装置に対してオールリデュースの結果を送信してもよい。

第１情報処理装置から他の情報処理装置に対してオールリデュースの結果を送信する通信において経路競合が発生することを防げるようになる。

本実施の形態の第２の態様に係る情報処理方法は、接続形態がラテン方陣ファットツリーである複数のスイッチと、複数のスイッチのいずれかにそれぞれ接続される複数の情報処理装置とを有する情報処理システムにおいて実行される。そして、本情報処理方法は、（Ｆ）ラテン方陣ファットツリーに対応する有限射影平面における特定の１点に相当する第１スイッチ以外のスイッチに接続される情報処理装置の各々が、当該情報処理装置と同じスイッチに接続される他の情報処理装置との間で、当該同じスイッチに接続される情報処理装置のうち第１情報処理装置が結果を持つ第１リデュースを実行し、（Ｇ）第１スイッチに接続される情報処理装置の各々が、当該情報処理装置に対応するグループに属する各スイッチの第１情報処理装置との間で、当該情報処理装置が結果を持つ第２リデュースを実行し、（Ｈ）第１スイッチに接続される情報処理装置が、第２リデュースの結果に基づきオールリデュースを実行し、（Ｉ）第１スイッチに接続される情報処理装置の各々が、当該情報処理装置に対応するグループに属する各スイッチの第１情報処理装置に対して、オールリデュースの結果を送信し、（Ｊ）オールリデュースの結果を受信した第１情報処理装置の各々が、当該第１情報処理装置と同じスイッチに接続される他の情報処理装置に対して、オールリデュースの結果を送信する処理を含む。

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）
接続形態がラテン方陣ファットツリーである複数のスイッチと、
前記複数のスイッチのいずれかにそれぞれ接続される複数の情報処理装置と、
を有し、
前記ラテン方陣ファットツリーに対応する有限射影平面における特定の１点に相当する第１スイッチ以外のスイッチに接続される情報処理装置の各々が、当該情報処理装置と同じスイッチに接続される他の情報処理装置との間で、当該同じスイッチに接続される情報処理装置のうち第１情報処理装置が結果を持つ第１リデュースを実行し、
前記第１スイッチに接続される情報処理装置の各々が、当該情報処理装置に対応するグループに属する各スイッチの第１情報処理装置との間で、当該情報処理装置が結果を持つ第２リデュースを実行し、
前記第１スイッチに接続される情報処理装置が、前記第２リデュースの結果に基づきオールリデュースを実行し、
前記第１スイッチに接続される情報処理装置の各々が、当該情報処理装置に対応するグループに属する各スイッチの第１情報処理装置に対して、前記オールリデュースの結果を送信し、
前記オールリデュースの結果を受信した第１情報処理装置の各々が、当該第１情報処理装置と同じスイッチに接続される他の情報処理装置に対して、前記オールリデュースの結果を送信する、
情報処理システム。

（付記２）
前記特定の１点は、前記有限射影平面における無限遠点である、
付記１記載の情報処理システム。

（付記３）
前記有限射影平面において同一の直線上に有る複数の点に相当する複数のスイッチは、同じグループに属する、
付記１又は２記載の情報処理システム。

（付記４）
前記第１スイッチ以外のスイッチにおける情報処理装置の各々が、前記第１リデュースの通信のフェーズのうち当該情報処理装置がデータを送信するフェーズにおいて、他の情報処理装置からの他のデータを受信しない情報処理装置に対して前記データを送信する、
付記１乃至３のいずれか１つ記載の情報処理システム。

（付記５）
前記第１スイッチに接続される情報処理装置の各々は、前記第２リデュースの各フェーズにおいて、１台の第１情報処理装置からデータを受信する、
付記１乃至３のいずれか１つ記載の情報処理システム。

（付記６）
前記第１スイッチに接続される情報処理装置の各々は、前記オールリデュースの通信のフェーズのうち当該情報処理装置がデータを送信するフェーズにおいて、他の情報処理装置からの他のデータを受信しない情報処理装置に対して前記データを送信する、
付記１乃至３のいずれか１つ記載の情報処理システム。

（付記７）
前記第１のスイッチに接続される情報処理装置の各々は、当該情報処理装置に対応するグループに属するスイッチの各第１情報処理装置に対して前記オールリデュースの結果を送信する通信の各フェーズにおいて、他の情報処理装置からの他のデータを受信しない情報処理装置に対して前記オールリデュースの結果を送信する、
付記１乃至３のいずれか１つ記載の情報処理システム。

（付記８）
前記オールリデュースの結果を受信した第１情報処理装置の各々は、当該第１情報処理装置と同じスイッチに接続される他の情報処理装置に対して前記オールリデュースの結果を送信する通信の各フェーズにおいて、他の情報処理装置からの他のデータを受信しない情報処理装置に対して前記オールリデュースの結果を送信する、
付記１乃至３のいずれか１つ記載の情報処理システム。

（付記９）
接続形態がラテン方陣ファットツリーである複数のスイッチと、前記複数のスイッチのいずれかにそれぞれ接続される複数の情報処理装置とを有する情報処理システムにおいて実行される情報処理方法であって、
前記ラテン方陣ファットツリーに対応する有限射影平面における特定の１点に相当する第１スイッチ以外のスイッチに接続される情報処理装置の各々が、当該情報処理装置と同じスイッチに接続される他の情報処理装置との間で、当該同じスイッチに接続される情報処理装置のうち第１情報処理装置が結果を持つ第１リデュースを実行し、
前記第１スイッチに接続される情報処理装置の各々が、当該情報処理装置に対応するグループに属する各スイッチの第１情報処理装置との間で、当該情報処理装置が結果を持つ第２リデュースを実行し、
前記第１スイッチに接続される情報処理装置が、前記第２リデュースの結果に基づきオールリデュースを実行し、
前記第１スイッチに接続される情報処理装置の各々が、当該情報処理装置に対応するグループに属する各スイッチの第１情報処理装置に対して、前記オールリデュースの結果を送信し、
前記オールリデュースの結果を受信した第１情報処理装置の各々が、当該第１情報処理装置と同じスイッチに接続される他の情報処理装置に対して、前記オールリデュースの結果を送信する、
情報処理方法。

１０００ラテン方陣ファットツリーシステム
１０１処理部１０１１第１通信部
１０１３第２通信部１０１５第３通信部
１０１７第４通信部１０１９第５通信部
１０３通信表格納部
３管理装置３０１通信表生成部
３０３通信表格納部３０５トポロジデータ格納部

Claims

接続形態がラテン方陣ファットツリーである複数のスイッチと、
前記複数のスイッチのいずれかにそれぞれ接続される複数の情報処理装置と、
を有し、
前記ラテン方陣ファットツリーに対応する有限射影平面における特定の１点に相当する第１スイッチ以外のスイッチに接続される情報処理装置の各々が、当該情報処理装置と同じスイッチに接続される他の情報処理装置との間で、当該同じスイッチに接続される情報処理装置のうち第１情報処理装置が結果を持つ第１リデュースを実行し、
前記第１スイッチに接続される情報処理装置の各々が、当該情報処理装置に対応するグループに属する各スイッチの第１情報処理装置との間で、当該情報処理装置が結果を持つ第２リデュースを実行し、
前記第１スイッチに接続される情報処理装置が、前記第２リデュースの結果に基づきオールリデュースを実行し、
前記第１スイッチに接続される情報処理装置の各々が、当該情報処理装置に対応するグループに属する各スイッチの第１情報処理装置に対して、前記オールリデュースの結果を送信し、
前記オールリデュースの結果を受信した第１情報処理装置の各々が、当該第１情報処理装置と同じスイッチに接続される他の情報処理装置に対して、前記オールリデュースの結果を送信する、
情報処理システム。
前記特定の１点は、前記有限射影平面における無限遠点である、
請求項１記載の情報処理システム。
前記有限射影平面において同一の直線上に有る複数の点に相当する複数のスイッチは、同じグループに属する、
請求項１又は２記載の情報処理システム。
前記第１スイッチ以外のスイッチにおける情報処理装置の各々が、前記第１リデュースの通信のフェーズのうち当該情報処理装置がデータを送信するフェーズにおいて、他の情報処理装置からの他のデータを受信しない情報処理装置に対して前記データを送信する、
請求項１乃至３のいずれか１つ記載の情報処理システム。
前記第１スイッチに接続される情報処理装置の各々は、前記第２リデュースの各フェーズにおいて、１台の第１情報処理装置からデータを受信する、
請求項１乃至３のいずれか１つ記載の情報処理システム。
前記第１スイッチに接続される情報処理装置の各々は、前記オールリデュースの通信のフェーズのうち当該情報処理装置がデータを送信するフェーズにおいて、他の情報処理装置からの他のデータを受信しない情報処理装置に対して前記データを送信する、
請求項１乃至３のいずれか１つ記載の情報処理システム。
前記第１のスイッチに接続される情報処理装置の各々は、当該情報処理装置に対応するグループに属するスイッチの各第１情報処理装置に対して前記オールリデュースの結果を送信する通信の各フェーズにおいて、他の情報処理装置からの他のデータを受信しない情報処理装置に対して前記オールリデュースの結果を送信する、
請求項１乃至３のいずれか１つ記載の情報処理システム。
前記オールリデュースの結果を受信した第１情報処理装置の各々は、当該第１情報処理装置と同じスイッチに接続される他の情報処理装置に対して前記オールリデュースの結果を送信する通信の各フェーズにおいて、他の情報処理装置からの他のデータを受信しない情報処理装置に対して前記オールリデュースの結果を送信する、
請求項１乃至３のいずれか１つ記載の情報処理システム。
接続形態がラテン方陣ファットツリーである複数のスイッチと、前記複数のスイッチのいずれかにそれぞれ接続される複数の情報処理装置とを有する情報処理システムにおいて実行される情報処理方法であって、
前記ラテン方陣ファットツリーに対応する有限射影平面における特定の１点に相当する第１スイッチ以外のスイッチに接続される情報処理装置の各々が、当該情報処理装置と同じスイッチに接続される他の情報処理装置との間で、当該同じスイッチに接続される情報処理装置のうち第１情報処理装置が結果を持つ第１リデュースを実行し、
前記第１スイッチに接続される情報処理装置の各々が、当該情報処理装置に対応するグループに属する各スイッチの第１情報処理装置との間で、当該情報処理装置が結果を持つ第２リデュースを実行し、
前記第１スイッチに接続される情報処理装置が、前記第２リデュースの結果に基づきオールリデュースを実行し、
前記第１スイッチに接続される情報処理装置の各々が、当該情報処理装置に対応するグループに属する各スイッチの第１情報処理装置に対して、前記オールリデュースの結果を送信し、
前記オールリデュースの結果を受信した第１情報処理装置の各々が、当該第１情報処理装置と同じスイッチに接続される他の情報処理装置に対して、前記オールリデュースの結果を送信する、
情報処理方法。