JP2016224756A - 並列演算装置、並列演算システム、ノード割当プログラム及びノード割当方法 - Google Patents

並列演算装置、並列演算システム、ノード割当プログラム及びノード割当方法 Download PDF

Info

Publication number
JP2016224756A
JP2016224756A JP2015111287A JP2015111287A JP2016224756A JP 2016224756 A JP2016224756 A JP 2016224756A JP 2015111287 A JP2015111287 A JP 2015111287A JP 2015111287 A JP2015111287 A JP 2015111287A JP 2016224756 A JP2016224756 A JP 2016224756A
Authority
JP
Japan
Prior art keywords
communication
information
node
communication pattern
full mesh
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015111287A
Other languages
English (en)
Other versions
JP6492977B2 (ja
Inventor
真弘 三輪
Masahiro Miwa
真弘 三輪
耕太 中島
Kota Nakajima
耕太 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2015111287A priority Critical patent/JP6492977B2/ja
Priority to US15/137,221 priority patent/US10193969B2/en
Publication of JP2016224756A publication Critical patent/JP2016224756A/ja
Application granted granted Critical
Publication of JP6492977B2 publication Critical patent/JP6492977B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1044Group management mechanisms 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Multi Processors (AREA)

Abstract

【課題】多層フルメッシュシステムにおいて、並列処理を実行させるノード群をLeafスイッチが層内又は層間のいずれかの接続関係にあるノード群から適切に割り当てることを目的とする。
【解決手段】Leafスイッチがフルメッシュ接続されたフルメッシュシステムが複数層連結される多層フルメッシュシステムにおいてアプリケーションの並列演算を行う並列演算装置であって、アプリケーションを実行したときのノード間の通信回数を記録した通信記録情報と、Leafスイッチが層内又は層間の接続関係にあるノード群のいずれを割り当てるかを示す割当情報が通信パターン毎に特定された通信パターン情報とを比較する比較部と、比較した前記通信記録情報が示す通信に最も類似する通信パターンの割当情報を前記通信パターン情報に基づき抽出し、該割当情報に基づき前記アプリケーションを次に実行するノード群を割り当てる割当部と、を有する並列演算装置が提供される。
【選択図】図10

Description

本発明は、並列演算装置、並列演算システム、ノード割当プログラム及びノード割当方法に関する。
PCクラスタ等の複数の計算機を有する並列計算機システムにおけるジョブスケジューリング方法が知られている(例えば、特許文献1参照)。特許文献1には、フロントエンドから要求されたバッチ処理を、複数の計算ノードに割り当てるバッチサーバを備えたクラスタシステムが開示されている。
複数のノード(サーバ)が並列して計算を行う並列計算機システムでは集合通信が行われる。集合通信とは、互いにネットワークで接続されたノード群の間で通信データの送信及び受信を行う通信である。
特開2011−175573号公報 特開2010−257056号公報 特表2008−516346号公報
並列計算機システムの性能は集合通信の速度の影響を受けやすい。特に、Leafスイッチがフルメッシュ接続されたフルメッシュシステムが複数層連結された多層フルメッシュシステムでは、集合通信の一つの実施方法として、Leafスイッチが層内又は層間のいずれかの接続関係にあるノード群の間で行う方法が考えられる。Leafスイッチが層内の接続関係にあるノード群を選択した場合の集合通信と、Leafスイッチが層間の接続関係にあるノード群を選択した場合の集合通信とで並列計算機システムの性能が変わる場合、ジョブを高性能に処理するノード群を選択することが望まれる。
そこで、一側面では、本発明は、多層フルメッシュシステムにおいて、並列処理を実行させるノード群をLeafスイッチが層内又は層間のいずれかの接続関係にあるノード群から適切に割り当てることを目的とする。
一つの案では、Leafスイッチがフルメッシュ接続されたフルメッシュシステムが複数層連結される多層フルメッシュシステムにおいてアプリケーションの並列演算を行う並列演算装置であって、アプリケーションを実行したときのノード間の通信回数を記録した通信記録情報と、ジョブを実行するノード群をLeafスイッチが層内又は層間の接続関係にあるノード群のいずれかから割り当てるかを示す割当情報が通信パターン毎に特定された通信パターン情報とを比較する比較部と、比較した前記通信記録情報が示す通信に最も類似する通信パターンの割当情報を前記通信パターン情報に基づき抽出し、該割当情報に基づき前記アプリケーションを次に実行するノード群を割り当てる割当部と、を有する並列演算装置が提供される。
一側面によれば、多層フルメッシュシステムにおいて、並列処理を実行させるノード群をLeafスイッチが層内又は層間のいずれかの接続関係にあるノード群から適切に割り当てることができる。
一実施形態にかかる多層フルメッシュシステムの一例を示す図。 一実施形態にかかるノードの層内割当(フルメッシュの場合)を示す図。 一実施形態にかかるノードの層間割当(ファットツリーの場合)を示す図。 一実施形態にかかる評価に用いる通信パターン例を示す図。 一実施形態にかかるファットツリートポロジの一例を示す図。 一実施形態にかかるフルメッシュトポロジの一例を示す図。 一実施形態にかかるパケットの投入レートに対する通信遅延を示す図。 一実施形態にかかるパケットの投入レートに対する通信遅延を示す図。 一実施形態にかかる評価結果の一例を示す図。 一実施形態にかかるジョブスケジューラの機能構成の一例を示す図。 一実施形態にかかる通信記録情報テーブルの一例を示す図。 一実施形態にかかる通信パターン情報テーブルの一例を示す図。 一実施形態にかかる距離の算出を説明するための図。 一実施形態にかかるジョブ管理テーブルの一例を示す図。 一実施形態にかかるリソース割当テーブルの一例を示す図。 一実施形態にかかるノード割当処理の一例を示すフローチャート。 一実施形態にかかる通信情報記録処理の一例を示すフローチャート。 一実施形態にかかる通信パターンの解析処理の一例を示すフローチャート。 一実施形態にかかるフルメッシュトポロジの他の例を示す図。 一実施形態にかかるジョブスケジューラのハードウェア構成例を示す図。
以下、本発明の実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省く。
[多層フルメッシュシステム]
まず、本発明の一実施形態にかかる並列演算システムにおいてアプリケーションを並列して演算するノード群の接続方式について、図1を参照して説明する。図1は、一実施形態にかかる多層フルメッシュシステムの一例を示す。図1では、(d+1)角形のフルメッシュ(Fullmesh)システムをd層接続したトポロジの多層フルメッシュシステムにおいて、d=3の場合が示されている。
図1において、層内の全てのLeafスイッチa1、b1、c1、d1はSpineスイッチを除いて考えるとフルメッシュ接続の関係にある。具体的には、Leafスイッチだけに着目すれば、Leafスイッチa1とLeafスイッチb1とは直接接続され、Leafスイッチa1とLeafスイッチc1とは直接接続され、Leafスイッチa1とLeafスイッチd1とは直接接続される。また、Leafスイッチb1とLeafスイッチc1とは直接接続され、Leafスイッチb1とLeafスイッチd1とは直接接続され、Leafスイッチc1とLeafスイッチd1とは直接接続される。このような接続をフルメッシュ(Fullmesh)という。Leafスイッチa1〜d1は、ノードに接続されるネットワークスイッチ(例えばLAN(Local Area Network)スイッチ)である。ネットワークとしては、例えば、InfiniBandを使用することができる。
丸の図形はノードを表し、丸の図形の中にある数字はノード番号である。ノード0〜ノード35は、MPI(Message Passing Interface)等の通信ライブラリを使用して通信を行うサーバ等の計算機である。ノード0〜ノード2はLeafスイッチa1に接続され、ノード3〜ノード5はLeafスイッチb1に接続され、ノード6〜ノード8はLeafスイッチc1に接続され、ノード9〜ノード11はLeafスイッチd1に接続される。このようにLeafスイッチa1〜d1のネットワークトポロジはフルメッシュ型のトポロジ(以下、「フルメッシュトポロジ」ともいう)である。また、Leafスイッチのネットワークトポロジがフルメッシュトポロジであるシステムをフルメッシュシステムと呼ぶ。
本実施形態に係る多層フルメッシュシステム100は、第1層〜第3層のフルメッシュシステムがSpineスイッチにより連結された構造を有する。図1においては、Leafスイッチが4台であるフルメッシュシステムの第1層〜第3層がSpineスイッチA〜Fを用いて連結されている。網掛けが付された四角の図形はSpineスイッチを表し、網掛けが付されていない四角の図形のLeafスイッチと区別している。各Spineスイッチのポート数及び各Leafスイッチのポート数は6である。各Leafスイッチには3台のノードが接続される。Leafスイッチ間のリンク上には1台のSpineスイッチが設けられる。各Spineスイッチは各フルメッシュシステムに2本のリンクを有し、各フルメッシュシステムにおいて2台のLeafスイッチに接続される。
ノード及びLeafスイッチ間、またLeafスイッチ及びSpineスイッチ間は、リンクと呼ばれる通信ネットワークのケーブルで接続されている。Spineスイッチは、フルメッシュシステムの層間を接続する役割をもつスイッチである。例えば、Leafスイッチa1に接続されたノード0〜ノード2と、Leafスイッチa2に接続されたノード12〜ノード14と、Leafスイッチa3に接続されたノード24〜ノード26とはSpineスイッチA〜Cを経由して通信可能である。
図1の多層フルメッシュシステムを別の方法で描くと、図2及び図3のようになる。図2及び図3のシステムの接続の形態は、図1のシステムの接続の形態と全く同じである。図2は、アプリケーションの並列演算にLeafスイッチが層内の接続関係にあるノード群を割り当てる層内割当のトポロジを示す。層内割当されたノード群の接続は、フルメッシュトポロジである。
図3は、アプリケーションの並列演算にLeafスイッチが層を跨ぐ接続関係にあるノード群を割り当てる層間割当のトポロジを示す。層間割当されたノード群の接続は、ファットツリー型のトポロジ(以下、「ファットツリートポロジ」ともいう)である。
図2に示すように、図1に示す第1層のフルメッシュシステム内のLeafスイッチa1、b1、c1に接続されたノード0〜ノード8がアプリケーションの並列演算を行う計算機として割り当てられる。ノード0〜ノード8に対するジョブの配置は、後述されるジョブスケジューラ10によって実行される。
図3に示すように、図1に示す第1層〜第3層のフルメッシュシステムの層間のLeafスイッチa1、a2、a3に接続されたノード0〜ノード2、ノード12〜ノード14、ノード24〜ノード26がアプリケーションの並列演算を行う計算機として割り当てられる。図2のフルメッシュの場合、スイッチ間のリンクの本数は「1」であり、1本のリンクでノード間が接続されている。これに対して、図3のファットツリーの場合、スイッチ間のリンクの本数は「3」であり、3本のリンクでノード間が接続されている。このようにファットツリートポロジとフルメッシュトポロジとは異なる接続方式になっている。
[評価]
ノード間の通信は、リンクの本数に応じ、時間当たりに通信可能な量の最大値が決まる。よって、リンク数が多いファットツリートポロジの場合、フルメッシュトポロジよりも通信量の最大値が大きくなる。このため、通信量の多いジョブはLeafスイッチが層間の接続関係にあるノード群を割り当てることで、Leafスイッチが層内の接続関係にあるノード群を割り当てるよりもジョブを高性能に処理できるのではないかという仮説が立つ。この仮説に基づき、Leafスイッチが層内又は層間の接続関係にあるノード群のうちいずれがより通信スループットが高いか、すなわち高性能であるかを通信パターン毎に評価する。
本実施形態では、通信パターンとして、図4に示す科学計算アプリケーションで利用されるbitcomp、bitrev、neighbor、shuffle、tornado、transpose、uniformを例に挙げる。
評価には、bitcompを示す式(1)、bitrevを示す式(2)、neighborを示す式(3)によりそれぞれの通信パターンが定義される。また、shuffleを示す式(4)、tornadoを示す式(5)、transposeを示す式(6)によりそれぞれの通信パターンが定義される。
uniformは、各ソースが等しいトラフィック量を各送信先(デスティネーション)に送信する通信パターンである。例えば、A,B,C,Dのプロセスがあったとき、uniformではプロセスAがプロセスB,C,Dにデータを送る、プロセスBがプロセスA,C,Dにデータを送信する・・・というように、各プロセスから他のプロセスに一様に通信が発生する。
これらの式(1)〜式(6)で示される通信パターン及びuniformの通信パターンは、サイクル精度(cycle-accurate)なネットワークシミュレータであるBooksimシミュレータ等のネットワークシミュレータを使用して評価することができる。評価に当たっては、パケットの投入レート(injection rate)に対するパケットの遅延状態を評価する。ネットワークシミュレータにより、図5に示す64ノードのファットツリートポロジや、図6に示す64ノードのフルメッシュトポロジ等の接続方式における上記各通信パターンの評価が可能である。
図7及び図8に、図4に示した各通信パターンの評価結果を示す。図7(a)は、bitcompの評価結果を示す。横軸のパケットの投入レート(injection rate)は、1サイクル時間毎に投入されるパケット数である。例えば、1MHzのCPUであれば1秒間に100万サイクル処理可能であり、1サイクルの時間は、1秒/100万サイクルで算出される。縦軸は、通信遅延の平均値(以下、「平均通信遅延」(delay)ともいう。)をサイクル時間で示している。
図7及び図8のグラフでは、平均通信遅延が500サイクル(cycles)を超える前までの投入レート(injection rate)に対するパケットの平均通信遅延(サイクル)がプロットされる。平均通信遅延を表すグラフが立ち上がるまでの投入レートがより大きい値を示したトポロジはより多くのパケットを投入しても遅延が大きくならないこと、つまり、より高スループットであることを示す。
図7(a)の「bitcomp」では、フルメッシュトポロジの場合、1サイクル時間に投入されるパケット数が「0.1」を超えると、平均通信遅延が立ち上がり、約150サイクルの時間に達する。これは、フルメッシュトポロジの場合、1サイクル時間に投入されるパケット数が「0.1」を超えると、ネットワークに負荷がかかり、パケットを投入しても送信先の目的のサーバまですぐに転送されない状態になることを示す。
一方、ファットツリートポロジの場合、1サイクル時間に投入されるパケット数が約「0.7」になると、平均通信遅延が約300サイクルの時間に達する。したがって、bitcompの場合、ファットツリートポロジの方が、フルメッシュトポロジよりも高性能にジョブを処理できる。つまり、「bitcomp」の通信パターンのジョブでは、層間のノードを割り当てることが好ましい。
図7(b)の「bitrev」では、フルメッシュトポロジの場合、1サイクル時間に投入されるパケット数が「1」になっても、平均通信遅延に急激な立ち上がりはみられない。一方、ファットツリートポロジの場合、1サイクル時間に投入されるパケット数が約「0.7」になると、平均通信遅延が120サイクルの時間に達する。したがって、bitrevの通信パターンと同じ通信を行うジョブを実行する場合、フルメッシュトポロジの方が、ファットツリートポロジよりも高性能にジョブを処理できる。つまり、「bitrev」の通信パターンのジョブでは、層内のノードを割り当てることが好ましい。
図7(c)の「neighbor」では、ファットツリートポロジの方が、フルメッシュトポロジよりも投入パケット数が大きくなるまで平均通信遅延の立ち上がりは生じない。したがって、neighborの場合、ファットツリートポロジの方が、フルメッシュトポロジよりも高性能にジョブを処理できる。つまり、「neighbor」の通信パターンのジョブでは、層間のノードを割り当てることが好ましい。
図7(d)の「shuffle」では、ファットツリートポロジの方が、フルメッシュトポロジよりも投入パケット数が大きくなるまで平均通信遅延の立ち上がりは生じない。したがって、shuffleの場合、ファットツリートポロジの方が、フルメッシュトポロジよりも高性能にジョブを処理できる。つまり、「shuffle」の通信パターンのジョブでは、層間のノードを割り当てることが好ましい。
図8(a)の「tornado」では、ファットツリートポロジの方が、フルメッシュトポロジよりも投入パケット数が大きくなるまで平均通信遅延の立ち上がりは生じない。したがって、tornadoの場合、ファットツリートポロジの方が、フルメッシュトポロジよりも高性能にジョブを処理できる。つまり、「tornado」の通信パターンのジョブでは、層間のノードを割り当てることが好ましい。
図8(b)の「transpose」では、フルメッシュトポロジの場合、1サイクル時間に投入されるパケット数が「1」になっても、平均通信遅延に急激な立ち上がりはみられない。一方、ファットツリートポロジの場合、1サイクル時間に投入されるパケット数が約「0.7」になると、平均通信遅延が120サイクルの時間に達する。したがって、transposeの場合、フルメッシュトポロジの方が、ファットツリートポロジよりも高性能にジョブを処理できる。つまり、「transpose」の通信パターンのジョブでは、層内のノードを割り当てることが好ましい。
図8(c)の「uniform」の通信パターンでは、ファットツリートポロジの場合、1サイクル時間に投入されるパケット数が「0.7」を上回ると、平均通信遅延が450サイクルの時間に達する。一方、フルメッシュトポロジの場合、1サイクル時間に投入されるパケット数が「0.7」を超える前に、平均通信遅延が400サイクルの時間になる。したがって、uniformの場合、ファットツリートポロジの方が、フルメッシュトポロジよりも高性能にジョブを処理できる。つまり、「uniform」の通信パターンのジョブでは、層間のノードを割り当てることが好ましい。
以上の本実施形態にかかる評価結果の一例を図9に示す。図9では、各通信パターンについてより高い投入レートを示したトポロジに丸が付けられている。ファットツリートポロジに丸が付けられた通信パターンは、Leafスイッチが層間の接続関係にあるノード群に割り当てると層内のノードに割り当てるよりもジョブを高性能に実行できる。フルメッシュトポロジに丸が付けられた通信パターンは、層内のノードに割り当てると層間のノードに割り当てるよりもジョブを高性能に実行できる。通信パターンによってはフルメッシュトポロジの場合が高性能を達成する通信パターンがあり、当初の仮説と異なり、必ずしもファットツリートポロジが高性能を達成するとは限らないことを示している。よって、アプリケーションが実行する通信パターンを判定できれば、アプリケーションをより高速に実行することが可能なノード群として、Leafスイッチが層内又は層間の接続関係にあるいずれのノード群に割り当てるべきかを決めることができ、多層フルメッシュシステムのリソースを効率よく使用することができる。
以下では、アプリケーションで発生する通信が所定の通信パターンのいずれに最も類似するかを判定し、類似の通信パターンを高性能に処理するノード群の割当情報から、並列処理を実行させるノード群をLeafスイッチが層内又は層間の接続関係にあるノード群から適切に割り当てるジョブスケジューラ10の機能及び動作について説明する。まず、図10を参照しながらジョブスケジューラ10の機能について説明する。
[ジョブスケジューラ]
ジョブスケジューラ10は、ジョブの実行にどのノード群を利用するかを選択し、選択したノード群を利用してジョブを実行する。ジョブスケジューラ10は、アプリケーションの通信パターンを判定することで、ジョブの多層フルメッシュシステムにおける適切なノード群への割当による効率的なジョブの実行を実現する。ジョブスケジューラ10は、Leafスイッチが接続されたフルメッシュシステムが複数層連結される多層フルメッシュシステム100においてアプリケーションの並列演算を行う並列演算装置の一例である。
ジョブスケジューラ10(Resource and Job Management System (RJMS))には、Slurm(Simple Linux Utility for Resource Management)、PBS(Portable Batch System)などがあり、演算リソース(ノード)の確保とジョブの実行を行う。
ジョブスケジューラ10は、ジョブ情報受取部11、ジョブ実行部12、記録部13、比較部14及びノード割当部15を有する。ジョブ情報受取部11は、ユーザからジョブが投入されると、リクエストされたジョブに関する情報であるジョブ情報を受け付ける。ジョブ情報には、実行に利用するノード数、実行コマンド、並列演算に必要なパワー等の情報が含まれる。
ジョブ実行部12は、Leafスイッチが層内又は層間の接続関係にあるノード群を使用して並列演算を行う。アプリケーションに使用されるノード群の割当は、ノード割当部15により決定される。割り当てられたノード情報は、ジョブ実行部12bに送信される。
ネットワーク接続された複数の計算ノードからなるシステムで実行されるアプリケーションは、通常複数のプロセスから構成される。アプリケーションを構成する実行実体をプロセスという。MPIライブラリ20は、複数のプロセス間の通信に利用される。記録部13は、アプリケーションを実行したときのプロセス間の通信を(送信元、送信先)の組毎にカウントし、MPIライブラリ20に記録する。具体的には、記録部13は、MPIライブラリ20の通信記録情報テーブル21a、21b・・・(以下、総称して「通信記録情報テーブル21」ともいう。)にプロセス間の通信回数を記録する。プロセスは、例えば1ノード1プロセスといったように割り当てられ、割り当てられたノードによって実行される。したがって、通信記録情報テーブル21には、アプリケーションを実行したときのノード間の通信回数を記録した通信記録情報が蓄積されているといえる。
例えば、図11には、アプリケーションを構成する4つのプロセス0,1,2,3がプロセス間で通信を行う場合に通信記録情報テーブル21に記録される通信記録情報の一例が示される。図11(a)には、記録部13が、プロセス0→プロセス3、プロセス1→プロセス2、プロセス2→プロセス1、プロセス3→プロセス0の各通信の回数をカウントし、通信記録情報テーブル21aに記録した例が示される。上記通信が1000回行われたとき、通信記録情報テーブル21aには、行列Aにて示される通信記録情報が記録される。
行列Aの行は送信元プロセス0、1、2、3であり、列は送信先プロセス0、1、2、3である。プロセス0→プロセス3、プロセス1→プロセス2、プロセス2→プロセス1、プロセス3→プロセス0の各通信がそれぞれ1000回行われていることが記録されている。なお、行列Aは、bitcompの通信パターンを示す。
図11(b)には、記録部13が、プロセス0→プロセス1,2,3、プロセス1→プロセス0,2,3、プロセス2→プロセス0,1,3、プロセス3→プロセス0,1,2の各通信の回数を通信記録情報テーブル21bに記録した例が示される。上記通信が1000回行われたとき、通信記録情報テーブル21bには、行列Bにて示される通信記録情報が記録される。プロセス0→プロセス1,2,3、プロセス1→プロセス0,2,3、プロセス2→プロセス0,1,3、プロセス3→プロセス0〜2の各通信がそれぞれ1000回行われていることが記録されている。なお、行列Bは、uniformの通信パターンを示す。このようにプロセス間の通信記録情報を行列で示す場合、4プロセスであれば、4×4行列で表わされる。行列の各要素は、通信回数を示す。行列A,Bは通信記録情報の一例である。
比較部14は、通信記録情報テーブル21に記録された通信記録情報と、通信パターン情報テーブル23に設定された通信パターン情報とを比較する。
図12に示すように、通信パターン情報テーブル23は、Leafスイッチが層内又は層間の接続関係にあるノード群のいずれを割り当てるかを示す割当情報23bが通信パターン23a毎に設定されている。本実施形態で使用される通信パターンは、bitcomp、bitrev、neighbor、shuffle、tornado、transpose、uniformである。割当情報23bは、前述した評価結果(図9参照)に基づき通信パターンごとに特定できる。ファットツリートポロジの場合にジョブの性能が高くなると評価された通信パターンの割当情報23bには、fattree(ファットツリー)と記録される。フルメッシュトポロジの場合にジョブの性能が高くなると評価された通信パターンの割当情報23bには、fullmesh(フルメッシュ)と記憶される。
ノード割当部15は、比較した通信記録情報テーブル21の通信記録情報が示す通信に最も類似する通信パターン23aを通信パターン情報テーブル23から抽出する。ノード割当部15は、抽出した通信パターン23aに関連付けた割当情報23bに基づき、アプリケーションを次に実行するノード群を割り当てる。割当情報23bにfattreeが設定されている場合、ノード割当部15は、Leafスイッチが層間の接続関係にあるノード群を割り当てる。割当情報23bにfullmeshが設定されている場合、ノード割当部15は、Leafスイッチが層内の接続関係にあるノード群を割り当てる。
比較部14は、通信記録情報テーブル21の通信記録情報が示す通信に最も類似する通信パターン23aを抽出するために通信記録情報の行列と通信パターンの行列の距離を算出する。距離は、行列の各要素を用いて以下の手順で算出することができる。ただし、距離を算出する手順はこれに限らない。
例えば、図13の行列Aの通信記録情報が、あるアプリケーションの実行時に得られたとすると、比較部14は、所定の各通信パターンを示す行列に、行列Aの要素の最大値を掛け正規化する。図13の行列Aの要素の最大値は「1000」である。よって、比較部14は、各通信パターンを示す行列(図13ではbitcomp、neighborの通信パターンの行列のみ示されている)の各要素に1000を掛けることで正規化する。
次に、式(7)のxijに行列Aの各要素を代入し、式(7)のyijに正規化された通信パターンの行列の各要素を代入することで距離、すなわち、2つの行列が異なる程度が算出される。つまり、距離は、式(7)に示すように、行列の各要素の差の2乗の平方根の和で示される。ただし、式(7)は距離の算出方法の一例である。反対に、2つの行列の距離が小さいほど2つの行列は類似していると言える。そこで本実施形態では、式(7)により算出される距離が0により近いほど類似しているという。
Figure 2016224756
計算の結果、行列Aとbitcompパターンとの距離は「0」となる。
同様に、図13の行列Bの通信記録情報が、あるアプリケーションの実行時に得られたとすると、比較部14は、各通信パターンに行列Bの要素の最大値を掛けて正規化し、式(7)のxijに行列Bの各要素を代入し、yijに正規化された通信パターンの行列の各要素を代入する。この結果、行列Bとbitcompパターンとの距離は「8000」となる。このようにして比較部14は、全通信パターンとの距離を算出し、最も類似する通信パターンを明らかにする。
ノード割当部15は、アプリケーションを実行したときの通信記録情報に最も類似する通信パターンを抽出する。通信記録情報に最も類似する通信パターンは、距離が最も小さい通信パターンである。上記例では、比較の結果、行列A(通信記録情報)はbitcompの通信パターンに類似していると判定される。
比較部14は、最も類似する通信パターンをジョブ管理テーブル22に保存する。ジョブ管理テーブル22には、ジョブをリクエストしたユーザ名22a、そのユーザがリクエストしたアプリケーション名22bが記録され、そのアプリケーションの解析後であれば、アプリケーション実行時の通信に最も類似していると判定された通信パターン22cが記録される。
例えば、実行したアプリケーションのユーザ名22aが「user001」、アプリケーション名22bが「A」のアプリケーションを実行したときの通信記録情報と最も類似する通信パターンが「uniform」と判定された場合、該ユーザ名22a及び該アプリケーション名22bに対応する通信パターン22cに「uniform」が記録される。なお、ジョブ管理テーブル22に記録されたデータは、所定の期間経過後に削除されるようにしてもよい。
ノード割当部15は、通信パターン情報テーブル23に基づき、アプリケーションを実行するときの通信記録情報に最も類似する通信パターン23aの割当情報23bを抽出する。上記例では、行列Aはbitcompの通信パターンに類似していると判定されたので、ノード割当部15は、fattreeを抽出する。
ノード割当部15は、抽出した割当情報23bから、リソース割当テーブル24に基づき、Leafスイッチが層内又は層間の接続関係にあるノード群を割り当てる。リソース割当テーブル24には、ノードグループID24a、fullmesh番号24b、fattree番号24c、割当済情報24dが記録されている。ここで、ノードグループIDは、同一Leafスイッチに接続されたノード群につけられた識別子である。図1の例であれば、1ノードグループあたり3台のノードが含まれ、一つの例では、このノードグループを単位として、ジョブ実行に必要なノード群の割当てを行う。リソース割当テーブル24のfullmesh番号24bに記載された記号のうち、同一記号を選択すれば、Leafスイッチが層内の接続関係にあるノード群が選択される。また、fattree番号24cに記載された記号のうち、同一記号を選択すればLeafスイッチが層間の接続関係にあるノード群が選択される。
抽出した通信パターンが「uniform」の場合、ノード割当部15は、割当情報23bが「fattree」であるため、リソース割当テーブル24のfattree番号24cが同じであって割当済情報24dが「No」(未割当ノード)を選択する。そして、ノード割当部15は、選択したノードをアプリケーションが次に実行されるときに使用するノードに割り当てる。例えば、ノード割当部15は、リソース割当テーブル24のfattree番号24cが「T2」の「ノード001」と「ノード063」とを割り当てることが可能である。ここでのノード情報は、「ノード001」及び「ノード063」である。
ジョブ実行部12は、ノード割当部15が割り当てたノード情報を取得し、割り当てたノード群を用いてジョブを実行する。
[ノード割当処理]
次に、本実施形態に係るノード割当処理について図16を参照して説明する。図16は、本実施形態にかかるノード割当処理の一例を示すフローチャートである。本処理が開始されると、まず、ジョブ情報受取部11は、ユーザからリクエストされたジョブのジョブ情報を受け付ける(ステップS10)。
次に、ジョブ実行部12は、ジョブ管理テーブル22を参照し、ジョブ情報に含まれるユーザ名及びアプリケーションの通信に類似する通信パターンの抽出が既に実行され、ジョブ管理テーブル22に設定されているかを判定する(ステップS12)。
ジョブ実行部12が通信パターンの抽出は実行されていないと判定した場合、ノード割当部15は、リソース割当テーブル24の割当済情報24dを参照し、Leafスイッチが層内あるいは層間の接続関係のいずれかにある未割当の任意のノード群からジョブ情報に示された必要なノード群を割り当てる(ステップS14)。
次に、ジョブ実行部12は、割り当てたノード群を使用してジョブを実行する(ステップS16)。ジョブ実行中、記録部13は、通信が発生する毎にプロセス間の通信をカウントし、MPIライブラリ20の通信記録情報テーブル21に記録する(ステップS16:S3)。
(通信情報記録処理(S3))
図16のステップS16から呼び出される通信情報記録処理(S3)について、図17を参照して説明する。通信情報記録処理(S3)では、記録部13は、最初に送信先のプロセスの番号を取得する(ステップS161)。次に、記録部13は、通信記録情報テーブル21の該当する行列要素をカウントアップする(ステップS162)。記録部13は、送信元プロセスから送信先プロセスへの通信が発生するたびに通信回数をカウントアップする。通信回数のカウント方法は、アプリケーションの実行開始から実行終了までの通信回数をカウントする方法でもよいし、アプリケーションの実行中の所定時間の通信回数をカウントアップする方法でもよい。
かかる処理によりアプリケーションの実行中、プロセス間の通信がカウントされ、MPIライブラリ20の通信記録情報テーブル21に記録される。図16のノード割当処理に戻り、次に、通信パターンの解析処理(S2)が実行され(ステップS18)、本処理が終了する。
(通信パターンの解析処理(S2))
図16のステップS18から呼び出される通信パターンの解析処理(S2)について、図18を参照して説明する。通信パターンの解析処理(S2)では、比較部14は、式(7)のxijに通信記録情報テーブル21に記録された行列の各要素を代入し、式(7)のyijに正規化された通信パターンの行列の各要素を代入することで距離を算出する(ステップS181)。
次に、比較部14は、距離が最も小さい通信パターンをジョブ管理テーブル22の通信パターン22cに記録し(ステップS182)、本処理を終了する。
他方、図16のノード割当処理のステップS12において、ジョブ情報に含まれるユーザ名及びアプリケーション名の通信パターンの抽出が既に実行され、ジョブ管理テーブル22に設定されていると判定された場合について説明する。この場合、ノード割当部15は、ジョブ管理テーブル22に基づきジョブ情報に含まれるユーザ名22a及びアプリケーション名22bに応じた通信パターン22cを取得する(ステップS20)。つまり、ノード割当部15は、アプリケーションを最初に実行したときの通信記録情報が示す通信に最も類似する通信パターンをジョブ管理テーブル22から抽出する。
次に、ノード割当部15は、取得した通信パターン22cにより特定される通信パターン情報テーブル23の通信パターン23aに対応する割当情報23bを選択する。ノード割当部15は、選択した割当情報23bに対応する層内又は層間割当に応じたノード群をリソース割当テーブル24から選択し、確保する(ステップS22)。例えば、割当情報23bが層内割当(fullmesh)を示す場合、fullmesh番号24b及び割当済情報24dに基づき、未割当で同記号のfullmesh番号24bのノード群が選択される。例えば、割当情報23bが層間割当(fattree)を示す場合、fattree番号24c及び割当済情報24dに基づき、未割当で同記号のfattree番号24cのノードが選択される。次に、ジョブ実行部12は、割り当てたノード群を使用してジョブを実行し(ステップS24)、本処理を終了する。
以上に説明したように、一実施形態に係るアプリケーションの並列演算を行う並列演算システムによれば、多層フルメッシュシステム100において並列処理を実行させるノード群をLeafスイッチが層内又は層間の接続関係にあるノード群から適切に割り当てることができる。これにより、ジョブの処理速度が向上し、並列計算機システムのスループットを向上させることができる。これにより、多層フルメッシュシステム100で構成されるPCクラスタの計算リソースを最適に利用することが可能になる。
以上の説明では、フルメッシュを構成するノードの組は、同一層のLeafスイッチの数字が同じものに限ったが、これに限らず、異なる層でフルメッシュを構成する場合もある。例えば、図19(a)では、フルメッシュを構成するノードの組は、Leafスイッチa1、b1、c1に接続された層内のノード群である。しかしながら、図19(b)では、フルメッシュを構成するノードの組は、Leafスイッチa1、b2、c3に接続された層間を跨いだノード群であってもよい。
(ハードウェア構成例)
最後に、本実施形態に係るジョブスケジューラ10のハードウェア構成について、図20を参照して説明する。ジョブスケジューラ10は、入力装置101、表示装置102、外部I/F103、RAM(Random Access Memory)104、ROM(Read Only Memory)105、CPU(Central Processing Unit)106、通信I/F107、及びHDD(Hard Disk Drive)108などを備え、それぞれがバスBで相互に接続されている。
入力装置101は、キーボードやマウスなどを含み、ジョブスケジューラ10に各操作信号を入力するために用いられる。表示装置102は、ディスプレイなどを含み、各種の処理結果を表示する。通信I/F107は、ジョブスケジューラ10をネットワークに接続するインタフェースである。これにより、ジョブスケジューラ10は、通信I/F107を介して、ノード群とデータ通信を行うことができる。
HDD108は、プログラムやデータを格納している不揮発性の記憶装置である。格納されるプログラムやデータには、ジョブスケジューラ10の全体を制御する基本ソフトウェア及びアプリケーションソフトウェアがある。例えば、HDD108には、各種のデータベースやノード割当プログラム等のプログラムが格納されてもよい。
外部I/F103は、外部装置とのインタフェースである。外部装置には、記録媒体103aなどがある。これにより、ジョブスケジューラ10は、外部I/F103を介して記録媒体103aの読み取り及び/又は書き込みを行うことができる。記録媒体103aには、CD(Compact Disk)、及びDVD(Digital Versatile Disk)、ならびに、SDメモリカード(SD Memory card)やUSBメモリ(Universal Serial Bus memory)等がある。
ROM105は、電源を切っても内部データを保持することができる不揮発性の半導体メモリ(記憶装置)である。ROM105には、プログラム及びデータが格納されている。RAM104は、ノード割当プログラム等のプログラムやデータを一時保持する揮発性の半導体メモリ(記憶装置)である。CPU106は、上記記憶装置(例えば「HDD108」や「ROM105」など)から、ノード割当プログラム等のプログラムやデータをRAM104上に読み出し、ノード割当処理、通信情報記録処理及び通信パターンの解析処理を実行する。これにより、多層フルメッシュシステムにおけるジョブの配置制御及びアプリケーションの並列演算を実現する。
なお、通信記録情報テーブル21、ジョブ管理テーブル22、通信パターン情報テーブル23、リソース割当テーブル24に記憶された情報は、RAM104、HDD108等に格納され得る。これらのテーブルは、ネットワークを介してジョブスケジューラ10に接続されるクラウド上のサーバ等に格納されてもよい。
以上、並列演算装置、並列演算システム、ノード割当プログラム及びノード割当方法を上記実施形態により説明したが、本発明にかかる並列演算装置、並列演算システム、ノード割当プログラム及びノード割当方法は上記実施形態に限定されるものではなく、本発明の範囲内で種々の変形及び改良が可能である。また、上記実施形態及び変形例が複数存在する場合、矛盾しない範囲で組み合わせることができる。
例えば、上記実施形態に係るジョブスケジューラ10の構成は一例であり、本発明の範囲を限定するものではなく、用途や目的に応じて様々なシステム構成例があることは言うまでもない。例えば、本実施形態のジョブスケジューラ10を一例とする並列演算装置は、ノードと別体の情報処理装置によって実現されてもよいし、ノード内に組み込まれてもよい。
以上の説明に関し、更に以下の項を開示する。
(付記1)
Leafスイッチがフルメッシュ接続されたフルメッシュシステムが複数層連結される多層フルメッシュシステムにおいてアプリケーションの並列演算を行う並列演算装置であって、
アプリケーションを実行したときのノード間の通信回数を記録した通信記録情報と、Leafスイッチが層内又は層間の接続関係にあるノード群のいずれを割り当てるかを示す割当情報が通信パターン毎に特定された通信パターン情報とを比較する比較部と、
比較した前記通信記録情報が示す通信に最も類似する通信パターンの割当情報を前記通信パターン情報に基づき抽出し、該割当情報に基づき前記アプリケーションを次に実行するノード群を割り当てる割当部と、を有する並列演算装置。
(付記2)
前記割当部は、前記アプリケーションを最初に実行したときの通信記録情報が示す通信に最も類似する通信パターンの割当情報を前記通信パターン情報に基づき抽出する、
付記1に記載の並列演算装置。
(付記3)
Leafスイッチがフルメッシュ接続されたフルメッシュシステムが複数層連結される多層フルメッシュシステムにおいてアプリケーションの並列演算を行う並列演算システムであって、
アプリケーションを実行したときのノード間の通信回数を記録した通信記録情報と、Leafスイッチが層内又は層間の接続関係にあるノード群のいずれを割り当てるかを示す割当情報が通信パターン毎に特定された通信パターン情報とを比較する比較部と、
比較した前記通信記録情報が示す通信に最も類似する通信パターンの割当情報を前記通信パターン情報に基づき抽出し、該割当情報に基づき前記アプリケーションを次に実行するノード群を割り当てる割当部と、を有する並列演算装置を備える、
並列演算システム。
(付記4)
前記アプリケーションを最初に実行したときの通信記録情報が示す通信に最も類似する通信パターンの割当情報を前記通信パターン情報に基づき抽出する、
付記3に記載の並列演算システム。
(付記5)
Leafスイッチがフルメッシュ接続されたフルメッシュシステムが複数層連結される多層フルメッシュシステムにおいてアプリケーションの並列演算処理をコンピュータに実行させるためのノード割当プログラムであって、
アプリケーションを実行したときのノード間の通信回数を記録した通信記録情報と、Leafスイッチが層内又は層間の接続関係にあるノード群のいずれを割り当てるかを示す割当情報が通信パターン毎に特定された通信パターン情報とを比較し、
比較した前記通信記録情報が示す通信に最も類似する通信パターンの割当情報を前記通信パターン情報に基づき抽出し、該割当情報に基づき前記アプリケーションを次に実行するノード群を割り当てる、
ノード割当プログラム。
(付記6)
前記アプリケーションを最初に実行したときの通信記録情報が示す通信に最も類似する通信パターンの割当情報を前記通信パターン情報に基づき抽出する、
付記5に記載のノード割当プログラム。
(付記7)
Leafスイッチがフルメッシュ接続されたフルメッシュシステムが複数層連結される多層フルメッシュシステムにおいてアプリケーションの並列演算処理をコンピュータが実行するノード割当方法であって、
アプリケーションを実行したときのノード間の通信回数を記録した通信記録情報と、Leafスイッチが層内又は層間の接続関係にあるノード群のいずれを割り当てるかを示す割当情報が通信パターン毎に特定された通信パターン情報とを比較し、
比較した前記通信記録情報が示す通信に最も類似する通信パターンの割当情報を前記通信パターン情報に基づき抽出し、該割当情報に基づき前記アプリケーションを次に実行するノード群を割り当てる、
ノード割当方法。
(付記8)
前記アプリケーションを最初に実行したときの通信記録情報が示す通信に最も類似する通信パターンの割当情報を前記通信パターン情報に基づき抽出する、
付記7に記載のノード割当方法。
10:ジョブスケジューラ
11:ジョブ情報受取部
12:ジョブ実行部
13:記録部
14:比較部
15:ノード割当部
20:MPIライブラリ
21:通信記録情報テーブル
22:ジョブ管理テーブル
23:通信パターン情報テーブル
24:リソース割当テーブル
100:多層フルメッシュシステム

Claims (5)

  1. Leafスイッチがフルメッシュ接続されたフルメッシュシステムが複数層連結される多層フルメッシュシステムにおいてアプリケーションの並列演算を行う並列演算装置であって、
    アプリケーションを実行したときのノード間の通信回数を記録した通信記録情報と、Leafスイッチが層内又は層間の接続関係にあるノード群のいずれを割り当てるかを示す割当情報が通信パターン毎に特定された通信パターン情報とを比較する比較部と、
    比較した前記通信記録情報が示す通信に最も類似する通信パターンの割当情報を前記通信パターン情報に基づき抽出し、該割当情報に基づき前記アプリケーションを次に実行するノード群を割り当てる割当部と、を有する並列演算装置。
  2. 前記割当部は、前記アプリケーションを最初に実行したときの通信記録情報が示す通信に最も類似する通信パターンの割当情報を前記通信パターン情報に基づき抽出する、
    請求項1に記載の並列演算装置。
  3. Leafスイッチがフルメッシュ接続されたフルメッシュシステムが複数層連結される多層フルメッシュシステムにおいてアプリケーションの並列演算を行う並列演算システムであって、
    アプリケーションを実行したときのノード間の通信回数を記録した通信記録情報と、Leafスイッチが層内又は層間の接続関係にあるノード群のいずれを割り当てるかを示す割当情報が通信パターン毎に特定された通信パターン情報とを比較する比較部と、
    比較した前記通信記録情報が示す通信に最も類似する通信パターンの割当情報を前記通信パターン情報に基づき抽出し、該割当情報に基づき前記アプリケーションを次に実行するノード群を割り当てる割当部と、を有する並列演算装置を備える、
    並列演算システム。
  4. Leafスイッチがフルメッシュ接続されたフルメッシュシステムが複数層連結される多層フルメッシュシステムにおいてアプリケーションの並列演算処理をコンピュータに実行させるためのノード割当プログラムであって、
    アプリケーションを実行したときのノード間の通信回数を記録した通信記録情報と、Leafスイッチが層内又は層間の接続関係にあるノード群のいずれを割り当てるかを示す割当情報が通信パターン毎に特定された通信パターン情報とを比較し、
    比較した前記通信記録情報が示す通信に最も類似する通信パターンの割当情報を前記通信パターン情報に基づき抽出し、該割当情報に基づき前記アプリケーションを次に実行するノード群を割り当てる、
    ノード割当プログラム。
  5. Leafスイッチがフルメッシュ接続されたフルメッシュシステムが複数層連結される多層フルメッシュシステムにおいてアプリケーションの並列演算処理をコンピュータが実行するノード割当方法であって、
    アプリケーションを実行したときのノード間の通信回数を記録した通信記録情報と、Leafスイッチが層内又は層間の接続関係にあるノード群のいずれを割り当てるかを示す割当情報が通信パターン毎に特定された通信パターン情報とを比較し、
    比較した前記通信記録情報が示す通信に最も類似する通信パターンの割当情報を前記通信パターン情報に基づき抽出し、該割当情報に基づき前記アプリケーションを次に実行するノード群を割り当てる、
    ノード割当方法。
JP2015111287A 2015-06-01 2015-06-01 並列演算装置、並列演算システム、ノード割当プログラム及びノード割当方法 Active JP6492977B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015111287A JP6492977B2 (ja) 2015-06-01 2015-06-01 並列演算装置、並列演算システム、ノード割当プログラム及びノード割当方法
US15/137,221 US10193969B2 (en) 2015-06-01 2016-04-25 Parallel processing system, method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015111287A JP6492977B2 (ja) 2015-06-01 2015-06-01 並列演算装置、並列演算システム、ノード割当プログラム及びノード割当方法

Publications (2)

Publication Number Publication Date
JP2016224756A true JP2016224756A (ja) 2016-12-28
JP6492977B2 JP6492977B2 (ja) 2019-04-03

Family

ID=57397287

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015111287A Active JP6492977B2 (ja) 2015-06-01 2015-06-01 並列演算装置、並列演算システム、ノード割当プログラム及びノード割当方法

Country Status (2)

Country Link
US (1) US10193969B2 (ja)
JP (1) JP6492977B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018198479A1 (ja) * 2017-04-26 2018-11-01 富士通株式会社 情報処理装置、情報処理方法及びプログラム
JP2019020852A (ja) * 2017-07-12 2019-02-07 富士通株式会社 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10033574B2 (en) * 2015-03-20 2018-07-24 Oracle International Corporation System and method for efficient network reconfiguration in fat-trees
US10084639B2 (en) 2015-03-20 2018-09-25 Oracle International Corporation System and method for efficient network reconfiguration in fat-trees
JP6874564B2 (ja) * 2017-06-27 2021-05-19 富士通株式会社 情報処理システム、管理装置及びプログラム
JP6915434B2 (ja) * 2017-08-01 2021-08-04 富士通株式会社 情報処理システム、情報処理方法及びプログラム
US11106439B2 (en) * 2018-05-09 2021-08-31 Nippon Telegraph And Telephone Corporation Offload server and offload program
US11227035B2 (en) * 2018-11-15 2022-01-18 International Business Machines Corporation Intelligent pattern based application grouping and activating

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020797A (ja) * 2007-07-13 2009-01-29 Hitachi Ltd 並列計算機システム
JP2010257056A (ja) * 2009-04-22 2010-11-11 Fujitsu Ltd 並列処理装置、並列処理方法及び並列処理プログラム
JP2011175573A (ja) * 2010-02-25 2011-09-08 Nec Corp クラスタシステム、プロセス配置方法、及びプログラム
JP2015232874A (ja) * 2014-05-14 2015-12-24 富士通株式会社 並列計算機システム、並列計算機システムの制御方法、及び情報処理装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5265207A (en) * 1990-10-03 1993-11-23 Thinking Machines Corporation Parallel computer system including arrangement for transferring messages from a source processor to selected ones of a plurality of destination processors and combining responses
CA2293920A1 (en) * 1999-12-31 2001-06-30 Nortel Networks Corporation Global distributed switch
US20050080894A1 (en) * 2003-10-09 2005-04-14 John Apostolopoulos Method and system for topology adaptation to support communication in a communicative environment
US7486619B2 (en) * 2004-03-04 2009-02-03 International Business Machines Corporation Multidimensional switch network
US8117288B2 (en) 2004-10-12 2012-02-14 International Business Machines Corporation Optimizing layout of an application on a massively parallel supercomputer
KR20100133003A (ko) * 2008-04-10 2010-12-20 알카텔-루센트 유에스에이 인코포레이티드 토폴로지 축약 방법, 토폴로지 축약 장치 및 라우트 제어기
US8705368B1 (en) * 2010-12-03 2014-04-22 Google Inc. Probabilistic distance-based arbitration
US8873385B2 (en) * 2010-12-07 2014-10-28 Microsoft Corporation Incast congestion control in a network
JP5617582B2 (ja) * 2010-12-08 2014-11-05 富士通株式会社 プログラム、情報処理装置、及び情報処理方法
WO2012125718A1 (en) * 2011-03-16 2012-09-20 The Trustees Of Columbia University In The City Of New York Bi-modal arbitration nodes for a low-latency adaptive asynchronous interconnection network and methods for using the same
US8370496B1 (en) * 2011-03-31 2013-02-05 Amazon Technologies, Inc. Reducing average link bandwidth in an oversubscribed environment
US9014201B2 (en) * 2011-11-09 2015-04-21 Oracle International Corporation System and method for providing deadlock free routing between switches in a fat-tree topology
WO2014205792A1 (zh) * 2013-06-28 2014-12-31 华为技术有限公司 一种建立光旁路的方法、装置和系统
US9264312B2 (en) * 2013-09-30 2016-02-16 Cisco Technology, Inc. Method and system to calculate multiple shortest path first trees

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020797A (ja) * 2007-07-13 2009-01-29 Hitachi Ltd 並列計算機システム
JP2010257056A (ja) * 2009-04-22 2010-11-11 Fujitsu Ltd 並列処理装置、並列処理方法及び並列処理プログラム
JP2011175573A (ja) * 2010-02-25 2011-09-08 Nec Corp クラスタシステム、プロセス配置方法、及びプログラム
JP2015232874A (ja) * 2014-05-14 2015-12-24 富士通株式会社 並列計算機システム、並列計算機システムの制御方法、及び情報処理装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
井出聡: "PCクラスタシステムにおけるネットワークスイッチを4割削減する技術", 電子情報通信学会誌, vol. 第97巻,第12号, JPN6018051239, 1 December 2014 (2014-12-01), JP, pages 1121 - 1122, ISSN: 0003947130 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018198479A1 (ja) * 2017-04-26 2018-11-01 富士通株式会社 情報処理装置、情報処理方法及びプログラム
JP2018185650A (ja) * 2017-04-26 2018-11-22 富士通株式会社 情報処理装置、情報処理方法及びプログラム
US11018896B2 (en) 2017-04-26 2021-05-25 Fujitsu Limited Information processing apparatus and information processing method
JP2019020852A (ja) * 2017-07-12 2019-02-07 富士通株式会社 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム

Also Published As

Publication number Publication date
US10193969B2 (en) 2019-01-29
JP6492977B2 (ja) 2019-04-03
US20160352824A1 (en) 2016-12-01

Similar Documents

Publication Publication Date Title
JP6492977B2 (ja) 並列演算装置、並列演算システム、ノード割当プログラム及びノード割当方法
Shah et al. The MDS queue: Analysing the latency performance of erasure codes
CN108463988B (zh) 用于负载均衡的网络文件访问的系统
Tan et al. Delay tails in MapReduce scheduling
US20200364608A1 (en) Communicating in a federated learning environment
Tian et al. A dynamic and integrated load-balancing scheduling algorithm for cloud datacenters
Palanisamy et al. Purlieus: locality-aware resource allocation for MapReduce in a cloud
Lee Resource allocation and scheduling in heterogeneous cloud environments
US8185905B2 (en) Resource allocation in computing systems according to permissible flexibilities in the recommended resource requirements
Chang et al. Effective modeling approach for IaaS data center performance analysis under heterogeneous workload
US9535743B2 (en) Data processing control method, computer-readable recording medium, and data processing control device for performing a Mapreduce process
US9483393B1 (en) Discovering optimized experience configurations for a software application
JP2005235019A5 (ja)
Chen et al. Understanding TCP incast and its implications for big data workloads
US10013288B2 (en) Data staging management system
Hou et al. Dynamic workload balancing for hadoop mapreduce
Liu et al. Fattreesim: Modeling large-scale fat-tree networks for hpc systems and data centers using parallel and discrete event simulation
Elshater et al. A study of data locality in YARN
Gong et al. Finding constant from change: Revisiting network performance aware optimizations on iaas clouds
US20150365474A1 (en) Computer-readable recording medium, task assignment method, and task assignment apparatus
CN108112268B (zh) 管理与自动扩展组相关的负载平衡器
Sreedhar et al. A survey on big data management and job scheduling
Voicu et al. MOMC: multi-objective and multi-constrained scheduling algorithm of many tasks in Hadoop
US20170366413A1 (en) Network evaluation program, network evaluation method, and network evaluation device
Nguyen et al. A New Technical Solution for Resource Allocation in Heterogeneous Distributed Platforms.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180306

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190218

R150 Certificate of patent or registration of utility model

Ref document number: 6492977

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150