JP2008521127A - ハイパフォーマンスコンピューティング(hpc)システムにおけるフォルトトレランス及びリカバリ - Google Patents

ハイパフォーマンスコンピューティング(hpc)システムにおけるフォルトトレランス及びリカバリ Download PDF

Info

Publication number
JP2008521127A
JP2008521127A JP2007543012A JP2007543012A JP2008521127A JP 2008521127 A JP2008521127 A JP 2008521127A JP 2007543012 A JP2007543012 A JP 2007543012A JP 2007543012 A JP2007543012 A JP 2007543012A JP 2008521127 A JP2008521127 A JP 2008521127A
Authority
JP
Japan
Prior art keywords
node
currently executing
nodes
executing node
hpc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007543012A
Other languages
English (en)
Other versions
JP5570095B2 (ja
Inventor
デヴィッドソン,シャノン,ヴイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Raytheon Co
Original Assignee
Raytheon Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=34965798&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2008521127(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Raytheon Co filed Critical Raytheon Co
Publication of JP2008521127A publication Critical patent/JP2008521127A/ja
Application granted granted Critical
Publication of JP5570095B2 publication Critical patent/JP5570095B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/203Failover techniques using migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2005Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication controllers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2025Failover techniques using centralised failover control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2046Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share persistent storage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2051Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant in regular structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)

Abstract

一実施例では、ハイパフォーマンスコンピューティング(HPC)システムにおけるフォルトトレランス及びリカバリのための方法は、複数のノードを含むHPCシステムにおける現在実行中のノードをモニタすることを有する。ファブリックは、複数のノードを互いに接続し、各ノードにアクセス可能であり、各々が何れかのノードにおいて実行可能な複数のホストを格納可能なストレージと複数のノードとを接続する。本方法は、現在実行中のノードにフォルトが発生する場合、現在実行中のノードの処理を中断し、ストレージからHPCシステムのフリーノードのホストをブート処理することからなる。

Description

発明の詳細な説明
[技術分野]
本発明は、一般にデータ処理に関し、より詳細には、HPCシステムにおけるフォルトトレランス及びリカバリに関する。
[背景]
ハイパフォーマンスコンピューティング(HPC)は、しばしば複雑な物理的又はアルゴリズム的現象をモデリング、シミュレート及び解析するため科学者やエンジニアにより使用される計算システムにより特徴付けされる。現在、HPCマシーンは、典型的には、ノードと呼ばれる1以上のプロセッサの多数のHPCクラスタを用いて設計される。大部分の大きな科学的及び技術的適用について、パフォーマンスは、個別のノードのスピードでなくパラレルスケーラビリティにより主として決定される。このため、スケーラビリティはしばしば、このようなハイパフォーマンスクラスを構築又は購入するに際して限定要因となる。スケーラビリティは、一般にはi)ハードウェア、ii)メモリ、入出力(I/O)及び通信帯域幅、iii)ソフトウェア、iv)アーキテクチャ、及びv)アプリケーションに基づくものであると考えられている。大部分の従来のHPC環境における処理、メモリ及びI/O帯域幅は、通常は良好にはバランスされておらず、このため、良好にスケーリングされない。多くのHPC環境は、ハイエンドデータ処理要求を充足するためのI/O帯域幅を有さず、又は多数の不要なコンポーネントがインストールされるブレードにより構築され、このことは、システムの信頼性を劇的に低減させる傾向がある。従って、多くのHPC環境は、製造用の環境における効率的な処理のためのロウバストなクラスタ管理ソフトウェアを提供しないかもしれない。
典型的には、コンピュータシステムがハードウェアの不具合に遭遇すると、コンピュータシステムに接続される記憶装置におけるソフトウェア及びデータは、当該不具合が解消されるまで利用不可なままである(コンピュータシステムの1以上のハードウェアコンポーネントの交換又はコンピュータシステム全体の交換を必要とするかもしれない)。科学的でありデータセンターのアプリケーションは、しばしば民生用のコンピュータシステム(PCなど)のクラスタを利用するが、このようなクラスタは、しばしばフォルトトレランス及びリカバリ機能を欠いている。
典型的には、民生用のコンピュータシステムのクラスタは、アプリケーション及びアプリケーションデータを格納するため、民生用コンピュータシステムに共有される1以上の記憶装置を有する。このようなクラスタでは、アプリケーションに課される要求はしばしば、アプリケーションがクラスタを管理するソフトウェアに一体化されるか、アプリケーションにおける処理が制限されるか、又はその両方であることを要請し、このことは、このようなクラスにおいてフォルトトレランスを提供するアプリケーションの複雑さを増大させ、このようなアプリケーションの開発に係るコストを増大させる。科学的及びデータセンターアプリケーションはしばしば、民生用コンピュータシステム(PCなど)のクラスタを利用するが、このようなクラスタはしばしば、フォルトトレランス及びリカバリ機能を欠いている。少なくとも一部のフォルトトレランスを提供するため、このようなクラスタはしばしば、イーサネット(登録商標)ネットワークにおいてネットワークファイルシステムを利用する共有ディスクシステムに依存する。このようなシステムは、アプリケーション、アプリケーションデータ又はその両方への高速アクセス性を要求するHPCシステムには不十分である。
[概要]
本発明は、HPCシステムに係る短所、問題点又はその両方を軽減又は解消するかもしれない。
一実施例では、ハイパフォーマンスコンピューティング(HPC)システムにおけるフォルトトレランス及びリカバリのための方法は、複数のノードを有するHPCシステムにおける現在実行されているノードをモニタすることを含む。複数のノードを互いに接続し、各ノードにアクセス可能であって、複数のノードの何れかにおいてそれぞれ実行可能な複数のホストを格納することが可能なストレージと複数のノードを接続するファブリック(fabric)が、提供される。本方法は、現在実行中のノードにおいてフォルトが発生した場合、現在実行中のノードの動作を中断し、ストレージからHPCシステムのフリーノードにおけるホストをブートすることを含む。
本発明の特定の実施例は、1以上の技術的効果を提供するかもしれない。一例として、特定の実施例は、民生用コンピュータシステムのクラスタにおけるフォルトトレランス及びリカバリを提供する。特定の実施例は、科学的及びデータセンター計算アプリケーションに対する民生用コンピュータシステムの実行可能なフォルトトレランス及びリカバリを提供する。特定の実施例は、科学的及びデータセンター計算アプリケーションのための民生用コンピュータシステムのクラスタにおけるコスト効果的なフォルトトレランス及びリカバリを提供する。本発明の特定の実施例は、上記技術的効果のすべて又は一部を提供し、又はその何れも提供しないかもしれない。特定の実施例は、他の1以上の技術的効果を提供するかもしれず、そのうちの1以上が、ここでの請求項、記載及び図面から当業者に容易に明らかであるかもしれない。
[発明の詳細な説明]
図1は、ソフトウェアのアプリケーション及び処理、例えば、大気シミュレーション、気象シミュレーションや衝撃シミュレーションを、HPC手法を用いて実行する高性能計算(HPC)システム100を示す構成図である。システム100は、処理性能にかなり同様なI/O性能を備えている、種々の計算ノード115の間で動的に割り当てられるHPC機能をユーザに備える。一般的に、これらのノード115は、とりわけ、この、入出力(I/O)性能の増加とファブリック・レーテンシの低減が理由で容易にスケーリング可能である。例えば、分散アークテクチャにおけるノード115のスケーラビリティは:
S(N)=1/((FP/N)+FS)*(1−Fc*(1−RR/L);
である、アムダールの法則の派生形によって表す場合があり、S(N)=Nプロセッサでの高速化であり、Fp=並列コードの割合であり、Fs=非並列コードの割合であり、Fc=通信に充てられる処理の割合であり、RR/L=遠隔メモリ帯域幅の局所メモリ帯域幅に対する比率である。したがって、HPCシステム100が、処理性能にかなり等しいか、かなり近づいているI/O性能を備えることによって、HPCシステム100はHPCアプリケーションの全体効率を向上させ、システム管理の容易化を可能にする。
HPCシステム100は、(科学者や技術者などの)ユーザがジョブ150を投入してHPCサーバ102上で処理することを可能にする分散クライアント/サーバ・システムである。例えば、システム100は、1つ又は複数の管理ワークステーション又は局所クライアント120にネットワーク106を介して接続されるHPCサーバ102を含み得る。しかし、スタンドアロン型計算環境又は何れかの別の適切な環境であり得る。要約すれば、システム100は、スケーラビリティの高いノード115を含み、かつ、ユーザが、ジョブ150を投入し、スケーラブルなノード150をジョブ150に動的に割り当て、割り当てられたノード115を用いてジョブ150を自動的に実行することを可能にする何れかのHPC計算環境である。ジョブ150は、HPC手法を用いて処理され、何れかの適切なユーザによって投入されるよう処理可能な何れかのバッチ・ジョブ又はオンライン・ジョブであり得る。例えば、ジョブ150は、シミュレーション、モデル、又は何れかの別の高性能要件に対する要求であり得る。ジョブ150は、クラスタ化データベース、オンライン・トランザクション処理システム、又はクラスタ化アプリケーション・サーバなどのデータ・センター・アプリケーションを実行する要求である場合もある。本明細書及び特許請求の範囲の原文記載の「dynamically」の語は一般的に、特定の処理が少なくとも部分的には実行時に1つ又は複数の変数に基づいて判定されるということを表す。本明細書及び特許請求の範囲の原文記載の「automatically」の語は一般的に、適切な処理がHPCシステム100の少なくとも部分によって実質的に行われるということを表す。この「automatically」の語が更に、何れかの適切なユーザ又は管理者による、システム100との相互作用を、本願の開示の範囲から逸脱することなく想定しているということが分かるものである。
HPCサーバ102は、複数の、バランスされたノード115及びクラスタ管理ノード130を用いてジョブ150を処理するよう動作可能な何れかの、局所コンピュータ又は遠隔コンピュータを備える。一般的に、HPCサーバ102は、ブレード・サーバ又は別の分散サーバなどの分散コンピュータを備える。サーバ102は、その構成がどんなものであっても、複数のノード115を含む。ノード115は、例えば、ブレード、汎用パーソナル・コンピュータ(PC)、マッキントッシュ、ワークステーション、ユニックス(Unix(登録商標))ベースのコンピュータ、又は何れかの別の適切な装置などの何れかのコンピュータ装置又は処理装置を備える。一般的に、図1は、本願の開示とともに用い得るコンピュータの一例に過ぎないものを備える。例えば、図1は本願開示とともに用い得る一サーバ102を示すが、システム100は、サーバ以外のコンピュータや、サーバ・プールを用いて実施することが可能である。すなわち、本願の開示は、汎用コンピュータ以外のコンピュータや、通常のオペレーティング・システムなしのコンピュータを想定している。本明細書及び特許請求の範囲の原文において用いているように、「computer」の語は、パーソナル・コンピュータ、ワークステーション、ネットワーク・コンピュータ、又は何れかの別の適切な処理装置に及ぶことが意図されている。HPCサーバ102又はコンポーネント・ノード115は、リナックス(Linux)、ユニックス(Unix(登録商標))、ウィンドウズ(登録商標)・サーバ、又は何れかの別の適切なオペレーティング・システムを含む何れかのオペレーティング・システムを実行するよう形成し得る。一実施例によれば、HPCサーバ102は、遠隔ウェブ・サーバを含んでいてもよく、遠隔ウェブ・サーバに通信可能に結合されていてもよい。したがって、サーバ102は、ノード115を動的に割り当ててHPCジョブ150を処理するのに適した何れかの組み合わせでソフトウェア及び/ハードウェアを備えている何れかのコンピュータを備え得る。
概略を述べれば、HPCサーバ102は、管理ノード105、複数のノード115を備えるグリッド110、及びクラスタ管理エンジン130を含む。特に、サーバ102は、i)デュアル・プロセッサと、ii)大容量の、高帯域幅のメモリと、iii)デュアル・ホスト・チャネル・アダプタ(HCA)と、iv)統合ファブリック・スイッチングと、v)FPGAサポートと、vi)冗長な電源入力すなわちN+1の電源との構成部分の一部又は全部を備えている複数のブレード(ノード115)を含む標準の19インチのラックであり得る。これらの種々の構成部分によって、障害がノード・レベルに限定されることが可能になる。しかし、HPCサーバ102及びノード115がこれらの構成部分を全部含まない場合があるということが分かるものである。
管理ノード105は実質的に専ら、管理者を管理するか支援する少なくとも1つのブレードを備える。例えば、管理ノード105は2つのブレードを備える場合があり、2つのブレードのうちの1つは(アクティブ構成/パッシブ構成などの)冗長性を有する。一実施例では、管理ノード105は、HPCノード115と同じ種類のブレード又は計算装置であり得る。しかし、管理ノード105は、少なくとも部分的にグリッド110を管理するよう動作可能な状態にとどまっている限り、何れかの数の回路を含み、何れかの適切な方法で構成される何れかのノードであり得る。多くの場合、管理ノード105は、グリッド110に併せて表している複数のHPCノード115から物理的又は論理的に分離されている。図示する実施例では、管理ノード105は、グリッド110にリンク108を介して通信可能に結合し得る。リンク108は、何れかの適切な通信プロトコルを実施する何れかの通信管路を備え得る。一実施例では、リンク108は管理ノード105とグリッド110との間の、ギガビット又は10ギガビットのイーサネット(登録商標)通信を備える。
グリッド110は、処理能力を向上させるよう相互接続されるノード群115である。グリッドは、通常、3次元トーラスであるが、本願の開示の範囲から逸脱することなく、メッシュ、超立方体、又は何れかの別の形状若しくは構成であり得る。グリッド110におけるノード115間のリンクは、例えばファイバ又は銅などの、電気信号又は電磁気信号を伝達することが可能な、直列又は並列の、アナログ・リンク、ディジタル・リンク、又は何れかの別の種類のリンクを備え得る。各ノード115は統合スイッチによって構成される。このことによって、ノード115が3次元トーラスの基本的な構成体により容易になることを可能にし、別のノード115間のXYZ距離を最小にすることに寄与する。更に、このことは、最大でギガビット・レベルの速度での大容量システムで銅線を機能させる場合があり、一部の実施例では、最長のケーブルは5メートル未満である。要約すれば、ノード115は、一般的に、最短距離の通信とI/O帯域幅の増加とに最適化される。
各ノード115は、クラスタ管理エンジン130と通信可能に結合されるクラスタ・エージェント132を含み得る。一般的には、エージェント132は要求又はコマンドを管理ノード105及び/又はクラスタ管理エンジン130から受信する。エージェント132は、ノード115の物理ステータスを判定し、処理データを「ハートビート」などによって管理ノード105に通信するよう動作可能な何れかのハードウェア、ソフトウェア、ファームウェア、又はそれらの組み合わせを含み得る。別の実施例では、管理ノード105は、エージェント132を周期的にポーリングして関連ノード115のステータスを判定し得る。エージェント132は、クラスタ管理エンジン130の少なくとも部分と互換である状態のままである限り、例えば、C、C++、アセンブラ、ジャバ(Java(登録商標))、ビジュアル・ベーシック(Visual Basic)及び他の言語又はそれらの組み合わせなどの何れかの適切なコンピュータ言語で書かれる場合がある、すなわち記述される場合がある。
クラスタ管理エンジン130は、ノード115を動的に、割り当て、管理し、ノード115を用いてジョブ150を実行するよう動作可能な、何れかのハードウェア、ソフトウェア、ファームウェア、又はそれらの組み合わせを含み得る。例えば、クラスタ管理エンジン130は、C、C++、ジャバ、ビジュアル・ベーシック、アセンブラ、4GLの何れかの適切なバージョン、及びその他の言語又はそれらの何れかの組み合わせにおいて作成すなわち記述される場合がある。クラスタ管理エンジン130を図1に単一のマルチタスク・モジュールとして示しているが、このエンジンによって行われる特徴と機能は、(図7に更に詳細に表すように)例えば、物理層モジュール、仮想層モジュール、ジョブ・スケジューラ、及びプレゼンテーション・エンジンなどの、複数のモジュールによって行い得る。更に、管理ノード105の外部に示すが、管理ノード105は通常、クラスタ管理エンジン130と関連する1つ又は複数の処理を実行し、クラスタ管理エンジン130を記憶させ得る。更に、クラスタ管理エンジン130は、本願の開示の範囲から逸脱することなく、別のソフトウェア・モジュールの子モジュールすなわちサブモジュールであり得る。したがって、クラスタ管理エンジン130は、ノード115とジョブ150とをインテリジェントに管理するよう動作可能な1つ又は複数のソフトウェア・モジュールを備える。特定の実施例では、クラスタ管理エンジンは、以下に説明するように、ジョブ150にノード115を割り当てるスケジューラ515を含む。スケジューラ515は、以下に更に説明するように、ジョブ150にノード115を割り当てるスケジューリング・アルゴリズムを用い得る。
サーバ102は、クライアント・サーバ環境又は別の分散環境においてネットワーク106を介してクライアント120などの別のコンピュータ・システムと通信するインタフェース104を含み得る。特定の実施例では、サーバ102はジョブ150又はジョブ・ポリシーをネットワーク106から受信してディスク・ファーム140に記憶させる。ディスク・ファーム140は、ノードを相互接続するものと同じ広帯域インタフェースを用いて計算アレイに直接接続される場合もある。一般的には、インタフェース104は、適切な組み合わせにおける、ネットワーク106と通信するよう動作可能な、ソフトウェア及び/又はハードウェアにコード化される論理を備える。特に、インタフェース104は、物理的信号を通信するよう動作可能な通信ネットワーク106又はハードウェアに関連した1つ又は複数の通信プロトコルをサポートするソフトウェアを備え得る。
ネットワーク106は、コンピュータ・サーバ102と、クライアント120などの何れかの別のコンピュータとの間の無線通信又は有線通信を容易にする。実際に、サーバ102とクライアント120との間に存在するものとして図示しているが、ネットワーク106は、本願の開示の範囲から逸脱することなく、種々のノード115間に存在する場合もある。すなわち、ネットワーク106は、種々の計算構成部分間での通信を容易にするよう動作可能な何れかのネットワーク又はサブネットワークに及ぶ。ネットワーク106は、例えば、インターネット・プロトコル(IP)パケット、フレーム・リレイ・フレーム、非同期転送モード(ATM)・セル、音声、データ、及び別の適切な情報をネットワーク・アドレス間で通信し得る。ネットワーク106は、1つ又は複数の場所での、1つ又は複数の、ローカル・エリア・ネットワーク(LAN)、無線アクセス・ネットワーク(RAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネットとして知られるグローバル・コンピュータ・ネットワークの全部若しくは一部、及び/又はいずれかの別の通信システムを含み得る。
一般的には、ディスク・ファーム140は、ジョブ150、プロファイル、ブート画像、又は別のHPC情報を記憶させる何れかのメモリ、データベース又はストレージ・エリア・ネットワーク(SAN)である。図示する実施例によれば、ディスク・ファーム140は、1つ又は複数のストレージ・クライアント142を含む。ディスク・ファーム140は、いくつかの通信プロトコル、例えば、インフィニバンド(InfiniBand)(IB)、ギガビット(Gigabit)・イーサネット(登録商標)(Ethernet(登録商標))(GE)、又はファイバチャネル(FibreChannel)(FC)
のうちの何れかによってデータ・パケットを処理し、ルーティングする場合がある。データ・パケットは通常、ディスク・ファーム140内のデータを伝送するのに用いられる。データ・パケットは、発信元識別子と宛て先識別子とを有するヘッダを含み得る。発信元識別子、例えば、発信元アドレスは情報の発信元を識別し、宛て先識別子、例えば宛て先アドレスは情報の受信先を識別する。
クライアント120は、ジョブ投入画面又はアドミニストレーション(管理)画面がユーザにグラフィカル・ユーザ・インタフェース(GUI)126を介して提示されるよう動作可能な何れかの装置である。概略を述べれば、図示するクライアント120は、少なくともGUI126を含み、システム100に関連した何れかの適切なデータを受信し、送信し、処理し、記憶するよう動作可能な電子計算機装置を備える。通信可能にサーバ102に結合される何れかの数のクライアント120が存在する場合があるということが分かるものである。更に、「client 120」及び「user of client 120」は、本願の開示の範囲から逸脱することなく、適宜、同義で用い得る。更に、図示を容易にするよう、各クライアントは1つのユーザによって用いられるという点で表している。しかし、多くのユーザが1つのコンピュータを用いて、ジョブ150を同じGUI126を用いて通信し得る。
本願の開示に記載のように、クライアント120は、パーソナル・コンピュータ、タッチ画面端末、ワークステーション、ネットワーク・コンピュータ、キオスク、無線データ・ポート、携帯電話、携帯情報端末(PDA)、これら若しくは別の装置の内部の1つか複数のプロセッサ、又は何れかの別の適切な処理装置に及ぶことが意図されている。例えば、クライアント120は、情報を受け入れることが可能な、キーパッド、タッチ画面、マウス、又は別の装置などの入力装置、ディジタル・データ、視覚情報を含む、サーバ102若しくはクライアント120の処理に関連した情報を伝える出力装置、又はGUI126を含むコンピュータを備え得る。入力装置も出力装置も、磁気コンピュータ・ディスクなどの固定記憶媒体又は取り外し可能記憶媒体、CD−ROM、又は別の適切な媒体を含んで、アドミニストレーション画面及びジョブ投入画面、すなわちGUI126を介してクライアント120のユーザからの入力を受信し、出力をそのユーザに備え得る。
GUI126は、i)クライアント120のユーザがシステム100とインタフェースをとって1つ又は複数のジョブ150を投入する工程;及び/又はii)システム管理者(又はネットワーク管理者)がクライアント120を用いて、何れかの適切な監視目的でシステム100とインタフェースをとる工程;を可能にするよう動作可能なグラフィカル・ユーザ・インタフェースを備える。一般的に、GUI126は、HPCシステム100によって備えられるデータの効率的でかつユーザ・フレンドリな提示をクライアント120のユーザに備える。GUI126は、ユーザによって操作される双方向フィールド、プルダウン・リスト、及びボタンを有する複数のカスタム化可能なフレームすなわち表示を備え得る。一実施例では、GUI126は、種々のジョブ・パラメータ・フィールドを表示し、クライアント120のユーザからのコマンドを入力装置のうちの1つを介して受信するジョブ投入ディスプレイ(表示)を表示させる。代替的に、又は組み合わせによって、GUI126は、ノード115の物理ステータス及び論理ステータスを図6A乃至6Bに示すようにシステム管理者に提示し、種々のコマンドを管理者から受信する場合がある。管理者コマンドは、ノードを利用可能(不能)なものとして印しを付けるコマンド、保守するようノードをシャットダウンさせるコマンド、ノードを再ブートするコマンド、又は何れかの別の適切なコマンドを含み得る。更に、グラフィカル・ユーザ・インタフェース(graphical user interface)の語を単数形か複数形で用いて、1つ又は複数のグラフィカル・ユーザ・インタフェースと、特定のグラフィカル・ユーザ・インタフェースの表示の各々を表し得るということが分かるものである。したがって、GUI126は、情報をシステム100において処理し、結果をユーザに効率的に提示する、一般的なウェブ・ブラウザなどの何れかのグラフィカル・ユーザ・インタフェースを想定している。サーバ102は、クライアント120からのデータをウェブ・ブラウザ(例えば、マイクロソフト(Microsoft)社のインターネット・エクスプローラ(Internet Explorer)又はネットスケープ(Netscape)社のナビゲータ(Navigator))を介して受け入れ、適切なHTML応答又はXML応答をネットワーク106を用いて戻すことが可能である。
処理の一特徴では、HPCサーバ102はまず、初期化すなわちブートされる。この処理中に、クラスタ管理エンジン130は、グリッド110におけるノード115の存在、状態、位置、及び/又は別の特性を判定する。上記のように、このことは、各ノードが初期化されるか、管理ノード105によってほぼ即時にポーリングされると、通信される「ハートビート」に基づく場合がある。次に、クラスタ管理エンジン130は、グリッド110の種々の部分を1つ又は複数の仮想クラスタ220に、例えば、所定のポリシーに基づいて動的に割り当て得る。一実施例では、クラスタ管理エンジン130は、考えられる障害についてノード115を継続して監視し、ノード115のうちの1つに障害が起こったということを判定すると、種々の回復手法のうちの何れかを用いて障害を効果的に管理する。クラスタ管理エンジン130が一意の実行環境を仮想クラスタ220の割り当てノード毎に管理し、備える場合もある。実行環境は、ホスト名、IPアドレス、オペレーティング・システム、構成サービス、局所ファイル・システム並びに共有ファイル・システム、及びインストールされているアプリケーション群並びにデータ群を含み得る。クラスタ管理エンジン130は、関連ポリシーによって、かつ優先度などのクラスタ間ポリシーによってノードを仮想クラスタ220から動的に加算するか減算する場合がある。
ユーザは、クライアント120にログオンする場合、GUI126を介してジョブ投入画面が提示される場合がある。ユーザがジョブ・パラメータを入力し、ジョブ150を投入すると、クラスタ管理エンジン130はジョブ投入、関連パラメータ、及び、ジョブ150、ユーザ又はユーザ群と関連した何れかの所定のポリシーを処理する。クラスタ管理エンジン130は更に、適切な仮想クラスタ220を、少なくとも部分的にはこの情報に基づいて判定する。エンジン130は更に、ジョブ空間230を仮想クラスタ220内に割り当て、ジョブ150を割り当てノード115にわたってHPC手法を用いて実行する。少なくとも部分的にはこの向上されたI/O性能に基づいて、HPCサーバ102はジョブ150の処理をよりすばやく完了し得る。完了すると、クラスタ管理エンジンは結果160をユーザに通信する。
図2はノード(又はブレード)115の例を示す。ノード115は、1つ又は複数のジョブ150の、スレッド又は処理などの全部又は一部を処理するよう、何れかの向きでの何れかの計算装置を含む。制約ではなく例として、ノード115は、ゼオン(XEON)マザーボード、オプテロン(OPTERON)マザーボード、又は別の計算装置を含み得る。ノード115は、グリッド110におけるノード115にわたってスイッチング機能を分散させることを可能にする統合ファブリックを備えるアーキテクチャを有する。特定の実施例では、グリッド110におけるノード115にわたってそのような機能を分散させることはグリッド110における集中スイッチングを妨げる場合があり、そのことは同様に、グリッド110におけるフォールト・トレランスを向上させ、グリッド110におけるノード115間の並列通信を可能にする。
ノード115は、2つのCPU164と、スイッチ(又はファブリック)166を含む。ノード115への言及は、適宜、2つのCPU164と、スイッチ166とに及び得る。ノード115への言及は、適宜、CPU164のみに及び得る。スイッチ166は、統合スイッチであり得る。特定の実施例では、スイッチ166は24個のポートを有する。スイッチ166上の2つのポートは、ノード115との間の入出力を行うよう、ノード115を管理ノード105に結合し得る。更に、グリッド110における3次元メッシュ、3次元トーラス、又は別のトポロジの実施を容易にするよう、スイッチ166上の2つのポートは各々、グリッド110のx軸に沿ってノード115を別のノード115に結合する場合があり、スイッチ166上の2つのポートは各々、グリッド110のy軸に沿ってノード115を別のノード115に結合する場合があり、スイッチ166上の2つのポートは各々、グリッド110のz軸に沿ってノード115を別のノード115に結合する場合がある。更に、スイッチ166上の別のポートはノード115を別のノード115にグリッド110において結合して、グリッド110における(4次元トーラス又は4つ以上の次元を含む別の非伝統的なトポロジなどの)多次元トポロジの実施を容易にする場合がある。特定の実施例では、スイッチ166上の1つ又は複数のポートは、ノード115を1つ又は複数の別のノード115にグリッド110の1つ又は複数の対角線軸に沿って結合する場合があり、そのことは、ノード115と、ノード115から比較的遠いところにある1つ又は複数の別のノード115との間の通信ジャンプ又は通信ホップを削減し得る。制約ではなく例として、スイッチ166上のポートは、ノード115からいくつかの3次元ジュンプ離れたところにある、グリッド110の北東軸に沿って存在する別のノード155に結合し得る。特定の実施例では、スイッチ166はインフィニバンド(InfiniBand)・スイッチである。特定のスイッチ166を図示し、説明したが、本発明は何れかの適切なスイッチ166を想定している。
リンク168aはCPU164aをスイッチ166に結合する。リンク168bはCPU164aを以下に説明するように、別のノード115における別のスイッチ166に結合する。リンク168cはCPU164bをスイッチ166に結合する。リンク168dはCPU164bを、以下に説明するように別のスイッチ166に結合する。リンク168eと168fは、スイッチ166を、以下に更に説明するように、別のノード115における2つの別のCPU164に結合する。特定の実施例では、リンク168は、各方向に毎秒約1ギガバイトを通信することができるインフィニバンド4Xリンクを含む。特定のリンク168を示し、説明したが、本発明は何れかの適切なリンク168を想定している。リンク170は、ノード115へのI/Oリンクである。リンク170は、各方向に毎秒約1ギガバイトを通信することができるインフィニバンド4Xリンクを含む。特定のリンク170を示し、説明したが、本発明は何れかの適切なリンク170を想定している。リンク172は、スイッチ166を、以下に説明するように、別のノード115における別のスイッチ166にスイッチ166を結合する。特定の実施例では、リンク172は、各方向に毎秒約3ギガバイトを通信することができるインフィニバンド12Xリンクを含む。特定のリンク172を示し、説明したが、本発明は何れかの適切なリンク172を想定している。
図3は、ノード115におけるCPU164の例を示す。CPU 164の例を示し、説明したが、本発明は何れかの適切なCPU164を想定している。CPU164は、プロセッサ174、メモリ・コントローラ・ハブ(MCH)176、メモリ装置178、及びホスト・チャネル・アダプタ(HCA)180を含む。プロセッサ174は、ハードウェア構成部分、ソフトウェア構成部分、組み込み論理構成部分又は2つ以上のそのような構成部分の組み合わせを含む。特定の実施例では、プロセッサ174は、インテル(INTEL)社によるNOCONA(ノコナ)XEON(ゼオン)プロセッサ174である。特定の実施例では、プロセッサ174は、約1メガバイトのキャッシュを有し、毎秒約7.2ギガフロップが可能な約3.6ギガヘルツのプロセッサである。特定の実施例では、プロセッサ174は、ハイパスレッディングを備える。特定の実施例では、プロセッサ174は、メモリ帯域幅の効率的な利用を備えるメモリ・コントローラを含む。特定のプロセッサ174を示し、表したが、本発明は何れかの適切なプロセッサ174を想定している。
バス182はプロセッサ174とMCH176とをお互いに結合する。特定の実施例では、バス182は、毎秒約6.4ギガバイトを通信することができる約800MHzのフロント・サイド・バス(FSB)である。特定のバス182を示し、説明したが、本発明は何れかの適切なバス182を想定している。MCH176は、プロセッサ174と、メモリ装置178などの、HPCシステム100の1つ又は複数の別の構成部分との間の通信を容易にする、ハードウェア構成部分、ソフトウェア構成部分、若しくは組み込み論理構成部分、又は2つ以上のそのような構成部分の組み合わせを含む。特定の実施例では、MCH176は、プロセッサ174と、メモリ装置178、バス182、レベル2(L2)キャッシュ及び、CPU164の1つ又は複数の別の構成部分のうちの1つ又は複数のものとの間の通信を制御するCPU164用のノースブリッジである。特定の実施例では、MCH176は、リンデンハースト(LINDENHURST)E7520MCH176である。特定の実施例では、メモリ装置178はMCH176に別個に結合される2つのダブル・データ・レート(DDR)のメモリ装置を含む。制約ではなく例として、メモリ装置178は、その各々が、チャネル毎に毎秒約3.2ギガバイトが可能なその2つのDDR2−400メモリを含み得る。特定のメモリ装置178を示し、説明したが、本発明は何れかの適切なメモリ装置178を想定している。
特定の実施例では、リンクは、プロセッサ174と、ICHに結合される基本I/Oシステム(BIOS)と、ICHに結合される、ギガビット(Gigabit)・イーサネット(登録商標)(Ethernet(登録商標))(GbE)コントローラ又は別のイーサネット(登録商標)(Ethernet(登録商標))・インタフェースとの何れか又は両方などの、HPCシステム100の1つ又は複数の別の構成部分との間のI/Oを容易にする1つ又は複数のハードウェア構成部分、ソフトウェア構成部分、又は組み込み論理構成部分を含むI/Oコントローラ・ハブ(ICH)にMCH176を結合する。特定の実施例では、ICHは、CPU164のI/O機能を制御するCPU164用のサウスブリッジである。ICHに結合されるイーサネット(登録商標)・インタフェースは、ICHと、イーサネット(登録商標)・インタフェースに結合されるベースボード管理コントローラ(BMC)との間の通信を容易にし得る。特定の実施例では、HPCシステム100の管理ノード105又は別の構成部分は、1つ又は複数のそのようなBMCを含む。特定の実施例では、リンクはイーサネット(登録商標)・インタフェースをスイッチに結合し、それによって1つ又は複数のGbE管理ポートへのアクセスを備える。
バス184は、MCH176とHCA180とをお互いに結合する。特定の実施例では、バス184は、毎秒約4ギガバイトを通信することが可能なPCI−Express(エクスプレス)8Xバス184などの、端末構成部分相互接続(PCI)バス184である。特定のバス184を図示し、説明したが、本発明は何れかの適切なバス184を想定している。HCA180は、CPU164にチャネル・ベースのI/Oを備える、ハードウェア構成部分、ソフトウェア構成部分、若しくは組み込み論理構成部分、又は2つ以上のそのような構成部分の組み合わせを含む。特定の実施例では、HCA180はメラノックス(MELLANOX)社のインフィニバンドHCA180である。特定の実施例では、HCA180は、ノード115におけるスイッチ166に対して処理構成要素(PE)毎に約1.85ギガバイトを可能にし、基本I/Oシステム(BIOS)、イーサネット(登録商標)・インタフェース又は別のI/OなどのI/OにPE毎に対して約800メガバイトを可能にする場合がある、毎秒約2.65ギガバイトの帯域幅を備える。特定の実施例では、HCA180は、スイッチ166での帯域幅が毎秒約3.7ギガバイトに達して、ピーク時で毎秒約13.6ギガフロップとなることと、スイッチ166でのI/O速度がギガフロップ毎約50メガバイトに達してフロップ毎約0.27バイトとなることとの何れか又は両方を可能にする。特定のHCA180を示し、説明したが、本発明は何れかの適切なHCA180を想定している。各リンク168は、HCA180をスイッチ166に結合する。リンク168aは、以下に説明するように、HCA180に対して1次のスイッチ166である第1スイッチ166にHCA180を結合する。特定の実施例では、HCA180を含むノード115は、第1スイッチ166を含む。リンク168bは、以下に説明するように、HCA180に対して2次のスイッチである第2スイッチ166にHCA180を結合する。特定の実施例では、HCA180を含まないノード115は、以下に説明するように、第2スイッチ166を含む。
図4は、2つのスイッチ166と4つのプロセッサ174とを含むノード対186の例を示す。ノード対186におけるスイッチ166は、お互いに対して冗長であり、そのことはノード対186でのフォールト・トレランスを向上させ得る。ノード対186における第1スイッチ166が適切に機能していない場合、ノード対186における第2スイッチ166がノード対186における4つのCPU全てにスイッチングを備え得る。ノード対186では、スイッチ166aは、CPU164aと164bとに対しては1次スイッチ166であり、CPU164cと164dとに対しては2次スイッチ166である。スイッチ166bは、CPU164cと164dとに対して1次スイッチ166であり、CPU164aと164bとに対して2次スイッチ166である。両方のスイッチ166aと166bが適切に機能している場合、スイッチ166aはCPU164aと164bとにスイッチングを備える場合があり、スイッチ166bはCPU164cと164dとにスイッチングを備え得る。スイッチ166aが適切に機能しているが、スイッチ166bが適切に機能していない場合、スイッチ166aは、CPU164a、164b、164c及び164dにスイッチングを備え得る。スイッチ166bが適切に機能しているが、スイッチ166aが適切に機能していない場合、スイッチ166bがCPU164a、164b、164c、及び164dにスイッチングを備え得る。
リンク172は、グリッド110におけるノード対186の外部の6つのノード115にノード対186における各ノード115を結合する。制約ではなく例として、スイッチ166aでのリンク172aは、グリッド110におけるノード115aのノース(北)方向にあるノード対186の外部の第1ノード115にノード115aを結合し、スイッチ166aでのリンク172bは、グリッド110におけるノード115aのサウス(南)方向にあるノード対186の外部の第2ノード115にノード115aを結合し、スイッチ166aでのリンク172cは、グリッド110におけるノード115aのイースト(東)方向にあるノード対186の外部の第3ノード115にノード115aを結合し、スイッチ166aでのリンク172dは、グリッド110におけるノード115aのウエスト(西)方向にあるノード対186の外部の第4ノード115にノード115aを結合し、スイッチ166aでのリンク172eは、グリッド110におけるノード115aの上にあるノード対186の外部の第5ノード115にノード115aを結合し、スイッチ166aでのリンク172fは、グリッド110におけるノード115aの下にあるノード対186の外部の第6ノード115にノード115aを結合する。特定の実施例では、リンク172は、お互いに異なるノード対186の外部のノード115群にノード対186におけるノード115a及び115bを結合する。制約ではなく例として、スイッチ166aでのリンク172は、ノード対186の外部の第1ノード115、ノード対186の外部の第2ノード115、ノード対186の外部の第3ノード115、ノード対186の外部の第4ノード115、ノード対186の外部の第5ノード115、及びノード対186の外部の第6ノード115を含む、ノード対186の外部の、第1の6つのノード115の群をノード115aに結合し得る。スイッチ166bでのリンク172は、ノード対186の外部の第7ノード115、ノード対186の外部の第8ノード115、ノード対186の外部の第9ノード115、ノード対186の外部の第10ノード115、ノード対186の外部の第11ノード115、及びノード対186の外部の第12ノード115を含む、ノード対186の外部の、第2の6つのノード115の群をノード115bに結合し得る。
特定の実施例では、リンク172は、第1端の反対側の、グリッド110の第2端に隣接する第2ノード115にグリッド110の第1端に隣接する第1ノード115を結合し得る。制約ではなく例として、グリッド110の左端に隣接する第1ノード115と、グリッド110の左端の反対側にある、グリッド110の右端に隣接する第2ノード115を検討する。リンク172は、グリッド110における、第2ノード115の位置に対する第1ノード115の位置にもかかわらず、第1ノード115が第2ノード115のイースト方向にあり、第2ノード115が第1ノード115のウエスト方向にあるように、第1ノード115と第2ノード115とをお互いに結合し得る。別の例として、グリッド110の前端に隣接する第1ノード115と、グリッド110の前端の反対側にある、グリッド110の後端に隣接する第2ノード115を検討する。リンク172は、グリッド110における、第2ノード115の位置に対する第1ノード115の位置にもかかわらず、第1ノード115が第2ノード115のサウス方向にあり、第2ノード115が第1ノード115のノース方向にあるように、第1ノード115と第2ノード115とをお互いに結合し得る。更に別の例として、グリッド110の上端に隣接する第1ノード115と、グリッド110の上端の反対側にある、グリッド110の下端に隣接する第2ノード115を検討する。リンク172は、グリッド110における、第2ノード115の位置に対する第1ノード115の位置にもかかわらず、第1ノード115が第2ノード115の下にあり、第2ノード115が第1ノード115の上にあるように、第1ノード115と第2ノード115とをお互いに結合し得る。
図5A乃至図5Dは、システム100におけるグリッド110とその利用又はトポロジの種々の実施例を示す。図5Aは、複数のノード種類を用いたグリッド110の一構成、すなわち3次元トーラスを示す。例えば、図示するノード種類は外部I/Oノード、ファイル・システム(FS)サーバ、FSメタデータ・サーバ、データベース・サーバ、及び計算ノードである。図5Bは、グリッド110の「フォールディング(畳むこと)」の例を示す。フォールディングは一般的に、グリッド110の1つの物理的な先端が、相当する軸方向の先端と接続し、それによってより頑健なトポロジすなわちエッジレス・トポロジを備えることを可能にする。この実施例では、ノード115は、ラップアラウンドされて、ノード・ライン216によるほぼシームレスなトポロジ接続を備える。ノード・ライン216は、2つ以上のノード115を相互接続する何れかの通信プロトコルを実施する何れかの適切なハードウェアであり得る。例えば、ノード・ライン216はギガビット・イーサネット(登録商標)を実施する銅線ケーブル又は光ファイバ・ケーブルであり得る。特定の実施例では、上記のように、ノード・ライン216は、1つ又は複数のリンク172を含む。
図5Cは、そのグリッド110内に割り当てられる1つの仮想クラスタ220を備えているそのグリッド110を示す。1つの仮想クラスタ220しか示していないが、本願の開示の範囲から逸脱することなく、グリッド110における仮想クラスタ220の(ゼロを含む)何れかの数であり得る。仮想クラスタ220は、関連ジョブ150を処理する論理的なノード群115である。例えば、仮想クラスタ220は、同様なジョブ150を投入すると思われる、1つの研究グループ、部署、研究所、又は何れかの別のユーザ群と関連し得る。仮想クラスタ220は、何れかの形状であり得るものであり、グリッド110内に何れかの数のノード115を含み得る。実際に、図示する仮想クラスタ220が複数の物理的に隣接しているノード115を含んでいるが、クラスタ220は、ジョブ150を処理するよう動作可能な論理的に関連したノード115の分散クラスタであり得る。
仮想クラスタ220は、何れかの適切な時点で割り当て得る。例えば、クラスタ220は、システム100が初期化されると、例えば起動パラメータに基づいて割り当ててもよく、例えば、変動する、サーバ102のニーズに基づいて動的に割り当ててもよい。更に、仮想クラスタ220は経時的にその形状とサイズとを変えて、変動するリクエスト、デマンド、及び状況にすばやく対応し得る。例えば、仮想クラスタ220は、動的に変動させて、先行時点ではクラスタ220の部分であった第2ノード115の障害に応じて自動的に割り当てられる第1ノード115を含み得る。特定の実施例では、クラスタ220は、ノード115を処理の要求に応じて共有し得る。特定の実施例では、スケジューラ515が、以下に説明するように、スケジューリング・アルゴリズムによって1つ又は複数のジョブ150に1つ又は複数の仮想クラスタ220を割り当て得る。
図5Dは、仮想クラスタ220例の内部に割り当てられる種々のジョブ空間230a及び230b各々を示す。一般的には、ジョブ空間230は、受信ジョブ150を完了するよう動的に割り当てられる仮想クラスタ220内のノード115の群である。通常、実行ジョブ150毎に1つのジョブ空間230が存在し、逆もあてはまるが、本願の開示の範囲から逸脱することなく、ジョブ空間230はノード115を共有し得る。ジョブ空間230の寸法は、ユーザ又は管理者によって手作業で入力してもよく、ジョブ・パラメータ、ポリシー、及び/又は何れかの別の適切な特性に基づいて動的に判定してもよい。特定の実施例では、スケジューラ515は、以下に説明するように、スケジューリング・アルゴリズムによってジョブ空間230の1つ又は複数の寸法を判定し得る。
図6A及び図6Bは、システム100による、管理グラフィカル・ユーザ・インタフェース400の種々の実施例を示す。多くの場合、管理GUI400は、クライアント120にGUI126を用いて提示される。一般的に、管理GUI400は、種々の管理用対話画面若しくは管理用対話ディスプレイをシステム管理者に提示するもの及び/又は種々のジョブ投入画面若しくはジョブ・プロファイル画面をユーザに提示するものである。これらの画面又はディスプレイは、種々の収集情報表示に組み立てられるグラフィカル構成要素から成る。例えば、GUI400は、(図6Aに示す)グリッド110の物理的状態の表示、又は(図6Bに示す)グリッド110におけるノード115の論理的な、割り当てすなわちトポロジの表示を提示し得る。
図6Aは例示的ディスプレイ400aを示す。ディスプレイ400aは、ノード115を効果的に管理するよう、管理者に提示される情報を含み得る。例示的実施例は、グリッド110の論理的な、「ピクチャ」すなわちスクリーンショットを備えている標準的なウェブ・ブラウザを含む。例えば、このピクチャはグリッド110と構成ノード115との物理的な状態を備え得る。各ノード115が何れかの数の色のうちの1つであり、各色が種々の状態を表す場合がある。例えば、障害ノード115が赤色であり、利用ノード又は割り当てノード115が黒色であり、非割り当てノード115がシェード・カラーである場合がある。更に、ディスプレイ400aは、管理者が、ノード115のうちの1つの上にポインタを移動させ、その種々の物理的属性を視ることを可能にし得る。例えば、管理者には、「ノード」、「利用可能性」、「プロセッサ利用率」、「メモリ利用率」、「温度」、「物理位置」、及び「アドレス」を含む情報が備えられる場合がある。当然、これらは例示的なデータ・フィールドに過ぎず、何れかの適切な物理ノード情報又は論理ノード情報が管理者用ディスプレイであり得る。ディスプレイ400aは、管理者が、グリッド110の表示を回転させるか何れかの別の適切な関数を行うことを可能にする場合もある。
図6Bは例示的なディスプレイ400bを示す。ディスプレイ400bは、グリッド100の論理的な状態の表示すなわちピクチャを提示する。図示する実施例は、グリッド110内に割り当てられる仮想クラスタ220を提示する。ディスプレイ400bは更に、1つ又は複数のジョブ150を実行するよう、クラスタ220内に割り当てられる2つの例示的なジョブ空間230を表示する。ディスプレイ400bは、管理者に、(割り当て又は非割り当てなどの)種々の状態によってグループ化されるノード115の数を視るよう、ポインタをグラフィカル仮想クラスタ220上に移動させることを可能にし得る。更に、管理者は、適切なジョブ情報が提示されるようにジョブ空間230のうちの1つの上にポインタを移動させ得る。例えば、管理者は、ジョブ名、開始時間、ノード数、推定終了時間、プロセッサ利用度、I/O利用度他を視ることができる場合がある。
(例示的ディスプレイ400a及び400b各々によって上記に表す)管理GUI126が例示的な目的のためのものにすぎず、図示するグラフィカル構成要素、更には図示しない別の管理構成要素を何ら含まない場合があり、それらの構成要素の一部又は全部を含む場合もあるということが分かるものである。
図7は、システム100による、クラスタ管理エンジン130の一実施例を示す。この実施例では、クラスタ管理エンジン130は、複数のサブモジュール又は構成部分、すなわち、物理マネージャ505、仮想マネージャ510、ジョブ・スケジューラ515、及び局所のメモリ又は変数520を含む。
物理マネージャ505は、種々のノード115の物理的状態を判定し、この判定状態に基づいて効果的にノード115を管理するよう動作可能な何れかのソフトウェア、論理、ファームウェア、又は別のモジュールである。物理マネージャはこのデータを用いて、ノード115の障害を効率的に判定し、この障害に効率的に応答する場合がある。一実施例では、物理マネージャ505は複数のエージェント132に通信可能に結合され、各エージェントは1つのノード115上に存在する。上記のように、エージェント132は、少なくとも物理情報を収集し、マネージャ505に通信する。物理マネージャ505は更に、クライアント120のある場所にいるシステム管理者に警告を、ネットワーク106を介して通信するよう動作される。
仮想マネージャ510は、仮想クラスタ220と、ノード115の論理的状態とを管理するよう動作可能な何れかのソフトウェア、論理、ファームウェア、又は別のモジュールである。一般的に、仮想マネージャ510は、ノード115の論理的表現をノード115の物理的状態とリンクする。これらのリンクに基づいて、仮想マネージャ510は、ノード障害又は、HPC処理を増加させる(システム若しくはユーザの)要求に応じる場合などに、仮想クラスタを生成し、これらのクラスタ220に対する種々の変更を処理し得る。仮想マネージャ510は、非割り当てノード115などの仮想クラスタ220の状態をスケジューラ515に通信して、非実行状態又は待ち行列に入っている状態の、HPC処理及びHPCジョブ150の動的バックフィルを可能にする場合もある。仮想マネージャ510は更に、ジョブ150の特定ノード115との互換性を判定し、この情報をスケジューラ515に通信する場合がる。特定の実施例では、仮想マネージャ510は、個々の仮想クラスタ220を表すオブジェクトであり得る。
特定の実施例では、クラスタ管理エンジン130は、スケジューラ515を含む。スケジューラ515は、スケジューリング・アルゴリズムによってジョブ150にノード115を割り当てる、ハードウェア構成部分、ソフトウェア構成部分、若しくは組み込み論理構成部分又は、1つか複数のそのような構成部分を含む。特定の実施例では、スケジューラ515はプラグインである。特定の実施例では、クラスタ管理エンジン150がジョブ150を受信することに応じて、クラスタ管理エンジン130は、ジョブ150に1つ又は複数のノード515を割り当てるようスケジューラ515をコールする。特定の実施例では、ジョブ150に1つ又は複数のノード515を割り当てるよう、クラスタ管理エンジン130がスケジューラ515をコールすると、クラスタ管理エンジン130は、ジョブ150に割り当てるのに利用可能な、グリッド110におけるノード115をスケジューラ515に対して識別する。制約ではなく例として、クラスタ管理エンジン130が、ジョブ150に1つ又は複数のノード115を割り当てるようスケジューラ515をコールすると、クラスタ管理エンジン130は、ジョブ150への割り当てに利用可能な、グリッド110におけるノード115の全てのリストをスケジューラ515に通信し得る。特定の実施例では、クラスタ管理エンジン130は、ジョブ150に対する割り当てに利用可能なノード115の数がジョブ150に要求されるノード115の数以上である場合にのみ、ジョブ150に1つ又は複数のノード115を割り当てるよう、スケジューラ515をコールする。
上記のように、特定の実施例では、グリッド110は、その各々が4つのCPU164に結合されるその3次元の、スイッチ166のトーラスである。スケジューラ515は、グリッド110を、ノード115のトーラスとして論理的に構成する。サイズが〔x,y,z〕の、スイッチ166のトーラスは、〔4x,y,z〕、〔x,4y,z〕、〔x,y,4z〕、〔2x,2y,z〕、〔2x,y,2z〕、及び〔x,2y,2z〕の6つの考えられる論理的な構成を備える。スケジューラ515が、ジョブ150に1つ又は複数のノード115を割り当てる場合、スケジューラ515はジョブ150に最も適した論理的な構成を選択し得る。
メッセージ・パッシング・インタフェース(MPI)は、ジョブ150における処理間の通信の標準である。特定の実施例では、スケジューラ515はジョブ150に割り当てられる各ノード115にMPIランクを割り当てる。N個の処理を含むジョブ150について、スケジューラ150は各処理に0とN−1との間の一意の整数のランクを割り当てる。ジョブ150における第1処理にメッセージを通信するよう、ジョブ150における第2処理は、第1処理のランクを規定し得る。同様に、ジョブ150における第1処理からメッセージを受信するよう、ジョブ150における第2処理は、第1処理のランクを規定し得る。同様に、ジョブ150における第1処理からメッセージを受信するよう、ジョブ150における第2処理は第1処理のランクを規定し得る。スケジューラ150は、その各々がその各々のブロードキャスト・グループにおける処理からその各々のブロードキャスト・グループにおける全ての別の処理までのメッセージの通信を容易にする、その1つ又は複数のブロードキャスト・グループを規定する場合もある。ブロードキャスト・グループにおける第1処理からメッセージを受信するよう、ブロードキャスト・グループにおける第2処理はブロードキャスト・グループを規定し得る。
特定の実施例では、スケジューラ515は、「spatial」と「compact」と「any」との3つの種類の要求を処理する。「request」への言及は、適宜、ジョブ150に及び、適宜、その逆もあてはまる。ユーザがジョブ150をHPCサーバ102に投入すると、ユーザは要求の種類を規定し得る。「spatial」の要求は、空間的に記述されるジョブ150に及ぶ。既存のMPIアプリケーションのうちの1つのクラスは、ジョブ150における処理間の空間的な関係を呈する。例として、気象モデルがある。気象モデルを含むジョブ150を処理するよう、HPCサーバ102は、緯度経度(又は同様な座標システム)に及ぶ2次元グリッドを用いて、地球の表面を分割し、時間を離散的な時間ステップに分割する場合がある。ジョブ150の各処理は特定の領域の気象をモデル化する。各時間ステップの始めに、処理は、処理に隣接する4つの別の処理の各々と境界値を交換し、更に、特定の領域の気象を計算する。気象モデルを含むジョブ150を処理するよう、HPCサーバ102は、2次元のグリッドではなく、緯度経度と高度(又は同様な座標システム)に及ぶ3次元のグリッドを用いて地球の表面を分割し得る。
ジョブ150における処理間で空間的な関係を呈するMPIアプリケーションについて、ユーザはジョブ150にノード115のトリプレット
Figure 2008521127

を要求し得る。次元Sの全てが1よりも大きい場合、要求は3次元の要求である。次元Sのうちの1つが1に等しい場合、要求は2次元の要求である。次元Sのうちの2つが1に等しい場合、要求は1次元の要求である。要求をノード115に割り当てるよう、スケジューラ150は空間的な座標をMPIランクに:
Figure 2008521127

;としてマッピングし得る。Sx、Sy、及びSzは要求のサイズを示し、xはゼロとSxとの間であり、yはゼロとSyとの間であり、zはゼロとSzとの間である。ノード115を2次元の要求に割り当てるよう、スケジューラ150は、空間座標をMPIランクに:
Figure 2008521127

としてマッピングし得る。特定の実施例では、空間座標をMPIランクにマッピングするよう、スケジューラ515はまず、グリッド110のz軸に沿って増加させ、次にグリッド110のy軸に沿って増加させ、更にグリッド110のx軸に沿って増加させる。スケジューラ515がMPIランクに空間座標をマッピングすることに関して正しくない前提、例えば、まず、グリッド110のx軸に沿って増加させ、次にグリッド110のy軸に沿って増加させ、更にグリッド110のz軸に沿って増加させるという前提に対処するよう、クラスタ管理エンジン30は要求ジョブ150を、例えば、
Figure 2008521127

としてスケジューラ515に提示し得る。
「compact」要求は、空間的に記述されていないジョブ150に及ぶ。スケジューラ515は、コンパクト要求に割り当てられる、ノード115の対の各々の間の最大通信距離(又は最大ホップ・カウント)を最小にするよう、ノード115をコンパクト要求に割り当て得る。「any」要求は、処理間通信をほとんど必要としないか全く必要としないジョブ150に及ぶ。スケジューラ150は何れかのノード115の群を割り当てて何れかの要求を満たし得る。そのようなジョブ150は、グリッド110における断片化から生じるホールを充填する機会をスケジューラ150に備える。
ユーザは、ジョブ150をHPCサーバ102に投入する場合、ジョブ150にアグレシブ・フラグを規定する場合もある。特定の実施例では、アグレシブ・フラグは、ノード115をジョブ150に割り当てる目的でスケジューラ515に割り当てられる自由度を示す、ゼロと1との間の浮動小数である。高い数は低い数よりも自由度をスケジューラ515に与える。ユーザが空間的な要求をHPCサーバ102に投入し、空間的な要求上のアグレシブ・フラグをゼロに設定する場合、空間的な要求に対応するようノード115が利用可能である場合のみジョブ150をスケジューリングする。特定の実施例では、ユーザが空間的な要求をHPCサーバ102に投入し、空間的な要求上のアグレシブ・フラグをゼロより大きな数に設定する場合、スケジューラ515は空間的な要求に対応しようとするが、スケジューラ515は、空間的な要求に対応することが可能でない場合、ジョブ150をコンパクトな要求としてスケジューリングする。特定の実施例では、コンパクトな要求は、コンパクトな要求に割り当てられるノード115の対の間のホップ・カウントが無限であることを可能にし得る。クラスタ管理エンジン130は、割り当てに利用可能なノード115の数が要求ノード115数以上である場合のみ、スケジューラ515をコールするので、スケジューラ150は、そのような要求に常に対応することが可能である。特定の実施例では、コンパクトな要求のアグレシブ・フラグは、コンパクトな要求に割り当てられるノード115の対の間のホップ・カウントに対する限界を示す。そのような実施例では、ホップ・カウントに対する限界は
Figure 2008521127

に等しい場合があり、aはアグレシブ・フラグである。
特定の実施例では、クラスタ管理エンジン130がスケジューラ515をコールして1つ又は複数のノード115をジョブ150に割り当てる場合、クラスタ管理エンジン130は:要求される、ノード115の数;要求種類;ジョブ150のサイズ;ジョブ150上のアグレシブ・フラグ;(スケジューラ515が後に調節してグリッド110のノード・ベースのサイズを判定する)グリッド110のスイッチ・ベースのサイズ;(特定の実施例では、4に等しい、)スイッチ166毎のノード115の数;ジョブ150への割り当てに利用可能なノード115の数;及び(例えば、ジョブ150への割り当てに利用可能なノード115全てのリストなどの)ジョブ150への割り当てに利用可能な1つ又は複数のノード115を識別するもの;の入力をスケジューラ515に備える。特定の実施例では、RequestedNodesは要求されるノード115の数を示し、RequestTypeは要求種類を示し、(アレイを含む)RequestedSizeはジョブ150のサイズを示し、AggressiveFlagはジョブ150上のアグレシブ・フラグを示し、(アレイを含む)TorusSizeはグリッド110のスイッチ・ベースのサイズを示し、NodesPerSwitchはスイッチ166毎のノード115の数を示し、NumFreeNodesはジョブ150への割り当てに利用可能なノード115の数を示し、(アレイを含む)FreeNodeListはジョブ150への割り当てに利用可能な1つ又は複数のノード115を識別する。
特定の実施例では、スケジューラ515がジョブ150をスケジューリングする(かスケジューリングしようとする)場合、スケジューラ515は、(ジョブ150に割り当てられるノード115のリストなどの)ジョブ150に割り当てられるノード115を識別するもの;ジョブ150に割り当てられる各ノードのMPIランク;及び(1)スケジューラ515がジョブ150をスケジューリングしたこと;(2)スケジューラ515はジョブ150をスケジューリングしなかったこと;又は(3)スケジューラ515がジョブ150をスケジューリングすることが全く可能でないということを示す戻り値;の出力を備える。
特定の実施例では、ノード115をジョブ150に割り当てるよう、スケジューラ515はまず、ジョブ150をスケジューリングするよう変数を初期化し、次に変数によってジョブ150をスケジューリングし、クラスタ管理エンジン130で処理するようスケジュール(又は結果)を変換する。SpatialAllowed、CompactAllowed、及びAnyAllowedの3つの変数は、スケジューリングが可能な種類を示す。スケジューラ515は、SpatialAllowed、CompactAllowed、及びAnyAllowedを初期化するよう以下のロジックの例を用い得る:
Figure 2008521127

特定の実施例では、スケジューラ515は、グリッド110のより小さい次元の前にグリッド110のより大きな次元を示すよう、グリッド110のスイッチ・ベースのサイズを形成させる。(アレイを含む)TorusMapは、グリッド110のより小さい次元の前にグリッド110のより大きな次元を示すよう、グリッド110のスイッチ・ベースのサイズを形成させたグリッド110のスイッチ・ベースのサイズを示す。スケジューラ515は、TorusMapをFreeNodeListに識別されているノード115の全てに適用する。(アレイを含む)InverseTorusMapはTorusMapの逆数であり、スケジューラ515はInverseTorusMapを、処理するようクラスタ管理エンジン130にリストを戻す前にジョブ150に割り当てられるノード115のリストに適用する。制約ではなく例として、クラスタ管理エンジン130が14×16×15のスイッチ・ベースのトーラス・サイズをスケジューラ515に通信する場合、スケジューラ515はTorusMapを
Figure 2008521127

に設定する。その場合、スイッチ・ベースのトーラス・サイズは16×15×14
となり、
Figure 2008521127

の指数を有するFreeNodeListにおけるノード155については、スケジューラ515がTorusMapを適用した後のノード155の指数は
Figure 2008521127

である。上記例のInverseTorusMapは
Figure 2008521127

である。
特定の実施例では、NumMapDimensionsは、スイッチ・ベースのトーラスをノード・ベースのトーラスに変換する場合に修正する次元の数を示す。MapDimsions[2]及びMapMod[2]は、修正する次元の指数と、修正する次元の各々の乗数を備える。スケジューラ515は、修正する次元のうちの1つを4で掛けてもよく、修正する次元のうちの2つの各々を2で掛けてもよい。スケジューラ515は、どちらの乗算を適用するかを判定し、次に、適宜、当初はスイッチによって記述された、トーラスのサイズを修正する。スケジューラ515は、RequestTypeによって、どちらの乗算を適用するかを判定する。
特定の実施例では、スケジューラ515は要求を満たすメッシュのリストを生成する要求に1つ又は複数の座標変換を適用する。メッシュは、グリッド110に埋め込まれるボックスを含む。
Figure 2008521127

の始点と
Figure 2008521127

の終点がメッシュを規定する。メッシュは、1つ又は複数の次元における終点よりも大きな始点を有する場合、1つ又は複数の次元において「ラッピング」する。制約ではなく例として、[3,7,5]での始点と[2,9,4]での始点とを備えているメッシュはx次元とy次元でラッピングする。グリッド110における点
Figure 2008521127

である場合、非ラッピング・メッシュに存在する。スケジューラ515が要求を満たすメッシュ・リストを生成した後、スケジューラ515は、要求への割り当てに利用可能なノード155の群に対してスケジューリング可能なメッシュをスケジューラ515が識別するまでスケジューラ515はリストをループする。一般的に、3次元の要求は、要求を満たす6つのメッシュをもたらす傾向にあり、2次元の要求は、要求を満たす数百のメッシュをもたらす傾向にあり、1次元の要求は、要求を満たす数十のメッシュをもたらす傾向にある。特定の実施例では、スケジューラ515は、要求を満たすメッシュ数を最大にするよう、2次元又は3次元の要求に対するノード・ベースのトーラスを設定する。
1次元の要求をスケジューリングする(か、1次元の要求に1つ又は複数のノード115を割り当てる)よう、変数を初期化するのに、スケジューラ515は、グリッド110におけるスイッチ166のy軸とz軸をノード115の2×2の構成に設定する。スケジューラ515は、グリッド110におけるスイッチ166のz軸が未使用の次元であるようにジョブ150をマッピングする。スケジューラ515は更に、ジョブ150をz軸に沿ってy軸にフォールディングする。したがって、特定の実施例では、1次元の要求には:
Figure 2008521127

が適用され、
[n]は0から1−nまでの範囲の指数を有する1次元のアレイを適宜、示す。制約ではなく例として、
Figure 2008521127

に相当する。
特定の実施例では、スケジューラ515は、2次元の要求をスケジューリングするよう、グリッド110におけるスイッチ166のy軸とz軸とをノード115の2×2の構成に設定して変数を初期化する場合もある。特定の実施例では、スケジューラ515は、スケジューリングするよう、2次元要求を第3の、未使用の次元にフォールディングして、よりコンパクトな形状を生成する。多くのそのようなフォールディングが考えられる場合があるので、スケジューラ515はそのようなフォールディングの最大数をもたらす(ノード115の2×2の構成とは異なり得る)構成を選択し得る。スケジューラ515は、2次元の要求について考えられる6つの構成の各々を検査し、6つの考えられる構成毎に考えられるフォールディングの数を計算する場合がある。特定の実施例では、スケジューラ515は最大の考えられるフォールディング数を可能にする構成を選択する。特定の実施例では、2つの1×4の構成が互角の場合、スケジューラ515はまず、z軸を修正する1×4の構成を選択し、次にy軸を修正する1×4の構成を選択する。
更に、x軸とy軸とを修正する2×2の構成を選択する。特定の実施例では、3次元の要求が、フォールディングを可能にする代わりにお互いに対してその各々が一意のその6つの向き(又は回転)を可能にする以外は、2次元の要求をスケジューリングするよう、スケジューラ515が変数を初期化することになるので、スケジューラ515は3次元の要求をスケジューリングするよう変数を初期化する。
特定の実施例では、コンパクトな要求をスケジューリングするよう変数を初期化するのに、スケジューラ515は、コンパクトな要求のz軸を4で掛けて1×4の構成を生成する。1×4の構成を用いて、コンパクトな要求を処理することは、コンパクトな要求に割り当てられるスイッチ166に結合されるノード115の全てを用いることを容易にし、このことは同様に、グリッド110におけるスイッチ・ポイントでの断片化を削減する。特定の実施例では、スケジューラ515は同様に、何れかの要求をスケジューリングするよう変数を初期化する。
パーティションは、スケジューリングするのに利用可能な、グリッド110におけるノード115の全てを含む最小メッシュである。PartStart[3]はパーティションの始点座標を示し、PartEnd[3]はパーティションの終点座標を示し、PartSize[3] はパーティションのサイズを示し、PartWraps[3]はパーティションがラッピングするか否かを示す。スケジューラ515は要求を満たすノード115をサーチする長さを削減するようパーティションを構築し得る。パーティションは、グリッド110よりもずっと小さい場合がある。i = 0、1、及び2の場合、PartStart[i]は、(アレイを含む)FreeMeshにおいて考えられるiの座標の全てのうちの最小の値を含む。PartSize[i] = PartEnd[i] − PartStart[i] + 1である。PartSize[i]がTorusSize[i]に等しい場合、PartWraps[i]はTrue(真)である。スケジューラ515は(アレイを含む)NodeInUseをFreeMeshにおける全てのノードについてNODE_NOT_IN_USEに設定し、他のノードの全てについてNODE_IN_USEに設定する。
特定の実施例では、FreeY[i,j,k]は、
Figure 2008521127

までの線{i,j,k}に沿ったフリー・ノード155の数を含む。FreeX[i,j,k]は、
Figure 2008521127

までの線{i,j,k}に沿ったフリー・ノード155の数を含む。スケジューラ515は、FreeY[i,j,k]とFreeX[i,j,k]とを用いて、以下に説明するようにスキャン・アルゴリズムを実行する。特定の実施例では、SpatialAllowed又はCompactAllowedがTrueである場合のみ、FreeY[i,j,k]と FreeX[i,j,k]とを構成する。
SpatialAllowedがTrueである場合、スケジューラ515は、要求をスケジューリングする種々の構造を試みる。
Figure 2008521127

の最大6つの一意の向きを有する。これらの6つの向きは、スケジューラ515がメッシュに適用し得る、4つの一意の90°の回転と2つの一意の180°の回転とに相当する。いずれかの2つの次元がお互いに等しい場合、3つの一意の向きのみが利用可能である。スケジューラ515はメッシュをスケジューリングする場合、考えられる向きを全て考慮する。ジョブ150が2次元である、すなわちジョブ150の1つの次元が1に等しい場合、スケジューラ515は、ジョブ150の2つの使用次元、すなわちジョブ150の1より大きい次元、の何れかを、ジョブ150の未使用次元、すなわちジョブ150の1に等しい次元にアコーディオンに似たかたちでフォールディングして、よりコンパクトな3次元のメッシュを生成し得る。スケジューラ515がフォールディングの長さの整数の倍数でない次元をフォールディングする場合、最後のフォールディングは先行するフォールティングの全てよりも短くなり、それによって2次元のメッシュが3次元メッシュ上に連結されることになる。ジョブ150が1次元の場合、スケジューラ515はジョブ150を2つの未使用次元の何れかにフォールディングし得る。スケジューラ515は更に、2つの結果次元の何れかを残りの未使用次元にフォールディングし得る。メッシュの結果形状は、一般的に言えば、4つのメッシュを連結したものとなる。
図8は、y次元にフォールディングされる1次元要求の例を示す。図8では、スケジューラ515は、2次元メッシュ{1,2,4}と、この2次元メッシュに連結される{1,1,3}を生成するよう、{1,1,11}の1次元要求を4のフォールディング長を用いて次元にフォールディングしている。スケジューラ515は第1フォールディングにゼロの番号を付し、第2フォールディングに1の番号を付し、第3の短いフォールディングに2の番号を付す場合がある。スケジューラ515がフォールディングに沿ったノード115にMPIランクを割り当てる場合、MPIランクは、偶数番号のフォールディングに沿ってz値が増加するにつれ、かつ、奇数番号のフォールディングに沿ってz値が減少するにつれて増やされる。制約ではなく例として、[0,0]でのノード115のMPIランクはゼロである場合があり、[0,1]でのノード115のMPIランクは1である場合があり、[0,2]でのノード115のMPIランクは2である場合があり、[0,3]でのノード115のMPIランクは3である場合がある。[1,3]でのノード115のMPIランクは4である場合があり、[1,2]でのノード115のMPIランクは5である場合がある、などである。連結はz = 0で開始するが、これはフォールディングが偶数であるからである。スケジューラ515が奇数の完全なフォールディングを用いて要求をフォールディングした場合、連結はむしろz = 3で開始し、x = 0に向けて内側に進むことになる。特定の実施例では、スケジューラ515はアコーディオンに似たフォールディングのみを考慮する。別の種類のフォールディングも存在する。制約ではなく例として、フォールディングは階段形状を形成する場合がある。スケジューラ515は、1次元のジョブ150に対する特定のフォールディングを禁止する場合がある。上記のように、特定の実施例では、スケジューラ515は1次元のジョブ150を2度フォールディングする。第2フォールディングは、スケジューラ515が最初にフォールディングした次元をフォールディングするか、スケジューラ515がフォールディングした対象の最初の次元をフォールディングする。図8では、スケジューラ515は、z次元をフォールディングしており、y次元にフォールディングしている。スケジューラ515が最初にフォールディングした次元を第2フォールディングがフォールディングした場合、スケジューラ515は、最大3つのメッシュを生成し、メッシュの合計を4つとする場合がある。特定の実施例では、スケジューラ515は、2つの連結までしか可能にしない。その結果、スケジューラ515が1次元のジョブ150をスケジューリングする場合、第1フォールディングが連結をもたらさなかった場合でなければ、第2フォールディングは、スケジューラ515が最初にフォールディングした対象の次元をフォールディングすることに制限される。ジョブ150のサイズがフォールディング長の整数の倍数であれば、連結は何ら生じない。特定の実施例では、そのような制限によって、スケジューラ515が2つの連結までしか可能にしないものとなる。特定の実施例では、スケジューラ515は当初、要求を満たす、考えられるメッシュ全てを構成する。要求が1次元か2次元の場合、スケジューラ515は、考えられる、アコーディオンに似たフォールディングの各々と、そのようなフォールディング各々の、考えられる向きの各々を構成する。要求が3次元の場合、スケジューラ515は、要求の、考えられる向きの各々を構成する。特定の実施例では、スケジューラ515は、以下に説明するように、Try Structuresのリストを用いてそのような構成の各々を記録する。
CompactAllowedがTrueである場合、スケジューラ515は、要求される、ノード115の数を含むコンパクトなメッシュを構成する。スケジューラ515はメッシュを最善のフィットと指定し、メッシュを(アレイを含む)BestFitに記憶する。制約ではなく例として、Nを、要求される、ノード115の数とし、Qを、Nの立方根を整数に丸めたものとする。スケジューラは当初、BestFitを{Q,Q,Q}に設定する。
Figure 2008521127

の場合、スケジューラ515は終了する。さもなければ、スケジューラ515は、以下に説明するように、BuildCompactFits関数によってBestFitの1つ又は複数の次元を増やすことになる。スケジューラ515は更に、BestFitの次元以上でかつグリッド110の次元以下である次元を有するメッシュ全てを構成して、(アレイを含む)Fitを用いてメッシュを記録する。
スケジューラ515は更に、望ましくないメッシュをFitから取り除く。上記のように、特定の実施例では、グリッド110は、その各々が4つのCPU164に結合されるそのスイッチ166の3次元トーラスである。スイッチ166毎に4つのCPU164を含むグリッド110に相当するよう、1次元における4倍又は2次元における2倍によってトーラスを修正する。スイッチ166での1つのCPU164が処理を実行する場合にスイッチ166でのCPU164の全てが処理を実行するようにスケジューラ515が要求を満たす可能性を増加させるよう、増倍率の整数の倍数である1つ又は複数の次元におけるサイズを有するメッシュのみを保持する。制約ではなく例として、スケジューラ515が、y次元におけるスイッチ166のトーラスを2によって乗算し、z次元におけるスイッチ166のトーラスを2によって乗算する場合、スケジューラ515は、偶数のy次元とz次元とを有するFitにおけるメッシュのみを保持することになる。
スケジューラ515は更に、残りのメッシュにおける最大ループ・カウントによってFitにおける残りのメッシュをソートする。サイズが
Figure 2008521127

のメッシュにおける何れかの2つのノード間の最大距離は、
Figure 2008521127

である。2つのメッシュが、お互いに同一の最大ホップ・カウントを有する場合、スケジューラ515は、メッシュを別のメッシュの前に近づけて立方体になるようにする。制約ではなく例として、
Figure 2008521127

とは同じ最大距離を有するが、スケジューラ515は、M2をの前に配置する。
スケジューラ515は、望ましくないメッシュをFitから取り除かなかった場合でも、少なくともN個のノード115を含むメッシュ全てを生成しないことになる。制約ではなく例として、Nが27に等しいものであり、BestFitが{3,3,3}に等しかった場合、Fitはメッシュ{1,1,27}を含むものでないことになる。
{1,1,27}のメッシュは合理的なメッシュ数をもたらさないことになり、要求を満たす少なくとも1つのメッシュを常にもたらすことになるが、これは、Fitがグリッド110に等しいメッシュを含むことになり、Nがグリッド110におけるノード115の数以下である場合にのみクラスタ管理エンジン130がスケジューラ515をコールするからである。
AnyAllowedが真である場合、1つ又は複数のフリー・メッシュを構成するよう、スケジューラ515は、フリー・ノード115を識別するまで、x軸を外部ループとし、y軸を次のループとし、z軸を内部ループとして、NodeInUseをループする。フリー・メッシュは、フリー・ノード115のみを含むメッシュを含み、フリー・ノード115はジョブ150に割り当て可能なノード115を含む。スケジューラ515は、NumFreeMeshesとFreeMesh[NumFreeMeshes]とを構成する。NumFreeMeshesはグリッド110におけるフリー・メッシュの数を示し、FreeMeshは、グリッド110における1つ又は複数のフリー・メッシュを、グリッド110におけるフリー・メッシュ毎に識別するリストである。制約ではなく例として、ノード115の指数は
Figure 2008521127

であり得る。
スケジューラ515が、例えば
Figure 2008521127

などの非フリー・ノード115を識別するまでz軸を増やし得る。スケジューラ515はFreeMesh.start[2]をk1に設定する場合があり、FreeMesh.end[2]をk2―1に設定する場合がある。FreeMesh.start[2]はz軸に沿ったフリー・メッシュの開始値に相当し、FreeMesh.end[2]はフリー・メッシュの終了値に相当する。スケジューラ515は、
Figure 2008521127

が少なくとも1つの非フリー・ノードを含むように、更に、y軸をj1から始めて第1値j2を識別し得る。スケジューラ515は更に、FreeMesh.start[1]をj1に設定し、FreeMesh.end[2]をj2―1に設定する。スケジューラ515は更に、
Figure 2008521127

が少なくとも1つの非フリー・ノードを含むように、x軸をi1から始めて第1値i2を識別する。スケジューラは更に、FreeMesh.start[0]をi1 に設定し、FreeMesh.end[0]をi2−1に設定する。スケジューラ515は、上記処理を繰り返し、グリッド110における全てのノード115を対象とする。上記処理は一意のフリー・メッシュ群をもたらすものでない。別の順序でループすることは、異なるフリー・メッシュ群を生成する傾向にあるが、それは2つ以上のフリー・メッシュがお互いに境界を共有する場合のみである。ノード115において全体が取り囲まれるフリー・メッシュは常に一意である。図9及び図10は、2次元の場合に、y軸を内部ループとして用いる場合とx軸を内部ループとして用いる場合との違いを示す。図9は、y軸を内部ループとして用いて構成される2つのフリー・メッシュを示し、図10は、x軸を内部ループとして用いて構成される2つのフリー・メッシュを示す。図9では、領域530は使用中のノード115を含み、領域532aは第1のフリー・メッシュであり、領域532bは第2のフリー・メッシュである。同様に、図10では、領域530は使用中のノード115を含み、領域532aは第1のフリー・メッシュであり、領域532bは第2のフリー・メッシュである。
特定の実施例では、スケジューラ515は第1スケジューリング・アルゴリズムを用いて空間的な要求をスケジューリングし、第2スケジューリング・アルゴリズムを用いてコンパクトな要求をスケジューリングし、第3スケジューリング・アルゴリズムを用いて何れかの要求をスケジューリングする。第1スケジューリング・アルゴリズムと第2スケジューリング・アルゴリズムはお互いに同様であるが、お互いに比較的異なるスキャン・アルゴリズムを用いる。スケジューラ515がジョブ150をスケジューリングする場合、スケジューラ515はMPIランクによってAssignedNodeListにおけるジョブ150に割り当てられるノード150を示す、すなわち、AssignedNodeList[i]はMPIランク iを有する。{Sx,Sy,Sz}のサイズを有する空間的な要求をスケジュール化するよう、スケジューラ515は、スキャン・アルゴリズムを用いて、空間的な要求についてのNodeInUseにおける始点をサーチする。以下のロジック例はスキャン・アルゴリズム例の記述例を備える。PartStartは始点であり、PartEnd はパーティションの終点であり、Tx, Ty, 及びTz は各々、x次元、y次元、及びz次元である。
Figure 2008521127

特定の実施例では、コンパクトな要求に適用可能なスキャン・アルゴリズムは、以下のように、最も内部にあるループにおいて増やされるカウント値によって上記Hitフラグを置き換える。
Figure 2008521127

上記ロジックは比較的非効率的であるが、それはスケジューラ515が最大
Figure 2008521127

回までNodeInUseにおける各点を評価するからである。コンパクト要求の上記スキャンでは、zのループが例えば、z1から
Figure 2008521127

まで増やされるにつれ、i内部ループとj内部ループは変わることなく、kループは終点でしか変わらない。その結果、
Figure 2008521127

までの2次元メッシュは更なる計算から除外され、スケジューラ515は、
Figure 2008521127

までの2次元メッシュを更なる計算に追加する。i内部ループ、j内部ループ、及びk内部ループは、サイズ
Figure 2008521127

のz軸に沿った2次元のメッシュのシーケンスにおけるフリー・ノード115をカウントする。zループは1つのメッシュを取り除き、別のものを追加する。 y ループでは同様な効果がy軸に沿って生じる。(その両方ともアレイを含む)そのFreeX及びFreeY は処理時間を削減することを容易にする。特定の実施例では、スケジューラ515は以下のアルゴリズムを用いて、コンパクトな要求をスキャンする:
Figure 2008521127

特定の実施例では、スケジューラ515は次元におけるパーティション・ラッピングに対応するよう以下の修正の1つ又は複数のものを適用する:(1)次元における指数がアレイ限界を超える場合、スケジューラ515は、何れかのアレイ参照の前に指数にモジュラス関数を適用する;(2)パーティションがx次元又はy次元においてラッピングする場合、例えば点aから点bまでの、線区間についてフリー・ノード115を計算するよう、スケジューラ515は、x次元又はy次元における点aからパーティションの終点までの1つのものと、パーティションの始点から点bまでの別のものとの2つの線区間についてフリー・ノード115を計算する。
特定の実施例では、空間的な要求に適用可能なスキャン・アルゴリズムは、コンパクトな要求に適用可能な上記スキャン・アルゴリズムに同様である。特定の実施例では、空間的な要求に適用可能なスキャン・アルゴリズムとコンパクトな要求に適用可能な上記スキャン・アルゴリズムとの間の違いには以下のことが含まれる。すなわち、(1)スケジューラ515は、特定のカウントを有するメッシュにおける点を識別する代わりに、ノード115の全てがフリーであるメッシュにおける点を探し、そのことはメモリ参照を削減する傾向にあるということ;と(2)スケジューラ515は、最大2つの別のメッシュをそのベース・メッシュに連結させたそのベース・メッシュを生成するようフォールディングされる、1次元の要求又は2次元の要求を処理する場合があるので、1つ又は複数の連結メッシュを処理する必要がある場合がある。特定の実施例では、スキャン・アルゴリズムに対するそのような修正は、16×16×16の構成をスケジューリングするスケジューラ515に関連した最大実行時間を、1つ又は複数の桁違いで削減する傾向にある。
空間的な要求をスケジューリングするよう、スケジューラ515は、スケジューリング可能なTry Structureを識別するまでTry構造におけるリストにおける各Try構造にスキャン・アルゴリズムを適用するスケジューリング・アルゴリズムを用いる。リストにおけるTry構造でスケジューリング可能なものが何らない場合、スケジューラ515は、空間的な要求をスケジューリングすることなくクラスタ管理エンジン130に戻る。さもなければ、スケジューラ515はコンパクトなスケジューリング・アルゴリズムを用いて空間的な要求をスケジューリングしようとする。
特定の実施例では、空間的なアルゴリズムによる要求をスケジューリングすることには、最大、2つのフォールディングと1つの回転との3つの変換が関係する。スケジューラ515はTryにおける以下のフィールドを用いて変換を追跡する:
Figure 2008521127

特定の実施例では、Try構造を用いてグリッド110における始点でジョブ150がスケジューリング可能であるということをスケジューラ515が判定した後、スケジューラ515は以下のようにMPIランクを割り当てる。
Figure 2008521127

特定の実施例では、コンパクト・スケジューリング・アルゴリズムは、機能するTry機能を識別するまで、Try機能のリストにおける各メッシュにスキャン・あるごりリズムを適用する。リストにおけるメッシュ数は比較的大きい場合がある。制約ではなく例として、トーラスが16×16×16のノード115を含み、要求が100のノード115に対するものである場合、BestFit={4,4,5}であり、このことは、Try構造リストにおいて2000を超えるメッシュをもたらす。2進サーチをTry構造に適用することは望ましい場合があるが、Try構造リストの2進サーチは特定の実施例では機能しないものである。条件Cを含む2進サーチは:(1)Cが要素iについて真であったならば、i以上の全てのjについてCが真であったということ;及び(2)Cが要素iについて偽であったならば、i以下の全てのjについてCが偽であったということ;でない限り機能しないものである。特定の実施例では、Try構造の2進サーチは機能しないものであるが、それは、例えばメッシュM1={4,4,4}を用いたスキャンが、要求を満たすのに十分なノードを見つけることになる一方、Try構例えば、メッシュM2={2,2,10}を用いたスキャンが、造リストにおいてM2がM1を上回っているにもかかわらず、要求を満たすのに十分なノードを見つけないことになるという可能性が存在するからである。特定の実施例では、最大距離の2進サーチは機能する。スケジューラ515は、最大距離によってTry構造リストにおけるメッシュをグループ化する場合、最大距離iを有する、リストにおけるメッシュに対するフィットを識別すれば、i以上のj全てについて、最大距離jを有する、リストにおける少なくとも1つのメッシュもフィットすることになる。最大距離iを有する、リストにおけるメッシュが何らフィットしない場合、i以下の最大距離を有する、リストにおけるメッシュも何らフィットしないことになる。制約ではなく例として、{x,y,z}が、フィットする最大距離iを有するメッシュであると仮定する。したがって、{x,y,z+1}はi+1の最大距離を有し、{x,y,z+1}は{x,y,z}に及ぶので{x,y,z+1}も機能する。帰納的推論はi以上のj全てにあてはまる。最大距離iを有する、リストにおけるメッシュが何ら機能しない場合、最大距離i2−1を有する何れかのメッシュ{x,y,z}に対して、{x,y,z+1}は最大距離iを有し、{x,y,z+1}もフィットしない。{x,y,z}もフィットしないが、それは{x,y,z+1}が{x,y,z}に及ぶからである。よって、スケジューラ515は初期化中にMaxDistance[NumMaxDistances,2]を構成する。
特定の実施例では、Fitにおけるメッシュの2進サーチはベスト・フィットを保証するものでないが、ベスト・フィットに対する相当好適な上限を備える。特定の実施例では、Fitにおけるメッシュの2進サーチは効率的である、約1000のメッシュに対して約10のスキャンを生成する。スケジューラ515は、最大長に対する2進サーチを実行するか上限から下方線形サーチを実行するよう、上限を使用し得る。特定の実施例では、下方線形サーチのほうが、効率が高い傾向にある。
スケジューラ515はFitに対する2進サーチを実行し、HighFitとHighStart[3]とを戻す。HighFitは要求を満たすFitの指数であり、HighStartはグリッド110におけるフィットの始点である。下方線形サーチを実行するアルゴリズムはHighFitとHighStartとから開始する。特定の実施例では、スケジューラ515は現行のHighFitメッシュの最大距離を減らす。スケジューラ515は更に、要求を満たすメッシュをスケジューラ515が識別するまで、最大距離を含むメッシュ全てをループする。要求を満たすメッシュをスケジューラ515が識別する場合、スケジューラ515はメッシュをHighFitに設定し、もう一度最大距離を減らし、当該処理を繰り返す。スケジューラ515がそのようなメッシュを何ら識別しない場合、アルゴリズムの出口処理を行い、現行のHighFitが最善のフィットとなる。スケジューラ515は、特定の最大距離に対するフィットを識別することが可能でない場合、より短い最大距離に対するフィットを識別することが可能でない。
スケジューラ515はFitメッシュをループし、AssignedNodeListの終わりに1つ又は複数のノード115を挿入する。3つのループの順序は、ノード・ベースのトーラスにスイッチ・ベースのトーラスをスケジューラ515がマッピングする方法によって変わってくる。スケジューラは、1つの次元において、4×1の構成を用いてスイッチ・ベースのトーラスをマッピングする場合、1つの次元が内部ループである。スケジューラ515は、1つの次元において、2×2の構成を用いてスイッチ・ベースのトーラスをマッピングする場合、2つの次元が最も内部にあるループである。
何れかの要求をスケジューリングするよう、スケジューラ515は、ノード115の要求数を何れかの要求に割り当てるまで、FreeMeshをループし、何れかの要求を満たす。
スケジューラ515は、FreeMeshをループするにつれ、ノード115をAssignedNodeList漸増的に挿入する。特定の実施例では、スケジューラ515は以下のようにFreeMeshをループする:
Figure 2008521127

スケジューラ515は、MPIランクによるAssignedNodeListにおけるノード・ベースの座標を用いた選択ノード115を示す。AssignedNodeList[i,0]はMPIランクiのノード115のx座標であり、AssignedNodeList[i,1]はMPIランクiのノード115のy座標であり、AssignedNodeList[i,2]はMPIランクiのノード115のz座標である。FreeNodeListはスイッチ・ベースの座標における、スケジューラ515に転送される、利用可能ノード115のリストである。特定の実施例では、FreeNodeListにおけるmpiRankフィールドを設定するよう、スケジューラ515は以下のアルゴリズム例を用いる:
Figure 2008521127

以下のロジック例は、スケジューラ515の特定の実施例を記述する。特定の実施例では、ジョブ150をスケジューリングするよう、クラスタ管理エンジン130がスケジューラ515をコールする場合、クラスタ管理エンジン130はスケジューラ515に、以下の入力パラメータ値を伝達する。
Figure 2008521127

特定の実施例では、スケジューラ515は、ジョブ150をスケジューリングしようとした後、以下のうちの1つを戻す:
Figure 2008521127

スケジューラ515は、ジョブ150をスケジューリングする場合、適宜、FreeNode構造のmpiRankフィールドを設定する。特定の実施例では、クラスタ管理エンジン130とスケジューラ515との間のラッパ機能が、クラスタ管理エンジン130からの入力を、スケジューラ515が想定する形式に変換し、スケジューラ515からの出力を、クラスタ管理エンジン130が想定する形式に変換する。
特定の実施例では、ジョブ150が理論的にスケジューリング可能であるか否かを判定するsetSchedulableは以下のロジック例を包含する:
Figure 2008521127

特定の実施例では、ジョブ・サイズを評価するようスケジューラ515がコールするRankは以下のロジック例を包含する。Rankに対するInputは3つの要素を有する1次元アレイIn[3]を含む。RankからのOutputは、Inの指数をサイズの昇順によって示す3つの要素を有する1次元アレイRank[3]を含む。
Figure 2008521127

である。特定の実施例では、Rankはバブル・アルゴリズムを含む。
Figure 2008521127

特定の実施例では、ジョブ150が理論的にスケジューリング可能か否かを判定するsetSchedulableは以下のロジックを包含する:
Figure 2008521127

特定の実施例では、可能なスケジューリング種類を設定するinitSchedulerは以下のロジック例を包含する。ジョブ150が1つのノード115しか要求しない場合、initSchedulerは、元の要求にかかわらず、可能な種類をAnyに設定する:
Figure 2008521127

特定の実施例では、空間的な要求について、スイッチ・ベースのトーラスをノード・ベースのトーラスにマッピングするsetTorusForSpatialは以下のロジック例を包含する:
Figure 2008521127

特定の実施例では、ジョブ150の最も大きな次元と次に大きな次元jRank[2]とjRank[1]とにおいてグリッド110を2倍にするsetTorusFor1Dは以下のロジック例を包含する:
Figure 2008521127

特定の実施例では、setTorusFor2Dは6つの方法のうちの1つにおいて、スイッチ・ベースのトーラスをマッピングする:
Figure 2008521127

TはTorusSizeである。最初の3つの構成は、スイッチ166毎のノード115をスケジューラ515が2×2のノード115として構成することによってもたらされる。後の3つの構成は、スイッチ166毎のノード115をスケジューラ515が1×1のノード115として構成することによってもたらされる。特定の実施例では、setTorusFor2Dは、スケジューラ515がマップ毎に生成することになるTry構造をカウントし、最大のTry構造数を生成することになるマップを選択する。互角の場合には、setTorusFor2Dは上記の順序によってマップを選択する。スケジューラ515はpSize[6,4]を:
Figure 2008521127

を含めるよう構成する。
特定の実施例では、setTorusFor2Dは以下のロジック例を包含する:
Figure 2008521127
Figure 2008521127

特定の実施例では、setTorusFor3Dは以下のロジック例を包含する:
Figure 2008521127
Figure 2008521127

特定の実施例では、コンパクトな要求のz次元を4×1の構成に設定するsetTorusForCompactは以下のロジック例を包含する:
Figure 2008521127

特定の実施例では、何れかの要求のz次元を4×1の構成に設定するsetTorusForAnyは以下のロジック例を包含する:
Figure 2008521127

特定の実施例では、setPartitionは以下のロジック例を包含する:
Figure 2008521127

特定の実施例では、FreeYとFreeXとを構成するinitScanは以下のロジック例を包含する:
Figure 2008521127

特定の実施例では、要求における次元の数を判定するbuildSpatialTriesは以下のロジック例を包含する:
Figure 2008521127

特定の実施例では、3次元の要求についてTryListを構築し、1次元の要求又は2次元の要求におけるフォールディング毎にTry構造を構築するbuild3Dtryは以下のロジック例を包含する:
Figure 2008521127

特定の実施例では、回転毎のTry構造と指数マップとに対して、一意の回転の数NumOrientを計算するsetOrientは以下のロジック例を包含する:
Figure 2008521127
Figure 2008521127
Figure 2008521127
Figure 2008521127

特定の実施例では、build2Dtryは以下のロジック例を包含する:
Figure 2008521127

特定の実施例では、2次元のメッシュの、考えられるフォールディング全てを構築するbuild2Dfoldは以下のロジック例を包含する:
Figure 2008521127
Figure 2008521127
Figure 2008521127

特定の実施例では、build1Tryは、1次元の要求のフォールディングのリストを生成し、フォールディング毎に、build2DFoldをコールして、1つ又は複数の追加のフォールディングのリストを生成する。build1Tryは、以下の構造例を包含するOneDFoldListにフォールディングのリストを記録する:
Figure 2008521127

特定の実施例では、oneDは第一フォールドを含む。特定の実施例では、twoDは第一フォールドから生成されるフォールディングのリストを含む。NumTwoDFoldsは、twoDにおけるフォールディング数を示す。特定の実施例では、build2Dfoldに転送されるメッシュ・サイズを示す。スケジューラ515は、twoDの要素についてTry構造を生成し、build3Dtryをコールして各Try構造の、考えられる回転全てを構築する。特定の実施例では、build1Tryは以下のロジック例を包含する:
Figure 2008521127
Figure 2008521127
Figure 2008521127
Figure 2008521127

特定の実施例では、BestFit[3]を構成するbuildCompactFitsは以下のロジック例を包含する:
Figure 2008521127
Figure 2008521127
Figure 2008521127

特定の実施例では、buildFreeMeshes Function(関数)は以下のロジック例を包含する:
Figure 2008521127
Figure 2008521127
Figure 2008521127
Figure 2008521127

特定の実施例では、スケジューラ515がジョブ150を正常にスケジューリングする場合Trueを戻すScheduleJobは以下のロジック例を包含する:
Figure 2008521127

特定実施例では、AssignedNodeListを構築するsetSpatialNodeInUseは以下のロジック例を包含する:
Figure 2008521127

特定の実施例では、scanSpatialは以下のロジック例を包含する:
Figure 2008521127
Figure 2008521127

特定の実施例では、Fitに対して2進サーチを実行するscheduleCompactFunctionは以下のロジック例を包含する:
Figure 2008521127

特定の実施例では、setComPactNodeInUseは以下のロジック例を包含する:
Figure 2008521127

特定の実施例では、ScanCompactは以下のロジック例を包含する:
Figure 2008521127
Figure 2008521127

特定の実施例では、scheduleAnyは以下のロジックを包含する:
Figure 2008521127

特定の実施例では、setMpiRankは以下のロジックを包含する:
Figure 2008521127

特定の実施例では、スケジューラ515は、以下に定義する以下の構造例を用いてノード115をジョブ150に割り当てる。上記のように、クラスタ管理エンジン130はFreeNode構造のリストをジョブ150とともにスケジューラ515に伝達する。このリストはスケジューリングに利用可能なノード115全てを含む。このリストでは、スイッチ・ベースの座標がリストにおける利用可能ノード115を識別する。スケジューラ515がジョブ150をスケジューリングする場合、スケジューラ515は戻す前にmpiRankを設定する。
Figure 2008521127

特定の実施例では、スケジューラ515はTry構造を用いて、空間的なジョブ150をスケジューリングするのに用いるメッシュに関する情報を記憶する。Try構造は、ベース・メッシュと、最大2つまでの連結メッシュとに関する情報を含む。
Figure 2008521127

特定の実施例では、スケジューラ515は、以下に定義する以下の変数例を用いてノード115をジョブ150に割り当てる。
Figure 2008521127
Figure 2008521127
クラスタ管理エンジン130は更に、スケジューラ515などによって、効率的なチェック・ポインティングを行うよう動作可能であり得る。再起動ダンプは通常、ディスクに書き込まれるデータの75%を超えるデータを備える。このI/Oは、多くの場合、処理がプラットフォームの障害によって喪失されないように行われる。このことに基づいて、ファイル・システムのI/Oは、プロダクティブI/OとディフェンシブI/Oとの2つの部分に分離することが可能である。プロダクティブI/Oは、例えば、視覚化ダンプ、主要物理変数の経時的なトレーシング他などの科学的方法を行ううえでユーザが要求する、データの書き込みである。ディフェンシブI/Oは、かなりの期間にわたって実行される大規模シミュレーションを管理するよう行われる。よって、I/O帯域幅の増加によって、チェック・ポインティングに係わる時間とリスクとを大いに削減する。
エンジン130に戻れば、局所メモリ520は、システム100の複数の特徴の論理的な記述(すなわちデータ構造)を備える。局所メモリ520は、互換コードによって定義、処理、又は取り出しを行うよう動作可能な何れかの物理データ記憶機構又は論理データ記憶機構に記憶させ得る。例えば、局所メモリ520は、1つ又は複数の拡張マーク付け言語(XML)のテーブル又は文書を備え得る。種々の構成要素は、SQLステートメント若しくはSQLスクリプト、仮想記憶アクセス方法(VSAM)ファイル、フラット・ファイル、2進データ・ファイル、ビートリーブ(Btrieve)・ファイル、データベース・ファイル、又はコンマで区切られた値(CSV)ファイルによって記述し得る。各構成要素は変数、テーブル、又は何れかの別のデータ構造を備え得るということが分かるものである。局所メモリ520は1つのサーバ102上に記憶されているか複数のサーバ又はノードにわたって記憶されている複数のテーブル又はファイルを備える場合もある。更に、エンジン130内部に存在しているように示されているが、局所メモリ520の一部又は全部は、本願の開示の範囲から逸脱することなく内部のものか外部のものであり得る。
図示する局所メモリ520は、物理リスト521、仮想リスト522、グループ・ファイル523、ポリシー・テーブル524、及びジョブ・キュー525を含む。しかし、図示していないが、局所メモリ520は、本願の開示の範囲から逸脱することなく、ジョブ・テーブルと監査ログとを含む別のデータ構造を含み得る。図示された構造に戻れば、物理リスト521はノード115に関する識別管理情報と物理的な管理情報とを記憶させるよう動作可能である。物理リスト521は、ノード115毎に少なくとも1つのレコードを含む多次元のデータ構造であり得る。例えば、物理レコードは、「ノード」、「利用可能性」、「プロセッサ利用率」、「メモリ利用率」、「温度」、「物理位置」、「アドレス」、「ブート画像」他などのフィールドを含み得る。各レコードは上記例示的フィールドを全く含まない場合があり、上記例示的フィールドの一部又は全部を含む場合もある。一実施例では、物理レコードは、例えば仮想リスト522などの別のテーブルへの外部キーを備え得る。
仮想リスト522は、ノード115に関する論理管理情報又は仮想管理情報を記憶させるよう動作可能である。仮想リスト522は、ノード115毎に少なくとも1つのレコードを含む多次元データ構造であり得る。例えば、仮想レコードは、「ノード」、「利用可能性」、「ジョブ」、「仮想クラスタ」、「2次ノード」、「論理位置」、「互換性」他などのフィールドを含み得る。各レコードが、上記例示的フィールドを何ら含まない場合があり、上記例示的フィールドの一部又は全部を含む場合もあるということが分かるものである。一実施例では、仮想レコードは、例えばグループ・ファイル523などの別のテーブルへのリンクを含み得る。
グループ・ファイル523は、アクセス・コントロール・リスト(すなわちACL)などの、ユーザ・グループ情報及びセキュリティ情報を記憶させるよう動作可能な1つ若しくは複数のテーブル又はレコードを備える。例えば、各グループ・レコードは、ユーザが利用可能なサービス、ノード115、又はジョブのリストを含み得る。各論理グループは、ジョブ150を投入するか、システム100の少なくとも一部分を管理することができる1つ又は複数のユーザの事業グループ若しくは事業単位、部署、プロジェクト、セキュリティ・グループ、又は何れかの別の集合と関連し得る。この情報に基づいて、クラスタ管理エンジン130は、ジョブ150を投入するユーザが有効なユーザであるかを判定し、判定結果が肯定の場合、ジョブを実行する上で最適なパラメータを判定し得る。更に、グループ・テーブル523は、各ユーザ・グループを、仮想クラスタ220と関連させるか、特定のグループの領域内部に存在するノードなどの1つ又は複数の物理ノード115と関連させる場合がある。これによって、各グループが、資源をめぐって競合することなく個々の処理空間を有することを可能にする。しかし、上記のように、仮想クラスタ220の形状とサイズは、動的である場合があり、必要性、時間、又は何れかの別のパラメータによって変動し得る。
ポリシー・テーブル524は1つ又は複数のポリシーを含む。ポリシー・テーブル524とポリシー524を適宜、同義に用い得るということが分かるものである。ポリシー524は一般的に、ジョブ150及び/又は仮想クラスタ220に関する処理情報及び管理情報を記憶している。例えば、ポリシー524は、問題サイズ、問題実行時間、時間スロット、横取り、ノード115又は仮想クラスタ220のユーザ割り当て率などを含む何れかの数のパラメータ又は変数を含み得る。
ジョブ・キュー525は、実行を待つ1つ又は複数の、ジョブ150のストリームを表す。一般的に、キュー525は、(ゼロを含む)何れかの数のジョブ150又は、それに対する参照を記憶させる、バブル・アレイ、データベース・テーブル、又はポインタ・アレイなどの、何れかの適切なデータ構造を含む。グリッド110又は複数のキュー525と関連する1つのキュー525が存在し、各キュー525が、グリッド110内の一意の仮想クラスタ220の1つと関連付けられる場合がある。
動作の一特徴では、クラスタ管理エンジン130は、計算を行い、情報を交換することによって問題を協調して解決するNのタスクから成るジョブ150を受信する。クラスタ管理エンジン130は、Nのノード115を割り当て、Nのタスクの各々を1つの特定のノード515に何れかの適切な手法を用いて割り当て、それによって問題が効率的に解決されることが可能になる。例えば、クラスタ管理エンジン130は、ユーザによって供給される、ジョブ・タスク配置ストラテジなどのジョブ・パラメータを利用し得る。とにかく、クラスタ管理エンジン130は、サーバ102のアーキテクチャを駆使しようとし、同様に、ユーザにとってより高速なターンアラウンドを備え、システム100の全体スループットを向上させると思われる。
一実施例では、クラスタ管理エンジン130は更に、次の例のトポロジの何れかによって、ノード115を選択し、割り当てる。
特定の、2次元(x,y)又は3次元(x,y,z)。ノード115を割り当て、タスクを特定の次元で順序付けして、それによって、効率的な、近隣同士の通信を確保する場合がある。特定のトポロジは、物理的な通信トポロジが問題トポロジに一致して、ジョブ150の協調タスクが近隣のタスクと頻繁に通信することを可能にするということが望ましい種々のジョブ150を管理する。例えば、2x2x2次元(2,2,2)における8つのタスクの要求は立方体に割り当てられることになる。最善のフィットの目的では、2Dの割り当ては、効率的な近隣同士の通信を確保する一方で3次元に「フォールディング」することが可能である。クラスタ管理エンジン130は、特定の次元の形状を何れかの向きで自由に割り当てることができる場合がある。例えば、2x2x8のボックスは、垂直方向又は水平方向に、利用可能な物理ノード内に割り当て得る。
最善のフィットの立方体。クラスタ管理エンジン130は、Nのノード115を立方体の体積において割り当てる。このトポロジはジョブ150を効率的に処理し、それによって、協調タスクが、何れかの2つのノード115間での距離を最小にすることによって、何れかの別のタスクとデータを交換することを可能にする。
最善のフィットの球体。クラスタ管理エンジン130は、Nのノード115を球体の体積において割り当てる。例えば、第1タスクが球体の中心ノード115に配置され、残りのタスクが中央ノード115を取り囲むノード115上に配置される場合がある。残りのタスクの配置順序は通常重要でないということが分かるものである。このトポロジは、第1タスクと全ての別のタスクとの間の距離を最小にする場合がある。このことは、タスク2乃至Nが第1タスクと通信するが、お互いには通信しない大規模の問題クラスを効率的に処理する。
ランダム。クラスタ管理エンジン130がNのノード115を割り当てるが、ノード115が論理的に位置特定されるか物理的に位置特定されることに対する考慮の度合いは低くなっている。一実施例では、このトポロジはバックフィル目的でのグリッド110の積極的な利用を奨励し、別のジョブ150への影響はわずかなものである。
上記トポロジと、付随する説明は図示する目的に過ぎず、実際に使用されるトポロジもそのようなトポロジを割り当てる手法も表さない場合がある。
クラスタ管理エンジン130は、ジョブ150のパラメータ又はポリシー524のパラメータとして記憶される配置重みを利用し得る。一実施例では、配置重みは0と1との間のモディファイア値であり、この値は、要求されるタスク配置ストラテジ(又は処理配置ストラテジ)によってクラスタ管理エンジン130がどれだけ積極的にノード115を配置させようとするものであるかを表す。この例では、0の値は最適なストラテジ(又は次元)が考えられる場合のみノード115を配置させることを表し、1の値は、要求を処理するのに十分な、空き状態のノード115が存在するか、別のかたちで利用可能なノード115が存在する限り、直ちにノード115を配置させることを表す。通常、配置重みは、大規模のジョブ150の枯渇を妨げてHRCシステム100のジョブ・スループットを確保するために、資源予約などの管理ポリシー524をオーバライドするものでない。
上記図示と、付随する説明は、ノード115とジョブ150とを管理する論理的な手法を実施するエンジン130の例示的なモジュール図を備える。しかし、この図は例示的なものに過ぎず、システム100はこれらやその他のアルゴリズムを実施する論理構成要素の何れかの適切な組み合わせと配置とを用いることが想定されている。よって、これらのソフトウェア・モジュールは、ノード115とジョブ150とを効果的に管理する構成要素の何れかの適切な組み合わせと配置とを含み得る。しかし、種々の図示モジュールの処理は、適宜、合成される場合及び/又は分離される場合がある。
図11は、一例となるインタフェース104を示す。インタフェース104は、ハードウェア、ソフトウェア、埋め込みロジックコンポーネント、又はネットワーク106とHPCサーバ102との間のインタフェースを提供するこのようなコンポーネントの2以上の組み合わせを有する。特定の実施例では、インタフェース104は、インスタンス化マネージャ534とインスタンス化データ536とを有する。インスタンス化マネージャ534は、ハードウェア、ソフトウェア、埋め込みロジックコンポーネント、又はクライアント120からの接続リクエストに応答して、ノード115におけるホストを動的にインスタンス化するこのような2以上のコンポーネントの組み合わせを有する。特定の実施例では、クライアント120からの接続リクエストは、TCP(Transmission Control Protocol)接続リクエストである。TPC接続リクエストが記載されているが、本発明は、何れか適切な接続リクエストを想定する。限定されることなく例えば、クライアント120からの接続リクエストは、UDP(User Datagram Protocol)又は他のIPベース接続リクエストであってもよい。特定の実施例では、インスタンス化マネージャ534は、HPCサーバ102に関して外部的に通知されるホスト名及びポート番号を、HPCサーバ120の内部のホスト名及びポート番号にマップするルータ又はルータとのインタフェースとして機能する。インスタンス化マネージャ534は、特定のニーズに従って、クライアント120からの接続リクエストに応答して1以上のノード115の1以上のホストを動的にインスタンス化するため、クラスタ管理エンジン130(物理マネージャ505、バーチャルマネージャ510、又はその両方など)の1以上のコンポーネントとやりとりするようにしてもよい。
インスタンス化データ536は、クライアント120からの接続リクエストに応答して、ノード115のホストをインスタンス化するデータを有する。特定の実施例では、インスタンス化データ536は、HPCサーバ102に関して外部的に通知されるサービスの1以上のリストを有する。サービスの参照は、必要に応じてアプリケーションを含み、またその反対も成り立つ。HPCサーバ102に関して外部的に通知されるサービスのリストの参照は、必要に応じてルーティングテーブルを含み、またその反対も成り立つ。特定の実施例では、インスタンス化マネージャ534は、このようなルーティングテーブルを設定及び維持する。特定の実施例では、HPCサーバ102に関して外部的に通知されるサービスのリストへのエントリは、(1)サービス、(2)当該サービスに対応するHPCサーバ102に関して外部に通知されるホスト名及びポート番号、及び(3)インスタンス化時に当該サービスを提供するホストに対応するHPCサーバ102の内部のホスト名及びポート番号を指定する。当該エントリはまた、ホストが利用可能とされるべき時点、ホストのインスタンス化が行われるべき時点、及びホストが利用不可とされるべき時点を指定するルール、条件又はその両方を指定するようにしてもよい。限定されることなく一例として、ホストはウェブサーバを提供するようにしてもよい。インスタンス化マネージャ534が営業時間中にウェブサーバに対応するHTTPポートにおいてHTTPリクエストを受信していない場合、ホストは営業時間中はインスタンス化されないままとされ、ホストがインスタンス化される場合に利用する1以上のリソース(グリッド110のノード115など)が、他のホスト、サービス又はその両方について利用可能とされてもよい。クライアント120のユーザが営業時間中にウェブサーバにアクセスするためウェブブラウザを使用する場合、インスタンス化マネージャ534は、ウェブサーバをクライアント120に提供するためホストをインスタンス化するようにしてもよい。クライアント120のユーザがウェブブラウザを使用して営業時間外にウェブサーバにアクセスする場合、インスタンス化マネージャ534は、ホストがウェブサーバをクライアント120に提供することを回避するため、ウェブサーバに対応するHTTPポートをブロックする。
特定の実施例では、インスタンス化データ536は、サービスを提供するためノード115のホストをインスタンス化するための1以上のブートイメージを有する。特定の実施例では、インスタンス化データ536はまた、サービスを提供するためノード115のホストをインスタンス化するため1以上のファイルシステムを有する。特定の実施例では、インスタンス化データ536はまた、サービスを提供するためノード115のホストをインスタンス化するため1以上のOSコンフィギュレーションファイルを有する。限定されることなく一例として、インスタンス化マネージャ534が、HPCサーバ102に関して外部に通知されるサービスに対応するHPCサーバ102に関して外部的に通知されるポート番号を指定する接続リクエストをクライアント120から受信することに応答して、インスタンス化マネージャ534は、ノード115の当該サービスのホストを初期化するため、サービスのための1以上のファイルシステムとブートイメージとを利用して、グリッド110における利用可能なノード115をブートするようにしてもよい。インスタンス化マネージャ534はまた、クライアント120からノード115にIPトラフィックをルーティングするため、1以上のOSコンフィギュレーションファイルと1以上のローカルルーティングテーブルとを更新するようにしてもよい。特定の実施例では、クライアント120からの接続リクエストに応答するHPCサーバ102に係る時間要求を低減させるため、インスタンス化マネージャ534は、ターゲットホストのIP/MACアドレスをスプーフ(spoof)し、ターゲットホストの代わりにTCP/IP接続シーケンスをスタートする。クライアント120とインスタンス化マネージャ534との間のTCP/IP接続シーケンスは、ターゲットホストのブート処理中に実行される。TCP/IP接続シーケンスが記載されたが、本発明は、何れか適切な接続シーケンスを想定する。限定することなく一例として、インスタンス化マネージャ534は、ターゲットホストの代わりにUDP/IP(User Datagram Protocol over IP)又は他のIPベース接続シーケンスをスタートすることも可能である。
特定の実施例では、インスタンス化マネージャ534は、HPCサーバ102の各ホストがアクティブ状態か又は非アクティブ状態であるか追跡する。特定の実施例では、インスタンス化マネージャ534はまた、HPCサーバ102の各ホストがアクティブ状態か又は非アクティブ状態であるか制御する。特定の実施例では、インスタンス化マネージャ534は、サービスがもはや利用可能であるべきでないと判断した場合、インスタンス化マネージャ534は、インスタンス化マネージャ534がサービスを提供するためホストをインスタンス化した1以上のノード115をシャットダウン、アイドル化又は利用不可とし、これに応じて1以上のルーティングテーブルを更新する。
図12は、一例となる管理ノード15を示す。管理ノード15は、フォルトトレランス・リカバリマネージャ538と、中央ストレージ540とを有する。フォルトトレランス・リカバリマネージャ538は、ハードウェア、ソフトウェア、埋め込みロジックコンポーネント、又はグリッド110のノード115におけるフォルトを検出し、このようなフォルトからリカバリを開始するための上記2以上のコンポーネントの組み合わせを有する。中央ストレージ540は、グリッド110のすべてのノード115にアクセス可能なHPCサーバ102のネットワークファブリックに接続される1以上の記憶装置を有する。中央ストレージ540は、後述されるように、グリッド110のノード115において実行可能なアプリケーション及びホストに関するデータを含むアプリケーションデータを含む。中央ストレージ540とHPCサーバ102のネットワークファブリックは、HPCシステム100におけるフォルトトレランス及びリカバリを実現する。特定の実施例では、HPCサーバ102のネットワークファブリックは、高速ネットワークファブリックである。特定の実施例では、HPCサーバ102のネットワークファブリックは、上述されるように、3次元トーラスを包含するトポロジーに従って、互いに接続されるスイッチ166を有する。特定の実施例では、中央ストレージ540の記憶装置は、高帯域幅記憶装置である。特定の実施例では、中央ストレージの記憶装置は、典型的には従来の記憶装置より高速なレートによるアクセスを可能にする。
特定の実施例では、フォルトトレランス・リカバリマネージャ538は、アプリケーションの利用のためホストを構成することを実現する。限定されることなく一例として、フォルトトレランス・リカバリマネージャ538は、HPCサーバ102の管理者がホストを規定し、当該ホストを中央ストレージ540に格納することを可能にするかもしれない。フォルトトレランス・リカバリマネージャ538はまた、HPCサーバ102の管理者がホスト名、IPアドレス、ブートイメージ、コンフィギュレーション及び当該ホストに対応する1以上のファイルシステムを指定し、その詳細を中央ストレージ540に格納することを可能にするかもしれない。中央ストレージ540はホストと当該ホストに対応する詳細とを有するため、グリッド110の各ノード115は、HPCサーバ102のネットワークファブリックを介しホスト及び当該ホストに対応する詳細にアクセスするようにしてもよく、この結果、グリッド100の任意のノード115が当該ホストを実行するかもしれない。
特定の実施例では、フォルトトレランス・リカバリマネージャ538は、グリッド110の何れかのノード115における何れかのホストの実行を実現する。限定することなく一例として、フォルトトレランス・リカバリマネージャ538は、ホストを実行するため1以上のノード115を選択するため、インタフェース104(インスタンス化マネージャ534を含む)とクラスタ管理エンジン130(ジョブスケジューラ515を含む)とやりとりするようにしてもよい。フォルトトレランス・リカバリマネージャ538又はHPCサーバ102の他のコンポーネントがホストを実行するためノード115を選択した後、フォルトトレランス・リカバリマネージャ538は、設定されたブートイメージ、1以上のファイルシステム及びホストに対応するIPアドレスを利用して、ノード115上でホストをブートするようにしてもよい。ホストをブートするため、フォルトトレランス・リカバリマネージャ538は、Wake−On LAN、IPMI(Intelligent Platform Management Interface)、PXE(Preboot Execution Environment)及びDHCP(Dynamic Host Configuration Protocol)の1以上を利用してもよい。その後、フォルトトレランス・リカバリマネージャ538又はHPCサーバ102の他のコンポーネントは、ホストを実行するノードを115を特定するため、1以上のルーティングテーブルを更新するようにしてもよい。
特定の実施例では、ノード115がホストを実行すると、フォルトトレランス・リカバリマネージャ538は、ハートビート(heartbeat)機構を提供するノード115のデーモン又は他のソフトウェアコンポーネントを利用して、ノード115の健全性を監視する。デーモンは、ノード115が適切に機能していることを示すハートビートメッセージを定期的な間隔によりフォルトトレランス・リカバリマネージャ538に通信する。デーモンからのハートビートメッセージは、ノード115に関する状態情報を提供するかもしれない。限定されることなく一例として、デーモンからのハートビートメッセージは、ノード115の温度、ノード115のファンの平均速度及びノード115の電力消費レベルを示すノード115に関する状態情報を提供するかもしれない。ノード115のフォルトを示す状態情報に応答して、フォルトトレランス・リカバリマネージャ538は、自動的にかつユーザ入力なしに、フォルトからリカバするためのアクションを開始し、フォルトをHPCサーバ102の管理者に通知し、又はその両方を実行するようにしてもよい。
特定の実施例では、フォルトトレランス・リカバリマネージャ538がノード115が1以上の設定可能な閾値を超過していないことを示す状態情報を提供するハートビートメッセージをノード115から受信し続ける場合、フォルトトレランス・リカバリマネージャ538はノード115を健全であるとみなす。ノード115が1以上の設定可能な閾値を超過していないことを示す状態情報を提供するハートビートメッセージをノード115から受信しなかった場合、フォルトトレランス・リカバリマネージャ538は、自動的にかつユーザ入力なしに、フォルトからリカバするためのアクションを開始し、フォルトをHPCサーバ102の管理者に通知し、又はその両方を実行するようにしてもよい。ノード115がHPCサーバ102のネットワークファブリックとの複数のインタフェース(1以上のイーサネット(登録商標)インタフェース、1以上のINFINIBANDインタフェース又はその両方など)を有する場合、フォルトトレランス・リカバリマネージャ538にハートビートメッセージを通信するノード115のデーモンは、フォルトトレランス・リカバリマネージャ538がノード115の複数のインタフェースのそれぞれが適切に機能しているか判断できるように、ノード115の複数のインタフェースのそれぞれを介しハートビートメッセージのインスタンスを通信するようにしてもよい。デーモンはまた、フォルトトレランス・リカバリマネージャ538がハートビートメッセージを読むことができるように、ハートビートメッセージのインスタンスを中央ストレージ540に格納するようにしてもよい。特定の実施例では、ハートビートメッセージは、デーモンがハートビートメッセージのインスタンスを送信したすべてのインタフェースを特定する。フォルトトレランス・リカバリマネージャ538がノード115の複数のインタフェースの1以上においてフォルトを検出した場合、フォルトトレランス・リカバリマネージャ538は、ノード115において実行されるホストが1以上の追加的な通信パスを用いて他のホスト(HPCサーバ102にとって内部的又は外部的なものであるかもしれない)と通信することを可能にするため、HPCサーバ102における1以上のルーティングテーブルを更新するようにしてもよい。フォルトトレランス・リカバリマネージャ538はまた、中央ストレージ540へのアクセスをノード115に復元するためアクションを開始するようにしてもよい。フォルトトレランス・リカバリマネージャ538はまた、検出されたフォルトをHPCサーバ102の管理者に通知し、ノード115に関してカスタマイズされたリカバリを実行するため、設定可能なスクリプトを実行するようにしてもよい。
特定の実施例では、第1ノード115におけるデーモンからのハートビートメッセージが、第1ノード115においてホストを実行するハードウェアにリカバリ不可能なフォルトが発生し、第1ノード115に関してカスタマイズされたリカバリを実行するための設定可能なスクリプトが、グリッド110の第2ノード115におけるホストを再スタートさせることを含むリカバリ方法を指定していることを示す場合、フォルトトレランス・リカバリマネージャ538は、ホストを実行するため第2ノード115を選択肢、その後、第2ノード115において実行するため、第2ノード115のホストをブート処理するようにしてもよい。その後、フォルトトレランス・リカバリマネージャ538は、当該ホストがグリッド110の他のノード115と、HPCサーバ102の外部のクライアントと通信することを可能にするため、1以上のルーティングテーブルを更新するようにしてもよい。フォルトトレランス・リカバリマネージャ538は、ルーティングテーブル又はHPCサーバ102の何れかにおいて、第1ノード115がオフラインであることを示し、HPCサーバ102の管理者に第1ノード115におけるフォルトを通知するようにしてもよい。
特定の実施例では、フォルトトレランス・リカバリマネージャ538がホストを実行する第1ノード115においてフォルトを検出し、当該フォルトに応答して、第2ノード115をブート処理し、第2ノード115においてホストの初期化に成功した場合、フォルトトレランス・リカバリマネージャ538は、第1ノード115の処理を中断するためのステップを実行するようにしてもよい。限定されることなく一例として、第1ノード115の処理を中断するため、フォルトトレランス・リカバリマネージャ538は、第1ノード115との通信を回避するためHPCサーバ102において1以上のルーティングテーブルを更新し、第1ノード115が中央ストレージ540にアクセスすることを回避するため、中央ストレージ540においてソフトウェア又は他のロジックを更新し、ノード115にアイドル状態若しくはパワーダウン状態にし、又は第1ノード115をリブートさせるようにしてもよい。第1ノード115が、第1ノード115のハードウェアにおけるフォルトのためでなく、OS又は第1ノード115の他のソフトウェアにおける不具合又はネットワーク不具合のため故障した場合、第1ノード115の処理を中断することが好ましいかもしれない。
特定の実施例では、HPCサーバ102の管理者は、第1ノード115のハードウェアに関する修正メンテナンスを実行し、又はフォルトトレランス・リカバリマネージャ538が検出した第1ノード115における潜在的な問題をチェックするため、第1ノード115から第2ノード115にホストを手動により移すことを選択するようにしてもよい。特定の実施例では、フォルトトレランス・リカバリマネージャ538は、管理者が第1ノード115から第2ノード115にホストを手動により移動することを可能にしている。特定の実施例では、管理者がホストを第1ノード115から第2ノード115に手動により移動するとき、フォルトトレランス・リカバリマネージャ538は、ルーティングテーブル又はHPCサーバ102の何れかにおいて、第1ノード115がオフラインであることを示し、これにより、HPCサーバ102が他のホストを第1ノード115にスケジューリングしないようにしてもよい。第1ノード115において実行されるアプリケーションがチェックポイント処理(checkpointing)をサポートし、又はHPCサーバ102のハードウェアがカーネルレベルのチェックポイント処理及び再スタートをサポートしている場合、フォルトトレランス・リカバリマネージャ538は、第1ノード115においてアプリケーションのチェックポイント処理と、第2ノード115におけるアプリケーションの再スタートをサポートするようにしてもよい。
特定の実施例では、第1ノード115において実行されるアプリケーションとOSとがカーネルレベルのチェックポイント処理及び再スタートをサポートしている場合、フォルトトレランス・リカバリマネージャ538は、第1ノード115における所定のスケジュール、設定可能なロード若しくはユーザにより指定された閾値に従って、第1ノード115をチェックポイント処理するようにしてもよい。フォルトトレランス・リカバリマネージャ538が第1ノード115のホストをチェックポイント処理すると、フォルトトレランス・リカバリマネージャ538は、OS及びアプリケーションが第1ノード115において実行されている状態を示すチェックポイントファイルを中央ストレージ540に書き込むようにしてもよい。フォルトトレランス・リカバリマネージャ538は、第1ノード115が故障しているか、又は設定可能なロード又はユーザにより指定された閾値に到達している場合、第2ノード115においてホストアプリケーションを再スタートするようにしてもよい。特定の実施例では、フォルトトレランス・リカバリマネージャ538は、他のより高い優先度のホストを実行するために第1ノード115を解放するため、第2ノード115においてホスト及びアプリケーションを再スタートするようにしてもよい。
図13は、本開示の一実施例によるジョブ命令を動的に処理する一例となる方法600を示すフローチャートである。一般に、図13は、バッチジョブ命令を受け付け、ジョブパラメータ及び関連するポリシー524に基づきノード115をジョブスペース230に動的に割当て、割り当てられたスペースを用いてジョブ150を実行する方法600を記載する。以下の説明は、方法600を実行するに際してクラスタ管理モジュール130の処理に着目している。しかしながら、システム100は当該機能が適切に維持される限り、説明される機能の一部又はすべてを実現する論理要素の何れか適切な組み合わせ及び構成を利用することを想定している。
方法600は、HPCサーバ102がユーザからジョブ命令150を受け付けるステップ605から開始される。上述されるように、一実施例では、ユーザはクライアント120を用いてジョブ150を提供する。他の実施例では、ユーザはHPCサーバ102を直接利用して、ジョブ150を提供するかもしれない。次にステップ610において、クラスタ管理エンジン130は、ユーザに基づきグループ523を選択する。ユーザが認証されると、クラスタ管理エンジン130は、ステップ615において、ユーザとグループアクセスコントロールリスト(ACL)とを比較する。しかしながら、クラスタ管理エンジン130は、何れか適切なセキュリティ技術を利用してユーザを認証するようにしてもよいということは理解されるであろう。リクエストされたサービス及びホスト名に基づき、クラスタ管理エンジン130は、ステップ620においてバーチャルクラスタ220を選択する。典型的には、バーチャルクラスタ220は、ジョブ150の提供前に特定及び割り当てられるようにしてもよい。しかしながら、バーチャルクラスタ220が確立されていない場合には、クラスタ管理エンジン130は、上述した技術の何れかを利用してバーチャルクラスタ220を自動的に割り当てるようにしてもよい。次にステップ625において、クラスタ管理エンジン130は、ジョブ150の提供に基づきポリシー524を抽出する。一実施例では、クラスタ管理エンジン130は、ユーザに係る適切なポリシー524、ジョブ150又は他の何れか適切な基準を決定するようにしてもよい。クラスタ管理エンジン130は、その後ステップ630において、ジョブ150のサイズを決定又は計算する。適切なサイズは、長さ、幅、高さ又は他の何れか適切なパラメータ又は特性を含むものであってもよいということが理解されるであろう。上述されるように、これらのサイズは、バーチャルクラスタ220内の適切なジョブスペース230(又はノード115のサブセット)を決定するのに利用される。初期的なパラメータが確立された後、クラスタ管理130は、ステップ635〜665においてHPCサーバ102上でジョブ150を実行しようとする。
判定ステップ635において、クラスタ管理エンジン130は、すでに確立されたパラメータを利用して、所望のジョブスペース230を割り当てるのに利用可能な十分なノードがあるか判断する。十分なノード115が存在しない場合、クラスタ管理エンジン130は、ステップ640においてバーチャルクラスタ220のノード115の最先の利用可能なサブセット230を決定する。その後ステップ645において、当該サブセット230が利用可能になるまで、クラスタ管理エンジン130はジョブ150をジョブキュー125に加える。その後、処理は判定ステップ635に戻る。利用可能な十分なノード115が存在すると、クラスタ管理エンジン130は、ステップ650において利用可能なノード115からの最適なサブセット230を動的に決定する。最適なサブセット230が、最速の処理時間、最も信頼度の高いノード、物理又はバーチャル位置又は最初の利用可能なノード115を含む何れか適切な基準を用いて決定されてもよいということは理解されるであろう。ステップ655において、クラスタ管理エンジン130は、選択されたバーチャルクラスタ220から決定されたサブセット230を選択する。次にステップ660において、クラスタ管理エンジン130は、選択されたサブセット230を利用してジョブ150の選択されたノード115を割り当てる。一実施例によると、クラスタ管理エンジン130は、“未割当て(unallocated)”から“割当て済み(allocated)”にバーチャルノードリスト522のノード115の状態を変更するようにしてもよい。サブセット230が適切に割り当てられると、クラスタ管理エンジン130は、ジョブパラメータ、抽出されたポリシー524及び他の何れか適切なパラメータに基づき割り当てられたスペースを利用して、ステップ665においてジョブ150を実行する。何れか適切な時点において、クラスタ管理エンジン130は、ユーザにジョブ結果を通信又は提示するようにしてもよい。例えば、結果160はGUI126を介しフォーマット化又はユーザに提示されるようにしてもよい。
図14は、本開示の一実施例によるグリッド110のバーチャルクラスタ220を動的に充填する一例となる方法700を示すフローチャートである。高いレベルにおいては、方法700は、バーチャルクラスタ220の利用可能なスペースを決定し、当該スペースに両立する最適なジョブ150を決定し、利用可能なスペースにおいて決定されたジョブ150を実行することを記載する。以下の説明は、当該方法を実行するに際してクラスタ管理モジュール130の処理に着目している。しかしながら、前のフローチャートと同様に、システム100は記載される機能の一部又はすべてを実現する論理要素の何れか適切な組み合わせ及び構成を利用することを想定している。
方法700は、クラスタ管理エンジン130がジョブキュー525をソートするステップ705から開始される。図示された実施例では、クラスタ管理エンジン130は、キュー525に格納されているジョブ150の優先度に基づきキュー525をソートする。しかしながら、クラスタ管理エンジン130が適切な又は最適なジョブ150が実行されるように、何れか適切な特性を利用してキュー525をソートするようにしてもよいということは理解されるであろう。次にステップ710において、クラスタ管理エンジン130は、バーチャルクラスタ220の1つにおける利用可能なノード115の個数を決定する。もちろん、クラスタ管理エンジン130はまた、グリッド110又はバーチャルクラスタ220の何れ1以上における利用可能なノード115の個数を決定するようにしてもよい。ステップ715において、クラスタ管理エンジン130は、ソートされたジョブキュー525から最初のジョブ150を選択する。次にステップ720において、クラスタ管理エンジン130は、選択されたジョブの最適な形状(又は他のサイズ)を動的に決定する。選択されたジョブ150の最適な形状又はサイズが決定されると、クラスタ管理エンジン130は、ステップ725〜745において、適切なバーチャルクラスタ220にジョブ150を充填することが可能であるか判断する。
判定ステップ725において、クラスタ管理エンジン130は、選択されたジョブ150に利用可能な十分なノードがあるか判断する。利用可能な十分なノード115が存在する場合、ステップ730において、クラスタ管理エンジン130は、何れか適切な技術を用いて選択されたジョブに対してノード115を動的に割り当てる。例えば、クラスタ管理エンジン130は、図6に示される技術を利用するようにしてもよい。次にステップ735において、クラスタ管理エンジン130は、バーチャルクラスタ220における利用可能なノードの個数を再計算する。ステップ740において、クラスタ管理エンジン130は、割り当てられたノード115上でジョブ150を実行する。ジョブ150が実行されると(又は選択されたジョブ150について十分なノード115が存在しなかった場合)、クラスタ管理エンジン130は、ステップ745においてソートされたジョブキュー525の次のジョブ150を選択肢、処理はステップ720に戻る。ループとして図示されているが、クラスタ管理エンジン130は何れか適切な時点において方法700に示された技術を開始、実行及び終了するようにしてもよいということは理解されるであろう。
図15は、本開示の一実施例によるグリッド110のノード115の不具合を動的管理する一例となる方法800を示すフローチャートである。高いレベルでは、方法800は、ノード115が故障したと判断し、ジョブリカバリ及び管理を自動的に実行し、故障したノード115を補助的なノード115に交換することを記載している。以下の説明は、当該方法を実行するに際してクラスタ管理モジュール130の処理に着目している。しかしながら、前のフローチャートと同様に、システム100は、説明される機能の一部又はすべてを実現する論理要素の何れか適切な組み合わせ及び構成を利用することを想定している。
方法800は、クラスタ管理エンジン130がノード115が故障したと判断するステップ805から開始される。上述されるように、クラスタ管理エンジン130は、ノード115が故障したことを何れか適切な技術を用いて判断するかもしれない。例えば、クラスタ管理エンジン130は、各時点においてノード115(又はエージェント132)を抽出し、ノード115からの応答の欠落に基づきノード115が故障したことを判断するようにしてもよい。他の例では、ノード115上に存在するエージェント132が“ハートビート”を通信し、この“ハートビート”の欠落がノード115の故障を示すかもしれない。次にステップ810において、クラスタ管理エンジン130は、バーチャルクラスタ220から故障したノード115を取り除く。一実施例では、クラスタ管理エンジン130は、バーチャルリスト522のノード115の状態を“割当て済み”から“故障”に変更するようにしてもよい。その後判定ステップ815において、クラスタ管理エンジン130は、ジョブ150が故障したノード115に係るものか判断する。ノード115に係るジョブ150がない場合、処理は終了する。上述されるように、処理が終了する前に、クラスタ管理エンジン130は、エラーメッセージを管理者に通信し、置換ノード115又は他の何れか適切な処理を自動的に決定する。故障したノード115に係るジョブ150が存在する場合、クラスタ管理エンジン130は、ステップ820においてジョブ150に係る他のノード115を決定する。次にステップ825において、クラスタ管理エンジン130は、すべての適切なノード115上のジョブ150をキル(kill)する。例えば、クラスタ管理エンジン130は、キルジョブコマンドを実行し、又はジョブ150を終了するための他の何れか適切な技術を利用するようにしてもよい。次にステップ830において、クラスタ管理エンジン130は、バーチャルリスト522を用いてノード115を割当て解除する。例えば、クラスタ管理エンジン130は、バーチャルリスト522のノード115の状態を“割当て済み”から“利用可能”に変更するようにしてもよい。当該ジョブが終了し、すべての適切なノード115が割当て解除されると、クラスタ管理エンジン130は、ステップ835〜850において利用可能なノード115を用いてジョブ150を再実行しようとする。
ステップ835において、クラスタ管理エンジン130は、ステップ835においてキルされたジョブ150のポリシー及びパラメータを抽出する。その後ステップ840において、クラスタ管理エンジン130は、抽出したポリシー524とジョブパラメータとに基づき、バーチャルクラスタ220のノード115の最適なサブセットを決定する。ノード115のサブセット230が決定されると、クラスタ管理エンジン130は、ステップ845においてノード115のサブセット230を動的に割り当てる。例えば、クラスタ管理エンジン130は、バーチャルリスト522のノード115の状態を“未割当て”から“割当て済み”に変更してもよい。当該ノード115のサブセットがジョブ150が実行されていた当初のノードサブセットと異なるかもしれないということが理解されるであろう。例えば、クラスタ管理エンジン130は、当該実行を促したノードの不具合のため、異なるノードサブセットが最適であると判断するかもしれない。他の例では、クラスタ管理エンジン130は、補助的なノード115が故障したノード115を交換するよう動作可能であり、新たなサブセット230が古いジョブスペース230と実質的に類似しているということを判断したかもしれない。割当て済みサブセット230が決定及び割り当てられると、クラスタ管理エンジン130は、ステップ850においてジョブ150を実行する。
上記フローチャート及び付属の説明は、一例となる方法600、700及び800を示している。すなわち、システム100は、上記及び他のタスクを実行するための何れか適切な技術を利用することを想定している。従って、当該フローチャートのステップの多くは、同時に及び/又は図示されるものと異なる順序により行われるようにしてもよい。さらに、システム100は、上記方法が適切なものである限り、より多く、より少ない及び/又は異なるステップによる方法を利用するようにしてもよい。
図16は、HPCシステム100のオン・デマンドインスタンス化の一例となる方法を示す。本方法は、インタフェース104がHPCサーバ102に関して外部的に通知されたポート番号とホスト名とを規定する接続リクエストをクライアント120から受け付ける。ステップ902において、当該接続リクエストに応答して、インスタンス化マネージャ534は、HPCサーバ102に関して外部的に通知されたサービスのリストを提供するインスタンス化データ536にアクセスする。ステップ904において、インスタンス化マネージャ534は、当該サービスのリストを用いて接続リクエストに規定されるポート番号とホスト名とに対応するサービスを特定する。ステップ906において、インスタンス化マネージャ534は、当該サービスリストに従って、特定されたサービスがクライアント120に利用可能であるか判断する。上述されるように、特定されたサービスがクライアント120に利用可能であるか否かは、当該接続リクエストに係る時間、クライアント120のユーザの身元又は接続リクエストの他の側面に依存するかもしれない。ステップ906において、特定されたサービスがクライアント120に利用可能である場合、本方法はステップ908に移行する。ステップ908において、インスタンス化マネージャ534は、特定されたサービスに対応するHPCサーバ102の内部のホスト名とポート番号とを示すインスタンス化データ536を利用して、特定されたサービスをクライアント120に提供するためグリッド110の1以上のノード115のホストをインスタンス化する。上述されるように、インスタンス化マネージャ534はまた、ブートイメージ、ファイルシステム及びOSコンフィギュレーションを含むインスタンス化データ536を利用して、本方法が終了する時点においてノード115のホストをインスタンス化するようにしてもよい。ステップ906において、特定されたサービスがクライアント120に利用可能でない場合、本方法はステップ910に移行する。ステップ910において、インスタンス化マネージャ534は、クライアント120が本方法が終了する時点において特定されたサービスにアクセスすることを回避するため、接続リクエストに指定されるポートをブロックする。図16に示される方法の特定のステップが特定の順序で行われるものとして図示及び記載されたが、図16に示される方法の何れか適切なステップが、何れか適切な順序により行われるようにしてもよい。
図17は、HPCシステム100におけるフォルトトレランス及びリカバリのための一例となる方法を示す。本方法は、フォルトトレランス・リカバリマネージャ538が第1ノード115において実行されるホストから1以上のハートビートメッセージを受け付けるステップ1000から開始される。ステップ1002において、フォルトトレランス・リカバリマネージャ538は、1以上のハートビートメッセージから第1ノード115の健全性(ハードウェア、ソフトウェア、埋め込みロジックコンポーネント、又は第1ノード115におけるこのような2以上のコンポーネントの組み合わせの健全性を有するものであってもよい)を決定する。ステップ1004において、第1ノード115が検算である場合、本方法はステップ1000に戻る。ステップ1004において、第1ノード115が健全でない場合、本方法は、フォルトトレランス・リカバリマネージャ538がホストを実行するためグリッド110の第2ノード115を選択するステップ1006に移行する。ステップ1008において、フォルトトレランス・リカバリマネージャ538は第1ノード115の処理を中断する。ステップ1012において、フォルトトレランス・リカバリマネージャ538は、本方法が終了する時点において第1ノード115が検算でないことをHPCサーバ102の管理者に通知する。図17に示される方法の特定のステップは、特定の順序により行われるとして図示及び説明されたが、図17に示される方法の何れか適切なステップは、何れか適切な順序により実行されてもよい。
本開示が特定の実施例及び全体的に関連する方法に関して説明されたが、当業者には上記実施例及び方法の変形及び置換が明らかであろう。従って、上記実施例の説明は本開示を規定又は制限するものではない。本開示の趣旨及び範囲から逸脱することなく、他の変更、置換及び変形がまた可能である。
本願開示の一実施例による、高性能計算システムの例を示す図である。 図1に示すHPCシステムにおけるノードの例を示す図である。 ノードにおける中央処理装置(CPU)の例を示す図である。 ノード対の例を示す図である。 図1のシステムにおけるグリッドとその利用との種々の実施例を示す図である。 図1のシステムにおけるグリッドとその利用との種々の実施例を示す別の図である。 図1のシステムにおけるグリッドとその利用との種々の実施例を示す更に別の図である。 図1のシステムにおけるグリッドとその利用との種々の実施例を示す更に別の図である。 図1のシステムによる、グラフィカル・ユーザ・インタフェースの種々の実施例を示す図である。 図1のシステムによる、グラフィカル・ユーザ・インタフェースの種々の実施例を示す別の図である。 図1におけるシステムによる、クラスタ管理ソフトウェアの一実施例を示す図である。 y次元にフォールディングされる1次元の要求の例を示す図である。 y軸を内部ループとして用いて構成される2つのフリー・メッシュを示す図である。 x軸を内部ループとして用いて構成される2つのフリー・メッシュを示す図である。 図1に示されるHPCシステムの一例となるインタフェースを示す。 図1に示されるHPCシステムの一例となる管理ノードを示す。 図1のハイパフォーマンスコンピューティングシステムによるバッチジョブを提供する方法を示すフローチャートである。 図1のハイパフォーマンスコンピューティングシステムによるグリッドの動的充填のための方法を示すフローチャートである。 図1のハイパフォーマンスコンピューティングシステムによるノード不具合を動的管理する方法を示すフローチャートである。 図1に示されるHPCシステムにおけるオン・デマンドインスタンス化のための一例となる方法を示す。 図1に示されるHPCシステムにおけるフォルトトレランス及びリカバリのための一例となる方法を示す。

Claims (38)

  1. ハイパフォーマンスコンピューティング(HPC)システムにおけるフォルトトレランス・リカバリシステムであって、
    HPCシステムの複数のノードを互いに接続するファブリックと、
    前記ファブリックに接続され、前記ノードのそれぞれにアクセス可能であって、各々が前記ノードの何れかにおいて実行可能な複数のホストを格納するよう動作可能なストレージと、
    前記ファブリックに接続され、ホストを実行する前記HPCシステムにおいて現在実行中のノードをモニタし、前記現在実行中のノードにフォルトが発生した場合、前記現在実行中のノードの処理を中断し、前記ストレージから前記HPCシステムのフリーノードにおいて前記ホストをブート処理するよう動作可能なマネージャと、
    を有するシステム。
  2. 前記マネージャはさらに、前記現在実行中のノードの状態を示す前記現在実行中のノードのデーモンからの1以上のメッセージに従って、前記現在実行中のノードにおける前記フォルトを特定するよう動作可能である、請求項1記載のシステム。
  3. 前記現在実行中のノードの状態は、該現在実行中のノードにおけるファンの平均速度、該現在実行中のノードの現在の温度及び該現在実行中のノードにおける電力消費レベルの1以上から構成される、請求項2記載のシステム。
  4. 前記デーモンは、定期的な間隔により前記メッセージを前記マネージャに通信する、請求項2記載のシステム。
  5. 前記デーモンは、前記現在実行中のノードと前記ファブリックとの間の各インタフェースを介し前記メッセージを前記マネージャに通信する、請求項1記載のシステム。
  6. 前記マネージャはさらに、前記マネージャがチェックポイントから前記フリーノードのホストをブート処理することを可能にするため、前記ホストをチェックポイント処理するよう動作可能である、請求項1記載のシステム。
  7. 前記マネージャはさらに、前記現在実行中のノードにおいてフォルトが発生した場合、前記フリーノードのホストとの通信を可能にするため、前記HPCシステムにおいて1以上のルーティングテーブルを更新するよう動作可能である、請求項1記載のシステム。
  8. 前記マネージャはさらに、前記現在実行中のノードにおいてフォルトが発生した場合、該フォルトの発生を前記HPCシステムの管理者に通知するよう動作可能である、請求項1記載のシステム。
  9. 前記マネージャは、
    前記現在実行中のノードとの通信を回避するため、
    前記現在実行中のノードが前記ストレージにアクセスすることを回避するため、
    前記現在実行中のノードをアイドル状態にするため、
    前記現在実行中のノードをパワーダウン状態にするため、又は
    前記現在実行中のノードをリブートするため、
    の1以上を実行するため、前記現在実行中のノードの処理を中断するよう動作可能である、請求項1記載のシステム。
  10. 前記ファブリックは、3次元トーラスを構成するトポロジーに従って、前記ノードを互いに接続する複数のスイッチを有する、請求項1記載のシステム。
  11. 前記スイッチは、INFINIBANDスイッチである、請求項10記載のシステム。
  12. ホストは、前記HPCシステムのノードにおいて該ホストブート処理するのに利用可能なIP(Internet Protocol)アドレス、ブートイメージ、コンフィギュレーション及びファイルシステムを有する、請求項1記載のシステム。
  13. 前記現在実行中のノードにおけるフォルトは、前記現在実行中のノードのハードウェアコンポーネントにおけるフォルトから構成される、請求項1記載のシステム。
  14. 前記現在実行中のノードにおけるフォルトは、前記現在実行中のノードのソフトウェアコンポーネントにおけるフォルトから構成される、請求項1記載のシステム。
  15. 前記現在実行中のノードにおけるフォルトは、前記現在実行中のノードと前記ファブリックとの間のインタフェースにおけるフォルトから構成される、請求項1記載のシステム。
  16. ハイパフォーマンスコンピューティング(HPC)システムにおけるフォルトトレランス・リカバリ方法であって、
    複数のノードと、該複数のノードを互いに接続し、該複数のノードのそれぞれにアクセス可能であって、各々が該複数のノードの何れかにおいて実行可能な複数のホストを格納するよう動作可能なストレージと該複数のノードとを接続するファブリックとから構成されるHPCシステムにおいて現在実行中のノードをモニタするステップと、
    前記現在実行中のノードにおいてフォルトが発生した場合、前記現在実行中のノードの処理を中断し、前記ストレージから前記HPCシステムのフリーノードにおけるホストをブート処理するステップと、
    を有する方法。
  17. 前記現在実行中のノードの状態を示す前記現在実行中のノードのデーモンからの1以上のメッセージに従って、前記現在実行中のノードにおいて前記フォルトを特定するステップをさらに有する、請求項16記載の方法。
  18. 前記現在実行中のノードの状態は、該現在実行中のノードにおけるファンの平均速度、該現在実行中のノードの現在の温度及び該現在実行中のノードにおける電力消費レベルの1以上から構成される、請求項17記載の方法。
  19. 前記デーモンは、定期的な間隔により前記メッセージを前記マネージャに通信する、請求項17記載の方法。
  20. 前記デーモンは、前記現在実行中のノードと前記ファブリックとの間の各インタフェースを介し前記メッセージを前記マネージャに通信する、請求項16記載の方法。
  21. チェックポイントから前記フリーノードのホストをブート処理することを可能にするため、前記ホストをチェックポイント処理するステップをさらに有する、請求項16記載の方法。
  22. 前記現在実行中のノードにおいてフォルトが発生した場合、前記フリーノードのホストとの通信を可能にするため、前記HPCシステムにおいて1以上のルーティングテーブルを更新するステップをさらに有する、請求項16記載の方法。
  23. 前記現在実行中のノードにおいてフォルトが発生した場合、該フォルトの発生を前記HPCシステムの管理者に通知するステップをさらに有する、請求項16記載の方法。
  24. 前記現在実行中のノードの処理を中断するステップは、
    前記現在実行中のノードとの通信を回避するステップと、
    前記現在実行中のノードが前記ストレージにアクセスすることを回避するステップと、
    前記現在実行中のノードをアイドル状態にするステップと、
    前記現在実行中のノードをパワーダウン状態にするステップと、
    前記現在実行中のノードをリブートするステップと、
    の1以上から構成される、請求項16記載の方法。
  25. 前記ファブリックは、3次元トーラスを構成するトポロジーに従って、前記ノードを互いに接続する複数のスイッチを有する、請求項16記載の方法。
  26. 前記スイッチは、INFINIBANDスイッチである、請求項25記載の方法。
  27. ハイパフォーマンスコンピューティング(HPC)システムにおけるフォルトトレランス・リカバリロジックであって、
    当該ロジックは、コンピュータ可読媒体に符号化され、実行されると、
    複数のノードと、該複数のノードを互いに接続し、該複数のノードのそれぞれにアクセス可能であって、各々が該複数のノードの何れかにおいて実行可能な複数のホストを格納するよう動作可能なストレージと該複数のノードとを接続するファブリックとから構成されるHPCシステムにおいて現在実行中のノードをモニタし、
    前記現在実行中のノードにおいてフォルトが発生した場合、前記現在実行中のノードの処理を中断し、前記ストレージから前記HPCシステムのフリーノードにおけるホストをブート処理する、
    よう動作可能であるロジック。
  28. 前記現在実行中のノードの状態を示す前記現在実行中のノードのデーモンからの1以上のメッセージに従って、前記現在実行中のノードにおいて前記フォルトを特定するようさらに動作可能である、請求項27記載のロジック。
  29. 前記現在実行中のノードの状態は、該現在実行中のノードにおけるファンの平均速度、該現在実行中のノードの現在の温度及び該現在実行中のノードにおける電力消費レベルの1以上から構成される、請求項28記載のロジック。
  30. 前記デーモンは、定期的な間隔により前記メッセージを前記マネージャに通信する、請求項28記載のロジック。
  31. 前記デーモンは、前記現在実行中のノードと前記ファブリックとの間の各インタフェースを介し前記メッセージを前記マネージャに通信する、請求項27記載のロジック。
  32. チェックポイントから前記フリーノードのホストをブート処理することを可能にするため、前記ホストをチェックポイント処理するようさらに動作可能である、請求項27記載のロジック。
  33. 前記現在実行中のノードにおいてフォルトが発生した場合、前記フリーノードのホストとの通信を可能にするため、前記HPCシステムにおいて1以上のルーティングテーブルを更新するようさらに動作可能である、請求項27記載のロジック。
  34. 前記現在実行中のノードにおいてフォルトが発生した場合、該フォルトの発生を前記HPCシステムの管理者に通知するようさらに動作可能である、請求項27記載のロジック。
  35. 前記現在実行中のノードとの通信を回避するため、
    前記現在実行中のノードが前記ストレージにアクセスすることを回避するため、
    前記現在実行中のノードをアイドル状態にするため、
    前記現在実行中のノードをパワーダウン状態にするため、又は
    前記現在実行中のノードをリブートするため、
    の1以上を実行するため、前記現在実行中のノードの処理を中断するよう動作可能である、請求項27記載のロジック。
  36. 前記ファブリックは、3次元トーラスを構成するトポロジーに従って、前記ノードを互いに接続する複数のスイッチを有する、請求項27記載のロジック。
  37. 前記スイッチは、INFINIBANDスイッチである、請求項36記載のロジック。
  38. ハイパフォーマンスコンピューティング(HPC)システムにおけるフォルトトレランス・リカバリシステムであって、
    複数のノードと、該複数のノードを互いに接続し、該複数のノードのそれぞれにアクセス可能であって、各々が該複数のノードの何れかにおいて実行可能な複数のホストを格納するよう動作可能なストレージと該複数のノードとを接続するファブリックとから構成されるHPCシステムにおいて現在実行中のノードをモニタする手段と、
    前記現在実行中のノードにおいてフォルトが発生した場合、前記現在実行中のノードの処理を中断し、前記ストレージから前記HPCシステムのフリーノードにおけるホストをブート処理する手段と、
    を有するシステム。
JP2007543012A 2004-11-17 2005-04-13 ハイパフォーマンスコンピューティング(hpc)システムにおけるフォルトトレランス及びリカバリ Active JP5570095B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/991,754 2004-11-17
US10/991,754 US7475274B2 (en) 2004-11-17 2004-11-17 Fault tolerance and recovery in a high-performance computing (HPC) system
PCT/US2005/012242 WO2006055026A1 (en) 2004-11-17 2005-04-13 Fault tolerance and recovery in a high-performance computing (hpc) system

Publications (2)

Publication Number Publication Date
JP2008521127A true JP2008521127A (ja) 2008-06-19
JP5570095B2 JP5570095B2 (ja) 2014-08-13

Family

ID=34965798

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007543012A Active JP5570095B2 (ja) 2004-11-17 2005-04-13 ハイパフォーマンスコンピューティング(hpc)システムにおけるフォルトトレランス及びリカバリ

Country Status (4)

Country Link
US (1) US7475274B2 (ja)
EP (1) EP1815341A1 (ja)
JP (1) JP5570095B2 (ja)
WO (1) WO2006055026A1 (ja)

Families Citing this family (115)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8336040B2 (en) 2004-04-15 2012-12-18 Raytheon Company System and method for topology-aware job scheduling and backfilling in an HPC environment
US20050235055A1 (en) * 2004-04-15 2005-10-20 Raytheon Company Graphical user interface for managing HPC clusters
US7711977B2 (en) * 2004-04-15 2010-05-04 Raytheon Company System and method for detecting and managing HPC node failure
US8335909B2 (en) 2004-04-15 2012-12-18 Raytheon Company Coupling processors to each other for high performance computing (HPC)
US8190714B2 (en) * 2004-04-15 2012-05-29 Raytheon Company System and method for computer cluster virtualization using dynamic boot images and virtual disk
US9178784B2 (en) 2004-04-15 2015-11-03 Raytheon Company System and method for cluster management based on HPC architecture
US7370224B1 (en) * 2005-02-17 2008-05-06 Alcatel Usa Sourcing, Inc System and method for enabling redundancy in PCI-Express architecture
US8244882B2 (en) * 2004-11-17 2012-08-14 Raytheon Company On-demand instantiation in a high-performance computing (HPC) system
US7433931B2 (en) * 2004-11-17 2008-10-07 Raytheon Company Scheduling in a high-performance computing (HPC) system
US7475274B2 (en) 2004-11-17 2009-01-06 Raytheon Company Fault tolerance and recovery in a high-performance computing (HPC) system
US7870106B1 (en) 2004-12-30 2011-01-11 Panta Systems, Inc. Client side caching in a global file system
US7721282B1 (en) * 2004-12-30 2010-05-18 Panta Systems, Inc. Block-level I/O subsystem for distributed application environment management
US8332844B1 (en) 2004-12-30 2012-12-11 Emendable Assets Limited Liability Company Root image caching and indexing for block-level distributed application management
US7827435B2 (en) * 2005-02-15 2010-11-02 International Business Machines Corporation Method for using a priority queue to perform job scheduling on a cluster based on node rank and performance
DE102005022547B4 (de) * 2005-05-18 2008-07-03 Adc Gmbh Verteilereinrichtung im Teilnehmeranschlussbereich
DE102005022689B4 (de) * 2005-05-18 2007-09-20 Adc Gmbh Aktive Verteilereinrichtung im Teilnehmeranschlussbereich
DE102005027387A1 (de) * 2005-06-14 2006-12-28 Deutsche Thomson-Brandt Gmbh Netzwerkverbindungs-Schalteinheit sowie Netzwerkstation
JP4920391B2 (ja) * 2006-01-06 2012-04-18 株式会社日立製作所 計算機システムの管理方法、管理サーバ、計算機システム及びプログラム
US8437344B2 (en) * 2006-03-07 2013-05-07 Adc Telecommunications, Inc. Telecommunication distribution device with multi-circuit board arrangement
US20070211740A1 (en) * 2006-03-07 2007-09-13 Jorg Franzke Telecommunications distribution system with line sharing
US20070211882A1 (en) * 2006-03-07 2007-09-13 Francois Hatte Control method for a telecommunication distribution system
US20070211883A1 (en) * 2006-03-07 2007-09-13 Jorg Franzke Telecommunications device having distribution units arranged in block configuration
US8065737B1 (en) * 2006-03-30 2011-11-22 Panta Systems, Inc. Virus scanning for block-level distributed application management
US20070234123A1 (en) * 2006-03-31 2007-10-04 Inventec Corporation Method for detecting switching failure
US7523344B2 (en) * 2006-05-08 2009-04-21 Sun Microsystems, Inc. Method and apparatus for facilitating process migration
GB0611038D0 (en) * 2006-06-02 2006-07-12 Ibm Apparatus and method for cluster recovery
US7814364B2 (en) * 2006-08-31 2010-10-12 Dell Products, Lp On-demand provisioning of computer resources in physical/virtual cluster environments
US20080077635A1 (en) * 2006-09-22 2008-03-27 Digital Bazaar, Inc. Highly Available Clustered Storage Network
JP2008085916A (ja) * 2006-09-28 2008-04-10 Toshiba Corp 通信システムの主装置及びこの主装置で使用される登録方法
US7752174B2 (en) * 2006-10-11 2010-07-06 Teamon Systems, Inc. Computer server system including a database pool module providing database connectivity recovery features and related methods
US7840846B2 (en) * 2006-10-30 2010-11-23 International Business Machines Corporation Point of sale system boot failure detection
US20080101395A1 (en) * 2006-10-30 2008-05-01 Raytheon Company System and Method for Networking Computer Clusters
US8402201B2 (en) 2006-12-06 2013-03-19 Fusion-Io, Inc. Apparatus, system, and method for storage space recovery in solid-state storage
US20090232032A1 (en) * 2007-01-17 2009-09-17 Verbal World, Inc. Methods and Apparatus for the Manipulation of Conferenced Data
US8417762B2 (en) * 2007-04-10 2013-04-09 International Business Machines Corporation Mechanism for execution of multi-site jobs in a data stream processing system
US8359347B2 (en) * 2007-04-10 2013-01-22 International Business Machines Corporation Method and apparatus for cooperative data stream processing
US8225129B2 (en) * 2007-04-10 2012-07-17 International Business Machines Corporation Methods and apparatus for effective on-line backup selection for failure recovery in distributed stream processing systems
US20080256549A1 (en) * 2007-04-10 2008-10-16 International Business Machines Corporation System and Method of Planning for Cooperative Information Processing
US8892624B2 (en) * 2007-04-10 2014-11-18 International Business Machines Corporation Method for the interoperation of virtual organizations
US8688850B2 (en) * 2007-04-10 2014-04-01 International Business Machines Corporation Method for inter-site data stream transfer in cooperative data stream processing
US8201016B2 (en) * 2007-06-28 2012-06-12 Alcatel Lucent Heartbeat distribution that facilitates recovery in the event of a server failure during a user dialog
US20090158250A1 (en) * 2007-12-18 2009-06-18 International Business Machines Corporation Systems, methods and computer program products for operation history management for hpc programs optimization
US9141437B2 (en) * 2008-01-29 2015-09-22 International Business Machines Corporation Methods and systems for migrating network resources to improve network utilization
US7958184B2 (en) * 2008-03-04 2011-06-07 International Business Machines Corporation Network virtualization in a multi-node system with multiple networks
JP5056504B2 (ja) * 2008-03-13 2012-10-24 富士通株式会社 制御装置、情報処理システム、情報処理システムの制御方法および情報処理システムの制御プログラム
US8812469B2 (en) * 2008-05-15 2014-08-19 International Business Machines Corporation Configurable persistent storage on a computer system using a database
US8918624B2 (en) * 2008-05-15 2014-12-23 International Business Machines Corporation Scaling and managing work requests on a massively parallel machine
US8225324B2 (en) * 2008-05-15 2012-07-17 International Business Machines Corporation Resource management on a computer system utilizing hardware and environmental factors
US8065433B2 (en) 2009-01-09 2011-11-22 Microsoft Corporation Hybrid butterfly cube architecture for modular data centers
US9053295B1 (en) * 2009-02-04 2015-06-09 Sprint Communications Company L.P. Facilitating application development using protected components
US8321057B2 (en) * 2009-03-12 2012-11-27 Red Hat, Inc. Infrastructure for adaptive environmental control for equipment in a bounded area
US8302077B2 (en) * 2009-03-13 2012-10-30 Oracle America, Inc. Method and system for configuring software modules to execute in an execution environment
US20100241783A1 (en) * 2009-03-23 2010-09-23 Honeywell International Inc. Memory node for use within a data storage system having a plurality of interconnected memory nodes
US8990397B2 (en) * 2009-07-31 2015-03-24 Ntt Docomo, Inc. Resource allocation protocol for a virtualized infrastructure with reliability guarantees
US8411684B1 (en) * 2009-10-26 2013-04-02 Mcafee, Inc. System, method, and computer program product for determining a hop count between network devices utilizing a binary search
US20110202682A1 (en) * 2010-02-12 2011-08-18 Microsoft Corporation Network structure for data center unit interconnection
US9710595B2 (en) * 2010-02-24 2017-07-18 International Business Machines Corporation Multi-view user interface for server cabling display
US8914538B2 (en) * 2010-05-13 2014-12-16 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Implementing network manager quarantine mode
US8812907B1 (en) * 2010-07-19 2014-08-19 Marathon Technologies Corporation Fault tolerant computing systems using checkpoints
JP5893628B2 (ja) * 2010-09-17 2016-03-23 オラクル・インターナショナル・コーポレイション ミドルウェアマシン環境における部分的なサブネット初期化の実行
US8990618B2 (en) * 2010-12-10 2015-03-24 Mitel Networks Corporation Partial fault tolerance in an embedded appliance
US8930774B1 (en) * 2011-03-02 2015-01-06 Monster Patents, Llc Computer kiosk and related systems and methods
US9240937B2 (en) * 2011-03-31 2016-01-19 Microsoft Technology Licensing, Llc Fault detection and recovery as a service
US8904398B2 (en) * 2011-03-31 2014-12-02 International Business Machines Corporation Hierarchical task mapping
US10044548B2 (en) * 2012-10-15 2018-08-07 Jetflow Technologies Flowlet-based processing
US9838242B2 (en) 2011-04-13 2017-12-05 Jetflow Technologies Flowlet-based processing with key/value store checkpointing
JP5965478B2 (ja) 2011-06-03 2016-08-03 オラクル・インターナショナル・コーポレイション ネットワークにおけるコンポーネントを認証するためのシステムおよび方法
US9935848B2 (en) 2011-06-03 2018-04-03 Oracle International Corporation System and method for supporting subnet manager (SM) level robust handling of unkown management key in an infiniband (IB) network
US9262201B2 (en) * 2011-07-13 2016-02-16 International Business Machines Corporation Performing collective operations in a distributed processing system
US9037898B2 (en) 2012-12-18 2015-05-19 International Business Machines Corporation Communication channel failover in a high performance computing (HPC) network
US9251002B2 (en) 2013-01-15 2016-02-02 Stratus Technologies Bermuda Ltd. System and method for writing checkpointing data
JP2014191401A (ja) * 2013-03-26 2014-10-06 Fujitsu Ltd 処理装置、制御プログラム、及び制御法
US9225638B2 (en) 2013-05-09 2015-12-29 Vmware, Inc. Method and system for service switching using service tags
EP2804105B1 (en) 2013-05-17 2015-10-07 Fujitsu Limited Method of improving fault tolerance in a computing system arranged to find a computational solution
US9137587B2 (en) * 2013-08-14 2015-09-15 American Megatrends, Inc. System event assisted live keyboard, video and mouse (KVM) capture
GB2517780A (en) 2013-09-02 2015-03-04 Ibm Improved checkpoint and restart
US9766992B2 (en) * 2013-10-31 2017-09-19 Sandisk Technologies Llc Storage device failover
EP3090336A1 (en) 2013-12-30 2016-11-09 Paul A. Leveille Checkpointing systems and methods of using data forwarding
ES2652262T3 (es) 2013-12-30 2018-02-01 Stratus Technologies Bermuda Ltd. Método de retardar puntos de comprobación inspeccionando paquetes de red
JP6518672B2 (ja) 2013-12-30 2019-05-22 ストラタス・テクノロジーズ・バミューダ・リミテッド 動的チェックポインティングシステムおよび方法
US9575854B1 (en) * 2014-01-08 2017-02-21 Google Inc. Cascade failure resilient data storage
US9372766B2 (en) * 2014-02-11 2016-06-21 Saudi Arabian Oil Company Circumventing load imbalance in parallel simulations caused by faulty hardware nodes
US9465704B2 (en) 2014-03-26 2016-10-11 Vmware, Inc. VM availability during management and VM network failures in host computing systems
US9703652B2 (en) * 2014-06-07 2017-07-11 Vmware, Inc. VM and host management function availability during management network failure in host computing systems in a failover cluster
US9678838B2 (en) * 2014-06-20 2017-06-13 Vmware, Inc. Protecting virtual machines from network failures
CN106462612A (zh) 2014-07-01 2017-02-22 萨思学会有限公司 用于容错通信的系统和方法
US10516568B2 (en) 2014-09-30 2019-12-24 Nicira, Inc. Controller driven reconfiguration of a multi-layered application or service model
US9774537B2 (en) 2014-09-30 2017-09-26 Nicira, Inc. Dynamically adjusting load balancing
US9531590B2 (en) 2014-09-30 2016-12-27 Nicira, Inc. Load balancing across a group of load balancers
US10609091B2 (en) 2015-04-03 2020-03-31 Nicira, Inc. Method, apparatus, and system for implementing a content switch
WO2016192025A1 (en) 2015-06-01 2016-12-08 SZ DJI Technology Co., Ltd. Systems and methods for memory architecture
US9703789B2 (en) 2015-07-27 2017-07-11 Sas Institute Inc. Distributed data set storage and retrieval
US9946719B2 (en) 2015-07-27 2018-04-17 Sas Institute Inc. Distributed data set encryption and decryption
US10200310B2 (en) 2015-12-24 2019-02-05 Intel Corporation Fabric-integrated data pulling engine
CN106936616B (zh) * 2015-12-31 2020-01-03 伊姆西公司 备份通信方法和装置
US10805181B2 (en) 2017-10-29 2020-10-13 Nicira, Inc. Service operation chaining
US11012420B2 (en) 2017-11-15 2021-05-18 Nicira, Inc. Third-party service chaining using packet encapsulation in a flow-based forwarding element
US10797910B2 (en) 2018-01-26 2020-10-06 Nicira, Inc. Specifying and utilizing paths through a network
US10805192B2 (en) 2018-03-27 2020-10-13 Nicira, Inc. Detecting failure of layer 2 service using broadcast messages
US10817361B2 (en) * 2018-05-07 2020-10-27 Hewlett Packard Enterprise Development Lp Controlling error propagation due to fault in computing node of a distributed computing system
US11595250B2 (en) 2018-09-02 2023-02-28 Vmware, Inc. Service insertion at logical network gateway
US10944673B2 (en) 2018-09-02 2021-03-09 Vmware, Inc. Redirection of data messages at logical network gateway
US11627049B2 (en) * 2019-01-31 2023-04-11 Hewlett Packard Enterprise Development Lp Failsafe firmware upgrade for cloud-managed devices
US11042397B2 (en) 2019-02-22 2021-06-22 Vmware, Inc. Providing services with guest VM mobility
US20200389352A1 (en) * 2019-06-04 2020-12-10 Microsoft Technology Licensing, Llc Automated upgrade of multiple hosts
CN110442377B (zh) * 2019-08-13 2023-11-24 网易(杭州)网络有限公司 补丁包生成方法、应用更新方法、装置和电子设备
US11283717B2 (en) 2019-10-30 2022-03-22 Vmware, Inc. Distributed fault tolerant service chain
US11140218B2 (en) 2019-10-30 2021-10-05 Vmware, Inc. Distributed service chain across multiple clouds
US11223494B2 (en) 2020-01-13 2022-01-11 Vmware, Inc. Service insertion for multicast traffic at boundary
US11153406B2 (en) 2020-01-20 2021-10-19 Vmware, Inc. Method of network performance visualization of service function chains
US11659061B2 (en) 2020-01-20 2023-05-23 Vmware, Inc. Method of adjusting service function chains to improve network performance
US11277331B2 (en) 2020-04-06 2022-03-15 Vmware, Inc. Updating connection-tracking records at a network edge using flow programming
US11734043B2 (en) 2020-12-15 2023-08-22 Vmware, Inc. Providing stateful services in a scalable manner for machines executing on host computers
US11611625B2 (en) 2020-12-15 2023-03-21 Vmware, Inc. Providing stateful services in a scalable manner for machines executing on host computers
US11966292B2 (en) 2022-05-27 2024-04-23 Hewlett Packard Enterprise Development Lp Fault management in a distributed computer system

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6224358A (ja) * 1985-07-24 1987-02-02 Hitachi Ltd 信号ル−テイングテ−ブル方式
JPH10187638A (ja) * 1996-10-28 1998-07-21 Mitsubishi Electric Corp クラスタ制御システム
JPH11341042A (ja) * 1998-05-29 1999-12-10 Toshiba Corp コンピュータネットワークにおける通信経路の決定方法ならびにシステム及び同方法がプログラムされ記録される記録媒体
JP2000112906A (ja) * 1998-10-01 2000-04-21 Mitsubishi Electric Corp クラスタシステム
JP2002041348A (ja) * 2000-05-26 2002-02-08 Emc Corp 可用性が高い通信を提供する通信パススルー共有システムリソース、ネットワークファイルサーバ及び方法
JP2003162515A (ja) * 2001-11-22 2003-06-06 Fujitsu Ltd クラスタシステム
JP2004126968A (ja) * 2002-10-03 2004-04-22 Fujitsu Ltd 並列計算機のジョブスケジューリング装置
JP2004206562A (ja) * 2002-12-26 2004-07-22 Hitachi Ltd 情報処理システムの制御方法、情報処理システム、及びプログラム
JP2004242337A (ja) * 2003-02-07 2004-08-26 Fujitsu Ltd 交換のためにメモリに書き込まれるパケットをキューイングするシステム、方法及び論理
JP2004532447A (ja) * 2001-02-24 2004-10-21 インターナショナル・ビジネス・マシーンズ・コーポレーション 動的再分割を介するスーパーコンピュータでのフォールト・トレランス

Family Cites Families (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4868818A (en) 1987-10-29 1989-09-19 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Fault tolerant hypercube computer system architecture
US5020059A (en) 1989-03-31 1991-05-28 At&T Bell Laboratories Reconfigurable signal processor
US5301104A (en) 1990-08-07 1994-04-05 Honeywell Inc. Method for allocating processing elements interconnected in a hypercube topology
US5280607A (en) 1991-06-28 1994-01-18 International Business Machines Corporation Method and apparatus for tolerating faults in mesh architectures
CA2106280C (en) 1992-09-30 2000-01-18 Yennun Huang Apparatus and methods for fault-tolerant computing employing a daemon monitoring process and fault-tolerant library to provide varying degrees of fault tolerance
US5781715A (en) 1992-10-13 1998-07-14 International Business Machines Corporation Fault-tolerant bridge/router with a distributed switch-over mechanism
US5513313A (en) 1993-01-19 1996-04-30 International Business Machines Corporation Method for generating hierarchical fault-tolerant mesh architectures
US5450578A (en) 1993-12-23 1995-09-12 Unisys Corporation Method and apparatus for automatically routing around faults within an interconnect system
US6408402B1 (en) 1994-03-22 2002-06-18 Hyperchip Inc. Efficient direct replacement cell fault tolerant architecture
EP1046994A3 (en) 1994-03-22 2000-12-06 Hyperchip Inc. Efficient direct cell replacement fault tolerant architecture supporting completely integrated systems with means for direct communication with system operator
JPH08227356A (ja) 1994-12-21 1996-09-03 Tec Corp データ処理装置
US5682491A (en) 1994-12-29 1997-10-28 International Business Machines Corporation Selective processing and routing of results among processors controlled by decoding instructions using mask value derived from instruction tag and processor identifier
US5603044A (en) 1995-02-08 1997-02-11 International Business Machines Corporation Interconnection network for a multi-nodal data processing system which exhibits incremental scalability
US5805785A (en) 1996-02-27 1998-09-08 International Business Machines Corporation Method for monitoring and recovery of subsystems in a distributed/clustered system
US5805786A (en) 1996-07-23 1998-09-08 International Business Machines Corporation Recovery of a name server managing membership of a domain of processors in a distributed computing environment
US6393581B1 (en) 1996-08-29 2002-05-21 Cornell Research Foundation, Inc. Reliable time delay-constrained cluster computing
US6088330A (en) 1997-09-09 2000-07-11 Bruck; Joshua Reliable array of distributed computing nodes
US6167502A (en) 1997-10-10 2000-12-26 Billions Of Operations Per Second, Inc. Method and apparatus for manifold array processing
US6230252B1 (en) 1997-11-17 2001-05-08 Silicon Graphics, Inc. Hybrid hypercube/torus architecture
US6480927B1 (en) 1997-12-31 2002-11-12 Unisys Corporation High-performance modular memory system with crossbar connections
US6477663B1 (en) 1998-04-09 2002-11-05 Compaq Computer Corporation Method and apparatus for providing process pair protection for complex applications
US6195760B1 (en) 1998-07-20 2001-02-27 Lucent Technologies Inc Method and apparatus for providing failure detection and recovery with predetermined degree of replication for distributed applications in a network
US6496941B1 (en) 1998-12-29 2002-12-17 At&T Corp. Network disaster recovery and analysis tool
US6480972B1 (en) * 1999-02-24 2002-11-12 International Business Machines Corporation Data processing system and method for permitting a server to remotely perform diagnostics on a malfunctioning client computer system
US6453426B1 (en) 1999-03-26 2002-09-17 Microsoft Corporation Separately storing core boot data and cluster configuration data in a server cluster
US6718486B1 (en) * 2000-01-26 2004-04-06 David E. Lovejoy Fault monitor for restarting failed instances of the fault monitor
US6415323B1 (en) 1999-09-03 2002-07-02 Fastforward Networks Proximity-based redirection system for robust and scalable service-node location in an internetwork
US6629266B1 (en) 1999-11-17 2003-09-30 International Business Machines Corporation Method and system for transparent symptom-based selective software rejuvenation
US6748437B1 (en) 2000-01-10 2004-06-08 Sun Microsystems, Inc. Method for creating forwarding lists for cluster networking
US6460149B1 (en) 2000-03-03 2002-10-01 International Business Machines Corporation Suicide among well-mannered cluster nodes experiencing heartbeat failure
EP1301865A4 (en) 2000-03-22 2009-04-01 Yotta Yotta Inc METHOD AND SYSTEM FOR PROVIDING MULTIMEDIA INFORMATION ON DEMAND THROUGH LONG DISTANCE NETWORKS
US6658504B1 (en) 2000-05-16 2003-12-02 Eurologic Systems Storage apparatus
US6735660B1 (en) 2000-12-21 2004-05-11 International Business Machines Corporation Sideband signal transmission between host and input/output adapter
DE60237433D1 (de) 2001-02-24 2010-10-07 Ibm Neuartiger massivparalleler supercomputer
US6952766B2 (en) 2001-03-15 2005-10-04 International Business Machines Corporation Automated node restart in clustered computer system
US7028228B1 (en) 2001-03-28 2006-04-11 The Shoregroup, Inc. Method and apparatus for identifying problems in computer networks
US6918051B2 (en) 2001-04-06 2005-07-12 International Business Machines Corporation Node shutdown in clustered computer system
US6820221B2 (en) 2001-04-13 2004-11-16 Hewlett-Packard Development Company, L.P. System and method for detecting process and network failures in a distributed system
US6675264B2 (en) * 2001-05-07 2004-01-06 International Business Machines Corporation Method and apparatus for improving write performance in a cluster-based file system
EP1402355B1 (en) 2001-05-23 2018-08-29 Tekelec Global, Inc. Methods and systems for automatically configuring network monitoring system
US8010558B2 (en) * 2001-06-05 2011-08-30 Silicon Graphics International Relocation of metadata server with outstanding DMAPI requests
US6950833B2 (en) * 2001-06-05 2005-09-27 Silicon Graphics, Inc. Clustered filesystem
US6988193B2 (en) 2001-06-28 2006-01-17 International Business Machines Corporation System and method for creating a definition for a target device based on an architecture configuration of the target device at a boot server
US8032625B2 (en) 2001-06-29 2011-10-04 International Business Machines Corporation Method and system for a network management framework with redundant failover methodology
SE0102405D0 (sv) 2001-07-04 2001-07-04 Software Run Ab A system and a method for selecting a preconfigured operating system for a server
GB0116310D0 (en) 2001-07-04 2001-08-29 New Transducers Ltd Contact sensitive device
US7016299B2 (en) 2001-07-27 2006-03-21 International Business Machines Corporation Network node failover using path rerouting by manager component or switch port remapping
US6922791B2 (en) 2001-08-09 2005-07-26 Dell Products L.P. Failover system and method for cluster environment
US6904482B2 (en) 2001-11-20 2005-06-07 Intel Corporation Common boot environment for a modular server system
EP1318453A1 (en) 2001-12-07 2003-06-11 Hewlett-Packard Company Scheduling system, method and apparatus for a cluster
CA2365729A1 (en) 2001-12-20 2003-06-20 Platform Computing (Barbados) Inc. Topology aware scheduling for a multiprocessor system
US7093004B2 (en) 2002-02-04 2006-08-15 Datasynapse, Inc. Using execution statistics to select tasks for redundant assignment in a distributed computing platform
US6918063B2 (en) 2002-02-04 2005-07-12 International Business Machines Corporation System and method for fault tolerance in multi-node system
US7640547B2 (en) 2002-02-08 2009-12-29 Jpmorgan Chase & Co. System and method for allocating computing resources of a distributed computing system
DE10214067B4 (de) 2002-03-28 2010-01-21 Advanced Micro Devices, Inc., Sunnyvale Integrierter Schaltkreischip mit Hochgeschwindigkeitsdatenschnittstelle sowie zugehöriges Southbridgebauelement und Verfahren
US7139798B2 (en) 2002-05-17 2006-11-21 Groove Networks, Inc. Method and apparatus for connecting a secure peer-to-peer collaboration system to an external system
DE10234992A1 (de) 2002-07-31 2004-02-19 Advanced Micro Devices, Inc., Sunnyvale Retry-Mechanismus für blockierende Schnittstellen
US20040210656A1 (en) * 2003-04-16 2004-10-21 Silicon Graphics, Inc. Failsafe operation of storage area network
US7287179B2 (en) 2003-05-15 2007-10-23 International Business Machines Corporation Autonomic failover of grid-based services
US7007125B2 (en) 2003-06-24 2006-02-28 International Business Machines Corporation Pass through circuit for reduced memory latency in a multiprocessor system
WO2005036367A2 (en) * 2003-10-08 2005-04-21 Unisys Corporation Virtual data center that allocates and manages system resources across multiple nodes
US20050256942A1 (en) 2004-03-24 2005-11-17 Mccardle William M Cluster management system and method
US8190714B2 (en) 2004-04-15 2012-05-29 Raytheon Company System and method for computer cluster virtualization using dynamic boot images and virtual disk
US9178784B2 (en) 2004-04-15 2015-11-03 Raytheon Company System and method for cluster management based on HPC architecture
US8336040B2 (en) 2004-04-15 2012-12-18 Raytheon Company System and method for topology-aware job scheduling and backfilling in an HPC environment
US8335909B2 (en) 2004-04-15 2012-12-18 Raytheon Company Coupling processors to each other for high performance computing (HPC)
US20050235055A1 (en) 2004-04-15 2005-10-20 Raytheon Company Graphical user interface for managing HPC clusters
US8244882B2 (en) 2004-11-17 2012-08-14 Raytheon Company On-demand instantiation in a high-performance computing (HPC) system
US7475274B2 (en) 2004-11-17 2009-01-06 Raytheon Company Fault tolerance and recovery in a high-performance computing (HPC) system
US7433931B2 (en) 2004-11-17 2008-10-07 Raytheon Company Scheduling in a high-performance computing (HPC) system

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6224358A (ja) * 1985-07-24 1987-02-02 Hitachi Ltd 信号ル−テイングテ−ブル方式
JPH10187638A (ja) * 1996-10-28 1998-07-21 Mitsubishi Electric Corp クラスタ制御システム
JPH11341042A (ja) * 1998-05-29 1999-12-10 Toshiba Corp コンピュータネットワークにおける通信経路の決定方法ならびにシステム及び同方法がプログラムされ記録される記録媒体
JP2000112906A (ja) * 1998-10-01 2000-04-21 Mitsubishi Electric Corp クラスタシステム
JP2002041348A (ja) * 2000-05-26 2002-02-08 Emc Corp 可用性が高い通信を提供する通信パススルー共有システムリソース、ネットワークファイルサーバ及び方法
JP2004532447A (ja) * 2001-02-24 2004-10-21 インターナショナル・ビジネス・マシーンズ・コーポレーション 動的再分割を介するスーパーコンピュータでのフォールト・トレランス
JP2003162515A (ja) * 2001-11-22 2003-06-06 Fujitsu Ltd クラスタシステム
JP2004126968A (ja) * 2002-10-03 2004-04-22 Fujitsu Ltd 並列計算機のジョブスケジューリング装置
JP2004206562A (ja) * 2002-12-26 2004-07-22 Hitachi Ltd 情報処理システムの制御方法、情報処理システム、及びプログラム
JP2004242337A (ja) * 2003-02-07 2004-08-26 Fujitsu Ltd 交換のためにメモリに書き込まれるパケットをキューイングするシステム、方法及び論理

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNH200300267007; 泓 宏優: '並列PCクラスタ「Express5800/Parallel PC-Cluster」' NEC技報 Vol.55,No.7(通巻401号), 20020725, pp.42〜43, 日本電気株式会社 *
CSNH200900179006; 片山善夫、高橋 真、青柳真澄: 'HPCクラスタの最新技術動向と取り組み' PFU・テクニカルレビュー Vol.14,No.1(通巻25号), 20030501, pp.46〜49, 株式会社PFU *
JPN6011014585; 片山善夫、高橋 真、青柳真澄: 'HPCクラスタの最新技術動向と取り組み' PFU・テクニカルレビュー Vol.14,No.1(通巻25号), 20030501, pp.46〜49, 株式会社PFU *
JPN6011014586; 泓 宏優: '並列PCクラスタ「Express5800/Parallel PC-Cluster」' NEC技報 Vol.55,No.7(通巻401号), 20020725, pp.42〜43, 日本電気株式会社 *

Also Published As

Publication number Publication date
JP5570095B2 (ja) 2014-08-13
US7475274B2 (en) 2009-01-06
US20060112297A1 (en) 2006-05-25
EP1815341A1 (en) 2007-08-08
WO2006055026A1 (en) 2006-05-26

Similar Documents

Publication Publication Date Title
JP5570095B2 (ja) ハイパフォーマンスコンピューティング(hpc)システムにおけるフォルトトレランス及びリカバリ
JP4451806B2 (ja) 高性能計算(hpc)システムにおけるオン・デマンド・インスタンシエーション
JP4185919B2 (ja) 高性能計算(hpc)システムにおけるスケジューリング
US9928114B2 (en) System and method for topology-aware job scheduling and backfilling in an HPC environment
US20190294576A1 (en) High performance computing (hpc) node having a plurality of switch coupled processors
JP4833965B2 (ja) Hpcアーキテクチャに基づいたクラスタ管理のシステム及び方法
JP4986844B2 (ja) Hpcノード障害の検出及び管理を行うシステム及び方法
US20050235055A1 (en) Graphical user interface for managing HPC clusters

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080326

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110322

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110621

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110628

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110721

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110728

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110802

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120706

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120717

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20120907

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140324

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140402

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140424

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140624

R150 Certificate of patent or registration of utility model

Ref document number: 5570095

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250