JP2006146864A - 高性能計算(hpc)システムにおけるスケジューリング - Google Patents
高性能計算(hpc)システムにおけるスケジューリング Download PDFInfo
- Publication number
- JP2006146864A JP2006146864A JP2005117405A JP2005117405A JP2006146864A JP 2006146864 A JP2006146864 A JP 2006146864A JP 2005117405 A JP2005117405 A JP 2005117405A JP 2005117405 A JP2005117405 A JP 2005117405A JP 2006146864 A JP2006146864 A JP 2006146864A
- Authority
- JP
- Japan
- Prior art keywords
- nodes
- cluster
- spatial
- compact
- job
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/48—Indexing scheme relating to G06F9/48
- G06F2209/483—Multiproc
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Hardware Redundancy (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Multi Processors (AREA)
- Debugging And Monitoring (AREA)
Abstract
【解決手段】スケジューリングするジョブを含む要求を規定する。更に、要求が空間的であるか、コンパクトであるか、又は非空間的でかつ非コンパクトであるかを判定する工程を含む。更に、要求が空間的な場合、クラスタにおけるノードの1つ又は複数の空間的な組み合わせを生成する工程と、スケジューリング可能な、空間的な組み合わせのうちの1つを選択する工程とを含む。更に、要求がコンパクトな場合、クラスタにおけるノードの1つ又は複数のコンパクトな組み合わせを生成する工程と、スケジューリング可能な、コンパクトな組み合わせのうちの1つを選択する。
【選択図】図1
Description
[実施例]
S(N)=1/((FP/N)+FS)*(1−Fc*(1−RR/L);
である、アムダールの法則の派生形によって表す場合があり、S(N)=Nプロセッサでの高速化であり、Fp=並列コードの割合であり、Fs=非並列コードの割合であり、Fc=通信に充てられる処理の割合であり、RR/L=遠隔メモリ帯域幅の局所メモリ帯域幅に対する比率である。したがって、HPCシステム100が、処理性能にかなり等しいか、かなり近づいているI/O性能を備えることによって、HPCシステム100はHPCアプリケーションの全体効率を向上させ、システム管理の容易化を可能にする。
のうちの何れかによってデータ・パケットを処理し、ルーティングする場合がある。データ・パケットは通常、ディスク・ファーム140内のデータを伝送するのに用いられる。データ・パケットは、発信元識別子と宛て先識別子とを有するヘッダを含み得る。発信元識別子、例えば、発信元アドレスは情報の発信元を識別し、宛て先識別子、例えば宛て先アドレスは情報の受信先を識別する。
{1,1,27}のメッシュは合理的なメッシュ数をもたらさないことになり、要求を満たす少なくとも1つのメッシュを常にもたらすことになるが、これは、Fitがグリッド110に等しいメッシュを含むことになり、Nがグリッド110におけるノード115の数以下である場合にのみクラスタ管理エンジン130がスケジューラ515をコールするからである。
102 HPCサーバ
104 インタフェース
105 管理ノード
106 ネットワーク
108 リンク
110 グリッド
115 ノード
120 局所クライアント
126 GUI
130 クラスタ管理エンジン
132 エージェント
140 ディスク・ファーム
142 ストレージ・クライアント
150 ジョブ
164 CPU
164a CPU
164b CPU
164c CPU
164d CPU
166 スイッチ
166a スイッチ
166b スイッチ
168a リンク
168b リンク
168c リンク
168d リンク
168e リンク
168f リンク
168g リンク
168h リンク
170 リンク
172a リンク
172b リンク
172c リンク
172d リンク
172e リンク
172f リンク
174 プロセッサ
176 MCH
178 メモリ装置
180 HCA
182 バス
186 ノード対
216 ノード・ライン
220 仮想クラスタ
230a ジョブ空間
230b ジョブ空間
400a GUI
400b GUI
505 物理マネージャ
510 仮想マネージャ
515 ジョブ・スケジューラ
520 局所メモリ
521 物理リスト
522 仮想リスト
523 グループ・ファイル
524 ポリシー・テーブル
525 ジョブ・キュー
600 方法
605 工程
610 工程
615 工程
620 工程
625 工程
630 工程
635 判定工程
640 工程
645 工程
650 工程
655 工程
660 工程
665 工程
700 方法
705 工程
710 工程
715 工程
720 工程
725 判定工程
730 工程
735 工程
740 工程
745 工程
800 方法
805 工程
810 工程
815 判定工程
820 工程
825 工程
830 工程
835 工程
840 工程
845 工程
850 工程
Claims (35)
- 高性能計算(HPC)システムにおいてスケジューリングするロジックであって、コンピュータ判読可能媒体においてコード化され、実行される場合に方法を行うよう動作可能であり、該方法は:
該HPCシステムにおけるノード・クラスタを管理するよう動作可能な管理エンジンからコールを受信する工程;
を備え;
該コールは、該クラスタにおける1つ又は複数のノードで実行する1つ又は複数の処理を備える、スケジューリングするジョブを備える要求を規定し;
該方法は更に、該要求が、空間的か、コンパクトか、又は非空間的でかつ非コンパクトかを判定する工程;
を備え;
該要求は、該ジョブが、該ジョブを実行するノード間での空間的な関係を呈する場合に空間的であり;
該要求は、該ジョブが、該ジョブを実行するノード間での至近性を呈する場合にコンパクトであり;
該要求は、該ジョブが、該ジョブを実行するノード間での、空間的な関係も至近性も何ら呈するものでない場合に非空間的でかつ非コンパクトであり;
該要求が空間的な場合、該方法は更に:
該コールに規定される該いくつかのノードを収容する、該クラスタにおけるノードの1つ又は複数の空間的な組み合わせを生成し、該ジョブを実行するノード間の該呈する空間的な関係を更に収容する工程;及び
スケジューリングに利用可能な、該クラスタにおけるノードのリストによってスケジューリング可能な、該空間的な組み合わせのうちの1つを選択する工程;
を備え;
該要求がコンパクトな場合、該方法は更に:
該コールに規定される該いくつかのノードを収容する、該クラスタにおけるノードの1つ又は複数のコンパクトな組み合わせを生成する工程;及び
スケジューリングに利用可能な、該クラスタにおけるノードの該リストによってスケジューリング可能であり、スケジューリングに利用可能な、該クラスタにおけるノードの該リストによってスケジューリング可能な別のコンパクトな組み合わせよりもコンパクトな、
該コンパクトな組み合わせのうちの1つを選択する工程;
を備え;
該要求が非空間的でかつ非コンパクトである場合、該方法は更に:
スケジューリングに利用可能な、該クラスタにおけるノードのリストによってスケジューリング可能な1つ又は複数のノードを識別する工程;及び
該コールに規定される該いくつかのノードに対応する、該クラスタにおけるノードの非空間的でかつ非コンパクトである組み合わせを生成する工程;
を備え;
非空間的でかつ非コンパクトである組み合わせが:
スケジューリングに利用可能な、該クラスタにおけるノードの該リストによってスケジューリング可能な該1つ又は複数の識別ノードのうちの1つ又は複数のもの;
を備え;
該方法は更に、該ジョブを実行するよう、該クラスタにおけるノードの該選択される空間的な組み合わせ、コンパクトな組み合わせ、又は非空間的でかつ非コンパクトなな組み合わせにおける1つ又は複数のノードを識別する返答を該管理エンジンに通信する工程;
を備えることを特徴とするロジック。 - 請求項1記載のロジックであって、該コールが更に:
該要求が、空間的か、コンパクトか、又は非空間的でかつ非コンパクトかを規定し;
該要求が空間的な場合、該ジョブのサイズを規定し;
アグレシブ・フラグが、該ジョブをスケジューリングするうえでの自由度を示し;
該クラスタのサイズは該クラスタにおけるスイッチの数によるものであり;
いくつかのノードが該クラスタの各スイッチに結合され;
いくつかのノードがスケジューリングに利用可能であり;かつ
該クラスタにおけるノードの該リストがスケジューリングに利用可能であることを特徴とするロジック。 - 請求項1記載のロジックであって、該管理エンジンへの返答が更に:
ノードの該選択される、空間的な組み合わせ、コンパクトな組み合わせ、又は非空間的でかつ非コンパクトな組み合わせにおける各ノードのメッセージ・パッシング・インタフェース(MPI)評価を識別する
ことを特徴とするロジック。 - 請求項1記載のロジックであって、該要求が空間的でかつ3次元である場合:
該コールにおいて規定される該いくつかのノードを収容するメッシュを回転させ、該ジョブにおける処理を実行するノード間の該呈する空間的な関係を6つの向きのうちの1つに更に収容して、該空間的な関係のうちの1つを生成するよう動作可能であることを特徴とするロジック。 - 請求項1記載のロジックであって、該要求が空間的でかつ2次元である場合:
該ジョブの非使用次元をフォールディングして、該管理エンジンからの該コールにおいて規定される該いくつかのノードを収容するメッシュを生成し、該メッシュを6つの向きのうちの1つまで回転させて該空間的な組み合わせのうちの1つを生成するよう動作可能であることを特徴とするロジック。 - 請求項1記載のロジックであって、該要求が空間的でかつ1次元である場合:
該ジョブの2つの非使用次元をフォールディングして、該管理エンジンからの該コールにおいて規定される該いくつかのノードを収容するメッシュを生成し、該メッシュを6つの向きのうちの1つまで回転させて該空間的な組み合わせのうちの1つを生成するよう動作可能であることを特徴とするロジック。 - 請求項1記載のロジックであって:
ノードの該クラスタにおいて該ジョブの始点をサーチするスキャン・アルゴリズムを用いて、スケジューリングに利用可能な、該クラスタにおけるノードのリストによってスケジューリング可能な、該空間的な組み合わせのうちの1つを選択するよう動作可能であることを特徴とするロジック。 - 請求項1記載のロジックであって:
該管理エンジンからの該コールにおいて規定される該いくつかのノードを収容する該クラスタにおけるノードの1つ又は複数のコンパクトな組み合わせを生成して方法を行うよう動作可能であり;
該方法は:
該管理エンジンからの該コールにおいて規定される該いくつかのノードを収容する該クラスタにおけるノードの第1のコンパクトな組み合わせを生成する工程;及び
該管理エンジンからの該コールにおいて規定される該いくつかのノードを収容する該クラスタにおけるノードの1つ又は複数の第2のコンパクトな組み合わせを生成する工程;
を備え;
第2のコンパクトな組み合わせの各々は、該第1のコンパクトな組み合わせほどコンパクトでなく;
該方法は更に、該第1のコンパクトな組み合わせと該第2のコンパクトな組み合わせとのうちの1つを選択するうえでのコンパクトさによって該第1のコンパクトな組み合わせと該第2のコンパクトな組み合わせをソートする工程;
を備えることを特徴とするロジック。 - 請求項1記載のロジックであって:
該管理エンジンからの該コールにおいて規定される該いくつかのノードを収容する該クラスタにおけるノードの非空間的でかつ非コンパクトな組み合わせを生成して方法を行うよう動作可能であり;
該方法は:
該クラスタを、該クラスタの第1次元に対して、スケジューリングに利用可能な該クラスタにおけるノードの該リストによるスケジューリングに利用不能な第1ノードに到達するまで、第1ループを行う工程;
該クラスタを、該クラスタの第2次元に対して、スケジューリングに利用可能な該クラスタにおけるノードの該リストによるスケジューリングに利用不能な第2ノードに到達するまで、第2ループを行う工程;及び
該クラスタを、該クラスタの第3次元に対して、スケジューリングに利用可能な該クラスタにおけるノードの該リストによるスケジューリングに利用不能な第3ノードに到達するまで、第3ループを行う工程;
を備えることを特徴とするロジック。 - 請求項9記載のロジックであって、更に:
該第1ループ、該第2ループ、及び該第3ループを繰り返して、該クラスタにおける該ノード全てを対象とするよう動作可能であることを特徴とするロジック。 - 請求項1記載のロジックであって、更に:
該クラスタが、管理エンジンからの該コールにおいて規定される該ジョブにおける該1つ又は複数の処理を実行するうえでの該いくつかのノードを収容するのに十分なノードを備えるか否かを判定する工程;及び
該クラスタが、管理エンジンからの該コールにおいて規定される該ジョブにおける該1つ又は複数の処理を実行するでの該いくつかのノードを収容するのに十分な数よりも少ない数のノードを備えるか否かを判定する工程;
を行うよう動作可能であることを特徴とするロジック。 - 請求項1記載のロジックであって:
状態がないことを特徴とするロジック。 - 請求項1記載のロジックであって、ノードが:
2つのスイッチに結合される中央処理装置(CPU)であることを特徴とするロジック。 - 請求項1記載のロジックであって:
該管理エンジンのプラグインであることを特徴とするロジック。 - 請求項1記載のロジックであって:
ノードの該クラスタが3次元のトーラスであることを特徴とするロジック。 - 請求項1記載のロジックであって:
該ジョブの処理は、、実行される場合、メッセージ・パッシング・インタフェース(MPI)を用いてお互いに通信することを特徴とするロジック。 - 請求項1記載のロジックであって:
該管理エンジンからの該コールが、該ジョブにおける該1つ又は複数の処理を実行するよう、該クラスタにおけるノードの空間的な組み合わせ、コンパクトな組み合わせ、又は非空間的でかつ非コンパクトな組み合わせを選択するのに割り当てられる自由度を示すアグレシブ・フラグを更に規定し;
該管理エンジンからの該コールに規定される該アグレシブ・フラグによって該ジョブにおける該1つ又は複数の処理を実行するよう、該クラスタにおけるノードの空間的な組み合わせ、コンパクトな組み合わせ、又は非空間的でかつ非コンパクトな組み合わせを選択するよう動作可能であることを特徴とするロジック。 - 高性能計算(HPC)システムにおいてスケジューリングする方法であって:
該HPCシステムにおけるノード・クラスタを管理するよう動作可能な管理エンジンからコールを受信する工程;
を備え;
該コールは、該クラスタにおける1つ又は複数のノードで実行する1つ又は複数の処理を備える、スケジューリングするジョブを備える要求を規定し;
更に、該要求が、空間的か、コンパクトか、又は非空間的でかつ非コンパクトかを判定する工程;
を備え;
該要求は、該ジョブが、該ジョブを実行するノード間での空間的な関係を呈する場合に空間的であり;
該要求は、該ジョブが、該ジョブを実行するノード間での至近性を呈する場合にコンパクトであり;
該要求は、該ジョブが、該ジョブを実行するノード間での、空間的な関係も至近性も何ら呈するものでない場合に非空間的でかつ非コンパクトであり;
該要求が空間的な場合、更に:
該コールに規定される該いくつかのノードを収容する、該クラスタにおけるノードの1つ又は複数の空間的な組み合わせを生成し、該ジョブを実行するノード間の該呈する空間的な関係を更に収容する工程;及び
スケジューリングに利用可能な、該クラスタにおけるノードのリストによってスケジューリング可能な、該空間的な組み合わせのうちの1つを選択する工程;
を備え;
該要求がコンパクトな場合、更に:
該コールに規定される該いくつかのノードを収容する、該クラスタにおけるノードの1つ又は複数のコンパクトな組み合わせを生成する工程;及び
スケジューリングに利用可能な、該クラスタにおけるノードの該リストによってスケジューリング可能であり、スケジューリングに利用可能な、該クラスタにおけるノードの該リストによってスケジューリング可能な別のコンパクトな組み合わせよりもコンパクトな、
該コンパクトな組み合わせのうちの1つを選択する工程;
を備え;
該要求が非空間的でかつ非コンパクトである場合、更に:
スケジューリングに利用可能な、該クラスタにおけるノードのリストによってスケジューリング可能な1つ又は複数のノードを識別する工程;及び
該コールに規定される該いくつかのノードに対応する、該クラスタにおけるノードの非空間的でかつ非コンパクトである組み合わせを生成する工程;
を備え;
非空間的でかつ非コンパクトである組み合わせが:
スケジューリングに利用可能な、該クラスタにおけるノードの該リストによってスケジューリング可能な該1つ又は複数の識別ノードのうちの1つ又は複数のもの;
を備え;
更に、該ジョブを実行するよう、該クラスタにおけるノードの該選択される空間的な組み合わせ、コンパクトな組み合わせ、又は非空間的でかつ非コンパクトなな組み合わせにおける1つ又は複数のノードを識別する返答を該管理エンジンに通信する工程;
を備えることを特徴とする方法。 - 請求項18記載の方法であって、該コールが更に:
該要求が、空間的か、コンパクトか、又は非空間的でかつ非コンパクトかを規定し;
該要求が空間的な場合、該ジョブのサイズを規定し;
アグレシブ・フラグが、該ジョブをスケジューリングするうえでの自由度を示し;
該クラスタのサイズは該クラスタにおけるスイッチの数によるものであり;
いくつかのノードが該クラスタの各スイッチに結合され;
いくつかのノードがスケジューリングに利用可能であり;かつ
該クラスタにおけるノードの該リストがスケジューリングに利用可能であることを特徴とする方法。 - 請求項18記載の方法であって、該管理エンジンへの返答が更に:
ノードの該選択される、空間的な組み合わせ、コンパクトな組み合わせ、又は非空間的でかつ非コンパクトな組み合わせにおける各ノードのメッセージ・パッシング・インタフェース(MPI)評価を識別することを特徴とする方法。 - 請求項18記載の方法であって、該要求が空間的でかつ3次元である場合、該空間的な関係のうちの1つを生成する工程が:
該コールにおいて規定される該いくつかのノードを収容するメッシュを回転させ、該ジョブにおける処理を実行するノード間の該呈する空間的な関係を6つの向きのうちの1つに更に収容する工程;
を備えることを特徴とする方法。 - 請求項18記載の方法であって、該要求が空間的でかつ2次元である場合、該空間的な組み合わせのうちの1つを生成する工程が:
該ジョブの非使用次元をフォールディングして、該管理エンジンからの該コールにおいて規定される該いくつかのノードを収容するメッシュを生成し、該メッシュを6つの向きのうちの1つまで回転させる工程;
を備えることを特徴とする方法。 - 請求項18記載の方法であって、該要求が空間的でかつ1次元である場合、該空間的な組み合わせのうちの1つを生成する工程が:
該ジョブの2つの非使用次元をフォールディングして、該管理エンジンからの該コールにおいて規定される該いくつかのノードを収容するメッシュを生成し、該メッシュを6つの向きのうちの1つまで回転させる工程;
を備えることを特徴とする方法。 - 請求項18記載の方法であって:
ノードの該クラスタにおいて該ジョブの始点をサーチするスキャン・アルゴリズムを用いて、スケジューリングに利用可能な、該クラスタにおけるノードのリストによってスケジューリング可能な、該空間的な組み合わせのうちの1つを選択するよう動作可能であることを特徴とする方法。 - 請求項18記載の方法であって、該管理エンジンからの該コールにおいて規定される該いくつかのノードを収容する該クラスタにおけるノードの1つ又は複数のコンパクトな組み合わせを生成する工程が:
該管理エンジンからの該コールにおいて規定される該いくつかのノードを収容する該クラスタにおけるノードの第1のコンパクトな組み合わせを生成する工程;及び
該管理エンジンからの該コールにおいて規定される該いくつかのノードを収容する該クラスタにおけるノードの1つ又は複数の第2のコンパクトな組み合わせを生成する工程;
を備え;
第2のコンパクトな組み合わせの各々は、該第1のコンパクトな組み合わせほどコンパクトでなく;
該管理エンジンからの該コールにおいて規定される該いくつかのノードを収容する該クラスタにおけるノードの1つ又は複数のコンパクトな組み合わせを生成する工程が更に、該第1のコンパクトな組み合わせと該第2のコンパクトな組み合わせとのうちの1つを選択するうえでのコンパクトさによって該第1のコンパクトな組み合わせと該第2のコンパクトな組み合わせをソートする工程;
を備えることを特徴とする方法。 - 請求項18記載の方法であって、該管理エンジンからの該コールにおいて規定される該いくつかのノードを収容する該クラスタにおけるノードの非空間的でかつ非コンパクトな組み合わせを生成する工程が:
該クラスタを、該クラスタの第1次元に対して、スケジューリングに利用可能な該クラスタにおけるノードの該リストによるスケジューリングに利用不能な第1ノードに到達するまで、第1ループを行う工程;
該クラスタを、該クラスタの第2次元に対して、スケジューリングに利用可能な該クラスタにおけるノードの該リストによるスケジューリングに利用不能な第2ノードに到達するまで、第2ループを行う工程;及び
該クラスタを、該クラスタの第3次元に対して、スケジューリングに利用可能な該クラスタにおけるノードの該リストによるスケジューリングに利用不能な第3ノードに到達するまで、第3ループを行う工程;
を備えることを特徴とする方法。 - 請求項9記載のロジックであって、更に:
該第1ループ、該第2ループ、及び該第3ループを繰り返して、該クラスタにおける該ノード全てを対象とする工程;
を備えることを特徴とするロジック。 - 請求項18記載の方法であって、更に:
該クラスタが、管理エンジンからの該コールにおいて規定される該ジョブにおける該1つ又は複数の処理を実行するうえでの該いくつかのノードを収容するのに十分なノードを備えるか否かを判定する工程;及び
該クラスタが、管理エンジンからの該コールにおいて規定される該ジョブにおける該1つ又は複数の処理を実行するでの該いくつかのノードを収容するのに十分な数よりも少ない数のノードを備えるか否かを判定する工程;
を備えることを特徴とする方法。 - 請求項18記載の方法であって:
状態がないロジックによって実行されることを特徴とする方法。 - 請求項18記載の方法であって、ノードが:
2つのスイッチに結合される中央処理装置(CPU)であることを特徴とする方法。 - 請求項18記載の方法であって:
該管理エンジンのプラグインで実行することを特徴とする方法。 - 請求項18記載の方法であって:
ノードの該クラスタが3次元のトーラスであることを特徴とする方法。 - 請求項18記載の方法であって:
該ジョブの処理は、、実行される場合、メッセージ・パッシング・インタフェース(MPI)を用いてお互いに通信することを特徴とする方法。 - 請求項18記載の方法であって:
該管理エンジンからの該コールが、該ジョブにおける該1つ又は複数の処理を実行するよう、該クラスタにおけるノードの空間的な組み合わせ、コンパクトな組み合わせ、又は非空間的でかつ非コンパクトな組み合わせを選択するのに割り当てられる自由度を示すアグレシブ・フラグを更に規定し;
該管理エンジンからの該コールに規定される該アグレシブ・フラグによって該ジョブにおける該1つ又は複数の処理を実行するよう、該クラスタにおけるノードの空間的な組み合わせ、コンパクトな組み合わせ、又は非空間的でかつ非コンパクトな組み合わせを選択する工程;
を備えることを特徴とする方法。 - 高性能計算(HPC)システムにおいてスケジューリングするシステムであって:
該HPCシステムにおけるノード・クラスタを管理するよう動作可能な管理エンジンからコールを受信する手段;
を備え;
該コールは、該クラスタにおける1つ又は複数のノードで実行する1つ又は複数の処理を備える、スケジューリングするジョブを備える要求を規定し;
更に、該要求が、空間的か、コンパクトか、又は非空間的でかつ非コンパクトかを判定する手段;
を備え;
該要求は、該ジョブが、該ジョブを実行するノード間での空間的な関係を呈する場合に空間的であり;
該要求は、該ジョブが、該ジョブを実行するノード間での至近性を呈する場合にコンパクトであり;
該要求は、該ジョブが、該ジョブを実行するノード間での、空間的な関係も至近性も何ら呈するものでない場合に非空間的でかつ非コンパクトであり;
該要求が空間的な場合、該コールに規定される該いくつかのノードを収容する、該クラスタにおけるノードの1つ又は複数の空間的な組み合わせを生成し、該ジョブを実行するノード間の該呈する空間的な関係を更に収容し;かつ
スケジューリングに利用可能な、該クラスタにおけるノードのリストによってスケジューリング可能な、該空間的な組み合わせのうちの1つを選択する手段;
を備え;
該要求がコンパクトな場合、該コールに規定される該いくつかのノードを収容する、該クラスタにおけるノードの1つ又は複数のコンパクトな組み合わせを生成し;かつ
スケジューリングに利用可能な、該クラスタにおけるノードの該リストによってスケジューリング可能であり、スケジューリングに利用可能な、該クラスタにおけるノードの該リストによってスケジューリング可能な別のコンパクトな組み合わせよりもコンパクトな、
該コンパクトな組み合わせのうちの1つを選択する手段;
を備え;
該要求が非空間的でかつ非コンパクトである場合、スケジューリングに利用可能な、該クラスタにおけるノードのリストによってスケジューリング可能な1つ又は複数のノードを識別し;かつ
該コールに規定される該いくつかのノードに対応する、該クラスタにおけるノードの非空間的でかつ非コンパクトである組み合わせを生成する手段;
を備え;
非空間的でかつ非コンパクトである組み合わせが:
スケジューリングに利用可能な、該クラスタにおけるノードの該リストによってスケジューリング可能な該1つ又は複数の識別ノードのうちの1つ又は複数のもの;
を備え;
更に、該ジョブを実行するよう、該クラスタにおけるノードの該選択される空間的な組み合わせ、コンパクトな組み合わせ、又は非空間的でかつ非コンパクトなな組み合わせにおける1つ又は複数のノードを識別する返答を該管理エンジンに通信する手段;
を備えることを特徴とするシステム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/991,598 US7433931B2 (en) | 2004-11-17 | 2004-11-17 | Scheduling in a high-performance computing (HPC) system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006146864A true JP2006146864A (ja) | 2006-06-08 |
JP4185919B2 JP4185919B2 (ja) | 2008-11-26 |
Family
ID=34862294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005117405A Active JP4185919B2 (ja) | 2004-11-17 | 2005-04-14 | 高性能計算(hpc)システムにおけるスケジューリング |
Country Status (10)
Country | Link |
---|---|
US (2) | US7433931B2 (ja) |
EP (2) | EP1580661A1 (ja) |
JP (1) | JP4185919B2 (ja) |
KR (1) | KR101160721B1 (ja) |
CN (1) | CN100380327C (ja) |
CA (1) | CA2503776C (ja) |
IL (1) | IL179827A (ja) |
MY (1) | MY142928A (ja) |
TW (1) | TWI287195B (ja) |
WO (1) | WO2006055028A1 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010508584A (ja) * | 2006-10-30 | 2010-03-18 | レイセオン カンパニー | コンピュータクラスタをネットワーク化するためのシステム及び方法 |
JP2010541100A (ja) * | 2007-10-03 | 2010-12-24 | スケールアウト ソフトウェア インコーポレイテッド | 計算グリッド上に高可用性データ並列操作を実装する方法 |
JP2012215933A (ja) * | 2011-03-31 | 2012-11-08 | Nec Corp | ジョブ管理システム及びジョブ管理方法 |
US8495090B2 (en) | 2007-02-14 | 2013-07-23 | Fujitsu Limited | Storage medium containing parallel process control program, parallel processs control system, and parallel process control method |
JP2015041302A (ja) * | 2013-08-22 | 2015-03-02 | 富士通株式会社 | 並列計算機システム、並列計算機システムの制御方法及び管理装置の制御プログラム |
JP2015194923A (ja) * | 2014-03-31 | 2015-11-05 | 富士通株式会社 | 並列計算機システム,ジョブ管理装置の制御プログラム,及び並列計算機システムの制御方法 |
JP2016091069A (ja) * | 2014-10-30 | 2016-05-23 | 富士通株式会社 | ジョブ管理プログラム、ジョブ管理方法、およびジョブ管理装置 |
JP2022522320A (ja) * | 2019-03-06 | 2022-04-18 | グーグル エルエルシー | 光ネットワークを用いた再構成可能な計算ポッド |
Families Citing this family (92)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8538843B2 (en) * | 2000-07-17 | 2013-09-17 | Galactic Computing Corporation Bvi/Bc | Method and system for operating an E-commerce service provider |
US7406691B2 (en) * | 2004-01-13 | 2008-07-29 | International Business Machines Corporation | Minimizing complex decisions to allocate additional resources to a job submitted to a grid environment |
US7562143B2 (en) | 2004-01-13 | 2009-07-14 | International Business Machines Corporation | Managing escalating resource needs within a grid environment |
US7464159B2 (en) * | 2004-01-14 | 2008-12-09 | International Business Machines Corporation | Managing analysis of a degraded service in a grid environment |
US7552437B2 (en) | 2004-01-14 | 2009-06-23 | International Business Machines Corporation | Maintaining application operations within a suboptimal grid environment |
US8190714B2 (en) * | 2004-04-15 | 2012-05-29 | Raytheon Company | System and method for computer cluster virtualization using dynamic boot images and virtual disk |
US8336040B2 (en) | 2004-04-15 | 2012-12-18 | Raytheon Company | System and method for topology-aware job scheduling and backfilling in an HPC environment |
US20050235055A1 (en) * | 2004-04-15 | 2005-10-20 | Raytheon Company | Graphical user interface for managing HPC clusters |
US7711977B2 (en) * | 2004-04-15 | 2010-05-04 | Raytheon Company | System and method for detecting and managing HPC node failure |
US8335909B2 (en) | 2004-04-15 | 2012-12-18 | Raytheon Company | Coupling processors to each other for high performance computing (HPC) |
US9178784B2 (en) | 2004-04-15 | 2015-11-03 | Raytheon Company | System and method for cluster management based on HPC architecture |
US20060048157A1 (en) * | 2004-05-18 | 2006-03-02 | International Business Machines Corporation | Dynamic grid job distribution from any resource within a grid environment |
US7266547B2 (en) | 2004-06-10 | 2007-09-04 | International Business Machines Corporation | Query meaning determination through a grid service |
US7584274B2 (en) * | 2004-06-15 | 2009-09-01 | International Business Machines Corporation | Coordinating use of independent external resources within requesting grid environments |
US20070266388A1 (en) * | 2004-06-18 | 2007-11-15 | Cluster Resources, Inc. | System and method for providing advanced reservations in a compute environment |
JP2006082262A (ja) * | 2004-09-14 | 2006-03-30 | Canon Inc | 画像処理装置およびジョブ処理方法およびコンピュータが読み取り可能なプログラムを格納した記憶媒体およびプログラム |
US7712100B2 (en) * | 2004-09-14 | 2010-05-04 | International Business Machines Corporation | Determining a capacity of a grid environment to handle a required workload for a virtual grid job request |
US7475274B2 (en) * | 2004-11-17 | 2009-01-06 | Raytheon Company | Fault tolerance and recovery in a high-performance computing (HPC) system |
US8244882B2 (en) * | 2004-11-17 | 2012-08-14 | Raytheon Company | On-demand instantiation in a high-performance computing (HPC) system |
US7433931B2 (en) * | 2004-11-17 | 2008-10-07 | Raytheon Company | Scheduling in a high-performance computing (HPC) system |
US7761557B2 (en) | 2005-01-06 | 2010-07-20 | International Business Machines Corporation | Facilitating overall grid environment management by monitoring and distributing grid activity |
US7668741B2 (en) | 2005-01-06 | 2010-02-23 | International Business Machines Corporation | Managing compliance with service level agreements in a grid environment |
US7590623B2 (en) | 2005-01-06 | 2009-09-15 | International Business Machines Corporation | Automated management of software images for efficient resource node building within a grid environment |
US7533170B2 (en) * | 2005-01-06 | 2009-05-12 | International Business Machines Corporation | Coordinating the monitoring, management, and prediction of unintended changes within a grid environment |
US7502850B2 (en) * | 2005-01-06 | 2009-03-10 | International Business Machines Corporation | Verifying resource functionality before use by a grid job submitted to a grid environment |
US7793308B2 (en) | 2005-01-06 | 2010-09-07 | International Business Machines Corporation | Setting operation based resource utilization thresholds for resource use by a process |
US20060149652A1 (en) * | 2005-01-06 | 2006-07-06 | Fellenstein Craig W | Receiving bid requests and pricing bid responses for potential grid job submissions within a grid environment |
US7707288B2 (en) | 2005-01-06 | 2010-04-27 | International Business Machines Corporation | Automatically building a locally managed virtual node grouping to handle a grid job requiring a degree of resource parallelism within a grid environment |
US7562035B2 (en) * | 2005-01-12 | 2009-07-14 | International Business Machines Corporation | Automating responses by grid providers to bid requests indicating criteria for a grid job |
US7467196B2 (en) * | 2005-01-12 | 2008-12-16 | International Business Machines Corporation | Managing network errors communicated in a message transaction with error information using a troubleshooting agent |
US7472079B2 (en) * | 2005-01-12 | 2008-12-30 | International Business Machines Corporation | Computer implemented method for automatically controlling selection of a grid provider for a grid job |
US7571120B2 (en) | 2005-01-12 | 2009-08-04 | International Business Machines Corporation | Computer implemented method for estimating future grid job costs by classifying grid jobs and storing results of processing grid job microcosms |
JP4291281B2 (ja) * | 2005-02-03 | 2009-07-08 | 富士通株式会社 | 情報処理システム、計算ノード、情報処理システムの制御方法 |
US7827435B2 (en) * | 2005-02-15 | 2010-11-02 | International Business Machines Corporation | Method for using a priority queue to perform job scheduling on a cluster based on node rank and performance |
US20060198386A1 (en) * | 2005-03-01 | 2006-09-07 | Tong Liu | System and method for distributed information handling system cluster active-active master node |
US7840438B2 (en) * | 2005-07-29 | 2010-11-23 | Yahoo! Inc. | System and method for discounting of historical click through data for multiple versions of an advertisement |
WO2007038445A2 (en) * | 2005-09-26 | 2007-04-05 | Advanced Cluster Systems, Llc | Clustered computer system |
US8713179B2 (en) * | 2005-10-04 | 2014-04-29 | International Business Machines Corporation | Grid computing accounting and statistics management system |
WO2007056713A2 (en) * | 2005-11-04 | 2007-05-18 | The Trustees Of Columbia University In The City Of New York | An optical network |
TWI314688B (en) * | 2006-06-09 | 2009-09-11 | Asustek Comp Inc | Computer and main circuit board thereof |
US8082289B2 (en) | 2006-06-13 | 2011-12-20 | Advanced Cluster Systems, Inc. | Cluster computing support for application programs |
US8582972B2 (en) * | 2006-08-31 | 2013-11-12 | The Trustees Of Columbia University In The City Of New York | Systems and methods for storing optical data |
US8340517B2 (en) * | 2006-12-22 | 2012-12-25 | The Trustees Of Columbia University In The City Of New York | Systems and methods for on-chip data communication |
US8160061B2 (en) * | 2006-12-29 | 2012-04-17 | Raytheon Company | Redundant network shared switch |
US7827266B2 (en) * | 2007-07-31 | 2010-11-02 | Hewlett-Packard Development Company, L.P. | System and method of controlling multiple computer platforms |
US8200738B2 (en) | 2007-09-30 | 2012-06-12 | Oracle America, Inc. | Virtual cluster based upon operating system virtualization |
CN102007487A (zh) | 2008-02-27 | 2011-04-06 | N处理有限公司 | 用于低带宽显示信息传输的系统和方法 |
US8151267B2 (en) * | 2008-04-08 | 2012-04-03 | Xerox Corporation | Printing system scheduler methods and systems |
US20100023622A1 (en) * | 2008-07-25 | 2010-01-28 | Electronics And Telecommunications Research Institute | Method for assigning resource of united system |
US8812578B2 (en) * | 2008-11-07 | 2014-08-19 | International Business Machines Corporation | Establishing future start times for jobs to be executed in a multi-cluster environment |
CN102105866B (zh) * | 2009-05-25 | 2014-02-26 | 松下电器产业株式会社 | 多处理器系统、多处理器控制方法、以及多处理器集成电路 |
US9836783B2 (en) | 2009-07-24 | 2017-12-05 | Avago Technologies General Ip (Singapore) Pte. Ltd. | Method and system for content selection, delivery and payment |
CN101630275B (zh) * | 2009-07-31 | 2012-07-04 | 清华大学 | 一种实现生成循环任务配置信息的方法和装置 |
JP5532849B2 (ja) * | 2009-11-20 | 2014-06-25 | 富士通株式会社 | コンピュータ、プロセス間通信プログラム、およびプロセス間通信方法 |
TWI423039B (zh) * | 2010-07-23 | 2014-01-11 | Quanta Comp Inc | 伺服器系統與其操作方法 |
US8984519B2 (en) * | 2010-11-17 | 2015-03-17 | Nec Laboratories America, Inc. | Scheduler and resource manager for coprocessor-based heterogeneous clusters |
US8612597B2 (en) | 2010-12-07 | 2013-12-17 | Microsoft Corporation | Computing scheduling using resource lend and borrow |
CN102103521A (zh) * | 2011-01-31 | 2011-06-22 | 中国科学院计算技术研究所 | Hpc系统以及基于hpc系统的动态分派任务的方法 |
US8904398B2 (en) * | 2011-03-31 | 2014-12-02 | International Business Machines Corporation | Hierarchical task mapping |
US9405547B2 (en) * | 2011-04-07 | 2016-08-02 | Intel Corporation | Register allocation for rotation based alias protection register |
US20120324456A1 (en) | 2011-06-16 | 2012-12-20 | Microsoft Corporation | Managing nodes in a high-performance computing system using a node registrar |
WO2012103705A1 (zh) | 2011-06-24 | 2012-08-09 | 华为技术有限公司 | 计算机子系统和计算机系统 |
US8875157B2 (en) * | 2011-09-09 | 2014-10-28 | Microsoft Corporation | Deployment of pre-scheduled tasks in clusters |
US9152417B2 (en) | 2011-09-27 | 2015-10-06 | Intel Corporation | Expediting execution time memory aliasing checking |
US9063750B2 (en) | 2012-02-01 | 2015-06-23 | Hewlett-Packard Development Company, L.P. | Mapping high-performance computing applications to platforms |
CN103473247B (zh) * | 2012-06-30 | 2017-02-08 | 中国地质调查局西安地质调查中心 | 地质资料信息集群机理与接口聚合系统 |
US20140047342A1 (en) * | 2012-08-07 | 2014-02-13 | Advanced Micro Devices, Inc. | System and method for allocating a cluster of nodes for a cloud computing system based on hardware characteristics |
CN102902878B (zh) * | 2012-08-17 | 2016-12-21 | 曙光信息产业(北京)有限公司 | 一种能源成本感知调度方法 |
US8943353B2 (en) | 2013-01-31 | 2015-01-27 | Hewlett-Packard Development Company, L.P. | Assigning nodes to jobs based on reliability factors |
US9424229B2 (en) * | 2013-02-13 | 2016-08-23 | Advanced Micro Devices, Inc. | Parallel torus network interconnect |
JP6191361B2 (ja) * | 2013-09-25 | 2017-09-06 | 富士通株式会社 | 情報処理システム、情報処理システムの制御方法及び制御プログラム |
JP2016004310A (ja) * | 2014-06-13 | 2016-01-12 | 富士通株式会社 | 並列計算機システム、制御方法およびジョブ管理プログラム |
US9405582B2 (en) * | 2014-06-20 | 2016-08-02 | International Business Machines Corporation | Dynamic parallel distributed job configuration in a shared-resource environment |
TWI512609B (zh) * | 2014-09-05 | 2015-12-11 | Silicon Motion Inc | 讀取命令排程方法以及使用該方法的裝置 |
US9442760B2 (en) * | 2014-10-03 | 2016-09-13 | Microsoft Technology Licensing, Llc | Job scheduling using expected server performance information |
US9785522B2 (en) * | 2014-11-14 | 2017-10-10 | Cisco Technology, Inc. | Adaptive datacenter topology for distributed frameworks job control through network awareness |
US9894147B1 (en) * | 2014-12-23 | 2018-02-13 | EMC IP Holding Company LLC | Application plugin framework for big-data clusters |
KR101656706B1 (ko) | 2015-04-02 | 2016-09-22 | 두산중공업 주식회사 | 고성능 컴퓨팅 환경에서의 작업 분배 시스템 및 방법 |
KR102024934B1 (ko) * | 2015-12-30 | 2019-11-04 | 한국전자통신연구원 | 분산 파일 시스템 및 이의 파일 연산 처리 방법 |
US10433025B2 (en) * | 2016-05-10 | 2019-10-01 | Jaunt Inc. | Virtual reality resource scheduling of process in a cloud-based virtual reality processing system |
US10263909B2 (en) * | 2016-05-27 | 2019-04-16 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | System, method, and computer program for managing network bandwidth by an endpoint |
KR102162466B1 (ko) * | 2016-10-07 | 2020-10-08 | 한국전자통신연구원 | 분산 스토리지 서버, 그것에 포함되는 서버 장치, 및 서버 장치를 동작시키는 방법 |
US10592280B2 (en) * | 2016-11-23 | 2020-03-17 | Amazon Technologies, Inc. | Resource allocation and scheduling for batch jobs |
US9898347B1 (en) * | 2017-03-15 | 2018-02-20 | Sap Se | Scaling computing resources in a cluster |
US10169048B1 (en) | 2017-06-28 | 2019-01-01 | International Business Machines Corporation | Preparing computer nodes to boot in a multidimensional torus fabric network |
US10088643B1 (en) | 2017-06-28 | 2018-10-02 | International Business Machines Corporation | Multidimensional torus shuffle box |
US10356008B2 (en) | 2017-06-28 | 2019-07-16 | International Business Machines Corporation | Large scale fabric attached architecture |
US10571983B2 (en) | 2017-06-28 | 2020-02-25 | International Business Machines Corporation | Continuously available power control system |
US10606640B2 (en) | 2017-12-23 | 2020-03-31 | International Business Machines Corporation | Rescheduling high performance computing jobs based on personalized sanity checks and job problem resolution classification |
US11256547B2 (en) | 2019-05-31 | 2022-02-22 | Altair Engineering, Inc. | Efficient allocation of cloud computing resources to job requests |
US20200389352A1 (en) * | 2019-06-04 | 2020-12-10 | Microsoft Technology Licensing, Llc | Automated upgrade of multiple hosts |
US11394660B2 (en) * | 2020-05-13 | 2022-07-19 | Google Llc | Processing allocation in data center fleets |
Family Cites Families (117)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4885770A (en) | 1987-09-04 | 1989-12-05 | Digital Equipment Corporation | Boot system for distributed digital data processing system |
US4868818A (en) | 1987-10-29 | 1989-09-19 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | Fault tolerant hypercube computer system architecture |
US5020059A (en) | 1989-03-31 | 1991-05-28 | At&T Bell Laboratories | Reconfigurable signal processor |
US5396635A (en) | 1990-06-01 | 1995-03-07 | Vadem Corporation | Power conservation apparatus having multiple power reduction levels dependent upon the activity of the computer system |
US5301104A (en) | 1990-08-07 | 1994-04-05 | Honeywell Inc. | Method for allocating processing elements interconnected in a hypercube topology |
US5280607A (en) | 1991-06-28 | 1994-01-18 | International Business Machines Corporation | Method and apparatus for tolerating faults in mesh architectures |
CA2106280C (en) | 1992-09-30 | 2000-01-18 | Yennun Huang | Apparatus and methods for fault-tolerant computing employing a daemon monitoring process and fault-tolerant library to provide varying degrees of fault tolerance |
US5781715A (en) | 1992-10-13 | 1998-07-14 | International Business Machines Corporation | Fault-tolerant bridge/router with a distributed switch-over mechanism |
US5513313A (en) | 1993-01-19 | 1996-04-30 | International Business Machines Corporation | Method for generating hierarchical fault-tolerant mesh architectures |
US5450578A (en) | 1993-12-23 | 1995-09-12 | Unisys Corporation | Method and apparatus for automatically routing around faults within an interconnect system |
EP1191457A2 (en) | 1994-03-22 | 2002-03-27 | Hyperchip Inc. | Monolithic systems with dynamically focused input/output |
US6408402B1 (en) | 1994-03-22 | 2002-06-18 | Hyperchip Inc. | Efficient direct replacement cell fault tolerant architecture |
JPH08227356A (ja) | 1994-12-21 | 1996-09-03 | Tec Corp | データ処理装置 |
US5682491A (en) | 1994-12-29 | 1997-10-28 | International Business Machines Corporation | Selective processing and routing of results among processors controlled by decoding instructions using mask value derived from instruction tag and processor identifier |
US5603044A (en) | 1995-02-08 | 1997-02-11 | International Business Machines Corporation | Interconnection network for a multi-nodal data processing system which exhibits incremental scalability |
US5872928A (en) | 1995-02-24 | 1999-02-16 | Cabletron Systems, Inc. | Method and apparatus for defining and enforcing policies for configuration management in communications networks |
US5889953A (en) | 1995-05-25 | 1999-03-30 | Cabletron Systems, Inc. | Policy management and conflict resolution in computer networks |
JP2940450B2 (ja) * | 1995-10-26 | 1999-08-25 | 日本電気株式会社 | クラスタ型コンピュータのジョブスケジュール方法及び装置 |
US5805785A (en) | 1996-02-27 | 1998-09-08 | International Business Machines Corporation | Method for monitoring and recovery of subsystems in a distributed/clustered system |
US6006242A (en) | 1996-04-05 | 1999-12-21 | Bankers Systems, Inc. | Apparatus and method for dynamically creating a document |
US5805786A (en) | 1996-07-23 | 1998-09-08 | International Business Machines Corporation | Recovery of a name server managing membership of a domain of processors in a distributed computing environment |
US6393581B1 (en) | 1996-08-29 | 2002-05-21 | Cornell Research Foundation, Inc. | Reliable time delay-constrained cluster computing |
US5933631A (en) | 1997-03-17 | 1999-08-03 | International Business Machines Corporation | Dynamic boot filesystem selection |
US6029246A (en) | 1997-03-31 | 2000-02-22 | Symantec Corporation | Network distributed system for updating locally secured objects in client machines |
US5991877A (en) | 1997-04-03 | 1999-11-23 | Lockheed Martin Corporation | Object-oriented trusted application framework |
US6088330A (en) | 1997-09-09 | 2000-07-11 | Bruck; Joshua | Reliable array of distributed computing nodes |
US6167502A (en) | 1997-10-10 | 2000-12-26 | Billions Of Operations Per Second, Inc. | Method and apparatus for manifold array processing |
US6230252B1 (en) | 1997-11-17 | 2001-05-08 | Silicon Graphics, Inc. | Hybrid hypercube/torus architecture |
US6633945B1 (en) | 1997-12-07 | 2003-10-14 | Conexant Systems, Inc. | Fully connected cache coherent multiprocessing systems |
US6477663B1 (en) | 1998-04-09 | 2002-11-05 | Compaq Computer Corporation | Method and apparatus for providing process pair protection for complex applications |
US6189100B1 (en) | 1998-06-30 | 2001-02-13 | Microsoft Corporation | Ensuring the integrity of remote boot client data |
US6195760B1 (en) | 1998-07-20 | 2001-02-27 | Lucent Technologies Inc | Method and apparatus for providing failure detection and recovery with predetermined degree of replication for distributed applications in a network |
US6466932B1 (en) | 1998-08-14 | 2002-10-15 | Microsoft Corporation | System and method for implementing group policy |
US6683696B1 (en) | 1998-10-27 | 2004-01-27 | Hewlett-Packard Development Company, L.P. | Filter based data imaging method for an image forming device |
US6158010A (en) | 1998-10-28 | 2000-12-05 | Crosslogix, Inc. | System and method for maintaining security in a distributed computer network |
US6691165B1 (en) | 1998-11-10 | 2004-02-10 | Rainfinity, Inc. | Distributed server cluster for controlling network traffic |
US6496941B1 (en) | 1998-12-29 | 2002-12-17 | At&T Corp. | Network disaster recovery and analysis tool |
US6480972B1 (en) | 1999-02-24 | 2002-11-12 | International Business Machines Corporation | Data processing system and method for permitting a server to remotely perform diagnostics on a malfunctioning client computer system |
US6453426B1 (en) | 1999-03-26 | 2002-09-17 | Microsoft Corporation | Separately storing core boot data and cluster configuration data in a server cluster |
US6408326B1 (en) | 1999-04-20 | 2002-06-18 | Microsoft Corporation | Method and system for applying a policy to binary data |
US6718486B1 (en) | 2000-01-26 | 2004-04-06 | David E. Lovejoy | Fault monitor for restarting failed instances of the fault monitor |
US6597956B1 (en) | 1999-08-23 | 2003-07-22 | Terraspring, Inc. | Method and apparatus for controlling an extensible computing system |
US6415323B1 (en) | 1999-09-03 | 2002-07-02 | Fastforward Networks | Proximity-based redirection system for robust and scalable service-node location in an internetwork |
US6741983B1 (en) * | 1999-09-28 | 2004-05-25 | John D. Birdwell | Method of indexed storage and retrieval of multidimensional information |
US6629266B1 (en) | 1999-11-17 | 2003-09-30 | International Business Machines Corporation | Method and system for transparent symptom-based selective software rejuvenation |
US6748437B1 (en) | 2000-01-10 | 2004-06-08 | Sun Microsystems, Inc. | Method for creating forwarding lists for cluster networking |
JP3329804B2 (ja) | 2000-02-21 | 2002-09-30 | 株式会社東芝 | 監視制御装置 |
US6460149B1 (en) | 2000-03-03 | 2002-10-01 | International Business Machines Corporation | Suicide among well-mannered cluster nodes experiencing heartbeat failure |
CA2404095A1 (en) | 2000-03-22 | 2001-09-27 | Yottayotta, Inc. | Method and system for providing multimedia information on demand over wide area networks |
US6785713B1 (en) | 2000-05-08 | 2004-08-31 | Citrix Systems, Inc. | Method and apparatus for communicating among a network of servers utilizing a transport mechanism |
US6658504B1 (en) | 2000-05-16 | 2003-12-02 | Eurologic Systems | Storage apparatus |
US20040034794A1 (en) | 2000-05-28 | 2004-02-19 | Yaron Mayer | System and method for comprehensive general generic protection for computers against malicious programs that may steal information and/or cause damages |
JP4292693B2 (ja) | 2000-07-07 | 2009-07-08 | 株式会社日立製作所 | 計算機資源分割装置および資源分割方法 |
US7032119B2 (en) | 2000-09-27 | 2006-04-18 | Amphus, Inc. | Dynamic power and workload management for multi-server system |
JP3712654B2 (ja) | 2000-10-30 | 2005-11-02 | 三菱重工業株式会社 | 気体状況予測方法 |
US7428583B1 (en) | 2000-10-31 | 2008-09-23 | Intel Corporation | Network policy distribution |
US7055148B2 (en) | 2000-12-07 | 2006-05-30 | Hewlett-Packard Development Company, L.P. | System and method for updating firmware |
US6735660B1 (en) | 2000-12-21 | 2004-05-11 | International Business Machines Corporation | Sideband signal transmission between host and input/output adapter |
US7555566B2 (en) | 2001-02-24 | 2009-06-30 | International Business Machines Corporation | Massively parallel supercomputer |
US7107337B2 (en) | 2001-06-07 | 2006-09-12 | Emc Corporation | Data storage system with integrated switching |
JP2002259352A (ja) * | 2001-03-01 | 2002-09-13 | Handotai Rikougaku Kenkyu Center:Kk | マルチプロセッサシステム装置 |
US6952766B2 (en) | 2001-03-15 | 2005-10-04 | International Business Machines Corporation | Automated node restart in clustered computer system |
US7028228B1 (en) | 2001-03-28 | 2006-04-11 | The Shoregroup, Inc. | Method and apparatus for identifying problems in computer networks |
US6918051B2 (en) | 2001-04-06 | 2005-07-12 | International Business Machines Corporation | Node shutdown in clustered computer system |
US6820221B2 (en) | 2001-04-13 | 2004-11-16 | Hewlett-Packard Development Company, L.P. | System and method for detecting process and network failures in a distributed system |
US7231430B2 (en) | 2001-04-20 | 2007-06-12 | Egenera, Inc. | Reconfigurable, virtual processing system, cluster, network and method |
US6675264B2 (en) | 2001-05-07 | 2004-01-06 | International Business Machines Corporation | Method and apparatus for improving write performance in a cluster-based file system |
EP1402355B1 (en) | 2001-05-23 | 2018-08-29 | Tekelec Global, Inc. | Methods and systems for automatically configuring network monitoring system |
US8010558B2 (en) | 2001-06-05 | 2011-08-30 | Silicon Graphics International | Relocation of metadata server with outstanding DMAPI requests |
US6950833B2 (en) | 2001-06-05 | 2005-09-27 | Silicon Graphics, Inc. | Clustered filesystem |
JP2003006175A (ja) * | 2001-06-26 | 2003-01-10 | Hitachi Ltd | プロセス実行時のプログラム動作特性に基づくプロセススケジューリング方法及びこれを用いたプログラム及びデータ処理装置 |
US6988193B2 (en) | 2001-06-28 | 2006-01-17 | International Business Machines Corporation | System and method for creating a definition for a target device based on an architecture configuration of the target device at a boot server |
US20030005039A1 (en) | 2001-06-29 | 2003-01-02 | International Business Machines Corporation | End node partitioning using local identifiers |
US8032625B2 (en) | 2001-06-29 | 2011-10-04 | International Business Machines Corporation | Method and system for a network management framework with redundant failover methodology |
GB0116310D0 (en) | 2001-07-04 | 2001-08-29 | New Transducers Ltd | Contact sensitive device |
SE0102405D0 (sv) | 2001-07-04 | 2001-07-04 | Software Run Ab | A system and a method for selecting a preconfigured operating system for a server |
US7065764B1 (en) | 2001-07-20 | 2006-06-20 | Netrendered, Inc. | Dynamically allocated cluster system |
US7016299B2 (en) | 2001-07-27 | 2006-03-21 | International Business Machines Corporation | Network node failover using path rerouting by manager component or switch port remapping |
EP1283464A1 (en) | 2001-08-06 | 2003-02-12 | Hewlett-Packard Company | A boot process for a computer, a boot ROM and a computer having a boot ROM |
US6922791B2 (en) | 2001-08-09 | 2005-07-26 | Dell Products L.P. | Failover system and method for cluster environment |
US7073053B1 (en) | 2001-10-11 | 2006-07-04 | Cisco Technology, Inc. | Method and apparatus for a boot progression scheme for reliably initializing a system |
GB2381713A (en) | 2001-11-01 | 2003-05-07 | 3Com Corp | Failover mechanism involving blocking of access of a malfunctioning server and continuing monitoring to enable unblocking of access if server recovers |
US6904482B2 (en) | 2001-11-20 | 2005-06-07 | Intel Corporation | Common boot environment for a modular server system |
EP1318453A1 (en) | 2001-12-07 | 2003-06-11 | Hewlett-Packard Company | Scheduling system, method and apparatus for a cluster |
CA2365729A1 (en) | 2001-12-20 | 2003-06-20 | Platform Computing (Barbados) Inc. | Topology aware scheduling for a multiprocessor system |
US7046687B1 (en) | 2002-01-16 | 2006-05-16 | Tau Networks | Configurable virtual output queues in a scalable switching system |
US7093004B2 (en) * | 2002-02-04 | 2006-08-15 | Datasynapse, Inc. | Using execution statistics to select tasks for redundant assignment in a distributed computing platform |
US6918063B2 (en) | 2002-02-04 | 2005-07-12 | International Business Machines Corporation | System and method for fault tolerance in multi-node system |
US7640547B2 (en) | 2002-02-08 | 2009-12-29 | Jpmorgan Chase & Co. | System and method for allocating computing resources of a distributed computing system |
DE10214067B4 (de) | 2002-03-28 | 2010-01-21 | Advanced Micro Devices, Inc., Sunnyvale | Integrierter Schaltkreischip mit Hochgeschwindigkeitsdatenschnittstelle sowie zugehöriges Southbridgebauelement und Verfahren |
US7043539B1 (en) | 2002-03-29 | 2006-05-09 | Terraspring, Inc. | Generating a description of a configuration for a virtual network system |
US7139798B2 (en) | 2002-05-17 | 2006-11-21 | Groove Networks, Inc. | Method and apparatus for connecting a secure peer-to-peer collaboration system to an external system |
US7161904B2 (en) | 2002-06-04 | 2007-01-09 | Fortinet, Inc. | System and method for hierarchical metering in a virtual router based network switch |
JP3932994B2 (ja) | 2002-06-25 | 2007-06-20 | 株式会社日立製作所 | サーバ引継システムおよびその方法 |
DE10234992A1 (de) | 2002-07-31 | 2004-02-19 | Advanced Micro Devices, Inc., Sunnyvale | Retry-Mechanismus für blockierende Schnittstellen |
US7765299B2 (en) | 2002-09-16 | 2010-07-27 | Hewlett-Packard Development Company, L.P. | Dynamic adaptive server provisioning for blade architectures |
US7127597B2 (en) | 2002-09-24 | 2006-10-24 | Novell, Inc. | Mechanism for controlling boot decisions from a network policy directory based on client profile information |
US20040210656A1 (en) | 2003-04-16 | 2004-10-21 | Silicon Graphics, Inc. | Failsafe operation of storage area network |
US7287179B2 (en) | 2003-05-15 | 2007-10-23 | International Business Machines Corporation | Autonomic failover of grid-based services |
US7007125B2 (en) | 2003-06-24 | 2006-02-28 | International Business Machines Corporation | Pass through circuit for reduced memory latency in a multiprocessor system |
US7379983B2 (en) | 2003-06-25 | 2008-05-27 | International Business Machines Corporation | Merging scalable nodes into single-partition merged system using service processors of nodes |
US7644153B2 (en) | 2003-07-31 | 2010-01-05 | Hewlett-Packard Development Company, L.P. | Resource allocation management in interactive grid computing systems |
JP2007510198A (ja) | 2003-10-08 | 2007-04-19 | ユニシス コーポレーション | ホストシステムのパーティション内に実装されているハイパーバイザを使用したコンピュータシステムの準仮想化 |
US7207039B2 (en) | 2003-12-24 | 2007-04-17 | Intel Corporation | Secure booting and provisioning |
US7685597B1 (en) | 2004-02-20 | 2010-03-23 | Sun Microsystems, Inc. | System and method for management of characterized resources |
US8484348B2 (en) | 2004-03-05 | 2013-07-09 | Rockstar Consortium Us Lp | Method and apparatus for facilitating fulfillment of web-service requests on a communication network |
US20050256942A1 (en) | 2004-03-24 | 2005-11-17 | Mccardle William M | Cluster management system and method |
US7711977B2 (en) * | 2004-04-15 | 2010-05-04 | Raytheon Company | System and method for detecting and managing HPC node failure |
US20050235055A1 (en) * | 2004-04-15 | 2005-10-20 | Raytheon Company | Graphical user interface for managing HPC clusters |
US8190714B2 (en) | 2004-04-15 | 2012-05-29 | Raytheon Company | System and method for computer cluster virtualization using dynamic boot images and virtual disk |
US8335909B2 (en) | 2004-04-15 | 2012-12-18 | Raytheon Company | Coupling processors to each other for high performance computing (HPC) |
US8336040B2 (en) * | 2004-04-15 | 2012-12-18 | Raytheon Company | System and method for topology-aware job scheduling and backfilling in an HPC environment |
US9178784B2 (en) * | 2004-04-15 | 2015-11-03 | Raytheon Company | System and method for cluster management based on HPC architecture |
US7433931B2 (en) | 2004-11-17 | 2008-10-07 | Raytheon Company | Scheduling in a high-performance computing (HPC) system |
US8244882B2 (en) * | 2004-11-17 | 2012-08-14 | Raytheon Company | On-demand instantiation in a high-performance computing (HPC) system |
US7475274B2 (en) * | 2004-11-17 | 2009-01-06 | Raytheon Company | Fault tolerance and recovery in a high-performance computing (HPC) system |
JP2007141305A (ja) | 2005-11-16 | 2007-06-07 | Hitachi Global Storage Technologies Netherlands Bv | 磁気ディスク装置 |
-
2004
- 2004-11-17 US US10/991,598 patent/US7433931B2/en active Active
-
2005
- 2005-04-05 MY MYPI20051523A patent/MY142928A/en unknown
- 2005-04-07 CA CA002503776A patent/CA2503776C/en active Active
- 2005-04-09 EP EP05252239A patent/EP1580661A1/en not_active Ceased
- 2005-04-09 EP EP16166901.5A patent/EP3113021B1/en active Active
- 2005-04-12 KR KR1020077013503A patent/KR101160721B1/ko active IP Right Grant
- 2005-04-12 WO PCT/US2005/012500 patent/WO2006055028A1/en active Application Filing
- 2005-04-12 TW TW094111493A patent/TWI287195B/zh not_active IP Right Cessation
- 2005-04-14 JP JP2005117405A patent/JP4185919B2/ja active Active
- 2005-04-15 CN CNB2005100878572A patent/CN100380327C/zh active Active
-
2006
- 2006-12-04 IL IL179827A patent/IL179827A/en active IP Right Grant
-
2008
- 2008-10-07 US US12/246,783 patent/US8209395B2/en active Active
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010508584A (ja) * | 2006-10-30 | 2010-03-18 | レイセオン カンパニー | コンピュータクラスタをネットワーク化するためのシステム及び方法 |
US8495090B2 (en) | 2007-02-14 | 2013-07-23 | Fujitsu Limited | Storage medium containing parallel process control program, parallel processs control system, and parallel process control method |
JP2010541100A (ja) * | 2007-10-03 | 2010-12-24 | スケールアウト ソフトウェア インコーポレイテッド | 計算グリッド上に高可用性データ並列操作を実装する方法 |
JP2012215933A (ja) * | 2011-03-31 | 2012-11-08 | Nec Corp | ジョブ管理システム及びジョブ管理方法 |
JP2015041302A (ja) * | 2013-08-22 | 2015-03-02 | 富士通株式会社 | 並列計算機システム、並列計算機システムの制御方法及び管理装置の制御プログラム |
JP2015194923A (ja) * | 2014-03-31 | 2015-11-05 | 富士通株式会社 | 並列計算機システム,ジョブ管理装置の制御プログラム,及び並列計算機システムの制御方法 |
US9588818B2 (en) | 2014-03-31 | 2017-03-07 | Fujitsu Limited | Parallel computer system and method for allocating jobs to calculation nodes |
JP2016091069A (ja) * | 2014-10-30 | 2016-05-23 | 富士通株式会社 | ジョブ管理プログラム、ジョブ管理方法、およびジョブ管理装置 |
JP2022522320A (ja) * | 2019-03-06 | 2022-04-18 | グーグル エルエルシー | 光ネットワークを用いた再構成可能な計算ポッド |
US11537443B2 (en) | 2019-03-06 | 2022-12-27 | Google Llc | Reconfigurable computing pods using optical networks |
JP7242847B2 (ja) | 2019-03-06 | 2023-03-20 | グーグル エルエルシー | 光ネットワークを用いた再構成可能な計算ポッド |
Also Published As
Publication number | Publication date |
---|---|
EP3113021A3 (en) | 2018-02-28 |
CA2503776C (en) | 2009-03-24 |
CN1776622A (zh) | 2006-05-24 |
TWI287195B (en) | 2007-09-21 |
US20060106931A1 (en) | 2006-05-18 |
EP3113021A2 (en) | 2017-01-04 |
WO2006055028A1 (en) | 2006-05-26 |
CN100380327C (zh) | 2008-04-09 |
EP1580661A1 (en) | 2005-09-28 |
IL179827A0 (en) | 2007-05-15 |
US8209395B2 (en) | 2012-06-26 |
US7433931B2 (en) | 2008-10-07 |
KR20070086231A (ko) | 2007-08-27 |
JP4185919B2 (ja) | 2008-11-26 |
KR101160721B1 (ko) | 2012-06-28 |
US20090031316A1 (en) | 2009-01-29 |
TW200622673A (en) | 2006-07-01 |
EP3113021B1 (en) | 2022-09-14 |
MY142928A (en) | 2011-01-31 |
CA2503776A1 (en) | 2006-05-17 |
IL179827A (en) | 2012-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4185919B2 (ja) | 高性能計算(hpc)システムにおけるスケジューリング | |
JP4451806B2 (ja) | 高性能計算(hpc)システムにおけるオン・デマンド・インスタンシエーション | |
JP5570095B2 (ja) | ハイパフォーマンスコンピューティング(hpc)システムにおけるフォルトトレランス及びリカバリ | |
JP4560435B2 (ja) | 高性能計算システム及び高性能計算方法 | |
JP4833965B2 (ja) | Hpcアーキテクチャに基づいたクラスタ管理のシステム及び方法 | |
JP4986844B2 (ja) | Hpcノード障害の検出及び管理を行うシステム及び方法 | |
CA2503777C (en) | System and method for topology-aware job scheduling and backfilling in an hpc environment | |
JP2007533034A (ja) | Hpcクラスタを管理するためのグラフィカル・ユーザ・インタフェース |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070911 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071211 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080812 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080908 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110912 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4185919 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120912 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130912 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |