JP4986844B2 - Hpcノード障害の検出及び管理を行うシステム及び方法 - Google Patents
Hpcノード障害の検出及び管理を行うシステム及び方法 Download PDFInfo
- Publication number
- JP4986844B2 JP4986844B2 JP2007508456A JP2007508456A JP4986844B2 JP 4986844 B2 JP4986844 B2 JP 4986844B2 JP 2007508456 A JP2007508456 A JP 2007508456A JP 2007508456 A JP2007508456 A JP 2007508456A JP 4986844 B2 JP4986844 B2 JP 4986844B2
- Authority
- JP
- Japan
- Prior art keywords
- nodes
- node
- job
- board
- subset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 78
- 238000012545 processing Methods 0.000 claims description 45
- 238000004891 communication Methods 0.000 claims description 26
- 230000008859 change Effects 0.000 claims description 10
- 239000004744 fabric Substances 0.000 claims description 10
- 230000003252 repetitive effect Effects 0.000 claims 1
- 238000007726 management method Methods 0.000 description 124
- 230000008569 process Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 14
- 239000003795 chemical substances by application Substances 0.000 description 10
- 230000008901 benefit Effects 0.000 description 5
- 230000009977 dual effect Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000004088 simulation Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 239000010949 copper Substances 0.000 description 3
- 229910052802 copper Inorganic materials 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000835 fiber Substances 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 235000008694 Humulus lupulus Nutrition 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/2028—Failover techniques eliminating a faulty processor or activating a spare
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/35—Switches specially adapted for specific applications
- H04L49/356—Switches specially adapted for specific applications for storage area networks
- H04L49/358—Infiniband Switches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Debugging And Monitoring (AREA)
- Hardware Redundancy (AREA)
Description
S(N)=1/((FP/N)+FS)*(1−Fc*(1−RR/L))
である、アムダールの法則の派生形によって表すことができる。ここで、S(N)=N個のプロセッサに対する高速化であり、Fp=並列コードの割合であり、Fs=非並列コードの割合であり、Fc=通信に充てられる処理の割合であり、RR/L=遠隔メモリ帯域幅の局所メモリ帯域幅に対する比である。したがって、HPCシステム100が、処理性能にほぼ等しいか、ほぼ近づいているI/O性能を提供することによって、HPCシステム100はHPCアプリケーションの全体効率を向上させ、システム管理の容易化を可能にする。
(GE)又はファイバチャネル(FibreChannel)(FC)のうちの何れかによってデータ・パケットを処理し、ルーティングすることができる。データ・パケットは通常、ディスク・ファーム140内のデータを伝送するのに用いられる。データ・パケットは、発信元識別子及び宛て先識別子を有するヘッダを含み得る。発信元識別子、例えば、発信元アドレスは情報の発信元を識別し、宛て先識別子、例えば宛て先アドレスは情報の受信先を識別する。
Claims (28)
- ノード障害を管理する方法であって、
ノードのリストにおけるグリッドの複数のノードそれぞれの状態を管理ノードによって維持する工程と、
複数のノードのうちの1つに障害が発生したことを前記管理ノードによって識別する工程であって、各ノードが、ボードに統合されたスイッチ、及び前記ボードに統合された1つ又は複数のプロセッサを含み、各ノードにおける前記スイッチは、他のノードと相互接続するよう動作可能であり、前記グリッドにおける前記複数のノードにわたって一様に分散させたスイッチング機能を供給し、前記グリッドの複数のトポロジを可能にするための複数のポートを備える工程と、
前記ノードのリストからの前記障害が発生したノードにジョブが関連付けられているか否かを前記管理ノードによって判定する工程と、
前記ジョブの少なくとも一部分は前記障害が発生したノード上で実行された旨を前記管理ノードによって判定する工程と、
前記ジョブの少なくとも前記一部分を前記管理ノードによって終結させる工程と、
前記ジョブに関連付けられた前記ノードのリストにおける前記障害が発生したノードの状態を前記管理ノードによって変更する工程であって、前記リストが、前記複数のノード毎に1つの論理エントリを備える工程と、
前記ジョブが、前記ノードのリストからの前記複数のノードの第1の部分集合と関連付けられていた旨を前記管理ノードによって判定する工程と、
前記第1の部分集合のノードそれぞれにおいて前記ジョブを前記管理ノードによって終結させる工程と、
前記ジョブの実行から前記ノードの前記第1の部分集合を前記管理ノードによって割り当て解除する工程と、
前記ジョブの実行のために、ノードの第2の部分集合を前記管理ノードによって再割り当てする工程と
を備え、前記ノードの第2の部分集合は、前記障害が発生したノードを含まないことを特徴とする方法。 - 請求項1記載の方法であって、
直接リンクを介して少なくとも2つの第1のプロセッサを互いに前記管理ノードによって通信可能に相互接続する工程であって、前記第1のプロセッサは第1のノードの第1の
ボードに統合される工程と、
前記第1のボードに統合された前記第1のノードの第1のスイッチを前記第1のプロセッサに前記管理ノードによって通信可能に相互接続する工程とを含み、前記第1のスイッチは、6つの第2のノードの少なくとも6つの第2のボードに前記第1のプロセッサを通信可能に結合するよう動作可能であり、前記6つの第2のノードの少なくとも6つの第2のボードそれぞれは、前記第1のボード及び5つの第3のノードの少なくとも5つの第3のボードに第2のプロセッサを通信可能に結合するよう動作可能な前記第2のボードに統合された第2のスイッチ、及び前記第2のボードに統合された少なくとも2つの第2のプロセッサを備え、前記5つの第3のノードの少なくとも5つの第3のボードそれぞれは、前記第3のボードに統合された少なくとも2つの第3のプロセッサ及び前記第3のボードに統合された第3のスイッチを備え、前記第1のプロセッサは、特定の第2のボード上の特定の第2のプロセッサと、前記特定の第2のボード上の前記第2のスイッチ及び前記第1のボード上の前記第1のスイッチを介して通信するよう動作可能であり、前記第1のプロセッサは、特定の第3のボード上の特定の第3のプロセッサと、前記特定の第3のボード上の前記第3のスイッチ、前記第1のボードと前記特定の第3のボードとの間の特定の第2のボード上の特定の第2のスイッチ、及び、前記第1のボード上の前記第1のスイッチを介して、前記特定の第2のボード上の第2のプロセッサを介して通信することなく、通信するよう動作可能であることを特徴とする方法。 - 請求項1記載の方法であって、割り当て解除後に、前記障害が発生していないノードの部分集合のそれぞれの状態を「利用可能」に前記管理ノードによって変更する工程を更に備えることを特徴とする方法。
- 請求項1記載の方法であって、
前記ジョブの実行のために、ノードの前記第2の部分集合を割り当てる工程は、
1つ又は複数のジョブ・パラメータ及び関連ポリシーに基づいて、前記複数のノードの仮想クラスタにおける前記終結ジョブに割り当てられたジョブ空間の寸法を前記管理ノードによって判定する工程と、
前記判定された寸法に基づいて、前記複数のノードの前記第2の部分集合を含む前記仮想クラスタにおける別のジョブ空間を前記終結ジョブに前記管理ノードによって動的に割り当てる工程と、
ノードの前記第2の部分集合に対して、前記終結ジョブを前記管理ノードによって再実行する工程とを備えることを特徴とする方法。 - 請求項4記載の方法であって、ノードの前記第2の部分集合は、ノードの第1の部分集合からのノードを含むことを特徴とする方法。
- 請求項1記載の方法であって、ノードの前記第2の部分集合を割り当てる工程が、
割り当てられていないノードのトポロジから最適ノード部分集合を前記管理ノードによって判定する工程であって、前記最適ノード部分集合は、最速処理時間、最高信頼度のノード、物理的な場所又は論理的な場所、及び第1の利用可能ノードのうちの1つ又は複数から判定される工程と、
前記最適ノード部分集合を割り当てる工程とを備えることを特徴とする方法。 - 請求項1記載の方法であって、
前記障害が発生したノードの置換ノードを前記管理ノードによって位置特定する工程と、
前記置換ノードの前記論理エントリを変更することにより、前記ノードのリストを前記管理ノードによって更新する工程とを更に備えることを特徴とする方法。 - 請求項1記載の方法であって、前記複数のノードのうちの1つに障害が発生したことを判定する工程は、前記管理ノードにノードそれぞれによって送信される反復する通信が、前記障害が発生したノードから受信されていない旨を前記管理ノードによって判定する工程を備えることを特徴とする方法。
- 請求項1記載の方法であって、前記複数のノードのうちの1つに障害が発生したことを判定する工程が、前記管理ノードによるポーリングによって達成されることを特徴とする方法。
- ノード障害を管理するコードを含むコンピュータ読み取り可能な媒体であって、前記コードは実行すると、
ノードのリストにおけるグリッドの複数のノードそれぞれの状態を維持し、
複数のノードのうちの1つに障害が発生したことを識別する
よう動作可能であり、各ノードが、ボードに統合されたスイッチ、及び前記ボードに統合された1つ又は複数のプロセッサを含み、各ノードにおける前記スイッチは、他のノードと相互接続するよう動作可能であり、前記グリッドにおける前記複数のノードにわたって一様に分散させたスイッチング機能を供給し、前記グリッドの複数のトポロジを可能にするための複数のポートを備え、
更に、前記コードは、
前記ノードのリストからの前記障害が発生したノードにジョブが関連付けられているか否かを判定し、
前記ジョブの少なくとも一部分は前記障害が発生したノード上で実行された旨を判定し、
前記ジョブの少なくとも前記一部分を終結させ、
前記ジョブに関連付けられた前記ノードのリストにおける前記障害が発生したノードの状態を変更するよう動作可能であり、前記リストが、前記複数のノード毎に1つの論理エントリを備え、
更に、前記コードは、
前記ジョブが、前記ノードのリストからの前記複数のノードの第1の部分集合と関連付けられる旨を判定し、
前記第1の部分集合のノードそれぞれにおいて前記ジョブを終結させ、
前記ジョブの実行から前記ノードの第1の部分集合を割り当て解除し、
前記ジョブの実行のために、ノードの第2の部分集合を再割り当てするよう動作可能であり、前記ノードの第2の部分集合は、前記障害が発生したノードを含まないことを特徴とするコンピュータ読み取り可能な媒体。 - 請求項10記載のコンピュータ読み取り可能な媒体であって、前記コードは更に、
直接リンクを介して少なくとも2つの第1のプロセッサを互いに通信可能に相互接続するよう動作可能であり、前記第1のプロセッサは第1のノードの第1のボードに統合され、
更に、前記第1のボードに統合された前記第1のノードの第1のスイッチを前記第1のプロセッサに通信可能に相互接続するよう動作可能であり、前記第1のスイッチは、6つの第2のノードの少なくとも6つの第2のボードに前記第1のプロセッサを通信可能に結合するよう動作可能であり、前記6つの第2のノードの少なくとも6つの第2のボードそれぞれは、前記第1のボード及び5つの第3のノードの少なくとも5つの第3のボードに第2のプロセッサを通信可能に結合するよう動作可能な前記第2のボードに統合された第2のスイッチ、及び前記第2のボードに統合された少なくとも2つの第2のプロセッサを備え、前記5つの第3のノードの少なくとも5つの第3のボードそれぞれは、前記第3のボードに統合された少なくとも2つの第3のプロセッサ及び前記第3のボードに統合された第3のスイッチを備え、前記第1のプロセッサは、特定の第2のボード上の特定の第2のプロセッサと、前記特定の第2のボード上の前記第2のスイッチ及び前記第1のボード上の前記第1のスイッチを介して通信するよう動作可能であり、前記第1のプロセッサは、特定の第3のボード上の特定の第3のプロセッサと、前記特定の第3のボード上の前記第3のスイッチ、前記第1のボードと前記特定の第3のボードとの間の特定の第2のボード上の特定の第2のスイッチ、及び、前記第1のボード上の前記第1のスイッチを介して、前記特定の第2のボード上の第2のプロセッサを介して通信することなく、通信するよう動作可能であることを特徴とするコンピュータ読み取り可能な媒体。 - 請求項11記載のコンピュータ読み取り可能な媒体であって、前記コードは、障害が発生していないノードの前記第1の部分集合のそれぞれの状態を「利用可能」に変更するよう更に動作可能であることを特徴とするコンピュータ読み取り可能な媒体。
- 請求項11記載のコンピュータ読み取り可能な媒体であって、前記ジョブの実行のために、ノードの前記第2の部分集合を割り当てるコードは、
1つ又は複数のジョブ・パラメータ及び関連ポリシーに基づいて、前記複数のノードの仮想クラスタにおける前記終結ジョブに割り当てられたジョブ空間の寸法を判定し、
前記判定された寸法に基づいて、前記複数のノードの前記第2の部分集合を含む前記仮想クラスタにおける別のジョブ空間を前記終結ジョブに動的に割り当て、
ノードの前記第2の部分集合に対して、前記終結ジョブを再実行するよう更に動作可能であることを特徴とするコンピュータ読み取り可能な媒体。 - 請求項13記載のコンピュータ読み取り可能な媒体であって、ノードの前記第2の部分集合は、ノードの前記第1の部分集合からのノードを含むことを特徴とするコンピュータ読み取り可能な媒体。
- 請求項10記載のコンピュータ読み取り可能な媒体であって、ノードの前記第2の部分集合を割り当てるよう動作可能な前記コードは、
割り当てられていないノードのトポロジから最適ノード部分集合を判定するよう動作可能であり、前記最適ノード部分集合は、最速処理時間、最高信頼度のノード、物理的な場所又は論理的な場所、及び第1の利用可能ノードのうちの1つ又は複数から判定され、
更に、前記最適ノード部分集合を割り当てるよう動作可能なコードを含むことを特徴とするコンピュータ読み取り可能な媒体。 - 請求項10記載のコンピュータ読み取り可能な媒体であって、前記コードは、
前記障害が発生したノードの置換ノードを位置特定し、
前記置換ノードの前記論理エントリを変更することにより、前記ノードのリストを更新する
よう更に動作可能であることを特徴とするコンピュータ読み取り可能な媒体。 - 請求項10記載のコンピュータ読み取り可能な媒体であって、前記複数のノードのうちの1つに障害が発生した旨を判定するよう動作可能なコードは、前記管理ノードにノードそれぞれによって送信される反復する通信が、前記障害が発生したノードから受信されていない旨を判定するよう動作可能なコードを備えることを特徴とするコンピュータ読み取り可能な媒体。
- 請求項10記載のコンピュータ読み取り可能な媒体であって、前記複数のノードのうちの1つに障害が発生した旨を判定するよう動作可能なコードが、ポーリングによって達成されることを特徴とするコンピュータ読み取り可能な媒体。
- ノード障害を管理するシステムであって、
複数のノードであって、それぞれのノードが、ボードに統合されたスイッチ、及び前記ボードに統合された1つ又は複数のプロセッサを含み、各ノードにおける前記スイッチは、他のノードと相互接続するよう動作可能であり、グリッドにおける前記複数のノードにわたって一様に分散させたスイッチング機能を供給し、前記グリッドの複数のトポロジを可能にするための複数のポートを備えるノードと、
管理ノードとを備え、該管理ノードは、
ノードのリストにおける前記グリッドの複数のノードそれぞれの状態を維持し、
前記複数のノードのうちの1つに障害が発生したことを識別するよう動作可能であり、各ノードは統合ファブリックを備え、
更に、該管理ノードは、
前記ノードのリストからの前記障害が発生したノードにジョブが関連付けられているか否かを判定し、
前記ジョブの少なくとも一部分は前記障害が発生したノード上で実行された旨を判定し、
前記ジョブの少なくとも前記一部分を終結させ、
ジョブに関連付けられた前記ノードのリストにおける前記障害が発生したノードの状態を変更するよう動作可能であり、前記リストが、前記複数のノード毎に1つの論理エントリを備え、
更に、該管理ノードは、
前記ジョブが、前記ノードのリストからの前記複数のノードの第1の部分集合と関連付けられていた旨を判定し、
前記第1の部分集合のノードそれぞれにおいて前記ジョブを終結させ、
前記ジョブの実行から前記ノードの第1の部分集合を割り当て解除する
よう動作可能であることを特徴とするシステム。 - 請求項19記載のシステムであって、各ノードは、
直接リンクを介して互いに通信するよう動作可能な少なくとも2つの第1のプロセッサであって、第1のノードの第1のボードに統合される第1のプロセッサと、
前記第1のボードに統合された前記第1のノードの第1のスイッチと
を備え、前記第1のプロセッサは、前記第1のスイッチに通信可能に結合され、前記第1のスイッチは、6つの第2のノードの少なくとも6つの第2のボードに前記第1のプロセッサを通信可能に結合するよう動作可能であり、前記6つの第2のノードの少なくとも6つの第2のボードそれぞれは、前記第1のボード及び5つの第3のノードの少なくとも5つの第3のボードに第2のプロセッサを通信可能に結合するよう動作可能な前記第2のボードに統合された第2のスイッチ、及び前記第2のボードに統合された少なくとも2つの第2のプロセッサを備え、前記5つの第3のノードの少なくとも5つの第3のボードそれぞれは、前記第3のボードに統合された少なくとも2つの第3のプロセッサ及び前記第3のボードに統合された第3のスイッチを備え、前記第1のプロセッサは、特定の第2のボード上の特定の第2のプロセッサと、前記特定の第2のボード上の前記第2のスイッチ及び前記第1のボードの前記第1のスイッチを介して通信するよう動作可能であり、前記第1のプロセッサは、特定の第3のボード上の特定の第3のプロセッサと、前記特定の第3のボード上の前記第3のスイッチ、前記第1のボードと前記特定の第3のボードとの間の特定の第2のボード上の特定の第2のスイッチ、及び、前記第1のボードの前記第1のスイッチを介して、前記特定の第2のボード上の第2のプロセッサを介して通信することなく、通信するよう動作可能であることを特徴とするシステム。 - 請求項19記載のシステムであって、前記管理ノードは、割り当て解除後に、前記障害が発生していないノードの前記第1の部分集合のそれぞれの状態を「利用可能」に変更するよう更に動作可能であることを特徴とするシステム。
- 請求項19記載のシステムであって、前記管理ノードは、
1つ又は複数のジョブ・パラメータ及び関連ポリシーに基づいて、前記複数のノードの仮想クラスタにおける前記終結ジョブに割り当てられたジョブ空間の寸法を判定し、
前記判定された寸法に基づいて、前記複数のノードの第2の部分集合を含む別のジョブ空間を前記終結ジョブに動的に割り当て、
ノードの前記第2の部分集合に対して、前記終結ジョブを再実行する
よう更に動作可能であることを特徴とするシステム。 - 請求項22記載のシステムであって、ノードの前記第2の部分集合は、ノードの前記第1の部分集合からのノードを含むことを特徴とするシステム。
- 請求項19記載のシステムであって、前記管理ノードは、
割り当てられていないノードのトポロジから最適ノード部分集合を判定する機能であって、前記最適ノード部分集合は、最速処理時間、最高信頼度のノード、物理的な場所又は論理的な場所、及び第1の利用可能ノードのうちの1つ又は複数から判定される機能、及び、
前記最適ノード部分集合を割り当てる機能を行うことにより、前記ジョブの再実行のためにノードの第2の部分集合を割り当てることを特徴とするシステム。 - 請求項19記載のシステムであって、前記管理ノードは、
前記障害が発生したノードの置換ノードを位置特定し、
前記置換ノードの前記ノードのリストにおける論理エントリの状態を変更する
よう更に動作可能であることを特徴とするシステム。 - 請求項19記載のシステムであって、前記複数のノードのうちの1つに障害が発生したことを判定するよう動作可能な前記管理ノードは、前記管理ノードにノードそれぞれによって送信される反復する通信が、前記障害が発生したノードから受信されていない旨を判定するよう動作可能な管理ノードを含むことを特徴とするシステム。
- 請求項19記載のシステムであって、前記管理ノードは、前記複数のノードのうちの1つに障害が発生したことを、ポーリングによって判定するよう動作可能であることを特徴とするシステム。
- 請求項19記載のシステムであって、前記管理ノードは、前記ジョブの実行のために、ノードの第2の部分集合を再割り当てするよう動作可能であり、前記ノードの第2の部分集合は、前記障害が発生したノードを含まず、前記管理ノードは、前記ノードの第2の部分集合を使用して前記ジョブを再実行するよう動作可能であることを特徴とするシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/826,959 | 2004-04-15 | ||
US10/826,959 US7711977B2 (en) | 2004-04-15 | 2004-04-15 | System and method for detecting and managing HPC node failure |
PCT/US2005/012313 WO2005106668A1 (en) | 2004-04-15 | 2005-04-12 | System and method for detecting and managing hpc node failure |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007533031A JP2007533031A (ja) | 2007-11-15 |
JP4986844B2 true JP4986844B2 (ja) | 2012-07-25 |
Family
ID=34967846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007508456A Active JP4986844B2 (ja) | 2004-04-15 | 2005-04-12 | Hpcノード障害の検出及び管理を行うシステム及び方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US7711977B2 (ja) |
EP (1) | EP1735708A1 (ja) |
JP (1) | JP4986844B2 (ja) |
WO (1) | WO2005106668A1 (ja) |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9178784B2 (en) | 2004-04-15 | 2015-11-03 | Raytheon Company | System and method for cluster management based on HPC architecture |
US8336040B2 (en) | 2004-04-15 | 2012-12-18 | Raytheon Company | System and method for topology-aware job scheduling and backfilling in an HPC environment |
US8335909B2 (en) | 2004-04-15 | 2012-12-18 | Raytheon Company | Coupling processors to each other for high performance computing (HPC) |
US20050235055A1 (en) * | 2004-04-15 | 2005-10-20 | Raytheon Company | Graphical user interface for managing HPC clusters |
US8190714B2 (en) | 2004-04-15 | 2012-05-29 | Raytheon Company | System and method for computer cluster virtualization using dynamic boot images and virtual disk |
US8244882B2 (en) | 2004-11-17 | 2012-08-14 | Raytheon Company | On-demand instantiation in a high-performance computing (HPC) system |
US7433931B2 (en) * | 2004-11-17 | 2008-10-07 | Raytheon Company | Scheduling in a high-performance computing (HPC) system |
US7529963B2 (en) * | 2005-02-07 | 2009-05-05 | International Business Machines Corporation | Cell boundary fault detection system |
US7506196B2 (en) * | 2005-02-07 | 2009-03-17 | International Business Machines Corporation | System and method for detecting a faulty object in a system |
US8495411B2 (en) * | 2005-02-07 | 2013-07-23 | International Business Machines Corporation | All row, planar fault detection system |
US7506197B2 (en) * | 2005-02-07 | 2009-03-17 | International Business Machines Corporation | Multi-directional fault detection system |
US7451342B2 (en) * | 2005-02-07 | 2008-11-11 | International Business Machines Corporation | Bisectional fault detection system |
US7826379B2 (en) * | 2005-02-07 | 2010-11-02 | International Business Machines Corporation | All-to-all sequenced fault detection system |
US7437595B2 (en) * | 2005-02-07 | 2008-10-14 | International Business Machines Corporation | Row fault detection system |
US7827435B2 (en) * | 2005-02-15 | 2010-11-02 | International Business Machines Corporation | Method for using a priority queue to perform job scheduling on a cluster based on node rank and performance |
US8195976B2 (en) | 2005-06-29 | 2012-06-05 | International Business Machines Corporation | Fault-tolerance and fault-containment models for zoning clustered application silos into continuous availability and high availability zones in clustered systems during recovery and maintenance |
KR100730279B1 (ko) * | 2005-12-16 | 2007-06-19 | 삼성전자주식회사 | 스타 토로스 토폴로지를 이용하여 칩 상의 디바이스를연결한 컴퓨터 칩 |
US8516444B2 (en) * | 2006-02-23 | 2013-08-20 | International Business Machines Corporation | Debugging a high performance computing program |
US20070242611A1 (en) * | 2006-04-13 | 2007-10-18 | Archer Charles J | Computer Hardware Fault Diagnosis |
US7697443B2 (en) * | 2006-04-13 | 2010-04-13 | International Business Machines Corporation | Locating hardware faults in a parallel computer |
US7796527B2 (en) * | 2006-04-13 | 2010-09-14 | International Business Machines Corporation | Computer hardware fault administration |
US7661015B2 (en) * | 2006-05-16 | 2010-02-09 | Bea Systems, Inc. | Job scheduler |
US9384103B2 (en) * | 2006-05-16 | 2016-07-05 | Oracle International Corporation | EJB cluster timer |
GB0611038D0 (en) * | 2006-06-02 | 2006-07-12 | Ibm | Apparatus and method for cluster recovery |
US20080101395A1 (en) * | 2006-10-30 | 2008-05-01 | Raytheon Company | System and Method for Networking Computer Clusters |
US7512836B2 (en) | 2006-12-11 | 2009-03-31 | International Business Machines Corporation | Fast backup of compute nodes in failing midplane by copying to nodes in backup midplane via link chips operating in pass through and normal modes in massively parallel computing system |
US9330230B2 (en) * | 2007-04-19 | 2016-05-03 | International Business Machines Corporation | Validating a cabling topology in a distributed computing system |
US7831866B2 (en) * | 2007-08-02 | 2010-11-09 | International Business Machines Corporation | Link failure detection in a parallel computer |
JP5056504B2 (ja) * | 2008-03-13 | 2012-10-24 | 富士通株式会社 | 制御装置、情報処理システム、情報処理システムの制御方法および情報処理システムの制御プログラム |
US9032407B2 (en) * | 2009-05-25 | 2015-05-12 | Panasonic Intellectual Property Corporation Of America | Multiprocessor system, multiprocessor control method, and multiprocessor integrated circuit |
JP5328743B2 (ja) * | 2010-10-13 | 2013-10-30 | インテル・コーポレーション | 多数コアプロセッサの信頼性強化 |
CA2753747C (en) | 2010-12-14 | 2019-08-13 | International Business Machines Corporation | Method for operating a node cluster system in a network and node cluster system |
US8495425B2 (en) * | 2011-03-01 | 2013-07-23 | International Business Machines Corporation | System and method to efficiently identify bad components in a multi-node system utilizing multiple node topologies |
US20120324456A1 (en) | 2011-06-16 | 2012-12-20 | Microsoft Corporation | Managing nodes in a high-performance computing system using a node registrar |
JP6010975B2 (ja) * | 2012-03-30 | 2016-10-19 | 日本電気株式会社 | ジョブ管理装置、ジョブ管理方法、及びプログラム |
US8990616B2 (en) * | 2012-09-28 | 2015-03-24 | International Business Machines Corporation | Final faulty core recovery mechanisms for a two-dimensional network on a processor array |
US9160617B2 (en) | 2012-09-28 | 2015-10-13 | International Business Machines Corporation | Faulty core recovery mechanisms for a three-dimensional network on a processor array |
US9258191B2 (en) * | 2012-12-13 | 2016-02-09 | Microsoft Technology Licensing, Llc | Direct network having plural distributed connections to each resource |
US9037898B2 (en) | 2012-12-18 | 2015-05-19 | International Business Machines Corporation | Communication channel failover in a high performance computing (HPC) network |
US9262560B2 (en) | 2013-03-13 | 2016-02-16 | Saudi Arabian Oil Company | Automatic recovery of reservoir simulation runs from processing system failures |
US9304877B2 (en) | 2014-01-24 | 2016-04-05 | International Business Machines Corporation | Mobile agent based memory replication |
JP2016038649A (ja) | 2014-08-06 | 2016-03-22 | 富士通株式会社 | 並列計算機システム及び並列計算機システムの制御方法 |
FR3030076B1 (fr) * | 2014-12-10 | 2016-12-09 | Bull Sas | Procede de gestion d'un reseau de nœuds de calcul |
PT3523723T (pt) | 2016-10-05 | 2021-09-20 | Partec Ag | Sistema e método computacional de alto desempenho |
TWI830623B (zh) * | 2023-03-15 | 2024-01-21 | 神雲科技股份有限公司 | 主機板檢測方法 |
Family Cites Families (104)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4885770A (en) * | 1987-09-04 | 1989-12-05 | Digital Equipment Corporation | Boot system for distributed digital data processing system |
US4868818A (en) * | 1987-10-29 | 1989-09-19 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | Fault tolerant hypercube computer system architecture |
US5020059A (en) * | 1989-03-31 | 1991-05-28 | At&T Bell Laboratories | Reconfigurable signal processor |
US5396635A (en) * | 1990-06-01 | 1995-03-07 | Vadem Corporation | Power conservation apparatus having multiple power reduction levels dependent upon the activity of the computer system |
US5301104A (en) * | 1990-08-07 | 1994-04-05 | Honeywell Inc. | Method for allocating processing elements interconnected in a hypercube topology |
US5280607A (en) * | 1991-06-28 | 1994-01-18 | International Business Machines Corporation | Method and apparatus for tolerating faults in mesh architectures |
CA2106280C (en) * | 1992-09-30 | 2000-01-18 | Yennun Huang | Apparatus and methods for fault-tolerant computing employing a daemon monitoring process and fault-tolerant library to provide varying degrees of fault tolerance |
US5781715A (en) * | 1992-10-13 | 1998-07-14 | International Business Machines Corporation | Fault-tolerant bridge/router with a distributed switch-over mechanism |
US5513313A (en) * | 1993-01-19 | 1996-04-30 | International Business Machines Corporation | Method for generating hierarchical fault-tolerant mesh architectures |
US5450578A (en) * | 1993-12-23 | 1995-09-12 | Unisys Corporation | Method and apparatus for automatically routing around faults within an interconnect system |
JP3541212B2 (ja) | 1993-12-28 | 2004-07-07 | 富士通株式会社 | プロセッサ割当て装置 |
US6408402B1 (en) * | 1994-03-22 | 2002-06-18 | Hyperchip Inc. | Efficient direct replacement cell fault tolerant architecture |
ES2153891T3 (es) * | 1994-03-22 | 2001-03-16 | Hyperchip Inc | Arquitectura resistente a los defectos basada en celdas con uso beneficioso de celdas de reserva no asignadas. |
JPH07319691A (ja) * | 1994-03-29 | 1995-12-08 | Toshiba Corp | 資源保護装置、特権保護装置、ソフトウェア利用法制御装置、及びソフトウェア利用法制御システム |
JPH08227356A (ja) | 1994-12-21 | 1996-09-03 | Tec Corp | データ処理装置 |
US5682491A (en) * | 1994-12-29 | 1997-10-28 | International Business Machines Corporation | Selective processing and routing of results among processors controlled by decoding instructions using mask value derived from instruction tag and processor identifier |
US5603044A (en) * | 1995-02-08 | 1997-02-11 | International Business Machines Corporation | Interconnection network for a multi-nodal data processing system which exhibits incremental scalability |
US5805785A (en) * | 1996-02-27 | 1998-09-08 | International Business Machines Corporation | Method for monitoring and recovery of subsystems in a distributed/clustered system |
US5805786A (en) * | 1996-07-23 | 1998-09-08 | International Business Machines Corporation | Recovery of a name server managing membership of a domain of processors in a distributed computing environment |
US6393581B1 (en) * | 1996-08-29 | 2002-05-21 | Cornell Research Foundation, Inc. | Reliable time delay-constrained cluster computing |
JPH10116261A (ja) * | 1996-10-14 | 1998-05-06 | Hitachi Ltd | 並列計算機システムのチェックポイントリスタート方法 |
KR100207598B1 (ko) * | 1997-01-27 | 1999-07-15 | 윤종용 | 상호연결망으로서 파이브 채널을 사용한 클러스터시스템 |
US5933631A (en) * | 1997-03-17 | 1999-08-03 | International Business Machines Corporation | Dynamic boot filesystem selection |
US6088330A (en) * | 1997-09-09 | 2000-07-11 | Bruck; Joshua | Reliable array of distributed computing nodes |
US6167502A (en) * | 1997-10-10 | 2000-12-26 | Billions Of Operations Per Second, Inc. | Method and apparatus for manifold array processing |
US6230252B1 (en) * | 1997-11-17 | 2001-05-08 | Silicon Graphics, Inc. | Hybrid hypercube/torus architecture |
US6480927B1 (en) * | 1997-12-31 | 2002-11-12 | Unisys Corporation | High-performance modular memory system with crossbar connections |
US6477663B1 (en) * | 1998-04-09 | 2002-11-05 | Compaq Computer Corporation | Method and apparatus for providing process pair protection for complex applications |
US6195760B1 (en) | 1998-07-20 | 2001-02-27 | Lucent Technologies Inc | Method and apparatus for providing failure detection and recovery with predetermined degree of replication for distributed applications in a network |
US6683696B1 (en) * | 1998-10-27 | 2004-01-27 | Hewlett-Packard Development Company, L.P. | Filter based data imaging method for an image forming device |
US6691165B1 (en) * | 1998-11-10 | 2004-02-10 | Rainfinity, Inc. | Distributed server cluster for controlling network traffic |
US6496941B1 (en) * | 1998-12-29 | 2002-12-17 | At&T Corp. | Network disaster recovery and analysis tool |
US6480972B1 (en) * | 1999-02-24 | 2002-11-12 | International Business Machines Corporation | Data processing system and method for permitting a server to remotely perform diagnostics on a malfunctioning client computer system |
US6453426B1 (en) * | 1999-03-26 | 2002-09-17 | Microsoft Corporation | Separately storing core boot data and cluster configuration data in a server cluster |
JP3471654B2 (ja) * | 1999-04-06 | 2003-12-02 | 富士通株式会社 | ライセンスサーバ、著作権者システム、利用者システム、システム、記録媒体およびコンテンツ利用制御方法 |
US6718486B1 (en) * | 2000-01-26 | 2004-04-06 | David E. Lovejoy | Fault monitor for restarting failed instances of the fault monitor |
US6597956B1 (en) * | 1999-08-23 | 2003-07-22 | Terraspring, Inc. | Method and apparatus for controlling an extensible computing system |
US7096268B1 (en) * | 1999-09-01 | 2006-08-22 | Matsushita Electric Industrial Co., Ltd. | Copyrighted data processing method and apparatus |
US6415323B1 (en) * | 1999-09-03 | 2002-07-02 | Fastforward Networks | Proximity-based redirection system for robust and scalable service-node location in an internetwork |
US6741983B1 (en) * | 1999-09-28 | 2004-05-25 | John D. Birdwell | Method of indexed storage and retrieval of multidimensional information |
US6629266B1 (en) * | 1999-11-17 | 2003-09-30 | International Business Machines Corporation | Method and system for transparent symptom-based selective software rejuvenation |
JP2001175492A (ja) * | 1999-12-20 | 2001-06-29 | Hitachi Ltd | 分散システムにおけるジョブ再実行装置 |
US6748437B1 (en) * | 2000-01-10 | 2004-06-08 | Sun Microsystems, Inc. | Method for creating forwarding lists for cluster networking |
JP3329804B2 (ja) * | 2000-02-21 | 2002-09-30 | 株式会社東芝 | 監視制御装置 |
US6460149B1 (en) * | 2000-03-03 | 2002-10-01 | International Business Machines Corporation | Suicide among well-mannered cluster nodes experiencing heartbeat failure |
US7299290B2 (en) * | 2000-03-22 | 2007-11-20 | Yottayotta, Inc. | Method and system for providing multimedia information on demand over wide area networks |
US6658504B1 (en) * | 2000-05-16 | 2003-12-02 | Eurologic Systems | Storage apparatus |
US20040034794A1 (en) * | 2000-05-28 | 2004-02-19 | Yaron Mayer | System and method for comprehensive general generic protection for computers against malicious programs that may steal information and/or cause damages |
JP4292693B2 (ja) | 2000-07-07 | 2009-07-08 | 株式会社日立製作所 | 計算機資源分割装置および資源分割方法 |
US7032119B2 (en) * | 2000-09-27 | 2006-04-18 | Amphus, Inc. | Dynamic power and workload management for multi-server system |
JP2002108839A (ja) * | 2000-09-28 | 2002-04-12 | Mitsubishi Electric Corp | 通信ネットワークシステム、ジョブ割当方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
US7055148B2 (en) * | 2000-12-07 | 2006-05-30 | Hewlett-Packard Development Company, L.P. | System and method for updating firmware |
US6735660B1 (en) * | 2000-12-21 | 2004-05-11 | International Business Machines Corporation | Sideband signal transmission between host and input/output adapter |
WO2002084509A1 (en) | 2001-02-24 | 2002-10-24 | International Business Machines Corporation | A novel massively parrallel supercomputer |
US7107337B2 (en) * | 2001-06-07 | 2006-09-12 | Emc Corporation | Data storage system with integrated switching |
US6952766B2 (en) * | 2001-03-15 | 2005-10-04 | International Business Machines Corporation | Automated node restart in clustered computer system |
US7028228B1 (en) * | 2001-03-28 | 2006-04-11 | The Shoregroup, Inc. | Method and apparatus for identifying problems in computer networks |
US6918051B2 (en) * | 2001-04-06 | 2005-07-12 | International Business Machines Corporation | Node shutdown in clustered computer system |
US6820221B2 (en) * | 2001-04-13 | 2004-11-16 | Hewlett-Packard Development Company, L.P. | System and method for detecting process and network failures in a distributed system |
US7231430B2 (en) * | 2001-04-20 | 2007-06-12 | Egenera, Inc. | Reconfigurable, virtual processing system, cluster, network and method |
US6675264B2 (en) * | 2001-05-07 | 2004-01-06 | International Business Machines Corporation | Method and apparatus for improving write performance in a cluster-based file system |
US7155512B2 (en) | 2001-05-23 | 2006-12-26 | Tekelec | Methods and systems for automatically configuring network monitoring system |
US8010558B2 (en) * | 2001-06-05 | 2011-08-30 | Silicon Graphics International | Relocation of metadata server with outstanding DMAPI requests |
US6950833B2 (en) * | 2001-06-05 | 2005-09-27 | Silicon Graphics, Inc. | Clustered filesystem |
US6988193B2 (en) * | 2001-06-28 | 2006-01-17 | International Business Machines Corporation | System and method for creating a definition for a target device based on an architecture configuration of the target device at a boot server |
US20030005039A1 (en) * | 2001-06-29 | 2003-01-02 | International Business Machines Corporation | End node partitioning using local identifiers |
US8032625B2 (en) * | 2001-06-29 | 2011-10-04 | International Business Machines Corporation | Method and system for a network management framework with redundant failover methodology |
SE0102405D0 (sv) | 2001-07-04 | 2001-07-04 | Software Run Ab | A system and a method for selecting a preconfigured operating system for a server |
GB0116310D0 (en) | 2001-07-04 | 2001-08-29 | New Transducers Ltd | Contact sensitive device |
US7065764B1 (en) * | 2001-07-20 | 2006-06-20 | Netrendered, Inc. | Dynamically allocated cluster system |
US7016299B2 (en) * | 2001-07-27 | 2006-03-21 | International Business Machines Corporation | Network node failover using path rerouting by manager component or switch port remapping |
EP1283464A1 (en) * | 2001-08-06 | 2003-02-12 | Hewlett-Packard Company | A boot process for a computer, a boot ROM and a computer having a boot ROM |
US6922791B2 (en) * | 2001-08-09 | 2005-07-26 | Dell Products L.P. | Failover system and method for cluster environment |
US7073053B1 (en) * | 2001-10-11 | 2006-07-04 | Cisco Technology, Inc. | Method and apparatus for a boot progression scheme for reliably initializing a system |
US6904482B2 (en) * | 2001-11-20 | 2005-06-07 | Intel Corporation | Common boot environment for a modular server system |
EP1318453A1 (en) * | 2001-12-07 | 2003-06-11 | Hewlett-Packard Company | Scheduling system, method and apparatus for a cluster |
CA2365729A1 (en) * | 2001-12-20 | 2003-06-20 | Platform Computing (Barbados) Inc. | Topology aware scheduling for a multiprocessor system |
US7046687B1 (en) * | 2002-01-16 | 2006-05-16 | Tau Networks | Configurable virtual output queues in a scalable switching system |
US7093004B2 (en) * | 2002-02-04 | 2006-08-15 | Datasynapse, Inc. | Using execution statistics to select tasks for redundant assignment in a distributed computing platform |
US6918063B2 (en) * | 2002-02-04 | 2005-07-12 | International Business Machines Corporation | System and method for fault tolerance in multi-node system |
US7640547B2 (en) * | 2002-02-08 | 2009-12-29 | Jpmorgan Chase & Co. | System and method for allocating computing resources of a distributed computing system |
DE10214067B4 (de) * | 2002-03-28 | 2010-01-21 | Advanced Micro Devices, Inc., Sunnyvale | Integrierter Schaltkreischip mit Hochgeschwindigkeitsdatenschnittstelle sowie zugehöriges Southbridgebauelement und Verfahren |
US7043539B1 (en) * | 2002-03-29 | 2006-05-09 | Terraspring, Inc. | Generating a description of a configuration for a virtual network system |
US7139798B2 (en) * | 2002-05-17 | 2006-11-21 | Groove Networks, Inc. | Method and apparatus for connecting a secure peer-to-peer collaboration system to an external system |
DE10234992A1 (de) * | 2002-07-31 | 2004-02-19 | Advanced Micro Devices, Inc., Sunnyvale | Retry-Mechanismus für blockierende Schnittstellen |
US7765299B2 (en) * | 2002-09-16 | 2010-07-27 | Hewlett-Packard Development Company, L.P. | Dynamic adaptive server provisioning for blade architectures |
US7127597B2 (en) * | 2002-09-24 | 2006-10-24 | Novell, Inc. | Mechanism for controlling boot decisions from a network policy directory based on client profile information |
US20040210656A1 (en) * | 2003-04-16 | 2004-10-21 | Silicon Graphics, Inc. | Failsafe operation of storage area network |
US7287179B2 (en) * | 2003-05-15 | 2007-10-23 | International Business Machines Corporation | Autonomic failover of grid-based services |
US7007125B2 (en) * | 2003-06-24 | 2006-02-28 | International Business Machines Corporation | Pass through circuit for reduced memory latency in a multiprocessor system |
US7379983B2 (en) * | 2003-06-25 | 2008-05-27 | International Business Machines Corporation | Merging scalable nodes into single-partition merged system using service processors of nodes |
AU2004280976A1 (en) * | 2003-10-08 | 2005-04-21 | Unisys Corporation | Computer system para-virtualization using a hypervisor that is implemented in a partition of the host system |
US7207039B2 (en) * | 2003-12-24 | 2007-04-17 | Intel Corporation | Secure booting and provisioning |
US8484348B2 (en) * | 2004-03-05 | 2013-07-09 | Rockstar Consortium Us Lp | Method and apparatus for facilitating fulfillment of web-service requests on a communication network |
US20050256942A1 (en) * | 2004-03-24 | 2005-11-17 | Mccardle William M | Cluster management system and method |
US8190714B2 (en) * | 2004-04-15 | 2012-05-29 | Raytheon Company | System and method for computer cluster virtualization using dynamic boot images and virtual disk |
US9178784B2 (en) * | 2004-04-15 | 2015-11-03 | Raytheon Company | System and method for cluster management based on HPC architecture |
US8335909B2 (en) * | 2004-04-15 | 2012-12-18 | Raytheon Company | Coupling processors to each other for high performance computing (HPC) |
US20050235055A1 (en) * | 2004-04-15 | 2005-10-20 | Raytheon Company | Graphical user interface for managing HPC clusters |
US8336040B2 (en) * | 2004-04-15 | 2012-12-18 | Raytheon Company | System and method for topology-aware job scheduling and backfilling in an HPC environment |
US8244882B2 (en) * | 2004-11-17 | 2012-08-14 | Raytheon Company | On-demand instantiation in a high-performance computing (HPC) system |
US7433931B2 (en) * | 2004-11-17 | 2008-10-07 | Raytheon Company | Scheduling in a high-performance computing (HPC) system |
US7475274B2 (en) * | 2004-11-17 | 2009-01-06 | Raytheon Company | Fault tolerance and recovery in a high-performance computing (HPC) system |
JP2007141305A (ja) | 2005-11-16 | 2007-06-07 | Hitachi Global Storage Technologies Netherlands Bv | 磁気ディスク装置 |
-
2004
- 2004-04-15 US US10/826,959 patent/US7711977B2/en active Active
-
2005
- 2005-04-12 JP JP2007508456A patent/JP4986844B2/ja active Active
- 2005-04-12 WO PCT/US2005/012313 patent/WO2005106668A1/en active Application Filing
- 2005-04-12 EP EP05742298A patent/EP1735708A1/en not_active Ceased
Also Published As
Publication number | Publication date |
---|---|
EP1735708A1 (en) | 2006-12-27 |
WO2005106668A1 (en) | 2005-11-10 |
US7711977B2 (en) | 2010-05-04 |
JP2007533031A (ja) | 2007-11-15 |
US20050246569A1 (en) | 2005-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4986844B2 (ja) | Hpcノード障害の検出及び管理を行うシステム及び方法 | |
JP4833965B2 (ja) | Hpcアーキテクチャに基づいたクラスタ管理のシステム及び方法 | |
US10621009B2 (en) | System and method for topology-aware job scheduling and backfilling in an HPC environment | |
JP4560435B2 (ja) | 高性能計算システム及び高性能計算方法 | |
JP2007533034A (ja) | Hpcクラスタを管理するためのグラフィカル・ユーザ・インタフェース |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080326 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100810 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20101109 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20101116 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20101209 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20101216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110107 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110701 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20110706 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110802 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20111101 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20111109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120306 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120327 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120424 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4986844 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150511 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |