JP2023526174A

JP2023526174A - ネットワーク・ファブリックにおける非応答ポートの隔離

Info

Publication number: JP2023526174A
Application number: JP2022562732A
Authority: JP
Inventors: ガブリロフ、コンスタンチン; コレン、エリ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-05-08
Filing date: 2021-04-27
Publication date: 2023-06-21
Also published as: CN115516423A; KR20220160055A; US20210349794A1; WO2021224717A1; AU2021266891A1; GB202218235D0; GB2610528A; AU2021266891B2; IL296678A; CA3167963A1; US11226879B2; DE112021001517T5

Abstract

一態様によるコンピュータ実施方法は、ノードに第１の管理クエリを送信することによって、分散コンピューティング環境のノードのオペレーティング・システムが正しく機能しているかどうかを判定することと、ノードのオペレーティング・システムが正しく機能していないとの判定に応答して、ノードに関連付けられたポートに第２の管理クエリを送信することによって、ノードがアクティブな通信リンクを有するかどうかを判定することと、ノードがアクティブな通信リンクを有するとの判定に応答して、ノードに関連付けられたポートにリセット要求を送信することによって、ノードのアクティブな通信リンクをリセットすることとを含む。

Description

本発明は分散コンピューティング・システムに関し、より詳細には、本発明は分散コンピューティング・システム内のノードの非応答ポートを識別および対処することに関する。

最新の分散コンピューティング環境は、コンピューティング・リソースおよびストレージ・リソースの効率的な共有を利用してコンピューティング・タスクを実行する。これらの環境は、高速で低レイテンシの通信媒体を利用して、相互接続された複数のノードにデータを分散させて処理する。しかしながら、１つまたは複数のノードが誤動作しているにもかかわらず、処理のために着信するデータを受信すると、問題が発生する。この結果として、最適化された様式で処理を続行するために、分散コンピューティング環境全体の電源を入れ直す必要がある状況が生じ得る。故障したノードを識別して除去するための従来の手段では、アクティブな通信ポートを有する誤動作しているノードを正確に識別して対応することはできない。

より具体的には、最新の高速相互接続ソリューションは、高速データ通信をサポートする。このような速度では、物理リンクの問題が生じておらず、エラーが発生することなく正しい速度をネゴシエートすることが可能なポートは、同じ速度でデータを消費することが不可能な場合に、ネットワーク・ファブリックおよびアプリケーション・フローにおいてすぐに輻輳を引き起こすことになる。例えば、ホスト・チャネル・アダプタ（ＨＣＡ）は、ペリフェラル・コンポーネント・インターコネクト（ＰＣＩ）転送にハードウェアの問題があるため、またはそのダイレクト・メモリ・アクセス（ＤＭＡ）・ハードウェアに誤動作があるため、ホスト・メモリへのデータ転送に問題がある可能性がある。

ノード全体が誤動作し、システム・ファームウェアがハードウェア障害の処理中にオペレーティング・システムの実行をプリエンプトした場合にも、同様の問題が発生する可能性がある。障害ハンドラの実行にかなりの時間がかかる場合、ネットワーク・アダプタのキューは急速に満杯になり、新しいパケットを受信することが不可能になる。一方、ローカルまたはリモートのＨＣＡの誤動作により、アプリケーションが必要とされる整合性および速度でデータを送受信できない場合、アプリケーションはトランザクションを完了できない可能性がある。

アクティブ状態のリンクを有するクラッシュしたノードが存在するためにファブリック全体が誤動作すると、状況は極めて重大になる。多くの実際の故障シナリオでは、オペレーティング・システムを実行できない場合、相互接続リンクがすぐにダウンする可能性がある。さらに、多くの相互接続ファブリックは、ハードウェア・クレジット・フロー制御メカニズムを使用し、キューの先頭のパケットおよび送信キュー内のすべてのパケットについてタイムアウトを有する、信頼性の高いネットワークである。転送規格は、ネットワークに存在するがパケットを送受信することができない構成要素に対処する。

規格は、誤動作している構成要素（例えば、データを受信できないためにクレジットを解放していない構成要素）の存在がファブリック全体を長期間ブロックして崩壊に至らないように定義されている。しかしながら、ソフトウェアのある部分がクリティカル・セクション内にあり、クリティカル・セクションを離れるために、エラーが発生するか成功するまで故障した接続先と何度も通信する必要がある場合、故障した構成要素によってすべての送信ポート・クレジットが繰り返し消費されるので、（クラスタ・グリッド論理のような）ソフトウェアの他の部分が通信できなくなる可能性がある。したがって、クリティカル・セクションに関連付けられた通信は、故障を検出してその故障をグリッド全体に通信し得る他のトラフィックをブロックするので、ソフトウェアは、（クリティカル・セクションにあるため）Ｉ／Ｏサービスを提供することも、クリティカル・セクションを中止することもできない。

さらに、実際のテスト・シナリオは、ネットワーク機器がしばしば、相互接続ファブリック内の非応答ノードによって消費された送信クレジットを解放する転送規格を適切に実装できないことを示している。正常なネットワーク・アダプタおよびスイッチは、ファブリック内に異常なノードが存在する場合、不安定な挙動を示し、異常な構成要素がファブリックから物理的に除去されるまでファブリック全体がフリーズするという状況にさえ至る可能性がある。場合によっては、異常な構成要素を除去した後も故障が続く可能性があり、ファブリック内の構成要素（スイッチおよびノード）の再起動またはリセットが必要になり、ダウン・タイムが増加する可能性がある。

したがって、非応答ノードを適時に検出することは、動作の中断による壊滅的な影響を防ぐことができる重要なタスクとなる。

このようにして、上記の分散監視の結果として、障害のあるオペレーティング・システム機能または障害のあるネットワーク・アダプタおよびアクティブなリンクを有する問題のあるノードは、隔離され（fence）得る（例えば、識別され、分散コンピューティング環境から除去され得る）。これにより、分散コンピューティング環境内のこれらの問題のあるノードによって引き起こされる通信バックログが解消される可能性があり、したがって、分散コンピューティング環境内のすべてのノードの機能が向上する可能性がある。

一態様では、第１の管理クエリと第２の管理クエリはどちらも、優先度の高いクエリである。このようにして、環境内のノードの分散監視を優先することによって、分散コンピューティング環境内のデータ通信の問題を最小限に抑えることができる。

別の態様によれば、ネットワーク・ファブリック内の非応答ポートを隔離するためのコンピュータ・プログラム製品は、プログラム命令が具現化されたコンピュータ可読記憶媒体を含み、コンピュータ可読記憶媒体は一過性の信号自体ではなく、プログラム命令は、プロセッサに、プロセッサを利用して、ノードに第１の管理クエリを送信することによって、分散コンピューティング環境のノードのオペレーティング・システムが正しく機能しているかどうかを判定することと、ノードのオペレーティング・システムが正しく機能していないとの判定に応答して、プロセッサを利用して、ノードに関連付けられたポートに第２の管理クエリを送信することによって、ノードがアクティブな通信リンクを有するかどうかを判定することと、ノードがアクティブな通信リンクを有するとの判定に応答して、プロセッサを利用して、ノードに関連付けられたポートにリセット要求を送信することによって、ノードのアクティブな通信リンクをリセットすることとを含む方法を実行させるように、プロセッサによって実行可能である。

一態様では、分散コンピューティング環境内の監視ノードは、所定の期間内に所定の数のリセット要求を別のノードに送信することのみを許可される。

このようにして、障害のある監視ノードが、機能している別のノードを不当なリセット要求によって中断するのを防止することができる。

別の態様によれば、システムは、プロセッサと、プロセッサと統合されるか、プロセッサによって実行可能であるか、またはプロセッサと統合され、かつプロセッサによって実行可能である論理とを含み、論理は、ノードに第１の管理クエリを送信することによって、分散コンピューティング環境のノードのオペレーティング・システムが正しく機能しているかどうかを判定し、ノードのオペレーティング・システムが正しく機能していないとの判定に応答して、ノードに関連付けられたポートに第２の管理クエリを送信することによって、ノードがアクティブな通信リンクを有するかどうかを判定し、ノードがアクティブな通信リンクを有するとの判定に応答して、ノードに関連付けられたポートにリセット要求を送信することによって、ノードのアクティブな通信リンクをリセットするように構成される。

別の態様によれば、コンピュータ実施方法は、分散コンピューティング環境の第１のノードから分散コンピューティング環境の第２のノードに第１の管理クエリを送信することであって、第１の管理クエリが、第２のノードのオペレーティング・システムに関連付けられる、第１の管理クエリを送信することと、第１のノードにおいて第２のノードから第１の管理クエリへの応答を受信できなかったことに応答して、第１のノードから第２のノードに関連付けられた１つまたは複数の通信ポートに第２の管理クエリを送信することと、第１のノードにおいて、第２のノードに関連付けられた１つまたは複数の通信ポートから、第２のノードがアクティブな通信リンクを有することを示す第２の管理クエリへの応答を受信したことに応答して、第１のノードによって、アクティブな通信リンクを有する第２のノードの１つまたは複数の通信ポートをリセットするよう求めるリンク・リセット要求を、第２のノードに関連付けられた１つまたは複数の通信ポートに送信することとを含む。

このようにして、第１のノードは、管理ノードとして機能することができ、第２のノードがオペレーティング・システムの問題またはネットワーク・アダプタの問題を有すると同時にアクティブな通信リンクも有するという特定のシナリオを判定したことに応答して、分散コンピューティング環境からの第２のノードの除去をトリガし得る。これにより、第２ノードによって引き起こされる分散コンピューティング環境内のネットワーク輻輳が解消される可能性があり、それによって、分散コンピューティング環境内の第１ノードおよび他のすべてのコンピューティング・ノードの性能が向上する可能性がある。

別の態様によれば、分散コンピューティング環境内に管理ノードを実装するためのコンピュータ・プログラム製品は、プログラム命令が具現化されたコンピュータ可読記憶媒体を含み、コンピュータ可読記憶媒体は一過性の信号自体ではなく、プログラム命令は、プロセッサに、プロセッサを利用して、分散コンピューティング環境の第１のノードから分散コンピューティング環境の第２のノードに第１の管理クエリを送信することであって、第１の管理クエリが、第２のノードのオペレーティング・システムに関連付けられる、第１の管理クエリを送信することと、第１のノードにおいて第２のノードから第１の管理クエリへの応答を受信できなかったことに応答して、プロセッサを利用して、第１のノードから第２のノードに関連付けられた１つまたは複数の通信ポートに第２の管理クエリを送信することと、第１のノードにおいて、第２のノードに関連付けられた１つまたは複数の通信ポートから、第２のノードがアクティブな通信リンクを有することを示す第２の管理クエリへの応答を受信したことに応答して、プロセッサを利用して、第１のノードによって、アクティブな通信リンクを有する第２のノードの１つまたは複数の通信ポートをリセットするよう求めるリンク・リセット要求を、第２のノードに関連付けられた１つまたは複数の通信ポートに送信することとを含む方法を実行させるように、プロセッサによって実行可能である。

本発明の他の態様および実施形態は、図面とともに読めば、本発明の原理を例示する以下の詳細な説明から明らかになるであろう。

本発明の一態様による、クラウド・コンピューティング環境を示す図である。本発明の一態様による、抽象化モデル層を示す図である。本発明の一態様による、クラウド・コンピューティング・ノードを示す図である。本発明の一態様による、階層型データ・ストレージ・システムを示す図である。本発明の一態様による、ネットワーク・ファブリック内の非応答ポートを隔離するための方法のフローチャートである。本発明の一態様による、分散コンピューティング環境内に管理ノードを実装するための方法のフローチャートである。本発明の一態様による、例示的な分散コンピューティング・ネットワークを示す図である。本発明の一態様による、分散コンピューティング環境内でノード監視を実行するための方法のフローチャートである。

以下の説明は、本発明の一般的な原理を説明することを目的としてなされており、本明細書において特許請求される本発明の概念を限定することを意味するものではない。さらに、本明細書に記載の特定の特徴は、様々な可能な組合せおよび置換えのそれぞれにおいて、他の記載されている特徴と組み合わせて使用することができる。

本明細書において別途明確な定義がない限り、すべての用語は、本明細書から暗示される意味、ならびに当業者によって理解される意味または辞書、論文などで定義される意味あるいはその両方を含む、可能な限り広い解釈を与えられるべきである。

本明細書および添付の特許請求の範囲で使用される単数形「ａ」、「ａｎ」、および「ｔｈｅ」は、別途指示がない限り複数の指示対象を含むことにも留意されたい。「備える（ｃｏｍｐｒｉｓｅｓ）」または「備える（ｃｏｍｐｒｉｓｉｎｇ）」という用語あるいはその両方は、本明細書で使用される場合、記載された特徴、整数、ステップ、動作、要素、または構成要素、あるいはその組合せの存在を指定するが、１つまたは複数の他の特徴、整数、ステップ、動作、要素、構成要素、またはこれらのグループ、あるいはその組合せの存在または追加を排除するものではないことがさらに理解されよう。

以下の説明は、ネットワーク・ファブリック内の非応答ポートを隔離するいくつかの態様を開示している。

一般的な一態様では、コンピュータ実施方法は、ノードに第１の管理クエリを送信することによって、分散コンピューティング環境のノードのオペレーティング・システムが正しく機能しているかどうかを判定することと、ノードのオペレーティング・システムが正しく機能していないとの判定に応答して、ノードに関連付けられたポートに第２の管理クエリを送信することによって、ノードがアクティブな通信リンクを有するかどうかを判定することと、ノードがアクティブな通信リンクを有するとの判定に応答して、ノードに関連付けられたポートにリセット要求を送信することによって、ノードのアクティブな通信リンクをリセットすることとを含む。

このようにして、上記の分散監視の結果として、障害のあるオペレーティング・システム機能または障害のあるネットワーク・アダプタおよびアクティブなリンクを有する問題のあるノードは、隔離され得る（例えば、識別され、分散コンピューティング環境から除去され得る）。これにより、分散コンピューティング環境内のこれらの問題のあるノードによって引き起こされる通信バックログが解消される可能性があり、したがって、分散コンピューティング環境内のすべてのノードの機能が向上する可能性がある。

別の一般的な態様では、ネットワーク・ファブリック内の非応答ポートを隔離するためのコンピュータ・プログラム製品は、プログラム命令が具現化されたコンピュータ可読記憶媒体を含み、コンピュータ可読記憶媒体は一過性の信号自体ではなく、プログラム命令は、プロセッサに、プロセッサを利用して、ノードに第１の管理クエリを送信することによって、分散コンピューティング環境のノードのオペレーティング・システムが正しく機能しているかどうかを判定することと、ノードのオペレーティング・システムが正しく機能していないとの判定に応答して、プロセッサを利用して、ノードに関連付けられたポートに第２の管理クエリを送信することによって、ノードがアクティブな通信リンクを有するかどうかを判定することと、ノードがアクティブな通信リンクを有するとの判定に応答して、プロセッサを利用して、ノードに関連付けられたポートにリセット要求を送信することによって、ノードのアクティブな通信リンクをリセットすることとを含む方法を実行させるように、プロセッサによって実行可能である。

別の一般的な態様では、システムは、プロセッサと、プロセッサと統合されるか、プロセッサによって実行可能であるか、またはプロセッサと統合され、かつプロセッサによって実行可能である論理とを含み、論理は、ノードに第１の管理クエリを送信することによって、分散コンピューティング環境のノードのオペレーティング・システムが正しく機能しているかどうかを判定し、ノードのオペレーティング・システムが正しく機能していないとの判定に応答して、ノードに関連付けられたポートに第２の管理クエリを送信することによって、ノードがアクティブな通信リンクを有するかどうかを判定し、ノードがアクティブな通信リンクを有するとの判定に応答して、ノードに関連付けられたポートにリセット要求を送信することによって、ノードのアクティブな通信リンクをリセットするように構成される。

別の一般的な態様では、コンピュータ実施方法は、分散コンピューティング環境の第１のノードから分散コンピューティング環境の第２のノードに第１の管理クエリを送信することであって、第１の管理クエリが、第２のノードのオペレーティング・システムに関連付けられる、第１の管理クエリを送信することと、第１のノードにおいて第２のノードから第１の管理クエリへの応答を受信できなかったことに応答して、第１のノードから第２のノードに関連付けられた１つまたは複数の通信ポートに第２の管理クエリを送信することと、第１のノードにおいて、第２のノードに関連付けられた１つまたは複数の通信ポートから、第２のノードがアクティブな通信リンクを有することを示す第２の管理クエリへの応答を受信したことに応答して、第１のノードによって、アクティブな通信リンクを有する第２のノードの１つまたは複数の通信ポートをリセットするよう求めるリンク・リセット要求を、第２のノードに関連付けられた１つまたは複数の通信ポートに送信することとを含む。

別の一般的な態様では、分散コンピューティング環境内に管理ノードを実装するためのコンピュータ・プログラム製品は、プログラム命令が具現化されたコンピュータ可読記憶媒体を含み、コンピュータ可読記憶媒体は一過性の信号自体ではなく、プログラム命令は、プロセッサに、プロセッサを利用して、分散コンピューティング環境の第１のノードから分散コンピューティング環境の第２のノードに第１の管理クエリを送信することであって、第１の管理クエリが、第２のノードのオペレーティング・システムに関連付けられる、第１の管理クエリを送信することと、第１のノードにおいて第２のノードから第１の管理クエリへの応答を受信できなかったことに応答して、プロセッサを利用して、第１のノードから第２のノードに関連付けられた１つまたは複数の通信ポートに第２の管理クエリを送信することと、第１のノードにおいて、第２のノードに関連付けられた１つまたは複数の通信ポートから、第２のノードがアクティブな通信リンクを有することを示す第２の管理クエリへの応答を受信したことに応答して、プロセッサを利用して、第１のノードによって、アクティブな通信リンクを有する第２のノードの１つまたは複数の通信ポートをリセットするよう求めるリンク・リセット要求を、第２のノードに関連付けられた１つまたは複数の通信ポートに送信することとを含む方法を実行させるように、プロセッサによって実行可能である。

本開示はクラウド・コンピューティングに関する詳細な説明を含むが、本明細書に記載された教示の実装はクラウド・コンピューティング環境に限定されないことを理解されたい。むしろ、本発明の態様は、現在知られているまたは後に開発される他の任意のタイプのコンピューティング環境と併せて実装することが可能である。

クラウド・コンピューティングは、最小限の管理労力またはサービスのプロバイダとの最小限の対話で迅速にプロビジョニングおよび公開され得る構成可能なコンピューティング・リソース（例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス）の共用プールへの簡便かつオンデマンドのネットワーク・アクセスを可能にするためのサービス提供のモデルである。このクラウド・モデルは、少なくとも５つの特徴、少なくとも３つのサービス・モデル、および少なくとも４つの展開モデルを含み得る。

特徴は次の通りである。

オンデマンド・セルフサービス：クラウド・コンシューマは、サービス・プロバイダとの間で人間の対話を必要とすることなく、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング機能を一方的にプロビジョニングすることができる。

広範なネットワーク・アクセス：機能は、ネットワーク上で利用可能であり、異種のシン・クライアント・プラットフォームまたはシック・クライアント・プラットフォーム（例えば、携帯電話、ラップトップ、およびＰＤＡ）による使用を促進する標準的なメカニズムを介してアクセスされる。

リソースのプール化：プロバイダのコンピューティング・リソースは、マルチテナント・モデルを使用して複数のコンシューマにサービス提供するようにプール化され、要求に応じて、異なる物理リソースおよび仮想リソースが動的に割当ておよび再割当てされる。コンシューマは一般に、提供されたリソースの正確な位置について制御も知識も有していないが、より高い抽象化レベル（例えば、国、州、またはデータセンタ）で位置を特定することが可能であり得るという点で、位置の独立性があるといえる。

迅速な柔軟性：機能を迅速かつ柔軟に、場合によっては自動的にプロビジョニングして、急速にスケール・アウトし、迅速に解放して急速にスケール・インすることができる。コンシューマにとっては、プロビジョニングに利用可能な機能は、しばしば無制限であるように見え、いつでも任意の数量で購入することができる。

サービスの測定：クラウド・システムは、サービスのタイプ（例えば、ストレージ、処理、帯域幅、およびアクティブなユーザ・アカウント）に適した一定の抽象化レベルでの計量機能を活用することによって、リソースの使用を自動的に制御および最適化する。リソースの使用状況を監視、制御、および報告することができ、利用するサービスのプロバイダとコンシューマとの両方に透明性を提供する。

サービス・モデルは次の通りである。

ソフトウェア・アズ・ア・サービス（ＳａａＳ）：クラウド・インフラストラクチャ上で動作しているプロバイダのアプリケーションを使用するために、コンシューマに提供される機能である。アプリケーションは、ウェブ・ブラウザ（例えば、ウェブ・ベースの電子メール）などのシン・クライアント・インターフェースを介して様々なクライアント・デバイスからアクセス可能である。限定されたユーザ固有のアプリケーション構成設定の想定される例外として、コンシューマは、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または個々のアプリケーション機能を含む基礎となるクラウド・インフラストラクチャを管理も制御もしない。

プラットフォーム・アズ・ア・サービス（ＰａａＳ）：プロバイダによってサポートされるプログラミング言語およびツールを使用して作成された、コンシューマが作成または取得したアプリケーションをクラウド・インフラストラクチャ上に展開するために、コンシューマに提供される機能である。コンシューマは、ネットワーク、サーバ、オペレーティング・システム、またはストレージなどの基礎となるクラウド・インフラストラクチャを管理も制御もしないが、展開されたアプリケーション、および場合によってはアプリケーションをホストする環境構成を制御する。

インフラストラクチャ・アズ・ア・サービス（ＩａａＳ）：コンシューマがオペレーティング・システムおよびアプリケーションを含み得る任意のソフトウェアを展開および動作させることができる、処理、ストレージ、ネットワーク、および他の基本的なコンピューティング・リソースをプロビジョニングするために、コンシューマに提供される機能である。コンシューマは、基礎となるクラウド・インフラストラクチャを管理も制御もしないが、オペレーティング・システム、ストレージ、展開されたアプリケーションを制御し、場合によっては選択されたネットワーキング構成要素（例えば、ホスト・ファイアウォール）を限定的に制御する。

展開モデルは次の通りである。

プライベート・クラウド：クラウド・インフラストラクチャは、ある組織のためだけに運用される。このクラウド・インフラストラクチャは、組織または第三者によって管理され得、オンプレミスまたはオフプレミスで存在し得る。

コミュニティ・クラウド：クラウド・インフラストラクチャは複数の組織で共有され、関心事項（例えば、ミッション、セキュリティ要件、ポリシー、およびコンプライアンス上の考慮事項）を共有している特定のコミュニティをサポートする。このクラウド・インフラストラクチャは、組織または第三者によって管理され得、オンプレミスまたはオフプレミスで存在し得る。

パブリック・クラウド：クラウド・インフラストラクチャは、一般公衆または大規模な業界グループにとって利用可能であり、クラウド・サービスを販売する組織によって所有される。

ハイブリッド・クラウド：クラウド・インフラストラクチャは、固有のエンティティのままであるが、データおよびアプリケーションの移植性（例えば、クラウド間の負荷分散のためのクラウド・バースティング）を可能にする標準化された技術または専用の技術によって結び付けられる２つ以上のクラウド（プライベート、コミュニティ、またはパブリック）の合成である。

クラウド・コンピューティング環境は、ステートレス性、低結合性、モジュール性、および意味的相互運用性に焦点を置くことを重視したサービスである。クラウド・コンピューティングの中心は、相互接続されたノードのネットワークを含むインフラストラクチャである。

次に図１を参照すると、例示的なクラウド・コンピューティング環境５０が示されている。図示のように、クラウド・コンピューティング環境５０は、例えば、携帯情報端末（ＰＤＡ）もしくは携帯電話５４Ａ、デスクトップ・コンピュータ５４Ｂ、ラップトップ・コンピュータ５４Ｃ、または自動車コンピュータ・システム５４Ｎあるいはその組合せなどのクラウド・コンシューマによって使用されるローカル・コンピューティング・デバイスが通信することができる１つまたは複数のクラウド・コンピューティング・ノード１０を含む。ノード１０は、互いに通信し得る。これらは、本明細書で上述したようなプライベート・クラウド、コミュニティ・クラウド、パブリック・クラウド、もしくはハイブリッド・クラウド、またはその組合せなどの１つまたは複数のネットワーク内で物理的にまたは仮想的にグループ化され得る（図示せず）。これにより、クラウド・コンピューティング環境５０は、インフラストラクチャ、プラットフォーム、またはソフトウェア、あるいはその組合せを、クラウド・コンシューマがローカル・コンピューティング・デバイス上にリソースを保持する必要のないサービスとして提供することが可能になる。図１に示すコンピューティング・デバイス５４Ａ～５４Ｎのタイプは、例示のみを意図しており、コンピューティング・ノード１０およびクラウド・コンピューティング環境５０は、任意のタイプのネットワークまたはネットワーク・アドレス指定可能な接続あるいはその両方を介して（例えば、ウェブ・ブラウザを使用して）、任意のタイプのコンピュータ化されたデバイスと通信できることを理解されたい。

次に図２を参照すると、クラウド・コンピューティング環境５０（図１）によって提供される１組の機能抽象化層が示されている。図２に示す構成要素、層、および機能が例示のみを意図しており、本発明の態様がそれらに限定されないことを予め理解されたい。図示のように、以下の層および対応する機能が提供される。

ハードウェアおよびソフトウェア層６０は、ハードウェア構成要素およびソフトウェア構成要素を含む。ハードウェア構成要素の例には、メインフレーム６１、ＲＩＳＣ（縮小命令セット・コンピュータ）アーキテクチャ・ベースのサーバ６２、サーバ６３、ブレード・サーバ６４、ストレージ・デバイス６５、ならびにネットワークおよびネットワーキング構成要素６６が含まれる。いくつかの態様では、ソフトウェア構成要素には、ネットワーク・アプリケーション・サーバ・ソフトウェア６７およびデータベース・ソフトウェア６８が含まれる。

仮想化層７０は、抽象化層を提供し、この層から仮想エンティティの以下の例、すなわち、仮想サーバ７１、仮想ストレージ７２、仮想プライベート・ネットワークを含む仮想ネットワーク７３、仮想アプリケーションおよびオペレーティング・システム７４、ならびに仮想クライアント７５が提供され得る。

一例では、管理層８０は、以下に記載の機能を提供し得る。リソース・プロビジョニング８１は、クラウド・コンピューティング環境内でタスクを実行するために利用されるコンピューティング・リソースおよび他のリソースの動的な調達を提供する。計量および価格決定８２は、クラウド・コンピューティング環境内でリソースが利用されるときのコスト追跡、およびこれらのリソースの消費に対する課金または請求を提供する。一例では、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含むことがある。セキュリティは、クラウド・コンシューマおよびタスクのための本人確認、ならびにデータおよび他のリソースのための保護を提供する。ユーザ・ポータル８３は、コンシューマおよびシステム管理者にクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理８４は、要求されるサービス・レベルが満たされるようなクラウド・コンピューティング・リソースの割当ておよび管理を提供する。サービス・レベル・アグリーメント（ＳＬＡ）の計画および履行８５は、ＳＬＡに従って将来要求されることが予想されるクラウド・コンピューティング・リソースの事前配置および調達を提供する。

ワークロード層９０は、クラウド・コンピューティング環境が利用され得る機能の例を提供する。この層から提供され得るワークロードおよび機能の例には、マッピングおよびナビゲーション９１、ソフトウェア開発およびライフサイクル管理９２、仮想教室教育配信９３、データ分析処理９４、トランザクション処理９５、ならびに分散コンピューティング９６が含まれる。

次に図３を参照すると、クラウド・コンピューティング・ノードの一例の概略図が示されている。クラウド・コンピューティング・ノード１０は、好適なクラウド・コンピューティング・ノードの一例に過ぎず、本明細書に記載の本発明の態様の使用範囲または機能に関する制限を示唆することを意図するものではない。それでもなお、クラウド・コンピューティング・ノード１０は、本明細書で上述した機能のいずれかを実装されること、または実行すること、あるいはその両方が可能である。

クラウド・コンピューティング・ノード１０には、他の多くの汎用もしくは専用のコンピューティング・システム環境またはコンピューティング・システム構成で動作可能なコンピュータ・システム／サーバ１２が存在する。コンピュータ・システム／サーバ１２での使用に好適であり得るよく知られているコンピューティング・システム、コンピューティング環境、またはコンピューティング構成、あるいはその組合せの例には、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、ハンドヘルド・デバイスまたはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、セット・トップ・ボックス、プログラム可能な民生用電子機器、ネットワークＰＣ、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、および上記のシステムまたはデバイスのいずれかを含む分散クラウド・コンピューティング環境などが含まれるが、これらに限定されない。

コンピュータ・システム／サーバ１２は、コンピュータ・システムによって実行されるプログラム・モジュールなどのコンピュータ・システム実行可能命令の一般的なコンテキストで説明され得る。一般に、プログラム・モジュールには、特定のタスクを実行する、または特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、構成要素、論理、データ構造などが含まれ得る。コンピュータ・システム／サーバ１２は、通信ネットワークを介してリンクされたリモート処理デバイスによってタスクが実行される分散クラウド・コンピューティング環境において実施され得る。分散クラウド・コンピューティング環境において、プログラム・モジュールは、メモリ・ストレージ・デバイスを含むローカルとリモートとの両方のコンピュータ・システム記憶媒体内に配置され得る。

図３に示すように、クラウド・コンピューティング・ノード１０内のコンピュータ・システム／サーバ１２は、汎用コンピューティング・デバイスの形式で示されている。コンピュータ・システム／サーバ１２の構成要素には、１つもしくは複数のプロセッサまたは処理ユニット１６、システム・メモリ２８、およびシステム・メモリ２８を含む様々なシステム構成要素をプロセッサ１６に結合するバス１８が含まれ得るが、これらに限定されない。

バス１８は、メモリ・バスまたはメモリ・コントローラ、周辺バス、アクセラレーテッド・グラフィックス・ポート、および様々なバス・アーキテクチャのいずれかを使用するプロセッサまたはローカル・バスを含む、いくつかのタイプのバス構造のいずれか１つまたは複数を表す。限定ではなく例として、そのようなアーキテクチャには、業界標準アーキテクチャ（ＩＳＡ）・バス、マイクロ・チャネル・アーキテクチャ（ＭＣＡ）・バス、拡張ＩＳＡ（ＥＩＳＡ）バス、ビデオ・エレクトロニクス・スタンダーズ・アソシエーション（ＶＥＳＡ）・ローカル・バス、および周辺機器相互接続（ＰＣＩ）バスが含まれる。

コンピュータ・システム／サーバ１２は、典型的には、様々なコンピュータ・システム可読媒体を含む。そのような媒体は、コンピュータ・システム／サーバ１２によってアクセス可能な任意の利用可能な媒体とすることができ、揮発性媒体と不揮発性媒体との両方、取り外し可能な媒体と取り外し不可能な媒体との両方を含む。

システム・メモリ２８は、ランダム・アクセス・メモリ（ＲＡＭ）３０またはキャッシュ・メモリ３２あるいはその両方などの揮発性メモリの形式のコンピュータ・システム可読媒体を含むことができる。コンピュータ・システム／サーバ１２は、他の取り外し可能／取り外し不可能な揮発性／不揮発性コンピュータ・システム記憶媒体をさらに含み得る。ほんの一例として、取り外し不可能な不揮発性磁気媒体（図示せず、通常は「ハード・ドライブ」と呼ばれる）に対する読み書き用のストレージ・システム３４を設けることができる。図示していないが、取り外し可能な不揮発性磁気ディスク（例えば、「フロッピー（Ｒ）・ディスク」）に対する読み書き用の磁気ディスク・ドライブ、およびＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭまたは他の光媒体などの取り外し可能な不揮発性光学式ディスクに対する読み書き用の光学式ディスク・ドライブを設けることができる。そのような場合、それぞれは、１つまたは複数のデータ媒体インターフェースによってバス１８に接続され得る。以下でさらに描写および説明するように、メモリ２８は、本発明の態様の機能を実行するように構成されたプログラム・モジュールのセット（例えば、少なくとも１つ）を有する少なくとも１つのプログラム製品を含み得る。

プログラム・モジュール４２のセット（少なくとも１つ）を有するプログラム／ユーティリティ４０は、限定ではなく例として、オペレーティング・システム、１つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データと同様に、メモリ２８内に記憶され得る。オペレーティング・システム、１つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データまたはそれらの何らかの組合せはそれぞれ、ネットワーキング環境の実装を含み得る。プログラム・モジュール４２は、一般に、本明細書に記載されるように、本発明の態様の機能または方法論あるいはその両方を実行する。

コンピュータ・システム／サーバ１２はまた、キーボード、ポインティング・デバイス、ディスプレイ２４などの１つもしくは複数の外部デバイス１４、ユーザがコンピュータ・システム／サーバ１２と対話することを可能にする１つもしくは複数のデバイス、またはコンピュータ・システム／サーバ１２が１つもしくは複数の他のコンピューティング・デバイスと通信することを可能にする任意のデバイス（例えば、ネットワーク・カード、モデムなど）あるいはその組合せと通信し得る。そのような通信は、入力／出力（Ｉ／Ｏ）インターフェース２２を介して行われ得る。さらに、コンピュータ・システム／サーバ１２は、ローカル・エリア・ネットワーク（ＬＡＮ）、一般ワイド・エリア・ネットワーク（ＷＡＮ）、またはパブリック・ネットワーク（例えば、インターネット）あるいはその組合せなどの１つまたは複数のネットワークと、ネットワーク・アダプタ２０を介して通信することができる。図示のように、ネットワーク・アダプタ２０は、バス１８を介してコンピュータ・システム／サーバ１２の他の構成要素と通信する。図示されていないが、コンピュータ・システム／サーバ１２と併せて他のハードウェア構成要素またはソフトウェア構成要素あるいはその両方を使用できることを理解されたい。例には、マイクロコード、デバイス・ドライバ、冗長処理ユニット、外部ディスク・ドライブ・アレイ、ＲＡＩＤシステム、テープ・ドライブ、およびデータ・アーカイブ・ストレージ・システムなどが含まれるが、これらに限定されない。

次に図４を参照すると、一態様によるストレージ・システム４００が示されている。図４に示す要素のいくつかは、様々な態様によりハードウェアまたはソフトウェアあるいはその両方として実装され得ることに留意されたい。ストレージ・システム４００は、少なくとも１つの上位ストレージ階層４０２および少なくとも１つの下位ストレージ階層４０６上の複数の媒体と通信するためのストレージ・システム・マネージャ４１２を含み得る。上位ストレージ階層４０２は、好ましくは、ハード・ディスク・ドライブ（ＨＤＤ）内のハード・ディスク、不揮発性メモリ（ＮＶＭ）、ソリッド・ステート・ドライブ（ＳＳＤ）内のソリッド・ステート・メモリ、フラッシュ・メモリ、ＳＳＤアレイ、フラッシュ・メモリ・アレイなど、または本明細書に記載されているか当技術分野で知られている他のもの、あるいはその組合せなど、１つまたは複数のランダム・アクセス媒体またはダイレクト・アクセス媒体あるいはその両方４０４を含み得る。下位ストレージ階層４０６は、好ましくは、テープ・ドライブ内の磁気テープまたは光媒体あるいはその両方などのシーケンシャル・アクセス媒体、低速アクセスＨＤＤ、低速アクセスＳＳＤなど、または本明細書に記載されているか当技術分野で知られている他のもの、あるいはその組合せを含む、１つまたは複数の低性能のストレージ媒体４０８を含み得る。１つまたは複数の追加のストレージ階層４１６は、システム４００の設計者によって所望されるようにストレージ・メモリ媒体の任意の組合せを含み得る。また、上位ストレージ階層４０２または下位ストレージ階層４０６あるいはその両方のいずれかは、ストレージ・デバイスまたはストレージ媒体あるいはその両方の何らかの組合せを含み得る。

ストレージ・システム・マネージャ４１２は、図４に示すように、ストレージ・エリア・ネットワーク（ＳＡＮ）、または何らかの他の好適なネットワーク・タイプなどのネットワーク４１０を介して、上位ストレージ階層４０２および下位ストレージ階層４０６上のストレージ媒体４０４、４０８と通信し得る。ストレージ・システム・マネージャ４１２はまた、ホスト・インターフェース４１４を介して１つまたは複数のホスト・システム（図示せず）と通信し得、ホスト・インターフェース４１４は、ストレージ・システム・マネージャ４１２の一部である場合もあれば、一部でない場合もある。ストレージ・システム・マネージャ４１２またはストレージ・システム４００の任意の他の構成要素あるいはその両方は、ハードウェアまたはソフトウェアあるいはその両方において実装され得、中央処理ユニット（ＣＰＵ）、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）などの当技術分野で知られているタイプのコマンドを実行するためのプロセッサ（図示せず）を利用し得る。当然ながら、本説明を読めば当業者には明らかであるように、ストレージ・システムの任意の構成が使用され得る。

より多くの態様では、ストレージ・システム４００は、任意の数のデータ・ストレージ階層を含み得、各ストレージ階層内に同じまたは異なるストレージ・メモリ媒体を含み得る。例えば、各データ・ストレージ階層は、ＨＤＤ、ＳＳＤ、シーケンシャル・アクセス媒体（テープ・ドライブ内のテープ、光ディスク・ドライブ内の光ディスクなど）、ダイレクト・アクセス媒体（ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭなど）などの同じタイプのストレージ・メモリ媒体、または媒体ストレージ・タイプの任意の組合せを含み得る。そのような構成の１つでは、上位ストレージ階層４０２は、より高性能のストレージ環境にデータを記憶するためのＳＳＤストレージ媒体の大部分を含み得、下位ストレージ階層４０６および追加のストレージ階層４１６を含む残りのストレージ階層は、より低性能のストレージ環境にデータを記憶するためのＳＳＤ、ＨＤＤ、テープ・ドライブなどの任意の組合せを含み得る。このようにして、より頻繁にアクセスされるデータ、より高い優先度を有するデータ、より迅速にアクセスされる必要があるデータなどは、上位ストレージ階層４０２に記憶され得、一方、これらの属性の１つも有していないデータは、下位ストレージ階層４０６を含む追加のストレージ階層４１６に記憶され得る。当然ながら、当業者は本説明を読めば、本明細書に提示された態様に従って、異なるストレージ方式に実装するためのストレージ媒体タイプの他の多くの組合せを考案することができる。

いくつかの態様によれば、ストレージ・システム（４００など）は、データ・セットを開くよう求める要求を受信するように構成された論理、要求されたデータ・セットが複数の関連部分において階層型データ・ストレージ・システム４００の下位ストレージ階層４０６に記憶されているかどうかを判定するように構成された論理、要求されたデータ・セットの各関連部分を階層型データ・ストレージ・システム４００の上位ストレージ階層４０２に移動するように構成された論理、および関連部分から、階層型データ・ストレージ・システム４００の上位ストレージ階層４０２上で要求されたデータ・セットをアセンブルするように構成された論理を含み得る。

当然ながら、この論理は、様々な態様により、任意のデバイス上またはシステム上あるいはその両方での方法として、またはコンピュータ・プログラム製品として実装され得る。

次に図５を参照すると、一態様による、方法５００のフローチャートが示されている。方法５００は、様々な態様において、とりわけ図１～図４および図７に示された環境のいずれかにおいて本発明に従って実行され得る。当然ながら、本明細書を読めば当業者には理解されるように、方法５００には、図５に具体的に記載された動作よりも多い動作または少ない動作が含まれ得る。

方法５００の各ステップは、動作環境の任意の好適な構成要素によって実行され得る。例えば、様々な態様において、方法５００は、１つもしくは複数のサーバ、コンピュータ、または中に１つもしくは複数のプロセッサを有する何らかの他のデバイスによって、部分的または全体的に実行され得る。方法５００の１つまたは複数のステップを実行するために、ハードウェアまたはソフトウェアあるいはその両方に実装される、好ましくは少なくとも１つのハードウェア構成要素を有する、プロセッサ、例えば、処理回路、チップ、またはモジュール、あるいはその組合せが任意のデバイスにおいて利用され得る。例示的なプロセッサには、中央処理ユニット（ＣＰＵ）、特定用途向け集積回路（ＡＳＩＣ）、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）など、それらの組合せ、または当技術分野で知られている任意の他の好適なコンピューティング・デバイスが含まれるが、これらに限定されない。

図５に示すように、方法５００は、動作５０２で開始することができ、ノードに第１の管理クエリを送信することによって、分散コンピューティング環境の上記ノードのオペレーティング・システムが正しく機能しているかどうかが判定される。一態様では、分散コンピューティング環境は、１つまたは複数の計算アクション（例えば、アプリケーションの実行、データの処理など）を実行するために共に機能する複数のノード（例えば、計算ノードなど）を含み得る。例えば、ノードは、物理的な有形のハードウェア・ストレージおよびコンピューティング・リソースを有するコンピューティング・デバイス（例えば、コンピュータ、サーバなど）を含み得る。

一態様では、上記ノードのネットワーク・アダプタが正しく機能しているかどうかが判定され得る。例えば、第１の管理クエリは、上記ノードのネットワーク・アダプタが到達可能であるかどうか、利用可能であるかどうか、動作可能であるかなども判定し得る。別の態様では、第１の管理クエリは、上記ノードのオペレーティング・システムが到達可能であるかどうか（例えば、ＯＳがそのポートを使用して機能できるかどうか）を確認し得る。

さらに、一態様では、分散コンピューティング環境は、様々なアプリケーション（例えば、株式市場アプリケーション、ストレージ・サービス、データベース・サービスなど）を実装し得る。別の態様では、分散コンピューティング環境内のノードは、すべて同じ物理的な位置内に配置され得、ポイント・ツー・ポイント接続を利用して接続され得る。

さらに、一態様では、分散コンピューティング環境内のノードは、異なる物理的な位置内に配置され得、高速接続（例えば、ファイバ・チャネル接続など）を利用して接続され得る。別の態様では、分散コンピューティング環境内のすべてのノードは、１つまたは複数の高データ・レート接続（例えば、ファスト・イーサネット（Ｒ）接続、インフィニバンド（ＩＢ）接続、ハードウェア・レベル接続など）を介して低レイテンシで互いに通信し得る。さらに別の態様では、分散コンピューティング環境内のノードは、分散コンピューティング環境内で互いにリソース（例えば、処理能力、メモリなど）を共有し得る。

さらに、一態様では、分散コンピューティング環境は、グリッド・アーキテクチャ、ネットワーク・ファブリックなどを含み得る。別の態様では、分散コンピューティング環境の第１のノードは、第１の管理クエリを第２のノードに（例えば、２つのノード間のポイント・ツー・ポイント接続を介して）直接送信し得る。さらに別の態様では、分散コンピューティング環境の第１のノードは、第１の管理クエリを第２のノードに（例えば、２つのノード間に配置されたスイッチなどを介して）間接的に送信し得る。

また、一態様では、第１のノードおよび第２のノードは、分散コンピューティング環境内の隣接ノードであり得る。別の態様では、第１のノードは、第２のノードが第１のノードの隣接ノードであるとの判定に応答して、第１の管理クエリを第２のノードに送信し得る。さらに別の態様では、第１のノードで実行されているデーモン（例えば、監視エージェントなどのアプリケーションまたはコード）は、第１の管理クエリを第１のノードから第２のノードに送信し得る。

さらに、一態様では、第１の管理クエリは、受信側ノードのオペレーティング・システム内で終了するファブリック管理クエリを含み得る。例えば、インフィニバンド・ファブリックでは、第１の管理クエリには、オペレーティング・システムによって終了される属性タイプＳＭＩＮＦＯ（サブネット・マネージャ情報）のＳＭＰ（サブネット管理プロトコル）ＭＡＤ（管理データグラム）クエリが含まれ得る。別の態様では、受信側ノードのオペレーティング・システムは、第１の管理クエリを受信したことに応答して、第１の管理クエリへの応答を送信し得る。例えば、受信側ノードのオペレーティング・システムが正しく動作している場合にのみ、応答が送信され得る。別の例では、受信側ノードのオペレーティング・システムが正しく動作していない、機能していないなどの場合、応答が送信されない場合がある。

さらに、方法５００は動作５０４に進むことができ、上記ノードのオペレーティング・システムが正しく機能していないとの判定に応答して、上記ノードに関連付けられたポートに第２の管理クエリを送信することによって、上記ノードがアクティブな通信リンクを有するかどうかを判定する。一態様では、第１の管理クエリへの応答が上記ノードから所定の期間内に受信されなかったとの判定に応答して、上記ノードのオペレーティング・システムが正しく機能していないと判定され得る。

例えば、第１の管理クエリへの応答が上記ノードから所定の期間内に受信されなかったとの判定に応答して、第１の管理クエリが上記ノードに１回または複数回再送信され得る。別の例では、上記ノードに第１の管理クエリを所定の回数再送信した後に、上記ノードから応答が受信されなかったとの判定に応答して、上記ノードが正しく機能していないと判定され得る。

さらに、一態様では、第１の管理クエリへの応答が上記ノードから所定の期間内に受信されたとの判定に応答して、第２のノードのオペレーティング・システムが正しく機能していると判定され得る。例えば、ノードのオペレーティング・システムが正しく機能しているとの判定に応答して、第１の管理クエリは、所定の監視スケジュールに従って後で上記ノードに再び送信され得る。

また、一態様では、応答は、第１の管理クエリを送信したノードで受信され得る。例えば、分散コンピューティング環境の第１のノードが第１の管理クエリを第２のノードに送信した場合、第２のノードからの応答は、第１のノードで受信され得る。別の態様では、第１の管理クエリへの応答が上記ノードから所定の期間内に受信されなかったとの判定に応答して、第２の管理クエリが、上記ノードに関連付けられたポートに送信され得る。
さらに、第２の管理クエリは、関連するネットワーク・ポートにそのリンクがアクティブであるかどうかを問い合わせることによって、上記ノードがアクティブな通信リンクを有するかどうかを確認し得る。一態様では、アクティブな通信リンクは、上記ノード上のポートと別のノード上の別のポートとの間のアクティブな接続を含み得る。この場合、分散コンピューティング環境の第１のノードは、第２の管理クエリを、第２のノードに接続されたそのローカル・ポートに直接送信し得る。別の態様では、アクティブな通信リンクは、上記ノード上のポートとスイッチ上の別のポートとの間のアクティブな接続を含み得る。この場合、分散コンピューティング環境の第１のノードは、第２の管理クエリをスイッチに送信して、第２のノードのポートの状態を照会し得る。さらに別の態様では、分散コンピューティング環境の第１のノードは、第２の管理クエリを第２のノード内のポートに、（例えば、２つのノード間に配置されたスイッチを介して、または直接リンクを使用して）間接的にまたは直接送信し得る。例えば、第２のノードのオペレーティング・システム（ＯＳ）が正しく機能していないとの判定に応答して、第１のノードは、第２のノードに関連付けられたすべてのポートを調査して、第２のノードのいずれかのポートが存在し、アクティブであるかどうかを判定し得る。

さらに、一態様では、第２のノードに関連付けられたポートが存在し、アクティブである場合、第２のノードは、アクティブな通信リンクを有すると判定され得る。別の態様では、照会されたネットワーク・ポートは、上記ノードによって保持されている任意のアクティブなリンクを（例えば、ノードの１つまたは複数のポートなどを介して）指示することによって、第２の管理クエリに応答し得る。さらに別の態様では、応答は、第２の管理クエリを送信したノードで受信され得る。例えば、分散コンピューティング環境の第１のノードが第２の管理クエリを第２のノードに関連付けられたポートに送信した場合、照会されたネットワーク・ポートからの応答は第１のノードで受信され得る。

さらに、方法５００は、動作５０６に進むことができ、上記ノードがアクティブな通信リンクを有するとの判定に応答して、上記ノードに関連付けられた１つまたは複数のネットワーク・ポートにリセット要求を送信することによって、上記ノードのアクティブな通信リンクがリセットされる。一態様では、上記ノードに関連付けられたポートは、該ノードに接続された１つまたは複数のポートを含み得る。例えば、第２の管理クエリに応答して上記ノード内のアクティブなポートを識別したことに応答して、上記ノードがアクティブな通信リンクを有すると判定され得る。別の態様では、第２の管理クエリに応答して上記ノード内のアクティブなポートを識別できなかったことに応答して、上記ノードにアクティブな通信リンクを有していないと判定され得る。例えば、上記ノードがアクティブな通信リンクを有していないとの判定に応答して、第１の管理クエリは、所定の監視スケジュールに従って後で上記ノードに再び送信され得る。

また、一態様では、上記ノードのオペレーティング・システムが正しく機能しておらず、同時に上記ノードがアクティブな通信リンクを有するとの判定に応答して、上記ノードは、問題があるとして直ちにフラグ付けされ得る。例えば、監視を実行している別のノード内のノードを識別するメタデータを変更することによって（例えば、管理クエリなどを送信することによって）、上記ノードは、問題があるとしてフラグ付けされ得る。

さらに、一態様では、上記ノードのオペレーティング・システムが正しく機能しておらず、同時に上記ノードがアクティブな通信リンクを有するとの判定に応答して、所定のカウントが増分され得、上記ノードに問題があるとしてフラグ付けする前に上記ノードの監視が強化され得る。例えば、第１の管理クエリは、第１の所定の頻度でのスケジュールされた定期的な監視活動の一部として、上記ノードに繰り返し送信され得る。

さらに、一例では、所定のカウントが増分されたとの判定に応答して、スケジュールされた定期的な監視活動の第１の所定の頻度は、第１の所定の頻度よりも大きい第２の所定の頻度に変更され得る。別の例では、第１の管理クエリは、次いで、第２の所定の頻度に従って上記ノードに再送信され得る。このようにして、所定のカウントが最初に増分されると（上記ノードのオペレーティング・システムが正しく機能しておらず、同時に上記ノードがアクティブな通信リンクを有することを示す）、上記ノードに問題があることを迅速に確認するために、フォローアップ管理クエリが、高い頻度で上記ノードに送信され得る。

さらに、一例では、上記ノードのオペレーティング・システムが正しく機能しておらず、同時に上記ノードがアクティブな通信リンクを有すると判定されるたびに、所定のカウントが増分され得る。別の例では、所定のカウントが閾値を超えたとき、次いで上記ノードは、問題があるとしてフラグ付けされ得る。さらに別の例では、上記ノードに問題がないと判定すると（例えば、上記ノードのオペレーティング・システムが正しく機能している、または上記ノードがアクティブな通信リンクを有していないと判定すると）、所定のカウントがリセットされ得る。このようにして、問題のあるノードの偽陽性識別を最小限に抑えることができる。

さらに、一態様では、上記ノードに問題があるとしてフラグ付けしたことに応答して、上記ノードのアクティブな通信リンクをリセットするよう求めるリセット要求が、上記ノードに関連付けられた１つまたは複数のネットワーク・ポートに送信され得る。別の態様では、上記ノード内のすべてのアクティブなリンクをリセットするよう求めるリセット要求が、上記ノード・ポートに送信され得る。いずれの場合も、稼働中のオペレーティング・システムおよび応答するネットワーク・ポートがファブリックに再参加する必要があり、一方または他方のいずれかが機能していないので、上記ノードはアクティブなリンクを有していない結果となり得る。

別の例では、偽陽性の場合、上記ノードのオペレーティング・システムおよびネットワーク・ポートが機能しているため、リンク・リセット・アクションが完了した後に上記ノードがネットワークに再参加することになるので、リセット要求は、分散コンピューティング環境から上記ノードをかなりの時間除去しない場合がある（例えば、リンクのリセットにより、アクティブなノードが生じることになる）。

また、一態様では、リセット要求を送信するエンティティは、リセット要求の日時を（例えば、タイムスタンプなどを使用して）ログに記録し得る。

さらに、一態様では、分散コンピューティング環境内の１つまたは複数のマネージャは、次いで、上記ノード内のアクティブなリンクの欠如を識別し得、分散コンピューティング環境から上記ノードを除去し得る。例えば、１つまたは複数のマネージャは、グリッド・マネージャ、ファブリック・マネージャなどを含み得る。別の例では、上記ノードは、次いで、（例えば、１つまたは複数のマネージャによって）リセットされ得、その後、そのネットワーク・ポートおよびオペレーティング・システムが機能しているときに分散コンピューティング環境に再参加し得る。（上記ノードに関連付けられたネットワーク・ポートからノードを完全に物理的に分離することになるリンク・シャットダウンとは対照的に）リンク・リセット・アクションを使用すると、機能的ノードがファブリックに自動的に再参加できるようになり得るので、偽陽性検出の影響とＩ／Ｏ動作を再開するための手動介入の必要性との両方を最小限に抑えることが可能になる。

さらに、一態様では、分散コンピューティング環境内の各ノードは、監視ノードとして指定され得る。例えば、各監視ノードは、本明細書に記載の方法を使用して、第１の管理クエリおよび第２の管理クエリ（必要な場合）をすべての隣接ノードに送信し得る。別の例では、隣接ノードのいずれかが問題があると識別された場合、監視ノードは、問題のあるノード内のすべてのアクティブなリンクをリセットし得る。さらに別の例では、問題のあるノードは、次いで、１つまたは複数のマネージャによって分散コンピューティング環境から除去され得、リセットされ得る。

このようにして、分散コンピューティング環境内の監視は、環境内のすべてのノードに分散され得る。これにより、環境内の１つまたは複数のノード故障の影響を軽減することができる。

さらに、一態様では、分散コンピューティング環境内の監視ノードは、所定の期間内に所定の数のリセット要求を別のノードに送信することのみを許可され得る。別の態様では、監視ノードによって送信されたリセット要求の数が所定の閾値に達すると、監視ノードは、引き続き監視アクションを実行し得るが、（例えば、所定の時間が経過するまでなど）追加のリセット要求を送信することができない場合がある。このようにして、障害のある監視ノードが、機能している別のノードを不当なリセット要求によって中断するのを防止することができる。

また、一態様では、第１の管理クエリと第２の管理クエリはどちらも、優先度の高い帯域内管理クエリであり得るか、または高いＳＬ（サービス・レベル）もしくは高いＶＬ（仮想レーン）レベルを使用し得る。このようにして、環境内のノードの分散監視を優先することによって、分散コンピューティング環境内のデータ通信の問題を最小限に抑えることができる。

さらに別の態様では、第１の管理クエリおよび第２の管理クエリは、（送信側ポートと受信側ポートとの間のルーティング・ホップがパケットに記録される）直接ルーティングされたパケット・フォーマットを使用し得る。このようにして、トラフィックをルーティングする能力に影響を与える分散コンピューティング環境内のデータ通信の問題を最小限に抑えることができる。

上記の分散監視の結果として、障害のあるオペレーティング・システム機能または障害のあるネットワーク・アダプタおよびアクティブなリンクを有する問題のあるノードは、隔離され得る（例えば、識別され、分散コンピューティング環境から除去され得る）。これにより、分散コンピューティング環境内のこれらの問題のあるノードによって引き起こされる通信バックログが解消される可能性があり、したがって、分散コンピューティング環境内のすべてのノードの機能が向上する可能性がある。

次に図６を参照すると、一態様による、分散コンピューティング環境内に管理ノードを実装するための方法６００のフローチャートが示されている。方法６００は、様々な態様において、とりわけ図１～図４および図７に示された環境のいずれかにおいて本発明に従って実行され得る。当然ながら、本明細書を読めば当業者には理解されるように、方法６００には、図６に具体的に記載された動作よりも多い動作または少ない動作が含まれ得る。

方法６００の各ステップは、動作環境の任意の好適な構成要素によって実行され得る。例えば、様々な態様において、方法６００は、１つもしくは複数のサーバ、コンピュータ、または中に１つもしくは複数のプロセッサを有する何らかの他のデバイスによって、部分的または全体的に実行され得る。方法６００の１つまたは複数のステップを実行するために、ハードウェアまたはソフトウェアあるいはその両方に実装される、好ましくは少なくとも１つのハードウェア構成要素を有する、プロセッサ、例えば、処理回路、チップ、またはモジュール、あるいはその組合せが任意のデバイスにおいて利用され得る。例示的なプロセッサには、中央処理ユニット（ＣＰＵ）、特定用途向け集積回路（ＡＳＩＣ）、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）など、それらの組合せ、または当技術分野で知られている任意の他の好適なコンピューティング・デバイスが含まれるが、これらに限定されない。

図６に示すように、方法６００は、動作６０２で開始することができ、第１の管理クエリは、分散コンピューティング環境の第１のノードから分散コンピューティング環境の第２のノードに送信され、第１の管理クエリは、第２のノードのオペレーティング・システムに関連付けられる。さらに、方法６００は、動作６０４に進むことができ、第１のノードにおいて第２のノードから第１の管理クエリへの応答を受信できなかったことに応答して、第２の管理クエリが、第１のノードから、第２のノードに関連付けられた１つまたは複数の通信ポートに送信される。

さらに、方法６００は、動作６０６に進むことができ、第１のノードにおいて、第２のノードに関連付けられた１つまたは複数の通信ポートから、第２のノードがアクティブな通信リンクを有することを示す第２の管理クエリへの応答を受信したことに応答して、第１のノードは、アクティブな通信リンクを有する第２のノードの１つまたは複数の通信ポートをリセットするよう求めるリンク・リセット要求を、第２のノードに関連付けられた１つまたは複数の通信ポートに送信する。

一態様では、分散コンピューティング環境内の第１のノードおよび第２のノードとともに複数の追加のノードが含まれ得る。別の態様では、分散コンピューティング環境内の各ノードは、第１の管理クエリおよび第２の管理クエリを利用して隣接ノードを監視し得る。

図７は、例示的な一態様に示されるような、例示的な分散コンピューティング・ネットワーク７００を示す。図示のように、分散コンピューティング・ネットワーク７００は、複数のノード７０２Ａ～Ｅを含む。一態様では、ネットワーク７００内に、複数のノード７０２Ａ～Ｅよりも多いまたは少ない数のノードが含まれ得る。

さらに、一態様では、複数のノード７０２Ａ～Ｅは、ネットワーク接続７０４Ａ～Ｇ、７０８Ａ～Ｂを介して相互接続されている。一態様では、ネットワーク接続７０４Ａ～Ｇ、７０８Ａ～Ｂは、高速で低レイテンシのデータ接続（例えば、ファスト・イーサネット（Ｒ）接続、インフィニバンド接続、ハードウェア・レベル接続など）を含み得る。

さらに、複数の通信スイッチ７０６Ａ～Ｂは、ノード７０２Ａおよび７０２Ｂの第１の部分と第２のノード７０２Ｃとの間の通信を可能にする。例えば、通信スイッチ７０６Ａ～Ｂは、ノード７０２Ａおよび７０２Ｂの第１の部分と第２のノード７０２Ｃとの間でデータを中継し得る。また、通信スイッチ７０６Ａ～Ｂは、クロス・スイッチ・ネットワーク接続７０８Ａ～Ｂを介して通信して、ノード７０２Ａおよび７０２Ｂの第１の部分と第２のノード７０２Ｃとの間の通信／監視を容易にする。

さらに、一態様では、複数のノード７０２Ａ～Ｅのそれぞれは、分散コンピューティング・ネットワーク７００内の監視ノードとして機能し得、その隣接ノードと通信して、そのようなノードのステータスを決定し得る。例えば、監視ノード７０２Ｃは、その第１の隣接ノード７０２Ｄと直接通信して、その隣接ノード７０２Ｄのステータスを決定し得る。さらに、監視ノード７０２Ｃは、通信スイッチ７０６Ａ～Ｂを介して追加の隣接ノード７０２Ａおよび７０２Ｂと通信して、それらのステータスを決定し得る。

例えば、監視ノード７０２Ｃは、第１の管理クエリをその隣接ノード７０２Ｄに直接送信し得、第１の管理クエリは、受信側ノードのオペレーティング・システムに関連付けられる。隣接ノード７０２Ｄからの第１の管理クエリへの応答の受信に失敗した後、監視ノード７０２Ｃは、隣接ノード７０２Ｄに関連付けられたポートに第２の管理クエリを送信し得る。

また、監視ノード７０２Ｃにおいて、隣接ノード７０２Ｄがアクティブな通信リンクを有することを示す応答を、隣接ノード７０２Ｄに関連付けられたポートから受信したことに応答して、監視ノード７０２Ｃは、アクティブな通信リンクを有する隣接ノード７０２Ｄのポートをリセットするよう求めるリンク・リセット要求を、第２のノードに関連付けられたポートに送信し得る。監視ノード７０２Ｃからリンク・リセット要求を受信したことに応答して、隣接ノード７０２Ｄに関連付けられたポートは、隣接ノード７０２Ｄ内のすべてのアクティブなリンクをリセットし得る。次いで、分散コンピューティング・ネットワーク７００のグリッド・マネージャまたはファブリック・マネージャは、分散コンピューティング・ネットワーク７００から隣接ノード７０２Ｄを除去し得る。

監視ノード７０２Ａはまた、通信スイッチ７０６Ａ～Ｂを介して、第１の管理クエリをその追加の隣接ノード７０２Ｂおよび７０２Ｃに間接的に送信し得る。通信スイッチ７０６Ａ～Ｂのいずれかを介してその追加の隣接ノード７０２Ｂおよび７０２Ｃによって第１の管理クエリへの応答を受信したことに応答して、監視ノード７０２Ａは、その監視スケジュールが別の第１の管理クエリがその追加の隣接ノード７０２Ｂおよび７０２Ｃに再び送信される予定であることを示すまで、さらなるアクションをとらない場合がある。例えば、監視ノード７０２Ａは、ネットワーク接続７０４Ａ～Ｂを介した第１の管理クエリを使用して、隣接ノード７０２Ｂに照会し得る。第１の管理クエリへの応答を受信すると、監視スケジュールが監視ノード７０２Ａの監視を再開するまで、監視ノード７０２Ａによってさらなるアクションをとらない場合がある。

第１の管理クエリへの応答を受信できなかったことを識別すると、ネットワークリンク７０４Ｂがアクティブであるかどうかを判定するために、ネットワーク接続７０４Ａを使用して第２の管理クエリが送信され得る。さらに、監視ノード７０２Ａによって、ネットワーク接続７０４Ｆ～Ｇを使用して第１の管理クエリが繰り返され、応答が受信されない場合、リンク７０４Ｇがアクティブであるかどうかを判定するために、ネットワーク接続７０４Ｆを介して第２の管理クエリが繰り返される。（ネットワーク接続７０４Ａ～Ｂおよび７０４Ｆ～Ｇを介した）第１の管理クエリを使用した両方の調査が失敗し、第２の管理クエリを使用して、ネットワーク接続（７０４Ｂまたは７０４Ｇ）のうちの少なくとも１つがアクティブであることが判明した場合、ノード７０２Ｂは問題があるとしてフラグ付けされることになる。ノード７０２Ｂが、問題があるとして検出されると、ネットワーク接続７０４Ａおよび７０４Ｆを使用して、ネットワーク接続７０４Ｂおよび７０４Ｇをリセットするよう求めるリセット追求を送信することができる。

このようにして、複数のノード７０２Ａ～Ｅのそれぞれは、分散コンピューティング・ネットワーク７００内の監視ノードとして機能し得、分散コンピューティング・ネットワーク７００内の任意の問題のあるノードの除去をトリガし得、それによって、分散コンピューティング・ネットワーク７００内の残りのノードの性能を向上させる。

次に図８を参照すると、一態様による、分散コンピューティング環境内でノード監視を実行するための方法８００のフローチャートが示されている。方法８００は、様々な態様において、とりわけ図１～図４および図７に示された環境のいずれかにおいて本発明に従って実行され得る。当然ながら、本明細書を読めば当業者には理解されるように、方法８００には、図８に具体的に記載された動作よりも多い動作または少ない動作が含まれ得る。

方法８００の各ステップは、動作環境の任意の好適な構成要素によって実行され得る。例えば、様々な態様において、方法８００は、１つもしくは複数のサーバ、コンピュータ、または中に１つもしくは複数のプロセッサを有する何らかの他のデバイスによって、部分的または全体的に実行され得る。方法８００の１つまたは複数のステップを実行するために、ハードウェアまたはソフトウェアあるいはその両方に実装される、好ましくは少なくとも１つのハードウェア構成要素を有する、プロセッサ、例えば、処理回路、チップ、またはモジュール、あるいはその組合せが任意のデバイスにおいて利用され得る。例示的なプロセッサには、中央処理ユニット（ＣＰＵ）、特定用途向け集積回路（ＡＳＩＣ）、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）など、それらの組合せ、または当技術分野で知られている任意の他の好適なコンピューティング・デバイスが含まれるが、これらに限定されない。

図８に示すように、方法８００は、動作８０２で開始することができ、次のパスを介してリモート・ノードが調査される。一態様では、リモート・ノードは、監視ノードの隣接ノードを含み得る。さらに、方法８００は、決定８０４に進むことができ、調査ステータスが確認される。決定８０４において、調査への応答が監視モジュールによって受信されたと判定された場合、方法８００は動作８０６に進むことができ、次のサイクルが準備される。例えば、調査すべき次のパスが更新され得、失敗カウントがゼロに設定され得、現在の隣接ノードについてオペレーティング・システム（ＯＳ）調査ステータスが保存され得、次の調査サイクルに通常の遅延が使用され得る。

さらに、決定８０４において、調査への応答が監視モジュールによって所定の期間内に受信されなかったと判定された場合、方法８００は決定８０８に進むことができ、隣接ノードについてリンク・ステータスが確認される。決定８０８において、調査エラーが存在すると判定された場合、方法８００は動作８０６に進むことができ、次のサイクルが準備される。関連付けられたリモート・ポート（例えば、スイッチのポート）のステータスの調査に失敗することは、この方法（この方法はエンドポイント・ノードの故障を処理する）では処理されない別の一過性の（または非一過性の）問題がネットワーク・ファブリック内に存在することを示し得る。したがって、通常のタイムアウト後に監視が再開されることになる。

さらに、決定８０８において、リンク・ステータスがアップまたはダウンであると判定された場合、方法８００は決定８１０に進むことができ、追加のパス（例えば、監視ノードの隣接ノードへのパスなど）が存在するかどうかが判定される。決定８１０において、追加のパスが存在すると判定された場合、方法８００は動作８１２に進むことができ、次のパスが更新され、次いで、方法８００は動作８０２に進むことができ、次のパスを介してリモート・ノードが調査される。

さらに、決定８１０において、追加のパスが存在しないと判定された場合、方法８００は決定８１４に進むことができ、アクティブなリンクがリモート・ノード内に見られるかどうかが判定される。決定８１４において、アクティブなリンクが見られないと判定された場合、方法８００は動作８０６に進むことができ、次のサイクルが準備される。決定８１４において、アクティブなリンクが見られると判定された場合、方法８００は、動作８１６に進むことができ、リモート・ノードの失敗カウントが増分される。

また、方法８００は、決定８１８に進むことができ、リモート・ノードの失敗カウントが所定の閾値に達したかどうかが判定される。決定８１８において、失敗カウントが閾値に達したと判定された場合、方法８００は動作８２０に進むことができ、リモート・ノード内のリンクがリセットされ、次いで、方法８００は動作８０６に進むことができ、次のサイクルが準備される。一態様では、リンク・リセットを実行する監視ノードは、リンク・リセットを実行する能力が監視ノードに対して無効になる前に、限られた数のリンク・リセットを実行し得る。

さらに、決定８１８において、失敗カウントが閾値に達していないと判定された場合、方法８００は動作８２２に進むことができ、次のサイクルについての準備が行われ、次いで、方法８００は動作８０２に進むことができ、次のパスを介してリモート・ノードが調査される。例えば、次のサイクルを準備することは、次のパスを更新すること、ＯＳ調査ステータスを保存すること、および次のサイクルに対してより小さい遅延を使用することを含み得る。

このようにして、ファブリック内のノードは、ファブリック内の隣接ノードを監視し得、ファブリック内の問題のあるノードの除去をトリガし得、それによって、ファブリック内の残りのノードの性能を向上させる。

相互接続ファブリック内の非応答ポートを隔離する

一態様では、ネットワーク上に存在すると見られる誤動作しているノードを検出するためのメカニズムが提供される。最新のエンタープライズ・アプリケーションはしばしば、高速相互接続ファブリックで相互接続された複数のグリッド・ノードがアプリケーション・サービスを提供するグリッド・アーキテクチャを展開する。ファスト・イーサネット（Ｒ）、インフィニバンド、またはファイバ・チャネルは、例示的な相互接続ソリューションである。エンタープライズ・アプリケーションの複雑な要件により、様々なプロトコルが相互接続ファブリック上に展開される。

イーサネット（Ｒ）またはＴＣＰ／ＩＰのような従来のプロトコルは、性能、負荷分散、およびデータ配信の保証に関するアプリケーション要件を満たすのに十分でない場合がある。アプリケーションは、ハードウェア・レベル接続およびＲＤＭＡ（リモート・ダイレクト・メモリ・アクセス）転送を可能にする相互接続プロトコルに切り替える。インフィニバンドおよびＤＣＢイーサネット（Ｒ）（データ・センタ・ブリッジング）・ファブリックにおいては、ＨＣＡ（ホスト・チャネル・アダプタ）レベルで実装され、ＲＤＭＡプロトコルを使用する、信頼性の高いピア・ツー・ピア接続が可能である。

様々なＤＣＢ技術は、ＣＥＥ（コンバージド・エンハンスド・イーサネット（Ｒ））またはロスレス・イーサネット（Ｒ）という用語でも知られている。グリッド・アーキテクチャ・ソリューションは、拡張性と高可用性との両方をサポートする。ファブリックにノードを追加することによってグリッドを拡大することができ、ノードが故障した場合、グリッド・クラスタ全体が、グリッド内の残りのノードへの負荷を入れ替えることができる。故障したノードの問題が解決されると、以前に故障したノードを含めるように、グリッドを再び拡大することができる。

作業分散を管理し、グリッドのヘルス・ステータスを監視するために、管理ソリューションが展開される。管理ソリューションは、典型的には、データ・ファブリックまたは低速の専用サイド・ネットワーク・チャネルのいずれかにわたる通信用にＴＣＰプロトコルを展開する。典型的には、すべてのノードが、グリッドのマネージャと通信し、キープ・アライブ・メッセージまたはヘルス・メッセージを交換する。ノードが故障を報告した場合、または定義された期間中に管理ネットワーク上にノードが表示されなかった場合、グリッドのマネージャは、ノードを故障したノードとして宣言することができる。グリッド内のすべてのノードが互いに通信する場合、多数決を使用するＴＣＰプロトコルを用いてマネージャを選出することもできる。

ファブリック内の新しいノードを発見および構成し、ネットワークからのそれらの消失を適時に処理するために、ファブリック管理ソリューション（例えば、サブネット・マネージャ）をグリッド・クラスタ上に展開することができる。ファブリック・マネージャは、ファブリック、ノード、およびポートの定期的な発見を実行することができ、新しいポートの追加および既存のポートの消失を処理することができる。

最新の高速相互接続ソリューションは、１ポートあたり１００～２００ギガビットの速度をサポートする。このような速度では、物理リンクの問題が発生せず、エラーに遭遇することなく正しい速度をネゴシエートすることが可能なポートは、同じ速度でデータを消費できない場合、ネットワーク・ファブリックおよびアプリケーション・フローにおいて急速に輻輳を引き起こすことになる。例えば、ＨＣＡは、ＰＣＩ転送に関するハードウェアの問題を有するため、またはそのＤＭＡハードウェアが誤動作しているため、ホスト・メモリへのデータの転送に関する問題を有する可能性がある。

ノード全体が誤動作し、システム・ファームウェアがハードウェア障害の処理中にオペレーティング・システムの実行をプリエンプトした場合にも、同様の問題が発生する可能性がある。障害ハンドラの実行にかなりの時間がかかる場合、ネットワーク・アダプタのキューは急速に満杯になり、新しいパケットを受信することが不可能になる。一方、ローカルまたはリモートのＨＣＡの誤動作により、アプリケーションが必要とされる整合性および速度でデータを送受信できない場合、アプリケーションは、トランザクションを完了できない可能性がある。

具体的には、ストレージ・グリッド・ソリューションでは、（例えば、新しいノードの追加、既存のノードの削除、ボリュームの作成または削除、スナップショットの取得などにより、ストレージの分散が変化した場合）グリッド・クラスタ全体で特定のトランザクションを同期する必要がある。これが発生すると、グリッド内のすべてのノード間で分散が同期されるまで、クライアントからの新しいストレージ・トランザクションを続行することができる。このようなトランザクション中にノードが滞留した場合、マネージャは、クライアントＩＯを続行できるようにするために、滞留したノードを迅速に識別して故障と判定する必要があり得る。

アクティブ状態のリンクを有するクラッシュしたノードが存在するためにファブリック全体が誤動作すると、状況は極めて重大になる。相互接続ファブリック内に、アクティブなリンクを有するクラッシュしたノードが存在することは、十分にテストされた状況ではない。多くの実際の故障シナリオでは、オペレーティング・システムを実行できない場合、相互接続リンクがすぐにダウンする可能性がある。多くの相互接続ファブリックは、ハードウェア・クレジット・フロー制御メカニズムを使用し、キューの先頭のパケットおよび送信キュー内のすべてのパケットについてタイムアウトを有する、信頼性の高いネットワークである。転送規格は、ネットワークに存在するがパケットを送受信することができない構成要素に対処する。

規格は、誤動作している構成要素（例えば、データを受信できないためにクレジットを解放していない構成要素）の存在がファブリック全体を長期間ブロックして崩壊に至らないように定義されている。例えば、インフィニバンド・ネットワークでは、パケットは、スイッチ・ポートの送信キューに２～２．５秒よりも長く滞留することはない。したがって、クラッシュしたエンドポイントによってすべてのスイッチ・ポート・クレジットが消費された場合、スイッチ・ポートはその期間内に送信クレジットを再び提供することが可能になる。

しかしながら、ソフトウェアのある部分がクリティカル・セクション内にあり、クリティカル・セクションを離れるために、エラーが発生するか成功するまで故障した接続先と何度も通信する必要がある場合、故障した構成要素によってすべての送信ポート・クレジットが繰り返し消費されるので、（クラスタ・グリッド論理のような）ソフトウェアの他の部分が通信できなくなる可能性がある。したがって、クリティカル・セクションに関連付けられた通信は、故障を検出してその故障をグリッド全体に通信し得る他のトラフィックをブロックするので、ソフトウェアは、（クリティカル・セクションにあるため）Ｉ／Ｏサービスを提供することも、クリティカル・セクションを中止することもできない。

さらに、実際のテストは、信頼できるネットワーク保証および転送規格で言及されていることがあるにもかかわらず、既存のスイッチおよびノードでは、リンクは存在するがパケットを受信できないファブリック内の誤動作しているポートにうまく対処できないことを示している。したがって、ファブリック内の不正な動作をしている１つのポートが、グリッド・クラスタ全体を停止させる可能性がある。したがって、アプリケーションが続行できるようにするには、ファブリック内の非応答ポートを故障と判定する（検出して隔離する）ための方法が必要である。

一態様では、相互接続ファブリック内の非応答ポートを隔離できる分散ファブリック管理ソリューションを実装するための方法が提供される。ファブリック内の各ノードは、冗長性の監視が実現されるように、１つまたは複数の隣接ポートを監視する役割を果たす。監視は、配信優先度が高くオペレーティング・システム内で終了するファブリック管理クエリを使用して行われる。

リンクの存在の監視もまた、スイッチまたはアダプタ・ファームウェアで終了し得る、スイッチ（またはスイッチがない場合は接続されたエンドポイント）への優先度の高いクエリ・ファブリック管理クエリを使用して行われる。ノード・ポートがアクティブなリンクを有するが、アクティブなリンクがいずれも、オペレーティング・システムで終了した管理クエリに応答しない場合、ノード内の問題が検出される。

問題が確実に検出されると、監視エージェントは、リンクをリセットするようスイッチに要求する（または、ポイント・ツー・ポイント・スイッチレス・ファブリック内のローカル・リンクのリセットを求める）。ファブリック管理ソリューションは、発見されたリンクを有するノードがＯＳレベルで応答した場合にのみ、データモードでのリンクのアクティブ化が可能であるようなものである。したがって、問題のあるリンクは、オペレーティング・システムが回復するまで、データ転送に対して非アクティブのままとなる。

分散監視ソリューションが提供される。各ノードは２つ以上の隣接ノードを監視し、冗長性の監視が実現される。このソリューションは、オペレーティング・システムによって終了されるＳＭＩＮＦＯ管理発見属性を実装する。管理クエリの優先度の高い送信は、相互接続ファブリックによって保証される。各監視パーティは、次のように、その隣接の定期的な発見を行う。

１．ＯＳで終了する管理属性を用いて、隣接ポートが照会される。少なくとも１つの隣接ポートが返答するとすぐに、調査は成功し、完了する。

２．いずれのポートも返答しない場合、監視ノードは、物理リンクの存在について隣接のすべてのポートを調査する。スイッチド・ネットワークに対するクエリの場合はスイッチが使用され、ポイント・ツー・ポイント・リンクの場合はローカル・ポート・クエリが使用される。リンクを有するポートが少なくとも１つ見つかると、クエリは中止される。

３．ａ）どのポートもＳＭＩＮＦＯクエリに返答せず、ノードの少なくとも１つのポートが物理リンクを有する場合、ノードは問題のあるノードとしてフラグ付けされる。

通常の動作条件下では、より長い監視間隔が使用される。問題が検出されると、監視間隔は短くなる。問題検出のタイムスタンプが記録され、イベントとともに報告される。問題の繰り返しの検出（構成可能な所定の数が使用される）が行われた後、回復アクションが実行される。

回復アクションは、スイッチド・ファブリック上のスイッチに対するコマンド、およびポイント・ツー・ポイント・スイッチレス・ファブリック内のローカル・ポートに対するコマンドを使用して、ノード・リンクをリセットすることになる。回復アクションのタイムスタンプが記録され、イベントを介して報告される。任意の監視ステップの成功が、繰り返される故障検出カウンタをゼロにリセットすることになる。ゼロ以外の値からゼロ値への切り替えのタイム・スタンプも記録され、イベントを介して報告される。

監視は、ノード単位で有効または無効にされることが可能であり、ビュレット（bullet）・メカニズムを有効にすることもできる。有効にすると、限られた数の回復アクションのビュレットが各モニタに与えられる。アクションのビュレットが消費されると、これらのビュレットは、定義された期間が経過した後にのみ補充される。これにより、モニタは、定義されたタイム・スライス中に定義された回数以内だけ監視対象ノードのリンクをリセットすることが可能になる。ビュレットが消費されると、監視は一時停止されず、リンク・リセット・アクションをとることなくすべての遷移イベントの時間が記録および報告される。

このソリューションは、（分散されているため）ノード故障に耐性があり、（優先度の高いファブリック管理トラフィックを使用しているため）データ通信の崩壊にも耐性がある。このソリューションはまた、（複数の調査を使用しているため）通信損失の偽陽性検出を回避し、（リンク調査とオペレーティング・システム調査との両方を使用しているため）通信の存在の偽陰性検出を回避する。

同時に、このソリューションは、非応答ポートを検出し、アプリケーション故障とファブリック崩壊との両方を回避するのに十分な短時間で回復アクションを実行することが可能である。偽陽性検出が発生した場合でも、重大な影響はないと予想される。すなわち、リンクが再ネゴシエートされると、リセットされたリンクを有するノードは、（ファブリック管理コマンドに応答するか、またはファブリックへの参加を開始することができるため）ファブリックに参加し、Ｉ／Ｏ動作を再開することになる。

クラッシュしたモジュールに対するインフィニバンド・ポートの隔離

一態様では、Ａ９０００グリッド・ストレージ・アーキテクチャにおいて、モジュールはストレージ・グリッドのビルティング・ブロックである。モジュールは、ＣＰＵ、メモリ、周辺デバイスを有し、ＸＩＶ（ＸＩＶはＩＢＭＣｏｒｐｏｒａｔｉｏｎの商標です。）ストレージ・ソフトウェアを実行するサーバである。ＸＩＶストレージ・ソフトウェアは、Ｌｉｎｕｘ（ＬｉｎｕｘはＬｉｎｕｓＴｏｒｖａｌｄｓの商標です。）オペレーティング・システムおよびＸＩＶストレージ・サービスに基づいており、ユーザ空間およびカーネル空間において実行される。

別の態様では、クラッシュしたノードは、ハードウェアまたはソフトウェアの誤動作に起因してＸＩＶＯＳおよびストレージ・サービスを実行することが不可能なモジュールを含む。別の態様では、Ａ９０００グリッド・ストレージは、インフィニバンド相互接続を使用して、スイッチド・トポロジまたはスイッチレス（ポイント・ツー・ポイント）・トポロジ内のモジュール間で通信する。

さらに別の態様では、ポート隔離は、ストレージ・グリッドの残りの部分とのデータ通信が不可能である方法で、（例えば、クラッシュしたモジュール上の）ＩＢポートをシャット・ダウンすることを含み得る。

さらに別の態様では、ＩＢファブリックは、エンドポイント（モジュール上のＩＢポート）がデータを交換することを可能にする、スイッチ、エンドポイント、およびリンクの高速インフィニバンド・ネットワークを含み得る。例えば、Ａ９０００システムは、モジュール間で５６ギガビットのＩＢリンクを使用し、ラック構成ではモジュールごとに２つのＩＢポートを有し、ＰＯＤ構成ではモジュールごとに４つのＩＢポートを有する。別の例では、ラックＡ９０００システムは、モジュールとバックエンド・ストレージを接続する２つのインフィニバンド・スイッチを有し、ＰＯＤＡ９０００システムは、モジュールとバックエンド・ストレージとの間のポイント・ツー・ポイント接続を使用する。

さらに、一態様では、統合管理コントローラ（ＩＭＭ）は、待機電力でも動作し続けるＡ９０００モジュール内の専用ボード（ＣＰＵ＋メモリ＋ＩＯデバイス）を含み得る。ＩＭＭは、独自のオペレーティング・システム、ならびにリモート管理およびハードウェア診断を可能にする一連のソフトウェア・サービスを実行し得る。

さらに、一態様では、ＩＭＭと通信しているＵＦＩＢＩＯＳを想定すると、サーバＣＰＵ上で実行されているＵＦＩシステム・ファームウェアが、サーバの起動を担当する。ファームウェアは、ハードウェア・イベントが発生したとき、またはタイマがトリガされたときにＵＦＩコードの実行をトリガする、一連の例外ハンドラおよびタイマをインストールする。ＵＦＩファームウェアは、そのハンドラが実行されているとき、オペレーティング・システムの実行をプリエンプトする。次いで、ＵＦＩファームウェアは、ＩＭＭと通信し、エラー収集タスク、およびサーバをリセットするためのタスク、サーバをシャット・ダウンするためのタスク、またはサーバの電源を再投入するためのタスクを実行するようＩＭＭに要求することができる。（メモリ・エラーまたはＰＣＩＥエラーのような）ハードウェア・エラーが発生すると、ＵＦＩは、データを収集し、サーバの電源を切るか再投入するかの決定を試みる場合がある。故障シナリオによっては、これらのタスクはかなりの時間を要する場合があり、その結果、アクティブ状態のＩＢリンクを有するモジュールが動作しなくなる。

さらに、インフィニバンド環境では、管理データグラム（ＭＡＤ）を使用して、ファブリックを発見および構成し、リモートのハードウェア・コマンドまたはソフトウェア・コマンドを実行する。各ＭＡＤは、クラス、メソッド、属性、および属性修飾子によって定義されたフレーミングを有する。クラスは、特定のアプリケーションで使用するためのコマンドの範囲を定義する。サブネット・マネージャ用のＳＭ（サブネット・マネージャ）クラスおよびＳＡ（サブネット管理）クラス、監視用の性能クラス、接続管理用のＣＭクラスなどである。メソッドはアクセスのタイプ（例えば、ＧｅｔまたはＳｅｔ）を定義する。属性はクラス内のコマンドを定義し、修飾子はコマンド・パラメータを定義する。

また、一態様では、サブネット・マネージャは、インフィニバンド・ファブリック内のエンドポイントのうちの１つで実行されているソフトウェア・エンティティを含む。サブネット・マネージャは、（例えば、リンクの管理および構成、ユニキャストおよびマルチキャストのルーティング・テーブルの切り替えなどを実行することによる）インフィニバンド・ファブリックの発見および構成、ならびにサブネット管理サービス（例えば、マルチキャスト・グループ管理およびファブリック・クエリ）の提供を担当する。サブネット・マネージャは、ＳＭＭＡＤデータグラムを使用して発見および構成を実装し、ＳＡＭＡＤデータグラムを使用してＳＡサービスを実装する。

別の態様では、アクティブなＩＢポートは、現在のＩＢリンクを有し、高速で信頼できるプロトコルを使用するデータ転送用に構成された、インフィニバンド・ポートを含む。これらは、アクティブなＩＢリンクを有するポートとも呼ばれる。

表１は、例示的な一態様による、例示的なクラッシュ検出ＡＰＩを含む。

end_point_crash_detect_loop()ＡＰＩの呼び出しは、単一のモジュール（サーバ）を監視し、コンテキスト引数は、監視パラメータおよびアドレス指定情報を定義する。

コンテキスト・フィールドの意味は次の通りである。
・params －監視パラメータ。構造および監視ＡＰＩは、監視パラメータを、監視コンテキストとは異なるスレッド・コンテキストから変更できるように定義されている。フィールドの意味は次の通りである。
・probe_interval_ms －最初の、または良好なping後の最初の（ミリ秒単位での）監視間隔
・failed_probe_interval_ms － pingの失敗が検出された後のミリ秒単位の監視間隔
・link_probe_to_ms －リンク調査コマンドのＭＡＤタイムアウト
・os_probe_to_ms － OSpingコマンドのＭＡＤタイムアウト
・link_reset_to_ms －リンク・リセット・コマンドのＭＡＤタイムアウト
・allowed_fail_cnt －モジュール・リンクがリセットされる前にOS pingコマンドが連続して失敗した回数（pingが失敗したが、リンクのうちの少なくとも１つがＡＣＴＩＶＥとして検出された場合にのみ、ヒットとしてカウントされる）
・allowed_bullets － bullet_lease_sec期間ごとに許可されるリセットの回数
・bullet_lease_sec －この時間中に許可されるリセットの回数（allowed_bullets）を定義する時間スパン。
・port_path －監視対象モジュールへのパス・パラメータ。ラック・システムは２つのパスを有し（接続先の両方のポートを調査することができる）、ＰＯＤシステムは単一のパスを有する（接続先の単一のポートを監視することができる）。各パス定義におけるフィールドの意味は次の通りである。
・dr_path_port －接続先ポートへのダイレクト・パス。ネイティブのアラインされた型（１、２、４、８バイト）を使用してパスを設定し読み取る場合、このパスは、監視コンテキストとは異なるスレッド・コンテキストから安全に修正され得る。この理由は、監視コードが、各監視サイクルの開始時にパスをプライベート・データ構造にコピーし、変更前のパス定義でも変更後のパス定義でも、一貫したパス定義を使用することになるからである。
・dr_hop_cnt －ダイレクト・パスのホップ数を定義する。
・rem_port －リンクに照会するために使用されるポートを指定する。このポートは、監視対象モジュールの１ホップ前の接続先に属する。ＲＡＣＫシステムでは、これはアドレス（スイッチ・ポート）における最後のホップと同じである。ＰＯＤシステムでは、これは不明であり、定義されなければならない。
・mad_handle －指定されたリモート・ポートに到達するために使用する必要があるローカルＭＡＤデバイスを指定する。
・actual_fail_cnt －連続してOS pingに失敗した調査の数－０からallowed_fail_cntまで変化する。このフィールドの値は、最初に成功したOS pingの後に０にリセットされ、最初に失敗したOS pingの後に増分し始める（OS pingが失敗し、リンクのうちの少なくとも１つがアクティブである場合にのみ、値が増加する）。
・used_bullets －最初に許可されたリセットが行われた時点からの（bullet_fire_stamp以降の）リンク・リセットの回数（最初のリセットを含む）。bullet_lease_sec後に０にリセットされる。
・bullet_fire_stamp －許可された時間枠内に最初のリンク・リセットが発行された時刻、またはゼロ。
・os_probe_state_change_cb －最初のpingが成功または失敗したときに呼び出されるコールバック。パラメータprobe_okは、ＯＳ調査ステータスが失敗へ遷移するかＯＫへ遷移するかを指定する。ＮＵＬＬ値は、コールバックが呼び出されないことを意味する。
・link_reset_cb －リンクをリセットするとの決定がなされたときに呼び出されるコールバック。パラメータreset_calledは、リセットが行われたか、（ビュレットがなくなったために）行われなかったかを指定する。ＮＵＬＬ値は、コールバックが呼び出されないことを意味する。
・os_probe_ok －最後の反復中のＯＳ調査の状態。
・single_port －監視対象モジュールが１つのパス（ＰＯＤの場合のように、ポイント・ツー・ポイント接続）を有するか、（ＲＡＣＫの場合のように）２つのパスを有するかを定義する。監視コードはこの値を考慮に入れる。
・next_first_path －次の反復中に最初にどのパス・インデックス（０または１）を調査するかを定義する。このフィールドは、監視コードによって更新される。

コンテキスト構造は、異なるコンテキストから容易にアクセス可能であるように定義され、これにより、監視コンテキストへの「トレース」ウィンドウが可能になる。end_point_crash_detect_loop()ＡＰＩの呼び出しは、単一の接続先モジュールを継続的に監視する。監視フローは以下の通りである。監視が開始される前に、監視パラメータおよびアドレス指定情報が監視コンテキストで設定される。使用されたビュレットの値および最初のビュレット・スタンプはゼロに設定され、調査する次のパス・インデックスの値も同様にゼロに設定される。os_probe_okの値は、真に設定される。

１．監視ループが開始されると、監視ループは、最初にアドレス情報をプライベート・データ構造にコピーする。

２．次いで、監視ループは、リモート・モジュールのＯＳステータス、およびステータスまたはリモート・モジュールのＩＢリンクのテストに進む。調査は、次のパス・インデックス（next_first_path）によって識別されるダイレクト・パスおよびＭＡＤハンドルを使用して実行される。ＯＳ調査は、os_probe_to_msに等しいタイムアウトの値を使用して、sm_info_ping()ＡＰＩを使用して実行される。OS pingが成功した場合、リモート・ポートがリンクを有し、リモートＯＳが活動していると結論付けられる。OS pingがタイムアウトした場合、コードはリンクの状態の判定に進む。リンクは、以前に使用されたパスの１ホップ前である接続先のポートrem_portに対するquery_port_info()ＡＰＩを使用して確認される。リンク確認は、同じＭＡＤハンドルを使用し、タイムアウトの値はlink_probe_to_msに等しい。

３．監視コードは、リモート・モジュールの調査ステータスを検査する。ＯＳ調査が成功した場合、コードはステップ４に進む。OS pingが失敗し、リンクの調査が失敗を返した場合、コードはステップ５に進む。最後の判定は、偽陽性検出を最小限に抑えることを目指し、リンクの最も近い側（ＲＡＣＫシステムの場合はスイッチ、またはＰＯＤシステムの場合はモジュール）がＭＡＤエラーの原因にならないようにする設計点である。OS pingが失敗し、リンクの調査が成功を返した場合、コードはステップ６に進む。

４．OS pingステータスが成功した場合、コードは、os_probe_state_change_cbコールバックを呼び出すかどうかを確認する。コールバックは、その値がＮＵＬＬではなく、os_probe_okの値が偽である場合に呼び出される。その後、コードは次のステップ５に進む。

５．このステップにおいて、コードは新しい監視サイクルを開始する準備をする。single_portが指定されていない限り、コードはnext_first_pathの値を反転させる（０→１および１→０）。その後、コードは、os_probe_okを真値に設定し、actual_fail_cntフィールドをゼロに設定し、probe_interval_msミリ秒後に監視ループを再開し、ステップ１に戻る。

６．リンク調査が成功した場合、コードはリンクの状態を検査する。リンクがアクティブである場合、コードはステップ７に進む。リンクがアクティブでない場合、コードはステップ８に進む。

７．このステップにおいて、コードはリンク状態がアクティブであると判定しており、アクティブ状態のリンクを有するクラッシュしたＯＳが存在する可能性がある。次いで、コードは、確認すべき監視対象モジュールへの追加のパスがあるかどうかを確認する。single_portパラメータが設定されている場合、または他のパスがすでに確認されている場合、追加のパスは利用できない。確認すべき追加のパスがない場合、コードはステップ９に進む。追加のパスが利用可能である場合、コードはステップ８に進む。

８．このステップは、２つのパスを使用してモジュールを監視するＲＡＣＫシステムでのみ実行される。このステップにおいて、コードは、ＯＳ調査が最初のパスを介して失敗し、最初のパス上のリンクがダウンしているかまたはアクティブ状態であると判定している。監視論理は監視対象モジュールの両方のポートを介して問題を確実に検出することを必要とするので、これは回復アクションを決定するのに十分ではない。したがって、コードはnext_first_pathの値をリセットし、ステップ２に進む。

９．このステップにおいて、コードは、os_probe_okの値を偽に設定し、os_probe_state_change_cbコールバックを呼び出すべきかどうかを確認する。コールバックは、その値がＮＵＬＬではなく、os_probe_okの値が真である場合に呼び出される。その後、コードは次のステップ１０に進む。

１０．このステップにおいて、コードは、監視対象モジュールがアクティブ状態のＩＢリンクを有するクラッシュしたモジュールであるかどうかの判定を行う。監視対象モジュールに接続するリンクのうちの少なくとも１つがアクティブ状態にある場合、モジュールは、アクティブ状態のＩＢリンクを有するクラッシュしたモジュールである。モジュールが、アクティブ状態のＩＢリンクを有するクラッシュしたモジュールではない場合、コードはactual_fail_cntフィールドをゼロにリセットし、ステップ１６に進む。それ以外の場合、コードはステップ１１に進む。

１１．このステップにおいて、コードは、アクティブなＩＢリンクを有するクラッシュしたモジュールが検出されたと判定している。コードは、actual_fail_cntのカウントを増分する。増分された値がallowed_fail_cntの値を下回る場合、コードはステップ１６に進む。それ以外の場合、コードはステップ１２に進む。

１２．この時点で、コードは、回復アクション（リンクのリセットが必要である）を決定している。コードは、actual_fail_cntフィールドをゼロにリセットし、used_bullets値がallowed_bullets値を下回るかどうかを確認する。used_bullets値がallowed_bullets値を下回る場合、コードはステップ１５に進む。それ以外の場合、コードはステップ１３に進む。

１３．このステップにおいて、コードは現在のタイム・スタンプがbullet_fire_stamp＋bullet_lease_secを上回るかどうかを確認する。現在のタイム・スタンプの値がより大きい場合、コードは、used_bullets値をゼロにリセットし、ステップ１５に進む。それ以外の場合、コードはステップ１４に進む。

１４．このステップにおいて、コールバックの値がＮＵＬＬでない場合、コードはreset_calledパラメータの値を偽に設定してlink_reset_cbコールバックを実行し、ステップ１６に進む。

１５．このステップにおいて、コードは回復アクションを実行し、クラッシュしたモジュール上のＩＢリンクをリセットする。提供されたパス情報を使用して、監視対象モジュールのすべてのＩＢリンクがリセットされる。リンク状態のクエリと同じパスおよびＭＡＤハンドルが使用される。コードは、タイムアウト値link_reset_to_msとともにreset_port()ＡＰＩを使用する。ＡＰＩは、ＳＭＰｏｒｔＩｎｆｏＭＡＤのＳｅｔメソッドを使用して、リンクの物理プロパティを無効にし、次いで有効にして、リンク・リセットを引き起こす。物理リンクのリセットは、論理（ソフトウェア）層全体に迅速に伝播し、アプリケーションは、接続をリセットして、保留中のＩＯトランザクションをフラッシュすることが可能になる。さらに、Ａ９０００のＳＭ構成要素は、非応答モジュール上のリンクの論理プロパティを有効にしないため、クラッシュしたモジュールの論理リンクはダウンしたままになる。リンクの無効化とは対照的に、回復のリセット方法は、偽陽性検出の影響を最小限に抑えるための設計点である。コードが、ビジー状態だが活動しているモジュールのリンクをリセットする場合、物理リンクがネゴシエートされ、監視対象モジュール上のソフトウェアが応答を開始すると、ＳＭ構成要素はＩＢリンクの論理プロパティを再アクティブ化する。このステップに続いて、コードはステップ１６に進む。

１６．このステップにおいて、コードは、監視タイムアウトを短縮した状態で監視を再開する。single_portが指定されていない限り、コードはnext_first_pathの値を反転させる（０→１および１→０）。その後、コードはfailed_probe_interval_msミリ秒後に監視ループを再開し、ステップ１に戻る。

本発明は、任意の可能な技術的詳細の統合レベルでのシステム、方法、またはコンピュータ・プログラム製品あるいはその組合せとすることができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実施させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体（または複数のコンピュータ可読記憶媒体）を含み得る。

コンピュータ可読記憶媒体は、命令実行デバイスが使用するための命令を保持および記憶することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁気記憶デバイス、半導体記憶デバイス、または上記の任意の適切な組合せとすることができるが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには以下のもの、すなわち、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル・バーサタイル・ディスク（ＤＶＤ）、メモリ・スティック、フロッピー（Ｒ）・ディスク、パンチカードまたは命令が記録された溝内の隆起構造体などの機械的に符号化されたデバイス、および上記の任意の適切な組合せが含まれる。本明細書で使用されるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝播する電磁波、導波路もしくは他の伝送媒体を介して伝播する電磁波（例えば、光ファイバ・ケーブルを通る光パルス）、または電線を介して送信される電気信号などの一過性の信号自体であると解釈されるべきではない。

本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスに、または、ネットワーク、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、またはワイヤレス・ネットワークあるいはその組合せを介して外部コンピュータまたは外部記憶デバイスにダウンロードされ得る。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバあるいはその組合せを含み得る。各コンピューティング／処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、そのコンピュータ可読プログラム命令を、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体における記憶のために転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路用の構成データ、または、Ｓｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのオブジェクト指向プログラミング言語および「Ｃ」プログラミング言語もしくは同様のプログラム言語などの手続き型プログラミング言語を含む１つまたは複数のプログラミング言語の任意の組合せで書かれたソース・コードもしくはオブジェクト・コードとすることができる。コンピュータ可読プログラム命令は、スタンドアロン・ソフトウェア・パッケージとして全体がユーザのコンピュータ上で、一部がユーザのコンピュータ上で、一部がユーザのコンピュータ上かつ一部がリモート・コンピュータ上で、または全体がリモート・コンピュータ上もしくはサーバ上で実行され得る。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）もしくはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続され得るか、または（例えば、インターネット・サービス・プロバイダを使用してインターネットを介して）外部コンピュータに対して接続され得る。いくつかの態様では、本発明の態様を実行するために、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ）を含む電子回路が、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによって、コンピュータ可読プログラム命令を実行し得る。

本発明の態様は、本発明の態様による方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照しながら本明細書で説明されている。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実施され得ることが理解されよう。

これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行される命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックで指定された機能／動作を実施するための手段を作り出すように、コンピュータのプロセッサまたは他のプログラマブル・データ処理装置に提供されて、マシンを作り出すものであり得る。これらのコンピュータ可読プログラム命令はまた、命令が記憶されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックで指定された機能／動作の態様を実施する命令を含む製造品を含むように、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブル・データ処理装置、または他のデバイスあるいはその組合せに対して特定の方式で機能するように指示できるものであり得る。

コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブル装置、または他のデバイスで実行される命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックで指定された機能／動作を実施するように、コンピュータ実施プロセスを作り出すべくコンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにロードされて、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実行させるものであり得る。

図中のフローチャートおよびブロック図は、本発明の様々な態様によるシステム、方法およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を示す。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実装するための１つまたは複数の実行可能命令を含む、モジュール、セグメント、または命令の一部を表すことがある。いくつかの代替の実装形態では、ブロックに記載された機能は、図に記載された順序とは異なる順序で行われ得る。例えば、連続して示された２つのブロックは、実際には、関与する機能に応じて、１つのステップとして達成されるか、同時に、実質的に同時に、部分的もしくは全体的に時間的に重複する方式で実行されるか、または場合によってはブロックが逆の順序で実行され得る。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方におけるブロックの組合せは、指定された機能または動作を実行するか、あるいは専用ハードウェアとコンピュータ命令との組合せを遂行する専用ハードウェア・ベースのシステムによって実装され得ることにも留意されたい。

さらに、様々な態様によるシステムは、プロセッサ、およびプロセッサと統合された論理またはプロセッサによって実行可能な論理あるいはその両方を含み得、論理は、本明細書に記載のプロセス・ステップのうちの１つまたは複数を実行するように構成される。統合されたとは、プロセッサに、論理が特定用途向け集積回路（ＡＳＩＣ）、ＦＰＧＡなどのハードウェア論理として組み込まれていることを意味する。プロセッサによって実行可能とは、論理が、ハードウェア論理、ファームウェア、オペレーティング・システムの一部、アプリケーション・プログラムの一部などのソフトウェア論理、またはプロセッサによってアクセス可能であり、プロセッサによる実行時にプロセッサにいくつかの機能を実行させるように構成された、ハードウェア論理とソフトウェア論理との組合せであることを意味する。ソフトウェア論理は、当技術分野で知られているように、任意のメモリ・タイプのローカル・メモリまたはリモート・メモリあるいはその両方に記憶され得る。ソフトウェア・プロセッサ・モジュールまたはＡＳＩＣ、ＦＰＧＡ、中央処理装置（ＣＰＵ）、集積回路（ＩＣ）、グラフィックス処理装置（ＧＰＵ）などのハードウェア・プロセッサあるいはその両方などの当技術分野で知られている任意のプロセッサが使用され得る。

前述のシステムまたは方法論あるいはその両方の様々な特徴を任意の方法で組み合わせて、上記で提示された説明から複数の組合せを作成できることは明らかであろう。

本発明の実施形態は、サービスをオン・デマンドで提供するために顧客に代わって展開されるサービスの形式で提供され得ることがさらに理解されよう。

本発明の様々な態様の説明は、例示を目的として提示されたものであり、網羅的であること、または開示された態様に限定されることを意図したものではない。記載された態様の範囲および思想から逸脱することなく、当業者には多くの変更形態および変形形態が明らかであろう。本明細書で使用される用語は、態様の原理、実際の適用例、もしくは市場で見られる技術を超える技術的改良を最もよく説明するために、または本明細書に開示された態様を当業者が理解できるようにするために選択されたものである。

Claims

コンピュータ実施方法であって、
ノードに第１の管理クエリを送信することによって、分散コンピューティング環境の前記ノードのオペレーティング・システムが正しく機能しているかどうかを判定することと、
前記ノードの前記オペレーティング・システムが正しく機能していないとの判定に応答して、前記ノードに関連付けられたポートに第２の管理クエリを送信することによって、前記ノードがアクティブな通信リンクを有するかどうかを判定することと、
前記ノードがアクティブな通信リンクを有するとの判定に応答して、前記ノードに関連付けられた前記ポートにリセット要求を送信することによって、前記ノードの前記アクティブな通信リンクをリセットすることと
を含む、コンピュータ実施方法。
前記第１の管理クエリが、前記分散コンピューティング環境の第１のノードから第２のノードに、前記第１のノードと前記第２のノードとの間のポイント・ツー・ポイント接続を介して直接送信される、請求項１に記載のコンピュータ実施方法。
前記第１の管理クエリが、前記分散コンピューティング環境の第１のノードから第２のノードに、前記第１のノードと前記第２のノードとの間に配置されたスイッチを介して間接的に送信される、請求項１に記載のコンピュータ実施方法。
第２のノードが第１のノードの隣接ノードであるとの判定に応答して、前記第１の管理クエリが前記第１のノードによって前記第２のノードに送信される、請求項１に記載のコンピュータ実施方法。
前記第１の管理クエリが、前記ノードの前記オペレーティング・システム内で終了するファブリック管理クエリを含む、請求項１に記載のコンピュータ実施方法。
前記第１の管理クエリへの応答が前記ノードから所定の期間内に受信されなかったとの判定に応答して、前記ノードの前記オペレーティング・システムが正しく機能していないと判定される、請求項１に記載のコンピュータ実施方法。
前記第２の管理クエリが、前記ノードがアクティブな通信リンクを有するかどうかを前記ノードに関連付けられた前記ポートに問い合わせる、請求項１に記載のコンピュータ実施方法。
前記第２の管理クエリに応答して前記ノード内のアクティブなポートを識別したことに応答して、前記ノードがアクティブな通信リンクを有すると判定される、請求項１に記載のコンピュータ実施方法。
前記ノードの前記オペレーティング・システムが正しく機能しておらず、かつ前記ノードがアクティブな通信リンクを有するとの判定に応答して、所定のカウントが増分され、前記ノードの監視がより高い頻度で実行される、請求項１に記載のコンピュータ実施方法。
前記リセット要求が、前記ノードに関連付けられた前記ポートに、前記ノード内のすべてのアクティブなリンクをリセットさせる、請求項１に記載のコンピュータ実施方法。
前記分散コンピューティング環境内の各ノードが監視ノードとして指定される、請求項１に記載のコンピュータ実施方法。
前記分散コンピューティング環境内の監視ノードが、所定の期間内に所定の数のリセット要求を別のノードに送信することのみを許可される、請求項１に記載のコンピュータ実施方法。
前記第１の管理クエリと前記第２の管理クエリがどちらも、優先度の高いクエリである、請求項１に記載のコンピュータ実施方法。
前記第１の管理クエリが、前記ノードのネットワーク・アダプタが動作可能であるかどうかも判定する、請求項１に記載のコンピュータ実施方法。
ネットワーク・ファブリック内の非応答ポートを隔離するためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品が、プログラム命令が具現化されたコンピュータ可読記憶媒体を含み、前記コンピュータ可読記憶媒体が一過性の信号自体ではなく、前記プログラム命令が、プロセッサに、
前記プロセッサを利用して、ノードに第１の管理クエリを送信することによって、分散コンピューティング環境の前記ノードのオペレーティング・システムが正しく機能しているかどうかを判定することと、
前記ノードの前記オペレーティング・システムが正しく機能していないとの判定に応答して、前記プロセッサを利用して、前記ノードに関連付けられたポートに第２の管理クエリを送信することによって、前記ノードがアクティブな通信リンクを有するかどうかを判定することと、
前記ノードがアクティブな通信リンクを有するとの判定に応答して、前記プロセッサを利用して、前記ノードに関連付けられた前記ポートにリセット要求を送信することによって、前記ノードの前記アクティブな通信リンクをリセットすることと、
を含む方法を実行させるように、前記プロセッサによって実行可能である、コンピュータ・プログラム製品。
前記第１の管理クエリが、分散コンピューティング環境の第１のノードから第２のノードに、前記第１のノードと前記第２のノードとの間のポイント・ツー・ポイント接続を介して直接送信される、請求項１５に記載のコンピュータ・プログラム製品。
前記第１の管理クエリが、分散コンピューティング環境の第１のノードから第２のノードに、前記第１のノードと前記第２のノードとの間に配置されたスイッチを介して間接的に送信される、請求項１５に記載のコンピュータ・プログラム製品。
第２のノードが第１のノードの隣接ノードであるとの判定に応答して、前記第１の管理クエリが前記第１のノードによって前記第２のノードに送信される、請求項１５に記載のコンピュータ・プログラム製品。
前記第１の管理クエリが、前記ノードの前記オペレーティング・システム内で終了するファブリック管理クエリを含む、請求項１５に記載のコンピュータ・プログラム製品。
前記第１の管理クエリへの応答が前記ノードから所定の期間内に受信されなかったとの判定に応答して、前記ノードの前記オペレーティング・システムが正しく機能していないと判定される、請求項１５に記載のコンピュータ・プログラム製品。
前記第２の管理クエリが、前記ノードがアクティブな通信リンクを有するかどうかを前記ノードに関連付けられた前記ポートに問い合わせる、請求項１５に記載のコンピュータ・プログラム製品。
システムであって、
プロセッサと、
前記プロセッサと統合されるか、前記プロセッサによって実行可能であるか、または前記プロセッサと統合され、かつ前記プロセッサによって実行可能である論理回路と
を含み、前記論理回路が、
ノードに第１の管理クエリを送信することによって、分散コンピューティング環境の前記ノードのオペレーティング・システムが正しく機能しているかどうかを判定し、
前記ノードの前記オペレーティング・システムが正しく機能していないとの判定に応答して、前記ノードに関連付けられたポートに第２の管理クエリを送信することによって、前記ノードがアクティブな通信リンクを有するかどうかを判定し、
前記ノードがアクティブな通信リンクを有するとの判定に応答して、前記ノードに関連付けられた前記ポートにリセット要求を送信することによって、前記ノードの前記アクティブな通信リンクをリセットする
ように構成される、システム。
コンピュータ実施方法であって、
分散コンピューティング環境の第１のノードから前記分散コンピューティング環境の第２のノードに第１の管理クエリを送信することであって、前記第１の管理クエリが、前記第２のノードのオペレーティング・システムに関連付けられる、前記第１の管理クエリを送信することと、
前記第１のノードにおいて前記第２のノードから前記第１の管理クエリへの応答を受信できなかったことに応答して、前記第１のノードから前記第２のノードに関連付けられた１つまたは複数の通信ポートに第２の管理クエリを送信することと、
前記第１のノードにおいて、前記第２のノードに関連付けられた前記１つまたは複数の通信ポートから、前記第２のノードがアクティブな通信リンクを有することを示す前記第２の管理クエリへの応答を受信したことに応答して、前記第１のノードによって、前記アクティブな通信リンクを有する前記第２のノードの前記１つまたは複数の通信ポートをリセットするよう求めるリンク・リセット要求を、前記第２のノードに関連付けられた前記１つまたは複数の通信ポートに送信することと
を含む、コンピュータ実施方法。
前記分散コンピューティング環境内に、前記第１のノードおよび前記第２のノードとともに複数の追加ノードが含まれ、前記分散コンピューティング環境内の前記複数の追加ノードのそれぞれが、前記第１の管理クエリおよび前記第２の管理クエリを利用して隣接ノードを監視する、請求項２３に記載のコンピュータ実施方法。
分散コンピューティング環境内に管理ノードを実装するためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品が、プログラム命令が具現化されたコンピュータ可読記憶媒体を含み、前記コンピュータ可読記憶媒体が一過性の信号自体ではなく、前記プログラム命令が、プロセッサに、
前記プロセッサを利用して、分散コンピューティング環境の第１のノードから前記分散コンピューティング環境の第２のノードに第１の管理クエリを送信することであって、前記第１の管理クエリが、前記第２のノードのオペレーティング・システムに関連付けられる、前記第１の管理クエリを送信することと、
前記第１のノードにおいて前記第２のノードから前記第１の管理クエリへの応答を受信できなかったことに応答して、前記プロセッサを利用して、前記第１のノードから前記第２のノードに関連付けられた１つまたは複数の通信ポートに第２の管理クエリを送信することと、
前記第１のノードにおいて、前記第２のノードに関連付けられた前記１つまたは複数の通信ポートから、前記第２のノードがアクティブな通信リンクを有することを示す前記第２の管理クエリへの応答を受信したことに応答して、前記プロセッサを利用して、前記第１のノードによって、前記アクティブな通信リンクを有する前記第２のノードの前記１つまたは複数の通信ポートをリセットするよう求めるリンク・リセット要求を、前記第２のノードに関連付けられた前記１つまたは複数の通信ポートに送信することと
を含む方法を実行させるように、前記プロセッサによって実行可能である、コンピュータ・プログラム製品。