JP2011524563A - ノード間でのデバイス・エラー情報の同期化 - Google Patents

ノード間でのデバイス・エラー情報の同期化 Download PDF

Info

Publication number
JP2011524563A
JP2011524563A JP2011512077A JP2011512077A JP2011524563A JP 2011524563 A JP2011524563 A JP 2011524563A JP 2011512077 A JP2011512077 A JP 2011512077A JP 2011512077 A JP2011512077 A JP 2011512077A JP 2011524563 A JP2011524563 A JP 2011524563A
Authority
JP
Japan
Prior art keywords
node
error counter
error
message
counter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011512077A
Other languages
English (en)
Other versions
JP5255697B2 (ja
Inventor
フード、ジェームズ、ラマー
リナルディ、ブライアン、アンソニー
ロビソン、ミカ
ソレンソン、トッド、チャールズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2011524563A publication Critical patent/JP2011524563A/ja
Application granted granted Critical
Publication of JP5255697B2 publication Critical patent/JP5255697B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Hardware Redundancy (AREA)
  • Computer And Data Communications (AREA)

Abstract

【課題】 ノード間でデバイス・エラー情報を同期化するための方法、システム及びコンピュータ・プログラムを提供する。
【解決手段】 第1のノードは、第1のノード及び第2のノードと通信状態にあるデバイスに関する第1ノード・エラー・カウンタに対してアクションを実行する。第1のノードは、デバイス、及びデバイスに関する第1ノード・エラー・カウンタに対して実行されたアクションを示すメッセージを第2のノードに伝送する。第2のノードは、メッセージ内に示されたデバイスに関する第2ノード・エラー・カウンタに対してメッセージ内に示されたアクションを実行し、ここで、第2ノード・エラー・カウンタは、デバイスに関する第1ノード・エラー・カウンタに対応する。
【選択図】 図6

Description

本発明は、ノード間でデバイス・エラー情報を同期化するための方法、システム及びコンピュータ・プログラムに関する。
ストレージ・ネットワークにおけるホスト・システムは、多数の経路を介してストレージ・コントローラと通信することができる。ストレージ・コントローラは、別々のストレージ・クラスタ又はノードを備えることができ、その場合、各々のストレージ・クラスタは、ストレージにアクセスすることができ、ストレージにアクセスするための冗長性を与える。ホストは、いずれのクラスタを介しても付属のストレージにアクセスすることができる。ストレージ・クラスタが故障する場合には、ホストは、フェイルオーバし、他のストレージ・クラスタを用いて、ストレージにアクセスすることができる。
冗長ストレージ・コントローラ環境において、各々のストレージ・ノード又はクラスタは、ネットワーク及び入力/出力デバイス・アダプタのような、特定の外部リソースの所有権を確立するのが普通である。システム内のノードが故障する場合には、システム内の他のノードが、故障ノードが所有していたリソースの所有権を得ることができる。システム内の外部リソースがエラーを報告し始める場合には、所有ノードが、これらのエラーを閾値処理し、検出されたエラー数に基づいて適切なシステム回復動作を開始することになる。このプロセス中、所有ノードが故障する場合には、別の利用可能なノードが、外部リソースの所有権を得るが、故障ノードによって記録された以前のエラーの知見を有さない可能性がある。これは、新しい所有ノードが、外部ソース上の次のエラーをあたかも最初のエラーであるかのように処理することを招く。
さらに、外部リソースによって報告された多数のエラーが何らかの形で以前の所有ノードを故障させた場合には、新しい所有ノードが、以前のノードと同じアクションを起こすことになり、これは、新しい所有ノードが同様に故障することを招く可能性がある。システム内の他のノードがリソースの所有権を取り続ける場合には、全てのノードの故障を招く可能性があり、顧客に、データへのアクセスを失わせる可能性がある。ゼロのエラー・カウントから回復動作を再始動すると、全体のシステム回復(以前の所有ノード及び新しい所有ノードによって行われる)は、ホスト・システムが時間切れとなり、顧客がデータへのアクセスを失うのに十分なほど長時間かかる可能性がある。
当技術分野において、複数のノードによってアクセスされる共有デバイスに関するエラー情報を保持するための改善された技術に対する必要性が存在する。
ノード間でデバイス・エラー情報を同期化するための方法、システム及びコンピュータ・プログラムを提供する。第1のノードは、第1のノード及び第2のノードと通信状態にあるデバイスに関する第1ノード・エラー・カウンタに対するアクションを実行する。第1のノードは、デバイス及びデバイスに関する第1ノード・エラー・カウンタに対して実行されたアクションを示すメッセージを第2のノードに伝送する。第2のノードは、メッセージ内に示されたデバイスに関する第2ノード・エラー・カウンタに対してメッセージ内に示されたアクションを実行し、ここで、第2ノード・エラー・カウンタは、デバイスに関する第1ノード・エラー・カウンタに対応する。
更に別の実施形態において、メッセージ内に示されたアクションは、オープン・アクションを含む。第2のノードは、メッセージに応答してデバイスに関する第2ノード・エラー・カウンタを作成することによってオープン・アクションを実行する。
更に別の実施形態において、メッセージ内に示されたアクションは、終了アクションを含む。第2のノードは、メッセージに応答してデバイスに関する第2ノード・エラー・カウンタを終了することによって終了アクションを実行する。
更に別の実施形態において、第1のノードは、デバイスのエラーを検出する。第1のノードは、エラーの検出に応じてデバイスに関する第1ノード・エラー・カウンタをインクリメントすることによってアクションを実行する。メッセージ内に示されたアクションは、インクリメント・アクションを含む。第2のノードは、第2のノードにおいてデバイスに関する第2ノード・エラー・カウンタをインクリメントすることによってインクリメント・アクションを実行する。
更に別の実施形態において、第1のノードは、エラー閾値に達するエラー・カウンタ値に応答してエラー回復動作を開始する。
更に別の実施形態において、第1のノードは、デバイスの所有者として動作してデバイスに対すエラー・ハンドリングを実行する。第2のノードは、デバイスの所有権を引き継ぎ、デバイスのエラーを検出する第2のノードに応答して、第1のノードによって検出されたデバイスのエラーを示す第2ノード・エラー・カウンタをインクリメントする。
更に別の実施形態において、第2のノードは、第1のノードの故障に応答してデバイスの所有権を引き継ぐ。
更に別の実施形態において、デバイスは、第1のデバイスを含み、第1ノード・エラー・カウンタは、第1ノード第1デバイス・エラー・カウンタを含み、第2ノード・エラー・カウンタは、第2ノード第1デバイス・エラー・カウンタ・コピーを含む。第2のノードは、第1のノード及び第2のノードと通信状態にある第2のデバイスのエラー数を示す第2のノードの第2のデバイスのエラー・カウンタを保持する。第1のノードは、第2のノードによって検出されたエラーを含む第2のデバイスのエラー数を示す第1のノードの第2のデバイスのエラー・カウンタを保持する。
更に別の実施形態において、第1及び第2のノードは、サーバー内の第1のインターフェースを介して通信するサーバー内の第1及び第2の処理クラスタを含み、ここで、第1及び第2のデバイスは、第1及び第2のネットワーク・アダプタを含み、第1及び第2の処理クラスタは、第2のインターフェースを介して第1及び第2のアダプタと通信する。
更に別の実施形態において、第2のノードは、第2のデバイスからエラー・メッセージを受信する。第2のノードは、第2のノード第2デバイス・エラー・カウンタをインクリメントする。第2のノードは、第2のデバイスに関するインクリメント・メッセージを第1のノードに伝送する。第1のノードは、インクリメント・メッセージに応答して第1ノード第2デバイス・エラー・カウンタを第2のエラー・カウンタ値にインクリメントする。
更に別の実施形態において、第1のノードは、第1のデバイスの所有者として動作して第1のデバイスに対するエラー・ハンドリングを実行し、第2のノードは、第2のデバイスの所有者として動作して第2のデバイスに対するエラー・ハンドリングを実行する。第2のノードは、第1のデバイスの所有権を引き継ぎ、第2のノードの第1のデバイスのエラー・カウンタを用いて、第1のデバイスに対するエラー管理を実行する。第1のノードは、第2のデバイスの所有権を引き継ぎ、第1のノードの第2のデバイスのエラー・カウンタを用いて、第2のデバイスに対するエラー管理を実行する。
更に別の実施形態において、同期化動作が、第1及び第2のノードにおいて開始される。第1のノードは、同期化動作に応答して第1ノード第1デバイス・エラー・カウンタの値を第2のノードに示す同期化メッセージを第2のノードに送信する。第2のノードは、同期化動作に応答して第2ノード第2デバイス・エラー・カウンタの値を第1のノードに示す同期化メッセージを第1のノードに送信する。
更に別の実施形態において、第1のノードは、同期化メッセージ内に示された値が第1ノード第2デバイス・エラー・カウンタより大きいとの第1のノードの判断に応じて、第1のノードに送信された同期化メッセージ内に示された第2ノードの第2デバイス・エラー・カウンタの値で第1ノード第2デバイス・エラー・カウンタを更新する。第2のノードは、第2のノードに送信された同期化メッセージ内に示された値が第2ノード第1デバイス・エラー・カウンタより大きいとの第2のノードの判断に応じて、第2のノードに送信された同期化メッセージ内に示された第1ノード第1デバイス・エラー・カウンタの値で第2ノード第1デバイス・エラー・カウンタを更新する。
更に別の実施形態において、第1のノードは、第1のノードが第2のデバイスに関する第1ノード第2デバイス・エラー・カウンタを含まないとの判断に応じて第1ノード第2デバイス・エラー・カウンタを作成する。第1のノードは、第1ノード第2デバイス・エラー・カウンタを、第1のノードに送信された同期化メッセージ内に示された値に設定する。第2のノードは、第2のノードが第1のデバイスに関する第2ノード第1デバイス・エラー・カウンタを含まないとの判断に応じて第2ノード第1デバイス・エラー・カウンタを作成する。第2のノードは、第2ノード第1デバイス・エラー・カウンタを、第2のノードに送信された同期化メッセージ内に示された値に設定する。
更に別の実施形態において、第2のノードは、再初期化動作を開始する。第2のノードは、再初期化動作の一部として結合メッセージを第1のノードに送信する。第1のノードは、結合メッセージに応答してデバイスに関する第1ノード・エラー・カウンタの値を示すメッセージを第2のノードに送信する。第2のノードは、結合メッセージに応答して送信されたメッセージ内に示された値で第2ノード・エラー・カウンタを更新する。
ここで、添付の図面を参照して、本発明の実施形態を例証としてのみ説明する。
コンピューティング環境の一実施形態を示す。 ノード・コンポーネントの一実施形態を示す。 デバイス・エラー情報の一実施形態を示す。 アクション・メッセージの一実施形態を示す。 同期化メッセージの一実施形態を示す。 デバイスに関するエラー・カウンタに対して実行されたアクションについてのメッセージを伝送するためのノード動作の一実施形態を示す。 エラー・カウンタに対して実行されたアクションに関するメッセージを処理するためのノード動作の一実施形態を示す。 共有デバイスの所有権を得るためのノード動作の一実施形態を示す。 同期化動作を実行するためのノード動作の一実施形態を示す。 受信した同期化メッセージを処理するためのノード動作の一実施形態を示す。 システムに再結合するためのノード動作の一実施形態を示す。 ストレージ・サーバーのコンピューティング環境の一実施形態を示す。
図1は、ネットワーク・コンピューティング環境の一実施形態を示す。複数の計算ノード2a,2b...2mは、第1のインターフェース4を介して互いに通信し、ノード2a,2b...2mは、第2のインターフェース8を介して共有デバイス6a,6b...6nと通信する。ノード2a,2b...2mは、入力/出力(I/O)要求を処理し、或は他の動作を実行して共有デバイス6a,6b...6nと通信する計算デバイスを備えることができる。ノード2a,2b...2mは、別々のシステム内に収容してもよく、或いは同じコンピュータ・ボックス又はハウジング内に収容してもよい。共有デバイス6a,6b...6nは、ストレージ・デバイス、計算リソース、例えばデータベース、コンテンツ・ライブラリ、プリンタ、通信デバイス等を含むことができる。第1及び第2のインターフェース4及び8は、それぞれバス、ネットワーク、ループ等を含むことができる。1つの実施形態において、第1及び第2のインターフェース4及び8は、接続していなくてもよい。代替的な実施形態において、第1及び第2のインターフェース4及び8は、同じバス、ネットワーク等の上に配置することによって相互接続してもよく、或いはスイッチ、ハブ、ブリッジ等を介して接続してもよい。第2のインターフェース8は、バス、ネットワーク、ループ等を含むことができる。
図2は、ノード2のコンポーネントの一実施形態を示し、ノード2は、ノード2a,2b...2mを含むことができる。ノード2は、共有デバイス6a,6b...6nに対する管理動作を実行するためのプロセッサ20及びデバイス・マネージャ22を含む。デバイス・マネージャ22は、ノード2が所有するデバイス及び他のノード2a,2b...2mが所有するデバイスを含む、共有デバイス6a,6b...6nの各々に関するデバイス・エラー情報24を保持する。ノード・リスト26は、共有デバイス6a,6b...6nにアクセスし、共有デバイス6a,6b...6nの所有者に指定されるノード2a,2b...2mに関するネットワーク・アドレス及び情報を含む。共有デバイスの所有者は、その共有デバイス6a,6b...6nへのアクセスを管理し、他のデバイスが、共有デバイス6a,6b...6nにアクセスするか又はそれを用いるための要求を所有ノードにサブミットしなければならないようにする。
図3は、デバイス・エラー情報エントリ50の一実施形態を示し、デバイス・エラー情報エントリ50は、1つの共有デバイス6a,6b...6nに関するエラー情報を提供するデバイス・エラー情報24のインスタンス又はエントリを含むことができる。デバイス・エラー情報エントリ50は、それの情報が提供される共有デバイス識別子(ID)52と、識別された共有デバイス52を所有するノード2a,2b...2mを示すノード所有者ID54と、情報を保持するノード又は別のノード2a,2b...2mとすることができる、ノード所有者54によってデバイス52に関してカウントされたエラー数を示すエラー・カウンタ56と、カウンタ開始時間及び終了時間のような、付加的なエラー情報58とを含む。
図4は、共有デバイス6a,6b...6nに関するエラー・カウンタ56に対するアクションを実行するときに、所有ノード2a,2b...2mにより、他の非所有ノード2a,2b...2mに伝送されるアクション・メッセージ70の一実施形態を示す。アクションは、エラー・カウンタ56をオープンすること、終了すること、又はインクリメントすることを含むことができる。
図5は、所有ノードに関連するエラー情報94a...94nを他の非所有ノード2a,2b...2mに伝送するときに、所有ノード2a,2b...2mによって送信される同期化メッセージ90の一実施形態を示す。メッセージ90は、送信ノード92を識別し、送信ノード92によって所有されている各々の共有デバイス6a,6b...6nに関するデバイス・エラー情報50のような、デバイス・エラー情報94a...94nを含む。更に別の実施形態において、所有ノード2a,2b...2m以外のノードが、デバイス・エラー情報に関する情報を送信することができる。
図6は、エラー・カウンタ56に対するアクションを実行するために、所有ノード2a,2b...2m内で実行するデバイス・マネージャ22によって実行される動作の一実施形態を示す。ブロック100において、所有ノード2a,2b...2mは、ノード2a,2b...2mが所有する共有デバイス6a,6b...6nに関するエラー・カウンタ56に対して、共有デバイス52のエラー数を監視するためのエラー・カウンタ56を作成し、エラー・カウンタを終了又はインクリメントする等のアクションを実行する。それに応じて、所有ノード2a,2b...2mは、エラー・カウンタ56に対して実行されるアクション及び共有デバイス6a,6b...6nを示すアクション・メッセージ70を他のノード2a,2b...2mに伝送する(ブロック102において)。アクション・メッセージ70は、ノード・リスト26内に示されたノード2a,2b...2mに伝送することができる。(ブロック104において)エラー・カウンタ56が共有デバイスに関するエラー閾値を超える場合には、所有ノード2a,2b...2mは、共有デバイス6a,6b...6nに対するエラー回復動作を開始する(ブロック106において)。そうでなければ、制御は終了する。デバイス52に関するエラー・カウンタ56を作成するためにデバイス・エラー情報エントリ50を作成するときに、所有ノード2a,2b...2mは、付加的なエラー・カウンタ情報、例えば、カウンタが作成された開始時間、現在のタイムスタンプ、アクションがエラー・カウンタを終了する場合には終了時間等、を示すことができる。
図7は、ノード2a,2b...2m内で実行するデバイス・マネージャ22が、アクション・メッセージ70を受信したときに実行する動作の一実施形態を示す。非所有ノード2a,2b...2mが、所有ノードから、示されたデバイス78に対して実行されるエラー・カウンタ・アクション76を示すアクション・メッセージ70を受信すると(ブロック130において)、受信したノード2a,2b...2mは、示されたデバイスに関するエラー・カウンタに対して示されたアクション76を実行する。(ブロック134において)アクション76が、示されたデバイス78に関するエラー・カウンタ56を作成することである場合には、デバイス・マネージャ22は、デバイスID52、0に設定されたカウンタ値、オープン・メッセージを送信する所有ノード54、及びエラー・カウンタの開始時間のような付加的な情報58を示すデバイス・エラー・カウンタ56を作成する。(ブロック136において)アクション76が共有デバイス6a,6b...6nに関するエラー・カウンタ56をインクリメントすることである場合には、デバイス・マネージャ22は、受信したノード2a,2b...2mが保持するエラー・カウンタ56をインクリメントする。(ブロック138において)アクション76が共有デバイス6a,6b...6nに関するエラー・カウンタ56を終了することである場合には、デバイス・マネージャ22が、デバイス・エラー情報内に終了時間を示す。
図8は、ノード2a,2b...2m内で実行するデバイス・マネージャ22が、共有デバイス6a,6b...6nの所有権を引き継ぐことを実行する動作の一実施形態を示す。ノード2a,2b...2mが以前には所有していなかった共有デバイス6a,6b...6nの所有権を引き継ぐ(ブロック150において)ことに応じて、新しい所有ノード2a,2b...2mは、共有デバイス6a,6b...6nに関するデバイス・エラー情報エントリ50を更新し(ブロック152において)、ノード2a,2b...2mが今や共有デバイス6a,6b...6nを所有し、以前の所有ノード2a,2b...2mによって開始されたエラー・カウンタ56の更新に関する情報を含むエラー・カウンタ56を用いることを示す。このように、新しい所有ノード2a,2b...2mは、以前の所有ノード2a,2b...2mによってカウントされた以前のエラーを考慮に入れて以前の所有ノードのエラー管理動作を引き継ぐ。
図9は、ノード2a,2b...2m内で実行するデバイス・マネージャ22が同期化動作を実行するための動作の一実施形態を示す。ブロック170において、ノード2a,2b...2mが同期化動作を実行する。同期化動作は、周期的に又はノード2a,2b...2mの幾つか又は全てが、ノード・システムに再結合するようにリブート及び要求するような、イベントに応答して実行することができる。ノード2a,2b...2mが所有する各々の共有デバイス6a,6b...6nに関して、ノード2a,2b...2mが、送信ノード92、及び、所有されている共有デバイス6a,6b...6nに関する、エラー・カウンタ56を含んだデバイス・エラー情報50を示す同期化メッセージ90を全ての他のノード2a,2b...2mにブロードキャストする(ブロック172において)。各々の所有されている共有デバイス6a,6b...6nに関するデバイス・エラー情報50は、同期化メッセージ90の別々のエラー情報セクション94a...94n内に含まれる。同期化メッセージ90は、ノード・リスト26内のノード2a,2b...2mに伝送することができる。
図10は、ノード2a,2b...2m内で実行するデバイス・マネージャ22が、1つ又は複数の他のノード2a,2b...2mからの同期化メッセージ90を処理するために実行する動作の一実施形態を示す。同期化メッセージ90を受信する(ブロック200において)と、受信したノード2a,2b...2mは、同期化メッセージ90内のエラー情報94a...94n内に示された共有デバイス6a,6b...6nの各々に対して、ブロック204からブロック214までの動作を実行する。(ブロック204において)ノード2a,2b...2mが、検討中の共有デバイス6a,6b...6nに関するデバイス・エラー情報エントリ50を有していない場合には、デバイス・マネージャ22は、エラー・カウンタ56を含む共有デバイス6a,6b...6nに関するデバイス・エラー情報エントリ50を作成(ブロック206において)して、ローカル・デバイス・エラー情報24内に保持する。作成されたデバイス・エラー情報エントリ50のフィールド52、54、56及び58は、共有デバイス6a,6b...6nに関する同期化メッセージ90内に示された値に設定される。
(ブロック204において)共有デバイス6a,6b...6nに関するローカル・デバイス・エラー情報エントリ50が存在する場合、且つ(ブロック210において)ローカル・デバイス・エラー情報エントリ50内のエラー・カウンタ56が、共有デバイス6a,6b...6nに関する同期化メッセージ90内に示されたカウンタ値より小さい場合には、ローカル・デバイス・エラー情報エントリ50内のエラー・カウンタ56は、同期化メッセージ90内に示されたエラー・カウンタ値に設定される。そうでなければ、(ブロック210において)ローカル・デバイス・エラー情報エントリ50のエラー・カウンタ56が同期化メッセージ90内に示されたエラー・カウンタの値より大きい場合には、デバイス・エラー情報エントリ50は、同期化メッセージ90内に示されたエラー・カウンタ値以外の情報により更新される(ブロック214において)。
図10の動作によって、同期化されているデバイス・エラー情報エントリ50のローカル・コピーは、ローカル・デバイス・エラー情報エントリ50内に現在保持されている値と同期化メッセージ90内の値との間での最大のエラー・カウンタ値56を保持する。
図11は、ノード2a,2b...2m内で実行するデバイス・マネージャ22が、ノード2a,2b...2mがエラー回復又は故障目的のため、コード・アップグレードのため、及び他の目的のためにオフラインにされる場合のような、リブート後にシステムに再結合するために実行する動作の一実施形態を示す。ノード2a,2b...2mがシステムに再結合する(ブロック250において)と、デバイス・マネージャ22は、ノード・リスト26内に示された他のノード2a,2b...2mに対して、同期化情報を要求する再結合メッセージを送信し(ブロック252において)、それにより再結合するノード2a,2b...2mが現在のデバイス・エラー情報50を取得する。同期化メッセージ90を受信する(ブロック254において)と、デバイス・マネージャ22は、図10の動作を実行して(ブロック256において)、受信した同期化メッセージ90からローカル・デバイス・エラー情報24を更新する。
図12は、ノードがサーバー300内のクラスタ304a及び304bとして実装されたストレージ・サーバー300の一実施形態を示す。クラスタ304a、304bは、それぞれ、プロセッサ複合体306a、306b、及びデバイス・マネージャ308a、308bを含み、デバイス・マネージャ308a、308bは、上述のデバイス・マネージャ22の動作を実行することができる。クラスタ304a、304bは、バス310を介して通信する。システム300は、各々が1つ又は複数のボリューム318a、318b(例えば、論理ユニット番号、論理デバイス等)を有するように構成されたストレージ316a、316bに向けられた入力/出力要求を、ホスト・システム312a,312b...312nからネットワーク314を介して受信する。クラスタ304a、304bは、ホスト312a、312b...312nからI/O要求を受信し、要求をバッファリングし、キャッシュ(図示せず)内のデータをストレージ316a、316bに書き込むことができる。クラスタ304a、304bは、異なる電力境界を有することができる。各々のストレージ・クラスタ304a、304bは、付属のストレージ316a、316bへのアクセスを提供する。
図12の実施形態においては、二組の共有デバイス、即ち、デバイス・アダプタ320a,320b...320n、及びネットワーク・アダプタ322a、322b...322nが存在する。クラスタ304a、304bは、インターフェース324を介してデバイス・アダプタ320a,320b...320nと通信し、インターフェース326を介してネットワーク・アダプタ322a,322b...322nと通信する。デバイス・アダプタ320a、320b...320nは、インターフェース328を介してストレージ316a、316bと通信する。インターフェース324、326及び328は、周辺相互接続バス(PCI)又は当技術分野で既知の他の適切なインターフェース・ハードウェアのようなバスを含むことができる。
図12の実施形態において、クラスタ304a、304bは、上述のデバイス・マネージャ308a、308bとして動作し、デバイス・マネージャ22及び図6−図11に関して上述した動作を実行することができる。アダプタ320a,320b...320n及び322a,322b...322nは、共有デバイス306a,306b...306nとして動作することができ、その場合、クラスタ304a、304bは、特定のデバイス320a,320b...320n、322a,322b...322nの所有者として指定することができる。
システム300は、ストレージ・コントローラ又はサーバーを備えることができる。代替的な実施形態において、システム300は、接続されたデバイスの初期化及び設定動作を実行する異なるタイプのコンピュータ・デバイスを備えることができる。ホスト312a,312b...312nは、サーバー、メインフレーム、ワークステーション、パーソナル・コンピュータ、ハンドヘルド・コンピュータ、ラップトップ、テレフォン装置、ネットワーク器具等のような、当技術分野で既知のコンピューティング装置を備えることができる。ネットワーク314は、ストレージ・エリア・ネットワーク(SAN)、ローカル・エリア・ネットワーク(LAN)、イントラネット、インターネット、ワイド・エリア・ネットワーク(WAN)等を含むことができる。ストレージ316a、316bは、単純ディスク束(JBOD)、直接アクセス・ストレージ・デバイス(DASD)、レイド(Redundant Array of Independent Disks、RAID)アレイ、仮想化デバイス、テープ・ストレージ、フラッシュ・メモリ等のような、ストレージ・デバイス・アレイを備えることができる。
説明された実施形態は、共有デバイス6a,6b...6nからエラー・メッセージを受信してエラー・カウンタ56を更新するような、それらのデバイス・エラー情報50に対するアクションを所有ノードが実行するときに更新される、他のノードが所有する共有デバイスに関するエラー・カウンタを含むデバイス・エラー情報のローカル・コピーを、ノードが保持する技術を提供する。デバイス・エラー情報は、別のノードの所有権を引き継ぐノードによって用いられ、その結果、引き継ぐノードは、共有デバイス6a,6b...6nを放棄するノードによって用いられた現在のエラー情報を有する。このように、新しい所有ノードは、以前の所有ノードによって保持された、共有デバイス6a,6b...6nの現在のエラー状態からエラー管理動作を引き継ぐことができる。
説明された動作は、標準的なプログラミング及び/又はエンジニアリング技術を用いて、ソフトウェア、ファームウェア、ハードウェア又はこれらの任意の組み合わせを作成する方法、装置又は製造物品として実施することができる。説明された動作は、「コンピュータ可読ストレージ媒体」内に保持されるコードとして実施することができ、その場合、プロセッサは、コンピュータ・ストレージ可読媒体からコードを読み出し、実行することができる。コンピュータ可読ストレージ媒体は、磁気ストレージ媒体(例えば、ハード・ディスク・ドライブ、フロッピー・ディスク、テープ等)、光ストレージ(例えば、CD−ROM、DVD、光ディスク等)、揮発性及び不揮発性メモリ・デバイス(例えば、EEPROM、ROM、PROM、RAM、DRAM、SRAM、フラッシュ・メモリ、ファームウェア、プログラム可能論理等)等のようなストレージ媒体を含むことができる。説明された動作を実施するコードは、ハードウェア・デバイス(例えば、集積回路チップ、プログラム可能ゲート・アレイ(PGA)、特定用途向け集積回路(ASIC)等)内に実装されたハードウェア論理内でさらに実施することができる。さらに、説明された動作を実施するコードは、「伝送信号」内で実施することができ、その場合、伝送信号は、空間を介して、又は光ファイバ、銅ワイヤ等のような、伝送媒体を介して伝播することができる。コード又は論理がエンコードされる伝送信号は、無線信号、衛星伝送、電波、赤外線信号、ブルートゥース等をさらに含むことができる。「製造物品」は、コード又は論理がエンコードされた伝送信号を伝送し受信するための伝送ステーション及び/又は受信ステーションを含むことができ、その場合、伝送信号内のエンコードされたコード又は論理は、受信及び伝送ステーション又はデバイスにおけるハードウェア又はコンピュータ可読ストレージ媒体内でデコードしてストアすることができる。「製造物品」は、コンピュータ可読ストレージ媒体、ハードウェア・デバイス、及び/又は、コード又は論理を実装することができる伝送トランスミッタ又はレシーバを含む。当業者であれば、本発明の範囲から逸脱することなく多くの修正をこの構成に加えることができること、及び製造物品は当技術分野において既知の適切な情報支持媒体を備えることができることを認識するであろう。
「一実施形態(an embodiment)」、「実施形態(embodiment)」、「実施形態(embodiments)」、「その実施形態(the embodiment)」、「その実施形態(the embodiments)」、「1つ又は複数の実施形態(one or more embodiments)」、「幾つかの実施形態(some embodiments)」及び「1つの実施形態(one embodiment)」という用語は、特に明示的に指定されない限り、「本発明の1つ又は複数の(しかし全てではない)実施形態」を意味する。
「含む(including)」、「含む(comprising)」、「有する(having)」という用語及びこれらの変形物は、特に明示的に指定されない限り、「含むが、限定されない」ことを意味する。
項目の列挙リストは、特に明示的に指定されない限り、項目のいずれか又は全てが相互排除的であることを含意するものではない。
不定冠詞「a、an」及び定冠詞「the」は、特に明示的に指定されない限り、「1つ又は複数の(one or more)」を意味する。
項目の例の数を示すための「n」又は「m」等のような変数の参照符号の使用は、任意の整数の項目例を指すことができ、その場合、異なる変数は同じ数又は異なる数を含むことができる。さらに、異なる要素と共に用いられる同じ変数の参照符号は、それらの要素の同じ又は異なる数の例を示すことができる。
互いに通信状態にあるデバイスは、特に明示的に指定されない限り、互いに継続的に通信状態にある必要はない。さらに、互いに通信状態にあるデバイスは、直接的に、又は、1つ若しくは複数の媒介物を介して間接的に通信することができる。
互いに通信状態にある幾つかのコンポーネントを有する実施形態の説明は、このようなコンポーネントの全てが必要であることを含意するわけではない。逆に、様々な随意のコンポーネントは、本発明の広範な可能な実施形態を例示するために説明されている。
さらに、プロセス・ステップ、方法ステップ、アルゴリズム等は、記述の順序で説明することができるが、このようなプロセス、方法及びアルゴリズムは、代替的な順序で機能するように構成することもできる。言い換えれば、記述することができるステップの任意の順番又は順序は、その順序でステップを実行する必要条件を必ずしも示すものではない。本明細書で説明したプロセスのステップは、任意の実用的な順序で実行することができる。さらに、幾つかのステップは、同時に実行することができる。
本明細書で単一のデバイス又は物品を説明するときは、1つより多くのデバイス/物品(それらが協働してもしなくても)を単一のデバイス/物品の代わりに用いることができることが容易に理解できるであろう。同様に、本明細書において1つより多くのデバイス又は物品(それらが協働してもしなくても)を説明する場合は、1つより多くのデバイス又は物品の代わりに単一のデバイス/物品を用いることができ、或は、示した数のデバイス又はプログラムの代わりに異なる数のデバイス/物品を用いることができることが容易に理解できるであろう。デバイスの機能性及び/又は特徴は、代替的に、このような機能/特徴を有するように明示的には説明されていない1つ又は複数の他のデバイスによって具体化することができる。従って、本発明の他の実施形態は、デバイスそれ自体を含む必要がない。
図6、図7、図8、図9、図10及び図11の例示された動作は、特定の順序で行われる特定のイベントを示す。代替的な実施形態において、特定の動作は、異なる順序で実行し、修正し又は除去することができる。さらに、ステップを上述の論理に付加することができ、それでもなお説明した実施形態に合致するようにすることができる。さらに、本明細書で説明した動作は、逐次的に行うことができ、或いは特定の動作は、並列に処理することができる。さらに、動作は、単一の処理装置によって又は分散処理装置によって実行することができる。
本発明の種々の実施形態の上記の説明は、例示及び説明の目的で提示した。これは、網羅的であること、又は本発明を開示された通りに限定することを意図したものではない。上記の教示に鑑みて、多くの修正物及び変形物が可能である。本発明の範囲は、この詳細な説明によって限定されるものではなく、むしろここに添付された特許請求の範囲によって限定されることが意図されている。上記の明細書、実施例及びデータは、本発明の組成物の製造及び使用の完全な説明を与える。本発明の範囲から逸脱することなく本発明の多くの実施形態を作ることができるため、本発明は、以下の添付の特許請求の範囲内にある。
2、2a、2b、2m:ノード
4:第1のインターフェース
6a、6b、6n:共有デバイス
8:第2のインターフェース
20:プロセッサ
22:デバイス・マネージャ
24:デバイス・エラー情報
26:ノード・リスト
50:デバイス・エラー情報エントリ
52:共有デバイスID
54:ノード所有者ID
56:エラー・カウンタ
58:付加的なエラー情報
70:アクション・マネージャ
72:ターゲット・ノード
74:送信ノード
76:アクション
78:共有デバイスID
90:同期化メッセージ
92:送信ノード
94a、94n:デバイス・エラー情報
300:ストレージ・サーバー(システム)
304a、304b:クラスタ
306a、306b:プロセッサ複合体
308a、308b:デバイス・マネージャ
310:バス
312a、312b、312n:ホスト
314:ネットワーク
316a、316b:ストレージ
318a、318b:ボリューム
320a、320b、320n:デバイス・アダプタ
322a、322b、322n:ネットワーク・アダプタ
326、328:インターフェース

Claims (17)

  1. 第1のノードによって、前記第1のノード及び第2のノードと通信状態にあるデバイスに関する第1ノード・エラー・カウンタに対してアクションを実行するステップと、
    前記第1のノードによって、前記デバイスと前記デバイスに関する前記第1ノード・エラー・カウンタに対して実行された前記アクションとを示すメッセージを、前記第2のノードに伝送するステップと、
    前記第2のノードによって、前記メッセージ内に示された前記デバイスに関する第2ノード・エラー・カウンタに対して、前記メッセージ内に示された前記アクションを実行するステップであって、前記第2ノード・エラー・カウンタは、前記デバイスに関する前記第1ノード・エラー・カウンタに対応する、ステップと、
    を含む方法。
  2. 前記メッセージ内に示される前記アクションは、オープン・アクションを含み、前記第2のノードによって前記オープン・アクションを実行するステップは、前記メッセージに応答して前記デバイスに関する前記第2ノード・エラー・カウンタを作成するステップを含む、請求項1に記載の方法。
  3. 前記メッセージ内に示される前記アクションは、終了アクションを含み、前記第2のノードによって前記終了アクションを実行するステップは、前記メッセージに応答して前記デバイスに関する前記第2ノード・エラー・カウンタを終了するステップを含む、請求項1に記載の方法。
  4. 前記第1のノードによって前記デバイスのエラーを検出するステップをさらに含み、
    前記第1のノードによって実行される前記アクションは、前記エラーの検出に応答して前記デバイスに関する前記第1ノード・エラー・カウンタをインクリメントするステップを含み、
    前記メッセージ内に示される前記アクションは、インクリメント・アクションを含み、
    前記第2のノードによって前記インクリメント・アクションを実行するステップは、前記第2のノードにおいて前記デバイスに関する前記第2ノード・エラー・カウンタをインクリメントするステップを含む、
    請求項1に記載の方法。
  5. 前記エラー・カウンタ値がエラー閾値に達したことに応答して、前記第1のノードによってエラー回復動作を開始するステップをさらに含む、請求項1に記載の方法。
  6. 前記第1のノードは、前記デバイスに対するエラー・ハンドリングを実行する前記デバイスの所有者として動作し、
    前記第2のノードによって、前記デバイスの所有権を引き継ぐステップと、
    前記第2のノードが前記デバイスのエラーを検出したことに応答して、前記第2のノードによって、前記第1のノードによって検出された前記デバイスのエラーを示す前記第2ノード・エラー・カウンタをインクリメントするステップと、
    をさらに含む、
    請求項1に記載の方法。
  7. 前記第2のノードは、前記第1のノードの故障に応答して前記デバイスの前記所有権を引き継ぐ、請求項6に記載の方法。
  8. 前記デバイスは、第1のデバイスを含み、前記第1ノード・エラー・カウンタは、第1ノード第1デバイス・エラー・カウンタを含み、前記第2ノード・エラー・カウンタは、第2ノード第1デバイス・エラー・カウンタ・コピーを含み、
    前記第2のノードによって、前記第1のノード及び前記第2のノードと通信状態にある第2のデバイスのエラー数を示す第2ノード第2デバイス・エラー・カウンタを保持するステップと、
    前記第1のノードによって、前記第2のノードによって検出されたエラーを含む前記第2のデバイスのエラー数を示す第1ノード第2デバイス・エラー・カウンタを保持するステップと、
    をさらに含む、
    請求項1に記載の方法。
  9. 前記第1及び第2のノードは、サーバー内の第1のインターフェースを介して通信する前記サーバー内の第1及び第2の処理クラスタを含み、
    前記第1及び第2のデバイスは、第1及び第2のネットワーク・アダプタを含み、
    前記第1及び第2の処理クラスタは、第2のインターフェースを介して前記第1及び第2のアダプタと通信する、
    請求項8に記載の方法。
  10. 前記第2のノードによって、前記第2のデバイスからエラー・メッセージを受信するステップと、
    前記第2のノードによって、前記第2ノード第2デバイス・エラー・カウンタをインクリメントするステップと、
    前記第2のノードによって、前記第2のデバイスに関するインクリメント・メッセージを前記第1のノードに伝送するステップと、
    前記インクリメント・メッセージに応答して、前記第1のノードによって、前記第1ノード第2デバイス・エラー・カウンタを前記第2のエラー・カウンタ値にインクリメントするステップと、
    をさらに含む、請求項8に記載の方法。
  11. 前記第1のノードは、前記第1のデバイスに対するエラー・ハンドリングを実行する前記第1のデバイスの所有者として動作し、
    前記第2のノードは、前記第2のデバイスに対するエラー・ハンドリングを実行する前記第2のデバイスの所有者として動作し、
    前記第2のノードによって前記第1のデバイスの所有権を引き継ぐステップであって、前記第2のノードは、前記第2ノード第1デバイス・エラー・カウンタを用いて、前記第1のデバイスに対するエラー管理を実行する、ステップと、
    前記第1のノードによって前記第2のデバイスの所有権を引き継ぐステップであって、前記第1のノードは、前記第1ノード第2デバイス・エラー・カウンタを用いて、前記第2のデバイスに対するエラー管理を実行する、ステップと、
    をさらに含む、請求項8に記載の方法。
  12. 前記第1及び第2のノードにおいて同期化動作を開始するステップと、
    前記同期化動作に応答して、前記第1のノードによって、前記第1ノード第1デバイス・エラー・カウンタの値を前記第2のノードに示す同期化メッセージを、前記第2のノードに送信するステップと、
    前記同期化動作に応答して、前記第2のノードによって、前記第2ノード第2デバイス・エラー・カウンタの値を前記第1のノードに示す同期化メッセージを、前記第1のノードに送信するステップと、
    をさらに含む、請求項8に記載の方法。
  13. 前記同期化メッセージ内に示された前記値が前記第1ノード第2デバイス・エラー・カウンタより大きいとの前記第1のノードの判断に応じて、前記第1のノードによって、前記第1のノードに送信された前記同期化メッセージ内に示された前記第2ノード第2デバイス・エラー・カウンタの前記値で前記第1ノード第2デバイス・エラー・カウンタを更新するステップと、
    前記第2のノードに送信された前記同期化メッセージ内に示された前記値が前記第2ノード第1デバイス・エラー・カウンタより大きいとの前記第2のノードの判断に応じて、前記第2のノードによって、前記第2のノードに送信された前記同期化メッセージ内に示された前記第1ノード第1デバイス・エラー・カウンタの前記値で前記第2ノード第1デバイス・エラー・カウンタを更新するステップと、
    をさらに含む、請求項12に記載の方法。
  14. 前記第1のノードが前記第2のデバイスに関する前記第1ノード第2デバイス・エラー・カウンタを含まないとの判断に応じて、前記第1のノードによって、前記第1ノード第2デバイス・エラー・カウンタを作成するステップと、
    前記第1のノードによって、前記第1ノード第2デバイス・エラー・カウンタを、前記第1のノードに送信された前記同期化メッセージ内に示された前記値に設定するステップと、
    前記第2のノードが前記第1のデバイスに関する前記第2ノード第1デバイス・エラー・カウンタを含まないとの判断に応じて、前記第2のノードによって、前記第2ノード第1デバイス・エラー・カウンタを作成するステップと、
    前記第2のノードによって、前記第2ノード第1デバイス・エラー・カウンタを、前記第2のノードに送信された前記同期化メッセージ内に示された前記値に設定するステップと、
    をさらに含む、請求項12に記載の方法。
  15. 前記第2のノードによって、再初期化動作を開始するステップと、
    前記第2のノードによって、前記再初期化動作の一部として結合メッセージを前記第1のノードに送信するステップと、
    前記結合メッセージに応答して、前記第1のノードによって、前記デバイスに関する前記第1ノード・エラー・カウンタの値を示すメッセージを前記第2のノードに送信するステップと、
    前記結合メッセージに応答して、前記第2のノードによって、前記第2ノード・エラー・カウンタを、送信された前記メッセージ内に示された前記値に更新するステップと、
    をさらに含む、請求項1に記載の方法。
  16. デバイスと通信状態にある第1のノード及び第2のノードを備えるシステムであって、前記第1及び第2のノードは、請求項1から請求項15までのいずれかの請求項に記載された前記ステップを実行するためのプログラム・コードを実行するように様々に適合される、前記システム。
  17. 第1のノード及び第2のノードによって実行されるコードを含むコンピュータ・プログラムであって、1つのデバイスが、前記第1のノード及び前記第2のノードと通信状態にあり、前記コードは、請求項1から請求項15までのいずれかの請求項において定義される前記ステップを実行するように実行される、前記コンピュータ・プログラム。
JP2011512077A 2008-06-03 2009-05-28 ノード間でのデバイス・エラー情報の同期化 Active JP5255697B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/132,550 US7904752B2 (en) 2008-06-03 2008-06-03 Synchronizing device error information among nodes
US12/132,550 2008-06-03
PCT/EP2009/056557 WO2009147066A1 (en) 2008-06-03 2009-05-28 Synchronizing device error information among nodes

Publications (2)

Publication Number Publication Date
JP2011524563A true JP2011524563A (ja) 2011-09-01
JP5255697B2 JP5255697B2 (ja) 2013-08-07

Family

ID=41110621

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011512077A Active JP5255697B2 (ja) 2008-06-03 2009-05-28 ノード間でのデバイス・エラー情報の同期化

Country Status (6)

Country Link
US (1) US7904752B2 (ja)
EP (1) EP2283612B1 (ja)
JP (1) JP5255697B2 (ja)
KR (1) KR101385910B1 (ja)
CA (1) CA2708976C (ja)
WO (1) WO2009147066A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112540878A (zh) * 2019-09-20 2021-03-23 富士通株式会社 信息处理设备、信息处理系统及非暂态存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8381026B2 (en) * 2009-06-22 2013-02-19 Citrix Systems, Inc. Systems and method for transaction stall detection and propagating the result in a multi-core architecture
US8635318B1 (en) * 2009-09-15 2014-01-21 Symantec Corporation Message broadcast protocol which handles configuration changes in a cluster of virtual servers
JP5785455B2 (ja) * 2011-07-29 2015-09-30 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation リムーバブルメディアに関する処理を行う装置及び方法
US10289466B2 (en) 2017-02-01 2019-05-14 International Business Machines Corporation Error data collection improvements in storage network components

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0955735A (ja) * 1995-08-10 1997-02-25 Nippon Telegr & Teleph Corp <Ntt> 通信網故障診断システムおよび通信網故障診断方法
JPH09259050A (ja) * 1996-03-19 1997-10-03 Hitachi Ltd コンピュータ周辺機器制御装置のエラー報告方法および周辺機器制御装置
JPH11296311A (ja) * 1998-04-08 1999-10-29 Hitachi Ltd 記憶装置の耐故障制御方式
JP2003345679A (ja) * 2002-05-28 2003-12-05 Nippon Telegr & Teleph Corp <Ntt> サーバシステム、仲介装置、及び、クライアントサーバ型システムにおける誤り隠蔽方法
JP2006164304A (ja) * 2006-01-20 2006-06-22 Hitachi Ltd ドライブの2重障害を防止するアレイ型ディスク装置、プログラム、及び方法
JP2008083896A (ja) * 2006-09-27 2008-04-10 Fujitsu Ltd 異常の発生源の特定方法、システム運用方法、基地局制御システム運営方法、および処理システム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1271326B (it) 1994-12-23 1997-05-27 Sits Soc It Telecom Siemens Procedimento per il riallineamento automatico nel riporto di evento in un sistema di gestione e relativo sistema
US6098179A (en) 1998-01-22 2000-08-01 Digital Equipment Corporation Method and apparatus for performing error detection
US6728216B1 (en) 1998-02-27 2004-04-27 Advanced Micro Devices, Inc. Arrangement in a network repeater for monitoring link integrity and selectively down shifting link speed based on local configuration signals
US6510393B1 (en) * 1998-12-21 2003-01-21 Siemens Atkiengesellschaft Method for detecting faults in a switching device
US6725281B1 (en) 1999-06-11 2004-04-20 Microsoft Corporation Synchronization of controlled device state using state table and eventing in data-driven remote device control model
US6701449B1 (en) * 2000-04-20 2004-03-02 Ciprico, Inc. Method and apparatus for monitoring and analyzing network appliance status information
US7209447B1 (en) 2000-07-13 2007-04-24 Tellabs Operations, Inc. Method and apparatus for measuring packet connection quality of service
JP4185661B2 (ja) * 2000-11-17 2008-11-26 キヤノン株式会社 機器管理装置、機器管理プログラム、機器管理プログラムが格納された記録媒体、及び機器管理方法
US6865689B1 (en) * 2001-06-29 2005-03-08 Sun Microsystems, Inc. Method and apparatus for fault isolation on network loops using low level error counters
JP2003069614A (ja) 2001-08-28 2003-03-07 Nec Miyagi Ltd データ伝送装置
US7287193B2 (en) * 2003-05-15 2007-10-23 International Business Machines Corporation Methods, systems, and media to correlate errors associated with a cluster
US7092768B1 (en) 2004-03-09 2006-08-15 Liquid Sky Studios, Inc. Distributed control system
US7539932B2 (en) 2004-06-17 2009-05-26 International Business Machines Corporation Method and system for debugging Ethernet
US7624305B2 (en) * 2004-11-18 2009-11-24 International Business Machines Corporation Failure isolation in a communication system
US7254768B2 (en) 2005-02-18 2007-08-07 Broadcom Corporation Memory command unit throttle and error recovery
US7523359B2 (en) * 2005-03-31 2009-04-21 International Business Machines Corporation Apparatus, system, and method for facilitating monitoring and responding to error events

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0955735A (ja) * 1995-08-10 1997-02-25 Nippon Telegr & Teleph Corp <Ntt> 通信網故障診断システムおよび通信網故障診断方法
JPH09259050A (ja) * 1996-03-19 1997-10-03 Hitachi Ltd コンピュータ周辺機器制御装置のエラー報告方法および周辺機器制御装置
JPH11296311A (ja) * 1998-04-08 1999-10-29 Hitachi Ltd 記憶装置の耐故障制御方式
JP2003345679A (ja) * 2002-05-28 2003-12-05 Nippon Telegr & Teleph Corp <Ntt> サーバシステム、仲介装置、及び、クライアントサーバ型システムにおける誤り隠蔽方法
JP2006164304A (ja) * 2006-01-20 2006-06-22 Hitachi Ltd ドライブの2重障害を防止するアレイ型ディスク装置、プログラム、及び方法
JP2008083896A (ja) * 2006-09-27 2008-04-10 Fujitsu Ltd 異常の発生源の特定方法、システム運用方法、基地局制御システム運営方法、および処理システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112540878A (zh) * 2019-09-20 2021-03-23 富士通株式会社 信息处理设备、信息处理系统及非暂态存储介质
JP2021051351A (ja) * 2019-09-20 2021-04-01 富士通株式会社 情報処理装置,情報処理システム及び通信管理プログラム
JP7338354B2 (ja) 2019-09-20 2023-09-05 富士通株式会社 情報処理装置,情報処理システム及び通信管理プログラム

Also Published As

Publication number Publication date
US7904752B2 (en) 2011-03-08
CA2708976C (en) 2015-04-21
WO2009147066A1 (en) 2009-12-10
US20090300436A1 (en) 2009-12-03
WO2009147066A4 (en) 2010-02-11
EP2283612A1 (en) 2011-02-16
KR101385910B1 (ko) 2014-04-15
EP2283612B1 (en) 2013-04-03
JP5255697B2 (ja) 2013-08-07
CA2708976A1 (en) 2009-12-10
KR20110022587A (ko) 2011-03-07

Similar Documents

Publication Publication Date Title
US20220318100A1 (en) Methods for securely facilitating data protection workflows and devices thereof
JP6476348B2 (ja) 自動スイッチオーバーの実装
US8117169B2 (en) Performing scheduled backups of a backup node associated with a plurality of agent nodes
US20210075665A1 (en) Implementing switchover operations between computing nodes
US10015283B2 (en) Remote procedure call management
US10489230B1 (en) Chaining log operations in data replication groups
US10853210B2 (en) Storage device health status synchronization
US10623178B2 (en) System and method for secure messaging between distributed computing nodes
US20140059315A1 (en) Computer system, data management method and data management program
JP5255697B2 (ja) ノード間でのデバイス・エラー情報の同期化
US9781201B2 (en) Multicast transport
TW200805079A (en) Consolidating session information for a cluster of sessions in a coupled session environment
US9720789B2 (en) Multicast transport configuration
US20160110263A1 (en) Fault policy implementation
US10567499B1 (en) Unsupervised round robin catch up algorithm
US20090319700A1 (en) Using device status information to takeover control of devices assigned to a node
US9836329B2 (en) Decentralized processing of worker threads
US11126509B2 (en) Method and system for efficient resource usage through intelligent reporting
US20160132841A1 (en) Transacting across multiple transactional domains

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110307

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130308

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130419

R150 Certificate of patent or registration of utility model

Ref document number: 5255697

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160426

Year of fee payment: 3