JP2002312189A - クラスターシステムにおける遠隔ミラーを使用した障害通知方法及びシステム - Google Patents

クラスターシステムにおける遠隔ミラーを使用した障害通知方法及びシステム

Info

Publication number
JP2002312189A
JP2002312189A JP2001395713A JP2001395713A JP2002312189A JP 2002312189 A JP2002312189 A JP 2002312189A JP 2001395713 A JP2001395713 A JP 2001395713A JP 2001395713 A JP2001395713 A JP 2001395713A JP 2002312189 A JP2002312189 A JP 2002312189A
Authority
JP
Japan
Prior art keywords
heartbeat
host
group
remote
host group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001395713A
Other languages
English (en)
Inventor
Kenji Yamakami
憲司 山神
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JP2002312189A publication Critical patent/JP2002312189A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2094Redundant storage or storage space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2048Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share neither address space nor persistent storage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2069Management of state, configuration or failover
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/30Definitions, standards or architectural aspects of layered protocol stacks
    • H04L69/32Architecture of open systems interconnection [OSI] 7-layer type protocol stacks, e.g. the interfaces between the data link level and the physical level
    • H04L69/322Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions
    • H04L69/329Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions in the application layer [OSI layer 7]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 (修正有) 【課題】クラスターコンピューテイングシステムにおけ
る障害チェック方法を提供する。 【解決手段】生産系ホストグループ130aと、これに
ネットワークにより結合した待機系ホストグループ13
0bと、生産系ホストグループ130aと待機系ホスト
グループ130bに組み込まれ、生産系サイトハートビ
ートストレージボリュームPVOL110aと、これに
遠隔リンクで結合した待機系サイトハートビートストレ
ージボリュームSVOL111bを含む遠隔ミラーとで
構成され、生産系ホストグループ130aは、ハートビ
ート信号を生成し、ネットワークか遠隔ミラーの少なく
とも1つを選択的に使用して、ハートビート信号を待機
系ホストグループに送信し、待機系ホストグループが生
産系ホストグループ130aから不当なハートビート信
号を受信した場合、待機系ホストがシステムのオペレー
ションを司る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はクラスターコンピュ
ーテイングシステムに関連し、特に、遠隔ミラー技術を
使用したクラスターコンピューテイングシステムでのハ
ートビートチェック機構(heartbeat−che
cking mechanisms)を提供するシステ
ム、及びその方法に関連する。本発明は、プライマリサ
イトでのホストが、セカンダリサイトでのホストに(こ
の逆も含めて)遠隔ミラー技術を用いて、ハートビート
信号を送信することを可能にする。
【0002】
【従来の技術】“クラスターリング:Clusteri
ng”は、複数のコンピュータ(又はホストサーバー)
を結合して、あたかも1個の単独装置のように振舞わせ
ることを可能にする公知の技術である。クラスターリン
グは、並列処理、負荷バランス、及びフォールトトレラ
ンスの目的に使用される。クラスターサーバーは、協力
して、計算負荷やリスクを分散させる。もし、クラスタ
ーコンピューテイングシステム中の一つのサーバーが障
害になっても、オペレーテイングシステムは障害サーバ
ー中のプロセスをクラスターコンピューテイングシステ
ム中の他の正常サーバーに移すことが出来る。これによ
り、ユーザは、障害サーバーが回復するまでの間も仕事
を続けることが出来る。
【0003】クラスターコンピューテイングシステム
は、アプリケーションの停止を防止するため、適用が広
がりつつある。ある種類のクラスターコンピューテイン
グシステムは、2つのホスト(例えば、サーバー)群を
持ち、このうち、一つのホスト群が生産系システムとし
て稼動して、他のホスト群は待機系システムとして働く
ものがある。典型的には、一つのホスト群は、他のホス
ト群より地理的に(例えば数100マイルも)離れてい
る。
【0004】各ホスト群は、各々付属したストレージシ
ステム(例えば、デイスクシステム)をもっている。こ
れら2式のストレージシステムは、典型的には、以降に
議論される遠隔ミラー技術を実装している。従って、待
機系ホスト群に接続されるストレージシステムには、生
産系ホスト群のストレージシステムと同じデータが保持
されている。
【0005】この二つのホストサーバー群を接続するネ
ットワークは、典型的にはインターネット等のWAN
(Wide Area Network)である。WA
Nは、障害に弱く、一般的には信頼性も低い。インター
ネット経由のデータ転送は、遅れの影響を受けやすく、
又データが失われることもあり得る。
【0006】
【発明が解決しようとする課題】従って、待機系ホスト
群は、ネットワーク障害(例えばリンク障害又は転送遅
れ)を、生産系ホスト群(ここには何の障害がなくて
も)の障害と誤ってみなして、生産系ホスト群のプロセ
スを切り替えてしまう問題点が存在する。
【0007】生産系ホスト群は、当該システム中のプラ
イマリボリューム(PVOL)と称されるストレージボ
リュームにアクセスできる。同様に、待機系ホスト群
は、当該システム中のセカンダリボリューム(SVO
L)と称されるストレージボリュームにアクセスでき
る。プライマリボリューム(PVOL)は、セカンダリ
ボリューム(SVOL)によってミラー(2重)化され
ている。ストレージシステムとしては、PVOLとSV
OLの双方をもつことが出来る。
【0008】ストレージベースの遠隔ミラー技術は、与
えられた距離の間でデータのミラーボリュームを生成
し、データの蓄積を行う。2つのデイスクシステムは、
ESCON(Enterprise System C
onnectivity)、ファイバチャネル(Fib
re Channel)、電話回線(Telecomm
unication Lines)、又はこれら遠隔リ
ンクの組み合わせにより直接接続される。ローカルデイ
スクシステム中のデータは、この遠隔リンクを通して転
送され、直接遠隔デイスクシステムにコピーされる。こ
れらの遠隔リンクは、典型的には、インターネット等の
通常のネットワークに比べて、高度に信頼性が高い。も
し、遠隔リンクが障害になると、致命的なデータ損失が
なされる恐れがある。
【0009】U.S.Patent No.5,45
9,857と5,544,347は、何れも、遠隔ミラ
ー技術を公開している。これらの特許公報では、遠隔リ
ンクで結合され、互いにある距離で隔たられた2つのデ
イスクシステムについて公開している。ミラー化された
データは、ローカルデイスクシステムと遠隔デイスクシ
ステムの双方に格納される。ペアの生成が指示される
と、ローカルデイスクシステムは、ローカルデイスク中
のデータをコピーする。もし、ホストサーバーがデイス
ク中のデータを更新すると、ローカルデイスクシステム
がこの更新データを遠隔デイスクシステムに遠隔リンク
を経由して転送する。かくして、ホスト自身は、一つの
デイスクシステムのミラーデータを他のデイスクシステ
ムに維持する必要はない。
【0010】U.S.Patent No.5,93
3,653は、ローカルデイスクシステムと遠隔デイス
クシステムとの間の別のタイプのデータ転送方法を公開
している。同期モードでは、ローカルデイスクシステム
は、ホストからのWrite要求が終了する前に、遠隔
デイスクシステムに更新データの転送をおこなう。準同
期モードでは、ローカルデイスクシステムは、ホストか
らのWrite要求が終了してから、遠隔デイスクシス
テムに更新データの転送をおこなう。その後に続くWr
ite要求は、この前の更新データが遠隔デイスクシス
テムに転送されるまでは、実行されない。適応型コピー
モードでは、遠隔デイスクシステムにコピーされるデー
タは、一旦メモリに格納され、遠隔デイスクシステムに
は、ローカルデイスクシステム、及び/または、遠隔リ
ンクがコピー動作可能なときに転送される。
【0011】以上に述べた従来システムや方法に纏わる
欠陥を克服するシステムや方法が必要である。さらにま
た、クラスターコンピューテイングシステムの信頼性を
向上し、これらコンピューテイングシステムの障害検出
能力を向上させるシステムや方法が必要である。さらに
また、クラスターシステムでの生産系ホスト群の障害を
正確に検出して、待機系ホストが履障していない生産系
ホスト群よりプロセスを誤って切り替えてしまわないよ
うにする、システムや方法が必要である。
【0012】
【課題を解決するための手段】本発明で述べられる装置
や方法は、クラスターコンピューテイングシステムでの
遠隔ミラー技術を利用したハートビートチェック機構を
提供する。ひとたび遠隔ミラーが生成され、ハートビー
トチェック機能がセットアップされると、第一のホスト
は、当該ホストと地理的に離れた他のホストに対して、
ハートビートメッセージを送信する。このハートビート
信号は、ネットワーク及び/又は遠隔ミラーを経由して
転送される。
【0013】本発明の一つの実施例では、生産系ホスト
群、該生産系ホスト群にネットワークで結合された待機
系ホスト群、及び該生産系ホスト群と該待機系ホスト群
に結合された遠隔ミラーにより構成され、該遠隔ミラー
は、生産系サイトのハートビートストレージボリューム
(heartbeat PVOL)と遠隔リンクにより
本ハートビートPVOLに結合された待機系サイトのハ
ートビートストレージボリューム(heartbeat
SVOL)を含み、該生産系ホスト群はハートビート
信号を待機系ホスト群に少なくともネットワークか遠隔
リンクの一つを選択的に使用して送信する、ように構成
された広範囲なクラスターコンピューテイングシステム
を提供する。
【0014】他の実施例では、本発明はハートビート信
号の双方向転送を可能にする。本構成では、クラスター
コンピューテイングシステムは、生産系ホスト群と待機
系ホスト群に結合された第二の遠隔ミラーをもつことを
可能にして、該第二の遠隔ミラーはハートビート信号を
転送する第二の遠隔リンクを含み、該待機系ホスト群が
ハートビート信号を該生産系ホスト群に少なくともネッ
トワークか遠隔リンクの一つを選択的に使用して送信す
る、ように構成される。
【0015】もう一つの実施例では、クラスターコンピ
ューテイングシステムでの広範囲な障害検知方式を提供
する。本方式では、生産系ホスト群からハートビート信
号を生成し、少なくとも一つのネットワークか一つの遠
隔リンクを選択的に使用して、当該ハートビート信号を
生産系ホスト群から待機系ホスト群に送信して、もし待
機系ホスト群が生産系ホスト群から不当なハートビート
信号を受信した場合には、待機系ホスト群がクラスター
コンピューテイングシステムの処理を司る事が可能にな
る。
【0016】もう一つの実施例では、クラスターコンピ
ューテイングシステムで遠隔ミラーをインストールする
方法を提供する。この方法は、生産系サイトに存在する
第一のストレージボリュームをデバイスアドレスエント
リーに登録し、該第一のストレージボリュームを含む遠
隔ミラーを該生産系サイトが活性化し、該生産系サイト
から待機系サイトに活性化メッセージを送信して、該待
機系サイトでは当該サイトに存在する第二のストレージ
ボリュームをデバイスアドレスエントリーに登録し、当
該サイトからも当該遠隔ミラーを活性化する事により、
第一と第二のストレージボリュームで形成される遠隔ミ
ラーをインストールする事により構成される。
【0017】もう一つの実施例では、クラスターコンピ
ューテイングシステムで遠隔ミラーをアンインストール
する方法を提供する。この方法は、生産系サイトにて遠
隔ミラーを不活性化状態にして、生産系サイトから待機
系サイトに不活性化メッセージを送信して、該待機系サ
イトでは当該遠隔ミラーを不活性化する事により、該遠
隔ミラーをアンインストールする事により構成される。
【0018】もう一つの実施例では、クラスターコンピ
ューテイングシステムでハートビートメッセージを生産
系サイトから待機系サイトに送信する方法を提供する。
本方法は、生産系サイトのホストと待機系サイトのホス
ト間のネットワークが使用可能かを判定し、使用可能な
ら当該ネットワークを通して該生産系サイトのホストか
ら該待機系サイトのホストへ、ハートビートメッセージ
を送信し、該生産系サイトのホストと該待機系サイトの
ホスト間の遠隔ミラーが使用可能かを判定し、使用可能
なら当該遠隔ミラーを通して該生産系サイトのホストか
ら該待機系サイトのホストへハートビートメッセージを
送信する事により構成される。
【0019】もう一つの実施例では、クラスターコンピ
ューテイングシステムで、ハートビートメッセージを待
機系サイトのホストが生産系サイトホストから受信する
方法を提供する。本方法は、生産系サイトのホストと待
機系サイトのホスト間のネットワークが使用可能かを判
定し、使用可能なら当該ネットワークを通して、該生産
系サイトホストから該待機系サイトのホストへのハート
ビートメッセージをチェックし、該生産系サイトのホス
トと該待機系サイトのホスト間の遠隔ミラーが使用可能
かを判定し、使用可能なら当該遠隔ミラーを通して、該
生産系サイトのホストから該待機系サイトのホストへの
ハートビートメッセージをチェックし、もし不当なハー
トビートが該ネットワーク及び該遠隔ミラーを通して受
信されたら、該待機系ホストがクラスターコンピューテ
イングシステムでのオペレーションを司る事により構成
される。
【0020】もう一つの実施例では、クラスターコンピ
ューテイングシステムで、プライマリーグループとセカ
ンダリーグループの間で、ハートビートのチェック手順
を決定する方法を提供する。
【0021】本方法は、ハートビートのチェック手順の
決定を要求するコマンドを用意して、当該要求コマンド
に応答して、プライマリーグループ中の第一のハートビ
ートチェックモジュールがプライマリーグループとセカ
ンダリーグループ間のネットワークを活性化又は不活性
化させ、当該要求コマンドに応答して、該第一のハート
ビートチェックモジュールがプライマリーグループとセ
カンダリーグループ間の遠隔ミラーを活性化又は不活性
化させ、該第一のハートビートチェックモジュールが当
該要求コマンドをセカンダリーグループ中の第二のハー
トビートチェックモジュールに送信し、当該要求コマン
ドに応答して、該第二のハートビートチェックモジュー
ルがプライマリーグループとセカンダリーグループ間の
ネットワークを活性化又は不活性化させ、当該要求コマ
ンドに応答して、該第二のハートビートチェックモジュ
ールがプライマリーグループとセカンダリーグループ間
の遠隔ミラーを活性化又は不活性化させ、該第二のハー
トビートチェックモジュールがネットワークを活性化さ
せた場合は、ハートビートチェックはネットワークを経
由してなされ、該第二のハートビートチェックモジュー
ルが遠隔ミラーを活性化させた場合は、ハートビートチ
ェックは遠隔ミラーを経由してなされる事により構成さ
れる。
【0022】
【発明の実施の形態】以降、本分野の技術者なら誰でも
本発明を活用できるように、一つのアプリケーションと
要求例に基づいて記述する。本実施例に対する各種の変
更は本分野の技術者にとっては自明であり、ここに記述
された固有の原理は本発明の精神と範囲から離れること
なく、他の実施例にも適用可能である。したがって、本
発明はここに記された実施例に限定されることなく、こ
こで公開された原理、要素、及び技術に整合する範囲で
最も広範囲に解釈される必要がある。
【0023】図1は本発明の一実施例でのシステム50
を示すブロックダイアグラムである。システム50はプ
ライマリグループ(生産系ホストグループ)130aと
セカンダリーグループ(待機系ホストグループ)130
bの2つのホストグループにより構成される。プライマ
リグループ130aは典型的には、生産系サイトに存在
し、通常は待機系サイトに存在するセカンダリーグルー
プ130bとは離れた位置に存在する。プライマリグル
ープ130aは1つまたは複数のホスト100aで構成
され、セカンダリーグループ130bも、又1つまたは
複数のホスト100bで構成される。これらのホスト
は、通常はサーバーである。
【0024】本分野の技術者にとっては明らかなよう
に、サーバーはネットワーク上でネットワーク資源を管
理するコンピュータまたはデバイスである。例えば、フ
ァイルサーバーは記憶ファイル処理に特化したコンピュ
ータ及び記憶デバイスである。当該ネットワーク上のユ
ーザは誰でも当該サーバーにファイルを保存することが
出来る。プリントサーバーは1つまたは複数のプリンタ
ーを管理し、ネットワークサーバーはネットワークトラ
フィックを管理するコンピュータである。データベース
サーバーはデータベース問い合わせ処理をするコンピュ
ータシステムである。
【0025】慣用的なクラスターコンピューテイングシ
ステム環境では良く知られているように、アプリケーシ
ョン103aは、通常はプライマリーグループ130a
上で走行し、セカンダリーグループ130b上のアプリ
ケーション103bは待機モードになっている。もし、
(セカンダリーグループ130b)中のハートビートチ
ェック101bが、ハートビートチェック101aが障
害になったと判断したら、アプリケーション103aは
待機系サイトのセカンダリーグループ130bに切りか
え”fail over”られる。アプリケーション1
03aがセカンダリーグループ130bに切りかえらる
と、アプリケーション103bが当該システム50中で
稼動する。
【0026】アプリケーション103aは、ハートビー
トチェック101aがこれ以上機能不可と判断した時
も、セカンダリーグループ130bに切りかえられ、ア
プリケーション103bが当該システム50中で稼動す
る。このことは例えば、他ホスト100aの障害によ
り、残ったただ一つのホスト100aが稼動状態にな
り、結果として当該稼動ホスト100aがみずからに割
り当てられたタスクを実行できない場合に発生する。こ
の例でも、アプリケーション103bが割り当てられた
タスクを実行する為、当該システム50中で稼動する。
【0027】実施例により、ハートビートチェック10
1aおよびハートビートチェック101bはモジュー
ル、ソフトウエアプログラム、ファームウエア、ハード
ウエア、またはこれらの要素の組み合わせでも良く、ま
たは他の適当なコンポーネントでも良い。
【0028】クラスターリングプログラム104aおよ
び104bはホスト100aおよび100bをクラスタ
ーリングコンピューテイングシステムとして稼動させる
公知のプログラムである。ハートビートチェック101
aはクラスターリングプログラム104aより独立して
いても良く、クラスターリングプログラム104aに結
合または、付加されて1つのプログラムになっていても
良い。
【0029】同様に、ハートビートチェック101bは
クラスターリングプログラム104bより独立していて
も良く、クラスターリングプログラム104bに結合ま
たは、付加されて1つのプログラムになっていても良
い。
【0030】オペレーテイングシステム102aはクラ
スターリングプログラム104a及びハートビートチェ
ック101を稼動させるために、API(applic
ation program interface)を
提供する。例えば、オペレーテイングシステム102a
は、ストレージボリュームに対する、”Open”,”
Read”,”Write”,及び”Close”を提
供する。ハートビートチェック101は、ハートビート
メッセージを送信する時(例えば、ボリュームへのポイ
ンタを得る時に、”open(vol)”を,メッセー
ジの書き込み時に、”write (messag
e)”を,及びポインターを放棄する時に、”clos
e(vol)”を)に、これらのAPIを使用する。
【0031】図1のパス120aと120bは標準プロ
トコルを使用して、ホスト100aとストレージシステ
ム110a間の情報転送を行う。パス120の例として
は、SCSI,Fibre Channel、ESCO
N,あるいはEthernetを含み、標準プロトコル
としては、SCSI−3,FCP,ESCON,TCP
−IPが各々対応する。
【0032】同様に、オペレーテイングシステム102
bは上述されたオペレーテイングシステム102aの場
合と同様に、ホスト100bのための機能を実行する。
各ホストは、クラスターリングプログラム104、ハー
トビートチェック101、及びオペレーテイングシステ
ム102aを持つ。ハートビートチェック101はクラ
スターリングプログラム104の一部でも良い(非分離
ケース)。各オペレーテイングシステム102aは独立
に動作する。クラスターリングプログラム104(と及
びハートビートチェック101)は他のホストの状態
(即ち、当該ホストの生死)を知っている。当該ホスト
の検出された状態により、クラスターリングプログラム
は切り替えの要否を決定する。
【0033】各ホスト100aは、ユーザの指定によ
り、そのホスト固有のアプリケーションを持つことも出
来る。例えば、(ホスト100a中の)ホスト1はオラ
クルデータベースを、ホスト2はペイロールアプリケー
ションを、ホスト3はオーダーエントリアプリケーショ
ン等を走行させる。もし、ホスト1が障害になると、オ
ラクルデータベースはホスト2でオープンされる。かく
して、ホスト2はオラクルデータベースとペイロールア
プリケーションを走行させることになる。
【0034】本発明では、プライマリグループ130a
中の一ホストを、マスタホスト160aに、セカンダリ
グループ130b中の一ホストを、マスタホスト160
bに、設定する。以降に記述されるように、マスタホス
ト160aと160bはハートビート”Heartbe
at”信号300を、互いに交換して、切り替えを実施
すべきか否かを決定する。プライマリグループ130a
中の他のホスト100aは、そのときの、マスタホスト
160aが下記の幾つかのルールにて、障害になったと
みなされたら、新しいマスタホスト160aになる。当
該ルールの幾つかの例を下記に示す。
【0035】(1)マスタホスト160aがハートビー
ト信号を1分間送信しなかった;または、(2)マスタ
ホスト160aが不当メッセージを送信した。(例え
ば、当該メッセージが不当(その時点でない)日時、マ
スタホストの不当ID、または、当該クラスターの期限
切れインスタンスID(またはプロセス)等、を含む) 同様に、他のホスト100bも、もしそのときのマスタ
ホスト160bが上記の幾つかのルールにより、障害に
なったと判断されたら、新しいマスタホスト160bに
なる。
【0036】全てのホスト100a(マスタホスト16
0aを含めて)は、ネットワーク140により、全ての
ホスト100b(マスタホスト160bを含めて)に接
続される。かくして、プライマリグループ130a中の
全てのホスト100aは、セカンダリグループ130b
中の全てのホスト100bと交信できる。典型的には、
ネットワーク140はLAN(Local Area
Network)または、インターネットのようなWA
N(Wide Area Network)である。
【0037】公知のように、LANは比較的狭い範囲の
コンピュータネットワークである。大部分のLANは1
つのビルかビルグループの範囲に限定される。大部分の
LANはワークステーションやPCを接続する。LAN
中の各ノード(個別のコンピュータ)は自らのCPU
(central processingunit)を
もち、プログラムを実行し、LAN中の何処に接続され
たデータやデバイスにもアクセスできる。
【0038】かくして、多くのユーザはデータや高価な
装置、例えばレーザプリンターを共有できる。更に、ユ
ーザは例えば、e−mailの送信や、チャットを行う
等、LANを通信のために使用することが出来る。実に
多くの異なったLANが存在するが、イーサネット(登
録商標)がPCには最も普及している。LANはデータ
を非常に高速に、電話回線より遥かに高速に転送でき
る。しかしながら、LANでは接続距離が制限され、ま
た一つのLANに接続できるコンピュータの数も限られ
ている。
【0039】また、公知のように、WANは比較的広範
囲をカバーできるコンピュータネットワークである。典
型的には、WANは2つ以上のLANを含む。WANに
接続されたコンピュータはしばしば、電話回線の如き公
衆回線で接続される。これらはまたリース回線や衛星を
通して結ばれる。現存する最大のWANはインターネッ
トである。
【0040】このようなネットワーク140を通して、
マスターホスト160aと160bは互いにハートビー
ト信号を交換する。また、ネットワーク140を通し
て、マスターホスト160aと160bは互いにハート
ビートチェックを実行する。即ち、マスターホスト16
0aはマスターホスト160bの生死の確認を、以下に
示すとおりマスターホスト160bからのハートビート
信号をチェックすることにより実行する。同様に、マス
ターホスト160bはマスターホスト160aの生死の
確認をマスターホスト160aからのハートビート信号
をチェックすることにより実行できる。
【0041】プライマリーグループ130aは生産系サ
イトのストレージシステム110aに結合しており、セ
カンダリーグループ130bは待機系サイトのストレー
ジシステム110bに結合している。各ストレージシス
テム110a及び110bは例えば、デイスクシステム
を構成する。各ストレージシステム110a及び110
bは2台以上のデイスクより構成される。各ストレージ
システム110a及び110bは1または複数個の遠隔
リンク150により互いに結合され、これらを通して互
いに交信する。典型的には遠隔リンクは、ESCON,
Fibre Channel,電話回線、またはこれら
の組み合わせを含む。
【0042】公知のように、ESCONはIBM社の製
品セットで、S/390コンピュータ・ストレージ、ロ
ーカルワークステーションや他のデバイスを、光ファイ
バー技術や、ESCONデイレクターと言われるダイナ
ミックスィッチを通して、互いに結合する。
【0043】また公知のように、Fibre Chan
nelはコンピュータとマスストレージデバイスコンソ
ーシアムで開発された直列データ転送アーキテクチュア
で、今や、ANSI(American Nation
al StandardsInstitute)で標準
化されつつある。最も優勢なFibre Channe
l標準は、新しい非常に高い帯域を必要とするマススト
レージや、他の周辺装置の為に設計された、FC−AL
(Fibre Channel Arbitrated
Loop)である。デバイスを接続するために光ファ
イバーを用いることにより、FC−ALは100MB/
sの完全Duplexのデータ転送を可能にする。
【0044】ストレージシステム110aと110bで
構成されるデイスクシステムは遠隔ミラーシステムを構
成し、1台又は複数台の遠隔ミラー111で構成され
る。各遠隔ミラー111はストレージシステム110a
中のストレージボリューム(heartbeat PV
OL)111aとストレージシステム110b中のスト
レージボリューム(heartbeat PVOL)1
11bで構成される。ハートビートチェック101aが
ハートビートメッセージ300をハートビートPVOL
111aに記録すると、ストレージシステム110aは
ハートビートメッセージ300を遠隔リンク150を通
して、ハートビートSVOL111bに記録する。ハー
トビートチェック101bはハートビート信号300を
ハートビートSVOL111bより読み出して、ホスト
100aの生死をチェックする。
【0045】遠隔ミラー111、ハートビートPVOL
111a、ハートビートSVOL111b、及び遠隔リ
ンク150(ハートビートPVOL111aとハートビ
ートSVOL111bをリンクする)の数は可変であ
る。ハートビートPVOL111aはハードウエア障害
で死ぬことがある。複数のハートビートPVOL111
aをハートビート信号300で使用する事はシステム5
0の信頼性向上に有益である。
【0046】ハートビートチェック101aはハートビ
ートメッセージ300をパス170aを通して、例え
ば、SCSI(Small Computer Sys
temInterface)ドライバーを通してハート
ビートVOL111aに書きこむ。SCSIはAppl
e Macintosh コンピュータ、PC,及び多
くのUNIX(登録商標)システムで周辺装置をコンピ
ュータに接続するために使用されている標準的並列イン
ターフェースである。SCSIは標準的直列又は並列ポ
ートより高速(80MB/sまで)なデータ転送速度を
提供する。
【0047】ストレージシステム110aには、ハート
ビート信号300は書きこみデータに見える。ストレー
ジシステム110aはハートビート信号300をハート
ビートPVOL111aに記録して、ハートビート信号
300を慣用的ドライバーや送信器(図1には示されな
い)を用いて、遠隔リンク150を通して転送する。
【0048】ハートビート信号300はストレージシス
テム110b中の慣用的な遠隔コピー機構により受信さ
れ、SVOL111bに書きこまれる。ハートビートチ
ェック101bは、ハートビートSVOL111b中に
記録されたハートビート信号300をオペレーテイング
システムが提供する慣用的APIよりパス170bを通
して、読み出す。
【0049】マスターサーバー160a中のハートビー
トチェック101aはハートビート信号300を予め定
められた間隔例えば、1秒毎、10秒毎、60秒毎等の
間隔で送信する。ハートビートチェック101aは、上
記されたようにハートビート信号300をパス170a
を通して、ハートビートPVOL111aに書きこむ。
ハートビートチェック101aはハートビート信号30
0を遠隔リンク経由で送信すると共に、同時にネットワ
ーク140経由でもホスト100bに送信出来る。
【0050】ストレージシステム110a及び110b
で形成されるデイスクシステムは更に、生産用データを
蓄積するために、1つ又は複数の遠隔ミラー112で構
成される。各遠隔ミラー112はユーザ用PVOL11
2aとユーザ用SVOL112bのストレージボリュー
ムで構成される。ユーザ用PVOL112aとユーザ用
SVOL112bの1例はオラクル社のデータベースで
構成される。
【0051】ユーザ用PVOL112aとユーザ用SV
OL112bは更に、WorldWide Webや、
テキストファイル等のデータも蓄積する。アプリケーシ
ョンがユーザ用PVOL112aのデータを更新する
と、ストレージシステム110aがストレージシステム
110bへの遠隔リンク151を経由して、通常の遠隔
コピー機能を利用してユーザ用SVOL112bに書き
こむべく転送する。ストレージシステム110bは遠隔
リンク151を経由して、通常の遠隔コピー機能を利用
して送信されてきたデータを受け取り、当該受信データ
をユーザ用SVOL112bに書きこむ。
【0052】マスタホスト160bを含めてホスト10
0bは当該セカンダリグループへのシステム切り替え
後、ユーザ用SVOL112bにアクセスして、当該蓄
積データを読み取る。言いかえると、生産系サイトでプ
ライマリグループ130aが障害になり、所定のオペレ
ーションやタスクの実行が不可能になると、待機系サイ
トのセカンダリグループ中のホスト100bがシステム
50のオペレーションやタスクを実行する。
【0053】切り替えの契機となる障害の例としては、
ホスト障害、ストレージシステム又はデイスク障害、ア
プリケーション又はソフトウエア障害、ハードウエア障
害、信号パス又は結合障害等、生産系サイトでのホスト
グループ130aがシステム50での所定のオペレーシ
ョンやタスクの実行を妨げる障害があげられる。公知の
ように、ユーザデータベースの如く生産用データを保持
しているミラーボリュームはユーザがブレイク(spl
it)コマンドを投入することにより人為的に中断させ
ることが出来る。
【0054】ミラーボリュームは例えばバックアップタ
スクや他のアプリケーションやジョブをユーザ用SVO
L112bで実行する為、中断(PVOL112aとの
リンクを一時的に切る)される。生産系サイトのユーザ
はブレイク(split)コマンドを発行して、ユーザ
用PVOL112aがユーザ用SVOL112bに遠隔
リンク151を経由してデータを送るのを抑止する事が
出来る。即ち、Splitコマンドはストレージシステ
ム110aがストレージシステム110bにデータを送
信する事を抑止する。
【0055】以上のことより、遠隔ミラー111は遠隔
ミラー112より分離(独立に存在)され、遠隔ミラー
111はSplitコマンドの適用を免れることが出来
る。既に述べられた通り,ハートビートPVOL111
aは遠隔リンク150を経由して、ハートビート信号3
00をハートビートSVOL111bに送信する。Sp
litコマンドが有効になると、ハートビートPVOL
111aが遠隔リンク150を経由して、ハートビート
信号300をハートビートSVOL111bに送信する
事が不可能になる問題点がある。
【0056】遠隔ミラー111と112を分離する事に
より、たとえユーザが、Splitコマンドを発行し
て、ハートビートPVOL112aが遠隔リンク151
を経由して、ハートビート信号300をハートビートS
VOL112bに送信出来なくても、ハートビートPV
OL111aは引き続き、ハートビート信号300をハ
ートビートSVOL111bに送信する事が出来る。
【0057】本発明は生産用データを保有するミラー1
12をハートビートチェック用に使用しなくても済むよ
うにし、また、ミラーボリューム111をアンインスト
ールする前にミラーボリュームを中断しなくても良いよ
うにする。
【0058】テーブル ハートビート状態テーブル250: 図2は各マスタホス
ト160a,160bに格納されるハートビート状態テ
ーブル250のブロックダイアグラムである。ハートビ
ート状態テーブル250はホスト中のメモリとボリュー
ムの双方に保存される。当該ボリュームは遠隔ミラー
(即ちPVOL)になっているのが良い。
【0059】テーブル250はハートビートチェック1
01aで使用される。マスタホスト160a上で走行す
るハートビートチェック101aはハートビート状態テ
ーブル250を生成し、参照し、又更新する。同様に、
マスタホスト160b上で走行するハートビートチェッ
ク101bはマスタホスト160b中のもう一つのハー
トビート状態テーブル250を生成し、参照し、又更新
する。
【0060】もし、他のホスト100aが新たなマスタ
ホスト160aになった場合は、そのホストが関連する
ハートビート状態テーブル250を生成し、参照し、ま
た更新する。同様に、もし、他のホスト100bが新た
なマスタホスト160bになった場合は、そのホストが
関連するハートビート状態テーブル250を生成し、参
照し、また更新する。
【0061】以降で詳細に触れるように、ハートビート
状態テーブル250は、ネットワークハートビート可能
200、遠隔グループ状態210、遠隔コピーハートビ
ート可能220、遠隔グループ状態230、デバイスア
ドレス(1)、(2)、...(n)240、とデバイ
ス状態(1),(2),...(n)241で構成され
る。
【0062】ネットワークハートビート可能200は、
ネットワーク140がハートビート信号300の送信に
使用できるか否かを示す。可能な値は”ENABL
E”、”DISABLE”、及び”FAILED”を含
む。”ENABLE”のエントリは、システム50がネ
ットワーク140経由でハートビート信号300を送信
する事、を許可するようにユーザが設定したことを示
す。もしユーザがハートビート信号300の送信にネッ
トワーク140を使用しない場合はネットワークハート
ビート可能200は”DISABLE”に設定される。
【0063】ユーザは、マスタホスト160a中でコマ
ンドを発行する事により、ハートビート信号300をネ
ットワーク140経由で送信する事を許可又は不許可に
する事が出来る。もしハートビートチェック101a
(又は101b)がシステム50中で回復不能エラーを
検出した場合は、ハートビートチェック101aはネッ
トワークハートビート可能200エントリを”FAIL
ED”に設定する。ネットワークハートビート可能20
0エントリが”DISABLE”又は”FAILED”
の場合は、ハートビートチェック101a(又は101
b)はネットワーク140をハートビート信号のチェッ
クには使用しない。
【0064】遠隔グループ状態210は、他のグループ
(遠隔ホストグループ130b)の生(機能を果たせ
る)死状態を、ネットワーク140を通したハートビー
トチェックの結果により表示する。例えば、生産系サイ
トのマスタホスト160a中の遠隔グループ状態210
は、待機系サイトの少なくとも1つのホスト100bの
状態を表示する。遠隔グループ状態210の表示結果は
ネットワーク140を通したハートビートチェックの結
果に依存する。待機系サイトのホスト100bが動作可
能状態なら遠隔グループ状態210のエントリは”AL
IVE”を表示する。もし、ネットワーク140又は遠
隔グループ130b又は遠隔グループ130bを稼動不
能にならしめるいかなる部品障害でも存在すれば、遠隔
グループ状態210のエントリは”FAILED”を表
示する。
【0065】遠隔コピーハートビート可能220は、遠
隔ミラー111がハートビート信号300で使用可能か
否かを表示する。遠隔コピーハートビート可能220エ
ントリの有効な値は、”ENABLE”、”DISAB
LE”、または”FAILED”である。もしユーザが
ハートビート信号300の送信に1つ又は複数の遠隔ミ
ラー111の使用を指定したら、遠隔コピーハートビー
ト可能220エントリは”ENABLE”を表示する。
もしユーザがハートビート信号300の送信に遠隔ミラ
ー111の不使用を指定したら、遠隔コピーハートビー
ト可能220のエントリは”DISABLE”を表示す
る。
【0066】もし、全ての遠隔ミラー111が不使用又
は障害状態なら、遠隔コピーハートビート可能220の
エントリは”FAILED”を表示する。後述されるよ
うに、デバイス状態241のエントリは各遠隔ミラー1
11の使用可否状態を表示する。
【0067】遠隔ミラー111を経由したチェック結果
は対応遠隔グループ130bの生(稼動可能)死(稼動
不能)状態を表示する。遠隔グループ状態230はハー
トビートチェックの結果を表示する。この遠隔グループ
状態230の表示結果は、遠隔ミラー111経由のハー
トビートチェック結果のみに依存する。もし、全ての遠
隔リンク150が履障しているか、全ての遠隔ミラー1
11が履障していれば、プライマリグループ130aか
らの遠隔ミラー111経由のハートビート信号300
は、遠隔グループ130bに到達する事が出来ない。こ
の結果、遠隔グループ状態230の当該エントリは”F
AILED”を表示する。
【0068】デバイスアドレス240は、ハートビート
信号300用ミラーデバイスのデバイスアドレスを示
す。例えば、デバイスアドレス240はマスタホスト1
60aに格納され、ハートビートPVOL111aのデ
バイスアドレスを保持する。ハートビートチェック10
1aは、ハートビート信号300を、マスタホスト16
0a中のハートビート状態テーブル250に記載済のデ
バイスアドレス240中にリストされているデバイスア
ドレスに対応する遠隔ミラー111中のハートビートP
VOL111aに書きこむ。
【0069】同様に、デバイスアドレス240はマスタ
ホスト160bに格納され、ハートビートSVOL11
1bのデバイスアドレスを保持する。ハートビートチェ
ック101bは、デバイスアドレス240中にリストさ
れているデバイスアドレスに対応するミラー111中の
ハートビートSVOL111bに記録されているハート
ビート信号300を読み出す。
【0070】デバイス状態241はデバイスアドレス2
40に対応する登録済デバイス(ハートビートミラー1
11)の状態を示す。デバイス状態241のエントリの
値は”ENABEL”,”DISABLE”、及び”F
AILED”を含む。もし、ユーザが1つのミラー11
1を不活性にするか、当該ミラー111で障害が発生す
れば、そのミラー111のデバイス状態241は”DI
SABLE”か”FAILED”を表示し、ハートビー
トチェック101aは当該履障ミラーをハートビート信
号300の転送用には使用しない。
【0071】図2に示すとおり、ハートビート信号30
0処理用の複数のミラー111に対して、デバイスアド
レス240中には、複数のエントリ(240a,240
b,..240c)が存在し、デバイス状態241にも
複数のエントリ(241a,241b,..241c)
が存在する。言いかえると、エントリ240a,241
aは1つのミラー111に対応し、エントリ240b,
241bは他のミラー111に対応する。ハートビート
状態テーブル250中の不使用エントリは”NULL”
を含む。
【0072】ハートビートメッセージ300 プライマリサイト中のマスタホスト160aはセカンダ
リサイト中のマスタホスト160bにネットワーク14
0及び,又はハートビートミラー111を経由して、ハ
ートビートメッセージ(又は信号)300を送信する。
ハートビートメッセージ300の送信にミラー111を
使用する場合は、マスタホスト160aはこのハートビ
ートメッセージ300をハートビートPVOL111a
に書きこみ、マスタホスト160bはこの転送されたハ
ートビートメッセージ300をハートビートSVOL1
11bから読み出す。
【0073】図3はハートビートメッセージのデータフ
ォーマットの1例を示すブロックダイアグラムである。
ハートビートメッセージ300は少なくとも下記のエン
トリのいくつかを含む。通し番号310は各ハートビー
トメッセージ300に順に割り当てられた通し番号であ
る。一例として、この番号はハートビートメッセージ3
00が送られる度に1が加算され、最大値に達したら、
1に初期化される。時刻320はマスタホスト160a
中で走行しているハートビートチェック101aがハー
トビートメッセージ300を生成した時の時刻を含む。
識別子330は当該メッセージの送信者を識別するため
に用いられる。
【0074】この識別子はプライマリサイト中で走行中
のハートビートチェック101aにアサインされたユニ
ークな番号であればよく、例えば、ハートビートメッセ
ージ300を送信しているハートビートチェック101
aにユニークに与えられた名前、マスターホスト160
aのIP(Internet Protocol)アド
レスやこれらの組み合わせでも良い。
【0075】ハートビート信号に使用されるミラーのイ
ンストール方法(図4を参照) 既に述べられた様に、ハートビート信号300に使用さ
れるハートビートミラー111は生産用データを格納す
る生産用ミラー112とは別のものである。これは、生
産用ミラー112はSVOLよりのバックアップを実
行、SVOL上で他のジョブ又はアプリケーション実行
の為に、人為的に中断されることがあるためである。
【0076】図4はハートビート信号300の送信用
に、ハートビートミラー111をインストールする、た
めの方法を示すフローチャートダイアグラムである。ハ
ートビートチェック101aはハートビート信号300
を転送し蓄積するためのハートビートミラー111を生
成するためのユーザインターフェースを提供する。ハー
トビートチェック101aは更に、ミラー111を生
成、削除、及び中断させたりする為の、ユーザインター
フェースも提供する。
【0077】既に述べられているように、生産用データ
を保持しているミラー112はハートビート信号300
の送信や処理のためには使用されない。ハートビートチ
ェック101aはハートビート信号300の送信,処理
に使用されるミラー111の活性化又は不活性化する為
のユーザインターフェースを提供する。本ユーザインタ
ーフェースにより、ユーザは任意又は全てのハートビー
トミラー111を活性化する事が出来る410。
【0078】当ユーザインターフェースへのインプット
の例はハートビートPVOL111aのデバイスアドレ
ス、ハートビートSVOL111bのデバイスアドレス
である。このステップ410の時点でミラー111が生
成されていない場合は、ハートビートチェック101a
は処理を停止して、“ミラーは生成されていない”等の
警告メッセージを表示する。
【0079】ひとたびユーザがハートビートミラー11
1を活性化する410と、ステップ420にて、マスタ
ホスト160a中で走行しているハートビートチェック
101aは(活性化されたミラー111中の)ハートビ
ートPVOL111aをデバイスアドレス240に登録
して、デバイス状態241を“ENABLE”状態に変
更する(図2)。
【0080】本ステップ420を実行する前に、ハート
ビートチェック101aは、生産用データはハートビー
ト信号300専用のミラー111に置いてはいけない、
旨の警告メッセージを、ユーザインターフェースを用い
て表示する。その後、ハートビートチェック101aは
待機系サイトで走行しているハートビートチェック10
1bに、下記のパラメータと共に活性化メッセージを送
信する430。
【0081】このパラメータには活性化されるべきミラ
ー111中のSVOLのアドレスが含まれる。ハートビ
ートチェック101aはこの活性化メッセージをネット
ワーク140または既に使用可能になっているハートビ
ートミラー111を通して送信する。待機系サイトで走
行しているハートビートチェック101bが、ハートビ
ートチェック101aよりステップ430にて送られて
きた活性化メッセージを受信すると、ステップ440に
て、ハートビートチェック101bはハートビートSV
OL111bをデバイスアドレス240に登録して、ハ
ートビート状態テーブル250中のデバイス状態241
を”ENABLE”に変更する。
【0082】かくして、ハートビートミラー111は今
やインストールが完了し、ハートビートチェック101
aはハートビート信号300を遠隔リンク150経由で
ハートビートチェック101bに送信可能となる。な
お、図4の手段の実行により、複数のミラーがインスト
ールできることに注意が必要である。
【0083】ハートビートメッセージ300で利用され
るミラーをアンインストールする方法(図5を参照) ユーザはハートビートメッセージ300用に使用されて
いるミラーをアンインストールしたい事があり得る。例
えば、多数のミラー111がハートビートメッセージ3
00の送信や処理の為に使用されると、ハートビートチ
ェックの性能が低下する為、ハートビートメッセージ3
00用に使用されているミラー111の台数を減少した
いことがある。
【0084】図5はハートビートメッセージ300用に
使用されているミラー111をアンインストールする方
法を示すフローチャートダイアグラムである。ユーザは
ハートビートチェック101aより提供されるユーザイ
ンターフェースを用いて、ミラー111を不活性化す
る。生産系サイトで稼動しているハートビートチェック
101aはユーザより指定されたミラー111を不活性
化する500。
【0085】ユーザより指定されたミラー111を不活
性化するには、ハートビートチェック101aは、デバ
イス状態テーブル250(図2)中のデバイスアドレス
240とデバイス状態241のエントリを“NULL”
に変更する。ハートビートチェック101aは不活性化
メッセージを当該パラメータと共に待機系サイトで稼動
しているハートビートチェック101bに送信する。こ
のときのパラメータはSVOLのデバイスアドレスであ
る。
【0086】不活性化メッセージはネットワーク又は、
本転送に使用可能な任意のミラー111を経由して送信
される。待機系サイトで稼動しているハートビートチェ
ック101bはユーザより指定されたミラー111を不
活性化する500。
【0087】指定されたミラー111を不活性化するに
は、ハートビートチェック101bは、デバイス状態テ
ーブル250中のデバイスアドレス240とデバイス状
態241のエントリを“NULL”に変更する。もし、
ユーザが不活性化されたミラー111をもはや使用する
必要がない場合は、ユーザはストレージシステムベンダ
ーより提供される既知のユーザインターフェースを用い
て、当該ミラーを削除する事が出来る。
【0088】ミラーの不活性化はハートビートチェック
が当該ミラーをハートビートメッセージの転送に使用す
る事は不可能にするが、ミラーそのものは形成されてお
り、PVOLとSVOLの関係は維持されている。ミラ
ーの削除は現実にミラーを削除する。これにより、PV
OL,SVOLの対応関係は喪失する。また、ミラーの
削除は、性能向上の為等に必要になる事がある。そのよ
うな場合には、ハートビートチェックが削除されたミラ
ー経由でメッセージを送信する事を防止する為に、ミラ
ーは削除される前に不活性化される必要がある。
【0089】ハートビートミラー111がアンインスト
ール状態でない場合では、当該ミラーの中断要求がきて
も、ハートビートチェック101aは当該ミラーがアン
インストール状態になるまでは、中断は実行しないこと
に注意が必要である。これにより、インストール状態の
ハートビートミラーは中断されないことが保証される。
【0090】ハートビートメッセージの送信方法(図6
を参照) 図6は本発明の実施例でのハートビートメッセージ30
0を送信するための一方法を示すためのフローチャート
ダイアグラムである。当該フローチャートに示される通
り、ハートビートチェック101aは周期的に、例えば
1分ごとに、ハートビートメッセージ300をハートビ
ートチェック101bに送信する。ユーザはハートビー
トメッセージ300を送信する周期を指定できる。
【0091】ハートビートチェック101aは最初にネ
ットワーク140経由でハートビート信号300を送信
出来るかを判定する。図2のハートビート状態テーブル
250中のネットワークハートビート可能エントリが、
ネットワーク140経由でハートビート信号300を送
信出来るかを示す。ネットワーク140経由でハートビ
ート信号300を送信出来る場合は、ネットワークハー
トビート可能エントリは“ENABLE”を表示する。
【0092】この場合は、ハートビートチェック101
aはハートビートメッセージ300をネットワーク14
0経由で送信する610。ハートビートメッセージ30
0を生成する為には、ハートビートチェック101aは
通し番号310(図3)の値を加算し、オペレーテイン
グシステム102aより、時刻を求めて、これらの情報
を既に決まっている識別子330と共に、ハートビート
メッセージ300に組み込む。
【0093】ステップ600にて、ネットワーク140
がハートビート信号300の転送に使用できない(即
ち、ネットワークハートビート可能エントリが“ENA
BLE”を表示していない)ときは、後述されるステッ
プ620に進む。
【0094】既に述べたように、ハートビート状態テー
ブル250(図2)中の遠隔コピーハートビート可能エ
ントリ220は、遠隔ミラー111がハートビート信号
300の為に使用できる否かを表示する。もし、ユーザ
がいくつかの遠隔ミラー111をハートビート信号30
0の為に使用する事を指定した場合、遠隔コピーハート
ビート可能エントリ220は“EANBLE”を表示す
る。もし、ユーザが全ての遠隔ミラー111をハートビ
ート信号300の為に使用しない、と指定した場合、遠
隔コピーハートビート可能エントリ220は“DISA
BLE”を表示する。もし、全ての遠隔ミラー111が
使用不能か障害状態の場合、遠隔コピーハートビート可
能エントリ220は”FAILED”を表示する。
【0095】ハートビートチェック101aは遠隔コピ
ーハートビート可能エントリ220が“ENABLE”
を表示している(即ち、少なくとも1つの遠隔ミラー1
11がハートビートメッセージ300の為に使用可能)
かをチェックする620。もしそうなら、ハートビート
チェック101aはハートビートメッセージ300を遠
隔リンク150経由で送信する。遠隔コピーハートビー
ト可能エントリ220が“ENABLE”を表示してい
ない(即ち、全ての遠隔ミラー111がハートビートメ
ッセージ300の為に使用不能)場合、本方法は終了す
る。
【0096】かくのごとく、”ENABLE”は少なく
とも1つの遠隔ミラー111が使用可能で、”DISA
BLE”は全ての遠隔ミラー111が使用不能である事
を示す。メッセージは”DISABLE”が表示されて
いるときには送信できない。
【0097】ハートビートチェック101aはハートビ
ートメッセージ300を全ての可能なハートビートPV
OL111aに書きこむ。1つのハートビートPVOL
111aの使用可否をチェックするために、ハートビー
トチェック101aは、ハートビート状態テーブル25
0中のデバイス状態241の全エントリの状態をチェッ
クして、全ての使用可能なミラー111を判定する。次
ぎに、ハートビートチェック101aは、ハートビート
メッセージ300を使用可能ミラー111中のハートビ
ートPVOLデバイス111aに書きこむ。
【0098】上述されたように、ミラー111はデバイ
ス状態241の関連エントリが”ENABLE”を示し
ておれば、使用可能である。ハートビートチェック10
1aは、使用不能なミラー111中のハートビートPV
OLデバイス111aにハートビート信号300を送信
する事はしない。上述されたように、ミラー111はデ
バイス状態241の関連エントが”NULL”を示して
おれば、使用不能である。
【0099】ハートビートチェック101aがハートビ
ートメッセージ300を送信中にネットワーク140で
障害が発生すれば、ネットワークハートビート可能20
0エントリは”FAILED”を表示する。ハートビー
トチェック101aがハートビートメッセージ300を
ハートビートミラー111に書き込み中に、ハートビー
トミラー111中でデバイス障害が発生すれば、デバイ
ス状態241の当該障害ミラーに対するエントリは”F
AILED”を表示する。
【0100】この時点で、ハートビートチェック101
aはデバイス状態241の他のエントリをチェックする
(即ち、ハートビートチェック101aは他のどのハー
トビートミラー111、即ちハートビートPVOL11
1aが、ハートビート信号300の処理に使用出来るか
を決める)。ハートビートチェック101aは、デバイ
ス状態241の全てのエントリが”FAILED”、”
DISABLE”、又は”NULL”を示している場合
は、遠隔コピーハートビート可能中のエントリに”FA
ILED”を表示する。
【0101】ハートビートメッセージ300の受信方法
(図7を参照) マスタホスト160bのハートビートチェック101b
は、ハートビートチェック101aより送信されたハー
トビートメッセージ300を周期的に受信し、チェック
する。もし、複数のハートビートミラー111が稼動し
ている場合は、ハートビートチェック101bは少なく
とも1つのハートビートSVOL111bより、正当な
ハートビートメッセージ300を検出するまで、稼動中
のハートビートミラー111中の各ハートビートSVO
L111bより読みつづける。
【0102】正当なハートビートメッセージ300の定
義には下記のいくつかが含まれる。 (1)ハートビートメッセージ300中の識別子330
に基づいて、ハートビートチェック101bがハートビ
ートチェック101aより送信されたハートビートメッ
セージ300を正当なものとして認証できる; (2)通番310がタイムアウト期間(例えば1分)内
で、継続的に加算されている;及び (3)時刻320がタイムアウト期間内で、継続的に更
新されている。ユーザは、上記以外の正当なハートビー
トの定義を指定しても良い。更に上記の(1)は、メッ
セージの送信者がクラスターのメンバーホストでなけれ
ばならない事を意味する。クラスター内では、各ホスト
はクラスターのメンバーを知り、又識別する事が出来
る。
【0103】かくして、メッセージの受信者は、当該メ
ッセージがクラスターのメンバーから送信されたか否か
を識別可能である。更に上記の(2)の条件で、受信者
は送信者から送信されたメッセージをチェックする。も
し、通番310が例えば、1分以内に加算されない場合
は、送信者は履障していると判断される。更に上記の
(3)の条件で、受信者は送信者から送信されたメッセ
ージをチェックする。もし、時刻320が例えば、1分
以内に更新されない場合は、送信者は履障していると判
断される。
【0104】ここで、本発明の実施例に従った、ハート
ビートメッセージ300の受信法のフローチャートダイ
アグラムを、図7に示す。ハートビートチェック101
bは、ハートビート信号300がネットワーク140に
より転送可能(即ち、ハートビート状態テーブル250
中のネットワークハートビート可能200エントリが”
ENABLE”を示す場合)か否かをチェックする70
0。もし、ハートビート信号300がネットワーク14
0により転送可能な場合、ハートビートチェック101
bは正当なハートビートメッセージ300がネットワー
ク140により受信されたかをチェックする710。
【0105】もし、正当なハートビートメッセージ30
0が受信されていない場合、ハートビートチェック10
1bはネットワーク140経由でのハートビート信号3
00のチェックをスキップし、ネットワーク140と生
産系グループ130aを履障としてマークする為に、ネ
ットワークハートビート可能200と遠隔グループ状態
のエントリを”FAILED”に変更する。この事は、
ハートビートチェック101bがハートビート信号30
0の為のネットワーク140をチェックした後は、生産
系グループ130aとネットワーク140は履障したも
のとみなされることを示す。結果として、履障したネッ
トワーク140はハートビートチェック101bにより
ハートビートチェック動作に使用されることはない。
【0106】ハートビートチェック101bは、ハート
ビート信号300の為に遠隔ミラーが使用可能かをチェ
ックする720。もし、遠隔ミラーハートビート可能2
20エントリが”ENABLE”を示しているなら、ハ
ートビートチェック101bは受信されたハートビート
メッセージ300の為に、少なくとも1つの使用可能な
遠隔ミラー111をチェックする730。もし、遠隔ミ
ラー111が1つも使用可能でなければ、ハートビート
チェック101bは、遠隔ミラー111経由のハートビ
ートチェック動作をスキップして、後述されるステップ
740に移る。
【0107】ハートビートチェック101bは、各ハー
トビートSVOL111bよりハートビートメッセージ
300を読み出す730。もし、ハートビートチェック
101bが正当なハートビートメッセージ300を検出
したら、生産系グループ130aは正常とみなされ、待
機系ホストグループ130bが生産系グループ130a
のオペレーションを切り替えることはしない。
【0108】反対に、ハートビートチェック101b
が、全てのハートビートメッセージ300が不当である
と判ったら、ハートビートチェック101bは遠隔コピ
ーハートビート可能220と遠隔グループ状態230
を”FAILED”にマークする。この事は、遠隔ミラ
ー111経由のハートビートチェック結果からは、生産
系グループ130aと全ての遠隔ミラー111は履障し
ているとみなされ、全ての遠隔ミラー111は以降ハー
トビートチェックに使用されることはない。
【0109】もし、ハートビートチェック101bが、
ある特定の遠隔ミラーが不当なハートビートメッセージ
300含んでいる事を検出したら、当該遠隔ミラーに対
応するデバイス状態241のエントリに”FAILE
D”をマークする。この結果、当該遠隔ミラーのハート
ビートSVOLは遠隔ミラーを使用したハートビートチ
ェック用には使用されない。
【0110】上述のステップが実行された後、ハートビ
ート状態テーブル250(図2)はネットワーク140
経由と遠隔ミラー経由のハートビートチェック結果を保
持する。もし、遠隔グループ状態210も230も”A
LIVE”のエントリを示していなければ、ハートビー
トチェック101bは、生産系グループ130aは死ん
だものとみなして、既に述べられたように、切り替え操
作(fail−over)を実行する740。切り替え
操作の結果、待機系グループ130bが図1のシステム
50のオペレーションを受け持つ。
【0111】ハートビートミラー111の無停止追加と
削除 もし、ハートビートミラー111の追加、削除が上述の
ハートビートチェック動作に影響することなく出来た
ら、便利である。この機能を達成するため、クラスータ
リングシステム50(図1)は新規に生成したミラーボ
リューム111a,11bを新しいハートビートミラー
111で使用開始する。クラスータリングシステム50
は、ユーザにより削除されたハートビートミラー111
中のミラーボリューム111a,11bの使用を停止す
る。
【0112】図4にて述べられたように、ハートビート
ミラー111をハートビートメッセージ300の為にイ
ンストールするには、ハートビートチェック101(1
01aと101b)はデバイスアドレス240(例え
ば、デバイスアドレス240c)とデバイス状態241
の空き(“NULL”を含む)エントリに、新規に生成
されたハートビートミラー111情報を登録する。
【0113】一方、図6及び7に関連して述べたよう
に、ハートビートチェック101(101aと101
b)はデバイスアドレス240とデバイス状態241の
空きエントリは使用しない。これは、ハートビートミラ
ー111を削除する時も同じである。ハートビートチェ
ック101は削除または、アンインストールされたハー
トビートミラー111の使用は停止する。かくのごと
く、ハートビートミラー111の追加,削除中も、ハー
トビートチェック101はハートビート信号300の処
理を停止する必要はない。
【0114】ハートビートチェック方法の設定(図8参
照) プライマリグループ130aから待機系グループ130
bへ(又は、待機系グループ130bからプライマリグ
ループ130aへ)ハートビートメッセージ300を送
信する方法として3通り存在する。ハートビートメッセ
ージ300の送信法として下記が選択できる:(1)ネ
ットワーク140を経由する、(2)少なくと1つの遠
隔ミラー111を経由する、又は(3)ネットワーク1
40と少なくと1つの遠隔ミラー111を経由する。ユ
ーザはこの3種類のハートビートメッセージ300の送
信法から1つを選択する事が出来る。ユーザはハートビ
ートメッセージ300の送信法を指示すると、ハートビ
ートチェック101aはハートビートチェック動作に影
響を与えることなく、ハートビート状態テーブル250
更新する。
【0115】ハートビートメッセージ300の送信法を
変更する事は、ネットワーク140や遠隔ミラー111
を診断するときや、定期的保守が必要なときには、大変
有益である。
【0116】図8は本発明の一実施例でのハートビート
チェック方法の設定手順を示すためのフローチャートダ
イアグラムである。ユーザは、最初に、ハートビートメ
ッセージ300の送信に、ネットワーク140を使用す
るか、遠隔ミラー111を使用するか、ネットワーク1
40と遠隔ミラー111双方を使用するかを表示して、
ハートビートチェック方法の変更を要求する800。本
要求は、ネットワーク140と遠隔ミラー111をハー
トビートチェック用として、各々使用可能(enabl
ed)か使用不可(disabled)にすることを示
している。
【0117】ハートビートチェック方法がユーザより指
示されると、ハートビートチェック101aと101b
は下記を実行する。ユーザは、ハートビートチェック用
にネットワーク140を活性化するか、不活性化するか
を、指示する810。
【0118】ネットワークハートビート可能200のエ
ントリの値は:ユーザがネットワーク経由のハートビー
トチェックを活性化させる場合は、ネットワークハート
ビート可能200のエントリは”ENABLE”にセッ
トされる。この場合ハートビートチェック101aはハ
ートビート信号300をネットワーク140経由で送信
する。ユーザがネットワーク経由のハートビートチェッ
クを不活性化させる場合は、ネットワークハートビート
可能200のエントリは”DISABLE”にセットさ
れる。この場合ハートビートチェック101aはハート
ビート信号300をネットワーク140経由では送信し
ない。
【0119】ユーザはハートビートチェック用に遠隔ミ
ラー111を活性化するか、不活性化するかを指示する
820。遠隔コピーハートビート可能220のエントリ
の値は:ユーザが遠隔ミラー111経由のハートビート
チェックを活性化させる場合は、遠隔コピーハートビー
ト可能220のエントリは”ENABLE”にセットさ
れる。この場合ハートビートチェック101aはハート
ビート信号300を遠隔ミラー111経由で送信する。
【0120】ユーザが遠隔ミラー111経由のハートビ
ートチェックを不活性化させる場合は、遠隔コピーハー
トビート可能220のエントリは”DISABLE”に
セットされる。この場合ハートビートチェック101a
はハートビート信号300を遠隔ミラー111経由では
送信しない。
【0121】ハートビートチェック101aはステップ
800でなされたユーザ要求をハートビートチェック1
01bに送信する830。この送信はそのとき使用可能
なネットワーク140か遠隔ミラー111を経由して送
信される。
【0122】次ぎに、ハートビートチェック101bは
810及び820と同様な840と850の処理を実行
する。具体的には、ユーザよりの指示はハートビートチ
ェック用にネットワーク140を活性化するか、不活性
化するか、である840。ネットワークハートビート可
能200のエントリの値は:ユーザがネットワーク14
0経由のハートビートチェックを活性化させる場合は、
ネットワークハートビート可能200エントリは”EN
ABLE”にセットされる。
【0123】この場合ハートビートチェック101bは
ネットワーク140経由のハートビート信号300をチ
ェックする。ユーザがネットワーク経由のハートビート
チェックを不活性化させる場合は、ネットワークハート
ビート可能200エントリは”DISABLE”にセッ
トされる。この場合ハートビートチェック101bはネ
ットワーク140経由でのハートビート信号300をチ
ェック出来ない。
【0124】ユーザよりの指示はハートビートチェック
用に遠隔ミラー111を活性化するか、不活性化する
か、である850。遠隔コピーハートビート可能220
のエントリの値は:ユーザが遠隔ミラー111経由のハ
ートビートチェックを活性化させる場合は、遠隔コピー
ハートビート可能220エントリは”ENABLE”に
セットされる。ハートビートチェック101bは遠隔ミ
ラー111経由のハートビート信号300をチェック可
能である。
【0125】ユーザが遠隔ミラー111経由のハートビ
ートチェックを不活性化させる場合は、遠隔コピーハー
トビート可能220エントリは”DISABLE”にセ
ットされる。ハートビートチェック101bは遠隔ミラ
ー111経由のハートビート信号300をチェック出来
ない。
【0126】さらに、1つ又は一部のセットの遠隔ミラ
ー111を活性化したり、不活性化する事が可能であ
る。これを実施するには、ハートビートチェック101
a(ステップ820)とハートビートチェック101b
(ステップ850)は当該遠隔ミラー111に関連する
デバイス状態241のエントリを“ENABLE”(ミ
ラー111を活性化する場合),または”DISABL
E”(ミラー111を不活性化する場合)に変更する。
【0127】双方向のハートビートメッセージ(図9参
照) ここで、本発明の他の実施例によるシステム900のブ
ロックダイアグラムを示す図9を参照する。クラスター
システムはハートビート信号のチェックに双方向型の通
信を必要とする事がある。即ち、生産系グループ130
aは待機系グループ130bの生死を知りたいときがあ
る。例えば、生産系サイトにいるユーザが待機系グルー
プ130bの使用可能性を知りたいときがある。この様
なときに、双方向型ハートビート機構は有用である。
【0128】本発明での双方向型ハートビート機構で
は、新たなミラーボリューム、即ち、待機系サイトにハ
ートビートPVOL113aを、生産系サイトにハート
ビートSVOL113b、が生成される。ハートビート
PVOL113aとハートビートSVOL113bは、
ミラー113に組み込まれる。待機系グループのマスタ
ーホスト160bはハートビート信号300’をハート
ビートPVOL113aに書きこみ、生産系グループの
マスターホスト160aは、ハートビート信号300’
をハートビートSVOL113bから読み出して、待機
系グループ130bの生死をチェックする。
【0129】本実施例では、ハートビートチェック10
1aはハートビートメッセージ300を送信するのみな
らず、ハートビートチェック101bからのハートビー
トメッセージ300’を受信して、ハートビートチェッ
ク101bの生死をチェックする。
【0130】図9に見られるように、本実施例を実装す
るには、遠隔ミラー113を生成して、待機系サイトの
ストレージシステム110bにハートビートPVOL1
13aを、生産系サイトのストレージシステム110a
にハートビートSVOL113bを置く。遠隔ミラー1
13、ハートビートPVOL113a、ハートビートS
VOL113b及び遠隔リンク150’(ハートビート
PVOL113aをハートビートSVOL113bにリ
ンクする)の数は可変である。
【0131】図9におけるシステム900に対して、ユ
ーザは、ハートビートメッセージ300’をストレージ
システム110bからストレージシステム110aに遠
隔リンク150’を経由して送信する為に遠隔ミラー1
13をインストールする。ハートビートチェック101
bはハートビート信号300’をハートビートPVOL
113aに書きこみ、ストレージシステム110bはこ
のハートビート信号300’をハートビートSVOL1
13bに遠隔リンク150’を経由して書きこむ。ハー
トビートチェック101aはハートビートSVOL11
3bからのハートビート信号300’を読み出してチェ
ックする。
【0132】上述された全てのテーブルは本実施例でも
使用可能である。更に加えて、ミラー113のインスト
ールやアンインストール、ハートビートメッセージ30
0’の送受信やハートビート信号300’のチェック方
法の設定等は、ハートビート信号300の関連方法と同
様に実行できる。例えば、ハートビート信号300’の
為の機能を実行するには、図4,5,6,7及び8にお
いて、ハートビートチェック101aとハートビートチ
ェック101bの役割を逆転させれば良い。
【0133】図10は、本発明の1実施例での障害通知
方法を示すフローチャートダイアグラムである。本方法
は例えば、図1システム50で実行可能である。遠隔ミ
ラー111及び,又はネットワーク140は、プライマ
リーグループ130aが障害通知メッセージ1100
(図11)を活性化されている遠隔ミラー111及び,
又はネットワーク140を選択して、送信できるように
活性化される1000。ミラー111は既に上述された
のと同様な方法で活性化される。
【0134】障害チェック1005はホストグループ1
30aで実施される。ホストグループ130aの各部品
は特定できるように、固有の通し番号を持っている。I
Pアドレスはこの目的に適う。例えば、各サーバー10
0aは固有の識別番号を持っている。ストレージシステ
ム110a(又は110b)は固有の識別番号を持って
いる。ストレージボリュームPVOL111a及びPV
OL112aも固有に割り当てられた識別番号と固有に
割り当てられたアドレスを持っている。もし、一つの部
品が障害になると、ハートビートチェック101aは、
障害部品の識別番号を特定出来るように構成されてい
る。
【0135】一実装例では、ハートビートメッセージ1
100(図11)は下記の情報を含んでいる。 (1)履障部品ID1105(ホスト、ネットワーク、
デイスクドライブ、その他の履障部品を識別する):本
情報はASCIIキャラクタコード又は他の固有番号で
良い。 (2)障害のレベル1120(一例として、”SYST
EMDOWN”、”SERIOUS”、”MODERA
TE”、および”TEMPORALLY”):本情報に
より対処方法が変わる。例えば、障害レベルが、”SY
STEMDOWN”又は”SERIOUS”の場合は、
システムマネージャには、いつであろうと電話で通知さ
れる。障害レベルが、”TEMPORALLY”の場合
は、単にログ又は記録されるだけである。 (3)部品情報1110(障害部品の詳細情報を記
録):例えば、障害部品がホストなら、当該履障ホスト
のIPアドレスを示す。もし障害部品がドライブなら、
当該ドライブの通し番号が示される。
【0136】ハートビートチェック101aは、又、障
害部品のアドレスを特定出来るように構成される。例え
ば、ハートビートチェック101aは、履障ストレージ
ボリュームのアドレスを決定する。更に、ハートビート
チェック101aは、障害発生の時刻を記録する。
【0137】ハートビートチェック101aは、次ぎ
に、障害表示メッセージ1100(図11)を、既に述
べられたハートビート信号300の送信方法と同様に、
遠隔ミラー111及び,又はネットワーク140を経由
して送信する。ハートビートチェック101bは、プラ
イマリグループ130aの障害に就いて、当該障害表示
メッセージ1100を受信する1015と、この表示メ
ッセージを読み取り、マスタホスト160bのインター
フェースにて表示する。この表示情報には、例えば、履
障部品の識別情報、履障部品のアドレス及び障害が検出
された時刻帯等が含まれる。
【0138】図11は本発明の一実施例での障害表示メ
ッセージ1100のデータフォーマットの一例を示すブ
ロックダイアグラムである。既に述べられた通り、障害
表示メッセージ1100には、履障部品の識別情報11
05、履障部品の部品情報(例えばアドレス)1110
及び障害が検出された時刻帯1115等が含まれる。
【0139】コンピュータが上述された方法を実行出来
るように、電子読み取り可能な媒体に格納されたプログ
ラム又はコードを実装する事は、本発明の範囲内であ
る。本発明はここでは、特定の実施例を参照して記述し
たが、修正、変更及び代替はこれまでの開示に含まれ、
また、ある種の事例は、本発明の範囲を離れることな
く、他の機能に対応することなく採用出来ることを認識
する必要がある。
【0140】
【発明の効果】本発明は、クラスターコンピューテイン
グシステムの信頼性と障害検出能力の向上を齎す有益な
システムと方法を提供する。さらにまた、本発明は、ク
ラスターシステムでの生産系ホスト群の障害を正確に検
出して、待機系ホスト群が、履障していない生産系ホス
ト群からプロセスを誤って引き継がないようにする有益
なシステムや方法を提供する。本発明はまた、生産系ホ
スト群が待機系ホスト群からのハートビート信号をチェ
ックできる有益なシステムや方法を提供する。
【図面の簡単な説明】
【図1】本発明の一実施例でのシステム構成を示すブロ
ックダイアグラムである。
【図2】本発明の一実施例での図1で示されたマスター
ホスト中のハートビート状態テーブルの一例を示すブロ
ックダイアグラムである。
【図3】本発明の一実施例でのハートビートメッセージ
のデータフォーマットを示すブロックダイアグラムであ
る。
【図4】本発明の一実施例でのミラー経由でのハートビ
ート信号転送法をインストールするためのフローチャー
トダイアグラムである。
【図5】本発明の一実施例でのミラー経由でのハートビ
ート信号転送法をアンインストールするためのフローチ
ャートダイアグラムである。
【図6】本発明の一実施例でのハートビート信号を送信
するための一方法を示すフローチャートダイアグラムで
ある。
【図7】本発明の一実施例でのハートビート信号を受信
するための一方法を示すフローチャートダイアグラムで
ある。
【図8】本発明の一実施例でのハートビートチェック手
順を設定するための一方法を示すためのフローチャート
ダイアグラムである。
【図9】本発明の他の一実施例でのシステム構成を示す
ブロックダイアグラムである。
【図10】本発明の一実施例での障害通知方法を示すフ
ローチャートダイアグラムである。
【図11】本発明の一実施例での障害表示メッセージの
データフォーマットの一例を示すブロックダイアグラム
である。
【符号の説明】
100a,100b、160a,160b…ホスト、1
01a,101b…ハートビートチェック、102a,
102b…OS、103a,103b…アプリケーショ
ン、104a,104b…クラスターリングプログラ
ム、111a:ハートビート(PVOL)、111b…
ハートビート(SVOL)、112a…ユーザPVO
L、112b…ユーザSVOL、110a…ストレージ
システム(生産系サイト)、110b…ストレージシス
テム(待機系サイト)
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B034 BB11 CC05 5B042 GA12 GA34 GC16 JJ04 JJ15 KK04 5B083 BB01 CC04 CD11 DD09 EE02 EE08

Claims (24)

    【特許請求の範囲】
  1. 【請求項1】クラスターコンピューテイングシステムに
    おいて、ハートビート信号を送信するシステムであっ
    て、前記システムは、 第1のホストグループと前記第1のホストグループと連
    結した第1のストレージシステムにより構成され、前記
    第1のホストグループが、前記第1のホストグループと
    第2のホストグループ間のネットワークか、又は、前記
    第1のストレージシステムと前記第2のホストグループ
    に連結された第2のストレージシステム間の遠隔リンク
    かを、選択的に使用して、前記第2のホストグループに
    ハートビート信号を送信することを特徴とするシステ
    ム。
  2. 【請求項2】クラスターコンピューテイングシステムに
    おいて、ハートビート信号を送信する送信方法であっ
    て、前記送信方法は、 第1のホストグループからハートビート信号を生成し
    て、 前記ハートビート信号を前記第1のホストグループと第
    2のホストグループ間のネットワークか、又は前記第1
    のホストグループと連結した第1のストレージシステム
    と前記第2のホストグループに連結された第2のストレ
    ージシステム間の遠隔リンクかを、選択的に使用して、
    前記第1のホストグループから前記第2のホストグルー
    プに、前記ハートビート信号を送信する送信方法。
  3. 【請求項3】クラスターコンピューテイングシステムに
    おいて、ハートビート信号を送信する送信方法を、コン
    ピュータが実行するためのプログラムを格納した電子読
    み取り可能な媒体であって、前記送信方法が、第1のホ
    ストグループからハートビート信号を生成して、前記第
    1のホストグループと第2のホストグループ間のネット
    ワークか、又は前記第1のホストグループと連結した第
    1のストレージシステムと前記第2のホストグループに
    連結された第2のストレージシステム間の遠隔リンクか
    を、選択的に使用して、前記第1のホストグループから
    前記第2のホストグループに、前記ハートビート信号を
    送信する送信方法であることを特徴とする電子読み取り
    可能な媒体。
  4. 【請求項4】クラスターコンピューテイングシステムに
    おいて、ハートビート信号を送信する送信方法を、コン
    ピュータが実行出来るように搬送波に格納されたプログ
    ラムであって、前記送信方法が、第1のホストグループ
    からハートビート信号を生成して、前記第1のホストグ
    ループと第2のホストグループ間のネットワークか、又
    は前記第1のホストグループと連結した第1のストレー
    ジシステムと前記第2のホストグループに連結された第
    2のストレージシステム間の遠隔リンクかを、選択的に
    使用して、前記第1のホストグループから前記第2のホ
    ストグループに、前記ハートビート信号を送信すること
    を特徴とする搬送波に格納されたプログラム。
  5. 【請求項5】クラスターコンピューテイングシステムに
    おいて、ハートビート信号を受信する装置であって、 遠隔ホストグループと、 該遠隔ホストグループに連結された遠隔ストレージシス
    テムにより構成され、該遠隔ホストグループは、該遠隔
    ホストグループと結合したネットワークか、該遠隔スト
    レージシステムとの間の遠隔リンクかを、選択的に使用
    して、ハートビート信号を受信する事により構成される
    ことを特徴とするハートビートを受信することを特徴と
    する装置。
  6. 【請求項6】クラスターコンピューテイングシステムに
    おいて、ハートビート信号を受信する受信方法であっ
    て、 遠隔ホストグループにおいて、該遠隔ホストグループと
    の間のネットワークか、該遠隔ホストグループに連結さ
    れたストレージシステムとの間の遠隔リンクかを、選択
    的に使用して、ハートビート信号を受信することを特徴
    とする受信方法。
  7. 【請求項7】クラスターコンピューテイングシステムに
    おいて、ハートビート信号を受信する受信方法を、コン
    ピュータが実行するためのプログラムとして格納した電
    子読み取り可能な媒体であって、前記受信方法が、 遠隔ホストグループにおいて、該遠隔ホストグループと
    の間のネットワークか、該遠隔ホストグループに連結さ
    れたストレージシステムとの間の遠隔リンクかを、選択
    的に使用して、ハートビート信号を受信することを特徴
    とする電子読み取り可能な媒体。
  8. 【請求項8】クラスターコンピューテイングシステムに
    おいて、ハートビート信号を受信する受信方法を、コン
    ピュータが実行出来るように搬送波に格納されたプログ
    ラムであって、 前記受信方法が、遠隔ホストグループにおいて、該遠隔
    ホストグループとの間のネットワークか、該遠隔ホスト
    グループに連結されたストレージシステムとの間の遠隔
    リンクかを、選択的に使用して、ハートビート信号を受
    信することを特徴とする搬送波に格納されたプログラ
    ム。
  9. 【請求項9】クラスターコンピューテイングシステムで
    あって、前記システムは、 生産系ホストグループと、 該生産系ホストグループにネットワークで結合された待
    機系ホストグループと、 該生産系ホストグループと該待機系ホストグループとの
    間に結合された遠隔ミラーとで構成され、 該生産系ホストグループが、該待機系ホストグループ
    に、該ネットワークか該遠隔ミラーの少なくとも1つを
    選択的に使用して、ハートビート信号を送信することを
    特徴とするクラスターコンピューテイングシステム。
  10. 【請求項10】クラスターコンピューテイングシステム
    において、障害をチェックするチェック方法であって、
    前記チェック方法が、 第1のホストグループからハートビート信号を生成し、 該ハートビート信号を該第1のホストグループから第2
    のホストグループに、該ホストグループ間のネットワー
    クか、該ホストグループ間に結合した遠隔ミラーかを、
    選択的に使用して送信する事を特徴とするチェック方
    法。
  11. 【請求項11】クラスターコンピューテイングシステム
    であって、前記システムは、 生産系ホストグループと前記生産系ホストグループとネ
    ットワークで結合された待機系ホストグループと前記生
    産系ホストグループと該待機系ホストグループ間に結合
    された遠隔ミラーにより構成され、前記遠隔ミラーは、
    前記生産系サイトのハートビートストレージボリューム
    (ハートビートPVOL)と、前記遠隔リンクで前記ハ
    ートビートPVOLに結合された待機系サイトのハート
    ビートストレージボリューム(ハートビートSVOL)
    を含み、 前記生産系ホストグループは、前記ネットワークか前記
    遠隔リンクの少なくとも1つを選択的に使用して、前記
    待機系ホストグループにハートビート信号を送信するこ
    とを特徴とするシステム。
  12. 【請求項12】請求項11記載のシステムにおいて、前
    記生産系ホストグループが、ハートビート信号を生成す
    る第1のハートビートチェックモジュールにより構成さ
    れることを特徴とするクラスターコンピューテイングシ
    ステム。
  13. 【請求項13】請求項11記載のシステムにおいて、前
    記待機系ホストグループは、ハートビート信号を受信す
    る第2のハートビートチェックモジュールにより構成さ
    れることを特徴とするクラスターコンピューテイングシ
    ステム。
  14. 【請求項14】請求項11記載のシステムにおいて、前
    記待機系ホストグループが前記生産系ホストグループか
    ら不当なハートビート信号を受領した場合、前記待機系
    ホストグループが、前記クラスターコンピューテイング
    システムの動作を司ることを特徴とするクラスターコン
    ピューテイングシステム。
  15. 【請求項15】請求項11記載のシステムにおいて、前
    記ハートビートメッセージは、当該ハートビートメッセ
    ージに割り当てられた通し番号、当該ハートビートメッ
    セージを生成した時刻を示す時刻表示、及び当該ハート
    ビートメッセージの送信者を示す送信者識別子により構
    成されることを特徴とするクラスターコンピューテイン
    グシステム。
  16. 【請求項16】請求項11記載のシステムにおいて、更
    に、前記クラスターコンピューテイングシステムは、 前記生産系ホストグループと前記待機系ホストグループ
    間に結合した第2の遠隔ミラーを含み、前記第2の遠隔
    ミラーはハートビート信号を送信するために第2の遠隔
    リンクを含み、 前記待機系ホストグループは、前記ネットワークか前記
    第2の遠隔リンクの少なくとも1つを選択的に使用し
    て、ハートビート信号を前記生産系ホストグループに送
    信する事により構成されることを特徴とするクラスター
    コンピューテイングシステム。
  17. 【請求項17】クラスターコンピューテイングシステム
    において、障害をチェックする方チェック法であって、
    前記チェック方法は、 生産系グループからハートビート信号を生成し、 該ハートビート信号を該生産系ホストグループから待機
    系ホストグループに、ネットワークか遠隔リンクの少な
    くとも1つを選択的に使用して送信し、更に、 該待機系ホストグループが、該生産系ホストグループか
    ら不当なハートビート信号を受領したら、該クラスター
    コンピューテイングシステムの動作を司ることを特徴と
    するチェック方法。
  18. 【請求項18】請求項17記載のチェック方法におい
    て、更に、 前記待機系ホストグループから前記生産系ホストグルー
    プに、ネットワークか第2の遠隔リンクの少なくとも1
    つを選択的に使用して、ハートビート信号を送信するこ
    とを特徴とするチェック方法。
  19. 【請求項19】請求項17記載のチェック方法におい
    て、更に、 クラスターコンピューテイングシステムにおいて、遠隔
    ミラーをイントールする事により構成される方法であっ
    て、該方法が、 第1のストレージボリュームをデバイスアドレスエント
    リーに登録し、該第1のストレージボリュームは生産系
    サイトに存在し、該生産系サイトは該第1のストレージ
    ボリュームを含む遠隔ミラーを使用可能にし、 活性化メッセージを該生産系サイトから待機系サイトに
    送信し、 第2のストレージボリュームをデバイスアドレスエント
    リーに登録し、該第2のストレージボリュームは待機系
    サイトに存在し、 該待機系サイトは遠隔ミラーを使用可能にして、該第1
    のストレージボリュームと該第2のストレージボリュー
    ムで形成される遠隔ミラーをインストールすることを包
    含するチェック方法。
  20. 【請求項20】請求項17記載のチェック方法に、更
    に、 クラスターコンピューテイングシステムにおいて、遠隔
    ミラーをアンインストールする方法であって、該方法
    は、 生産系サイトより、遠隔ミラーを使用不能状態にして、 不活性化メッセージを該第1の生産系サイトから待機系
    サイトに送信し、 該待機系サイトが該遠隔ミラーを使用不能状態にして、
    該遠隔ミラーをアンインストールすることを包含するチ
    ェック方法。
  21. 【請求項21】請求項17記載のチェック方法におい
    て、該選択的な送信ステップが、 生産系サイトホストと待機系サイトホスト間のネットワ
    ークが使用可能かを判定し、 該ネットワークが使用可能なら、ハートビートメッセー
    ジを該ネットワーク経由で、該生産系サイトホストから
    該待機系サイトホストに送信し、 該生産系サイトホストと該待機系サイトホスト間の遠隔
    ミラーが使用可能かを判定し、 該遠隔ミラーが使用可能なら、ハートビートメッセージ
    を該遠隔ミラー経由で、該生産系サイトホストから該待
    機系サイトホストに送信することを特徴するチェック方
    法。
  22. 【請求項22】請求項17記載のチェック方法におい
    て、更に、 クラスターコンピューテイングシステムにおいて、ハー
    トビートメッセージを待機系サイトホストが生産系サイ
    トホストから受信する方法から構成され、該方法は、 該生産系サイトホストと該待機系サイトホスト間のネッ
    トワークが使用可能かを判定し、 該ネットワークが使用可能なら、ハートビートメッセー
    ジのチェックを該生産系サイトホストから該待機系サイ
    トホストへのネットワークを通して実施し、 該生産系サイトホストと該待機系サイトホスト間の遠隔
    ミラーが使用可能かを判定し、 該遠隔ミラーが使用可能なら、ハートビートメッセージ
    のチェックを該生産系サイトホストから該待機系サイト
    ホストへの遠隔ミラーを通して実施し、 不当なハートビートが該ネットワーク及び該遠隔ミラー
    から受信されたら、該待機系ホストが該クラスターコン
    ピューテイングシステムのオペレーションを司る事を包
    含する。
  23. 【請求項23】クラスターコンピューテイングシステム
    において、プライマリグループとセカンダリグループと
    の間で、ハートビートのチェック手順を設定する方法で
    あって、該方法は、 該ハートビートのチェック手順を決めるための要求コマ
    ンドを用意し、 該要求コマンドに応答して、該プライマリグループ中の
    第1のハートビートチェックモジュールが、該プライマ
    リグループと該セカンダリグループとの間のネットワー
    クの活性化又は不活性化を可能にし、 該要求コマンドに応答して、該第1のハートビートチェ
    ックモジュールが、該プライマリグループと該セカンダ
    リグループとの間の遠隔ミラーの活性化又は不活性化を
    可能にし、 該第1のハートビートチェックモジュールに該要求コマ
    ンドを該セカンダリグループ中の第2のハートビートチ
    ェックモジュールに送信させ、 該要求コマンドに応答して、該第2のハートビートチェ
    ックモジュールが、該プライマリグループと該セカンダ
    リグループとの間のネットワークの活性化又は不活性化
    を可能にし、 該要求コマンドに応答して、該第2のハートビートチェ
    ックモジュールが、該プライマリグループと該セカンダ
    リグループとの間の遠隔ミラーの活性化又は不活性化を
    可能にし、 該第2のハートビートチェックモジュールが該ネットワ
    ークを活性化させたら、ハートビート信号のチェックは
    該ネットワーク経由で実施され、さらに、 該第2のハートビートチェックモジュールが該遠隔ミラ
    ーを活性化させたら、ハートビート信号のチェックは該
    遠隔ミラー経由で実施される事により構成されるチェッ
    ク手順設定方法。
  24. 【請求項24】クラスターコンピューテイングシステム
    における障害通告方法であって、 該方法は、プライマリグループとセカンダリグループと
    の間のネットワークを選択的に活性化し、 該プライマリグループと該セカンダリグループとの間の
    遠隔ミラーを選択的に活性化し、該プライマリグループ
    中の障害発生をチェックし、 該ネットワークが活性化されていたら、障害通告メッセ
    ージを該ネットワーク経由で該プライマリグループから
    該セカンダリグループに送信し、 該遠隔ミラーが活性化されていたら、障害通告メッセー
    ジを該遠隔ミラー経由で該プライマリグループから該セ
    カンダリグループに送信し、 該障害通告メッセージに基づいて、該セカンダリグルー
    プで障害発生表示を行うことからなるクラスターコンピ
    ューテイングシステムにおける障害通告方法。
JP2001395713A 2001-01-12 2001-12-27 クラスターシステムにおける遠隔ミラーを使用した障害通知方法及びシステム Pending JP2002312189A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/760345 2001-01-12
US09/760,345 US7275100B2 (en) 2001-01-12 2001-01-12 Failure notification method and system using remote mirroring for clustering systems

Publications (1)

Publication Number Publication Date
JP2002312189A true JP2002312189A (ja) 2002-10-25

Family

ID=25058820

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001395713A Pending JP2002312189A (ja) 2001-01-12 2001-12-27 クラスターシステムにおける遠隔ミラーを使用した障害通知方法及びシステム

Country Status (2)

Country Link
US (1) US7275100B2 (ja)
JP (1) JP2002312189A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004302512A (ja) * 2003-03-28 2004-10-28 Hitachi Ltd クラスタコンピューティングシステム、および、そのフェールオーバー方法
JP2005276160A (ja) * 2004-02-25 2005-10-06 Hitachi Ltd クラスタ型ストレージエリアネットワークの論理ユニットセキュリティ
US7100070B2 (en) 2004-03-02 2006-08-29 Hitachi, Ltd. Computer system capable of fast failover upon failure
JP2007148520A (ja) * 2005-11-24 2007-06-14 Hitachi Ltd 情報通知方法及び計算機システム
JP2007304687A (ja) * 2006-05-09 2007-11-22 Hitachi Ltd クラスタ構成とその制御手段
JP2007538306A (ja) * 2004-03-10 2007-12-27 スケールアウト ソフトウェア インコーポレイテッド 拡張可能で高度に利用可能なクラスタメンバーシップアーキテクチャ
US7603480B2 (en) 2004-09-16 2009-10-13 Nec Corporation System using pseudo redundant configurator to switch network devices between operating and standby states
JP2010055136A (ja) * 2008-08-26 2010-03-11 Mitsubishi Electric Corp 通信システム及び制御装置及び制御対象装置
JP2010257113A (ja) * 2009-04-23 2010-11-11 Nec System Technologies Ltd 監視システム、監視方法、及びプログラム
JP2013178850A (ja) * 2013-06-21 2013-09-09 Nec System Technologies Ltd 監視システム、監視方法、及びプログラム

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7581048B1 (en) * 2001-06-29 2009-08-25 Emc Corporation Method and apparatus for providing continuous communication between computers
US7293105B2 (en) * 2001-12-21 2007-11-06 Cisco Technology, Inc. Methods and apparatus for implementing a high availability fibre channel switch
US7076687B2 (en) * 2002-10-16 2006-07-11 Hitachi, Ltd. System and method for bi-directional failure detection of a site in a clustering system
JP4136615B2 (ja) 2002-11-14 2008-08-20 株式会社日立製作所 データベースシステム及びデータベースのアクセス方法
JP4704660B2 (ja) * 2002-12-18 2011-06-15 株式会社日立製作所 記憶デバイス制御装置の制御方法、記憶デバイス制御装置、及びプログラム
US7680944B1 (en) * 2003-02-28 2010-03-16 Comtrol Corporation Rapid transport service in a network to peripheral device servers
JP4305007B2 (ja) * 2003-03-05 2009-07-29 株式会社日立製作所 系切り替えシステムおよびその処理方法並びにその処理プログラム
US7739541B1 (en) * 2003-07-25 2010-06-15 Symantec Operating Corporation System and method for resolving cluster partitions in out-of-band storage virtualization environments
US7689685B2 (en) * 2003-09-26 2010-03-30 International Business Machines Corporation Autonomic monitoring for web high availability
US7475134B2 (en) * 2003-10-14 2009-01-06 International Business Machines Corporation Remote activity monitoring
US7383313B2 (en) * 2003-11-05 2008-06-03 Hitachi, Ltd. Apparatus and method of heartbeat mechanism using remote mirroring link for multiple storage system
JP2005196467A (ja) * 2004-01-07 2005-07-21 Hitachi Ltd ストレージシステム、ストレージシステムの制御方法、及びストレージ制御装置
US7246256B2 (en) * 2004-01-20 2007-07-17 International Business Machines Corporation Managing failover of J2EE compliant middleware in a high availability system
US7137042B2 (en) * 2004-03-17 2006-11-14 Hitachi, Ltd. Heartbeat apparatus via remote mirroring link on multi-site and method of using same
JP2005301436A (ja) * 2004-04-07 2005-10-27 Hitachi Ltd クラスタシステムおよびクラスタシステムにおける障害回復方法
US7814064B2 (en) * 2004-05-12 2010-10-12 Oracle International Corporation Dynamic distributed consensus algorithm
WO2005122495A1 (en) * 2004-06-14 2005-12-22 Huawei Technologies Co., Ltd. A method for mbms user quantity counting
JP4575059B2 (ja) * 2004-07-21 2010-11-04 株式会社日立製作所 ストレージ装置
US20060026214A1 (en) * 2004-07-29 2006-02-02 International Business Machines Corporation Switching from synchronous to asynchronous processing
JP4401895B2 (ja) * 2004-08-09 2010-01-20 株式会社日立製作所 計算機システム、計算機及びそのプログラム。
JP4117684B2 (ja) * 2004-12-20 2008-07-16 日本電気株式会社 フォルトトレラント・二重化コンピュータシステムとその制御方法
EP1677194A1 (en) * 2004-12-28 2006-07-05 Siemens Aktiengesellschaft Backup method and system for operation and maintenance centers of a telecommunication system using storage based activity detection
US8107385B2 (en) * 2005-09-29 2012-01-31 Avaya Inc. Evaluating quality of service in an IP network with cooperating relays
JP2007249441A (ja) * 2006-03-15 2007-09-27 Hitachi Ltd 仮想化システム及び障害対処方法
US7788231B2 (en) * 2006-04-18 2010-08-31 International Business Machines Corporation Using a heartbeat signal to maintain data consistency for writes to source storage copied to target storage
US7539755B2 (en) * 2006-04-24 2009-05-26 Inventec Corporation Real-time heartbeat frequency regulation system and method utilizing user-requested frequency
US20070294596A1 (en) * 2006-05-22 2007-12-20 Gissel Thomas R Inter-tier failure detection using central aggregation point
US7697460B2 (en) * 2006-09-28 2010-04-13 Avaya Inc. Evaluating feasible transmission paths in a packet network
JP5057366B2 (ja) * 2006-10-30 2012-10-24 株式会社日立製作所 情報システム及び情報システムのデータ転送方法
US8094576B2 (en) 2007-08-07 2012-01-10 Net Optic, Inc. Integrated switch tap arrangement with visual display arrangement and methods thereof
US7917800B2 (en) * 2008-06-23 2011-03-29 International Business Machines Corporation Using device status information to takeover control of devices assigned to a node
JP5217967B2 (ja) * 2008-11-28 2013-06-19 富士通株式会社 故障ノード切り離し処理プログラム、故障ノード切り離し方法及びストレージシステム
US8549364B2 (en) * 2009-02-18 2013-10-01 Vmware, Inc. Failure detection and recovery of host computers in a cluster
US8737197B2 (en) * 2010-02-26 2014-05-27 Net Optic, Inc. Sequential heartbeat packet arrangement and methods thereof
WO2011106590A2 (en) * 2010-02-26 2011-09-01 Net Optics, Inc Sequential heartbeat packet arrangement and methods thereof
US9306959B2 (en) * 2010-02-26 2016-04-05 Ixia Dual bypass module and methods thereof
US9813448B2 (en) 2010-02-26 2017-11-07 Ixia Secured network arrangement and methods thereof
US9749261B2 (en) 2010-02-28 2017-08-29 Ixia Arrangements and methods for minimizing delay in high-speed taps
US8914538B2 (en) * 2010-05-13 2014-12-16 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Implementing network manager quarantine mode
US8578202B2 (en) * 2010-07-29 2013-11-05 Ca, Inc. System and method for providing high availability for distributed application
US8756453B2 (en) 2011-11-15 2014-06-17 International Business Machines Corporation Communication system with diagnostic capabilities
US9244796B2 (en) 2011-11-15 2016-01-26 International Business Machines Corporation Diagnostic heartbeat throttling
US8769089B2 (en) * 2011-11-15 2014-07-01 International Business Machines Corporation Distributed application using diagnostic heartbeating
US8874974B2 (en) 2011-11-15 2014-10-28 International Business Machines Corporation Synchronizing a distributed communication system using diagnostic heartbeating
US8903893B2 (en) 2011-11-15 2014-12-02 International Business Machines Corporation Diagnostic heartbeating in a distributed data processing environment
CN103297396B (zh) * 2012-02-28 2016-05-18 国际商业机器公司 群集系统中管理故障转移的装置和方法
US10218772B2 (en) * 2016-02-25 2019-02-26 LiveQoS Inc. Efficient file routing system
US10411948B2 (en) * 2017-08-14 2019-09-10 Nicira, Inc. Cooperative active-standby failover between network systems
US11003369B1 (en) 2019-01-14 2021-05-11 Pure Storage, Inc. Performing a tune-up procedure on a storage device during a boot process
US10574657B1 (en) 2019-07-18 2020-02-25 Capital One Services, Llc Automatic transaction processing failover
US11973631B2 (en) * 2022-09-02 2024-04-30 Dell Products L.P. Centralized host inactivity tracking

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5544347A (en) 1990-09-24 1996-08-06 Emc Corporation Data storage system controlled remote data mirroring with respectively maintained data indices
JP3087429B2 (ja) 1992-04-03 2000-09-11 株式会社日立製作所 記憶装置システム
US5459857A (en) 1992-05-15 1995-10-17 Storage Technology Corporation Fault tolerant disk array data storage subsystem
JPH0713905A (ja) 1993-06-23 1995-01-17 Hitachi Ltd 記憶装置システム及びその制御方法
US5526358A (en) * 1994-08-19 1996-06-11 Peerlogic, Inc. Node management in scalable distributed computing enviroment
US6044444A (en) * 1996-05-28 2000-03-28 Emc Corporation Remote data mirroring having preselection of automatic recovery or intervention required when a disruption is detected
US5933653A (en) 1996-05-31 1999-08-03 Emc Corporation Method and apparatus for mirroring data in a remote data storage system
WO1998059291A1 (fr) 1997-06-20 1998-12-30 Hitachi, Ltd. Procede de commande d'une unite de commande de memoire
US6006206A (en) * 1997-09-08 1999-12-21 Reuters Limited Data health monitor for financial information communications networks
WO2000007105A1 (fr) 1998-07-27 2000-02-10 Hitachi, Ltd. Systeme informatique
EP0981091B1 (en) 1998-08-20 2008-03-19 Hitachi, Ltd. Data copying in storage systems
US6393485B1 (en) * 1998-10-27 2002-05-21 International Business Machines Corporation Method and apparatus for managing clustered computer systems
US6370656B1 (en) * 1998-11-19 2002-04-09 Compaq Information Technologies, Group L. P. Computer system with adaptive heartbeat
US6438705B1 (en) * 1999-01-29 2002-08-20 International Business Machines Corporation Method and apparatus for building and managing multi-clustered computer systems
US6526521B1 (en) * 1999-06-18 2003-02-25 Emc Corporation Methods and apparatus for providing data storage access
US6553401B1 (en) * 1999-07-09 2003-04-22 Ncr Corporation System for implementing a high volume availability server cluster including both sharing volume of a mass storage on a local site and mirroring a shared volume on a remote site
US6643795B1 (en) * 2000-03-30 2003-11-04 Hewlett-Packard Development Company, L.P. Controller-based bi-directional remote copy system with storage site failover capability

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004302512A (ja) * 2003-03-28 2004-10-28 Hitachi Ltd クラスタコンピューティングシステム、および、そのフェールオーバー方法
JP2005276160A (ja) * 2004-02-25 2005-10-06 Hitachi Ltd クラスタ型ストレージエリアネットワークの論理ユニットセキュリティ
US7100070B2 (en) 2004-03-02 2006-08-29 Hitachi, Ltd. Computer system capable of fast failover upon failure
JP2007538306A (ja) * 2004-03-10 2007-12-27 スケールアウト ソフトウェア インコーポレイテッド 拡張可能で高度に利用可能なクラスタメンバーシップアーキテクチャ
US7603480B2 (en) 2004-09-16 2009-10-13 Nec Corporation System using pseudo redundant configurator to switch network devices between operating and standby states
JP2007148520A (ja) * 2005-11-24 2007-06-14 Hitachi Ltd 情報通知方法及び計算機システム
JP2007304687A (ja) * 2006-05-09 2007-11-22 Hitachi Ltd クラスタ構成とその制御手段
JP2010055136A (ja) * 2008-08-26 2010-03-11 Mitsubishi Electric Corp 通信システム及び制御装置及び制御対象装置
JP2010257113A (ja) * 2009-04-23 2010-11-11 Nec System Technologies Ltd 監視システム、監視方法、及びプログラム
JP2013178850A (ja) * 2013-06-21 2013-09-09 Nec System Technologies Ltd 監視システム、監視方法、及びプログラム

Also Published As

Publication number Publication date
US7275100B2 (en) 2007-09-25
US20020095489A1 (en) 2002-07-18

Similar Documents

Publication Publication Date Title
JP2002312189A (ja) クラスターシステムにおける遠隔ミラーを使用した障害通知方法及びシステム
US7076687B2 (en) System and method for bi-directional failure detection of a site in a clustering system
USRE42703E1 (en) System and method for fibrechannel fail-over through port spoofing
US6282610B1 (en) Storage controller providing store-and-forward mechanism in distributed data storage system
JP4751117B2 (ja) データ複製を利用したフェイルオーバとデータ移行
US7603581B2 (en) Remote copying of updates to primary and secondary storage locations subject to a copy relationship
JP4457184B2 (ja) ストレージシステムにおけるフェイルオーバー処理
JP4892185B2 (ja) 分散リモートコピーシステム
US7043665B2 (en) Method, system, and program for handling a failover to a remote storage location
US7676616B2 (en) Method, apparatus and program storage device for providing asynchronous status messaging in a data storage system
US7028078B1 (en) System and method for performing virtual device I/O operations
US7827136B1 (en) Management for replication of data stored in a data storage environment including a system and method for failover protection of software agents operating in the environment
US8285824B2 (en) Storage system and data replication method that refuses one or more requests for changing the first logical configuration information until the first storage apparatus and second storage apparatus are synchronized
EP2188720B1 (en) Managing the copying of writes from primary storages to secondary storages across different networks
US7945753B2 (en) Computer system, management method and storage network system
JP2007052772A (ja) データ複製システム並びにデータ移行方法
US7203801B1 (en) System and method for performing virtual device I/O operations
JP2007072571A (ja) 計算機システム及び管理計算機ならびにアクセスパス管理方法
JP2006500693A (ja) 動的rdfグループ
JP2004535012A (ja) 仮想ストレージエリアネットワークを構築するためのネットワークデータミラーリング
US7987154B2 (en) System, a method and a device for updating a data set through a communication network
US7634601B1 (en) Method and apparatus for providing continuous communications between computers
JP2005157712A (ja) リモートコピーネットワーク
JP2008287405A (ja) パス管理方法、ホスト計算機及びパス管理プログラム
US20150195167A1 (en) Availability device, storage area network system with availability device and methods for operation thereof

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060127

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060922

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20061023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061117

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070703