JP2004302512A - クラスタコンピューティングシステム、および、そのフェールオーバー方法 - Google Patents

クラスタコンピューティングシステム、および、そのフェールオーバー方法 Download PDF

Info

Publication number
JP2004302512A
JP2004302512A JP2003091265A JP2003091265A JP2004302512A JP 2004302512 A JP2004302512 A JP 2004302512A JP 2003091265 A JP2003091265 A JP 2003091265A JP 2003091265 A JP2003091265 A JP 2003091265A JP 2004302512 A JP2004302512 A JP 2004302512A
Authority
JP
Japan
Prior art keywords
wireless communication
communication device
site
failure
standby
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003091265A
Other languages
English (en)
Other versions
JP2004302512A5 (ja
Inventor
Norie Hara
紀恵 原
Kiyousuke Achiwa
恭介 阿知和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2003091265A priority Critical patent/JP2004302512A/ja
Priority to US10/652,161 priority patent/US7370099B2/en
Publication of JP2004302512A publication Critical patent/JP2004302512A/ja
Publication of JP2004302512A5 publication Critical patent/JP2004302512A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2048Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share neither address space nor persistent storage
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/40Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass for recovering from a failure of a protocol instance or entity, e.g. service redundancy protocols, protocol state redundancy or protocol service redirection

Abstract

【課題】稼動系システムと待機系システムを有するクラスタコンピューティングシステムにおいて、障害の態様によらず、各々のサイト間を接続するネットワークに障害があっても、矛盾なく両サイトを動作させて、障害回復をおこなうことのできるようにする。
【解決手段】稼動系システムと前記待機系システムは、それぞれ無線通信装置を設けて、稼動系システムと待機系システムの間を接続する有線のネットワークが全て、ネットワーク断状態になったときに、稼動系システムの無線通信装置は、稼動系システムの障害を前記待機系システムの無線通信装置との通信により報告する。報告は、稼動系システムの認証IDを送り、待機系システムは、そのパケットを受信した段階で、稼動を開始する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、クラスタコンピューティングシステム、および、そのフェールオーバー方法に係り、稼動系システムと待機系システムを有するデュプレクス−クラスタリングシステムにおいて、各々のサイト間を接続するネットワークに障害があっても、矛盾なく両サイトを動作させて、障害回復をおこなうことのできるクラスタコンピューティングシステム、および、そのフェールオーバー方法に関する。
【0002】
【従来の技術】
クラスタコンピューティングシステムは、複数のサーバを一つのシステムと動作させて、システムの可用性、信頼性を向上させるシステムである。このようなクラスタコンピューティングシステムによって、障害が起こったときに、代替しているサーバがデータや処理を引き継ぐ機能を、フェールオーバーと言い、システムの信頼性を高めるために重要な技術になっている。
【0003】
一般的に、クラスタコンピューティングシステムは、複数のホストコンピュータで、一つの共有する記憶装置システムか、各々別々にアクセス可能な記憶装置を有している。そして、デュプレクスシステムと呼ばれる構成では、この複数のホストコンピュータのうち一つは、稼働ホストコンピュータとして記憶装置システムに対しデータの読み書き等の稼働処理をおこない、それ以外のホストコンピュータは待機ホストコンピュータとして待機状態となっている。稼動ホストコンピュータおよび待機ホストコンピュータは、お互いに状態監視をおこなうことで、片方のホストコンピュータに障害が発生してもそれを検知し、稼動処理を引き継げるようになっている。このようなクラスタコンピューティングシステムとしては、特許文献1に示されるように、サイト間のリンクを選択的に使用して内部通信(ハートビート通信)をおこなう技術が開示されている。
【0004】
以下、図17ないし図20を用いて一般的な従来技術の構成と動作について説明する。
図17は、記憶装置システムをホストコンピュータ間で共有するクラスタコンピューティングシステムの一般的なシステム構成図である。
図18は、図17のシステムでホストコンピュータAに障害がおこったことを説明する図である。
図19は、サイト間で記憶装置システムを別個に持つクラスタコンピューティングシステムの一般的なシステム構成図である。
図20は、図19のシステムでサイトAの記憶装置システムAに障害がおこったことを説明する図である。
【0005】
記憶装置システムをホストコンピュータ間で共有するクラスタコンピューティングシステムでは、図17に示されるように、稼動系であるホストコンピュータA10と、待機系であるホストコンピュータB11とが記憶装置システム51、52にそれぞれインタフェースケーブルA40、B41とが接続され、I/O要求をおこなう構成になっている。
【0006】
この稼動処理をおこなっているホストコンピュータA10、待機状態となっているホストコンピュータB11では、それらをつなぐIPネットワーク30を介してハートビート通信をおこない、お互いの状態監視をおこなっている。
【0007】
記憶装置システム50が有する論理的なディスクボリューム(以下、「論理ディスクボリューム」)は、通常の稼動状態では、ホストコンピュータA10がアクセスしている。
【0008】
もし、図18のようにホストコンピュータA10に障害が起こったときには、待機系のホストコンピュータB11は、IPネットワーク30により障害を検知して、稼動を始めて、ホストコンピュータA10の処理を引き継ぎ、記憶装置システムにアクセスするようになる。
【0009】
このような構成のクラスタコンピューティングシステムは、片方のホストコンピュータに障害が発生しても、稼動処理を維持できるようなシステムとなっている。
【0010】
しかしながら、稼動処理に必要なデータが格納されている記憶装置システム自体に障害が発生した場合には、稼動処理を継続できない。
【0011】
したがって、図19のように稼動系と待機系で記憶装置システムを別々に持つ構成が考えられる。
【0012】
図19に示した構成のクラスタコンピューティングシステムでは、稼動系であるサイトA100と待機系であるサイトB101は、各々、記憶装置システムA51と記憶装置システムB52を持っている。そして、記憶装置システム間で、常時、リモートコピーをおこなっている。リモートコピーとは、物理的に離れた場所にある複数の記憶装置システム同士が、ホストコンピュータを介さずにデータのコピー(二重書き)をおこなう技術である。
【0013】
リモートコピーをおこなうときには、記憶装置システム同士は、専用回線あるいは公衆回線(図19では、FC(Fiber Channel)ネットワーク40)で互いに接続されており、稼動系のサイトA100にある記憶装置システムA51のコピー元論理ディスクボリュームが、待機系のサイトB101の記憶装置システムB52に、コピー先論理ディスクボリュームとしてコピーされる。
【0014】
このようにして、記憶装置システムB52は、記憶装置システムA51のバックアップ系として動作し、データの一貫性が保持されている。
【0015】
ここで、図20に示されるように、記憶装置システムA51はに障害が起こったときには、ホストコンピュータA10が障害を検知し、サイト間を結ぶIPネットワーク30を介して、ホストコンピュータB11に記憶装置システムA51に障害が発生したことを報告する。
【0016】
一方、サイトB101における記憶装置システムB52も、FCネットワーク90を介して、リモートコピー元の記憶装置システムA51に障害が発生したことを検知する。
【0017】
このように、ホストコンピュータB11は、ホストコンピュータA10からの報告と、インタフェースケーブル111を介した記憶装置システムB52の状態を確認すると、サイトA100における記憶装置システムA51に障害が発生したことを認識して、稼働処理を引き継ぐ動作をおこなう。
【0018】
サイトA100からサイトB101に稼働処理が引き継がれた後、サイトA100における記憶装置システムA51が復旧し、その記憶装置システムA51が稼働処理を実行できる状態になった場合には、稼働処理を引き継いだホストコンピュータB11が接続される記憶装置システムB52をリモートコピー元として設定し、復旧した記憶装置システムA51をリモートコピー先として再設定して、リモートコピーをおこなうことで、システム全体の稼働を停止することなく、記憶装置システムA51にデータのリカバリーをおこなうことができる。
【0019】
【特許文献1】
特開2002−312189号公報
【0020】
【発明が解決しようとする課題】
上記従来技術の図19に示したサイト間で別々の記憶装置システムを持つ構成では、複数のホストコンピュータが記憶装置システムを共有してアクセスする図15に示したシステムとは異なり、稼動系の記憶装置システム自体に障害が発生した場合でも、稼働処理を継続することができる。
【0021】
ところで、クラスタコンピューティングシステムでは、ホストコンピュータ間における稼動処理の引き継ぎを可能にするため、常に相手の状態を監視し合う必要がある。図19に示したシステムでは、ホストコンピュータ間を結ぶIPネットワークにおけるハートビート通信と、記憶装置システム間を結ぶFCネットワークにおけるリモートコピーを利用して、相手サイトの状態を確認し障害発生を認識する。したがって、障害発生の態様によっては、システムの障害回復がうまくおこなえない場合が生じる。
【0022】
以下では、障害発生の態様によっては、システムの障害回復がうまくおこなえない場合について、図21および図22を用いて説明する。
図21は、図19の構成でIPネットワーク30とFCネットワーク90に障害がおこった場合を説明する図である。
図22は、図19の構成でサイトAに障害がおこった場合を説明する図である。
【0023】
障害発生の態様としては、図21に示されるように、サイトA100におけるホストコンピュータA10、および、サイトB101におけるホストコンピュータB11を結ぶIPネットワーク30と、サイトA100における記憶装置システムA51およびサイトB101における記憶装置システムB52を結ぶFCネットワーク90とが両方とも断線した場合(以下、「サイト間ネットワーク全断」)がある。
【0024】
このときには、サイト間で通信する手段が全くなくなってしまうために、相手のサイトの状態を監視することができなくなる。
【0025】
また、別の障害の態様として、図22に示されるように、例えば、サイトA100におけるホストコンピュータA10および記憶装置システムA51が同時に障害となるなどによって、サイトA100内のシステム全体の障害の場合(以下、「サイト障害」)がある。
【0026】
このときに、サイトB101のホストコンピュータB11から見ると、サイトA100から情報を取得できないことは同じなので、図21に示したサイト間ネットワーク全断の障害なのか、図22に示したサイト障害なのか全く区別がつかないという問題点がある。
【0027】
一般に、従来のクラスタコンピューティングシステムでは、サイト間ネットワーク全断が発生し、相手サイトの状態監視が不可能になると、相手サイトの情報を全く取得できなくなるため、ロジックによって次の三つの可能性がある。
(1)相手サイトの状態に関係なく、両サイトにおいて稼働処理を実行してしまう状態(スプリットブレイン状態)
(2)相手サイトの状態に関係なく、両サイトにおいて稼働処理を停止してしまう状態
(3)それまで稼働処理を実行していたサイトにおいてのみ、稼働処理を続行する状態
例えば、図21に示したサイト間ネットワーク全断の障害により、(1)のスプリットブレイン状態になると、両サイトにおけるホストコンピュータは、自サイトの記憶装置システムにおける論理ディスクボリュームのデータを更新してしまうため、リモートコピー元とリモートコピー先で異なるデータが存在してしまう結果となる。
【0028】
実際、図21に示したサイト間ネットワーク全断の障害で、サイトA100におけるホストコンピュータA10は、サイトB101にサイト障害が発生したと判断し、稼動したままであり、サイトB101におけるホストコンピュータB11も、サイトA100にサイト障害が発生したと判断したとすると、(1)のスプリットブレイン状態になる。
【0029】
したがって、図21に示したサイト間ネットワーク全断の状態で、サイトA100が稼動しているときには、サイトB101は、依然として待機していなければならないが、図22のサイト障害状態と区別がつかないため、論理的な制御ができない。図22の状態では、サイトB101は、障害を確認した場合には、稼動を開始しなければ、(2)の状態になってしまう。
【0030】
このように、待機系であるサイトB101が、サイト間ネットワーク全断の障害か、サイト障害かの区別ができなければ、システム全体の信頼性が確保できないという問題点があった。
【0031】
また、上記従来技術の特許文献1では、サイト間で複数の選択経路が用意されているので、通常のクラスタシステムよりも強固であり、信頼性が高いということができる。しかしながら、この特許文献1のシステムでも、通信状態が極端に悪いとき、サイト自体かその間の通信路の大規模火災などのリスクには対応できていない。
【0032】
本発明は、上記問題点を解決するためになされたもので、その目的は、稼動系システムと待機系システムを有するクラスタコンピューティングシステムにおいて、障害の態様によらず、各々のサイト間を接続するネットワークに障害があっても、矛盾なく両サイトを動作させて、障害回復をおこなうことのできるクラスタコンピューティングシステムを提供することにある。
【0033】
【課題を解決するための手段】
上記問題点は、複数のサイトを有するクラスタコンピューティングシステムにおいて、相手サイトの状態を確認するのに、ホストコンピュータ間のネットワークまたは、記憶装置システム間のネットワークによっていたことにより生じる。これらのネットワークの通信が途絶すると、相手サイトの状態を確認することが不可能となってしまうからである。
【0034】
上記のIPネットワーク、FCネットワークなどのサイト間ネットワークは、有線ケーブルにより、相手サイトの状態監視をおこなっていた。しかしながら、有線ケーブルを用いる場合、地震やケーブル火災等が原因で、それら全てが同時に断線してしまう(サイト間ネットワーク全断)可能性は否定できない。この有線ケーブルの断線は、クラスタコンピューティングシステムの特徴でもある災害対策(ディザスタリカバリ)の効果を著しく損なうことになる。
【0035】
本発明では、別の有線による状態監視手段における欠点を補うために、無線通信装置による、相手サイトへの障害報告をおこなうことにした。
【0036】
この構成によれば、障害が発生していない間には、従来のクラスタコンピューティングシステムと何ら変わらない動作をし、状態監視手段である有線ケーブルが断線し、通常のクラスタコンピューティングシステムでは適切な運用を維持できないときでも、無線通信により、相手サイト間と通信手段を確保することにより、信頼性を高めることができる。
【0037】
すなわち、本発明では、断線する可能性が大きい有線ケーブルとは異なるインフラ(衛星通信、無線LAN等)を用いることで、有線ケーブルとの同時故障を最小限に低くした無線通信装置による障害報告を、有線ケーブルによるサイト間の情報交換の代用とすることで、サイト間ネットワーク全断発生後も、相手サイトに障害情報を伝達できるシステムを実現することができる。したがって、上記で示した三つのロジックのいずれにおいても、クラスタコンピューティングシステムにおける適切な運用(障害発生時における稼働処理の引継ぎ等)を実現することが可能となる。
【0038】
しかしながら、無線通信には、電波障害や、誤動作等による通信の不安定さが懸念事項に挙げられる。そこで、本発明において用いる無線通信は、従来のクラスタコンピューティングシステムにおける状態監視のように、常に相手サイトの状態を監視するような恒久的な接続ではなく、サイト間ネットワーク全断発生後の、稼働処理引継ぎ時においてのみ接続するるように限定し、無線通信における懸念事項を最小限に抑えた通信としている。
【0039】
このように、本発明のシステムにおいて用いる無線通信装置による障害報告は、従来のサイト間ネットワークにおける状態監視のように、複雑なデータのやり取りや、恒久的な接続をする必要はなく、障害発生の報告を、障害発生時にのみおこなうだけに限定されるため、従来とは異なる構成の状態監視手段となる。
【0040】
【発明の実施の形態】
以下、本発明に係る各実施形態を、図1ないし図16を用いて説明する。
【0041】
〔実施形態1〕
以下、本発明に係る第一の実施形態を図1ないし図15を用いて説明する。
(I)クラスタコンピューティングシステムのシステム構成
先ず、図1ないし図4を用いて、本発明の第一の実施形態に係るクラスタコンピューティングシステムのシステム構成について説明する。
図1は、本発明の第一の実施形態に係るクラスタコンピューティングシステムのシステム構成図である。
図2は、ホストコンピュータAの内部構成図である。
図3は、記憶装置システムAの内部構成図である。
図4は、無線通信装置Aの内部構成図である。
【0042】
本実施形態のクラスタコンピューティングシステムは、図1に示されるように、稼動系システムであるサイトA100と、待機系システムであるサイトB101からなっている。
【0043】
そして、稼動系であるホストコンピュータA10と、待機系であるホストコンピュータB11とが記憶装置システム51、52にそれぞれインタフェースケーブルA40、B41とが接続され、I/O要求をおこなう構成になっていることは、従来技術と同様である。
【0044】
また、稼動処理をおこなっているホストコンピュータA10、待機状態となっているホストコンピュータB11では、それらをつなぐIPネットワーク30を介してハートビート通信をおこない、お互いの状態監視をおこなっていることも従来技術と同様である。
【0045】
そして、リモートコピー機能を有することも、従来技術と同様であり、稼動系のサイトA100にある記憶装置システムA51のコピー元論理ディスクボリュームが、待機系のサイトB101の記憶装置システムB52に、コピー先論理ディスクボリュームとしてコピーされる。
【0046】
このとき、サイトA100におけるホストコンピュータA10は、稼働系システムのホストコンピュータとして、インタフェースケーブルA40で接続されている記憶装置システムA51に対して、読み書き等の稼働処理を実行している。また、サイトB101におけるホストコンピュータB11は、待機ホストコンピュータとして待機状態となっている。
【0047】
さらに、サイトA100におけるホストコンピュータA10には、インタフェースケーブルAR180を介して、無線通信装置A160が接続されており、サイトB101におけるホストコンピュータB11には、インタフェースケーブルBR181を介して、無線通信装置B161が接続されている。
【0048】
これらの無線通信装置は、例えば、地震や火災、テロ等によってサイト障害が発生した場合でも、無線通信装置に障害が及ばないように、それぞれが、飛行機のボイスレコーダーを格納するブラックボックスのような障害に耐えうる容器に収められており、サイト障害発生後にも、相手サイトへの状態報告がおこなえるような構成となっている。
【0049】
サイトA100における無線通信装置A160は、ホストコンピュータA10からの指示、または、ホストコンピュータA10が故障したという自己判断により、サイトB101における無線通信装置B161をコールしたり、コールが成功したかどうかをホストコンピュータA10に報告したりする等の機能を持ち、インタフェースケーブルAR180を介して、ホストコンピュータA10の状態監視をおこなっている。これにより、無線通信装置A160は、サイトA100においてサイト障害が発生した場合でも、このインタフェースケーブルAR180を介して障害を検知し、それまでサイトA100でおこなっていた稼働処理を、サイトB101に引き継ぐように、無線通信装置B161に対してコールができるようになっている。一方、サイトB101における無線通信装置B161は、サイトA100における無線通信装置A160からのコールを受信したり、そのコールがあったか否かをホストコンピュータB11へ報告する等の機能を持ち、無線通信装置A160と同様に、インタフェースケーブルBR181を介して、ホストコンピュータB11の状態監視をおこなっている。
【0050】
このように、本発明における無線通信装置は、ホストコンピュータからの命令によりコール開始する機能、ホストコンピュータの状態を監視し、その状態によって自発的にコールを開始する機能、コールの結果をホストコンピュータに報告する機能等、特有のプログラムを有し、本発明における独自の動作をおこなう装置である。
【0051】
なお、無線通信路としては、衛星通信を使ってもよいし、無線LANの機能を使ってもよい。また、携帯電話の通信路である公衆通信網を使ってもよい。
【0052】
ホストコンピュータA10は、図2に示されるように、CPU10a、メモリ10b、入力装置10c、表示装置10d、無線通信装置インタフェース10e、IPインタフェース10fを備えている。
【0053】
無線通信装置インタフェース10eは、無線通信装置A160と通信するためのインターネットであり、IPインタフェース10fは、他のサイトと通信するためのインタフェースである。これらは、同一の通信インタフェースであってもよい。
【0054】
また、記憶装置システムA51は、コントローラ51a、制御メモリ51b、キャッシュメモリ51c、FCインタフェース51d、通常複数のディスク装置51e、51f、51g、…を備えている。
【0055】
コントローラ51aは、この記憶装置システム51の各部を制御する機能を有する。キャッシュメモリ51cは、ディスク装置51e、…のアクセスを高速化させるためデータをキャッシュしておくためのメモリであり、制御メモリ51bは、コントローラに用いられる制御用のデータをキャッシュするためのメモリである。 FCインタフェース51dは、ファイバチャネルにより他の記憶装置システムを接続する。
【0056】
無線通信装置A160は、図4に示されるように、コントローラ160a、メモリ160b、送受信回路160c、ホスト監視部160d、ホストインタフェース160eを備えている。
【0057】
コントローラ160aは、無線通信装置A160の内部を制御しており、ホストインタフェース160eを介してホストから送られてくるコマンドやホスト監視部160dからの報告を受け付けて、それを解釈して外部にコマンドを発行する。
【0058】
ホスト監視部160dは、ホストインタフェース160eを介してホストを監視し、結果をコントローラ160aに報告する。
【0059】
送受信回路160aは、通常の無線通信装置がおこなうようなベースバンド処理、搬送波処理、高周波処理をおこない、コントローラ160aからのコマンドやデータを外部に送信したり、外部からのコマンドやデータを受信して、コントローラ160aに伝える。
(II)クラスタコンピューティングシステムの障害時の動作
次に、図5ないし図13を用いて本実施形態のクラスタコンピューティングシステムの障害時の動作について説明する。
【0060】
(II−1)障害の態様と動作の概要
先ず、図5ないし図8を用いて本実施形態のクラスタコンピューティングシステムの障害の態様と動作の概要について説明する。
図5は、本発明のクラスタコンピューティングシステムで、サイト間ネットワーク全断がおこったときを説明する図である。
図6は、本発明のクラスタコンピューティングシステムで、サイト間ネットワーク全断と記憶装置システムの障害が同時におこったときを説明する図である。
図7は、本発明のクラスタコンピューティングシステムで、サイト障害がおこったときを説明する図である。
図8は、本発明のクラスタコンピューティングシステムで、サイト間ネットワーク全断とサイト障害が同時におこったときを説明する図である。
【0061】
サイト間ネットワーク全断とは、図5に示される場合であり、既に説明したように、サイトA100におけるホストコンピュータA10、および、サイトB101におけるホストコンピュータB11を結ぶIPネットワーク30と、サイトA100における記憶装置システムA51およびサイトB101における記憶装置システムB52を結ぶFCネットワーク90とが両方とも断線した場合である。
【0062】
この場合には、本発明のシステムでは、稼動系システムは、引き続き稼動を続け、待機系システムでは、引き続き待機を続けることになる。
【0063】
そして、図6に示されるように、サイト間ネットワーク全断の状態で、記憶装置システム障害がおこったときには、無線通信装置A160を介して、サイトA100からサイトB101に連絡が行き、初めて待機系システムが稼動を開始することになる。
【0064】
また、サイト障害とは、図7に示されるように、例えば、サイトA100におけるホストコンピュータA10および記憶装置システムA51が同時に障害となるなどによって、サイトA100内のシステム全体が障害となっている場合をいう。
【0065】
この場合には、サイトA100から無線通信装置A160が、サイトB101に連絡して、待機系システムが稼動を開始することになる。
【0066】
また、図8に示されているのは、ネットワーク全断とサイト障害が同時に、障害がおこった場合である。
【0067】
この場合も、図7の場合と同様に、サイトB101に連絡して、待機系システムが稼動を開始することになる。
【0068】
図7と図8の場合には、サイトA100の無線通信装置A160が、サイト障害が発生したことを検知して、サイトA100から無線通信装置A160が、サイトB101の無線通信装置B161に連絡して、待機系システムが稼動を開始することになる。
【0069】
サイトB101の動作としては、図7と図8の場合もいずれも同じであり、サイトA100からの情報が得られないため、無線通信装置B161が無線通信装置A160のコールを待ち受ける。そして、サイトA100に障害がおこったときに、障害報告を受け、ホストコンピュータB11に稼動を開始するコマンドを発行して、稼動を開始させる。
【0070】
(II−2)サイトAにおけるホストコンピュータAのメイン動作
以下、図9のフローチャートを追いながらサイトAにおけるホストコンピュータAのメイン動作について説明する。
図9は、サイトAにおけるホストコンピュータAのメイン動作を説明するフローチャートである。
【0071】
サイトA100におけるホストコンピュータA10は、稼動系システムのホストコンピュータとして稼動処理をおこなっており、IPネットワーク30およびFCネットワーク90のサイト間ネットワークを利用して、サイトB101の状態監視をおこなっている。
【0072】
この状態で、サイトA100内のシステムに、サイトA100におけるホストコンピュータA10において稼動処理の続行が不可能な障害が発生した場合は、サイト間ネットワークにより情報が伝えられ、その稼動処理は、サイトB101におけるホストコンピュータB11に引き継がれる。
【0073】
このような一連の動作は、従来のクラスタコンピューティングシステムにおいておこなわれている動作であり、ここでは「通常クラスタ運用処理」(S600)と呼ぶ。
【0074】
ホストコンピュータA10は、この通常クラスタ運用処理時に、サイト間ネットワーク全断が発生し、サイト間ネットワークを利用して、サイトB101における情報を取得することができなくなると(S601 Yes)、それまで稼働処理をおこなっていたサイトA100におけるホストコンピュータA10が、引き続き稼働処理をおこなう処理(以下、「稼働系優先運用処理」S602)に移る。
【0075】
従来のクラスタコンピューティングシステムでは、サイト間ネットワーク全断が発生すると、両サイトにおけるホストコンピュータが、互いに相手サイトにサイト障害が発生したと判断し、それまで稼働処理をおこなっていたサイトが稼働処理を停止したり(この場合、両サイトにおいて稼働処理が停止した状態となる)、それまで待機状態となっていたサイトが稼働処理を引き継いでしまう(この場合、スプリットブレイン状態となる)等の問題点を生じていたが、本発明のシステムの場合には、サイト間ネットワーク全断が発生しても、稼動系システムでは、それまでおこなっていた動作を実行し続ける。そして、待機状態となっていたサイトは待機状態を維持することにする。
【0076】
このような稼動系優先運用処理をおこなうのは、サイト間ネットワーク全断が発生しても、無線通信により情報を伝えることができるため、稼動系システムでは、引き続き処理をおこなって、待機系システムでは、稼動系システムから指示があったときに、初めて稼動処理を開始すればよいという考えに基づくものである。
【0077】
そして、ホストコンピュータA10が、この稼動側優先運用処理時に、インタフェースケーブルA40により、記憶装置システムA51に障害が発生したことを検知した場合(S603 Yes)、インタフェースケーブルA40自体の障害によっ記憶装置システムA51の情報取得ができないような場合には、それまでおこなっていた稼動処理は続行できないため、記憶装置システム障害対応処理(S3000H)に移る。
【0078】
(II−3)サイトAにおける無線通信装置A160のメイン動作
以下、図10のサイトAにおける無線通信装置A160のメイン動作について説明する。
図10は、サイトAにおける無線通信装置A160のメイン動作について説明するフローチャートである。
【0079】
サイトA100における無線通信装置A160は、図1で説明したように、ホストコンピュータA10と、インタフェースケーブルAR180で接続されている。
【0080】
無線通信装置A160は、通常、このコマンドを待機する状態(以下、「コマンド待機状態」)となっている(S700)。また同時に、インタフェースケーブルAR180を介して、ホストコンピュータA10の状態監視もおこっており、インタフェースケーブルAR180から取得するホストコンピュータA10の情報を常に監視している。
【0081】
無線通信装置A160は、このコマンド待機時に、サイトA100におけるホストコンピュータA10から、インタフェースケーブルAR180を介して後述するコール指示コマンドを受領(S702 Yes)すると、記憶装置システム障害対応処理(S3000R)に移る。
【0082】
また、無線通信装置A160は、このコマンド待機状態のとき、サイトA100におけるサイト障害により、インタフェースケーブルAR180を介して、ホストコンピュータA10の情報を取得できない場合(S701 No)、サイト障害対応処理(S5000R)に移る。
【0083】
(II−4)サイトBにおけるホストコンピュータBのメイン動作
以下、図11のフローチャートを追いながらサイトBにおけるホストコンピュータBのメイン動作について説明する。
図11は、サイトBにおけるホストコンピュータBのメイン動作について説明するフローチャートである。
【0084】
サイトB101におけるホストコンピュータB11は、前述したように、待機系システムのホストコンピュータとして待機状態となっており、IPネットワーク30およびFCネットワーク90のサイト間ネットワークを利用して、サイトA100の状態監視をおこなっている。
【0085】
この状態で、サイトA100内のシステムに、サイトA100において稼動処理が続行できないような障害が発生した場合には、サイトB101におけるホストコンピュータB11がその稼動処理を引き継ぐことになり、このような従来のクラスタコンピューティングシステムにおける運用処理がおこなわれる(通常クラスタ運用処理)(S800)。
【0086】
ホストコンピュータB11は、この通常クラスタ運用処理時に、サイト間ネットワーク全断が発生するか、サイトA100にサイト障害がおこるかして、IPネットワーク30、および、FCネットワーク90を利用してサイトA100の状態監視が不可能になると(S801 Yes)、サイトAの情報取得不能処理(S4000H)に移る。
【0087】
(II−5)サイトBにおける無線通信装置Bのメイン動作
以下、図12のフローチャートを追いながらサイトBにおける無線通信装置Bのメイン動作について説明する。
図12は、サイトBにおける無線通信装置Bのメイン動作について説明するフローチャートである。
【0088】
サイトB101における無線通信装置B161は、通常、コマンド待機状態となっている(S900)。
【0089】
無線通信装置B161は、このコマンド待機時に、ホストコンピュータB11から待機指示コマンドを受領する(S901 Yes)と、サイトAの情報取得不能処理(S4000R)に移る。
【0090】
(II−6)サイトAにおける記憶装置システム障害対応処理の動作
以下、図13のフローチャートを追いながらサイトAにおける記憶装置システム障害対応処理の動作について説明する。
図13は、サイトAにおいて、ホストコンピュータAと無線通信装置Aとの記憶装置システム障害対応処理の動作を並列して示したフローチャートである。
【0091】
図6に示したように、サイト間ネットワーク全断が発生した後に、サイトA100における記憶装置システムA51に障害が発生したとする。
【0092】
ホストコンピュータA10の動作としては、S1000において記憶装置システム障害対応処理フロー(S3000H)へ移った場合である。
【0093】
サイトA100におけるホストコンピュータA10は、インタフェースケーブルAR180を介して、無線通信装置A160に対し、コール指示コマンドを発行する。コール指示コマンドは、無線通信装置B161に対するコールを指示するコマンドである。
【0094】
無線通信装置A160は、コール指示コマンドを受領すると(S701、S1501)、サイトB101における無線通信装置B161へのコールを開始し、自己の証明として認証IDを含むパケットも送出する(S1502)。
【0095】
無線通信装置A160は、無線通信装置B161へのコールを、無線通信装置B161につながるまで繰り返し(S1503 No)、一度でも無線通信装置B161につながると(S1503 Yes)、その接続はただちに切断される(S1504)。
【0096】
これは、無線通信装置A160における無線通信装置B161への接続が成功した段階で、それが稼動処理の引継ぎ要求が伝わったことにすることを意味する。
【0097】
後に述べるように、サイトB101では、一度でも無線通信装置B161につながって、認証IDを受信すると稼動処理を開始するので、この段階で、サイトA100では、記憶装置システム障害対応処理を終えてよい。
【0098】
(II−7)サイトBにおけるサイトAの情報取得不能処理の動作
以下、図14のフローチャートを追いながらサイトBにおけるサイトAの情報取得不能処理について説明する。
図14は、サイトBにおいて、ホストコンピュータBと無線通信装置BとのサイトBにおけるサイトAの情報取得不能処理の動作を並列して示したフローチャートである
障害の態様としては、図5のネットワーク全断障害が起こるか、図7のサイト障害が起こるか、または、図8のようにその両方の障害が起こったとする。
【0099】
ホストコンピュータBの動作としては、S2000においてサイトAの情報取得不能処理(S4000H)へ移った場合である。
【0100】
サイトB101におけるホストコンピュータB11は、無線通信装置B161に対して、待機指示コマンドを発行する(S1600)。待機指示コマンドは、無線通信装置B161が無線通信装置A160からのコールを待機するコマンドである。
【0101】
無線通信装置B161は、インタフェースケーブルBR181を介して、ホストコンピュータB11からの待機指示コマンドを受領し(S901、S1604)、無線通信装置A160からのコールを待つ待機状態となる(S1605)。この待機状態は、無線通信装置B161が唯一外部からのコールを受け入れる状態であり、万が一、この待機状態時以外に、外部からコールがあった場合でも、無線通信装置B161はこれを無視し、その時の状態を維持することを意味する。このようにすることにより、誤動作などが防止できる。
【0102】
無線通信装置B161は、この待機状態時に、無線通信装置A160からのコールがあると(S1606 Yes)、そのコールが無線通信装置A160からのものであるか、認証IDを用いて確認し(S1607)、無線通信装置A160のコールであることを確認できたら、ホストコンピュータB11に、インタフェースケーブルBR181を介して、稼動処理開始指示コマンドを発行する(S1608)。稼動処理開始指示コマンドは、無線通信装置B161がホストコンピュータB11に稼動を処理するコマンドである。
【0103】
この稼動処理開始コマンドを受領したホストコンピュータB11は(S1602 Yes)、ここで初めて、サイトA100において稼働処理を続行できない障害が発生したことを認識し、稼動処理を開始する(S1603)。このホストコンピュータB11における稼動処理の開始は、サイトA100におけるホストコンピュータA10でおこなわれていた稼動処理が、サイトB101におけるホストコンピュータB11に引き継がれたことを意味する。
【0104】
(II−8)サイトAにおけるサイト障害後の無線通信装置Aの動作
図6に示すように、サイトA100において、例えば地震や火災、テロ等によってサイトA100内のシステム全てに障害が発生したようなサイト障害がおこったものとする。また、図8に示すように、サイト障害に加えて、ネットワーク全断障害がおこっている場合もあり得る。
【0105】
以下、図15のフローチャートを追いながらサイトAにおけるサイト障害後の無線通信装置Aの動作について説明する。
図15は、サイトAにおけるサイト障害後の無線通信装置Aの動作を示したフローチャートである。
【0106】
ただし、無線通信装置A160には、ブラックボックスとして遮蔽されているため障害が及んでいないものとする。
【0107】
無線通信装置A160の動作としては、S1000において、サイト障害対応処理(S5000R)へ移った場合である。
【0108】
サイトA100における無線通信装置A160は、インタフェースケーブルAR180を介しての、ホストコンピュータA10の状態監視が不可能となることから、サイトA100において、サイト障害が発生したと判断し、無線通信装置B161へのコールを開始し、自己の証明として認証IDを含むパケットも送出する(S1700) 。
【0109】
無線通信装置A160は、無線通信装置B161へのコールを、無線通信装置B161につながるまで繰り返し(S1701 No)、一度コールが受け付けられと(S1701 Yes)、その接続はただちに切断される(S1702)。無線通信装置A160からの無線通信装置B161へのコールが一度でも受け付けられ、それが稼動処理の引継ぎを完了したものとする。
【0110】
以下のサイトB101におけるホストコンピュータB11、および、無線通信装置B161における処理は、記憶装置システム障害対応処理(S3000H、S3000R)と同じである。
【0111】
サイトB101のホストコンピュータB11は、ネットワーク全断の障害でも、サイト障害の場合でも、IPネットワーク30、および、FCネットワーク90を利用してサイトA100の状態監視が不可能になるので(S801 Yes)、サイトAの情報取得不能処理に移る(S4000H)。
【0112】
そして、無線通信装置B161に待機指示コマンド発行を出し(S1600)、無線通信装置B161は、無線通信装置A160のコール待ちになる(S1605、S1606)。そして、無線通信装置B161がコールを受け、認証IDを無線通信装置A160から受信すると、無線通信装置B161は、ホストコンピュータB11に稼動処理指示コマンドを出し(S1608)、ホストコンピュータB11は、稼動を開始する(S1603)。
【0113】
〔実施形態2〕
以下、本発明に係る第二の実施形態を図16を用いて説明する。
図16は、本発明の第二の実施形態に係るクラスタコンピューティングシステムのシステム構成図である。
【0114】
第一の実施形態では、サイトAとサイトBが別々の記憶装置システムを持ち、リモートコピーをおこなっている場合であった。
【0115】
本実施形態では、サイトA100とサイトB101が記憶装置システム50を共用しているものとする。このシステム構成で、サイトA100に障害がおこったときにも、同様に無線通信装置A160が、無線通信装置B161に連絡させることにより、第一の実施形態と同様に、稼動系システムと待機系システムの連絡をおこなって障害回復の処理をおこなうことができる。
【0116】
【発明の効果】
以上のように、本発明では、リモートコピー機能を組み合わせた従来のクラスタコンピューティングシステムに、無線通信装置による相手サイトへの障害報告を導入することによって、サイト間ネットワーク全断発生後でも相手サイトの障害を認識することが可能となる。したがって、例えば、サイト間ネットワーク全断発生後、稼働処理をおこなっているサイトにおいて障害が発生しても、適切な判断で、もう片方のサイトが稼働処理を引き継ぐことができる。
【0117】
また、本発明は、従来のシステムにおける状態監視手段として用いる有線ケーブルを単に冗長化することによって、ディザスタリカバリの強化を図るものでなく、有線ケーブルとは異なるインフラを用いた無線通信による状態報告手段を加えることによって、その強化を図る発明である。
【0118】
このように、本発明によれば、稼動系システムと待機系システムを有するクラスタコンピューティングシステムにおいて、障害の態様によらず、各々のサイト間を接続するネットワークに障害があっても、矛盾なく両サイトを動作させて、障害回復をおこなうことのできるクラスタコンピューティングシステムを提供することができる。
【図面の簡単な説明】
【図1】本発明の第一の実施形態に係るクラスタコンピューティングシステムのシステム構成図である。
【図2】ホストコンピュータAの内部構成図である。
【図3】記憶装置システムAの内部構成図である。
【図4】無線通信装置Aの内部構成図である。
【図5】本発明のクラスタコンピューティングシステムで、サイト間ネットワーク全断がおこったときを説明する図である。
【図6】本発明のクラスタコンピューティングシステムで、サイト間ネットワーク全断と記憶装置システムの障害が同時におこったときを説明する図である。
【図7】本発明のクラスタコンピューティングシステムで、サイト障害がおこったときを説明する図である。
【図8】本発明のクラスタコンピューティングシステムで、サイト間ネットワーク全断とサイト障害が同時におこったときを説明する図である。
【図9】サイトAにおけるホストコンピュータAのメイン動作を説明するフローチャートである。
【図10】サイトAにおける無線通信装置A160のメイン動作について説明するフローチャートである。
【図11】サイトBにおけるホストコンピュータBのメイン動作について説明するフローチャートである。
【図12】サイトBにおける無線通信装置Bのメイン動作について説明するフローチャートである。
【図13】サイトAにおいて、ホストコンピュータAと無線通信装置Aとの記憶装置システム障害対応処理の動作を並列して示したフローチャートである。
【図14】サイトBにおいて、ホストコンピュータBと無線通信装置BとのサイトBにおけるサイトAの情報取得不能処理の動作を並列して示したフローチャートである
【図15】サイトAにおけるサイト障害後の無線通信装置Aの動作を示したフローチャートである。
【図16】本発明の第二の実施形態に係るクラスタコンピューティングシステムのシステム構成図である。
【図17】記憶装置システムをホストコンピュータ間で共有するクラスタコンピューティングシステムの一般的なシステム構成図である。
【図18】図17のシステムでホストコンピュータAに障害がおこったことを説明する図である。
【図19】サイト間で記憶装置システムを別個に持つクラスタコンピューティングシステムの一般的なシステム構成図である。
【図20】図19のシステムでサイトAの記憶装置システムAに障害がおこったことを説明する図である。
【図21】図19の構成でIPネットワーク30とFCネットワーク90に障害がおこった場合を説明する図である。
【図22】図19の構成でサイトAに障害がおこった場合を説明する図である。
【符号の説明】
10…ホストコンピュータA
11…ホストコンピュータB
20…論理ディスクボリューム
21…コピー元論理ディスクボリューム
22…コピー先論理ディスクボリューム
30…IPネットワーク
40…インタフェースケーブルA
41…インタフェースケーブルB
50…記憶装置システム
51…記憶装置システムA
52…記憶装置システムB
90…FCネットワーク
100…サイトA
101…サイトB
160…無線通信装置A
161…無線通信装置B
170…ブラックボックスA
171…ブラックボックスB
180…インタフェースケーブルAR
181…インタフェースケーブルBR

Claims (10)

  1. 稼動系システムと待機系システムよりなるクラスタコンピューティングシステムにおいて、
    前記稼動系システムと前記待機系システムは、それぞれ無線通信装置を有し、
    前記稼動系システムの無線通信装置は、前記稼動系システムの障害を前記待機系システムの無線通信装置との通信により報告し、
    前記障害の報告は、前記稼動系システムと前記待機系システムの間を接続する有線のネットワークが全て、ネットワーク断状態になったときにおこなうことを特徴とするクラスタコンピューティングシステム。
  2. 前記稼動系システムと待機系システムは、それぞれホストコンピュータと、記憶装置システムとを有し、
    各々のホストコンピュータは、クラスタネットワークで接続され、
    各々の記憶装置システムは、ストレージ間ネットワークで接続されていて、
    前記クラスタネットワークと前記ストレージ間ネットワークが同時に、ネットワーク断状態になったときに、前記障害の報告をおこなうことを特徴とする請求項1記載のクラスタコンピューティングシステム。
  3. 前記クラスタネットワークは、IPネットワークであり、
    前記ストレージ間ネットワークは、FC(Fiber Channel)ネットワークであることを特徴とする請求項1記載のクラスタコンピューティングシステム。
  4. 前記稼動系システムの無線通信装置は、その稼動系システムの認証IDを含むパケットを、前記待機系システムの無線通信装置に発信し、
    前記待機系システムの無線通信装置は、その認証IDを含むパケットを受信したときに、前記稼動系システムの障害であると認識して動作することを特徴とする請求項1記載のクラスタコンピューティングシステム。
  5. 前記稼動系システムの無線通信装置は、ホストコンピュータから、コール指示コマンドを受けて、障害報告の通信を前記待機系システムの無線通信装置におこなうことを特徴とする請求項1記載のクラスタコンピューティングシステム。
  6. 前記稼動系システムの無線通信装置は、前記稼動系システムのホストコンピュータの障害を監視し、障害を検知したときに、障害報告の通信を前記待機系システムの無線通信装置におこなうことを特徴とする請求項1記載のクラスタコンピューティングシステム。
  7. 前記待機系システムの無線通信装置は、前記稼動系システムの無線通信装置より、障害報告の通信を受信したときに、前記待機系システムのホストコンピュータに、稼動処理指示コマンドを発行することを特徴とする請求項1記載のクラスタコンピューティングシステム。
  8. 前記稼動系システムと前記待機系システムのそれぞれ無線通信装置は、
    前記稼動系システムと前記待機系システムの各々のサイト障害に対しても、影響を受けないように隔離されたことを特徴とする請求項1記載のクラスタコンピューティングシステム。
  9. 稼動系システムと待機系システムよりなるクラスタコンピューティングシステムのフェールオーバー方法において、
    前記稼動系システムと前記待機系システムは、それぞれ無線通信装置を有し、
    前記稼動系システムは、前記待機系システムとの間の有線のサイト間ネットワークから情報を得られなくなったときでも、システムの稼動を継続させ、
    前記稼動系システムは、自らのサイトの記憶装置システムに障害を発見したときに、前記稼動系システムの無線通信装置に指示を与えて、前記待機系システムの無線通信装置に、障害を報告する通信をおこなわせ、
    前記待機系システムの無線通信装置は、前記稼動系システムの無線通信装置より障害の報告を受けて、前記待機系システムのホストコンピュータに稼動処理の開始を指示することを特徴とするクラスタコンピューティングシステムのフェールオーバー方法。
  10. 稼動系システムと待機系システムよりなるクラスタコンピューティングシステムのフェールオーバー方法において、
    前記稼動系システムと前記待機系システムは、それぞれ無線通信装置を有し、
    前記稼動系システムの無線通信装置は、常時、前記稼動系システムの状態を検知し、
    前記稼動系システムの無線通信装置が、前記稼動系システムの障害を検知し、かつ、前記待機系システムが、前記稼動系システムのサイト間の有線のネットワークにより、情報が得られなくなったときに、
    前記稼動系システムの無線通信装置は、前記待機系システムの無線通信装置に障害の報告する通信をして、
    前記待機系システムの無線通信装置は、前記稼動系システムの無線通信装置より障害の報告を受けて、前記待機系システムのホストコンピュータに稼動処理の開始を指示することを特徴とするクラスタコンピューティングシステムのフェールオーバー方法。
JP2003091265A 2003-03-28 2003-03-28 クラスタコンピューティングシステム、および、そのフェールオーバー方法 Pending JP2004302512A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003091265A JP2004302512A (ja) 2003-03-28 2003-03-28 クラスタコンピューティングシステム、および、そのフェールオーバー方法
US10/652,161 US7370099B2 (en) 2003-03-28 2003-08-28 Cluster computing system and its failover method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003091265A JP2004302512A (ja) 2003-03-28 2003-03-28 クラスタコンピューティングシステム、および、そのフェールオーバー方法

Publications (2)

Publication Number Publication Date
JP2004302512A true JP2004302512A (ja) 2004-10-28
JP2004302512A5 JP2004302512A5 (ja) 2006-02-23

Family

ID=33404680

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003091265A Pending JP2004302512A (ja) 2003-03-28 2003-03-28 クラスタコンピューティングシステム、および、そのフェールオーバー方法

Country Status (2)

Country Link
US (1) US7370099B2 (ja)
JP (1) JP2004302512A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010055136A (ja) * 2008-08-26 2010-03-11 Mitsubishi Electric Corp 通信システム及び制御装置及び制御対象装置
JP2012168623A (ja) * 2011-02-10 2012-09-06 Nec Corp 待機系計算機、クラスタシステム、サービス提供方法およびプログラム

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004028066A2 (en) * 2002-09-20 2004-04-01 Tekelec Methods and systems for locating redundant telephony call processing hosts in geographically separate locations
US7558884B2 (en) * 2004-05-03 2009-07-07 Microsoft Corporation Processing information received at an auxiliary computing device
US7511682B2 (en) 2004-05-03 2009-03-31 Microsoft Corporation Context-aware auxiliary display platform and applications
US7577771B2 (en) * 2004-05-03 2009-08-18 Microsoft Corporation Caching data for offline display and navigation of auxiliary information
US7660914B2 (en) * 2004-05-03 2010-02-09 Microsoft Corporation Auxiliary display system architecture
KR100650574B1 (ko) * 2004-11-17 2006-11-29 엘지노텔 주식회사 피씨아이를 이용한 이중화 장치의 심볼 테이블 복원 방법
JP2006285919A (ja) * 2005-04-05 2006-10-19 Hitachi Ltd 計算機システム、計算機及びリモートコピー処理方法
US9195397B2 (en) 2005-04-20 2015-11-24 Axxana (Israel) Ltd. Disaster-proof data recovery
US7707453B2 (en) * 2005-04-20 2010-04-27 Axxana (Israel) Ltd. Remote data mirroring system
US7797570B2 (en) * 2005-11-29 2010-09-14 Netapp, Inc. System and method for failover of iSCSI target portal groups in a cluster environment
US7584378B2 (en) 2006-09-07 2009-09-01 International Business Machines Corporation Reconfigurable FC-AL storage loops in a data storage system
US20080285436A1 (en) * 2007-05-15 2008-11-20 Tekelec Methods, systems, and computer program products for providing site redundancy in a geo-diverse communications network
WO2009047751A2 (en) * 2007-10-08 2009-04-16 Axxana (Israel) Ltd. Fast data recovery system
FR2925965B1 (fr) * 2007-12-28 2009-12-18 Bull Sas Systeme informatique a haute disponibilite
WO2009141752A2 (en) * 2008-05-19 2009-11-26 Axxana (Israel) Ltd. Resilient data storage in the presence of replication faults and rolling disasters
US8370679B1 (en) * 2008-06-30 2013-02-05 Symantec Corporation Method, apparatus and system for improving failover within a high availability disaster recovery environment
WO2010076755A2 (en) * 2009-01-05 2010-07-08 Axxana (Israel) Ltd Disaster-proof storage unit having transmission capabilities
US8112659B2 (en) 2009-06-19 2012-02-07 Oracle International Corporation Reducing recovery time for business organizations in case of disasters
US9021124B2 (en) 2009-12-02 2015-04-28 Axxana (Israel) Ltd. Distributed intelligent network
US20140173330A1 (en) * 2012-12-14 2014-06-19 Lsi Corporation Split Brain Detection and Recovery System
US20160164871A1 (en) * 2013-07-22 2016-06-09 Kaba Ag Fail-safe distributed access control system
US10769028B2 (en) 2013-10-16 2020-09-08 Axxana (Israel) Ltd. Zero-transaction-loss recovery for database systems
US10102088B2 (en) * 2013-12-25 2018-10-16 Nec Solution Innovators, Ltd. Cluster system, server device, cluster system management method, and computer-readable recording medium
US10379958B2 (en) 2015-06-03 2019-08-13 Axxana (Israel) Ltd. Fast archiving for database systems
CN107171820B (zh) * 2016-03-08 2019-12-31 北京京东尚科信息技术有限公司 信息传输、发送、获取方法和装置
JP2018073231A (ja) * 2016-11-01 2018-05-10 富士通株式会社 ストレージシステムおよびストレージ装置
US10592326B2 (en) 2017-03-08 2020-03-17 Axxana (Israel) Ltd. Method and apparatus for data loss assessment

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11126168A (ja) * 1997-10-23 1999-05-11 Nec Corp 情報処理システム
JPH11175488A (ja) * 1997-12-16 1999-07-02 Toshiba Corp サーバシステムおよびフェールオーバ制御方法
JP2000222373A (ja) * 1999-01-29 2000-08-11 Internatl Business Mach Corp <Ibm> マルチクラスタ化コンピュ―タ・システムを構成及び管理する方法及び装置
WO2002013033A1 (en) * 2000-08-04 2002-02-14 3Pardata, Inc. Data storage system
JP2002170173A (ja) * 2000-12-01 2002-06-14 Hitachi Mobile Co Ltd 遠隔監視システム及び装置
WO2002050678A1 (en) * 2000-12-21 2002-06-27 Legato Systems, Inc. Method of 'split-brain' prevention in computer cluster systems
JP2002185478A (ja) * 2000-12-15 2002-06-28 Nec Corp コンピュータシステムにおける共有資源の排他利用方式
JP2002247035A (ja) * 2001-02-20 2002-08-30 Toshiba Tec Corp 情報通信システム
JP2002312189A (ja) * 2001-01-12 2002-10-25 Hitachi Ltd クラスターシステムにおける遠隔ミラーを使用した障害通知方法及びシステム

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5356A (en) * 1847-11-06 Improvement in chimney-caps
US103816A (en) * 1870-05-31 Improvement in devices for closing the ends of coat-sleeves
US69334A (en) * 1867-10-01 Benedict gantner
JPH08272666A (ja) 1995-03-31 1996-10-18 Atsushi Fukumoto データバックアップ方法と、ミラーリング装置と、その 制御方法。
US5751789A (en) * 1995-11-13 1998-05-12 Bell Atlantic Network Services, Inc. SNID with wireless backup
US6088659A (en) * 1997-09-11 2000-07-11 Abb Power T&D Company Inc. Automated meter reading system
US6279032B1 (en) * 1997-11-03 2001-08-21 Microsoft Corporation Method and system for quorum resource arbitration in a server cluster
US6317844B1 (en) * 1998-03-10 2001-11-13 Network Appliance, Inc. File server storage arrangement
US6163855A (en) * 1998-04-17 2000-12-19 Microsoft Corporation Method and system for replicated and consistent modifications in a server cluster
US6144999A (en) * 1998-05-29 2000-11-07 Sun Microsystems, Incorporated Method and apparatus for file system disaster recovery
US6385643B1 (en) * 1998-11-05 2002-05-07 Bea Systems, Inc. Clustered enterprise Java™ having a message passing kernel in a distributed processing system
GB2353111A (en) 1999-08-07 2001-02-14 Ibm System for wireless communications between computers
US6859834B1 (en) * 1999-08-13 2005-02-22 Sun Microsystems, Inc. System and method for enabling application server request failover
US6826580B2 (en) * 2000-01-20 2004-11-30 Emc Corporation Distributed storage resource management in a storage area network
US6952737B1 (en) * 2000-03-03 2005-10-04 Intel Corporation Method and apparatus for accessing remote storage in a distributed storage cluster architecture
US20020069317A1 (en) * 2000-12-01 2002-06-06 Chow Yan Chiew E-RAID system and method of operating the same
US6691139B2 (en) 2001-01-31 2004-02-10 Hewlett-Packard Development Co., Ltd. Recreation of archives at a disaster recovery site
US7231391B2 (en) * 2001-02-06 2007-06-12 Quest Software, Inc. Loosely coupled database clusters with client connection fail-over
US6715098B2 (en) * 2001-02-23 2004-03-30 Falconstor, Inc. System and method for fibrechannel fail-over through port spoofing
US20020133601A1 (en) * 2001-03-16 2002-09-19 Kennamer Walter J. Failover of servers over which data is partitioned
US7028217B2 (en) 2001-06-04 2006-04-11 Lucent Technologies Inc. System and method of general purpose data replication between mated processors
AU2002343424A1 (en) * 2001-09-28 2003-04-14 Bluesocket, Inc. Method and system for managing data traffic in wireless networks
US7069468B1 (en) * 2001-11-15 2006-06-27 Xiotech Corporation System and method for re-allocating storage area network resources
US6944788B2 (en) * 2002-03-12 2005-09-13 Sun Microsystems, Inc. System and method for enabling failover for an application server cluster

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11126168A (ja) * 1997-10-23 1999-05-11 Nec Corp 情報処理システム
JPH11175488A (ja) * 1997-12-16 1999-07-02 Toshiba Corp サーバシステムおよびフェールオーバ制御方法
JP2000222373A (ja) * 1999-01-29 2000-08-11 Internatl Business Mach Corp <Ibm> マルチクラスタ化コンピュ―タ・システムを構成及び管理する方法及び装置
WO2002013033A1 (en) * 2000-08-04 2002-02-14 3Pardata, Inc. Data storage system
JP2004506267A (ja) * 2000-08-04 2004-02-26 スリーパーデータ インコーポレイテッド データ記憶システム
JP2002170173A (ja) * 2000-12-01 2002-06-14 Hitachi Mobile Co Ltd 遠隔監視システム及び装置
JP2002185478A (ja) * 2000-12-15 2002-06-28 Nec Corp コンピュータシステムにおける共有資源の排他利用方式
WO2002050678A1 (en) * 2000-12-21 2002-06-27 Legato Systems, Inc. Method of 'split-brain' prevention in computer cluster systems
JP2004516575A (ja) * 2000-12-21 2004-06-03 レガート システムズ インコーポレイテッド コンピュータ・クラスタリング・システムにおいて「スプリット・ブレイン」を防止する方法
JP2002312189A (ja) * 2001-01-12 2002-10-25 Hitachi Ltd クラスターシステムにおける遠隔ミラーを使用した障害通知方法及びシステム
JP2002247035A (ja) * 2001-02-20 2002-08-30 Toshiba Tec Corp 情報通信システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
小椋 則樹 NORIKI OGURA: "クライアント/サーバシステムにおける信頼性向上の一手法 A New Approach to Improvement in the High Re", 技報 UNISYS TECHNOLOGY REVIEW VOL.16 NO.4, vol. 第16巻第4号, JPN6008052460, 28 February 1997 (1997-02-28), pages 13 - 22, ISSN: 0001158777 *
小野 哲: "Webの負荷分散,フェイルオーバ,DBの2重化の基礎を学ぶ クラスタリング入門", OPEN DESIGN 第9巻 第7号, vol. 第9巻第7号, JPN6008052465, 28 May 2002 (2002-05-28), JP, pages 12 - 23, ISSN: 0001158778 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010055136A (ja) * 2008-08-26 2010-03-11 Mitsubishi Electric Corp 通信システム及び制御装置及び制御対象装置
JP2012168623A (ja) * 2011-02-10 2012-09-06 Nec Corp 待機系計算機、クラスタシステム、サービス提供方法およびプログラム
US8977840B2 (en) 2011-02-10 2015-03-10 Nec Corporation Failover to a standby system calculator in the loss of communication between currently-used system calculator and standby system calculator

Also Published As

Publication number Publication date
US20050005001A1 (en) 2005-01-06
US7370099B2 (en) 2008-05-06

Similar Documents

Publication Publication Date Title
JP2004302512A (ja) クラスタコンピューティングシステム、および、そのフェールオーバー方法
US10834186B2 (en) Disaster recovery switchover method and system, and node
US6816951B2 (en) Remote mirroring with write ordering sequence generators
EP1437658B1 (en) Coordinating persistent status information with multiple file servers
KR100557399B1 (ko) 네트웍 매체 링크상태 기능을 이용한 컴퓨터 클러스터링시스템의 가용도 개선방법
JP4387707B2 (ja) クラスタリングシステムのサイトでの双方向障害検出の為のシステム及び方法
EP3285168B1 (en) Disaster tolerance method and apparatus in active-active cluster system
US20070288585A1 (en) Cluster system
US20060143497A1 (en) System, method and circuit for mirroring data
US20130173839A1 (en) Switch disk array, storage system and data storage path switching method
US7797571B2 (en) System, method and circuit for mirroring data
JP2004165810A (ja) 無線lan基地局の二重化システム
US20100268687A1 (en) Node system, server switching method, server apparatus, and data takeover method
KR20020062483A (ko) 내 고장성 시스템 및 이중화 방법
JP2006139477A (ja) 計算機システム、管理方法及びストレージネットワークシステム
KR20030048503A (ko) 이중화 서버 구조의 데이터 동기화를 위한 통신 시스템 및방법
KR19990078536A (ko) 지능망서비스시스템을위한데이터베이스의이중화방법
JP2006260223A (ja) iSCSIストレージシステムおよびそのシステムにおけるパス多重化方法
JP3917467B2 (ja) 電力系統監視制御システムおよびプログラム
JP2006268278A (ja) 遠隔保守コンピュータ保守システム
KR20050097015A (ko) 대형시스템에서 고장 감내 기능 구현을 위한 이중화 방법
KR100793446B1 (ko) 이중화 통신 시스템의 페일 오버 및 원복 처리 방법
KR101397993B1 (ko) 접속 교환 프로세서 이중화 시스템 및 방법
JP3119500B2 (ja) 通信用バス切替方式
JP2001036510A (ja) 制御装置の二重化方式および装置間回線二重化方式

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051228

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051228

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20051228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081021

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081201

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081224