JP3887130B2 - 高可用性計算機システム及び同システムにおけるデータバックアップ方法 - Google Patents

高可用性計算機システム及び同システムにおけるデータバックアップ方法 Download PDF

Info

Publication number
JP3887130B2
JP3887130B2 JP21714799A JP21714799A JP3887130B2 JP 3887130 B2 JP3887130 B2 JP 3887130B2 JP 21714799 A JP21714799 A JP 21714799A JP 21714799 A JP21714799 A JP 21714799A JP 3887130 B2 JP3887130 B2 JP 3887130B2
Authority
JP
Japan
Prior art keywords
server
computer
data
master
server computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP21714799A
Other languages
English (en)
Other versions
JP2001043105A (ja
Inventor
浩司 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP21714799A priority Critical patent/JP3887130B2/ja
Publication of JP2001043105A publication Critical patent/JP2001043105A/ja
Application granted granted Critical
Publication of JP3887130B2 publication Critical patent/JP3887130B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、複数のサーバ計算機が連携して処理を行い、いずれかのサーバ計算機で障害が発生しても他のサーバ計算機が処理を引き継ぐことができる高可用性システム(高可用性計算機システム)に係り、特に他のクライアント計算機に対してサービスを提供する複数のサーバ計算機をネットワークによって連携させ、いずれかのサーバ計算機で障害が発生しても、他のサーバ計算機がサービスを引き継ぐことによってシステム全体としてはサービスの中断時間を可能な限り短くするデータバックアップ機能を有する高可用性計算機システム及び同システムにおけるデータバックアップ方法に関する。
【0002】
【従来の技術】
従来の高可用性計算機システムは、サーバ計算機が2台存在し、その片方でサービスを提供し、もう片方にバックアップを行う方式を適用するのが一般的であった。
【0003】
この種のシステムでは、サービスを提供しているサーバ計算機からバックアップ用のサーバ計算機にデータをコピーしておくことにより、サービスを提供しているサーバ計算機に障害が発生した場合に、サービスをもう片方のサーバ計算機に引き継いで、その続きを行うことができるようになっている。
【0004】
【発明が解決しようとする課題】
上記した2台のサーバ計算機を用いて構成される従来の高可用性計算機システムでは、サービスを提供しているサーバ計算機に障害が発生した場合でも、残りの待機状態にあるサーバ計算機(バックアップ用サーバ計算機)でサービスを引き継ぐことが可能である。しかし、サーバ計算機が2台の場合、2台共障害が発生する可能性もあり得るため、用途によっては耐障害性の点で必ずしもが十分とはいえない。
【0005】
そこで、より障害に強いシステムを構築するために、3台以上のサーバ計算機を連携させて動作させることが考えられる。この場合、サーバ計算機が多くなるほどサーバ計算機間の連携は複雑となり、また運用状態にあるサーバ計算機の負荷も大きくなることが予測される。このため、3台以上のサーバ計算機を効果的に連携させる仕組みが必要となる。
【0006】
本発明は上記事情を考慮してなされたものでその目的は、3台以上のサーバ計算機を用いてバックアップ用のサーバ計算機(バックアップサーバ計算機)を複数確保し、その複数のバックアップサーバ計算機に対する効果的なデータコピーを行うことで、より障害に強い高可用性計算機システム及び同システムにおけるデータバックアップ方法を提供することにある。
【0007】
本発明の他の目的は、高速ネットワークと低速ネットワークによって複数のサーバ計算機を連携させ、各ネットワークに適したデータバックアップ方式を併用することで、ネットワーク構成に柔軟に対応した効果的なデータバックアップが行える高可用性計算機システム及び同システムにおけるデータバックアップ方法を提供することにある。
【0008】
【課題を解決するための手段】
本発明の第1の観点に係る高可用性計算機システムは、ネットワークを介して接続される少なくとも3台のサーバ計算機を備え、そのうちの1台がマスタサーバ計算機となってクライアント計算機に対してサービスを提供し、当該マスタサーバ計算機に障害が発生した場合には、所定の優先順位情報(ここでは、システム内の全計算機についてマスタとなる優先順位を示すと共にマスタが切り替わる毎に優先順位が循環使用される優先順位情報)に従って、残りの複数のサーバ計算機のいずれかが新たにマスタサーバ計算機となって処理を引き継ぐ高可用性計算機システムであって、上記各サーバ計算機に、次の各手段、即ち自計算機がマスタサーバ計算機でない場合に、マスタサーバ計算機を探すマスタ探索動作を定期的に実行するマスタ探索手段と、このマスタ探索手段によりマスタサーバ計算機が見つけられず、且つ障害が発生していないサーバ計算機の中で自計算機の優先順位が最も高い場合に、自計算機を新たにマスタサーバ計算機として設定するマスタ設定手段と、自計算機がマスタサーバ計算機の場合に、障害のあるサーバ計算機と障害のないサーバ計算機とを探索するサーバ計算機探索動作を定期的に実行するサーバ計算機探索手段と、自計算機がマスタサーバ計算機で、且つクライアント計算機から自計算機の保持するファイルのデータが変更された場合に、その変更されたデータを上記サーバ計算機探索手段により見つけられた障害のない全てのサーバ計算機に個々にコピーする、つまり1対n通信方式によるデータコピーを行うコピー手段とを備えたことを特徴とする。
【0009】
このような構成においては、クライアント計算機によりマスタサーバ計算機の持つファイルのデータが変更された場合、そのデータがマスタサーバ計算機により他の障害のない全てのサーバ計算機にコピーされて各サーバ計算機のファイルの内容の一致化が図られ、しかもマスタサーバ計算機のバックアップ用のサーバ計算機(スレーブサーバ計算機)が複数存在するため、マスタサーバ計算機に障害が発生した場合には、他の複数のバックアップサーバ計算機(スレーブサーバ計算機)のうちの1台が新たにマスタサーバ計算機となって、上記コピーされたデータを使い、障害の発生したサーバでそれまで提供されていたサービスを引き継ぐことができ、より障害に強い高可用性計算機システムが実現可能となる。
【0010】
ここで、上記マスタ探索手段に、上記優先順位情報に従って、その時点で優先順位の最も高いサーバ計算機から始まって順位が低くなる方向に順に通信を行うことによりマスタサーバ計算機を探す機能を持たせることで、マスタ探索を効率的に行うことが可能となる。
【0011】
また、上記サーバ計算機探索手段に、優先順位情報に従って、自計算機より1つ順位が下のサーバ計算機から始まって順位が低くなる方向に順に通信を行うことにより障害のあるサーバ計算機と障害のないサーバ計算機とを探索する機能を持たせることで、自身より優先順位が下位のサーバ計算機の障害の有無を効率的に探索できる。
【0012】
また、自計算機がマスタサーバ計算機の場合に、上記サーバ計算機探索手段により見つけられた障害のないサーバ計算機をデータ送信先として設定するデータ送信先設定手段を設けるならば、上記コピー手段の1対n通信方式によるデータコピーが、当該データ送信先設定手段の設定に従い効率的に行える。
【0013】
ここで、上記サーバ計算機探索手段により新たに障害のないサーバ計算機が見つけられた場合には、つまり障害から復旧したサーバ計算機が検出された場合には、そのサーバ計算機をデータ送信先としてデータ送信先設定手段により追加設定し、そのサーバ計算機にマスタサーバ計算機のコピー手段によりマスタサーバ計算機の保持する全てのファイルのデータをコピーするならば、そのサーバ計算機(復旧したサーバ計算機)を確実に且つ速やかにバックアップ計算機の1つとすることができる。
【0014】
本発明の第2の観点に係る高可用性計算機システムは、ネットワーク接続されたシステム内の各サーバ計算機に、以下の各手段、即ち自計算機がマスタサーバ計算機でない場合に、優先順位情報に従って、自計算機より1つ順位が上のサーバから始まって順位が高くなる方向に順に通信を行うことにより障害のないサーバ計算機を1つ探す第1の探索動作を定期的に実行する第1のサーバ計算機探索手段と、この第1のサーバ計算機探索手段により障害のないサーバ計算機が見つけられる前に障害のあるサーバ計算機が見つけられ、且つその計算機がマスタサーバ計算機である場合、自計算機を新たにマスタサーバ計算機として設定するマスタ設定手段と、優先順位情報に従って、自計算機より1つ順位が下のサーバから始まって順位が低くなる方向に順に通信を行うことにより障害のないサーバ計算機を1つ探す第2の探索動作を定期的に実行する第2のサーバ計算機探索手段と、自計算機がマスタサーバ計算機で、且つクライアント計算機から自計算機の保持するファイルのデータが変更された場合に、その変更されたデータを上記第2のサーバ計算機探索手段により見つけられた障害のないサーバ計算機にコピーする第1のコピー手段と、他のサーバ計算機からデータがコピーされた場合、そのデータを上記第2のサーバ計算機探索手段により見つけられた障害のないサーバ計算機にコピーする第2のコピー手段とを設けたことを特徴とする。
【0015】
このような構成においては、クライアント計算機によりマスタサーバ計算機の持つファイルのデータが変更された場合、そのデータが、マスタサーバ計算機を除く障害のない全てのサーバ計算機(スレーブサーバ計算機)に、優先順位の並び順に先頭のサーバ計算機から最終のサーバ計算機まで各サーバ計算機を経由してコピーされる。つまりそのデータがマスタサーバ計算機から次の優先順位の並びのサーバ計算機にコピーされ、そのサーバ計算機から更に次の優先順位の並びのサーバ計算機にコピーされるというように、優先順位の並びが最後のサーバ計算機までディジーチェーン方式(リレー式)で順にコピーされる。このため、マスタサーバ計算機が他の各サーバ計算機(スレーブサーバ計算機)に1対n通信方式により個々にデータコピーを行うのに比べて、速度は遅くなるものの、サーバ計算機の負荷は小さくて済み、障害に強く、より負荷に強い高可用性計算機システムが実現できる。
【0016】
ここで、上記第2のサーバ計算機探索手段により見つけられた障害のないサーバ計算機をデータ送信先として設定するデータ送信先設定手段を設けるならば、上記第1及び第2のコピー手段のディジーチェーン方式によるデータコピーが、当該データ送信先設定手段の設定に従い効率的に行える。
【0017】
また、上記第2のサーバ計算機探索手段により新たに障害のないサーバ計算機が見つけられた場合には、つまり障害から復旧したサーバ計算機が検出された場合には、そのサーバ計算機をデータ送信先としてデータ送信先設定手段により変更設定し、そのサーバ計算機に第1または第2のコピー手段により自計算機の保持する全てのファイルのデータをコピーするならば、そのサーバ計算機(復旧したサーバ計算機)を確実に且つ速やかにバックアップ計算機の1つとすることができる。
【0018】
本発明の第3の観点に係る高可用性計算機システムは、第1のネットワークを介して接続される複数の第1のサーバ計算機と、第1のネットワークより低速な第2のネットワークを介して接続される複数の第2のサーバ計算機と、第1のネットワーク及び第2のネットワーク間に接続される第3のサーバ計算機とを備え、いずれか1台がマスタサーバ計算機となってクライアント計算機に対してサービスを提供し、当該マスタサーバ計算機に障害が発生した場合には、システム内の全計算機についてマスタとなる優先順位を示すと共にマスタが切り替わる毎に優先順位が循環使用される優先順位情報に従って、残りの複数のサーバ計算機のいずれかが新たにマスタサーバ計算機となって処理を引き継ぐ高可用性計算機システムであって、上記第1のサーバ計算機には、自計算機がマスタサーバ計算機で、且つクライアント計算機から自計算機の保持するファイルのデータが変更された場合に、その変更されたデータを、第1のネットワークに接続されている自計算機より優先順位が低く且つ障害のないサーバ計算機のうちの最も順位が高いサーバ計算機にコピーする第1のコピー手段と、他のサーバ計算機からデータがコピーされた場合、そのデータを、第1のネットワークに接続されている自計算機より優先順位が低く且つ障害のないサーバ計算機のうちの最も順位が高いサーバ計算機にコピーする第2のコピー手段とを備え、上記第2のサーバ計算機には、自計算機がマスタサーバ計算機で、且つクライアント計算機から自計算機の保持するファイルのデータが変更された場合に、その変更されたデータを、第2のネットワークに接続されている障害のない全てのサーバ計算機に個々にコピーする第3のコピー手段を備え、上記第3のサーバ計算機には、第1のサーバ計算機からデータがコピーされた場合に、そのデータを第2のネットワーク上の障害のない全ての第2のサーバ計算機に個々にコピーし、第2のサーバ計算機からデータがコピーされた場合に、そのデータを第1のネットワーク上の障害のない第1のサーバ計算機のうち優先順位が最も高い第1のサーバ計算機にコピーする第4のコピー手段を備えたことを特徴とする。
【0019】
このような構成においては、高速ネットワークである第1のネットワーク上では、サーバ計算機の負荷が小さくて済むディジーチェーン方式によるデータバックアップが適用され、低速ネットワークである第2のネットワーク上では、各サーバ計算機のデータの一致化に要する時間が短くて済む1対n通信方式によるデータバックアップが適用され、ネットワークの構成に柔軟に対応したシステムの構築が可能となる。
【0020】
なお、以上の装置(高可用性計算機システム)に係る本発明は方法(高可用性計算機システムにおけるデータバックアップ方法)に係る発明としても成立する。
【0021】
【発明の実施の形態】
以下、本発明の実施の形態につき図面を参照して説明する。
【0022】
[第1の実施形態]
(概略構成)
図1は本発明の第1の実施形態に係る高可用性計算機システムの構成を示すブロック図である。
図1のシステムは、3台以上のサーバ計算機、例えば4台のサーバ計算機(以下、単にサーバと称する)S1,S2,S3,S4と、複数台(ここではm台)のクライアント計算機(以下、単にクライアントと呼ぶ)C1〜Cmと、これら各サーバS1〜S4及びクライアントC1〜Cmを接続するネットワークNとから構成される。
【0023】
サーバS1〜S4は、サービスを提供する1つのマスタサーバと、マスタサーバのバックアップ用となる複数のスレーブサーバに分かれる。図1の状態では、サーバS1がマスタサーバ、他のサーバS2〜S4がスレーブサーバ(バックアップサーバ)となっている。
【0024】
クライアントC1〜Cmは、マスタサーバ(S1)の提供するサービスを、ネットワークNを通じて利用し、マスタサーバ(S1)の持つファイルに対し書き込みを行う。
【0025】
マスタサーバ(S1)は、自身(自計算機)の持つファイル中のデータをスレーブサーバ(S2〜S4)にコピーすることにより、マスタサーバ(S1)とスレーブサーバ(S2〜S4)の持つファイルの内容を等しくする。これにより、図2に示すように、マスタサーバ(S1)に障害が発生した場合、スレーブサーバ(S2〜S4)のうちの1台、例えばスレーブサーバS2が新しくマスタサーバとなり、コピーされたデータを使い、それまでのマスタサーバ(S1)により提供されていたサービスを引き継ぎ、そのサービスの続きをクライアントC1〜Cmに提供する。
以上が、本実施形態における高可用性計算機システムの概略構成である。
【0026】
(サーバの内部構成)
次に、図1のシステムの中心をなすサーバS1〜S4の内部構成について、図3のブロック構成図を参照して説明する。
【0027】
まず、サーバSi,Sj(i,jは1〜4、但しi≠j)では、状態監視デーモン11、データ受信デーモン12、及びデータ送信デーモン13の3つのデーモン(バックグラウンドで動作する処理手段)が動作するように構成されている。以下、サーバSiを例に、状態監視デーモン11、データ受信デーモン12、及びデータ送信デーモン13の機能について説明する。
【0028】
まずサーバSi上の状態監視デーモン11は、サーバSj上の状態監視デーモン11など、自身が存在するサーバSi以外のすべてのサーバ上で動作している他の状態監視デーモン11と定期的に通信を行う。この定期的な通信により、通信が行えないサーバが存在した場合、そのサーバに障害が発生したと判断することができる。
【0029】
サーバSi上の状態監視デーモン11は、システム内のどのサーバが障害状態にあるかを内部状態として記憶する。そしてサーバSi上の状態監視デーモン11は、システム内の各サーバの状態をもとに、自サーバSi上のデータ受信デーモン12及びデータ送信デーモン13に対し、どのサーバからデータを受信し、またどのサーバにデータを送信するかを指示する。
【0030】
サーバSi上のデータ受信デーモン12は、サーバSjなど、他のサーバのデータ送信デーモン13から送られてくるデータを受信し、自サーバSiのファイル蓄積手段である例えばディスク記憶装置(図示せず)に記録する、前記したように、受け取るべきデータの送信元サーバは、同じサーバSi上の状態監視デーモン11によって指定される。
【0031】
サーバSi上のデータ送信デーモン13は、自サーバSiのディスク記憶装置上のデータを監視し、変更があったデータをサーバSjなど、他のサーバのデータ受信デーモン12に送信する。前記したように、データを送信すべきサーバ(データの送信先サーバ)は、同じサーバSi上の状態監視デーモン11によって指定される。
【0032】
次に、以上の構成のサーバS1〜S4を備えた高可用性計算機システムの動作について、1対n通信方式によるバックアップを適用する場合を例に説明する。
【0033】
(1対n通信方式によるバックアップ)
まず、1対n通信方式によるバックアップについて説明する。
今、図4に示すように、サーバS1がマスタサーバ、サーバS2〜S4がスレーブサーバとなっているものとする。この状態で、図1中のクライアントC1〜CmのいずれかがマスタサーバS1の持つファイルに対してデータの書き込みを行った場合、当該マスタサーバS1は(自サーバのデータ送信デーモン13により)、そのデータをスレーブサーバS2〜S4にコピー、つまりバックアップする。マスタサーバS1は、このマスタサーバS1からスレーブサーバS2〜S4へのデータのバックアップに1対n通信方式によるバックアップを適用して、図4において符号41〜43で示すように、スレーブサーバS2〜S4に対し、ネットワークNを介して同一のデータを個別に送信する。
【0034】
(マスタサーバとスレーブサーバの基本動作)
次に、マスタサーバとスレーブサーバの基本動作について説明する。
まず図1のシステムでは、全てのサーバS1〜S4についてマスタとなる優先順位を予め定めておき、その優先順位の情報を各サーバS1〜S4の状態監視デーモン11に記憶させるようにしている。優先順位は、各サーバの性能が異なる場合には、高速なサーバほど高く設定されるようにするとよい。優先順位の情報は、例えば図5に示すように、各サーバS1〜S4について循環した順位を示すもので、ここでは順位1(先頭順位)から順に、S1→S2→S3→S4→S1→S2→…となっている。また、システム内で現在マスタとなっているサーバ(の識別情報)も、各サーバS1〜S4の状態監視デーモン11に記憶される。初期起動時は、順位1のサーバ(図5の例ではサーバS1)がマスタとして記憶される。
【0035】
なお、優先順位情報をS1,S2,S3,S4(の4つ)だけで構成し、その並び順自体を、例えばS1→S2→S3→S4からS2→S3→S4→S1へ、更にS3→S4→S1→S2へと、動的に循環させるようにしてもよい。この場合、優先順位情報自体が現在マスタとなっているサーバの情報を保持していることになる。また、優先順位情報をS1,S2,S3,S4(の4つ)だけで構成すると共に、その並び順を固定し、マスタの位置を示すポインタを優先順位情報上でサイクリックに移動するようにしてもよい。
【0036】
さて、各サーバS1〜S4の状態監視デーモン11は、データ受信及び送信を行うべき相手サーバを次のようにして決定する。
まず初期起動時は、図5に示す優先順位情報で決まる順位1のサーバ、即ちサーバS1がマスタサーバとなる。
一方、マスタサーバでないサーバS2〜S4(の状態監視デーモン11)は、図6のフローチャートに示す手順で、その時点で優先順位の最も高いサーバ(サーバS1)から始まって順位が低くなる方向に、自身以外のサーバ(の状態監視デーモン11)に対して順に通信を行っていき、自分がマスタであるという返事を返すサーバを探す(ステップ61〜64)。ここでは、各サーバS2〜S4(の状態監視デーモン11)は、サーバS1からマスタであるという返事を受け取ることになる。
【0037】
サーバS2〜S4の状態監視デーモン11は、マスタであるという返事を返すサーバ(S1)を見つけたなら(ステップ62)、そのサーバ(S1)をマスタサーバとして記憶すると共に、自サーバ内のデータ受信デーモン12に知らせる(ステップ65)。
【0038】
これに対し、サーバS1に障害が発生している場合など、全てのサーバを探してもマスタサーバが見つからない場合には(ステップ62,63)、障害が発生していないサーバの中で自身が一番優先順位が高いならば(ステップ66)、自身がマスタサーバとなる(ステップ67)。
ここでは、初期起動時において優先順位が最も高いサーバS1に障害は発生しておらず、図8に示すように当該サーバS1がマスタサーバとなるものとする。
【0039】
この場合、マスタとなったサーバ(マスタサーバ)S1の状態監視デーモン11は、図7のフローチャートに示す手順で、自身より1つ順位が下のサーバ(S2)から、2つ下のサーバ(S3)、3つ下のサーバ(S4)と、順位が低くなる方向に順に通信を行っていき、障害が発生していないサーバを全て探す(ステップ71〜75)。
【0040】
もし、優先順位情報上で自身の1巡後の順位(図5の例では、順位5)の1つ手前の順位(図5では順位4)まで探しても障害が発生していないサーバを見つけられなければ(ステップ74,76)、マスタサーバS1の状態監視デーモン11は、自サーバのデータ送信デーモン13に動きを停止するように伝える(ステップ77)。一方、障害が発生していないサーバを見つけたならば(ステップ72)、マスタサーバS1の状態監視デーモン11は、そのサーバをデータ送信先として自身のデータ送信デーモン13に知らせる(ステップ73)。
【0041】
このようにすることによって、マスタサーバS1は障害の起きていないサーバを全て検出し、その障害の起きていない全てのサーバに対して自サーバのデータ送信デーモン13から先に述べた1対n通信方式により個別にデータを送る(コピーする)ことができる。
【0042】
ここでは、図8に示すように、マスタサーバS1以外のサーバのうち、つまりスレーブサーバS2,S3,S4のうち、サーバS2に障害が発生しているものとすると(障害サーバには×印を付してある)、マスタサーバS1(のデータ送信デーモン13)からは、図8において符号81,82で示すように、スレーブサーバS3,S4に対してのみ、個別にデータが送られる(コピーされる)。 上述したマスタサーバを含む各サーバ上の状態監視デーモン11の動作は、定期的に行われる。
【0043】
(障害発生時の動作)
次に、このような状態で、サーバに障害が発生した場合の動作を説明する。 まず、図9において符号90で示すように、マスタサーバS1に障害が発生したものとする。このマスタサーバS1の障害発生は、図6のフローチャートの示すアルゴリズムに従い、他の正常なサーバ、つまりスレーブサーバS3,S4で検出される。この場合、障害が発生していないサーバS3,S4の中で、その時点の優先順位がマスタサーバS1の次に高い(順位3の)サーバS3、即ち優先順位が高い方のサーバS3が、当該マスタサーバS1の障害検出に応じて、図9に示すように新たにマスタサーバとなる。すると、図5の優先順位情報から明らかなように、各サーバS1〜S4の優先順位は、高い方からS3(順位3)→S4(順位4)→S1(順位5)→S2(順位6)となる。
【0044】
新たにマスタとなったサーバS3の状態監視デーモン11は、図9において符号91,92,93で示すように、自身より1つ順位が下のサーバ(S4)から、2つ下のサーバ(S1)、3つ下のサーバ(S2)と、順位が低くなる方向に順に通信を行っていき、障害が発生していないサーバを全て探す。図9の例では、サーバS4だけが障害が発生していないサーバとして検出され、新たなマスタサーバS3から当該サーバ(スレーブサーバ)S4へのデータコピーが行われることになる。
【0045】
これに対し、図8の状態で、スレーブサーバS3,S4、即ちバックアップサーバS3,S4のいずれかに障害が発生した場合には、マスタサーバS1の状態監視デーモン11は、自サーバのデータ送信デーモン13から障害が発生したサーバヘの送信を停止する。
【0046】
(復旧時の動作)
次に、障害で停止していたサーバが復旧した場合の動作について説明する。 今、図9に示すように障害で停止していたサーバS1が、図10において符号100で示すように復旧したものとする。
【0047】
すると、マスタサーバS3の状態監視デーモン11は、定期的な監視動作により、サーバS1が復旧したことを検出する。この場合、マスタサーバS3の状態監視デーモン11は、自サーバのデータ送信デーモン13に対し、データ送信先としてサーバS1を追加指定する。
【0048】
一方、復旧したサーバS1の状態監視デーモン11は、自サーバのデータ受信デーモン12に対し、データ受信先(データ送信元)として現在のマスタサーバS3を指定する。そして、サーバS1の受信先となるマスタサーバS3の全データが、図10において符号101で示すように、当該サーバS1にコピーされ、システム内の他のサーバのデータとの一致化が図られる。
【0049】
以後、マスタサーバS3は、図1中のクライアントC1〜Cmのいずれかが当該マスタサーバS3の持つファイルに対してデータの書き込みを行った場合、図10において符号102,103で示すように、そのデータをサーバ(スレーブサーバ)S4,S1に順にコピーする。
【0050】
[第2の実施形態]
以上に述べた第1の実施形態では、1対n通信方式によるバックアップを適用するものとしたが、これに限るものではなく、例えばディジーチェーン方式によるバックアップを適用することも可能である。
【0051】
そこで、ディジーチェーン方式によるバックアップを適用した本発明の第2の実施形態に係る高可用性計算機システムについて、図面を参照して説明する。なお、システム構成は便宜的に図1及び図3を援用するものとする。
【0052】
(ディジーチェーン方式によるバックアップ)
まず、ディジーチェーン方式によるバックアップについて説明する。
今、図11に示すように、サーバS1がマスタサーバ、サーバS2〜S4がスレーブサーバとなっているものとする。この状態で、図1中のクライアントC1〜CmのいずれかがマスタサーバS1の持つファイルに対してデータの書き込みを行った場合、そのデータをスレーブサーバS2〜S4にコピー、つまりバックアップする動作が行われる。本実施形態では、このバックアップにディジーチェーン方式によるバックアップが次のように適用される。
【0053】
ここでは、まずマスタサーバS1(のデータ送信デーモン13)からスレーブサーバS2〜S4のうちの例えばサーバS2に、図11において符号111で示すようにデータがコピーされる。次に、そのスレーブサーバS2(のデータ送信デーモン13)から他の例えばスレーブサーバS3に、図11において符号112で示すように上記データがコピーされる。そして、そのスレーブサーバS3(のデータ送信デーモン13)から残りのスレーブサーバS4に、図11において符号113で示すように上記データがコピーされる。
【0054】
このように、デイジーチェーンによるバックアップ方式では、マスタサーバからスレーブサーバのうちの1台にデータをコピーし、次に、そのスレーブサーバから他のスレーブサーバにデータをコピーする、というように、マスタサーバから始まってリレー式でデータコピーが繰り返されて、全てのスレーブサーバにデータがコピーされる。
【0055】
(マスタサーバとスレーブサーバの基本動作)
次に、マスタサーバとスレーブサーバの基本動作について説明する。
まず、全てのサーバS1〜S4についてマスタとなる優先順位を予め定めておき、その優先順位の情報を各サーバS1〜S4の状態監視デーモン11に記憶させておく点と、システム内で現在マスタとなっているサーバ(の識別情報)を各サーバS1〜S4の状態監視デーモン11に記憶させる点は、前記実施形態と同様である。
【0056】
さて、各サーバS1〜S4の状態監視デーモン11は、データ受信及び送信を行うべき相手サーバを次のようにして決定する。
まず初期起動時は、図5に示す優先順位情報で決まる順位1のサーバ、即ちサーバS1がマスタサーバとなる。
一方、マスタサーバでないサーバS2〜S4(の状態監視デーモン11)は、図12のフローチャートに示す手順で、自身より1つ順位が上のサーバから始まって、2つ順位が上のサーバ、3つ順位が上のサーバへと、順位が高くなる方向にマスタサーバS1まで順に通信を行っていき、障害が発生していないサーバを1つ探す(ステップ121〜124)。
【0057】
サーバS2〜S4(の状態監視デーモン11)は、障害が発生していないサーバを1つ見つけることができたなら(ステップ122)、上記の通信を終了すると共に、そのサーバを自サーバのデータ受信デーモン12に知らせる(ステップ125)。
【0058】
またサーバS2〜S4(の状態監視デーモン11)は、障害が発生していないサーバを見つける前に、マスタサーバ(S1)に障害が発生していることを検出したならば(ステップ122,123)、その障害発生を検出したサーバが直ちにマスタサーバになる(ステップ126)。
【0059】
以上の通信の後、マスタサーバ(S1)、及びスレーブサーバ(S2〜S4)のどちらも(自サーバの状態監視デーモン11により)、図13のフローチャートに示す手順で、自身より1つ順位が下のサーバから始まって、2つ順位が下のサーバ、3つ順位が下のサーバへと、順位が低くなる方向に、現時点における最下位のサーバまで順に通信を行っていき、障害が発生していないサーバを1つ探す(ステップ131〜134)。ここで図5の優先順位情報上で、順位4のサーバS4より1つ順位が下のサーバ、つまり順位5のサーバはサーバS1である。しかし、このサーバS1は現在順位1のマスタサーバであることから、順位5は当該マスタサーバS1自身の1巡後の順位であり、それより1つ手前の順位(順位4)のサーバS4が現時点で最下位のサーバであることが分かる。このためサーバS4は通信を行わない。
【0060】
各サーバ(S1〜S3)は、1つ順位が下のサーバから始まって優先順位情報上で現在のマスタサーバ(S1)の1つ手前のサーバ(S4)まで探しても、つまり現マスタサーバ自身の1巡後の順位(順位5)の1つ手前(順位4)まで探しても、障害が発生していないサーバが見つからなければ(ステップ133,15)、自サーバのデータ送信デーモン13に動きを停止するように伝える(ステップ136)。
【0061】
一方、各サーバ(S1〜S3)は、障害が発生していないサーバを1つ見つけることができたなら(ステップ132)、上記の通信を終了すると共に、そのサーバを自サーバのデータ送信デーモン13に知らせる(ステップ137)。
【0062】
このようにすることによって、図14に示すように、サーバS2に障害が発生しているものとすると(障害サーバには×印を付してある)、マスタサーバS1のデータ送信デーモン13にはS3が設定され、サーバS3のデータ受信デーモン12にはS1が、データ送信デーモン13にはS4がそれぞれ設定され、そしてサーバS4のデータ受信デーモン12にはS3が設定される。
【0063】
以後、図14の状態においてマスタサーバS1でデータの変更があった場合、まず符号141に示すように、マスタサーバS1(のデータ送信デーモン13)からスレーブサーバS3の(データ受信デーモン12)にデータが送られてコピーされる。そして、そのデータが、図14において符号142に示すように、スレーブサーバS3(のデータ送信デーモン13)からスレーブサーバS4の(データ受信デーモン12)に送られてコピーされる。
【0064】
このように本実施形態では、マスタサーバから障害が発生していない全てのスレーブサーバに、マスタになる優先順位の順番で各スレーブサーバを亘ってディジーチェーン方式(リレー式)でデータが送られる。
【0065】
(障害発生時の動作)
次に、このような状態で、サーバに障害が発生した場合の動作を説明する。 まず、図15において符号150で示すように、マスタサーバS1に障害が発生したものとする。このマスタサーバS1の障害発生は、図12のフローチャートに示すアルゴリズムに従い、他の正常なスレーブサーバS3,S4のうち、その時点の優先順位がマスタサーバS1の次に高い(順位3の)サーバS3、即ち優先順位が高い方のサーバS3で最初に検出される。この場合、サーバS3が図15に示すように新たにマスタサーバとなり、それまでマスタとなっていたサーバS1の処理を引き継ぐ。この新たなマスタサーバS3(のデータ受信デーモン12)には、データ受信先(データ送信元)としてサーバS1が設定されていたが、その設定が解除される。ここではデータのコピーは、図15において符号151で示すように、サーバS3からサーバS4に対してだけ行われる。
【0066】
これに対し、スレーブサーバ(バックアップサーバ)に障害が発生した場合には、次のようになる。
まず、障害の発生したスレーブサーバより優先順位の高いサーバのうち、最も優先順位の低いサーバ(Aとする)のデータ送信先が、障害の発生したスレーブサーバより優先順位の低いサーバのうち、最も優先順位の高いサーバ(Bとする)に変更され、逆にBのデータ受信先(データ送信元)はAに変更される。もしBがマスタサーバであれば、Aのデータ送信デーモン13が停止する。
【0067】
したがって、図14の状態で、例えば図16において符号160で示すようにスレーブサーバS3に障害が発生した場合には、マスタサーバS1のデータ送信先がS3からS4に変更され、スレーブサーバS4のデータ受信先(データ送信元)がS3からS1に変更される。この場合、データのコピーは、図16において符号161で示すように、マスタサーバS1からスレーブサーバS4に対してだけ行われる。
【0068】
(復旧時の動作)
次に、障害で停止していたサーバが復旧した場合の動作について説明する。 この場合、復旧したサーバよりも優先順位の高いサーバのうち、最も優先順位の低いサーバのデータ送信先が、復旧したサーバに変更される。また、復旧したサーバよりも優先順位の低いサーバのうち、最も優先順位の高いサーバがマスタサーバでないならば、このサーバのデータ受信先(送信元)が復旧したサーバに変更される。
【0069】
したがって、図15に示すように障害で停止していたサーバS1が、図17において符号170で示すように(スレーブサーバとして)復旧した場合であれば、復旧したサーバS1よりも優先順位の高いサーバのうち、最も優先順位の低いサーバS4のデータ送信先として、復旧したサーバS1が新たに設定される。ここでは、復旧したサーバS1よりも優先順位の低い正常なサーバは存在しないため、データ受信先(送信元)が変更されるサーバは存在しない。また、復旧したサーバS1のデータ受信先はサーバS4に設定される。そして、サーバS1の受信先となるサーバS4の全データが、図17において符号171で示すように、当該サーバS1にコピーされ、システム内の他のサーバのデータとの一致化が図られる。
【0070】
以後、図17の状態においてマスタサーバS3でデータの変更があった場合のデータバックアップの手順は次のようになる。まず、図17において符号172に示すように、マスタサーバS3からスレーブサーバS4に変更のあったデータがコピーされる。次に、そのデータが、図17において符号173に示すように、スレーブサーバS4から復旧したスレーブサーバS1にコピーされる。
以上、障害で停止していたサーバの復旧時の動作を、復旧したサーバよりも優先順位の低い正常なサーバが存在しない場合を例に説明した。
【0071】
次に、復旧したサーバよりも優先順位の低い正常なサーバが存在する場合のサーバ復旧時の動作の具体例について説明する。
【0072】
今、図14に示す状態で障害により停止していたサーバS2が、図18において符号180で示すように(スレーブサーバとして)復旧したものとする。この場合、復旧したサーバS2よりも優先順位の高いサーバのうち、最も優先順位の低いサーバはマスタサーバS1であることから、当該サーバS1のデータ送信先がスレーブサーバS3から復旧したスレーブサーバS2に変更される。また、復旧したサーバS2よりも優先順位の低いサーバのうち、最も優先順位の高いサーバS3がマスタサーバでないことから、このサーバS3のデータ受信先(送信元)がマスタサーバS1から復旧したサーバS2に変更される。また、復旧したサーバS2のデータ受信先はサーバS1に、データ送信先はサーバS3に設定される。そして、サーバS2の受信先となるサーバS1(ここではマスタサーバS1)の全データが、図18において符号181で示すように、当該サーバS2にコピーされ、システム内の他のサーバのデータとの一致化が図られる。
【0073】
以後、図18の状態においてマスタサーバS1でデータの変更があった場合のデータバックアップの手順は次のようになる。まず、図18において符号182に示すように、マスタサーバS1から復旧したスレーブサーバS2に変更のあったデータがコピーされる。次に、そのデータが、図18において符号183に示すように、スレーブサーバS2からスレーブサーバS3にコピーされる。そして、そのデータが、図18において符号184に示すように、スレーブサーバS3からスレーブサーバS4にコピーされる。
【0074】
[第3の実施形態]
次に本発明の第3の実施形態に係る高可用性計算機システムについて、図19のブロック構成図を参照して説明する。
同図において、高速なネットワークであるLAN(ローカルエリアネットワーク)21には複数のサーバS11〜S14が接続されている。また、低速なネットワークであるWAN(ワールドエリアネットワーク)22にはサーバS14〜S17が接続されている。本実施形態において、サーバS14は、LAN21及びWAN22を相互接続するために設けられたもので、後述するように、LAN21側からWAN22側へと、WAN22側からLAN21側へのデータのコピー(バックアップ)を司る。
【0075】
この図19のシステムの特徴は、LAN21により接続されたサーバS11〜S14同士のバックアップにはディジーチェーン方式を適用し、WAN22により接続されたサーバS14〜S17同士のバックアップには1対n通信方式を適用し、サーバS14がその両方式の混在を可能とするインタフェースをなす点にある。ここで、少なくともLAN21上のサーバS14〜S13では、自身がスレーブサーバの場合にも、所定のアプリケーションプログラムが動作して、固有の処理が行えるようになっているものとする。
【0076】
さて、デイジーチェーン方式の長所は、1対n通信方式と比較した場合、マスタサーバの負荷を低くすることができる点にある。逆に、1対n通信方式の長所は、各スレーブサーバ(バックアップサーバ)の情報の一致が速いという点にある。そこで、高遠LAN21に接続されてアプリケーションが実際に動いているサーバ同士(サーバS11〜S13)では、バックアップにディジーチェーン方式を適用することで、アプリケーションの動作を妨げずに運用する。
【0077】
しかし、低速なネットワークとしてのWAN22に接続されているサーバ同士(サーバS15〜S17)では、バックアップにディジーチェーン方式を使うと、データのコピーに要する時間が長くなり、各サーバの持つデータの一致化が遅れて、各サーバ間でデータの不一致の度合いが大きくなってしまう。
【0078】
そこで、LAN21とWAN22との間にLAN21側からWAN22側へと、WAN22側からLAN21側へのデータのコピーを司る機能を持つ専用サーバS14を置いて、LAN21側からWAN22側のサーバ(S15〜S17)にデータをコピーする必要がある場合には、そのデータを当該サーバS14で受け取って、当該サーバS14からWAN22上の各サーバ(S15〜S17)に1対n通信方式でコピーする。また、WAN22側からLAN21側のサーバ(S11〜S13)にデータをコピーする必要がある場合には、そのデータを当該サーバS14で受け取って、当該サーバS14からLAN21上の最も優先順位の高いサーバ(S15〜S17)にデータをコピーする。そして、そのサーバからLAN21上の他のサーバに、優先順位に従ってディジーチェーン方式でデータが順にコピーする。
【0079】
次に、図19のシステムにおけるデータコピー(データバックアップ)の具体例を説明する。ここでは、優先順位がS11→S12→S13→S14→S15→S16→S17の順であり、サーバS11がマスタサーバであるものとする。
【0080】
まず、マスタサーバS11からサーバ(スレーブサーバ)S12に、図19において符号191で示すように、LAN21を介してデータがコピーされる。次に、そのデータが、図19において符号192で示すように、サーバS12からサーバS13にLAN21を介してコピーされる。次に、そのデータが、図19において符号193で示すように、サーバS13からサーバS14にLAN21を介してコピーされる。サーバS14は、サーバS13からのデータを1対n通信方式により、図19において符号194,195,196に示すように、WAN22上の他のサーバS15,S16,S17に順にコピーする。なお、LAN21上にサーバS14より優先順位が低いサーバが存在する場合には、サーバS14は(ディジーチェーン方式のバックアップを適用するLAN21上のサーバとして)、そのうちの最も優先順位が高いサーバにもデータをコピーする。
【0081】
WAN22側からLAN21側へのデータのコピーの場合にもデータの方向が逆になる点を除けば上記と同様である。以下、WAN22側からLAN21側へのデータコピーの具体例を、図20に示すように、優先順位がS15→S16→S17→S11→S12→S13→S14の順であり、サーバS15がマスタサーバである場合を例に説明する。
【0082】
まず、WAN22上のマスタサーバS15から当該WAN22上の他のサーバ(スレーブサーバ)S16,S17,S14に、図20において符号201,202,203で示すように、1対n通信方式により同一データがWAN22を介して順にコピーされる。次に、そのデータが、図20において符号204で示すように、サーバS14からLAN21上の(当該サーバS14を除いて)最も優先順位が高いサーバS11にコピーされる。次に、そのデータが、図20において符号205で示すように、サーバS11から(次の優先順位の)サーバS12にLAN21を介してコピーされる。次に、そのデータが、図20において符号206で示すように、サーバS12から(次の優先順位の)サーバS13にLAN21を介してコピーされる。
【0083】
その後、上記データを、サーバS13から(次の優先順位の)サーバS14にコピーしても構わないが、本実施形態ではWAN22側のサーバがマスタとなっているため、サーバS14へのデータコピーは行わない。その理由は、WAN22側のサーバがマスタとなっている場合、上記データはサーバS14からLAN21上のサーバにコピーされたものであり、当該サーバS14上に既に存在するためである。なお、サーバS14がマスタの場合、サーバS14は、LAN21上の自身を除いて最も優先順位が高いサーバ(ここではサーバS11)にデータをコピーすると共に、WAN22上の他のサーバS15〜S17にデータを順にコピーする。
【0084】
このように本実施形態では、高速なLANにより接続されたサーバと低速なWANにより接続されたサーバとが混在するシステムにおいて、LANとWANとの間のデータコピーを司る専用サーバを設けると共に、高速LAN上ではディジーチェーン方式を、低速WAN上では1対n通信方式を適用することで、ネットワークの構成に柔軟に対応したシステムを構築することが可能である。
【0085】
【発明の効果】
以上詳述したように本発明によれば、3台以上のサーバ計算機を用いてバックアップサーバ計算機を複数確保し、その複数のバックアップサーバ計算機に対する効果的なデータコピーを行うことで、より障害に強い高可用性計算機システム、更には負荷に強い高可用性計算機システムが構築できる。
【0086】
また本発明によれば、高速ネットワークと低速ネットワークによって複数のサーバ計算機を連携させ、各ネットワークに適したデータバックアップ方式を併用することにより、ネットワーク構成に柔軟に対応した効果的なデータバックアップが実現でき、より効率のよい高可用性計算機システムが構築できる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る高可用性計算機システムの構成を示すブロック図。
【図2】同実施形態においてマスタサーバに障害が発生した場合のサービスの引き継ぎを説明するための図。
【図3】同実施形態における各サーバの内部構成を示すブロック図。
【図4】同実施形態で適用される1対n通信方式によるデータバックアップを説明するための図。
【図5】同実施形態で適用されるマスタとなる優先順位を説明するための図。
【図6】同実施形態におけるスレーブサーバ(の状態監視デーモン11)の動作手順を説明するためのフローチャート。
【図7】同実施形態におけるマスタサーバ(の状態監視デーモン11)の動作手順を説明するためのフローチャート。
【図8】図1のシステムにおけるマスタサーバS1の基本動作をサーバS2に障害が発生している場合を例に説明するための図。
【図9】図8の状態でマスタサーバS1に障害が発生してサーバS3が新たにマスタサーバとなった場合の動作を説明するための図。
【図10】図9の状態でサーバS1が復旧した場合の動作を説明するための図。
【図11】本発明の第2の実施形態に係る高可用性計算機システムで適用されるディジーチェーン方式によるデータバックアップを説明するための図。
【図12】同第2の実施形態におけるスレーブサーバ(の状態監視デーモン11)の動作手順を説明するためのフローチャート。
【図13】同第2の実施形態におけるマスタサーバ及びスレーブサーバ(の状態監視デーモン11)の動作手順を説明するためのフローチャート。
【図14】同第2の実施形態における各サーバの基本動作をサーバS2に障害が発生している場合を例に説明するための図。
【図15】図14の状態でマスタサーバS1に障害が発生してサーバS3が新たにマスタサーバとなった場合の動作を説明するための図。
【図16】図14の状態でスレーブサーバS3に障害が発生した場合の動作を説明するための図。
【図17】図15の状態でサーバS1が復旧した場合の動作を説明するための図。
【図18】図14の状態でサーバS2が復旧した場合の動作を説明するための図。
【図19】本発明の第3の実施形態に係る高可用性計算機システムで適用される1対n通信方式とディジーチェーン方式併用によるデータバックアップを、LAN21上のサーバS11がマスタの場合を例に説明するための図。
【図20】同第3の実施形態においてWAN22上のサーバS15がマスタの場合のデータバックアップを説明するための図。
【符号の説明】
S1〜S4…サーバ(サーバ計算機)
S11〜S13…サーバ(第1のサーバ計算機)
S14…サーバ(第3のサーバ計算機)
S15〜S17…サーバ(第2のサーバ計算機)
N…ネットワーク
11…状態監視デーモン(マスタ探索手段、マスタ設定手段、サーバ計算機探索手段、第1のサーバ計算機探索手段、第2のサーバ計算機探索手段、データ送信先設定手段)
12…データ受信デーモン
13…データ送信デーモン(コピー手段、第1のコピー手段、第2のコピー手段、第3のコピー手段、第4のコピー手段)
21…LAN(ローカルエリアネットワーク、第1のネットワーク)
22…WAN(ワイドエリアネットワーク、第2のネットワーク)

Claims (2)

  1. 第1のネットワークを介して接続される複数の第1のサーバ計算機と、前記第1のネットワークより低速な第2のネットワークを介して接続される複数の第2のサーバ計算機と、前記第1のネットワーク及び前記第2のネットワーク間に接続される第3のサーバ計算機とを備え、いずれか1台がマスタサーバ計算機となってクライアント計算機に対してサービスを提供し、当該マスタサーバ計算機に障害が発生した場合には、システム内の全計算機についてマスタとなる優先順位を示すと共にマスタが切り替わる毎に優先順位が循環使用される優先順位情報に従って、残りの複数のサーバ計算機のいずれかが新たにマスタサーバ計算機となって処理を引き継ぐ高可用性計算機システムであって、
    前記第1のサーバ計算機は、
    自計算機がマスタサーバ計算機で、且つクライアント計算機から自計算機の保持するファイルのデータが変更された場合に、その変更されたデータを、前記第1のネットワークに接続されている自計算機より優先順位が低く且つ障害のないサーバ計算機のうちの最も順位が高いサーバ計算機にコピーする第1のコピー手段と、他のサーバ計算機からデータがコピーされた場合、そのデータを、前記第1のネットワークに接続されている自計算機より優先順位が低く且つ障害のないサーバ計算機のうちの最も順位が高いサーバ計算機にコピーする第2のコピー手段とを備え、
    前記第2のサーバ計算機は、
    自計算機がマスタサーバ計算機で、且つクライアント計算機から自計算機の保持するファイルのデータが変更された場合に、その変更されたデータを、前記第2のネットワークに接続されている障害のない全てのサーバ計算機に個々にコピーする第3のコピー手段を備え、
    前記第3のサーバ計算機は、
    前記第1のサーバ計算機からデータがコピーされた場合には、そのデータを前記第2のネットワーク上の障害のない全ての前記第2のサーバ計算機に個々にコピーし、前記第2のサーバ計算機からデータがコピーされた場合には、そのデータを前記第1のネットワーク上の障害のない前記第1のサーバ計算機のうち優先順位が最も高い第1のサーバ計算機にコピーする第4のコピー手段を備えていることを特徴とする高可用性計算機システム。
  2. 第1のネットワークを介して接続される複数の第1のサーバ計算機と、前記第1のネットワークより低速な第2のネットワークを介して接続される複数の第2のサーバ計算機と、前記第1のネットワーク及び前記第2のネットワーク間に接続される第3のサーバ計算機とを備え、いずれか1台がマスタサーバ計算機となってクライアント計算機に対してサービスを提供し、当該マスタサーバ計算機に障害が発生した場合には、システム内の全計算機についてマスタとなる優先順位を示すと共にマスタが切り替わる毎に優先順位が循環使用される優先順位情報に従って、残りの複数のサーバ計算機のいずれかが新たにマスタサーバ計算機となって処理を引き継ぐ高可用性計算機システムにおけるデータバックアップ方法であって、
    前記第1のサーバ計算機がマスタサーバ計算機で、且つクライアント計算機から当該第1のサーバ計算機の保持するファイルのデータが変更された場合に、その変更されたデータを、前記第1のネットワークに接続されている当該第1のサーバ計算機より優先順位が低く且つ障害のないサーバ計算機のうちの最も順位が高いサーバ計算機に当該第1のサーバ計算機がコピーするステップと、
    前記第1のサーバ計算機に他のサーバ計算機からデータがコピーされた場合、そのデータを、前記第1のネットワークに接続されている当該第1のサーバ計算機より優先順位が低く且つ障害のないサーバ計算機のうちの最も順位が高いサーバ計算機に当該第1のサーバ計算機がコピーするステップと、
    前記第2のサーバ計算機がマスタサーバ計算機で、且つクライアント計算機から当該第2のサーバ計算機の保持するファイルのデータが変更された場合に、その変更されたデータを、前記第2のネットワークに接続されている障害のない全てのサーバ計算機に当該第 2のサーバ計算機が個々にコピーするステップと、
    前記第1のサーバ計算機から前記第3のサーバ計算機にデータがコピーされた場合には、そのデータを前記第2のネットワーク上の障害のない全ての前記第2のサーバ計算機に当該第3のサーバ計算機が個々にコピーするステップと、
    前記第2のサーバ計算機から前記第3のサーバ計算機にデータがコピーされた場合には、そのデータを前記第1のネットワーク上の障害のない前記第1のサーバ計算機のうち優先順位が最も高い第1のサーバ計算機に当該第3のサーバ計算機がコピーするステップと
    を具備することを特徴とする高可用性計算機システムにおけるデータバックアップ方法。
JP21714799A 1999-07-30 1999-07-30 高可用性計算機システム及び同システムにおけるデータバックアップ方法 Expired - Fee Related JP3887130B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP21714799A JP3887130B2 (ja) 1999-07-30 1999-07-30 高可用性計算機システム及び同システムにおけるデータバックアップ方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP21714799A JP3887130B2 (ja) 1999-07-30 1999-07-30 高可用性計算機システム及び同システムにおけるデータバックアップ方法

Publications (2)

Publication Number Publication Date
JP2001043105A JP2001043105A (ja) 2001-02-16
JP3887130B2 true JP3887130B2 (ja) 2007-02-28

Family

ID=16699603

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21714799A Expired - Fee Related JP3887130B2 (ja) 1999-07-30 1999-07-30 高可用性計算機システム及び同システムにおけるデータバックアップ方法

Country Status (1)

Country Link
JP (1) JP3887130B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8775589B2 (en) 2007-02-15 2014-07-08 Tyco Electronics Subsea Communications Llc Distributed network management system and method
WO2019101095A1 (zh) * 2017-11-21 2019-05-31 北京金山云网络技术有限公司 节点宕机恢复方法、装置、电子设备及存储介质

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4239987B2 (ja) 2005-02-24 2009-03-18 ブラザー工業株式会社 ネットワークシステム、デバイス、およびプログラム
JP2006323526A (ja) * 2005-05-17 2006-11-30 Fujitsu Ltd クラスタ管理プログラム、該プログラムを記録した記録媒体、クラスタ管理方法、ノード、およびクラスタ
JP4772117B2 (ja) * 2006-04-25 2011-09-14 株式会社高岳製作所 コンピュータシステム、サーバ、コンピュータ端末及びプログラム
JP4760662B2 (ja) * 2006-10-23 2011-08-31 パナソニック電工株式会社 サービスプログラム、サーバ、ネットワークシステム
US8244949B2 (en) 2007-05-18 2012-08-14 Nec Infrontia Corporation Slot interface access unit, method thereof, and program thereof, as well as redundancy configuration of main unit, and replacing method of the same
JP5366177B2 (ja) * 2007-05-18 2013-12-11 Necインフロンティア株式会社 スロットインターフェースアクセス装置、その方法及びそのプログラム並びに主装置の冗長構成及び代替方法
CA2630014C (en) 2007-05-18 2014-05-27 Nec Infrontia Corporation Main device redundancy configuration and main device replacing method
JP4479930B2 (ja) 2007-12-21 2010-06-09 日本電気株式会社 ノードシステム、サーバ切換え方法、サーバ装置、データ引き継ぎ方法、およびプログラム
JP5192226B2 (ja) * 2007-12-27 2013-05-08 株式会社日立製作所 待機系計算機の追加方法、計算機及び計算機システム
JP5213108B2 (ja) * 2008-03-18 2013-06-19 株式会社日立製作所 データ複製方法及びデータ複製システム
JP5716460B2 (ja) * 2011-03-03 2015-05-13 日本電気株式会社 クラスタシステムおよびその制御方法
JP5701728B2 (ja) * 2011-09-30 2015-04-15 株式会社東芝 監視システム、監視装置および監視方法
WO2013094006A1 (ja) 2011-12-19 2013-06-27 富士通株式会社 プログラム、情報処理装置および方法
JP5642817B2 (ja) * 2013-02-12 2014-12-17 日本電信電話株式会社 差分更新装置、差分更新システム、差分更新方法、差分更新プログラム及び差分更新サーバ
JP6367630B2 (ja) * 2014-07-17 2018-08-01 Necネットワーク・センサ株式会社 冗長系システム、冗長機器及びその切替方法
JP6863013B2 (ja) * 2017-03-31 2021-04-21 日本電気株式会社 情報処理装置、コンピュータシステム、監視システム構築方法およびコンピュータプログラム
US11386494B2 (en) 2018-09-19 2022-07-12 Coinone Inc. Cryptocurrency trading method and system
KR102172751B1 (ko) * 2018-09-19 2020-11-02 (주) 아이펀팩토리 가상화폐 거래 방법 및 시스템

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8775589B2 (en) 2007-02-15 2014-07-08 Tyco Electronics Subsea Communications Llc Distributed network management system and method
WO2019101095A1 (zh) * 2017-11-21 2019-05-31 北京金山云网络技术有限公司 节点宕机恢复方法、装置、电子设备及存储介质
US11249860B2 (en) 2017-11-21 2022-02-15 Beijing Kingsoft Cloud Network Technology, Co., Ltd. Node down recovery method and apparatus, electronic device, and storage medium

Also Published As

Publication number Publication date
JP2001043105A (ja) 2001-02-16

Similar Documents

Publication Publication Date Title
JP3887130B2 (ja) 高可用性計算機システム及び同システムにおけるデータバックアップ方法
US7237140B2 (en) Fault tolerant multi-node computing system for parallel-running a program under different environments
US6134673A (en) Method for clustering software applications
US7689862B1 (en) Application failover in a cluster environment
US7260625B2 (en) Data center system and method for controlling the same
US6918051B2 (en) Node shutdown in clustered computer system
US6266781B1 (en) Method and apparatus for providing failure detection and recovery with predetermined replication style for distributed applications in a network
US6195760B1 (en) Method and apparatus for providing failure detection and recovery with predetermined degree of replication for distributed applications in a network
US7383264B2 (en) Data control method for duplicating data between computer systems
KR100358663B1 (ko) 클러스터 노드 디스트레스 신호
US7188237B2 (en) Reboot manager usable to change firmware in a high availability single processor system
US20010056554A1 (en) System for clustering software applications
EP2434729A2 (en) Method for providing access to data items from a distributed storage system
CN102394914A (zh) 集群脑裂处理方法和装置
GB2359384A (en) Automatic reconnection of linked software processes in fault-tolerant computer systems
US20040123050A1 (en) Use of a storage medium as a communications network for liveness determination in a high-availability cluster
CN101183990A (zh) 数据备份方法与应用处理系统
JP2012190175A (ja) フォールトトレラントシステム、サーバ、フォールトトレラント化方法およびプログラム
JP6291711B2 (ja) フォールトトレラントシステム
US7437445B1 (en) System and methods for host naming in a managed information environment
JP4806382B2 (ja) 冗長化システム
CN112202601B (zh) 副本集模式运行的两物理节点mongo集群的应用方法
CN111258823A (zh) 一种主从服务器的切换方法及系统
CN113076065B (zh) 一种高性能计算系统中数据输出故障容错方法
Selikhov et al. CMDE: a channel memory based dynamic environment for fault-tolerant message passing based on MPICH-V architecture

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040915

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060711

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060908

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061124

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091201

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101201

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees