JP2008059583A

JP2008059583A - クラスタ・システムならびにクラスタ・システム内でレプリカをバックアップする方法およびプログラム製品

Info

Publication number: JP2008059583A
Application number: JP2007217739A
Authority: JP
Inventors: Patrick A Buah; パトリック・エイ・ブアー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2006-08-28
Filing date: 2007-08-24
Publication date: 2008-03-13
Also published as: CN101136728A; US20080052327A1

Abstract

【課題】少なくとも１つのクライアントと、少なくとも１つのノードと、クラスタ・システム上で実行されるプロセスをそれぞれが複製する第１レプリカ、第２レプリカ、および第２バックアップ（Ｓバックアップ）・レプリカとを有するクラスタ・システム内でレプリカをバックアップするための方法、システム、およびプログラム製品を提供する。
【解決手段】第１レプリカ、第２レプリカ、およびＳバックアップ・レプリカのそれぞれに階層が割り当てられる。それらのレプリカのうちの１つの障害が検出され、障害の発生しているレプリカは、より低い階層のレプリカと交換される。最も低い影響のある階層を有するレプリカを再生成して、第１レプリカ、第２レプリカ、およびＳバックアップ・レプリカを再び確立する。
【選択図】図２

Description

本発明は、クラスタ化されたコンピュータ・システムのコンポーネントの複製に関し、より詳細には、クラスタ化されたコンピュータ・システムのコンポーネントの副レプリカをバックアップするためのバックアップ複製に関する。

クラスタ化されたシステムにつきものの大きな問題は、そうしたシステムが障害に対して潜在的に脆弱であるという点である。クラスタ内の単一のノードがクラッシュすると、システム全体が利用できなくなるおそれがある。システムの信頼性を高めるための冗長性が、通常はコンポーネントの複製によってシステム内に導入される。分散システム内でサービスやプロセスを複製するには、そのサービスのそれぞれのレプリカが、一貫した状態を維持する必要がある。この一貫性は、特定の複製プロトコルによって確保される。プロセスのレプリカを編成するためのさまざまな方法があり、一般には、能動的（アクティブ）な複製、受動的（パッシブ）な複製、および準能動的（セミアクティブ）な複製に区分される。

能動的な複製技術（状態マシン・アプローチとも呼ばれる）においては、すべてのレプリカが、クライアントから受信した要求を処理し、応答を送信する。レプリカは、独立して動作し、この技術の本質は、すべてのレプリカが必ず同じ順序で要求を受信するようにすることにある。この技術では、クラッシュの場合の応答時間が短くなる。しかし、すべてのレプリカがすべての要求を並行して処理するため、著しいランタイム・オーバヘッドを招き、したがって、商用アプリケーションのための可用性の高いソリューションとしては非現実的な選択肢となっている。

受動的な複製技術（第１バックアップとも呼ばれる）では、レプリカのうちの１つ（第１レプリカと呼ばれる）が、クライアントから要求を受信し、応答を返す。バックアップは、第１レプリカのみと対話し、状態更新メッセージを第１レプリカから受信する。第１レプリカに障害が生じた場合には、バックアップのうちの１つが、後を引き受ける。能動的な複製とは異なり、能動的な複製よりも少ない処理能力ですみ、要求を処理することの決定論上の仮定をまったく行わない。しかし、障害の場合の応答時間が著しく長く、そのために、時間的にクリティカルなアプリケーションというコンテキストにおいては不適切となる。

準能動的な複製技術は、時間的にクリティカルなアプリケーションというコンテキストにおける、能動的な複製に伴う非決定論の問題を回避する。この技術は、能動的な複製に基づくものであり、リーダ（指導者）およびフォロワ（追随者）という概念を用いて拡張されている。要求の実際の処理は、すべてのレプリカによって実行されるが、処理のうちの非決定性の部分を実行してフォロワに知らせることは、リーダの担当である。この技術は、能動的な複製に近いが、非決定性の処理が可能であるという点が異なる。しかし、第１レプリカに障害が発生した場合には、著しい回復時間のオーバヘッドを招く。

「METHOD TO BE USED WITH A DISTRIBUTED DATABASE, AND A SYSTEM ADAPTED TO WORK ACCORDING TO THE METHOD」に関して２００１年２月１３日にRonstromらに対して交付された米国特許第６，１８９，０１７Ｂ１号は、ノードを形成するいくつかのコンピュータを有するシステム分散型のデータ・ベースの信頼性を確保する方法を開示している。このデータ・ベースの一部は、第１レプリカおよび第２レプリカを含む。第２レプリカは、第１のノードがクラッシュした場合に、第１レプリカを再生成するために使用される。

「DETERMINISTIC PREEMPTION POINTS IN OPERATINGSYSTEM EXECUTION」に関して２００４年１０月５日にUniceに対して交付された米国特許第６，８０２，０２４Ｂ２号は、サイクル・カウンタ機能のためのサポートを有する単一または複数のプロセッサを利用するフォルト・トレラントなソリューションを提供するための方法および装置を開示している。この装置は、第１システムおよび第２システムを含む。第１の中断のみが発生して、その第１の中断が第２システムによって生じたものである場合には、出力機能部は、第２システムのみからのシステム出力を提供する。

「SYSTEM, METHOD AND APPARATUS FOR DATAPROCESSING AND STORAGE TO PROVIDE CONTINUOUS OPERATIONS INDEPENDENT OF DEVICEFAILURE OR DISASTER」に関して２００３年８月２１日にFukuharaらによって公開された米国特許出願公開第２００３／０１５９０８３Ａ１号は、少なくとも２つのアプリケーション・サーバを有するユーザ・コンピューティング・デバイスにおけるユーザ・アプリケーションの継続的なオペレーションを提供するためのシステム、方法、および装置を開示している。アプリケーション・サーバのうちの一方が障害を起こし場合や、利用できなくなった場合には、ユーザの要求は、少なくとも他方のアプリケーション・サーバによって、まったく遅延することなく引き続き処理することができる。

「SYSTEMS AND METHODS FOR THEREPARTITIONING OF DATA」に関して２００５年９月２２日にShuttらによって公開された米国特許出願公開第２００５／０２１００８２Ａ１号は、第２のサーバ上の第１のバックアップ・データ構造を新たなサーバへ移動し、その新たなサーバ上に第２のデータ構造を作成し、第２のサーバ上に第２のデータのための第２のバックアップ・データ構造を作成することによって、サーバの連合体を拡張して、その連合体のサーバのデータ負荷のバランスをとることを開示している。

「METHODS, APPARATUS AND COMPUTER PROGRAMSFOR RECOVERY FROM FAILURES IN A COMPUTING ENVIRONMENT」に関して２００５年１２月１日にHufferdらによって公開された米国特許出願公開第２００５．０２６８１４５Ａ１号は、一式のサーバが一式のリソース・インスタンスへのクライアントのアクセスをコントロールするデータ処理環境内のサーバに影響を与える障害からの回復のための方法、装置、およびコンピュータ・プログラムを開示している。障害の後に、クライアントは、以前に識別した第２サーバへ接続して、同じリソース・インスタンスにアクセスする。

Kim, Highly Available Systems for DatabaseApplications, Computing Surveys, Vol. 16, No. 1 (March 1984)は、可用性を主要な目的として設計されたデータベース・アプリケーション・システムにおいて使用されるアーキテクチャおよび可用性の技術の概観および分析を提供している。

Gummadi et al., An EfficientPrimary-Segmented backup scheme for Dependable Real-Time Communication inMultihop Networks, IEEE/ACM Transactions of Networking, Vol. 11, No 1(February, 2003)は、セグメント化されたバックアップ・スキームを開示している。
米国特許第６，１８９，０１７Ｂ１号米国特許第６，８０２，０２４Ｂ２号米国特許出願公開第２００３／０１５９０８３Ａ１号米国特許出願公開第２００５／０２１００８２Ａ１号米国特許出願公開第２００５．０２６８１４５Ａ１号 Kim, Highly Available Systems forDatabase Applications, Computing Surveys, Vol. 16, No. 1 (March 1984) Gummadi et al., An EfficientPrimary-Segmented backup scheme for Dependable Real-Time Communication inMultihop Networks, IEEE/ACM Transactions of Networking, Vol. 11, No 1(February, 2003)

本発明の主要な目的は、「第２バックアップ複製」と呼ばれる複製スキームであり、これは、要求を処理することの決定論上の仮定をまったく行わず、その一方で同時にランタイム・オーバヘッドおよび回復時間オーバヘッドの双方を減らし、したがって、ミッションクリティカルなアプリケーションおよびタイムクリティカルなアプリケーションの可用性の高いフォルトトレラントな管理に適している。ニューヨーク州アーモンクのInternational Business Machines Corp.から市販されているHACMP、およびカリフォルニア州クパチーノのSymanticCorp.から市販されているVeritas Cluster Serverなど、既存の可用性の高いクラスタ・ソリューションは、このようなスキームから恩恵を享受して、電気通信環境などのタイムクリティカルな環境をサポートすることができる。

本発明の別の目的は、「第２バックアップ」複製と呼ばれるクラスタ化されたコンピュータ・システムのための新たな複製技術である。この技術においては、クラスタ内のプロセスやコンピュータ・ノードは、３つのレプリカすなわちクローンからなるグループへと複製される。これらの３つのプロセス・レプリカは、この技術によって導入される「第２バックアップ」すなわち「Ｓバックアップ」と呼ばれる新たな役割に加えて、従来の「第１」および「第２」の役割を伴って、第２バックアップ・プロトコルに加わる。Ｓバックアップは、第２レプリカへのウォーム・バックアップとして機能するプロセス・グループ内のプロセス・レプリカやシステム・レプリカのうちの１つである。第１レプリカおよび第２レプリカは、準能動的な複製プロトコルに加わり、その一方で第２レプリカとＳバックアップとの間には、受動的な複製関係が存在する。

本発明の別の目的は、第３レプリカ、および第２レプリカと第３レプリカとの間におけるオーバヘッドの低いプロトコルの導入である。また、ここで採用される準能動的な複製スキームには、常に１つの「フォロワ」しか含まれない。

ここで採用される第１レプリカと第２レプリカとの間における準能動的な複製の構成によって、低いランタイム・オーバヘッドおよび瞬時のフェイルオーバ機能が確保され、その一方で第２バックアップの関係によって、クラスタ化されたシステム内での迅速な回復またはフェイルバック（障害回復）が可能となる。このようにして複製されたプロセスやシステムを伴うクラスタにとっては、継続的な可用性を保証することができ、その一方で、障害の場合の応答および回復の時間が大幅に短縮され、ミッションにクリティカルなアプリケーションおよび時間にクリティカルなアプリケーションにとって、改善された環境となる。

概要について上述した方法に対応するシステムおよびコンピュータ・プログラム製品についても、本明細書において説明し、特許請求する。

さらなる特徴および利点は、本発明の技術を通じて実現される。本発明のその他の実施形態および態様については、本明細書において詳細に説明し、特許請求される本発明の一部とみなす。本発明を利点および特徴と共によりよく理解するために、説明および図面を参照されたい。

本発明とみなされる主題については、本明細書に添付された特許請求の範囲において特に指摘し、明確に特許請求する。本発明の前述およびその他の目的、特徴、および利点は、以降の詳細な説明を添付の図面と併せて理解すれば、明らかとなる。

詳細な説明は、本発明の好ましい実施形態を、利点および特徴と共に、例示として図面を参照しながら説明する。

図１は、１つまたは複数のクライアント１２ａ〜１２ｎと、通信システム１３および１４と、ノード１６ａ〜１６ｎと、ディスク・バス１８と、１つまたは複数の共有ディスク２０ａ〜２０ｎとを有するクラスタ化されたコンピュータ・システム１０の一例を示している。システム１０は一例にすぎず、本発明と共に使用できるその他のクラスタは、プロセッサの数、ネットワークの選択、および使用されるディスク・テクノロジなどに応じて、非常に異なった体裁を有する可能性があるということが理解できるであろう。クライアント１２は、１３で示されているようなパブリックＬＡＮ（public LAN）や、１４で示されているようなプライベートＬＡＮ（private LAN）などのローカル・エリア・ネットワークを介してノード１６にアクセスできるプロセッサであるということが理解できるであろう。クライアント１２はそれぞれ、「フロント・エンド」またはクライアント・アプリケーションを実行し、この「フロント・エンド」またはクライアント・アプリケーションは、クラスタ・ノード１６上で作動しているサーバ・アプリケーションにクエリーを行う。図１のシステムにおいては、それぞれのノード１６は、１つまたは複数の共有された外部のディスク・デバイス２０にアクセスすることができるということも理解できるであろう。それぞれのディスク・デバイス２０は、複数のノードへ物理的に接続することができる。共有ディスク２０は、通常はデータの冗長性のために構成されているミッションクリティカルなデータを保存する。ノード１６は、クラスタ・システム１０の中核を形成する。ノード１６は、可用性の高いフォルトトレラントな管理ソフトウェアおよびアプリケーション・ソフトウェアを実行するプロセッサである。

可用性の高い分散システム内でプロセス・レプリカのグループを管理するために、新たな複製管理技術である第２バックアップ複製を開示する。第２バックアップ・プロセスにおいては、１つのレプリカは、通常の第１バックアップ・アプローチの場合の第１レプリカの代わりに第２レプリカのためのバックアップとして機能し、この場合、第２レプリカが第１レプリカをバックアップする。図２は、調整された複製プロトコルに加わる第１レプリカ２２、第２レプリカ２３、およびＳバックアップ・レプリカ２４という指定された役割を有する３つのレプリカから構成される統合された複製スキームを示している。第１レプリカ２２および第２レプリカ２３の双方が要求を処理するが、第１レプリカ２２のみが、または第２レプリカ２３のみが、クライアント１２に応答を返信する。クラスタ・ソフトウェア２６やその他の任意のスキーム利用者は、第１レプリカ２２または第２レプリカ２３のどちらがクライアントに応答を返信するかを事前に設定することができる。これは、第１レプリカ２２と第２レプリカ２３との間における負荷のバランスをとるために動的に設定することもできる。第２レプリカ２３およびＳバックアップ・レプリカ２４は、第１レプリカ２２と同じノード１６に、または２７で示されているように希望に応じてシステム１０内の別の場所に保持することができるということが理解できるであろう。定期的に、第２レプリカ２３は、自分の状態を、自分のバックアップ・レプリカであるＳバックアップ・レプリカ２４と同期化する。任意選択で、Ｓバックアップ・レプリカ２４は、第２レプリカ２３上の状態の変化がないか調べるように設定することができる。

図２は、クライアント１２と、３つのレプリカ２２、２３、および２４とから構成されるクラスタ化された第２バックアップ複製の構成を示している。それぞれのレプリカは、単一のプロセス、あるいは単一のコンピュータ・システムまたはＬＰＡＲイメージ（LPAR image）上で作動するコンテナ（container）として考えることができる。レプリカは、ＡＩＸやＬｉｎｕｘなどの単一のオペレーティング・システム・イメージを表すこともできる。３つのレプリカ２２、２３、および２４はすべて、単一のコンピュータ・システム上で実行される３つの別個のプロセスとみなすこともできる。第１レプリカ２２および第２レプリカ２３の双方が、すべてのクライアント要求を処理するが、第１レプリカ２２のみが、すべての非決定性のオペレーションの処理を担当する。そして第２レプリカ２３は、第１レプリカ２２が行ったのと同じ決定を行うように強制される。第２レプリカ２３は、Ｓバックアップ・レプリカ２４の状態を定期的に更新し、この更新は、Ｓバックアップ・レプリカ２４に対するその状態の変化をポイントチェックすること（checkpointing）から構成され、したがって、クラスタのランタイム・オーバヘッドに対するＳバックアップ・レプリカ２４の影響を最小限に抑える。

通常、グループ内の１つのレプリカの障害は、そのグループの構成を変え、ビューの変化を引き起こす。図２のシステムにおいては、システム内でのレプリカの障害や損失は、障害の発生したレプリカが担っていた役割に応じて、さまざまに処理される。Ｓバックアップ・レプリカ２４は、グループを越えたいかなる対話にも加わらないため、その障害は、このレプリカの編成にとって完全に透過的である。図３は、第１レプリカ２２の障害が検出されるプロセスのフローチャートである。３０において、第１レプリカの障害が検出される。３１において、第１レプリカ２２の障害が検出されると、第２レプリカ２３は、瞬時に後を引き受け、計算を続行して、第１レプリカ２２の役割を引き継ぐ。３２において、第２レプリカ２３が最初に行うことは、障害の発生した第１レプリカ２２から既に受信していた保留中のイベントをすべて再生して、第１レプリカ２２の最後に分かっている状態によって自分自身を最新の状態にもっていくことである。３３において、第２レプリカ２３は、実行を継続し、すべての保留中のイベントを処理した後に自分自身をＳバックアップ・レプリカ２４と同期化する。そして３４において、Ｓバックアップ・レプリカ２４は、第２レプリカ２４としての新たな第２の役割へと格上げされる。

図４は、現在の第２レプリカ２３の障害が検出されるプロセスのフローチャートである。現在の第２レプリカ２３に障害が発生した場合には、４０において、その障害が検出される。４１において、Ｓバックアップ・レプリカ２４は、自分自身を格上げして、第２の役割を引き受ける。余分なリソースが存在する場合には、４２において、第２レプリカ２２は、新たなレプリカを始動することによってグループの再構成を開始し、この新たなレプリカは、Ｓバックアップ・レプリカ２４の役割を引き受けて、元の複製の度合いを復元する。

図５は、Ｓバックアップ・レプリカ２４の障害が検出されるプロセスを示すフローチャートである。Ｓバックアップ・レプリカ２４は、要求および応答の処理に関与しないため、Ｓバックアップ・レプリカ２４の障害は、クラスタの状態に影響を与えない。５０において、Ｓバックアップ・レプリカ２４の障害が検出される。５１において、第２レプリカ２２は、可能な場合には自分自身を複製して、新たなＳバックアップ２４を作成する。

本発明の機能は、ソフトウェア、ファームウェア、ハードウェア、あるいはそれらの何らかの組合せにおいて実装することができる。

一例として、本発明の１つまたは複数の態様は、たとえばコンピュータで使用可能なメディアを有する製品（たとえば、１つまたは複数のコンピュータ・プログラム製品）に含めることができる。そのメディアは、たとえば本発明の機能を提供して容易にするためのコンピュータ可読プログラム・コード手段を内部で具体化している。この製品は、コンピュータ・システムの一部として含めることもでき、あるいは別個に販売することもできる。

さらに、マシンによって読み取ることができる少なくとも１つのプログラム・ストレージ・デバイスであって、本発明の機能を実行するためにマシンによって実行可能な命令の少なくとも１つのプログラムを目に見える形で具体化するプログラム・ストレージ・デバイスを提供することができる。

本明細書に記載されている流れ図は、単なる例である。これらの図、あるいはそれらの中に記載されているステップ（またはオペレーション）に対して、本発明の趣旨から逸脱することなく、多くの変形形態が存在することができる。たとえば、これらのステップを異なる順序で実行することもでき、あるいは、ステップを追加、削除、または修正することもできる。これらの変形形態はすべて、特許請求される本発明の一部とみなされる。

本発明に対する好ましい実施形態について説明したが、現在および将来の双方において、添付の特許請求の範囲内に収まるさまざまな改良および機能強化を当業者なら行うことができるということが理解できるであろう。これらの特許請求の範囲は、最初に記載した本発明のための適切な保護を維持するものと解釈すべきである。

本発明のクラスタ化されたコンピュータ・システムの一例を示す図である。図１のクラスタ化されたコンピュータ・システムのノード、クライアント、および通信チャネルを示す図であり、このシステムは、第１レプリカ、第２レプリカ、およびＳバックアップ・レプリカを有する。図２の第１レプリカの障害が検出されるプロセスを示すフローチャートである。図２の現在の第２レプリカの障害が検出されるプロセスを示すフローチャートである。図２のＳバックアップ・レプリカの障害が検出されるプロセスを示すフローチャートである。

符号の説明

１０クラスタ化されたコンピュータ・システム
１２ａクライアント
１２ｎクライアント
１３通信システム
１４通信システム
１６ａノード
１６ｎノード
１８ディスク・バス
２０ａ共有ディスク
２０ｎ共有ディスク
２２第１レプリカ
２３第２レプリカ
２４Ｓバックアップ・レプリカ
２６クラスタ・ソフトウェア

Claims

少なくとも１つのクライアントと、少なくとも１つのノードと、クラスタ・システム上で実行されるプロセスをそれぞれが複製する第１レプリカ、第２レプリカ、および第２バックアップ（Ｓバックアップ）・レプリカとを有する前記クラスタ・システム内でレプリカをバックアップする方法であって、
前記第１レプリカ、前記第２レプリカ、および前記Ｓバックアップ・レプリカのそれぞれに階層を割り当てるステップと、
前記レプリカのうちの１つのレプリカの障害を検出するステップと、
障害の発生している前記１つのレプリカを、より低い階層のレプリカと置き換えるステップと、
影響を受けた階層のうちで最も低い階層を有するレプリカを再生成し、それによって、前記第１レプリカ、前記第２レプリカ、および前記Ｓバックアップ・レプリカを再び確立するステップと
を含む方法。
前記障害の発生したレプリカが前記第１レプリカであり、
前記第２レプリカを用いて前記プロセスの実行を引き継ぐステップと、
前記第２レプリカを用いて保留中のイベントを再生するステップであって、それによって、前記第２レプリカが新たな第１レプリカになる、ステップと、
前記第２レプリカを前記Ｓバックアップ・レプリカと同期させるステップと、
前記Ｓバックアップ・レプリカを新たな第２レプリカとして格上げするステップと
をさらに含む、請求項１に記載の方法。
前記障害の発生したレプリカが前記第２レプリカであり、
前記Ｓバックアップ・レプリカを新たな第２レプリカとして格上げするステップと、
新たなＳバックアップ・レプリカを再構成して始動させるステップと
をさらに含む、請求項１に記載の方法。
前記障害の発生したレプリカが前記Ｓバックアップ・レプリカであり、
前記第２レプリカを、自分自身のコピーを用いて複製するステップであって、それにより、新たなＳバックアップ・レプリカが形成される、ステップ
をさらに含む、請求項１に記載の方法。
前記レプリカによって複製される前記プロセスが、ＡＩＸやＬｉｎｕｘオペレーティング・システムなどの単一のオペレーティング・システム・イメージである、請求項１に記載の方法。
少なくとも１つのクライアントと、
前記クライアントに接続されている少なくとも１つのノードと、
前記クライアントから要求を受信して前記クライアントへ応答を返信するプロセスを実行する第１レプリカと、
前記クライアントから要求を受信して前記第１レプリカを複製する第２レプリカと、
前記第２レプリカと同期させられている第２バックアップ（Ｓバックアップ）・レプリカと
を備え、
前記第１レプリカ、前記第２レプリカ、および前記Ｓバックアップ・レプリカのそれぞれが階層を割り当てられ、
前記レプリカのうちの１つの障害を検出する検出機能部と、
前記障害の発生しているレプリカを、より低い階層のレプリカと置き換える、置き換え機能部と、
影響を受けた階層のうちで最も低い階層を有するレプリカを再生成し、それによって、前記第１レプリカ、前記第２レプリカ、および前記Ｓバックアップ・レプリカを再び確立する、再生成機能部と、
を備える、クラスタ・システム。
少なくとも１つのクライアントと、少なくとも１つのノードと、クラスタ・システム上で実行されるプロセスをそれぞれが複製する第１レプリカ、第２レプリカ、および第２バックアップ（Ｓバックアップ）・レプリカとを有する前記クラスタ・システム内でレプリカをバックアップするために使用することができる、コンピュータ可読メディア上に記録されたコンピュータ・プログラムであって、当該クラスタ・システムに、
前記第１レプリカ、前記第２レプリカ、および前記Ｓバックアップ・レプリカのそれぞれに階層を割り当てるステップと、
前記レプリカのうちの１つのレプリカの障害を検出するステップと、
障害の発生している前記１つのレプリカを、より低い階層のレプリカと置き換えるステップと、
影響を受けた階層のうちで最も低い階層を有するレプリカを再生成し、それによって、前記第１レプリカ、前記第２レプリカ、および前記Ｓバックアップ・レプリカを再び確立するステップと
を実行させるための、コンピュータ・プログラム。