JP2005535241A

JP2005535241A - マルチコンピュータ・アーキテクチャにおけるアプリケーション・ソフトウェアの移動方法、前記移動方法を用いて作動の連続性を実現するマルチコンピュータ方法および装置

Info

Publication number: JP2005535241A
Application number: JP2004526955A
Authority: JP
Inventors: ベルト、マルク; デュフール、ローラン
Original assignee: メイオシス
Priority date: 2002-08-02
Filing date: 2003-07-28
Publication date: 2005-11-17
Also published as: US7577720B2; AU2003273482A8; EP1535126A2; WO2004015513A2; FR2843210A1; AU2003273482A1; EP1535126B1; CA2493300A1; WO2004015513A3; US20050262411A1; FR2843210B1

Abstract

マルチコンピュータ・アーキテクチャ（クラスター）において、前記クラスターのうち最初のアプリケーション・ソフトウェアが実行されている第１のコンピュータを有する第１のノード（プライマリ・ノード又はオペレーショナル・ノード）から、前記クラスターの他のコンピュータを有する少なくとも１つの第２のノードへ向かって、接続の移動を行う方法。この方法は第１コンピュータが担持し他のコンピュータへ移送される仮想ネットワークアドレスを使用し、この仮想ネットワークアドレスは、クラスターとそれに接続されたクライエント・コンピュータ（アプリケーション・ソフトウェアによって連携せられている）との間のダイアログリンクとして設けられる。連携接続は、例えば、最初のアプリケーションのサービスをそのレプリカの方へ切り換えるのを可能にするべく、他のコンピュータ上に複製されるようになったアプリケーション・ソフトウェアに連携させることができる。

Description

本発明は、マルチコンピュータ・アーキテクチャにおいて接続の移動（マイグレーション）を行う方法に関する。本発明は、また、この移動方法を使用して、マルチコンピュータ・アーキテクチャ（クラスター）において、アプリケーション・ソフトウェアの作動の連続性を実現する方法、並びに、この作動の連続性の方法を実行するマルチコンピュータ装置に関する。

本発明の分野は、互いに協働する複数のコンピュータで構成されたコンピュータクラスターの分野である。これらのクラスターは例えばアプリケーションソフトウェアを実行するために使用される。即ち、所与の瞬間において、アプリケーションはクラスターの複数のコンピュータのうちプライマリノード又はオペレーショナルノード（OP）と呼ばれる１つのコンピュータで実行され、冗長アーキテクチャの文脈においては、クラスターの他のコンピュータは二次的ノード又はスタンドバイ・ノード（SB）と呼ばれる。

ところが、このようなクラスターの作動には、材料又は開発システムの欠陥や、人的な誤りや、アプリケーション自体の欠陥に起因する信頼性の問題がある。

これらの信頼性の問題を解決するため、現在、今日の大部分のクラスターで使用されている高利用性と呼ばれるメカニズムがあり、これはクラスターの二次的ノードのいづれかのバックアップノード上でのアプリケーションの冷間自動リスタートに立脚している。

ところが、自動リスタートに立脚するこれらのメカニズムは、欠陥時に実行中のアプリケーションが提供するサービスの完全な連続性を保障することを可能にするものではない。

特に、クラスターの２つのコンピュータの間でサービスを切換える時には、ネットワークの接続の移動（マイグレーション）という解決しなければならない複雑な問題がある。

本発明の第１の目的は、マルチコンピュータ・アーキテクチャ（クラスター）において、前記クラスターのうち最初のアプリケーション・ソフトウェアが実行されている第１のコンピュータを有する、プライマリ・ノードと称する、第１のノードから、前記クラスターの他のコンピュータを有する少なくとも１つの第２のノードへ向かって、接続の移動を行う方法を提供することにより、この問題を解決することである。

この第１の目的は、前記第１コンピュータが担持しかつ前記他のコンピュータへ移送される仮想ネットワークアドレスを使用する移動方法によって達成されるもので、前記仮想ネットワークアドレスは、クラスターと、当該クラスターに接続されアプリケーション・ソフトウェアによって連携せられている、クライエント・コンピュータとの間のダイアログ・リンクとして設けられる。

好ましい実施態様においては、クライエントから来るメッセージはクラスターのネットワークレイヤーによって考慮される前に獲得される。特に、この移動方法がTCP/IPプロトコルのコンテキストで実施される場合には、メッセージの獲得は“IPテーブル”のところで行われる。

接続移動は、また、フォールト許容範囲を超えて、ネットワークの移動性に適用することができる：即ち、携帯用コンピュータ又は他のモバイル通信装置をアプリケーション・コンテキストと接続を失うことなく１つの物理的ネットワークから他のネットワークへ再接続すること。これに対し、既存の解決手段は本発明の移動方法では必要ない中間サーバーを使用している。

接続移動についての従前の研究に対し、本発明の方法は以下のような利点を有する：
−通信プロトコルTCPが呈する制約にも拘わらず、通信プロトコルTCPの修正を要しない、
−その結果、この方法の実施中に遠隔マシンは全くインパクトを受けない、
−接続移動の実施はオペレーション・システムの修正を要せず、ただ単に独立したダイナミック・コアモジュールのローディングを要するだけである。

“ソケットIP-UDP”レイヤーに基づく通信プロトコルは、また、それらの特性（例：オーディオ／ビデオ・ストリーミング・プロトコル）が如何様であろうとも、自動的に考慮される。

重要なことに、本発明の移動方法は、複数の二次的又はスタンバイ・ノードを考慮することができ、従って、マルチスケール効果（スケーラビリティー）が得られる。

本発明の移動方法は、好ましくは、但し非限定的に、最初のアプリケーションのサービスをそのレプリカの方へ切り換えるのを可能にするべく、少なくとも１つの他のコンピュータ上に複製されるようになったアプリケーション・ソフトウェアに連携された接続移動のために実施される。

本発明の接続移動方法は、また、１つのマシンから他のマシンへの切換えの状況又はアプリケーション・ソフトウェアの複製（レプリカ）の状況とは独立に、完全に自律的に行うことができる。

即ち、本発明の方法は、プロセスのダイナミック分配による負荷シェアリングによるデータ処理リソースの最適化に応用することができる。この移動方法は、また、データ処理リソースのネットワーク上の要求によるプロセス・リロケーションによるノン・インタラプティブ・メンテナンス、又は、モバイル・アプリケーションにおけるアプリケーション・コンテキストの保存に応用することができる。

本発明の他の目的は、マルチコンピュータ・アーキテクチャ（クラスター）においてアプリケーション・ソフトウェアの作動の連続性を実現する方法を提供することにあり、前記アプリケーションは所与の瞬間には前記クラスターのコンピュータのうち主ノードと称する１つのコンピュータ上で実行され、前記クラスターのうちの他のコンピュータは二次的ノードと称され、この方法は本発明の移動方法を使用する。

上記他の目的は、以下の段階を包含する方法によって達成される：
−少なくとも１つの二次的ノードの上でのアプリケーションの少なくとも１つのクローンのアップデート、
−欠陥又は前記主ノードに影響する出来事を検出したときに、前記クローンの少なくとも１つの方へのサービスの切り換え、
−ネットワーク接続の移動。

こうして、本発明の移動方法によれば、ネットワーク接続の移動のお陰で、アプリケーションと通信する外部世界にとって透明なクローンの方へサービスを切換えることができる。

更に、本発明の移動方法で実施する接続移動メカニズムはアプリケーションのソースコードの修正を伴わないので、従来技術の移動方法とは異なりアプリケーションに対して非侵入的である。

本発明の作動の連続性の方法で使用するクローンはいわゆる“ホット”であり、即ち、それらはアプリケーションおよびそのオペレーショナル・コンテキストの正確なレプリカである。それらは規則的に（周期的に又は特徴的な出来事に応じて）アップデートされる。これらのクローンはアプリケーションがそのサービスを提供するに必要なあらゆるリソースと情報をもっている。

本発明の作動の連続性の方法はアプリケーションの作動に必要なリソースの状態を監視することを更に可能にする。いづれかのリソースが不可逆的に劣化したことが検出された場合には、本発明の作動の連続性の方法は１つのクローンを新たな一次クローンとして選択し、交代するようそれに命令する。

この選択は切換え（スイッチング）と呼ばれ、アプリケーションと通信する残部の世界にとって透明である：即ち、プライマリノードが稼働していなくても、アプリケーションが提供するサービスは、あらゆる意味において選択されたクローンによって交代されるので、中断されない。

従って、プライマリ・ノードによるにしろ（切換え前）、クローンによるにしろ（切換え後）、残部の世界によってアプリケーションに送信された全てのメッセージが処理されることを保障することができる。このため、本発明の作動の連続性の方法は、更に、クローンの最後のアップデート以降にプライマリノードが受信したメッセージの各クローンを（周期的クローン作成メカニズムに加えて）登録する段階を包含する。これらのメッセージは切換えの場合には新たな選ばれた一次クローン内に再注入される。

ホリスチックなレプリカ作成は、完全であるためには、例えば保護すべきアプリケーションと外部世界（そのクライエント）との接続性を管理するために使用するプロトコルスタックの状態のように、“コア”リソースの複製を含む。

本発明の移動方法によって得られる重要な利点は、一次側から二次側へのアプリケーションサービスの切換えをアプリケーションのクライエントのために透明にすることである。技術的には、これは、クライエントがその一次側での作動時にアプリケーションと定立した接続は、クローンの方へ送信（移動）されなければならず、かつ、切換え時に遮断されてはならないことを意味する。この要請は些細なものではない。何故ならば、本発明の作動の連続性の方法が関連するアプリケーションにとっては、外部世界（クライエント）は基本的にTCP/IP接続（アプリケーションとクライエントが居住する物理的マシンに“アタッチ”されたポイント・ツー・ポイント・プロトコル）を介してアプリケーションと通信するからである。

本発明の作動の連続性の方法は、プロトコルスタックの状態、並びに、登録／リプレー・システム（これは、切換え後に、プライマリノードが受信したメッセージを切換え前に、但しクローンによって考慮される前に、再注入するのを可能にする）をレプリカ複製するメカニズムを実施することにより、この問題を解決する。

オペレーティング・システムのコア内におけるスタックの状態はプライマリマシン上で周期的に内省（分析と獲得）され、この状態はホリスチックなチェックポイントと共に移送され、二次ノード上に復活される。

平行に、主ノードが受信した全てのメッセージは最下レベルで（プライマリノード上のアプリケーションに引き渡す前に）遮断され、二次ノードで登録するべく移送される。二次ノードではこれらのメッセージは、受信した最後のチェックポイント以降、バックアップされる。

切換えをする場合には、選ばれた二次ノードはその最後のチェックポイントからアプリケーションを回しながら交代する（このチェックポイントは、二次ノードによって周期的に受信されるので、切換え時にはアプリケーションに対して僅かに過去にある）。

このクローンを現在の状態（即ち、切換え時のアプリケーションの状態）に持ち来すため、登録されたメッセージは再注入される。次いで、それらをリプレーしながら、新たな一次クローンが切換え時のアプリケーションの状態に達する。このリプレーの間は、外部世界との通信は閉鎖される。このリプレーの間にクライエントから新たなメッセージを受信したならば、それらは拒絶されるが、切断はしない。この拒絶はプロトコルによって管理（フローコントロール）され、クライエントによってネットワーク又はサービスのスローダウンとして見られるであろう。

留意すべきことに、リプレーは物理的レベルとは独立にネットワーク・インターフェースのドライバの受信キューへのメッセージ注入チャンネルを特別に付加する必要を生じさせ、フレーム送信システムは物理的インターフェースへの再ルーピング（入出力の半二重）を可能にしない。

リプレーが終わると、クローンは正確に切り換え前のアプリケーションの状態にあり、外部世界との通信を再開しながら交代する。

留意すべきことに、ある種のコンフィギュレーションにおいては、かつ、必要とする目的に応じて、リプレーを実施することなく、クローンに対するホットスイッチング政策を用いることができる。このようなリカバリーのやり方のインパクトは次のとおりである：
−進行中の接続の切断、従って、アクティブセッションに接続されたクライエントにとっては、リプレーによって提供されるものより低い保護レベル、
−即時の（新たなメッセージを遅延させるリプレー時間のない）ホットリカバリー（保存されたアプリケーション・コンテキスト）、従って、新たなクライエントのより迅速な受理を伴う名目的サービスのより迅速な再定立。

リカバリー政策のいづれかの実施は適合可能なパラメータである。

留意すべきことに、本発明の移動方法を実施するため、好ましくは、2002年8月2日公開の公開特許出願FR2820221に記載された非侵入的ダイナミック・ソフトウェア・エンジニアリング技術を利用することができる。これらのソフトウェア・エンジニアリング技術は、本発明の作動の連続性を実現する方法をアプリケーションに対して透明（従って、ジェネリック）にするべく、二値表示（実行可能）においてアプリケーションを操作するのを可能にする。

本発明の他の観点によれば、本発明は、本発明の作動の連続性を実現する方法を実施しながら、少なくとも複数のコンピュータ上で少なくとも１つのアプリケーション・ソフトウェアを実行するためのマルチコンピュータ装置を提供する。

本発明の他の利点や特徴は非限定的な実施例の説明および添付図面から明らかとなろう。

次に、図面を参照しながら、本発明の移動（マイグレーション）方法で実施するネットワーク接続の移動メカニズムの動作を説明する。

接続の移動は仮想ネットワークアドレス（即ち、クラスターの仮想アドレス）に立脚している。このアドレスはオペレーショナル・アプリケーションを備えたマシンに担持されている。このアドレスは切換え（スイッチ）時にはマシンSBの方へ移送される。クライエントはこの仮想アドレス上で対話（ダイアログ）をしながらクラスター化されたアプリケーションをアドレスしなければならない。

メッセージの検出はネットワーク・レイヤーによって考慮される前に行われる。TCP/IP上では、この検出は可搬性を保障する“IPテーブル”のところで行われる。

クラスターに付与された仮想IPアドレス上で受け取ったメッセージは信頼性のあるマルチキャスト（複数相手方向の同時拡散）型チャンネル上のマシンSBの方へ発信され、後者はパケット送信を行う。全てのマシンSBがメッセージを受け取ると、メッセージはオペレーショナル・ノードOPのネットワーク・レイヤーへ発信される。さもないと、メッセージは削除される（遠隔ノードの通信レイヤーが再発信を行う）。

このメカニズムはオペレーショナル・ノードOP上で考慮した時に１つのメッセージを１つのマシンSB上でリプレーすることができることを保障するのを可能にする。“IPテーブル”フィルターはクラスターの仮想アドレスに関するメッセージにしか関心をもたないことを可能にする。

コピー（ダンプ）の際には、コピー（ダンプ）マークをマシンSBへ送って、ジャーナル（ログ）内でコピーを日付する。従って、切換え（スイッチ）時にどのパケットからリプレーを始めなければならないかが分かる。

“IPテーブル”モジュールはダイナミックに負荷を課されるTCP/IPレイヤーから独立したコアモジュールである。クラスター上でも遠隔マシン上でもTCP/IPスタックの修正は全く必要ない。

上位システムコールgetsockoptおよびsetsockoptはドライバを介して以下のソケット（socket）パラメータを獲得／修正するべく拡張されている：
−ローカルポートおよび遠隔ポート、
−ローカルおよび遠隔参照番号、
−発信すべき待機中の次のパケットの番号、
−発信および受信時計（タイマー）、
−ウインドーサイズ、
等。

ソケットの状態のバックアップは、発信待機中のパケット（送信キュー）、通過中のもの（発信されたが請書が未だのもの）、および受信されたが未だアプリケーションによって読まれていないパケット（受信ファイル：受信キュー）、のリストをも考慮する。

バックアップはログマークを発信した後のダンプの際の手続きで行われる。このメカニズムは全てのパケットがリプレーされるのを保障する。もしログマークの発信とソケットの状態の獲得との間に１つのパケットを受信したならば、このパケットは切換え（スイッチング）の際に通信レイヤーによって自動的に無視される。この処理は通信レイヤーの基本である。

システムコールgetsockoptおよびsetsockoptの拡張はダイナミックにロードされるコアモジュールによって行われ、後者はコアのソースコードの修正を全く必要としない。

図１を参照するに、本発明の接続移動（マイグレーション）方法は複数マシンからなるクラスターのための作動の連続性の方法の中に直接に統合される。このシステムは、監視および欠陥検出と、プロセス移動メカニズム（チェックポイント・メカニズムを含む）と、本発明の接続移動メカニズムと、リソースシステムの管理を実行する。この作動の連続性方法は、また、リソース内省機能と、ファイルシステムの複製メカニズムと、出来事のジャーナルの編集およびアップデート・メカニズムと、リプレー・メカニズムを含む。

次に、本発明の移動方法におけるネットワーク接続の移動で実施する切換え（スイッチング）メカニズムを説明する。

１つのマシンSBがオペレーショナル・ノードOPになった時には、新たなオペレーショナル・ノードOP上に仮想アドレスIPが生成されるが、フィルタールールはプレーの段階の間に外部からのあらゆるメッセージの到着を禁止する。プレーが終わると、フィルタールールは複数のマシンSBへメッセージを発送するべく修正される。

メッセージが遠隔サイトによって発信された場合には、それらのメッセージは新たなマシンOPへの到達時に破壊され、遠隔レイヤーによって“タイムアウト”上に再発信されるであろう。このメカニズムは通信レイヤーの基本の一である。

ソケット（通信レイヤー）の再生成は２段階に行われる：
−リプレーの前にはループバック（仮想記憶装置）の方へ、
−リプレーの後には再接続しながら外部の方へ。

リプレーの前には、ソケットはループバックに接続され、後者は最後の復活以降に登録されたパケットを再注入（リインジェクト）するのを可能にする。

前回のコピー（ダンプ）の際にバックアップされたソケットのパラメータは、拡張されたコールsetsockoptを介して復活される。

最後の復活以降に登録されたパケットは、恰も遠隔装置（クライエント）から直接受信されたかのように、通信レイヤーの方へ送られる。通信レイヤーによって伝送されたメッセージは遠隔側を乱さないよう自動的に破壊される。

リプレーが終わると、ソケットの状態は切換え前のオペレーショナル・ノードOP上の状態に対応する。そこで、遠隔側と対話を再開することが可能である。この再開は遠隔のアドレスに関するパラメータ“ソケット”を修正すること、および、クラスターの仮想アドレス上へのメッセージの出入りを許可するべくフィルタールールを修正することにより行われる。そうすれば対話は通常に復帰する。

本発明の接続移動方法は、チェックポイント・メカニズムがアクティブにしてあり、周期的インクリメント的なコピーが生成されるような、図２に示したようなオペレーショナルサーバーとミラーサーバーとの間の相互作用の枠内で実施することができる。

図３を参照するに、本発明の作動の連続性の方法を実施するため、１つのクラスターのオペレーショナル・ノードとそのクラスターの他の１以上の二次的ノードとの間で、情報管理ベースMIBを内省・監視ドライバおよびクラスター制御によってアクセスする。このMIBベースは、復活およびチェックポイント、切換えの決定、切換えの編成のような種々の機能について、オペレーショナル・ノードおよびバックアップ・ノードに対するクラスターの管理に関与する。MINベースによって供給される監視の管理は、グラフィック・ユーザー・インターフェースGUIとの関連において、制御機能およびMIB合成機能を保障する。

勿論、本発明は前述した実施例に限定されるものではなく、本発明の範囲を逸脱することなくこれらの実施例に種々の変更を加えることができる。

図１は作動の連続性の方法における本発明の移動方法の実施例を模式的に示す。図２は本発明の作動の連続性の方法で使用するチェックポイント・メカニズムを模式的に示す。図３は本発明のマルチコンピュータ・システム（クラスター）のノードに実行する監視・監督機能を模式的に示す。

Claims

マルチコンピュータ・アーキテクチャ（クラスター）において、前記クラスターのうち最初のアプリケーション・ソフトウェアが実行されている第１のコンピュータを有する、プライマリ・ノードと称する、第１のノードから、前記クラスターの他のコンピュータを有する少なくとも１つの第２のノードへ向かって、接続の移動を行う方法であって、この方法は、前記第１コンピュータが担持し前記他のコンピュータへ移送される仮想ネットワークアドレスを使用し、前記仮想ネットワークアドレスは、クラスターと、当該クラスターに接続されアプリケーション・ソフトウェアによって連携せられている、クライエント・コンピュータとの間のダイアログ・リンクとして設けられることを特徴とする方法。
前記接続は、最初のアプリケーションのサービスをそのレプリカの方へ切り換えるのを可能にするべく、少なくとも１つの他のコンピュータ上に複製されるようになったアプリケーション・ソフトウェアに連携されている請求項１に基づく移動方法。
クライエントから来るメッセージはクラスターのネットワーク・レイヤーによって考慮される前に獲得される請求項１又は２に基づく移動方法。
メッセージの獲得は“IPテーブル”のところで行われることを特徴とする、TCP/IPプロトコルで実施される、請求項３に基づく移動方法。
仮想ネットワークアドレス上で受信したメッセージはマルチキャスト型チャンネル上の第２のコンピュータに向けて発信されることを特徴とする前記請求項のいづれかに基づく移動方法。
拡張された上位システムコールを介して、“ソケット”パラメータを獲得および修正することからなる請求項４又は５に基づく移動方法。
獲得され修正された“ソケット”パラメータは以下のパラメータの少なくとも１つを含む請求項６に基づく移動方法：
−ローカルポートおよび遠隔ポート、
−ローカルおよび遠隔参照番号、
−発信すべき待機中の次のパケットの番号、
−発信および受信時計（タイマー）、
−ウインドーサイズ。
発信待機中のパケット、通過中のパケット、および受信されたが未だアプリケーションによって読まれていないパケット、のリストのバックアップを更に行うことを特徴とする請求項７に基づく移動方法。
マルチコンピュータ・アーキテクチャ（クラスター）においてアプリケーション・ソフトウェアの作動の連続性を実現する方法であって、前記アプリケーションは所与の瞬間には前記クラスターのコンピュータのうち主ノードと称する１つのコンピュータ上で実行され、前記クラスターのうちの他のコンピュータは二次的ノードと称され、この方法は前記請求項のいづれかに基づく移動方法を実施し、この方法は以下の段階を包含することを特徴とする方法：
−少なくとも１つの二次的ノードの上でのアプリケーションの少なくとも１つのクローンのアップデート、
−欠陥又は前記主ノードに影響する出来事を検出したときに、前記クローンの少なくとも１つの方へのサービスの切り換え、
−ネットワーク接続の移動。
アプリケーションのクローンのアップデートを更に包含することを特徴とする請求項９に基づく作動の連続性の方法。
アプリケーションのクローンのアップデートは周期的であることを特徴とする請求項１０に基づく作動の連続性の方法。
アプリケーションのクローンのアップデートは一若しくは複数の特徴的な出来事によってトリッガされることを特徴とする請求項１２又は１１に基づく作動の連続性の方法。
アプリケーションの作動に必要なリソースの状態の監視を更に包含することを特徴とする請求項９から１２のいづれかに基づく作動の連続性の方法。
欠陥又は主ノードに影響する出来事を検出した後に、二次的ノードにインストールした複数のクローンのうちで最初のアプリケーションと置換されるべきクローンを選択する段階を更に包含し、選択されたクローンがインストールされているノードは新たな主ノードになることを特徴とする請求項９から１３のいづれかに基づく作動の連続性の方法。
主ノードが受信したメッセージの各クローンを登録する段階を更に包含し、これらのメッセージは切換えの場合には新たな選ばれた一次クローン内に再注入されることを特徴とする請求項９から１４のいづれかに基づく作動の連続性の方法。
請求項９から１５のいづれかに基づく作動の連続性を実現する方法を実施しながら、少なくとも前記コンピュータ上で少なくとも１つのアプリケーション・ソフトウェアを実行するためのマルチコンピュータ装置。
請求項１から８のいづれかに基づく接続移動方法を、プロセスのダイナミック分配による負荷シェアリングによるデータ処理リソースの最適化に応用すること。
請求項１から８のいづれかに基づく接続移動方法を、データ処理リソースのネットワーク上の要求によるプロセス・リロケーションによるノン・インタラプティブ・メンテナンスに応用すること。
請求項１から８のいづれかに基づく接続移動方法を、モバイル・アプリケーションにおけるアプリケーション・コンテキストの保存に応用すること。