JP2007287183A

JP2007287183A - ホットスタンバイの構造とそのフォールトトレランス方法

Info

Publication number: JP2007287183A
Application number: JP2007205524A
Authority: JP
Inventors: Sz-Te Li; 李斯特; Genso Ko; 洪源宗; Shikiyo Yo; 楊志強
Original assignee: Unisvr Global Information Tech; UNISVR GLOBAL INFORMATION TECHNOLOGY CORP
Current assignee: Unisvr Global Information Tech; UNISVR GLOBAL INFORMATION TECHNOLOGY CORP
Priority date: 2007-06-01
Filing date: 2007-08-07
Publication date: 2007-11-01
Also published as: US20080301489A1; TW200849001A

Abstract

【課題】マルチホットスタンバイのシステムとフォールトトレランス方法を提供する。
【解決手段】本発明のマルチホットスタンバイのシステムとフォールトトレランス方法は、複数の直列バックアップサーバにより、複数のアプリケーションサーバの検出と監視を実行し、バックアップサーバにより並列で全アプリケーションサーバと連接し、その他のバックアップサーバは相互に検出する。アプリケーションサーバエラー時、異常なハートレート信号が検出され、直接連接されるバックアップサーバが直ちにエラーのアプリケーションサーバを代替し、同時に、このバックアップサーバと連接されるもう一つのバックアップサーバは、直ちに元のバックアップサーバの任務を代替して、全アプリケーションサーバの検出と監視を継続する。よって、本システムと方法により、アプリケーションサーバ中のプログラムと任務が中断せず、少ないバックアップサーバで、高フォールトトレランス能力を達成する。
【選択図】図２

Description

本発明は、ホットスタンバイ（hot standby）の構造とそのフォールトトレランス（Fault Tolerance）方法に関し、特に、マルチホットスタンバイのシステムとフォールトトレランス方法に関するものである。

ますます重要になっている情報アプリケーションは、処理能力が強大なコンピュータにより演算、或いは、保存を実行するが、一旦、コンピュータシステムの故障が生じたり、或いは、アプリケーションが停止したりすると、巨大な損失となる。
特に、情報安全を保障し、不断の情報サービスを提供する構造にとって、如何にして、各種重要なアプリケーションの継続運営を保障し、システムの高可用性と高信頼性を達成し、システム全体の連続不断のサービス提供を可能にするかが、情報アプリケーション領域における重要な課題となっており、よって、フォールトトレランスのコンピュータアプリケーションシステムは未来の発展の主要な趨勢となっている。

現行のコンピュータ応用システムのサーバのフォールトトレランス技術は主に三大主流に分けられ、シングルフォールトトレランス（Single Fault Tolerance）技術、デュアルホットスタンバイ（dual hot standby）技術、及び、ロードバランスクラスタ（Load Balance Cluster）技術である。
異なる要求と異なるシステム設計に対し、それぞれ、これらの一般的なフォールトトレランス方法は、同一のコンピュータアプリケーションシステム中に応用され、例えば、図１は公知の大型インターネットマルチメディアシステムを示し、このインターネットマルチメディアシステム１中、一端は中央サーバ１２１〜１２９で、インターネットによりビデオユーザー１０と対話し、フロントエンド装置１８１〜１８９はデジタル・ビデオテープ・レコーダー（DVR）、ビデオサーバ（Video server）、IPカメラ、Ｉ／Oコントローラー、アクセスコントローラー（access controller）等を含み、中央サーバ１２１〜１２９と分配サーバ１４１〜１４９は、ロードバランスクラスタ、或いは、デュアルアクティブ模式によりユーザー１０にサービスを提供する。
よって、ユーザー１０がシステムにサービス請求を提出する時、システムは自動的にユーザー１０が提出したサービスを分配し、対応する中心サーバ１２１〜１２９と分配サーバ１４１〜１４９にサービスを提供させ、予めユーザー１０と中心サーバ１２１〜１２９、分配サーバ１４１〜１４９間の関係を指定する必要がない。
しかし、これらのフロントエンド設備１８１〜１８９にとって、フロントエンド設備１８１〜１８９とアプリケーションサーバ１６１〜１６９間の配置関係は設定後に相対して固定される。
つまり、アプリケーションサーバ１６１〜１６９はこれらのフロントエンド設備１８１〜１８９のビデオ、警報等に対し即時にデータを採集するか、或いは、設備調整方面で、即時性（real time）と時間連続性（time continuous）の関係を考慮しなければならず、且つ、正常な作動状況下で、これらのフロントエンド設備１８１〜１８９と固定のアプリケーションサーバ１６１〜１６９の間の連接関係は浮動式の選択模式よるものではなく、よって、アプリケーションサーバ１６１〜１６９はロードバランスクラスタの模式による作動に不適当であり、また、この種の両端が対外のインターネットサービスシステム中の一端はユーザー１０からであり、故に、ユーザー１０とアプリケーションサーバ１６１〜１６９の一端は浮動方式の連接関係の採用に適するが、アプリケーションサーバ１６１〜１６９のもう一端は、インターネットのフロントエンド設備１８１〜１８９と連接し、よって、アプリケーションサーバ１６１〜１６９はフロントエンド設備１８１〜１８９に対し即時調整を実行する時、浮動方式を利用してアプリケーションサーバ１６１〜１６９を選択する場合、即時のビデオ、或いは、警報は既に失われているので、フロントエンド設備１８１〜１８９と連接するインターネット監視と選択の方法上、アクティブ／スタンバイ(Active/Standby)のデュアルホットスタンバイ方法は、ロードバランスクラスタ、或いは、デュアルアクティブ(Active/Active)の模式より優れ、つまり、本実施例で提供されるシステムと構造は、各アプリケーションサーバ１６１〜１６９が、それぞれバックアップサーバ１７１〜１７９に連接して、対応するアプリケーションサーバに対し検出と監視を実行する。

しかし、シングルフォールトトレランス技術は高価な高可用性（high availability，HA)、或いは、ノンストップ（Non−Stop）の特殊コンピュータホストを採用しなければならないので、全体の構築コストが割に合わず、且つ、高いフォールトトレランス能力を有するために、多くのバックアップホストが必要である。

上述に基づき、本発明はマルチホットスタンバイのシステムとそのフォールトトレランス方法を提供し、上述の問題を解決する。

本発明は、マルチホットスタンバイのシステムとフォールトトレランス方法を提供し、アプリケーションサーバの監視方法中に使用することを目的とする。

本発明は、マルチホットスタンバイのシステムとフォールトトレランス方法を提供し、ハートレート信号の監視方式により監視されるサーバに異常がないかどうかを確認し、更に、バックアップサーバにより進行中のプログラムを継続することをもう一つの目的とする。

上述の目的を達成するため、本発明は、まず、マルチホットスタンバイのシステムを提供し、複数のアプリケーションサーバ、及び、複数のバックアップサーバからなる。
バックアップサーバは、少なくとも一つの第一バックアップサーバと少なくとも一つの第二バックアップサーバを有し、且つ、第一バックアップサーバと第二バックアップサーバの間は直列連接し、第一バックアップサーバにより全てのアプリケーションサーバと連接し、且つ、第二バックアップサーバは第一バックアップサーバと連接する。
これにより、一旦、第一バックアップサーバが、連接するアプリケーションサーバがエラーを生じているのを発見すると、第一バックアップサーバはエラーを生じたアプリケーションサーバを代替し、元はアプリケーションサーバ中で実行される全てのプログラムを第一バックアップサーバ中に転移して、正常な作動を継続できるようにして、中断の問題が発生しない。
また、第二バックアップサーバにより第一バックアップサーバの役割を代替して、全てのアプリケーションサーバの監視を継続する。この他、既に修復されたアプリケーションサーバは第二バックアップサーバとなることができる。

この他、本発明はマルチホットスタンバイシステムのフォールトトレランス方法を提供し、以下の工程からなる。
まず、第一バックアップサーバが少なくとも一つのハートレート信号の異常を検出する。続いて、異常が生じたハートレート信号の径路に基づき、エラーを生じたアプリケーションサーバを探し出す。次に、第一バックアップサーバにより、エラーを生じたアプリケーションサーバを完全に代替する。最後に、第二バックアップサーバに第一バックアップサーバを代替するように命令して、第二バックアップサーバに全てのアプリケーションサーバに対する作動の監視任務を継続して実行させる。

本発明のマルチホットスタンバイのシステムとそのフォールトトレランス方法は、直列されたバックアップサーバをアプリケーションサーバの監視用にするので、全サーバシステムが操作を実行する時、プログラム実行の過程で、即時性と時間連続性を保持する特性を有し、バックアップサーバの設置数量が少ないことにより、高いフォールトトレランス回数にする目的を達成することができる。

インターネットシステムがロードバランスクラスタ、或いは、デュアルアクティブ模式を採用できない状況下で、効果的に構築コストを抑制し、フォールトトレランスの能力を兼具するため、本発明は、マルチホットスタンバイのシステムとフォールトトレランス方法を提供して、これらの問題を解決する。
以下で本発明の実施形態の詳細を図式と共に説明する。

まず、図２は本発明のマルチホットスタンバイのシステムを示す図である。本実施例中、N個のアプリケーションサーバ２６１〜２６９を有し、それぞれ内部のアプリケーションプログラムを実行し、同時に、各アプリケーションサーバ２６１〜２６９は一定のタイミング下で、ハートレート信号を生成してコミュニケーション信号とし、且つ、ハートレート信号の伝送工程中の干渉を減少させるため、各アプリケーションサーバ２６１〜２６９中、ダブルネットワーク設備を装設してハートレート信号の専属ネットセグメントを構築する。
このN個のアプリケーションサーバ２６１〜２６９との連接は第一バックアップサーバ２７１で、並列の連接方式により、この第一バックアップサーバ２７１は、同時に、N個のアプリケーションサーバ２６１〜２６９が生成するハートレート信号を受信して監視と検出を実行する。
少なくとも一つの第二バックアップサーバ２７２〜２７９は直列方式で第一バックアップサーバ２７１と連接し、且つ、第一バックアップサーバ２７１はアプリケーションサーバ２６１〜２６９に対し監視すると同時に、第二バックアップサーバ２７２が同時に、ハートレート信号の検出方式により、連接する第一バックアップサーバ２７１に対し監視と検出を実行する。

図２のシステム構造から分かるように、実際の作動工程は以下のようである。第一バックアップサーバ２７１が第二アプリケーションサーバ２６２が生成するハートレート信号に異常があることを検出した時、例えば、第二アプリケーションサーバ２６２はハートレート信号を第一バックアップサーバ２７１に生成しないか、或いは、第二アプリケーションサーバ２６２が生成するハートレート信号がエラーを検出される等の状況は、第一バックアップサーバ２７１が直ちに第二アプリケーションサーバ２６２と全プログラムのコマンド交換を実行して、元は第二アプリケーションサーバ２６２中で実行されていた全プログラムと任務を直ちに第一バックアップサーバ２７１中に転移させると共に、第一バックアップサーバ２７１により全プログラムと任務の実行を継続させる。
同時に、第一バックアップサーバ２７１に直列された第二バックアップサーバ２７２は、第一バックアップサーバ２７１が生成するハートレート信号を受信しないので、第二バックアップサーバ２７２は直ちに元の第一バックアップサーバ２７１を代替して、第一アプリケーションサーバ２６１、第三アプリケーションサーバ２６３、第四アプリケーションサーバ２６４、第Nアプリケーションサーバ２６９を代替し、及び、第二アプリケーションサーバ２６２を代替する第一バックアップサーバ２７１と連接し、第二バックアップサーバ２７２と連接するもう一つの第二バックアップサーバ２７３は元の第二バックアップサーバ２７２を代替して、検出を継続する。
図２中のマルチホットスタンバイシステムのフォールトトレランス方法は、図３中で示される工程として整理できる。
まず、工程１中、第一バックアップサーバ２７１が異常のハートレート信号を検出する。
続いて、工程２中、第一バックアップサーバ２７１により異常が発生したハートレート信号に基づき、エラーを発生した第二アプリケーションサーバ２６２を探し出す。
続いて、工程３中、第一バックアップサーバ２７１によりエラーを発生した第二アプリケーションサーバ２６２を完全に代替し、元は第二アプリケーションサーバ２６２のプログラムと任務を直ちに第一バックアップサーバ２７１に移転させ、中断現象が発生しない。
最後に、工程４中、第二バックアップサーバ２７２に第一バックアップサーバ２７１を代替するよう命令して、元は第一バックアップサーバ２７１で実行される監視と検出任務を第二バックアップサーバ２７２中で継続して実行させる。

この他、エラーを発生した第二アプリケーションサーバは修復後、第二バックアップサーバとなり、つまり、全体のシステムにとって、一アプリケーションサーバがエラーを発生してももう一つのバックアップサーバにより代替するが、修復後、新たに、エラーを発生したアプリケーションサーバを修復してバックアップ用とする。故に、システム全体はエラーを発生したアプリケーションサーバの増加によりバックアップサーバの負荷を増加することがない。同時に、これらのアプリケーションサーバはもう一つのロードバランスクラスタと連接し、よって、これらのアプリケーションサーバ中に伝送される多くの相同情報の請求に対し、例えば、同一設備に即時情報を取得する状況下で、アプリケーションサービス器により情報をロードバランスメカニズムを有するフロントエンドサーバ（例えば、分配サーバ）に伝送し、フロントエンドサーバからユーザーに伝送して、システム全体の各アプリケーションサーバがロード過重な状況を生じないようにする。

上述は、アプリケーションサーバとバックアップサーバの連接関係と作動を説明し、以下では、本発明が提供するマルチホットスタンバイのシステムを応用した大型インターネットマルチメディアシステムを提供する。
図４は大型インターネットマルチメディアシステムを示す図である。本実施例中、ユーザー２０はインターネットマルチメディアシステム２にビデオサービス請求信号を提供し、インターネットにより、これらの信号をまず複数の中心サーバ２２１〜２２９と分配サーバ２４１〜２４９内に伝送する。
これらの中心サーバ２２１〜２２９と分配サーバ２４１〜２４９は皆、ロードバランスクラスタの模式により、平均的に、各請求サービスの信号を対応する中心サーバ２２１〜２２９、或いは、分配サーバ２４１〜２４９中に分配し、このインターネットマルチメディアシステム２のもう一端はN個のアプリケーションサーバ２６１〜２６９が相似することにより、対応するフロントエンド設備２８１〜２８９と連接され、これらのアプリケーションサーバ２６１〜２６９は同時に、分配サーバ２４１〜２４９とユーザー２０からのサービス請求信号を受信すると共に、これらのサービス請求信号によって、対応するフロントエンド施粒２８１〜２８９を駆動、或いは、起動させる。
全てのアプリケーションサーバ２６１〜２６９はバックアップサーバ２７１と並列で連接され、このバックアップサーバ２７１は、更に、直列で複数のバックアップサーバ２７２〜２７９と連接され、アプリケーションサーバ２６１〜２６９と連接されるバックアップサーバ２７１は、アプリケーションサーバ２６１〜２６９からのハートレート信号の正常か否かを受信して、全てのアプリケーションサーバ２６１〜２６９を検出、並びに、監視し、直列のバックアップサーバ２７１〜２７９は、相互連接のバックアップサーバ２７１〜２７９間のハートレート信号交換により、互いに検出、監視する。
よって、一アプリケーションサーバ２６２が生成するハートレート信号が異常を発生する時、これらのアプリケーションサーバ２６１〜２６９と連接するバックアップサーバ２７１は直ちにエラーを発生したアプリケーションサーバ２６２とコマンドセットの転移を実行して、エラーを発生したアプリケーションサーバ２６２を代替すると共に、その中で実行される全てのプログラムと任務を継続し、元はこのアプリケーションサーバ２７１内で実行されていた全てのプログラムと任務は中断することなく、また、一バックアップサーバ２７１がエラーを発生したアプリケーションサーバ２６２とコマンドセットの転移を実行する時、同時に、異常なハートレート信号を連接するもう一端のバックアップサーバ２７２に発信するので、バックアップサーバ２７１から伝送される異常なハートレート信号を受信した後、このバックアップサーバ２７２は直ぐにバックアップサーバ２７１を代替して、アプリケーションサーバ２６１〜２６９に対し検出と監視を実行する。この時のアプリケーションサーバ２６１〜２６９はバックアップサーバ２７１により代替され、同時に、このバックアップサーバ２７２に直列されるバックアップサーバ２７３は、バックアップサーバ２７２に対し検出と監視を継続する。
この他、上述の中心サーバ２２１〜２２９と分配サーバ２４１〜２４９は、ロードバランス模式により検出を実行する以外に、デュアルアクティブ模式により実行してもよい。

故に、上述から分かるように、本発明のマルチホットスタンバイのシステムとフォールトトレランス方法は、浮動式選択サーバに適合できないシステム中に応用でき、複数の直列されたバックアップサーバ構造により、システム構築コストを減少させ、少ないバックアップサーバ利用の前提下で、多くのフォールトトレランスを負担する目標を達成する。

本発明では好ましい実施例を前述の通り開示したが、これらは決して本発明に限定するものではなく、当該技術を熟知する者なら誰でも、本発明の精神と領域を脱しない範囲内で各種の変動や潤色を加えることができ、従って本発明明の保護範囲は、特許請求の範囲で指定した内容を基準とする。

公知の大型インターネットマルチメディアシステムを示す図である。本発明のマルチホットスタンバイのシステム構造図である。本発明のマルチホットスタンバイのシステムのフォールトトレランス方法のフローチャートである。本発明のマルチホットスタンバイのシステムの大型インターネットマルチメディアシステムの構造図である。

符号の説明

１、２インターネットマルチメディアシステム
１０、２０ユーザー
１２１〜１２９、２２１〜２２９中心サーバ
１４１〜１４９、２４１〜２４９分配サーバ
１６１〜１６９、２６１〜２６９アプリケーションサーバ
１７１〜１７９、２７１〜２７９バックアップサーバ
１８１〜１８９、２８１〜２８９フロントエンド設備

Claims

マルチホットスタンバイのシステムであって、
複数のアプリケーションサーバ、及び、複数のバックアップサーバからなり、
前記バックアップサーバは、直列の方式で相互に連接し、且つ、前記バックアップサーバは、少なくとも一つの第一バックアップサーバと少なくとも一つの第二バックアップサーバからなり、
前記第一バックアップサーバにより全てのアプリケーションサーバと連接して、全てのアプリケーションサーバの作動を監視し、
前記アプリケーションサーバがエラーを発生すると、前記第一バックアップサーバはエラーを生じたアプリケーションサーバを代替し、全てのプログラムを正常に作動させると共に、前記第二バックアップサーバにより前記第一バックアップサーバを代替して、監視を継続することを特徴とするシステム。
前記アプリケーションサーバと前記第一バックアップサーバの間は、ハートレート信号により連接するか、或いは、前記第一バックアップサーバにより、前記アプリケーションサーバか正常か否かを能動的に検出することを特徴とする請求項１に記載のシステム。
前記アプリケーションサーバはアプリケーションソフト、ハートレートソフトを実行することを特徴とする請求項１に記載のシステム。
前記第一バックアップサーバと前記第二バックアップサーバはアプリケーションソフト、ハートレートソフトとホットスタンバイ管理ソフトを実行することを特徴とする請求項１に記載のシステム。
エラーを発生した前記アプリケーションサーバは修復後、更に、前記第二バックアップサーバとなることを特徴とする請求項１に記載のシステム。
前記アプリケーションサーバはロードバランスサーバシステムと連接することを特徴とする請求項１に記載のシステム。
前記ロードバランスサーバシステムは少なくとも一ユーザーの請求を受信して、前記アプリケーションサーバの作動を制御することを特徴とする請求項６に記載のシステム。
前記アプリケーションシステムは、インターネットにより複数の設備を接続することを特徴とする請求項１に記載のシステム。
前記第一バックアップサーバは一対一の関係で、前記アプリケーションサーバに対し監視を実行することを特徴とする請求項１に記載のシステム。
前記第一バックアップサーバは一対多の関係で、前記アプリケーションサーバに対し監視を実行することを特徴とする請求項１に記載のシステム。
前記第一バックアップサーバと前記第二バックアップサーバの間は互いに監視することを特徴とする請求項１に記載のシステム。
マルチホットスタンバイのフォールトトレランス方法であって、
少なくとも一つのハートレート信号の異常を検出する工程と、
少なくとも一つの第一バックアップサーバにより、異常が生じたハートレート信号の径路に基づき、エラーを生じたアプリケーションサーバを探し出す工程と、
前記第一バックアップサーバにより、エラーを生じたアプリケーションサーバの作動を完全に代替する工程と、
少なくとも一つの第二バックアップサーバに前記第一バックアップサーバを代替するように命令して、前記第二バックアップサーバに監視任務を継続して実行させる工程と、
からなることを特徴とする方法。
少なくとも一つのハートレート信号の異常現象は、前記ハートレート信号を受信できない状況を含むことを特徴とする請求項１２に記載の方法。
前記第一バックアップサーバによりエラーを発生した前記アプリケーションサーバを完全に代替する作動方法は、前記第一バックアップサーバにより代替プログラムを実行して実現することを特徴とする請求項１２に記載の方法。
前記第一バックアップサーバによりエラーを生じた前記アプリケーションサーバを完全に代替する方法は、前記第一バックアップサーバと前記アプリケーションサーバ間でコマンド交換することにより実現し、交換を実行するコマンドは、アプリケーションソフト、ハートレートソフト、データベース、IPアドレス、インターネット設定を含むことを特徴とする請求項１２に記載の方法。
少なくとも一つの前記第一バックアップサーバにより、エラーを発生した前記ハートレート信号に基づいてエラーを発生した前記アプリケーションサーバを探し出す工程後、更に、エラーを発生した前記アプリケーションサーバに対し修復を実行することを特徴とする請求項１２に記載の方法。
エラーを発生した前記アプリケーションサーバに対し修復を実行する工程終了後、修復された前記アプリケーションサーバは更にホットスタンバイ監視用になることを特徴とする請求項１６に記載の方法。