JP2007287183A - ホットスタンバイの構造とそのフォールトトレランス方法 - Google Patents
ホットスタンバイの構造とそのフォールトトレランス方法 Download PDFInfo
- Publication number
- JP2007287183A JP2007287183A JP2007205524A JP2007205524A JP2007287183A JP 2007287183 A JP2007287183 A JP 2007287183A JP 2007205524 A JP2007205524 A JP 2007205524A JP 2007205524 A JP2007205524 A JP 2007205524A JP 2007287183 A JP2007287183 A JP 2007287183A
- Authority
- JP
- Japan
- Prior art keywords
- server
- application
- backup
- backup server
- servers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2041—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with more than one idle spare processing component
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/203—Failover techniques using migration
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Hardware Redundancy (AREA)
Abstract
【課題】マルチホットスタンバイのシステムとフォールトトレランス方法を提供する。
【解決手段】本発明のマルチホットスタンバイのシステムとフォールトトレランス方法は、複数の直列バックアップサーバにより、複数のアプリケーションサーバの検出と監視を実行し、バックアップサーバにより並列で全アプリケーションサーバと連接し、その他のバックアップサーバは相互に検出する。アプリケーションサーバエラー時、異常なハートレート信号が検出され、直接連接されるバックアップサーバが直ちにエラーのアプリケーションサーバを代替し、同時に、このバックアップサーバと連接されるもう一つのバックアップサーバは、直ちに元のバックアップサーバの任務を代替して、全アプリケーションサーバの検出と監視を継続する。よって、本システムと方法により、アプリケーションサーバ中のプログラムと任務が中断せず、少ないバックアップサーバで、高フォールトトレランス能力を達成する。
【選択図】図2
【解決手段】本発明のマルチホットスタンバイのシステムとフォールトトレランス方法は、複数の直列バックアップサーバにより、複数のアプリケーションサーバの検出と監視を実行し、バックアップサーバにより並列で全アプリケーションサーバと連接し、その他のバックアップサーバは相互に検出する。アプリケーションサーバエラー時、異常なハートレート信号が検出され、直接連接されるバックアップサーバが直ちにエラーのアプリケーションサーバを代替し、同時に、このバックアップサーバと連接されるもう一つのバックアップサーバは、直ちに元のバックアップサーバの任務を代替して、全アプリケーションサーバの検出と監視を継続する。よって、本システムと方法により、アプリケーションサーバ中のプログラムと任務が中断せず、少ないバックアップサーバで、高フォールトトレランス能力を達成する。
【選択図】図2
Description
本発明は、ホットスタンバイ(hot standby)の構造とそのフォールトトレランス(Fault Tolerance)方法に関し、特に、マルチホットスタンバイのシステムとフォールトトレランス方法に関するものである。
ますます重要になっている情報アプリケーションは、処理能力が強大なコンピュータにより演算、或いは、保存を実行するが、一旦、コンピュータシステムの故障が生じたり、或いは、アプリケーションが停止したりすると、巨大な損失となる。
特に、情報安全を保障し、不断の情報サービスを提供する構造にとって、如何にして、各種重要なアプリケーションの継続運営を保障し、システムの高可用性と高信頼性を達成し、システム全体の連続不断のサービス提供を可能にするかが、情報アプリケーション領域における重要な課題となっており、よって、フォールトトレランスのコンピュータアプリケーションシステムは未来の発展の主要な趨勢となっている。
特に、情報安全を保障し、不断の情報サービスを提供する構造にとって、如何にして、各種重要なアプリケーションの継続運営を保障し、システムの高可用性と高信頼性を達成し、システム全体の連続不断のサービス提供を可能にするかが、情報アプリケーション領域における重要な課題となっており、よって、フォールトトレランスのコンピュータアプリケーションシステムは未来の発展の主要な趨勢となっている。
現行のコンピュータ応用システムのサーバのフォールトトレランス技術は主に三大主流に分けられ、シングルフォールトトレランス(Single Fault Tolerance)技術、デュアルホットスタンバイ(dual hot standby)技術、及び、ロードバランスクラスタ(Load Balance Cluster)技術である。
異なる要求と異なるシステム設計に対し、それぞれ、これらの一般的なフォールトトレランス方法は、同一のコンピュータアプリケーションシステム中に応用され、例えば、図1は公知の大型インターネットマルチメディアシステムを示し、このインターネットマルチメディアシステム1中、一端は中央サーバ121〜129で、インターネットによりビデオユーザー10と対話し、フロントエンド装置181〜189はデジタル・ビデオテープ・レコーダー(DVR)、ビデオサーバ(Video server)、IPカメラ、I/Oコントローラー、アクセスコントローラー(access controller)等を含み、中央サーバ121〜129と分配サーバ141〜149は、ロードバランスクラスタ、或いは、デュアルアクティブ模式によりユーザー10にサービスを提供する。
よって、ユーザー10がシステムにサービス請求を提出する時、システムは自動的にユーザー10が提出したサービスを分配し、対応する中心サーバ121〜129と分配サーバ141〜149にサービスを提供させ、予めユーザー10と中心サーバ121〜129、分配サーバ141〜149間の関係を指定する必要がない。
しかし、これらのフロントエンド設備181〜189にとって、フロントエンド設備181〜189とアプリケーションサーバ161〜169間の配置関係は設定後に相対して固定される。
つまり、アプリケーションサーバ161〜169はこれらのフロントエンド設備181〜189のビデオ、警報等に対し即時にデータを採集するか、或いは、設備調整方面で、即時性(real time)と時間連続性(time continuous)の関係を考慮しなければならず、且つ、正常な作動状況下で、これらのフロントエンド設備181〜189と固定のアプリケーションサーバ161〜169の間の連接関係は浮動式の選択模式よるものではなく、よって、アプリケーションサーバ161〜169はロードバランスクラスタの模式による作動に不適当であり、また、この種の両端が対外のインターネットサービスシステム中の一端はユーザー10からであり、故に、ユーザー10とアプリケーションサーバ161〜169の一端は浮動方式の連接関係の採用に適するが、アプリケーションサーバ161〜169のもう一端は、インターネットのフロントエンド設備181〜189と連接し、よって、アプリケーションサーバ161〜169はフロントエンド設備181〜189に対し即時調整を実行する時、浮動方式を利用してアプリケーションサーバ161〜169を選択する場合、即時のビデオ、或いは、警報は既に失われているので、フロントエンド設備181〜189と連接するインターネット監視と選択の方法上、アクティブ/スタンバイ(Active/Standby)のデュアルホットスタンバイ方法は、ロードバランスクラスタ、或いは、デュアルアクティブ(Active/Active)の模式より優れ、つまり、本実施例で提供されるシステムと構造は、各アプリケーションサーバ161〜169が、それぞれバックアップサーバ171〜179に連接して、対応するアプリケーションサーバに対し検出と監視を実行する。
異なる要求と異なるシステム設計に対し、それぞれ、これらの一般的なフォールトトレランス方法は、同一のコンピュータアプリケーションシステム中に応用され、例えば、図1は公知の大型インターネットマルチメディアシステムを示し、このインターネットマルチメディアシステム1中、一端は中央サーバ121〜129で、インターネットによりビデオユーザー10と対話し、フロントエンド装置181〜189はデジタル・ビデオテープ・レコーダー(DVR)、ビデオサーバ(Video server)、IPカメラ、I/Oコントローラー、アクセスコントローラー(access controller)等を含み、中央サーバ121〜129と分配サーバ141〜149は、ロードバランスクラスタ、或いは、デュアルアクティブ模式によりユーザー10にサービスを提供する。
よって、ユーザー10がシステムにサービス請求を提出する時、システムは自動的にユーザー10が提出したサービスを分配し、対応する中心サーバ121〜129と分配サーバ141〜149にサービスを提供させ、予めユーザー10と中心サーバ121〜129、分配サーバ141〜149間の関係を指定する必要がない。
しかし、これらのフロントエンド設備181〜189にとって、フロントエンド設備181〜189とアプリケーションサーバ161〜169間の配置関係は設定後に相対して固定される。
つまり、アプリケーションサーバ161〜169はこれらのフロントエンド設備181〜189のビデオ、警報等に対し即時にデータを採集するか、或いは、設備調整方面で、即時性(real time)と時間連続性(time continuous)の関係を考慮しなければならず、且つ、正常な作動状況下で、これらのフロントエンド設備181〜189と固定のアプリケーションサーバ161〜169の間の連接関係は浮動式の選択模式よるものではなく、よって、アプリケーションサーバ161〜169はロードバランスクラスタの模式による作動に不適当であり、また、この種の両端が対外のインターネットサービスシステム中の一端はユーザー10からであり、故に、ユーザー10とアプリケーションサーバ161〜169の一端は浮動方式の連接関係の採用に適するが、アプリケーションサーバ161〜169のもう一端は、インターネットのフロントエンド設備181〜189と連接し、よって、アプリケーションサーバ161〜169はフロントエンド設備181〜189に対し即時調整を実行する時、浮動方式を利用してアプリケーションサーバ161〜169を選択する場合、即時のビデオ、或いは、警報は既に失われているので、フロントエンド設備181〜189と連接するインターネット監視と選択の方法上、アクティブ/スタンバイ(Active/Standby)のデュアルホットスタンバイ方法は、ロードバランスクラスタ、或いは、デュアルアクティブ(Active/Active)の模式より優れ、つまり、本実施例で提供されるシステムと構造は、各アプリケーションサーバ161〜169が、それぞれバックアップサーバ171〜179に連接して、対応するアプリケーションサーバに対し検出と監視を実行する。
しかし、シングルフォールトトレランス技術は高価な高可用性(high availability,HA)、或いは、ノンストップ(Non−Stop)の特殊コンピュータホストを採用しなければならないので、全体の構築コストが割に合わず、且つ、高いフォールトトレランス能力を有するために、多くのバックアップホストが必要である。
上述に基づき、本発明はマルチホットスタンバイのシステムとそのフォールトトレランス方法を提供し、上述の問題を解決する。
本発明は、マルチホットスタンバイのシステムとフォールトトレランス方法を提供し、アプリケーションサーバの監視方法中に使用することを目的とする。
本発明は、マルチホットスタンバイのシステムとフォールトトレランス方法を提供し、ハートレート信号の監視方式により監視されるサーバに異常がないかどうかを確認し、更に、バックアップサーバにより進行中のプログラムを継続することをもう一つの目的とする。
上述の目的を達成するため、本発明は、まず、マルチホットスタンバイのシステムを提供し、複数のアプリケーションサーバ、及び、複数のバックアップサーバからなる。
バックアップサーバは、少なくとも一つの第一バックアップサーバと少なくとも一つの第二バックアップサーバを有し、且つ、第一バックアップサーバと第二バックアップサーバの間は直列連接し、第一バックアップサーバにより全てのアプリケーションサーバと連接し、且つ、第二バックアップサーバは第一バックアップサーバと連接する。
これにより、一旦、第一バックアップサーバが、連接するアプリケーションサーバがエラーを生じているのを発見すると、第一バックアップサーバはエラーを生じたアプリケーションサーバを代替し、元はアプリケーションサーバ中で実行される全てのプログラムを第一バックアップサーバ中に転移して、正常な作動を継続できるようにして、中断の問題が発生しない。
また、第二バックアップサーバにより第一バックアップサーバの役割を代替して、全てのアプリケーションサーバの監視を継続する。この他、既に修復されたアプリケーションサーバは第二バックアップサーバとなることができる。
バックアップサーバは、少なくとも一つの第一バックアップサーバと少なくとも一つの第二バックアップサーバを有し、且つ、第一バックアップサーバと第二バックアップサーバの間は直列連接し、第一バックアップサーバにより全てのアプリケーションサーバと連接し、且つ、第二バックアップサーバは第一バックアップサーバと連接する。
これにより、一旦、第一バックアップサーバが、連接するアプリケーションサーバがエラーを生じているのを発見すると、第一バックアップサーバはエラーを生じたアプリケーションサーバを代替し、元はアプリケーションサーバ中で実行される全てのプログラムを第一バックアップサーバ中に転移して、正常な作動を継続できるようにして、中断の問題が発生しない。
また、第二バックアップサーバにより第一バックアップサーバの役割を代替して、全てのアプリケーションサーバの監視を継続する。この他、既に修復されたアプリケーションサーバは第二バックアップサーバとなることができる。
この他、本発明はマルチホットスタンバイシステムのフォールトトレランス方法を提供し、以下の工程からなる。
まず、第一バックアップサーバが少なくとも一つのハートレート信号の異常を検出する。続いて、異常が生じたハートレート信号の径路に基づき、エラーを生じたアプリケーションサーバを探し出す。次に、第一バックアップサーバにより、エラーを生じたアプリケーションサーバを完全に代替する。最後に、第二バックアップサーバに第一バックアップサーバを代替するように命令して、第二バックアップサーバに全てのアプリケーションサーバに対する作動の監視任務を継続して実行させる。
まず、第一バックアップサーバが少なくとも一つのハートレート信号の異常を検出する。続いて、異常が生じたハートレート信号の径路に基づき、エラーを生じたアプリケーションサーバを探し出す。次に、第一バックアップサーバにより、エラーを生じたアプリケーションサーバを完全に代替する。最後に、第二バックアップサーバに第一バックアップサーバを代替するように命令して、第二バックアップサーバに全てのアプリケーションサーバに対する作動の監視任務を継続して実行させる。
本発明のマルチホットスタンバイのシステムとそのフォールトトレランス方法は、直列されたバックアップサーバをアプリケーションサーバの監視用にするので、全サーバシステムが操作を実行する時、プログラム実行の過程で、即時性と時間連続性を保持する特性を有し、バックアップサーバの設置数量が少ないことにより、高いフォールトトレランス回数にする目的を達成することができる。
インターネットシステムがロードバランスクラスタ、或いは、デュアルアクティブ模式を採用できない状況下で、効果的に構築コストを抑制し、フォールトトレランスの能力を兼具するため、本発明は、マルチホットスタンバイのシステムとフォールトトレランス方法を提供して、これらの問題を解決する。
以下で本発明の実施形態の詳細を図式と共に説明する。
以下で本発明の実施形態の詳細を図式と共に説明する。
まず、図2は本発明のマルチホットスタンバイのシステムを示す図である。本実施例中、N個のアプリケーションサーバ261〜269を有し、それぞれ内部のアプリケーションプログラムを実行し、同時に、各アプリケーションサーバ261〜269は一定のタイミング下で、ハートレート信号を生成してコミュニケーション信号とし、且つ、ハートレート信号の伝送工程中の干渉を減少させるため、各アプリケーションサーバ261〜269中、ダブルネットワーク設備を装設してハートレート信号の専属ネットセグメントを構築する。
このN個のアプリケーションサーバ261〜269との連接は第一バックアップサーバ271で、並列の連接方式により、この第一バックアップサーバ271は、同時に、N個のアプリケーションサーバ261〜269が生成するハートレート信号を受信して監視と検出を実行する。
少なくとも一つの第二バックアップサーバ272〜279は直列方式で第一バックアップサーバ271と連接し、且つ、第一バックアップサーバ271はアプリケーションサーバ261〜269に対し監視すると同時に、第二バックアップサーバ272が同時に、ハートレート信号の検出方式により、連接する第一バックアップサーバ271に対し監視と検出を実行する。
このN個のアプリケーションサーバ261〜269との連接は第一バックアップサーバ271で、並列の連接方式により、この第一バックアップサーバ271は、同時に、N個のアプリケーションサーバ261〜269が生成するハートレート信号を受信して監視と検出を実行する。
少なくとも一つの第二バックアップサーバ272〜279は直列方式で第一バックアップサーバ271と連接し、且つ、第一バックアップサーバ271はアプリケーションサーバ261〜269に対し監視すると同時に、第二バックアップサーバ272が同時に、ハートレート信号の検出方式により、連接する第一バックアップサーバ271に対し監視と検出を実行する。
図2のシステム構造から分かるように、実際の作動工程は以下のようである。第一バックアップサーバ271が第二アプリケーションサーバ262が生成するハートレート信号に異常があることを検出した時、例えば、第二アプリケーションサーバ262はハートレート信号を第一バックアップサーバ271に生成しないか、或いは、第二アプリケーションサーバ262が生成するハートレート信号がエラーを検出される等の状況は、第一バックアップサーバ271が直ちに第二アプリケーションサーバ262と全プログラムのコマンド交換を実行して、元は第二アプリケーションサーバ262中で実行されていた全プログラムと任務を直ちに第一バックアップサーバ271中に転移させると共に、第一バックアップサーバ271により全プログラムと任務の実行を継続させる。
同時に、第一バックアップサーバ271に直列された第二バックアップサーバ272は、第一バックアップサーバ271が生成するハートレート信号を受信しないので、第二バックアップサーバ272は直ちに元の第一バックアップサーバ271を代替して、第一アプリケーションサーバ261、第三アプリケーションサーバ263、第四アプリケーションサーバ264、第Nアプリケーションサーバ269を代替し、及び、第二アプリケーションサーバ262を代替する第一バックアップサーバ271と連接し、第二バックアップサーバ272と連接するもう一つの第二バックアップサーバ273は元の第二バックアップサーバ272を代替して、検出を継続する。
図2中のマルチホットスタンバイシステムのフォールトトレランス方法は、図3中で示される工程として整理できる。
まず、工程1中、第一バックアップサーバ271が異常のハートレート信号を検出する。
続いて、工程2中、第一バックアップサーバ271により異常が発生したハートレート信号に基づき、エラーを発生した第二アプリケーションサーバ262を探し出す。
続いて、工程3中、第一バックアップサーバ271によりエラーを発生した第二アプリケーションサーバ262を完全に代替し、元は第二アプリケーションサーバ262のプログラムと任務を直ちに第一バックアップサーバ271に移転させ、中断現象が発生しない。
最後に、工程4中、第二バックアップサーバ272に第一バックアップサーバ271を代替するよう命令して、元は第一バックアップサーバ271で実行される監視と検出任務を第二バックアップサーバ272中で継続して実行させる。
同時に、第一バックアップサーバ271に直列された第二バックアップサーバ272は、第一バックアップサーバ271が生成するハートレート信号を受信しないので、第二バックアップサーバ272は直ちに元の第一バックアップサーバ271を代替して、第一アプリケーションサーバ261、第三アプリケーションサーバ263、第四アプリケーションサーバ264、第Nアプリケーションサーバ269を代替し、及び、第二アプリケーションサーバ262を代替する第一バックアップサーバ271と連接し、第二バックアップサーバ272と連接するもう一つの第二バックアップサーバ273は元の第二バックアップサーバ272を代替して、検出を継続する。
図2中のマルチホットスタンバイシステムのフォールトトレランス方法は、図3中で示される工程として整理できる。
まず、工程1中、第一バックアップサーバ271が異常のハートレート信号を検出する。
続いて、工程2中、第一バックアップサーバ271により異常が発生したハートレート信号に基づき、エラーを発生した第二アプリケーションサーバ262を探し出す。
続いて、工程3中、第一バックアップサーバ271によりエラーを発生した第二アプリケーションサーバ262を完全に代替し、元は第二アプリケーションサーバ262のプログラムと任務を直ちに第一バックアップサーバ271に移転させ、中断現象が発生しない。
最後に、工程4中、第二バックアップサーバ272に第一バックアップサーバ271を代替するよう命令して、元は第一バックアップサーバ271で実行される監視と検出任務を第二バックアップサーバ272中で継続して実行させる。
この他、エラーを発生した第二アプリケーションサーバは修復後、第二バックアップサーバとなり、つまり、全体のシステムにとって、一アプリケーションサーバがエラーを発生してももう一つのバックアップサーバにより代替するが、修復後、新たに、エラーを発生したアプリケーションサーバを修復してバックアップ用とする。故に、システム全体はエラーを発生したアプリケーションサーバの増加によりバックアップサーバの負荷を増加することがない。同時に、これらのアプリケーションサーバはもう一つのロードバランスクラスタと連接し、よって、これらのアプリケーションサーバ中に伝送される多くの相同情報の請求に対し、例えば、同一設備に即時情報を取得する状況下で、アプリケーションサービス器により情報をロードバランスメカニズムを有するフロントエンドサーバ(例えば、分配サーバ)に伝送し、フロントエンドサーバからユーザーに伝送して、システム全体の各アプリケーションサーバがロード過重な状況を生じないようにする。
上述は、アプリケーションサーバとバックアップサーバの連接関係と作動を説明し、以下では、本発明が提供するマルチホットスタンバイのシステムを応用した大型インターネットマルチメディアシステムを提供する。
図4は大型インターネットマルチメディアシステムを示す図である。本実施例中、ユーザー20はインターネットマルチメディアシステム2にビデオサービス請求信号を提供し、インターネットにより、これらの信号をまず複数の中心サーバ221〜229と分配サーバ241〜249内に伝送する。
これらの中心サーバ221〜229と分配サーバ241〜249は皆、ロードバランスクラスタの模式により、平均的に、各請求サービスの信号を対応する中心サーバ221〜229、或いは、分配サーバ241〜249中に分配し、このインターネットマルチメディアシステム2のもう一端はN個のアプリケーションサーバ261〜269が相似することにより、対応するフロントエンド設備281〜289と連接され、これらのアプリケーションサーバ261〜269は同時に、分配サーバ241〜249とユーザー20からのサービス請求信号を受信すると共に、これらのサービス請求信号によって、対応するフロントエンド施粒281〜289を駆動、或いは、起動させる。
全てのアプリケーションサーバ261〜269はバックアップサーバ271と並列で連接され、このバックアップサーバ271は、更に、直列で複数のバックアップサーバ272〜279と連接され、アプリケーションサーバ261〜269と連接されるバックアップサーバ271は、アプリケーションサーバ261〜269からのハートレート信号の正常か否かを受信して、全てのアプリケーションサーバ261〜269を検出、並びに、監視し、直列のバックアップサーバ271〜279は、相互連接のバックアップサーバ271〜279間のハートレート信号交換により、互いに検出、監視する。
よって、一アプリケーションサーバ262が生成するハートレート信号が異常を発生する時、これらのアプリケーションサーバ261〜269と連接するバックアップサーバ271は直ちにエラーを発生したアプリケーションサーバ262とコマンドセットの転移を実行して、エラーを発生したアプリケーションサーバ262を代替すると共に、その中で実行される全てのプログラムと任務を継続し、元はこのアプリケーションサーバ271内で実行されていた全てのプログラムと任務は中断することなく、また、一バックアップサーバ271がエラーを発生したアプリケーションサーバ262とコマンドセットの転移を実行する時、同時に、異常なハートレート信号を連接するもう一端のバックアップサーバ272に発信するので、バックアップサーバ271から伝送される異常なハートレート信号を受信した後、このバックアップサーバ272は直ぐにバックアップサーバ271を代替して、アプリケーションサーバ261〜269に対し検出と監視を実行する。この時のアプリケーションサーバ261〜269はバックアップサーバ271により代替され、同時に、このバックアップサーバ272に直列されるバックアップサーバ273は、バックアップサーバ272に対し検出と監視を継続する。
この他、上述の中心サーバ221〜229と分配サーバ241〜249は、ロードバランス模式により検出を実行する以外に、デュアルアクティブ模式により実行してもよい。
図4は大型インターネットマルチメディアシステムを示す図である。本実施例中、ユーザー20はインターネットマルチメディアシステム2にビデオサービス請求信号を提供し、インターネットにより、これらの信号をまず複数の中心サーバ221〜229と分配サーバ241〜249内に伝送する。
これらの中心サーバ221〜229と分配サーバ241〜249は皆、ロードバランスクラスタの模式により、平均的に、各請求サービスの信号を対応する中心サーバ221〜229、或いは、分配サーバ241〜249中に分配し、このインターネットマルチメディアシステム2のもう一端はN個のアプリケーションサーバ261〜269が相似することにより、対応するフロントエンド設備281〜289と連接され、これらのアプリケーションサーバ261〜269は同時に、分配サーバ241〜249とユーザー20からのサービス請求信号を受信すると共に、これらのサービス請求信号によって、対応するフロントエンド施粒281〜289を駆動、或いは、起動させる。
全てのアプリケーションサーバ261〜269はバックアップサーバ271と並列で連接され、このバックアップサーバ271は、更に、直列で複数のバックアップサーバ272〜279と連接され、アプリケーションサーバ261〜269と連接されるバックアップサーバ271は、アプリケーションサーバ261〜269からのハートレート信号の正常か否かを受信して、全てのアプリケーションサーバ261〜269を検出、並びに、監視し、直列のバックアップサーバ271〜279は、相互連接のバックアップサーバ271〜279間のハートレート信号交換により、互いに検出、監視する。
よって、一アプリケーションサーバ262が生成するハートレート信号が異常を発生する時、これらのアプリケーションサーバ261〜269と連接するバックアップサーバ271は直ちにエラーを発生したアプリケーションサーバ262とコマンドセットの転移を実行して、エラーを発生したアプリケーションサーバ262を代替すると共に、その中で実行される全てのプログラムと任務を継続し、元はこのアプリケーションサーバ271内で実行されていた全てのプログラムと任務は中断することなく、また、一バックアップサーバ271がエラーを発生したアプリケーションサーバ262とコマンドセットの転移を実行する時、同時に、異常なハートレート信号を連接するもう一端のバックアップサーバ272に発信するので、バックアップサーバ271から伝送される異常なハートレート信号を受信した後、このバックアップサーバ272は直ぐにバックアップサーバ271を代替して、アプリケーションサーバ261〜269に対し検出と監視を実行する。この時のアプリケーションサーバ261〜269はバックアップサーバ271により代替され、同時に、このバックアップサーバ272に直列されるバックアップサーバ273は、バックアップサーバ272に対し検出と監視を継続する。
この他、上述の中心サーバ221〜229と分配サーバ241〜249は、ロードバランス模式により検出を実行する以外に、デュアルアクティブ模式により実行してもよい。
故に、上述から分かるように、本発明のマルチホットスタンバイのシステムとフォールトトレランス方法は、浮動式選択サーバに適合できないシステム中に応用でき、複数の直列されたバックアップサーバ構造により、システム構築コストを減少させ、少ないバックアップサーバ利用の前提下で、多くのフォールトトレランスを負担する目標を達成する。
本発明では好ましい実施例を前述の通り開示したが、これらは決して本発明に限定するものではなく、当該技術を熟知する者なら誰でも、本発明の精神と領域を脱しない範囲内で各種の変動や潤色を加えることができ、従って本発明明の保護範囲は、特許請求の範囲で指定した内容を基準とする。
1、2 インターネットマルチメディアシステム
10、20 ユーザー
121〜129、221〜229 中心サーバ
141〜149、241〜249 分配サーバ
161〜169、261〜269 アプリケーションサーバ
171〜179、271〜279 バックアップサーバ
181〜189、281〜289 フロントエンド設備
10、20 ユーザー
121〜129、221〜229 中心サーバ
141〜149、241〜249 分配サーバ
161〜169、261〜269 アプリケーションサーバ
171〜179、271〜279 バックアップサーバ
181〜189、281〜289 フロントエンド設備
Claims (17)
- マルチホットスタンバイのシステムであって、
複数のアプリケーションサーバ、及び、複数のバックアップサーバからなり、
前記バックアップサーバは、直列の方式で相互に連接し、且つ、前記バックアップサーバは、少なくとも一つの第一バックアップサーバと少なくとも一つの第二バックアップサーバからなり、
前記第一バックアップサーバにより全てのアプリケーションサーバと連接して、全てのアプリケーションサーバの作動を監視し、
前記アプリケーションサーバがエラーを発生すると、前記第一バックアップサーバはエラーを生じたアプリケーションサーバを代替し、全てのプログラムを正常に作動させると共に、前記第二バックアップサーバにより前記第一バックアップサーバを代替して、監視を継続することを特徴とするシステム。 - 前記アプリケーションサーバと前記第一バックアップサーバの間は、ハートレート信号により連接するか、或いは、前記第一バックアップサーバにより、前記アプリケーションサーバか正常か否かを能動的に検出することを特徴とする請求項1に記載のシステム。
- 前記アプリケーションサーバはアプリケーションソフト、ハートレートソフトを実行することを特徴とする請求項1に記載のシステム。
- 前記第一バックアップサーバと前記第二バックアップサーバはアプリケーションソフト、ハートレートソフトとホットスタンバイ管理ソフトを実行することを特徴とする請求項1に記載のシステム。
- エラーを発生した前記アプリケーションサーバは修復後、更に、前記第二バックアップサーバとなることを特徴とする請求項1に記載のシステム。
- 前記アプリケーションサーバはロードバランスサーバシステムと連接することを特徴とする請求項1に記載のシステム。
- 前記ロードバランスサーバシステムは少なくとも一ユーザーの請求を受信して、前記アプリケーションサーバの作動を制御することを特徴とする請求項6に記載のシステム。
- 前記アプリケーションシステムは、インターネットにより複数の設備を接続することを特徴とする請求項1に記載のシステム。
- 前記第一バックアップサーバは一対一の関係で、前記アプリケーションサーバに対し監視を実行することを特徴とする請求項1に記載のシステム。
- 前記第一バックアップサーバは一対多の関係で、前記アプリケーションサーバに対し監視を実行することを特徴とする請求項1に記載のシステム。
- 前記第一バックアップサーバと前記第二バックアップサーバの間は互いに監視することを特徴とする請求項1に記載のシステム。
- マルチホットスタンバイのフォールトトレランス方法であって、
少なくとも一つのハートレート信号の異常を検出する工程と、
少なくとも一つの第一バックアップサーバにより、異常が生じたハートレート信号の径路に基づき、エラーを生じたアプリケーションサーバを探し出す工程と、
前記第一バックアップサーバにより、エラーを生じたアプリケーションサーバの作動を完全に代替する工程と、
少なくとも一つの第二バックアップサーバに前記第一バックアップサーバを代替するように命令して、前記第二バックアップサーバに監視任務を継続して実行させる工程と、
からなることを特徴とする方法。 - 少なくとも一つのハートレート信号の異常現象は、前記ハートレート信号を受信できない状況を含むことを特徴とする請求項12に記載の方法。
- 前記第一バックアップサーバによりエラーを発生した前記アプリケーションサーバを完全に代替する作動方法は、前記第一バックアップサーバにより代替プログラムを実行して実現することを特徴とする請求項12に記載の方法。
- 前記第一バックアップサーバによりエラーを生じた前記アプリケーションサーバを完全に代替する方法は、前記第一バックアップサーバと前記アプリケーションサーバ間でコマンド交換することにより実現し、交換を実行するコマンドは、アプリケーションソフト、ハートレートソフト、データベース、IPアドレス、インターネット設定を含むことを特徴とする請求項12に記載の方法。
- 少なくとも一つの前記第一バックアップサーバにより、エラーを発生した前記ハートレート信号に基づいてエラーを発生した前記アプリケーションサーバを探し出す工程後、更に、エラーを発生した前記アプリケーションサーバに対し修復を実行することを特徴とする請求項12に記載の方法。
- エラーを発生した前記アプリケーションサーバに対し修復を実行する工程終了後、修復された前記アプリケーションサーバは更にホットスタンバイ監視用になることを特徴とする請求項16に記載の方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW096119692A TW200849001A (en) | 2007-06-01 | 2007-06-01 | Multi-server hot-backup system and fault tolerant method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007287183A true JP2007287183A (ja) | 2007-11-01 |
Family
ID=38758832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007205524A Pending JP2007287183A (ja) | 2007-06-01 | 2007-08-07 | ホットスタンバイの構造とそのフォールトトレランス方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20080301489A1 (ja) |
JP (1) | JP2007287183A (ja) |
TW (1) | TW200849001A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2224341A1 (en) * | 2007-12-21 | 2010-09-01 | NEC Corporation | Node system, server switching method, server device, and data transfer method |
CN116233367A (zh) * | 2023-02-28 | 2023-06-06 | 广州淏华实业有限公司 | 一种银行室内金库智慧监控方法及其系统 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090055689A1 (en) * | 2007-08-21 | 2009-02-26 | International Business Machines Corporation | Systems, methods, and computer products for coordinated disaster recovery |
JP4571203B2 (ja) * | 2008-05-09 | 2010-10-27 | 株式会社日立製作所 | 情報処理システムにおける管理サーバ、及びクラスタ管理方法 |
CN102693172B (zh) * | 2011-08-31 | 2015-02-18 | 新奥特(北京)视频技术有限公司 | 一种信息录入系统的动态切换方法及系统 |
CN102437935B (zh) * | 2011-12-16 | 2015-01-14 | 江西省电力公司信息通信中心 | Web应用监控方法及设备 |
US9513894B2 (en) * | 2012-08-31 | 2016-12-06 | Oracle International Corporation | Database software upgrade using specify-validate-execute protocol |
US9361082B2 (en) | 2012-09-06 | 2016-06-07 | Welch Allyn, Inc. | Central monitoring station warm spare |
JP6007988B2 (ja) * | 2012-09-27 | 2016-10-19 | 日本電気株式会社 | 予備系装置、運用系装置、冗長構成システム、及び負荷分散方法 |
US9514160B2 (en) | 2013-03-11 | 2016-12-06 | Oracle International Corporation | Automatic recovery of a failed standby database in a cluster |
EP2813912B1 (en) * | 2013-06-14 | 2019-08-07 | ABB Schweiz AG | Fault tolerant industrial automation control system |
CN103425553B (zh) * | 2013-09-06 | 2015-01-28 | 哈尔滨工业大学 | 一种双机热备份系统及该系统的故障检测方法 |
CN103684873B (zh) * | 2013-12-27 | 2017-01-18 | 乐视云计算有限公司 | 轮询心跳的监控方法、装置及系统 |
CN109976942B (zh) * | 2017-12-28 | 2021-02-19 | 中移(杭州)信息技术有限公司 | 一种数据备份和恢复方法、备份服务器和源服务器 |
US11757987B2 (en) * | 2019-04-30 | 2023-09-12 | Telefonaktiebolaget Lm Ericsson (Publ) | Load balancing systems and methods |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7945909B2 (en) * | 2003-05-09 | 2011-05-17 | Sap Aktiengesellschaft | Initiating recovery of an executing task using historical information and task information |
US7555547B2 (en) * | 2004-02-26 | 2009-06-30 | Oracle International Corp. | System and method for identifying network communications of a priority service among a plurality of services |
US7401256B2 (en) * | 2004-04-27 | 2008-07-15 | Hitachi, Ltd. | System and method for highly available data processing in cluster system |
US20060153068A1 (en) * | 2004-12-17 | 2006-07-13 | Ubiquity Software Corporation | Systems and methods providing high availability for distributed systems |
US8195976B2 (en) * | 2005-06-29 | 2012-06-05 | International Business Machines Corporation | Fault-tolerance and fault-containment models for zoning clustered application silos into continuous availability and high availability zones in clustered systems during recovery and maintenance |
JP4544146B2 (ja) * | 2005-11-29 | 2010-09-15 | 株式会社日立製作所 | 障害回復方法 |
-
2007
- 2007-06-01 TW TW096119692A patent/TW200849001A/zh unknown
- 2007-08-07 JP JP2007205524A patent/JP2007287183A/ja active Pending
- 2007-08-14 US US11/838,228 patent/US20080301489A1/en not_active Abandoned
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2224341A1 (en) * | 2007-12-21 | 2010-09-01 | NEC Corporation | Node system, server switching method, server device, and data transfer method |
EP2224341A4 (en) * | 2007-12-21 | 2012-03-07 | Nec Corp | N UD SYSTEM, SERVER SWITCHING METHOD, SERVER DEVICE, AND DATA TRANSFER METHOD |
CN116233367A (zh) * | 2023-02-28 | 2023-06-06 | 广州淏华实业有限公司 | 一种银行室内金库智慧监控方法及其系统 |
CN116233367B (zh) * | 2023-02-28 | 2023-09-22 | 广州淏华实业有限公司 | 一种银行室内金库智慧监控方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
US20080301489A1 (en) | 2008-12-04 |
TW200849001A (en) | 2008-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007287183A (ja) | ホットスタンバイの構造とそのフォールトトレランス方法 | |
US9645900B2 (en) | Warm standby appliance | |
KR100420266B1 (ko) | 클러스터 컴퓨터 시스템의 소프트웨어 가용도 개선 방법및 그 장치 | |
US8615578B2 (en) | Using a standby data storage system to detect the health of a cluster of data storage servers | |
US20050060608A1 (en) | Maximizing processor utilization and minimizing network bandwidth requirements in throughput compute clusters | |
US9021317B2 (en) | Reporting and processing computer operation failure alerts | |
KR20110044858A (ko) | 데이터 센터들에 걸쳐 데이터 서버들내 데이터 무결정의 유지 | |
JP2005209191A5 (ja) | ||
US8381014B2 (en) | Node controller first failure error management for a distributed system | |
CN101079747A (zh) | 多机热备的系统及其容错方法 | |
CN111327467A (zh) | 一种服务器系统及其容灾备份方法和相关设备 | |
CN105430327A (zh) | 一种nvr集群备份方法及装置 | |
CN102999587A (zh) | 用于故障转移的跨不同服务器的镜像数据库的布置 | |
CN103856760A (zh) | 一种视频监控设备间纵向虚拟化装置 | |
US7401256B2 (en) | System and method for highly available data processing in cluster system | |
JP2007520003A (ja) | コンピュータ障害発生時に複数のコンピュータの配列を操作する方法 | |
US20030177224A1 (en) | Clustered/fail-over remote hardware management system | |
JP4592511B2 (ja) | Ipネットワークサーバのバックアップシステム | |
JP2007233586A (ja) | 二重化制御装置及び二重化制御方法 | |
JP2005301436A (ja) | クラスタシステムおよびクラスタシステムにおける障害回復方法 | |
US7437445B1 (en) | System and methods for host naming in a managed information environment | |
JP2012128573A (ja) | 二重化システムおよびそのシステムを用いたビル管理システム | |
KR20100067378A (ko) | 키오스크 시스템의 서비스 처리 장치 | |
JP6070040B2 (ja) | データベースシステム、データベース装置、データベースの障害回復方法およびプログラム | |
US10645163B2 (en) | Site-aware cluster management |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070808 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20070810 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090609 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20091208 |