JP2010055509A - 障害復旧システム、方法及びプログラム、並びにクラスタシステム - Google Patents

障害復旧システム、方法及びプログラム、並びにクラスタシステム Download PDF

Info

Publication number
JP2010055509A
JP2010055509A JP2008221839A JP2008221839A JP2010055509A JP 2010055509 A JP2010055509 A JP 2010055509A JP 2008221839 A JP2008221839 A JP 2008221839A JP 2008221839 A JP2008221839 A JP 2008221839A JP 2010055509 A JP2010055509 A JP 2010055509A
Authority
JP
Japan
Prior art keywords
failure
error information
recovery
application process
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008221839A
Other languages
English (en)
Inventor
Shozo Sakane
正造 坂根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2008221839A priority Critical patent/JP2010055509A/ja
Publication of JP2010055509A publication Critical patent/JP2010055509A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)

Abstract

【課題】アプリケーション障害発生を早期に検出し、coreファイルを確実に取得しながら、障害発生からクラスタ切り替えまでの時間を短くすることができるクラスタシステムを提供する。
【解決手段】本発明の障害復旧システムは、障害発生時にエラー情報を記憶手段に保存するアプリケーションプロセスを生成起動させるプロセス生成起動手段と、記憶手段に記憶されるエラー情報の保存の有無を監視するエラー情報監視手段と、エラー情報監視手段によりエラー情報の保存が検出されると、当該アプリケーションプロセスの障害を検出するプロセス障害検出手段と、プロセス障害検出手段によりアプリケーションプロセスの障害が検出されると、当該障害の復旧処理を行う障害復旧手段とを備えることを特徴とする。
【選択図】 図1

Description

本発明は、障害復旧システム、方法及びプログラム、並びにクラスタシステムに関し、例えば、稼動系サーバに生じた障害を早期に検出し、待機系サーバに早期に切り替える障害復旧システム、方法及びプログラム、並びにクラスタシステムに適用し得るものである。
近年、継続的にサービスを提供するためにクラスタシステムが広く普及している。クラスタシステムの方式としては種々の方式があるが、複数のサーバを使用して冗長化し、システムの停止時間を最小限に抑え、業務の可用性を向上させる方式としてHA(High Availability)クラスタシステムがある。
このHAクラスタシステムは、現用系(以下、稼動系ともいう)サーバで障害を検知すると待機系サーバに切り替え、業務のダウンタイムを短くすることでサーバの信頼性を向上させるシステムである。
そのため、業務の可用性を向上させるためには、稼動系から待機系への切り替え時間を最小限に抑えることが強く望まれており、このような課題を解決する技術として特許文献1に記載の技術がある。特許文献1に記載の技術は、切り替えポリシー定義ファイルを用いて、サービスの利用率に応じたタイミングで切り替える技術である。
ところで、従来のHAクラスタシステムにおけるクラスタ切り替え動作は、図2に示すような動作を行う。
図2(A)では、サーバ1Aは稼動系として動作し、サーバ1Bは稼動系として動作し、両サーバ1A及び1Bは相互に死活監視を行っている。この死活監視の方法として、例えば、サーバ間でハートビート通信を行うことで相互の生存を確認する方法を適用できる。
そして、稼動系サーバ1Aに障害が生じると、稼動系サーバ1Aからのハートビート応答がなくなる。これにより、待機系サーバ1Bは稼動系サーバ1Aの障害を検出し(図2(B)参照)、サーバ1Bが稼動系に切り替えられる(図2(C)参照)。
図3は、稼動系サーバにおいてHAクラスタプロセスがアプリケーションプロセスを監視する動作を説明する説明図である。
例えば、UNIX(登録商標)/Linux(登録商標)OS上で、HAクラスタシステムを動作させる場合、HAクラスタシステムプロセスが親プロセスとなり、子プロセスのアプリケーションプロセスを生成・起動し、監視を行うのが一般的である。
図3において、HAクラスタプロセス2が、アプリケーションプロセス3の生成・起動を行い(ステップS1)、アプリケーションプロセス3の状態を監視する。
そして、アプリケーションプロセス3に障害が発生し、アプリケーションプロセス3が終了すると、プロセスの終了を知らせるSIGCHILDが通知され(ステップS2)、HAクラスタプロセス2は稼動系サーバの切り替え処理を実施する(ステップS3)。
特開2006−277690号公報
上述したように、システムに致命的な障害が生じると、稼動系サーバのHAクラスタプロセスは、アプリケーションプロセスが動作できないことを認識して、待機系への切り替えを行う。
つまり、HAクラスタプロセスは、子プロセスであるアプリケーションプロセスからSIGCHILDを受けた後に、待機系への切り替え処理を行うようにしている。
ところで、例えば、UNIX(登録商標)/Linux(登録商標)OS上において、アプリケーションプロセスが異常終了すると、coreファイルが生成させることができる。
このcoreファイルはプロセスのメモリイメージを保存したものであり、アプリケーションプロセス障害時にcoreファイルをHDDから出力させることは、アプリケーションの障害解析を行う点で有効である。
図4を用いて、アプリケーションプロセスにおけるcoreファイルの出力動作について説明する。
図4において、アプリケーションプロセス3に障害が発生すると、アプロケーションプロセス3は、coreファイルをHDDへ出力し(ステップS4)、出力が終了してから(ステップS5)、SIGCHILDを通知する(ステップS2)。
アプリケーションプロセスのプロセスサイズが大きく、メモリを多量に使用している場合、アプリケーションプロセス障害時に出力されるcoreファイルのサイズも大きくなる。
そのため、coreファイルサイズが大きいと、coreファイルを出力する時間も長くなるため、障害発生から稼動系サーバの切り替え処理までの時間も長くなり、アプリケーションが提供するサービスの中断時間も長くなるという問題が生じ得る。
サービスを早期に復旧させるために、coreファイルの出力を強制的に停止し、アプリケーションプロセスを再起動させる方法も考えられるが、アプリケーションの障害解析を行うためにcoreファイルが必要である。
また、HAクラスタシステムは、アプリケーション障害発生時に早期にサービス復旧を行い、確実にcoreファイルを取得できるようにすることが望まれる。
そのため、アプリケーション障害発生を早期に検出し、coreファイルを確実に取得しながら、障害発生からクラスタ切り替えまでの時間を短くすることができる障害復旧システム、方法及びプログラム、並びにクラスタシステムが求められている。
かかる課題を解決するために、第1の本発明の障害復旧システムは、(1)障害発生時にエラー情報を記憶手段に保存するアプリケーションプロセスを生成起動させるプロセス生成起動手段と、(2)記憶手段に記憶されるエラー情報の保存の有無を監視するエラー情報監視手段と、(3)エラー情報監視手段によりエラー情報の保存が検出されると、当該アプリケーションプロセスの障害を検出するプロセス障害検出手段と、(4)プロセス障害検出手段によりアプリケーションプロセスの障害が検出されると、当該障害の復旧処理を行う障害復旧手段とを備えることを特徴とする。
第2の本発明の障害復旧方法は、障害復旧システムの障害復旧方法において、(1)プロセス生成起動手段が、障害発生時にエラー情報を記憶手段に保存するアプリケーションプロセスを生成起動させるプロセス生成起動工程と、(2)エラー情報監視手段が、記憶手段に記憶されるエラー情報の保存の有無を監視するエラー情報監視工程と、(3)プロセス障害検出手段が、エラー情報監視手段によりエラー情報の保存が検出されると、当該アプリケーションプロセスの障害を検出するプロセス障害検出工程と、(4)障害復旧手段が、プロセス障害検出手段によりアプリケーションプロセスの障害が検出されると、当該障害の復旧処理を行う障害復旧工程とを有することを特徴とする。
第3の本発明の障害復旧プログラムは、コンピュータを、(1)障害発生時にエラー情報を記憶手段に保存するアプリケーションプロセスを生成起動させるプロセス生成起動手段、(2)記憶手段に記憶されるエラー情報の保存の有無を監視するエラー情報監視手段、(3)エラー情報監視手段によりエラー情報の保存が検出されると、当該アプリケーションプロセスの障害を検出するプロセス障害検出手段、(4)プロセス障害検出手段によりアプリケーションプロセスの障害が検出されると、当該障害の復旧処理を行う障害復旧手段として機能させることを特徴とする。
第4の本発明のクラスタシステムは、稼動系サーバ装置と少なくとも1以上の待機系サーバ装置とを有して構成されるクラスタシステムにおいて、各サーバ装置が第1の本発明の障害復旧システムを備えることを特徴とする。
本発明によれば、coreファイルを確実に取得しながら、アプリケーション障害発生を早期に検出することができるので、障害発生からクラスタ切り替えまでの復旧時間を短くすることができる。
(A)第1の実施形態
以下では、本発明の障害復旧システム、方法及びプログラム、並びにクラスタシステムの第1の実施形態を図面を参照しながら説明する。
第1の実施形態では、2台のサーバからなるHAクラスタシステムに、本発明を適用した場合を例示して説明する。
(A−1)第1の実施形態の構成
図5は、第1の実施形態のクラスタシステム50の構成及びサーバの機能構成を示す構成図である。なお、図5は、クラスタ構成の一例であり、共有ディスクタイプのクラスタ構成を例示するが、ミラーリングタイプのクラスタ構成であってもよい。
図5において、クラスタシステム50は、2台のサーバ10A及び10Bと、共有ディスク20とを有して構成されるものである。
サーバ10A及び10Bは、様々なサービスを提供するものであり、例えば種々の業務サービスを提供するサーバが該当する。また、サーバ10A及び10Bのハードウェア構成は、一般的な情報処理装置と同じ構成を有しており、ソフトウェア構成としては、例えば、UNIX(登録商標)/Linux(登録商標)をOSとするものが該当する。
さらに、サーバ10A及び10Bは、HAクラスタシステムの構成サーバであるから、双方とも同じ機能を備えるものであり、稼動系に障害が生じた場合には、後述するクラスタ制御部17A及び17Bの制御により、待機系への切替処理が行われる。
なお、図5では、サーバ10Aが稼動系であり、サーバ10Bが待機系である場合を示す。
図5に示すように、サーバ10A及び10Bは、その主な機能として、アプリケーション11A及び11B、HAクラスタ制御部17A及び17Bを有する。
アプリケーション11A及び11Bは、種々の業務アプリケーションサービスを提供するものである。障害発生したアプリケーション11A及び11Bのプロセスは、HDD20に保存されたcoreファイルを出力するようにし、coreファイルの出力が完了すると、異常終了により業務サービスの提供が終了したことを示すSIGCHILDをHAクラスタ制御部プロセスに通知するものである。
ここで、アプリケーションプロセスの障害の具体例としては、例えば、アクセス違反等のプログラム異常などが該当する。
HAクラスタ制御部17A及び17Bは、稼動系サーバにおけるクラスタリング処理を制御するものである。また、HAクラスタ制御部17A及び17Bは、主な機能として、プロセス生成起動部12A及び12B、coreファイル監視部13A及び13B、クラスタ切替制御部15A及び15B、ハードビート制御部16A及び16Bを有する。
プロセス生成起動部12A及び12Bは、図示しないクライアントから要求されたアプリケーション11A及び11Bを、子プロセスとして生成し起動させるものである。
coreファイル監視部13A及び13Bは、常時又は定期的にHDD20を監視し、起動させたアプリケーション11A及び11Bのプロセスについてcoreファイルが存在するかどうかを監視するものである。
ハートビート制御部16A及び16Bは、相互のサーバ10A及び10B間でインターコネクト通信をするものである。ハートビート制御部16A及び16Bは、coreファイル監視部13A及び13Bによりcoreファイルが検出されると、ハートビート通信を停止させるものである。このようにすることで、従来のようにSIGCHILDの通知前に、擬似的に障害検出することができる。また、ハートビートを停止させることで、待機系サーバに対して稼動系サーバの異常発生を認識させることができ、早期に待機系へのサーバ切り替えができる。
また、待機系から稼動系に切り替えされると、ハートビート制御部16A及び16Bは、ハートビート通信の再開を行うものである。
クラスタ切替制御部15A及び15Bは、アプリケーション11A及び11BからSIGCHILDが通知されると、coreファイルの出力完了を認識し、自サーバを待機系とし、またハートビート制御部17A及び17Bに対してハートビート通信の再開を指示するものである。
(A−2)第1の実施形態の動作
次に、第1の実施形態のクラスタ切替処理の動作について図1を参照しながら説明する。
図1は、アプリケーションプロセスに障害が生じた場合のクラスタ切替処理を説明する説明図である。
なお、図1の左側のシーケンスは稼動系のHAクラスタプロセス及びアプリケーションプロセスの動作を示し、右側は、シーケンスに対応したサーバ切り替え動作を示す。
まず、稼動系サーバ10Aにおいて、HAクラスタプロセス4は、アプリケーションプロセス5を生成し起動させる(ステップS101)。このとき、両サーバ10A及び10B間のハードビート通信が行われ、相互の死活監視を行っている(図5(A)参照)。
また、HAクラスタプロセス4は、定期的にHDD20を監視し、起動させたアプリケーションプロセス5についてのcoreファイルが生成されたか否かを監視する(ステップS102)。
このとき、HAクラスタプロセス4は、coreファイルが保存されているか否かをOS毎に監視する。なお、待機系でのcoreファイル監視は、待機系ではアプリケーションがホットスタンバイで動作するような場合は、待機系でのアプリケーション障害の早期検出となる。
その後、アプリケーションプロセス5に障害が発生すると、アプリケーションプロセス5はシグナルを受けて、coreファイルをHDD20に生成する。また、アプリケーションプロセス5は、生成したcoreファイルをHDD20から出力し始める(ステップS103)。
一方、HAクラスタプロセス4は、HDD20上のcoreファイルを監視しているので、アプリケーションプロセス5についてのcoreファイルの検出を契機に(ステップS104)、ハートビート通信を停止し(ステップS105)、擬似的な故障を発生させる。
このハートビート通信の停止により、サーバ10Bはサーバ10Aの異常を認識し、稼動系への切り替えを行う(図5(B)参照)。これにより、サーバ10Bは、稼動系として動作を開始する。
その後、アプリケーションプロセス5によるcoreファイルの出力が終了すると、アプリケーションプロセス5は、アプリケーション動作を終了して、SIGCHILDをHAクラスタプロセス4に通知する。
これを受けて、HAクラスタプロセス4は、ハートビート通信を再開し、待機系サーバとして稼動する(ステップS108)。これにより、図5(C)に示すように、サーバ10A及び10Bの間で監視しながら、サーバ10Bが稼動系として動作する。
上記のように、HAクラスタプロセスにおいて、アプリケーション障害発生時に発生するcoreファイルの存在を定期的に監視し、coreファイル検出時にインターコネクト通信を停止させることで、擬似的な故障を発生させることにより、早期にサービスの復旧が可能となる。
また、アプリケーションプロセス終了を契機に待機系サーバとして稼動させることで確実にcoreファイルの取得が可能となる。
(A−3)第1の実施形態の効果
以上のように、第1の実施形態によれば、アプリケーションプロセスが出力するcoreファイルをHAクラスタシステムにて定期的に監視することで、早期にアプリケーションの障害を検出することができる。
また、第1の実施形態によれば、HAクラスタシステムにおいて、アプリケーション障害検出を契機にハードビート通信を停止することにより、待機系サーバに障害を検出させることができるからクラスタ切替を実行させ、サービス復旧を行うことができる。
さらに、第1の実施形態によれば、アプリケーションのcoreファイル出力完了後に、HAクラスタプロセスを待機系サーバに復旧することにより、確実にcoreファイルを収集させることができる。
(B)第2の実施形態
次に、本発明の障害復旧システム、方法及びプログラム、並びにクラスタシステムの第2の実施形態について説明する。
(B−1)第2の実施形態の構成及び動作
第1の実施形態では、HAクラスタプロセス4が、coreファイル出力を契機にハートビート通信を停止する場合の実施形態を説明した。
これに対して、第2の実施形態は、HAクラスタプロセスが、coreファイル出力を契機に別プロセスのアプリケーションを生成・起動するものである。
第2の実施形態の構成は、第1の実施形態の構成に対応するから図5を用いて説明する。
第2の実施形態のプロセス生成起動部12A及び12Bは、別のプロセスを起動可能なものである。プロセス生成起動部12A及び12Bは、coreファイル監視部13A及び13Bによりcoreファイルが検出されると、別のプロセスとしてアプリケーションを生成し、起動するものである。
これにより、クラスタシステムでない場合にも、アプリケーションプロセスを別プロセスとして生成し起動させることができるので、早期にサービスを復旧させることができる。
また、プロセス生成起動部12A及び13Bは、アプリケーションプロセスからSIGCHILDを受け取ると、HAクラスタプロセスにて無視するようにする。
(B−2)第2の実施形態の効果
以上のように、第2の実施形態によれば、クラスタシステム構成でない場合にも、第1の実施形態と同様に、アプリケーション障害の早期検出、早期サービス復旧、確実なcoreファイルの収集を行うことができる。
(C)他の実施形態
第1及び第2の実施形態で説明した各サーバ10A及び10Bのクラスタシステムの機能は、ソフトウェア処理により実現されるものである。つまり、各サーバのハードウェア構成として、例えばCPU、ROM、RAM、EEPROM等を有して構成されるものであり、CPUが、ROMに格納される処理プログラムを実行することにより第1及び第2の実施形態で説明した機能を実現することができる。
第1及び第2の実施形態では、2台のサーバからなるシステムにおいて、稼動系サーバのみがアプリケーション障害検出処理を実施する場合を例示したが、3台以上のクラスタシステムにも広く適用することができる。
本発明は、様々なクラスタシステムのタイプに適用することができ、例えば、共有ディスクタイプやデータミラータイプのいずれにも適用することができる。
第1の実施形態のクラスタ切替処理を説明する説明図である。 従来のクラスタ切替処理を説明する説明図である。 従来の稼動系サーバにおいてHAクラスタプロセスがアプリケーションプロセスを監視する動作を説明する説明図である。 従来のアプリケーションプロセスにおけるcoreファイルの出力動作について説明する説明図である。 第1の実施形態のクラスタシステムの構成及びサーバの機能構成を示す構成図である。
符号の説明
10A…サーバ(稼動系)、10B…サーバ(待機系)、4…HAクラスタプロセス、5…アプリケーションプロセス、11A及び11B…アプリケーション部、12A及び12B…プロセス生成起動部、13A及び13B…coreファイル監視部、15A及び15B…クラスタ切替制御部、16A及び16B…ハートビート制御部、50…クラスタシステム。

Claims (7)

  1. 障害発生時にエラー情報を記憶手段に保存するアプリケーションプロセスを生成起動させるプロセス生成起動手段と、
    上記記憶手段に記憶される上記エラー情報の保存の有無を監視するエラー情報監視手段と、
    上記エラー情報監視手段により上記エラー情報の保存が検出されると、当該アプリケーションプロセスの障害を検出するプロセス障害検出手段と、
    上記プロセス障害検出手段により上記アプリケーションプロセスの障害が検出されると、当該障害の復旧処理を行う障害復旧手段と
    を備えることを特徴とする障害復旧システム。
  2. 上記障害復旧手段が、他のサーバとの間で定期的に生存確認通信を行うものであって、上記プロセス障害検出手段により上記アプリケーションプロセスの障害が検出されると、他のサーバとの間の上記生存確認通信を停止させる生存確認通信部を有することを特徴とする請求項1に記載の障害復旧システム。
  3. 上記障害復旧手段が、上記記憶手段から上記エラー情報の取得完了後に、稼動系から待機系への切り替えを行うクラスタ切替部をさらに備える請求項2に記載に障害復旧システム。
  4. 上記プロセス生成起動手段が、上記プロセス障害検出手段により上記アプリケーションプロセスの障害が検出されると、当該アプリケーションプロセスを別プロセスとして生成起動するものであることを特徴とする請求項1に記載の障害復旧システム。
  5. 障害復旧システムの障害復旧方法において、
    プロセス生成起動手段が、障害発生時にエラー情報を記憶手段に保存するアプリケーションプロセスを生成起動させるプロセス生成起動工程と、
    エラー情報監視手段が、上記記憶手段に記憶される上記エラー情報の保存の有無を監視するエラー情報監視工程と、
    プロセス障害検出手段が、上記エラー情報監視手段により上記エラー情報の保存が検出されると、当該アプリケーションプロセスの障害を検出するプロセス障害検出工程と、
    障害復旧手段が、上記プロセス障害検出手段により上記アプリケーションプロセスの障害が検出されると、当該障害の復旧処理を行う障害復旧工程と
    を有することを特徴とする障害復旧方法。
  6. コンピュータを、
    障害発生時にエラー情報を記憶手段に保存するアプリケーションプロセスを生成起動させるプロセス生成起動手段、
    上記記憶手段に記憶される上記エラー情報の保存の有無を監視するエラー情報監視手段、
    上記エラー情報監視手段により上記エラー情報の保存が検出されると、当該アプリケーションプロセスの障害を検出するプロセス障害検出手段、
    上記プロセス障害検出手段により上記アプリケーションプロセスの障害が検出されると、当該障害の復旧処理を行う障害復旧手段
    として機能させることを特徴とする障害復旧プログラム。
  7. 稼動系サーバ装置と少なくとも1以上の待機系サーバ装置とを有して構成されるクラスタシステムにおいて、上記各サーバ装置が請求項1〜4のいずれかに記載の障害復旧システムを備えることを特徴とするクラスタシステム。
JP2008221839A 2008-08-29 2008-08-29 障害復旧システム、方法及びプログラム、並びにクラスタシステム Pending JP2010055509A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008221839A JP2010055509A (ja) 2008-08-29 2008-08-29 障害復旧システム、方法及びプログラム、並びにクラスタシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008221839A JP2010055509A (ja) 2008-08-29 2008-08-29 障害復旧システム、方法及びプログラム、並びにクラスタシステム

Publications (1)

Publication Number Publication Date
JP2010055509A true JP2010055509A (ja) 2010-03-11

Family

ID=42071330

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008221839A Pending JP2010055509A (ja) 2008-08-29 2008-08-29 障害復旧システム、方法及びプログラム、並びにクラスタシステム

Country Status (1)

Country Link
JP (1) JP2010055509A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012075009A (ja) * 2010-09-29 2012-04-12 Oki Networks Co Ltd 冗長化装置及び冗長化プログラム
JP2020173743A (ja) * 2019-04-15 2020-10-22 明京電機株式会社 障害監視復旧システム、その方法、およびそのプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1124966A (ja) * 1997-07-02 1999-01-29 Nec Corp 障害情報管理システム
WO1999026138A1 (fr) * 1997-11-14 1999-05-27 Hitachi, Ltd. Procede de permutation dans un systeme multiplex
JP2007080012A (ja) * 2005-09-15 2007-03-29 Hitachi Ltd 再起動方法、システム及びプログラム
JP2007265137A (ja) * 2006-03-29 2007-10-11 Oki Electric Ind Co Ltd マルチタスク処理方法及びマルチタスク処理装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1124966A (ja) * 1997-07-02 1999-01-29 Nec Corp 障害情報管理システム
WO1999026138A1 (fr) * 1997-11-14 1999-05-27 Hitachi, Ltd. Procede de permutation dans un systeme multiplex
JP2007080012A (ja) * 2005-09-15 2007-03-29 Hitachi Ltd 再起動方法、システム及びプログラム
JP2007265137A (ja) * 2006-03-29 2007-10-11 Oki Electric Ind Co Ltd マルチタスク処理方法及びマルチタスク処理装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012075009A (ja) * 2010-09-29 2012-04-12 Oki Networks Co Ltd 冗長化装置及び冗長化プログラム
JP2020173743A (ja) * 2019-04-15 2020-10-22 明京電機株式会社 障害監視復旧システム、その方法、およびそのプログラム
JP7288662B2 (ja) 2019-04-15 2023-06-08 明京電機株式会社 障害監視復旧システム、その方法、およびそのプログラム

Similar Documents

Publication Publication Date Title
US6622261B1 (en) Process pair protection for complex applications
US9164864B1 (en) Minimizing false negative and duplicate health monitoring alerts in a dual master shared nothing database appliance
US20050283636A1 (en) System and method for failure recovery in a cluster network
JP4491482B2 (ja) 障害回復方法、計算機、クラスタシステム、管理計算機及び障害回復プログラム
US7373542B2 (en) Automatic startup of a cluster system after occurrence of a recoverable error
CN108737153A (zh) 区块链灾备系统、方法、服务器和计算机可读存储介质
JP5285045B2 (ja) 仮想環境における故障復旧方法及びサーバ及びプログラム
CN103902401A (zh) 基于监控的虚拟机容错方法及装置
CN118018463A (zh) 一种故障处理方法、装置、设备及可读存储介质
CN107038095B (zh) 用于冗余地处理数据的方法
CN117435405A (zh) 双机热备和故障切换系统和方法
JP2010055509A (ja) 障害復旧システム、方法及びプログラム、並びにクラスタシステム
JP5285044B2 (ja) クラスタシステム復旧方法及びサーバ及びプログラム
KR20140140719A (ko) 가상 머신 동기화 장치 및 시스템과 이를 이용한 장애 처리 방법
JP2007280155A (ja) 分散システムにおける信頼性向上方法
JP2004258936A (ja) モバイル通信端末及びそれに用いるフェイルセーフ方法並びにそのプログラム
JP3325785B2 (ja) 計算機の故障検出・回復方式
JP2006229512A (ja) サーバ切替方法,サーバ及びサーバ切替プログラム
US11010269B2 (en) Distributed processing system and method for management of distributed processing system
JP2015106226A (ja) 二重化システム
JP3022768B2 (ja) 仮想計算機システム
US20140297724A1 (en) Network element monitoring system and server
JP7056868B2 (ja) システム、計算機、システム制御方法及びプログラム
JP2011028481A (ja) フォールトトレラントサーバ、プロセッサ切り替え方法およびプロセッサ切り替えプログラム
CN117785568B (zh) 一种双主双机热备方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110322

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120911

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121109

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130423