JP2004334713A - 計算機システム、サービス継続制御プログラム - Google Patents

計算機システム、サービス継続制御プログラム Download PDF

Info

Publication number
JP2004334713A
JP2004334713A JP2003132255A JP2003132255A JP2004334713A JP 2004334713 A JP2004334713 A JP 2004334713A JP 2003132255 A JP2003132255 A JP 2003132255A JP 2003132255 A JP2003132255 A JP 2003132255A JP 2004334713 A JP2004334713 A JP 2004334713A
Authority
JP
Japan
Prior art keywords
computer
service
failure
predicted
executed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003132255A
Other languages
English (en)
Other versions
JP3930455B2 (ja
Inventor
Kenichi Mizoguchi
研一 溝口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2003132255A priority Critical patent/JP3930455B2/ja
Publication of JP2004334713A publication Critical patent/JP2004334713A/ja
Application granted granted Critical
Publication of JP3930455B2 publication Critical patent/JP3930455B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

【課題】システム管理者などが介在することなく、計算機に障害が発生する前に障害発生が予測される計算機上で動いているサービスを他の計算機に移し、障害発生が予測される計算機を正常に停止させることで安定した運用を実現する。
【解決手段】基底型サービスBS1の障害予測検出機能PFS1は、障害予測解析プロセスPFA1により計算機C1の障害発生の予測が通知されると、計算機C1でのサービスを停止状態とする。これにより、基底型サービスBS1に対して強い依存関係にあるユーザサービスSVC1,SVC2が他の計算機C2,C3にスイッチオーバされる。障害計算機停止機能POF1は、全てのユーザサービスSVC1,SVC2のスイッチオーバが確認されると計算機C1を停止させる。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、複数台の計算機から構成されるクラスタ計算機システムに係り、特に障害予測機能を備えたクラスタ計算機システム及び同システムで実行されるサービス継続制御プログラムに関する。
【0002】
【従来の技術】
近年、計算機システムの障害によるビジネス等における損失の発生を抑えるための様々な技術が開発されている。例えば、計算機システムの障害発生を事前に予測し、被害を最小限にするための障害予測機能がある。障害予測機能としては、例えばPFA(Predictive Failure Analysis)機能が知られている(例えば、非特許文献1)。
【0003】
障害予測機能は、計算機に実装されたメモリ、プロセッサ、ハードディスク、ファン、電源装置などに障害が発生しそうな場合、これを予測してシステム管理者に事前に障害発生の危険性を通知することができる。
【0004】
システム管理者は、障害予測機能から障害発生の危険性を通知されると、当該計算機で実行されているサービスを正常終了させ、実行可能な計算機のリソースを調整して再実行させるといった処置(スイッチオーバ)を計算機に実行させる。
【0005】
システム管理者は、故障が予測されている計算機の全サービスのスイッチオーバを確認すると、当該計算機の障害が計算機システムに影響を起こさないように停止させるなどの操作を行う。
【0006】
また、複数のサーバ(計算機)でシステムを構成し、一部のサーバが障害を起こしてもサービスを他の計算機で引き継ぐことでシステム全体を停止させないクラスタシステムが開発されている(例えば、非特許文献2)。高可用性(HA:High Availability)型のクラスタシステムは、障害が発生したときに障害が発生したシステムで実行していたサービスを予め設定されているポリシーに従い適当な計算機にフェイルオーバする。
【0007】
【非特許文献1】
「4.e−businessを支えるIBMのNetfinity(第一部 インタビュー(IBMの最新PCサーバテクノロジー))」、ビジネスコミュニケーション、ビジネスコミュニケーション株式会社、1999年、6月号
【0008】
【非特許文献2】
金子哲夫、他1名、「クラスタソフトウェア」、東芝レビュー、1999年、Vol.54、No.12、p.18−21
【0009】
【発明が解決しようとする課題】
このように従来の計算機システムでは、障害予測機能によって、障害発生以前にサービスのスイッチオーバや障害計算機の停止などの処置を実行させるようになった。しかしながら、その処置を実行させるには、障害予測機能からの通知を受けたシステム管理者が操作する必要があった。
【0010】
また、クラスタシステムでは、障害発生後にサービスのフェイルオーバを行うために、フェイルオーバ後のサービスの起動をかける前に障害復旧処理などの作業を行う必要があった。
【0011】
本発明は前記のような事情を考慮してなされたもので、システム管理者などが介在することなく、計算機に障害が発生する前に障害発生が予測される計算機上で動いているサービスを他の計算機に移し、障害発生が予測される計算機を正常に停止させることで安定した運用を実現することが可能な計算機システム、サービス継続制御プログラムを提供することを目的とする。
【0012】
【課題を解決するための手段】
本発明によれば、複数の計算機から構成される計算機システム(例えばクラスタ計算機システム)が提供される。このシステムは、計算機の障害発生を予測する障害予測手段を利用し、サービス管理手段により、前記障害予測手段によって障害発生が予測された計算機上で稼働している全てのサービスを正常終了させると共に当該サービスを他の計算機上で再実行させ(スイッチオーバ)、障害計算機停止手段により、前記サービス管理手段により全てのサービスが前記他の計算機で再実行された後に、前記障害予測手段によって障害発生が予測された計算機を停止させる。
【0013】
このような構成においては、システム管理者などが介在することなく、計算機に障害が発生する前に、障害発生が予測される計算機上のサービスが正常に終了され、他の計算機上で再実行された後に、障害発生が予測される計算機が停止される。
【0014】
また本発明によれば、複数の計算機から構成される計算機システム(例えばクラスタ計算機システム)が提供される。このシステムは、サービス管理手段(クラスタシステム)によって、複数の計算機上で稼働状態になることで提供される第1のサービス(基底型サービス)に対して、第1のサービスが稼働状態にある計算機上でのみ稼働状態となり得る関係(強い依存関係)にある第2のサービス(ユーザサービス)が管理されている。また、前記サービス管理手段によって管理された第1のサービスが停止状態となった場合に、再実行手段(クラスタシステム)によって、当該第1のサービスが稼働していた計算機上で稼働している前記第2のサービスを正常終了させると共に、前記第2のサービスを他の計算機上で再実行させる。前記第1のサービスは、前記障害予測手段によって障害発生が予測された計算機での状態を停止状態にする障害予測検出手段と、前記障害予測検出手段により停止状態にされることにより前記再実行手段によって前記第2のサービスが前記他の計算機で再実行された後に、前記障害予測手段によって障害発生が予測された計算機を停止させる障害計算機停止手段とを有している。
【0015】
このような構成においては、計算機の障害発生を予測する障害予測手段を利用し、障害発生が予測された計算機では、第1のサービスに設けられた障害予測検出機能により第1のサービスを停止状態にすることで、この第1のサービスに対して強い依存関係にある第2のサービスが当該計算機上で正常終了されて他の計算機で再実行され(スイッチオーバ)、また障害計算機停止手段により第2のサービスが前記他の計算機で再実行された後に障害発生が予測された計算機が停止されるので、システム管理者などが介在することなく、計算機に障害が発生する前に、障害発生が予測される計算機上のサービスが正常に終了され、障害発生が予測される計算機が停止される。
【0016】
また本発明は、第1のサービス再実行手段が計算機上で稼働されるサービスに組み込まれ、前記障害予測手段によって障害発生が予測された場合にサービスを正常終了させると共に、当該サービスを他の計算機上で再実行させる(スイッチオーバ)。第1の障害計算機停止手段は、前記障害予測手段によって障害発生が予測された計算機を、前記第1のサービス再実行手段によって当該計算機上で稼働されていたサービスが前記他の計算機で再実行された後に停止させる。
【0017】
このような構成においては、システム管理者などが介在することなく、計算機に障害が発生する前に、障害発生が予測される計算機上のサービスが正常に終了され、他の計算機上で再実行された後に、障害発生が予測される計算機が停止される。
【0018】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について説明する。
【0019】
本発明による計算機システムは、HA(High Availability)型のクラスタシステムと障害予測機能を組み合わせることによって、計算機に障害が発生する前に故障の発生が予測される計算機上で動いているサービスを事前に他の計算機に移して、なおかつ障害発生が予測される計算機を正常に停止させることを、システム管理者などが操作を行なうことなく実現できるようにする。
【0020】
図1は本発明の第1実施形態に係る計算機システム(クラスタ計算機システム)のシステム構成を示すブロック図である。
【0021】
図1に示すクラスタ計算機システムは、各種のサービス(アプリケーションプログラム)を提供可能なn(nは2以上の自然数)台のサーバ計算機(以下、単に計算機と称する)から構成される。なお、図1では、説明を容易にするために3台の計算機C1,C2,C3を示している。計算機C1,C2,C3は、ネットワークNにより相互に接続されている。ネットワークNには、クラスタ計算機システム内の計算機C1,C2,C3からサービスの提供を受けるクライアント端末(図示せず)が接続されている。
【0022】
計算機C1,C2,C3は、稼働中であり、それぞれオペレーティングシステムOS−1,OS−2,OS−3が動作している。
【0023】
また、計算機C1,C2,C3は、クラスタとしての制御を司るためのクラスタ制御機構CS1−1,CS1−2,CS1−3をそれぞれ備えている。クラスタ制御機構CS1−1,CS1−2,CS1−3は、それぞれネットワークNを介して互いに通信しながら同一の処理を実行する。これにより、クラスタ制御機構CS1−1,CS1−2,CS1−3は、クラスタ計算機システム全体で1つの仮想的なHA型のクラスタシステムCS1を構成する。
【0024】
クラスタシステムCS1は、サービスを起動、停止する計算機を決定するもので、何れの計算機で何れのサービスを実行させるかを決定すると共に、何れの計算機で実行されている何れのサービスを停止させるかを決定する。第1実施形態のクラスタシステムCS1は、各計算機C1,C2,C3で起動されているサービス間の依存関係を設定する。第1実施形態におけるサービス間の依存関係としては「強い依存関係」がある。例えば、第1実施形態では、基底型サービスBS1(第1のサービス)に対して、ユーザが作成したユーザサービスSVC1,SVC2(第2のサービス)が強い依存関係に設定される。ユーザサービスSVC1,SVC2は、強い依存関係にある基底型サービスBS1が稼働している計算機でのみ実行するようにクラスタシステムCS1により管理される。なお、ユーザサービスSVC1,SVC2は、計算機C1で動作し、計算機C2,C3を待機系としている。
【0025】
計算機C1,C2,C3では、基底型サービスBS1を実現するためのプログラムがそれぞれにおいて実行される。基底型サービスBS1は、複数の計算機で実行条件が成立すれば全ての計算機で稼働状態になる1つのサービスであり、障害予測検出機能PFS(PFS1,PFS2,PFS3)、及び障害計算機停止機能POF(POF1,POF2,POF3)を含んでいる。障害予測検出機能PFSは、障害予測解析プロセスPFAによって障害発生が予測された計算機での状態をエラー状態にする。障害計算機停止機能POFは、障害予測検出機能PFSにより基底型サービスBS1がエラー状態にされることにより、クラスタシステムCS1により基底型サービスBS1に対して強い依存関係のあるユーザサービスSVC1,SVC2がスイッチオーバされた後に、障害発生が予測された自信が動作している計算機を停止させる。
【0026】
計算機C1,C2,C3には、それぞれ障害予測解析プロセスPFA1,PFA2,PFA3が動作している。障害予測解析プロセスPFA1,PFA2,PFA3は、例えばOSやハードウェアに組み込まれて実現されるプロセスであり、計算機に実装されたメモリ、プロセッサ、ハードディスク、ファン、電源装置などの障害発生を予測し、障害が発生する可能性がある場合にオペレータやシステムに対して通知する機能を持つ。
【0027】
次に、第1実施形態におけるクラスタ計算機システムの動作について説明する。図2は、第1実施形態におけるクラスタシステムCS1のスイッチオーバに係わる処理の流れを示すフローチャート、図3は、障害計算機停止機能POFの処理の流れを示すフローチャートである。
【0028】
ここでは、計算機C1において、基底型サービスBS1に対して強い依存関係があるように設定されユーザサービスSVC1,SVC2が動作しているものとする(なお、図1は計算機C1において障害発生が予測されことにより、ユーザサービスSVC1,SVC2がスイッチオーバされた後、計算機C1が停止された状態を表している)。
【0029】
計算機C1では、障害予測解析プロセスPFA1が動作しており、ハードウェア等に障害が発生する可能があるか予測している。ここで、障害予測解析プロセスPFA1は、障害発生の可能性が予測された場合、オペレータやシステムに対して通知する。
【0030】
基底型サービスBS1は、システムを通じて障害予測解析プロセスPFA1より障害予測の通知を受けると、計算機C1上の基底型サービスBS1の状態をエラー状態とする。この時、計算機C2,C3上で動作している基底型サービスBS1の状態は稼動状態である。
【0031】
クラスタシステムCS1(計算機C1上で動作しているクラスタ制御機能CS1−1)は、計算機C1で基底型サービスBS1がエラー状態であると感知すると(図2、ステップA1、Yes)、基底型サービスBS1に対して強い依存関係を持つユーザサービスSVC1,SVC2が計算機C1で稼動できないと判断する。
【0032】
この判断の結果、クラスタシステムCS1は、ユーザサービスSVC1,SVC2が強い依存関係のある基底型サービスBS1が正常に稼動している計算機C2,C3を検出し(ステップA2)、各ユーザサービスSVC1,SVC2を稼働させる計算機を選択する(ステップA3)。例えば、各ユーザサービスSVC1,SVC2に対して最適な計算機、例えば予めユーザサービスに対して設定されている優先度や、各計算機の負荷状態などに基づいて決定される最適な計算機を選択する。ここでは、ユーザサービスSVC1に対して計算機C2、ユーザサービスSVC2に対して計算機C3が選択されたものとする。
【0033】
クラスタシステムCS1は、ユーザサービスSVC1,SVC2を、それぞれ基底型サービスBS1が正常に稼働している計算機C2,C3にスイッチオーバする(ステップA4)。すなわち、計算機C1上で正常終了させ、計算機C2,C3においてそれぞれ再実行させる。
【0034】
一方、基底型サービスBS1の障害計算機停止プロセスPOF1は、障害予測解析プロセスPFA1から計算機C1に障害発生の可能性のあることが通知されると(ステップB1、Yes)、基底型サービスBS1に対して強い依存関係のあるサービスが実行中であるかを判別する(ステップB2)。
【0035】
ここで、実行中の強い依存関係のあるユーザサービスSVCが実行中である場合(ステップB2、Yes)、障害計算機停止機能POF1は、一定時間スリープして(ステップB3)、その後、再度、実行中のサービスの有無を判別する(ステップB2)。
【0036】
基底型サービスBS1には、強い依存関係のあるサービスが全て無くなった後にリセット処理を行うように設定してある。ユーザーサービスSVC1,SVC2が計算機C1で停止したことを確認すると、リセット処理として、障害計算機停止機能PFO1は、自身が動作している計算機C1上で、他に障害計算機停止機能をもつサービス(例えば、基底型サービスBS1と同等の機能を持つ基底型サービスBS2,…)の有無を確認する(図3、ステップB4)。
【0037】
すなわち、障害計算機停止機能PFO1でリセット処理が実行される場合、基底型サービスBS1に対して強い依存関係のあるユーザサービスが計算機C1に無い状態にあるが、他に障害計算機停止機能をもつ基底型サービスがある場合には、この他のサービスに対して強い依存関係が設定され計算機C1上で動作しているユーザサービスが存在している可能性がある。
【0038】
ここで、他に障害計算機停止機能をもつサービスが稼働していた場合(ステップB4、Yes)、障害計算機停止プロセスPOF1は、一定時間スリープして(ステップB5)、その後、再度、他のサービスの実行の有無を判別する(ステップB4)。一定時間スリープすることで、他のサービスが障害予測解析プロセスPFA1からの通知によりエラー状態となり、このサービスに対して強い依存関係のあるユーザサービスについてスイッチオーバされるのを待つ。これにより、障害計算機停止機能をもつ複数のサービスが計算機C1上で稼働していたとしても、ユーザサービスが稼働している時に計算機C1を停止させることがない。
【0039】
障害計算機停止プロセスPOF1は、他に障害計算機停止機能をもつサービスが無いことを確認すると(ステップB4、No)、障害が予測された計算機C1を停止させる(ステップB6)。
【0040】
ここで、基底型サービスBS1は、計算機C1では停止状態となる。しかし、計算機C2,C3では稼動状態のままである。ユーザサービスSVC1は、計算機C2上で稼働状態となり、ユーザサービスSVC2は、計算機C3上で稼働状態となる(図1に示す状態)。
【0041】
ところで、その後、計算機C1が復旧されると、基底型サービスBS1は、計算機C1で起動され稼動状態となる。ユーザサービスSVC1,SVC2を実行するのに最適な計算機が計算機C1である場合、クラスタシステムCS1は、計算機C1上で基底型サービスBS1が稼働状態にあることから、次のスケジュールのタイミングでユーザサービスSVC1,SVC2を計算機C1へスイッチオーバする。
【0042】
このようにして、第1実施形態のクラスタ計算機システムでは、障害予測解析プロセスPFA1から、計算機C1について障害発生の可能性があることが通知された場合に、基底型サービスBS1を障害予測検出機能PFS1によりエラー状態にすることで、基底型サービスBS1に対して強い依存関係にあるユーザサービスSVC1,SVC2を他の計算機C2,C3にスイッチオーバさせる。基底型サービスBS1の障害計算機停止機能POF1は、ユーザサービスSVC1,SVC2がスイッチオーバされることで、障害が発生する前に計算機C1を正常に停止させることができる。
【0043】
(第2実施形態)
次に、本発明の第2実施形態について説明する。
【0044】
第2実施形態における第1実施形態との違いは、ユーザーサービス毎に障害予測対応スイッチオーバ機能を組み込み、基底型サービスBSとしてではなく各計算機C1,C2,C3に障害計算機停止プロセスPOF1,POF2,POF3を実行させる。
【0045】
図4は本発明の第2実施形態に係る計算機システム(クラスタ計算機システム)のシステム構成を示すブロック図である。なお、第1実施形態で説明した構成(図1)と共通する部分については説明を省略する。
【0046】
第2実施形態において、最初の状態において、ユーザサービスSVC1,SW2は計算機C1で動作し、計算機C2,C3を待機系としている。また、ユーザサービスSVC3は、計算機C3で動作し、計算機C1,C2を待機系としている(なお、図4は計算機C1において障害発生が予測されことにより、ユーザサービスSVC1,SVC2がそれぞれ計算機C2,C3にスイッチオーバされた状態を表している)。
【0047】
計算機C1,C2,C3では、障害予測対応スイッチオーバ機能SW1,SW2,SW3を実現するためのプログラムがそれぞれにおいて実行されることで、ユーザサービスSVC1,SVC2,SVC3に対して、障害予測対応スイッチオーバ機能SW1,SW2,SW3がそれぞれ組み込まれる。
【0048】
例えば、ユーザサービスSVC1の障害予測対応スイッチオーバ機能SW1は、障害予測解析プロセスPFA1からの通知を待ち、障害予測解析プロセスPFA1からの通知を受けると、計算機C1でのサービスSVC1の処理を正常終了させ、クラスタシステムに設定されたポリシーに従い待機系である計算機C2でユーザサービスSVC1を正常に起動させるスイッチオーバを行う。
【0049】
また、計算機C1,C2,C3では、障害計算機停止プロセスPOF1,POF2,POF3を実現するためのプログラムが実行されることで、障害計算機停止プロセスPOF1,POF2,POF3が動作する。
【0050】
障害予測対応スイッチオーバ機能SW1,SW2,SW3は、組み込み先のユーザサービスSVC1,SVC2,SVC3がそれぞれの計算機C1,C2,C3上で処理を実行する場合に、対応する障害計算機停止プロセスPOF1,POF2,POF3に対して処理の実行を登録する。
【0051】
次に、第2実施形態におけるクラスタ計算機システムの動作について説明する。図5は、第2実施形態における障害予測対応スイッチオーバ機能SWの処理の流れを示すフローチャート、図6は、障害計算機停止プロセスPOFの処理の流れを示すフローチャートである。
【0052】
計算機C1では、障害予測解析プロセスPFA1が動作しており、ハードウェア等に障害が発生する可能があるか予測している。ここで、障害予測解析プロセスPFA1は、障害発生の可能性が予測された場合、オペレータやシステムに対して通知する。
【0053】
ユーザサービスSVC1の障害予測対応スイッチオーバ機能SW1は、システムを通じて障害予測解析プロセスPFA1からの通知を受けると(図5、ステップC1、Yes)、計算機C1でのサービスSVC1の処理を正常終了させる(ステップC4)。
【0054】
障害予測対応スイッチオーバ機能SW1は、HA型のクラスタシステムCS1に設定されたポリシーに従い、待機系であるユーザサービスSVC1に対して最適な計算機C2でユーザサービスSVC1を正常に起動させるスイッチオーバを行う(ステップC5)。
【0055】
同様にして、ユーザサービスSVC2の障害予測対応スイッチオーバ機能SW2は、障害予測解析プロセスPFA1からの通知を受けると(ステップC1、Yes)、計算機C1でのサービスSVC2の処理を正常終了させ(ステップC4)、待機系であるユーザサービスSVC2に対して最適な計算機C3でユーザサービスSVC1を正常に起動させる(ステップC5)。
【0056】
ところで、各ユーザサービスSVCに組み込まれた障害予測対応スイッチオーバ機能SWは、障害予測解析プロセスPOFからの通知が無い場合は(ステップC1,No)、サービスを実行するのにより最適な計算機があるかをチェックする(ステップC2)。ここで、障害予測対応スイッチオーバ機能SWは、サービスを実行するのにより最適な計算機が無い場合には(ステップC2,No)、一定時間スリープし(ステップC3)、その後、同様にして最適な計算機があるかをチェックする。
【0057】
最適な計算機がある場合(ステップC2、Yes)、障害予測対応スイッチオーバ機能SWは、現在、稼動中の計算機CでのユーザサービスSVCを正常終了し(ステップC4)、最適な計算機で再起動を実施する(ステップC5)。
【0058】
図4に表す状態では、計算機C1に障害が発生する可能性があったため、ユーザサービスSVC1,SVC2がそれぞれスイッチオーバされて、計算機C2,C3上でそれぞれ動作している。ここで、計算機C1が復旧された場合、ユーザサービスSVC1,SVC2に対して最適な計算機が計算機C1であるとすると、計算機C2上で動作しているユーザサービスSVC1は、障害予測対応スイッチオーバ機能SW1によって、自動的に計算機C1にスイッチバックされることになる。同様にして、計算機C3上で動作しているユーザサービスSVC2は、障害予測対応スイッチオーバ機能SW2によって計算機C1で再起動される。
【0059】
障害予測解析プログラムPFA1から通知のあった計算機C1は、障害発生が予測された原因が解消されるまで最適な計算機と選択されることは無い。
【0060】
ところで、計算機C1〜C3では、障害計算機停止プロセスPF1〜PF3が図6に示すフローチャートの手順に従い稼動している。
【0061】
障害計算機停止プロセスPOFは、障害予測対応スイッチオーバ機能SWにより処理の実行が登録されており、自身が動作する計算機C上で実行中のユーザサービスSVCを把握している。最初の状態において、障害計算機停止プロセスPOF1は、計算機C1上でユーザサービスSVC1,SVC2が動作している情報を有している。
【0062】
障害計算機停止プロセスPOF1は、障害予測解析プロセスPFA1から計算機C1に障害発生の可能性のあることが通知されると(ステップD1、Yes)、障害予測対応スイッチオーバ機能SWからの通知により有している情報をもとに、実行中のユーザサービスSVCがあるかを判別する(ステップD2)。
【0063】
ここで、実行中のユーザサービスSVCがある場合(ステップD2、Yes)、障害計算機停止プロセスPOF1は、一定時間スリープして(ステップD3)、その後、再度、実行中のサービスの有無を判別する(ステップD2)。
【0064】
実行中のユーザサービスSVCが無い場合(ステップD2、No)、障害計算機停止プロセスPOF1は、自身が動作している計算機C1上で、他に障害計算機停止プロセスPOF(例えば、障害計算機停止プロセスPOF2,…)の有無を確認する(ステップD4)。
【0065】
すなわち、他に障害計算機停止プロセスPOFが動作している場合には、このプロセスPOFが管理しているユーザサービスSVCが計算機C1上で動作している可能性がある。
【0066】
ここで、他に障害計算機停止プロセスPOFが動作していた場合(ステップD4、Yes)、障害計算機停止プロセスPOF1は、一定時間スリープして(ステップD5)、その後、再度、他の障害計算機停止機能POFの有無を判別する(ステップD4)。
【0067】
障害計算機停止プロセスPOF1は、他に障害計算機停止機能POFが無いことを確認すると(ステップD4、No)、障害が予測された計算機C1を停止させる(ステップD6)。
【0068】
これにより、複数の障害計算機停止プロセスPOFが同一計算機C1で起動されていても、確実に全ての障害計算機停止機能POFが終了した後、すなわち他の障害計算機停止機能POFが管理するユーザサービスSVCについてもスイッチオーバされた後に計算機C1の復旧処理を実施することができる。
【0069】
このようにして、第2実施形態のクラスタ計算機システムでは、各ユーザサービスSVC1,SVC2に障害予測対応スイッチオーバ機能SW1,SW2を組み込み、障害予測解析プロセスPFA1から、計算機C1について障害発生の可能性があることが通知された場合に待機系の他の計算機C2,C3にスイッチオーバする。障害計算機停止プロセスPOF1は、障害発生の可能性のある計算機C1上で動作している全てのユーザサービスSVC1,SVC2(他の障害計算機停止機能POFが管理する他のユーザサービスSVCを含む)がスイッチオーバされた後、障害が発生する前に計算機C1を正常に停止させることができる。
【0070】
なお、上述した実施形態において記載した手法は、コンピュータに実行させることのできるプログラムとして、例えば磁気ディスク(フレキシブルディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリなどの記録媒体に書き込んで各種装置に提供することができる。また、通信媒体により伝送して各種装置に提供することも可能である。本システムを実現するコンピュータ(計算機)は、記録媒体に記録されたプログラムを読み込み、または通信媒体を介してプログラムを受信し、このプログラムによって動作が制御されることにより、上述した処理を実行する。
【0071】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【0072】
【発明の効果】
以上詳述したように本発明によれば、システム管理者などが介在することなく、計算機に障害が発生する前に障害発生が予測される計算機上で動いているサービスを他の計算機に移し、障害発生が予測される計算機を正常に停止させることで安定した運用を実現することが可能となる。
【図面の簡単な説明】
【図1】本発明の第1実施形態に係る計算機システム(クラスタ計算機システム)のシステム構成を示すブロック図。
【図2】第1実施形態におけるクラスタシステムCS1のスイッチオーバに係わる処理の流れを示すフローチャート。
【図3】第1実施形態における障害計算機停止機能POFの処理の流れを示すフローチャート。
【図4】本発明の第2実施形態に係る計算機システム(クラスタ計算機システム)のシステム構成を示すブロック図。
【図5】第2実施形態における障害予測対応スイッチオーバ機能SWの処理の流れを示すフローチャート。
【図6】第2実施形態における障害計算機停止プロセスPOFの処理の流れを示すフローチャート。
【符号の説明】
N…ネットワーク、C(C1,C2,C3)…計算機、SVC(SVC1,SVC2、SVC3)…ユーザサービス、BS1…基底型サービス、PFS…障害予測検出機能、POF…障害計算機停止機能、PFA…障害予測解析プロセス、CS1…クラスタシステム、CS1−1,CS1−2,CS1−3…クラスタ制御機能、OS(OS−1,OS−2,OS−3)…オペレーティングシステム、SW(SW1,SW2,SW3)…障害予測対応スイッチオーバ機能。

Claims (10)

  1. 複数の計算機から構成される計算機システムにおいて、
    前記計算機の障害発生を予測する障害予測手段と、
    前記障害予測手段によって障害発生が予測された計算機上で稼働している全てのサービスを正常終了させると共に、当該サービスを他の計算機上で再実行させるサービス管理手段と、
    前記サービス管理手段により全てのサービスが前記他の計算機で再実行された後に、前記障害予測手段によって障害発生が予測された計算機を停止させる障害計算機停止手段と
    を具備したことを特徴とする計算機システム。
  2. 複数の計算機から構成される計算機システムにおいて、
    前記計算機の障害発生を予測する障害予測手段と、
    前記複数の計算機上で稼働状態になることで提供される第1のサービスに対して、前記第1のサービスが稼働状態にある計算機上でのみ稼働状態となり得る関係にある第2のサービスを管理するサービス管理手段と、
    前記サービス管理手段によって管理された第1のサービスがエラー状態となった場合に、当該第1のサービスが稼働していた計算機上で稼働している前記第2のサービスを正常終了させると共に、前記第2のサービスを他の計算機上で再実行させる再実行手段とが設けられ
    前記第1のサービスは、
    前記障害予測手段によって障害発生が予測された計算機での状態をエラー状態にする障害予測検出手段と、
    前記障害予測検出手段によりエラー状態にされることにより前記再実行手段によって前記第2のサービスが前記他の計算機で再実行された後に、前記障害予測手段によって障害発生が予測された計算機を停止させる障害計算機停止手段と
    を具備したことを特徴とする計算機システム。
  3. 前記障害計算機停止手段は、
    前記障害予測手段によって障害発生が予測された計算機上で実行中の前記第2のサービスの有無を判別する第1の判別手段と、
    前記障害予測手段によって障害発生が予測された計算機上で実行中の他の第1のサービスの有無を判別する第2の判別手段と、
    前記第1の判別手段により実行中の前記第2のサービスが無いと判別され、かつ前記第2の判別手段により実行中の前記他の第1のサービスが無いと判別された場合に計算機を停止させる計算機停止手段を含むことを特徴とする請求項2記載の計算機システム。
  4. 前記第1の判別手段は、実行中の前記第2のサービスが有ると判別した場合、一定時間経過した後に再度判別し、
    前記第2の判別手段は、実行中の前記他の第1のサービスが有ると判別した場合、一定時間経過した後に再度判別することを特徴とする請求項3記載の計算機システム。
  5. 複数の計算機から構成される計算機システムにおいて、
    前記計算機の障害発生を予測する障害予測手段と、
    前記計算機上で稼働されるサービスに組み込まれ、前記障害予測手段によって障害発生が予測された場合にサービスを正常終了させると共に、当該サービスを他の計算機上で再実行させる第1のサービス再実行手段と、
    前記障害予測手段によって障害発生が予測された計算機を、前記第1のサービス再実行手段によって当該計算機上で稼働されていたサービスが前記他の計算機で再実行された後に停止させる第1の障害計算機停止手段と
    を具備したことを特徴とする計算機システム。
  6. 前記サービス再実行手段は、
    組み込まれたサービスの実行に最適な計算機が他にあるか判別する計算機判別手段と、
    前記計算機判別手段によって最適な計算機があると判別された場合に、サービスを正常終了させると共に、当該サービスを前記最適な計算機上で再実行させる第2のサービス再実行手段とを含むことを特徴とする請求項5記載の計算機システム。
  7. 前記第1の障害計算機停止手段は、
    前記障害予測手段によって障害発生が予測された計算機上で実行中のサービスの有無を判別する第1の判別手段と、
    前記障害予測手段によって障害発生が予測された計算機上で実行中の、前記第1の障害計算機停止手段と同等の機能をもつ第2の障害計算機停止手段の有無を判別する第2の判別手段と、
    前記第1の判別手段により実行中の前記第2のサービスが無く、かつ前記第2の判別手段により実行中の第2の障害計算機停止手段が無いと判別された場合に計算機を停止させる計算機停止手段を含むことを特徴とする請求項5記載の計算機システム。
  8. コンピュータを、
    ネットワークを介して接続された他の複数のコンピュータ上で実行されるプログラムと共に稼働状態となることで1つのサービスを提供する第1のサービス手段として機能させると共に、
    前記コンピュータに設けられた障害予測機能によって障害発生が予測された場合に前記第1のサービス手段の状態をエラー状態にする障害予測検出手段と、
    前記障害予測検出手段によりエラー状態にされることにより、前記第1のサービス手段に対して、前記第1のサービス手段が稼働状態にある計算機上でのみ稼働状態となり得る関係にある第2のサービスが、正常終了されて他の計算機で再実行された後に、前記コンピュータを停止させる障害計算機停止手段とに機能させるためのサービス継続制御プログラム。
  9. コンピュータを、
    前記コンピュータ上で稼働されるサービスに組み込まれて、前記コンピュータに設けられた障害予測機能によって障害発生が予測された場合にサービスを正常終了させると共に、当該サービスを他のコンピュータ上で再実行させるサービス再実行手段に機能させるためのサービス継続制御プログラム。
  10. コンピュータを、
    前記コンピュータに設けられた障害予測機能によって障害発生が予測された場合に、同コンピュータ上で稼働していた全てのサービスが停止された後、障害発生が予測された前記コンピュータを停止させる障害計算機停止手段に機能させるためのサービス継続制御プログラム。
JP2003132255A 2003-05-09 2003-05-09 計算機システム、サービス継続制御プログラム Expired - Fee Related JP3930455B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003132255A JP3930455B2 (ja) 2003-05-09 2003-05-09 計算機システム、サービス継続制御プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003132255A JP3930455B2 (ja) 2003-05-09 2003-05-09 計算機システム、サービス継続制御プログラム

Publications (2)

Publication Number Publication Date
JP2004334713A true JP2004334713A (ja) 2004-11-25
JP3930455B2 JP3930455B2 (ja) 2007-06-13

Family

ID=33507194

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003132255A Expired - Fee Related JP3930455B2 (ja) 2003-05-09 2003-05-09 計算機システム、サービス継続制御プログラム

Country Status (1)

Country Link
JP (1) JP3930455B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008052407A (ja) * 2006-08-23 2008-03-06 Mitsubishi Electric Corp クラスタシステム
WO2011111131A1 (ja) 2010-03-08 2011-09-15 日本電気株式会社 コンピュータシステム及び現用系コンピュータ並びに予備系コンピュータ
WO2013094006A1 (ja) * 2011-12-19 2013-06-27 富士通株式会社 プログラム、情報処理装置および方法
JP2015069283A (ja) * 2013-09-27 2015-04-13 日本電気株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008052407A (ja) * 2006-08-23 2008-03-06 Mitsubishi Electric Corp クラスタシステム
WO2011111131A1 (ja) 2010-03-08 2011-09-15 日本電気株式会社 コンピュータシステム及び現用系コンピュータ並びに予備系コンピュータ
US9128903B2 (en) 2010-03-08 2015-09-08 Nec Corporation Computer system, active system computer, and standby system computer
WO2013094006A1 (ja) * 2011-12-19 2013-06-27 富士通株式会社 プログラム、情報処理装置および方法
JPWO2013094006A1 (ja) * 2011-12-19 2015-04-27 富士通株式会社 プログラム、情報処理装置および方法
US9317394B2 (en) 2011-12-19 2016-04-19 Fujitsu Limited Storage medium and information processing apparatus and method with failure prediction
JP2015069283A (ja) * 2013-09-27 2015-04-13 日本電気株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Also Published As

Publication number Publication date
JP3930455B2 (ja) 2007-06-13

Similar Documents

Publication Publication Date Title
JP4420275B2 (ja) フェイルオーバクラスタシステム及びフェイルオーバクラスタシステムを用いたプログラムのインストール方法
US6477663B1 (en) Method and apparatus for providing process pair protection for complex applications
US7213246B1 (en) Failing over a virtual machine
US6978398B2 (en) Method and system for proactively reducing the outage time of a computer system
JP5578720B2 (ja) 高利用率と仮想化の観点から固体ドライブの管理を向上する方法
US7788524B2 (en) Fault-tolerant networks
JP4496093B2 (ja) 高可用性システムの遠隔エンタープライズ管理
JP5562444B2 (ja) クラスタシステムにおいてクラスタ非対応アプリケーションをフェールオーバーするためのシステムおよび方法
US8954784B2 (en) Reduced power failover
US9176834B2 (en) Tolerating failures using concurrency in a cluster
US7219254B2 (en) Method and apparatus for high availability distributed processing across independent networked computer fault groups
US20080215915A1 (en) Mechanism to Change Firmware in a High Availability Single Processor System
US20010056554A1 (en) System for clustering software applications
US20040083358A1 (en) Reboot manager usable to change firmware in a high availability single processor system
JP2004295738A (ja) 耐障害計算機システム、プログラム並列実行方法およびプログラム
JP2006004147A (ja) ディザスタリカバリシステム、プログラム及びデータベースのリカバリ方法
WO2006082657A1 (ja) マルチcpuコンピュータおよびシステム再起動方法
JP4873073B2 (ja) 情報処理装置及び情報処理装置の障害復旧方法
JP4155399B2 (ja) コンピュータ処理方法及びその実施システム並びにその処理プログラム
CN111327467A (zh) 一种服务器系统及其容灾备份方法和相关设备
JP3748339B2 (ja) 複数のデータストアの同期をとってデータ整合性を達成する方法
EP2524302B1 (en) Persistent application activation and timer notifications
US8015432B1 (en) Method and apparatus for providing computer failover to a virtualized environment
JP2009129409A (ja) 障害回復方法、計算機、クラスタシステム、管理計算機及び障害回復プログラム
JP5285045B2 (ja) 仮想環境における故障復旧方法及びサーバ及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050905

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060607

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20060711

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070306

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070308

R151 Written notification of patent or utility model registration

Ref document number: 3930455

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100316

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110316

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120316

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130316

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140316

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees