JP2002116920A - クラスタシステム、クラスタシステムにおける監視方法およびコンピュータプログラム - Google Patents

クラスタシステム、クラスタシステムにおける監視方法およびコンピュータプログラム

Info

Publication number
JP2002116920A
JP2002116920A JP2000305970A JP2000305970A JP2002116920A JP 2002116920 A JP2002116920 A JP 2002116920A JP 2000305970 A JP2000305970 A JP 2000305970A JP 2000305970 A JP2000305970 A JP 2000305970A JP 2002116920 A JP2002116920 A JP 2002116920A
Authority
JP
Japan
Prior art keywords
active
standby
failure
cluster
cluster management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000305970A
Other languages
English (en)
Inventor
Masa Tanaka
雅 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2000305970A priority Critical patent/JP2002116920A/ja
Publication of JP2002116920A publication Critical patent/JP2002116920A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 【課題】 クラスタシステムの管理を行うプロセスと、
そのプロセスが使うリソースを外部から監視し、システ
ムの動作に関係する問題点が発見された場合に、そのシ
ステムを停止させるクラスタシステムを提供することに
ある。 【解決手段】 運用系装置および待機系装置がネットワ
ークによって接続され、互いの状況を監視するクラスタ
システムであって、運用系装置および待機系装置のそれ
ぞれに備えられ、互いの情報のやりとりにより運用系/
待機系の判断を行うクラスタ管理手段と、運用系装置で
起動されるサービスプロセス実行手段と、それぞれに備
えられたクラスタ管理手段に異常がないか否かを検出す
る障害検出手段と、障害検出手段によって障害発生を検
出したときは前記サービスプロセスの処理を停止させ、
待機系装置を稼働させる手段とを含むことを特徴とする
クラスタシステムである。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】 本発明は、クラスタシステ
ムに関し、特にクラスタシステムにおける監視方法およ
びコンピュータプログラムに関する。
【0002】
【従来の技術】 システムの可用性を高める構成とし
て、同一のサービスを提供できる計算機を複数台用意し
ておき、現在サービスを提供している計算機に障害が発
生した場合には、用意されている他の正常な計算機に引
き継ぐことにより、サービスが使用不能になる時間を最
小限にする、いわゆるクラスタシステムがある。特開平
3−62235号公報には、各クラスタ毎に計算機ダウ
ンの監視機構を設けるダウン監視処理方式が提案されて
おり、また、特開平10−247911号公報には、各
サーバに状態変化監視部を設け、状態変化を共用管理部
へ通知するシステム監視情報管理方法が提案されてい
る。
【0003】
【発明が解決しようとする課題】 しかし、このような
従来システムにおいては、各機構が持つクラスタシステ
ムの監視を行うプロセスに異常終了、暴走、リソース障
害、高負荷によるスローダウンなどの障害が発生した場
合、他機構との情報のやり取りができなくなってしま
う。このため、各機構間で異なった情報に基づく行動を
してしまい、クラスタシステム動作の一貫性が保たれな
くなるといういわゆるスプリットブレイン現象が発生し
てしまう。本発明は前記事情に鑑みてなされたもので、
クラスタシステムの管理を行うプロセスと、そのプロセ
スが使うリソースを外部から監視して、システムの動作
に関係する問題点が発見された場合に、そのシステムを
停止させることにより、フェールセーフに且つスプリッ
トブレイン現象の発生を防止するクラスタシステムにお
ける監視方法を提供することにある。
【0004】
【課題を解決するための手段】 上記課題を解決するた
めに、本発明は、運用系装置および待機系装置がネット
ワークによって接続され、互いの状況を監視するクラス
タシステムにおける監視方法であって、前記運用系装置
および前記待機系装置の稼働中、互いの情報のやりとり
により運用系/待機系の判断を行うステップと、前記運
用系装置内の障害検出を行うステップと、前記障害検出
によって障害発生を検出したときは前記運用系装置の処
理を停止させ、前記待機系装置を稼働させるステップと
を含むことを特徴とするクラスタシステムにおける監視
方法である。従って、クラスタ管理部の動作監視を、監
視部に任せることで、外側から見た客観的な監視を行う
ことができる。また、クラスタ管理部の外部にある監視
部を使用することで、クラスタ管理部が異常終了し、ク
ラスタ管理ができなくなってしまう障害を監視すること
ができる。また、どのようなプロセスであっても、異常
終了させるような不安定なシステムを外部の監視部がO
Sに対して自動的に終了させるようにするため、大規模
な異常が発生する前に、フェイルセーフにサービスを移
行で、サービスプロセスが二重に立ち上がらなくなり、
スプリットブレイン現象を防ぐことができる。
【0005】
【発明の実施の形態】 以下、本発明の実施の形態につ
いて図面を参照して説明する。 (第1の実施の形態)図1は、本発明に係るクラスタシ
ステムの一実施例の形態を示すブロック構成図である。
このシステムは、計算機0および計算機1がネットワー
クにより接続されているクラスタシステムであり、プロ
セスの存在を確認するものである。計算機0は、サービ
ス処理部4を動作させることにより、現時点においてサ
ービスを提供している側の運用系の計算機である。クラ
スタシステムでは、運用系計算機である計算機0が障害
を起こした場合、現在運用系として稼働している計算機
0に代わって自らが運用系となってサービスを提供でき
るよう待機系の計算機である計算機1が待機している。
クラスタシステムでは、サービス処理部4の起動、終了
などの管理は、すべてクラスタ管理部3、7が行う。ま
た、計算機0と計算機1は、クラスタ管理部3、7を共
に動作させることにより、それぞれの系情報を通信する
ことで、運用系/待機系の役割をし、クラスタシステム
を構成している。計算機0では、まず最初に、クラスタ
管理部3が起動され、待機している計算機1で起動され
たクラスタ管理部7と連携をとり、計算機0が運用系計
算機であるか、待機系計算機であるかの決定を行う。こ
こでは、計算機0が運用系であるとする。
【0006】次に、監視部2を起動させる。監視部2
は、クラスタ管理部3が存在しているか否かの定期的な
監視を開始する。そして、計算機0は、サービス処理部
4を立ち上げサービスを行う。一方、計算機1は、クラ
スタ管理部7を立ち上げる。そして、クラスタ管理部3
からの計算機0が運用系計算機であったときは、その情
報により、クラスタ管理部7は、自分が待機系計算機だ
と判断する。次に、計算機1は監視部6を起動させる。
監視部6は、クラスタ管理部7が存在しているか否かの
定期的な監視を開始する。次に、図2を用いて監視部2
の動作を説明する。まず、監視部2は、クラスタ管理部
3が強制終了、異常状態などの予知しない原因により終
了していないか(存在しているか)の定期的な監視を開
始する(S1)。そして、クラスタ管理部3に障害が発
生しているか否かを判断する(S2)。ここで障害が発
生していないと判断された場合には、一定時間障害発生
確認(存在確認)を停止し(S3)、障害が発生してい
ると判断された場合には、機構(各系)全体を終了させ
る(S4)。監視部6についても上記と同様で、監視部
6は、クラスタ管理部7が存在しているか否かの定期的
な監視を開始する(S1)。そして、クラスタ管理部7
に障害が発生しているか否かを判断する(S2)。ここ
で障害が発生していないと判断された場合には、一定時
間障害発生確認(存在確認)を停止し(S3)、障害が
発生していると判断された場合には、機構(各系)全体
を終了させる(S4)。
【0007】従って、クラスタ管理部3、7の動作監視
を、クラスタ管理部3、7よりも負荷が低い監視部2、
6に任せることで、外側から見た客観的な監視を行うこ
とができる。また、クラスタ管理部3、7の外部にある
監視部2、6を使用することで、クラスタ管理部3、7
が異常終了し、クラスタ管理ができなくなってしまう障
害を監視することができる。また、定期的な外部からの
監視を行うことによって、クラスタ管理部3、7の異常
終了がわかる。つまり、どのようなプロセスであって
も、異常終了させるようなシステムは不安定である。そ
れを外部の監視部がOSに対して自動的に終了させるよ
うにするため、大規模な異常が発生する前に、フェイル
セーフにサービスを移行できる。さらに、計算機0のク
ラスタ管理部3が監視部2により存在しないと判断され
た場合、機構の動作を終了させることで、クラスタシス
テムによって管理できていない計算機0のサービスプロ
セスの動作を停止させることができる。これにより、ク
ラスタ管理部7は、クラスタ管理部3が存在しないこと
がわかり、計算機1を運用系計算機として立ち上げる。
そして、計算機1内に、サービス処理部4と同様のサー
ビス部を立ち上げる。このことにより、サービスプロセ
スが二重に立ち上がらなくなり、スプリットブレイン現
象を防ぐことができる。
【0008】(第2の実施の形態)図3は、本発明に係
るクラスタシステムの他の実施例の形態を示すブロック
構成図である。ここで、OS管理情報部12、17は、
機構を制御するオペレーションシステムが持つ管理情報
である。このOS管理情報部12、17は、各プロセス
を起動させるために必要な全ての情報「プロセス情報」
を持つ。また、クラスタ管理部16は、クラスタ管理部
のプロセス情報13に対応付けられており、クラスタ管
理部19は、クラスタ管理部のプロセス情報18に対応
付けられている。また、計算機10のクラスタ管理部1
6と、計算機11のクラスタ管理部19は、ネットワー
クを通じて特定のパケットを定期的に送受信しており、
一定時間内にパケットが相手系から受信された場合、相
手系が正常に動作していると認識する。この通信を、ハ
ートビートの送受信という。計算機10では、まず、ク
ラスタ管理部16が起動され、同時にOS管理情報部1
2の中にクラスタ管理プロセスの処理情報13が生成さ
れる。次に、クラスタ管理部16は、クラスタ管理部1
9と連絡を取り合い(ハートビートの送受信を行い)自
分が運用系か、待機系かを決定する。ここでは、計算機
10が運用系であるとする。
【0009】次に、クラスタ管理部16の起動後、クラ
スタ管理部16の実行優先度よりも監視部15の方が優
先度が高くなるように監視部15を起動する。次に、ク
ラスタ管理部16は、サービス処理部14を起動する。
一方、計算機11は、クラスタ管理部19を起動すると
同時に、OS管理情報部17の中にクラスタ管理プロセ
スのプロセス情報18を生成する。次に、監視部20を
起動し、定期的な監視を行う。次に、図4を用いて監視
部15の動作を説明する。まず、監視部15は、クラス
タ管理部16よりも優先度が高くなるように設定する
(S11)。次に、現在時刻をOSから取得しAとする
(S12)。次に、監視部15は、クラスタ管理プロセ
スのプロセス情報18の情報を参照して、プロセス/ス
レッドの最終時刻をOSから取得しBとする(S1
3)。次に、AとBの差を算出する(S14)。ここ
で、所定のしきい値と前述の差を比較し、しきい値の方
が小さい場合には、一定時間障害発生確認(存在確認)
を停止し(S16)、しきい値の方が大きい場合には、
機構(各系)全体を終了させる(S17)。監視部20
についても同様で、監視部20をクラスタ管理部19よ
りも優先度が高くなるように設定する(S11)。次
に、現在時刻をOSから取得しAとする(S12)。次
に、監視部20は、クラスタ管理プロセスのプロセス情
報18の情報を参照して、処理/スレッドの最終時刻を
OSから取得しBとする(S13)。次に、AとBの差
を算出する(S14)。ここで、所定のしきい値と前述
の差を比較し、しきい値の方が小さい場合には、一定時
間障害発生確認(存在確認)を停止し(S16)、しき
い値の方が大きい場合には、機構(各系)全体を終了さ
せる(S17)。
【0010】従って、クラスタ管理部16のプロセス/
スレッド最終動作時間と所定のしきい値を比較すること
により、クラスタ管理部16が使用しているリソースの
障害による極端なスローダウンを監視でき、それにより
不安定な機構をフェイルセーフにシステムを停止、再起
動等行うことで、未然にクラスタシステムの不正動作を
防ぐことができる。また、クラスタ管理プロセスの動作
監視を、クラスタ管理プロセスよりも軽快でクラスタ管
理プロセスのプロセス優先度以上の監視専用プログラム
にさせることにより、クラスタ管理プロセスよりもスロ
ーダウンに強くなり、クラスタ管理プロセスのスローダ
ウン監視を行うことができる。さらにまた、運用系の計
算機0がもつプロセス全てがスローダウン状態になった
場合、待機系の計算機1がハートビートを送出しなくな
ったと認識してサービス処理を起動した際にはスプリッ
トブレイン現象が発生するが、スローダウン状態から復
帰した際には処理優先度が比較的高い専用の監視プロセ
スが機構全体を停止させてくれるため、スプリットブレ
イン現象が発生している時間を最少にすることができ
る。 (第3の実施の形態)図5は、本発明に係るクラスタシ
ステムの他の実施例の形態を示すブロック構成図であ
る。
【0011】ここで、ディスクIOキューとは、ディス
クへの書き込み要求を並べているものである。計算機3
0では、まず、クラスタ管理部36が起動される。次
に、監視部44が起動される。そして、クラスタ管理部
43は、クラスタ管理部36と通信を行い、計算機1が
待機系の計算機であることを決定する。次に、クラスタ
管理部36は、自分の動き、行動情報をディスク34に
書込むために、OSに対して書込み要求を行いOSがO
SのIOキュー32に対して、キューイングする。次
に、OSは、ディスクIOキュー32により、書込み要
求33がある場合、ディスク34に対して書込みを行
う。また、クラスタ管理部36の起動後、監視部37が
起動される。クラスタ管理部36とクラスタ管理部43
は、互いに通信を行い、運用系か待機系かを決定する。
ここで、計算機30が運用系とする。そして、運用系と
なったのクラスタ管理部36は、サービス処理部38を
生成する。一方、待機系計算機31は、クラスタ管理部
43を起動する。クラスタ管理部43は、自分の動作、
行動の情報をディスク41への書込むためにOSに対し
て書込み要求を行い、OSがOSのIOキュー39に対
しキューイングする。
【0012】次に、図6を用いてファイル書込動作を説
明する。まず、監視部37は、監視部37が持つ所定の
しきい値にしたがって、タイマ設定を行う(S31)。
次に、監視部37は、ディスク34に対して同期を用い
た書込要求をOSに対し行う(S32)。次に、OSは
OSのディスクIOキュー32に監視部37から受け取
った書込要求をキューイングする(S33)。次に、タ
イマ設定された時間が終了した後、その時点で書込要求
が終了しているか否か判断する(S34)。ここで、書
込要求が終了されていなければ、一定時間障害発生確認
(存在確認)を停止し(S35)、書込要求が終了され
ていれば、機構(各系)全体を終了させる(S36)。
一方、非同期書込みの場合には、監視部37は、現在処
理中の書込要求がいくつあるかをカウントし(S4
1)、書込要求数が監視部37の持っているしきい値を
越えているかの判断を行う(S42)。ここで、しきい
値を越えていない時は、非同期を用いて書込み(S4
3)、一定時間障害発生確認(存在確認)を停止し(S
44)、しきい値を越えている場合には、機構(各系)
全体を終了させる(S45)。従って、クラスタ管理プ
ロセスの外部にクラスタ管理プロセスの使用するディス
クを監視するプロセスを作ることで、クラスタ管理プロ
セスの処理にアラームやシグナルなどの複雑な処理を持
つ必要が無くなる。
【0013】また、クラスタ管理プロセスと関係ない独
立した監視部がディスクチェックすることで、クラスタ
管理プロセスが書込要求のためにロックした場合であっ
ても、客観的にクラスタシステムの制御を行うことがで
きる。また、ディスク監視プロセスが、定期的にクラス
タ管理プロセスが使用するディスクを監視することで、
ディスクの不調・故障などによるリトライなどを事前に
察知することができ、未然にフェールセーフに機構を停
止することができる。 (第4の実施の形態)図7は、本発明に係るクラスタシ
ステムの他の実施例の形態を示すブロック構成図であ
る。監視部53は、クラスタ管理部52に問題が生じて
いないか確認をとり、監視部57は、クラスタ管理部5
6に問題が生じていないか確認をとり、お互い通信し合
っている。計算機50は、旧運用系の計算機であり、ス
プリットブレイン現象が発生したために停止すべきはず
であるが、停止していない系である。計算機50で障害
発生が起きると、計算機54は、その障害を発見し、自
ら運用系計算機になることを決定する。次に、クラスタ
管理部56は、計算機54が運用系計算機になったた
め、クラスタ管理部56を起動させる。このことによ
り、スプリットブレイン現象が発生してしまっていた。
【0014】監視部53、57は、自機構内にサービス
処理部51、55が動作している場合、いつサービス処
理部51,55が起動されたかという情報を、定期的に
他の機構に対してネットワークを用いて伝達している。
自系がサービス処理部51、55を起動している場合
に、他の監視プロセス53、57から情報を受け取った
時に、その情報と自系のサービス処理部51、55の起
動時刻と比較して、それより新しい情報を受け取ってい
た場合には、機構全体を終了する。従って、外部にスプ
リットブレイン現象が起きていないかを監視する機構を
置くことで、クラスタ管理プロセスがが自浄できないよ
うなスプリットブレインを起こす場合でも、フェールセ
ーフに旧運用系を停止させることができるため、クラス
タシステム内で2つサービスが立ち上がっているような
状況を防ぐことができる。 (第5の実施の形態)図8は、本発明に係るクラスタシ
ステムの他の実施例の形態を示すブロック構成図であ
る。このシステムは、運用系計算機0および待機系計算
機1がネットワークにより接続されているクラスタシス
テムである。ここで、サービス制御部66、72は、ク
ラスタ管理部A62、クラスタ管理部B63、...、
クラスタ管理部N64、クラスタ管理部A68、クラス
タ管理部B69、...、クラスタ管理部N70が制御
するサービス処理部67の起動・終了などの処理を実際
に行うプロセスである。
【0015】計算機60は、まず最初に、クラスタ管理
部A62、クラスタ管理部B63、...、クラスタ管
理部N64のうち複数のクラスタ管理部を起動させる。
クラスタ管理部A62、クラスタ管理部B6
3、...、クラスタ管理部N64は、それぞれ、計算
機61のクラスタ管理部A68、クラスタ管理部B6
9、...、クラスタ管理部N70と連携をとり、自分
が運用系計算機であるか、待機系計算機であるかの決定
を行う。ここで計算機60が運用系計算機とする。ここ
で、クラスタ管理部A62、クラスタ管理部B6
3、...、クラスタ管理部N64は、それぞれ共に同
じ動作を行う。次に、監視部65は、クラスタ管理部A
62、クラスタ管理部B63、...、クラスタ管理部
N64の外部に与える要求がすべて同じか否かを確認す
る。監視部65は、複数のクラスタ管理部A62、クラ
スタ管理部B63、...、クラスタ管理部N64が発
行する実動作命令を比較し、もし違う動作指示を行うプ
ロセスが存在した場合には、異常が発生したものと認識
して機構全体を停止させる。一方、もし同じ動作指示で
あった場合には、その実動差命令をサービス制御部66
に渡す。
【0016】サービス処理部67は、全てのクラスタ管
理部A62、クラスタ管理部B63、...、クラスタ
管理部N64がサービス処理部67を起動させるように
監視部65に対し命令を行った場合、監視部65はサー
ビス制御部66に対しサービス処理部67を生成するよ
う要求する。サービス制御部66は、要求に従い、サー
ビス処理部67を生成する。一方、待機系である計算機
61は、クラスタ管理部A68、クラスタ管理部B6
9、...、クラスタ管理部N70を起動する。クラス
タ管理部A68、クラスタ管理部B69、...、クラ
スタ管理部N70は、クラスタ管理部A62、クラスタ
管理部B63、...、クラスタ管理部N64と通信を
し、待機を決定する。監視部71は、クラスタ管理部A
68、クラスタ管理部B69、...、クラスタ管理部
N70の行動が同じか否かを監視する。次に、図9を用
いて監視部65の動作を説明する。まず、クラスタ管理
部A62、クラスタ管理部B63、...、クラスタ管
理部N64は、それぞれ外部に対する要求を出す(S5
01〜S503)。次に、監視部65は、この要求が全
て同じか否かを確認する(S51)。そして、全て同じ
であれば、監視部65はサービス制御部66に対してサ
ービス処理部67を生成するよう要求する。そして、一
定時間障害発生確認(存在確認)を停止する(S53)
一方、S51における要求が1つでも異なれば、機構
(各系)全体を終了させる。(S54)。
【0017】従って、外部の客観的な監視プロセスを用
いて、複数のクラスタ管理ソフトの動作を監視すること
で、クラスタ管理処理自体の不正動作を監視できる。次
に、図10を用いて監視部65の他の動作を説明する。
まず、クラスタ管理部A62、クラスタ管理部B6
3、...、クラスタ管理部N64は、それぞれ外部に
対する要求を出す(S601〜S603)。次に、監視
部65は、この要求の多数意見を確認する(S61)。
そして、その要求の多数意見についての処理を実行監視
部65はサービス制御部66に対してサービス処理部6
7を生成するよう要求する(S62)。そして、一定時
間障害発生確認(存在確認)を停止する(S63)。一
方、S61における要求のうち少数意見については、そ
のプロセスを停止する(S64)。従って、外部の客観
的な監視プロセスを用いて、複数のクラスタ管理ソフト
の動作を監視することで、クラスタ管理処理自体の不正
動作を監視できる。その他、本発明はその要旨を逸脱し
ない範囲で種々変形して実施できる。
【発明の効果】 クラスタシステムの管理を行うプロセ
スと、そのプロセスが使うリソースを外部から監視し
て、システムの動作に関係する問題点が発見された場合
に、そのシステムを停止させることにより、フェールセ
ーフに且つスプリットブレイン現象の発生を防止するこ
とができる。
【図面の簡単な説明】
【図1】本発明に係るクラスタシステムの一実施例の形
態を説明する図。
【図2】図1に示すクラスタシステムの監視プロセスの
流れを説明する図。
【図3】本発明に係るクラスタシステムの他の実施例の
形態を説明する図。
【図4】図3に示すクラスタシステムの監視プロセスの
流れを説明する図。
【図5】本発明に係るクラスタシステムの他の実施例の
形態を説明する図。
【図6】図5に示すクラスタシステムの監視プロセスの
流れを説明する図。
【図7】本発明に係るクラスタシステムの他の実施例の
形態を説明する図。
【図8】本発明に係るクラスタシステムの他の実施例の
形態を説明する図。
【図9】図8に示すクラスタシステムの監視プロセスの
流れを説明する図。
【図10】図8に示すクラスタシステムの監視プロセス
の流れを説明する図。
【符号の説明】
1、10、30、50、60…運用系計算機 2、11、31、54、61…待機系計算機 3、6、15、20、37、44、53、57、65、
71…監視部 4、7、16、19、36、44、52、56…クラス
タ管理部 5、14、38、51、55、67…サービス処理部

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 運用系装置および待機系装置がネットワ
    ークによって接続され、互いの状況を監視するクラスタ
    システムにおける監視方法であって、 前記運用系装置および前記待機系装置の稼働中、互いの
    情報のやりとりにより運用系/待機系の判断を行うステ
    ップと、 前記運用系装置内の障害検出を行うステップと、 前記障害検出によって障害発生を検出したときは前記運
    用系装置の処理を停止させ、前記待機系装置を稼働させ
    るステップとを含むことを特徴とするクラスタシステム
    における監視方法。
  2. 【請求項2】 前記運用系装置内の障害検出を行うステ
    ップは、プロセスの存在の有無により障害検出すること
    を特徴とする請求項1記載のクラスタシステムにおける
    監視方法。
  3. 【請求項3】 前記運用系装置内の障害検出を行うステ
    ップは、プロセス/スレッドの動作間隔により障害検出
    することを特徴とする請求項1記載のクラスタシステム
    における監視方法。
  4. 【請求項4】 前記運用系装置内の障害検出を行うステ
    ップは、前記運用系/待機系の判断を行うステップより
    も優先度を高くすることを特徴とする請求項3記載のク
    ラスタシステムにおける監視方法。
  5. 【請求項5】 前記運用系装置内の障害検出を行うステ
    ップは、 前記運用系装置および前記待機系装置にて起動されるサ
    ービスプロセスの動作時刻により障害検出することを特
    徴とする請求項1記載のクラスタシステムにおける監視
    方法。
  6. 【請求項6】 運用系装置および待機系装置がネットワ
    ークによって接続され、互いの状況を監視するクラスタ
    システムにおける監視方法であって、 前記運用系装置および前記待機系装置の稼働中、互いの
    情報のやりとりの動作履歴を残すと共に運用系/待機系
    の判断を行うステップと、 前記運用系装置内の障害検出を前記履歴を用いて行うス
    テップと、 前記障害検出によって障害発生を検出したときは前記運
    用系装置の処理を停止させ、前記待機系装置を稼働させ
    るステップとを含むことを特徴とするクラスタシステム
    における監視方法。
  7. 【請求項7】 運用系装置および待機系装置がネットワ
    ークによって接続され、互いの状況を監視するクラスタ
    システムにおける監視方法であって、 前記運用系装置および前記待機系装置の稼働中、互いの
    複数の情報のやりとりにより運用系/待機系の判断を行
    うステップと、 前記互いの複数の情報の一致の度合いにより前記運用系
    装置内の障害検出を行うステップと、 前記障害検出によって障害発生を検出したときは前記運
    用系装置の処理を停止させ、前記待機系装置を稼働させ
    るステップとを含むことを特徴とするクラスタシステム
    における監視方法。
  8. 【請求項8】 運用系装置および待機系装置がネットワ
    ークによって接続され、互いの状況を監視するクラスタ
    システムであって、 前記運用系装置および前記待機系装置のそれぞれに備え
    られ、互いの情報のやりとりにより運用系/待機系の判
    断を行うクラスタ管理手段と、 前記運用系装置で起動されるサービスプロセス実行手段
    と、 前記それぞれに備えられたクラスタ管理手段に異常がな
    いか否かを検出する障害検出手段と、 前記障害検出手段によって障害発生を検出したときは前
    記サービスプロセスの処理を停止させ、前記待機系装置
    を稼働させる手段とを含むことを特徴とするクラスタシ
    ステム。
  9. 【請求項9】 運用系装置および待機系装置がネットワ
    ークによって接続され、互いの状況を監視するコンピュ
    ータプログラムであって、 前記運用系装置および前記待機系装置の稼働中、互いの
    情報のやりとりにより運用系/待機系の判断を行う機能
    と、 前記運用系装置内の障害検出を行う機能と、 前記障害検出によって障害発生を検出したときは前記運
    用系装置の処理を停止させ、前記待機系装置を稼働させ
    る機能とを実現させるコンピュータプログラム。
  10. 【請求項10】 運用系装置および待機系装置がネット
    ワークによって接続され、互いの状況を監視するコンピ
    ュータプログラムであって、 前記運用系装置および前記待機系装置の稼働中、互いの
    複数の情報のやりとりにより運用系/待機系の判断を行
    う機能と、 前記互いの複数の情報の一致の度合いにより前記運用系
    装置内の障害検出を行う機能と、 前記障害検出によって障害発生を検出したときは前記運
    用系装置の処理を停止させ、前記待機系装置を稼働させ
    る機能とを実現させるコンピュータプログラム。
JP2000305970A 2000-10-05 2000-10-05 クラスタシステム、クラスタシステムにおける監視方法およびコンピュータプログラム Pending JP2002116920A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000305970A JP2002116920A (ja) 2000-10-05 2000-10-05 クラスタシステム、クラスタシステムにおける監視方法およびコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000305970A JP2002116920A (ja) 2000-10-05 2000-10-05 クラスタシステム、クラスタシステムにおける監視方法およびコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2002116920A true JP2002116920A (ja) 2002-04-19

Family

ID=18786734

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000305970A Pending JP2002116920A (ja) 2000-10-05 2000-10-05 クラスタシステム、クラスタシステムにおける監視方法およびコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2002116920A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7263036B2 (en) 2002-05-27 2007-08-28 Nec Corporation Time correction system in cluster system
JP2009080704A (ja) * 2007-09-26 2009-04-16 Toshiba Corp 仮想計算機システム及び同システムにおけるサービス引き継ぎ制御方法
JP2010044781A (ja) * 2003-01-02 2010-02-25 Fisher Rosemount Syst Inc アプリケーションステーションで利用される冗長マネージャ
JP2015523644A (ja) * 2012-05-30 2015-08-13 シマンテック コーポレーションSymantec Corporation 多層構成アプリケーションの災害復旧のためのシステム及び方法
JP2020194217A (ja) * 2019-05-24 2020-12-03 アズビル株式会社 冗長システム及びデータ同期方法
JP7209784B1 (ja) 2021-08-23 2023-01-20 三菱電機株式会社 冗長化システム及び冗長化方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7263036B2 (en) 2002-05-27 2007-08-28 Nec Corporation Time correction system in cluster system
JP2010044781A (ja) * 2003-01-02 2010-02-25 Fisher Rosemount Syst Inc アプリケーションステーションで利用される冗長マネージャ
JP2009080704A (ja) * 2007-09-26 2009-04-16 Toshiba Corp 仮想計算機システム及び同システムにおけるサービス引き継ぎ制御方法
JP2015523644A (ja) * 2012-05-30 2015-08-13 シマンテック コーポレーションSymantec Corporation 多層構成アプリケーションの災害復旧のためのシステム及び方法
JP2020194217A (ja) * 2019-05-24 2020-12-03 アズビル株式会社 冗長システム及びデータ同期方法
JP7422492B2 (ja) 2019-05-24 2024-01-26 アズビル株式会社 冗長システム及びデータ同期方法
JP7209784B1 (ja) 2021-08-23 2023-01-20 三菱電機株式会社 冗長化システム及び冗長化方法
JP2023030364A (ja) * 2021-08-23 2023-03-08 三菱電機株式会社 冗長化システム及び冗長化方法

Similar Documents

Publication Publication Date Title
US7418627B2 (en) Cluster system wherein failover reset signals are sent from nodes according to their priority
KR100557399B1 (ko) 네트웍 매체 링크상태 기능을 이용한 컴퓨터 클러스터링시스템의 가용도 개선방법
JP4505763B2 (ja) ノードクラスタの管理
KR100358663B1 (ko) 클러스터 노드 디스트레스 신호
JP4695705B2 (ja) クラスタシステムおよびノード切り替え方法
US7925922B2 (en) Failover method and system for a computer system having clustering configuration
JPH03164837A (ja) 通信制御処理装置の切替方法
US20040177242A1 (en) Dynamic computer system reset architecture
TW200426571A (en) Policy-based response to system errors occurring during os runtime
JP2002116920A (ja) クラスタシステム、クラスタシステムにおける監視方法およびコンピュータプログラム
WO2019227839A1 (zh) 一种基于bmc的文件传输方法、装置、设备及介质
JP2009026182A (ja) プログラム実行システム及び実行装置
JPH10116261A (ja) 並列計算機システムのチェックポイントリスタート方法
JP3266841B2 (ja) 通信制御装置
JPH1196033A (ja) 情報処理装置
JPH10171769A (ja) 複合計算機システム
KR102517831B1 (ko) 미션 크리티컬 시스템 환경에서의 소프트웨어 관리방법 및 그 시스템
JP3812434B2 (ja) ヘルスチエック方式
JPH02310755A (ja) ヘルスチェック方式
JP6368842B2 (ja) プロセス監視プログラム及びプロセス監視システム
JP2885583B2 (ja) 通信手順制御システム
JPH11232143A (ja) マルチスレッドの監視方法
JPH08329023A (ja) 並列電子計算機システム
KR20170041557A (ko) 가상 시스템에서 장애 조치를 판단하는 장치 및 그 방법
JP2000295259A (ja) Lan異常検出装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050131

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20050322

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20050328

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060926

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061124

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070807