JPH11272508A - 監視対象装置の異常検出方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体 - Google Patents
監視対象装置の異常検出方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体Info
- Publication number
- JPH11272508A JPH11272508A JP10093981A JP9398198A JPH11272508A JP H11272508 A JPH11272508 A JP H11272508A JP 10093981 A JP10093981 A JP 10093981A JP 9398198 A JP9398198 A JP 9398198A JP H11272508 A JPH11272508 A JP H11272508A
- Authority
- JP
- Japan
- Prior art keywords
- time
- counter
- monitoring
- request
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Debugging And Monitoring (AREA)
Abstract
(57)【要約】
【課題】 監視対象装置から一定時間以内毎に出力され
るべき通知の有無に基づき監視対象の異常を検出する装
置において、監視処理の起動周期の乱れによる誤検出を
防止する。 【解決手段】 監視カウンタ11は、監視対象装置から通
知がある毎にカウンタリセット手段7によってリセット
され、望ましくは所定周期毎に実行される監視処理部21
の監視カウンタ加算手段25によって+1ずつ加算され
る。時刻格納手段24はカウンタ更新時刻の履歴を時刻記
憶部28に採取する。監視カウンタ検査手段26は、監視カ
ウンタ11の値が限界値を超えたか否かを検査する。限界
値を超えていたとき、カウンタ補正手段27は、カウンタ
更新処理が行われた時刻の履歴を参照して、監視対象装
置に異常が発生しているか否かの最終判断を下すことに
より、監視処理部21の起動周期の乱れによる誤検出を防
止する。
るべき通知の有無に基づき監視対象の異常を検出する装
置において、監視処理の起動周期の乱れによる誤検出を
防止する。 【解決手段】 監視カウンタ11は、監視対象装置から通
知がある毎にカウンタリセット手段7によってリセット
され、望ましくは所定周期毎に実行される監視処理部21
の監視カウンタ加算手段25によって+1ずつ加算され
る。時刻格納手段24はカウンタ更新時刻の履歴を時刻記
憶部28に採取する。監視カウンタ検査手段26は、監視カ
ウンタ11の値が限界値を超えたか否かを検査する。限界
値を超えていたとき、カウンタ補正手段27は、カウンタ
更新処理が行われた時刻の履歴を参照して、監視対象装
置に異常が発生しているか否かの最終判断を下すことに
より、監視処理部21の起動周期の乱れによる誤検出を防
止する。
Description
【0001】
【発明の属する技術分野】本発明は監視対象装置から一
定時間以内毎に出力されるべき通知の有無に基づき監視
対象の異常を検出する技術に関する。
定時間以内毎に出力されるべき通知の有無に基づき監視
対象の異常を検出する技術に関する。
【0002】
【従来の技術】情報処理システムにおいて、システムの
構成要素となる或る情報処理装置(ホストコンピュータ
や排他制御装置など)の異常を他の情報処理装置で検出
する手法の一種に、監視対象となる装置が正常ならば一
定時間以内にリセットされるカウンタを設け、監視側の
装置において当該カウンタを一定周期でカウントアップ
し、カウンタ値が予め定められた限界値を越えたら、監
視対象装置の異常とみなす手法がある(例えば特開平1
−200441号公報)。
構成要素となる或る情報処理装置(ホストコンピュータ
や排他制御装置など)の異常を他の情報処理装置で検出
する手法の一種に、監視対象となる装置が正常ならば一
定時間以内にリセットされるカウンタを設け、監視側の
装置において当該カウンタを一定周期でカウントアップ
し、カウンタ値が予め定められた限界値を越えたら、監
視対象装置の異常とみなす手法がある(例えば特開平1
−200441号公報)。
【0003】
【発明が解決しようとする課題】上述した手法による異
常検出は構成が簡単であるため、各種の分野で広く採用
されているが、従来はカウンタをカウントアップする周
期が常に一定であることを想定しているため、カウント
アップ周期の変動に対する対策は全く講じられていな
い。そのため、カウンタを更新する周期が変動する状況
の下では誤検出するという問題があった。
常検出は構成が簡単であるため、各種の分野で広く採用
されているが、従来はカウンタをカウントアップする周
期が常に一定であることを想定しているため、カウント
アップ周期の変動に対する対策は全く講じられていな
い。そのため、カウンタを更新する周期が変動する状況
の下では誤検出するという問題があった。
【0004】例えば監視対象装置から当該装置が正常で
あれば例えば8秒以内に通知が送られて来るものとし、
また、その通知を受ける毎に監視側の装置においてカウ
ンタをリセットしてカウント値を0にし、カウントアッ
プは例えば1秒毎に+1だけ加算し、限界値の例えば1
0を越えたら異常として検出するものとする。この場
合、カウンタを更新する周期が1秒より短く、例えば
0.5秒間隔で10回のカウンタ更新が行われると、5秒
間通知がない時点で異常として検出してしまうことにな
る。一般に異常として検出された装置はシステムから切
り離されたり、初期化されるなどの処置が行われるた
め、誤検出するとシステムに多大な影響を及ぼす。
あれば例えば8秒以内に通知が送られて来るものとし、
また、その通知を受ける毎に監視側の装置においてカウ
ンタをリセットしてカウント値を0にし、カウントアッ
プは例えば1秒毎に+1だけ加算し、限界値の例えば1
0を越えたら異常として検出するものとする。この場
合、カウンタを更新する周期が1秒より短く、例えば
0.5秒間隔で10回のカウンタ更新が行われると、5秒
間通知がない時点で異常として検出してしまうことにな
る。一般に異常として検出された装置はシステムから切
り離されたり、初期化されるなどの処置が行われるた
め、誤検出するとシステムに多大な影響を及ぼす。
【0005】本発明の目的は、このようなカウンタ更新
周期の変動による誤検出を防止することにある。
周期の変動による誤検出を防止することにある。
【0006】
【課題を解決するための手段】本発明の監視対象装置の
異常検出方法は、監視対象装置から一定時間以内毎に出
力されるべき通知の有無に基づき監視対象装置の異常を
検出する方法において、監視対象装置から通知がある毎
にリセットされ且つカウンタ更新処理毎に一定値ずつ更
新されるカウンタの値が予め定められた限界値を越えた
とき、カウンタ更新処理の周期が予め定められた周期よ
り短くなっていなかったか否かを調べ、短くなっていな
かった場合に限って、監視対象装置の異常と判定するこ
とを特徴とする。カウンタ更新処理の周期が予め定めら
れた周期より短くなっていなかったか否かの調査は、例
えばリセット後に初めてカウンタを更新した時刻を少な
くとも含むカウンタ更新時刻の履歴を採取しておき、こ
の採取したカウンタ更新時刻の履歴に基づき行われる。
異常検出方法は、監視対象装置から一定時間以内毎に出
力されるべき通知の有無に基づき監視対象装置の異常を
検出する方法において、監視対象装置から通知がある毎
にリセットされ且つカウンタ更新処理毎に一定値ずつ更
新されるカウンタの値が予め定められた限界値を越えた
とき、カウンタ更新処理の周期が予め定められた周期よ
り短くなっていなかったか否かを調べ、短くなっていな
かった場合に限って、監視対象装置の異常と判定するこ
とを特徴とする。カウンタ更新処理の周期が予め定めら
れた周期より短くなっていなかったか否かの調査は、例
えばリセット後に初めてカウンタを更新した時刻を少な
くとも含むカウンタ更新時刻の履歴を採取しておき、こ
の採取したカウンタ更新時刻の履歴に基づき行われる。
【0007】このように構成された監視対象装置の異常
検出方法にあっては、カウンタの値が限界値を越えたと
きにカウンタ更新処理の周期が所定の周期より短くなっ
ていなかった場合に限って異常と判定することにより、
カウンタ更新周期の変動による誤検出を防止することが
できる。
検出方法にあっては、カウンタの値が限界値を越えたと
きにカウンタ更新処理の周期が所定の周期より短くなっ
ていなかった場合に限って異常と判定することにより、
カウンタ更新周期の変動による誤検出を防止することが
できる。
【0008】また、本発明の監視対象装置の異常検出方
法は、自装置が担う主たる処理以外に、監視対象装置か
ら一定時間以内毎に出力されるべき通知の有無に基づき
監視対象装置の異常を検出する処理をも行う装置におい
て、 (a)監視対象装置から通知がある毎に監視用のカウン
タをリセットするステップ。 (b)カウンタ更新処理を含む監視処理の起動要求は所
定周期で、主たる処理の要求はその発生時に、それぞれ
待ちキューに格納するステップ。 (c)待ちキューから要求を取り出すステップ。 (d)取り出された要求が主たる処理の要求であれば、
主たる処理を実行するステップ。 (e)取り出された要求が監視処理の起動要求であれ
ば、前記カウンタを一定値だけ更新してその更新時刻を
記録すると共に、更新後のカウンタの値が予め定められ
た限界値を越えたか否かを検査し、越えていたときは、
カウンタがリセット後に初めて更新された時刻に(限界
値×カウンタ更新周期の正規の値)を足した時刻と今回
の更新時刻との比較結果に応じて、監視対象装置の異常
の有無を判定するステップ。 を含むことを特徴とする。
法は、自装置が担う主たる処理以外に、監視対象装置か
ら一定時間以内毎に出力されるべき通知の有無に基づき
監視対象装置の異常を検出する処理をも行う装置におい
て、 (a)監視対象装置から通知がある毎に監視用のカウン
タをリセットするステップ。 (b)カウンタ更新処理を含む監視処理の起動要求は所
定周期で、主たる処理の要求はその発生時に、それぞれ
待ちキューに格納するステップ。 (c)待ちキューから要求を取り出すステップ。 (d)取り出された要求が主たる処理の要求であれば、
主たる処理を実行するステップ。 (e)取り出された要求が監視処理の起動要求であれ
ば、前記カウンタを一定値だけ更新してその更新時刻を
記録すると共に、更新後のカウンタの値が予め定められ
た限界値を越えたか否かを検査し、越えていたときは、
カウンタがリセット後に初めて更新された時刻に(限界
値×カウンタ更新周期の正規の値)を足した時刻と今回
の更新時刻との比較結果に応じて、監視対象装置の異常
の有無を判定するステップ。 を含むことを特徴とする。
【0009】主たる処理の要求が一度に多量に発生する
と、それ以降に待ちキューに格納された監視処理起動要
求は、待ちキューに滞留している主たる処理の要求が処
理されるまで処理されず、主たる処理要求の処理が終わ
った時点で次々と処理され、過渡的に、短い周期で監視
処理が連続して実行され、カウンタが短い周期でカウン
トアップされる事象が発生する。しかし、ステップ
(e)において、カウンタ値が限界値を越えていたと
き、カウンタがリセット後に初めて更新された時刻に
(限界値×カウンタ更新周期の正規の値)を足した時刻
と今回の更新時刻との比較結果に応じて、監視対象装置
の異常の有無を判定するため、カウンタ更新周期の変動
による誤検出が防止される。
と、それ以降に待ちキューに格納された監視処理起動要
求は、待ちキューに滞留している主たる処理の要求が処
理されるまで処理されず、主たる処理要求の処理が終わ
った時点で次々と処理され、過渡的に、短い周期で監視
処理が連続して実行され、カウンタが短い周期でカウン
トアップされる事象が発生する。しかし、ステップ
(e)において、カウンタ値が限界値を越えていたと
き、カウンタがリセット後に初めて更新された時刻に
(限界値×カウンタ更新周期の正規の値)を足した時刻
と今回の更新時刻との比較結果に応じて、監視対象装置
の異常の有無を判定するため、カウンタ更新周期の変動
による誤検出が防止される。
【0010】また、本発明の監視対象装置の異常検出方
法は、自装置が担う主たる処理以外に、相手装置から一
定時間以内毎に出力されるべき通知の有無に基づき相手
装置の異常を検出する処理、および相手装置で自装置の
異常の検出が行えるように自装置から相手装置に一定時
間毎に通知を出す処理をも行う装置において、 (a)相手装置から通知がある毎に監視用のカウンタを
リセットするステップ。 (b)カウンタ更新処理を含む監視処理の起動要求は所
定周期で、主たる処理の要求はその発生時に、それぞれ
待ちキューに格納するステップ。 (c)待ちキューから要求を取り出すステップ。 (d)取り出された要求が主たる処理の要求であれば、
主たる処理を実行するステップ。 (e)取り出された要求が監視処理の起動要求であれ
ば、相手装置に通知を送出すると共に、前記カウンタを
一定値だけ更新してその更新時刻を記録し、且つ、更新
後のカウンタの値が予め定められた限界値を越えたか否
かを検査し、越えていたときは、カウンタがリセット後
に初めて更新された時刻に(限界値×カウンタ更新周期
の正規の値)を足した時刻と今回の更新時刻との比較結
果に応じて、監視対象装置の異常の有無を判定するステ
ップ。 を含むことを特徴とする。
法は、自装置が担う主たる処理以外に、相手装置から一
定時間以内毎に出力されるべき通知の有無に基づき相手
装置の異常を検出する処理、および相手装置で自装置の
異常の検出が行えるように自装置から相手装置に一定時
間毎に通知を出す処理をも行う装置において、 (a)相手装置から通知がある毎に監視用のカウンタを
リセットするステップ。 (b)カウンタ更新処理を含む監視処理の起動要求は所
定周期で、主たる処理の要求はその発生時に、それぞれ
待ちキューに格納するステップ。 (c)待ちキューから要求を取り出すステップ。 (d)取り出された要求が主たる処理の要求であれば、
主たる処理を実行するステップ。 (e)取り出された要求が監視処理の起動要求であれ
ば、相手装置に通知を送出すると共に、前記カウンタを
一定値だけ更新してその更新時刻を記録し、且つ、更新
後のカウンタの値が予め定められた限界値を越えたか否
かを検査し、越えていたときは、カウンタがリセット後
に初めて更新された時刻に(限界値×カウンタ更新周期
の正規の値)を足した時刻と今回の更新時刻との比較結
果に応じて、監視対象装置の異常の有無を判定するステ
ップ。 を含むことを特徴とする。
【0011】このように構成された監視対象装置の異常
検出方法にあっては、ステップ(e)において、カウン
タ値が限界値を越えていたとき、カウンタがリセット後
に初めて更新された時刻に(限界値×カウンタ更新周期
の正規の値)を足した時刻と今回の更新時刻との比較結
果に応じて、監視対象装置の異常の有無を判定するた
め、カウンタ更新周期の変動による誤検出が防止される
と共に、相手装置に通知を送出する処理をステップ
(e)内で行っているため、カウンタ更新処理を含む監
視処理の起動要求を所定周期で待ちキューに入れるだけ
で、相手装置の監視と相手装置への通知の送出とを同時
に行わせることができる。
検出方法にあっては、ステップ(e)において、カウン
タ値が限界値を越えていたとき、カウンタがリセット後
に初めて更新された時刻に(限界値×カウンタ更新周期
の正規の値)を足した時刻と今回の更新時刻との比較結
果に応じて、監視対象装置の異常の有無を判定するた
め、カウンタ更新周期の変動による誤検出が防止される
と共に、相手装置に通知を送出する処理をステップ
(e)内で行っているため、カウンタ更新処理を含む監
視処理の起動要求を所定周期で待ちキューに入れるだけ
で、相手装置の監視と相手装置への通知の送出とを同時
に行わせることができる。
【0012】また、本発明の監視対象装置の異常検出方
法は、カウンタ更新処理に先立って、直前のカウンタ更
新時刻と現在の時刻とから前回から今回までのカウンタ
更新処理周期を計算してこの計算した周期が予め定めら
れた周期より短くなっているか否かを調べ、短くなって
いる場合には、今回の監視処理を終了するステップを更
に含むことを特徴とする。
法は、カウンタ更新処理に先立って、直前のカウンタ更
新時刻と現在の時刻とから前回から今回までのカウンタ
更新処理周期を計算してこの計算した周期が予め定めら
れた周期より短くなっているか否かを調べ、短くなって
いる場合には、今回の監視処理を終了するステップを更
に含むことを特徴とする。
【0013】このように構成された監視対象装置の異常
検出方法にあっては、待ちキューに要求が滞留するほど
負荷が上がっている装置の処理ステップを削減すること
ができる。
検出方法にあっては、待ちキューに要求が滞留するほど
負荷が上がっている装置の処理ステップを削減すること
ができる。
【0014】また、本発明の監視対象装置の異常検出方
法は、カウンタがリセット後に初めて更新された時刻の
履歴のみを記録するようにして、時刻の採取回数の削
減、時刻の履歴を格納する領域の削減を図るようにして
いる。
法は、カウンタがリセット後に初めて更新された時刻の
履歴のみを記録するようにして、時刻の採取回数の削
減、時刻の履歴を格納する領域の削減を図るようにして
いる。
【0015】また、本発明の監視対象装置の異常検出装
置は、自装置が担う主たる処理以外に、監視対象装置か
ら一定時間以内毎に出力されるべき通知の有無に基づき
監視対象装置の異常を検出する処理をも行う装置におい
て、監視用のカウンタと、監視対象装置から通知がある
毎に前記カウンタをリセットするカウンタリセット手段
と、カウンタ更新処理を含む監視処理の起動要求及び主
たる処理の要求を格納するための待ちキューと、所定時
間毎に監視処理の起動要求を前記待ちキューに格納する
監視タイマと、主たる処理の要求が発生する毎にその要
求を前記待ちキューに格納する主処理要求部と、前記待
ちキューから順に要求を取り出して実行する要求実行部
内に設けられた、主たる処理を実行する主処理部および
監視処理を実行する対象装置監視処理部とを備え、前記
対象装置監視処理部は、前記カウンタを一定値だけ更新
するカウンタ加算手段と、カウンタが更新された時刻の
履歴をとる時刻格納手段と、更新後のカウンタの値が、
予め定められた限界値を越えたか否かを検査する監視カ
ウンタ検査手段と、カウンタの値が限界値を越えていた
とき、カウンタがリセット後に初めて更新された時刻に
(限界値×カウンタ更新周期の正規の値)を足した時刻
と今回の更新時刻との比較結果に応じて、監視対象装置
の異常の有無を判定するカウンタ補正手段とを備えるこ
とを特徴とする。
置は、自装置が担う主たる処理以外に、監視対象装置か
ら一定時間以内毎に出力されるべき通知の有無に基づき
監視対象装置の異常を検出する処理をも行う装置におい
て、監視用のカウンタと、監視対象装置から通知がある
毎に前記カウンタをリセットするカウンタリセット手段
と、カウンタ更新処理を含む監視処理の起動要求及び主
たる処理の要求を格納するための待ちキューと、所定時
間毎に監視処理の起動要求を前記待ちキューに格納する
監視タイマと、主たる処理の要求が発生する毎にその要
求を前記待ちキューに格納する主処理要求部と、前記待
ちキューから順に要求を取り出して実行する要求実行部
内に設けられた、主たる処理を実行する主処理部および
監視処理を実行する対象装置監視処理部とを備え、前記
対象装置監視処理部は、前記カウンタを一定値だけ更新
するカウンタ加算手段と、カウンタが更新された時刻の
履歴をとる時刻格納手段と、更新後のカウンタの値が、
予め定められた限界値を越えたか否かを検査する監視カ
ウンタ検査手段と、カウンタの値が限界値を越えていた
とき、カウンタがリセット後に初めて更新された時刻に
(限界値×カウンタ更新周期の正規の値)を足した時刻
と今回の更新時刻との比較結果に応じて、監視対象装置
の異常の有無を判定するカウンタ補正手段とを備えるこ
とを特徴とする。
【0016】このように構成された監視対象装置の異常
検出装置にあっては、カウンタリセット手段が監視対象
装置から通知がある毎に監視用のカウンタをリセットす
ると共に、監視タイマが所定時間毎に監視処理の起動要
求を待ちキューに格納し、また、主たる処理の要求が発
生する毎にその要求を主処理要求部が待ちキューに格納
する。そして、待ちキューから順に要求を取り出して実
行する要求実行部内に設けられた主処理部が主たる処理
の要求を処理し、他方、対象装置監視処理部が監視処理
を実行する。この対象装置監視処理部では、カウンタ加
算手段によりカウンタを一定値だけ更新し、時刻格納手
段によりカウンタが更新された時刻の履歴をとり、監視
カウンタ検査手段により更新後のカウンタの値が予め定
められた限界値を越えたか否かを検査する。そして、カ
ウンタの値が限界値を越えていたとき、カウンタ補正手
段が、カウンタがリセット後に初めて更新された時刻に
(限界値×カウンタ更新周期の正規の値)を足した時刻
と今回の更新時刻との比較結果に応じて、監視対象装置
の異常の有無を判定する。
検出装置にあっては、カウンタリセット手段が監視対象
装置から通知がある毎に監視用のカウンタをリセットす
ると共に、監視タイマが所定時間毎に監視処理の起動要
求を待ちキューに格納し、また、主たる処理の要求が発
生する毎にその要求を主処理要求部が待ちキューに格納
する。そして、待ちキューから順に要求を取り出して実
行する要求実行部内に設けられた主処理部が主たる処理
の要求を処理し、他方、対象装置監視処理部が監視処理
を実行する。この対象装置監視処理部では、カウンタ加
算手段によりカウンタを一定値だけ更新し、時刻格納手
段によりカウンタが更新された時刻の履歴をとり、監視
カウンタ検査手段により更新後のカウンタの値が予め定
められた限界値を越えたか否かを検査する。そして、カ
ウンタの値が限界値を越えていたとき、カウンタ補正手
段が、カウンタがリセット後に初めて更新された時刻に
(限界値×カウンタ更新周期の正規の値)を足した時刻
と今回の更新時刻との比較結果に応じて、監視対象装置
の異常の有無を判定する。
【0017】また、本発明の監視対象装置の異常検出装
置は、自装置が担う主たる処理以外に、相手装置から一
定時間以内毎に出力されるべき通知の有無に基づき相手
装置の異常を検出する処理、および相手装置で自装置の
異常の検出が行えるように自装置から相手装置に一定時
間毎に通知を出す処理をも行う装置において、監視用の
カウンタと、相手装置から通知がある毎に前記カウンタ
をリセットするカウンタリセット手段と、カウンタ更新
処理を含む監視処理の起動要求及び主たる処理の要求を
格納するための待ちキューと、所定時間毎に監視処理の
起動要求を前記待ちキューに格納する監視タイマと、主
たる処理の要求が発生する毎にその要求を前記待ちキュ
ーに格納する主処理要求部と、前記待ちキューから順に
要求を取り出して実行する要求実行部内に設けられた、
主たる処理を実行する主処理部および監視処理を実行す
る対象装置監視処理部とを備え、前記対象装置監視処理
部は、相手装置に自装置が正常である旨の通知を送出す
るヘルスメッセージ送出手段と、前記カウンタを一定値
だけ更新するカウンタ加算手段と、カウンタが更新され
た時刻の履歴をとる時刻格納手段と、更新後のカウンタ
の値が、予め定められた限界値を越えたか否かを検査す
る監視カウンタ検査手段と、カウンタの値が限界値を越
えていたとき、カウンタがリセット後に初めて更新され
た時刻に(限界値×カウンタ更新周期の正規の値)を足
した時刻と今回の更新時刻との比較結果に応じて、監視
対象装置の異常の有無を判定するカウンタ補正手段とを
備えることを特徴とする。
置は、自装置が担う主たる処理以外に、相手装置から一
定時間以内毎に出力されるべき通知の有無に基づき相手
装置の異常を検出する処理、および相手装置で自装置の
異常の検出が行えるように自装置から相手装置に一定時
間毎に通知を出す処理をも行う装置において、監視用の
カウンタと、相手装置から通知がある毎に前記カウンタ
をリセットするカウンタリセット手段と、カウンタ更新
処理を含む監視処理の起動要求及び主たる処理の要求を
格納するための待ちキューと、所定時間毎に監視処理の
起動要求を前記待ちキューに格納する監視タイマと、主
たる処理の要求が発生する毎にその要求を前記待ちキュ
ーに格納する主処理要求部と、前記待ちキューから順に
要求を取り出して実行する要求実行部内に設けられた、
主たる処理を実行する主処理部および監視処理を実行す
る対象装置監視処理部とを備え、前記対象装置監視処理
部は、相手装置に自装置が正常である旨の通知を送出す
るヘルスメッセージ送出手段と、前記カウンタを一定値
だけ更新するカウンタ加算手段と、カウンタが更新され
た時刻の履歴をとる時刻格納手段と、更新後のカウンタ
の値が、予め定められた限界値を越えたか否かを検査す
る監視カウンタ検査手段と、カウンタの値が限界値を越
えていたとき、カウンタがリセット後に初めて更新され
た時刻に(限界値×カウンタ更新周期の正規の値)を足
した時刻と今回の更新時刻との比較結果に応じて、監視
対象装置の異常の有無を判定するカウンタ補正手段とを
備えることを特徴とする。
【0018】このように構成された監視対象装置の異常
検出装置にあっては、カウンタリセット手段が相手装置
から通知がある毎に監視用のカウンタをリセットすると
共に、監視タイマが所定時間毎に監視処理の起動要求を
待ちキューに格納し、また、主たる処理の要求が発生す
る毎にその要求を主処理要求部が待ちキューに格納す
る。そして、待ちキューから順に要求を取り出して実行
する要求実行部内に設けられた主処理部が主たる処理の
要求を処理し、他方、対象装置監視処理部が監視処理を
実行する。この対象装置監視処理部では、ヘルスメッセ
ージ送出手段により相手装置に自装置が正常である旨の
通知を送出し、カウンタ加算手段によりカウンタを一定
値だけ更新し、時刻格納手段によりカウンタが更新され
た時刻の履歴をとり、監視カウンタ検査手段により更新
後のカウンタの値が予め定められた限界値を越えたか否
かを検査する。そして、カウンタの値が限界値を越えて
いたとき、カウンタ補正手段が、カウンタがリセット後
に初めて更新された時刻に(限界値×カウンタ更新周期
の正規の値)を足した時刻と今回の更新時刻との比較結
果に応じて、相手装置の異常の有無を判定する。
検出装置にあっては、カウンタリセット手段が相手装置
から通知がある毎に監視用のカウンタをリセットすると
共に、監視タイマが所定時間毎に監視処理の起動要求を
待ちキューに格納し、また、主たる処理の要求が発生す
る毎にその要求を主処理要求部が待ちキューに格納す
る。そして、待ちキューから順に要求を取り出して実行
する要求実行部内に設けられた主処理部が主たる処理の
要求を処理し、他方、対象装置監視処理部が監視処理を
実行する。この対象装置監視処理部では、ヘルスメッセ
ージ送出手段により相手装置に自装置が正常である旨の
通知を送出し、カウンタ加算手段によりカウンタを一定
値だけ更新し、時刻格納手段によりカウンタが更新され
た時刻の履歴をとり、監視カウンタ検査手段により更新
後のカウンタの値が予め定められた限界値を越えたか否
かを検査する。そして、カウンタの値が限界値を越えて
いたとき、カウンタ補正手段が、カウンタがリセット後
に初めて更新された時刻に(限界値×カウンタ更新周期
の正規の値)を足した時刻と今回の更新時刻との比較結
果に応じて、相手装置の異常の有無を判定する。
【0019】また、本発明の監視対象装置の異常検出装
置は、前記対象装置監視処理部が、更に、カウンタ更新
処理に先立って、直前のカウンタ更新時刻と現在の時刻
とから前回から今回までのカウンタ更新処理周期を計算
してこの計算した周期が予め定められた周期より短くな
っているか否かを調べ、短くなっている場合には、今回
の対象装置監視処理を終了せしめる時刻確認手段を備え
ることを特徴とする。
置は、前記対象装置監視処理部が、更に、カウンタ更新
処理に先立って、直前のカウンタ更新時刻と現在の時刻
とから前回から今回までのカウンタ更新処理周期を計算
してこの計算した周期が予め定められた周期より短くな
っているか否かを調べ、短くなっている場合には、今回
の対象装置監視処理を終了せしめる時刻確認手段を備え
ることを特徴とする。
【0020】また、本発明の監視対象装置の異常検出装
置は、前記対象装置監視処理部が、更に、前記カウンタ
がリセット後に初めて更新されたか否かを調べるカウン
タ値確認手段を備え、前記時刻格納手段は、リセット後
に初めて更新された時刻のみの履歴をとる構成を有する
ことを特徴とする。
置は、前記対象装置監視処理部が、更に、前記カウンタ
がリセット後に初めて更新されたか否かを調べるカウン
タ値確認手段を備え、前記時刻格納手段は、リセット後
に初めて更新された時刻のみの履歴をとる構成を有する
ことを特徴とする。
【0021】
【発明の実施の形態】次に本発明の実施の形態の例につ
いて図面を参照して詳細に説明する。
いて図面を参照して詳細に説明する。
【0022】(1)第1の実施の形態 図1は本発明における第1の実施の形態のブロック図で
ある。図1において、情報処理装置1は、ホストコンピ
ュータ,入出力処理装置,排他制御装置などの情報処理
システムの構成要素の一つであり、自装置本来の機能に
加えて、監視対象装置15の異常を検出する機能を備え
ている。自装置本来の機能とは、情報処理装置1がホス
トコンピュータであればホスト処理、入出力処理装置で
あれば入出力処理、排他制御装置であれば排他制御処理
のことである。また、監視対象装置15は、ホストコン
ピュータ,入出力処理装置,排他制御装置など情報処理
システムを構成する他の構成要素である。
ある。図1において、情報処理装置1は、ホストコンピ
ュータ,入出力処理装置,排他制御装置などの情報処理
システムの構成要素の一つであり、自装置本来の機能に
加えて、監視対象装置15の異常を検出する機能を備え
ている。自装置本来の機能とは、情報処理装置1がホス
トコンピュータであればホスト処理、入出力処理装置で
あれば入出力処理、排他制御装置であれば排他制御処理
のことである。また、監視対象装置15は、ホストコン
ピュータ,入出力処理装置,排他制御装置など情報処理
システムを構成する他の構成要素である。
【0023】情報処理装置1は、プロセッサ2と、主記
憶3と、時計4と、主処理要求部5と、監視タイマ6
と、カウンタリセット手段7と、記録媒体8とを備え
る。また、プロセッサ2は待ちキュー9と要求実行部1
0とを有し、主記憶3は監視カウンタ11を含む監視用
管理情報12を格納する。更に、要求実行部10は主処
理部13と対象装置監視処理部14とを含んでいる。
憶3と、時計4と、主処理要求部5と、監視タイマ6
と、カウンタリセット手段7と、記録媒体8とを備え
る。また、プロセッサ2は待ちキュー9と要求実行部1
0とを有し、主記憶3は監視カウンタ11を含む監視用
管理情報12を格納する。更に、要求実行部10は主処
理部13と対象装置監視処理部14とを含んでいる。
【0024】カウンタリセット手段7は、監視対象装置
15からその装置が正常である旨を示すヘルスメッセー
ジを受信した時、主記憶3の監視用管理情報12中の監
視カウンタ11を0にリセットする手段である。ここ
で、監視対象装置15は、自装置が正常である旨を示す
ヘルスメッセージを予め定められた周期で情報処理装置
1に送出するようプログラミングされている。若し、監
視対象装置15に障害が発生した場合、ヘルスメッセー
ジは送出されなくなり、監視カウンタ11もリセットさ
れなくなる。
15からその装置が正常である旨を示すヘルスメッセー
ジを受信した時、主記憶3の監視用管理情報12中の監
視カウンタ11を0にリセットする手段である。ここ
で、監視対象装置15は、自装置が正常である旨を示す
ヘルスメッセージを予め定められた周期で情報処理装置
1に送出するようプログラミングされている。若し、監
視対象装置15に障害が発生した場合、ヘルスメッセー
ジは送出されなくなり、監視カウンタ11もリセットさ
れなくなる。
【0025】主処理要求部5は、情報処理装置1本来の
機能にかかる処理(主たる処理)の要求をプロセッサ2
中の待ちキュー9に格納する手段であり、監視タイマ6
は、監視対象装置15の監視処理を起動する要求を待ち
キュー9に格納する手段である。監視タイマ6は予め定
められた周期(例えば1秒周期)で、監視処理の起動要
求を待ちキュー9に格納する。
機能にかかる処理(主たる処理)の要求をプロセッサ2
中の待ちキュー9に格納する手段であり、監視タイマ6
は、監視対象装置15の監視処理を起動する要求を待ち
キュー9に格納する手段である。監視タイマ6は予め定
められた周期(例えば1秒周期)で、監視処理の起動要
求を待ちキュー9に格納する。
【0026】待ちキュー9は例えばFIFOレジスタで
構成され、主処理要求部5および監視タイマ6から格納
された要求を格納順に保持する。要求実行部10は、待
ちキュー9に要求が1つ以上存在する場合、待ちキュー
9から要求を1つずつ順番に取り出し、その要求の種類
に応じた処理を実行する。即ち、取り出した要求が情報
処理装置1の主たる処理の要求であれば、主処理部13
でその要求に応じた処理を実行する。また、取り出した
要求が監視処理起動要求であれば、対象装置監視処理部
14を起動し、対象装置監視処理を実行する。この対象
装置監視処理では、監視カウンタ11の値を例えば+1
だけ更新する処理、更新後のカウンタ値が予め定められ
た限界値を越えたか否かをチェックする処理などが行わ
れる。
構成され、主処理要求部5および監視タイマ6から格納
された要求を格納順に保持する。要求実行部10は、待
ちキュー9に要求が1つ以上存在する場合、待ちキュー
9から要求を1つずつ順番に取り出し、その要求の種類
に応じた処理を実行する。即ち、取り出した要求が情報
処理装置1の主たる処理の要求であれば、主処理部13
でその要求に応じた処理を実行する。また、取り出した
要求が監視処理起動要求であれば、対象装置監視処理部
14を起動し、対象装置監視処理を実行する。この対象
装置監視処理では、監視カウンタ11の値を例えば+1
だけ更新する処理、更新後のカウンタ値が予め定められ
た限界値を越えたか否かをチェックする処理などが行わ
れる。
【0027】前述したように監視タイマ6から待ちキュ
ー9へは予め定められた周期毎に1つの監視処理起動要
求が格納される。主処理要求部5から待ちキュー9への
単位時間当たりの要求格納数が少ない場合、待ちキュー
9に格納された監視処理起動要求はほぼ所定周期ごとに
実行され、その結果、監視カウンタ11のカウントアッ
プも所定周期ごとに行われる。しかし、主処理要求部5
から待ちキュー9へ一度に多量の要求が格納されると、
それ以降に待ちキュー9に格納される監視処理起動要求
は、待ちキュー9に滞留している主たる処理の要求が処
理されるまで処理されず、そして、主たる処理要求の処
理が終わった時点で、それまで待ちキュー9に滞留して
いた複数の監視処理起動要求が次々と処理される。この
結果、過渡的に、短い周期で対象装置監視処理部14が
連続して起動され、監視カウンタ11が短い周期でカウ
ントアップされる事象が発生し、限界値との比較のみに
よる異常検出では誤検出する危険性がある。このため、
対象装置監視処理部14では、カウンタ値が限界値を越
えた場合、カウンタ更新処理の周期の乱れを調査して最
終的な判断を下す。
ー9へは予め定められた周期毎に1つの監視処理起動要
求が格納される。主処理要求部5から待ちキュー9への
単位時間当たりの要求格納数が少ない場合、待ちキュー
9に格納された監視処理起動要求はほぼ所定周期ごとに
実行され、その結果、監視カウンタ11のカウントアッ
プも所定周期ごとに行われる。しかし、主処理要求部5
から待ちキュー9へ一度に多量の要求が格納されると、
それ以降に待ちキュー9に格納される監視処理起動要求
は、待ちキュー9に滞留している主たる処理の要求が処
理されるまで処理されず、そして、主たる処理要求の処
理が終わった時点で、それまで待ちキュー9に滞留して
いた複数の監視処理起動要求が次々と処理される。この
結果、過渡的に、短い周期で対象装置監視処理部14が
連続して起動され、監視カウンタ11が短い周期でカウ
ントアップされる事象が発生し、限界値との比較のみに
よる異常検出では誤検出する危険性がある。このため、
対象装置監視処理部14では、カウンタ値が限界値を越
えた場合、カウンタ更新処理の周期の乱れを調査して最
終的な判断を下す。
【0028】上述した対象装置監視処理部14は、プロ
セッサ2のハードウェアで実現することも可能である
が、ソフトウェアによって実現することもできる。この
場合、CD−ROM,半導体メモリ,磁気ディスク等の
機械読み取り可能な記録媒体8に記録された対象装置監
視用プログラムが、例えば情報処理装置1の立ち上げ時
にプロセッサ2に読み取られ、プロセッサ2の動作を制
御することにより、プロセッサ2上に対象装置監視処理
部14を実現し、また、主記憶3上に監視用管理情報1
2を初期生成する。
セッサ2のハードウェアで実現することも可能である
が、ソフトウェアによって実現することもできる。この
場合、CD−ROM,半導体メモリ,磁気ディスク等の
機械読み取り可能な記録媒体8に記録された対象装置監
視用プログラムが、例えば情報処理装置1の立ち上げ時
にプロセッサ2に読み取られ、プロセッサ2の動作を制
御することにより、プロセッサ2上に対象装置監視処理
部14を実現し、また、主記憶3上に監視用管理情報1
2を初期生成する。
【0029】時計4は現在時刻を計時する手段であり、
プロセッサ2上の対象装置監視処理部14等はOS(図
示せず)のシステムコールによって時計4から現在時刻
を取得することが可能になっている。この時計4は、カ
ウンタ更新処理が行われた時刻の履歴をとるため等に使
用される。
プロセッサ2上の対象装置監視処理部14等はOS(図
示せず)のシステムコールによって時計4から現在時刻
を取得することが可能になっている。この時計4は、カ
ウンタ更新処理が行われた時刻の履歴をとるため等に使
用される。
【0030】次に、本発明の第1の実施の形態における
対象装置監視処理部14および監視用管理情報12の第
1の実施例について説明する。
対象装置監視処理部14および監視用管理情報12の第
1の実施例について説明する。
【0031】図2を参照すると、第1の実施例の対象装
置監視処理部14Aは、監視処理部21と障害対処手段
22とから構成され、監視処理部21は現在時刻取り出
し手段23と、時刻格納手段24と、監視カウンタ加算
手段25と、監視カウンタ検査手段26と、カウンタ補
正手段27とを含んでいる。また、第1の実施例の監視
用管理情報12Aは、時刻記憶部28と、監視カウンタ
記憶部29と、監視カウンタ限界値記憶部30とから構
成されている。なお、図2において、実線はデータの流
れを、破線は制御の流れを、それぞれ示している。
置監視処理部14Aは、監視処理部21と障害対処手段
22とから構成され、監視処理部21は現在時刻取り出
し手段23と、時刻格納手段24と、監視カウンタ加算
手段25と、監視カウンタ検査手段26と、カウンタ補
正手段27とを含んでいる。また、第1の実施例の監視
用管理情報12Aは、時刻記憶部28と、監視カウンタ
記憶部29と、監視カウンタ限界値記憶部30とから構
成されている。なお、図2において、実線はデータの流
れを、破線は制御の流れを、それぞれ示している。
【0032】監視カウンタ記憶部29は監視カウンタ1
1を記憶している。監視カウンタ11は監視対象装置1
5からのヘルスメッセージを受信する毎にカウンタリセ
ット手段7によって値0にリセットされ、監視処理部2
1の監視カウンタ加算手段25によって+1ずつ加算さ
れる。
1を記憶している。監視カウンタ11は監視対象装置1
5からのヘルスメッセージを受信する毎にカウンタリセ
ット手段7によって値0にリセットされ、監視処理部2
1の監視カウンタ加算手段25によって+1ずつ加算さ
れる。
【0033】監視カウンタ限界値記憶部30は、監視カ
ウンタ11の値がどの程度の値を越えたら監視対象装置
15の異常と判定するかの限界値(しきい値)を記憶す
る。監視対象装置15がヘルスメッセージを出す周期を
T、監視タイマ6が監視処理起動要求を出す周期をtと
すると、限界値THは[T/t]+αである。ここで、
[T/t]はTをtで割った商を、αは余裕度を示す値
であり、一般に小さな値の整数値が用いられる。
ウンタ11の値がどの程度の値を越えたら監視対象装置
15の異常と判定するかの限界値(しきい値)を記憶す
る。監視対象装置15がヘルスメッセージを出す周期を
T、監視タイマ6が監視処理起動要求を出す周期をtと
すると、限界値THは[T/t]+αである。ここで、
[T/t]はTをtで割った商を、αは余裕度を示す値
であり、一般に小さな値の整数値が用いられる。
【0034】時刻記憶部28は、監視カウンタ11が更
新された時刻の履歴を保持する部分である。図3に時刻
記憶部28の構成例を示す。この例の時刻記憶部28
は、時刻情報を格納するn+1個の時刻エントリE0〜
Enと、最新の時刻を書き込んだ時刻エントリを指し示
すポインタ41とから構成されている。ポインタ41は
初期状態では先頭の時刻エントリE0を指し示してい
る。この例の時刻記憶部28では、過去n+1回分の時
刻の履歴を保存することができる。ここで、時刻エント
リの個数、つまり過去何回分までの更新時刻の履歴を保
持するかは、限界値THの値と、監視カウンタ11の更
新周期が所定の周期よりどれだけ短くなり得るか、その
短い周期がどれほど連続し得るか等の状況を考慮して予
め決定されている。つまり、n+1>TH+β(β;余
裕個数)である。例えば、限界値THの2倍程度の個数
にされる。
新された時刻の履歴を保持する部分である。図3に時刻
記憶部28の構成例を示す。この例の時刻記憶部28
は、時刻情報を格納するn+1個の時刻エントリE0〜
Enと、最新の時刻を書き込んだ時刻エントリを指し示
すポインタ41とから構成されている。ポインタ41は
初期状態では先頭の時刻エントリE0を指し示してい
る。この例の時刻記憶部28では、過去n+1回分の時
刻の履歴を保存することができる。ここで、時刻エント
リの個数、つまり過去何回分までの更新時刻の履歴を保
持するかは、限界値THの値と、監視カウンタ11の更
新周期が所定の周期よりどれだけ短くなり得るか、その
短い周期がどれほど連続し得るか等の状況を考慮して予
め決定されている。つまり、n+1>TH+β(β;余
裕個数)である。例えば、限界値THの2倍程度の個数
にされる。
【0035】再び図2を参照すると、対象装置監視処理
部14Aは起動されると、監視処理部21を実行する。
監視処理部21内では、現在時刻取り出し手段23、時
刻格納手段24、監視カウンタ加算手段25、監視カウ
ンタ検査手段26、カウンタ補正手段27の順に実行さ
れる。また、監視処理部21の処理により監視対象装置
15の異常が検出された場合、障害対処手段22が引き
続き実行される。
部14Aは起動されると、監視処理部21を実行する。
監視処理部21内では、現在時刻取り出し手段23、時
刻格納手段24、監視カウンタ加算手段25、監視カウ
ンタ検査手段26、カウンタ補正手段27の順に実行さ
れる。また、監視処理部21の処理により監視対象装置
15の異常が検出された場合、障害対処手段22が引き
続き実行される。
【0036】図4は対象装置監視処理部14Aのフロー
チャートである。対象装置監視処理部14Aは起動され
ると、監視処理部21を起動する。これにより、先ず、
現在時刻取り出し手段23は、図1の時計4から現在時
刻を取り出す(S1)。取り出された現在時刻は、現在
時刻取り出し手段23から時刻格納手段24及びカウン
タ補正手段27に出力される。
チャートである。対象装置監視処理部14Aは起動され
ると、監視処理部21を起動する。これにより、先ず、
現在時刻取り出し手段23は、図1の時計4から現在時
刻を取り出す(S1)。取り出された現在時刻は、現在
時刻取り出し手段23から時刻格納手段24及びカウン
タ補正手段27に出力される。
【0037】次に、時刻格納手段24は、現在時刻取り
出し手段23で取り出された現在時刻を、最新の時刻と
して時刻記憶部28に格納する(S2)。新たな時刻情
報を書き込む場合、図3のポインタ41が指し示す時刻
エントリに書き込み、ポインタ41を更新して次の時刻
エントリを指し示すようにしておく。但し、最後の時刻
エントリEnに時刻情報を書き込んだときは、先頭の時
刻エントリE0を指し示すようにポインタ41を更新す
る。
出し手段23で取り出された現在時刻を、最新の時刻と
して時刻記憶部28に格納する(S2)。新たな時刻情
報を書き込む場合、図3のポインタ41が指し示す時刻
エントリに書き込み、ポインタ41を更新して次の時刻
エントリを指し示すようにしておく。但し、最後の時刻
エントリEnに時刻情報を書き込んだときは、先頭の時
刻エントリE0を指し示すようにポインタ41を更新す
る。
【0038】次に、監視カウンタ加算手段25は、監視
カウンタ記憶部29中の監視カウンタ11の値を+1す
る(S3)。+1された後の監視カウンタ11の値は、
監視カウンタ加算手段25から監視カウンタ検査手段2
6に出力される。
カウンタ記憶部29中の監視カウンタ11の値を+1す
る(S3)。+1された後の監視カウンタ11の値は、
監視カウンタ加算手段25から監視カウンタ検査手段2
6に出力される。
【0039】次に、監視カウンタ検査手段26は、監視
カウンタ限界値記憶部30に記憶された限界値を取り出
し(S4)、監視カウンタ11の値と比較する(S
5)。監視カウンタ11の値が限界値を越えていない場
合、対象装置監視処理部14Aの今回の処理は終了す
る。監視カウンタ11の値が限界値を越えていた場合、
限界値を渡してカウンタ補正手段27を起動する。
カウンタ限界値記憶部30に記憶された限界値を取り出
し(S4)、監視カウンタ11の値と比較する(S
5)。監視カウンタ11の値が限界値を越えていない場
合、対象装置監視処理部14Aの今回の処理は終了す
る。監視カウンタ11の値が限界値を越えていた場合、
限界値を渡してカウンタ補正手段27を起動する。
【0040】カウンタ補正手段27は、時刻記憶部28
に記憶されている時刻の履歴に基づき、監視対象装置1
5に異常が発生しているか否かを最終的に判定する。監
視対象装置15を異常と判定しない場合、対象装置監視
処理部14Aの今回の処理は終了する。他方、異常と判
定した場合、カウンタ補正手段27はその旨を障害対処
手段22に通知する。
に記憶されている時刻の履歴に基づき、監視対象装置1
5に異常が発生しているか否かを最終的に判定する。監
視対象装置15を異常と判定しない場合、対象装置監視
処理部14Aの今回の処理は終了する。他方、異常と判
定した場合、カウンタ補正手段27はその旨を障害対処
手段22に通知する。
【0041】監視対象装置15に異常が発生しているか
否かの最終的な判定は、時刻記憶部28に記憶されてい
る時刻の履歴を調査して行われる。具体的には、カウン
タ補正手段27は、時刻記憶部28に記憶されている履
歴中の監視カウンタの値−1番目に古い時刻を基準時刻
として取り出し(S6)、(基準時刻+限界値×起動周
期)で表される時刻と、最新の時刻(今回ステップS1
で取り出された時刻)とを比較する(S7)。ここで、
起動周期とは、監視タイマ6が監視処理起動要求を送出
する正規の周期のことである。そして、最新の時刻が、
(基準時刻+限界値×起動周期)で表される時刻より過
去の時刻であれば、監視カウンタ11が所定の周期より
短い周期で更新されており、異常と判定して良いだけの
時間が未だ経過していないので、監視対象装置15の異
常とは判定せずに今回の処理を終了する。他方、最新の
時刻が(基準時刻+限界値×起動周期)で表される時刻
と同じか将来の時刻であれば、監視対象装置15の異常
と判定する。この点を図5を参照して説明する。
否かの最終的な判定は、時刻記憶部28に記憶されてい
る時刻の履歴を調査して行われる。具体的には、カウン
タ補正手段27は、時刻記憶部28に記憶されている履
歴中の監視カウンタの値−1番目に古い時刻を基準時刻
として取り出し(S6)、(基準時刻+限界値×起動周
期)で表される時刻と、最新の時刻(今回ステップS1
で取り出された時刻)とを比較する(S7)。ここで、
起動周期とは、監視タイマ6が監視処理起動要求を送出
する正規の周期のことである。そして、最新の時刻が、
(基準時刻+限界値×起動周期)で表される時刻より過
去の時刻であれば、監視カウンタ11が所定の周期より
短い周期で更新されており、異常と判定して良いだけの
時間が未だ経過していないので、監視対象装置15の異
常とは判定せずに今回の処理を終了する。他方、最新の
時刻が(基準時刻+限界値×起動周期)で表される時刻
と同じか将来の時刻であれば、監視対象装置15の異常
と判定する。この点を図5を参照して説明する。
【0042】図5では、説明の便宜上、カウンタの限界
値THを3としている。時刻t4で監視カウンタ11が
更新されて3となった後、次の更新タイミングt3に至
る前に監視対象装置15からのヘルスメッセージで監視
カウンタ11が0にリセットされ、その後、時刻t3,
t2,t1のタイミングで監視カウンタ11が更新さ
れ、さらに時刻t0で監視カウンタ11が更新されて、
限界値3を越える値4になっている。この場合、監視カ
ウンタの値「4」−1番目に古い時刻はt3(カウンタ
がリセット後に初めて更新された時刻)であり、若し、
この時刻t3から正規の周期tで更新が3回(限界値)
行われたとすると、時刻t0は、t4+t×3と一致す
るはずである。にもかかわらず、時刻t0がt4+t×
3で表される時刻より過去の時刻であったとすると、そ
れはt3とt2間の時間、t2とt1間の時間、t1と
t0間の時間の合計時間がt×3より短かったことを意
味する。従って、その場合には異常と判定しない。
値THを3としている。時刻t4で監視カウンタ11が
更新されて3となった後、次の更新タイミングt3に至
る前に監視対象装置15からのヘルスメッセージで監視
カウンタ11が0にリセットされ、その後、時刻t3,
t2,t1のタイミングで監視カウンタ11が更新さ
れ、さらに時刻t0で監視カウンタ11が更新されて、
限界値3を越える値4になっている。この場合、監視カ
ウンタの値「4」−1番目に古い時刻はt3(カウンタ
がリセット後に初めて更新された時刻)であり、若し、
この時刻t3から正規の周期tで更新が3回(限界値)
行われたとすると、時刻t0は、t4+t×3と一致す
るはずである。にもかかわらず、時刻t0がt4+t×
3で表される時刻より過去の時刻であったとすると、そ
れはt3とt2間の時間、t2とt1間の時間、t1と
t0間の時間の合計時間がt×3より短かったことを意
味する。従って、その場合には異常と判定しない。
【0043】さて、障害対処手段22は、カウンタ補正
手段27から監視対象装置15に異常が発生した旨の通
知を受けると、監視対象装置15を障害発生装置として
処理し、必要な障害対処処理を実施する(S8)。この
障害対処処理の具体的な内容としては、監視対象装置1
5をシステムから論理的に切り離したり、初期化したり
すること等が考えられる。また、監視対象装置15と同
種の機能を持つ他の装置がシステム中に存在する場合、
監視対象装置15の処理を他の装置(自情報処理装置1
を含む)に引き継ぐ等の処理も考えられる。なお、監視
対象装置15の障害が検出された後は、監視対象装置1
5の障害監視は停止される。
手段27から監視対象装置15に異常が発生した旨の通
知を受けると、監視対象装置15を障害発生装置として
処理し、必要な障害対処処理を実施する(S8)。この
障害対処処理の具体的な内容としては、監視対象装置1
5をシステムから論理的に切り離したり、初期化したり
すること等が考えられる。また、監視対象装置15と同
種の機能を持つ他の装置がシステム中に存在する場合、
監視対象装置15の処理を他の装置(自情報処理装置1
を含む)に引き継ぐ等の処理も考えられる。なお、監視
対象装置15の障害が検出された後は、監視対象装置1
5の障害監視は停止される。
【0044】図6に本発明の第1の実施の形態における
第1の実施例の動作タイミングチャートを示す。同図に
おいて、(a)は主処理要求部5が待ちキュー9に格納
する主処理の単位時間当たりの要求量の推移を、(b)
は監視タイマ6が監視処理起動要求を待ちキュー9に格
納するタイミングを、(c)は監視カウンタ加算手段2
5による監視カウンタ11の更新タイミングを、(d)
は監視対象装置15からのヘルスメッセージによる監視
カウンタ11のリセットのタイミングを、(e)は監視
カウンタ11のカウンタ値の推移を、それぞれ示してい
る。また、ここでは、監視カウンタの限界値を「3」と
している。
第1の実施例の動作タイミングチャートを示す。同図に
おいて、(a)は主処理要求部5が待ちキュー9に格納
する主処理の単位時間当たりの要求量の推移を、(b)
は監視タイマ6が監視処理起動要求を待ちキュー9に格
納するタイミングを、(c)は監視カウンタ加算手段2
5による監視カウンタ11の更新タイミングを、(d)
は監視対象装置15からのヘルスメッセージによる監視
カウンタ11のリセットのタイミングを、(e)は監視
カウンタ11のカウンタ値の推移を、それぞれ示してい
る。また、ここでは、監視カウンタの限界値を「3」と
している。
【0045】主処理要求部5から待ちキュー9に送られ
る主処理要求の単位時間当たりの要求数が少ない場合、
情報処理装置1は負荷が小さいため、図6の区間Aに示
されるように、待ちキュー9に格納された監視処理起動
要求は迅速に処理され、カウンタ加算手段25による監
視カウンタ11の更新周期はほぼ所定の周期で行われ
る。
る主処理要求の単位時間当たりの要求数が少ない場合、
情報処理装置1は負荷が小さいため、図6の区間Aに示
されるように、待ちキュー9に格納された監視処理起動
要求は迅速に処理され、カウンタ加算手段25による監
視カウンタ11の更新周期はほぼ所定の周期で行われ
る。
【0046】単位時間当たりの主処理要求数が増大し、
情報処理装置1の負荷が大きくなると、図6の区間Bに
示されるように、待ちキュー9に格納された監視処理起
動要求は処理されずに滞留し、カウンタ加算手段25に
よる監視カウンタ11の更新も一時的に停止する。
情報処理装置1の負荷が大きくなると、図6の区間Bに
示されるように、待ちキュー9に格納された監視処理起
動要求は処理されずに滞留し、カウンタ加算手段25に
よる監視カウンタ11の更新も一時的に停止する。
【0047】その後、単位時間当たりの主処理要求数が
減り且つ待ちキュー9内に滞留していた主処理要求が処
理され尽くされると、図6の区間Cに示されるように、
待ちキュー9に滞留していた監視処理起動要求が次々と
処理され、カウンタ加算手段25による監視カウンタ1
1の更新周期が所定周期よりも短くなる。このため、監
視対象装置15から一定周期以内にヘルスメッセージが
出ているにもかかわらず、時刻t0の時点で監視カウン
タ11の値が限界値の3を越えている。従来はこれをも
って監視対象装置15の異常と判定していた為に誤検出
していた。しかし、本実施例では、カウンタ補正手段2
7が最終的な判定を下すため、誤検出が防止される。つ
まり、図6の時刻t0の場合、監視カウンタの値が1か
ら当該値「4」に至るまでの時間が、(限界値「3」×
正規の周期)より短いため、異常とは判定されない。
減り且つ待ちキュー9内に滞留していた主処理要求が処
理され尽くされると、図6の区間Cに示されるように、
待ちキュー9に滞留していた監視処理起動要求が次々と
処理され、カウンタ加算手段25による監視カウンタ1
1の更新周期が所定周期よりも短くなる。このため、監
視対象装置15から一定周期以内にヘルスメッセージが
出ているにもかかわらず、時刻t0の時点で監視カウン
タ11の値が限界値の3を越えている。従来はこれをも
って監視対象装置15の異常と判定していた為に誤検出
していた。しかし、本実施例では、カウンタ補正手段2
7が最終的な判定を下すため、誤検出が防止される。つ
まり、図6の時刻t0の場合、監視カウンタの値が1か
ら当該値「4」に至るまでの時間が、(限界値「3」×
正規の周期)より短いため、異常とは判定されない。
【0048】次に、本発明の第1の実施の形態における
対象装置監視処理部14の第2の実施例について説明す
る。
対象装置監視処理部14の第2の実施例について説明す
る。
【0049】図7を参照すると、第2の実施例の対象装
置監視処理部14Bは、監視処理部21中に時刻確認手
段31を備えている点で、図2に示した第1の実施例の
対象装置監視処理部14Aと相違している。その他、監
視用管理情報12Bを含め、他の構成は第1の実施例と
同じである。なお、図7において、実線はデータの流れ
を、破線は制御の流れを、それぞれ示している。
置監視処理部14Bは、監視処理部21中に時刻確認手
段31を備えている点で、図2に示した第1の実施例の
対象装置監視処理部14Aと相違している。その他、監
視用管理情報12Bを含め、他の構成は第1の実施例と
同じである。なお、図7において、実線はデータの流れ
を、破線は制御の流れを、それぞれ示している。
【0050】図8に対象装置監視処理部14Bのフロー
チャートを示す。S11,S12が時刻確認手段31に
よる処理ステップである。時刻確認手段31は、時刻記
憶部28に記憶されている最新の時刻(監視カウンタ1
1を前回更新した時刻)を取り出し(S11)、この時
刻と現在時刻取り出し手段23で今回取り出された現在
時刻との差が予め定められた一定時間内か否かを判定し
(S12)、一定時間内であれば監視処理部21の以降
の処理を割愛して処理を終了せしめ、一定時間内でなけ
れば時刻格納手段24以降の処理を行わせる手段であ
る。ここで、比較対象となる一定時間は、監視カウンタ
11の正規の更新周期より短い時間に設定される。
チャートを示す。S11,S12が時刻確認手段31に
よる処理ステップである。時刻確認手段31は、時刻記
憶部28に記憶されている最新の時刻(監視カウンタ1
1を前回更新した時刻)を取り出し(S11)、この時
刻と現在時刻取り出し手段23で今回取り出された現在
時刻との差が予め定められた一定時間内か否かを判定し
(S12)、一定時間内であれば監視処理部21の以降
の処理を割愛して処理を終了せしめ、一定時間内でなけ
れば時刻格納手段24以降の処理を行わせる手段であ
る。ここで、比較対象となる一定時間は、監視カウンタ
11の正規の更新周期より短い時間に設定される。
【0051】図9に図6と同様な動作タイミングチャー
トを示す。図6との相違点は、時刻t2と監視カウンタ
11が前回更新された時刻t3との差が一定時間内であ
るため、時刻t2では監視カウンタ11が更新されてい
ないこと、同じく時刻t0と前回の更新時刻t1との差
が一定時間内であるため、時刻t0では監視カウンタ1
1が更新されていないことである。
トを示す。図6との相違点は、時刻t2と監視カウンタ
11が前回更新された時刻t3との差が一定時間内であ
るため、時刻t2では監視カウンタ11が更新されてい
ないこと、同じく時刻t0と前回の更新時刻t1との差
が一定時間内であるため、時刻t0では監視カウンタ1
1が更新されていないことである。
【0052】このように第2の実施例の対象装置監視処
理部14Bによれば、時刻確認手段31を備えることに
より、異常検出のタイミングがごく短い間だけ抜ける可
能性はあるが、待ちキュー9に要求が滞留するほど負荷
が上がっている情報処理装置1の処理ステップの削減が
実現でき、負荷軽減に効果がある。
理部14Bによれば、時刻確認手段31を備えることに
より、異常検出のタイミングがごく短い間だけ抜ける可
能性はあるが、待ちキュー9に要求が滞留するほど負荷
が上がっている情報処理装置1の処理ステップの削減が
実現でき、負荷軽減に効果がある。
【0053】次に、本発明の第1の実施の形態における
対象装置監視処理部14及び監視用管理情報11の第3
の実施例について説明する。
対象装置監視処理部14及び監視用管理情報11の第3
の実施例について説明する。
【0054】図10を参照すると、第3の実施例の対象
装置監視処理部14Cは、監視処理部21中にカウンタ
値確認手段32を備え、時刻格納手段24による時刻の
格納前に監視カウンタ加算手段25による監視カウンタ
11の加算を行い、その加算後のカウンタ値が「1」で
あることがカウンタ値確認手段32で確認された場合に
時刻格納手段24による時刻の格納を行って今回の処理
を終了し、加算後のカウンタ値が「1」以外であれば、
監視カウンタ検査手段26以降の処理を行う点で、図2
に示した第1の実施例の対象装置監視処理部14Aと相
違している。また、監視用管理情報11C中の時刻記憶
部28は1つの時刻エントリのみで構成されている点が
図2のものと相違する。なお、図10において、実線は
データの流れを、破線は制御の流れを、それぞれ示して
いる。
装置監視処理部14Cは、監視処理部21中にカウンタ
値確認手段32を備え、時刻格納手段24による時刻の
格納前に監視カウンタ加算手段25による監視カウンタ
11の加算を行い、その加算後のカウンタ値が「1」で
あることがカウンタ値確認手段32で確認された場合に
時刻格納手段24による時刻の格納を行って今回の処理
を終了し、加算後のカウンタ値が「1」以外であれば、
監視カウンタ検査手段26以降の処理を行う点で、図2
に示した第1の実施例の対象装置監視処理部14Aと相
違している。また、監視用管理情報11C中の時刻記憶
部28は1つの時刻エントリのみで構成されている点が
図2のものと相違する。なお、図10において、実線は
データの流れを、破線は制御の流れを、それぞれ示して
いる。
【0055】図11に対象装置監視処理部14Cのフロ
ーチャートを示す。以下、本実施例の動作を説明する。
ーチャートを示す。以下、本実施例の動作を説明する。
【0056】現在時刻取り出し手段23が図1の時計4
から現在時刻を取り出すと(S21)、続いて監視カウ
ンタ加算手段25が監視カウンタ11の値を+1だけ加
算する(S22)。次に、カウンタ値確認手段32が、
この加算後の監視カウンタ11の値が「1」か否かを判
定する(S23)。監視カウンタ11の値が「1」であ
れば、時刻格納手段24がステップS21で取り出され
た現在時刻を基準時刻として時刻記憶部28に格納する
(S24)。時刻記憶部28は1つの時刻エントリしか
有していないので、新たな基準時刻の格納は上書きによ
って行われる。そして、対象装置監視処理部14Cは今
回の処理を終える。
から現在時刻を取り出すと(S21)、続いて監視カウ
ンタ加算手段25が監視カウンタ11の値を+1だけ加
算する(S22)。次に、カウンタ値確認手段32が、
この加算後の監視カウンタ11の値が「1」か否かを判
定する(S23)。監視カウンタ11の値が「1」であ
れば、時刻格納手段24がステップS21で取り出され
た現在時刻を基準時刻として時刻記憶部28に格納する
(S24)。時刻記憶部28は1つの時刻エントリしか
有していないので、新たな基準時刻の格納は上書きによ
って行われる。そして、対象装置監視処理部14Cは今
回の処理を終える。
【0057】他方、監視カウンタ11の値が「1」以外
の値であるときは、監視カウンタ検査手段26によって
カウンタ値が限界値を越えているか否かが検査され(S
25,S26)、若し越えていればカウンタ補正手段2
7による処理が実行される。つまり、カウンタ補正手段
27は時刻記憶部28に格納されている基準時刻を取り
出し(S27)、(基準時刻+限界値×起動周期)で表
される時刻と、最新の時刻(今回ステップS21で取り
出された時刻)とを比較する(S28)。そして、最新
の時刻が、(基準時刻+限界値×起動周期)で表される
時刻より過去の時刻であれば、今回の処理を終了し、最
新の時刻が(基準時刻+限界値×起動周期)で表される
時刻と同じか将来の時刻であれば、監視対象装置15の
異常と判定し、障害対処手段22にその旨通知する。
の値であるときは、監視カウンタ検査手段26によって
カウンタ値が限界値を越えているか否かが検査され(S
25,S26)、若し越えていればカウンタ補正手段2
7による処理が実行される。つまり、カウンタ補正手段
27は時刻記憶部28に格納されている基準時刻を取り
出し(S27)、(基準時刻+限界値×起動周期)で表
される時刻と、最新の時刻(今回ステップS21で取り
出された時刻)とを比較する(S28)。そして、最新
の時刻が、(基準時刻+限界値×起動周期)で表される
時刻より過去の時刻であれば、今回の処理を終了し、最
新の時刻が(基準時刻+限界値×起動周期)で表される
時刻と同じか将来の時刻であれば、監視対象装置15の
異常と判定し、障害対処手段22にその旨通知する。
【0058】このように第3の実施例の対象装置監視処
理部14Cによれば、カウンタ値確認手段32を備える
ことにより、カウンタ補正手段27の判定に使用する基
準時刻のみを時刻記憶部28に採取することができ、時
刻記憶部28の容量を削減することができる。但し、監
視カウンタ11の更新毎の時刻の履歴を採取していない
ので、第2の実施例の対象装置監視処理部14Bにおけ
る時刻確認手段31の付加は行えない。
理部14Cによれば、カウンタ値確認手段32を備える
ことにより、カウンタ補正手段27の判定に使用する基
準時刻のみを時刻記憶部28に採取することができ、時
刻記憶部28の容量を削減することができる。但し、監
視カウンタ11の更新毎の時刻の履歴を採取していない
ので、第2の実施例の対象装置監視処理部14Bにおけ
る時刻確認手段31の付加は行えない。
【0059】(2)第2の実施の形態 図12は本発明における第2の実施の形態のブロック図
である。この第2の実施の形態では、情報処理装置51
と情報処理装置66間で相互に相手装置の異常を監視す
る。図12において、情報処理装置51および情報処理
装置66は、ホストコンピュータ,入出力処理装置,排
他制御装置などの情報処理システムの構成要素の一つで
あり、自装置本来の機能に加えて、相手の情報処理装置
の異常を検出する機能を備えている。自装置本来の機能
とは、情報処理装置51,66がホストコンピュータで
あればホスト処理、入出力処理装置であれば入出力処
理、排他制御装置であれば排他制御処理のことである。
また、自装置本来の機能の遂行に伴い、情報処理装置5
1と情報処理装置66は互いにメッセージを授受し合う
関係にある。
である。この第2の実施の形態では、情報処理装置51
と情報処理装置66間で相互に相手装置の異常を監視す
る。図12において、情報処理装置51および情報処理
装置66は、ホストコンピュータ,入出力処理装置,排
他制御装置などの情報処理システムの構成要素の一つで
あり、自装置本来の機能に加えて、相手の情報処理装置
の異常を検出する機能を備えている。自装置本来の機能
とは、情報処理装置51,66がホストコンピュータで
あればホスト処理、入出力処理装置であれば入出力処
理、排他制御装置であれば排他制御処理のことである。
また、自装置本来の機能の遂行に伴い、情報処理装置5
1と情報処理装置66は互いにメッセージを授受し合う
関係にある。
【0060】情報処理装置51は、プロセッサ52と、
主記憶53と、時計54と、主処理要求部55と、監視
タイマ56と、カウンタリセット手段57を含む送受信
部65と、記録媒体58とを備える。また、プロセッサ
52は待ちキュー59と要求実行部60とを有し、主記
憶53は監視カウンタ61を含む監視用管理情報62を
格納する。更に、要求実行部60は主処理部63と対象
装置監視処理部64とを含んでいる。
主記憶53と、時計54と、主処理要求部55と、監視
タイマ56と、カウンタリセット手段57を含む送受信
部65と、記録媒体58とを備える。また、プロセッサ
52は待ちキュー59と要求実行部60とを有し、主記
憶53は監視カウンタ61を含む監視用管理情報62を
格納する。更に、要求実行部60は主処理部63と対象
装置監視処理部64とを含んでいる。
【0061】送受信部65内のカウンタリセット手段5
7は、情報処理装置66から自装置が正常である旨のヘ
ルスメッセージ及びその他の何らかのメッセージを送受
信部65が受信した時、主記憶53の監視用管理情報5
2中の監視カウンタ61を0にリセットする手段であ
る。ここで、情報処理装置66は、情報処理装置51と
同様に、自装置が正常である旨を示すヘルスメッセージ
を予め定められた周期で情報処理装置51に送出するよ
うプログラミングされている。若し、情報処理装置66
に障害が発生した場合、ヘルスメッセージ及び他の如何
なるメッセージも送出されなくなり、監視カウンタ61
もリセットされなくなる。
7は、情報処理装置66から自装置が正常である旨のヘ
ルスメッセージ及びその他の何らかのメッセージを送受
信部65が受信した時、主記憶53の監視用管理情報5
2中の監視カウンタ61を0にリセットする手段であ
る。ここで、情報処理装置66は、情報処理装置51と
同様に、自装置が正常である旨を示すヘルスメッセージ
を予め定められた周期で情報処理装置51に送出するよ
うプログラミングされている。若し、情報処理装置66
に障害が発生した場合、ヘルスメッセージ及び他の如何
なるメッセージも送出されなくなり、監視カウンタ61
もリセットされなくなる。
【0062】主処理要求部55は、情報処理装置51本
来の機能にかかる処理(主たる処理)の要求をプロセッ
サ52中の待ちキュー59に格納する手段であり、監視
タイマ56は、監視処理を起動する要求を待ちキュー5
9に格納する手段である。監視タイマ56は予め定めら
れた周期(例えば1秒周期)で、監視処理の起動要求を
待ちキュー59に格納する。
来の機能にかかる処理(主たる処理)の要求をプロセッ
サ52中の待ちキュー59に格納する手段であり、監視
タイマ56は、監視処理を起動する要求を待ちキュー5
9に格納する手段である。監視タイマ56は予め定めら
れた周期(例えば1秒周期)で、監視処理の起動要求を
待ちキュー59に格納する。
【0063】待ちキュー59は例えばFIFOレジスタ
で構成され、主処理要求部55および監視タイマ56か
ら格納された要求を格納順に保持する。要求実行部60
は、待ちキュー59に要求が1つ以上存在する場合、待
ちキュー59から要求を1つずつ順番に取り出し、その
要求の種類に応じた処理を実行する。即ち、取り出した
要求が情報処理装置51の主たる処理の要求であれば、
主処理部63でその要求に応じた処理を実行する。ここ
で、主処理部63では、情報処理装置51がホストコン
ピュータであればホスト処理、入出力処理装置であれば
入出力処理、排他制御装置であれば排他制御処理が行わ
れる。また、主処理に関連して情報処理装置66と送受
信部65を通じてメッセージの送受信を行う。
で構成され、主処理要求部55および監視タイマ56か
ら格納された要求を格納順に保持する。要求実行部60
は、待ちキュー59に要求が1つ以上存在する場合、待
ちキュー59から要求を1つずつ順番に取り出し、その
要求の種類に応じた処理を実行する。即ち、取り出した
要求が情報処理装置51の主たる処理の要求であれば、
主処理部63でその要求に応じた処理を実行する。ここ
で、主処理部63では、情報処理装置51がホストコン
ピュータであればホスト処理、入出力処理装置であれば
入出力処理、排他制御装置であれば排他制御処理が行わ
れる。また、主処理に関連して情報処理装置66と送受
信部65を通じてメッセージの送受信を行う。
【0064】他方、取り出した要求が監視処理起動要求
であれば、要求実行部60は対象装置監視処理部64を
起動し、対象装置監視処理を実行する。この対象装置監
視処理では、自装置51が正常である旨を示すヘルスメ
ッセージを送受信部65を通じて情報処理装置66に送
出する処理、監視カウンタ61の値を例えば+1だけ更
新する処理、更新後のカウンタ値が予め定められた限界
値を越えたか否かをチェックする処理などが行われる。
であれば、要求実行部60は対象装置監視処理部64を
起動し、対象装置監視処理を実行する。この対象装置監
視処理では、自装置51が正常である旨を示すヘルスメ
ッセージを送受信部65を通じて情報処理装置66に送
出する処理、監視カウンタ61の値を例えば+1だけ更
新する処理、更新後のカウンタ値が予め定められた限界
値を越えたか否かをチェックする処理などが行われる。
【0065】前述したように監視タイマ56から待ちキ
ュー59へは予め定められた周期毎に1つの監視処理起
動要求が格納される。主処理要求部55から待ちキュー
59への単位時間当たりの要求格納数が少ない場合、待
ちキュー59に格納された監視処理起動要求はほぼ所定
周期ごとに実行され、その結果、監視カウンタ61のカ
ウントアップも所定周期ごとに行われる。しかし、主処
理要求部55から待ちキュー59へ一度に多量の要求が
格納されると、それ以降に待ちキュー59に格納された
監視処理起動要求は、待ちキュー59に滞留している主
たる処理の要求が処理されるまで処理されず、そして、
主たる処理要求の処理が終わった時点で、それまで待ち
キュー59に滞留していた複数の監視処理起動要求が次
々と処理される。この結果、過渡的に、短い周期で対象
装置監視処理部64が連続して起動され、監視カウンタ
61が短い周期でカウントアップされる事象が発生し、
限界値との比較のみによる異常検出では誤検出する危険
性がある。このため、対象装置監視処理部64では、カ
ウンタ値が限界値を越えた場合、カウンタ更新処理の周
期の乱れを調査して最終的な判断を下す。
ュー59へは予め定められた周期毎に1つの監視処理起
動要求が格納される。主処理要求部55から待ちキュー
59への単位時間当たりの要求格納数が少ない場合、待
ちキュー59に格納された監視処理起動要求はほぼ所定
周期ごとに実行され、その結果、監視カウンタ61のカ
ウントアップも所定周期ごとに行われる。しかし、主処
理要求部55から待ちキュー59へ一度に多量の要求が
格納されると、それ以降に待ちキュー59に格納された
監視処理起動要求は、待ちキュー59に滞留している主
たる処理の要求が処理されるまで処理されず、そして、
主たる処理要求の処理が終わった時点で、それまで待ち
キュー59に滞留していた複数の監視処理起動要求が次
々と処理される。この結果、過渡的に、短い周期で対象
装置監視処理部64が連続して起動され、監視カウンタ
61が短い周期でカウントアップされる事象が発生し、
限界値との比較のみによる異常検出では誤検出する危険
性がある。このため、対象装置監視処理部64では、カ
ウンタ値が限界値を越えた場合、カウンタ更新処理の周
期の乱れを調査して最終的な判断を下す。
【0066】上述した対象装置監視処理部64は、プロ
セッサ52のハードウェアで実現することも可能である
が、ソフトウェアによって実現することもできる。この
場合、CD−ROM,半導体メモリ,磁気ディスク等の
機械読み取り可能な記録媒体58に記録された対象装置
監視用プログラムが、例えば情報処理装置51の立ち上
げ時にプロセッサ52に読み取られ、プロセッサ52の
動作を制御することにより、プロセッサ52上に対象装
置監視処理部64を実現し、また、主記憶53上に監視
用管理情報62を初期生成する。
セッサ52のハードウェアで実現することも可能である
が、ソフトウェアによって実現することもできる。この
場合、CD−ROM,半導体メモリ,磁気ディスク等の
機械読み取り可能な記録媒体58に記録された対象装置
監視用プログラムが、例えば情報処理装置51の立ち上
げ時にプロセッサ52に読み取られ、プロセッサ52の
動作を制御することにより、プロセッサ52上に対象装
置監視処理部64を実現し、また、主記憶53上に監視
用管理情報62を初期生成する。
【0067】時計54は現在時刻を計時する手段であ
り、プロセッサ52上の対象装置監視処理部64等はO
S(図示せず)のシステムコールによって時計54から
現在時刻を取得することが可能になっている。この時計
54は、カウンタ更新処理が行われた時刻の履歴をとる
ため等に使用される。
り、プロセッサ52上の対象装置監視処理部64等はO
S(図示せず)のシステムコールによって時計54から
現在時刻を取得することが可能になっている。この時計
54は、カウンタ更新処理が行われた時刻の履歴をとる
ため等に使用される。
【0068】情報処理装置66も、図12では内部のブ
ロックは省略しているが、情報処理装置51と同様の構
成を有しており、双方の送受信部65間が通信路を通じ
て接続され、相互に通信可能となっている。
ロックは省略しているが、情報処理装置51と同様の構
成を有しており、双方の送受信部65間が通信路を通じ
て接続され、相互に通信可能となっている。
【0069】次に、本発明の第2の実施の形態における
対象装置監視処理部64および監視用管理情報62の第
1の実施例について説明する。
対象装置監視処理部64および監視用管理情報62の第
1の実施例について説明する。
【0070】図13を参照すると、第1の実施例の対象
装置監視処理部64Aは、ヘルスメッセージ送出手段7
1と監視処理部72と障害対処手段73とから構成さ
れ、監視処理部72は現在時刻取り出し手段74と、時
刻格納手段75と、監視カウンタ加算手段76と、監視
カウンタ検査手段77と、カウンタ補正手段78とを含
んでいる。また、第1の実施例の監視用管理情報62A
は、時刻記憶部79と、監視カウンタ記憶部80と、監
視カウンタ限界値記憶部81とから構成されている。な
お、図13において、実線はデータの流れを、破線は制
御の流れを、それぞれ示している。
装置監視処理部64Aは、ヘルスメッセージ送出手段7
1と監視処理部72と障害対処手段73とから構成さ
れ、監視処理部72は現在時刻取り出し手段74と、時
刻格納手段75と、監視カウンタ加算手段76と、監視
カウンタ検査手段77と、カウンタ補正手段78とを含
んでいる。また、第1の実施例の監視用管理情報62A
は、時刻記憶部79と、監視カウンタ記憶部80と、監
視カウンタ限界値記憶部81とから構成されている。な
お、図13において、実線はデータの流れを、破線は制
御の流れを、それぞれ示している。
【0071】監視カウンタ記憶部80は監視カウンタ6
1を記憶している。監視カウンタ61は情報処理装置6
6から何らかのメッセージを受信する毎にカウンタリセ
ット手段57によって値0にリセットされ、監視処理部
72の監視カウンタ加算手段76によって+1ずつ加算
される。
1を記憶している。監視カウンタ61は情報処理装置6
6から何らかのメッセージを受信する毎にカウンタリセ
ット手段57によって値0にリセットされ、監視処理部
72の監視カウンタ加算手段76によって+1ずつ加算
される。
【0072】監視カウンタ限界値記憶部81は、監視カ
ウンタ61の値がどの程度の値を越えたら情報処理装置
66の異常と判定するかの限界値(しきい値)を記憶す
る。情報処理装置66がヘルスメッセージを出す周期を
T、監視タイマ56が監視処理起動要求を出す周期をt
とすると、限界値THは[T/t]+αである。ここ
で、[T/t]はTをtで割った商を、αは余裕度を示
す値であり、一般に小さな値の整数値が用いられる。こ
こで、本第2の実施の形態では、相手装置に対してヘル
スメッセージを送出する処理と相手装置の監視のために
監視カウンタ61を更新する処理とが同じ対象装置監視
処理部64内で行われるため、[T/t]の商は1にな
り、従って限界値THは例えば「2」程度に設定され
る。
ウンタ61の値がどの程度の値を越えたら情報処理装置
66の異常と判定するかの限界値(しきい値)を記憶す
る。情報処理装置66がヘルスメッセージを出す周期を
T、監視タイマ56が監視処理起動要求を出す周期をt
とすると、限界値THは[T/t]+αである。ここ
で、[T/t]はTをtで割った商を、αは余裕度を示
す値であり、一般に小さな値の整数値が用いられる。こ
こで、本第2の実施の形態では、相手装置に対してヘル
スメッセージを送出する処理と相手装置の監視のために
監視カウンタ61を更新する処理とが同じ対象装置監視
処理部64内で行われるため、[T/t]の商は1にな
り、従って限界値THは例えば「2」程度に設定され
る。
【0073】時刻記憶部79は、監視カウンタ61が更
新された時刻の履歴を保持する部分であり、その構成の
一例は図3に示したものと同様である。即ち、時刻記憶
部79は、時刻情報を格納するn+1個の時刻エントリ
E0〜Enと、最新の時刻を書き込んだ時刻エントリを
指し示すポインタ41とから構成されている。ポインタ
41は初期状態では先頭の時刻エントリE0を指し示し
ている。この例の時刻記憶部79では、過去n+1回分
の時刻の履歴を保存することができる。ここで、時刻エ
ントリの個数、つまり過去何回分までの更新時刻の履歴
を保持するかは、限界値THの値と、監視カウンタ61
の更新周期が所定の周期よりどれだけ短くなり得るか、
その短い周期がどれほど連続し得るか等の状況を考慮し
て予め決定されている。つまり、n+1>TH+β
(β;余裕個数)である。例えば、限界値THの2倍程
度、従って4個程度の時刻エントリが設けられる。
新された時刻の履歴を保持する部分であり、その構成の
一例は図3に示したものと同様である。即ち、時刻記憶
部79は、時刻情報を格納するn+1個の時刻エントリ
E0〜Enと、最新の時刻を書き込んだ時刻エントリを
指し示すポインタ41とから構成されている。ポインタ
41は初期状態では先頭の時刻エントリE0を指し示し
ている。この例の時刻記憶部79では、過去n+1回分
の時刻の履歴を保存することができる。ここで、時刻エ
ントリの個数、つまり過去何回分までの更新時刻の履歴
を保持するかは、限界値THの値と、監視カウンタ61
の更新周期が所定の周期よりどれだけ短くなり得るか、
その短い周期がどれほど連続し得るか等の状況を考慮し
て予め決定されている。つまり、n+1>TH+β
(β;余裕個数)である。例えば、限界値THの2倍程
度、従って4個程度の時刻エントリが設けられる。
【0074】対象装置監視処理部64Aは起動される
と、まずヘルスメッセージ送出手段71を実行し、次い
で、監視処理部72を実行する。監視処理部71内で
は、現在時刻取り出し手段74、時刻格納手段75、監
視カウンタ加算手段76、監視カウンタ検査手段77、
カウンタ補正手段78の順に実行される。また、監視処
理部72の処理により情報処理装置66の異常が検出さ
れた場合、障害対処手段73が引き続き実行される。
と、まずヘルスメッセージ送出手段71を実行し、次い
で、監視処理部72を実行する。監視処理部71内で
は、現在時刻取り出し手段74、時刻格納手段75、監
視カウンタ加算手段76、監視カウンタ検査手段77、
カウンタ補正手段78の順に実行される。また、監視処
理部72の処理により情報処理装置66の異常が検出さ
れた場合、障害対処手段73が引き続き実行される。
【0075】図14は対象装置監視処理部64Aのフロ
ーチャートである。対象装置監視処理部64Aが起動さ
れると、先ずヘルスメッセージ送出手段71が送受信部
65を通じて情報処理装置66に対しヘルスメッセージ
を送信する(S51)。
ーチャートである。対象装置監視処理部64Aが起動さ
れると、先ずヘルスメッセージ送出手段71が送受信部
65を通じて情報処理装置66に対しヘルスメッセージ
を送信する(S51)。
【0076】次に、監視処理部72が起動され、現在時
刻取り出し手段74が、図12の時計54から現在時刻
を取り出す(S52)。取り出された現在時刻は、現在
時刻取り出し手段74から時刻格納手段75及びカウン
タ補正手段78に出力される。
刻取り出し手段74が、図12の時計54から現在時刻
を取り出す(S52)。取り出された現在時刻は、現在
時刻取り出し手段74から時刻格納手段75及びカウン
タ補正手段78に出力される。
【0077】次に、時刻格納手段75は、現在時刻取り
出し手段74で取り出された現在時刻を、最新の時刻と
して時刻記憶部79に格納する(S53)。新たな時刻
情報を書き込む場合、図3のポインタ41が指し示す時
刻エントリに書き込み、ポインタ41を更新して次の時
刻エントリを指し示すようにしておく。但し、最後の時
刻エントリEnに時刻情報を書き込んだときは、先頭の
時刻エントリE0を指し示すようにポインタ41を更新
する。
出し手段74で取り出された現在時刻を、最新の時刻と
して時刻記憶部79に格納する(S53)。新たな時刻
情報を書き込む場合、図3のポインタ41が指し示す時
刻エントリに書き込み、ポインタ41を更新して次の時
刻エントリを指し示すようにしておく。但し、最後の時
刻エントリEnに時刻情報を書き込んだときは、先頭の
時刻エントリE0を指し示すようにポインタ41を更新
する。
【0078】次に、監視カウンタ加算手段76は、監視
カウンタ記憶部80中の監視カウンタ61の値を+1す
る(S54)。+1された後の監視カウンタ61の値
は、監視カウンタ加算手段76から監視カウンタ検査手
段77に出力される。
カウンタ記憶部80中の監視カウンタ61の値を+1す
る(S54)。+1された後の監視カウンタ61の値
は、監視カウンタ加算手段76から監視カウンタ検査手
段77に出力される。
【0079】次に、監視カウンタ検査手段77は、監視
カウンタ限界値記憶部81に記憶された限界値を取り出
し(S55)、監視カウンタ61の値と比較する(S5
6)。監視カウンタ61の値が限界値を越えていない場
合、対象装置監視処理部64Aの今回の処理は終了す
る。監視カウンタ61の値が限界値を越えていた場合、
カウンタ補正手段78が起動される。
カウンタ限界値記憶部81に記憶された限界値を取り出
し(S55)、監視カウンタ61の値と比較する(S5
6)。監視カウンタ61の値が限界値を越えていない場
合、対象装置監視処理部64Aの今回の処理は終了す
る。監視カウンタ61の値が限界値を越えていた場合、
カウンタ補正手段78が起動される。
【0080】カウンタ補正手段78は、第1の実施の形
態と同様の方法で、時刻記憶部79に記憶されている時
刻の履歴に基づき、情報処理装置66に異常が発生して
いるか否かの最終判断を下す(S57,S58)。情報
処理装置66に異常が発生していないと判断した場合、
対象装置監視処理部64Aの今回の処理は終了する。他
方、情報処理装置66に異常が発生していると判断した
場合、カウンタ補正手段78はその旨を障害対処手段7
3に通知する。
態と同様の方法で、時刻記憶部79に記憶されている時
刻の履歴に基づき、情報処理装置66に異常が発生して
いるか否かの最終判断を下す(S57,S58)。情報
処理装置66に異常が発生していないと判断した場合、
対象装置監視処理部64Aの今回の処理は終了する。他
方、情報処理装置66に異常が発生していると判断した
場合、カウンタ補正手段78はその旨を障害対処手段7
3に通知する。
【0081】障害対処手段73は、カウンタ補正手段7
8から情報処理装置66に異常が発生した旨の通知を受
けると、情報処理装置66を障害発生装置として処理
し、必要な障害対処処理を実施する(S59)。この障
害対処処理の具体的な内容としては、情報処理装置66
をシステムから論理的に切り離したり、初期化したりす
ることが考えられる。また、情報処理装置66と同種の
機能を持つ他の装置がシステム中に存在する場合、情報
処理装置66の処理を他の装置(自情報処理装置51を
含む)に引き継ぐ等の処理も考えられる。なお、情報処
理装置66の障害が検出された後は、情報処理装置51
における情報処理装置66の障害監視は停止される。
8から情報処理装置66に異常が発生した旨の通知を受
けると、情報処理装置66を障害発生装置として処理
し、必要な障害対処処理を実施する(S59)。この障
害対処処理の具体的な内容としては、情報処理装置66
をシステムから論理的に切り離したり、初期化したりす
ることが考えられる。また、情報処理装置66と同種の
機能を持つ他の装置がシステム中に存在する場合、情報
処理装置66の処理を他の装置(自情報処理装置51を
含む)に引き継ぐ等の処理も考えられる。なお、情報処
理装置66の障害が検出された後は、情報処理装置51
における情報処理装置66の障害監視は停止される。
【0082】図15に本発明の第2の実施の形態におけ
る第1の実施例の動作タイミングチャートを示す。同図
において、(a)は主処理要求部55が待ちキュー59
に格納する主処理の単位時間当たりの要求量の推移を、
(b)は監視タイマ56が監視処理起動要求を待ちキュ
ー59に格納するタイミングを、(c)は監視カウンタ
加算手段76による監視カウンタ61の更新タイミング
を、(d)は情報処理装置66からのヘルスメッセージ
による監視カウンタ61のリセットのタイミングを、
(e)は監視カウンタ61のカウンタ値の推移を、それ
ぞれ示している。また、ここでは、監視カウンタの限界
値を「2」としている。
る第1の実施例の動作タイミングチャートを示す。同図
において、(a)は主処理要求部55が待ちキュー59
に格納する主処理の単位時間当たりの要求量の推移を、
(b)は監視タイマ56が監視処理起動要求を待ちキュ
ー59に格納するタイミングを、(c)は監視カウンタ
加算手段76による監視カウンタ61の更新タイミング
を、(d)は情報処理装置66からのヘルスメッセージ
による監視カウンタ61のリセットのタイミングを、
(e)は監視カウンタ61のカウンタ値の推移を、それ
ぞれ示している。また、ここでは、監視カウンタの限界
値を「2」としている。
【0083】主処理要求部55から待ちキュー59に送
られる主処理要求の単位時間当たりの要求数が少ない場
合、情報処理装置51は負荷が小さいため、図15の区
間Aに示されるように、待ちキュー59に格納された監
視処理起動要求は迅速に処理され、カウンタ加算手段7
6による監視カウンタ61の更新周期はほぼ所定の周期
で行われる。
られる主処理要求の単位時間当たりの要求数が少ない場
合、情報処理装置51は負荷が小さいため、図15の区
間Aに示されるように、待ちキュー59に格納された監
視処理起動要求は迅速に処理され、カウンタ加算手段7
6による監視カウンタ61の更新周期はほぼ所定の周期
で行われる。
【0084】単位時間当たりの主処理要求数が増大し、
情報処理装置51の負荷が大きくなると、図15の区間
Bに示されるように、待ちキュー59に格納された監視
処理起動要求は処理されずに滞留し、カウンタ加算手段
76による監視カウンタ61の更新も一時的に停止す
る。
情報処理装置51の負荷が大きくなると、図15の区間
Bに示されるように、待ちキュー59に格納された監視
処理起動要求は処理されずに滞留し、カウンタ加算手段
76による監視カウンタ61の更新も一時的に停止す
る。
【0085】その後、単位時間当たりの主処理要求数が
減り且つ待ちキュー59内に滞留していた主処理要求が
処理され尽くされると、図15の区間Cに示されるよう
に、待ちキュー59に滞留していた監視処理起動要求が
次々と処理され、カウンタ加算手段76による監視カウ
ンタ61の更新周期が所定周期よりも短くなる。このた
め、情報処理装置66から一定周期以内にヘルスメッセ
ージが出ているにもかかわらず、時刻t0の時点で監視
カウンタ61の値が限界値の2を越えている。従来はこ
れをもって情報処理装置66の異常と判定していた為に
誤検出していた。しかし、本実施例では、カウンタ補正
手段78が最終的な判断を下すため、誤検出が防止され
る。つまり、図15の時刻t0の場合、監視カウンタ6
1の値が1から当該値「3」に至るまでの時間が、(限
界値「2」×正規の周期)より短いため、異常とは判定
されない。
減り且つ待ちキュー59内に滞留していた主処理要求が
処理され尽くされると、図15の区間Cに示されるよう
に、待ちキュー59に滞留していた監視処理起動要求が
次々と処理され、カウンタ加算手段76による監視カウ
ンタ61の更新周期が所定周期よりも短くなる。このた
め、情報処理装置66から一定周期以内にヘルスメッセ
ージが出ているにもかかわらず、時刻t0の時点で監視
カウンタ61の値が限界値の2を越えている。従来はこ
れをもって情報処理装置66の異常と判定していた為に
誤検出していた。しかし、本実施例では、カウンタ補正
手段78が最終的な判断を下すため、誤検出が防止され
る。つまり、図15の時刻t0の場合、監視カウンタ6
1の値が1から当該値「3」に至るまでの時間が、(限
界値「2」×正規の周期)より短いため、異常とは判定
されない。
【0086】なお、図15において、(c)のカウンタ
更新のタイミングは、情報処理装置51から情報処理装
置66に対しヘルスメッセージを送出するタイミングで
もある。このため、時刻t3と時刻t2間に見られるよ
うに主処理の高負荷時にはヘルスメッセージを送出する
周期が延びる。しかし、本第2の実施の形態では、情報
処理装置51における主処理時に、主処理に関連するメ
ッセージが情報処理装置66に送られ、情報処理装置6
6側のカウンタリセット手段57によって監視カウンタ
がリセットされるため、問題はない。
更新のタイミングは、情報処理装置51から情報処理装
置66に対しヘルスメッセージを送出するタイミングで
もある。このため、時刻t3と時刻t2間に見られるよ
うに主処理の高負荷時にはヘルスメッセージを送出する
周期が延びる。しかし、本第2の実施の形態では、情報
処理装置51における主処理時に、主処理に関連するメ
ッセージが情報処理装置66に送られ、情報処理装置6
6側のカウンタリセット手段57によって監視カウンタ
がリセットされるため、問題はない。
【0087】次に、本発明の第2の実施の形態における
対象装置監視処理部64及び監視用管理情報62の第2
の実施例について説明する。
対象装置監視処理部64及び監視用管理情報62の第2
の実施例について説明する。
【0088】図16を参照すると、第2の実施例の対象
装置監視処理部64Bは、監視処理部72中に時刻確認
手段82を備えている点で、図13に示した第1の実施
例の対象装置監視処理部64Aと相違している。その
他、監視用管理情報62Bを含め、他の構成は第1の実
施例と同じである。なお、図16において、実線はデー
タの流れを、破線は制御の流れを、それぞれ示してい
る。
装置監視処理部64Bは、監視処理部72中に時刻確認
手段82を備えている点で、図13に示した第1の実施
例の対象装置監視処理部64Aと相違している。その
他、監視用管理情報62Bを含め、他の構成は第1の実
施例と同じである。なお、図16において、実線はデー
タの流れを、破線は制御の流れを、それぞれ示してい
る。
【0089】図17に対象装置監視処理部64Bのフロ
ーチャートを示す。S61,S62が時刻確認手段82
による処理ステップである。
ーチャートを示す。S61,S62が時刻確認手段82
による処理ステップである。
【0090】時刻確認手段82は、時刻記憶部79に記
憶されている最新の時刻(監視カウンタ61を前回更新
した時刻)を取り出し(S61)、この時刻と現在時刻
取り出し手段74で今回取り出された現在時刻との差が
予め定められた一定時間内か否かを判定し(S62)、
一定時間内であれば監視処理部72の以降の処理を割愛
して処理を終了せしめ、一定時間内でなければ時刻格納
手段75以降の処理を行わせる手段である。ここで、比
較対象となる一定時間は、監視カウンタ61の正規の更
新周期より短い時間に設定される。
憶されている最新の時刻(監視カウンタ61を前回更新
した時刻)を取り出し(S61)、この時刻と現在時刻
取り出し手段74で今回取り出された現在時刻との差が
予め定められた一定時間内か否かを判定し(S62)、
一定時間内であれば監視処理部72の以降の処理を割愛
して処理を終了せしめ、一定時間内でなければ時刻格納
手段75以降の処理を行わせる手段である。ここで、比
較対象となる一定時間は、監視カウンタ61の正規の更
新周期より短い時間に設定される。
【0091】図18に図15と同様な動作タイミングチ
ャートを示す。図15との相違点は、時刻t1と監視カ
ウンタ61が前回更新された時刻t2との差が一定時間
内であるため、時刻t1では監視カウンタ61が更新さ
れていないこと、同じく時刻t0と前回の更新時刻t2
との差が一定時間内であるため、時刻t0でも監視カウ
ンタ61が更新されていないことである。
ャートを示す。図15との相違点は、時刻t1と監視カ
ウンタ61が前回更新された時刻t2との差が一定時間
内であるため、時刻t1では監視カウンタ61が更新さ
れていないこと、同じく時刻t0と前回の更新時刻t2
との差が一定時間内であるため、時刻t0でも監視カウ
ンタ61が更新されていないことである。
【0092】このように第2の実施例の対象装置監視処
理部64Bによれば、時刻確認手段82を備えることに
より、異常検出のタイミングがごく短い間だけ抜ける可
能性はあるが、待ちキュー59に要求が滞留するほど負
荷が上がっている情報処理装置51の処理ステップの削
減が実現でき、負荷軽減に効果がある。
理部64Bによれば、時刻確認手段82を備えることに
より、異常検出のタイミングがごく短い間だけ抜ける可
能性はあるが、待ちキュー59に要求が滞留するほど負
荷が上がっている情報処理装置51の処理ステップの削
減が実現でき、負荷軽減に効果がある。
【0093】次に、本発明の第2の実施の形態における
対象装置監視処理部64及び監視用管理情報62の第3
の実施例について説明する。
対象装置監視処理部64及び監視用管理情報62の第3
の実施例について説明する。
【0094】図19を参照すると、第3の実施例の対象
装置監視処理部64Cは、監視処理部72中にカウンタ
値確認手段83を備え、時刻格納手段75による時刻の
格納前に監視カウンタ加算手段76による監視カウンタ
61の加算を行い、その加算後のカウンタ値が「1」で
あることがカウンタ値確認手段83で確認された場合に
時刻格納手段75による時刻の格納を行って今回の処理
を終了し、加算後のカウンタ値が「1」以外であれば、
監視カウンタ検査手段77以降の処理を行う点で、図1
3に示した第1の実施例の対象装置監視処理部64Aと
相違している。また、監視用管理情報62C中の時刻記
憶部79は1つの時刻エントリのみで構成されている点
が図13のものと相違する。なお、図19において、実
線はデータの流れを、破線は制御の流れを、それぞれ示
している。
装置監視処理部64Cは、監視処理部72中にカウンタ
値確認手段83を備え、時刻格納手段75による時刻の
格納前に監視カウンタ加算手段76による監視カウンタ
61の加算を行い、その加算後のカウンタ値が「1」で
あることがカウンタ値確認手段83で確認された場合に
時刻格納手段75による時刻の格納を行って今回の処理
を終了し、加算後のカウンタ値が「1」以外であれば、
監視カウンタ検査手段77以降の処理を行う点で、図1
3に示した第1の実施例の対象装置監視処理部64Aと
相違している。また、監視用管理情報62C中の時刻記
憶部79は1つの時刻エントリのみで構成されている点
が図13のものと相違する。なお、図19において、実
線はデータの流れを、破線は制御の流れを、それぞれ示
している。
【0095】図20に対象装置監視処理部64Cのフロ
ーチャートを示す。まず、ヘルスメッセージ送出手段7
1が情報処理処置66に対しヘルスメッセージを送出す
る(S71)。次に、現在時刻取り出し手段74が図1
2の時計54から現在時刻を取り出し(S72)、続い
て監視カウンタ加算手段76が監視カウンタ61の値を
+1だけ加算する(S73)。次に、カウンタ値確認手
段83が、この加算後の監視カウンタ61の値が「1」
か否かを判定する(S74)。監視カウンタ61の値が
「1」であれば、時刻格納手段75がステップS72で
取り出された現在時刻を基準時刻として時刻記憶部79
に格納する(S75)。時刻記憶部79は1つの時刻エ
ントリしか有していないので、新たな基準時刻の格納は
上書きによって行われる。そして、対象装置監視処理部
64Cは今回の処理を終える。
ーチャートを示す。まず、ヘルスメッセージ送出手段7
1が情報処理処置66に対しヘルスメッセージを送出す
る(S71)。次に、現在時刻取り出し手段74が図1
2の時計54から現在時刻を取り出し(S72)、続い
て監視カウンタ加算手段76が監視カウンタ61の値を
+1だけ加算する(S73)。次に、カウンタ値確認手
段83が、この加算後の監視カウンタ61の値が「1」
か否かを判定する(S74)。監視カウンタ61の値が
「1」であれば、時刻格納手段75がステップS72で
取り出された現在時刻を基準時刻として時刻記憶部79
に格納する(S75)。時刻記憶部79は1つの時刻エ
ントリしか有していないので、新たな基準時刻の格納は
上書きによって行われる。そして、対象装置監視処理部
64Cは今回の処理を終える。
【0096】他方、監視カウンタ61の値が「1」以外
の値であるときは、監視カウンタ検査手段77によって
カウンタ値が限界値を越えているか否かが検査され(S
76,S77)、若し越えていればカウンタ補正手段7
8による処理が実行される。つまり、カウンタ補正手段
78は時刻記憶部79に格納されている基準時刻を取り
出し(S78)、(基準時刻+限界値×起動周期)で表
される時刻と、最新の時刻(今回ステップS72で取り
出された時刻)とを比較する(S79)。そして、最新
の時刻が、(基準時刻+限界値×起動周期)で表される
時刻より過去の時刻であれば、今回の処理を終了し、最
新の時刻が(基準時刻+限界値×起動周期)で表される
時刻と同じか将来の時刻であれば、情報処理装置66の
異常と判定し、障害対処手段73にその旨通知する。
の値であるときは、監視カウンタ検査手段77によって
カウンタ値が限界値を越えているか否かが検査され(S
76,S77)、若し越えていればカウンタ補正手段7
8による処理が実行される。つまり、カウンタ補正手段
78は時刻記憶部79に格納されている基準時刻を取り
出し(S78)、(基準時刻+限界値×起動周期)で表
される時刻と、最新の時刻(今回ステップS72で取り
出された時刻)とを比較する(S79)。そして、最新
の時刻が、(基準時刻+限界値×起動周期)で表される
時刻より過去の時刻であれば、今回の処理を終了し、最
新の時刻が(基準時刻+限界値×起動周期)で表される
時刻と同じか将来の時刻であれば、情報処理装置66の
異常と判定し、障害対処手段73にその旨通知する。
【0097】このように第3の実施例の対象装置監視処
理部64Cによれば、カウンタ値確認手段83を備える
ことにより、カウンタ補正手段78の判定に使用する基
準時刻のみを時刻記憶部79に採取することができ、時
刻記憶部79の容量を削減することができる。但し、監
視カウンタ61の更新毎の時刻の履歴を採取していない
ので、第2の実施例の対象装置監視処理部64Bにおけ
る時刻確認手段82の付加は行えない。
理部64Cによれば、カウンタ値確認手段83を備える
ことにより、カウンタ補正手段78の判定に使用する基
準時刻のみを時刻記憶部79に採取することができ、時
刻記憶部79の容量を削減することができる。但し、監
視カウンタ61の更新毎の時刻の履歴を採取していない
ので、第2の実施例の対象装置監視処理部64Bにおけ
る時刻確認手段82の付加は行えない。
【0098】次に本発明の第2の実施の形態の適用例に
ついて説明する。
ついて説明する。
【0099】図21は、本発明の第2の実施の形態を、
二重化された排他制御装置に対して適用した際の排他制
御装置の構成例を示し、図22は、二重化された排他制
御装置を有する情報処理システムの構成例を示す。
二重化された排他制御装置に対して適用した際の排他制
御装置の構成例を示し、図22は、二重化された排他制
御装置を有する情報処理システムの構成例を示す。
【0100】まず図22を参照すると、この例の情報処
理システムは、各々独立に動作する複数のホスト(ホス
トコンピュータ)101−1〜101−mと、これら複
数のホスト101−1〜101−mで共有される共有資
源102と、共有資源102を複数のホスト101−1
〜101−mで矛盾無く使用できるように排他制御を行
う二重化された排他制御装置103とを含んでいる。共
有資源102としては、メモリの一部の領域やファイ
ル,プリンタ等がある。また、二重化された排他制御装
置103は、同じ構成を有する2台の排他制御装置9
1,92で構成されている。
理システムは、各々独立に動作する複数のホスト(ホス
トコンピュータ)101−1〜101−mと、これら複
数のホスト101−1〜101−mで共有される共有資
源102と、共有資源102を複数のホスト101−1
〜101−mで矛盾無く使用できるように排他制御を行
う二重化された排他制御装置103とを含んでいる。共
有資源102としては、メモリの一部の領域やファイ
ル,プリンタ等がある。また、二重化された排他制御装
置103は、同じ構成を有する2台の排他制御装置9
1,92で構成されている。
【0101】次に図21を参照すると、排他制御装置9
1は、プロセッサ52と、主記憶53と、時計54と、
監視タイマ56と、記録媒体58と、カウンタリセット
手段57を含むペアインターフェース96と、ホストイ
ンターフェース93とを備える。また、プロセッサ52
は待ちキュー59と要求実行部60とを有し、主記憶5
3は監視カウンタ61を含む監視用管理情報62と排他
制御用管理情報95とを格納する。更に、要求実行部6
0は、主処理部である排他制御処理部94と対象装置監
視処理部64とを含んでいる。ここで、図12と同一符
号は同一部分を示している。また、排他制御装置92も
図21では内部のブロックは図示を省略しているが、排
他制御装置91と同様の構成を有しており、双方のペア
インターフェース96間が接続され、相互に通信可能に
なっている。
1は、プロセッサ52と、主記憶53と、時計54と、
監視タイマ56と、記録媒体58と、カウンタリセット
手段57を含むペアインターフェース96と、ホストイ
ンターフェース93とを備える。また、プロセッサ52
は待ちキュー59と要求実行部60とを有し、主記憶5
3は監視カウンタ61を含む監視用管理情報62と排他
制御用管理情報95とを格納する。更に、要求実行部6
0は、主処理部である排他制御処理部94と対象装置監
視処理部64とを含んでいる。ここで、図12と同一符
号は同一部分を示している。また、排他制御装置92も
図21では内部のブロックは図示を省略しているが、排
他制御装置91と同様の構成を有しており、双方のペア
インターフェース96間が接続され、相互に通信可能に
なっている。
【0102】システム立ち上げ時、2台の排他制御装置
91,92の一方、例えば排他制御装置91が主の排他
制御装置、他方の排他制御装置92が従の排他制御装置
となる。各ホスト101−1〜101−mは、共有資源
102中の或る資源をアクセスするのに先立ち、その資
源の使用権を得るために主の排他制御装置91に対しロ
ック取得要求を送出する。また、既に或る資源の使用権
を得ていたホスト101−1〜101−mがその資源の
アクセスを終了し、使用権を手放す場合は、主の排他制
御装置91に対しロック解放要求を送出する。
91,92の一方、例えば排他制御装置91が主の排他
制御装置、他方の排他制御装置92が従の排他制御装置
となる。各ホスト101−1〜101−mは、共有資源
102中の或る資源をアクセスするのに先立ち、その資
源の使用権を得るために主の排他制御装置91に対しロ
ック取得要求を送出する。また、既に或る資源の使用権
を得ていたホスト101−1〜101−mがその資源の
アクセスを終了し、使用権を手放す場合は、主の排他制
御装置91に対しロック解放要求を送出する。
【0103】主の排他制御装置91では、上記のロック
取得要求,ロック解放要求はホストインターフェース9
3で受け取られ、ホストインターフェース93はその要
求をプロセッサ52の待ちキュー59に格納する。同様
の要求が他のホストから送出された場合も、それらの要
求が待ちキュー59に順次格納される。また、監視タイ
マ56からは所定周期で監視処理起動要求が待ちキュー
59に格納される。
取得要求,ロック解放要求はホストインターフェース9
3で受け取られ、ホストインターフェース93はその要
求をプロセッサ52の待ちキュー59に格納する。同様
の要求が他のホストから送出された場合も、それらの要
求が待ちキュー59に順次格納される。また、監視タイ
マ56からは所定周期で監視処理起動要求が待ちキュー
59に格納される。
【0104】要求実行部60は、待ちキュー59から要
求を1つずつ取り出し、その要求がロック取得要求,ロ
ック解放要求であれば排他制御処理部94にその要求を
処理させる。
求を1つずつ取り出し、その要求がロック取得要求,ロ
ック解放要求であれば排他制御処理部94にその要求を
処理させる。
【0105】排他制御処理部94は、主記憶53上の排
他制御用管理情報95によって、共有資源102のどの
資源がどのホストで使用中であるか、また未使用である
かを管理している。ロック取得要求の場合、要求された
資源が使用中で他のホストで使用できなければ、要求元
のホストに対してホストインターフェース93を通じて
不許可を通知する。他方、要求された資源が使用中でな
ければ管理情報95上でその資源を使用中に更新して、
要求元のホストに対してホストインターフェース93を
通じて使用の許可を返却する。このとき、管理情報95
の更新内容をペアインターフェース96を通じて従の排
他制御装置92にメッセージとして送出し、排他制御装
置92側では、自身の主記憶上の排他制御用管理情報を
同様に更新し、更新終了時点で正常終了を示すメッセー
ジを主の排他制御装置91にペアインターフェースを通
じて返却する。
他制御用管理情報95によって、共有資源102のどの
資源がどのホストで使用中であるか、また未使用である
かを管理している。ロック取得要求の場合、要求された
資源が使用中で他のホストで使用できなければ、要求元
のホストに対してホストインターフェース93を通じて
不許可を通知する。他方、要求された資源が使用中でな
ければ管理情報95上でその資源を使用中に更新して、
要求元のホストに対してホストインターフェース93を
通じて使用の許可を返却する。このとき、管理情報95
の更新内容をペアインターフェース96を通じて従の排
他制御装置92にメッセージとして送出し、排他制御装
置92側では、自身の主記憶上の排他制御用管理情報を
同様に更新し、更新終了時点で正常終了を示すメッセー
ジを主の排他制御装置91にペアインターフェースを通
じて返却する。
【0106】また、要求がロック解放要求の場合、排他
制御処理部94は、管理情報95上で解放要求された資
源を未使用中に更新し、管理情報95の更新内容をペア
インターフェース96を通じて従の排他制御装置92に
メッセージとして送出する。排他制御装置92側では、
自身の主記憶上の排他制御用管理情報を同様に更新し、
更新終了時点で正常終了を示すメッセージを主の排他制
御装置91にペアインターフェース96を通じて返却す
る。
制御処理部94は、管理情報95上で解放要求された資
源を未使用中に更新し、管理情報95の更新内容をペア
インターフェース96を通じて従の排他制御装置92に
メッセージとして送出する。排他制御装置92側では、
自身の主記憶上の排他制御用管理情報を同様に更新し、
更新終了時点で正常終了を示すメッセージを主の排他制
御装置91にペアインターフェース96を通じて返却す
る。
【0107】以上のような排他制御処理部94による処
理に伴って排他制御装置91と排他制御装置92との間
でメッセージの授受が行われると、ペアインターフェー
ス96内に設けられたカウンタリセット手段57が、相
手装置からメッセージを受信した時点で監視カウンタ6
1を値0にリセットする。
理に伴って排他制御装置91と排他制御装置92との間
でメッセージの授受が行われると、ペアインターフェー
ス96内に設けられたカウンタリセット手段57が、相
手装置からメッセージを受信した時点で監視カウンタ6
1を値0にリセットする。
【0108】他方、待ちキュー59から取り出された要
求が監視処理起動要求である場合、要求実行部60は、
対象装置監視処理部64を起動する。この対象装置監視
処理部64としては、図13で説明した第1の実施例、
図16で説明した第2の実施例、図19で説明した第3
の実施例のうちの任意のものを使用することができる。
そして、対象装置監視処理部64で従の排他制御装置9
2の異常が検出された場合、障害対処手段73におい
て、従の排他制御装置92に異常が発生した旨がホスト
101−1〜101−mにホストインターフェース93
を通じて通知される。また、早期の交換を促すためにオ
ペレータへの通知を行う。一方、従の排他制御装置92
において主の排他制御装置91の異常が検出された場
合、その障害対処手段73において、主の排他制御装置
91に異常が発生した旨がホスト101−1〜101−
mにホストインターフェースを通じて通知され、以後、
従の排他制御装置92が主の排他制御装置として動作す
る。また、早期の交換を促すためにオペレータへの通知
を行う。
求が監視処理起動要求である場合、要求実行部60は、
対象装置監視処理部64を起動する。この対象装置監視
処理部64としては、図13で説明した第1の実施例、
図16で説明した第2の実施例、図19で説明した第3
の実施例のうちの任意のものを使用することができる。
そして、対象装置監視処理部64で従の排他制御装置9
2の異常が検出された場合、障害対処手段73におい
て、従の排他制御装置92に異常が発生した旨がホスト
101−1〜101−mにホストインターフェース93
を通じて通知される。また、早期の交換を促すためにオ
ペレータへの通知を行う。一方、従の排他制御装置92
において主の排他制御装置91の異常が検出された場
合、その障害対処手段73において、主の排他制御装置
91に異常が発生した旨がホスト101−1〜101−
mにホストインターフェースを通じて通知され、以後、
従の排他制御装置92が主の排他制御装置として動作す
る。また、早期の交換を促すためにオペレータへの通知
を行う。
【0109】以上の適用例では、一方を主、他方を従と
する二重化構成の排他制御装置に対し本発明を適用した
が、双方の排他制御装置が全く同じ処理を並行して行う
形態の二重化構成や、受け持つホストや共有資源を各々
で分担する形態の二重化構成の排他制御装置に対しても
適用可能である。また、二重化された排他制御装置に対
して適用したが、二重化されたホストコンピュータや、
二重化された入出力処理装置等に対しても適用できる。
する二重化構成の排他制御装置に対し本発明を適用した
が、双方の排他制御装置が全く同じ処理を並行して行う
形態の二重化構成や、受け持つホストや共有資源を各々
で分担する形態の二重化構成の排他制御装置に対しても
適用可能である。また、二重化された排他制御装置に対
して適用したが、二重化されたホストコンピュータや、
二重化された入出力処理装置等に対しても適用できる。
【0110】
【発明の効果】以上説明したように本発明によれば以下
のような効果を得ることができる。
のような効果を得ることができる。
【0111】監視対象装置から一定時間以内毎に出力さ
れるべき通知の有無に基づき監視対象装置の異常を検出
する際、監視用のカウンタの更新周期の変動による誤検
出を防止することができる。その理由は、カウンタの値
が限界値を越えたとき、カウンタ更新処理の周期が予め
定められた周期より短くなっていなかった場合に限っ
て、監視対象装置の異常と判定するからであり、また、
カウンタがリセット後に初めて更新された時刻に(限界
値×カウンタ更新周期の正規の値)を足した時刻と今回
の更新時刻との比較結果に応じて、監視対象装置の異常
の有無を最終的に判定するからである。
れるべき通知の有無に基づき監視対象装置の異常を検出
する際、監視用のカウンタの更新周期の変動による誤検
出を防止することができる。その理由は、カウンタの値
が限界値を越えたとき、カウンタ更新処理の周期が予め
定められた周期より短くなっていなかった場合に限っ
て、監視対象装置の異常と判定するからであり、また、
カウンタがリセット後に初めて更新された時刻に(限界
値×カウンタ更新周期の正規の値)を足した時刻と今回
の更新時刻との比較結果に応じて、監視対象装置の異常
の有無を最終的に判定するからである。
【0112】監視処理に要する負荷の増大を極力抑える
ことができる。その理由は、カウンタが限界値を越える
まではカウンタ補正手段が動作せず、時刻の比較等によ
る最終的な判断を下す必要がないからである。
ことができる。その理由は、カウンタが限界値を越える
まではカウンタ補正手段が動作せず、時刻の比較等によ
る最終的な判断を下す必要がないからである。
【0113】時刻確認手段またはそれに該当する処理を
備える構成にあっては、監視処理に要するステップ数の
削減が行える。その理由は、前回のカウンタ更新処理か
ら予め定められた周期より短い周期で到来するカウンタ
更新処理を無効にして監視処理を速やかに終了させるか
らである。
備える構成にあっては、監視処理に要するステップ数の
削減が行える。その理由は、前回のカウンタ更新処理か
ら予め定められた周期より短い周期で到来するカウンタ
更新処理を無効にして監視処理を速やかに終了させるか
らである。
【0114】カウンタ値確認手段またはそれに該当する
処理を備える構成にあっては、カウンタがリセット後に
初めて更新された時刻の履歴のみを記録するため、時刻
の採取回数の削減、時刻の履歴を格納する領域の削減が
可能となる。
処理を備える構成にあっては、カウンタがリセット後に
初めて更新された時刻の履歴のみを記録するため、時刻
の採取回数の削減、時刻の履歴を格納する領域の削減が
可能となる。
【0115】相手装置から一定時間以内毎に出力される
べき通知の有無に基づき相手装置の異常を検出すると共
に、相手装置で自装置の異常の検出が行えるように自装
置から相手装置に一定時間毎に通知を出す処理をも行う
装置において、相手装置の異常を検出する処理と相手装
置へ通知を出す処理とを同じ監視処理内で実行する構成
にあっては、監視処理の起動要求を所定周期で待ちキュ
ーに入れるだけで、相手装置の監視と相手装置への通知
の送出とを同時に行わせることができる。また、監視タ
イマを相手装置への通知用と監視用とに兼用することが
できる。
べき通知の有無に基づき相手装置の異常を検出すると共
に、相手装置で自装置の異常の検出が行えるように自装
置から相手装置に一定時間毎に通知を出す処理をも行う
装置において、相手装置の異常を検出する処理と相手装
置へ通知を出す処理とを同じ監視処理内で実行する構成
にあっては、監視処理の起動要求を所定周期で待ちキュ
ーに入れるだけで、相手装置の監視と相手装置への通知
の送出とを同時に行わせることができる。また、監視タ
イマを相手装置への通知用と監視用とに兼用することが
できる。
【図1】本発明における第1の実施の形態のブロック図
である。
である。
【図2】本発明の第1の実施の形態における対象装置監
視処理部および監視用管理情報の第1の実施例を示すブ
ロック図である。
視処理部および監視用管理情報の第1の実施例を示すブ
ロック図である。
【図3】本発明の第1の実施の形態の第1の実施例にお
ける時刻記憶部の構成例を示すブロック図である。
ける時刻記憶部の構成例を示すブロック図である。
【図4】本発明の第1の実施の形態の第1の実施例にお
ける対象装置監視処理部のフローチャートである。
ける対象装置監視処理部のフローチャートである。
【図5】本発明の第1の実施の形態の第1の実施例にお
けるカウンタ補正手段の動作説明図である。
けるカウンタ補正手段の動作説明図である。
【図6】本発明の第1の実施の形態における第1の実施
例の動作タイミングチャートである。
例の動作タイミングチャートである。
【図7】本発明の第1の実施の形態における対象装置監
視処理部および監視用管理情報の第2の実施例のブロッ
ク図である。
視処理部および監視用管理情報の第2の実施例のブロッ
ク図である。
【図8】本発明の第1の実施の形態の第2の実施例にお
ける対象装置監視処理部のフローチャートである。
ける対象装置監視処理部のフローチャートである。
【図9】本発明の第1の実施の形態における第2の実施
例の動作タイミングチャートである。
例の動作タイミングチャートである。
【図10】本発明の第1の実施の形態における対象装置
監視処理部および監視用管理情報の第3の実施例を示す
ブロック図である。
監視処理部および監視用管理情報の第3の実施例を示す
ブロック図である。
【図11】本発明の第1の実施の形態の第3の実施例に
おける対象装置監視処理部のフローチャートである。
おける対象装置監視処理部のフローチャートである。
【図12】本発明における第2の実施の形態のブロック
図である。
図である。
【図13】本発明の第2の実施の形態における対象装置
監視処理部および監視用管理情報の第1の実施例のブロ
ック図である。
監視処理部および監視用管理情報の第1の実施例のブロ
ック図である。
【図14】本発明の第2の実施の形態の第1の実施例に
おける対象装置監視処理部のフローチャートである。
おける対象装置監視処理部のフローチャートである。
【図15】本発明の第2の実施の形態における第1の実
施例の動作タイミングチャートである。
施例の動作タイミングチャートである。
【図16】本発明の第2の実施の形態における対象装置
監視処理部および監視用管理情報の第2の実施例のブロ
ック図である。
監視処理部および監視用管理情報の第2の実施例のブロ
ック図である。
【図17】本発明の第2の実施の形態の第2の実施例に
おける対象装置監視処理部のフローチャートである。
おける対象装置監視処理部のフローチャートである。
【図18】本発明の第2の実施の形態における第2の実
施例の動作タイミングチャートである。
施例の動作タイミングチャートである。
【図19】本発明の第2の実施の形態における対象装置
監視処理部及び監視用管理情報の第3の実施例のブロッ
ク図である。
監視処理部及び監視用管理情報の第3の実施例のブロッ
ク図である。
【図20】本発明の第2の実施の形態の第3の実施例に
おける対象装置監視処理部のフローチャートである。
おける対象装置監視処理部のフローチャートである。
【図21】本発明の第2の実施の形態を二重化された排
他制御装置に対して適用した際の排他制御装置の構成例
を示すブロック図である。
他制御装置に対して適用した際の排他制御装置の構成例
を示すブロック図である。
【図22】二重化された排他制御装置を有する情報処理
システムの構成例を示すブロック図である。
システムの構成例を示すブロック図である。
1,51,66…情報処理装置 2,52…プロセッサ 3,53…主記憶 4,54…時計 5,55…主処理部 6,56…監視タイマ 7,57…カウンタリセット手段 8,58…記録媒体 9,59…待ちキュー 10,60…要求実行部 11,61…監視カウンタ 12,62…監視用管理情報 13,63…主処理部 14,64…対象装置監視処理部 15…監視対象装置 65…送受信部
Claims (14)
- 【請求項1】 監視対象装置から一定時間以内毎に出力
されるべき通知の有無に基づき監視対象装置の異常を検
出する方法において、 監視対象装置から通知がある毎にリセットされ且つカウ
ンタ更新処理毎に一定値ずつ更新されるカウンタの値が
予め定められた限界値を越えたとき、カウンタ更新処理
の周期が予め定められた周期より短くなっていなかった
か否かを調べ、短くなっていなかった場合に限って、監
視対象装置の異常と判定することを特徴とする監視対象
装置の異常検出方法。 - 【請求項2】 リセット後に初めてカウンタを更新した
時刻を少なくとも含むカウンタ更新時刻の履歴を採取し
ておき、採取したカウンタ更新時刻の履歴に基づき、カ
ウンタ更新処理の周期が予め定められた周期より短くな
っていなかったか否かを調べることを特徴とする請求項
1記載の監視対象装置の異常検出方法。 - 【請求項3】 自装置が担う主たる処理以外に、監視対
象装置から一定時間以内毎に出力されるべき通知の有無
に基づき監視対象装置の異常を検出する処理をも行う装
置において、 (a)監視対象装置から通知がある毎に監視用のカウン
タをリセットするステップ。 (b)カウンタ更新処理を含む監視処理の起動要求は所
定周期で、主たる処理の要求はその発生時に、それぞれ
待ちキューに格納するステップ。 (c)待ちキューから要求を取り出すステップ。 (d)取り出された要求が主たる処理の要求であれば、
主たる処理を実行するステップ。 (e)取り出された要求が監視処理の起動要求であれ
ば、前記カウンタを一定値だけ更新してその更新時刻を
記録すると共に、更新後のカウンタの値が予め定められ
た限界値を越えたか否かを検査し、越えていたときは、
カウンタがリセット後に初めて更新された時刻に(限界
値×カウンタ更新周期の正規の値)を足した時刻と今回
の更新時刻との比較結果に応じて、監視対象装置の異常
の有無を判定するステップ。 を含むことを特徴とする監視対象装置の異常検出方法。 - 【請求項4】 自装置が担う主たる処理以外に、相手装
置から一定時間以内毎に出力されるべき通知の有無に基
づき相手装置の異常を検出する処理、および相手装置で
自装置の異常の検出が行えるように自装置から相手装置
に一定時間毎に通知を出す処理をも行う装置において、 (a)相手装置から通知がある毎に監視用のカウンタを
リセットするステップ。 (b)カウンタ更新処理を含む監視処理の起動要求は所
定周期で、主たる処理の要求はその発生時に、それぞれ
待ちキューに格納するステップ。 (c)待ちキューから要求を取り出すステップ。 (d)取り出された要求が主たる処理の要求であれば、
主たる処理を実行するステップ。 (e)取り出された要求が監視処理の起動要求であれ
ば、相手装置に通知を送出すると共に、前記カウンタを
一定値だけ更新してその更新時刻を記録し、且つ、更新
後のカウンタの値が予め定められた限界値を越えたか否
かを検査し、越えていたときは、カウンタがリセット後
に初めて更新された時刻に(限界値×カウンタ更新周期
の正規の値)を足した時刻と今回の更新時刻との比較結
果に応じて、監視対象装置の異常の有無を判定するステ
ップ。 を含むことを特徴とする監視対象装置の異常検出方法。 - 【請求項5】 カウンタ更新処理に先立って、直前のカ
ウンタ更新時刻と現在の時刻とから前回から今回までの
カウンタ更新処理周期を計算してこの計算した周期が予
め定められた周期より短くなっているか否かを調べ、短
くなっている場合には、今回の監視処理を終了するステ
ップを更に含むことを特徴とする請求項3または4記載
の監視対象装置の異常検出方法。 - 【請求項6】 カウンタがリセット後に初めて更新され
た時刻の履歴のみを記録するようにした請求項3または
4記載の監視対象装置の異常検出方法。 - 【請求項7】 自装置が担う主たる処理以外に、監視対
象装置から一定時間以内毎に出力されるべき通知の有無
に基づき監視対象装置の異常を検出する処理をも行う装
置において、 監視用のカウンタと、 監視対象装置から通知がある毎に前記カウンタをリセッ
トするカウンタリセット手段と、 カウンタ更新処理を含む監視処理の起動要求及び主たる
処理の要求を格納するための待ちキューと、 所定時間毎に監視処理の起動要求を前記待ちキューに格
納する監視タイマと、 主たる処理の要求が発生する毎にその要求を前記待ちキ
ューに格納する主処理要求部と、 前記待ちキューから順に要求を取り出して実行する要求
実行部内に設けられた、主たる処理を実行する主処理部
および監視処理を実行する対象装置監視処理部とを備
え、 前記対象装置監視処理部は、 前記カウンタを一定値だけ更新するカウンタ加算手段
と、 カウンタが更新された時刻の履歴をとる時刻格納手段
と、 更新後のカウンタの値が、予め定められた限界値を越え
たか否かを検査する監視カウンタ検査手段と、 カウンタの値が限界値を越えていたとき、カウンタがリ
セット後に初めて更新された時刻に(限界値×カウンタ
更新周期の正規の値)を足した時刻と今回の更新時刻と
の比較結果に応じて、監視対象装置の異常の有無を判定
するカウンタ補正手段とを備えることを特徴とする監視
対象装置の異常検出装置。 - 【請求項8】 自装置が担う主たる処理以外に、相手装
置から一定時間以内毎に出力されるべき通知の有無に基
づき相手装置の異常を検出する処理、および相手装置で
自装置の異常の検出が行えるように自装置から相手装置
に一定時間毎に通知を出す処理をも行う装置において、 監視用のカウンタと、 相手装置から通知がある毎に前記カウンタをリセットす
るカウンタリセット手段と、 カウンタ更新処理を含む監視処理の起動要求及び主たる
処理の要求を格納するための待ちキューと、 所定時間毎に監視処理の起動要求を前記待ちキューに格
納する監視タイマと、 主たる処理の要求が発生する毎にその要求を前記待ちキ
ューに格納する主処理要求部と、 前記待ちキューから順に要求を取り出して実行する要求
実行部内に設けられた、主たる処理を実行する主処理部
および監視処理を実行する対象装置監視処理部とを備
え、 前記対象装置監視処理部は、 相手装置に自装置が正常である旨の通知を送出するヘル
スメッセージ送出手段と、 前記カウンタを一定値だけ更新するカウンタ加算手段
と、 カウンタが更新された時刻の履歴をとる時刻格納手段
と、 更新後のカウンタの値が、予め定められた限界値を越え
たか否かを検査する監視カウンタ検査手段と、 カウンタの値が限界値を越えていたとき、カウンタがリ
セット後に初めて更新された時刻に(限界値×カウンタ
更新周期の正規の値)を足した時刻と今回の更新時刻と
の比較結果に応じて、相手装置の異常の有無を判定する
カウンタ補正手段とを備えることを特徴とする監視対象
装置の異常検出装置。 - 【請求項9】 自装置が二重化された排他制御装置の一
方の排他制御装置、相手装置が他方の排他制御装置であ
り、主たる処理が排他制御処理であることを特徴とする
請求項8記載の監視対象装置の異常検出装置。 - 【請求項10】 前記対象装置監視処理部は、更に、カ
ウンタ更新処理に先立って、直前のカウンタ更新時刻と
現在の時刻とから前回から今回までのカウンタ更新処理
周期を計算してこの計算した周期が予め定められた周期
より短くなっているか否かを調べ、短くなっている場合
には、今回の対象装置監視処理を終了せしめる時刻確認
手段を備えることを特徴とする請求項7、8または9記
載の監視対象装置の異常検出装置。 - 【請求項11】 前記対象装置監視処理部は、更に、前
記カウンタがリセット後に初めて更新されたか否かを調
べるカウンタ値確認手段を備え、前記時刻格納手段は、
リセット後に初めて更新された時刻のみの履歴をとる構
成を有することを特徴とする請求項7、8または9記載
の監視対象装置の異常検出装置。 - 【請求項12】 自装置が担う主たる処理以外に、監視
対象装置から一定時間以内毎に出力されるべき通知の有
無に基づき監視対象装置の異常を検出する処理をも行う
装置を構成するプロセッサに、以下の処理を実行させる
プログラムを記録した機械読み取り可能な記録媒体。 (a)カウンタ更新処理を含む監視処理の起動要求は所
定周期で、主たる処理の要求はその発生時に、それぞれ
待ちキューに格納するステップ。 (b)待ちキューから要求を取り出すステップ。 (c)取り出された要求が主たる処理の要求であれば、
主たる処理を実行するステップ。 (d)取り出された要求が監視処理の起動要求であれ
ば、監視対象装置から通知がある毎にリセットされるカ
ウンタを一定値だけ更新してその更新時刻を記録すると
共に、更新後のカウンタの値が予め定められた限界値を
越えたか否かを検査し、越えていたときは、カウンタが
リセット後に初めて更新された時刻に(限界値×カウン
タ更新周期の正規の値)を足した時刻と今回の更新時刻
との比較結果に応じて、監視対象装置の異常の有無を判
定するステップ。 - 【請求項13】 自装置が担う主たる処理以外に、相手
装置から一定時間以内毎に出力されるべき通知の有無に
基づき相手装置の異常を検出する処理、および相手装置
で自装置の異常の検出が行えるように自装置から相手装
置に一定時間毎に通知を出す処理をも行う装置を構成す
るプロセッサに、以下の処理を実行させるプログラムを
記録した機械読み取り可能な記録媒体。 (a)カウンタ更新処理を含む監視処理の起動要求は所
定周期で、主たる処理の要求はその発生時に、それぞれ
待ちキューに格納するステップ。 (b)待ちキューから要求を取り出すステップ。 (c)取り出された要求が主たる処理の要求であれば、
主たる処理を実行するステップ。 (d)取り出された要求が監視処理の起動要求であれ
ば、相手装置に通知を送出すると共に、相手装置から通
知がある毎にリセットされるカウンタを一定値だけ更新
してその更新時刻を記録し、且つ、更新後のカウンタの
値が予め定められた限界値を越えたか否かを検査し、越
えていたときは、カウンタがリセット後に初めて更新さ
れた時刻に(限界値×カウンタ更新周期の正規の値)を
足した時刻と今回の更新時刻との比較結果に応じて、相
手装置の異常の有無を判定するステップ。 - 【請求項14】 カウンタ更新処理に先立って、直前の
カウンタ更新時刻と現在の時刻とから前回から今回まで
のカウンタ更新処理周期を計算してこの計算した周期が
予め定められた周期より短くなっているか否かを調べ、
短くなっている場合には、今回の監視処理を終了するス
テップを前記プロセッサに更に実行させるプログラムを
記録した請求項12または13記載のプログラムを記録
した機械読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10093981A JP3127880B2 (ja) | 1998-03-23 | 1998-03-23 | 監視対象装置の異常検出方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10093981A JP3127880B2 (ja) | 1998-03-23 | 1998-03-23 | 監視対象装置の異常検出方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11272508A true JPH11272508A (ja) | 1999-10-08 |
JP3127880B2 JP3127880B2 (ja) | 2001-01-29 |
Family
ID=14097592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10093981A Expired - Fee Related JP3127880B2 (ja) | 1998-03-23 | 1998-03-23 | 監視対象装置の異常検出方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3127880B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007272464A (ja) * | 2006-03-30 | 2007-10-18 | Toshiba Corp | 情報処理システムおよび情報処理方法 |
CN112988554A (zh) * | 2019-12-12 | 2021-06-18 | 阿里巴巴集团控股有限公司 | Sdk检测方法、装置、sdk、应用程序、设备和存储介质 |
CN113272658A (zh) * | 2019-02-07 | 2021-08-17 | 维宁尔瑞典公司 | 加速度计数据存储的改进或涉及加速度计数据存储的改进 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101563928B1 (ko) * | 2014-10-13 | 2015-10-29 | 전북대학교산학협력단 | 분리형 지팡이 |
-
1998
- 1998-03-23 JP JP10093981A patent/JP3127880B2/ja not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007272464A (ja) * | 2006-03-30 | 2007-10-18 | Toshiba Corp | 情報処理システムおよび情報処理方法 |
CN113272658A (zh) * | 2019-02-07 | 2021-08-17 | 维宁尔瑞典公司 | 加速度计数据存储的改进或涉及加速度计数据存储的改进 |
US20220101660A1 (en) * | 2019-02-07 | 2022-03-31 | Veoneer Sweden Ab | Improvements in or relating to storage of accelerometer data |
CN112988554A (zh) * | 2019-12-12 | 2021-06-18 | 阿里巴巴集团控股有限公司 | Sdk检测方法、装置、sdk、应用程序、设备和存储介质 |
CN112988554B (zh) * | 2019-12-12 | 2024-05-17 | 阿里巴巴集团控股有限公司 | Sdk检测方法、装置、sdk、程序、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP3127880B2 (ja) | 2001-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7853767B2 (en) | Dual writing device and its control method | |
EP0563620A2 (en) | Method and apparatus for coupling data processing systems | |
JP2006048578A (ja) | 計算機システム、計算機及びそのプログラム。 | |
US7032128B2 (en) | Method for managing computer, apparatus for managing computer, and computer readable medium storing program for managing computer | |
US7096289B2 (en) | Sender to receiver request retry method and apparatus | |
WO2015033433A1 (ja) | ストレージ装置及び障害部位特定方法 | |
US8434083B2 (en) | Throttling an asynchronous remote copying system | |
JP2000259585A (ja) | システムアプリケーション管理方式とその管理方式を実行するためのプログラムを記録した記録媒体 | |
JP3127880B2 (ja) | 監視対象装置の異常検出方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体 | |
US5594868A (en) | Processor unit for a parallel processor system discards a received packet when a reception buffer has insufficient space for storing the packet | |
KR102665749B1 (ko) | 클라우드 저하 모드에서 지속적인 디바이스 동작 안정성을 보장하기 위한 방법 및 장치 | |
JP2010176345A (ja) | マルチノードシステム、ノード、メモリダンプ処理方法、及びプログラム | |
CN110008681A (zh) | 访问控制方法、设备及系统 | |
US10089200B2 (en) | Computer apparatus and computer mechanism | |
US8006122B2 (en) | Methods, systems, and computer products for detection of and policy directed resolution of signaling sympathy sickness in a multisystem cluster | |
JP3190880B2 (ja) | スタンバイシステム、スタンバイ方法、および記録媒体 | |
JP6540309B2 (ja) | 共有メモリシステム、演算処理装置、及び方法 | |
JPH0936853A (ja) | ネットワーク上におけるデータ交換方式 | |
JP6112205B2 (ja) | 情報処理システム、装置、方法及びプログラム | |
KR20180065881A (ko) | 멀티 코어 프로세서 및 그것의 캐시 관리 방법 | |
CN109358903A (zh) | 数据访问设备和访问错误通知方法 | |
CN114489300B (zh) | 一种Expander芯片复位方法和装置 | |
JP2581558B2 (ja) | 分散処理システム | |
CN117499127A (zh) | 用于跨域访问的方法、装置、设备和介质 | |
JPS634214B2 (ja) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |