JP2002251300A

JP2002251300A - 障害監視方法及び装置

Info

Publication number: JP2002251300A
Application number: JP2001045950A
Authority: JP
Inventors: Satoshi Oshima; 訓大島; Toshiaki Arai; 利明新井; Masahide Sato; 雅英佐藤; Hiroki Ukai; 宏樹鵜飼
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2001-02-22
Filing date: 2001-02-22
Publication date: 2002-09-06
Also published as: US20020116670A1

Abstract

(57)【要約】【課題】 WDTタイムアウト後、システムに割り込みを
かけるだけのWDTでは、割り込みだけでは障害から復帰
できない深刻な状態に陥った場合、システムが停止す
る。【解決手段】複数段階のWDTを連動させる手順と連動
したWDTが段階的に強力にシステムに介入する手順と、
割り込みによって回復できる軽度の障害には割り込みに
よって、マスク不可能割り込み以外では回復できない中
程度の障害にはマスク不可能割り込みによって、そし
て、再起動以外に回復できないような重度の障害に対し
ては、システムリセットによって障害に対応する。ま
た、設定によって有効、無効を決定できる複数のポート
をもつWDTリセットポートにより、複数の処理装置が並
列に動作する計算機の障害も監視する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はシステムの障害監視
に関し、特に拡張機器からの割り込みによる計算機シス
テムの障害監視に関する。

【０００２】

【従来の技術】システムの障害監視方法として、ウォッ
チドッグタイマ(以下WDT)と呼ばれる方法がある。WDTと
は、タイマによって経過時間を計測し一定時間経過する
とシステムを再起動する仕組みであり、システムは正常
に機能している間、このタイマを定期的にリセットする
ことにより、システム再起動が実行されるのを妨げる。
システムが暴走状態に陥り、WDTをリセットすることが
出来なかった場合、タイマはタイムアップし、システム
全体を再起動する。この仕組みにより、システムは動作
を継続することができる。またWDTの関連技術として、
タイマタイムアウト後、フラグをセットするものや通常
の割り込み、マスク不可能割り込み(NMI)を生成するも
のもある。

【０００３】

【発明が解決しようとする課題】システム管理者は、シ
ステムに障害が発生した場合、可能な限りサービスを停
止せずに回復させたいと考えている。また、障害停止に
よる再起動が避けられないとしても、可能な限り障害時
の情報を収集することで、障害の再発を防止したいと考
えている。

【０００４】しかし、単純なWDTはシステムが暴走した
際に、システムを再起動するだけである。障害の種類に
よっては、例えばシステムに割り込みを発生させて、障
害から復帰したり障害時の情報を収集することによっ
て、障害の再発防止に役立てることができる。また、WD
Tタイムアウト後、システムに割り込みをかけるだけのW
DTでは、割り込みによっては、障害から復帰できないよ
うな深刻な状態に陥ってしまった場合、システムが停止
してしまうといった問題がある。

【０００５】さらに、従来のWDTはタイマをリセットす
る方法として、タイマリセットポートにリセット用デー
タをセットするかまたは、WDTリセット命令を出力する
といった方法を提供してきた。しかし、システム内に複
数の処理装置が存在するようなケースで、その中の一つ
の処理装置に発生した障害だけでも検出したいという場
合、従来の方法ではそれを実現することができなかっ
た。

【０００６】また、障害回復の手法には割り込み、NM
I、システムリセットがあるが、これらにはそれぞれ以
下のような長所と欠点がある。

【０００７】すなわち、割り込みによる障害回復は、ク
リティカルリージョンを壊してしまいシステムの継続が
困難であり、さらに、不揮発性記憶装置に記録されてい
ないシステムの状態をリセットしてシステムを再起動し
なくても障害から回復できるが、割り込み禁止状態、あ
るいは、割り込みを受け取れてもシステムが動作できな
い状態にあった場合、障害回復に対応することが出来な
い。

【０００８】NMIによる障害回復は、割り込み禁止状態
に陥った場合に対応できず、さらに、不揮発性記憶装置
に記録されていないシステムの状態をリセットしてシス
テムを再起動しなくても障害から回復できるが、クリテ
ィカルリージョンを侵している可能性を否定できないの
で、システム安定のため一旦システム再起動を入れる必
要が発生するという問題がある。

【０００９】システムリセットによる障害回復は、これ
により対応できないシステム状態は無いが、不揮発性記
憶装置に記憶されていない情報を全てリセットしてしま
うため、管理者には障害時のシステム状態がわからず、
障害再発防止の措置をとるための情報に乏しいという問
題がある。

【００１０】

【課題を解決するための手段】本発明のWDTは複数段階
のWDTが、段階を経るごとにシステムに対しより強力に
介入する割り込みを出力する。即ち、本発明では、障害
の程度に応じて割り込みの種類（程度）を変え、その割
り込みに応じて障害回復処理を行なえるようにする。

【００１１】例えばタイマの第１段階がタイムアウトし
た場合、システムに割り込みを入れると共に第２段階の
WDTを起動する。第１段階の割り込みによってシステム
が障害から抜け出すことができた場合、システムはWDT
をリセットするかまたは停止するといった処置をとるも
のとする。第１段階の割り込みで障害から抜け出すこと
ができなかった場合は、第２段階のWDTがタイムアウト
して割り込み、またはマスク不可能割り込み(以下NMI)
等を出力する。この割り込みによって障害から抜け出す
ことができなかった場合、更に第３段階のWDTが起動さ
れる。第３段階のWDTがタイムアウトした場合、システ
ムリセットを入れることによって、システムを再起動す
る。

【００１２】また、WDTをリセットする手段として、複
数のポートを持ったWDTリセットポートを用意する。こ
のような仕組みを提供することで、マルチプロセッサシ
ステムのような複数の処理装置が並列に処理をしている
システムにおいて、処理装置のうちひとつが停止してし
まったような障害を検出できる。

【００１３】

【発明の実施の形態】次に、本発明について図面を用い
て詳細に説明する。

【００１４】図１は、本発明の一実施例に係る障害監視
装置の動作を示すフローチャートと障害監視装置を制御
するレジスタの構成を示すブロック図を併せたものであ
る。図２は、図１の不揮発性メモリ124の内部を示した
ものである。ステップ101から117は、３段階のウォッチ
ドッグタイマWDTの動作を示している。

【００１５】本障害監視装置では、ステップ101から起
動されると、まずWDT1を起動(ステップ102)する。次にW
DT1がリセットされたかを検査(ステップ103)する。WDT
のリセット方法の詳細については後述する。もしWDT1が
リセットされていればステップ102に戻りWDT1を再起動
する。ここでWDT1がリセットされていなければ、WDT1の
カウントを進め(ステップ104)、WDT1がタイムアウトし
たか否かを判定(ステップ105)する。この判定にはWDT1
のタイムアウト時間121を設定値として用いる。WDT1が
タイムアウトしていなければ、WDT1リセット判定103ま
で戻る。WDT1がタイムアウトしていれば、システムに割
り込み信号を出力し、同時に不揮発性メモリ124内のWDT
1タイムアウト201に、割り込み信号を出力したことを示
す情報を出力し、WDT2を起動(ステップ107)する。

【００１６】WDT2もWDT1と同様にWDT2のリセット判定
(ステップ108)を行い、WDT2のカウントダウン(ステップ
109)をし、WDT2タイムアウト時間122を用いてWDT2のタ
イムアウト判定(110)をする。WDT2がリセットされた場
合、フローはWDT1起動(ステップ102)まで戻る。WDT2が
タイムアウトした場合、マスク不可割込みNMI信号を出
力し、NMI信号を出力したことを示す情報を不揮発性メ
モリ124のWDT2タイムアウト202に出力する（ステップ１
１１）。そしてWDT3を起動する（ステップ１１２）。

【００１７】WDT3もWDT1,2と同様に動作をする。WDT3が
タイムアウトした場合、リセット信号を出力したことを
示す情報を不揮発性メモリ124のWDT3タイムアウト203に
出力して、システムリセット信号を出力する。これによ
りシステム全体が再起動される。

【００１８】次にWDT1,2,3のリセット方法を述べる。WD
Tのリセットポート118は図のように８つのポートによっ
て構成される。リセットポートの各ポートには、監視対
象者（後述するＯＳなど）によってステータスなどの情
報が定期的に書き込まれる。各ポートはそれぞれ状態レ
ジスタ119に対応するビットを持ち、各ポートにデータ
がセットされると状態レジスタ119の対応するビットが
セットされる仕組みとなっている。障害監視装置は状態
レジスタ119と予め設定された設定レジスタ120との比較
を行い、値が一致した場合、状態レジスタ119をクリア
してWDTをリセットする。これはWDT1,2,3ともに同様の
仕組みである。

【００１９】また、ユーザ領域204は計算機システム上
の上位ソフトウェアが使用するために解放された領域で
ある。

【００２０】図３は、図１に示した障害監視装置305を
搭載し、特開平１１−１４９３８５にあるようなマルチ
OS構成方法を用いて一つの処理装置を持つ一台の計算機
上303で２つのオペレーティングシステムを動作させた
ものである。ここで第１OS301は通常の業務が行われるO
Sであり、このOS上では業務用のアプリケーションプロ
グラムが動作している。これに対し第２OS304は第１OS3
01の生死をマルチ構成部302を通して監視している。も
し、第１OS301が障害状態に陥ってしまったことを第２O
S304が検出した場合、マルチOS構成部302の機能によっ
て第１OSの状態を取得したり第１OSだけを再起動するこ
とによって、障害を回復することができる。さらに第２
OS304は障害監視装置305を制御するデバイスドライバを
持っており、起動時には障害監視装置305のWDTタイムア
ウト時間121,122,123を設定する。さらに設定レジスタ1
20にはリセットポート118のRST0に対応するビットだけ
をセットする。そして、第２OSはWDT1タイムアウト時間
の範囲内で、定期的に障害監視装置305に対し、リセッ
トポート118のRST0に情報を出力するという形で、自分
が生存していることを示す生存信号を発信する。もし、
第１OSや第２OSの障害によって第２OSが停止してしまっ
た場合、生存信号の出力すなわちリセットポート118のR
ST0への信号出力も途絶え、それによってWDT1さらにはW
DT2がタイムアウトし、マルチOS構成部302を通して第２
OS304に割り込みやNMIが出力される。

【００２１】通常、割り込みまたはNMIによって第２OS3
04は障害状態から復帰することができる。第２OS304の
障害監視装置デバイスドライバは、WDTを停止させ障害
情報の収集を開始する。まず、第２OSは障害監視装置30
5の図２に示す不揮発性メモリ124内のWDT1タイムアウト
201またはWDT2タイムアウト202を参照することで、障害
の程度を把握できる。出力されたものが割り込みであっ
た場合、障害原因が第２OS304でなければ第１OS301の障
害情報を第２OS304内に取得した上で、第１OS301だけを
再起動することにより障害回復できる。もし、障害原因
が第２OS304であったり、出力されたものが割り込みで
なくNMI信号であった場合、第１OS301や第２OS304また
はマルチOS構成部302のクリティカルリージョンが侵さ
れている可能性が考えられるので、第２OS304は第１OS3
01から障害情報を収集し、不揮発性メモリ124内のユー
ザ領域204にその情報を記録したのち、システムリセッ
トを発行しシステムを再立ち上げする。システム管理者
は、再起動の後、このユーザ領域204に残った障害情報
を取得することによって障害の再発防止対策を講じる手
がかりとすることができる。

【００２２】もし障害監視装置305が発生させた割り込
みやNMIでも第２OS304が障害から復帰できないような障
害に陥ってしまった場合でも、システムはWDT3タイムア
ウト後のリセットにより再起動することで、障害停止だ
けは避けることができる。

【００２３】図４は、図１に示した障害監視装置305を
８つの処理装置401(以下CPU)と割り込み制御装置402を
もつ計算機に搭載した例である。この計算機において
は、割り込み制御装置が割り込みをどのプロセッサに伝
達するか、あるいはマスク可能割り込みとして伝達する
かどうかを決定することができる。計算機上のOSは障害
監視装置用デバイスドライバを持っており、このデバイ
スドライバが障害監視装置305内の設定レジスタ120の全
てのビットをセットすることで、リセットポート118の
全てのポートを有効にする。CPU0はRST0、CPU1はRST1と
いうように、各CPUはそれぞれ障害監視装置内の対応す
るリセットポートRST0〜RST7に情報を出力することで、
正常動作していることを障害監視装置に通知する。

【００２４】もし、処理装置CPU0からCPU7のうちどれか
ひとつにでも障害が発生した場合、すべてのリセットポ
ートRST0〜RST7が書き換えられないため、状態レジスタ
119と設定レジスタ120が一致しないので、WDTがリセッ
トされず、従ってWDTがタイムアウトする。

【００２５】WDTがタイムアウトすると障害監視装置305
は、割り込み制御装置402を通して、各処理装置CPU0〜C
PU7に割り込みを入れるが、割り込みを入れる処理装置
や割り込みがマスク可能か不可能かといった設定は、割
り込み制御装置402によって選択することが可能であ
る。

【００２６】

【発明の効果】以上に述べたように、本発明の障害回復
方法は、複数段階のWDTを連動させる手順と連動したWDT
が、段階的に強力にシステムに介入する手順と、割り込
みによって回復できる障害には割り込みによって、マス
ク不可能割り込みによってしか回復できない障害にはマ
スク不可能割り込みにはマスク不可能割り込みによっ
て、そして、システムリセットでしか回復できないよう
な障害に対しては、システムリセットによって、障害に
対応することができる。また、設定によって有効、無効
を決定できる複数のポートをもつWDTリセットポートを
用意することで、複数の処理装置が並列に動作するよう
な計算機の障害をも監視できる。

【図面の簡単な説明】

【図１】本発明の一実施例である障害監視装置の動作を
示すフローチャートと障害監視装置を制御するためのポ
ートの構成を示すブロック図である。

【図２】図１中の不揮発性メモリの内部構成を示すブロ
ック図である。

【図３】本発明の一実施例に係る計算機上のＯＳと障害
監視装置の関係を示すブロック図である。

【図４】本発明の一実施例に係る複数の処理装置を搭載
した計算機と障害監視装置の関係を示すブロック図であ
る。

【符号の説明】

１１８リセットポート１１９状態レジスタ１２０設定レジスタ１２１ウォッチドッグタイマ１タイムアウト時間１２２ウォッチドッグタイマ２タイムアウト時間１２３ウォッチドッグタイマ３タイムアウト時間１２４不揮発性メモリ２０１ウォッチドッグタイマ１タイムアウト２０２ウォッチドッグタイマ２タイムアウト２０３ウォッチドッグタイマ３タイムアウト２０４ユーザ領域３０１第１ＯＳ３０２マルチＯＳ構成部３０３計算機３０４第２ＯＳ３０５障害監視装置４０１処理装置４０２割り込み制御装置

フロントページの続き (72)発明者佐藤雅英神奈川県川崎市麻生区王禅寺1099番地株式会社日立製作所システム開発研究所内 (72)発明者鵜飼宏樹愛知県尾張旭市晴丘町池上１番地株式会社日立製作所情報機器事業部内Ｆターム(参考） 5B042 JJ21 JJ26 KK01 KK20

Claims

【特許請求の範囲】

【請求項１】タイマを用いてシステムの障害を監視する
方法であって、１）タイマを起動して前記タイマのリセットを判定し、２）前記タイマがリセットされていなければ、前記タイ
マのカウントダウンを実行し、３）所定の時間にタイムアウトしているかを判定し、４）タイムアウトであれば、障害回復のための信号を発
生し、５）障害から抜け出せなかった場合は、次のタイマに対
して前記１）から４）のステップを繰り返し実行するこ
とを特徴とする障害監視方法。
【請求項２】請求項１の障害監視方法であって、前記ス
テップ４）で発生する信号に応じて、フラグを立てる手
順、割り込み信号を出力する手順、マスク不可能割り込
みを出力する手順、及びシステムリセットを出力する手
順を順次実行することによって、前記ステップ５）の段
階を経るごとに障害の程度に応じて障害回復を行なうこ
とを特徴とする障害監視方法。
【請求項３】請求項１の障害監視方法であって、前記タ
イマをリセットする条件を複数個設定し、前記ステップ
５）の段階を経るごとに実施すべきタイマリセットと前
記条件とを対応付けることを特徴とする障害監視方法。
【請求項４】請求項１及び請求項２記載の障害監視方法
であって、前記ステップ４）において、前記発生した信
号に応じて実行された手順を記録することを特徴とする
障害監視方法。
【請求項５】タイマを用いてシステムの障害を監視する
装置は、１）タイマを起動して前記タイマのリセットを判定する
手段、２）前記タイマがリセットされていなければ、前記タイ
マのカウントダウンを実行する手段、３）所定の時間にタイムアウトしているかを判定する手
段、４）タイムアウトであれば、障害回復のための信号を発
生する手段、５）障害から抜け出せなかった場合は、次のタイマに対
して前記１）から４）のステップを繰り返し実行する手
段を有することを特徴とする障害監視装置。
【請求項６】請求項５の障害監視装置であって、前記信
号を発生する手段からの信号に応じて、フラグを立てる
手順、割り込み信号を出力する手順、マスク不可能割り
込みを出力する手順、及びシステムリセットを出力する
手順を順次実行することによって、前記繰り返し実行す
る手段による段階を経るごとに障害の程度に応じて障害
回復を行なうことを特徴とする障害監視装置。
【請求項７】請求項５の障害監視装置であって、前記タ
イマをリセットする条件を複数個設定し、前記繰り返し
実行する手段による段階を経るごとに実施すべきタイマ
リセットと前記条件とを対応付けることを特徴とする障
害監視装置。
【請求項８】請求項５及び請求項６記載の障害監視装置
であって、前記信号の発生手段は、前記発生した信号に
応じて実行された手順を記録する手段を有することを特
徴とする障害監視装置。
【請求項９】タイマを用いてシステムの障害を監視する
方法であって、１）起動したタイマのリセットされていなければ、前記
タイマのカウントダウンを実行し、２）所定の時間にタイムアウトしていれば、障害回復の
ための手順を実行し、３）障害から抜け出せなかった場合は、次のタイマに対
して前記１）及び２）のステップを繰り返し実行して、
段階を経るごとに障害の程度に応じて障害回復を行なう
ことを特徴とする障害監視方法。