JPH1153225A

JPH1153225A - 障害処理装置

Info

Publication number: JPH1153225A
Application number: JP9205558A
Authority: JP
Inventors: Yasuhiro Hida; 庸博飛田; Yoshiaki Hisada; 義明久田; Michinori Naito; 倫典内藤
Original assignee: Hitachi Ltd; Hitachi Asahi Electronics Co Ltd
Current assignee: Hitachi Ltd; Hitachi Asahi Electronics Co Ltd
Priority date: 1997-07-31
Filing date: 1997-07-31
Publication date: 1999-02-26

Abstract

(57)【要約】【課題】起動を指示した特定の障害処理を実行するこ
とが困難な壊滅的な障害が発生した場合でも当該障害処
理の停止を検出して次の障害処理に移行することが可能
な技術を提供する。【解決手段】情報処理装置に発生した障害を検出して
複数の障害処理の内の特定の障害処理を行う障害処理装
置において、予め設定されたタイムアウト時間中にコマ
ンドが受信されない場合に情報処理装置で障害が発生し
たものと見なして障害の検出を行う障害検出手段と、複
数の障害処理の内の特定の障害処理を選択する障害処理
選択手段と、前記障害検出手段が障害を検出したときに
前記障害処理選択手段により複数の障害処理の内の特定
の障害処理を選択してその実行を指示すると共に、前記
障害検出手段を再度動作させる制御手段とを備えるもの
である。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、情報処理装置で発
生した障害の処理を行う障害処理装置に関し、特に、情
報処理装置において何らかの障害によりオペレーティン
グシステムが暴走或いは停止した際に、保守員の操作を
必要とせず自動で最大限の障害情報の入手を行い、シス
テムの再起動を行う障害処理装置に適用して有効な技術
に関するものである。

【０００２】

【従来の技術】高信頼システムでは、保守員が不在の状
況でオペレーティングシステムの暴走やハングアップが
発生した場合に、それを自動検知し、障害解析処理プロ
グラムを自動で起動して障害処理を行ったり或いはシス
テムを再起動するといった機能が要求されている。

【０００３】上記機能を実現する手段として、ウォッチ
ドッグタイマがある。ウォッチドッグタイマとは、常に
一定速度でカウントアップされるタイマであり、ソフト
ウェアによって定期的にクリアされ、そのクリア処理が
一定時間途絶えることによりタイマが満了すると、当該
ソフトウェアがハングアップしたものとみなし、アラー
ムを出力するものである。

【０００４】ウォッチドッグタイマが満了した場合の処
理としては、以下の３通りがある。

【０００５】（１）メインＣＰＵにマスク不能割り込み
（ＮＭＩ）を発行し、ＮＭＩハンドラによりオペレーテ
ィングシステムが有する障害処理を実行する。

【０００６】マスク不能割り込みを処理するＮＭＩハン
ドラは、オペレーティングシステムの一部であり、例え
ばオペレーティングシステムが実行していたコマンドや
メモリアドレス等の情報を取り込み、ハードディスク等
の不揮発性記憶装置に保存することを可能にしている。

【０００７】但し、市販オペレーティングシステムの場
合は、変更を加えずにプラットホーム固有の障害要素の
モニタリングを行うことは不可能である。

【０００８】（２）ウォームリセットを起動し、ＢＩＯ
Ｓ（ＢａｓｉｃＩｎｐｕｔＯｕｔｐｕｔＳｙｓｔ
ｅｍ）が有する診断プログラムを実行させる。診断プロ
グラムを実行した場合には、プラットホームに固有の障
害要素をモニタリングし、不揮発性記憶装置に保存する
ことが可能である。但し、オペレーティングシステムの
実行コマンドやアドレス等の入手は極めて困難である。

【０００９】（３）システム全体をリセットする。但
し、システム全体をリセットした場合には、（１）や
（２）で入手可能な情報はクリアされてしまう。

【００１０】ＰＣ−ＡＴアーキテクチャーの情報処理シ
ステムでは、オペレーティングシステムがダウンする障
害が発生した場合、上記（１）及び（２）を順に実施す
ることにより、障害解析に必要な最大限情報を入手でき
る。

【００１１】上記（１）の処理は、主記憶装置上で動作
するプログラムにより実行される処理であり、当該主記
憶装置が破壊する様な障害の際は、潜在的に当該処理自
身が暴走或いは停止する可能性を有している。

【００１２】上記（２）の処理は、通常ＲＯＭベースの
プログラムにより実行される処理であり、主記憶装置が
破壊されても動作可能であるが、ＲＯＭが接続されるバ
スがハングアップする様な障害の際には、同様に当該処
理自身が暴走或いは停止する可能性を有している。

【００１３】障害処理である（１）がハングアップする
様な障害が発生した場合にも、前記障害を検出し、次の
（２）の障害処理に移行する様な手段を施すことによ
り、システムを停止させることなく再起動を行うことが
可能となる。

【００１４】同様に、（２）がハングアップする様な障
害が発生した場合にも、前記障害を検出し、次の（３）
の障害処理に移行する様な手段を施すことにより、シス
テムを停止させることなく再起動を行うことが可能とな
る。

【００１５】従来のウォッチドッグタイマを用いて上記
障害処理への移行を実現する場合には、図５に示す様に
各処理用のウォッチドッグタイマを個別に提供し、各処
理が停止した場合に次の処理に移行させるものがある。

【００１６】図５は、従来の情報処理装置の概略構成を
示す図である。図５に示す様に従来の情報処理装置は、
ＣＰＵ／メモリサブシステム５００と、オペレーティン
グシステム５０１と、システムマネージメントエージェ
ントソフトウェア５０２と、ウォッチドッグタイマドラ
イバ５０３と、ＮＭＩハンドラ５０４と、システム診断
・障害解析処理プログラム５０５と、ＢＩＯＳ・ＲＯＭ
５０６と、ウォッチドッグタイマ５０７〜５０９と、シ
ステムリセット回路５１０と、標準バス５１１とを有し
ている。

【００１７】ＣＰＵ／メモリサブシステム５００は、Ｃ
ＰＵとメモリとから成るサブシステムであり、オペレー
ティングシステム５０１は、装置全体の動作を制御する
プログラムであり、システムマネージメントエージェン
トソフトウェア５０２は、システムの管理を行い、ウォ
ッチドッグタイマドライバ５０３に指示を与えるプログ
ラムである。

【００１８】ウォッチドッグタイマドライバ５０３は、
ウォッチドッグタイマ５０７〜５０９の動作を制御する
処理部であり、ＮＭＩハンドラ５０４は、マスク不能割
り込みが発生したときに特定の処理を行うプログラムで
あり、システム診断・障害解析処理プログラム５０５
は、システムの診断やシステムで発生した障害を解析す
るソフトウェアである。

【００１９】ＢＩＯＳ・ＲＯＭ５０６は、ＢＩＯＳを格
納するＲＯＭであり、ウォッチドッグタイマ５０７〜５
０９は、障害を検出する為のタイマであり、システムリ
セット回路５１０は、システムをリセットする回路であ
り、標準バス５１１は、ＣＰＵ／メモリサブシステム５
００、ＢＩＯＳ・ＲＯＭ５０６及びウォッチドッグタイ
マ５０７〜５０９を接続するバスである。

【００２０】オペレーティングシステム５０１がハング
アップすると、ウォッチドッグタイマ５０７がタイムア
ウトする為、マスク不能割り込みが発行される。

【００２１】ＮＭＩハンドラ５０４は、自分自身のハン
グアップを通知すると共に第２の障害処理を起動する為
のウォッチドッグタイマ５０８を起動する。これによ
り、ＮＭＩハンドラ５０４がハングアップしてもウォッ
チドッグタイマ５０８がウォームリセットを起動でき
る。

【００２２】ウォームリセットにより起動するＢＩＯＳ
プログラムは、自分自身のハングアップを通知すると共
に第３の障害処理、すなわちここではハードウェアリセ
ットを実行する為にウォッチドッグタイマ５０９を起動
する。これにより、マスク不能割り込みがハングアップ
してもウォッチドッグタイマ５０９がハードウェアリセ
ットを起動できる。

【００２３】上記の様に、各障害処理がダウンしても、
次の処理に移行できる為、システム再起動処理が途絶え
ることなく実施可能になる。

【００２４】図６は、従来の情報処理装置において１つ
のウォッチドッグタイマ５０７で図５と同様の処理を実
現する構成の例を示す図である。図６に示す様に従来の
情報処理装置は、切り替え回路６００を有している。

【００２５】切り替え回路６００は、ウォッチドッグタ
イマ５０７がタイムアウトしたときに行う処理を切り替
える回路である。

【００２６】通常オペレーティングシステム５０１のウ
ォッチドッグタイマ５０７として使用する場合は、タイ
ムアウト時にマスク不能割り込みが発行される様に切り
替え回路６００が設定される。

【００２７】ウォッチドッグタイマ５０７のタイムアウ
トによりＮＭＩハンドラ５０４が起動した際には、ＮＭ
Ｉハンドラ５０４は、処理の始めにウォッチドッグタイ
マ５０７を設定し、ウォッチドッグタイマ５０７のタイ
ムアウト信号がウォームリセット信号に反映される様に
切り替え回路６００を設定する。

【００２８】ＮＭＩハンドラ５０４がハングアップした
ことによりウォームリセットが発行された場合、ウォー
ムリセットにより起動したプログラムは、処理の始めに
ウォッチドッグタイマ５０７を設定し、ウォッチドッグ
タイマ５０７のタイムアウト信号がハードウェアリセッ
ト信号に反映される様に切り替え回路６００を設定す
る。

【００２９】上記の様にして、図５と同様の機能を１つ
のウォッチドッグタイマ５０７で実現できる。

【００３０】

【発明が解決しようとする課題】前述の様に従来の情報
処理装置では、基本的にハングアップする可能性を潜在
的に有する処理プログラム自身により、処理の始めにウ
ォッチドッグタイマが起動される構成となっている。

【００３１】ウォッチドッグタイマがタイムアウトして
マスク不能割り込みが発行されたときに、ＮＭＩハンド
ラがロードされる主記憶装置が破壊されていた場合には
ＮＭＩハンドラは動作不可能である為、ウォッチドッグ
タイマは起動されない。従ってここで処理が途絶えるこ
とになる。

【００３２】同様に、ウォッチドッグタイマがタイムア
ウトしたことにより、ウォームリセットが発行された場
合、ＢＩＯＳ・ＲＯＭが接続される標準バスがハングア
ップする様な障害時には、ＢＩＯＳ・ＲＯＭプログラム
は動作不可能な為、ウォッチドッグタイマは起動され
ず、ここで処理が停止することになる。

【００３３】本発明の目的は、上記問題を解決し、起動
を指示した特定の障害処理を実行することが困難な壊滅
的な障害が発生した場合でも当該障害処理の停止を検出
して次の障害処理に移行することが可能な技術を提供す
ることにある。

【００３４】

【課題を解決するための手段】本発明は、情報処理装置
に発生した障害を検出して複数の障害処理の内の特定の
障害処理を行う障害処理装置において、障害検出手段に
より障害を検出したときに複数の障害処理の内の特定の
障害処理を選択してその実行を指示すると共に、ハング
アップする可能性の無い制御手段により前記障害検出手
段を再度動作させるものである。

【００３５】本発明の障害処理装置では、定期的に障害
検出手段のカウンタ値を増加させ、予め設定されたタイ
ムアウト時間中に、オペレーティングシステム等の処理
プログラムからコマンドが受信されない場合に情報処理
装置で障害が発生したものと見なして障害の検出を行
う。

【００３６】障害処理装置の制御手段は、前記障害検出
手段により障害を検出すると、障害処理選択手段により
複数の障害処理の内の特定の障害処理を選択してその実
行を指示する。

【００３７】また、前記制御手段は、前記障害検出手段
のカウンタ値をリセットした後、前記障害検出手段の動
作を再開させる。

【００３８】前記特定の障害処理の実行中に障害が発生
した場合には、前記制御手段により動作が再開されてい
る前記障害検出手段により、前記特定の障害処理で発生
した障害が検出される。

【００３９】前記制御手段は、前記障害検出手段により
前記特定の障害処理で発生した障害を検出すると、前記
障害処理選択手段により複数の障害処理の内の次の障害
処理を選択してその実行を指示する。

【００４０】前記の様に、本発明の障害処理装置では、
情報処理装置で障害が発生した場合に、複数の障害処理
を順番に実行して最大限の障害情報の入手を行い、シス
テムの再起動等の障害処理を行う。

【００４１】以上の様に、本発明の障害処理装置によれ
ば、障害を検出すると特定の障害処理を起動すると同時
に前記特定の障害処理によらずに障害検出手段の動作を
再開させるので、起動を指示した特定の障害処理を実行
することが困難な壊滅的な障害が発生した場合でも当該
障害処理の停止を検出して次の障害処理に移行すること
が可能である。

【００４２】

【発明の実施の形態】

（実施形態１）以下に、情報処理装置で発生した障害を
検出して複数の障害処理を順番に行う実施形態１の障害
処理装置について説明する。

【００４３】図１は、本実施形態の障害処理装置１１０
の概略構成を示す図である。図１に示す様に本実施形態
の情報処理装置は、ＣＰＵ／メモリサブシステム１００
と、オペレーティングシステム１０１と、システムマネ
ージメントエージェントソフトウェア１０２と、障害処
理装置ドライバ１０３と、ＮＭＩハンドラ１０４と、シ
ステム診断・障害解析処理プログラム１０５と、ＢＩＯ
Ｓ・ＲＯＭ１０６と、クロック生成器１０７と、システ
ムリセット回路１０８と、標準バス１０９と、障害処理
装置１１０とを有している。

【００４４】ＣＰＵ／メモリサブシステム１００は、Ｃ
ＰＵとメモリとから成るサブシステムであり、オペレー
ティングシステム１０１は、情報処理装置全体の動作を
制御するプログラムであり、システムマネージメントエ
ージェントソフトウェア１０２は、障害処理装置ドライ
バ１０３に指示を与えるプログラムである。

【００４５】障害処理装置ドライバ１０３は、障害処理
装置１１０の動作を制御するソフトウェアであり、ＮＭ
Ｉハンドラ１０４は、マスク不能割り込みが発生したと
きに特定の処理を行うプログラムであり、システム診断
・障害解析処理プログラム１０５は、ウォームリセット
時に情報処理装置の診断や情報処理装置で発生した障害
を解析するプログラムである。

【００４６】ＢＩＯＳ・ＲＯＭ１０６は、システム診断
・障害解析処理プログラム１０５等のＢＩＯＳプログラ
ムを格納するＲＯＭであり、クロック生成器１０７は、
カウンタ１１５にクロック信号１２８を入力する回路で
あり、システムリセット回路１０８は、システムをリセ
ットする回路である。

【００４７】標準バス１０９は、ＣＰＵ／メモリサブシ
ステム１００、ＢＩＯＳ・ＲＯＭ１０６及び障害処理装
置１１０を接続するバスであり、障害処理装置１１０
は、情報処理装置で発生した障害を処理する装置であ
る。

【００４８】また、本実施形態の障害処理装置１１０
は、制御回路１１１と、セレクタ１１２と、データレジ
スタ１１３と、比較器１１４と、カウンタ１１５と、ラ
ッチ素子１１６と、標準バスインタフェース１１７と、
カウンタ１１８とを有している。

【００４９】制御回路１１１は、カウンタ１１５、デー
タレジスタ１１３、ラッチ素子１１６及びセレクタ１１
２を制御する回路であり、セレクタ１１２は、タイムア
ウト信号１２６を、マスク不能割り込み信号１３１、ウ
ォームリセット信号１３２、ハードウェアリセット信号
１３３の何れか１つに接続する回路であり、データレジ
スタ１１３は、情報処理装置で発生した障害を検出する
為のタイムアウト時間に相当するデータを格納するレジ
スタである。

【００５０】比較器１１４は、カウンタ１１５の値とデ
ータレジスタ１１３の値とを比較する回路であり、カウ
ンタ１１５は、クロック生成器１０７から生成されるク
ロック信号１２８でカウントアップする回路であり、ラ
ッチ素子１１６は、比較器１１４からの比較器出力信号
１３０を記憶するＲＳフリップフロップタイプの素子で
ある。

【００５１】標準バスインタフェース１１７は、標準バ
ス１０９に接続する為のインタフェース回路であり、カ
ウンタ１１８は、タイムアウト信号１２６が発行された
回数をカウントし保持する回路である。

【００５２】カウンタイネーブル信号１２５は、カウン
タ１１５を動作させる信号であり、タイムアウト信号１
２６は、タイムアウトが発生したかどうかを示す信号で
あり、マスク不能割り込み信号１３１は、マスク不能割
り込みを示す信号である。

【００５３】カウンタリセット信号１２４は、カウンタ
１１５をリセットする信号であり、データレジスタセッ
ト信号１２３は、データレジスタ１１３にタイムアウト
値をセットする信号であり、データレジスタリセット信
号１２２は、データレジスタ１１３をリセットする信号
である。

【００５４】ラッチ素子リセット信号１２１は、ラッチ
素子１１６をリセットする信号であり、比較器マスク信
号１２９は、比較器１１４を無効化する信号であり、セ
レクタ制御信号１２７は、セレクタ１１２の動作を制御
する信号である。

【００５５】クロック信号１２８は、クロック生成器１
０７が発生するクロックを示す信号であり、比較器出力
信号１３０は、比較器１１４から出力される負論理の信
号であり、ハードウェアリセット信号１３３は、ハード
ウェアリセットを指示する信号であり、ウォームリセッ
ト信号１３２は、ウォームリセットを指示する信号であ
る。

【００５６】比較器１１４の負論理の比較器出力信号１
３０は、ＲＳフリップフロップタイプのラッチ素子１１
６のＲ端子に接続され、データレジスタ１１３の値とカ
ウンタ１１５の値が一致すると、前記ラッチ素子１１６
の出力であるタイムアウト信号１２６が有効になる。

【００５７】尚、本実施形態の障害処理装置１１０で
は、データレジスタ１１３、比較器１１４、カウンタ１
１５及びラッチ素子１１６は、予め設定されたタイムア
ウト時間中にコマンドが受信されない場合に情報処理装
置で障害が発生したものと見なして障害の検出を行う障
害検出手段に相当している。

【００５８】また、セレクタ１１２は、マスク不能割り
込み、ウォームリセット及びハードウェアリセット等の
複数の障害処理の内の特定の障害処理を選択する障害処
理選択手段に相当し、制御回路１１１は、前記障害検出
手段が障害を検出したときに前記障害処理選択手段によ
り複数の障害処理の内の特定の障害処理を選択してその
実行を指示すると共に、前記障害検出手段を再度動作さ
せる制御手段に相当している。

【００５９】以上の個々の機能が従来の障害処理装置１
１０を実現する標準的な構成要素である。以下、本実施
形態の障害処理装置１１０の制御回路１１１の処理手順
について説明する。

【００６０】図２は、本実施形態の制御回路１１１の処
理手順を示すフローチャートである。障害処理装置１１
０は、情報処理装置の電源が投入された後、標準バスイ
ンタフェース１１７を介してハードウェアリセット命令
を標準バス１０９から受信すると、制御回路１１１は、
ステップ２０１でカウンタリセット信号１２４を有効に
してカウンタ１１５をリセットし、データレジスタリセ
ット信号１２２を有効にしてデータレジスタ１１３をリ
セットする。

【００６１】また、障害処理装置１１０の制御回路１１
１は、ステップ２０１でラッチ素子リセット信号１２１
を有効にしてラッチ素子１１６をリセットし、比較器マ
スク信号１２９を有効にして比較器１１４を無効化する
ことによりセレクタ１１２をリセットして初期状態にす
る。

【００６２】初期状態ではカウンタ１１８の初期値は
「０」であり、セレクタ制御信号１２７によりセレクタ
１１２は、タイムアウト信号１２６をマスク不能割り込
み信号１３１に接続する。また、この初期状態では比較
器マスク信号１２９により比較器１１４が無効化された
状態であり、タイムアウト信号１２６は無効な状態であ
る。

【００６３】ステップ２０２で制御回路１１１は、オペ
レーティングシステム１０１のシステムマネージメント
エージェントソフトウェア１０２からの指示により障害
処理装置ドライバ１０３からコマンドを受信しているか
どうかを調べ、標準バスインタフェース１１７を介して
タイムアウト値とカウンタ１１５を活性化するコマンド
を受信すると、ステップ２０３で制御回路１１１は、デ
ータレジスタセット信号１２３を有効にすることによ
り、前記タイムアウト値をデータレジスタ１１３にセッ
トする動作を行う。

【００６４】更にステップ２０３で制御回路１１１は、
比較器マスク信号１２９を無効にした後、カウンタイネ
ーブル信号１２５を有効にしてカウンタ１１５をスター
トさせる。以降、オペレーティングシステム１０１のシ
ステムマネージメントエージェントソフトウェア１０２
は、定期的に標準バスインタフェース１１７を介して障
害処理装置１１０にカウンタ１１５をクリアするクリア
コマンドを送信する。

【００６５】ステップ２０４で制御回路１１１は、前記
クリアコマンドの受信を確認すると、前記クリアコマン
ドを受け取る度にカウンタリセット信号１２４を有効に
し、カウンタ１１５を「０」にリセットする（ステップ
２０５）。

【００６６】前記クリアコマンドを定期的に受信するこ
とによりカウンタ１１５はリセットされ、カウンタ１１
５のカウント値は、データレジスタ１１３に予め設定さ
れたタイムアウト値に達しない為、障害処理装置１１０
は、オペレーティングシステム１０１が正常動作してい
ると判断する。

【００６７】ここでオペレーティングシステム１０１が
停止する障害が発生すると、前記クリアコマンドが途絶
える為、カウンタ１１５のカウント値がデータレジスタ
１１３に予め設定されたタイムアウト値に達し、比較器
１１４の演算結果によりタイムアウト信号１２６が有効
になる。

【００６８】タイムアウト信号１２６が有効になると、
セレクタ１１２を介してマスク不能割り込み信号１３１
が有効になり、オペレーティングシステム１０１にマス
ク不能割り込みが発行される。

【００６９】以上の処理は、従来の情報処理装置おい
て、ウォッチドッグタイマ５０７によりオペレーティン
グシステム１０１の停止を検出し、マスク不能割り込み
を発行する処理に相当している。

【００７０】制御回路１１１は、ステップ２０６でタイ
ムアウト信号１２６が有効になったことを確認すると、
ステップ２０７でカウンタ１１８に「１」を加算する。
このカウンタ１１８の値は、タイムアウト信号１２６が
何回発行されたかを確認するデータとして使用される。

【００７１】次に、ステップ２０８で制御回路１１１
は、カウンタイネーブル信号１２５を無効にしてカウン
タ１１５のカウントアップを停止させ、カウンタリセッ
ト信号１２４及びラッチ素子リセット信号１２１を有効
にすることにより、カウンタ１１５及びラッチ素子１１
６をリセットする。

【００７２】次に、ステップ２０９で制御回路１１１
は、カウンタ１１８の値をチェックし、カウンタ１１８
のカウント値が「１」であること、すなわち１回目のタ
イムアウトが発生したことを確認すると、ステップ２１
０でセレクタ制御信号１２７により、セレクタ１１２を
タイムアウト信号１２６がウォームリセットを実行する
ウォームリセット信号１３２に接続される様に切り替え
る。

【００７３】次に、ステップ２１３で制御回路１１１
は、カウンタイネーブル信号１２５を有効にし、カウン
タ１１５を再スタートさせる。

【００７４】以上ステップ２０６からステップ２１３ま
での一連の処理は、従来の情報処理装置において、ＮＭ
Ｉハンドラ１０４を対象としたウォッチドッグタイマ５
０７の再スタートを行う処理に相当している。

【００７５】従来技術では、ウォッチドッグタイマ５０
７の再スタート処理は、タイムアウト検出の対象となる
プログラム自身、すなわちここではＮＭＩハンドラ１０
４が実行していた処理である。

【００７６】一方、本実施形態の障害処理装置１１０で
は、対象となるＮＭＩハンドラ１０４が壊滅的な障害に
より動作不可能な状態でも、障害処理装置１１０のカウ
ンタ１１５が再スタートする為、前記壊滅的障害を検出
し、次の障害処理、すなわちここではウォームリセット
処理への移行が可能である。

【００７７】制御回路１１１は、ステップ２１３の処理
を完了すると、ステップ２０６に戻り、再度タイムアウ
ト信号１２６の生成をチェックする処理を続ける。

【００７８】ＮＭＩハンドラ１０４は、正常に処理を終
了すると、標準バスインタフェース１１７を介して制御
回路１１１にカウンタ１１５を停止させるコマンドを送
信する。

【００７９】制御回路１１１は、ステップ２１４で前記
停止コマンドを受信すると、図２の任意の状態において
実行中の処理を停止し、ステップ２１５でカウンタイネ
ーブル信号１２５を無効にしてカウンタ１１５を停止さ
せ、カウンタリセット信号１２４を有効にしてカウンタ
１１５をリセットし、比較器マスク信号１２９を無効に
して比較器１１４を無効化する。この様にしてカウンタ
１１５は停止し、タイムアウト信号１２６が無効化され
る。

【００８０】一方ＮＭＩハンドラ１０４がハングアップ
したことにより、２回目のタイムアウト信号１２６が発
行されると（ステップ２０６）、セレクタ１１２を介し
てウォームリセットを実行するウォームリセット信号１
３２が出力され、ウォームリセットが実行される。

【００８１】次に、ステップ２０８で制御回路１１１
は、カウンタイネーブル信号１２５を無効にしてカウン
タ１１５のカウントアップを停止させ、カウンタリセッ
ト信号１２４及びラッチ素子リセット信号１２１を有効
にすることにより、カウンタ１１５及びラッチ素子１１
６をリセットする。

【００８２】次に、ステップ２０９で制御回路１１１
は、カウンタ１１８の値をチェックし、カウンタ１１８
のカウント値が「２」であること、すなわち２回目のタ
イムアウトが発生したことを確認すると、ステップ２１
１でセレクタ制御信号１２７により、セレクタ１１２を
タイムアウト信号１２６がハードウェアリセットを実行
するハードウェアリセット信号１３３に接続される様に
切り替える。

【００８３】次に、ステップ２１３で制御回路１１１
は、カウンタイネーブル信号１２５を有効にし、カウン
タ１１５を再スタートさせる。

【００８４】以上ステップ２０６からステップ２１３ま
での一連の処理は、従来の情報処理装置において、前記
ウォームリセットにより起動するＢＩＯＳプログラムを
対象とするウォッチドッグタイマ５０７の再スタートを
行う処理に相当している。

【００８５】従来技術では、ウォッチドッグタイマ５０
７の再スタート処理は、タイムアウト検出の対象となる
プログラム自身、すなわちここではＢＩＯＳプログラム
が実行していた処理である。

【００８６】一方、本実施形態の障害処理装置１１０で
は、対象となるＢＩＯＳプログラムが壊滅的な障害によ
り動作不可能な状態でも、障害処理装置１１０のカウン
タ１１５が再スタートする為、前記壊滅的障害を検出
し、次の障害処理、すなわちここではハードウェアリセ
ット処理への移行が可能である。

【００８７】制御回路１１１は、ステップ２１３の処理
を完了すると、ステップ２０６に戻り、再度タイムアウ
ト信号１２６の生成をチェックする処理を続ける。

【００８８】前記ＢＩＯＳプログラムであるシステム診
断・障害解析処理プログラム１０５は、正常に処理を終
了すると、標準バスインタフェース１１７を介して制御
回路１１１に障害処理装置１１０を停止させるコマンド
を送信する。

【００８９】制御回路１１１は、ステップ２１４で前記
停止コマンドを受信すると、図２の任意の状態において
実行中の処理を停止し、ステップ２１５でカウンタイネ
ーブル信号１２５を無効にしてカウンタ１１５を停止さ
せ、カウンタリセット信号１２４を有効にしてカウンタ
１１５をリセットし、比較器マスク信号１２９を無効に
して比較器１１４を無効化する。この様にしてカウンタ
１１５は停止し、タイムアウト信号１２６が無効化され
る。

【００９０】一方、システム診断・障害解析処理プログ
ラム１０５がハングアップしたことにより、３回目のタ
イムアウト信号１２６が発行されると（ステップ２０
６）、セレクタ１１２を介してハードウェアリセットを
実行するハードウェアリセット信号１３３が出力され、
ハードウェアリセットが実行される。

【００９１】こうして壊滅的な障害が発生しても次の障
害処理、すなわちここではハードウェアリセット処理へ
の移行が可能である。

【００９２】ステップ２１２においてハードウェアリセ
ットが実行されると、障害処理装置１１０は標準バスイ
ンタフェース１１７を介してリセットされ、初期状態、
すなわちステップ２１に戻る。

【００９３】以上、図１及び図２で説明した様に本実施
形態の障害処理装置１１０では、マスク不能割り込み処
理、ウォームリセット処理、ハードウェアリセット処理
という順番で前記３種類の障害処理が実施される処理手
順を示しているが、標準バスインタフェース１１７を介
したオペレーティングシステム１０１のコマンドの内容
によっては、前記マスク不能割り込み処理を省略し、ウ
ォームリセット処理、ハードウェアリセット処理という
順番で前記２種類の障害処理を実施する構成とすること
も可能である。

【００９４】その場合、制御回路１１１は、ステップ２
０２においてタイムアウト後にウォームリセット処理を
施すコマンドをオペレーティングシステム１０１から受
信した後、カウンタ１１８の値を「１」にセットし、ウ
ォームリセット信号１３２を選択する様にセレクタ１１
２をセットしてステップ２０３以降の処理を実行する。

【００９５】この様にすることで、第１回目のタイムア
ウト信号１２６の生成により、セレクタ１１２を介して
ウォームリセット信号１３２が有効になり、ステップ２
０７においてカウンタ１１８の値に「１」を加算した結
果が「２」となり、ステップ２０９における判定により
ステップ２１１が選択される。

【００９６】また、同様に標準バスインタフェース１１
７を介したオペレーティングシステム１０１のコマンド
の内容によっては、前記マスク不能割り込み処理、前記
ウォームリセット処理を省略し、第１回目からハードウ
ェアリセット処理を実行する構成とすることも可能であ
る。

【００９７】その場合、制御回路１１１は、ステップ２
０２においてタイムアウト後にハードウェアリセット処
理を施すコマンドをオペレーティングシステム１０１か
ら受信した後に、カウンタ１１８の値を「２」にセット
し、ハードウェアリセット信号１３３を選択する様にセ
レクタ１１２をセットしてステップ２０３以降の処理を
実行する。

【００９８】この様にすることで、第１回目のタイムア
ウト信号１２６の生成により、セレクタ１１２を介して
ハードウェアリセット信号１３３が有効になり、ステッ
プ２０７においてカウンタ１１８の値に「１」を加算し
た結果が「３」となり、ステップ２０９における判定に
よりステップ２１２が選択される。

【００９９】また、タイムアウト信号１２６が生成され
たときにカウンタ１１８に設定する複数の値を格納した
管理テーブルを予め制御回路１１１に用意しておき、タ
イムアウト信号１２６が生成したときに前記管理テーブ
ルから特定の値を読み出してカウンタ１１８に設定する
ことにより、マスク不能割り込み、ウォームリセット及
びハードウェアリセット等の複数の障害処理を任意の順
番で選択するものとしても良い。

【０１００】以上説明した様に、本実施形態の障害処理
装置によれば、障害を検出すると特定の障害処理を起動
すると同時に前記特定の障害処理によらずに障害検出手
段の動作を再開させるので、起動を指示した特定の障害
処理を実行することが困難な壊滅的な障害が発生した場
合でも当該障害処理の停止を検出して次の障害処理に移
行することが可能である。

【０１０１】（実施形態２）以下に、情報処理装置の各
障害処理に対して個別のタイムアウト時間を設定する実
施形態２の障害処理装置について説明する。

【０１０２】図３は、本実施形態の障害処理装置１１０
の概略構成を示す図である。図３に示す様に本実施形態
の障害処理装置１１０は、データレジスタ３０１〜３０
３と、比較器３１１〜３１３と、ラッチ素子３２１〜３
２３とを有している。

【０１０３】データレジスタ３０１〜３０３は、情報処
理装置で発生した障害を検出する為のタイムアウト時間
に相当するデータを格納するレジスタであり、比較器３
１１〜３１３は、カウンタ１１５の値とデータレジスタ
３０１〜３０３の値とを比較する回路であり、ラッチ素
子３２１〜３２３は、比較器３１１〜３１３からの比較
器出力信号３６１〜３６３を記憶する回路である。

【０１０４】データレジスタセット信号３３１〜３３３
は、データレジスタ３０１〜３０３にタイムアウト値を
セットする信号であり、データレジスタリセット信号３
４１〜３４３は、データレジスタ３０１〜３０３をリセ
ットする信号であり、ラッチ素子リセット信号３５１〜
３５３は、ラッチ素子３２１〜３２３をリセットする信
号であり、比較器出力信号３６１〜３６３は、比較器３
１１〜３１３から出力される負論理の信号である。

【０１０５】図１に示した実施形態１においては、デー
タレジスタ１１３に設定されるタイムアウト時間は、オ
ペレーティングシステム１０１やＮＭＩハンドラ１０４
等の任意の障害処理に対して同一のタイムアウト時間を
使用していたが、本実施形態の障害処理装置１１０にお
いては、各障害処理に対して個別のタイムアウト時間を
設定する。

【０１０６】制御回路１１１は、オペレーティングシス
テム１０１のハングアップを検出する為のタイムアウト
時間データを、標準バスインタフェース１１７を介して
オペレーティングシステム１０１から受け取ると、デー
タレジスタ３０１に設定する。

【０１０７】同様にして制御回路１１１は、ＮＭＩハン
ドラ１０４のハングアップを検出する為のタイムアウト
時間データをオペレーティングシステム１０１から受け
取ってデータレジスタ３０２に設定し、前記ウォームリ
セットにより起動するＢＩＯＳプログラムのハングアッ
プを検出する為のタイムアウト時間データをオペレーテ
ィングシステム１０１から受け取ってデータレジスタ３
０３に設定する。

【０１０８】制御回路１１１は、オペレーティングシス
テム１０１のタイムアウトを検出するモードで障害処理
装置１１０を動作させる際には、ラッチ素子リセット信
号３５１を無効、ラッチ素子リセット信号３５２、ラッ
チ素子リセット信号３５３を有効にした状態を継続する
ことにより、ラッチ素子３２２及びラッチ素子３２３の
ウォームリセット信号１３２及びハードウェアリセット
信号１３３を無効状態にし、ラッチ素子３２１のみ比較
器３１１の比較器出力信号３６１の発行により、マスク
不能割り込み信号１３１を有効にできる状態にする。

【０１０９】これは、図１のセレクタ１１２においてタ
イムアウト信号１２６がマスク不能割り込み信号１３１
に接続されている状態と同一の状態である。また、タイ
ムアウト時間は、データレジスタ３０１に設定された値
となる。

【０１１０】一方、制御回路１１１は、ＮＭＩハンドラ
１０４のタイムアウトを検出するモードで障害処理装置
１１０を動作させる際には、ラッチ素子リセット信号３
５２を無効、ラッチ素子リセット信号３５１及びラッチ
素子リセット信号３５３を有効にした状態を継続するこ
とにより、ラッチ素子３２１及びラッチ素子３２３のマ
スク不能割り込み信号１３１及びハードウェアリセット
信号１３３を無効状態にし、ラッチ素子３２２のみ比較
器３１２の比較器出力信号３６２の発行により、ウォー
ムリセットを実行するウォームリセット信号１３２を有
効にできる状態にする。

【０１１１】これは、図１のセレクタ１１２においてタ
イムアウト信号１２６がウォームリセットを実行するウ
ォームリセット信号１３２に接続されている状態と同一
の状態である。また、タイムアウト時間はデータレジス
タ３０２に設定された値となり、オペレーティングシス
テム１０１のタイムアウト時間とは異なる値を設定する
ことが可能である。

【０１１２】更に、制御回路１１１は、前記ウォームリ
セットにより起動するＢＩＯＳプログラムのタイムアウ
トを検出するモードで障害処理装置１１０を動作させる
際には、制御回路１１１は、ラッチ素子リセット信号３
５３を無効、ラッチ素子リセット信号３５１、ラッチ素
子リセット信号３５２を有効にした状態を継続すること
によりラッチ素子３２１及びラッチ素子３２２のマスク
不能割り込み信号１３１及びウォームリセット信号１３
２を無効状態にし、ラッチ素子３２３のみ比較器３１３
の比較器出力信号３６３の発行により潜在的にハードウ
ェアリセットを実行するハードウェアリセット信号１３
３を有効にできる状態にする。

【０１１３】これは、図１のセレクタ１１２においてタ
イムアウト信号１２６がハードウェアリセットを実行す
るハードウェアリセット信号１３３に接続されている状
態と同一の状態である。また、タイムアウト時間はデー
タレジスタ３０３に設定された値となり、オペレーティ
ングシステム１０１やＮＭＩハンドラ１０４のタイムア
ウト時間とは異なる値を設定することが可能である。

【０１１４】尚、基本的な処理手順は実施形態１の図２
に示した処理手順と同一である為、詳細な説明は省略す
る。

【０１１５】以上説明した様に、本実施形態の障害処理
装置によれば、障害を検出すると特定の障害処理を起動
すると同時に前記特定の障害処理によらずに障害検出手
段の動作を再開させるので、起動を指示した特定の障害
処理を実行することが困難な壊滅的な障害が発生した場
合でも当該障害処理の停止を検出して次の障害処理に移
行することが可能である。

【０１１６】（実施形態３）以下に、特定の障害処理プ
ログラムが正常に終了した後、次に実行する障害処理プ
ログラムを前記特定の障害処理プログラムによらずに起
動する実施形態３の障害処理装置について説明する。

【０１１７】図４は、本実施形態の障害処理装置１１０
の処理手順を示すフローチャートである。図１及び図２
によって説明した実施形態１では、第１の障害処理であ
るＮＭＩハンドラ１０４や第２の障害処理である前記Ｂ
ＩＯＳプログラムが正常に処理を終了すると、標準バス
インタフェース１１７を介してカウンタ１１５を停止さ
せる処理手順となっている。

【０１１８】ここで第１の障害処理であるＮＭＩハンド
ラ１０４が正常終了してカウンタ１１５を停止後、ＮＭ
Ｉハンドラ１０４が第２の障害処理であるウォームリセ
ットによる前記ＢＩＯＳプログラムを起動するものとし
た場合に、何らかの障害により前記ＢＩＯＳプログラム
が正常に起動しなかったときには、障害処理が停止して
しまう。

【０１１９】また、この場合には、障害処理装置１１０
のカウンタ１１５は、正常終了したＮＭＩハンドラ１０
４により停止されているので、前記第２の障害処理であ
るＢＩＯＳプログラムが正常に起動していないことを、
カウンタ１１５のカウント値により検出することはでき
ない。

【０１２０】そこで、本実施形態の障害処理装置１１０
では、特定の障害処理プログラムが正常に終了した後、
次に実行する障害処理プログラムを制御回路１１１によ
って起動している。

【０１２１】尚、本実施形態の障害処理装置１１０の構
成は実施形態１に示したものと同様であり、制御回路１
１１の処理手順が若干異なるのみであるので、その概略
構成の説明を省略する。また、図４の処理手順では、ス
テップ４０１及びステップ４０２を追加している点が図
２の処理手順と異なっている。

【０１２２】すなわちオペレーティングシステム１０１
がハングアップしたことにより第１の障害処理プログラ
ムであるＮＭＩハンドラ１０４が起動し、カウンタ１１
５をスタートさせた後（ステップ２１３）、ステップ４
０１で前記障害処理プログラムからの障害処理正常終了
に伴うカウンタ１１５の停止コマンドの受信チェック、
更にステップ４０２でのタイムアウト発生のチェックを
行う。

【０１２３】ステップ４０１で前記第１の障害処理プロ
グラムであるＮＭＩハンドラ１０４からの障害処理正常
終了に伴うカウンタ１１５の停止コマンドを受信した場
合、或いはステップ４０２でタイムアウト発生を検知し
た場合は、次の障害処理、すなわちウォームリセットに
よるＢＩＯＳプログラムが起動されると同時に、ステッ
プ２０７〜ステップ２１３により前述のＢＩＯＳプログ
ラムに対するカウンタ１１５が起動する。

【０１２４】また、制御回路１１１は、ステップ４０１
でＮＭＩハンドラ１０４以外からの停止コマンドを受信
すると、ステップ２１５でカウンタイネーブル信号１２
５を無効にしてカウンタ１１５を停止させ、カウンタリ
セット信号１２４を有効にしてカウンタ１１５をリセッ
トし、比較器マスク信号１２９を無効にして比較器１１
４を無効化する。この様にしてカウンタ１１５は停止
し、タイムアウト信号１２６が無効化される。

【０１２５】一方、ステップ４０１及びステップ４０２
それぞれにおいてカウンタ１１５の停止コマンドの受
信、タイムアウトの検知の何れも発生しない場合は、ス
テップ４０１及びステップ４０２の処理を繰り返す。

【０１２６】上記のステップ４０１及びステップ４０２
を付加することにより、前記障害処理プログラムが正常
に終了した場合とタイムアウトした場合の何れの場合に
も次に実施される障害処理プログラム、すなわちＢＩＯ
Ｓプログラムのカウンタ１１５が前記障害処理プログラ
ム自身によらず制御回路１１１により起動される。

【０１２７】これは、特定の障害処理プログラムが正常
終了した後に、他の障害処理プログラムを起動する情報
処理装置に有効である。

【０１２８】以上説明した様に、本実施形態の障害処理
装置によれば、障害を検出すると特定の障害処理を起動
すると同時に前記特定の障害処理によらずに障害検出手
段の動作を再開させるので、起動を指示した特定の障害
処理を実行することが困難な壊滅的な障害が発生した場
合でも当該障害処理の停止を検出して次の障害処理に移
行することが可能である。

【０１２９】

【発明の効果】本発明によれば、障害を検出すると特定
の障害処理を起動すると同時に前記特定の障害処理によ
らずに障害検出手段の動作を再開させるので、起動を指
示した特定の障害処理を実行することが困難な壊滅的な
障害が発生した場合でも当該障害処理の停止を検出して
次の障害処理に移行することが可能である。

【図面の簡単な説明】

【図１】実施形態１の障害処理装置の概略構成を示す図
である。

【図２】実施形態１の制御回路１１１の処理手順を示す
フローチャートである。

【図３】実施形態２の障害処理装置の概略構成を示す図
である。

【図４】実施形態３の障害処理装置の処理手順を示すフ
ローチャートである。

【図５】従来の情報処理装置の概略構成を示す図であ
る。

【図６】従来の情報処理装置において１つのウォッチド
ッグタイマ５０７で図５と同様の処理を実現する構成の
例を示す図である。

【符号の説明】

１００…ＣＰＵ／メモリサブシステム、１０１…オペレ
ーティングシステム、１０２…システムマネージメント
エージェントソフトウェア、１０３…障害処理装置ドラ
イバ、１０４…ＮＭＩハンドラ、１０５…システム診断
・障害解析処理プログラム、１０６…ＢＩＯＳ・ＲＯ
Ｍ、１０７…クロック生成器、１０８…システムリセッ
ト回路、１０９…標準バス、１１０…障害処理装置、１
１１…制御回路、１１２…セレクタ、１１３…データレ
ジスタ、１１４…比較器、１１５…カウンタ、１１６…
ラッチ素子、１１７…標準バスインタフェース、１１８
…カウンタ、１２５…カウンタイネーブル信号、１２６
…タイムアウト信号、１３１…マスク不能割り込み信
号、１２４…カウンタリセット信号、１２３…データレ
ジスタセット信号、１２２…データレジスタリセット信
号、１２１…ラッチ素子リセット信号、１２９…比較器
マスク信号、１２７…セレクタ制御信号、１２８…クロ
ック信号、１３０…比較器出力信号、１３３…ハードウ
ェアリセット信号、１３２…ウォームリセット信号、３
０１〜３０３…データレジスタ、３１１〜３１３…比較
器、３２１〜３２３…ラッチ素子、３３１〜３３３…デ
ータレジスタセット信号、３４１〜３４３…データレジ
スタリセット信号、３５１〜３５３…ラッチ素子リセッ
ト信号、３６１〜３６３…比較器出力信号、５００…Ｃ
ＰＵ／メモリサブシステム、５０１…オペレーティング
システム、５０２…システムマネージメントエージェン
トソフトウェア、５０３…ウォッチドッグタイマドライ
バ、５０４…ＮＭＩハンドラ、５０５…システム診断・
障害解析処理プログラム、５０６…ＢＩＯＳ・ＲＯＭ、
５０７〜５０９…ウォッチドッグタイマ、５１０…シス
テムリセット回路、５１１…標準バス、６００…切り替
え回路。

フロントページの続き (72)発明者内藤倫典愛知県尾張旭市晴丘町池上１番地株式会社日立旭エレクトロニクス内

Claims

【特許請求の範囲】

【請求項１】情報処理装置に発生した障害を検出して
複数の障害処理の内の特定の障害処理を行う障害処理装
置において、予め設定されたタイムアウト時間中にコマンドが受信さ
れない場合に情報処理装置で障害が発生したものと見な
して障害の検出を行う障害検出手段と、複数の障害処理
の内の特定の障害処理を選択する障害処理選択手段と、
前記障害検出手段が障害を検出したときに前記障害処理
選択手段により複数の障害処理の内の特定の障害処理を
選択してその実行を指示すると共に、前記障害検出手段
を再度動作させる制御手段とを備えることを特徴とする
障害処理装置。
【請求項２】前記制御手段は、障害処理毎に異なるタ
イムアウト時間を前記障害検出手段に設定することを特
徴とする請求項１に記載された障害処理装置。
【請求項３】前記制御手段は、前記特定の障害処理が
正常に終了したときに前記障害検出手段を再度動作させ
ることを特徴とする請求項１または請求項２のいずれか
に記載された障害処理装置。