JPH1153225A - 障害処理装置 - Google Patents

障害処理装置

Info

Publication number
JPH1153225A
JPH1153225A JP9205558A JP20555897A JPH1153225A JP H1153225 A JPH1153225 A JP H1153225A JP 9205558 A JP9205558 A JP 9205558A JP 20555897 A JP20555897 A JP 20555897A JP H1153225 A JPH1153225 A JP H1153225A
Authority
JP
Japan
Prior art keywords
fault
failure
processing
counter
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9205558A
Other languages
English (en)
Inventor
Yasuhiro Hida
庸博 飛田
Yoshiaki Hisada
義明 久田
Michinori Naito
倫典 内藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Asahi Electronics Co Ltd
Original Assignee
Hitachi Ltd
Hitachi Asahi Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi Asahi Electronics Co Ltd filed Critical Hitachi Ltd
Priority to JP9205558A priority Critical patent/JPH1153225A/ja
Publication of JPH1153225A publication Critical patent/JPH1153225A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 起動を指示した特定の障害処理を実行するこ
とが困難な壊滅的な障害が発生した場合でも当該障害処
理の停止を検出して次の障害処理に移行することが可能
な技術を提供する。 【解決手段】 情報処理装置に発生した障害を検出して
複数の障害処理の内の特定の障害処理を行う障害処理装
置において、予め設定されたタイムアウト時間中にコマ
ンドが受信されない場合に情報処理装置で障害が発生し
たものと見なして障害の検出を行う障害検出手段と、複
数の障害処理の内の特定の障害処理を選択する障害処理
選択手段と、前記障害検出手段が障害を検出したときに
前記障害処理選択手段により複数の障害処理の内の特定
の障害処理を選択してその実行を指示すると共に、前記
障害検出手段を再度動作させる制御手段とを備えるもの
である。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、情報処理装置で発
生した障害の処理を行う障害処理装置に関し、特に、情
報処理装置において何らかの障害によりオペレーティン
グシステムが暴走或いは停止した際に、保守員の操作を
必要とせず自動で最大限の障害情報の入手を行い、シス
テムの再起動を行う障害処理装置に適用して有効な技術
に関するものである。
【0002】
【従来の技術】高信頼システムでは、保守員が不在の状
況でオペレーティングシステムの暴走やハングアップが
発生した場合に、それを自動検知し、障害解析処理プロ
グラムを自動で起動して障害処理を行ったり或いはシス
テムを再起動するといった機能が要求されている。
【0003】上記機能を実現する手段として、ウォッチ
ドッグタイマがある。ウォッチドッグタイマとは、常に
一定速度でカウントアップされるタイマであり、ソフト
ウェアによって定期的にクリアされ、そのクリア処理が
一定時間途絶えることによりタイマが満了すると、当該
ソフトウェアがハングアップしたものとみなし、アラー
ムを出力するものである。
【0004】ウォッチドッグタイマが満了した場合の処
理としては、以下の3通りがある。
【0005】(1)メインCPUにマスク不能割り込み
(NMI)を発行し、NMIハンドラによりオペレーテ
ィングシステムが有する障害処理を実行する。
【0006】マスク不能割り込みを処理するNMIハン
ドラは、オペレーティングシステムの一部であり、例え
ばオペレーティングシステムが実行していたコマンドや
メモリアドレス等の情報を取り込み、ハードディスク等
の不揮発性記憶装置に保存することを可能にしている。
【0007】但し、市販オペレーティングシステムの場
合は、変更を加えずにプラットホーム固有の障害要素の
モニタリングを行うことは不可能である。
【0008】(2)ウォームリセットを起動し、BIO
S(Basic Input Output Syst
em)が有する診断プログラムを実行させる。診断プロ
グラムを実行した場合には、プラットホームに固有の障
害要素をモニタリングし、不揮発性記憶装置に保存する
ことが可能である。但し、オペレーティングシステムの
実行コマンドやアドレス等の入手は極めて困難である。
【0009】(3)システム全体をリセットする。但
し、システム全体をリセットした場合には、(1)や
(2)で入手可能な情報はクリアされてしまう。
【0010】PC−ATアーキテクチャーの情報処理シ
ステムでは、オペレーティングシステムがダウンする障
害が発生した場合、上記(1)及び(2)を順に実施す
ることにより、障害解析に必要な最大限情報を入手でき
る。
【0011】上記(1)の処理は、主記憶装置上で動作
するプログラムにより実行される処理であり、当該主記
憶装置が破壊する様な障害の際は、潜在的に当該処理自
身が暴走或いは停止する可能性を有している。
【0012】上記(2)の処理は、通常ROMベースの
プログラムにより実行される処理であり、主記憶装置が
破壊されても動作可能であるが、ROMが接続されるバ
スがハングアップする様な障害の際には、同様に当該処
理自身が暴走或いは停止する可能性を有している。
【0013】障害処理である(1)がハングアップする
様な障害が発生した場合にも、前記障害を検出し、次の
(2)の障害処理に移行する様な手段を施すことによ
り、システムを停止させることなく再起動を行うことが
可能となる。
【0014】同様に、(2)がハングアップする様な障
害が発生した場合にも、前記障害を検出し、次の(3)
の障害処理に移行する様な手段を施すことにより、シス
テムを停止させることなく再起動を行うことが可能とな
る。
【0015】従来のウォッチドッグタイマを用いて上記
障害処理への移行を実現する場合には、図5に示す様に
各処理用のウォッチドッグタイマを個別に提供し、各処
理が停止した場合に次の処理に移行させるものがある。
【0016】図5は、従来の情報処理装置の概略構成を
示す図である。図5に示す様に従来の情報処理装置は、
CPU/メモリサブシステム500と、オペレーティン
グシステム501と、システムマネージメントエージェ
ントソフトウェア502と、ウォッチドッグタイマドラ
イバ503と、NMIハンドラ504と、システム診断
・障害解析処理プログラム505と、BIOS・ROM
506と、ウォッチドッグタイマ507〜509と、シ
ステムリセット回路510と、標準バス511とを有し
ている。
【0017】CPU/メモリサブシステム500は、C
PUとメモリとから成るサブシステムであり、オペレー
ティングシステム501は、装置全体の動作を制御する
プログラムであり、システムマネージメントエージェン
トソフトウェア502は、システムの管理を行い、ウォ
ッチドッグタイマドライバ503に指示を与えるプログ
ラムである。
【0018】ウォッチドッグタイマドライバ503は、
ウォッチドッグタイマ507〜509の動作を制御する
処理部であり、NMIハンドラ504は、マスク不能割
り込みが発生したときに特定の処理を行うプログラムで
あり、システム診断・障害解析処理プログラム505
は、システムの診断やシステムで発生した障害を解析す
るソフトウェアである。
【0019】BIOS・ROM506は、BIOSを格
納するROMであり、ウォッチドッグタイマ507〜5
09は、障害を検出する為のタイマであり、システムリ
セット回路510は、システムをリセットする回路であ
り、標準バス511は、CPU/メモリサブシステム5
00、BIOS・ROM506及びウォッチドッグタイ
マ507〜509を接続するバスである。
【0020】オペレーティングシステム501がハング
アップすると、ウォッチドッグタイマ507がタイムア
ウトする為、マスク不能割り込みが発行される。
【0021】NMIハンドラ504は、自分自身のハン
グアップを通知すると共に第2の障害処理を起動する為
のウォッチドッグタイマ508を起動する。これによ
り、NMIハンドラ504がハングアップしてもウォッ
チドッグタイマ508がウォームリセットを起動でき
る。
【0022】ウォームリセットにより起動するBIOS
プログラムは、自分自身のハングアップを通知すると共
に第3の障害処理、すなわちここではハードウェアリセ
ットを実行する為にウォッチドッグタイマ509を起動
する。これにより、マスク不能割り込みがハングアップ
してもウォッチドッグタイマ509がハードウェアリセ
ットを起動できる。
【0023】上記の様に、各障害処理がダウンしても、
次の処理に移行できる為、システム再起動処理が途絶え
ることなく実施可能になる。
【0024】図6は、従来の情報処理装置において1つ
のウォッチドッグタイマ507で図5と同様の処理を実
現する構成の例を示す図である。図6に示す様に従来の
情報処理装置は、切り替え回路600を有している。
【0025】切り替え回路600は、ウォッチドッグタ
イマ507がタイムアウトしたときに行う処理を切り替
える回路である。
【0026】通常オペレーティングシステム501のウ
ォッチドッグタイマ507として使用する場合は、タイ
ムアウト時にマスク不能割り込みが発行される様に切り
替え回路600が設定される。
【0027】ウォッチドッグタイマ507のタイムアウ
トによりNMIハンドラ504が起動した際には、NM
Iハンドラ504は、処理の始めにウォッチドッグタイ
マ507を設定し、ウォッチドッグタイマ507のタイ
ムアウト信号がウォームリセット信号に反映される様に
切り替え回路600を設定する。
【0028】NMIハンドラ504がハングアップした
ことによりウォームリセットが発行された場合、ウォー
ムリセットにより起動したプログラムは、処理の始めに
ウォッチドッグタイマ507を設定し、ウォッチドッグ
タイマ507のタイムアウト信号がハードウェアリセッ
ト信号に反映される様に切り替え回路600を設定す
る。
【0029】上記の様にして、図5と同様の機能を1つ
のウォッチドッグタイマ507で実現できる。
【0030】
【発明が解決しようとする課題】前述の様に従来の情報
処理装置では、基本的にハングアップする可能性を潜在
的に有する処理プログラム自身により、処理の始めにウ
ォッチドッグタイマが起動される構成となっている。
【0031】ウォッチドッグタイマがタイムアウトして
マスク不能割り込みが発行されたときに、NMIハンド
ラがロードされる主記憶装置が破壊されていた場合には
NMIハンドラは動作不可能である為、ウォッチドッグ
タイマは起動されない。従ってここで処理が途絶えるこ
とになる。
【0032】同様に、ウォッチドッグタイマがタイムア
ウトしたことにより、ウォームリセットが発行された場
合、BIOS・ROMが接続される標準バスがハングア
ップする様な障害時には、BIOS・ROMプログラム
は動作不可能な為、ウォッチドッグタイマは起動され
ず、ここで処理が停止することになる。
【0033】本発明の目的は、上記問題を解決し、起動
を指示した特定の障害処理を実行することが困難な壊滅
的な障害が発生した場合でも当該障害処理の停止を検出
して次の障害処理に移行することが可能な技術を提供す
ることにある。
【0034】
【課題を解決するための手段】本発明は、情報処理装置
に発生した障害を検出して複数の障害処理の内の特定の
障害処理を行う障害処理装置において、障害検出手段に
より障害を検出したときに複数の障害処理の内の特定の
障害処理を選択してその実行を指示すると共に、ハング
アップする可能性の無い制御手段により前記障害検出手
段を再度動作させるものである。
【0035】本発明の障害処理装置では、定期的に障害
検出手段のカウンタ値を増加させ、予め設定されたタイ
ムアウト時間中に、オペレーティングシステム等の処理
プログラムからコマンドが受信されない場合に情報処理
装置で障害が発生したものと見なして障害の検出を行
う。
【0036】障害処理装置の制御手段は、前記障害検出
手段により障害を検出すると、障害処理選択手段により
複数の障害処理の内の特定の障害処理を選択してその実
行を指示する。
【0037】また、前記制御手段は、前記障害検出手段
のカウンタ値をリセットした後、前記障害検出手段の動
作を再開させる。
【0038】前記特定の障害処理の実行中に障害が発生
した場合には、前記制御手段により動作が再開されてい
る前記障害検出手段により、前記特定の障害処理で発生
した障害が検出される。
【0039】前記制御手段は、前記障害検出手段により
前記特定の障害処理で発生した障害を検出すると、前記
障害処理選択手段により複数の障害処理の内の次の障害
処理を選択してその実行を指示する。
【0040】前記の様に、本発明の障害処理装置では、
情報処理装置で障害が発生した場合に、複数の障害処理
を順番に実行して最大限の障害情報の入手を行い、シス
テムの再起動等の障害処理を行う。
【0041】以上の様に、本発明の障害処理装置によれ
ば、障害を検出すると特定の障害処理を起動すると同時
に前記特定の障害処理によらずに障害検出手段の動作を
再開させるので、起動を指示した特定の障害処理を実行
することが困難な壊滅的な障害が発生した場合でも当該
障害処理の停止を検出して次の障害処理に移行すること
が可能である。
【0042】
【発明の実施の形態】
(実施形態1)以下に、情報処理装置で発生した障害を
検出して複数の障害処理を順番に行う実施形態1の障害
処理装置について説明する。
【0043】図1は、本実施形態の障害処理装置110
の概略構成を示す図である。図1に示す様に本実施形態
の情報処理装置は、CPU/メモリサブシステム100
と、オペレーティングシステム101と、システムマネ
ージメントエージェントソフトウェア102と、障害処
理装置ドライバ103と、NMIハンドラ104と、シ
ステム診断・障害解析処理プログラム105と、BIO
S・ROM106と、クロック生成器107と、システ
ムリセット回路108と、標準バス109と、障害処理
装置110とを有している。
【0044】CPU/メモリサブシステム100は、C
PUとメモリとから成るサブシステムであり、オペレー
ティングシステム101は、情報処理装置全体の動作を
制御するプログラムであり、システムマネージメントエ
ージェントソフトウェア102は、障害処理装置ドライ
バ103に指示を与えるプログラムである。
【0045】障害処理装置ドライバ103は、障害処理
装置110の動作を制御するソフトウェアであり、NM
Iハンドラ104は、マスク不能割り込みが発生したと
きに特定の処理を行うプログラムであり、システム診断
・障害解析処理プログラム105は、ウォームリセット
時に情報処理装置の診断や情報処理装置で発生した障害
を解析するプログラムである。
【0046】BIOS・ROM106は、システム診断
・障害解析処理プログラム105等のBIOSプログラ
ムを格納するROMであり、クロック生成器107は、
カウンタ115にクロック信号128を入力する回路で
あり、システムリセット回路108は、システムをリセ
ットする回路である。
【0047】標準バス109は、CPU/メモリサブシ
ステム100、BIOS・ROM106及び障害処理装
置110を接続するバスであり、障害処理装置110
は、情報処理装置で発生した障害を処理する装置であ
る。
【0048】また、本実施形態の障害処理装置110
は、制御回路111と、セレクタ112と、データレジ
スタ113と、比較器114と、カウンタ115と、ラ
ッチ素子116と、標準バスインタフェース117と、
カウンタ118とを有している。
【0049】制御回路111は、カウンタ115、デー
タレジスタ113、ラッチ素子116及びセレクタ11
2を制御する回路であり、セレクタ112は、タイムア
ウト信号126を、マスク不能割り込み信号131、ウ
ォームリセット信号132、ハードウェアリセット信号
133の何れか1つに接続する回路であり、データレジ
スタ113は、情報処理装置で発生した障害を検出する
為のタイムアウト時間に相当するデータを格納するレジ
スタである。
【0050】比較器114は、カウンタ115の値とデ
ータレジスタ113の値とを比較する回路であり、カウ
ンタ115は、クロック生成器107から生成されるク
ロック信号128でカウントアップする回路であり、ラ
ッチ素子116は、比較器114からの比較器出力信号
130を記憶するRSフリップフロップタイプの素子で
ある。
【0051】標準バスインタフェース117は、標準バ
ス109に接続する為のインタフェース回路であり、カ
ウンタ118は、タイムアウト信号126が発行された
回数をカウントし保持する回路である。
【0052】カウンタイネーブル信号125は、カウン
タ115を動作させる信号であり、タイムアウト信号1
26は、タイムアウトが発生したかどうかを示す信号で
あり、マスク不能割り込み信号131は、マスク不能割
り込みを示す信号である。
【0053】カウンタリセット信号124は、カウンタ
115をリセットする信号であり、データレジスタセッ
ト信号123は、データレジスタ113にタイムアウト
値をセットする信号であり、データレジスタリセット信
号122は、データレジスタ113をリセットする信号
である。
【0054】ラッチ素子リセット信号121は、ラッチ
素子116をリセットする信号であり、比較器マスク信
号129は、比較器114を無効化する信号であり、セ
レクタ制御信号127は、セレクタ112の動作を制御
する信号である。
【0055】クロック信号128は、クロック生成器1
07が発生するクロックを示す信号であり、比較器出力
信号130は、比較器114から出力される負論理の信
号であり、ハードウェアリセット信号133は、ハード
ウェアリセットを指示する信号であり、ウォームリセッ
ト信号132は、ウォームリセットを指示する信号であ
る。
【0056】比較器114の負論理の比較器出力信号1
30は、RSフリップフロップタイプのラッチ素子11
6のR端子に接続され、データレジスタ113の値とカ
ウンタ115の値が一致すると、前記ラッチ素子116
の出力であるタイムアウト信号126が有効になる。
【0057】尚、本実施形態の障害処理装置110で
は、データレジスタ113、比較器114、カウンタ1
15及びラッチ素子116は、予め設定されたタイムア
ウト時間中にコマンドが受信されない場合に情報処理装
置で障害が発生したものと見なして障害の検出を行う障
害検出手段に相当している。
【0058】また、セレクタ112は、マスク不能割り
込み、ウォームリセット及びハードウェアリセット等の
複数の障害処理の内の特定の障害処理を選択する障害処
理選択手段に相当し、制御回路111は、前記障害検出
手段が障害を検出したときに前記障害処理選択手段によ
り複数の障害処理の内の特定の障害処理を選択してその
実行を指示すると共に、前記障害検出手段を再度動作さ
せる制御手段に相当している。
【0059】以上の個々の機能が従来の障害処理装置1
10を実現する標準的な構成要素である。以下、本実施
形態の障害処理装置110の制御回路111の処理手順
について説明する。
【0060】図2は、本実施形態の制御回路111の処
理手順を示すフローチャートである。障害処理装置11
0は、情報処理装置の電源が投入された後、標準バスイ
ンタフェース117を介してハードウェアリセット命令
を標準バス109から受信すると、制御回路111は、
ステップ201でカウンタリセット信号124を有効に
してカウンタ115をリセットし、データレジスタリセ
ット信号122を有効にしてデータレジスタ113をリ
セットする。
【0061】また、障害処理装置110の制御回路11
1は、ステップ201でラッチ素子リセット信号121
を有効にしてラッチ素子116をリセットし、比較器マ
スク信号129を有効にして比較器114を無効化する
ことによりセレクタ112をリセットして初期状態にす
る。
【0062】初期状態ではカウンタ118の初期値は
「0」であり、セレクタ制御信号127によりセレクタ
112は、タイムアウト信号126をマスク不能割り込
み信号131に接続する。また、この初期状態では比較
器マスク信号129により比較器114が無効化された
状態であり、タイムアウト信号126は無効な状態であ
る。
【0063】ステップ202で制御回路111は、オペ
レーティングシステム101のシステムマネージメント
エージェントソフトウェア102からの指示により障害
処理装置ドライバ103からコマンドを受信しているか
どうかを調べ、標準バスインタフェース117を介して
タイムアウト値とカウンタ115を活性化するコマンド
を受信すると、ステップ203で制御回路111は、デ
ータレジスタセット信号123を有効にすることによ
り、前記タイムアウト値をデータレジスタ113にセッ
トする動作を行う。
【0064】更にステップ203で制御回路111は、
比較器マスク信号129を無効にした後、カウンタイネ
ーブル信号125を有効にしてカウンタ115をスター
トさせる。以降、オペレーティングシステム101のシ
ステムマネージメントエージェントソフトウェア102
は、定期的に標準バスインタフェース117を介して障
害処理装置110にカウンタ115をクリアするクリア
コマンドを送信する。
【0065】ステップ204で制御回路111は、前記
クリアコマンドの受信を確認すると、前記クリアコマン
ドを受け取る度にカウンタリセット信号124を有効に
し、カウンタ115を「0」にリセットする(ステップ
205)。
【0066】前記クリアコマンドを定期的に受信するこ
とによりカウンタ115はリセットされ、カウンタ11
5のカウント値は、データレジスタ113に予め設定さ
れたタイムアウト値に達しない為、障害処理装置110
は、オペレーティングシステム101が正常動作してい
ると判断する。
【0067】ここでオペレーティングシステム101が
停止する障害が発生すると、前記クリアコマンドが途絶
える為、カウンタ115のカウント値がデータレジスタ
113に予め設定されたタイムアウト値に達し、比較器
114の演算結果によりタイムアウト信号126が有効
になる。
【0068】タイムアウト信号126が有効になると、
セレクタ112を介してマスク不能割り込み信号131
が有効になり、オペレーティングシステム101にマス
ク不能割り込みが発行される。
【0069】以上の処理は、従来の情報処理装置おい
て、ウォッチドッグタイマ507によりオペレーティン
グシステム101の停止を検出し、マスク不能割り込み
を発行する処理に相当している。
【0070】制御回路111は、ステップ206でタイ
ムアウト信号126が有効になったことを確認すると、
ステップ207でカウンタ118に「1」を加算する。
このカウンタ118の値は、タイムアウト信号126が
何回発行されたかを確認するデータとして使用される。
【0071】次に、ステップ208で制御回路111
は、カウンタイネーブル信号125を無効にしてカウン
タ115のカウントアップを停止させ、カウンタリセッ
ト信号124及びラッチ素子リセット信号121を有効
にすることにより、カウンタ115及びラッチ素子11
6をリセットする。
【0072】次に、ステップ209で制御回路111
は、カウンタ118の値をチェックし、カウンタ118
のカウント値が「1」であること、すなわち1回目のタ
イムアウトが発生したことを確認すると、ステップ21
0でセレクタ制御信号127により、セレクタ112を
タイムアウト信号126がウォームリセットを実行する
ウォームリセット信号132に接続される様に切り替え
る。
【0073】次に、ステップ213で制御回路111
は、カウンタイネーブル信号125を有効にし、カウン
タ115を再スタートさせる。
【0074】以上ステップ206からステップ213ま
での一連の処理は、従来の情報処理装置において、NM
Iハンドラ104を対象としたウォッチドッグタイマ5
07の再スタートを行う処理に相当している。
【0075】従来技術では、ウォッチドッグタイマ50
7の再スタート処理は、タイムアウト検出の対象となる
プログラム自身、すなわちここではNMIハンドラ10
4が実行していた処理である。
【0076】一方、本実施形態の障害処理装置110で
は、対象となるNMIハンドラ104が壊滅的な障害に
より動作不可能な状態でも、障害処理装置110のカウ
ンタ115が再スタートする為、前記壊滅的障害を検出
し、次の障害処理、すなわちここではウォームリセット
処理への移行が可能である。
【0077】制御回路111は、ステップ213の処理
を完了すると、ステップ206に戻り、再度タイムアウ
ト信号126の生成をチェックする処理を続ける。
【0078】NMIハンドラ104は、正常に処理を終
了すると、標準バスインタフェース117を介して制御
回路111にカウンタ115を停止させるコマンドを送
信する。
【0079】制御回路111は、ステップ214で前記
停止コマンドを受信すると、図2の任意の状態において
実行中の処理を停止し、ステップ215でカウンタイネ
ーブル信号125を無効にしてカウンタ115を停止さ
せ、カウンタリセット信号124を有効にしてカウンタ
115をリセットし、比較器マスク信号129を無効に
して比較器114を無効化する。この様にしてカウンタ
115は停止し、タイムアウト信号126が無効化され
る。
【0080】一方NMIハンドラ104がハングアップ
したことにより、2回目のタイムアウト信号126が発
行されると(ステップ206)、セレクタ112を介し
てウォームリセットを実行するウォームリセット信号1
32が出力され、ウォームリセットが実行される。
【0081】次に、ステップ208で制御回路111
は、カウンタイネーブル信号125を無効にしてカウン
タ115のカウントアップを停止させ、カウンタリセッ
ト信号124及びラッチ素子リセット信号121を有効
にすることにより、カウンタ115及びラッチ素子11
6をリセットする。
【0082】次に、ステップ209で制御回路111
は、カウンタ118の値をチェックし、カウンタ118
のカウント値が「2」であること、すなわち2回目のタ
イムアウトが発生したことを確認すると、ステップ21
1でセレクタ制御信号127により、セレクタ112を
タイムアウト信号126がハードウェアリセットを実行
するハードウェアリセット信号133に接続される様に
切り替える。
【0083】次に、ステップ213で制御回路111
は、カウンタイネーブル信号125を有効にし、カウン
タ115を再スタートさせる。
【0084】以上ステップ206からステップ213ま
での一連の処理は、従来の情報処理装置において、前記
ウォームリセットにより起動するBIOSプログラムを
対象とするウォッチドッグタイマ507の再スタートを
行う処理に相当している。
【0085】従来技術では、ウォッチドッグタイマ50
7の再スタート処理は、タイムアウト検出の対象となる
プログラム自身、すなわちここではBIOSプログラム
が実行していた処理である。
【0086】一方、本実施形態の障害処理装置110で
は、対象となるBIOSプログラムが壊滅的な障害によ
り動作不可能な状態でも、障害処理装置110のカウン
タ115が再スタートする為、前記壊滅的障害を検出
し、次の障害処理、すなわちここではハードウェアリセ
ット処理への移行が可能である。
【0087】制御回路111は、ステップ213の処理
を完了すると、ステップ206に戻り、再度タイムアウ
ト信号126の生成をチェックする処理を続ける。
【0088】前記BIOSプログラムであるシステム診
断・障害解析処理プログラム105は、正常に処理を終
了すると、標準バスインタフェース117を介して制御
回路111に障害処理装置110を停止させるコマンド
を送信する。
【0089】制御回路111は、ステップ214で前記
停止コマンドを受信すると、図2の任意の状態において
実行中の処理を停止し、ステップ215でカウンタイネ
ーブル信号125を無効にしてカウンタ115を停止さ
せ、カウンタリセット信号124を有効にしてカウンタ
115をリセットし、比較器マスク信号129を無効に
して比較器114を無効化する。この様にしてカウンタ
115は停止し、タイムアウト信号126が無効化され
る。
【0090】一方、システム診断・障害解析処理プログ
ラム105がハングアップしたことにより、3回目のタ
イムアウト信号126が発行されると(ステップ20
6)、セレクタ112を介してハードウェアリセットを
実行するハードウェアリセット信号133が出力され、
ハードウェアリセットが実行される。
【0091】こうして壊滅的な障害が発生しても次の障
害処理、すなわちここではハードウェアリセット処理へ
の移行が可能である。
【0092】ステップ212においてハードウェアリセ
ットが実行されると、障害処理装置110は標準バスイ
ンタフェース117を介してリセットされ、初期状態、
すなわちステップ21に戻る。
【0093】以上、図1及び図2で説明した様に本実施
形態の障害処理装置110では、マスク不能割り込み処
理、ウォームリセット処理、ハードウェアリセット処理
という順番で前記3種類の障害処理が実施される処理手
順を示しているが、標準バスインタフェース117を介
したオペレーティングシステム101のコマンドの内容
によっては、前記マスク不能割り込み処理を省略し、ウ
ォームリセット処理、ハードウェアリセット処理という
順番で前記2種類の障害処理を実施する構成とすること
も可能である。
【0094】その場合、制御回路111は、ステップ2
02においてタイムアウト後にウォームリセット処理を
施すコマンドをオペレーティングシステム101から受
信した後、カウンタ118の値を「1」にセットし、ウ
ォームリセット信号132を選択する様にセレクタ11
2をセットしてステップ203以降の処理を実行する。
【0095】この様にすることで、第1回目のタイムア
ウト信号126の生成により、セレクタ112を介して
ウォームリセット信号132が有効になり、ステップ2
07においてカウンタ118の値に「1」を加算した結
果が「2」となり、ステップ209における判定により
ステップ211が選択される。
【0096】また、同様に標準バスインタフェース11
7を介したオペレーティングシステム101のコマンド
の内容によっては、前記マスク不能割り込み処理、前記
ウォームリセット処理を省略し、第1回目からハードウ
ェアリセット処理を実行する構成とすることも可能であ
る。
【0097】その場合、制御回路111は、ステップ2
02においてタイムアウト後にハードウェアリセット処
理を施すコマンドをオペレーティングシステム101か
ら受信した後に、カウンタ118の値を「2」にセット
し、ハードウェアリセット信号133を選択する様にセ
レクタ112をセットしてステップ203以降の処理を
実行する。
【0098】この様にすることで、第1回目のタイムア
ウト信号126の生成により、セレクタ112を介して
ハードウェアリセット信号133が有効になり、ステッ
プ207においてカウンタ118の値に「1」を加算し
た結果が「3」となり、ステップ209における判定に
よりステップ212が選択される。
【0099】また、タイムアウト信号126が生成され
たときにカウンタ118に設定する複数の値を格納した
管理テーブルを予め制御回路111に用意しておき、タ
イムアウト信号126が生成したときに前記管理テーブ
ルから特定の値を読み出してカウンタ118に設定する
ことにより、マスク不能割り込み、ウォームリセット及
びハードウェアリセット等の複数の障害処理を任意の順
番で選択するものとしても良い。
【0100】以上説明した様に、本実施形態の障害処理
装置によれば、障害を検出すると特定の障害処理を起動
すると同時に前記特定の障害処理によらずに障害検出手
段の動作を再開させるので、起動を指示した特定の障害
処理を実行することが困難な壊滅的な障害が発生した場
合でも当該障害処理の停止を検出して次の障害処理に移
行することが可能である。
【0101】(実施形態2)以下に、情報処理装置の各
障害処理に対して個別のタイムアウト時間を設定する実
施形態2の障害処理装置について説明する。
【0102】図3は、本実施形態の障害処理装置110
の概略構成を示す図である。図3に示す様に本実施形態
の障害処理装置110は、データレジスタ301〜30
3と、比較器311〜313と、ラッチ素子321〜3
23とを有している。
【0103】データレジスタ301〜303は、情報処
理装置で発生した障害を検出する為のタイムアウト時間
に相当するデータを格納するレジスタであり、比較器3
11〜313は、カウンタ115の値とデータレジスタ
301〜303の値とを比較する回路であり、ラッチ素
子321〜323は、比較器311〜313からの比較
器出力信号361〜363を記憶する回路である。
【0104】データレジスタセット信号331〜333
は、データレジスタ301〜303にタイムアウト値を
セットする信号であり、データレジスタリセット信号3
41〜343は、データレジスタ301〜303をリセ
ットする信号であり、ラッチ素子リセット信号351〜
353は、ラッチ素子321〜323をリセットする信
号であり、比較器出力信号361〜363は、比較器3
11〜313から出力される負論理の信号である。
【0105】図1に示した実施形態1においては、デー
タレジスタ113に設定されるタイムアウト時間は、オ
ペレーティングシステム101やNMIハンドラ104
等の任意の障害処理に対して同一のタイムアウト時間を
使用していたが、本実施形態の障害処理装置110にお
いては、各障害処理に対して個別のタイムアウト時間を
設定する。
【0106】制御回路111は、オペレーティングシス
テム101のハングアップを検出する為のタイムアウト
時間データを、標準バスインタフェース117を介して
オペレーティングシステム101から受け取ると、デー
タレジスタ301に設定する。
【0107】同様にして制御回路111は、NMIハン
ドラ104のハングアップを検出する為のタイムアウト
時間データをオペレーティングシステム101から受け
取ってデータレジスタ302に設定し、前記ウォームリ
セットにより起動するBIOSプログラムのハングアッ
プを検出する為のタイムアウト時間データをオペレーテ
ィングシステム101から受け取ってデータレジスタ3
03に設定する。
【0108】制御回路111は、オペレーティングシス
テム101のタイムアウトを検出するモードで障害処理
装置110を動作させる際には、ラッチ素子リセット信
号351を無効、ラッチ素子リセット信号352、ラッ
チ素子リセット信号353を有効にした状態を継続する
ことにより、ラッチ素子322及びラッチ素子323の
ウォームリセット信号132及びハードウェアリセット
信号133を無効状態にし、ラッチ素子321のみ比較
器311の比較器出力信号361の発行により、マスク
不能割り込み信号131を有効にできる状態にする。
【0109】これは、図1のセレクタ112においてタ
イムアウト信号126がマスク不能割り込み信号131
に接続されている状態と同一の状態である。また、タイ
ムアウト時間は、データレジスタ301に設定された値
となる。
【0110】一方、制御回路111は、NMIハンドラ
104のタイムアウトを検出するモードで障害処理装置
110を動作させる際には、ラッチ素子リセット信号3
52を無効、ラッチ素子リセット信号351及びラッチ
素子リセット信号353を有効にした状態を継続するこ
とにより、ラッチ素子321及びラッチ素子323のマ
スク不能割り込み信号131及びハードウェアリセット
信号133を無効状態にし、ラッチ素子322のみ比較
器312の比較器出力信号362の発行により、ウォー
ムリセットを実行するウォームリセット信号132を有
効にできる状態にする。
【0111】これは、図1のセレクタ112においてタ
イムアウト信号126がウォームリセットを実行するウ
ォームリセット信号132に接続されている状態と同一
の状態である。また、タイムアウト時間はデータレジス
タ302に設定された値となり、オペレーティングシス
テム101のタイムアウト時間とは異なる値を設定する
ことが可能である。
【0112】更に、制御回路111は、前記ウォームリ
セットにより起動するBIOSプログラムのタイムアウ
トを検出するモードで障害処理装置110を動作させる
際には、制御回路111は、ラッチ素子リセット信号3
53を無効、ラッチ素子リセット信号351、ラッチ素
子リセット信号352を有効にした状態を継続すること
によりラッチ素子321及びラッチ素子322のマスク
不能割り込み信号131及びウォームリセット信号13
2を無効状態にし、ラッチ素子323のみ比較器313
の比較器出力信号363の発行により潜在的にハードウ
ェアリセットを実行するハードウェアリセット信号13
3を有効にできる状態にする。
【0113】これは、図1のセレクタ112においてタ
イムアウト信号126がハードウェアリセットを実行す
るハードウェアリセット信号133に接続されている状
態と同一の状態である。また、タイムアウト時間はデー
タレジスタ303に設定された値となり、オペレーティ
ングシステム101やNMIハンドラ104のタイムア
ウト時間とは異なる値を設定することが可能である。
【0114】尚、基本的な処理手順は実施形態1の図2
に示した処理手順と同一である為、詳細な説明は省略す
る。
【0115】以上説明した様に、本実施形態の障害処理
装置によれば、障害を検出すると特定の障害処理を起動
すると同時に前記特定の障害処理によらずに障害検出手
段の動作を再開させるので、起動を指示した特定の障害
処理を実行することが困難な壊滅的な障害が発生した場
合でも当該障害処理の停止を検出して次の障害処理に移
行することが可能である。
【0116】(実施形態3)以下に、特定の障害処理プ
ログラムが正常に終了した後、次に実行する障害処理プ
ログラムを前記特定の障害処理プログラムによらずに起
動する実施形態3の障害処理装置について説明する。
【0117】図4は、本実施形態の障害処理装置110
の処理手順を示すフローチャートである。図1及び図2
によって説明した実施形態1では、第1の障害処理であ
るNMIハンドラ104や第2の障害処理である前記B
IOSプログラムが正常に処理を終了すると、標準バス
インタフェース117を介してカウンタ115を停止さ
せる処理手順となっている。
【0118】ここで第1の障害処理であるNMIハンド
ラ104が正常終了してカウンタ115を停止後、NM
Iハンドラ104が第2の障害処理であるウォームリセ
ットによる前記BIOSプログラムを起動するものとし
た場合に、何らかの障害により前記BIOSプログラム
が正常に起動しなかったときには、障害処理が停止して
しまう。
【0119】また、この場合には、障害処理装置110
のカウンタ115は、正常終了したNMIハンドラ10
4により停止されているので、前記第2の障害処理であ
るBIOSプログラムが正常に起動していないことを、
カウンタ115のカウント値により検出することはでき
ない。
【0120】そこで、本実施形態の障害処理装置110
では、特定の障害処理プログラムが正常に終了した後、
次に実行する障害処理プログラムを制御回路111によ
って起動している。
【0121】尚、本実施形態の障害処理装置110の構
成は実施形態1に示したものと同様であり、制御回路1
11の処理手順が若干異なるのみであるので、その概略
構成の説明を省略する。また、図4の処理手順では、ス
テップ401及びステップ402を追加している点が図
2の処理手順と異なっている。
【0122】すなわちオペレーティングシステム101
がハングアップしたことにより第1の障害処理プログラ
ムであるNMIハンドラ104が起動し、カウンタ11
5をスタートさせた後(ステップ213)、ステップ4
01で前記障害処理プログラムからの障害処理正常終了
に伴うカウンタ115の停止コマンドの受信チェック、
更にステップ402でのタイムアウト発生のチェックを
行う。
【0123】ステップ401で前記第1の障害処理プロ
グラムであるNMIハンドラ104からの障害処理正常
終了に伴うカウンタ115の停止コマンドを受信した場
合、或いはステップ402でタイムアウト発生を検知し
た場合は、次の障害処理、すなわちウォームリセットに
よるBIOSプログラムが起動されると同時に、ステッ
プ207〜ステップ213により前述のBIOSプログ
ラムに対するカウンタ115が起動する。
【0124】また、制御回路111は、ステップ401
でNMIハンドラ104以外からの停止コマンドを受信
すると、ステップ215でカウンタイネーブル信号12
5を無効にしてカウンタ115を停止させ、カウンタリ
セット信号124を有効にしてカウンタ115をリセッ
トし、比較器マスク信号129を無効にして比較器11
4を無効化する。この様にしてカウンタ115は停止
し、タイムアウト信号126が無効化される。
【0125】一方、ステップ401及びステップ402
それぞれにおいてカウンタ115の停止コマンドの受
信、タイムアウトの検知の何れも発生しない場合は、ス
テップ401及びステップ402の処理を繰り返す。
【0126】上記のステップ401及びステップ402
を付加することにより、前記障害処理プログラムが正常
に終了した場合とタイムアウトした場合の何れの場合に
も次に実施される障害処理プログラム、すなわちBIO
Sプログラムのカウンタ115が前記障害処理プログラ
ム自身によらず制御回路111により起動される。
【0127】これは、特定の障害処理プログラムが正常
終了した後に、他の障害処理プログラムを起動する情報
処理装置に有効である。
【0128】以上説明した様に、本実施形態の障害処理
装置によれば、障害を検出すると特定の障害処理を起動
すると同時に前記特定の障害処理によらずに障害検出手
段の動作を再開させるので、起動を指示した特定の障害
処理を実行することが困難な壊滅的な障害が発生した場
合でも当該障害処理の停止を検出して次の障害処理に移
行することが可能である。
【0129】
【発明の効果】本発明によれば、障害を検出すると特定
の障害処理を起動すると同時に前記特定の障害処理によ
らずに障害検出手段の動作を再開させるので、起動を指
示した特定の障害処理を実行することが困難な壊滅的な
障害が発生した場合でも当該障害処理の停止を検出して
次の障害処理に移行することが可能である。
【図面の簡単な説明】
【図1】実施形態1の障害処理装置の概略構成を示す図
である。
【図2】実施形態1の制御回路111の処理手順を示す
フローチャートである。
【図3】実施形態2の障害処理装置の概略構成を示す図
である。
【図4】実施形態3の障害処理装置の処理手順を示すフ
ローチャートである。
【図5】従来の情報処理装置の概略構成を示す図であ
る。
【図6】従来の情報処理装置において1つのウォッチド
ッグタイマ507で図5と同様の処理を実現する構成の
例を示す図である。
【符号の説明】
100…CPU/メモリサブシステム、101…オペレ
ーティングシステム、102…システムマネージメント
エージェントソフトウェア、103…障害処理装置ドラ
イバ、104…NMIハンドラ、105…システム診断
・障害解析処理プログラム、106…BIOS・RO
M、107…クロック生成器、108…システムリセッ
ト回路、109…標準バス、110…障害処理装置、1
11…制御回路、112…セレクタ、113…データレ
ジスタ、114…比較器、115…カウンタ、116…
ラッチ素子、117…標準バスインタフェース、118
…カウンタ、125…カウンタイネーブル信号、126
…タイムアウト信号、131…マスク不能割り込み信
号、124…カウンタリセット信号、123…データレ
ジスタセット信号、122…データレジスタリセット信
号、121…ラッチ素子リセット信号、129…比較器
マスク信号、127…セレクタ制御信号、128…クロ
ック信号、130…比較器出力信号、133…ハードウ
ェアリセット信号、132…ウォームリセット信号、3
01〜303…データレジスタ、311〜313…比較
器、321〜323…ラッチ素子、331〜333…デ
ータレジスタセット信号、341〜343…データレジ
スタリセット信号、351〜353…ラッチ素子リセッ
ト信号、361〜363…比較器出力信号、500…C
PU/メモリサブシステム、501…オペレーティング
システム、502…システムマネージメントエージェン
トソフトウェア、503…ウォッチドッグタイマドライ
バ、504…NMIハンドラ、505…システム診断・
障害解析処理プログラム、506…BIOS・ROM、
507〜509…ウォッチドッグタイマ、510…シス
テムリセット回路、511…標準バス、600…切り替
え回路。
フロントページの続き (72)発明者 内藤 倫典 愛知県尾張旭市晴丘町池上1番地 株式会 社日立旭エレクトロニクス内

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 情報処理装置に発生した障害を検出して
    複数の障害処理の内の特定の障害処理を行う障害処理装
    置において、 予め設定されたタイムアウト時間中にコマンドが受信さ
    れない場合に情報処理装置で障害が発生したものと見な
    して障害の検出を行う障害検出手段と、複数の障害処理
    の内の特定の障害処理を選択する障害処理選択手段と、
    前記障害検出手段が障害を検出したときに前記障害処理
    選択手段により複数の障害処理の内の特定の障害処理を
    選択してその実行を指示すると共に、前記障害検出手段
    を再度動作させる制御手段とを備えることを特徴とする
    障害処理装置。
  2. 【請求項2】 前記制御手段は、障害処理毎に異なるタ
    イムアウト時間を前記障害検出手段に設定することを特
    徴とする請求項1に記載された障害処理装置。
  3. 【請求項3】 前記制御手段は、前記特定の障害処理が
    正常に終了したときに前記障害検出手段を再度動作させ
    ることを特徴とする請求項1または請求項2のいずれか
    に記載された障害処理装置。
JP9205558A 1997-07-31 1997-07-31 障害処理装置 Pending JPH1153225A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9205558A JPH1153225A (ja) 1997-07-31 1997-07-31 障害処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9205558A JPH1153225A (ja) 1997-07-31 1997-07-31 障害処理装置

Publications (1)

Publication Number Publication Date
JPH1153225A true JPH1153225A (ja) 1999-02-26

Family

ID=16508889

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9205558A Pending JPH1153225A (ja) 1997-07-31 1997-07-31 障害処理装置

Country Status (1)

Country Link
JP (1) JPH1153225A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001101033A (ja) * 1999-09-27 2001-04-13 Hitachi Ltd オペレーティングシステム及びアプリケーションプログラムの障害監視方法
US6861625B1 (en) * 2000-05-22 2005-03-01 Haimer Gmbh Shrinking device for a toolholder
US7073097B2 (en) 2000-09-13 2006-07-04 Funai Electric Co., Ltd. Two-MCU system and hang-up detecting method of MCU
KR100687616B1 (ko) * 2004-12-01 2007-02-27 엘지노텔 주식회사 프로세서의 장애 감지 복구 장치 및 그 방법
JP2007094537A (ja) * 2005-09-27 2007-04-12 Hitachi Ltd メモリダンプ装置及びメモリダンプ採取方法
KR100722476B1 (ko) 2005-12-02 2007-05-28 엘지노텔 주식회사 오류원인 로그 생성 기능을 가지는 감시계기 장치 및 그방법
JP2012069032A (ja) * 2010-09-27 2012-04-05 Hitachi Cable Ltd 情報処理装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001101033A (ja) * 1999-09-27 2001-04-13 Hitachi Ltd オペレーティングシステム及びアプリケーションプログラムの障害監視方法
US6861625B1 (en) * 2000-05-22 2005-03-01 Haimer Gmbh Shrinking device for a toolholder
US7073097B2 (en) 2000-09-13 2006-07-04 Funai Electric Co., Ltd. Two-MCU system and hang-up detecting method of MCU
KR100687616B1 (ko) * 2004-12-01 2007-02-27 엘지노텔 주식회사 프로세서의 장애 감지 복구 장치 및 그 방법
JP2007094537A (ja) * 2005-09-27 2007-04-12 Hitachi Ltd メモリダンプ装置及びメモリダンプ採取方法
KR100722476B1 (ko) 2005-12-02 2007-05-28 엘지노텔 주식회사 오류원인 로그 생성 기능을 가지는 감시계기 장치 및 그방법
JP2012069032A (ja) * 2010-09-27 2012-04-05 Hitachi Cable Ltd 情報処理装置
US8677185B2 (en) 2010-09-27 2014-03-18 Hitachi Metals, Ltd. Information processing apparatus

Similar Documents

Publication Publication Date Title
TWI236620B (en) On-die mechanism for high-reliability processor
US7426662B2 (en) Computer system and fault processing method in computer system
US8261053B2 (en) Method and apparatus for maintaining a partition when booting another partition
JP2010140361A (ja) コンピュータシステム及び異常検出回路
JPH1153225A (ja) 障害処理装置
US6321289B1 (en) Apparatus for automatically notifying operating system level applications of the occurrence of system management events
US6463492B1 (en) Technique to automatically notify an operating system level application of a system management event
CN115904793B (zh) 一种基于多核异构系统的内存转存方法、系统及芯片
JP2004302731A (ja) 情報処理装置および障害診断方法
JP2965075B2 (ja) プログラム実行状態監視方法
TWI461905B (zh) 可遠端當機復原的運算裝置、用於運算裝置之遠端當機復原之方法及電腦可讀取媒體
JP6424134B2 (ja) 計算機システム及び計算機システムの制御方法
JP2998804B2 (ja) マルチマイクロプロセッサシステム
JPH064417A (ja) メモリのバッテリバックアップ制御方式
JP2007004364A (ja) デバッグシステム、デバッグ方法およびプログラム
JP2550708B2 (ja) デバッグ方式
JP2004070458A (ja) 自己診断機能を持つプログラムと、プログラム監視装置及びその方法と、プログラム監視機能を持つプログラム
JPH03138753A (ja) マルチプロセッサシステムのブートロード装置
JPH05233374A (ja) ウオッチドッグタイマ装置
JP2020071492A (ja) 情報処理システム
JPH0748198B2 (ja) マルチプロセッサシステム
JP3977694B2 (ja) リセット装置
JP2705401B2 (ja) マルチプロセッサ制御方法
JPS62212865A (ja) マルチプロセツサ制御方式
JPH04305758A (ja) 情報処理装置