JP2000112790A - 障害情報収集機能付きコンピュータ - Google Patents

障害情報収集機能付きコンピュータ

Info

Publication number
JP2000112790A
JP2000112790A JP10281411A JP28141198A JP2000112790A JP 2000112790 A JP2000112790 A JP 2000112790A JP 10281411 A JP10281411 A JP 10281411A JP 28141198 A JP28141198 A JP 28141198A JP 2000112790 A JP2000112790 A JP 2000112790A
Authority
JP
Japan
Prior art keywords
computer
failure
fault
processing
processor system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10281411A
Other languages
English (en)
Inventor
Tsunenori Hasebe
恒規 長谷部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP10281411A priority Critical patent/JP2000112790A/ja
Publication of JP2000112790A publication Critical patent/JP2000112790A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 【課題】 何らかの障害によりシステム動作を継続でき
ない場合に、コンピュータ本体部分の動作可否に拘わら
ず、その障害発生要因を解析するための障害情報を収集
可能とする。 【解決手段】 所定の処理を実行する計算機構成部分2
を含み、この計算機構成部分に関する障害情報を収集す
る障害情報収集機能付きコンピュータであって、計算機
構成部分とは独立しかつ計算機構成部分の構成要素にア
クセス可能に構成されており、計算機構成部分に障害が
発生した場合には構成要素に対してアクセスして、その
障害情報を収集し保存する第2の計算機構成部分4を備
えた障害情報収集機能付きコンピュータ。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は障害情報収集機能
付きコンピュータに関するものである。
【0002】
【従来の技術】近年コンピュータは幅広い分野で使用さ
れ、種々のシステムを構成する中核機器となっている。
したがって、コンピュータに異常が発生した場合には、
早急な復帰と異常の再発防止が極めて重要である。この
ような場合の異常解析のために、従来からコンピュータ
には自己の障害検出機能が設けられ、異常発生時の障害
情報が収集されるようになっている。
【0003】従来のコンピュータ障害検出方式には以下
のようなものがある。 1)ウォッチドッグタイマ ソフトウェアが一定時間毎に、ハードウェアタイマ(ウ
ォッチドッグタイマ)にアクセスしリセットする。ウォ
ッチドッグタイマは、決められた時間以内にソフトウェ
アによるリセットがない場合、障害が発生したと判断す
る。
【0004】2)タイムアウト システムバス、IOアクセス等を介して送った信号に対
し、一定時間以上の応答がない場合、タイムアウトエラ
ーとして障害を検知する。
【0005】3)パリティエラー、ECCエラー検出 メモリやシステムバス等で、パリティエラーチェックま
たはECC(Error Check and Cor
rection)エラー検出を実施し、エラーが発生し
た場合、障害と判断する。
【0006】従来のコンピュータにおいては、上記1)
〜3)等の手段で障害発生を検出した場合、プロセッサ
(CPU)に対して割り込みを発生しシステムの停止等
の前にプロセッサに障害対応処理を実施させる。この障
害対応処理により、メモリ内容を補助記憶装置へ退避さ
せるなどし、障害情報を収集する。
【0007】
【発明が解決しようとする課題】しかし、障害の種類に
よっては障害情報の収集を円滑に行えない場合がある。
例えばまず、コンピュータ本体が動作できなくなってい
る場合には、プロセッサに対するソフトウエア的な割り
込みが実行できないため、従来の技術ではハードウェア
リセットあるいは電源再投入を行うしかない。この場
合、ハードウエアリセット等によって、システムの状態
が全て初期化されてしまうため、障害情報を全く収集で
きない。
【0008】また、プロセッサに対する障害対応処理割
り込みができ、障害情報を収集できた場合でも、この情
報収集方式では本来の障害状況を調査できないことがあ
る。この場合は割り込みを掛けられたプロセッサ自身が
障害情報を収集するが、割り込みを掛けられたことによ
り逆にプロセッサが障害状態から抜け出してしまい、正
常動作に復帰する場合があるためである。
【0009】また、ウォッチドッグタイマで障害検出す
る場合、ウォッチドッグタイマをリセットするタイミン
グを決めるシステムタイマの割り込みの優先順位が低い
と、正常動作中であっても異常と検出される場合があ
る。すなわち、上位の優先順位の割り込みを使用するプ
ログラムが存在するために、タイマ割り込みを実行でき
ず、システムは正常動作しているのにウォッチドッグタ
イマをリセットできないために、障害発生と検出される
ためである。
【0010】これに対して、ウォッチドッグタイマ用の
タイマ割り込み優先順位を最上位あるいはマスク不可能
割り込み(NMI)とした場合には、ウォッチドッグタ
イマ自身は正常に動作するため、たとえ異常が発生して
いても障害として検出できないこともある。プログラム
の不適合によってループが生じている場合にも同様なこ
とが生じ得る。
【0011】本発明は、このような実情を考慮してなさ
れたもので、何らかの障害によりシステム動作を継続で
きない場合に、コンピュータ本体部分の動作可否に拘わ
らず、その障害発生要因を解析するための障害情報を収
集可能とした障害情報収集機能付きコンピュータを提供
することを目的とする。
【0012】
【課題を解決するための手段】上記課題を解決するため
に、請求項1に対応する発明は、所定の処理を実行する
計算機構成部分を含み、この計算機構成部分に関する障
害情報を収集する障害情報収集機能付きコンピュータで
あって、計算機構成部分とは独立しかつ計算機構成部分
の構成要素にアクセス可能に構成されており、計算機構
成部分に障害が発生した場合には構成要素に対してアク
セスして、その障害情報を収集し保存する第2の計算機
構成部分を備えた障害情報収集機能付きコンピュータで
ある。
【0013】本発明はこのような手段を設けたので、何
らかの障害によりシステム動作を継続できない場合に、
コンピュータ本来の処理を行う本体部分である計算機構
成部分の動作可否に拘わらず、その障害発生要因を解析
するための障害情報を収集することができる。
【0014】次に、請求項2に対応する発明は、請求項
1に対応する発明において、計算機構成部分は構成要素
として少なくともプロセッサ、メモリ及び周辺装置を備
える障害情報収集機能付きコンピュータである。
【0015】本発明はこのような手段を設けたので、請
求項1に係る発明と同様な作用効果を奏する。次に、請
求項3に対応する発明は、請求項1又は2に対応する発
明において、第2の計算機構成部分は、計算機構成部分
と定期的に交信するとともに、当該交信が途絶えたとき
に計算機構成部分に障害が発生したと判定する障害発生
検出手段を備えた障害情報収集機能付きコンピュータで
ある。
【0016】本発明はこのような手段を設けたので、請
求項1又は2に係る発明と同様な作用効果を奏する他、
第2の計算機構成部分において計算機構成部分の障害発
生を検出することができる。ここでいう交信としては、
例えば計算機構成部分のプロセッサに対する応答要求付
き割込信号等が考えられる。
【0017】次に、請求項4に対応する発明は、請求項
1〜3に対応する発明において、第2の計算機構成部分
は、計算機構成部分に対して少なくとも1回の割込信号
を出力するとともに、割込信号の割込レベルと割込信号
に対する応答状況とに基づいて、計算機構成部分の障害
レベルを判定する障害レベル解析手段を備えた障害情報
収集機能付きコンピュータである。
【0018】本発明はこのような手段を設けたので、請
求項1〜3に係る発明と同様な作用効果を奏する他、当
該障害レベルを各種の処理に対する基準に用い、また障
害情報の一部に含めて異常解析に役立てる等することが
できる。
【0019】次に、請求項5に対応する発明は、請求項
4に対応する発明において、障害レベル解析手段が出力
する割込信号は、1回のマスク不可能割込信号である障
害情報収集機能付きコンピュータである。
【0020】本発明はこのような手段を設けたので、請
求項4に係る発明と同様な作用効果を奏する他、最も簡
易な手段で計算機構成部分がソフトウエアレベルで異常
なのかハードウエアレベルで異常なのかを判定すること
ができる。マスク不可能割込信号で応答がない場合に
は、少なくともソフトウエアレベルでは完全に異常動作
となっている可能性が高いためである。
【0021】次に、請求項6に対応する発明は、請求項
1〜5に対応する発明において、第2の計算機構成部分
は、障害レベル解析手段により検出された障害の度合い
に応じ、計算機構成部分に対して異常処理割込信号ある
いは初期化信号を出力する障害処理手段を備えた障害情
報収集機能付きコンピュータである。
【0022】本発明はこのような手段を設けたので、請
求項1〜5に係る発明と同様な作用効果を奏する他、計
算機構成部分を異常状態から復帰させることができる。
次に、請求項7に対応する発明は、請求項1〜6に対応
する発明において、第2の計算機構成部分は、計算機部
分に障害が発生した旨を外部に通知する異常発生通知手
段を備えた障害情報収集機能付きコンピュータである。
【0023】本発明はこのような手段を設けたので、請
求項1〜6に係る発明と同様な作用効果を奏する他、計
算機構成部分が自ら異常を通知できないような場合で
も、コンピュータに異常が発生している旨を通知するこ
とができる。
【0024】
【発明の実施の形態】以下、本発明の実施の形態につい
て説明する。図1は本発明の実施の形態に係る障害情報
収集機能付きコンピュータの構成例を示すブロック図で
ある。
【0025】このコンピュータ1は、ワークステーショ
ン、パーソナルコンピュータあるいはその他の計算機か
らなるものであり、計算機としての各種処理を実行する
メインプロセッサシステム2の他、システムバス3を介
して接続されたサブプロセッサシステム4を備えて構成
されている。
【0026】一方、メインプロセッサシステム2におい
ては、メインCPU5及び主記憶としてのメモリ6がシ
ステムバスブリッジ7により接続され、さらにシステム
バスブリッジ7からシステムバス3を介して各種の周辺
装置インタフェース8が接続されている。なお、各周辺
装置については図示を省略している。
【0027】メインCPU5は、メモリ6に格納された
制御プログラムに従ってメインプロセッサシステム2を
制御し、コンピュータとしての機能を実現する。メモリ
6は、プログラムや各種データを記憶し、メインCPU
5とともに各種機能を実現する。なお、その障害情報収
集機能に関するデータ構成については後述する。
【0028】システムバスブリッジ7は、メインCPU
5とシステムバス3とのアダプタ機能を備えると共に、
メモリ6に対するメモリコントローラとしての機能を備
える。なお、実施形態ではこのシステムバスブリッジ7
を用いているが、発明を適用させるコンピュータとして
はこの構成に限られない。
【0029】一方、サブプロセッサシステム4は、メイ
ンプロセッサシステム2を監視し、当該システムに異常
が発生したときには、障害情報を収集保存し、同システ
ム1に初期化指令を与えると共に、異常発生の旨を外部
に通知するものである。このサブプロセッサシステム4
は、バス11にサブCPU12、メモリ13、交信イン
ターフェース14、タイマー15、ディスクインタフェ
ース16及び通信インタフェース17が接続されて構成
されている。また、ディスクインタフェース16を介し
てハードディスク18が接続されており、さらに、通信
インタフェース17を介して外部通信用の通信装置19
が接続されている。
【0030】ここでまず、サブCPU12は、メモリ1
5のプログラムに従ってシステム各部を制御し、サブプ
ロセッサシステム4をメインプロセッサシステム2に対
する異常監視・障害情報収集装置として機能させるよう
になっている。
【0031】メモリ13は、サブプロセッサシステム4
の主記憶であり、各種プログラムやデータを格納する。
なお、障害情報収集機能に関するデータ構成については
後述する。
【0032】交信インタフェース14は、システムバス
3と接続され、メインプロセッサシステム2と通信する
ようになっている他、メインCPU5に入力する直接の
信号線が設けられ、各信号線を介してメインCPU5へ
割り込み信号20、NMI(マスク不可能割り込み)信
号21及び初期化信号22を送信するようになってい
る。
【0033】また、交信インターフェース14にはバス
トレース部23が設けられ、このバストレース部23
は、システムバス3を介してメインプロセッサシステム
2内のメモリ6をトレースし、その記録内容を取得でき
るようになっている。
【0034】タイマー15は、後述するメインプロセッ
サシステム2に対するヘルスチェック機能において、時
間を計測するために使用される。ディスクインタフェー
ス16は、サブCPU12の制御により、障害情報を補
助記憶装置であるハードディスク18に保存する。
【0035】通信インタフェース17は、サブCPU1
2に従って通信装置19を制御し、メインプロセッサシ
ステム2に異常が発生した旨をLAN等のネットワーク
に出力する。この異常発生通知は、コンピュータ1外部
の他のコンピュータや警報装置、モニタ装置等に通報さ
れる。
【0036】次に、コンピュータ1の障害情報収集機能
を実現する部分について説明する。この部分は主とし
て、プロセッサシステム2,4内のメモリ6,13にお
ける制御プログラム及び同プログラムに制御される各C
PU5,12の動作によって実現される。
【0037】図2はサブプロセッサシステムにおけるメ
モリのデータ構成例を示す図である。サブプロセッサシ
ステム4のメモリ13には、少なくとも障害処理プログ
ラム31と障害情報記憶部32とが設けられる。障害処
理記憶部32は、収集した障害情報をハードディスク1
8に保存するまでの間、一時的に格納する部分である。
【0038】本実施形態の障害処理プログラム31は、
ヘルスチェック処理33、マスクレベル処理34、NM
I割込処理35、情報収集保存処理36、異常処理割込
処理37、異常発生通知処理38、HWリセット処理3
9及びシステム停止処理40を実行するための各プログ
ラムからなっている。
【0039】メインプロセッサシステム2には上記各処
理に対応する処理が設けられており、その内容を図3に
示す。図3はメインプロセッサシステムにおけるメモリ
のデータ構成例を示す図である。
【0040】メインプロセッサシステム2のメモリ6に
は、システム2が行うべき本来の処理プログラム及びデ
ータ(図示せず)の他、障害処理対応プログラム41と
障害情報記憶部42とが設けられる。
【0041】本実施形態の障害処理対応プログラム41
は、ヘルスチェック対応処理43、NMI割込対応処理
45、障害回復処理47及び初期化通知処理49を実行
するための各プログラムからなっている。
【0042】このうち、障害回復処理47は、メインプ
ロセッサシステム1において動作タスクに関する情報等
の障害情報を常時取得し障害情報記憶部42に格納する
と共に、異常処理割込処理37に基づき異常処理割込を
受けたときに障害情報の収集や各種データ退避等の異常
対応処理を実行し、システムをリセットする。また、こ
の処理47はハードウエアリセット(HWリセット)命
令を受けたときに初期化を開始させるようになってい
る。
【0043】初期化通知処理49は、メインプロセッサ
システム2において初期化が実行された場合には、その
初期化終了後にその旨をサブプロセッサシステム4に通
知するようになっている。
【0044】なお、上記各処理33〜40,43,4
5,47,49は、単なるプログラムでなく、CPUに
おいて実行される機能実現手段であると扱って以下の説
明を行う。
【0045】ここで、請求項における障害発生検出手段
は例えば上記ヘルスチェック処理33と対応し、障害レ
ベル解析手段はNMI割込処理35又は障害情報収集保
存処理36等と対応する。なお、NMI割込処理35は
1回のマスク不可割込信号のみを出力する障害レベル解
析手段である。また、障害処理手段は異常処理割込処理
37、HWリセット処理39等と対応し、異常発生通知
手段は例えば異常発生通知処理38が対応する。
【0046】次に、以上のように構成された本実施形態
における障害情報収集機能付きコンピュータの動作につ
いて説明する。図4はメインプロセッサシステムとサブ
プロセッサシステムの障害検出及び障害処理の部分のみ
上から下へ時系列で示す図である。
【0047】同図では、メインプロセッサシステム2の
本来のプログラムの動作は省略しており、それらの動作
は、図の動作と並行してマルチタスクで動作している。
まず、図4に示すように、サブプロセッサシステム4の
ヘルスチェック処理33により、サブシステム側からメ
インシステム側に対して常に一定時間間隔で割込信号S
1が発行されている(t1)。この時間間隔はタイマー
15により図られる。
【0048】このヘルスチェック割込に対し、メインプ
ロセッサシステム2からはヘルスチェック対応処理43
によって応答r1が出力される(t2)。一方、サブプ
ロセッサシステム4ではヘルスチェック処理33及びタ
イマー15によって上記一定時間間隔よりは短い時間に
ついて時間監視(タイムアウト監視)が行われている
(t3)。ここで、タイムアウト前に応答r1を受け取
ればメインプロセッサシステム2の健全性が確認され、
上記一定時間経過後に次のヘルスチェック割込(t1)
が実行される。
【0049】ここで、割込信号s1はある優先順位を有
する割り込み信号であるため、割込禁止(マスク)とさ
れる場合も有り得る。ヘルスチェック処理33は、マス
クされた場合も考慮した上で応答信号r1が戻るまでの
時間監視を行い、その時間以内に応答が返らない場合
に、メインプロセッサシステム2の異常と判断する(t
4)。応答が返らない理由として、ハードウェアの障害
の他に、ソフトウェアによる障害により、マスクが解除
されない場合も有り得る。
【0050】上記タイムアウト(t4)が発生すると、
ヘルスチェック処理33により異常発生の旨がマスクレ
ベル解析処理34及びNMI割込処理35に通知され
る。次に、異常発生通知を受けたマスクレベル解析処理
34によって、マスクレベル解析が行われる(図4には
図示せず)。これは後述のNMI割込s2を発行する前
に、割込信号s1の割り込みレベルを徐々に上げながら
ヘルスチェック割込(t1)及びタイムアウト監視(t
3)を繰り返すことで実現される。
【0051】例えばソフトウェアによってマスクされて
いた場合には、割込レベルを上げることで何れかのレベ
ルでヘルスチェック対応処理部46による応答信号r1
が出力される(ヘルスチェック応答(t2))。このヘ
ルスチェック応答(t2)があれば、そのときの割込レ
ベルでマスクされていたことが判明する。マスクレベル
が判明した場合、あるいは、最優先の割込信号s1を送
信しても応答がない場合には、その解析結果を障害情報
記憶部32に格納すると共に、マスクレベル解析処理を
終了する。
【0052】なお、このマスクレベル解析処理34は、
設定によりオンオフできるようになっている。マスクレ
ベル解析機能がオフされている場合、あるいは、マスク
レベル解析処理終了の通知を受けた場合には、ヘルスチ
ェック処理33から異常発生通知を受けたNMI割込処
理部35によってNMI割込信号s2がメインプロセッ
サシステム2に発行される(t5)。このNMI割込
は、マスク不可能割込であり、割込禁止(マスク)にで
きない最優先の割込である。マスク不可信号を送ること
でメインプロセッサシステム2が全く動作できなくなっ
ているかを確認するものである。なお、この場合はNM
I割込処理部35及びタイマー15によってタイムアウ
ト監視が行われる(t6)。
【0053】これに対してメインプロセッサシステム2
がプログラム動作可能な場合には、NMI割込対応処理
45により、NMI応答r2が交信インタフェース7を
介してサブプロセッサシステム4に返される(t7)。
これは、メインプロセッサシステム2において低レベル
割り込みは受け付けられない状態であるが、ハードウェ
アは動作しており、ソフト的な障害の可能性が高いこと
を表している。なお、タイムアウトした場合については
後述する。
【0054】NMI応答r2があった場合には、NMI
割込処理35からその旨が障害情報収集保存処理36に
通知される。この通知を受けた障害情報保存処理部36
によってサブプロセッサシステム4における障害情報収
集処理が開始される(t8)。この処理36おいては、
まず、交信インタフェース14のバストレース部23が
制御されてシステムバス3がトレースされ、これにより
メモリ6内の障害情報記憶部42の内容及びメインプロ
セッサシステム2内の各部の情報が取得される。このと
き取得される情報は、メイントレースシステム1の障害
解析用のシステム情報(障害情報)であり、どのプログ
ラムの何処を実行中か(タスク、実行アドレス)、プロ
セッサの内部状態や各周辺インタフェースの状態、シス
テムバスによりどこをアクセスしたか、これらそれぞれ
の時刻等である。
【0055】この障害情報は、障害情報収集保存処理部
36によって、サブプロセスシステム4のメモリ13内
(障害情報記憶部32)に一旦格納され、さらにハード
ディスク18に保存される(t8)。なお、このときハ
ードディスク18への保存に代えてあるいは保存と共
に、通信装置19を用いて他のコンピュータ等に障害情
報を送信するようにしてもよい。
【0056】障害情報の収集保存を完了した後、その旨
が異常処理割込処理37に通知され、同処理37によっ
て、サブシステム側からメインシステム側に対して異常
処理割込(panic割り込み)s3が発行される(t
9)。この割込信号の種類としては実際にはNMI割込
又は最優先割込が使用され、その割込内容としては、シ
ステム異常である旨の通知が含まれる。この通知によ
り、メインプロセッサシステム2の障害回復処理47が
起動される。
【0057】起動された障害回復処理47によって、メ
インプロセッサシステム2の障害情報が収集され、当該
情報が自身のハードディスク装置(図示せず)に待避さ
れる(t10)。その後、システムが再起動され初期化
処理が開始される(t11)。
【0058】初期化処理が完了すると、サブプロセッサ
システム4に対し初期化通知処理49によって初期化完
了の通知r3が行われる。サブプロセッサシステム4に
おいては、メインシステム側に対してNMI割込s2を
発行した後に初期化完了通知r3を受けると、メインプ
ロセッサシステム1において障害が発生し、その後の初
期化で障害復旧完了したことが異常発生通知処理部38
によって認識される(t12)。
【0059】この初期化完了確認(t12)の後、外部
の監視モニタや他のコンピュータに対し、異常発生通知
処理部38によって当該コンピュータ1に異常が発生し
た旨が通知される。
【0060】これにより、当該コンピュータ1に対する
必要な処置が取られることになる。次に、図4における
処理でNMI割込(t5)を実行しても応答r2がなか
った場合の処理を説明する。
【0061】図5はメインプロセッサシステムとサブプ
ロセッサシステムの障害検出及び障害処理の部分のみ上
から下へ時系列で示す他の図である。なお、同図におい
て図4と同一部分には同一符号を付している。
【0062】図5に示す場合は、サブプロセッサシステ
ム4からのNMI割込信号s2に対してメインプロセッ
サシステム2からの応答r2がなく、NMI応答のタイ
ムアウトが発生した場合(t21)である。
【0063】この場合は、メインプロセッサシステム2
のハードウェアに障害が発生し、NMI割り込みに対し
て応答できなかったものと予想されるから、NMI割込
処理部35により、メインプロセッサシステム2のハー
ドウェア異常と判定され、その旨が障害情報収集保存処
理部36及びHWリセット処理部39に通知される。
【0064】この通知を受けた障害情報収集保存処理部
36により、上記と同様に障害情報が収集され(t
8)、障害情報収集後、HWリセット処理部39により
ハードウエア(HW)リセット処理が実行される(t2
2)。
【0065】すなわちHWリセット処理部39からメイ
ンプロセッサシステム2に対して初期化信号s11が発
行される。この初期化信号s11によりメインプロセッ
サシステム2では強制的にハードウェアがリセットされ
初期化処理が開始される(t11)。
【0066】この初期化処理が完了すると(t11)、
サブプロセッサシステム4に対し初期化通知処理によ
り、初期化完了通知r3が送信される。サブプロセッサ
システム4においては、図4の場合と同様に、メインシ
ステム側に対するNMI割込発行後に初期化完了通知r
3を受けることになるので、障害後の初期化完了と認識
され、外部の他コンピュータに異常発生が通知(s4)
される(t13)。
【0067】なお、HWリセット処理(t22)が行わ
れたときには、HWリセット処理部39によりタイムア
ウト監視がなされているが、このタイムアウトが発生し
た場合の処理を次に説明する。
【0068】図6はメインプロセッサシステムとサブプ
ロセッサシステムの障害検出及び障害処理の部分のみ上
から下へ時系列で示す更に他の図である。なお、同図に
おいて図4又は図5と同一部分には同一符号を付してい
る。
【0069】図6においては、サブプロセッサシステム
4から初期化信号s11を出力するところまでは図5の
場合と同様である。ここで、メインプロセッサシステム
2がハードウェアの初期化(t11)によっても動作で
きない場合は、初期化完了通知r3が発行されず、サブ
プロセッサシステム4においては初期化完了待ちタイム
アウトが発生する(t23)。
【0070】この場合、HWリセット処理部39により
メインプロセッサシステム2が動作不可能であると判定
され、その旨がシステム停止処理40及び異常発生通知
処理38に通知される。
【0071】この通知に基づき、システム通知処理40
によって、メインプロセッサシステム2の電源遮断ある
いは動作停止等の処置が行われる(t24)。さらに異
常発生通知処理38によって上記と同様な外部への通知
が行われる(t13)。
【0072】上述したように、本発明の実施の形態に係
る障害情報収集機能付きコンピュータは、計算機本来の
処理部分とは別途にサブプロセッサシステム4を設け、
これによりメインプロセッサシステム2を監視し障害情
報を収集するようにしたので、メインプロセッサシステ
ム2が何らかの障害によりシステム動作を継続できない
場合に、そのメインプロセッサシステム2の動作可能不
可能の状態に拘わらず、その障害発生要因を解析するた
めの障害情報(ハードウエア情報等)を収集することが
できる。
【0073】特に、サブプロセッサシステム4にヘルス
チェック処理33、バストレース部23及び障害情報収
集保存処理36が設けられているので、メインプロセッ
サシステム2のハードウェア全体が動作異常の場合で
も、サブプロセッサシステム4からメインシステムの状
態監視及び障害情報収集が可能である。
【0074】また、メインCPU5が動作していても、
システムとして障害状態になった場合には、プロセッサ
に対して障害が発生していることを通知することがで
き、その時の情報を収集できると共に、メインプロセッ
サシステム2自らに異常処理を実行させることができ
る。
【0075】また、異常処理割込処理36、HWリセッ
ト処理39及びシステム停止処理40により、障害の度
合いに応じて、システムの被害が最も少ない再起動を実
施させることができる。
【0076】さらに、サブプロセッサシステム4から異
常発生の旨を外部に通知するようにしているので、メイ
ンプロセッサシステム2が自らの異常を通知できないよ
うな状況になっても、異常発生の旨を知らせることがで
きる。
【0077】なお、本発明は、上記各実施の形態に限定
されるものでなく、その要旨を逸脱しない範囲で種々に
変形することが可能である。例えば本発明は、プロセッ
サ(CPU、MPU)を使用した情報処理装置一般に適
用できる。
【0078】さらに実施形態では、サブプロセッサシス
テム4からメインプロセッサシステム2への割込信号、
NMI信号、初期化信号等は専用の信号線によりメイン
CPUに入力するようにしたが、本発明はこのような場
合に限られるものでなく、例えばシステムバス3を介し
て、各信号を送信するようにしてもよい。
【0079】また、実施形態に記載した手法は、計算機
(コンピュータ)に実行させることができるプログラム
(ソフトウエア手段)として、例えば磁気ディスク(フ
ロッピーディスク、ハードディスク等)、光ディスク
(CD−ROM、DVD等)、半導体メモリ等の記憶媒
体に格納し、また通信媒体により伝送して頒布すること
もできる。なお、媒体側に格納されるプログラムには、
計算機に実行させるソフトウエア手段(実行プログラム
のみならずテーブルやデータ構造も含む)を計算機内に
構成させる設定プログラムをも含むものである。本装置
を実現する計算機は、記憶媒体に記録されたプログラム
を読み込み、また場合により設定プログラムによりソフ
トウエア手段を構築し、このソフトウエア手段によって
動作が制御されることにより上述した処理を実行する。
【0080】
【発明の効果】以上詳記したように本発明によれば、サ
ブプロセッサシステムによりメインプロセッサシステム
を監視し、障害情報を収集するようにしたので、何らか
の障害によりシステム動作を継続できない場合に、コン
ピュータ本体部分の動作可否に拘わらず、その障害発生
要因を解析するための障害情報を収集できる障害情報収
集機能付きコンピュータを提供することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る障害情報収集機能付
きコンピュータの構成例を示すブロック図。
【図2】サブプロセッサシステムにおけるメモリのデー
タ構成例を示す図。
【図3】メインプロセッサシステムにおけるメモリのデ
ータ構成例を示す図。
【図4】メインプロセッサシステムとサブプロセッサシ
ステムの障害検出及び障害処理の部分のみ上から下へ時
系列で示す図。
【図5】メインプロセッサシステムとサブプロセッサシ
ステムの障害検出及び障害処理の部分のみ上から下へ時
系列で示す他の図。
【図6】メインプロセッサシステムとサブプロセッサシ
ステムの障害検出及び障害処理の部分のみ上から下へ時
系列で示す更に他の図。
【符号の説明】
1…コンピュータ 2…メインプロセッサシステム 3…システムバス 4…サブプロセッサシステム 5…メインCPU 6…メモリ 7…システムバスブリッジ 8…周辺装置インタフェース 11…バス 12…サブCPU 13…メモリ 14…交信インターフェース 15…タイマー 16…ディスクインタフェース 17…通信インタフェース 18…ハードディスク 19…通信装置 19が接続されている。20…割り込み信号 21…NMI信号 22…初期化信号 23…バストレース部 31…障害処理プログラム 32…障害情報記憶部 33…ヘルスチェック処理 34…マスクレベル処理 35…NMI割込処理 36…情報収集保存処理 37…異常処理割込処理 38…異常発生通知処理 39…HWリセット処理 40…システム停止処理 41…障害処理対応プログラム 42…障害情報記憶部 43…ヘルスチェック対応処理 45…NMI割込対応処理 47…障害回復処理 49…初期化通知処理

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 所定の処理を実行する計算機構成部分を
    含み、この計算機構成部分に関する障害情報を収集する
    障害情報収集機能付きコンピュータであって、 前記計算機構成部分とは独立しかつ前記計算機構成部分
    の構成要素にアクセス可能に構成されており、前記計算
    機構成部分に障害が発生した場合には前記構成要素に対
    してアクセスして、その障害情報を収集し保存する第2
    の計算機構成部分を備えたことを特徴とする障害情報収
    集機能付きコンピュータ。
  2. 【請求項2】 前記計算機構成部分は前記構成要素とし
    て少なくともプロセッサ、メモリ及び周辺装置を備える
    ことを特徴とする請求項1記載の障害情報収集機能付き
    コンピュータ。
  3. 【請求項3】 前記第2の計算機構成部分は、 前記計算機構成部分と定期的に交信するとともに、当該
    交信が途絶えたときに前記計算機構成部分に障害が発生
    したと判定する障害発生検出手段を備えたことを特徴と
    する請求項1又は2記載の障害情報収集機能付きコンピ
    ュータ。
  4. 【請求項4】 前記第2の計算機構成部分は、 前記計算機構成部分に対して少なくとも1回の割込信号
    を出力するとともに、前記割込信号の割込レベルと前記
    割込信号に対する応答状況とに基づいて、前記計算機構
    成部分の障害レベルを判定する障害レベル解析手段を備
    えたことを特徴とする請求項1乃至3のうち何れか1項
    記載の障害情報収集機能付きコンピュータ。
  5. 【請求項5】 前記障害レベル解析手段が出力する割込
    信号は、1回のマスク不可能割込信号であることを特徴
    とする請求項4記載の障害情報収集機能付きコンピュー
    タ。
  6. 【請求項6】 前記第2の計算機構成部分は、 前記障害レベル解析手段により検出された障害の度合い
    に応じ、前記計算機構成部分に対して異常処理割込信号
    あるいは初期化信号を出力する障害処理手段を備えたこ
    とを特徴とする請求項1乃至5のうち何れか1項記載の
    障害情報収集機能付きコンピュータ。
  7. 【請求項7】 前記第2の計算機構成部分は、 前記計算機部分に障害が発生した旨を外部に通知する異
    常発生通知手段を備えたことを特徴とする請求項1乃至
    6のうち何れか1項記載の障害情報収集機能付きコンピ
    ュータ。
JP10281411A 1998-10-02 1998-10-02 障害情報収集機能付きコンピュータ Pending JP2000112790A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10281411A JP2000112790A (ja) 1998-10-02 1998-10-02 障害情報収集機能付きコンピュータ

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10281411A JP2000112790A (ja) 1998-10-02 1998-10-02 障害情報収集機能付きコンピュータ

Publications (1)

Publication Number Publication Date
JP2000112790A true JP2000112790A (ja) 2000-04-21

Family

ID=17638792

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10281411A Pending JP2000112790A (ja) 1998-10-02 1998-10-02 障害情報収集機能付きコンピュータ

Country Status (1)

Country Link
JP (1) JP2000112790A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005223678A (ja) * 2004-02-06 2005-08-18 Matsushita Electric Ind Co Ltd 表示装置
WO2007077604A1 (ja) * 2005-12-28 2007-07-12 Fujitsu Limited 情報処理装置及びハングアップ監視方法
JP2011145824A (ja) * 2010-01-13 2011-07-28 Nec Computertechno Ltd 情報処理装置、障害解析方法及び障害解析プログラム
JP2011258032A (ja) * 2010-06-10 2011-12-22 Contec Co Ltd 情報処理装置
JP2012038257A (ja) * 2010-08-11 2012-02-23 Nec Corp Os動作状態確認システム、確認対象装置、os動作状態確認装置、os動作状態確認方法およびプログラム
JP2014164472A (ja) * 2013-02-25 2014-09-08 Nec Corp 情報処理システム、及び情報処理装置の障害処理方法
JP2021077068A (ja) * 2019-11-08 2021-05-20 Necプラットフォームズ株式会社 情報処理装置及び情報処理方法
JP2021093047A (ja) * 2019-12-12 2021-06-17 三菱電機株式会社 演算装置および演算装置の監視方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005223678A (ja) * 2004-02-06 2005-08-18 Matsushita Electric Ind Co Ltd 表示装置
WO2007077604A1 (ja) * 2005-12-28 2007-07-12 Fujitsu Limited 情報処理装置及びハングアップ監視方法
JP2011145824A (ja) * 2010-01-13 2011-07-28 Nec Computertechno Ltd 情報処理装置、障害解析方法及び障害解析プログラム
JP2011258032A (ja) * 2010-06-10 2011-12-22 Contec Co Ltd 情報処理装置
JP2012038257A (ja) * 2010-08-11 2012-02-23 Nec Corp Os動作状態確認システム、確認対象装置、os動作状態確認装置、os動作状態確認方法およびプログラム
JP2014164472A (ja) * 2013-02-25 2014-09-08 Nec Corp 情報処理システム、及び情報処理装置の障害処理方法
JP2021077068A (ja) * 2019-11-08 2021-05-20 Necプラットフォームズ株式会社 情報処理装置及び情報処理方法
JP2021093047A (ja) * 2019-12-12 2021-06-17 三菱電機株式会社 演算装置および演算装置の監視方法
JP7278205B2 (ja) 2019-12-12 2023-05-19 三菱電機株式会社 演算装置および演算装置の監視方法

Similar Documents

Publication Publication Date Title
US7447934B2 (en) System and method for using hot plug configuration for PCI error recovery
US6742139B1 (en) Service processor reset/reload
JP3737695B2 (ja) 透過的時間ベースの選択的ソフトウェア若返りのためのシステム及び方法
US8713350B2 (en) Handling errors in a data processing system
US7756048B2 (en) Method and apparatus for customizable surveillance of network interfaces
EP1351145A1 (en) Computer failure recovery and notification system
JP2007109238A (ja) 回復可能なエラーのロギングのためのシステム及び方法
US7318171B2 (en) Policy-based response to system errors occurring during OS runtime
JP2000112790A (ja) 障害情報収集機能付きコンピュータ
JP4992740B2 (ja) マルチプロセッサシステム、障害検出方法および障害検出プログラム
US7684654B2 (en) System and method for fault detection and recovery in a medical imaging system
JP2017078998A (ja) 情報処理装置およびログ管理方法、並びにコンピュータ・プログラム
CN109062718B (zh) 一种服务器及数据处理方法
JP2011076344A (ja) 情報処理装置,情報処理装置の制御方法および制御プログラム
JP4487756B2 (ja) コンピュータシステム及びシステム監視プログラム
JP2003256240A (ja) 情報処理装置及びその障害回復方法
JPH11288406A (ja) 動作監視機能付きマルチプロセッサシステム
US11422877B2 (en) Information processing apparatus, method, and non-transitory computer-readable storage medium for storing control program of information processing apparatus
JPWO2014112039A1 (ja) 情報処理装置、情報処理装置制御方法及び情報処理装置制御プログラム
JP2844361B2 (ja) 異常回復処理方式
JP7001236B2 (ja) 情報処理装置、障害監視方法及び障害監視用コンピュータプログラム
JP2716537B2 (ja) 複合システムにおけるダウン監視処理方式
JPH05265812A (ja) マイクロ診断装置付情報処理装置
CN118132386A (zh) 系统崩溃信息保存方法、装置和计算机系统
JPH06214831A (ja) 中央処理装置の異常検出装置