JP2002251300A - 障害監視方法及び装置 - Google Patents

障害監視方法及び装置

Info

Publication number
JP2002251300A
JP2002251300A JP2001045950A JP2001045950A JP2002251300A JP 2002251300 A JP2002251300 A JP 2002251300A JP 2001045950 A JP2001045950 A JP 2001045950A JP 2001045950 A JP2001045950 A JP 2001045950A JP 2002251300 A JP2002251300 A JP 2002251300A
Authority
JP
Japan
Prior art keywords
timer
fault
failure
reset
fault monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001045950A
Other languages
English (en)
Inventor
Satoshi Oshima
訓 大島
Toshiaki Arai
利明 新井
Masahide Sato
雅英 佐藤
Hiroki Ukai
宏樹 鵜飼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2001045950A priority Critical patent/JP2002251300A/ja
Priority to US09/978,183 priority patent/US20020116670A1/en
Publication of JP2002251300A publication Critical patent/JP2002251300A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 【課題】 WDTタイムアウト後、システムに割り込みを
かけるだけのWDTでは、割り込みだけでは障害から復帰
できない深刻な状態に陥った場合、システムが停止す
る。 【解決手段】 複数段階のWDTを連動させる手順と連動
したWDTが段階的に強力にシステムに介入する手順と、
割り込みによって回復できる軽度の障害には割り込みに
よって、マスク不可能割り込み以外では回復できない中
程度の障害にはマスク不可能割り込みによって、そし
て、再起動以外に回復できないような重度の障害に対し
ては、システムリセットによって障害に対応する。ま
た、設定によって有効、無効を決定できる複数のポート
をもつWDTリセットポートにより、複数の処理装置が並
列に動作する計算機の障害も監視する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はシステムの障害監視
に関し、特に拡張機器からの割り込みによる計算機シス
テムの障害監視に関する。
【0002】
【従来の技術】システムの障害監視方法として、ウォッ
チドッグタイマ(以下WDT)と呼ばれる方法がある。WDTと
は、タイマによって経過時間を計測し一定時間経過する
とシステムを再起動する仕組みであり、システムは正常
に機能している間、このタイマを定期的にリセットする
ことにより、システム再起動が実行されるのを妨げる。
システムが暴走状態に陥り、WDTをリセットすることが
出来なかった場合、タイマはタイムアップし、システム
全体を再起動する。この仕組みにより、システムは動作
を継続することができる。またWDTの関連技術として、
タイマタイムアウト後、フラグをセットするものや通常
の割り込み、マスク不可能割り込み(NMI)を生成するも
のもある。
【0003】
【発明が解決しようとする課題】システム管理者は、シ
ステムに障害が発生した場合、可能な限りサービスを停
止せずに回復させたいと考えている。また、障害停止に
よる再起動が避けられないとしても、可能な限り障害時
の情報を収集することで、障害の再発を防止したいと考
えている。
【0004】しかし、単純なWDTはシステムが暴走した
際に、システムを再起動するだけである。障害の種類に
よっては、例えばシステムに割り込みを発生させて、障
害から復帰したり障害時の情報を収集することによっ
て、障害の再発防止に役立てることができる。また、WD
Tタイムアウト後、システムに割り込みをかけるだけのW
DTでは、割り込みによっては、障害から復帰できないよ
うな深刻な状態に陥ってしまった場合、システムが停止
してしまうといった問題がある。
【0005】さらに、従来のWDTはタイマをリセットす
る方法として、タイマリセットポートにリセット用デー
タをセットするかまたは、WDTリセット命令を出力する
といった方法を提供してきた。しかし、システム内に複
数の処理装置が存在するようなケースで、その中の一つ
の処理装置に発生した障害だけでも検出したいという場
合、従来の方法ではそれを実現することができなかっ
た。
【0006】また、障害回復の手法には割り込み、NM
I、システムリセットがあるが、これらにはそれぞれ以
下のような長所と欠点がある。
【0007】すなわち、割り込みによる障害回復は、ク
リティカルリージョンを壊してしまいシステムの継続が
困難であり、さらに、不揮発性記憶装置に記録されてい
ないシステムの状態をリセットしてシステムを再起動し
なくても障害から回復できるが、割り込み禁止状態、あ
るいは、割り込みを受け取れてもシステムが動作できな
い状態にあった場合、障害回復に対応することが出来な
い。
【0008】NMIによる障害回復は、割り込み禁止状態
に陥った場合に対応できず、さらに、不揮発性記憶装置
に記録されていないシステムの状態をリセットしてシス
テムを再起動しなくても障害から回復できるが、クリテ
ィカルリージョンを侵している可能性を否定できないの
で、システム安定のため一旦システム再起動を入れる必
要が発生するという問題がある。
【0009】システムリセットによる障害回復は、これ
により対応できないシステム状態は無いが、不揮発性記
憶装置に記憶されていない情報を全てリセットしてしま
うため、管理者には障害時のシステム状態がわからず、
障害再発防止の措置をとるための情報に乏しいという問
題がある。
【0010】
【課題を解決するための手段】本発明のWDTは複数段階
のWDTが、段階を経るごとにシステムに対しより強力に
介入する割り込みを出力する。即ち、本発明では、障害
の程度に応じて割り込みの種類(程度)を変え、その割
り込みに応じて障害回復処理を行なえるようにする。
【0011】例えばタイマの第1段階がタイムアウトし
た場合、システムに割り込みを入れると共に第2段階の
WDTを起動する。第1段階の割り込みによってシステム
が障害から抜け出すことができた場合、システムはWDT
をリセットするかまたは停止するといった処置をとるも
のとする。第1段階の割り込みで障害から抜け出すこと
ができなかった場合は、第2段階のWDTがタイムアウト
して割り込み、またはマスク不可能割り込み(以下NMI)
等を出力する。この割り込みによって障害から抜け出す
ことができなかった場合、更に第3段階のWDTが起動さ
れる。第3段階のWDTがタイムアウトした場合、システ
ムリセットを入れることによって、システムを再起動す
る。
【0012】また、WDTをリセットする手段として、複
数のポートを持ったWDTリセットポートを用意する。こ
のような仕組みを提供することで、マルチプロセッサシ
ステムのような複数の処理装置が並列に処理をしている
システムにおいて、処理装置のうちひとつが停止してし
まったような障害を検出できる。
【0013】
【発明の実施の形態】次に、本発明について図面を用い
て詳細に説明する。
【0014】図1は、本発明の一実施例に係る障害監視
装置の動作を示すフローチャートと障害監視装置を制御
するレジスタの構成を示すブロック図を併せたものであ
る。図2は、図1の不揮発性メモリ124の内部を示した
ものである。ステップ101から117は、3段階のウォッチ
ドッグタイマWDTの動作を示している。
【0015】本障害監視装置では、ステップ101から起
動されると、まずWDT1を起動(ステップ102)する。次にW
DT1がリセットされたかを検査(ステップ103)する。WDT
のリセット方法の詳細については後述する。もしWDT1が
リセットされていればステップ102に戻りWDT1を再起動
する。ここでWDT1がリセットされていなければ、WDT1の
カウントを進め(ステップ104)、WDT1がタイムアウトし
たか否かを判定(ステップ105)する。この判定にはWDT1
のタイムアウト時間121を設定値として用いる。WDT1が
タイムアウトしていなければ、WDT1リセット判定103ま
で戻る。WDT1がタイムアウトしていれば、システムに割
り込み信号を出力し、同時に不揮発性メモリ124内のWDT
1タイムアウト201に、割り込み信号を出力したことを示
す情報を出力し、WDT2を起動(ステップ107)する。
【0016】WDT2もWDT1と同様にWDT2のリセット判定
(ステップ108)を行い、WDT2のカウントダウン(ステップ
109)をし、WDT2タイムアウト時間122を用いてWDT2のタ
イムアウト判定(110)をする。WDT2がリセットされた場
合、フローはWDT1起動(ステップ102)まで戻る。WDT2が
タイムアウトした場合、マスク不可割込みNMI信号を出
力し、NMI信号を出力したことを示す情報を不揮発性メ
モリ124のWDT2タイムアウト202に出力する(ステップ1
11)。そしてWDT3を起動する(ステップ112)。
【0017】WDT3もWDT1,2と同様に動作をする。WDT3が
タイムアウトした場合、リセット信号を出力したことを
示す情報を不揮発性メモリ124のWDT3タイムアウト203に
出力して、システムリセット信号を出力する。これによ
りシステム全体が再起動される。
【0018】次にWDT1,2,3のリセット方法を述べる。WD
Tのリセットポート118は図のように8つのポートによっ
て構成される。リセットポートの各ポートには、監視対
象者(後述するOSなど)によってステータスなどの情
報が定期的に書き込まれる。各ポートはそれぞれ状態レ
ジスタ119に対応するビットを持ち、各ポートにデータ
がセットされると状態レジスタ119の対応するビットが
セットされる仕組みとなっている。障害監視装置は状態
レジスタ119と予め設定された設定レジスタ120との比較
を行い、値が一致した場合、状態レジスタ119をクリア
してWDTをリセットする。これはWDT1,2,3ともに同様の
仕組みである。
【0019】また、ユーザ領域204は計算機システム上
の上位ソフトウェアが使用するために解放された領域で
ある。
【0020】図3は、図1に示した障害監視装置305を
搭載し、特開平11−149385にあるようなマルチ
OS構成方法を用いて一つの処理装置を持つ一台の計算機
上303で2つのオペレーティングシステムを動作させた
ものである。ここで第1OS301は通常の業務が行われるO
Sであり、このOS上では業務用のアプリケーションプロ
グラムが動作している。これに対し第2OS304は第1OS3
01の生死をマルチ構成部302を通して監視している。も
し、第1OS301が障害状態に陥ってしまったことを第2O
S304が検出した場合、マルチOS構成部302の機能によっ
て第1OSの状態を取得したり第1OSだけを再起動するこ
とによって、障害を回復することができる。さらに第2
OS304は障害監視装置305を制御するデバイスドライバを
持っており、起動時には障害監視装置305のWDTタイムア
ウト時間121,122,123を設定する。さらに設定レジスタ1
20にはリセットポート118のRST0に対応するビットだけ
をセットする。そして、第2OSはWDT1タイムアウト時間
の範囲内で、定期的に障害監視装置305に対し、リセッ
トポート118のRST0に情報を出力するという形で、自分
が生存していることを示す生存信号を発信する。もし、
第1OSや第2OSの障害によって第2OSが停止してしまっ
た場合、生存信号の出力すなわちリセットポート118のR
ST0への信号出力も途絶え、それによってWDT1さらにはW
DT2がタイムアウトし、マルチOS構成部302を通して第2
OS304に割り込みやNMIが出力される。
【0021】通常、割り込みまたはNMIによって第2OS3
04は障害状態から復帰することができる。第2OS304の
障害監視装置デバイスドライバは、WDTを停止させ障害
情報の収集を開始する。まず、第2OSは障害監視装置30
5の図2に示す不揮発性メモリ124内のWDT1タイムアウト
201またはWDT2タイムアウト202を参照することで、障害
の程度を把握できる。出力されたものが割り込みであっ
た場合、障害原因が第2OS304でなければ第1OS301の障
害情報を第2OS304内に取得した上で、第1OS301だけを
再起動することにより障害回復できる。もし、障害原因
が第2OS304であったり、出力されたものが割り込みで
なくNMI信号であった場合、第1OS301や第2OS304また
はマルチOS構成部302のクリティカルリージョンが侵さ
れている可能性が考えられるので、第2OS304は第1OS3
01から障害情報を収集し、不揮発性メモリ124内のユー
ザ領域204にその情報を記録したのち、システムリセッ
トを発行しシステムを再立ち上げする。システム管理者
は、再起動の後、このユーザ領域204に残った障害情報
を取得することによって障害の再発防止対策を講じる手
がかりとすることができる。
【0022】もし障害監視装置305が発生させた割り込
みやNMIでも第2OS304が障害から復帰できないような障
害に陥ってしまった場合でも、システムはWDT3タイムア
ウト後のリセットにより再起動することで、障害停止だ
けは避けることができる。
【0023】図4は、図1に示した障害監視装置305を
8つの処理装置401(以下CPU)と割り込み制御装置402を
もつ計算機に搭載した例である。この計算機において
は、割り込み制御装置が割り込みをどのプロセッサに伝
達するか、あるいはマスク可能割り込みとして伝達する
かどうかを決定することができる。計算機上のOSは障害
監視装置用デバイスドライバを持っており、このデバイ
スドライバが障害監視装置305内の設定レジスタ120の全
てのビットをセットすることで、リセットポート118の
全てのポートを有効にする。CPU0はRST0、CPU1はRST1と
いうように、各CPUはそれぞれ障害監視装置内の対応す
るリセットポートRST0〜RST7に情報を出力することで、
正常動作していることを障害監視装置に通知する。
【0024】もし、処理装置CPU0からCPU7のうちどれか
ひとつにでも障害が発生した場合、すべてのリセットポ
ートRST0〜RST7が書き換えられないため、状態レジスタ
119と設定レジスタ120が一致しないので、WDTがリセッ
トされず、従ってWDTがタイムアウトする。
【0025】WDTがタイムアウトすると障害監視装置305
は、割り込み制御装置402を通して、各処理装置CPU0〜C
PU7に割り込みを入れるが、割り込みを入れる処理装置
や割り込みがマスク可能か不可能かといった設定は、割
り込み制御装置402によって選択することが可能であ
る。
【0026】
【発明の効果】以上に述べたように、本発明の障害回復
方法は、複数段階のWDTを連動させる手順と連動したWDT
が、段階的に強力にシステムに介入する手順と、割り込
みによって回復できる障害には割り込みによって、マス
ク不可能割り込みによってしか回復できない障害にはマ
スク不可能割り込みにはマスク不可能割り込みによっ
て、そして、システムリセットでしか回復できないよう
な障害に対しては、システムリセットによって、障害に
対応することができる。また、設定によって有効、無効
を決定できる複数のポートをもつWDTリセットポートを
用意することで、複数の処理装置が並列に動作するよう
な計算機の障害をも監視できる。
【図面の簡単な説明】
【図1】本発明の一実施例である障害監視装置の動作を
示すフローチャートと障害監視装置を制御するためのポ
ートの構成を示すブロック図である。
【図2】図1中の不揮発性メモリの内部構成を示すブロ
ック図である。
【図3】本発明の一実施例に係る計算機上のOSと障害
監視装置の関係を示すブロック図である。
【図4】本発明の一実施例に係る複数の処理装置を搭載
した計算機と障害監視装置の関係を示すブロック図であ
る。
【符号の説明】
118 リセットポート 119 状態レジスタ 120 設定レジスタ 121 ウォッチドッグタイマ1タイムアウト時間 122 ウォッチドッグタイマ2タイムアウト時間 123 ウォッチドッグタイマ3タイムアウト時間 124 不揮発性メモリ 201 ウォッチドッグタイマ1タイムアウト 202 ウォッチドッグタイマ2タイムアウト 203 ウォッチドッグタイマ3タイムアウト 204 ユーザ領域 301 第1OS 302 マルチOS構成部 303 計算機 304 第2OS 305 障害監視装置 401 処理装置 402 割り込み制御装置
フロントページの続き (72)発明者 佐藤 雅英 神奈川県川崎市麻生区王禅寺1099番地 株 式会社日立製作所システム開発研究所内 (72)発明者 鵜飼 宏樹 愛知県尾張旭市晴丘町池上1番地 株式会 社日立製作所情報機器事業部内 Fターム(参考) 5B042 JJ21 JJ26 KK01 KK20

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】タイマを用いてシステムの障害を監視する
    方法であって、 1)タイマを起動して前記タイマのリセットを判定し、 2)前記タイマがリセットされていなければ、前記タイ
    マのカウントダウンを実行し、 3)所定の時間にタイムアウトしているかを判定し、 4)タイムアウトであれば、障害回復のための信号を発
    生し、 5)障害から抜け出せなかった場合は、次のタイマに対
    して前記1)から4)のステップを繰り返し実行するこ
    とを特徴とする障害監視方法。
  2. 【請求項2】請求項1の障害監視方法であって、前記ス
    テップ4)で発生する信号に応じて、フラグを立てる手
    順、割り込み信号を出力する手順、マスク不可能割り込
    みを出力する手順、及びシステムリセットを出力する手
    順を順次実行することによって、前記ステップ5)の段
    階を経るごとに障害の程度に応じて障害回復を行なうこ
    とを特徴とする障害監視方法。
  3. 【請求項3】請求項1の障害監視方法であって、前記タ
    イマをリセットする条件を複数個設定し、前記ステップ
    5)の段階を経るごとに実施すべきタイマリセットと前
    記条件とを対応付けることを特徴とする障害監視方法。
  4. 【請求項4】請求項1及び請求項2記載の障害監視方法
    であって、前記ステップ4)において、前記発生した信
    号に応じて実行された手順を記録することを特徴とする
    障害監視方法。
  5. 【請求項5】タイマを用いてシステムの障害を監視する
    装置は、 1)タイマを起動して前記タイマのリセットを判定する
    手段、 2)前記タイマがリセットされていなければ、前記タイ
    マのカウントダウンを実行する手段、 3)所定の時間にタイムアウトしているかを判定する手
    段、 4)タイムアウトであれば、障害回復のための信号を発
    生する手段、 5)障害から抜け出せなかった場合は、次のタイマに対
    して前記1)から4)のステップを繰り返し実行する手
    段を有することを特徴とする障害監視装置。
  6. 【請求項6】請求項5の障害監視装置であって、前記信
    号を発生する手段からの信号に応じて、フラグを立てる
    手順、割り込み信号を出力する手順、マスク不可能割り
    込みを出力する手順、及びシステムリセットを出力する
    手順を順次実行することによって、前記繰り返し実行す
    る手段による段階を経るごとに障害の程度に応じて障害
    回復を行なうことを特徴とする障害監視装置。
  7. 【請求項7】請求項5の障害監視装置であって、前記タ
    イマをリセットする条件を複数個設定し、前記繰り返し
    実行する手段による段階を経るごとに実施すべきタイマ
    リセットと前記条件とを対応付けることを特徴とする障
    害監視装置。
  8. 【請求項8】請求項5及び請求項6記載の障害監視装置
    であって、前記信号の発生手段は、前記発生した信号に
    応じて実行された手順を記録する手段を有することを特
    徴とする障害監視装置。
  9. 【請求項9】タイマを用いてシステムの障害を監視する
    方法であって、 1)起動したタイマのリセットされていなければ、前記
    タイマのカウントダウンを実行し、 2)所定の時間にタイムアウトしていれば、障害回復の
    ための手順を実行し、 3)障害から抜け出せなかった場合は、次のタイマに対
    して前記1)及び2)のステップを繰り返し実行して、
    段階を経るごとに障害の程度に応じて障害回復を行なう
    ことを特徴とする障害監視方法。
JP2001045950A 2001-02-22 2001-02-22 障害監視方法及び装置 Withdrawn JP2002251300A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001045950A JP2002251300A (ja) 2001-02-22 2001-02-22 障害監視方法及び装置
US09/978,183 US20020116670A1 (en) 2001-02-22 2001-10-17 Failure supervising method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001045950A JP2002251300A (ja) 2001-02-22 2001-02-22 障害監視方法及び装置

Publications (1)

Publication Number Publication Date
JP2002251300A true JP2002251300A (ja) 2002-09-06

Family

ID=18907655

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001045950A Withdrawn JP2002251300A (ja) 2001-02-22 2001-02-22 障害監視方法及び装置

Country Status (2)

Country Link
US (1) US20020116670A1 (ja)
JP (1) JP2002251300A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005228323A (ja) * 2004-02-12 2005-08-25 Internatl Business Mach Corp <Ibm> テクノロジの利用に関する追跡ならびに請求書作成の方法およびシステム
WO2009147782A1 (ja) * 2008-06-06 2009-12-10 パナソニック株式会社 再生装置、集積回路及び再生方法
US7975188B2 (en) 2007-03-13 2011-07-05 Nec Corporation Restoration device for BIOS stall failures and method and computer program product for the same
JP2012523024A (ja) * 2009-09-01 2012-09-27 株式会社日立製作所 マルチコアプロセッサを有する要求処理システム
JP2013140473A (ja) * 2012-01-04 2013-07-18 Nec Corp 障害監視システム及び障害監視方法
JP2015228077A (ja) * 2014-05-30 2015-12-17 株式会社日立情報通信エンジニアリング マイクロプロセッサ自動復帰システム
WO2019012996A1 (ja) * 2017-07-13 2019-01-17 日立オートモティブシステムズ株式会社 車両制御装置
JP2020154705A (ja) * 2019-03-20 2020-09-24 Necプラットフォームズ株式会社 情報処理装置、障害監視方法及び障害監視用コンピュータプログラム
WO2022168291A1 (ja) * 2021-02-08 2022-08-11 サンケン電気株式会社 ウォッチドッグタイマ装置

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001101033A (ja) * 1999-09-27 2001-04-13 Hitachi Ltd オペレーティングシステム及びアプリケーションプログラムの障害監視方法
US20040003317A1 (en) * 2002-06-27 2004-01-01 Atul Kwatra Method and apparatus for implementing fault detection and correction in a computer system that requires high reliability and system manageability
DE10235564A1 (de) * 2002-08-03 2004-02-12 Robert Bosch Gmbh Verfahren zum Überwachen eines Mikroprozessors und Schaltungsanordnung mit einem Mikroprozessor
US7275180B2 (en) * 2003-04-17 2007-09-25 International Business Machines Corporation Transparent replacement of a failing processor
GB0404696D0 (en) * 2004-03-02 2004-04-07 Level 5 Networks Ltd Dual driver interface
US7644309B2 (en) * 2005-05-20 2010-01-05 Nokia Corporation Recovering a hardware module from a malfunction
CN110287055B (zh) * 2019-06-28 2021-06-15 联想(北京)有限公司 一种电子设备的数据恢复方法及电子设备
WO2021108797A1 (en) * 2019-11-26 2021-06-03 Microchip Technology Incorporated Timer circuit with autonomous floating of pins and related systems, methods, and devices
DE102020116959A1 (de) * 2020-06-26 2021-12-30 Infineon Technologies Ag Watchdog-schaltung, schaltung, system-auf-chip, verfahren zum betrieb einer watchdog-schaltung, verfahren zum betrieb einer schaltung und verfahren zum betrieb eines systems-auf-chip
EP4123455B1 (en) * 2021-07-23 2024-03-06 Nxp B.V. Fault recovery system for functional circuits

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06149604A (ja) * 1992-11-11 1994-05-31 Nissan Motor Co Ltd 多重化システム
US5513319A (en) * 1993-07-02 1996-04-30 Dell Usa, L.P. Watchdog timer for computer system reset
US5541943A (en) * 1994-12-02 1996-07-30 At&T Corp. Watchdog timer lock-up prevention circuit
US5655083A (en) * 1995-06-07 1997-08-05 Emc Corporation Programmable rset system and method for computer network
JPH1063544A (ja) * 1996-08-20 1998-03-06 Toshiba Corp タイムアウト監視方式
US6012154A (en) * 1997-09-18 2000-01-04 Intel Corporation Method and apparatus for detecting and recovering from computer system malfunction
US6438709B2 (en) * 1997-09-18 2002-08-20 Intel Corporation Method for recovering from computer system lockup condition
US6260162B1 (en) * 1998-10-31 2001-07-10 Advanced Micro Devices, Inc. Test mode programmable reset for a watchdog timer
US6393590B1 (en) * 1998-12-22 2002-05-21 Nortel Networks Limited Method and apparatus for ensuring proper functionality of a shared memory, multiprocessor system
US6697973B1 (en) * 1999-12-08 2004-02-24 International Business Machines Corporation High availability processor based systems

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005228323A (ja) * 2004-02-12 2005-08-25 Internatl Business Mach Corp <Ibm> テクノロジの利用に関する追跡ならびに請求書作成の方法およびシステム
US7975188B2 (en) 2007-03-13 2011-07-05 Nec Corporation Restoration device for BIOS stall failures and method and computer program product for the same
WO2009147782A1 (ja) * 2008-06-06 2009-12-10 パナソニック株式会社 再生装置、集積回路及び再生方法
JP2009295248A (ja) * 2008-06-06 2009-12-17 Panasonic Corp 再生装置、集積回路及び再生方法
JP2012523024A (ja) * 2009-09-01 2012-09-27 株式会社日立製作所 マルチコアプロセッサを有する要求処理システム
JP2013140473A (ja) * 2012-01-04 2013-07-18 Nec Corp 障害監視システム及び障害監視方法
JP2015228077A (ja) * 2014-05-30 2015-12-17 株式会社日立情報通信エンジニアリング マイクロプロセッサ自動復帰システム
WO2019012996A1 (ja) * 2017-07-13 2019-01-17 日立オートモティブシステムズ株式会社 車両制御装置
DE112018002612T5 (de) 2017-07-13 2020-05-07 Hitachi Automotive Systems, Ltd. Fahrzeugsteuervorrichtung
US11467865B2 (en) 2017-07-13 2022-10-11 Hitachi Astemo, Ltd. Vehicle control device
JP2020154705A (ja) * 2019-03-20 2020-09-24 Necプラットフォームズ株式会社 情報処理装置、障害監視方法及び障害監視用コンピュータプログラム
JP7001236B2 (ja) 2019-03-20 2022-01-19 Necプラットフォームズ株式会社 情報処理装置、障害監視方法及び障害監視用コンピュータプログラム
WO2022168291A1 (ja) * 2021-02-08 2022-08-11 サンケン電気株式会社 ウォッチドッグタイマ装置
US12093118B2 (en) 2021-02-08 2024-09-17 Sanken Electric Co., Ltd. Watchdog timer device

Also Published As

Publication number Publication date
US20020116670A1 (en) 2002-08-22

Similar Documents

Publication Publication Date Title
JP2002251300A (ja) 障害監視方法及び装置
JP5120664B2 (ja) サーバシステム及びクラッシュダンプ採取方法
US20040034816A1 (en) Computer failure recovery and notification system
US7672247B2 (en) Evaluating data processing system health using an I/O device
CN112970002A (zh) 用于可配置错误处理的系统
JP2004086451A (ja) 半導体集積回路
JPH10214208A (ja) ソフトウェアの異常監視方式
JPS6129239A (ja) プロセツサ異常再開方式
JP2004302731A (ja) 情報処理装置および障害診断方法
JP2003256240A (ja) 情報処理装置及びその障害回復方法
WO2014112039A1 (ja) 情報処理装置、情報処理装置制御方法及び情報処理装置制御プログラム
KR101300806B1 (ko) 다중 프로세스 시스템에서 오동작 처리 장치 및 방법
JP2000112790A (ja) 障害情報収集機能付きコンピュータ
KR100687616B1 (ko) 프로세서의 장애 감지 복구 장치 및 그 방법
JPH1153225A (ja) 障害処理装置
JP2001331330A (ja) プロセス異常検知及び復旧システム
JP6256087B2 (ja) ダンプシステムおよびダンプ処理方法
JP2785992B2 (ja) サーバプログラムの管理処理方式
JP7001236B2 (ja) 情報処理装置、障害監視方法及び障害監視用コンピュータプログラム
JP2695775B2 (ja) コンピュータシステムの誤動作からの復帰方法
JP2004070458A (ja) 自己診断機能を持つプログラムと、プログラム監視装置及びその方法と、プログラム監視機能を持つプログラム
JP2010102441A (ja) 情報処理装置、情報処理プログラム
CN108415788B (zh) 用于对无响应处理电路作出响应的数据处理设备和方法
JP2002318643A (ja) 情報処理装置
JPH041831A (ja) プログラム暴走監視方式

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040902

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20050616