JP2008015893A - 障害自動復旧装置および障害自動復旧方法 - Google Patents

障害自動復旧装置および障害自動復旧方法 Download PDF

Info

Publication number
JP2008015893A
JP2008015893A JP2006188037A JP2006188037A JP2008015893A JP 2008015893 A JP2008015893 A JP 2008015893A JP 2006188037 A JP2006188037 A JP 2006188037A JP 2006188037 A JP2006188037 A JP 2006188037A JP 2008015893 A JP2008015893 A JP 2008015893A
Authority
JP
Japan
Prior art keywords
failure
microprocessor
fault
terminal device
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006188037A
Other languages
English (en)
Inventor
Yuuki Chiyazono
佑毅 茶薗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Original Assignee
Fuji Electric Holdings Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Holdings Ltd filed Critical Fuji Electric Holdings Ltd
Priority to JP2006188037A priority Critical patent/JP2008015893A/ja
Publication of JP2008015893A publication Critical patent/JP2008015893A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】ハードウェア面での負荷の増大を抑制しつつ、端末機器で発生した障害の復旧処理の迅速化を図る。
【解決手段】マイクロプロセッサ6は、アプリケーションの実行中に端末機器1a〜1cの障害の発生を常に監視し、アプリケーションプログラム11によって復旧処理が実行されているときに、ウォッチドッグタイマオーバが発生すると、ウォッチドッグタイマ4aはマイクロプロセッサ6をリセットし、端末機器1a〜1cに発生した障害の障害レベルに基づいて、端末機器1a〜1cの障害の復旧処理を実行する。
【選択図】 図1

Description

本発明は障害自動復旧装置および障害自動復旧方法に関し、特に、ガス、水道などのメータ、センサやスイッチ等の接点機器、自然災害の通報機器などの24時間動作する端末機器が接続され、これらの端末機器を集中監視する集中監視システムにおいて、これらの端末機器に発生した障害の自動復旧方法に適用して好適なものである。
従来の集中監視システムでは、そこで監視される端末機器に障害が発生すると、システムエンジニアによる手作業にて端末機器の障害復旧が行われていた。すなわち、端末機器に障害が発生すると、システムエンジニアは、障害コードやアプリケーションプログラムにて出力されたログ情報を参照することにより、障害の発生箇所と原因を調査する。そして、障害の発生箇所と原因が判ると、システムエンジニアが、その障害の発生箇所と原因に応じた復旧作業を決定し実施する。
また、従来の集中監視システムでは、ウォッチドッグタイマを用いることにより、端末機器自体に障害を監視させることも行なわれている。すなわち、ウォッチドッグタイマを用いる方法では、タイマによって経過時間を計測し、一定時間が経過すると、マイクロプロセッサが定期的にそのタイマの設定値を更新する。この結果、タイマはタイムアウトになることはなく、タイマからは何も信号が出力されることはない。
ここで、端末機器に障害が発生し、マイクロプロセッサが正常動作不能となれば、タイマの設定値が更新不能となり、一定時間経過後にタイマがタイムアウトするようになる。そして、タイマがタイムアウトすると、ウォッチドッグタイマはタイムアウトしたことを知らせる信号を出力し、この信号を端末機器の初期化信号、例えばリセット信号として用いることにより、端末機器を初期状態に復帰させることができる。
また、例えば、特許文献1には、ウォッチドッグタイマによるリセットがかかると、ソフトウェア履歴記録部を参照してリセット直前のソフトウェアブロックを実行し、再度リセットがかかったときは、そのソフトウェアブロックを実行禁止状態とし、エラー履歴記録部に記録するとともに、リセットがかからなかったときは、エラー履歴記録部には外乱によるエラー発生と記録する方法が開示されている。
また、例えば、特許文献2には、割り込みによって回復できる軽度の障害には割り込みによって、マスク不可能割り込み以外では回復できない中程度の障害にはマスク不可能割り込みによって、再起動以外には回復できないような重度の障害にはシステムリセットによって障害に対応する方法が開示されている。
また、例えば、特許文献3には、通信装置のマイコンが何らかの障害によって動作不能に陥ったとき、ウォッチドッグタイマからリセット信号がマイコンに出力され、マイコンは再起動して限定動作モードを実行し、障害部位を判別する。そして、マイコンからの指令によってウォッチドッグタイマから再びリセット信号が出力され、マイコンは再起動して通常動作モードを実行し、正常部位を使用してセンター装置と通信可能か確認して、障害情報を通知する方法が開示されている。
特開平6−35737号公報 特開2002−251300号公報 特開2005−151032号公報
しかしながら、システムエンジニアが端末機器の障害復旧を行う方法では、障害の発生箇所と原因を調査するために、端末機器に精通したシステムエンジニアを待機させる必要があり、運用コストが高くなるとともに、端末機器に発生する障害の種類は膨大な数にのぼるので、端末機器に精通したシステムエンジニアであっても、障害の種類から復旧方法を迅速に判断するのは困難となり、障害復旧に時間がかかることから、システムの稼働率が低下するという問題があった。
また、ウォッチドッグタイマを用いて端末機器の障害復旧を行う方法では、端末機器に障害が発生した時に、障害の発生の原因かかわらず端末機器を再起動するだけであり、再度同様な障害が発生する危険性が高いという問題があった。
また、特許文献1に開示された方法では、ソフトウェアによるエラーか外乱によるエラーかの判別を通常の動作モードで行えるようにするためにはプログラムが煩雑になり、多くのメモリ領域が必要になるとともに、ハードウェア的な故障が障害の要因であった場合には、プログラムの動作箇所に限定されることなく、再び障害が発生する恐れがあり、障害の発生の原因が特定できなくなるという問題があった。
また、特許文献2に開示された方法では、複数のウォッチドッグタイマを用意する必要があり、ハードウェア面での負荷が大きくなるとともに、障害の程度が大きい場合には、何回も自動復帰のためのステップを繰り返す必要があり、復帰に時間がかかるという問題があった。
また、特許文献3に開示された方法では、障害の発生に起因してウォッチドッグタイマオーバが発生した時に障害要因の検出処理が実施されるため、障害の発生から障害を検出するために復旧対策を実行するまでの間に端末機器が動作できなくなるという問題があった。特に、障害項目が増加するほど、障害要因にかかわらず端末機器の動作不能時間が増大する。
そこで、本発明の目的は、ハードウェア面での負荷の増大を抑制しつつ、端末機器で発生した障害の復旧処理の迅速化を図ることが可能な障害自動復旧装置および障害自動復旧方法を提供することである。
上述した課題を解決するために、請求項1記載の障害自動復旧装置によれば、それぞれ所定時間までに動作を完了させる制約を持つ複数のタスクの実行制御をマイクロプロセッサにて実現するタスク制御手段と、前記タスク制御手段にて制御される端末機器の障害の発生を監視する障害監視手段と、タイマオーバした時に前記マイクロプロセッサをリセットするウォッチドッグタイマと、前記マイクロプロセッサが前記ウォッチドッグタイマにてリセットされたときに、前記障害監視手段による監視結果に基づいて前記端末機器の障害の復旧処理を行う障害復旧処理手段とを備えることを特徴とする。
また、請求項2記載の障害自動復旧装置によれば、前記障害監視手段による監視結果に基づいて復旧できない障害が前記端末機器に発生した場合、前記障害についての情報を外部機器に通知する外部通信手段をさらに備えることを特徴とする。
また、請求項3記載の障害自動復旧装置によれば、前記外部通信手段は、前記障害監視手段による監視結果に基づいて復旧できない障害が前記端末機器に発生した場合、前記障
害の復旧処理プログラムを前記外部機器から受信することを特徴とする。
また、請求項4記載の障害自動復旧方法によれば、マイクロプロセッサにてタスクの実行が制御される端末機器の障害の発生を監視するステップと、タイマオーバした時に前記マイクロプロセッサをウォッチドッグタイマにてリセットするステップと、前記マイクロプロセッサが前記ウォッチドッグタイマにてリセットされたときに、前記端末機器の障害の監視結果に基づいて前記端末機器の障害の復旧処理を行うステップとを備えることを特徴とする。
また、請求項5記載の障害自動復旧方法によれば、マイクロプロセッサにてタスクの実行が制御される端末機器の障害の発生を監視するステップと、前記端末機器に発生した障害を一意に識別するための障害コードを保持するステップと、タイマオーバした時に前記マイクロプロセッサをウォッチドッグタイマにてリセットするステップと、前記マイクロプロセッサが前記ウォッチドッグタイマにてリセットされたときに、前記障害コードに対応付けられた障害レベルに応じた障害の復旧処理を行うステップとを備えることを特徴とする。
以上説明したように、本発明によれば、障害コードと障害レベルとを予め対応付けることにより、端末機器の障害が発生し、ウォッチドッグタイマオーバが発生した時に障害レベルに応じた障害の復旧処理を行うことができ、ハードウェア面での負荷の増大を抑制しつつ、端末機器で発生した障害の復旧処理の迅速化を図ることができる。
以下、本発明の実施形態に係る障害自動復旧装置について図面を参照しながら説明する。
図1は、本発明の一実施形態に係る障害自動復旧装置の概略構成を示すブロック図である。
図1において、制御部4には、端末機器1a〜1c、ROM2a、2b、外部通信部3および監視結果格納部5が接続されている。なお、端末機器1a〜1cとしては、例えば、ガス、水道などのメータ、センサやスイッチ等の接点機器、自然災害の通報機器などを挙げることができる。また、ROM2aには、アプリケーションプログラム11が格納され、ROM2bには、軽故障復旧処理プログラム12、中故障復旧処理プログラム13、重故障復旧処理プログラム14、障害判定処理プログラム15および障害レベル対応表16が格納されている。また、監視結果格納部5には、端末機器1a〜1cに発生した障害を一意に識別するための障害コードを格納することができる。また、制御部4には、ウォッチドッグタイマ4aおよびマイクロプロセッサ6が設けられている。そして、マイクロプロセッサ6は、それぞれ所定時間までに動作を完了させる制約を持つ複数のタスクの実行を制御したり、タスクの実行中に常に端末機器1a〜1cの障害の発生を監視したりすることができる。
また、軽故障復旧処理プログラム12には、端末機器1a〜1cに発生した軽故障の復旧処理をマイクロプロセッサ6に実行させるプログラムが記述され、中故障復旧処理プログラム13には、端末機器1a〜1cに発生した中故障の復旧処理をマイクロプロセッサ6に実行させるプログラムが記述され、重故障復旧処理プログラム14には、端末機器1a〜1cに発生した重故障の復旧処理をマイクロプロセッサ6に実行させるプログラムが記述されている。障害判定処理プログラム15には、端末機器1a〜1cに発生した障害の監視結果に基づいて障害レベルの判定をマイクロプロセッサ6に実行させるプログラムが記述されている。障害レベル対応表16には、端末機器1a〜1cに発生した障害の程度を表す障害レベルが障害コードに関連付けられて記述されている。
図2は、本発明の一実施形態に係る障害レベル対応表の構成例を示す図である。
図2において、障害レベル対応表16には、障害コードと障害レベルとの対応関係が記述されている。ここで、端末機器1a〜1cに発生する障害は3つの障害レベル、すなわち、「軽故障」、「中故障」および「重故障」のいずれかに分類され、復旧方法が同じ障害は同じ障害レベルに分類することができる。具体的には、端末機器1a〜1c間の通信にてBBC障害が検知されるなどの障害は「軽故障」に分類し、そのままアプリケーションを実行すれば障害が復旧できる可能性がある通信不能などの障害は「中故障」に分類し、そのような方法では端末機器1a〜1cを復旧できないようなハードウェア故障などの障害は「重故障」に分類することができる。
なお、図2の例では、3つの障害レベルを設定する方法について説明したが、復旧方法が同じ障害は同じ障害レベルに分類するという趣旨を逸脱しない限りにおいて、その他のレベルを採用するようにしてもよい。
図3は、本発明の一実施形態に係る障害自動復旧処理を示すフローチャートである。
図3において、マイクロプロセッサ6は、アプリケーションの実行中に端末機器1a〜1cの障害の発生を常に監視する。そして、アプリケーションの実行中に端末機器1a〜1cに障害が発生すると(ステップS1)、マイクロプロセッサ6は障害判定処理プログラム15を起動し、端末機器1a〜1cの障害を一意に識別するための障害コードを監視結果格納部5に格納する(ステップS2)。
次に、アプリケーションプログラム11によって復旧処理が実行されているときに、ウォッチドッグタイマオーバが発生すると(ステップS3)、ウォッチドッグタイマ4aはマイクロプロセッサ6をリセットする(ステップS4)。そして、マイクロプロセッサ6は、監視結果格納部5に格納されている障害コードをキーとして障害レベル対応表16を検索することにより、端末機器1a〜1cに発生した障害の障害レベルを判定する(ステップS5)。
そして、端末機器1a〜1cに発生した障害の障害レベルが「軽故障」の場合、マイクロプロセッサ6は軽故障復旧処理プログラム12を起動し、軽故障復旧処理を実行する。また、端末機器1a〜1cに発生した障害の障害レベルが「中故障」の場合、マイクロプロセッサ6は中故障復旧処理プログラム13を起動し、中故障復旧処理を実行する。また、端末機器1a〜1cに発生した障害の障害レベルが「重故障」の場合、マイクロプロセッサ6は重故障復旧処理プログラム14を起動し、重故障復旧処理を実行する(ステップS6)。
これにより、端末機器1a〜1cの障害が発生し、ウォッチドッグタイマオーバが発生した時に、障害レベルに応じた障害の復旧処理を行うことができ、ハードウェア面での負荷の増大を抑制しつつ、端末機器1a〜1cで発生した障害の復旧処理の迅速化を図ることができる。
一方、監視結果格納部5に格納されている障害コードに対応した障害レベルが障害レベル対応表16にない場合、その障害コードを外部通信部3を介して外部機器に送信する(ステップS7)。そして、その障害コードに対して外部機器にて対策がとられている場合、マイクロプロセッサ6は、その障害コードに対応した障害復旧処理プログラムを外部通信部3を介して外部機器から受信し、その障害復旧処理プログラムを実行する(ステップS8)。
一方、その障害コードに対して外部機器にて対策がとられていない場合、マイクロプロセッサ6はアプリケーションプログラム11を再起動する。なお、アプリケーションプログラム11の再起動は、自らの処理の再実行を行うロジックを直接組み込んでおくことにより実現してもよいし、アプリケーションの実行を制御する外部プログラム(バッチファイルなど)がアプリケーションプログラム11の再起動を行うことにより実現してもよい。
本発明の一実施形態に係る障害自動復旧装置の概略構成を示すブロック図である。 本発明の一実施形態に係る障害レベル対応表の構成例を示す図である。 本発明の一実施形態に係る障害自動復旧処理を示すフローチャートである。
符号の説明
1a〜1c 端末機器
2a、2b ROM
3 外部通信部
4 制御部
4a ウォッチドッグタイマ
5 監視結果格納部
6 マイクロプロセッサ
11 アプリケーションプログラム
12 軽故障復旧処理プログラム
13 中故障復旧処理プログラム
14 重故障復旧処理プログラム
15 障害判定処理プログラム
16 障害レベル対応表

Claims (5)

  1. それぞれ所定時間までに動作を完了させる制約を持つ複数のタスクの実行制御をマイクロプロセッサにて実現するタスク制御手段と、
    前記タスク制御手段にて制御される端末機器の障害の発生を監視する障害監視手段と、
    タイマオーバした時に前記マイクロプロセッサをリセットするウォッチドッグタイマと、
    前記マイクロプロセッサが前記ウォッチドッグタイマにてリセットされたときに、前記障害監視手段による監視結果に基づいて前記端末機器の障害の復旧処理を行う障害復旧処理手段とを備えることを特徴とする障害自動復旧装置。
  2. 前記障害監視手段による監視結果に基づいて復旧できない障害が前記端末機器に発生した場合、前記障害についての情報を外部機器に通知する外部通信手段をさらに備えることを特徴とする請求項1記載の障害自動復旧装置。
  3. 前記外部通信手段は、前記障害監視手段による監視結果に基づいて復旧できない障害が前記端末機器に発生した場合、前記障害の復旧処理プログラムを前記外部機器から受信することを特徴とする請求項2記載の障害自動復旧装置。
  4. マイクロプロセッサにてタスクの実行が制御される端末機器の障害の発生を監視するステップと、
    タイマオーバした時に前記マイクロプロセッサをウォッチドッグタイマにてリセットするステップと、
    前記マイクロプロセッサが前記ウォッチドッグタイマにてリセットされたときに、前記端末機器の障害の監視結果に基づいて前記端末機器の障害の復旧処理を行うステップとを備えることを特徴とする障害自動復旧方法。
  5. マイクロプロセッサにてタスクの実行が制御される端末機器の障害の発生を監視するステップと、
    前記端末機器に発生した障害を一意に識別するための障害コードを保持するステップと、
    タイマオーバした時に前記マイクロプロセッサをウォッチドッグタイマにてリセットするステップと、
    前記マイクロプロセッサが前記ウォッチドッグタイマにてリセットされたときに、前記障害コードに対応付けられた障害レベルに応じた障害の復旧処理を行うステップとを備えることを特徴とする障害自動復旧方法。
JP2006188037A 2006-07-07 2006-07-07 障害自動復旧装置および障害自動復旧方法 Pending JP2008015893A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006188037A JP2008015893A (ja) 2006-07-07 2006-07-07 障害自動復旧装置および障害自動復旧方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006188037A JP2008015893A (ja) 2006-07-07 2006-07-07 障害自動復旧装置および障害自動復旧方法

Publications (1)

Publication Number Publication Date
JP2008015893A true JP2008015893A (ja) 2008-01-24

Family

ID=39072823

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006188037A Pending JP2008015893A (ja) 2006-07-07 2006-07-07 障害自動復旧装置および障害自動復旧方法

Country Status (1)

Country Link
JP (1) JP2008015893A (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08218454A (ja) * 1995-02-16 1996-08-27 Matsushita Electric Works Ltd 給水制御装置
JP2004185318A (ja) * 2002-12-03 2004-07-02 Fujitsu Ltd Cpuシステムの障害監視装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08218454A (ja) * 1995-02-16 1996-08-27 Matsushita Electric Works Ltd 給水制御装置
JP2004185318A (ja) * 2002-12-03 2004-07-02 Fujitsu Ltd Cpuシステムの障害監視装置

Similar Documents

Publication Publication Date Title
CN110659159A (zh) 一种服务进程运行监控方法、装置、设备及存储介质
CN112631820A (zh) 软件系统的故障恢复方法及装置
US7664980B2 (en) Method and system for automatic attempted recovery of equipment from transient faults
JPH10214208A (ja) ソフトウェアの異常監視方式
CN111880992B (zh) 一种存储设备中控制器状态的监测及维护方法
US20110187404A1 (en) Method of detecting failure and monitoring apparatus
JP2007028118A (ja) ノード装置の故障判断方法
KR102438148B1 (ko) 임베디드 컴퓨팅 모듈의 이상을 감지하는 이상 감지 장치, 시스템 및 방법
JP2008015893A (ja) 障害自動復旧装置および障害自動復旧方法
JP5687141B2 (ja) 保護リレー装置
JP2010146278A (ja) 電源監視装置、基地局装置、電源監視方法、およびプログラム
CN114217925A (zh) 一种实现异常自动重启的业务程序运行监控方法及系统
JP2013090550A (ja) ディジタル保護制御装置
JP2012108848A (ja) 動作ログ収集システム及びプログラム
JP4834421B2 (ja) ネットワーク装置
JP2006323494A (ja) 障害復旧方法およびマイクロコンピュータ
JP5716396B2 (ja) 情報処理装置及び情報処理方法
JP2015026230A (ja) 通信システム及び通信装置、並びにファームウェア稼動異常復旧制御方法
JP6270369B2 (ja) 交通信号制御機、交通信号装置、表示制御装置及び情報表示装置
JPH1078896A (ja) 産業用電子計算機
JP2006023970A (ja) 装置異常復旧方式
US20180121294A1 (en) Information processing device
JP4983806B2 (ja) 二重化タイマを用いたシステム監視装置、および監視方法
JP2008293375A (ja) 稼動監視装置、稼動監視方法および稼動監視プログラム
JP6737701B2 (ja) 周辺装置、ホスト装置、保守装置、情報処理システム、方法およびプログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080201

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090515

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110830

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120104