JPH10171683A - 故障情報管理装置 - Google Patents

故障情報管理装置

Info

Publication number
JPH10171683A
JPH10171683A JP8333244A JP33324496A JPH10171683A JP H10171683 A JPH10171683 A JP H10171683A JP 8333244 A JP8333244 A JP 8333244A JP 33324496 A JP33324496 A JP 33324496A JP H10171683 A JPH10171683 A JP H10171683A
Authority
JP
Japan
Prior art keywords
failure
external storage
recording
recorded
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP8333244A
Other languages
English (en)
Inventor
Masahiko Misawa
正彦 三澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Engineering Ltd
Original Assignee
NEC Engineering Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Engineering Ltd filed Critical NEC Engineering Ltd
Priority to JP8333244A priority Critical patent/JPH10171683A/ja
Publication of JPH10171683A publication Critical patent/JPH10171683A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 【課題】 初期障害と輻輳した障害とが発生した場合で
も障害解析可能な故障情報管理装置を提供する。 【解決手段】 情報処理装置1は通常の処理部のほかに
障害検出回路11と障害内容記録回路12とを備え、複
数の外部記憶装置2−1〜2−nに接続されている。障
害内容記録回路12は障害検出回路11で重大障害の発
生が検出されると、管理テーブル13の初期故障情報記
録済みフラグ14がオンでなければ故障情報を外部記憶
装置2−1に記録保存し、初期故障情報記録済みフラグ
14がオンであれば選択用ポインタ15に基づいて故障
情報を外部記憶装置2−2〜2−nにラウンドロビン方
式で記録保存する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は故障情報管理装置に
関し、特に動作続行不可と判断される障害検出時にシス
テム動作停止のままとせず、再立上げによる復旧機能を
有する情報処理システムにおける故障情報の記録方法に
関する。
【0002】
【従来の技術】従来、この種の情報処理システムにおい
ては、重大障害が発生して処理続行が不可となった場
合、その時点のメモリ内容を外部記憶装置に記録保存し
た後に、再起動して処理続行が可能かどうかの試行を自
動で実施している。
【0003】上記の情報処理システムでは再起動後にさ
らに重大障害が発生した場合にメモリ内容を保存せずに
再起動するか、または以前の保存記録を破棄してその時
点のメモリ内容を新たに記録するようにしている。
【0004】すなわち、図4に示すように、再起動後に
さらに重大障害が発生した場合に初期障害情報を一度の
み記録する方式、つまり重大障害の発生によって記録処
理が起動されると、外部記録可能か否かを判定する(図
4ステップS21)という方法がある。この判定ではま
だ記録していない場合に外部記録可能と判定し、記録さ
れていなければ外部記録可能と判定するので、初期障害
情報を記録する際にまだ記録していない場合に外部記録
可能と判定し、メモリ内容記録を起動して外部記録を行
う(図4ステップS21,S22)。
【0005】また、図5に示すように、再起動後にさら
に重大障害が発生した場合に上書きによって最新障害記
録のみを残す方式、つまり重大障害の発生によって記録
処理が起動される毎に、メモリ内容記録を起動して外部
記録を行う(図5ステップS31,S32)という方法
もある。
【0006】すなわち、上記の情報処理システムでは、
重大障害発生時にその時点のメモリ内容を外部記憶装置
に記録保存する処理部を有しており、この処理部の機能
によって上書き保存する方式と、既に記録済みの場合に
新たな記録を行わない方式とがある。
【0007】一方、装置の障害が発生した場合に、オペ
レータが何らかの措置をとるまで、装置が障害状態であ
ったり、誤ったソフトウェアやパラメータのまま、動作
しないようにする方法も提案されている。この方法につ
いては、特開平4−177443号公報に開示されてい
る。
【0008】上記の方法を行う通信制御装置は装置のソ
フトウェアやパラメータ等を記憶する補助記憶装置と、
これを制御するとともに管理用端末とも通信を行いかつ
装置の管理・制御・立上げ処理を行う装置管理部と、装
置のソフトウェアやパラメータのバージョン管理部とを
備えている。
【0009】この通信制御装置では、管理用端末から再
立上げ要求を受けて再立上げを行った際の一定時間内に
装置のソフトウェアの障害が発生した場合、一つ前のバ
ージョンのソフトウェアで装置を再起動する。これによ
って、通信制御装置の変更したソフトウェアやパラメー
タに誤りがあって装置の障害が発生した場合でも、オペ
レータが何らかの措置をとるまで、装置が障害状態であ
ったり、誤ったソフトウェアやパラメータのままで動作
しないようにしている。
【0010】
【発明が解決しようとする課題】上述した従来の再立上
げによる復旧機能を有する情報処理システムでは、初期
障害状況のみのメモリ内容を保存する場合、輻輳した別
の障害が発生すると、障害状況の把握を誤る恐れがあ
る。
【0011】また、最新の障害状況に上書き更新してし
まう場合、初期障害発生時の記録が残っていないため、
障害解析のために特に初期障害状況が重要な情報な場
合、障害解析が困難となることがある。
【0012】また、上記の通信制御装置では、ソフトウ
ェアやパラメータ等の誤りに起因した障害そのものの解
析を行うためのものではないため、オペレータの何らか
の措置に対する有効な判断のために情報提供を行うこと
ができない。
【0013】さらに、上記の通信制御装置では、一つ前
のバージョンで再立上げ可能の条件/環境でない場合、
再立上げによって新たな障害を引き起こしてしまう危険
性も考えられる。
【0014】そこで、本発明の目的は上記の問題点を解
消し、初期障害と輻輳した障害とが発生した場合でも障
害解析を行うことができる故障情報管理装置を提供する
ことにある。
【0015】
【課題を解決するための手段】本発明による故障情報管
理装置は、動作続行不可と判断される障害検出時にシス
テム動作停止のままとせず、再立上げによる復旧機能を
備えた情報処理システムの故障情報管理装置であって、
前記障害検出時にその時点のメモリ内容を記録保存する
複数の外部記憶手段と、前記障害が最初に検出された時
に前記複数の外部記憶手段のうちの予め設定された特定
の外部記憶手段に前記メモリ内容を記録保存する第1の
記録制御手段と、前記特定の外部記憶手段に前記メモリ
内容が記録保存されたか否かを示す情報を保持する記録
済みフラグと、前記特定の外部記憶手段に前記メモリ内
容が記録保存されていることが前記記録済みフラグに保
持されている時に前記障害が検出される毎に前記メモリ
内容を前記特定の外部記憶手段以外の外部記憶手段に順
次記録保存する第2の記録制御手段とを具備している。
【0016】すなわち、本発明の故障情報管理装置で
は、動作続行不可と判断される障害の発生時に再立上げ
による各種初期化処理を伴う動作で、障害の情報を外部
記憶装置等に保存してから再立上げを実施する機能部位
で再立上げを行った後、さらに動作続行不可と判断され
る障害が続けて起きた場合の処理において、保存した最
初の記録を破棄せずにそのまま特定の外部記憶部位/装
置に残し、続けて発生した障害の情報を別の複数の外部
記憶部位/装置に対してラウンドロビン方式による記録
を実施することで、初期障害情報と最新の障害情報とを
残すことが可能となる。
【0017】従来、コンピュータを用いたシステムにお
いては重大障害が発生し、処理続行が不可となった場合
に、その時点のメモリ内容を外部記憶装置に記録保存し
てから再起動して処理続行が可能かどうかの試行を自動
で実施する方式がある。
【0018】この方式の場合、再起動後にさらに重大障
害が発生すると、メモリ内容を保存せずに再起動すると
いう方式か、または以前の保存記録を破棄して新たに記
録保存するという方式がとられている。
【0019】一般的に、メモリ内容の保存には大量の外
部記憶容量が必要であり、ある重大障害に起因して再起
動を繰り返した場合、再起動する毎にメモリ内容を全て
保存記録することはさらに大量の外部記憶容量が必要と
なるので、障害解析の実施上の制約となっている。
【0020】本発明の故障情報管理装置では、保存記録
した最初の内容を破棄することなくそのまま残し、保守
員の対応がある前にさらに障害が発生すると、ラウンド
ロビン方式による外部記録を実施して最新の障害情報を
も残すことによって、初期障害と輻輳した障害とが発生
した場合の障害解析を可能としている。
【0021】
【発明の実施の形態】次に、本発明の一実施例について
図面を参照して説明する。図1は本発明の一実施例の構
成を示すブロック図である。図において、情報処理装置
1は通常の処理部(図示せず)のほかに、障害検出回路
11と障害内容記録回路12とを備えており、複数の外
部記憶装置2−1〜2−nに接続されている。
【0022】障害内容記録回路12は故障情報(図示せ
ぬメモリの内容)を外部記憶装置2−1〜2−nに記録
保存する際に用いる管理テーブル13を内蔵しており、
管理テーブル13は故障情報を予め設定された特定の外
部記憶装置2−1に記録保存したか否かを示す初期故障
情報記録済みフラグ14と、故障情報を複数の外部記憶
装置2−2〜2−nにラウンドロビン方式で記録保存す
るための選択用ポインタ15とを保持している。
【0023】図2は本発明の一実施例による故障情報の
記録保存処理を示すフローチャートであり、図3は図1
の外部記憶装置2−2〜2−nに故障情報をラウンドロ
ビン方式で記録保存する際の選択動作を示すフローチャ
ートである。これら図1〜図3を用いて本発明の一実施
例による故障情報の記録保存処理について説明する。
【0024】本発明の一実施例ではシステム稼働中に重
大障害が発生して処理続行不可となった場合に、障害発
生時のメモリ内容及び可能であればCPUステータス情
報等を外部記憶装置2−1〜2−nに記録保存してい
る。その後に、本発明の一実施例では再起動すること
で、続けて稼働可能かどうかの試行を自動で実施するよ
うになっており、しかも再起動後にさらに重大障害が発
生するような状況を想定している。
【0025】本発明の一実施例では図1及び図2に示す
ように、システム稼働中に重大障害が発生した場合、障
害内容記録回路12による故障情報の記録保存処理が起
動される。障害内容記録回路12は故障情報の記録保存
処理が起動されると、まず最初の記録か否かを初期故障
情報記録済みフラグ14にて判定する(図2ステップS
1)。
【0026】障害内容記録回路12は初期故障情報記録
済みフラグ14がオンとなっていなければ、つまり記録
済みでなければ外部記憶装置2−1を選択して指示する
とともに(図2ステップS2)、初期故障情報記録済み
フラグ14をオンとして記録済みであることを設定する
(図2ステップS3)。その後に、障害内容記録回路1
2はメモリ内容記録処理を起動し(図2ステップS
4)、故障情報全てを外部記憶装置2−1に記録する
(図2ステップS4,S5)。
【0027】また、障害内容記録回路12は故障情報記
録済みフラグ14がオンとなっていれば、つまり既に記
録済みであれば図3に示すようなラウンドロビン方式に
よって外部記憶装置2−2〜2−nを選択して指示する
(図2ステップS6)。
【0028】この場合、障害内容記録回路12は次回の
記録すべき外部記憶装置2−2〜2−nで選択用ポイン
タ15を更新する(図2ステップS7)。ここで、ラウ
ンドロビン方式は限られたメモリ範囲を繰返して使用す
る方式として古くから有名な方式であり、本発明の一実
施例では外部記憶装置2−2から外部記憶装置2−nま
で順に1回ずつ記録し、外部記憶装置2−nまで記録が
進んだ場合に再び外部記憶装置2−2に戻って以前の記
録を破棄して上書きで記録を行うようにしている。
【0029】障害内容記録回路12は選択用ポインタ1
5の更新処理を起動すると、現在の選択用ポインタ15
が「p」の場合、1を加算した値「p+1」と最大値
「n」との大小を比較する(図3ステップS11)。
【0030】障害内容記録回路12は比較結果がp+1
≦nであれば、「p+1」を次回の記録すべき選択用ポ
インタ15の値「p」とする(図3ステップS12)。
また、障害内容記録回路12は比較結果がp+1>nで
あれば、「p=2」を次回の記録すべき選択用ポインタ
15の値「p」とする(図3ステップS13)。
【0031】その後、障害内容記録回路12はメモリ内
容記録処理を起動し(図2ステップS4)、故障情報全
てを外部記憶装置2−2〜2−nに記録する(図2ステ
ップS4,S5)。
【0032】上記の説明では外部記憶装置2−1〜2−
nへの故障情報の記録保存について述べているが、外部
記憶装置2−1〜2−nの容量が記録保存すべきメモリ
容量以上に大きく、n回分の記憶容量が十分にとれる場
合、その外部記憶装置2−1〜2−nの領域をn分割し
て記録保存することも可能である。したがって、外部記
憶装置2−1〜2−nのnの値自体はシステムの設計容
量として任意に設定可能なため、柔軟なシステム対応が
可能になるという利点がある。
【0033】また、CPUのメインメモリ部(図示せ
ず)の容量は数メガバイトから数百メガバイト、さらに
大容量の場合も想定されるが、メインメモリ部の容量と
外部記憶装置2−1〜2−nとの相対的な容量関係でシ
ステムの設計容量が決められることとなる。
【0034】上述したように、本発明一実施例による故
障情報管理方式は故障情報の記録要因が発生した時に外
部記憶装置2−1に記録するのか、または外部記憶装置
2−2〜2−nのいずれか1つに記録するのかを判定す
る判定部を障害内容記録回路12に設け、最初の1回目
のみ外部記憶装置2−1に記録し、2回目以降は外部記
憶装置2−2〜2−nに1回ずつ記録する。外部記憶装
置2−nまで記録が進んだ場合には再び外部記憶装置2
−2に戻って以前の記録を破棄して上書きで記録を行
う。
【0035】上記の方式によって、障害発生時に保存記
録した最初の記録内容を破棄することなくそのまま外部
記憶装置2−1に残すことで初期障害記録を維持するこ
とができ、再立上げ後にさらに発生した障害に対する障
害情報記録を外部記憶装置2−2〜2−nに残すこと
で、初期障害及び輻輳した障害の発生に対して障害解析
のための情報提供を行うことができる。
【0036】また、ラウンドロビン方式による外部記憶
装置2−2〜2−nへの障害記録を実施しているため、
輻輳して発生する障害履歴を把握することができ、さら
に有用な情報を提供することも期待することができる。
【0037】このように、重大障害が発生して処理続行
が不可となった場合にその時点のメモリ内容を特定の外
部記憶装置2−1に記録保存した後、再起動して処理続
行が可能かどうかの試行を自動で実施する際にさらに重
大障害が発生した場合にメモリ内容を初期障害発生時の
記録に用いた特定の外部記憶装置2−1以外の外部記憶
装置2−2〜2−nに記録することで、初期障害発生時
の障害解析情報と再起動後の輻輳した障害発生時の障害
解析情報とを提供することができる。
【0038】この場合、重大障害が発生した時点のメモ
リ内容を外部記憶装置2−1に記録保存する処理と、初
期故障情報記録済みフラグ14に基づいた初期記録の有
無判定処理と、初期記録実施後の2回目以降の障害発生
時にラウンドロビン方式によって外部記憶装置2−2〜
2−nへの障害記録を行う処理とを障害内容記録回路1
2で行っている。
【0039】したがって、保存記録した初期障害発生時
の記録は破棄せずにそのまま外部記憶装置2−1に残
し、保守員の対応がある前にさらに障害が発生した場合
にラウンドロビン方式による外部記憶装置2−2〜2−
nへの障害記録を実施し、最新の情報及び最新以前のあ
る程度の障害発生履歴情報として障害記録を残せるの
で、初期障害と輻輳した障害とが発生した場合の障害解
析を効率よく行うことができる。
【0040】
【発明の効果】以上説明したように本発明によれば、動
作続行不可と判断される障害検出時にシステム動作停止
のままとせず、再立上げによる復旧機能を備えた情報処
理システムの故障情報管理装置において、障害が最初に
検出された時に複数の外部記憶手段のうちの予め設定さ
れた特定の外部記憶手段にメモリ内容を記録保存し、そ
の障害に対して再立上げを行った際に再度障害が検出さ
れる毎に上記の特定の外部記憶手段以外の外部記憶手段
にメモリ内容を順次記録保存することによって、初期障
害と輻輳した障害とが発生した場合でも障害解析を行う
ことができるという効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例の構成を示すブロック図であ
る。
【図2】本発明の一実施例による故障情報の記録保存処
理を示すフローチャートである。
【図3】図1の外部記憶装置に故障情報をラウンドロビ
ン方式で記録保存する際の選択動作を示すフローチャー
トである。
【図4】従来例による故障情報の記録保存処理の一例を
示すフローチャートである。
【図5】従来例による故障情報の記録保存処理の他の例
を示すフローチャートである。
【符号の説明】
1 情報処理装置 2−1〜2−n 外部記憶装置 11 障害検出回路 12 障害内容記録回路 13 管理テーブル 14 初期故障情報記録済みフラグ

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 動作続行不可と判断される障害検出時に
    システム動作停止のままとせず、再立上げによる復旧機
    能を備えた情報処理システムの故障情報管理装置であっ
    て、前記障害検出時にその時点のメモリ内容を記録保存
    する複数の外部記憶手段と、前記障害が最初に検出され
    た時に前記複数の外部記憶手段のうちの予め設定された
    特定の外部記憶手段に前記メモリ内容を記録保存する第
    1の記録制御手段と、前記特定の外部記憶手段に前記メ
    モリ内容が記録保存されたか否かを示す情報を保持する
    記録済みフラグと、前記特定の外部記憶手段に前記メモ
    リ内容が記録保存されていることが前記記録済みフラグ
    に保持されている時に前記障害が検出される毎に前記メ
    モリ内容を前記特定の外部記憶手段以外の外部記憶手段
    に順次記録保存する第2の記録制御手段とを有すること
    を特徴とする故障情報管理装置。
  2. 【請求項2】 前記第2の記録制御手段は、前記特定の
    外部記憶手段以外の外部記憶手段のうちの一つを昇順に
    かつループ状に選択するためのラウンドロビン方式で選
    択するよう構成したことを特徴とする請求項1記載の故
    障情報管理装置。
  3. 【請求項3】 前記第1の記録制御手段は、前記動作続
    行不可と判断される障害検出時に前記特定の外部記憶手
    段に前記メモリ内容が記録保存されていることが前記記
    録済みフラグに保持されていない場合に前記障害が最初
    に検出されたと判定するよう構成したことを特徴とする
    請求項1または請求項2記載の故障情報管理装置。
JP8333244A 1996-12-13 1996-12-13 故障情報管理装置 Withdrawn JPH10171683A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8333244A JPH10171683A (ja) 1996-12-13 1996-12-13 故障情報管理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8333244A JPH10171683A (ja) 1996-12-13 1996-12-13 故障情報管理装置

Publications (1)

Publication Number Publication Date
JPH10171683A true JPH10171683A (ja) 1998-06-26

Family

ID=18263945

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8333244A Withdrawn JPH10171683A (ja) 1996-12-13 1996-12-13 故障情報管理装置

Country Status (1)

Country Link
JP (1) JPH10171683A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6862688B2 (en) 2000-01-27 2005-03-01 Mitsubishi Denki Kabushiki Kaisha Fault handling system and fault handling method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6862688B2 (en) 2000-01-27 2005-03-01 Mitsubishi Denki Kabushiki Kaisha Fault handling system and fault handling method

Similar Documents

Publication Publication Date Title
US10491671B2 (en) Method and apparatus for switching between servers in server cluster
US8601493B2 (en) Application controlling apparatus and storage medium which stores software for the apparatus
US5652833A (en) Method and apparatus for performing change-over control to processor groups by using rate of failed processors in a parallel computer
US6862688B2 (en) Fault handling system and fault handling method
US20040078686A1 (en) Computer system, failure handling method, and computer program
CN109144789B (zh) 一种重启osd的方法、装置及系统
EP2860633A1 (en) Method for maintaining file system of computer system
CN112068935A (zh) kubernetes程序部署监控方法、装置以及设备
CN113778763B (zh) 一种三方接口服务故障智能切换方法及系统
CN116126832A (zh) 数据库切换方法、切换装置、电子设备及存储介质
US20090083747A1 (en) Method for managing application programs by utilizing redundancy and load balance
JPH10171683A (ja) 故障情報管理装置
JP3687565B2 (ja) ログデータ保存方式、ログデータ保存方法およびログデータ保存用プログラム
CN115827298A (zh) 一种服务器开机故障定位方法、装置、终端及存储介质
JP2908442B1 (ja) トレース情報採取方式
JPH10336276A (ja) ネットワーク管理システム
CN111400094A (zh) 一种服务器系统恢复出厂设置的方法、装置、设备及介质
JPH06324916A (ja) 障害情報ロギング方式
CN115473793B (zh) 一种集群ei主机环境自动恢复方法、装置、终端及介质
CN116991710B (zh) 自动测试方法及其系统、电子设备、存储介质
CN113381895B (zh) 网络故障的检测方法及装置
JPH1040123A (ja) ジョブ管理方式と方法
CN108415788B (zh) 用于对无响应处理电路作出响应的数据处理设备和方法
CN116225835A (zh) 云主机持续可用的方法、装置、电子设备及存储介质
CN115484267A (zh) 多集群部署处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20040302