JPH05324367A - 障害情報記録方法 - Google Patents

障害情報記録方法

Info

Publication number
JPH05324367A
JPH05324367A JP4131204A JP13120492A JPH05324367A JP H05324367 A JPH05324367 A JP H05324367A JP 4131204 A JP4131204 A JP 4131204A JP 13120492 A JP13120492 A JP 13120492A JP H05324367 A JPH05324367 A JP H05324367A
Authority
JP
Japan
Prior art keywords
information
fault
failure
recorded
history information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP4131204A
Other languages
English (en)
Inventor
Suminori Okamoto
純典 岡本
Kunio Yajima
邦夫 矢島
Minoru Tagami
稔 田上
Naomi Kanatsuki
直美 金築
Akio Sugimoto
明雄 杉本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP4131204A priority Critical patent/JPH05324367A/ja
Publication of JPH05324367A publication Critical patent/JPH05324367A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 本発明は、複数個の装置が多重化されている
電子計算機システムにおける保守・障害調査の方法に関
し、障害原因調査の作業効率を向上させ、各装置内の不
揮発メモリへの重要障害の障害情報の書き込み回数を増
大させる。 【構成】 電子計算機システムにおいて、障害発生まで
の動作環境,軽微な障害情報の履歴をオペレイティング
システム(OS)内の装置履歴情報ファイルに記録してお
き、ある装置に重要障害が発生した時点で、該重要障害
の原因となった障害情報と,上記装置履歴情報ファイ
ルに記録されている、該装置の上記重要障害発生までの
動作環境,軽微な障害情報 (履歴情報) とを結合し
て、当該装置の不揮発メモリ内に記録するように構成す
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、複数個の装置が多重化
されている電子計算機システムにおける保守・障害調査
の記録方法に関する。
【0002】近年の電子計算システムの規模の拡大に伴
い、電子計算機システムにおいて障害が発生する要因は
複雑化している。又、複数個の装置で構成されている電
子計算機システムにおいては、一つの装置の障害で、該
電子計算機システムがダウンしないように、該電子計算
機システムを構成している各装置を多重化、例えば、2
重化して信頼度の向上を図っている。
【0003】このような電子計算機システムにおいて
は、特定の装置に、該装置が機能を発揮することができ
ないような重要な障害が発生したとき、該装置を戦列か
ら除去して、該電子計算機システムを再構成すること
で、該電子計算機システムをダウンしないようにするこ
とができるが、該ダウンし、回収された装置には、該障
害に関連する情報が保存されていないため、通常、該電
子計算機システムのオペレイティングシステム(OS)内の
ファイル記憶装置から、該ダウンした装置の障害情報を
再収集する必要がある。
【0004】従って、このような構成の電子計算機シス
テムにおいて、保守効率を向上させるためには、迅速な
障害調査を可能とする障害情報記録技術を確立する事が
必要となる。
【0005】
【従来の技術】図4, 図5は、従来の障害情報の記録方
法を説明する図であり、図4は、電子計算機システムの
構成例を示し、図5は、従来の障害情報の記録方法を示
している。
【0006】図4に示した電子計算機システムは、前述
のように、複数個の装置、例えば、プロセッサモジュー
ル(PM) 1a と、入出力制御装置(IOC) 1b, 回線制御装置
1c等が、2重化されて、入出力バス 2に接続され、各
プロセッサモジュール(PM) 1a と、共有メモリ(SS) 1M
が、共有メモリ制御装置(SSC) 1d、メモリバス 3を介し
て接続されている。
【0007】又、オペレイティングシステム(OS)の各機
能、例えば、各アプリケーションプログラムの実行管
理, 入出力処理, 障害割込み処理, 入出力割込み処理等
は、それぞれ、所定のプロセッサモジュール(PM) 1a に
分散されており、それぞれの事象は、対応するプロセッ
サモジュール(PM) 1a のオペレイティングシステム(OS)
に通知され、処理される。
【0008】今、例えば、図示の2重化されている回線
制御装置 1c の一方に、重要障害が発生した場合、該障
害の発生した側の回線制御装置 1c から障害割込みが発
生して、所定のプロセッサモジュール(PM) 1a のオペレ
イティングシステム(OS)に通知される。
【0009】該オペレイティングシステム(OS)は、該障
害割込みのあった回線制御装置 1cを、該割込み情報か
ら認識して、該障害の回線制御装置 1c から障害情報
や, 動作環境を収集し、外部記憶装置の装置履歴情報フ
ァイル 1F に記録した後、該障害の回線制御装置 1c を
切り離し、装置構成を再構築してジョブを続行してい
た。
【0010】この場合の具体的な障害情報収集方法を、
図5によって説明する。図示されている如くに、当該電
子計算機システムにおいては、所定のプロセッサモジュ
ール(PM) 1a が分担しているオペレイティングシステム
(OS)に、装置情報収集部 100と、装置情報分類部 101a
と, 構成情報更新部 102a と, 定期情報計数部 102b
と, 軽微障害計数部 102c と,重要障害検出部 102d と
からなる障害情報生成部 101とで構成される障害情報収
集手段があり、先ず、1)該装置情報収集部 100が、各種
のハードウェア装置情報を収集して、上記障害情報生成
部 101に通知する。
【0011】2)次に、該障害情報生成部 101の装置情報
分類部 101a が、通知された情報を、装置の構成変更情
報と, 定期情報と, 軽微障害情報, 重要障害情報の何れ
かに分類する。
【0012】該分類された情報が、装置の構成変更情報
の場合、上記構成情報更新部 102aが、新しい装置構成
に従って、装置履歴ファイル (例えば、装置名, ハード
ウェア版数, ファームウェア版数, 稼働開始日時等) を
再作成して、外部記憶装置の装置履歴情報ファイル 1F
の所定の領域に記録する。
【0013】該分類された情報が、定期情報の場合、上
記定期情報計数部 102b が該定期情報 (アクセス回数)
を計数して、外部記憶装置の装置履歴情報ファイル 1F
の所定の領域に格納する。
【0014】該分類された情報が、軽微障害の場合に
は、上記軽微障害計数部 102c が、該軽微障害情報 (軽
微障害情報1,軽微障害情報2,・・)毎に計数して、
外部記憶装置の装置履歴情報ファイル 1F の所定の領域
に格納する。
【0015】同様にして、該分類された情報が、重要障
害の場合には、上記重要障害検出部102d が該重要障害
を計数して、外部記憶装置の装置履歴情報ファイル 1F
の所定の領域に格納する。
【0016】このように、従来の障害情報記録方法で
は、障害が発生した時の情報や動作環境について、オペ
レイティングシステム(OS)が、外部記憶装置の装置履歴
情報ファイル 1F の所定の領域に記録するのみであっ
た。
【0017】
【発明が解決しようとする課題】従って、該2重化され
た装置の一方に重要障害が発生し、保守員によって回収
された装置には、何の情報も設定されていないため、障
害を調査する際には、上記オペレイティングシステム(O
S)を介して、上記外部記憶装置の装置履歴情報ファイル
1F に記録されている障害に関する情報を再度収集しな
ければならなかった。
【0018】又、該重要な障害の発生した装置を回収し
て、新しい装置を設置して運用を開始すると、通常、該
外部記憶装置の装置履歴情報ファイル 1F への障害情報
の記録は、サイクリックに行われるため、当該装置とは
別の装置の障害情報等によって、該重要障害が発生した
装置の障害情報が消去されてしまうことがあり、必要な
情報が既に消去されていた場合、障害原因の追求が困難
になるという問題点が生じていた。
【0019】そこで、改良された障害情報記録方法とし
て、異常が検出された時のシステムの稼働状態, 障害情
報等を、不揮発メモリに記録する技術が知られている。
例えば、特開昭63-244235 号公報「異常処理方法及びそ
の装置」, 特開平2-188843号公報「情報処理装置」があ
る。
【0020】然し、これらの障害情報記録方法は、障害
情報を全て、不揮発メモリに格納する方法であるため、
容量に制限のある不揮発メモリでは、真に有効な障害が
発生したとき、その有効な障害情報を記録することが困
難になることが起こる問題と、一般に、該不揮発メモリ
に対する書き込み回数には制限があるため、該書き込み
回数が制限値を越えると、その後に、上記重要障害が発
生したときに、書き込みができなくなることが起こる等
の問題があった。
【0021】本発明は上記従来の欠点に鑑み、電子計算
機システムにおける保守・障害調査の方法において、障
害原因調査の作業効率を向上させ、各装置内の不揮発メ
モリへの、重要障害の情報の書き込み回数を増大させる
ことができる障害情報記録方法を提供することを目的と
するものである。
【0022】
【課題を解決するための手段】図1は、本発明の原理説
明図である。上記の問題点は下記の如くに構成した障害
情報記録方法によって解決される。
【0023】(1) 複数個の装置 1a 〜が多重化されてい
る電子計算機システムにおいて、特定の装置 1a 〜に、
該装置 1a 〜をダウンさせる重要障害が発生したとき、
該重要障害に関連する情報を、該装置 1a 〜内の不揮発
メモリ 10 に記録し、該不揮発メモリ 10 を直接, 又
は、ネットワークを介して、該不揮発メモリ 10 に記録
している障害情報を保守センタ 2に通知するように構成
する。
【0024】(2) 複数個の装置 1a 〜が多重化されてい
る電子計算機システムにおいて、特定の装置 1a 〜に障
害が発生したとき、障害発生までの動作環境,軽微な障
害履歴情報を、該電子計算機システムのオペレイティ
ングシステム(OS)内の装置履歴情報ファイル 1F に記録
しておき、該装置 1a 〜に該装置 1a 〜をダウンさせる
重要障害が発生した時点で、該重要障害の原因となった
障害情報と,上記装置履歴情報ファイル 1F に記録さ
れている障害発生までの動作環境,軽微な障害履歴情報
とを結合して、当該装置の不揮発メモリ 10 内に記録
するように構成する。
【0025】
【作用】本発明においては、上記複数個の装置が多重化
されている電子計算機システムでは、障害情報専用の不
揮発メモリを、上記多重化されているハードウェア装置
内に、保守時の交換単位毎に持つようにする。又、装置
内の不揮発メモリに書き込みができるようなインターフ
ェースを持つ。これによって、各々の装置内に、障害情
報を設定する事が可能となる。具体的には、 a)複数個の装置が多重化されている電子計算機システ
ムにおいて、特定の装置に、該装置をダウンさせる重要
障害が発生したとき、障害調査に必要な各種の装置情報
(重要障害情報, 軽微障害情報, 構成情報, 定期情報)
を、当該装置内部の不揮発メモリに直接記録する事によ
り、障害調査における情報収集時間の短縮と、必要な情
報の確保を可能とするようにしたものである。 (図1の
処理ステップ 100S 〜102S参照) 又、b)上記の装置情報の内、装置履歴情報(軽微障害
情報, 構成情報, 定期情報)を、オペレイティングシス
テム(OS)の装置履歴情報ファイルに記録・計数してお
き、重要障害が発生した時点で、併せて不揮発メモリに
書き込む事によって、不揮発メモリの書き込み回数を最
小限に抑えるようにしたものである。 (図1の処理ステ
ップ 102S 参照) 上記のように、重要障害が発生している時点でのみ、該
重要障害情報と、その時点までに該装置に発生した障害
履歴、例えば、リトライ回数, パリティエラー回数、2
ビットエラー(誤り符号訂正コードにより訂正できるエ
ラー)回数とを結合して、該不揮発メモリに格納してお
くことにより、該不揮発性メモリに格納されている障害
の履歴をトレースすることで、真の障害原因を効果的に
追跡することができるようになる。又、障害原因の調査
に必要な情報を、外部記憶装置から改めて収集する必要
がなくなる。又、該不揮発メモリの書き込み限界によっ
て、重要障害の障害情報が記憶できなくなる事態を回避
することができる。
【0026】
【実施例】以下本発明の実施例を図面によって詳述す
る。前述の図1は、本発明の原理説明図であり、図2,
図3は、本発明の一実施例を示した図であって、図2は
障害情報の記録方法を模式的に示し、図3は、装置履歴
情報ファイルの構成例を示している。
【0027】本発明においては、複数個の装置 1a 〜が
多重化されている電子計算機システムにおいて、上記の
装置情報の内、装置履歴情報(軽微障害情報, 構成情
報, 定期情報)を、オペレイティングシステム(OS)の外
部記憶装置の装置履歴情報ファイル 1F に記録・計数し
ておき、重要障害が発生した時点で、併せて、各装置 1
a 〜内に設けられている不揮発メモリ 10 に書き込む手
段が、本発明を実施するのに必要な手段である。尚、全
図を通して同じ符号は同じ対象物を示している。
【0028】以下、図4に示した電子計算機システムの
構成例と、図1の原理説明図を参照しながら、図2,図
3によって、本発明による障害情報記録方法を説明す
る。先ず、本発明による障害情報記録方法は、装置情報
収集部 100, 障害情報生成部 101, 障害情報記録部 10
3, 障害情報記録用不揮発性メモリ 10,装置履歴情報フ
ァイル 1F から構成されている。
【0029】ここで、障害情報生成部 100は、不揮発メ
モリ 10 への書き込み回数を最小限に抑えるため、本発
明においては、図5で説明した装置情報を分類する機能
101a,該分類された各装置の装置履歴情報を各装置単
位に、外部記憶装置の装置履歴情報ファイル 1F に記録
する機能 102a 〜102cの他に、重要障害が発生したと
き、該重要障害情報と, 上記装置履歴情報の結合を
行う機能として、重要障害・装置履歴情報結合部 102e
を持つ。
【0030】上記において、重要障害情報:当該装置が
再使用不可能になる障害の原因コード等を示し、軽微障
害情報:当該装置の再使用が可能な一時的障害の原因コ
ード等を示し、構成情報:システム内のハードウェア装
置個々の情報(ハードウェア版数,ファームウェア版
数,稼働開始日時等) を示し、定期情報:装置の使用状
況(単位時間におけるアクセス回数等) を示している。
【0031】以下、図2,図3によって、本発明による
障害情報記録方法を、具体的に説明する。 1) 図4に示した電子計算機システムは、2重化されて
いる各装置毎の装置履歴情報 (構成情報, 定期情報, 軽
微障害情報等) を、装置情報収集部 100が収集する。
(図1の処理ステップ 100S 参照) 2) 該収集した各装置履歴情報を、障害情報生成部 1
01に通知する。
【0032】3) 障害情報生成部 101では、まず装置情
報分類部 101a が、該通知された現象を、前述の装置の
構成変更情報,定期情報,軽微障害情報,重要障害情報
のいずれかに分類する。
【0033】4) 装置の構成変更情報の場合、構成情報
更新部 102a が、新しい装置構成に従って、上記外部記
憶装置上に、装置履歴情報ファイル 1F を再作成する。
若し、定期情報の場合は、定期情報計数部 102b が、該
装置履歴情報ファイル1F に、定期情報を計数する。
【0034】又、軽微障害の場合は、軽微障害計数部 1
02c が、装置履歴情報ファイル 1Fに、軽微障害情報を
計数する。そして、重要障害の場合、本発明において
は、重要障害・装置履歴情報結合部102e が、当該装置
に関する装置履歴情報を、装置履歴情報ファイル 1F
から読み込み (図1の処理ステップ 101S 参照) 、上記
重要障害情報と結合して、障害情報記録部 102に通知
する。 (図1の処理ステップ 102S 参照) 上記の装置履歴情報ファイル 1F の構成例を、図2に示
す。該装置履歴情報ファイル 1F は、図示されている如
く、構成変更情報と,定期情報(アクセス回数)と、軽
微障害情報とから構成されており、上記のファイル更新
により、該当欄の内容が更新される。
【0035】該通知を受けた障害情報記録部 103は、該
重要障害情報と、上記装置履歴情報ファイル 1F から
読み出した該当装置の障害履歴情報とを結合した情報
を、該当の装置に備えられている不揮発メモリ 10 に書
き込み、該重要障害に関連する障害情報を記録する。
【0036】5) このようにして収集した不揮発メモリ
10 を回収して、人手で、図4に示されている保守セン
タ 4に持ち込むか、或いは、当該電子計算機システムが
備えている回線制御装置 1c と、ネットワーク回線を介
して、該保守センタ 4に通知する。
【0037】このように、本発明においては、複数個の
装置 1a 〜が多重化されている電子計算機システムにお
いて、上記の装置情報の内、装置履歴情報(軽微障害情
報,構成情報, 定期情報)を、オペレイティングシス
テム(OS)の外部記憶装置の装置履歴情報ファイル 1F に
記録・計数しておき、重要障害が発生した時点で、該装
置履歴情報と, 重要障害情報とを併せて、各装置 1
a 〜内に設けられている不揮発メモリ 10 に書き込むよ
うにしたところに特徴がある。
【0038】
【発明の効果】本発明を実施することにより、該不揮発
メモリ内には、特定の装置の重要障害情報と、該重要
障害が発生する迄に、該装置に発生している装置履歴情
報とが格納されている為、障害原因調査の作業効率が
向上する。又、オペレイティングシステム(OS)上の障害
情報を取得する事により、ユーザ業務への負担を軽減す
る事ができる。又、重要障害が発生したときのみ、障害
情報を、該当装置の不揮発メモリに書き込むようにして
いるので、各装置内の不揮発メモリへの重要障害の障害
情報の書き込み可能回数を増大する事ができる。
【図面の簡単な説明】
【図1】本発明の原理説明図
【図2】本発明の一実施例を示した図(その1)
【図3】本発明の一実施例を示した図(その2)
【図4】従来の障害情報の記録方法を説明する図(その
1)
【図5】従来の障害情報の記録方法を説明する図(その
2)
【符号の説明】
1a プロセッサモジュール(PM) 1b 入出力制御
装置(IOC) 1c 回線制御装置 1d 共有メモリ
制御装置(SSC) 1F 装置履歴情報ファイル 10 不揮発メモリ 2 入出力バス 3 メモリバス 100 装置情報収集部 101 障害情報生
成部 101a 装置情報分類部 102a 構成情報更
新部 102b 定期情報計数部 102c 軽微障害計
数部 102d 重要障害検出部 102e 重要障害・装置履歴情報結合部 103 障害情報記録部 100S〜102S 処理ステップ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 金築 直美 神奈川県川崎市中原区上小田中1015番地 富士通株式会社内 (72)発明者 杉本 明雄 神奈川県川崎市中原区上小田中1015番地 富士通株式会社内

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】複数個の装置(1a 〜) が多重化されている
    電子計算機システムにおいて、 特定の装置(1a 〜) に、該装置(1a 〜) をダウンさせる
    重要障害が発生したとき、該重要障害に関連する情報
    を、該装置(1a 〜) 内の不揮発メモリ(10)に記録し、該
    不揮発性メモリ(10)を直接, 又は、ネットワークを介し
    て、該不揮発メモリ(10)に記録している障害情報を保守
    センタ(2) に通知することを特徴とする障害情報記録方
    法。
  2. 【請求項2】複数個の装置(1a 〜) が多重化されている
    電子計算機システムにおいて、特定の装置(1a 〜) に障
    害が発生したとき、障害発生までの動作環境,軽微な障
    害情報 () を、該電子計算機システムのオペレイティ
    ングシステム(OS)内の装置履歴情報ファイル(1F)に記録
    しておき、該装置(1a 〜) に該装置(1a 〜) をダウンさ
    せる重要障害が発生した時点で、該重要障害の原因とな
    った障害情報 () と,上記装置履歴情報ファイル(1F)
    に記録されている障害発生までの動作環境,軽微な障害
    情報 () とを結合して、当該装置の不揮発性メモリ(1
    0)内に記録することを特徴とする請求項1に記載の障害
    情報記録方法。
JP4131204A 1992-05-25 1992-05-25 障害情報記録方法 Withdrawn JPH05324367A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4131204A JPH05324367A (ja) 1992-05-25 1992-05-25 障害情報記録方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4131204A JPH05324367A (ja) 1992-05-25 1992-05-25 障害情報記録方法

Publications (1)

Publication Number Publication Date
JPH05324367A true JPH05324367A (ja) 1993-12-07

Family

ID=15052481

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4131204A Withdrawn JPH05324367A (ja) 1992-05-25 1992-05-25 障害情報記録方法

Country Status (1)

Country Link
JP (1) JPH05324367A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5815335A (en) * 1992-12-02 1998-09-29 Sony Corporation Recording and reproducing apparatus with mechanical adjustment data stored in memory on mechanical mechanism assembly
JP2007156599A (ja) * 2005-12-01 2007-06-21 Fujitsu Ltd 補助記憶装置のデータ消去管理方法,補助記憶装置及び遠隔保守装置
US7581137B2 (en) 2006-04-18 2009-08-25 Hitachi, Ltd. Storage apparatus and storage apparatus power supply failure management method

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5815335A (en) * 1992-12-02 1998-09-29 Sony Corporation Recording and reproducing apparatus with mechanical adjustment data stored in memory on mechanical mechanism assembly
JP2007156599A (ja) * 2005-12-01 2007-06-21 Fujitsu Ltd 補助記憶装置のデータ消去管理方法,補助記憶装置及び遠隔保守装置
US7581137B2 (en) 2006-04-18 2009-08-25 Hitachi, Ltd. Storage apparatus and storage apparatus power supply failure management method

Similar Documents

Publication Publication Date Title
CN100451977C (zh) 检测错误和预报潜在故障的系统以及方法
US5948112A (en) Method and apparatus for recovering from software faults
JP3058743B2 (ja) ディスクアレイ制御装置
US6349359B1 (en) Method and apparatus for maintaining data consistency in raid
CN111324192A (zh) 一种系统板卡电源检测方法、装置、设备及存储介质
JPH0950424A (ja) ダンプ採取装置およびダンプ採取方法
JP4371720B2 (ja) 記憶装置システム及び記憶装置システムの保守方法
US20060015769A1 (en) Program, method and apparatus for disk array control
JP5440073B2 (ja) 情報処理装置,情報処理装置の制御方法および制御プログラム
JPH05324367A (ja) 障害情報記録方法
JP2005267056A (ja) ソフトウェアミラーリングディスク障害監視・復旧システム、その障害監視・復旧方法及びプログラム
US7315961B2 (en) Black box recorder using machine check architecture in system management mode
JP2018180982A (ja) 情報処理装置、およびログ記録方法
JP2004227449A (ja) ディスクアレイ装置における障害の診断装置
JP2005293345A (ja) Icタグを用いた故障診断システムおよび故障診断方法
JPH05181824A (ja) データ管理方式
JP2006079485A (ja) 電子計算機における障害解析用情報収集方式
JPH08137764A (ja) 記憶装置のソフトエラー回復方法と固定障害検出方法
JPH04257035A (ja) 仮想計算機システム配下における障害情報処理方式
CN116932334B (zh) 多核微控制单元的异常复位监控方法及装置
JPH0358245A (ja) 情報処理装置
JPS6383843A (ja) トレ−ス情報の収集方式
US7509527B2 (en) Collection of operation information when trouble occurs in a disk array device
JPH07319779A (ja) 情報処理装置
JPH0619638A (ja) ディスク装置のオンライン診断における自動スケジュール方法

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19990803