JPH0395641A - システムダウンの未然防止方式 - Google Patents
システムダウンの未然防止方式Info
- Publication number
- JPH0395641A JPH0395641A JP1233791A JP23379189A JPH0395641A JP H0395641 A JPH0395641 A JP H0395641A JP 1233791 A JP1233791 A JP 1233791A JP 23379189 A JP23379189 A JP 23379189A JP H0395641 A JPH0395641 A JP H0395641A
- Authority
- JP
- Japan
- Prior art keywords
- file
- error
- high possibility
- contents
- system down
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012423 maintenance Methods 0.000 claims abstract description 17
- 238000012544 monitoring process Methods 0.000 claims description 6
- 238000000034 method Methods 0.000 claims description 4
- 230000002265 prevention Effects 0.000 claims description 2
- 101000699781 Homo sapiens Retrotransposon Gag-like protein 4 Proteins 0.000 description 1
- 102100029131 Retrotransposon Gag-like protein 4 Human genes 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Landscapes
- Debugging And Monitoring (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔概要〕
ハードウエアの状況を分析してシステムダウンを未然に
防止する未然防止方式に関し、ハードウェアのエラーロ
ギング情報を分析してシステムダウンに陥る可能性の高
い装置について回線を介して保守員の端末などに自動通
報し、システムダウンを未然に防止することを目的とし
、ホストにおけるハードウエアのエラー情報を収集して
格納するエラーロギングファイルと、このエラーロギン
グファイルの内容を分析してシステムダウンの可能性が
高い装置(例えばDASD#1)を検出する監視分析部
とを備え、この監視分析部によって検出したシステムダ
ウンの可能性が高い装置に関する情報を、回線を介して
保守用の端末に通報し、画面上にその通報内容を表示し
て警告するように構或する。
防止する未然防止方式に関し、ハードウェアのエラーロ
ギング情報を分析してシステムダウンに陥る可能性の高
い装置について回線を介して保守員の端末などに自動通
報し、システムダウンを未然に防止することを目的とし
、ホストにおけるハードウエアのエラー情報を収集して
格納するエラーロギングファイルと、このエラーロギン
グファイルの内容を分析してシステムダウンの可能性が
高い装置(例えばDASD#1)を検出する監視分析部
とを備え、この監視分析部によって検出したシステムダ
ウンの可能性が高い装置に関する情報を、回線を介して
保守用の端末に通報し、画面上にその通報内容を表示し
て警告するように構或する。
本発明は、ハードウェアの状況を分析してシステムダウ
ンを未然に防止する未然防止方式に関するものである。
ンを未然に防止する未然防止方式に関するものである。
〔従来の技術と発明が解決しようとする課題〕コンピュ
ータシステムが、CPU,周辺mW(DASDなど)な
どのハードウェア障害により突然にダウンする場合があ
る。通常、多くのハードウエアは読み書きなど不能な状
態ではりトライおよびECCなどによる訂正によりシス
テム動作を維持するようにソフトウェアにより工夫され
ているが、それでもだめな場合にシステムダウンに陥い
り、ユーザに対して多大の迷惑をかけてしまう。このた
め、ハードウエア障害によってシステムダウンする前に
その兆候を監視・分析して保守員に通知することが望ま
れている。
ータシステムが、CPU,周辺mW(DASDなど)な
どのハードウェア障害により突然にダウンする場合があ
る。通常、多くのハードウエアは読み書きなど不能な状
態ではりトライおよびECCなどによる訂正によりシス
テム動作を維持するようにソフトウェアにより工夫され
ているが、それでもだめな場合にシステムダウンに陥い
り、ユーザに対して多大の迷惑をかけてしまう。このた
め、ハードウエア障害によってシステムダウンする前に
その兆候を監視・分析して保守員に通知することが望ま
れている。
本発明は、ハードウェアのエラーロギング情報を分析し
てシステムダウンに陥る可能性の高い装置について回線
を介して保守員の端末などに自動通報し、システムダウ
ンを未然に防止することを目的としている。
てシステムダウンに陥る可能性の高い装置について回線
を介して保守員の端末などに自動通報し、システムダウ
ンを未然に防止することを目的としている。
第1図を参照して課題を解決する手段を説明する。
第1図において、エラーロギングファイル2は、ホスト
1におけるハードウエアのエラー情報を収集して格納す
るファイルである。
1におけるハードウエアのエラー情報を収集して格納す
るファイルである。
監視分析部3は、エラーロギングファイル2の内容を分
析してシステムダウンの可能性が高い装置(例えばDA
SD#1)を検出するものである。
析してシステムダウンの可能性が高い装置(例えばDA
SD#1)を検出するものである。
MART (マート)4は、回線を介して情報を自動通
報するものである。
報するものである。
本発明は、第1図に示すように、ホスト1におけるハー
ドウェアのエラー情報を収集してエラロギングファイル
2に格納し、監視分析部3がエラーロギングファイル2
の内容を分析してシステムダウンの可能性が高い装置(
例えばDASD#l)を検出し、MART (マート)
4がこの検出したシステムダウンの可能性の高い装置に
関する情報を、回線を介して保守員の端末5に通報し、
画面上にその通報内容を表示して警告するようにしてい
る。この警告を見た保守員が該当する装置の交換などを
行うようにしている。
ドウェアのエラー情報を収集してエラロギングファイル
2に格納し、監視分析部3がエラーロギングファイル2
の内容を分析してシステムダウンの可能性が高い装置(
例えばDASD#l)を検出し、MART (マート)
4がこの検出したシステムダウンの可能性の高い装置に
関する情報を、回線を介して保守員の端末5に通報し、
画面上にその通報内容を表示して警告するようにしてい
る。この警告を見た保守員が該当する装置の交換などを
行うようにしている。
従って、ハードウェアのエラーロギング情報を分析して
予測し、システムダウンに陥る可能性の高い装置につい
て回線を介して保守員の端末5に警告を自動的に表示し
て通知し、これを見た保守員が装置の交換などを行うこ
とにより、システムダウンを未然に防止することが可能
となる。
予測し、システムダウンに陥る可能性の高い装置につい
て回線を介して保守員の端末5に警告を自動的に表示し
て通知し、これを見た保守員が装置の交換などを行うこ
とにより、システムダウンを未然に防止することが可能
となる。
次に、第t図および第2図を用いて本発明の1実施例の
構或および動作を順次詳細に説明する。
構或および動作を順次詳細に説明する。
第1図において、ホスト(センタ)1ば、複数の端末5
を回線を介して接続し、各種サービスを提供するコンピ
ュータシステムである。このホストlは、CPU,CH
、DASD,MTなどの各種装置から構成されている。
を回線を介して接続し、各種サービスを提供するコンピ
ュータシステムである。このホストlは、CPU,CH
、DASD,MTなどの各種装置から構成されている。
このホスト1に、本実施例に係るエラーロギングファイ
ル2および各種装置の状態を監視・分析する監視分析部
3が設けてある。
ル2および各種装置の状態を監視・分析する監視分析部
3が設けてある。
エラーロギングファイル2は、ホスト1におけるハード
ウエアのエラー情報を収集して格納するファイルである
。
ウエアのエラー情報を収集して格納するファイルである
。
監視分析部3ば、エラーロギングファイル2の内容を定
期的に分析してシステムダウンの可能性が高い装置(例
えばDASD#1)を検出するものである。
期的に分析してシステムダウンの可能性が高い装置(例
えばDASD#1)を検出するものである。
MART (マート)4は、回線を介して情報を相互に
自動的に通信するものである。
自動的に通信するものである。
端末5は、ホストlからサービスの提供を受ける端末で
ある。この端末4のうちのlっとして保守員用の端末が
ある。
ある。この端末4のうちのlっとして保守員用の端末が
ある。
第1図(口)は、DASDに関して分析したエラーロギ
ング情報を示す。これは、ホスト1に接続されているD
ASD (外部記憶装置)に関してアクセス回数および
リードエラー回数を自動的に収集したものを分析して生
戒したエラーロギング情報である。ここで、エラー割合
が所定の闇値(例えば30%)を越えるときに、当該D
ASDに障害が発生する可能性が高いとして警告を発す
るようにしている。この際、第1図(口)に示すCOI
?!?ECTABLE El?ROI?(修正可能なエ
ラー)の場合には所定闇値以上の割合のときに警告を回
線を介して保守員の端末5に発するが、UNCORl?
ECTABLE ERROR (修正不可のエラー)の
場合には即時に警告を発するようにしている。
ング情報を示す。これは、ホスト1に接続されているD
ASD (外部記憶装置)に関してアクセス回数および
リードエラー回数を自動的に収集したものを分析して生
戒したエラーロギング情報である。ここで、エラー割合
が所定の闇値(例えば30%)を越えるときに、当該D
ASDに障害が発生する可能性が高いとして警告を発す
るようにしている。この際、第1図(口)に示すCOI
?!?ECTABLE El?ROI?(修正可能なエ
ラー)の場合には所定闇値以上の割合のときに警告を回
線を介して保守員の端末5に発するが、UNCORl?
ECTABLE ERROR (修正不可のエラー)の
場合には即時に警告を発するようにしている。
次に、第2図を用いて第1図構戒の動作を詳細に説明す
る。
る。
第2図において、■は、エラーロギングファイル2を定
期的に監視し、情報を分析する。これは、定期的に起動
された第1図(イ)監視分析部3が、エラーロギングフ
ァイル2を検索して装置毎にエラー情報を分析、例えば
第l図(ロ)に示すようにDASDについてリードエラ
ー割合をトラソク番号毎に求める。
期的に監視し、情報を分析する。これは、定期的に起動
された第1図(イ)監視分析部3が、エラーロギングフ
ァイル2を検索して装置毎にエラー情報を分析、例えば
第l図(ロ)に示すようにDASDについてリードエラ
ー割合をトラソク番号毎に求める。
■は、システムダウンになりそうか否かを判別する。こ
れは、■で分析した例えば第1図(ロ)DADSのリー
ドエラー割合が例えば30%を越えたトラノクがあるか
否かを判別する。YESの場合には、■以降を行う。N
Oの場合には、■を繰り返し行い、エラーロギングファ
イル2に格納されている全てのエラーロギング情報につ
いて分析し、システムダウンになりそうか否かを判別す
る。
れは、■で分析した例えば第1図(ロ)DADSのリー
ドエラー割合が例えば30%を越えたトラノクがあるか
否かを判別する。YESの場合には、■以降を行う。N
Oの場合には、■を繰り返し行い、エラーロギングファ
イル2に格納されている全てのエラーロギング情報につ
いて分析し、システムダウンになりそうか否かを判別す
る。
@は、@でシステムダウンになりそうと判別された装置
について、分析結果情報を績集して通報をMART4に
依頼する。
について、分析結果情報を績集して通報をMART4に
依頼する。
■は、依頼を受けたMART4は、予め定めた電話番号
例えば123−4567に発呼して保守員の端末5を呼
び出し、システムダウンになりそうな情報例えばDAS
Dのエラーロギング情報として、 DASDの機番#l トラックNol(場所) エラー内容(リードエラー) エラー発生回数/割合 分析結果(エラーレベル重/軽などの区別)を通報する
.これにより、保守員の端末5には、例えば“DASD
#1のリードエラ−回数が闇値を越えたため、交換手続
きを要するよ”などという警告メノセージを表示する。
例えば123−4567に発呼して保守員の端末5を呼
び出し、システムダウンになりそうな情報例えばDAS
Dのエラーロギング情報として、 DASDの機番#l トラックNol(場所) エラー内容(リードエラー) エラー発生回数/割合 分析結果(エラーレベル重/軽などの区別)を通報する
.これにより、保守員の端末5には、例えば“DASD
#1のリードエラ−回数が闇値を越えたため、交換手続
きを要するよ”などという警告メノセージを表示する。
この警告メッセージを見た保守員が該当する装置(DA
SDなど)を交換する。
SDなど)を交換する。
(マート)、5は端末を表す。
Claims (1)
- 【特許請求の範囲】 ハードウェアの状況を分析してシステムダウンを未然に
防止する未然防止方式において、 ホスト(1)におけるハードウェアのエラー情報を収集
して格納するエラーロギングファイル(2)と、このエ
ラーロギングファイル(2)の内容を分析してシステム
ダウンの可能性が高い装置(例えばDASD#1)を検
出する監視分析部(3)とを備え、この監視分析部(3
)によって検出したシステムダウンの可能性が高い装置
に関する情報を、回線を介して保守用の端末(5)に通
報し、画面上にその通報内容を表示して警告するように
構成したことを特徴とするシステムダウンの未然防止方
式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1233791A JPH0395641A (ja) | 1989-09-07 | 1989-09-07 | システムダウンの未然防止方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1233791A JPH0395641A (ja) | 1989-09-07 | 1989-09-07 | システムダウンの未然防止方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0395641A true JPH0395641A (ja) | 1991-04-22 |
Family
ID=16960626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1233791A Pending JPH0395641A (ja) | 1989-09-07 | 1989-09-07 | システムダウンの未然防止方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0395641A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06214835A (ja) * | 1993-01-13 | 1994-08-05 | Nec Corp | 故障予防方式 |
US6466897B1 (en) | 1998-02-26 | 2002-10-15 | Nec Corporation | Computer user aiding system, computer user aiding method and storage medium storing program therefor |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01217651A (ja) * | 1988-02-26 | 1989-08-31 | Nec Corp | 障害自動通報方式 |
-
1989
- 1989-09-07 JP JP1233791A patent/JPH0395641A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01217651A (ja) * | 1988-02-26 | 1989-08-31 | Nec Corp | 障害自動通報方式 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06214835A (ja) * | 1993-01-13 | 1994-08-05 | Nec Corp | 故障予防方式 |
US6466897B1 (en) | 1998-02-26 | 2002-10-15 | Nec Corporation | Computer user aiding system, computer user aiding method and storage medium storing program therefor |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109726072B (zh) | WebLogic服务器的监控告警方法、装置、系统及计算机存储介质 | |
CN101201786B (zh) | 一种故障日志监控方法及装置 | |
JPH02105947A (ja) | コンピユータ周辺サブシステム及びその例外事象自動検出分析方法 | |
US11853150B2 (en) | Method and device for detecting memory downgrade error | |
US7366933B1 (en) | Power event analysis | |
CN103763143A (zh) | 基于存储服务器的设备异常报警的方法及系统 | |
CN100351806C (zh) | 具有专用系统管理总线的计算机系统 | |
JPH0395641A (ja) | システムダウンの未然防止方式 | |
JPH11353819A (ja) | ディスク装置およびディスク装置の予防保守方法 | |
JPH10320536A (ja) | 画像情報蓄積伝送システム | |
CN111061609A (zh) | 一种日志监控方法及系统 | |
JP2003345629A (ja) | システム監視装置及びそれに用いるシステム監視方法並びにそのプログラム | |
JP3132136B2 (ja) | データ処理装置の障害表示方法 | |
CN110381498A (zh) | Sim卡池、服务器、用于sim卡池告警的方法和系统 | |
CN115766415B (zh) | 一种智能网卡vr状态监控装置、方法、终端及存储介质 | |
CN117909111A (zh) | 监控数据处理方法、装置、设备及存储介质 | |
JPH06348673A (ja) | 分散システムのシステムダウン防止装置 | |
CN115686890A (zh) | 一种处理器故障提前预警方法、系统、电子设备及介质 | |
JP2000089981A (ja) | 障害発生自動判定方法 | |
JP3479288B2 (ja) | リモート診断保守方式,方法,およびプログラム | |
KR100856254B1 (ko) | 관리 지능 플랫폼에서의 이벤트 추론 방법 | |
JPH01217651A (ja) | 障害自動通報方式 | |
KR100206472B1 (ko) | 전전자교환기에서 시스템 장애관리 및 복구방법 | |
EP1903526A1 (en) | Alarm management system | |
JPH02177654A (ja) | 障害通知方式 |