JP2000099371A - 障害監視システム - Google Patents

障害監視システム

Info

Publication number
JP2000099371A
JP2000099371A JP10269288A JP26928898A JP2000099371A JP 2000099371 A JP2000099371 A JP 2000099371A JP 10269288 A JP10269288 A JP 10269288A JP 26928898 A JP26928898 A JP 26928898A JP 2000099371 A JP2000099371 A JP 2000099371A
Authority
JP
Japan
Prior art keywords
monitoring system
fault
failure
message
fault monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10269288A
Other languages
English (en)
Inventor
Fumihito Yoshimura
史仁 吉村
Reiji Hanawa
礼司 塙
Minoru Kobayashi
小林  実
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP10269288A priority Critical patent/JP2000099371A/ja
Publication of JP2000099371A publication Critical patent/JP2000099371A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 【課題】本発明は、遠隔地からユーザの人手を介さず、
障害監視システム未起動中の障害情報及び起動後の障害
情報を収集し、迅速に原因を究明し、障害部位を特定す
るところにある。 【解決手段】障害監視システム未起動中に発生した障害
情報(ハードログとメッセージ)を取得するため、障害
監視システム起動後、自動的に障害記録ファイルを最新
のハードログから順次逆読みし、関連するメッセージの
時刻をキーにしてメッセージログファイルから読み出
し、転送用ファイルに記録し、遠隔地のパソコンに転送
する。また、障害監視システム起動後は障害発生時、リ
アルタイムにハードログを受け取り、関連するメッセー
ジを付加して、前記転送用ファイルに記録し、遠隔地の
パソコンに転送する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明分野は、ホストシステ
ムの障害を監視するハードウェアの保守分野に適用され
る。ホストシステムは大型汎用コンピュータにディスク
装置や磁気テープ装置などが接続され、ネットワークを
介して、端末が多数接続されている。ホストシステム内
のそれらの機器を遠隔地の保守拠点にいる保守員が監視
する。
【0002】本発明分野は、障害発生時ユーザの人手を
介さず、遠隔地から障害情報を収集し、迅速に原因を究
明し、障害部位を特定するところにある。なお、最終的
に保守員は障害部位の特定後、部品交換を実施する。
【0003】
【従来の技術】従来、ホストシステムのオペレーティン
グシステム下で動作する障害監視システムは、障害監視
システムの起動から終了まで障害監視を行う。
【0004】障害監視システム未起動中でも、障害発生
時、オペレーティングシステムがハードログを障害記録
ファイルに、メッセージをメッセージログファイルに記
録している。
【0005】従来、障害監視システム未起動中の障害情
報の取得は、 1.ホストシステムにいるユーザがバッチジョブを実行
して、障害記録ファイルやメッセージログファイルを編
集する。
【0006】2.遠隔地の保守拠点にFAXで連絡す
る。
【0007】といった人手の絡む作業が必要であり、障
害切り分けに長時間を要していた。
【0008】ネットワークシステムの障害を監視する障
害監視システムとしては、特開平6−120948「複
数通信ネットワーク監視システム」、特開平7―747
99「ネットワーク管理システムにおける障害情報出力
方式」、特開平10−027145「ネットワーク障害
監視システムの検証方式」がある。
【0009】
【発明が解決しようとする課題】障害発生時、保守員が
障害切り分けを行う時、障害情報としてハードログとメ
ッセージを必ず参照する。
【0010】従来方式では前記の通り、障害監視システ
ム未起動中の障害情報の取得に人手を要し、障害切り分
けに長時間を要していた。また、障害監視システム未起
動中で、IPL中は発生する障害の約50%を占め、高
い確率で発生する。
【0011】従って、障害監視システム未起動中の障害
情報収集を自動化することにより、障害切り分け時間を
短縮することが重要である。また、遠隔地のパソコンに
表示することにより、IPL中の障害及びIPL後の障
害を対比し監視する必要がある。
【0012】
【課題を解決するための手段】上記の課題を解決し、遠
隔地から、常時ホストシステムの障害を監視するための
手段を以下に述べる。
【0013】ホストシステム下では障害監視システムの
起動に関係なく、常にオペレーティングシステムでハー
ドログを障害記録ファイルに、メッセージをメッセージ
ログファイルに記録している。
【0014】そこで、障害監視システム未起動中に発生
した障害情報(ハードログとメッセージ)を取得するた
め、障害監視システム起動後、自動的に障害記録ファイ
ルを最新のハードログから順次逆読みし、関連するメッ
セージの時刻をキーにしてメッセージログファイルから
読み出し、転送用ファイルに記録し、遠隔地のパソコン
に転送する。
【0015】また、障害監視システム起動後は障害発生
時、リアルタイムにハードログを受け取り、関連するメ
ッセージを付加して、前記転送用ファイルに記録し、遠
隔地のパソコンに転送する。
【0016】この方式により、障害監視システムが未起
動中に発生した障害情報の収集を人手を介さず、遠隔地
に転送可能となる。遠隔地のパソコンでは、障害監視シ
ステム未起動中の障害状況及び障害監視システム起動後
の障害状況を対比して表示することができる。
【0017】
【発明の実施の形態】以下、本方式の実施の形態を図面
によって詳述する。
【0018】図1はユーザ運用ネットワークシステム、
図2は障害監視システムの構成図、図3は障害レコード
読出し処理の障害レコード及びメッセージの取得範囲、
図4は遠隔地のパソコン上の表示例である。
【0019】図1において、100は入出力機器群及び
多数の端末に接続したユーザ1のネットワークシステ
ム、110はユーザ2のネットワークシステム、200
は前記ネットワークシステム全体を集中監視する管理ホ
スト、210はネットワークシステム100で発生した
障害レコードを時間順に記録する障害記録ファイル、2
20はネットワークシステム内で発生した障害を契機に
関連するメッセージログファイル、230は外部記憶装
置やプリンタなど、多数の入出力機器に接続されている
入出力機器群、240は複数の端末250に接続されて
いるLAN、300はGW(ゲートウェイ)下で管理ホ
スト200からのハードログ及びメッセージが転送され
て、GWファイル310に記録し、遠隔地へ送信する送
信装置、400はネットワークシステム100の障害状
況を一元的に監視する遠隔地のパソコン、500はネッ
トワークシステム100と遠隔地のパソコン400を専
用線で結ぶ通信回線である。
【0020】図2において、管理ホスト200内に、障
害監視システムを起動した直後に未起動中あるいはIP
L中の障害レコードを障害記録ファイル210から読み
出す処理を行う障害レコード読出し処理部、障害監視シ
ステム稼働中にネットワークシステム100で障害が発
生したハードログをトラップする障害レコードトラップ
処理部、ハードログを契機に関連するメッセージをメッ
セージログファイルから取得するメッセージ取得処理
部、障害レコード読出し処理部または障害レコードトラ
ップ処理部からの障害レコードに、メッセージ取得処理
部から障害レコードを契機に関連するメッセージを付加
してGWファイル310に書込むGWファイル書込み処
理部である。
【0021】まず、IPL起動直後に起動されオペレー
ティングシステム終了時に終了する障害監視システム
は、ネットワークシステム100内の入出力機器群23
0及びLAN240など、いずれかの装置で障害発生
時、管理ホスト200に障害レコードが通知され、障害
記録ファイル210に記録される。障害記録ファイル2
10に記録すると同時に、障害レコードトラップ処理部
で障害レコードを受け取り、GWファイル書込み処理部
に通知する。GWファイル書込み処理部でメッセージロ
グファイル220より契機に関連するメッセージをメッ
セージ取得処理部から取得し、障害レコードに付加し
て、GWの送信装置下のGWファイル310に書込む。
送信装置300からハードログ及びメッセージを通信回
線500で遠隔地のパソコン400に転送する。遠隔地
では、パソコン400により複数のユーザ運用ネットワ
ークシステムの障害状況を遠隔監視する。
【0022】また、障害監視システムが未起動中の場
合、ネットワークシステムの障害を障害記録ファイル2
10に記録される。障害監視システムが起動した直後に
障害レコード読出し処理部で、障害記録ファイル210
内に最新ハードログを記録する時に更新する位置を示す
カレントポインタから障害監視システムの前回終了日付
時刻までの障害レコードを読み出す。または障害監視シ
ステムを導入する時に前回終了日付時刻が存在しないの
で、IPL開始時に記録されるIPLレコードを検出す
るまでに障害レコードを読み出す。
【0023】詳しくは、図3において、前回終了日付時
刻が存在している場合は管理ホスト200より前回終了
日付時刻を取得する。そして、障害記録ファイル210
からカレントポインタ及びカレントポインタ内のレコー
ド時刻を取得し、障害レコード読出し処理で取得する範
囲は前回終了日付時刻(またはIPLレコード検出)か
らカレントポインタのレコード時刻までと設定する。障
害記録ファイル210より障害レコードを読み出してレ
コード時刻が取得範囲内であるかをチェックし、取得範
囲内であればGWファイル書込み処理部に渡す。以後は
障害監視システムが稼動しているのと同じ処理の流れ
で、遠隔地のパソコン400に転送する。
【0024】遠隔地のパソコン400では、複数の管理
ホスト200からファイル転送したハードログ及びメッ
セージを図4のようにディスプレイに表示し、ネットワ
ークシステム内の障害を監視する。
【0025】
【発明の効果】以上述べたように、障害監視システム起
動時に障害記録ファイルからハードログを読み出し、メ
ッセージログファイルから関連するメッセージを読み出
し、障害監視システム未起動中のハードログ及びメッセ
ージを遠隔地のパソコンに転送することにより、以下の
効果がある。
【0026】1.障害監視システム未起動時の障害情報
を人手を介さず、遠隔地へ転送できる。
【0027】2.遠隔地のパソコン上で障害監視システ
ム未起動中の障害状況と障害監視システム起動中の障害
状況を時系列に表示することにより、間断なく障害監視
可能になる。
【0028】1.2により障害切り分け時間を短縮でき
る。
【図面の簡単な説明】
【図1】 ユーザ運用ネットワークシステムの構成を示
した図。
【図2】 障害監視システムの構成を示した図。
【図3】 障害レコード読出し処理の障害レコード及び
メッセージの取得範囲を示した図。
【図4】 遠隔地のパソコンにネットワークシステム内
のハードログ及びメッセージを表示する例を示した図。
【符号の説明】
100・・・ユーザ1のネットワークシステム 110・・・ユーザ2のネットワークシステム 200・・・管理ホスト 210・・・障害記録ファイル 220・・・メッセージログファイル 230・・・ネットワークシステム下の入出力機器群 240・・・ネットワークシステム下のLAN 250・・・LAN240下の端末 300・・・GW下の送信装置 310・・・送信装置300下のGWファイル 400・・・遠隔地のパソコン 500・・・通信回線
フロントページの続き (72)発明者 小林 実 神奈川県秦野市堀山下1番地 株式会社日 立製作所汎用コンピュータ事業部内 Fターム(参考) 5B042 GC15 JJ02 JJ36 KK12 LA20 LA21 MC15 MC36

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】多数の端末及びネットワーク機器を一元管
    理する管理ホストのオペレーティングシステム下で動作
    する障害監視システムで、IPL起動直後に障害監視シ
    ステムが起動され、オペレーティングシステム終了時に
    終了する障害監視システムにおいて、障害監視システム
    起動時に、前記管理ホストに接続された障害記録ファイ
    ルから障害監視システム未起動中に発生したハードログ
    を読み出し、関連するメッセージを取得して、遠隔地の
    パソコンに転送することを特徴とする障害監視システ
    ム。
  2. 【請求項2】前記障害監視システムにおいて、障害監視
    システム起動後はネットワーク内で障害発生時に発生し
    たハードログを契機に関連するメッセージを取得して、
    リアルタイムに遠隔地のパソコンに転送することを特徴
    とする障害監視システム。
  3. 【請求項3】遠隔地のパソコンに複数の管理ホストを接
    続することにより、常時、パソコン上で、各管理ホスト
    の未起動中あるいはIPL中の障害及びIPL後の障害
    を時系列に連続的に監視できることを特徴とする障害監
    視システム。
JP10269288A 1998-09-24 1998-09-24 障害監視システム Pending JP2000099371A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10269288A JP2000099371A (ja) 1998-09-24 1998-09-24 障害監視システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10269288A JP2000099371A (ja) 1998-09-24 1998-09-24 障害監視システム

Publications (1)

Publication Number Publication Date
JP2000099371A true JP2000099371A (ja) 2000-04-07

Family

ID=17470272

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10269288A Pending JP2000099371A (ja) 1998-09-24 1998-09-24 障害監視システム

Country Status (1)

Country Link
JP (1) JP2000099371A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165143A (zh) * 2018-08-17 2019-01-08 张家港康得新光电材料有限公司 数据库检测方法、系统、服务器及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165143A (zh) * 2018-08-17 2019-01-08 张家港康得新光电材料有限公司 数据库检测方法、系统、服务器及存储介质

Similar Documents

Publication Publication Date Title
US6199180B1 (en) Computer management system
US7801984B2 (en) Diagnostic/remote monitoring by email
US20060010286A1 (en) Tape drive apparatus
US20050144513A1 (en) Computer system including active system and redundant system and state acquisition method
JP3653335B2 (ja) コンピュータ管理システム
JP2000099371A (ja) 障害監視システム
JP2004094701A (ja) 監視情報表示システムと監視情報表示方法およびプログラムならびに監視装置
JP2000010829A (ja) 障害解析支援装置および方法
JP3294511B2 (ja) ビル遠隔監視装置
JP2002044039A (ja) 保守データ転送方式
JPH0291735A (ja) リモート障害保守管理システム
JPH11161518A (ja) 管理プロセッサによる情報処理システム立ち上げ時のス トール監視装置と方法および記録媒体
JPH05113949A (ja) バス・データ収集システム
JP2928157B2 (ja) 通信セションのモニタ装置と方法
CN114706739A (zh) 一种故障记录、定位方法、装置以及服务器
JP3328474B2 (ja) ネットワーク監視制御装置
JP2522610B2 (ja) 生産監視システムの復帰方式
JP3495888B2 (ja) 商品販売データ処理装置および方法並びに商品販売データ処理プログラムを記憶したコンピュータで読取り可能な記憶媒体、ストアコントローラ
CN116582422A (zh) 一种网卡异常处理方法、网卡异常处理系统及相关装置
CN115526793A (zh) 一种视频压缩动态补帧的方法、系统、设备和存储介质
JPH0793189A (ja) 保守診断装置
JP2003157128A (ja) 電源制御方法
JP2006309636A (ja) 監視制御システム
JP2006048249A (ja) 制御装置及び監視端末
JPS62256048A (ja) 遠隔診断機能付計算機システム