JPH11212826A - 障害情報出力方式及び装置 - Google Patents

障害情報出力方式及び装置

Info

Publication number
JPH11212826A
JPH11212826A JP10018561A JP1856198A JPH11212826A JP H11212826 A JPH11212826 A JP H11212826A JP 10018561 A JP10018561 A JP 10018561A JP 1856198 A JP1856198 A JP 1856198A JP H11212826 A JPH11212826 A JP H11212826A
Authority
JP
Japan
Prior art keywords
fault
information
failure
software
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10018561A
Other languages
English (en)
Inventor
Yoshiro Sato
善郎 佐藤
Makoto Odagi
誠 小田木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP10018561A priority Critical patent/JPH11212826A/ja
Publication of JPH11212826A publication Critical patent/JPH11212826A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

(57)【要約】 【課題】本発明は、直接的な障害情報からその影響範囲
とその影響の大きさを障害監視システムの利用者および
問題解決者にすばやく報告することによって問題解決に
対する迅速な対応を可能にすることを目的とする。 【解決手段】前記目的は、次の方法により達成される。
(1)障害が発生した計算機および周辺装置(ハードウ
ェア)を使用していたプログラムをDBに登録してお
く。(2)障害発生を検知したプログラムが単独で動作
していたのか、他のプログラムから呼び出されたのかを
DBに登録しておき、その他のプログラムから呼び出さ
れたプログラムから障害が発生したならばそれを呼び出
した呼び出し元のプログラムと更に上位のプログラムが
あればそれらも表示する。(3)障害の重要度/影響度
に応じてその重み付けをすることによって、その重要度
/影響度に応じた表示処理を切り替えられるようにす
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】障害監視システムにおける障
害情報の表示方法に関する。
【0002】
【従来の技術】従来の障害監視システムは問題が発生し
た計算機(ハードウェア)やプログラム(ソフトウェ
ア)からトラブルチケットを取得し、その情報を蓄え適
当な表示形式でディスプレイに表示し、その表示内容か
ら問題や障害の内容を把握し問題の解決を導き出す。こ
の時、表示される情報は直接その問題が発生した計算機
やその周辺装置であるハードウェア、または、障害を検
出したプログラム(ソフトウェア)の情報に限られてい
る。それは、通常問題を発見した人または障害検出プロ
グラムが認識できる範囲が限られるからである。したが
って、問題の解決者は、登録された直接的な情報からそ
の影響範囲を推測し、または、必要に応じて別の資料を
採取して問題の早期解決と障害に対する影響を最小限に
するためにあらゆる可能性を調査する必要がある。
【0003】
【発明が解決しようとする課題】本発明は、直接的な障
害情報からその影響範囲とその影響の大きさを障害監視
システムの利用者および問題解決者にすばやく報告する
ことによって問題解決に対する迅速な対応を可能にする
ことを目的とする。
【0004】
【課題を解決するための手段】前記目的は、次の方法に
より達成される。(1)障害が発生した計算機および周
辺装置(ハードウェア)を使用していたプログラムをD
Bに登録しておく。(2)障害発生を検知したプログラ
ムが単独で動作していたのか、他のプログラムから呼び
出されたのかをDBに登録しておき、他のプログラムか
ら呼び出されたプログラムから障害が発生したならばそ
れを呼び出した呼び出し元のプログラムと更に上位のプ
ログラムがあればそれらも表示する。(3)障害の重要
度/影響度に応じてその重み付けを数値化することによ
って、その重要度/影響度に応じた表示処理を切り替え
られるようにする。
【0005】
【発明の実施の形態】以下、本発明の実施例について図
面を用いて説明する。
【0006】図1は、複数のサーバ(105)がネット
ワーク(104)でつながっている環境において、その
環境の中で発生するハードウェアまたはソフトウェアの
障害を一つまたは複数のサーバに情報を蓄えるようにす
る障害監視システムを構築した例である。ここで、障害
情報を蓄えるサーバを障害監視サーバ(102)と呼
ぶ。この例では単純に一つの障害監視サーバをもつ。障
害監視サーバ(102)は、その障害情報を蓄えるため
のデータベース(103)を持つ。もちろん、データベ
ースは物理的に障害監視サーバと同じサーバに接続して
いてもよいし、別のサーバに接続されていても構わない
が、この例では障害監視サーバと同じサーバに接続され
ていることとする。また、障害を監視される被監視サー
バ(105)には、実行されるプログラムの実行履歴
(ログ)を残すためのログファイル(106)がある。
このログファイルは障害監視サーバ(102)からリモ
ートアクセスできる。また、被監視サーバの中にネット
ワークを管理するサーバ(109)があり、そのサーバ
には、当該ネットワークにどの装置が接続されているか
の接続情報を格納したネットワーク構成DB(110)
を持つ。障害監視サーバ(102)は、出力装置(10
0)を持つ。この例では出力装置(100)はCRTの
ように障害情報表示画面(101)を持っているものと
する。障害情報表示画面(101)には、障害情報を表
示する2つの領域があり、1つは発生した障害の直接の
内容を示す障害情報を表示する領域(107)であり、
もう1つはその発生した情報に関連する情報を表示する
領域(108)である。障害の内容を直接表示する領域
(107)は、各サーバから障害監視サーバ(102)
に通知される障害通知メッセージを元に該当する表示形
式に変換して表示する。また、障害の関連情報を表示す
る領域(108)には、障害が発生したことにより影響
を受けると予測されるプログラムを表示する。この情報
により、障害の起きた直接の場所だけでなく、影響を受
けそうなプログラムを一緒に表示することができる。こ
の時関連情報として表示する影響を受けると予測される
プログラムの情報の求め方を次に示す。
【0007】計算機のハードウェアまたはソフトウェア
に障害が発生した時に、その内容は、ハードウェアまた
はソフトウェア障害ともに同一のメッセージにより通知
される。図2にその通知されるメッセージのフォーマッ
ト例(201,202)を示す。この例では(201)
はハードウェア障害の時の例で、(202)がソフトウ
ェア障害の時の例を表す。まず(201)(202)両
方に共通のものとして、メッセージID(203)とそ
のIDに対応するメッセージ本体(204)がある。そ
れから、その障害の影響度に応じて予め決めてある障害
レベルを格納した領域(205)がある。また、障害が
ハードウェア/ソフトウェアかを識別するハードウェア
/ソフトウェア識別子(206)がある。それから障害
がハードウェアであれば障害が発生した装置ID(20
7)、ソフトウェアであれば障害が発生したプログラム
ID(208)と実行していたサーバ名(209)を格
納する。これらをメッセージを被監視サーバで障害を検
知するプログラムが発行し、発行された障害通知メッセ
ージは障害監視サーバに通知され障害情報管理DB(1
03)に格納される。
【0008】通知されたメッセージを元に障害監視サー
バでは障害情報の登録を行う。そして、その時、その障
害によって影響を受ける可能性のある関連情報の検索を
行い、関連する情報があれば、その情報を格納する。そ
して、その情報を利用したい人の要求に応じて障害監視
サーバの関連情報表示画面に表示することができる。以
下は、障害発生により、通知された情報を元にそれに関
連する情報をどういう手順で検索するか説明する。
【0009】検索手順を説明するまえに、その検索に用
いるログファイルの構造について説明する。図3はログ
ファイルに格納されたログレコードのフォーマットの例
(301)である。ログファイルは、各サーバのプログ
ラムの実行履歴を格納したものである。採取するログ情
報には、そのログを採取した時の時刻(302)とその
ログを出力したプログラムの状態(303)とそのプロ
グラム名(304)、それから、そのプログラムを呼び
出した呼び出し元プログラム名(305)と呼び出し元
のプログラムの実行サーバ名(306)が記録されてい
る。これらの情報が記録されたものが1つのログレコー
ド(301)としてログファイルに格納されている。図
4にその格納例を示す。ログファイルの中は1つのログ
レコード(401)が時系列に格納されている。(40
2)〜(406)は図3の(302)〜(306)にそ
れぞれ対応しており、実際に格納されているデータの例
を示している。このログファイルを元に障害発生元に関
連した情報の検索を行うことができる。以下にその手順
を図5、図6を使って説明する。
【0010】まず図5で、各被監視サーバ上の実行プロ
グラムまたは監視プログラムが障害が発生(501)し
たことを検知すると、その障害に応じて障害メッセージ
を発行(502)する。発行されたメッセージは障害監
視サーバに通知され障害情報として障害情報管理DBに
格納(503)する。この時障害監視サーバは、その障
害メッセージからまずハードウェアの障害かソフトウェ
アの障害かを判定(504)する。
【0011】発生した障害がハードウェアの場合は、通
知された障害通知メッセージ(201)から、その障害
の発生した装置IDを取り出し、その装置IDから該当
するハードウェア装置を検索(505)する。その検索
した装置がサーバ自体を示しているか、ネットワークか
を判定(506)する。サーバ自身を表す時は、そのサ
ーバに該当するログファイルを選択(507)し、その
ログファイルから障害発生時点の実行中でまだ完了して
いないプログラムの検索(508)と、障害発生時動い
ていて、プログラム自体は完了しているが異常終了とな
ったプログラムの検索(509)を行う。また、障害発
生装置がサーバが接続しているネットワークの場合は接
続されている全てのサーバに対応するログファイルから
障害発生時点の実行中でまだ完了していないプログラム
の検索(511)と、障害発生時動いていて、プログラ
ム自体は完了しているが異常終了となったプログラムの
検索(512)を行う。これらの検索によって得られた
関連情報は、直接の障害情報をキーとして取り出せるよ
うにDBに格納(510)する。これにより、障害情報
管理DBに、ハードウェアの障害発生時に、関連するソ
フトウェアの情報を格納することができる。
【0012】次に、発生した障害がソフトウェアの場合
は、図6にその手順を示す。
【0013】通知された障害通知メッセージ(202)
から、その障害の発生したプログラムIDと実行サーバ
名を取り出し、該当するプログラムと実行サーバ名を取
得(601)する。そしてその実行サーバに該当するロ
グファイルを選択(602)し、そこから障害発生時点
で実行中でまだ完了していないプログラムの検索(60
3)と、障害発生時動いていて、プログラム自体は完了
しているが異常終了となったプログラムの検索(60
4)を行う。発生した障害がネットワークに関していな
ければこのまま次のステップ(510)へ進むが、これ
がネットワークに関する障害の場合、ソフトウェアの障
害で関連するハードウェアに影響を及ぼすため、その情
報を検索(606)する。検索は図1のネットワーク管
理サーバ(109)のネットワーク構成DB(110)
を検索し、該当するネットワークに接続されているハー
ドウェアの情報を検索する。
【0014】これらの検索によって得られた関連情報
は、直接の障害情報をキーとして取り出せるようにDB
に格納(510)する。これにより、障害情報管理DB
に、ソフトウェアの障害発生時に、関連するソフトウェ
アの情報やハードウェアの情報を格納することができ
る。
【0015】これらの収集した情報は、障害監視サーバ
上の関連情報表示画面(108)に表示することができ
る。これによって、その障害による影響範囲の把握が迅
速に行うことが可能となる。
【0016】また、次に、格納した情報を表示する場合
の特徴を図7を用いて説明する。障害といっても全てが
すぐに対策をしなければいけないものばかりではない。
障害情報を利用者は障害が表示された時に直感的に重大
な障害が発生しているのか、軽微な障害が発生している
のかがわかるようにしてもらいたいものである。そのた
めに障害通知メッセージに付加されている障害レベルを
判定(701、702)して、例えば障害レベルが重大
な障害を表していれば赤い文字で表示(703)した
り、軽微な障害であれば黄色い文字で表示(704)し
たり、参考程度の情報であれば青い文字で表示(70
5)するなど、障害レベルに応じて表示方法の切り替え
を可能とするしくみを障害監視サーバで持つことで、障
害情報を利用者にわかりやすく表示させるシステムを構
築することが可能である。
【0017】
【発明の効果】本発明によれば、障害発生時に関連する
ハードウェア、ソフトウェアの情報を採取し同時に画面
表示することにより、障害対策を実施する場合の調査の
手間を軽減するとともに、影響範囲を一目で把握するこ
とができ、影響範囲の拡大を防ぐ対策を迅速に行うこと
ができる。また、障害に応じた表示形式の変更が可能に
なることにより、より直感的に障害の重要性を把握で
き、対応の優先度が一目で分かるという効果がある。
【図面の簡単な説明】
【図1】全体構成図。
【図2】障害通知メッセージのフォーマット例。
【図3】ログレコードのフォーマット例。
【図4】ログファイルの構成例。
【図5】関連情報検索手順(ハードウェア障害の時)
【図6】関連情報検索手順(ソフトウェア障害の時)
【図7】障害情報表示切り替え手順。
【符号の説明】
100…出力装置、 101…障害情報表示画面、
102…障害監視サーバ、103…障害情報管理DB、
104…ネットワーク、 105…被監視サーバ、10
6…ログファイル格納ディスク、 107…障害情報
表示画面、108…障害関連情報表示画面、 1
09…ネットワーク管理サーバ、110…ネットワーク
構成DB、201…ハードウェア障害時のメッセージフ
ォーマット、202…ソフトウェア障害時のメッセージ
フォーマット、301…ログレコード・フォーマット。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】ネットワークに接続された複数の計算機の
    ハードウェアとソフトウェアの障害を監視する障害監視
    システムにおいて、前記計算機のハードウェア障害発生
    時に、前記ハードウェア障害の影響を受けた前記計算機
    のソフトウェアの情報を採取し、前記計算機のハードウ
    ェア障害情報とそれに起因する前記計算機のソフトウェ
    ア情報を障害監視サーバの出力手段へ同時に出力するこ
    とを特徴とする障害情報出力方式。
  2. 【請求項2】ネットワークに接続された複数の計算機の
    ハードウェアとソフトウェアの障害を監視する障害監視
    システムにおいて、前記計算機のソフトウェア障害発生
    時に、前記ソフトウェア障害の影響を受けた前記計算機
    のソフトウェアの情報を採取し、前記計算機のソフトウ
    ェア障害情報とそれに起因する前記計算機のソフトウェ
    ア情報を障害監視サーバの出力手段へ同時に出力するこ
    とを特徴とする障害情報出力方式。
  3. 【請求項3】ネットワークに接続された複数の計算機の
    ハードウェアとソフトウェアの障害を監視する障害監視
    システムにおいて、前記計算機のソフトウェア障害発生
    時に、前記ソフトウェア障害の影響を受けた前記計算機
    のハードウェアの情報を採取し、前記計算機のソフトウ
    ェア障害情報とそれに起因する前記計算機のハードウェ
    ア情報を障害監視サーバの出力手段へ同時に出力するこ
    とを特徴とする障害情報出力方式。
  4. 【請求項4】ネットワークに接続された複数の計算機の
    ハードウェアとソフトウェアの障害を監視する障害監視
    システムにおいて、前記計算機のハードウェアまたはソ
    フトウェアの障害情報の重要性に応じて利用者に障害情
    報の表示形式を変化させる手段を有することを特徴とす
    る障害情報表示装置。
JP10018561A 1998-01-30 1998-01-30 障害情報出力方式及び装置 Pending JPH11212826A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10018561A JPH11212826A (ja) 1998-01-30 1998-01-30 障害情報出力方式及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10018561A JPH11212826A (ja) 1998-01-30 1998-01-30 障害情報出力方式及び装置

Publications (1)

Publication Number Publication Date
JPH11212826A true JPH11212826A (ja) 1999-08-06

Family

ID=11975044

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10018561A Pending JPH11212826A (ja) 1998-01-30 1998-01-30 障害情報出力方式及び装置

Country Status (1)

Country Link
JP (1) JPH11212826A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100521147B1 (ko) * 2002-12-13 2005-10-12 삼성전자주식회사 어플리케이션 에러 정보에 대한 로그 처리 방법
KR100546972B1 (ko) * 2001-03-01 2006-02-01 인터내셔널 비지네스 머신즈 코포레이션 논리적으로 분할된 다중처리 시스템 내에서 발생하는 에러 이벤트를 보고하는 방법
JP2008226017A (ja) * 2007-03-14 2008-09-25 Ns Solutions Corp ログ情報生成装置、ログ情報管理装置、ログ情報生成方法、ログ情報管理方法及びプログラム
US7870045B2 (en) 2002-01-17 2011-01-11 Fujitsu Limited Computer system for central management of asset information
JP2011188422A (ja) * 2010-03-11 2011-09-22 Kddi Corp 影響サービスを特定する監視システムおよびその方法
CN115022162A (zh) * 2022-05-23 2022-09-06 安徽英福泰克信息科技有限公司 一种云服务器故障查漏系统及方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100546972B1 (ko) * 2001-03-01 2006-02-01 인터내셔널 비지네스 머신즈 코포레이션 논리적으로 분할된 다중처리 시스템 내에서 발생하는 에러 이벤트를 보고하는 방법
US7870045B2 (en) 2002-01-17 2011-01-11 Fujitsu Limited Computer system for central management of asset information
KR100521147B1 (ko) * 2002-12-13 2005-10-12 삼성전자주식회사 어플리케이션 에러 정보에 대한 로그 처리 방법
JP2008226017A (ja) * 2007-03-14 2008-09-25 Ns Solutions Corp ログ情報生成装置、ログ情報管理装置、ログ情報生成方法、ログ情報管理方法及びプログラム
JP2011188422A (ja) * 2010-03-11 2011-09-22 Kddi Corp 影響サービスを特定する監視システムおよびその方法
CN115022162A (zh) * 2022-05-23 2022-09-06 安徽英福泰克信息科技有限公司 一种云服务器故障查漏系统及方法

Similar Documents

Publication Publication Date Title
JP4172807B2 (ja) 障害発生の原因箇所の発見を支援する技術
JP3875436B2 (ja) ネットワーク管理装置および記録媒体
US6021437A (en) Process and system for real-time monitoring of a data processing system for its administration and maintenance support in the operating phase
KR101971013B1 (ko) 빅데이터 기반의 클라우드 인프라 실시간 분석 시스템 및 그 제공방법
JP2014067369A (ja) 情報処理装置,プログラム,情報処理方法
US7734769B2 (en) Monitoring system of apparatuses connected in a network, monitoring apparatus, monitoring method and program
JP2012080181A (ja) 障害情報管理方法および障害情報管理プログラム
US9021078B2 (en) Management method and management system
JPH11212826A (ja) 障害情報出力方式及び装置
JP2001005692A (ja) 計算機システムおよびその保守管理システム並びに障害通知方法
JP2008005118A (ja) ネットワーク監視システム
JP2007013928A (ja) 遠隔障害監視装置及び遠隔障害監視方法
JP3867868B2 (ja) 障害統合管理装置
JP2009134535A (ja) ソフトウェア開発支援装置、ソフトウェア開発支援方法及びソフトウェア開発支援プログラム
JP3622719B2 (ja) 障害情報表示システム
JPH0541706A (ja) ネツトワーク自動監視・制御システム
JPH1069400A (ja) 計算機システムおよびその障害回復支援方法
JP3271676B2 (ja) 通信プロトコル故障解析方法および装置
JP5655639B2 (ja) 監視装置、監視方法、プログラム及び監視システム
JP3102349B2 (ja) 分散配置コンピュータシステムの障害監視通報装置
JP2001005795A (ja) 分散システムにおける異常検出方法
CN109558385B (zh) 一种基于Linux系统的日志文件管理装置
JP2003140925A (ja) タスク監視システム及び方法
JP7167749B2 (ja) 情報処理装置、情報処理システム、及び情報処理プログラム
JP4271612B2 (ja) 障害検出システム及び方法