JP2001014187A - 障害診断システム - Google Patents

障害診断システム

Info

Publication number
JP2001014187A
JP2001014187A JP11182918A JP18291899A JP2001014187A JP 2001014187 A JP2001014187 A JP 2001014187A JP 11182918 A JP11182918 A JP 11182918A JP 18291899 A JP18291899 A JP 18291899A JP 2001014187 A JP2001014187 A JP 2001014187A
Authority
JP
Japan
Prior art keywords
fault
information
failure
reported
constitution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11182918A
Other languages
English (en)
Inventor
Kenichi Akiyama
憲一 秋山
Daisuke Sasaki
大介 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP11182918A priority Critical patent/JP2001014187A/ja
Publication of JP2001014187A publication Critical patent/JP2001014187A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)
  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 【課題】ソフトウェア不良による障害は予防が困難で、
報告済の解決された障害に該当するか否かを確認するも
の人手と時間を要した。 【解決手段】障害が発生すると障害通知部01が障害診
断部11を介してインタネット等で公開されている報告
済障害データベース12を検索し、発生した障害に該当
するか診断する。報告済障害データベース12が更新さ
れると障害診断部11が障害通知部01にこれを通知す
る。既存の障害情報とつきあわせることで、障害診断効
率と予防保守精度が向上する効果がある。

Description

【発明の詳細な説明】
【発明の属する技術分野】本発明は計算機システムにお
いて顕在化した障害、および潜在的な障害への対処方式
に関わり、特に報告済みの障害情報を活用して迅速な対
処を行うためのシステム診断の対応方式に関する。
【従来の技術】予防保守という観点では特開平10-26911
2号や特開平6-175887号に見られるように、発生した障
害の総回数や頻度を、しきい値を用いてハードウェア監
視を行うものがある。ソフトウェア障害については、既
存の障害および対策方法を直接的、自動的に障害と対応
づけして修正版適用の迅速化や予防的な監視に用いる技
術はみられない。また、インターネットの普及がネット
ワーク経由での障害情報や修正版の入手を容易にした
が、これらの情報を診断システムの一要素としてとり入
れる技術も特に報告されていない。
【発明が解決しようとする課題】しきい値管理はハード
ウェアへの適用が主で、ソフトウェア障害の診断には適
当でないという問題があった。また、ソフトウェア障害
に対しては一般に予防保守が困難で、発生した場合にそ
れ自体回避が不可能なものが多いという問題がある。ま
た、インターネットの普及により障害情報や修正版の入
手は容易になったものの、これらの情報は管理者やベン
ダのサービス担当者により時間をかけて、その適用可否
の判断を行わねばならなかった。このように従来の技術
はソフトウェア障害の本性に対する具体的な診断および
対処の方策に欠けていた。また、既に蓄積されて利用可
能な障害情報を活用する工夫もなされていなかった。本
発明の目的は、既存の障害情報を活用することで、シス
テムの予防保守精度と障害回復効率を向上することが目
的である。
【課題を解決するための手段】上記目的達成のため、本
発明は報告されたハードウェアおよびソフトウェアの障
害情報をデータベース化して各々のシステムからアクセ
ス可能にすることで、障害発生時の状態と対応づけ、管
理者への報告を行うようにしたものである。また、障害
情報の該非確認の精度を向上するため、各々の障害監視
対象システム上で障害情報に対応する該非確認プログラ
ムを実行し、その結果によって該非を判断するようにし
たものである。さらに、障害に対する修正版/回避策が
提供された場合、対策方法を障害監視対象のシステムに
通知することで、未解決、もしくは潜在的な障害に対す
る対策を行うようにしたものである。その上、発生した
障害に対する修正版/回避策がすでに提供されている場
合には、その修正版/回避策を自動的に適用するように
したものである。例えば、障害を特定する情報と修正版
/回避策を併せて蓄積したデータベースを構築する。個
々のシステムは障害発生時や同データベース内容が更新
された時に同データベースを検索して現状の障害や構成
に該当する障害情報を探し出す。障害の該非判定は同障
害に特徴的なエラーメッセージやハードウェア、ソフト
ウェア構成の比較で行う。障害によっては該非判定のた
めのプログラム実行結果により判定する。判定の結果は
管理者に報告された上、場合によっては対象システム上
で自動適用される。
【発明の実施の形態】以下、本発明の実施の形態を詳細
に説明する。図1は本発明の一実施例におけるシステム
構成図であり、図2は本発明で利用するデータ構成例で
ある。図3、図4は本実施例の処理手順を示すフローチ
ャートである。図1において障害通知部01は監視対象
システム00上にあって、障害発生時に障害履歴04に
障害情報を格納するとともに、該障害情報を構成変更履
歴03を参照して得られるシステムのハードウェア/ソ
フトウェア構成情報と併せて障害診断部11に通知す
る。障害診断部11は障害診断システム10上にあっ
て、障害通知部01より送付された障害および構成の情
報に該当する障害報告が無いか、報告済障害データベー
ス12を検索し、その検索結果を障害通知部01へ返信
する。障害該非確認部02は、障害診断部11より返信
された報告済障害情報に該非判定のためのプログラムが
含まれる場合、これを実行し、該非判定を行う。本実施
例ではネットワーク05を介して監視対象システム00
と障害診断システム10が分散した例を示すが、両シス
テムを構成する要素を単一システム上に実現することも
可能である。次に図2を用いて本発明で使用するデータ
構成について説明する。構成変更履歴03はハードウェ
アおよびソフトウェアの構成変更の行われた時刻21と
行われた変更を記述する変更構成情報22より構成され
る。障害履歴04には障害発生当初、障害の発生時刻3
1、エラーメッセージやその出力先ファイル名等が含ま
れるエラー情報32のみが格納される。のちに、障害診
断部11による診断結果の情報を受信すると、対応する
報告済障害情報33やそれに基づいて実施された対策内
容34などが追加される。報告済障害情報41は障害情
報を識別するための障害ID50、障害を特定するため
の現象や条件のデータである障害特定情報51、該当障
害についての現象や要因の説明、対策進捗状況等が記述
された現象/要因/対策状況52、修正版や回避のため
の運用手順の説明またはプログラムが含まれた修正版/
回避策53から構成される。さらに、障害特定情報51
は該当障害発生時に出力されるエラーメッセージとその
出力先ファイル名等が含まれるエラー情報60、障害の
条件となるハードウェア/ソフトウェア構成の情報であ
る構成情報61、障害に該当するか否かを確認すること
ができる障害該非確認プログラム62から構成される。
次に図3、図4のフローチャートに基づき動作を説明す
る。図3は障害通知部の動作を示すフローチャートであ
る。障害通知部はエラーを検知する(ステップ100)
とその発生時刻31とエラー情報32を障害履歴04に
登録する(ステップ101)。エラー発生時点でのハー
ドウェア/ソフトウェア構成情報を構成変更履歴03よ
り作成し、これを先のエラー情報32とともに障害診断
部11へ送付する(ステップ102)。障害診断部11
からの返信に発生した障害に該当する報告済障害情報が
あるか否かを判断する(ステップ103)。無い場合に
は発生した障害に対する対処情報が無いことを管理者に
報告し(ステップ104)、次の障害発生を待つ(ステ
ップ111)。該当しそうな報告済障害情報があった場
合には、該当障害報告があったことを記録し(ステップ
105)、障害該非確認プログラムの有無を調べ(ステ
ップ106)、有れば同プログラムを実行することで送
付された報告済障害情報の中から適用可能なものを特定
する(ステップ107)。障害該非確認プログラムが無
ければ、次の障害発生を待つ(ステップ111)。障害
通知部01に対して報告済障害情報を用いた自動修正を
実行するよう指示があった場合(ステップ108)に
は、障害通知部01は障害該非確認部02を介して特定
した報告済障害情報に含まれる修正版もしくは回避策を
適用し(ステップ109)、自動修正を行ったことを障
害履歴04の対策内容欄34に記録し(ステップ11
0)、次の障害発生を待つ(ステップ111)。自動修
正の指示が無かった場合(ステップ108)には、何も
せず次の障害発生を待つ(ステップ111)。図4は障
害診断部の動作を示すフローチャートである。障害通知
部01より、障害/構成情報が送信される(ステップ1
02)と、報告済障害データベースを検索し、該当する
障害報告の有無を調べる(ステップ200)。合致する
か否かは障害情報と構成情報の内容を比較することで決
定する。合致する情報が見つかると(ステップ20
1)、障害通知部01へそれらを送付する(ステップ2
02)。合致する情報が見つからない場合はその旨、障
害通知部01へ通知する(ステップ203)。また、報
告済障害データベースが更新された場合(ステップ20
4)、その旨を障害通知部01に通知する(ステップ2
05)。障害通知部01がこのデータベース更新通知を
受けると(ステップ112)、障害履歴04の中から報
告済み障害情報なし、および未診断の障害情報の有無を
判断し(ステップ113)、有れば障害検知時と同様の
処理ステップに進む(ステップ102)。無ければ次の
障害発生を待つ(ステップ111)。
【発明の効果】以上述べたように、本発明によれば、既
存の障害情報をタイムリに活用することができる。これ
によって障害発生時の問題分析効率が向上し、既存の問
題である場合の修正版適用までの時間を短縮する効果が
ある。さらに、報告済の障害情報を更新の都度確認する
ことで潜在的な障害を未然に防ぐ予防的な効果もあげる
ことができる。
【図面の簡単な説明】
【図1】本発明の一実施例におけるシステム構成図であ
る。
【図2】本発明で利用するデータ構成例を示す図であ
る。
【図3】本発明の処理手順の実施の形態を示す障害監視
対象部のフローチャートである。
【図4】本発明の処理手順の実施の形態を示す障害診断
部のフローチャートである。
【符号の説明】
00…監視対象システム、01…障害通知部、02…障
害該非確認部、03…構成変更履歴、04…障害履歴、
05…ネットワーク、10…障害診断システム、11…
障害診断部、12…報告済障害データベース、21…構
成変更履歴の構成変更時刻、22…構成変更履歴の変更
構成情報、31…障害の発生時刻、32…障害情報、3
3…報告済障害情報の有無、34…対策の有無と対策内
容、41…報告済障害情報、50…報告済障害情報の障
害識別子、51…報告済障害情報の障害特定情報、52
…報告済障害情報の現象/要因/対策状況、53…報告
済障害情報の修正版/回避策、60…障害特定情報の障
害情報、61…障害特定情報の障害発生時のハードウェ
ア/ソフトウェア構成情報、62…障害特定情報の障害
該非確認プログラム。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】障害監視部と、障害診断部とで構成された
    計算機システムにおいて、障害監視部は、ハードウェア
    及びソフトウェアの構成情報の変更情報と、障害発生時
    の障害情報を障害診断部に通知する障害通知手段と、障
    害診断部は、通知された構成および障害情報に該当する
    既報告障害をデータベースから検索する障害診断手段
    と、を有し、特定の構成変更や障害発生時に、起こりう
    る可能性のある報告済障害情報の一覧を提示することを
    特徴とする障害診断システム。
  2. 【請求項2】報告済障害情報に確認プログラムを含めて
    おき、この確認プログラムを実行して同情報の該当性を
    確認する障害該非確認手段を更に含む請求項1記載の障
    害診断システム。
  3. 【請求項3】障害情報に対する修正版/回避策を報告済
    障害情報データベースに記録し、これを契機に障害に対
    する修正版/回避策が提供されたことを通知する処理を
    更に含む請求項2記載の障害診断システム。
  4. 【請求項4】既報告障害に該当する障害情報が発見され
    た場合に、その障害の修正版もしくは回避策の適用を自
    動的に行う処理をさらに含む請求項3記載の障害診断シ
    ステム。
JP11182918A 1999-06-29 1999-06-29 障害診断システム Pending JP2001014187A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11182918A JP2001014187A (ja) 1999-06-29 1999-06-29 障害診断システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11182918A JP2001014187A (ja) 1999-06-29 1999-06-29 障害診断システム

Publications (1)

Publication Number Publication Date
JP2001014187A true JP2001014187A (ja) 2001-01-19

Family

ID=16126668

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11182918A Pending JP2001014187A (ja) 1999-06-29 1999-06-29 障害診断システム

Country Status (1)

Country Link
JP (1) JP2001014187A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002351699A (ja) * 2001-05-29 2002-12-06 Nec Corp 問い合わせシステムと問い合わせ方法及び問い合わせプログラム
JP2003044316A (ja) * 2001-06-15 2003-02-14 Hewlett Packard Co <Hp> エンドユーザー診断システム
JP2003296141A (ja) * 2002-03-29 2003-10-17 Nec Corp 障害事前検知システム、障害事前検知方法、障害事前検知サーバ及び障害事前検知端末
JP2004038535A (ja) * 2002-07-03 2004-02-05 Sumisho Computer Systems Corp 障害対応システムおよびこれに用いるサーバ装置、障害対応プログラム
WO2007013527A1 (ja) * 2005-07-27 2007-02-01 Nec Corporation 管理支援システム、管理支援方法、および管理支援プログラム
US8112667B2 (en) 2010-01-25 2012-02-07 International Business Machines Corporation Automated system problem diagnosing
JP2018060420A (ja) * 2016-10-06 2018-04-12 富士ゼロックス株式会社 情報処理システム、情報処理装置およびプログラム
CN112579335A (zh) * 2020-12-18 2021-03-30 歌尔光学科技有限公司 智能设备故障处理方法、装置、设备及存储介质

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002351699A (ja) * 2001-05-29 2002-12-06 Nec Corp 問い合わせシステムと問い合わせ方法及び問い合わせプログラム
JP2003044316A (ja) * 2001-06-15 2003-02-14 Hewlett Packard Co <Hp> エンドユーザー診断システム
JP2003296141A (ja) * 2002-03-29 2003-10-17 Nec Corp 障害事前検知システム、障害事前検知方法、障害事前検知サーバ及び障害事前検知端末
JP2004038535A (ja) * 2002-07-03 2004-02-05 Sumisho Computer Systems Corp 障害対応システムおよびこれに用いるサーバ装置、障害対応プログラム
WO2007013527A1 (ja) * 2005-07-27 2007-02-01 Nec Corporation 管理支援システム、管理支援方法、および管理支援プログラム
US7949906B2 (en) 2005-07-27 2011-05-24 Nec Corporation Management supporting system, management supporting method, and management supporting program
US8112667B2 (en) 2010-01-25 2012-02-07 International Business Machines Corporation Automated system problem diagnosing
JP2018060420A (ja) * 2016-10-06 2018-04-12 富士ゼロックス株式会社 情報処理システム、情報処理装置およびプログラム
CN112579335A (zh) * 2020-12-18 2021-03-30 歌尔光学科技有限公司 智能设备故障处理方法、装置、设备及存储介质
CN112579335B (zh) * 2020-12-18 2023-04-25 歌尔科技有限公司 智能设备故障处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US6651183B1 (en) Technique for referencing failure information representative of multiple related failures in a distributed computing environment
US7984334B2 (en) Call-stack pattern matching for problem resolution within software
CN100538375C (zh) 建立自诊断和自修复自动系统的方法和系统
US7051244B2 (en) Method and apparatus for managing incident reports
US5287505A (en) On-line problem management of remote data processing systems, using local problem determination procedures and a centralized database
US20080270212A1 (en) Method, apparatus or software for managing a data processing process
CN1606002A (zh) 产生将计算机故障存档的事故单的系统和方法
US20060230122A1 (en) Method and system for managing programs in data-processing system
JP2021043592A (ja) 情報処理システム
JP3916232B2 (ja) ナレッジ型運用管理システム,方法およびプログラム
US8327189B1 (en) Diagnosing an incident on a computer system using a diagnostics analyzer database
JP2001014187A (ja) 障害診断システム
US7617462B2 (en) Graphical user interface (GUI) for displaying software component availability as determined by a messaging infrastructure
US7500144B2 (en) Resolving problems in a business process utilizing a situational representation of component status
JP2004145536A (ja) 管理システム
US20040268184A1 (en) Methods, systems and computer program products for resolving problems in an application program utilizing a situational representation of component status
JP6317074B2 (ja) 障害通知装置、障害通知プログラムならびに障害通知方法
CN116566810A (zh) 一种基于Spring MVC框架的系统异常处理方法、装置和设备
JP2001005692A (ja) 計算機システムおよびその保守管理システム並びに障害通知方法
CN113886122B (zh) 一种系统运行异常处理方法、装置、设备及存储介质
US20050204180A1 (en) Stack-based callbacks for diagnostic data generation
JP2004038535A (ja) 障害対応システムおよびこれに用いるサーバ装置、障害対応プログラム
JP2000187585A (ja) 遠隔障害情報管理装置並びにその方法
JP2003345628A (ja) 障害調査資料採取方法及びその実施システム並びにその処理プログラム
US20040064784A1 (en) Document management system, method and computer program