JP2001331350A - 保守管理装置 - Google Patents

保守管理装置

Info

Publication number
JP2001331350A
JP2001331350A JP2000147158A JP2000147158A JP2001331350A JP 2001331350 A JP2001331350 A JP 2001331350A JP 2000147158 A JP2000147158 A JP 2000147158A JP 2000147158 A JP2000147158 A JP 2000147158A JP 2001331350 A JP2001331350 A JP 2001331350A
Authority
JP
Japan
Prior art keywords
information
log
failure
recording
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000147158A
Other languages
English (en)
Inventor
Shin Hasegawa
Yoshihisa Iwaki
Hiromitsu Kitade
Wataru Shimada
宏光 北出
喜久 岩城
亘 島田
伸 長谷川
Original Assignee
Mitsubishi Electric Corp
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp, 三菱電機株式会社 filed Critical Mitsubishi Electric Corp
Priority to JP2000147158A priority Critical patent/JP2001331350A/ja
Publication of JP2001331350A publication Critical patent/JP2001331350A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 計算機システムで内で発生する複数の軽微な
事象の相互関係により引き起こされる重大な障害を予報
出力できる保守管理装置を得る。 【解決手段】 所定の時間差内で発生する複数の動作状
況の組み合わせと起こり得る障害結果との関連を予め関
連データベース21dに格納し、計算機システム内に発生
した動作状況をその発生時刻情報とともに動作状況記録
ファイル21bに記録する動作記録装置21a、動作状況記録
ファイル21bを監視して、複数の動作状況の組み合わせ
が上記関連データベース21dに存在し、それらの発生時
刻情報の差が上記所定の時間差内であれば、上記関連デ
ータベース21dに格納された今後起こり得る障害結果を
表示装置21eに予報出力する記録監視装置21cを備えてい
る。

Description

【発明の詳細な説明】

【0001】

【発明の属する技術分野】この発明は、発電プラントあ
るいは工業プラントの制御を行う計算機システムの保守
管理を行う保守管理装置に関する。

【0002】

【従来の技術】図18は、例えば特開平8−16120
7号公報に示された従来の保守管理機能を備えたネット
ワークシステムの構成図である。図において、1はシス
テムダウンや電源オフ等の重大な障害が発生した場合
に、即座に保守センターへ自動通報するサーバシステム
である。2,3は共にクライアントシステムであり、サ
ーバシステム1と伝送路4により接続されている。サー
バシステム1は、送受信を行う送受信部10、システム
全体を制御するシステム制御部11、クライアントシス
テム2,3あるいはサーバシステム1自体の障害を検出
する障害検出部12、検出された障害を収集する障害情
報収集部13、収集した障害情報を自動通報するか否か
を判定する通報判定部14、送受信部10に対して、ク
ライアントシステム2,3で発生した障害情報の収集指
示を行うクライアント情報収集指示部15、障害情報収
集部13およびクライアント情報収集指示部15を一定
時間毎に起動するタイマ16、収集した障害情報を格納
する障害情報格納部17、定期保守の対象とすべき軽微
な障害情報、例えば周辺装置の訂正エラー(1回リード
エラーが発生したがリトライにより復帰した場合など)
を格納する定期保守条件格納部18、発生した障害が定
期保守条件格納部18の障害情報と一致するか否かを比
較する障害情報比較部19、および該比較の結果が一致
した場合に、保守センターへ障害情報を自動通報する自
動通報部20から構成されている。なお、障害情報に
は、実際に発生した障害による情報の他に障害が発生し
ていないとの情報も含まれる。

【0003】このような従来のネットワークシステムに
おいて、サーバシステム1あるいはクライアントシステ
ム2,3に重大な障害が発生すると、障害検出部12に
よってその障害が検出され、その旨がシステム制御部1
1と障害情報収集部13に通知される。すると、障害情
報収集部13はシステム制御部11に障害情報の収集お
よび通知を指示し、システム制御部11は障害情報を収
集すると障害情報収集部13に通知する。障害情報収集
部13は受け取った障害情報を障害情報格納部17に格
納するとともに、通報判定部14へも通知する。通報判
定部14では、受け取った障害情報を解析し、保守セン
ターへ自動通報すべきである場合にのみ自動通報部20
に通知する。そして、この通知を受けた自動通報部20
はこの障害情報を保守センターへ自動通報し、即座に保
守アクションが取れるようにする。

【0004】一方、発生した障害が軽微なもので、即座
に保守を行わなくても定期保守で差し支えない場合は、
通常は自動通報されない。しかし、今までシステムが安
定しており稼働実績があるからといって長期間保守され
ていないと重大な障害へと波及する恐れがあり、システ
ムの運用上好ましくない。そこで、たとえ障害が軽微で
あってもその内容によっては自動通報するために、以下
の機能を持たせる。システム立ち上げ終了とともに、シ
ステム制御部11はタイマ16を起動し、このタイマ1
6により、障害情報収集部13およびクライアント情報
収集指示部15が一定時間毎に起動される。クライアン
ト情報収集指示部15はクライアントシステム2,3の
障害情報を収集すべく送受信部10に対して収集の指示
を行い、送受信部10は、伝送路4を介して収集したク
ライアントシステム2,3の障害情報をシステム制御部
11へ通知する。また、障害情報収集部13はシステム
制御部11に対してクライアントシステム2,3および
サーバシステム1の障害情報の通知を要求する。する
と、システム制御部11はクライアントシステム2,3
およびサーバシステム1の障害情報を受け取ると、この
障害情報を障害情報収集部13に通知する。そして、障
害情報収集部13は、この障害情報を障害情報格納部1
7に格納および蓄積する。次に、障害情報格納部17は
蓄積されている障害情報を障害情報比較部19に通知す
る。障害情報比較部19は、定期保守条件格納部18に
格納された定期保守すべき障害情報の条件の情報と通知
された障害情報とを比較する。比較結果が一致すれば、
通知された障害情報が定期保守条件に達していると判断
し、自動通報部20に通知する。そして、自動通報部2
0は、保守センターに対して定期保守が必要な旨を通知
とする。

【0005】

【発明が解決しようとする課題】上記のような従来の保
守管理装置は以上のように構成されているので、障害の
検出がある一つの事象あるいは同一の障害の複数回の発
生に限定され、計算機の複数の部位で発生する軽微な事
象の相互関係により引き起こされる重大な障害を検出で
きないという問題点があった。また、保守センターにお
いて障害を分析する場合、障害情報は膨大なメッセージ
の羅列の形で格納されているので、必要とするメッセー
ジを見つけることが困難で、特に短いメッセージ、発生
頻度は低いがリスクの大きい障害を示すメッセージを検
出できないといった問題点があった。さらに、障害発生
時刻が一目では認識できないので、障害発生の時間帯に
関する分析が困難であった。

【0006】この発明は、上述のような課題を解決する
ためになされたもので、第1の目的は、保守対応が必要
な障害を確実に検出することができる保守管理装置を得
るものである。また、第2の目的は、記録された障害情
報に対する分析および保守を容易に行える保守管理装置
を得るものである。

【0007】

【課題を解決するための手段】この発明に係る保守管理
装置においては、所定の時間差内に発生する複数の動作
状況の組み合わせと、起こり得る障害結果との関連を格
納する関連データベースを予め保持し、上記動作状況を
その発生のたびに該発生時刻情報を付加して動作状況記
録ファイルに記録する動作記録手段、および上記動作状
況記録ファイルに記録された複数の動作状況の組み合わ
せが上記関連データベースに存在する場合、該複数の動
作状況のそれぞれの発生時刻情報の差を算出して、その
算出結果が上記所定の時間差内であれば、当該複数の動
作状況の組み合わせを障害情報として検出し、今後に起
こり得る障害結果を上記関連データベースから取得して
予報出力する記録監視手段を備えるものである。

【0008】また、関連データベースに格納している起
こり得る障害結果にその発生確率を付加し、記録監視手
段は、予報出力した障害結果がその後実際に発生したか
否かによって、上記関連データベースの該発生確率を更
新し、上記更新された発生確率を付加して障害結果を予
報出力するものである。

【0009】また、動作状況を示す文字情報を1個また
は複数個のワードの並びのパターンとして認識し、ユー
ザが要求する障害情報となる動作状況を示す文字情報の
パターンを格納するフィルタデータベースを予め保持
し、上記動作状況を示す文字情報を該動作状況の発生の
たびにログファイルに記録するログ記録手段、該文字情
報のパターンを特定し、上記ログファイルに格納された
該文字情報に上記特定したパターンを付加するログパタ
ーン処理手段、および該付加されたパターンが上記フィ
ルタデータベースに存在する場合、該パターンを付加さ
れた文字情報を上記ログファイルから取得して障害情報
として出力するログ監視手段を備えるものである。

【0010】また、動作状況をその発生のたびに該発生
時刻情報を付加してログファイルに記録するログ記録手
段、表示すべき障害情報の発生時間帯を外部から入力す
る入力受付部、入力した時間帯に発生した障害情報を上
記ログファイルから取得して、所定の時間間隔ごとにそ
の発生件数を集計する時間帯別集計部、および集計結果
をグラフ化して表示する表示部を備えるものである。

【0011】また、障害情報を種類に分類し、集計結果
を種類毎に色分けして表示するものである。

【0012】また、入出力装置を本体の外部に設置し、
記録監視手段あるいはログ監視手段あるいは表示部から
の出力を上記入出力装置から遠隔操作するものである。

【0013】

【発明の実施の形態】実施の形態1.図1は、この発明
の一実施の形態例を示す構成図である。図において、2
1は計算機システムの保守管理装置である。21aは、
計算機システム内で発生する事象、例えば通信エラー、
読み取り不良などの障害情報、プログラムの起動/停止
/再起動などの履歴情報を含む任意の動作状況を動作状
況記録ファイル21bに記録する動作記録手段としての
動作記録装置である。21cは、該動作状況記録ファイ
ル21bを監視し、関連データベース21dを参照し
て、障害発生の予報を表示装置21eに出力する記録監
視手段としての記録監視装置である。図2は、図1の動
作状況記録ファイル21bの構成を示したもので、動作
状況をその発生したタイミングごとに、発生時間情報と
動作内容を示す文字情報とを1レコードとして記録して
いる。図3は、関連データベース21dの構成を示した
もので、動作状況記録ファイル21bに記録されている
文字情報を検索するための文字パターン2組(例えば文
字パターン(1a)と文字パターン(1b))とその発生時間差
情報、該2組の動作状況の組み合わせによって発生し得
ると予想される発生障害結果とその発生確率、および該
障害結果の通知要否情報が格納されている。この関連デ
ータベースは、過去に蓄積された実績データをもとに予
め作成して保持するものであるが、該関連データベース
内で予想された発生障害結果が実際に発生した場合は、
その発生確率を更新する。

【0014】このように構成された保守管理装置の動作
について説明する。計算機システムの運転中において、
動作記録装置21aは、計算機システム21内で発生す
る動作状況を、その発生のたびに、発生時間情報と動作
内容を示す文字情報とを1レコードとして動作状況記録
ファイル21bに追加記録する。記録監視装置21c
は、動作状況記録ファイル21bを常時監視しており、
該動作状況記録ファイル21bにレコードが追加記録さ
れると、そのレコード内の文字情報と一致する文字パタ
ーンを関連データベース21dから検索する。検索の結
果、例えば図2の文字パターン(1a)が一致したならば、
そのレコードに記録されているもう1つの文字パターン
(1b)と時間差情報(1)とを参照し、該文字パターン(1b)
にマッチする文字情報が動作状況記録ファイル21b内
に記録されるのを、該時間差情報(1)の間待機して監視
する。そして、この時間内に上記文字パターン(1b)にマ
ッチする文字情報が上記動作状況記録ファイル21bに
記録されたことを検出した場合は、関連データベース2
1dの該レコードの通知要否情報(1)に従った形式で、
発生障害結果(1)をその発生確率(1)とともに表示装置2
1eに出力する。

【0015】その後も、記録監視装置21cは動作状況
記録ファイル21bの監視を続行し、上記出力した発生
障害結果(1)を示す動作状況の文字情報が記録されたこ
とを検出したか否かによって、関連データベースの該発
生障害結果(1)の発生確率(1)を更新する。これにより、
例えば発生回数は少ないが2つの動作状況の組み合わせ
により大きな発生確率をもって発生するリスクの大きい
障害についても、見落とすことなく、確実にその発生を
予告および通知することができる。なお、上記説明で
は、動作状況を2つの発生時間差のある動作状況の組み
合わせで監視するものについて述べたが、3つ以上の動
作状況の組み合わせで監視することにより、さらに精度
の高い障害情報の検出が可能である。この場合は、上記
関連データベース21dに、組み合わせる3つ以上の動
作状況の文字パターン、それら各動作状況のすべての発
生時間差情報、それら3つ以上の動作状況の組み合わせ
によって今後発生し得ると予想される発生障害結果とそ
の発生確率、および該障害結果の通知要否情報を格納す
ればよい。以上のように、動作状況を複数の発生時刻差
のある動作状況の組み合わせで監視し、該組み合わせの
相互関係によって起こり得る重大な障害を予め保持して
いる関連デーベースに基づいて通知するので、単独の動
作状況のみ監視している場合よりも、より確実に障害発
生を予告、通知することができ、時間的余裕を持って障
害への対応が行える。

【0016】実施の形態2.図4は、この発明の実施の
形態2による保守管理装置を示す構成図である。図にお
いて、22は計算機システムの保守管理装置で、ログ記
録手段としてのログ処理装置22a、ユーザプロセス2
2b、ログパターン処理手段としてのログDB処理装置
22c、ログ監視手段としてのログ監視装置22d、パ
ターンDB22e、フィルタDB22f、ログファイル
22g、メッセージ書式DB22hおよびキーワードD
B22iから構成される。ここで、ログとは計算機シス
テム内で発生した動作状況を文字情報で記録したもの
で、あらゆる動作状況を順次羅列したものである。ま
た、メッセージとはログの要素である上記動作状況のそ
れぞれの文字情報のことで、1個または複数個のワード
の並びで構成されたパターンとして認識する。さらに、
DBとはデータベースの略号である。なお、図におい
て、ユーザプロセス22b、ログ処理装置22aおよび
ログファイル22gは、従来装置から備えられた要素で
あり、その他のハッチングされた要素が、本実施の形態
2において新たに備えられた部分である。

【0017】ログ処理装置22aは、プロセス22bか
らのログ出力要求を受けてログファイル22gにその時
発生した動作状況のメッセージを書き込む。また、その
タイミングで、該メッセージをログDB処理装置22c
に通知する。ログDB処理装置22cは、通知されたメ
ッセージをメッセージ書式DB22h、キーワードDB
22iを用いて該メッセージを解釈し、パターンDB2
2eにより該メッセージをパターン化して、ログファイ
ル22g内の当該メッセージにパターンIDを追記す
る。ログ監視装置22dは、ユーザが要求するメッセー
ジの通知条件を格納したフィルタDB22fに基づいて
ログDB処理装置22cに該当するメッセージ発生を照
会し、該当するメッセージがあった場合には、ログ処理
装置22aにそのメッセージを要求し、ユーザに該メッ
セージを通知する。

【0018】上記のように構成された保守管理装置にお
ける処理の流れについて、図5のフローチャートを参照
しながら説明する。まず、ログ処理装置22aはユーザ
プロセス22bから受け取ったメッセージをログファイ
ル22gに書き込むとともに、ログDB処理装置22c
に該メッセージを通知する。ログDB処理装置22cで
は、メッセージ書式DB22h、およびキーワード22
iを用いて該メッセージのパターンを抽出する(S
1)。図6は、メッセージ書式DB22hに格納されて
いる一書式例を示した図である。この例では、メッセー
ジの種別はエラーであり、年・月・日・時刻・装置名・
発生部位・事象の順で構成されたものである。また、キ
ーワードDB22iはメッセージを各要素に分解し、各
要素の意味、すなわち装置名なのか、あるいは発生部位
なのか、あるいは事象なのかといったことを分析するた
めの辞書である。ログDB処理装置22cは、通知され
たメッセージをキーワードDB22iを用いて分解して
メッセージの要素の意味を得、さらにメッセージ書式D
B22hを用いてメッセージの書式タイプのパターンを
抽出する。

【0019】次に、ログDB処理装置22cは、抽出し
たパターンをパターンDB22eに照会して、該当する
パターンの有無を検索する(S2)。図7は、パターン
DB22eの構造を示す図である。パターンIDはメッ
セージの書式、構成要素の種類などでメッセージをパタ
ーンに分類し、各パターンにIDをつけたものである。
メッセージ番号[id]、メッセージ本体[msg]、装置[eqi
p]、発生部位[part]、メッセージ書式タイプ[form]、種
別[type]、開始、終了などの事象[set]、周期[t]等の要
素を格納している。上記検索の結果、該当するパターン
のレコードがあった場合(S3でYESのとき)、その
レコード内のデータのうち、頻度、回数、あるいは発生
から回復まで経過時間に関する数値、図7の例では周期
[t]を更新する(S4)。逆に、該当するレコードがな
かった場合(S3でNOのとき)、今までに発生しなか
った未知の書式であり、リスクの高いメッセージである
可能性があるので、新規にパターンIDを設定して付加
してパターンDB22eに登録する(S5)。また、S
4およびS5で該当あるいは登録したパターンIDを、
ログファイル22g内の該メッセージに追記する。

【0020】一方、ログ監視装置22dは、ユーザから
の要求時あるいは一定周期でログ処理装置22cにログ
取得を要求することにより、ログファイル22gからパ
ターンIDを追記されたログを取得する。そして、ユー
ザが予め登録しているフィルタDB22fに格納された
パターンを検索してパターンフィルタリングを行い(S
6)、ユーザに報告すべきメッセージであるならば(S
7でYESのとき)、任意のI/Fを用いて障害情報と
してユーザに報告する(S8)。パターンフィルタリン
グにより、報告を必要とするメッセージがなければ(S
7でNOのとき)、ユーザヘの出力は行わず、監視を続
行する。以上のように、動作状況を示すメッセージをパ
ターンとして認識するので、長期間の間に1回発生した
装置故障など発生回数の少ないメッセージや次々とメッ
セージが羅列されただけのログ中のごく短いメッセージ
など、ログ出力では見落とされる危険性の高いメッセー
ジについても、ユーザが要求すれば、必要とするメッセ
ージを障害情報として確実に報告することができ、シス
テムダウンなど大きい障害発生が発生しても、迅速に対
策を講ずることができる。また、メッセージをパターン
化し、必要とするメッセージをパターンでフィルタリン
グできるので、外部の保守要員であっても対応可能とな
る。また、フィルタDB22fの検索にシューティング
法を取り入れる等、運用ノウハウを更新することで、多
様なシステム構築が可能となる。

【0021】実施の形態3.なお、本実施の形態3で
は、次々と動作状況が羅列されたログファイルから、異
常な障害が多発した時間帯を一目瞭然に把握できる表示
を行える保守管理装置について説明する。図8は、本実
施の形態3による保守管理装置の構成を示す図である。
23は計算機システムの保守管理装置で、ログファイル
24を読み込むログファイル読み込み部23a、キーボ
ード25、マウス26等の入力デバイスから入力を受け
付けるユーザ入力受付部23b、読み込んだログファイ
ル24の中から異常な障害を時間帯別に集計する時間帯
別集計部23c、および上記集計の結果をCRT27に
表示する画面表示部23dから構成される。

【0022】次に、動作について図9および図10のフ
ローチャートを用いて説明する。ユーザがマウス26の
釦を押すことによって、ユーザ入力受付部23bは入力
を受け付ける。なお、マウス26は左釦と右釦とを備
え、左釦は画面上で指定した時間帯のログの文字情報を
表示する場合の入力釦、右釦は画面上で時間帯を指定
し、該時間帯に発生した障害数を所定の時間間隔で集計
してグラフ表示する場合の入力釦と設定しておく。ま
ず、CRT27上に時間帯別集計グラフが表示されてい
ない場合(T1でNOのとき)、マウス26の左釦が入
力されたならば何もせず(T2でYESのとき)、マウ
ス26の右釦が入力されたならば(T2でNOのと
き)、時間帯別集計グラフを表示する(T3)。このと
き表示されるグラフは、表示したい時間帯を指定してい
ないので、それ以前に作成されたグラフを引用する。C
RT27上にすでに時間帯別集計グラフが表示中であっ
て(T1でYESのとき)、マウス26の左釦が入力さ
れたならば(T4でNOのとき)、ログファイル読み込
み部23aはマウス26で指定された時間帯のログをロ
グファイル24から読み込んで、そのログの文字情報を
画面表示部23dがCRT27に表示する(T5)。例
えば、図11は時間帯別集計グラフの一例で、縦軸を時
間帯(図の例では年月日)、横軸を発生件数とする棒グ
ラフ表示である。このグラフ表示において、棒グラフA
を左釦で指定した場合は、1999/11/12の24時間に発生
したログの文字情報を表示する。

【0023】逆に、マウス26の右釦が入力されたなら
ば(T4でYESのとき)、指定された時間帯を集計対
象時間帯として(T6)、該対象時間帯に発生した障害
の集計を行う(T7)。例えば図11のグラフ表示にお
いて、棒グラフAを右釦で指定した場合は、1999/11/12
の0:00から23:59の24時間を対象時間帯として障害の
集計を行う。次に、時間帯別集計部23cによる上記T
7の時間帯別集計処理の詳細について、図10のフロー
チャートを用いて説明する。まず、上記T6で決定した
対象時間帯を所定の時間間隔で区切ることにより集計間
隔をセットする(U1)。上記の例では、対象時間帯19
99/11/12の0:00から23:59の24時間を例えば24で割
ることにより1時間の集計間隔となり、時間間隔t
1(0:00〜0:59)、時間間隔t2(1:00〜1:59)、・・
・、時間間隔t24(23:00〜23:59)に区切られる。

【0024】次に、対象時間時間帯のログをログファイ
ル24から1レコード読み込み(U2)、読み込むログ
があれば(U3でNOのとき)、そのログがどの時間間
隔に発生したかを算出する(U4)。例えば10:40に発
生したログならば、上記の例では時間間隔t10に含まれ
る。次に、集計テーブルの該当する時間間隔のログ数を
+1する(U5)。図12は集計テーブルの構造を示し
た図で、時間間隔ごとに集計したログ数と、それぞれの
ログのログファイル24上の該レコードへのポインタの
リンクリストを格納している。上記の例では、時間間隔
10のログ数を+1し、そのログレコードをリンクリス
トに追加する(U6)。上記処理を対象時間帯のログ全
てに対して行ったならば(U3でYESのとき)、時間
帯別集計の処理を終了し、上記図9の処理T3に戻る。

【0025】次に、上記のようにして集計された結果を
CRT27に表示する(T3)。図13はその集計結果
表示例であり、縦軸の時間帯には、上記図11のグラフ
Aで指定された1999/11/12、0:00〜23:59の24時間が
表示され、横軸には、該時間帯を24分割した1時間間
隔ごとに発生した障害件数の集計結果が棒グラフで表示
されている。図の例では、18:00からの1時間に障害が
集中して発生していることを明確に示している。なお、
図13で表示されたような時間帯集計グラフにおいて、
さらに例えばグラフBをマウス26の右釦で指定した場
合には、1999/11/12の18:00〜18:59の時間帯をさらに2
4分割した時間間隔(2.5秒)ごとの集計結果をグラフ
表示することも可能である。また、上記の説明において
は、集計する時間帯の指定をマウス26の釦入力によっ
て行うものを示したが、キーボード25のキー入力によ
っておこなってもよい。さらに、上記の例では、集計時
間帯を24の時間間隔に区分したが、キーボード25か
らその区分数を任意に指定することも可能である。以上
のように、発生した障害を単に記録したログから、指定
された時間帯を一定時間間隔ごとに区分して、それぞれ
の時間間隔で発生した障害数を集計し、その結果をCR
T上にグラフ表示するので、時間間隔ごとの障害発生頻
度が視覚化され、障害が多発している時間間隔が一目瞭
然となる。また、時間帯の指定は、CRT上のグラフの
任意の部分をマウス26で指定するといった簡単な操作
により行われるので、障害の分析を迅速に行うことがで
きる。

【0026】実施の形態4.なお、上記実施の形態3で
は次々と動作状況が羅列されたログファイルから障害発
生を時間帯別に集計し、その結果をグラフ化するものに
ついて述べたが、本実施の形態4では、障害(エラーロ
グ)の種類をそのグラフの色によって識別するものにつ
いて図14〜図17を用いて説明する。図14〜図16
は、上記実施の形態3において述べたように、縦軸を集
計対象の時間帯、横軸をその時間帯に発生したエラーロ
グの件数とした棒グラフ表示である。図14は集計対象
の時間帯が1999/11/1〜1999/11/22で、1日ごとの発生
件数をグラフ化したものである。各グラフを構成してい
る複数の色または柄の部分a1,a2,a3は、それぞれエ
ラーログの種類が異なることを示している。図15は、
図14の棒グラフAをマウスポインタでダブルクリック
した場合に表示される表示グラフで、集計対象の時間帯
が1999/11/12の24時間に変換され、1時間ごとの発生
件数をグラフ化している。なお、横軸のスケールを集計
結果の最大発生件数に応じて変更する。

【0027】図16は、図15の棒グラフBをマウスポ
インタでダブルクリックした場合に表示される表示グラ
フで、集計対象の時間帯が1999/11/12,18:00〜18:59の
1時間に変換され、1分ごとの発生件数をグラフ化した
ものである。図の例では、18:50台の1分間に、種類a1
のエラーログが多発していることがわかる。ここで、さ
らに棒グラフCの種類a1を示す色の部分をマウスポイ
ンタでダブルクリックすると、図17に示すように、1
8:50台の1分間に発生した種類a1のエラーログの内容
が、別ウィンドウで表示される。以上のように、発生し
たエラーログを単に記録したログファイルから、時間帯
別および種類別にエラーの発生件数を集計し、その結果
をエラーの種類ごとに色分けしてグラフ表示するので、
エラー発生時間帯、頻度および種類が視覚化され、作業
者が要求するエラーを容易に見つけ出すことができる。
さらに、そのエラーの内容も、グラフを構成している色
の部分を指定するといった簡単な操作で参照することが
でき、障害の分析を迅速に行うことができる。なお、上
記実施の形態1においては表示装置21eを保守管理装
置21の外部に設置し、上記記録監視装置21cからの
出力を遠隔地において表示するようにしてもよい。また
上記実施の形態2においては、保守管理装置22の外部
に入出力装置を設置し、ログ監視装置22dからの出力
を上記入出力装置から遠隔操作してもよい。同様に、実
施の形態3および実施の形態4においては、CRT27
を遠隔地に設置することにより、画面表示部23dから
の出力を遠隔地において表示することができる。このよ
うに、遠隔から動作状況の監視あるいは障害情報の検出
を行うようにすれば、さらに効率のよい保守管理作業が
可能となる。

【0028】

【発明の効果】この発明は、以上説明したように構成さ
れているので、以下に示すような効果を奏する。

【0029】計算機システム内で発生する動作状況を複
数の発生時刻差のある動作状況の組み合わせで監視し、
該組み合わせの相互関係によって起こり得る重大な障害
を予め保持している関連デーベースに基づいて通知する
ので、単独の動作状況のみ監視している場合よりも、よ
り確実に障害発生を予告、通知することができ、時間的
余裕を持って障害への対応ができる。

【0030】また、今後起こり得る障害を最新の発生確
率を付加して予報出力できるので、頻度の高い重大な障
害への対応をいち早く認識して対応することができる。

【0031】また、発生した動作状況を示す文字情報を
1個または複数個のワードの並びのパターンとして特定
し、そのパターンがユーザが要求する文字情報のパター
ンにマッチすればログファイルからその動作状況を取得
して出力するので、頻度は低いが重大な障害や文字情報
が短いなど、ログファイルにおいては見落とされがちな
動作状況であっても、ユーザが要求する動作状況を確実
に出力することができる。

【0032】また、発生した障害件数をマウス釦等で指
定した時間帯別に集計し、その結果をグラフ化して表示
するので、簡単な操作で、障害が多発している時間帯が
一目瞭然となる。

【0033】また、障害を種類に分類し、種類毎に色分
けしてグラフ表示するので、簡単な操作で、多発してい
る障害の種類が把握でき、障害に対する迅速な対応が可
能となる。

【0034】また、本体の外部に入出力装置を設置し、
遠隔地から保守管理が行えるので、効率よく保守管理作
業が可能となる。

【図面の簡単な説明】

【図1】 この発明の実施の形態1による保守管理装置
を示す構成図である。

【図2】 図1の動作状況記録ファイルの構造を示す図
である。

【図3】 図1の関連データベースの構造を示す図であ
る。

【図4】 この発明の実施の形態2による保守管理装置
を示す構成図である。

【図5】 この発明の実施の形態2による保守管理装置
の処理の流れを示すフローチャートである。

【図6】 図4のメッセージ書式DBの構造を示す図で
ある。

【図7】 図4のパターンDBの構造を示す図である。

【図8】 この発明の実施の形態3による保守管理装置
を示す構成図である。

【図9】 この発明の実施の形態3による保守管理装置
の処理の流れを示すフローチャートである。

【図10】 図9のT7の時間帯別集計処理の詳細を示
すフローチャートである。

【図11】 この発明の実施の形態3による時間帯別集
計結果のグラフ表示例を示す図である。

【図12】 この発明の実施の形態3による時間帯集計
テーブルの構造を示す図である。

【図13】 この発明の実施の形態3による時間帯別集
計結果のグラフ表示例を示す図である。

【図14】 この発明の実施の形態4による時間帯別集
計結果のグラフ表示例を示す図である。

【図15】 この発明の実施の形態4による時間帯別集
計結果のグラフ表示例を示す図である。

【図16】 この発明の実施の形態4による時間帯別集
計結果のグラフ表示例を示す図である。

【図17】 この発明の実施の形態4によるエラーログ
の内容の表示例を示す図である。

【図18】 従来の保守管理機能を備えたネットワーク
システムを示す構成図である。

【符号の説明】

21 保守管理装置、21a 動作記録手段としての動
作記録装置、21b 動作状況記録ファイル、21c
記録監視手段としての記録監視装置、21d 関連デー
タベース、21e 表示装置、22 保守管理装置、2
2a ログ記録手段としてのログ処理装置、22c ロ
グパターン処理手段としてのログDB処理装置、22d
ログ監視手段としてのログ監視装置、22f フィル
タDB、22g ログファイル、23 保守管理装置、
23a ログファイル読み込み部、23b 入力受付部
としてのユーザ入力受付部、23c 時間帯別集計部、
23d 表示部としての画面表示部、24 ログファイ
ル。

───────────────────────────────────────────────────── フロントページの続き (72)発明者 岩城 喜久 東京都千代田区丸の内二丁目2番3号 三 菱電機株式会社内 (72)発明者 島田 亘 東京都千代田区丸の内二丁目2番3号 三 菱電機株式会社内 Fターム(参考) 5B042 GB06 GC08 MA08 MA11 MC15 MC36 MC40 NN08

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 計算機システム内で発生する動作状況を
    監視し、該動作状況の中から障害情報を検出する保守管
    理装置において、 所定の時間差内に発生する複数の動作状況の組み合わせ
    と、起こり得る障害(以下、障害結果と称す)との関連
    を格納する関連データベースを予め保持し、上記動作状
    況をその発生のたびに該発生時刻情報を付加して動作状
    況記録ファイルに記録する動作記録手段、および上記動
    作状況記録ファイルに記録された複数の動作状況の組み
    合わせが上記関連データベースに存在する場合、該複数
    の動作状況のそれぞれの発生時刻情報の差を算出して、
    その算出結果が上記所定の時間差内であれば、当該複数
    の動作状況の組み合わせを上記障害情報として検出し、
    今後に起こり得る障害結果を上記関連データベースから
    取得して予報出力する記録監視手段を備えたことを特徴
    とする保守管理装置。
  2. 【請求項2】 関連データベースに格納している起こり
    得る障害結果にその発生確率を付加し、記録監視手段
    は、予報出力した障害結果がその後実際に発生したか否
    かによって、上記関連データベースの該発生確率を更新
    し、上記更新された発生確率を付加して障害結果を予報
    出力することを特徴とする請求項1記載の保守管理装
    置。
  3. 【請求項3】 計算機システム内で発生する動作状況を
    監視し、該動作状況の中から障害情報を検出する保守管
    理装置において、 上記動作状況を示す文字情報を1個または複数個のワー
    ドの並びのパターンとして認識し、ユーザが要求する上
    記障害情報となる動作状況を示す文字情報のパターンを
    格納するフィルタデータベースを予め保持し、上記動作
    状況を示す文字情報を該動作状況の発生のたびにログフ
    ァイルに記録するログ記録手段、該文字情報のパターン
    を特定し、上記ログファイルに記録された該文字情報に
    上記特定したパターンを付加するログパターン処理手
    段、および該付加されたパターンが上記フィルタデータ
    ベースに存在する場合、該パターンを付加された文字情
    報を上記ログファイルから取得して上記障害情報として
    出力するログ監視手段を備えたことを特徴とする保守管
    理装置。
  4. 【請求項4】 計算機システム内で発生する動作状況を
    監視し、該動作状況の中から障害情報を検出する保守管
    理装置において、 上記動作状況をその発生のたびに該発生時刻情報を付加
    してログファイルに記録するログ記録手段、表示すべき
    障害情報の発生時間帯を外部から入力する入力受付部、
    入力した時間帯に発生した障害情報を上記ログファイル
    から取得して、所定の時間間隔ごとにその発生件数を集
    計する時間帯別集計部、および集計結果をグラフ化して
    表示する表示部を備えたことを特徴とする保守管理装
    置。
  5. 【請求項5】 障害情報を種類に分類し、集計結果を種
    類毎に色分けして表示することを特徴とする請求項4記
    載の保守管理装置。
  6. 【請求項6】 入出力装置を本体の外部に設置し、記録
    監視手段あるいはログ監視手段あるいは表示部からの出
    力を上記入出力装置から遠隔操作することを特徴とする
    請求項1ないし5のいずれかに記載の保守管理装置。
JP2000147158A 2000-05-19 2000-05-19 保守管理装置 Pending JP2001331350A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000147158A JP2001331350A (ja) 2000-05-19 2000-05-19 保守管理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000147158A JP2001331350A (ja) 2000-05-19 2000-05-19 保守管理装置

Publications (1)

Publication Number Publication Date
JP2001331350A true JP2001331350A (ja) 2001-11-30

Family

ID=18653373

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000147158A Pending JP2001331350A (ja) 2000-05-19 2000-05-19 保守管理装置

Country Status (1)

Country Link
JP (1) JP2001331350A (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004079615A1 (ja) * 2003-03-03 2004-09-16 Daikin Industries, Ltd. 保守情報提供システム
KR100658438B1 (ko) * 2004-08-13 2006-12-15 한국전력공사 상정고장 검토기준 수립 시스템 및 그 방법
JP2006350654A (ja) * 2005-06-15 2006-12-28 Yaskawa Information Systems Co Ltd Server computer
WO2007099578A1 (ja) * 2006-02-27 2007-09-07 Fujitsu Limited 故障解析装置
JP2007293393A (ja) * 2006-04-20 2007-11-08 Toshiba Corp 障害監視システムと方法、およびプログラム
US7516368B2 (en) 2004-06-21 2009-04-07 Fujitsu Limited Apparatus, method, and computer product for pattern detection
JP2011176554A (ja) * 2010-02-24 2011-09-08 Kddi R & D Laboratories Inc 監視装置、監視方法及びプログラム
JP2012099092A (ja) * 2010-11-02 2012-05-24 Internatl Business Mach Corp <Ibm> Incident pool management method, system, and computer program
JP2015060501A (ja) * 2013-09-20 2015-03-30 日本電気株式会社 アラート出力装置、アラート出力方法、及び、アラート出力プログラム
JP2015069643A (ja) * 2013-09-30 2015-04-13 富士通株式会社 障害の場所予測
CN104572417A (zh) * 2015-01-20 2015-04-29 天津市英贝特航天科技有限公司 基于cmos存储器的操作系统故障跟踪分析方法
JP2015148788A (ja) * 2014-02-10 2015-08-20 富士ゼロックス株式会社 障害予測システム、障害予測装置およびプログラム
JP6080186B1 (ja) * 2016-05-18 2017-02-15 株式会社野村総合研究所 中継サーバ切り替え制御装置、プログラム及び方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2004217110B2 (en) * 2003-03-03 2008-01-10 Daikin Industries, Ltd. Maintenance-information providing system
US7599816B2 (en) 2003-03-03 2009-10-06 Daikin Industries, Ltd. Maintenance-information providing system
CN100451896C (zh) * 2003-03-03 2009-01-14 大金工业株式会社 维护信息提供系统
WO2004079615A1 (ja) * 2003-03-03 2004-09-16 Daikin Industries, Ltd. 保守情報提供システム
US7516368B2 (en) 2004-06-21 2009-04-07 Fujitsu Limited Apparatus, method, and computer product for pattern detection
KR100658438B1 (ko) * 2004-08-13 2006-12-15 한국전력공사 상정고장 검토기준 수립 시스템 및 그 방법
JP2006350654A (ja) * 2005-06-15 2006-12-28 Yaskawa Information Systems Co Ltd Server computer
US8166337B2 (en) 2006-02-27 2012-04-24 Fujitsu Limited Failure analysis apparatus
WO2007099578A1 (ja) * 2006-02-27 2007-09-07 Fujitsu Limited 故障解析装置
JPWO2007099578A1 (ja) * 2006-02-27 2009-07-16 富士通株式会社 故障解析装置
JP4523659B2 (ja) * 2006-02-27 2010-08-11 富士通株式会社 故障解析装置
JP2007293393A (ja) * 2006-04-20 2007-11-08 Toshiba Corp 障害監視システムと方法、およびプログラム
JP2011176554A (ja) * 2010-02-24 2011-09-08 Kddi R & D Laboratories Inc 監視装置、監視方法及びプログラム
JP2012099092A (ja) * 2010-11-02 2012-05-24 Internatl Business Mach Corp <Ibm> Incident pool management method, system, and computer program
JP2015060501A (ja) * 2013-09-20 2015-03-30 日本電気株式会社 アラート出力装置、アラート出力方法、及び、アラート出力プログラム
JP2015069643A (ja) * 2013-09-30 2015-04-13 富士通株式会社 障害の場所予測
JP2015148788A (ja) * 2014-02-10 2015-08-20 富士ゼロックス株式会社 障害予測システム、障害予測装置およびプログラム
CN104572417A (zh) * 2015-01-20 2015-04-29 天津市英贝特航天科技有限公司 基于cmos存储器的操作系统故障跟踪分析方法
JP6080186B1 (ja) * 2016-05-18 2017-02-15 株式会社野村総合研究所 中継サーバ切り替え制御装置、プログラム及び方法

Similar Documents

Publication Publication Date Title
US20200153714A1 (en) Systems and methods for displaying adjustable metrics on real-time data in a computing environment
US9672085B2 (en) Adaptive fault diagnosis
US20190279098A1 (en) Behavior Analysis and Visualization for a Computer Infrastructure
US9716624B2 (en) Centralized configuration of a distributed computing cluster
JP5605476B2 (ja) システム運用管理装置、システム運用管理方法、及びプログラム記憶媒体
CN105718351B (zh) 一种面向Hadoop集群的分布式监控管理系统
US20170085444A1 (en) System and method for dynamically grouping devices based on present device conditions
CN105183609B (zh) 一种应用于软件系统的实时监控系统及方法
US8051162B2 (en) Data assurance in server consolidation
US6643613B2 (en) System and method for monitoring performance metrics
US7734764B2 (en) Automated remote monitoring and diagnostics service method and system
US20190196894A1 (en) Detecting and analyzing performance anomalies of client-server based applications
US5911048A (en) System for managing group of computers by displaying relevant non-redundant messages by expressing database operations and expert systems rules to high level language interpreter
US7870244B2 (en) Monitoring performance of applications in a distributed environment
US7051244B2 (en) Method and apparatus for managing incident reports
US7886189B2 (en) Mobile terminal apparatus and diagnosis method for mobile terminal apparatus
US7181461B2 (en) System and method for real time statistics collection for use in the automatic management of a database system
US7251584B1 (en) Incremental detection and visualization of problem patterns and symptoms based monitored events
US6182022B1 (en) Automated adaptive baselining and thresholding method and system
US7673291B2 (en) Automatic database diagnostic monitor architecture
JP5375829B2 (ja) 運用管理装置、運用管理方法、および運用管理プログラム
US7333918B2 (en) System and method for calculating part life
US9459942B2 (en) Correlation of metrics monitored from a virtual environment
US6021437A (en) Process and system for real-time monitoring of a data processing system for its administration and maintenance support in the operating phase
US8752062B2 (en) Monitoring of computer events and steps linked by dependency relationships to generate completed processes data and determining the completed processed data meet trigger criteria