JP2018067117A - 管理計算機、及び電子計算機の管理方法 - Google Patents

管理計算機、及び電子計算機の管理方法 Download PDF

Info

Publication number
JP2018067117A
JP2018067117A JP2016204794A JP2016204794A JP2018067117A JP 2018067117 A JP2018067117 A JP 2018067117A JP 2016204794 A JP2016204794 A JP 2016204794A JP 2016204794 A JP2016204794 A JP 2016204794A JP 2018067117 A JP2018067117 A JP 2018067117A
Authority
JP
Japan
Prior art keywords
event
occurrence
cause
causal relationship
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016204794A
Other languages
English (en)
Inventor
健太郎 渡邊
Kentaro Watanabe
健太郎 渡邊
伸 手塚
Shin Tezuka
伸 手塚
晋広 牧
Kunihiro Maki
晋広 牧
佑樹 長沼
Yuki Naganuma
佑樹 長沼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2016204794A priority Critical patent/JP2018067117A/ja
Publication of JP2018067117A publication Critical patent/JP2018067117A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】特定された原因事象が異常として検出されない場合でも、根本原因に到達するために、その先の因果関係をたどることが出来る管理計算機を提供する。
【解決手段】管理サーバ100aと管理端末100bと管理対象機器群100cとから構成されている。管理対象であるITシステムを構成する管理対象機器群100cや管理対象プログラム130を監視し、障害の根本原因を分析して、管理端末100bを介してユーザである管理者に根本原因の分析結果を出力する。管理サーバ100aと管理端末100bと管理対象機器群100cは、LANネットワーク106によって相互に接続されている。分析部110は、管理対象ITシステムの根本原因を分析する処理部である。管理対象である管理対象機器群100cや管理対象プログラム130で発生した事象と、定義された因果関係群とから、障害事象と因果関係のある事象を辿り根本原因事象を特定する。
【選択図】図1

Description

本発明は、障害の根本原因を特定する方法に関する技術を開示する。
ITシステムに発生した障害をトラブルシュートする方法として、根本原因事象を特定しその根本原因を除去して対処する必要がある。根本原因の特定とは複数の障害根本原因の候補の中から障害と因果関係にある根本原因を特定するということである。
障害事象と因果関係のある根本原因の事象を特定する技術としては、ITシステムから収集した観測事象群に対して因果関係群を用いて分析し根本原因事象を特定する技術がある。この技術は、障害事象を起点にして、因果関係群を用いて障害事象を結果事象とする原因事象を特定し、特定された原因事象が観測されていることを確認したら、さらに特定された原因事象を結果事象とする原因事象を因果関係群から特定するものである。以上のことを繰り返すことで根本原因事象を特定することが可能となる。
特許文献1では、管理計算機が管理対象の計算機内で起こる事象の因果関係を記憶しておき、記憶された因果関係を基に管理対象の計算機で観測された事象を結果事象とする原因事象を特定する技術が開示されている。
特開2015-172948公報
観測された事象を結果事象とする原因事象を、定義された因果関係を用いて特定することを繰り返す際、例えば異常検出のための閾値が適切でない等の理由から、特定された原因事象が異常として検出されない場合がある。特許文献1では、そのような場合に、どのように根本原因まで到達するかについては考慮されていない。
管理計算機は、電子計算機に接続され、記憶媒体とプロセッサとを有し、電子計算機で発生する事象を検出し、検出した事象を結果事象とする原因事象を特定する。記憶媒体は、電子計算機で発生する2以上の事象を原因事象と結果事象として対応づける因果関係と、因果関係の確からしさである確信度と、を対応付けて因果関係定義として格納する。プロセッサは、第1の事象の発生を検出すると、因果関係を用いて第1の事象を結果事象とする原因事象である第2の事象を特定し、第2の事象の発生を検出したか否かの第1の判定をし、第1の判定で第2の事象の発生を検出していないと判定した場合、因果関係定義から、第1の事象を結果事象とし第2事象を原因事象とする因果関係に対応する確信度を更新し、更新された確信度が閾値以上である場合には、第2の事象が発生したと仮定して、第2の事象を結果事象とする原因事象である第3の事象を因果関係から特定する。
本発明によれば、特定された原因事象が異常として検知されなかった場合にも、原因事象の検出を仮定することで、その先の因果関係をたどることが可能となる。
本発明におけるシステム構成の一例を示す図である。 本発明における因果関係定義テーブルの構成の一例を示す図である。 本発明における事象定義テーブルの構成の一例を示す図である。 本発明における事象観測テーブルの構成の一例を示す図である。 本発明における分析テーブルの構成の一例を示す図である。 本発明における根本原因分析部による根本原因分析処理の全体を示す図である。 本発明における図6のステップ604の詳細処理を示す図である。 本発明における図7のステップ718の詳細処理を示す図である。 本発明における因果関係の関係確信度を更新する処理を示す処理フローを示す図である。 本発明のおける管理画面の出力例である。 本発明におけるオンデマンドアクション定義テーブル一例を示す図である。
以下、発明を実施するための形態を、図をもとに説明する。
図1に示す障害原因分析する情報処理システムは、管理サーバ100aと管理端末100bと管理対象機器群100cとから構成されている。管理対象であるITシステムを構成する管理対象機器群100cや管理対象プログラム130を監視し、障害の根本原因を分析して、管理端末100bを介してユーザである管理者に根本原因の分析結果を出力する。管理サーバ100aと管理端末100bと管理対象機器群100cは、LANネットワーク106によって相互に接続されている。
管理サーバ100aは、プロセッサ101a、主記憶102a、外部記憶103a、通信インターフェース104aを備えている。プロセッサ101aと主記憶102a、外部記憶103a、通信インターフェース104aはバス105aを介して情報をやり取りする。また、管理サーバ100aは、通信インターフェース104aを介して、管理端末100bや管理対象機器群100cとデータをやり取りする。
主記憶102aには、分析部110、ルール管理部111、観測部112の各プログラムを備えている。各プログラムは、プロセッサ101a上にロードされプログラムで指定する処理を実行する。
分析部110は、管理対象ITシステムの根本原因を分析する処理部である。管理対象である管理対象機器群100cや管理対象プログラム130で発生した事象と、定義された因果関係群とから、障害事象と因果関係のある事象を辿り根本原因事象を特定する。
因果関係管理部111は、因果関係群を管理する処理部である。
観測部112は、管理対象である管理対象機器群100cや管理対象プログラム130を監視して観測された事象を事象テーブル122に記憶する処理部である。
外部記憶103aには、因果関係テーブル121、事象定義テーブル122、観測事象テーブル123と、分析テーブル124と、オンデマンドアクション定義テーブル125を備えている。
因果関係定義テーブル121は、根本原因分析に使うための定義された事象の因果関係群を記憶する。事象の因果関係とは、原因事象と結果事象との関係性のことである。
事象定義テーブル122は、管理対象である管理対象機器群100cや管理対象プログラム130から発生しうる事象群を定義したものである。
観測事象テーブル123は、観測部112が管理対象機器群100cや管理対象プログラム130を監視して特定した事象群を記憶する。分析テーブル124は、分析部110が根本原因分析をする上で使用する情報を記憶する。
オンデマンドアクション定義テーブル125は、分析部110が、発生を確認できていない事象に対して、オンデマンドに発生を確認しに行くときの事象発生確認方法を記憶したテーブルである。
管理端末100bは、プロセッサ101b、主記憶102b、外部記憶103b、通信インターフェース104b、入力装置114、出力装置115を備えている。プロセッサ101bと主記憶102b、外部記憶103b、通信インターフェース104bはバス105bを介して情報をやり取りする。
また、管理端末100bは、通信インターフェース104bを介して、管理サーバ100aや管理対象機器群100cとデータをやり取りする。入力装置114は、キーボードやマウスなどのユーザインターフェースを備える入力機器である。ユーザである管理者からの要求を受け付けて、プロセッサ101cで処理した後、通信インターフェース104bを介して、管理サーバ100aに指示を送る。出力装置115は、モニタなどのユーザインターフェースを備える出力機器である。
管理サーバ100aからの取得した情報を、通信インターフェース104bを介してプロセッサ101cが受取り、出力装置115を通してユーザである管理者に情報を表示する。
管理対象機器群100cは、管理サーバ100aが管理する対象の機器の集合体である。管理対象機器群100cを構成する機器は、それぞれプロセッサ101c、主記憶102c、通信インターフェース104cを備える。
主記憶102cは、管理対象プログラム130を備えている。管理対象プログラム130は、管理サーバ100aの管理対象となるプログラムであり、オペレーティングシステムやミドルウェアプログラム、アプリケーションプログラムなどである。管理対象プログラム130は、プロセッサ101cにロードされ、プログラムで指定した処理を実行する。
図2は、因果関係定義テーブル121のテーブル図を示す。因果関係定義テーブル121の各レコードに因果関係に対応する情報を記憶している。因果関係定義テーブル121は、ID欄121aと、原因欄121bと、結果欄121cと、確信度欄121dを備える。ID欄121aには、因果関係を一意に識別する情報を記憶している。
原因欄121bには、因果関係の原因事象を識別する情報を記憶している。これは、後述する事象定義テーブル122のID欄122aに対応する識別子を記憶している。
結果欄121cには、因果関係の結果事象を識別する情報を記憶している。後述する事象定義テーブル122のID欄122aに対応する識別子を記憶している。
確信度欄121dには、因果関係の確からしさを示す度合いを記憶している。
図3は、事象定義テーブル122のテーブル図を示す。事象定義テーブル122の各レコードに事象の定義情報を記憶している。事象定義テーブル122は、ID欄122aと、内容欄122bを備えている。
ID欄122aには、事象を一意に識別する情報を記憶している。内容欄122bには、事象の内容を記憶している。
図4は、観測事象テーブル123のテーブル図を示す。観測事象テーブル123の各レコードに観測された事象を記憶している。観測事象テーブル123は、タイムスタンプ欄123aと、事象ID欄123bを備えている。タイムスタンプ欄123aには、事象を観測した時刻を記憶している。
事象ID欄123bには、観測した事象を一意に特定する情報を記憶している。これは、事象定義テーブル122のID欄122aに対応する識別子を記憶している。
事象の観測は、例えば、図3の事象定義テーブル122に定義された其々の事象に対応する管理対象機器群100cの性能値を測定することによって行い、既定のしきい値を上回っている場合に事象を観測したとして各レコードに記憶する。
図5は、分析テーブル124のテーブル図を示す。分析テーブル124の各レコードには、根本原因か否かを判定した結果が事象ごとに記憶されている。分析テーブル124は、事象ID欄124a、事象欄124b、仮定欄124c、根本原因欄124d、確信度欄124e、判定済み欄124fを備えている。
事象ID欄124aには、事象を一意に識別する情報を記憶している。これは、事象定義テーブル122のID欄122aに対応する識別子を記憶している。事象欄124bには、事象が観測されたか否かを判定した結果を記憶している。事象が観測されたのであれば「T」を記憶し、事象が観測されなければ「F」を記憶している。
仮定欄124cには、根本原因の分析において、事象の発生を仮定しているかいなかの状態を示す情報を記憶している。事象の発生を仮定している場合は「T」を記憶し、事象の発生を仮定していない場合は「F」を記憶する。
根本原因欄124dには、根本原因か否かを判定した結果を記憶している。根本原因であれば「T」を記憶し、根本原因でなければ「F」を記憶している。
確信度欄124cには、事象の発生の仮定に対しる確からしさを示す値を記憶している。判定済み欄124fには、事象が分析済みか否かの判定結果を記憶している。分析済みであれば「T」を記憶し、分析していなければ「F」を記憶している。
図6は、分析部110の根本原因分析処理の全体像を示したフロー図である。
(1)分析部110は、根本原因分析要求を受付ける(ステップ601)
(2)分析部110は、根本原因分析要求から障害事象や分析対象となるITシステムを特定する(ステップ602)
(3)分析部110は、観測部112を介して事象群を特定し、因果関係管理部111を介して因果関係群を特定する(ステップ603)
(4)分析部110は、事象群と因果関係群を使って、根本原因となる事象を特定する(ステップ604)。このステップの詳細ステップを図7にて後述する。
(5)分析部110は、ステップ605で特定した根本原因となる事象を出力する(ステップ605)
図7は、図6のステップ604の詳細ステップを示す図である。
(1)分析部110は、因果関係テーブル121を参照し、事象Xを結果事象とする原因事象群(B1〜Bn)を特定する(ステップ701)。因果関係テーブル121の結果事象欄121cが事象Xと一致するレコード検索し、そのレコードの原因事象欄121bに記憶された事象を結果事象群(B1〜Bn)として特定する。
(2)分析部110は、分析テーブル124にステップ701で特定した事象群(B1〜Bn)のレコードを新規に追加する。事象群(B1〜Bn)の各レコードについて確信度を算出し、事象確信度欄124eに入力する。事象Biの事象確信度は、事象Xの事象確信度および、事象Xと事象Biの関係確信度をもとに決まった評価式に基づいて算出する。例えば、事象Xの事象確信度そのものを事象Biの事象確信度とする。もしくは、例えば、事象Xの事象確信度とBiと事象Xの関係確信度とを乗算して事象Biの事象確信度とする。また、新規に追加したレコードの判定済欄124fには未判定を示す「F」を記憶する。
(3)分析部110は、事象群(B1〜Bn)の要素である事象Yに対してステップ704からステップ712までの処理を実行する(ステップ703)。事象群(B1〜Bn)の要素となる事象全てについて順次処理を実行し、全要素について処理が完了したら図7に示すサブルーチンを終了する(ステップ712)。
(4)分析部110は、事象が発生しているかを確認する(ステップ704)。観測事象テーブル123の事象ID欄123bが事象Yの識別子と一致しているレコードを検索する。
(5)分析部110は、ステップ704で事象が発生を確認できたか判定する(ステップ705)。事象が発生していたら後述するステップ706に進む。事象が発生していなければ後述するステップ715に進む。
(6)ステップ704で事象の発生を確認できた場合、分析部110は、分析テーブル124の事象ID欄124aが事象Yの識別子と一致するレコードを検索し、事象欄124bに事象ありを意味する「T」を記憶する(ステップ705)。
(7)続いて、分析部110は、事象Yの事象確信度を更新する(ステップ707)。ステップ705で特定したレコードの事象確信度欄124eに新たな事象確信度を入力する。ここで入力する事象確信度は、高い確信度を意味するような、ある決まった評価式での算出した事象確信度とする。例えば、とりうる最大の事象確信度を示す値を入力する。または、レコードに記憶されている事象確信度(主に因果関係で結果事象から引き継いだ事象確信度)にある一定の値を加算ないし、一定割合増やすよう積算した値を新たな事象確信度として記憶してもよい。
ステップ705で事象が発生する場合には、事象Xが発生している場合に実際に事象Yが発生する頻度が高いため、本ステップにおいて事象Yの確信度を上昇させる。この事象Yの確信度を本ステップで上昇させることで、後に説明するステップ720で事象Yを仮定するステップ(ステップ721)に進む確率が高まる。
(8)次に、分析部110は事象Yが根本原因かを判定する(ステップ708)。根本原因かの判定は、例えば、対策可能な事象か判定することで判定することができる。あるいは、根本原因かをユーザに判定した結果をもとに判定することもできる。
(9)ステップ708の判定の結果、事象Yが根本原因である場合、後述するステップ710に進む。一方、根本原因ではなかった場合、後述するステップ713に進む(ステップ709)。
(10)ステップ708の判定で事象Yが根本原因と判定した場合、分析部110は、ステップ705で特定したレコードの根本原因欄124dに根本原因であることを示す「T」を記憶する(ステップ710)。
(11)次に、分析部110は、ステップ705で特定したレコードの判定済み欄124fに判定済みを示す「T」を記憶する(ステップ711)。
(12)ステップ708の判定で事象Yが根本原因でないと判定した場合、分析部110は、ステップ705で特定したレコードの根本原因欄124dに根本原因でないことを示す「F」を記憶する(ステップ713)。
(13)分析部110は、事象Yを起点にさらに因果関係の原因事象を辿り根本原因を分析する(ステップ714)。図7に示すサブルーチンの引数である事象Xに事象Yを代入して実行する。事象Yを代入したサブルーチンが終了したら、ステップ711に進む。
(14)ステップ704で事象の発生を確認できなかった場合、分析部110は、事象Yが発生しているかをオンデマンドで確認する(ステップ715)。オンデマンドの確認では、観測部112を介して事象Yが発生するかを確認する。
分析部110は、オンデマンドアクション定義テーブル125を参照して、事象に対するオンデマンドでの確認方法を特定する。例えば、事象Yを管理対象に収集しに行いったり、プログラムを実行して事象Yが発生するかを検証したりする。事象Yに関係する管理対象のコンポーネントをモックに差し替えて変化があるか検証することで確認してもよい。また、事象Yに関係するアクションを管理対象に対して行い変化があるか検証することで確認してもよい。
また、その他に、オンデマンドでの確認方法としては、事象定義テーブル122に定義する事象のしきい値条件を緩和(しきい値を上げるまたはしきい値を下げる)ことを実施してもよい。
(15)ステップ715の確認の結果、事象の発生を確認できた場合は、ステップ706に進む。一方、事象の発生を確認できなかった場合は、ステップ717に進む(ステップ716)。
(16)ステップ715の確認で事象の発生を確認できなかった場合、分析部110は、ステップ705で特定したレコードの事象欄124bに事象なしを示す「F」を記憶する(ステップ717)。
(17)事象Yの事象確信度を更新する(ステップ718)。分析部110は、ステップ705で特定したレコードの事象確信度欄124eに新たな事象確信度を記憶する。もともとレコードに記憶された事象確信度(たいていは事象Yの結果事象である事象Xの事象確信度から算出した事象確信度。)からある評価式で減算あるいは減らす積算した事象確信度を記憶する。ここで、さらに事象Yの事象X以外の結果事象群を特定し結果事象群の事象確信度から事象Yの事象確信度を算出してもよい。この算出方法については図8で後述する。
(18)事象Yの事象確信度が既定値以上か判定する(ステップ719)。ステップ705で特定したレコードの事象確信度欄124eの値がしきい値以上か判定する。
(19)ステップ719の判定の結果しきい値以上であればステップ721に進む。一方、しきい値未満であれば、ステップ722に進む(ステップ720)。
(20)ステップ719の判定でしきい値以上であれば、事象Yの発生を仮定する(ステップ721)。ステップ705で特定したレコードの仮定欄124cに仮定を示す「T」を記憶する。その後ステップ708に進む。
(21)ステップ719の判定でしきい値未満であれば、事象Yの発生を仮定しない(ステップ722)。ステップ705で特定したレコードの仮定欄124cに仮定しないことを示す「F」を記憶する。その後ステップ711に進む。
図8は、図7のステップ718の事象確信度を更新する場合の処理の一形態を示す処理のフロー図である。
(1)事象Xの事象確信度から、事象を仮定した分の事象確信度を減算し、事象確信度XCを算出する(ステップ801)。
(2)事象Yの結果事象を検証し、事象Yの事象確信度を算出する(ステップ802)。因果関係テーブル121を参照し、事象Yの結果事象群のうち、事象X以外の事象群(A1〜An)を特定する。(ステップ802)。
(3)ステップ802で特定した事象群(A1〜An)から要素となる事象iを特定してステップ804からステップ809を実行する(ステップ803)。すべての要素について逐次実行し、終了したらステップ810に進む(ステップ809)。
(4)分析テーブル124に事象iに対応するレコードを追加する(ステップ804)。追加したレコードの事象ID欄124aには事象iを識別する情報を記憶し、判定済み欄124eには未判定を示す「F」を記憶する。
(5)観測事象テーブル123を参照し、事象iに対応する事象が発生しているか判定する(ステップ805)。
(6)ステップ805の判定で事象が発生している場合、ステップ811に進む。一方、事象が発生していない場合、ステップ807に進む(ステップ806)。
(7)ステップ805の判定で事象が発生している場合、ステップ804で追加したレコードの事象欄124bに事象有りを示す「T」を入力する。さらに、判定済み欄124fに判定済みを示す「T」を入力する(ステップ807)。
(8)続いて、ステップ804で追加したレコードの事象確信度欄124eを更新する(ステップ808)。とりうる最大の事象確信度を入力してもよいし、もともとの事象確信度に一定値を加算してもよい。このステップにより、事象Yの結果事象が観測された場合には、観測されなかった事象Yが本来は発生している可能性が高い。よって事象Yに対応する確信度YCの値を上昇させることで、図7のステップ720の判定で事象Yを仮定するステップ(ステップ721)に進む可能性を高める。
(9)ステップ805の判定で事象が発生していない場合、オンデマンドで事象iの発生を確認する(ステップ811)。ステップ811でのオンデマンドの確認は、先にステップ715で説明したオンデマンドの確認と同様である。
(10)ステップ811の確認で事象が発生した場合、ステップ807に進む。一方、事象が発生しなかった場合、ステップ813に進む(ステップ812)。
(11)ステップ811の判定で事象が発生しなかった場合、ステップ804で追加したレコードの事象欄124bに事象無を示す「F」を入力する。さらに、判定済み欄124fに判定済みを示す「T」を入力する(ステップ813)。
(12)続いて、確信度XCを減少させる。既定値を減算してもよいし、取りうる最小値を設定してもよい。その後、ステップ809に進む。
(13)ステップ809で全ての要素について実行したと判定した場合、事象Yの事象確信度を事象確信度XCとする(ステップ810)。
図9は、因果関係管理部111による、因果関係の関係確信度を更新する処理を示す処理フローである。分析部110による分析処理が終わったら、因果関係管理部111は、分析部110の分析結果に基づいて、因果関係の関係確信度を更新する。
(1)因果関係管理部111は、分析部110を介して、分析テーブル124を参照し、分析テーブル124に記憶された全事象の組合せ(事象Xと事象Y)に対して以下のステップ902からステップ905までの処理を実施する(ステップ901)
(2)分析テーブル124のあるレコードを参照し事象Xの確信度XCを特定し、別のあるレコードを参照し事象Yの確信度YCを特定する(ステップ902)
(3)次に、因果関係定義テーブル121を参照し、原因事象欄121bと結果事象欄121cとから事象Xと事象Yからなる因果関係XYに対応するレコードを特定し、特定した因果関係XYに対応するレコードの関係確信度欄121dを参照して、関係確信度XYCを特定する(ステップ903)。
(4)ステップ902およびステップ903で特定した事象確信度XC、事象確信度YC、および関係確信度XYCとから、事象Xと事象Y間の因果関係の新たな関係確信度XYC2を算出する(ステップ904)。
(5)そして、因果関係定義テーブル121を参照し、因果関係XYに対応するレコードの関係確信度欄121dにステップ904で算出した新たな関係確信度XYC2を代入する(ステップ905)。
(6)全ての事象の組合せについてステップ902からステップ905まで実施したら、本処理を終了する。
以上の処理により、分析結果にもとづいて因果関係の関係確信度を更新することができ、分析の実績を積み重ねて分析精度を向上させることができる。
図10は、管理端末100bの出力装置115による管理画面(確信度参照画面1001)の出力例である。
確信度参照画面1001は、事象表示欄1002と、因果関係表示欄1003とから構成されている。
事象表示欄1002は、本システムで管理する事象ごとの事象確信度をリアルタイムに表示する。事象表示欄1002は、事象ID欄1002aと、事象確信度欄1002bとから構成されている。事象ID欄1002aでは、分析テーブル124の事象ID欄104aに記憶された事象IDを表示する。事象確信度欄1002bでは、分析テーブル124の事象確信度欄104eに記憶された事象確信度の値を表示する。
因果関係確信度欄1003は、本システムで管理する因果関係ごとの関係確信度をリアルタイムに表示する。関係確信度欄1003は、因果関係ID欄1003aと原因事象ID欄1003bと結果事象ID欄1003cと関係確信度欄1003dとから構成されている。因果関係ID欄1003aでは、因果関係定義テーブル121の因果関係ID欄121aに記憶したIDを表示する。また、原因事象ID欄1003bには、原因事象欄121bに記憶したIDを表示する。結果事象欄1003cには、結果事象欄121cに記憶したIDを表示する。関係確信度欄1003dには、関係確信度欄121dに記憶した関係確信度を表示する。
この確信度参照画面1001により、分析部110による分析過程による事象ごとの事象確信度の変化を確認することができる。また、因果関係管理部111による分析結果に基く関係確信度の更新過程を確認することができる。
図11は、オンデマンドアクション定義テーブル125の一例を示す図である。
オンデマンドアクション定義テーブル125は、事象ID欄125aと、オンデマンドアクション内容欄125bと、アクション実行コマンド欄125cとから構成されている。
事象ID欄125aは、オンデマンドに発生確認する対象の事象を特定する識別情報を記憶する。オンデマンド事象定義テーブル122の事象ID欄122aに対応するIDを記憶する。
オンデマンドアクション内容欄125bは、発生を確認するオンデマンドのアクションの内容を記憶する。
クション実行コマンド欄125cは、発生を確認するオンデマンドのアクションの具体的確認方法を記憶する。
100a 管理サーバ
100b 管理端末
100c 管理対象計算機群
106 LANネットワーク
114 入力装置
115 出力装置

Claims (8)

  1. 電子計算機に接続され、記憶媒体とプロセッサとを有し、前記電子計算機で発生する事象を検出し、検出した事象を結果事象とする原因事象を特定する管理計算機であって、
    前記記憶媒体は、
    電子計算機で発生する2以上の事象を原因事象と結果事象として対応づける因果関係と、前記因果関係の確からしさである確信度と、を対応付けて因果関係定義として格納し、
    前記プロセッサは、
    第1の事象の発生を検出すると、前記因果関係を用いて前記第1の事象を結果事象とする原因事象である第2の事象を特定し、
    前記第2の事象の発生を検出したか否かの第1の判定をし、
    前記第1の判定で前記第2の事象の発生を検出していないと判定した場合、前記因果関係定義から、前記第1の事象を結果事象とし前記第2事象を原因事象とする因果関係に対応する確信度を更新し、
    前記更新された確信度が閾値以上である場合には、前記第2の事象が発生したと仮定して、前記第2の事象を結果事象とする原因事象である第3の事象を前記因果関係から特定する、
    ことを特徴とする管理計算機。
  2. 前記プロセッサは、
    前記第1の判定で前記第2の事象の発生を検出したと判定した場合、
    前記第1の事象を結果事象とし前記第2の事象を原因事象とする因果関係に対応する確信度の値を増加させる、
    ことを特徴とする請求項1に記載の管理計算機。
  3. 前記プロセッサは、
    前記第1の判定で前記第2の事象の発生を検出していないと判定した場合、前記因果関係定義から、前記第2の事象を原因事象とする前記第1事象以外の結果事象である第4の事象を特定し、前記第4の事象の発生を検出したか否かの第2の判定をする、
    ことを特徴とする請求項2に記載の管理計算機。
  4. 前記プロセッサは、
    前記第2の判定で前記第4の事象の発生を検出したと判定した場合、前記第1の事象を結果事象とし前記第2の事象を原因事象とする因果関係に対応する確信度を増加させることで前記確信度の更新を行う、
    ことを特徴とする請求項4に記載の管理計算機。
  5. 前記プロセッサは、
    前記第2の判定で前記第4の事象の発生を検出していないと判定した場合、前記第1の事象を結果事象とし前記第2事象を原因事象とする因果関係に対応する確信度を減少させることで前記確信度の更新を行う、
    ことを特徴とする請求項4に記載の管理計算機。
  6. 前記プロセッサは、
    前記第1の判定で前記第2の事象の発生を検出していないと判定した場合、前記第2の事象の発生をオンデマンドで確認し、事象の発生を確認した場合には、前記第1の判定で前記第2の事象の発生を検出したものと判定する、
    ことを特徴とする請求項5に記載の管理計算機。
  7. 前記プロセッサは、
    前記第2の判定で前記第4の事象の発生を検出していないと判定した場合、前記第4の事象の発生をオンデマンドで確認し、事象の発生を確認した場合には、前記第2の判定で前記第2の事象の発生を検出したものと判定する、
    ことを特徴とする請求項6に記載の管理計算機。
  8. 電子計算機で発生する事象を検出し、検出した事象を結果事象とする原因事象を特定する電子計算機の管理方法であって、
    電子計算機で発生する2以上の事象を原因事象と結果事象として対応づける因果関係と、前記因果関係の確からしさである確信度と、を対応付けて因果関係定義として管理し、
    第1の事象の発生を検出すると、前記因果関係を用いて前記第1の事象を結果事象とする原因事象である第2の事象を特定し、
    前記第2の事象の発生を検出したか否かの第1の判定をし、
    前記第1の判定で前記第2の事象の発生を検出していないと判定した場合、前記因果関係定義から、前記第1の事象を結果事象とし前記第2事象を原因事象とする因果関係に対応する確信度を更新し、
    前記更新された確信度が閾値以上である場合には、前記第2の事象が発生したと仮定して、前記第2の事象を結果事象とする原因事象である第3の事象を前記因果関係から特定する、
    ことを特徴とする電子計算機の管理方法。
JP2016204794A 2016-10-19 2016-10-19 管理計算機、及び電子計算機の管理方法 Pending JP2018067117A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016204794A JP2018067117A (ja) 2016-10-19 2016-10-19 管理計算機、及び電子計算機の管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016204794A JP2018067117A (ja) 2016-10-19 2016-10-19 管理計算機、及び電子計算機の管理方法

Publications (1)

Publication Number Publication Date
JP2018067117A true JP2018067117A (ja) 2018-04-26

Family

ID=62086183

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016204794A Pending JP2018067117A (ja) 2016-10-19 2016-10-19 管理計算機、及び電子計算機の管理方法

Country Status (1)

Country Link
JP (1) JP2018067117A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11212162B2 (en) 2019-07-18 2021-12-28 International Business Machines Corporation Bayesian-based event grouping

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11212162B2 (en) 2019-07-18 2021-12-28 International Business Machines Corporation Bayesian-based event grouping

Similar Documents

Publication Publication Date Title
US10467084B2 (en) Knowledge-based system for diagnosing errors in the execution of an operation
US10649838B2 (en) Automatic correlation of dynamic system events within computing devices
CN102436376B (zh) 用于分布式应用确认的模型检查
US8219548B2 (en) Data processing method and data analysis apparatus
US9298525B2 (en) Adaptive fault diagnosis
CN102713861B (zh) 操作管理装置、操作管理方法以及程序存储介质
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
US10452625B2 (en) Data lineage analysis
US20160055044A1 (en) Fault analysis method, fault analysis system, and storage medium
US9411673B2 (en) Management server, management system, and management method
CN107533504A (zh) 用于软件分发的异常分析
JP5285084B2 (ja) 検出イベントに応じたアクション実行を支援するシステム、検出イベントに応じたアクション実行を支援する方法、支援装置及びコンピュータプログラム
JP2011076292A (ja) 取得可能な機器情報に応じた障害原因解析ルールの設計方法及び計算機
JPWO2004061681A1 (ja) 運用管理方法および運用管理サーバ
JP6823265B2 (ja) 分析装置、分析システム、分析方法および分析プログラム
JPWO2013140608A1 (ja) イベントの根本原因の解析を支援する方法及びシステム
JP6528669B2 (ja) 予兆検知プログラム、装置、及び方法
JP6988304B2 (ja) 運用管理システム、監視サーバ、方法およびプログラム
JP6280862B2 (ja) イベント分析システムおよび方法
CN109408361A (zh) Monkey测试复原方法、装置、电子设备及计算机可读存储介质
JP2018067117A (ja) 管理計算機、及び電子計算機の管理方法
JP5803246B2 (ja) ネットワーク運用管理システム、ネットワーク監視サーバ、ネットワーク監視方法およびプログラム
JP2017167578A (ja) インシデント管理システム
CN114327988B (zh) 一种可视化网络故障关系确定方法和装置
CN112966056B (zh) 一种信息处理方法、装置、设备、系统及可读存储介质

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20170126