JP2019009726A - 障害切り分け方法および管理サーバ - Google Patents
障害切り分け方法および管理サーバ Download PDFInfo
- Publication number
- JP2019009726A JP2019009726A JP2017126351A JP2017126351A JP2019009726A JP 2019009726 A JP2019009726 A JP 2019009726A JP 2017126351 A JP2017126351 A JP 2017126351A JP 2017126351 A JP2017126351 A JP 2017126351A JP 2019009726 A JP2019009726 A JP 2019009726A
- Authority
- JP
- Japan
- Prior art keywords
- event
- failure
- additional action
- analysis
- monitoring target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
【課題】リソースの消費を抑制しつつネットワーク中の障害原因や箇所を精度よく特定する。【解決手段】監視対象に対して、可能性のある障害を根本原因イベントとして抽出する。監視対象から通知される障害イベントを収集し、収集した障害イベントを障害原因分析ルールに当てはめ、根本原因イベントとその確信度と未通知の障害イベントを特定する第一のステップ、特定した未通知イベントが所定の要件を満たし分析が完了したかどうかを判定する第二のステップ、分析が完了していない場合、監視対象に対して所定の追加アクションを行い、追加アクションの結果である追加の障害イベントを収集し、当該追加の障害イベントを障害原因分析ルールに当てはめて、根本原因イベントを確信度とともに絞り込む第三のステップを備える。第三のステップを第一のステップとして、第二のステップに回帰させ、絞込みが完了するまで処理を継続する。【選択図】図1
Description
本発明は、ネットワークシステム等において発生する障害を特定する技術に関する。
ネットワークシステムにおいて発生する障害を特定する場合、ルールに基づき、障害原因分析を行う技術(Root Cause Analysis : RCA)が知られている。例えば、特許文献1には、監視対象に対して所定のアクションを行い、アクションの結果である障害イベントを収集し、障害イベントを障害原因分析ルールに当てはめて、根本原因イベントを確信度とともに絞り込み、絞り込まれた根本原因イベントおよび確信度が、所定の要件を満たし絞り込みが完了したかどうかを判定し、絞り込みが完了していない場合、監視対象に対して所定の追加のアクションを行い、追加のアクションの結果である追加の障害イベントを収集し、当該追加の障害イベントを障害原因分析ルールに当てはめて、根本原因イベントを確信度とともに絞り込むステップを絞り込みが完了するまで継続する技術が記載される。
ネットワークシステムにおいて発生した障害の原因を特定する場合、RCAではネットワークシステムの運用管理を行う管理サーバが、監視対象から異常が発生していることを示す「イベント」を取得し、取得したイベントを所定のルールに当てはめて、障害の原因や個所を推定する。ここでイベントは所定の現象や事象全般を指すが、エラー信号のような具体的な信号の形をとる場合も有る。
RCAでは、監視対象から通知されたイベントを条件として障害原因を切り分けるため、障害発生時に通常であれば管理サーバに通知されるべき監視対象の異常警報等の情報が、装置の不具合等何らかの原因により通知されなかった場合、正しい障害原因の推定が困難である。
また、特定したい障害原因に対して推定条件となるべき監視対象の異常情報等が、イベントとして定義されていない場合も、ルール化することができないため障害原因の特定が困難となる。イベントとして定義されていない異常情報は、例えば管理サーバが一定周期ごとにネットワーク中の特定の対象に対して操作を行い(この操作を「アクション」という)、アクションに対応して生じる事象を「イベント」として定義し、ルール化する方法が考えられる。
しかし、アクションはネットワーク資源を利用して、特定対象に操作を行うものであり、ネットワーク中の全ての監視対象に対して多種多様な異常の有無を確認するためにアクションを行うことは、トラフィックを圧迫し、リソースを大量に消費することになる。
一方で限定された監視対象、異常のみを対象にアクションを行えば、トラフィックは圧迫しないが、精度の高い障害原因の特定は困難である。
本発明は以上の点を鑑み、ネットワークシステムの障害時にイベントが正しく通知されなかった場合、またはイベントとして定義されていない装置異常を条件とした障害原因分析を行う必要がある場合にも、リソースの消費を抑制しつつ障害原因や箇所を精度よく特定することを目的とする。
本発明の一側面は、入力装置、出力装置、処理装置、および記憶装置を用い、記憶装置に格納された複数の障害原因分析ルールに基づいて、監視対象に対して可能性のある障害を抽出する障害切り分け方法である。障害原因分析ルールの其々は、障害を示す根本原因イベントと、障害に関連するイベントである条件イベントを対応付けたデータである。この方法では、入力装置により、監視対象から通知されるイベントである通知イベントを収集する、通知イベント収集ステップと、処理装置により、通知イベントと障害原因分析ルールに基づいて、根本原因イベントとその確信度を特定する、障害原因分析ステップと、処理装置により、通知イベントと障害原因分析ルールに基づいて、通知されていないイベントを未通知イベントとして特定する、未通知イベント特定ステップと、出力装置により、未通知イベントに対応して、監視対象に対して所定の動作を指示する追加アクションを実行する、追加アクション実行ステップと、を備える。
本発明の他の一側面は、入力装置、出力装置、処理装置、および記憶装置を用い、記憶装置に格納された複数の障害原因分析ルールに基づいて、監視対象に対して可能性のある障害を抽出する障害切り分け方法である。障害原因分析ルールの其々は、障害を示す根本原因イベントと、障害に関連するイベントである条件イベントを対応付けたデータである。この方法では、入力装置により、監視対象から通知されるイベントである通知イベントを収集する、通知イベント収集ステップと、処理装置により、通知イベントと障害原因分析ルールに基づいて、根本原因イベントとその確信度を特定する障害原因分析ステップと、処理装置により、特定した根本原因イベントと確信度に基づいて、監視対象に対して所定の追加アクションを指示し、監視対象のシステムログを収集する追加アクション実行ステップと、収集したシステムログを解析し、監視対象から通知された通知イベント以外のイベントの発生有無を判定するシステムログ解析ステップと、を備える。
本発明の他の一側面は、監視対象に対して可能性のある障害を抽出する管理サーバである。このサーバは、障害を示す根本原因イベントと、障害に関連するイベントである条件イベントを対応付けたデータである障害原因分析ルールを格納する記憶装置と、監視対象から障害と関連するイベントを、通知イベントとして収集する障害監視部と、通知イベントと障害原因分析ルールに基づいて、根本原因イベントを特定する障害原因分析部と、通知イベントと障害原因分析ルールに基づいて、通知イベントに無く条件イベントにあるイベントを、未通知イベントとして特定する未通知イベント管理部と、特定した未通知イベントに基づいて、監視対象に対して所定の動作を指示する追加アクションを実行する追加アクション部と、を備える。
本発明の他の一側面は、監視対象に対して可能性のある障害を抽出する管理サーバである。このサーバは、障害を示す根本原因イベントと、障害に関連するイベントである条件イベントを対応付けたデータである障害原因分析ルールを格納する記憶装置と、監視対象から障害と関連するイベントを、通知イベントとして収集する障害監視部と、通知イベントと障害原因分析ルールに基づいて、根本原因イベントとその確信度を特定する障害原因分析部と、特定した根本原因イベントとその確信度に基づいて、監視対象に対してシステムログの収集を指示する追加アクション部と、を備える。
本発明によれば、リソースの消費を抑制しつつネットワーク中の障害原因や箇所を精度よく特定することが可能となる。上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
実施の形態について、図面を用いて詳細に説明する。ただし、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。
以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、重複する説明は省略することがある。
本明細書等における「第1」、「第2」、「第3」などの表記は、構成要素を識別するために付するものであり、必ずしも、数または順序を限定するものではない。また、構成要素の識別のための番号は文脈毎に用いられ、一つの文脈で用いた番号が、他の文脈で必ずしも同一の構成を示すとは限らない。また、ある番号で識別された構成要素が、他の番号で識別された構成要素の機能を兼ねることを妨げるものではない。
図面等において示す各構成の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面等に開示された位置、大きさ、形状、範囲などに限定されない。
以下の実施例では、監視対象に対して、可能性のある障害を根本原因イベントとして抽出する障害切り分け手法を開示している。この手法では監視対象から通知される障害イベントを収集し、収集した障害イベントを障害原因分析ルールに当てはめ、根本原因イベントとその確信度と未通知の障害イベントを特定する第一のステップ、第一のステップの結果、特定した未通知イベントが所定の要件を満たし分析が完了したかどうかを判定する第二のステップ、第二のステップの結果、分析が完了していない場合、監視対象に対して所定の追加アクションを行い、追加アクションの結果である追加の障害イベントを収集し、当該追加の障害イベントを前記障害原因分析ルールに当てはめて、根本原因イベントを確信度とともに絞り込む第三のステップを備え、第三のステップを第一のステップとして、第二のステップに回帰させ、前記絞込みが完了するまで処理を継続する。
サーバなどを含むコンピュータ、スイッチ等のネットワーク装置、およびストレージ装置等から構成されるネットワークシステムでは、通常、障害の発生時に装置の異常を示す情報が管理サーバへ通知される。このような障害管理方法を実現する具体的な例としては、ネットワークシステムを監視し、管理するためのプロトコルの一つであるSNMP(Simple Newwork Management Protocol)を利用したものが知られている。SNMPを利用した監視システムでは、障害発生時に監視対象となる機器に常駐するSNMPエージェントから管理サーバのSNMPマネージャへ装置状態が変化したことを通知することで監視対象の障害情報を一元的に管理可能である。
また、このようなネットワークシステムで多数の障害が発生した場合、障害の根本原因を特定する手段として、障害原因分析ルールに基づき、根本原因の特定を行う技術であるRCAが知られている。RCAを利用する障害原因分析システムではSNMPなどにより障害発生を示すイベントを検知すると、そのイベントの組み合わせから障害を解析して原因を特定可能である。さらに、障害原因分析システムは特定した根本原因の信頼度を表す指標である確信度を算出する。確信度は原因特定に使用した分析ルールに登録された条件イベントの個数と、発生した条件イベントの割合として算出される。例えば、5つの条件イベントから障害原因を特定する分析ルールにおいて、3つの条件イベントが発生し、障害原因分析を行ったのであれば確信度は3/5と算出される。
しかし監視対象装置のSNMPプロトコルエラーや、監視対象と管理サーバ間の通信障害が発生した場合、監視対象から管理サーバへのイベント通知が正しく行われない可能性がある。この場合障害原因分析システムでは解析に必要な条件イベントを十分に収集することができず、誤った確信度を算出してしまうため、高精度の障害原因解析を行うことが困難となる。
以下で詳しく述べるように、本実施例では、障害原因分析時に使用した分析ルールに登録された条件イベントのうち、通知されなかったイベントを未通知イベントと定義し、未通知イベントの発生有無を判定するようなアクションを監視対象に対し行うことで、リソースの消費を抑制しつつ障害原因分析システムの分析精度を向上させる効果をもつ。
<1−1.全体フロー>
図1は本実施例の全体フローの概要を示す流れ図である。フロー中に記載される各処理部は障害原因分析システムが備える機能部であり、システム構成は後に図2で説明するが、システムと動作の対応の理解のために、図1の説明でも図2以降の参照符号をあわせて記載することがある。
図1は本実施例の全体フローの概要を示す流れ図である。フロー中に記載される各処理部は障害原因分析システムが備える機能部であり、システム構成は後に図2で説明するが、システムと動作の対応の理解のために、図1の説明でも図2以降の参照符号をあわせて記載することがある。
まず分析を開始する(S101)。これは監視対象201から管理サーバ200へのイベント通知を契機としてもよいし、オペレータの指示、または所定時刻に自動的に行ってもよい。
次に障害原因分析部209は通知されたイベントと障害原因分析ルール216に基づき障害原因分析を行い、障害の根本原因(の候補)イベントを絞り込む(S102)。
そして、障害原因分析部209は、絞り込んだ全ての根本原因イベントについて、障害の根本原因の絞込みに用いた障害原因分析ルール216のIF部402に記載される条件イベントのうち、通知されたイベント以外の条件イベントを、未通知イベントとして絞り込む(S103)。
その後、分析完了判定部203は、絞り込んだ全ての未通知イベントに対して追加アクションを実施したかどうか判定する(S104)。追加アクションは絞り込んだ未通知イベントに応じて、管理サーバ200または外部の装置から監視対象201に対して行われるものである。そして絞りこんだ全ての未通知イベントに対して、追加アクションを実施済みであれば分析完了し(S108)、追加アクションを未実施の未通知イベントがある場合は、S105の処理に進む。
S105では追加アクション判定部204が、追加アクション判定シナリオ211から未通知イベントに対応する追加アクションを決定する。追加アクション判定シナリオは未通知イベントと追加アクションの組み合わせを示す表であり、詳細は図9で説明する。そして追加アクション実行部205は追加アクション実行シナリオを参照し、未通知イベントに対応して決定した追加アクションを実行する(S106)。
次に分析完了判定部203は、追加アクションの結果、いままで通知されていなかった未通知イベントが、監視対象装置で発生していることが確認できたかどうか判定する(S107)。未通知イベントの発生を確認できなかった場合、分析完了となり(S108)、未通知イベントの発生を確認した場合はS102へと戻り、分析完了となるまで同様の処理を続行する。
<1−2.全体システム>
図2は実施例1における全体システムの概要を示すブロック図である。本実施例では、管理サーバ200を用いて障害原因分析を実行する。監視対象201は、例えばネットワークシステムその他のシステムのコンポーネント(要素)である。監視対象201は物理的なものでも仮想的なものでもよい。また粒度も、装置単位(例えばサーバ装置)、装置に実装されるボード単位、ボード内の回路単位等任意である。
図2は実施例1における全体システムの概要を示すブロック図である。本実施例では、管理サーバ200を用いて障害原因分析を実行する。監視対象201は、例えばネットワークシステムその他のシステムのコンポーネント(要素)である。監視対象201は物理的なものでも仮想的なものでもよい。また粒度も、装置単位(例えばサーバ装置)、装置に実装されるボード単位、ボード内の回路単位等任意である。
管理サーバは、通常のサーバ同様に、入力装置、出力装置、処理装置(CPU)、記憶装置等の要素を有する。管理サーバは障害分析結果出力部202、分析完了判定部203、追加アクション判定部204、追加アクション実行部205、未通知イベント管理部206、障害多段分析管理部207、障害監視部208、障害分析部209、障害詳細情報収集部210を備える。障害監視部208は図示しない管理サーバの入力装置および出力装置を介して、監視対象201と通信可能である。
これらの部分は、記憶装置に格納されたプログラムが処理装置によって実行されることで、定められた処理を他のハードウェアと協働して行うことができる。本明細書では計算機などが実行するプログラムまたはその機能を実現する手段を、「機能」、「手段」、「部」、「モジュール」等と呼ぶ場合がある。また、処理装置は、厳密には演算装置と制御装置を含み、記憶装置のデータを用いてプログラムを処理するが、処理を実行する主語を制御装置として説明する場合がある。
また、管理サーバは追加アクション判定シナリオ211、追加アクション実行シナリオ212、未通知イベント管理テーブル213、コンポーネント管理テーブル214、分析結果管理テーブル215、障害原因分析ルール216、障害詳細情報217の情報を利用可能である。これらの情報は、記憶装置、例えば磁気記憶装置に格納しておく。
以後の説明では「〜テーブル」、「〜リスト」、「〜DB(Database)」、「〜キュー」「表」等の表現にて本実施例で使用する情報を説明する場合があるが、これら情報はテーブル、リスト、DB、キュー、等のデータ構造以外で表現されていてもよい。そのため、データ構造に依存しないことを示すために「〜テーブル」、「〜リスト」、「〜DB」、「〜キュー」等について「〜情報」、「〜データ」と呼ぶことがある。また、実施例で例示される上記テーブル類は、必ずしも1つのファイルである必要はなく、識別子で関連付けされた複数のテーブルでもよい。あるいは、複数のテーブルが合体した1つのテーブルでもよい。
また、各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ID(IDentification)」という表現を用いるが、これらについてはお互いに置換が可能である。
また、以後の説明では「プログラム」を主語として説明を行う場合があるが、プログラムはプロセッサによって実行されることで定められた処理をメモリ及び通信ポート(通信制御デバイス)を用いながら行うため、プロセッサを主語とした説明とする場合がある。また、プログラムを主語として開示された処理は管理サーバ等の計算機、情報処理装置が行う処理としてもよい。また、プログラムの一部または全ては専用ハードウェアによって実現されてもよい。
また、各種プログラムは、プログラム配布サーバや、計算機が読み取り可能な記憶メディアによって各計算機にインストールされてもよい。この場合、プログラム配布サーバは、プロセッサと記憶資源を含み、記憶資源はさらに配布プログラムと配布対象であるプログラムを記憶する。そして、配布プログラムをプロセッサが実行することで、プログラム配布サーバのプロセッサは、配布対象のプログラムを他の計算機に配布する。
また、入力装置や出力装置の例としてはディスプレイとキーボードとポインタデバイスが考えられるが、これ以外のデバイスであってもよい。また、入出力デバイスの代替としてシリアルインタフェースやイーサーネットインタフェースを入出力デバイスとし、当該インタフェースにディスプレイ又はキーボード又はポインタデバイスを有する表示用計算機を接続し、表示用情報を表示用計算機に送信したり、入力用情報を表示用計算機から受信することで、表示用計算機で表示を行ったり、入力を受け付けることで入出力デバイスでの入力及び表示を代替してもよい。
<1−3.適用ネットワーク構成>
図3は、本実施例の具体的な監視対象の例を説明するブロック図である。図3では適用例として通信装置301〜303、通信路309〜311から構成されるネットワークシステムを想定する。本例のネットワークシステムとは複数の通信装置、通信路からなるシステムである。また、通信装置とは他の装置とデータ交換をするためのデータ送受信機能を有するものであり、例えばクラウドサービス提供を目的にデータセンターに設置されるサーバであってもよいし、通信サービス提供を目的に通信施設に設置されるルータであってもよい。
図3は、本実施例の具体的な監視対象の例を説明するブロック図である。図3では適用例として通信装置301〜303、通信路309〜311から構成されるネットワークシステムを想定する。本例のネットワークシステムとは複数の通信装置、通信路からなるシステムである。また、通信装置とは他の装置とデータ交換をするためのデータ送受信機能を有するものであり、例えばクラウドサービス提供を目的にデータセンターに設置されるサーバであってもよいし、通信サービス提供を目的に通信施設に設置されるルータであってもよい。
さらに、通信路とは装置同士がデータ交換を行うための通信媒体であり、本実施例において通信路309〜311は例えば、10ギガビット・イーサネット(登録商標、以下同じ)の光ファイバを使用するが、いかなる帯域および規格の通信路を用いてもよい。
通信装置301〜303はトランシーバ305を備え、また、トランシーバ305は受信部307、送信部308を備える。通信装置301〜303は他装置からのデータを受信部307で終端し、他装置へのデータを送信部308から発信する。
本実施例の障害切り分け方法および管理サーバでは、これらの構成と通信が可能であり、発生するイベントの情報を収集する。ただし、イベントの収集は通信路309〜311の輻輳や障害等により阻害される場合がある。また、各通信装置301〜303の不具合や電源遮断等で阻害されることがあり得る。
<1−4.分析ルール>
図4A、図4Bは障害原因分析ルール216の例を示す表図である。図3のネットワークシステム構成例においては、通信障害を検討する場合に、コンポーネントとしてトランシーバ306の故障と、通信装置301〜303の故障を想定し、これらの故障を根本原因イベントと定義している。
図4A、図4Bは障害原因分析ルール216の例を示す表図である。図3のネットワークシステム構成例においては、通信障害を検討する場合に、コンポーネントとしてトランシーバ306の故障と、通信装置301〜303の故障を想定し、これらの故障を根本原因イベントと定義している。
障害原因分析ルール216は複数のルール401から構成され、各ルール401はIF部402およびTHEN部403を備える。THEN部には分析によって推定される根本原因イベントが記載され、IF部にはTHEN部に記載される根本原因イベントを推定するためのイベントである条件イベントが定義される。監視対象201で生じるイベントは、監視対象201から管理サーバ200へ通知イベントとして通知される。
図4Aはトランシーバ306の故障を推定するためのルール、また図4Bは通信装置301〜303を特定するためのルールである。
<1−5:イベント一覧表>
図5は監視対象201が異常を検知した際に管理サーバ200へ通知する可能性のあるイベント一覧表500の例を示す表図である。イベント一覧表500は、イベント番号501、イベント名502、イベント内容503を含む。また、イベント一覧表500は障害詳細情報217に含まれ、障害詳細情報収集部210は障害監視部208が監視対象201から収集した通知イベントのイベント番号501をキーとして、イベント一覧表500を検索することで発生したイベントの詳細を特定可能である。
図5は監視対象201が異常を検知した際に管理サーバ200へ通知する可能性のあるイベント一覧表500の例を示す表図である。イベント一覧表500は、イベント番号501、イベント名502、イベント内容503を含む。また、イベント一覧表500は障害詳細情報217に含まれ、障害詳細情報収集部210は障害監視部208が監視対象201から収集した通知イベントのイベント番号501をキーとして、イベント一覧表500を検索することで発生したイベントの詳細を特定可能である。
<1−6.根本原因イベント一覧表>
図6は本実施例において想定する根本原因イベント一覧表600の例を示す表図である。根本原因イベント一覧表600は根本原因イベント番号601、根本原因イベント名602、根本原因イベント内容603を含む。
図6は本実施例において想定する根本原因イベント一覧表600の例を示す表図である。根本原因イベント一覧表600は根本原因イベント番号601、根本原因イベント名602、根本原因イベント内容603を含む。
<1−7.発生イベント一覧表>
図7A,図7Bは本実施例において発生するイベント一覧の例を示す発生イベント一覧表700を示す表図である。発生イベント一覧表700は、発生イベント番号701、通知イベントのイベント番号702、イベント名703を含む。また、発生イベント一覧表700は障害詳細情報217に含まれ、監視対象201から管理サーバ200へ通知された通知イベントの、イベント番号やイベント名が記載される。障害分析部209は発生イベント一覧表700および障害原因分析ルール216を参照することで障害分析を行い、根本原因イベントを特定する。
図7A,図7Bは本実施例において発生するイベント一覧の例を示す発生イベント一覧表700を示す表図である。発生イベント一覧表700は、発生イベント番号701、通知イベントのイベント番号702、イベント名703を含む。また、発生イベント一覧表700は障害詳細情報217に含まれ、監視対象201から管理サーバ200へ通知された通知イベントの、イベント番号やイベント名が記載される。障害分析部209は発生イベント一覧表700および障害原因分析ルール216を参照することで障害分析を行い、根本原因イベントを特定する。
<1−8.未通知イベント管理テーブル>
図8A,図8Bは本実施例において特定する未通知イベント一覧の例および特定した未通知イベントを管理するための未通知イベント管理テーブル213の例を示す表図である。
図8A,図8Bは本実施例において特定する未通知イベント一覧の例および特定した未通知イベントを管理するための未通知イベント管理テーブル213の例を示す表図である。
未通知イベント管理テーブル213は、未通知イベント番号801、イベント番号802、イベント名803、実施フラグ804、結果フラグ805を含む。
未通知イベント管理部206は障害原因分析時に参照されたルール401のIF部402に記載される条件イベントのうち、通知されなかったイベントを未通知イベントとして、未通知イベントのイベント番号を未通知イベント管理テーブル213に登録する。また、実施フラグ804、結果フラグ805は障害原因分析の終了判定のために障害原因分析部209に参照される。未通知イベントの登録、および実施フラグ804、結果フラグ805の参照の方法について、具体的な説明は後述に記載する。
<1−9.追加アクション判定シナリオ>
図9は本実施例における追加アクション判定シナリオ211の例を示す表図である。追加アクション判定シナリオ211はイベント番号901、追加アクション番号902、追加アクション内容903を含む。追加アクション判定シナリオ211はイベント番号に応じて実行する追加アクションの一覧が記載され、追加アクション判定部204は、障害原因分析部209による未通知イベントの特定後、追加アクション判定シナリオ211を参照し、未通知イベントのイベント番号901をキーとして、実行すべき追加アクション内容903を判定する。追加アクション判定の具体的な説明は後述に記載する。
図9は本実施例における追加アクション判定シナリオ211の例を示す表図である。追加アクション判定シナリオ211はイベント番号901、追加アクション番号902、追加アクション内容903を含む。追加アクション判定シナリオ211はイベント番号に応じて実行する追加アクションの一覧が記載され、追加アクション判定部204は、障害原因分析部209による未通知イベントの特定後、追加アクション判定シナリオ211を参照し、未通知イベントのイベント番号901をキーとして、実行すべき追加アクション内容903を判定する。追加アクション判定の具体的な説明は後述に記載する。
<1−10.追加アクション実行シナリオ>
図10は追加アクション実行シナリオ212の例を示す表図である。追加アクション実行シナリオ212は追加アクション番号1001、追加アクション内容1002、実施方法例1003を含む。また、追加アクション実行シナリオ1003には追加アクション内容に応じた具体的な実施方法例が記載され、追加アクション実行部205は追加アクション実行シナリオ212の情報を参照し、追加アクションを実行する。
図10は追加アクション実行シナリオ212の例を示す表図である。追加アクション実行シナリオ212は追加アクション番号1001、追加アクション内容1002、実施方法例1003を含む。また、追加アクション実行シナリオ1003には追加アクション内容に応じた具体的な実施方法例が記載され、追加アクション実行部205は追加アクション実行シナリオ212の情報を参照し、追加アクションを実行する。
<1−11.分析結果管理テーブル>
図11A,図11Bは分析結果管理テーブル215の例を示す表図である。分析結果管理テーブル215は分析結果管理番号1101、根本原因イベント番号1102、根本原因イベント名1103、確信度1104を含む。
図11A,図11Bは分析結果管理テーブル215の例を示す表図である。分析結果管理テーブル215は分析結果管理番号1101、根本原因イベント番号1102、根本原因イベント名1103、確信度1104を含む。
障害原因分析部209は障害原因分析ルール216より特定した根本原因イベントおよび確信度を算出し、分析結果管理テーブル215に登録する。障害原因分析部209は参照したルール401のうち、IF部402に記載される通知イベントの数を分母に、IF部402に記載される通知イベントのうち発生イベント一覧表にも記載される通知イベントの個数を分子として確信度1104を算出する。確信度1104の具体的な算出方法の説明は後述に記載する。
<1−12.コンポーネント管理テーブル>
図12はコンポーネント管理テーブル214の例を示す表図である。コンポーネント管理テーブル214は追加アクション実行部205が追加アクション実行シナリオ212を基に監視対象201に対して追加アクションを実行するために必要な情報が記載される。本実施例においては、管理サーバ200が通信装置301〜303に対して、遠隔ログインをするために必要となるIPアドレスやID、パスワード等が内容1301、項目1302としてコンポーネント管理テーブル214に予め登録されている。
図12はコンポーネント管理テーブル214の例を示す表図である。コンポーネント管理テーブル214は追加アクション実行部205が追加アクション実行シナリオ212を基に監視対象201に対して追加アクションを実行するために必要な情報が記載される。本実施例においては、管理サーバ200が通信装置301〜303に対して、遠隔ログインをするために必要となるIPアドレスやID、パスワード等が内容1301、項目1302としてコンポーネント管理テーブル214に予め登録されている。
コンポーネント管理テーブル214は図12のように複数のテーブルの集合であってもよいし、他の形式でもよい。また、コンポーネントの粒度は任意であり、例えば通信装置の下位にトランシーバが位置する。さらに大きな粒度としてもよいし、小さな粒度としてもよい。また、コンポーネントが物理的なものでもよいし、仮想的なものでもよい。
<1−13.分析シーケンス>
図13は本実施例で想定する障害および障害根本原因の判定実行処理の流れを示す流れ図である。図13について具体的な例をもとに説明する。なお、障害多段分析管理部207は処理の全体を管理しており、各部(モジュール)の処理を順次実行しているが、以下の説明では障害多段分析管理部207の説明を省略することがある。
図13は本実施例で想定する障害および障害根本原因の判定実行処理の流れを示す流れ図である。図13について具体的な例をもとに説明する。なお、障害多段分析管理部207は処理の全体を管理しており、各部(モジュール)の処理を順次実行しているが、以下の説明では障害多段分析管理部207の説明を省略することがある。
まず図3に示す本実施例のネットワーク構成において、図7Aの発生イベント一覧表700に記載されるイベントが発生し、監視対象201から管理サーバ200へ通知イベントとしてイベント番号EV−13、EV−1、EV−7、EV−11、EV−8を持つイベントが通知されていることを想定する。
(S1201)障害原因分析部209は障害原因分析ルール216に登録された図4Aまたは図4Bのルール401から、IF部402に図7Aの発生イベント一覧表に記載される通知イベントのイベント番号EV−13、EV−1、EV−7、EV−11、EV−8の内少なくとも一つ以上が含まれるルール1、ルール2、ルール3、ルール4、ルール6、ルール7、ルール8を抽出する。
(S1202)次に抽出した各ルールのTHEN部から、根本原因イベント番号CE−1、CE−2、CE−3、CE−4、CE−6、CE−7、CE−8を特定し確信度を算出する。確信度算出は分母にルール内のIF部に記載される条件イベントの個数を、分子にIF部に記載される条件イベントのうち、発生しているイベント(すなわち、通知イベント)の個数を入力することで行われる。例えば、ルール1に記載される根本原因イベント番号CE−1の確信度は、IF部のイベント数が3、IF部のイベントのうち発生しているイベント数が1(EV−1)のため、確信度は1/3と算出する。他の根本原因イベントに対しても同様に確信度を算出し、根本原因イベント番号CE−2は1/3、CE−3は1/3、CE−4は2/3、CE−6は1/3、CE−7は1/2、CE−8は1/2となる。以上の処理によって障害原因分析部209は、分析結果管理テーブル215に根本原因イベントおよびそれぞれの確信度を登録し、この時分析結果管理テーブル215の内容は図11Aと等しくなる。
(S1203)また、障害原因分析部209は、発生イベントおよび抽出したルール401の条件イベントから未通知イベント(すなわち、発生が検出されていない、あるいは発生が通知されていないイベント等)のイベント番号を特定する。例えば抽出したルール1については、IF部に記載される3つのイベントのうち、EV−2、EV−14は未通知イベントのイベント番号である。他の抽出したルールについても同様に未通知イベントのイベント番号を特定し、ルール2はEV−3、EV−4を、ルール3はEV−5、EV−6を、ルール4はEV−15を、ルール6はEV−12、EV−15を、ルール7はEV−14を、ルール8はEV−15を特定する。障害原因分析部209は特定した未通知イベントのイベント番号を未通知イベント管理部206へ通知する。
(S1204)そして、未通知イベント管理部206は障害原因分析部209から通知されたイベント番号を未通知イベント管理テーブル213に登録する。実施フラグ804には未通知イベントに対して追加アクションが実施ずみであれば1が、未実施であれば0を入力する。現段階では全ての未通知イベントに対して追加アクションは未実施であるため全て0を入力する。結果フラグ805は、未通知イベントに対して実施した追加アクションによって、イベントが発生していることを確認したのであれば1を、これ以外の場合には0を入力する。現段階では全ての未通知イベントに対して追加アクションは未実施であるため全て0を入力する。この時、未通知イベント管理テーブル213の内容は図8Aに等しくなる。
(S1205)次に未通知イベント管理部206は,未通知イベント管理テーブル213に登録された未通知イベントの実施フラグ804が0であるレコードが一つ以上存在するか否かを判定する。未通知イベント管理テーブル213に登録された全ての未通知イベントの実施フラグ804が1である場合、S1206の処理に進み、分析は完了する。現段階では、実施フラグ804には全て0が登録されているため、未通知イベント管理部206は、未通知イベント管理テーブル213に登録されたイベントEV−2、EV−3、EV−4、EV−5、EV−6、EV−12、EV−14、EV−15を追加アクション判定部204に通知する。
(S1207)追加アクション判定部204は、未通知イベント管理部206から通知されたイベント番号と図9の追加アクション判定シナリオ211から、実行すべき追加アクション番号902を抽出する。未通知イベント管理部206からはイベント番号EV−2、EV−3、EV−4、EV−5、EV−6、EV−12、EV−14、EV−15が通知されたため、追加アクション番号AC−2、AC−3、AC−4、AC−5、AC−6、AC−12、AC−14、AC−15を抽出し、追加アクション実行部205へ通知する。
(S1208)追加アクション実行部205は追加アクション判定部204から通知された追加アクション番号と、図10の追加アクション実行シナリオ212を参照し追加アクションを実行する。例えば、追加アクション番号AC−2の追加アクション内容は送信部11Zの異常警報収集であり、具体的な実施方法としては実施方法例1003に記載されるように、Telnetによる管理サーバからの遠隔操作により、トランシーバ11送信部11Aの異常警報の有無を確認する。この際に追加アクション実行部205は、コンポーネント管理テーブル214を参照することで追加アクション実行に必要な情報を取得する。他の追加アクションについても同様に実行し、追加アクション実行部205は追加アクション結果を未通知イベント管理部206へ通知する。本実施例では、追加アクション番号AC−14の追加アクションのみ、疑われる事象が発生していることを確認したことを想定する。すなわち通信装置1−通信装置3間におけるping到着が確認できなかったという結果を得たことを想定する。
(S1209)未通知イベント管理部206は、追加アクション実行部205から追加アクション実行結果を受け取り、未通知イベント管理テーブル213の実施フラグ804および結果フラグ805の内容を更新する。実施フラグ804には、登録済みの全ての未通知イベントに対して、追加アクションを実行済みであるため全て1を登録する。また、結果フラグ805には、イベント番号EV−14にのみ疑われる事象が発生している結果を得たため1を登録する。この時、未通知イベント管理テーブル213の内容は図8Bに等しくなる。
(S1210)次に未通知イベント管理部206は、未通知イベント管理テーブル213に登録された未通知イベントの結果フラグ805が1であるレコードが一つ以上存在するか否かを判定する。未通知イベント管理テーブル213に登録された全ての未通知イベントの実施フラグ804が0である場合、S1211の処理に進み、分析は完了する。ここでは、図8Bに記載される通り、未通知イベント番号NOE−7の結果フラグが1であるため、未通知イベント管理部206はイベント番号EV−14を障害詳細情報収集部210に通知する。
(S1212)障害詳細情報収集部210は通知されたイベント番号EV−14を発生イベント一覧表に登録する。この時、発生イベント一覧表は図7Bの内容に等しくなる。次に処理はS1201へと戻る。
(S1201:2回目)障害原因分析部209は障害原因分析ルール216に登録された図4Aまたは図4Bのルール401から、IF部402に図7Bの発生イベント一覧表に記載されるイベント番号の内少なくとも一つ以上が含まれるルール401を抽出する。発生イベント一覧表には1回目の処理時には発生していなかったイベント番号EV−14のイベントが発生しているため、1回目の処理時に抽出されたルール1、ルール2、ルール3、ルール4、ルール6、ルール7、ルール8に加え、ルール5およびルール9が抽出される。
(S1202:2回目)次に抽出した各ルールのTHEN部から、根本原因イベント番号を特定し確信度を算出する。確信度の算出方法は1回目の処理時と同様であり、ここでは詳細な説明は省略する。障害原因分析部209は1回目の処理時には抽出しなかったルール5およびルール9を抽出しているため、分析結果管理テーブル215には根本原因イベント番号CE−5、CE−9を新たに登録する。既に登録済みの根本原因イベントについて再登録は行わず、確信度の更新のみを行う。CE−1、CE−7の確信度についてはルール1およびルール7のIF部に記載されるEV−14がS1211で新たに発生イベント一覧表に追加されたため、確信度がそれぞれ2/3、2/2へと更新される。この結果、分析結果管理テーブル215は図11Bに示す状態になる。
S1203〜S1209までの処理は1回目と同様の手順であり、詳細な説明は省略する。また、S1208では実行した全ての追加アクションについて疑われる事象が発生していることは確認できなかったと想定する。
(S1210:2回目)未通知イベント管理部206は未通知イベント管理テーブル213の全ての結果フラグ805に0を登録する。よって処理はS1210へ進み分析が完了する。
障害原因分析結果は障害分析結果出力部202によって実行されるが、結果出力のタイミングはS1210の分析完了判定を契機としても良いし、システム管理者からの要求を契機としてもよい。本実施例においてはS1210の分析完了判定時に結果を出力した場合、図11Bに記載される根本原因イベントの一覧および確信度が出力される。
<1−14.実施例の効果>
以上説明した実施例は、監視対象に対して、可能性のある障害を根本原因イベントとして抽出する障害切り分け方法である。この方法では、監視対象から通知される障害を示すイベントを収集するイベント収集ステップと、収集したイベントと予め定められた障害原因分析ルールに基づいて根本原因イベントと確信度を特定する障害原因分析ステップと、収集したイベントと障害原因分析ルール、また特定した根本原因イベントに基づいて監視対象の不具合により通知されなかったイベントを未通知イベントとして特定する未通知イベント特定ステップと、未通知イベントから監視対象に対して所定の動作を指示する追加アクションを実行する追加アクション実行ステップと、追加アクション実行結果に基づいて分析完了判定を行う分析完了判定ステップを備える。
以上説明した実施例は、監視対象に対して、可能性のある障害を根本原因イベントとして抽出する障害切り分け方法である。この方法では、監視対象から通知される障害を示すイベントを収集するイベント収集ステップと、収集したイベントと予め定められた障害原因分析ルールに基づいて根本原因イベントと確信度を特定する障害原因分析ステップと、収集したイベントと障害原因分析ルール、また特定した根本原因イベントに基づいて監視対象の不具合により通知されなかったイベントを未通知イベントとして特定する未通知イベント特定ステップと、未通知イベントから監視対象に対して所定の動作を指示する追加アクションを実行する追加アクション実行ステップと、追加アクション実行結果に基づいて分析完了判定を行う分析完了判定ステップを備える。
本実施例では例えば通知されるべきイベントEV−14(通信路13で通信断発生)が何らかの原因により通知されなかった場合でも、正しい障害原因の推定が可能となる。すなわち、障害発生時に通常であれば管理サーバに通知されるべき監視対象の異常警報等のイベントが、装置や通信回線の不具合等何らかの原因により通知されなかった場合でも、通知されなかった可能性のあるイベントを抽出し、これを能動的にチェックすることができ、高い信頼性で障害原因の推定が可能となる。
装置異常には様々なものがあり、SNMP等の監視制御のためのプロトコルで規定されない異常も数多くある。このような場合、管理サーバへ通知されない種類の装置異常を条件イベントとする分析ルールを作成することができず、障害原因特定の精度向上が困難である。管理システムへ通知する規定を持たない種類の装置異常に対しては、一般的には管理サーバから監視対象へTelnetなどによる遠隔ログインを行い、システムログを収集し分析することで装置異常の有無を確認する。
以下で詳しく述べるように本実施例ではシステムログから判別可能な装置異常を分析ルールの条件イベントとして予め定義しておくことで、リソースの消費を抑制しつつ障害原因分析システムの分析精度を向上させる効果をもつ。以下、表図中、実施例1と同じ符号をもつ処理、または機能部は実施例1と同様の処理、または機能を備えるものであり、本実施例では説明を省略することがある。
<2−1.全体フロー>
図14は本実施例の概要を示す流れ図である。(S1401)分析開始後、障害原因分析部209は通知イベントと障害原因分析ルール216に基づき、障害原因分析を行い、根本原因イベントを絞り込んだ後(S102)、追加アクション判定部204が、根本原因イベントに対応する追加アクションを決定する。
図14は本実施例の概要を示す流れ図である。(S1401)分析開始後、障害原因分析部209は通知イベントと障害原因分析ルール216に基づき、障害原因分析を行い、根本原因イベントを絞り込んだ後(S102)、追加アクション判定部204が、根本原因イベントに対応する追加アクションを決定する。
(S1402)次に決定した追加アクションをすべて実施したか否かを判定する。判定の結果、全て実施したのであれば、S107の処理に進み、分析完了となる。
(S1403)追加アクション実行部205は、監視対象のシステムログを収集する。
(S1404)次にログ内容解析部218は、ログ解析シナリオ219に基づき監視対象のシステムログの内容を解析する。
(S1405)システムログに装置異常を示す内容が含まれている場合、処理はS102に戻り、分析が完了するまで同様の処理を継続する。装置異常を示す内容が含まれていない場合、処理はS107に進み、分析完了となる。
<2−2.機能ブロック図>
図15は本実施例における全体システムの概要を示すブロック図である。管理サーバ200−2について実施例1と同様の構成は同じ符号を付けて説明を省略する。管理サーバ200−2はログ内容解析部218、ログ解析シナリオ219、および追加アクション管理テーブル220を備える。
図15は本実施例における全体システムの概要を示すブロック図である。管理サーバ200−2について実施例1と同様の構成は同じ符号を付けて説明を省略する。管理サーバ200−2はログ内容解析部218、ログ解析シナリオ219、および追加アクション管理テーブル220を備える。
ログ内容解析部218は追加アクション実行部205が取得した監視対象201のシステムログを解析し、システムログに装置異常を示す情報が含まれているか否かを判定する。ログ解析シナリオ219はログ内容解析部218が解析するために、必要となる情報を登録する。詳細については後述に記載する。また、追加アクション管理テーブル220は障害原因分析の結果、実行する追加アクションおよびその結果を管理するものである。
<2−3.障害原因分析ルール>
図16は本実施例における障害原因分析ルール216−2の一例を示す表図である。障害原因分析ルール216−2は実施例1と同様に各ルール401に、IF部402とTHEN部403を備える。図16に記載のルール7〜9は本実施例における通信装置故障を根本原因イベントとする分析ルールであり、トランシーバ故障を根本原因イベントとするルール1〜6の内容は図4Aと等しいのものとする。
図16は本実施例における障害原因分析ルール216−2の一例を示す表図である。障害原因分析ルール216−2は実施例1と同様に各ルール401に、IF部402とTHEN部403を備える。図16に記載のルール7〜9は本実施例における通信装置故障を根本原因イベントとする分析ルールであり、トランシーバ故障を根本原因イベントとするルール1〜6の内容は図4Aと等しいのものとする。
ルール7〜9はIF部402に何れも通信装置のHDD書き込みエラーを示すイベントを根本原因イベントの条件イベントとして定義しており、前記条件イベントは本実施例の管理システムの仕様上、監視対象201から管理サーバ200に自動的な異常通知が行われないものとする。
<2−4.イベント一覧表>
図17は本実施例におけるイベントの一覧である、イベント一覧表500−2を示す。イベント一覧表500−2は図5に記載のイベントEV−1〜EV−15に加え、監視対象201から管理サーバ200へ通知はされないが、追加アクション実行の結果、障害原因分析部209から障害詳細情報収集部210へ通知される可能性のあるイベントEV−16〜EV〜18が登録される。
図17は本実施例におけるイベントの一覧である、イベント一覧表500−2を示す。イベント一覧表500−2は図5に記載のイベントEV−1〜EV−15に加え、監視対象201から管理サーバ200へ通知はされないが、追加アクション実行の結果、障害原因分析部209から障害詳細情報収集部210へ通知される可能性のあるイベントEV−16〜EV〜18が登録される。
<2−5.発生イベント一覧表>
図18A,図18Bは本実施例において用いる発生イベント一覧表700−2の表図である。基本的な構成は実施例1の図7A,図7Bに示したものと同様であり、発生イベント一覧表700−2が備えるフィールドは実施例1と同様のため詳細な説明は省略する。ただし、本実施例においては、イベント番号およびイベント名の項目に、監視対象201から管理サーバ200へ通知はされないが追加アクション実行の結果、障害原因分析部209から障害詳細情報収集部210へ通知される可能性のある、図17に示すイベントEV−16〜EV〜18が登録されることがある。
図18A,図18Bは本実施例において用いる発生イベント一覧表700−2の表図である。基本的な構成は実施例1の図7A,図7Bに示したものと同様であり、発生イベント一覧表700−2が備えるフィールドは実施例1と同様のため詳細な説明は省略する。ただし、本実施例においては、イベント番号およびイベント名の項目に、監視対象201から管理サーバ200へ通知はされないが追加アクション実行の結果、障害原因分析部209から障害詳細情報収集部210へ通知される可能性のある、図17に示すイベントEV−16〜EV〜18が登録されることがある。
イベント一覧表500−2、発生イベント一覧表700−2は、障害詳細情報217−2に含まれる。
<2−6.追加アクション判定シナリオ>
図19は本実施例における追加アクション判定シナリオ211−2の例を示す表図である。追加アクション判定シナリオ211−2は根本原因イベント番号1501、追加アクション番号902、確信度条件1502、追加アクション内容903を備える。本実施例における追加アクション判定の具体例については図24にて詳細に説明する。
図19は本実施例における追加アクション判定シナリオ211−2の例を示す表図である。追加アクション判定シナリオ211−2は根本原因イベント番号1501、追加アクション番号902、確信度条件1502、追加アクション内容903を備える。本実施例における追加アクション判定の具体例については図24にて詳細に説明する。
<2−7.追加アクション実行シナリオ>
図20は本実施例における追加アクション実行シナリオ212−2の例を示す表図である。追加アクション実行シナリオ212−2は追加アクション番号1001、追加アクション内容1002、実施方法例1003を備える。本実施例における追加アクション実行の具体例については図24にて詳細に説明する。
図20は本実施例における追加アクション実行シナリオ212−2の例を示す表図である。追加アクション実行シナリオ212−2は追加アクション番号1001、追加アクション内容1002、実施方法例1003を備える。本実施例における追加アクション実行の具体例については図24にて詳細に説明する。
<2−8.ログ解析シナリオ>
図21は本実施例におけるログ解析シナリオ219の例を示す表図である。ログ解析シナリオ219は追加アクション番号1601、解析キーワード(1)1602、解析キーワード(2)1603、結果として通知されるべきイベント番号1604を備える。ログ内容解析部218はログ解析シナリオ219を参照することで、監視対象101のシステムログを解析し、システムログに装置異常を示す情報が含まれているか否かを判定する。本実施例においてはログ解析シナリオ219に予め、システムログを解析するための解析キーワードを登録しておき、システムログに対しこの解析キーワードをキーとした検索を行い、検索結果を基に異常を示す情報が含まれるか否かを判定する。判定結果は、イベント番号1604に、例えばイベントEV−16〜EV〜18として反映される。
図21は本実施例におけるログ解析シナリオ219の例を示す表図である。ログ解析シナリオ219は追加アクション番号1601、解析キーワード(1)1602、解析キーワード(2)1603、結果として通知されるべきイベント番号1604を備える。ログ内容解析部218はログ解析シナリオ219を参照することで、監視対象101のシステムログを解析し、システムログに装置異常を示す情報が含まれているか否かを判定する。本実施例においてはログ解析シナリオ219に予め、システムログを解析するための解析キーワードを登録しておき、システムログに対しこの解析キーワードをキーとした検索を行い、検索結果を基に異常を示す情報が含まれるか否かを判定する。判定結果は、イベント番号1604に、例えばイベントEV−16〜EV〜18として反映される。
<2−9.分析結果管理テーブル>
図22A,図22Bは本実施例における分析結果管理テーブル215−2の例を示す表図である。基本的な構成は実施例1の図11A,図11Bに示したものと同様であり、分析結果管理テーブル215−2が備えるフィールドは実施例1と同様のため、詳細な説明は省略する。ただし、実施例2の分析結果管理テーブル215−2の確信度の判定には、監視対象201から管理サーバ200へ通知はされないが追加アクション実行の結果、障害原因分析部209から障害詳細情報収集部210へ通知される可能性のあるイベントEV−16〜EV〜18の有無が反映される。
図22A,図22Bは本実施例における分析結果管理テーブル215−2の例を示す表図である。基本的な構成は実施例1の図11A,図11Bに示したものと同様であり、分析結果管理テーブル215−2が備えるフィールドは実施例1と同様のため、詳細な説明は省略する。ただし、実施例2の分析結果管理テーブル215−2の確信度の判定には、監視対象201から管理サーバ200へ通知はされないが追加アクション実行の結果、障害原因分析部209から障害詳細情報収集部210へ通知される可能性のあるイベントEV−16〜EV〜18の有無が反映される。
<2−10.追加アクション管理テーブル>
図23は追加アクション管理テーブル220の一例を示す表図である。追加アクション管理テーブル220は、追加アクション番号1801、アクション内容1802、実施フラグ1803、結果フラグ1804を含む。具体的な説明は後述する。
図23は追加アクション管理テーブル220の一例を示す表図である。追加アクション管理テーブル220は、追加アクション番号1801、アクション内容1802、実施フラグ1803、結果フラグ1804を含む。具体的な説明は後述する。
<2−11.分析シーケンス>
図24は本実施例で想定する障害および障害根本原因の判定実行処理の流れを示す流れ図である。図24について具体的な例をもとに説明する。なお、障害多段分析管理部207は処理の全体を管理しており、各部(モジュール)の処理を順次実行しているが、以下の説明では障害多段分析管理部207の説明を省略することがある。
図24は本実施例で想定する障害および障害根本原因の判定実行処理の流れを示す流れ図である。図24について具体的な例をもとに説明する。なお、障害多段分析管理部207は処理の全体を管理しており、各部(モジュール)の処理を順次実行しているが、以下の説明では障害多段分析管理部207の説明を省略することがある。
本実施例の具体的な適用例として、実施例1と同様図3の構成を用いる。まず図3に示すネットワーク構成において、図18Aの発生イベント一覧表700−2に記載されるイベントが発生し、監視対象201から管理サーバ200へイベント番号EV−13、EV−1、EV−7、EV−11、EV−8、EV−14が通知されていることとする。
(S1201)障害原因分析部209は障害原因分析ルール216に登録された図4Aおよび図16のルール401から、IF部402に図18A発生イベント一覧表に記載されるイベント番号EV−13、EV−1、EV−7、EV−11、EV−8、EV−14の内少なくとも一つ以上が条件イベントに含まれるルール1、ルール2、ルール3、ルール4、ルール5、ルール6、ルール7、ルール8、ルール9を抽出する。
(S1701)次に抽出した各ルールのTHEN部から、根本原因イベント番号CE−1、CE−2、CE−3、CE−4、CE−5、CE−6、CE−7、CE−8、CE−9を特定し確信度を算出する。確信度算出の方法は実施例1と同様であるため、詳細な説明は省略する。障害原因分析部209は分析結果管理テーブル215-2に根本原因イベントおよびそれぞれの確信度を登録し、この時、分析結果管理テーブル215-2の内容は図22Aと等しくなる。
(S1702)そして、追加アクション判定部204は分析結果管理テーブル215−2および追加アクション判定シナリオ211−2から実行すべき追加アクション番号を抽出する。追加アクション判定シナリオ211−2は障害原因分析部209が判定した根本原因イベント番号および確信度から追加アクション内容を決定するものである。本実施例では図22A中の分析結果管理番号RA−7が、図19中の追加アクション番号AC−1の条件を満たしているため、追加アクション判定部204は、AC−1を抽出し追加アクション管理テーブル220へ登録する。この時、追加アクション管理テーブル220の内容は図23に等しい。
(S1703)次に追加アクション判定部204は、追加アクション管理テーブル220に登録されたレコードの内、実施フラグ1803が「0」であるレコードが一つ以上あるかどうか判定する。該当のレコードが一つもなければ処理はS1704に進み分析完了となる。ここでは追加アクションAC−1の実施フラグ1803が「0」であるため、追加アクション判定部204は追加アクションAC−1を追加アクション実行部205へ通知する。
(S1207)追加アクション実行部205は追加アクション番号、追加アクション実行シナリオ212−2に基づき追加アクションを実行する。ここでは図20中AC−1の追加アクションが実行される。すなわち、追加アクション実行部205はTelnetなどにより通信装置1に遠隔ログインし、システムログを収集しログ内容解析部218へ実行した追加アクション番号を通知する。
(S1705)そしてログ内容解析部218は追加アクション番号、ログ解析シナリオ219に基づきログ内容を解析する。本実施例では追加アクションAC−1のログ解析シナリオに基づき、ログ内容を解析する。AC−1はシステムログ内に、「I/O Error on device1」または「Currently Unreadable Sector」という用語が含まれているのであればイベントEV−16を障害原因分析部209に通知するものであり、本実施例においては追加アクション実行部205が収集した通信装置1のシステムログに「I/O Error on device1」が含まれていたとする。ログ内容解析部218は実行結果を追加アクション判定部204に通知する。
(S1706)追加アクション判定部204は実行結果を追加アクション管理テーブル220に反映し、実施フラグ1803および結果フラグ1804を更新する。追加アクションAC−1の結果、イベントEV−16の発生を確認したため、追加アクション管理テーブル220のAC−1の実施フラグ1803を「1」に、結果フラグ1804を「1」に更新する。
(S1707)次に追加アクション判定部204は追加アクション管理テーブル220に結果フラグ1804が「1」であるレコードが1行以上あるか判定する。ここでは追加アクションAC−1の結果フラグ1804が「1」であるため、追加アクション判定部204はイベントEV−16を障害詳細情報収集部210へ通知する。
(S1211)次に障害詳細情報収集部210はイベントEV−16を発生イベント一覧表に追加する。ここで発生イベント一覧表の内容は図18Bと等しくなる。
(S1201:2回目)障害原因分析部209は障害原因分析ルール216に登録された図4Aまたは図16のルール401から、IF部402に図18B発生イベント一覧表に記載されるイベント番号EV−13、EV−1、EV−7、EV−11、EV−8、EV−14、EV−16の内少なくとも一つ以上が含まれるルール1、ルール2、ルール3、ルール4、ルール5、ルール6、ルール7、ルール8、ルール9を抽出する。
(S1701:2回目)次に抽出した各ルールのTHEN部から、根本原因イベント番号を特定し確信度を算出する。確信度の算出方法は1回目の処理時と同様であり、ここでは詳細な説明は省略する。既に登録済みの根本原因イベントについて再登録は行わず、確信度の更新のみを行う。CE−7の確信度についてはルール7のIF部に記載されるEV−16がS1211で新たに発生イベント一覧表に追加されたため、確信度が3/3へと更新される。
(S1702:2回目)そして、追加アクション判定部204は分析結果管理テーブル215−2および追加アクション判定シナリオ211−2から実行すべき追加アクション番号を抽出し、追加アクション管理テーブル220へ登録する。追加アクションAC−1が抽出されるが、既に登録済みの追加アクションのため再登録は行わない。
(S1703:2回目)さらに追加アクション判定部204は、追加アクション管理テーブル220に登録されたレコードの内、実施フラグ1803が「0」であるレコードが一つ以上あるかどうか判定する。ここでは追加アクションAC−1の実施フラグ1803は「1」であるため、処理はS1704に進み分析完了となる。
<2−12.実施例の効果>
以上のように、本実施例では監視対象に対して、可能性のある障害を根本原因イベントとして抽出する障害切り分け方法を説明した。この方法では、監視対象から通知されるイベントおよび予め定められた障害原因分析ルールに基づいて根本原因イベントと確信度を特定する障害原因分析ステップと、特定した根本原因イベントと確信度に基づいて監視対象に対して所定の動作を指示し、監視対象のシステムログを収集する追加アクション実行ステップと、収集したシステムログを解析し監視対象から通知された障害イベント以外の障害イベントの発生有無を判定するシステムログ解析ステップと、システムログ解析結果に基づいて、分析完了判定を行う分析完了判定ステップを備える。
以上のように、本実施例では監視対象に対して、可能性のある障害を根本原因イベントとして抽出する障害切り分け方法を説明した。この方法では、監視対象から通知されるイベントおよび予め定められた障害原因分析ルールに基づいて根本原因イベントと確信度を特定する障害原因分析ステップと、特定した根本原因イベントと確信度に基づいて監視対象に対して所定の動作を指示し、監視対象のシステムログを収集する追加アクション実行ステップと、収集したシステムログを解析し監視対象から通知された障害イベント以外の障害イベントの発生有無を判定するシステムログ解析ステップと、システムログ解析結果に基づいて、分析完了判定を行う分析完了判定ステップを備える。
以上で詳細に説明したように、本実施例では例えばハードディスクの書き込みエラーのように、監視対象側から通知されるイベントとして定義されていない装置異常を条件とした障害原因分析を行う必要がある場合にも、正しい障害原因の推定が可能となる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
たとえば実施例1の変形例として、図9の追加アクション判定シナリオ211の追加アクション内容903に、実施例2のようなシステムログ収集のための追加アクションを定義してもよい。このとき、障害原因分析ルール216は図4Aおよび図16に示すようなものを用い、追加アクション判定シナリオ211では、未通知イベントに対する追加アクションとしてシステムログを収集するアクションを定義する。例えば、図9の追加アクション判定シナリオ211に、イベント番号「EV−16」、追加アクション番号「AC−16」、追加アクション内容「通信装置1のシステムログ収集」を含める。このとき、図16のルール7でイベントEV−13とEV−14が通知されている場合、イベントEV−16を未通知イベントとし、未通知イベントに対応する追加アクションとしてログを収集する。もっともこの場合、仕様上イベントEV−16は監視対象側からは通知されないので、当初は必ず未通知イベントとなる。システムログ収集のための追加アクションの内容や、ログ解析手法は実施例2と同様でよい。
また、実施例1の変形例として、図9の追加アクション判定シナリオ211に代えて、実施例2の図19の追加アクション判定シナリオ211−2を用いることもできる。この場合、図19の追加アクション判定シナリオ211−2の追加アクション内容には、システムログ収集に代えて、あるいは追加して、システムログ収集以外の追加アクション例えば「送信部11Aの異常警報収集」を定義することができる。
あるいは、実施例1の変形例として、図9の追加アクション判定シナリオ211とともに図19の追加アクション判定シナリオ211−2を使用するようにして、2種類の追加アクション判定シナリオをOR条件で用いてもよい。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、又はICカード、SDカード、DVD等の記録媒体に置くことができる。
200:管理サーバ、201:監視対象、障害分析結果出力部202、分析完了判定部203、追加アクション判定部204、追加アクション実行部205、未通知イベント管理部206、障害多段分析管理部207、障害監視部208、障害分析部209、障害詳細情報収集部210、追加アクション判定シナリオ211、追加アクション実行シナリオ212、未通知イベント管理テーブル213、コンポーネント管理テーブル214、分析結果管理テーブル215、障害原因分析ルール216、障害詳細情報217
Claims (15)
- 入力装置、出力装置、処理装置、および記憶装置を用い、
前記記憶装置に格納された複数の障害原因分析ルールに基づいて、監視対象に対して可能性のある障害を抽出する障害切り分け方法であって、
前記障害原因分析ルールの其々は、前記障害を示す根本原因イベントと、該障害に関連するイベントである条件イベントを対応付けたデータであり、
前記入力装置により、前記監視対象から通知されるイベントである通知イベントを収集する、通知イベント収集ステップと、
前記処理装置により、前記通知イベントと前記障害原因分析ルールに基づいて、前記根本原因イベントとその確信度を特定する、障害原因分析ステップと、
前記処理装置により、前記通知イベントと前記障害原因分析ルールに基づいて、通知されていないイベントを未通知イベントとして特定する、未通知イベント特定ステップと、
前記出力装置により、前記未通知イベントに対応して、前記監視対象に対して所定の動作を指示する追加アクションを実行する、追加アクション実行ステップと、を備える、
障害切り分け方法。 - 請求項1に記載の障害切り分け方法であって、
前記障害原因分析ルールの其々は、前記根本原因イベントの成立条件として1または複数の前記条件イベントを列挙したデータであり、
前記障害原因分析ステップは、
前記通知イベントを条件イベントとして含む前記障害原因分析ルールに基づいて、前記根本原因イベントを特定し、
前記障害原因分析ルールに列挙された条件イベントの個数、および、前記条件イベントに含まれる前記通知イベントの個数に基づいて、特定した前記根本原因イベントの確信度を算出する、
障害切り分け方法。 - 請求項1に記載の障害切り分け方法であって、
前記未通知イベント特定ステップは、
前記障害原因分析ルールに列挙された前記条件イベントのうち、前記通知イベント以外を未通知イベントとして特定する、
障害切り分け方法。 - 請求項1に記載の障害切り分け方法であって、
前記追加アクション実行ステップは、
前記未通知イベントに対して行う追加アクションを定義した対応表を、追加アクション判定シナリオとして予め規定し、
前記未通知イベント特定ステップで特定した前記未通知イベントに応じて、前記追加アクションを実行する、
障害切り分け方法。 - 請求項1に記載の障害切り分け方法であって、
前記障害原因分析ステップの後に特定した全ての未通知イベントに対して追加アクションが実行済みであれば処理を完了する第1の分析完了判定ステップと、
前記障害原因分析ステップの後に特定した未通知イベントに対する追加アクションの実行の結果、新たな通知イベントを特定しなかった場合は処理を完了し、新たな通知イベントを特定した場合は、再度前記障害原因分析ステップを実行する、第2の分析完了判定ステップを備える、
障害切り分け方法。 - 請求項1に記載の障害切り分け方法であって、
前記未通知イベントは、前記監視対象の不具合により通知されなかったイベントである、
障害切り分け方法。 - 入力装置、出力装置、処理装置、および記憶装置を用い、
前記記憶装置に格納された複数の障害原因分析ルールに基づいて、監視対象に対して可能性のある障害を抽出する障害切り分け方法であって、
前記障害原因分析ルールの其々は、前記障害を示す根本原因イベントと、該障害に関連するイベントである条件イベントを対応付けたデータであり、
前記入力装置により、前記監視対象から通知されるイベントである通知イベントを収集する、通知イベント収集ステップと、
前記処理装置により、前記通知イベントと前記障害原因分析ルールに基づいて、前記根本原因イベントとその確信度を特定する障害原因分析ステップと、
前記処理装置により、特定した前記根本原因イベントと確信度に基づいて、前記監視対象に対して所定の追加アクションを指示し、前記監視対象のシステムログを収集する追加アクション実行ステップと、
収集した前記システムログを解析し、前記監視対象から通知された通知イベント以外のイベントの発生有無を判定するシステムログ解析ステップと、を備える、
障害切り分け方法。 - 請求項7に記載の障害切り分け方法であって、
前記追加アクション実行ステップは、
前記障害原因分析ステップで特定した前記根本原因イベントとその確信度に応じて行う前記追加アクションを定義した対応表を、追加アクション判定シナリオとして予め規定し、
前記追加アクション判定シナリオを基に、前記監視対象のシステムログを収集する、
障害切り分け方法。 - 請求項7に記載の障害切り分け方法であって、
前記システムログ解析ステップは、
前記追加アクションの実行後に収集した前記監視対象のシステムログに対して、予め規定した分析キーワードを用い、前記監視対象から通知された通知イベント以外のイベントを検知して新たな通知イベントとして特定する、
障害切り分け方法。 - 請求項7に記載の障害切り分け方法であって、
前記障害原因分析ステップの後に特定した全ての追加アクションを実行済みであれば処理を完了する第1の分析完了判定ステップと、
前記追加アクション実行ステップの結果、新たな通知イベントを特定しなかった場合は処理を完了し、新たな通知イベントを特定した場合は再度前記障害原因分析ステップを実行する第2の分析完了判定ステップを備える、
障害切り分け方法。 - 監視対象に対して可能性のある障害を抽出する管理サーバであって、
前記障害を示す根本原因イベントと、該障害に関連するイベントである条件イベントを対応付けたデータである障害原因分析ルールを格納する記憶装置と、
前記監視対象から前記障害と関連するイベントを、通知イベントとして収集する障害監視部と、
前記通知イベントと前記障害原因分析ルールに基づいて、前記根本原因イベントを特定する障害原因分析部と、
前記通知イベントと前記障害原因分析ルールに基づいて、前記通知イベントに無く前記条件イベントにあるイベントを、未通知イベントとして特定する未通知イベント管理部と、
特定した前記未通知イベントに基づいて、前記監視対象に対して所定の動作を指示する追加アクションを実行する追加アクション部と、を備える、
管理サーバ。 - 前記記憶装置は、前記イベントに対応して前記追加アクションを対応付けたデータである追加アクションシナリオを格納し、
前記追加アクション部は、前記追加アクションシナリオを参照して、前記追加アクションを実行する、
請求項11記載の管理サーバ。 - 監視対象に対して可能性のある障害を抽出する管理サーバであって、
前記障害を示す根本原因イベントと、該障害に関連するイベントである条件イベントを対応付けたデータである障害原因分析ルールを格納する記憶装置と、
前記監視対象から前記障害と関連するイベントを、通知イベントとして収集する障害監視部と、
前記通知イベントと前記障害原因分析ルールに基づいて、前記根本原因イベントとその確信度を特定する障害原因分析部と、
特定した前記根本原因イベントとその確信度に基づいて、前記監視対象に対してシステムログの収集を指示する追加アクション部と、を備える、
管理サーバ。 - 前記記憶装置は、前記根本原因イベントに対応して前記確信度の条件と追加アクションを対応付けたデータである追加アクションシナリオを格納し、
前記追加アクション部は、前記追加アクションシナリオを参照して、前記追加アクションを実行する、
請求項13記載の管理サーバ。 - 前記記憶装置は、前記追加アクションに対応してシステムログの解析キーワードを対応付けたデータであるログ解析シナリオを格納し、
収集した前記システムログを前記解析キーワードで解析するログ内容解析部を備える、
請求項14記載の管理サーバ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017126351A JP2019009726A (ja) | 2017-06-28 | 2017-06-28 | 障害切り分け方法および管理サーバ |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017126351A JP2019009726A (ja) | 2017-06-28 | 2017-06-28 | 障害切り分け方法および管理サーバ |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019009726A true JP2019009726A (ja) | 2019-01-17 |
Family
ID=65029213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017126351A Ceased JP2019009726A (ja) | 2017-06-28 | 2017-06-28 | 障害切り分け方法および管理サーバ |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019009726A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021027505A (ja) * | 2019-08-07 | 2021-02-22 | 株式会社日立ソリューションズ | 監視装置、監視方法、および監視プログラム |
CN113312200A (zh) * | 2021-06-01 | 2021-08-27 | 中国民航信息网络股份有限公司 | 一种事件处理方法、装置、计算机设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05114899A (ja) * | 1991-10-22 | 1993-05-07 | Hitachi Ltd | ネツトワーク障害診断方式 |
US20150378805A1 (en) * | 2013-11-29 | 2015-12-31 | Hitachi, Ltd. | Management system and method for supporting analysis of event root cause |
JP2017069895A (ja) * | 2015-10-02 | 2017-04-06 | 株式会社日立製作所 | 障害切り分け方法および障害切り分けを行う管理サーバ |
JP2017085220A (ja) * | 2015-10-23 | 2017-05-18 | 日本電信電話株式会社 | ネットワーク監視装置およびネットワーク監視方法 |
-
2017
- 2017-06-28 JP JP2017126351A patent/JP2019009726A/ja not_active Ceased
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05114899A (ja) * | 1991-10-22 | 1993-05-07 | Hitachi Ltd | ネツトワーク障害診断方式 |
US20150378805A1 (en) * | 2013-11-29 | 2015-12-31 | Hitachi, Ltd. | Management system and method for supporting analysis of event root cause |
JP2017069895A (ja) * | 2015-10-02 | 2017-04-06 | 株式会社日立製作所 | 障害切り分け方法および障害切り分けを行う管理サーバ |
JP2017085220A (ja) * | 2015-10-23 | 2017-05-18 | 日本電信電話株式会社 | ネットワーク監視装置およびネットワーク監視方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021027505A (ja) * | 2019-08-07 | 2021-02-22 | 株式会社日立ソリューションズ | 監視装置、監視方法、および監視プログラム |
JP7311350B2 (ja) | 2019-08-07 | 2023-07-19 | 株式会社日立ソリューションズ | 監視装置、監視方法、および監視プログラム |
CN113312200A (zh) * | 2021-06-01 | 2021-08-27 | 中国民航信息网络股份有限公司 | 一种事件处理方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11677635B2 (en) | Hierarchical network analysis service | |
US8819220B2 (en) | Management method of computer system and management system | |
JP5432867B2 (ja) | 計算機システムの管理方法、及び管理システム | |
JP6114818B2 (ja) | 管理システム及び管理プログラム | |
CN113328872A (zh) | 故障修复方法、装置和存储介质 | |
WO2013140608A1 (ja) | イベントの根本原因の解析を支援する方法及びシステム | |
US20160378583A1 (en) | Management computer and method for evaluating performance threshold value | |
US20150378805A1 (en) | Management system and method for supporting analysis of event root cause | |
JP6160064B2 (ja) | 適用判定プログラム、障害検出装置および適用判定方法 | |
JP2005025483A (ja) | ストレージ装置を有するネットワークにおける障害情報管理方法及び管理サーバ | |
JP5222876B2 (ja) | 計算機システムにおけるシステム管理方法、及び管理システム | |
US10020982B2 (en) | Failure isolation method and management server for failure isolation | |
KR102580916B1 (ko) | 5g 분산 클라우드 시스템의 빅 데이터를 이용하여 장애를 관리하는 장치 및 방법 | |
CN111726358A (zh) | 攻击路径分析方法、装置、计算机设备及存储介质 | |
US9021078B2 (en) | Management method and management system | |
JP2019057139A (ja) | 運用管理システム、監視サーバ、方法およびプログラム | |
US8554908B2 (en) | Device, method, and storage medium for detecting multiplexed relation of applications | |
JP5419819B2 (ja) | 計算機システムの管理方法、及び管理システム | |
WO2018135254A1 (ja) | 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置 | |
JP2019009726A (ja) | 障害切り分け方法および管理サーバ | |
JP2008234351A (ja) | 統合運用監視システム及びプログラム | |
US9443196B1 (en) | Method and apparatus for problem analysis using a causal map | |
JP2017211806A (ja) | 通信の監視方法、セキュリティ管理システム及びプログラム | |
WO2015019488A1 (ja) | 管理システム及びその管理システムによるイベント解析方法 | |
WO2013103008A1 (ja) | 事象の原因を特定する情報システム、コンピュータ及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200206 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201211 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210202 |
|
A045 | Written measure of dismissal of application [lapsed due to lack of payment] |
Free format text: JAPANESE INTERMEDIATE CODE: A045 Effective date: 20210629 |