JP6305258B2 - 情報処理装置及び情報処理方法及びプログラム - Google Patents

情報処理装置及び情報処理方法及びプログラム Download PDF

Info

Publication number
JP6305258B2
JP6305258B2 JP2014151385A JP2014151385A JP6305258B2 JP 6305258 B2 JP6305258 B2 JP 6305258B2 JP 2014151385 A JP2014151385 A JP 2014151385A JP 2014151385 A JP2014151385 A JP 2014151385A JP 6305258 B2 JP6305258 B2 JP 6305258B2
Authority
JP
Japan
Prior art keywords
configuration information
failure
estimation
configuration
system components
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014151385A
Other languages
English (en)
Other versions
JP2016029520A (ja
Inventor
諒子 櫻井
諒子 櫻井
山田 耕一
耕一 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2014151385A priority Critical patent/JP6305258B2/ja
Publication of JP2016029520A publication Critical patent/JP2016029520A/ja
Application granted granted Critical
Publication of JP6305258B2 publication Critical patent/JP6305258B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、監視対象システム内の障害発生箇所を推定する技術に関する。
IT(Information Technology)サービスプロバイダでは、顧客が構築したシステムに対する運用監視サービスを提供している場合がある。
運用監視サービスでは、監視対象となるネットワーク機器またはサーバを監視装置で監視し、そこから通知されるアラームに基づいて顧客へ通知を行ったり、障害対応を行ったりする。
このようなITサービスでは、ITIL(Information Technology Infrastructure Library)やISO/IEC20000(ITSMS:Information Technology Service Management System)等の標準を導入するケースが多い。
このような標準を使用して、運用監視サービスの標準化、自動化を行う場合、監視対象となるネットワーク機器またはサーバの構成情報を格納する構成管理データベース(CMDB:Configuration Management Database)を整備することでアラーム対応を効率化することができる。
アラーム対応は、次のような流れで行われる。
まず、運用監視センターにて、アラーム発生時にアラームの内容を確認する。
次に、アラームが発生したネットワーク機器またはサーバの構成情報を確認し、どの機器で障害が発生しているかを推定する。
その後、障害対応の手順書に従って障害の解析、対応等を行う。
運用監視センターで対応できない場合は、障害が発生しているネットワーク機器またはサーバを管理している部門または客先等の予め決められた連絡先へアラームを通知する。
障害箇所の推定に時間がかかった場合、運用監視サービスの品質は低下してしまう。
アラーム対応において、構成情報を確認し、効率的に障害箇所を推定する従来技術として、大きく2種類の方法が挙げられる。
1つめは、相関ルールによる障害箇所の推定である(例えば、特許文献1)。
例えば、構成の接続条件、指標とその状態、何が原因か等を相関ルールとして定義し、それらを決められた時間内に発生している複数アラームに対して適用することで、障害箇所を推定する。
2つめは、隣接行列を用いた障害箇所の推定である(例えば、特許文献2)。
例えば、複数の階層からなるシステムの統合的な監視を行う場合において、機器間の接続関係を表す隣接行列を生成し、行列演算を行うことによって監視を行う。
国際公開WO2011/039825号 特開2012−222371号公報
図31は、監視対象システムの構成例とアラーム発生箇所を示す。
図31において、四角形はシステムの構成要素(CI:Configuration Item)、矢印はCI間の依存関係、稲妻は発生したアラーム、a〜kはCIの識別子である。
図31中のCIと依存関係は、監視対象システムの構成について、顧客である「A社」が「メールサービス」を利用しており、「メールサービス」は「メールシステム」で構成されており、「メールシステム」は「サーバ1」〜「サーバ7」で構成されており、「サーバ1」〜「サーバ7」は「FW(ファイアウォール)」に影響されていることを示している。
また、アラームは、「サーバ1」〜「サーバ7」、「FW」で発生していることを示している。
アラームを発生させたCIは、アラーム発生CI又はアラーム発生システム構成要素ともいう。
図31の例では、「FW」(識別子:k)で障害が発生し、「サーバ1」〜「サーバ7」がリンクダウンによって疎通確認が出来なくなったというアラームを発生したことを想定している。
図31において複数発生しているアラームの根本原因は、構成情報の依存関係を辿ることにより、依存関係先(矢印の先)にある「FW」(識別子:k)であると推定することができる。
図31で示した例に対し、前述した従来技術を活用することも可能である。
1つめの従来技術のように、FW障害が原因で他サーバに疎通アラームが発生する、という相関ルールを定義しておくことにより、根本原因を推定することも可能である。
また、2つめの従来技術のように、CI間の依存関係から隣接行列を作成して距離行列を求め、最上位にあるCI(図31では「A社」)から、アラームが発生しているCIの中で最も距離の遠いCIを根本原因として推定することも可能である。
図32は、図31を元に作成した距離行列に対してアラーム発生箇所をマッピングした例である。
図32のa〜kは、図31に示すCIの識別子であるa〜kを表している。
距離行列の列は距離を求める際の始点となるCI名、行は距離を求めるCI名である。
例えば、a列のb行の「1」は、aからbまでの距離が1であることを意味する。
この例では、表中の反転表示部分がアラーム発生CI(図31で稲妻が表示されているCI)を示している。
最上位CIであるa「A社」から、アラーム発生CIの中で最も距離の遠いk「FW」を根本原因として推定する。
相関ルールによって根本原因を推定する方式の場合、発生し得るアラームの種類、発生箇所ごとにルールを設定する必要があり、ルールの作成、メンテナンスのコストが膨大となる。
また、監視対象システムの一部または全てが自社の管理下でない等、詳細な構成情報を利用することができない場合、従来技術によって障害箇所を推定出来ないことがある。
詳細な構成情報や現在の接続状態の取得は、CMDB製品に付属しているオートディスカバリ機能等を利用することによっても実現できる。
自社システムの運用監視においては、オートディスカバリ機能等は問題なく利用できる場合が多い。
しかし、例えば、ITサービスプロバイダが、ハウジングサービスによって顧客資産のシステムをデータセンター内に預かっている場合や、仮想サーバの貸し出しサービスによって顧客がどのように仮想サーバを利用しているか関知していない場合においては、顧客の同意なくオートディスカバリ機能等を利用することができない。
顧客から開示される構成情報のみでは、従来技術を適用するためには不十分である場合が多い。
このような状況で従来技術を適用すると、サーバ間の依存関係、アプリケーション情報等の詳細な情報が不十分であり、根本原因を推定することができない。
図33及び図34は、管理している構成情報によって、障害箇所を推定できないアラームが発生した場合の例である。
図33は、「サーバ1」と「サーバ2」でアラームが発生していることを示している。
図34は、図33を元に作成した距離行列に対してアラーム発生箇所をマッピングした例である。
この例では、最上位CI「A社」から「サーバ1」、「サーバ2」までの距離が同じであり、どちらが根本原因か推定することができない。
更に、構成情報を格納するCMDBのデータ構造を容易に変更できないという課題もある。
CMDBのデータ構造は、運用監視システムの設計時に決定し、システム運用中には変更しないことが通常である。
監視対象システムの変更が発生した場合は、データ構造の変更は行わず、個々の構成情報を更新することによって対応する。
そのため、例えば、ある顧客の運用監視においてのみ、CMDBのデータ構造に無い新たな構成情報を管理したいという状況が発生した場合、それらの情報をCMDBに格納することができず、その情報を運用監視に活かしにくい。
本発明は上記のような課題を解決することを主な目的とし、構成情報が不十分な場合、または、構成情報の変更が難しい場合でも、精度よく障害発生箇所を推定できるようにすることを主な目的とする。
本発明に係る情報処理装置は、
監視対象システムのシステム構成を既定のデータ構造で定義する構成情報のコピーから、前記既定のデータ構造とは異なる障害発生箇所推定用のデータ構造で前記監視対象システムのシステム構成を定義する障害発生箇所推定用構成情報を生成する推定用構成情報生成部と、
前記監視対象システムで障害が発生した際に、前記障害発生箇所推定用構成情報で定義されているシステム構成を解析して、前記監視対象システム内の障害発生箇所を推定する解析推定部とを有することを特徴とする。
本発明によれば、構成情報が不十分な場合、または、構成情報の変更が難しい場合でも、構成情報のコピーに対して障害発生箇所推定用のデータ構造を適用して障害発生箇所推定用構成情報を生成し、構成情報を維持したまま、障害発生箇所推定用構成情報を用いて、精度よく障害発生箇所を推定することができる。
実施の形態1及び2に係るシステム構成例を示す図。 構成管理モデルの例を示す図。 構成管理モデルの例を示す図。 CMDBで管理されている構成情報の例を示す図。 CMDBで管理されている構成情報の例を示す図。 CMDBで管理されている構成情報の例を示す図。 構成情報変形ルールの例を示す図。 属性追加の例を示す図。 構成情報変形ルールによって構成情報を変形した例を示す図。 構成情報変形ルールによって構成情報を変形した例を示す図。 構成情報変形ルールによって構成情報を変形した例を示す図。 実施の形態1に係る監視システムの動作の流れを示すフローチャート図。 実施の形態1に係る構成情報変形ルール適用部の動作の流れを示すフローチャート図。 実施の形態1に係る距離情報生成部の動作の流れを示すフローチャート図。 実施の形態1に係る距離情報の例を示す図。 実施の形態1に係る距離情報の例を示す図。 実施の形態1に係る距離情報の例を示す図。 実施の形態1に係る距離情報の例を示す図。 実施の形態1に係る障害箇所推定部の動作の流れを示すフローチャート図。 実施の形態2に係る距離情報生成部の動作の流れを示すフローチャート図。 実施の形態2に係る距離ごとのCIリストの例を示す図。 実施の形態2に係る障害箇所推定部の動作の流れを示すフローチャート図。 実施の形態3及び4に係るシステム構成例を示す図。 実施の形態3に係る障害箇所推定部の動作の流れを示すフローチャート図。 実施の形態3に係る構成情報のグラフを辿る例を示す図。 実施の形態4に係る障害箇所推定部の動作の流れを示すフローチャート図。 実施の形態4に係る依存関係の重みづけの例を示す図。 実施の形態5に係るシステム構成例を示す図。 実施の形態5に係る構成情報変形ルールの例を示す図。 実施の形態1〜5に係る監視システムのハードウェア構成例を示す図。 構成情報とアラーム発生の例を示す図。 構成情報とアラーム発生の例を示す図。 障害箇所を推定できないアラーム発生の例を示す図。 障害箇所を推定できないアラーム発生の例を示す図。
実施の形態1.
本実施の形態及び以降の実施の形態では、構成情報が不十分な場合、または、CMDBのデータ構造の変更が難しい場合において、障害箇所推定の精度を向上させることが可能であり、また、メンテナンスコストを削減することが可能な構成を説明する。
より具体的には、CMDBに格納されている不十分な構成情報に対し、構成情報を変形させるルールによってCMDBの外部で構成情報を変形させ、変形後の構成情報を元にCI間の距離情報を求めることにより、障害箇所推定の精度を向上させる構成を説明する。
まず、構成について説明する。
図1は、本実施の形態に係るシステム構成例を示す。
本実施の形態に係るシステムは、クライアント装置10、監視システム20及び監視対象システム30から構成される。
監視対象システム30は、監視システム20が監視を行うシステムの一例であり、ネットワーク機器(FW:ファイアウォール、SW:スイッチ)、サーバ等から構成される。 監視システム20は、監視対象システム30をインターネットまたはイントラネットを経由して監視する。
クライアント装置10は、監視を行うオペレータが使用する端末装置である。
オペレータは、監視システム20が表示する情報を、クライアント装置10から確認する。
監視システム20は、監視対象システム30に対して監視を行い、障害を検知する。
また、検知した障害から、障害原因箇所を推定し、オペレータに対して推定結果を表示する。
監視システム20は、情報処理装置の例に相当する。
監視システム20において、画面表示部201は、オペレータが監視システム20を利用する際に、クライアント装置10へ表示する画面を生成する。
オペレータは、クライアント装置10を通して、画面表示部201が表示する画面を利用し、発生した障害の確認等を行う。
障害箇所推定部202は、監視対象システム30で発生した障害情報と、監視対象システム30の構成情報を用いて障害原因箇所の推定を行う。
より具体的には、障害箇所推定部202は、最上位のCIからの距離が最も遠いアラーム発生CI(アラーム発生システム構成要素)を障害発生箇所として推定する。
つまり、障害箇所推定部202は、最上位階層のCIからの階層差数が最も多いアラーム発生CIを、障害を発生させたCIと推定する。
障害箇所推定部202は、後述する距離情報生成部204とともに解析推定部の例に相当する。
障害情報収集部203は、監視対象システム30を監視し、発生した障害情報を収集し、障害情報DB211に格納する。
障害情報をオペレータへ表示する場合には、障害情報収集部203は、障害情報DB211より障害情報を取得する。
障害情報収集部203は、一般的な監視システムで用いられている監視機能と同様の機能である。
距離情報生成部204は、構成情報変形ルール適用部205から渡される構成情報を元に、CI間の距離情報を生成し、距離情報DB212に格納する。
距離情報生成部204は、前述の障害箇所推定部202とともに解析推定部の例に相当する。
構成情報変形ルール適用部205は、CMDB213に格納されている構成情報、予め定義しておいた構成情報変形ルール214を元に、構成情報を補完し、変形する。
より具体的には、CMDB213に格納されている構成情報のコピーを変形して、障害発生箇所の推定用の新たな構成情報(障害発生箇所推定用構成情報)を生成する。
変形後の新たな構成情報は、距離情報生成部204に渡され、距離情報が生成される。
構成情報変形ルール適用部205は、推定用構成情報生成部の例に相当する。
なお、図1の監視システム20では、発生した障害の確認に必要最低限の機能のみを記載しているが、例えば、障害対応状況の記録機能や、従来技術として前述した相関ルールによる障害箇所の推定機能が含まれてもよい。
次に、監視システム20内の情報記憶装置について説明する。
障害情報DB211は、障害情報収集部203が収集した障害情報を保持する。
距離情報DB212は、距離情報生成部204が作成したCI間の距離情報を保持する。
距離情報の形式は、距離行列、リスト等、形式は問わない。
CMDB213は、構成管理モデルに定義されたデータ構造を持つ構成管理データベースである。
構成管理モデル、格納される構成情報の例は後述する。
構成情報変形ルール214は、CMDB213に格納された構成情報を補完し、変形させるためのルールである。
構成情報変形ルール214の例は後述する。
次に、CMDB213の構成管理モデル、格納される構成情報の例を説明する。
図2及び図3は、構成管理モデルの一例である。
図2は、構成管理モデルとして定義するCI型の例である。
ここで定義したCI型の例を説明する。
「顧客」は、サービスを利用する顧客の属性を格納するCI型であり、例えば、顧客名、略称等の属性を持つ。
顧客情報をCMDB213に格納する場合、顧客CI型を用いてCIを作成する。
図3は、図2で定義したCI型間の依存関係の例である。
図中の矢印が依存関係を表す。
この例では、「顧客」は「サービス」に依存し、「サービス」は「システム」に依存し、「システム」は「ノード」に依存し、「ノード」は「ハードウェア」と「アプリケーション」に依存する。
CIを格納する際には、モデルで定義された依存関係の位置に、CI間の依存関係を定義することができる。
本明細書では、矢印の元を依存関係元、矢印の先を依存関係先と呼ぶこととする。
図4及び図5及び図6は、CMDB213で管理される構成情報の例である。
ここでは図2及び図3で示した構成管理モデルが定義されている前提とする。
図4は、CI名とCI型名の対応の例であり、CIとして作成された構成情報とその型名の関係を示している。
aは、CI型名が「顧客」の「A社」というCIをCMDB213で管理していることを意味する。
bは、CI型名が「サービス」の「メールサービス」というCIをCMDB213で管理していることを意味する。
それ以降についても同様である。
図5は、図4で示したCI間の依存関係の例である。
この例では、「A社」は「メールサービス」を利用しており、「メールサービス」は「メールシステム」で構成されており、「メールシステム」は「サーバ1」〜「サーバ7」で構成されており、「サーバ1」〜「サーバ7」はFWに影響されていることを示している。
図6は、図4及び図5の情報を可視化したCIの関係図である。
図4〜図6に示すように、構成情報変形ルール適用部205による変形前の構成情報は、既定のデータ構造である既定の階層構造で監視対象システム30のシステム構成が定義されている。
このような構成情報に対して、構成情報変形ルール適用部205は、構成情報変形ルールを適用して、障害発生箇所推定用の新たなデータ構造である新たな階層構造で監視対象システム30のシステム構成を定義する新たな構成情報(障害発生箇所推定用構成情報)を生成する。
図7は、構成情報変形ルール214の例を示す。
Noはルール番号であり、構成情報変形ルール214は構成情報を変形するためのルール定義である。
構成情報変形ルールの記述方法は問わない。
例えば、述語論理でも、表形式でも構わない。
ルールの詳細は、図7、図8、図9と合わせて、構成情報変形ルールによる構成情報の変形方法として後述する。
図8は、CMDB213に格納されている構成情報を補完するために追加したい属性の例を示す。
「サーバ1」のCIに対して「DBサーバ」、「サーバ2」のCIに対して「Webサーバ」という役割の属性を追加したい場合の例を示している。
図8の情報は、例えば、オペレータがクライアント装置10から監視システム20に設定する。
図9、図10、図11は、構成情報変形ルールによって構成情報を変形した例を示す。
つまり、図9は、図6で示したCIの関係図を、図7の構成情報変形ルールによって変形した図である。
また、図10は、図4で示したCI名とCI型名の対応を、図7の構成情報変形ルールによって変形した図である。
また、図11は、図5で示したCI間の依存関係を、図7の構成情報変形ルールによって変形した図である。
図7のNo.1のルールは、ノードの属性がDBサーバの場合、CI型がアプリケーションの「DB」というCIを追加し、追加した「DB」からDBサーバの属性を持つノードへの依存関係を追加する、というものである。
このルールに従った構成情報の変更は、図9中の点線の四角で囲んだ「1」の数字に該当する。
つまり、「DB」というCIからサーバ1への依存関係がルールのNo.1によって追加される。
図7のNo.2のルールは、ノードの属性がWebサーバの場合、CI型がアプリケーションの「Web」というCIを追加し、追加した「Web」からWebサーバの属性を持つノードへの依存関係を追加する、というものである。
このルールに従った構成情報を変更は、図9中の点線の四角で囲んだ「2」の数字に該当する。
つまり、「Web」というCIとサーバ2への依存関係がルールのNo.2によって追加される。
同様に、ルール3〜4についてもCIと依存関係を追加する。
このように、構成情報変形ルール適用部205は、監視対象システム30に含まれる複数のシステム構成要素(CI)に、構成情報変形ルール214に記述される特定の属性を有するシステム構成要素(CI)が含まれるか否かを判断し、そのようなCIが含まれる場合は、構成情報変形ルール214に従って新たなCIと新たな依存関係を追加する。
このようなCI及び依存関係の追加によって、構成情報変形ルール適用部205は、もとの構成情報では図6のように定義されていた監視対象システム30の階層構造を、障害発生箇所の推定に適した図9の階層構造に変化させることができる。
なお、前述したように、構成情報変形ルール適用部205は、CMDB213に格納されている構成情報のコピーに対して図9〜図11に例示するようなCI及び依存関係の追加を行う。
このため、CMDB213内の構成情報に変更を加えることなく、障害発生箇所の推定用に新たな構成情報を取得することができる。
次に動作について説明する。
図12は、監視システム20による障害箇所推定のフローチャートである。
S01は、構成情報変形ルール適用部205の動作であり、構成情報変形ルール214に従って構成情報の変形を行う。
S01の詳細フローは、図13にて説明する。
S02は、距離情報生成部204の動作であり、S01で変形された構成情報、または、構成情報変形ルール214が設定されていない場合はCMDB213に格納されている構成情報を元に、距離情報を生成する。
S02の詳細フローは、図14にて説明する。
S03では、現在障害が発生しているかどうかを確認する。
障害が発生している場合は、S04に進む。
障害が発生していない場合は、終了する。
S04は、障害箇所推定部202の動作であり、現在発生している障害情報とS02で求めた距離情報を元に、障害箇所推定を行う。
S04の詳細フローは、図19にて説明する。
S05は、画面表示部の動作であり、イベント情報と障害箇所推定の結果を画面に表示する。
図13は、構成情報変形ルール適用部205のフローチャートである。
S011では、構成情報変形ルール適用部205が構成情報変形ルール214を取得する。
S012では、構成情報変形ルール適用部205は、取得した構成情報変形ルール214を確認し、構成情報変形ルール214によって変形された構成情報から距離情報が生成されていないルールがあるかどうかを確認する。
つまり、変更(新規/修正/削除)されたルールや、変更されていないが距離情報の生成が行われていないルールの有無を確認する。
例えば、ルールが変更された際に、ルールに対して変更内容(新規/修正/削除)を表すフラグを付けたり、距離情報の生成が行われた際に、ルールに対して距離情報生成済であることを表すフラグを付ける仕組みにしておくことにより、判断することができる。
距離情報が生成されていない場合は、S013に進む。
距離情報が生成されていない構成情報変形ルールがない場合は、終了する。
S013では、構成情報変形ルール適用部205は、CMDB213に格納されている構成情報のコピーを取得する。
S014では、取得した構成情報のコピーを構成情報変形ルール214を元に変形し、変形された構成情報を一時的に作成する。
変形の方法については、図9〜図11で示した通りである。
図14は、距離情報生成部204のフローチャートである。
S021では、距離情報生成部204は、生成したい距離行列が既に生成済で距離情報DB212に格納されているかどうかを判断する。
生成済の場合は、終了する。
生成済でない場合は、S022に進む。
S022では、距離情報生成部204は、距離を求めたい構成情報を取得する。
ここでの構成情報とは、構成情報変形ルール214が定義されている場合には、構成情報変形ルール適用部205にて変形された構成情報、ない場合には、CMDB213より取得された変形されていない構成情報を意味する。
S023では、距離情報生成部204は、取得した構成情報を元に、探索経路の異なる距離行列を生成する。
図15、図16、図17、図18は、図9の構成情報を元に生成した距離行列の例である。
図15は、通常(aからの最短経路の距離)の距離行列である。
図16は、a→b→c→m→e→kの経路を通る場合の距離行列である。
図17は、a→b→c→l→d→kの経路を通る場合の距離行列である。
図18は、a→b→c→m→l→d→kの経路を通る場合の距離行列である。
図中のアルファベットは、図9の識別子と対応する。
通常は図15の距離行列であるが、複数経路がある場合には、各経路に沿った距離を距離行列に反映させる。
図16の場合、経路はa→b→c→m→e→kであるため、図15と比較すると、eとkの距離が異なっている。
図16、図17、図18では、経路に関係ないCIについては、図15と同様に最短距離の値としている。
S024では、距離情報生成部204は、生成した距離行列を距離情報DB212へ格納する。
図19は、障害箇所推定部202のフローチャートである。
S031では、障害箇所推定部202は、障害情報DB211から、現在発生している障害情報を取得する。
S032では、障害箇所推定部202は、距離情報DB212から、距離情報を取得する。
S033では、障害箇所推定部202は、複数の距離行列から、アラームが発生していて、かつ、最も距離の遠いCIを障害箇所として推定する。
図15、図16、図17、図18を用いて説明を行う。
例えば、lとmでアラームが発生したとする。
図15の通常の距離行列ではlとmの距離が同じになり、どちらが障害箇所かを推定することが出来ない。
図16、図17、図18の各経路を通る場合の距離行列を確認すると、図16及び図17は図15と同様であるが、図18の場合、lの距離が4、mの距離が3となる。
これより、障害箇所推定部202は、アラームが発生していて、かつ、距離の遠いlが障害箇所であると推定することができる。
このように、障害箇所推定部202は、障害箇所を推定する際に、複数経路の距離行列を作成することにより、障害箇所を推定することができる。
以上のように、本実施の形態に係る監視システム20は、CMDB213に格納されていない情報を運用監視に活用することを可能とする。
そのため、CMDB213に格納されている構成情報のみよりも、精度の高い障害箇所推定を行うことができる。
また、CMDB213外部で構成情報を変形させるため、CMDB213の構造を変更する必要がない。
構成情報の変形ルールは、従来技術の相関ルールよりも設定数が少なくて済むと考えられるため、ルールのメンテナンスコストを抑えることも可能である。
以上、本実施の形態では、既にCMDB等で管理されている構成情報に対し、CMDBのデータ構造や管理されている構成情報を変更することなく、構成情報変形ルールによって、CMDBの外側で構成情報を変形させることにより、障害箇所推定の精度を上げることが可能な監視システムを説明した。
また、本実施の形態では、構成情報から経路が異なる複数の距離行列を生成し、アラーム発生CIの中で、最上位CIから最も遠く、一意になったCIを障害箇所と推定する監視システムを説明した。
実施の形態2.
本実施の形態に係るシステム構成は、図1に示す通りであり、実施の形態1と同様である。
動作については、距離情報生成部204、障害箇所推定部202が実施の形態1と異なるため、差分のみを説明する。
図20は、実施の形態2の距離情報生成部204のフローチャートである。
S043では、距離情報生成部204は、取得した構成情報を元に、構成情報の最上位のCIから最長経路までの距離ごとのCIリストを作成する。
図9の例では、最上位のCIは「A社」である。
最上位からの最短距離1はbの「メールサービス」である。
距離2はcの「メールシステム」である。
dの「サーバ1」は、依存関係がa→b→c→dの場合に距離3、a→b→c→l→dの場合に距離4、a→b→c→m→l→dの場合に距離5の3パターンがある。
最長距離6はkの「FW」である。
S022で作成するCIリストの例を図21に示す。
距離1のCIはbの「メールサービス」、距離6のCIはkの「FW」である。
図22は、実施の形態2の障害箇所推定部202のフローチャートである。
S053では、障害箇所推定部202は、最長経路の距離リストから順にアラーム発生CIと比較し、最初に見つかったアラーム発生CIを障害発生箇所と推定する。
このように、本実施の形態でも、障害箇所推定部202は、最上位階層のCIからの階層差数が最も多いアラーム発生CIを、障害を発生させたCIと推定する。
図21のCIリストを用いて障害箇所推定部202の動作の説明を行う。
dの「サーバ1」とeの「サーバ2」でアラームが発生しているとする。
最長経路の6のリストから比較を行った場合、距離5のリストにdが見つかり、「サーバ1」が障害箇所であると推定できる。
もし最短経路の1のリストから比較を行っていた場合、距離3のリストにdとeの両方が見つかり、これ以上、障害箇所を絞り込むことができない。
以上のように、本実施の形態では、障害箇所を推定する際に、距離ごとのCIリストを作成し、最長距離からアラーム発生CIを検索することにより、障害箇所を推定することができる。
以上、本実施の形態では、構成情報から距離毎のCIリストを作成し、最長距離のCIリストからアラーム発生CIを検索し、最も距離が長く、一意になったCIを障害箇所と推定する監視システムを説明した。
実施の形態3.
実施の形態1、2では、複数の経路がある場合に距離行列、距離ごとのCIリストを作成したが、ルート上でアラームが発生している数が多い経路において距離をカウントする方式も考えられる。
この方式では、距離行列や距離ごとのCIリストを使用せず、構成情報のグラフを辿ることにより障害箇所を推定する。
本実施の形態に係るシステム構成例は、図23に示す通りである。
本実施の形態では、図1に示した距離情報生成部204、距離情報DB212が不要である。
動作については、障害箇所推定部202が実施の形態1、2と異なるため、差分のみを説明する。
図24は、実施の形態3の障害箇所推定部202のフローチャートである。
S62では、障害箇所推定部202は、構成情報を辿り、アラーム発生CI数が多い経路において、最も距離の遠いアラーム発生CIを障害箇所として推定する。
S62の動作を、図25の構成情報のグラフを辿る例を用いて説明する。
この例では、最上位CIのaからアラームが発生しているlまたはmまでの経路として次の3つが考えられる。
・a→b→c→lの経路:距離が3、経路上のアラーム発生CI数が1
・a→b→c→mの経路:距離が3、経路上のアラーム発生CI数が1
・a→b→c→m→lの経路:距離が4、経路上のアラーム発生CI数が2
この場合、3番目の経路が最も経路上のアラーム数が多いので、その経路で最も距離の遠いアラーム発生CIであるlを障害箇所と推定する。
以上のように、実施の形態では、障害箇所を推定する際に、アラーム発生CI数の多い経路を辿ることにより、障害箇所を推定することができる。
以上、本実施の形態では、構成情報のグラフを辿り、その経路上の発生アラーム数をカウントし、最も発生アラーム数が多い経路で最も遠いアラーム発生CIを障害箇所と推定する監視システムを説明した。
実施の形態4.
依存関係に重みづけをして探索する障害箇所推定の方式も考えられる。
実施の形態1のように距離行列を使用する場合は、最上位のCIから対象とするCIまでの距離を使用した。
実施の形態4では、CIに距離の値を振るのではなく、依存関係を示す矢印の部分に重みづけを行う。
つまり、本実施の形態でも、障害箇所推定部202は、最上位階層のCIからの階層差数が最も多いアラーム発生CIを障害を発生させたCIと推定するが、本実施の形態では、階層差数として距離ではなく依存関係の重みを用いる。
システム構成については、図23であり、実施の形態3と同様である。
動作については、障害箇所推定部202が実施の形態3と異なるため、差分のみを説明する。
図26は、実施の形態4における障害箇所推定部202のフローチャートである。
図27は、依存関係の重みづけの例である。
S72では、障害箇所推定部202は、構成情報の依存関係に重みづけをする。
最上位CIを始点とする矢印の重みを1とする。
その終点であるCIを新たな始点とする矢印の重みは、1を足して2とする。
同様にして、矢印の重みを付けていく。
複数の終点があるCIの場合は、重みが大きい方を採用する。
S73では、障害箇所推定部202は、障害情報を元に各CIにマークを付ける。
S74では、障害箇所推定部202は、依存関係の矢印の両端にアラーム発生のマークがついており、その中で最も重みの値が大きい矢印の終点にあるCIを障害箇所として推定する。
図27では、塗りつぶされたCIが障害箇所と推定される。
以上のように、実施の形態では、障害箇所を推定する際に、依存関係への重みづけを行うことにより、障害箇所を推定することができる。
以上、本実施の形態では、構成情報の依存関係への重みづけ、CIへのアラーム発生のマークづけを行い、依存関係を表す矢印の両端にアラーム発生マークが付いており、その中で最も重みの大きい矢印の終点にあるCIを障害箇所と推定する監視システムを説明した。
実施の形態5.
実施の形態1〜4では、CIの役割の属性に応じて構成情報変形ルールを適用していた。
つまり、実施の形態1〜4では、図8の情報により、構成情報変形ルール(図7)で定義されている属性(DBサーバ、Webサーバ)を有するCIが特定されていた。
本実施の形態では、監視対象システム30内のCIから上げられたデータ(アラーム、イベント)に応じて、構成情報変形ルールを適用する。
図28は、実施の形態5に係る構成図である。
以下では、実施の形態1〜4との相違点のみ説明する。
ログ抽出部221は、監視対象システム30から集められた障害情報(イベント情報、アラーム情報など)を障害情報収集部203から取得し、構成情報変形ルールを適用するための前提条件となるログを抽出して、構成情報変形ルール適用部205にその情報を渡す。
図29は、構成情報変形ルールの例である。
ルール適用条件は、ログ抽出部221がログを抽出する際に使用する、検索条件となる。
CIで生成されたログ、アラームに含まれる文字列がルール適用条件に合致する場合、CIで生成されたログファイルが保存されているフォルダのフォルダ名がルール適用条件に合致する場合に、対応する構成情報変形ルールが適用になる。
なお、図29では、他の実施の形態と同様に、発生した障害の確認に必要最低限の機能のみを記載しているが、例えば、障害対応状況の記録機能や、従来技術として前述した相関ルールによる障害箇所の推定機能が含まれてもよい。
次に動作について説明する。
以下では、実施の形態1〜4との相違点のみ説明する。
ログ抽出部221は、構成情報変形ルール214から、ルール適用条件を取得する。
次に、ログ抽出部221は、障害情報収集部203から障害情報を取得し、ルール適用条件に合致するログがあるかどうかを検索する。
合致するログがあった場合、そのログを出力したCIを特定し、構成情報変形ルール適用部205にCI情報を渡す。
構成情報変形ルール適用部205は、そのCIに対して構成情報変形ルールを適用する。
適用の方法については、実施の形態1〜4と同様である。
以上のように、本実施の形態では、障害箇所を推定する際に、監視対象から集められた障害情報の内容によって、適用する構成情報変形ルールを変えることができる。
これにより、CIに対して属性を決定できない場合や、一つのCIに対して複数の属性が入る可能性がある場合に、障害情報に応じて動的に適切な構成情報変形ルールを適用し、障害箇所を推定することができる。
以上、本実施の形態では、監視対象システムから上げられたアラーム、イベントなどの情報に応じて、構成情報変形ルールを適用する監視システムを説明した。
また、本実施の形態1〜5では、CIと依存関係を追加するルールの例を説明したが、CIや依存関係を削除するルールを定義してもよい。
その場合、障害情報の内容に応じて、障害箇所の絞り込みを行うことができる。
また、元の構成情報の依存関係が循環参照していた場合に、障害情報に応じた構成情報変形ルールによって依存関係を削除し、循環が無い構成情報としたのち、障害箇所特定を行うことも可能である。
実施の形態1〜5で示したように、構成情報のコピーに対してCMDBに格納されていない情報を付加することにより、CMDBのデータ構造や格納されている構成情報を変更することなく、障害箇所推定の精度を高めることができる。
以上、本発明の実施の形態について説明したが、これらの実施の形態のうち、2つ以上を組み合わせて実施しても構わない。
あるいは、これらの実施の形態のうち、1つを部分的に実施しても構わない。
あるいは、これらの実施の形態のうち、2つ以上を部分的に組み合わせて実施しても構わない。
なお、本発明は、これらの実施の形態に限定されるものではなく、必要に応じて種々の変更が可能である。
最後に、実施の形態1〜5に示した監視システム20のハードウェア構成例を図30を参照して説明する。
監視システム20はコンピュータであり、監視システム20の各要素をプログラムで実現することができる。
監視システム20のハードウェア構成としては、バスに、演算装置901、外部記憶装置902、主記憶装置903、通信装置904、入出力装置905が接続されている。
演算装置901は、プログラムを実行するCPU(Central Processing Unit)である。
外部記憶装置902は、例えばROM(Read Only Memory)やフラッシュメモリ、ハードディスク装置である。
主記憶装置903は、RAM(Random Access Memory)である。
通信装置904は、例えば、NIC(Network Interface Card)である。
入出力装置905は、例えばマウス、キーボード、ディスプレイ装置等である。
プログラムは、通常は外部記憶装置902に記憶されており、主記憶装置903にロードされた状態で、順次演算装置901に読み込まれ、実行される。
プログラムは、図1に示す「〜部」として説明している機能を実現するプログラムである。
更に、外部記憶装置902にはオペレーティングシステム(OS)も記憶されており、OSの少なくとも一部が主記憶装置903にロードされ、演算装置901はOSを実行しながら、図1及び図23に示す「〜部」の機能を実現するプログラムを実行する。
また、実施の形態1〜5の説明において、「〜の判断」、「〜の判定」、「〜の解析」、「〜の推定」、「〜の生成」、「〜の算出」、「〜の抽出」、「〜の設定」、「〜の変形」、「〜の変更」、「〜の選択」、「〜の比較」等として説明している処理の結果を示す情報やデータや信号値や変数値が主記憶装置903にファイルとして記憶されている。
なお、図30の構成は、あくまでも監視システム20のハードウェア構成の一例を示すものであり、監視システム20のハードウェア構成は図30に記載の構成に限らず、他の構成であってもよい。
また、実施の形態1〜4に示す手順により、本発明に係る情報処理方法を実現可能である。
10 クライアント装置、20 監視システム、30 監視対象システム、201 画面表示部、202 障害箇所推定部、203 障害情報収集部、204 距離情報生成部、205 構成情報変形ルール適用部、211 障害情報DB、212 距離情報DB、213 CMDB、214 構成情報変形ルール、221 ログ抽出部。

Claims (10)

  1. 監視対象システムに含まれる複数のシステム構成要素が既定の階層構造で記述される構成情報のコピーにシステム構成要素の追加及び削除の少なくともいずれかを行って、前記既定の階層構造とは異なる障害発生箇所推定用の階層構造で前記監視対象システムのシステム構成を定義する障害発生箇所推定用構成情報を生成する推定用構成情報生成部と、
    前記監視対象システムで障害が発生した際に、前記障害発生箇所推定用構成情報で定義されているシステム構成を解析して、前記監視対象システム内の障害発生箇所を推定する解析推定部とを有し、
    前記推定用構成情報生成部は、
    前記複数のシステム構成要素に特定の属性を有するシステム構成要素が含まれるか否かを判断し、
    前記複数のシステム構成要素に前記特定の属性を有するシステム構成要素が含まれる場合に、前記障害発生箇所推定用構成情報を生成することを特徴とする情報処理装置。
  2. 前記推定用構成情報生成部は、
    前記複数のシステム構成要素で生成されたデータを解析して、前記複数のシステム構成要素に前記特定の属性を有するシステム構成要素が含まれるか否かを判断することを特徴とする請求項に記載の情報処理装置。
  3. 前記推定用構成情報生成部は、
    前記複数のシステム構成要素で生成されたデータに含まれる文字列及び前記複数のシステム構成要素で生成されたデータが保存されているフォルダのフォルダ名の少なくともいずれかを解析して、前記複数のシステム構成要素に前記特定の属性を有するシステム構成要素が含まれるか否かを判断することを特徴とする請求項に記載の情報処理装置。
  4. 監視対象システムに含まれる複数のシステム構成要素が既定の階層構造で記述される構成情報のコピーにシステム構成要素の追加及び削除の少なくともいずれかを行って、前記既定の階層構造とは異なる障害発生箇所推定用の階層構造で前記監視対象システムのシステム構成を定義する障害発生箇所推定用構成情報を生成する推定用構成情報生成部と、
    前記監視対象システムで障害が発生した際に、前記障害発生箇所推定用構成情報で定義されているシステム構成を解析して、アラームを発生させた複数のアラーム発生システム構成要素について、アラーム発生システム構成要素ごとに、前記複数のシステム構成要素のうちの最上位階層のシステム構成要素からアラーム発生システム構成要素までの階層差数を算出し、算出した階層差数に基づき、前記複数のアラーム発生システム構成要素の中から、前記障害を発生させたアラーム発生システム構成要素を推定する解析推定部とを有する情報処理装置。
  5. 前記解析推定部は、
    前記複数のアラーム発生システム構成要素のうち、前記最上位階層のシステム構成要素からの階層差数が最も多いアラーム発生システム構成要素を、前記障害を発生させたアラーム発生システム構成要素と推定することを特徴とする請求項に記載の情報処理装置。
  6. 前記解析推定部は、
    前記最上位階層のシステム構成要素から各アラーム発生システム構成要素までの経路が複数存在する場合に、当該複数の経路のうちアラーム発生システム構成要素が最も多く含まれる経路を抽出し、
    抽出した経路に含まれるアラーム発生システム構成要素のうち、前記最上位階層のシステム構成要素からの階層差数が最も多いアラーム発生システム構成要素を、前記障害を発生させたアラーム発生システム構成要素と推定することを特徴とする請求項に記載の情報処理装置。
  7. コンピュータが、監視対象システムに含まれる複数のシステム構成要素が既定の階層構造で記述される構成情報のコピーにシステム構成要素の追加及び削除の少なくともいずれかを行って、前記既定の階層構造とは異なる障害発生箇所推定用の階層構造で前記監視対象システムのシステム構成を定義する障害発生箇所推定用構成情報を生成する推定用構成情報生成ステップと、
    前記監視対象システムで障害が発生した際に、前記コンピュータが、前記障害発生箇所推定用構成情報で定義されているシステム構成を解析して、前記監視対象システム内の障害発生箇所を推定する解析推定ステップとを有し、
    前記推定用構成情報生成ステップにおいて、前記コンピュータは、
    前記複数のシステム構成要素に特定の属性を有するシステム構成要素が含まれるか否かを判断し、
    前記複数のシステム構成要素に前記特定の属性を有するシステム構成要素が含まれる場合に、前記障害発生箇所推定用構成情報を生成することを特徴とする情報処理方法。
  8. コンピュータが、監視対象システムに含まれる複数のシステム構成要素が既定の階層構造で記述される構成情報のコピーにシステム構成要素の追加及び削除の少なくともいずれかを行って、前記既定の階層構造とは異なる障害発生箇所推定用の階層構造で前記監視対象システムのシステム構成を定義する障害発生箇所推定用構成情報を生成する推定用構成情報生成ステップと、
    前記監視対象システムで障害が発生した際に、前記コンピュータが、前記障害発生箇所推定用構成情報で定義されているシステム構成を解析して、アラームを発生させた複数のアラーム発生システム構成要素について、アラーム発生システム構成要素ごとに、前記複数のシステム構成要素のうちの最上位階層のシステム構成要素からアラーム発生システム構成要素までの階層差数を算出し、算出した階層差数に基づき、前記複数のアラーム発生システム構成要素の中から、前記障害を発生させたアラーム発生システム構成要素を推定する解析推定ステップとを有する情報処理方法。
  9. 監視対象システムに含まれる複数のシステム構成要素が既定の階層構造で記述される構成情報のコピーにシステム構成要素の追加及び削除の少なくともいずれかを行って、前記既定の階層構造とは異なる障害発生箇所推定用の階層構造で前記監視対象システムのシステム構成を定義する障害発生箇所推定用構成情報を生成する推定用構成情報生成ステップと、
    前記監視対象システムで障害が発生した際に、前記障害発生箇所推定用構成情報で定義されているシステム構成を解析して、前記監視対象システム内の障害発生箇所を推定する解析推定ステップとをコンピュータに実行させるプログラムであって、
    前記推定用構成情報生成ステップにおいて、前記コンピュータに、
    前記複数のシステム構成要素に特定の属性を有するシステム構成要素が含まれるか否かを判断させ、
    前記複数のシステム構成要素に前記特定の属性を有するシステム構成要素が含まれる場合に、前記障害発生箇所推定用構成情報を生成させることを特徴とするプログラム。
  10. 監視対象システムに含まれる複数のシステム構成要素が既定の階層構造で記述される構成情報のコピーにシステム構成要素の追加及び削除の少なくともいずれかを行って、前記既定の階層構造とは異なる障害発生箇所推定用の階層構造で前記監視対象システムのシステム構成を定義する障害発生箇所推定用構成情報を生成する推定用構成情報生成ステップと、
    前記監視対象システムで障害が発生した際に、前記障害発生箇所推定用構成情報で定義されているシステム構成を解析して、アラームを発生させた複数のアラーム発生システム構成要素について、アラーム発生システム構成要素ごとに、前記複数のシステム構成要素のうちの最上位階層のシステム構成要素からアラーム発生システム構成要素までの階層差数を算出し、算出した階層差数に基づき、前記複数のアラーム発生システム構成要素の中から、前記障害を発生させたアラーム発生システム構成要素を推定する解析推定ステップとをコンピュータに実行させることを特徴とするプログラム。
JP2014151385A 2014-07-25 2014-07-25 情報処理装置及び情報処理方法及びプログラム Active JP6305258B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014151385A JP6305258B2 (ja) 2014-07-25 2014-07-25 情報処理装置及び情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014151385A JP6305258B2 (ja) 2014-07-25 2014-07-25 情報処理装置及び情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2016029520A JP2016029520A (ja) 2016-03-03
JP6305258B2 true JP6305258B2 (ja) 2018-04-04

Family

ID=55435382

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014151385A Active JP6305258B2 (ja) 2014-07-25 2014-07-25 情報処理装置及び情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6305258B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259331A (ja) * 1998-03-13 1999-09-24 Nippon Telegr & Teleph Corp <Ntt> ネットワークにおける障害箇所検出方法及び装置及びネットワークにおける障害箇所検出プログラムを格納した記憶媒体
JP5423677B2 (ja) * 2008-08-04 2014-02-19 日本電気株式会社 障害解析装置、コンピュータプログラムおよび障害解析方法
JP5508449B2 (ja) * 2012-02-06 2014-05-28 日本電信電話株式会社 リソース監視装置、リソース監視システム、リソース監視方法及びリソース監視プログラム

Also Published As

Publication number Publication date
JP2016029520A (ja) 2016-03-03

Similar Documents

Publication Publication Date Title
US11429627B2 (en) System monitoring driven by automatically determined operational parameters of dependency graph model with user interface
US11799728B2 (en) Multistage device clustering
US11829471B2 (en) Anomaly event detection
US20200104401A1 (en) Real-Time Measurement And System Monitoring Based On Generated Dependency Graph Models Of System Components
US10860406B2 (en) Information processing device and monitoring method
US9411673B2 (en) Management server, management system, and management method
US11093837B2 (en) Event forecasting
CN109213747B (zh) 一种数据管理方法及装置
WO2013186870A1 (ja) サービス監視システム、及び、サービス監視方法
JP5913145B2 (ja) ログ可視化装置及び方法及びプログラム
CN111160021A (zh) 日志模板提取方法及装置
US20130036214A1 (en) System and method for managing environment configuration using snapshots
JP7081658B2 (ja) 情報処理装置、データ管理システム、データ管理方法及びデータ管理プログラム
CN109144964A (zh) 基于机器学习的日志解析方法和装置
Vervaet et al. USTEP: Unfixed search tree for efficient log parsing
CN110661660B (zh) 告警信息根源分析方法及装置
US10706108B2 (en) Field name recommendation
WO2017037801A1 (ja) 監視システムおよび監視方法
US10644971B2 (en) Graph search in structured query language style query
JP6305258B2 (ja) 情報処理装置及び情報処理方法及びプログラム
US8984157B2 (en) Network analysis in a file transfer system
US20150032749A1 (en) Method of creating classification pattern, apparatus, and recording medium
CN115333966A (zh) 一种基于拓扑的Nginx日志分析方法、系统及设备
CN110032500B (zh) 多层嵌套数据解析方法和设备
Kobayashi et al. amulog: A general log analysis framework for comparison and combination of diverse template generation methods

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180306

R150 Certificate of patent or registration of utility model

Ref document number: 6305258

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250