JP5668425B2 - 障害検知装置、情報処理方法、およびプログラム - Google Patents

障害検知装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP5668425B2
JP5668425B2 JP2010256799A JP2010256799A JP5668425B2 JP 5668425 B2 JP5668425 B2 JP 5668425B2 JP 2010256799 A JP2010256799 A JP 2010256799A JP 2010256799 A JP2010256799 A JP 2010256799A JP 5668425 B2 JP5668425 B2 JP 5668425B2
Authority
JP
Japan
Prior art keywords
correlation
systems
performance data
analysis
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010256799A
Other languages
English (en)
Other versions
JP2012108708A (ja
Inventor
光央 西村
光央 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010256799A priority Critical patent/JP5668425B2/ja
Publication of JP2012108708A publication Critical patent/JP2012108708A/ja
Application granted granted Critical
Publication of JP5668425B2 publication Critical patent/JP5668425B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、情報処理を行うシステムに発生する障害を検出するための障害検知装置、情報処理方法、およびその方法をコンピュータに実行させるためのプログラムに関する。
コンピュータネットワークシステムにおいて、障害が発生している箇所を特定する方法が種々提案されている。代表的な方法として、OS(Operating System)、AP(Application Program)、ミドルウェア、およびネットワークなどが稼働中に出力するログの情報を突き合わせることで、異常個所を突き止め、原因を探る方法が知られている。
この方法で、異常箇所の検出および原因の特定を実現するには、各システムおよびネットワーク間の時刻が一致していないと、それらから出力されるログの中の時刻が正確に一致せず、異常発生の判定が困難になるという問題がある。また、この方法では、監視対象が小規模であれば、ログの情報の全ての組み合わせで突き合わせを行っても、少ない労力で結果を得られるが、監視対象が大規模になると、ログの情報も膨大となり、どのデータとどのデータを突き合わせれば障害の原因を的確に見つけ出せるかが大きな課題となる。
効率化のために業務システムが集約された環境では、一つの障害が多数の業務システムに影響を及ぼす可能性がある。そのため、障害の発生を検知し、その原因を正確に突き止めることで障害の影響を最小限にすることが極めて重要である。提案されている方法をいくつか簡単に説明する。
特許文献1には、複数のセンサから取得した複数のデータの時間変化に基づいてデータ空間を複数のクラスタに分割し、クラスタ群を部分空間法でモデル化し、学習データをリファレンスとして、はずれ値を異常候補として算出する異常検知システムが開示されている。この文献に開示された方法では、対象プラントが複数ある場合には、対象プラント毎に学習データを保存しておく必要がある。
特許文献2には、故障の発生確率を考慮することにより、診断モデルの更新を頻繁に行わなくても故障原因が特定できるようにした故障診断装置が開示されている。この文献に開示された方法では、故障診断を故障確率に基づいて行っており、実際に発生する故障が故障診断による結果と異なるおそれがある。
特許文献3には、1つのコンピュータから出力される複数種の稼働状態データをその取得時間に対応づけて組み合わせ、一定の時間幅で平均化することで、一時的な処理の集中を、障害が発生したと誤認識することを防ぐことを可能にした情報処理装置が開示されている。この文献に開示された方法では、監視対象のコンピュータが複数ある場合には、演算処理にかかる時間がコンピュータの台数に比例して増加してしまう。
特許文献1から3に開示された方法とは異なる方法で、障害または異常の発生と、その発生源を特定する技術の一例が、特許文献4に開示されている。
特許文献4に開示された分析方法は、収集した、CPU利用率、メモリ残量、およびディスク容量などの性能情報のデータに基づいて、性能情報間に存在する全ての相関関係を抽出し、各相関関係の近似式を求め、近似式で予測した値と実際の数値との差が一定値以上であるか否かを判定することで、障害または異常の発生と、発生箇所の要素とを特定するものである。以下では、この分析方法を「性能相関分析」と称する。
上記の性能相関分析では、システム全体を網羅的にサーチして、異常発生箇所を探し出している。また、特許文献4には、異常発生箇所の要素を特定する方法として、異常発生と判定した相関関係の異常スコアを算出し、異常スコアが高い要素ほど、異常原因の可能性が高いと判断し、分析結果の表示順の上位に配置することが開示されている。
特開2010−092355号公報 特開2009−211472号公報 特開2008−191849号公報 特開2009−199533号公報
特許文献4に開示された方法では、複数のシステムが混在する環境を監視対象とする場合、複数のシステムに関連する性能情報の全ての組み合わせに対して分析を行うことになるため、処理時間が大幅にかかってしまうことになる。また、複数のシステム全体を対象にして、性能情報の全ての組み合わせを分析するため、本来は相関関係のない性能情報間に相関関係があると、誤った判定を行ってしまう可能性がある。
特許文献4に開示された方法では、異常スコアの高い相関関係の要素が障害の原因であるという判定を行っていることから、その要素が分析結果として上位に配置される仕組みになっている。異常の影響が要素間で伝播し、伝播先の要素で異常スコアが大きな値になってしまう場合が考えられる。この場合、1つの相関関係から算出される異常スコアの大きさだけで、異常の発生源を特定してしまうと、分析結果の表示順は、異常の伝播先の要素が上位に配置され、異常の発生源が下位に配置されてしまい、真の、異常の発生源を見落としてしまうことになる。
本発明は、上述したような技術が有する問題点を解決するためになされたものであり、異常検知のための分析処理にかかる時間を短縮するとともに、異常発生個所の誤検出を防止可能にした障害検知装置、情報処理方法、およびその方法をコンピュータに実行させるためのプログラムを提供することを目的とする。
上記目的を達成するための本発明の障害検知装置は、監視対象となる複数のシステムと接続された障害検知装置であって、
前記複数のシステムのそれぞれに対応する物理機器の情報を示す設定ファイルが予め登録され、前記複数のシステムのそれぞれに対応する物理機器の性能種目毎の時系列データである性能データを複数記憶する記憶部と、
一定の時間間隔で、前記設定ファイルを参照して、前記記憶部に記憶された複数の前記性能データをシステム単位に分割する分析領域分割部と、
前記分析領域分割部で分割された、同一システム内の前記性能データ間に存在する相関関係を分析し、分析した相関関係毎に異常があるか否かを判定する分析部と、
前記分析部によって分析された相関関係のうち、前記異常があると判定された相関関係の割合を前記性能データ毎に算出し、該割合の高い方が表示順の上位になるように、該割合と該割合に対応する性能データの物理機器の名称との組み合わせを記述したテーブルを、前記複数のシステム毎に出力する分析結果出力部と、
を有し、
前記複数のシステムのうち、少なくとも2以上のシステムが同じ物理機器を共用し、その情報が前記設定ファイルに記述されている構成である。
また、本発明の情報処理方法は、監視対象となる複数のシステムのそれぞれに対応する物理機器の情報を示す設定ファイルが予め登録され、前記複数のシステムのそれぞれに対応する物理機器の性能種目毎の時系列データである性能データを複数記憶する記憶部と、制御部とを有する障害検知装置による障害検知方法であって、
前記制御部は、一定の時間間隔で、前記設定ファイルを参照して、前記記憶部に記憶された複数の前記性能データをシステム単位に分割し、
前記制御部は、分割した、同一システム内の前記性能データ間に存在する相関関係を分析し、分析した相関関係毎に異常があるか否かを判定し、
前記制御部は、分析した相関関係のうち、前記異常があると判定した相関関係の割合を前記性能データ毎に算出し、
前記制御部は、前記割合の高い方が表示順の上位になるように、該割合と該割合に対応する性能データの物理機器の名称との組み合わせを記述したテーブルを、前記複数のシステム毎に出力するものであり
前記複数のシステムのうち、少なくとも2以上のシステムが同じ物理機器を共用し、その情報が前記設定ファイルに記述されている
さらに、本発明のプログラムは、監視対象となる複数のシステムのそれぞれに対応する物理機器の情報を示す設定ファイルが予め登録され、前記複数のシステムのそれぞれに対応する物理機器の性能種目毎の時系列データである性能データを複数記憶する記憶部を備えたコンピュータに実行させるためのプログラムであって、
一定の時間間隔で、前記設定ファイルを参照して、前記記憶部に記憶された複数の前記性能データをシステム単位に分割し、
分割した、同一システム内の前記性能データ間に存在する相関関係を分析し、分析した相関関係毎に異常があるか否かを判定し、
分析した相関関係のうち、前記異常があると判定した相関関係の割合を前記性能データ毎に算出し、
前記割合の高い方が表示順の上位になるように、該割合と該割合に対応する性能データの物理機器の名称との組み合わせを記述したテーブルを、前記複数のシステム毎に出力する処理を前記コンピュータに実行させるものであり、
前記複数のシステムのうち、少なくとも2以上のシステムが同じ物理機器を共用し、その情報が前記設定ファイルに記述されている
本発明によれば、監視対象となる複数のシステムに対して、異常発生を検知するための分析処理にかかる時間を短縮し、かつ、異常発生個所の誤検出を防止できる。
本実施形態の障害検知装置の一構成例を示すブロック図である。 図1に示した制御部および記憶部を説明するための図である。 性能データと設定ファイルの一例を示す図である。 図2に示した分析部の他の構成例を示す図である。 本実施形態の障害検知装置の動作手順を示すフローチャートである。 システム分割テーブルの一例を示す図である。 割合ソート前分析結果テーブルの一例を示す図である。 割合ソート前分析結果テーブルの一例を示す図である。 割合ソート後分析結果テーブルの一例を示す図である。 割合ソート後分析結果テーブルの一例を示す図である。 構成情報テーブルの一例を示す図である。 結果出力順ソート前テーブルの一例を示す図である。 結果出力順ソート後テーブルの一例を示す図である。
本実施形態の障害検知装置の構成を説明する。本実施形態では、障害検知装置が、複数の業務システムの装置全体を監視し、障害を検知する場合で説明する。
例えば、人事経理系システムでは、勤怠管理システムおよび伝票入力システムなどが複数の業務システムに相当し、通販Webシステムでは、顧客情報管理システムおよび受発注システムなどが複数の業務システムに相当する。また、監視対象となるシステムは、業務システムに限られないが、本実施形態では、業務システムの場合で説明する。
図1は本実施形態の障害検知装置の一構成例を示すブロック図である。
図1に示すように、障害検知装置100は、記憶部30と、制御部20とを有する情報処理装置である。障害検知装置100は、ネットワーク40を介して、障害監視対象となるサーバ101〜10k(kは1以上の任意の整数)と接続される。
図2は図1に示した制御部および記憶部を説明するための図である。
図2に示すように、制御部20は、入力部110と、分析領域分割部120と、分析結果出力部50とを有する。分析結果出力部50は、分析部130と、分析結果抽出部140と、分析結果編集部150と、重要度算出部160と、結果出力順編集部170と、出力部180とを有する。出力部180は表示装置280と接続されている。
制御部20には、プログラムにしたがって処理を実行するCPU(不図示)と、プログラムを格納するためのメモリ(不図示)が設けられている。このCPUがプログラムを実行することで、入力部110、分析領域分割部120、分析部130、分析結果抽出部140、分析結果編集部150、重要度算出部160、結果出力順編集部170および出力部180が障害検知装置100に仮想的に構成される。
記憶部30には、設定ファイルおよび構成情報テーブルが予め格納されている。構成情報テーブルは、記憶部30に設けられた構成情報データベース(DB)250に格納されている。また、記憶部30は、サーバ10kから取得するデータを記録するための性能情報DB210と、情報処理の結果を保存するための、割合ソート前分析結果DB230、割合ソート後分析結果DB240、結果出力順ソート前DB260および結果出力順ソート後DB270とを有する。
性能情報DB210には、性能種目毎の時系列変化を示すデータである性能データが格納される。性能種目とは、サーバ10kの物理機器に設けられたCPUやメモリなどの電子部品について、CPU使用率やメモリ残量割合など、その性能の種類を意味する。以下では、任意の時刻における性能種目のデータ値を「性能情報」と称する。
設定ファイルは、複数の業務システムのそれぞれに対応する物理機器を示す情報である。設定ファイルにより、どの業務システムがどの物理機器に関連しているかがわかる。構成情報テーブルは、複数の業務システムの各システムについて、重要度を判定するための情報であるシステム構成情報が記述されている。ここで、重要度とは、業務システムがどの程度重要であるかを示す値である。ある業務システムについて、システム構成情報として、例えば、過去の障害発生回数、一定期間でのバックアップ回数、冗長化されているサーバ台数などの情報がある。
ここで、性能データと設定ファイルの具体例を説明する。図3(a)は性能データの一例を示す図であり、図3(b)は設定ファイルの一例を示す図である。図3(a)および(b)では、図1に示したサーバ10kを、「SV10k」と表している。
図3(a)に示すように、性能情報DB210には、監視対象となる全ての物理機器の性能種目に関する時系列変化のデータを記録するための表が格納されている。図3(a)に示す表では、物理機器の性能種目が1行目に記述され、性能情報を受信した日時が1列目に記述されている。「SV101CPU」は、物理機器がサーバ101であって、性能種目がCPUの使用率であることを示している。「SV101MEM」は、物理機器がサーバ101であって、性能種目がメモリの残量割合であることを示している。「SV101CPU」および「SV101MEM」等が表す性能種目を、以下では、性能データ名とも呼ぶ。
この表を見ると、サーバ101のCPUの使用率は、2010年10月5日の午後5時25分には12%であるが、その1分後の午後5時26分には15%に上がっていることがわかる。また、SV101のメモリの残量割合は、2010年10月5日の午後5時25分には80%であるが、その1分後の午後5時26分には79%に下がっていることがわかる。
図3(b)に示す設定ファイルには、業務システム毎に、関連する物理機器が記述されている。図3(b)を見ると、システム1に関連する物理機器は、SV101およびSV102などであることがわかる。また、システム2に関連する物理機器はSV103などであり、システム3に関連する物理機器はSV104などであることがわかる。各システムに関連する性能データ名は、図3(b)に示すサーバ名から図3(a)に示すテーブルの中を検索すればわかる。
設定ファイルの具体例を説明する。監視対象が通販Webシステムの場合、システムの構成が、Webサーバ、AP(アプリケーション)サーバおよびDBサーバからなるWeb3層構造(3-Tier system)になっている。
SV101およびSV102がWebサーバとする。SV103およびSV104がAPサーバとする。SV105がDBサーバとする。一般的に、リソースを有効活用するために、複数の業務システムが同じサーバを利用することが多い。これを踏まえて、複数の業務システム(システム1〜3とする)が、これらのサーバのうち、どのサーバと関連しているかを記述すると、以下のようになる。
システム1:SV101、SV102、SV103、SV104、SV105
システム2:SV101、 SV104、SV105
システム3:SV101、SV102、SV103、 SV105
このような業務システムとサーバの関係は、各サーバ上で動いているアプリケーションから情報を集めることで設定ファイルとして作成することが可能である。
続いて、図2に示した制御部20および記憶部30内の各構成について、詳しく説明する。
入力部110は、サーバ10kの各物理機器から一定の時間間隔で性能情報を取得し、取得した性能情報を性能情報DB210に記録するとともに、性能情報を分析領域分割部120を介して分析部130に送信する。性能情報DB210には、入力部110がサーバ10kから取得した、一定期間の性能情報が記録される。例えば、図3(a)に示す表には、12時間分の性能データが記録可能であり、既に12時間分の性能データが記録されていると、入力部110は、新しく性能情報を取得したとき、日時が最も古い性能情報を消去し、データを消去することで空いた記憶領域に最新の性能情報を記録する。このようにして、性能情報DB210の記憶容量を節約することが可能となる。性能データの記録可能期間は、12時間に限らない。
また、入力部110は、記録可能期間内であって、一定期間の性能データを一定の時間間隔で、性能情報DB210から読み出して分析領域分割部120に渡す。記録可能期間が12時間である場合、一定期間は、例えば、3時間、6時間、または12時間である。以下では、説明を簡単にするために、一定期間が記録可能期間に一致している場合で説明する。
分析領域分割部120は、記憶部30に登録されている設定ファイルを参照して、性能情報DB210に記録された全ての性能データを業務システム単位で分割する。分析領域分割部120は、性能データを業務システム単位で分割した表を作成してシステム分割DB220に格納する。この表を、システム分割テーブルと称する。上述の通販Webシステムの例の場合、図3(a)に示した、「SV101CPU」、「SV101MEM」および「SV102CPU」等の性能データが受発注システムに分類される。
分析部130は、特許文献4に開示された運用管理装置における、相関モデル生成部の機能と相関変化分析部の一部の機能を有している。分析部130は、業務システム単位に分割された性能データをシステム分割DB220から読み出すと、読み出した性能データに対して業務システム単位で性能相関分析を行う。そして、分析部130は、業務システム単位で性能相関分析を行うことにより、任意の2種類の性能データについて相関があると判定した相関関係を全て求め、さらに、入力部110から受信する性能情報の実測値を参照して、これらの相関関係に異常があるか否かを判定する。さらに、分析部130は、分析結果として、業務システム毎に、相関関係の数と、異常があると判定した相関関係の数を、分析結果出力部50の分析結果抽出部140に通知する。
なお、性能データ間で相関があるか否かの判定には、例えば、相関係数を用いる。また、性能相関分析については、特許文献4に開示されているため、ここではその詳細な説明を省略する。
また、分析部130は、業務システム単位で行う性能相関分析を、並列に実行してもよい。図4は分析部の他の構成例を示す図である。図4に示すように、分析部130a〜130nが設けられている。ここで、a〜nの数は、2以上の整数であって、分析対象となる業務システムの数である。
分析結果抽出部140は、分析部130で分析された結果から、性能データ毎に異常度を算出し、その結果をテーブルにして割合ソート前分析結果DB230に格納する。ここで言う異常度とは、分析部130によって分析された相関関係に対して、分析部130によって異常があると判定された相関関係の割合を示す値である。
分析結果編集部150は、業務システム単位でテーブルを割合ソート前分析結果DB230から読み出し、異常度の順で性能データをソートし、その結果を示すテーブルを割合ソート後分析結果DB240に格納する。この段階で、分析結果編集部150が、ソート後のテーブルを表示装置280に出力させてもよい。
重要度算出部160は、構成情報DB250に格納されたシステム構成情報を参照し、各業務システムの重要度を算出し、各業務システムの重要度を示すテーブルを結果出力順ソート前DB260に格納する。
結果出力順編集部170は、結果出力順ソート前DB260からテーブルを読み出し、各業務システムを重要度の高い順でソートし、その結果を示すテーブルを結果出力順ソート後DB270に格納する。
出力部180は、結果出力順ソート後DB270に格納されたテーブルを参照して、業務システム単位での出力順を決定し、決定した出力順にしたがって、分割ソート後分析結果DB240に格納された、各業務システムの分析結果を表示装置280に出力させる。表示装置280は、分析結果編集部150または出力部180から受け取る情報を表示する。なお、入力部110が実行する処理を分析領域分割部120が行うようにしてもよい。
次に、本実施形態の障害検知装置100の動作を説明する。図5は本実施形態の障害検知装置の動作手順を示すフローチャートである。
入力部110は、サーバ10kから取得する性能情報を分析部120に送信するとともに、記憶部30内の性能情報DB210から全ての性能データを読み出して分析領域分割部120に渡す。分析領域分割部120は、設定ファイルを参照して、入力部110から受け取った性能データを業務システム単位に分割し(ステップ301)、分割結果を示すシステム分割テーブルを作成してシステム分割DB220に格納する。ここでは、性能データが、システム1、システム2、・・・の業務システム単位に分割されたものとする。
ここで言う、システム1、システム2、・・・とは、例えば、人事経理系システムの場合では、勤怠管理システムや伝票入力システムなどに相当し、通販Webシステムの場合では、顧客情報管理システムや受発注システムなどに相当する。
図6はシステム分割テーブルの一例を示す図である。
図6に示すように、システム分割テーブルには、システム1に関連する性能データを示す欄に性能データA、性能データC、性能データD・・・が記述されている。これは、性能データA、性能データC、性能データD、・・・を有する物理機器がシステム1に関係していることを表す。例えば、図3を参照すると、性能データAがサーバ101のCPU使用率の時系列データに相当し、性能データCがサーバ101のメモリ残量割合の時系列データに相当し、性能データDがサーバ102のCPU使用率の時系列データに相当する。性能データAには、「サーバ101」という物理機器の名称と、「CPUの使用率」という性能種目と、その時系列データの情報が含まれている。また、図6に示すシステム分割テーブルには、システム2に関連する性能データを示す欄に性能データB、性能データE、性能データF、・・・が記述されている。
分析部130は、システム分割DB220に格納されたシステム分割テーブルを参照して、業務システム単位で性能相関分析を行う(ステップ302)。分析対象となる性能データが大量に存在する場合、可能な限り迅速に障害箇所を特定するために、分析部130は、高速で性能相関分析処理を行う必要がある。この場合、図4の機能ブロック図に示したように、分析部130a、130b、・・・、130nの各分析部が業務システム単位で並列動作して性能相関分析を行うようにすればよい。
分析部130aはシステム1の分析処理を実行し、分析部130bはシステム2の分析処理を実行するものとする。分析部130aは、システム分析テーブル20から、システム1の性能データA、性能データC、性能データD、・・・を一括で読み込み、性能相関分析を実行する。同様にして、分析部130bは、システム分析テーブル20から、システム2の性能データB、性能データE、性能データF、・・・を一括で読み込み、性能相関分析を実行する。
分析部130aが行う性能相関分析の具体例を、図6を参照して説明する。分析部130aは、性能データA、性能データC、性能データD、・・・の性能データから、任意に2つの性能データを選択して、性能種目間で相関関係があるか否かを判定する。例えば、分析部130aは、任意に選択した2つの性能データの2つの性能種目を、y=Ax+Bという式のx、yに当てはめ、相関係数が0.5以上または−0.5以下である場合、その2つの性能種目に相関関係があると判定する。この判定を、分析部130aは、システム1に関連する性能データの全ての組み合わせについて行う。
このような判定の結果、相関関係のないものは除外され、相関関係のあるものだけが抽出される。そして、分析部130aは、分析によって抽出した相関関係の近似式のそれぞれについて、近似式で算出される予測値と入力部110から受信する性能情報の実測値との差を求める。続いて、分析部30aは、求めた差の値の実測値に対する割合を誤差とし、誤差が一定値以上である場合、その相関関係に異常があると判定し、誤差が一定値より小さい場合、その相関関係は正常であると判定する。
さらに、分析部130aは、性能データ毎に、抽出した相関関係の数(以下では、「相関関係数」と称する)と、異常があると判定した相関関係の数(以下では、「異常相関数」と称する)を分析結果抽出部140に通知する。相関関係は2つの性能種目間の関係であることから、1つの相関関係は、2つの性能データに基づいている。そのため、例えば、性能データAと性能データCとの間に相関関係がある場合、この相関関係が、性能データAに関して分析された相関関係の数にカウントされるだけでなく、性能データCに関して分析された相関関係の数としてもカウントされる。異常があると判定される相関関係についても、これと同様に、1つの相関関係が2つの性能データのそれぞれでカウントされる。このような分析結果が、他の分析部130b〜130nについても、分析部130aと同様に、分析結果抽出部140に通知される。
分析結果抽出部140は、分析部130から分析結果を受け取ると、業務システム単位で、性能データ毎に、相関関係数に対する異常相関数の割合を算出する。この割合が、相関関係の異常度を表す値の一種であり、以下では、この割合を「異常相関割合」と称する。分析結果抽出部140は、性能データ毎に、相関関係数、異常相関数および異常相関割合を記述したテーブルを、業務システム単位に作成して割合ソート前分析結果DB230に格納し、処理が終了した旨を分析結果編集部150に通知する。このテーブルを「割合ソート前分析結果テーブル」と称し、性能データ名、相関関係数、異常相関数および異常相関割合を1つの組とするデータを「組データ」と称する。
図7および図8のそれぞれは割合ソート前分析結果テーブルの一例を示す図である。図7はシステム1に関する割合ソート前分析結果テーブルであり、図8はシステム2に関する割合ソート前分析結果テーブルである。
図7および図8において、相関関係数IMは分析部130の性能相関分析によって求められた相関関係の数であり、異常相関数INは分析部130の性能相関分析によって異常と判定された相関関係の数である。異常相関割合[%]は、異常相関数INを相関関係数IMで割った値を百分率で示した値である。
ここで、図7または図8のテーブルに示すように、性能データ毎に異常度を求めることで、異常発生個所を特定できる理由を説明する。説明のために、システム1に関連する物理機器の性能データを性能データA、C、D、Gとし、このうち、どの2つの性能データにも相関があるものと仮定する。また、性能データAの物理機器のみに異常が発生しているものと仮定する。
判定対象となる組み合わせは、性能データAと性能データC(組1とする)、性能データAと性能データD(組2とする)、性能データAと性能データG(組3とする)、性能データCと性能データD(組4とする)、性能データCと性能データG(組5とする)、および、性能データDと性能データG(組6とする)の計6組となる。性能データAの物理機器に異常が発生しているので、これらの組のうち、組1〜組3は異常と判定される。この判定結果を図7のようなテーブルに記述することを考えてみる。
性能データAを基準にすると、相関関係数は3(組1〜組3)であり、異常相関数は3(組1〜組3)であるため、異常相関割合は100%となる。性能データCを基準にすると、相関関係数は3(組1、組4、組5)であり、異常相関数は1(組1)だけなので、異常相関割合は33%となる。性能データDおよびGのそれぞれについても、性能データCと同様に、相関関係数は3であり、異常相関数は1となるため、異常相関割合は33%となる。このように、異常の発生した物理機器の性能データに対応する異常度が最も大きな値でテーブルに表示されるため、異常発生個所を特定することが可能となる。
分析結果編集部150は、分析結果抽出部140から処理が終了した旨の通知を受けると、各業務システムの割合ソート前分析結果テーブルに対して、異常相関割合[%]の値をソートキーにして、異常相関割合の数値の高い順に組データをソートし、その結果を記述したテーブルを割合ソート後分析結果DB240に格納する。このテーブルを「割合ソート後分析結果テーブル」と称する。
図9および図10のそれぞれは割合ソート後分析結果テーブルの一例である。図9はシステム1に関する割合ソート後分析結果テーブルであり、図10はシステム2に関する割合ソート後分析結果テーブルである。
図9を見ると、異常相関割合が100%の性能データCの組データが、図7に示した割合ソート前分析結果テーブルでは、性能データAの組データの下段に記述されていたが、割合ソート後分析結果テーブルでは、最上位に記述されている。図10を見ると、異常相関割合が80%の性能データFの組データが、図8の割合ソート前分析結果テーブルでは、性能データEの組データの下段に記述されていたが、割合ソート後分析結果テーブルでは、最上位に記述されている。
ここで、各業務システムの性能データについて、異常相関割合が高いほど上位に配置された割合ソート後分析結果テーブルを、出力部180が割合ソート後分析結果DB240から読み出して表示装置280に出力させてもよい(ステップ303)。図9および図10に示す各性能データの欄には、その性能データに対応する物理機器の名称および性能種目の情報が含まれているため、障害検知装置100の操作者は、図9および図10などのテーブルを見ることで、各業務システムについて、どの物理機器に障害が発生したかを認識することが可能となる。また、図9および図10に示すテーブルにおいて、少なくとも、性能データに含まれる物理機器の名称と、その性能データに対応する異常相関割合との組み合わせを表示装置280に表示させるようにしてもよい。
上述の出力方法に追加して、または、上述の出力方法とは別に、以下のようにして、分析結果編集部150による編集結果に各システムの重要度を反映させて、障害検知装置100の操作者に対して、表示してもよい。この場合、分析結果編集部150は、編集が終了した旨を重要度算出部160に通知する。
重要度算出部160は、分析結果編集部150から編集が終了した旨の通知を受けると、構成情報DB250に格納された構成情報テーブルを参照して、システム構成情報を読み出し、業務システム単位で重要度を算出する。そして、重要度算出部160は、その算出結果を示すテーブルを結果出力順ソート前DB260に格納し、処理が終了した旨を結果出力順編集部170に通知する。このテーブルを「結果出力順ソート前テーブル」と称する。
図11は構成情報テーブルの一例を示す図である。構成情報テーブルには、1行目にシステム構成情報の名称が記述され、2行目以降に、システムに対応して、それぞれのシステム構成情報の値が記述されている。例えば、α1は過去の障害発生回数を示し、α2は一定期間でのバックアップ回数を示し、α3は冗長化されているサーバ台数を示す。図11に示すように、システム1では、過去の障害発生回数が9回であり、一定期間のバックアップ回数が3回であり、冗長化されているサーバが10台であることを示している。
図12は結果出力順ソート前テーブルの一例を示す図である。結果出力順ソート前テーブルには、重要度算出部160で算出された結果が示されている。w1およびw2のそれぞれは、システム1および2のそれぞれの重要度を示す値である。図12に示すように、結果出力順ソート前テーブルには、システム名に対応して、重要度を示す値が記述されている。
w=f(α1,α2,α3,・・・) ・・・式1
式1は、重要度wを算出するための式であり、制御部20内のメモリ(不図示)に格納されたプログラムに記述されている。重要度wは、α1、α2、α3、・・・をパラメータとする関数fで表される。例えば、システム1の重要度w1を求める場合、重要度算出部160は、図11に示した構成情報テーブル50からシステム構成情報の値を読み出し、システム構成情報の値をそのまま、または、所定の数値変換を行って、式1に代入して計算し、w1を求める。ここでは、システム構成情報に対して、各数値に見合った数値変換を行ったため、計算式は、w1=f(10,1,60,・・・)と表される。
結果出力順編集部170は、重要度算出部160から処理が終了した旨の通知を受けると、結果出力順ソート前DB260に格納された結果出力順ソート前テーブルに対して、重要度の値をソートキーにして、重要度の数値の高い順にシステム名をソートし、その結果を記述したテーブルを結果出力順ソート後DB270に格納する。このテーブルを「結果出力順ソート後テーブル」と称する。その後、結果出力順編集部170は、編集を終了した旨を出力部180に通知する。
図13は結果出力順ソート後テーブルの一例を示す図である。図13に示すように、結果出力順ソート後テーブルでは、システム1よりもシステム2が上位に配置されている。このテーブルから、システム2の方がシステム1よりも重要度が大きいことがわかる。
出力部180は、結果出力順編集部170から編集を終了した旨の通知を受けると、結果出力順ソート後DB270に格納された結果出力順ソート後テーブルを参照して、業務システム単位での出力順を決定し、決定した順で業務システム毎の割合ソート後分析結果テーブルを割合ソート後分析結果DB240から読み出して表示装置280に出力させる。
なお、出力部180は、結果出力順編集部170から編集を終了した旨の通知を受けたとき、割合ソート後分析結果テーブルを表示装置280に出力させる前に、結果出力順ソート後テーブルを表示装置280に出力させ、操作者から入力される指示により、システムの出力順を任意に変更できるようにしてもよい。この場合、予め登録された構成情報テーブルに依存せず、操作者が重要と判断したシステムの順位を上位にすることができる。
本実施形態によれば、設定ファイルを参照して、システム単位で関連する物理機器を特定することで、性能データの分析領域を分割して分析することが可能となり、分析時間を短縮することができる。また、システム毎に関連する物理機器を特定しているので、誤った相関関係に対して分析を行うことを排除することができる。
特許文献4に開示された方法では、各相関関係から算出される異常スコアを比較して、異常スコアが最も大きくなる相関関係で、異常の発生源を特定していた。この場合、異常の発生源となる物理機器からの異常が他の物理機器に伝播し、他の物理機器での異常スコアが大きな値になったとき、異常の発生源を見誤るおそれがあった。これに対して、本実施形態では、システム単位で、関連する物理機器間で相関のある関係のうち、異常と判定された相関関係の割合に相当する異常度を性能データに対応して算出しているので、異常の発生原因となる物理機器に関わる相関関係の異常度が大きくなる。その結果、同じシステム内で、いずれかの物理機器で発生した異常が他の物理機器に伝播しても、異常度をソートキーにして物理機器を並べ替えることにより、異常の発生源となる物理機器が分析結果の表示順として上位に配置され、異常の発生源を特定することができる。よって、異常発生個所の誤検出を防止し、障害発生原因の検知能力を向上させることができる。
さらに、システムの重要度にしたがって、分析結果の出力順を変更にすることにより、操作者は、重要度の高いシステムから重要度の低いシステムの順に、より迅速に故障に対処することができる。
本実施形態では、特許文献1に開示された学習データをシステム毎に予め準備することなく、分析範囲を絞り込むことで分析結果の精度を上げることができる。また、特許文献2に開示された故障発生確率に依存することなく、故障を検知し、故障個所を特定することができる。さらに、複数のシステムを監視対象にしても、特許文献3に開示された演算処理を一律に行うのではなく、相関関係の分析範囲を絞り込むことで、分析を効率よく行うことができ、かつ、分析結果の精度を上げることができる。
なお、本実施形態では、監視対象が複数のシステムである場合を説明したが、本発明を、システムに限らず、観察対象に通常とは異なる動作が発生したときに、その現象を検出し、観察者に対して、目に見えない異常を通知する、または、今後、異常が発生する可能性があることを通知するための用途に適用できる。
また、本実施形態の障害検知装置の動作をよりわかりやすく説明するために、図2に示す機能ブロック図を用いたが、本発明の特徴となる情報処理を実行するには、本実施形態の障害検知装置が少なくとも記憶部30、分析領域分割部120、分析部130および分析結果出力部50を有していればよい。
20 制御部
30 記憶部
40 ネットワーク
50 分析結果出力部
100 障害検知装置
101〜10k サーバ
120 分析領域分割部
130 分析部
140 分析結果抽出部
150 分析結果編集部
160 重要度算出部
170 結果出力順編集部

Claims (10)

  1. 監視対象となる複数のシステムと接続された障害検知装置であって、
    前記複数のシステムのそれぞれに対応する物理機器の情報を示す設定ファイルが予め登録され、前記複数のシステムのそれぞれに対応する物理機器の性能種目毎の時系列データである性能データを複数記憶する記憶部と、
    一定の時間間隔で、前記設定ファイルを参照して、前記記憶部に記憶された複数の前記性能データをシステム単位に分割する分析領域分割部と、
    前記分析領域分割部で分割された、同一システム内の前記性能データ間に存在する相関関係を分析し、分析した相関関係毎に異常があるか否かを判定する分析部と、
    前記分析部によって分析された相関関係のうち、前記異常があると判定された相関関係の割合を前記性能データ毎に算出し、該割合の高い方が表示順の上位になるように、該割合と該割合に対応する性能データの物理機器の名称との組み合わせを記述したテーブルを、前記複数のシステム毎に出力する分析結果出力部と、
    を有し、
    前記複数のシステムのうち、少なくとも2以上のシステムが同じ物理機器を共用し、その情報が前記設定ファイルに記述されている、障害検知装置。
  2. 請求項1記載の障害検知装置において、
    前記分析部は、
    前記複数のシステムに対して、システム単位で前記相関関係を分析する複数の分析部からなる構成である、障害検知装置。
  3. 請求項1または2記載の障害検知装置において、
    前記複数のシステムのそれぞれの重要度を判定するための情報であるシステム構成情報が前記記憶部に予め格納され、
    前記分析結果出力部は、
    前記テーブルを出力する際、前記システム構成情報に基づいて、前記複数のシステムの出力順を決定し、決定した出力順にしたがって、各システムの前記テーブルを出力する、障害検知装置。
  4. 請求項1から3のいずれか1項記載の障害検知装置において、
    前記分析部は、
    分析した相関関係を表す相関関係式を求め、該相関関係式による予測値と該相関関係式に対応する前記性能種目の実測値との差が一定値以上の場合に、該相関関係に異常があると判定する、障害検知装置。
  5. 監視対象となる複数のシステムのそれぞれに対応する物理機器の情報を示す設定ファイルが予め登録され、前記複数のシステムのそれぞれに対応する物理機器の性能種目毎の時系列データである性能データを複数記憶する記憶部と、制御部とを有する障害検知装置による障害検知方法であって、
    前記制御部は、一定の時間間隔で、前記設定ファイルを参照して、前記記憶部に記憶された複数の前記性能データをシステム単位に分割し、
    前記制御部は、分割した、同一システム内の前記性能データ間に存在する相関関係を分析し、分析した相関関係毎に異常があるか否かを判定し、
    前記制御部は、分析した相関関係のうち、前記異常があると判定した相関関係の割合を前記性能データ毎に算出し、
    前記制御部は、前記割合の高い方が表示順の上位になるように、該割合と該割合に対応する性能データの物理機器の名称との組み合わせを記述したテーブルを、前記複数のシステム毎に出力するものであり
    前記複数のシステムのうち、少なくとも2以上のシステムが同じ物理機器を共用し、その情報が前記設定ファイルに記述されている、情報処理方法。
  6. 請求項5記載の情報処理方法において、
    前記制御部は、前記複数のシステムのそれぞれの重要度を判定するための情報であるシステム構成情報を前記記憶部に予め格納し、
    前記制御部は、前記テーブルを出力する前に、前記システム構成情報に基づいて、前記複数のシステムの出力順を決定し、
    前記制御部は、決定した出力順にしたがって、各システムの前記テーブルを出力する、情報処理方法。
  7. 請求項5または6に記載の情報処理方法において、
    前記制御部は、分析した相関関係を表す相関関係式を求め、該相関関係式による予測値と該相関関係式に対応する前記性能種目の実測値との差が一定値以上の場合に、該相関関係に異常があると判定する、情報処理方法。
  8. 監視対象となる複数のシステムのそれぞれに対応する物理機器の情報を示す設定ファイルが予め登録され、前記複数のシステムのそれぞれに対応する物理機器の性能種目毎の時系列データである性能データを複数記憶する記憶部を備えたコンピュータに実行させるためのプログラムであって、
    一定の時間間隔で、前記設定ファイルを参照して、前記記憶部に記憶された複数の前記性能データをシステム単位に分割し、
    分割した、同一システム内の前記性能データ間に存在する相関関係を分析し、分析した相関関係毎に異常があるか否かを判定し、
    分析した相関関係のうち、前記異常があると判定した相関関係の割合を前記性能データ毎に算出し、
    前記割合の高い方が表示順の上位になるように、該割合と該割合に対応する性能データの物理機器の名称との組み合わせを記述したテーブルを、前記複数のシステム毎に出力する処理を前記コンピュータに実行させるものであり、
    前記複数のシステムのうち、少なくとも2以上のシステムが同じ物理機器を共用し、その情報が前記設定ファイルに記述されている、プログラム。
  9. 請求項8記載のプログラムにおいて、
    前記複数のシステムのそれぞれの重要度を判定するための情報であるシステム構成情報を前記記憶部に予め格納し、
    前記テーブルを出力する前に、前記システム構成情報に基づいて、前記複数のシステムの出力順を決定し、
    決定した出力順にしたがって、各システムの前記テーブルを出力する処理をさらに有するプログラム。
  10. 請求項8または9に記載のプログラムにおいて、
    分析した相関関係を表す相関関係式を求め、該相関関係式による予測値と該相関関係式に対応する前記性能種目の実測値との差が一定値以上の場合に、該相関関係に異常があると判定する処理をさらに有するプログラム。
JP2010256799A 2010-11-17 2010-11-17 障害検知装置、情報処理方法、およびプログラム Active JP5668425B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010256799A JP5668425B2 (ja) 2010-11-17 2010-11-17 障害検知装置、情報処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010256799A JP5668425B2 (ja) 2010-11-17 2010-11-17 障害検知装置、情報処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2012108708A JP2012108708A (ja) 2012-06-07
JP5668425B2 true JP5668425B2 (ja) 2015-02-12

Family

ID=46494265

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010256799A Active JP5668425B2 (ja) 2010-11-17 2010-11-17 障害検知装置、情報処理方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP5668425B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3239839A4 (en) * 2014-12-22 2018-08-22 Nec Corporation Operation management device, operation management method, and recording medium in which operation management program is recorded
CN111061581B (zh) * 2018-10-16 2023-06-27 阿里巴巴集团控股有限公司 一种故障检测方法、装置及设备
CN113448806B (zh) * 2021-06-30 2022-12-09 平安证券股份有限公司 数据库集群异常检测方法、装置、终端设备及存储介质
WO2023148922A1 (ja) * 2022-02-04 2023-08-10 日本電気株式会社 異常検出システム、情報処理システム、異常検出方法および記録媒体

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004355061A (ja) * 2003-05-27 2004-12-16 Hitachi Ltd 分析システム
JP2004362144A (ja) * 2003-06-03 2004-12-24 Hitachi Ltd 運用管理方法及び実施装置並びに処理プログラム
JP4430989B2 (ja) * 2004-06-28 2010-03-10 株式会社日立製作所 運用管理支援システムおよび性能情報表示方法
JP2008287501A (ja) * 2007-05-17 2008-11-27 Canon Inc 監視システム
JP4872944B2 (ja) * 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
US8700953B2 (en) * 2008-09-18 2014-04-15 Nec Corporation Operation management device, operation management method, and operation management program

Also Published As

Publication number Publication date
JP2012108708A (ja) 2012-06-07

Similar Documents

Publication Publication Date Title
US9753801B2 (en) Detection method and information processing device
US9864676B2 (en) Bottleneck detector application programming interface
US9389946B2 (en) Operation management apparatus, operation management method, and program
US9424157B2 (en) Early detection of failing computers
JP6048038B2 (ja) 情報処理装置,プログラム,情報処理方法
US20140053025A1 (en) Methods and systems for abnormality analysis of streamed log data
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
WO2021143268A1 (zh) 基于模糊推理理论的电力信息系统健康评估方法及系统
JP6521096B2 (ja) 表示方法、表示装置、および、プログラム
US20210064505A1 (en) Analyzing large-scale data processing jobs
JP2014134956A (ja) 障害分析支援装置、障害分析支援方法、及びプログラム
JP5668425B2 (ja) 障害検知装置、情報処理方法、およびプログラム
Gitzel Data Quality in Time Series Data: An Experience Report.
US8543552B2 (en) Detecting statistical variation from unclassified process log
JPWO2019073512A1 (ja) システム分析方法、システム分析装置、および、プログラム
US20160092289A1 (en) Determination method, selection method, and determination device
JP6247777B2 (ja) 異常診断装置および異常診断方法
JP6666489B1 (ja) 障害予兆検知システム
Shilpika et al. Toward an in-depth analysis of multifidelity high performance computing systems
US20190018723A1 (en) Aggregating metric scores
JP2019032671A (ja) 原因推定方法およびプログラム
JP6973445B2 (ja) 表示方法、表示装置、および、プログラム
JP2024005813A (ja) 分析装置、分析方法及びプログラム
JP2019109692A (ja) データ出力プログラム、装置、及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131008

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140416

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20140424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140513

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141201

R150 Certificate of patent or registration of utility model

Ref document number: 5668425

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150