JP2011175504A - イベント予測システムおよびイベント予測方法、ならびにコンピュータ・プログラム - Google Patents
イベント予測システムおよびイベント予測方法、ならびにコンピュータ・プログラム Download PDFInfo
- Publication number
- JP2011175504A JP2011175504A JP2010039746A JP2010039746A JP2011175504A JP 2011175504 A JP2011175504 A JP 2011175504A JP 2010039746 A JP2010039746 A JP 2010039746A JP 2010039746 A JP2010039746 A JP 2010039746A JP 2011175504 A JP2011175504 A JP 2011175504A
- Authority
- JP
- Japan
- Prior art keywords
- event
- sequence
- model
- occurrence
- failure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
- Computer And Data Communications (AREA)
Abstract
【解決手段】監視対象装置で発生し得るイベントとそのイベント発生原因との対応関係およびイベント発生原因間の遷移を有限オートマトンでモデル化した初期イベント発生モデルと、学習用イベント列とに基づいて、イベント発生原因ごとに各イベントが発生する確率およびイベント発生原因間の遷移の確率を算出し、イベント発生モデルを生成するイベント発生モデル学習部12と、このイベント発生モデルに基づいて、障害原因発見用イベント列が観察される確率が最も高いと考えられる状態遷移列を求める状態遷移列計算部13と、イベント発生モデルと状態遷移列計算部13によって求められた状態遷移列とに基づいて、監視対象装置で将来発生し得るイベントを予測するフィルタリングモジュール14とを備える。
【選択図】 図1
Description
しかし、装置故障に関してルールの獲得が難しいことなどの理由により、ルールベースによる装置故障を予測するシステムは実用化されていない。
行うための機能を提供できていなかった。
本発明によれば、イベントの発生を事前に予測することができ、したがって、装置障害等のイベントの発生を未然に防いだり、イベントが発生した際に経験のない管理者でも迅速な対処を可能としたりすることが可能となる。
本発明の第1の実施の形態に係るイベント予測システムの構成を図1に示す。
本実施の形態に係るイベント予測システム1は、監視対象装置で発生し得るイベントとそのイベントを引き起こすイベント発生原因を定義した基本モデル定義に基づいて、イベントとそのイベント発生原因との対応関係およびイベント発生原因間の遷移を、イベント発生原因を状態とする有限オートマトンでモデル化した初期イベント発生モデルを生成してモデル格納データベース(DB)15に記憶させる初期モデル生成部11と、監視対象装置で発生し得る複数のイベントからなるイベント列を記憶したイベント列データベース16から読みだされた第1のイベント列と初期イベント発生モデルとに基づいて、イベント発生原因ごとに各イベントが発生する確率およびイベント発生原因間の遷移の確率を算出し、その算出結果を初期イベント発生モデルに反映させたイベント発生モデルをモデル格納データベース15に記憶させるイベント発生モデル学習部12と、モデル格納データベース15に記憶されたイベント発生モデルに基づいて、イベント列データベース16から読みだされた第2のイベント列が観察される確率が最も高いと考えられる状態遷移列を求め、その状態遷移列をイベント予測結果データベース17に記憶させる状態遷移列計算部13と、イベント発生モデルと状態遷移列計算部13によって求められた状態遷移列とに基づいて、監視対象装置で将来発生し得るイベントを予測するフィルタリングモジュール14とを備えることを特徴とする。
次に、本発明の第2の実施の形態について説明する。この第2の実施の形態に係るイベント予測システムは、監視対象装置の障害の発生をイベントの発生とし、監視対象装置からモニタされるイベント列、すなわち装置障害の履歴から、将来発生する可能性のある障害を予測する障害予測装置である。
障害予測装置10は、基本的に、基本モデル定義20、初期モデルパーサ30、初期モデル生成部40、Baum−Welch計算部50、Viterbi計算部60、フィルタリングモジュール70から構成される。
この障害予測装置10には、また、上記の基本的な構成に加え、上述した第1の実施の形態と同様に、基本イベント発生モデル(以下、「初期障害発生モデル」という。)およびイベント発生モデル(以下、「障害発生モデル」という。)を記憶するモデル格納DB120、障害予測用イベント列が観察される確率が最も高いと考えられる状態遷移列(この状態遷移列は、本実施の形態においては装置障害の列となる。)を記憶する障害予測結果DB150が設けられている。また、障害発生の予測結果を表示する表示部160が設けられている。
基本モデル定義20は、監視対象装置80で発生し得るイベントと、それを引き起こす障害原因とを定義したデータである。このようなデータは予め装置開発者によって記述される。
初期モデル生成部40は、初期モデルパーサ30が生成した構文情報に基づいて、イベントとその発生原因の対応関係、及び、発生原因間の遷移を有限オートマトンでモデル化した初期障害発生モデルを生成し、モデル格納DB120に格納する。
なお、学習用イベント列100は、監視対象装置80を試運転した際にモニタされたイベント列としてもよいし、監視対象装置80の運用時にモニタされたイベント列であって、障害の発生原因が解析済みのイベント列であってもよい。
また、障害予測用イベント列110として、監視対象装置80の運用時にモニタされたイベント列である構成を採用することによって、運用中の監視対象装置で発生した障害を予測することができる。
さらに、学習用イベント列100及び障害予測用イベント列110のそれぞれにおいて、隣接する2つのイベントの発生時間間隔が所定の値以下とする構成をとることができる。このような構成を採用した場合、ある障害原因に対して、互いに関連性のあるイベントから学習用イベント列100および障害予測用イベント列110を構成することができる。
なお、イベント列DB140及び障害予測結果DB150には、装置障害が起きた時刻及びその前後の時刻に障害が発生した装置の時刻との間隔が保持される。
その際、Viterbi計算部60は、状態遷移列を求める元となった障害予測用イベント列110を併せて出力する。したがって、学習後の障害発生モデルから状態遷移列を求めことができる。
フィルタリングモジュール70は、さらに、この尤もらしい遷移列の開始状態を根源的な原因と推定し、モデル格納DB120に格納されている障害発生モデルに基づいて、この推定した根源的な原因とそれに連なる派生原因とを含む原因列を特定して、障害予測結果DB150に格納する。
ここで、Viterbi計算部60によって求められた尤もらしい状態遷移列に含まれる状態(障害原因)のそれぞれを発生原因とするイベント(装置障害)は、基本モデル定義20や先に学習によって得られた障害発生モデルに基づいて求めることができる。その結果、障害予測用イベント列110のうちで、Viterbi計算部60によって求められた尤もらしい状態遷移列に含まれる根源的な原因及び派生原因を発生原因とするイベントが、状態遷移列の各状態(原因)に対応付けられて障害予測結果DB150に格納される。
このようにして求められたイベント(装置障害)は、監視対象装置80で将来発生し得る装置障害である。
なお、このようにして障害予測結果DB150に記憶された状態遷移列および各状態(原因)に対応付けられたイベント(装置障害)を参照することで、管理者等は障害の根源的な原因やそれに付随して発生した原因等を解析することもできる。
まず、初期モデルパーサ30は、装置開発者によって記述された基本モデル定義20を読み込み、読み込んだ基本モデル定義20を、初期モデル生成部40が解釈可能な構文情報に変換する(ステップA1)。
基本モデル定義20は、イベントの集合Σと、障害原因の集合Sと、関数f:Σ → Sで定義される。基本的に、関数fは全域関数であるが、部分関数であってもよい。
M = {Σ, S∪{s0}, {Pr(sj|si)}si ,sj∈S, {P0 si}si∈S, {Pr(ej|si)}si ∈S,ej∈Σ}
ここで、Pr(a|b)は、条件付確率であり、bという条件下でaが発生する確率を示す。また、P0 si は、障害発生モデルMが状態siから開始する確率を示す。s0は、監視対象装置80が正常である状態を示す。上記障害発生モデルMにおいて、「S∪{s0}, {Pr(sj|si)}si ,sj∈S, {P0 si}si∈S」は、有限状態オートマトンを表し、これは、次の状態s∈S∪{s0}は、直前の状態S'∈S∪{s0}のみで定まり、固定の確率Pr(s|s’)で遷移することを表している。
初期障害発生モデルM0で扱うイベントの集合Σは基本モデル定義20で定義したΣと同一である。また、初期障害発生モデルM0で扱う原因の集合S∪{s0}は基本モデル定義20で定義したSに、正常状態s0を加えた集合である。{Pr(sj|si)}si ,sj∈S は原因間の遷移確率を示しており、この遷移確率は等確率とする。具体的には、|S|を原因の集合Sの個数として、{Pr(sj|si)}si ,sj∈S = 1/(|S|+1)とする。この確率を等確率にせずに、自身へ遷移する確率{Pr(sj|si)}si ,sj∈Sのみを大きくするなどして、定常状態になる確率を高く設定してもよい。{P0 si}si∈S は、P0 0=1、P0 i=0 (i≠0)とする。これは、初期障害発生モデルM0が正常状態s0から開始することを意味する。
{Pr(ej|si)}si ∈S,ej∈Σ は、
Pr(e|s) = k × p (f(e) = sのとき)
Pr(e|s) = p (f(e) ≠ sのとき)
と定義する。ただし、kは1以上の定数である。
また、全てのs∈S∪{s0}について、Σ(e|f(e) = s) k×p+Σ(e|f(e) ≠ s) p≦1である。
上述した定義は、基本モデル定義20で定義されたf(e) = s、すなわち、イベントeの発生原因sについては、sからeが発生する確率を、f(e) ≠ sの場合確率pのk倍に設定することを示している。関数fが部分関数で、f(e) が定義されていないeの場合には、上記定義に従って、f(e|s)には、確率pを与える。
管理者は、オンライン又はオフラインで、学習用イベント列100を障害予測装置10に与える(ステップA3)。管理者は、例えば監視対象装置80を試運転した際にイベントモニタ90がモニタしたイベント列を、オフラインで、学習用イベント列100として与える。または、監視対象装置80の運用中にイベントモニタ90がモニタしたイベント列のうちで、障害原因解析が既に行われたイベント列を、オンラインで、学習用イベント列100として与える。
図5は、イベント列の分割の様子を示している。イベント列パーサ130は、イベントの発生間隔が所定のしきい値Tよりも大きいと、イベント列を分割する。具体的には、例えば、イベント列[e(0), ・・・, e(n)]があるとき、イベントe(i)の発生時刻と、e(i+1)の発生時刻との間の時間がしきい値Tよりも長いと、イベント列[e(0), ・・・, e(n)]をイベントリージョンR0: (e(0), ・・・, e(i))と、イベントリージョンR1: (e(i+1), ・・・, e(n))とに分割する。このことは、イベントリージョン内では、イベント発生間隔がしきい値T以下であり、イベントリージョン間のイベント発生間隔はしきい値Tよりも大きいことを意味している。
なお、ここでのイベントe(i)は、イベントタイプ(イベントの種別)ではなくイベントそのものである。
ただし、最適な値を求めるのではなく、初期モデルM0に対して、そこから局所解を求める最尤法である。
なお、Baum−Welchアルゴリズムは、例えば「“Statistical Methods for Speech Recognition (Language, Speech, and Communication)” (Frederick Jelinek著) 9.3節」にも記載されるように、よく知られたアルゴリズムであるので、その詳細な説明は省略する。
次に、このようにして得た障害発生モデルM'を使用して、障害の根源的な原因を推定する。
図6に、障害原因を推定する際の障害予測装置10の動作手順を示す。
管理者は、オンラインで、イベントモニタ90が監視対象装置80で観察したイベント列を、障害予測用イベント列110として障害予測装置10に与える(ステップB1)。イベント列パーサ130は、与えられた障害予測用イベント列110を、複数のイベントリージョン(図5)に分割し、イベント列DB140を介して、Viterbi計算部60に受け渡す。
ここで、原因順序列中のs(i)は、原因の種類を示すのではなく、原因の状態遷移列を時間順に示したものであり、括弧内の数字は時間順に割り当てたものである。
{Pr(sj|si)}si ,sj∈S
は、iがnに近づくにつれて未来の装置障害を予測するため、予測精度が低くなる可能性が高い。このため、Viterbi計算部60においては、入力された障害予測用イベント110の各要素について重み係数を乗算する(ステップB3)。
これにより、直近の確率を重視し、未来である要素nに近づくにつれてイベント発生確率の影響を軽減することができる。
例えば、根源的な原因がSiであった場合には、障害予測用イベント列110[e(0), e(1), ・・・, e(n)]のうちで、基本モデル定義20で障害原因Siに対応付けられているイベント e(j) (0≦j≦n)を障害原因Siに対応付けて障害予測結果DB150に格納する。
また、フィルタリングモジュール70は、同一装置、同一イベントの障害は連続して発生しないと定義しておけば、Viterbi計算部60は、最も尤もらしい状態遷移列を求める際に、同一障害が連続して発生する場合に関する状態遷移については除外することができる(すなわち、状態間の遷移を表すトレリス線図におけるパスの数を減らすことができる)。したがって、この条件の下では、一部の状態遷移列については、Viterbi計算、すなわち障害予測用イベント列が観察される確率の計算をする必要がなくなるので、Viterbi計算部60における計算量を削減することができる。
基本モデル定義20としては、図4に示したものを考える。初期モデル生成部40が生成する初期障害発生モデルM0で扱うイベント(装置障害)の集合Σは
Σ = {3, 4, 16, 17, 18, 19, 20}
であり、各要素を下記のように置く。
S∪{s0} = {s0, “Print”, “Windows Update Agent”, “W32Time”, “Application Popup”, “i8042prt”, “Windows Installer”, “DHCP”, “Browser”, “Tcpip”}
であり、各要素を下記のように置く。
{Pr(sj|si)}si ,sj∈S = 1/10
である。初期確率はP0 0 = 1、P0 si = 0 (i ≠ 0)である。
図4では、イベントの種類が7種類あるとする。この場合、イベント発生確率は下記のとおりである。
Pr(e|s) = 1/8 (f(e) ≠ sのとき)
Baum−Welch計算部50は、R1、R2を含む多くのイベントリージョンを与えられることで、初期障害発生モデルM0から、遷移確率Pr(sj|si)とイベント発生確率Pr(e|s)とに関して、与えられたイベントリージョンを最も発生する確率を学習し、障害発生モデルM’を得る。
mi(ただし、0<m<1, 0≦i<n)
とすることができる。
監視対象装置で発生し得るイベントと、当該イベントを引き起こす障害原因を定義した基本モデル定義を読み出した基本モデル定義に基づいて、イベントとその障害原因との対応関係及び障害原因間の遷移を有限オートマトンでモデル化した初期障害発生モデルを生成し、モデル格納DBに記憶する初期モデル生成手段と、前記初期障害発生モデルと、イベント列DBに記憶された学習用イベント列とに基づいて、原因に対応する有限オートマトンの状態がどの確率で推移したかを学習し、この学習結果を反映させた障害発生モデルをモデル格納DBに記憶する障害発生モデル学習手段と、イベント列DBから障害予測用イベント列を読み出し、前記学習後の障害発生モデルで、前記読み出した障害予測用イベント列が観察される確率が最も高いと考えられる状態遷移列を求め、障害予測結果DBに記憶する状態遷移列計算手段と、前記状態遷移列計算手段が求めた状態遷移列と、前記学習後の障害発生モデルとに基づいて、監視対象装置で発生した障害の原因を予測するフィルタリングモジュールにより、将来発生する障害予測を備えることを特徴とする障害予測システム。
前記障害発生モデル学習手段がBaum-Welchアルゴリズムにより、前記原因間の状態遷移確率と、各原因でのイベント発生確率とを学習する、付記1に記載の障害予測システム。
前記状態遷移列計算手段が、Viterbiアルゴリズムにより前記状態遷移列を求めるViterbi計算手段を備える、付記1に記載の障害予測システム。
前記初期障害発生モデルが前記発生し得るイベントの集合Σと、前記障害原因の集合Sに正常状態S0を加えた状態の集合と、各状態について、当該状態から各状態に遷移する確率を示す条件付確率{Pr(sj|si )}si ,sj∈Sと、各状態について、開始時に当該状態にいる初期確率{P0 si}si∈Sと、各状態について当該状態で前記イベントが発生する確率を示す{Pr(ej|si)}si ∈S,ej∈Σとを含む付記1に記載の障害予測システム。
前記フィルタリングモジュールは、前記状態遷移列計算手段が求めた状態遷移列を[s(0), s(1), ・・・、s(n)]とするとき、状態s(i) (ただし、0≦i<n)から次状態s(i+1)への前記条件付確率Pr(s(i+1)|s(i))が、所定の確率よりも低いと、前期状態遷移列を[s(0), s(1), ・・・, s(i)]と[s(i+1),・・・, s(n)]とに分割する付記4に記載の障害原因推定システム。
前記フィルタリングモジュールは、前記分割された状態遷移列s(i+1)以降の障害を予測する付記5に記載の障害原因推定システム。
前記学習用イベント列が前記監視対象装置を運用前に試運転した際にモニタされたイベントのイベント列である付記1に記載の障害予測システム。
前記学習用イベント列が前記監視対象装置の運用時にモニタされたイベント列であって、障害の発生原因や障害発生パターンが解析済みのイベント列である付記1に記載の障害予測システム。
前記障害予測用イベント列が前記監視対象装置の運用時にモニタされたイベント列である付記1に記載の障害予測システム。
前記学習用イベント列及び前記障害予測用イベント列のそれぞれにおいて、隣接するイベント発生の時間間隔が所定の値以下である付記1に記載の障害予測システム。
前記フィルタリングモジュールは、前記状態遷移列計算手段が求めた状態遷移列を障害予測結果DBに記憶させると共に、前記障害予測用イベント列の内、前記状態遷移列に含まれる各状態を発生原因とするイベントを各状態に対応付けて記憶する付記1に記載の障害予測システム。
前記Viterbi計算手段は、障害予測の障害発生モデルM’に含まれるイベント発生確率{Pr(ej|si)}si ∈S,ej∈Σに重み係数を乗算することができる付記3に記載の障害予測システム。
前記フィルタリングモジュールは、Viterbi計算手段が求めた障害予測の順序列[s(0), s(1), ・・・、s(n)]の値に適用する重み係数を乗算値について、要素nの場合に重み係数をn乗することで、要素nに近づくにつれて要素の信頼度を下げることができる付記12に記載の障害予測システム。
同一装置、同一イベントの障害は連続して発生しないと定義し、この条件においては前記Viterbi計算手段は、前記状態遷移列の計算において、同一イベントの障害が連続して発生する場合に関する障害予測用イベント列が観察される確率を計算しないことにより、計算量削減を行うことができる付記13に記載の障害予測システム。
同一装置、同一イベントの障害は連続して発生しないと定義していても、データベースに蓄積されたデータに連続して発生している事例がある場合には、上記の定義を無効とすることができる付記14に記載の障害予測システム。
イベント列DB及び障害予測結果DBには、装置障害が起きた時刻及びその前後の時刻に障害が発生した装置の時刻との間隔を保持することができる付記1に記載の障害予測システム。
さらに予測結果を表示する表示部を備え、
前記表示部は、イベント列DBに保存した複数の装置障害が起きた時刻の差分を算出することで、装置障害が起きる予測時刻を表示することができる付記17に記載の障害予測システム。
前記表示部は、イベント列DBに同一の装置故障の状況を複数保持している場合、装置障害が起きる予測時刻に関する時間の平均や分散または分布図などを表示することができる付記18に記載の障害予測システム。
前記表示部は、フィルタリングモジュールが求めた障害予測から障害する可能性がある順序列について、表示部により表示することができる付記18または19に記載の障害予測システム。
前記表示部は、フィルタリングモジュールが求めた障害予測から障害する可能性が高い順序列について、ソートや表示する数を制限してGUI等により表示することができる付記18−20のいずれか1つに記載の障害予測システム。
前記表示部は、木構造やトレリス線図等により図示することができ、値が更新される度にリアルタイムで表示できる付記18−21のいずれか1つに記載の障害予測システム。
前記表示部は、木構造やトレリス線図等により図示される矢印において、ある障害から次の障害までの矢印が発生した時間の差分により、矢印の長さが変わることができるし、矢印あるいはその周りに時間の差分を表示することもできる付記18−22のいずれか1つに記載の障害予測システム。
付記18または19に表示される値を基にソートすることができ、
前記表示部は、Viterbi計算手段が求めた障害予測の順序列[s(0), s(1), ・・・、s(n)]の各値に関わらず優先的に表示することもできる付記18または19に記載の障害予測システム。
コンピュータに、監視対象装置で発生し得るイベントとそのイベントを引き起こすイベント発生原因を定義した基本モデル定義に基づいて、イベントとそのイベント発生原因との対応関係およびイベント発生原因間の遷移を、イベント発生原因を状態とする有限オートマトンでモデル化した初期イベント発生モデルを生成させ、モデル格納データベースに記憶させる初期モデル生成ステップと、
コンピュータに、前記監視対象装置で発生し得る複数のイベントからなるイベント列を記憶したイベント列データベースから読みだされた第1のイベント列と前記初期イベント発生モデルとに基づいて、イベント発生原因ごとに各イベントが発生する確率およびイベント発生原因間の遷移の確率を算出させ、その算出結果を前記初期イベント発生モデルに反映させたイベント発生モデルを前記モデル格納データベースに記憶させるイベント発生モデル学習ステップと、
コンピュータに、前記イベント発生モデルに基づいて、前記イベント列データベースから読みだされた第2のイベント列が観察される確率が最も高いと考えられる状態遷移列を求めさせ、その状態遷移列を原因推定結果データベースに記憶させる状態遷移列計算ステップと、
コンピュータに、前記イベント発生モデルと前記状態遷移列計算手段によって求められた状態遷移列とに基づいて、前記監視対象装置で将来発生し得るイベントを予測させるフィルタリングステップと
を備えることを特徴とするイベント予測方法。
前記イベント発生モデルを学習するステップは、前記コンピュータは、Baum-Welchアルゴリズムにより、前記原因間の状態遷移確率と各原因でのイベント発生確率とを学習する付記25に記載の方法。
前記状態遷移列を計算するステップでは、前記コンピュータは、Viterbiアルゴリズムにより、前記状態遷移列を求める付記25または26に記載の方法。
前記初期障害発生モデルが、前記発生し得るイベントの集合Σと前記障害原因の集合Sに正常状態s0を加えた状態の集合と、各状態について当該状態から各状態に遷移する確率を示す条件付確率{Pr(sj|si)}si ,sj∈S
と、各状態について開始時に当該状態にいる初期確率{P0 si}si∈Sと、各状態について当該状態で前記イベントが発生する確率を示す{Pr(ej|si)}si ∈S,ej∈Σとを含む付記25−27のいずれか1つに記載の方法。
前記フィルタリングステップは、前記コンピュータが、前記状態遷移列を計算するステップで求めた状態遷移列を[s(0), s(1), ・・・, s(n)]とするとき、状態s(i) (ただし、0≦i<n)から次状態s(i+1)への前記条件付確率Pr(s(i+1)|s(i))が、所定の確率よりも低いと、前期状態遷移列を、[s(0), s(1), ・・・, s(i)]と[s(i+1), s(i+2), ・・・, s(n)]とに分割するステップと、前記コンピュータが前記分割された各状態遷移列の先頭の状態を障害の根源的原因と推定するステップとを含む付記25−28のいずれか1つに記載の方法。
前記コンピュータが前記状態遷移列を計算するステップで求めた状態遷移列を障害予測データベースに記憶すると共に、前記障害予測用イベント列のうちで、前記状態遷移列に含まれる各状態を発生原因とするイベントを各状態に対応付けて記憶するステップを更に有する付記25−29のいずれか1つに記載の方法。
コンピュータに、監視対象装置で発生し得るイベントと、当該イベントを引き起こす障害原因を定義した基本モデル定義を読み出した基本モデル定義に基づいて、イベントとその発生原因との対応関係及び発生原因間の遷移を有限オートマトンでモデル化した初期障害発生モデルを生成し、モデル格納DBに記憶する初期モデル生成手段と、前記初期障害発生モデルと、イベント列DBに記憶された学習用イベント列とに基づいて、原因に対応する有限オートマトンの状態がどの確率で推移したかを学習し、該学習の結果を反映させた障害発生モデルをモデル格納DBに記憶する障害発生モデル学習手段と、イベント列DBから障害予測用イベント列を読み出し、前記学習後の障害発生モデルで、前記読み出した障害予測用イベント列が観察される確率が最も高いと考えられる状態遷移列を求め、障害予測結果DBに記憶する状態遷移列計算手段と、前記状態遷移列計算手段が求めた状態遷移列と、前記学習後の障害発生モデルとに基づいて、監視対象装置で発生した障害の原因を予測するフィルタリングモジュールにより、将来発生する障害予測を実行させる方法及びプログラム。
Claims (10)
- 監視対象装置で発生し得るイベントとそのイベントを引き起こすイベント発生原因を定義した基本モデル定義に基づいて、イベントとそのイベント発生原因との対応関係およびイベント発生原因間の遷移を、イベント発生原因を状態とする有限オートマトンでモデル化した初期イベント発生モデルを生成してモデル格納データベースに記憶させる初期モデル生成手段と、
前記監視対象装置で発生し得る複数のイベントからなるイベント列を記憶したイベント列データベースから読みだされた第1のイベント列と前記初期イベント発生モデルとに基づいて、イベント発生原因ごとに各イベントが発生する確率およびイベント発生原因間の遷移の確率を算出し、その算出結果を前記初期イベント発生モデルに反映させたイベント発生モデルを前記モデル格納データベースに記憶させるイベント発生モデル学習手段と、 前記イベント発生モデルに基づいて、前記イベント列データベースから読みだされた第2のイベント列が観察される確率が最も高いと考えられる状態遷移列を求め、その状態遷移列を原因推定結果データベースに記憶させる状態遷移列計算手段と、
前記イベント発生モデルと前記状態遷移列計算手段によって求められた状態遷移列とに基づいて、前記監視対象装置で将来発生し得るイベントを予測するフィルタリングモジュールと
を備えることを特徴とするイベント予測システム。 - 請求項1に記載のイベント予測システムにおいて、
前記フィルタリングモジュールは、
前記イベント発生モデルと前記状態遷移列計算手段によって求められた状態遷移列に、その状態遷移列に含まれる各イベント発生原因を発生原因とするイベントを対応付けることによって将来発生し得るイベントを予測することを特徴とするイベント予測システム。 - 請求項1または2に記載のイベント予測システムにおいて、
前記初期イベント発生モデルが前記発生し得るイベントの集合をΣ、前記イベント原因の集合をS、各イベント要因si∈S (ただし、0≦i<n; nは自然数) についてそのイベント原因Siによってイベントej ∈Σ(ただし、0≦j<m; mは自然数) が発生する確率を{Pr(ej|si)}si ∈S,ej∈Σと表したとき、前記フィルタリングモジュールは、イベント予測のイベント発生モデルに含まれるイベント発生確率{Pr(ej|si)}si ∈S,ej∈Σに重み係数を乗算することを特徴とするイベント予測システム。 - 請求項3に記載のイベント予測システムにおいて、
前記状態遷移列計算手段によって求められた状態遷移列を[s(0),s(1),・・・,s(n)](ただし、 nは自然数) とするとき、前記フィルタリングモジュールは、前記イベント発生確率{Pr(ej|si)}si ∈S,ej∈Σに乗算する重み係数を、1未満の定数をi乗した値とすることを特徴とするイベント予測システム。 - 請求項3または4に記載のイベント予測システムにおいて、
前記状態遷移列計算手段は、同一装置において同一のイベントは連続して発生しないとして前記状態遷移列を定義することを特徴とするイベント予測システム。 - 請求項5に記載のイベント予測システムにおいて、
前記状態遷移列計算手段は、前記イベント列データベースに蓄積されたデータの中に同一のイベントが連続して発生している事例がある場合には、同一装置において同一のイベントは連続して発生しないとする定義を無効とすることを特徴とするイベント予測システム。 - コンピュータに、監視対象装置で発生し得るイベントとそのイベントを引き起こすイベント発生原因を定義した基本モデル定義に基づいて、イベントとそのイベント発生原因との対応関係およびイベント発生原因間の遷移を、イベント発生原因を状態とする有限オートマトンでモデル化した初期イベント発生モデルを生成させ、モデル格納データベースに記憶させる初期モデル生成ステップと、
コンピュータに、前記監視対象装置で発生し得る複数のイベントからなるイベント列を記憶したイベント列データベースから読みだされた第1のイベント列と前記初期イベント発生モデルとに基づいて、イベント発生原因ごとに各イベントが発生する確率およびイベント発生原因間の遷移の確率を算出させ、その算出結果を前記初期イベント発生モデルに反映させたイベント発生モデルを前記モデル格納データベースに記憶させるイベント発生モデル学習ステップと、
コンピュータに、前記イベント発生モデルに基づいて、前記イベント列データベースから読みだされた第2のイベント列が観察される確率が最も高いと考えられる状態遷移列を求めさせ、その状態遷移列を原因推定結果データベースに記憶させる状態遷移列計算ステップと、
コンピュータに、前記イベント発生モデルと前記状態遷移列計算手段によって求められた状態遷移列とに基づいて、前記監視対象装置で将来発生し得るイベントを予測させるフィルタリングステップと
を備えることを特徴とするイベント予測方法。 - 請求項7に記載のイベント予測方法において、
前記初期イベント発生モデルが前記発生し得るイベントの集合をΣ、前記イベント原因の集合をS、各イベント要因si∈S (ただし、0≦i<n; nは自然数) についてそのイベント原因Siによってイベントej ∈Σ(ただし、0≦j<m; mは自然数) が発生する確率を{Pr(ej|si)}si ∈S,ej∈Σと表したとき、前記フィルタリングステップは、コンピュータに、イベント予測のイベント発生モデルに含まれるイベント発生確率{Pr(ej|si)}si ∈S,ej∈Σに重み係数を乗算させることを特徴とするイベント予測システム。 - 請求項8に記載のイベント予測方法において、
前記状態遷移列計算ステップにおいて求められた状態遷移列を[s(0),s(1),・・・,s(n)] (ただし、 nは自然数) とするとき、前記フィルタリングステップは、前記イベント発生確率{Pr(ej|si)}si ∈S,ej∈Σに乗算する重み係数を、1未満の定数をi乗した値とすることを特徴とするイベント予測方法。 - 請求項7乃至9のいずれか1項に記載のイベント予測方法をコンピュータに実行させることを特徴とするコンピュータ・プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010039746A JP5413240B2 (ja) | 2010-02-25 | 2010-02-25 | イベント予測システムおよびイベント予測方法、ならびにコンピュータ・プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010039746A JP5413240B2 (ja) | 2010-02-25 | 2010-02-25 | イベント予測システムおよびイベント予測方法、ならびにコンピュータ・プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011175504A true JP2011175504A (ja) | 2011-09-08 |
JP5413240B2 JP5413240B2 (ja) | 2014-02-12 |
Family
ID=44688295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010039746A Expired - Fee Related JP5413240B2 (ja) | 2010-02-25 | 2010-02-25 | イベント予測システムおよびイベント予測方法、ならびにコンピュータ・プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5413240B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013168495A1 (ja) * | 2012-05-10 | 2013-11-14 | 日本電気株式会社 | 階層型確率モデル生成システム、階層型確率モデル生成方法、およびプログラム |
JP2016173782A (ja) * | 2015-03-18 | 2016-09-29 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 故障予測システム、故障予測方法、故障予測装置、学習装置、故障予測プログラム及び学習プログラム |
CN108470222A (zh) * | 2018-02-08 | 2018-08-31 | 卢新明 | 一种用于典型事件预测预报的多征兆增信方法 |
WO2018163890A1 (ja) * | 2017-03-08 | 2018-09-13 | オムロン株式会社 | 要因推定装置、要因推定システム、および要因推定方法 |
WO2019221461A1 (ko) * | 2018-05-18 | 2019-11-21 | 주식회사 케이티 | 네트워크 장애 원인 분석 장치 및 방법 |
JP2020057193A (ja) * | 2018-10-02 | 2020-04-09 | ソフトバンク株式会社 | デバイス診断サーバ及びプログラム |
CN111797289A (zh) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | 模型处理方法、装置、存储介质和电子设备 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102511522B1 (ko) * | 2017-10-18 | 2023-03-17 | 삼성전자주식회사 | 데이터 학습 서버, 이의 학습 모델 생성 및 이용 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07261825A (ja) * | 1994-03-25 | 1995-10-13 | Mitsubishi Heavy Ind Ltd | プラント運転支援装置 |
JP2008015596A (ja) * | 2006-07-03 | 2008-01-24 | Nec Fielding Ltd | 管理サーバ及び修復プログラム送信方法 |
-
2010
- 2010-02-25 JP JP2010039746A patent/JP5413240B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07261825A (ja) * | 1994-03-25 | 1995-10-13 | Mitsubishi Heavy Ind Ltd | プラント運転支援装置 |
JP2008015596A (ja) * | 2006-07-03 | 2008-01-24 | Nec Fielding Ltd | 管理サーバ及び修復プログラム送信方法 |
Non-Patent Citations (1)
Title |
---|
登内敏夫 外1名: "潜在的な派生関係を有する障害に対する故障分析手法", 電子情報通信学会論文誌, vol. 第J92-B巻,第8号, JPN6013038834, 1 August 2009 (2009-08-01), JP, pages 1236 - 1244, ISSN: 0002646679 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013168495A1 (ja) * | 2012-05-10 | 2013-11-14 | 日本電気株式会社 | 階層型確率モデル生成システム、階層型確率モデル生成方法、およびプログラム |
JPWO2013168495A1 (ja) * | 2012-05-10 | 2016-01-07 | 日本電気株式会社 | 階層型確率モデル生成システム、階層型確率モデル生成方法、およびプログラム |
US10163060B2 (en) | 2012-05-10 | 2018-12-25 | Nec Corporation | Hierarchical probability model generation system, hierarchical probability model generation method, and program |
JP2016173782A (ja) * | 2015-03-18 | 2016-09-29 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 故障予測システム、故障予測方法、故障予測装置、学習装置、故障予測プログラム及び学習プログラム |
WO2018163890A1 (ja) * | 2017-03-08 | 2018-09-13 | オムロン株式会社 | 要因推定装置、要因推定システム、および要因推定方法 |
JP2018147407A (ja) * | 2017-03-08 | 2018-09-20 | オムロン株式会社 | 要因推定装置、要因推定システム、および要因推定方法 |
CN108470222A (zh) * | 2018-02-08 | 2018-08-31 | 卢新明 | 一种用于典型事件预测预报的多征兆增信方法 |
CN108470222B (zh) * | 2018-02-08 | 2022-11-11 | 山东蓝光软件有限公司 | 一种用于典型事件预测预报的多征兆增信方法 |
WO2019221461A1 (ko) * | 2018-05-18 | 2019-11-21 | 주식회사 케이티 | 네트워크 장애 원인 분석 장치 및 방법 |
JP2020057193A (ja) * | 2018-10-02 | 2020-04-09 | ソフトバンク株式会社 | デバイス診断サーバ及びプログラム |
CN111797289A (zh) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | 模型处理方法、装置、存储介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
JP5413240B2 (ja) | 2014-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5413240B2 (ja) | イベント予測システムおよびイベント予測方法、ならびにコンピュータ・プログラム | |
US20190392098A1 (en) | Learning Expected Operational Behavior Of Machines From Generic Definitions And Past Behavior | |
JP6313730B2 (ja) | 異常検出システムおよび方法 | |
JP6609050B2 (ja) | 時間的因果グラフにおける異常フュージョン | |
US11796992B2 (en) | Condition-based method for malfunction prediction | |
JP4862446B2 (ja) | 障害原因推定システム、方法、及び、プログラム | |
JP5214656B2 (ja) | 評価装置および評価プログラム | |
JP7036697B2 (ja) | 監視システム及び監視方法 | |
JP2009098147A (ja) | Dcモータシステムの信頼性を判定する方法及びシステム | |
JP2018180759A (ja) | システム分析装置、及びシステム分析方法 | |
JP2020052714A5 (ja) | ||
JP6280862B2 (ja) | イベント分析システムおよび方法 | |
CN113837427B (zh) | 用于对资产执行预测性健康分析的方法和计算系统 | |
CN117114454B (zh) | 一种基于Apriori算法的直流套管状态评估方法及系统 | |
US11334057B2 (en) | Anomaly detection for predictive maintenance and deriving outcomes and workflows based on data quality | |
US20230133541A1 (en) | Alert correlating using sequence model with topology reinforcement systems and methods | |
Ahmadi | A new approach to maintenance optimisation of repairable parallel systems subject to hidden failures | |
Ding et al. | Online prediction and improvement of reliability for service oriented systems | |
US20180121794A1 (en) | Method and system for machine failure prediction | |
EP4134872A1 (en) | Method for automatically detecting anomalies in log files | |
JP7505206B2 (ja) | 障害発生予測装置及び学習装置 | |
US11782812B2 (en) | Causal attention-based multi-stream RNN for computer system metric prediction and influential events identification based on metric and event logs | |
US20230152759A1 (en) | Information processing apparatus, information processing method, and computer program product | |
WO2024132540A1 (en) | Medical device fault prediction | |
JP2022551687A (ja) | 非定常システムのモデル管理 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130813 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130917 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131015 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131028 |
|
LAPS | Cancellation because of no payment of annual fees |