JP5489085B2 - 障害原因推定システム、障害原因推定方法、及び障害原因推定プログラム - Google Patents
障害原因推定システム、障害原因推定方法、及び障害原因推定プログラム Download PDFInfo
- Publication number
- JP5489085B2 JP5489085B2 JP2011513391A JP2011513391A JP5489085B2 JP 5489085 B2 JP5489085 B2 JP 5489085B2 JP 2011513391 A JP2011513391 A JP 2011513391A JP 2011513391 A JP2011513391 A JP 2011513391A JP 5489085 B2 JP5489085 B2 JP 5489085B2
- Authority
- JP
- Japan
- Prior art keywords
- failure
- event
- probability
- transition probability
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B23/00—Testing or monitoring of control systems or parts thereof
- G05B23/02—Electric testing or monitoring
- G05B23/0205—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
- G05B23/0259—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterized by the response to fault detection
- G05B23/0275—Fault isolation and identification, e.g. classify fault; estimate cause or root of failure
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3476—Data logging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Automation & Control Theory (AREA)
- Debugging And Monitoring (AREA)
Description
上記の各障害原因推定システムには、以下のような問題点がある。
第1の問題点は、障害の推移関係が不明な障害には対応が困難ということである。その理由は、特許文献1では、前提条件とその場合の許容値とを記述する必要があるためである。しかし、障害の推移の中では、その関係が予め分からないことが多い。そのような場合、規則の記述が難しい。たとえば、アプリケーションを構成するソフトウェアモジュール間の関係を、システム管理者が把握することは一般に困難である。そのため、ある障害イベントがあるソフトウェアモジュールから発生した障害に、そのソフトウェアモジュールでの障害が推移した場合、その発見が困難である。たとえば、あるモジュールが、例外的な入力をもとに、ワーニングを出力しつつ、データを出力する場合を考える。このデータの値範囲は、当初想定の入力とは異なるため、例外的な値を持つとする。データベース書き込みモジュールがそのデータをデータベースに書き込む際、値範囲が異なるため、データベース書き込みエラーが発生することがある。このような派生関係では、データベース書き込みエラーと、データを作成したモジュールでのワーニングとが関係があり、後者が根本原因になっていることを事前に規則化することは困難である。
第1のステップは、インスタンス定義データベースから、管理対象の複数の装置と複数の装置の種別との対応関係を定義したインスタンス定義を読み出すステップである。第2のステップは、障害発生箇所種別定義データベースから、複数の装置で発生し得る複数の障害と複数の装置の種別との対応関係を定義した障害発生箇所種別定義を読み出すステップである。第3のステップは、イベント列データベースから、監視中の複数の装置において発生した複数のイベントが発生時刻順に並んだ障害原因推定用イベント列を読み出すステップである。第4のステップは、第1記憶部から、複数の装置の種別と複数の装置の種別での障害との組み合わせに関する障害推移確率を示す障害派生モデルを読み出すステップである。第5のステップは、第2記憶部から、複数の装置での障害と複数の装置の障害から派生するイベントとの組み合わせに関するイベント推移確率を示すイベント派生モデルを読み出すステップである。第6のステップは、第3記憶部から、複数の装置のうちの障害の発生した発生装置に関する発生装置推移確率を示すインスタンス派生モデルを読み出すステップである。第7のステップは、拡張Viterbi計算部が、読み出されたインスタンス定義及び障害発生箇所種別定義と、障害派生モデル、イベント派生モデル及びインスタンス派生モデルと、障害原因推定用イベント列とに基づいて、複数の装置の種別における複数の障害間の第1遷移確率と、複数の装置間の第2遷移確率とを独立に求め、両者を掛け合わせることで、障害原因推定用イベント列に対する障害の遷移列及び遷移確率を示す障害状態推移列及び障害状態遷移確率を推測するステップである。第8のステップは、フィルタリングモジュールが、障害状態遷移列及び障害状態遷移確率に基づいて、管理対象で発生したイベントの根源的な原因となる障害を推定するステップである。
まず、本発明の実施の形態に係る障害原因推定システムの構成について説明する。図1は、本発明の実施の形態に係る障害原因推定システムの構成を示すブロック図である。この障害原因推定システムは、初期モデルパーザ140と、障害定義データベース(DB)150と、障害発生個別種別定義データベース(DB)370、初期モデル生成部160と、初期障害派生モデル格納領域170と、初期イベント派生モデル格納領域180と、拡張Baum−Welch計算部190と、障害派生モデル格納領域200と、イベント派生モデル格納領域210と、構成データベース(DB)読み取り部360と、インスタンス定義データベース(DB)220と、インスタンス派生確率計算部230と、インスタンス派生モデル格納領域250と、イベント列パーザ300と、イベント列データベース(DB)310と、拡張Viterbi計算部320と、原因推定結果データベース(DB)330と、フィルタリングモジュール335とを具備する。
ここで、インスタンス派生モデルAM→Mは、イベントの発生装置に関する推移関係を示す。すなわち、ある時刻にある装置でイベントが発生した状態から、次の時刻で他の装置で何らかのイベントが発生する状態へ遷移する確率(状態遷移確率)を示す、イベント発生装置の推移を示すモデルを示している。ただし、上記説明において、他の装置は、同じ装置であってもよい。
また、フィルタリングモジュール335は、原因推定結果DB330格納の障害から発生したイベントe(t)のうちで確率的に低いイベント発生確率(出力確率)、例えば、ある閾値P1より低いイベント発生確率のものは誤差として、そのイベントを削除する。
そして、分割された複数の障害の派生列の中から、確率vs(t),m(t)(t)の総和の高い障害sの列を尤もらしい派生列として抽出して、その派生列の開始状態を根源的な原因(障害原因)と推定する。また、削除されずに残されたイベントをその障害原因から派生したイベントとみなす。そして、これら分析の結果を、更に結果表示部340に表示する。表示内容の具体例は、後述される(図31)。
次に、本発明の実施の形態に係る拡張Viterbi計算部の構成について説明する。図2は、本発明の実施の形態に係る拡張Viterbi計算部の構成を示すブロック図である。この拡張Viterbi計算部320は、読み出し部505と、イベント作業領域510と、セレクタ540と、遷移確率計算部530と、発生元確率乗算部570と、時刻加算部580と、時刻カウンタ590と、セレクタ600とを備える。
種別c(t)の装置m(t)において時刻tで障害sが発生したとき、種別c(t+1)の装置m(t+1)において時刻(t+1)で障害uへ派生する確率P(u|s)を計算する。ただし、障害uは、u∈{s∈S|hS→C(s)=c(t+1)}である。すなわち、障害uは、装置m(t+1)の種別c(t+1)に対応関係hS→C:S→Cで対応付けられた複数の障害s(装置種別c(t+1)の取り得る障害)から選択される。
確率P(u|s)は、以下の式(3)で、上記複数の障害sについて計算される。
P(u|s)=AS→E[ea(t+1),u]・maxs{AS→S[u,s]・vs、m(t)}・・・(3)
ただし、AS→S[u,s]は、障害派生モデルである(|S|行|S|列の行列)。maxs{AS→S[u,s]・vs、m(t)}は、AS→S[u,s]・vs、m(t)の結果(要素数|S|のベクトル)の要素の最大値を求める。AS→E[ea(t+1),u]はイベント派生モデルのea(t+1)行目である(要素数|S|のベクトル)。これにより、α(定数)×AS→E[ea(t+1),u]の形(要素数|S|のベクトル)で、P(u|s)が求まる。
ここでは、ある種別cの装置mの任意の障害sから派生したイベントeが、他の種別c’の他の装置m’の任意の障害s’から派生する可能性のある複数のイベントのうちの任意のイベントe’へ派生する確率P(m(t+1)|m(t))(装置ごとの障害遷移確率)と、障害の種類ごとに派生する上記確率P(u|s)(障害遷移確率)とは独立と仮定している。それにより、監視の対象となるシステム内の装置が増加しても、装置の種別が増加しない限り、計算量が大幅に増加(二乗に比例して増加)することがなくなる。
この場合、vu,m(t+1)(t+1)は、以下の漸化式(4)となる。
vu,m(t+1)(t+1)=P(m(t+1)∩u|m(t)∩s)
=P(m(t+1)|m(t))・P(u|s)
=AM→M[m(t+1),m(t)]・P(u|s)・・・(4)
ただし、AM→M[m(t+1),m(t)]は、インスタンス派生モデルにおける行列要素[m(t+1)、m(t)](定数)である。これにより、β(定数)×P(u|s)の形(要素数|S|のベクトル)で、vu,m(t+1)(t+1)が求まる。
発生元確率乗算部570は、vs,m(t+1)(t+1)、及び、その最大値をとる障害sを、イベント作業領域510におけるセレクタ600が指す領域535(vs,m(t+1))、及び、領域536(s(t))に格納する。
次に、本発明の実施の形態に係る拡張Baum−Welch計算部の構成について説明する。図3は、本発明の実施の形態に係る拡張Baum−Welch計算部の構成を示すブロック図である。この拡張Baum−Welch計算部190は、複製部710と、複製部720と、障害派生モデル作業領域740と、イベント派生モデル作業領域750と、拡張Baum−Welchサブモジュールの集合770と、障害派生モデル作業領域780と、割り算計算部790と、障害派生モデル作業領域800と、差分検査・複製部810と、イベント派生モデル作業領域840と、割り算部850と、イベント派生モデル作業領域860と、拡張前向き計算部820と、拡張後向き計算部830とを備える。
次に、本発明の実施の形態に係る拡張Baum−Welchサブモジュールの集合の構成について説明する。図4は、本発明の実施の形態に係る拡張Baum−Welchサブモジュールの集合の構成を示すブロック図である。この、図7を参照すると、拡張Baum−Welchサブモジュールの集合770の一つの要素である拡張Baum−WelchサブモジュールB[i、j]は、読み出し部900と、イベント作業領域910と、遷移行列掛け算部920と、加算部930と、作業領域935と、平均計算部940と、イベント遷移計算部950と、作業領域955と、平均計算部960とを備える。
AS→S[j,i](t)
=bsj(t+1)・AS→E[ea(t),i]・AS→E[ea(t),i]・fsi(t)・・・(7)
平均計算部940は、格納部935に格納されているイベント列ごとに計算さた複数のAS→S[j,i]をすべて足し合わせ、イベント列の数で割って平均化する。そして、平均化されたAS→S[j,i]を、障害派生モデル作業領域780のうち、AS→S[j,i]に相当する領域に格納する。
平均計算部960は、格納部955に格納されているイベント列ごとに計算されたAS→E[j,i]をすべて足し合わせ、イベント列の数で割って平均化する。そして、平均化されたAS→E[j,i]を、イベント派生モデル作業領域840のうち、AS→E[j,i]に相当する領域に格納する。
次に、本発明の実施の形態に係る拡張前向き計算部の構成について説明する。図5は、本発明の実施の形態に係る拡張前向き計算部の構成を示すブロック図である。この拡張前向き計算部820は、読み出し部1110と、イベント作業領域1120と、セレクタ1030と、遷移確率計算部1040と、掛け算部1060と、時刻加算部1070と、時刻カウンタ1080と、セレクタ1090とを備える。
時刻加算部1070は、掛け算部1060の出力に応答して、時刻カウンタ1080の値をひとつ進めるとともに、時刻カウンタ1080がイベント作業領域1120の時刻の最大値T以上になったら処理を終了する。
次に、本発明の実施の形態に係る拡張後向き計算部の構成について説明する。図6は、本発明の実施の形態に係る拡張後向き計算部の構成を示すブロック図である。この拡張後向き計算部830は、読み出し部1310と、イベント作業領域1320と、セレクタ1230と、遷移確率計算部1240と、掛け算部1260と、時刻減算部1270と、カウンタ1280と、セレクタ1290とを備える。
時刻減算部1270は、掛け算部1260の出力に応答して、カウンタ1280の値をひとつ進めるとともに、カウンタが0以下になったら処理を終了する。
次に、本発明の実施の形態に係るインスタンス派生確率計算部の構成について説明する。図7は、本発明の実施の形態に係るインスタンス派生確率計算部の構成を示すブロック図である。このインスタンス派生確率計算部230は、読み出し部1400イベント列作業領域1405と、イベント発生時刻順抽出部1410と、イベント作業領域1420と、転送部1430と、イベント作業領域1440と、イベントカウント表1450と、計算部1460とを備える。
次に、本発明の実施の形態に係る障害原因推定システムの動作(障害原因推定方法及び障害原因推定プログラム)について図8を参照して説明する。図8は、本発明の実施の形態に係る障害原因推定システムの動作(障害原因推定方法及び障害原因推定プログラム)を示すフローチャートである。
次に、本発明の実施の形態に係る障害原因推定システムの動作のうち障害派生学習に関する動作について、図1及び図9を参照して説明する。図9は、本発明の実施の形態に係る障害原因推定システムの動作のうち障害派生学習に関する動作を示すフローチャートである。
その後、拡張Baum−Welch計算部190が、初期障害派生モデル格納領域170及び初期イベント派生モデル格納領域180からそれぞれ初期障害派生モデルAS→S及び初期イベント派生モデルAS→Eを読み込み、インスタンス定義DB220からインスタンス定義を読み込み、障害発生個別種別定義DBから障害発生個別種別定義を読み込み、イベント列DB310から学習用のイベント列を読み込む。そして、本発明に係る拡張Baum−Welchアルゴリズムを用いて、障害派生モデルAS→S及びイベント派生モデルAS→Eを計算する(ステップB130)。計算方法については後述される。計算された、障害派生モデルAS→S及びイベント派生モデルAS→Eを、それぞれ障害派生モデル格納領域200、イベント派生モデル格納領域210に格納する(ステップB140)。上記処理を実行して動作が終了する。
次に、本発明の実施の形態に係る障害原因推定システムの動作のうちインスタンス派生学習に関する動作について、図1及び図10を参照して説明する。図10は、本発明の実施の形態に係る障害原因推定システムの動作のうちインスタンス派生学習に関する動作を示すフローチャートである。
まず、転送部1430が、イベント作業領域(t−1)1420に格納されているイベントをイベント作業領域(t)1440に移動する(ステップC110)。次に、イベント発生時刻順抽出部1410が、イベント列作業領域1405に格納されているイベントのうち指定時間範囲のイベントを発生時刻順に取り出す。イベント作業領域(t−1)1420に格納する(ステップC120)。
そのとき、イベント発生時刻順抽出部1410が、イベント列作業領域1405にまだイベント列があるかチェックする(ステップC130)。
イベント列作業領域1405にまだイベントがある場合(ステップC130:Yes)、以下の処理を行う。
まず、イベント加算部1445が、イベント作業領域(t)1440とイベント作業領域(t−1)1420のそれぞれの発生箇所(Mt、Mt−1)を取得、イベントカウント表1450の該当エントリのカウンタを増やす。また、その際、イベントカウント表1450の合計欄を必要に応じて計算する(ステップC140)。
イベント列作業領域1405にもうイベントがない場合(ステップC130:No)、新たなイベント列を得るために、ステップC110に戻る。
計算部1460が、イベントカウント表1450のエントリ(Mi、Mj)で示されている発生回数を合計欄Mjで示す合計値で割った値をMiでイベントが発生した状況でのMjが発生する発生確率とし、インスタンス派生モデル格納領域250のインスタンス派生モデルの(Mi、Mj)の欄に格納する(ステップC150)。上記処理を実行して動作が終了する。
次に、本発明の実施の形態に係る障害原因推定システムの動作のうちイベント読み込みに関する動作について、図1及び図11を参照して説明する。図11は、本発明の実施の形態に係る障害原因推定システムの動作のうちイベント読み込みに関する動作を示すフローチャートである。
次に、本発明の実施の形態に係る障害原因推定システムの動作のうち障害派生分析に関する動作について、図1及び図12を参照して説明する。図12は、本発明の実施の形態に係る障害原因推定システムの動作のうち障害派生分析に関する動作を示すフローチャートである。
つぎに、フィルタリングモジュール335は、原因推定結果DB330に格納された分析結果を、結果表示340に表示する。また、所定の条件(例示:所定の確率よりも低い状態遷移の箇所で分割)で派生列(s(t),(t=0,…,T))を分割する。そして、分割された複数の障害の派生列の中から、確率vs(t),m(t)(t)の総和の高い障害sの列を尤もらしい派生列として抽出して、その派生列の開始状態を根源的な原因(障害原因)と推定する。そして、これら分析の結果を、更に結果表示部340に表示する(ステップE120)。これら計算方法については後述される。上記処理を実行して動作が終了する。
次に、本発明の実施の形態に係る障害原因推定システムの動作のうち拡張Viterbi計算部に関する動作について図2及び図13を参照して説明する。図13は、本発明の実施の形態に係る障害原因推定システムの動作のうち拡張Viterbi計算部に関する動作を示すフローチャートである。
つぎに、読み出し部505は、インスタンス定義220を参照しつつ、イベント列DB310の指定された発生時間範囲のイベントの集合を、イベント作業領域510のイベント(ea)、発生箇所(M)、そして、発生箇所の装置種別(C)に、時間tごとに格納する(ステップF120)。
つぎに、セレクタ540は、イベント作業領域510のうち、時刻カウンタ590の値tで指定されたイベント領域を選択し、遷移確率計算部530へ出力する(ステップF130)。具体的には、時刻tに基づいて、vs、m(t)、ea(t+1)、m(t)、m(t+1)、c(t)、c(t+1)の値を出力する。図2の例では、時刻t=2で指定された領域520及び領域525、すなわち、ea(3)=e5、m(2)=m2、m(3)=m3、c(2)=c3、c(3)=c5、vs、m(2)=v|S|−2,m(2)=0.4、及びv|S|−1,m(2)=0.8の値を出力する。ただし、vs、m(2)は、ea(2)=e3の発生装置m(2)=m2の種別c(2)=c3により、v0,m(2)〜v|S|−1,m(2)の中から、可能性のあるvs、m(2)としてv|S|−2,m(2)及びv|S|−1,m(2)を抽出して、出力している。他のvs、m(2)は“0”とする。それにより、v0,m(t)〜V|S|−1,m(t)の全ての数値を抽出して、後述の計算をする場合に比較して、その計算量を大幅に削減できる。
遷移確率計算部530は、障害発生個別種別定義と、障害派生モデルAS→Sと、イベント派生モデルAS→Eとを参照して、ea(t+1)、m(t)、m(t+1)、c(t)、c(t+1)、vs、m(t)を入力とし、イベントの発生箇所の装置種別に応じた隠れ状態のみに関して、時刻(t+1)で障害uが発生する確率P(u|s)を上記(3)式により計算する(ステップF150)。図2の例では、u=s(3)、s=s(2)、vs、m(2)=(0、0、・・・、0.4、0.8)である。式(3)は、
P(s(3)|s(2))
=AS→E[ea(3),s(3)]maxs{AS→S[s(3),s(2)]・vs、m(2)}
=AS→E[e5,s(3)]maxs{AS→S[s(3),s(2)]・(0、0、・・・、0.4、0.8)}
=α×AS→E[e5,s(3)]
となる。ただし、s(3)、s(2)は未定とし、ここではs0〜s|S|−1である。
これにより、α(定数)×AS→E[ea(t+1),u]=α×AS→E[e5,s(3)]の形(要素数|S|のベクトル)で、P(u|s)が求まる。
つぎに、発生元確率乗算部570は、インスタンス生成モデルAM→Mを参照して、P(u|s)を入力とし、装置m(t+1)で障害uが発生する確率vu,m(t+1)(t+1)を上記式(4)により計算する。ただし、装置ごとの障害遷移確率と、障害種類ごとの障害遷移確率は独立とする。図2の例では、m(2)=m2、m(3)=m3である。式(4)は、
vu,m(3)(3)
=AM→M[m(3),m(2)]・P(s(3)|s(2))
=AM→M[m3,m2]・α×AS→E[e5,s(3)]
=β×α×AS→E[e5,s(3)]
となる。ただし、s(3)は上記のとおりである。これにより、β(定数)×P(u|s)の形(要素数|S|のベクトル)で、vu,m(3)(3)が求まる。
そして、発生元確率乗算部570は、vs,m(t+1)(t+1)、及び、その最大値をとる障害s(t)を検出する。そして、イベント作業領域510のうち、セレクタ600が指す領域にそれぞれの値を格納する(ステップF160)。ただし、uは、c(t+1)で示されている装置種別が取りうる障害のみでよい。図2の例では、イベント作業領域510のうち、セレクタ600が指す領域535に(vs,m(3)(3))を、領域536にvs,m(3)(3)のうちの最大値をとるsをs(2)としてそれぞれ格納する。
つぎに、時刻加算部580は、時刻カウンタ590を1増加させる(ステップF170)。そして、ステップF130に戻る。このように、漸化式(3)、(4)を順次と解くことで、t=0〜Tについて、ea、s、vs,m(t)を得ることができる。
次に、本発明の実施の形態に係る障害原因推定システムの動作のうち拡張Baum−Welch計算部に関する動作について図3、図14A及び図14Bを参照して説明する。図14A及び図14Bは、本発明の実施の形態に係る障害原因推定システムの動作のうち拡張Baum−Welch計算部に関する動作を示すフローチャートである。
次に、拡張前向き計算部820は、イベント列DB310の時刻t=0〜t−1のイベント列が与えられたとき、インスタンス定義DB220、障害発生箇所種別定義DB370、障害派生モデル作業領域740、イベント派生モデル作業領域750を参照し、障害sの発生確率fs、m(t)を計算する。そして、計算された障害sの発生確率fs、m(t)を、内部のイベント作業領域1120に格納する(ステップG120)。
次に、拡張後向き計算部830は、イベント列DB310の時刻t=T〜t−1のイベント列が与えられたとき、インスタンス定義DB220、障害発生箇所種別定義DB370、障害派生モデル作業領域740、イベント派生モデル作業領域750を参照し、障害sの発生確率bs、m(t)を計算する。そして、計算された発生確率bs、m(t)を、内部のイベント作業領域1320に格納する(ステップG130)。
次に、拡張Baum−Welchサブモジュール770は、拡張前向き計算部820に格納されたfs(t)と、拡張後向き計算部830に格納されたbs(t)を入力とし、障害派生モデル作業領域740、イベント派生モデル作業領域750、イベントDB310を参照しつつ、上記の式(8)及び式(9)により障害派生モデルAS→S[j,i]及びイベント派生モデルAS→E[j,i]を計算する(ステップG140)。そして、それぞれ障害派生モデル作業領域780及びイベント派生モデル作業領域840に格納する。
また、並行して、イベント派生モデル作業領域840のイベント派生モデルAS→E[j,i]をもとに、割り算計算部850は、上記式(6)によりイベント派生モデルAS→Eを正規化して、イベント派生モデル作業領域860に格納する(ステップG160)。
障害派生モデルAS→S及びイベント派生モデルAS→Eのうちの少なくとも一方について、両者の差が大きい(所定の許容範囲を超える)場合(ステップG180:No)、障害派生モデル作業領域800に格納された障害派生モデルAS→Sとイベント派生モデル作業領域860に格納されたイベント派生モデルAS→Eを、障害派生モデル作業領域740及びイベント派生モデル作業領域750に複製する(ステップG190)。そして、ステップG120に戻る。
次に、本発明の実施の形態に係る障害原因推定システムの動作のうち拡張Baum−WelchサブモジュールB[j、i]に関する動作について図4、図15A〜図15Bを参照して説明する。図15A〜図15Bは、本発明の実施の形態に係る障害原因推定システムの動作のうち拡張Baum−WelchサブモジュールB[j、i]に関する動作を示すフローチャートである。
次に、読み出し部900は、拡張後向き計算部830に格納された計算結果を、後向き格納結果bsj(t)に格納する(ステップH120)。
次に、読み出し部900は、イベント列DB310の指定された発生時間範囲のイベントの集合を、イベント作業領域910のイベント(ea)、発生箇所(M)に格納する(ステップH130)。
次に、読み出し部900は、ステップH130で格納する際、まだイベント列DB310にイベント列があるか確認する(ステップH135)。
遷移行列掛け算部920は、イベント作業領域910のfsi(t)及びbsj(t+1)をイベント作業領域910から抽出する(ステップH140)。そして、fsi(t)及びbsj(t+1)を入力として、障害派生モデル作業領域740に格納されている障害派生モデルAS→S[j,i]、及び、イベント派生モデル作業領域750に格納されているイベント派生モデルAS→E[ea(t),i]を参照し、全ての時刻t=0,…,T−1に関して、時刻tごとの障害siからsjへの派生確率AS→S[j、i](t)を上記式(7)により計算する(ステップH150)。
次に、加算部930は、遷移行列掛け算部920が求めたAS→S[j、i](t)をt=0、…、T−1で、上記の式(8)により全て足し合わせて格納部935に格納する(ステップH160)。
また、ステップH150やH160と並行して、以下のステップH175、H180を実行する。すなわち、まず、B[j、i]がi==jか(B[i、i]の対角成分か)否かを調べる(ステップH175)。
i!=j(対角成分でない)の場合(ステップH175:No)、ステップH180をスキップする。
i==j(対角成分である)の場合(ステップH175:Yes)、ステップH180を実行する。i==jの場合、イベント遷移計算部950は、イベント作業領域910を参照し、障害siでイベントejが発生する確率AS→E[j、i]を上記式(9)により計算し、格納部955に格納する(ステップH180)。そして、ステップH160、H175又はH180の終了後、ステップH130へ戻る。
また、ステップH170と並行して、以下のステップH185を実行する。すなわち、まず、B[j、i]がi==jか(B[i、i]の対角成分か)を調べる(ステップH185)。
i!=j(対角成分でない)の場合(ステップH185:No)、ステップH190をスキップする。
i==j(対角成分である)の場合(ステップH185:Yes)、ステップH190を実行する。すなわち、i==jの場合、平均計算部960は、格納部955に格納されているイベント列ごとに計算したAS→E[j、i]をすべて足し、イベント列の数で割って平均化し、イベント派生モデル作業領域840に格納する(ステップH190)。上記処理を実行して動作が終了する。
次に、本発明の実施の形態に係る障害原因推定システムの動作のうち拡張前向き計算部に関する動作について図5及び図16を参照して説明する。図16は、本発明の実施の形態に係る障害原因推定システムの動作のうち拡張前向き計算部に関する動作を示すフローチャートである。
次に、読み出し部1110は、イベント列DB310の指定された発生時間範囲のイベントの集合を読み出す。そして、読み出し部1110は、インスタンス定義DB220を参照しつつ、読み出したイベントの集合を、イベント作業領域1120のイベント(ea)、そして、発生箇所(M)から求めた発生箇所の装置種別(C)に、時間(t)ごとに格納する(ステップI120)。
次に、時刻カウンタ1080が、イベント列の最大時間Tより小さいかチェックする(ステップI130)。
まず、セレクタ1030は、イベント作業領域1110のうち、時刻カウンタ1080の値で指されたイベント領域を選択し、遷移確率計算部1040に渡す(ステップI140)。具体的には、ea(t+1)、c(t)、c(t+1)、fs(t)(ただし、fs0(t)〜f|S|−1(t)のうちc(t)と同一種別で発生する障害sに対応するもの)を選択して、遷移確率計算部1040へ出力する。図5の例では、時刻t=2で指定されたea(3)=e3、c(2)=c3、c(3)=c3、fs(2)=f|S|−2(2)=s6及びf|S|−1(2)=s6の値を出力する。ただし、fs(2)は、ea(2)=e3の発生装置の種別c(2)=c3(領域1020)により、fs0(2)〜f|S|−1(2)の中から、可能性のあるfs(2)としてf|S|−2(2)及びf|S|−1(2)(領域1010)を抽出して、出力している。それにより、fs0(t)〜f|S|−1(t)の全ての数値を抽出して、後述の計算をする場合に比較して、その計算量を大幅に削減できる。
ΣsAS→S[u、s]fs(2)
=[u、|S|−2]×f|S|−2(2)+[u、|S|−1]×f|S|−1(2)
の数値となる。
fu(t+1)
=AS→E[e(3)、u]・([u、|S|−2]×f|S|−2(2)+[u、|S|−1]×f|S|−1(2))
の数値となる。
そして、セレクタ1090が指すt+1に関して、fu(t+1)の領域に格納する(ステップI170)。ただし、{s∈S|hS→C(s)=c(t+1)}のみに値を格納する。具体的には、c(3)=c3に関連する障害がs0、s1の場合、セレクタ1090が指すfs(3)の領域であって、関連するfs0(3)、fs1(3)の格納する領域1200のみに、計算結果fs0(3)、fs1(3)の値を格納する。
次に、時刻加算部1060は、掛け算部1060の出力に応答して、時刻カウンタ1080を1増加させる(ステップI180)。そして、ステップI130に戻る。
次に、本発明の実施の形態に係る障害原因推定システムの動作のうち拡張後向き計算部に関する動作について図6及び図17を参照して説明する。図17は、本発明の実施の形態に係る障害原因推定システムの動作のうち拡張後向き計算部に関する動作を示すフローチャートである。
次に、読み出し部1310は、イベント列DB310の指定された発生時間範囲のイベントの集合を読み出す。そして、読み出し部1310は、インスタンス定義DB220を参照しつつ、読み出したイベント集合を、イベント作業領域1320のイベント種別(ea)、そして、発生箇所(M)から求めた発生箇所の装置種別(C)に、時間(t)ごとに格納する(ステップJ120)。
次に、時刻カウンタ1280が、0より大きいかチェックする(ステップJ130)。
まず、セレクタ1230は、イベント作業領域1310のうち、時刻カウンタ1280の値で指されたイベント領域を選択し、遷移確率計算部1240に渡す(ステップJ140)。具体的には、ea(t−1)、c(t)、c(t−1)、bs(t)(ただし、bs0(t)〜b|S|−1(t)のうちc(t)と同一種別で発生する障害sに対応するもの)を選択し、遷移確率計算部1240へ出力する。図6の例では、時刻t=3で指定されたea(2)=e3、c(3)=c3、c(2)=c3、bs(3)=f|S|−2(3)=s6及びb|S|−1(3)=s6の値を出力する。ただし、bs(2)は、ea(3)=e3の発生装置の種別c(3)=c3(領域1220)により、bs0(3)〜b|S|−1(3)の中から、可能性のあるbs(3)としてb|S|−2(3)及びb|S|−1(3)(領域1210)を抽出して、出力している。それにより、bs0(t)〜b|S|−1(t)の全ての数値を抽出して、後述の計算をする場合に比較して、その計算量を大幅に削減できる。
ΣsAS→S[s、u]bs(3)
=[|S|−2、u]×b|S|−2(3)+[|S|−1、u]×b|S|−1(3)
の数値となる。
bu(t−1)
=AS→E[e(2)、u]・([|S|−2、u]×b|S|−2(3)+[|S|−1、u]×b|S|−1(3))
の数値となる。
そして、セレクタ1290が指すt−1に関して、bu(t−1)の領域に格納する(ステップJ170)。ただし、{s∈S|hS→C(s)=c(t−1)}のみに値を格納する。具体的には、c(2)=c3に関連する障害がs0、s1の場合、セレクタ1290が指すbs(2)の領域であって、関連するfs0(2)、fs1(2)の格納する領域1300のみに、計算結果bs0(2)、bs1(2)の値を格納する。
次に、時刻減算部1270は、掛け算部1260の出力に応答して、時刻カウンタ1280を1減少させる(ステップJ180)。そして、ステップJ130に戻る。
図18は、本発明の実施の形態に係る障害原因推定システムのイベント列パーザの動作を示す図である。
イベント列パーザ300は、取得したイベント列を、所定の条件で、複数のイベントの列に分割する。この図は、イベント列の分割の様子を示している。イベント列パーザ300は、イベントの発生間隔が一定時間T0よりも大きいと、イベント列を分割する。具体的には、例えば、イベント列(e(0),・・・,e(t))があるとき、イベントe(i)の発生時刻と、e(i+1)の発生時刻との間の時間が一定時間T0よりも長い場合、イベント列(e(0),・・・,e(t))を、イベントリージョンR0:(e(0),・・・,e(i))と、イベントリージョンR1:(e(i+1),・・・,e(j))、イベントリージョンR2:(e(j+1),・・・,e(k))、・・・のように分割する。このことは、イベントリージョン内では、イベント発生間隔がしきい値T0以下であり、イベントリージョン間のイベント発生間隔はしきい値T0よりも大きいことを意味している。なお、ここでのイベントe(i)は、イベントタイプ(イベントの種別)ではなくイベントそのものである。学習用のイベント列では、1イベントリージョンを学習用のイベント列として、イベントリージョンの数だけ学習用に用いる。
図19は、本発明の実施の形態に係る障害原因推定システムの拡張Viterbi計算部での原因推定の原理を示す図である。
管理対象装置260の実運用時で得られたイベント列から障害原因を推定するのは以下の原理による。
まず、イベント列をイベントリージョンRiに分割する(イベント列パーザ300による)。
そして、学習により生成されたモデル(拡張Baum−Welch計算部190による)に対して、あるイベントリージョンRiを与えて、最も遷移確率の高い隠れ状態列Si=(si)=argmax{si}Pr(Ri)を得る(拡張Viterbi計算部320による)。
次に確率の低い(<P0)遷移sの位置でSiを、Si,jに分割する。すなわち、Siは、Si,1、Si,2,・・・,si,j,・・・に分割される。ただし、上記で求めたSi,j=(s0,・・・sk)に対して、Pr(sk+1|sk)>P0、かつ、sk∈Si,j⇒sk+1∈Si,j、である。
次に、Si,j=(s1,・・・sn)に対してイベント発生確率P1のみをイベントコリレーション対象Ei,jとする。ただし、e∈Ri、かつ、s∈Si,j、かつ、Pr(e|Si,j)>P1⇒e∈Ri,j、である。このとき、集合Ri,j,シーケンスSi,jの集合が発生するが、シーケンスSi,j=(s0,・・・sn)のうち、s0がルートコーズ(障害原因)、Ri,jがs0が派生して発生したイベント集合とみなす(フィルタリングモジュール335による)。
次に、具体的な実施例を用いて本発明の実施の形態を説明する。
14(1).構成
図20は、本発明の実施例に係る障害原因推定システムの管理対称装置(システム)の構成を示すブロック図である。
LB1は、ロードバランサであり、クライアントからのリクエストをアプリケーションサーバAPa1とAPa2に振り分ける。
LB2は、ロードバランサであり、アプリケーションサーバAPa1とAPa2の要求を、副処理をおこなうアプリケーションサーバAPb1とAPb2に振り分ける。
アプリケーションサーバAPa1とAPa2は、ユーザの要求に応じたサービスを提供する。
アプリケーションサーバAPb1とAPb2は、ユーザの要求に応じたサービスを提供する。
DB1、DB2はRAID0など二重化されたデータベースであり、アプリケーションサーバAPb1とAPb2、APb1とAPb2からの読み書き要求に応える。
ロードバランサLBは、以下の二種類のイベントを発生するとする。
connection_error@LB(eL1)
hw_error@LB(eL2)
connection_error@APa(ea1)
ap_error@APa(ea2)
connection_error@APb(eb1)
ap_error@APb(eb2)
disk_full@DB(ed1)
db_error@DB(ed2)
ロードバランサLBは、以下の障害を発生するとする。
hw_fault@LB(sL1)
ap_fault@APa(sa1)
ap_fault@APb(sb1)
disk_full@DB(sd1)
invalid_data@DB(sd2)
hw_fault@LB(sL1)
connection_error@LB(eL1)
hw_error@LB(eL2)
ap_fault@APa(sa1)
connection_error@APa(ea1)
ap_error@APa(ea2)
ap_fault@APb(sb1)
connection_error@APb(eb1)
ap_error@APb(eb2)
disk_full@DB(sd1)
disk_full@DB(ed1)
db_error@DB(ed2)
invalid_data@DB(sd2)
db_error@DB(ed2)
次に、図8のステップA120である障害派生学習の手続きに関して具体的な実施例の動作を説明する。
初期モデルパーサ140が図21の基本モデル定義130を構文解釈し、その結果を障害定義DB150に格納する(図9のステップB110)。
ここで、障害定義DB150に格納される結果の例を図27に、障害発生箇所種別定義DB370に格納され結果の例を図28にそれぞれ示す。
次に、初期モデル生成部160が、障害定義DB150からデータを読み込み、初期障害派生モデルと、初期イベント派生モデルを生成、初期障害派生モデル格納領域170および初期イベント派生モデル格納領域240に格納する(図9のステップB120)。
本実施例における初期障害派生モデルの例を図22に、初期イベント派生モデルの例を図23にそれぞれ示す。すなわち、図22では、障害(S)に対して障害(S)が派生する遷移確率の初期設定が表中に記載されている。図23では、障害(S)に対してイベント(E)が派生する遷移確率の初期設定が表中に記載されている。ただし、「e」はイベントを示し、「s」は障害を示し、添え字の「0」は正常な状態、「a1」は「APa1」、「a2」は「APa2」、「b1」は「APb1」、「b2」は「APb2」、「L1」は「LB1」、「L2」は「LB2」、「d1」は「DB1」、「d2」は「DB2」、をそれぞれ示す。図22から図28について同じである。
本実施例における障害派生モデルの例を図24に、イベント派生モデルの例を図25にそれぞれ示す。すなわち、図24では、障害(S)に対して障害(S)が派生する遷移確率の計算結果が表中に記載されている。図25では、障害(S)に対してイベント(E)が派生する遷移確率の計算結果が表中に記載されている。
すなわち、図26では、ある装置にイベント(障害のなしの状態を含む)が発生したとき、ある装置にイベントが派生する遷移確率が表中に示されている。
すなわち、図29では、装置(M)と種別(クラス、C)との関係が示されている。
ここでは、DB1でdb_error@DB(ed2)発生し、続いて、APa2でconnection_error@APa(ea1)が発生したとする。このとき、図12のステップE110の結果、図30の結果が得られる。このsの行をみると、sd2からsa1と障害の推移関係が分析されたことがわかる。また、そのときに推移確率は、0。02%である。この確率が閾値P0よりも大きければ、sd2からsa1との推移関係が分析できたことになる。すなわち、DB1で起きたinvalid_data@DBからAPa2で発生したap_fault@APaに推移し、根本原因は、DB1で起きたinvalid_data@DBが判明した。これは、DBのデータエラーから、APa2で動作するアプリケーションがDBアクセスできず、connection_error@APaを発生したと解釈できる。
結果表示部340の表示画面340aに、複数のイベントリージョンのうちの、第40番目のイベントリージョン(40th EventRegion)341の分析内容が表示されている。すなわち、依存した障害原因鎖(原因→派生原因)342として、障害状態であるstate=thread_error343と、そこから派生したイベント344、及び、障害状態であるstate=My_SQL_is_stopped345と、そこから派生したイベント346、がそれぞれ表示されている。
また、拡張Viterbi計算部は、装置と装置ごとの障害の推移関係を計算するのではなく、装置種類(種別)ごとの派生関係と装置ごとのイベント推移関係が確率的に独立と仮定し、両者を独立に計算し、得た確率を掛け合わせる。独立に計算することで、計算量を低減する。
また、拡張Baum−Welch計算部と、拡張Viterbi計算部は、イベントに記載している障害発生元の装置に関して、その装置種別をインスタンス定義から求めるとともに、その装置種別に関係のある隠れ状態のみを検索することで、特許文献3よりも処理速度を向上させている。
すなわち、装置種別の集合をC、全装置での障害種類の集合をS、全イベントの集合をE、全装置の集合をMとすると、特許文献3の学習時間、処理時間ともO(|S|2|M|2/|C|2)となる。一方、本発明では、学習、分析ともO(|S|2)となる。これらにより、本発明の目的を達成することができる。
本発明の障害原因推定システムは、管理対象の複数の装置と前記複数の装置の種別との対応関係を定義したインスタンス定義を格納するインスタンス定義データベースと;前記複数の装置で発生し得る複数の障害と前記複数の装置の種別との対応関係を定義した障害発生箇所種別定義を格納する障害発生箇所種別定義データベースと;監視中の前記複数の装置において発生した複数のイベントが発生時刻順に並んだ障害原因推定用イベント列を格納するイベント列データベースと;前記複数の装置の種別と前記複数の装置の種別での障害との組み合わせに関する障害推移確率を示す障害派生モデルを記憶する第1記憶部と;前記複数の装置での障害と前記複数の装置の障害から派生するイベントとの組み合わせに関するイベント推移確率を示すイベント派生モデルを記憶する第2記憶部と;前記複数の装置のうちの障害の発生した発生装置に関する発生装置推移確率を示すインスタンス派生モデルを記憶する第3記憶部と;前記インスタンス定義及び前記障害発生箇所種別定義と、前記障害派生モデル、前記イベント派生モデル及び前記インスタンス派生モデルと、前記障害原因推定用イベント列とに基づいて、前記複数の装置の種別における前記複数の障害間の第1遷移確率と、前記複数の装置間の第2遷移確率とを独立に求め、両者を掛け合わせることで、前記障害原因推定用イベント列に対する障害の遷移列及び遷移確率を示す障害状態推移列及び障害状態遷移確率を推測する拡張Viterbi計算部と;前記障害状態遷移列及び障害状態遷移確率に基づいて、前記管理対象で発生した前記イベントの根源的な原因となる障害を推定するフィルタリングモジュールと;を具備する。
Claims (21)
- 管理対象の複数の装置と前記複数の装置の種別との対応関係を定義したインスタンス定義を格納するインスタンス定義データベースと、
前記複数の装置で発生し得る複数の障害と前記複数の装置の種別との対応関係を定義した障害発生箇所種別定義を格納する障害発生箇所種別定義データベースと、
監視中の前記複数の装置において発生した複数のイベントが発生時刻順に並んだ障害原因推定用イベント列を格納するイベント列データベースと、
前記複数の装置の種別と前記複数の装置の種別での障害との組み合わせに関する障害推移確率を示す障害派生モデルを記憶する第1記憶部と、
前記複数の装置での障害と前記複数の装置の障害から派生するイベントとの組み合わせに関するイベント推移確率を示すイベント派生モデルを記憶する第2記憶部と、
前記複数の装置のうちの障害の発生した発生装置に関する発生装置推移確率を示すインスタンス派生モデルを記憶する第3記憶部と、
前記インスタンス定義及び前記障害発生箇所種別定義と、前記障害派生モデル、前記イベント派生モデル及び前記インスタンス派生モデルと、前記障害原因推定用イベント列とに基づいて、前記複数の装置の種別における前記複数の障害間の第1遷移確率と、前記複数の装置間の第2遷移確率とを独立に求め、両者を掛け合わせることで、前記障害原因推定用イベント列に対する障害の遷移列及び遷移確率を示す障害状態推移列及び障害状態遷移確率を推測する拡張Viterbi計算部と、
前記障害状態遷移列及び障害状態遷移確率に基づいて、前記管理対象で発生した前記イベントの根源的な原因となる障害を推定するフィルタリングモジュールと
を具備する
障害原因推定システム。 - 請求項1に記載の障害原因推定システムにおいて、
前記拡張Viterbi計算部は、前記障害原因推定用イベント列に含まれる第1時刻での第1発生装置での第1障害から第2時刻での第2発生装置での第2障害への遷移確率としての前記障害状態遷移確率を、
前記第1時刻での前記第1発生装置の第1種別に対応する前記障害状態遷移確率と、前記第1障害から前記第2障害への前記障害推移確率と、前記第2障害での前記イベント推移確率とに基づいて算出される前記第1遷移確率と、
前記第1発生装置から前記第2発生装置への前記発生装置推移確率である前記第2遷移確率と
に基づいて算出する
障害原因推定システム。 - 請求項1又は2に記載の障害原因推定システムにおいて、
前記複数の装置で発生し得る複数のイベントと、前記複数のイベントを引き起こす複数の障害との対応関係を定義した基本モデル定義を格納する障害定義データベースと、
前記基本モデル定義に基づいて、前記複数の障害同士の推移関係を示す初期障害派生モデル、及び、前記複数の障害と前記複数のイベントとの間の推移関係を示す初期イベント派生モデルを予め設定された条件で生成する初期モデル生成部と、
前記インスタンス定義及び前記障害発生箇所種別定義と、前記初期障害派生モデル及び前記初期イベント派生モデルと、複数の装置において発生した複数のイベントが発生時刻順に並んだ学習用イベント列とに基づいて、前記学習イベント列に含まれる開始時刻から開始状態を出発して所定時刻で所定障害に至る前向き確率と、前記学習イベント列に含まれる終了時刻から終了状態を出発して所定時刻で所定障害に至る後向き確率とを前記複数の装置の種別で障害を絞り込んで算出し、前記前向き確率と前記後向き確率とに基づいて、前記障害派生モデル及び前記イベント派生モデルを生成する拡張Baum−Welch計算部と、
前記学習用イベント列における前記発生装置から次の前記発生装置への遷移確率を算出することにより前記インスタンス派生モデルを生成するインスタンス派生確率計算部と
を更に具備する
障害原因推定システム。 - 請求項3に記載の障害原因推定システムにおいて、
前記拡張Baum−Welch計算部は、
前記学習用のイベント列に含まれる第3時刻での第3発生装置において第3障害から第4時刻での第4発生装置での第4障害への前記前向き確率を、前記第3時刻での前記第3発生装置の第3種別に対応する前記前向き確率と、前記第3障害から前記第4障害への前記障害遷移確率と、前記第4障害での前記イベント推移確率とに基づいて算出し、
前記学習用のイベント列に含まれる第6時刻での第6発生装置において第6障害から第5時刻での第5発生装置での第5障害への前記後向き確率を、前記第6時刻での前記第6発生装置の第6種別に対応する前記後向き確率と、前記第6障害から前記第5障害への前記障害遷移確率と、前記第5障害での前記イベント推移確率とに基づいて算出し、
前記イベント派生モデルを、前記前向き確率と前記後向き確率とに基づいて計算し、
前記障害派生モデルを、前記前向き確率と前記後向き確率と各時点での前記イベント推移確率とに基づいて計算し、
上記計算を、前記イベント推移確率と前記障害推移確率とが収束するまで繰り返して、前記障害派生モデル、及び、前記イベント派生モデルを生成する
障害原因推定システム。 - 請求項1乃至3のいずれか一項に記載の障害原因推定システムにおいて、
拡張Baum−Welph計算部の代わりに、Baum−Welphアルゴリズムを実行するBaum−Welph計算部を用いる
障害原因推定システム。 - 請求項1乃至5のいずれか一項に記載の障害原因推定システムにおいて、
前記フィルタリングモジュールは、
前記障害状態遷移列において、二つの障害間の遷移確率が、所定の確率よりも低い場合、前記障害状態遷移列を、当該二つの障害間で分割し、
前記分割された障害状態推移列の各々の先頭の障害を、前記根源的な原因となる障害と推定する
障害原因推定システム。 - 請求項1乃至6のいずれか一項に記載の障害原因推定システムにおいて、
前記学習用イベント列及び前記障害原因推定用イベント列の各々における隣接する2つのイベントの発生時間間隔は所定の値以下である
障害原因推定システム。 - 管理対象の複数の装置と前記複数の装置の種別との対応関係を定義したインスタンス定義と、前記複数の装置で発生し得る複数の障害と前記複数の装置の種別との対応関係を定義した障害発生箇所種別定義と、前記複数の装置の種別と前記複数の装置の種別での障害との組み合わせに関する障害推移確率を示す障害派生モデルと、前記複数の装置での障害と前記複数の装置の障害から派生するイベントとの組み合わせに関するイベント推移確率を示すイベント派生モデルと、前記複数の装置のうちの障害の発生した発生装置に関する発生装置推移確率を示すインスタンス派生モデルと、監視中の前記複数の装置において発生した複数のイベントが発生時刻順に並んだ障害原因推定用イベント列とに基づいて、前記複数の装置の種別における前記複数の障害間の第1遷移確率と、前記複数の装置間の第2遷移確率とを独立に求め、両者を掛け合わせることで、前記障害原因推定用イベント列に対する障害の遷移列及び遷移確率を示す障害状態推移列及び障害状態遷移確率を推測するステップと、
前記障害状態遷移列及び障害状態遷移確率に基づいて、前記管理対象で発生した前記イベントの根源的な原因となる障害を推定するステップと
を具備する
障害原因推定方法。 - 請求項8に記載の障害原因推定方法において、
障害状態推移列及び障害状態遷移確率を推測するステップは、
前記障害原因推定用イベント列に含まれる第1時刻での第1発生装置での第1障害から第2時刻での第2発生装置での第2障害への遷移確率としての前記障害状態遷移確率を、
前記第1時刻での前記第1発生装置の第1種別に対応する前記障害状態遷移確率と、前記第1障害から前記第2障害への前記障害推移確率と、前記第2障害での前記イベント推移確率とに基づいて算出される前記第1遷移確率と、
前記第1発生装置から前記第2発生装置への前記発生装置推移確率である前記第2遷移確率と
に基づいて算出するステップを含む
障害原因推定方法。 - 請求項8又は9に記載の障害原因推定方法において、
前記複数の装置で発生し得る複数のイベントと、前記複数のイベントを引き起こす複数の障害との対応関係を定義した基本モデル定義に基づいて、前記複数の障害同士の推移関係を示す初期障害派生モデル、及び、前記複数の障害と前記複数のイベントとの間の推移関係を示す初期イベント派生モデルを予め設定された条件で生成するステップと、
前記インスタンス定義及び前記障害発生箇所種別定義と、前記初期障害派生モデル及び前記初期イベント派生モデルと、複数の装置において発生した複数のイベントが発生時刻順に並んだ学習用イベント列とに基づいて、前記学習イベント列に含まれる開始時刻から開始状態を出発して所定時刻で所定障害に至る前向き確率と、前記学習イベント列に含まれる終了時刻から終了状態を出発して所定時刻で所定障害に至る後向き確率とを前記複数の装置の種別で障害を絞り込んで算出し、前記前向き確率と前記後向き確率とに基づいて、前記障害派生モデル及び前記イベント派生モデルを生成するステップと、
前記学習用イベント列における前記発生装置から次の前記発生装置への遷移確率を算出することにより前記インスタンス派生モデルを生成するステップと
を更に具備する
障害原因推定方法。 - 請求項10に記載の障害原因推定方法において、
前記障害派生モデル及び前記イベント派生モデルを生成するステップは、
前記学習用のイベント列に含まれる第3時刻での第3発生装置において第3障害から第4時刻での第4発生装置での第4障害への前記前向き確率を、前記第3時刻での前記第3発生装置の第3種別に対応する前記前向き確率と、前記第3障害から前記第4障害への前記障害遷移確率と、前記第4障害での前記イベント推移確率とに基づいて算出するステップと、
前記学習用のイベント列に含まれる第6時刻での第6発生装置において第6障害から第5時刻での第5発生装置での第5障害への前記後向き確率を、前記第6時刻での前記第6発生装置の第6種別に対応する前記後向き確率と、前記第6障害から前記第5障害への前記障害遷移確率と、前記第5障害での前記イベント推移確率とに基づいて算出するステップと、
前記イベント派生モデルを、前記前向き確率と前記後向き確率とに基づいて計算するステップと、
前記障害派生モデルを、前記前向き確率と前記後向き確率と各時点での前記イベント推移確率とに基づいて計算するステップと、
上記計算を、前記イベント推移確率と前記障害推移確率とが収束するまで繰り返して、前記障害派生モデル及び前記イベント派生モデルを生成するステップと
を含む
障害原因推定方法。 - 請求項8乃至11のいずれか一項に記載の障害原因推定方法において、
前記障害派生モデル及び前記イベント派生モデルを生成するステップの代わりに、Baum−Welphアルゴリズムを実行するステップを具備する
障害原因推定方法。 - 請求項8乃至12のいずれか一項に記載の障害原因推定方法において、
前記根源的な原因となる障害を推定するステップは、
前記障害状態遷移列において、二つの障害間の遷移確率が、所定の確率よりも低い場合、前記障害状態遷移列を、当該二つの障害間で分割するステップと、
前記分割された障害状態推移列の各々の先頭の障害を、前記根源的な原因となる障害と推定するステップと
を含む
障害原因推定方法。 - 請求項8乃至13のいずれか一項に記載の障害原因推定方法において、
前記学習用イベント列及び前記障害原因推定用イベント列の各々における隣接する2つのイベントの発生時間間隔は所定の値以下である
障害原因推定方法。 - インスタンス定義データベースから、管理対象の複数の装置と前記複数の装置の種別との対応関係を定義したインスタンス定義を読み出すステップと、
障害発生箇所種別定義データベースから、前記複数の装置で発生し得る複数の障害と前記複数の装置の種別との対応関係を定義した障害発生箇所種別定義を読み出すステップと、
イベント列データベースから、監視中の前記複数の装置において発生した複数のイベントが発生時刻順に並んだ障害原因推定用イベント列を読み出すステップと、
第1記憶部から、前記複数の装置の種別と前記複数の装置の種別での障害との組み合わせに関する障害推移確率を示す障害派生モデルを読み出すステップと、
第2記憶部から、前記複数の装置での障害と前記複数の装置の障害から派生するイベントとの組み合わせに関するイベント推移確率を示すイベント派生モデルを読み出すステップと、
第3記憶部から、前記複数の装置のうちの障害の発生した発生装置に関する発生装置推移確率を示すインスタンス派生モデルを読み出すステップと、
拡張Viterbi計算部が、読み出された前記インスタンス定義及び前記障害発生箇所種別定義と、前記障害派生モデル、前記イベント派生モデル及び前記インスタンス派生モデルと、前記障害原因推定用イベント列とに基づいて、前記複数の装置の種別における前記複数の障害間の第1遷移確率と、前記複数の装置間の第2遷移確率とを独立に求め、両者を掛け合わせることで、前記障害原因推定用イベント列に対する障害の遷移列及び遷移確率を示す障害状態推移列及び障害状態遷移確率を推測するステップと、
フィルタリングモジュールが、前記障害状態遷移列及び障害状態遷移確率に基づいて、前記管理対象で発生した前記イベントの根源的な原因となる障害を推定するステップと
を具備する障害原因推定方法をコンピュータに実行させるプログラム。 - 請求項15に記載のプログラムにおいて、
障害状態推移列及び障害状態遷移確率を推測するステップは、
前記拡張Viterbi計算部が、前記障害原因推定用イベント列に含まれる第1時刻での第1発生装置での第1障害から第2時刻での第2発生装置での第2障害への遷移確率としての前記障害状態遷移確率を、
前記第1時刻での前記第1発生装置の第1種別に対応する前記障害状態遷移確率と、前記第1障害から前記第2障害への前記障害推移確率と、前記第2障害での前記イベント推移確率とに基づいて算出される前記第1遷移確率と、
前記第1発生装置から前記第2発生装置への前記発生装置推移確率である前記第2遷移確率と
に基づいて算出するステップを含む
プログラム。 - 請求項15又は16に記載のプログラムにおいて、
障害定義データベースから、前記複数の装置で発生し得る複数のイベントと、前記複数のイベントを引き起こす複数の障害との対応関係を定義した基本モデル定義を読み出すステップと、
初期モデル生成部が、前記複数の装置で発生し得る複数のイベントと、前記複数のイベントを引き起こす複数の障害との対応関係を定義した基本モデル定義に基づいて、前記複数の障害同士の推移関係を示す初期障害派生モデル、及び、前記複数の障害と前記複数のイベントとの間の推移関係を示す初期イベント派生モデルを予め設定された条件で生成するステップと、
拡張Baum−Welch計算部が、前記インスタンス定義及び前記障害発生箇所種別定義と、前記初期障害派生モデル及び前記初期イベント派生モデルと、複数の装置において発生した複数のイベントが発生時刻順に並んだ学習用イベント列とに基づいて、前記学習イベント列に含まれる開始時刻から開始状態を出発して所定時刻で所定障害に至る前向き確率と、前記学習イベント列に含まれる終了時刻から終了状態を出発して所定時刻で所定障害に至る後向き確率とを前記複数の装置の種別で障害を絞り込んで算出し、前記前向き確率と前記後向き確率とに基づいて、前記障害派生モデル及び前記イベント派生モデルを生成するステップと、
インスタンス派生確率計算部が、前記学習用イベント列における前記発生装置から次の前記発生装置への遷移確率を算出することにより前記インスタンス派生モデルを生成するステップと
を更に具備する
プログラム。 - 請求項17に記載のプログラムにおいて、
前記障害派生モデル及び前記イベント派生モデルを生成するステップは、
前記拡張Baum−Welch計算部が、前記学習用のイベント列に含まれる第3時刻での第3発生装置において第3障害から第4時刻での第4発生装置での第4障害への前記前向き確率を、前記第3時刻での前記第3発生装置の第3種別に対応する前記前向き確率と、前記第3障害から前記第4障害への前記障害遷移確率と、前記第4障害での前記イベント推移確率とに基づいて算出するステップと、
前記拡張Baum−Welch計算部が、前記学習用のイベント列に含まれる第6時刻での第6発生装置において第6障害から第5時刻での第5発生装置での第5障害への前記後向き確率を、前記第6時刻での前記第6発生装置の第6種別に対応する前記後向き確率と、前記第6障害から前記第5障害への前記障害遷移確率と、前記第5障害での前記イベント推移確率とに基づいて算出するステップと、
前記拡張Baum−Welch計算部が、前記イベント派生モデルを、前記前向き確率と前記後向き確率とに基づいて計算するステップと、
前記拡張Baum−Welch計算部が、前記障害派生モデルを、前記前向き確率と前記後向き確率と各時点での前記イベント推移確率とに基づいて計算するステップと、
前記拡張Baum−Welch計算部が、上記計算を、前記イベント推移確率と前記障害推移確率とが収束するまで繰り返して、前記障害派生モデル及び前記イベント派生モデルを生成するステップと
を含む
プログラム。 - 請求項15乃至18のいずれか一項に記載のプログラムにおいて、
前記障害派生モデル及び前記イベント派生モデルを生成するステップの代わりに、Baum−Welch計算部が、Baum−Welphアルゴリズムを実行するステップを具備する
プログラム。 - 請求項15乃至19のいずれか一項に記載のプログラムにおいて、
前記根源的な原因となる障害を推定するステップは、
フィルタリングモジュールが、前記障害状態遷移列において、二つの障害間の遷移確率が、所定の確率よりも低い場合、前記障害状態遷移列を、当該二つの障害間で分割するステップと、
フィルタリングモジュールが、前記分割された障害状態推移列の各々の先頭の障害を、前記根源的な原因となる障害と推定するステップと
を含む
プログラム。 - 請求項15乃至20のいずれか一項に記載のプログラムにおいて、
前記学習用イベント列及び前記障害原因推定用イベント列の各々における隣接する2つのイベントの発生時間間隔は所定の値以下である
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011513391A JP5489085B2 (ja) | 2009-05-15 | 2010-05-14 | 障害原因推定システム、障害原因推定方法、及び障害原因推定プログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009118271 | 2009-05-15 | ||
JP2009118271 | 2009-05-15 | ||
JP2011513391A JP5489085B2 (ja) | 2009-05-15 | 2010-05-14 | 障害原因推定システム、障害原因推定方法、及び障害原因推定プログラム |
PCT/JP2010/058218 WO2010131746A1 (ja) | 2009-05-15 | 2010-05-14 | 障害原因推定システム、障害原因推定方法、及び障害原因推定プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2010131746A1 JPWO2010131746A1 (ja) | 2012-11-08 |
JP5489085B2 true JP5489085B2 (ja) | 2014-05-14 |
Family
ID=43085119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011513391A Active JP5489085B2 (ja) | 2009-05-15 | 2010-05-14 | 障害原因推定システム、障害原因推定方法、及び障害原因推定プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8484514B2 (ja) |
JP (1) | JP5489085B2 (ja) |
WO (1) | WO2010131746A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102202696B1 (ko) * | 2020-07-10 | 2021-01-13 | (주)프론티스 | 확장현실과 사물인터넷 연동으로 산업시설물의 제어 및 관리를 위한 이동성 상태 기반 점유율 예측 원격협업 장치 및 방법 |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012086443A1 (ja) * | 2010-12-24 | 2012-06-28 | 日本電気株式会社 | 監視データ分析装置、監視データ分析方法および監視データ分析プログラム |
JP6060969B2 (ja) * | 2012-03-26 | 2017-01-18 | 日本電気株式会社 | イベント相関検出システム |
US9123004B2 (en) * | 2012-03-29 | 2015-09-01 | International Business Machines Corporation | Predicting an effect of events on assets |
US9535978B2 (en) * | 2012-03-29 | 2017-01-03 | International Business Machines Corporation | Semantic mapping of topic map meta-models identifying assets and events to include weights |
JP6126891B2 (ja) * | 2013-03-29 | 2017-05-10 | 富士通株式会社 | 検出方法、検出プログラム、および検出装置 |
JP5836316B2 (ja) * | 2013-05-16 | 2015-12-24 | ソフトバンク株式会社 | 障害監視システム、障害監視方法、及び障害監視プログラム |
US10346745B2 (en) | 2013-09-05 | 2019-07-09 | International Business Machines Corporation | Method of using graphical index maps to provide automated relationship discovery and impact analyses |
WO2015186342A1 (ja) * | 2014-06-03 | 2015-12-10 | 日本電気株式会社 | 要因順序推定装置、要因順序推定方法、及び、要因順序推定プログラムが格納された記録媒体 |
US10042915B2 (en) | 2015-09-28 | 2018-08-07 | International Business Machines Corporation | Semantic mapping of topic map meta-models identifying assets and events to include directionality |
US10902524B2 (en) * | 2015-09-30 | 2021-01-26 | Sensormatic Electronics, LLC | Sensor based system and method for augmenting underwriting of insurance policies |
US10685043B2 (en) | 2015-11-10 | 2020-06-16 | International Business Machines Corporation | Event analysis in network management event streams |
US10387476B2 (en) | 2015-11-24 | 2019-08-20 | International Business Machines Corporation | Semantic mapping of topic map meta-models identifying assets and events to include modeled reactive actions |
JP6418260B2 (ja) * | 2017-03-08 | 2018-11-07 | オムロン株式会社 | 要因推定装置、要因推定システム、および要因推定方法 |
JP6878984B2 (ja) * | 2017-03-23 | 2021-06-02 | 富士通株式会社 | 監視プログラム、監視方法および監視装置 |
US10467083B2 (en) * | 2017-06-08 | 2019-11-05 | International Business Machines Corporation | Event relationship analysis in fault management |
US10635521B2 (en) * | 2017-12-15 | 2020-04-28 | International Business Machines Corporation | Conversational problem determination based on bipartite graph |
US11354320B2 (en) * | 2018-10-11 | 2022-06-07 | International Business Machines Corporation | Determining causes of events in data |
CN112104495B (zh) * | 2020-09-09 | 2022-07-05 | 四川信息职业技术学院 | 一种基于网络拓扑的系统故障根因定位方法 |
CN113098723B (zh) * | 2021-06-07 | 2021-09-17 | 新华三人工智能科技有限公司 | 一种故障根因定位方法、装置、存储介质及设备 |
CN113571092B (zh) * | 2021-07-14 | 2024-05-17 | 东软集团股份有限公司 | 一种发动机异响识别方法及其相关设备 |
US11809471B2 (en) | 2021-10-15 | 2023-11-07 | EMC IP Holding Company LLC | Method and system for implementing a pre-check mechanism in a technical support session |
US11941641B2 (en) | 2021-10-15 | 2024-03-26 | EMC IP Holding Company LLC | Method and system to manage technical support sessions using historical technical support sessions |
US11915205B2 (en) | 2021-10-15 | 2024-02-27 | EMC IP Holding Company LLC | Method and system to manage technical support sessions using ranked historical technical support sessions |
US20230236920A1 (en) * | 2022-01-24 | 2023-07-27 | Dell Products L.P. | Method and system for providing solutions to a hardware component failure using a context-aware search |
US20230236919A1 (en) * | 2022-01-24 | 2023-07-27 | Dell Products L.P. | Method and system for identifying root cause of a hardware component failure |
CN114441964B (zh) * | 2022-04-08 | 2022-07-08 | 苏州浪潮智能科技有限公司 | 一种存储系统供电过程中的故障定位方法、装置以及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005141459A (ja) * | 2003-11-06 | 2005-06-02 | Nec Corp | 異常挙動検出装置および異常挙動検出方法ならびにプログラム、希少挙動部分系列計算装置 |
JP2005141601A (ja) * | 2003-11-10 | 2005-06-02 | Nec Corp | モデル選択計算装置,動的モデル選択装置,動的モデル選択方法およびプログラム |
JP2007257184A (ja) * | 2006-03-22 | 2007-10-04 | Nec Corp | 障害原因推定システム、方法、及び、プログラム |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5548684A (en) * | 1994-04-22 | 1996-08-20 | Georgia Tech Research Corporation | Artificial neural network viterbi decoding system and method |
JPH08255093A (ja) | 1995-03-16 | 1996-10-01 | Matsushita Electric Ind Co Ltd | 障害原因発見装置及びその方法 |
JPH10143190A (ja) | 1996-11-11 | 1998-05-29 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JP2000122690A (ja) | 1998-10-19 | 2000-04-28 | Toshiba Corp | パターン認識方法およびパターン認識装置 |
JP2002091480A (ja) | 2000-09-19 | 2002-03-27 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 音響モデル生成装置及び音声認識装置 |
US6708308B2 (en) * | 2001-01-10 | 2004-03-16 | International Business Machines Corporation | Soft output viterbi algorithm (SOVA) with error filters |
JP2003022093A (ja) | 2001-07-09 | 2003-01-24 | Nippon Hoso Kyokai <Nhk> | 音声認識方法および音声認識装置ならびに音声認識プログラム |
JP4048741B2 (ja) | 2001-07-24 | 2008-02-20 | セイコーエプソン株式会社 | Hmmの出力確率演算方法および音声認識装置 |
JP2004126641A (ja) | 2002-09-30 | 2004-04-22 | Toshiba Corp | 因果関係モデル生成方法、因果関係モデル生成装置、原因推定方法、原因推定装置およびデータ構造 |
JP4298672B2 (ja) | 2005-04-11 | 2009-07-22 | キヤノン株式会社 | 混合分布hmmの状態の出力確率計算方法および装置 |
JP2007078943A (ja) | 2005-09-13 | 2007-03-29 | Hitachi Ltd | 音響スコア計算プログラム |
US7788205B2 (en) * | 2006-05-12 | 2010-08-31 | International Business Machines Corporation | Using stochastic models to diagnose and predict complex system problems |
US7765436B2 (en) * | 2006-06-09 | 2010-07-27 | International Business Machines Corporation | Process for software support resource allocation based on analysis of categorized field problems |
US8015134B2 (en) * | 2007-05-31 | 2011-09-06 | Solar Turbines Inc. | Determining a corrective action based on economic calculation |
KR100898339B1 (ko) * | 2007-10-05 | 2009-05-20 | 한국전자통신연구원 | 홈 네트워크 환경을 위한 자율적인 오류 처리 시스템 및 그방법 |
US8180723B2 (en) * | 2008-01-14 | 2012-05-15 | Hewlett-Packard Development Company, L.P. | Root cause analysis in a system having a plurality of inter-related elements |
US8000931B2 (en) * | 2008-10-23 | 2011-08-16 | Advantest Corporation | Deterministic component model judging apparatus, judging method, program, recording medium, test system and electronic device |
JP2011025593A (ja) | 2009-07-28 | 2011-02-10 | Canon Inc | サーマルプリンタ |
US8260493B2 (en) * | 2010-02-17 | 2012-09-04 | GM Global Technology Operations LLC | Health prognosis for complex system using fault modeling |
-
2010
- 2010-05-14 JP JP2011513391A patent/JP5489085B2/ja active Active
- 2010-05-14 US US13/258,879 patent/US8484514B2/en active Active
- 2010-05-14 WO PCT/JP2010/058218 patent/WO2010131746A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005141459A (ja) * | 2003-11-06 | 2005-06-02 | Nec Corp | 異常挙動検出装置および異常挙動検出方法ならびにプログラム、希少挙動部分系列計算装置 |
JP2005141601A (ja) * | 2003-11-10 | 2005-06-02 | Nec Corp | モデル選択計算装置,動的モデル選択装置,動的モデル選択方法およびプログラム |
JP2007257184A (ja) * | 2006-03-22 | 2007-10-04 | Nec Corp | 障害原因推定システム、方法、及び、プログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102202696B1 (ko) * | 2020-07-10 | 2021-01-13 | (주)프론티스 | 확장현실과 사물인터넷 연동으로 산업시설물의 제어 및 관리를 위한 이동성 상태 기반 점유율 예측 원격협업 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
WO2010131746A1 (ja) | 2010-11-18 |
US8484514B2 (en) | 2013-07-09 |
JPWO2010131746A1 (ja) | 2012-11-08 |
US20120102371A1 (en) | 2012-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5489085B2 (ja) | 障害原因推定システム、障害原因推定方法、及び障害原因推定プログラム | |
Cousineau et al. | TLA+ proofs | |
Zhang et al. | Large scale software test data generation based on collective constraint and weighted combination method. | |
Deb et al. | Multi-signal flow graphs: a novel approach for system testability analysis and fault diagnosis | |
Shu et al. | Generalized detectability for discrete event systems | |
Yu et al. | The Bayesian Network based program dependence graph and its application to fault localization | |
US20100185694A1 (en) | Query-Based Generation of Data Records | |
JP2008014912A (ja) | 複数の観測結果の間の差異を検出するシステムおよびその方法 | |
JP2007257184A (ja) | 障害原因推定システム、方法、及び、プログラム | |
US20130246025A1 (en) | System and method of generating equation-level diagnostic error messages for use in circuit simulation | |
US11194703B2 (en) | System testing infrastructure for analyzing soft failures in active environment | |
Zhang et al. | A mathematical model of performance-relevant feature interactions | |
Bharathi et al. | A machine learning approach for quantifying the design error propagation in safety critical software system | |
Strasser et al. | Diagnostic alarm sequence maturation in timed failure propagation graphs | |
US11243835B1 (en) | Message-based problem diagnosis and root cause analysis | |
Singh et al. | Specification-guided automated debugging of CPS models | |
US11609842B2 (en) | System testing infrastructure for analyzing and preventing soft failure in active environment | |
Geng et al. | Probabilistic logical approach for testing diagnosability of stochastic discrete event systems | |
US20070226274A1 (en) | Database device, and computer product | |
US11593256B2 (en) | System testing infrastructure for detecting soft failure in active environment | |
He et al. | Repair diversification: A new approach for data repairing | |
Chen et al. | The effectivity analysis of adding sensors for improving model based fault isolability properties | |
WO2022074796A1 (ja) | 評価方法、評価装置、および評価プログラム | |
JP2022124240A (ja) | 診断パターン生成方法及び計算機 | |
Felgenhauer | Algorithmic stability analysis for certain trust region methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130402 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131008 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131028 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140203 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5489085 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140216 |