JP3579834B2 - 管理可能なネットワークにおける事前対策オンライン診断 - Google Patents

管理可能なネットワークにおける事前対策オンライン診断 Download PDF

Info

Publication number
JP3579834B2
JP3579834B2 JP2001198027A JP2001198027A JP3579834B2 JP 3579834 B2 JP3579834 B2 JP 3579834B2 JP 2001198027 A JP2001198027 A JP 2001198027A JP 2001198027 A JP2001198027 A JP 2001198027A JP 3579834 B2 JP3579834 B2 JP 3579834B2
Authority
JP
Japan
Prior art keywords
module
alarm
fault
causal network
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001198027A
Other languages
English (en)
Other versions
JP2003032253A (ja
Inventor
イゴール・シラシュヤ
リー・シャレフ
キリル・ショイケット
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2001198027A priority Critical patent/JP3579834B2/ja
Publication of JP2003032253A publication Critical patent/JP2003032253A/ja
Application granted granted Critical
Publication of JP3579834B2 publication Critical patent/JP3579834B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
関連出願の相互参照
本願は、参照によって本明細書に組み込まれる米国特許仮出願第60/214971号明細書の利益を主張するものである。
【0002】
【発明の属する技術分野】
本発明は、一般に通信ネットワークの障害診断のための方法およびシステムに関し、詳細には、通常の通信アクティビティが進行中である間にそのようなネットワーク内で欠陥のあるコンポーネントを識別する方法に関する。
【従来の技術】
【0003】
コンピュータ・ネットワークの複雑さは、増大を続け、これらのネットワークついて要求される信頼性、可用性、およびサービスも、高まり続けている。これらの要因によって、コンピュータ・ネットワークでネットワーク障害を識別し、分離するのに使用される診断システムに課せられる重荷が増える。ネットワーク・アクティビティに深刻に干渉する可能性がある障害を防ぐためには、初期の障害の前兆となる断続的な問題および散発的な問題を検出し、その問題を引き起こしている装置を正確に示すことが重要である。ネットワークの高可用性を維持するために、ネットワークがオンラインであり、通常のアクティビティ・モードで稼動している間にこれらの問題を識別しなければならない。その後、サービス担当者に、完全に壊れてしまう前に欠陥のある要素を交換するように指示することができる。
【0004】
現代のネットワークは、通常は、トポロジ・ファイル、システムワイドなエラー・ログ、およびコンポーネント固有のトレース・ファイルなどの大量の診断情報を提供する。これらの情報を分析してネットワーク障害を識別することは、最高の技量を有するネットワーク管理者以外の人間の能力の範囲を超えている。ネットワーク診断に対する最も自動化された手法では、if−thenルールの形で専門家の知識をフレーム化し、このルールを診断情報に自動的に適用することによってこの問題を克服しようとする。通常、ルールは、ヒューリスティックであり、特にそれが適用されるシステムに合わせて作成しなければならない。その結果、ルール自体が、考案が困難であり、発生する可能性があるすべてのエラー状態に一般的に適用することができない。そのようなルールは、包括的に適用可能ではなく、一般に、システム構成が変更された時には更新されなければならない。
【0005】
モデルベースの診断手法では、誤動作の場合に、問題のシステムの機能モデルから始め、それを分析して、欠陥のあるコンポーネントを識別する。機能モデル(フォワード(forward)モデルまたは因果(causal)モデルとも称する)は、システム仕様書または信頼性分析モデルの一部として簡単に入手可能であることがしばしばである。そのようなモデルの開発は、通常は、システム設計またはシステム分析の過程の単純な部分である。したがって、モデルの作成では、設計者がシステム障害診断の専門家である必要がない。診断結論に達するために、代わりに自動化されたアルゴリズムが機能モデルに適用される。システム・モデルが、構成変更を反映するように更新される限り、これらのアルゴリズムは、行われた変更に対して診断を自動的に適合させる。
【0006】
System Area Networks(SAN)などの交換コンピューティング・ネットワークおよび交換回線通信ネットワークでは、診断アプリケーションに関して、その複雑さおよび固有の不確実性に関する特定の課題が示される。複雑さでは、使用される多数のコンポーネント、ネットワーク内の装置の間の複数の動的経路の存在、およびそのネットワークが搬送する大量の情報を扱わなければならない。不確実性は、なかんずく、アラーム・メッセージが、パケット形式でネットワークを介して搬送されるという事実から生ずる。その結果、アラーム伝送に未知の遅延が存在する可能性があり、アラームが順序どおりに到着せず、一部のアラーム・パケットが失われる場合もある。
【0007】
不確実性が存在する情況でのモデルベース診断の技術で既知のパラダイムの1つが、ベイズ・ネットワーク(Bayesian Network)である。カウエル(Cowell)他が、「Probabilistic Networks and Expert Systems」(Springer−Verlag、米国ニューヨーク州、1999年)でベイズ・ネットワーク理論の全般的な説明を示している。同書は、参照によって本明細書に組み込まれる。ベイズ・ネットワークは、領域変数に対応するノードを有し、条件つき確率テーブルが各ノードに付加される、有向非輪状グラフである。グラフの辺の向きが、ノードの間の因果関係に対応する時に、ベイズ・ネットワークを、因果ネットワーク(causal network)とも呼ぶ。ノードの対の間に辺がないことは、それらのノードが条件的に独立であるという前提を表す。確率テーブルの積によって、変数の同時確率分布が与えられる。確率は、テストされるシステム内での障害および誤動作の共起に関する新しい証拠が集められる時に更新される。診断システムは、新しいアラームまたはアラームの組を受け取る時に、ベイズ・ネットワークを使用して、アラームの背後にある最も確率の高い誤動作を自動的に判定する。
【0008】
その開示が参照によって本明細書に組み込まれる米国特許第6076083号明細書に、通信ネットワークの診断へのベイズ・ネットワークの例示的適用が記載されている。通信ネットワークが、ベイズ・ネットワークとして表され、通信ネットワーク内の装置および通信リンクが、ベイズ・ネットワークのノードとして表される。通信ネットワークの障害が、識別され、トラブル・チケット(trouble ticket)の形で記録され、障害の1つまたは複数の考えられる原因が、ベイズ・ネットワーク計算に基づいて与えられる。障害が訂正された時に、ベイズ・ネットワークが、障害の訂正で習得された知識を用いて更新される。更新されたトラブル・チケット情報が、ベイズ・ネットワークの適当な確率行列の自動更新に使用される。米国特許第6076083号明細書のベイズ・ネットワークは、静的であり、通信ネットワークの構成の変更に対する備えがない。さらに、このベイズ・ネットワークは、通信ネットワーク全体をモデル化するので、大規模で複雑な交換ネットワークを扱わなければならない時に、簡単に手におえなくなる。
【0009】
コンピュータ・システムでの障害診断に対するベイズ・ネットワークの適用のもう1つの手法が、参照によって本明細書に組み込まれる、ピッツァ(Pizza)他著、「Optimal Discrimination between Transient and Permanent Faults」、Proceedings of the Third IEEE High Assurance System Engineering Symposium、1998年に記載されている。この著者は、信頼性理論の原理をコンピュータ・システムのコンポーネントの過渡的障害と永久的障害の区別に適用することを提案している。信頼性理論では、故障率または経時的な故障分布に関して(平均故障間隔(MTBF)などに関して)所与の装置の故障の確率を予測する。標準的な信頼性理論の技法は、既知の条件での装置動作をサンプリングすることに基づく。その一方で、ピッツァ他によって提案された方式では、システム・コンポーネントの永久的障害と過渡的障害の確率が、ベイズ・ネットワークを使用する推論によって推定され、更新される。しかし、この方式は、ごく限られた実用的適用度だけを有する。というのは、故障確率に関する正確で最適な判断に達するために、あるモジュールから別のモジュールへのエラー伝搬なしで、コンピュータ・システム内の各モジュールを別々に調べるからである。これは、実世界の交換ネットワークで合理的に行うことができる仮定ではない。
【0010】
【発明が解決しようとする課題】
【課題を解決するための手段】
本発明の好ましい実施形態では、ベイズ・ネットワークと信頼性理論を組み合わせて、現実的で効率的な形で大規模で複雑な交換ネットワークを扱うことができる診断方法および診断システムを提供する。診断システムは、全体としてのネットワークに関する最新のトポロジ情報と共に、ネットワーク内の装置に関するローカル障害モデルを維持する。ローカル障害モデルには、信頼性理論の項で表される、ネットワーク内のモジュールの推定誤動作率が含まれる。アラーム(または一連のアラーム)がネットワークから受け取られた時に、診断システムは、ローカル障害モデル、推定誤動作率、およびトポロジ情報を使用して、アラームの可能な原因とその確率を表すベイズ・ネットワークを構築する。その後、誤動作率推定値が、観察されたアラームおよびその到着時刻に基づいて更新される。所与のモジュールの推定誤動作率が、ある閾値を超える時に、診断システムは、そのモジュールに故障の疑いがあると宣言し、疑わしいモジュールのテストまたは交換の勧告を、システムのユーザに発行する。
【0011】
したがって、当技術分野で既知のモデルベースの診断方法とは違って、本発明の好ましい実施形態では、動的なベイス・ネットワーク・モデルが使用され、このモデルは、特に受け取ったアラームまたはアラームのグループのそれぞれに応答して作成される。その結果、このモデルは、ネットワーク全体の完全なモデルを維持することの極端に高い計算コストおよびメモリ要件をこうむらずに、実際の最新のネットワーク状態を完全かつ正確に反映する。この診断システムによって生成される所与のモデルでは、装置モデルが分離状態でのみ考慮される上述のピッツァ他の手法と異なって、接続されたモジュールの間の相互作用およびエラー伝搬が考慮される。本発明の実施形態では、カスケード接続されたスイッチなどのネットワーク・トポロジの規則的なパターンが、識別され、利用されて、モジュール間のエラー伝搬を正しくモデル化するのに使用しなければならないベイズ・ネットワークのサイズが制限されることが好ましい。
【0012】
本発明のいくつかの好ましい実施形態では、診断システムが、ネットワーク内のモジュールの2次故障確率を査定する、すなわち、推定平均故障率と確率分布の積率(標準偏差)の両方を考慮する。所与のモジュールの確率分布の平均および積率は、モジュールに関してベイズ・ネットワークが構成され、評価されるたびに更新される。2次確率の使用は、ベイズ信頼性理論(ベイズ・ネットワークとは別個の)の特性である。ベイズ信頼性理論では、当技術分野で既知の診断システムで使用される、より単純な1次サンプリングベースの方法と異なって、初期査定および訂正の処理として故障率査定を扱う。2次手法は、障害診断モデリングにより適する。
【0013】
本明細書では、交換コンピュータ・ネットワークでの障害診断に関して好ましい実施形態を説明するが、当業者は、本発明の原理を、他のタイプの通信ネットワークだけではなく、他の種類の電気システムおよび機械システムならびに医療システムおよび金融システムを含む他のシステムの障害の突き止めに同様に適用可能であることを諒解するであろう。
【0014】
したがって、本発明の好ましい実施例によれば、相互リンクされた複数のモジュールから構成されたシステムの診断のための方法であって、
前記システムから、前記モジュールの1つの障害を示すアラームを受け取るステップと、
前記アラームに応答して、前記障害を前記障害につながった可能性がある1つまたは複数の前記モジュールでの誤動作に関連付け、前記障害の条件つき確率を前記誤動作のそれぞれの確率に関係付ける、因果ネットワークを構成するステップと、
前記アラームおよび前記因果ネットワークに基づいて、前記誤動作の前記確率の少なくとも1つを更新するステップと、
前記更新された確率に応答して前記アラームの診断を提案するステップと
を含む方法が提供される。
【0015】
前記アラームを受け取るステップが、前記システム内の前記複数のモジュールからイベント・レポートを集めるステップと、前記イベント・レポートから前記アラームを抽出するステップとを含み、前記イベント・レポートを集めるステップが、前記システムの構成の変更のレポートを受け取るステップを含み、前記因果ネットワークを構成するステップが、前記変更された構成に基づいて前記因果ネットワークを構成するステップを含むことが好ましい。前記変更された構成に基づいて前記因果ネットワークを構成するステップが、前記構成が記録されるデータベースを維持するステップと、前記因果ネットワークの構成に使用するために、前記構成の前記変更の前記レポートに応答して前記データベースを更新するステップとを含むことが最も好ましい。

【0016】
代替としてまたは追加として、前記アラームを抽出するステップが、前記モジュールの前記1つでの前記障害を示す前記アラームを含む、相互に近接する時刻に発生するアラームのシーケンスを抽出するステップを含み、前記確率の前記少なくとも1つを更新するステップが、前記確率を更新するために前記アラームの前記シーケンスを処理するステップを含む。前記アラームの前記シーケンスを抽出するステップが、前記システムからの前記アラームの受取の際の期待される遅延に応答して、前記アラームのそれぞれの寿命を定義するステップと、前記それぞれの寿命に応答して前記シーケンスから抽出する前記アラームを選択するステップとを含むことが好ましい。抽出する前記アラームを選択するステップが、前記因果ネットワークがそれに応答して構成された前記モジュールの前記1つでの前記障害を示す前記アラームの発生の時刻のそれぞれの寿命以内に発生した前記アラームを選択するステップを含むことが最も好ましい。
【0017】
さらに追加としてまたは代替として、前記因果ネットワークを構成するステップが、前記1つまたは複数の前記モジュールでの前記誤動作の1つによって引き起こされる期待されるアラームを定義するステップを含み、前記アラームの前記シーケンスを処理するステップが、アラームの前記抽出されたシーケンス内の前記期待されるアラームの発生に応答して前記確率を更新するステップを含む。
【0018】
好ましい実施形態では、前記相互リンクされた複数のモジュールが、規則的なパターンで相互リンクされた前記モジュールの所与の1つの複数のインスタンスを含み、前記因果ネットワークを構成するステップが、前記モジュールの前記所与の1つに対応する前記ネットワーク内のノードのグループを含むテンプレートを定義するステップと、前記アラームに応答して前記1つまたは複数のモジュールに関して前記テンプレートをインスタンス化するステップとを含む。前記テンプレートを定義するステップが、前記モジュールの前記所与の1つの前記インスタンスの1つでの前記誤動作の1つによって引き起こされる期待されるアラームを識別するステップを含み、前記テンプレートをインスタンス化するステップが、前記期待されるアラームの発生に応答して前記ネットワークに前記テンプレートのインスタンスを追加するステップを含むことが好ましい。
【0019】
前記因果ネットワークを構成するステップが、前記障害が発生した前記モジュールの前記1つでのローカル障害状態を識別するステップと、前記ローカル障害状態に応答して、前記因果ネットワーク内で、前記モジュールの前記1つで発生する前記誤動作の1つに前記障害をリンクするステップとを含むことが好ましい。追加してまたは代替として、前記因果ネットワークを構成するステップが、前記システム内の前記モジュールの第2の1つとの接続に起因して前記モジュールの第1の1つで発生する第1障害状態を識別するステップと、前記第1障害状態に応答して、前記因果ネットワーク内で、前記モジュールの前記第2の1つで発生する第2障害状態に前記障害をリンクするステップとを含む。前記障害をリンクするステップが、前記第2障害状態の可能な原因が、前記モジュールの前記第2の1つと前記システム内の前記モジュールの第3の1つとの間のもう1つの接続に起因するかどうかを判定するステップと、前記もう1つの接続に応答して、前記因果ネットワーク内で、前記モジュールの前記第3の1つで発生する第3障害状態に前記障害をリンクするステップとを含むことが好ましい。
【0020】
好ましい実施形態では、前記因果ネットワークを構成するステップが、前記誤動作の前記それぞれの確率に応答して、前記誤動作の1つの複数の発生を前記因果ネットワークに追加するステップと、前記因果ネットワーク内で前記複数の発生に前記障害をリンクするステップとを含む。前記複数の発生に前記障害をリンクするステップが、前記発生のそれぞれによって引き起こされる1つまたは複数の障害状態を判定するステップと、前記障害状態の少なくとも一部を前記障害にリンクするステップとを含むことが好ましい。
【0021】
もう1つの好ましい実施形態では、前記誤動作の前記確率の前記少なくとも1つを更新するステップが、前記1つまたは複数の前記モジュールの障害の間の平均時間を査定するステップを含む。
【0022】
前記誤動作の前記確率が、平均および積率を有する確率分布に関して定義され、前記確率の前記少なくとも1つを更新するステップが、前記確率分布の前記平均および前記積率を再査定するステップを含むことが好ましい。前記確率分布が、故障率分布を含み、前記平均および前記積率を再査定するステップが、ベイズ信頼性理論モデルを使用して前記故障率分布を更新するステップを含むことが最も好ましい。
【0023】
前記診断を提案するステップが、前記更新された確率の1つまたは複数を所定の閾値と比較するステップと、前記確率の前記1つが前記閾値を超える時に診断アクションを起動するステップとを含むことが好ましい。通常は、前記診断アクションを起動するステップが、前記診断について前記システムのユーザに通知するステップを含み、前記ユーザに通知するステップが、前記因果ネットワークに基づく前記診断の説明を提供するステップを含む。追加としてまたは代替として、前記診断アクションを起動するステップが、前記誤動作を検証するために診断テストを実行するステップを含み、前記診断テストが、前記閾値を超える前記確率の前記1つに応答して選択される。前記因果ネットワークが、前記診断テストの結果に応答して変更されることが好ましい。
【0024】
本発明の好ましい実施形態によれば、相互リンクされた複数のモジュールから構成されたシステムの診断のための方法であって、
前記モジュールの1つでの障害を前記障害につながった可能性がある2つ以上の前記モジュールでの誤動作と関連付け、前記障害の条件つき確率を前記誤動作のそれぞれの確率分布に関係付ける因果ネットワークを構成するステップと、
前記障害を示す前記システムからのアラームに応答して、前記誤動作の前記確率分布を更新するステップと、
前記更新された確率分布に応答して前記アラームの診断を提案するステップと
を含む方法も提供される。
【0025】
本発明の好ましい実施形態によれば、相互リンクされた複数のモジュールから構成されたシステムの診断のための装置であって、前記装置が、診断プロセッサを含み、前記診断プロセッサが、前記システムから、前記モジュールの1つの障害を示すアラームを受け取るように結合され、前記診断プロセッサが、前記アラームに応答して、前記障害を前記障害につながった可能性がある1つまたは複数の前記モジュールでの誤動作に関連付け、前記障害の条件つき確率を前記誤動作のそれぞれの確率に関係付ける、因果ネットワークを構成し、前記アラームおよび前記因果ネットワークに基づいて、前記誤動作の前記確率の少なくとも1つを更新して、前記更新された確率に応答して前記アラームの診断を提案するように配置される装置が、追加的に提供される。
【0026】
前記装置が、前記構成が記録されるデータベースを含むメモリを含み、前記因果ネットワークの構成に使用するために、前記診断プロセッサが、前記構成の前記変更の前記レポートに応答して前記データベースを更新するように結合されることが好ましい。
【0027】
前記装置が、ユーザ・インターフェースを含み、前記診断プロセッサが、前記ユーザ・インターフェースを介して前記診断について前記システムのユーザに通知するように結合されることがさらに好ましい。
【0028】
さらに、本発明の好ましい実施形態によれば、相互リンクされた複数のモジュールから構成されたシステムの診断のための装置であって、前記装置が、診断プロセッサを含み、前記診断プロセッサが、前記モジュールの1つでの障害を前記障害につながった可能性がある2つ以上の前記モジュールでの誤動作と関連付け、前記障害の条件つき確率を前記誤動作のそれぞれの確率分布に関係付ける因果ネットワークを構成し、前記障害を示す前記システムからのアラームに応答して、前記誤動作の前記確率分布を更新して、前記更新された確率分布に応答して前記アラームの診断を提案するように配置される、装置が提供される。
【0029】
さらに、本発明の好ましい実施形態によれば、相互リンクされた複数のモジュールから構成されたシステムの診断のためのコンピュータ・ソフトウェア製品であって、前記コンピュータ・ソフトウェア製品が、プログラム命令が保管されたコンピュータ可読媒体を含み、前記プログラム命令が、コンピュータによって読み取られた時に、前記コンピュータに、前記システムから前記モジュールの1つの障害を示すアラームを受け取ることと、前記アラームに応答して、前記障害を前記障害につながった可能性がある1つまたは複数の前記モジュールでの誤動作に関連付け、前記障害の条件つき確率を前記誤動作のそれぞれの確率に関係付ける、因果ネットワークを構成することと、前記アラームおよび前記因果ネットワークに基づいて、前記誤動作の前記確率の少なくとも1つを更新して、前記更新された確率に応答して前記アラームの診断を提案することとを行わせる、コンピュータ・ソフトウェア製品が提供される。
【0030】
さらに、本発明の好ましい実施形態によれば、相互リンクされた複数のモジュールから構成されたシステムの診断のための製品であって、前記製品が、プログラム命令が保管されたコンピュータ可読媒体を含み、前記プログラム命令が、コンピュータによって読み取られた時に、前記コンピュータに、前記モジュールの1つでの障害を前記障害につながった可能性がある2つ以上の前記モジュールでの誤動作と関連付け、前記障害の条件つき確率を前記誤動作のそれぞれの確率分布に関係付ける因果ネットワークを構成することと、前記障害を示す前記システムからのアラームに応答して、前記誤動作の前記確率分布を更新して、前記更新された確率分布に応答して前記アラームの診断を提案することとを行わせる製品が提供される。
【0031】
【発明の実施の形態】
図1は、本発明の好ましい実施形態による、管理可能な通信ネットワークであるネットワーク22と、ネットワークを監視するのに使用される診断ユニット20を概略的に示すブロック図である。ネットワーク22には、通常は、当技術分野で既知のように、system/storage area network(SAN)が含まれる。そのようなネットワークでは、ノード24に、サーバまたは他のコンピュータ・プロセッサ、入出力装置、記憶装置、またはゲートウェイを含めることができ、これらが、スイッチ28によって相互接続される。そのようなネットワークの例が、米国ニューヨーク州アーモンクのIBM Corporation社が製造するRS/6000 SPシステムである。ネットワーク22は、診断ユニット20によって使用される次の2つの鍵となる特徴を提供するという意味で、「管理可能な」といわれる。第1に、このネットワークは、パケット破壊または装置無応答などのエラーおよび障害と、異常な機能性を反映する可能性がある統計に関して監視される。第2に、このネットワークは、特にアラームを生成する時を決定するのに使用されるエラー閾値などの装置パラメータをシステム・オペレータまたは自動コントローラがセットする能力に関して、構成可能である。
【0032】
ネットワーク22の管理機能は、ノードのうちで、1次ノード26として働くように選択されたノードを介して調整されることが好ましい。ノード24には、イベント・コレクタ30が含まれ、このイベント・コレクタ30は、すべてのノードで稼動するネットワーク管理ソフトウェアの一部として稼動するソフトウェア・エージェントとして実施されることが好ましい。これらのエージェントは、アラームおよび構成変更を含む、それぞれのノードで発生するシステム・イベントを集める。イベント・コレクタ30は、これらのイベントを、管理パケットの形で、1次ノード26上で稼動する1次イベント・コレクタ32に送信する。1次イベント・コレクタ32は、下で説明するように、イベントのストリームを処理のために診断ユニット20に渡す。
【0033】
概念的な明瞭さのために、診断ユニット20は、1次ノード26とは別の機能ブロックとして図示されているが、本発明の好ましい実施形態では、診断ユニット20が、1次ノード上で稼動するソフトウェア・コンポーネントとして実施される。その代わりに、診断ユニット・ソフトウェアを、1次ノードとは物理的に分離された別のプロセッサ上で稼動させることができ、また、ノードのグループまたはすべてのノードで分散アプリケーションとして稼動させることができる。このソフトウェアは、たとえば1次ノードまたは他のプロセッサへ電子的な形でネットワーク22を介してダウンロードすることができ、その代わりに、CD−ROMなどの有形の媒体上で供給することができる。
【0034】
図2は、本発明の好ましい実施形態による、診断ユニット20の詳細を概略的に示すブロック図である。診断ユニット20が、上で注記したようにソフトウェアで実施されると仮定すると、図2に示されたブロックは、通常は、別々のハードウェア要素ではなく、診断ソフトウェア・パッケージ内の機能要素またはプロセスを表す。1次イベント・コレクタ32によって収集されたイベントのストリームが、診断ユニット20内で、イベント・フォーマッタおよびマージャ40によって受け取られる。このブロックは、イベントを順番に、好ましくはイベント・コレクタ30によってイベントの発生の時刻を示すために適用されたタイム・スタンプに基づく日時順で配置する。その代わりに、壽序を、1次ノード26でのイベントの受取の時刻に基づくものとすることができる。イベント・フォーマッタおよびマージャ40は、適宜、イベント・コレクタ30から受け取ったイベント・メッセージ情報を、診断ユニット20内の後続ブロックによって効率的に処理できる統一されたフォーマットで再フォーマットする。イベント・フォーマッタおよびマージャ40は、イベントを、構成変更イベントとアラーム(すなわちエラー報告)に分離し、処理のために2つのマージされたストリームを供給する。
【0035】
構成トラッカ42が、構成変更イベントを受け取り、これらを処理して、システム・モデル44に基づいて構成データベース46を更新する。構成データベース46は、現在使用可能なモジュール、その状況、およびトポロジを含む、ネットワーク始動時のネットワーク22の完全な構成を用いて初期化される。このデータベースは、その後、たとえば、ノード24の追加または除去、スイッチ28上のポートの使用可能化または使用不能化などの、発生したすべての変更を反映するために、リアル・タイムで自動的に更新される。システム・モデル44では、ネットワーク22内で使用されるモジュールが、その相互接続および階層を含めて記述される。用語「モジュール」は、本明細書では、通常は、特定のエラー・レポートに関連付けることができる現場交換可能ユニット(FRU)またはFRUの一部を指すのに使用される。システム・モデル44内のモジュールの間の差異化によって、診断ユニット20がエラー・レポートを診断し、そのソースを局所化する際の粒度が決定される。階層システム・モデルが、当技術分野で既知のように、Extensible Markup Language(XML)フォーマットでネットワーク22のオペレータによって診断ユニット20に供給されることが好ましい。
【0036】
診断エンジン48は、イベント・フォーマッタおよびマージャ40からアラーム・ストリームを受け取り、この情報を使用して、各アラームに関連するモジュールの信頼性査定を判定し、更新する。信頼性査定は、各アラームに対応するベイズ・ネットワークをオンザフライで構成し、ベイズ信頼性理論を使用して、モジュールのそれぞれのさまざまな誤動作の誤動作率を査定することによって、更新される。診断エンジンが使用する方法は、後で詳細に説明する。ベイズ・ネットワークを構成する際に、診断エンジンは、上で説明したように、システム・モデル44および構成データベース46によって供給される情報を使用する。診断エンジンは、ネットワーク22内の可能な障害を記述する障害モデル50にも頼る。この文脈での障害は、ローカルな問題または予想されない入力に起因して所与のモジュール内で発生する可能性がある、異常な状態または振る舞いである。
【0037】
障害モデル50は、好ましくはネットワーク・オペレータによって、最も好ましくはXMLフォーマットで供給される。障害モデルのサンプルのDTD(Document Type Definition)を、付録Aとして本明細書に添付する。これには、通常は、グローバル障害情報が、システム・モデル内の基本モジュールのすべてに関する個別の障害モデルと共に含まれる。これらの基本モジュールは、モジュール階層の最下位レベルにあるモジュールである。
【0038】
障害モデル50のグローバル障害情報には、ネットワーク22で可能なすべてのタイプの誤動作と、その期待される率が記述される。この文脈での用語「誤動作」は、モジュール内の障害の根本原因を指す。モジュールで障害が検出される時に、その障害は、そのモジュール自体で発生した誤動作に起因する場合と、障害が検出されたモジュールへネットワークを介して通信トラフィックで伝搬された別のモジュールの誤動作に起因する場合がある。障害モデル50の誤動作確率は、通常は、故障の間の推定平均時間(MTBF)などの故障率に関して表現される。推定された率に、確率分布の標準偏差(または第1積率)に関して表現された推定の信頼性の尺度が付随することが好ましい。誤動作率査定は、対数時間スケールでの正規分布によって記述することができる。したがって、たとえば、秒単位での誤動作率査定(10、1)は、誤動作発生の間の平均時間が1010秒であり、発生の間の実際の時間が区間[10、1012]秒である確率が0.95であることを示す。診断エンジン48は、ネットワーク22から受け取るアラームを処理する際に、平均および標準偏差の両方を推論によって更新する。
【0039】
各基本モジュールの個々の障害モデルには、以下の情報が含まれる。
・そのモジュールで発生する可能性がある誤動作のそれぞれについて、それがそのモジュール自体によって検出され、そのモジュールによるアラームの生成につながるかどうかと、その誤動作がそのモジュールの出力の障害状態を引き起こすかどうか。障害状態は、障害すなわち、上で注記したようにモジュールの異常な状態または振る舞いの出現につながる誤動作の発生の結果である。モジュール自体で障害を引き起こすモジュール内の障害状態を、本明細書では「ローカル障害状態」と呼称する。別のモジュールの異常な入力状態を引き起こす、モジュール出力での障害状態を、「接続障害状態」と呼称する。
・モジュールの入力に現れる可能性がある障害状態のそれぞれについて、その状態がそのモジュールによって伝搬されるか、検出されるか、その両方であるか。
・検出される障害状態のそれぞれについて、モジュールがどのアラームを報告するか。
【0040】
勧告および説明ジェネレータ52が、診断エンジン48によって計算された誤動作査定を受け取り、ネットワーク22内の異なるモジュールの査定を、障害モデル50に保持された期待されるベースライン値と比較する。所与のモジュールの故障率査定が、そのベースライン値より大幅に高い時には、勧告および説明ジェネレータ52は、通常は、さらに診断処置を講ずるか、そのモジュールを含むFRUを交換するようにユーザに勧告する。そのような勧告を行うための判断基準は、下でさらに説明する。勧告は、ユーザ・インターフェース54を介して提示される。このユーザ・インターフェースを用いて、ユーザが、勧告および説明ジェネレータへの照会を入力でき、それに応答して勧告の根本的理由の包括的な説明を受け取ることができることが好ましい。説明は、診断エンジン48によって構成されたベイズ・ネットワークに基づいて、当技術分野で既知の説明を生成する方法を使用して生成されることが好ましい。このための例示的方法が、ドラズデル(Druzdel)著、「Qualitative Verbal Explanations in Bayesian Belief Networks」、Artificial Intelligence and Simulation of Behavior Quarterly 94(1996年)、43ないし54ページと、マディガン(Madigan)他著、「Explanation in Belief Networks」、Journal of Computational and Graphical Statistics 6、160ないし181ページ(1997年)に記載されている。これらの出版物の両方が、参照によって本明細書に組み込まれる。
【0041】
図3は、本発明の好ましい実施形態による、診断ユニット20でアラームを処理し、勧告を生成する方法を概略的に示す流れ図である。この方法は、アラーム受取のステップ60で、診断エンジン48がアラームを受け取るたびに起動されることが好ましい。その代わりに、この方法を、あるタイプまたはグループのアラームに応答して呼び出すことができる。シーケンス組合せのステップ62で、短い時間間隔で発生する関係するアラームを、処理のために組み合わせることが好ましい。集合処理のためのシーケンス内でのアラームの組合せに適用可能な方法および考慮事項を、図5に関して下で詳細に説明する。
【0042】
診断エンジン48は、ネットワーク構築のステップ64で、特定のアラームまたはアラーム・シーケンスに適用可能なベイズ・ネットワーク(または因果ネットワーク)を構築する。単一のアラームに応答して構成された通常のベイズ・ネットワークを図4に示し、このネットワークを構成するのに使用される方法を、図6ないし8に関して下で詳細に説明する。ベイズ・ネットワークは、有向非輪状グラフであり、そのノードが、問題のアラームにつながる可能なモジュール誤動作、障害状態、および障害を含む変数に対応する。誤動作ノードは、期待される誤動作率または査定された誤動作率に基づく、指定された確率分布を有する。残りの変数の確率は、グラフ内の親に対して、対応する変数の条件つき確率を表す確率テーブルによって記述される。
【0043】
グラフを構成した後に、診断エンジン48は、更新のステップ66で、シーケンス内のアラームに基づいてノードの確率テーブルを更新する。指定された時間枠内で発生する異なるアラームを相関させることによって、診断エンジンは、ノードの条件つき確率を調整することができ、その後、グラフを作って、誤動作ノードの誤動作率査定を更新することができる。言い換えると、すべての所与の観察されたアラームAについて、その確率P(A=真)に、1をセットする。期待されるアラームの確率は、その寿命分布に従って判定される。その後、ベイズ・ネットワークのノードの確率テーブルを再計算して、これらの結果との一貫性を有するようにする。この手順を、ベイズ・ネットワークの分野では、「証拠伝搬(evidence propagation)」と称する。
【0044】
更新された誤動作査定は、勧告のステップ68で、勧告および説明ジェネレータ52がユーザに勧告を提供するための基礎として働く。ユーザが、各モジュールに適用される2つの閾値レベルすなわち、モジュールに「障害の疑いあり」としてフラグが立てられる低閾値と、疑わしいモジュールが疑わしくないものとして再分類される高閾値を定義することが好ましい。これらの閾値は、各モジュールの査定された誤動作率と、システム仕様に基づくそのモジュールの期待される故障率の間の差に関係する。ユーザは、この2つの閾値の信頼性レベルも定義する。この信頼性レベルは、モジュールの誤動作率査定に関連する標準偏差値に対して検査される。したがって、たとえば、ユーザは、そのMTBF(誤動作率の逆数)が10未満に低下したことが10%の信頼性レベルである時に、所与のモジュールに障害の疑いありとしてフラグを立てることを指定することができる。あるアラーム・シーケンスに続くステップ66の後に、そのモジュールについて査定されたMTBFが、上で説明した対数表記を使用して(9、2)であると仮定する。そのような場合には、実際のMTBFが閾値10未満に低下した確率が10%を超えるので、そのモジュールにそれ相応にフラグが立てられる。ユーザは、通常、問題のFRUを交換するか他の形でサービスするコストに応じて、ネットワーク動作中のモジュールの障害の結果の深刻さに対して重みをつけて、閾値および信頼性レベルを設定する。
【0045】
所与のモジュールが、障害の疑いありとしてフラグを立てられている時に、勧告および説明ジェネレータ52が、そのモジュールの状況を検証するためにそのモジュールに適用することができるオンラインの非破壊試験手順があるかどうかを判定するために検査する。そうである場合には、ジェネレータが、その手順を自動的に呼び出すか、その代わりに、その手順を実行するようにユーザに促すことが好ましい。この手順の結果が、診断エンジン48にフィード・バックされることが好ましく、この診断エンジン48は、適用可能なベイズ・ネットワークにその結果を組み込み、その誤動作率査定をそれ相応に更新する。この手順の次に、勧告および説明ジェネレータ52が、FRUを交換しなければならないかどうかを判定することができる。その代わりに、問題のモジュールに関連する可能な誤動作のすべてに関するMTBF査定が、高閾値未満に低下する(おそらくはネットワーク22からの追加のアラームの受取および処理の後に)場合に、そのモジュールの障害の疑いフラグをリセットする。
【0046】
図4は、本発明の好ましい実施形態による、診断エンジン48によって生成される例示的ベイズ・ネットワークであるネットワーク70を概略的に示すグラフである。この例では、診断エンジン48が、図3の方法のステップ60で受け取る、観察されたUSD(非送信請求データ)アラーム71に応答して、ネットワーク70を構成する。このアラームは、USD障害72が発生し、これによって、スイッチ28の1つの受信器ポートが、データの前に送信されなければならない、正しいパケットの先頭(BOP)文字が先行していなかったデータを受信したことを意味する。この障害を引き起こす可能性がある、障害モデル50に記述されたシナリオには、次の2つがある。
・破壊されたBOP − このエラーを報告したスイッチにデータを送信した、ネットワーク22内の先行するスイッチの受信器部分と、エラーが検出された実際の受信器ポートとの間のどのモジュールでも発生する可能性がある。
・ローカル設計欠陥 − メモリ破壊以外の、報告するスイッチのローカルな問題。
【0047】
ネットワーク70を構築するために、診断エンジン48は、観察されたUSDアラーム71に対応するノードと、そのアラームを引き起こしたUSD障害72に対応するノードから始める。障害モデル50に基づいて、報告するスイッチでUSD障害72を引き起こした可能性がある障害状態74に対応するノードを、ネットワークに追加する。上で注記したように、これらの障害状態には、リンク上またはスイッチ自体の中で破壊されたビットと、破壊を引き起こした可能性があるローカル設計欠陥の両方が含まれる。その後、障害モデルを使用して、再帰的な形でネットワーク70にさらに障害状態76を追加する。追加される障害状態には、報告するスイッチ上の障害状態、またはそれに接続され、報告するスイッチに伝搬され、したがって障害状態74の1つを引き起こした可能性がある先行するスイッチ上の障害状態のすべてを含めなければならない。この処理は、最終的に停止する。というのは、データ・フローが非輪状であり、ネットワーク22が有限だからである。そうであっても、通信ネットワーク22全体を介する障害状態の伝搬によって、手におえないほど大きいベイズ・ネットワーク70がもたらされるはずである。現在の例では、スイッチ28が、破壊されたデータを再送信しないので、伝搬が停止し、したがって、BOP破壊が、ネットワーク22内で、先行するスイッチの受信器ポートより遠い位置から発した可能性はない。下の図9で、本発明の好ましい実施形態に従って作成されたベイズ・ネットワークのサイズを制限する、もう1つの技法を示す。
【0048】
障害状態74および76のそれぞれについて、診断エンジン48は、その状態を引き起こした可能性がある誤動作80に対応するノードをネットワーク70に追加する。誤動作ノードは、故障率分布をそれに関連付けられ、これによって、特定の誤動作の連続的な確率が示される。ネットワーク70を完成させるために、誤動作80を、ブール発生78に関して離散化する。言い換えると、所与の誤動作80を、離散化された故障率分布を有する区間変数によって表す。各区間について、連続故障率分布関数の値を計算して(通常は区間の中点で)、区間の離散化された故障率分布の値を与える。出現変数は、対応する誤動作が発生する確率の計算に使用される。言い換えると、出現変数は、tが、ネットワーク70がそれについて構成された観察されたアラームの観察の時刻であるものとして、その項目がP(時刻tに発生した誤動作|a<故障率<b)によって与えられる条件つき確率テーブルを有するブール変数である。確率テーブルは、ポアソン到着統計などの適当なモデルに従って、対応する誤動作の推定された率によって決定されることが好ましい。ネットワーク70の複雑さを減らすために、誤動作80ごとに1つのブール発生のノード78だけがあることが好ましい。誤動作によって引き起こされる障害状態74および76は、その誤動作に関連する出現変数に接続される。
【0049】
ネットワーク22内の前のスイッチと、USDアラームを報告したスイッチとの間のリンクでBOPビット破壊が発生した場合(ケーブル上と、ケーブルを装置に接続する補助コンポーネントで発生した破壊を含む)、破壊されたビットは、エラー検出コード(EDC)障害82も引き起こしていなければならない。この情況は、「リンク上のUSD」障害状態ノードをEDC障害ノードに接続する、ネットワーク70に追加された辺によって反映される。EDC障害は、観察されたUSDアラーム71の他に、スイッチにEDCアラーム84を発行させているはずである。このEDCアラーム84が、「期待されるアラーム」としてネットワーク70に追加される。診断ユニット20でのEDCアラームの到着または非到着は、USDアラームの可能性の高い原因を判定するのに重要な要因であり、したがって、ネットワーク70内のノードの条件つき確率を調整するのに重要な要因である。
【0050】
図5は、診断エンジン48が受け取るアラーム90のシーケンスの処理を概略的に示すタイミング図である。これらのアラームは、現在のアラームに関するベイズ・ネットワークを構築し、ネットワーク内のノードの確率を評価するのに使用するために、ステップ62(図3)で組み合わせられる。適当な時間ウィンドウ内のアラームのシーケンスを集めることが、たとえば、期待されたアラーム84が、観察されたアラーム71と共に到着したか否かの判定に使用される。時間ウィンドウの選択は、診断ユニット20でのアラーム到着時刻およびアラームの到着の順序の不確実性を正しく扱うために重要である。
【0051】
所与のシーケンス内のどのアラームを処理のために組み合わせるかを判定するために、時間に対する正規分布を、アラームの各タイプに関連付ける。この分布は、アラームの「寿命分布」と称するが、ネットワーク22内である時刻T=0に発生したイベントに関連するアラームの、診断ユニット20での到着の時間に対する確率を表す。言い換えると、図5を参照すると、アラームA”の寿命分布によって、アラームAが時刻Tに受け取られた時に、Aと同一の障害状態によって生成されたアラームA”が、時刻Tに受け取られる推定確率が与えられる。通常、各アラーム・タイプの寿命は、診断ユニットのユーザによって指定されるが、その代わりに、ネットワーク22の実際の性能に基づいて、診断ユニットによって寿命を計算することができる。
【0052】
場合によっては、ネットワーク22のモジュールが、障害の発生のすべてでアラームを発生するのではなく、ある回数の発生を累算し、その後、バッチ・アラームを発行する。この場合、単独のアラーム寿命に閾値係数を掛け、その結果、アラームの寿命分布が広くなるようにする必要がある。したがって、図5には、閾値係数を有しない第1アラーム・タイプの狭い分布92と、低い閾値係数を有する第2アラーム・タイプの中間の分布94と、高い閾値係数を有する第3アラーム・タイプの広い分布96が示されている。
【0053】
確率テーブルおよび誤動作率査定を更新するためにベイズ・ネットワークを処理する(図3の方法のステップ66)前に、診断エンジン48が、シーケンス内の関係する観察されたアラームおよび期待されるアラームのすべてを受け取るまで、待つことが好ましい。待つ時間の長さは、アラーム寿命によって決定される。図5に示されているように、診断エンジン48は、すべての期待されるアラームの到着確率が、所定の閾値未満になる時刻TENDまで待つことが好ましい。その場合に、アラームA、…、A’、A”は、アラームAに関連するとみなされるが、TENDの後に到着するアラームAは、そう見なされない。
【0054】
図6は、本発明の好ましい実施形態による、ネットワーク構築のステップ64(図3の方法の)の詳細を概略的に示す流れ図である。これは、再帰的な方法であり、好ましくは、図4に示されたネットワーク70などのベイズ・ネットワークの構成に使用される。この方法は、初期化のステップ100で、観察されたアラームA(観察されたUSDアラーム71など)が時刻TにモジュールMで受け取られることから始まる。ネットワーク作成のステップ102で、診断エンジン48が、新しいベイズ・ネットワークBNを作成し、アラームAに対応するノードをBNに追加する。障害発見のステップ104で、エンジンが、Aに対応する障害Fを見つけるために、障害モデル50でアラームを検索する。Fに対応するノードを、辺(F、A)と共にBNに追加する。
【0055】
障害状態発見のステップ106で、診断エンジン48が、次に、Fを引き起こした可能性がある障害状態Cを見つけるために、障害モデル50で障害Fを検索する。図4の例からわかるように、どの所与の障害についても、通常は複数のそのような障害状態がある。そのような障害状態Cのそれぞれについて、診断エンジン48が、障害状態追加のステップ108を実行し、これによって、モジュールM上の状態Cに対応するノードがBNに追加され、Cにつながった可能性がある追加の障害状態が検索される。ステップ108には、再帰ルーチンが含まれるが、これについては、図7に関して下で詳細に説明する。このステップでは、各障害状態につながる誤動作および誤動作発生に対応するノードおよび辺も追加される。辺追加のステップ110で、Fを引き起こした可能性がある障害状態Cのそれぞれについて、対応する辺(C、F)をBNに追加する。Fを引き起こした可能性がある可能な障害状態Cのすべてをこの形で処理した後に、ベイズ・ネットワークが完成する。
【0056】
図7は、本発明の好ましい実施形態による、障害状態追加のステップ108で実行されるルーチンの詳細を概略的に示す流れ図である。このルーチンは、ノード追加のステップ120で、モジュールMの状態Cに対応するノードをBNに追加することから始まる。局所性検査のステップ122で、診断エンジン48が、障害モデル50を検査して、状態Cがローカル障害状態と接続障害状態のどちらであるかを判定する。ローカル障害状態の場合、状態Cを引き起こした、モジュールMの誤動作Nだけを検査すればよい。誤動作発見のステップ124で、診断エンジン48が、障害モデル50の可能な誤動作を検索する。誤動作Nのそれぞれについて、誤動作検査のステップ126で、エンジンが、Nに対応するノードがBNに既に存在するかどうかを検査する。そうでない場合には、ノード追加のステップ128で、ノードNをBNに追加する。その後、辺追加のステップ129で、辺(N、C)をBNに追加する。可能な誤動作のすべてをBNに追加した時に、ステップ108が完了する。
【0057】
ステップ122で、接続障害状態が識別される時には、扱いがより複雑になる。この場合、モジュール発見のステップ130で、診断エンジン48が、システム・モデル44および構成データベース46でモジュールMを検索して、M’からMへの接続で障害状態Cが現れる原因になった可能性がある形でMに接続されている1つまたは複数のモジュールM’を見つける。障害状態追加のステップ132で、そのようなモジュールM’のそれぞれについて、診断エンジン48が、状態Cを引き起こした可能性がある、M’上およびM’につながる接続上の障害状態を見つけ、BNに追加する。このステップには、図8に関して下で詳細に説明するルーチンが含まれる。ステップ132のルーチンは、ステップ108のルーチンの再帰の一部を形成する。このルーチンは、障害状態Cの出現につながった可能性がある、M’上およびその接続上(M’に接続された他のモジュールなどを含む)の障害状態のすべてに対応するノードおよび辺がBNに追加されるまで継続する。
【0058】
障害状態Cにつながる可能な接続障害状態のすべてを探査した後に、予期される障害の発見のステップ134で、診断エンジン48が、障害モデル50を照会して、これらの障害状態が、ステップ104で見つかった障害F以外の別の障害F’につながる可能性があるかどうかを判定する。EDC障害82(図4)が、そのような障害の例である。障害ノード追加のステップ136で、そのような期待される障害F’のそれぞれのノードをBNに追加する。さらに、F’によって生成される期待されるアラームA’に対応するノードを、辺(C、F’)および(F’、A’)と共にBNに追加する。他のモジュール上のローカル障害状態に対応する辺および障害F’につながった可能性があるモジュールに関連する接続障害状態に対応する辺が、さらにネットワークに追加される可能性もある。最初のアラームAに対する相対的な時間(指定された寿命によって与えられる)以内に期待されるアラームA’の発生または非発生が、ステップ66(図3)でのベイズ・ネットワークに関する状態確率テーブルの書込に使用される。
【0059】
図8は、本発明の好ましい実施形態による、障害状態追加のステップ132で実行されるルーチンの詳細を概略的に示す流れ図である。上で注記したように、このルーチンは、接続障害状態CがM’とMの間の接続上に現れる可能性がある形でMに接続されたモジュールM’のそれぞれについて実行される。このルーチンは、M’に接続されたモジュールM”についても再帰的に実行される可能性がある。ローカル障害検査のステップ140で、診断エンジン48が、まず、障害モデル50を検査して、Mに接続されたM’の出力上で状態Cを生じた可能性があるM’上のローカル障害状態C’があるかどうかを確認する。そのような状態C’がある場合には、ステップ108のルーチンに従い、必要な変更を加えて、診断エンジン48が、モジュールM’上のC’に対応するノードをベイズ・ネットワークBNに追加する。このルーチンは、C’を引き起こした可能性があるローカル誤動作に対応するノードと、適当な辺の、BNへの追加にもつながる。辺追加のステップ142で、辺(C’、C)もBNに追加する。
【0060】
ローカル障害状態C’が見つかった場合でもそうでない場合でも、Cを生じたC’を生じた可能性がある、M’とM’に接続された他のモジュールM”との間の接続障害状態C”もある場合がある。この情況は、M’がCに伝搬すると言うのと同等である。伝搬のステップ144で、診断エンジン48が、障害モデル50を参照することによって、M’がCに伝搬するかどうかを確認する。M’がCに伝搬する場合には、入力検査のステップ146で、診断エンジン48が、障害モデルを照会して、接続障害状態C”が現れた可能性があるM’の入力を判定する。そのような入力のそれぞれについて、M’上の接続障害状態C”をBNに追加する。このステップでも、必要な変更を加えて、ステップ108のルーチンに従う。辺追加のステップ148で、障害状態C”のそれぞれについて、辺(C”、C)をBNに追加する。ここでステップ132が終了し、ベイズ・ネットワークの構成は、すべての再帰が完了するまでステップ134で継続される。
【0061】
通信ネットワーク22は有限でなければならないので、図6ないし8によって例示されたベイズ・ネットワークを構成する方法は、最終的に必ず停止する。しかし、障害伝搬のためにベイズ・ネットワークが非常に大きくなり、通信ネットワーク全体を表す点まで大きくなる場合がありえる。そのような情況は、完全に手におえない情況であり、回避しなければならない。
【0062】
したがって、本発明の好ましい実施形態では、SANなどの交換ネットワークに固有の規則性を利用することによって、ステップ64でベイズ・ネットワークの増大を制限する。そのようなネットワークは、一般に、少数の異なるモジュール・タイプを有し、これらのタイプが、通常は規則的な構成に配置される。これらの構造は、ベイズ・ネットワークではテンプレートによって表されることが好ましい。所与のテンプレートのすべてのインスタンスが、所与の障害状態の下で同一の期待されるアラームを生じる。通信ネットワークの構造に物理的に存在する、所与のテンプレートの多数のインスタンスが存在する可能性があるが、テンプレートの特定のインスタンスが、その期待されるアラームの1つが実際に観察された時に限って、インスタンス化される、すなわち、ベイズ・ネットワークに追加されることが好ましい。
【0063】
図9は、通信ネットワーク168と、本発明の好ましい実施形態に従って診断エンジン48によって構成された、対応するベイズ・ネットワーク175との規則的な構造を示すグラフである。この例の通信ネットワーク168には、カスケード接続されたスイッチ170、172、および174が含まれ、スイッチ170は、カスケードの第1層にあり、スイッチ172は第2層、スイッチ174は第3層にある。ベイズ・ネットワーク175の構成は、スイッチ170のポートの1つで観察されたアラーム176に対応するノードから開始される。図6ないし8の手順に従って、アラーム176を引き起こした責任を負う障害178に対応するノードと、その障害を引き起こしたスイッチ170の受信器ポートでの障害状態180のノードがベイズ・ネットワーク175に追加される。この状態は、スイッチの中央キューでの障害状態182によって引き起こされた可能性がある。これらは、スイッチ170でのアラーム176を引き起こした可能性があるローカル障害である。
【0064】
アラーム176が、スイッチ172の1つからスイッチ170に伝搬した障害によって引き起こされた可能性もある。そのような障害伝搬は、スイッチ172の送信器ポートでの障害状態184、スイッチを接続するケーブルでの障害状態186、スイッチ172の受信器ポートでの障害状態188、またはスイッチ172の中央キューでの障害状態190を含む、一連の障害状態の1つによって引き起こされる可能性がある。スイッチ170の場合と同様に、スイッチ172での障害状態188または190は、スイッチ172の受信器ポートでの障害192を生じ、期待されるアラーム194につながる。
【0065】
障害状態184、186、188、および190が、障害192および期待されるアラーム194と共に、通信ネットワーク168内のスイッチの1つに対応するベイズ・ネットワーク・テンプレートを構成する(障害状態につながる可能性がある誤動作および誤動作発生に対応するノードは、簡単にするためにここでは省略する)。スイッチ172の1つが、アラーム176の適当な時間制限内に期待されるアラーム194を発行した場合には、アラーム176と期待されるアラーム194が互いに関連すると仮定する慨然論的基礎がある。この場合、アラームを発行するスイッチに対応するテンプレートがインスタンス化される、すなわち、それがベイズ・ネットワーク175に追加される。期待されるアラームが発生しなかった場合には、対応するスイッチが、更新された誤動作査定の計算(ステップ66)に影響せず、テンプレートを、計算を妥協せずにベイズ・ネットワークから省略することができる。この形で、所与のアラームに応答して構成されたベイズ・ネットワークが、計算的に小さく、扱いやすい状態に保たれる。スイッチ172の1つのテンプレートをインスタンス化する場合には、診断エンジン48が、第3層のスイッチ174をベイズ・ネットワーク175に含める必要があるかどうかを判定するために、第3層のスイッチ174に対応する期待されるアラームを検討することが好ましい。しかし、実際には、一般にごく少数のテンプレートをインスタンス化することだけが必要になる。
【0066】
診断ユニット20を使用するネットワーク22の障害診断に関して(発明人のRS/6000 SPシステムでの経験から採用した例を用いて)好ましい実施形態を説明したが、当業者は、本発明の原理が、他のネットワークおよびシステムの障害の突き止めに同様に適用可能であることを諒解するであろう。ほとんどの現代の通信ネットワーク、特にパケット・データ・ネットワークは、診断ユニット20などの診断システムによって使用することができる障害報告機能および構成機能を有する、扱いやすいものである。ネットワークまたはシステムの要素のすべてがモデル化され、これらの要素の間のデータ・フローが非輪状である限り、ベイズ・ネットワークおよびベイズ信頼性理論に基づく診断モデルを、本発明の原理に基づいて適用することができる。この原理は、通信ネットワークおよびコンピュータ・ネットワーク(およびそのようなネットワークのサブシステム)だけではなく、他の種類の電気システムおよび機械システムならびに医療システムおよび金融システムにも適用可能である。
【0067】
Figure 0003579834
Figure 0003579834
Figure 0003579834
Figure 0003579834
【0068】
まとめとして、本発明の構成に関して以下の事項を開示する。
【0069】
(1)相互リンクされた複数のモジュールから構成されたシステムの診断のための方法であって、
前記システムから、前記モジュールの1つの障害を示すアラームを受け取るステップと、
前記アラームに応答して、前記障害を前記障害につながった可能性がある1つまたは複数の前記モジュールでの誤動作に関連付け、前記障害の条件つき確率を前記誤動作のそれぞれの確率に関係付ける、因果ネットワークを構成するステップと、
前記アラームおよび前記因果ネットワークに基づいて、前記誤動作の前記確率の少なくとも1つを更新するステップと、
前記更新された確率に応答して前記アラームの診断を提案するステップと
を含む方法。
(2)前記アラームを受け取るステップが、前記システム内の前記複数のモジュールからイベント・レポートを集めるステップと、前記イベント・レポートから前記アラームを抽出するステップとを含む、上記(1)に記載の方法。
(3)前記イベント・レポートを集めるステップが、前記システムの構成の変更のレポートを受け取るステップを含み、前記因果ネットワークを構成するステップが、前記変更された構成に基づいて前記因果ネットワークを構成するステップを含む、上記(2)に記載の方法。
(4)前記変更された構成に基づいて前記因果ネットワークを構成するステップが、前記構成が記録されるデータベースを維持するステップと、前記因果ネットワークの構成に使用するために、前記構成の前記変更の前記レポートに応答して前記データベースを更新するステップとを含む、上記(3)に記載の方法。
(5)前記アラームを抽出するステップが、前記モジュールの前記1つでの前記障害を示す前記アラームを含む、相互に近接する時刻に発生するアラームのシーケンスを抽出するステップを含み、前記確率の前記少なくとも1つを更新するステップが、前記確率を更新するために前記アラームの前記シーケンスを処理するステップを含む、上記(2)に記載の方法。
(6)前記アラームの前記シーケンスを抽出するステップが、前記システムからの前記アラームの受取の際の期待される遅延に応答して、前記アラームのそれぞれの寿命を定義するステップと、前記それぞれの寿命に応答して前記シーケンスから抽出する前記アラームを選択するステップとを含む、上記(5)に記載の方法。
(7)抽出する前記アラームを選択するステップが、前記因果ネットワークがそれに応答して構成された前記モジュールの前記1つでの前記障害を示す前記アラームの発生の時刻のそれぞれの寿命以内に発生した前記アラームを選択するステップを含む、上記(6)に記載の方法。
(8)前記因果ネットワークを構成するステップが、前記1つまたは複数の前記モジュールでの前記誤動作の1つによって引き起こされる期待されるアラームを定義するステップを含み、前記アラームの前記シーケンスを処理するステップが、アラームの前記抽出されたシーケンス内の前記期待されるアラームの発生に応答して前記確率を更新するステップを含む、上記(5)に記載の方法。
(9)前記因果ネットワークを構成するステップが、前記システム内の前記モジュールのカテゴリおよび前記カテゴリ内の前記モジュールでの前記誤動作の1つによって引き起こされる期待されるアラームに対応する前記ネットワーク内のノードのグループを含むテンプレートを定義するステップと、アラームの前記抽出されたシーケンス内の前記期待されるアラームの発生に応答して前記因果ネットワーク内で前記テンプレートをインスタンス化するステップとを含む、上記(5)に記載の方法。
(10)前記相互リンクされた複数のモジュールが、規則的なパターンで相互リンクされた前記モジュールの所与の1つの複数のインスタンスを含み、前記因果ネットワークを構成するステップが、前記モジュールの前記所与の1つに対応する前記ネットワーク内のノードのグループを含むテンプレートを定義するステップと、前記アラームに応答して前記1つまたは複数のモジュールに関して前記テンプレートをインスタンス化するステップとを含む、上記(1)に記載の方法。
(11)前記テンプレートを定義するステップが、前記モジュールの前記所与の1つの前記インスタンスの1つでの前記誤動作の1つによって引き起こされる期待されるアラームを識別するステップを含み、前記テンプレートをインスタンス化するステップが、前記期待されるアラームの発生に応答して前記ネットワークに前記テンプレートのインスタンスを追加するステップを含む、上記(10)に記載の方法。
(12)前記因果ネットワークを構成するステップが、前記障害が発生した前記モジュールの前記1つでのローカル障害状態を識別するステップと、前記ローカル障害状態に応答して、前記因果ネットワーク内で、前記モジュールの前記1つで発生する前記誤動作の1つに前記障害をリンクするステップとを含む、上記(1)に記載の方法。
(13)前記因果ネットワークを構成するステップが、前記システム内の前記モジュールの第2の1つとの接続に起因して前記モジュールの第1の1つで発生する第1障害状態を識別するステップと、前記第1障害状態に応答して、前記因果ネットワーク内で、前記モジュールの前記第2の1つで発生する第2障害状態に前記障害をリンクするステップとを含む、上記(1)に記載の方法。
(14)前記障害をリンクするステップが、前記第2障害状態の可能な原因が、前記モジュールの前記第2の1つと前記システム内の前記モジュールの第3の1つとの間のもう1つの接続に起因するかどうかを判定するステップと、前記もう1つの接続に応答して、前記因果ネットワーク内で、前記モジュールの前記第3の1つで発生する第3障害状態に前記障害をリンクするステップとを含む、上記(13)に記載の方法。
(15)前記因果ネットワークを構成するステップが、前記誤動作の前記それぞれの確率に応答して、前記誤動作の1つの複数の発生を前記因果ネットワークに追加するステップと、前記因果ネットワーク内で前記複数の発生に前記障害をリンクするステップとを含む、上記(1)に記載の方法。
(16)前記複数の発生に前記障害をリンクするステップが、前記発生のそれぞれによって引き起こされる1つまたは複数の障害状態を判定するステップと、前記障害状態の少なくとも一部を前記障害にリンクするステップとを含む、上記(15)に記載の方法。
(17)前記誤動作の前記確率の前記少なくとも1つを更新するステップが、前記1つまたは複数の前記モジュールの障害の間の平均時間を査定するステップを含む、上記(1)に記載の方法。
(18)前記誤動作の前記確率が、平均および積率を有する確率分布に関して定義され、前記確率の前記少なくとも1つを更新するステップが、前記確率分布の前記平均および前記積率を再査定するステップを含む、上記(1)に記載の方法。
(19)前記確率分布が、故障率分布を含み、前記平均および前記積率を再査定するステップが、ベイズ信頼性理論モデルを使用して前記故障率分布を更新するステップを含む、上記(18)に記載の方法。
(20)前記診断を提案するステップが、前記更新された確率の1つまたは複数を所定の閾値と比較するステップと、前記確率の前記1つが前記閾値を超える時に診断アクションを起動するステップとを含む、上記(1)に記載の方法。
(21)前記診断アクションを起動するステップが、前記診断について前記システムのユーザに通知するステップを含む、上記(20)に記載の方法。
(22)前記ユーザに通知するステップが、前記因果ネットワークに基づく前記診断の説明を提供するステップを含む、上記(21)に記載の方法。
(23)前記診断アクションを起動するステップが、前記誤動作を検証するために診断テストを実行するステップを含み、前記診断テストが、前記閾値を超える前記確率の前記1つに応答して選択される、上記(20)に記載の方法。
(24)前記診断テストの結果に応答して前記因果ネットワークを変更するステップを含む、上記(23)に記載の方法。
(25)相互リンクされた複数のモジュールから構成されたシステムの診断のための方法であって、
前記モジュールの1つでの障害を前記障害につながった可能性がある2つ以上の前記モジュールでの誤動作と関連付け、前記障害の条件つき確率を前記誤動作のそれぞれの確率分布に関係付ける因果ネットワークを構成するステップと、
前記障害を示す前記システムからのアラームに応答して、前記誤動作の前記確率分布を更新するステップと、
前記更新された確率分布に応答して前記アラームの診断を提案するステップと
を含む方法。
(26)前記確率分布を更新するステップが、前記2つ以上の前記モジュールの障害の間の平均時間を査定するステップを含む、上記(25)に記載の方法。
(27)前記確率分布が、平均および積率を有し、前記確率分布を更新するステップが、前記確率分布の前記平均および前記積率を再査定するステップを含む、上記(25)に記載の方法。
(28)前記確率分布が、故障率分布を含み、前記平均および前記積率を再査定するステップが、ベイズ信頼性理論モデルを使用して前記故障率分布を更新するステップを含む、上記(27)に記載の方法。
(29)前記2つ以上の前記モジュールが、前記障害が発生した前記モジュールの前記1つを含み、前記因果ネットワークを構成するステップが、前記モジュールの前記1つでのローカル障害状態を識別するステップと、前記ローカル障害状態に応答して、前記因果ネットワーク内で、前記モジュールの前記1つで発生する前記誤動作の1つに前記障害をリンクするステップとを含む、上記(25)に記載の方法。
(30)前記2つ以上の前記モジュールが、第1モジュールおよび第2モジュールを含み、前記因果ネットワークを構成するステップが、前記システム内の前記第2モジュールとの接続に起因して前記第1モジュールで発生する第1障害状態を識別するステップと、前記第1障害状態に応答して、前記因果ネットワーク内で、前記第2モジュールで発生する第2障害状態に前記障害をリンクするステップとを含む、上記(25)に記載の方法。
(31)前記2つ以上の前記モジュールが、第3モジュールを含み、前記障害をリンクするステップが、前記第2障害状態の可能な原因が、前記第2モジュールと前記第3モジュールとの間の前記システム内のもう1つの接続に起因するかどうかを判定するステップと、前記もう1つの接続に応答して、前記因果ネットワーク内で、前記第3モジュールで発生する第3障害状態に前記障害をリンクするステップとを含む、上記(30)に記載の方法。
(32)相互リンクされた複数のモジュールから構成されたシステムの診断のための装置であって、前記装置が、診断プロセッサを含み、前記診断プロセッサが、前記システムから、前記モジュールの1つの障害を示すアラームを受け取るように結合され、前記診断プロセッサが、前記アラームに応答して、前記障害を前記障害につながった可能性がある1つまたは複数の前記モジュールでの誤動作に関連付け、前記障害の条件つき確率を前記誤動作のそれぞれの確率に関係付ける、因果ネットワークを構成し、前記アラームおよび前記因果ネットワークに基づいて、前記誤動作の前記確率の少なくとも1つを更新して、前記更新された確率に応答して前記アラームの診断を提案するように配置される、装置。
(33)前記診断プロセッサが、前記システム内の前記複数のモジュールからイベント・レポートを受け取り、前記イベント・レポートから前記アラームを抽出するようにリンクされる、上記(32)に記載の装置。
(34)前記イベント・レポートが、前記システムの構成の変更のレポートを含み、前記診断プロセッサが、前記変更された構成に基づいて前記因果ネットワークを構成するように配置される、上記(33)に記載の装置。
(35)前記構成が記録されるデータベースを含むメモリを含み、前記因果ネットワークの構成に使用するために、前記診断プロセッサが、前記構成の前記変更の前記レポートに応答して前記データベースを更新するように結合される、上記(34)に記載の装置。
(36)前記診断プロセッサが、前記モジュールの前記1つでの前記障害を示す前記アラームを含む、相互に近接する時刻に発生するアラームのシーケンスを抽出し、前記確率を更新するために前記アラームの前記シーケンスを処理するように結合される、上記(33)に記載の装置。
(37)それぞれの寿命が、前記システムからの前記アラームの受取の際の期待される遅延に応答して、前記アラームに関して定義され、前記診断プロセッサが、前記それぞれの寿命に応答して前記シーケンスから抽出する前記アラームを選択するように配置される、上記(36)に記載の装置。
(38)前記診断プロセッサが、前記因果ネットワークがそれに応答して構成された前記モジュールの前記1つでの前記障害を示す前記アラームの発生の時刻のそれぞれの寿命以内に発生した前記アラームを選択するように配置される、上記(37)に記載の装置。
(39)前記因果ネットワークを構成する際に、前記診断プロセッサが、前記1つまたは複数の前記モジュールでの前記誤動作の1つによって引き起こされる期待されるアラームを定義するように配置され、前記診断プロセッサが、さらに、アラームの前記抽出されたシーケンス内の前記期待されるアラームの発生に応答して前記確率を更新するように配置される、上記(36)に記載の装置。
(40)前記システム内の前記モジュールのカテゴリおよび前記カテゴリ内の前記モジュールでの前記誤動作の1つによって引き起こされる期待されるアラームに対応する前記ネットワーク内のノードのグループを含むテンプレートが定義され、前記診断プロセッサが、アラームの前記抽出されたシーケンス内の前記期待されるアラームの発生に応答して前記因果ネットワーク内で前記テンプレートをインスタンス化するように配置される、上記(36)に記載の装置。
(41)前記相互リンクされた複数のモジュールが、規則的なパターンで相互リンクされた前記モジュールの所与の1つの複数のインスタンスを含み、前記モジュールの前記所与の1つに対応する前記ネットワーク内のノードのグループを含むテンプレートが定義され、前記診断プロセッサが、前記アラームに応答して1つまたは複数の前記モジュールに関して前記テンプレートをインスタンス化するように配置される、上記(32)に記載の装置。
(42)前記テンプレートが、前記モジュールの前記所与の1つの前記インスタンスの1つでの前記誤動作の1つによって引き起こされる期待されるアラームを含み、前記診断プロセッサが、前記期待されるアラームの発生に応答して前記ネットワークに前記テンプレートのインスタンスを追加することによって前記テンプレートをインスタンス化するように配置される、上記(41)に記載の装置。(43)前記診断プロセッサが、前記障害が発生した前記モジュールの前記1つでのローカル障害状態を識別し、前記ローカル障害状態に応答して、前記因果ネットワーク内で、前記モジュールの前記1つで発生する前記誤動作の1つに前記障害をリンクするように配置される、上記(32)に記載の装置。
(44)前記診断プロセッサが、前記システム内の前記モジュールの第2の1つとの接続に起因して前記モジュールの第1の1つで発生する第1障害状態を識別し、前記第1障害状態に応答して、前記因果ネットワーク内で、前記モジュールの前記第2の1つで発生する第2障害状態に前記障害をリンクするように配置される、上記(32)に記載の装置。
(45)前記診断プロセッサが、前記第2障害状態の可能な原因が、前記モジュールの前記第2の1つと前記システム内の前記モジュールの第3の1つとの間のもう1つの接続に起因するかどうかを判定し、前記もう1つの接続に応答して、前記因果ネットワーク内で、前記モジュールの前記第3の1つで発生する第3障害状態に前記障害をリンクするように配置される、上記(44)に記載の装置。
(46)前記診断プロセッサが、前記誤動作の前記それぞれの確率に応答して、前記誤動作の1つの複数の発生を前記因果ネットワークに追加し、前記因果ネットワーク内で前記複数の発生に前記障害をリンクするように配置される、上記(32)に記載の装置。
(47)前記診断プロセッサが、前記発生のそれぞれによって引き起こされる1つまたは複数の障害状態を判定し、前記障害状態の少なくとも一部を前記障害にリンクするように配置される、上記(46)に記載の装置。
(48)前記誤動作の前記確率の前記少なくとも1つが、前記1つまたは複数の前記モジュールの障害の間の平均時間として表される、上記(32)に記載の装置。
(49)前記誤動作の前記確率が、平均および積率を有する確率分布に関して定義され、前記診断プロセッサが、前記確率分布の前記平均および前記積率を更新するように配置される、上記(32)に記載の装置。
(50)前記確率分布が、故障率分布を含み、前記診断プロセッサが、ベイズ信頼性理論モデルを使用して前記故障率分布を更新するように配置される、上記(49)に記載の装置。
(51)前記診断プロセッサが、前記更新された確率の1つまたは複数を所定の閾値と比較し、前記確率の前記1つが前記閾値を超える時に診断アクションを起動するように配置される、上記(32)に記載の装置。
(52)ユーザ・インターフェースを含み、前記診断プロセッサが、前記ユーザ・インターフェースを介して前記診断について前記システムのユーザに通知するように結合される、上記(51)に記載の装置。
(53)前記診断プロセッサが、前記ユーザ・インターフェースを介して、前記因果ネットワークに基づく前記診断の説明を提供するように配置される、上記(52)に記載の装置。
(54)前記診断アクションが、前記誤動作を検証するために実行される診断テストを含み、前記診断テストが、前記閾値を超える前記確率の前記1つに応答して選択される、上記(51)に記載の装置。
(55)前記診断プロセッサが、前記診断テストの結果に応答して前記因果ネットワークを変更するように配置される、上記(54)に記載の装置。
(56)相互リンクされた複数のモジュールから構成されたシステムの診断のための装置であって、前記装置が、診断プロセッサを含み、前記診断プロセッサが、前記モジュールの1つでの障害を前記障害につながった可能性がある2つ以上の前記モジュールでの誤動作と関連付け、前記障害の条件つき確率を前記誤動作のそれぞれの確率分布に関係付ける因果ネットワークを構成し、前記障害を示す前記システムからのアラームに応答して、前記誤動作の前記確率分布を更新して、前記更新された確率分布に応答して前記アラームの診断を提案するように配置される、装置。
(57)前記確率分布が、前記2つ以上の前記モジュールの障害の間の平均時間を示す、上記(56)に記載の装置。
(58)前記確率分布が、平均および積率を有し、前記診断プロセッサが、前記アラームに応答して、前記確率分布の前記平均および前記積率を再査定するように配置される、上記(56)に記載の装置。
(59)前記確率分布が、故障率分布を含み、前記診断プロセッサが、ベイズ信頼性理論モデルを使用して前記故障率分布を更新するように配置される、上記(58)に記載の装置。
(60)前記2つ以上の前記モジュールが、前記障害が発生した前記モジュールの前記1つを含み、前記診断プロセッサが、前記モジュールの前記1つでのローカル障害状態を識別し、前記ローカル障害状態に応答して、前記因果ネットワーク内で、前記モジュールの前記1つで発生する前記誤動作の1つに前記障害をリンクするように配置される、上記(56)に記載の装置。
(61)前記2つ以上の前記モジュールが、第1モジュールおよび第2モジュールを含み、前記診断プロセッサが、前記システム内の前記第2モジュールとの接続に起因して前記第1モジュールで発生する第1障害状態を識別し、前記第1障害状態に応答して、前記因果ネットワーク内で、前記第2モジュールで発生する第2障害状態に前記障害をリンクするように配置される、上記(56)に記載の装置。
(62)前記2つ以上の前記モジュールが、第3モジュールを含み、前記診断プロセッサが、前記第2障害状態の可能な原因が、前記第2モジュールと前記第3モジュールとの間の前記システム内のもう1つの接続に起因するかどうかを判定し、前記もう1つの接続に応答して、前記因果ネットワーク内で、前記第3モジュールで発生する第3障害状態に前記障害をリンクするように配置される、上記(61)に記載の装置。
(63)相互リンクされた複数のモジュールから構成されたシステムの診断のためのコンピュータ・ソフトウェア製品であって、前記コンピュータ・ソフトウェア製品が、プログラム命令が保管されたコンピュータ可読媒体を含み、前記プログラム命令が、コンピュータによって読み取られた時に、前記コンピュータに、前記システムから前記モジュールの1つの障害を示すアラームを受け取ることと、前記アラームに応答して、前記障害を前記障害につながった可能性がある1つまたは複数の前記モジュールでの誤動作に関連付け、前記障害の条件つき確率を前記誤動作のそれぞれの確率に関係付ける、因果ネットワークを構成することと、前記アラームおよび前記因果ネットワークに基づいて、前記誤動作の前記確率の少なくとも1つを更新して、前記更新された確率に応答して前記アラームの診断を提案することとを行わせる、コンピュータ・ソフトウェア製品。
(64)前記プログラム命令が、前記コンピュータに、前記システム内の前記複数のモジュールからイベント・レポートを受け取ることと、前記イベント・レポートから前記アラームを抽出することとを行わせる、上記(63)に記載のコンピュータ・ソフトウェア製品。
(65)前記イベント・レポートが、前記システムの構成の変更のレポートを含み、前記プログラム命令が、前記コンピュータに、前記変更された構成に基づいて前記因果ネットワークを構成することを行わせる、上記(64)に記載のコンピュータ・ソフトウェア製品。
(66)前記プログラム命令が、前記コンピュータに、前記構成の前記変更の前記レポートに応答して、前記因果ネットワークの構成に使用するために、前記構成が記録されるデータベースを更新することを行わせる、上記(65)に記載のコンピュータ・ソフトウェア製品。
(67)前記プログラム命令が、前記コンピュータに、前記モジュールの前記1つでの前記障害を示す前記アラームを含む、相互に近接する時刻に発生するアラームのシーケンスを抽出することと、前記確率を更新するために前記アラームの前記シーケンスを処理することとを行わせる、上記(64)に記載のコンピュータ・ソフトウェア製品。
(68)それぞれの寿命が、前記システムからの前記アラームの受取の際の期待される遅延に応答して、前記アラームに関して定義され、前記プログラム命令が、前記コンピュータに、前記それぞれの寿命に応答して前記シーケンスから抽出する前記アラームを選択することを行わせる、上記(67)に記載のコンピュータ・ソフトウェア製品。
(69)前記プログラム命令が、前記コンピュータに、前記因果ネットワークがそれに応答して構成された前記モジュールの前記1つでの前記障害を示す前記アラームの発生の時刻のそれぞれの寿命以内に発生した前記アラームを選択することを行わせる、上記(68)に記載のコンピュータ・ソフトウェア製品。
(70)前記プログラム命令が、前記コンピュータに、前記因果ネットワークを構成する際に、前記1つまたは複数の前記モジュールでの前記誤動作の1つによって引き起こされる期待されるアラームを定義することと、アラームの前記抽出されたシーケンス内の前記期待されるアラームの発生に応答して前記確率を更新することとを行わせる、上記(67)に記載のコンピュータ・ソフトウェア製品。
(71)前記システム内の前記モジュールのカテゴリおよび前記カテゴリ内の前記モジュールでの前記誤動作の1つによって引き起こされる期待されるアラームに対応する前記ネットワーク内のノードのグループを含むテンプレートが定義され、前記プログラム命令が、前記コンピュータに、アラームの前記抽出されたシーケンス内の前記期待されるアラームの発生に応答して前記因果ネットワーク内で前記テンプレートをインスタンス化することを行わせる、上記(67)に記載のコンピュータ・ソフトウェア製品。
(72)前記相互リンクされた複数のモジュールが、規則的なパターンで相互リンクされた前記モジュールの所与の1つの複数のインスタンスを含み、前記モジュールの前記所与の1つに対応する前記ネットワーク内のノードのグループを含むテンプレートが定義され、前記プログラム命令が、前記コンピュータに、前記アラームに応答して前記モジュールの1つまたは複数に関して前記テンプレートをインスタンス化することを行わせる、上記(63)に記載のコンピュータ・ソフトウェア製品。
(73)前記テンプレートが、前記モジュールの前記所与の1つの前記インスタンスの1つでの前記誤動作の1つによって引き起こされる期待されるアラームを含み、前記プログラム命令が、前記コンピュータに、前記期待されるアラームの発生に応答して前記ネットワークに前記テンプレートのインスタンスを追加することによって前記テンプレートをインスタンス化することを行わせる、上記(72)に記載のコンピュータ・ソフトウェア製品。
(74)前記プログラム命令が、前記コンピュータに、前記障害が発生した前記モジュールの前記1つでのローカル障害状態を識別することと、前記ローカル障害状態に応答して、前記因果ネットワーク内で、前記モジュールの前記1つで発生する前記誤動作の1つに前記障害をリンクすることとを行わせる、上記(63)に記載のコンピュータ・ソフトウェア製品。
(75)前記プログラム命令が、前記コンピュータに、前記システム内の前記モジュールの第2の1つとの接続に起因して前記モジュールの第1の1つで発生する第1障害状態を識別することと、前記第1障害状態に応答して、前記因果ネットワーク内で、前記モジュールの前記第2の1つで発生する第2障害状態に前記障害をリンクすることとを行わせる、上記(63)に記載のコンピュータ・ソフトウェア製品。
(76)前記プログラム命令が、前記コンピュータに、前記第2障害状態の可能な原因が、前記モジュールの前記第2の1つと前記システム内の前記モジュールの第3の1つとの間のもう1つの接続に起因するかどうかを判定することと、前記もう1つの接続に応答して、前記因果ネットワーク内で、前記モジュールの前記第3の1つで発生する第3障害状態に前記障害をリンクすることとを行わせる、上記(75)に記載のコンピュータ・ソフトウェア製品。
(77)前記プログラム命令が、前記コンピュータに、前記誤動作の前記それぞれの確率に応答して、前記誤動作の1つの複数の発生を前記因果ネットワークに追加することと、前記因果ネットワーク内で前記複数の発生に前記障害をリンクすることとを行わせる、上記(63)に記載のコンピュータ・ソフトウェア製品。
(78)前記プログラム命令が、前記コンピュータに、前記発生のそれぞれによって引き起こされる1つまたは複数の障害状態を判定することと、前記障害状態の少なくとも一部を前記障害にリンクすることとを行わせる、上記(77)に記載のコンピュータ・ソフトウェア製品。
(79)前記誤動作の前記確率の前記少なくとも1つが、前記1つまたは複数の前記モジュールの障害の間の平均時間として表される、上記(63)に記載のコンピュータ・ソフトウェア製品。
(80)前記誤動作の前記確率が、平均および積率を有する確率分布に関して定義され、前記プログラム命令が、前記コンピュータに、前記確率分布の前記平均および前記積率を更新することを行わせる、上記(63)に記載のコンピュータ・ソフトウェア製品。
(81)前記確率分布が、故障率分布を含み、前記プログラム命令が、前記コンピュータに、ベイズ信頼性理論モデルを使用して前記故障率分布を更新することを行わせる、上記(80)に記載のコンピュータ・ソフトウェア製品。
(82)前記プログラム命令が、前記コンピュータに、前記更新された確率の1つまたは複数を所定の閾値と比較することと、前記確率の前記1つが前記閾値を超える時に診断アクションを起動することとを行わせる、上記(63)に記載のコンピュータ・ソフトウェア製品。
(83)前記プログラム命令が、前記コンピュータに、前記診断について前記システムのユーザに通知することを行わせる、上記(82)に記載のコンピュータ・ソフトウェア製品。
(84)前記プログラム命令が、前記コンピュータに、前記因果ネットワークに基づく前記診断の説明をユーザに提供することを行わせる、上記(83)に記載のコンピュータ・ソフトウェア製品。
(85)前記診断アクションが、前記誤動作を検証するために実行される診断テストを含み、前記診断テストが、前記閾値を超える前記確率の前記1つに応答して選択される、上記(82)に記載のコンピュータ・ソフトウェア製品。
(86)前記プログラム命令が、前記コンピュータに、前記診断テストの結果に応答して前記因果ネットワークを変更することを行わせる、上記(85)に記載のコンピュータ・ソフトウェア製品。
(87)相互リンクされた複数のモジュールから構成されたシステムの診断のための製品であって、前記製品が、プログラム命令が保管されたコンピュータ可読媒体を含み、前記プログラム命令が、コンピュータによって読み取られた時に、前記コンピュータに、前記モジュールの1つでの障害を前記障害につながった可能性がある2つ以上の前記モジュールでの誤動作と関連付け、前記障害の条件つき確率を前記誤動作のそれぞれの確率分布に関係付ける因果ネットワークを構成することと、前記障害を示す前記システムからのアラームに応答して、前記誤動作の前記確率分布を更新して、前記更新された確率分布に応答して前記アラームの診断を提案することとを行わせる、製品。
(88)前記確率分布が、前記2つ以上の前記モジュールの障害の間の平均時間を示す、上記(87)に記載の製品。
(89)前記確率分布が、平均および積率を有し、前記プログラム命令が、前記コンピュータに、前記アラームに応答して、前記確率分布の前記平均および前記積率を再査定することを行わせる、上記(87)に記載の製品。
(90)前記確率分布が、故障率分布を含み、前記プログラム命令が、前記コンピュータに、ベイズ信頼性理論モデルを使用して前記故障率分布を更新することを行わせる、上記(89)に記載の製品。
(91)前記2つ以上の前記モジュールが、前記障害が発生した前記モジュールの前記1つを含み、前記プログラム命令が、前記コンピュータに、前記モジュールの前記1つでのローカル障害状態を識別することと、前記ローカル障害状態に応答して、前記因果ネットワーク内で、前記モジュールの前記1つで発生する前記誤動作の1つに前記障害をリンクすることとを行わせる、上記(87)に記載の製品。
(92)前記2つ以上の前記モジュールが、第1モジュールおよび第2モジュールを含み、前記プログラム命令が、前記コンピュータに、前記システム内の前記第2モジュールとの接続に起因して前記第1モジュールで発生する第1障害状態を識別することと、前記第1障害状態に応答して、前記因果ネットワーク内で、前記第2モジュールで発生する第2障害状態に前記障害をリンクすることとを行わせる、上記(87)に記載の製品。
(93)前記2つ以上の前記モジュールが、第3モジュールを含み、前記プログラム命令が、前記コンピュータに、前記第2障害状態の可能な原因が、前記第2モジュールと前記第3モジュールとの間の前記システム内のもう1つの接続に起因するかどうかを判定することと、前記もう1つの接続に応答して、前記因果ネットワーク内で、前記第3モジュールで発生する第3障害状態に前記障害をリンクすることとを行わせる、上記(87)に記載の製品。
【図面の簡単な説明】
【図1】本発明の好ましい実施形態による、モデルベースの診断ユニットを有する管理可能なコンピュータ・ネットワークを概略的に示すブロック図である。
【図2】本発明の好ましい実施形態による、図1の診断ユニットの詳細を概略的に示すブロック図である。
【図3】本発明の好ましい実施形態による、ネットワーク診断のための方法を概略的に示す流れ図である。
【図4】本発明の好ましい実施形態による、通信ネットワーク内のアラームに応答して構成された例示的ベイズ・ネットワークを示すグラフである。
【図5】本発明の好ましい実施形態による、アラームのシーケンスを処理する方法を概略的に例示するタイミング図である。
【図6】本発明の好ましい実施形態による、アラームに応答してベイズ・ネットワークを構成する方法を概略的に示す流れ図である。
【図7】図6の方法に従って構成されたベイズ・ネットワークに障害状態を追加する方法を概略的に示す流れ図である。
【図8】図6の方法に従って構成されたベイズ・ネットワークに障害状態を追加する方法を概略的に示す流れ図である。
【図9】本発明の好ましい実施形態による、モデル化される通信ネットワークの規則性を利用するベイズ・ネットワークの構成の方法を示すグラフである。
【符号の説明】
20 診断ユニット
40 イベント・フォーマッタおよびマージャ
42 構成トラッカ
44 システム・モデル
46 構成データベース
48 診断エンジン
50 障害モデル
52 勧告および説明ジェネレータ
54 ユーザ・インターフェース
60 アラームを受け取るステップ
62 シーケンス内で他のアラームと組み合わせるステップ
64 既存の誤動作率査定を使用して、アラーム・シーケンスに関するベイズ・ネットワークを構築するステップ
66 ネットワーク内の誤動作に関する率査定を更新するステップ
68 誤動作率に基づいて勧告を作るステップ

Claims (93)

  1. 複数のモジュールが接続されて構成されたシステムにおいて、このシステムを診断する方法であって、
    前記システムの構成が変更された場合に、この変更された構成に基づいて前記システムのトポロジ情報を、前記システムを診断する診断ユニットが、更新するステップと、
    前記モジュールの1つの障害を示すアラームを、前記システムから、前記診断ユニットが受け取るステップと、
    前記アラームを受け取ると、前記障害を発生したモジュールの誤動作と、前記障害を発生したモジュールとは異なるが、前記障害につながった可能性があるモジュールの誤動作とを、前記トポロジ情報に基づいて、前記診断ユニットが、前記障害と関係付けて因果ネットワークを構成するステップと、
    前記障害を条件とした前記モジュールの条件つき確率と前記モジュールの誤動作の発生する確率とを、前記診断ユニットが計算するステップと、
    前記トポロジ情報に基づいて、前記診断ユニットが、前記条件つき確率を前記誤動作の発生する確率に関係付け、前記条件つき確率と前記誤動作の発生する確率とを前記因果ネットワークに追加するステップと、
    前記アラームおよび前記因果ネットワークに基づいて、前記診断ユニットが、前記誤動作の発生する確率の少なくとも1つを更新するステップと、
    前記更新された誤動作の発生する確率に応答して、前記診断ユニットが、前記アラームの診断を提案するステップとを含む、前記システムを診断する方法。
  2. 前記アラームを受け取るステップが、前記システム内の前記複数のモジュールからイベント・レポートを集めるステップと、前記イベント・レポートから前記アラームを抽出するステップとを含む、請求項1に記載の方法。
  3. 前記イベント・レポートを集めるステップが、前記システムの構成の変更のレポートを受け取るステップを含み、前記因果ネットワークを構成するステップが、前記変更された構成に基づいて前記因果ネットワークを構成するステップを含む、請求項2に記載の方法。
  4. 前記変更された構成に基づいて前記因果ネットワークを構成するステップが、前記構成が記録されるデータベースを維持するステップと、前記因果ネットワークの構成に使用するために、前記構成の前記変更の前記レポートに応答して前記データベースを更新するステップとを含む、請求項3に記載の方法。
  5. 前記アラームを抽出するステップが、前記モジュールの前記1つでの前記障害を示す前記アラームを含む、相互に近接する時刻に発生するアラームのシーケンスを抽出するステップを含み、前記確率の前記少なくとも1つを更新するステップが、前記確率を更新するために前記アラームの前記シーケンスを処理するステップを含む、請求項2に記載の方法。
  6. 前記アラームの前記シーケンスを抽出するステップが、前記システムからの前記アラームの受取の際の期待される遅延に応答して、前記アラームのそれぞれの寿命を定義するステップと、前記それぞれの寿命に応答して前記シーケンスから抽出する前記アラームを選択するステップとを含む、請求項5に記載の方法。
  7. 抽出する前記アラームを選択するステップが、前記因果ネットワークがそれに応答して構成された前記モジュールの前記1つでの前記障害を示す前記アラームの発生の時刻のそれぞれの寿命以内に発生した前記アラームを選択するステップを含む、請求項6に記載の方法。
  8. 前記因果ネットワークを構成するステップが、前記1つまたは複数の前記モジュールでの前記誤動作の1つによって引き起こされる期待されるアラームを定義するステップを含み、前記アラームの前記シーケンスを処理するステップが、アラームの前記抽出されたシーケンス内の前記期待されるアラームの発生に応答して前記確率を更新するステップを含む、請求項5に記載の方法。
  9. 前記因果ネットワークを構成するステップが、前記システム内の前記モジュールのカテゴリおよび前記カテゴリ内の前記モジュールでの前記誤動作の1つによって引き起こされる期待されるアラームに対応する前記ネットワーク内のノードのグループを含むテンプレートを定義するステップと、アラームの前記抽出されたシーケンス内の前記期待されるアラームの発生に応答して前記因果ネットワーク内で前記テンプレートをインスタンス化するステップとを含む、請求項5に記載の方法。
  10. 前記障害に関連したノードからなるテンプレートを定義するステップと、
    前記障害によるアラームが発生した場合に、前記テンプレートを、前記因果ネットワークに追加するステップと、を含む請求項1に記載の方法。
  11. 前記テンプレートを定義するステップにおいて前記モジュールの誤動作の1つによって引き起こされるアラームを予想するステップを含み、
    前記テンプレートを追加するステップにおいて、前記予想されるアラームの発生に応答して前記因果ネットワークに前記テンプレートを追加するステップを含む、請求項10に記載の方法。
  12. 前記因果ネットワークを構成するステップが、前記障害が発生した前記モジュールの前記1つでのローカル障害状態を識別するステップと、前記ローカル障害状態に応答して、前記因果ネットワーク内で、前記モジュールの前記1つで発生する前記誤動作の1つに前記障害をリンクするステップとを含む、請求項1に記載の方法。
  13. 前記因果ネットワークを構成するステップにおいて、
    前記システム内の誤動作を生じたモジュールと接続をしているために、第1のモジュールで第1障害状態を発生したことを識別するステップと、
    前記第1障害状態に応答して、前記因果ネットワーク内で、前記第2のモジュールで発生する第2障害状態に前記障害をリンクし、因果ネットワークに追加するステップと、を含む、請求項1に記載の方法。
  14. 前記識別するステップにおいて、前記第2障害状態の可能な原因が、前記誤動作を生じたモジュール又は、前記システム内のその他のモジュールとの接続に起因するかどうかを判定するステップと、
    前記その他のモジュールとの接続に起因した場合に、前記因果ネットワーク内で、前記その他のモジュールで発生する第3障害状態に前記障害をリンクし、因果ネットワークに追加するステップとを含む、請求項13に記載の方法。
  15. 前記因果ネットワークを追加するステップが、前記誤動作の発生する確率に応答して、前記誤動作の1つの複数の発生を前記因果ネットワークに追加するステップと、前記因果ネットワーク内で前記複数の発生に前記障害をリンクするステップとを含む、請求項1に記載の方法。
  16. 前記複数の発生に前記障害をリンクするステップが、前記発生のそれぞれによって引き起こされる1つまたは複数の障害状態を判定するステップと、前記障害状態の少なくとも一部を前記障害にリンクするステップとを含む、請求項15に記載の方法。
  17. 前記誤動作の前記確率の前記少なくとも1つを更新するステップが、前記1つまたは複数の前記モジュールの障害の間の平均時間を査定するステップを含む、請求項1に記載の方法。
  18. 前記誤動作の前記確率が、平均および積率を有する確率分布に関して定義され、前記確率の前記少なくとも1つを更新するステップが、前記確率分布の前記平均および前記積率を再査定するステップを含む、請求項1に記載の方法。
  19. 前記確率分布が、故障率分布を含み、前記平均および前記積率を再査定するステップが、ベイズ信頼性理論モデルを使用して前記故障率分布を更新するステップを含む、請求項18に記載の方法。
  20. 前記診断を提案するステップが、前記更新された確率の1つまたは複数を所定の閾値と比較するステップと、前記確率の前記1つが前記閾値を超える時に診断アクションを起動するステップとを含む、請求項1に記載の方法。
  21. 前記診断アクションを起動するステップが、前記診断について前記システムのユーザに通知するステップを含む、請求項20に記載の方法。
  22. 前記ユーザに通知するステップが、前記因果ネットワークに基づく前記診断の説明を提供するステップを含む、請求項21に記載の方法。
  23. 前記診断アクションを起動するステップが、前記誤動作を検証するために診断テストを実行するステップを含み、前記診断テストが、前記閾値を超える前記確率の前記1つに応答して選択される、請求項20に記載の方法。
  24. 前記診断テストの結果に応答して前記因果ネットワークを変更するステップを含む、請求項23に記載の方法。
  25. 複数のモジュールが接続されて構成されたシステムにおいて、このシステムを診断する方法であって、
    前記システムの構成が変更された場合に、この変更された構成に基づいて前記システムのトポロジ情報を、前記システムを診断する診断ユニットが、更新するステップと、
    前記モジュールの1つの障害を示すアラームを、前記システムから、前記診断ユニットが受け取るステップと、
    前記アラームを受け取ると、前記障害を発生したモジュールの誤動作と、前記障害を発生したモジュールとは異なるが、前記障害につながった可能性があるモジュールの誤動作とを、前記トポロジ情報に基づいて、前記診断ユニットが、前記障害と関係付けて因果ネットワークを構成するステップと、
    前記障害を条件とした前記モジュールの条件つき確率と前記モジュールの誤動作の発生する確率を示す確率分布とを、前記診断ユニットが計算するステップと、
    前記トポロジ情報に基づいて、前記診断ユニットが、前記確率分布に前記条件つき確率を関係付け、前記条件つき確率と前記確率分布とを前記因果ネットワークに追加するステップと、
    前記アラームおよび前記因果ネットワークに基づいて、前記診断ユニットが、前記確率分布の少なくとも1つを更新するステップと、
    前記更新された誤動作の発生する確率を示す確率分布に応答して、前記診断ユニットが、前記アラームの診断を提案するステップとを含む、前記システムを診断する方法。
  26. 前記確率分布を更新するステップが、前記2つ以上の前記モジュールの障害の間の平均時間を査定するステップを含む、請求項25に記載の方法。
  27. 前記確率分布が、平均および積率を有し、前記確率分布を更新するステップが、前記確率分布の前記平均および前記積率を再査定するステップを含む、請求項25に記載の方法。
  28. 前記確率分布が、故障率分布を含み、前記平均および前記積率を再査定するステップが、ベイズ信頼性理論モデルを使用して前記故障率分布を更新するステップを含む、請求項27に記載の方法。
  29. 前記2つ以上の前記モジュールが、前記障害が発生した前記モジュールの前記1つを含み、前記因果ネットワークを構成するステップが、前記モジュールの前記1つでのローカル障害状態を識別するステップと、前記ローカル障害状態に応答して、前記因果ネットワーク内で、前記モジュールの前記1つで発生する前記誤動作の1つに前記障害をリンクするステップとを含む、請求項25に記載の方法。
  30. 前記2つ以上の前記モジュールが、第1モジュールおよび第2モジュールを含み、前記因果ネットワークを構成するステップが、前記システム内の前記第2モジュールとの接続に起因して前記第1モジュールで発生する第1障害状態を識別するステップと、前記第1障害状態に応答して、前記因果ネットワーク内で、前記第2モジュールで発生する第2障害状態に前記障害をリンクするステップとを含む、請求項25に記載の方法。
  31. 前記2つ以上の前記モジュールが、第3モジュールを含み、前記障害をリンクするステップが、前記第2障害状態の可能な原因が、前記第2モジュールと前記第3モジュールとの間の前記システム内のもう1つの接続に起因するかどうかを判定するステップと、前記もう1つの接続に応答して、前記因果ネットワーク内で、前記第3モジュールで発生する第3障害状態に前記障害をリンクするステップとを含む、請求項30に記載の方法。
  32. 複数のモジュールが接続されて構成されたシステムにおいて、このシステムを診断する装置であって、前記装置が、診断プロセッサを含み、
    前記診断プロセッサが、前記システムの構成が変更された場合に、この変更された構成に基づいて前記システムのトポロジ情報を更新し、
    前記モジュールの1つの障害を示すアラームを、前記システムから、受け取り、
    前記アラームを受け取ると、前記障害を発生したモジュールの誤動作と、前記障害を発生したモジュールとは異なるが、前記障害につながった可能性があるモジュールの誤動作とを、前記トポロジ情報に基づいて、前記障害と関係付けて因果ネットワークを構成し、
    前記障害を条件とした前記モジュールの条件つき確率と前記モジュールの誤動作の発生する確率とを計算するステップと、
    前記トポロジ情報に基づいて、前記条件つき確率を前記誤動作の発生する確率に関係付け、前記条件つき確率と前記誤動作の発生する確率とを前記因果ネットワークに追加し、
    前記アラームおよび前記因果ネットワークに基づいて、前記誤動作の発生する確率の少なくとも1つを更新し、
    前記更新された誤動作の発生する確率に応答して、前記診断ユニットが、前記アラームの診断を提案する診断プロセッサを含む装置。
  33. 前記診断プロセッサが、前記システム内の前記複数のモジュールからイベント・レポートを受け取り、前記イベント・レポートから前記アラームを抽出するようにリンクされる、請求項32に記載の装置。
  34. 前記イベント・レポートが、前記システムの構成の変更のレポートを含み、前記診断プロセッサが、前記変更された構成に基づいて前記因果ネットワークを構成するように配置される、請求項33に記載の装置。
  35. 前記構成が記録されるデータベースを含むメモリを含み、前記因果ネットワークの構成に使用するために、前記診断プロセッサが、前記構成の前記変更の前記レポートに応答して前記データベースを更新するように結合される、請求項34に記載の装置。
  36. 前記診断プロセッサが、前記モジュールの前記1つでの前記障害を示す前記アラームを含む、相互に近接する時刻に発生するアラームのシーケンスを抽出し、前記確率を更新するために前記アラームの前記シーケンスを処理するように結合される、請求項33に記載の装置。
  37. それぞれの寿命が、前記システムからの前記アラームの受取の際の期待される遅延に応答して、前記アラームに関して定義され、前記診断プロセッサが、前記それぞれの寿命に応答して前記シーケンスから抽出する前記アラームを選択するように配置される、請求項36に記載の装置。
  38. 前記診断プロセッサが、前記因果ネットワークがそれに応答して構成された前記モジュールの前記1つでの前記障害を示す前記アラームの発生の時刻のそれぞれの寿命以内に発生した前記アラームを選択するように配置される、請求項37に記載の装置。
  39. 前記因果ネットワークを追加する際に、前記診断プロセッサが、前記1つまたは複数の前記モジュールでの前記誤動作の1つによって引き起こされる期待されるアラームを定義するように配置され、前記診断プロセッサが、さらに、アラームの前記抽出されたシーケンス内の前記期待されるアラームの発生に応答して前記確率を更新するように備えられた、請求項36に記載の装置。
  40. 前記システム内の前記モジュールのカテゴリおよび前記カテゴリ内の前記モジュールでの前記誤動作の1つによって引き起こされる期待されるアラームに対応する前記ネットワーク内のノードのグループを含むテンプレートが定義され、前記診断プロセッサが、アラームの前記抽出されたシーケンス内の前記期待されるアラームの発生に応答して前記因果ネットワーク前記テンプレートを追加する、請求項36に記載の装置。
  41. 前記障害に関連したノードからなるテンプレートを定義し、
    前記障害によるアラームが発生した場合に、前記テンプレートを、前記因果ネットワークに追加する手順を含む診断プロセッサである請求項32に記載の装置。
  42. 前記テンプレートを定義する手順において、前記モジュールの誤動作の1つによって引き起こされるアラームを予想する手順と、
    前記テンプレートを追加する手順において、前記予想されるアラームの発生に応答して前記因果ネットワークに前記テンプレートを追加する手順とを含む診断プロセッサである請求項41に記載の装置。
  43. 前記診断プロセッサが、前記障害が発生した前記モジュールの前記1つでのローカル障害状態を識別し、前記ローカル障害状態に応答して、前記因果ネットワーク内で、前記モジュールの前記1つで発生する前記誤動作の1つに前記障害をリンクするように配置される、請求項32に記載の装置。
  44. 前記診断プロセッサが、前記システム内の誤動作を生じたモジュールと接続をしているために、第1のモジュールで第1障害状態を発生したことを識別し、
    前記第1障害状態に応答して、前記因果ネットワーク内で、前記第2のモジュールで発生する第2障害状態に前記障害をリンクし、因果ネットワークに追加する手順を含む、請求項32に記載の装置。
  45. 前記診断プロセッサが、前記第2障害状態の可能な原因が、前記誤動作を生じたモジュール又は、前記システム内のその他のモジュールとの接続に起因するかどうかを判定し、
    前記その他のモジュールとの接続に起因した場合に、前記因果ネットワーク内で、前記その他のモジュールで発生する第3障害状態に前記障害をリンクし、因果ネットワークに追加する手順を含む、請求項44に記載の方法。
  46. 前記診断プロセッサが、前記誤動作の発生する確率に応答して、前記誤動作の1つの複数の発生を前記因果ネットワークに追加し、前記因果ネットワーク内で前記複数の発生に前記障害をリンクするように配置される、請求項32に記載の装置。
  47. 前記診断プロセッサが、前記発生のそれぞれによって引き起こされる1つまたは複数の障害状態を判定し、前記障害状態の少なくとも一部を前記障害にリンクするように配置される、請求項46に記載の装置。
  48. 前記誤動作の前記確率の前記少なくとも1つが、前記1つまたは複数の前記モジュールの障害の間の平均時間として表される、請求項32に記載の装置。
  49. 前記誤動作の前記確率が、平均および積率を有する確率分布に関して定義され、前記診断プロセッサが、前記確率分布の前記平均および前記積率を更新するように配置される、請求項32に記載の装置。
  50. 前記確率分布が、故障率分布を含み、前記診断プロセッサが、ベイズ信頼性理論モデルを使用して前記故障率分布を更新するように配置される、請求項49に記載の装置。
  51. 前記診断プロセッサが、前記更新された確率の1つまたは複数を所定の閾値と比較し、前記確率の前記1つが前記閾値を超える時に診断アクションを起動するように配置される、請求項32に記載の装置。
  52. ユーザ・インターフェースを含み、前記診断プロセッサが、前記ユーザ・インターフェースを介して前記診断について前記システムのユーザに通知するように結合される、請求項51に記載の装置。
  53. 前記診断プロセッサが、前記ユーザ・インターフェースを介して、前記因果ネットワークに基づく前記診断の説明を提供するように配置される、請求項52に記載の装置。
  54. 前記診断アクションが、前記誤動作を検証するために実行される診断テストを含み、前記診断テストが、前記閾値を超える前記確率の前記1つに応答して選択される、請求項51に記載の装置。
  55. 前記診断プロセッサが、前記診断テストの結果に応答して前記因果ネットワークを変更するように配置される、請求項54に記載の装置。
  56. 複数のモジュールが接続されて構成されたシステムにおいて、このシステムを診断する装置であって、前記装置が、診断プロセッサを含み、前記診断プロセッサが、
    前記システムの構成が変更された場合に、この変更された構成に基づいて前記システムのトポロジ情報を更新し、
    前記モジュールの1つの障害を示すアラームを前記システムから受け取り、
    前記アラームを受け取ると、前記障害を発生したモジュールの誤動作と、前記障害を発生したモジュールとは異なるが、前記障害につながった可能性があるモジュールの誤動作とを、前記トポロジ情報に基づいて、前記障害と関係付けて因果ネットワークを構成し、
    前記障害を条件とした前記モジュールの条件つき確率と前記モジュールの誤動作の発生する確率を示す確率分布とを計算し、
    前記トポロジ情報に基づいて、前記確率分布に前記条件つき確率を関係付け、前記条件つき確率と前記確率分布とを前記因果ネットワークに追加し、
    前記アラームおよび前記因果ネットワークに基づいて、前記確率分布の少なくとも1つを更新し、
    前記更新された誤動作の発生する確率を示す確率分布に応答して、前記診断ユニットが、前記アラームの診断を提案する診断プロセッサを含む装置。
  57. 前記確率分布が、前記2つ以上の前記モジュールの障害の間の平均時間を示す、請求項56に記載の装置。
  58. 前記確率分布が、平均および積率を有し、前記診断プロセッサが、前記アラームに応答して、前記確率分布の前記平均および前記積率を再査定するように配置される、請求項56に記載の装置。
  59. 前記確率分布が、故障率分布を含み、前記診断プロセッサが、ベイズ信頼性理論モデルを使用して前記故障率分布を更新するように配置される、請求項58に記載の装置。
  60. 前記2つ以上の前記モジュールが、前記障害が発生した前記モジュールの前記1つを含み、前記診断プロセッサが、前記モジュールの前記1つでのローカル障害状態を識別し、前記ローカル障害状態に応答して、前記因果ネットワーク内で、前記モジュールの前記1つで発生する前記誤動作の1つに前記障害をリンクするように配置される、請求項56に記載の装置。
  61. 前記2つ以上の前記モジュールが、第1モジュールおよび第2モジュールを含み、前記診断プロセッサが、前記システム内の前記第2モジュールとの接続に起因して前記第1モジュールで発生する第1障害状態を識別し、前記第1障害状態に応答して、前記因果ネットワーク内で、前記第2モジュールで発生する第2障害状態に前記障害をリンクするように配置される、請求項56に記載の装置。
  62. 前記2つ以上の前記モジュールが、第3モジュールを含み、前記診断プロセッサが、前記第2障害状態の可能な原因が、前記第2モジュールと前記第3モジュールとの間の前記システム内のもう1つの接続に起因するかどうかを判定し、前記もう1つの接続に応答して、前記因果ネットワーク内で、前記第3モジュールで発生する第3障害状態に前記障害をリンクするように配置される、請求項61に記載の装置。
  63. 複数のモジュールが接続されて構成されたシステムにおいて、このシステムを診断する複数のプログラム命令からなる、コンピュータに読み取られるプログラムであって、
    前記システムの構成が変更された場合に、この変更された構成に基づいて前記システムのトポロジ情報を、前記システムを診断する診断ユニットが、更新するステップと、
    前記モジュールの1つの障害を示すアラームを、前記システムから、前記診断ユニットが受け取るステップと、
    前記アラームを受け取ると、前記障害を発生したモジュールの誤動作と、前記障害を発生したモジュールとは異なるが、前記障害につながった可能性があるモジュールの誤動作とを、前記トポロジ情報に基づいて、前記診断ユニットが、前記障害と関係付けて因果ネットワークを構成するステップと、
    前記障害を条件とした前記モジュールの条件つき確率と前記モジュールの誤動作の発生する確率とを、前記診断ユニットが計算するステップと、
    前記トポロジ情報に基づいて、前記診断ユニットが、前記条件つき確率を前記誤動作の発生する確率に関係付け、前記条件つき確率と前記誤動作の発生する確率とを、前記因果ネットワークに追加するステップと、
    前記アラームおよび前記因果ネットワークに基づいて、前記診断ユニットが、前記誤動作の発生する確率の少なくとも1つを更新するステップと、
    前記更新された誤動作の発生する確率に応答して、前記診断ユニットが、前記アラームの診断を提案するステップとを含むプログラム。
  64. 前記プログラム命令が、前記コンピュータに、前記システム内の前記複数のモジュールからイベント・レポートを受け取ることと、前記イベント・レポートから前記アラームを抽出することとを行わせる、請求項63に記載のプログラム
  65. 前記イベント・レポートが、前記システムの構成の変更のレポートを含み、前記プログラム命令が、前記コンピュータに、前記変更された構成に基づいて前記因果ネットワークを構成することを行わせる、請求項64に記載のプログラム
  66. 前記プログラム命令が、前記コンピュータに、前記構成の前記変更の前記レポートに応答して、前記因果ネットワークの構成に使用するために、前記構成が記録されるデータベースを更新することを行わせる、請求項65に記載のプログラム
  67. 前記プログラム命令が、前記コンピュータに、前記モジュールの前記1つでの前記障害を示す前記アラームを含む、相互に近接する時刻に発生するアラームのシーケンスを抽出することと、前記確率を更新するために前記アラームの前記シーケンスを処理することとを行わせる、請求項64に記載のプログラム
  68. それぞれの寿命が、前記システムからの前記アラームの受取の際の期待される遅延に応答して、前記アラームに関して定義され、前記プログラム命令が、前記コンピュータに、前記それぞれの寿命に応答して前記シーケンスから抽出する前記アラームを選択することを行わせる、請求項67に記載のプログラム
  69. 前記プログラム命令が、前記コンピュータに、前記因果ネットワークがそれに応答して構成された前記モジュールの前記1つでの前記障害を示す前記アラームの発生の時刻のそれぞれの寿命以内に発生した前記アラームを選択することを行わせる、請求項68に記載のプログラム
  70. 前記プログラム命令が、前記コンピュータに、前記因果ネットワークを構成する際に、前記1つまたは複数の前記モジュールでの前記誤動作の1つによって引き起こされる期待されるアラームを定義することと、アラームの前記抽出されたシーケンス内の前記期待されるアラームの発生に応答して前記確率を更新することとを行わせる、請求項67に記載のプログラム
  71. 前記システム内の前記モジュールのカテゴリおよび前記カテゴリ内の前記モジュールでの前記誤動作の1つによって引き起こされる期待されるアラームに対応する前記ネットワーク内のノードのグループを含むテンプレートが定義され、前記プログラム命令が、前記コンピュータに、アラームの前記抽出されたシーケンス内の前記期待されるアラームの発生に応答して前記因果ネットワーク内で前記テンプレートをインスタンス化することを行わせる、請求項67に記載のプログラム
  72. 前記障害に関連したノードからなるテンプレートを定義し、
    前記障害によるアラームが発生した場合に、前記テンプレートを、前記因果ネットワークに追加する手順を含む請求項63に記載のプログラム
  73. 前記テンプレートを定義する際に、前記モジュールの誤動作の1つによって引き起こされるアラームを予想する手順を含み、
    前記テンプレートを追加する際に、前記予想されるアラームの発生に応答して前記因果ネットワークに前記テンプレートを追加する手順を含む、請求項72に記載のプログラム
  74. 前記プログラム命令が、前記コンピュータに、前記障害が発生した前記モジュールの前記1つでのローカル障害状態を識別することと、前記ローカル障害状態に応答して、前記因果ネットワーク内で、前記モジュールの前記1つで発生する前記誤動作の1つに前記障害をリンクすることとを行わせる、請求項63に記載のコンピュータ・ソフトウェア製品。
  75. 前記因果ネットワークを構成する際に、
    前記システム内の誤動作を生じたモジュールと接続をしているために、第1のモジュールで第1障害状態を発生したことを識別し、
    前記第1障害状態に応答して、前記因果ネットワーク内で、前記第2のモジュールで発生する第2障害状態に前記障害をリンクし、因果ネットワークに追加する手順を含む、請求項63に記載のプログラム
  76. 前記識別する際に、前記第2障害状態の可能な原因が、前記誤動作を生じたモジュール又は、前記システム内のその他のモジュールとの接続に起因するかどうかを判定し、
    前記その他のモジュールとの接続に起因した場合に、前記因果ネットワーク内で、前記その他のモジュールで発生する第3障害状態に前記障害をリンクし、因果ネットワークに追加する手順を含む、請求項75に記載のプログラム
  77. 前記プログラム命令が、前記コンピュータに、前記誤動作の発生する確率に応答して、前記誤動作の1つの複数の発生を前記因果ネットワークに追加することと、前記因果ネットワーク内で前記複数の発生に前記障害をリンクすることとを行わせる、請求項63に記載のプログラム
  78. 前記プログラム命令が、前記コンピュータに、前記発生のそれぞれによって引き起こされる1つまたは複数の障害状態を判定することと、前記障害状態の少なくとも一部を前記障害にリンクすることとを行わせる、請求項77に記載のプログラム
  79. 前記誤動作の前記確率の前記少なくとも1つが、前記1つまたは複数の前記モジュールの障害の間の平均時間として表される、請求項63に記載のプログラム
  80. 前記誤動作の前記確率が、平均および積率を有する確率分布に関して定義され、前記プログラム命令が、前記コンピュータに、前記確率分布の前記平均および前記積率を更新することを行わせる、請求項63に記載のプログラム
  81. 前記確率分布が、故障率分布を含み、前記プログラム命令が、前記コンピュータに、ベイズ信頼性理論モデルを使用して前記故障率分布を更新することを行わせる、請求項80に記載のプログラム
  82. 前記プログラム命令が、前記コンピュータに、前記更新された確率の1つまたは複数を所定の閾値と比較することと、前記確率の前記1つが前記閾値を超える時に診断アクションを起動することとを行わせる、請求項63に記載のプログラム
  83. 前記プログラム命令が、前記コンピュータに、前記診断について前記システムのユーザに通知することを行わせる、請求項82に記載のプログラム
  84. 前記プログラム命令が、前記コンピュータに、前記因果ネットワークに基づく前記診断の説明をユーザに提供することを行わせる、請求項83に記載のプログラム
  85. 前記診断アクションが、前記誤動作を検証するために実行される診断テストを含み、前記診断テストが、前記閾値を超える前記確率の前記1つに応答して選択される、請求項82に記載のプログラム
  86. 前記プログラム命令が、前記コンピュータに、前記診断テストの結果に応答して前記因果ネットワークを変更することを行わせる、請求項85に記載のプログラム
  87. 複数のモジュールが接続されて構成されたシステムにおいて、このシステムを診断する複数のプログラム命令からなる、コンピュータに読み取られるプログラムであって、
    前記システムの構成が変更された場合に、この変更された構成に基づいて前記システムのトポロジ情報を、前記システムを診断する診断ユニットが、更新するステップと、
    前記モジュールの1つの障害を示すアラームを、前記システムから、前記診断ユニットが受け取るステップと、
    前記アラームを受け取ると、前記障害を発生したモジュールの誤動作と、前記障害を発生したモジュールとは異なるが、前記障害につながった可能性があるモジュールの誤動作とを、前記トポロジ情報に基づいて、前記診断ユニットが、前記障害と関係付けて因果ネットワークを構成するステップと、
    前記障害を条件とした前記モジュールの条件つき確率と前記モジュールの誤動作の発生する確率を示す確率分布とを、前記診断ユニットが計算するステップと、
    前記トポロジ情報に基づいて、前記診断ユニットが、前記確率分布に前記条件つき確率を関係付け、前記条件つき確率と前記確率分布とを前記因果ネットワークに追加するステップと、
    前記アラームおよび前記因果ネットワークに基づいて、前記診断ユニットが、前記確率分布の少なくとも1つを更新するステップと、
    前記更新された誤動作の発生する確率を示す確率分布に応答して、前記診断ユニットが、前記アラームの診断を提案するステップとを含むプログラム。
  88. 前記確率分布が、前記2つ以上の前記モジュールの障害の間の平均時間を示す、請求項87に記載のプログラム
  89. 前記確率分布が、平均および積率を有し、前記プログラム命令が、前記コンピュータに、前記アラームに応答して、前記確率分布の前記平均および前記積率を再査定することを行わせる、請求項87に記載のプログラム
  90. 前記確率分布が、故障率分布を含み、前記プログラム命令が、前記コンピュータに、ベイズ信頼性理論モデルを使用して前記故障率分布を更新することを行わせる、請求項89に記載のプログラム
  91. 前記2つ以上の前記モジュールが、前記障害が発生した前記モジュールの前記1つを含み、前記プログラム命令が、前記コンピュータに、前記モジュールの前記1つでのローカル障害状態を識別することと、前記ローカル障害状態に応答して、前記因果ネットワーク内で、前記モジュールの前記1つで発生する前記誤動作の1つに前記障害をリンクすることとを行わせる、請求項87に記載のプログラム
  92. 前記2つ以上の前記モジュールが、第1モジュールおよび第2モジュールを含み、前記プログラム命令が、前記コンピュータに、前記システム内の前記第2モジュールとの接続に起因して前記第1モジュールで発生する第1障害状態を識別することと、前記第1障害状態に応答して、前記因果ネットワーク内で、前記第2モジュールで発生する第2障害状態に前記障害をリンクすることとを行わせる、請求項87に記載のプログラム
  93. 前記2つ以上の前記モジュールが、第3モジュールを含み、前記プログラム命令が、前記コンピュータに、前記第2障害状態の可能な原因が、前記第2モジュールと前記第3モジュールとの間の前記システム内のもう1つの接続に起因するかどうかを判定することと、前記もう1つの接続に応答して、前記因果ネットワーク内で、前記第3モジュールで発生する第3障害状態に前記障害をリンクすることとを行わせる、請求項87に記載のプログラム
JP2001198027A 2001-06-29 2001-06-29 管理可能なネットワークにおける事前対策オンライン診断 Expired - Fee Related JP3579834B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001198027A JP3579834B2 (ja) 2001-06-29 2001-06-29 管理可能なネットワークにおける事前対策オンライン診断

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001198027A JP3579834B2 (ja) 2001-06-29 2001-06-29 管理可能なネットワークにおける事前対策オンライン診断

Publications (2)

Publication Number Publication Date
JP2003032253A JP2003032253A (ja) 2003-01-31
JP3579834B2 true JP3579834B2 (ja) 2004-10-20

Family

ID=19035539

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001198027A Expired - Fee Related JP3579834B2 (ja) 2001-06-29 2001-06-29 管理可能なネットワークにおける事前対策オンライン診断

Country Status (1)

Country Link
JP (1) JP3579834B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007329779A (ja) * 2006-06-09 2007-12-20 Fuji Xerox Co Ltd 欠陥分類システム、画像形成装置および欠陥分類プログラム
JP2008017269A (ja) * 2006-07-07 2008-01-24 Fuji Xerox Co Ltd 画像形成装置、故障診断システム、故障診断方法、及び故障診断プログラム
JP2008160223A (ja) * 2006-12-20 2008-07-10 Fuji Xerox Co Ltd 故障診断装置、故障診断システム、及び故障診断プログラム

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7584382B2 (en) * 2004-02-19 2009-09-01 Microsoft Corporation Method and system for troubleshooting a misconfiguration of a computer system based on configurations of other computer systems
JP2005309077A (ja) * 2004-04-21 2005-11-04 Fuji Xerox Co Ltd 故障診断方法および故障診断装置、並びに搬送装置および画像形成装置、並びにプログラムおよび記憶媒体
JP4626852B2 (ja) * 2005-07-11 2011-02-09 日本電気株式会社 通信網の障害検出システム、通信網の障害検出方法及び障害検出プログラム
JP5115025B2 (ja) * 2007-05-22 2013-01-09 富士ゼロックス株式会社 故障診断システム及び故障診断プログラム
JP5370905B2 (ja) * 2008-03-13 2013-12-18 富士ゼロックス株式会社 故障診断装置およびプログラム
US8112378B2 (en) * 2008-06-17 2012-02-07 Hitachi, Ltd. Methods and systems for performing root cause analysis
JP4730433B2 (ja) 2008-12-24 2011-07-20 富士ゼロックス株式会社 故障診断システム、情報更新装置およびプログラム
JP6503223B2 (ja) * 2015-05-18 2019-04-17 Kddi株式会社 運用損失を考慮して障害予測結果を評価する装置、システム、プログラム及び方法
KR102574076B1 (ko) * 2020-05-07 2023-09-05 주식회사 케이티 복수의 셋톱박스와 연결된 네트워크 스위치의 이상을 검출하는 검출 서버, 방법 및 컴퓨터 프로그램
CN112104495B (zh) * 2020-09-09 2022-07-05 四川信息职业技术学院 一种基于网络拓扑的系统故障根因定位方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6076083A (en) * 1995-08-20 2000-06-13 Baker; Michelle Diagnostic system utilizing a Bayesian network model having link weights updated experimentally
US6535865B1 (en) * 1999-07-14 2003-03-18 Hewlett Packard Company Automated diagnosis of printer systems using Bayesian networks
US6691249B1 (en) * 2000-03-22 2004-02-10 Agilent Technologies, Inc. Probabilistic diagnosis, in particular for embedded and remote applications

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007329779A (ja) * 2006-06-09 2007-12-20 Fuji Xerox Co Ltd 欠陥分類システム、画像形成装置および欠陥分類プログラム
JP4631809B2 (ja) * 2006-06-09 2011-02-16 富士ゼロックス株式会社 欠陥分類システム、画像形成装置および欠陥分類プログラム
JP2008017269A (ja) * 2006-07-07 2008-01-24 Fuji Xerox Co Ltd 画像形成装置、故障診断システム、故障診断方法、及び故障診断プログラム
JP4582062B2 (ja) * 2006-07-07 2010-11-17 富士ゼロックス株式会社 画像形成装置、故障診断システム、故障診断方法、及び故障診断プログラム
JP2008160223A (ja) * 2006-12-20 2008-07-10 Fuji Xerox Co Ltd 故障診断装置、故障診断システム、及び故障診断プログラム

Also Published As

Publication number Publication date
JP2003032253A (ja) 2003-01-31

Similar Documents

Publication Publication Date Title
US7113988B2 (en) Proactive on-line diagnostics in a manageable network
US20220300290A1 (en) Determining problem dependencies in application dependency discovery, reporting, and management tool
US11868237B2 (en) Intelligent services for application dependency discovery, reporting, and management tool
US11221854B2 (en) Dependency analyzer in application dependency discovery, reporting, and management tool
US8015139B2 (en) Inferring candidates that are potentially responsible for user-perceptible network problems
US11620211B2 (en) Discovery crawler for application dependency discovery, reporting, and management tool
US8577663B2 (en) System and methods for fault-isolation and fault-mitigation based on network modeling
US6792456B1 (en) Systems and methods for authoring and executing operational policies that use event rates
US10915428B2 (en) Intelligent services and training agent for application dependency discovery, reporting, and management tool
US7043661B2 (en) Topology-based reasoning apparatus for root-cause analysis of network faults
Ma et al. Ms-rank: Multi-metric and self-adaptive root cause diagnosis for microservice applications
US8086708B2 (en) Automated and adaptive threshold setting
JP3579834B2 (ja) 管理可能なネットワークにおける事前対策オンライン診断
US7275017B2 (en) Method and apparatus for generating diagnoses of network problems
US11093378B2 (en) Testing agent for application dependency discovery, reporting, and management tool
US8457811B2 (en) Device for system diagnosis
Walter et al. Formally verified on-line diagnosis
Kavulya et al. Failure diagnosis of complex systems
EP3338191A1 (en) Diagnostic framework in computing systems
CN102684902A (zh) 基于探针预测的网络故障定位方法
Strasser et al. Diagnostic alarm sequence maturation in timed failure propagation graphs
CN113839861A (zh) 基于由支持向量机确定的健康状况的路由引擎切换
EP4242850A2 (en) Determining problem dependencies in application dependency discovery, reporting, and management tool
Kogeda et al. A probabilistic approach to faults prediction in cellular networks
Shrobe Model-based diagnosis for information survivability

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040507

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20040507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20040507

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040629

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20040630

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040707

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070730

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080730

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080730

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090730

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100730

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110730

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees