JP3771001B2 - 分散システムの診断システム及び分散システムの診断プログラムを格納した記憶媒体 - Google Patents

分散システムの診断システム及び分散システムの診断プログラムを格納した記憶媒体 Download PDF

Info

Publication number
JP3771001B2
JP3771001B2 JP14045097A JP14045097A JP3771001B2 JP 3771001 B2 JP3771001 B2 JP 3771001B2 JP 14045097 A JP14045097 A JP 14045097A JP 14045097 A JP14045097 A JP 14045097A JP 3771001 B2 JP3771001 B2 JP 3771001B2
Authority
JP
Japan
Prior art keywords
diagnostic
node
sensor
sensing information
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP14045097A
Other languages
English (en)
Other versions
JPH1055344A (ja
Inventor
賀彦 村川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP14045097A priority Critical patent/JP3771001B2/ja
Publication of JPH1055344A publication Critical patent/JPH1055344A/ja
Application granted granted Critical
Publication of JP3771001B2 publication Critical patent/JP3771001B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Test And Diagnosis Of Digital Computers (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、分散システムの診断システム及び分散システムの診断プログラムを格納した記憶媒体に係り、特に、対象の診断モデルを有し、種々のジョブの複合体であるプラントやネットワークの複数のノードにおけるオペレーション等の分散システムにおいて各ノードで発生した異常を診断するための分散システムの診断システム及び分散システムの診断プログラムを格納した記憶媒体に関する。
【0002】
分散システムの診断対象は、プラント、分散オペレーティングシステム、通信システム、交通システム等のノード(構成要素)が分散していて、全体として一つのシステムを構成するものである。
【0003】
【従来の技術】
図9は、従来の診断システムの構成を示す。同図に示すように、従来は、複数のノード101 〜10 nとセンタ20が回線を介して接続されており、例えばノード101 でオペレーションによるエラーを検出すると、アラーム信号は、回線を介してセンタ20に集められる。これにより、センタ20は、アラーム信号を受信すると、異常ノードを認識し、当該ノードに対する復旧処理等を指示する。また、センタ20では、複数のノードの動作状態を監視し、複数のノードから送信されるアラーム信号をサンプリングして、異常原因となっているノードを抽出する。
【0004】
【発明が解決しようとする課題】
しかしながら、上記従来の診断システムは、1つセンタにおいて複数のノードから収集されたアラーム信号を処理しているため、少ないノードで構成される小規模なシステムであれば問題はないが、大規模なシステムにおける多数のノードからアラーム信号を受信すると、トラヒック量が増加し、回線が輻輳すると共に、センタの処理負荷が増大する。さらには、トラヒック量に比例して、センタ側の診断処理のためのサンプリング間隔が長くなり、早急に復旧処理等を講じなければならないノードへの対処が遅延する等の問題がある。
【0005】
また、センサ自体が何らかの異常により停止している場合には、オブジェクトの異常を検知できないという問題がある。
さらに、診断対象(オブジェクト)に仕様や構成の変更が生じた場合には、ノードの仕様等が変更になるばかりではなく、センタにおいて、オブジェクトの変更に応じたプログラム等の変更の処理が必要となる。また、新たなノード及び新たなオブジェクトが設置された場合にも同様に、それらのノードやオブジェクトに対応した新規のシステム生成処理が必要となり、柔軟性や拡張性において問題がある。
【0006】
本発明は、上記の点に鑑みなされたもので、ノードからセンタへのトラヒック負荷を削減することが可能な分散システムにおける診断システム及び分散システムにおける診断プログラムを格納した記憶媒体を提供することを目的とする。
また、本発明の目的は、センサが故障や保守のために休止している状態であってもノードの診断が可能な分散システムにおける診断システム及び分散システムにおける診断プログラムを格納した記憶媒体を提供することである。
【0007】
また、更なる目的は、オブジェクトの仕様や構成の変更に柔軟に対処可能な分散システムにおける診断システム及び分散システムにおける診断プログラムを格納した記憶媒体を提供することである。
【0008】
【課題を解決するための手段】
発明は、ネットワーク上に分散配置される診断対象のオブジェクトと、
オブジェクトを監視し、任意または、所定の周期でセンシングし、センシング情報を出力するセンサと、
センサからのデータによりオブジェクトの状態を診断する複数の診断機能を有し、単独または、他との協調により診断を行う複数のノードとを有し、
ノードは、
センサから渡されたセンシング情報を保持するセンサ入力情報保持手段と、
センシング情報を解析するための知識を格納する知識ベースと、
センシング情報に基づいて知識ベースを参照して該センシング情報を解析する解析手段と、
異常原因と該異常原因の現象及び症状を有する少なくとも1つの診断モデルと、
解析手段により解析された結果に基づいて診断モデルとの照合を行い、異常原因の仮説を生成すると共に、該仮説についての問い合わせを他のノードに対して行い、該他のノードからの通知に基づいて異常原因の推論を行う推論手段と、
推論手段による推論結果を診断対象の監視者のセンタに通知する通知手段と、
を有する
【0010】
発明は、上記の通知手段において、異常原因と診断モデルの現象及び症状のうち、いくつが確認できたかを確信度としてセンタに通知する。
発明は、上記の診断モデルにおいて、異常原因を根とし、該異常原因の現象及び症状を葉とする木構造とする。
【0011】
発明は、上記の推論手段において、他のノードの推論手段から渡された問い合わせに応じて、自ノードに入力されるセンシング情報を解析して、問い合わせの現象または、症状を確認する確認手段と、
確認手段において現象または症状を確認できる場合に、他のノードに問い合わせにマッチするセンシング情報の入力がないかを問い合わせ、推論を行う手段とを有し、問い合わせ元のノードへ推論結果を返却する問い合わせ応答手段を含む。
【0012】
本発明の診断モデルは、オブジェクトの変更・追加により随時更新される。
本発明の知識ベースは、オブジェクトの変更・追加により随時更新される。
発明は、ネットワーク上に分散配置される診断対象のオブジェクトと、
オブジェクトを監視し、任意または、所定の周期でセンシングし、センシング情報を出力するセンサと、
センサからのデータによりオブジェクトの状態を診断する複数の診断機能を有し、単独または、他との協調により診断を行う複数のノードとを有するシステムにおいて、
記憶手段に、センサから渡されたセンシング情報を保持するセンサ入力情報保持手段と、該センシング情報を解析するための知識を格納する知識ベースと、を有するノードとして利用されるコンピュータに、
請求項1乃至6記載の各手段を実行させるプログラムを格納した記憶媒体である。
【0013】
発明によれば、各オブジェクトに対応する個々のノードにおいて、センサでセンシングされたオブジェクトのセンシングデータに基づいて、当該オブジェクトの状態を診断すると共に、他のノードと協調することにより、自ノードの対象オブジェクトの状態を診断することが可能であるため、自ノードのみでは、確実に把握できなかったオブジェクトの異常原因等を把握することが可能となる。つまり、個々のノードにおいて、当該ノードに対応するオブジェクトの状態をセンタ管理することなく、ローカルなノードにおいて管理することが可能となり、センタへのトラヒック負荷が削減される。
【0014】
また、本発明によれば、各ノードにおいて、センシング情報を知識ベースに基づいて解析し、その解析結果(現象・症状)に基づいて診断モデル(異常原因、現象・症状)との照合を行い、原因の仮説を生成すると共に、該仮説についての問い合わせを他のノードに対して行い、該他のノードからの通知に基づいて異常原因の推論を行うことにより、センタに依存しなくとも当該ノードに対応するオブジェクトの状態を把握することが可能であるため、当該オブジェクトに対する処理等を当該ノードの管理者により実施することも可能となる。
【0015】
また、本発明によれば、あるノードにおいて、推論された最終的な結論をセンタに送信することにより、各ノードのセンサから取得したデータを直接センタで収集せずに、センタにおいて、ノード毎に解析された原因の確信度の情報のみを収集することが可能となる。
また、本発明によれば、異常原因を根とし、該異常原因の現象及び症状を葉とする木構造を採用することによい、原因を事象駆動型の後ろ向き推論が可能となり、葉の部分より順に根まで辿ることにより、異常原因を突き止めることが可能となる。
【0016】
また、本発明によれば、他のノードの推論手段から渡された問い合わせに応じて、自ノードに入力されるセンシング情報を解析して、問い合わせの現象または、症状を確認する、さらに、他のノードに問い合わせにマッチするセンシング情報の入力がないかを問い合わせることにより、問い合わせノードとの状態の関連を探索して、問い合わせ元のノードに応答することが可能となる。これにより、問い合わせ元のノードでは、問い合わせ先のノードの現象や症状により他のノードとの異常原因の関連性を把握することが可能となる。
【0017】
また、本発明によれば、オブジェクトの変更・追加があった場合でも診断モデル及び知識ベースをノード単位で更新することが可能となる。
【0018】
【発明の実施の形態】
図1は、本発明の診断システムの構成を示す。同図に示す診断システムは、複数のノード100(以下、単にエージェントと記す)がLAN/WAN500によりノード100間及び監視者(センタ)200と接続されている。また、各ノード100は、センサ300を介してオブジェクト400を監視する。
【0019】
各ノード100は、エージェント固有のオブジェクト400を監視する。また、各エージェント間では、LAN/WAN500を介しての通信が可能であり、各ノード100において診断した結果(異常症候情報)をノード100間においてやり取りすることができる。
各ノード100は、オブジェクト400を監視し、センサ300からオブジェクト400の数値データを取得して当該数値データを保持するセンサ保持部110、センサ入力保持部110から取得した数値データを知識ベース140を参照して解析するデータ解析部120、データ解析部120から取得した解析結果に基づいて診断モデル150を参照し、オブジェクトの異常等を診断する診断エージェント120、数値データを解析するための推論規則を格納する知識ベース140、木構造を有する診断モデル150より構成される。
【0020】
センサ300は、オブジェクト400を監視し、オブジェクト400の部分的な情報を所定の時間間隔、または、センサ入力保持部110からの指示により数値データとして取得し、ノード100のセンサ入力保持部110に転送する。
データ解析部120は、センサ入力保持部110から取得する数値データ以外に、診断の材料となるデータであればどのようなデータであってもよく、他のエージェントから取得したデータも用いる。例えば、異常時の各エージェントから渡されたメモリダンプ等であってもよい。このような数値データを取得して、知識ベース140を参照して、現象や症状に変換する。
【0021】
診断エージェント130は、図2に示すような診断モデル150を参照する。同図に示す診断モデル150は、3つの階層から構成される木構造を有し、根が異常原因で、葉が現象・症状を表している。この診断エージェント130により参照される診断モデル150は、エージェント毎に同じでも、異なっていてもよく、オブジェクト400の解析が可能なモデルを必要に応じてn種類保持するものとする。また、解析対象のオブジェクト400に変更等が生じた場合には、当該オブジェクト400に対応する診断モデル150を付随して更新する。
【0022】
また、ここで、診断モデル150について詳細に説明する。
図2における診断モデル150の例において、根には、障害原因(A)、その原因で生起する中間的な現象(B,C)、その現象が原因となって最終的に現れる現象(D,E,F,G,H)によりモデルを生成する。木の枝の関係は、“AND”だけとする。“OR”や“EXOR”の関係も考えられるが、一般的にこれらは“AND”のみを使って表すことができる。“OR”については、木を分割すればよく、“EXOR”は、“AND”と否定を用いることにより表すことができる。または、そのモデルに制約条件を付けることにしても“EXOR”を表すことができる。
【0023】
診断モデル150の葉には、センサ入力保持部110から転送された数値データそのものを置くのではなく、データ解析部120において知識ベース140を参照することにより変換された現象や症状が設定される。例えば、センサ110が温度センサである場合、当該温度センサからの入力データが時間の経過と共に上昇している現象については、知識ベース140を用いて「温度の上昇」という現象となる。
【0024】
知識ベース140は、図3に示すように、診断部120においてデータ解析部120から渡される症状情報(数値データ)を解析する際に参照される法則が格納されている。当該知識ベース140は、診断対象の設計知識に基づいて作成され、事象生起の原因と結果の関係を導出し、例えば、原因がAであれば、Bという結論となるというような原因と解析結果の因果関係を示す知識を生成する。従って、当該知識ベース140は、診断モデル150と同様に、解析対象のオブジェクト400が変更された場合に、当該オブジェクトの監視結果である数値データを解析可能なように適宜更新することが可能である。
【0025】
このような構成により、診断エージェント130は、データ解析部120で変換された現象・症状を取得すると、ある一つの診断モデル150の葉(現象・症状)と照合し、その診断モデル150の根の異常原因が仮定される。このように仮定された照合結果毎に仮想の子エージェントを作成し、その子エージェントのレベルで他のエージェントとの間でメッセージを交換して、他のエージェントで照合する葉を調べる。そして、診断モデル150の照合した葉の数で仮説の確からしさを監視者200に通知する。なお、データ解析部120において、変換されたセンサ300からの入力(現象・症状)が複数の診断モデル150に照合した場合には複数の子エージェントが生成されることになる。
【0026】
次に、上記の構成における診断の方法を説明する。図4は、本発明の2つの診断エージェント間におけるリンケージを示すシーケンスチャートである。同図に示す例は、ノード100Aとノード100B間におけるリンケージを示す。
ステップ101) センサ300Aがオブジェクト400Aの状態を検出し、その状態を数値データとしてノード100Aのセンサ入力保持部110に転送する。
【0027】
ステップ102) データ解析部120は、センサ入力保持部110より数値データを取得して知識ベース140を参照して、当該数値データを現象・症状を取得する。
ステップ103) 診断エージェント130は、データ解析部120の解析結果である現象・症状等の異常症状情報に基づいて診断モデル150にマッチする現象や症状が発生していないかをチェックする。チェック方法は、診断エージェント130においてデータ解析部120から取得した異常症状情報を解析して診断モデルの葉と照合し、その診断モデルの異常原因を仮説とする。
【0028】
ステップ104) ステップ103において照合した結果、マッチした葉を有する診断モデルの根の異常原因が発生していると仮定し、自エージェントで確認された葉以外が他のエージェントで確認できないかを他のノード100Bのエージェント130Bに問い合わせる。
ステップ105) ノード100Bの診断エージェント130Bは、問い合わせを受ける毎に子エージェントを生成し、自エージェント130Bにおいてセンサ入力保持部110から取得した数値情報に基づいて診断モデル150を参照して診断エージェント130Aから問い合わせがあった現象または、データがあるかをチェックする。
【0029】
詳しくは、問い合わせの現象・症状が発生していなかを自エージェントのセンサ入力保持部110からセンサ情報を取得して解析することにより調査する。または、問い合わせにマッチするセンサ300からの入力がないかを調べる。あれば、それを診断エージェント130Aに返答するメッセージとする。このとき、センサ300から入力される情報の時間的な整合性が必要となる。
【0030】
診断エージェント130Bは、診断エージェント130Aからの問い合わせに反する現象が発生している場合もノード100Aの診断エージェント130Aに通知するものとする。
ステップ106) 診断エージェント130Bは、更に、他の診断エージェント130Cからセンサ300Cの入力があったと仮定すると、診断エージェント130Aからの問い合わせの現象・症状が確認できる場合は、当該センサ300Cからの入力が他のエージェントにないかを問い合わせ、その返答を待つ。
【0031】
また、診断エージェント130Aからの問い合わせ現象を満たす要素を知識ベース140Bから取得する、または、自センサ入力保持部110Bから、問い合わせ現象を満たす要素が入力されたかをチェックする。
ステップ107) 診断エージェント130Bは、自診断モデル150Bを参照してチェックした結果及び他の診断エージェント130Cから取得した結果を確認し、診断エージェント130Aに通知する。
【0032】
ステップ108) 問い合わせの返答を受け取った診断エージェント130Aは、異常原因と診断モデル150Aにおいて成立した葉の割合(異常原因と診断モデル150Aの葉(現象・症状)のうちのいくつ確認できたか(確信度))を診断対象の監視者(センタ)200に通知する。このとき、もし、ノード100Bの診断エージェント130Bから取得した結果において、問い合わせの現象に反する現象が観測された場合には、当該観測結果を取得することになる。診断モデル150は“AND木”であるので、仮定した原因が間違っていることになり、その場合には処理を終了する。
【0033】
なお、ここで、診断エージェント130Aから診断エージェント130Bへの問い合わせの現象に反する現象(反例)とは、仮定した原因を説明する現象を否定する現象が確認された場合を指す。また、監視者200に通知する時に、確認できなかった現象は、成立が不明な現象であって、反例とは区別されるものである。
【0034】
【実施例】
以下、本発明の実施例を図面と共に説明する。
図5は、本発明の一実施例の診断システムの構成を示す。
同図に示す構成は、説明の簡単化のため、3つのエージェントを用いて説明する。各エージェントの構成は、図1に示す構成を有するものとし、各ノード100の構成要素には、それぞれA,B,Cの符号を付して説明する。
【0035】
同図に示すノード100間において、診断エージェント130Aから診断エージェント130Bに対して自ノード100Aで発生している現象について診断エージェント130Bに問い合わせを行い、診断エージェント130Bは、作成した子エージェントについて他のノード100Cの診断エージェント130Cに問い合わせを行い、診断エージェント130Cから取得した結果と、自診断エージェント130Bの照合結果を照合し、その結果をノード100Aの診断エージェント130Aに通知する。これにより、エージェント130Aが最終的な照合結果を監視者200に通知する例を説明する。
【0036】
なお、図5において、“q”は、他のノードの診断エージェントに対する問い合わせを示し、“a”は、他の診断エージェントから問い合わせ元に対する返答を示す。
(1) ノード100Aのデータ解析部120Aは、知識ベース140Aを参照して、図2に示す葉に照合する現象が起きていないかをチェックする。図5の例では、
x → H,
y → G
から、診断モデル150Aの2つの葉に照合する。照合すると、子エージェントを作成する。
【0037】
(2) 照合する葉を持つモデルの異常原因、即ち、根のAが起きていると仮定し、他の葉(現象・症状)が他のノードで起きていなかを他のノードの診断エージェント130Bに問い合わせる(q1:D,E,F)。図2の例では、D,E,Fである。
(3) 他のノード100Bの診断エージェント130Bでは、ノード100Aの診断エージェント130Aから問い合わせを受け取り、成立していないかを調べる。図5の例では、診断ノード100Cにおいて、センサ300Cの入力が“z”であるため、知識ベース140Cを参照すると、図2における“D”が成立していることが分かる。これにより診断エージェント130Cは、ノード100Bの診断ノード100Bからの問い合わせ(q1)に対する返答(a1:D)をノード100Bに通知する。
【0038】
(4) また、診断エージェント130Bでは、センサ300Bからの入力xを仮定すれば“E”が成立するので、センサ300Bから入力xがないかを他のノード100Aの診断エージェント130A,130Cに問い合わせる(q2:x)。ここで、当該入力xが、診断エージェント130Aにセンサ300Aより入力されているため、診断エージェント130Aがノード100Bの診断エージェント130Bに対して当該入力xが自ノード100Aのセンサ300Aから入力されている旨を通知する(a2:x)。
【0039】
(5) もし、他のノードの診断ノード100で問い合わせに反する情報(反例)を持っている場合は、その旨を通知することにより、枝の刈り取りが可能となる。枝の刈り取りは、探索範囲を狭めるために反例を利用する。知識ベース140に、例えば、u→〜Gというような推論規則を設定しておき、センサ300の入力がuであれば、Gを葉に持つ部分木を探索範囲から外すことができる。これにより構造木の探索時間が削減される。
【0040】
(6) ノード100Aの診断エージェント130Aは、図2の異常状態にある根Aのモデルの葉の4/5が満たされていることを監視者200に通知する。
次に、本発明を交通システムに適用した例を説明する。
図6は、本発明の一実施例の交通システムへの適用例を示し、図7は、本発明の一実施例の交通システムの知識ベースの例を示し、図8は、本発明の一実施例の診断モデルの例である。
【0041】
知識ベース140は、各ノード100A,B,Cに共通の知識が格納されているものとする。ここで、知識ベース140の内容は、センサ300から取得される数値データが0〜20%は、『空き状態(=QUT)』、21〜40%は、『順調(=FAV)』、41〜60%は、『やや渋滞(=LJAM)』、61〜80%は、『渋滞(=JAM)』、81〜100%は、『かなり渋滞(=MJAM)』であるとする。
【0042】
なお、ノード100A,100B,100Cは、ある道路において監視対象の地点をオブジェクト400としている。
(1) ノード100Aにおいて、交通量センサ300Aからセンサ入力保持部110が数値データとして75%を取得したものとする。つまり、交通量センサ300Aでは、交通量を監視した結果、所定の時間における交通量を調査し、最大交通量との割合を取得してノード100Aのセンサ入力データ保持部110Aに通知する。
【0043】
(2) ノード100Aのデータ解析部120Aは、知識ベース140Aを参照して、図8に示す葉に照合する現象が起きていないかをチェックする。図7の例では、75%は、閾値61〜80%に該当するため、
75% → JAM
から、診断モデルの2つの葉に照合する。照合すると、子エージェントを作成する。
【0044】
(3) 照合する葉を持つモデルの異常原因、即ち、根の『MJAM』が起きていると仮定し、他の葉(現象・症状)が他のノードで起きていなかを他のノードの診断エージェント130Bに問い合わせる(q1:QUT,LJAM,LJAM)。
(4) 他のノード100Bの診断エージェント130Bでは、ノード100Aの診断エージェント130Aから問い合わせを受け取り、成立していないかを調べる。診断ノード100Cにおいて、センサ300Cの入力が“59%”であるため、知識ベース140Cを参照すると、図7における“LJAM”が成立していることが分かる。これにより診断エージェント130Cは、ノード100Bの診断ノード100Bからの問い合わせ(q1)に対する返答(a1:LJAM)をノード100Bに通知する。
【0045】
(5) また、診断エージェント130Bでは、センサ300Bからの入力61〜80%を仮定すれば“LJAM”が成立するので、センサ300Bから61〜80%の間の入力値がないかを他のノード100Aの診断エージェント130A,130Cに問い合わせる(q2:JAM)。ここで、当該入力80%が、診断エージェント130Aにセンサ300Aより入力されているため、診断エージェント130Aがノード100Bの診断エージェント130Bに対して当該入力80%が自ノード100Aのセンサ300Aから入力されている旨を通知する(a2:JAM)。
【0046】
(6) これにより、ノード100Bの診断エージェント130Bは、ノード100Aの診断エージェント130Aに対して、LJAMとJAMが成立していることを通知する。診断エージェント130Aは、診断エージェント130Bから取得したデータに基づいて、自ノード100Aが渋滞している原因は、自ノード100Aの地点のみならず、他のノード100B,100Cの各オブジェクト(地点)においても混雑していることが原因であると推測して、当該結果を交通管制センタ200に通知する。
【0047】
このように、交通システムにおいて、複数の地点における交通量から渋滞情報を抽出することにより、各ノードにおいてローカルに信号機等の切り替え時間の制御を行うことも可能となる。
また、上記の例では、問い合わせたノードにおいて、多少のレベルの差があるものの、渋滞状態を示しているが、この例に限定されることなく、反する現象(反例:順調、空き)を検出した場合には、誤りとは判定せずに、反例を検出したノードの状態を棄却せずに、信号の切り替え時間の制御に用いることにより、「空き」や「順調」の現象を取得したノードの地点では、信号待ち時間を長くする等の制御も考えられる。
【0048】
また、上記の実施例では、交通システムに対応させた例を示したが、この例に限定されることなく、プラントにおける工程管理等にも適用が可能である。プラントに適用させた場合には、各ノードにおけるジョブの進行状態を調査し、もし所定の期限より工程が遅延している箇所をノード間の問い合わせ/応答により見つけることも可能である。
【0049】
なお、本発明において、上記の実施例における各ノードの機能をプログラムで構築し、ディスク装置に格納する、または、フロッピーディスクやCD−ROM等の可搬記憶媒体に格納することも可能である。
なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内で種々変更・応用が可能である。
【0050】
【発明の効果】
上述のように、発明によれば、分散配置されているノードにおいて、各ノードの診断対象のオブジェクトの監視を行い、隣接するノードや他のノードにアクセスすることにより、ノード単独で当該オブジェクトの情報を把握することが可能となる。従って、従来のように、診断ノードからのアラームを全て1か所のセンタに送信する必要がなく、ノードセンタ間の通信負荷を削減することが可能となる。
【0051】
また、本発明によれば、各ノードにおいて、隣接するまたは、予め関連が定義されているノードに対して問い合わせを行い、自ノードの異常原因を把握することが可能となるため、従来のように、センタにおいて全てのノードまたは、関連する全てのノードの情報をサンプリングする必要がなく、ローカルなノード単位で異常原因による対策等を講じることが可能となり、異常原因の復旧処理等を迅速に行うことが可能となる。さらに、問い合わせを受けたノードにおいても自ノードに入来するセンシング情報及び問い合わせノードから取得した現象・症状による自ノードの状態を把握することも可能となるため、問い合わせされたノードにおいて、問い合わせ元に反映されている原因がある場合には、自ノードにおいて対策を講じることも可能である。従って、あるセンサやあるノードのエージェントが故障や保守休止中であっても、残されたセンサとエージェントで一定精度の診断を実行できる。
【0052】
これにより、診断システム全体のロバストネス、サバイバビリティが大幅に向上する。同様に、センタが何らかの理由により休止した場合であっても、ローカルに配置された各ノードにおいて問い合わせが可能な範囲のノードのエージェントに問い合わせすることにより、オブジェクト状態を把握することが可能である。
【0053】
また、各エージェントに異なる診断モデルを複数おくことが可能であるので、部分的な設計情報で診断モデルを作成することが可能である。
また、本発明によれば、ノード毎に解析された原因の確信度の情報のみを収集することが可能となるため、センタにおいてすべてのセンシング情報を収集し、処理する必要がないため、センタの処理負荷が削減される。
【0054】
また、本発明によれば、木構造を採用することにより、原因を事象駆動型の後ろ向き推論が可能となり、「葉」の部分により順に「根」まで辿ることにより、容易に異常原因を突き止めることが可能となる。
また、本発明によれば、問い合わせノードのみならず、問い合わせ先のノードにおいても現象や症状も把握できると共に、他のノードとの異常原因の関連性を把握することが可能となり、センタに問い合わせを行わなくともローカルなレベルで処理が可能となる。
【0055】
また、本発明によれば、オブジェクトの変更・追加があった場合でも診断モデル及び知識ベースをノード単位で更新することが可能となるため、診断システムの柔軟性、拡張性が向上する。これにより、センタにおいて大規模なプログラムや診断モデルや知識ベースの更新作業を行うことなく、ローカルなレベルでの更新作業のみに留めることが可能となる。
【図面の簡単な説明】
【図1】本発明の診断システムの構成図である。
【図2】本発明の診断モデルの例である。
【図3】本発明の知識ベースの例である。
【図4】本発明の2つの診断エージェント間におけるリンケージを示すシーケンスチャートである。
【図5】本発明の一実施例の診断システムの構成図である。
【図6】本発明の一実施例の交通システムへの適用例を示す図である。
【図7】本発明の一実施例の交通システムにおける知識ベースの例である。
【図8】本発明の交通システムにおける診断モデルの例である。
【図9】従来の診断システムの構成図である。
【符号の説明】
100 ノード
110 センサ入力保持部
120 データ解析部
130 診断エージェント
140 知識ベース
150 診断モデル
200 監視者(センタ)
300 センサ
400 オブジェクト
500 LAN/WAN

Claims (7)

  1. ネットワーク上に分散配置される診断対象のオブジェクトと、
    前記オブジェクトを監視し、任意または、所定の周期でセンシングし、センシング情報を出力するセンサと、
    前記センサからのデータにより前記オブジェクトの状態を診断する複数の診断機能を有し、単独または、他との協調により診断を行う複数のノードとを有し、
    前記ノードは、
    前記センサから渡された前記センシング情報を保持するセンサ入力情報保持手段と、
    前記センシング情報を解析するための知識を格納する知識ベースと、
    前記センシング情報に基づいて前記知識ベースを参照して該センシング情報を解析する解析手段と、
    異常原因と該異常原因の現象及び症状を有する少なくとも1つの診断モデルと、
    前記解析手段により解析された結果に基づいて前記診断モデルとの照合を行い、異常原因の仮説を生成すると共に、該仮説についての問い合わせを他のノードに対して行い、該他のノードからの通知に基づいて異常原因の推論を行う推論手段と、
    前記推論手段による推論結果を診断対象の監視者のセンタに通知する通知手段と、
    を有することを特徴とする分散システムにおける診断システム。
  2. 前記通知手段は、
    異常原因と前記診断モデルの現象及び症状のうち、いくつが確認できたかを確信度として前記センタに通知する請求項記載の分散システムにおける診断システム。
  3. 前記診断モデルは、
    前記異常原因を根とし、該異常原因の現象及び症状を葉とする木構造とする請求項記載の分散システムにおける診断システム。
  4. 前記推論手段は、
    他のノードの推論手段から渡された問い合わせに応じて、自ノードに入力されるセンシング情報を解析して、問い合わせの現象または、症状を確認する確認手段と、
    前記確認手段において前記現象または症状を確認できる場合に、他のノードに前記問い合わせにマッチするセンシング情報の入力がないかを問い合わせ、推論を行う手段とを有し、問い合わせ元のノードへ推論結果を返却する問い合わせ応答手段を含む請求項記載の分散システムにおける診断システム。
  5. 前記診断モデルは、
    前記オブジェクトの変更・追加により随時更新される請求項記載の分散システムにおける診断システム。
  6. 前記知識ベースは、
    前記オブジェクトの変更・追加により随時更新される請求項記載の分散システムにおける診断システム。
  7. ネットワーク上に分散配置される診断対象のオブジェクトと、
    前記オブジェクトを監視し、任意または、所定の周期でセンシングし、センシング情報を出力するセンサと、
    前記センサからのデータにより前記オブジェクトの状態を診断する複数の診断機能を有し、単独または、他との協調により診断を行う複数のノードとを有するシステムにおいて、
    記憶手段に、前記センサから渡された前記センシング情報を保持するセンサ入力情報保 持手段と、該センシング情報を解析するための知識を格納する知識ベースと、を有するノードとして利用されるコンピュータに、
    前記請求項1乃至6記載の各手段を実行させるプログラムを格納したことを特徴とする分散システムの診断プログラムを格納した記憶媒体。
JP14045097A 1996-06-04 1997-05-29 分散システムの診断システム及び分散システムの診断プログラムを格納した記憶媒体 Expired - Fee Related JP3771001B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP14045097A JP3771001B2 (ja) 1996-06-04 1997-05-29 分散システムの診断システム及び分散システムの診断プログラムを格納した記憶媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP14202096 1996-06-04
JP8-142020 1996-06-04
JP14045097A JP3771001B2 (ja) 1996-06-04 1997-05-29 分散システムの診断システム及び分散システムの診断プログラムを格納した記憶媒体

Publications (2)

Publication Number Publication Date
JPH1055344A JPH1055344A (ja) 1998-02-24
JP3771001B2 true JP3771001B2 (ja) 2006-04-26

Family

ID=26472953

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14045097A Expired - Fee Related JP3771001B2 (ja) 1996-06-04 1997-05-29 分散システムの診断システム及び分散システムの診断プログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JP3771001B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007096959A1 (ja) * 2006-02-22 2007-08-30 Fujitsu Limited イベントログ管理プログラム、イベントログ管理装置、およびイベントログ管理方法
JP4612598B2 (ja) * 2006-09-06 2011-01-12 Necフィールディング株式会社 サーバ運用支援システム、サーバ運用支援方法およびプログラム

Also Published As

Publication number Publication date
JPH1055344A (ja) 1998-02-24

Similar Documents

Publication Publication Date Title
Mansouri-Samani et al. GEM: A generalized event monitoring language for distributed systems
CN107369303B (zh) 工厂智能诊断方法、装置及系统
US20060085361A1 (en) Anomaly detector in a health care system using adapter
KR20180108446A (ko) Ict 인프라 관리 시스템 및 이를 이용한 ict 인프라 관리 방법
JP5274667B2 (ja) 安全ステップの判定方法および安全マネージャ
JPH02105947A (ja) コンピユータ周辺サブシステム及びその例外事象自動検出分析方法
JPH06236207A (ja) 故障診断方法及び装置
SE470031B (sv) System och metod för övervakning och förändring av driften av ett datorsystem
CN101507185A (zh) 使用贝叶斯网络的电信网络中的故障定位
CN108845912B (zh) 服务接口调用故障的报警方法及计算设备
WO2007006811A1 (en) System and method for detecting imbalances in dynamic workload scheduling in clustered environments
EP0361387B1 (en) Automatic operation control system for computer system
US7469287B1 (en) Apparatus and method for monitoring objects in a network and automatically validating events relating to the objects
Chung Diagnosing PN-based models with partial observable transitions
CA2712172A1 (en) Apparatus for system diagnosis
US8601318B2 (en) Method, apparatus and computer program product for rule-based directed problem resolution for servers with scalable proactive monitoring
CN102141948A (zh) 带噪声的监控器检测和间歇故障隔离
EP1476794B1 (en) Apparatus, method and computer program product for modelling causality in a flow system
Cherrared et al. LUMEN: A global fault management framework for network virtualization environments
Raj et al. Cloud infrastructure fault monitoring and prediction system using LSTM based predictive maintenance
JP3771001B2 (ja) 分散システムの診断システム及び分散システムの診断プログラムを格納した記憶媒体
CN101790722A (zh) 监视与共享媒介连接的航空电子系统的设备与方法
CN116204386B (zh) 应用服务关系自动识别及监控方法、系统、介质和设备
Addouche et al. UML models for dependability analysis of real-time systems
US11543803B2 (en) Process control system with an engineering system, an operator system and an archive system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040223

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050329

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060208

R150 Certificate of patent (=grant) or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090217

Year of fee payment: 3

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100217

Year of fee payment: 4

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110217

Year of fee payment: 5

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110217

Year of fee payment: 5

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120217

Year of fee payment: 6

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130217

Year of fee payment: 7

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130217

Year of fee payment: 7

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140217

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees