JPH0818593A - 限定複数障害管理方法および診断システム - Google Patents

限定複数障害管理方法および診断システム

Info

Publication number
JPH0818593A
JPH0818593A JP7139467A JP13946795A JPH0818593A JP H0818593 A JPH0818593 A JP H0818593A JP 7139467 A JP7139467 A JP 7139467A JP 13946795 A JP13946795 A JP 13946795A JP H0818593 A JPH0818593 A JP H0818593A
Authority
JP
Japan
Prior art keywords
lan
event
cluster
server
expert
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7139467A
Other languages
English (en)
Other versions
JP3372394B2 (ja
Inventor
Alex Winokur
アレックス・ウィノクル
Joseph Shiloach
ジョゼフ・シロアク
Amnon Ribak
アムノン・リヴァク
Yuangeng Huang
ユアンゲン・ホアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH0818593A publication Critical patent/JPH0818593A/ja
Application granted granted Critical
Publication of JP3372394B2 publication Critical patent/JP3372394B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2257Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using expert systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer And Data Communications (AREA)
  • Small-Scale Networks (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

(57)【要約】 【目的】 ローカル・エリア・ネットワーク(LAN)
におけるエラー修復を管理するためのシステムおよび方
法を提供する。 【構成】 このシステムは、関連するエラー事象と診断
用の問題と原因とを格納するデータ構造を含む。さら
に、エラー事象をリアルタイムで管理し、原因を識別
し、処置を推奨する方法が提供される。知識ベースは、
前記問題の原因および推奨される処置を判別するために
使用される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、一般的には、ローカル
・エリア・ネットワーク(LAN)システムの問題およ
び状態に関する情報を管理し、分析し、提供する方法お
よび装置に関し、より具体的には、知識ベースに格納さ
れた知識に基づいて、エラー事象を分析し、その事象の
可能な原因および推奨される処置に関する情報を提供す
る、事象相関/問題判別(ECPD)システムに関す
る。
【0002】
【従来の技術】コンピュータ・システム、特にLANで
は数多くのエラー事象が起こることが普通である。ほと
んどのエラー事象は、それを回復するために、ユーザお
よび発生セグメントに異なるメッセージを送る必要があ
り、多くの異なる複雑な処置の実行が必要である。こう
したエラーは、構成エラーやハードウェア・エラーや通
信エラーを含めて、様々な状態に起因する。
【0003】現在のところ、エラー分析および問題解決
は、LAN管理者が手作業で行うことが多い。この手法
には2つの問題がある。第一に、エラー・メッセージに
曖昧なまたは不完全な情報が含まれていることが多い。
たとえば「内部ソフトウェア・エラー」というエラー・
メッセージがそうである。この場合、管理者は、エラー
・メッセージを解読するか、あるいは追加の作業を行っ
て、実際のエラーの原因を判別しなければならない。手
動でエラー・コードを解決する際の第二の問題点は、特
にLANシステムの場合に、1つの問題から複数のエラ
ー・メッセージがしばしば発生し得ることである。した
がって、LAN管理者は、分析する必要のあるエラーの
数が余りにも多いことにしばしば圧倒される。しかも、
エラーの分析および検討は知識集約型である。したがっ
て、エラー・メッセージを管理する非手動の方法または
システムの実施は困難であった。
【0004】これまでにも、エラー・マネージャを実施
するいくつかの試みがなされてきた。しかし、こうした
試みは、格納しなければならない情報の量と、必要な知
識が多いために成功しなかった。場合によっては、エラ
ー事象が認識された後に呼び出される複雑なインライン
・コードでエラー・マネージャが実施された。また、
「テーブル駆動型」のエラー管理を使用する実施態様も
あった。しかし、このようなシステムは、各エラー事象
が多数のアクション・コードを有する可能性があり、か
つそれぞれ独自のエラー事象とアクション・コードの対
を表示しなければならないために、表示と格納の効率が
悪かった。しかも、こうした方法はいずれも、ユーザが
エラー処理方法を変更できるシステムを提供していな
い。現在のところ、エラーと問題判別を相関させる標準
的方法はない。
【0005】エラー管理には、エラーに関する情報の分
析および提供ができるように、問題と原因を相関させる
必要がある。現在のところ、ほとんどの問題判別システ
ムは単一障害仮定を用いている。これは、1つのシステ
ムには一時に1つの障害しか起こらず、その障害は単一
の原因に関連するというものである。単一障害仮定は、
複雑なネットワーク・システムまたはコンピュータ・シ
ステムで用いることができる。他の複雑なシステムでは
複数障害仮定を用いるが、リアルタイム・システムの場
合には、コンピュータ使用のコストがかかりすぎる。し
たがって、複数障害仮定を用いてリアルタイムでエラー
情報を提供することはできない。
【0006】
【発明が解決しようとする課題】本発明の目的は、LA
N環境において、エラー・メッセージの分析および相関
を行う方法を提供することにある。
【0007】本発明の他の目的は、エラー事象の可能な
原因を判別し、推奨される処置を提供する方法を提供す
ることにある。
【0008】本発明の他の目的は、問題判別および事象
相関をリアルタイムで実行することにある。
【0009】本発明の他の目的は、問題判別とエラー事
象を相関させるための構造および方法を提供することに
ある。
【0010】
【課題を解決するための手段】本発明によれば、コンピ
ュータ・システム、特にLANシステムにおいて、問題
を判別するための方法およびシステムが提供される。推
論エンジンを提供することによって、エラー・メッセー
ジの分析および相関をリアルタイムで行い、エラー事象
の原因に関する情報と、エラー事象の解決のために推奨
される一連の処置とを提供する。
【0011】本発明で提供されるエラー管理の方法は、
知識ベースを利用することによってエラー・メッセージ
を評価し、そのエラー・メッセージが反復されるもの
か、あるいは他のメッセージによってトリガされるもの
か、あるいは他のエラー事象とともにクラスタにすべき
ものかを判別するものである。相関するすべての事象が
受け取られるまで、新たな入力事象をすでに受け取られ
て処理された事象と比較し、その後、診断の結論に達す
る。
【0012】
【実施例】図面、より具体的には図1を参照すると、L
ANシステムのサーバまたはリクエスタとして使用で
き、本発明をそこで実施できる、代表的なハードウェア
環境が示されている。このハードウェア環境は、IBM
PS/2などのパーソナル・コンピュータ、またはI
BM RS/6000などのワークステーションでよ
い。ハードウェアに含まれる中央演算処理装置(CP
U)10は、Intel386または486やPent
iumマイクロプロセッサなどのCISCマイクロプロ
セッサ、あるいはIBM PowerPCマイクロプロ
セッサなどのRISCマイクロプロセッサでよい。CP
U10は、システム・バス12に接続され、システム・
バス12には、ランダム・アクセス・メモリ(RAM)
14と、読み取り専用メモリ(ROM)16と、入出力
アダプタ18と、ユーザ・インタフェース・アダプタ2
2が接続される。RAM14は、アプリケーション・プ
ログラム・コードおよびデータ用の一時記憶域を提供す
る。一方、ROM16は、一般に基本入出力(BIO
S)コードを含む。入出力アダプタ18は、1つまたは
複数の直接アクセス記憶装置(DASD)に接続され
る。DASDは図ではディスク・ドライブ20として表
されている。ディスク・ドライブ20は、一般にコンピ
ュータのオペレーティング・システム(OS)および様
々なアプリケーション・プログラムを格納する。これら
はシステム・バス12を経由してRAM14に選択的に
ロードされる。入出力アダプタ18は、たとえばIDE
インタフェース基準やSCSI基準などをサポートする
ことができる。前者の場合、入出力アダプタ18は、一
般にドライブ「C:」および「D:」と呼ばれる2つの
ディスク・ドライブを同時にサポートすることになる。
後者の場合、入出力アダプタ18は、デイジー・チェー
ンによって接続されたディスク・ドライブを最高9個ま
でサポートすることになる。ユーザ・インタフェース・
アダプタ22には、キーボード24、マウス26、スピ
ーカ28、マイクロフォン32、またはタッチ・スクリ
ーン装置など(図示せず)その他のユーザ・インタフェ
ース装置あるいはそれらの組合せが接続される。タッチ
・スクリーン装置は、任意選択で表示装置38にインス
トールされる。表示装置38は図ではCRT表示装置と
して表されているが、液晶表示装置(LCD)でもよ
い。表示装置38は、表示装置アダプタ36を介してシ
ステム・バス12に接続される。通信アダプタ34は、
システム・バス12およびIBMトークン・リングLA
NなどのLANに接続する。
【0013】図2に示すように、LANとは、パーソナ
ル・コンピュータおよびその他のコンピュータ装置が、
資源を共有でき、LAN内部でデータおよび情報を転送
できるように構成されたシステムである。図のように、
LANは一般に、少なくとも1つのサーバ100および
110と、しばしば複数のリクエスタ120および13
0を含む。サーバとは、周辺装置とネットワークの間の
インタフェースを提供する装置である。サーバには、デ
ータ、印刷、通信、ミラー、ゲートウェイを含めて、様
々な種類のものがある。図2に示すように、LAN E
XPERTは、LAN用の問題判別システムである。L
AN EXPERTは、LAN EXPERTサーバ1
00と、LAN EXPERTエージェント110、1
20、130からなる。これらのエージェントは、LA
Nサーバおよびリクエスタにインストールされ、その状
態を監視する。LANサーバおよびリクエスタがエラー
・メッセージを発行すると、LAN EXPERTエー
ジェントがエラー・メッセージを受け取り、LAN E
XPERTサーバに送る。リクエスタ120および13
0は、LAN EXPERTエージェントである。LA
N EXPERTサーバは、LAN EXPERTエー
ジェントからエラー・メッセージを受け取る。LAN
EXPERTサーバは、推論エンジンと、知識ベース
と、知識ベース・エディタやグラフィカル・ユーザ・イ
ンタフェースなどその他の構成要素とを含む。以上は、
エラー・メッセージの分析および相関を行い、ユーザに
問題を報告するものであり、下記で詳述する。
【0014】前記の通り、サーバ間、またはサーバと周
辺装置との間の通信およびデータ転送によって、しばし
ばエラー事象が起こる。事象相関/問題判別システム
は、問題を診断するためにLANシステムで使用される
方法である。このシステムは、エキスパート・システム
・モデルを使用するものであり、人工知能技術を使用し
て実施することが好ましい。当然のことながら、エキス
パート・システムとは、当分野の専門家である人間と同
じように情報の処理および機能の実行を行うシステムで
ある。エキスパート・システムは、知識ベースに格納さ
れた情報に基づいて推論を導き出す。一般的に、知識ベ
ースは、特定のアプリケーションについての人間の経験
に関する情報、およびこれまでに解決された問題のデー
タを含むデータベースである。推論エンジンは、エキス
パート・システムの構成要素でもあり、推論原理を応用
して、知識ベースに格納された情報から結論を導き出す
ために使用される。
【0015】図3に示すように、事象相関/問題判別シ
ステムは、推論エンジン140と知識ベース150から
なり、エラー事象160の処理および評価を行う。知識
ベースは、エラー・メッセージと可能な原因の間の因果
関係を含む。ユーザは、知識ベース・エディタを使って
知識ベースの修正および拡張を行うことができる。推論
エンジンは、知識ベースの中にある知識を読み取り、そ
の知識を使用して入力エラー事象を処理し、可能な原因
を診断する。推論エンジンが情報の処理を終了すると、
問題レポート170が作成される。これについては下記
で詳述する。
【0016】本発明において、事象とは、サーバ、デー
タベース・マネージャ、通信マネージャなどの装置から
推論エンジンに送られる通知である。1つの事象は、少
なくともエラー・メッセージと報告マシンと事象作成時
間の、3つのエンティティからなる。必要に応じてその
他のエンティティを含むこともできる。
【0017】上記の通り、エラー・メッセージは事象の
一部であり、問題に遭遇したときにLANサーバやリク
エスタなどの装置から発行される。装置のエージェン
ト、具体的にはLAN EXPERTが、エラー・メッ
セージを受け取って、LANEXPERTサーバに送
る。一般的に、エラー・メッセージは英数字の識別と問
題を簡単に記述したテキスト部分とからなる。テキスト
部分は変数を含むこともでき、実行時にその値が与えら
れる。実際の値を有する変数を持つメッセージは、イン
スタンス化メッセージと呼ばれる。非インスタンス化メ
ッセージは、総称メッセージと呼ばれる。
【0018】本発明において、原因とは、何かが機能し
ない根本的な理由であり、システムの修復しなければな
らない部分である。原因は、変数を含むことのできる言
語記述からなる。たとえば、典型的な原因として「ファ
イルXが壊れている」というものがある。壊れたファイ
ルの識別は実行時に判別される。原因は、総称的なもの
でもインスタンス化されたものでもよい。さらに、原因
は、問題の所在位置に関する情報をまったく含まない。
したがって、所在位置が突き止められた原因が、マシン
と対にされる。
【0019】最後に、問題報告は、推論エンジンの診断
による情報を含む。その情報には、1つまたは複数の原
因と、1つまたは複数の原因に関する1組の事象と、問
題を修復するために推奨される処置が含まれる。
【0020】上記のような原因とエラー・メッセージの
関係は、限定複数障害手法に基づいている。この手法で
は、エラー・メッセージMが受け取られた場合に、Mに
よって示される1つの障害のみが真である可能性があ
る。言い換えると、1つのエラー・メッセージのすべて
の原因は互いに排他的かつ網羅的である。さらに、複数
障害が、サーバ、リクエスタ、またはコンピュータ・シ
ステムで起こりうるが、これらは同一のエラー・メッセ
ージに関連するものではない。
【0021】限定複数障害手法の確率による表示は以下
のとおりである
【数1】 P(C(i)*(C(k)|M)=1かつP(1).....C(n)|M=1
【0022】これらの方程式において、{C
(1)、...、C(n)}は、Mのすべての可能な障
害の集合であり、C(i)およびC(k)は、そのよう
な障害のうちの任意の2つである。エラー・メッセージ
および原因は変数を含むことができるので、{C
(1)、...、C(n)}は、すべての可能なインス
タンス化された原因を含むと仮定する。
【0023】原因とエラー・メッセージを関連させる方
法を、擬似コードによって以下に記述する。
【0024】 LOOP { 事象Eを受け取る; S={S(i),...,S(m)}と置く、すべて現クラスタ; FOR S DO中のすべてのクラスタS(i) { IF EがS(i)と交差する; THEN { EがS(i)に合併される IF S(i)に単一の障害が残っている THEN { S(i)を報告する; S=S−S(i); }; BREAK; } } IF Eがどのクラスタとも交差しない THEN { 新規クラスタをNEW_Sとする; NEW_S.EVENTS={E} NEW_S.CAUSES=Eと関連するすべての原因; NEW_S.TIME=Eの作成時間; S=S+NEW_S; } }
【0025】上記の擬似コードにおいて、クラスタS
(i)は、潜在的問題の部分的診断結果を保持するデー
タ構造である。さらに、S(i).EVENTSはこの
潜在的問題に相関するエラー・メッセージの集合を含
み、S(i).CAUSESはこれらの問題に関する潜
在的候補である原因の集合を含む。
【0026】エラー・メッセージに関連する原因と、原
因の集合S(i)との交差が空でない場合、エラー・メ
ッセージEはクラスタS(i)と交差することに留意さ
れたい。さらに、エラー・メッセージEは、以下のよう
にクラスタS(i)に合併される。
【数2】S(i).EVENTS=S(i).EVEN
TS*UNION*E; S(i).CAUSES=S(i).CAUSES*
NTERSECT*E.CAUSES;
【0027】LANエキスパート・システムにおいて
は、1つの原因のみが残った場合、あるいはユーザが推
定できる時間制限に達した場合に、クラスタS(i)が
ユーザに報告される。
【0028】前述のとおり、クラスタは部分的診断結果
を格納するために使用されるデータ構造である。各クラ
スタは、潜在的な各問題に関する、相関する事象および
可能な原因を含む。クラスタは、固有の識別番号または
識別コードを含む。すなわち、インスタンス化事象およ
び関連事象の集合と、インスタンス化された原因または
部分的にインスタンス化された原因の集合と、クラスタ
における事象の集合のうちのある事象に関して最も早く
記録された時間とである。このデータ構造の例は、以下
のとおりである。 {データ構造CLUSTER CLUSTER_ID: 整数; EVENTS: 事象の集合; CAUSES: 原因の集合; TIME: EVENTS中のすべての事象の最も早い 時間: }
【0029】事象e1が受け取られたとき、推論エンジ
ンがクラスタc1を形成する。c1.EVENTはe1
を含み、c1.CAUSESは事象e1のすべての可能
な原因を含むことになる。各事象の原因は、知識ベース
内で定義される。原因中の変数は、事象によってインス
タンス化することができる。新たな事象e2が受け取ら
れると、それがc1および他のすべてのクラスタと比較
され、e2をc1に追加すべきかどうかが判別される。
事象をどのクラスタに入れるべきかを決定する方法を、
擬似コードによって以下に記述する。
【0030】 JOIN(CLUSTER c1.EVENT e2) { SET cause_set={}/*原因集合は原因の集合を含み 、最初は空*/ cause_set=intersection(c1.cause s,e2.causes); if原因集合が空でない then /* e2がc1.と交差しe2がc1と合併する; */ { c1.CAUSES=cause_set; c1.EVENTS=c1.EVENTS.union.e2; c1.TIME=c1.EVENTS中の事象の最も早い時間; (TRUE)を戻す; } else (FALSE)を戻す; }
【0031】知識ベースに定義されたとおり、e2.C
AUSESはe2の可能なすべての原因を含むことに留
意されたい。さらに、呼び出された交差手順は、当業者
なら理解するように1組の交差操作である。
【0032】図に示すとおり、e2およびc1の原因の
交差が空でない場合は、事象e2はクラスタc1と合併
する。そうでない場合は、e2は自らのクラスタを形成
する。クラスタ内の事象の数が増えるにつれ、原因の数
が減り、変数がインスタンス化される。クラスタが完全
にインスタンス化された原因を1つだけ含むようになっ
たとき、すぐに診断の結論に達する。その結論はc1.
CAUSESに残された問題の原因を反映するので、こ
の原因がc1.EVENTにおけるすべての事象の発行
を引き起こしたと判定される。このデータ構造に含まれ
る情報が推論エンジンに提供され、問題報告が作成でき
るようになる。
【0033】図4は、原因および事象をクラスタにする
方法を図示した流れ図である。最初に、事象を受け取る
(300)。その後、ループに入り、事象の原因をクラ
スタの原因と比較して、交差するかどうかを判別する。
ブロック310で、まず、既存のクラスタ集合から次の
クラスタSを得る。クラスタがもうない場合は、新たな
クラスタを作成し(340)、処理は終了する。クラス
タがまだある場合は、事象とクラスタの原因との交差が
空であるかどうかを判別する(320)。空である場合
は、ブロック310に戻ってこのループを続行する。交
差が空でない場合は、その事象がクラスタSと合併され
る(330)。最後に処理が終了する。
【0034】図5は、推論エンジンによる事象の分析お
よび処理の流れ図である。推論エンジンは、エラーが2
00に到着した順にエラー事象を受け取る。各エラー事
象ごとに、知識ベースを呼び出してエラー・メッセージ
を識別する。エラー・メッセージが認識されると、可能
な原因に関する情報を取り出して事象に付加する。
【0035】その後、入力エラー・メッセージをすでに
受け取った他の事象と比較して、反復するエラー・メッ
セージを除外する(210)。その後、エラー・メッセ
ージの分析を行って、そのメッセージが他のメッセージ
によってトリガまたはセットオフされるかどうかを判別
する(220)。そうであれば、すでに受け取ったエラ
ー・メッセージを調べて、トリガするメッセージが到着
しているか否かを判別する。トリガするメッセージが到
着している場合は、新規エラー・メッセージは無視され
る。そうでない場合は、推論エンジンは、エラー・メッ
セージが通常のエラー・メッセージとして処理されるま
で、指定可能な時間枠だけ待つことになる。この時点
で、入力エラー・メッセージを、クラスタと称する既存
の診断用問題と比較して、入力エラー・メッセージがク
ラスタ内のすべてのエラー・メッセージと共通の原因を
共有しているかどうかを判別する(230)。共通する
原因がある場合は、新規エラー・メッセージは既存のク
ラスタに合併される。そうでない場合は、新規診断用問
題用の新規クラスタが作成されることになる。クラスタ
構造に関するより詳細な説明は後で行う。推論エンジン
は、エラー・メッセージをクラスタにする方法を決定す
るだけでなく、エラー・メッセージと原因の対が条件を
満たすかどうかをも判別する(240)。そうであれ
ば、その条件が評価されるまで、ユーザが構成できる時
間枠の間処理が中断される。次にクラスタ内の原因を評
価して、クラスタ内の1つの原因が他の原因を暗示する
かどうかを判別する(250)。そうであれば、暗示さ
れる原因は削除される。最後に、クラスタに完全にイン
スタンス化された1つの原因が残っていれば、問題報告
が作成されることになる。問題報告は、クラスタ中で相
関するすべてのメッセージと、原因と、原因を修復する
ための推奨される処理とに関する情報を提供する。その
後、受け取りステップに戻る。
【0036】推論エンジンは、クラスタの状況も検討す
る。クラスタは、ユーザが構成できる「problem
_life_time」と名付けられる時間枠の間維持
される。「problem_life_time」が満
了すると、クラスタは記憶域から削除される。また、問
題報告について設定できる時間には上限がある。「cl
uster_max_time」の満了時にクラスタに
複数の原因が残っていた場合、複数の原因について問題
報告が作成されることになる。エラー事象をクラスタに
合併できるのは、問題報告が作成された後であることに
留意されたい。しかも「problem_life_t
ime」の満了前でなければならない。新規事象は、報
告された問題に関する追加情報を提供する。新規エラー
・メッセージの情報は、別に作成される問題報告「la
te_problem_report」に含まれること
になる。「late_problem_report」
は、元の問題報告と同じ問題識別番号を持つ。
【0037】このエラー・マネージャ・システムの設計
および構造は、維持、拡張および検証が容易であること
に留意されたい。さらに、エラー・マネージャの設計は
きわめて効率的である。特定のエラー事象を伴う問題の
発見、解明および変更が容易である。というのは、ある
事象に関するすべての知識、その回復作業、およびメッ
セージを知識ベース中で見つけることができるからであ
る。さらに、知識ベースは、新規エラー・メッセージを
容易にシステムに追加することができる。知識ベース
は、システムの稼働中に編集できることに留意された
い。さらに、LANエキスパート・システムは自動的に
エラー・メッセージを相関させるので、ユーザは、エラ
ー・メッセージを分析する必要がなく、診断済みの問題
を受け取ることになる。
【0038】まとめとして、本発明の構成に関して以下
の事項を開示する。
【0039】(1)1つまたは複数のLANサーバと複
数のLANリクエスタと1つのLANEXPERTサー
バと複数のLAN EXPERTエージェントとを有
し、前記LAN EXPERTサーバが、前記LANに
接続され、かつ推論エンジンと可能な原因とエラー・メ
ッセージとの関係を含む知識ベースと問題を報告しユー
ザと対話するためのユーザ・インタフェースとを含み、
LAN EXPERTエージェントが、LANサーバお
よびLANリクエスタの状況を監視するためにLANサ
ーバおよびLANリクエスタにインストールされてい
る、ローカル・エリア・ネットワーク(LAN)におけ
るエラー事象を管理する限定複数障害管理方法におい
て、LAN EXPERTエージェントによって、それ
がインストールされているLANサーバまたはLANリ
クエスタから発行されたエラー・メッセージを受け取
り、そのエラー・メッセージを前記LAN EXPER
Tサーバに送るステップと、LAN EXPERTサー
バによって、すべてのLAN EXPERTエージェン
トから送られたエラー・メッセージを受け取り、受け取
られたエラー・メッセージがLAN EXPERTサー
バの推論エンジンによって診断される事象となるステッ
プと、LAN EXPERTサーバの推論エンジンによ
って、受け取ったエラー・メッセージに関する事象クラ
スタを形成し、クラスタが相関する事象と可能な原因と
を含む部分的診断結果を保持するデータ構造であり、事
象と原因がいずれも関連する変数を持つことができるス
テップと、推論エンジンによって、知識ベースでの定義
によれば受け取ったエラー・メッセージに対応する事象
に関するすべての関連する原因を取り出すために、LA
NEXPERTサーバの前記知識ベースにアクセスし、
原因の変数が事象によってインスタンス化される可能性
があるステップと、LAN EXPERTサーバの推論
エンジンによって、後続のエラー・メッセージを事象ク
ラスタおよびその他のクラスタと比較して、後続の事象
をクラスタに合併すべきか否かを判別するステップと、
LAN EXPERTサーバの推論エンジンによって、
後続の事象の原因とあるクラスタの原因の数学的交差が
空でない場合は、後続の事象をそのクラスタに合併し、
そうでない場合は、推論エンジンによって、前記後続の
事象用の新規事象クラスタを作成し、その際に、推論エ
ンジンによってクラスタに合併される事象が増えるほど
原因の数が減少し、変数がインスタンス化され、クラス
タが完全にインスタンス化された1つの原因しか含まな
くなったときに診断の結論に達するステップと、LAN
EXPERTサーバのユーザ・インタフェースによっ
て、推論エンジンが生成した診断情報を報告するステッ
プとを含む方法。 (2)前記原因および前記事象がそれ自体に関連するイ
ンスタンス化変数を有する場合、前記合併ステップが前
記変数の数学的交差の計算を含み、前記変数の前記交差
が空でない場合は、前記事象が前記クラスタに合併され
ることを特徴とする、上記(1)に記載の方法。 (3)ローカル・エリア・ネットワーク(LAN)にお
けるエラー事象の限定複数障害管理用の診断システムに
おいて、複数のLANリクエスタと、1つのLANサー
バが複数のLANリクエスタにサービスを提供する、1
つまたは複数のLANサーバと、前記LANに接続さ
れ、推論エンジンと可能な原因とエラー・メッセージの
関係を含む知識ベースと問題を報告しユーザと対話する
ためのユーザ・インタフェースとを含むLAN EXP
ERTサーバと、LANサーバおよびLANリクエスタ
上にインストールされ、前記LANサーバおよびLAN
リクエスタの状況を監視する、複数のLAN EXPE
RTエージェントとを備え、前記LAN EXPERT
エージェントが、それがインストールされているLAN
サーバまたはLANリクエスタから発行されたエラー・
メッセージを受け取って、そのエラー・メッセージをL
AN EXPERTサーバに送り、前記LAN EXP
ERTサーバが、すべてのLAN EXPERTエージ
ェントから送られたエラー・メッセージを受け取り、受
け取られたエラー・メッセージがLAN EXPERT
サーバの推論エンジンによって診断される事象であり、
LAN EXPERTサーバの前記推論エンジンが、受
け取られたエラー・メッセージに関する事象クラスタを
形成し、クラスタは相関する事象と可能な原因とを含む
部分的診断結果を保持するデータ構造であり、事象と原
因がいずれもそれ自体に関連する変数を有することがで
き、前記推論エンジンが、前記知識ベースでの定義によ
れば受け取られたエラー・メッセージに対応する事象に
関するすべての関連する原因を取り出すために、LAN
EXPERTサーバの知識ベースにアクセスし、原因
の変数が前記事象によってインスタンス化される可能性
があり、LAN EXPERTサーバの前記推論エンジ
ンが、次のエラー・メッセージを事象クラスタおよびそ
の他のクラスタと比較して、後続事象をクラスタに合併
すべきかどうかを判別し、前記推論エンジンが、後続の
事象の原因とクラスタの原因の数学的交差が空でない場
合は、後続の事象をクラスタに合併し、そうでない場合
は、前記推論エンジンが後続の事象用の新規事象クラス
タを形成し、その際に、推論エンジンによってクラスタ
に合併される事象が増えるほど原因の数が減少し、変数
がインスタンス化され、クラスタが完全にインスタンス
化された1つの原因しか含まなくなったときに診断の結
論に達し、前記LAN EXPERTサーバの前記ユー
ザ・インタフェースが、前記推論エンジンによって生成
された診断情報を報告することを特徴とする、診断シス
テム。
【図面の簡単な説明】
【図1】本発明をそこで実施できるハードウェア構成を
示すブロック図である。
【図2】LANシステムの例を示す図である。
【図3】LANシステム用として実施されたエラー管理
システムの高レベル概略図である。
【図4】原因および事象をクラスタにする方法を示す流
れ図である。
【図5】エラー事象の分析および相関を行い、回復処置
を提供する方法を示す流れ図である。
【符号の説明】
10 中央演算処理装置(CPU) 12 システム・バス 14 ランダム・アクセス・メモリ(RAM) 16 読み取り専用メモリ(ROM) 18 入出力アダプタ 20 ディスク・ドライブ 22 ユーザ・インタフェース・アダプタ 24 キーボード 26 マウス 28 スピーカ 34 通信アダプタ 36 表示装置アダプタ 38 表示装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ジョゼフ・シロアク イスラエル キリアト・ティヴオン コロ ンバス・ストリート 44 (72)発明者 アムノン・リヴァク イスラエル ミスガヴ ユヴァリン 251 (72)発明者 ユアンゲン・ホアン アメリカ合衆国78727 テキサス州オース チン ブレイディッド・ロープ・ドライブ 1431

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】1つまたは複数のLANサーバと複数のL
    ANリクエスタと1つのLAN EXPERTサーバと
    複数のLAN EXPERTエージェントとを有し、前
    記LAN EXPERTサーバが、前記LANに接続さ
    れ、かつ推論エンジンと可能な原因とエラー・メッセー
    ジとの関係を含む知識ベースと問題を報告しユーザと対
    話するためのユーザ・インタフェースとを含み、LAN
    EXPERTエージェントが、LANサーバおよびL
    ANリクエスタの状況を監視するためにLANサーバお
    よびLANリクエスタにインストールされている、ロー
    カル・エリア・ネットワーク(LAN)におけるエラー
    事象を管理する限定複数障害管理方法において、 LAN EXPERTエージェントによって、それがイ
    ンストールされているLANサーバまたはLANリクエ
    スタから発行されたエラー・メッセージを受け取り、そ
    のエラー・メッセージを前記LAN EXPERTサー
    バに送るステップと、 LAN EXPERTサーバによって、すべてのLAN
    EXPERTエージェントから送られたエラー・メッ
    セージを受け取り、受け取られたエラー・メッセージが
    LAN EXPERTサーバの推論エンジンによって診
    断される事象となるステップと、 LAN EXPERTサーバの推論エンジンによって、
    受け取ったエラー・メッセージに関する事象クラスタを
    形成し、クラスタが相関する事象と可能な原因とを含む
    部分的診断結果を保持するデータ構造であり、事象と原
    因がいずれも関連する変数を持つことができるステップ
    と、 推論エンジンによって、知識ベースでの定義によれば受
    け取ったエラー・メッセージに対応する事象に関するす
    べての関連する原因を取り出すために、LANEXPE
    RTサーバの前記知識ベースにアクセスし、原因の変数
    が事象によってインスタンス化される可能性があるステ
    ップと、 LAN EXPERTサーバの推論エンジンによって、
    後続のエラー・メッセージを事象クラスタおよびその他
    のクラスタと比較して、後続の事象をクラスタに合併す
    べきか否かを判別するステップと、 LAN EXPERTサーバの推論エンジンによって、
    後続の事象の原因とあるクラスタの原因の数学的交差が
    空でない場合は、後続の事象をそのクラスタに合併し、
    そうでない場合は、推論エンジンによって、前記後続の
    事象用の新規事象クラスタを作成し、その際に、推論エ
    ンジンによってクラスタに合併される事象が増えるほど
    原因の数が減少し、変数がインスタンス化され、クラス
    タが完全にインスタンス化された1つの原因しか含まな
    くなったときに診断の結論に達するステップと、 LAN EXPERTサーバのユーザ・インタフェース
    によって、推論エンジンが生成した診断情報を報告する
    ステップとを含む方法。
  2. 【請求項2】前記原因および前記事象がそれ自体に関連
    するインスタンス化変数を有する場合、前記合併ステッ
    プが前記変数の数学的交差の計算を含み、前記変数の前
    記交差が空でない場合は、前記事象が前記クラスタに合
    併されることを特徴とする、請求項1に記載の方法。
  3. 【請求項3】ローカル・エリア・ネットワーク(LA
    N)におけるエラー事象の限定複数障害管理用の診断シ
    ステムにおいて、 複数のLANリクエスタと、 1つのLANサーバが複数のLANリクエスタにサービ
    スを提供する、1つまたは複数のLANサーバと、 前記LANに接続され、推論エンジンと可能な原因とエ
    ラー・メッセージの関係を含む知識ベースと問題を報告
    しユーザと対話するためのユーザ・インタフェースとを
    含むLAN EXPERTサーバと、 LANサーバおよびLANリクエスタ上にインストール
    され、前記LANサーバおよびLANリクエスタの状況
    を監視する、複数のLAN EXPERTエージェント
    とを備え、 前記LAN EXPERTエージェントが、それがイン
    ストールされているLANサーバまたはLANリクエス
    タから発行されたエラー・メッセージを受け取って、そ
    のエラー・メッセージをLAN EXPERTサーバに
    送り、 前記LAN EXPERTサーバが、すべてのLAN
    EXPERTエージェントから送られたエラー・メッセ
    ージを受け取り、受け取られたエラー・メッセージがL
    AN EXPERTサーバの推論エンジンによって診断
    される事象であり、 LAN EXPERTサーバの前記推論エンジンが、受
    け取られたエラー・メッセージに関する事象クラスタを
    形成し、クラスタは相関する事象と可能な原因とを含む
    部分的診断結果を保持するデータ構造であり、事象と原
    因がいずれもそれ自体に関連する変数を有することがで
    き、 前記推論エンジンが、前記知識ベースでの定義によれば
    受け取られたエラー・メッセージに対応する事象に関す
    るすべての関連する原因を取り出すために、LAN E
    XPERTサーバの知識ベースにアクセスし、原因の変
    数が前記事象によってインスタンス化される可能性があ
    り、 LAN EXPERTサーバの前記推論エンジンが、次
    のエラー・メッセージを事象クラスタおよびその他のク
    ラスタと比較して、後続事象をクラスタに合併すべきか
    どうかを判別し、 前記推論エンジンが、後続の事象の原因とクラスタの原
    因の数学的交差が空でない場合は、後続の事象をクラス
    タに合併し、そうでない場合は、前記推論エンジンが後
    続の事象用の新規事象クラスタを形成し、その際に、推
    論エンジンによってクラスタに合併される事象が増える
    ほど原因の数が減少し、変数がインスタンス化され、ク
    ラスタが完全にインスタンス化された1つの原因しか含
    まなくなったときに診断の結論に達し、 前記LAN EXPERTサーバの前記ユーザ・インタ
    フェースが、前記推論エンジンによって生成された診断
    情報を報告することを特徴とする、診断システム。
JP13946795A 1994-06-27 1995-06-06 限定複数障害管理方法および診断システム Expired - Fee Related JP3372394B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US266073 1994-06-27
US08/266,073 US5539877A (en) 1994-06-27 1994-06-27 Problem determination method for local area network systems

Publications (2)

Publication Number Publication Date
JPH0818593A true JPH0818593A (ja) 1996-01-19
JP3372394B2 JP3372394B2 (ja) 2003-02-04

Family

ID=23013054

Family Applications (1)

Application Number Title Priority Date Filing Date
JP13946795A Expired - Fee Related JP3372394B2 (ja) 1994-06-27 1995-06-06 限定複数障害管理方法および診断システム

Country Status (3)

Country Link
US (1) US5539877A (ja)
JP (1) JP3372394B2 (ja)
FR (1) FR2722354A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001008016A1 (fr) * 1999-07-28 2001-02-01 Sumitomo Electric Industries, Ltd. Systeme de gestion de reseau
WO2011039825A1 (ja) * 2009-09-30 2011-04-07 株式会社日立製作所 障害の根本原因解析結果表示方法、装置、及びシステム

Families Citing this family (90)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5761480A (en) * 1994-04-20 1998-06-02 Canon Kabushiki Kaisha Display control method
US6006016A (en) * 1994-11-10 1999-12-21 Bay Networks, Inc. Network fault correlation
US5918006A (en) * 1994-12-20 1999-06-29 Canon Kabushiki Kaisha Communication device provided with a storage medium for storing a control program
US5664093A (en) * 1994-12-27 1997-09-02 General Electric Company System and method for managing faults in a distributed system
IL112513A (en) 1995-02-01 1999-05-09 Ald Advanced Logistics Dev Ltd System and method for failure reporting and collection
US5740354A (en) * 1995-11-27 1998-04-14 Microsoft Corporation Method and system for associating related errors in a computer system
DE19546831A1 (de) * 1995-12-15 1996-06-05 Janke Peter Dipl Inform Fh Verfahren zum Managen von Installationen in Gebäuden
US6212649B1 (en) 1996-12-30 2001-04-03 Sentar, Inc. System and method for providing highly-reliable coordination of intelligent agents in a distributed computing system
US5983364A (en) * 1997-05-12 1999-11-09 System Soft Corporation System and method for diagnosing computer faults
JPH1153223A (ja) * 1997-08-01 1999-02-26 Sony Corp データ処理方法、記録媒体及び電子機器
US5964891A (en) * 1997-08-27 1999-10-12 Hewlett-Packard Company Diagnostic system for a distributed data access networked system
US6085335A (en) * 1997-10-02 2000-07-04 Nortel Networks Limited Self engineering system for use with a communication system and method of operation therefore
US6058420A (en) * 1998-02-27 2000-05-02 Netsolve, Inc. Alarm server systems, apparatus, and processes
US6311165B1 (en) 1998-04-29 2001-10-30 Ncr Corporation Transaction processing systems
US6484155B1 (en) 1998-07-21 2002-11-19 Sentar, Inc. Knowledge management system for performing dynamic distributed problem solving
EP0977163A3 (en) * 1998-07-25 2004-04-28 Ncr International Inc. Communications network
US6438716B1 (en) * 1998-10-22 2002-08-20 International Business Machines Corporation Composition of error messages in an error message system based upon non-local contextual information
GB2346461B (en) * 1999-02-04 2003-06-18 Mitel Corp Semantic error diagnostic process for multi-agent systems
US6622264B1 (en) * 1999-10-28 2003-09-16 General Electric Company Process and system for analyzing fault log data from a machine so as to identify faults predictive of machine failures
JP2000358029A (ja) * 1999-06-15 2000-12-26 Nec Corp 自動障害診断ネットワークシステム及びネットワークの自動障害診断方法
US7287192B1 (en) * 1999-09-23 2007-10-23 Computer Associates Think, Inc. Identifying a failed device in a network
US6526524B1 (en) * 1999-09-29 2003-02-25 International Business Machines Corporation Web browser program feedback system
US6876991B1 (en) 1999-11-08 2005-04-05 Collaborative Decision Platforms, Llc. System, method and computer program product for a collaborative decision platform
US7124101B1 (en) 1999-11-22 2006-10-17 Accenture Llp Asset tracking in a network-based supply chain environment
US6671818B1 (en) * 1999-11-22 2003-12-30 Accenture Llp Problem isolation through translating and filtering events into a standard object format in a network based supply chain
US7716077B1 (en) 1999-11-22 2010-05-11 Accenture Global Services Gmbh Scheduling and planning maintenance and service in a network-based supply chain environment
US8271336B2 (en) * 1999-11-22 2012-09-18 Accenture Global Services Gmbh Increased visibility during order management in a network-based supply chain environment
US7130807B1 (en) 1999-11-22 2006-10-31 Accenture Llp Technology sharing during demand and supply planning in a network-based supply chain environment
US6606744B1 (en) 1999-11-22 2003-08-12 Accenture, Llp Providing collaborative installation management in a network-based supply chain environment
US8032409B1 (en) 1999-11-22 2011-10-04 Accenture Global Services Limited Enhanced visibility during installation management in a network-based supply chain environment
US6532554B1 (en) 1999-11-29 2003-03-11 Sun Microsystems, Inc. Network event correlation system using formally specified models of protocol behavior
US6802009B1 (en) 1999-12-17 2004-10-05 International Business Machines Corporation Operating system security checking system, method, and program
US7139728B2 (en) * 1999-12-30 2006-11-21 Rod Rigole Systems and methods for online selection of service providers and management of service accounts
US6550024B1 (en) 2000-02-03 2003-04-15 Mitel Corporation Semantic error diagnostic process for multi-agent systems
US6604208B1 (en) * 2000-04-07 2003-08-05 Telefonaktiebolaget Lm Ericsson (Publ) Incremental alarm correlation method and apparatus
US6735772B1 (en) 2000-04-13 2004-05-11 International Business Machines Corporation System and method for handling orphaned cause and effect objects
US6789257B1 (en) 2000-04-13 2004-09-07 International Business Machines Corporation System and method for dynamic generation and clean-up of event correlation circuit
US7752024B2 (en) * 2000-05-05 2010-07-06 Computer Associates Think, Inc. Systems and methods for constructing multi-layer topological models of computer networks
AU2001261258A1 (en) * 2000-05-05 2001-11-20 Aprisma Management Technologies, Inc. Help desk systems and methods for use with communications networks
US7237138B2 (en) * 2000-05-05 2007-06-26 Computer Associates Think, Inc. Systems and methods for diagnosing faults in computer networks
US7500143B2 (en) * 2000-05-05 2009-03-03 Computer Associates Think, Inc. Systems and methods for managing and analyzing faults in computer networks
US6269457B1 (en) * 2000-06-01 2001-07-31 Testing Technologies, Inc. Technology regression and verification acceptance method
US6708333B1 (en) * 2000-06-23 2004-03-16 Microsoft Corporation Method and system for reporting failures of a program module in a corporate environment
JP2002132988A (ja) * 2000-10-24 2002-05-10 Canon Inc 情報処理装置、ネットワークシステム、顧客トラブル管理方法、及び記憶媒体
US6845374B1 (en) * 2000-11-27 2005-01-18 Mailfrontier, Inc System and method for adaptive text recommendation
US20020124211A1 (en) * 2001-03-01 2002-09-05 International Business Machines Corporation PCI error determination using error signatures or vectors
WO2003005200A1 (en) * 2001-07-06 2003-01-16 Computer Associates Think, Inc. Method and system for correlating and determining root causes of system and enterprise events
JP2003114811A (ja) * 2001-10-05 2003-04-18 Nec Corp 自動障害復旧方法及びシステム並びに装置とプログラム
US7107257B2 (en) * 2001-11-05 2006-09-12 Lenovo (Singapore) Pte. Ltd. Consolidated monitoring system and method using the internet for diagnosis of an installed product set on a computing device
WO2003055145A1 (fr) * 2001-12-20 2003-07-03 Allied Telesis K.K. Dispositif de gestion, procede de gestion de reseau et support d'enregistrement et de programme
US7117396B2 (en) * 2001-12-28 2006-10-03 Intel Corporation Scalable CPU error recorder
US20040019672A1 (en) 2002-04-10 2004-01-29 Saumitra Das Method and system for managing computer systems
US7007200B2 (en) * 2002-07-11 2006-02-28 International Business Machines Corporation Error analysis fed from a knowledge base
US7080287B2 (en) * 2002-07-11 2006-07-18 International Business Machines Corporation First failure data capture
US20040025077A1 (en) * 2002-07-31 2004-02-05 International Business Machines Corporation Method and apparatus for the dynamic tuning of recovery actions in a server by modifying hints and symptom entries from a remote location
US7840856B2 (en) 2002-11-07 2010-11-23 International Business Machines Corporation Object introspection for first failure data capture
US7301909B2 (en) * 2002-12-20 2007-11-27 Compucom Systems, Inc. Trouble-ticket generation in network management environment
US7320084B2 (en) * 2003-01-13 2008-01-15 Sierra Logic Management of error conditions in high-availability mass-storage-device shelves by storage-shelf routers
CA2461069C (en) * 2003-03-17 2013-08-13 Tyco Telecommunications (Us) Inc. System and method for fault diagnosis using distributed alarm correlation
US7339885B2 (en) * 2003-06-05 2008-03-04 International Business Machines Corporation Method and apparatus for customizable surveillance of network interfaces
US7350112B2 (en) * 2003-06-16 2008-03-25 International Business Machines Corporation Automated diagnostic service
US7260743B2 (en) * 2004-01-13 2007-08-21 International Business Machines Corporation System and method for achieving autonomic computing self-healing, utilizing meta level reflection and reasoning
US7500145B2 (en) * 2004-05-28 2009-03-03 International Business Machines Corporation Anomaly-driven software switch to capture event responses and automate recovery
US7349746B2 (en) * 2004-09-10 2008-03-25 Exxonmobil Research And Engineering Company System and method for abnormal event detection in the operation of continuous industrial processes
US7424395B2 (en) 2004-09-10 2008-09-09 Exxonmobil Research And Engineering Company Application of abnormal event detection technology to olefins recovery trains
US7567887B2 (en) * 2004-09-10 2009-07-28 Exxonmobil Research And Engineering Company Application of abnormal event detection technology to fluidized catalytic cracking unit
US20060074598A1 (en) * 2004-09-10 2006-04-06 Emigholz Kenneth F Application of abnormal event detection technology to hydrocracking units
US20060107121A1 (en) * 2004-10-25 2006-05-18 International Business Machines Corporation Method of speeding up regression testing using prior known failures to filter current new failures when compared to known good results
US20060106796A1 (en) * 2004-11-17 2006-05-18 Honeywell International Inc. Knowledge stores for interactive diagnostics
US20060147203A1 (en) * 2004-12-30 2006-07-06 Thinguldstad Arthur M Optical network element with remote access capability
US7636888B2 (en) * 2005-03-15 2009-12-22 Microsoft Corporation Verifying compatibility between document features and server capabilities
US7761172B2 (en) * 2006-03-21 2010-07-20 Exxonmobil Research And Engineering Company Application of abnormal event detection (AED) technology to polymers
US7720641B2 (en) * 2006-04-21 2010-05-18 Exxonmobil Research And Engineering Company Application of abnormal event detection technology to delayed coking unit
US7757120B2 (en) * 2006-06-23 2010-07-13 International Business Machines Corporation Ignoring redundant symptoms in modular self-healing systems
US7962790B2 (en) * 2006-12-04 2011-06-14 Electronics And Telecommunications Research Institute Inference-based home network error handling system and method
US7590897B2 (en) * 2007-02-06 2009-09-15 International Business Machines Corporation Device, method and computer program product for responding to error events
US8086897B2 (en) * 2007-11-15 2011-12-27 Infosys Limited Model driven diagnostics system and methods thereof
US8230259B2 (en) * 2009-12-02 2012-07-24 International Business Machines Corporation Automatic analysis of log entries through use of clustering
US8108724B2 (en) * 2009-12-17 2012-01-31 Hewlett-Packard Development Company, L.P. Field replaceable unit failure determination
US8862250B2 (en) 2010-05-07 2014-10-14 Exxonmobil Research And Engineering Company Integrated expert system for identifying abnormal events in an industrial plant
US8245079B2 (en) * 2010-09-21 2012-08-14 Verizon Patent And Licensing, Inc. Correlation of network alarm messages based on alarm time
US9667473B2 (en) 2013-02-28 2017-05-30 International Business Machines Corporation Recommending server management actions for information processing systems
US10243779B2 (en) * 2013-04-29 2019-03-26 Moogsoft, Inc. System for decomposing events from managed infrastructures with situation room
US10574551B2 (en) * 2013-04-29 2020-02-25 Moogsoft, Inc. System for decomposing events from managed infrastructures
US10572277B2 (en) * 2013-04-29 2020-02-25 Moogsoft, Inc. Alert dashboard system with situation room
US10379932B2 (en) * 2013-04-29 2019-08-13 Moogsoft, Inc. System for decomposing events from managed infrastructures
US10169122B2 (en) * 2013-04-29 2019-01-01 Moogsoft, Inc. Methods for decomposing events from managed infrastructures
US10552242B2 (en) * 2017-09-18 2020-02-04 Bank Of America Corporation Runtime failure detection and correction
US11658889B1 (en) 2022-03-27 2023-05-23 Bank Of America Corporation Computer network architecture mapping using metadata
US11595245B1 (en) 2022-03-27 2023-02-28 Bank Of America Corporation Computer network troubleshooting and diagnostics using metadata

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4803641A (en) * 1984-06-06 1989-02-07 Tecknowledge, Inc. Basic expert system tool
US4999833A (en) * 1985-05-06 1991-03-12 Itt Corporation Network connectivity control by artificial intelligence
US4881230A (en) * 1987-10-05 1989-11-14 Ibm Corporation Expert system for processing errors in a multiplex communications system
US4817092A (en) * 1987-10-05 1989-03-28 International Business Machines Threshold alarms for processing errors in a multiplex communications system
US4866635A (en) * 1987-10-19 1989-09-12 Carnegie Group Inc. Domain independent shell for building a diagnostic expert system
US5047977A (en) * 1988-04-08 1991-09-10 International Business Machines Corporation Methods of generating and retrieving error and task message records within a multitasking computer system
US5157667A (en) * 1990-04-30 1992-10-20 International Business Machines Corporation Methods and apparatus for performing fault isolation and failure analysis in link-connected systems
FR2684472A1 (fr) * 1991-11-29 1993-06-04 Cit Alcatel Systeme expert supportant les contraintes du temps reel.
US5309448A (en) * 1992-01-03 1994-05-03 International Business Machines Corporation Methods and systems for alarm correlation and fault localization in communication networks

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001008016A1 (fr) * 1999-07-28 2001-02-01 Sumitomo Electric Industries, Ltd. Systeme de gestion de reseau
GB2363286A (en) * 1999-07-28 2001-12-12 Sumitomo Electric Industries Network managing system
GB2363286B (en) * 1999-07-28 2003-08-27 Sumitomo Electric Industries Network managing system
WO2011039825A1 (ja) * 2009-09-30 2011-04-07 株式会社日立製作所 障害の根本原因解析結果表示方法、装置、及びシステム
JP2011076293A (ja) * 2009-09-30 2011-04-14 Hitachi Ltd 障害の根本原因解析結果表示方法、装置、及びシステム

Also Published As

Publication number Publication date
JP3372394B2 (ja) 2003-02-04
US5539877A (en) 1996-07-23
FR2722354A1 (fr) 1996-01-12

Similar Documents

Publication Publication Date Title
JP3372394B2 (ja) 限定複数障害管理方法および診断システム
US5483637A (en) Expert based system and method for managing error events in a local area network
US11614943B2 (en) Determining problem dependencies in application dependency discovery, reporting, and management tool
US11868237B2 (en) Intelligent services for application dependency discovery, reporting, and management tool
US11620211B2 (en) Discovery crawler for application dependency discovery, reporting, and management tool
US11221854B2 (en) Dependency analyzer in application dependency discovery, reporting, and management tool
KR100714157B1 (ko) 컴퓨터 기반 방법, 컴퓨터 판독 가능 기록 매체 및 데이터 처리 시스템
Chillarege et al. Measurement of failure rate in widely distributed software
US20200409824A1 (en) Intelligent services and training agent for application dependency discovery, reporting, and management tool
US11675692B2 (en) Testing agent for application dependency discovery, reporting, and management tool
US8135988B2 (en) Non-intrusive gathering of diagnostic data using asynchronous mechanisms
EP1405187B1 (en) Method and system for correlating and determining root causes of system and enterprise events
US8489729B2 (en) System and method for social service event processing and management
JPH02105947A (ja) コンピユータ周辺サブシステム及びその例外事象自動検出分析方法
EP3991030A1 (en) Determining problem dependencies in application dependency discovery, reporting, and management tool
CN113900902A (zh) 日志处理方法、装置、电子设备及存储介质
CN116401129A (zh) 业务系统监测方法、装置、终端及存储介质
CN115375269A (zh) 税务流程智能审批方法、装置、设备及介质
CN117828515A (zh) 一种基于低代码平台的智能日志异常诊断系统及方法
CN112667464A (zh) 一种信息系统状态智能化分析方法、系统及设备
JPH06309191A (ja) 障害診断システム
AU2002354788A1 (en) Method and system for correlating and determining root causes of system and enterprise events

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees