JPH0818593A - 限定複数障害管理方法および診断システム - Google Patents
限定複数障害管理方法および診断システムInfo
- Publication number
- JPH0818593A JPH0818593A JP7139467A JP13946795A JPH0818593A JP H0818593 A JPH0818593 A JP H0818593A JP 7139467 A JP7139467 A JP 7139467A JP 13946795 A JP13946795 A JP 13946795A JP H0818593 A JPH0818593 A JP H0818593A
- Authority
- JP
- Japan
- Prior art keywords
- lan
- event
- cluster
- server
- expert
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2257—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using expert systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer And Data Communications (AREA)
- Small-Scale Networks (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
Abstract
(57)【要約】
【目的】 ローカル・エリア・ネットワーク(LAN)
におけるエラー修復を管理するためのシステムおよび方
法を提供する。 【構成】 このシステムは、関連するエラー事象と診断
用の問題と原因とを格納するデータ構造を含む。さら
に、エラー事象をリアルタイムで管理し、原因を識別
し、処置を推奨する方法が提供される。知識ベースは、
前記問題の原因および推奨される処置を判別するために
使用される。
におけるエラー修復を管理するためのシステムおよび方
法を提供する。 【構成】 このシステムは、関連するエラー事象と診断
用の問題と原因とを格納するデータ構造を含む。さら
に、エラー事象をリアルタイムで管理し、原因を識別
し、処置を推奨する方法が提供される。知識ベースは、
前記問題の原因および推奨される処置を判別するために
使用される。
Description
【0001】
【産業上の利用分野】本発明は、一般的には、ローカル
・エリア・ネットワーク(LAN)システムの問題およ
び状態に関する情報を管理し、分析し、提供する方法お
よび装置に関し、より具体的には、知識ベースに格納さ
れた知識に基づいて、エラー事象を分析し、その事象の
可能な原因および推奨される処置に関する情報を提供す
る、事象相関/問題判別(ECPD)システムに関す
る。
・エリア・ネットワーク(LAN)システムの問題およ
び状態に関する情報を管理し、分析し、提供する方法お
よび装置に関し、より具体的には、知識ベースに格納さ
れた知識に基づいて、エラー事象を分析し、その事象の
可能な原因および推奨される処置に関する情報を提供す
る、事象相関/問題判別(ECPD)システムに関す
る。
【0002】
【従来の技術】コンピュータ・システム、特にLANで
は数多くのエラー事象が起こることが普通である。ほと
んどのエラー事象は、それを回復するために、ユーザお
よび発生セグメントに異なるメッセージを送る必要があ
り、多くの異なる複雑な処置の実行が必要である。こう
したエラーは、構成エラーやハードウェア・エラーや通
信エラーを含めて、様々な状態に起因する。
は数多くのエラー事象が起こることが普通である。ほと
んどのエラー事象は、それを回復するために、ユーザお
よび発生セグメントに異なるメッセージを送る必要があ
り、多くの異なる複雑な処置の実行が必要である。こう
したエラーは、構成エラーやハードウェア・エラーや通
信エラーを含めて、様々な状態に起因する。
【0003】現在のところ、エラー分析および問題解決
は、LAN管理者が手作業で行うことが多い。この手法
には2つの問題がある。第一に、エラー・メッセージに
曖昧なまたは不完全な情報が含まれていることが多い。
たとえば「内部ソフトウェア・エラー」というエラー・
メッセージがそうである。この場合、管理者は、エラー
・メッセージを解読するか、あるいは追加の作業を行っ
て、実際のエラーの原因を判別しなければならない。手
動でエラー・コードを解決する際の第二の問題点は、特
にLANシステムの場合に、1つの問題から複数のエラ
ー・メッセージがしばしば発生し得ることである。した
がって、LAN管理者は、分析する必要のあるエラーの
数が余りにも多いことにしばしば圧倒される。しかも、
エラーの分析および検討は知識集約型である。したがっ
て、エラー・メッセージを管理する非手動の方法または
システムの実施は困難であった。
は、LAN管理者が手作業で行うことが多い。この手法
には2つの問題がある。第一に、エラー・メッセージに
曖昧なまたは不完全な情報が含まれていることが多い。
たとえば「内部ソフトウェア・エラー」というエラー・
メッセージがそうである。この場合、管理者は、エラー
・メッセージを解読するか、あるいは追加の作業を行っ
て、実際のエラーの原因を判別しなければならない。手
動でエラー・コードを解決する際の第二の問題点は、特
にLANシステムの場合に、1つの問題から複数のエラ
ー・メッセージがしばしば発生し得ることである。した
がって、LAN管理者は、分析する必要のあるエラーの
数が余りにも多いことにしばしば圧倒される。しかも、
エラーの分析および検討は知識集約型である。したがっ
て、エラー・メッセージを管理する非手動の方法または
システムの実施は困難であった。
【0004】これまでにも、エラー・マネージャを実施
するいくつかの試みがなされてきた。しかし、こうした
試みは、格納しなければならない情報の量と、必要な知
識が多いために成功しなかった。場合によっては、エラ
ー事象が認識された後に呼び出される複雑なインライン
・コードでエラー・マネージャが実施された。また、
「テーブル駆動型」のエラー管理を使用する実施態様も
あった。しかし、このようなシステムは、各エラー事象
が多数のアクション・コードを有する可能性があり、か
つそれぞれ独自のエラー事象とアクション・コードの対
を表示しなければならないために、表示と格納の効率が
悪かった。しかも、こうした方法はいずれも、ユーザが
エラー処理方法を変更できるシステムを提供していな
い。現在のところ、エラーと問題判別を相関させる標準
的方法はない。
するいくつかの試みがなされてきた。しかし、こうした
試みは、格納しなければならない情報の量と、必要な知
識が多いために成功しなかった。場合によっては、エラ
ー事象が認識された後に呼び出される複雑なインライン
・コードでエラー・マネージャが実施された。また、
「テーブル駆動型」のエラー管理を使用する実施態様も
あった。しかし、このようなシステムは、各エラー事象
が多数のアクション・コードを有する可能性があり、か
つそれぞれ独自のエラー事象とアクション・コードの対
を表示しなければならないために、表示と格納の効率が
悪かった。しかも、こうした方法はいずれも、ユーザが
エラー処理方法を変更できるシステムを提供していな
い。現在のところ、エラーと問題判別を相関させる標準
的方法はない。
【0005】エラー管理には、エラーに関する情報の分
析および提供ができるように、問題と原因を相関させる
必要がある。現在のところ、ほとんどの問題判別システ
ムは単一障害仮定を用いている。これは、1つのシステ
ムには一時に1つの障害しか起こらず、その障害は単一
の原因に関連するというものである。単一障害仮定は、
複雑なネットワーク・システムまたはコンピュータ・シ
ステムで用いることができる。他の複雑なシステムでは
複数障害仮定を用いるが、リアルタイム・システムの場
合には、コンピュータ使用のコストがかかりすぎる。し
たがって、複数障害仮定を用いてリアルタイムでエラー
情報を提供することはできない。
析および提供ができるように、問題と原因を相関させる
必要がある。現在のところ、ほとんどの問題判別システ
ムは単一障害仮定を用いている。これは、1つのシステ
ムには一時に1つの障害しか起こらず、その障害は単一
の原因に関連するというものである。単一障害仮定は、
複雑なネットワーク・システムまたはコンピュータ・シ
ステムで用いることができる。他の複雑なシステムでは
複数障害仮定を用いるが、リアルタイム・システムの場
合には、コンピュータ使用のコストがかかりすぎる。し
たがって、複数障害仮定を用いてリアルタイムでエラー
情報を提供することはできない。
【0006】
【発明が解決しようとする課題】本発明の目的は、LA
N環境において、エラー・メッセージの分析および相関
を行う方法を提供することにある。
N環境において、エラー・メッセージの分析および相関
を行う方法を提供することにある。
【0007】本発明の他の目的は、エラー事象の可能な
原因を判別し、推奨される処置を提供する方法を提供す
ることにある。
原因を判別し、推奨される処置を提供する方法を提供す
ることにある。
【0008】本発明の他の目的は、問題判別および事象
相関をリアルタイムで実行することにある。
相関をリアルタイムで実行することにある。
【0009】本発明の他の目的は、問題判別とエラー事
象を相関させるための構造および方法を提供することに
ある。
象を相関させるための構造および方法を提供することに
ある。
【0010】
【課題を解決するための手段】本発明によれば、コンピ
ュータ・システム、特にLANシステムにおいて、問題
を判別するための方法およびシステムが提供される。推
論エンジンを提供することによって、エラー・メッセー
ジの分析および相関をリアルタイムで行い、エラー事象
の原因に関する情報と、エラー事象の解決のために推奨
される一連の処置とを提供する。
ュータ・システム、特にLANシステムにおいて、問題
を判別するための方法およびシステムが提供される。推
論エンジンを提供することによって、エラー・メッセー
ジの分析および相関をリアルタイムで行い、エラー事象
の原因に関する情報と、エラー事象の解決のために推奨
される一連の処置とを提供する。
【0011】本発明で提供されるエラー管理の方法は、
知識ベースを利用することによってエラー・メッセージ
を評価し、そのエラー・メッセージが反復されるもの
か、あるいは他のメッセージによってトリガされるもの
か、あるいは他のエラー事象とともにクラスタにすべき
ものかを判別するものである。相関するすべての事象が
受け取られるまで、新たな入力事象をすでに受け取られ
て処理された事象と比較し、その後、診断の結論に達す
る。
知識ベースを利用することによってエラー・メッセージ
を評価し、そのエラー・メッセージが反復されるもの
か、あるいは他のメッセージによってトリガされるもの
か、あるいは他のエラー事象とともにクラスタにすべき
ものかを判別するものである。相関するすべての事象が
受け取られるまで、新たな入力事象をすでに受け取られ
て処理された事象と比較し、その後、診断の結論に達す
る。
【0012】
【実施例】図面、より具体的には図1を参照すると、L
ANシステムのサーバまたはリクエスタとして使用で
き、本発明をそこで実施できる、代表的なハードウェア
環境が示されている。このハードウェア環境は、IBM
PS/2などのパーソナル・コンピュータ、またはI
BM RS/6000などのワークステーションでよ
い。ハードウェアに含まれる中央演算処理装置(CP
U)10は、Intel386または486やPent
iumマイクロプロセッサなどのCISCマイクロプロ
セッサ、あるいはIBM PowerPCマイクロプロ
セッサなどのRISCマイクロプロセッサでよい。CP
U10は、システム・バス12に接続され、システム・
バス12には、ランダム・アクセス・メモリ(RAM)
14と、読み取り専用メモリ(ROM)16と、入出力
アダプタ18と、ユーザ・インタフェース・アダプタ2
2が接続される。RAM14は、アプリケーション・プ
ログラム・コードおよびデータ用の一時記憶域を提供す
る。一方、ROM16は、一般に基本入出力(BIO
S)コードを含む。入出力アダプタ18は、1つまたは
複数の直接アクセス記憶装置(DASD)に接続され
る。DASDは図ではディスク・ドライブ20として表
されている。ディスク・ドライブ20は、一般にコンピ
ュータのオペレーティング・システム(OS)および様
々なアプリケーション・プログラムを格納する。これら
はシステム・バス12を経由してRAM14に選択的に
ロードされる。入出力アダプタ18は、たとえばIDE
インタフェース基準やSCSI基準などをサポートする
ことができる。前者の場合、入出力アダプタ18は、一
般にドライブ「C:」および「D:」と呼ばれる2つの
ディスク・ドライブを同時にサポートすることになる。
後者の場合、入出力アダプタ18は、デイジー・チェー
ンによって接続されたディスク・ドライブを最高9個ま
でサポートすることになる。ユーザ・インタフェース・
アダプタ22には、キーボード24、マウス26、スピ
ーカ28、マイクロフォン32、またはタッチ・スクリ
ーン装置など(図示せず)その他のユーザ・インタフェ
ース装置あるいはそれらの組合せが接続される。タッチ
・スクリーン装置は、任意選択で表示装置38にインス
トールされる。表示装置38は図ではCRT表示装置と
して表されているが、液晶表示装置(LCD)でもよ
い。表示装置38は、表示装置アダプタ36を介してシ
ステム・バス12に接続される。通信アダプタ34は、
システム・バス12およびIBMトークン・リングLA
NなどのLANに接続する。
ANシステムのサーバまたはリクエスタとして使用で
き、本発明をそこで実施できる、代表的なハードウェア
環境が示されている。このハードウェア環境は、IBM
PS/2などのパーソナル・コンピュータ、またはI
BM RS/6000などのワークステーションでよ
い。ハードウェアに含まれる中央演算処理装置(CP
U)10は、Intel386または486やPent
iumマイクロプロセッサなどのCISCマイクロプロ
セッサ、あるいはIBM PowerPCマイクロプロ
セッサなどのRISCマイクロプロセッサでよい。CP
U10は、システム・バス12に接続され、システム・
バス12には、ランダム・アクセス・メモリ(RAM)
14と、読み取り専用メモリ(ROM)16と、入出力
アダプタ18と、ユーザ・インタフェース・アダプタ2
2が接続される。RAM14は、アプリケーション・プ
ログラム・コードおよびデータ用の一時記憶域を提供す
る。一方、ROM16は、一般に基本入出力(BIO
S)コードを含む。入出力アダプタ18は、1つまたは
複数の直接アクセス記憶装置(DASD)に接続され
る。DASDは図ではディスク・ドライブ20として表
されている。ディスク・ドライブ20は、一般にコンピ
ュータのオペレーティング・システム(OS)および様
々なアプリケーション・プログラムを格納する。これら
はシステム・バス12を経由してRAM14に選択的に
ロードされる。入出力アダプタ18は、たとえばIDE
インタフェース基準やSCSI基準などをサポートする
ことができる。前者の場合、入出力アダプタ18は、一
般にドライブ「C:」および「D:」と呼ばれる2つの
ディスク・ドライブを同時にサポートすることになる。
後者の場合、入出力アダプタ18は、デイジー・チェー
ンによって接続されたディスク・ドライブを最高9個ま
でサポートすることになる。ユーザ・インタフェース・
アダプタ22には、キーボード24、マウス26、スピ
ーカ28、マイクロフォン32、またはタッチ・スクリ
ーン装置など(図示せず)その他のユーザ・インタフェ
ース装置あるいはそれらの組合せが接続される。タッチ
・スクリーン装置は、任意選択で表示装置38にインス
トールされる。表示装置38は図ではCRT表示装置と
して表されているが、液晶表示装置(LCD)でもよ
い。表示装置38は、表示装置アダプタ36を介してシ
ステム・バス12に接続される。通信アダプタ34は、
システム・バス12およびIBMトークン・リングLA
NなどのLANに接続する。
【0013】図2に示すように、LANとは、パーソナ
ル・コンピュータおよびその他のコンピュータ装置が、
資源を共有でき、LAN内部でデータおよび情報を転送
できるように構成されたシステムである。図のように、
LANは一般に、少なくとも1つのサーバ100および
110と、しばしば複数のリクエスタ120および13
0を含む。サーバとは、周辺装置とネットワークの間の
インタフェースを提供する装置である。サーバには、デ
ータ、印刷、通信、ミラー、ゲートウェイを含めて、様
々な種類のものがある。図2に示すように、LAN E
XPERTは、LAN用の問題判別システムである。L
AN EXPERTは、LAN EXPERTサーバ1
00と、LAN EXPERTエージェント110、1
20、130からなる。これらのエージェントは、LA
Nサーバおよびリクエスタにインストールされ、その状
態を監視する。LANサーバおよびリクエスタがエラー
・メッセージを発行すると、LAN EXPERTエー
ジェントがエラー・メッセージを受け取り、LAN E
XPERTサーバに送る。リクエスタ120および13
0は、LAN EXPERTエージェントである。LA
N EXPERTサーバは、LAN EXPERTエー
ジェントからエラー・メッセージを受け取る。LAN
EXPERTサーバは、推論エンジンと、知識ベース
と、知識ベース・エディタやグラフィカル・ユーザ・イ
ンタフェースなどその他の構成要素とを含む。以上は、
エラー・メッセージの分析および相関を行い、ユーザに
問題を報告するものであり、下記で詳述する。
ル・コンピュータおよびその他のコンピュータ装置が、
資源を共有でき、LAN内部でデータおよび情報を転送
できるように構成されたシステムである。図のように、
LANは一般に、少なくとも1つのサーバ100および
110と、しばしば複数のリクエスタ120および13
0を含む。サーバとは、周辺装置とネットワークの間の
インタフェースを提供する装置である。サーバには、デ
ータ、印刷、通信、ミラー、ゲートウェイを含めて、様
々な種類のものがある。図2に示すように、LAN E
XPERTは、LAN用の問題判別システムである。L
AN EXPERTは、LAN EXPERTサーバ1
00と、LAN EXPERTエージェント110、1
20、130からなる。これらのエージェントは、LA
Nサーバおよびリクエスタにインストールされ、その状
態を監視する。LANサーバおよびリクエスタがエラー
・メッセージを発行すると、LAN EXPERTエー
ジェントがエラー・メッセージを受け取り、LAN E
XPERTサーバに送る。リクエスタ120および13
0は、LAN EXPERTエージェントである。LA
N EXPERTサーバは、LAN EXPERTエー
ジェントからエラー・メッセージを受け取る。LAN
EXPERTサーバは、推論エンジンと、知識ベース
と、知識ベース・エディタやグラフィカル・ユーザ・イ
ンタフェースなどその他の構成要素とを含む。以上は、
エラー・メッセージの分析および相関を行い、ユーザに
問題を報告するものであり、下記で詳述する。
【0014】前記の通り、サーバ間、またはサーバと周
辺装置との間の通信およびデータ転送によって、しばし
ばエラー事象が起こる。事象相関/問題判別システム
は、問題を診断するためにLANシステムで使用される
方法である。このシステムは、エキスパート・システム
・モデルを使用するものであり、人工知能技術を使用し
て実施することが好ましい。当然のことながら、エキス
パート・システムとは、当分野の専門家である人間と同
じように情報の処理および機能の実行を行うシステムで
ある。エキスパート・システムは、知識ベースに格納さ
れた情報に基づいて推論を導き出す。一般的に、知識ベ
ースは、特定のアプリケーションについての人間の経験
に関する情報、およびこれまでに解決された問題のデー
タを含むデータベースである。推論エンジンは、エキス
パート・システムの構成要素でもあり、推論原理を応用
して、知識ベースに格納された情報から結論を導き出す
ために使用される。
辺装置との間の通信およびデータ転送によって、しばし
ばエラー事象が起こる。事象相関/問題判別システム
は、問題を診断するためにLANシステムで使用される
方法である。このシステムは、エキスパート・システム
・モデルを使用するものであり、人工知能技術を使用し
て実施することが好ましい。当然のことながら、エキス
パート・システムとは、当分野の専門家である人間と同
じように情報の処理および機能の実行を行うシステムで
ある。エキスパート・システムは、知識ベースに格納さ
れた情報に基づいて推論を導き出す。一般的に、知識ベ
ースは、特定のアプリケーションについての人間の経験
に関する情報、およびこれまでに解決された問題のデー
タを含むデータベースである。推論エンジンは、エキス
パート・システムの構成要素でもあり、推論原理を応用
して、知識ベースに格納された情報から結論を導き出す
ために使用される。
【0015】図3に示すように、事象相関/問題判別シ
ステムは、推論エンジン140と知識ベース150から
なり、エラー事象160の処理および評価を行う。知識
ベースは、エラー・メッセージと可能な原因の間の因果
関係を含む。ユーザは、知識ベース・エディタを使って
知識ベースの修正および拡張を行うことができる。推論
エンジンは、知識ベースの中にある知識を読み取り、そ
の知識を使用して入力エラー事象を処理し、可能な原因
を診断する。推論エンジンが情報の処理を終了すると、
問題レポート170が作成される。これについては下記
で詳述する。
ステムは、推論エンジン140と知識ベース150から
なり、エラー事象160の処理および評価を行う。知識
ベースは、エラー・メッセージと可能な原因の間の因果
関係を含む。ユーザは、知識ベース・エディタを使って
知識ベースの修正および拡張を行うことができる。推論
エンジンは、知識ベースの中にある知識を読み取り、そ
の知識を使用して入力エラー事象を処理し、可能な原因
を診断する。推論エンジンが情報の処理を終了すると、
問題レポート170が作成される。これについては下記
で詳述する。
【0016】本発明において、事象とは、サーバ、デー
タベース・マネージャ、通信マネージャなどの装置から
推論エンジンに送られる通知である。1つの事象は、少
なくともエラー・メッセージと報告マシンと事象作成時
間の、3つのエンティティからなる。必要に応じてその
他のエンティティを含むこともできる。
タベース・マネージャ、通信マネージャなどの装置から
推論エンジンに送られる通知である。1つの事象は、少
なくともエラー・メッセージと報告マシンと事象作成時
間の、3つのエンティティからなる。必要に応じてその
他のエンティティを含むこともできる。
【0017】上記の通り、エラー・メッセージは事象の
一部であり、問題に遭遇したときにLANサーバやリク
エスタなどの装置から発行される。装置のエージェン
ト、具体的にはLAN EXPERTが、エラー・メッ
セージを受け取って、LANEXPERTサーバに送
る。一般的に、エラー・メッセージは英数字の識別と問
題を簡単に記述したテキスト部分とからなる。テキスト
部分は変数を含むこともでき、実行時にその値が与えら
れる。実際の値を有する変数を持つメッセージは、イン
スタンス化メッセージと呼ばれる。非インスタンス化メ
ッセージは、総称メッセージと呼ばれる。
一部であり、問題に遭遇したときにLANサーバやリク
エスタなどの装置から発行される。装置のエージェン
ト、具体的にはLAN EXPERTが、エラー・メッ
セージを受け取って、LANEXPERTサーバに送
る。一般的に、エラー・メッセージは英数字の識別と問
題を簡単に記述したテキスト部分とからなる。テキスト
部分は変数を含むこともでき、実行時にその値が与えら
れる。実際の値を有する変数を持つメッセージは、イン
スタンス化メッセージと呼ばれる。非インスタンス化メ
ッセージは、総称メッセージと呼ばれる。
【0018】本発明において、原因とは、何かが機能し
ない根本的な理由であり、システムの修復しなければな
らない部分である。原因は、変数を含むことのできる言
語記述からなる。たとえば、典型的な原因として「ファ
イルXが壊れている」というものがある。壊れたファイ
ルの識別は実行時に判別される。原因は、総称的なもの
でもインスタンス化されたものでもよい。さらに、原因
は、問題の所在位置に関する情報をまったく含まない。
したがって、所在位置が突き止められた原因が、マシン
と対にされる。
ない根本的な理由であり、システムの修復しなければな
らない部分である。原因は、変数を含むことのできる言
語記述からなる。たとえば、典型的な原因として「ファ
イルXが壊れている」というものがある。壊れたファイ
ルの識別は実行時に判別される。原因は、総称的なもの
でもインスタンス化されたものでもよい。さらに、原因
は、問題の所在位置に関する情報をまったく含まない。
したがって、所在位置が突き止められた原因が、マシン
と対にされる。
【0019】最後に、問題報告は、推論エンジンの診断
による情報を含む。その情報には、1つまたは複数の原
因と、1つまたは複数の原因に関する1組の事象と、問
題を修復するために推奨される処置が含まれる。
による情報を含む。その情報には、1つまたは複数の原
因と、1つまたは複数の原因に関する1組の事象と、問
題を修復するために推奨される処置が含まれる。
【0020】上記のような原因とエラー・メッセージの
関係は、限定複数障害手法に基づいている。この手法で
は、エラー・メッセージMが受け取られた場合に、Mに
よって示される1つの障害のみが真である可能性があ
る。言い換えると、1つのエラー・メッセージのすべて
の原因は互いに排他的かつ網羅的である。さらに、複数
障害が、サーバ、リクエスタ、またはコンピュータ・シ
ステムで起こりうるが、これらは同一のエラー・メッセ
ージに関連するものではない。
関係は、限定複数障害手法に基づいている。この手法で
は、エラー・メッセージMが受け取られた場合に、Mに
よって示される1つの障害のみが真である可能性があ
る。言い換えると、1つのエラー・メッセージのすべて
の原因は互いに排他的かつ網羅的である。さらに、複数
障害が、サーバ、リクエスタ、またはコンピュータ・シ
ステムで起こりうるが、これらは同一のエラー・メッセ
ージに関連するものではない。
【0021】限定複数障害手法の確率による表示は以下
のとおりである
のとおりである
【数1】 P(C(i)*(C(k)|M)=1かつP(1).....C(n)|M=1
【0022】これらの方程式において、{C
(1)、...、C(n)}は、Mのすべての可能な障
害の集合であり、C(i)およびC(k)は、そのよう
な障害のうちの任意の2つである。エラー・メッセージ
および原因は変数を含むことができるので、{C
(1)、...、C(n)}は、すべての可能なインス
タンス化された原因を含むと仮定する。
(1)、...、C(n)}は、Mのすべての可能な障
害の集合であり、C(i)およびC(k)は、そのよう
な障害のうちの任意の2つである。エラー・メッセージ
および原因は変数を含むことができるので、{C
(1)、...、C(n)}は、すべての可能なインス
タンス化された原因を含むと仮定する。
【0023】原因とエラー・メッセージを関連させる方
法を、擬似コードによって以下に記述する。
法を、擬似コードによって以下に記述する。
【0024】 LOOP { 事象Eを受け取る; S={S(i),...,S(m)}と置く、すべて現クラスタ; FOR S DO中のすべてのクラスタS(i) { IF EがS(i)と交差する; THEN { EがS(i)に合併される IF S(i)に単一の障害が残っている THEN { S(i)を報告する; S=S−S(i); }; BREAK; } } IF Eがどのクラスタとも交差しない THEN { 新規クラスタをNEW_Sとする; NEW_S.EVENTS={E} NEW_S.CAUSES=Eと関連するすべての原因; NEW_S.TIME=Eの作成時間; S=S+NEW_S; } }
【0025】上記の擬似コードにおいて、クラスタS
(i)は、潜在的問題の部分的診断結果を保持するデー
タ構造である。さらに、S(i).EVENTSはこの
潜在的問題に相関するエラー・メッセージの集合を含
み、S(i).CAUSESはこれらの問題に関する潜
在的候補である原因の集合を含む。
(i)は、潜在的問題の部分的診断結果を保持するデー
タ構造である。さらに、S(i).EVENTSはこの
潜在的問題に相関するエラー・メッセージの集合を含
み、S(i).CAUSESはこれらの問題に関する潜
在的候補である原因の集合を含む。
【0026】エラー・メッセージに関連する原因と、原
因の集合S(i)との交差が空でない場合、エラー・メ
ッセージEはクラスタS(i)と交差することに留意さ
れたい。さらに、エラー・メッセージEは、以下のよう
にクラスタS(i)に合併される。
因の集合S(i)との交差が空でない場合、エラー・メ
ッセージEはクラスタS(i)と交差することに留意さ
れたい。さらに、エラー・メッセージEは、以下のよう
にクラスタS(i)に合併される。
【数2】S(i).EVENTS=S(i).EVEN
TS*UNION*E; S(i).CAUSES=S(i).CAUSES*I
NTERSECT*E.CAUSES;
TS*UNION*E; S(i).CAUSES=S(i).CAUSES*I
NTERSECT*E.CAUSES;
【0027】LANエキスパート・システムにおいて
は、1つの原因のみが残った場合、あるいはユーザが推
定できる時間制限に達した場合に、クラスタS(i)が
ユーザに報告される。
は、1つの原因のみが残った場合、あるいはユーザが推
定できる時間制限に達した場合に、クラスタS(i)が
ユーザに報告される。
【0028】前述のとおり、クラスタは部分的診断結果
を格納するために使用されるデータ構造である。各クラ
スタは、潜在的な各問題に関する、相関する事象および
可能な原因を含む。クラスタは、固有の識別番号または
識別コードを含む。すなわち、インスタンス化事象およ
び関連事象の集合と、インスタンス化された原因または
部分的にインスタンス化された原因の集合と、クラスタ
における事象の集合のうちのある事象に関して最も早く
記録された時間とである。このデータ構造の例は、以下
のとおりである。 {データ構造CLUSTER CLUSTER_ID: 整数; EVENTS: 事象の集合; CAUSES: 原因の集合; TIME: EVENTS中のすべての事象の最も早い 時間: }
を格納するために使用されるデータ構造である。各クラ
スタは、潜在的な各問題に関する、相関する事象および
可能な原因を含む。クラスタは、固有の識別番号または
識別コードを含む。すなわち、インスタンス化事象およ
び関連事象の集合と、インスタンス化された原因または
部分的にインスタンス化された原因の集合と、クラスタ
における事象の集合のうちのある事象に関して最も早く
記録された時間とである。このデータ構造の例は、以下
のとおりである。 {データ構造CLUSTER CLUSTER_ID: 整数; EVENTS: 事象の集合; CAUSES: 原因の集合; TIME: EVENTS中のすべての事象の最も早い 時間: }
【0029】事象e1が受け取られたとき、推論エンジ
ンがクラスタc1を形成する。c1.EVENTはe1
を含み、c1.CAUSESは事象e1のすべての可能
な原因を含むことになる。各事象の原因は、知識ベース
内で定義される。原因中の変数は、事象によってインス
タンス化することができる。新たな事象e2が受け取ら
れると、それがc1および他のすべてのクラスタと比較
され、e2をc1に追加すべきかどうかが判別される。
事象をどのクラスタに入れるべきかを決定する方法を、
擬似コードによって以下に記述する。
ンがクラスタc1を形成する。c1.EVENTはe1
を含み、c1.CAUSESは事象e1のすべての可能
な原因を含むことになる。各事象の原因は、知識ベース
内で定義される。原因中の変数は、事象によってインス
タンス化することができる。新たな事象e2が受け取ら
れると、それがc1および他のすべてのクラスタと比較
され、e2をc1に追加すべきかどうかが判別される。
事象をどのクラスタに入れるべきかを決定する方法を、
擬似コードによって以下に記述する。
【0030】 JOIN(CLUSTER c1.EVENT e2) { SET cause_set={}/*原因集合は原因の集合を含み 、最初は空*/ cause_set=intersection(c1.cause s,e2.causes); if原因集合が空でない then /* e2がc1.と交差しe2がc1と合併する; */ { c1.CAUSES=cause_set; c1.EVENTS=c1.EVENTS.union.e2; c1.TIME=c1.EVENTS中の事象の最も早い時間; (TRUE)を戻す; } else (FALSE)を戻す; }
【0031】知識ベースに定義されたとおり、e2.C
AUSESはe2の可能なすべての原因を含むことに留
意されたい。さらに、呼び出された交差手順は、当業者
なら理解するように1組の交差操作である。
AUSESはe2の可能なすべての原因を含むことに留
意されたい。さらに、呼び出された交差手順は、当業者
なら理解するように1組の交差操作である。
【0032】図に示すとおり、e2およびc1の原因の
交差が空でない場合は、事象e2はクラスタc1と合併
する。そうでない場合は、e2は自らのクラスタを形成
する。クラスタ内の事象の数が増えるにつれ、原因の数
が減り、変数がインスタンス化される。クラスタが完全
にインスタンス化された原因を1つだけ含むようになっ
たとき、すぐに診断の結論に達する。その結論はc1.
CAUSESに残された問題の原因を反映するので、こ
の原因がc1.EVENTにおけるすべての事象の発行
を引き起こしたと判定される。このデータ構造に含まれ
る情報が推論エンジンに提供され、問題報告が作成でき
るようになる。
交差が空でない場合は、事象e2はクラスタc1と合併
する。そうでない場合は、e2は自らのクラスタを形成
する。クラスタ内の事象の数が増えるにつれ、原因の数
が減り、変数がインスタンス化される。クラスタが完全
にインスタンス化された原因を1つだけ含むようになっ
たとき、すぐに診断の結論に達する。その結論はc1.
CAUSESに残された問題の原因を反映するので、こ
の原因がc1.EVENTにおけるすべての事象の発行
を引き起こしたと判定される。このデータ構造に含まれ
る情報が推論エンジンに提供され、問題報告が作成でき
るようになる。
【0033】図4は、原因および事象をクラスタにする
方法を図示した流れ図である。最初に、事象を受け取る
(300)。その後、ループに入り、事象の原因をクラ
スタの原因と比較して、交差するかどうかを判別する。
ブロック310で、まず、既存のクラスタ集合から次の
クラスタSを得る。クラスタがもうない場合は、新たな
クラスタを作成し(340)、処理は終了する。クラス
タがまだある場合は、事象とクラスタの原因との交差が
空であるかどうかを判別する(320)。空である場合
は、ブロック310に戻ってこのループを続行する。交
差が空でない場合は、その事象がクラスタSと合併され
る(330)。最後に処理が終了する。
方法を図示した流れ図である。最初に、事象を受け取る
(300)。その後、ループに入り、事象の原因をクラ
スタの原因と比較して、交差するかどうかを判別する。
ブロック310で、まず、既存のクラスタ集合から次の
クラスタSを得る。クラスタがもうない場合は、新たな
クラスタを作成し(340)、処理は終了する。クラス
タがまだある場合は、事象とクラスタの原因との交差が
空であるかどうかを判別する(320)。空である場合
は、ブロック310に戻ってこのループを続行する。交
差が空でない場合は、その事象がクラスタSと合併され
る(330)。最後に処理が終了する。
【0034】図5は、推論エンジンによる事象の分析お
よび処理の流れ図である。推論エンジンは、エラーが2
00に到着した順にエラー事象を受け取る。各エラー事
象ごとに、知識ベースを呼び出してエラー・メッセージ
を識別する。エラー・メッセージが認識されると、可能
な原因に関する情報を取り出して事象に付加する。
よび処理の流れ図である。推論エンジンは、エラーが2
00に到着した順にエラー事象を受け取る。各エラー事
象ごとに、知識ベースを呼び出してエラー・メッセージ
を識別する。エラー・メッセージが認識されると、可能
な原因に関する情報を取り出して事象に付加する。
【0035】その後、入力エラー・メッセージをすでに
受け取った他の事象と比較して、反復するエラー・メッ
セージを除外する(210)。その後、エラー・メッセ
ージの分析を行って、そのメッセージが他のメッセージ
によってトリガまたはセットオフされるかどうかを判別
する(220)。そうであれば、すでに受け取ったエラ
ー・メッセージを調べて、トリガするメッセージが到着
しているか否かを判別する。トリガするメッセージが到
着している場合は、新規エラー・メッセージは無視され
る。そうでない場合は、推論エンジンは、エラー・メッ
セージが通常のエラー・メッセージとして処理されるま
で、指定可能な時間枠だけ待つことになる。この時点
で、入力エラー・メッセージを、クラスタと称する既存
の診断用問題と比較して、入力エラー・メッセージがク
ラスタ内のすべてのエラー・メッセージと共通の原因を
共有しているかどうかを判別する(230)。共通する
原因がある場合は、新規エラー・メッセージは既存のク
ラスタに合併される。そうでない場合は、新規診断用問
題用の新規クラスタが作成されることになる。クラスタ
構造に関するより詳細な説明は後で行う。推論エンジン
は、エラー・メッセージをクラスタにする方法を決定す
るだけでなく、エラー・メッセージと原因の対が条件を
満たすかどうかをも判別する(240)。そうであれ
ば、その条件が評価されるまで、ユーザが構成できる時
間枠の間処理が中断される。次にクラスタ内の原因を評
価して、クラスタ内の1つの原因が他の原因を暗示する
かどうかを判別する(250)。そうであれば、暗示さ
れる原因は削除される。最後に、クラスタに完全にイン
スタンス化された1つの原因が残っていれば、問題報告
が作成されることになる。問題報告は、クラスタ中で相
関するすべてのメッセージと、原因と、原因を修復する
ための推奨される処理とに関する情報を提供する。その
後、受け取りステップに戻る。
受け取った他の事象と比較して、反復するエラー・メッ
セージを除外する(210)。その後、エラー・メッセ
ージの分析を行って、そのメッセージが他のメッセージ
によってトリガまたはセットオフされるかどうかを判別
する(220)。そうであれば、すでに受け取ったエラ
ー・メッセージを調べて、トリガするメッセージが到着
しているか否かを判別する。トリガするメッセージが到
着している場合は、新規エラー・メッセージは無視され
る。そうでない場合は、推論エンジンは、エラー・メッ
セージが通常のエラー・メッセージとして処理されるま
で、指定可能な時間枠だけ待つことになる。この時点
で、入力エラー・メッセージを、クラスタと称する既存
の診断用問題と比較して、入力エラー・メッセージがク
ラスタ内のすべてのエラー・メッセージと共通の原因を
共有しているかどうかを判別する(230)。共通する
原因がある場合は、新規エラー・メッセージは既存のク
ラスタに合併される。そうでない場合は、新規診断用問
題用の新規クラスタが作成されることになる。クラスタ
構造に関するより詳細な説明は後で行う。推論エンジン
は、エラー・メッセージをクラスタにする方法を決定す
るだけでなく、エラー・メッセージと原因の対が条件を
満たすかどうかをも判別する(240)。そうであれ
ば、その条件が評価されるまで、ユーザが構成できる時
間枠の間処理が中断される。次にクラスタ内の原因を評
価して、クラスタ内の1つの原因が他の原因を暗示する
かどうかを判別する(250)。そうであれば、暗示さ
れる原因は削除される。最後に、クラスタに完全にイン
スタンス化された1つの原因が残っていれば、問題報告
が作成されることになる。問題報告は、クラスタ中で相
関するすべてのメッセージと、原因と、原因を修復する
ための推奨される処理とに関する情報を提供する。その
後、受け取りステップに戻る。
【0036】推論エンジンは、クラスタの状況も検討す
る。クラスタは、ユーザが構成できる「problem
_life_time」と名付けられる時間枠の間維持
される。「problem_life_time」が満
了すると、クラスタは記憶域から削除される。また、問
題報告について設定できる時間には上限がある。「cl
uster_max_time」の満了時にクラスタに
複数の原因が残っていた場合、複数の原因について問題
報告が作成されることになる。エラー事象をクラスタに
合併できるのは、問題報告が作成された後であることに
留意されたい。しかも「problem_life_t
ime」の満了前でなければならない。新規事象は、報
告された問題に関する追加情報を提供する。新規エラー
・メッセージの情報は、別に作成される問題報告「la
te_problem_report」に含まれること
になる。「late_problem_report」
は、元の問題報告と同じ問題識別番号を持つ。
る。クラスタは、ユーザが構成できる「problem
_life_time」と名付けられる時間枠の間維持
される。「problem_life_time」が満
了すると、クラスタは記憶域から削除される。また、問
題報告について設定できる時間には上限がある。「cl
uster_max_time」の満了時にクラスタに
複数の原因が残っていた場合、複数の原因について問題
報告が作成されることになる。エラー事象をクラスタに
合併できるのは、問題報告が作成された後であることに
留意されたい。しかも「problem_life_t
ime」の満了前でなければならない。新規事象は、報
告された問題に関する追加情報を提供する。新規エラー
・メッセージの情報は、別に作成される問題報告「la
te_problem_report」に含まれること
になる。「late_problem_report」
は、元の問題報告と同じ問題識別番号を持つ。
【0037】このエラー・マネージャ・システムの設計
および構造は、維持、拡張および検証が容易であること
に留意されたい。さらに、エラー・マネージャの設計は
きわめて効率的である。特定のエラー事象を伴う問題の
発見、解明および変更が容易である。というのは、ある
事象に関するすべての知識、その回復作業、およびメッ
セージを知識ベース中で見つけることができるからであ
る。さらに、知識ベースは、新規エラー・メッセージを
容易にシステムに追加することができる。知識ベース
は、システムの稼働中に編集できることに留意された
い。さらに、LANエキスパート・システムは自動的に
エラー・メッセージを相関させるので、ユーザは、エラ
ー・メッセージを分析する必要がなく、診断済みの問題
を受け取ることになる。
および構造は、維持、拡張および検証が容易であること
に留意されたい。さらに、エラー・マネージャの設計は
きわめて効率的である。特定のエラー事象を伴う問題の
発見、解明および変更が容易である。というのは、ある
事象に関するすべての知識、その回復作業、およびメッ
セージを知識ベース中で見つけることができるからであ
る。さらに、知識ベースは、新規エラー・メッセージを
容易にシステムに追加することができる。知識ベース
は、システムの稼働中に編集できることに留意された
い。さらに、LANエキスパート・システムは自動的に
エラー・メッセージを相関させるので、ユーザは、エラ
ー・メッセージを分析する必要がなく、診断済みの問題
を受け取ることになる。
【0038】まとめとして、本発明の構成に関して以下
の事項を開示する。
の事項を開示する。
【0039】(1)1つまたは複数のLANサーバと複
数のLANリクエスタと1つのLANEXPERTサー
バと複数のLAN EXPERTエージェントとを有
し、前記LAN EXPERTサーバが、前記LANに
接続され、かつ推論エンジンと可能な原因とエラー・メ
ッセージとの関係を含む知識ベースと問題を報告しユー
ザと対話するためのユーザ・インタフェースとを含み、
LAN EXPERTエージェントが、LANサーバお
よびLANリクエスタの状況を監視するためにLANサ
ーバおよびLANリクエスタにインストールされてい
る、ローカル・エリア・ネットワーク(LAN)におけ
るエラー事象を管理する限定複数障害管理方法におい
て、LAN EXPERTエージェントによって、それ
がインストールされているLANサーバまたはLANリ
クエスタから発行されたエラー・メッセージを受け取
り、そのエラー・メッセージを前記LAN EXPER
Tサーバに送るステップと、LAN EXPERTサー
バによって、すべてのLAN EXPERTエージェン
トから送られたエラー・メッセージを受け取り、受け取
られたエラー・メッセージがLAN EXPERTサー
バの推論エンジンによって診断される事象となるステッ
プと、LAN EXPERTサーバの推論エンジンによ
って、受け取ったエラー・メッセージに関する事象クラ
スタを形成し、クラスタが相関する事象と可能な原因と
を含む部分的診断結果を保持するデータ構造であり、事
象と原因がいずれも関連する変数を持つことができるス
テップと、推論エンジンによって、知識ベースでの定義
によれば受け取ったエラー・メッセージに対応する事象
に関するすべての関連する原因を取り出すために、LA
NEXPERTサーバの前記知識ベースにアクセスし、
原因の変数が事象によってインスタンス化される可能性
があるステップと、LAN EXPERTサーバの推論
エンジンによって、後続のエラー・メッセージを事象ク
ラスタおよびその他のクラスタと比較して、後続の事象
をクラスタに合併すべきか否かを判別するステップと、
LAN EXPERTサーバの推論エンジンによって、
後続の事象の原因とあるクラスタの原因の数学的交差が
空でない場合は、後続の事象をそのクラスタに合併し、
そうでない場合は、推論エンジンによって、前記後続の
事象用の新規事象クラスタを作成し、その際に、推論エ
ンジンによってクラスタに合併される事象が増えるほど
原因の数が減少し、変数がインスタンス化され、クラス
タが完全にインスタンス化された1つの原因しか含まな
くなったときに診断の結論に達するステップと、LAN
EXPERTサーバのユーザ・インタフェースによっ
て、推論エンジンが生成した診断情報を報告するステッ
プとを含む方法。 (2)前記原因および前記事象がそれ自体に関連するイ
ンスタンス化変数を有する場合、前記合併ステップが前
記変数の数学的交差の計算を含み、前記変数の前記交差
が空でない場合は、前記事象が前記クラスタに合併され
ることを特徴とする、上記(1)に記載の方法。 (3)ローカル・エリア・ネットワーク(LAN)にお
けるエラー事象の限定複数障害管理用の診断システムに
おいて、複数のLANリクエスタと、1つのLANサー
バが複数のLANリクエスタにサービスを提供する、1
つまたは複数のLANサーバと、前記LANに接続さ
れ、推論エンジンと可能な原因とエラー・メッセージの
関係を含む知識ベースと問題を報告しユーザと対話する
ためのユーザ・インタフェースとを含むLAN EXP
ERTサーバと、LANサーバおよびLANリクエスタ
上にインストールされ、前記LANサーバおよびLAN
リクエスタの状況を監視する、複数のLAN EXPE
RTエージェントとを備え、前記LAN EXPERT
エージェントが、それがインストールされているLAN
サーバまたはLANリクエスタから発行されたエラー・
メッセージを受け取って、そのエラー・メッセージをL
AN EXPERTサーバに送り、前記LAN EXP
ERTサーバが、すべてのLAN EXPERTエージ
ェントから送られたエラー・メッセージを受け取り、受
け取られたエラー・メッセージがLAN EXPERT
サーバの推論エンジンによって診断される事象であり、
LAN EXPERTサーバの前記推論エンジンが、受
け取られたエラー・メッセージに関する事象クラスタを
形成し、クラスタは相関する事象と可能な原因とを含む
部分的診断結果を保持するデータ構造であり、事象と原
因がいずれもそれ自体に関連する変数を有することがで
き、前記推論エンジンが、前記知識ベースでの定義によ
れば受け取られたエラー・メッセージに対応する事象に
関するすべての関連する原因を取り出すために、LAN
EXPERTサーバの知識ベースにアクセスし、原因
の変数が前記事象によってインスタンス化される可能性
があり、LAN EXPERTサーバの前記推論エンジ
ンが、次のエラー・メッセージを事象クラスタおよびそ
の他のクラスタと比較して、後続事象をクラスタに合併
すべきかどうかを判別し、前記推論エンジンが、後続の
事象の原因とクラスタの原因の数学的交差が空でない場
合は、後続の事象をクラスタに合併し、そうでない場合
は、前記推論エンジンが後続の事象用の新規事象クラス
タを形成し、その際に、推論エンジンによってクラスタ
に合併される事象が増えるほど原因の数が減少し、変数
がインスタンス化され、クラスタが完全にインスタンス
化された1つの原因しか含まなくなったときに診断の結
論に達し、前記LAN EXPERTサーバの前記ユー
ザ・インタフェースが、前記推論エンジンによって生成
された診断情報を報告することを特徴とする、診断シス
テム。
数のLANリクエスタと1つのLANEXPERTサー
バと複数のLAN EXPERTエージェントとを有
し、前記LAN EXPERTサーバが、前記LANに
接続され、かつ推論エンジンと可能な原因とエラー・メ
ッセージとの関係を含む知識ベースと問題を報告しユー
ザと対話するためのユーザ・インタフェースとを含み、
LAN EXPERTエージェントが、LANサーバお
よびLANリクエスタの状況を監視するためにLANサ
ーバおよびLANリクエスタにインストールされてい
る、ローカル・エリア・ネットワーク(LAN)におけ
るエラー事象を管理する限定複数障害管理方法におい
て、LAN EXPERTエージェントによって、それ
がインストールされているLANサーバまたはLANリ
クエスタから発行されたエラー・メッセージを受け取
り、そのエラー・メッセージを前記LAN EXPER
Tサーバに送るステップと、LAN EXPERTサー
バによって、すべてのLAN EXPERTエージェン
トから送られたエラー・メッセージを受け取り、受け取
られたエラー・メッセージがLAN EXPERTサー
バの推論エンジンによって診断される事象となるステッ
プと、LAN EXPERTサーバの推論エンジンによ
って、受け取ったエラー・メッセージに関する事象クラ
スタを形成し、クラスタが相関する事象と可能な原因と
を含む部分的診断結果を保持するデータ構造であり、事
象と原因がいずれも関連する変数を持つことができるス
テップと、推論エンジンによって、知識ベースでの定義
によれば受け取ったエラー・メッセージに対応する事象
に関するすべての関連する原因を取り出すために、LA
NEXPERTサーバの前記知識ベースにアクセスし、
原因の変数が事象によってインスタンス化される可能性
があるステップと、LAN EXPERTサーバの推論
エンジンによって、後続のエラー・メッセージを事象ク
ラスタおよびその他のクラスタと比較して、後続の事象
をクラスタに合併すべきか否かを判別するステップと、
LAN EXPERTサーバの推論エンジンによって、
後続の事象の原因とあるクラスタの原因の数学的交差が
空でない場合は、後続の事象をそのクラスタに合併し、
そうでない場合は、推論エンジンによって、前記後続の
事象用の新規事象クラスタを作成し、その際に、推論エ
ンジンによってクラスタに合併される事象が増えるほど
原因の数が減少し、変数がインスタンス化され、クラス
タが完全にインスタンス化された1つの原因しか含まな
くなったときに診断の結論に達するステップと、LAN
EXPERTサーバのユーザ・インタフェースによっ
て、推論エンジンが生成した診断情報を報告するステッ
プとを含む方法。 (2)前記原因および前記事象がそれ自体に関連するイ
ンスタンス化変数を有する場合、前記合併ステップが前
記変数の数学的交差の計算を含み、前記変数の前記交差
が空でない場合は、前記事象が前記クラスタに合併され
ることを特徴とする、上記(1)に記載の方法。 (3)ローカル・エリア・ネットワーク(LAN)にお
けるエラー事象の限定複数障害管理用の診断システムに
おいて、複数のLANリクエスタと、1つのLANサー
バが複数のLANリクエスタにサービスを提供する、1
つまたは複数のLANサーバと、前記LANに接続さ
れ、推論エンジンと可能な原因とエラー・メッセージの
関係を含む知識ベースと問題を報告しユーザと対話する
ためのユーザ・インタフェースとを含むLAN EXP
ERTサーバと、LANサーバおよびLANリクエスタ
上にインストールされ、前記LANサーバおよびLAN
リクエスタの状況を監視する、複数のLAN EXPE
RTエージェントとを備え、前記LAN EXPERT
エージェントが、それがインストールされているLAN
サーバまたはLANリクエスタから発行されたエラー・
メッセージを受け取って、そのエラー・メッセージをL
AN EXPERTサーバに送り、前記LAN EXP
ERTサーバが、すべてのLAN EXPERTエージ
ェントから送られたエラー・メッセージを受け取り、受
け取られたエラー・メッセージがLAN EXPERT
サーバの推論エンジンによって診断される事象であり、
LAN EXPERTサーバの前記推論エンジンが、受
け取られたエラー・メッセージに関する事象クラスタを
形成し、クラスタは相関する事象と可能な原因とを含む
部分的診断結果を保持するデータ構造であり、事象と原
因がいずれもそれ自体に関連する変数を有することがで
き、前記推論エンジンが、前記知識ベースでの定義によ
れば受け取られたエラー・メッセージに対応する事象に
関するすべての関連する原因を取り出すために、LAN
EXPERTサーバの知識ベースにアクセスし、原因
の変数が前記事象によってインスタンス化される可能性
があり、LAN EXPERTサーバの前記推論エンジ
ンが、次のエラー・メッセージを事象クラスタおよびそ
の他のクラスタと比較して、後続事象をクラスタに合併
すべきかどうかを判別し、前記推論エンジンが、後続の
事象の原因とクラスタの原因の数学的交差が空でない場
合は、後続の事象をクラスタに合併し、そうでない場合
は、前記推論エンジンが後続の事象用の新規事象クラス
タを形成し、その際に、推論エンジンによってクラスタ
に合併される事象が増えるほど原因の数が減少し、変数
がインスタンス化され、クラスタが完全にインスタンス
化された1つの原因しか含まなくなったときに診断の結
論に達し、前記LAN EXPERTサーバの前記ユー
ザ・インタフェースが、前記推論エンジンによって生成
された診断情報を報告することを特徴とする、診断シス
テム。
【図1】本発明をそこで実施できるハードウェア構成を
示すブロック図である。
示すブロック図である。
【図2】LANシステムの例を示す図である。
【図3】LANシステム用として実施されたエラー管理
システムの高レベル概略図である。
システムの高レベル概略図である。
【図4】原因および事象をクラスタにする方法を示す流
れ図である。
れ図である。
【図5】エラー事象の分析および相関を行い、回復処置
を提供する方法を示す流れ図である。
を提供する方法を示す流れ図である。
10 中央演算処理装置(CPU) 12 システム・バス 14 ランダム・アクセス・メモリ(RAM) 16 読み取り専用メモリ(ROM) 18 入出力アダプタ 20 ディスク・ドライブ 22 ユーザ・インタフェース・アダプタ 24 キーボード 26 マウス 28 スピーカ 34 通信アダプタ 36 表示装置アダプタ 38 表示装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ジョゼフ・シロアク イスラエル キリアト・ティヴオン コロ ンバス・ストリート 44 (72)発明者 アムノン・リヴァク イスラエル ミスガヴ ユヴァリン 251 (72)発明者 ユアンゲン・ホアン アメリカ合衆国78727 テキサス州オース チン ブレイディッド・ロープ・ドライブ 1431
Claims (3)
- 【請求項1】1つまたは複数のLANサーバと複数のL
ANリクエスタと1つのLAN EXPERTサーバと
複数のLAN EXPERTエージェントとを有し、前
記LAN EXPERTサーバが、前記LANに接続さ
れ、かつ推論エンジンと可能な原因とエラー・メッセー
ジとの関係を含む知識ベースと問題を報告しユーザと対
話するためのユーザ・インタフェースとを含み、LAN
EXPERTエージェントが、LANサーバおよびL
ANリクエスタの状況を監視するためにLANサーバお
よびLANリクエスタにインストールされている、ロー
カル・エリア・ネットワーク(LAN)におけるエラー
事象を管理する限定複数障害管理方法において、 LAN EXPERTエージェントによって、それがイ
ンストールされているLANサーバまたはLANリクエ
スタから発行されたエラー・メッセージを受け取り、そ
のエラー・メッセージを前記LAN EXPERTサー
バに送るステップと、 LAN EXPERTサーバによって、すべてのLAN
EXPERTエージェントから送られたエラー・メッ
セージを受け取り、受け取られたエラー・メッセージが
LAN EXPERTサーバの推論エンジンによって診
断される事象となるステップと、 LAN EXPERTサーバの推論エンジンによって、
受け取ったエラー・メッセージに関する事象クラスタを
形成し、クラスタが相関する事象と可能な原因とを含む
部分的診断結果を保持するデータ構造であり、事象と原
因がいずれも関連する変数を持つことができるステップ
と、 推論エンジンによって、知識ベースでの定義によれば受
け取ったエラー・メッセージに対応する事象に関するす
べての関連する原因を取り出すために、LANEXPE
RTサーバの前記知識ベースにアクセスし、原因の変数
が事象によってインスタンス化される可能性があるステ
ップと、 LAN EXPERTサーバの推論エンジンによって、
後続のエラー・メッセージを事象クラスタおよびその他
のクラスタと比較して、後続の事象をクラスタに合併す
べきか否かを判別するステップと、 LAN EXPERTサーバの推論エンジンによって、
後続の事象の原因とあるクラスタの原因の数学的交差が
空でない場合は、後続の事象をそのクラスタに合併し、
そうでない場合は、推論エンジンによって、前記後続の
事象用の新規事象クラスタを作成し、その際に、推論エ
ンジンによってクラスタに合併される事象が増えるほど
原因の数が減少し、変数がインスタンス化され、クラス
タが完全にインスタンス化された1つの原因しか含まな
くなったときに診断の結論に達するステップと、 LAN EXPERTサーバのユーザ・インタフェース
によって、推論エンジンが生成した診断情報を報告する
ステップとを含む方法。 - 【請求項2】前記原因および前記事象がそれ自体に関連
するインスタンス化変数を有する場合、前記合併ステッ
プが前記変数の数学的交差の計算を含み、前記変数の前
記交差が空でない場合は、前記事象が前記クラスタに合
併されることを特徴とする、請求項1に記載の方法。 - 【請求項3】ローカル・エリア・ネットワーク(LA
N)におけるエラー事象の限定複数障害管理用の診断シ
ステムにおいて、 複数のLANリクエスタと、 1つのLANサーバが複数のLANリクエスタにサービ
スを提供する、1つまたは複数のLANサーバと、 前記LANに接続され、推論エンジンと可能な原因とエ
ラー・メッセージの関係を含む知識ベースと問題を報告
しユーザと対話するためのユーザ・インタフェースとを
含むLAN EXPERTサーバと、 LANサーバおよびLANリクエスタ上にインストール
され、前記LANサーバおよびLANリクエスタの状況
を監視する、複数のLAN EXPERTエージェント
とを備え、 前記LAN EXPERTエージェントが、それがイン
ストールされているLANサーバまたはLANリクエス
タから発行されたエラー・メッセージを受け取って、そ
のエラー・メッセージをLAN EXPERTサーバに
送り、 前記LAN EXPERTサーバが、すべてのLAN
EXPERTエージェントから送られたエラー・メッセ
ージを受け取り、受け取られたエラー・メッセージがL
AN EXPERTサーバの推論エンジンによって診断
される事象であり、 LAN EXPERTサーバの前記推論エンジンが、受
け取られたエラー・メッセージに関する事象クラスタを
形成し、クラスタは相関する事象と可能な原因とを含む
部分的診断結果を保持するデータ構造であり、事象と原
因がいずれもそれ自体に関連する変数を有することがで
き、 前記推論エンジンが、前記知識ベースでの定義によれば
受け取られたエラー・メッセージに対応する事象に関す
るすべての関連する原因を取り出すために、LAN E
XPERTサーバの知識ベースにアクセスし、原因の変
数が前記事象によってインスタンス化される可能性があ
り、 LAN EXPERTサーバの前記推論エンジンが、次
のエラー・メッセージを事象クラスタおよびその他のク
ラスタと比較して、後続事象をクラスタに合併すべきか
どうかを判別し、 前記推論エンジンが、後続の事象の原因とクラスタの原
因の数学的交差が空でない場合は、後続の事象をクラス
タに合併し、そうでない場合は、前記推論エンジンが後
続の事象用の新規事象クラスタを形成し、その際に、推
論エンジンによってクラスタに合併される事象が増える
ほど原因の数が減少し、変数がインスタンス化され、ク
ラスタが完全にインスタンス化された1つの原因しか含
まなくなったときに診断の結論に達し、 前記LAN EXPERTサーバの前記ユーザ・インタ
フェースが、前記推論エンジンによって生成された診断
情報を報告することを特徴とする、診断システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US266073 | 1994-06-27 | ||
US08/266,073 US5539877A (en) | 1994-06-27 | 1994-06-27 | Problem determination method for local area network systems |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0818593A true JPH0818593A (ja) | 1996-01-19 |
JP3372394B2 JP3372394B2 (ja) | 2003-02-04 |
Family
ID=23013054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP13946795A Expired - Fee Related JP3372394B2 (ja) | 1994-06-27 | 1995-06-06 | 限定複数障害管理方法および診断システム |
Country Status (3)
Country | Link |
---|---|
US (1) | US5539877A (ja) |
JP (1) | JP3372394B2 (ja) |
FR (1) | FR2722354A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001008016A1 (fr) * | 1999-07-28 | 2001-02-01 | Sumitomo Electric Industries, Ltd. | Systeme de gestion de reseau |
WO2011039825A1 (ja) * | 2009-09-30 | 2011-04-07 | 株式会社日立製作所 | 障害の根本原因解析結果表示方法、装置、及びシステム |
Families Citing this family (90)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5761480A (en) * | 1994-04-20 | 1998-06-02 | Canon Kabushiki Kaisha | Display control method |
US6006016A (en) * | 1994-11-10 | 1999-12-21 | Bay Networks, Inc. | Network fault correlation |
US5918006A (en) * | 1994-12-20 | 1999-06-29 | Canon Kabushiki Kaisha | Communication device provided with a storage medium for storing a control program |
US5664093A (en) * | 1994-12-27 | 1997-09-02 | General Electric Company | System and method for managing faults in a distributed system |
IL112513A (en) | 1995-02-01 | 1999-05-09 | Ald Advanced Logistics Dev Ltd | System and method for failure reporting and collection |
US5740354A (en) * | 1995-11-27 | 1998-04-14 | Microsoft Corporation | Method and system for associating related errors in a computer system |
DE19546831A1 (de) * | 1995-12-15 | 1996-06-05 | Janke Peter Dipl Inform Fh | Verfahren zum Managen von Installationen in Gebäuden |
US6212649B1 (en) | 1996-12-30 | 2001-04-03 | Sentar, Inc. | System and method for providing highly-reliable coordination of intelligent agents in a distributed computing system |
US5983364A (en) * | 1997-05-12 | 1999-11-09 | System Soft Corporation | System and method for diagnosing computer faults |
JPH1153223A (ja) * | 1997-08-01 | 1999-02-26 | Sony Corp | データ処理方法、記録媒体及び電子機器 |
US5964891A (en) * | 1997-08-27 | 1999-10-12 | Hewlett-Packard Company | Diagnostic system for a distributed data access networked system |
US6085335A (en) * | 1997-10-02 | 2000-07-04 | Nortel Networks Limited | Self engineering system for use with a communication system and method of operation therefore |
US6058420A (en) * | 1998-02-27 | 2000-05-02 | Netsolve, Inc. | Alarm server systems, apparatus, and processes |
US6311165B1 (en) | 1998-04-29 | 2001-10-30 | Ncr Corporation | Transaction processing systems |
US6484155B1 (en) | 1998-07-21 | 2002-11-19 | Sentar, Inc. | Knowledge management system for performing dynamic distributed problem solving |
EP0977163A3 (en) * | 1998-07-25 | 2004-04-28 | Ncr International Inc. | Communications network |
US6438716B1 (en) * | 1998-10-22 | 2002-08-20 | International Business Machines Corporation | Composition of error messages in an error message system based upon non-local contextual information |
GB2346461B (en) * | 1999-02-04 | 2003-06-18 | Mitel Corp | Semantic error diagnostic process for multi-agent systems |
US6622264B1 (en) * | 1999-10-28 | 2003-09-16 | General Electric Company | Process and system for analyzing fault log data from a machine so as to identify faults predictive of machine failures |
JP2000358029A (ja) * | 1999-06-15 | 2000-12-26 | Nec Corp | 自動障害診断ネットワークシステム及びネットワークの自動障害診断方法 |
US7287192B1 (en) * | 1999-09-23 | 2007-10-23 | Computer Associates Think, Inc. | Identifying a failed device in a network |
US6526524B1 (en) * | 1999-09-29 | 2003-02-25 | International Business Machines Corporation | Web browser program feedback system |
US6876991B1 (en) | 1999-11-08 | 2005-04-05 | Collaborative Decision Platforms, Llc. | System, method and computer program product for a collaborative decision platform |
US7124101B1 (en) | 1999-11-22 | 2006-10-17 | Accenture Llp | Asset tracking in a network-based supply chain environment |
US6671818B1 (en) * | 1999-11-22 | 2003-12-30 | Accenture Llp | Problem isolation through translating and filtering events into a standard object format in a network based supply chain |
US7716077B1 (en) | 1999-11-22 | 2010-05-11 | Accenture Global Services Gmbh | Scheduling and planning maintenance and service in a network-based supply chain environment |
US8271336B2 (en) * | 1999-11-22 | 2012-09-18 | Accenture Global Services Gmbh | Increased visibility during order management in a network-based supply chain environment |
US7130807B1 (en) | 1999-11-22 | 2006-10-31 | Accenture Llp | Technology sharing during demand and supply planning in a network-based supply chain environment |
US6606744B1 (en) | 1999-11-22 | 2003-08-12 | Accenture, Llp | Providing collaborative installation management in a network-based supply chain environment |
US8032409B1 (en) | 1999-11-22 | 2011-10-04 | Accenture Global Services Limited | Enhanced visibility during installation management in a network-based supply chain environment |
US6532554B1 (en) | 1999-11-29 | 2003-03-11 | Sun Microsystems, Inc. | Network event correlation system using formally specified models of protocol behavior |
US6802009B1 (en) | 1999-12-17 | 2004-10-05 | International Business Machines Corporation | Operating system security checking system, method, and program |
US7139728B2 (en) * | 1999-12-30 | 2006-11-21 | Rod Rigole | Systems and methods for online selection of service providers and management of service accounts |
US6550024B1 (en) | 2000-02-03 | 2003-04-15 | Mitel Corporation | Semantic error diagnostic process for multi-agent systems |
US6604208B1 (en) * | 2000-04-07 | 2003-08-05 | Telefonaktiebolaget Lm Ericsson (Publ) | Incremental alarm correlation method and apparatus |
US6735772B1 (en) | 2000-04-13 | 2004-05-11 | International Business Machines Corporation | System and method for handling orphaned cause and effect objects |
US6789257B1 (en) | 2000-04-13 | 2004-09-07 | International Business Machines Corporation | System and method for dynamic generation and clean-up of event correlation circuit |
US7752024B2 (en) * | 2000-05-05 | 2010-07-06 | Computer Associates Think, Inc. | Systems and methods for constructing multi-layer topological models of computer networks |
AU2001261258A1 (en) * | 2000-05-05 | 2001-11-20 | Aprisma Management Technologies, Inc. | Help desk systems and methods for use with communications networks |
US7237138B2 (en) * | 2000-05-05 | 2007-06-26 | Computer Associates Think, Inc. | Systems and methods for diagnosing faults in computer networks |
US7500143B2 (en) * | 2000-05-05 | 2009-03-03 | Computer Associates Think, Inc. | Systems and methods for managing and analyzing faults in computer networks |
US6269457B1 (en) * | 2000-06-01 | 2001-07-31 | Testing Technologies, Inc. | Technology regression and verification acceptance method |
US6708333B1 (en) * | 2000-06-23 | 2004-03-16 | Microsoft Corporation | Method and system for reporting failures of a program module in a corporate environment |
JP2002132988A (ja) * | 2000-10-24 | 2002-05-10 | Canon Inc | 情報処理装置、ネットワークシステム、顧客トラブル管理方法、及び記憶媒体 |
US6845374B1 (en) * | 2000-11-27 | 2005-01-18 | Mailfrontier, Inc | System and method for adaptive text recommendation |
US20020124211A1 (en) * | 2001-03-01 | 2002-09-05 | International Business Machines Corporation | PCI error determination using error signatures or vectors |
WO2003005200A1 (en) * | 2001-07-06 | 2003-01-16 | Computer Associates Think, Inc. | Method and system for correlating and determining root causes of system and enterprise events |
JP2003114811A (ja) * | 2001-10-05 | 2003-04-18 | Nec Corp | 自動障害復旧方法及びシステム並びに装置とプログラム |
US7107257B2 (en) * | 2001-11-05 | 2006-09-12 | Lenovo (Singapore) Pte. Ltd. | Consolidated monitoring system and method using the internet for diagnosis of an installed product set on a computing device |
WO2003055145A1 (fr) * | 2001-12-20 | 2003-07-03 | Allied Telesis K.K. | Dispositif de gestion, procede de gestion de reseau et support d'enregistrement et de programme |
US7117396B2 (en) * | 2001-12-28 | 2006-10-03 | Intel Corporation | Scalable CPU error recorder |
US20040019672A1 (en) | 2002-04-10 | 2004-01-29 | Saumitra Das | Method and system for managing computer systems |
US7007200B2 (en) * | 2002-07-11 | 2006-02-28 | International Business Machines Corporation | Error analysis fed from a knowledge base |
US7080287B2 (en) * | 2002-07-11 | 2006-07-18 | International Business Machines Corporation | First failure data capture |
US20040025077A1 (en) * | 2002-07-31 | 2004-02-05 | International Business Machines Corporation | Method and apparatus for the dynamic tuning of recovery actions in a server by modifying hints and symptom entries from a remote location |
US7840856B2 (en) | 2002-11-07 | 2010-11-23 | International Business Machines Corporation | Object introspection for first failure data capture |
US7301909B2 (en) * | 2002-12-20 | 2007-11-27 | Compucom Systems, Inc. | Trouble-ticket generation in network management environment |
US7320084B2 (en) * | 2003-01-13 | 2008-01-15 | Sierra Logic | Management of error conditions in high-availability mass-storage-device shelves by storage-shelf routers |
CA2461069C (en) * | 2003-03-17 | 2013-08-13 | Tyco Telecommunications (Us) Inc. | System and method for fault diagnosis using distributed alarm correlation |
US7339885B2 (en) * | 2003-06-05 | 2008-03-04 | International Business Machines Corporation | Method and apparatus for customizable surveillance of network interfaces |
US7350112B2 (en) * | 2003-06-16 | 2008-03-25 | International Business Machines Corporation | Automated diagnostic service |
US7260743B2 (en) * | 2004-01-13 | 2007-08-21 | International Business Machines Corporation | System and method for achieving autonomic computing self-healing, utilizing meta level reflection and reasoning |
US7500145B2 (en) * | 2004-05-28 | 2009-03-03 | International Business Machines Corporation | Anomaly-driven software switch to capture event responses and automate recovery |
US7349746B2 (en) * | 2004-09-10 | 2008-03-25 | Exxonmobil Research And Engineering Company | System and method for abnormal event detection in the operation of continuous industrial processes |
US7424395B2 (en) | 2004-09-10 | 2008-09-09 | Exxonmobil Research And Engineering Company | Application of abnormal event detection technology to olefins recovery trains |
US7567887B2 (en) * | 2004-09-10 | 2009-07-28 | Exxonmobil Research And Engineering Company | Application of abnormal event detection technology to fluidized catalytic cracking unit |
US20060074598A1 (en) * | 2004-09-10 | 2006-04-06 | Emigholz Kenneth F | Application of abnormal event detection technology to hydrocracking units |
US20060107121A1 (en) * | 2004-10-25 | 2006-05-18 | International Business Machines Corporation | Method of speeding up regression testing using prior known failures to filter current new failures when compared to known good results |
US20060106796A1 (en) * | 2004-11-17 | 2006-05-18 | Honeywell International Inc. | Knowledge stores for interactive diagnostics |
US20060147203A1 (en) * | 2004-12-30 | 2006-07-06 | Thinguldstad Arthur M | Optical network element with remote access capability |
US7636888B2 (en) * | 2005-03-15 | 2009-12-22 | Microsoft Corporation | Verifying compatibility between document features and server capabilities |
US7761172B2 (en) * | 2006-03-21 | 2010-07-20 | Exxonmobil Research And Engineering Company | Application of abnormal event detection (AED) technology to polymers |
US7720641B2 (en) * | 2006-04-21 | 2010-05-18 | Exxonmobil Research And Engineering Company | Application of abnormal event detection technology to delayed coking unit |
US7757120B2 (en) * | 2006-06-23 | 2010-07-13 | International Business Machines Corporation | Ignoring redundant symptoms in modular self-healing systems |
US7962790B2 (en) * | 2006-12-04 | 2011-06-14 | Electronics And Telecommunications Research Institute | Inference-based home network error handling system and method |
US7590897B2 (en) * | 2007-02-06 | 2009-09-15 | International Business Machines Corporation | Device, method and computer program product for responding to error events |
US8086897B2 (en) * | 2007-11-15 | 2011-12-27 | Infosys Limited | Model driven diagnostics system and methods thereof |
US8230259B2 (en) * | 2009-12-02 | 2012-07-24 | International Business Machines Corporation | Automatic analysis of log entries through use of clustering |
US8108724B2 (en) * | 2009-12-17 | 2012-01-31 | Hewlett-Packard Development Company, L.P. | Field replaceable unit failure determination |
US8862250B2 (en) | 2010-05-07 | 2014-10-14 | Exxonmobil Research And Engineering Company | Integrated expert system for identifying abnormal events in an industrial plant |
US8245079B2 (en) * | 2010-09-21 | 2012-08-14 | Verizon Patent And Licensing, Inc. | Correlation of network alarm messages based on alarm time |
US9667473B2 (en) | 2013-02-28 | 2017-05-30 | International Business Machines Corporation | Recommending server management actions for information processing systems |
US10243779B2 (en) * | 2013-04-29 | 2019-03-26 | Moogsoft, Inc. | System for decomposing events from managed infrastructures with situation room |
US10574551B2 (en) * | 2013-04-29 | 2020-02-25 | Moogsoft, Inc. | System for decomposing events from managed infrastructures |
US10572277B2 (en) * | 2013-04-29 | 2020-02-25 | Moogsoft, Inc. | Alert dashboard system with situation room |
US10379932B2 (en) * | 2013-04-29 | 2019-08-13 | Moogsoft, Inc. | System for decomposing events from managed infrastructures |
US10169122B2 (en) * | 2013-04-29 | 2019-01-01 | Moogsoft, Inc. | Methods for decomposing events from managed infrastructures |
US10552242B2 (en) * | 2017-09-18 | 2020-02-04 | Bank Of America Corporation | Runtime failure detection and correction |
US11658889B1 (en) | 2022-03-27 | 2023-05-23 | Bank Of America Corporation | Computer network architecture mapping using metadata |
US11595245B1 (en) | 2022-03-27 | 2023-02-28 | Bank Of America Corporation | Computer network troubleshooting and diagnostics using metadata |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4803641A (en) * | 1984-06-06 | 1989-02-07 | Tecknowledge, Inc. | Basic expert system tool |
US4999833A (en) * | 1985-05-06 | 1991-03-12 | Itt Corporation | Network connectivity control by artificial intelligence |
US4881230A (en) * | 1987-10-05 | 1989-11-14 | Ibm Corporation | Expert system for processing errors in a multiplex communications system |
US4817092A (en) * | 1987-10-05 | 1989-03-28 | International Business Machines | Threshold alarms for processing errors in a multiplex communications system |
US4866635A (en) * | 1987-10-19 | 1989-09-12 | Carnegie Group Inc. | Domain independent shell for building a diagnostic expert system |
US5047977A (en) * | 1988-04-08 | 1991-09-10 | International Business Machines Corporation | Methods of generating and retrieving error and task message records within a multitasking computer system |
US5157667A (en) * | 1990-04-30 | 1992-10-20 | International Business Machines Corporation | Methods and apparatus for performing fault isolation and failure analysis in link-connected systems |
FR2684472A1 (fr) * | 1991-11-29 | 1993-06-04 | Cit Alcatel | Systeme expert supportant les contraintes du temps reel. |
US5309448A (en) * | 1992-01-03 | 1994-05-03 | International Business Machines Corporation | Methods and systems for alarm correlation and fault localization in communication networks |
-
1994
- 1994-06-27 US US08/266,073 patent/US5539877A/en not_active Expired - Fee Related
-
1995
- 1995-06-06 JP JP13946795A patent/JP3372394B2/ja not_active Expired - Fee Related
- 1995-06-23 FR FR9506156A patent/FR2722354A1/fr active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001008016A1 (fr) * | 1999-07-28 | 2001-02-01 | Sumitomo Electric Industries, Ltd. | Systeme de gestion de reseau |
GB2363286A (en) * | 1999-07-28 | 2001-12-12 | Sumitomo Electric Industries | Network managing system |
GB2363286B (en) * | 1999-07-28 | 2003-08-27 | Sumitomo Electric Industries | Network managing system |
WO2011039825A1 (ja) * | 2009-09-30 | 2011-04-07 | 株式会社日立製作所 | 障害の根本原因解析結果表示方法、装置、及びシステム |
JP2011076293A (ja) * | 2009-09-30 | 2011-04-14 | Hitachi Ltd | 障害の根本原因解析結果表示方法、装置、及びシステム |
Also Published As
Publication number | Publication date |
---|---|
JP3372394B2 (ja) | 2003-02-04 |
US5539877A (en) | 1996-07-23 |
FR2722354A1 (fr) | 1996-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3372394B2 (ja) | 限定複数障害管理方法および診断システム | |
US5483637A (en) | Expert based system and method for managing error events in a local area network | |
US11614943B2 (en) | Determining problem dependencies in application dependency discovery, reporting, and management tool | |
US11868237B2 (en) | Intelligent services for application dependency discovery, reporting, and management tool | |
US11620211B2 (en) | Discovery crawler for application dependency discovery, reporting, and management tool | |
US11221854B2 (en) | Dependency analyzer in application dependency discovery, reporting, and management tool | |
KR100714157B1 (ko) | 컴퓨터 기반 방법, 컴퓨터 판독 가능 기록 매체 및 데이터 처리 시스템 | |
Chillarege et al. | Measurement of failure rate in widely distributed software | |
US20200409824A1 (en) | Intelligent services and training agent for application dependency discovery, reporting, and management tool | |
US11675692B2 (en) | Testing agent for application dependency discovery, reporting, and management tool | |
US8135988B2 (en) | Non-intrusive gathering of diagnostic data using asynchronous mechanisms | |
EP1405187B1 (en) | Method and system for correlating and determining root causes of system and enterprise events | |
US8489729B2 (en) | System and method for social service event processing and management | |
JPH02105947A (ja) | コンピユータ周辺サブシステム及びその例外事象自動検出分析方法 | |
EP3991030A1 (en) | Determining problem dependencies in application dependency discovery, reporting, and management tool | |
CN113900902A (zh) | 日志处理方法、装置、电子设备及存储介质 | |
CN116401129A (zh) | 业务系统监测方法、装置、终端及存储介质 | |
CN115375269A (zh) | 税务流程智能审批方法、装置、设备及介质 | |
CN117828515A (zh) | 一种基于低代码平台的智能日志异常诊断系统及方法 | |
CN112667464A (zh) | 一种信息系统状态智能化分析方法、系统及设备 | |
JPH06309191A (ja) | 障害診断システム | |
AU2002354788A1 (en) | Method and system for correlating and determining root causes of system and enterprise events |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |