JPH0818593A

JPH0818593A - 限定複数障害管理方法および診断システム

Info

Publication number: JPH0818593A
Application number: JP7139467A
Authority: JP
Inventors: Alex Winokur; アレックス・ウィノクル; Joseph Shiloach; ジョゼフ・シロアク; Amnon Ribak; アムノン・リヴァク; Yuangeng Huang; ユアンゲン・ホアン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1994-06-27
Filing date: 1995-06-06
Publication date: 1996-01-19
Anticipated expiration: 2018-02-04
Also published as: FR2722354A1; JP3372394B2; US5539877A

Abstract

(57)【要約】【目的】ローカル・エリア・ネットワーク（ＬＡＮ）
におけるエラー修復を管理するためのシステムおよび方
法を提供する。【構成】このシステムは、関連するエラー事象と診断
用の問題と原因とを格納するデータ構造を含む。さら
に、エラー事象をリアルタイムで管理し、原因を識別
し、処置を推奨する方法が提供される。知識ベースは、
前記問題の原因および推奨される処置を判別するために
使用される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、一般的には、ローカル
・エリア・ネットワーク（ＬＡＮ）システムの問題およ
び状態に関する情報を管理し、分析し、提供する方法お
よび装置に関し、より具体的には、知識ベースに格納さ
れた知識に基づいて、エラー事象を分析し、その事象の
可能な原因および推奨される処置に関する情報を提供す
る、事象相関／問題判別（ＥＣＰＤ）システムに関す
る。

【０００２】

【従来の技術】コンピュータ・システム、特にＬＡＮで
は数多くのエラー事象が起こることが普通である。ほと
んどのエラー事象は、それを回復するために、ユーザお
よび発生セグメントに異なるメッセージを送る必要があ
り、多くの異なる複雑な処置の実行が必要である。こう
したエラーは、構成エラーやハードウェア・エラーや通
信エラーを含めて、様々な状態に起因する。

【０００３】現在のところ、エラー分析および問題解決
は、ＬＡＮ管理者が手作業で行うことが多い。この手法
には２つの問題がある。第一に、エラー・メッセージに
曖昧なまたは不完全な情報が含まれていることが多い。
たとえば「内部ソフトウェア・エラー」というエラー・
メッセージがそうである。この場合、管理者は、エラー
・メッセージを解読するか、あるいは追加の作業を行っ
て、実際のエラーの原因を判別しなければならない。手
動でエラー・コードを解決する際の第二の問題点は、特
にＬＡＮシステムの場合に、１つの問題から複数のエラ
ー・メッセージがしばしば発生し得ることである。した
がって、ＬＡＮ管理者は、分析する必要のあるエラーの
数が余りにも多いことにしばしば圧倒される。しかも、
エラーの分析および検討は知識集約型である。したがっ
て、エラー・メッセージを管理する非手動の方法または
システムの実施は困難であった。

【０００４】これまでにも、エラー・マネージャを実施
するいくつかの試みがなされてきた。しかし、こうした
試みは、格納しなければならない情報の量と、必要な知
識が多いために成功しなかった。場合によっては、エラ
ー事象が認識された後に呼び出される複雑なインライン
・コードでエラー・マネージャが実施された。また、
「テーブル駆動型」のエラー管理を使用する実施態様も
あった。しかし、このようなシステムは、各エラー事象
が多数のアクション・コードを有する可能性があり、か
つそれぞれ独自のエラー事象とアクション・コードの対
を表示しなければならないために、表示と格納の効率が
悪かった。しかも、こうした方法はいずれも、ユーザが
エラー処理方法を変更できるシステムを提供していな
い。現在のところ、エラーと問題判別を相関させる標準
的方法はない。

【０００５】エラー管理には、エラーに関する情報の分
析および提供ができるように、問題と原因を相関させる
必要がある。現在のところ、ほとんどの問題判別システ
ムは単一障害仮定を用いている。これは、１つのシステ
ムには一時に１つの障害しか起こらず、その障害は単一
の原因に関連するというものである。単一障害仮定は、
複雑なネットワーク・システムまたはコンピュータ・シ
ステムで用いることができる。他の複雑なシステムでは
複数障害仮定を用いるが、リアルタイム・システムの場
合には、コンピュータ使用のコストがかかりすぎる。し
たがって、複数障害仮定を用いてリアルタイムでエラー
情報を提供することはできない。

【０００６】

【発明が解決しようとする課題】本発明の目的は、ＬＡ
Ｎ環境において、エラー・メッセージの分析および相関
を行う方法を提供することにある。

【０００７】本発明の他の目的は、エラー事象の可能な
原因を判別し、推奨される処置を提供する方法を提供す
ることにある。

【０００８】本発明の他の目的は、問題判別および事象
相関をリアルタイムで実行することにある。

【０００９】本発明の他の目的は、問題判別とエラー事
象を相関させるための構造および方法を提供することに
ある。

【００１０】

【課題を解決するための手段】本発明によれば、コンピ
ュータ・システム、特にＬＡＮシステムにおいて、問題
を判別するための方法およびシステムが提供される。推
論エンジンを提供することによって、エラー・メッセー
ジの分析および相関をリアルタイムで行い、エラー事象
の原因に関する情報と、エラー事象の解決のために推奨
される一連の処置とを提供する。

【００１１】本発明で提供されるエラー管理の方法は、
知識ベースを利用することによってエラー・メッセージ
を評価し、そのエラー・メッセージが反復されるもの
か、あるいは他のメッセージによってトリガされるもの
か、あるいは他のエラー事象とともにクラスタにすべき
ものかを判別するものである。相関するすべての事象が
受け取られるまで、新たな入力事象をすでに受け取られ
て処理された事象と比較し、その後、診断の結論に達す
る。

【００１２】

【実施例】図面、より具体的には図１を参照すると、Ｌ
ＡＮシステムのサーバまたはリクエスタとして使用で
き、本発明をそこで実施できる、代表的なハードウェア
環境が示されている。このハードウェア環境は、ＩＢＭ
ＰＳ／２などのパーソナル・コンピュータ、またはＩ
ＢＭＲＳ／６０００などのワークステーションでよ
い。ハードウェアに含まれる中央演算処理装置（ＣＰ
Ｕ）１０は、Ｉｎｔｅｌ３８６または４８６やＰｅｎｔ
ｉｕｍマイクロプロセッサなどのＣＩＳＣマイクロプロ
セッサ、あるいはＩＢＭＰｏｗｅｒＰＣマイクロプロ
セッサなどのＲＩＳＣマイクロプロセッサでよい。ＣＰ
Ｕ１０は、システム・バス１２に接続され、システム・
バス１２には、ランダム・アクセス・メモリ（ＲＡＭ）
１４と、読み取り専用メモリ（ＲＯＭ）１６と、入出力
アダプタ１８と、ユーザ・インタフェース・アダプタ２
２が接続される。ＲＡＭ１４は、アプリケーション・プ
ログラム・コードおよびデータ用の一時記憶域を提供す
る。一方、ＲＯＭ１６は、一般に基本入出力（ＢＩＯ
Ｓ）コードを含む。入出力アダプタ１８は、１つまたは
複数の直接アクセス記憶装置（ＤＡＳＤ）に接続され
る。ＤＡＳＤは図ではディスク・ドライブ２０として表
されている。ディスク・ドライブ２０は、一般にコンピ
ュータのオペレーティング・システム（ＯＳ）および様
々なアプリケーション・プログラムを格納する。これら
はシステム・バス１２を経由してＲＡＭ１４に選択的に
ロードされる。入出力アダプタ１８は、たとえばＩＤＥ
インタフェース基準やＳＣＳＩ基準などをサポートする
ことができる。前者の場合、入出力アダプタ１８は、一
般にドライブ「Ｃ：」および「Ｄ：」と呼ばれる２つの
ディスク・ドライブを同時にサポートすることになる。
後者の場合、入出力アダプタ１８は、デイジー・チェー
ンによって接続されたディスク・ドライブを最高９個ま
でサポートすることになる。ユーザ・インタフェース・
アダプタ２２には、キーボード２４、マウス２６、スピ
ーカ２８、マイクロフォン３２、またはタッチ・スクリ
ーン装置など（図示せず）その他のユーザ・インタフェ
ース装置あるいはそれらの組合せが接続される。タッチ
・スクリーン装置は、任意選択で表示装置３８にインス
トールされる。表示装置３８は図ではＣＲＴ表示装置と
して表されているが、液晶表示装置（ＬＣＤ）でもよ
い。表示装置３８は、表示装置アダプタ３６を介してシ
ステム・バス１２に接続される。通信アダプタ３４は、
システム・バス１２およびＩＢＭトークン・リングＬＡ
ＮなどのＬＡＮに接続する。

【００１３】図２に示すように、ＬＡＮとは、パーソナ
ル・コンピュータおよびその他のコンピュータ装置が、
資源を共有でき、ＬＡＮ内部でデータおよび情報を転送
できるように構成されたシステムである。図のように、
ＬＡＮは一般に、少なくとも１つのサーバ１００および
１１０と、しばしば複数のリクエスタ１２０および１３
０を含む。サーバとは、周辺装置とネットワークの間の
インタフェースを提供する装置である。サーバには、デ
ータ、印刷、通信、ミラー、ゲートウェイを含めて、様
々な種類のものがある。図２に示すように、ＬＡＮＥ
ＸＰＥＲＴは、ＬＡＮ用の問題判別システムである。Ｌ
ＡＮＥＸＰＥＲＴは、ＬＡＮＥＸＰＥＲＴサーバ１
００と、ＬＡＮＥＸＰＥＲＴエージェント１１０、１
２０、１３０からなる。これらのエージェントは、ＬＡ
Ｎサーバおよびリクエスタにインストールされ、その状
態を監視する。ＬＡＮサーバおよびリクエスタがエラー
・メッセージを発行すると、ＬＡＮＥＸＰＥＲＴエー
ジェントがエラー・メッセージを受け取り、ＬＡＮＥ
ＸＰＥＲＴサーバに送る。リクエスタ１２０および１３
０は、ＬＡＮＥＸＰＥＲＴエージェントである。ＬＡ
ＮＥＸＰＥＲＴサーバは、ＬＡＮＥＸＰＥＲＴエー
ジェントからエラー・メッセージを受け取る。ＬＡＮ
ＥＸＰＥＲＴサーバは、推論エンジンと、知識ベース
と、知識ベース・エディタやグラフィカル・ユーザ・イ
ンタフェースなどその他の構成要素とを含む。以上は、
エラー・メッセージの分析および相関を行い、ユーザに
問題を報告するものであり、下記で詳述する。

【００１４】前記の通り、サーバ間、またはサーバと周
辺装置との間の通信およびデータ転送によって、しばし
ばエラー事象が起こる。事象相関／問題判別システム
は、問題を診断するためにＬＡＮシステムで使用される
方法である。このシステムは、エキスパート・システム
・モデルを使用するものであり、人工知能技術を使用し
て実施することが好ましい。当然のことながら、エキス
パート・システムとは、当分野の専門家である人間と同
じように情報の処理および機能の実行を行うシステムで
ある。エキスパート・システムは、知識ベースに格納さ
れた情報に基づいて推論を導き出す。一般的に、知識ベ
ースは、特定のアプリケーションについての人間の経験
に関する情報、およびこれまでに解決された問題のデー
タを含むデータベースである。推論エンジンは、エキス
パート・システムの構成要素でもあり、推論原理を応用
して、知識ベースに格納された情報から結論を導き出す
ために使用される。

【００１５】図３に示すように、事象相関／問題判別シ
ステムは、推論エンジン１４０と知識ベース１５０から
なり、エラー事象１６０の処理および評価を行う。知識
ベースは、エラー・メッセージと可能な原因の間の因果
関係を含む。ユーザは、知識ベース・エディタを使って
知識ベースの修正および拡張を行うことができる。推論
エンジンは、知識ベースの中にある知識を読み取り、そ
の知識を使用して入力エラー事象を処理し、可能な原因
を診断する。推論エンジンが情報の処理を終了すると、
問題レポート１７０が作成される。これについては下記
で詳述する。

【００１６】本発明において、事象とは、サーバ、デー
タベース・マネージャ、通信マネージャなどの装置から
推論エンジンに送られる通知である。１つの事象は、少
なくともエラー・メッセージと報告マシンと事象作成時
間の、３つのエンティティからなる。必要に応じてその
他のエンティティを含むこともできる。

【００１７】上記の通り、エラー・メッセージは事象の
一部であり、問題に遭遇したときにＬＡＮサーバやリク
エスタなどの装置から発行される。装置のエージェン
ト、具体的にはＬＡＮＥＸＰＥＲＴが、エラー・メッ
セージを受け取って、ＬＡＮＥＸＰＥＲＴサーバに送
る。一般的に、エラー・メッセージは英数字の識別と問
題を簡単に記述したテキスト部分とからなる。テキスト
部分は変数を含むこともでき、実行時にその値が与えら
れる。実際の値を有する変数を持つメッセージは、イン
スタンス化メッセージと呼ばれる。非インスタンス化メ
ッセージは、総称メッセージと呼ばれる。

【００１８】本発明において、原因とは、何かが機能し
ない根本的な理由であり、システムの修復しなければな
らない部分である。原因は、変数を含むことのできる言
語記述からなる。たとえば、典型的な原因として「ファ
イルＸが壊れている」というものがある。壊れたファイ
ルの識別は実行時に判別される。原因は、総称的なもの
でもインスタンス化されたものでもよい。さらに、原因
は、問題の所在位置に関する情報をまったく含まない。
したがって、所在位置が突き止められた原因が、マシン
と対にされる。

【００１９】最後に、問題報告は、推論エンジンの診断
による情報を含む。その情報には、１つまたは複数の原
因と、１つまたは複数の原因に関する１組の事象と、問
題を修復するために推奨される処置が含まれる。

【００２０】上記のような原因とエラー・メッセージの
関係は、限定複数障害手法に基づいている。この手法で
は、エラー・メッセージＭが受け取られた場合に、Ｍに
よって示される１つの障害のみが真である可能性があ
る。言い換えると、１つのエラー・メッセージのすべて
の原因は互いに排他的かつ網羅的である。さらに、複数
障害が、サーバ、リクエスタ、またはコンピュータ・シ
ステムで起こりうるが、これらは同一のエラー・メッセ
ージに関連するものではない。

【００２１】限定複数障害手法の確率による表示は以下
のとおりである

【数１】Ｐ（Ｃ（ｉ）^*（Ｃ（ｋ）｜Ｍ）＝１かつＰ（１）．．．．．Ｃ（ｎ）｜Ｍ＝１

【００２２】これらの方程式において、｛Ｃ
（１）、．．．、Ｃ（ｎ）｝は、Ｍのすべての可能な障
害の集合であり、Ｃ（ｉ）およびＣ（ｋ）は、そのよう
な障害のうちの任意の２つである。エラー・メッセージ
および原因は変数を含むことができるので、｛Ｃ
（１）、．．．、Ｃ（ｎ）｝は、すべての可能なインス
タンス化された原因を含むと仮定する。

【００２３】原因とエラー・メッセージを関連させる方
法を、擬似コードによって以下に記述する。

【００２４】ＬＯＯＰ｛事象Ｅを受け取る；Ｓ＝｛Ｓ（ｉ），．．．，Ｓ（ｍ）｝と置く、すべて現クラスタ；ＦＯＲＳＤＯ中のすべてのクラスタＳ（ｉ）｛ＩＦＥがＳ（ｉ）と交差する；ＴＨＥＮ｛ＥがＳ（ｉ）に合併されるＩＦＳ（ｉ）に単一の障害が残っているＴＨＥＮ｛Ｓ（ｉ）を報告する；Ｓ＝Ｓ−Ｓ（ｉ）；｝；ＢＲＥＡＫ；｝｝ＩＦＥがどのクラスタとも交差しないＴＨＥＮ｛新規クラスタをＮＥＷ＿Ｓとする；ＮＥＷ＿Ｓ．ＥＶＥＮＴＳ＝｛Ｅ｝ＮＥＷ＿Ｓ．ＣＡＵＳＥＳ＝Ｅと関連するすべての原因；ＮＥＷ＿Ｓ．ＴＩＭＥ＝Ｅの作成時間；Ｓ＝Ｓ＋ＮＥＷ＿Ｓ；｝｝

【００２５】上記の擬似コードにおいて、クラスタＳ
（ｉ）は、潜在的問題の部分的診断結果を保持するデー
タ構造である。さらに、Ｓ（ｉ）．ＥＶＥＮＴＳはこの
潜在的問題に相関するエラー・メッセージの集合を含
み、Ｓ（ｉ）．ＣＡＵＳＥＳはこれらの問題に関する潜
在的候補である原因の集合を含む。

【００２６】エラー・メッセージに関連する原因と、原
因の集合Ｓ（ｉ）との交差が空でない場合、エラー・メ
ッセージＥはクラスタＳ（ｉ）と交差することに留意さ
れたい。さらに、エラー・メッセージＥは、以下のよう
にクラスタＳ（ｉ）に合併される。

【数２】Ｓ（ｉ）．ＥＶＥＮＴＳ＝Ｓ（ｉ）．ＥＶＥＮ
ＴＳ^*ＵＮＩＯＮ^*Ｅ；Ｓ（ｉ）．ＣＡＵＳＥＳ＝Ｓ（ｉ）．ＣＡＵＳＥＳ^*Ｉ
ＮＴＥＲＳＥＣＴ^*Ｅ．ＣＡＵＳＥＳ；

【００２７】ＬＡＮエキスパート・システムにおいて
は、１つの原因のみが残った場合、あるいはユーザが推
定できる時間制限に達した場合に、クラスタＳ（ｉ）が
ユーザに報告される。

【００２８】前述のとおり、クラスタは部分的診断結果
を格納するために使用されるデータ構造である。各クラ
スタは、潜在的な各問題に関する、相関する事象および
可能な原因を含む。クラスタは、固有の識別番号または
識別コードを含む。すなわち、インスタンス化事象およ
び関連事象の集合と、インスタンス化された原因または
部分的にインスタンス化された原因の集合と、クラスタ
における事象の集合のうちのある事象に関して最も早く
記録された時間とである。このデータ構造の例は、以下
のとおりである。｛データ構造ＣＬＵＳＴＥＲＣＬＵＳＴＥＲ＿ＩＤ：整数；ＥＶＥＮＴＳ：事象の集合；ＣＡＵＳＥＳ：原因の集合；ＴＩＭＥ：ＥＶＥＮＴＳ中のすべての事象の最も早い時間：｝

【００２９】事象ｅ１が受け取られたとき、推論エンジ
ンがクラスタｃ１を形成する。ｃ１．ＥＶＥＮＴはｅ１
を含み、ｃ１．ＣＡＵＳＥＳは事象ｅ１のすべての可能
な原因を含むことになる。各事象の原因は、知識ベース
内で定義される。原因中の変数は、事象によってインス
タンス化することができる。新たな事象ｅ２が受け取ら
れると、それがｃ１および他のすべてのクラスタと比較
され、ｅ２をｃ１に追加すべきかどうかが判別される。
事象をどのクラスタに入れるべきかを決定する方法を、
擬似コードによって以下に記述する。

【００３０】ＪＯＩＮ（ＣＬＵＳＴＥＲｃ１．ＥＶＥＮＴｅ２）｛ＳＥＴｃａｕｓｅ＿ｓｅｔ＝｛｝／^*原因集合は原因の集合を含み、最初は空^*／ｃａｕｓｅ＿ｓｅｔ＝ｉｎｔｅｒｓｅｃｔｉｏｎ（ｃ１．ｃａｕｓｅｓ，ｅ２．ｃａｕｓｅｓ）；ｉｆ原因集合が空でないｔｈｅｎ／^* ｅ２がｃ１．と交差しｅ２がｃ１と合併する； ^*／｛ｃ１．ＣＡＵＳＥＳ＝ｃａｕｓｅ＿ｓｅｔ；ｃ１．ＥＶＥＮＴＳ＝ｃ１．ＥＶＥＮＴＳ．ｕｎｉｏｎ．ｅ２；ｃ１．ＴＩＭＥ＝ｃ１．ＥＶＥＮＴＳ中の事象の最も早い時間；（ＴＲＵＥ）を戻す；｝ｅｌｓｅ（ＦＡＬＳＥ）を戻す；｝

【００３１】知識ベースに定義されたとおり、ｅ２．Ｃ
ＡＵＳＥＳはｅ２の可能なすべての原因を含むことに留
意されたい。さらに、呼び出された交差手順は、当業者
なら理解するように１組の交差操作である。

【００３２】図に示すとおり、ｅ２およびｃ１の原因の
交差が空でない場合は、事象ｅ２はクラスタｃ１と合併
する。そうでない場合は、ｅ２は自らのクラスタを形成
する。クラスタ内の事象の数が増えるにつれ、原因の数
が減り、変数がインスタンス化される。クラスタが完全
にインスタンス化された原因を１つだけ含むようになっ
たとき、すぐに診断の結論に達する。その結論はｃ１．
ＣＡＵＳＥＳに残された問題の原因を反映するので、こ
の原因がｃ１．ＥＶＥＮＴにおけるすべての事象の発行
を引き起こしたと判定される。このデータ構造に含まれ
る情報が推論エンジンに提供され、問題報告が作成でき
るようになる。

【００３３】図４は、原因および事象をクラスタにする
方法を図示した流れ図である。最初に、事象を受け取る
（３００）。その後、ループに入り、事象の原因をクラ
スタの原因と比較して、交差するかどうかを判別する。
ブロック３１０で、まず、既存のクラスタ集合から次の
クラスタＳを得る。クラスタがもうない場合は、新たな
クラスタを作成し（３４０）、処理は終了する。クラス
タがまだある場合は、事象とクラスタの原因との交差が
空であるかどうかを判別する（３２０）。空である場合
は、ブロック３１０に戻ってこのループを続行する。交
差が空でない場合は、その事象がクラスタＳと合併され
る（３３０）。最後に処理が終了する。

【００３４】図５は、推論エンジンによる事象の分析お
よび処理の流れ図である。推論エンジンは、エラーが２
００に到着した順にエラー事象を受け取る。各エラー事
象ごとに、知識ベースを呼び出してエラー・メッセージ
を識別する。エラー・メッセージが認識されると、可能
な原因に関する情報を取り出して事象に付加する。

【００３５】その後、入力エラー・メッセージをすでに
受け取った他の事象と比較して、反復するエラー・メッ
セージを除外する（２１０）。その後、エラー・メッセ
ージの分析を行って、そのメッセージが他のメッセージ
によってトリガまたはセットオフされるかどうかを判別
する（２２０）。そうであれば、すでに受け取ったエラ
ー・メッセージを調べて、トリガするメッセージが到着
しているか否かを判別する。トリガするメッセージが到
着している場合は、新規エラー・メッセージは無視され
る。そうでない場合は、推論エンジンは、エラー・メッ
セージが通常のエラー・メッセージとして処理されるま
で、指定可能な時間枠だけ待つことになる。この時点
で、入力エラー・メッセージを、クラスタと称する既存
の診断用問題と比較して、入力エラー・メッセージがク
ラスタ内のすべてのエラー・メッセージと共通の原因を
共有しているかどうかを判別する（２３０）。共通する
原因がある場合は、新規エラー・メッセージは既存のク
ラスタに合併される。そうでない場合は、新規診断用問
題用の新規クラスタが作成されることになる。クラスタ
構造に関するより詳細な説明は後で行う。推論エンジン
は、エラー・メッセージをクラスタにする方法を決定す
るだけでなく、エラー・メッセージと原因の対が条件を
満たすかどうかをも判別する（２４０）。そうであれ
ば、その条件が評価されるまで、ユーザが構成できる時
間枠の間処理が中断される。次にクラスタ内の原因を評
価して、クラスタ内の１つの原因が他の原因を暗示する
かどうかを判別する（２５０）。そうであれば、暗示さ
れる原因は削除される。最後に、クラスタに完全にイン
スタンス化された１つの原因が残っていれば、問題報告
が作成されることになる。問題報告は、クラスタ中で相
関するすべてのメッセージと、原因と、原因を修復する
ための推奨される処理とに関する情報を提供する。その
後、受け取りステップに戻る。

【００３６】推論エンジンは、クラスタの状況も検討す
る。クラスタは、ユーザが構成できる「ｐｒｏｂｌｅｍ
＿ｌｉｆｅ＿ｔｉｍｅ」と名付けられる時間枠の間維持
される。「ｐｒｏｂｌｅｍ＿ｌｉｆｅ＿ｔｉｍｅ」が満
了すると、クラスタは記憶域から削除される。また、問
題報告について設定できる時間には上限がある。「ｃｌ
ｕｓｔｅｒ＿ｍａｘ＿ｔｉｍｅ」の満了時にクラスタに
複数の原因が残っていた場合、複数の原因について問題
報告が作成されることになる。エラー事象をクラスタに
合併できるのは、問題報告が作成された後であることに
留意されたい。しかも「ｐｒｏｂｌｅｍ＿ｌｉｆｅ＿ｔ
ｉｍｅ」の満了前でなければならない。新規事象は、報
告された問題に関する追加情報を提供する。新規エラー
・メッセージの情報は、別に作成される問題報告「ｌａ
ｔｅ＿ｐｒｏｂｌｅｍ＿ｒｅｐｏｒｔ」に含まれること
になる。「ｌａｔｅ＿ｐｒｏｂｌｅｍ＿ｒｅｐｏｒｔ」
は、元の問題報告と同じ問題識別番号を持つ。

【００３７】このエラー・マネージャ・システムの設計
および構造は、維持、拡張および検証が容易であること
に留意されたい。さらに、エラー・マネージャの設計は
きわめて効率的である。特定のエラー事象を伴う問題の
発見、解明および変更が容易である。というのは、ある
事象に関するすべての知識、その回復作業、およびメッ
セージを知識ベース中で見つけることができるからであ
る。さらに、知識ベースは、新規エラー・メッセージを
容易にシステムに追加することができる。知識ベース
は、システムの稼働中に編集できることに留意された
い。さらに、ＬＡＮエキスパート・システムは自動的に
エラー・メッセージを相関させるので、ユーザは、エラ
ー・メッセージを分析する必要がなく、診断済みの問題
を受け取ることになる。

【００３８】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００３９】（１）１つまたは複数のＬＡＮサーバと複
数のＬＡＮリクエスタと１つのＬＡＮＥＸＰＥＲＴサー
バと複数のＬＡＮＥＸＰＥＲＴエージェントとを有
し、前記ＬＡＮＥＸＰＥＲＴサーバが、前記ＬＡＮに
接続され、かつ推論エンジンと可能な原因とエラー・メ
ッセージとの関係を含む知識ベースと問題を報告しユー
ザと対話するためのユーザ・インタフェースとを含み、
ＬＡＮＥＸＰＥＲＴエージェントが、ＬＡＮサーバお
よびＬＡＮリクエスタの状況を監視するためにＬＡＮサ
ーバおよびＬＡＮリクエスタにインストールされてい
る、ローカル・エリア・ネットワーク（ＬＡＮ）におけ
るエラー事象を管理する限定複数障害管理方法におい
て、ＬＡＮＥＸＰＥＲＴエージェントによって、それ
がインストールされているＬＡＮサーバまたはＬＡＮリ
クエスタから発行されたエラー・メッセージを受け取
り、そのエラー・メッセージを前記ＬＡＮＥＸＰＥＲ
Ｔサーバに送るステップと、ＬＡＮＥＸＰＥＲＴサー
バによって、すべてのＬＡＮＥＸＰＥＲＴエージェン
トから送られたエラー・メッセージを受け取り、受け取
られたエラー・メッセージがＬＡＮＥＸＰＥＲＴサー
バの推論エンジンによって診断される事象となるステッ
プと、ＬＡＮＥＸＰＥＲＴサーバの推論エンジンによ
って、受け取ったエラー・メッセージに関する事象クラ
スタを形成し、クラスタが相関する事象と可能な原因と
を含む部分的診断結果を保持するデータ構造であり、事
象と原因がいずれも関連する変数を持つことができるス
テップと、推論エンジンによって、知識ベースでの定義
によれば受け取ったエラー・メッセージに対応する事象
に関するすべての関連する原因を取り出すために、ＬＡ
ＮＥＸＰＥＲＴサーバの前記知識ベースにアクセスし、
原因の変数が事象によってインスタンス化される可能性
があるステップと、ＬＡＮＥＸＰＥＲＴサーバの推論
エンジンによって、後続のエラー・メッセージを事象ク
ラスタおよびその他のクラスタと比較して、後続の事象
をクラスタに合併すべきか否かを判別するステップと、
ＬＡＮＥＸＰＥＲＴサーバの推論エンジンによって、
後続の事象の原因とあるクラスタの原因の数学的交差が
空でない場合は、後続の事象をそのクラスタに合併し、
そうでない場合は、推論エンジンによって、前記後続の
事象用の新規事象クラスタを作成し、その際に、推論エ
ンジンによってクラスタに合併される事象が増えるほど
原因の数が減少し、変数がインスタンス化され、クラス
タが完全にインスタンス化された１つの原因しか含まな
くなったときに診断の結論に達するステップと、ＬＡＮ
ＥＸＰＥＲＴサーバのユーザ・インタフェースによっ
て、推論エンジンが生成した診断情報を報告するステッ
プとを含む方法。（２）前記原因および前記事象がそれ自体に関連するイ
ンスタンス化変数を有する場合、前記合併ステップが前
記変数の数学的交差の計算を含み、前記変数の前記交差
が空でない場合は、前記事象が前記クラスタに合併され
ることを特徴とする、上記（１）に記載の方法。（３）ローカル・エリア・ネットワーク（ＬＡＮ）にお
けるエラー事象の限定複数障害管理用の診断システムに
おいて、複数のＬＡＮリクエスタと、１つのＬＡＮサー
バが複数のＬＡＮリクエスタにサービスを提供する、１
つまたは複数のＬＡＮサーバと、前記ＬＡＮに接続さ
れ、推論エンジンと可能な原因とエラー・メッセージの
関係を含む知識ベースと問題を報告しユーザと対話する
ためのユーザ・インタフェースとを含むＬＡＮＥＸＰ
ＥＲＴサーバと、ＬＡＮサーバおよびＬＡＮリクエスタ
上にインストールされ、前記ＬＡＮサーバおよびＬＡＮ
リクエスタの状況を監視する、複数のＬＡＮＥＸＰＥ
ＲＴエージェントとを備え、前記ＬＡＮＥＸＰＥＲＴ
エージェントが、それがインストールされているＬＡＮ
サーバまたはＬＡＮリクエスタから発行されたエラー・
メッセージを受け取って、そのエラー・メッセージをＬ
ＡＮＥＸＰＥＲＴサーバに送り、前記ＬＡＮＥＸＰ
ＥＲＴサーバが、すべてのＬＡＮＥＸＰＥＲＴエージ
ェントから送られたエラー・メッセージを受け取り、受
け取られたエラー・メッセージがＬＡＮＥＸＰＥＲＴ
サーバの推論エンジンによって診断される事象であり、
ＬＡＮＥＸＰＥＲＴサーバの前記推論エンジンが、受
け取られたエラー・メッセージに関する事象クラスタを
形成し、クラスタは相関する事象と可能な原因とを含む
部分的診断結果を保持するデータ構造であり、事象と原
因がいずれもそれ自体に関連する変数を有することがで
き、前記推論エンジンが、前記知識ベースでの定義によ
れば受け取られたエラー・メッセージに対応する事象に
関するすべての関連する原因を取り出すために、ＬＡＮ
ＥＸＰＥＲＴサーバの知識ベースにアクセスし、原因
の変数が前記事象によってインスタンス化される可能性
があり、ＬＡＮＥＸＰＥＲＴサーバの前記推論エンジ
ンが、次のエラー・メッセージを事象クラスタおよびそ
の他のクラスタと比較して、後続事象をクラスタに合併
すべきかどうかを判別し、前記推論エンジンが、後続の
事象の原因とクラスタの原因の数学的交差が空でない場
合は、後続の事象をクラスタに合併し、そうでない場合
は、前記推論エンジンが後続の事象用の新規事象クラス
タを形成し、その際に、推論エンジンによってクラスタ
に合併される事象が増えるほど原因の数が減少し、変数
がインスタンス化され、クラスタが完全にインスタンス
化された１つの原因しか含まなくなったときに診断の結
論に達し、前記ＬＡＮＥＸＰＥＲＴサーバの前記ユー
ザ・インタフェースが、前記推論エンジンによって生成
された診断情報を報告することを特徴とする、診断シス
テム。

【図面の簡単な説明】

【図１】本発明をそこで実施できるハードウェア構成を
示すブロック図である。

【図２】ＬＡＮシステムの例を示す図である。

【図３】ＬＡＮシステム用として実施されたエラー管理
システムの高レベル概略図である。

【図４】原因および事象をクラスタにする方法を示す流
れ図である。

【図５】エラー事象の分析および相関を行い、回復処置
を提供する方法を示す流れ図である。

【符号の説明】

１０中央演算処理装置（ＣＰＵ）１２システム・バス１４ランダム・アクセス・メモリ（ＲＡＭ）１６読み取り専用メモリ（ＲＯＭ）１８入出力アダプタ２０ディスク・ドライブ２２ユーザ・インタフェース・アダプタ２４キーボード２６マウス２８スピーカ３４通信アダプタ３６表示装置アダプタ３８表示装置

───────────────────────────────────────────────────── フロントページの続き (72)発明者ジョゼフ・シロアクイスラエルキリアト・ティヴオンコロンバス・ストリート 44 (72)発明者アムノン・リヴァクイスラエルミスガヴユヴァリン 251 (72)発明者ユアンゲン・ホアンアメリカ合衆国78727 テキサス州オースチンブレイディッド・ロープ・ドライブ 1431

Claims

【特許請求の範囲】

【請求項１】１つまたは複数のＬＡＮサーバと複数のＬ
ＡＮリクエスタと１つのＬＡＮＥＸＰＥＲＴサーバと
複数のＬＡＮＥＸＰＥＲＴエージェントとを有し、前
記ＬＡＮＥＸＰＥＲＴサーバが、前記ＬＡＮに接続さ
れ、かつ推論エンジンと可能な原因とエラー・メッセー
ジとの関係を含む知識ベースと問題を報告しユーザと対
話するためのユーザ・インタフェースとを含み、ＬＡＮ
ＥＸＰＥＲＴエージェントが、ＬＡＮサーバおよびＬ
ＡＮリクエスタの状況を監視するためにＬＡＮサーバお
よびＬＡＮリクエスタにインストールされている、ロー
カル・エリア・ネットワーク（ＬＡＮ）におけるエラー
事象を管理する限定複数障害管理方法において、ＬＡＮＥＸＰＥＲＴエージェントによって、それがイ
ンストールされているＬＡＮサーバまたはＬＡＮリクエ
スタから発行されたエラー・メッセージを受け取り、そ
のエラー・メッセージを前記ＬＡＮＥＸＰＥＲＴサー
バに送るステップと、ＬＡＮＥＸＰＥＲＴサーバによって、すべてのＬＡＮ
ＥＸＰＥＲＴエージェントから送られたエラー・メッ
セージを受け取り、受け取られたエラー・メッセージが
ＬＡＮＥＸＰＥＲＴサーバの推論エンジンによって診
断される事象となるステップと、ＬＡＮＥＸＰＥＲＴサーバの推論エンジンによって、
受け取ったエラー・メッセージに関する事象クラスタを
形成し、クラスタが相関する事象と可能な原因とを含む
部分的診断結果を保持するデータ構造であり、事象と原
因がいずれも関連する変数を持つことができるステップ
と、推論エンジンによって、知識ベースでの定義によれば受
け取ったエラー・メッセージに対応する事象に関するす
べての関連する原因を取り出すために、ＬＡＮＥＸＰＥ
ＲＴサーバの前記知識ベースにアクセスし、原因の変数
が事象によってインスタンス化される可能性があるステ
ップと、ＬＡＮＥＸＰＥＲＴサーバの推論エンジンによって、
後続のエラー・メッセージを事象クラスタおよびその他
のクラスタと比較して、後続の事象をクラスタに合併す
べきか否かを判別するステップと、ＬＡＮＥＸＰＥＲＴサーバの推論エンジンによって、
後続の事象の原因とあるクラスタの原因の数学的交差が
空でない場合は、後続の事象をそのクラスタに合併し、
そうでない場合は、推論エンジンによって、前記後続の
事象用の新規事象クラスタを作成し、その際に、推論エ
ンジンによってクラスタに合併される事象が増えるほど
原因の数が減少し、変数がインスタンス化され、クラス
タが完全にインスタンス化された１つの原因しか含まな
くなったときに診断の結論に達するステップと、ＬＡＮＥＸＰＥＲＴサーバのユーザ・インタフェース
によって、推論エンジンが生成した診断情報を報告する
ステップとを含む方法。
【請求項２】前記原因および前記事象がそれ自体に関連
するインスタンス化変数を有する場合、前記合併ステッ
プが前記変数の数学的交差の計算を含み、前記変数の前
記交差が空でない場合は、前記事象が前記クラスタに合
併されることを特徴とする、請求項１に記載の方法。
【請求項３】ローカル・エリア・ネットワーク（ＬＡ
Ｎ）におけるエラー事象の限定複数障害管理用の診断シ
ステムにおいて、複数のＬＡＮリクエスタと、１つのＬＡＮサーバが複数のＬＡＮリクエスタにサービ
スを提供する、１つまたは複数のＬＡＮサーバと、前記ＬＡＮに接続され、推論エンジンと可能な原因とエ
ラー・メッセージの関係を含む知識ベースと問題を報告
しユーザと対話するためのユーザ・インタフェースとを
含むＬＡＮＥＸＰＥＲＴサーバと、ＬＡＮサーバおよびＬＡＮリクエスタ上にインストール
され、前記ＬＡＮサーバおよびＬＡＮリクエスタの状況
を監視する、複数のＬＡＮＥＸＰＥＲＴエージェント
とを備え、前記ＬＡＮＥＸＰＥＲＴエージェントが、それがイン
ストールされているＬＡＮサーバまたはＬＡＮリクエス
タから発行されたエラー・メッセージを受け取って、そ
のエラー・メッセージをＬＡＮＥＸＰＥＲＴサーバに
送り、前記ＬＡＮＥＸＰＥＲＴサーバが、すべてのＬＡＮ
ＥＸＰＥＲＴエージェントから送られたエラー・メッセ
ージを受け取り、受け取られたエラー・メッセージがＬ
ＡＮＥＸＰＥＲＴサーバの推論エンジンによって診断
される事象であり、ＬＡＮＥＸＰＥＲＴサーバの前記推論エンジンが、受
け取られたエラー・メッセージに関する事象クラスタを
形成し、クラスタは相関する事象と可能な原因とを含む
部分的診断結果を保持するデータ構造であり、事象と原
因がいずれもそれ自体に関連する変数を有することがで
き、前記推論エンジンが、前記知識ベースでの定義によれば
受け取られたエラー・メッセージに対応する事象に関す
るすべての関連する原因を取り出すために、ＬＡＮＥ
ＸＰＥＲＴサーバの知識ベースにアクセスし、原因の変
数が前記事象によってインスタンス化される可能性があ
り、ＬＡＮＥＸＰＥＲＴサーバの前記推論エンジンが、次
のエラー・メッセージを事象クラスタおよびその他のク
ラスタと比較して、後続事象をクラスタに合併すべきか
どうかを判別し、前記推論エンジンが、後続の事象の原因とクラスタの原
因の数学的交差が空でない場合は、後続の事象をクラス
タに合併し、そうでない場合は、前記推論エンジンが後
続の事象用の新規事象クラスタを形成し、その際に、推
論エンジンによってクラスタに合併される事象が増える
ほど原因の数が減少し、変数がインスタンス化され、ク
ラスタが完全にインスタンス化された１つの原因しか含
まなくなったときに診断の結論に達し、前記ＬＡＮＥＸＰＥＲＴサーバの前記ユーザ・インタ
フェースが、前記推論エンジンによって生成された診断
情報を報告することを特徴とする、診断システム。