JP5027301B2 - 計算機システムにおける情報収集方法、その方法を用いる管理計算機、及び計算機システム - Google Patents
計算機システムにおける情報収集方法、その方法を用いる管理計算機、及び計算機システム Download PDFInfo
- Publication number
- JP5027301B2 JP5027301B2 JP2010514391A JP2010514391A JP5027301B2 JP 5027301 B2 JP5027301 B2 JP 5027301B2 JP 2010514391 A JP2010514391 A JP 2010514391A JP 2010514391 A JP2010514391 A JP 2010514391A JP 5027301 B2 JP5027301 B2 JP 5027301B2
- Authority
- JP
- Japan
- Prior art keywords
- event
- detected
- events
- polling
- management computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 122
- 238000004891 communication Methods 0.000 claims description 22
- 230000015654 memory Effects 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 117
- 238000001514 detection method Methods 0.000 description 101
- 238000007726 management method Methods 0.000 description 92
- 230000008569 process Effects 0.000 description 47
- 238000010586 diagram Methods 0.000 description 30
- 238000011867 re-evaluation Methods 0.000 description 28
- 230000006870 function Effects 0.000 description 12
- 230000003936 working memory Effects 0.000 description 11
- 230000000737 periodic effect Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 230000003111 delayed effect Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0709—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0681—Configuration of triggering conditions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/22—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks comprising specially adapted graphical user interfaces [GUI]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Debugging And Monitoring (AREA)
Description
一般的に、推論処理を実現する手段として、ルールベースシステム(プロダクションシステム)がある。ルールベースシステムについては、例えば、特開平9−258983号公報及びFrederick Hayes−Roth,“Rule−based systems”,Communications of ACM,Volume 28,Issue 9(September 1985),Pages:921−932(以下、Hayes−Roth)に記載されている。
計算機システムの運用を管理するための運用管理システムにおいて、検出した障害情報に基づいて、ルールベースによる根本原因の推論処理を行なうことで、RCA機能を実現することが可能となる。
また、米国特許出願公開第2006/120,292号明細書には、推論処理において、通常時は基本情報しか収集せず、問題発生時に詳細情報を収集する方法が記載されている。具体的には、通常観測情報と追加観測情報のペアが予め定義され、通常観測で障害を検出した際に、それに対応する追加観測情報の収集が実行される。これによって、通常観測の結果のみから求めた推論結果より精度の高い推論結果が得られる。
特開2004−178336号公報には、監視対象機器から収集した稼動データと、障害発生のイベント情報とに基づいて、障害解析に必要な稼動データを特定し、障害解析を実行する方法が記載されている。
米国特許第7,069,480号明細書には、RCAを用いて問題点を検出・確認した際に、各デバイスに警告を通知する方法が記載されている。米国特許第7,069,480号明細書では、障害を検出した際に、その障害が検出された機器から、確認のための情報を収集する方法も記載されている。
例えば、以下のルールを定義したと仮定する。
if E1 & E2 then X
上記のルールのうち、例えばE1,E2及びXは、以下の事象(イベント)及び結論である。
E1:コンピュータAで論理ディスク障害が発生
E2:ストレージ装置Aでディスク障害が発生
X:根本原因はストレージ装置Aのディスク障害
この場合、E1(コンピュータAの論理ディスク障害)と、E2(ストレージ装置Aのディスク障害)との両方を検出できた時点で初めて、X(根本原因はストレージ装置Aのディスク障害)という推論結果が確定する。すなわち、E1又はE2のどちらか一方の障害イベントのみが検出された時点では、推論結果が確定しない。
すなわち、ルールベースシステムを用いた推論処理が確定するには、if条件文に定義した全ての条件が成立しなければならない。
ところで、運用管理システムでは、管理対象機器の状態情報又は性能情報を収集する方式として、各管理対象機器に情報収集プログラムを配布するエージェント方式と、情報収集プログラムを配布しないエージェントレス方式とがある。エージェントレス方式の場合、運用管理システム側が各管理対象機器に対して、一定間隔ごとにネットワーク経由で情報収集のためのポーリングを行なう。この一定間隔は、一般的に、数分から十数分である。また、各機器に対して順番にポーリングが実行されるため、実際にポーリングが実行される時刻が機器ごとに異なる。
そのため、上記のルールの例では、コンピュータAの論理ディスク障害が検出された後、ストレージ装置Aに対するポーリングが実行され、ストレージ装置Aの障害イベントが発生するまで、推論結果が確定しないという問題がある。特に、ストレージ装置Aに対するポーリングが終了した直後に、ストレージ装置Aでディスク障害が発生した場合、次回の定時ポーリング(すなわち定期的な情報収集のためのポーリング)によって障害イベントが検出されるまで推論結果は確定しない。すなわち、数分から十数分の間、推論結果が確定しない場合がある。
一方、エージェント方式においても、各機器に配布された情報収集プログラムの定期監視処理が実行されるタイミングの差によって、同様の問題が発生する場合がある。
Hayes−Rothの方法を用いることで、ルールベースシステムを用いたRCAの推論処理が可能となるものの、現在未検出の障害に対する情報取得の方法に関しては、Hayes−Rothに何ら記されてない。すなわち、現在未検出の障害は、次回の定時ポーリングのタイミングまで検出することができないため、推論結果を確定するのが遅れるという問題がある。
米国特許出願公開第2006/120,292号明細書の方法を用いることで、通常時はネットワーク負荷を軽減しながら、障害発生時には精度の高い推論結果を得る推論処理が可能となる。しかしながら、現在未検出の障害は、次回の定時ポーリングのタイミングまで検出することができないため、推論結果を確定するのが遅れるという問題がある。
同様に、特開2004−178336号公報の方法を用いることで、管理対象機器の稼動データのうち、障害解析に必要な稼動データを特定することが可能となる。しかしながら、現在未検出の障害は、次回の定時ポーリングのタイミングまで検出することができない。
また、米国特許第7,069,480号明細書の方法を用いることで、障害を検出した際、該検出した機器に対して、確認のため情報収集を行なうことが可能となる。しかしながら、関連する機器のうち、現在未検出の障害は、次回の定時ポーリングのタイミングまで検出することができない。
本発明の目的は、RCA等のルールベースの推論処理機能を備えた運用管理システムにおいて、障害等の問題点を検出した際に、次回の定時ポーリングのタイミングまで待たずに、素早く推論結果を確定する方法、又は、推論結果の精度を素早く向上する方法を提供することである。
本願で開示する代表的な発明は、複数の機器を備える計算機システムを管理するための情報を収集する方法であって、前記複数の機器には、管理計算機が接続され、前記複数の機器は、少なくとも一つの計算機を含み、前記管理計算機は、前記各計算機に接続される第1通信装置と、前記第1通信装置に接続される第1プロセッサと、前記第1プロセッサに接続される第1メモリと、を備え、前記各計算機は、前記管理計算機に接続される第2通信装置と、前記第2通信装置に接続される第2プロセッサと、前記第2プロセッサに接続される第2メモリと、を備え、前記管理計算機には、各々が前記複数の機器において検出される複数の事象を含む一つ以上の事象集合と、前記各事象集合に含まれる前記一つ以上の事象がすべて検出された場合に出力される結論と、を対応付けるルール情報が保持され、前記一つ以上の事象集合は、第1の複数の事象を含む第1事象集合を含み、前記ルール情報は、前記第1事象集合と、前記第1事象集合に含まれる前記第1の複数の事象がすべて検出された場合に出力される第1結論と、を対応付ける第1ルールを含み、前記方法は、前記管理計算機が、前記第1の複数の事象の各々が検出されたか否かを示す情報を取得するためのポーリングを第1間隔で実行する第1手順と、前記管理計算機が、前記ポーリングに対する応答に基づいて、前記第1の複数の事象が検出されたか否かを判定する第2手順と、前記第1の複数の事象のうち少なくとも一つが検出され、残りが検出されないと判定された場合、前記管理計算機が、次回の前記第1間隔のポーリングを実行する前に、前記検出されなかった一つ以上の事象が検出されたか否かを示す情報を取得するためのポーリングを実行する第3手順と、を含むことを特徴とする。
なお、ここでいう計算機は、プロセッサ、メモリ及び通信装置等を備えたものであり、いわゆるサーバ又はパーソナルコンピュータであってもよいし、外部ストレージ装置又はネットワークスイッチ等であってもよい。
RCA等のルールベースの推論処理機能を備えた運用管理システムにおいて、障害等の問題点が検出された場合、次回の定時ポーリングのタイミングを待たずに、素早く推論結果を確定することができる。
第2図は、本発明の第1の実施形態のワーキングメモリ中のデータの一部であるイベント状況テーブルを示す説明図である。
第3図は、本発明の第1の実施形態の事象定義テーブルのフォーマットを示す説明図である。
第4図は、本発明の第1の実施形態の結論定義テーブルのフォーマットを示す説明図である。
第5図は、本発明の第1の実施形態の検出状況管理テーブルのフォーマットを示す説明図である。
第6図は、本発明の第1の実施形態のGUI画面に表示される内容を示す説明図である。
第7図は、本発明の第1の実施形態の定期監視プログラムの処理を示すフローチャートである。
第8図は、本発明の第1の実施形態の全体情報収集プログラムの処理を示すフローチャートである。
第9図は、本発明の第1の実施形態の検出率表示プログラムの処理を示すフローチャートである。
第10図は、本発明の第1の実施形態の全検出率計算プログラムの処理を示すフローチャートである。
第11図は、本発明の第1の実施形態の再評価プログラムの処理を示すフローチャートである。
第12図は、本発明の第2の実施形態の運用管理システムの構成を示すブロック図である。
第13図は、本発明の第2の実施形態の再評価プログラムの処理を示すフローチャートである。
第14図は、本発明の第3の実施形態の運用管理システムの構成を示すブロック図である。
第15図は、本発明の第3の実施形態の事象カウントテーブルのフォーマットを示す説明図である。
第16図は、本発明の第3の実施形態の再評価プログラムの処理を示すフローチャートである。
第17図は、本発明の第4の実施形態の運用管理システムの構成を示すブロック図である。
第18図は、本発明の第4の実施形態のポーリングタスクキューのフォーマットを示す説明図である。
第19図は、本発明の第4の実施形態の再評価プログラムが実行されている途中のある時点におけるポーリングタスクキューの一例を示す説明図である。
第20図は、本発明の第4の実施形態のポーリングタスク生成プログラムの処理を示すフローチャートである。
第21図は、本発明の第4の実施形態のポーリングタスク実行プログラムの処理を示すフローチャートである。
第22図は、本発明の第4の実施形態の再評価プログラムの処理を示すフローチャートである。
第23図は、本発明の第5の実施形態の運用管理システムの構成を示すブロック図である。
第24図は、本発明の第5の実施形態の再評価プログラムが実行されている途中のある時点におけるポーリングタスクキューの一例を示す説明図である。
第25図は、本発明の第5の実施形態の再評価プログラムの処理を示すフローチャートである。
第26図は、本発明の第1の実施形態の再評価実行条件テーブルのフォーマットを示す説明図である。
第27図は、本発明の第1の実施形態の自動再評価実行プログラムの処理を示すフローチャートである。
最初に、本発明の第1の実施形態について説明する。
第1図は、本発明の第1の実施形態の運用管理システムの構成を示すブロック図である。
第1の実施形態の運用管理システムは、管理サーバ100、業務サーバA710、業務サーバB720、ストレージ装置A730及びストレージ装置B740を含んで構成される計算機システム上に実現される。
これらは、それぞれ通信装置130、通信装置713及び通信装置733等を介してLAN(ローカルエリアネットワーク)600に接続される。このLAN600を介して各装置間で、情報の参照及び設定、情報収集の命令及び収集データの転送等が行なわれる。また、業務サーバA710、業務サーバB720、ストレージ装置A730及びストレージ装置B740は、それぞれポート714及び734等を介して、SAN(ストレージエリアネットワーク)610に接続される。このSAN610を介して業務に利用されるデータが送受信される。
業務サーバA710は、例えばパーソナルコンピュータであり、CPU711、ディスク712、通信装置713、ポート714及びメモリ715等を備える。例えばハードディスクドライブ(HDD)のような記憶装置であるディスク712には、情報収集プログラム716が格納して用意される。情報収集プログラム716は、メモリ715にロードされ、CPU711によって実行される。情報収集プログラム716は、CPU711、ディスク712、通信装置713、ポート714、メモリ715等の状態情報又は性能情報を収集する。情報収集プログラム716は、上記の装置以外から状態情報等を収集してもよい。情報収集プログラム716は、業務サーバA710のOS(オペレーティング・システム)(図時省略)に標準で搭載されているものであってもよい。
業務サーバB720は、業務サーバA710と同等の機能を有する装置によって構成されるため、その詳細な図示を省略する。ただし、業務サーバB720は、業務サーバA710と異なる構成であってもよい。
ストレージ装置A730は、CPU731、ディスク732、通信装置733、ポート734、及びメモリ735等を有する。例えばHDDのような記憶装置であるディスク732には、情報収集プログラム736が格納して用意される。情報収集プログラム736は、メモリ735にロードされ、CPU731によって実行される。情報収集プログラム736は、CPU731、ディスク732、通信装置733、ポート734、メモリ735等の状態情報又は性能情報を収集する。情報収集プログラム736は、上記の装置以外から状態情報等を収集してもよい。
ストレージ装置B740は、ストレージ装置A730と同等の機能を有する装置によって構成されるため、その詳細な図示を省略する。ただし、ストレージ装置B740は、ストレージ装置A730と異なる構成であってもよい。
管理サーバ100は、例えばパーソナルコンピュータであり、CPU110、通信装置130、例えばHDDのようなディスク140、及びメモリ200等を備える。
定期監視プログラム210、全体情報収集プログラム220、事象定義テーブル250、結論定義テーブル260、ルールベースモジュール300、検出率表示プログラム410、全検出率計算プログラム420、再評価プログラム430、検出状況管理テーブル450、再評価実行条件テーブル900及び自動再評価実行プログラム920は、ディスク140に格納して用意され、プログラム実行時にメモリ200にロードされる。メモリ200にロードされた各プログラムは、CPU110によって実行される。
ルールベースモジュール300は、ルールを定義する情報を含むルールベース370、データの保存先となるワーキングメモリ310、及び、ルールインタプリタプログラム350によって構成される。ルールインタプリタプログラム350は、ルールベース370から情報を読み出し、ワーキングメモリ310をデータ保存先及びデータ読み出し元として利用することによって、推論処理を実現する。
事象定義テーブル250、結論定義テーブル260、ワーキングメモリ310、ルールベース370、検出状況管理テーブル450及び再評価実行条件テーブル900の記憶フォーマットについては詳しく後述される。
定期監視プログラム210、全体情報収集プログラム220、検出率表示プログラム410、全検出率計算プログラム420、再評価プログラム430及び自動再評価実行プログラム920の特徴的な機能や動作についても詳しく後述される。
また、管理サーバ100には、キーボード又はマウスのような入力装置、及び、情報を表示する表示装置を備える入出力端末150が接続されている。入力装置は、管理者620からの各プログラムの実行指示に関する入力に利用される。表示装置は、各処理結果の表示に利用される。表示装置には、GUI(Graphical User Interface)画面160が含まれる。
本実施形態では、業務サーバA710は、ストレージ装置A730及びストレージ装置B740のディスクボリュームを使用しており、業務サーバB720は、ストレージ装置B740のディスクボリュームを使用している。すなわち、ストレージ装置A730のディスクボリュームを使用しているのは、業務サーバA710のみである。ストレージ装置B740のディスクボリュームを使用しているのは、業務サーバA710及び業務サーバB720の二つである。
上記の業務サーバとストレージ装置との接続関係を基に、管理者620が作成したif−thenルールの例を以下に示す。
ルール1: if E1 & E3 then X
ルール2: if E1 & E2 & E4 then Y
上記のように、各ルールは、ifに続く条件文と、thenに続く結論と、を対応付ける。if条件文によって、一つ以上の事象(イベント)からなる事象の集合が定義される。この集合に含まれるすべての事象が検出された場合、そのif条件文に対応する結論が確定する。なお、事象とは、機器において観測される何らかの現象を意味し、典型的には、機器において観測される障害を意味する。なお、障害は、実行性能の劣化を含んでもよい。
具体的には、上記のルールのうち、ルール1は、事象E1及びE3がいずれも検出された場合に結論Xが導き出されることを表す。ルール2は、事象E1、E2、及びE4がいずれも検出された場合に結論Yが導き出されることを表す。これらのルールは、ルールベース370内に定義される。
また、上記定義に含まれる事象及び結論に対応する、実際の事象及び結論の例を、以下に示す。
E1:業務サーバAにおける論理ディスクエラー
E2:業務サーバBにおける論理ディスクエラー
E3:ストレージ装置Aにおけるディスク障害
E4:ストレージ装置Bにおけるディスク障害
X :根本原因は、ストレージ装置Aのディスク障害
Y :根本原因は、ストレージ装置Bのディスク障害
第2図は、本発明の第1の実施形態のワーキングメモリ310中のデータの一部であるイベント状況テーブルを示す説明図である。
イベント状況テーブルは、事象の列311及びT/Fの列312によって、各事象と、その事象の検出状況とを表している。この表は、T/Fの列312の値が”T”(True)となっている事象は検出済みであり、”F”(False)となっている事象はまだ検出されていないことを示す。第2図の例の場合、行313の事象E1のみが検出済みである。一方、行314〜行316の事象E2〜事象E4は、まだ検出されていない。
第3図は、本発明の第1の実施形態の事象定義テーブル250のフォーマットを示す説明図である。
事象定義テーブル250は、事象IDの列251、及び、その事象IDによって識別される事象に対応する事象定義の列252から成る。なお、上記の事象E1〜事象E4の事象IDは、それぞれ、「E1」〜「E4」である。
事象定義の列252には、各事象定義への参照を持つ。各参照先のデータは、例えば、IPアドレス2531、取得方法2532、ID2533、PW2534及び事象メッセージ2535から成る。第3図には、事象ID「E1」に対応する参照先のデータのみが例として表示され、他の事象IDに対応する参照先のデータは省略されている。
IPアドレス2531は、対応する事象の発生である機器のIPアドレスを定義する。
取得方法2532は、対応する事象を検出するための障害情報又は性能情報の取得方法を定義する。この取得方法は、例えば、WMI(Windows(登録商標)Management Instrumentation)のような、OS標準の障害情報又は性能情報を取得するAPIであってもよい。
ID2533及びPW2534は、上記の取得方法2532による取得処理を実行するために管理者権限の認証処理を必要とする場合に、その認証処理に使用されるID及びパスワードである。
事象メッセージ2535は、事象に対応するメッセージである。このメッセージは、対応する事象が検出された場合に、入出力端末150の表示装置に表示されてもよい。
この事象定義テーブル250は、管理者620によって予め定義される。
既に説明したように、本実施形態において、業務サーバAにおける論理ディスクエラーが事象E1として定義される。このため、事象IDの列251の値「E1」に対応するIPアドレス2531〜事象メッセージ2535には、業務サーバAにおける論理ディスクエラーを検出するために使用される情報及びそれが検出された場合に表示されるメッセージ等が設定される。
第3図の例では、IPアドレス2531、取得方法2532、ID2533、PW2534及び事象メッセージ2535として、それぞれ、「111.112.113.101」、「WMI.Win32_Volume.Status」、「Administrator」、「AdminPW」及び「業務サーバAにおける論理ディスクエラー」が設定される。
これらは、業務サーバAのIPアドレスが「111.112.113.101」であり、業務サーバAにおける論理ディスクエラーがAPI「WMI.Win32_Volume.Status」によって取得され、その取得のために管理者権限の認証処理が必要であり、その認証処理のためにID「Administrator」及びパスワード「AdminPW」が使用され、事象E1が検出された場合に「業務サーバAにおける論理ディスクエラー」が表示されることを示す。
第4図は、本発明の第1の実施形態の結論定義テーブル260のフォーマットを示す説明図である。
このテーブルは、結論IDの列261、及び、結論メッセージの列262によって、結論のIDと、結論メッセージとの対応関係を表している。なお、上記の結論X及び結論Yの結論IDは、それぞれ、「X」及び「Y」である。
この結論定義テーブル260は、管理者620によって予め定義される。
既に説明したように、本実施形態において、「根本原因は、ストレージ装置Aのディスク障害」が結論Xとして、「根本原因は、ストレージ装置Bのディスク障害」が結論Yとして定義される。このため、第4図の例では、結論IDの列261の値「X」及び「Y」に対応する結論メッセージの列262に、それぞれ、結論メッセージ「根本原因は、ストレージ装置Aのディスク障害」及び「根本原因は、ストレージ装置Bのディスク障害」が設定される(それぞれ行263及び行264)。これらの結論メッセージは、後述するように、GUI画面160に表示される(第6図参照)。
第5図は、本発明の第1の実施形態の検出状況管理テーブル450のフォーマットを示す説明図である。
検出状況管理テーブル450は、結論IDの列451、結論メッセージの列452、及び、事象検出状況の列453によって、各結論に対応する事象の検出状況(すなわち、それらの事象が実際に検出されたか否か)を管理する。
列451及び列452には、それぞれ、結論ID及びその結論IDに対応する結論メッセージが設定される(行454及び行455)。
列453は、各結論IDに対応するサブデータ、例えば、結論Xに対応するサブデータ460及び結論Yに対応するサブデータ470を参照する。
サブデータ460は、事象IDの列461及び検出済の列462から構成されるテーブルと、検出率469のデータと、によって構成される。
列461及び列462には、それぞれ、結論IDに対応する事象ID、及び、その事象IDによって識別される事象が検出されたか否かを示す値が設定される。列462の値「T」及び「F」は、それぞれ、事象が検出されたこと、及び、事象がまだ検出されていないことを示す。
検出率469には、結論に対応する全事象のうち、既に検出されたものの割合を示す値が設定される。
第5図の例において、サブデータ460は、結論Xに対応する。このため、列461には、結論Xに対応する事象E1及び事象E3の事象ID「E1」及び「E3」が設定される(ルール1参照)。第5図の例では、事象E1が既に検出され、事象E3はまだ検出されていない。このため、検出率469には、2分の1すなわち「0.5」が設定される。この場合、結論Xに対応する事象の全てが検出されていない(すなわち、少なくとも一つがまだ検出されていない)ため、結論Xはまだ確定していない。
サブデータ470は、事象IDの列471及び検出済の列472から構成されるテーブルと、検出率479のデータと、によって構成される。これらは、それぞれ、サブデータ460の列461、列462及び検出率469と同様であるため、これらの詳細な説明を省略する。第5図の例において、結論Yに対応する事象E1、事象E2及び事象E4のうち、事象E1のみが既に検出されている(行473〜行475)。このため、検出率479には、3分の1すなわち「0.33」が設定される。この場合、結論Yに対応する事象の全てが検出されていない(すなわち、少なくとも一つがまだ検出されていない)ため、結論Yはまだ確定していない。
第6図は、本発明の第1の実施形態のGUI画面160に表示される内容を示す説明図である。
GUI画面160は、確定した推論結果及び未確定の推論結果の一覧を表示する画面である。具体的には、GUI画面160は、確定した推論結果表示欄161及び未確定の推論結果表示欄163を含む。さらに、GUI画面160は、表示内容更新168ボタン及び推論結果再評価169ボタンを備る。これらは、対応する処理の実行を指示するために利用される。
第6図の例は、第5図に示した例に対応する。第5図の例では、結論X及び結論Yのいずれも確定していない。このため、第6図の例では、確定した推論結果表示欄161が空欄であり(行162)、未確定の推論結果表示欄163には結論X及び結論Yに対応する結論メッセージ262の値が表示される(行164及び行165)。
管理者620は、管理サーバ100を使用して、業務サーバA710、業務サーバB720、ストレージ装置A730及びストレージ装置B740を運用する。管理者620は、管理サーバ100に対して定期監視処理の開始を指示する。また、管理者620は、管理サーバ100のGUI画面160を通して、ルールベース解析処理による推論結果をチェックし、必要であれば表示内容更新又は推論結果再評価を指示する。
この管理サーバ100が実行する定期監視処理の手順について説明する。
以下、第1図に示す運用管理システムにおいて実行される本実施形態の定期監視処理の流れについて説明する。
まず、定期監視プログラム210が管理者620によって実行される。
第7図は、本発明の第1の実施形態の定期監視プログラム210の処理を示すフローチャートである。
定期監視プログラム210は、管理者620からの終了指示を受信したか否かを判定する(ステップ211)。一般的に、管理者620からの終了指示は、管理者620が入出力端末150を用いて入力したプログラム終了指示である。ステップ211において、プログラムの終了指示を受信したと判定された場合、定期監視プログラム210は、処理を終了する。一方、ステップ211において、プログラムの終了指示を受信していないと判定された場合、次のステップ212が実行される。
ステップ212において、全体情報収集プログラム220が実行される。全体情報収集プログラム220が実行する処理については後述する(第8図参照)。
次に、定期監視プログラム210は、所定の時間(例えば15分間)WAIT処理(すなわちプログラム実行の待ち処理)を実行する(ステップ213)。この所定の時間として、15分より短い時間が設定されてもよいし、それより長い時間が設定されてもよい。
定期監視プログラム210は、ステップ213を実行した後、ステップ211に戻る。以後、終了指示を受信するまで、上記の処理が続行される。
第8図は、本発明の第1の実施形態の全体情報収集プログラム220の処理を示すフローチャートである。
全体情報収集プログラム220は、まず、事象定義テーブル250を参照することによって、事象定義の一覧を取得する(ステップ221)。
次に、全体情報収集プログラム220は、ループ開始処理(ステップ222)及びループ終了処理(ステップ225)によって、ループ処理を実行する。具体的には、事象定義テーブル250中の各行、例えば、行253〜256の各々に対して、ステップ223及びステップ224が実行される。
ステップ223において、全体情報収集プログラム220は、事象に対応する管理対象機器に対して情報収集のためのポーリングを行なう。具体的には、事象定義テーブル250中の要素(例えば行253)に対応するIPアドレス(例えばIPアドレス2531)に対して、設定された取得方法(例えば取得方法2532に設定されたAPI)を使って情報収集を行なう。必要であれば、全体情報収集プログラム220は、ID2533及びPW2534を使ってもよい。
このポーリングは、例えばWMI(Windows Management Instrumentation)のようなOS標準の障害情報及び性能情報を取得するAPI呼び出すことによって実現されてもよいし、例えば対象機器710に対して、LAN600を介して、情報収集プログラム716を呼び出すことによって実現されてもよい。
ステップ224において、全体情報収集プログラム220は、ステップ223におけるポーリングの実行結果に基づいて入力データを生成し、その入力データを入力情報としてルールベースモジュール300に渡す。この入力情報は、事象定義テーブル250によって定義された事象がポーリングによって検出されたことを示す情報を含む。ポーリングによって問題が検出されなかった場合、ルールベースモジュール300に入力情報を渡す必要はない。ルールベースモジュール300は、入力情報が与えられると、推論処理を実行する。
次に、ルールベースモジュール300の動作について説明する。ルールベースモジュール300が実行する処理は、ルールインタプリタプログラム350がルールベース370をデータの読み取り元、ワーキングメモリ310をデータの読み取り元及び書き込み先として処理を制御することによって実現される。
以下、ルールインタプリタプログラム350の動作を説明する。
ルールインタプリタプログラム350は、まず、ルールベース370からルールを読み出し、読み出したデータをワーキングメモリ310に保存する。
次に、ルールインタプリタプログラム350は、外部からの入力情報(すなわちステップ224において渡された入力情報)に基づいて、ワーキングメモリ310に格納された前提事項の各々に対して、ルールのマッチング処理を行なう。
次に、ルールインタプリタプログラム350は、上記のマッチング処理において、適用可能なルールが存在したか否かを判定する。もし適用可能なルールが存在しなかった場合、ルールインタプリタプログラム350は処理を終了する。適用可能なルールが存在した場合、ルールインタプリタプログラム350は、その中から適用するルールを選択し、選択したルールを実行する。ルール実行後は、上記のマッチング処理に制御が移り、全ての前提事項について終了するまでマッチング処理が繰り返される。
なお、ルールインタプリタプログラム350の動作は、人工知能の推論処理の分野で一般的な公知技術であるため、その詳細については説明を省略する。例えば、本発明の背景技術として引用したHayes−Rothにその詳細が記載されている。
上記の処理によって、管理対象機器の障害情報又は性能情報の検出、及び、根本原因の推論処理が可能となる。
次に、管理者620が推論結果を参照する方法について説明する。
まず、検出率表示プログラム410が管理者620からの指示に従って実行される。例えば、管理者620が表示内容更新168のボタンを操作すると、検出率表示プログラム410の実行が開始されてもよい。
第9図は、本発明の第1の実施形態の検出率表示プログラム410の処理を示すフローチャートである。
検出率表示プログラム410は、まず、全検出率計算プログラム420の実行を指示する(ステップ411)。全検出率計算プログラム420は、検出状況管理テーブル450を更新する。全検出率計算プログラム420の詳細は後述する(第10図参照)。
次に、検出率表示プログラム410は、該検出状況管理テーブル450に含まれる情報に基づいて、GUI画面160に、推論結果の情報を表示する(ステップ412)。
次に、全検出率計算プログラム420を説明する。このプログラムの処理は、検出状況管理テーブル450を生成又は更新することを目的とする。
第10図は、本発明の第1の実施形態の全検出率計算プログラム420の処理を示すフローチャートである。
全検出率計算プログラム420は、まず、検出状況管理テーブル450を初期化する(ステップ421)。すなわち、既に検出状況管理テーブル450が生成済みである場合、全検出率計算プログラム420は、そのテーブルをクリアする。
次に、全検出率計算プログラム420は、ワーキングメモリ310からルール一覧(例えばルール1及びルール2)を取得する(ステップ422)。
次に、全検出率計算プログラム420は、ループ開始処理(ステップ423)及びループ終了処理(ステップ427)によって、ループ処理を実行する。具体的には、全検出率計算プログラム420は、ワーキングメモリ310から取得したルール一覧の各ルール(例えばルール1及びルール2)に対して、ステップ424〜ステップ426を実行する。
ステップ424において、全検出率計算プログラム420は、検出状況管理テーブル450に新しい行、例えば454を生成し、その行の列451及び列452に値を設定する。具体的には、全検出率計算プログラム420は、まずルール1から結論ID261の値、例えばXを抽出して、その値を列451に設定する。次に、全検出率計算プログラム420は、結論IDの値に対応する結論メッセージ262の値を結論定義テーブル260から見つけ出し、その値(例えば、「根本原因は、ストレージ装置Aのディスク障害」)を列452に設定する。
ステップ425において、全検出率計算プログラム420は、各結論に対応する事象の検出状況を表すサブデータ(第5図の例では、サブデータ460及び470)を生成する。具体的には、全検出率計算プログラム420は、まず各ルールに対応する事象の一覧を抽出する。例えば、ルール1については、事象E1及び事象E3が抽出される。そして、全検出率計算プログラム420は、抽出した各事象について、対応する行(例えば、行463及び行464)を生成して、それらの行の列461に事象IDの値を設定する。
次に、全検出率計算プログラム420は、ワーキングメモリ310を参照して、列312から各事象の検出状況を取得し、列462に取得した検出状況の値を設定する。例えば、事象ID「E1」に対応する列312の値が「T」の場合、事象ID「E1」に対応する列462にも「T」が設定される。同様に、列312の値が「F」の場合、列462にも「F」が設定される。最後に、全検出率計算プログラム420は、サブデータ460等への参照情報を検出状況管理テーブル450の列453に設定する。
ステップ426において、全検出率計算プログラム420は、サブデータにおける事象の検出率を計算する。具体的には、全検出率計算プログラム420は、サブデータに含まれる全事象数のうち、検出済みの事象数の割合を求め、その値を検出率469等に設定する。例えば、サブデータ460の場合、含まれる全事象はE1及びE3の2つであり(それぞれ行463及び464)、それらのうち検出済の事象はE1だけである。このため、検出率469には「0.5」が設定される。一方、例えば、サブデータ470の場合、含まれる全事象はE1、E2及びE4の3つであり(それぞれ行473、464及び475)、それらのうち検出済の事象はE1だけである。このため、検出率479には「0.33」が設定される。
なお、検出率は、上記のように事象の数のみに基づいて計算されてもよいが、各事象に重みづけをして計算されてもよい。
ステップ428において、全検出率計算プログラム420は、検出状況管理テーブル450の行を、検出率の順に並べ替える。第5図の例では、全検出率計算プログラム420は、検出率469及び検出率479の値を比較し、検出率の値が大きいものに対応する行(第5図では検出率469に対応する行454)が、検出率の値が小さいものに対応する行(第5図では検出率479に対応する行455)より上位になるように、各行の順序を並べ替える。
以上の処理によって、検出状況管理テーブル450が生成される。
次に、推論結果を素早く確定させるために、通常よりも早く情報収集を行なう制御方法について説明する。この制御方法によって、本発明における課題が解決される。
本実施形態では、推論結果再評価の指示があった際に、各機器に対して、通常の定時ポーリングとは別に、即座に情報収集のためのポーリングが実行される。
まず、再評価プログラム430が管理者620によって実行される。例えば、管理者620が、GUI画面160を参照して、推論結果を確認する。再評価プログラム430は、確定した推論結果が存在しない場合、又は、確定した推論結果が、管理者620が期待するものと異なる場合、推論結果再評価169のボタンを操作することによって実行される。
第11図は、本発明の第1の実施形態の再評価プログラム430の処理を示すフローチャートである。
再評価プログラム430は、まず、上記の全検出率計算プログラム420を実行することによって、検出状況管理テーブル450を更新する(ステップ431)。
次に、再評価プログラム430は、ループ1開始処理(ステップ432)及びループ1終了処理(ステップ439)によって、ループ処理を実行する。具体的には、再評価プログラム430は、検出状況管理テーブル450の各行(例えば行454及び行455)に対して、ステップ433〜ステップ438を実行する。なお、検出状況管理テーブル450は、第10図のステップ428においてソートされているため、本ループ処理は、高い検出率に対応するルールから順に実行される。
ステップ433において、再評価プログラム430は、ルールに対応する事象一覧のデータを取得する。例えば、行454のルールの場合、再評価プログラム430は、列453に基づいてサブデータ460を参照し、行463及び行464を取得する。
次に、再評価プログラム430は、ループ2開始処理(ステップ434)及びループ2終了処理(ステップ438)によって、ループ処理を実行する。具体的には、再評価プログラム430は、各事象(例えば行463及び行464に対応する各事象)に対して、ステップ435〜ステップ437を実行する。
ステップ435において、再評価プログラム430は、各事象(例えば行463に対応する事象)について、列462の値を参照することによって、検出済か否かを判定する。未検出すなわち値が「F」の場合、再評価プログラム430は、ステップ436及びステップ437を実行する。
ステップ436において、再評価プログラム430は、未検出の事象に対応する機器に対して情報収集(ポーリング)を実行する。具体的には、再評価プログラム430は、事象定義テーブル250中の未検出の事象に対応するIPアドレス(例えば行2531参照)に対して、対応する取得方法(例えば行2532参照)を使って情報収集を実行する。必要であれば、対応するID及び対応するPW(例えばそれぞれ行2533及び行2534参照)を使ってもよい。
なお、ステップ436において実行されるポーリングは、第7図及び第8図に示す定時ポーリングのタイミング以外のタイミングで実行されるものである。以下の説明において、このようなポーリングを、特別ポーリングとも記載する。
ステップ437において、再評価プログラム430は、情報収集処理の実行結果に基づいて、入力データを生成して、それをルールベースモジュール300への入力情報として渡す。ポーリングによって問題が検出されなかった場合、ルールベースモジュール300に入力情報を渡す必要はない。
ステップ434〜ステップ438のループ処理及びステップ432〜ステップ439のループ処理がすべて終了すると、再評価プログラム430は、ステップ440において、検出状況管理テーブル450の情報に基づいて、GUI画面160に、推論結果の情報を表示する。
なお、表示内容更新168ボタン及び推論結果再評価169ボタンは、再評価プログラム430の処理実行中には、ボタンが非活性(不活性)状態となる。すなわち、管理者620は、処理が完了するまでボタンを操作することが出来ない。またボタンが活性状態となることで、管理者620は要求した再評価プログラム430の処理が完了したことを知ることができる。
以上の方法によって、ルールベースの推論処理機能を備えた運用管理システムにおいて、次回の定時ポーリングのタイミングを待たずに、素早く推論結果を確定することができる。
上記のように、管理者620からの指示に従って再評価プログラム430が実行されてもよいが、再評価プログラム430は、管理サーバ100において、定期的に実行されてもよい。あるいは、管理サーバ100が何らかのイベントを検出した際、例えば、処理224の直後に、再評価プログラム430が実行されてもよい。
以下、第26図に示すデータ構造及び第27図に示すフローチャートを用いて、再評価プログラム430を様々なタイミングで実行する手順を示す。
第26図は、本発明の第1の実施形態の再評価実行条件テーブル900のフォーマットを示す説明図である。
再評価実行条件テーブル900は、再評価実行の条件の列901、及び、T/Fの列902を含む。これによって、再評価の実行条件と、その条件が成立しているか否かを示す成立状況と、が管理される。
列901には、再評価プログラム430の処理を実行するか否かを判定するための条件が設定される。第26図の例では、列901に、「一定時間経過」、「ユーザによる実行指示」及び「イベント検出」が設定される(それぞれ、行905、行906及び行907)。
列902には、列901に設定された条件が成立するか否かを示す値が設定される。具体的には、列901に設定された条件が成立する場合、その条件に対応する列902に「T」が設定される。一方、列901に設定された条件が成立しない場合、その条件に対応する列902に「F」が設定される。
列901に設定された複数の条件のうち少なくとも一つが成立する場合、再評価プログラム430の処理が実行される。
行905によれば、例えばタイマによって前回の再評価プログラム430の処理から所定の時間が経過した場合に条件が成立し、列902に「T」が設定される。
なお、行905に設定される所定の時間は、定時ポーリングの実行間隔(すなわち第7図のステップ213の待ち時間)より短い必要がある。例えば、定時ポーリングの実行間隔が15分である場合、行905に設定される所定の時間は、5分であってもよい。
この場合、15分間隔で、全てのルールに含まれる全ての事象に対するポーリングが実行される。そして、5分間隔で、少なくとも一つの事象が検出されたルールに含まれるまだ検出されていない事象(第5図の例では、事象E1が検出されたルール1に含まれる未検出の事象E3、及び、事象E1が検出されたルール2に含まれる未検出の事象E2及びE4)に対する特別ポーリングが実行される。
運用管理の対象である計算機システムが大規模になるほど、全てのルールに含まれる事象の数は増大する。このため、1回の定時ポーリングに要する時間も長くなる。しかし、それらの事象のうち、実際に検出されるものはごく一部であるのが通常である。このため、特別ポーリングの実行間隔として、定時ポーリングの実行間隔より短い時間を設定することができる。
行906によれば、例えば管理者620が再評価の実行指示を入力した場合に条件が成立し、列902に「T」が設定される。
行907によれば、管理サーバ100が所定のイベントを検出した場合、例えば、処理224によって障害イベントを検出した場合に条件が成立し、列902に「T」が設定される。
管理者620からの指示に従って自動再評価実行プログラム920が実行されることによって、再評価プログラム430が種々のタイミングで実行される。
第27図は、本発明の第1の実施形態の自動再評価実行プログラム920の処理を示すフローチャートである。
自動再評価実行プログラム920は、まず、所定の時間、例えば10秒間、WAIT処理(プログラム実行の待ち処理)を行なう(ステップ921)。この所定の時間は、10秒より短くてもよいし、長くてもよい。
次に、自動再評価実行プログラム920は、ステップ922において、再評価処理を実行する条件が成立しているか否かを判定する。具体的には、自動再評価実行プログラム920は、再評価実行条件テーブル900を参照し、列902の値が「T」である行が存在するか否かを判定する。
列902の値が「T」である行が存在しない場合、処理はステップ921に戻る。一方、列902の値が「T」である行が存在する場合、自動再評価実行プログラム920は、該当する行の列902に「F」を設定し、ステップ923へ進む。
ステップ923において、再評価プログラム430が実行される。
次に、ステップ924において、自動再評価実行プログラム920は、管理者から終了指示が入力されたか否かを判定する。一般的に、管理者からの終了指示は、入出力端末150から入力されたプログラム終了指示である。
ステップ924において、プログラムの終了指示が入力されたと判定された場合、自動再評価実行プログラム920の処理が終了する。一方、ステップ924において、プログラムの終了指示が入力されていないと判定された場合、処理はステップ921に戻る。
以上の方法によって、管理者620が推論結果再評価169ボタンを操作する以外のタイミングで再評価プログラム430を実行することができる。
例えば、ストレージ装置A730にディスク障害が発生した場合、事象E1及び事象E3が検出されるはずである(ルール1参照)。これらの事象は、第7図及び第8図に示す定時ポーリングによって検出される。しかし、ポーリングは各機器に対して順次実行される性質のものであるため、複数の機器に同時に発生した事象をポーリングによって同時に検出することができない。
例えば、第7図のステップ212において第8図の処理が呼び出され、ステップ222から225までのループの1回目の実行によって事象E1が検出されず、2回目の実行によって事象E3が検出された場合、その1回目と2回目の間にストレージ装置A730にディスク障害が発生した可能性がある。しかし、仮にストレージ装置A730にディスク障害が発生していたとしても、その結論は、ステップ222から225までのループ処理が終了し、ステップ213の待ち時間(例えば15分)が経過した後、再びステップ222から225までのループが実行され、それによって事象E1が検出されるまで確定しない。
しかし、本実施形態によれば、ステップ213の待ち時間が経過する前(すなわち、次回の定時ポーリングが実行される前)であっても、所定の条件(本実施形態の例では、再評価実行条件テーブル900に定義された条件)が成立する場合には、再評価プログラム430による特別ポーリングが実行される。それによって、次回の定時ポーリングの実行を待たずに、結論を確定することができる。
具体的には、例えば、上記のようにルール1に含まれる事象E1及び事象E3のうち事象E1のみが検出された場合、定時ポーリングの実行間隔より短い所定の時間(例えば5分)が経過すると、事象E3を検出するための特別ポーリングが実行されてもよい(行905)。あるいは、ユーザからの指示を受信した場合、次回の定時ポーリングを待たずに特別ポーリングが実行されてもよい(行906)。あるいは、事象E1が検出されたことを契機に、次回の定時ポーリングを待たずに直ちに特別ポーリングが実行されてもよい(行907)。これらによって、事象E3を早期に検出し、早期に結論を確定することが可能になる。
なお、上記の実施形態には、曖昧推論(Reasoning under uncertainty)を適用することもできる。曖昧推論は、不確実な知識又は信念を持つ場合の推論方法である。曖昧推論の代表的なものに、例えばファジィ推論(Fuzzy Inference)、又は、MYCINのCF(Certainty Factor)値を用いた推論手法がある。
次に、第12図及び第13図に基づいて、本発明の第2の実施形態を説明する。第2の実施形態は、第1の実施形態の変形例に相当する。
第1の実施形態では、再評価プログラム430の処理によって、検出状況管理テーブル450に基づいて、事象が未検出の機器に対して、定時ポーリングとは異なる特別ポーリングが直ちに実行される。しかしながら、事象が未検出の機器全てに対して特別ポーリングを実行すると、その処理時間のため、推論結果の確定が遅れる。
ところで、第1実施形態では、結論の要素となる事象が未検出の機器全てに対して特別ポーリングが実行される。しかし、一つのルールに含まれる複数の事象のうち、少なくとも一つが検出されなければ、残りの事象が検出されるか否かにかかわらず、そのルールに対応する結論は成立しない。すなわち、それらの複数の事象のうち、少なくとも一つが検出されないことが判明した時点で、残りの事象についてのポーリングを実行するまでもなく、そのルールに対応する結論が成立しないと判定することができる。
そのため、第2の実施形態では、再評価プログラム500が、ある結論に対応する事象のうち、未検出の事象を対象とする特別ポーリングを実行するが、その特別ポーリングにおいて対象である事象が検出されなかった場合、その結論に対応する他の事象への特別ポーリングを中止する(すなわち、その結論に対応する残りの事象への特別ポーリングを実行しない)。
第12図は、本発明の第2の実施形態の運用管理システムの構成を示すブロック図である。
第2の実施形態は、管理サーバ100における再評価プログラム430が、再評価プログラム500によって置き換えられている点が、第1の実施形態と異なる。以下、第2の実施形態が第1の実施形態と異なる点について説明する。
本実施形態では、再評価プログラム500が管理者620によって実行される。例えば、管理者620が、GUI画面160を参照して、推論結果を確認する。確定した推論結果が存在しない場合、又は、管理者620が期待する推論結果とは異なる推論結果が確定した場合に、管理者620が推論結果再評価169のボタンを操作することによって、再評価プログラム500が実行される。
第13図は、本発明の第2の実施形態の再評価プログラム500の処理を示すフローチャートである。
再評価プログラム500は、まず、ステップ501において、全検出率計算プログラム420を実行する。全検出率計算プログラム420によって、検出状況管理テーブル450が更新される。
次に、再評価プログラム500は、ループ1開始処理(ステップ502)及びループ1終了処理(ステップ510)によって、ループ処理を実行する。具体的には、再評価プログラム500は、検出状況管理テーブル450の各行(例えば行454及び行455)に対して、ステップ503〜ステップ509を実行する。なお、検出状況管理テーブル450は、第10図のステップ428においてソートされているため、本ループ処理は、高い検出率に対応するルールから順に実行される。
ステップ503において、再評価プログラム500は、ルールに対応する事象一覧のデータを取得する。例えば、行455のルールの場合、再評価プログラム500は、列453に基づいてサブデータ470を参照し、行473、行474及び行475を取得する。
次に、再評価プログラム500は、ループ2開始処理(ステップ504)及びループ2終了処理(ステップ509)によって、ループ処理を実行する。具体的には、再評価プログラム500は、各事象(例えば行473に対応する事象)に対して、ステップ505〜ステップ508を実行する。
ステップ505において、再評価プログラム500は、各事象(例えば行473に対応する事象)について、列472の値を参照することによって、検出済か否かを判定する。未検出すなわち値が「F」の場合、再評価プログラム500は、ステップ506〜ステップ508を実行する。
ステップ506において、再評価プログラム500は、未検出の事象に対応する機器に対して情報収集(ポーリング)を実行する。具体的には、再評価プログラム500は、事象定義テーブル250中の未検出の事象に対応するIPアドレスに対して、対応する取得方法を使って情報収集を実行する。必要であれば、対応するID及び対応するPWを使ってもよい。
ステップ507において、再評価プログラム500は、ステップ506の結果、事象が検出されたか否かを判定する。例えば、ステップ506において、サブデータ470の行474について情報収集が実行された場合、再評価プログラム500は、行474の事象であるE2を検出したか否かを判定する。事象が検出されなかった場合、再評価プログラム500は、ループ2終了処理(ステップ509)を経由せずに(すなわち、ステップ504からステップ509までのループ処理を中止して)、ループ1終了処理510に進む。
例えば、第5図の結論Yに対応する事象E1、E2及びE4のうちE1のみが検出された後に第13図の処理が実行された場合、ステップ506において事象E2についてのポーリングが実行され、ステップ507において、事象E2が検出されたか否かが判定される。ここで、事象E2が検出されなかった場合、さらに事象E4についてのポーリングを実行したとしても、結論Yが確定する可能性はない。このため、本実施形態では、確定する可能性がなくなった結論に対応する更なるポーリングの実行(上記の例では事象E4についてのポーリングの実行)が省略される。言い換えると、少なくとも、次回のポーリングによって再び事象E2についてのポーリングが実行されるまで、事象E4についてのポーリングは実行されない。
ステップ508において、再評価プログラム500は、情報収集処理の実行結果に基づいて、入力データを生成して、それをルールベースモジュール300への入力情報として渡す。ポーリングによって問題が検出されなかった場合、ルールベースモジュール300に入力情報を渡す必要はない。
ステップ504〜ステップ509のループ処理及びステップ502〜ステップ510のループ処理がすべて終了すると、再評価プログラム500は、ステップ511において、検出状況管理テーブル450の情報に基づいて、GUI画面160に、推論結果の情報を表示する。
上記以外の第2の実施形態の処理は、第1の実施形態の処理と同様であるため、説明を省略する。
本実施形態によれば、ルールベースの推論処理機能を備えた運用管理システムにおいて、次回の定時ポーリングのタイミングを待たずに、素早く推論結果を確定することができる。さらに、本実施形態では、上記のように、ポーリングを実行しても結論が確定しないことが明らかな場合には、ポーリングの実行が省略される。このため、本実施形態によれば、第1の実施形態よりさらにすばやく推論結果を確定することができる。
次に、第14図〜第16図に基づいて、本発明の第3の実施形態を説明する。第3の実施形態は、第1の実施形態の変形例に相当する。
第1の実施形態では、再評価プログラム430の処理によって、検出状況管理テーブル450に基づいて、事象が未検出の機器に対して、特別ポーリングが直ちに実行される。しかしながら、if条件文に定義されている事象が、複数のルールの中で定義されている場合、第1の実施形態では、同じ事象に対して、複数回、特別ポーリングが実施される。それに要する処理時間のため、推論結果の確定が遅れる。
そのため、第3の実施形態では、再評価プログラム520及び事象カウントテーブル540によって、特別ポーリングの対象となる事象が最初にカウントされる。そして、カウントの大きい事象から順に特別ポーリングが実行される。これによって、特別ポーリングの重複がなくなる。さらに、より多くのルールに含まれている事象が優先的に特別ポーリングされる。
第14図は、本発明の第3の実施形態の運用管理システムの構成を示すブロック図である。
第3の実施形態は、管理サーバ100における再評価プログラム430が、再評価プログラム520によって置き換えられたこと、及び、事象カウントテーブル540が追加された点が、第1の実施形態と異なる。以下、第3の実施形態が第1の実施形態と異なる点について説明する。
第15図は、本発明の第3の実施形態の事象カウントテーブル540のフォーマットを示す説明図である。
事象カウントテーブル540は、事象IDの列541及びカウントの列542を含む。これによって、特別ポーリングを実施すべき事象と、その事象を含むルールの数とが管理される。なお、行546の事象IDに存在するE5という事象は、本実施形態では定義されていないが、事象カウントテーブル540の特性を説明する便宜上、記載したものである。事象E5の定義については、説明を省略する。
第15図の例では、事象E2、E3及びE4が1回ずつカウントされている(それぞれ行543、544及び545)。一方、事象E5は、2回カウントされている(行546)。この場合、事象E2、E3、E4及びE5が未検出であり、事象E2、E3及びE4が、それぞれ、一つのルールのif条件文に含まれ、事象E5が二つのルールのif条件文に含まれている。
本実施形態では、再評価プログラム520が管理者620によって実行される。例えば、管理者620が、GUI画面160を参照して、推論結果を確認する。確定した推論結果が存在しない場合、又は、確定した推論結果が、管理者620が期待する推論結果とは異なる場合に、管理者620が推論結果再評価169のボタンを操作することによって、再評価プログラム520が実行される。
第16図は、本発明の第3の実施形態の再評価プログラム520の処理を示すフローチャートである。
再評価プログラム520は、まず、ステップ521において、全検出率計算プログラム420を実行する。全検出率計算プログラム420によって、検出状況管理テーブル450が更新される。
次に、ステップ539において、再評価プログラム520は、事象カウントテーブル540のカウンタをクリアする。具体的には、再評価プログラム520は、事象カウントテーブル540の各行の列542に対して、全て「0」を設定する。
次に、再評価プログラム520は、ループ1開始処理(ステップ522)及びループ1終了処理(ステップ528)によって、ループ処理を実行する。具体的には、再評価プログラム520は、検出状況管理テーブル450の各行(例えば行454及び行455)に対して、ステップ523〜ステップ527を実行する。
ステップ523において、再評価プログラム520は、検出状況管理テーブル450の各行が示すルールに対応する事象一覧のデータを取得する。例えば、行454のルールの場合、列453に基づいてサブデータ460が参照され、行463及び行464が取得される。
次に、再評価プログラム520は、ループ2開始処理(ステップ524)及びループ2終了処理(ステップ527)によって、ループ処理を実行する。具体的には、再評価プログラム520は、各事象(例えば行463に対応する事象)に対して、ステップ525〜ステップ526を実行する。
ステップ525において、再評価プログラム520は、各事象(例えば行463に対応する事象)について、列462の値を参照することによって、その事象が検出済であるか否かを判定する。その事象が未検出である(すなわち列462の値が「F」である)場合、再評価プログラム520は、ステップ526を実行する。
ステップ526において、再評価プログラム520は、事象をカウントする。具体的には、再評価プログラム520は、事象カウントテーブル540を参照して、ステップ525で未検出であると判定された事象に対応する行の列542の値に「1」を加算する。
ステップ529において、再評価プログラム520は、事象カウントテーブル540の行のソート(並べ替え)を行なう。具体的には、事象カウントテーブル540の行を、カウント列542の値が大きなものから順に並べ替える。
例えば、ステップ528が終了した時点の事象カウントテーブル540が第15図に示す通りであった場合、事象E5のカウント列542の値「2」が最も大きい(行546)。この場合、ステップ529によって、事象E5の行546が事象カウントテーブル540の先頭に移動する。
次に、再評価プログラム520は、ループ3開始処理(ステップ530)及びループ3終了処理(ステップ533)によって、ループ処理を実行する。具体的には、再評価プログラム520は、事象カウントテーブル540の先頭の行から順に、各行に対して、ステップ531及びステップ532を実行する。事象カウントテーブル540はステップ529においてソートされているため、再評価プログラム520は、カウント列542の値が大きい行に対して優先的にステップ531及びステップ532を実行する。
ステップ531において、再評価プログラム520は、事象カウントテーブル540の各行が示す事象に対応する機器に対して情報収集のためのポーリングを実行する。
具体的には、再評価プログラム520は、事象定義テーブル250中の各事象に対応するIPアドレスに対して、対応する取得方法を使ってポーリングを実行する。必要であれば、対応するID及び対応するPWを使ってもよい。
ステップ532において、再評価プログラム520は、上記のポーリングの実行結果に基づいて、入力データを生成して、その入力データをルールベースモジュール300へ入力情報として渡す。この入力情報は、事象定義テーブル250によって定義された事象がポーリングによって検出されたことを示す情報を含む。ポーリングによって問題が検出されなかった場合、ルールベースモジュール300に入力情報を渡す必要はない。
ステップ534において、再評価プログラム520は、検出状況管理テーブル450の情報に基づいて、GUI画面160に、推論結果の情報を表示する。
上記以外の第3の実施形態の処理は、第1の実施形態の処理と同様であるため、説明を省略する。
以上の第3の実施形態によれば、ルールベースの推論処理機能を備えた運用管理システムにおいて、次回の定時ポーリングのタイミングを待たずに、素早く推論結果を確定することができる。さらに、第3の実施形態によれば、同一の機器に対する重複したポーリングが省略される。さらに、第3の実施形態によれば、より多くのルールに含まれる事象についてのポーリングが優先的に(すなわち、より少ないルールに含まれる事象についてのポーリングより先に)実行される。このため、第1の実施形態よりさらに効率よく素早く推論結果を確定することができる。
次に、第17図〜第22図に基づいて、本発明の第4の実施形態を説明する。第4の実施形態は、第3の実施形態の変形例に相当する。
第3の実施形態によれば、再評価プログラム520の処理によって、検出状況管理テーブル450及び事象カウントテーブル540に基づいて、特別ポーリングの重複が省略され、より多くのルールに含まれている事象から優先的に特別ポーリングが実行される。
しかしながら、通常の定時ポーリングと並行して特別ポーリングが実行されるため、管理サーバ100に対して、一時的に負荷が集中してしまう問題がある。
そのため、第4の実施形態では、再評価プログラム560、ポーリングタスク生成プログラム810、ポーリングタスク実行プログラム820及びポーリングタスクキュー850によって、定時ポーリングと特別ポーリングとを並行して実行しないように制御することによって、管理サーバ100のポーリング処理の負荷が一定になるように制御される。
第17図は、本発明の第4の実施形態の運用管理システムの構成を示すブロック図である。
第4の実施形態の構成が第3の実施形態の構成と異なる点は、管理サーバ100における再評価プログラム520が再評価プログラム560によって置き換えられたこと、定期監視プログラム210及び全体情報収集プログラム220がポーリングタスク生成プログラム810及びポーリングタスク実行プログラム820によって置き換えられたこと、及び、ポーリングタスクキュー850が追加されたことである。
第18図は、本発明の第4の実施形態のポーリングタスクキュー850のフォーマットを示す説明図である。
ポーリングタスクキュー850は、順番の列851及び事象IDの列852から構成されるテーブルであり、ポーリング実行のタスクの順番を決めるために利用される。このキューは、FIFO(First In First Out)形式であり、基本的に、追加されるタスクはキューの末尾に追加される。ポーリングタスクキュー850の1行が一つのタスクに対応する。タスク実行のためのキューからタスクが取り出される場合は、先頭(すなわち順番の列851の値が1のもの)から順に取り出される。ただし、優先度の高いタスクをキューの先頭に追加することもできる。さらに、キューの各要素の順番を入れ替えることも可能である。
第18図の例では、順番の列851の値「1」、「2」、「3」及び「4」に対応する事象IDの列852に、それぞれ「E1」、「E2」、「E3」及び「E4」が設定される(それぞれ、行853、854、855及び856)。この場合、事象E1、E2、E3及びE4の順にポーリングが実行される。
第19図は、本発明の第4の実施形態の再評価プログラム560が実行されている途中のある時点におけるポーリングタスクキュー850の一例を示す説明図である。
第19図の例では、順番の列851の値「1」、「2」、「3」、「4」及び「5」に対応する事象IDの列852に、それぞれ「E3」、「E1」、「E2」、「E3」及び「E4」が設定される(それぞれ、行857、858、859、860及び861)。この場合、事象E3、E1、E2、E3及びE4の順にポーリングが実行される。
本実施形態では、まず、ポーリングタスク生成プログラム810が管理者620から入力された指示に従って実行される。
第20図は、本発明の第4の実施形態のポーリングタスク生成プログラム810の処理を示すフローチャートである。
ポーリングタスク生成プログラム810は、まず、ステップ811において、管理者620からの終了指示を受信したか否かを判定する。一般的に、管理者620からの終了指示は、管理者620が入出力端末150を用いて入力したプログラム終了指示である。ステップ811において、プログラムの終了指示を受信したと判定された場合、ポーリングタスク生成プログラム810は、処理を終了する。一方、ステップ811において、プログラムの終了指示を受信していないと判定された場合、次のステップ812が実行される。
ステップ812において、ポーリングタスク生成プログラム810は、事象定義テーブル250を参照することによって、事象定義の一覧を取得する。
次に、ポーリングタスク生成プログラム810は、ループ開始処理(ステップ813)及びループ終了処理(ステップ815)によって、ループ処理を実行する。具体的には、ポーリングタスク生成プログラム810は、事象定義テーブル250中の各行、例えば行253〜256の各々に対して、ステップ814を実行する。
ステップ814において、ポーリングタスク生成プログラム810は、事象定義テーブル250の各行に対応する事象をポーリングタスクキュー850の末尾に追加する。
次に、ポーリングタスク生成プログラム810は、ステップ816において、所定の時間(例えば15分間)WAIT処理(すなわちプログラム実行の待ち処理)を行なう。この所定の時間は15分より短くてもよいし、長くてもよい。
ステップ816が実行された後、処理はステップ811に戻り、以後、終了指示を受信するまで処理が続行される。
本実施形態では、次に、ポーリングタスク実行プログラム820が管理者620からの指示に従って実行される。
第21図は、本発明の第4の実施形態のポーリングタスク実行プログラム820の処理を示すフローチャートである。
ポーリングタスク実行プログラム820は、まず、ステップ821において、管理者620から終了指示を受信したか否かを判定する。一般的に、管理者620からの終了指示は、管理者620が入出力端末150を用いて入力したプログラム終了指示である。ステップ821において、プログラムの終了指示を受信したと判定された場合、ポーリングタスク実行プログラム820は、処理を終了する。一方、ステップ821において、プログラムの終了指示を受信していないと判定された場合、ポーリングタスク実行プログラム820は、次のステップ822を実行する。
ポーリングタスク実行プログラム820は、ループ開始処理(ステップ822)及びループ終了処理(ステップ826)によって、ループ処理を実行する。具体的には、ポーリングタスク実行プログラム820は、ポーリングタスクキュー850の内容が空になるまで、ステップ823〜ステップ825の実行を繰り返す。
ステップ823において、ポーリングタスク実行プログラム820は、ポーリングタスクキュー850の先頭からタスクを一つ取り出す。
ステップ824において、ポーリングタスク実行プログラム820は、取り出されたタスクに対応するポーリングを実行する。具体的には、ポーリングタスク実行プログラム820は、ポーリングタスクキュー850から取り出した事象ID(例えば、E3など)をキーとして、事象テーブル250を参照し、対応するIPアドレス、取得方法、ID及びPWを取得する。そして、ポーリングタスク実行プログラム820は、取得したIPアドレス、取得方法、ID及びPWを使って、実際の機器に対してポーリングを実行する。
ステップ825において、ポーリングタスク実行プログラム820は、ポーリングの実行結果に基づいて、入力データを生成して、その入力データをルールベースモジュール300へ入力情報として渡す。この入力情報は、事象定義テーブル250によって定義された事象がポーリングによって検出されたことを示す情報を含む。ポーリングによって問題が検出されなかった場合、ルールベースモジュール300に入力情報を渡す必要はない。
次に、ステップ827において、ポーリングタスク実行プログラム820は、所定の時間、例えば5分間、WAIT処理を行なう。この所定の時間は5分より短くてもよいし、長くてもよい。
ステップ827が実行された後、処理はステップ821に戻り、以後、終了指示を受信するまで処理が続行される。
本実施形態では、再評価プログラム560が管理者620からの指示に従って実行される。例えば、管理者620が、GUI画面160を参照して、推論結果を確認する。確定した推論結果が存在しない場合、又は、確定した推論結果が、管理者620が期待する推論結果とは異なる場合に、推論結果再評価169のボタンを操作することによって、再評価プログラム560が実行される。
第22図は、本発明の第4の実施形態の再評価プログラム560の処理を示すフローチャートである。
再評価プログラム560は、まず、ステップ561において、全検出率計算プログラム420を実行する。全検出率計算プログラム420によって検出状況管理テーブル450が更新される。
次に、ステップ579において、再評価プログラム560は、事象カウントテーブル540のカウンタをクリアする。具体的には、再評価プログラム560は、事象カウントテーブル540の各行の列542に対して、全て「0」を設定する。
次に、再評価プログラム560は、ループ1開始処理(ステップ562)及びループ1終了処理(ステップ568)によって、ループ処理を実行する。具体的には、再評価プログラム560は、検出状況管理テーブル450の各行(例えば行454及び行455)に対して、ステップ563〜ステップ567を実行する。
ステップ563において、再評価プログラム560は、検出状況管理テーブル450の各行が示すルールに対応する事象一覧のデータを取得する。例えば、行454のルールの場合、列453に基づいてサブデータ460が参照され、行463及び行464が取得される。
次に、再評価プログラム560は、ループ2開始処理(ステップ564)及びループ2終了処理(ステップ567)によって、ループ処理を実行する。具体的には、再評価プログラム560は、各事象(例えば行463に対応する事象)に対して、ステップ565〜ステップ566を実行する。
ステップ565において、再評価プログラム560は、各事象(例えば行463に対応する事象)について、列462の値を参照することによって、その事象が検出済であるか否かを判定する。その事象が未検出である(すなわち列462の値が「F」である)場合、再評価プログラム560は、ステップ566を実行する。
ステップ566において、再評価プログラム560は、事象をカウントする。具体的には、再評価プログラム560は、事象カウントテーブル540を参照して、ステップ565で未検出であると判定された事象に対応する行の列542の値に「1」1を加算する。
ステップ569において、再評価プログラム560は、事象カウントテーブル540の行のソート(並べ替え)を行なう。具体的には、事象カウントテーブル540の行を、カウント列542の値が大きなものから順に並べ替える。
次に、再評価プログラム560は、ループ3開始処理(ステップ570)及びループ3終了処理(ステップ573)によって、ループ処理を実行する。具体的には、再評価プログラム560は、カウント数の大きさに基づいて並べ替えられた事象カウントテーブル540の各行に対して、ステップ571を実行する。
ステップ571において、再評価プログラム560は、事象カウントテーブル540の各行が示す事象をポーリングタスクキュー850のi番目に追加挿入する。なお、このiは、初期値が「1」であり、ステップ570からステップ573までのループが繰り返されるごとに1ずつ加算されるインデックスである。すなわち、ステップ569によって事象カウントテーブル540の各行はポーリングの優先度順に並べられており、この優先度に従って、ポーリングタスクキュー850のi番目に事象が追加挿入される。
なお、ループ3の処理が実行されている間は、ポーリングタスクキュー850に対して排他処理が行なわれることが望ましい。
ステップ574において、再評価プログラム560は、検出状況管理テーブル450の情報に基づいて、GUI画面160に、推論結果の情報を表示する。
上記以外の第4の実施形態の処理は、第3の実施形態の処理と同様であるため、説明を省略する。
なお、第19図は、第18図に示すポーリングタスクキュー850の状態に対して、特別ポーリングのタスク(事象E3)をポーリングタスクキュー850の先頭(1番目)の要素として追加挿入した状態を示す例である。これは、例えば、第5図の例において、事象E3のみが検出されなかった場合に相当する。この場合、次回のポーリングとして、事象E3についてのポーリングが最初に実行される。その結果、事象E3については、定時ポーリングの実行間隔より短い間隔でポーリングが実行される。
以上の第4の実施形態によれば、ルールベースの推論処理機能を備えた運用管理システムにおいて、次回の定時ポーリングのタイミングを待たずに、優先度の高い事象から順にポーリングが実行される。このとき、第4の実施形態によれば通常の定時ポーリングと特別ポーリングとがごく短い間隔で実行されないように制御される。このため、管理サーバへの処理負荷を一定に保ったまま、素早く推論結果を確定することができる。
次に、第23図〜第25図に基づいて、本発明の第5の実施形態を説明する。第5の実施形態は、第4の実施形態の変形例に相当する。
第4の実施形態によれば、検出状況管理テーブル450、ポーリングタスクキュー850、再評価プログラム560、ポーリングタスク生成プログラム810及びポーリングタスク実行プログラム820によって、通常の定時ポーリングと特別ポーリングとが同時に実行されないため、管理サーバ100への負荷が一定になるように制御される。
しかしながら、第4の実施形態では、通常の定時ポーリングに加えて特別ポーリングも実行されるため、管理サーバ100の処理負荷が増えるという問題がある。
そのため、第5の実施形態では、特別ポーリングの回数をできるだけ減らすことを目的とする。第5の実施形態では、ポーリングタスクキュー850中に、特別ポーリングのタスクと同じ事象に対する通常ポーリングのタスクが存在する場合、再評価プログラム580は、該事象に対する特別ポーリングを実行せず、その通常ポーリングのタスクをポーリングタスクキュー850の前方に移動するように制御する。
第23図は、本発明の第5の実施形態の運用管理システムの構成を示すブロック図である。
第5の実施形態の構成が第4の実施形態の構成と異なる点は、管理サーバ100における再評価プログラム560が再評価プログラム580によって置き換えられたことである。
第24図は、本発明の第5の実施形態の再評価プログラム580が実行されている途中のある時点におけるポーリングタスクキュー850の一例を示す説明図である。
第24図の例では、順番の列851の値「1」、「2」、「3」及び「4」に対応する事象IDの列852に、それぞれ「E3」、「E1」、「E2」及び「E4」が設定される(それぞれ、行862、863、864及び865)。この場合、事象E3、E1、E2及びE4の順にポーリングが実行される。
本実施形態では、再評価プログラム580が管理者620からの指示に従って実行される。例えば、管理者620が、GUI画面160を参照して、推論結果を確認する。確定した推論結果が存在しない場合、又は、確定した推論結果が、管理者620が期待する推論結果とは異なる場合に、管理者620が推論結果再評価169のボタンを操作することによって、再評価プログラム580が実行される。
第25図は、本発明の第5の実施形態の再評価プログラム580の処理を示すフローチャートである。
ただし、第25図に示すように、再評価プログラム580の処理は、ステップ571がステップ591に置き換えられていることを除いて、再評価プログラム560の処理(第22図参照)と同じである。このため、ステップ591のみについて説明し、その他のステップの説明は省略する。
ステップ591において、再評価プログラム580は、事象カウントテーブル540の各行が示す事象と同一の事象をポーリングタスクキュー850の中から見つけ出し、見つけ出した事象をポーリングタスクキュー850のi番目のタスクに移動する。なお、このiは、第22図において説明したインデックスである。これによって、その事象が、ポーリングタスクキュー850における現在位置よりも前方(すなわち先頭に近い位置)に移動する。なお、該当する事象がポーリングタスクキュー850の中に存在しない場合は、その事象に対応するタスクを生成して、ポーリングタスクキュー850のi番目に追加挿入する。
なお、ループ3の処理が実行されている間は、ポーリングタスクキュー850に対して排他処理が行われることが望ましい。
なお、第24図は、第18図に示すポーリングタスクキュー850の状態に対して、特別ポーリングのタスク(事象E3)をポーリングタスクキュー850の先頭(1番目)に移動した状態を示す例である。これは、例えば、第5図の例において、事象E3のみが検出されなかった場合に相当する。この場合、次回のポーリングとして、事象E3についてのポーリングが最初に実行される。その結果、事象E3については、定時ポーリングの実行間隔より短い間隔でポーリングが実行される。
以上の第5の実施形態によれば、ルールベースの推論処理機能を備えた運用管理システムにおいて、次回の定時ポーリングのタイミングを待たずに、優先度の高い事象から順にポーリングが実行される。このとき、第5の実施形態によれば、第4の実施形態と比較して、ポーリングの実行回数が削減されるため、管理サーバへの処理負荷を一定に保ったまま、素早く推論結果を確定することができる。
以上のように、本発明の実施形態は、定時ポーリングなどによって障害を検出するステップと、そのポーリングによって検出された情報に基づいて、障害が発生している可能性が高い管理対象機器(すなわち予測障害)を見つけ出すステップと、その予測障害に対して、通常よりも早く情報収集するようにタイミングを制御するステップと、を有することを特徴とする。
例えば、複数のif−thenルールが定義されている場合、まず、if条件文のイベント集合のうち1つ以上イベントが検出されたルールを検査対象として特定し、次に、その検査対象ルールのif条件文の中から、補集合(すなわちまだ検出されていないイベント)を予測障害として特定することができる。
予測障害に対して、通常よりも早く情報収集することは、例えば、予測障害に対して直ちにポーリングを実行することで実現できる。あるいは、複数の予測障害に対してポーリング順序に優先度を付けて、優先度の高いものから順に、直ちにポーリングを実行することによっても実現できる。あるいは、定時ポーリングの実行スケジュールを制御することによって、予測障害のポーリングを通常よりも早く実行することによっても実現できる。
Claims (15)
- 複数の機器を備える計算機システムを管理するための情報を収集する方法であって、
前記複数の機器には、管理計算機が接続され、
前記複数の機器は、少なくとも一つの計算機を含み、
前記管理計算機は、前記各計算機に接続される第1通信装置と、前記第1通信装置に接続される第1プロセッサと、前記第1プロセッサに接続される第1メモリと、を備え、
前記各計算機は、前記管理計算機に接続される第2通信装置と、前記第2通信装置に接続される第2プロセッサと、前記第2プロセッサに接続される第2メモリと、を備え、
前記管理計算機には、各々が前記複数の機器において検出される複数の事象を含む一つ以上の事象集合と、前記各事象集合に含まれる前記一つ以上の事象がすべて検出された場合に出力される結論と、を対応付けるルール情報が保持され、
前記一つ以上の事象集合は、第1の複数の事象を含む第1事象集合を含み、
前記ルール情報は、前記第1事象集合と、前記第1事象集合に含まれる前記第1の複数の事象がすべて検出された場合に出力される第1結論と、を対応付ける第1ルールを含み、
前記方法は、
前記管理計算機が、前記第1の複数の事象の各々が検出されたか否かを示す情報を取得するためのポーリングを第1間隔で実行する第1手順と、
前記管理計算機が、前記ポーリングに対する応答に基づいて、前記第1の複数の事象が検出されたか否かを判定する第2手順と、
前記第1の複数の事象のうち少なくとも一つが検出され、残りが検出されないと判定された場合、前記管理計算機が、次回の前記第1間隔のポーリングを実行する前に、前記検出されなかった一つ以上の事象が検出されたか否かを示す情報を取得するためのポーリングを実行する第3手順と、を含むことを特徴とする方法。 - 前記第3手順は、前記第1の複数の事象のうち少なくとも一つが検出され、残りが検出されないと判定された後、前記第1間隔が経過する前にポーリング指示を受信した場合、前記管理計算機が、前記検出されなかった一つ以上の事象が検出されたか否かを示す情報を取得するためのポーリングを、前記第1間隔が経過する前に実行する手順を含むことを特徴とする請求項1に記載の方法。
- 前記一つ以上の事象集合は、第2の複数の事象を含む第2事象集合をさらに含み、
前記ルール情報は、前記第2事象集合と、前記第2事象集合に含まれる前記第2の複数の事象がすべて検出された場合に出力される第2結論と、を対応付ける第2ルールをさらに含み、
前記方法は、さらに、前記管理計算機が、前記第2の複数の事象の各々が検出されたか否かを示す情報を取得するためのポーリングを前記第1間隔で実行する手順を含み、
前記第3手順は、前記第1の複数の事象のうち少なくとも一つが検出され、前記第1の複数の事象の残り及び前記第2の複数の事象がいずれも検出されないと判定された場合、前記管理計算機が、前記第1の複数の事象の残りが検出されたか否かを示す情報を取得するためのポーリングを、前記第1間隔より短い第2間隔で実行する手順を含むことを特徴とする請求項1に記載の方法。 - 前記第1の複数の事象のうち、検出されないと判定された前記残りの事象が第3事象及び第4事象を含む場合であって、かつ、その判定の後に実行された前記ポーリングの結果、前記第4事象が検出されたか否かを示す情報を取得するためのポーリングを実行する前に前記第3事象が検出されないと判定された場合、前記第3手順において、次回の前記第3事象が検出されたか否かを示す情報を取得するためのポーリングを実行する前に前記第4事象が検出されたか否かを示す情報を取得するためのポーリングが省略されることを特徴とする請求項1に記載の方法。
- 前記一つ以上の事象集合は、第2の複数の事象を含む第2事象集合をさらに含み、
前記ルール情報は、前記第2事象集合と、前記第2事象集合に含まれる前記第2の複数の事象がすべて検出された場合に出力される第2結論と、を対応付ける第2ルールをさらに含み、
前記方法は、さらに
前記管理計算機が、前記第2の複数の事象の各々が検出されたか否かを示す情報を取得するためのポーリングを前記第1間隔で実行する手順と、
前記管理計算機が、前記第1の複数の事象のうち、検出されたと判定された事象の割合を第1割合として算出し、前記第2の複数の事象のうち、検出されたと判定された事象の割合を第2割合として算出する手順と、を含み、
前記第3手順は、前記第1割合が前記第2割合より高い場合、前記管理計算機が、前記第2の複数の事象のうちまだ検出されていないと判定されたものが検出されたか否かを示す情報を取得するためのポーリングを実行する前に、前記第1の複数の事象のうちまだ検出されていないと判定されたものが検出されたか否かを示す情報を取得するためのポーリングを実行する手順を含むことを特徴とする請求項1に記載の方法。 - 前記各事象は、一つ又は複数の前記事象集合に含まれ、
前記方法は、さらに、前記管理計算機が、前記各事象を含む前記事象集合の数を前記事象ごとに計数する手順を含み、
前記第3手順は、前記第1の複数の事象のうち、検出されないと判定された前記残りの事象が第3事象及び第4事象を含む場合であって、かつ、前記第3事象を含む前記事象集合の数が前記第4事象を含む前記事象集合の数より多い場合、前記管理計算機が、次回の前記第4事象が検出されたか否かを示す情報を取得するためのポーリングを実行する前に、前記第3事象が検出されたか否かを示す情報を取得するためのポーリングを実行する手順を含むことを特徴とする請求項1に記載の方法。 - 前記管理計算機は、これから実行するポーリングの順序を示すタスクキュー情報を保持し、
前記第1手順は、前記管理計算機が、前記タスクキュー情報の先頭に保持されたタスク情報に対応するポーリングから順に、前記第1間隔のポーリングを実行する手順を含み、
前記第3手順は、前記第1の複数の事象のうち第3事象が検出されないと判定された場合、前記管理計算機が、前記第3事象が検出されたか否かを示す情報を取得するためのポーリングに対応するタスク情報を前記タスクキュー情報に追加する手順を含むことを特徴とする請求項1に記載の方法。 - 前記管理計算機は、これから実行するポーリングの順序を示すタスクキュー情報を保持し、
前記第1手順は、前記管理計算機が、前記タスクキュー情報の先頭に保持されたタスク情報に対応するポーリングから順に、前記第1間隔のポーリングを実行する手順を含み、
前記第3手順は、前記第1の複数の事象のうち第3事象が検出されないと判定され、かつ、前記第3事象が検出されたか否かを示す情報を取得するためのポーリングに対応するタスク情報が前記タスクキュー情報の先頭以外の位置に保持されている場合、前記管理計算機が、前記第3事象が検出されたか否かを示す情報を取得するためのポーリングに対応するタスク情報を前記タスクキュー情報の現在位置よりも前方に移動する手順を含むことを特徴とする請求項1に記載の方法。 - 複数の機器を備える計算機システムに接続される管理計算機であって、
前記複数の機器は、少なくとも一つの計算機を含み、
前記管理計算機は、前記各計算機に接続される第1通信装置と、前記第1通信装置に接続される第1プロセッサと、前記第1プロセッサに接続される第1メモリと、を備え、
前記各計算機は、前記管理計算機に接続される第2通信装置と、前記第2通信装置に接続される第2プロセッサと、前記第2プロセッサに接続される第2メモリと、を備え、
前記管理計算機は、
各々が前記複数の機器において検出される複数の事象を含む一つ以上の事象集合と、前記各事象集合に含まれる前記一つ以上の事象がすべて検出された場合に出力される結論と、を対応付けるルール情報を保持し、
前記一つ以上の事象集合は、第1の複数の事象を含む第1事象集合を含み、
前記ルール情報は、前記第1事象集合と、前記第1事象集合に含まれる前記第1の複数の事象がすべて検出された場合に出力される第1結論と、を対応付ける第1ルールを含み、
前記第1の複数の事象の各々が検出されたか否かを示す情報を取得するためのポーリングを第1間隔で実行し、
前記ポーリングに対する応答に基づいて、前記第1の複数の事象が検出されたか否かを判定し、
前記第1の複数の事象のうち少なくとも一つが検出され、残りが検出されないと判定された場合、次回の前記第1間隔のポーリングを実行する前に、前記検出されなかった一つ以上の事象が検出されたか否かを示す情報を取得するためのポーリングを実行することを特徴とする管理計算機。 - 前記管理計算機は、前記第1の複数の事象のうち少なくとも一つが検出され、残りが検出されないと判定された後、前記第1間隔が経過する前にポーリング指示を受信した場合、前記検出されなかった一つ以上の事象が検出されたか否かを示す情報を取得するためのポーリングを、前記第1間隔が経過する前に実行することを特徴とする請求項9に記載の管理計算機。
- 前記一つ以上の事象集合は、第2の複数の事象を含む第2事象集合をさらに含み、
前記ルール情報は、前記第2事象集合と、前記第2事象集合に含まれる前記第2の複数の事象がすべて検出された場合に出力される第2結論と、を対応付ける第2ルールをさらに含み、
前記管理計算機は、
前記第2の複数の事象の各々が検出されたか否かを示す情報を取得するためのポーリングを前記第1間隔で実行し、
前記第1の複数の事象のうち少なくとも一つが検出され、前記第1の複数の事象の残り及び前記第2の複数の事象がいずれも検出されないと判定された場合、前記第1の複数の事象の残りが検出されたか否かを示す情報を取得するためのポーリングを、前記第1間隔より短い第2間隔で実行することを特徴とする請求項9に記載の管理計算機。 - 前記管理計算機は、
前記第1の複数の事象のうち、検出されないと判定された前記残りの事象が第3事象及び第4事象を含む場合であって、かつ、その判定の後に実行された前記ポーリングの結果、前記第4事象が検出されたか否かを示す情報を取得するためのポーリングを実行する前に前記第3事象が検出されないと判定された場合、次回の前記第3事象が検出されたか否かを示す情報を取得するためのポーリングを実行する前に前記第4事象が検出されたか否かを示す情報を取得するためのポーリングを実行しないことを特徴とする請求項9に記載の管理計算機。 - 前記一つ以上の事象集合は、第2の複数の事象を含む第2事象集合をさらに含み、
前記ルール情報は、前記第2事象集合と、前記第2事象集合に含まれる前記第2の複数の事象がすべて検出された場合に出力される第2結論と、を対応付ける第2ルールをさらに含み、
前記管理計算機は、
前記第2の複数の事象が検出されたか否かを示す情報を取得するためのポーリングを前記第1間隔で実行し、
前記第1の複数の事象のうち、検出されたと判定された事象の割合を第1割合として算出し、
前記第2の複数の事象のうち、検出されたと判定された事象の割合を第2割合として算出し、
前記第1割合が前記第2割合より高い場合、前記第2の複数の事象のうちまだ検出されていないと判定されたものが検出されたか否かを示す情報を取得するためのポーリングを実行する前に、前記第1の複数の事象のうちまだ検出されていないと判定されたものが検出されたか否かを示す情報を取得するためのポーリングを実行することを特徴とする請求項9に記載の管理計算機。 - 前記各事象は、一つ又は複数の前記事象集合に含まれ、
前記管理計算機は、
前記各事象を含む前記事象集合の数を前記事象ごとに計数し、
前記第1の複数の事象のうち、検出されないと判定された前記残りの事象が第3事象及び第4事象を含む場合であって、かつ、前記第3事象を含む前記事象集合の数が前記第4事象を含む前記事象集合の数より多い場合、次回の前記第4事象が検出されたか否かを示す情報を取得するためのポーリングを実行する前に、前記第3事象が検出されたか否かを示す情報を取得するためのポーリングを実行することを特徴とする請求項9に記載の管理計算機。 - 前記管理計算機は、
これから実行するポーリングの順序を示すタスクキュー情報を保持し、
前記タスクキュー情報の先頭に保持されたタスク情報に対応するポーリングから順に、前記第1間隔のポーリングを実行し、
前記第1の複数の事象のうち第3事象が検出されないと判定された場合、前記第3事象が検出されたか否かを示す情報を取得するためのポーリングに対応するタスク情報を前記タスクキュー情報に追加することを特徴とする請求項9に記載の管理計算機。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010514391A JP5027301B2 (ja) | 2008-05-27 | 2009-01-16 | 計算機システムにおける情報収集方法、その方法を用いる管理計算機、及び計算機システム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008138459 | 2008-05-27 | ||
JP2008138459 | 2008-05-27 | ||
JP2010514391A JP5027301B2 (ja) | 2008-05-27 | 2009-01-16 | 計算機システムにおける情報収集方法、その方法を用いる管理計算機、及び計算機システム |
PCT/JP2009/051010 WO2009144969A2 (ja) | 2008-05-27 | 2009-01-16 | 計算機システムにおける情報収集方法、その方法を用いる管理計算機、及び計算機システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2009144969A1 JPWO2009144969A1 (ja) | 2011-10-06 |
JP5027301B2 true JP5027301B2 (ja) | 2012-09-19 |
Family
ID=41377687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010514391A Expired - Fee Related JP5027301B2 (ja) | 2008-05-27 | 2009-01-16 | 計算機システムにおける情報収集方法、その方法を用いる管理計算機、及び計算機システム |
Country Status (4)
Country | Link |
---|---|
US (2) | US8086905B2 (ja) |
EP (1) | EP2287741A4 (ja) |
JP (1) | JP5027301B2 (ja) |
WO (1) | WO2009144969A2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8342759B2 (en) | 2009-03-05 | 2013-01-01 | Panasonic Corporation | Barrier unit |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8140914B2 (en) * | 2009-06-15 | 2012-03-20 | Microsoft Corporation | Failure-model-driven repair and backup |
CN102473129B (zh) * | 2009-07-16 | 2015-12-02 | 株式会社日立制作所 | 输出表示与故障的根本原因对应的恢复方法的信息的管理系统 |
JP5419746B2 (ja) * | 2010-02-23 | 2014-02-19 | 株式会社日立製作所 | 管理装置及び管理プログラム |
US8429455B2 (en) | 2010-07-16 | 2013-04-23 | Hitachi, Ltd. | Computer system management method and management system |
JP5419819B2 (ja) * | 2010-07-16 | 2014-02-19 | 株式会社日立製作所 | 計算機システムの管理方法、及び管理システム |
US8819220B2 (en) | 2010-09-09 | 2014-08-26 | Hitachi, Ltd. | Management method of computer system and management system |
WO2012120629A1 (ja) * | 2011-03-08 | 2012-09-13 | 株式会社日立製作所 | 計算機システムの管理方法及び管理装置 |
JP5352027B2 (ja) * | 2011-03-28 | 2013-11-27 | 株式会社日立製作所 | 計算機システムの管理方法及び管理装置 |
JP5803246B2 (ja) * | 2011-05-02 | 2015-11-04 | 日本電気株式会社 | ネットワーク運用管理システム、ネットワーク監視サーバ、ネットワーク監視方法およびプログラム |
WO2013088565A1 (ja) * | 2011-12-15 | 2013-06-20 | 富士通株式会社 | 検知装置、検知プログラムおよび検知方法 |
US9712615B2 (en) | 2012-04-23 | 2017-07-18 | Hitachi, Ltd. | Information acquisition method, computer system, and management computer |
WO2014013603A1 (ja) | 2012-07-20 | 2014-01-23 | 株式会社日立製作所 | 監視システム及び監視プログラム |
US9881056B2 (en) | 2012-10-31 | 2018-01-30 | Hitachi, Ltd. | Monitor system and monitor program |
WO2014147699A1 (ja) | 2013-03-18 | 2014-09-25 | 富士通株式会社 | 管理装置、方法及びプログラム |
JP2015011361A (ja) * | 2013-06-26 | 2015-01-19 | 富士通株式会社 | ジョブ監視プログラム、ジョブ監視方法、ジョブ監視装置、および被監視装置。 |
JP2016130892A (ja) * | 2015-01-13 | 2016-07-21 | 富士通株式会社 | 監視装置、情報処理システム及び監視プログラム |
JP6112123B2 (ja) * | 2015-01-19 | 2017-04-12 | トヨタ自動車株式会社 | 自動運転装置 |
US10621026B2 (en) * | 2017-06-04 | 2020-04-14 | Apple Inc. | Auto bug capture |
JP7028925B2 (ja) * | 2020-08-12 | 2022-03-02 | シチズン時計株式会社 | イベント通知システム、電子時計及びイベント通知方法 |
US11587595B1 (en) * | 2021-10-18 | 2023-02-21 | EMC IP Holding Company LLC | Method of identifying DAE-context issues through multi-dimension information correlation |
CN114792227A (zh) * | 2022-04-15 | 2022-07-26 | 麒麟软件有限公司 | 基于VSCode开发环境的健康管理系统及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01152838A (ja) * | 1987-12-10 | 1989-06-15 | Fujitsu Ltd | 高速データ収集方式および高速端末監視方式 |
JP2007334716A (ja) * | 2006-06-16 | 2007-12-27 | Nec Corp | 運用管理システム、監視装置、被監視装置、運用管理方法及びプログラム |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5740438A (en) * | 1995-03-31 | 1998-04-14 | International Business Machines Corporation | Methods and system for network communications of multiple partitions |
JPH09258983A (ja) | 1996-03-19 | 1997-10-03 | Nec Corp | プロダクションシステムの競合解消装置および競合解消ルール作成装置 |
US6330615B1 (en) * | 1998-09-14 | 2001-12-11 | International Business Machines Corporation | Method of using address resolution protocol for constructing data frame formats for multiple partitions host network interface communications |
US7206833B1 (en) * | 1999-09-30 | 2007-04-17 | Intel Corporation | Platform independent alert detection and management |
US6457142B1 (en) * | 1999-10-29 | 2002-09-24 | Lucent Technologies Inc. | Method and apparatus for target application program supervision |
US7028228B1 (en) | 2001-03-28 | 2006-04-11 | The Shoregroup, Inc. | Method and apparatus for identifying problems in computer networks |
US20040153692A1 (en) * | 2001-12-28 | 2004-08-05 | O'brien Michael | Method for managing faults it a computer system enviroment |
JP4120371B2 (ja) | 2002-11-28 | 2008-07-16 | 株式会社日立製作所 | 運用管理システム、管理計算機、監視対象計算機、運用管理方法及びプログラム |
JP4322509B2 (ja) * | 2003-01-16 | 2009-09-02 | 株式会社東芝 | 故障検出率算出装置及び故障検出率算出方法 |
US7237267B2 (en) * | 2003-10-16 | 2007-06-26 | Cisco Technology, Inc. | Policy-based network security management |
JP4255366B2 (ja) * | 2003-11-28 | 2009-04-15 | 富士通株式会社 | ネットワーク監視プログラム、ネットワーク監視方法、およびネットワーク監視装置 |
US7409445B2 (en) * | 2004-05-27 | 2008-08-05 | International Business Machines Corporation | Method for facilitating monitoring and simultaneously analyzing of network events of multiple hosts via a single network interface |
US7529181B2 (en) | 2004-12-07 | 2009-05-05 | Emc Corporation | Method and apparatus for adaptive monitoring and management of distributed systems |
US7849062B1 (en) * | 2005-03-18 | 2010-12-07 | Beyondcore, Inc. | Identifying and using critical fields in quality management |
EP2998894B1 (en) * | 2005-07-11 | 2021-09-08 | Brooks Automation, Inc. | Intelligent condition monitoring and fault diagnostic system |
US7424666B2 (en) * | 2005-09-26 | 2008-09-09 | Intel Corporation | Method and apparatus to detect/manage faults in a system |
JP4527642B2 (ja) * | 2005-09-29 | 2010-08-18 | 富士通株式会社 | ネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラム |
US8627335B2 (en) * | 2006-11-13 | 2014-01-07 | Oracle America, Inc. | Method and apparatus for data space profiling of applications across a network |
US7853417B2 (en) * | 2007-01-30 | 2010-12-14 | Silver Spring Networks, Inc. | Methods and system for utility network outage detection |
US20080301175A1 (en) * | 2007-05-31 | 2008-12-04 | Michael Applebaum | Distributed system for monitoring information events |
-
2008
- 2008-07-18 US US12/175,561 patent/US8086905B2/en not_active Expired - Fee Related
-
2009
- 2009-01-16 EP EP09754477.9A patent/EP2287741A4/en not_active Withdrawn
- 2009-01-16 JP JP2010514391A patent/JP5027301B2/ja not_active Expired - Fee Related
- 2009-01-16 WO PCT/JP2009/051010 patent/WO2009144969A2/ja active Application Filing
-
2011
- 2011-11-29 US US13/306,418 patent/US8356208B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01152838A (ja) * | 1987-12-10 | 1989-06-15 | Fujitsu Ltd | 高速データ収集方式および高速端末監視方式 |
JP2007334716A (ja) * | 2006-06-16 | 2007-12-27 | Nec Corp | 運用管理システム、監視装置、被監視装置、運用管理方法及びプログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8342759B2 (en) | 2009-03-05 | 2013-01-01 | Panasonic Corporation | Barrier unit |
Also Published As
Publication number | Publication date |
---|---|
US20090300428A1 (en) | 2009-12-03 |
US20120072775A1 (en) | 2012-03-22 |
WO2009144969A2 (ja) | 2009-12-03 |
US8356208B2 (en) | 2013-01-15 |
US8086905B2 (en) | 2011-12-27 |
JPWO2009144969A1 (ja) | 2011-10-06 |
EP2287741A1 (en) | 2011-02-23 |
EP2287741A4 (en) | 2015-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5027301B2 (ja) | 計算機システムにおける情報収集方法、その方法を用いる管理計算機、及び計算機システム | |
JP4527642B2 (ja) | ネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラム | |
JP6025753B2 (ja) | パフォーマンス・メトリックを監視するためのコンピュータによって実施される方法、コンピュータ可読記憶媒体、およびシステム | |
EP1405187B1 (en) | Method and system for correlating and determining root causes of system and enterprise events | |
US10122605B2 (en) | Annotation of network activity through different phases of execution | |
Gu et al. | Online anomaly prediction for robust cluster systems | |
US9389936B2 (en) | Monitoring the responsiveness of a user interface | |
WO2014109112A1 (ja) | 情報処理システム監視装置、監視方法、及び監視プログラム | |
US9348687B2 (en) | Determining a number of unique incidents in a plurality of incidents for incident processing in a distributed processing system | |
US7603458B1 (en) | System and methods for processing and displaying aggregate status events for remote nodes | |
US9246865B2 (en) | Prioritized alert delivery in a distributed processing system | |
KR100517242B1 (ko) | 컴퓨터 구현 모니터링 방법 | |
US9027025B2 (en) | Real-time database exception monitoring tool using instance eviction data | |
US5193178A (en) | Self-testing probe system to reveal software errors | |
US20160013990A1 (en) | Network traffic management using heat maps with actual and planned /estimated metrics | |
US8516499B2 (en) | Assistance in performing action responsive to detected event | |
US9658902B2 (en) | Adaptive clock throttling for event processing | |
US20160378583A1 (en) | Management computer and method for evaluating performance threshold value | |
US20100333071A1 (en) | Time Based Context Sampling of Trace Data with Support for Multiple Virtual Machines | |
US20120198477A1 (en) | Event overflow handling by coalescing and updating previously-queued event notification | |
JP2006277115A (ja) | 異常検出プログラムおよび異常検出方法 | |
JP7038629B2 (ja) | 機器状態監視装置及びプログラム | |
US20200142746A1 (en) | Methods and system for throttling analytics processing | |
Wang et al. | SaaS software performance issue identification using HMRF‐MAP framework | |
WO2020092852A1 (en) | Methods and system for throttling analytics processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120322 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120605 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120621 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150629 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |