JP5237034B2 - イベント情報取得外のit装置を対象とする根本原因解析方法、装置、プログラム。 - Google Patents

イベント情報取得外のit装置を対象とする根本原因解析方法、装置、プログラム。 Download PDF

Info

Publication number
JP5237034B2
JP5237034B2 JP2008252093A JP2008252093A JP5237034B2 JP 5237034 B2 JP5237034 B2 JP 5237034B2 JP 2008252093 A JP2008252093 A JP 2008252093A JP 2008252093 A JP2008252093 A JP 2008252093A JP 5237034 B2 JP5237034 B2 JP 5237034B2
Authority
JP
Japan
Prior art keywords
event
information
computer
operation management
management server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008252093A
Other languages
English (en)
Other versions
JP2010086115A (ja
JP2010086115A5 (ja
Inventor
知弘 森村
崇之 永井
公徳 菅内
沢希 黒田
偉浩 荒砥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2008252093A priority Critical patent/JP5237034B2/ja
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to PCT/JP2009/000285 priority patent/WO2010038327A1/ja
Priority to EP09817371.9A priority patent/EP2336890A4/en
Priority to US12/444,398 priority patent/US8020045B2/en
Priority to CN200980111739.7A priority patent/CN101981546B/zh
Publication of JP2010086115A publication Critical patent/JP2010086115A/ja
Publication of JP2010086115A5 publication Critical patent/JP2010086115A5/ja
Priority to US13/211,694 priority patent/US8479048B2/en
Application granted granted Critical
Publication of JP5237034B2 publication Critical patent/JP5237034B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)

Description

本願明細書に開示される技術は、サーバコンピュータ、ネットワーク装置、ストレージ装置を含む情報処理システムの運用を管理する運用管理方法、装置、システム、プログラム、プログラムを含む媒体及びプログラムの配布装置に関する。
近年、ITシステム(ITはInformation Technologyの略。なお、以後はITシステムを情報処理システムと呼ぶことがある)はネットワークを介して様々なIT装置(以後、情報処理装置と呼ぶことがある)が接続することで複雑化・大規模化し、障害はネットワークを介して様々なIT装置に影響を与えている。これらの障害の箇所と原因を特定する根本原因解析技術として、特許文献1にはIT装置から障害内容を通知されるイベント情報を用いて障害箇所と原因を解析するイベント相関技術が開示されている。また、イベント相関技術は、障害時に計算機から送信されるイベントの相関を利用して、根本原因を推測する技術とも言える。
また、非特許文献2では、当該技術と障害時のイベントの組み合わせと推測される根本原因を対にしてルール化することで、エキスパートシステムをベースとした推論エンジンを用いて根本原因を迅速に突き止める技術が開示されている。
米国特許第6,249,755号明細書 "Rete: A Fast Algorithm for the Many Pattern/Many Object Pattern Match Problem", ARTIFICIAL INTELLIGENCE, Vol. 19, no. 1, 1982, pp. 17−37
運用管理に必要な処理を行う運用管理サーバはネットワークに接続された全てのIT装置のイベントを採取することはできないため、運用管理サーバはイベント情報を受信(または取得)するIT装置を限定し、根本原因解析技術を用いて解析結果を表示する。
しかし、当該解析技術はネットワークに接続された全てのIT装置からイベント情報の取得ができることを前提としている。その結果、運用管理サーバがイベント情報を取得しないIT装置でイベント(例えば障害)が発生し、イベント情報を取得しているIT装置がこの障害の影響を受けた場合に、障害発生IT装置が解析対象外であるためにルールが適用されず、障害の根本原因を突き止められない。
本発明は、複数の情報処理装置と画面出力装置とプロセッサとメモリを有する運用管理サーバとから構成される情報処理システムの、前記複数の情報処理装置で発生するイベントの解析に関する装置、システム、方法、プログラム、記憶メディアを提供する。
本発明の一実施例によると、前記運用管理サーバについて、前記複数の情報処理装置の各々が、クライアントとしてネットワークサービスを用いるためにアクセス対象とする前記複数の情報処理装置の一部であるサーバ装置の識別情報を、前記メモリが有する構成情報に格納し、前記複数の情報処理装置の一部であって、前記運用管理サーバがイベント情報を取得する対象である複数のイベント取得対象装置を前記メモリが有する構成情報に登録し、前記複数の情報処理装置で発生する前記ネットワークサービスに関連した第一のイベント種別を含むイベントと、前記ネットワークサービスに関連した前記第一のイベント種別とは異なる第二のイベント種別を含むイベントと、を検知した場合に、前記第二のイベント種別に対応するイベントの発生が原因で前記第一のイベント種別に対応するイベントが発生し得ることを示す相関解析ルール情報を前記メモリに格納し、前記複数のイベント取得対象装置から収集した複数の前記イベント情報を前記メモリに格納し、前記相関解析ルール情報を元に、前記メモリに格納した複数の前記イベント情報から、前記第一のイベント種別を含む第一のイベント情報を特定し、前記構成情報を元に、前記第一のイベント情報を送信したイベント取得対象装置の一つである第一イベント取得対象装置と、前記第一のイベント種別に対応する前記ネットワークサービスにおける前記第一イベント取得対象装置のサーバ装置である障害要因装置とを特定し、前記相関解析ルール情報と前記構成情報とを元に、前記障害要因装置が前記複数のイベント取得対象装置でない場合に、前記第一イベント取得対象装置と前記第一のイベント種別と前記障害要因装置と前記第二のイベント種別とを特定する情報を前記画面出力装置へ送信することで、前記第一イベント取得対象装置で発生した前記第一のイベント情報に対応したイベントが、前記障害要因装置で前記第二のイベント種別のイベントが発生したことが要因と推定されることを前記画面出力装置へ表示させる。
なお、前記相関解析ルール情報は、前記第一のイベント種別が発生した前記複数の情報処理装置の一つである第一情報処理装置と、前記第二のイベント種別が発生した前記複数の情報処理装置の一つである第二情報処理装置と、の間のトポロジ条件を示すトポロジ条件情報を含み、前記要因特定ステップは、前記トポロジ条件情報に基づいて前記障害要因装置を特定してもよい。
また、前記相関解析ルール情報と前記構成情報に基づいて、前記複数のイベント取得対象装置のサーバ装置であって、前記複数のイベント取得対象装置に含まれない、前記複数の情報処理装置の一部であるイベント関連情報処理装置を特定し、前記イベント関連情報処理装置からイベント情報の取得が可能か調査し、前記調査の結果を元に、前記イベント関連情報処理装置からイベント情報の取得が可能な場合は前記イベント関連情報処理装置を特定する情報を前記画面出力装置へ送信することで、前記イベント関連情報処理装置からイベント情報の取得が可能であることを前記画面出力装置へ表示させてもよい。
また、前記イベント情報取得可否調査は、前記複数の情報処理装置であって予め調査範囲として設定されたIPアドレスの範囲に含まれるIPアドレスを有する情報処理装置に対して、前記運用管理サーバが所定の手順に基づくアクセスを行った結果に基づいてもよい。
また、前記障害要因装置はコントローラを有し、論理ボリュームを提供するストレージ装置であって、前記ネットワークサービスは前記論理ボリュームをブロックアクセス形式のプロトコルによって提供するサービスであって、前記第一のイベント種別が前記コントローラの障害発生であり、前記第一のイベント種別が前記論理ボリュームへのアクセス失敗であってもよい。
また、前記相関解析ルール情報と前記構成情報とを元に、前記障害要因装置が前記複数のイベント取得対象装置の一つの場合に、複数の前記イベント情報から前記第二のイベント種別を含み、前記障害要因装置が取得元である第二のイベント情報を特定し、前記第一イベント取得対象装置と前記第一のイベント情報と前記障害要因装置と前記第二のイベント情報とを特定する情報を前記画面出力装置へ送信することで、前記第一イベント取得対象装置で発生した前記第一のイベント情報に対応したイベントが、前記障害要因装置で発生した前記第二のイベント情報に対応したイベントが発生したことが要因であることを前記画面出力装置へ表示させてもよい。
また、本発明の別な一実施例によると、運用管理サーバにて、イベント情報取得対象の情報処理装置をイベント取得対象装置として構成情報に登録し、運用管理サーバに格納した複数のイベント情報から、予め格納したルールに適合するイベント情報を特定し、当該イベント情報が関連するネットワークサービスのサーバ装置を特定し、イベント情報を生成したクライアント情報処理装置で発生した当該イベントの要因がサーバ装置で発生したネットワークサービスに関するイベントと推定されることを表示する。
本発明によれば、イベント情報を取得しないIT装置にてイベントが発生した場合も解析結果を表示することができる。
以下に、本発明の実施の形態を説明する。
図1は、本発明を実施するため情報処理システムの1つの構成を示した概観図である。情報処理システムは運用管理システムと、運用管理サーバから構成される。運用管理システムは、ITシステムを構成する計算機、ネットワークスイッチ(NWスイッチ)、及びストレージ装置を管理対象として、運用管理サーバN0でこれらを監視・管理している。本発明の運用管理サーバN0は、管理対象のIT装置における状態変化、障害情報、通知情報などのイベント情報を受信するイベント受信部C0と、受信したイベント情報にもとづき、予め定義されたルールR0にもとづいて障害解析を行うルールエンジンC1と、管理対象のIT装置の構成情報を管理する構成管理C3と、これらの運用管理するために必要となる情報を画面に出力するための画面表示部C2が備わっている。
また、運用管理システムには、画面表示部の制御と出力データに基づいて、運用管理のための情報を画面に表示するための装置である画面出力装置M1があり、運用管理サーバN0と接続している。なお、画面出力装置M1としては第一に運用管理サーバに接続されたディスプレイ装置であることが考えられるが、運用管理システムの管理者に解析結果情報を表示することができれば他の装置で代替してもよい。画面出力装置M1のそのほかの例としては、画面出力装置として運用管理サーバN0が送信する電子メールを受信し、表示可能な携帯端末であったり、運用管理サーバN0が送信する解析結果情報を元に管理者に情報提供し、また管理者からの入力を受け付けて運用管理サーバN0に送信するディスプレイ付計算機がある。
ルールエンジンC1は、さらにイベントの相関解析のための解析ルール情報R0(以後、相関解析ルール情報と呼ぶことがある)を読みこみ、構成管理C3から構成情報T0を取得して、ルールをITシステムのIT装置に適用するための処理を行うルール適用部C11と、ルール適用部においてルールをIT装置に適用するための情報である適用情報を管理するルール適用先管理テーブルC130を管理し、ルールの解析処理を行うためのワーキングメモリであるルールメモリC13と、イベント受信部C0で受信したイベント情報を受け取り、イベントの相関解析を行う、イベント解析処理部C12から成る。なお、ルール適用先管理テーブルC130はルールメモリC13内に存在しなくても、運用管理サーバN0のメモリに格納されればよい。
なお、相関解析ルール情報は運用管理サーバN0の管理者によって作成・格納されてもよく、後述する本発明のプログラムに相関解析ルール情報を含めることでメモリに格納してもよく、または本発明のプログラムの初期化処理によって相関解析ルール情報をメモリに格納してもよい。
なお、運用管理サーバN0を構成するハードウェアとしては、プロセッサ、メモリ(半導体メモリ及びHDDに代表される二次記憶装置を含む)、ネットワークポートがある。それぞれのハードウェアはバス等の内部ネットワークによって接続される。なお、イベント受信部C0、ルートエンジンC1、画面表示部C2、構成管理C3は運用管理サーバN0のメモリに格納され、プロセッサによって実行されるプログラムとして実現されることが第一に考えられるが、これら機能の一部または全てをハードウェアで実現してもよい。なお、以後の説明ではイベント受信部C0、ルートエンジンC1、画面表示部C2、構成管理C3を含むプログラムをイベント解析プログラムと呼ぶ。
また、また、相関解析ルール情報R0、構成情報T0、ルール適用先管理テーブルC130は、運用管理サーバN0のメモリに格納されている。さらに、構成情報T0は後ほど説明する、IP−SANストレージ装置の接続情報(図8)、IP−SANストレージに関する情報(図9)、FC−SANストレージ装置の接続情報(図13)、FC−SANストレージに関する情報(図14)、ファイルサーバに関する識別情報と公開名(図15)の少なくとも一つが含まれる。また、後ほど説明する管理外IT装置管理テーブル(図11)についても構成情報に含まれるものとして説明するが、運用管理サーバN0のメモリに格納されていれば構成情報T0以外の情報として格納されていてもよい。
さらに、相関解析ルール情報R0、構成情報T0、ルール適用先管理テーブルC130、IP−SANストレージ装置の接続情報、IP−SANストレージに関する情報、FC−SANストレージ装置の接続情報、FC−SANストレージに関する情報、ファイルサーバに関する識別情報と公開名、管理外IT装置管理テーブルについてはテキストファイルやテーブル、キュー構造など特定のフォーマット、データ構造である必要はなく、後ほど説明する情報が含まれていればよい。以後の説明及び請求項にてより一般的な情報であることを明記するため、相関解析ルール情報R0、構成情報T0、ルール適用先管理テーブルC130、IP−SANストレージ装置の接続情報、FC−SANストレージ装置の接続情報、IP−SANストレージに関する情報、FC−SANストレージに関する情報、ファイルサーバに関する識別情報と公開名、管理外IT装置管理テーブルを、それぞれ相関解析ルール情報情報、構成情報、ルール適用先管理情報、IP−SANストレージ装置の接続情報、FC−SANストレージ装置の接続情報、IP−SANストレージに関する情報、FC−SANストレージに関する情報、ファイルサーバに関する識別及び公開名情報、管理外IT装置管理情報と呼ぶことがある。
なお、図示はしていないが、運用管理サーバは管理対象の様々なIT装置から受信するイベント情報をイベントエントリとしてメモリ内に定義したイベントデータベースに格納する。なお、イベントデータベースは一つ以上のイベントエントリが含まれていればどのようなデータ構造であっても良い。
なお、イベント情報はイベント内容が含まれるが、イベント発生時間を含んでもよい。さらにイベントデータベースは過去のイベント情報を定められた条件に従って履歴として残しても良い。また、イベントデータベースに含め、メモリに格納する場合は、運用管理サーバのプログラム(特に構成管理C3)はイベント情報取得対象のIT装置の識別情報と、運用管理サーバによるイベント情報受信時間と関連付け、共に含めるようにしてもよい。なお、イベント内容は少なくともイベントの種別が含まれ、場合によっては当該イベントが発生IT装置内のハードウェア及びソフトウェアを特体する情報が含まれてもよい。
またイベントの種別としては例えば以下が考えれれるが、これ以外の種別が存在してもよい。
(A)当該IT装置のの稼動状態が予め定められた状態となったこと(例えばハードウェア障害や、ソフトウェア障害の発生がこれに含まれる)
(B)ヘルスチェック結果が予め定められた結果となったこと。(例えば一定時間ヘルスチェック応答が無かった場合がこれに含まれる)
(C)処理速度やIT装置を構成するコンポーネントであるプロセッサやメモリ、HDDなどの消費リソース量が予め定められた条件に適合したこと(例えばHDDの残り容量が10%を下回った場合がこれに含まれる)
(D)IT装置が予め定められた条件を満たすネットワークアクセスを受信したこと(例えば、IT装置が受信したリクエストが所定の回数を超えた場合や、リクエストされたDoS攻撃と識別されるネットワークパケットを所定回数受信した場合や、定められたIT装置以外のIT装置からリクエストを受信した場合がこれに含まれる)
なお、イベント解析プログラムのメモリへの格納は当該プログラムを記憶したDVD−ROMやCD−ROM等の媒体からのインストールやコピーによる方法や、運用管理サーバN0と通信可能なプログラム配布サーバからの当該プログラム(または当該プログラムをメモリ上で生成可能な情報)を受信する方法が考えられるが、これ以外の方法であってもよい。また、運用管理サーバN0へのプログラム格納を予め格納した後で運用管理サーバN0を流通させる形態であってもよい。
以上説明した運用管理サーバN0によって情報処理システムの障害の根本原因を解析する。
なお、運用管理システムでは、予め管理する対象のIT装置を指定し、イベント情報を相関解析による解析対象として当該IT装置から必要な情報を受信する。このように運用管理システムにおいて、受信するIT装置を定めるのは、ネットワークに接続されたIT装置を全て管理することは、管理するために必要となる管理サーバのプロセッサ、メモリ、ハードディスクなどの記憶装置などの消費量が膨大となり、実用的な監視が困難であるため、管理する対象を絞ることでこれを回避するためである。また、管理ツールが商用のものである場合には、管理するIT装置の種類や台数などによりライセンス数に制限がある場合がほとんどである。このためITシステムにおいては、イベント情報解析のために、運用管理サーバN0がイベント情報を取得するまたは取得を許可されているIT装置(以後、監視されるIT装置、又は管理されるIT装置又は管理IT装置又は管理内IT装置又はイベント取得対象装置と表現することがある。なお同様の表現はIT装置の実態である計算機、スイッチ、ルータ、ストレージ装置に対しても適用する)と、運用管理サーバN0がイベント情報取得を取得しない又は取得を抑止されているIT装置(以後、監視されないIT装置、又は管理されないIT装置又は管理外のIT装置又は管理外IT装置又はイベント関連情報処理装置と表現することがある。なお同様の表現はIT装置の実態である計算機、スイッチ、ルータ、ストレージ装置に対しても適用する)が存在する。
運用管理サーバN0において監視・管理されないIT装置については、さらに、一度でも運用管理サーバN0において存在を発見、又は確認、又は管理されたことがあるIT装置と、一度も運用管理サーバN0において、その存在を発見、又は確認、又は管理されたことがないものに分類される。運用管理サーバN0によっては、一度でも管理したことがあるIT装置、又は発見、又は確認したことがあるIT装置については、監視・管理されているIT装置と同等とはいわないまでも、当該発見または確認によって取得した構成情報、例えばIT装置のIPアドレス、又はホスト名、又はFQDN(Fully Qualified Domain Name)などを内部に保持して管理するものもある。本発明では、対応する構成情報を運用管理サーバN0が持たない管理対象外のIT装置と、対応する構成情報の一部又は全てを運用管理サーバN0に格納済みの管理対象外のIT装置とを含めて、管理対象外のIT装置として定義する。
運用管理システムの管理対象外であるケースとしては、DNSサーバのようにグローバルに提供されたサービスを管理対象内のIT装置が利用している場合や、ファイアーウォール、アクセス権の問題、ネットワーク構成、アクセス手段の不備などの事情により、運用管理システムが管理するための情報収集を十分に行えない場合などがある。
なお、本発明はネットワーク上に存在する複数のIT装置同士の相関解析を対象としている。しかし、本来相関のある複数装置である要因によるイベントが同時発生したとしても個々の装置のクロックにはずれが生じ、さらにイベント情報転送のタイミングにもずれが生じるため、運用管理サーバN0が解析対象とするイベント情報はプログラム開発者が予め定めたられた時間幅(期間)または管理者が定めた期間内に発生または受信したイベント情報を解析する。また、ある要因が発生したとしても当該要因に関係するイベントの発生はずれが生じることがあるため(例えば、WebサービスやDNSサービス等、サーバ計算機からキャッシング処理を介在させて所定のネットワークサービスを受ける場合)、特定の時間ではなくて期間を対象とした解析が必要となる。
なお、イベントとして好適なものはある程度動的に発生する事項であることが好ましい。さらには、所定の要因が発生して要因となるIT装置でのイベントが発生(または運用管理サーバが受信)する時間と、当該要因を受けて別なIT装置でのイベントが発生(または運用管理サーバが受信)する時間の差が、前記期間内であるイベントの要因であることがより好適である。
一方の構成情報として考えられる情報は、IT装置を構成するハードウェアの種類及び個数や、当該装置と通信するために必要な通信識別情報や名前といったものが好適であり、一部IT装置の管理者によって変更は可能であるが準静的な情報が好適である。
図2は、上記の構成にもとづく本発明における実施形態の1つの大まかな処理の流れを示したものである。
S1においてルールエンジンC1は、予め相関解析ルール情報R0を読み込み、構成管理C3から管理対象の構成情報T0を取得して、ルール群R0の適用先のIT装置の識別情報をT0から検索して、ルール適用先管理テーブルC130に格納しておく。S1の処理は、この後に行うイベントによる障害解析処理のための準備であり、解析処理の前までに行えばよい。実施形態の1つである第一実施形態では、解析処理を運用開始前に行い、予めルール適用先管理テーブルC130をルールメモリC13内に保持しているものとする。
S2においては、イベント受信部C0にて、運用管理システム内の管理対象のIT装置から上げられるイベントの受信待ちうけを行う。
S3では、運用管理システムの運用操作に関するものであり、停止処理が指示されたかどうかを確認するためのステップであり、運用の停止を行うためのものである。
S4においては、イベント受信部C0でイベントを受信したかどうかの判断を行う。受信した場合には、S5においてイベント受信部C0より受信したイベントをイベント解析処理部C12に入力して、ルール適用先管理テーブルC130にもとづいて該当するルールを求めて、該ルールに従い障害原因を特定する。
S5においては、特定した障害原因を画面表示部C14に出力する。画面表示部C14は、受け取った解析結果出力データを元に解析情報を送信することで、画面出力装置M1に運用管理に必要な画面を出力・表示する。
なお、S2及びS4の処理の代替として受信したイベント情報を一旦イベントデータベースに格納してもよい。
この大まかな処理の流れにおいて、ルール適用部の処理に手を加えることで、構成やその後の処理の流れを大幅に変えることなく、管理対象でないIT装置の障害の原因解析を行えることが本発明の効果の1つである。
図3は、本発明の実施形態で想定するITシステムの構成の1つを示した概観図である。図3のITシステムは、管理サーバN0が運用管理する計算機N10、計算機N11、計算機N12と、ネットワークスイッチであるIPスイッチN21とFCスイッチN31、ストレージ装置N40とストレージ装置 N41で構成される運用管理対象である運用管理システムと、管理サーバN0が管理しない管理対象外のIT装置としてストレージ装置U2と計算機U5と、ルータN20を介してネットワークG0に接続されるストレージ装置U1と、計算機U3と計算機U4と、から構成される。なお、個々で記した計算機、スイッチ、ルータ、ストレージ装置等のIT装置の個数は一例であり、少なくともネットワークサービスを提供するサーバの役目を持ったIT装置と、当該ネットワークサービスの提供を受けるクライアントの役目を持ったIT装置が運用管理システムに含まれていればよい。
管理対象外のIT装置のストレージ装置U1はIP−SANのインタフェースを備えるストレージ装置であり、管理対象の計算機N10に対して論理ボリュームを提供している。また、管理対象外のIT装置のストレージ装置U2はFC−SANのインタフェースを備えるストレージ装置であり、管理対象のFCスイッチN31を介して管理対象の計算機N13に対して論理ボリュームを提供している。管理対象外のIT装置の計算機U3又は計算機U5はファイルサーバであり、それぞれ管理対象の計算機N10、N11の両方にファイルシステムを公開しているが、計算機U3は運用管理システムとは違うネットワークセグメントに属しており、計算機U3に関する詳細な情報はネットワーク上から取得できないようになっている。
一方で、計算機U5のファイルサーバは、運用管理システムと同一のネットワークセグメントに属しており、運用管理システムにより自動で存在を発見することができる計算機で、運用時に発見されたが、管理対象とはされなかったIT装置である。また、管理対象外のIT装置の計算機U4はDNSサーバであり、図3のITシステムの全てのIT装置に対して名前解決機能を適用している。
ここでは理解のために第一実施形態について述べる前に、管理対象のIT装置に対し、イベント相関技術のルールをどのように適用するかについて説明する。
図4は、図1で示したITシステムに対して、ストレージ装置のコントローラの障害が根本原因であることを示唆するルールの例である。こうした障害解析の根本原因を特定するルールは、イベント相関に基づき、発生すると予測されるイベントの組み合わせと、根本原因となる障害のペアをif−then形式で示すことが多い。if−then形式のルール表現においては、“もしif に記述された条件が成立するならば、then部分が真である”のような意味のルールを表記する。
実施例では、エキスパートシステムなどの一般的なルールと同様にif−thenの形式でルールが記述されているものとし、ルールの適用対象となるIT装置に関する情報がifの条件部分に予め定義されているものとする。なお、ルールの記述形式自体はif−then形式でなくても良く、ルールを適用する対象となるIT装置が特定できる何かしらの接続・関係情報としてトポロジが予め定義されていればよい。
なお、それぞれのルールを実際に格納する情報はルールエントリである。相関解析ルール情報は一つ以上のルールエントリを含む。なお、より抽象化すると当該ルールエントリは以下の情報が含まれると言っても良い。
(A)当該ルールが適合するイベントの種別を含んだ条件を示す条件エントリ。上記の通り、この条件エントリにはトポロジを条件として含めてもよい。
(B)当該条件が適合した場合に原因となるイベントと、当該イベントが関係するIT装置又はIT装置のハードウェア・ソフトウェアの箇所を表す原因エントリ。
第1実施例として、iSCSIを利用したIP−SANのストレージ装置のコントローラ障害を根本原因とするルールR1と、Fibre Channelを利用したFC−SANのストレージ装置のコントローラ障害を根本原因とするルールR2と、ファイルサーバの障害を根本原因とするルールR3と、DNSサーバへのネットワーク不到達を根本原因とするルールR4が図4に示すように予め定義されているものとする。また、図6には、ルールに対して、該ルールを適用するIT装置を保持する情報である、ルール適用先管理テーブルを示した。ルール適用先管理テーブルは、ルールを指し示す識別情報のカラムC101とそのルールを適用させる対象のIT装置の識別情報を格納する適用先IT装置のリストのカラムC102から成る情報であり、データベース上のテーブルである必要はない。なお、本テーブル状のデータ構造は、テーブルを正規化することにより、複数のテーブル状のデータ構造に分割して管理されていてもよい。
図3で示したルールR1乃至R4 に対して、それぞれのルールを適用させるトポロジのパターンを図5に示した。図5の(1)は、ルールR1のIF部が示唆する接続・関係情報のトポロジを示しており、計算機を示すComputerが、iScsiInitiatorを持ち、IPスイッチを示すIpSwitchを介して、ストレージ装置を示すStorageのiScsiTargetと接続されていることを示す。iScsiTargetは、iScsiInitiatorの接続先を識別するためのiSCSI名であり、計算機が持つ接続先のiScsiTargetと、ストレージ装置が持つiScsiのポートのiSCSI名が一致する計算機とストレージ装置の組み合わせに対してルールR1が適用される。図3で示されるITシステムにおいては、ルールR1の適用先のIT装置は図6のL101とL102の行のようになる。
また、図5の(2)についても同様に、ルールR2のIF部が示唆するように、計算機がFcHbaを備え、FcHbaがFcSwitchを介して、ストレージ装置のFcPortに繋がっていることを示す。このとき、FcHbaが持つ接続先ポートWWN(WWN: World Wide Name)と、ストレージ装置のFibre ChannelのポートであるFcPortのWWNであるFcPortWWNは一致しているものを接続関係があるものとしてルールR2の適用対象とする。図3のITシステムにおいて、これらの計算機とストレージ装置の組み合わせとしてルールR2の適用先のIT装置は図6のL103の行になる。
図5の(3)については、ルールR3のIF部がファイルサーバ−クライアントのトポロジを示している。ファイルサーバのファイルシステムをマウントしていることを示す情報ImportedFileShareを持つコンピュータT31と、外部にファイルシステムを公開していることを示す情報ExportedFileShareを持つコンピュータT33は、IPスイッチT32を介してそれぞれクライアント−ファイルサーバの関係である。このとき、ImportedFileShare T311にはマウント元のファイルサーバに関する情報として、ファイルサーバの識別情報(IPアドレスやFQDN(Fully Qualified Domain Name)など)と、公開しているファイルシステムの公開名を持ち、ExportedFileShare T331には、公開しているファイルシステムの場所と公開名(共有名とも呼ばれる)を持つ。
ImportedFileShareが指しているファイルサーバの識別情報で示されるコンピュータで、なおかつそのコンピュータがExportedFileShareの情報を持ち、ExportedFileShareの公開名がコンピュータT31のImportedFileShareが指している公開名と一致するコンピュータのペアをファイルクライアント−ファイルサーバのトポロジとしてルールR3を適用する。したがって、図3のITシステムにおいては、これを満たす組み合わせとしてルールR3の適用先のIT装置は図6のL104の行になる。
図5の(4)については、ルールR4が示唆するDNSサーバとクライアントのトポロジであり、名前解決サービスを提供しているDNSサーバであるコンピュータT42と、DNSサーバによりIPアドレスとFQDNの名前を解決しているクライアントのコンピュータT41がペアとなって、図6に示す適用先管理テーブルに格納される。
こうしたルールに記述された接続や関係に関するトポロジ情報に対する構成は、予めシステムで定義されているものとし、ルールの記述によって一意に定められる。
ルールに対する適用先のIT装置に関しては図6の適用先管理テーブルを持つことにより、イベント発生時にこのテーブルを参照することで、イベントがどのルールに関連するものなのかを判断し、適用すべきルールを選択することができる。以上が、管理対象のIT装置に対するルールの適用方法である。
図7及び図21及び図21は、図2のルール適用部C11におけるステップS1について、本発明の実施形態の1つを詳細化したものである。この処理フローに従い、図3のITシステムと、図4のルールR1乃至R4を想定して第一実施形態を説明する。なお、図7及び図21及び図21の処理は、全てルール適用部において行われるものである。また、予め運用管理システムは、一度発見したことがあるIT装置について記憶しており、発見済みのIT装置であると判断できることを前提とする。あるいは、運用管理システムが、ITシステム内のIT装置を自動で発見する機能を持たない場合、又は自動で発見する機能を持っていても、発見したIT装置について記憶する機能がない場合には、発見済みのIT装置は存在しないものとして図7及び図21の処理を行う。
(一般的なフローの説明及びルールR1を適用した場合について)
S101において、相関解析ルール情報情報R0に読み込むルール、すなわち読み込み済みでないルールが存在するかを判断する。判断の結果、読み込むルールが存在する(YESの)場合には、S102に移る。そうでなければ(NOの場合)終了する。読み込むルールはR1乃至R4と存在するので、ここではYESとなりS102に移る。
S102においては、ルールを1つ読み込み、読み込み済みとわかるように、例えばしるしをつけたり、読み込み済みのルールとして記憶したりする。実施形態では、ルールのR1を読み込み、ルールR1を読み込み済みルールとして記憶してS103に移る。
S103においては、ルールに記述されたトポロジ情報に対応するIT装置の検索条件を求めてS4に移る。実施形態では、ルールR1のトポロジ情報として、iScsiInitiatorを持つ計算機と、iScsiTargetで識別されるiSCSIのポートを持つストレージ装置、およびこれらに接続されたIPスイッチがルールR1を適用するIT装置の検索条件となる。検索条件は、予めルールの記述に対して定義されているものとする。
S104においては、トポロジ情報のうち、クライアント側のIT装置を管理対象のIT装置の構成情報から検索する。なお、構成情報の検索は、構成情報を管理しているものがデータベースであればデータベースに対して行い、ファイルであればファイルに対して行い、検索対象とする記憶メディアやデバイスなどは問わない。実施形態では、ルールR1のトポロジにおいてクライアントを示す、iScsiInitiatorを持つ計算機を構成情報から検索する。本実施例では、計算機N10又は計算機N11がiScsiInitiatorを持つものとすると、計算機N10と計算機N11の識別情報が検索により見つかる。
S105においては、S106以降の処理を複数の計算機の場合について実行するため、検索で見つかったIT装置で未選択なIT装置があるかを判断する。本実施例では、計算機N10と計算機N11が未選択なIT装置であるためS106に進む。
S106においては、未選択なIT装置から1つを選択し、選択済みとする。本実施例では計算機N10を選択し、計算機N10を選択済みとしてS107に進む。
S107においては、S106に於いて選択したIT装置とトポロジ上で対向となるサーバ側のIT装置の情報を取得する。ここでサーバ側のIT装置の情報としては、サーバ側のIT装置を識別する情報(IPアドレス、又はホスト名、FQDNなど)や、提供するサービスに関する情報(ファイルサーバにおける公開ファイルシステムの公開名(共有名とも呼ばれる)や、ストレージ装置のディスクボリュームを識別するLUN番号、あるいは接続先のiSCSI名、またはFC PortのWWN)がある。本実施例では、計算機N10に対向するサーバ側のストレージ装置の情報として、図8に示す接続先のiSCSI名であるConnectedIscsiTargetを取得する。
S108においては、S107で取得したサーバ側のIT装置に関する情報のうち、その情報に対応するIT装置を検索していないものが存在するかを判断し、存在する(YES)場合にはS109に、存在しない(NO)場合にはS105に移る。本実施例では、図8に示すように少なくとも3つの未検索の情報が存在する(YES)ため、S109に移る。
なお、ここで図8に含まれる情報を説明すると、当該情報にはIT装置(より具体的には計算機)を示す識別情報と、当該IT装置が接続先とするストレージ装置のiSCSIにおける識別情報を有する。
S109においては、S107で取得したサーバ側のIT装置の情報のうち、未検索のものを1つ選択し、この情報を元にサーバ側のIT装置を管理対象の構成情報から検索する。本実施例では、計算機N10より取得した図8に示されるConnectedIscsiTargetのL201行で示されるiSCSI名をiScsiTargetに持つストレージ装置を管理対象の構成情報から検索する。
S110において、S109の検索の結果、管理対象のIT装置に該当するものが存在しない(NO)場合には、S111に移る。一方で、管理対象のIT装置に該当するものが存在する(YES)場合には、通常のルール適用処理と同様となり、S121に移る。本実施例では、管理対象のストレージ装置のiScsiTargetに関する構成情報は図9に示したものとする。このとき、図8のL201行のConnectedIscsiTargetと一致するiScsiTargetを持つストレージ装置は図9に示したように管理対象には存在しないため、S111に移る。
なお、ここで図9に含まれる情報を説明すると、当該情報にはストレージ装置を示す識別情報と、当該ストレージ装置が有するiSCSIにおける識別情報を有する。
なお、発見済みの一つ以上のIT装置毎に当該装置がイベント取得対象であるかどうか(すなわち当該装置が監視される装置であるかどうか、言い方を代えると当該装置に対するイベント取得を許可しているか抑止しているか)を示すイベント取得可否情報が構成情報T0に含まれており、当該データを参照することでS110の判断を行う。
S111においては、運用管理システムにおいて既に発見したことがあるIT装置であるかどうかを判断する。すなわち、運用管理システムにおいて、一度でも存在を発見、又は確認、又は管理されたことがあるIT装置であって、部分的に運用管理システムが静的構成情報を持つようなIT装置であるかどうかをここでは判断する。本実施例では、図8のL201行のConnectedIscsiTargetと一致するiScsiTargetを持つストレージ装置に関する構成情報は一切なく、発見済みリソースでない(NO)であるものとしてS112に進む。
なお、S111の判断は構成情報に当該装置に関する情報(例えばイベント取得可否情報)が存在するかどうかで判別する方法がある。
S112において、図8のL201行のConnectedIscsiTargetと一致するiScsiTargetを持つストレージ装置を、管理外のIT装置から発見を試みる。S112の管理外IT装置の有無の検索方法の一例としては、構成情報より取得、又はユーザにより入力された対象となるリソースに対応するIPアドレスやFQDNなどの通信識別子、又は構成情報から取得、又はユーザにより入力された対象となるリソースを含むネットワークセグメントに対応するIPアドレスであるネットワークアドレス内のIPアドレス、又はFQDNなどの通信識別子に対して、対象となるリソースに関するサービス提供を求めるリクエストを送信し、その応答の有無を待って対象とするリソースの存在を確認する方法がある。本実施例では、図3に示すITシステムから発見を試みる。
S113においては、S112で試みた発見が成功したかどうかを判断する。成功した(YES)場合にはS14に移る。さもなければ(NO)S116に移る。本実施例では、図3に示すストレージ装置U3が該当するストレージ装置として発見されたものとしてS114に移る。
S114においては、S113に於いて発見したIT装置を、運用管理システムの管理対象とすることができるかどうかを判断する。管理対象とすることができるかどうかの判断は、その運用管理システムが監視・管理するために必要となる情報が、対象のIT装置から取得できるかどうかで判断する。監視・管理するために必要となる情報については、運用管理システムごとに様々であるが、共通的なものとしては、そのIT装置を識別する情報、例えばIPアドレス、又はWWN(World Wide Name)、又は何かしらのユニークな識別情報(番号)、装置名(ホスト名)、FQDNなど、少なくとも1つ以上の情報である。
また、そのIT装置を構成するハードウェアの種類または個数に関する一つ以上の情報も、ある程度は取得できるほうが好ましい。本発明では、運用管理サーバN0が所定の判断基準を持ち、その判断基準によってこの判断を行うものとする。本実施例では、ストレージ装置U3に関する情報として、このストレージ装置がiSCSIのポートを備え、そのiSCSIポートのiSCSI名としてiScsiTargetの情報が取得できるものとし、管理対象にすることができると判定されたものとしてS115に進む。なお、続く処理にて当該装置を管理対象とする場合があるため、本ステップにて当該IT装置からイベント情報が受信可能であることを確認処理に加え、確認できた場合のみS115に進むようにしてもよい。
S115においては、S113において発見されたIT装置を管理対象とするかどうかをユーザに提示する。本実施例では、ストレージ装置U3が計算機N1のストレージサーバとして発見されたことと、ストレージ装置U3を管理対象に入れるかどうかを提示する。提示画面は、図10である。
S116においては、運用管理サーバN0(特にルールエンジン)は管理画面出力装置からの入力を受信する。
S117において、ユーザが発見したIT装置を管理対象したかどうかを判断し、管理対象とした(YES)場合にはS118に進み、そうでなければ(NO)S119に進む。本実施例においては、ユーザはストレージ装置U3を管理対象としなかったものとしS119に進む。
S118においては、ユーザが管理対象に含める判断をしたIT装置に対して情報を取得し、管理対象のIT装置として構成管理に情報を格納する。本実施例では、この時点ではこちらの分岐には来ていない。
S119においては、クライアントと対向となるサーバを、管理外IT装置として管理外IT装置管理テーブルに取得可能な情報について格納して管理し、S120に進む。本実施例では、ストレージ装置U3について、装置を識別する情報としてFQDNと、ストレージ装置のIPポートのiSCSI名であるiScsiTargetが取得可能な情報であるものとし、これを図11の管理外IT装置管理テーブルTL3に格納する。
なお、ここで図11の説明を行うと、管理害IT装置管理テーブルTL3には発見した管理外IT装置の各々について以下の情報を含む。
(A)管理外IT装置の識別情報
(B)管理外IT装置の種別であるC401
(C)管理外IT装置の通信識別情報であるC402
(D)管理外IT装置のサービスにアクセスするために必要な識別情報であるC403
S120においては、管理外IT装置の識別情報を、該IT装置が管理外であることがわかるような印をつけた上で、図12に示すようにルール適用先管理テーブルTL1に格納する。本実施例では、ストレージ装置U3に関する管理外IT装置管理テーブルの情報を元に識別情報を、ルール適用先管理テーブルTL1に格納する。格納した後、選択したクライアント側のIT装置に対向するサーバ側のIT装置に関する検索情報が存在するかについてS8に戻る。
本実施例において、S108に戻ると、S107に於いて取得したサーバ側のストレージ装置に関する検索情報で未検索のものが存在するかを判断するが、計算機N10に関するサーバ側のストレージに関する検索情報は図8のL202の行が存在するため、S109に移る。
S109に移ると、L202に対応するストレージ装置を構成管理にて検索する。実施例では図9のように、L202に対応するストレージ装置が存在するため、L202に対するIT装置は管理対象であることがわかるので、S110において管理対象のIT装置であると判断してS120に移る。S120では、管理対象のIT装置としてストレージ装置N40と計算機N10のリストをルールR1の適用先IT装置として図11のルール適用先管理テーブルのL101に格納する。
以上のステップにより、計算機N10に対して論理ボリュームを提供している管理対象外のストレージ装置U1を含めてルールR1を適用できるようになる。
次に図11のルール適用先管理テーブルを用いて、図2のS6の一例、つまり管理外のストレージ装置U1で障害が発生した場合に、前記ストレージ装置U1を障害の根本原因として画面表示する処理について説明する。
ストレージ装置U1からコントローラの障害イベントが発生し、図1のイベント解析処理部C12において図11のルール適用先管理テーブルを元にルールによるイベント相関によって障害の原因箇所を特定されると、解析結果の情報が、画面表示部C2に送信される。画面表示部C2では、図16のフローにもとづき、根本原因のIT装置が管理対象かどうかを判断して、適切な画面を画面表示装置M1に表示させる。
図16のステップ601から603において画面標示部C2において、図17に示したルールエンジンにおける障害解析の結果を示す障害解析結果データD1をルールエンジンC1から取得する。なお、ルールエンジンC1(特にイベント処理解析部C12)は図2のS4及び図4及び図5にて説明した処理を行っている。
障害解析結果データD1は、障害原因IT装置に関する情報である障害原因IT装置情報と、運用管理システムが受信した管理対象のIT装置のイベントに関する情報である受信イベントリストと、を含むデータから成る。障害原因IT装置情報D11は、障害原因IT装置を示す情報と、障害箇所の部位に関する情報を含む。障害箇所の部位に関する情報は、管理対象外のIT装置である障害原因IT装置からどの程度の障害情報を取得できるかによる。全く障害情報を取得できない場合には、図17のように不明となる。受信イベントリストは、この障害について定義されているルールにおいて、関連がある受信イベントに関する情報である、受信イベントの発信元に関する情報である受信イベント発信元と、イベントの内容に関する情報を示すイベント種別とを含む。
S604において、取得した障害解析結果データD11の障害原因IT装置の情報から、管理対象か管理対象外かを判断する。本実施例では管理対象外のIT装置であるため、S605に進む。
S605では、障害解析結果データD11の障害原因IT装置の情報を元に図11の管理外IT装置管理テーブルを検索して、該管理外IT装置に関する情報を取得してS606に進む。本実施例ではストレージ装置U1について図11のL401から取得する。
S606では、S605にて取得した情報を含めて、発生した障害の根本原因が、管理外のIT装置が原因であることを画面に表示する。その際の画面の構成例は、図18のように、管理外IT装置が障害の根本原因であることを伝えるメッセージと、障害の原因について解析した結果である障害解析結果と、発生した障害に関して運用管理システムが検知している障害情報、例えば受信しているイベントなど、とを含んだウィンドウ、又はダイアログなど、画面表示を画面出力装置M1に出す。本実施例の管理外のIT装置であるストレージU1の障害が根本原因であるケースにおける画面表示例は、図19のようになる。障害原因IT装置が、管理対象外であることがわかる情報と、そのIT装置の種別が何であるか、例えばIP−SANストレージ装置であり、IT装置の識別情報として例えばIPアドレスが192.168.100.15であることを含むような画面表示である。
以上のステップにより、管理対象外IT装置のストレージ装置U1に障害があった場合に、ルールR1のようなIP−SANストレージの障害が管理対象外で起こった場合について適用できるようになり、根本原因が管理対象外のIP−SANストレージであることを画面に表示することができる。
(ルールR2についての処理フロー)
ルールR2について、図3のITシステムを対象とした実施例をもとにフローを説明する。
S101においてルールR2があるためS102に進み、S102では、ルールR2を読み込み、R2に読み込み済みの印をつける。S103において、ルールR2に記述されたトポロジ情報として図4の(2)のFC−SANトポロジとして、クライアント側にFibre ChannelのHost Bus Adapter、すなわちFcHbaT211を持つ計算機T21、FCスイッチT22を介して、サーバ側にFibre ChannelのポートであるFcPortT231を持つストレージ装置T23が接続されているトポロジを検索条件に定める。
S104において、クライアント側のIT装置として、FcHbaを持つ計算機である計算機N13が見つかったものとする。
S105において、計算機N13が未選択なIT装置であるので、S106に進む。
S106において、計算機N13を選択して、選択済みとする。
S107において、図13に示したように計算機N13より、接続先のサーバ側のストレージ装置のFibre ChannelのポートであるFC PortのWWNを示すConnectedFcPortWWN C502を収集する。
なお、図13のFC−SANストレージ装置の接続情報について説明すると、個々のIT装置に対応する情報として、接続先のストレージ装置が有するFibreChannelの通信識別情報を含む。
S108において、計算機N13における接続先のストレージ装置に関する検索情報であるConnectedFcPortWWNについて、未検索であるためS109に進む。
S109において、計算機N13で取得したConnectedFcPortWWNとして、L501行目のC502の値を用いて、構成管理において、このWWNをFcPortのWWNに持つストレージ装置を検索する。
S110において、S109で検索の結果、図13のL501行目のC502の値をFcPortのWWNとして持つストレージが図14に示すように管理対象の構成情報には存在しなかったため、S111に進む。
なお、ここで図14に含まれる情報を説明すると、当該情報にはストレージ装置を示す識別情報と、当該ストレージ装置が有するFibreChannelにおける通信識別情報を有する。
S111において、発見済みのストレージ装置の中で、図13のL501行目のC502の値をFcPortのWWNとして持つストレージ装置U2を発見したため、S115に進む。
S115において、発見済みのストレージ装置U2を管理内に含めるように提案する画面を表示する。図10は、ルールR1における画面表示例であるが、画面表示の構成は基本的に同様であり、メッセージの中身が実際のIT装置のものに置き換わるのみである。
S116にて管理者よりストレージ装置U2の識別情報と当該装置を管理対象とする指示情報を受信する。
S117において、ユーザが管理対象に含めたかどうかを確認し、本実施例では管理対象に含めたためS118に進む。
S118において、管理対象として新たに追加したストレージ装置U2について、管理対象のIT装置として取得が必要な情報を収集する。管理対象として取得する情報は、イベント情報と構成管理情報である。
S121においては、ストレージ装置U2を管理対象のIT装置として、計算機N14とともにルールR2の適用先IT装置としてルール適用先管理テーブルに登録する。本ケースの例では図12に示したルールのカラムC101と、そのルールの適用先となるIT装置リストを格納するカラムC102から成る、テーブル状のデータ構造に登録する。
以上により、ルールR2に対して、管理対象外のIT装置であるFC−SANストレージ装置の障害解析が従来のルールベースのイベント相関で行えるようになる。
なお、障害解析の結果データを元に、管理対象外のIT装置であるFC−SANストレージが障害の根本原因であると画面表示を出す処理については、ルールR1の管理対象外のIP−SANストレージを障害の根本原因であると画面表示した処理と同様にして図16のステップで行う。
上記の処理ステップにより、ルールR2に対しても、管理対象外IT装置のストレージ装置U2に障害があった場合に、ルールR2のようなFC−SANストレージの障害が管理対象外で起こった場合について適用できるようになり、根本原因が管理対象外のFC−SANストレージであることを画面に表示することができる。
(ルールR3についての処理フロー)
ルールR3について、図3のITシステムを対象とした実施例をもとにフローを説明する。
S101においてルールR3があるためS102に進み、S102では、ルールR3を読み込み、R103に読み込み済みの印をつける。S103において、ルールR3に記述されたトポロジ情報として図4の(3)のファイルサーバ・クライアントのトポロジとして、クライアント側に公開されているファイルシステムをマウントしていることを示すImportedFileShareT311を持つ計算機T31、IPスイッチT32を介して、サーバ側に他の計算機に公開しているファイルシステムを持つことを示すExportedFileShareT331を持つ計算機T33が接続されているトポロジを検索条件に定める。
S104において、図4の(3)のトポロジのクライアント側のIT装置として、図3の計算機N10が見つかったものとする。
S105において、検索されたクライアント側のIT装置として計算機N10があり、未選択であるため、S106に進む。
S106において、未選択のクライアント側のIT装置として図3の計算機N10を選択し、選択済みとする。
S107において、計算機N10と、図4の(3)のトポロジのサーバ側のIT装置として対向する計算機の検索情報として、どのファイルサーバの公開ファイルシステムをマウントしているかを示すImportedFileShareの情報を取得する。クライアント側から取得するファイルサーバに関する情報を管理するテーブルとして図15のようなクライアント側のコンピュータのカラムC701と、それに対応するファイルサーバに関する識別情報のカラムC702と、ファイルサーバの公開名に関するカラムC703を含むデータ構造、例えばテーブルなどで管理する。なお、クライアント側から取得するファイルサーバに関する情報は、予め構成情報として図15のテーブルで取得済みであっても構わないし、S7の処理においてクライアント側のIT装置から取得してきても構わない。すなわち取得するタイミングは、S107の処理が完了するまでに行われていればよい。
なお、ここで図15に含まれる情報を説明すると、当該情報には個々のファイルサーバ毎に以下の情報を含む。
(A)ファイルサーバーのIT装置としての識別情報
(B)一つ以上のファイルサーバとしての識別情報と公開名
S108において、S107で取得したクライアント側のファイルサーバに関する情報は、図15のL701行であり、未検索であるためS9に進む。
S109において、図15のL701行目のファイルサーバの識別情報のカラムC702の値、すなわちexportfs.domain2.comというFQDNを持つIT装置を検索する。
S110において、管理対象の構成情報T0の中にexportfs.domain2.comというFQDNを持つ計算機が存在しないことから、S111に進む。
S111において、発見済みリソースの中にexportfs.domain2.com というFQDNを持つ計算機が存在しないことから、S112に進む。
S112において、exportfs.domain2.comという計算機の発見を試みる。発見は、DNSサーバに問い合わせてIPアドレスを解決し、そのIPアドレスに対してpingによりか存在を確認した上で、telnet、又はssh、又はWindows(登録商標)のリモート接続などによりアクセスを試みる。本実施例では、exportfs.domain2.comに対するIPアドレスに対するpingは成功を返し、存在が確認できるが、そのサーバの認証情報を持たないため、その他のアクセスは失敗してログインできないものとしてS114に進む。
S114において、発見したexportfs.domain2.comの計算機は、pingでの応答を返すものの、それ以外の情報が取得できず、管理対象とすることができないのでS119に進む。
S119において、exportfs.domain2.comの計算機を図11の管理外IT装置管理テーブルに登録する。具体的には図10のL403のように、ファイルサーバ識別情報と、サービス識別情報にクライアント側で取得した情報を格納する。
S120において、クライアント側の計算機N10とexportfs.domain2.comの計算機Uとのペアに対するルール適用情報を生成する。具体的には、図121のL107のように、ルールR3に対して、適用先IT装置リストに、計算機N10と管理外IT装置である計算機U3を登録する。
以上により、計算機N10のファイルサーバである管理外のIT装置である計算機U3についても障害解析が行えるようになる。
同様にして、S101からS104のステップにより、ルールR3についてクライアント側のIT装置として計算機N11が見つかった場合の実施形態の処理フローを説明する。S105からS107のステップにより、計算機N11に対するファイルサーバとして図15のL703の行に示したファイルサーバに関する情報を取得する。S109において管理対象のIT装置に図15のL703行で示されたファイルサーバは見つからないため、S111に進む。S111においては、発見済みのリソースの中に図15のL703行で示されたIPアドレスを持つ計算機U5が存在するので、S115に進む。
S115において、計算機U5を管理対象に含めるように提案する画面を表示し、S116にてユーザ入力としてユーザが計算機U5を管理対象とする指示を受信する。
S117において、S116ユーザが計算機U5を管理対象とする指示を受信したため、S118に進む。
S118において、計算機U5を管理対象とするための情報として、発見済みリソースとして保持していたIT装置の識別情報、アクセスのための情報の他に、計算機U5の接続デバイスの構成情報と、稼動状態と、性能情報とを含む監視情報を取得して、構成管理C3の管理対象の構成情報T0に格納する。
S121において、管理内IT装置として計算機N11をクライアント、計算機U5をファイルサーバとするトポロジに対してルールR3を適用できるように、図12のL108行目のようなデータ構造としてルールメモリに格納する。
以上により、発見済みのIT装置で、なおかつ管理対象外であったファイルサーバの計算機U5に対する障害解析が、図2のフローにしたがって行え、画面表示部C2において図16のフローに行うことで、画面表示装置M1に障害原因を出力することができるようになる。
(ルールR4についての処理フロー)
ルールR4について、図3のITシステムを対象とした実施例をもとにフローを説明する。
S101からS104のステップにより、ルールR4についてクライアント側のIT装置として計算機N10を見つける。S105からS107のステップにより、計算機N10に対するDNSサーバの検索情報として、計算機N10よりDNSサーバのIPアドレス192.168.100.1を取得する。 S108からS110のステップにより、取得したIPアドレス192.168.100.1を利用して構成管理C3の管理対象の構成情報T0にDNSサーバが存在しないことを確認し、S111に進む。S111では、DNSサーバは発見済みIT装置ではないことを判断して、S112に進み、S112において実ITシステムからIPアドレス192.168.100.1のノードに対するアクセスを試みる。アクセスの結果、pingによるネットワーク到達が確認できたものの、認証情報を持たないためログインはできず、S114において管理対象とすることができないと判断してS119に進む。S119においては、IPアドレス192.168.100.1の計算機を管理対象外IT装置として図11のL404に示したようにDNSサーバとして識別情報U4で情報を格納・管理してS120に進む。S120において、クライアントの計算機N10と、DNSサーバである管理外のIT装置の計算機U4をルール4の適用先IT装置リストとして図12のL109行のように格納する。
以上のステップにより、管理外のDNSサーバである計算機U4の障害解析が、従来のルールによるイベント相関により解析できるようになり、障害原因として管理外のDNSサーバを特定することができるようになる。
図3のそのほかのIT装置に対するルール4の適用についても同様にして、管理外のDNSサーバである計算機U4に対して適用情報が生成されることで行える。
また、他のルールの実施例と同様にして、図16のフローを画面表示部C2にて行うことで、管理外のIT装置であるDNSサーバが障害の根本原因であることを画面に表示することができる。
本発明の第2の実施形態は、第1の実施形態において図2に示した障害解析の全体処理フローの処理手順を、図20に示したように、ルール適用部C11における適用情報を作成するステップS4bをイベント受信するステップS3bよりもあとで、なおかつイベント解析部C12におけるイベント解析処理のステップS5bよりも前のステップで行う。この第2実施形態と、第1実施形態の違いは、ルールの適用情報を作成するタイミングのみである。
上記のように、ルールの適用情報のタイミングを変えて本発明を実施しても効果は損なわれず、管理対象外のIT装置を障害の根本原因装置であると画面に表示することは可能である。
以上、本願明細書の実施例1と実施例2による複数の情報処理装置と画面出力装置とに接続され、プロセッサとメモリを有する運用管理サーバにおける前記複数の情報処理装置で発生するイベントの解析を実現するプログラムは以下の処理の一部または全てを有する。
(a)前記複数の情報処理装置の各々が、クライアントとしてネットワークサービスを用いるためにアクセス対象とする前記複数の情報処理装置の一部であるサーバ装置の識別情報を、前記メモリが有する構成情報に格納する構成情報格納処理。
(b)前記複数の情報処理装置の一部であって、前記運用管理サーバがイベント情報を取得する対象である複数のイベント取得対象装置を前記メモリが有する構成情報に登録する登録処理。
(c)前記複数の情報処理装置で発生する前記ネットワークサービスに関連した第一のイベント種別を含むイベントと、前記ネットワークサービスに関連した前記第一のイベント種別とは異なる第二のイベント種別を含むイベントと、を検知した場合に、前記第二のイベント種別に対応するイベントの発生が原因で前記第一のイベント種別に対応するイベントが発生し得ることを示す相関解析ルール情報を前記メモリに格納するルール格納処理。
(d)前記複数のイベント取得対象装置から収集した複数の前記イベント情報を前記メモリに格納するイベント格納処理。
(e)前記相関解析ルール情報を元に、前記メモリに格納した複数の前記イベント情報から、前記第一のイベント種別を含む第一のイベント情報を特定するイベント情報特定処理。
(f)前記構成情報を元に、前記第一のイベント情報を送信したイベント取得対象装置の一つである第一イベント取得対象装置と、前記第一のイベント種別に対応する前記ネットワークサービスにおける前記第一イベント取得対象装置のサーバ装置である障害要因装置とを特定する、要因特定処理。
(g)前記相関解析ルール情報と前記構成情報とを元に、前記障害要因装置が前記複数のイベント取得対象装置でない場合に、前記第一イベント取得対象装置と前記第一のイベント種別と前記障害要因装置と前記第二のイベント種別とを特定する情報を前記画面出力装置へ送信することで、前記第一イベント取得対象装置で発生した前記第一のイベント情報に対応したイベントが、前記障害要因装置で前記第二のイベント種別のイベントが発生したことが要因と推定されることを前記画面出力装置へ表示させる解析結果送信処理。
さらには、前記相関解析ルール情報は、前記第一のイベント種別が発生した前記複数の情報処理装置の一つである第一情報処理装置と、前記第二のイベント種別が発生した前記複数の情報処理装置の一つである第二情報処理装置と、の間のトポロジ条件を示すトポロジ条件情報を含み、前記要因特定ステップは、前記トポロジ条件情報に基づいて前記障害要因装置を特定してもよい。このような処理によってイベントが発生した情報処理装置が実際に用いている情報処理装置に限定して推定を提示できるため、より運用管理サーバの利用者に利便性の高い。
また、運用管理サーバは以下の処理を有してもよい。
(h)前記相関解析ルール情報と前記構成情報に基づいて、前記複数のイベント取得対象装置のサーバ装置であって、前記複数のイベント取得対象装置に含まれない、前記複数の情報処理装置の一部であるイベント関連情報処理装置を特定する、関連装置特定処理。
(i)前記イベント関連情報処理装置からイベント情報の取得が可能か調査する、イベント情報取得可否調査処理。
(j)前記調査の結果を元に、前記イベント関連情報処理装置からイベント情報の取得が可能な場合は前記イベント関連情報処理装置を特定する情報を前記画面出力装置へ送信することで、前記イベント関連情報処理装置からイベント情報の取得が可能であることを前記画面出力装置へ表示させる、イベント情報取得対象追加提案処理。
このような処理は、情報処理装置の管理者または管理方法の変更によって新たに運用管理サーバでイベント監視が必要または可能となった時点から迅速に、登録忘れをせずに運用管理サーバへの登録を促進することができる。
さらには、前記イベント情報取得可否調査処理は、前記複数の情報処理装置であって予め調査範囲として設定されたIPアドレスの範囲に含まれるIPアドレスを有する情報処理装置に対して、前記運用管理サーバが所定の手順に基づくアクセスを行った結果に基づいてもよい。情報処理装置(特にインターネットを介してアクセスするサーバ計算機)には不正アクセスや不正攻撃を防止するために当該装置外部からのアクセスを監視している場合があり、当該調査処理によるアクセスを行った場合もアクセス監視により不正アクセスや不正攻撃と見なされることがある。そのため、明らかにイベント監視の対象としない情報処理装置のIPアドレス、またはイベント監視対象になりうる情報処理装置のIPアドレスの範囲を特定することで、こうした不正アクセスや不正攻撃と誤認されるような通信を抑止することができる。
さらには、前記障害要因装置はコントローラを有し、論理ボリュームを提供するストレージ装置であって、前記ネットワークサービスは前記論理ボリュームをブロックアクセス形式のプロトコル(例えばFibreChannelやiSCSIがある)によって提供するサービスであって、前記第一のイベント種別が前記ストレージ装置の障害発生であり、前記第一のイベント種別が前記論理ボリュームへのアクセス失敗であってもよい。
さらには、前記障害要因装置は前記ネットワークサービスとしてDNSを提供する計算機であって、前記第一のイベント種別がDNS要求失敗であり、前記第一のイベント種別がDNSサーバの通信断絶であってもよい。
さらには、前記障害要因装置は前記複数の情報処理装置の少なくとも一つからデータを受信するNICを有し、格納したファイルを前記複数の情報処理装置の少なくとも一つに提供するファイルサーバ計算機であって、前記ネットワークサービスは前記ファイルサーバ計算機が格納したファイルを共有するネットワークファイル共有サービスであって、前記第一のイベント種別が前記ファイルサーバの障害発生(例えばNICの障害発生、ファイルサーバが有するプロセッサが実行するソフトウェアの不具合の発生、その他ファイルサーバの通信機能が停止する障害の発生)であり、前記第一のイベント種別が前記ネットワークファイル共有サービスで提供されたファイルへのアクセス失敗であってもよい。
さらには、前記相関解析ルール情報と前記構成情報とを元に、前記障害要因装置が前記複数のイベント取得対象装置の一つの場合に、複数の前記イベント情報から前記第二のイベント種別を含み、前記障害要因装置が取得元である第二のイベント情報を特定し、前記第一イベント取得対象装置と前記第一のイベント情報と前記障害要因装置と前記第二のイベント情報とを特定する情報を前記画面出力装置へ送信することで、前記第一イベント取得対象装置で発生した前記第一のイベント情報に対応したイベントが、前記障害要因装置で発生した前記第二のイベント情報に対応したイベントが発生したことが要因であることを前記画面出力装置へ表示させてもよい。
さらには、前記第一情報処理装置が計算機であり、前記第二情報処理装置がストレージ装置であり、前記トポロジ条件情報は、前記計算機と前記ストレージ装置とが接続するトポロジの接続関係を示す、前記計算機に対応する通信識別情報と前記ストレージ装置に対応する通信識別情報との組み合わせを含めても良い。なお、これら通信識別情報としてはiSCSI名と、IPアドレスと、FibreChannelにおけるWWNとの少なくとも一つが考えられる。
さらには、前記第一情報処理装置が計算機であり、前記第二情報処理装置はファイル共有サービスによって格納したファイルを前記複数の情報処理装置へ提供するファイルサーバ計算機であり、前記トポロジ条件情報は、前記計算機と前記ファイルサーバ計算機とが接続するトポロジの接続関係を示す前記計算機に対応する通信識別情報と前記ファイルサーバ計算機に対応する通信識別情報又は前記ファイルを公開するエクスポート名との組み合わせを含めても良い。
さらには、前記第一情報処理装置は計算機であり、前記第二情報処理装置がネットワーク共有サービスとしてDNSを前記複数の情報処理装置に提供するDNSサーバ計算機であり、前記トポロジ条件情報は、前記計算機と前記DNSサーバ計算機とが接続するトポロジの接続関係を示す前記計算機に対応する通信識別情報と前記DNSサーバ計算機に対応する通信識別情報との組み合わせを含めても良い。なお、前記計算機に対応する通信識別情報と前記DNSサーバ計算機に対応する通信識別情報とは、IPアドレス又はFQDNが考えられる。
さらには、前記運用管理サーバは一つ以上の計算機から構成されてもよい。
本発明の運用管理システムの全体構成図を示したものである。 本発明における実施形態の1つである障害解析の全体処理フローを模式的に示したものである。 本発明が対象とするITシステムの代表的な構成例の一つを模式的に示したものである。 本発明の運用管理システムで用いられる相関解析ルール情報を模式的に示したものである。 図4に示した相関解析ルール情報で適用対象として指定されるトポロジを模式的に示したものである。 ルールの適用先となるIT装置のリストを管理するテーブル状のデータ構造の一例であるルール適用先管理テーブルを模式的に示したものである。 本発明の実施形態の1つである相関解析ルール情報の適用情報の生成処理フローである。 本発明の第一実施形態におけるIP−SANのクライアントとなる計算機で取得したIP−SANストレージ装置の接続情報を模式的に示したものである。 本発明の第一実施形態における、構成管理で保持する管理対象IT装置のIP−SANストレージに関する構成情報を模式的に示したものである。 本発明の第一実施形態における、管理外IT装置を管理対象に含めることをユーザに提案する画面表示例である 本発明の第一実施形態における、管理外IT装置を管理するためのテーブル状のデータ構造の一例である管理外IT装置管理テーブルを模式的に示したものである。 本発明の第一実施形態における、ルールの適用先IT装置のリストを保有するルール適用先管理テーブルを模式的に示したものである。 本発明の第一実施形態におけるFC−SANのクライアントとなる計算機で取得したFC−SANストレージ装置の接続情報を模式的に示したものである。 本発明の第一実施形態における、構成管理で保持する管理対象IT装置のFC−SANストレージに関する情報を模式的に示したものである。 本発明の第一実施形態における、ファイルサーバとなる計算機において取得できるファイルサーバに関する識別情報と公開名を模式的に示したものである。 本発明の第一実施形態における、障害解析結果の画面表示処理フローを模式的に示したものである。 本発明の第一実施形態における、管理外IT装置が障害の原因である場合の障害解析結果データの一例を模式的に示したものである。 本発明の第一実施形態における、管理外IT装置が障害の原因である場合の障害解析結果の画面表示の構成例を模式的に示したものである。 本発明の第一実施形態における、管理外IT装置が障害の原因である場合の障害解析結果の画面表示を模式的に示したものである。 本発明の第二実施形態における、障害解析の全体処理フローを模式的に示したものである。 本発明の実施形態の1つである相関解析ルール情報の適用情報の生成処理フローである。
符号の説明
N0...運用管理サーバ
N1乃至N3...計算機
N4...ネットワーク(NW)スイッチ
N5...ストレージ装置
O1...計算機
O2...NWスイッチ
O3...ストレージ装置
M1...画面出力装置

Claims (28)

  1. それぞれがイベント情報を取得する対象である複数のイベント取得対象装置と前記複数のイベント取得装置ではない対象外装置の1つでありネットワークサービスを提供するサーバ装置とを含んだ複数の情報処理装置を管理する運用管理サーバで実行されるプログラムであって、
    前記複数のイベント取得対象装置から収集した複数のイベント情報を格納するイベント格納ステップと、
    前記ネットワークサービスに関連した第一のイベント種別とは異なる第二のイベント種別に対応するイベントの発生が原因で前記第一のイベント種別に対応するイベントが発生し得ることを示す相関解析ルール情報を元に、格納済みの前記複数のイベント情報から、前記第一のイベント種別を含む第一のイベント情報を特定するイベント情報特定ステップと、
    情報処理装置と情報処理装置の接続先の関係を表す構成情報を元に、前記第一のイベント情報を送信した第一イベント取得対象装置と、前記第一イベント取得対象装置に接続されているサーバ装置である障害要因装置とを特定する要因特定ステップと、
    前記相関解析ルール情報と前記構成情報とを元に、前記障害要因装置が前記複数のイベント取得対象装置でない装置である対象外装置の場合に、前記第一のイベント情報が表すイベントの要因が前記第二のイベント種別に対応したイベントが前記障害要因装置で発生したことであると推定されることを意味する情報を表示させる第一表示ステップと、
    前記運用管理サーバに実行させることを特徴としたプログラム。
  2. 請求項1記載のプログラムであって、
    前記相関解析ルール情報は、前記第一のイベント種別に対応したイベントが発生した前記情報処理装置の一つである第一情報処理装置と、前記第二のイベント種別に対応したイベントが発生した前記情報処理装置の一つである第二情報処理装置と、の間のトポロジ条件を示すトポロジ条件情報を含み、
    前記要因特定ステップは、前記トポロジ条件情報に基づいて前記障害要因装置を特定する、
    ことを特徴としたプログラム。
  3. 請求項2記載のプログラムであって、
    前記相関解析ルール情報と前記構成情報に基づいて、前記対象外装置を特定する対象外装置特定ステップと、
    前記対象外装置からイベント情報の取得が可能か調査する調査ステップと、
    前記対象外装置からイベント情報の取得が可能な場合は、前記対象外装置からイベント情報の取得が可能であることを表示させる追加提案ステップと、
    前記運用管理サーバに実行させることを特徴としたプログラム。
  4. 請求項3記載のプログラムであって、
    前記調査ステップは、予め調査範囲として設定されたIPアドレスの範囲に含まれるIPアドレスを有する情報処理装置に対して、前記運用管理サーバが所定の手順に基づくアクセスを行った結果に基づく
    ことを特徴としたプログラム。
  5. 請求項1記載のプログラムであって、
    前記障害要因装置はコントローラを有し論理ボリュームを提供するストレージ装置であって、
    前記ネットワークサービスは前記論理ボリュームをブロックアクセス形式のプロトコルによって提供するサービスであって、
    前記第のイベント種別に対応するイベントの発生前記ストレージ装置の障害発生であり、
    前記第一のイベント種別に対応するイベントが、前記論理ボリュームへのアクセス失敗である、
    ことを特徴としたプログラム。
  6. 請求項5記載のプログラムであって、
    前記ブロックアクセス形式のプロトコルは、Fibre Channel又はiSCSIである
    ことを特徴としたプログラム。
  7. 請求項1記載のプログラムであって、
    前記障害要因装置は前記ネットワークサービスとしてDNSを提供する計算機であって、
    前記第一のイベント種別に対応するイベントDNS要求失敗であり、
    前記第のイベント種別に対応するイベントDNSサーバの通信断絶である、
    ことを特徴としたプログラム。
  8. 請求項1記載のプログラムであって、
    前記障害要因装置は格納したファイルを前記複数の情報処理装置の少なくとも一つに提供するファイルサーバ計算機であって、
    前記ネットワークサービスは前記ファイルサーバ計算機が格納したファイルを共有するネットワークファイル共有サービスであって、
    前記第のイベント種別に対応したイベント前記ファイルサーバ計算機の障害発生であり、
    前記第一のイベント種別に対応したイベント前記ネットワークファイル共有サービスで提供されたファイルへのアクセス失敗である、
    ことを特徴としたプログラム。
  9. 請求項1記載のプログラムであって、
    前記障害要因装置が前記複数のイベント取得対象装置のうちの1つである場合は、前記相関解析ルール情報と前記構成情報とに基づいて、複数の前記イベント情報から前記第二のイベント種別に対応したイベントを表し前記障害要因装置が取得元である第二のイベント情報を特定し、前記第一イベント取得対象装置で発生した前記第一のイベント情報が表すイベントが発生した要因が、前記障害要因装置で発生した前記第二のイベント情報に対応したイベントが発生したことであることを表示させる第二表示ステップ、
    前記運用管理サーバに実行させることを特徴としたプログラム。
  10. 請求項2記載のプログラムであって、
    前記第一情報処理装置が計算機であり、
    前記第二情報処理装置がストレージ装置であり、
    前記トポロジ条件情報は、前記計算機と前記ストレージ装置とが接続するトポロジの接続関係を示す、前記計算機に対応する通信識別情報と前記ストレージ装置に対応する通信識別情報との組み合わせを含む、
    ことを特徴としたプログラム。
  11. 請求項10記載のプログラムであって、
    前記計算機に対応する計算機通信識別情報と前記ストレージ装置に対応する通信識別情報とは、iSCSI名と、IPアドレスと、FibreChannelにおけるWWNとの少なくとも一つである
    ことを特徴とするプログラム。
  12. 請求項2記載のプログラムであって、
    前記第一情報処理装置が計算機であり、
    前記第二情報処理装置はファイル共有サービスによって格納したファイルを前記複数の情報処理装置へ提供するファイルサーバ計算機であり、
    前記トポロジ条件情報は、前記計算機と前記ファイルサーバ計算機とが接続するトポロジの接続関係を示す前記計算機に対応する通信識別情報と前記ファイルサーバ計算機に対応する通信識別情報又は前記ファイルを公開するエクスポート名との組み合わせ、を含む、
    ことを特徴としたプログラム。
  13. 請求項2記載のプログラムであって、
    前記第一情報処理装置は計算機であり、前記第二情報処理装置がネットワーク共有サービスとしてDNSを前記複数の情報処理装置に提供するDNSサーバ計算機であり、
    前記トポロジ条件情報は、前記計算機と前記DNSサーバ計算機とが接続するトポロジの接続関係を示す前記計算機に対応する通信識別情報と前記DNSサーバ計算機に対応する通信識別情報との組み合わせを含む、
    ことを特徴としたプログラム。
  14. 請求項13記載のプログラムであって、
    前記計算機に対応する通信識別情報と前記DNSサーバ計算機に対応する通信識別情報とは、IPアドレス又はFQDNである、
    ことを特徴としたプログラム。
  15. それぞれがイベント情報を取得する対象である複数のイベント取得対象装置と前記複数のイベント取得装置ではない対象外装置の1つでありネットワークサービスを提供するサーバ装置とを含んだ複数の情報処理装置を管理し、プロセッサ及びメモリを有する運用管理サーバであって、
    前記メモリは、
    前記ネットワークサービスに関連した第一のイベント種別とは異なる第二のイベント種別に対応するイベントの発生が原因で前記第一のイベント種別に対応するイベントが発生し得ることを示す相関解析ルール情報と、
    情報処理装置と情報処理装置の接続先との関係を表す構成情報と、
    を記憶し、
    前記プロセッサは、
    (a)前記複数のイベント取得対象装置から収集した複数のイベント情報を格納し、
    (b)前記相関解析ルール情報を元に、格納済みの前記複数のイベント情報から、前記第一のイベント種別を含む第一のイベント情報を特定
    (c)前記構成情報を元に、前記第一のイベント情報を送信した第一イベント取得対象装置と、前記第一イベント取得対象装置に接続されているサーバ装置である障害要因装置とを特定
    (d)前記相関解析ルール情報と前記構成情報とを元に、前記障害要因装置が前記複数のイベント取得対象装置でない装置である対象外装置の場合に、前記第一のイベント情報が表すイベントの要因が前記第二のイベント種別に対応したイベントが前記障害要因装置で発生したことであると推定されることを意味する情報を表示させる、
    を実行する
    ことを特徴とした運用管理サーバ
  16. 請求項15記載の運用管理サーバであって、
    前記相関解析ルール情報は、前記第一のイベント種別に対応したイベントが発生した前記情報処理装置である第一情報処理装置と、前記第二のイベント種別に対応したイベントが発生した前記情報処理装置の一つである第二情報処理装置と、の間のトポロジ条件を示すトポロジ条件情報を含み、
    前記プロセッサは、前記(c)の処理において、前記トポロジ条件情報に基づいて前記障害要因装置を特定する、
    ことを特徴とした運用管理サーバ。
  17. 請求項16記載の運用管理サーバであって、
    前記プロセッサが、
    (f)前記相関解析ルール情報と前記構成情報に基づいて、前記対象外装置を特定
    (g)前記対象外装置からイベント情報の取得が可能か調査
    (h)前記対象外装置からイベント情報の取得が可能な場合は、前記対象外装置からイベント情報の取得が可能であることを表示させる、
    ことを特徴とした運用管理サーバ。
  18. 請求項17記載の運用管理サーバであって、
    前記(h)の調査は、予め調査範囲として設定されたIPアドレスの範囲に含まれるIPアドレスを有する情報処理装置に対して、所定の手順に基づくアクセスを行った結果に基づく
    ことを特徴とした運用管理サーバ。
  19. 請求項15記載の運用管理サーバであって、
    前記障害要因装置はコントローラを有し、論理ボリュームを提供するストレージ装置であって、
    前記ネットワークサービスは前記論理ボリュームをブロックアクセス形式のプロトコルによって提供するサービスであって、
    前記第のイベント種別に対応したイベント前記ストレージ装置の障害発生であり、前記第一のイベント種別に対応したイベント前記論理ボリュームへのアクセス失敗である、
    ことを特徴とした運用管理サーバ。
  20. 請求項19記載の運用管理サーバであって、
    前記ブロックアクセス形式のプロトコルはFibreChannel又はiSCSIである
    ことを特徴とした運用管理サーバ。
  21. 請求項15記載の運用管理サーバであって、
    前記障害要因装置は前記ネットワークサービスとしてDNSを提供する計算機であって、
    前記第一のイベント種別に対応したイベントDNS要求失敗であり、
    前記第のイベント種別に対応したイベントDNSサーバの通信断絶である、
    ことを特徴とした運用管理サーバ。
  22. 請求項15記載の運用管理サーバであって、
    前記障害要因装置は格納したファイルを前記複数の情報処理装置の少なくとも一つに提供するファイルサーバ計算機であって、
    前記ネットワークサービスは前記ファイルサーバ計算機が格納したファイルを共有するネットワークファイル共有サービスであって、
    前記第のイベント種別に対応したイベント前記ファイルサーバ計算機の障害発生であり、
    前記第一のイベント種別に対応したイベント前記ネットワークファイル共有サービスで提供されたファイルへのアクセス失敗である、
    ことを特徴とした運用管理サーバ。
  23. 請求項15記載の運用管理サーバであって、
    前記プロセッサは、
    前記障害要因装置が、前記複数のイベント取得対象装置のうちの1つである場合は、前記相関解析ルール情報と前記構成情報とに基づいて、複数の前記イベント情報から前記第二のイベント種別に対応したイベント表し前記障害要因装置が取得元である第二のイベント情報を特定し、前記第一イベント取得対象装置で発生した前記第一のイベント情報が表すイベントが発生した要因が、前記障害要因装置で発生した前記第二のイベント情報に対応したイベントが発生したであることを表示させる、
    ことを特徴とした運用管理サーバ。
  24. 請求項16記載の運用管理サーバであって、
    前記第一情報処理装置が計算機であり、
    前記第二情報処理装置がストレージ装置であり、
    前記トポロジ条件情報は、前記計算機と前記ストレージ装置とが接続するトポロジの接続関係を示す、前記計算機に対応する通信識別情報と前記ストレージ装置に対応する通信識別情報との組み合わせを含む、
    ことを特徴とした運用管理サーバ。
  25. 請求項24記載の運用管理サーバであって、
    前記計算機に対応する計算機通信識別情報と前記ストレージ装置に対応する通信識別情報とは、iSCSI名と、IPアドレスと、FibreChannelにおけるWWNとの少なくとも一つである
    ことを特徴とする運用管理サーバ。
  26. 請求項16記載の運用管理サーバであって、
    前記第一情報処理装置が計算機であり、
    前記第二情報処理装置はファイル共有サービスによって格納したファイルを前記複数の情報処理装置へ提供するファイルサーバ計算機であり、
    前記トポロジ条件情報は、前記計算機と前記ファイルサーバ計算機とが接続するトポロジの接続関係を示す前記計算機に対応する通信識別情報と前記ファイルサーバ計算機に対応する通信識別情報又は前記ファイルを公開するエクスポート名との組み合わせ、を含む、
    ことを特徴とした運用管理サーバ。
  27. 請求項16記載の運用管理サーバであって、
    前記第一情報処理装置は計算機であり、
    前記第二情報処理装置がネットワーク共有サービスとしてDNSを前記複数の情報処理装置に提供するDNSサーバ計算機であり、
    前記トポロジ条件情報は、前記計算機と前記DNSサーバ計算機とが接続するトポロジの接続関係を示す前記計算機に対応する通信識別情報と前記DNSサーバ計算機に対応する通信識別情報との組み合わせを含む、
    ことを特徴とした運用管理サーバ。
  28. 請求項27記載の運用管理サーバであって、
    前記計算機に対応する通信識別情報と前記DNSサーバ計算機に対応する通信識別情報とは、IPアドレス又はFQDNである、
    ことを特徴とした運用管理サーバ。
JP2008252093A 2008-09-30 2008-09-30 イベント情報取得外のit装置を対象とする根本原因解析方法、装置、プログラム。 Expired - Fee Related JP5237034B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2008252093A JP5237034B2 (ja) 2008-09-30 2008-09-30 イベント情報取得外のit装置を対象とする根本原因解析方法、装置、プログラム。
EP09817371.9A EP2336890A4 (en) 2008-09-30 2009-01-26 CAUSE ANALYSIS PROCEDURE FOR AN IT DEVICE WHICH DOES NOT IDENTIFY EVENT INFORMATION, AND DEVICE AND PROGRAM THEREFOR
US12/444,398 US8020045B2 (en) 2008-09-30 2009-01-26 Root cause analysis method, apparatus, and program for IT apparatuses from which event information is not obtained
CN200980111739.7A CN101981546B (zh) 2008-09-30 2009-01-26 以不取得事件信息的it装置为对象的根本原因分析方法、装置及程序
PCT/JP2009/000285 WO2010038327A1 (ja) 2008-09-30 2009-01-26 イベント情報取得外のit装置を対象とする根本原因解析方法、装置、プログラム。
US13/211,694 US8479048B2 (en) 2008-09-30 2011-08-17 Root cause analysis method, apparatus, and program for IT apparatuses from which event information is not obtained

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008252093A JP5237034B2 (ja) 2008-09-30 2008-09-30 イベント情報取得外のit装置を対象とする根本原因解析方法、装置、プログラム。

Publications (3)

Publication Number Publication Date
JP2010086115A JP2010086115A (ja) 2010-04-15
JP2010086115A5 JP2010086115A5 (ja) 2011-03-03
JP5237034B2 true JP5237034B2 (ja) 2013-07-17

Family

ID=42073117

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008252093A Expired - Fee Related JP5237034B2 (ja) 2008-09-30 2008-09-30 イベント情報取得外のit装置を対象とする根本原因解析方法、装置、プログラム。

Country Status (5)

Country Link
US (2) US8020045B2 (ja)
EP (1) EP2336890A4 (ja)
JP (1) JP5237034B2 (ja)
CN (1) CN101981546B (ja)
WO (1) WO2010038327A1 (ja)

Families Citing this family (108)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8112378B2 (en) * 2008-06-17 2012-02-07 Hitachi, Ltd. Methods and systems for performing root cause analysis
US8381038B2 (en) * 2009-05-26 2013-02-19 Hitachi, Ltd. Management server and management system
EP2455863A4 (en) 2009-07-16 2013-03-27 Hitachi Ltd MANAGEMENT SYSTEM FOR PROVIDING INFORMATION DESCRIBING A RECOVERY METHOD CORRESPONDING TO A FUNDAMENTAL CAUSE OF FAILURE
US7996723B2 (en) * 2009-12-22 2011-08-09 Xerox Corporation Continuous, automated discovery of bugs in released software
US8411577B2 (en) * 2010-03-19 2013-04-02 At&T Intellectual Property I, L.P. Methods, apparatus and articles of manufacture to perform root cause analysis for network events
DE102010024966A1 (de) * 2010-06-24 2011-07-07 Siemens Aktiengesellschaft, 80333 Verfahren und Softwareprogrammprodukt zum Bestimmen einer Güte einer Informtionstechnischen Anlage
US20120030346A1 (en) * 2010-07-29 2012-02-02 Hitachi, Ltd. Method for inferring extent of impact of configuration change event on system failure
US8819220B2 (en) 2010-09-09 2014-08-26 Hitachi, Ltd. Management method of computer system and management system
US8386602B2 (en) 2010-11-02 2013-02-26 International Business Machines Corporation Relevant alert delivery in a distributed processing system
US8364813B2 (en) 2010-11-02 2013-01-29 International Business Machines Corporation Administering incident pools for event and alert analysis
US8621277B2 (en) 2010-12-06 2013-12-31 International Business Machines Corporation Dynamic administration of component event reporting in a distributed processing system
US8805999B2 (en) 2010-12-07 2014-08-12 International Business Machines Corporation Administering event reporting rules in a distributed processing system
US8737231B2 (en) 2010-12-07 2014-05-27 International Business Machines Corporation Dynamic administration of event pools for relevant event and alert analysis during event storms
US8868984B2 (en) * 2010-12-07 2014-10-21 International Business Machines Corporation Relevant alert delivery in a distributed processing system with event listeners and alert listeners
US8671186B2 (en) 2011-03-08 2014-03-11 Hitachi, Ltd. Computer system management method and management apparatus
US8583789B2 (en) * 2011-03-28 2013-11-12 Hitachi, Ltd. Computer system management method and management apparatus
US8756462B2 (en) 2011-05-24 2014-06-17 International Business Machines Corporation Configurable alert delivery for reducing the amount of alerts transmitted in a distributed processing system
US8645757B2 (en) 2011-05-26 2014-02-04 International Business Machines Corporation Administering incident pools for event and alert analysis
US9213621B2 (en) 2011-05-27 2015-12-15 International Business Machines Corporation Administering event pools for relevant event analysis in a distributed processing system
US8676883B2 (en) 2011-05-27 2014-03-18 International Business Machines Corporation Event management in a distributed processing system
US8392385B2 (en) 2011-06-22 2013-03-05 International Business Machines Corporation Flexible event data content management for relevant event and alert analysis within a distributed processing system
US9419650B2 (en) 2011-06-22 2016-08-16 International Business Machines Corporation Flexible event data content management for relevant event and alert analysis within a distributed processing system
US8880943B2 (en) 2011-06-22 2014-11-04 International Business Machines Corporation Restarting event and alert analysis after a shutdown in a distributed processing system
US8713366B2 (en) 2011-06-22 2014-04-29 International Business Machines Corporation Restarting event and alert analysis after a shutdown in a distributed processing system
US9389946B2 (en) 2011-09-19 2016-07-12 Nec Corporation Operation management apparatus, operation management method, and program
US20130097215A1 (en) 2011-10-18 2013-04-18 International Business Machines Corporation Selected Alert Delivery In A Distributed Processing System
US9178936B2 (en) 2011-10-18 2015-11-03 International Business Machines Corporation Selected alert delivery in a distributed processing system
US8887175B2 (en) 2011-10-18 2014-11-11 International Business Machines Corporation Administering incident pools for event and alert analysis
US20130097272A1 (en) 2011-10-18 2013-04-18 International Business Machines Corporation Prioritized Alert Delivery In A Distributed Processing System
US8713581B2 (en) 2011-10-27 2014-04-29 International Business Machines Corporation Selected alert delivery in a distributed processing system
WO2013078671A1 (zh) * 2011-12-02 2013-06-06 华为技术有限公司 一种故障检测方法、网关、用户设备及通信系统
US9092329B2 (en) * 2011-12-21 2015-07-28 Sap Se Process integration alerting for business process management
US9246777B2 (en) 2012-02-14 2016-01-26 Hitachi, Ltd. Computer program and monitoring apparatus
FR2987533B1 (fr) * 2012-02-23 2014-11-28 Aspserveur Procede et systeme d'analyse de correlation de defauts pour un centre informatique
US9354961B2 (en) * 2012-03-23 2016-05-31 Hitachi, Ltd. Method and system for supporting event root cause analysis
JP5884901B2 (ja) * 2012-04-20 2016-03-15 富士通株式会社 プログラム、情報処理装置およびイベント処理方法
JP5926373B2 (ja) 2012-05-07 2016-05-25 株式会社日立製作所 計算機システム、ストレージ管理計算機及びストレージ管理方法
EP2865133A1 (en) 2012-06-25 2015-04-29 Kni M Szaki Tanácsadó Kft. Methods of implementing a dynamic service-event management system
US9413685B1 (en) 2012-06-28 2016-08-09 Emc Corporation Method and apparatus for cross domain and cross-layer event correlation
US9298582B1 (en) 2012-06-28 2016-03-29 Emc Corporation Method and apparatus for performance data transformation in a cloud computing system
US8954811B2 (en) 2012-08-06 2015-02-10 International Business Machines Corporation Administering incident pools for incident analysis
US8943366B2 (en) 2012-08-09 2015-01-27 International Business Machines Corporation Administering checkpoints for incident analysis
JP5719974B2 (ja) 2012-09-03 2015-05-20 株式会社日立製作所 複数の監視対象デバイスを有する計算機システムの管理を行う管理システム
US9053000B1 (en) * 2012-09-27 2015-06-09 Emc Corporation Method and apparatus for event correlation based on causality equivalence
JP6039352B2 (ja) * 2012-10-12 2016-12-07 キヤノン株式会社 デバイス管理システム、デバイス管理システムの制御方法、及びプログラム
JP6080862B2 (ja) * 2012-10-30 2017-02-15 株式会社日立製作所 管理計算機およびルール生成方法
US20140297821A1 (en) * 2013-03-27 2014-10-02 Alcatel-Lucent Usa Inc. System and method providing learning correlation of event data
EP2887222B1 (en) 2013-04-05 2020-07-15 Hitachi, Ltd. Management system and management program
US9361184B2 (en) 2013-05-09 2016-06-07 International Business Machines Corporation Selecting during a system shutdown procedure, a restart incident checkpoint of an incident analyzer in a distributed processing system
US9170860B2 (en) 2013-07-26 2015-10-27 International Business Machines Corporation Parallel incident processing
US20160004584A1 (en) * 2013-08-09 2016-01-07 Hitachi, Ltd. Method and computer system to allocate actual memory area from storage pool to virtual volume
US9658902B2 (en) 2013-08-22 2017-05-23 Globalfoundries Inc. Adaptive clock throttling for event processing
US9256482B2 (en) 2013-08-23 2016-02-09 International Business Machines Corporation Determining whether to send an alert in a distributed processing system
US9086968B2 (en) 2013-09-11 2015-07-21 International Business Machines Corporation Checkpointing for delayed alert creation
US9602337B2 (en) 2013-09-11 2017-03-21 International Business Machines Corporation Event and alert analysis in a distributed processing system
JP2015076072A (ja) * 2013-10-11 2015-04-20 キヤノン株式会社 監視装置、監視方法、及びプログラム
US9747156B2 (en) * 2013-10-30 2017-08-29 Hitachi, Ltd. Management system, plan generation method, plan generation program
CN103747028B (zh) * 2013-11-27 2018-05-25 上海斐讯数据通信技术有限公司 一种授予用户临时root权限的方法
US20150378805A1 (en) * 2013-11-29 2015-12-31 Hitachi, Ltd. Management system and method for supporting analysis of event root cause
US9389943B2 (en) 2014-01-07 2016-07-12 International Business Machines Corporation Determining a number of unique incidents in a plurality of incidents for incident processing in a distributed processing system
WO2015128896A1 (ja) 2014-02-26 2015-09-03 三菱電機株式会社 攻撃検知装置、攻撃検知方法、及び攻撃検知プログラム
US9762443B2 (en) 2014-04-15 2017-09-12 Splunk Inc. Transformation of network data at remote capture agents
US10366101B2 (en) 2014-04-15 2019-07-30 Splunk Inc. Bidirectional linking of ephemeral event streams to creators of the ephemeral event streams
US11281643B2 (en) 2014-04-15 2022-03-22 Splunk Inc. Generating event streams including aggregated values from monitored network data
US10462004B2 (en) 2014-04-15 2019-10-29 Splunk Inc. Visualizations of statistics associated with captured network data
US9923767B2 (en) 2014-04-15 2018-03-20 Splunk Inc. Dynamic configuration of remote capture agents for network data capture
US10523521B2 (en) 2014-04-15 2019-12-31 Splunk Inc. Managing ephemeral event streams generated from captured network data
US11086897B2 (en) 2014-04-15 2021-08-10 Splunk Inc. Linking event streams across applications of a data intake and query system
US10360196B2 (en) 2014-04-15 2019-07-23 Splunk Inc. Grouping and managing event streams generated from captured network data
US10127273B2 (en) 2014-04-15 2018-11-13 Splunk Inc. Distributed processing of network data using remote capture agents
US9838512B2 (en) 2014-10-30 2017-12-05 Splunk Inc. Protocol-based capture of network data using remote capture agents
US10693742B2 (en) 2014-04-15 2020-06-23 Splunk Inc. Inline visualizations of metrics related to captured network data
US10700950B2 (en) 2014-04-15 2020-06-30 Splunk Inc. Adjusting network data storage based on event stream statistics
JP6330456B2 (ja) * 2014-04-30 2018-05-30 富士通株式会社 相関係数算出方法、相関係数算出プログラムおよび相関係数算出装置
JP2015215639A (ja) * 2014-05-07 2015-12-03 株式会社リコー 障害管理システム、障害管理装置、機器、障害管理方法、及びプログラム
JP6287691B2 (ja) * 2014-08-28 2018-03-07 富士通株式会社 情報処理装置、情報処理方法および情報処理プログラム
US9596253B2 (en) 2014-10-30 2017-03-14 Splunk Inc. Capture triggers for capturing network data
US9946614B2 (en) 2014-12-16 2018-04-17 At&T Intellectual Property I, L.P. Methods, systems, and computer readable storage devices for managing faults in a virtual machine network
US10334085B2 (en) 2015-01-29 2019-06-25 Splunk Inc. Facilitating custom content extraction from network packets
US10019486B2 (en) * 2016-02-24 2018-07-10 Bank Of America Corporation Computerized system for analyzing operational event data
US10216798B2 (en) * 2016-02-24 2019-02-26 Bank Of America Corporation Technical language processor
US10275182B2 (en) * 2016-02-24 2019-04-30 Bank Of America Corporation System for categorical data encoding
US10366338B2 (en) 2016-02-24 2019-07-30 Bank Of America Corporation Computerized system for evaluating the impact of technology change incidents
US10430743B2 (en) 2016-02-24 2019-10-01 Bank Of America Corporation Computerized system for simulating the likelihood of technology change incidents
US10223425B2 (en) * 2016-02-24 2019-03-05 Bank Of America Corporation Operational data processor
US10387230B2 (en) * 2016-02-24 2019-08-20 Bank Of America Corporation Technical language processor administration
US10067984B2 (en) * 2016-02-24 2018-09-04 Bank Of America Corporation Computerized system for evaluating technology stability
US10275183B2 (en) * 2016-02-24 2019-04-30 Bank Of America Corporation System for categorical data dynamic decoding
US10366337B2 (en) 2016-02-24 2019-07-30 Bank Of America Corporation Computerized system for evaluating the likelihood of technology change incidents
US10366367B2 (en) 2016-02-24 2019-07-30 Bank Of America Corporation Computerized system for evaluating and modifying technology change events
CN105786635B (zh) * 2016-03-01 2018-10-12 国网江苏省电力公司电力科学研究院 一种面向故障敏感点动态检测的复杂事件处理系统及方法
US10339032B2 (en) * 2016-03-29 2019-07-02 Microsoft Technology Licensing, LLD System for monitoring and reporting performance and correctness issues across design, compile and runtime
US10637745B2 (en) * 2016-07-29 2020-04-28 Cisco Technology, Inc. Algorithms for root cause analysis
CN106778178A (zh) * 2016-12-28 2017-05-31 广东虹勤通讯技术有限公司 指纹名片的调用方法及装置
CN106844173A (zh) * 2016-12-29 2017-06-13 四川九洲电器集团有限责任公司 一种信息处理方法及电子设备
JP6870347B2 (ja) * 2017-01-31 2021-05-12 オムロン株式会社 情報処理装置、情報処理プログラムおよび情報処理方法
CN107562632B (zh) * 2017-09-12 2020-08-28 北京奇艺世纪科技有限公司 针对推荐策略的a/b测试方法及装置
US11075925B2 (en) 2018-01-31 2021-07-27 EMC IP Holding Company LLC System and method to enable component inventory and compliance in the platform
CN111819915B (zh) * 2018-03-15 2022-08-23 株式会社富士 安装系统
US10754708B2 (en) 2018-03-28 2020-08-25 EMC IP Holding Company LLC Orchestrator and console agnostic method to deploy infrastructure through self-describing deployment templates
US10693722B2 (en) 2018-03-28 2020-06-23 Dell Products L.P. Agentless method to bring solution and cluster awareness into infrastructure and support management portals
US11086738B2 (en) * 2018-04-24 2021-08-10 EMC IP Holding Company LLC System and method to automate solution level contextual support
US10795756B2 (en) 2018-04-24 2020-10-06 EMC IP Holding Company LLC System and method to predictively service and support the solution
US11599422B2 (en) 2018-10-16 2023-03-07 EMC IP Holding Company LLC System and method for device independent backup in distributed system
US10862761B2 (en) 2019-04-29 2020-12-08 EMC IP Holding Company LLC System and method for management of distributed systems
US11301557B2 (en) 2019-07-19 2022-04-12 Dell Products L.P. System and method for data processing device management
KR20220083221A (ko) * 2020-12-11 2022-06-20 삼성전자주식회사 IoT 환경의 허브 장치 및 로컬 네트워크 기반 이벤트 처리 방법
US20230259344A1 (en) * 2022-02-16 2023-08-17 Saudi Arabian Oil Company System and method for tracking and installing missing software applications

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5528516A (en) * 1994-05-25 1996-06-18 System Management Arts, Inc. Apparatus and method for event correlation and problem reporting
US5546452A (en) * 1995-03-02 1996-08-13 Geotel Communications Corp. Communications system using a central controller to control at least one network and agent system
US6023507A (en) * 1997-03-17 2000-02-08 Sun Microsystems, Inc. Automatic remote computer monitoring system
JPH11259331A (ja) * 1998-03-13 1999-09-24 Nippon Telegr & Teleph Corp <Ntt> ネットワークにおける障害箇所検出方法及び装置及びネットワークにおける障害箇所検出プログラムを格納した記憶媒体
US6393386B1 (en) * 1998-03-26 2002-05-21 Visual Networks Technologies, Inc. Dynamic modeling of complex networks and prediction of impacts of faults therein
US6393474B1 (en) * 1998-12-31 2002-05-21 3Com Corporation Dynamic policy management apparatus and method using active network devices
US6292718B2 (en) * 1999-01-28 2001-09-18 International Business Machines Corp. Electronic control system
ATE303690T1 (de) * 1999-06-10 2005-09-15 Alcatel Internetworking Inc System und verfahren zur regelbasierten netzverwaltung von virtuellen privaten netzen
US6823299B1 (en) * 1999-07-09 2004-11-23 Autodesk, Inc. Modeling objects, systems, and simulations by establishing relationships in an event-driven graph in a computer implemented graphics system
US6820042B1 (en) * 1999-07-23 2004-11-16 Opnet Technologies Mixed mode network simulator
US6654782B1 (en) * 1999-10-28 2003-11-25 Networks Associates, Inc. Modular framework for dynamically processing network events using action sets in a distributed computing environment
US6829639B1 (en) * 1999-11-15 2004-12-07 Netvision, Inc. Method and system for intelligent global event notification and control within a distributed computing environment
DE19958825A1 (de) * 1999-12-07 2001-06-13 Zeiss Carl Jena Gmbh Verfahren zur Kontrolle eines Steuerungssystems
US7197546B1 (en) * 2000-03-07 2007-03-27 Lucent Technologies Inc. Inter-domain network management system for multi-layer networks
US6871344B2 (en) * 2000-04-24 2005-03-22 Microsoft Corporation Configurations for binding software assemblies to application programs
AU2001261141A1 (en) * 2000-05-02 2001-11-12 Sun Microsystems, Inc. Method and system for achieving high availability in a networked computer system
US7237138B2 (en) * 2000-05-05 2007-06-26 Computer Associates Think, Inc. Systems and methods for diagnosing faults in computer networks
US6915338B1 (en) * 2000-10-24 2005-07-05 Microsoft Corporation System and method providing automatic policy enforcement in a multi-computer service application
US20030046615A1 (en) * 2000-12-22 2003-03-06 Alan Stone System and method for adaptive reliability balancing in distributed programming networks
DE10065118A1 (de) * 2000-12-28 2002-07-04 Bosch Gmbh Robert System und Verfahren zur Steuerung und/oder Überwachung eines wenigstens zwei Steuergeräte aufweisenden Steuergeräteverbundes
US7028228B1 (en) * 2001-03-28 2006-04-11 The Shoregroup, Inc. Method and apparatus for identifying problems in computer networks
US20030014644A1 (en) * 2001-05-02 2003-01-16 Burns James E. Method and system for security policy management
DE10162853C1 (de) * 2001-12-17 2003-06-05 Iav Gmbh Kraftfahrzeugsteuersystem und Verfahren zur Kraftfahrzeugsteuerung
US20030214908A1 (en) * 2002-03-19 2003-11-20 Anurag Kumar Methods and apparatus for quality of service control for TCP aggregates at a bottleneck link in the internet
US6996500B2 (en) * 2002-10-30 2006-02-07 Hewlett-Packard Development Company, L.P. Method for communicating diagnostic data
US7263632B2 (en) * 2003-05-07 2007-08-28 Microsoft Corporation Programmatic computer problem diagnosis and resolution and automated reporting and updating of the same
JP2004348640A (ja) * 2003-05-26 2004-12-09 Hitachi Ltd ネットワーク管理システム及びネットワーク管理方法
US7237267B2 (en) * 2003-10-16 2007-06-26 Cisco Technology, Inc. Policy-based network security management
US6968291B1 (en) * 2003-11-04 2005-11-22 Sun Microsystems, Inc. Using and generating finite state machines to monitor system status
US7584382B2 (en) * 2004-02-19 2009-09-01 Microsoft Corporation Method and system for troubleshooting a misconfiguration of a computer system based on configurations of other computer systems
US8131830B2 (en) * 2004-04-19 2012-03-06 Hewlett-Packard Development Company, L.P. System and method for providing support services using administrative rights on a client computer
JP4575020B2 (ja) * 2004-04-28 2010-11-04 三菱電機株式会社 障害解析装置
US8627149B2 (en) * 2004-08-30 2014-01-07 International Business Machines Corporation Techniques for health monitoring and control of application servers
JP4260723B2 (ja) * 2004-11-04 2009-04-30 株式会社日立製作所 情報処理装置、情報処理装置の制御方法、及びプログラム
US8554916B2 (en) * 2005-04-11 2013-10-08 Accenture Global Services Gmbh Service delivery platform and development of new client business models
JP2006338305A (ja) * 2005-06-01 2006-12-14 Toshiba Corp 監視装置及び監視プログラム
US7464298B2 (en) * 2005-07-01 2008-12-09 International Business Machines Corporation Method, system, and computer program product for multi-domain component management
US7801712B2 (en) * 2006-06-15 2010-09-21 Microsoft Corporation Declaration and consumption of a causality model for probable cause analysis
JP4466615B2 (ja) * 2006-06-16 2010-05-26 日本電気株式会社 運用管理システム、監視装置、被監視装置、運用管理方法及びプログラム
US8208381B2 (en) * 2007-07-27 2012-06-26 Eg Innovations Pte. Ltd. Root-cause approach to problem diagnosis in data networks

Also Published As

Publication number Publication date
US20110302305A1 (en) 2011-12-08
EP2336890A1 (en) 2011-06-22
EP2336890A4 (en) 2016-04-13
JP2010086115A (ja) 2010-04-15
CN101981546B (zh) 2015-04-01
WO2010038327A1 (ja) 2010-04-08
US8479048B2 (en) 2013-07-02
US8020045B2 (en) 2011-09-13
CN101981546A (zh) 2011-02-23
US20100325493A1 (en) 2010-12-23

Similar Documents

Publication Publication Date Title
JP5237034B2 (ja) イベント情報取得外のit装置を対象とする根本原因解析方法、装置、プログラム。
US10756949B2 (en) Log file processing for root cause analysis of a network fabric
JP6816139B2 (ja) 情報伝送パフォーマンス警告を生成するための方法、システム、および装置
US9531664B2 (en) Selecting between domain name system servers of a plurality of networks
US9954888B2 (en) Security actions for computing assets based on enrichment information
US10284516B2 (en) System and method of determining geographic locations using DNS services
US20080016115A1 (en) Managing Networks Using Dependency Analysis
US9473369B2 (en) Application topology based on network traffic
US11696110B2 (en) Distributed, crowdsourced internet of things (IoT) discovery and identification using Block Chain
US20140164595A1 (en) Firewall event reduction for rule use counting
US20100138921A1 (en) Countering Against Distributed Denial-Of-Service (DDOS) Attack Using Content Delivery Network
JP7416919B2 (ja) データ処理方法及び装置並びにコンピュータ記憶媒体
Giotsas et al. Periscope: Unifying looking glass querying
KR101416523B1 (ko) 보안 시스템 및 그것의 동작 방법
Bourgeau et al. TopHat: supporting experiments through measurement infrastructure federation
Bahl et al. Discovering dependencies for network management
US11546356B2 (en) Threat information extraction apparatus and threat information extraction system
JP7032251B2 (ja) 障害影響範囲の推論装置、障害原因の推論装置、障害影響範囲の推論方法、障害原因の推論方法、及びプログラム
US8195977B2 (en) Network fault isolation
CN113691608B (zh) 流量分发的方法、装置、电子设备及介质
JP4772025B2 (ja) P2p通信検出装置、及びその方法とプログラム
Mokhov et al. Automating MAC spoofer evidence gathering and encoding for investigations
CN110034977B (zh) 一种设备安全性监测方法及安全性监测设备
Kothapalli Measurement, Analysis, and System Implementation of Internet Proxy Servers
Verma et al. Using ai/ml to gain situational understanding from passive network observations

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101022

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110119

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121022

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130328

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5237034

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160405

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees