JP2011175357A5 - 管理装置及び管理プログラム - Google Patents

管理装置及び管理プログラム Download PDF

Info

Publication number
JP2011175357A5
JP2011175357A5 JP2010037369A JP2010037369A JP2011175357A5 JP 2011175357 A5 JP2011175357 A5 JP 2011175357A5 JP 2010037369 A JP2010037369 A JP 2010037369A JP 2010037369 A JP2010037369 A JP 2010037369A JP 2011175357 A5 JP2011175357 A5 JP 2011175357A5
Authority
JP
Japan
Prior art keywords
rule
event
segment
information
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010037369A
Other languages
English (en)
Other versions
JP5419746B2 (ja
JP2011175357A (ja
Filing date
Publication date
Priority claimed from JP2010037369A external-priority patent/JP5419746B2/ja
Priority to JP2010037369A priority Critical patent/JP5419746B2/ja
Application filed filed Critical
Priority to EP10846435A priority patent/EP2413268A1/en
Priority to US12/745,212 priority patent/US8473786B2/en
Priority to PCT/JP2010/001767 priority patent/WO2011104767A1/ja
Publication of JP2011175357A publication Critical patent/JP2011175357A/ja
Publication of JP2011175357A5 publication Critical patent/JP2011175357A5/ja
Priority to US13/925,131 priority patent/US8671313B2/en
Publication of JP5419746B2 publication Critical patent/JP5419746B2/ja
Application granted granted Critical
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、管理装置及び管理プログラムに関し、例えば情報処理装置から送信される障害内容を表すイベント通知を用いて障害箇所及び原因を解析する障害解析機能が搭載された管理サーバに適用して好適なものである。
本発明は以上の点を考慮してなされたもので、対象システムの定義イベントの数やルールの数によらず、一定のワーキングメモリサイズを保ちながら、少ない解析時間で解析処理を実行し得る管理装置及び管理プログラムを提案しようとするものである。
また本発明においては、1又は複数の情報処理装置を管理する管理装置に実装される管理プログラムであって前記管理装置に、前記情報処理装置に発生するイベントの組み合わせを条件とし、前記イベントの組み合わせに対して想定される事柄を推論の結論とする、予め定義された1又は複数のルールを記憶する第1のステップと、前記情報処理装置にイベントが発生したときに、当該情報処理装置から送信される当該イベントの内容に応じたイベント通知を受信する第2のステップと、前記イベント通知及び対応する前記ルールに基づいて前記情報処理装置の状態を判断する第3のステップとを有し、前記第1のステップでは、予め定義された前記1又は複数のルールを、それぞれ当該ルールを構成する条件及び結論からなる1つ以上のルールセグメントに分割し、分割により得られた前記ルールセグメントを前記2次記憶装置に保存し、前記第3のステップでは、前記情報処理装置からのイベント通知を受信したときに、関連する1又は複数の前記ルールセグメントを選択し、選択した前記1又は複数のルールセグメントをメモリ上において必要に応じて結合することにより、当該メモリ上にルール間の関係を示すルール解析網を構築し、構築したルール解析網に基づいて推論を導出すると共に、推論の導出に利用され難いルールセグメントをメモリ上から削除する処理を実行させることを特徴とする。
管理対象装置群3は、上述のように1又は複数の情報処理装置4から構成される。図2は、管理対象装置群3の一構成例を示す。この例では、管理対象装置群3は、複数のサーバ40(「SERVER1」、「SERVER」、……)と、ネットワーク41と、1つのストレージ装置42(「STORAGE1」)とから構成されている。そしてこの図2では、ストレージ装置42のボリュームがサーバ40の「ISCSI INITIATOR01」というHBA(Host Bus Adapter)40Aを介してISCSI(Internet Small Computer System Interface)プロトコルにてSCSIディスク40B(「SCSIDISK01」、「SCSIDISK03」)として提供されている場合を例示している。なお図2において、ストレージ装置42の「Controller01」は、ストレージ装置42を制御するプロセッサであり、ISCSIポートを備えている。
(b)結論部63では、かかるイベント通知50を受信した場合、イベントIDが「910000020」のイベントであって、「SERVER1」というサーバ40の「ISCSIINITIATOR01」というHBA40Aにおける「ISCSI通信エラー(「RC_COM_ERROR」)」というイベントが原因であると推測するよう規定されている(結論部63のイベント情報67を参照)。
またルール情報30の他の具体例を図6に示す。図6は、図2の環境において、「SERVER1」というサーバ40の「ISCSIINITIATOR01」というHBA40AにおいてISCSI通信エラーが発生し、「SERVER2」というサーバ40の「ISCSIINITIATOR01」というHBA40AにおいてISCSI通信エラーが発生し、さらに「STORAGE1」というストレージ装置42の「CONTROLLER01」というコントローラ42Aの状態がエラーに変化した発生し場合に、これらの状態変化の根本原因が「STORAGE1」の「CONTROLLER01」の障害であると推論するよう規定されたルールについての具体例である。すなわち図6のルール情報30では、以下の事項が指定されている。

Claims (12)

  1. 1又は複数の情報処理装置を管理する管理装置において、
    前記情報処理装置に発生するイベントの組み合わせを条件とし、前記イベントの組み合わせに対して想定される事柄を推論の結論とする、予め定義された1又は複数のルールを記憶する2次記憶装置と、
    前記情報処理装置にイベントが発生したときに、当該情報処理装置から送信される当該イベントの内容に応じたイベント通知を受信するネットワークインタフェースと、
    前記イベント通知及び対応する前記ルールに基づいて前記情報処理装置の状態を判断するプロセッサと、
    前記プロセッサのワークメモリとして利用されるメモリと
    を有し、
    前記プロセッサは、
    予め定義された前記1又は複数のルールを、それぞれ当該ルールを構成する条件及び結論からなる1つ以上のルールセグメントに分割し、分割により得られた前記ルールセグメントを前記2次記憶装置に保存し、
    前記情報処理装置からのイベント通知を受信したときに、関連する1又は複数の前記ルールセグメントを選択し、選択した前記1又は複数のルールセグメントを前記メモリ上において必要に応じて結合することにより、当該メモリ上にルール間の関係を示すルール解析網を構築し、構築したルール解析網に基づいて推論を導出すると共に、推論の導出に利用され難いルールセグメントをメモリ上から削除する
    ことを特徴とする管理装置。
  2. 前記ルールは、
    予め定義された障害時に検知する前記情報処理装置の状態の変更をイベントとし、当該イベントの組み合わせを条件とし、当該イベントの組み合わせに対して想定される障害原因候補の事象を結論とし、
    前記プロセッサは、
    前記イベント通知及び対応する前記ルールに基づいて障害原因の推論を導出する
    ことを特徴とする請求項1に記載の管理装置。
  3. 前記プロセッサは、
    前記ルールを前記ルールセグメントに分割する際、当該ルールセグメント間の結合に関する情報でなるセグメント結合情報と、前記情報処理装置において発生するイベントに関連するルールセグメントを検索するためのイベント索引情報とを作成し、
    前記イベント索引情報を利用して、前記情報処理装置から送信されたイベント通知により認識される当該情報処理装置に発生したイベントに関連する前記1又は複数のルールセグメントを選択し、選択した前記1又は複数のルールセグメントを前記メモリ上において前記セグメント結合情報を用いて結合することにより、当該メモリ上に当該イベントに関連するルール解析網を構築する
    ことを特徴とする請求項1に記載の管理装置。
  4. 前記プロセッサは、
    前記メモリに読み込まれた前記ルールセグメントごとの参照履歴をセグメント参照履歴情報として管理し、当該セグメント参照履歴情報に基づいて、推論の導出に利用され難い前記ルールセグメントを判断する
    ことを特徴とする請求項1に記載の管理装置。
  5. 前記セグメント参照履歴情報は、
    最後に参照された時刻である最終参照時刻と、前記ルールセグメントが前記メモリに読み込まれる平均的な時間間隔である平均読込み間隔と、対応する前記ルールセグメントの状態とに関する情報を含み、
    前記プロセッサは、
    前記ルールセグメントが推論の導出に利用され難いか否かを、前記ルールセグメントの状態により判断し、状態が同じルールセグメントについては、当該ルールセグメントの平均読込み間隔及び最終参照時刻のいずれか一方又は両方により判断する
    ことを特徴する請求項4に記載の管理装置。
  6. 前記ルールは、
    予め定義された障害時に検知する前記情報処理装置の状態の変更をイベントとし、当該イベントの組み合わせを条件とし、当該イベントの組み合わせに対して想定される障害原因候補の事象を結論とし、
    前記プロセッサは、
    前記イベント通知及び対応する前記ルールに基づいて障害原因の推論を導出すると共に、
    前記ルールを前記ルールセグメントに分割する際、当該ルールセグメント間の結合に関する情報でなるセグメント結合情報と、前記情報処理装置において発生するイベントに関連するルールセグメントを検索するためのイベント索引情報とを作成し、前記情報処理装置からのイベント通知を受信したときに、当該イベント索引情報を利用して、前記情報処理装置から送信された前記イベント通知により認識されるイベントに関連する前記1又は複数のルールセグメントを選択し、選択した前記1又は複数のルールセグメントを前記メモリ上において前記セグメント結合情報を用いて結合することにより、当該メモリ上に当該イベントに関連するルール解析網を構築する一方、
    前記メモリに読み込まれた前記ルールセグメントごとに、最後に参照された時刻である最終参照時刻と、前記ルールセグメントが前記メモリに読み込まれる平均的な時間間隔である平均読込み間隔と、対応する前記ルールセグメントの状態とをセグメント参照履歴情報として管理し、当該セグメント参照履歴情報に基づいて、前記ルールセグメントが推論の導出に利用され難いか否かを、前記ルールセグメントの状態により判断し、状態が同じルールセグメントについては、当該ルールセグメントの平均読込み間隔及び最終参照時刻のいずれか一方又は両方により判断する
    ことを特徴とする請求項1に記載の管理装置。
  7. 1又は複数の情報処理装置を管理する管理装置に実装される管理プログラムであって
    前記管理装置に、
    前記情報処理装置に発生するイベントの組み合わせを条件とし、前記イベントの組み合わせに対して想定される事柄を推論の結論とする、予め定義された1又は複数のルールを記憶する第1のステップと、
    前記情報処理装置にイベントが発生したときに、当該情報処理装置から送信される当該イベントの内容に応じたイベント通知を受信する第2のステップと、
    前記イベント通知及び対応する前記ルールに基づいて前記情報処理装置の状態を判断する第3のステップと
    を有し、
    前記第1のステップでは、
    予め定義された前記1又は複数のルールを、それぞれ当該ルールを構成する条件及び結論からなる1つ以上のルールセグメントに分割し、分割により得られた前記ルールセグメントを前記2次記憶装置に保存し、
    前記第3のステップでは、
    前記情報処理装置からのイベント通知を受信したときに、関連する1又は複数の前記ルールセグメントを選択し、選択した前記1又は複数のルールセグメントをメモリ上において必要に応じて結合することにより、当該メモリ上にルール間の関係を示すルール解析網を構築し、構築したルール解析網に基づいて推論を導出すると共に、推論の導出に利用され難いルールセグメントをメモリ上から削除する
    処理を前記管理装置に実行させることを特徴とする管理プログラム
  8. 前記ルールは、
    予め定義された障害時に検知する前記情報処理装置の状態の変更をイベントとし、当該イベントの組み合わせを条件とし、当該イベントの組み合わせに対して想定される障害原因候補の事象を結論とし、
    前記第3のステップでは、
    前記イベント通知及び対応する前記ルールに基づいて障害原因の推論を導出する処理を前記管理装置に実行させる
    ことを特徴とする請求項7に記載の管理プログラム
  9. 前記第1のステップでは、
    前記ルールを前記ルールセグメントに分割する際、当該ルールセグメント間の結合に関する情報でなるセグメント結合情報と、前記情報処理装置において発生するイベントに関連するルールセグメントを検索するためのイベント索引情報と作成する処理を前記管理装置に実行させ
    前記第3のステップでは、
    前記イベント索引情報を利用して、前記情報処理装置から送信されたイベント通知により認識される当該情報処理装置に発生したイベントに関連する前記1又は複数のルールセグメントを選択し、選択した前記1又は複数のルールセグメントを前記メモリ上において前記セグメント結合情報を用いて結合することにより、当該メモリ上に当該イベントに関連するルール解析網を構築する処理を前記管理装置に実行させる
    ことを特徴とする請求項7に記載の管理プログラム
  10. 前記管理装置は、
    前記メモリに読み込んだ前記ルールセグメントごとの参照履歴をセグメント参照履歴情報として管理し、
    前記第3のステップでは、
    当該セグメント参照履歴情報に基づいて、推論の導出に利用され難い前記ルールセグメントを判断する処理を前記管理装置に実行させる
    ことを特徴とする請求項7に記載の管理プログラム
  11. 前記セグメント参照履歴情報は、
    最後に参照された時刻である最終参照時刻と、前記ルールセグメントが前記メモリに読み込まれる平均的な時間間隔である平均読込み間隔と、対応する前記ルールセグメントの状態とに関する情報を含み、
    前記第3のステップでは、
    前記ルールセグメントが推論の導出に利用され難いか否かを、前記ルールセグメントの状態により判断し、状態が同じルールセグメントについては、当該ルールセグメントの平均読込み間隔及び最終参照時刻のいずれか一方又は両方により判断する処理を前記管理装置に実行させる
    ことを特徴する請求項10に記載の管理プログラム
  12. 前記ルールは、
    予め定義された障害時に検知する前記情報処理装置の状態の変更をイベントとし、当該イベントの組み合わせを条件とし、当該イベントの組み合わせに対して想定される障害原因候補の事象を結論とし、
    前記第3のステップでは、
    前記イベント通知及び対応する前記ルールに基づいて障害原因の推論を導出する処理を前記管理装置に実行させると共に、
    前記第1のステップでは、
    前記ルールを前記ルールセグメントに分割する際、当該ルールセグメント間の結合に関する情報でなるセグメント結合情報と、前記情報処理装置において発生するイベントに関連するルールセグメントを検索するためのイベント索引情報とを作成する処理を前記管理装置に実行させ
    前記第3のステップでは、
    前記イベント索引情報を利用して、前記情報処理装置から送信されたイベント通知により認識される当該情報処理装置に発生したイベントに関連する前記1又は複数のルールセグメントを選択し、選択した前記1又は複数のルールセグメントを前記メモリ上において前記セグメント結合情報を用いて結合することにより、当該メモリ上に当該イベントに関連するルール解析網を構築する処理を前記管理装置に実行させる一方、
    前記メモリに読み込んだ前記ルールセグメントごとに、最後に参照された時刻である最終参照時刻と、前記ルールセグメントが前記メモリに読み込まれる平均的な時間間隔である平均読込み間隔と、対応する前記ルールセグメントの状態とをセグメント参照履歴情報として管理する処理を前記管理装置に実行させ
    前記第3のステップでは、
    当該セグメント参照履歴情報に基づいて、推論の導出に利用され難いか否かを、前記ルールセグメントの状態により判断し、状態が同じルールセグメントについては、当該ルールセグメントの平均読込み間隔及び最終参照時刻のいずれか一方又は両方により判断する処理を前記管理装置に実行させる
    ことを特徴とする請求項7に記載の管理プログラム
JP2010037369A 2010-02-23 2010-02-23 管理装置及び管理プログラム Active JP5419746B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2010037369A JP5419746B2 (ja) 2010-02-23 2010-02-23 管理装置及び管理プログラム
EP10846435A EP2413268A1 (en) 2010-02-23 2010-03-11 Management device and management method
US12/745,212 US8473786B2 (en) 2010-02-23 2010-03-11 Management apparatus and management method
PCT/JP2010/001767 WO2011104767A1 (ja) 2010-02-23 2010-03-11 管理装置及び管理方法
US13/925,131 US8671313B2 (en) 2010-02-23 2013-06-24 Management apparatus and management method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010037369A JP5419746B2 (ja) 2010-02-23 2010-02-23 管理装置及び管理プログラム

Publications (3)

Publication Number Publication Date
JP2011175357A JP2011175357A (ja) 2011-09-08
JP2011175357A5 true JP2011175357A5 (ja) 2012-09-27
JP5419746B2 JP5419746B2 (ja) 2014-02-19

Family

ID=44506217

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010037369A Active JP5419746B2 (ja) 2010-02-23 2010-02-23 管理装置及び管理プログラム

Country Status (4)

Country Link
US (2) US8473786B2 (ja)
EP (1) EP2413268A1 (ja)
JP (1) JP5419746B2 (ja)
WO (1) WO2011104767A1 (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7823203B2 (en) 2002-06-17 2010-10-26 At&T Intellectual Property Ii, L.P. Method and device for detecting computer network intrusions
US8112378B2 (en) * 2008-06-17 2012-02-07 Hitachi, Ltd. Methods and systems for performing root cause analysis
JP5609637B2 (ja) * 2010-12-28 2014-10-22 富士通株式会社 プログラム、情報処理装置、及び情報処理方法
WO2013046287A1 (ja) * 2011-09-26 2013-04-04 株式会社日立製作所 根本原因を解析する管理計算機及び方法
US9246777B2 (en) * 2012-02-14 2016-01-26 Hitachi, Ltd. Computer program and monitoring apparatus
WO2013125037A1 (ja) * 2012-02-24 2013-08-29 株式会社日立製作所 コンピュータプログラムおよび管理計算機
JP5782563B2 (ja) 2012-04-23 2015-09-24 株式会社日立製作所 情報取得方法、計算機システム及び管理計算機
JP6032467B2 (ja) * 2012-06-18 2016-11-30 株式会社日立製作所 時空間データ管理システム、時空間データ管理方法、及びそのプログラム
US9298582B1 (en) 2012-06-28 2016-03-29 Emc Corporation Method and apparatus for performance data transformation in a cloud computing system
US9413685B1 (en) 2012-06-28 2016-08-09 Emc Corporation Method and apparatus for cross domain and cross-layer event correlation
US20140156539A1 (en) * 2012-08-17 2014-06-05 CrowdCare Corporation Device Profile-Based Rule Making for Customer Care
US9053000B1 (en) * 2012-09-27 2015-06-09 Emc Corporation Method and apparatus for event correlation based on causality equivalence
US9037927B2 (en) 2012-10-04 2015-05-19 Hitachi, Ltd. Event notification system, event information aggregation server, and event notification method
US20140122396A1 (en) * 2012-10-29 2014-05-01 Qualcomm Incorporated Rules engine as a platform for mobile applications
WO2014068659A1 (ja) * 2012-10-30 2014-05-08 株式会社日立製作所 管理計算機およびルール生成方法
US20150120627A1 (en) * 2013-10-29 2015-04-30 Qualcomm Incorporated Causal saliency time inference
WO2016009504A1 (ja) * 2014-07-16 2016-01-21 株式会社日立製作所 ストレージシステム及び通知制御方法
US11042929B2 (en) * 2014-09-09 2021-06-22 Oracle Financial Services Software Limited Generating instruction sets implementing business rules designed to update business objects of financial applications
US10652322B2 (en) 2015-03-09 2020-05-12 International Business Machines Corporation Scalable parallel messaging process
JP5938495B2 (ja) * 2015-04-28 2016-06-22 株式会社日立製作所 根本原因を解析する管理計算機、方法及び計算機システム
US10368360B1 (en) * 2016-03-08 2019-07-30 Quantenna Communications, Inc. Network event based security and home automation
EP3422185A4 (en) * 2016-03-28 2019-07-31 Hitachi, Ltd. PROCESSING SYSTEM AND PROCESSING METHOD
US9922539B1 (en) * 2016-08-05 2018-03-20 Sprint Communications Company L.P. System and method of telecommunication network infrastructure alarms queuing and multi-threading
KR101856487B1 (ko) * 2017-03-03 2018-06-19 주식회사 티맥스데이터 파싱을 처리하기 위한 컴퓨팅 장치
US11354320B2 (en) * 2018-10-11 2022-06-07 International Business Machines Corporation Determining causes of events in data

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0553809A (ja) * 1991-08-28 1993-03-05 Meidensha Corp 推論装置の知識データ参照方法
JPH0793156A (ja) * 1993-09-24 1995-04-07 Toshiba Corp プロダクションシステム
US5528516A (en) 1994-05-25 1996-06-18 System Management Arts, Inc. Apparatus and method for event correlation and problem reporting
US6067637A (en) * 1997-05-16 2000-05-23 At&T Corp Data reduction technique for rule based systems
US8073721B1 (en) * 1999-05-24 2011-12-06 Computer Associates Think, Inc. Service level management
US8041799B1 (en) * 2004-04-30 2011-10-18 Sprint Communications Company L.P. Method and system for managing alarms in a communications network
JP5299267B2 (ja) * 2007-03-22 2013-09-25 日本電気株式会社 診断装置
JP5183132B2 (ja) * 2007-09-13 2013-04-17 三菱電機株式会社 ルールベースシステム及びルール適用プログラム
US8086905B2 (en) * 2008-05-27 2011-12-27 Hitachi, Ltd. Method of collecting information in system network
US8112378B2 (en) 2008-06-17 2012-02-07 Hitachi, Ltd. Methods and systems for performing root cause analysis
US8407169B2 (en) * 2008-06-26 2013-03-26 Glenn Hofford Expert system and method
JP5385982B2 (ja) * 2009-07-16 2014-01-08 株式会社日立製作所 障害の根本原因に対応した復旧方法を表す情報を出力する管理システム

Similar Documents

Publication Publication Date Title
JP2011175357A5 (ja) 管理装置及び管理プログラム
US9305666B2 (en) Prioritized repair of data storage failures
US20190095125A1 (en) Extent migration in multi-tier storage systems
KR101757844B1 (ko) 요청된 정보를 삭제하기 위한 방법들 및 시스템들
JP4922834B2 (ja) コンピュータシステムに存在するリソースの性能を監視する装置及び方法
JP5851503B2 (ja) 高可用性仮想機械環境におけるアプリケーションの高可用性の提供
US9971664B2 (en) Disaster recovery protection based on resource consumption patterns
US8261018B2 (en) Managing data storage systems
WO2014013603A1 (ja) 監視システム及び監視プログラム
US20140297597A1 (en) Computer system and management method for the same
US20150040219A1 (en) User evaluation
US8949653B1 (en) Evaluating high-availability configuration
US10225158B1 (en) Policy based system management
KR102271007B1 (ko) 시스템 장애로부터 클라우드 기반 서비스의 사용성 복구 기법
JP6190468B2 (ja) 管理システム、プラン生成方法、およびプラン生成プログラム
US10204021B2 (en) Recovery of an infected and quarantined file in a primary storage controller from a secondary storage controller
US8589441B1 (en) Information processing system and method for controlling the same
WO2013171865A1 (ja) 管理方法及び管理システム
US9317354B2 (en) Dynamically determining an external systems management application to report system errors
JP6802049B2 (ja) データの選択的保持のための方法、プログラム、および処理システム
US20170149893A1 (en) Metadata server, network device and automatic resource management method
US9971543B2 (en) Methods and apparatus for storing electronic documents
US20160004584A1 (en) Method and computer system to allocate actual memory area from storage pool to virtual volume
CN108769123B (zh) 一种数据系统及数据处理方法
US9514003B2 (en) Executing a file backup process