JP2006031109A - 管理システム及び管理方法 - Google Patents

管理システム及び管理方法 Download PDF

Info

Publication number
JP2006031109A
JP2006031109A JP2004204988A JP2004204988A JP2006031109A JP 2006031109 A JP2006031109 A JP 2006031109A JP 2004204988 A JP2004204988 A JP 2004204988A JP 2004204988 A JP2004204988 A JP 2004204988A JP 2006031109 A JP2006031109 A JP 2006031109A
Authority
JP
Japan
Prior art keywords
event
update
unit
cause
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004204988A
Other languages
English (en)
Inventor
Takashi Suzuki
敬 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2004204988A priority Critical patent/JP2006031109A/ja
Priority to EP05014990A priority patent/EP1622306A3/en
Priority to US11/178,342 priority patent/US20060010337A1/en
Priority to CNB2005100840749A priority patent/CN100377532C/zh
Publication of JP2006031109A publication Critical patent/JP2006031109A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0736Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in functional embedded systems, i.e. in a data processing system designed as a combination of hardware and software dedicated to performing a certain function
    • G06F11/0742Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in functional embedded systems, i.e. in a data processing system designed as a combination of hardware and software dedicated to performing a certain function in a data processing system embedded in a mobile device, e.g. mobile phones, handheld devices

Abstract

【課題】様々な装置やシステムにおいて障害原因を特定可能な管理システムを提供する。
【解決手段】管理システム100は、イベント監視部1と、依存関係抽出部2と、格納部3と、データベース4と、原因特定部5と、障害検出部6と、更新部7aと、契機検出部7bと、更新規則記憶部8とを備える。管理システム100は、管理対象である装置やシステムに発生したイベントを検出し、イベントに関する依存関係を抽出して、イベントと依存関係に基づいて障害原因を特定する。
【選択図】図1

Description

本発明は、システムや装置を管理する管理システム及び管理方法に関する。特に、本発明は、システムや装置に発生した障害原因の特定に好適な管理システム及び管理方法に関する。
近年、携帯電話端末等の装置やシステムの高機能化に伴い、ソフトウェアやハードウェアの構成要素が増加し、装置やシステムは複雑化の一途を辿っている。一般に、高度化し、複雑化した装置やシステムにおいて、バグや脆弱性を根絶することは困難であり、障害発生は不可避である。更に、構成要素の増加に伴って要素間の相互依存の数は自乗で増加するため、障害発生時にその根本原因を特定することは困難な傾向にある。
一方、例えば、携帯電話端末やネットワーク等は、緊急通報等を行う通信インフラとして特に高い信頼性が要求される。そのため、脆弱性を利用した攻撃やソフトウェアのバグによって携帯電話端末やネットワーク等に障害が発生した場合であっても、迅速にその原因を除去し、その機能を復旧することが要求される。従って、障害原因を効率的に特定する機能が求められている。
従来、障害原因の特定を容易にする装置として、ある構成要素の障害が他の構成要素に影響し、障害が伝搬するようなネットワークにおいて、ある構成要素に障害が発生した際に、その構成要素に依存する構成要素で発生した障害に抑止フラグを設定することで、同一障害に起因する冗長な警告の発生を抑止し、根本原因の追跡を容易にするネットワーク管理装置がある(例えば、特許文献1参照)。
又、障害イベント間の伝搬モデルとネットワーク構成情報とに基づいて、入力される複数の障害イベントの原因を推論するシステムも提案されている(例えば、特許文献2参照)。この技術では、各障害原因が伝搬モデル上で引き起こすと考えられる障害イベントの個数の上限値が予め既知であることを前提に、障害原因毎にインデックスを付与し、メモリ利用量の少ない原因推定手法を提案している。更に、障害イベントの履歴から障害イベント間の相互相関を計算して記述漏れのあった障害伝搬ルールを検出し、伝搬モデルを更新するフィードバック手段も開示されている。
更に、計算機のオペレーションシステム(基本ソフト)上で発生するイベントのログから、オペレーションシステムが管理するオブジェクト間の依存モデルを構築する手法も提案されている(例えば、非特許文献1参照)。この技術では、障害イベント発生後にイベントログを解析することにより、障害イベントを基点とした依存モデルを生成、表示し、原因解析を支援する。
特開2001−125854号公報 特開平11−308221号公報 S.King, P.Chen, "Backtracking Intrusions", ACM SOSP 2003
しかしながら、特許文献1に開示されているネットワーク管理装置は、多数の構成要素が起こす障害イベントの中から根本原因となっている障害イベントを特定するものであり、原因となり得る障害イベントは事前に選別されていることを前提としている。即ち、このネットワーク管理装置が追跡可能な原因は、事前に識別可能な障害イベントに限られてしまう。このため、根本原因となるイベントが事前に識別不可能な場合、これを追跡することはできない。しかし、障害の根本原因となるイベントには様々なものがあり、障害イベント発生時に原因となるか否かを判定することは困難である。
又、特許文献2に開示されているシステムは、障害イベントの個数の上限値が予め既知であるという前提が必要である。この前提は、妥当な伝搬モデルが事前に構築されている場合にのみ成立する。そのため、簡単なネットワークのようにシステム構成が管理者に既知であり、障害原因及びそれに起因する障害イベントを予測可能な場合には適用できたとしても、複雑なネットワークやユーザがソフトウェアやハードウェアの構成要素を自由に拡張できる装置には適用できない。又、この技術では、記述漏れのあった障害伝搬ルールを検出し、伝搬モデルを更新することができるが、あくまでも記述漏れを補足する程度であり、障害伝搬ルールが全く存在しない状態から精度の高い伝搬モデルを構築することはできない。
更に、非特許文献1に開示の手法では、オペレーションシステムが記録したイベントログからオブジェクト間の依存モデルを構築するため、障害原因に関する事前知識は不要となる。しかし、動作中に全てのイベントログを蓄積する必要があるため、必要な記憶容量が実行に伴い増加してしまう。
即ち、いずれの従来技術においても、前提条件や記憶容量等の制約があり、前提条件を満たさない場合や、記憶容量が不十分な場合には、適切に障害原因を特定することができなかった。
そこで、本発明は、様々な装置やシステムにおいて障害原因を特定可能な管理システム及び管理方法を提供することを目的とする。
本発明に係る管理システムは、発生したイベントを検出するイベント監視部と、イベントに関する依存関係を抽出する依存関係抽出部と、イベント及び依存関係を保持する保持部と、更新規則に従って保持部を更新する更新部と、イベントと依存関係に基づいて発生した障害原因を特定する原因特定部とを備えることを特徴とする。
このような管理システムによれば、装置やシステムに発生したイベントを検出し、イベントに関する依存関係を抽出して、イベントと依存関係に基づいて障害原因を特定できる。そのため、管理システムは、予めイベントや依存関係、障害原因に関する情報が既知でなければならないといった前提条件を必要としない。更に、管理システムは、更新規則に従って保持部が保持するイベントや依存関係を更新できる。よって、管理システムは、予め情報を保持しておく必要がないだけでなく、検出したイベントや抽出した依存関係を適宜更新し、必要な情報のみを保持できる。そのため、管理システムは、必要とする記憶容量や情報の処理量を削減できる。以上のことから、管理システムは、前提条件や記憶容量の面からの制約を受けないため、様々な装置やシステムにおいて障害原因を特定できる。特に、管理システムは、記憶容量や演算能力に制約がある装置やシステムにおいても障害原因を特定できる利点がある。
管理システムは、更に、更新規則を適用する更新契機を検出し、その検出した更新契機を更新部に通知する契機検出部を備えることができる。そして、更新部は、契機検出部から通知された更新契機により適用する更新規則に従って保持部を更新することができる。これによれば、更新規則に従った更新を実行する更新契機を明示的に指定することが可能となる。
更に、保持部は、イベント又は依存関係の属性情報として、更新規則に関する情報を保持し、更新部は、更新規則に関する情報に基づいて保持部を更新することが好ましい。これによれば、イベントや依存関係毎に更新を制御でき、より柔軟な制御ができる。
属性情報は、例えば、更新規則を識別する識別子を用いることができ、更新部は、識別子により特定される更新規則に従って保持部を更新することができる。これによれば、各イベントや依存関係に適用する更新規則を明示的に指定することができる。
更に、イベント監視部はイベントに尤度を付与し、保持部は尤度をイベントと対応付けて保持し、原因特定部は、尤度に基づいて障害原因を特定することが好ましい。これによれば、管理システムは、尤度に基づいて可能性の高い障害原因を選択することができ、障害原因特定の精度を向上できる。
このとき、イベント監視部は、イベントの種別、又は、イベントに依存するイベントの尤度の少なくとも1つに基づいて付与する尤度を決定することが好ましい。これによれば、管理システムは、イベントの種別に応じた尤度を付与することや、依存関係に基づいてイベントの尤度を依存するイベントに伝播させることができる。よって、管理システムはより適切に尤度を付与し、障害原因特定の精度を更に向上できる。
又、保持部は、第1保持部と第2保持部を備え、更新部は、第1保持部からイベント及び依存関係を取得して更新し、更新後のイベント及び依存関係を第2保持部に格納するようにしてもよい。これによれば、管理システムは、第1保持部に一時的に情報を保持し、必要な情報だけを第2保持部に保持しておくことができる。しかも、第2保持部が保持する情報量を削減できる。
本発明に係る管理方法は、発生したイベントを検出するステップと、イベントに関する依存関係を抽出するステップと、更新規則に従ってイベント及び依存関係を保持する保持部を更新するステップと、イベントと依存関係に基づいて発生した障害原因を特定するステップとを有することを特徴とする。
以上説明したように、本発明によれば、様々な装置やシステムにおいて障害原因を特定可能な管理システム及び管理方法を提供することができる。
〔第1の実施形態〕
図1に示すように管理システム100は、イベント監視部1と、依存関係抽出部2と、格納部3と、データベース4と、原因特定部5と、障害検出部6と、更新部7aと、契機検出部7bと、更新規則記憶部8とを備える。
イベント監視部1は、管理システム100の管理対象であるシステムや装置において発生したイベントを検出する。例えば、イベント監視部1は、オペレーティングシステム(OS)上で実行されるプロセスが発するシステムコールやシステム設定ファイルの書き込み等をイベントとして監視し、検出する。
更に、イベント監視部1は、更新規則記憶部8からルールIDを取得する。更新規則記憶部8は、管理システム100が保持する情報の更新に関する更新規則を記憶する。更新規則には、更新規則を識別するための識別子としてルールIDが付与されている。イベント監視部1は、検出したイベントに基づいて、そのイベントに適用する更新規則を選択する。例えば、イベント監視部1は、イベントの重要度等に応じて更新規則を選択できる。そして、イベント監視部1は、選択した更新規則に付与されているルールIDを取得する。イベント監視部1は、検出したイベント、そのイベント発生時間、ルールIDを格納部3に入力する。更に、イベント監視部1は、検出したイベントを依存関係抽出部2に入力する。例えば、イベント監視部1は、オペレーティングシステム(OS)内のモジュールとして実装できる。
依存関係抽出部2は、イベントに関する依存関係を抽出する。依存関係抽出部2は、イベント監視部1から検出されたイベントを取得する。依存関係抽出部2は、管理対象であるシステムや装置に含まれる構成要素、システムや装置が行うプロセス、検出されたイベントに基づいて依存関係を抽出する。依存関係には、イベント間の依存関係、イベントにおける構成要素間の依存関係、イベントにおけるプロセス間の依存関係、イベントと構成要素の依存関係、イベントとプロセスの依存関係等がある。構成要素には、メモリやファイル等がある。構成要素は、例えば、オペレーティングシステム(OS)上で実行されるプロセス等が利用する。
例えば、依存関係抽出部2は、イベント監視部1からシステム設定ファイル書き込みイベントを取得した場合、システム設定ファイルのファイル名とシステム設定ファイルへのパスを、システム設定ファイル書き込みイベントに依存する「依存元」の構成要素、システム設定ファイル書き込みイベントを発生させたプロセス名をシステム設定ファイル書き込みイベントが依存する依存先のプロセスとして抽出する。依存関係抽出部2は、抽出した依存関係を格納部3に入力する。
尚、依存関係抽出部2が、抽出した依存関係に基づいて、その依存関係に適用する更新規則を選択するようにしてもよい。この場合、例えば、依存関係抽出部2は、依存関係の重要度等に応じて更新規則を選択できる。依存関係抽出部2は、更新規則記憶部8から選択した更新規則に付与されているルールIDを取得する。そして、依存関係抽出部2は、抽出した依存関係とあわせてルールIDを格納部3に入力する。
格納部3は、イベント監視部1から検出されたイベント、イベント発生時間、ルールIDを取得し、依存関係抽出部2から抽出された依存関係を取得する。格納部3は、取得したイベントと、イベント発生時間と、ルールID、依存関係とを対応付けてデータベース4に格納する。
データベース4は、イベントと依存関係を保持する保持部である。データベース4は、イベント及び依存関係だけでなく、イベント又は依存関係の属性情報を、イベント又は依存関係と対応付けて保持することができる。属性情報には、イベント発生時間や更新規則に関する情報等がある。更新規則に関する情報としては、イベントや依存関係の更新に適用する更新規則を識別する識別子(ルールID)等がある。更新規則に関する情報は、イベントや依存関係の更新に更新規則を適用する際に参照される。
データベース4は、図2に示すように、イベントIDと、イベントと、依存先と、依存元と、イベント発生時間と、更新規則のフィールドを備える。依存関係は依存先と依存元により表される。更新規則のフィールドにはルールIDが格納される。適用するルールIDがない場合には、更新規則のフィールドにはNULL値が設定される。格納部3は、イベントにイベントの識別子であるイベントIDを付与し、イベントIDに対応付けてイベント、依存関係、イベント発生時間、ルールIDを格納する。
更新部7aは、更新規則に従ってデータベース4を更新する。更新部7aは、更新規則記憶部8から更新規則を取得する。更新規則は、重要度の低い情報や一時的な情報の削除、複数のイベントとその依存関係の縮退等を実行する規則を定めることができる。具体的には、更新規則記憶部8は、図3に示すように、更新規則を記憶する更新規則テーブル81と、更新契機規則を記憶する更新契機規則テーブル82と備える。更新規則テーブル81は、ルールIDと、適用条件と、更新内容とを対応付けて記憶する。このように更新規則は、更新内容とその更新内容を適用する適用条件とを含み、各更新規則にはルールIDが付与されている。
更新契機規則テーブル82は、更新契機と、その更新契機により適用する更新規則のルールIDとを対応付けて保持する。このように更新契機規則は、更新契機とその更新契機により適用する更新規則の識別子とを記述したものを用いることができる。更新契機規則テーブル82は、1つの更新契機に複数のルールIDを対応付けて保持する場合、更新規則の適用順にルールIDを保持する。更新契機は、例えば、管理対象であるシステムや装置の様々な契機における負荷やメモリ使用量等に基づいて設定できる。これにより、計算機能力や記憶容量等のリソースに制約のある装置やシステムへの管理システム100の適用が容易となる。
契機検出部7bが、これらの更新規則を適用する更新契機を検出し、その検出した更新契機を更新部7aに通知する。更新部7aは、契機検出部7bから検出された更新契機の通知を受ける。更新部7aは、契機検出部7bから通知された更新契機により適用する更新規則に従ってデータベース4を更新する。具体的には、更新部7aは、通知された更新契機に基づいて更新契機規則テーブル82を検索し、検出された更新契機により適用する更新規則のルールIDを取得する。更新部7aは、取得したルールIDに基づいて、更新規則テーブル81から更新規則として適用条件と更新内容を取得する。そして、更新部7aは、取得した適用条件と更新内容に従ってデータベース4を更新する。
更に、更新部7aは、データベース4を参照し、検出された更新契機により適用される更新規則のルールIDが対応付けられているイベントや依存関係について、更新規則に従って更新を行う。このように更新部7aは、イベント又は依存関係の属性情報である更新規則に関する情報に基づいて、データベース4を更新する。具体的には、更新部7aは、データベース4を参照し、まず、イベントや依存関係に対応付けられているルールIDがあり、そのイベントや依存関係に適用する更新規則が存在するか否かを判断する。更新部7aは、ルールIDが対応付けられている場合には、そのルールIDにより特定される更新規則に従ってデータベース4を更新する。更新部7aは、適用する更新規則が存在しない場合には、データベース4を更新しないと判断できる。尚、図2に示すデータベース4では、1つのイベントに対して1つのルールIDが対応付けられているが、1つのイベントに対して適用される更新規則の数は限定されない。そのため、データベース4は、1つのイベントに対して複数のルールIDを対応付けて保持してもよい。
例えば、契機検出部7bがデータベース4への新規イベントの格納を検出し、更新部7aに通知する。通知を受けた更新部7aは、更新契機規則テーブル82を参照し、更新契機「新規イベント追加」に対応付けられたルールID「0x02」の更新規則を実行すると判断する。そして、更新部7aは、データベース4においてルールID「0x02」が属性情報として対応付けられているイベントや依存関係を、更新規則テーブル81が記憶する適用条件と更新内容に従って更新する。この場合、データベース4においてルールID「0x02」が付与されているイベントが更新対象イベントとなり、新規イベントが比較イベントとなる。
更新部7aは、適用条件「更新対象イベントのイベント発生時間が比較イベントのイベント発生時間よりも早く、かつ、更新対象イベントの依存元が比較イベントの依存先と等しい」を満たす場合に、更新内容「更新対象イベントに関する情報を比較イベントに関する情報に置き換える」を行う。これにより、例えば、更新部7aは、共有メモリを介したプロセス間通信についてデータベース4に格納する場合に、共有メモリへの書き込みイベントを共有メモリからの読み出しイベントに置き換えることができる。そのため、冗長な依存関係を削除することができる。
障害検出部6は、管理対象である装置やシステムに発生した障害を検出する。例えば、障害検出部6は、カーネルによるプロセス異常終了の通知や、ユーザによる通知等を取得することにより障害を検出する。障害検出部6は、障害検出を原因特定部5に通知する。障害検出部6は、障害が発生した構成要素やプロセス名(以下「障害発生要素」という)と、障害発生時間を通知する。例えば、障害検出部6は、障害検出シグナルを原因特定部5に送出する。
原因特定部5は、イベントと依存関係に基づいて発生した障害原因を特定する。原因特定部5は、障害検出部6から障害検出の通知を受けると、原因特定処理を開始する。原因特定部5は、データベース4を参照し、イベントや依存関係等を解析することにより原因を特定する。図4に、原因特定部5による障害原因の探索手順の概念図を示す。図4では、複数の円がイベントを示す。「N」〜「N−12」はイベント名である。そして、依存元のイベントから依存先のイベントに向けて矢印を示す。又、図4の上方から下方に向けて時間の経過を示す。
原因特定部5は、障害検出部6から通知された障害発生要素、例えば、障害発生プロセスを起点に依存関係を遡る。原因特定部5は、通知された障害発生時間から、時間の経過と逆方向に、障害発生プロセスを起点に依存関係を遡る。これにより、原因特定部5は、障害発生プロセスが直接的又は間接的に依存しているイベントを探索し、障害原因の候補として特定する。図4の場合、原因特定部5は、イベント「N」、「N−2」、「N−3」、「N−5」、「N−6」、「N−7」、「N−10」、「N−12」を障害原因の候補として特定する。原因特定部5は、特定した障害原因の候補を、管理対象の装置やシステムの制御部や表示部等に出力する。
障害原因には、例えば、システム設定ファイルの修正ミス、バグを含むアプリケーションやデバイスドライバのインストール、ウィルス等の悪意あるプログラムによるシステム改変等がある。
このような管理システム100は、管理対象である装置やシステムの一部として設けることができる。又、管理システム100は、管理対象である装置やシステムに接続して設けてもよい。このような管理システムは、コンピュータに、発生したイベントを検出するイベント監視部と、イベントに関する依存関係を抽出する依存関係抽出部と、イベント及び依存関係を保持する保持部と、更新規則に従って保持部を更新する更新部と、イベントと依存関係に基づいて発生した障害原因を特定する原因特定部として機能させるためのプログラムを実行させることにより実現できる。
次に、図1に示す管理システム100が行う管理方法の手順を、図5〜7を用いて説明する。図5にイベントと依存関係の管理方法を示す。管理システム100は、管理対象の装置やシステムに発生したイベントを検出する(S101)。管理システム100は、検出したイベントに関する更新規則(ルールID)を選択する(S102)。管理システム100は、発生したイベントに関する依存関係を抽出する(S103)。管理システム100は、イベント、依存関係、ルールID等をデータベース4に格納する(S104)。管理システム100は、更新契機を検出する(S105)。管理システム100は、検出した更新契機により適用する更新規則を更新規則記憶部8から取得する(S106)。管理システム100は、取得した更新規則に従ってデータベース4を更新する(S107)。
図6に原因特定部5の処理手順を示す。原因特定部5は、障害検出部6から障害発生要素と障害発生時間を取得する。原因特定部5は、鍵(key)に障害発生要素を代入し、時間(time)に障害発生時間を代入する(S201)。原因特定部5は、障害発生要素を鍵(key)に、障害発生時間(time)も用いて障害原因の候補を特定する(S202)。原因特定部5は、特定した障害原因の候補を出力する(S203)。
図7に、障害原因の特定手順、即ち、図6に示したステップ(S202)のより詳細な手順を示す。原因特定部5は、取得した障害発生時間(time)に基づいてデータベース4を検索し、障害発生時間の直前のイベントを特定する。更に、原因特定部5は、直前のイベントのイベント発生時間を時間(time)に代入する(S301)。原因特定部5は、直前のイベントの依存元が、取得した障害発生要素(key)と一致するか否かを判定する(S302)。一致する場合、原因特定部5は、直前のイベントに障害発生要素が依存していると判断し、直前のイベントを障害原因の候補として特定し、記憶する(S303)。
更に、原因特定部5は、障害原因の候補として特定したイベント(以下「特定済みイベント」という)が依存している他のイベントを探索するために、鍵(key)に特定済みイベントの依存先を代入し、図4に示した障害原因の探索手順に従う処理を再起的に呼び出す(S304)。そして、原因特定部5は、特定済みイベントの依存先(key)及びイベント発生時間(time)に基づいてデータベース4を検索する(S305)。
原因特定部5は、ステップ(S305)に続いて、あるいは、ステップ(S302)において、直前のイベントの依存元が障害発生要素(key)と一致しない場合に、特定済みイベントの直前のイベントの特定を試みる。更に、原因特定部5は、特定済みイベントの直前のイベントのイベント発生時間を時間(time)に代入する(S306)。原因特定部5は、ステップ(S306)において直前のイベントを特定できるか否かを判断する(S307)。即ち、原因特定部5は、直前のイベントが存在するか、存在しないか(NULL)を判断する。
原因特定部5は、直前のイベントが存在する場合には、そのイベントを障害原因の候補として特定する。そして、直前のイベントが存在する限り、ステップ(S302)に戻り、ステップ(S302)〜(S307)を繰り返し実行する。一方、原因特定部5は、直前のイベントが存在しない(NULL)場合、処理を終了する。
このような管理システム100及び管理方法によれば、管理対象である装置やシステムに発生したイベントを検出し、イベントに関する依存関係を抽出して、イベントと依存関係に基づいて障害原因を特定できる。そのため、管理システム100は、予めイベントや依存関係、障害原因に関する情報が既知でなければならないといった前提条件を必要としない。更に、管理システム100は、更新規則に従って保持部が保持するイベントや依存関係を更新できる。よって、管理システム100は、予め情報を保持しておく必要がないだけでなく、検出したイベントや抽出した依存関係を適宜更新し、必要な情報のみを保持できる。そのため、管理システム100は、必要とする記憶容量や情報の処理量を削減できる。
以上のことから、管理システム100は、前提条件や記憶容量の面からの制約を受けないため、様々な装置やシステムにおいて障害原因を特定できる。更に、情報の処理量を削減できることから、障害原因の特定が容易になり、障害からの復旧に要する時間を削減できる。
例えば、管理システム100では、全てのイベントに関する情報を保持し、管理する必要がないため、多数の構成要素を含む複雑な装置やシステムにおいて保持する情報量が膨大になってしまうことを防止できる。又、障害原因の発生から実際に障害が発生するまでの時間間隔の増加に伴って、保存すべき情報量や解析に要する処理量が増加し、蓄積容量や演算能力に制約のある装置やシステムにおける障害原因特定が困難になることも防止できる。よって、管理システム100は、記憶容量や演算能力に制約がある携帯電話端末のような装置や、システムにおいても障害原因を特定できる。
更に、管理システム100では、契機検出部7bが更新規則を適用する更新契機を検出し、その検出した更新契機を更新部7aに通知する。そして、更新部7aが、契機検出部7bから通知された更新契機により適用する更新規則に従ってデータベース4を更新することができる。そのため、管理システム100では、更新規則に従った更新を実行する更新契機を明示的に指定することが可能となる。
又、データベース4は、イベント又は依存関係の属性情報として、更新規則に関する情報を保持し、更新部7aは、更新規則に関する情報に基づいてデータベース4を更新できる。そのため、管理システム100は、イベントや依存関係毎に更新を制御でき、より柔軟な制御ができる。例えば、管理システム100は、イベントや依存関係毎に適用する更新規則を制御することができ、イベントや依存関係の重要度等に応じて、柔軟に更新を制御することができる。
特に、管理システム100では、属性情報としてルールIDを用いることができ、更新部7aは、ルールIDにより特定される更新規則に従ってデータベース4を更新することができる。そのため、管理システム100では、各イベントや依存関係に適用する更新規則を明示的に指定することができる。
〔第2の実施形態〕
図8に示すように、管理システム200は、イベント監視部201と、依存関係抽出部2と、格納部203と、データベース204と、原因特定部205と、障害検出部6と、更新部207aと、契機検出部7bと、更新規則記憶部8と、尤度決定規則記憶部9を備える。図8では、図1に示した管理システム100と実質的に同一の構成には同一の符号を付して説明を省略する。
イベント監視部201は、検出したイベントに尤度を付与する。イベント監視部201は、イベントの種別、又は、イベントに依存するイベントの尤度の少なくとも1つに基づいて付与する尤度を決定することが好ましい。具体的には、イベント監視部201は、尤度決定規則に基づいて付与する尤度を決定する。尤度決定規則は、尤度決定規則記憶部9が記憶する。尤度決定規則には、例えば、イベントの種別と尤度の対応付けや、イベントに依存するイベントの尤度に基づいて尤度を決定するといった決定規則等が含まれる。イベントの種別に基づく尤度は、例えば、管理対象である装置やシステムに与える影響の大きさに従って設定することができる。例えば、システム設定ファイルの変更イベント等には高い尤度を設定することができる。
データベース204は、尤度をイベントと対応付けて保持する。図9に示すように、データベース204は、イベントIDと、イベントと、依存先と、依存元と、イベント発生時間と、尤度と、更新規則のフィールドを備える。格納部203は、イベントにイベントIDを付与し、イベントIDに対応付けてイベント、依存関係、イベント発生時間、尤度、ルールIDを格納する。更新部207aは、尤度も更新する。
原因特定部205は、尤度に基づいて障害原因を特定する。図10に、原因特定部205による障害原因の探索手順の概念図を示す。図10は、図4と同様にイベント間の関係等を表現している。原因特定部205は、図4の場合と同様にして、障害検出部6から通知された障害発生要素(障害発生プロセス等)を起点に依存関係を遡り、障害発生プロセスが直接的又は間接的に依存しているイベントを探索する。
次に、原因特定部205は、障害発生プロセスが直接的又は間接的に依存している各イベントの尤度を変数Mi(iはイベント名を示す)に累積加算する。そして、原因特定部205は、変数Miが予め規定された閾値よりも大きくなったイベントだけを障害原因の候補として特定する。図10では、原因特定部205は、閾値を越えた変数「MN−5」、「MN−7」、「MN−12」を持つイベント「N−5」、「N−7」、「N−12」を障害原因の候補として特定する。
あるいは、原因特定部205は、障害発生プロセスが直接的又は間接的に依存しているイベントの尤度を比較し、尤度が高く障害原因である可能性が高いイベントを障害原因の候補として選択してもよい。例えば、原因特定部205は、尤度に基づいてイベントに順番を付け、上位所定数のイベントを障害原因の候補として選択してもよい。イベント監視部201、格納部203、原因特定部205、更新部207aは、これらの点以外は図1に示したイベント監視部1、格納部3、原因特定部5、更新部7aと実質的に同様である。
次に、図8に示す管理システム200が行う管理方法の手順を、図11〜13を用いて説明する。図11にイベントと依存関係の管理方法を示す。管理システム200は、管理対象の装置やシステムに発生したイベントを検出する(S401)。管理システム200は、検出したイベントに関する更新規則(ルールID)を選択する。更に、管理システム200は、検出したイベントの尤度を尤度決定規則に基づいて決定し、イベントに尤度を付与する(S402)。管理システム200は、発生したイベントに関する依存関係を抽出する(S403)。管理システム200は、イベント、依存関係、尤度、ルールID等をデータベース204に格納する(S404)。管理システム200は、更新契機を検出する(S405)。管理システム200は、検出した更新契機により適用する更新規則を更新規則記憶部8から取得する(S406)。管理システム200は、取得した更新規則に従ってデータベース204を更新する(S407)。
図12に原因特定部205の処理手順を示す。原因特定部205は、障害検出部6から障害発生要素(key)と障害発生時間(time)を取得する。原因特定部205は、鍵(key)に障害発生要素を代入し、時間(time)に障害発生時間を代入する。原因特定部205は、変数Miを用いて障害原因を特定する場合、変数Miを初期化する(S501)。原因特定部205は、障害発生要素を鍵(key)に、障害発生時間(time)も用いて、尤度に基づいて障害原因の候補を特定する(S502)。原因特定部205は、特定した障害原因の候補をその尤度と共に出力する(S503)。
図12に、障害原因の特定手順、即ち、図11に示したステップ(S502)の一例のより詳細な手順を示す。原因特定部205は、尤度を累積加算していく変数、即ち、尤度の累積値を格納する変数Miをローカル変数Mi’に代入する(S601)。原因特定部205は、取得した障害発生時間(time)に基づいてデータベース204を検索し、障害発生時間の直前のイベントを特定する。更に、原因特定部205は、直前のイベントのイベント発生時間を時間(time)に代入する(S602)。
原因特定部205は、直前のイベントの依存元が、取得した障害発生要素(key)と一致するか否かを判定する(S603)。一致する場合、原因特定部205は、変数Miに直前のイベントの尤度を累積加算する(S604)。原因特定部205は、累積加算後の変数Miが閾値よりも大きいか否かを判断する(S605)。原因特定部205は、累積加算後の変数Miが閾値よりも大きいと判断した場合には、直前のイベントを障害原因の候補として特定し、記憶する(S606)。ステップ(S606)に続いてステップ(S607)に進む。又、ステップ(S605)において累積加算後の変数Miが閾値よりも小さいと判断した場合には、原因特定部205は、ステップ(S606)をバイパスし、ステップ(S607)に進む。
原因特定部205は、鍵(key)に特定済みイベントの依存先を代入し、図10に示した障害原因の探索手順に従う処理を再起的に呼び出す(S607)。そして、原因特定部205は、特定済みイベントの依存先(key)及びイベント発生時間(time)に基づいてデータベース204を検索する(S608)。
原因特定部205は、ステップ(S608)に続いて、あるいは、ステップ(S603)において、直前のイベントの依存元が障害発生要素(key)と一致しない場合に、特定済みイベントの直前のイベントの特定を試みる。更に、原因特定部205は、特定済みイベントの直前のイベントのイベント発生時間を時間(time)に代入する(S609)。
原因特定部205は、ステップ(S609)において直前のイベントを特定できるか否かを判断する(S610)。即ち、原因特定部205は、直前のイベントが存在するか、存在しないか(NULL)を判断する。原因特定部205は、直前のイベントが存在する場合には、ステップ(S603)に戻り、直前のイベントが存在する限り、ステップ(S603)〜(S610)を繰り返し実行する。一方、原因特定部205は、直前のイベントが存在しない(NULL)場合、ローカル変数Mi’を変数Miに代入し(S611)、処理を終了する。
このような管理システム200及び管理方法によれば、図1に示した管理システム100及び図5〜7に示した管理方法によって得られる効果に加えて、以下の効果を得ることができる。管理システム200は、尤度に基づいて可能性の高い障害原因を選択することができ、障害原因特定の精度を向上できる。更に、管理システム200によれば、障害発生要素が多数のイベントに依存している場合であっても、尤度に基づく特定により障害原因の候補数の増加を抑制し、障害原因の特定をより容易にできる。しかも、管理システム200は、イベントの種別に応じた尤度を付与することや、依存関係に基づいてイベントの尤度を依存するイベントに伝播させることができる。よって、管理システム200はより適切に尤度を付与し、障害原因特定の精度を更に向上できる。
〔第3の実施形態〕
図14に示すように、管理システム300は、イベント監視部201と、依存関係抽出部2と、格納部303と、第1データベース304aと、第2データベース304bと、原因特定部305と、障害検出部6と、更新部307aと、契機検出部7bと、更新規則記憶部8と、尤度決定規則記憶部9を備える。図14では、図1、8に示した管理システム100,200と実質的に同一の構成には同一の符号を付して説明を省略する。
管理システム300は、保持部として第1保持部である第1データベース304aと、第2保持部である第2データベース304bとを備える。第1データベース304aは、揮発性の記憶媒体を用いることができる。揮発性の記憶媒体は、記録速度が高速ではあるが、記憶容量が限られており、容量単価が高い。例えば、第1データベース304aとして、メインメモリを用いることができる。第2データベース304bは、不揮発性の記憶媒体を用いることができる。不揮発性の記憶媒体は、記録速度は低速だが、記憶容量が大きく、容量単価が安い。即ち、第2データベース304bは、大量のデータを低コストで保持可能である。例えば、第2データベース304bとして、磁気記憶装置やネットワーク上のデータベースサーバを用いることができる。第1データベース304a、第2データベース304bは、図9に示したデータベース204と同様にして情報を保持する。
格納部303は、イベント監視部201や依存情報抽出部2から取得したイベント発生時の情報を、第1データベース304aに格納する。第1データベース304aへは高速な情報の格納が可能であるため、管理システム300は、情報格納に伴うオーバヘッドを低減できる。
更新部307aは、第1データベース304aから情報を取得し、第2データベース304bに格納する。即ち、更新部307aは、第1データベース304aから第2データベース304bに情報を転記し、移行する。更新部307aは、例えば、事前に規定されたタイミングで情報を移行する。例えば、更新部307aは、第1データベース304aが保持する情報量が閾値を越えたときや、管理対象である装置やシステムをリブートするときに情報を移行できる。
更に、更新部307aは、第1データベース304aからイベントや依存関係等を取得して更新し、更新後のイベントや依存関係を第2データベース304bに格納する。即ち、更新部307aは、情報の移行と同時に更新を行う。
例えば、図3に示すように更新契機規則テーブル82が更新契機「第2データベースへの格納」を保持しておくことにより、更新部307aは、情報の移行時に更新を実行できる。更新部307aは、ルールID「0x02」、「0x04」の順番に更新規則に従った更新を実行する。更新部307aは、ルールID「0x02」の更新内容に従って第1データベース304aから取得した情報を更新し、第2データベース304bに格納した後、ルールID「0x04」の更新内容に従って第1データベース304aが保持する情報を消去する。
原因推定部305は、第1データベース304a及び第2データベース304bを参照し、第1データベース304a及び第2データベース304bが保持する情報を用いて障害原因を特定する。格納部303、原因特定部305、更新部307aは、これらの点以外は図8に示した格納部203、原因特定部305、更新部207aと実質的に同様である。
このような管理システム300によれば、図1、8に示した管理システム100,200によって得られる効果に加えて以下の効果を得ることができる。管理システム300では、第1データベース304aに一時的に情報を保持し、必要な更新後の情報だけを第2データベース304bに保持しておくことができる。しかも、更新後の情報であるため、第2データベース304bが保持する情報量を削減できる。
更に、管理システム300は、第1データベース304a、第2データベース304bとして特性の異なる2つの記憶媒体を用いる。そして、管理システム300は、高速な記録が可能な第1データベース304aに一時的に情報を格納しておき、第2データベース304bに適宜移行することができる。よって、管理システム300は、情報を収集し、データベース304aに格納する際のオーバヘッドを低減できる。
このような管理システム300は、特に、記憶容量に制限がある装置やシステムに対して有用である。例えば、携帯電話端末では、記憶容量に対する制約が厳しく、障害原因特定のために必要な情報を保持するために大量のメモリを利用することはあまり現実的ではないが、管理システム300によればそのような事態を回避できる。
本発明の第1の実施形態に係る管理システムの構成を示すブロック図である。 本発明の第1の実施形態に係るデータベースを示す図である。 本発明の第1の実施形態に係る更新規則記憶部を示す図である。 本発明の第1の実施形態に係る障害原因の探索手順を示す概念図である。 本発明の第1の実施形態に係るイベントと依存関係の管理方法を示すフロー図である。 本発明の第1の実施形態に係る原因特定部の処理手順を示すフロー図である。 本発明の第1の実施形態に係る障害原因の特定手順を示すフロー図である。 本発明の第2の実施形態に係る管理システムの構成を示すブロック図である。 本発明の第2の実施形態に係るデータベースを示す図である。 本発明の第2の実施形態に係る障害原因の探索手順を示す概念図である。 本発明の第2の実施形態に係るイベントと依存関係の管理方法を示すフロー図である。 本発明の第2の実施形態に係る原因特定部の処理手順を示すフロー図である。 本発明の第2の実施形態に係る障害原因の特定手順を示すフロー図である。 本発明の第3の実施形態に係る管理システムの構成を示すブロック図である。
符号の説明
1,201 イベント監視部
2 依存関係抽出部
3,203,303 格納部
4,204 データベース
5,205,305 原因特定部
6 障害検出部
7a,207a,307a 更新部
7b 契機検出部
8 更新規則記憶部
9 尤度決定規則記憶部
100,200,300 管理システム
304a 第1データベース
304b 第2データベース

Claims (8)

  1. 発生したイベントを検出するイベント監視部と、
    前記イベントに関する依存関係を抽出する依存関係抽出部と、
    前記イベント及び前記依存関係を保持する保持部と、
    更新規則に従って前記保持部を更新する更新部と、
    前記イベントと前記依存関係に基づいて発生した障害原因を特定する原因特定部と
    を備えることを特徴とする管理システム。
  2. 前記更新規則を適用する更新契機を検出し、該検出した更新契機を前記更新部に通知する契機検出部を備え、
    前記更新部は、前記契機検出部から通知された前記更新契機により適用する前記更新規則に従って前記保持部を更新することを特徴とする請求項1に記載の管理システム。
  3. 前記保持部は、前記イベント又は前記依存関係の属性情報として、前記更新規則に関する情報を保持し、
    前記更新部は、前記更新規則に関する情報に基づいて前記保持部を更新することを特徴とする請求項1又は2に記載の管理システム。
  4. 前記属性情報は、前記更新規則を識別する識別子であり、
    前記更新部は、前記識別子により特定される更新規則に従って前記保持部を更新することを特徴とする請求項3に記載の管理システム。
  5. 前記イベント監視部は、前記イベントに尤度を付与し、
    前記保持部は、前記尤度を前記イベントと対応付けて保持し、
    前記原因特定部は、前記尤度に基づいて前記障害原因を特定することを特徴とする請求項1乃至4のいずれか1項に記載の管理システム。
  6. 前記イベント監視部は、前記イベントの種別、又は、前記イベントに依存するイベントの尤度の少なくとも1つに基づいて前記付与する尤度を決定することを特徴とする請求項5に記載の管理システム。
  7. 前記保持部は、第1保持部と第2保持部を備え、
    前記更新部は、前記第1保持部から前記イベント及び前記依存関係を取得して更新し、該更新後のイベント及び依存関係を前記第2保持部に格納することを特徴とする請求項1乃至6のいずれか1項に記載の管理システム。
  8. 発生したイベントを検出するステップと、
    前記イベントに関する依存関係を抽出するステップと、
    更新規則に従って前記イベント及び前記依存関係を保持する保持部を更新するステップと、
    前記イベントと前記依存関係に基づいて発生した障害原因を特定するステップとを有することを特徴とする管理方法。
JP2004204988A 2004-07-12 2004-07-12 管理システム及び管理方法 Pending JP2006031109A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2004204988A JP2006031109A (ja) 2004-07-12 2004-07-12 管理システム及び管理方法
EP05014990A EP1622306A3 (en) 2004-07-12 2005-07-11 Event and dependency based failure identification management system and method
US11/178,342 US20060010337A1 (en) 2004-07-12 2005-07-12 Management system and management method
CNB2005100840749A CN100377532C (zh) 2004-07-12 2005-07-12 管理系统和管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004204988A JP2006031109A (ja) 2004-07-12 2004-07-12 管理システム及び管理方法

Publications (1)

Publication Number Publication Date
JP2006031109A true JP2006031109A (ja) 2006-02-02

Family

ID=35295345

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004204988A Pending JP2006031109A (ja) 2004-07-12 2004-07-12 管理システム及び管理方法

Country Status (4)

Country Link
US (1) US20060010337A1 (ja)
EP (1) EP1622306A3 (ja)
JP (1) JP2006031109A (ja)
CN (1) CN100377532C (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008117872A1 (ja) * 2007-03-28 2008-10-02 Ntt Docomo, Inc. ソフトウェア挙動モデル化装置、ソフトウェア挙動モデル化方法、ソフトウェア挙動検証装置及びソフトウェア挙動検証方法
JP2009181495A (ja) * 2008-01-31 2009-08-13 Nomura Research Institute Ltd ジョブ処理システムおよびジョブ管理方法
JP2011154491A (ja) * 2010-01-26 2011-08-11 Fujitsu Ltd 情報管理プログラム、情報管理装置、および情報管理方法
JP2013020591A (ja) * 2011-07-14 2013-01-31 Kddi Corp 依存関係グラフ作成装置、障害発生箇所診断システム、障害発生箇所診断方法およびコンピュータプログラム
JP2013073315A (ja) * 2011-09-27 2013-04-22 Kddi Corp 障害発生箇所特定用端末、障害発生箇所診断方法およびコンピュータプログラム
US8799753B2 (en) 2008-02-04 2014-08-05 Nec Corporation Trace/failure observation system, trace/failure observation method, and trace/failure observation program
WO2014141352A1 (ja) * 2013-03-11 2014-09-18 株式会社 日立製作所 システム制御装置
JP2016177414A (ja) * 2015-03-19 2016-10-06 アズビル株式会社 不具合要因特定支援装置および不具合要因特定支援方法
JP2017085220A (ja) * 2015-10-23 2017-05-18 日本電信電話株式会社 ネットワーク監視装置およびネットワーク監視方法
JP2017107330A (ja) * 2015-12-08 2017-06-15 日本電気株式会社 支援装置、支援方法およびプログラム
JP2017191467A (ja) * 2016-04-13 2017-10-19 エヌ・ティ・ティ・コミュニケーションズ株式会社 システム管理支援装置、システム管理支援方法、及びプログラム
JP2018063518A (ja) * 2016-10-12 2018-04-19 株式会社日立製作所 管理サーバ、管理方法及びそのプログラム
JP2018124697A (ja) * 2017-01-31 2018-08-09 オムロン株式会社 情報処理装置、情報処理プログラムおよび情報処理方法

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7480649B2 (en) * 2005-07-06 2009-01-20 International Business Machines Corporation Method for efficient evaluation of index screening predicates
US7484121B2 (en) * 2005-08-30 2009-01-27 International Business Machines Corporation Self-aware and self-healing computing system
US20070294584A1 (en) * 2006-04-28 2007-12-20 Microsoft Corporation Detection and isolation of data items causing computer process crashes
US8051164B2 (en) * 2007-12-14 2011-11-01 Bmc Software, Inc. Impact propagation in a directed acyclic graph having restricted views
US8301755B2 (en) * 2007-12-14 2012-10-30 Bmc Software, Inc. Impact propagation in a directed acyclic graph
JP5303975B2 (ja) * 2008-03-18 2013-10-02 株式会社リコー データ配信装置及びデータ配信システムと、そのエラー通知方法並びにそのプログラム及びそれを記録した記録媒体
US8612372B2 (en) * 2008-08-29 2013-12-17 International Business Machines Corporation Detection rule-generating facility
US8806273B2 (en) 2008-10-30 2014-08-12 International Business Machines Corporation Supporting detection of failure event
WO2010067703A1 (ja) * 2008-12-08 2010-06-17 日本電気株式会社 データ依存関係解析装置、情報処理装置、データ依存関係解析方法、及びプログラム
JP5385459B2 (ja) * 2010-06-14 2014-01-08 株式会社日立製作所 管理システム及び計算機システムの管理方法
US8954932B2 (en) * 2012-12-11 2015-02-10 International Business Machines Corporation Crash notification between debuggers
US9471474B2 (en) * 2013-08-19 2016-10-18 Microsoft Technology Licensing, Llc Cloud deployment infrastructure validation engine
CN104516730B (zh) * 2013-09-29 2017-11-10 国际商业机器公司 一种数据处理方法和装置
DE102014200365A1 (de) * 2013-11-26 2015-05-28 Continental Teves Ag & Co. Ohg Sensoranordnung und Magnetisierungsvorrichtung sowie Verwendung der Sensoranordnung in einem Kraftfahrzeugsteuergerät
US10198289B2 (en) 2014-04-29 2019-02-05 Entit Software Llc Relating user action flows by storing relationships between threads and objects
CN105988886B (zh) * 2015-04-21 2018-03-16 中国银联股份有限公司 一种运维过程中的故障处理方法及装置
CN106844173A (zh) * 2016-12-29 2017-06-13 四川九洲电器集团有限责任公司 一种信息处理方法及电子设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG47804A1 (en) * 1993-11-30 1998-04-17 British Telecomm Communications network management
JPH11308221A (ja) * 1998-04-22 1999-11-05 Sumitomo Electric Ind Ltd ネットワーク管理システム
JP2000163344A (ja) * 1998-11-27 2000-06-16 Nec Corp ネットワーク管理システムのデータベース復旧方式
JP3875436B2 (ja) * 1999-10-28 2007-01-31 富士通株式会社 ネットワーク管理装置および記録媒体
US7500143B2 (en) * 2000-05-05 2009-03-03 Computer Associates Think, Inc. Systems and methods for managing and analyzing faults in computer networks
US7043661B2 (en) * 2000-10-19 2006-05-09 Tti-Team Telecom International Ltd. Topology-based reasoning apparatus for root-cause analysis of network faults
GB2373606B (en) * 2001-03-23 2003-06-04 Sun Microsystems Inc A computer system
JP2003150407A (ja) * 2001-11-14 2003-05-23 Hitachi Electronics Service Co Ltd 障害自動復旧システム及び装置
US7096459B2 (en) * 2002-09-11 2006-08-22 International Business Machines Corporation Methods and apparatus for root cause identification and problem determination in distributed systems
US7266729B2 (en) * 2002-12-27 2007-09-04 Intel Corporation Managing a wireless platform
US7552447B2 (en) * 2004-05-26 2009-06-23 International Business Machines Corporation System and method for using root cause analysis to generate a representation of resource dependencies

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008243034A (ja) * 2007-03-28 2008-10-09 Ntt Docomo Inc ソフトウェア挙動モデル化装置、ソフトウェア挙動モデル化方法、ソフトウェア挙動検証装置及びソフトウェア挙動検証方法
US8407799B2 (en) 2007-03-28 2013-03-26 Ntt Docomo, Inc. Software behavior modeling device, software behavior modeling method, software behavior verification device, and software behavior verification method
WO2008117872A1 (ja) * 2007-03-28 2008-10-02 Ntt Docomo, Inc. ソフトウェア挙動モデル化装置、ソフトウェア挙動モデル化方法、ソフトウェア挙動検証装置及びソフトウェア挙動検証方法
JP2009181495A (ja) * 2008-01-31 2009-08-13 Nomura Research Institute Ltd ジョブ処理システムおよびジョブ管理方法
US8799753B2 (en) 2008-02-04 2014-08-05 Nec Corporation Trace/failure observation system, trace/failure observation method, and trace/failure observation program
JP2011154491A (ja) * 2010-01-26 2011-08-11 Fujitsu Ltd 情報管理プログラム、情報管理装置、および情報管理方法
JP2013020591A (ja) * 2011-07-14 2013-01-31 Kddi Corp 依存関係グラフ作成装置、障害発生箇所診断システム、障害発生箇所診断方法およびコンピュータプログラム
JP2013073315A (ja) * 2011-09-27 2013-04-22 Kddi Corp 障害発生箇所特定用端末、障害発生箇所診断方法およびコンピュータプログラム
WO2014141352A1 (ja) * 2013-03-11 2014-09-18 株式会社 日立製作所 システム制御装置
JP2016177414A (ja) * 2015-03-19 2016-10-06 アズビル株式会社 不具合要因特定支援装置および不具合要因特定支援方法
JP2017085220A (ja) * 2015-10-23 2017-05-18 日本電信電話株式会社 ネットワーク監視装置およびネットワーク監視方法
JP2017107330A (ja) * 2015-12-08 2017-06-15 日本電気株式会社 支援装置、支援方法およびプログラム
JP2017191467A (ja) * 2016-04-13 2017-10-19 エヌ・ティ・ティ・コミュニケーションズ株式会社 システム管理支援装置、システム管理支援方法、及びプログラム
JP2018063518A (ja) * 2016-10-12 2018-04-19 株式会社日立製作所 管理サーバ、管理方法及びそのプログラム
JP2018124697A (ja) * 2017-01-31 2018-08-09 オムロン株式会社 情報処理装置、情報処理プログラムおよび情報処理方法

Also Published As

Publication number Publication date
CN100377532C (zh) 2008-03-26
EP1622306A3 (en) 2009-09-16
US20060010337A1 (en) 2006-01-12
EP1622306A2 (en) 2006-02-01
CN1722678A (zh) 2006-01-18

Similar Documents

Publication Publication Date Title
JP2006031109A (ja) 管理システム及び管理方法
US10621211B2 (en) Language tag management on international data storage
US20110320882A1 (en) Accelerated virtual environments deployment troubleshooting based on two level file system signature
KR20060049879A (ko) 최적화된 복원 계획을 생성하는 방법
US9355005B2 (en) Detection apparatus and detection method
CN109871290B (zh) 应用于Java的调用堆栈追踪方法、装置和存储介质
US20170286264A1 (en) System and method for data element tracing
CN111158741B (zh) 监控业务模块对第三方类库依赖关系变化的方法及装置
US8799716B2 (en) Heap dump occurrence detection
WO2016111673A1 (en) Multi-tenant upgrading
US11151020B1 (en) Method and system for managing deployment of software application components in a continuous development pipeline
CN115495424A (zh) 数据处理的方法、电子设备和计算机程序产品
US9465687B2 (en) Information processing apparatus and information processing method
US8965826B2 (en) Dynamic backjumping in constraint satisfaction problem solving
CN114996955A (zh) 一种云原生混沌工程实验的靶场环境构建方法及装置
US10684881B2 (en) Batch processing of computing elements to conditionally delete virtual machine(s)
WO2016120989A1 (ja) 管理計算機及びルールの試験方法
CN108614838B (zh) 一种用户群索引处理方法、装置及系统
JP6497278B2 (ja) ログ管理プログラム、ログ管理方法およびログ管理装置
CN111726373B (zh) 通信链路构建方法、装置和设备
US11863632B2 (en) Method and system for application performance neutral, network bandwidth optimized capturing of resources used during the interaction of user with a web-based application to create monitoring data for an accurate visual reconstruction of the user experience
JP2011227789A (ja) 情報処理装置及びプログラム
CN116225766A (zh) 断点记忆恢复方法、装置、电子设备和计算机可读存储介质
CN117473501A (zh) 基于eBPF的隐藏进程检测方法、装置、设备及介质
CN117827745A (zh) 对象系统下语义快照的实现方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070330

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090414

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090612

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090915

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100202