JP2012094049A - インシデント管理システムおよびインシデント管理プログラム - Google Patents

インシデント管理システムおよびインシデント管理プログラム Download PDF

Info

Publication number
JP2012094049A
JP2012094049A JP2010242239A JP2010242239A JP2012094049A JP 2012094049 A JP2012094049 A JP 2012094049A JP 2010242239 A JP2010242239 A JP 2010242239A JP 2010242239 A JP2010242239 A JP 2010242239A JP 2012094049 A JP2012094049 A JP 2012094049A
Authority
JP
Japan
Prior art keywords
incident
failure
fault
message
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010242239A
Other languages
English (en)
Inventor
Takayuki Osawa
隆之 大澤
Takashi Mitamura
崇司 三田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2010242239A priority Critical patent/JP2012094049A/ja
Publication of JP2012094049A publication Critical patent/JP2012094049A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】1つのシステム障害に起因して複数の障害メッセージが出力される場合に、関連性のあるこれらの障害メッセージをまとめて取り扱うことを可能とするインシデント管理システムを提供する。
【解決手段】障害監視システム3が出力した障害メッセージに基づいて、これをインシデントとして登録して管理するインシデント管理システム1であって、障害メッセージに基づいて障害事象をインシデントとしてインシデントDB11に登録するインシデント登録部10と、障害メッセージについて関連性ルールDB21に予め登録されている、各障害メッセージとその関連障害メッセージに係る情報を検索して関連障害メッセージの情報を取得し、障害監視システム3における障害発生時近辺の所定の範囲の障害メッセージの出力内容を検索し、取得した関連障害メッセージが出力されている場合は、インシデントDB11に追加して記録する関連性判定部20とを有する。
【選択図】図1

Description

本発明は、コンピュータシステムの運用管理の技術に関し、特に、障害検知からの対応実施の支援や対応状況の管理などを行うインシデント管理システムおよびこれに用いられるインシデント管理プログラムに適用して有効な技術に関するものである。
大規模なコンピュータシステムやデータセンター等、多数のコンピュータ機器からなるシステムでは、その継続的な安定稼働のために障害監視等を行う仕組みが構築される。このような仕組みでは一般的に、稼働中のサーバ機器等の障害を監視する監視サーバ等が障害を検知した場合に、オペレータは一次対応として、例えば、障害メッセージに対応して予め定められた対応手順や、過去の同様の障害履歴を参照して得られる対応手順などを取得してこれを実施する。また、当該障害の内容を記録するとともにその対応状況等を管理する。
また、一次対応の実施と同時に、もしくは一次対応の手順がないあるいは手順を実施しても効果がないような場合に、アプリケーションやシステム基盤などの開発担当者等に連絡(コール)し、二次対応を依頼する。これらの作業の実施を支援するための仕組みとして、インシデント(障害)管理システムが構築される場合がある。なお、システムの規模などによっては、オペレータ以外にこのような一次対応の判断や二次対応の依頼コールなどを含むインシデントの管理作業を専属で行うサポートデスク等を設置する場合もある。
このような障害監視と(一次)対応手順の判断に係る技術としては、例えば、特開2009−26052号公報(特許文献1)には、エージェント装置とマネージャ装置とを備え、エージェント装置が、自装置の状態を示すメッセージをマネージャ装置に対して送信する監視手段を備え、マネージャ装置が、障害を回復するための対処法の種別毎に定義された状態グループの状態を表示する表示装置と、メッセージをそれが関連する状態グループに分類するための分類定義が登録された分類定義蓄積部と、エージェント装置から受信したメッセージを分類定義に従って1以上の状態グループに分類する分類手段と、表示装置に表示された状態グループの状態の内、分類手段によってメッセージが分類された状態グループの状態を変更する状態表示変更手段とを備えることで、エージェント装置に障害が発生した場合、障害を復旧するためにどのような種別の対処法を実施したら良いのかを管理者が短時間で認識できるようにする障害監視システムが開示されている。
特開2009−26052号公報
多数のコンピュータ機器からなるシステムでは、1つの原因から生じた障害によって多数の機器やコンポーネントが連鎖的に影響を受ける場合がある。この場合、上記の特許文献1のような仕組みも含めて、通常の障害監視の仕組みにおいてはそれぞれの機器等から障害メッセージが連続的に多数出力されることになる。
しかしながら、システムの運用監視を行うオペレータは、システムの構成やアプリケーションの内容などの情報に精通している訳ではないため、これらの障害メッセージ間の関連性を判断することができず、これらが1つの障害から出力されたものと判断することができない。またそのような判断を独自に行うことは危険でもあるため、オペレータとしては、多数の障害メッセージをそれぞれ別の障害事象として取り扱い、対応手順等を個別に検索したり、開発者やサポートデスク等へのコールを障害メッセージ毎に個別に行ったりすることになる。このような状況は各担当者にとって負荷が非常に大きく、システム障害という緊急時の対応に影響を及ぼす場合も生じ得る。
そこで本発明の目的は、1つのシステム障害に起因して複数の障害メッセージが出力される場合に、関連性のあるこれらの障害メッセージをまとめて取り扱うことを可能とするインシデント管理システムおよびインシデント管理プログラムを提供することにある。本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。
本発明の代表的な実施の形態によるインシデント管理システムは、多数のコンピュータ機器からなる情報処理システムに対して、その障害を監視する障害監視システムが前記コンピュータ機器の障害事象を検知して出力した障害メッセージに基づいて、これをインシデントとして登録して障害状況の管理および障害対応に係る作業の支援を行うシステムであって、以下の特徴を有するものである。
すなわち、インシデント管理システムは、前記障害監視システムが出力した障害メッセージに基づいて、障害事象をインシデントとしてインシデント記録手段に登録するインシデント登録部と、前記インシデント登録部によって前記インシデント記録手段に登録されたインシデントに係る障害メッセージについて、関連性ルール記録手段に予め登録されている、各障害メッセージとその障害事象に起因して出力される一連の障害メッセージである関連障害メッセージに係る情報を検索し、対象のインシデントに係る障害メッセージに対する関連障害メッセージの情報を取得し、取得した関連障害メッセージの情報に基づいて、前記障害監視システムにおける障害発生時近辺の所定の範囲の障害メッセージの出力内容を検索し、取得した関連障害メッセージが出力されている場合は、出力されている関連障害メッセージの情報を前記インシデント記録手段に登録された対象のインシデントの情報に追加して記録する関連性判定部とを有することを特徴とするものである。
また、本発明は、コンピュータを上記のようなインシデント管理システムとして機能させるプログラムにも適用することができる。
本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。
本発明の代表的な実施の形態によれば、1つのシステム障害に起因して複数の障害メッセージが出力される場合に、関連性のあるこれらの障害メッセージをまとめて取り扱うことを可能とするインシデント管理システムおよびインシデント管理プログラムを実現することが可能となる。
本発明の一実施の形態であるインシデント管理システムおよびこれを含む情報処理システムの構成例の概要について示した図である。 本発明の一実施の形態における障害メッセージの取り扱いの例について概要を示した図である。 本発明の一実施の形態におけるインシデントDBのデータ構成の例について示した図である。 本発明の一実施の形態における関連性ルールDBのデータ構成の例について示した図である。 本発明の一実施の形態における対応手順DBのデータ構成の例について示した図である。 本発明の一実施の形態における担当者DBのデータ構成の例について示した図である。 本発明の一実施の形態におけるインシデントに対する対応手順の取得処理の流れの例について概要を示したフローチャートである。 従来のインシデント管理システムにおける障害メッセージの取り扱いの例について概要を示した図である。
以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。また、以下においては、本発明の特徴を分かり易くするために、従来の技術と比較して説明する。
<概要>
本発明の一実施の形態であるインシデント管理システムは、多数のサーバ等のコンピュータ機器からなるシステムに対して、その障害を監視する障害監視システムが障害事象を検知して出力した障害メッセージに基づいて、これをインシデントとして登録し、障害の内容等を記録するとともに、対応状況のステータス管理や、一次対応としての対応手順の検索、二次対応のための開発者等へのコール等、障害状況の管理および障害対応に係る作業の支援を行うシステムである。
図8は、従来のインシデント管理システムにおける障害メッセージの取り扱いの例について概要を示した図である。システムの障害を監視する障害監視システム3では、サーバ等の機器における障害の検知を起因として端末やコンソールなどのオペレータ画面に障害メッセージを出力する。この障害メッセージの情報は、図示しないが、自動もしくは手動によりインシデント管理システム1にインシデントとして登録され、対応状況のステータス管理などが行われる。
このとき、インシデント管理システム1では、例えば、予めデータベース等に登録・蓄積されている対応手順の中から対象の障害メッセージに対する対応手順があるか否かを検索して出力し、その内容をオペレータ等が一次対応として実施するということが行われる。対応手順は、例えば、各障害メッセージに対してシステムの開発者等が予め定義しておいた処理手順や、過去のインシデントにおける対応内容の履歴などが利用される。このような各障害メッセージに対する対応手順の情報を、例えば対応手順DB31などのデータベースに保持しておき、これを対応手順検索部30などのソフトウェアプログラムによって自動もしくは手動により検索することで、障害メッセージに対する一次対応としての対応手順を取得して出力する。
図8の例において、障害監視システム3のオペレータ画面に出力された障害メッセージのうち、障害メッセージ“AAA”、および“XXX”、“YYY”、“ZZZ”が、例えば“サーバa”での1つの障害事象に起因して出力された一連の障害メッセージである(すなわち「関連性」がある)場合であっても、従来のインシデント管理システム1では、これらの障害メッセージの関連性を判断することができず、それぞれを個別の障害事象として取り扱う。すなわち、各障害メッセージについて個別にインシデントの登録が行われ、それぞれについて対応手順検索部30により対応手順DB31の検索が都度行われて、対応手順が個別に出力される。
この場合、例えば対応手順の検索を手動で条件を指定して柔軟に行う必要があるような場合には、オペレータ等の負荷が非常に大きくなる。また、個別に出力された各対応手順についてもオペレータ等がこれらの関連性を判断できないため、各対応手順を有機的に連携させて効率よく実行することができないというような場合も生じ得る。
そこで、本実施の形態であるインシデント管理システムでは、図2に示すように、各障害メッセージについて関連性のある障害メッセージ(以下では「関連障害メッセージ」と記載する場合がある)に係る情報を関連性ルールDB21などのデータベースに予め登録しておく。障害事象が発生し、障害監視システム3に出力された障害メッセージ(例えば“AAA”)に基づいてインシデント管理システム1にインシデントとして登録され、これに対する一次対応としての対応手順を検索する際に、対象の障害メッセージ(“AAA”)に対する関連障害メッセージ(例えば“XXX”、“YYY”、および“ZZZ”)の情報を関連性判定部20などのソフトウェアプログラムによって自動もしくは手動により関連性ルールDB21から取得する。
さらに、取得した関連障害メッセージが障害監視システム3において出力されているか否かを検索し、出力されている場合はこれらを1つの障害事象に起因して出力された一連の障害メッセージと判断し、元の障害メッセージ(“AAA”)とまとめて取り扱う。これにより、一連の障害メッセージに対する対応手順についてもまとめて出力することが可能となる。また、必要に応じてインシデントとしてもまとめて管理することが可能となり、オペレータ等の負荷を軽減し、効率的・効果的な障害対応を行うことが可能となる。
<システム構成>
図1は、本実施の形態であるインシデント管理システムおよびこれを含む情報処理システムの構成例の概要について示した図である。図1において、情報処理システムは、例えばデータセンター等に配置され、多数のサーバ機器等からなるサーバ群2を有する。このサーバ群2は、例えば、業務アプリケーションを稼働させることでユーザにサービスを提供するサーバ機器や、クラウドコンピューティングサービスとしてユーザにコンピュータリソースを提供するサーバ機器等からなる。
このサーバ群2に対して、LAN(Local Area Network)等の内部ネットワーク4を介して、サーバ群2の障害監視を行うコンピュータシステムである障害監視システム3、および障害事象をインシデントとして管理するコンピュータシステムであるインシデント管理システム1が接続されている。
障害監視システム3では図示しない障害監視プログラムが稼働し、サーバ群2での障害事象を検知して、オペレータ7に対して端末やコンソールのオペレータ画面上に障害メッセージを出力することで通知する。障害監視プログラムとしてはそれ以外の機能に特に限定はなく、ベンダー等から提供される一般的な障害監視・管理製品等を利用することができる。
インシデント管理システム1は、例えば、ソフトウェアプログラムによって実装されるインシデント登録部10、関連性判定部20、対応手順検索部30、コール部40、およびデータ管理部50などの各部と、インシデントDB11、関連性ルールDB21、対応手順DB31、および担当者DB41などの各データベースを有する。なお、図示しないが、これら以外に当然にOS(Operating System)やデータベース管理プログラムなどの各種ミドルウェアからなる基盤部なども有している。
インシデント管理システム1は、例えば、障害時の一次対応の判断や二次対応の依頼コールなどを含むインシデントの管理作業を専属で行うサポートデスク等の担当者であるコール担当者6の操作によって各種機能が実行される。このようなサポートデスク等を有さず、オペレータ7が直接操作する構成であってもよい。
インシデント登録部10は、障害監視システム3が検知して出力した障害メッセージに基づいて、障害事象をインシデントとして管理するためにインシデントDB11に登録する。障害メッセージに基づくインシデントの登録は、インシデント管理システム1が障害監視システム3と連携して自動で行ってもよいし、コール担当者6もしくはオペレータ7がインシデント管理システム1によって提供されるインシデント管理用のユーザインタフェース(画面)を利用して手動で行ってもよい。
関連性判定部20は、インシデント登録部10によってインシデントDB11に登録されたインシデントに係る障害メッセージについて、関連性ルールDB21に予め登録された、各障害メッセージと関連性のある関連障害メッセージに係る情報を検索し、インシデントに係る障害メッセージに対する関連障害メッセージの情報を取得する。この情報に基づいて障害監視システム3における障害発生時近辺の所定の範囲(例えば、障害発生時の前後5分など)の障害メッセージの出力内容を検索し、関連障害メッセージが出力されているか否かを判定する。
関連障害メッセージが出力されている場合は、これらの障害メッセージの情報も合わせてインシデント登録部10を介する等によりインシデントDB11の該当のレコードに追加して記録することで、これらをまとめて取り扱うことが可能である。なお、関連性の判定処理は、インシデント登録部10によりインシデントDB11にインシデントが登録されたことをトリガとして自動で行ってもよいし、コール担当者6等による、インシデント管理システム1によって提供されるユーザインタフェースを利用した手動での指示に基づいて行ってもよい。
対応手順検索部30は、予め対応手順DB31に登録・蓄積されている障害内容毎の対応手順の中から、対象のインシデントに係る障害メッセージに対応する対応手順があるか否かを検索してコール担当者6等の画面等に出力する。関連性判定部20によって1つにまとめられ、インシデントDB11に記録されている関連障害メッセージについては、それぞれについて同様に対応手順DB11を検索して取得した対応手順を1つにまとめて出力する。なお、対応手順の検索処理は、インシデント登録部10によりインシデントDB11にインシデントが登録され、もしくは関連性判定部20により関連障害メッセージが検索されたことをトリガとして自動で行ってもよいし、コール担当者6等による、インシデント管理システム1によって提供されるユーザインタフェースを利用した手動での指示に基づいて行ってもよい。
コール部40は、対象のインシデントについて担当者DB41の情報に基づいて自動もしくはコール担当者6からの指示により設定された二次対応を行う開発者8等に対して障害内容を通知する。通知に際しては、例えば、社内のネットワーク5を介して開発者8等に電子メールを送信する。コール担当者6等が電話や他の手段で開発者8等にコールする構成であってもよい。
データ管理部50は、関連性ルールDB21、対応手順DB31、および担当者DB41など、予めデータを登録・更新しておく必要があるデータベースに対してそのためのユーザインタフェースを提供する。インタフェースについては特に限定されず、登録・更新用のデータ入力画面を提供するものであってもよいし、ファイルによるインポート等により登録・更新するものであってもよい。
<データ構成>
以下では、インシデント管理システム1における各データベースのデータ構成について説明する。図3は、インシデントDB11のデータ構成の例について示した図である。インシデントDB11は、障害監視システム3が検知して出力した障害メッセージに基づいて、障害事象をインシデントとして登録し管理するテーブルであり、例えば、インシデントID、件名、発生日時、受付日時、連絡日時、完了日時、受付担当者、二次対応担当者、対象システム、障害ノード、障害メッセージ、障害メッセージ日時、関連障害メッセージ、関連障害メッセージ日時、受付状況、障害状況、適用対応手順ID、対応内容、更新者、および更新日時などの項目を有する。キー項目はインシデントIDである。
インシデントIDの項目は、例えばインシデント管理システム1のインシデント登録部10によって障害メッセージに係る障害事象の管理を受け付けてインシデントとして登録する際に割り振られ、各インシデントを一意に識別することができるIDの情報を保持する。件名の項目は、対象のインシデントについての内容の把握を容易にするためにコール担当者6等により設定されたタイトルの情報を保持する。
発生日時、受付日時、連絡日時、および完了日時の項目は、それぞれ、対象のインシデントに係る障害事象が発生した日時(障害メッセージが出力された日時)、対象のインシデントの管理を受け付けた日時(インシデントとして登録した日時)、二次対応のために開発者8等に連絡を行った日時、および対象のインシデントについての対応を完了した日時の情報を保持する。受付担当者、および二次対応担当者の項目は、それぞれ、対象のインシデントの管理を受け付けたコール担当者6等、および二次対応を行う開発者8等を識別するユーザIDや氏名等の情報を保持する。対象システム、および障害ノードの項目は、それぞれ、対象のインシデントに係る障害事象が発生したシステム、およびノードを識別することができる名称やIDなどの情報を保持する。
障害メッセージ、および障害メッセージ日時の項目は、それぞれ、対象のインシデントに係る障害事象を障害監視システム3が検知して出力した障害メッセージを識別するID等の情報、および出力された日時の情報を保持する。また、関連障害メッセージ、および関連障害メッセージ日時の項目は、それぞれ、対象のインシデントに係る上記の障害メッセージについて関連性判定部20によって検索された関連障害メッセージが障害監視システム3に出力されている場合に、その関連障害メッセージを識別するID等の情報、および出力された日時の情報を保持する。なお、関連障害メッセージに係る情報は複数保持できるようにする。これらにより、障害メッセージと関連障害メッセージを1つにまとめて取り扱うことが可能となる。
受付状況の項目は、対象のインシデントに係る障害事象の通知をコール担当者6(もしくはオペレータ7)等が受け付けた際の通知内容や経緯、連絡状況等の情報をメモとして保持する。また、障害状況の項目は、対象のインシデントに係る障害事象の内容や状況等の情報をテキストとして保持する。適用対応手順ID、および対応内容の項目は、それぞれ、対象のインシデントに係る障害メッセージについて対応手順検索部30によって検索され、一次対応として実施した対応手順を識別するID等の情報、および具体的な対応内容のテキスト情報を保持する。これらのテキスト情報は、例えば、インシデント管理システム1によって提供されるユーザインタフェースを利用してコール担当者6等により入力される。
更新者、および更新日時の項目は、それぞれ、対象のインシデントに係るエントリの内容を更新したユーザ(コール担当者6やオペレータ7)を識別するID等の情報、および更新した日時の情報を保持する。なお、インシデントDB11に係る上記の各項目は一例であり、他のデータ構成によって該当の情報を管理するものであってもよいことは当然である。
図4は、関連性ルールDB21のデータ構成の例について示した図である。関連性ルールDB21は、障害監視システム3が出力する各障害メッセージについて、それに関連性のある関連障害メッセージに係る情報を関連性ルールとして登録し保持するテーブルであり、例えば、ルールID、障害メッセージ、サーバ種別、関連障害メッセージ、関連サーバ種別、差分時間範囲、更新者、および更新日時などの項目を有する。キー項目はルールIDである。
ルールIDの項目は、例えばインシデント管理システム1のデータ管理部50が対象の関連性ルールを登録する際に割り振られ、各関連性ルールを一意に識別することができるIDの情報を保持する。障害メッセージ、およびサーバ種別の項目は、それぞれ、対象の関連性ルールに係る判定元の障害メッセージを識別するID等の情報、および当該障害メッセージに係る障害事象が発生するサーバ等の種別の情報を保持する。
関連障害メッセージ、関連サーバ種別、および差分時間範囲の項目は、それぞれ、対象の関連性ルールに係る上記の判定元の障害メッセージに対して関連性のある(同一の障害事象に起因して出力された一連の障害メッセージである)関連障害メッセージを識別するID等の情報、当該関連障害メッセージに係る障害事象が発生するサーバ等の種別、および当該関連障害メッセージが出力された日時と、対象の関連性ルールに係る判定元の障害メッセージが出力された日時との差分の時間範囲の情報を保持する。この差分時間範囲の項目については、対象の関連性ルールに係る判定元の障害メッセージが出力された日時から一定時間以上間隔が空いて出力された障害メッセージについては、もはや関連性がなく、別の障害事象に起因して出力されたものとして取り扱えるようにするため有している。なお、上記の関連障害メッセージに係る情報は複数保持できるようにする。
更新者、および更新日時の項目は、それぞれ、対象の関連性ルールに係るエントリの内容を登録・更新したユーザ(開発者8やコール担当者6等)を識別するID等の情報、および更新した日時の情報を保持する。なお、関連性ルールDB21に係る上記の各項目は一例であり、他のデータ構成によって該当の情報を管理するものであってもよいことは当然である。
図5は、対応手順DB31のデータ構成の例について示した図である。対応手順DB31は、障害監視システム3が出力する各障害メッセージなどによって識別される各障害内容について、これに対する一次対応としての対応手順に係る情報を登録し保持するテーブルであり、例えば、対応手順ID、種別、障害メッセージ、関連障害メッセージ、キーワード、対応システム、対応サーバ種別、対応手順、関連対応手順ID、更新者、および更新日時などの項目を有する。キー項目は対応手順IDである。
対応手順IDの項目は、例えばインシデント管理システム1のデータ管理部50が対象の対応手順を登録する際に割り振られ、各対応手順を一意に識別することができるIDの情報を保持する。種別の項目は、対象の対応手順の種別に係る情報を保持する。この種別の内容としては、例えば、開発者等により予め定義された処理手順や、過去のインシデントにおける対応内容の履歴への参照、それらの履歴の分析等により得られたノウハウなどによる区分が考えられる。
障害メッセージ、関連障害メッセージ、およびキーワードの項目は、それぞれ、対象の対応手順が対応する障害メッセージおよび関連障害メッセージを識別するID等の情報、および検索のための1つ以上のキーワードを保持する。ある障害メッセージが単独で出力された場合と、関連障害メッセージとともに出力された場合とでは異なる対応手順となる場合も想定されるため、これらのID等の情報を対応手順検索部30が対応手順を検索する際の複合的なキーとして取り扱えるようにする。さらに、障害事象に係る任意のキーワードを利用して検索できるようにすることで、障害メッセージや関連障害メッセージのID等の合致によらずとも類似するような障害事象についての対応手順を検索することが可能となる。
対応システム、および対応サーバ種別の項目は、それぞれ、対象の対応手順が対応するシステム、およびサーバ等の種別の情報を保持する。これらの項目は、異なる種別のサーバ機器等が同様の障害メッセージを出力したり、同一種別のサーバ機器でも稼働するシステムによって異なる対応手順をとったりする場合もあり、これらを判定可能とするため有している。対応手順、および関連対応手順IDの項目は、それぞれ、対象の対応手順の内容についてのテキスト情報、およびこれに関連もしくは類似する他の対応手順がある場合の当該対応手順を識別する1つ以上のID等の情報を保持する。なお、障害発生時の時間帯に応じて対応手順が異なったり、サービス時間外等で対応不要となったりするような場合には、時間帯毎に複数の対応手順を登録可能なようにしてもよい。
更新者、および更新日時の項目は、それぞれ、対象の対応手順に係るエントリの内容を登録・更新したユーザ(開発者8やコール担当者6等)を識別するID等の情報、および更新した日時の情報を保持する。なお、対応手順DB31に係る上記の各項目は一例であり、他のデータ構成によって該当の情報を管理するものであってもよいことは当然である。
図6は、担当者DB41のデータ構成の例について示した図である。担当者DB41は、システムに関係するユーザや担当者(コール担当者6やオペレータ7、開発者8など)に係るマスタ情報を保持するテーブルであり、例えば、ユーザID、担当者氏名、所属部署、所属チーム、電話番号、およびメールアドレスなどの項目を有する。キー項目はユーザIDである。
ユーザIDの項目は、例えばインシデント管理システム1のデータ管理部50が対象の担当者を登録する際に割り振られ、もしくは他のユーザ管理システム等によって割り振られ、各担当者(もしくはユーザ)を一意に識別することができるIDの情報を保持する。担当者氏名、所属部署、および所属チームの項目は、それぞれ、対象の担当者の氏名、所属する部署、および所属するチームやグループなどの属性情報を保持する。さらに、担当するシステムやサーバなどの詳細な属性情報を有していてもよい。これらの情報に基づいて、コール部40は、自動もしくはコール担当者6等からの指示に基づいて二次対応を依頼する開発者8等を決定することができる。
電話番号、およびメールアドレスの項目は、それぞれ、対象の担当者に対する連絡先の情報として、電話番号、および電子メールアドレスの情報を保持する。なお、担当者DB41に係る上記の各項目は一例であり、他のデータ構成によって該当の情報を管理するものであってもよいことは当然である。
<処理フロー>
図7は、本実施の形態のインシデント管理システム1におけるインシデントに対する対応手順の取得処理の流れの例について概要を示したフローチャートである。障害監視システム3において障害事象を検知して障害メッセージが出力されると、まず、出力された障害メッセージに基づいて、インシデント管理システム1のインシデント登録部10は、インシデントDB11にインシデントの情報を登録する(S01)。
ここでは、上述したように、障害監視システム3とインシデント管理システム1が連携して自動で登録するように構成することも可能であるし、コール担当者6もしくはオペレータ7が手動で登録するように構成してもよい。またこのとき、対象の障害メッセージが、以前の他の障害メッセージに関連する関連障害メッセージであるとして、既にインシデントDB11に登録され処理されている場合もある。この場合はそのまま処理を終了するようにしてもよい。
ステップS01でのインシデント情報の登録の際もしくは登録の後、自動もしくはコール担当者6等による指示に基づいて、関連性判定部20は、登録されたインシデントに係る障害メッセージについて関連性ルールDB21を検索し、当該インシデントに係る障害メッセージについての関連障害メッセージの情報(関連性ルール)を取得する(S02)。さらに、関連性判定部20は、障害監視システム3における障害発生時近辺の障害メッセージの出力内容を検索し(S03)、取得した関連性ルールの条件に合致する関連障害メッセージが出力されているか否かを判定する(S04)。
ステップS04において、障害メッセージのIDやサーバ種別、差分時間などの関連性ルールの条件が合致する関連障害メッセージが出力されている場合は、当該関連障害メッセージの情報をインシデント登録部10を介してインシデントDB11の対象のインシデントのエントリに登録し(S05)、次の処理に移る。上述したように、これにより障害メッセージと関連障害メッセージとを1つにまとめて取り扱うことが可能となる。ステップS04において条件に合致する関連障害メッセージが出力されていない場合は、そのまま次の処理に移る。
次に、対応手順検索部30は、自動もしくはコール担当者6等による指示に基づいて、まとめて取り扱われる障害メッセージ、すなわち、登録されたインシデントに係る障害メッセージ、およびステップS05で登録した各関連障害メッセージについて処理を繰り返すループ処理を実行する。当該ループ処理では、対応手順検索部30は、対象の障害メッセージについて対応手順DB31を検索し、該当する対応手順の情報を取得する(S06)。
なお、図7の例では、当該ループ処理において、各障害メッセージ(および関連障害メッセージ)について個別にステップS06にて対応手順を取得するものとしているが、上述の図5において示したように、ある障害メッセージが単独で出力された場合と、関連障害メッセージとともに出力された場合とでは異なる対応手順となる場合も想定される。従って、当該ループ処理において、まず障害メッセージまたは関連障害メッセージを組み合わせた複合的なキーとして対応手順DB31を検索し、該当する対応手順の情報を取得するようにしてもよい。
例えば、図2に示すような障害メッセージが出力された場合、まず、(“AAA”“XXX”“YYY”“ZZZ”)をキーとして対応手順DB31を検索する。対応手順が得られればループ処理を終了する。対応手順が得られなければ、次に、(“AAA”“XXX”“YYY”)および“ZZZ”と、(“AAA”“XXX”“ZZZ”)および“YYY”と、(“AAA”“YYY”“ZZZ”)および“XXX”と、(“XXX”“YYY”“ZZZ”)および“AAA”との4とおりのキーの組を作成して、キーの組毎に対応手順DB31を検索する。例えば、(“AAA”“XXX”“YYY”)および“ZZZ”というキーの組について、(“AAA”“XXX”“YYY”)についての対応手順と、“ZZZ”についての対応手順とのいずれもが得られたなど、いずれかのキーの組について、キーの組を構成する各キーの対応手順がそれぞれ得られた場合にはループ処理を終了する。
いずれかのキーの対応手順が得られない場合は、次に、(“AAA”“XXX”)および(“YYY”“ZZZ”)などのキーの組を作成して、キーの組毎に対応手順DB31を検索し、いずれかのキーの組について、キーの組を構成する各キーの対応手順がそれぞれ得られた場合にはループ処理を終了する。いずれかのキーの対応手順が得られない場合は、次に、(“AAA”“XXX”)、“YYY”および“ZZZ”などのキーの組を作成して、同様にキーの組毎に対応手順DB31を検索し、いずれかのキーの組について、キーの組を構成する各キーの対応手順がそれぞれ得られた場合にはループ処理を終了する。いずれかの対応手順が得られない場合は、上述の通り、各障害メッセージ(および関連障害メッセージ)である“AAA”、“XXX”、“YYY”、“ZZZ”について個別に対応手順を検索する。
全ての障害メッセージについて対応手順を取得する処理を繰り返すとループ処理を終了し、取得した対応手順を1つにまとめてインシデント管理システム1が提供するユーザインタフェースを介して一次対応手順の内容として出力し(S07)、処理を終了する。これにより、コール担当者6やオペレータ7は、関連障害メッセージ毎にインシデントとしての登録や対応手順の検索処理を個別に行うことなく障害対応を行うことができる。
以上に説明したように、本発明の一実施の形態であるインシデント管理システム1によれば、各障害メッセージについて関連性のある関連障害メッセージに係る情報を予め関連性ルールDB21に登録しておく。障害事象が発生し、障害監視システム3に出力された障害メッセージに基づいてインシデント管理システム1のインシデント登録部10がインシデントDB11にインシデントとして登録する際に、関連性判定部20によって自動もしくは手動により関連性ルールDB21から対象の障害メッセージに対する関連障害メッセージに係る情報を検索して取得する。
さらに、取得した関連障害メッセージが障害監視システム3において出力されているか否かを検索し、出力されている場合はこれらを1つの障害事象に起因して出力された一連の障害メッセージと判断し、インシデントDB11に登録する。これにより、1つのインシデントについて関連性のある一連の障害メッセージをまとめて取り扱うことが可能となる。さらに、まとめて取り扱われる一連の障害メッセージに対する対応手順についてもまとめて取得して出力することが可能となり、オペレータ7やコール担当者6等の負荷を軽減し、効率的・効果的な障害対応を行うことが可能となる。
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。
本発明は、障害検知からの対応実施の支援や対応状況の管理などを行うインシデント管理システムおよびこれに用いられるインシデント管理プログラムに利用可能である。
1…インシデント管理システム、2…サーバ群、3…障害監視システム、4…内部ネットワーク、5…ネットワーク、6…コール担当者、7…オペレータ、8…開発者、
10…インシデント登録部、11…インシデントDB、
20…関連性判定部、21…関連性ルールDB、
30…対応手順検索部、31…対応手順DB、
40…コール部、41…担当者DB、
50…データ管理部。

Claims (4)

  1. 多数のコンピュータ機器からなる情報処理システムに対して、その障害を監視する障害監視システムが前記コンピュータ機器の障害事象を検知して出力した障害メッセージに基づいて、これをインシデントとして登録して障害状況の管理および障害対応に係る作業の支援を行うインシデント管理システムであって、
    前記障害監視システムが出力した障害メッセージに基づいて、障害事象をインシデントとしてインシデント記録手段に登録するインシデント登録部と、
    前記インシデント登録部によって前記インシデント記録手段に登録されたインシデントに係る障害メッセージについて、関連性ルール記録手段に予め登録されている、各障害メッセージとその障害事象に起因して出力される一連の障害メッセージである関連障害メッセージに係る情報を検索し、対象のインシデントに係る障害メッセージに対する関連障害メッセージの情報を取得し、取得した関連障害メッセージの情報に基づいて、前記障害監視システムにおける障害発生時近辺の所定の範囲の障害メッセージの出力内容を検索し、取得した関連障害メッセージが出力されている場合は、出力されている関連障害メッセージの情報を前記インシデント記録手段に登録された対象のインシデントの情報に追加して記録する関連性判定部とを有することを特徴とするインシデント管理システム。
  2. 請求項1に記載のインシデント管理システムにおいて、
    さらに、対応手順記録手段に予め登録されている障害内容毎の対応手順の中から、対象のインシデントに係る障害メッセージおよび前記インシデント記録手段に記録された関連障害メッセージに対する対応手順の有無をそれぞれ検索し、取得した各対応手順をまとめて出力する対応手順検索部を有することを特徴とするインシデント管理システム。
  3. 多数のコンピュータ機器からなる情報処理システムに対して、その障害を監視する障害監視システムが前記コンピュータ機器の障害事象を検知して出力した障害メッセージに基づいて、これをインシデントとして登録して障害状況の管理および障害対応に係る作業の支援を行うインシデント管理システムとしてコンピュータを動作させるインシデント管理プログラムであって、
    前記障害監視システムが出力した障害メッセージに基づいて、障害事象をインシデントとしてインシデント記録手段に登録するインシデント登録処理と、
    前記インシデント登録処理によって前記インシデント記録手段に登録されたインシデントに係る障害メッセージについて、関連性ルール記録手段に予め登録されている、各障害メッセージとその障害事象に起因して出力される一連の障害メッセージである関連障害メッセージに係る情報を検索し、対象のインシデントに係る障害メッセージに対する関連障害メッセージの情報を取得し、取得した関連障害メッセージの情報に基づいて、前記障害監視システムにおける障害発生時近辺の所定の範囲の障害メッセージの出力内容を検索し、取得した関連障害メッセージが出力されている場合は、出力されている関連障害メッセージの情報を前記インシデント記録手段に登録された対象のインシデントの情報に追加して記録する関連性判定処理とを実行することを特徴とするインシデント管理プログラム。
  4. 請求項3に記載のインシデント管理プログラムにおいて、
    さらに、対応手順記録手段に予め登録されている障害内容毎の対応手順の中から、対象のインシデントに係る障害メッセージおよび前記インシデント記録手段に記録された関連障害メッセージに対する対応手順の有無をそれぞれ検索し、取得した各対応手順をまとめて出力する対応手順検索処理を実行することを特徴とするインシデント管理プログラム。
JP2010242239A 2010-10-28 2010-10-28 インシデント管理システムおよびインシデント管理プログラム Pending JP2012094049A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010242239A JP2012094049A (ja) 2010-10-28 2010-10-28 インシデント管理システムおよびインシデント管理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010242239A JP2012094049A (ja) 2010-10-28 2010-10-28 インシデント管理システムおよびインシデント管理プログラム

Publications (1)

Publication Number Publication Date
JP2012094049A true JP2012094049A (ja) 2012-05-17

Family

ID=46387283

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010242239A Pending JP2012094049A (ja) 2010-10-28 2010-10-28 インシデント管理システムおよびインシデント管理プログラム

Country Status (1)

Country Link
JP (1) JP2012094049A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014119982A (ja) * 2012-12-17 2014-06-30 Hitachi Systems Ltd インシデント管理システム、インシデント管理方法、およびプログラム
US9632861B1 (en) 2015-12-16 2017-04-25 Fujitsu Limited Computer-implemented method, system, and storage medium
JP2017085220A (ja) * 2015-10-23 2017-05-18 日本電信電話株式会社 ネットワーク監視装置およびネットワーク監視方法
JP2017167578A (ja) * 2016-03-14 2017-09-21 株式会社日立製作所 インシデント管理システム
JP2020013300A (ja) * 2018-07-18 2020-01-23 Zホールディングス株式会社 監視装置、監視方法、およびプログラム
JP2021077220A (ja) * 2019-11-12 2021-05-20 株式会社野村総合研究所 管理システム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003085003A (ja) * 2001-09-06 2003-03-20 Matsushita Electric Ind Co Ltd 障害復旧援助方法、及び、障害復旧援助システム
JP2006252459A (ja) * 2005-03-14 2006-09-21 Nomura Research Institute Ltd 監視装置及び監視方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003085003A (ja) * 2001-09-06 2003-03-20 Matsushita Electric Ind Co Ltd 障害復旧援助方法、及び、障害復旧援助システム
JP2006252459A (ja) * 2005-03-14 2006-09-21 Nomura Research Institute Ltd 監視装置及び監視方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014119982A (ja) * 2012-12-17 2014-06-30 Hitachi Systems Ltd インシデント管理システム、インシデント管理方法、およびプログラム
JP2017085220A (ja) * 2015-10-23 2017-05-18 日本電信電話株式会社 ネットワーク監視装置およびネットワーク監視方法
US9632861B1 (en) 2015-12-16 2017-04-25 Fujitsu Limited Computer-implemented method, system, and storage medium
JP2017167578A (ja) * 2016-03-14 2017-09-21 株式会社日立製作所 インシデント管理システム
JP2020013300A (ja) * 2018-07-18 2020-01-23 Zホールディングス株式会社 監視装置、監視方法、およびプログラム
JP2021077220A (ja) * 2019-11-12 2021-05-20 株式会社野村総合研究所 管理システム
CN112862420A (zh) * 2019-11-12 2021-05-28 株式会社野村综合研究所 管理系统
JP7385436B2 (ja) 2019-11-12 2023-11-22 株式会社野村総合研究所 管理システム
CN112862420B (zh) * 2019-11-12 2024-03-26 株式会社野村综合研究所 管理系统

Similar Documents

Publication Publication Date Title
US11768848B1 (en) Retrieving, modifying, and depositing shared search configuration into a shared data store
US11436268B2 (en) Multi-site cluster-based data intake and query systems
US9563680B2 (en) Method and system for document integration
US20190179824A1 (en) Triggering alerts from searches on events
US20060041928A1 (en) Policy rule management support method and policy rule management support apparatus
US9195681B2 (en) System, method and computer program product for transmitting a group of data elements
JP2012094049A (ja) インシデント管理システムおよびインシデント管理プログラム
CN106156126B (zh) 处理数据任务中的数据冲突检测方法及服务器
US11700255B2 (en) Feedback framework
US10645155B2 (en) Scalable parallel messaging process
US8996674B2 (en) System, method and computer program product for SNMP based mobile device management
JP5950354B2 (ja) 管理装置、管理システム、保守管理方法、及びプログラム
JP2010066841A (ja) ヘルプデスク支援システム
JP2018112875A (ja) ナレッジ管理装置、ナレッジ管理方法およびコンピュータプログラム
JP2006277179A (ja) データベースチューニング装置及びデータベースチューニング方法並びにプログラム
JP4121259B2 (ja) 問題管理方法およびシステム、並びに問題管理プログラム
JP6613634B2 (ja) 検索支援プログラム、検索支援装置及び検索支援方法
US20130238569A1 (en) Redundant attribute values
JP2005276068A (ja) 運用管理通知支援システム、運用管理通知支援方法、運用管理通知支援プログラムおよび運用管理通知支援プログラムを記録したコンピュータ読み取り可能な記録媒体
US11645137B2 (en) Exception management in heterogenous computing environment
JP7482003B2 (ja) 情報処理システム、情報処理方法及び計算機
JP2017173941A (ja) インシデント管理システム
US20240118962A1 (en) Sharing system, sharing method, maintenance node, generation node and program
JP2005100203A (ja) ジョブ情報管理システムおよびジョブ情報管理方法ならびにそのためのプログラム
CN117112272A (zh) 服务异常信息获取方法及系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131002

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140526

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140701

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20141028