JP2008171061A - 障害対応フロー表示システム、方法およびプログラム - Google Patents

障害対応フロー表示システム、方法およびプログラム Download PDF

Info

Publication number
JP2008171061A
JP2008171061A JP2007001321A JP2007001321A JP2008171061A JP 2008171061 A JP2008171061 A JP 2008171061A JP 2007001321 A JP2007001321 A JP 2007001321A JP 2007001321 A JP2007001321 A JP 2007001321A JP 2008171061 A JP2008171061 A JP 2008171061A
Authority
JP
Japan
Prior art keywords
failure
flow
corresponding flow
monitoring terminal
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007001321A
Other languages
English (en)
Inventor
Noboru Kanehara
暢 金原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007001321A priority Critical patent/JP2008171061A/ja
Publication of JP2008171061A publication Critical patent/JP2008171061A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】障害の重要度や作業の進捗状況に応じた最適な対応フローを表示する。
【解決手段】互いに通信可能に接続された顧客サーバ140、監視端末130および運用管理サーバ1と、障害の復旧作業の手順を示す対応フローが、該障害を識別するための障害識別番号と復旧作業の緊急の有無を示す重要度と該対応フローの実行開始時刻および実行終了時刻を定めた実行可能時間帯と関連付けて格納された対応フローデータベース120とを有するシステムであって、運用管理サーバ1は、現在時刻と顧客サーバ140からの障害メッセージに含まれている障害識別番号および重要度とに基づいて対応フローデータベース120から対応フローを取得して監視端末130上で表示させる。運用管理サーバ1は、復旧作業の終了時刻に基づいて、次に表示すべき対応フローを対応フローデータベース120から取得して監視端末130上に表示させる。
【選択図】図1

Description

本発明は、サーバなどを含む顧客システムの障害に対する対処の手順を示す対応フローを管理する障害対応フロー表示システムに関する。
近年、オープンシステムの普及にともなって、様々なベンダのハードウェアやソフトウェアを組み合わせて情報処理システムを構築したマルチベンダ環境が一般化している。このようなマルチベンダ環境の情報処理システムにおいて、システムに障害が発生すると、そのエンドユーザへの影響は多大なものとなるため、システム管理者は、障害に対する迅速かつ正確な対処が要求される。システム障害に迅速に対処するには、システム管理者は、様々なベンダが提供しているハードウェアやソフトウェアに関する機能や管理方式を習熟しなければならず、それがシステム管理者への負担となっている。
そこで、マルチベンダ環境において、顧客システムの障害発生時に、オペレータによる調査・対処作業を支援することのできるナレッジ型運用管理システムが提案されている(特許文献1、2参照)。この運用管理システムでは、メッセージなどの障害情報に対応したノウハウに関するデータを蓄積したデータベースを参照して、障害発生時に、リカバリーの実行や監視端末への復旧シナリオの表示を行うことで、オペレータの負担を軽減することができる。
特開2004-178296号公報 特開2006-127274号公報
しかしながら、上述した運用管理システムには、以下のような問題がある。
顧客システムの障害には、重要度の高い障害と重要度の低い障害とがある。ここで、重要度の高い障害は、システム運用上、早急に対処する必要のある障害(例えば、システム全体が停止することが危惧されるような障害)であり、重要度の低い障害は、それ以外の緊急性の低い障害(システムの一部が停止する障害であって、運用上、支障のないような障害)である。これらの障害はいずれも、システムの運用時間帯に、顧客によって報告されることが多い。
重要度の低い障害は、緊急性が低いため、システム運用時間帯に発生した場合であっても、システムの運用終了時刻まで待って、その復旧作業を行うことができる。一方、システム運用時間帯に重要度の高い障害が報告された場合は、即座に、復旧作業を行う必要があり、その作業手順は重要度の低い障害の場合と異なる。システム運用時間帯における復旧作業は、顧客システムを稼動させた状態で行われるため、稼動状態や作業の進捗状況によって、その作業のプロセスが変化する。例えば、顧客のシステムにおいて、時間帯により異なるアプリケーションが実行される場合は、現在実行されているアプリケーションに対応する復旧作業を行う必要があるため、実行中のアプリケーションに応じて作業手順を変更することになる。また、システム運用時間帯において復旧作業が終了しなかった場合は、引き続き、システム運用時間外でも復旧作業を行うが、この場合も、作業手順を変更することになる。具体的には、システム運用時間外においては、オペレータは、監視端末上で、顧客システムにアクセスし、障害分析に必要な詳細情報(OSダンプ情報、トレース情報、ログ情報など)を収集して分析し、その分析結果から障害の原因を暫定し、障害に対する対処を行う、といった手順で復旧作業を行うことができる。これに対して、システム運用時間帯での復旧作業では、顧客システムが障害発生時に提供するメッセージに含まれる情報に基づいて障害の原因を暫定し、それに基づいて障害に対する対処を行う、といった手順で障害復旧作業を行う。
また、オペレータが、顧客から報告された障害メッセージの内容に基づいて障害の重要度を変更する場合がある。例えば、顧客から重要度の高い障害メッセージを受信した場合で、オペレータが、そのメッセージの内容から障害の重要度の低い障害である、と判断する場合がある。このような場合は、オペレータによる障害の重要度の変更に応じて作業手順を変更する必要がある。
上述したように、障害が発生した場合の復旧作業の対応フローは、障害の種類や重要度、障害の発生した時間帯、作業の進捗状況などによって変更する必要がある。従来の運用管理システムでは、障害の重要度や作業の進捗状況に応じた最適な対応フローを自動的に表示することは困難である。
本発明の目的は、上記問題を解決し、障害の重要度や作業の進捗状況に応じた最適な対応フローを表示することのできる障害対応フロー表示システムを提供することにある。
上記目的を達成するため、本発明の障害対応フロー表示システムは、
監視対象である顧客サーバと相互通信可能に接続される運用管理サーバと、
前記運用管理サーバおよび顧客サーバと相互通信可能に接続される監視端末と、
前記顧客サーバに関する障害の復旧作業の手順を示す対応フローが、該障害を識別するための障害識別番号とその復旧作業の緊急の有無を示す重要度と該対応フローの実行開始時刻および実行終了時刻を定めた実行可能時間帯と関連付けて格納された対応フローデータベースと、を有し、
前記運用管理サーバは、
現在時刻を提供する時計と、
前記顧客サーバから、該顧客サーバで発生した障害に関する前記障害識別番号および重要度を含む障害メッセージを受信すると、該障害メッセージに含まれている障害識別番号および重要度によって識別される対応フローのうち、前記実行開始時刻が前記時計から提供される現在時刻より遅く、かつ、該現在時刻から最も早い時刻である対応フローを、前記対応フローデータベースから取得して前記監視端末上で表示させる運用管理部と、を有し、
前記監視端末は、前記運用管理部による制御により表示された対応フローについて、復旧作業の終了時刻の入力を受け付けると、該終了時刻を前記運用管理サーバに送信し、
前記運用管理部は、前記障害メッセージに含まれている障害識別番号および重要度によって識別される対応フローのうち、前記実行開始時刻が前記監視端末から受信した復旧作業の終了時刻より遅く、かつ、該終了時刻から最も早い時刻である対応フローを、前記対応フローデータベースから取得して前記監視端末上に表示させる、ことを特徴とする。
上記の構成によれば、障害に関する対応フローが、障害識別番号別および重要度別に分けられ、さらに実行可能時間帯別に分けられた状態で対応フローデータベースに格納されており、運用管理部は、その対応フローデータベースを参照して、顧客サーバから受信した障害メッセージに含まれている障害識別番号および重要度に基づいて対応フローを識別する。これにより、重要度に応じた対応フローの抽出が可能となっている。
また、上記の対応フローの抽出において、運用管理部は、障害メッセージに含まれている障害識別番号および重要度によって識別される対応フローのうち、実行開始時刻が監視端末から受信した復旧作業の終了時刻より遅く、かつ、該終了時刻から最も早い時刻である対応フローを、対応フローデータベースから取得して監視端末に表示させる。例えば、重要度の高い(または低い)障害Aに関する対応フローとして、実行可能時間帯が「7:00〜8:00」であるフローA1、実行可能時間帯が「8:01〜9:00」であるフローA2、実行可能時間帯が「9:01〜10:00」であるフローA3の3つのフローが対応フローデータベースに格納されており、監視端末にてフローA1が表示されている場合で、そのフローA1に基づく復旧作業が長引き、監視端末から、その復旧作業の終了時刻として「8:30」といった情報を受信した場合は、運用管理部は、障害Aに関する対応フローのうち、実行開始時刻が復旧作業の終了時刻「8:30」より遅く、かつ、終了時刻「8:30」から最も早い時刻であるフローCを、対応フローデータベースから取得して監視端末上に表示させる。また、フローA1に基づく復旧作業が順調に行われ、監視端末から、その復旧作業の終了時刻として「7:50」の時刻情報を受信した場合は、運用管理部は、障害Aに関する対応フローのうち、実行開始時刻が復旧作業の終了時刻「7:50」より遅く、かつ、終了時刻「7:50」から最も早い時刻であるフローBを、対応フローデータベースから取得して監視端末上に表示させる。このように、復旧作業の進捗状況に応じた対応フローの表示が可能となっている。
上記の本発明の障害対応フロー表示システムにおいて、前記対応フローの実行可能時間帯が前記顧客サーバで実行されるアプリケーションの実行時間帯に対応するものであってもよい。この場合は、顧客サーバで実行されるアプリケーションに応じた対応フローの表示が可能となる。
また、前記監視端末が、前記運用管理部による制御により表示された対応フローに従って復旧作業が行われる障害に関する重要度を、前記障害メッセージに含まれている重要度とは異なる重要度に変更する旨の入力を受け付けると、該障害の重要度の変更情報を前記運用管理サーバに送信し、前記運用管理部が、前記監視端末から受信した変更情報に基づいて、変更された重要度に対応する対応フローを前記対応フローデータベースから取得して前記監視端末上に表示させてもよい。この場合は、オペレータは、監視端末にて、重要度に変更する旨の入力を行うと、監視端末が、その重要度の変更情報を運用管理サーバに送信する。そして、運用管理部が、監視端末から受信した変更情報に基づいて、変更された重要度に対応する対応フローを対応フローデータベースから取得して監視端末上に表示させる。このように、オペレータによる重要度の変更が可能となっている。
本発明によれば、重要度に応じた対応フローの表示および復旧作業の進捗状況に応じた対応フローの表示が可能であるので、従来のシステムに比べて、より最適な対応フローをオペレータに提供することができ、その結果、監視対象サーバの障害に対して、迅速かつ適切な対応を取ることができる。
次に、本発明の実施形態について図面を参照して説明する。
図1は、本発明の一実施形態である障害対応フロー表示システムの構成を示すブロック図である。図1を参照すると、障害対応フロー表示システムは、顧客によって運用される監視対象サーバ140と相互通信可能に接続される運用管理サーバ1と、運用管理サーバ1および監視対象サーバ140のそれぞれと相互通信可能に接続される監視端末130と、運用管理サーバ1によって管理される対応フローデータベース120とを有する。
運用管理サーバ1、監視端末130および監視対象サーバ140はいずれも、プログラムにより動作する通信機能を備えたコンピュータシステムよりなる。コンピュータシステムの主要部は、プログラムなどを蓄積する記憶装置、キーボードやマウスなどの入力装置、CRTやLCDなどの表示装置、外部との通信を行うモデムなどの通信装置、プリンタなどの出力装置および入力装置からの入力を受け付けて通信装置、出力装置、表示装置の動作を制御する制御装置から構成される。
運用管理サーバ1は、専用通信回線や公衆網などのネットワークを介して監視対象サーバ14と接続される。運用管理サーバ1は、運用管理部100を有する。運用管理部100は、メッセージ検出部111、データベース管理部112、対応フロー処理部113、対応フロー表示処理部114および時計115からなる。時計115は、現在の時刻を提供するためのものである。
メッセージ検出部111は、監視対象サーバ140から運用管理サーバ1に送信される情報の中から障害メッセージを検出する。障害メッセージは、送信元の監視対象サーバ140を特定するためのサーバ識別情報、障害を識別するための番号であるID、障害の具体的な内容である障害メッセージ、障害の重要度(ここでは、「重要」と「通常」の2つで識別されるものとする)、システムの運用時間帯を示す利用可能開始/終了時刻などの情報を含む。顧客には、障害の内容とID値とを関連づけて記載したID一覧情報や運用管理サーバ1へアクセスするためのアクセス情報(運用管理サーバ1のネットワーク上のアドレスなどの情報を含む。)が予め提供されている。顧客は、障害発生時に、ID一覧情報から対応するIDを知ることができ、また、アクセス情報から障害メッセージの送信先を知ることができる。サーバ識別情報は、ネットワーク上におけるアドレス情報も含んでおり、そのアドレス情報を参照することで、監視端末130または運用管理サーバ1からネットワークを通じた監視対象サーバ140へのアクセスが可能となっている。メッセージ検出部111は、検出した障害メッセージをデータベース管理部112に供給する。
データベース管理部112は、対応フローデータベース120の管理を行う。対応フローデータベース120には、図2に示すように、障害メッセージデータ121と対応フローデータ122とが格納される。
障害メッセージデータ121は、ID(障害識別ID)、障害メッセージ、重要度、利用可能開始時刻、利用可能終了時刻、サーバ識別情報といった項目からなり、各項目についてそれぞれ値やテキストデータが格納される。データベース管理部112は、メッセージ検出部111から供給される障害メッセージに基づいて障害メッセージデータ121を作成する。
対応フローデータ122は、予め用意されているデータであって、ID(障害識別番号)、重要度、対応フローの項目からなり、各項目についてそれぞれ値やテキストデータが格納されている。対応フローデータ122は、ID別および重要度別に区分され、さらに、実行可能な時間帯別に区分されている。図3に、対応フローデータ122の一例を示す。
図3を参照すると、対応フローデータ122は重要度の高い障害(重要度=「重要」)に関する対応フローデータであって、実行可能な時間帯が異なる複数の対応フローからなる。すなわち、対応フローデータ122は、「9:00〜17:00」の時間帯で実行可能とされるアプリケーション対応フロー1220と、「0:00〜8:59」の時間帯および「17:01〜24:00」の時間帯で実行可能とされるアプリケーション非対応フロー1221とを有する。
アプリケーション対応フロー1220は、例えば、監視対象である顧客の監視対象サーバ14から提供されるメッセージ情報に基づいて障害の原因を暫定し、それに基づいて障害に対する対処を行う場合の手順を示すフローである。このアプリケーション対応フロー1220は、さらに、アプリケーションAに対応するフロー1220a、アプリケーションBに対応するフロー1220b、アプリケーションCに対応するフロー1220cの3つのフローに区分されている。ここで、アプリケーションA〜Cは、監視対象である顧客の監視対象サーバ14にて稼動されるアプリケーションである。アプリケーションAの稼動時間帯は「9:00〜12:00」であり、アプリケーションBの稼動時間帯は「12:01〜15:00」であり、アプリケーションCの稼動時間帯は「15:01〜17:00」である。フロー1220a〜1220cはそれぞれ、対応するアプリケーションの稼動時間帯において実行可能である。フロー1220aの実行開始時刻は「9:00」で、実行終了時刻は「12:00」である。フロー1220bの実行開始時刻は「12:01」で、実行終了時刻は「15:00」である。フロー1220cの実行開始時刻は「15:01」で、実行終了時刻は「17:00」である。
アプリケーション非対応フロー1221は、例えば、監視対象である顧客の監視対象サーバ14にアクセスし、障害分析に必要な詳細情報(OSダンプ情報、トレース情報、ログ情報など)を収集して分析し、その分析結果から障害の原因を暫定し、障害に対する対処を行う場合の手順を示すフローである。なお、重要度の低い障害の対応フローは、このアプリケーション非対応フロー1221と同じような、アプリケーション非対応のフローとされ、その実行可能な時間帯は、アプリケーションの稼動時間外の時間帯とされる。
対応フロー処理部113は、メッセージ検出部111にて検出された障害メッセージに対応する障害メッセージデータ121のID値および重要度を調べ、それらの値および情報に基づいて、データベース管理部112を通じて対応フローデータベース120から必要なデータを抽出して対応フロー表示処理部114に供給する。データの抽出において、対応フロー処理部113は、障害メッセージデータ121のID値および重要度と時計115から供給される現在時刻情報とに基づいて、該当する対応フローデータ122を対応フローデータベース120から取得する。例えば、対応フロー処理部113は、ID値および重要度に基づいて図3に示した対応フローデータ122を選択し、さらに現在時刻情報に基づいて、その選択した対応フローデータ122の各フローのうちから、現在実施可能なフローを取得する。そして、対応フロー処理部113は、それら障害メッセージデータ121および取得フローを対応フロー表示処理部114に供給する。
また、対応フロー処理部113は、実績情報として監視端末130から供給される障害復旧作業の開始/終了時刻に基づいて、対応フロー表示処理部114にて表示されている対応フローデータの変更を行う。例えば、図3に示したフロー1220aが監視端末130にて表示され、オペレータが、そのフロー1220aに従って復旧作業を行い、その作業終了時に、監視端末130上で、障害復旧作業の終了時刻(実績情報)を入力すると、対応フロー処理部113は、その入力実績情報に基づいて、次に表示すべきフローを対応フローデータベース120から取得して対応フロー表示処理部114に供給する。このとき、障害復旧作業の終了時刻が12:00前であれば、対応フロー処理部113は、次に表示すべきフローとしてフロー1220bを対応フローデータベース120から取得して対応フロー表示処理部114に供給する。障害復旧作業の終了時刻が12:00を過ぎており、15:00を越えていない場合は、対応フロー処理部113は、次に表示すべきフローとしてフロー1220cを対応フローデータベース120から取得して対応フロー表示処理部114に供給する。障害復旧作業の終了時刻が17:00を過ぎている場合は、対応フロー処理部113は、次に表示すべきフローとしてアプリケーション非対応フロー1221を対応フローデータベース120から取得して対応フロー表示処理部114に供給する。このように、対応フロー処理部113は、復旧作業の進捗状況に応じてフローの表示内容を切り替える。
また、対応フロー処理部113は、監視端末130から重要度を変更した旨の通知を受け取ると、該変更した重要度と、障害メッセージデータ121のIDと、現在時刻情報とに基づいて、対応フローデータベース120から該当する対応フローデータを再抽出し、再抽出した対応フローデータを対応フロー表示処理部114に供給する。このように、対応フロー処理部113は、オペレータによる重要度の変更に応じてフローの表示切り替えを行う。
対応フロー表示処理部114は、対応フロー処理部113から供給された障害メッセージデータおよび対応フローデータを監視端末130に供給する。
監視端末130は、運用管理サーバ1および監視対象サーバ140のそれぞれと相互に通信可能に接続されており、対応フロー表示処理部114から供給された障害メッセージデータや対応フローデータを表示し、その表示した対応フローに関する作業の実績情報(作業開始/終了)や重要度の変更情報の入力を受け付けて、入力情報を運用管理サーバ1へ送信する。
図4に、実績情報および重要度を入力するための入力画面の一例を示す。図4に示す入力画面には、復旧作業の開始時刻および終了予定時刻が自動的に表示される欄、終了時刻入力欄510、重要度指定欄520および決定ボタン530が設けられている。
復旧作業の開始時刻および終了予定時刻は、対応フロー処理部113から供給される対応フローデータの開始時刻および終了時刻に対応する。例えば、図3に示したフローaが表示された場合は、開始時刻として「9:00」が表示され、終了予定時刻として「12:00」が表示される。
終了時刻入力欄510および重要度指定欄520は、いずれもオペレータによって値および情報が入力される。終了時間入力欄510には、復旧作業の終了時刻が入力される。重要度指定欄520は、現在復旧作業の対象となっている障害に対して、「重要」または「通常」の指定を行うためのものである。決定ボタン530は、入力画面上で入力された値または情報を確定するためのボタンである。
図5に確定情報のデータ構造例を示す。フィールド名として、開始時刻、終了予定時刻、終了時刻、重要度の項目が設けられており、これら項目について、それぞれフィールド値および入力方法に関する情報が格納される。この例では、開始時刻および終了予定時刻は自動入力とされ、終了時刻および重要度は手動入力とされている。重要度は、デフォルト状態で自動入力としてもよい。監視端末130では、このデータ構造に従って情報の入力がなされる。監視端末130は、決定ボタン530が選択入力されると、入力された実績情報(終了時刻)や変更情報(重要度)を確定情報として運用管理サーバ1へ送信する。対応フロー処理部113は、この確定情報を参照して、進捗状況の判断や重要度の変更の判断を行う。
次に、本実施形態の障害対応フロー表示システムの動作について具体的に説明する。
図6に、運用管理部100による対応フローの表示制御に関する一連の処理を示す。
監視対象サーバ140にて障害が発生すると、運用管理サーバ1において、運用管理部100が、メッセージ検出処理311、データベース抽出処理312、監視端末入出力処理313、実績情報の解析処理314を順次実行する。
メッセージ検出処理311では、メッセージ検出部111が、監視対象サーバ140からの障害メッセージを検出し、データベース管理部112が、その障害メッセージに対応する障害メッセージデータ121を作成する。
データベース抽出処理312では、対応フロー処理部113が、障害メッセージデータ121のID値および重要度と現在時刻情報とに基づいて、対応フローデータベース120内に格納されている対応フローデータ122から対応する対応フローデータを抽出する。ここで抽出される対応フローデータは、ID値および重要度で識別されるフローのうち、実行開始時刻が、現在時刻より遅く、かつ、現在時刻から最も早い時刻である対応フローデータである。
監視端末入出力処理313では、対応フロー表示処理部114が、対応フロー処理部113によって抽出された対応フローデータと、データベース管理部112によって作成された障害メッセージデータ121を監視端末13に表示させる。
この表示処理により、監視端末130には、障害に対処するための復旧作業の対応ローおよび障害メッセージが表示される。オペレータは、その表示情報を参照して復旧作業を行う(対応フローの参照331)。復旧作業終了時、オペレータは、監視端末130上に情報入力画面を表示させ、その表示画面上で、対応フローに関する実績情報を入力する(対応フローの実績入力332)。実績情報は作業の終了時刻の情報である。また、オペレータは、情報入力画面上で、障害の重要度を自由に指定(変更)することができる。入力した情報は確定情報として監視端末130から運用管理部100に供給される。
実績情報の解析処理314では、対応フロー処理部113が、監視端末130から供給された確定情報を解析し、その結果に基づいて、作業状況に応じた適切な対応フローを対応フローデータベース120から抽出し、その抽出した対応フローを対応フロー表示処理部114に供給する。この確定情報に基づく対応フローの表示の切り替え処理には、終了時刻に基づいて対応フローの表示を切り替える第1の処理と、重要度の変更情報に基づいて対応フローの表示を切り替える第2の処理とがある。
第1の処理では、対応フロー処理部113は、確定情報として監視端末130から供給される「終了時刻」に基づいて、次に表示すべきフローを対応フローデータベース120から取得して対応フロー表示処理部114に供給する。具体的には、図3に示したフロー1220aが監視端末130に表示した状態で、監視端末130から、そのフロー1220aに従って行った障害復旧作業の終了時刻を受信すると、対応フロー処理部113は、その終了時刻に基づいて、次に表示すべきフローを対応フローデータベース120から取得して対応フロー表示処理部114に供給する。終了時刻が12:00より前であれば、フロー1220bが対応フローデータベース120から抽出される。終了時刻が12:00を過ぎており、15:00を過ぎていない場合は、フロー1220cが対応フローデータベース120から抽出される。終了時刻が15:00を過ぎており、17:00を過ぎていない場合は、アプリケーション非対応フロー1221が対応フローデータベース120から抽出される。この第1の処理により、監視対象サーバ上で稼動しているアプリケーションの稼動時間帯を考慮した対応フローの切り替えを行うことができる。
第2の処理では、対応フロー処理部113は、確定情報として監視端末130から供給される重要度の変更情報に基づいて、次に表示すべきフローを対応フローデータベース120から取得して対応フロー表示処理部114に供給する。例えば、監視端末130にて「重要」の対応フローが表示された状態で、重要度が「重要」から「通常」に変更された旨を示す確定情報を監視端末130から受信すると、対応フロー処理部113は、現在、監視端末上に表示されている対応フローに関する障害について、「通常」の対応フローを対応フローデータベース120から抽出して対応フロー表示処理部114に供給する。このような対応フローの切り替えによれば、オペレータは、顧客から提供される障害メッセージの内容からその障害の重要度を判断し、その重要度に対応する対応フローを表示させることができる。
以上説明した本実施形態の障害対応フロー表示システムは本発明の一例であり、その構成および動作は、発明の趣旨を逸脱しない範囲で適宜に変更することができる。例えば、図3に示した例において、アプリケーション非対応フロー1221は、実行時間帯の異なる複数のフローで構成されていてもよい。この場合のフローの表示切り替えにおいても、実行開始時刻が現在時刻より遅いフローが選択される。
(他の実施形態)
上述した障害対応フロー表示システムにおいて、オペレータが、監視端末130上で、対応フローデータベースに格納されている対応フローデータの内容を更新することができるように構成してもよい。ここでは、そのような更新機能を備える障害対応フロー表示システムについて説明する。
図7に、本発明の他の実施形態である障害対応フロー表示システムにおいて行われる、運用管理部による対応フローの表示の切り替え制御に関する一連の処理を示す。本実施形態の障害対応フロー表示システムは、基本的に図1に示したものと同じ構成であるが、運用管理部100が、監視端末13からの更新情報に基づいて対応フローデータ120を更新する点が異なる。
監視対象サーバ140にて障害が発生すると、運用管理サーバ1において、運用管理部100が、メッセージ検出処理611、データベース抽出処理612、監視端末入出力処理613、データベース蓄積処理614を順次実行する。
メッセージ検出処理611では、メッセージ検出部111が、監視対象サーバ140からの障害メッセージを検出し、データベース管理部112が、その障害メッセージに対応する障害メッセージデータ121を作成する。
データベース抽出処理612では、対応フロー処理部113が、障害メッセージデータ121のID値および重要度と時計から提供される現在時刻とに基づいて、対応フローデータベース120内に格納されている対応フローデータ122から該当する対応フローデータを抽出する。
監視端末入出力処理613では、対応フロー表示処理部114が、対応フロー処理部113によって抽出された対応フローデータと、データベース管理部112によって作成された障害メッセージデータ121を監視端末13に表示させる。この表示処理により、監視端末130には、障害に対処するための復旧作業の手順を示す対応ローおよび障害メッセージが表示される。オペレータは、その表示情報を参照して復旧作業を行う(対応フローの参照631)。復旧作業開始後、オペレータは、作業状況に応じて、監視端末130上に情報入力画面を表示させ、その表示画面上で、対応フローに関する情報を入力する(対応フローの実績入力632)。さらに、オペレータは、監視端末13にて表示された対応フローの内容を更新するための更新情報入力画面を表示させ、その表示画面上で、必要に応じて対応フローを更新する(対応フローの更新入力633)。監視端末130は、情報入力画面での入力情報(確定情報)および更新情報入力画面での入力情報(更新情報)を運用管理部100に送信する。
運用管理部100では、監視端末130から受信した確定情報および更新情報は対応フロー処理部113を通じてデータベース管理部112に渡される。データベース管理部112は、確定情報に基づく対応フローの表示切り替え処理を行う。また、データベース管理部112は、対応フロー更新情報に基づいて対応フローデータベース120に格納された対応フローデータのうちの該当する対応フローデータを更新する(データベース蓄積処理614)。このようにして更新された対応フローデータは、その後の作業において利用することができる。なお、このデータベース蓄積処理614において、更新前の対応フローデータと更新後の対応フローデータの両方が対応フローデータベース120に格納されるようにして、その後の作業で、それら対応フローデータを利用することも可能である。
以上説明した各実施形態の障害対応フロー表示システムにおいて、運用管理サーバ1の運用管理部100の各部の動作は、全て、予め提供されているプログラムをコンピュータが実行することで実現される。同様に、監視端末130や監視対象サーバ140にて行われる動作も、予め提供されているプログラムをコンピュータが実行することで実現される。プログラムは、CD−ROMやDVDなどの記録媒体を通じて提供されてもよく、インターネットなどのネットワークを通じて提供されてもよい。記録媒体を用いる場合は、運用管理サーバ1、監視端末130および監視対象サーバ14のそれぞれは、その記録媒体からプログラムを読み出すための装置を備える。
本発明の一実施形態である障害対応フロー表示システムの構成を示すブロック図である。 対応フローデータベースの一例を示す模式図である 対応フローデータの一例を示す模式図である。 実績情報および重要度を入力するための情報入力画面の一例を示す模式図である。 確定情報のデータ構造を説明するための図である。 図1に示す運用管理部による対応フローの表示制御に関する一連の処理を説明するための図である。 本発明の他の実施形態である障害対応フロー表示システムにおいて行われる、運用管理部による対応フローの表示の切り替え制御に関する一連の処理を説明するための図である。
符号の説明
1 運用管理サーバ
100 運用管理部
111 メッセージ検出部
112 データベース管理部
113 対応フロー処理部
114 対応フロー表示処理部
115 時計
120 対応フローデータベース
130 監視端末
140 監視対象サーバ

Claims (5)

  1. 監視対象である顧客サーバと相互通信可能に接続される運用管理サーバと、
    前記運用管理サーバおよび顧客サーバと相互通信可能に接続される監視端末と、
    前記顧客サーバに関する障害の復旧作業の手順を示す対応フローが、該障害を識別するための障害識別番号とその復旧作業の緊急の有無を示す重要度および該対応フローの実行開始時刻および実行終了時刻を定めた実行可能時間帯と関連付けて格納された対応フローデータベースと、を有し、
    前記運用管理サーバは、
    現在時刻を提供する時計と、
    前記顧客サーバから、該顧客サーバで発生した障害に関する前記障害識別番号および重要度を含む障害メッセージを受信すると、該障害メッセージに含まれている障害識別番号および重要度によって識別される対応フローのうち、前記実行開始時刻が前記時計から提供される現在時刻より遅く、かつ、該現在時刻から最も早い時刻である対応フローを、前記対応フローデータベースから取得して前記監視端末上で表示させる運用管理部と、を有し、
    前記監視端末は、前記運用管理部による制御により表示された対応フローについて、復旧作業の終了時刻の入力を受け付けると、該終了時刻を前記運用管理サーバに送信し、
    前記運用管理部は、前記障害メッセージに含まれている障害識別番号および重要度によって識別される対応フローのうち、前記実行開始時刻が前記監視端末から受信した復旧作業の終了時刻より遅く、かつ、該終了時刻から最も早い時刻である対応フローを、前記対応フローデータベースから取得して前記監視端末上に表示させる、ことを特徴とする、障害対応フロー表示システム。
  2. 前記対応フローの実行可能時間帯が前記顧客サーバで実行されるアプリケーションの実行時間帯に対応する、請求項1に記載の障害対応フロー表示システム。
  3. 前記監視端末は、前記運用管理部による制御により表示された対応フローに従って復旧作業が行われる障害に関する重要度を、前記障害メッセージに含まれている重要度とは異なる重要度に変更する旨の入力を受け付けると、該障害の重要度の変更情報を前記運用管理サーバに送信し、
    前記運用管理部は、前記監視端末から受信した変更情報に基づいて、変更された重要度に対応する対応フローを前記対応フローデータベースから取得して前記監視端末上に表示させる、請求項1または2に記載の障害対応フロー表示システム。
  4. 監視対象である顧客サーバおよび監視端末のそれぞれと相互通信可能に接続される運用管理サーバにおいて行われる障害対応フロー表示方法であって、
    前記顧客サーバに関する障害の復旧作業の手順を示す対応フローが、該障害を識別するための障害識別番号とその復旧作業の緊急の有無を示す重要度と該対応フローの実行開始時刻および実行終了時刻を定めた実行可能時間帯と関連付けて格納された対応フローデータベースを参照するステップと、
    前記顧客サーバから、該顧客サーバで発生した障害に関する前記障害識別番号および重要度を含む障害メッセージを受信するステップと、
    受信した前記該障害メッセージに含まれている障害識別番号および重要度によって識別される対応フローのうち、前記実行開始時刻が現在時刻より遅く、かつ、現在時刻から最も早い時刻である対応フローを、前記対応フローデータベースから取得して前記監視端末上で表示させるステップと、
    表示された前記対応フローについての復旧作業の終了時刻を前記監視端末から受信し、前記障害メッセージに含まれている障害識別番号および重要度によって識別される対応フローのうち、前記実行開始時刻が前記監視端末から受信した復旧作業の終了時刻より遅く、かつ、該終了時刻から最も早い時刻である対応フローを、前記対応フローデータベースから取得して前記監視端末上に表示させるステップと、を含む、障害対応フロー表示方法。
  5. 監視対象である顧客サーバおよび監視端末のそれぞれと相互通信可能に接続される運用管理サーバに用いられるプログラムであって、
    前記顧客サーバに関する障害の復旧作業の手順を示す対応フローが、該障害を識別するための障害識別番号とその復旧作業の緊急の有無を示す重要度と該対応フローの実行開始時刻および実行終了時刻を定めた実行可能時間帯と関連付けて格納された対応フローデータベースを参照する処理と、
    前記顧客サーバから、該顧客サーバで発生した障害に関する前記障害識別番号および重要度を含む障害メッセージを受信する処理と、
    受信した前記該障害メッセージに含まれている障害識別番号および重要度によって識別される対応フローのうち、前記実行開始時刻が現在時刻より遅く、かつ、現在時刻から最も早い時刻である対応フローを、前記対応フローデータベースから取得して前記監視端末上で表示させる処理と、
    表示された前記対応フローについての復旧作業の終了時刻を前記監視端末から受信し、前記障害メッセージに含まれている障害識別番号および重要度によって識別される対応フローのうち、前記実行開始時刻が前記監視端末から受信した復旧作業の終了時刻より遅く、かつ、該終了時刻から最も早い時刻である対応フローを、前記対応フローデータベースから取得して前記監視端末上に表示させる処理と、を前記運用管理サーバのコンピュータに実行させるプログラム。
JP2007001321A 2007-01-09 2007-01-09 障害対応フロー表示システム、方法およびプログラム Withdrawn JP2008171061A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007001321A JP2008171061A (ja) 2007-01-09 2007-01-09 障害対応フロー表示システム、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007001321A JP2008171061A (ja) 2007-01-09 2007-01-09 障害対応フロー表示システム、方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2008171061A true JP2008171061A (ja) 2008-07-24

Family

ID=39699109

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007001321A Withdrawn JP2008171061A (ja) 2007-01-09 2007-01-09 障害対応フロー表示システム、方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2008171061A (ja)

Similar Documents

Publication Publication Date Title
CA2046664C (en) Automated enrollment of a computer system into a service network of computer systems
US20080065928A1 (en) Technique for supporting finding of location of cause of failure occurrence
US20070174786A1 (en) Computer-readable recording medium having recorded message display control program and message display control apparatus
GB2440069A (en) Monitoring simulating device, method, and program
JP5983102B2 (ja) 監視プログラム、方法及び装置
JP2010009411A (ja) 仮想化環境運用支援システム及び仮想環境運用支援プログラム
JP2008171061A (ja) 障害対応フロー表示システム、方法およびプログラム
JP2007072545A (ja) 監視装置及び監視方法
JP2007025820A (ja) ソフトウェアのリスク診断プログラム
JP4804139B2 (ja) 情報出力方法、システム及びプログラム
JP2007072546A (ja) フロー編集装置及びフロー編集方法
US20080141262A1 (en) System, apparatus, and method for managing a service
JP2017207995A (ja) サービス監視装置及びサービス監視方法
EP0471636B1 (en) Flexible service network for computer systems
JP4388449B2 (ja) 画面遷移システムの監視システム及び監視方法
JP7167749B2 (ja) 情報処理装置、情報処理システム、及び情報処理プログラム
JP4530645B2 (ja) コンピュータシステムの監視装置および監視方法
JP2019159984A (ja) 情報処理装置およびプログラム
US20220291983A1 (en) Analysis system, method of presenting result of inspection in analysis system and non-transitory computer readable medium storing program
JP5492031B2 (ja) 作業管理システム
EP0471637B1 (en) Tracking the resolution of a problem on a computer system in a service network of computer systems
JP2009026052A (ja) 障害監視システム、マネージャ装置、障害監視方法及びプログラム
EP0471638B1 (en) Problem prevention on a computer system in a service network of computer systems
JP4882115B2 (ja) 遠隔通報システムおよび電子計算機、並びに、遠隔通報方法
JP2017227973A (ja) 異常解析支援システム、および異常解析支援装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091112

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20100401