以下、本発明を実施するための最良の形態を図面を参照して説明する。
実施の形態1.
図1は、本発明の第1の実施の形態を示すブロック図である。第1の実施の形態におけるシステム運用管理支援装置は、入出力装置1と、システム状態監視部2と、障害対処プロセス制御部3と、障害分析プロセス制御部4と、障害情報保存部5とを備える。更に、障害対処プロセス制御部3は、障害対処操作制御部31と、対処履歴情報記録管理部32とを備える。更に、障害分析プロセス制御部4は、障害分析操作制御部41を備える。
本実施の形態では、特に障害対処操作制御部31と、対処履歴情報記録管理部32と、障害分析操作制御部41とが重要な役割を果たす。障害対処操作制御部31が生成する障害対処のための画面(障害対処に用いられる一連の画面)による各種ログを対処履歴記録管理部32が記録する。そして、対処を行った操作者とは異なる操作者が、ログを参照しつつ分析を行う。このとき、障害分析操作制御部41が、障害分析に用いられる一連の画面を提示する。
入出力装置1は、例えば、キーボードやマウス等の入力装置を備えたパーソナルコンピュータ(PC)とディスプレイ装置とによって実現される。入出力装置1は、操作者が障害対処業務を実行する際に、障害対処操作制御部31が生成する画面を表示し、また、操作者による操作やその操作により入力される情報を障害対処操作制御部31に出力する。また、入出力装置1は、操作者が障害分析業務を実行する際に、障害分析操作制御部41が生成する画面を表示し、操作者による操作やその操作により入力される情報を障害分析操作制御部41に出力する。なお、入出力装置1は、画面をウィンドウとして表示するので、画面のことをウィンドウと記す場合がある。また、障害対処を行う操作者と、障害分析を行う操作者とは異なる者であることが一般的である。例えば、障害分析を行う操作者は、システム運用の権限を有する管理者であることが多い。
なお、ここでは、システム状態監視部2と、障害対処プロセス制御部3と、障害分析プロセス制御部4とが、入出力装置1となるPCとは別の情報処理装置である場合を例に説明する。ただし、入出力装置1となるPCと、システム状態監視部2および障害対処プロセス制御部3とが同一の情報処理装置として構成されていてもよい。また、システム状態監視部2および障害対処プロセス制御部3が同一の情報処理装置として構成され、入出力装置1となるPCがその情報処理装置とは別の装置として備えられる構成であってもよい。
システム状態監視部2は、管理対象とするシステムの状態(特定のモジュールが発行するイベントや、ping応答、CPU負荷等)を常に監視し、規定の症状と一致あるいは閾値を超えた場合に、障害が発生したとみなし、障害を検知した箇所とあわせて障害対処操作制御部31に出力する。更にシステム状態監視部2は、一度検知した障害への対処状況(誰が対処しているのか、対処の成否等)についても監視し、障害対処操作制御部31に出力する。
障害情報保存部5は、障害の分類定義や過去に発生した障害に関する情報を保持する。具体的には、障害情報保存部5は、障害の分類を示す障害分類情報と、障害の発生履歴を示す障害履歴と、障害対処を行った操作者がどのような対処を行ったかを示す障害対処ログと、障害対処を行った操作者による個々の操作内容を示す操作ログを記録する。以下、障害情報保存部5が記憶する各情報について説明する。
図2は、障害分類情報の例を示す説明図である。障害分類情報では、システム状態監視部2が検知し障害と判定したシステムの症状ごとに、どのような障害分類に属するのかやコメントが設定される。また、障害分類情報は、各症状に対応する障害IDも含んでいる。例えば、図2に示す障害F0002 では、EventA2 とEventA3 を同時に検知した場合、この障害を「ping無応答」であるとみなす。また、障害F0005 では、EventD1 あるいはEventD2 を検知した場合、この障害を「OSエラー」とみなす。なお、図2に示す例では「症状」における「* 」は論理積を表し、「+ 」は論理和を表している。新たに生じた症状が既存の障害分類に分類されない場合には、図2に示す障害F1000 に示すように、障害対処操作制御部31が「未知の障害」として分類する。
図3は、障害履歴の例を示す説明図である。障害履歴は、過去に発生した障害に関する情報として、発生した障害毎に履歴ID、障害ID、発生箇所、発生日時、解決日時、およびその障害対処の流れを記載した障害対処ログのID(対処ログID)を含んでいる。
図4は、障害対処ログの例を示す説明図である。障害対処ログは、障害対処毎に(対処ログID毎に)、障害への対処にあたった操作者名、その操作者による個々の操作を記録した操作ログのID(操作ログID)、操作日時、対処内容、対処にあたり実行したコマンド、そのコマンドの実行結果、対処時に操作者が入力したコメントを含んでいる。なお、「対処内容」として、「適用(コマンドの実行)」、「承認依頼(コマンド実行の承認依頼)」、「承認否決(コマンド実行の承認依頼に対する否決)」、および「解決確認」がある。1つの障害に対し、対処を行う操作者や対処内容は一人または1つとは限らない。誰かが対処を行った上で、別の誰かが解決を確認するというように、段階的に作業を進めていくにつれて、対処ログIDに対応する操作者、操作ログID等の情報が追加されることになる。例えば、図4に示す障害対処L0001 では、最初に操作者opeAが対処コマンドおよびコメントを入力し、適用(対処コマンドを実行)した時点で一旦、対処作業を閉じた(止めた)ことを示している。そして、更に、別の操作者opeBが、作業を引き継ぎ、本当に障害が解決したかを確認し、コメントを入力した上で、解決確認を実行し、その障害への対処作業が完了となったことを示している。また、障害対処L1000 では、操作者opeBがコマンドおよびコメントを入力した上で、承認依頼(入力したコマンドの実行の承認依頼)を実行した状態を示していて、その障害は未解決の状態であり、対処作業は完了していないことを示す。
図5は、操作ログの例を示す説明図である。操作ログは、各操作者が行った一連の操作群を識別する操作ログIDと対応付けて、障害対処時に操作者が行った操作日時、操作を行ったウインドウの識別情報(ウィンドウID)、操作群に属する個々の操作の種別(情報参照、ウインドウを閉じる操作、コマンド入力等)、操作対象となるオブジェクト(マウスクリック操作されるボタンや、テキスト情報が入力されるテキストエリア等)、および操作内容を含む。例えば、図5に示す操作ログO0001-01は、障害対処ログL0001 (図4参照)に対応する各操作群を示していて、操作者opeAが、障害対処を開始してコマンドおよびコメントを入力した上でコマンドを適用するまでの操作の流れを記録したものである。この操作ログO0001-01により、コマンド適用(入力したコマンドの実行)に至るまでに、ウインドウwin0001 からwin0002 を呼び出したが直ぐに閉じたことや、ウインドウwin0003 を経てウインドウwin0005 を呼び出したまま、コマンド入力を行ったことを見て取れる。
障害対処操作制御部31は、システム状態監視部2および入出力装置1からの入力を受け、システムに発生している障害への対処を行うための操作画面を生成し、その操作画面を入出力装置1に出力してその操作画面を入出力装置1に表示させる。また、障害対処操作制御部31は、入出力装置1を操作して障害対処作業を行う操作者の操作の内容を対処履歴情報記録管理部32に出力する。
より具体的に、障害対処操作制御部31の処理について説明する。管理対象とするシステム上に障害が発生した場合、システム情報監視部2が障害発生を検知し、障害の情報(管理対象システムの症状、発生箇所等。発生日時等の情報が含まれていてもよい。)を障害対処プロセス制御部3(障害対処操作制御部31)に出力する。すると、障害対処操作制御部31は、システム状態監視部2からの入力に基づいて、検知されたシステムの症状に対応する障害分類があるか否かを障害分類情報を参照して調べる。なお、障害分類情報は、障害情報保存部5によって記憶されている。障害対処操作制御部31は、症状に対応する障害分類があれば、その障害分類の情報を取り出し、また、症状に対応する障害分類がなければ、発生した障害の障害分類を「未知の障害」する。そして、障害対処操作制御部31は、取り出した障害分類あるいは「未知の障害」とした障害分類を、障害の発生日時や障害発生箇所等と併せて、障害情報として、入出力装置1に表示させる。障害対処操作制御部31は、少なくとも、この障害の情報を表示する画面、および障害対処の内容の選択を操作者に促す画面を含む一連の画面を、入出力装置1において行われた操作に応じて、入出力装置1に表示させる。ここで、障害対処の内容の選択を操作者に促す画面とは、障害対処時に、対処内容である「適用」、「承認依頼」、「承認否決」、「障害解決」のいずれかを選択的に入力する画面である。障害対処操作制御部31は、障害対処において用いられる画面として、この一連の画面を出力して、操作者に、管理対象システムにおける障害の存在を認知させ、障害対処作業を促す。また、障害対処操作制御部31は、画面として、予め定められた障害対処の手順に従って必要な項目を入力していくウイザード形式のウィンドウを生成する。そして、障害に関連する情報を表示する画面として、障害情報保存部5に記録されている情報や管理対象システムに関するその他の情報を表示する情報参照用ウィンドウを生成し、そのウィンドウを入出力装置1に表示させる。障害対処操作制御部31は、入出力装置1において行われた操作に応じて、先に述べた一連の画面とは別に、情報参照用ウィンドウも表示させて、分析対処に用いられる情報を操作者に提供する。
対処履歴情報記録管理部32は、障害対処操作制御部31からの入力を受け、障害分類情報、障害履歴、障害対処ログ、操作ログを障害情報保存部5に記録する。より具体的には、対処履歴情報記録管理部32は、障害対処操作制御部31からの障害対処作業の進捗情報を取得し、操作者名や日時、入力項目、別途参照した関連情報等を障害対処ログおよび操作ログとして、障害情報保存部5に記録する。すなわち、対処履歴情報記録管理部32は、入出力装置1における操作に応じて障害対処操作制御部31が出力した操作者名、操作日時、対処内容、対処コマンド、対処コマンドの実行結果、操作者が入力したコメントを、障害対処ログとして障害情報保存部5に記録する。また、対処履歴情報記録管理部32は、入出力装置1における操作に応じて障害対処操作制御部31が出力した日時、操作ウィンドウID、操作種別、操作対象、操作の内容を操作ログとして障害情報保存部5に記録する。
また、操作者が障害対処ウインドウを閉じ、障害対処作業を途中で中断した場合、障害対処操作制御部31は、その旨の情報を入出力装置1から受信し、対処履歴情報記録管理部32に出力する。対処履歴情報記録管理部32は、この情報を障害対処操作制御部31から受けると、障害対処ログおよび操作ログから中断した作業に関する情報を削除する。例えば、対処履歴情報記録管理部32が、図5に例示する操作ログO0001-01の記録を行っているときに、win0003 が閉じられた後に障害対処作業が中断されたとする。すると、対処履歴情報記録管理部32は、操作ログID“O0001-01”に対応付けて記録した情報を操作ログ中から削除する。また、図4に例示する障害対処ログ中から、操作ログID“O0001-01”に対応付けて記録した情報を削除する。
また、対象内容として「障害解決」が入力された場合(すなわち、操作者が障害が解決したと判断し障害対処作業を完了した場合)、対処履歴情報記録管理32は、障害の発生箇所、解決日時、解決に至るまでの対処を示す対処ログIDを障害履歴として、障害情報保存部5に記録する。なお、障害履歴では、対処ログIDが記録され、障害対処ログでは、対処ログIDと操作ログIDが対応付けられている。従って、障害履歴から、各障害を解決するために行われた一連の操作の情報(図5参照。)まで辿ることができる。
障害分析操作制御部41は、障害分析を行う操作者によって入出力装置1において行われる操作に応じて、過去に管理対象システムに発生した障害の分析を行うための操作画面を生成し、その操作画面を入出力装置1に出力してその操作画面を入出力装置1に表示させる。障害分析操作制御部41は、障害の分析を行うための操作画面として、障害情報保存部5に記録されている情報や管理対象システムに関するその他の情報を参照可能な画面を生成し、入出力装置1に出力する。障害分析操作制御部41は、障害分析において用いられる画面として、少なくとも、過去に発生した各障害の一覧情報を表示する画面、および障害対処時に行われた個々の操作に関するログを表示する画面を含む一連の画面を生成し、入出力装置1に表示させる。障害分析操作制御部41は、障害情報保存部5に記憶された情報に基づいて、この一連の画面を表示させればよい。また、障害分析操作制御部41は、各障害に関連する情報(上記の障害情報保存部5に記録されている情報や管理対象システムに関するその他の情報)を表示する画面(すなわち、情報参照用ウィンドウ)も入出力装置に表示させる。情報参照用ウィンドウは、分析対処時に表示される情報参照用ウィンドウと同様のウィンドウであってよい。
障害分析操作制御部41は、障害対処とは異なるタイミングで(すなわち、障害対処作業が行われていないときに)、少なくとも、過去に発生した各障害の一覧情報を表示する画面、および障害対処時に行われた個々の操作に関するログを表示する画面を含む一連の画面を生成し、入出力装置1に出力させる。また、この一連の画面が含むボタンのうち、情報参照用ウィンドウを表示するためのボタンが押下(クリック)された場合、障害分析操作制御部41は、情報参照用ウィンドウを新たに表示させる。
また、障害分析操作制御部41は、入出力装置1における管理者の指示に従い、障害情報保存部5が記憶する障害の分類指定をより適切なものに変更したり、障害分類情報内に「未知の障害」が含まれている場合、その「未知の障害」を既知の障害分類に変更する。「未知の障害」を既知の障害分類に変更とき、障害分析操作制御部41は、入出力装置1における管理者の指示に従い、障害分類情報内の「未知の障害」に対応するコメント(図2参照。)を書き換える。例えば、障害分析操作制御部41は、図2に例示する「未知の障害」、「障害分類が不明です。」という箇所を、例えば「CPUエラー」、「CPUに異常があります。」といった具体データなデータに変更する。
障害分析操作制御部41は、過去に発生した各障害の一覧情報を表示する画面、および障害対処時に行われた個々の操作に関するログを表示する画面を含む一連の画面を表示させることで、管理者に障害分析作業を促す。なお、本実施の形態では、「障害分析」として、障害の発生原因の特定、システム構成変更等の根本的な解決、次に類似した障害発生時の対処策を定めるといった障害の再発を防ぐための作業の他、「未知の障害」とされていた症状の分類をを既知の障害として変更する作業も含む。
障害分析操作制御部41は、例えば、作業者に対する認証を行い、作業者が障害分析を行う権限を有する管理者等であることを確認した後に、障害分析のための画面を表示して障害分析が可能となるようにしてもよい。
障害対処操作制御部31が入出力装置1に表示させる一連の画面(対処時画面群と記す。)と、障害分析操作制御部41が入出力装置1に表示させる一連の画面(分析時画面群と記す。)では、以下の点が異なる。障害対処操作制御部31は、対処時画面群における最初の画面として、まず、発生した障害の情報を表示する画面を生成する。一方、障害分析操作制御部41は、分析時画面群における最初の画面として、まず、過去に発生した各障害の一覧情報を表示する画面を生成する。このように、最初に表示される画面が、対処時画面群と分析時画面群とで異なる。また、障害対処時において「適用」、「承認依頼」、「承認否決」、「障害解決」のいずれかを選択的に入力する画面が対処時画面群には含まれるが、分析時画面群には含まれない。また、障害対処時に行われた個々の操作に関するログを表示する画面は、分析時画面群に含まれるが、対処時画面群には含まれない。なお、障害に関連する情報(例えば、障害が発生した装置の情報等)は、障害対処時、障害分析時のいずれにいおいても表示してよい。このように、障害対処時および障害分析時で共通の情報を表示してもよい。
システム状態監視部2は、例えば、プログラムに従って動作するCPUによって実現される。そのプログラムは、システム状態監視部2が備える記憶装置(図示せず。)に記憶させておけばよい。障害対処操作制御部31および対処履歴情報記憶管理部32は、例えば、システム運用管理支援プログラムに従って動作するCPUによって実現される。そのシステム運用管理支援プログラムは、例えば障害対策プロセス制御部3が備える記憶装置(図示せず。)に記憶させておけばよい。障害分析操作制御部41は、例えば、システム運用管理支援プログラムに従って動作するCPUによって実現される。そのシステム運用管理支援プログラムは、例えば障害分析プロセス制御部4が備える記憶装置(図示せず。)に記憶させておけばよい。また、障害情報保存部5は、例えば、記憶装置によって実現される。
次に、動作について説明する。
図6は、障害対処操作制御部31が、一連の画面(対処時画面群)を入出力装置1に表示させて、操作者に障害対処を促す処理過程の例を示すフローチャートである。システム状態監視部2が障害の発生を検知した場合、障害対処操作制御部31は、管理対象システムに発生している障害の情報を表示する画面を入出力装置1に表示させ、障害対処業務に就く操作者に障害の発生を通知する(ステップS1602)。ステップS1602では、例えば、発生している障害の情報を一覧として表示し、一覧表示した障害の中から障害を指定する操作が入出力装置1において行われた場合、障害対処操作制御部31は、指定された障害の情報を表示する画面を入出力装置1に表示させる。ステップS1602における表示画面によって、操作者は、障害の発生を認知する。発生した障害に関する詳細な情報として、障害発生箇所のシステム構成やサービスの内容、過去の障害事例等を表示する情報参照用ウィンドウを呼び出す操作が入出力装置1において操作者により行われると、障害対処操作制御部31は、情報参照用ウィンドウを入出力装置1に表示させる(ステップS1603)。障害対処操作制御部31は、情報参照用ウィンドウを、ステップS1602で表示する障害通知画面(発生している障害の情報を表示する画面)とは別のウィンドウとして表示させる。障害対処操作制御部31は、入出力装置1における操作に応じて、情報参照用ウィンドウを閉じて、障害通知画面を表示する状態(ステップS1602)に戻ってもよい。また、その状態から再度ステップS1603に移行してもよい。
発生した障害への対処が必要であると操作者が判断し、対処を開始するための障害対処画面を呼び出す操作が入出力装置1において行われると、障害対処操作制御部31は、その操作に応じて、障害対処画面を入出力装置1に表示させる(ステップS1604)。発生した障害に関する詳細な情報を表示する情報参照用ウィンドウを呼び出す操作が入出力装置1において操作者により行われると、障害対処操作制御部31は、情報参照用ウィンドウを入出力装置1に表示させる(ステップS1605)。障害対処操作制御部31は、情報参照用ウィンドウを表示させることにより、適切な対象方法検討の判断材料を操作者に提供する。障害対処操作制御部31は、入出力装置1における操作に応じて、情報参照用ウィンドウを閉じて、障害対処画面を表示する状態(ステップS1604)に戻ってもよい。また、その状態から再度ステップS1605に移行してもよい。
ステップS1604において表示させる障害対処画面は、「適用」、「承認依頼」、「承認否決」、「障害解決」のいずれかを選択的に入力させる画面である。すなわち、ステップS1604において、障害対処操作制御部31は、「適用」、「承認依頼」、「承認否決」、「障害解決」のいずれかの選択を促す。障害対処操作制御部31は、入出力装置1における操作者の操作に応じて、選択された対処内容の情報を入出力装置1から受信する(ステップS1606)。すなわち、障害対処操作制御部31は、対処内容として、「適用(対処コマンドを入力し実行すること)」、「承認依頼(別の人間にコマンド実行の承認を依頼すること)」、「承認否決(依頼された承認を否決すること)」、「解決確認(発生した障害が解決したと見なすこと)」の何れが選択されたのかを、入出力装置1から通知される。
なお、承認依頼された操作者が「承認否決」を行わずに承認を認める場合には、「適用(対処コマンドの実行)」を選択すればよい。
障害対処操作制御部31は、ステップS1606で選択された対処内容を実行に移すか否かの確認画面を入出力装置1に表示させる(ステップS1607,S1608,S1609,S1610)。すなわち、ステップS1606において、「適用」が選択された場合には、入力された対処コマンドを本当に実行するか否かの確認画面を表示させる(ステップS1607)。また、「承認依頼」が選択された場合、別の人間へのコマンド実行の承認依頼を本当に実行するか否かの確認画面を表示させる(ステップS1608)。「承認否決」が選択された場合、依頼された承認の否決を本当に実行するか否かの確認画面を表示させる(ステップS1609)。「解決確認」が選択された場合、本当に発生した障害が解決したと見なすか否かの確認画面を表示させる(ステップS1610)。
障害対処操作制御部31は、入出力装置1に表示させた確認画面において、対処内容を実行する旨の指示が入力されたか否かを判定する(ステップS1611)。対処内容を実行しない旨の指示が入力された場合(ステップS1611におけるNo)、ステップS6104に移行し、ステップS1604以降の処理を繰り返す。この結果、操作者は、対処内容の再考が可能となる。また、対処内容を実行する旨の指示が入力された場合(ステップS1611におけるYes)、障害対処操作制御部31は、対処内容を実際に実行し、結果を提示する(ステップS1612)。なお、対処内容が「承認依頼」、「承認否決」、「障害解決」である場合、例えば、障害通知画面上で、対処中の障害と対応づけて「承認依頼」、「承認否決」または「障害解決」という対処内容を表示することが、対処内容の実行に相当する。この時点で障害対処作業は一旦閉じられる。障害対処操作制御部31は、障害が解決しているか否か(障害が解決しているとみなしたか否か)を判定し(ステップS1613)、障害が解決しているならば(「解決確認」が選択され、障害が解決したとみなしたならば)、発生した障害に対する対処作業が完了したことになる。障害が解決されていないならば(障害が解決したとみなしていないならば)、ステップS1602に移行して、ステップS1602以降の処理を繰り返す。このとき、発生している障害の一覧画面では、発生した障害の対処状況を提示し、他の操作者(あるいはこれまでの操作者と同一人物であってもよい)による引継ぎ作業を待つ状態となる。例えば、「承認依頼」が選択されて再度ステップS1602に移行した場合、障害への対処状況として「承認待ち」等の情報を障害情報の一覧画面内に表示すればよい。なお、障害対処操作制御部31は、障害に対する対処内容が決定されるまでの間、発生している障害の一覧画面内で、その障害と対応づけて「対処中」等の情報を表示する。
図7は、障害対処作業が行われているときに対処履歴情報記録管理部32が行う情報記録管理処理の例を示すフローチャートである。システム情報監視部2が障害発生を検知し、障害の情報を障害対処操作制御部31に出力すると、障害対処操作制御部31は、システム状態監視部2からの入力に基づいて、検知されたシステムの症状に対応する障害分類があるか否かを障害分類情報を参照して調べる。対処履歴情報記録管理部32は、この障害対処操作制御部31による処理結果に応じて、障害IDを特定し、障害発生箇所、発生日時等を、障害履歴に追加する。このとき、履歴IDを割り当て、履歴IDに対応付けて、上記の各情報を障害履歴に追加する(ステップS1701)。ステップS1701では、1つの履歴IDおよびその履歴IDに対応する障害ID、発生箇所、発生日時等の情報を追加して、図3に例示する障害履歴を更新する。また、システムの症状が「未知の障害」であると障害対処操作制御部31によって判定され、障害対処操作制御部31がその旨および症状の情報を対処履歴情報記録管理部32に出力した場合、対処履歴情報記録管理部32は、新たに障害IDを割り当て、その障害IDと対応させて、その症状の情報、「未知の障害」という障害分類、「障害分類が不明です。」等のコメントとを対応付けて、障害分類情報に追加する。すなわち、図2の最終行に例示するような1行分のデータを作成し、障害分類情報に追加する。また、この場合、対処履歴情報記録管理部32は、「未知の障害」の発生に伴い新たに割り当てた新規障害IDを、障害履歴に追加する。
また、このとき、障害対処操作制御部31は、図6に示すステップS1602の処理を開始し、操作者は障害の発生を認知させる。この結果、障害対処作業が開始されることになる(ステップS1702)。障害対処操作制御部31は、入出力装置1において行われる操作の情報を対処履歴情報記録管理部32に出力し、対処履歴情報記録管理部32はその情報を受け取る。
対処履歴情報記録管理部32は、発生した障害に対応する障害対処ログが存在するか否かを判定する(ステップS1703)。発生した障害への対処が初めて開始された場合、その障害に対応する障害対処ログは存在しないため、対処履歴情報記録管理部32は、障害対処ログを新規に作成する(ステップS1704)。ここで、対処履歴情報記録管理部32は、対処ログIDを割り当てる。また、ステップS1701で追加した障害IDに対応させて、障害履歴に対処ログIDを記録する。
対処履歴情報記録管理部32は、対処が行われる障害に対応する障害対処ログに、現在対処作業を行っている作業者による作業内容を記録するためのデータを追加する。具体的には、対処履歴情報記録管理部32は、操作者名、操作日時等を、割り当て済みの対処ログIDに対応付けて記録する。操作者名に関しては、例えば、障害対処操作制御部31が表示画面上で操作者名の入力を促し、入力された操作者名を対処履歴情報記録管理部32に通知してもよい(また、他の方法によって操作者名を通知してもよい)。また、対処履歴情報記録管理部32、新たに操作ログIDを割り当て、対処ログIDと対応付けて障害対処ログに記録する。また、対処履歴情報記録管理部32、新規に割り当てた操作ログIDに対応する操作ログを新たに作成する(ステップS1705)。なお、ステップS1705では、障害対処ログ(図4参照。)の「対処内容」、「対処コマンド」、「結果」、「コメント」は未定であるので、記録されない。
操作者は、障害対処操作として、様々な関連情報をウインドウを呼び出していく形で参照したり、対処コマンドを入力したりする。入出力装置1は、これらの個々の操作に関する情報(操作日時、操作ウィンドウID、操作種別、操作対象等)を障害対処操作制御部31に出力し、障害対処操作制御部31は、その情報を対処履歴情報記録管理部32に出力する。対処履歴情報記録管理部32は、操作者による操作が行われる毎に操作に関する情報を受け取り、操作ログIDと対応付けて、操作日時、操作ウィンドウID、操作種別、操作対象等を操作ログに記録する(ステップS1706)。また、図5に示す「内容」の情報は、入出力装置1あるいは障害対処操作制御部31が判定し、対処履歴情報記録管理部32に出力してもよい。または、対処履歴情報記録管理部32が、操作ウィンドウID、操作種別、操作対象に基づいて判定し、操作ログに記録してもよい。対処履歴情報記録管理部32は、行われた操作の順番に従って、各操作の情報を追加記録する。従って、各操作の情報は、日時が示す時刻の順に並ぶ。
操作者が、障害対処用の主ウインドウ(例えば、ステップS1604で表示される障害対処画面。後述の図10参照。)を閉じる等の対処作業中断操作を行った場合、入出力装置1は、その操作の情報を障害対処操作制御部31に出力し、障害対処操作制御部31は、その情報を対処履歴情報記録管理部32に出力する。対処履歴情報記録管理部32は、対処作業中断操作が行われたか否かを判定する(ステップS1707)。この判定は、障害対処操作制御部31が対処作業中断操作に関する情報を出力したか否かによって行えばよい。対処作業中断操作が行われたと判定した場合(ステップS1707におけるYes)、対処履歴情報記録管理部32は、障害対処ログにおける最新の一行の情報(直近に記録された「操作者」、「操作ログID」、「操作日時」の情報)を削除する。また、対処履歴情報記録管理部32は、中断した作業に対応する操作ログを削除する(ステップS1708)。例えば、図5に例示する操作ログID“O0001-01”に対応する操作情報を順次記録していて、5行目の記録後、対処作業中断操作が行われたと判定したとする。この場合、対処履歴情報記録管理部32は、それまでに記録していた操作ログID“O0001-01”に対する情報(5行分の情報)および操作ログIDを削除する。ステップS1708の後、ステップS1702以降の動作を繰り返す。
なお、対処作業中断操作が行われた後であっても、障害対処操作制御部31は、管理対象システムに発生している障害情報の一覧画面を入出力装置1に表示させ続け、ステップS1702以降の動作が可能な状態にしておく。あるいは、障害対処操作制御部31は、発生している障害情報の一覧画面を対処作業中断操作に伴い閉じてもよい。この場合、ステップS1702以降の動作が可能となるように、その一覧画面の再表示要求が入力された場合には、再度その一覧画面を入出力装置1に表示させればよい。対処作業中断操作が行われた後に表示される障害情報の一覧画面を起点として、それまで作業を行っていた操作者(別の操作者でもよい。)が、障害対処作業を開始することができる
操作者は、関連情報の参照や対処コマンドの入力を経て、対処内容を、「適用(対処コマンド実行)」、「承認依頼」、「承認否決」、「障害解決」のいずれかから選択、決定し、対処作業を一旦閉じる。この過程で、障害対処操作制御部31は、図6におけるステップS1604〜S1612の動作を行う。障害対処操作制御部31は、「適用(対処コマンド実行)」、「承認依頼」、「承認否決」、または「障害解決」の実行が指示され、それらの対処内容を実行(ステップS1612)した場合、その旨を対処履歴情報記録管理部32に出力する。対処内容が決定され、その対処内容が実行されたことにより、ある操作者による作業は終了したことになり、再び同一の操作者(あるいは他の操作者)によって作業が開始されたり、あるいはそのまま対処作業が完了したりすることになる。対処履歴情報記録管理部32は、操作者の操作を操作ログに順次記録していくときに、その操作者による作業が終了したことになるのか否かを判定する(ステップS1709)。対処履歴情報記録管理部32は、「適用(対処コマンド実行)」、「承認依頼」、「承認否決」、または「障害解決」を実行した旨の情報を障害対処操作制御部31から受け取った場合、操作者による作業が終了したと判定する(ステップS1709におけるYes)。また、他の操作が行われた情報を受け取った場合には、ステップS1706に移行し、その操作に応じて操作ログへの追加記録を行う。
「適用」、「承認依頼」、「承認否決」、または「障害解決」が実行され、操作者による作業が終了した場合(ステップS1709におけるYes)、対処履歴情報記録管理部32は、操作対処ログにおいて、対処内容、対処コマンド、コメントを記録する。対処内容が、「適用(対処コマンド実行)」の場合は、システム状態監視部2が監視するコマンド適用の成否を障害対処操作制御部31から受け、「結果」として、あわせて操作対処ログに記録する。更に、対処内容が「解決確認」の場合は、対処履歴情報記録管理部32は、解決日時を障害履歴に記録する(S1710)。また、対処内容が「解決確認」の場合、対処履歴情報記録管理部32は、操作対処ログにおける「結果」として「終了」を記録する(図4参照。)。
実行された障害対処の内容が、「解決確認」以外の場合は、障害はまだ解決したことにはならない。そのため、再度、同一あるいは別の操作者による対処作業の引継ぎが必要となる。そして、対処作業の引き継ぎが行われ、再度、ステップS1702以降の処理を行う。この場合、先の操作者による操作時において既に障害対処ログは作成されている。従って、対処履歴情報記録管理部32は、ステップS1703において、障害対処ログは存在すると判定する。よって、ステップS1705に移行し、対処履歴情報記録管理部32は、操作者名、操作日時等を、対処ログIDに対応づけて記録する。また、対処履歴情報記録管理部32、新たに操作ログIDを割り当て、対処ログIDと対応付けて障害対処ログに記録する。また、対処履歴情報記録管理部32、新規に割り当てた操作ログIDに対応する操作ログを新たに作成する。そして、ステップS1706以降の処理を行う。
次に障害対処操作制御部31が生成する障害対処業務のための画面例を図示し、障害対処の作業例について詳細に説明する。図8は、現在発生している障害を一覧表示する画面の例を示す。障害対処操作制御部31は、ステップ1602において、図8に例示する障害の一覧画面を入出力装置1に表示させる。障害対処の業務に就く操作者(opeBとする。)は、図8に例示する一覧画面上のリスト181を参照することによって、serverA上に「未知のエラー」が発生し、未だ対処されていないことを認識することができる。この操作者によって、リスト182のフォーカス182が操作(例えば、マウスクリック)されると、障害対処操作制御部31は、指定された障害の情報を表示するための画面(図9に例示するウィンドウ191)を入出力装置1に表示させる。図8に示すリスト181および図9に示すウィンド191は、発生している障害の情報を表示する画面(発生している障害の情報を操作者に通知するための障害通知画面)であり、ステップS1602で表示される。
図9は、情報参照用ウィンドウの表示例を示す説明図である。障害通知画面の一態様である障害通知ウィンドウ191は、既に述べたように、ステップS1602で表示される。障害通知ウィンドウ191は、選択した障害の分類や、発生箇所、発生日時を表示すると共に、対処状況をリスト192において詳細に表示することが可能である。ただし、障害通知ウィンドウ191を表示した時点では、未対処の状態であるため、図9では、障害対処操作制御部31がリスト192に何も表示させていない場合を示している。図9に例示する障害通知ウィンドウ191において、発生箇所を示す“serverA ”は、ボタン193となっている。ボタン193に対する押下(クリック)操作が行われると、障害対処操作制御部31は、“serverA ”に関する情報を示す他の情報参照用ウィンドウ194を入出力装置1に表示させる(ステップS1603)。さらに、“serverA ”の情報参照用ウィンドウ194に記載されているCPU名称やOS名称、アプリケーション名称、そのサーバで提供されているサービス名称等もボタン195となっている。ボタン195に対するクリック操作が行われると、障害対処操作制御部31は、各ボタンに応じた別の情報参照用ウィンドウを表示させる。
また、操作者opeBが図9に示す障害通知ウィンドウ191の「対処」ボタンをクリックしたとする。この操作に応じて、障害対処操作制御部31は、図10に例示する障害対処画面(障害対処ウィンドウ111)を入出力装置1に表示させる(図6に示すステップS1604)。障害対処ウィンドウ111は、対処を行う障害に関する情報として、障害分類や発生箇所、発生日時を表示する。また、さらに、障害対処ウィンドウ111は、対処状況を示すリスト112と、発生した障害を解決するために実行する対処コマンドを入力するためのテキストエリア113と、障害対処作業の過程で操作者がコメントを入力するためのテキストエリア114を備える。ただし、障害対処を開始した時点では、図10に示すリスト112、テキストエリア113,114には何も表示されない。障害対処ウィンドウ111は、対処内容を決定するためのボタン(「適用」、「承認依頼」、「承認否決」、「解決確認」の各ボタン)を備えるが、障害対処を開始した時点では対処コマンドも入力されていないため、全て押下(クリック)できない状態となっている。なお、本例では、押下できない状態のボタンを破線で表示している。
また、図9に示す障害通知ウインドウ191等と同様、障害対処ウインドウ111でも、発生箇所を示す“serverA ”は、ボタン115となっていて、押下されると、障害対処操作制御部31は、“serverA ”に関する情報を示す情報参照用ウィンドウを入出力装置1に表示させる(図6に示すステップS1605)。なお、障害対処作業を開始した時点から、ボタン193やボタン195等(図9参照)を押下して、何のウインドウを呼び出したかといった情報は、対処履歴情報記録管理部32により操作ログとして記録される。操作者opeBは、関連情報の情報参照用ウインドウを呼び出しながら、発生した障害への対処検討に有効な情報を探索する。その結果、現在発生している障害の症状に類似する事例が、別のサーバ上で発生していた情報を発見し、発生した障害の分類を「httpd無応答」と判断したとする。さらに、操作者opeBは、類似事例で過去に適用された対処コマンドを参照したとする。その場合、入出力装置1は、障害対処ウィンドウ111のテキストエリア113にその対処コマンドを入力される。また、入出力装置1は、障害対処ウィンドウ111のテキストエリア114に操作者opeBのコメントを入力されてもよい。テキストエリア113に対処コマンドが入力されたという操作情報を受け取ると、障害対処操作制御部31は、「適用」ボタンや「承認依頼」ボタンを押下可能な状態に変化させる。そして、操作者opeBは、別の操作者opeAの承認を得るために「承認依頼」ボタンを押下したとする。
この操作情報を受け取った障害対処操作制御部31は、本当に承認依頼を実行するかを確認するための確認画面を入出力装置1に表示させる(図6に示すステップS1608)。図11は、承認依頼を実行するかを確認するための確認画面の例を示す。図11に示す確認画面(確認ウィンドウ121)は、発生した障害の分類や発生箇所、発生日時を表示する。また、確認ウィンドウ121は、対処内容(本例では「承認依頼」)の実行を確認するメッセージ122と、操作者opeBが入力した対処コマンドの内容123と、操作者opeBが入力したコメント124も表示する。操作者opeBによって「承認依頼」ボタンの押下操作が行われることで、一旦、障害対処作業が閉じられる。また、この時点で、対処履歴情報記録確認部32は、図12に例示する障害対処ログ“L1000 ”の1行目の情報を記録する。2行目および3行の情報はこの時点では記録されない。また、この時点で、障害対処操作制御部31は、システム上の障害情報を一覧するリスト181(図8参照)において、障害の対処状況は「承認待ち」に変更する(図6に示すS1612)。すなわち、図8では、対処状況として「−−」が表示され、具体的な対処状況が示されていなかったが、障害対処操作制御部31は、「−−」という表示を「承認待ち」に変更する
操作者opeAは、対処状況として「承認待ち」が表示されたリスト181を参照し、障害の対処作業が承認待ちの状態にあることを認め、対処作業に入る。障害対処操作制御部31は、操作者opeAの操作に応じて、障害対処画面(障害対処ウィンドウ111)を入出力装置1に表示させる。障害対処操作制御部31は、このときに表示する障害対処ウィンドウ111において、リスト112に、これまでに行われた対処状況を表示する。操作者opeAは、リスト112を見ることによって、これまでに行われた対処内容を確認することができる。例えば、操作者opeBが承認依頼を行ったこと等を確認することができる。また、テキストエリア113,114には、操作者opeBが入力した対処コマンドやコメントを表示する。したがって、操作者opeAは、障害対処ウインドウ111を見ることによって、前の操作者opeBが入力した対処コマンドやコメントを確認することができる。操作者opeAは、操作者opeB同様、関連情報を参照し、どのような対処コマンドが適切かを判断する。その結果、操作者opeBが入力した対処コマンドが不適切であったと操作者opeAが判断したとする。この場合、操作者opeAは、テキストエリア113内に記述された対処コマンドを修正し、また、テキストエリア114内にコメントを追記する。このときの障害対処ウィンドウ111の例を図13に示す。図13に示す例では、リスト112に、操作者opeBが承認依頼を行ったことが示されている。また、対処コマンド入力のためのテキストエリア113には、操作者opeAにより修正された対処コマンドが入力されている。コメント入力のためのテキストエリア114では、操作者opeAが追記したコメントが操作者opeBのコメントの後に入力されている。操作者opeAが「適用(対処コマンドの実行)」ボタンを押下すると、障害対処操作制御部31は、本当に「適用」を行うか否かを確認する確認画面を入出力装置1に表示する。その画面で、実行する旨の指示が入力されると、障害対処操作制御部31は、入力された対処コマンドを管理対処システムに対して実行し、障害対処作業が閉じられる。
操作者opeAは再度、リスト181を参照し、対処コマンドの実行が成功したことを確認し、再度対処作業に入る。障害対処操作制御部31は、操作者opeAの操作に応じて、障害対処ウィンドウや、関連情報を表示する情報参照用ウィンドウを入出力装置1に表示させる。操作者opeAは、これらのウィンドウ内に示される情報を参照することで、障害が解決したことを確認する。障害対処ウインドウにおいてコメントを入力された後に「解決確認」ボタンが押下されると、障害対処操作制御部31は、障害が解決したと見なしてよいかを確認するための確認画面を表示する。その確認画面で、障害が解決したと見なしてよい旨の指示が入力されると、障害対処操作制御部31は、発生した障害が解決したと見なし、その障害の対処作業が完了する。
以上の対処作業完了時の障害対処ログの例を図12に示す。以上の対処作業完了時までに、図12に示す3行目の情報までが障害対処ログとして記録される。図12に示すように、対処にあたった人間や日時、対処内容、コメント修正の過程が記録される。なお、障害分析時に、対応する操作ログを参照すれば、障害対処方法や解決確認の際のどのような情報(ウインドウ)を参照したかも把握可能となる。
なお、既に説明したように、システム状態監視部2は、一度検知した障害への対処状況(誰が対処しているのか、対処の成否等)についても監視し、障害対処操作制御部31に出力する。システム状態監視部2は、入力された対処コマンドを障害対処操作制御部31が管理対処システムに対して実行したときに、管理対処システムの状態がどのように変化したかによって、対処コマンド実行の成否を確認する。そして、システム状態監視部2は、その確認結果を、障害対処操作制御部31に出力する。この確認結果(対処コマンド実行の成否)を受けた障害対処操作制御部31は、図8に示すリスト181において、対処コマンドの実行が成功したか否かを表示する。また、障害対処操作制御部31は、対処コマンドの実行が成功したか否かの情報を、対処履歴情報記録管理部32を介して、図4に例示する障害対処ログに記録する。図8に示すリスト181において、対処コマンドの実行が成功したか否かが「対処状況」として表示されるので、上記の例でも、操作者opeAはリスト181を参照し、対処コマンドの実行が成功したことを確認できる。
図8に示すように、症状としてEventB1 が発生した場合、その症状は、「未知のエラー(未知の障害)」として分類されていた。障害分析操作制御部41は、障害分析を行う操作者(ここでは、管理者adminAとする。)による操作に従い、障害分類情報内の「未知の障害」という記述およびその記述に対応するコメントを、既知の障害分類に変更する。このとき、管理者adminAは、障害対処作業時に作成された障害履歴、障害対処ログ、操作ログ等を参照して、「未知の障害」をどの障害分類に変更すればよいかを判断すればよい。本例では、管理者adminAは「未知の障害」を「 httpd無応答」に変更すると判断する。そして、障害分析操作制御部41は、「未知の障害」を「 httpd無応答」に変更する操作が入出力装置1で行われると、その操作に応じて、障害情報保存部5に記憶されている障害分類情報における「未知の障害」を「 httpd無応答」に書き換える。
また、障害分析操作制御部41は、分析を行う操作者の操作に応じて、過去に発生した各障害の一覧情報を表示する画面、および障害対処時に行われた個々の操作に関するログを表示する画面を含む一連の画面を生成し、入出力装置1に表示させる。障害分析操作制御部41は、過去に発生した各障害の一覧情報を表示する画面として、例えば、図14に例示する画面を表示する。障害分析操作制御部41は、図14に例示する画面上に表示された障害を選択する操作が入出力装置1で行われると、その障害の対処履歴を表示する画面を入出力装置1に表示させる。この画面の例を図15(a)に示す。障害分析操作制御部41は、図15(a)に例示する画面上で、障害分類、障害が発生した箇所、発生日時、解決日時、対処履歴等を表示する。また、図15(a)に示す例では、その障害発生時の対処で用いた対処コマンドや、障害対処を行った操作者のコメントも表示している。図15(a)に示す対処履歴では、対処が完了するまでに実行された対処内容(「適用」、「承認依頼」、「障害解決」)が示されている。図15(a)では示していないが、対処履歴において「承認否決」が示されていてもよい。図15(a)に示す対処履歴では、操作日時、操作者、対処内容を示しているが、これらの情報は、障害対処ログの記録に基づいて表示すればよい。対処コマンドやコメントについても同様に障害対処ログの記録に基づいて表示すればよい。障害が発生した箇所、発生日時、解決日時に関しては、障害履歴の記録に基づいて表示すればよい。
障害分析操作制御部41は、図15(a)に例示する画面の対処履歴表示欄に表示された対処内容が選択されると、その対処内容を実行するまでの間に行われた各操作を示す操作ログを表示する画面(図15(b)参照)を表示する。図15(b)に例示する画面では、操作ログの他に、障害分類( httpd無応答)、操作者(opeA)、対処内容の種類(「適用」)、実行した対処コマンド等を表示している。
また、図15に示す例では、画面上に表示された「 httpd無応答」、「serverA 」、「メールサーバ1」等の表示はボタンになっている。そしれ、これらのボタンを押下する操作が行われると、障害分析操作制御部41は、障害に関連する情報を表示する画面を表示する。例えば、「 httpd無応答」という障害に関する情報を表示する画面、「serverA 」という障害発生箇所の情報を表示する画面、「メールサーバ1」という障害の影響を受けたサービスの情報を表示する画面等を表示する。これらの画面は、図6に示すステップS1603,S1604で表示される画面(図9に例示する情報参照用ウィンドウ194)と共通であってもよい。
なお、障害分析操作制御部41は、操作者の権限の有無を認証等によって確認し、所定の権限を有する分析操作者に対してのみ操作ログを表示してもよい。
なお、図15に示す画面は例示であり、障害分析操作制御部41は、図14で選択された障害に応じた画面を表示すればよい。
以上のような障害分析操作制御部41の動作により、分析作業に就く管理者adminAは、障害履歴や障害対処時に生成された障害履歴、障害対処ログ、操作ログの記録内容を参照することができ、分析を行うことができる。また、分析の一態様として、未知の障害を既知の障害に変更することができる。さらに、障害の分類、上手く対処できた対処事例、もしくは失敗した対処事例等を分析材料とし、障害原因追求や再発防止、推奨する対処方法の検討等といった、障害分析業務の目的を効率的に遂行することができる。また、障害分析操作制御部41は、操作者の操作に応じて、障害の発生頻度や分布、要した復旧時間、障害によって被った被害等を表示する画面を、障害情報保存部5が記憶する各種情報に基づいて表示してもよい。そして、分析を行う操作者、これらの情報を分析材料として用いてもよい。
管理者adminAによって、障害分類情報における「未知の障害」が「 httpd無応答」に変更された後、再度、同様の障害が発生したとする。このときには、障害対処操作制御部31は、「未知の障害」ではなく、既知の障害である「 httpd無応答」が発生したことを通知する。例えば、ステップS1604で表示される障害対処画面では、図16(a)に示すように、障害対処ウィンドウ111内に「 httpd無応答」という情報が示される。図10に例示する障害対処ウィンドウ111を表示する段階では障害の種類を分類できていなかったので「未知のエラー」と表示されている(図10参照)。
また、障害対処操作制御部31は、「 httpd無応答」という表示をボタン117として表示する。このボタン117の押下操作が行われた場合、障害対処操作制御部31は、図16(b)に例示する情報参照用ウィンドウ196を表示する(図6に示すステップS1605)。分析時に、既知の障害の症状例を入力して障害情報保存部5に記憶されることが可能であり、そのような情報や各種記録(各種履歴やログ等)に基づいて、障害対処操作制御部31は、情報参照用ウィンドウ196内に症状例や障害履歴を表示する。この結果、以前と同様の障害が発生した場合、操作者は、情報参照用ウィンドウ196を見ることによって、効率的かつ安全に対処作業を進めることが可能となる。
本実施の形態によれば、障害対処作業において、操作者に対処開始から解決確認までの操作を、情報参照用ウィンドウを作業者に参照させつつ、障害対処に用いられる一連の画面に沿って行わせることが可能となる。その結果、柔軟な情報参照の手段を提供した上で、的確に操作者を誘導できる。障害対処作業中に、操作ログを参照可能としてまうと、障害対処という目的意識を希薄化させて、対処を行っているのか分析を行っているのかが不明瞭になってしまう。しかし、上記のように、分析対処時には障害対処に用いられる一連の画面に沿って操作を行わせることが可能となるので、対処を行っているのか分析を行っているのかが不明瞭になることはない。
同様に、分析対処作業では、情報参照用ウィンドウを作業者に参照させつつ、障害分析に用いられる一連の画面に沿って作業を行わせることができる。例えば、分析作業中に、図13に例示するような対処内容を選択させるための画面は表示されないので、分析を行っているのか対処を行っているのかが不明瞭になってしまうことがない。
また、本実施の形態によれば、対処作業を中断した場合(図7に示すステップS1707におけるYesの場合)を除く対処内容や操作ログを確実に記録する。そして、障害分析操作制御部41は、分析を行う操作者に、障害分析に用いられる一連の画面の1つとして、操作ログを表示する画面を提供する。よって、対処作業を行った操作者の操作を分析者に提示して、分析を行わせることができる。また、対処作業を中断した場合、対処履歴情報記録管理部32は、作成中の操作ログおよびその操作ログに対応する障害対処ログを削除するので、分析作業者に見せる必要のない無駄な操作ログやその操作ログに対応する障害対処ログを排除することができる。
なお、本実施の形態において、図17に示すように、障害対処操作制御部31に対応する入出力装置1と、障害分析操作制御部41に対応する入出力装置11とを別々に備える構成としてもよい。図17に示す入出力装置1は、対処を行う操作者によって使用され、図17に示す入出力装置11は、分析を行う操作者によって使用される。このように対処操作のための入出力装置1と、分析操作のための入出力装置11とを別々に設け、入出力装置の用途を対処と分析とで明確に区別することで、発生した障害の対処と分析の作業を並行して別の人間が進めることや、対処と分析とを遠距離で行うことが可能となる。
第1の実施の形態において、特許請求の範囲に記載の障害情報記憶手段は、障害情報保存部5によって実現される。障害対処支援手段は、障害対処操作制御部31および入出力装置1によって実現される。対処履歴情報記録管理手段は、対処履歴情報記録管理部32によって実現される。障害分析支援手段は、障害分析操作制御部41および入出力装置1(または入出力装置11)によって実現される。システム状態監視手段は、システム状態監視部2によって実現される。障害対処操作制御手段は、障害対処操作制御部31によって実現される。障害分析操作制御手段は、障害分析操作制御部41によって実現される。
実施の形態2.
図18は、本発明の第2の実施の形態を示すブロック図である。第1の実施の形態と同様の構成部については、図1と同一の符号を付し、説明を省略する。第2の実施の形態においてシステム運用管理支援装置は、第1の実施の形態に示す構成に加え、操作画面ルール保存部6を備える。また、本実施の形態では、障害対処プロセス制御部3は、障害対処操作画面生成部33を備える。
本実施の形態では、特に操作画面ルール保存部6と、障害対処操作画面生成部33とが重要な役割を果たす。操作画面ルール保存部6は、操作画面に表示する情報やボタン、画面遷移等を規定した操作画面ルールを記憶する。障害対処操作画面生成部33は、その操作画面ルールに従って各種画面を生成する。
操作画面ルール保存部6は、画面(ここでは、障害対処作業において用いられる画面とする。)の表示態様を規定する操作画面ルールを記憶する。操作画面ルールは、画面上に表示する情報、ボタン、画面遷移等を規定する。また、操作画面ルールは、画面に表示する色(例えば、背景色等)も規定する。
図19は、操作画面ルールの例を示す説明図である。図19に示すように、操作画面ルールは、基本の設定として、配色等を規定する。また、操作画面ルールには、各ウィンドウ毎に、各ウィンドウを識別するための操作ウィンドウIDや名称、ウインドウ上に表示する情報、ボタン等の規定が記載されている。ボタンに関する規定として、例えば、画面に表示される際のラベル名称、ボタンID、操作内容や操作可能な条件が記載されている。ボタンの操作内容としては、例えば、「別のウインドウを呼び出す。」、「操作ウインドウを別ウインドウへ移行させる。」、「指定ウインドウを閉じる。」等の操作がある。そして、移行するウインドウの規定を変更することにより、操作時における画面遷移が変更されることになる。
また、操作画面ルールでは、基本設定とは別に個別の設定として、対処すべきイベントを指定した操作画面ルールを記載してもよい。この場合、指定されたイベントが発生した場合の対処作業に限り、基本設定は異なる操作画面の態様を規定することになる。個別の設定は、例えば、個々の障害の症状毎に記載される。図19に示す例では、原則的に背景色を“#FFFFFF (白色)”とすることが基本設定タグにおいて記載されている。また、個別設定タグにおいて、症状“EventA” を対処するための操作画面は全て、背景色が“#999999 (灰色)”になるように設定されている。
障害対処操作画面生成部33は、障害対処操作制御部31が出力した情報と、操作画面ルール保存部6が記憶する操作画面ルールとに基づいて操作画面を生成し、障害対処操作制御部31に出力する。障害対処操作画面生成部33が操作画面を生成するときに、障害対処操作制御部31は、障害対処操作画面生成部33に対して、障害対処操作画面生成部33が参照すべき操作画面ルールを特定可能な情報を出力する。例えば、障害対処操作制御部31は、生成すべき画面(ウィンドウ)を指定する情報(具体的にはウィンドウID)および対処中の症状を出力する。障害対処操作画面生成部33は、障害対処操作制御部31が出力したこれらの情報に基づいて、操作画面ルール保存部6に記憶される操作画面ルール中から、指定されたウィンドウIDに対応する操作画面ルールの記載箇所や個別設定の記載箇所等を特定し、その箇所に記載されたルールを参照する。そして、障害対処操作画面生成部33は、そのルールに基づいて、配置する情報(表示すべきボタン等)や色等を決定し、画面(ウィンドウ)を生成する。また、その画面上で禁止すべき操作がルールにおいて指定されている場合、その操作が行えないように画面を生成する。
また、入出力装置1において操作者によって入力されたが、未だ障害情報保存部5に記録されていない情報を画面上に表示させる場合には、障害対処操作制御部31は、その情報を障害対処操作画面生成部33に出力してもよい。そして、障害対処操作画面生成部33は、その情報を表示する画面を生成してもよい。例えば、入出力装置1に入力されたコメントや対処コマンドは、入力時に直ちに障害対処ログ(図4参照。)に記録されるわけではなく、対処内容(「適用」等)が実行され、ステップS1710(図7参照。)に移行したときに障害対処ログに記録される。対処内容(「適用」等)が実行される前に、入力されたコメントや対処コマンドの情報を表示する画面を新たに生成する場合には、障害対処操作制御部31は、そのコメントや対処コマンドの情報を障害対処操作画面生成部33に出力し、障害対処操作画面生成部33がその情報を含む画面を生成してもよい。
障害対処操作制御部31は、障害対処操作画面生成部33から生成された画面を受け取ると、その画面を入出力装置1に表示させる。
また、本実施の形態では、障害分析操作制御部41は、分析時に用いられる一連の画面として、操作画面ルール保存部6が記憶する操作画面ルールの編集画面を含む一連の画面を出力する。すなわち、障害分析操作制御部41は、過去に発生した各障害の一覧情報を表示する画面、障害対処時に行われた個々の操作に関するログを表示する画面、および操作画面ルールの編集画面を含む一連の画面を入出力装置1に表示させる。
障害分析操作制御部41は、操作画面ルールの編集画面において操作画面ルールの編集が行われると、操作画面ルール保存部6が記憶する操作画面ルールを編集後の操作画面ルールに更新する。
操作画面ルールの編集画面は、例えば、一般的なテキストエディタと同様の編集画面であってもよい。障害分析操作制御部41は、操作画面ルール保存部6が記憶する操作画面ルールを表示し、分析を行う操作者の操作に応じて操作画面ルールを変更してもよい。ただし、分析を行う操作者は、発生した障害の情報を表示する画面、および障害対処の内容の選択を操作者に促す画面を含む一連の画面が障害対処操作制御部31によって出力されるという原則を崩さないように編集を行わなければならない。例えば、図10に例示するような障害対処画面が表示されなくなるように操作画面ルールを編集してはならない。また、例えば、障害対処時に用いられる一連の画面の中に操作ログを表示する画面が含まれるようにするといった操作画面ルールの編集も行ってはならない。このような編集を認めると、第1の実施の形態で説明した「対処を行っているのか分析を行っているのかが不明瞭になることはない。」という効果が得られなくなってしまう。
障害分析操作制御部41が操作画面ルールの編集画面として一般的なテキストエディタと同様の編集画面を提供する場合、上記のような行ってはならない操作画面ルールの編集が行われてしまうおそれがある。そのため、障害分析操作制御部41は、編集内容に制約を設けた操作画面ルールの編集画面を入出力装置1に表示させることが好ましい。編集内容に制約を設けた操作画面ルールの編集画面については後述する。
障害対処操作画面生成部33は、例えば、システム運用管理支援プログラムに従って動作するCPUによって実現される。そのシステム運用管理支援プログラムは、例えば障害対策プロセス制御部3が備える記憶装置(図示せず。)に記憶させておけばよい。
次に、操作画面ルールを変更した場合に、障害対処操作画面生成部33が生成する画面がどのように変化するのかについて説明する。ここでは、図3に示す障害履歴が障害情報保存部6に記憶されているものとする。そして、図3に示す履歴ID“H1000 ”に対応する対処ログID“L1000 ”が割り当てられた障害対処ログとして図12に示す障害対処ログが障害情報保存部6に記憶されているものとする。さらに、図12に示す操作ログID“O1000-01”,“O1000-02”,“O1000-03”が割り当てられた操作ログとして、図20に示す操作ログが障害情報保存部6に記憶されているものとする。これらの記録は、症状として“EventB”が発生したときに記録されたものであるとする。
障害分析操作制御部41は、図3に示す障害履歴および図12に示す障害対処ログの内容を示す画面や、図20に示す操作ログの内容を示す画面を、障害分析業務に就く操作者(adminAとする。)の操作に応じて入出力装置1に表示する。操作者adminAは、図3に示す障害履歴の内容を参照して、障害が発生していたことを確認し、また、図12に示す障害対処ログの内容を参照して、誰がどのような対処内容を実行して障害解決に至ったかを確認する。図12に示す障害対処ログの内容から、opeAが対処コマンドの承認依頼を行い、opeBがその対処コマンド(コマンドパス)を修正して対処コマンドを実行し、さらにopeBが障害が解決したことを確認したという経過がわかる。
また、操作者adminAは、図20に示す操作ログの内容を参照して、各操作者opeA,opeBによる個々の操作を確認する。図20に示す操作ログの内容から、対処時にwin0005 をwin0003 経由で呼び出してwin0005 を開いたままの状態で(すなわち、win0005 を参照しながら)対処コマンドを入力していることが読みとれる。また、win0002 やwin0003 は表示されてもすぐに閉じられているので(図20に示す“O1000-01”参照。)、win0002 やwin0003 は障害対処にあまり有益でない情報を表示する画面であったことが読みとれる。
opeAやopeBがwin0003 を経由してwin0005 を表示させている状況を図21に示す。障害対処画面111が表示されたのち、操作者(opeA,opeB)は、ボタン“serverA ”をクリックした。この操作に応じて障害対処操作制御部31は、図21に示す情報参照用ウィンドウ131を入出力装置1に表示する。この情報参照用ウィンドウ131を識別するIDは、操作ログに記録されているwin0003 である。操作者はウィンドウ131内のボタン“メールサーバ1”をクリックした。この操作に応じて障害対処操作制御部31は、図21に示す情報参照用ウィンドウ132を入出力装置1に表示する。この情報参照用ウィンドウ132を識別するIDは、操作ログに記録されているwin0005 である。このような操作者の操作により、図20に示す操作ログが記録される。なお、情報参照用ウィンドウ132が示す内容は、システム状態監視部2が収集した情報である。
操作者adminAは、図20に示す操作ログに基づいて、win0005 をwin0003 経由で呼び出してwin0005 を開いたままの状態で対処コマンドを入力していること、win0003 は障害対処にあまり有益でない情報を表示する画面であったこと等を確認する。この結果、操作者adminAは、win0003 を経由せずに、情報参照用ウィンドウ131から直接win0005 が表示する情報を表示できるようにすることが対処作業の迅速化に有効であると判断できる。
図22は、分析を行う操作者によって編集された操作画面ルールの例を示す説明図である。図22における記載141は、上記のような操作者adminAの判断に基づいて追加された記載である。記載141は、障害対処画面における「発生箇所」という表示の横に新たに「サービス」に関する情報を表示するというルールを表している。さらに、記載141は、この「サービス」に関する情報を、情報参照用ウィンドウ(IDはwin0008 )を呼び出すためのボタンとして表示するというルールを表している。なお、ここでは障害対処画面から呼び出される新たな画面を規定しているのでwin0008 という新たなIDを割り当てている。また、本例では記号「,(図22に示す5行目の記述参照。)」は、改行せずに要素を配置することを示す。従って、図21に示す障害対処画面111の“serverA ”ボタンの横に、改行されることなく新しいボタンが表示されることになる。
また、操作者adminAは、図12に示す障害対処ログの内容に基づいて、操作者opeBが入力した対処コマンド“SHELL:/sbin/service2 httpd restart”を実行した場合に、障害が正常に解決できたことを確認する。この結果、操作者adminAは、その障害と同一の障害(症状)に対する推奨対処コマンドとして、その対処コマンド(“SHELL:/sbin/service2 httpd restart”)を障害対処画面から参照できるようにし、その推奨対処コマンドに関しては承認を不要とすることが対処作業の迅速化に有効であると判断できる。
図22に示す記載142および記載143は、このような操作者adminAの判断に基づいて編集された記載である。記載142は、推奨対処コマンドを表示する画面(IDはwin0009 であるものとする。)を呼び出すためのボタンを表示するというルールを表している。また、記載143は、障害対処画面111における「承認依頼」ボタンを押下できる条件として追加された記載である。記載143に示す例では、「推奨対処コマンド以外の対処コマンドが入力されている場合」に、「承認依頼」ボタンを押下できることを示している。推奨対処コマンドが入力されている場合には承認を不要としているので、推奨対処コマンドが入力されているにもかかわらず承認依頼を行って対処終了までに時間がかかってしまうことを防止している。
また、操作者adminAは、図12に示す障害対処ログの内容に基づいて、操作者opeAに入力された対処コマンド“SHELL:/sbin/service httpd restart ”が典型的な操作ミス、判断ミスの事例であると分析することができる。そして、同一の障害(症状)に対して“SHELL:/sbin/service httpd restart ”が入力された場合には、そのコマンドの入力が禁則事項である旨を表示し、禁止する根拠として前回その障害が発生したときに記録された障害履歴を表示することが好ましいと判断できる。
図22に示す記載144は、このような操作者adminAの判断に基づいて編集された記載である。記載144は、所定のテキストエリア(本例では“textarea0001”)に、予め定めた入力データ(本例では対処コマンドである“SHELL:/sbin/service httpd restart ”)が入力され、ボタン“button0001”またはボタン“button0001-2”が押下されたときに確認ダイアログ画面(例えば、警告画面)を表示することを規定している。なお、ボタン“button0001”、ボタン“button0001-2”は、それぞれ「適用」ボタン、「承認依頼」ボタンであるものとする。また、確認ダイアログ画面には、IDが“H1000 ”である障害履歴の内容を関連情報として表示することを規定している。
図22に示すように操作画面ルールが書き換えられた場合、障害対処操作画面生成部33は、書き換えられた後の操作画面ルールに基づいて画面を作成し、障害対処操作制御部31に出力する。そして、障害対処操作制御部31は、その画面を入出力装置1に表示させる。
後日、先の障害と同様の症状EventBが発生し、操作者opeCが障害対処作業についたとする。そして、opeCの操作に応じて障害対処画面を表示させるとする。この場合、障害対処操作制御部31は、表示させようとする障害対処画面のウィンドウIDおよび症状の情報(ここではEventBが発生したという情報)を障害対処操作画面生成部33に出力する。障害対処操作画面生成部33は、障害対処操作制御部31が出力した情報に基づいて、操作画面ルール保存部6に記憶された操作画面ルールのうち、EventB発生時に障害対処画面を生成するときの規定を定めたルールを特定する。そして、障害対処操作画面生成部33は、特定した操作画面ルールに従って画面(ここでは障害対処画面)を作成し、障害対処操作制御部31に出力する。障害対処操作制御部31は、その画面を入出力装置1に表示させる。
このときに表示される画面(障害対処画面)およびその画面から呼び出される他の画の例を図23に示す。編集後の操作画面ルール(図22参照。)に基づいて作成された障害対処画面111aは、図21に示す障害対処画面111と比較すると、新たに、サービス名称を示すボタン151を備えている。そして、ボタン151を操作することにより、情報参照用ウィンドウ153を呼び出せる構成となっている。なお、図23に示す情報参照用ウィンドウ153は、図21に示す情報参照用ウィンドウ132と同内容の情報を表示するウィンドウである。従って、図21に示す情報参照用ウィンドウ131を経由することなく、図23に示す情報参照用ウィンドウ153を直接呼び出すことが可能となる。なお、図23に示すボタン151は、図22に示す記載141に基づいて追加されたものである。
ボタン151を押下する操作が行われると、障害対処操作制御部31は、表示すべき情報参照用ウィンドウ153のウィンドウIDを障害対処操作画面生成部33に出力する。障害対処操作画面生成部33は、そのウィンドウIDに対応する操作画面ルールを特定し、その操作画面ルールに基づいて、情報参照用ウィンドウ153を生成する。なお、図23に示す情報参照用ウィンドウ153が示す内容は、システム状態監視部2が収集した情報である。このように、障害対処操作画面生成部33は、システム状態監視部2が収集した情報を含む画面を生成してもよい。障害対処操作画面生成部33は、生成した画面を障害対処操作制御部31に出力し、障害対処操作制御部31は、その画面(ここでは情報参照用ウィンドウ153)を入出力装置1に表示させる。
また、編集後の操作画面ルールに基づいて作成された障害対処画面111aは、図21に示す障害対処画面111と比較すると、新たに、障害(症状EventB1 )に対する推奨対処コマンドを呼び出すためのボタン152を備えている。そして、ボタン152を操作することにより、推奨対処コマンドを表示するウィンドウ154を呼び出せる構成となっている。従って、操作者opeCは、症状EventB1 に応じた推奨対処コマンドをすぐに呼び出すことが可能となる。なお、図23に示すボタン152は、図22に示す記載142に基づいて追加されたものである。
ボタン152を押下する操作が行われると、障害対処操作制御部31は、表示すべきウィンドウ154のウィンドウIDを障害対処操作画面生成部33に出力する。障害対処操作画面生成部33は、そのウィンドウIDに対応する操作画面ルールを特定し、その操作画面ルールに基づいて、ウィンドウ154を生成する。障害対処操作画面生成部33は、生成した画面を障害対処操作制御部31に出力し、障害対処操作制御部31は、その画面(ここではウィンドウ154)を入出力装置1に表示させる。
ウィンドウ154は、対処コマンド表示エリア155を有し、そのエリア155に推奨対処コマンドを表示している。操作者opeCは、この推奨対処コマンドを参照することにより、障害対処画面111aにおけるテキストエリア113に推奨対処コマンドを入力することができる。対処コマンドを入力するためのテキストエリア113に推奨対処コマンドが入力された状態の例を図24に示す。障害対処操作画面生成部33は、図22に示す記載143として規定された操作画面ルールも参照して、画面を生成している。図24に示す例では、テキストエリア113に推奨対処コマンドが入力されているので、「承認依頼」ボタンは選択不能(操作不能)な状態になっている。操作者opeCは、直接「適用」を選択し、推奨対処コマンドを実行する。このように、推奨対処コマンド入力時には「承認依頼」ボタンは選択不能な状態になるので、推奨対処コマンドが入力されているにもかかわらず承認依頼を行ってしまい対処終了までに時間がかかるということがなくなる。
図25は、警告ウィンドウを表示する状況を示す説明図である。もしも、操作者opeCが推奨対処コマンドを参照せずに、図12に示す障害対処ログに記録された操作者opeBと同様の判断を下した場合や、単純なタイプミスによって、障害対処画面111aにおいて対処コマンド“SHELL:/sbin/service httpd restart ”テキストエリア113に入力したとする。そして、操作者opeCが「適用」を選択したとする。すると、図22に示す記載144の規定に基づいて、「適用」を確認するウィンドウに移行する前に、操作者opeCに注意を促す警告画面(警告ウィンドウ)171が表示される。障害対処操作画面生成部33は、図22に示す記載144として規定された操作画面ルールも参照して、障害対処画面111aを生成している。従って、障害対処操作制御部31は、テキストエリア113に“SHELL:/sbin/service httpd restart ”が入力された状態で、「適用」ボタンが押下されると、警告ウィンドウ171を入出力装置1に表示させる。また、記載144では、IDが“H1000 ”である障害履歴の内容を関連情報として表示することを規定していたので、障害対処操作制御部31は、障害情報保存部5から障害履歴“H1000 ”を読み込んで、その障害履歴の内容を障害履歴表示欄172に表示する。この結果、システム運用管理支援システムは、操作者opeCが入力した対処コマンドが禁則事項であることを操作者opeCに示すことができ、また、禁則事項の根拠となる過去の障害事例(障害履歴)を操作者opeCに知らせることができる。
以上のように、本実施の形態によれば、障害分析において、障害対処時に素早く参照できるようにすべき情報や推奨する対処方法、あるいは逆に禁則事項とすべき事項が明らかになった場合、素早く参照すべき情報を表示するウィンドウを、他のウィンドウを介さずに表示させたり、推奨する対処方法を表示するウィンドウを表示させたり、禁則事項に該当する操作が行われたときに警告ウィンドウを表示させたりするように、操作画面ルールを変更することができる。その結果、分析作業で明らかになった事項を障害対処の操作画面に反映させ、類似する障害が発生した場合に、障害対処作業をより効率的かつ安全に遂行するように、的確に操作者を誘導でき、障害対処の効率化を実現することができる。そして、以前に成功した対処方法や以前の対処社等の有益な情報を操作者に迅速に参照させることができる。
また、既に説明したように、障害分析操作制御部41が、一般的なテキストエディタと同様の編集画面を入出力装置1に表示させ、その編集画面上で操作者に操作画面ルールの編集を行わせてもよい。ただし、この場合、操作者は、発生した障害の情報を表示する画面、および障害対処の内容の選択を操作者に促す画面を含む一連の画面が障害対処操作制御部31によって出力されるという原則を崩さないように編集しなければならない。一般的なテキストエディタと同様の編集画面を入出力装置1に表示させた場合には、自由な編集が可能となってしまうため、上記の原則が崩されてしまう可能性がある。そのため、編集内容に制約を設けた操作画面ルールの編集画面を入出力装置1に表示させてもよい。以下、この操作画面ルールの編集画面の例について説明する。
図26は、編集内容に制約を設けた編集画面の例を示す説明図である。障害分析操作制御部41は、分析時に用いられる一連の画面のうちの1つとして、例えば、図26に示す編集画面を入出力装置1に表示させる。
図26に例示する編集画面において、「基本/個別」選択欄301は、操作画面ルールの基本設定に関する部分を編集するのか、操作画面ルールの個別設定に関する部分を編集するのかの選択を操作者に促す選択欄である。個別設定とは、障害の症状毎の設定(ある症状の場合は、画面の背景色を特定の色にする等の設定)を意味する。基本設定は、症状に依存せずに定められる設定である。基本設定が選択された場合、障害分析操作制御部41は、障害分類情報を表示して、症状の選択を操作者に促し、どの症状に対応する個別設定を編集するのかを決定する。
また、図26に例示する操作ウィンドウID指定欄302は、操作画面ルールの編集により表示態様を変更させようとする画面のウィンドウIDの指定を操作者に促す欄である。ウィンドウ名称入力欄303は、そのウィンドウの名称の入力を操作者に促すための入力欄である。
ウィンドウ種別選択欄304は、表示態様を変更させようとするウィンドウの種別を、「通知」、「対処」、「確認」、「実行」、「情報参照」の中から操作者に選択させるための選択欄である。ここで、「通知」とは、障害の発生を操作者に通知するために用いらられる画面の種別を意味する。具体的には、図6に示すステップS1602で表示される画面(図8に例示する画面や図9に例示する画面191等)の種別を意味する。「対処」とは、障害対処画面(ステップS1604で表示される画面。図10等参照。)の種別を意味する。「確認」とは、選択された対処内容(「適用」、「承認依頼」、「承認否決」、または「解決確認」)を本当に実行するか否かの確認に用いられる画面の種別を意味する。具体的には、図6に示すステップS1607,S1608,S1609,S1610で表示される画面(図11に例示する画面)の種別を意味する。「実行」とは、選択された対処内容の実行に伴って表示される画面の種別を意味する。具体的には、図6に示すステップS1612で表示される画面(例えば、対処コマンドの実行結果等を表示する画面)の種別を意味する。「情報参照」とは、情報参照用画面の種別を意味する。具体的には、ステップS1603,S1605で表示される画面(図9に例示する画面194等)の種別を意味する。
各画面は、その画面の種別に応じたボタンを有する。例えば、「通知」に分類される画面は、図8に示す「参照」ボタンや、ウィンドウ191(図9参照。)内に示す「対処」ボタン等を有する。また、「対処」に分類される画面は、図10に例示するように、「適用」、「承認依頼」、「承認否決」、「解決確認」、「閉じる」等のボタンを有する。「確認」に分類される画面は、図11に例示するように、確認対象の対処内容を実行させるためのボタン(図11の例では「承認依頼」)や、「もどる」等のボタンを有する。「情報参照」に分類される画面は、図9に例示する情報参照用ウィンドウ194のように「閉じる」等のボタンを有する。このような、画面の種別に応じたボタンを基本ボタンと呼ぶ。障害分析操作制御部41は、ウィンドウ種別選択欄304で選択された種別に応じた基本ボタンの設定欄305を表示する。図26に示す例では、「対処」という種別に応じた基本ボタンの設定を行う設定欄305を表示している。
また、図26に例示する編集画面において、表示情報入力欄306は、ウィンドウ内に表示する情報を入力するための入力欄である。本例では、表示すべき文言を操作者が直接指定する場合、その文言を“”で囲んで入力するものとする。また、表示情報入力欄306に変数が入力されてもよい。変数として、例えば、障害分類を表す「$fault」や年月日を表す「$yy/mm/dd 」等がある。変数追加ボタン307が押下されると、障害分析操作制御部41は、変数選択画面308を入出力装置1に表示させる。変数選択画面308上で変数が選択され、変数選択画面308内の追加ボタンが押下されると、障害分析操作制御部41は、表示情報入力欄306内に、選択された変数を追記する。すなわち、変数は、予め用意された変数の中から選択されて表示情報入力欄306内に追記されることになる。また、同様に、部品を指定する情報が、表示情報入力欄306に入力されてもよい。部品として、例えば、リスト(例えば、図8で例示したようなリスト)やテキストエリア等がある。部品追加ボタン309が押下されると、障害分析操作制御部41は、部品選択画面310を入出力装置1に表示させる。部品選択画面310上で部品が選択され、部品選択画面310内の追加ボタンが押下されると、障害分析操作制御部41は、表示情報入力欄306内に、選択された部品の情報を追記する。すなわち、部品の情報は、予め用意された部品の中から選択されて表示情報入力欄306内に追記されることになる。
また、表示情報入力欄306内に入力された変数や操作者によって直接入力された文字列が選択され(例えば、マウスによるドラッグ操作で選択され)、「リンク付加/解除」ボタン311が押下されると、障害分析操作制御部41は、その選択部分をボタンとして表示するように操作画面ルールを編集する。
図27は、「リンク付加/解除」ボタン押下時および基本ボタンに関する設定時の状況を示す説明図である。図27では、表示情報入力欄306内に入力された変数「$service」が選択され、「リンク付加/解除」ボタン311が押下された状態を示している。この場合、障害分析操作制御部41は、変数「$service」をボタンとして表示する操作画面ルールを生成するために必要な情報の入力を促す情報参照ボタンウィンドウ312を入出力装置1に表示させる。そして、情報参照ボタンウィンドウ312にでは、ボタンとなる変数「$service」が押下された場合に呼び出すウィンドウのウィンドウIDを選択させる。情報参照ボタンウィンドウ312では、予め選択対象となるウィンドウIDの集合の中からウィンドウIDの選択を促す。従って、操作者が任意にウィンドウIDを指定できるわけではない。なお、変数「$service」が新規に選択された場合、情報参照ボタンウィンドウ312内におけるボタンIDは、例えば情報分類操作制御部41によって自動的に割り当てられる。また、ボタンラベルの初期値は、選択された変数に応じた値が表示される。図27に示す例では、ボタンラベルの初期値として「$service」が表示されている。
なお、ボタンとして表示するように設定された箇所が再度選択され、その後、「リンク付加/解除」ボタン311が押下されると、障害分析操作制御部41は、その選択部分をボタンとして表示しないように操作画面ルールを編集する。
以上のように、表示情報入力欄306に表示する文字列や変数をボタンとして表示し、そのボタンが押下されたときに他のウィンドウを呼び出すように操作画像ルールを編集することができる。ここで、変数、部品は、予め用意された変数や部品の中からしか選択することができない(図26に示すウィンドウ308,310に一覧表示されたものの中からしか選択できない。)。同様に、ボタン押下時に呼び出されるウィンドウも、図27に示す情報参照ボタンウィンドウ312において予め用意された選択対象となるウィンドウIDの集合の中からウィンドウIDを選択することによって行われる。よって、任意のウィンドウを呼び出せるように操作画面ルールを編集できるわけではない。このような編集画面により、発生した障害の情報を表示する画面、および障害対処の内容の選択を操作者に促す画面を含む一連の画面が障害対処操作制御部31によって出力されるという原則を崩さずに、操作画面ルールを編集することができる。例えば、対処時に操作ログの表示画面を表示可能とするようなルールを排除することができる。
基本ボタンの設定欄305(図26参照)は、ウィンドウ種別選択欄304で選択された種別に応じた基本ボタンの設定を操作者に促す。図26に示す例では、種別として「対処」が選択されているので、「適用」、「承認依頼」、「承認否決」、「解決確認」、および「閉じる」という基本ボタンの設定が行われる。「適用」、「承認依頼」、「承認否決」、「解決確認」は、対処内容の選択肢となるボタンであり、「閉じる」は、対処作業中断を指示するためのボタンである。
基本ボタンの設定欄305では、各基本ボタンを表示するか否かを指定するチェックボックス321が、基本ボタン毎に表示される。本例では、チェックボックス321のデフォルトは、基本ボタンを表示する状態に設定されている。チェックボックス321の設定が切り替えられ、基本ボタンを非表示とする指示が入力された場合、障害分析操作制御部41は、その指示に従って、基本ボタンを表示しないように操作画面ルールを変更する。ただし、図26に示すように、種別として「対処」が選択されている場合、「適用」、「承認依頼」、「承認否決」、「解決確認」、および「閉じる」という各基本ボタンを非表示とすることは、システム運用管理支援装置の運用上あまり意味がない。障害対処画面では、「適用」、「承認依頼」、「承認否決」、「解決確認」、および「閉じる」を全て表示する必要があるからである。
また、基本ボタンの設定欄305では、各基本ボタン毎に、その基本ボタンを操作することができる条件(操作可能条件)と、その基本ボタンのラベルを指定する欄が設けられる。この欄に入力された操作可能条件およびラベルを用いて、障害分析操作制御部41は、操作画面ルールを編集する。さらに、各基本ボタンに関する設定の入力欄として、「注意事項」欄322が設けられる。「注意事項」欄322は、確認ダイアログ画面を表示させるか否かの設定を行う欄である。
図27に示すように、「注意事項」欄322に「在り」という文字列が入力された場合、障害分析操作制御部41は、注意事項画面323を入出力装置1に表示させる。注意事項画面323は、確認ダイアログ画面の表示態様を定める情報を入力する画面である。注意事項画面323に入力された情報に基づいて、障害分析操作制御部41は、例えば、図22に例示する記載144を含むような操作画面ルールを作成する。
基本ボタンの設定欄305では、ウィンドウ種別選択欄304で選択された種別に応じた基本ボタンの設定を行うことしかできない。従って、ウィンドウ種別選択欄304で選択された種別に応じた基本ボタンを非表示に切り替える等の設定は可能であるが、新たに基本ボタンを作成する等の編集操作は行うことができない。例えば、基本ボタンとして、対処時に操作ログの表示画面を呼び出すような新たなボタンを生成させることはできない。このような編集画面により、発生した障害の情報を表示する画面、および障害対処の内容の選択を操作者に促す画面を含む一連の画面が障害対処操作制御部31によって出力されるという原則を崩さずに、操作画面ルールを編集することができる。
また、操作画面ルールの編集画面を表示する場合、編集画面を呼び出すためのボタンを分析時画面群に含まれる画面に設けておけばよい。例えば、図14および図15(a),(b)に例示する画面等に、編集画面を呼び出すためのボタン(図14,図15において図示せず。)を設けておけばよい。そして、そのボタンが押下されたときに、障害分析操作制御部41は、操作画面ルールの編集画面を入出力装置1に表示させればよい。
また、分析時画面群に含まれる画面から、特定の障害に応じた対処画面ルールの編集画面に移行できるようにしてもよい。図28は、特定の障害に応じた対処画面ルールの編集画面に移行するためのボタンを備えた画面の例である。図28に示す画面は、「この障害の対処画面ルールの編集」ボタン331を備える点以外は、図15(a)に示す画面と同様であり、図14に例示する画面から呼び出され、また、図15(b)に例示する画面を呼び出すことが可能な画面である。「この障害の対処画面ルールの編集」ボタン331が押下された場合、障害分析操作制御部41は、ボタン331に応じた操作画面のルールを編集する編集画面を入出力装置1に表示させる。なお、障害分析操作制御部41は、操作者の権限の有無を認証等によって確認し、所定の権限を有する分析操作者に対してのみ「この障害の対処画面ルールの編集」ボタン331を表示してもよい。
以上の説明では、操作画面ルール保存部6が、障害対処作業において用いられる画面の表示態様を規定する操作画面ルールを記憶する場合を説明した。操作画面ルール保存部6は、障害対処作業において用いられる画面だけでなく、障害分析作業において用いられる画面の表示態様を規定する操作画面ルールも記憶してよい。以下、第2の実施の形態の変形例として、操作画面ルール保存部6が、障害分析作業において用いられる画面の表示態様を規定する操作画面ルールも記憶する場合について説明する。図29は、本発明の第2の実施の形態の変形例を示すブロック図である。図18に示す構成と同様の構成部については、図18と同一の符号を付し、説明を省略する。
本変形例では、操作画面ルール保存部6は、障害対処作業において用いられる画面の表示態様を規定する操作画面ルールと、障害分析作業において用いられる画面の表示態様を規定する操作画面ルールとを記憶する。
また、本変形例では、障害分析プロセス制御部4は、図18に示す構成に加えて、障害分析操作画面生成部42を備える。障害分析操作画面生成部42は、障害分析操作制御部41が出力した情報と、操作画面ルール保存部6が記憶する操作画面ルールとに基づいて操作画面を生成し、障害分析操作制御部41に出力する。障害分析操作画面生成部42が操作画面を生成するときに、障害分析操作制御部41は、障害分析操作画面生成部42に対して、障害分析操作画面生成部42が参照すべき操作画面ルールを特定可能な情報を出力する。例えば、障害分析操作制御部41は、生成すべき画面(ウィンドウ)を指定する情報(具体的にはウィンドウID)を出力する。障害分析操作画面生成部42は、障害分析操作制御部41が出力した情報に基づいて、操作画面ルール保存部6に記憶される操作画面ルール中から、指定されたウィンドウIDに対応する操作画面ルールを特定し、その操作画面ルールを参照する。そして、障害分析操作画面生成部42は、その操作画面ルールに基づいて、配置する情報(表示すべきボタン等)や色等を決定し、画面(ウィンドウ)を生成する。また、その画面上で禁止すべき操作がルールにおいて指定されている場合、その操作が行えないように画面を生成する。
障害分析操作制御部41は、障害分析操作画面生成部42から生成された画面を受け取ると、その画面を入出力装置1に表示させる。なお、障害分析作業において用いられる画面の表示態様を規定する操作画面ルールは、過去に発生した各障害の一覧情報を表示する画面、障害対処時に行われた個々の操作に関するログを表示する画面、および操作画面ルールの編集画面を含む一連の画面を入出力装置1に表示させるという原則に反することなく記述されている。
障害分析作業において用いられる画面の表示態様を規定する操作画面ルールの編集画面は、例えば、一般的なテキストエディタと同様の編集画面であってもよい。また、過去に発生した各障害の一覧情報を表示する画面、障害対処時に行われた個々の操作に関するログを表示する画面、および操作画面ルールの編集画面を含む一連の画面を入出力装置1に表示させるという原則に反するような編集が行えないように制約が設けられた編集画面であってもよい。
次に、障害分析作業において用いられる画面の表示態様を規定する操作画面ルールを変更した場合における、障害分析操作画面生成部42が生成する画面の変化について説明する。ここでは、図14に例示する画面(過去に発生した各障害の一覧情報を表示する画面)の表示態様を規定する操作画面ルールとして、図30に例示する操作画面ルールが、操作画面ルール保存部6に記憶されているものとする。
図30に例示する操作画面ルールの編集前は、障害分析操作画面生成部42は、この操作画面ルールに基づいて図14に例示する画面を生成し、障害分析操作制御部41がその画面を入出力装置1に表示させる。
また、障害分析操作制御部41が、図30に例示する操作画面ルールの編集画面を表示して、分析を行う操作者によっって操作画面ルールが編集されたとする。ここでは、図31に例示する記載332が追加されたとする。障害分析操作制御部41は、操作画面ルール保存部6が記憶していた編集前の操作画面ルール(図30参照。)を、記載332が追加された操作画面ルール(図31に例示する操作画面ルール)に更新する。
なお、記載332は、障害種別毎の障害履歴分布グラフを表示すること、および障害の発生箇所別の障害履歴分布グラフを表示することを規定する記載である。
この編集後、過去に発生した各障害の一覧情報を表示する画面を表示する場合、障害分析操作画面生成部42は、障害種別毎の障害履歴分布グラフおよび障害の発生箇所別の障害履歴分布グラフを追加した画面を生成する。そして、障害分析操作制御部41は、その画面を入出力装置1に表示させる。この画面の例を図32に示す。すなわち、図30に例示する操作画面ルールが図31に例示するように編集されたことにより、過去に発生した各障害の一覧情報を表示する画面は、図14に例示する画面から、図32に例示する画面に変更されることになる。
以上のように、障害分析プロセス制御部4が、障害対処操作画面生成部33と同様の機能を有する障害分析操作画面生成部42を備え、操作画面ルール保存部6が障害分析作業時の操作画面ルールを保持することで、障害対処時と同様に、障害分析時の操作画面を柔軟に変更することが可能となる。また、実際に運用管理を行う顧客にシステム運用管理支援装置を提供する事業者は、顧客の要求にあった障害分析のための操作画面を容易に提供できる。事業者は、予め操作画面ルール保存部6にデフォルトの操作画面ルールを記憶させた状態で、システム運用管理支援装置を顧客に提供する。そして、顧客が操作者として操作画面ルールを変更することにより、顧客自身の要求にあった障害分析のための操作画面が表示されるようにすることができる。あるいは、システム運用管理支援装置を提供する事業者が、顧客の代わりに操作画面ルールを変更して、顧客の要求にあった障害分析のための操作画面が表示されるようにするようにしてもよい。
なお、本実施の形態において、図33に示すように、障害対処操作制御部31に対応する入出力装置1と、障害分析操作制御部41に対応する入出力装置11とを別々に備える構成としてもよい。図33に示す入出力装置1は、対処を行う操作者によって使用され、図33に示す入出力装置11は、分析を行う操作者によって使用される。このように対処操作のための入出力装置1と、分析操作のための入出力装置11とを別々に設け、入出力装置の用途を対処と分析とで明確に区別することで、発生した障害の対処と分析の作業を並行して別の人間が進めることや、対処と分析とを遠距離で行うことが可能となる。なお、図33では、障害分析操作画面制御部42を備える場合を示したが、障害分析操作画面制御部42を備えない構成において、入出力装置1と入出力装置11とを別々に備えるようにしてもよい。
第2の実施の形態において、特許請求の範囲に記載の障害情報記憶手段は、障害情報保存部5によって実現される。障害対処支援手段は、障害対処操作制御部31および入出力装置1によって実現される。対処履歴情報記録管理手段は、対処履歴情報記録管理部32によって実現される。障害分析支援手段は、障害分析操作制御部41および入出力装置1(または入出力装置11)によって実現される。操作画面ルール記憶手段は、操作画面ルール保存部6によって実現される。障害対処操作画面生成手段は、障害対処操作画面生成部33によって実現される。障害分析操作画面生成手段は、障害分析操作画面生成部42によって実現される。システム状態監視手段は、システム状態監視部2によって実現される。障害対処操作制御手段は、障害対処操作制御部31によって実現される。障害分析操作制御手段は、障害分析操作制御部41によって実現される。