JP2011118575A - 障害対策情報取得方法および管理サーバ - Google Patents
障害対策情報取得方法および管理サーバ Download PDFInfo
- Publication number
- JP2011118575A JP2011118575A JP2009274322A JP2009274322A JP2011118575A JP 2011118575 A JP2011118575 A JP 2011118575A JP 2009274322 A JP2009274322 A JP 2009274322A JP 2009274322 A JP2009274322 A JP 2009274322A JP 2011118575 A JP2011118575 A JP 2011118575A
- Authority
- JP
- Japan
- Prior art keywords
- information
- cause
- failure
- site
- countermeasure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Test And Diagnosis Of Digital Computers (AREA)
- Debugging And Monitoring (AREA)
Abstract
【課題】Webサイトから商用ソフトウェアやオープンソースソフトウェアに関する最新の障害情報を入手し、その情報を元にタイムリーに更新され続けるデータベースを活用することで、システムで発生している障害の原因・対策情報を導き出すことができる障害対策情報導出方法を提供する。
【解決手段】障害情報Webサイト122から収集した障害情報を持つサイト情報DB117と、障害のカテゴリごとに原因究明に有効な情報が公開されているWebサイトの情報を持つ原因候補DB116を参照して、システム120の状態確認で得られた情報を情報導出用キーワードとして、障害の原因・対策情報を導き出す。また、障害情報Webサイト122の情報が更新された場合に、サイト情報DB117に登録されている情報を合わせて更新することで、データベースの内容を最新の状態に保つ。
【選択図】図1
【解決手段】障害情報Webサイト122から収集した障害情報を持つサイト情報DB117と、障害のカテゴリごとに原因究明に有効な情報が公開されているWebサイトの情報を持つ原因候補DB116を参照して、システム120の状態確認で得られた情報を情報導出用キーワードとして、障害の原因・対策情報を導き出す。また、障害情報Webサイト122の情報が更新された場合に、サイト情報DB117に登録されている情報を合わせて更新することで、データベースの内容を最新の状態に保つ。
【選択図】図1
Description
本発明は、システムにおける障害の原因や対策の情報を取得する障害対策情報取得方法および管理サーバに関するものである。
システム管理者(以下、管理者という。)は、システムに障害が発生した際に障害の原因と対策を割り出し、効率良く対処することが求められる。熟練した管理者であれば、エラー内容やシステムリソースの使用状況から障害の内容を正確に読み取り対処することが可能だが、経験の浅い管理者の場合は原因および対策を素早く導き出すことは難しい。
こういった場合、管理者は、あらかじめ用意されたシステムの状態確認手順を実行し、得られた情報を既知の障害情報データベースと照らし合わせて、システムで発生している障害の原因と対策を明らかにするという方法が考えられる。これを自動化する従来技術として、特許文献1には、障害発生時の原因を特定するための確認項目情報を取得し、各項目情報に示された条件を満たすオブジェクトについて推定原因情報をデータベースから読み出す方法が記載されている。
特許文献1の技術は、システムの状態を確認して既知の原因情報の中から合致すると思われる情報を導き出す技術であるが、原因情報の内容はデータベース構築時に一度だけ登録されるのみで、その後の情報の動的な追加や更新は考慮されていない。
特にオープンソースソフトウェアを使用するシステムの場合、様々な障害情報を提供するWebサイトでオープンソースソフトウェアに関する新規の障害報告が日々なされ、かつ既知情報が更新され続けているため、管理者は、最新の障害情報を日々チェックし、データベースを更新し続けなければならない。システムで扱うソフトウェアの種類が増えるほど、この作業量が膨大になり、管理者に大きな負担を強いることになる。
本発明は、前記の課題を解決するための発明であって、システムで発生している障害の原因・対策情報を適切に導き出すことができる障害対策情報導出方法および管理サーバを提供することを目的とする。
前記目的を達成するため、本発明は、Webサイトから収集した障害の原因・対策情報を持つデータベース(例えば、サイト情報DB117)と、障害のカテゴリごとに原因究明に有効なWebサイトの情報を持つデータベース(例えば、原因候補DB116)を参照して、システムの状態確認で得られた情報を情報導出用キーワードとして活用することで、障害の原因と対策を導き出すことを特徴とする。
また、Webサイトの情報が更新された場合に、データベースに登録されている情報を合わせて更新することで、データベースの内容を最新の状態に保つことができる。
本発明によれば、システムで発生している障害の原因・対策情報を適切に導き出すことができる。
以下、本発明を実施するための形態について図面を用いて詳細に説明する。
図1は、本発明におけるシステム障害の原因・対策情報の管理システムの全体構成を示す図である。障害原因・対策情報の管理システムの制御の中心部は、管理サーバ102である。管理サーバ102は、メモリ103、プロセッサ118、外部記憶装置130(記憶部)、NIC119がバス131を介して接続されており、コンソール101を有している。なお、NICはNetwork Interface Cardの略である。また、コンソール101とは、管理サーバ102を操作するために使う入出力装置のセットであり、ディスプレイなどの表示装置、キーボードなどの入力装置で構成される。
図1は、本発明におけるシステム障害の原因・対策情報の管理システムの全体構成を示す図である。障害原因・対策情報の管理システムの制御の中心部は、管理サーバ102である。管理サーバ102は、メモリ103、プロセッサ118、外部記憶装置130(記憶部)、NIC119がバス131を介して接続されており、コンソール101を有している。なお、NICはNetwork Interface Cardの略である。また、コンソール101とは、管理サーバ102を操作するために使う入出力装置のセットであり、ディスプレイなどの表示装置、キーボードなどの入力装置で構成される。
外部記憶装置130には、静的情報DB114(図7参照)、動的情報DB115(図8参照)、原因候補DB116(図9参照)、サイト情報DB117(図10参照)が記憶されている。なお、DBはData Baseの略である。
メモリ103には、原因・対策情報取得機構部104、テーブル群109が記憶されている。原因・対策情報取得機構部104は、DB更新部105、状態チェック部106、システム情報取得部107、原因・対策情報導出部108から構成される。テーブル群109は、チェック項目一覧テーブル110(図3参照)、情報取得手順テーブル111(図4参照)、サイト取得情報テーブル112(図5参照)、取得情報格納テーブル113(図6参照)を含んで構成される。なお、チェック項目一覧テーブル110、情報取得手順テーブル111、取得情報格納テーブル113は、外部記憶装置130に記憶しておき、必要に応じてメモリ103に読み出して格納してもよい。
管理サーバ102は、ネットワーク205を介して、複数のシステム120、複数の障害情報Webサイト122(障害情報提供サイト)と接続されている。システム120は、例えば、業務システムであり、システムエージェント121を有している。システムエージェント121は、システム120に常駐して、OS(Operating System)種別やインストール済みアプリケーション名、設定パラメータなどシステム120における静的情報、およびCPU(Central Processing Unit)利用率やメモリ利用率などシステム120における動的情報を取得し、管理サーバ102のシステム情報取得部107に送信する。
DB更新部105は、ソフトウェアで発生する障害の原因や対策、影響の深刻度、影響するバージョンなどの情報を掲載しており、Webサイト検索用キーワードによる情報検索機能を提供する障害情報Webサイト122から収集した最新の障害の原因・対策情報を、サイト取得情報テーブル112に一時格納する。そして、サイト情報DB117に格納されている原因・対策情報との差分を抽出して、差分がある情報についてサイト情報DB117の内容を追加・更新した後にサイト取得情報テーブル112の内容を破棄する。
状態チェック部106は、静的情報DB114と動的情報DB115に格納されているシステム120の静的情報および動的情報について、チェック項目一覧テーブル110に格納されているチェック基準およびチェック方法に従ってチェックを実行し、障害発生と考えられる変化が確認された場合は内容に応じたフラグを立てる。なお、静的情報および動的情報についてのチェック基準およびチェック方法を格納したチェック項目一覧テーブル110があらかじめ構築済みであるものとする。
システム情報取得部107は、システムエージェント121から受信したシステム120の静的情報、動的情報をそれぞれ静的情報DB114と動的情報DB115に格納する。また、システム情報取得部107は、原因・対策情報導出部108がシステム120で発生している障害の原因・対策情報を導き出すために必要な情報を、情報取得手順テーブル111に格納されている取得手順に従って、システムエージェント121を介してシステム120から取得する。なお、情報の取得手順を格納した情報取得手順テーブル111があらかじめ構築済みであるものとする。
原因・対策情報導出部108は、システム120で発生している障害の原因・対策情報を、原因候補DB116とサイト情報DB117を参照して抽出し、取得情報格納テーブル113に格納する。取得情報格納テーブル113に格納された障害の原因・対策情報は、抽出処理が完了した後にコンソール101に出力される。
原因候補DB116には、障害の概要を表す概要キーワードと、その障害に関する情報を収集する上で有効であると考えられる障害情報Webサイト122の名前、障害の原因・対策情報を得るのに、何階層までチェックすれば必要な情報が揃うかを示す値(探索深度904)が登録されている。探索深度904については、図9において後述する。なお、これらの情報を格納した原因候補DB116があらかじめ構築済みであるものとする。
サイト情報DB117には、情報を収集したサイト名とURL(Uniform Resource Locator)、障害の概要を表す概要キーワード、その障害について障害情報Webサイト122から抽出した原因・対策情報、それらの原因・対策情報をいくつ参照すれば必要十分な情報量が得られるかを示す数値(チェック候補数)が登録されている。なお、これらの情報を格納したサイト情報DB117があらかじめ構築済みであるものとする。
本実施形態は、システム120で発生した障害の原因・対策情報を、障害情報Webサイト122から収集した原因・対策情報の中から抽出して、取得情報格納テーブル113に格納し、格納した情報をコンソール101に出力する機能を、管理者に提供する。
図2は、管理対象となるシステムの構成内容を示す図である。システム120は、メモリ201、プロセッサ203、NIC204がバス210を介して接続されている。メモリ201には、例えば、業務システムで使用するアプリケーション202、システムエージェント121が記憶されている。
図3は、チェック項目一覧テーブルの構成内容を示す図である。図3には、システム120に障害が発生しているかを確認する基準と方法を格納する、チェック項目一覧テーブル110の構成内容を示している。チェック項目一覧テーブル110は、項目301、項番1(#1)のカラム302、項番2(#2)のカラム303、および項番3(#3)以降のカラムから構成される。項目301には、メモリやCPUなど、システム120についてチェックする内容の大枠を示す概要キーワードが登録されている。項番1のカラム302、項番2のカラム303、および項番3以降のカラムには、システム120からシステムエージェント121が取得した情報を元に、システム120に障害が発生しているかをチェックする基準とチェック方法が登録されている。
例えば、項目301のメモリにおける項番1(#1)は、PS(Process Status)コマンドを実行することにより、メモリリソースを90%以上占有しているプロセスがあるか否かをチェックすることを意味する。
図4は、情報取得手順テーブルの構成内容を示す図である。図4には、システム120で発生している障害に関する情報の取得方法を格納する、情報取得手順テーブル111の構成内容を示している。情報取得手順テーブル111は、項目401、現象402、情報取得手順403から構成される。項目401には、メモリやCPUなど、情報を取得する対象を示す「概要キーワード」が登録されている。現象402には、システム120に障害が発生しているかをチェックした際に、確認された障害に対応して立てるフラグの内容が登録されている。情報取得手順403には、現象402に登録されているフラグが立てられた場合に、障害の原因・対策情報を導き出す処理で必要になる「情報導出用キーワード」を取得する手順が登録されている。
図5は、サイト取得情報テーブルの構成内容を示す図である。図5には、障害情報Webサイト122から取得した障害情報を格納する、サイト取得情報テーブル112の構成内容を示している。サイト取得情報テーブル112は、サイト名501、Webサイト検索用キーワード502、項番1(#1)のカラム503、および項番2(#2)以降のカラムから構成される。サイト名501には、障害情報を取得した障害情報Webサイト122の名前を登録する。Webサイト検索用キーワード502には、サイト名501に登録されているWebサイトで障害情報を取得する際の検索実行時に使用した単語を登録する。項番1のカラム503、および項番2以降のカラムには、Webサイト検索用キーワード502に登録されている単語でWebサイトを検索した結果、収集した障害の内容および原因・対策情報を登録する。なお、サイト取得情報テーブル112は初期状態では情報が格納されておらず、DB更新部105が障害情報Webサイト122にアクセスして障害情報を取得した際に、取得した情報が格納される。
図6は、取得情報格納テーブルの構成内容を示す図である。図6には、原因・対策情報導出部108が導き出した障害の原因・対策情報を格納する、取得情報格納テーブル113の構成内容を示している。取得情報格納テーブル113は、項番601、現象602、原因・対策情報候補1のカラム603、原因・対策情報候補2のカラム604、および原因・対策情報候補3以降のカラムから構成される。現象602には、サイト情報DB117(図10参照)の現象1004から抽出した障害の内容を登録する。原因・対策情報候補1のカラム603、原因・対策情報候補2のカラム604、および原因・対策情報候補3以降のカラムには、サイト情報DB117(図10参照)の原因・対策情報候補1のカラム1005、原因・対策情報候補2のカラム1006、および原因・対策情報候補3以降のカラムから抽出した障害の原因・対策情報を登録する。なお、取得情報格納テーブル113は、初期状態では情報が格納されておらず、原因・対策情報導出部108が障害の原因・対策情報を抽出した際に、抽出した情報が格納される。
図7は、静的情報DBの構成内容を示す図である。図7には、システム120の静的情報を格納する、静的情報DB114の構成内容を示している。静的情報DB114は、システムID701、OS種別702、インストールアプリ703、設定パラメータ704、およびその他の静的情報を格納するカラムから構成される。
図8は、動的情報DBの構成内容を示す図である。図8には、システム120の動的情報を格納する、動的情報DB115の構成内容を示している。動的情報DB115は、システムID801、CPU使用率802、メモリ使用率803、I/O状態804、ログ情報805、およびその他の動的情報を格納するカラムから構成される。CPU使用率802およびメモリ使用率803には、時系列のデータを折れ線グラフで登録される。なお、I/OはInput/Outputの略である。
図9は、原因候補DBの構成内容を示す図である。図9には、障害の原因・対策情報を取得するために有効な障害情報Webサイト122の情報を格納する、原因候補DB116の構成内容を示している。原因候補DB116は、原因候補901、優先度1のカラム902、優先度2のカラム903、および優先度3以降のカラム、探索深度904から構成される。原因候補901には、システム120で発生した障害の内容に関連する概要キーワードが登録されている。優先度1のカラム902、優先度2のカラム903、および優先度3以降のカラムには、原因候補901の概要キーワードに関連する障害の原因・対策情報を収集するために有効な障害情報Webサイト122の名前が登録されている。
探索深度904には、原因候補901の概要キーワードに関連する障害の原因・対策情報について、何階層までチェックすれば必要な情報が揃うかを示す値が登録されている。ここでいう「階層」とは、処理の観点から言えば、原因候補DB116およびサイト情報DB117を参照して、どれだけ深く掘り下げたか、ということを意味する。具体的な説明は、図12を参照して後述する。
図10は、サイト情報DBの構成内容を示す図である。図10には、障害情報Webサイト122から収集した障害の原因・対策情報を格納する、サイト情報DB117の構成内容を示している。サイト情報DB117は、サイト名1001、URL1002、原因ID1003、現象1004、原因・対策情報候補1のカラム1005、原因・対策情報候補2のカラム1006、および原因・対策情報候補3以降のカラムから構成される。
サイト名1001には、障害情報Webサイト122の中から情報を収集したWebサイトの名前が登録されている。URL1002には、サイト名1001で示すWebサイトのURLが登録されている。原因ID1003には、サイト情報DB117に登録されている情報の項番が登録されている。
現象1004にはシステム120で発生した障害の内容および障害を表す概要キーワードと、チェック候補数が登録されている。チェック候補数は、概要キーワードに関連する障害についてサイト情報DB117に登録されている原因・対策情報を何個チェックすれば、必要な情報が揃うかを示す値である。この値は、過去に障害情報Webサイト122で障害の原因・対策情報を検索した際の経験則から割り出したものであり、且つ正しい数値であるという前提の元に、前提のサイト情報DB117の構築時に概要キーワードごとにあらかじめ設定している。
原因・対策情報候補1のカラム1005、原因・対策情報候補2のカラム1006、および原因・対策情報候補3以降のカラムには、障害の原因を表す概要キーワードと、1つ以上の原因・対策情報および原因・対策情報の重み値(重み)、チェック候補数が登録されている。原因・対策情報の重み値は、障害情報Webサイト122に内容が公開されてから1ヶ月未満の情報は3、1ヶ月以上2ヶ月未満の情報は2、2ヶ月以上の情報は1とする。これらの値は、障害情報Webサイト122に公開されている障害の原因・対策情報の中で、より新しい情報ほど緊急度が高く、注目すべきであるという前提を元に設定している。
次に各種処理について説明する。
図11は、原因・対策情報を導き出す処理を示すフローチャートである。ステップS1101において、DB更新部105は、障害情報Webサイト122に公開されている障害の内容および原因・対策情報を収集して、サイト情報DB117に登録されている内容と照合し、差分がある場合はサイト情報DB117に登録されている内容を最新の情報に更新する。ステップS1101の詳細は図13を参照して後述する。
図11は、原因・対策情報を導き出す処理を示すフローチャートである。ステップS1101において、DB更新部105は、障害情報Webサイト122に公開されている障害の内容および原因・対策情報を収集して、サイト情報DB117に登録されている内容と照合し、差分がある場合はサイト情報DB117に登録されている内容を最新の情報に更新する。ステップS1101の詳細は図13を参照して後述する。
ステップS1102において、状態チェック部106は、チェック項目一覧テーブル110を参照して静的情報DB114と動的情報DB115に格納されている情報をチェックし、障害発生と考えられる変化がシステム120上で起こっているかを確認する。ステップS1102の詳細は図14を参照して後述する。
ステップS1103において、状態チェック部106は、システム120上で障害発生と考えられる変化が起こっているか判定する。変化がない場合(ステップS1103,No)、処理を終了する。変化がある場合(ステップS1103,Yes)、ステップS1104において、システム情報取得部107は、変化の内容に合わせたフラグを立て、情報取得手順テーブル111を参照して、静的情報DB114と動的情報DB115からフラグに応じた情報導出用キーワードを取得する。
ステップS1105において、システム情報取得部107は、必要となる全ての情報導出用キーワードが静的情報DB114と動的情報DB115から取得済みであるか判定する。取得済みの場合(ステップS1105,Yes)、ステップS1107に進む。
取得済みでない場合(ステップS1105,No)、ステップS1106において、システム情報取得部107は、システムエージェント121を介してシステム120から情報を収集し、不足分(未取得)の情報導出用キーワードを取得する。ステップS1106の詳細は図15を参照して後述する。
ステップS1107において、原因・対策情報導出部108は、取得した情報導出用キーワードを元に原因候補DB116(図9参照)を参照して、システム120で発生した障害の原因・対策情報を取得するために有効(原因究明に有効)な障害情報Webサイト122を判別する。
ステップS1108において、原因・対策情報導出部108は、システム120で発生した現象の障害の原因・対策情報を、ステップS1107で判別した障害情報Webサイト122から収集した障害情報で構築されたサイト情報DB117(図10参照)に登録されている原因・対策情報候補1のカラム1005、原因・対策情報候補2のカラム1006、および原因・対策情報候補3以降のカラムから取得し、取得情報格納テーブル113に格納する。
ステップS1109において、システム情報取得部107は、次順の原因候補の情報導出用キーワードを取得する。
ステップS1110において、原因・対策情報導出部108は、システム120で発生した障害の原因・対策情報の取得処理が、原因候補DB116から取得した探索深度904の最大値に未達かを判定する。取得した探索深度904の最大値に未達でない場合(ステップS1110,No)、ステップS1113に進む。探索深度904の最大値に未達である場合(ステップS1110,Yes)、ステップS1111に進む。
ステップS1111において、原因・対策情報導出部108は、システム120で発生した障害の原因・対策情報の取得処理が、サイト情報DB117の現象1004、原因・対策情報候補1のカラム1005、原因・対策情報候補2のカラム1006、および原因・対策情報候補3以降のカラムに登録されているチェック候補数の最大値に対して未達であるかを判定する。チェック候補数の最大値に未達でない場合(ステップS1111,No)、ステップS1113に進む。チェック候補数の最大値に未達である場合(ステップS1111,Yes)、ステップS1112に進む。
ステップS1112において、追加取得可能な情報がないかを判定する。具体的には、ステップS1109において、次順の原因候補の情報導出用キーワードがあったか否かを判定する。追加取得可能な情報がなかった場合(ステップS1112,Yes)、ステップS1113に進む。追加取得可能な情報があった場合(ステップS1112,No)、ステップS1105に戻る。
ステップS1113において、原因・対策情報導出部108は、原因・対策情報の取得処理を完了し、取得情報格納テーブル113に格納された情報をコンソール101に出力して処理を終了する。
図11に示した各ステップ、特に、ステップS1101からステップS1107の具体例について、さらに説明する。ステップS1101において、DB更新部105により、Web公開済みの最新の障害内容および原因・対策情報を取得して、サイト情報DB117に反映する。ステップS1102において、状態チェック部106により、障害発生と考えられる変化(メモリ使用率の異常な増加など)が、システム120に発生していないかチェックする。チェック対象は、静的情報DB114(図7参照)と動的情報DB115(図8参照)であり、チェック内容はチェック項目一覧テーブル110(図3参照)の内容に従う。ステップS1103において、状態チェック部106により、状態変化の有無を判定する。
ステップS1104において、システム情報取得部107により、変化がある場合、フラグ(メモリ使用率増大、など)を立ててフラグをキーとして情報導出用キーワードの取得を開始する。情報の取得元は、静的情報DB114および動的情報DB115である。
「メモリ使用率の増大」のフラグAが立った場合の例(図14参照)では、情報取得手順テーブル111の内容に従い、以下の情報を、情報導出用キーワードとして取得する。
・メモリを占有しているプロセス名
・該当するプロセスのログファイル中に含まれるエラーに関連するメッセージ
前記の2つの情報は、図8に示す「メモリ使用率」の現時点でもっともメモリを占有しているプロセス名と、「ログ情報」の中で該当するプロセスのログの中から取得することになる。プロセス名の絞り込み方法、およびログの中からメッセージを抽出する方法については、情報取得手順テーブル111の内容に従うことになる。なお、この例では、図7には取得対象の情報がないため何も取得しないことになる。
・メモリを占有しているプロセス名
・該当するプロセスのログファイル中に含まれるエラーに関連するメッセージ
前記の2つの情報は、図8に示す「メモリ使用率」の現時点でもっともメモリを占有しているプロセス名と、「ログ情報」の中で該当するプロセスのログの中から取得することになる。プロセス名の絞り込み方法、およびログの中からメッセージを抽出する方法については、情報取得手順テーブル111の内容に従うことになる。なお、この例では、図7には取得対象の情報がないため何も取得しないことになる。
ステップS1105において、システム情報取得部107により、情報取得手順テーブル111(図4参照)に記載されている、「フラグAに対応する情報導出用キーワード」が全て取得済みかチェックする。メモリ使用率増大のフラグAの場合は、「メモリを占有しているプロセス名」と「プロセスのログ中のエラーメッセージ」が対象となる。
ステップS1106において、静的情報DB114および動的情報DB115から情報導出用キーワードを全て取得できていない場合、システム情報取得部107は、システムエージェント121を介して不足している情報導出用キーワードを新たに取得する。取得する情報および取得方法は、情報取得手順テーブル111の内容に従う。ステップS1106の詳細については後述する(図15参照)。
そして、ステップS1107以降において、取得した情報導出用キーワードを元に原因・対策情報を収集することになる。ステップS1108から処理内容の具体例については、図12のステップS1202およびステップS1203において説明する。
図12は、DB更新部がサイト情報DBを更新する処理と、原因・対策情報導出部がサイト情報DBおよび原因候補DBを参照して原因・対策情報を導き出す処理の流れを示す図である。すなわち、図12には、原因候補DB116およびサイト情報DB117を交互に参照して、システム120で発生した障害の原因・対策情報を導き出す処理の流れを示している。サイト情報DB117は、複数のサイト情報DBがあり、具体的には、サイトA情報DB(117A)、サイトB情報DB(117B)、サイトC情報DB(117C)、・・・がある。
まず、DB更新部105は、サイト情報DB117に登録されている原因・対策情報の更新処理を実行する。DB更新部105は、障害情報Webサイト122にアクセスして、Webサイトに公開されている最新の障害原因・対策情報を取得し、サイト取得情報格納テーブル112(図5参照)に格納する。
次に、DB更新部105は、サイト取得情報テーブル112に一時格納した原因・対策情報と、サイト情報DB117(図10参照)の原因・対策情報候補1のカラム1005、原因・対策情報候補2のカラム1006、および原因・対策情報候補3以降のカラムとの内容を比較して、差分がある場合は、差分のあるカラムの内容をサイト取得情報テーブル112の中の該当する内容で更新する。
このとき、ステップS1201において、原因・対策情報候補1のカラム1005、原因・対策情報候補2のカラム1006、および原因・対策情報候補3以降の、各カラムに登録されている原因・対策情報の数(員数)、または、各カラムに登録されている各原因・対策情報の重み値の合計が大きい原因候補は、現象1004の概要キーワードで表す障害の原因である可能性が高いものと見なし、順序を並び替える。なお、各原因・対策情報の重み値の合計とは、図12の例においては、各カラムにひとつの原因・対策情報しか表示していないが、ひとつのカラムに複数の原因・対策情報がはいっている場合がある。この場合、各原因・対策情報の重み値を合計することを意味する。
例として、サイトA情報DB(117A)で概要キーワード「セマフォ」で表される原因・対策情報と、概要キーワード「OS障害」で表される原因・対策情報を比較すると、登録されている原因・対策情報の数はどちらも1だが、割り当てられている重み値は3と1で異なる。このため、サイトA情報DB(117A)の内容が更新された時点で概要キーワード「セマフォ」で表される原因・対策情報が原因・対策情報候補2のカラム1006に、概要キーワード「OS障害」で表される原因・対策情報が原因・対策情報候補1のカラム1005に格納されていた場合、重み値が大きい概要キーワード「セマフォ」で表される原因・対策情報が原因・対策情報候補1のカラム1005に、重み値が小さい概要キーワード「OS障害」で表される原因・対策情報が原因・対策情報候補2のカラム1006に格納されるように、並び替えが実行される。なお、「セマフォ」とは、並列に動作しているプロセス間で同期を取り、割り込み処理の制御を行う機構をいう。
並び替えの実行の際、「各カラムに登録されている原因・対策情報の数(員数)」と「各カラムに登録されている各原因・対策情報の重み値の合計」とが、相反する場合がある。例えば、原因・対策情報候補1のカラム1005には、員数が3であるが、その重み値が3(=1+1+1)であり、原因・対策情報候補2のカラム1006には、員数が2であるが、その重み値が4(=3+1)である。このときには、「各カラムに登録されている各原因・対策情報の重み値の合計」を優先適用するとよい。
次に、原因・対策情報導出部108は、システム120で障害が発生した場合に、障害の原因と対策を導き出す処理を実行する。システム情報取得部107は、障害の原因と対策を導き出すために必要となる情報導出用キーワードを、静的情報DB114、動的情報DB115、システムエージェント121を介して取得する。
続けて、ステップS1202で、システム情報取得部107は、原因候補901の中から情報導出用キーワードと一致するものを検索し、一致した原因候補901に対応する優先度1のカラム902、優先度2のカラム903、および優先度3以降のカラムに登録されている障害情報Webサイト122の情報を、サイト情報DB117から収集する。この時点では探索深度は0である。
情報導出用キーワードが「Webサーバ(例えば、Apache)」、「start failed」の場合、原因候補DB116の「Webサーバ」の行を参照して、優先度1のサイトAを情報の収集先とする。情報の収集先がサイトAの場合、現象1004の中からあらかじめ取得済みの情報導出用キーワードと一致するものを検索し、一致した現象1004に対応する原因・対策情報候補1のカラム1005、原因・対策情報候補2のカラム1006、および原因・対策情報候補3以降のカラムの内容を参照する。ここで参照する原因候補の数は、現象1004のチェック候補数に従う。まず先頭の原因・対策情報候補1のカラム1005に登録されている原因・対策情報を参照し、原因・対策情報と現象1004に登録されている現象の内容を、取得情報格納テーブル113に格納する。このときの「Webサーバ」の探索深度は1である。
同様に、原因候補DB116の「Webサーバ」の行を参照して、優先度2のサイトDを情報の収集先とする。このときの「Webサーバ」の探索深度は1のままである。
次に、システム情報取得部107は、原因・対策情報候補1のカラム1005に登録されている概要キーワードを参照して、その概要キーワードについて情報を収集するために必要な情報導出用キーワードを、情報取得手順テーブル111を参照して確認し、静的情報DB114と動的情報DB115から取得する。必要な情報導出用キーワードが静的情報DB114や動的情報DB115から取得できなかった場合は、システム情報取得部107がシステムエージェント121を介して、情報を新規取得する。
具体的には、原因・対策情報候補1のカラム1005に登録されている概要キーワードは、「セマフォ」であり、システム情報取得部107は、図4に示す項目401が「セマフォ」となっている部分を参照し、該当する情報取得手順403に従い、静的情報DB114と動的情報DB115から、必要な情報導出用キーワードを取得する。あるいは、システム情報取得部107が、システムエージェント121を介して必要な情報導出用キーワードを新規取得することになる。
なお、図7および図8に記載されている項目は一例であり、記載例以外に何種類もの項目が用意されている。「セマフォ」などいくつもの概要キーワードに対応する項目がある。その後、図9に示す原因候補DB116の原因候補901が「セマフォ」となっているサイトのサイト情報DB117を参照し、その中で現象1004に、情報導出用キーワードと合致する原因・対策情報を収集することになる。
すなわち、必要な情報導出用キーワードを全て取得完了後、ステップS1203において、原因・対策情報導出部108は、原因候補901の中で原因・対策情報候補1のカラム1005に登録されている概要キーワードと一致するものを検索し、一致した原因候補901に対応する優先度1のカラム902、優先度2のカラム903、および優先度3以降のカラムに登録されている障害情報Webサイト122の情報を、サイト情報DB117から収集する。このときの「Webサーバ」の探索深度は2となる。
探索深度について、図12の例をさらに詳細に説明する。まず、原因候補DB116の「Webサーバ」という情報導出用キーワードで該当する行を参照し、サイトA、サイトDなどの情報を格納したサイト情報から、原因・対策情報候補を取得する。この時点で、探索深度は1になる。続けて、原因・対策情報候補1に登録されている概要キーワード「セマフォ」、原因・対策情報候補2に登録されている「OS障害」を元に、再び原因候補DB116を参照する。「セマフォ」であれば、サイトB、サイトEなどの情報を格納したサイト情報DB117から原因・対策情報候補を取得する。同様に、「OS障害」であれば、サイトC、サイトFなどの情報を格納したサイト情報から原因・対策情報候補を取得する。この時点で、探索深度は2になる。
つまり、最初に参照した「Webサーバ」の欄が探索深度1であり、探索深度1のサイトから取得した情報を元に、更に派生情報を取得すべく参照した「セマフォ」や「OS障害」の欄が探索深度2となる。探索深度2のサイトから取得した情報を元に、更に派生情報を取得しに参照した欄が探索深度3というようにカウントしていく。こうして掘り下げを続けていき、探索深度1の欄に登録されている最初の原因候補(例えば、Webサーバ)の探索深度904(ここでは、10)に到達するまで、原則として掘り下げを行うことになる。
一方、ここで、原因・対策情報候補1のカラム1005に登録されている概要キーワードに関連する情報をサイト情報DB117から収集する際に、参照する原因候補の数は、原因・対策情報候補1のカラム1005に登録されているチェック候補数に従う。具体的には、図12の例のチェック候補数は、「start failed」の場合は「3」、「セマフォ」の場合は「2」、「OS障害」の場合は「1」である。
これらの、原因候補DB116とサイト情報DB117を交互に参照する処理を、探索深度904に登録されている探索深度の最大値に達するまで(図11のステップS1110,Noに相当)、あるいは、チェック候補数の最大値に達するまで(図11のステップS1111,Noに相当)まで繰り返し、最終的に取得情報格納テーブル113に格納された情報をコンソール101に出力する。なお、図12の例のステップS1110の探索深度の最大値は「10」で変化はしないが、ステップS1111のチェック候補数の最大値は、「start failed」の場合は「3」、「セマフォ」の場合は「2」、「OS障害」の場合は「1」と変化する。
また、ステップS1112において、複数の情報導出用キーワード(例えば、「セマフォ」、「OS障害」)があり、追加取得可能な情報があると判定された場合(ステップS1112、No)、優先度1として「セマフォ」、優先度2として、「OS障害」とする。複数の情報導出用キーワードに対して、それぞれ、図11の以下の処理ステップS1105からステップS1112を繰り返すことになる。なお、図11の処理フローは、処理の流れをわかりやすくするため、単一の情報導出用キーワードに対しての処理フローとして、示している。
図13は、DB更新部がサイト情報DBの更新処理を示すフローチャートである。図13には、サイト情報DB117に登録されている情報の更新処理の流れを示している。ステップS1301において、DB更新部105は、最初に、サイト情報DB117のURL1002(図10参照)を参照してURL情報を取得する。ステップS1302において、DB更新部105は、ステップS1301で取得したURLの障害情報Webサイト122にアクセスする。
ステップS1303において、DB更新部105は、サイトで公開されている障害情報の中から、サイト取得情報テーブル112(図5参照)のWebサイト検索用キーワード502に登録されている単語でヒットする障害の内容および原因・対策情報を抽出し、項番1のカラム503、および項番2以降のカラムに格納する。
ステップS1304において、DB更新部105は、サイト情報DB117(図10参照)の原因・対策情報候補1のカラム1005、原因・対策情報候補2のカラム1006、および原因・対策情報候補3以降のカラムに登録されている情報と、サイト取得情報テーブル112(図5参照)の項番1のカラム503、および項番2以降のカラムに格納した情報とを照合する。
ステップS1305において、DB更新部105は、照合した情報に差分があるか判定する。差分がない場合(ステップS1305,No)、ステップS1310に進む。差分がある場合(ステップS1305,Yes)、ステップS1306において、該当する障害情報についてサイト情報DB117に登録されている内容を、サイト取得情報テーブル112に格納した内容で追記・更新する。
ステップS1307において、DB更新部105は、原因・対策情報候補1のカラム1005、原因・対策情報候補2のカラム1006、および原因・対策情報候補3以降のカラムに登録されている原因・対策情報の数(員数)または原因・対策情報の重み値の合計が、更新処理の前後で変更されたか判定する。変更されていない場合(ステップS1307,No)、ステップS1309に進む。変更されている場合(ステップS1307,Yes)、ステップS1308において、登録されている原因・対策情報の数、または、原因・対策情報の重み値の合計の降順に原因候補が並ぶよう、順序のソート処理を実行する。ステップS1308の詳細は図12のステップS1201に示した。
ステップS1309において、DB更新部105は、差分のある全情報について更新済みか否かを判定する。すなわち、差分がある全ての情報について追記・更新処理およびソート処理が実行済みか判定する。実行済みでない場合(ステップS1309,No)、ステップS1306に戻る。実行済みの場合(ステップS1309,Yes)、ステップS1310に進む。
ステップS1310において、DB更新部105は、サイト取得情報テーブル112の内容を破棄する。そして、ステップS1311において、全Webサイトをチェック済みであるかを判定する。具体的には、サイトA、サイトB、サイトC、およびサイトD以降と、順に障害情報Webサイト122について、差分のチェック、追記・更新処理およびソート処理が実行済みか判定する。実行済みでない場合(ステップS1311,No)、ステップS1302に戻る。実行済みの場合(ステップS1311,Yes)、処理を終了する。
図14は、状態チェック部がシステムの状態変化をチェックする処理の一例を示すフローチャートである。図14には、メモリ使用率を判定するルーチンを例に、システム120の状態変化をチェックする処理の流れを示している。ステップS1401において、状態チェック部106は、静的情報DB114(図7参照)と動的情報DB115(図8参照)の内容を参照する。ステップS1402において、状態チェック部106は、チェック項目一覧テーブル110(図3参照)の内容を読み込む。
ステップS1403において、状態チェック部106は、ステップS1402で読み込んだチェック基準およびチェック方法に従い、システム120で障害が発生していないかをチェックする。図14の例では、メモリ使用率に関するチェックとして、ステップS1404で「1プロセスにおけるメモリ使用率が90%を超えるプロセスがあるか」を判定する。プロセスがない場合(ステップS1404,No)、ステップS1406に進む。プロセスがある場合(ステップS1404,Yes)、ステップS1405に進む。
ステップS1405において、状態チェック部106は、メモリ使用率の増大を示すフラグを立てる。ステップS1406において、状態チェック部106は、メモリに関する他のチェック項目、およびCPUやI/Oなどに関するチェック項目について判定を実行する。全てのチェック項目について判定の実行およびフラグ立てを完了した時点で処理を終了する。
図15は、システム情報取得部が情報導出用キーワードを取得する処理の一例を示すフローチャートである。図15には、メモリ使用率に関する情報導出用キーワードを抽出するルーチンを例に、システムエージェント121がシステム120の状態をチェックして未取得の情報導出用キーワードを取得する処理の流れを示している。
ステップS1501において、システム情報取得部107は、原因候補DB116(図9参照)およびサイト情報DB117(図10参照)を参照するために必要な情報導出用キーワードの中で、既に取得済みのものを確認する。図15の例では必要な全ての情報導出用キーワードを取得していないため、ステップS1502において、システム情報取得部107は、情報取得手順テーブル111(図4参照)の内容を参照して、静的情報DB114と動的情報DB115に登録されていない情報導出用キーワードをシステム120から新たに取得するための手順を読み込む。
ステップS1503において、システム情報取得部107は、ステップS1502において読み込んだ手順に従い、未取得の情報導出用キーワードの取得を開始する。図15の例では、ステップS1504において、メモリ使用率の増大を示すフラグが立っているか(フラグがONか)を判定する。フラグが立っていない場合(ステップS1504,No)、ステップS1512に進む。フラグが立っている場合(ステップS1504,Yes)、ステップS1505において、システム情報取得部107は、メモリ使用率に関する情報を取得する処理を行い、この例では、PSコマンドを実行してその結果からメモリリソースを多く占有しているプロセス名を特定する。
図15の例では、ステップS1506において、システム情報取得部107は、ステップS1505において特定したプロセスがWebサーバのプロセスか判定する。Webサーバのプロセスでない場合(ステップS1506,No)、ステップS1511に進む。Webサーバのプロセスである場合(ステップS1506,Yes)、ステップS1507に進む。
ステップS1507において、システム情報取得部107は、Webサーバのログファイルにエラーメッセージが出力されているか検索する。図15の例では、ステップS1508において、システム情報取得部107は、Webサーバのログファイルに“start failed”の表記があるか判定する。表記がない場合(ステップS1508,No)、ステップS1510に進む。表記がある場合(ステップS1508,Yes)、ステップS1509に進む。
ステップS1509において、システム情報取得部107は、“Webサーバ名”と“start failed”を情報導出用キーワードとして取得する。すなわち、具体的には、メモリ使用率増大のフラグが立っており、メモリを占有しているプロセスがApacheの場合、プロセス名(=Webサーバ名)「Apache」と、Apacheのログに記載されているメモリ周りの障害に関連するエラーメッセージ(“start fa
iled”)の2つが、情報導出用キーワードになる。
iled”)の2つが、情報導出用キーワードになる。
ステップS1510において、システム情報取得部107は、Webサーバのログファイルに、“start failed”以外のエラーメッセージが出力されているか(別メッセージ)を検索する。
ステップS1511において、システム情報取得部107は、Webサーバ以外のプロセスについて調査を実行する(調査に移る)。ステップS1512において、システム情報取得部107は、メモリ使用率の増大を示すフラグ以外のフラグ(別フラグ)について調査を実行する(調査に移る)。そして、必要となる情報導出用キーワードを全て取得した時点で処理を終了する。
図16は、原因・対策情報導出部が導き出した原因・対策情報のコンソールへの出力例を示す図である。図16には、コンソール101に出力する内容の例を示している。原因・対策情報導出部108は、システム120で発生している障害の原因・対策情報を導き出した後に、取得情報格納テーブル113の内容をコンソール101に出力する。すなわち、障害原因・対策情報一覧の表が、コンソール101の表示装置に表示される。
本実施形態の管理サーバ102は、Webサイトから商用ソフトウェアやオープンソースソフトウェアに関する最新の障害情報を入手し、その情報を元にタイムリーに更新され続けるデータベースを活用することで、システム120で発生している障害の原因・対策情報を導き出すことができる。
具体的には、障害の現象として「Webサーバが起動しない」場合、原因・対策情報の第1の候補(候補1)として、「セマフォを開放していないため」と考えられ、その対策としては、「Webサーバの使用リソースを開放する」ことがわかる。また、原因・対策情報の第2の候補(候補2)として、「OSに障害が発生しているため」と考えられ、その対策としては、「OSを再起動する」ことがわかる。
図16に示す例では、#1に、最初に参照した「Webサーバ」の欄(探索深度1)であり、チェック候補数3であるため、原因・対策情報候補が最大3つ表示される。該当する原因・対策候補となる情報は2つであることが示されている。また、#2および#3に、探索深度1のサイトから取得した情報を元に、更に派生情報を取得すべく参照した「セマフォ」や「OS障害」の欄(探索深度2)であり、それぞれチェック候補数2およびチェック候補数1であるため、該当欄に、原因・対策情報候補が2つおよび原因・対策情報候補が1つ表示されている。
図16に示すコンソール101の出力内容を表形式として示しているが、#1の原因・対策情報候補に対し、次の原因・対策情報候補を示すツリー形式に表示してもよい。この場合、#1の現象「Webサーバ・・・」のブロックと、複数の#1の原因・対策情報候補のブロックとが連係し、#1の原因・対策情報候補1の「セマフォ・・・」のブロックと、複数の#2の原因・対策情報候補のブロックとが連係する。各ブロックをマウスなどでクリックすると詳細な原因・対策情報を表示するとよい。
本実施形態の障害対策情報導出方法は、運用しているシステム120と、障害情報を提供する障害情報Webサイト122(障害情報提供サイト)と、ネットワーク205を介して接続される管理サーバ102において、DB更新部105(データベース更新部)と、状態チェック部106(状態監視部)と、システム情報取得部107と、原因・対策情報導出部108とにより、システムの障害の原因・対策情報を障害情報提供サイトから取得し、障害の原因・対策情報の候補を導出する。
管理サーバ102は、システムの監視項目と、監視項目の監視方法とを含む監視項目一覧情報(例えば、チェック項目一覧テーブル110)と、システムの監視項目と、障害の現象と、障害の情報を導出のキーワードである情報導出用キーワードを取得する手順とを含む情報取得手順情報(例えば、情報取得手順テーブル111)と、障害情報提供サイトのサイト名、障害の現象、障害の原因・対策情報を格納するサイト情報(例えば、サイト情報DB117)と、原因候補と、探索する障害情報提供サイト名とを関連付ける原因候補情報(例えば、原因候補DB116)と、が記憶部(例えば、外部記憶装置130)に記憶されている。
DB更新部105は、障害情報提供サイトに公開されている障害の内容および原因・対策情報を収集して、サイト情報に登録されている内容と照合し、差分がある場合はサイト情報に登録されている内容を更新し(例えば、ステップS1101)、状態チェック部106は、システムから取得した静的情報(例えば、静的情報DB114)および動的情報(例えば、動的情報DB115)から、監視項目一覧情報に該当するものがあるか否かを判定し(例えば、ステップS1102)、システム情報取得部107は、情報取得手順情報に基づいて、システム120から情報を収集し、情報導出用キーワードを取得し(例えば、ステップ1104)、原因・対策情報導出部108は、原因候補情報から情報導出用キーワードに該当するサイトを特定し(例えば、ステップS1107)、サイト情報から特定されたサイトの情報導出用キーワードに該当する原因・対策情報の候補となる情報を取得する(例えば、ステップS1108)。
本実施形態の原因・対策情報導出部108は、原因・対策情報の候補となる情報の中に、現象に関連する関連情報の情報導出用キーワード(例えば、図12の「セマフォ」)を抽出し、原因候補情報から関連情報の情報導出用キーワードに該当するサイトを特定し、サイト情報から特定されたサイトの情報導出用キーワードに該当する原因・対策情報の候補となる情報を取得する。
本実施形態の原因候補情報には、原因候補を探索する際の深さを表す探索深度の閾値(例えば、図9の探索深度904の値)が関連付けられており、原因・対策情報導出部108は、原因候補ごとの探索ごとに探索回数を加算し、探索深度の閾値に達するまで、原因・対策情報の候補となる情報を取得する(例えば、ステップS1110)。
本実施形態のサイト情報には、障害の現象を取得する際に、サイト情報に登録されている情報の中から参照する情報の員数(例えば、チェック候補数)が関連付けられており、原因・対策情報導出部108は、参照する情報の員数に達するまで、原因・対策情報の候補となる情報を取得する(例えば、ステップS1111)。
本実施形態のDB更新部105は、サイト情報を更新する際に、更新する情報が障害情報提供サイトに内容が公開されてからの期間に応じて、原因・対策情報に関連付けて重み値を設定し、サイト情報における各サイトの障害の原因・対策情報の候補にあげられている原因・対策情報ごとの重み値の合計の降順に原因候補が並ぶように、原因・対策情報の候補の順序についてソート処理を実行する(例えば、ステップS1308)。
本実施形態では、Webサイトに公開されている障害情報の中から確度の高い情報を抽出することにより、システムに発生した障害の原因と対策を迅速かつ的確に導き出す効果がある。
101 コンソール
102 管理サーバ
103 メモリ
104 原因・対策情報取得機構部
105 DB更新部(データベース更新部)
106 状態チェック部(状態監視部)
107 システム情報取得部
108 原因・対策情報導出部
109 テーブル群
110 チェック項目一覧テーブル(監視項目一覧情報)
111 情報取得手順テーブル(情報取得手順情報)
112 サイト取得情報テーブル
113 取得情報格納テーブル
114 静的情報DB(静的情報)
115 動的情報DB(動的情報)
116 原因候補DB(原因候補情報)
117 サイト情報DB(サイト情報)
118 プロセッサ
119 NIC
120 システム
121 システムエージェント
122 障害情報Webサイト(障害情報提供サイト)
130 外部記憶装置(記憶部)
131 バス
205 ネットワーク
904 探索深度
102 管理サーバ
103 メモリ
104 原因・対策情報取得機構部
105 DB更新部(データベース更新部)
106 状態チェック部(状態監視部)
107 システム情報取得部
108 原因・対策情報導出部
109 テーブル群
110 チェック項目一覧テーブル(監視項目一覧情報)
111 情報取得手順テーブル(情報取得手順情報)
112 サイト取得情報テーブル
113 取得情報格納テーブル
114 静的情報DB(静的情報)
115 動的情報DB(動的情報)
116 原因候補DB(原因候補情報)
117 サイト情報DB(サイト情報)
118 プロセッサ
119 NIC
120 システム
121 システムエージェント
122 障害情報Webサイト(障害情報提供サイト)
130 外部記憶装置(記憶部)
131 バス
205 ネットワーク
904 探索深度
Claims (6)
- 運用しているシステムと、障害情報を提供する障害情報提供サイトと、ネットワークを介して接続される管理サーバにおいて、データベース更新部と、状態監視部と、システム情報取得部と、原因・対策情報導出部とにより、前記システムの障害の原因・対策情報を前記障害情報提供サイトから取得し、前記障害の原因・対策情報の候補を導出する障害対策情報導出方法であって、
前記管理サーバは、
前記システムの監視項目と、前記監視項目の監視方法とを含む監視項目一覧情報と、
前記システムの監視項目と、障害の現象と、前記障害の情報を導出のキーワードである情報導出用キーワードを取得する手順とを含む情報取得手順情報と、
前記障害情報提供サイトのサイト名、前記障害の現象、前記障害の原因・対策情報を格納するサイト情報と、
前記原因候補と、探索する障害情報提供サイト名とを関連付ける原因候補情報と、が記憶部に記憶されており、
前記データベース更新部は、前記障害情報提供サイトに公開されている障害の内容および原因・対策情報を収集して、前記サイト情報に登録されている内容と照合し、差分がある場合は前記サイト情報に登録されている内容を更新し、
前記状態監視部は、前記システムから取得した静的情報および動的情報から、前記監視項目一覧情報に該当するものがあるか否かを判定し、
前記システム情報取得部は、前記情報取得手順情報に基づいて、前記システムから情報を収集し、前記情報導出用キーワードを取得し、
前記原因・対策情報導出部は、前記原因候補情報から前記情報導出用キーワードに該当するサイトを特定し、前記サイト情報から前記特定されたサイトの前記情報導出用キーワードに該当する前記原因・対策情報の候補となる情報を取得する
ことを特徴とする障害対策情報導出方法。 - 前記原因・対策情報導出部は、前記原因・対策情報の候補となる情報の中に、前記現象に関連する関連情報の情報導出用キーワードを抽出し、前記原因候補情報から前記関連情報の情報導出用キーワードに該当するサイトを特定し、前記サイト情報から前記特定されたサイトの前記情報導出用キーワードに該当する前記原因・対策情報の候補となる情報を取得する
ことを特徴とする請求項1に記載の障害対策情報導出方法。 - 前記原因候補情報には、前記原因候補を探索する際の深さを表す探索深度の閾値が関連付けられており、
前記原因・対策情報導出部は、前記原因候補ごとの探索ごとに探索回数を加算し、前記探索深度の閾値に達するまで、前記原因・対策情報の候補となる情報を取得する
ことを特徴とする請求項2に記載の障害対策情報導出方法。 - 前記サイト情報には、前記障害の現象を取得する際に、前記サイト情報に登録されている情報の中から参照する情報の員数が関連付けられており、
前記原因・対策情報導出部は、前記参照する情報の員数に達するまで、前記原因・対策情報の候補となる情報を取得する
ことを特徴とする請求項1に記載の障害対策情報導出方法。 - 前記データベース更新部は、
前記サイト情報を更新する際に、更新する情報が前記障害情報提供サイトに内容が公開されてからの期間に応じて、前記原因・対策情報に関連付けて重み値を設定し、
前記サイト情報における各サイトの前記障害の原因・対策情報の候補にあげられている原因・対策情報ごとの前記重み値の合計の降順に原因候補が並ぶように、前記原因・対策情報の候補の順序についてソート処理を実行する
ことを特徴とする請求項1に記載の障害対策情報導出方法。 - 運用しているシステムと、障害情報を提供する障害情報提供サイトと、ネットワークを介して接続され、前記システムの障害の原因・対策情報を前記障害情報提供サイトから取得し、前記障害の原因・対策情報の候補を導出する管理サーバであって、
前記システムの監視項目と、前記監視項目の監視方法とを含む監視項目一覧情報と、
前記システムの監視項目と、障害の現象と、前記障害の情報を導出のキーワードである情報導出用キーワードを取得する手順とを含む情報取得手順情報と、
前記障害情報提供サイトのサイト名、前記障害の現象、前記障害の原因・対策情報を格納するサイト情報と、
前記原因候補と、探索する障害情報提供サイト名とを関連付ける原因候補情報と、を記憶した記憶部を有するとともに、
前記障害情報提供サイトに公開されている障害の内容および原因・対策情報を収集して、前記サイト情報に登録されている内容と照合し、差分がある場合は前記サイト情報に登録されている内容を更新するデータベース更新部と、
前記システムから取得した静的情報および動的情報から、前記監視項目一覧情報に該当するものがあるか否かを判定する状態監視部と、
前記情報取得手順情報に基づいて、前記システムから情報を収集し、前記情報導出用キーワードを取得するシステム情報取得部と、
前記原因候補情報から前記情報導出用キーワードに該当するサイトを特定し、前記サイト情報から前記特定されたサイトの前記情報導出用キーワードに該当する前記原因・対策情報の候補となる情報を取得する原因・対策情報導出部と、を有する
ことを特徴とする管理サーバ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009274322A JP2011118575A (ja) | 2009-12-02 | 2009-12-02 | 障害対策情報取得方法および管理サーバ |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009274322A JP2011118575A (ja) | 2009-12-02 | 2009-12-02 | 障害対策情報取得方法および管理サーバ |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011118575A true JP2011118575A (ja) | 2011-06-16 |
Family
ID=44283837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009274322A Pending JP2011118575A (ja) | 2009-12-02 | 2009-12-02 | 障害対策情報取得方法および管理サーバ |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011118575A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017135226A1 (ja) * | 2016-02-05 | 2017-08-10 | コニカミノルタ株式会社 | 情報処理システム及び情報処理方法 |
KR101913698B1 (ko) * | 2017-11-14 | 2018-11-01 | (주)유호스트 | 외부 측정 노드 기반 웹사이트 모니터링 장치, 외부 측정 노드 기반 웹사이트 모니터링 방법 |
-
2009
- 2009-12-02 JP JP2009274322A patent/JP2011118575A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017135226A1 (ja) * | 2016-02-05 | 2017-08-10 | コニカミノルタ株式会社 | 情報処理システム及び情報処理方法 |
JPWO2017135226A1 (ja) * | 2016-02-05 | 2018-11-29 | コニカミノルタ株式会社 | 情報処理システム及び情報処理方法 |
KR101913698B1 (ko) * | 2017-11-14 | 2018-11-01 | (주)유호스트 | 외부 측정 노드 기반 웹사이트 모니터링 장치, 외부 측정 노드 기반 웹사이트 모니터링 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6048038B2 (ja) | 情報処理装置,プログラム,情報処理方法 | |
US9411673B2 (en) | Management server, management system, and management method | |
JP4458493B2 (ja) | ログ通知条件定義支援装置とログ監視システムおよびプログラムとログ通知条件定義支援方法 | |
KR101797185B1 (ko) | 분산 환경에서 효율적으로 트랜젝션-분리 메트릭들을 수집하는 방법 | |
CN108647357B (zh) | 数据查询的方法及装置 | |
US20140108087A1 (en) | Log management system and log management method | |
US20150222731A1 (en) | Computer, guide information providing method and recording medium | |
JP2011076292A (ja) | 取得可能な機器情報に応じた障害原因解析ルールの設計方法及び計算機 | |
US20080133973A1 (en) | Data processing method and data analysis apparatus | |
US8914798B2 (en) | Production control for service level agreements | |
JP4928848B2 (ja) | 計算機システム統合管理環境におけるメッセージ変換装置 | |
JP5294002B2 (ja) | 文書管理システム、文書管理プログラム及び文書管理方法 | |
US20220164703A1 (en) | Model acceptance determination support system and model acceptance determination support method | |
JP2012003406A (ja) | 障害原因判定ルール検証装置及びプログラム | |
JP2003216457A (ja) | エラーログ収集解析エージェントシステム | |
JP5395719B2 (ja) | 障害原因解析システムにおけるルール生成装置及びそのプログラム | |
JP2018081403A (ja) | インシデント管理システム、インシデント管理方法およびコンピュータプログラム | |
JP2016024706A (ja) | ログ管理システム、ログ管理方法及びプログラム | |
JP2005258501A (ja) | 障害影響範囲解析システム及び障害影響範囲解析方法及びプログラム | |
JP2011118575A (ja) | 障害対策情報取得方法および管理サーバ | |
JP6901533B2 (ja) | 計算機システム及び業務の支援方法 | |
CN113094088A (zh) | 数据库配置信息采集方法、装置、计算机设备及存储介质 | |
JP5444071B2 (ja) | 障害情報収集システムと方法およびプログラム | |
JP2017069912A (ja) | ネットワーク監視装置およびネットワーク監視方法 | |
JP2017040962A (ja) | 管理プログラム、管理装置及び管理方法 |