JP2014120001A - 監視装置、監視対象ホストの監視方法、監視プログラム及び記録媒体 - Google Patents
監視装置、監視対象ホストの監視方法、監視プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP2014120001A JP2014120001A JP2012275113A JP2012275113A JP2014120001A JP 2014120001 A JP2014120001 A JP 2014120001A JP 2012275113 A JP2012275113 A JP 2012275113A JP 2012275113 A JP2012275113 A JP 2012275113A JP 2014120001 A JP2014120001 A JP 2014120001A
- Authority
- JP
- Japan
- Prior art keywords
- log
- monitoring
- information
- transition
- host
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
【課題】監視対象ホストを監視する場合の監視負荷の軽減を図りながら、精度良く障害を検知可能とする監視装置を得る。
【課題手段】監視対象ホスト2のサイレント障害の発生を監視する監視装置において、監視対象ホスト2のログ情報を読み込むログ読込部11と、読み込まれたログ情報を分類するログクラスタリング部12と、ログクラスタリング部12によるログ分類結果を基に平常時のログ遷移モデルを作成する平常モデル生成部13と、ログ分類結果とログ遷移モデルとからログ遷移を分析するログ分析部14と、ログ分析結果に基づきログ変化があったときに監視対象ホスト2へ診断指示を行う性能診断指示部15と、監視対象ホスト2からの性能情報とログ情報に基づき監視対象ホストにおける障害の有無を判断する障害判断部16とを備えて成る。
【選択図】図1
【課題手段】監視対象ホスト2のサイレント障害の発生を監視する監視装置において、監視対象ホスト2のログ情報を読み込むログ読込部11と、読み込まれたログ情報を分類するログクラスタリング部12と、ログクラスタリング部12によるログ分類結果を基に平常時のログ遷移モデルを作成する平常モデル生成部13と、ログ分類結果とログ遷移モデルとからログ遷移を分析するログ分析部14と、ログ分析結果に基づきログ変化があったときに監視対象ホスト2へ診断指示を行う性能診断指示部15と、監視対象ホスト2からの性能情報とログ情報に基づき監視対象ホストにおける障害の有無を判断する障害判断部16とを備えて成る。
【選択図】図1
Description
本発明は、複数の監視対象ホストのサイレント障害(発生しても症状が出ない障害)を監視する監視サーバを備えた監視システムに関し、特に、サイレント障害の発生を確実に検出する監視装置、監視対象ホストの監視方法、監視プログラム及び記録媒体に関する。
従来から、Webサーバやメールサーバ等のサーバシステムにおけるサイレント障害に関しては、監視対象ホストとなるサーバから出力されるテキストのログであるシスログ(syslog)のモニタリングや、CPU負荷、メモリ利用量、I/O待ち数、パケット数等のリソース情報をチェックすることで、サイレント障害発生の有無を判断する手法が行われていた。
例えば、コンピュータ化されたシステム又はプロセスの動作の異常を検出する技術は、特許文献1に開示されている。
例えば、コンピュータ化されたシステム又はプロセスの動作の異常を検出する技術は、特許文献1に開示されている。
しかしながら、上述した手法であると、リソース情報を基に障害の有無を判断するため、障害発生に関して精度良い判断ができないという課題があった。また、全ての監視対象ホストに対してログ情報を定期的にモニタリングする必要があるため、監視するトラフィック量が多くなり監視負荷も高くなるという課題があった。
本発明は上記実情に鑑みて提案されたもので、監視対象ホストを監視する場合の監視負荷の軽減を図りながら、精度良く障害を検知可能とする監視装置、監視対象ホストの監視方法、監視プログラム及び記録媒体を提供することを目的としている。
上記目的を達成するため本発明は、仮想ホストが出力したログの分析結果と、性能情報のチェックによる診断結果を合わせてサーバシステムを診断し障害を検知する監視装置、監視対象ホストの監視方法、監視プログラム及び記録媒体である。
すなわち、本発明の監視装置(請求項1)は、監視対象ホストのサイレント障害の発生を監視する監視装置において、次の各構成を備えたことを特徴としている。
前記監視対象ホストのログ情報を読み込むログ読込部。
読み込まれたログ情報を分類するログクラスタリング部。
前記ログクラスタリング部によるログ分類結果を基に平常時のログ遷移モデルを作成する平常モデル生成部。
前記ログ分類結果と前記ログ遷移モデルとからログ遷移を分析するログ分析部。
ログ分析結果に基づきログ変化があったときに前記監視対象ホスト側へ診断指示を行う診断指示部。監視対象ホスト側とは、監視対象ホストと、監視対象ホスト上に構築される仮想マシンを含む。
前記監視対象ホスト側からの性能情報と前記ログ情報に基づき監視対象ホストにおける障害の有無を判断する障害判断部。
すなわち、本発明の監視装置(請求項1)は、監視対象ホストのサイレント障害の発生を監視する監視装置において、次の各構成を備えたことを特徴としている。
前記監視対象ホストのログ情報を読み込むログ読込部。
読み込まれたログ情報を分類するログクラスタリング部。
前記ログクラスタリング部によるログ分類結果を基に平常時のログ遷移モデルを作成する平常モデル生成部。
前記ログ分類結果と前記ログ遷移モデルとからログ遷移を分析するログ分析部。
ログ分析結果に基づきログ変化があったときに前記監視対象ホスト側へ診断指示を行う診断指示部。監視対象ホスト側とは、監視対象ホストと、監視対象ホスト上に構築される仮想マシンを含む。
前記監視対象ホスト側からの性能情報と前記ログ情報に基づき監視対象ホストにおける障害の有無を判断する障害判断部。
請求項2は、請求項1の監視装置において、前記診断指示部及び障害判断部は、前記ログ分析結果に基づくログ変化があったログ情報に関連する情報を優先的に診断することで障害の有無を判断することを特徴としている。
請求項3は、請求項1又は請求項2の監視装置において、前記ログ変化があった時とは、前記ログ遷移モデルに対する前記ログ遷移の遷移確率の高低を監視し、予め定めた閾値を下回る遷移確率が低い遷移を発見した場合であることを特徴としている。
請求項4は、請求項1の監視装置において、
前記ログクラスタリング部は、
前記ログ情報のログメッセージ中におけるカンマ(,)やコロン(:)等をデリミタとして抽出した文字列の結合を一つのカテゴリーとする
ことを特徴としている。
前記ログクラスタリング部は、
前記ログ情報のログメッセージ中におけるカンマ(,)やコロン(:)等をデリミタとして抽出した文字列の結合を一つのカテゴリーとする
ことを特徴としている。
本発明方法(請求項5)は、複数の監視対象ホストと、各監視対象ホストのサイレント障害の発生を監視する監視サーバを備えた監視システムによる監視方法において、
前記監視対象ホストのログ情報を前記監視サーバに定期的に転送するログ転送ステップと、
転送されたログ情報のログ遷移の変化を分析するログ変化分析ステップと、
前記ログ変化分析ステップで予め登録された平常時のログ遷移モデルに対するログ遷移の変化が検出された場合に前記監視対象ホスト側へ診断指示を行う診断指示ステップと、
前記診断指示を受けた監視対象ホスト側が前記監視サーバに性能情報を転送する性能情報転送ステップと、
前記転送を受けた監視サーバが前記ログ分析結果に基づくログ変化があったログ情報と前記性能情報から障害判定を行う障害判定ステップと
を備えたことを特徴としている。
前記監視対象ホストのログ情報を前記監視サーバに定期的に転送するログ転送ステップと、
転送されたログ情報のログ遷移の変化を分析するログ変化分析ステップと、
前記ログ変化分析ステップで予め登録された平常時のログ遷移モデルに対するログ遷移の変化が検出された場合に前記監視対象ホスト側へ診断指示を行う診断指示ステップと、
前記診断指示を受けた監視対象ホスト側が前記監視サーバに性能情報を転送する性能情報転送ステップと、
前記転送を受けた監視サーバが前記ログ分析結果に基づくログ変化があったログ情報と前記性能情報から障害判定を行う障害判定ステップと
を備えたことを特徴としている。
請求項6は、請求項5の監視対象ホストの監視方法において、前記ログ変化があったログ情報とは、平常時のログ遷移モデルに対する前記ログ遷移の遷移確率の高低を監視し、予め定めた閾値を下回る遷移確率が低い遷移のログ情報であることを特徴としている。
請求項7は、請求項5の監視対象ホストの監視方法において、前記性能情報転送ステップにおいて前記監視対象ホスト側の性能診断を行い、その情報を前記監視サーバに転送するプログラムは、前記監視対象ホスト上に構築された仮想マシン内に実装されたことを特徴としている。
請求項8は、請求項5の監視対象ホストの監視方法において、前記性能情報転送ステップにおいて前記監視対象ホスト側の性能診断を行い、その情報を前記監視サーバに転送するプログラムは、前記監視対象ホスト内に実装されたことを特徴としている。
請求項9は、請求項5の監視対象ホストの監視方法において、前記性能情報転送ステップにおいて前記監視対象ホスト側の性能診断を行い、その情報を前記監視サーバに転送するプログラムは、前記監視対象ホスト上に構築された仮想マシン内に実装されたプラットフォームに、前記診断指示ステップにおける診断指示に際して転送されることを特徴としている。
請求項10は、請求項5の監視対象ホストの監視方法において、前記性能情報転送ステップにおいて前記監視対象ホスト側の性能診断を行い、その情報を前記監視サーバに転送するプログラムは、前記監視対象ホスト内に実装されたプラットフォームに、前記診断指示ステップにおける診断指示に際して転送されることを特徴としている。
請求項11は、請求項5に記載の監視対象ホストの監視方法の各ステップをコンピュータにより実行することが可能な監視プログラムである。
請求項12は、請求項11に記載の監視プログラムが格納されたことを特徴とするコンピュータに読み取り可能な記録媒体である。
本発明によれば、ログ分析とともに性能情報のチェックを行うことにより、サーバシステムにおける障害発生の有無確認についての精度を高めることができる。
また、ログ変化が生じた場合にのみ、監視対象ホスト側(監視対象ホスト又は監視対象ホスト上に構築された仮想マシン)の性能情報のチェックが行われるため、監視するトラフィック量を少なくし、監視負荷の軽減を図ることができる。
更に、変化したログに関連する性能情報を優先的にチェックすることで、診断に必要な無駄な処理を省くことができる。
更に、変化したログに関連する性能情報を優先的にチェックすることで、診断に必要な無駄な処理を省くことができる。
本発明の監視装置の実施形態の一例について、図1を参照しながら説明する。
監視装置は、監視対象となる複数の仮想ホスト(ハイパーバイザ)との間で情報(ログ出力、ログ分析、性能診断)のやり取りを行うとともに、各仮想ホスト(監視対象ホスト)の運用者に対してメールやWeb等から障害検知結果の通知を行う。
監視装置は、監視対象となる複数の仮想ホスト(ハイパーバイザ)との間で情報(ログ出力、ログ分析、性能診断)のやり取りを行うとともに、各仮想ホスト(監視対象ホスト)の運用者に対してメールやWeb等から障害検知結果の通知を行う。
監視装置の主要部である監視部10は、ログ読込部11と、ログクラスタリング部12と、平常モデル生成部13と、ログ分析部14と、性能診断指示部15と、障害判断部16と、アラーム発行部17を備えて構成されている。
ログ読込部11は、各仮想ホスト(ハイパーバイザ)で日々発生する各種のログ情報(syslog)21を仮想ホスト毎に定期的に読み込む。
ログ読込部11は、各仮想ホスト(ハイパーバイザ)で日々発生する各種のログ情報(syslog)21を仮想ホスト毎に定期的に読み込む。
ログクラスタリング部12は、一つの仮想ホストに対して読み込まれた不定形なログ情報(syslog)をカテゴリー毎に分類する(カテゴライズ)。ログ情報(syslog)21は、時刻、ホスト名、プログラム名等の情報が含まれている。カテゴリーは、ログ情報(syslog)21を構成するフォーマット項目の数や種類により複数のカテゴリーに分類される。例えば、図2のように、一つの仮想ホストから読み込まれた各ログ情報について、フォーマット項目の数や種類(ログ情報の"Aug 7 19:00:04 172.26.99.99 Vpxa:"に続くメッセージ部分の形式)から同種のログ情報同士をカテゴリーA,B,C,D…に分類する。
より具体的には、例えば、ログ情報(ヘッダー及びカテゴリーメッセージ)が、
Aug 7 19:00:04 172.26.99.99 Vpxa:
axyMoSoapCli[08999]:[4]:WARN: 11060002:Recv Error Response, no=<099>, tid=<>, msgid=<01.abc-x-02.999999.2.00000.000.000.20121115145040>,
sts=<0x1111111C:APP_FAULT:An exception raised by the service>
である場合、ログメッセージ中におけるカンマ(,)をデリミタとした1番目の項目をコロン(:)で分解して最後となる項目である文字列"Recv Error Response"を抽出する。
次に、カンマ(,)をデリミタとした2番目以降の項目に関して、<*>の部分をNullに変換したボ字列"no tid msgid sts"を抽出する。
抽出した2つの文字列を結合した"Recv Error Response no tid msgid sts"を一つのカテゴリーとして分類する。
すなわち、ログクラスタリング部12では、ログメッセージ中におけるカンマ(,)をデリミタとした1番目の項目をコロン(:)で分解して最後となる項目を抽出した文字列と、カンマ(,)をデリミタとした2番目以降の項目に関して、<*>の部分をNullに変換して抽出された文字列との結合を一つのカテゴリーとして分類する。
Aug 7 19:00:04 172.26.99.99 Vpxa:
axyMoSoapCli[08999]:[4]:WARN: 11060002:Recv Error Response, no=<099>, tid=<>, msgid=<01.abc-x-02.999999.2.00000.000.000.20121115145040>,
sts=<0x1111111C:APP_FAULT:An exception raised by the service>
である場合、ログメッセージ中におけるカンマ(,)をデリミタとした1番目の項目をコロン(:)で分解して最後となる項目である文字列"Recv Error Response"を抽出する。
次に、カンマ(,)をデリミタとした2番目以降の項目に関して、<*>の部分をNullに変換したボ字列"no tid msgid sts"を抽出する。
抽出した2つの文字列を結合した"Recv Error Response no tid msgid sts"を一つのカテゴリーとして分類する。
すなわち、ログクラスタリング部12では、ログメッセージ中におけるカンマ(,)をデリミタとした1番目の項目をコロン(:)で分解して最後となる項目を抽出した文字列と、カンマ(,)をデリミタとした2番目以降の項目に関して、<*>の部分をNullに変換して抽出された文字列との結合を一つのカテゴリーとして分類する。
平常モデル生成部13は、ログ情報をカテゴリー毎に分類し(カテゴライズ)、その分類結果を基に平常時におけるログ情報のログ遷移モデルを作成する。例えば、ログ情報をカテゴリーA,B,C,Dに分類した図2の場合、遷移元と遷移先の平常モデルとして「カテゴリーAからB」「カテゴリーAからD」「カテゴリーBからC」「カテゴリーCからA」が登録(モデル化)22される。
平常時におけるログ情報のログ遷移モデルは、例えば障害のないログ情報の1か月分から予め複数のログ遷移モデルとして登録しておく。
また、障害のないログ情報のログ遷移モデルは、平常モデルとして常時追加されるように構成してもよい。
平常時におけるログ情報のログ遷移モデルは、例えば障害のないログ情報の1か月分から予め複数のログ遷移モデルとして登録しておく。
また、障害のないログ情報のログ遷移モデルは、平常モデルとして常時追加されるように構成してもよい。
ログ分析部14は、新たに読み込まれたログ情報のログ分類結果と、平常モデル生成部13で作成され記録されているログ遷移モデルを比較し、ログ分類結果によるログ遷移がログ遷移モデルに無い場合、又は、遷移確率が低い場合をログ変化と認定する処理が行われる。
例えば、ログ遷移がログ遷移モデルに無い場合を例に説明すると、平常モデルとして「カテゴリーAからB」「カテゴリーAからD」「カテゴリーBからC」「カテゴリーCからA」が登録(モデル化)されている場合に、「カテゴリーBからC」「カテゴリーCからB」「カテゴリーAからB」「カテゴリーBからA」「カテゴリーCからA」といった遷移を検知したとすると、「カテゴリーCからB」と「カテゴリーBからA」が平常モデルに無いため、新規遷移(ログ変化の認定による異常検知)を検出したことになる。
そして、ログ分析部14がログ変化を検知した場合、チェック指示信号を性能診断指示部15に出力し、この信号を受けた性能診断指示部15は、監視対象ハイパーバイザ(仮想ホスト)側に対して性能診断を指示する。
例えば、ログ遷移がログ遷移モデルに無い場合を例に説明すると、平常モデルとして「カテゴリーAからB」「カテゴリーAからD」「カテゴリーBからC」「カテゴリーCからA」が登録(モデル化)されている場合に、「カテゴリーBからC」「カテゴリーCからB」「カテゴリーAからB」「カテゴリーBからA」「カテゴリーCからA」といった遷移を検知したとすると、「カテゴリーCからB」と「カテゴリーBからA」が平常モデルに無いため、新規遷移(ログ変化の認定による異常検知)を検出したことになる。
そして、ログ分析部14がログ変化を検知した場合、チェック指示信号を性能診断指示部15に出力し、この信号を受けた性能診断指示部15は、監視対象ハイパーバイザ(仮想ホスト)側に対して性能診断を指示する。
性能診断は、監視対象ハイパーバイザ(仮想ホスト)2や仮想マシン3において通常の処理が行えるかどうかを検知するもので、例えば、ディスクI/O性能、検査処理時間、RTT、Webアクセス、マイグレーション、改竄、ウィルスチェック等を実行し、その状態をチェックすることで行われる。
この性能診断(性能情報のチェック)は、ログ分析部14がログ変化を検知したログに関連する性能情報を優先的に診断する。
ディスクI/O性能は、指定されるバイト数のファイルを実際に書込み/読込みし、その入出力時間を測定する。
この性能診断(性能情報のチェック)は、ログ分析部14がログ変化を検知したログに関連する性能情報を優先的に診断する。
ディスクI/O性能は、指定されるバイト数のファイルを実際に書込み/読込みし、その入出力時間を測定する。
検査処理時間は、設定されたプログラムを実際に動作させ、その処理時間を測定する。RTTは、指定されるホストへのpingを発行し、その応答時間を測定する。
Webアクセスは、指定されるサイトへのアクセスを発行し、その応答時間を測定する。
マイグレーションは、仮想サーバをマイグレーションし、処理時間を測定する。
そして、ディスクI/O性能、検査処理時間、RTT、Webアクセス、マイグレーションでの測定結果は、設定ファイルに指定される閾値と比較することで正常・異常を判断する。
なお、改竄及びウィルスチェックは、ウィルス対策ソフトに指定される閾値と比較して正常・異常を判断する。
Webアクセスは、指定されるサイトへのアクセスを発行し、その応答時間を測定する。
マイグレーションは、仮想サーバをマイグレーションし、処理時間を測定する。
そして、ディスクI/O性能、検査処理時間、RTT、Webアクセス、マイグレーションでの測定結果は、設定ファイルに指定される閾値と比較することで正常・異常を判断する。
なお、改竄及びウィルスチェックは、ウィルス対策ソフトに指定される閾値と比較して正常・異常を判断する。
障害判断部16は、性能情報による性能チェックを加味して障害の有無を判断する。すなわち、仮想ホスト2や仮想マシン3の具体的な性能情報をチェックすることで、障害発生の有無を確実に検出することができる。
アラーム発行部17は、障害が有と判断された場合、アラート機能により運用者に対して告知する。運用者へは、アラーム発行に代えて、メールやWebからの告知であってもよい。
アラーム発行部17は、障害が有と判断された場合、アラート機能により運用者に対して告知する。運用者へは、アラーム発行に代えて、メールやWebからの告知であってもよい。
次に、上述した監視装置による処理手順について、図3の監視システムの主要部を表示したブロック図と、図4のフローチャートを参照しながら説明する。
監視システムは、複数の監視対象ハイパーバイザ(監視対象ホスト)2と、各監視対象ホストのサイレント障害の発生を監視する監視装置(監視サーバ)1を備えて構成されている。監視装置(監視サーバ)1は、Linux(登録商標)等の一般的なオペレーティングシステム(OS)を含む基本プログラムや各種の基本デバイスが記憶されたROMと、各種のプログラムやデータが記憶されるハードディスクドライブ装置(HDD)と、CR−ROMやDVD等の記憶媒体からプログラムやデータを読み出すメディアドライブ装置と、プログラムを実行するCPUと、このCPUにワークエリアを提供するRAMと、外部装置と通信するパラレル/シリアルIFとを主要な構成としたコンピュータで構成され、記録媒体等を介して監視プログラムがHDDに格納されることで、各監視対象ハイパーバイザ2のサイレント障害を検知可能なように構成されている。
監視システムは、複数の監視対象ハイパーバイザ(監視対象ホスト)2と、各監視対象ホストのサイレント障害の発生を監視する監視装置(監視サーバ)1を備えて構成されている。監視装置(監視サーバ)1は、Linux(登録商標)等の一般的なオペレーティングシステム(OS)を含む基本プログラムや各種の基本デバイスが記憶されたROMと、各種のプログラムやデータが記憶されるハードディスクドライブ装置(HDD)と、CR−ROMやDVD等の記憶媒体からプログラムやデータを読み出すメディアドライブ装置と、プログラムを実行するCPUと、このCPUにワークエリアを提供するRAMと、外部装置と通信するパラレル/シリアルIFとを主要な構成としたコンピュータで構成され、記録媒体等を介して監視プログラムがHDDに格納されることで、各監視対象ハイパーバイザ2のサイレント障害を検知可能なように構成されている。
各監視対象ハイパーバイザ(仮想ホスト)2上には、DNSサーバ、Mailサーバ,Webサーバ,sambaサーバ等の複数の仮想マシン3が構築され、監視装置1及び監視対象ハイパーバイザ(仮想ホスト)2に搭載されたプログラム(syslogd)が連携して、監視装置1に対して各監視対象ハイパーバイザ(仮想ホスト)2のログ情報が定期的に読み込まれ(syslog転送)、複数のsyslogファイルが作成される(ステップ41)。
監視装置1では、監視対象ハイパーバイザ2から転送されたログ情報をカテゴリー化し(ステップ42)、ログ遷移を分析する(ステップ43)。
監視装置1に登録されている平常モデル(ログ遷移)と、分析したログ遷移とを比較し(ログ変化チェック)、ログ変化の有無を判断する(ステップ44)。監視装置1に登録されている平常モデル(ログ遷移)は、予め平常時のログ情報をカテゴリー毎に分類し(カテゴライズ)、その分類結果を基に作成されたログ情報のログ遷移モデルである。
監視装置1に登録されている平常モデル(ログ遷移)と、分析したログ遷移とを比較し(ログ変化チェック)、ログ変化の有無を判断する(ステップ44)。監視装置1に登録されている平常モデル(ログ遷移)は、予め平常時のログ情報をカテゴリー毎に分類し(カテゴライズ)、その分類結果を基に作成されたログ情報のログ遷移モデルである。
ステップ44で判断される「ログ変化」の「有」とは、ログ遷移について平常モデルと異なる新規な遷移を検出することを意味している。「新規な遷移」(ログ変化があった時)との判断は、ログ遷移モデルに対するログ遷移の遷移確率の高低を監視し、予め定めた閾値を下回る遷移確率が低い遷移を発見した際に行う。遷移確率の閾値は、例えば0.5%程度に設定されている。
また、ステップ44で「ログ変化」が「有」と判断した場合でも、ログ情報の遷移元と遷移先を学習し、平常モデル作成部13へのフードバック制御を行うことで、以降は平常時の遷移モデルの情報として使用するようにしても良い。
また、ステップ44で「ログ変化」が「有」と判断した場合でも、ログ情報の遷移元と遷移先を学習し、平常モデル作成部13へのフードバック制御を行うことで、以降は平常時の遷移モデルの情報として使用するようにしても良い。
「ログ変化」が有った場合、監視部10が監視対象ハイパーバイザ2側(監視対象ハイパーバイザ2又は仮想マシン3)に対して性能チェックによる診断を指示し(ステップ45)、監視対象ハイパーバイザ2側(監視対象ハイパーバイザ2又は仮想マシン3)からの性能情報が監視部10に応答される。
この性能診断(性能情報のチェック)は、ログ分析部14がログ変化を検知したログに関連する性能情報が優先的に診断される。
監視部10が性能情報から異常の有無を判断する(ステップ46)。
監視部10が障害を検知した時は、運用者に対してアラーム発行による障害通知を行う(ステップ47)。
この例では、監視対象ハイパーバイザ2上の仮想マシン3で性能チェックや診断を行い、その情報を監視部10へ出力するプログラム(agent)4が仮想マシン3内に実装されている。
この性能診断(性能情報のチェック)は、ログ分析部14がログ変化を検知したログに関連する性能情報が優先的に診断される。
監視部10が性能情報から異常の有無を判断する(ステップ46)。
監視部10が障害を検知した時は、運用者に対してアラーム発行による障害通知を行う(ステップ47)。
この例では、監視対象ハイパーバイザ2上の仮想マシン3で性能チェックや診断を行い、その情報を監視部10へ出力するプログラム(agent)4が仮想マシン3内に実装されている。
図5は、監視システムにおける監視方法の他の例を示すブロック図である。
処理手順は図4の監視方法と同様であり、監視対象ハイパーバイザ2から転送されたログ情報のログ遷移を分析する(ステップ43)。
監視装置1に登録されている平常モデル(ログ遷移)と、分析したログ遷移とを比較し(ログ変化チェック)、ログ変化の有無を判断する(ステップ44)。
「ログ変化」が有った場合、図3の監視システムと異なり、監視部10が監視対象ハイパーバイザ(仮想ホスト)2に対して性能チェックによる診断を指示し(ステップ45)、監視対象ハイパーバイザ2からの性能情報が監視部10に応答される。
監視部10が性能情報から異常の有無を判断する(ステップ46)。
監視部10が障害を検知した時は、運用者に対してアラーム発行による障害通知を行う(ステップ47)。
この例では、図3の監視システムと異なり、性能情報転送ステップにおいて、監視部10から監視対象ホスト2の性能診断を行い、その情報を監視装置1に転送するプログラムが、監視対象ホスト2内に実装されている。
処理手順は図4の監視方法と同様であり、監視対象ハイパーバイザ2から転送されたログ情報のログ遷移を分析する(ステップ43)。
監視装置1に登録されている平常モデル(ログ遷移)と、分析したログ遷移とを比較し(ログ変化チェック)、ログ変化の有無を判断する(ステップ44)。
「ログ変化」が有った場合、図3の監視システムと異なり、監視部10が監視対象ハイパーバイザ(仮想ホスト)2に対して性能チェックによる診断を指示し(ステップ45)、監視対象ハイパーバイザ2からの性能情報が監視部10に応答される。
監視部10が性能情報から異常の有無を判断する(ステップ46)。
監視部10が障害を検知した時は、運用者に対してアラーム発行による障害通知を行う(ステップ47)。
この例では、図3の監視システムと異なり、性能情報転送ステップにおいて、監視部10から監視対象ホスト2の性能診断を行い、その情報を監視装置1に転送するプログラムが、監視対象ホスト2内に実装されている。
図6は、監視システムにおける監視方法の他の例を示すブロック図である。処理手順は図4の監視方法と同様であるので省略する。
この例では、性能情報転送ステップにおいて、監視部10から仮想マシン3の性能診断を行い、その情報を監視装置1に転送するプログラム4は、監視対象ホスト2上に構築された仮想マシン3内に実装されたプラットフォーム5に、診断指示ステップ(ステップ45)における診断指示に際して転送されるようになっている。この例によれば、プログラム4が必要に応じて仮想マシン3(監視対象ホスト2)側に転送されるので、状況に合わせて設定を変えたプログラムとすることができる。
この例では、性能情報転送ステップにおいて、監視部10から仮想マシン3の性能診断を行い、その情報を監視装置1に転送するプログラム4は、監視対象ホスト2上に構築された仮想マシン3内に実装されたプラットフォーム5に、診断指示ステップ(ステップ45)における診断指示に際して転送されるようになっている。この例によれば、プログラム4が必要に応じて仮想マシン3(監視対象ホスト2)側に転送されるので、状況に合わせて設定を変えたプログラムとすることができる。
図7は、監視システムにおける監視方法の他の例を示すブロック図である。処理手順は図4の監視方法と同様であるので省略する。
この例では、性能情報転送ステップにおいて、監視部10から監視対象ホスト2の性能診断を行い、その情報を監視装置1に転送するプログラム4は、監視対象ホスト2内に実装されたプラットフォーム5に、診断指示ステップ(ステップ45)における診断指示に際して転送されるようになっている。この例によれば、プログラム4が必要に応じて監視対象ホスト2(監視対象ホスト2側)に転送されるので、状況に合わせて設定を変えたプログラムとすることができる。
この例では、性能情報転送ステップにおいて、監視部10から監視対象ホスト2の性能診断を行い、その情報を監視装置1に転送するプログラム4は、監視対象ホスト2内に実装されたプラットフォーム5に、診断指示ステップ(ステップ45)における診断指示に際して転送されるようになっている。この例によれば、プログラム4が必要に応じて監視対象ホスト2(監視対象ホスト2側)に転送されるので、状況に合わせて設定を変えたプログラムとすることができる。
図8は、監視システムにおける監視方法の他の例を示すブロック図である。処理手順は図4の監視方法と同様であるので省略する。
この例では、監視システム自体を仮想マシン3内に設置する構成であり、仮想マシン3内にて監視に関する全処理を行うものである。監視対象ハイパーバイザ2上の仮想マシン3で性能チェックや診断を行い、その情報は仮想マシン3内に設置された監視部10へ出力するプログラム(agent)4も仮想マシン3内に実装されている。
この例では、監視システム自体を仮想マシン3内に設置する構成であり、仮想マシン3内にて監視に関する全処理を行うものである。監視対象ハイパーバイザ2上の仮想マシン3で性能チェックや診断を行い、その情報は仮想マシン3内に設置された監視部10へ出力するプログラム(agent)4も仮想マシン3内に実装されている。
上述した各監視方法によれば、監視対象ハイパーバイザ(監視対象ホスト)2からのログ分析とともに、監視対象ハイパーバイザ(監視対象ホスト)2や仮想マシン3の具体的な性能情報のチェックを行い、性能情報に不具合が生じた場合に障害発生と検知する。すなわち、ログの内容が疑わしい時に、監視システム側から性能診断指示を行う(アクティブ監視)ことで、ユーザ視点での性能チェックを実施して異常を判断することができるので、サーバシステムにおける障害発生の有無についての精度を高めることができる。
また、ログ変化が生じた場合にのみ、監視対象ハイパーバイザ(監視対象ホスト)2や仮想マシン3の具体的な性能情報のチェックが行われるため、監視するトラフィック量を少なくし、監視負荷の軽減を図ることができる。
更に、変化したログに関連する性能情報を優先的にチェックすることで、診断に必要な無駄な処理を省くことができる。
更に、変化したログに関連する性能情報を優先的にチェックすることで、診断に必要な無駄な処理を省くことができる。
メッセージ遷移確率の監視により障害を検知する本発明の手法と、メッセージ内容を監視又はログ・キーワード件数等の統計情報を監視する既存の手法との比較表を表1に示す。「精度」は、障害と判断した結果が本当の障害であれば精度が高くなる。「再現率」は、障害をどれくらい見逃さないかを表す数値である(誤検知があってもよい)。
本発明の手法によれば、ログ遷移を監視するので、ログ1行の変化でも異常を検知でき再現性が高いとともに、異常検知に際してのリアルタイム性を高くしつつ、サイレント障害を検知することができる。
1…監視装置(監視サーバ)、 2…監視対象ハイパーバイザ(監視対象ホスト)、 3…仮想マシン、 4…プログラム、 5…プラットフォーム、 10…監視部、 11…ログ読込部、 12…ログクラスタリング部、 13…平常モデル生成部、 14…ログ分析部、 15…性能診断指示部、 16…障害判断部、 17…アラーム発行部。
Claims (12)
- 監視対象ホストのサイレント障害の発生を監視する監視装置において、
前記監視対象ホストのログ情報を読み込むログ読込部と、
読み込まれたログ情報を分類するログクラスタリング部と、
前記ログクラスタリング部によるログ分類結果を基に平常時のログ遷移モデルを作成する平常モデル生成部と、
前記ログ分類結果と前記ログ遷移モデルとからログ遷移を分析するログ分析部と、
ログ分析結果に基づきログ変化があった時に前記監視対象ホスト側へ診断指示を行う診断指示部と、
前記監視対象ホスト側からの性能情報と前記ログ情報に基づき監視対象ホストにおける障害の有無を判断する障害判断部と
を備えたことを特徴とする監視装置。 - 前記診断指示部及び障害判断部は、前記ログ分析結果に基づくログ変化があったログ情報に関連する情報を優先的に診断することで障害の有無を判断する請求項1に記載の監視装置。
- 前記ログ変化があった時とは、前記ログ遷移モデルに対する前記ログ遷移の遷移確率の高低を監視し、予め定めた閾値を下回る遷移確率が低い遷移を発見した場合である請求項1又は請求項2に記載の監視装置。
- 前記ログクラスタリング部は、
前記ログ情報のログメッセージ中におけるカンマ(,)やコロン(:)等をデリミタとして抽出した文字列の結合を一つのカテゴリーとする
請求項1に記載の監視装置。 - 複数の監視対象ホストと、各監視対象ホストのサイレント障害の発生を監視する監視サーバを備えた監視システムによる監視方法において、
前記監視対象ホストのログ情報を前記監視サーバに定期的に転送するログ転送ステップと、
転送されたログ情報のログ遷移の変化を分析するログ変化分析ステップと、
前記ログ変化分析ステップで予め登録された平常時のログ遷移モデルに対するログ遷移の変化が検出された場合に前記監視対象ホスト側へ診断指示を行う診断指示ステップと、
前記診断指示を受けた監視対象ホスト側が前記監視サーバに性能情報を転送する性能情報転送ステップと、
前記転送を受けた監視サーバが前記ログ分析結果に基づくログ変化があったログ情報と前記性能情報から障害判定を行う障害判定ステップと
を備えたことを特徴とする監視対象ホストの監視方法。 - 前記ログ変化があったログ情報とは、前記ログ遷移モデルに対する前記ログ遷移の遷移確率の高低を監視し、予め定めた閾値を下回る遷移確率が低い遷移のログ情報である請求項5に記載の監視対象ホストの監視方法。
- 前記性能情報転送ステップにおいて前記監視対象ホスト側の性能診断を行い、その情報を前記監視サーバに転送するプログラムは、前記監視対象ホスト上に構築された仮想マシン内に実装された請求項5に記載の監視対象ホストの監視方法。
- 前記性能情報転送ステップにおいて前記監視対象ホスト側の性能診断を行い、その情報を前記監視サーバに転送するプログラムは、前記監視対象ホスト内に実装された請求項5に記載の監視対象ホストの監視方法。
- 前記性能情報転送ステップにおいて前記監視対象ホスト側の性能診断を行い、その情報を前記監視サーバに転送するプログラムは、前記監視対象ホスト上に構築された仮想マシン内に実装されたプラットフォームに、前記診断指示ステップにおける診断指示に際して転送される請求項5に記載の監視対象ホストの監視方法。
- 前記性能情報転送ステップにおいて前記監視対象ホスト側の性能診断を行い、その情報を前記監視サーバに転送するプログラムは、前記監視対象ホスト内に実装されたプラットフォームに、前記診断指示ステップにおける診断指示に際して転送される請求項5に記載の監視対象ホストの監視方法。
- 請求項5に記載の監視対象ホストの監視方法の各ステップをコンピュータにより実行することが可能な監視プログラム。
- 請求項11に記載の監視プログラムが格納されたことを特徴とするコンピュータに読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012275113A JP2014120001A (ja) | 2012-12-17 | 2012-12-17 | 監視装置、監視対象ホストの監視方法、監視プログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012275113A JP2014120001A (ja) | 2012-12-17 | 2012-12-17 | 監視装置、監視対象ホストの監視方法、監視プログラム及び記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014120001A true JP2014120001A (ja) | 2014-06-30 |
Family
ID=51174779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012275113A Pending JP2014120001A (ja) | 2012-12-17 | 2012-12-17 | 監視装置、監視対象ホストの監視方法、監視プログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2014120001A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016099938A (ja) * | 2014-11-26 | 2016-05-30 | 株式会社日立製作所 | イベント分析システムおよび方法 |
JP2017072882A (ja) * | 2015-10-05 | 2017-04-13 | 富士通株式会社 | アノマリ評価プログラム、アノマリ評価方法、および情報処理装置 |
JP2018163574A (ja) * | 2017-03-27 | 2018-10-18 | サクサ株式会社 | ログ管理装置及びログ管理用プログラム |
JP2019175070A (ja) * | 2018-03-28 | 2019-10-10 | 株式会社日立システムズ | アラート通知装置およびアラート通知方法 |
CN112256470A (zh) * | 2020-11-04 | 2021-01-22 | 中国建设银行股份有限公司 | 故障服务器定位方法及装置、存储介质及电子设备 |
US11106563B2 (en) | 2016-03-30 | 2021-08-31 | Nec Corporation | Log analysis device, log analysis method, and recording medium storing program |
-
2012
- 2012-12-17 JP JP2012275113A patent/JP2014120001A/ja active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016099938A (ja) * | 2014-11-26 | 2016-05-30 | 株式会社日立製作所 | イベント分析システムおよび方法 |
JP2017072882A (ja) * | 2015-10-05 | 2017-04-13 | 富士通株式会社 | アノマリ評価プログラム、アノマリ評価方法、および情報処理装置 |
US11106563B2 (en) | 2016-03-30 | 2021-08-31 | Nec Corporation | Log analysis device, log analysis method, and recording medium storing program |
JP2018163574A (ja) * | 2017-03-27 | 2018-10-18 | サクサ株式会社 | ログ管理装置及びログ管理用プログラム |
JP2019175070A (ja) * | 2018-03-28 | 2019-10-10 | 株式会社日立システムズ | アラート通知装置およびアラート通知方法 |
JP7081953B2 (ja) | 2018-03-28 | 2022-06-07 | 株式会社日立システムズ | アラート通知装置およびアラート通知方法 |
CN112256470A (zh) * | 2020-11-04 | 2021-01-22 | 中国建设银行股份有限公司 | 故障服务器定位方法及装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xu et al. | Improving service availability of cloud systems by predicting disk error | |
CN109783262B (zh) | 故障数据处理方法、装置、服务器及计算机可读存储介质 | |
Oliner et al. | What supercomputers say: A study of five system logs | |
JP2014120001A (ja) | 監視装置、監視対象ホストの監視方法、監視プログラム及び記録媒体 | |
US10346744B2 (en) | System and method for visualisation of behaviour within computer infrastructure | |
US8862728B2 (en) | Problem determination and diagnosis in shared dynamic clouds | |
US20110035802A1 (en) | Representing virtual object priority based on relationships | |
WO2012157471A1 (ja) | 複数の制御システムの異常を検知する異常検知システム | |
Wang et al. | Log-based anomaly detection with the improved k-nearest neighbor | |
JP4819014B2 (ja) | ログ解析方法、ログ格納装置及びプログラム | |
CN109976959A (zh) | 一种用于服务器故障检测的便携式设备及方法 | |
JP2014021577A (ja) | 故障予測装置、故障予測システム、故障予測方法、及び、故障予測プログラム | |
US11675647B2 (en) | Determining root-cause of failures based on machine-generated textual data | |
CN113010341A (zh) | 一种故障内存定位的方法和设备 | |
JP2005182647A (ja) | 機器の異常検知装置 | |
JP2007189644A (ja) | 管理装置及び管理方法及びプログラム | |
WO2023181241A1 (ja) | 監視サーバ装置、システム、方法、及びプログラム | |
CN103995759A (zh) | 基于核内外协同的高可用计算机系统故障处理方法及装置 | |
WO2020044898A1 (ja) | 機器状態監視装置及びプログラム | |
JP2017211806A (ja) | 通信の監視方法、セキュリティ管理システム及びプログラム | |
JP4081258B2 (ja) | 管理サーバシステム | |
JP5679347B2 (ja) | 障害検知装置、障害検知方法、及びプログラム | |
CN113708986A (zh) | 服务器监控装置、方法及计算机可读存储介质 | |
CN113037550B (zh) | 一种服务故障监控方法、系统及计算机可读存储介质 | |
CN111552960B (zh) | 一种程序完整性的动态度量方法和装置 |