JP5753460B2 - 運用管理装置、運用管理方法、及び運用管理プログラム - Google Patents

運用管理装置、運用管理方法、及び運用管理プログラム Download PDF

Info

Publication number
JP5753460B2
JP5753460B2 JP2011176863A JP2011176863A JP5753460B2 JP 5753460 B2 JP5753460 B2 JP 5753460B2 JP 2011176863 A JP2011176863 A JP 2011176863A JP 2011176863 A JP2011176863 A JP 2011176863A JP 5753460 B2 JP5753460 B2 JP 5753460B2
Authority
JP
Japan
Prior art keywords
message
information
analysis
learning
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011176863A
Other languages
English (en)
Other versions
JP2013041367A (ja
Inventor
尋論 黒川
尋論 黒川
Original Assignee
エヌ・ティ・ティ・コムウェア株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エヌ・ティ・ティ・コムウェア株式会社 filed Critical エヌ・ティ・ティ・コムウェア株式会社
Priority to JP2011176863A priority Critical patent/JP5753460B2/ja
Publication of JP2013041367A publication Critical patent/JP2013041367A/ja
Application granted granted Critical
Publication of JP5753460B2 publication Critical patent/JP5753460B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、運用管理装置、運用管理方法、及び運用管理プログラムに関する。
情報システムを安定的かつ効率的に運用するために、情報システムを構成する管理対象ノード群を一元的に監視、制御する運用管理システムが知られている。運用管理システムは、管理対象ノードから、「ハードウェア故障発生」や「ソフトウェアの処理エラー発生」といったハードウェアやソフトウェアに関する様々な情報をオンラインで取得、蓄積すると共に、運用管理端末に表示する。そして、管理者は、運用管理端末に表示されたメッセージの内容を元に、管理対象ノード群を監視、制御する。
しかし、情報システムが大規模化、複雑化するにつれて、管理者には知識面での負担が飛躍的に増大し、その結果、判断ミスによるサービス停止の長時間化といった事態も発生している。
これに対し、特許文献1記載の技術がある。
特開2009−199533号公報
しかしながら、特許文献1に記載の技術では、運用管理システムは、CPU使用率やメモリ残量といった管理対象ノードの性能情報を用いて運用管理を行う。そのため、運用者が管理対象ノードに対して、性能情報を収集、送信するための設定を行わなければ、性能情報を取得できないという問題があった。また、性能情報を収集するための処理負荷や、管理対象ノードから運用管理システムへの性能情報を送信するためのネットワーク負荷を負わないと、管理対象ノードの異常を検知できないという問題があった。
本発明は上記の点に鑑みてなされたものであり、簡易に管理対象ノードの異常を検知することができる運用管理装置、運用管理方法、及び運用管理プログラムを提供する。
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、管理対象ノードが出力したメッセージであって、情報収集のための設定変更を必要とする性能情報と、情報収集のための処理負荷を必要とする性能情報とをいずれも含まないメッセージを取得するメッセージ取得部と、前記メッセージの数を算出する学習情報生成部と、前記メッセージ取得部が取得した前記メッセージの数に基づいて前記管理対象ノードの状態を検知する分析判定部であって、前記学習情報生成部が算出した前記メッセージの数の履歴と、現在のメッセージの数とに基づいて前記管理対象ノードの状態を検知する分析判定部とを備え、前記学習情報生成部は、指定した期間内における管理対象ノード毎、メッセージの識別情報毎、単位時間毎のメッセージの数の最大値、又は最小値を算出し、前記分析判定部は、前記現在のメッセージの数が、前記最大値と前記最小値の間の値であるか否かに基づいて前記管理対象ノードの状態を検知し、前記現在のメッセージの出力数が前記最大値と前記最小値の間の値でないと判定した場合に、前記管理対象ノードの状態を診断する診断プログラムを起動し、診断した結果に基づいて前記管理対象ノードが異常であるか否かを判定し、前記診断した結果に基づいて前記管理対象ノードが異常でないと判定した場合に、前記学習情報生成部に前記最大値又は前記最小値を補正させ、補正後の最大値又は補正後の最小値に基づいて前記管理対象ノードの状態を検知することを特徴とする運用管理装置である。
(2)また、本発明の一態様は、上記の運用管理装置において、前記分析判定部は、前記メッセージの識別情報、及び前記メッセージの本文に記載された当該メッセージの内容が示す情報ごとに算出された前記メッセージの数に基づいて、前記管理対象ノードの状態を検知することを特徴とする。
(3)また、本発明の一態様は、上記の運用管理装置において、前記メッセージは、データの転送開始、データの転送完了、データの送信開始、又はデータの送信完了を含むことを特徴とする。
た、本発明の一態様は、上記の運用管理装置において、前記学習情報生成部は、前記メッセージが異常である場合に、当該異常であるメッセージを集計に加えないことを特徴とする。
た、本発明の一態様は、上記の運用管理装置において、前記分析判定部は、前記診断した結果に基づいて前記管理対象ノードが異常であると判定した場合に、前記現在のメッセージの出力数が前記最大値と前記最小値の間の値でないと判定した時刻を含む予め定められた時間内にある前記メッセージをメッセージ異常であると判定し、前記学習情報生成部は、メッセージ異常である判定さていないメッセージに基づいて、前記最大値又は前記最小値を補正することを特徴とする。
(6)また、本発明の一態様は、メッセージ取得部が、管理対象ノードが出力したメッセージであって、情報収集のための設定変更を必要とする性能情報と、情報収集のための処理負荷を必要とする性能情報とをいずれも含まないメッセージを取得するメッセージ取得過程と、学習情報生成部が、前記メッセージの数を算出する学習情報生成過程と、分析判定部が、前記メッセージ取得部が取得した前記メッセージの数に基づいて前記管理対象ノードの状態を検知する分析判定過程であって、前記学習情報生成部が算出した前記メッセージの数の履歴と、現在のメッセージの数とに基づいて前記管理対象ノードの状態を検知する分析判定過程と、を有し、前記学習情報生成過程において、前記学習情報生成部が、
指定した期間内における管理対象ノード毎、メッセージの識別情報毎、単位時間毎のメッセージの数の最大値、又は最小値を算出し、前記分析判定過程において、前記分析判定部が、前記現在のメッセージの数が、前記最大値と前記最小値の間の値であるか否かに基づいて前記管理対象ノードの状態を検知し、前記現在のメッセージの出力数が前記最大値と前記最小値の間の値でないと判定した場合に、前記管理対象ノードの状態を診断する診断プログラムを起動し、診断した結果に基づいて前記管理対象ノードが異常であるか否かを判定し、前記診断した結果に基づいて前記管理対象ノードが異常でないと判定した場合に、前記学習情報生成部に前記最大値又は前記最小値を補正させ、補正後の最大値又は補正後の最小値に基づいて前記管理対象ノードの状態を検知することを特徴とする運用管理方法である。
(7)また、本発明の一態様は、運用管理装置のコンピュータに管理対象ノードが出力したメッセージであって、情報収集のための設定変更を必要とする性能情報と、情報収集のための処理負荷を必要とする性能情報とをいずれも含まないメッセージを取得するメッセージ取得手順前記メッセージの数を算出する学習情報生成手順と、前記メッセージ取得手順で取得した前記メッセージの数に基づいて前記管理対象ノードの状態を検知する分析判定手順であって、前記学習情報生成手順にて算出した前記メッセージの数の履歴と、現在のメッセージの数とに基づいて前記管理対象ノードの状態を検知する分析判定手順と
を実行させるための運用管理プログラムであり、前記学習情報生成手順において、指定した期間内における管理対象ノード毎、メッセージの識別情報毎、単位時間毎のメッセージの数の最大値、又は最小値を算出し、前記分析判定手順において、前記現在のメッセージの数が、前記最大値と前記最小値の間の値であるか否かに基づいて前記管理対象ノードの状態を検知し、前記現在のメッセージの出力数が前記最大値と前記最小値の間の値でないと判定した場合に、前記管理対象ノードの状態を診断する診断プログラムを起動し、診断した結果に基づいて前記管理対象ノードが異常であるか否かを判定し、前記診断した結果に基づいて前記管理対象ノードが異常でないと判定した場合に、前記学習情報生成手順にて前記最大値又は前記最小値を補正させ、補正後の最大値又は補正後の最小値に基づいて前記管理対象ノードの状態を検知することを特徴とする運用管理プログラムである。
本発明によれば、簡易に管理対象ノードの異常を検知することができる。
本発明の第1の実施形態に係る運用管理システムの概念図である。 本実施形態に係る運用管理装置の一例を示す概略ブロック図である。 本実施形態に係る取得メッセージ情報テーブルの一例を説明する概略図である。 本実施形態に係る学習結果情報テーブルの一例を説明する概略図である。 本実施形態に係る最大最小値テーブルの一例を説明する概略図である。 本実施形態に係る分析情報テーブルの一例を示す概略図である。 本実施形態に係る学習情報生成部の一例を示したブロック図である。 本実施形態に係る分析情報生成部の一例を示したブロック図である。 本実施形態に係る分析判定部の一例を示したブロック図である。 本実施形態に係る運用管理システムの動作の一例を示すフローチャートである。 本実施形態に係る学習処理の動作の一例を示すフローチャートである。 本実施形態に係る集計処理の動作の一例を示すフローチャートである。 本実施形態に係る分析処理の動作の一例を示すフローチャートである。 本実施形態に係る学習結果を表示させるための条件入力画面の一例を示す説明図である。 本実施形態に係る学習結果表示の一例を示す説明図である。 本実施形態に係る分析結果を表示させるための条件入力画面の一例を示す説明図である。 本実施形態に係る学習結果表示の一例を示す説明図である。 本発明の第2の実施形態に係る運用管理装置の一例を示す概略ブロック図である。 本実施形態に係る学習情報生成部の一例を示したブロック図である。 本実施形態に係る分析情報生成部の一例を示したブロック図である。 本実施形態に係る分析判定部の一例を示したブロック図である。 本実施形態に係る取得メッセージ情報テーブルの一例を説明する概略図である。 本実施形態に係る運用管理システムの処理の一例を示すフローチャートである。 本実施形態に係る処理の一例を示すフローチャートである。 本実施形態に係る処理の一例を示すフローチャートである。 本実施形態に係る処理の一例を示すフローチャートである。
以下、図面を参照しながら本発明の第1の実施形態について詳しく説明する。
図1は、本発明の第1の実施形態に係る管理対象システム10と運用管理システム20の関係を示す概念図である。
管理対象システム10は、管理対象ネットワーク100と、管理対象ノード101〜103を具備する。
管理対象ネットワーク100は、運用管理装置21が運用管理を行う対象のネットワークである。管理対象ネットワーク100は、LAN(Local Area Network)やWAN(Wide Area Network)などから構成される。
管理対象ノード101〜103は、ネットワークインターフェイスを介して管理対象ネットワーク100に接続された電子機器である。管理対象ノード101〜103は、例えば、コンピュータ、ネットワークインターフェイスを備えた家電製品、ハブ、ルータ、スイッチなどである。
運用管理システム20は、運用管理装置21及び運用管理端末22を具備する。
運用管理装置21は、管理対象ネットワーク100に接続される。運用管理装置21は、管理対象ネットワーク100を介して各管理対象ノード101〜103からのメッセージを取得する。運用管理装置21は、取得したメッセージの数に基づいて管理対象ノードの状態を検知する。
運用管理装置21による管理対象ノードの異常の検出の処理の概略について説明する。符号Aを付したものは、運用管理端末22の画面イメージである。この画面イメージで、横軸は時刻、縦軸はメッセージ数を表す。符号a及び符号bを付した線は、それぞれ、測定時間(学習集計単位時間と呼ぶ)毎のメッセージ出力数の履歴について、学習集計単位時間毎の最小値及び最大値を表す。分析対象とする測定時間(分析集計単位時間と呼ぶ)におけるメッセージ出力数が、符号cを付した線のように、メッセージ出力数の最小値及び最大値で囲まれる範囲を逸脱した場合に、その管理対象ノードが異常であると検知する。これにより、運用管理装置21は、管理対象システムに新たな設定変更や情報収集負荷を加えることなく、簡易に管理対象ノードの異常を検知できる。
運用管理端末22は、利用者が、運用管理装置21との間で情報の入出力を行う端末である。運用管理端末22は、符号Aを付した画面等を表示し、利用者に情報提供を行うと共に、利用者から運用管理装置21に対する命令を入力される。
図2は、本発明の運用管理装置21の構成を示す概略ブロック図である。図示する例では、運用管理装置21は、メッセージ取得部201、メッセージDB(メッセージ記憶部)202、入力部203、学習情報生成部204、学習結果情報DB(学習結果情報記憶部)205、分析情報生成部206、分析結果情報DB(分析結果情報記憶部)207、分析判定部208、及び出力部209を含んで構成される。
メッセージ取得部201は、管理対象ネットワーク100に接続されている。メッセージ取得部201は、送信されたメッセージを取得する。ここで、メッセージとは、例えば、コールデータ転送完了、認証エラー発生、パッケージリセット発生などの事象が発生したときに、管理対象ノード101〜103から管理対象ネットワーク100に出力される情報である。メッセージ取得部201は、管理対象ノード101〜103の各々から取得したメッセージに基づいて、取得メッセージ情報を生成する。
ここで、取得メッセージ情報とは、メッセージID、タイムスタンプ、ノード名、メッセージ本文などを含む情報である(図3参照)。メッセージIDとは、メッセージの識別情報である。タイムスタンプとは、管理対象ノード101〜103がメッセージを生成した時刻(年月日、時、分、秒)である。ノード名とは、メッセージを送信した管理対象ノードを一意に示す識別番号である。メッセージ本文には、メッセージに関する情報が入力される。メッセージ取得部201は、生成した取得メッセージ情報をメッセージDB202に記録する。
メッセージDB202が記録する取得メッセージ情報の詳細については後述する。
入力部203は、運用管理端末22を介して利用者から情報を入力される。例えば、入力部203は、利用者から学習条件情報を入力される。ここで、学習条件情報とは、メッセージ学習を行う期間であるメッセージ学習対象期間、メッセージの総数を集計する期間の単位である学習集計単位時間(メッセージ学習対象期間及び学習集計単位時間を合わせて学習条件と呼ぶ)を示す情報である。入力部203は、入力された学習条件情報を学習情報生成部204に出力する。
また、例えば、入力部203は、利用者から分析条件情報を入力される。ここで、分析条件情報とは、メッセージ分析を行う期間であるメッセージ分析対象期間、メッセージ数を集計する時間の単位である分析集計単位時間(メッセージ分析対象期間及び分析集計単位時間を合わせて分析条件と呼ぶ)を示す情報である。入力部203は、入力された分析条件情報を分析情報生成部206に出力する。
学習情報生成部204は、メッセージDB202に記録された取得メッセージ情報の中から、入力部203から入力された学習条件情報が示す学習条件に合致した取得メッセージ情報を抽出する。学習情報生成部204は、取得メッセージ情報に基づいて、ノード名、メッセージID、学習集計単位時間毎のメッセージ出力数を示す学習データ情報を生成する。学習情報生成部204は、生成した学習データ情報を学習結果情報DB205に記録する。
学習情報生成部204は、生成した学習データ情報に基づいて、ノード名、メッセージID、学習集計単位時間毎のメッセージ数の最大値、最小値を算出し、算出した最大値、最小値を示す最大最小値情報を生成する。学習情報生成部204は、生成した最大最小値情報を学習結果情報DB205に記録する。ここで、学習データ情報を生成する処理及び最大最小値情報を生成する処理を合わせて学習処理と呼ぶ。学習情報生成部204は、学習結果情報DB205から読み出した学習データ情報及び最大最小値情報を出力部209に出力する。なお、学習情報生成部204及び学習結果情報DB205の詳細については後述する。
分析情報生成部206は、メッセージDB202に記録された取得メッセージ情報の中から、入力部203から入力された分析条件情報が示す分析条件に合致した取得メッセージ情報を抽出する。分析情報生成部206は、抽出した取得メッセージ情報に基づいて、ノード名、メッセージID、分析集計単位時間毎のメッセージ出力数を算出し、算出したメッセージ数を示す分析データ情報を生成する。分析情報生成部206は、生成した分析データ情報を分析結果情報DB207に記録する。なお、分析情報生成部206の詳細については後述する。
分析結果情報DB207で記憶する情報の詳細については後述する。
分析判定部208は、学習結果情報DB205に記録された最大最小値情報と、分析結果情報DB207から読み出した分析データ情報とに基づいて、分析対象の各管理対象ノードが正常であるか否かを判定する。分析判定部207は、判定結果を分析結果情報DB207に記録し、出力部209に出力する。なお、分析判定部208の詳細については後述する。
出力部209は、学習情報生成部204及び分析判定部208から入力された情報を運用管理端末22に出力する。
図3は、メッセージDB202に記録される取得メッセージ情報テーブルの一例を説明する概略図である。
図示するようにメッセージ情報テーブルは、タイムスタンプ、メッセージID、ノード名、及びメッセージ本文の各項目の列を有している。メッセージ情報テーブルは、タイムスタンプ毎にメッセージID、ノード名、メッセージ本文が格納される行と列からなる2次元の表形式のデータである。
例えば、符号3aを付したメッセージ情報は、タイムスタンプが、「2007年7月15日7時51分11秒」に、メッセージIDが「.10.10.10.10」であるメッセージを、IPアドレス「192.168.130」を持つ管理対象ノードから送信され、そのメッセージ本文が、「コールデータ転送完了」であることを示す。
図4は、学習結果情報テーブルの一例を説明する概略図である。図示するように学習結果情報テーブルは、ノード名、メッセージID、学習集計単位時間、及び集計値の各項目の列を有している。学習結果情報テーブルは、ノード名、メッセージID、学習集計単位時間毎に集計値が格納される行と列からなる2次元の表形式のデータである。
例えば、符号4aを付した学習データ情報は、ノード名は「192.168.130」、メッセージIDは「.10.10.10.10」、学習集計単位時間は「2007年7月15日7時〜7時59分59秒」、集計値は「312」であることを示している。
図5は、最大最小値テーブルの一例を説明する概略図である。図示するように最大最小値テーブルは、符号51〜符号5Nを付したN個の管理対象ノード別データテーブルから構成される。ここで、Nは運用管理対象ネットワーク10に接続された管理対象ノードの数である。符号51を付した管理対象ノード別データテーブルは、符号511〜符号51Mを付したメッセージID別データテーブルから構成される。ここで、MはメッセージIDの種類の数である。符号511を付したメッセージ別データテーブルは、学習集計単位時間、最大値、及び最小値の各項目の列を有している。メッセージ別データテーブルは、学習集計単位時間毎に最大値、最小値が格納される行と列からなる2次元の表形式のデータである。
例えば、符号511aを付した最大最小値情報は、ノード名は「192.168.130」、メッセージIDは「.10.10.10.10」、学習集計単位時間は「2007年7月15日7時〜7時59分59秒」、最大値は「232」、最小値は「181」であることを示している。
図6は、分析情報テーブルの一例を示す概略図である。図示するように分析情報テーブルは、ノード名、メッセージID、分析集計単位時間、集計値、及び分析結果情報の各項目の列を有している。分析情報テーブルは、ノード名、メッセージID、分析集計単位時間毎に集計値、分析結果情報が格納される行と列からなる2次元の表形式のデータである。
例えば、符号6aを付した分析情報は、ノード名は「192.168.1.30」、メッセージIDは、「.10.10.10.10」、分析集計単位時間は「2007年7月15日7時〜7時59分59秒」、分析結果情報は「正常」であることを示している。符号6aを付した分析情報は、ノード名は「192.168.1.30」、メッセージIDは、「.10.10.10.10」、分析集計単位時間は「2007年7月15日8時〜8時59分59秒」、分析結果情報は「異常」であることを示している。
図7は、学習情報生成部204の構成を示す概略ブロック図である。
学習情報生成部204は、学習メッセージ情報抽出部2040、学習出力数集計部2041、及び最大最小値抽出部2042を含んで構成される。
学習メッセージ情報抽出部2040は、メッセージDB202に記録された取得メッセージ情報に含まれるタイムスタンプが、入力部203から入力された学習条件情報が示すメッセージ学習対象期間に含まれるか否かを判定する。分析メッセージ情報抽出部2060は、メッセージ学習対象期間に含まれると判定した取得メッセージ情報を順次学習出力数集計部2041に出力する。学習メッセージ情報抽出部2040は、学習出力数集計部2041から後述する学習集計終了情報が入力されたときに、最大最小値抽出情報を最大最小値抽出部2042に出力する。ここで、最大最小値抽出情報とは、最小値抽出部2042に、メッセージ情報数の最大値、最小値を抽出させる情報である。
学習出力数集計部2041は、取得メッセージ情報の数を、ノード名、メッセージID、及び学習集計単位時間毎に集計する(集計処理と呼ぶ)。学習出力数集計部2041は、集計された値を示す学習集計値情報と、ノード名と、メッセージIDと、学習集計単位時間とを関連付けた情報(学習データ情報)を学習結果情報DB205に記録する。学習出力数集計部2041は、集計を終了したときに学習集計終了情報を学習メッセージ情報抽出部2040に出力する。
最大最小値抽出部2042は、学習メッセージ情報抽出部2040から最大最小値抽出情報を入力されると、学習結果情報DB205に記録された学習データ情報に基づいて、ノード名、メッセージID、及び学習集計単位時間毎にメッセージ集計数の最大値及び最小値を抽出する。最大最小値抽出部2042は、最大最小値情報を学習結果情報DB205に記録する。
図8は、分析情報生成部206の構成を示す概略ブロック図である。
分析情報生成部206は、分析メッセージ情報抽出部2060及び分析出力数集計部2061を含んで構成される。
分析メッセージ情報抽出部2060は、メッセージDB202(図2)に記録された取得メッセージ情報に含まれるタイムスタンプが、入力部203から入力された分析条件情報が示すメッセージ分析対象期間に含まれるか否かを判定する。分析メッセージ情報抽出部2060は、メッセージ分析対象期間に含まれると判定した取得メッセージ情報を順次分析出力数集計部2061に出力する。
分析メッセージ情報抽出部2060は、後述する分析集計終了情報が入力されたときに、分析を開始することを示す分析開始情報を分析判定部208に出力する。
分析出力数集計部2061は、取得メッセージ情報の数を、ノード名、メッセージID、及び分析集計単位時間毎に集計する(集計処理と呼ぶ)。分析出力数集計部2061は、集計された値を示す分析集計値情報と、ノード名と、メッセージIDと、分析集計単位時間とを関連付けた情報(分析データ情報)を分析結果情報DB207(図2)に記録する。分析出力数集計部2061は、集計を終了したときに分析集計終了情報を分析メッセージ情報抽出部2060に出力する。ここで、分析集計終了情報とは、分析出力数集計部2061が出力数の集計を終了したことを分析メッセージ情報抽出部2060に示す情報である。
図9は、分析判定部208の構成を示す概略ブロック図である。
分析判定部208は、学習分析比較部2080を含んで構成される。分析判定部208は、学習結果情報DB205から読み出した最大最小値情報と、分析結果情報DBから読み出した分析データ情報に基づいて、分析集計値が、最大最小値情報が示す最大値、最小値の間に含まれるか否かを判定する。
学習分析比較部2080は、学習結果情報DB205から読み出した最大最小値情報と、分析結果情報DB207から読み出した分析データ情報と、をノード名、メッセージID、及び分析単位時間毎に比較する。
具体的には、学習分析比較部2080は、分析集計値情報が示す分析集計値が、最大最小値情報が示す最大値と最小値の間に含まれるか否かを判定する。分析集計値が最大最小値情報が示す最大値と最小値の間に含まれないと判定した場合は、学習分析比較部2080は、分析集計値が最大値と最小値の間に含まれないことを示す判定不合格情報を生成する。最大最小値情報が示す最大値と最小値の間に含まれると判定した場合は、学習分析比較部2080は、分析集計値が最大値と最小値の間に含まれることを示す判定合格情報を生成する。学習分析比較部2080は、分析結果情報を分析結果情報DB207に記録する。ここで、分析結果情報には、ノード名と、メッセージIDと、分析集計単位時間と、判定不合格情報又は判定合格情報が含まれる。
図10は、本実施形態に係る運用管理システム20の動作の一例を示すフローチャートである。
(ステップS101)メッセージ取得部201は、管理対象ノード101〜103から送信されたメッセージを取得する。メッセージ取得部201は、取得したメッセージに基づいて取得メッセージ情報を生成し、メッセージDB202に記録する。その後ステップS102に進む。
(ステップS102)入力部203は、利用者から学習条件情報を入力されたか否かを判定する。学習条件情報を入力されたと判定された場合(Yes)は、ステップS103に進む。学習条件情報を入力されたと判定されなかった場合(No)は、ステップS104に進む。
(ステップS103)学習情報生成部204は、学習処理を行う。ステップS103における学習処理の詳細については後述する。
(ステップS104)入力部203は、利用者から分析条件情報を入力されたか否かを判定する。分析条件情報を入力されたと判定された場合(Yes)は、ステップS105に進む。分析条件情報を入力されたと判定されなかった場合(No)は、ステップS101に進む。
(ステップS105)分析情報生成部206は、分析処理を行う。ステップS105における分析処理の詳細については後述する。その後ステップS101に進む。
図11は、本実施形態に係る学習処理の動作の一例を示すフローチャートである。図11は図10におけるステップS103の学習処理を示すフローチャートである。
(ステップS201)学習情報生成部204は、ステップS102で入力されたと判定した学習条件情報及び取得メッセージ情報に基づいて、メッセージ学習対象期間内の学習ノード数Ln、学習メッセージID数Lm、学習単位集計時間数Lt、及び学習日数Ldを算出する。ここで、学習ノード数Lnは、メッセージ学習対象期間内にメッセージを発信した管理対象ノードの数である。学習メッセージID数Lmは、メッセージ学習対象期間内に受信したメッセージIDの種類の数である。学習単位集計時間数Ltは、一日あたりの学習集計単位時間の数である。学習日数Ldは、メッセージ学習対象期間内の日数である。その後ステップS202に進む。
(ステップS202)学習情報生成部204は、学習ノード数カウンタLnc、学習メッセージID数カウンタLmc、学習単位集計時間数カウンタLtc、及び学習日数カウンタLdcに「0」を代入する。その後ステップS203に進む。
(ステップS203)学習情報生成部204は、メッセージ学習期間内に未学習の管理対象ノードが残っているか否かを判定する。つまり、Lnc<Lnであるか否かを判定する。Lnc<Lnであると判定された場合(Yes)は、ステップS204に進む。Lnc≧Lnであると判定された場合(No)は、ステップS213に進む。
(ステップS204)学習情報生成部204は、ステップS203で未学習と判定された管理対象ノード(対象ノード)について未学習のメッセージIDが残っているか否かを判定する。つまり、Lmc<Lmであるか否かを判定する。Lmc<Lmであると判定された場合(Yes)は、ステップS205に進む。Lnc≧Lnであると判定された場合(No)は、ステップS206に進む。
(ステップS205)学習情報生成部204は、ステップS204で未学習と判定されたメッセージID(対象メッセージID)について、未学習の学習集計単位時間(対象学習集計単位時間)が残っているか否かを判定する。つまり、Ltc<Ltであるか否かを判定する。Ltc<Ltであると判定された場合(Yes)は、ステップS206に進む。Lnc≧Lnであると判定された場合(No)は、ステップS208に進む。
(ステップS206)学習情報生成部204は、Ltcに「1」を加える。その後ステップS207に進む。
(ステップS207)学習出力数集計部2041は、対象ノード、対象メッセージIDについて、学習集計単位時間内の取得メッセージ情報の数を計算する(集計処理と呼ぶ)。ステップS207における集計処理の詳細については後述する。その後ステップS205に進む。
(ステップS208)学習情報生成部204は、対象メッセージ識別情報について、未学習の学習対象日が残っているか否かを判定する。つまり、Ldc<Ldであるか否かを判定する。Ldc<Ldであると判定された場合(Yes)は、ステップS209に進む。Ldc≧Ldであると判定された場合(No)は、ステップS210に進む。
(ステップS209)学習情報生成部204は、Ldcに「1」を加える。その後ステップS205に進む。
(ステップS210)最大最小値抽出部2042は、最大最小値抽出情報に基づいて、対象ノード、対象メッセージID、及び対象学習集計単位時間毎の最大出力数と最小出力数を計算する。最大最小値抽出部2042は、計算した最大出力数と最小出力数を示す最大最小値情報を学習結果情報DB205に記録する。その後ステップS211に進む。
(ステップS211)学習情報生成部204は、Lmcに「1」を加える。その後ステップS204に進む。
(ステップS212)学習情報生成部204は、Lncに「1」を加える。その後ステップS203に進む。
(ステップS213)出力部209は、学習情報生成部204から入力された学習情報及び最大最小値情報を表示する。
図12は、本実施形態に係る集計処理の一例を示すフローチャートである。図12は図11におけるステップS207の集計処理を示すフローチャートである。
(ステップS301)学習出力数集計部2041は、集計値に「0」を代入する。その後ステップS302に進む。
(ステップS302)学習出力数集計部2041は、対象ノード、対象メッセージについて、対象集計単位時間内の未集計のメッセージがあるか否かを判定する。未集計のメッセージがあると判定された場合(Yes)は、ステップS303に進む。未集計のメッセージがないと判定された場合(No)は、ステップS304に進む。
(ステップS303)学習出力数集計部2041は、集計値に「1」を加える。その後ステップS302に進む。
(ステップS304)学習出力数集計部2041は、集計値(学習データ情報)を学習結果情報DB205に記録する。その後終了処理に進む。
図13は、本実施形態に係る分析処理の動作の一例を示すフローチャートである。
(ステップS401)分析情報生成部206は、入力部203から入力された分析条件情報及び取得メッセージ情報に基づいて、メッセージ分析対象期間内の分析ノード数An、分析メッセージID数Am、分析単位集計時間数At、及び分析日数Adを算出する。ここで、分析ノード数Anは、メッセージ分析対象期間内にメッセージを発信した管理対象ノードの数である。分析メッセージの識別情報数Amは、メッセージ分析対象期間内に受信したメッセージの種類の数である。分析単位集計時間数Atは、一日あたりの分析集計単位時間の数である。分析日数Adは、メッセージ分析対象期間内の日数である。その後ステップS402に進む。
(ステップS402)分析情報生成部204は、分析ノード数カウンタAnc、分析メッセージの識別情報数カウンタAmc、分析単位集計時間数カウンタAtc、及び分析日数カウンタAdcに「0」を代入する。その後ステップS403に進む。
(ステップS403)分析情報生成部204は、メッセージ分析期間内に未分析の管理対象ノードが残っているか否かを判定する。つまり、Anc<Anであるか否かを判定する。Anc<Anであると判定された場合(Yes)は、ステップS404に進む。Anc≧Anであると判定された場合(No)は、ステップS415に進む。
(ステップS404)分析情報生成部204は、ステップS403で未分析と判定された管理対象ノード(対象ノード)について未分析のメッセージの識別情報が残っているか否かを判定する。つまり、Amc<Amであるか否かを判定する。Amc<Amであると判定された場合(Yes)は、ステップS405に進む。Anc≧Anであると判定された場合(No)は、ステップS406に進む。
(ステップS405)分析情報生成部204は、ステップS404で未分析と判定されたメッセージの識別情報(対象メッセージ識別情報)について、未分析の分析集計単位時間(対象分析集計単位時間)が残っているか否かを判定する。つまり、Atc<Atであるか否かを判定する。Atc<Atであると判定された場合(Yes)は、ステップS406に進む。Atc≧Atであると判定された場合(No)は、ステップS408に進む。
(ステップS406)分析情報生成部204は、Atcに「1」を加える。その後ステップS407に進む。
(ステップS407)分析出力数集計部2041は、対象ノード、対象メッセージについて、分析集計単位時間内の取得メッセージ情報の数を計算する(集計処理と呼ぶ)。ステップS407における集計処理の詳細については後述する。その後ステップS205に進む。
(ステップS408)分析情報生成部204は、対象メッセージ識別情報について、未分析の分析対象日が残っているか否かを判定する。つまり、Adc<Adであるか否かを判定する。Adc<Adであると判定された場合(Yes)は、ステップS409に進む。Adc≧Adであると判定された場合(No)は、ステップS410に進む。
(ステップS409)分析情報生成部204は、Adcに「1」を加える。その後ステップS405に進む。
(ステップS410)分析判定部208は、学習結果情報DB205から最大最小値情報を読み出す。分析判定部208は、最大最小値情報が示す最大値と、ステップS407で計算した対象ノード、対象メッセージIDについての、対象分析集計単位時間内の分析集計値情報が示す分析集計値の数と、を比較する。分析集計値が最大値よりも大きいと判定した場合(Yes)はステップS412に進む。分析集計値が最大値よりも大きくないと判定した場合(No)は、ステップS411に進む。
(ステップS411)分析判定部208は、最大最小値情報が示す最小値と、ステップS407で計算した対象ノード、対象メッセージIDについての、対象分析集計単位時間内の分析集計値情報が示す分析集計値の数と、を比較する。分析集計値が最小値よりも小さいと判定した場合(Yes)はステップS412に進む。分析集計値が最小値よりも小さくない判定した場合(No)は、ステップS413に進む。
(ステップS412)分析判定部208は、分析集計値が最大値と最小値の間に含まれないことを示す判定不合格情報を生成する。分析判定部208は、判定不合格情報を含む分析結果情報を分析結果情報DB207に記録する。
(ステップS413)分析判定部208は、分析集計値が最大値と最小値の間に含まれることを示す判定合格情報を生成する。分析判定部208は、判定合格情報を含む分析結果情報を分析結果情報DB207に記録する。
(ステップS414)分析情報生成部204は、Amcに「1」を加える。その後ステップS404に進む。
(ステップS415)分析情報生成部204は、Ancに「1」を加える。その後ステップS415に進む。
(ステップS416)出力部209は、学習情報生成部204から、学習結果情報DB205に記録された学習データ情報及び最大最小値情報を入力される。出力部209は、分析判定部208から、分析結果情報DB207に記録された分析結果情報を入力される。出力部209は、学習データ情報、最大最小値情報、及び分析結果情報を表示する。その後終了処理に進む。
図14は、出力部209が出力する学習結果を表示させるための条件入力画面の一例を示す説明図である。符号14aを付した表示は、メッセージ学習対象期間が2011年7月1日から2011年7月10日であることを示している。符号14bを付した表示は、学習対象とするノード名が「node01」であることを示している。符号14cを付した表示は、学習対象とするメッセージIDが「.20.20.20.20」であることを示している。符号14dを付した表示は、メッセージ本文が「認証エラー発生」であることを示している。つまり、メッセージID「.20.20.20.20」は「認証エラー発生」に対応することを示している。符号14eを付した表示は、学習結果を24時間単位で表示することを示している。
図15は、出力部209が出力する学習結果表示の一例を示す説明図である。符号15aを付した表示は、メッセージ学習対象期間が2011年7月1日から2011年7月10日であることを示している。符号15bを付した表示は、学習対象とするノード名が「node01」であることを示している。符号15cを付した表示は、学習対象とするメッセージIDが「.20.20.20.20」であることを示している。符号15dを付した表示は、メッセージ本文が「認証エラー発生」であることを示している。符号15eを付した点は、7月3日の1時〜2時の間のノード名が「node01」、メッセージIDが「.20.20.20.20」のメッセージ数が「23」であったことを示している。符号15fを付した点は、7月10日の7時〜8時の間のノード名が「node01」、メッセージIDが「.20.20.20.20」のメッセージ数が「19」であったことを示している。符号15gを付した線は、メッセージ学習対象期間内の管理対象ノード、及びメッセージID毎のメッセージ数の最大値を結ぶ線を示している。符号15hを付した線は、メッセージ学習対象期間内の管理対象ノード、及びメッセージ毎、のメッセージ数の最小値を結ぶ線を示している。
図16は、出力部209が出力する分析結果を表示させるための条件入力画面の一例を示す説明図である。符号1aを付した表示は、メッセージ学習対象期間が2011年7月1日から2011年7月10日であることを示している。符号1bを付した表示は、分析対象とするノード名が「node01」であることを示している。符号1cを付した表示は、分析対象とするメッセージIDが「.20.20.20.20」であることを示している。符号1dを付した表示は、メッセージ本文が「認証エラー発生」であることを示している。つまり、メッセージID「.20.20.20.20」は「認証エラー発生」に対応することを示している。符号1eを付した表示は、分析結果を24時間単位で表示することを示している。
図17は、出力部209が出力する分析結果表示の一例を示す説明図である。符号17aを付した表示は、メッセージ学習対象期間が2011年7月1日から2011年7月10日であることを示している。符号17bを付した表示は、学習対象とするノード名が「node01」であることを示している。符号17cを付した表示は、学習対象とするメッセージIDが「.20.20.20.20」であることを示している。符号17dを付した表示は、メッセージ本文が「認証エラー発生」であることを示している。符号17eを付した点は、「7月3日の1時〜2時」の間のノード名が「node01」、メッセージIDが「.20.20.20.20」のメッセージ数が「23」であったことを示している。符号17fを付した点は、7月10日の7時〜8時の間のノード名が「node01」、メッセージIDが「.20.20.20.20」のメッセージ数が「19」であったことを示している。符号17gを付した線は、メッセージ学習対象期間内の管理対象ノード、及びメッセージ毎のメッセージ数の最大値を結ぶ線を示している。符号17hを付した線は、メッセージ学習対象期間内の管理対象ノード、及びメッセージ毎のメッセージ数の最小値を結ぶ線を示している。
符号17iを付した表示は、分析対象日を「7月11日」としたことを示している。符号17jを付した点は、分析対象日が「7月11日」、ノード名が「node01」、メッセージIDが「.20.20.20.20」の集計値が「25」であることを示している。符号17kを付した点は、メッセージ学習対象期間内の管理対象ノード、及びメッセージ毎のメッセージ数の最大値が「24」であることを示している。符号17lを付した表示は、分析対象日に、メッセージ学習対象期間内の管理対象ノード、及びメッセージ毎のメッセージ数の最大値を超える集計値があったため、「分析結果:普段と異なる振る舞いを検出しました」と表示している。これにより、利用者は、指定した分析対象日、ノード名、メッセージIDにおいて、メッセージ学習期間に学習した最大値より大きな集計値となったことを知ることができる。
このように、本実施形態によれば、メッセージ取得部201が、管理対象ノード11〜13が出力した情報を取得する。分析判定部208が、メッセージ取得部201が取得したメッセージの数に基づいて、管理対象ノード11〜13の異常を検知する。本構成によれば、運用管理システム20は、運用管理システム20は、管理対象ノード11〜13が元来出力するメッセージに基づいて管理対象ノード11〜13の異常を検知する。これにより、管理対象システムに新たな設定変更や情報収集負荷を加えることなく、簡易に管理対象ノードの異常を検知することが可能となる。
また、本実施形態によれば、学習情報生成部204は、メッセージの数を記憶する。分析判定部208は、学習情報生成部204が算出したメッセージの数の履歴と、現在のメッセージの数とに基づいて、管理対象ノード11〜13の異常を検知する。これにより、メッセージ数の履歴に基づいて管理対象ノード11〜13が異常であるか否かを検知するため、異常の検知精度が向上する。
また、本実施形態によれば、学習情報生成部204は、指定した期間内における管理対象ノード毎、メッセージの識別情報毎、単位学習集計時間毎のメッセージの数の最大値、又は最小値を算出する。分析判定部208は、現在のメッセージ数が、最大値、最小値の間の値であるか否かに基づいて管理対象ノード11〜13の異常を検知する。これにより、現在のメッセージの数が学習期間におけるメッセージの数の最大値、最小値を逸脱したか否かに基づいて管理対象ノード11〜13が異常であるか否かを検知するため、異常の検知精度が向上する。
なお、分析判定部208は、学習結果情報DB205から読み出した最大最小値情報と分析情報生成部206が生成した分析データ情報とに基づいて分析対象が正常であるか否かを判定した。しかしながら、判定の仕方は上記に限られず、例えば、分析データ情報が、予め定めた閾値よりも大きい、または、予め定めた閾値よりも小さいことに基づいて正常であるか否かを判定してもよい。
なお、タイムスタンプとは、管理対象ノード11〜13がメッセージを生成した時刻に限られず、管理対象ノード11〜13がメッセージを送信した時刻でも、運用管理システム20がメッセージを取得した時刻でもよい。
なお、学習情報生成部204及び分析情報生成部206は、メッセージの識別情報毎に出力数を計算したが、メッセージの識別情報及びメッセージ本文に記載されたメッセージの内容が示す情報に基づいてメッセージを識別し、その出力数を計算してもよい。
なお、本実施形態では、メッセージ情報の蓄積と、蓄積された情報を用いた学習、分析を同一の運用管理装置20で行ったが、各々を別の端末装置で行ってもよい。この場合、メッセージ情報蓄積を行うサーバと、学習、分析を行う端末と、をネットワークによって接続してもよい。
(第2の実施形態)
以下、図面を参照しながら本発明の第2の実施形態について詳しく説明する。
本実施形態では、運用管理装置が、分析処理の中で判定プログラムを実行し、判定プログラムによって異常が起こっていると判定された時間に取得されたメッセージを学習結果情報に反映させない場合について説明する。
図18は、本実施形態に係る運用管理装置21aの構成を示す概略ブロック図である。
運用管理装置21aは、第1の実施形態における運用管理装置21とは、メッセージDB202a、学習情報生成部204a、学習情報生成部206a、分析判定部208aが異なる。しかし、他の構成は、第1の実施形態における運用管理装置21と同様であるため、説明を省略する。
メッセージDB202aは、メッセージ取得部201から入力された取得メッセージ情報を記録する。メッセージDB202aは、分析判定部208aから取得メッセージ情報が異常であることを示すメッセージ異常情報を入力されたとき、その対応する取得メッセージ情報にメッセージ異常フラグを付する。なお、メッセージ異常情報については後述する。取得メッセージ情報とメッセージ異常フラグを関連付けた情報をメッセージ情報と呼ぶ。また、メッセージDB202が記録するメッセージ情報の詳細については後述する。
学習情報生成部204aは、学習出力数集計部2041aの構成が第1の実施形態と異なる。学習情報生成部204aの詳細については後述する。
分析情報生成部206aは、分析出力数集計部2061aの構成が第1の実施形態と異なる。分析情報生成部206aの詳細については後述する。
分析判定部208aは、学習分析比較部2080及び診断プログラム実行部2081aを含んで構成される。
分析判定部208aは、分析データ情報が正常であるか否かを判定する。分析判定部208aは、学習結果情報DB205に記録された最大最小値情報と、分析結果情報DB207から読み出した分析データ情報に基づいて、分析対象が正常であるか否かを判定する。
分析判定部208aは、分析データ情報が異常であると判定された場合には、診断プログラムを実行する。分析判定部208aは、診断プログラムが診断した診断結果が異常と判定された場合には、メッセージ異常情報をメッセージDB202aに記録する。また、分析判定部208aは、診断プログラムが診断した診断結果に基づいて、最大最小値情報を補正する。分析判定部208aは、分析結果を分析結果情報DB207に記録し、出力部209に出力する。
なお、分析判定部208aの詳細については後述する。
図19は、学習情報生成部204aの構成の一例を示したブロック図である。本実施形態における学習情報生成部204aは、学習出力数集計部2041aが異なることを除いて第1の実施形態の学習情報生成部204と同様である。第1の実施形態と同様である部分については説明を省略する。
学習出力数集計部2041aは、学習メッセージ情報抽出部2040から入力された特定の管理対象ノード、特定のメッセージ、及び特定の学習集計単位時間毎に収集したメッセージ情報の数を集計する。この際、メッセージ異常フラグが付されたメッセージ情報は集計に加えない。学習出力数集計部2041は、集計された値を示す集計値情報と、ノードIDと、メッセージの識別情報とを関連付けた情報(学習データ情報)を学習結果情報DB205に記録する。学習出力数集計部2041aは、集計終了情報を学習メッセージ情報抽出部2040に出力する。
図20は、分析情報生成部206aの構成の一例を示したブロック図である。本実施形態における分析情報生成部206aは、分析出力数集計部2061aが異なることを除いて第1の実施形態の学習情報生成部204と同様である。第1の実施形態と同様である部分については説明を省略する。
分析出力数集計部2061aは、分析メッセージ情報抽出部2060から入力された特定の管理対象ノード、特定のメッセージ、特定の学習集計単位時間に収集したメッセージ情報の数を集計する。この際、メッセージ異常フラグが付されたメッセージ情報は集計に加えない。分析出力数集計部2061は、集計された値を示す集計値情報と、ノード名と、メッセージIDと、学習集計単位時間と、を関連付けた情報(分析データ情報)を分析結果情報DB207aに記録する。
図21は、分析判定部208aの構成の一例を示したブロック図である。
分析判定部208aは、学習分析比較部2080a及び診断プログラム実行部2081aを含んで構成される。
学習分析比較部2080aは、学習結果情報DB205から最大最小値情報を読み出す。学習分析比較部2080aは、分析結果情報DB207から分析データ情報を読み出す。学習分析比較部2080aは、最大最小値情報が示す学習メッセージ集計値情報と、分析メッセージ集計値情報と、をノード名、メッセージID、及び分析単位時間毎に比較する。
学習分析比較部2080は、分析集計値情報が示す分析集計値が、最大最小値情報が示す最大値と最小値の間に含まれるか否かを判定する。分析集計値が、最大最小値情報が示す最大値と最小値の間に含まれないと判定された場合は、診断プログラム実行部2081aに診断プログラムを実行させる逸脱情報を出力する。逸脱情報には、ノード名、メッセージID、分析単位時間情報が含まれる。
診断プログラム実行部2081aは、学習分析比較部2080aから逸脱情報を入力されたときに、逸脱情報が示す管理対象ノードに対する診断プログラムを実行する。診断プログラム実行部2081aは、例えば、Pingプログラムにより診断を行う。つまり、診断プログラム実行部2081aは、逸脱情報が示す管理対象ノードに対して、応答要求パケットを送信する。診断プログラム実行部2081aは、対象となる管理対象ノードから応答パケットを受信することで、その管理対象ノードへの到達を確認し、逸脱情報が示す管理対象ノードが正常に稼動しているか否かを判定する。管理対象ノードが正常に稼動していないと判定された場合は、診断プログラム実行部2081は、その管理対象ノードが異常であることを示すメッセージ異常情報をメッセージDB202に記録する。
図22は、メッセージDB202aに記録される取得メッセージ情報テーブルの一例を説明する概略図である。メッセージ取得部201から入力された取得メッセージ情報及び診断プログラム実行部2081から入力されたメッセージ異常情報は、メッセージ情報テーブルに記録される。
図示するようにメッセージ情報テーブルは、タイムスタンプ、メッセージID、ノード名、メッセージ本文、及びメッセージ異常フラグの各項目の列を有している。メッセージ情報テーブルは、タイムスタンプ毎にメッセージID、ノード名、メッセージ本文、メッセージ異常フラグが格納される行と列からなる2次元の表形式のデータである。
符号22aを付したメッセージ情報は、タイムスタンプが、「2007年7月15日7時51分11秒」に、メッセージIDが「.10.10.10.10」であるメッセージを、IPアドレス「192.168..30」を持つ管理対象ノードから送信され、そのメッセージ本文が、「コールデータ転送終了」であることを示す。メッセージ異常フラグは、このメッセージ情報が正常であることを示している。
符号22bを付したメッセージ情報は、タイムスタンプが、「2007年7月16日22時34分13秒」に、メッセージIDが「.20.20.20.20」であるメッセージを、IPアドレス「192.168..50」を持つ管理対象ノードから送信され、そのメッセージ本文が、「認証エラー発生」であることを示す。メッセージ異常フラグは、このメッセージ情報が異常であることを示している。
図23は、本実施形態に係る運用管理システム20aの処理の一例を示すフローチャートである。本実施形態に係る運用管理システム20aの処理は、ステップS103a及びステップS105aを除いて、第1の実施形態における運用管理システム20の処理(図10)と同様であるので説明は省略する。ステップS103a及びステップS105aの処理については後述する。
図24は、図23におけるステップS103aの処理の一例を示すフローチャートである。本実施形態に係るステップS103aの処理は、ステップS207aを除いて、第1の実施形態におけるステップS103の処理(図11)と同様であるので説明は省略する。ステップS207aの処理については後述する。
図25は、図23におけるステップS105aの処理の一例を示すフローチャートである。本実施形態に係るステップS103aの処理は、ステップS407a、ステップS410a、ステップS411a、ステップS4111a、ステップS4112a、及びステップS412aを除いて、第1の実施形態におけるステップS103の処理(図11)と同様である。ステップS407aは図24におけるステップS207aの処理と同様である。
(ステップS410a)分析判定部208は、最大最小値情報が示す最大値と、ステップS407で計算した集計値とを比較する。集計値が最大値よりも大きいと判定した場合(Yes)はステップS4111aに進む。集計値が最大値よりも大きくないと判定した場合(No)は、ステップS411aに進む。
(ステップS411a)分析判定部208は、最小値とステップS407で計算した集計値の数とを比較する。集計値が最小値よりも小さいと判定した場合(Yes)はステップS4111aに進む。分析集計値が最大値よりも小さくない判定した場合(No)は、ステップS413に進む。
(ステップS4111a)学習分析比較部2080aは、診断プログラム実行部2081aに、逸脱情報を出力する。診断プログラム実行部2081aは、入力された逸脱情報が示す管理対象ノードに対して、Pingプログラムを実行する。診断プログラム実行部2081aは、Pingプログラムに対する応答パケットを予め定めた時間内に受信したか否かを判定する。予め定めた時間内に受信した場合(Yes)は、ステップS412に進む。予め定めた時間内に受信しなかった場合(No)は、ステップS4112aに進む。
(ステップS4112a)分析判定部208aは、メッセージDB202aに、逸脱情報が示す分析対象日に出力されたすべてのメッセージが異常であることを示すメッセージ異常情報を記録する。その後ステップS414に進む。
図26は、図24におけるステップS207a及び図25におけるステップS407aの処理(集計処理)を示すフローチャートである。
ステップS301〜ステップS304の処理は、図12におけるステップS301〜ステップS304と同様の処理であるので説明は省略する。
(ステップS3011a)学習出力数集計部2041は、メッセージ情報にメッセージ異常フラグが設定されていないか否かを判定する。メッセージ異常フラグが設定されていない場合(Yes)は、ステップS3011に進む。メッセージ異常フラグが設定されてい場合(No)は、ステップS303に進む。
(ステップS3011b)学習出力数集計部2041は、最大最小値情報が示す最大値より集計値が大きいか否かを判定する。最大値より集計値が大きい場合(Yes)は、ステップS3011cに進む。最大値が集計値以下の場合(No)は、ステップS3011dに進む。
(ステップS3011c)学習出力数集計部2041は、最大値を変更する。具体的には、その対応するノード名、メッセージID、及び学習集計単位時間毎に設けられた最大値に集計値を代入する。その後ステップS302に進む。
(ステップS3011d)学習出力数集計部2041は、学習結果情報DB205から最大最小値情報を読み出す。学習出力数集計部2041は、最大最小値情報が示す最大値より学習集計値が大きいか否かを判定する。最大値より集計値が小さい場合(Yes)は、ステップS3011eに進む。最大値が集計値以下の場合(No)は、ステップS303に進む。
(ステップS3011e)学習出力数集計部2041は、最小値を変更する。具体的には、その対応するノード名、メッセージID、及び学習集計単位時間毎に設けられた最小値に集計値を代入する。その後ステップS303に進む。
このように、本実施形態によれば、分析判定部208aは、現在のメッセージの出力数が最大値と最小値の間の値でないと判定した場合に、管理対象ノード11〜13の異常を診断する診断プログラムを自動的に起動し、診断した結果を表示する。これにより、分析判定部208aは、現在のメッセージの出力数が最大値と最小値の間の値でないと判定した場合であっても、診断プログラムが正常であると判定した場合には、管理者に異常でないことを報知する。したがって、管理者の知識や経験に頼ることなく管理対象ノードの異常を検知することができる。
また、本実施形態によれば、分析判定部208aは、診断プログラムが診断した結果に基づいて、最大値又は最小値を補正する。分析判定部208aは、以後補正後の最大値または補正後の最小値に基づいて管理対象ノード11〜13の異常を診断する。これにより、より確実な判定を行うことが可能となる。
また、分析判定部208aは、診断プログラムが診断した状態に基づいて、最大値又は最小値を補正し、補正後の最大値、又は補正後の最小値に基づいて管理対象ノードの状態を検知する。これにより、現在の集計値が最大値よりも大きい、又は最小値よりも小さい値を得た場合であっても、診断の結果、管理対象ノードが正常であると判定された場合は、最大値、または最小値を集計値の値で置き換える。これにより、以後より確実な判定を行うことが可能となる。
なお、本実施形態では、逸脱情報が示す分析対象日に出力されたすべてのメッセージが異常であると判定し、メッセージDB202aに記録されたメッセージ情報のメッセージ異常フラグを異常としたが、例えば、逸脱情報が示す時刻の前後の予め定められた時間内のメッセージ情報のメッセージ異常フラグを異常としてもよい。また、実際に異常と判定されたメッセージの識別情報のみについて、メッセージ情報のメッセージ異常フラグを異常としてもよい。
なお、メッセージ異常情報は、異常が発生した分析実行日のすべての取得データを異常とするものでもよい。また、異常が発生した分析実行日の異常が発生した管理対象ノードからの取得データを異常とするものでもよい。また、異常が発生した分析実行日の異常が発生した管理対象ノードからの、異常が発生したメッセージのみを異常とするものでもよい。また、異常が発生した分析実行日の異常が発生した管理対象ノードからの、異常が発生したメッセージの、異常が発生した時刻の前後のある定められた時間、又は、発生した時刻から予め定められた時間に取得した取得データのみを異常とするものであってもよい。また、これらの組み合わせであってもよい。
なお、分析指示を入力されたときに、まず学習処理を行い、その後分析処理を行うようにしてもよい。分析処理の直前に学習処理を行うことにより、最新の学習結果に基づいて分析処理を行うことが可能となり、判定の信頼性が高まる。
なお、本実施形態では、集計値が正常範囲から逸脱した場合、その学習集計単位時間の最大値、最小値のみを変更したが、集計値が正常範囲から逸脱した場合、その分析対象日のすべての学習集計単位時間の最大値、最小値を変更してもよい。
なお、分析集計単位時間は、その時間を分析集計単位時間として指定された時間より長くしてもよい。その場合、時間的に連続する分析集計単位時間同士には時間的に重なる部分が生ずる。これにより、分析集計単位時間が切り替わる(次の分析計時間が開始する)瞬間に発生するメッセージが、ある場合は前の分析集計単位時間に集計され、またある場合は、後の分析集計単位時間に集計されることにより学習データ情報が不正確になることを防ぐことができる。
なお、診断プログラム実行部2081aが実行するプログラムは、管理対象ノード101〜103の自己診断プログラムを実行させるプログラムや、管理対象ノード101〜103が生成したコアファイルを取得するプログラムでもよい。
10・・・管理対象システム、20・・・運用管理システム、11〜13・・・管理対象ノード、21、21a・・・運用管理装置、22・・・運用管理端末、201・・・メッセージ取得部、202、202a・・・メッセージ記憶部、203・・・入力部、204、204a・・・学習情報生成部、205・・・学習結果情報記憶部、206、206a・・・分析情報生成部、207・・・分析結果情報記憶部、208、208a・・・分析判定部、209・・・出力部、2040・・・学習メッセージ情報抽出部、2041、2041a・・・学習出力数集計部、2042・・・最大最小値抽出部、2060・・・分析メッセージ情報抽出部、2061、2061a・・・分析出力数集計部、2080、2080a・・・学習分析比較部、2081a・・・診断プログラム実行部

Claims (7)

  1. 管理対象ノードが出力したメッセージであって、情報収集のための設定変更を必要とする性能情報と、情報収集のための処理負荷を必要とする性能情報とをいずれも含まないメッセージを取得するメッセージ取得部と、
    前記メッセージの数を算出する学習情報生成部と、
    前記メッセージ取得部が取得した前記メッセージの数に基づいて前記管理対象ノードの状態を検知する分析判定部であって、前記学習情報生成部が算出した前記メッセージの数の履歴と、現在のメッセージの数とに基づいて前記管理対象ノードの状態を検知する分析判定部と
    を備え
    前記学習情報生成部は、
    指定した期間内における管理対象ノード毎、メッセージの識別情報毎、単位時間毎のメッセージの数の最大値、又は最小値を算出し、
    前記分析判定部は、
    前記現在のメッセージの数が、前記最大値と前記最小値の間の値であるか否かに基づいて前記管理対象ノードの状態を検知し、
    前記現在のメッセージの出力数が前記最大値と前記最小値の間の値でないと判定した場合に、前記管理対象ノードの状態を診断する診断プログラムを起動し、診断した結果に基づいて前記管理対象ノードが異常であるか否かを判定し、
    前記診断した結果に基づいて前記管理対象ノードが異常でないと判定した場合に、前記学習情報生成部に前記最大値又は前記最小値を補正させ、補正後の最大値又は補正後の最小値に基づいて前記管理対象ノードの状態を検知する
    ことを特徴とする運用管理装置。
  2. 前記分析判定部は、
    前記メッセージの識別情報、及び前記メッセージの本文に記載された当該メッセージの内容が示す情報ごとに算出された前記メッセージの数に基づいて、前記管理対象ノードの状態を検知する
    ことを特徴とする請求項1に記載の運用管理装置。
  3. 前記メッセージは、データの転送開始、データの転送完了、データの送信開始、又はデータの送信完了を含む
    ことを特徴とする請求項1又は請求項2に記載の運用管理装置。
  4. 前記学習情報生成部は、前記メッセージが異常である場合に、当該異常であるメッセージを集計に加えない
    ことを特徴とする請求項1から請求項3のいずれか一項に記載の運用管理装置。
  5. 前記分析判定部は、前記診断した結果に基づいて前記管理対象ノードが異常であると判定した場合に、前記現在のメッセージの出力数が前記最大値と前記最小値の間の値でないと判定した時刻を含む予め定められた時間内にある前記メッセージをメッセージ異常であると判定し、
    前記学習情報生成部は、メッセージ異常であると判定さていないメッセージに基づいて、前記最大値又は前記最小値を補正する
    ことを特徴とする請求項1から請求項4のいずれか一項に記載の運用管理装置。
  6. メッセージ取得部が、管理対象ノードが出力したメッセージであって、情報収集のための設定変更を必要とする性能情報と、情報収集のための処理負荷を必要とする性能情報とをいずれも含まないメッセージを取得するメッセージ取得過程と、
    学習情報生成部が、前記メッセージの数を算出する学習情報生成過程と、
    分析判定部が、前記メッセージ取得部が取得した前記メッセージの数に基づいて前記管理対象ノードの状態を検知する分析判定過程であって、前記学習情報生成部が算出した前記メッセージの数の履歴と、現在のメッセージの数とに基づいて前記管理対象ノードの状態を検知する分析判定過程と
    を有し、
    前記学習情報生成過程において、前記学習情報生成部が、
    指定した期間内における管理対象ノード毎、メッセージの識別情報毎、単位時間毎のメッセージの数の最大値、又は最小値を算出し、
    前記分析判定過程において、前記分析判定部が、
    前記現在のメッセージの数が、前記最大値と前記最小値の間の値であるか否かに基づいて前記管理対象ノードの状態を検知し、
    前記現在のメッセージの出力数が前記最大値と前記最小値の間の値でないと判定した場合に、前記管理対象ノードの状態を診断する診断プログラムを起動し、診断した結果に基づいて前記管理対象ノードが異常であるか否かを判定し、
    前記診断した結果に基づいて前記管理対象ノードが異常でないと判定した場合に、前記学習情報生成部に前記最大値又は前記最小値を補正させ、補正後の最大値又は補正後の最小値に基づいて前記管理対象ノードの状態を検知する
    ことを特徴とする運用管理方法。
  7. 運用管理装置のコンピュータに
    管理対象ノードが出力したメッセージであって、情報収集のための設定変更を必要とする性能情報と、情報収集のための処理負荷を必要とする性能情報とをいずれも含まないメッセージを取得するメッセージ取得手順
    前記メッセージの数を算出する学習情報生成手順と、
    前記メッセージ取得手順で取得した前記メッセージの数に基づいて前記管理対象ノードの状態を検知する分析判定手順であって、前記学習情報生成手順にて算出した前記メッセージの数の履歴と、現在のメッセージの数とに基づいて前記管理対象ノードの状態を検知する分析判定手順と
    を実行させるための運用管理プログラムであり、
    前記学習情報生成手順において、
    指定した期間内における管理対象ノード毎、メッセージの識別情報毎、単位時間毎のメッセージの数の最大値、又は最小値を算出し、
    前記分析判定手順において、
    前記現在のメッセージの数が、前記最大値と前記最小値の間の値であるか否かに基づいて前記管理対象ノードの状態を検知し、
    前記現在のメッセージの出力数が前記最大値と前記最小値の間の値でないと判定した場合に、前記管理対象ノードの状態を診断する診断プログラムを起動し、診断した結果に基づいて前記管理対象ノードが異常であるか否かを判定し、
    前記診断した結果に基づいて前記管理対象ノードが異常でないと判定した場合に、前記学習情報生成手順にて前記最大値又は前記最小値を補正させ、補正後の最大値又は補正後の最小値に基づいて前記管理対象ノードの状態を検知する
    ことを特徴とする運用管理プログラム。
JP2011176863A 2011-08-12 2011-08-12 運用管理装置、運用管理方法、及び運用管理プログラム Expired - Fee Related JP5753460B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011176863A JP5753460B2 (ja) 2011-08-12 2011-08-12 運用管理装置、運用管理方法、及び運用管理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011176863A JP5753460B2 (ja) 2011-08-12 2011-08-12 運用管理装置、運用管理方法、及び運用管理プログラム

Publications (2)

Publication Number Publication Date
JP2013041367A JP2013041367A (ja) 2013-02-28
JP5753460B2 true JP5753460B2 (ja) 2015-07-22

Family

ID=47889723

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011176863A Expired - Fee Related JP5753460B2 (ja) 2011-08-12 2011-08-12 運用管理装置、運用管理方法、及び運用管理プログラム

Country Status (1)

Country Link
JP (1) JP5753460B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5721074B2 (ja) * 2011-09-22 2015-05-20 国立研究開発法人産業技術総合研究所 静電塗装装置
WO2019064370A1 (ja) * 2017-09-27 2019-04-04 日本電気株式会社 ログ分析システム、ログ分析方法、ログ分析プログラム、及び記憶媒体

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6597777B1 (en) * 1999-06-29 2003-07-22 Lucent Technologies Inc. Method and apparatus for detecting service anomalies in transaction-oriented networks
JP2004171370A (ja) * 2002-11-21 2004-06-17 Nec Corp 冗長構成におけるクライアント/サーバ間のアドレス制御方式および方法
JP4156540B2 (ja) * 2004-02-23 2008-09-24 Kddi株式会社 ログ分析装置、ログ分析プログラムおよび記録媒体
JP4160002B2 (ja) * 2004-02-23 2008-10-01 Kddi株式会社 ログ分析装置、ログ分析プログラムおよび記録媒体
JP2009252137A (ja) * 2008-04-10 2009-10-29 Nec Personal Products Co Ltd 予防保全システム
JP5264470B2 (ja) * 2008-12-26 2013-08-14 三菱電機株式会社 攻撃判定装置及びプログラム

Also Published As

Publication number Publication date
JP2013041367A (ja) 2013-02-28

Similar Documents

Publication Publication Date Title
US10496465B2 (en) System operations management apparatus, system operations management method and program storage medium
JP5546686B2 (ja) 監視システム、及び監視方法
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
US20120278663A1 (en) Operation management apparatus, operation management method, and program storage medium
US11181890B2 (en) Control system, information processing device, and anomaly factor estimation program
JP7221644B2 (ja) 機器故障診断支援システムおよび機器故障診断支援方法
JP6880560B2 (ja) 故障予測装置、故障予測方法及び故障予測プログラム
JP2009217382A (ja) 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム
JP6280862B2 (ja) イベント分析システムおよび方法
JP5420112B2 (ja) ネットワーク解析支援装置、ネットワーク試験装置、ネットワーク解析支援方法、ネットワーク試験方法、ネットワーク解析支援プログラム及びネットワーク試験プログラム
JP2009033811A (ja) 計測・監視システム、その電力品質計測装置、プログラム
JPWO2015029301A1 (ja) 情報提供装置、サーバ装置、情報提供方法、および情報提供プログラム
US9019124B2 (en) System and method for monitoring and alerting on equipment errors
JP5753460B2 (ja) 運用管理装置、運用管理方法、及び運用管理プログラム
JP6667664B2 (ja) プラント管理装置、プラント管理方法、およびプログラム
JP2010033306A (ja) データ管理システム
JP6798504B2 (ja) ログ分析システム、ログ分析方法及びプログラム
JP2011223154A (ja) 通信診断装置および通信診断方法
JP5958987B2 (ja) 情報処理装置、故障診断制御装置、故障判定方法、故障判定プログラム
JP2019095930A (ja) 決定装置、補正装置、表示装置、決定システム、決定方法及びコンピュータプログラム
CN113342608A (zh) 流式计算引擎任务的监控方法及装置
JP2011192201A (ja) リモート保全システムおよびリモート保全方法
JP2011095830A (ja) 情報収集装置
JP5317799B2 (ja) 施設管理装置および施設管理方法
JP5671021B2 (ja) 医療画像機器制御システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140717

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140722

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140919

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20141216

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150312

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20150319

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150519

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150522

R150 Certificate of patent or registration of utility model

Ref document number: 5753460

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees