JP2021092938A

JP2021092938A - 監視サーバ、プログラム、及び監視方法

Info

Publication number: JP2021092938A
Application number: JP2019222629A
Authority: JP
Inventors: 大輔池田; Daisuke Ikeda; 光平八代; Kohei Yashiro; 千春小針; Chiharu Kohari; 拓也内藤; Takuya Naito
Original assignee: TIS Inc
Current assignee: TIS Inc
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2021-06-17
Anticipated expiration: 2039-12-10
Also published as: JP7437145B2

Abstract

【課題】対象機器で検出された状態変化の原因調査を支援する監視サーバを提供する。【解決手段】監視サーバ１００は、データ取得部１２１、状態変化検出部１２２、変化時点検出部１２３、ログ抽出部１２４、関連情報生成部１２５を備える。データ取得部は、監視の対象機器から、構成要素の状態の履歴を示す状態データと、イベントの履歴を示すログデータを取得する。モデル記憶部１４１は、構成要素の通常時の時系列の状態パターンを示す状態パターンモデルを記憶し、状態変化検出部は、状態パターンモデルを参照して、状態パターンから逸脱する構成要素の状態変化を検出する。変化時点検出部は、状態変化が起きた変化時点を検出する。ログ抽出部は、ログデータから変化時点と関連するログデータを抽出する。関連情報生成部は、変化時点の状態変化と、ログ抽出部により抽出されたログデータを関連付けて、ユーザ端末に出力する状態変化ログ関連情報を生成する。【選択図】図３

Description

本発明は、監視サーバ、プログラム、及び監視方法に関する。

従来、システム運用や工場の製造過程において、システムを構成する機器や製造のための機器（以下、「対象機器」という）の時系列の状態を示す状態データを監視し、監視の結果に基づき対象機器の異常を検知する技術が知られている。また、この異常を検知する技術のうち、対象機器における通常時の時系列の状態のパターン（以下、「対象機器」という）に対する状態データの急激な振る舞いの変化を検出することで、対象機器の異常を検知する、いわゆる「変化点検出」が知られている。

下記非特許文献１に開示されている変化点検出の技術では、動的に変化する時系列の状態データ（多変量データ）に含まれる変数（センサー）同士の相関関係のうち不要な成分を除いて本質的な依存関係のみをスパース構造として抽出し、その構造変化に基づいて、状態の異常度を判定する。

ＴｓｕｙｏｓｈｉＩｄｅ（井出剛），"ＩＢＭプロフェッショナル論文スパース構造学習によるセンサー・データの変化点検出と異常解析"，Ｐｒｏｖｉｓｉｏｎ，２０１０年３月１８日，Ｎｏ．６５，ｐ．７１−７６

非特許文献１のように変化点検出をはじめとして対象機器の異常を検知する技術は多く存在するが、システムの運用などでは、システム管理者などは、対象機器の異常を把握するだけではなく、この異常がどのような原因によるものかを調査する必要がある。例えば、システム管理者は、システム運用の障害管理において、検出された対象機器の状態変化が過去のどの機器のどの処理又はどの構成変更などにより引き起こされたものかといった原因を調査する必要がある。

そこで、本発明は、対象機器の構成要素から検出された状態変化について、原因調査を支援することが可能な監視サーバなどを提供することを目的とする。

本発明の一態様に係る監視サーバは、監視対象の対象機器から、対象機器における構成要素の状態の履歴を示す状態データと、対象機器におけるイベントの履歴を示すログデータとを取得するデータ取得部と、状態データに基づいて、対象機器における通常時の時系列の状態パターンを示す状態パターンモデルを記憶するモデル記憶部を参照して、状態パターンモデルを用いて状態パターンから逸脱する構成要素の状態変化を検出する状態変化検出部と、状態変化が起きた変化時点を検出する変化時点検出部と、ログデータから、変化時点と関連するログデータを抽出するログ抽出部と、変化時点における状態変化とログ抽出部により抽出されたログデータとを関連付けてユーザが使用する端末に出力するための状態変化ログ関連情報を生成する関連情報生成部と、備える。

本発明の一態様に係るプログラムは、コンピュータに、監視対象の対象機器から、対象機器における構成要素の状態の履歴を示す状態データと、対象機器におけるイベントの履歴を示すログデータとを取得するデータ取得機能と、状態データに基づいて、対象機器における通常時の時系列の状態パターンを示す状態パターンモデルを記憶するモデル記憶機能を参照して、状態パターンモデルを用いて状態パターンから逸脱する構成要素の状態変化を検出する状態変化検出機能と、状態変化が起きた変化時点を検出する変化時点検出機能と、ログデータから、変化時点と関連するログデータを抽出するログ抽出機能と、変化時点における状態変化とログ抽出部により抽出されたログデータとを関連付けてユーザが使用する端末に出力するための状態変化ログ関連情報を生成する関連情報生成機能と、を実現させる。

本発明の一態様に係る監視方法は、コンピュータが、監視対象の対象機器から、対象機器における構成要素の状態の履歴を示す状態データと、対象機器におけるイベントの履歴を示すログデータとを取得し、状態データに基づいて、対象機器における通常時の時系列の状態パターンを示す状態パターンモデルを記憶するモデル記憶機能を参照して、状態パターンモデルを用いて状態パターンから逸脱する対象機器における状態変化を検出し、状態変化が起きた変化時点を検出し、ログデータから、変化時点と関連するログデータを抽出し、変化時点における状態変化とログ抽出部により抽出されたログデータとを関連付けてユーザが使用する端末に出力するための状態変化ログ関連情報を生成する。

上記の態様によれば、対象機器における構成要素の状態変化が起きた変化時点を検出し、当該変化時点と関連する対象機器のログデータを、上記状態変化と関連付けてユーザが使用する端末に出力することができる。これにより、ユーザは、状態変化の原因の候補としてログデータに示された対象機器の動作や構成変更とするイベントなどの履歴を把握することができる。

本発明によれば、対象機器において構成要素から検出された状態変化について、原因調査を支援することが可能な監視サーバなどを提供することができる。

本実施形態に係る監視システムのシステム構成例を説明するための図である。本実施形態に係る監視システムのシステム概要を説明するための図である。本実施形態に係る監視サーバの機能構成の一例を示す図である。本実施形態に係る単一の状態データに対する変化点検出の波形図である。本実施形態に係る複数の状態データ間の相関関係の構造変化の模式図である。本実施形態に係る監視システムの画面例を示す図である。本実施形態に係る監視システムの画面例を示す図である。本実施形態に係る監視サーバの動作例を示す図である。本実施形態に係る監視システムの動作例を示す図である。本実施形態に係る監視システムの動作例を示す図である。図１０Ａが示す動作例に後続する動作例を示す図である。図１０Ｂが示す動作例に後続する動作例を示す図である。本実施形態に係る監視システムの動作例を示す図である。本実施形態に係るサーバ装置のハードウェア構成の一例を示す図である。

添付図面を参照して、本発明の好適な実施形態（以下、「本実施形態」という）について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。

本実施形態において、「部」や「手段」、「装置」、「システム」とは、単に物理的手段を意味するものではなく、その「部」や「手段」、「装置」、「システム」が有する機能をソフトウェアによって実現する場合も含む。また、１つの「部」や「手段」、「装置」、「システム」が有する機能が２つ以上の物理的手段や装置により実現されても、２つ以上の「部」や「手段」、「装置」、「システム」の機能が１つの物理的手段や装置により実現されてもよい。

＜１．システム構成＞
本実施形態では、システム管理者であるユーザＵが、本実施形態に係る監視システム１を利用して、監視対象の第１対象機器Ｔ１及び第２対象機器Ｔ２を含む対象システムＳの運用を監視する例を用いて説明するが、これに限る趣旨ではない。なお、第１対象機器Ｔ１と、第２対象機器Ｔ２とは、特に区別の必要が無い場合は、まとめて「対象機器Ｔ」という。

図１を参照して、本実施形態に係る監視システム１のシステム構成例を説明する。

監視システム１は、ユーザＵが、対象システムＳの運用を監視するためのシステムである。図１に示すように、監視システム１は、対象機器Ｔと、監視サーバ１００と、対象機器Ｔの監視結果などをユーザＵに対して出力する監視端末２００とを含んでもよい。また、監視システム１は、例えば、対象機器Ｔにおける構成要素の状態データやログデータを収集するために対象機器Ｔに搭載された監視サーバ１００のエージェントプログラム３００（以下、単に「エージェント３００」という）を含んでもよい。なお、状態データとログデータとは、特に区別の必要が無い場合は、まとめて「監視データ」ともいう。また、対象機器Ｔにおける構成要素は、例えば、対象機器Ｔにおける構成するアプリケーション、ミドルウェア、ＯＳ、又はハードウェアなどである。対象機器Ｔにおける構成要素は、監視対象の単位であってもよい。

「状態データ」とは、対象機器Ｔにおける構成要素の状態の履歴を示すデータである。また、状態データは、対象機器Ｔにおける監視サーバ１００の監視対象のデータでもある。状態データは、例えば、いわゆるメトリクスデータであってもよく、エージェント３００などにより測定されたデータであってもよい。状態データは、例えば、監視対象が対象機器ＴのＯＳであれば、メモリ容量の使用率若しくはＣＰＵ使用率などのリソースの使用状態を示すメトリクス、総プロセス数、又はログインユーザ数などであってもよい。また、状態データは、例えば、監視対象が対象機器Ｔに搭載されたアプリケーションであれば、当該アプリケーションのヒープ領域やインデックスの使用状態などであってもよい。また、状態データは、他の例として、数値ではなく、ｌｏｗ／ｍｉｄ／ｈｉｇｈなどの「程度」を表すものであってもよい。

「ログデータ」とは、対象機器Ｔにおけるイベントの履歴を示すデータである。ログデータは、例えば、対象機器Ｔを構成するハードウェアやソフトウェアに関する動作履歴や構成変更履歴を含んでもよい。また、ログデータは、例えば、障害発生や例外処理発生などのエラーや警告の履歴を含んでもよい。

対象機器Ｔと監視サーバ１００とは、ネットワークＮを介して互いに接続されている。また、監視サーバ１００と対象機器Ｔとは、例えば、ネットワークＮ上に構築されたＶＰＮ（ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）を利用するものであって、ＶＰＮ装置を介して通信してもよい。監視サーバ１００から対象機器Ｔへのリモートアクセスにあたっては、例えば、ＴＥＬＮＥＴなどの通信プロトコル、若しくはＳＳＨ（ＳｅｃｕｒｅＳｈｅｌｌ）又はＶＮＣ（ＶｉｒｔｕａｌＮｅｔｗｏｒｋＣｏｍｐｕｔｉｎｇ）などのリモートアクセスツールをそれぞれ用いて実現してもよい。

監視システム１は、例えば、図示していないが、監視サーバ１００と対象機器Ｔとの間に、対象機器Ｔにおける構成要素の監視データを収集するための収集サーバと当該収集サーバのエージェントプログラム（以下、「収集エージェント」という）とを設けてもよい。また、この収集サーバと収集エージェントとは、サードパーティーシステムのものであってもよい。監視サーバ１００と対象機器Ｔとは、例えば、収集サーバと収集エージェントを介して、監視データの送受信などの通信をしてもよい。

ネットワークＮは、無線ネットワークや有線ネットワークにより構成される。ネットワークの一例としては、携帯電話網や、ＰＨＳ（ＰｅｒｓｏｎａｌＨａｎｄｙ−ｐｈｏｎｅＳｙｓｔｅｍ）網、無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、３Ｇ（３ｒｄＧｅｎｅｒａｔｉｏｎ）、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、４Ｇ（４ｔｈＧｅｎｅｒａｔｉｏｎ）、５Ｇ（５ｔｈＧｅｎｅｒａｔｉｏｎ）、ＷｉＭａｘ（登録商標）、赤外線通信、Ｂｌｕｅｔｏｏｔｈ（登録商標）、有線ＬＡＮ、電話線、電灯線ネットワーク、ＩＥＥＥ１３９４などに準拠したネットワークがある。

監視サーバ１００は、例えば、対象システムＳの対象機器Ｔにおけるアプリケーション、ミドルウェア、ＯＳ、及びハードウェアの少なくとも一つの構成要素を監視するサーバ装置である。監視サーバ１００は、所定のプログラムを実行することにより、対象機器Ｔにおける構成要素の動作状況や通信状況などをモニタリングしたり、対象システムＳの運用を監視するための収集された状態データを分析したり、当該分析結果をユーザＵに通知したりするサーバ機能を実現する。また、監視サーバ１００は、例えば、対象機器Ｔへのリモートアクセスなどが可能であってもよい。

監視サーバ１００からユーザＵへの上記分析結果などの通知は、様々な通知の態様が適用可能である。当該通知は、例えば、監視端末２００に備えられている既存のメッセージソフトに対するメッセージの出力若しくは既存のメールソフトに対するメール送信、対象システムＳの運用状況を示す各種情報・各種データを統合して表示するダッシュボード（以下、単に「ダッシュボード」という）などの管理画面上での出力、又は電話による発呼などが考えられる。なお、ダッシュボードなどの管理画面は、例えば、監視端末２００のＷｅｂブラウザで表示させるものであってもよい。また、ダッシュボードなどの管理画面は、他の例として、監視端末２００に監視システム１専用のアプリケーションプログラム（以下、「監視アプリ」ともいう）をインストールさせて、監視アプリで表示させるものであってもよい。

監視端末２００は、ユーザＵからの対象システムＳの監視のための操作入力や監視サーバ１００との通信が可能なスマートフォンやラップトップなどの端末である。監視端末２００は、ユーザが使用する端末の一態様である。監視端末２００は、所定のプログラムを実行することにより、監視サーバ１００と連携して監視に関する情報を送受信したり監視に関する画面を表示したりユーザＵの操作入力を受け付けたりする。

エージェント３００は、監視データの収集のために、対象機器Ｔに搭載されるプログラムである。エージェント３００は、例えば、搭載された対象機器Ｔにおける構成要素「ＯＳ」のＣＰＵ使用率、メモリ使用率、ネットワーク使用率、又はプロセス起動数などの状態データや対象機器Ｔのログデータを収集する。エージェント３００は、収集したこれらの監視データを監視サーバ１００へ送信する。

＜２．概要＞
図２を参照して、監視システム１の概要を説明する。

（１）図２に示すように、監視サーバ１００は、サイクリックに又はイベントドリブンで、対象機器Ｔから状態データとログデータとを取得する。

（２）監視サーバ１００は、状態データに基づき、状態パターンモデルを用いて対象機器Ｔの構成要素において、通常時の時系列の状態パターンから逸脱する状態変化を検出する。ここで「状態パターン」とは、対象機器Ｔにおける構成要素の時系列の状態の推移をパターン化したものである。また、ここで「状態パターンモデル」とは、対象機器Ｔにおける構成要素の通常時の時系列の状態パターンを示すモデルである。また、監視サーバ１００は、上記検出した状態変化が起きた変化時点を検出する。

監視サーバ１００は、例えば、時系列上のあるタイミングにおいて対象機器ＴのＯＳのＣＰＵ使用率が突如上昇した場合でも、対象機器ＴのＯＳが通常時においても時系列上同じタイミングで上昇する傾向にあれば、上記状態変化が発生しているとは判定しない。言い換えれば、監視サーバ１００は、上記のような場合において、対象機器ＴのＯＳのＣＰＵ使用率が通常時においては時系列上同じようなタイミングで上昇しない傾向にあれば、上記状態変化が発生していると判定する。そして、監視サーバ１００は、当該状態変化を検出する。

（３）監視サーバ１００は、取得したログデータから、上記（２）の変化時点と関連するログデータを抽出する。監視サーバ１００は、例えば、当該変化時点が発生した日時（ｔ）を基準として所定の期間内に記録されたログデータを抽出してもよい。（４）監視サーバ１００は、抽出したログデータと上記（２）の変化時点の状態変化とを関連付けて出力するための後述のログ一覧画面Ｄ１（図６参照）を生成する。ログ一覧画面Ｄ１は、状態変化ログ関連情報の一態様である。監視サーバ１００は、例えば、ログ一覧画面Ｄ１に表示させるログデータのうち上記状態変化と関連付けられているログデータのレコードにおいて、上記状態変化の原因の候補を示す「疑わしいログです」とするテキストメッセージを出力させてもよい。

上記構成によれば、対象機器Ｔにおける構成要素の状態変化が起きた変化時点を検出し、当該変化時点と関連する対象機器Ｔのログデータを、上記状態変化と関連付けて監視端末２００に出力することができる。これにより、ユーザＵは、状態変化の原因の候補としてログデータに示された対象機器の処理や構成変更などの履歴を把握することができる。

＜３．機能構成＞
図３を参照して、本実施形態に係る監視サーバ１００の機能構成を説明する。図３に示すように、監視サーバ１００は、通信部１１０と、制御部１２０と、記憶部１４０と、を備える。

通信部１１０は、ネットワークＮを介して、対象機器Ｔ又は監視端末２００などと各種データ又は各種情報を送受信する。通信部１１０は、例えば、ネットワークＮを介して、対象機器Ｔから監視データを受信したり、監視端末２００に状態変化ログ関連情報を送信したりする。

制御部１２０は、データ取得部１２１と、状態変化検出部１２２と、変化時点検出部１２３と、ログ抽出部１２４と、関連情報生成部１２５と、を備える。また、制御部１２０は、例えば、相関パターン算出部１２６、相関度算出部１２７、異常ログ選別部１２８、通知部１２９、リスト追加受付部１３０、リスト更新部１３１、評価受付部１３２、閾値調整部１３３、モデル構築部１３４、モデル再構築指示部１３５、比較情報生成部１３６、モデル受付部１３７、単語頻度算出部１３８、又は類似度算出部１３９を備えてもよい。

データ取得部１２１は、通信部１１０を介して、対象機器Ｔから監視データを取得する。データ取得部１２１は、例えば、収集サーバに実装されたＡＰＩを利用して、監視データを取得してもよい。ここで、「ＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ）」とは、各種情報の参照機能などを個別にサービス化して、外部のアプリケーションから利用するために、ソフトウェアコンポーネントが互いにやり取りするために使用するインタフェースである。

データ取得部１２１は、例えば、上記ＡＰＩを利用して、監視データの収集を収集サーバに指示する。収集サーバは、当該指示に基づいて、収集エージェントを用いて監視データを収集する。データ取得部１２１は、収集サーバの当該収集の結果として、当該ＡＰＩを介して監視データを取得してもよい。

データ取得部１２１は、他の例として、対象機器Ｔに搭載されたエージェント３００に対象機器Ｔの監視データを収集させ、収集された監視データをエージェント３００から送信させてもよい。データ取得部１２１は、当該送信された監視データを、通信部１１０を介して受信する。また、データ取得部１２１は、他の例として、収集サーバに組み込んだ監視システム１専用のアウトプットプラグイン機能を利用して、収集サーバが収集した監視データを送信させてもよい。データ取得部１２１は、当該送信された監視データを、通信部１１０を介して受信する。また、データ取得部１２１は、他の例として、対象機器Ｔにリモートアクセスして、監視データを取得してもよい。

データ取得部１２１は、同一の構成要素若しくは同一の監視項目を有する複数の対象機器それぞれの状態データ、又は対象機器Ｔが有する複数の構成要素それぞれの状態データを当該対象機器から取得してもよい。ここで「監視項目」とは、対象機器Ｔの構成要素における監視を行う単位である。監視項目は、例えば、構成要素が対象機器ＴのＯＳの場合、メモリ容量の使用率又はＣＰＵ使用率などであってもよい。「同一の構成要素を有する複数の対象機器Ｔ」とは、例えば、対象システムＳに含まれる第１対象機器Ｔ１と第２対象機器Ｔ２それぞれのＯＳを構成要素とし、ＣＰＵ使用率を監視項目とする場合などである。また、「対象機器Ｔが有する複数の構成要素若しくは複数の監視項目それぞれの状態データ」とは、例えば、第１対象機器Ｔが有するＣＰＵ使用率とスワップ使用率それぞれの状態データとする場合などである。

状態変化検出部１２２は、状態パターンモデルを記憶するモデル記憶部を参照する。この「モデル記憶部」は、記憶部１４０に含まれる機能部（後述のモデル記憶部１４１）であってもよいし、外部の装置が備える機能部であってもよい。そして、状態変化検出部１２２は、データ取得部１２１により取得された状態データに基づいて、状態パターンモデルを用いて状態パターンから逸脱する対象機器Ｔにおける構成要素の状態変化を検出する。

状態変化検出部１２２は、例えば、単一の状態データにおける上記状態変化を検出してもよい。状態変化検出部１２２は、このような検出の場合、状態パターンモデルとして、状態パターンモデルがＡＲモデル（ａｕｔｏｒｅｇｒｅｓｓｉｖｅｍｏｄｅｌ（自己回帰モデル））又はＡＲＭＡモデル（ａｕｔｏｒｅｇｒｅｓｓｉｖｅｍｏｖｉｎｇａｖｅｒａｇｅｍｏｄｅｌ（自己回帰移動平均モデル））などの時系列モデルを用いてもよい。

状態変化検出部１２２は、例えば、状態パターンモデルを用いて対象機器Ｔにおける構成要素の状態の予測パターンを算出してもよい。状態変化検出部１２２は、状態データに基づいて、当該予測パターンの数値と状態データの数値との差分の変化度が所定の第１閾値を超えた際に、状態パターンから逸脱する対象機器Ｔにおける構成要素の状態変化を検出してもよい。ここで「所定の第１閾値」とは、対象機器Ｔにおける構成要素の状態データの数値が、通常時の状態パターンに基づき予測される値から逸脱しているか否かを判定するための閾値である。状態変化検出部１２２は、例えば、予測パターンの数値に対する状態データの数値が、乖離する方向（障害方向）で推移しているか、また、収束する方向（復旧方向）で推移しているか判定してもよい。状態変化検出部１２２は、前者について対象機器Ｔの構成要素に障害が発生している可能性があると判定してもよい。状態変化検出部１２２は、後者について対象機器Ｔの構成要素が復旧している可能性があると判定してもよい。

状態変化検出部１２２は、例えば、サイクリックに（例えば、実行間隔を３０分に１回にするなど）、状態パターンモデルを用いて所定の期間における予測パターンを算出する。状態変化検出部１２２は、当該予測パターンの数値と同じ所定の時間における状態データの数値との差分を算出する。状態変化検出部１２２は、算出した差分の推移を分析する。状態変化検出部１２２は、当該分析結果に基づいて差分の変化度を算出し、所定の第１閾値を超えた場合、状態変化を検出したと判定する。状態変化検出部１２２は、上記差分の変化度の算出にあたっては、状態パターンモデルがＡＲモデル又はＡＲＭＡモデルなどの場合、ＣｈａｎｇｅＦｉｎｇｅｒなどの変化点検出アルゴリズム技術を用いてもよい。

ここで、図４を用いて、状態変化検出部１２２における単一の状態データにおける状態変化及び変化点検出の例を示す。縦軸をメモリの使用率（％）とし、横軸を時間軸（秒単位）とした波形図である。当該波形図は、状態データとして取得されたメモリ使用率について、経時的にプロットしたグラフである。Ｐ１及びＰ２がそれぞれ検出された状態変化が起きた変化点である。図４に示すように、一見他の変化点と変わりない変化点でも、上記構成によれば、状態変化検出部１２２は、通常時の状態パターンから逸脱する状態変化、ひいては変化点を検出することができる。

上記構成によれば、状態変化検出部１２２は、対象機器Ｔの構成要素において通常時の状態パターンから一時的に逸脱したものではなく、持続的に逸脱しつづける状態変化を検出することができる。このため、上記構成によれば、状態変化検出部１２２は、リリース作業後のＣＰＵ負荷状況の異常変化や定期バックアップによるディスク増加率の異常変化などを検出することができる。また、上記構成によれば、監視サーバ１００は、持続的に逸脱しつづける状態変化において逸脱し始めた変化点を検出することできる。このため、上記構成によれば、状態変化検出部１２２は、リリース作業など何らかのオペレーションがきっかけで発生したＣＰＵ負荷状況が上昇しつづけているような特に重要度・緊急度の高い状態変化にフォーカスして検出することができる。また、上記構成によれば、状態変化検出部１２２は、状態の変化が許容されるべきものであれば受け入れて、新たな状態をベースに変化を検出し続けられる。

状態変化検出部１２２は、例えば、複数の状態データ間の相関関係における上記状態変化を検出してもよい。

状態変化検出部１２２は、例えば、後述の相関パターン算出部１２６により算出された相関度変動パターンを示す状態パターンモデルを用いて、当該相関度変動パターンに対する後述の相関度算出部１２７により算出された相関関係の変化度が所定の第２閾値を超えた際に、複数の対象機器Ｔ、又は複数の構成要素若しくは複数の監視項目を有する対象機器Ｔにおける状態パターンから逸脱する状態変化を検出してもよい。ここで「所定の第２閾値」とは、複数の対象機器Ｔ、又は複数の構成要素若しくは複数の監視項目の相関関係の変化度が、通常時の相関度変動パターンに基づき予測される値から逸脱しているか否かを判定するための閾値である。

ここで、図５を用いて、状態変化検出部１２２における複数の状態データ間の相関関係における状態変化検出の例を示す。図５（ａ）は、通常時の第１対象機器Ｔ１における複数の監視項目間の相関関係を表す二次元マトリクスである。図５（ｂ）は、異常時の第１対象機器Ｔ１における複数の監視項目間の相関関係を表す二次元マトリクスである。各セルには、各相関関係の度合いが色の濃さで表現されている。図５に示すように、通常時にはＣＰＵ使用率とスワップ使用率の相関関係の度合いは高くないものの、リリース作業後の異常時にはＣＰＵの異常によりスワップの使用率が上昇し相関関係の度合いが変化し通常時より高くなっている。このような構成によれば、状態変化検出部１２２は、単一ではスワップの使用率上昇の原因がなにかを把握することが困難だが、複数の状態データ間の相関関係の変化度を算出することで、スワップの使用率上昇の原因がＣＰＵ使用率にある可能性を見出すことができる。

例えば、他の構成要素の障害の影響を受けやすいメモリは、自身の不具合ではなく他の構成要素の不具合によってその使用量が異常となりやすい。しかしながら、上記構成によれば、ユーザは、（１）まず、図４に示すような単一の状態データにおける状態変化としてメモリ使用量の異常を確認する。（２）つぎに、メモリ使用量と他の構成要素の監視項目との状態データ間の相関関係の構造変化を確認して、その構造変化が異常となっていないかを確認する。（３）つぎに、構造変化が異常となっている相手の他の構成要素について障害の原因調査を行う。このように上記（１）〜（３）のステップを踏むことで、一見するとメモリに不具合があるように思われるが本当は別の構成要素に不具合があるケースにおいても障害の原因特定が可能になる。このため、上記構成によれば、ユーザは、障害対応の効率が向上する。

上記構成によれば、状態変化検出部１２２は、ロードバランサの設定変更に伴う負荷分散状況の変化やリリース作業後の対象機器内のリソース消費のバランスの変化を検出することができる。このため、上記構成によれば、状態変化検出部１２２は、単一の状態変化の検出だけだと見過ごす可能性のある、対象システムＳ全体の状態変化を検出することができる。また、上記構成によれば、状態変化検出部１２２は、状態の変化が許容されるべきものであれば受け入れて、新たな状態をベースに変化を検出し続けられる。

状態変化検出部１２２は、例えば、後述のモデル受付部１３７がユーザＵから状態パターンモデル候補を採用する指定を受け付けた場合、これまで用いていた状態パターンモデルに替えて後述の状態パターンモデル候補を採用する。

上記構成によれば、状態変化検出部１２２は、現行の状態パターンモデルによる検知多発などが判定された場合、ユーザからのフィードバックを受けて、状態パターンモデルを現状に合わせて更新することができる。上記構成によれば、状態変化検出部１２２は、状態パターンモデルを精度よく維持することができる。

状態変化検出部１２２は、例えば、後述の類似度算出部により算出された各単語の類似度が所定の第３閾値を超えた際に、対象機器Ｔにおける構成要素の状態変化を検出してもよい。ここで「所定の第３閾値」とは、対象機器Ｔの各単語の出現頻度の相対度数が、通常時の相対度数から逸脱しているか否かを判定するための閾値である。上記構成によれば、状態変化検出部１２２は、対象機器Ｔにおける構成要素のログデータに含まれる各単語の発生傾向の変化を検出することができる。このため、上記構成によれば、状態変化検出部１２２は、キーワードマッチベースの検出では気付けない各単語の発生傾向の変化を検出することができる。

変化時点検出部１２３は、状態変化検出部１２２により検出された状態変化が起きた変化時点を検出する。変化時点検出部１２３は、例えば、状態パターンモデルがＡＲモデル又はＡＲＭＡモデルの場合、各時点のうち状態変化が検出された時点を変化時点としてもよい。

変化時点検出部１２３は、例えば、状態変化検出部１２２により各単語の類似度が所定の第３閾値を超えた際に検出された状態変化に関する所定の時間帯に基づき、当該変化が起きた変化時点を検出してもよい。

上記構成によれば、変化時点検出部１２３は、対象機器Ｔにおける構成要素のログデータに含まれる各単語の発生傾向の変化の変化時点を検出することができる。上記構成によれば、監視サーバ１００は、各単語の発生傾向の変化点とログデータを関連付けて出力することで、どの時点のログデータにフォーカスして障害の原因を調査すればよいかといった情報をユーザＵに提供することができる。

ログ抽出部１２４は、データ取得部１２１により取得されたログデータから、変化時点検出部１２３により検出された変化時点と関連するログデータを抽出する。ログ抽出部１２４は、例えば、対象機器Ｔにおける構成要素ごとに、上記変化時点を基準として所定の範囲内に発生したログデータを抽出してもよい。

関連情報生成部１２５は、変化時点における状態変化検出部１２２により検出された状態変化とログ抽出部１２４により抽出されたログデータとを関連付ける。そして、関連情報生成部１２５は、当該関連付けに基づいて、状態変化ログ関連情報を生成する。ここで「状態変化ログ関連情報」とは、上記状態変化と上記ログデータとを関連付けて監視端末２００に出力するための情報である。状態変化ログ関連情報は、例えば、ログデータを表示するログ一覧画面Ｄ１において、各ログデータのレコードに状態変化を示すフラグやメッセージを付与してもよい。

上記構成によれば、関連情報生成部１２５は、対象機器Ｔにおける構成要素の状態変化と当該状態変化と関連する対象機器Ｔのログデータとを関連付けて監視端末２００に出力させることができる。これにより、ユーザＵは、状態変化の原因の候補としてログデータに示された対象機器の処理や構成変更などの履歴を把握することができる。

相関パターン算出部１２６は、相関度変動パターンを算出する。ここで「相関度変動パターン」とは、それぞれの状態データ間における通常時の時系列の相関度の変動パターンである。相関パターン算出部１２６は、当該算出した相関度変動パターンを状態パターンモデルとしてモデル記憶部に記憶する。相関パターン算出部１２６は、例えば、複数の対象機器Ｔ又は単一の対象機器Ｔが有する複数の構成要素又は複数の監視項目の組み合わせにおいて、それぞれの通常時の所定の期間における状態データに基づいて、ＧＧＭ（ＧｒａｐｈｉｃａｌＧａｕｓｓｉａｎＭｏｄｅｌ）などの技術を用いて、当該組み合わせの相関度を算出する。相関パターン算出部１２６は、この際併せて、特定の時間幅で逐次ずらしながら、複数回相関度を算出することで、上記相関度の分散値を算出する。相関パターン算出部１２６は、上記組み合わせそれぞれについて、上記算出した相関度と当該相関度の分散値を、相関度の変動パターンとしてモデル記憶部に記憶してもよい。

相関度算出部１２７は、データ取得部１２１に取得された、複数の対象機器Ｔ又は単一の対象機器Ｔが有する複数の構成要素又は複数の監視項目それぞれの状態データに基づいて、それぞれの状態データ間における時系列の相関関係の変化度を算出する。相関度算出部１２７は、例えば、複数の対象機器Ｔ又は単一の対象機器Ｔが有する複数の構成要素又は複数の監視項目の組み合わせにおいて、それぞれの状態データに基づいて、ＧＧＭなどの技術を用いて、当該組み合わせの状態データ間における時系列の相関関係の変化度を算出してもよい。

異常ログ選別部１２８は、選別リストを記憶するリスト記憶部を参照して、データ取得部により取得されたログデータのうち対象機器Ｔの異常に関するログデータか否かを選別する。ここで「選別リスト」とは、対象機器Ｔの異常に関するログデータか否かを選別するためのリストである。選別リストは、例えば、いわゆる、ログデータに対するブラックリスト又はホワイトリストであってもよい。

通知部１２９は、ログ抽出部１２４により抽出されたログデータの少なくとも一部を、選別リストに追加する候補として、ユーザＵに通知する。通知部１２９は、例えば、監視端末２００で表示される通知メッセージ画面Ｄ２（後述の図７参照）に、上記ログデータの少なくとも一部を選別リストに追加する候補として出力するための情報を生成してもよい。通知部１２９は、当該生成した情報を監視端末２００に送信してもよい。また、通知部１２９の通知の態様は、他の例として、上記ログデータの少なくとも一部が選別リストに追加する候補である旨を示すメッセージやメールを監視端末２００が備えるメールソフトやメッセージソフト宛に送信してもよい。

リスト追加受付部１３０は、通知された候補のログデータの少なくとも一部に対する、ユーザＵによる選別リストへの追加の指定を受け付ける。リスト追加受付部１３０は、例えば、ダッシュボードに上記ログデータの少なくとも一部に対するユーザＵの入力による選別リストへの追加の指定を受け付ける受け付け手段を設けて、当該受け付け手段を介して受け付けてもよい。

リスト更新部１３１は、リスト追加受付部１３０により追加の指定を受け付けた候補のログデータの少なくとも一部を、リスト記憶部に記憶される選別リストに追加する。この「リスト記憶部」は、記憶部１４０に含まれる機能部（後述のリスト記憶部１４２）であってもよいし、外部の装置が備える機能部であってもよい。

上記構成によれば、リスト更新部１３１は、対象機器Ｔにおける構成要素の状態変化に関連する、また、ユーザＵが指定されたログを選別リストに追加することができる。このため、上記構成によれば、リスト更新部１３１は、ファクトベースで抽出されたログにより選別リストを更新することで、ログ単体では分からない状態変化と関連性の高いキーワードをもって選別リストにログデータを選別させることができる。これにより、リスト更新部１３１は、選別リストの精度を向上させることができる。

評価受付部１３２は、状態変化ログ関連情報により出力された状態変化の検出に対するユーザＵからの妥当性評価の指定を受け付ける。当該妥当性評価の指定を受け付けに関して、例えば、ログ一覧画面Ｄ１で表示される状態変化と関連付けられたログデータ（例えば、「疑わしいログ」とされたログデータ）に対して「必要」か「不要」の評価の指定を受け付ける受け付け手段をログ一覧Ｄ１に設けてもよい。評価受付部１３２は、この受け付け手段をもって、ユーザＵからログデータに関連付けられた状態変化の検出に対して「必要」か「不要」の妥当性の指定を受け付けてもよい。上記構成によれば、評価受付部１３２は、各状態変化の検出結果がユーザＵにとって過検出又は検出不足などであった場合、その評価を受け付けることができる。

閾値調整部１３３は、評価受付部１３２により指定を受け付けた妥当性評価に基づき、所定の第１閾値及び所定の第２閾値の少なくともいずれか一つを調整する。

上記構成によれば、閾値調整部１３３は、各状態変化の検出結果がユーザＵにとって過検出又は検出不足などであった場合、その評価を受け付けて、所定の第１閾値及び所定の第２閾値にフィードバックさせることができる。

モデル構築部１３４は、所定の学習期間における通常時の対象機器Ｔにおける構成要素の状態データを学習データとして入力することにより状態パターンモデルを構築する。

モデル再構築指示部１３５は、状態変化検出部１２２により検出された状態変化が所定の過誤検出条件を満たした場合、所定の学習期間とは異なる期間における通常時の状態データを学習データとして入力して状態パターンモデル候補の構築をモデル構築部１３４に指示する。ここで「所定の過誤条件」とは、状態変化の検出が過誤検出であるか否かを判定するための条件である。所定の過誤条件は、例えば、特定の監視項目において、同じような状態変化の検出を所定の回数を超えたこととしてもよい。

比較情報生成部１３６は、モデル比較情報を生成する。ここで「モデル比較情報」とは、状態変化検出部１２２で用いられている状態パターンモデルと状態パターンモデル候補とを監視端末２００に比較可能に出力するための情報である。モデル比較情報は、例えば、状態パターンモデルと状態パターンモデル候補を同じ状態データを入力させて出力される状態パターンを、それぞれ図４のような波形図で比較表示するためのモデル比較画面（不図示）であってもよい。

モデル受付部１３７は、モデル比較情報により出力された状態パターンモデル及び状態パターンモデル候補に対する、ユーザＵから採用するモデルの指定を受け付ける。モデル受付部１３７のモデルの指定を受け付けにおいては、例えば、上記モデル比較画面において、状態パターンモデルと状態パターンモデル候補のそれぞれに対して採用する旨を受け付ける受け付け手段を設けてもよい。モデル受付部１３７は、この受け付け手段をもって、状態パターンモデル及び状態パターンモデル候補に対する、ユーザＵから採用するモデルの指定を受け付ける。

単語頻度算出部１３８は、所定の時間帯ごとのログデータに含まれる各単語の出現頻度の相対度数を算出する。ここで「所定の時間帯」とは、ログデータに含まれる各単語の相対的な出現傾向を計るための時間帯である。所定の時間帯は、例えば、対象システムＳの稼働日の稼働時間のうち３０分又は１時間ごとに区切られた時間帯であってもよい。単語頻度算出部１３８は、例えば、所定の時間帯ごとの各単語の出現数を算出する。つぎに単語頻度算出部１３８は、算出した各単語の出現数に基づいて、所定の時間帯における各単語の出現頻度の相対度数を算出する。

類似度算出部１３９は、出現頻度データを記憶する出現頻度記憶部を参照して、各単語の出現頻度の相対度数と出現頻度データが示す各単語それぞれの通常時の相対度数との類似度を算出する。ここで「出現頻度データ」とは、通常時の所定の時間帯ごとの対象機器Ｔのログデータにおける各単語の出現頻度の相対度数を示すデータである。また、この「出現頻度記憶部」は、記憶部１４０に含まれる機能部（後述の出現頻度記憶部１４３）であってもよいし、外部の装置が備える機能部であってもよい。類似度算出部１３９は、例えば、ヒストグラムインセクションなどの技術を用いて、上記類似度を算出してもよい。

記憶部１４０は、監視に関する各種データ及び各種情報を記憶する。記憶部１４０は、例えば、監視データ、状態変化ログ関連情報、選別リスト情報、モデル比較情報、又は出現頻度データなどを記憶する。また、記憶部１４０は、例えば、モデル記憶部１４１、リスト記憶部１４２、又は出現頻度記憶部１４３を備えてもよい。記憶部１４０は、データベースマネジメントシステム（ＤＢＭＳ）を利用して各種データ及び各種情報を記憶してもよいし、ファイルシステムを利用して各種データ及び各種情報を記憶してもよい。ＤＢＭＳを利用する場合は、上記情報ごとにテーブルを設けて、当該テーブル間を関連付けて各種データ及び各種情報を管理してもよい。

モデル記憶部１４１は、状態パターンモデルを記憶する。リスト記憶部１４２は、選別リスト情報を記憶する。出現頻度記憶部１４３は、出現頻度データを記憶する。

＜４．画面例＞
図６〜図７を参照して、監視システム１の画面例を説明する。

図６は、ログ一覧画面Ｄ１の例を示す図である。図６に示すように、データ取得部１２１により取得された対象機器Ｔのログデータを一覧で表示する。

ログ一覧画面Ｄ１は、各ログデータのレコードにおいて、関連付けられた状態変化を示す「疑わしいログ」とするテキストメッセージを「状態」欄に表示してもよい。また、ログ一覧画面Ｄ１は、ログデータ一覧の表示において、状態変化と関連付けられたログデータ（本例では、「疑わしいログ」とする）に限定して表示してもよい。また、ログ一覧画面Ｄ１は、ログデータ一覧の表示において、状態変化と関連付けられていないログデータ（本例では、「通常のログ」とする）に限定して表示してもよい。また、ログ一覧画面Ｄ１は、これらの表示の切り替えを受け付ける受け付け手段（本例では、右上の「疑わしいログ」ボタン及び「通常のログ」ボタン）とする）を設けてもよい。

ログ一覧画面Ｄ１は、各ログデータのレコードにおいて、関連付けられた状態変化の詳細を表示する詳細画面に遷移するための受け付け手段（本例では、「疑わしいログ」テキストの右隣りの「詳細」ボタンとする）を設けてもよい。この詳細画面は、例えば、状態データにより描画された図４に示すような波形図を表示したり、上記モデル比較画面を表示したりしてもよい。

図７は、通知メッセージ画面Ｄ２の例を示す図である。図７に示すように、通知メッセージ画面Ｄ２は、対象システムＳの監視においてユーザＵに通知するメッセージをリストアップして表示する。通知メッセージ画面Ｄ１は、例えば、ログデータの一部（本例では、キーワード「Ｗａｒｎｉｎｇ」とする）ブラックリストの追加候補として通知するメッセージを表示する。

＜５．動作例＞
図８〜図１１を参照して、監視サーバ１００又は監視システム１の動作例を説明する。なお、以下に示す図５〜図１１の動作例の処理の順番は一例であって、適宜、変更されてもよい。

図８は、監視サーバ１００における、監視データの取得処理から対象機器Ｔにおける構成要素の状態変化とログデータの関連付けを出力する情報の生成処理までの流れを示すフロー図である。

図８に示すように、監視サーバ１００のデータ取得部１２１は、対象機器Ｔから、状態データとログデータとを取得する（Ｓ１０）。状態変化検出部１２２は、状態データに基づいて、状態パターンモデルを記憶するモデル記憶部を参照して、状態パターンモデルを用いて状態パターンから逸脱する対象機器Ｔにおける構成要素の状態変化の検出を判定する（Ｓ１１）。

状態変化検出部１２２が対象機器Ｔにおける構成要素の状態変化を検出した場合（Ｓ１２のＹｅｓ）、変化時点検出部１２３は、当該状態変化が起きた変化時点を検出する（Ｓ１３）。

ログ抽出部１２４は、ログデータから、上記変化時点と関連するログデータを抽出する（Ｓ１４）。関連情報生成部１２５は、上記変化時点における状態変化とログ抽出部１２４により抽出されたログデータとを関連付けて状態変化ログ関連情報を生成する（Ｓ１５）。

監視サーバ１００は、監視を終了しない場合（Ｓ１６のＮｏ）、フローチャートのステップＳ１０の前に戻り監視を継続する。

図９は、監視システム１における、監視の前処理として、対象機器Ｔにおける構成要素の通常時の状態データを用いて状態パターンモデルを構築する際の相互作用の例を示すシーケンス図である。

図６に示すように、監視サーバ１００及び第１対象機器Ｔ１と、監視サーバ１００及び第２対象機器Ｔ２とは、対象機器Ｔの通常時において、複合フラグメントｐａｒａ１（Ｐａｒａｌｌｅｌ１、以下同じ）が示すエリア内の破線上部と下部にあるメッセージのやり取り及び処理をそれぞれ実行する。また、これらの機器は、所定の学習期間、複合フラグメントｐａｒａ１が示すエリア内のやり取り及び処理を繰り返し実行してもよい。具体的には、第１対象機器Ｔ１は、自身の状態データを収集する（Ｓ２０）。第１対象機器Ｔ１は、収集した状態データを監視サーバ１００に送信する（Ｓ２１）。監視サーバ１００は、第１対象機器Ｔ１から状態データを取得する（Ｓ２２）。第２対象機器Ｔ２は、搭載されたエージェント３００により状態データを収集する（Ｓ２３）。第２対象機器Ｔ２は、収集した状態データを監視サーバ１００に送信する（Ｓ２４）。監視サーバ１００は、第２対象機器Ｔ２から状態データを取得する（Ｓ２５）。

監視サーバ１００は、所定の学習期間において取得した対象機器Ｔにおける構成要素の状態データを学習データとして入力することにより状態パターンモデルを構築する（Ｓ２６）。監視サーバ１００は、例えば、状態データを学習データとして入力してそれぞれの状態データ間における相関度変動パターンを算出してもよい。監視サーバ１００は、構築した状態パターンモデルをモデル記憶部１４１に記憶する（Ｓ２６）。監視サーバ１００は、例えば、上記算出した相関度変動パターンを状態パターンモデルとしてモデル記憶部１４１に記憶してもよい。

図１０Ａ〜１０Ｃは、監視システム１における、対象機器Ｔにおける構成要素の異常時において、状態変化を検出し、当該状態変化とログデータを関連付けて出力する際の相互作用の例を示すシーケンス図である。さらに、図１０Ａ〜１０Ｃは、監視システム１における、上記状態変化とログデータとの関連付けを利用して、選別リストの更新や所定の第２閾値の調整する際の相互作用の例も示すシーケンス図である。

図１０Ａに示すように、監視サーバ１００及び第１対象機器Ｔ１と、監視サーバ１００及び第２対象機器Ｔ２とは、いずれかの対象機器Ｔにおける構成要素の異常時において、複合フラグメントｐａｒａ２が示すエリア内の破線上部と下部にあるメッセージのやり取り及び処理をそれぞれ実行する。具体的には、第１対象機器Ｔ１は、自身の状態データ及びログデータを収集する（Ｓ３０）。第１対象機器Ｔ１は、収集した状態データ及びログデータを監視サーバ１００に送信する（Ｓ３１）。監視サーバ１００は、第１対象機器Ｔ１から状態データ及びログデータを取得する（Ｓ３２）。第２対象機器Ｔ２は、搭載されたエージェント３００により状態データ及びログデータを収集する（Ｓ３３）。第２対象機器Ｔ２は、収集した状態データ及びログデータを監視サーバ１００に送信する（Ｓ３４）。監視サーバ１００は、第２対象機器Ｔ２から状態データ及びログデータを取得する（Ｓ３５）。

監視サーバ１００は、上記状態データに基づいて、状態パターンモデルを用いて対象機器Ｔにおける構成要素の状態の予測パターンを算出する（Ｓ３６）。監視サーバ１００は、第１対象機器Ｔ１と第２対象機器Ｔ２はそれぞれ、当該予測パターンの数値と状態データの数値との差分の変化度と所定の第１閾値とを比較する（Ｓ３７）。監視サーバ１００と監視端末２００とは、第１対象機器Ｔ１の差分の変化度が所定の第１閾値を超えた場合、複合フラグメントｏｐｔ１（Ｏｐｔｉｏｎ１、以下同じ）が示すエリア内にある処理を実行する。具体的には、監視サーバ１００は、状態パターンから逸脱する第１対象機器Ｔ１における構成要素の状態変化（以下、「第１状態変化」ともいう）を検出する（Ｓ３８）。

監視サーバ１００は、第１状態変化が起きた変化時点（以下、「第１変化時点」という）を検出する（Ｓ３９）。監視サーバ１００は、第１対象機器Ｔ１から取得したログデータから、第１変化時点と関連するログデータ（以下、「第１ログデータ」という）を抽出する（Ｓ４０）。監視サーバ１００は、第１変化時点における第１状態変化と第１ログデータとを関連付けて監視端末２００に出力するための状態変化ログ関連情報（以下、「第１状態変化ログ関連情報」という）を生成する（Ｓ４１）。なお、監視サーバ１００は、この状態変化ログ関連情報の生成にあたって、第１ログデータの一部（本例では、キーワード「Ｗａｒｎｉｎｇ」とする）を選別リスト（本例では、「ブラックリスト」とする）の追加候補としてユーザＵに通知するための情報を状態変化ログ関連情報に含める。

監視サーバ１００は、第１状態変化ログ関連情報を監視端末２００に送信する（Ｓ４２）。監視端末２００は、監視サーバ１００から、第１状態変化ログ関連情報を取得する（Ｓ４３）。監視端末２００は、第１状態変化ログ関連情報に基づき、第１状態変化と第１ログデータとの関連付けをログ一覧画面Ｄ１に表示する（Ｓ４４）。監視端末２００は、通知メッセージ画面Ｄ２を表示して、第１ログデータの一部を選別リストの追加する候補としてユーザＵに通知する（Ｓ４５）。監視端末２００は、第１ログデータの一部に対するユーザＵによる選別リストへの追加の指定入力を受け付ける（Ｓ４６）。

監視端末２００は、監視サーバ１００に、上記第１ログデータの一部に対する選別リストへの追加の指定を要求する（Ｓ４７）。監視サーバ１００は、第１ログデータの一部に対する、ユーザＵによる選別リストへの追加の指定を受け付ける（Ｓ４８）。監視サーバ１００は、追加の指定を受け付けた候補の第１ログデータの一部を、選別リストに追加する（Ｓ４９）。ステップ４９に後続する監視サーバ１００及び監視端末２００のメッセージのやり取り及び処理を図１０Ｂに示す。

図１０Ｂに示すように、監視サーバ１００は、第１対象機器Ｔ１及び第２対象機器Ｔ２それぞれの状態データに基づいて、それぞれの状態データの数値間における時系列の相関関係の変化度を算出する（Ｓ５０）。監視サーバ１００は、算出した相関度の変化度と所定の第２閾値とを比較する（Ｓ５１）。監視サーバ１００と監視端末２００とは、当該比較の結果、相関度の変化度が所定の第２閾値を超えた場合、複合フラグメントｏｐｔ２が示すエリア内にあるメッセージのやり取り及び処理を実行する。具体的には、監視サーバ１００は、第１対象機器Ｔ１及び第２対象機器Ｔ２における構成要素の状態パターンから逸脱する状態変化（以下、「第２状態変化」という）を検出する（Ｓ５２）。

監視サーバ１００は、第２状態変化が起きた変化時点（以下、「第２変化時点」という）を検出する（Ｓ５３）。監視サーバ１００は、第１対象機器Ｔ１及び第２対象機器Ｔ２から取得したログデータから、第２変化時点と関連するログデータ（以下、「第２ログデータ」という）を抽出する（Ｓ５４）。監視サーバ１００は、第２変化時点における第２状態変化と第２ログデータとを関連付けて監視端末２００に出力するための状態変化ログ関連情報（以下、「第２状態変化ログ関連情報」という）を生成する（Ｓ５５）。なお、監視サーバ１００は、この状態変化ログ関連情報の生成にあたって、第２状態変化の検出に対するユーザＵからの妥当性評価の指定を受け付ける受け付け手段を、状態変化ログ関連情報に含める。

監視サーバ１００は、第２状態変化ログ関連情報を監視端末２００に送信する（Ｓ５６）。監視端末２００は、監視サーバ１００から、第２状態変化ログ関連情報を取得する（Ｓ５７）。監視端末２００は、第２状態変化ログ関連情報に基づき、第２状態変化と第２ログデータとの関連付けをログ一覧画面Ｄ１に表示する（Ｓ５８）。また、監視端末２００は、モデル比較画面において、上記妥当性評価の指定を受け付ける受け付け手段も表示する。監視端末２００は、ログ一覧画面Ｄ１で表示した第２状態変化の検出に対する妥当性評価の指定入力をモデル比較画面の受け付け手段により受け付ける（Ｓ５９）。

監視端末２００は、監視サーバ１００に、上記妥当性評価の指定を要求する（Ｓ６０）。監視サーバ１００は、第２状態変化の検出に対する、ユーザＵによる妥当性評価の指定を受け付ける（Ｓ６１）。監視サーバ１００は、上記指定を受け付けた妥当性評価に基づき、第２状態変化に対応する所定の第２閾値を調整する（Ｓ６２）。ステップ６２に後続する監視サーバ１００及び監視端末２００のメッセージのやり取り及び処理を図１０Ｃに示す。

図１０Ｃに示すように、監視サーバ１００は、取得したログデータに含まれる各単語の所定の時間帯ごとの出現頻度の相対度数を算出する（Ｓ７０）。監視サーバ１００は、出現頻度データを記憶する出現頻度記憶部１４３を参照して、算出した各単語の出現頻度の相対度数と出現頻度データが示す各単語それぞれの通常時の相対度数との類似度を算出する（Ｓ７１）。

監視サーバ１００は、上記算出した各単語の類似度と所定の第３閾値とを比較する（Ｓ７２）。監視サーバ１００と監視端末２００とは、当該比較の結果、各単語の類似度が所定の第３閾値を超えた場合、複合フラグメントｏｐｔ３が示すエリア内にあるメッセージのやり取り及び処理を実行する。具体的には、監視サーバ１００は、各単語を含むログデータの出力元の対象機器Ｔにおける状態パターンから逸脱する状態変化（以下、「第３状態変化」という）を検出する（Ｓ７３）。

監視サーバ１００は、第３状態変化に関する上記所定の時間帯に基づき、第３状態変化が起きた変化時点（以下、「第３変化時点」という）を検出する（Ｓ７４）。監視サーバ１００は、対象機器Ｔから取得したログデータから、第３変化時点と関連するログデータ（以下、「第３ログデータ」という）を抽出する（Ｓ７５）。監視サーバ１００は、第３変化時点における第３状態変化と第３ログデータとを関連付けて監視端末２００に出力するための状態変化ログ関連情報（以下、「第３状態変化ログ関連情報」という）を生成する（Ｓ７６）。

監視サーバ１００は、第３状態変化ログ関連情報を監視端末２００に送信する（Ｓ７７）。監視端末２００は、監視サーバ１００から、第３状態変化ログ関連情報を取得する（Ｓ７８）。監視端末２００は、第３状態変化ログ関連情報に基づき、第３状態変化と第３ログデータとの関連付けをログ一覧画面Ｄ１に表示する（Ｓ７９）。

図１１は、監視システム１における、対象機器Ｔにおける構成要素の異常時において、状態変化を検出し、当該状態変化とログデータを関連付けて出力する際の相互作用の例を示すシーケンス図である。さらに、図１１は、監視システム１における、状態変化の検出が所定の過誤検出条件を満たしたことにより状態パターンモデルを再構築し、既存のものと切り替える際の相互作用の例も示すシーケンス図である。

図１１に示すように、監視サーバ１００及び第１対象機器Ｔ１と、監視サーバ１００及び第２対象機器Ｔ２とは、いずれかの対象機器Ｔにおける構成要素の異常時において、複合フラグメントｐａｒａ３が示すエリア内の破線上部と下部にあるメッセージのやり取り及び処理をそれぞれ実行する。具体的には、第１対象機器Ｔ１は、自身の状態データ及びログデータを収集する（Ｓ９０）。第１対象機器Ｔ１は、収集した状態データ及びログデータを監視サーバ１００に送信する（Ｓ９１）。監視サーバ１００は、第１対象機器Ｔ１から状態データ及びログデータを取得する（Ｓ９２）。第２対象機器Ｔ２は、搭載されたエージェント３００により状態データ及びログデータを収集する（Ｓ９３）。第２対象機器Ｔ２は、収集した状態データ及びログデータを監視サーバ１００に送信する（Ｓ９４）。監視サーバ１００は、第１対象機器Ｔ２から状態データ及びログデータを取得する（Ｓ９５）。

監視サーバ１００は、上記状態データに基づいて、状態パターンモデルを用いて通常時の時系列の状態パターンから逸脱する対象機器Ｔにおける構成要素の状態変化を検出する（Ｓ９６）。監視サーバ１００と監視端末２００は、当該状態変化が所定の過誤検出条件を満たした場合、複合フラグメントｏｐｔ３が示すエリア内にあるメッセージのやり取り及び処理を実行する。具体的には、監視サーバ１００は、所定の学習期間とは異なる期間における通常時の状態データを学習データとして入力して状態パターンモデル候補の構築をモデル構築部に指示する（Ｓ９８）。監視サーバ１００は、所定の学習期間とは異なる期間における通常時の対象機器Ｔにおける構成要素の状態データを学習データとして入力することにより状態パターンモデルを構築する（Ｓ９９）。

監視サーバ１００は、状態変化検出部で用いられている現行の状態パターンモデルと状態パターンモデル候補とを監視端末２００に比較可能に出力するためのモデル比較情報を生成する（Ｓ１００）。監視サーバ１００は、モデル比較情報を監視端末２００に送信する（Ｓ１０１）。監視端末２００は、監視サーバ１００からモデル比較情報を取得する（Ｓ１０２）。監視端末２００は、モデル比較情報に基づき、モデル比較画面を表示する（Ｓ１０３）。監視端末２００は、モデル比較画面により出力された現行の状態パターンモデル及び状態パターンモデル候補に対する、ユーザＵから採用するモデルの指定を受け付ける（Ｓ１０４）。

監視端末２００は、監視サーバ１００に、上記採用するモデルの指定を要求する（Ｓ１０５）。監視サーバ１００は、現行の状態パターンモデル及び状態パターンモデル候補に対する、ユーザＵから採用するモデルの指定を受け付ける（Ｓ１０６）。監視サーバ１００は、状態パターンモデル候補を採用する指定を受け付けた場合、複合フラグメントｏｐｔ４−１が示すエリア内にある処理を実行する。具体的には、監視サーバ１００は、現行の状態パターンモデルから状態パターンモデル候補に切り替える（Ｓ１０７）。

＜６．ハードウェア構成＞
図１２を参照して、上述してきた監視サーバ１００をコンピュータ８００により実現する場合のハードウェア構成の一例を説明する。なお、それぞれの装置の機能は、複数台の装置に分けて実現することもできる。

図１２に示すように、コンピュータ８００は、プロセッサ８０１と、メモリ８０３と、記憶装置８０５と、入力Ｉ／Ｆ部８０７と、データＩ／Ｆ部８０９と、通信Ｉ／Ｆ部８１１、及び表示装置８１３を含む。

プロセッサ８０１は、メモリ８０３に記憶されているプログラムを実行することによりコンピュータ８００における様々な処理を制御する。例えば、監視サーバ１００の制御部１２０が備える各機能部などは、メモリ８０３に一時記憶された上で、主にプロセッサ８０１上で動作するプログラムとして実現可能である。

メモリ８０３は、例えばＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などの記憶媒体である。メモリ８０３は、プロセッサ８０１によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。

記憶装置８０５は、例えばハードディスクドライブ（ＨＤＤ）やフラッシュメモリなどの不揮発性の記憶媒体である。記憶装置８０５は、オペレーティングシステムや、上記各構成を実現するための各種プログラムを記憶する。この他、記憶装置８０５は、監視データ、状態変化ログ関連情報、選別リスト情報、モデル比較情報、又は出現頻度データを登録するテーブルと、当該テーブルを管理するＤＢを記憶することも可能である。このようなプログラムやデータは、必要に応じてメモリ８０３にロードされることにより、プロセッサ８０１から参照される。

入力Ｉ／Ｆ部８０７は、ユーザからの入力を受け付けるためのデバイスである。入力Ｉ／Ｆ部８０７の具体例としては、キーボードやマウス、タッチパネル、各種センサ、ウェアラブル・デバイスなどが挙げられる。入力Ｉ／Ｆ部８０７は、例えばＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）などのインタフェースを介してコンピュータ８００に接続されても良い。

データＩ／Ｆ部８０９は、コンピュータ８００の外部からデータを入力するためのデバイスである。データＩ／Ｆ部８０９の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置などがある。データＩ／Ｆ部８０９は、コンピュータ８００の外部に設けられることも考えられる。その場合、データＩ／Ｆ部８０９は、例えばＵＳＢなどのインタフェースを介してコンピュータ８００へと接続される。

通信Ｉ／Ｆ部８１１は、コンピュータ８００の外部の装置と有線又は無線により、インターネットＮを介したデータ通信を行うためのデバイスである。通信Ｉ／Ｆ部８１１は、コンピュータ８００の外部に設けられることも考えられる。その場合、通信Ｉ／Ｆ部８１１は、例えばＵＳＢなどのインタフェースを介してコンピュータ８００に接続される。

表示装置８１３は、各種情報を表示するためのデバイスである。表示装置８１３の具体例としては、例えば液晶ディスプレイや有機ＥＬ（Ｅｌｅｃｔｒｏ−Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、ウェアラブル・デバイスのディスプレイなどが挙げられる。表示装置８１３は、コンピュータ８００の外部に設けられても良い。その場合、表示装置８１３は、例えばディスプレイケーブルなどを介してコンピュータ８００に接続される。また、入力Ｉ／Ｆ部８０７としてタッチパネルが採用される場合には、表示装置８１３は、入力Ｉ／Ｆ部８０７と一体化して構成することが可能である。

なお、本実施形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均などなものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。

［変形例］
なお、本発明を上記実施形態に基づいて説明してきたが、以下のような場合も本発明に含まれる。

上記実施形態に係る監視サーバ１００における各構成の少なくとも一部は、対象機器Ｔに搭載するエージェント３００又は監視端末２００が備えてもよい。

１…監視システム、１００…監視サーバ、１１０…通信部、１２０…制御部、１４０…記憶部、３００…エージェントプログラム、８００…コンピュータ、８０１…プロセッサ、８０３…メモリ、８０５…記憶装置、８０７…入力Ｉ／Ｆ部、８０９…データＩ／Ｆ部、８１１…通信Ｉ／Ｆ部、８１３…表示装置、Ｓ…対象システム、Ｔ、Ｔ１、Ｔ２…対象機器、Ｕ…ユーザ。

Claims

監視対象の対象機器から、前記対象機器における構成要素の状態の履歴を示す状態データと、前記対象機器におけるイベントの履歴を示すログデータとを取得するデータ取得部と、
前記状態データに基づいて、前記構成要素における通常時の時系列の状態パターンを示す状態パターンモデルを記憶するモデル記憶部を参照して、前記状態パターンモデルを用いて前記状態パターンから逸脱する前記構成要素の状態変化を検出する状態変化検出部と、
前記状態変化が起きた変化時点を検出する変化時点検出部と、
前記ログデータから、前記変化時点と関連するログデータを抽出するログ抽出部と、
前記変化時点における前記状態変化と前記ログ抽出部により抽出されたログデータとを関連付けてユーザが使用する端末に出力するための状態変化ログ関連情報を生成する関連情報生成部と、を備える、
監視サーバ。
前記状態変化検出部は、前記状態データに基づいて、前記状態パターンモデルを用いて前記構成要素における状態の予測パターンを算出し、前記予測パターンの数値と前記状態データの数値との差分の変化度が所定の第１閾値を超えた際に、前記状態パターンから逸脱する前記構成要素における状態変化を検出する、
請求項１に記載の監視サーバ。
前記データ取得部は、同一の構成要素若しくは同一の監視項目を有する複数の対象機器それぞれの状態データ、又は前記対象機器が有する複数の構成要素若しくは複数の監視項目それぞれの状態データを前記対象機器から取得し、
前記それぞれの状態データ間における通常時の時系列の相関度の変動パターンを示す相関度変動パターンを算出し、前記算出した相関度変動パターンを前記状態パターンモデルとして前記モデル記憶部に記憶する相関パターン算出部と、
前記それぞれの状態データに基づいて、前記それぞれの状態データ間における時系列の相関関係の変化度を算出する相関度算出部と、をさらに備え、
前記状態変化検出部は、前記状態パターンモデルを用いて前記相関度変動パターンに対する前記相関関係の変化度が所定の第２閾値を超えた際に、前記複数の対象機器それぞれの前記同一の構成要素又は複数の構成要素における前記状態パターンから逸脱する状態変化を検出する、
請求項２に記載の監視サーバ。
前記状態変化ログ関連情報により出力された状態変化の検出に対する前記ユーザからの妥当性評価の指定を受け付ける評価受付部と、
前記評価受付部により指定を受け付けた妥当性評価に基づき、前記所定の第１閾値及び前記所定の第２閾値の少なくともいずれか一つを調整する閾値調整部と、をさらに備える、
請求項３に記載の監視サーバ。
前記対象機器の異常に関するログデータか否かを選別するための選別リストを記憶するリスト記憶部を参照して、前記データ取得部により取得されたログデータのうち前記対象機器の異常に関するログデータか否かを選別する異常ログ選別部と、
前記ログ抽出部により抽出されたログデータの少なくとも一部を、前記選別リストに追加する候補として、前記ユーザに通知する通知部と、
前記通知された候補のログデータの少なくとも一部に対する、前記ユーザによる前記選別リストの追加の指定を受け付けるリスト追加受付部と、
前記リスト追加受付部により追加の指定を受け付けた候補のログデータの少なくとも一部を、前記選別リストに追加するリスト更新部と、をさらに備える、
請求項１から４のいずれか一項に記載の監視サーバ。
所定の学習期間における通常時の前記構成要素の前記状態データを学習データとして入力することにより前記状態パターンモデルを構築するモデル構築部と、
前記状態変化が所定の過誤検出条件を満たした場合、前記所定の学習期間とは異なる期間における通常時の前記状態データを学習データとして入力して状態パターンモデル候補の構築を前記モデル構築部に指示するモデル再構築指示部と、
前記状態変化検出部で用いられている前記状態パターンモデルと前記状態パターンモデル候補とを前記端末に比較可能に出力するためのモデル比較情報を生成する比較情報生成部と、
前記モデル比較情報により出力された前記状態パターンモデル及び前記状態パターンモデル候補に対する、前記ユーザから採用するモデルの指定を受け付けるモデル受付部と、をさらに備え、
前記状態変化検出部は、前記モデル受付部が前記ユーザから前記状態パターンモデル候補を採用する指定を受け付けた場合、これまで用いていた前記状態パターンモデルに替えて前記状態パターンモデル候補を採用する、
請求項１から５のいずれか一項に記載の監視サーバ。
所定の時間帯ごとの前記ログデータに含まれる各単語の出現頻度の相対度数を算出する単語頻度算出部と、
通常時の前記所定の時間帯ごとの前記対象機器のログデータにおける前記各単語の出現頻度の相対度数を示す出現頻度データを記憶する出現頻度記憶部を参照して、前記各単語の出現頻度の相対度数と前記出現頻度データが示す各単語それぞれの通常時の相対度数との類似度を算出する類似度算出部と、をさらに備え、
前記状態変化検出部は、前記各単語の類似度が所定の第３閾値を超えた際に、前記構成要素における状態変化を検出し、
前記変化時点検出部は、前記状態変化に関する前記所定の時間帯に基づき、前記状態変化が起きた変化時点を検出する、
請求項１から６のいずれか一項に記載の監視サーバ。
コンピュータに、
監視対象の対象機器から、前記対象機器における構成要素の状態の履歴を示す状態データと、前記対象機器におけるイベントの履歴を示すログデータとを取得するデータ取得機能と、
前記状態データに基づいて、前記対象機器における通常時の時系列の状態パターンを示す状態パターンモデルを記憶するモデル記憶機能を参照して、前記状態パターンモデルを用いて前記状態パターンから逸脱する前記構成要素の状態変化を検出する状態変化検出機能と、
前記状態変化が起きた変化時点を検出する変化時点検出機能と、
前記ログデータから、前記変化時点と関連するログデータを抽出するログ抽出機能と、
前記変化時点における前記状態変化と前記ログ抽出機能により抽出されたログデータとを関連付けてユーザが使用する端末に出力するための状態変化ログ関連情報を生成する関連情報生成機能と、を実現させる、
プログラム。
コンピュータが、
監視対象の対象機器から、前記対象機器における構成要素の状態の履歴を示す状態データと、前記対象機器におけるイベントの履歴を示すログデータとを取得し、
前記状態データに基づいて、前記構成要素における通常時の時系列の状態パターンを示す状態パターンモデルを記憶するモデル記憶機能を参照して、前記状態パターンモデルを用いて前記状態パターンから逸脱する前記構成要素の状態変化を検出し、
前記状態変化が起きた変化時点を検出し、
前記ログデータから、前記変化時点と関連するログデータを抽出し、
前記変化時点における前記状態変化と前記抽出されたログデータとを関連付けてユーザが使用する端末に出力するための状態変化ログ関連情報を生成する、
監視方法。