JP7285798B2

JP7285798B2 - 性能分析装置、性能分析方法、及び性能分析プログラム

Info

Publication number: JP7285798B2
Application number: JP2020040198A
Authority: JP
Inventors: ヤナバックフース; 洋輔肥村; 峰義増田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2023-06-02
Anticipated expiration: 2040-03-09
Also published as: JP2021140675A

Description

本発明は、時間情報を持つ性能データにより、システムの性能を分析する技術に関する。

近年、ＩＴシステムの信頼性、可用性、セキュリティを向上させるためのＩＴ運用管理の自動化への関心が高まっている。ＩＴ運用管理の主な仕事は、ＩＴシステムの健全性の監視と維持であり、現在主に人間のオペレータによって行われている仕事を含む。

ＩＴシステムの一部が誤動作している場合、人間のオペレータは、問題の原因と同様に現在の範囲を見つけることを義務付けられる。これは、マニュアル検索のみによって行われる場合には、非常に時間のかかるプロセスとなり得る。

近年、ＩＴシステムの数は、組織において着実に増加しており、ＩＴシステムの大規模なエンティティ、例えば、データセンタの使用は、ますます一般的になってきている。したがって、迅速な問題認識は、ますます困難になるが、すべての生活分野におけるＩＴシステムへの人間の依存度が増大するため、さらに重要になる。例えば、機械学習のような計算アプローチを用いて、ＩＴシステムデータを分析することによって、ＩＴシステムの健全性の問題を自動的に検出することは、上述の問題を軽減することができる。

別の重要な側面は、設計された問題検出アプローチの再利用可能性である。ＩＴシステムの数が増加するにつれて、ＩＴシステムの健全性の問題は、多くの異なる問題コンテキストの下で考慮されなければならないが、問題コンテキストの各変化に対して新しい解決策が設計される場合、人間の大きな努力及び特定の機械学習領域の知識が必要である。
したがって、異なる問題コンテキストに対して容易に複製可能な異常検出アプローチは、特に明示的な機械学習領域の知識が必要でない場合に、ＩＴ運用管理者への救済をもたらす。

例えば、特許文献１には、関連する技術として、クラスタ化された異常値のグループについて脅威リスクスコアを特定する方法が開示されている。この方法では、異常値タイプに関するヒントを得るために異なる特徴が使用され、データ依存の数学モデルおよびＭＬモデルをそれぞれ適用することによって、異常値が識別され、脅威リスクスコアが割り当てられる。

米国特許出願公開第２０１９／０２６０７９３号明細書

ＩＴ運用管理者は、ＩＴシステムの性能に問題を見つけることに挑戦している。ＩＴシステムの性能データの分析は、異なる問題コンテキスト、すなわちＩＴシステムの属性に関する異常およびそれらの初期原因の検出をサポートする。現在、大部分の提案されている分析方法は、問題コンテキストの変更ごとに、高い人間のセットアップ努力を必要とする。

特許文献１の技術によると、外れ値を検出し、異なる問題コンテキストについて、各外れ値にスコアを割り当てることができる２ステップの外れ値検出方法が確立されているが、特徴工学、機械学習、または数学モデル選択、ならびにモデル調整（例えば、パラメータ）に関する決定を含む、新しい問題コンテキストごとに、高い人間ベースのモデリング努力を必要とする。また、十分なトレーニングデータも確保する必要がある。

本発明は、上記事情に鑑みなされたものであり、その目的は、人間への負荷を低減でき、システムにおける性能を適切に分析することのできる技術を提供することにある。

上記目的を達成するため、一観点に係る性能分析装置は、時間情報と、コンテキストを示す複数の諸元に関する諸元情報と、性能情報とを含むデータ要素を複数含む性能データを用いて性能を分析する性能分析装置であって、前記性能データのデータ要素の少なくとも１つの諸元に関する諸元情報に基づいて、前記性能データを複数のデータインスタンスに分割するデータインスタンス生成部と、前記データインスタンスについてのデータ特性を評価し、評価したデータ特性に応じた性能分析方法を特定し、特定した前記性能分析方法により、前記データインスタンスに属するデータ要素に対して性能分析を行って性能分析結果を示すラベルを付けるラベル付部と、を有する。

本発明によれば、人間への負荷を低減でき、システムにおける性能を適切に分析することができる。

図１は、一実施形態に係る異常検出装置を含む異常検出システムの全体構成図である。図２は、一実施形態に係る性能データデータベースの構成図である。図３は、一実施形態に係るデータインスタンス生成部によるデータインスタンス生成処理のフローチャートである。図４は、一実施形態に係るデータコンテキスト選択部によるデータコンテキスト選択処理のフローチャートである。図５は、一実施形態に係るデータインスタンスのデータ構成図である。図６は、一実施形態に係るデータインスタンスラベル付部のデータインスタンスラベル付処理のフローチャートである。図７は、一実施形態に係る方法プールの構成図である。図８は、一実施形態に係るデータインスタンスラベルデータベースの構成図である。図９は、一実施形態に係るラベルデータ採点部によるラベルデータ採点処理のフローチャートである。図１０は、一実施形態に係るコンテキストスコアデータベースの構成図である。図１１は、一実施形態に係る可視化処理部による可視化処理のフローチャートである。図１２は、一実施形態に係る異常検出装置のハードウェア構成図である。図１３は、一実施形態に係るＧＵＩの画面例を示す図である。

実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態の中で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。

以下の説明では、「ＡＡＡテーブル」の表現にて情報を説明することがあるが、情報は、どのようなデータ構造で表現されていてもよい。すなわち、情報がデータ構造に依存しないことを示すために、「ＡＡＡテーブル」を「ＡＡＡ情報」と呼ぶことができる。

また、以下の説明では、データコンテキスト諸元は、分析の対象となる性能データのデータセット内のいくつかの列の形で定義される問題コンテキストである。

また、適用データコンテキスト諸元は、異常検出を行う処理で使用するために選択され、性能データをデータインスタンスに分割する際に使用（適用）するデータコンテキスト諸元である。

また、データインスタンスは、性能データのデータセットを適用データコンテキスト諸元の構成に従ってより小さなエンティティに分割したものを意味する。

図１は、一実施形態に係る異常検出装置を含む異常検出システムの全体構成図である。

異常検出システムは、性能分析装置の一例としての異常検出装置１００と、性能データデータベース（ＤＢ）２００と、コンソール３００と、ディスプレイ４００とを備える。

性能データＤＢ２００は、異常検出装置１００によって解析される性能データのデータセット（性能データセット）を含むデータセットテーブル２０２（図２参照）と、各性能データセットのそれぞれの属性についての情報を定義するデータコンテキスト２０１ａ（データコンテキストテーブル２１０のエントリ）を含むデータコンテキストテーブル２０１とを格納する。本実施形態では、性能データＤＢ２００は、異常検出装置１００の外部に設けられ、例えば、図示しないネットワークを介して接続された装置内に設けられていることを想定しているが、異常検出装置１００内に備えるようにしてもよい。性能データＤＢ２００の詳細については、図２を用いて後述する。

異常検出装置１００は、データコンテキスト２０１ａに従って、性能データＤＢ２００の性能データセットをデータインスタンス１２０（１２０－１～Ｎ）に分割することによって、性能データＤＢ２００の性能データセットにおける異常を識別し、各データインスタンス１２０についてデータ（データ要素）毎にイベントラベルを割り当てる。また、異常検出装置１００は、データインスタンスラベルＤＢ１６０内のラベル付けされたデータ及びデータコンテキストに基づいて、異常スコアを計算し、各イベントラベルの異常を特定する。

コンソール３００は、異常検出装置１００に接続された入力デバイスである。コンソール３００は、異常検出装置１００の管理者による管理タスクを可能にする。具体的には、コンソール３００は、管理者から異常検出装置１００の設定の入力を受け付けたり、異常検出装置１００のユーザからディスプレイ４００上の可視化されたコンテンツ（画面）の変更を受け付けたりする。

ディスプレイ４００は、ＧＵＩを用いて異常検出装置１００の結果を可視化することができる出力装置である。本実施形態では、ディスプレイ４００は、例えば、異常検出結果、例えば、異常スコア等をＧＵＩにより表示する。ディスプレイ４００でのＧＵＩの表示例については、図１３を用いて後述する。

異常検出装置１００は、データインスタンス生成部１１０と、ラベル付部の一例としてのデータインスタンスラベル付部１３０と、再帰的原因特定部１４０と、方法プール１５０と、データインスタンスラベルデータベース（ＤＢ）１６０と、コンテキストスコアデータベース（ＤＢ）１７０と、を備える。

本実施形態では、異常検出装置１００において、或るデータコンテキストテーブル２０１の１つのデータコンテキスト（１つのエントリ：対象エントリという。この例では、１行目のエントリ）と、これに対応する１つの性能データセット（エントリに対応する性能データテーブル２０２）とを処理対象として取得（受信）した場合について説明する。

異常検出装置１００は、データインスタンス生成部１１０において、データコンテキスト２０１ａと共に受信した性能データセットに対して前処理をしている。データインスタンス生成部１１０は、選択部の一例としてのデータコンテキスト選択部１１１を有する。

この前処理ステップは、データコンテキスト選択部１１１におけるデータコンテキスト諸元の選択と、データコンテキスト諸元のデータのフォーマッティングとを含む。データのフォーマッティングに関する情報は、方法プール１５０を参照して使用することができる。

データコンテキスト選択部１１１で選択された適用データコンテキスト諸元は、性能データＤＢ２００に格納される。適用データコンテキスト諸元は、以降において、性能データをいくつかのデータインスタンス１２０に分割するために使用される。これらの詳細については、図３、図４、及び図５を参照して後述する。

取得されたデータインスタンス１２０は、次に、方法プール１５０から最良の方法を選択することによって、各データインスタンスにイベントラベルを割り当てるタスクを有するデータインスタンスラベル付部１３０においてさらに処理され、その後、ラベル付けされたデータインスタンスがデータインスタンスラベルＤＢ１６０に格納される。これらの詳細については、図６、図７、及び図８を参照して後述する。

データインスタンスラベルＤＢ１６０からのラベル付けされたデータインスタンスは、再帰的原因特定部１４０においてさらに処理される。再帰的原因特定部１４０は、採点部の一例としてのラベルデータ採点部１４１と、可視化処理部１４２とを含む。再帰的原因特定部１４０は、集約のためにデータコンテキスト選択部１１１から受信した適用データコンテキスト諸元の情報を使用して、各イベントラベルについてラベルデータ採点部１４１で異常に関するスコアを計算し、コンテキストスコアＤＢ１７０にスコア情報を保存するタスクを有する。さらに、コンテキストスコアＤＢ１７０からの集約およびスコア結果の可視化は、ディスプレイ４００上で表示するために可視化処理部１４２で準備される。コンソール３００を介して異常検出装置１００のユーザから新しい入力を受け取ると、可視化処理部１４２での新しい可視化またはラベルデータ採点部１４１でのスコアの再計算がトリガされる。これらのさらなる詳細は、図９、図１０、及び図１１を参照して後述する。

次に、性能データＤＢ２００について説明する。

図２は、一実施形態に係る性能データデータベースの構成図である。

性能データＤＢ２００は、２つの種類のテーブル、すなわち、データコンテキストテーブル２０１と、性能データテーブル２０２（２０２－１～ｎ）とを含む。

データコンテキストテーブル２０１は、データコンテキスト毎のエントリを含む。データコンテキストテーブル２０１のエントリは、データＩＤＤ２０１０１、性能データテーブルＩＤＤ２０１０２、データコンテキスト諸元Ｄ２０１０３、適用データコンテキスト諸元Ｄ２０１０４、フォーマット辞書Ｄ２０１０５、及びラベリング目標Ｄ２０１０６のカラムを含む。

データＩＤＤ２０１０１には、性能データセット（性能データテーブル２０２の１つのテーブルが格納しているデータセット）に関連付けられた一意の値であるデータＩＤが格納される。性能データテーブルＩＤＤ２０１０２には、性能データセットを格納する性能データテーブル２０２－１～ｎのいずれかへのポインタが格納される。データコンテキスト諸元Ｄ２０１０３には、データコンテキストの情報とみなす性能データセットを格納する性能データテーブルの列（諸元：項目）の名前が格納される。

適用データコンテキスト諸元Ｄ２０１０４には、データコンテキスト選択部１１１によって選択された適用データコンテキスト諸元の情報とする性能データセットを格納する性能データテーブルの列（諸元）の名前を格納する。フォーマット辞書Ｄ２０１０５には、オプションとするフォーマットを行う変換プログラム名と、適用する性能データテーブルの列（諸元）の名前とが対応付けられた辞書が格納される。この辞書は、例えば、異常検出装置１００のユーザによって定義される。ラベリング目標Ｄ２０１０６には、データインスタンスラベル付部１３０で正確なラベリング方法を選択するための情報として必要とされる、性能データセットのラベリングの目標（ラベリング目標）が格納される。

性能データテーブル２０２（２０２－１～ｎ）は、それぞれ性能データセットを格納する。性能データテーブル２０２は、格納する性能データセットの種類によって異なる構成となっている。性能データテーブル２０２は、性能データセットにおける性能データごとのエントリ（行：データ要素）を格納する。ここで、このテーブルの以下の説明においては、性能データが、いくつかのウェブサイトへのアクセスに関する性能データである場合を例に説明する。

性能データテーブル２０２のエントリ（データ要素）は、例えば、時刻Ｄ２０２０１、ＵＲＩＤ２０２０２、ソースＩＰＤ２０２０３、ＨＴＴＰｍｅｔｈｏｄＤ２０２０４、性能指標１～ＮＤ２０２０５～Ｄ２０２Ｎのカラムを含む。この例では、ＵＲＩＤ２０２０２、ソースＩＰＤ２０２０３、ＨＴＴＰｍｅｔｈｏｄＤ２０２０４の情報が諸元情報の一例であり、性能指標１～ＮＤ２０２０５～Ｄ２０２Ｎが性能情報の一例である。

時刻Ｄ２０２０１には、性能データセットの各エントリのデータについての時刻情報（例えば、年月日時分秒：時間情報の一例）が格納される。ＵＲＩＤ２０２０２には、エントリに対応する性能データが示す通信先のウェブサイトのＵＲＩ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＩｄｅｎｔｉｆｉｅｒ：ウェブアドレス）が格納される。本実施形態では、このＵＲＩは、データコンテキストの諸元の１つの例である。ソースＩＰＤ２０２０３には、エントリに対応する性能データが示す通信の送信元のＩＰアドレス（ソースＩＰ）が格納される。このＩＰアドレスは、データコンテキストの諸元の１つの例である。

ＨＴＴＰｍｅｔｈｏｄＤ２０２０４には、性能データが示すウェブサイトへのアクセス時のｈｔｔｐ形式の要求方法が格納される。この要求方法は、データコンテキストの諸元の１つの一例である。性能指標１～ＮＤ２０２０５～Ｄ２０２Ｎには、性能データにおける性能指標（メトリック値という、一般的には数値）が格納される。なお、性能指標の種類の数は任意でよく、その種類の数に応じたカラムが用意されて使用されることとなる。

次に、データインスタンス生成部１１０によるデータインスタンス生成処理について説明する。

図３は、一実施形態に係るデータインスタンス生成部によるデータインスタンス生成処理のフローチャートである。

データインスタンス生成部１１０は、処理対象のデータコンテキスト情報（データコンテキストテーブル２０１のエントリ）を有する性能データセット（性能データテーブルの１つ）を性能データＤＢ２００から受信する（Ｓ１１００１）。

次いで、データインスタンス生成部１１０は、データコンテキスト選択部１１１から適用データコンテキスト諸元を取得する（Ｓ１１００２）。データコンテキスト選択部１１１では、図４に示すデータコンテキスト選択処理により、適用データコンテキスト諸元が選択されて、データインスタンス生成部１１０に適用データコンテキスト諸元が送信される。データコンテキスト選択処理は、図４を用いて後述する。

次いで、データインスタンス生成部１１０は、適用データコンテキスト諸元における各一意値の組合せを含むリストを作成する（ステップＳ１１００３）。例えば、適用データコンテキスト諸元に含まれる諸元「ＵＲＩ」における一意の値として、「ＵＲＩ１」，「ＵＲＩ２」があり、適用データコンテキスト諸元に含まれる諸元「ソースＩＤ」における一意の値として、「１０．０．＊。＊」がある場合には、データインスタンス生成部１１０は、これらの値を組み合わせた２つの組合せ「（ＵＲＩ１，１０．０．＊．＊），（ＵＲＩ２，１０．０．＊．＊）」を含むリストを作成する。

次いで、データインスタンス生成部１１０は、リストに含まれる各組合せ毎にループ１の処理（ステップＳ１１００４，Ｓ１１００５）を実行する。この処理において処理対象の組合せを対象組合せという。

ループ１の処理においては、データインスタンス生成部１１０は、性能データＤＢ２００の適用データコンテキスト諸元に対応する性能データテーブル２００（性能データセット）から、対象組合せに対応する値を含むエントリ（行）を抽出して、対象組合せに対応するデータインスタンスを生成する（ステップＳ１１００４）。

次いで、データインスタンス生成部１１０は、時間に関するデータインスタンスの疎性を考慮することによってステップＳ１１００４で取得されたデータインスタンスについての理想の時間窓サイズを決定する（ステップＳ１１００５）。ここで、疎性が高い（非常に疎である：例えば、所定の閾値よりも疎性が高い）データインスタンスに対しては、より正確なラベル付けを達成するために、疎性が所定以下となるように、大きな時間窓サイズに決定される。これにより、データインスタンスにおけるエントリの数を処理に適した数に調整することができる。

データインスタンス生成部１１０は、１つの対象組合せに対してループ１の処理を行った後には、未処理の他の組合せを次の処理対象としてループ１の処理を行い、リストの全ての組合せを対象にループ１の処理を行った場合には、ループ１を抜けて、データインスタンス生成処理を終了する。

次に、データコンテキスト選択処理（Ｓ１１００２）について説明する。

図４は、一実施形態に係るデータコンテキスト選択部によるデータコンテキスト選択処理のフローチャートである。

データコンテキスト選択部１１１は、処理対象としているデータコンテキスト諸元の各諸元ごとにループ２の処理（ステップＳ１１１０１～Ｓ１１１０５）を実行する。ここで、処理対象としているデータコンテキスト諸元を対象データコンテキスト諸元といい、対象データコンテキスト諸元におけるループ２の処理対象としている諸元を対象諸元という。

ループ２においては、データコンテキスト選択部１１１は、性能データＤＢ２００のデータコンテキストテーブル２０１の対象データコンテキスト諸元に対応するエントリのフォーマット辞書Ｄ２０１０５から対象諸元の値のフォーマットを変更するためのフォーマットルールを取得する（Ｓ１１１０１）。本実施形態では、フォーマットルールは、諸元の名称に対して、適用可能なプログラムへのポインタが対応付けられた辞書形式となっている。

次いで、データコンテキスト選択部１１１は、ステップＳ１１１０１で取得したルールが、対象諸元に対して利用可能であるか否かを判定する（Ｓ１１１０２）。

この結果、対象諸元に対してフォーマットルールが利用可能である場合（Ｓ１１１０２：Ｙｅｓ）には、データコンテキスト選択部１１１は、処理をステップＳ１１１０５に進める。

一方、対象データコンテキスト諸元に対してフォーマットルールが利用可能でない場合（Ｓ１１１０２：Ｎｏ）には、データコンテキスト選択部１１１は、処理をステップＳ１１１０３に進める。

ステップＳ１１１０３では、データコンテキスト選択部１１１は、方法プール１５０のコンテキストフォーマッティングテーブル１５２（図７参照）で定義されている対象諸元に対応するフォーマットルール（ここでは、エントリ）を取得する。

次いで、データコンテキスト選択部１１１は、コンテキストフォーマッティングテーブル１５２の期待正規表現フォーマットＤ１５２０２の期待正規表現フォーマットに従って、対象諸元の値（データ）が期待正規表現か否かを判定することにより、対象諸元の値に対してフォーマットルールを適用するか否かを判定する（Ｓ１１１０４）。

この結果、対象諸元の値が期待正規表現である場合（Ｓ１１１０４：Ｎｏ）には、データフォーマットを変更しなくてもよいことを意味しているので、データコンテキスト選択部１１１は、処理をループ２の終わりに進める。

一方、対象諸元が期待正規表現でない場合（Ｓ１１１０４：Ｙｅｓ）には、データフォーマットを変更する必要があることを意味しているので、データコンテキスト選択部１１１は、取得したエントリのフォーマット処理Ｄ１５２０３からフォーマットを実行するプログラム（スクリプト）のポインタを取得し、処理をステップＳ１１１０５に進める。

ステップＳ１１１０５では、データコンテキスト選択部１１１は、ステップＳ１１１０２で取得されたフォーマットルール又はステップＳ１１１０４で取得されたプログラムに従って、対象諸元の値をフォーマットする。

データコンテキスト選択部１１１は、１つの対応諸元に対してループ２の処理を終えた後には、他の諸元を新たな処理対象としてループ２の処理を実行し、全ての諸元を処理対象とした後に、ループ２を抜けて、処理をステップＳ１１１０６に進める。

ステップＳ１１１０６では、データコンテキスト選択部１１１は、性能データＤＢ２００のデータコンテキストテーブル２０１の対象データコンテキスト諸元に対応するエントリにおけるデータコンテキスト諸元Ｄ２０１０３のすべてのデータコンテキスト諸元（諸元のリスト）を、このエントリの適用データコンテキスト諸元Ｄ２０１０４にコピーする。

次いで、データコンテキスト選択部１１１は、現在、適用データコンテキスト諸元とされているすべての諸元に基づいて、性能データセットのデータを分割し、分割によって得たデータインスタンスの疎性を評価する（Ｓ１１１０７）。

次いで、データコンテキスト選択部１１１は、データインスタンスについてのデータの分割が疎すぎる（例えば、或る量のデータ行を超えるデータインスタンスがない)か否かを判定する（Ｓ１１１０８）。

この結果、データ分割が疎すぎる場合（Ｓ１１１０８：Ｙｅｓ）には、データコンテキスト選択部１１１は、処理をステップＳ１１１０９に進める。一方、データ分割が疎すぎない場合（Ｓ１１１０８：Ｎｏ）には、データ分割が適切に行われたことを意味しているので、データコンテキスト選択部１１１は、処理をステップＳ１１１１０に進める。

ステップＳ１１１０９では、データコンテキスト選択部１１１は、適用データコンテキスト諸元の中から最も不均一な分布を有する諸元を検出し、検出した諸元を適用データコンテキスト諸元から落とし（削除し）、処理をステップＳ１１１０７に進める。例えば、データコンテキストテーブル２０１の１行目のエントリを処理対象としている場合には、データコンテキスト諸元のうちの諸元「ＨＴＴＰｍｅｔｈｏｄ」は、ほとんどの値が方法タイプ「ｃｏｎｎｅｃｔ」である不均一な分布を有する傾向がある。この場合には、このステップにおいては、諸元「ＨＴＴＰｍｅｔｈｏｄ」が適用データコンテキスト諸元のリストから落とされることとなる。これにより、分析処理に適していない諸元を適切にのぞくことができる。

上記したステップＳ１１１０７～Ｓ１１１０９の処理を繰り返し実行することにより、疎すぎないデータインスタンスを生成することができる適用データコンテキスト諸元を特定することができる。

ステップＳ１１１１０では、データコンテキスト選択部１１１は、データ分割が疎すぎない場合（Ｓ１１１０８：Ｎｏ）、すなわち、データ分割が適切に行われている場合における適用データコンテキスト諸元を、データコンテキストテーブル２０１の対応するエントリの適用データコンテキスト諸元Ｄ２０１０４に格納する。

上記したデータコンテキスト選択処理によると、データ分割が適切に行われるデータコンテキストの諸元（適用データコンテキスト諸元）を適切に選択することができる。

次に、データインスタンス１２０について説明する。

図５は、一実施形態に係るデータインスタンスのデータ構成図である。

データインスタンス１２０（１２０－１～ｎ）は、データインスタンス生成部１１０から得られる。データインスタンス生成部１１０から得られるデータインスタンスの数は、適用データコンテキスト諸元によって変わる。

データインスタンス１２０は、同一のデータコンテキスト（すなわち、適用データコンテキスト諸元の各諸元の値が同一であるもの）についての所定の時間区間ごとのエントリ（行：データ要素）を格納する。データインスタンス１２０のエントリは、時刻Ｄ１２００１、時間窓サイズＤ１２００２、ＵＲＩＤ１２００３、ソースＩＰＤ１２００４、性能指標１～ＮＤ１２００５～Ｄ１２０Ｎのカラムを含む。

時刻Ｄ１２００１には、データインスタンスのエントリに対応する時間窓の代表時刻に対応する時刻情報（例えば、年月日時分秒）が格納される。時間窓サイズＤ１２００２には、データインスタンスのラベル付けに使用されるべき時間窓サイズ（推奨時間窓サイズ）に関する時間差情報を格納する。ＵＲＩＤ１２００３には、エントリに対応するデータコンテキストの諸元の１つである通信先のウェブサイトのＵＲＩが格納される。ソースＩＰＤ１２００４には、エントリに対応するデータコンテキストの諸元の１つである通信の送信元のＩＰアドレスが格納される。

性能指標１～ＮＤ１２００５～Ｄ１２０Ｎには、エントリに対応するデータインスタンスについての性能指標（メトリック値という、一般的には数値）が格納される。なお、性能指標の種類の数は任意でよく、その種類の数に応じたカラムが使用されることとなる。

次に、データインスタンスラベル付部１３０によるデータインスタンスラベル付処理について、説明する。

図６は、一実施形態に係るデータインスタンスラベル付部のデータインスタンスラベル付処理のフローチャートである。

まず、データインスタンスラベル付部１３０は、性能データＤＢ２００のデータコンテキストテーブル２０１の対象エントリのラベリング目標Ｄ２０１０６からラベリング目標を取得する（Ｓ１３００１）。

次いで、データインスタンスラベル付部１３０は、データインスタンス生成部１１０で生成されたデータインスタンス１２０を受信する（Ｓ１３００２）。

次いで、データインスタンスラベル付部１３０は、各データインスタンス１２０に対してループ３の処理（Ｓ１３００３～Ｓ１３００６）を実行する。ここで、処理対象のデータインスタンスを対象データインスタンスという。

ループ３の処理において、データインスタンスラベル付部１３０は、対象データインスタンスについて統計的特性を算出する（Ｓ１３００３）。例えば、データインスタンスラベル付部１３０が算出する統計的特性は、データインスタンスに含まれるエントリの性能指標の最大値及び最小値、性能指標についてのパーセンタイル、標準偏差、又はエントリの件数の少なくとも一つを含んでもよい。

次いで、データインスタンスラベル付部１３０は、Ｓ１３００３で算出した統計的特性と、Ｓ１３００１で取得したラベリング目標とに基づいて、対象データインスタンスに対してラベリングするために適用すべきラベリング方法を方法プール１５０から選択する（Ｓ１３００４）。具体的には、データインスタンスラベル付部１３０は、方法プール１５０から、ラベリング目標がラベリング目標Ｄ１５１Ｎ＋１に設定され、統計的特性の値が、データ属性１～ＮＤ１５１０２～Ｄ１５１Ｎの条件を満たすエントリを特定し、そのエントリのラベリング方法Ｄ１５１０１に設定されているラベリング方法を選択する。

次いで、データインスタンスラベル付部１３０は、データインスタンス１２０の各データ行（エントリ）に対して、Ｓ１３００４で選択したラベリング方法に従ってイベントラベルを割り当てる（Ｓ１３００５）。例えば、ラベリング目標が外れ値検出（ＯｕｔｌｉｅｒＩｄｅｎｔｉｆｉｃａｔｉｏｎ）である場合には、データインスタンスラベル付部１３０は、ラベリング方法によって、データインスタンス１２０の各データ行に対して、イベントラベルとして、外れ値又は非外れ値を示すイベントラベルを割り当てる。ここで、最良のラベリング方法は、データインスタンス１２０の統計的特性に依存して異なる傾向がある。そこで、本実施形態では、使用するラベリング方法を、方法プール１５０における統計的特性に対する条件に従って選択するようにしている。ラベリング方法を選択するための統計的特性は、データインスタンスの時間、時間窓サイズ、および性能値に基づいて生成することができる。

次いで、データインスタンスラベル付部１３０は、データインスタンス１２０について、各データ行の割り当てられたイベントラベルと共に、データインスタンスラベルＤＢ１６０のデータインスタンステーブル１６２として格納する。

次に、方法プール１５０について説明する。

図７は、一実施形態に係る方法プールの構成図である。

方法プール１５０は、２つの種類のテーブル、すなわち、ラベリング方法属性テーブル１５１と、コンテキストフォーマッティングテーブル１５２とを含む。

ラベリング方法属性テーブル１５１は、ラベリング方法毎のエントリを格納する。ラベリング方法属性テーブル１５１のエントリは、ラベリング方法Ｄ１５１０１と、１以上のデータ属性１～ＮＤ１５１０２～Ｄ１５１Ｎと、ラベリング目標Ｄ１５１Ｎ＋１とのカラムを含む。

ラベリング方法Ｄ１５１０１には、エントリに対応するラベリング方法の名称と、そのラベリング方法を実行するプログラムへのポインタとが格納される。データ属性１～ＮＤ１５１０２～Ｄ１５１Ｎには、最良のラベリング方法を選択するために考慮すべき可能性のある統計的特性（属性）についての条件が格納される。ラベリング目標Ｄ１５１Ｎ＋１には、エントリに対応するラベリング方法を使用することができる１または複数のラベリング目標が格納される。ラベリング目標Ｄ１５１Ｎ＋１には、例えば、性能分析のうちの異常検出（外れ値検出）を行う場合には、「ＯｕｔｌｉｅｒＩｄｅｎｔｉｆｉｃａｔｉｏｎ」が格納される。

コンテキストフォーマッティングテーブル１５２は、データコンテキスト諸元のタイプ（データコンテキストタイプ）ごとのエントリを格納する。コンテキストフォーマッティングテーブル１５２のエントリは、データコンテキスト諸元タイプＤ１５２０１、期待正規表現フォーマットＤ１５２０２、フォーマット処理Ｄ１５２０３のカラムを含む。

データコンテキスト諸元タイプＤ１５２０１には、エントリに対応するフォーマットルールが提供されるデータコンテキスト諸元のタイプ（種類）の名前が格納される。期待正規表現フォーマットＤ１５２０２には、エントリに対応するデータコンテキスト諸元のタイプに適合するすべてのデータコンテキスト諸元の値を抽出可能とする正規表現が格納される。フォーマット処理Ｄ１５２０３には、プログラム（スクリプトも含む）で定義されたルールに従ってデータコンテキスト諸元のデータを正規表現に再フォーマットするためのプログラムへのポインタが格納される。

次に、データインスタンスＤＢ１６０について説明する。

図８は、一実施形態に係るデータインスタンスラベルデータベースの構成図である。

データインスタンスラベルデータＤＢ１６０は、２つの種類のテーブル、すなわち、データインスタンス管理テーブル１６１と、データインスタンステーブル１６２（１６２－１～Ｎ）とを含む。

データインスタンス管理テーブル１６１は、データインスタンス毎のエントリを格納する。データインスタンス管理テーブル１６１のエントリは、データインスタンスＩＤＤ１６１０１、ＵＲＩＤ１６１０２、ソースＩＰＤ１６１０３、データインスタンステーブルＤ１６１０４のカラムを含む。

データインスタンスＩＤＤ１６１０１には、エントリに対応するデータインスタンスを識別する値（データインスタンスＩＤ）が格納される。ＵＲＩＤ１６１０２及びソースＩＰＤ１６１０３は、適用データコンテキスト諸元に対応するカラムであり、適用データコンテキスト諸元に含まれる諸元によって、異なるカラムとなる。ＵＲＩＤ１６１０２には、エントリに対応するデータインスタンスについての適用データコンテキスト諸元であるＵＲＩの値、すなわち、通信先のウェブサイトのＵＲＩ（ウェブアドレス）が格納される。ソースＩＰＤ１６１０３には、エントリに対応するデータインスタンスについての適用データコンテキスト諸元であるソースＩＰの値、すなわち、通信の送信元のＩＰアドレス（ソースＩＰ）が格納される。データインスタンステーブルＤ１６１０４には、エントリに対応するデータインスタンスに対応するデータインスタンステーブル１６２（１６２－１～Ｎのいずれか）へのポインタが格納される。

データインスタンステーブル１６２－１～Ｎのそれぞれは、データインスタンス毎に設けられ、各データインスタンスに対応するエントリ（データ要素）を格納する。データインスタンステーブル１６２のエントリは、時刻Ｄ１６２０１、性能指標１～ＮＤ１６２０２～Ｄ１６２Ｎ、イベントラベルＤ１６２Ｎ＋１のカラムを含む。

時刻Ｄ１６２０１には、エントリに対応するデータについての時刻情報（例えば、年月日時分秒）が格納される。性能指１～ＮＤ１６２０２～Ｄ１６２Ｎには、エントリに対応するデータについての性能指標（メトリック値という、一般的には数値）が格納される。イベントラベルＤ１６２Ｎ＋１には、エントリのデータに対して、データインスタンスラベル付部１３０によって割り当てられたイベントラベルが格納される。イベントラベルＤ１６２Ｎ＋１には、例えば、異常検出の対象のデータインスタンスについては、エントリのデータが正常である場合には、正常を示す「－１」が格納され、異常である場合には、異常を示す「１」が格納される。

次に、ラベルデータ採点部１４１によるラベルデータ採点処理について説明する。

図９は、一実施形態に係るラベルデータ採点部によるラベルデータ採点処理のフローチャートである。

ラベルデータ採点部１４１は、データインスタンスラベルＤＢ１６０からラベル付けされたデータインスタンス（データインスタンステーブル１６２）を取得し、一意のイベントラベルの値（ラベル値）をすべての抽出する（Ｓ１４１０１）。

次いで、ラベルデータ採点部１４１は、データインスタンスの生成に使用したデータコンテキストの適用データコンテキスト諸元の各諸元についての全ての可能な組合せ（諸元組合せ）を含むリストを作成する（Ｓ１４１０２）。例えば、適用データコンテキスト諸元が、「ＵＲＩ」，「ソースＩＰ」である場合には、ラベルデータ採点部１４１は、（「ＵＲＩ」，「ソースＩＰ」），（「ＵＲＩ」），（「ソースＩＰ」）の３つの諸元組合せを含むリストを生成する。

必要に応じて、ラベルデータ採点部１４１は、現在与えられている集約時間窓（例えば、デフォルトとして、又は、後述する表示画面を介して与えられている集約時間窓）に再サンプリングする（Ｓ１４１０３）。例えば、集約時間窓のサイズが１時間である場合には、ラベルデータ採点部１４１は、１分間の時間窓のデータを、加算し、又はカウントすることによって、１時間の時間窓のデータに再サンプリングする。

次いで、ラベルデータ採点部１４１は、ステップＳ１４１０１で抽出した各ラベル値についてループ４の処理（Ｓ１４１０４～Ｓ１４１０８）を実行する。ここで、処理の対象となっているラベル値を対象ラベル値という。

ループ４の処理においては、ラベルデータ採点部１４１は、ステップＳ１４１０２で取得された各諸元組合せについてループ５の処理（Ｓ１４１０４～Ｓ１４１０６）を実行する。ここで、処理対象となっている諸元組合せを対象諸元組合せという。

ループ５の処理では、ラベルデータ採点部１４１は、データインスタンスについて、対象諸元組合せ、対象ラベル値、及び与えられている集約時間窓の集合に従ってデータを集約する（Ｓ１４１０４）。例えば、対象諸元組合せが「ＵＲＩ」である場合には、適用データコンテキスト諸元の他の諸元については考慮せずに、対象諸元組合せの諸元の値（同じＵＲＩの値）及び対象ラベル値を有するデータ行について、対象ラベル値の加算またはデータ行の数をカウントすることにより、データの集約を行う。

次いで、ラベルデータ採点部１４１は、集約されたデータ（集約データ）に対する性能評価結果（ここでは、異常）についてのスコアを、現在の時間窓内のデータと、同様のデータについての過去（所定の時間前、例えば、１週間前）の時間窓内のデータとを比較することによって計算する（Ｓ１４１０５）。例えば、ラベルデータ採点部１４１は、過去からの集約データの変化量に基づいて、ランク付けし、例えば、最大の変化を有する集約データに対して最高のスコアを与える。具体的には、例えば、ランク付けは、変化量が小さいほど低いランク（数値が小さいランク）とし、変化量とランクとを乗算した結果をスコアとする。本実施形態では、スコアが大きいほど異常が発生している可能性が高いことを示す。

次いで、ラベルデータ採点部１４１は、ステップＳ１４１０４での集約データと、ステップＳ１４１０５で計算したスコアとを、コンテキストスコアＤＢ１７０に格納する（Ｓ１４１０６）。

ラベルデータ採点部１４１は、ループ５の処理を全ての諸元組合せを対象に実行し、すべての諸元組合せに対してループ５の処理を終了した場合には、ループ５を抜ける。

ループ５を抜けると、ラベルデータ採点部１４１は、ループ５の処理において得られた各諸元組合せの集約データに対して得られたスコアに基づいて、対応するデータコンテキストに対する総合スコアを算出する（Ｓ１４１０７）。本実施形態では、総合スコアは、例えば、各スコアを合計した値としている。

次いで、ラベルデータ採点部１４１は、ステップＳ１４１０７で算出した総合スコアをコンテキストスコアＤＢ１７０のデータコンテキストスコアテーブル１７２の総合スコアＤ１７２１０に格納する（Ｓ１４１０８）。

ラベルデータ採点部１４１は、ループ４の処理を全てのラベル値を対象に実行し、すべてのラベル値に対してループ４の処理を終了した場合には、ループ４を抜け、ラベルデータ採点処理を終了する。

次に、コンテキストスコアＤＢ１７０について説明する。

図１０は、一実施形態に係るコンテキストスコアデータベースの構成図である。

コンテキストスコアＤＢ１６０は、２つの種類のテーブル、すなわち、データコンテキスト集約テーブル１７１と、データコンテキストスコアテーブル１７２とを含む。

データコンテキスト集約テーブル１７１は、適用データコンテキスト諸元の値毎に所定の集約時間で集約した集約データセット毎のエントリ（データ要素）を格納する。データコンテキスト集約テーブル１７１のエントリは、時刻Ｄ１７１０１、データコンテキスト（ＵＲＩＤ１７１０２、ソースＩＰＤ１７１０３）、及びデータコンテキストベースの集約（集約ＵＲＩＤ１７１０４、集約ソースＩＰＤ１７１０５、集約ＵＲＩ×ソースＩＰＤ１７１０６）のカラムを含む。

時刻Ｄ１７１０１には、エントリに対応する集約データセットの集約時間の基準となる代表時刻（例えば、集約時間の最初の時刻）についての時刻情報（例えば、年月日時分秒）が格納される。

データコンテキスト（ＵＲＩＤ１７１０２、ソースＩＰＤ１７１０３）には、エントリに対応する集約データセットにおける適用データコンテキスト諸元ごとの値（データコンテキスト値）が格納される。ＵＲＩＤ１７１０２には、エントリに対応する集約データセットについてのＵＲＩの値、すなわち、通信先のウェブサイトのＵＲＩ（ウェブアドレス）が格納される。ソースＩＰＤ１７１０３には、エントリに対応する集約データセットについてのソースＩＰの値、すなわち、通信の送信元のＩＰアドレス（ソースＩＰ）が格納される。

データコンテキストベースの集約（集約ＵＲＩＤ１７１０４、集約ソースＩＰＤ１７１０５、集約ＵＲＩ×ソースＩＰＤ１７１０６）には、所定の集約時間に対応するデータセットにおける適用データコンテキスト諸元についての諸元の組合せごとのデータの集約値が格納される。集約ＵＲＩＤ１７１０４には、エントリに対応するデータセットにおけるＵＲＩの値が共通するデータの数が格納される。集約ソースＩＰＤ１７１０５には、エントリに対応するデータセットにおけるソースＩＰの値が共通するデータの数が格納される。集約ＵＲＩ×ソースＩＰＤ１７１０６には、エントリに対応するデータセットにおけるＵＲＩの値及びソースＩＰの値が共通するデータの数が格納される。

データコンテキストスコアテーブル１７２は、適用データコンテキスト諸元の値毎に所定の集約時間で集約した集約データセット毎のエントリを格納する。データコンテキストスコアテーブル１７２のエントリは、時刻Ｄ１７２０１、ＵＲＩＤ１７２０２、ソースＩＰＤ１７２０３、ＵＲＩ差（ランク）Ｄ１７２０４、ソースＩＰ差（ランク）Ｄ１７２０５、ＵＲＩ×ソースＩＰ差（ランク）Ｄ１７２０６、ＵＲＩスコアＤ１７２０７、ソースＩＰスコアＤ１７２０８、ＵＲＩ×ソースＩＰスコアＤ１７２０９、及び総合スコアＤ１７２１０のカラムを含む。

時刻Ｄ１７２０１には、エントリに対応する集約データセットの集約時間の基準となる代表時刻（例えば、集約時間の最初の時刻）についての時刻情報（例えば、年月日時分秒）が格納される。ＵＲＩＤ１７２０２、ソースＩＰＤ１７２０３には、エントリに対応する集約データセットの適用データコンテキスト諸元の各諸元の値が格納される。

ＵＲＩ差（ランク）Ｄ１７２０４、ソースＩＰ差（ランク）Ｄ１７２０５、ＵＲＩ×ソースＩＰ差（ランク）Ｄ１７２０６には、集約データセットにおける各諸元組合せについての現在（例えば、今週）の値と過去（例えば、先週）の値との絶対値の差と、集約データセット間での各諸元組合せの絶対値差のランクとが格納される。これらのカラムの情報は、スコアを計算するために用いることができ、例えば、絶対値差、絶対値差のランク、現在の値と過去の値とのランクの絶対値の差等を用いることができる。

ＵＲＩスコアＤ１７２０７、ソーススコアＤ１７２０８、ＵＲＩ×ソースＩＰスコアＤ１７２０９には、適用データコンテキスト諸元の各諸元組合せについてのスコアが格納される。総合スコアＤ１７２１０には、カラムＤ１７２０７～Ｄ１７２０９のスコアを用いて、所定の計算式（例えば、スコアの加算）を実行することにより得られる総合スコアが格納される。

次に、可視化処理部１４２による可視化処理について説明する。

図１１は、一実施形態に係る可視化処理部による可視化処理のフローチャートである。

可視化処理部１４２は、コンテキストスコアＤＢ１７０から集約データとスコア情報を取得する（Ｓ１４２０１）。

次いで、可視化処理部１４２は、集約データに対応する各スコアについて、各スコアに対して予め定義されている閾値よりも大きいスコアがあるか否かを判定する（Ｓ１４２０２）。

この結果、閾値よりも大きいスコアがある場合（Ｓ１４２０２：Ｙｅｓ）には、可視化処理部１４２は、オペレータに警報を送信し（Ｓ１４２０３）、処理をステップＳ１４２０４に進める。一方、閾値よりも大きいスコアがない場合（Ｓ１４２０２：Ｎｏ）には、処理をステップＳ１４２０４に進める。

ステップＳ１４２０４では、可視化処理部１４２は、ステップＳ１４２０１で取得した集計データ及びスコア情報を可視化する。具体的には、可視化処理部１４２は、集計データ及びスコア情報により表示画面のデータを生成して、表示画面（図１３参照）をディスプレイ４００に表示させる。

次いで、可視化処理部１４２は、異常検出装置１００のユーザによるコンソール３００からの入力を待つ（Ｓ１４２０５）。コンソール３００に対する入力としては、集約期間の変更や、表示させない諸元の値の設定等の表示内容の変更指示の入力がある。

次いで、可視化処理部１４２は、ステップＳ１４２０５で入力された変更指示に対応する画面の表示に必要なデータがコンテキストスコアＤＢ１７０において使用可能であるか否かを判定する（Ｓ１４２０６）。

この結果、必要なデータがコンテキストスコアＤＢ１７０において使用可能である場合（Ｓ１４２０６：Ｙｅｓ）には、可視化処理部１４２は、コンテキストスコアＤＢ１７０から必要な集約データとスコア情報とを取得し（Ｓ１４２０７）、処理をステップＳ１４２０４に進める。

一方、必要なデータがコンテキストスコアＤＢ１７０において使用可能でない場合（Ｓ１４２０６：Ｎｏ）には、可視化処理部１４２は、ユーザからの入力に基づいて、集約及びスコア付けに関連するパラメータ（例えば、時間窓サイズ、特定のデータコンテキスト諸元の値の表示除外等）を更新する（Ｓ１４２０８）。

次いで、可視化処理部１４２は、集約及びスコア付けに関連するパラメータをラベルデータ採点部１４１に送信し、ラベルデータ採点部１４１による新たなパラメータを使用してのラベルデータ採点処理を実行させ（Ｓ１４２０９）、可視化処理を終了する。なお、新たなパラメータを使用してのラベルデータ採点処理が実行された後には、新たに、可視化処理が実行されて表示画面が表示されることとなる。

次に、異常検出装置１００のハードウェア構成について説明する。

図１２は、一実施形態に係る異常検出装置のハードウェア構成図である。

異常検出装置１００は、例えば、汎用コンピュータであり、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）６０１と、メモリ６０２と、補助記憶装置６０３と、通信インタフェース６０４と、媒体インタフェース６０５と、入出力インタフェース６０６とを含む。

ＣＰＵ６０１は、メモリ６０２又は補助記憶装置６０３に格納されたプログラムを実行し、メモリ６０２又は補助記憶装置６０３に格納されたデータを使用することにより各種処理を実行する。メモリ６０２は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）であり、ＣＰＵ６０１によって実行されるプログラムや、データ等を記憶する。補助記憶装置６０３は、例えば、ハードディスクドライブ、フラッシュメモリ、ＲＡＭ等であり、ＣＰＵ６０１により実行されるプログラムや、ＣＰＵ６０１によって使用されるデータを記憶する。

通信インタフェース６０４は、ネットワーク６０８を介して、他の装置と通信するためのインタフェースである。媒体インタフェース６０５は、外部記憶媒体６０７を着脱可能であり、外部記憶媒体６０７とのデータの入出力を仲介する。入出力インタフェース６０６は、異常検出装置１００の管理者やユーザによって操作されるコンソール３００やディスプレイ４００と接続可能であり、コンソール３００との情報の入出力を実行したり、ディスプレイ４００への表示を実行する。

図１における異常検出装置１００の各機能部は、例えば、ＣＰＵ６０１がメモリ６０２又は補助記憶装置６０３に格納されたプログラム（性能分析プログラム）を実行することにより実現される。また、機能部（方法プール１５０、データインスタンスラベルＤＢ１６０、コンテキストスコアＤＢ１７０）で管理される情報は、記憶部の一例であるメモリ６０２又は補助記憶装置６０３に格納される。

ＣＰＵ６０１が実行するプログラムは、必要に応じて通信インタフェース６０４を介して他の装置から取得してもよいし、媒体インタフェース６０５を介して利用可能な記憶媒体から読み出して取得してもよい。記憶媒体は、例えば、媒体インタフェース６０５に着脱可能な通信媒体(すなわち、有線、無線、光ネットワーク、ネットワークを伝搬するキャリアやデジタル信号)や外部記憶媒体６０７である。

次に、ＧＵＩの画面例を説明する。

図１３は、一実施形態に係るＧＵＩの画面例を示す図である。なお、図１３の画面は、後述するコンテキスト１（ＵＲＩ）のコンテキストタブ４０１－１が選択されている場合の例を示している。

ディスプレイ４００に表示される画面１３００は、コンテキストタブ４０１（４０１-１～４０１－７）、ヒートマップ４０２（図１３では、４０２－１）、上位外れ値リスト４０３（図１３では、４０３－１）、閾値表示領域４０４（図１３では、４０４－１）を含む。画面１３００における表示内容は、可視化処理部１４２から送信される情報に基づいて、適宜更新される。

コンテキストタブ４０１は、適用データコンテキスト諸元における各諸元組合せについての可視化コンテンツを含めるためのコンテナであり、諸元組合せの個数分のタブが備えられる。例えば、適用データコンテキスト諸元が３つの諸元を含む場合には、コンテキストタブ４０１は、コンテキストタブ４０１－１～４０１－７の７個となる。図１３の例では、コンテキストタブ４０１－１が選択されているので、コンテキストタブ４０１－１が強調表示されている。

ヒートマップ４０２は、適用データコンテキスト諸元の選択されている諸元組合せ（すなわち、選択されているコンテキストタブ４０１に対応する諸元組合せにおける、いくつかの諸元の値についてのスコアのマップである。図１３の例では、ヒートマップ４０２－１は、諸元組合せをＵＲＩとした場合における、いくつかのＵＲＩの値に対するスコアのマップとなっている。ヒートマップによると、諸元組合せのいずれの値において、最大の異常が発生したかを容易に把握することができる。

上位外れ値リスト４０３は、スコアが上位の所定数の諸元組合せにおける値を可視化したリストである。図１３の例では、上位外れ値リスト４０３は、諸元組合せをＵＲＩとした場合のスコアが上位のＵＲＩとして、ＵＲＩ１、ＵＲＩ２、ＵＲＩ３・・・の順番で並んでいるリストとなっている。なお、図１３の上位外れ値リスト４０３においては、高いスコアを有するが可視化する必要がない諸元の値を、リストから除外するためのチェックボックス４０３１－１等が用意されている。また、上位外れ値リスト４０３には、考慮対象とする開始時間および終了時間や、可視化のための集約時間窓サイズ（Ａｇｇｒｅｇａｔｉｏｎ）を表示し、設定可能な領域がある。

なお、本発明は、上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、適宜変形して実施することが可能である。

例えば、上記実施形態では、異常を検出する異常検出装置を例にしていたが、本発明はこれに限られず、各種装置の性能を分析する装置にも適用することができる。

また、上記実施形態において、ＣＰＵが行っていた処理の一部又は全部を、ハードウェア回路で行うようにしてもよい。また、上記実施形態におけるプログラムは、プログラムソースからインストールされてよい。プログラムソースは、プログラム配布サーバ又は記憶メディア（例えば可搬型の記憶メディア）であってもよい。

また、上記実施形態においては、ＩＴシステムの運用管理での利用を想定した性能検出装置について説明したが、本発明はこれに限られず、データコンテキストに基づいてデータを分割してデータインスタンスを生成するケースにおいても性能分析装置を使用してもよく、例えば、ＯＴ（ＯｐｅｒａｔｉｏｎａｌＴｅｃｈｎｏｌｏｇｙ）においても性能分析装置を使用してもよい。

１００…異常検出装置、１１０…データインスタンス生成部、１１１…データコンテキスト選択部、１３０…データインスタンスラベル付部、１４０…再帰的原因特定部、１４１…ラベルデータ採点部、１４２…可視化処理部、１５０…方法プール、１６０…データインスタンスラベルＤＢ、１７０…コンテキストスコアＤＢ、２００…性能データＤＢ

Claims

時間情報と、コンテキストを示す複数の諸元に関する諸元情報と、性能情報とを含むデータ要素を複数含む性能データを用いて性能を分析する性能分析装置であって、
前記性能データのデータ要素の少なくとも１つの諸元に関する諸元情報に基づいて、前記性能データを複数のデータインスタンスに分割するデータインスタンス生成部と、
前記データインスタンスについてのデータ特性を評価し、評価したデータ特性に応じた性能分析方法を特定し、特定した前記性能分析方法により、前記データインスタンスに属するデータ要素に対して性能分析を行って性能分析結果を示すラベルを付けるラベル付部と、
を有する性能分析装置。
前記データ特性と、前記データ特性を有するデータインスタンスに対する性能分析に用いる性能分析方法とを対応付けて記憶する方法プールを更に有し、
前記ラベル付部は、前記方法プールから前記評価したデータ特性に対応する性能分析方法を特定する
請求項１に記載の性能分析装置。
前記データ特性は、前記データインスタンスについての統計的特性である
請求項２に記載の性能分析装置。
前記データインスタンスにおける、所定の集約時間内の同一のラベル付けがされているデータ要素を集約した集約データを作成し、前記集約データに対して性能分析結果のスコアを算出する採点部をさらに有する
請求項１に記載の性能分析装置。
前記採点部は、前記集約データにおける集約されたデータ要素の数と、過去の所定の時点における前記所定の集約時間内に対して作成された過去集約データにおける集約されたデータ要素の数との差分と、複数のデータインスタンスでの差分についてのランクとに基づいて、前記集約データにおける前記スコアを算出する
請求項４に記載の性能分析装置。
前記集約データに集約されている前記データインスタンスの諸元情報と、算出された前記スコアとの情報を表示させる可視化処理部をさらに有する
請求項４に記載の性能分析装置。
前記可視化処理部は、ユーザから前記集約時間の変更を受け取り、前記変更された集約時間に基づいて、前記採点部により再計算をさせて、再計算の結果を表示させる
請求項６に記載の性能分析装置。
前記採点部は、前記データインスタンスを生成した際に使用した１以上の諸元の全ての組合せのそれぞれについて、組合せの諸元の値が同一であり、且つ、所定の集約時間内の同一のラベル付けがされているデータ要素の数を特定して、全ての組合せのそれぞれに対してスコアを算出し、すべての組合せに対して算出されたスコアに基づく総合スコアを算出する採点部をさらに有する
請求項４に記載の性能分析装置。
前記データインスタンス生成部は、前記性能データを前記データインスタンスに分割する際に、前記性能データの複数の諸元のうちの１以上の諸元の諸元情報を適用する
請求項１に記載の性能分析装置。
前記性能データの複数の諸元を適用して、前記性能データを前記データインスタンスに分割し、分割したデータインスタンスのデータ要素の時間的な疎性を評価し、分割したデータインスタンスのデータ要素の時間的に疎すぎる場合には、適用した複数の諸元のうちの最も不均一な諸元を特定し、前記複数の諸元から特定した諸元を除いた１以上の諸元を、前記データインスタンス生成部で適用する１以上の諸元に決定する選択部をさらに有する
請求項９に記載の性能分析装置。
前記データインスタンス生成部は、
前記性能データを複数のデータインスタンスに分割する際における、データインスタンスのデータ要素の対象とする、前記性能データのデータ要素に対する時間窓サイズを前記データインスタンスのデータ要素の疎性が所定以下となるように決定する
請求項１に記載の性能分析装置。
時間情報と、コンテキストを示す複数の諸元に関する諸元情報と、性能情報とを含むエントリを複数含む性能データを用いて性能を分析する性能分析装置による性能分析方法であって、
前記性能データのデータ要素の少なくとも１つの諸元に関する諸元情報に基づいて、前記性能データを複数のデータインスタンスに分割し、
前記データインスタンスについてのデータ特性を評価し、評価したデータ特性に応じた性能分析方法を特定し、特定した前記性能分析方法により、前記データインスタンスに属するデータ要素に対して性能分析を行って性能分析結果を示すラベルを付ける
性能分析方法。
コンピュータに実行させる性能分析プログラムであって、
前記コンピュータに、
時間情報と、コンテキストを示す複数の諸元に関する諸元情報と、性能情報とを含むデータ要素を複数含む性能データのデータ要素の少なくとも１つの諸元に関する諸元情報に基づいて、前記性能データを複数のデータインスタンスに分割させ、
前記データインスタンスについてのデータ特性を評価させ、評価したデータ特性に応じた性能分析方法を特定し、特定した前記性能分析方法により、前記データインスタンスに属するデータ要素に対して性能分析を行わせて性能分析結果を示すラベルを付けさせる
処理を実行させる
性能分析プログラム。