JP6781776B2

JP6781776B2 - 特徴量生成装置、特徴量生成方法及びプログラム

Info

Publication number: JP6781776B2
Application number: JP2018565943A
Authority: JP
Inventors: 泰弘池田; 中野　雄介; 雄介中野; 敬志郎渡辺; 石橋　圭介; 圭介石橋; 川原　亮一; 亮一川原
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-02-02
Filing date: 2017-11-07
Publication date: 2020-11-04
Anticipated expiration: 2037-11-07
Also published as: JPWO2018142704A1; US20190392350A1; WO2018142704A1

Description

本発明は、特徴量生成装置、特徴量生成方法及びプログラムに関する。

コンピュータシステムのリアルタイムな異常検知の方法として、システム上の様々なデータを定期的に観測し、データが正常時と異なる傾向を示した場合に「異常」として検知するアルゴリズムが考えられる。

例えば、予め正常時として定義された「学習期間」のデータが教師データとして用いられて学習され、異常検知を行う「テスト期間」においては、観測されたテストデータの傾向と、学習した教師データの傾向との比較が行われる異常検知アルゴリズムが考えられる。

異常検知アルゴリズムとしては様々な手法が提案されているが、その多くにおいて入力されるデータは正規化された数値ベクトルで表現されることが望まれる（例えば、非特許文献１、非特許文献２参照）。

櫻田麻由，矢入健久，"オートエンコーダを用いた次元削減による宇宙機の異常検知"，人工知能学会全国大会論文集 28, 1-3, 2014 Banerjee, Amit, Philippe Burlina, and Chris Diehl. "A support vector method for anomaly detection in hyperspectral imagery." IEEE Transactions on Geoscience and Remote Sensing 44.8 (2006): 2282.

ネットワークにおける観測データに基づいて異常検知を行う場合、観測データとしてはホストやフロー毎のトラヒック量のようなデータ（特徴量）が考えられる。このようなデータは様々な属性や値を持ち、単純な数値ベクトルとして表現するためには工夫が必要である。また、トラヒック量のように、長期間での増減（値の変化）のトレンドを持つデータを入力とする場合、学習期間とテスト期間で観測データの分布が大きく異なることがあり、観測データの正規化が困難であるという問題が有る。

本発明は、上記の点に鑑みてなされたものであって、異常の検知対象から収集されるデータについて長期間での変化を考慮した特徴量の生成を行うことを目的とする。

そこで上記課題を解決するため、特徴量生成装置は、異常の検知対象から複数のタイミングで収集される各データの特徴量を要素とする数値ベクトルを生成し、当該数値ベクトルを、所定の数値ベクトルの集合に基づく正規化パラメータ又は標準化パラメータを用いて正規化又は標準化する生成部と、前記所定の数値ベクトルを学習し、学習結果を出力する学習部と、前記生成部によって正規化又は標準化された数値ベクトルごとに、当該数値ベクトルと、前記学習結果とに基づいて異常を検知する検知部とを有し、前記所定の数値ベクトルの集合は、前記検知部によって異常が検知されない数値ベクトルの集合であり、前記検知部によって異常が検知されないことに応じて更新され、前記生成部は、更新後の前記所定の数値ベクトルの集合に基づいて前記正規化パラメータ又は前記標準化パラメータを更新し、前記所定の数値ベクトルの集合が更新された後に収集される各データの特徴量を要素とする数値ベクトルについては、更新後の前記正規化パラメータ又は前記標準化パラメータを用いて正規化又は標準化する。

異常の検知対象から収集されるデータについて長期間での変化を考慮した特徴量の生成を行うことができる。

第１の実施の形態におけるシステム構成例を示す図である。第１の実施の形態における異常検知装置１０のハードウェア構成例を示す図である。第１の実施の形態における異常検知装置１０の機能構成例を示す図である。第１の実施の形態における学習処理の処理手順の一例を説明するためのフローチャートである。第１の実施の形態における検知処理の処理手順の一例を説明するためのフローチャートである。オートエンコーダを説明するための図である。

以下、図面に基づいて本発明の実施の形態を説明する。図１は、第１の実施の形態におけるシステム構成例を示す図である。図１において、ネットワークＮ１は、異常の検知対象とされるネットワークである。ネットワークＮ１は、ルータやサーバ装置等の複数のノードが相互に接続されることによって構成され、所定のサービスを提供するために任意のノード間においてパケットの送受信が行われる。

ネットワークＮ１の複数箇所には測定装置２０が配置されている。測定装置２０は、配置箇所を監視することで得られる観測データを複数のタイミングで採取する。収集される観測データの一例として、ＭＩＢ（Management Information Base）データ、ＮｅｔＦｌｏｗによるフローデータ、ＣＰＵ使用率等が挙げられる。

ＭＩＢは、ネットワーク機器を監視するためのメーカ間の共通ポリシーである。ＭＩＢデータは、例えば、５分単位で集約され、「時刻、ホスト名、インターフェース（ＩＦ）名、入力データ量（ｉｂｐｓ）、出力データ量（ｏｂｐｓ）」等を含む。

ＮｅｔＦｌｏｗは、フロー単位でのネットワーク監視をおこなう技術であり、通信が終了した段階でそのフローに関する情報が出力される。また、フローとは、「何処」と「何処」が「どのような通信」を「どれだけの量」行っているかを把握するための単位をいい、通信の送り手側のＩＰアドレス（ｓｒｃＩＰ）、送り手側のポート番号（ｓｒｃｐｏｒｔ）、受け手側のＩＰアドレス（ｄｓｔＩＰ）、受け手側のポート番号（ｄｓｔｐｏｒｔ）、通信プロトコル（ｐｒｏｔｏ）の５属性によりまとめられる。フローデータは、「フロー開始時刻、ｓｒｃＩＰ、ｓｒｃｐｏｒｔ、ｄｓｔＩＰ、ｄｓｔｐｏｒｔ、ｐｒｏｔｏ、フロー継続時間、総送信パケット数、総送信バイト数」等を含む。

ＣＰＵ使用率は、例えば、ネットワークＮ１に含まれるサーバ装置又はルータ等のＣＰＵの使用率である。

測定装置２０によって採取された観測データは、異常検知装置１０によって収集される。異常検知装置１０は、収集された観測データから、正常時の特徴を学習し、学習結果に基づいて、その後に入力される観測データについて、異常の発生を検知する（異常の有無を判定する）コンピュータである。なお、正常時の特徴の学習が行われる処理を「学習処理」という。学習処理において学習された結果に基づいて異常の検知が行われる処理を「テスト処理」という。

図２は、第１の実施の形態における異常検知装置１０のハードウェア構成例を示す図である。図２の異常検知装置１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、ＣＰＵ１０４、及びインタフェース装置１０５等を有する。

異常検知装置１０での処理を実現するプログラムは、ＣＤ−ＲＯＭ等の記録媒体１０１によって提供される。プログラムを記憶した記録媒体１０１がドライブ装置１００にセットされると、プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。ＣＰＵ１０４は、メモリ装置１０３に格納されたプログラムに従って異常検知装置１０に係る機能を実行する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。

図３は、第１の実施の形態における異常検知装置１０の機能構成例を示す図である。図３において、異常検知装置１０は、受信部１１、学習処理制御部１２、前処理部１３、学習部１４、検知処理制御部１５及び検知部１６等を有する。これら各部は、異常検知装置１０にインストールされた１以上のプログラムが、ＣＰＵ１０４に実行させる処理により実現される。異常検知装置１０は、また、教師データ記憶部１２１、パラメータ記憶部１２２、観測データ記憶部１２３、学習結果記憶部１２４及び学習データ記憶部１２５等を利用する。これら各記憶部は、例えば、補助記憶装置１０２、又は異常検知装置１０にネットワークを介して接続可能な記憶装置等を用いて実現可能である。

教師データ記憶部１２１には、予め正常時に収集されたことが確認されている観測データが教師データとして記憶されている。但し、教師データは、観測データから選別されるのではなく、人為的に作成されてもよい。

受信部１１は、測定装置２０から観測データを受信する。受信された観測データは、観測データ記憶部１２３に記憶される。

学習処理制御部１２は、学習処理を制御する。

前処理部１３は、教師データの集合、観測データの集合、又は学習データ記憶部１２５に記憶されている学習データの集合について前処理を実行する。前処理とは、データ集合からの単位時間ごとの特徴量の抽出や、抽出された特徴量の正規化等の処理である。特徴量は、数値ベクトルの形式で表現される。なお、１回目の学習時には、教師データ記憶部１２１に記憶されている教師データ群が前処理の対象とされる。受信部１１によって観測データの受信が開始されると、観測データ群が前処理の対象とされる。更に、検知部１６による異常の検知が開始され、正常であると判定され、学習データとして学習データ記憶部１２５に記憶された観測データが所定数に達すると、当該学習データ群が前処理の対象とされる。

前処理部１３は、また、教師データ群又は学習データ群について前処理を実行する際に、観測データ又は学習データを正規化するためのパラメータ（以下、「正規化パラメータ」という。）を生成又は更新し、生成又は更新された正規化パラメータをパラメータ記憶部１２２に記憶する。

学習部１４は、教師データ又は学習データに基づいて学習を実行する。学習部１４による学習結果は、学習結果記憶部１２４に記憶される。

検知処理制御部１５は、検知処理を制御する。

検知部１６は、観測データ記憶部１２３に記憶されている観測データが前処理部１３によって前処理されることで生成される数値ベクトルと、学習結果記憶部１２４に記憶されている学習結果とに基づいて異常の発生を検知する。具体的には、検知部１６は、前処理された数値ベクトルについて、学習結果との違いを異常度として算出し、当該異常度を閾値と比較することで異常の発生を検知する。異常が検知されなかった数値ベクトルの正規化前の値は、学習データとして学習データ記憶部１２５に記憶される。

以下、異常検知装置１０が実行する処理手順について説明する。図４は、第１の実施の形態における学習処理の処理手順の一例を説明するためのフローチャートである。なお、以下においては、便宜上、フローデータが処理対象である例について示す。

学習処理が開始されると、学習処理制御部１２は、教師データ記憶部１２１から教師データ群を取得し、当該教師データ群を前処理部１３へ入力する（Ｓ１０１）。

続いて、前処理部１３は、入力された教師データ群を、単位時間ごとの集合に分割する（Ｓ１０２）。なお、教師データ記憶部１２１には、単位時間×Ｕの期間（以下、「学習期間」という。）分の教師データが記憶されていることとする。したがって、教師データ群は、Ｕ個の集合に分割される。

続いて、前処理部１３は、分割された集合ごとに、目的に応じた特徴量を抽出し、抽出された特徴量を各次元の要素とする多次元数値ベクトルを生成する（Ｓ１０３）。

例えば、単位時間が１分で、前処理部１３が、１分間ごとの特徴量を抽出するとする。また、特徴量を、各プロトコル（ＴＣＰ、ＵＤＰ）の全送信バイト数であるとする。この場合、先頭の教師データのフロー開始時刻が１２：００：００であるとすると、前処理部１３は、全教師データのうち、フロー開始時刻ｔが１１：５９：００＜＝ｔ＜１２：００：００であるような教師データ（フローデータ）の集合について、プロトコルがＴＣＰである全フローの全送信バイト数、プロトコルがＵＤＰである全フローの全送信バイト数等を計算し、それらの特徴量を各次元の要素とする２次元数値ベクトルを生成する。（Ｕ−１）個の他の集合についても同様に、数値ベクトルが生成される。

なお、特徴量の属性としては、「ＴＣＰかつ送信ポート番号が８０」のような組合せとして指定することも可能である。また、各フローが「フロー数：１」のような値を持つと見なせば、各属性を持つフローの総フロー数についても同様に計算し、特徴量としてみなすことが可能である。

続いて、前処理部１３は、各数値ベクトルにおける各メトリックｉ（各次元ｉ）の最大値ｘｍａｘ＿ｉを算出し、算出したｘｍａｘ＿ｉをパラメータ記憶部１２２に記憶する（Ｓ１０４）。すなわち、第１の実施の形態において、各メトリックｉの最大値ｘｍａｘ＿ｉが、正規化パラメータである。

ここで、Ｕ＝３とする。また、ステップＳ１０３において生成された数値ベクトルが｛｛８０，２０｝，｛９０，３５｝，｛１００，５０｝｝であるとする。これは、或る３分におけるＴＣＰの総送信バイト数及びＵＤＰの総送信バイト数がそれぞれ「ＴＣＰ：８０ｂｙｔｅ，ＵＤＰ：２０ｂｙｔｅ」、「ＴＣＰ：９０ｂｙｔｅ，ＵＤＰ：３５ｂｙｔｅ」、「ＴＣＰ：１００ｂｙｔｅ，ＵＤＰ：５０ｂｙｔｅ」であったことを示す。この場合、これらの数値ベクトルの各メトリックの最大値ｘｍａｘ＿ｉは、｛１００，５０｝である（すなわち、ｘｍａｘ＿１＝１００，ｘｍａｘ＿２＝５０である）。

続いて、前処理部１３は、正規化パラメータに基づいて、各数値ベクトルを正規化する（Ｓ１０５）。正規化は、各数値ベクトルのメトリックｉの値が最大値ｘｍａｘ＿ｉによって除されることにより行われる。したがって、正規化された数値ベクトルは、｛｛０．８，０．４｝，｛０．９，０．７｝，｛１，１｝｝となる。

続いて、学習部１４は、当該数値ベクトルについて学習器を利用して学習する（Ｓ１０６）。学習結果は、学習結果記憶部１２４に記憶される。

続いて、学習処理制御部１２は、学習データ記憶部１２５に、学習期間分の学習データが記憶（蓄積）されるのを待機する（Ｓ１０７）。すなわち、Ｕ個の正規化前の数値ベクトルが学習データ記憶部１２５に記憶されるまで待機が継続する。なお、学習データ記憶部１２５には、検知部１６によって正常である（異常が発生していない）と判定された数値ベクトルが記憶される。

学習期間分の数値ベクトルが学習データ記憶部１２５に記憶されると（Ｓ１０７でＹｅｓ）、学習処理制御部１２は、学習データ記憶部１２５から数値ベクトル群を取得し、当該数値ベクトル群を前処理部１３へ入力する（Ｓ１０８）。なお、取得された数値ベクトル群は、学習データ記憶部１２５から削除される。続いて、当該数値ベクトル群について、ステップＳ１０４以降が実行される。したがって、次のステップＳ１０５では、新たに計算されるｘｍａｘ＿ｉに基づいて正規化が行われる。

図５は、第１の実施の形態における検知処理の処理手順の一例を説明するためのフローチャートである。図５の処理手順は、図４のステップＳ１０６が少なくとも１回実行された後であれば、いつ開始されてもよい。すなわち、図５の処理手順は、図４の処理手順と並行して実行される。

ステップＳ２０１において、検知処理制御部１５は、単位時間の経過を待機する。当該単位時間は、図４の説明における単位時間と同じ時間長である。この待機中に、リアルタイムに収集され、受信部１１によって受信された観測データは観測データ記憶部１２３に記憶される。

単位時間が経過すると（Ｓ２０１でＹｅｓ）、検知処理制御部１５は、直近の単位時間分の観測データ群を観測データ記憶部１２３から取得し、当該観測データ群を前処理部１３へ入力する（Ｓ２０２）。

続いて、前処理部１３は、当該観測データ群から目的に応じた特徴量を抽出し、抽出された特徴量を各次元の要素とする多次元数値ベクトルを生成する（Ｓ２０３）。例えば、プロトコルがＴＣＰである全フローの全送信バイト数、プロトコルがＵＤＰである全フローの全送信バイト数が抽出され、これらを各次元の要素とする２次元数値ベクトルが生成される。ここでは、１つの数値ベクトルが生成される。

続いて、前処理部１３は、生成された数値ベクトルを、パラメータ記憶部１２２に記憶されている最大値ｘｍａｘ＿ｉに基づいて正規化する（Ｓ２０４）。すなわち、当該数値ベクトルの各メトリックｉが、最大値ｘｍａｘ＿ｉによって除算される。

例えば、図４のステップＳ１０４が上記の教師データに基づいて１回のみ実行されている場合、最大値ｘｍａｘ＿ｉは、｛１００，５０｝である。したがって、当該数値ベクトルが｛６０，４０｝である場合、当該数値ベクトルは、｛０．６，０．８｝に正規化される。

続いて、検知部１６は、異常判定処理を実行する（Ｓ２０５）。異常判定処理では、正規化された数値ベクトルと、学習結果記憶部１２４に記憶されている最新の学習結果とに基づいて、ネットワークＮ１について異常の有無が判定される。

異常が無いと判定された場合（Ｓ２０６でＹｅｓ）、検知処理制御部１５は、当該数値ベクトルの正規化前の数値ベクトルを、学習データとして学習データ記憶部１２５に記憶する（Ｓ２０７）。異常が有ると判定された場合（Ｓ２０６でＮｏ）、当該数値ベクトルの正規化前の数値ベクトルは、学習データ記憶部１２５に記憶されない。したがって、学習データ記憶部１２５には、正常時の数値ベクトルのみが記憶される。

続いて、ステップＳ２０１以降が繰り返される。なお、ステップＳ２０１以降が繰り返される過程において、ステップＳ２０４で利用される正規化パラメータは、並行して実行されている図４のステップＳ１０４において随時更新される。その結果、入力される観測データのトレンドを考慮して数値ベクトルを正規化することができる。

例えば、Ｕ＝３である場合、ステップＳ２０７が３回実行されて、｛｛６０，４０｝，｛４５，２０｝，｛３０，３０｝｝が学習データ記憶部１２５に記憶されたとする。この場合、ｘｍａｘ＿１＝６０、ｘｍａｘ＿２＝４０に更新され、更新結果がパラメータ記憶部１２２に反映される。

なお、上記では、観測データがフローデータである例について説明したが、フローデータ、ＭＩＢデータ、及びＣＰＵ使用率が並列的に観測データとして受信されてもよい。この場合、図４及び図５の処理手順の各ステップでは、データ種別ごと（フローデータ、ＭＩＢデータ、及びＣＰＵ使用率ごと）に実行されればよい。

なお、例えば｛ｈｏｓｔＩＤ，ｉｎｔｅｒｆａｃｅＩＤ，ｉｂｐｓ，ｏｂｐｓ｝のような形式で与えられるＭＩＢデータについては、「単位時間におけるホストＩＤａのｉｂｐｓ」、「単位時間におけるホストＩＤａのｏｂｐｓ」、「単位時間におけるホストＩＤｂのｉｂｐｓ」、「単位時間におけるホストＩＤｂのｏｂｐｓ」...「単位時間におけるｉｎｔｅｒｆａｃｅＩＤｘのｉｂｐｓ」、「単位時間におけるｉｎｔｅｒｆａｃｅＩＤｘのｏｂｐｓ」、「単位時間におけるｉｎｔｅｒｆａｃｅＩＤｙのｉｂｐｓ」、「単位時間におけるｉｎｔｅｒｆａｃｅＩＤｙのｏｂｐｓ」のように、数値ベクトルを抽出することが可能である。

続いて、図４のステップＳ１０６及び図５のステップＳ２０５の一例について説明する。ステップＳ１０６及びＳ２０５では、データ種別がラベルとして付与された数値ベクトル群が学習部１４又は検知部１６に入力される。本実施の形態において、ラベルは「フローデータ」、「ＭＩＢデータ」、及び「ＣＰＵ使用率」のいずれかである。ラベルは、例えば、測定装置２０又は受信部１１によって教師データ及び観測データに付与される。すなわち、観測データの採取元に基づいて当該観測データに付与すべきラベルが特定可能である。当該ラベルは、前処理部１３によって生成される数値ベクトルに引き継がれる。

図４のステップＳ１０６において、学習部１４は、データ種別ごとに学習器を生成する。学習部１４は、入力される数値ベクトルに付与されているラベルに基づいて数値ベクトルを分類し、分類結果に対応する学習器へ当該数値ベクトルを入力する。本実施の形態では「フローデータの学習器」、「ＭＩＢデータの学習器」、「ＣＰＵ使用率の学習器」が生成される。学習器としては数値ベクトルのメトリック間の相関関係の学習による異常検知を行うオートエンコーダ（非特許文献１）や主成分分析等を用いることができる。主成分分析については、例えば、「Ringberg, Haakon, et al. "Sensitivity of PCA for traffic anomaly detection." ACM SIGMETRICS Performance Evaluation Review 35.1 (2007): 109-120.」に詳しい。本実施の形態では、学習器にオートエンコーダを用いる例について説明する。

図６は、オートエンコーダを説明するための図である。オートエンコーダは、ディープラーニングによる異常検知アルゴリズムである。オートエンコーダは、正常時の入力データがメトリック間で相関関係を持ち、低次元に圧縮可能であることを利用する。異常時には入力データの相関関係が崩れるため、圧縮が正しく行われず入力データと出力データとの差が大きくなる。

図６の（１）に示されるように、学習部１４が生成する学習器（オートエンコーダ）は、出力層（ＬａｙｅｒＬ_３）が入力層（ＬａｙｅｒＬ_１）に近くなるように学習を行う。具体的には、学習部１４は、数値ベクトルを２つに複製し、一方を入力層へ当てはめ、他方を出力層に当てはめて学習を行い、学習結果を出力する。学習結果は、学習結果記憶部１２４に記憶される。学習結果は、学習器に対するパラメータ群である。なお、学習器は、データ種別ごとに生成されるため、学習結果もデータ種別ごとに出力され、学習結果記憶部１２４に記憶される。

一方、検知部１６も、学習部１４と同様に、データ種別ごとに学習器を生成する。当該学習器には、学習部１４によって生成される学習器と同様にオートエンコーダ又は主成分分析等のうち、学習部１４が生成する学習器に対応する方法を用いることができる。

図５のステップＳ２０５において、検知部１６は、学習結果記憶部１２４に記憶されている学習結果に基づいて、「フローデータの学習器」、「ＭＩＢデータの学習器」、「ＣＰＵ使用率の学習器」を生成する。すなわち、検知部１６によって生成される学習器は、当該学習結果の出力時において学習部１４によって生成された学習器と同じである。検知部１６は、図６の（２）に示されるように、ステップＳ２０５において入力されたデータ種別ごとの数値ベクトルを当該数値ベクトルのデータ種別に対応する学習器へ入力し、学習器に対する入力データと出力データとの距離（メトリック間の相関関係の崩れの程度を示す指標）を異常度として計算する。本実施の形態ではオートエンコーダの入力層と出力層との距離である平均二乗誤差（ＭＳＥ：Mean Squared Error）が異常度として計算される。ＭＳＥの計算式は、以下の通りである。

本実施の形態では、フローデータのＭＳＥ、ＭＩＢデータのＭＳＥ、ＣＰＵ使用率のＭＳＥの３種のＭＳＥが得られる。検知部１６は、得られたＭＳＥの平均を、最終的な異常度として計算し、最終的な異常度が予め定められた閾値を超えていた場合に異常であると判定する。そうでない場合、検知部１６は、正常とであると判定する。

上述したように、第１の実施の形態によれば、観測データの変化に応じて正規化パラメータが更新される。したがって、長期間での増減のトレンドを持つような数値データが異常検知における観測データとして含まれる際に、増減のトレンドを考慮して数値データの正規化を行うことができる。すなわち、異常の検知対象から収集されるデータについて長期間での変化を考慮した特徴量（正規化された数値ベクトル）の生成を行うことができる。

次に、第２の実施の形態について説明する。第２の実施の形態では第１の実施の形態と異なる点について説明する。第２の実施の形態において特に言及されない点については、第１の実施の形態と同様でもよい。

第２の実施の形態では、図４のステップＳ１０４において、前処理部１３は、数値ベクトル群の各メトリックｉの最大値ｘｍａｘ＿ｉではなく、数値ベクトル群の各メトリックｉの分布の平均μ＿ｉ及び標準偏差σ＿ｉを算出する。

例えば、フローデータである教師データｘｔｒａｉｎ＿｛ｄ，ｉ｝（ｄ＝１，...，Ｄ，ｉ＝１，...，Ｎ，Ｄ：教師データの数，Ｎ：入力メトリックの次元数）が｛｛８０，２０｝，｛９０，３５｝，｛１００，５０｝｝であるとすると、１次元目（＝ＴＣＰバイト数）の平均μ＿１及び標準偏差σ＿１はそれぞれ、μ＿１＝９０、σ＿１＝８．１６として算出され、２次元目（＝ＵＤＰバイト数）については、μ＿２＝３５、σ＿２＝１２．２として算出される。これらの平均μ＿ｉ及び標準偏差σ＿ｉは、標準化パラメータとしてパラメータ記憶部１２２に記憶される。

ステップＳ１０５において、前処理部１３は、数値ベクトルの各メトリックｉの値を、
ｘｔｒａｉｎ'＿｛ｄ，ｉ｝＝（ｘｔｒａｉｎ＿｛ｄ，ｉ｝−μ＿ｉ）／σ＿ｉ
の変換により標準化する。すなわち、各メトリックｉの値は、平均μ＿ｉ及び標準偏差σ＿ｉに基づいて標準化される。その結果、教師データｘｔｒａｉｎ＿｛ｄ、ｉ｝は、｛｛−１．２２，−１．２２｝，｛０，０｝，｛１．２２，１．２２｝｝に標準化される。

教師データに基づく標準化パラメータがパラメータ記憶部１２２に記憶されている状態において、図５のステップＳ２０３において生成される数値ベクトルが｛６０、４０｝である場合、当該数値ベクトルの各メトリックｉの値は、パラメータ記憶部１２２に記憶されている、教師データに基づく平均μ＿ｉ及び標準偏差σ＿ｉによって、｛−３．６７，０．４１｝に標準化される。

その後、標準化パラメータは、学習データの蓄積に応じて、図５のステップＳ１０４において更新される。例えば、学習データが、Ｕ分間分（ここではＵ＝３）蓄積され、その値が｛｛６０，４０｝，｛４５，２０｝，｛３０，３０｝｝であった場合、標準化パラメータは、μ＿１＝４５、σ＿１＝１２．２、μ＿２＝３０、σ＿２＝８．１６に更新され、パラメータ記憶部１２２に記憶される。

したがって、続いて実行されるステップＳ１０５や、その後に実行されるステップＳ２０４では、更新された標準化パラメータに基づいて、数値ベクトルの標準化が行われる。

上述したように、第２の実施の形態によっても、第１の実施の形態と同様の効果を得ることができる。

なお、上記各実施の形態は、ネットワーク以外から収集されるデータに関して適用されてもよい。例えば、コンピュータシステムから収集されるデータに関して上記各実施の形態が適用されてもよい。

なお、上記各実施の形態において、異常検知装置１０は、特徴量生成装置の一例である。前処理部１３は、生成部の一例である。

以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

本出願は、２０１７年２月２日に出願された日本国特許出願第２０１７−０１７９２０号に基づきその優先権を主張するものであり、同日本国特許出願の全内容を参照することにより本願に援用する。

１０異常検知装置
１１受信部
１２学習処理制御部
１３前処理部
１４学習部
１５検知処理制御部
１６検知部
２０測定装置
１００ドライブ装置
１０１記録媒体
１０２補助記憶装置
１０３メモリ装置
１０４ＣＰＵ
１０５インタフェース装置
１２１教師データ記憶部
１２２パラメータ記憶部
１２３観測データ記憶部
１２４学習結果記憶部
１２５学習データ記憶部
Ｂバス
Ｎ１ネットワーク

Claims

異常の検知対象から複数のタイミングで収集される各データの特徴量を要素とする数値ベクトルを生成し、当該数値ベクトルを、所定の数値ベクトルの集合に基づく正規化パラメータ又は標準化パラメータを用いて正規化又は標準化する生成部と、
前記所定の数値ベクトルを学習し、学習結果を出力する学習部と、
前記生成部によって正規化又は標準化された数値ベクトルごとに、当該数値ベクトルと、前記学習結果とに基づいて異常を検知する検知部とを有し、
前記所定の数値ベクトルの集合は、前記検知部によって異常が検知されない数値ベクトルの集合であり、前記検知部によって異常が検知されないことに応じて更新され、
前記生成部は、更新後の前記所定の数値ベクトルの集合に基づいて前記正規化パラメータ又は前記標準化パラメータを更新し、前記所定の数値ベクトルの集合が更新された後に収集される各データの特徴量を要素とする数値ベクトルについては、更新後の前記正規化パラメータ又は前記標準化パラメータを用いて正規化又は標準化する、
ことを特徴とする特徴量生成装置。
前記生成部は、生成した数値ベクトルの各メトリックを、前記所定の数値ベクトルの集合における当該メトリックの最大値によって除することで正規化する、
ことを特徴とする請求項１記載の特徴量生成装置。
前記生成部は、生成した数値ベクトルの各メトリックを、前記所定の数値ベクトルの集合における当該メトリックの平均及び標準偏差に基づいて標準化する、
ことを特徴とする請求項１記載の特徴量生成装置。
異常の検知対象から複数のタイミングで収集される各データの特徴量を要素とする数値ベクトルを生成し、当該数値ベクトルを、所定の数値ベクトルの集合に基づく正規化パラメータ又は標準化パラメータを用いて正規化又は標準化する生成手順と、
前記所定の数値ベクトルを学習し、学習結果を出力する学習手順と、
前記生成手順において正規化又は標準化された数値ベクトルごとに、当該数値ベクトルと、前記学習結果とに基づいて異常を検知する検知手順とをコンピュータが実行し、
前記所定の数値ベクトルの集合は、前記検知手順において異常が検知されない数値ベクトルの集合であり、前記検知手順において異常が検知されないことに応じて更新され、
前記生成手順は、更新後の前記所定の数値ベクトルの集合に基づいて前記正規化パラメータ又は前記標準化パラメータを更新し、前記所定の数値ベクトルの集合が更新された後に収集される各データの特徴量を要素とする数値ベクトルについては、更新後の前記正規化パラメータ又は前記標準化パラメータを用いて正規化又は標準化する、
ことを特徴とする特徴量生成方法。
前記生成手順は、生成した数値ベクトルの各メトリックを、前記所定の数値ベクトルの集合における当該メトリックの最大値によって除することで正規化する、
ことを特徴とする請求項４記載の特徴量生成方法。
前記生成手順は、生成した数値ベクトルの各メトリックを、前記所定の数値ベクトルの集合における当該メトリックの平均及び標準偏差に基づいて標準化する、
ことを特徴とする請求項４記載の特徴量生成方法。
請求項１乃至３いずれか一項記載の各部としてコンピュータを機能させるためのプログラム。