JP6767434B2

JP6767434B2 - 評価装置及び評価方法

Info

Publication number: JP6767434B2
Application number: JP2018117456A
Authority: JP
Inventors: 友貴山中
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-06-20
Filing date: 2018-06-20
Publication date: 2020-10-14
Anticipated expiration: 2038-06-20
Also published as: EP3796599B1; EP3796599A4; AU2019288014B2; EP3796599A1; AU2019288014A1; WO2019244902A1; CN112425123A; US20210256402A1; CN112425123B; JP2019220866A

Description

本発明は、評価装置及び評価方法に関する。

ＩｏＴ（Internet of Things）時代の到来に伴い、多種のデバイス（ＩｏＴ機器）がインターネットに接続され、多様な使われ方をされるようになっている。これにともない、ＩｏＴ機器向けのトラフィックセッション異常検知システムや侵入検知システム(ＩＤＳ：Intrusion Detection System）等のＩｏＴ機器のセキュリティ対策が期待されている。

このような技術として、例えば、ＶＡＥ（Variational Auto Encoder）等の教師なし学習による確率密度推定器を用いるものがある。この技術では、正常な通信データの確率密度を学習後、確率密度の低い通信を異常として検知する。このため、この技術では、正常な通信データのみが分かればよく、全ての悪性データを学習せずとも異常検知が可能である。したがって、この技術は、未だ過渡期にあり全ての脅威情報を知り尽くされていないＩｏＴ機器に対する脅威の検知に有効である。

Diederik P Kingma, Max Welling，"Auto-Encoding Variational Bayes"，［平成３０年６月７日検索］，インターネット＜ＵＲＬ：https://arxiv.org/abs/1312.6114＞

ここで、ＶＡＥは、確率に基づいて異常検知を行うため、誤検知を起こすことがあり得る。例えば、誤検知として、正常な通信を誤って異常と判断してしまう過検知がある。過検知となり得るデータとしては、年に数回しか発生しないメンテナンス用の通信や、オリンピック時の異常な量のトラフィックデータがある。実用的な異常検知システムとするためには、過検知の発生に気付いたとき、その過検知データをフィードバックし、検知精度を改善する機能が必要になる。

従来、過検知データをフィードバックするために、初期学習に用いたデータセットと、過検知を起こしたデータセットとを混ぜたデータセットを作成し、再度ＶＡＥのモデルを学習しなおすという手法を用いていた。

しかしながら、従来の手法には、以下の２つの問題点がある。まず、第１の問題として、初期学習に使用した初期学習データセットを、モデル生成後も保存しておく必要があるという問題がある。そして、第２の問題として、過検知データセットが初期学習データセットに比べて極めて少ないとき、過検知データを精度よく学習することができないという問題がある。

一般に、過検知は、ほとんど発生せず、過検知データを大量に収集することは、困難な場合が多い。このため、上記問題のうち特に第２の問題が深刻である。したがって、少量の過検知データであっても、効率的に精度よくフィードバックを行い、評価精度を改善できる技術を確立することが求められている。

本発明は、上記に鑑みてなされたものであって、通信データの異常有無の評価を高精度に実行する評価装置及び評価方法を提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る評価装置は、評価対象の通信データの入力を受け付ける受付部と、正常な初期学習データの確率密度の特徴を学習した第１のモデルと、評価処理の過程において異常と検知された正常な過検知データの確率密度の特徴を学習した第２のモデルとを用いて評価対象の通信データの確率密度を推定し、推定した確率密度を基に評価対象の通信データの異常の有無を評価する評価部と、を有することを特徴とする。

本発明によれば、通信データの異常有無の評価を高精度に実行する。

図１は、実施の形態に係る評価装置の構成の一例を示す図である。図２は、図１に示すモデル生成部の処理を説明する図である。図３は、図１に示すモデル生成部の処理を説明する図である。図４は、図１に示す評価装置におけるフィードバック学習を説明する図である。図５は、図１に示すモデル生成部が生成したモデルを説明する図である。図６は、図１に示すモデル生成部が生成したモデルを説明する図である。図７は、図１に示す評価部の処理を説明する図である。図８は、図１に示す評価装置が初期段階に行う学習処理の処理手順を示すフローチャートである。図９は、図１に示す評価装置１が行う評価処理の処理手順を示すフローチャートである。図１０は、実施の形態に係る評価装置の適用例を説明する図である。図１１は、図１に示す評価部の処理の他の例を説明する図である。図１２は、従来の評価方法のフィードバック学習を説明する図である。図１３は、従来の評価方法において用いられるモデルを説明する図である。図１４は、従来の評価方法において用いられるモデルを説明する図である。図１５は、プログラムが実行されることにより、評価装置が実現されるコンピュータの一例を示す図である。

以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［実施の形態］
本発明の実施の形態について説明する。実施の形態に係る評価装置は、正常な学習データを学習した学習データ用ＶＡＥモデルに加え、過検知データのみを学習した過検知用ＶＡＥモデルを生成する。過検知データは、評価処理の過程において異常と評価された正常な通信データであり、少量しか発生しない。本実施の形態に係る評価装置は、生成した２つのＶＡＥモデルをモデルレベルで結合して得られた確率密度を基に評価を行うため、過検知データのフィードバックと検知の高精度化とを実現する。

なお、ＶＡＥは、あるデータ点ｘ_ｉの入力を受け付けると、そのデータに対応したアノマリスコア（ｓｃｏｒｅ）（異常度）を出力する。確率密度の推定値をｐ（ｘ_ｉ）とすると、アノマリスコアは、−ｌｏｇｐ（ｘ_ｉ）の近似値となる。したがって、ＶＡＥが出力するアノマリスコアは、値が高いほど、この通信データの異常度が高いことを示す。

［評価装置の構成］
そこで、実施の形態に係る評価装置の構成について具体的に説明する。図１は、実施の形態に係る評価装置の構成の一例を示す図である。図１に示すように、評価装置１は、通信部１０、記憶部１１及び制御部１２を有する。

通信部１０は、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースである。通信部１０は、ＮＩＣ（Network Interface Card）等で実現され、ＬＡＮ（Local Area Network）やインターネットなどの電気通信回線を介した他の装置と制御部１２（後述）との間の通信を行う。通信部１０は、例えば、ネットワーク等を介して外部装置と接続し、評価対象の通信データの入力を受け付ける。

記憶部１１は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置によって実現され、評価装置１を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが記憶される。記憶部１１は、学習データ用ＶＡＥモデル１１１及び過検知用ＶＡＥモデル１１２を有する。

学習データ用ＶＡＥモデル１１１は、正常な学習データを学習した学習データ用ＶＡＥモデル（第１のモデル）であり、正常な初期学習データの確率密度の特徴を学習したモデルである。過検知用ＶＡＥモデル１１２は、過検知データのみを学習した過検知用ＶＡＥモデル（第２のモデル）であり、評価処理の過程において異常と評価された正常な過検知データの確率密度の特徴を学習したモデルである。各モデルは、学習済みであるＶＡＥのモデルパラメータを有する。

制御部１２は、各種の処理手順などを規定したプログラム及び所要データを格納するための内部メモリを有し、これらによって種々の処理を実行する。例えば、制御部１２は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などの電子回路である。制御部１２は、受付部１２０、モデル生成部１２１（生成部）及び評価部１２３を有する。

モデル生成部１２１は、確率密度推定器としてＶＡＥ１２２を有し、入力されたデータを学習し、ＶＡＥモデルの生成、或いは、ＶＡＥモデルパラメータの更新を行う。モデル生成部１２１は、生成したＶＡＥモデルのモデルパラメータ、或いは、更新したＶＡＥモデルのモデルパラメータを記憶部１１に格納する。

図２及び図３は、図１に示すモデル生成部１２１の処理を説明する図である。まず、図２に示すように、モデル生成部１２１は、初期段階において、正常な大量の学習データＤｓ（例えば、ＨＴＴＰ通信）を、初期学習データとして学習し、学習データ用ＶＡＥモデル１１１を生成する。

そして、モデル生成部１２１は、図３に示すように、評価処理の過程にて収集された少量の過検知データＤｅ（例えば、ＦＴＰ通信）を学習し、過検知用ＶＡＥモデル１１２を新たに生成する。または、モデル生成部１２１は、フィードバックされた過検知データを学習する。

ここで、モデル生成部１２１は、過検知データの学習指示を受けると、入力された過検知データを学習して過検知用ＶＡＥモデル１１２の生成或いは過検知用ＶＡＥモデル１１２のパラメータを更新する。これによって、過検知データが、評価装置１にフィードバックされる。

図４は、図１に示す評価装置におけるフィードバック学習を説明する図である。図５及び図６は、図１に示すモデル生成部１２１が生成したモデルを説明する図である。具体的には、図４に示すように、過検知データのフィードバック学習時には、モデル生成部１２１は、初期の学習データＤｓの件数と、フィードバックされた少量の過検知データＤｅとを用いて、過検知データＤｅを精度よく学習する。そして、モデル生成部１２１は、過検知用ＶＡＥモデル１１２を生成、或いは、過検知用ＶＡＥモデル１１２のモデルパラメータを更新する。

したがって、評価装置１は、過検知データのフィードバック学習のために、初期の学習データＤｓの件数のみを保存しておけばよい。また、評価装置１は、少量の過検知データのみを学習するため、大量の初期の学習データを学習するよりも学習時間を短くすることができる。また、評価装置１は、過検知データのみを学習するため、精度良い学習を実行できる。

そして、学習データ用ＶＡＥモデル１１１は、初期段階において、正常な学習データを精度よく学習したものであり（図４の（１ａ）参照）、過去に初期の学習データＤｓから作成済みのものである（図４の（１ｂ）参照）。この学習データ用ＶＡＥモデル１１１は、通常時の正常な通信データに対し、低いアノマリスコアを示す（図５参照）。そして、過検知用ＶＡＥモデル１１２は、過検知データを精度よく学習したものであり、過検知データに対し、低いアノマリスコアを示す（図６参照）。

評価部１２３は、学習データ用ＶＡＥモデル１１１と過検知用ＶＡＥモデル１１２とを用いて評価対象の通信データの確率密度を推定し、推定した確率密度を基に評価対象の通信データの異常の有無を評価する。評価部１２３は、学習データ用ＶＡＥモデル１１１を適用して推定した確率密度と、過検知用ＶＡＥモデル１１２を適用して推定した確率密度とを結合した確率密度を基に評価対象の通信データの異常の有無を評価する。評価部１２３は、結合した確率密度が所定値よりも低い場合に、評価対象の通信データが異常であることを検知し、外部の対処装置等に通信データの異常発生を通知する。評価部１２３は、結合部１２４と、異常有無評価部１２６とを有する。

結合部１２４は、例えば、学習データ用ＶＡＥモデル１１１のモデルパラメータが適用される第１ＶＡＥ１２５１と、過検知用ＶＡＥモデル１１２のモデルパラメータが適用される第２ＶＡＥ１２５２とを有する。結合部１２４は、学習データ用ＶＡＥモデル１１１を適用して推定した確率密度と、過検知用ＶＡＥモデル１１２を適用して推定した確率密度とを結合する。

結合部１２４は、過検知用ＶＡＥモデル１１２が過検知データのフィードバックによって生成或いは更新された場合、過検知用ＶＡＥモデル１１２と学習データ用ＶＡＥモデル１１１とをモデルレベルで結合する。モデルレベルでの結合とは、各々のＶＡＥモデルのアウトプットであるスコアを、以下の（１）式に基づいて結合することを示す。言い換えると、結合部１２４は、学習データ用ＶＡＥモデル１１１を適用した第１ＶＡＥ１２５１が推定したアノマリスコアと、過検知用ＶＡＥモデル１１２を適用して第２ＶＡＥ１２５２が推定したアノマリスコアとを、（１）式に適用して、結合アノマリスコアを計算する。

（１）式において、ｓｃｏｒｅ_ｎは、初期の学習データＤｓを学習した学習データ用ＶＡＥモデル１１１を適用した第１ＶＡＥ１２５１が出力するアノマリスコアである。ｓｃｏｒｅ_ｏｄは、過検知データＤｅを学習した過検知用ＶＡＥモデル１１２を適用した第２ＶＡＥ１２５２が出力するアノマリスコアである。ｓｃｏｒｅ_{ｃｏｎｃａｔ}は、結合アノマリスコアである。また、Ｎ_ｎは、学習データの件数である。Ｎ_ｏｄは、過検知データの件数である。

異常有無評価部１２６は、結合部１２４によって結合された確率密度を基に評価対象の通信データの異常の有無を評価する。異常有無評価部１２６は、結合部１２４によって計算された結合アノマリスコアを基に、評価対象の通信データの異常の有無を検知する。具体的には、異常有無評価部１２６は、結合アノマリスコアが所定値よりも高い場合に、評価対象の通信データが異常であると評価する。また、異常有無評価部１２６は、結合アノマリスコアが所定値以下である場合に、評価対象の通信データが正常であると評価する。

図７は、図１に示す評価部１２３の処理を説明する図である。評価部１２３は、学習済みの学習データ用ＶＡＥモデル１１１と過検知用ＶＡＥモデル１１２とをインプットして（矢印Ｙ１，Ｙ２参照）、ネットワークから得られた評価用の通信データ（評価データ）Ｄｔを評価する。この際、評価部１２３は、評価データＤｔに対して第１ＶＡＥ１２５１が出力するアノマリスコアと、評価データＤｔに対して第２ＶＡＥ１２５２が出力するアノマリスコアとを（１）式に適用することによって、結合アノマリスコアを得る。そして、評価部１２３は、結合アノマリスコアが、所定値よりも高い場合には、評価対象の通信データが異常であると評価し、その評価結果Ｄｒを対処装置等に出力する。

［初期の学習処理］
次に、評価装置１が初期段階に行う学習処理について説明する。図８は、図１に示す評価装置１が初期段階に行う学習処理の処理手順を示すフローチャートである。

図８に示すように、モデル生成部１２１は、初期段階において、初期モデルである学習データ用ＶＡＥモデル１１１の生成指示を受けると（ステップＳ１）、初期の学習データの入力を受け付ける（ステップＳ２）。そして、モデル生成部１２１は、この初期の学習データを学習し、学習データ用ＶＡＥモデル１１１を生成する（ステップＳ３）。モデル生成部１２１は、生成した学習データ用ＶＡＥモデル１１１のモデルパラメータを記憶部１１に格納する。

［評価処理］
次に、評価装置１の評価処理について説明する。図９は、図１に示す評価装置１が行う評価処理の処理手順を示すフローチャートである。

図９に示すように、受付部１２０が評価データの入力を受け付けると（ステップＳ１１）、評価部１２３は、学習済みのモデルを適用して（ステップＳ１２）、評価対象データの確率密度を推定する（ステップＳ１３）。

ここで、過検知データのフィードバック前の場合、記憶部１１には学習データ用ＶＡＥモデル１１１のみが格納されている。この場合には、評価部１２３は、学習データ用ＶＡＥモデル１１１を第１ＶＡＥに適用して、評価データの確率密度を推定する。また、過検知データがフィードバック済みである場合、記憶部１１には学習データ用ＶＡＥモデル１１１と、過検知用ＶＡＥモデル１１２との双方が格納されている。この場合には、評価部１２３は、学習データ用ＶＡＥモデル１１１を第１ＶＡＥ１２５１に適用し、過検知用ＶＡＥモデル１１２を第２ＶＡＥ１２５２を適用し、それぞれのＶＡＥにおいて、評価データの確率密度を推定する。

続いて、評価部１２３は、学習データ用ＶＡＥモデル１１１を適用して推定した確率密度と、過検知用ＶＡＥモデル１１２を適用して推定した確率密度とを結合した確率密度を計算する（ステップＳ１４）。具体的には、評価部１２３では、結合部１２４が、学習データ用ＶＡＥモデル１１１を適用した第１ＶＡＥ１２５１が推定したアノマリスコアと、過検知用ＶＡＥモデル１１２を適用して第２ＶＡＥ１２５２が推定したアノマリスコアとを、（１）式に適用して、結合アノマリスコアを計算する。

そして、評価部１２３では、異常有無評価部１２６が、ステップＳ１４において計算された確率密度を基に、評価対象の通信データの異常の有無を評価し、評価結果を出力する（ステップＳ１５）。異常有無評価部１２６は、結合部１２４によって計算された結合アノマリスコアが所定値よりも高い場合に、評価対象の通信データが異常であると評価する。

続いて、制御部１２は、過検知データ学習指示を受けたか否かを判定する（ステップＳ１６）。例えば、管理者は、評価部１２３から出力された検知結果を分析し、異常であると検知されたが実際には正常である通信データがある場合には、この通信データを過検知データとして分類する。そして、管理者は、所定数の過検知データを収集した際に、評価装置１に、収集した過検知データをフィードバックし、この過検知データの学習を指示する。或いは、外部装置において、評価部１２３から出力された検知結果が分析され、過検知データとして分類された通信データが所定数蓄積された際に、外部装置から、学習対象の過検知データがフィードバックされるとともに過検知データの学習指示が入力される。

制御部１２は、過検知データの学習指示を受けたと判定した場合（ステップＳ１６：Ｙｅｓ）、受付部１２０は、学習対象の過検知データの入力を受け付ける（ステップＳ１７）。続いて、モデル生成部１２１は、入力された過検知データを学習し、過検知用ＶＡＥモデル１１２を新たに生成する（ステップＳ１８）。或いは、モデル生成部１２１は、フィードバックされた過検知データを学習し、過検知用ＶＡＥモデル１１２のモデルパラメータを更新する（ステップＳ１８）。

制御部１２は、過検知データ学習指示を受けていないと判定した場合（ステップＳ１６：Ｎｏ）、または、ステップＳ１８の処理終了後、評価処理の終了指示を受けたか否かを判定する（ステップＳ１９）。制御部１２は、評価処理の終了指示を受けていないと判定した場合（ステップＳ１９：Ｎｏ）、ステップＳ１１に戻り、次の評価データの入力を受け付ける。制御部１２は、評価処理の終了指示を受けたと判定した場合（ステップＳ１９：Ｙｅｓ）、評価処理を終了する。

［実施例］
例えば、本実施の形態に係る評価装置１は、ＩｏＴ機器の異常検知に適用することができる。図１０は、実施の形態に係る評価装置１の適用例を説明する図である。図１０に示すように、複数のＩｏＴ機器２が接続されたネットワーク３上に、評価装置１を設ける。この場合、評価装置１は、ＩｏＴ機器２が送受信するトラフィックセッション情報を収集し、正常トラフィックセッションの確率密度の学習、及び、異常トラフィックセッションの検知を行う。

評価装置１では、モデル生成部１２１が、学習対象となる初期学習用データセットや過検知データセットを受け取り、受け取ったデータセットを学習した学習済みモデルを記憶部１１に格納する。

図１１は、図１に示す評価部１２３の処理の他の例を説明する図である。評価部１２３では、結合部１２４が、一つまたは複数の学習済みモデルのモデルパラメータを受け取り、各学習済みモデルを適用した各ＶＡＥが推定したアノマリスコアを結合する。結合部１２４のＶＡＥは、入力された評価データ一つ一つに対する推定結果を出力する機能を持つ。図１では、結合部１２４は、ＶＡＥを２つ有する構成を例に説明したが、これに限らない。結合部１２４は、適用されるモデルの数量と同数のＶＡＥを有する構成でもよい。或いは、結合部１２４は、１つのＶＡＥに、順次学習済みモデルを適用して、各学習済みモデルを用いて推定された各アノマリスコアを取得してもよい。

ここで、結合部１２４に適用する学習済みモデルは、初期の学習データを学習した学習データ用ＶＡＥモデル１１１でもよいし、過検知データを学習した過検知用ＶＡＥモデル１１２でもよい。また、結合部１２４には、それぞれ異なる学習データを学習した複数の学習データ用ＶＡＥモデル１１１−１，１１１−２を適用してもよい（矢印Ｙ１１参照）。もちろん、結合部１２４には、一つの学習データ用ＶＡＥモデルのみを適用してもよい。

そして、結合部１２４には、それぞれ異なる過検知データを学習した複数の過検知用ＶＡＥモデル１１２−１，１１２−２を適用してもよい（矢印Ｙ１２参照）。もちろん、過検知データフィードバック前であれば、過検知用ＶＡＥモデルが生成されていないため、過検知用ＶＡＥモデルを結合部１２４に適用しなくてもよい。また、前述のように、結合部１２４に、一つの過検知用ＶＡＥモデルのみ適用してもよい。

結合部１２４は、複数のモデルが適用された場合、適用された複数のモデルによるアノマリスコアを以下の式（２）に基づいて結合する。

ここで、ｓｃｏｒｅ_ｋは、ｋ番目のモデルが出力したスコアであり、Ｎ_ｋは、ｋ番目のモデルが学習したデータの件数である。言い換えると、異常有無評価部１２６が、評価データについて評価を行う際には、（２）式の値を結合アノマリスコアとして得る。このように、結合部１２２は、２以上のモデルをモデルレベルで結合することも可能である。

以上のように、評価装置１では、初期学習に際しては、モデル生成部１２１に初期の学習用データをインプットして学習データ用ＶＡＥモデル１１１を得る。そして、評価装置１は、評価処理の過程において、いくつかの過検知が発覚するまでは、結合部１２４に学習データ用ＶＡＥモデル１１１のみをインプットし、ネットワークから得られたトラフィック情報を順次評価し続けてゆく。

そして、評価装置１では、過検知が発覚した場合に、過検知データのデータセットをモデル生成部１２１に入力し、過検知データを学習した過検知用ＶＡＥモデル１１２を生成する。その後、評価装置１では、学習データ用ＶＡＥモデル１１１と過検知用ＶＡＥモデル１１２とを結合部１２４にインプットし、同様にネットワークから得られたトラフィック情報を順次評価し続ける。

評価装置１では、これらの過検知発覚、過検知データ学習、モデル結合の処理を順次繰り返すことによって、検知精度を改善し続ける。

［従来方法］
次に、従来の評価方法について説明する。図１２は、従来の評価方法のフィードバック学習を説明する図である。図１３及び図１４は、従来の評価方法において用いられるモデルを説明する図である。

図１２に示すように、従来の評価方法では、過検知データのフィードバック学習時において、フィードバックされた少量の過検知データに加え、大量の初期学習データの双方を学習していた。この結果、従来の評価方法では、ＶＡＥモデルは、大量の初期学習データを精度よく学習できるものの（図１２の（１ａ）参照）、少量の過検知データを無視して学習を行っていた（図１２の（１ｂ）参照）。

したがって、従来のＶＡＥモデルは、評価時において、大量の学習データに相当する通信データに対し、低いアノマリスコアを示す（図１３参照）ものの、過検知データに対し、高いアノマリスコアを示すままであった（図１４参照）。このように、従来の評価方法では、データ数に偏りがあるため、過検知データを精度よく学習できていなかった。さらに、従来の評価方法では、過検知データのフィードバック学習のために、大量の初期学習データを保存しておく必要があり、また、新規にＶＡＥモデルを生成し直すため、初期学習時以上の時間が必要となっていた。

［評価実験］
そこで、実際のＩｏＴ機器間のトラフィックセッションデータに対し、従来の評価方法と、本実施の形態に係る評価方法とを用いてそれぞれ評価を行った結果を示す。学習データは、カメラ通信（３６９データ）であり、過検知データは、ＳＳＨ通信（１０データ）である。

初期学習として、カメラ通信を学習してＶＡＥモデルを生成した場合の評価結果について説明する。すなわち、過検知データのフィードバック前であり、初期の学習データであるカメラ通信のみを学習したＶＡＥモデルを用いて評価を行った結果である。この場合、学習データの平均スコアは、-25.2625となる。過検知データは学習していないので、過検知データの平均スコアは268.530と高いスコアとなる。そして、学習に要した時間は13.452（sec）である。

続いて、従来の評価方法を用いて過検知データをフィードバック学習した後の評価結果について説明する。この場合、学習データの平均スコアは、-16.3808となる。過検知データの平均スコアは、過検知データフィードバック前と比して多少は改善するものの、44.6441と依然高いスコアを示し、精度は低いままである。そして、再学習に要した時間は、14.157（sec）であり、初期学習時よりも長くなる。

これに対し、本実施の形態に係る評価方法を用いて、過検知データをフィードバック学習した後の評価結果について説明する。この場合には、学習データの平均スコアは、-25.2625である。そして、過検知データの平均スコアは、従来の評価方法と比して、-24.0182と大幅に改善される。さらに、再学習に要した時間は、従来の評価方法と比して、3.937（sec）と大幅に短縮される。

［実施の形態の効果］
このように、本実施の形態では、正常な学習データを学習した学習データ用ＶＡＥモデルと、過検知データを学習した過検知用ＶＡＥモデルとを用いて、評価データの確率密度を推定し、推定した確率密度を基に評価データの異常の有無を評価する。すなわち、本実施の形態では、正常な学習データを学習した学習データ用ＶＡＥモデルとは別に、過検知データのみをフィードバック学習した過検知用ＶＡＥモデルとを生成し、生成した２つのＶＡＥモデルが推定した確率密度を結合して得られた確率密度を基に評価を行う。

従来の評価方法では、過検知データを精度よく学習できない上に、過検知データのフィードバック学習のために大量の初期学習データを保存しておく必要があり、新規にＶＡＥモデルを生成し直すため、初期学習時以上の時間が必要となっていた。

これに対し、本実施の形態に係る評価装置１では、過検知データのフィードバック学習のために初期の学習データＤｓの件数のみを保存しておけばよい。そして、評価装置１では、前述の評価実験結果でも示したように、評価処理の過程においては、少量の過検知データのみを学習すればよく、大量の初期の学習データを学習するよりも学習時間を格段に短くすることができる。また、評価装置１では、前述の評価実験結果でも示したように、過検知データと学習データとの間に数の偏りがあったとしても、過検知データを高精度で評価することができる。

したがって、本実施の形態によれば、少量の過検知データを効率的にフィードバックし、過検知データの発生を低減して、通信データの異常有無の評価を高精度に実行することができる。

［システム構成等］
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
図１５は、プログラムが実行されることにより、評価装置１が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ（Operating System）１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、評価装置１の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、評価装置１における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。

１評価装置
２ＩｏＴ機器
３ネットワーク
１０通信部
１１記憶部
１２制御部
１１１学習データ用ＶＡＥモデル
１１２過検知用ＶＡＥモデル
１２０受付部
１２１モデル生成部
１２２ＶＡＥ
１２３評価部
１２４結合部
１２５１第１ＶＡＥ
１２５２第２ＶＡＥ
１２６異常有無評価部

Claims

評価対象の通信データの入力を受け付ける受付部と、
正常な初期学習データの確率密度の特徴を学習した第１のモデルと、評価処理の過程において異常と検知された正常な過検知データの確率密度の特徴を学習した第２のモデルとを用いて前記評価対象の通信データの確率密度を推定し、推定した確率密度を基に前記評価対象の通信データの異常の有無を評価する評価部と、
を有することを特徴とする評価装置。
前記正常な初期学習データが入力された場合に前記正常な初期学習データの確率密度の特徴を学習して前記第１のモデルを生成し、前記評価処理の過程にて収集された前記過検知データが入力された場合に前記過検知データの確率密度の特徴を学習して前記第２のモデルを生成する生成部をさらに有し、
前記評価部は、前記第１のモデルを適用して推定した確率密度と、前記第２のモデルを適用して推定した確率密度とを結合した確率密度を基に前記評価対象の通信データの異常の有無を評価することを特徴とする請求項１に記載の評価装置。
評価装置によって実行される評価方法であって、
評価対象の通信データの入力を受け付ける工程と、
正常な初期学習データの確率密度の特徴を学習した第１のモデルと、評価処理の過程において異常と検知された正常な過検知データの確率密度の特徴を学習した第２のモデルとを用いて前記評価対象の通信データの確率密度を推定し、推定した確率密度を基に前記評価対象の通信データの異常の有無を評価する工程と、
を含んだことを特徴とする評価方法。