JP6767434B2 - 評価装置及び評価方法 - Google Patents

評価装置及び評価方法 Download PDF

Info

Publication number
JP6767434B2
JP6767434B2 JP2018117456A JP2018117456A JP6767434B2 JP 6767434 B2 JP6767434 B2 JP 6767434B2 JP 2018117456 A JP2018117456 A JP 2018117456A JP 2018117456 A JP2018117456 A JP 2018117456A JP 6767434 B2 JP6767434 B2 JP 6767434B2
Authority
JP
Japan
Prior art keywords
data
evaluation
model
probability density
vae
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018117456A
Other languages
English (en)
Other versions
JP2019220866A (ja
Inventor
友貴 山中
友貴 山中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018117456A priority Critical patent/JP6767434B2/ja
Priority to US17/252,751 priority patent/US20210256402A1/en
Priority to EP19823058.3A priority patent/EP3796599B1/en
Priority to PCT/JP2019/024167 priority patent/WO2019244902A1/ja
Priority to CN201980040020.2A priority patent/CN112425123B/zh
Priority to AU2019288014A priority patent/AU2019288014B2/en
Publication of JP2019220866A publication Critical patent/JP2019220866A/ja
Application granted granted Critical
Publication of JP6767434B2 publication Critical patent/JP6767434B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)

Description

本発明は、評価装置及び評価方法に関する。
IoT(Internet of Things)時代の到来に伴い、多種のデバイス(IoT機器)がインターネットに接続され、多様な使われ方をされるようになっている。これにともない、IoT機器向けのトラフィックセッション異常検知システムや侵入検知システム(IDS:Intrusion Detection System)等のIoT機器のセキュリティ対策が期待されている。
このような技術として、例えば、VAE(Variational Auto Encoder)等の教師なし学習による確率密度推定器を用いるものがある。この技術では、正常な通信データの確率密度を学習後、確率密度の低い通信を異常として検知する。このため、この技術では、正常な通信データのみが分かればよく、全ての悪性データを学習せずとも異常検知が可能である。したがって、この技術は、未だ過渡期にあり全ての脅威情報を知り尽くされていないIoT機器に対する脅威の検知に有効である。
Diederik P Kingma, Max Welling,"Auto-Encoding Variational Bayes",[平成30年6月7日検索],インターネット<URL:https://arxiv.org/abs/1312.6114>
ここで、VAEは、確率に基づいて異常検知を行うため、誤検知を起こすことがあり得る。例えば、誤検知として、正常な通信を誤って異常と判断してしまう過検知がある。過検知となり得るデータとしては、年に数回しか発生しないメンテナンス用の通信や、オリンピック時の異常な量のトラフィックデータがある。実用的な異常検知システムとするためには、過検知の発生に気付いたとき、その過検知データをフィードバックし、検知精度を改善する機能が必要になる。
従来、過検知データをフィードバックするために、初期学習に用いたデータセットと、過検知を起こしたデータセットとを混ぜたデータセットを作成し、再度VAEのモデルを学習しなおすという手法を用いていた。
しかしながら、従来の手法には、以下の2つの問題点がある。まず、第1の問題として、初期学習に使用した初期学習データセットを、モデル生成後も保存しておく必要があるという問題がある。そして、第2の問題として、過検知データセットが初期学習データセットに比べて極めて少ないとき、過検知データを精度よく学習することができないという問題がある。
一般に、過検知は、ほとんど発生せず、過検知データを大量に収集することは、困難な場合が多い。このため、上記問題のうち特に第2の問題が深刻である。したがって、少量の過検知データであっても、効率的に精度よくフィードバックを行い、評価精度を改善できる技術を確立することが求められている。
本発明は、上記に鑑みてなされたものであって、通信データの異常有無の評価を高精度に実行する評価装置及び評価方法を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明に係る評価装置は、評価対象の通信データの入力を受け付ける受付部と、正常な初期学習データの確率密度の特徴を学習した第1のモデルと、評価処理の過程において異常と検知された正常な過検知データの確率密度の特徴を学習した第2のモデルとを用いて評価対象の通信データの確率密度を推定し、推定した確率密度を基に評価対象の通信データの異常の有無を評価する評価部と、を有することを特徴とする。
本発明によれば、通信データの異常有無の評価を高精度に実行する。
図1は、実施の形態に係る評価装置の構成の一例を示す図である。 図2は、図1に示すモデル生成部の処理を説明する図である。 図3は、図1に示すモデル生成部の処理を説明する図である。 図4は、図1に示す評価装置におけるフィードバック学習を説明する図である。 図5は、図1に示すモデル生成部が生成したモデルを説明する図である。 図6は、図1に示すモデル生成部が生成したモデルを説明する図である。 図7は、図1に示す評価部の処理を説明する図である。 図8は、図1に示す評価装置が初期段階に行う学習処理の処理手順を示すフローチャートである。 図9は、図1に示す評価装置1が行う評価処理の処理手順を示すフローチャートである。 図10は、実施の形態に係る評価装置の適用例を説明する図である。 図11は、図1に示す評価部の処理の他の例を説明する図である。 図12は、従来の評価方法のフィードバック学習を説明する図である。 図13は、従来の評価方法において用いられるモデルを説明する図である。 図14は、従来の評価方法において用いられるモデルを説明する図である。 図15は、プログラムが実行されることにより、評価装置が実現されるコンピュータの一例を示す図である。
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[実施の形態]
本発明の実施の形態について説明する。実施の形態に係る評価装置は、正常な学習データを学習した学習データ用VAEモデルに加え、過検知データのみを学習した過検知用VAEモデルを生成する。過検知データは、評価処理の過程において異常と評価された正常な通信データであり、少量しか発生しない。本実施の形態に係る評価装置は、生成した2つのVAEモデルをモデルレベルで結合して得られた確率密度を基に評価を行うため、過検知データのフィードバックと検知の高精度化とを実現する。
なお、VAEは、あるデータ点xの入力を受け付けると、そのデータに対応したアノマリスコア(score)(異常度)を出力する。確率密度の推定値をp(x)とすると、アノマリスコアは、−logp(x)の近似値となる。したがって、VAEが出力するアノマリスコアは、値が高いほど、この通信データの異常度が高いことを示す。
[評価装置の構成]
そこで、実施の形態に係る評価装置の構成について具体的に説明する。図1は、実施の形態に係る評価装置の構成の一例を示す図である。図1に示すように、評価装置1は、通信部10、記憶部11及び制御部12を有する。
通信部10は、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースである。通信部10は、NIC(Network Interface Card)等で実現され、LAN(Local Area Network)やインターネットなどの電気通信回線を介した他の装置と制御部12(後述)との間の通信を行う。通信部10は、例えば、ネットワーク等を介して外部装置と接続し、評価対象の通信データの入力を受け付ける。
記憶部11は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置によって実現され、評価装置1を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが記憶される。記憶部11は、学習データ用VAEモデル111及び過検知用VAEモデル112を有する。
学習データ用VAEモデル111は、正常な学習データを学習した学習データ用VAEモデル(第1のモデル)であり、正常な初期学習データの確率密度の特徴を学習したモデルである。過検知用VAEモデル112は、過検知データのみを学習した過検知用VAEモデル(第2のモデル)であり、評価処理の過程において異常と評価された正常な過検知データの確率密度の特徴を学習したモデルである。各モデルは、学習済みであるVAEのモデルパラメータを有する。
制御部12は、各種の処理手順などを規定したプログラム及び所要データを格納するための内部メモリを有し、これらによって種々の処理を実行する。例えば、制御部12は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの電子回路である。制御部12は、受付部120、モデル生成部121(生成部)及び評価部123を有する。
モデル生成部121は、確率密度推定器としてVAE122を有し、入力されたデータを学習し、VAEモデルの生成、或いは、VAEモデルパラメータの更新を行う。モデル生成部121は、生成したVAEモデルのモデルパラメータ、或いは、更新したVAEモデルのモデルパラメータを記憶部11に格納する。
図2及び図3は、図1に示すモデル生成部121の処理を説明する図である。まず、図2に示すように、モデル生成部121は、初期段階において、正常な大量の学習データDs(例えば、HTTP通信)を、初期学習データとして学習し、学習データ用VAEモデル111を生成する。
そして、モデル生成部121は、図3に示すように、評価処理の過程にて収集された少量の過検知データDe(例えば、FTP通信)を学習し、過検知用VAEモデル112を新たに生成する。または、モデル生成部121は、フィードバックされた過検知データを学習する。
ここで、モデル生成部121は、過検知データの学習指示を受けると、入力された過検知データを学習して過検知用VAEモデル112の生成或いは過検知用VAEモデル112のパラメータを更新する。これによって、過検知データが、評価装置1にフィードバックされる。
図4は、図1に示す評価装置におけるフィードバック学習を説明する図である。図5及び図6は、図1に示すモデル生成部121が生成したモデルを説明する図である。具体的には、図4に示すように、過検知データのフィードバック学習時には、モデル生成部121は、初期の学習データDsの件数と、フィードバックされた少量の過検知データDeとを用いて、過検知データDeを精度よく学習する。そして、モデル生成部121は、過検知用VAEモデル112を生成、或いは、過検知用VAEモデル112のモデルパラメータを更新する。
したがって、評価装置1は、過検知データのフィードバック学習のために、初期の学習データDsの件数のみを保存しておけばよい。また、評価装置1は、少量の過検知データのみを学習するため、大量の初期の学習データを学習するよりも学習時間を短くすることができる。また、評価装置1は、過検知データのみを学習するため、精度良い学習を実行できる。
そして、学習データ用VAEモデル111は、初期段階において、正常な学習データを精度よく学習したものであり(図4の(1a)参照)、過去に初期の学習データDsから作成済みのものである(図4の(1b)参照)。この学習データ用VAEモデル111は、通常時の正常な通信データに対し、低いアノマリスコアを示す(図5参照)。そして、過検知用VAEモデル112は、過検知データを精度よく学習したものであり、過検知データに対し、低いアノマリスコアを示す(図6参照)。
評価部123は、学習データ用VAEモデル111と過検知用VAEモデル112とを用いて評価対象の通信データの確率密度を推定し、推定した確率密度を基に評価対象の通信データの異常の有無を評価する。評価部123は、学習データ用VAEモデル111を適用して推定した確率密度と、過検知用VAEモデル112を適用して推定した確率密度とを結合した確率密度を基に評価対象の通信データの異常の有無を評価する。評価部123は、結合した確率密度が所定値よりも低い場合に、評価対象の通信データが異常であることを検知し、外部の対処装置等に通信データの異常発生を通知する。評価部123は、結合部124と、異常有無評価部126とを有する。
結合部124は、例えば、学習データ用VAEモデル111のモデルパラメータが適用される第1VAE1251と、過検知用VAEモデル112のモデルパラメータが適用される第2VAE1252とを有する。結合部124は、学習データ用VAEモデル111を適用して推定した確率密度と、過検知用VAEモデル112を適用して推定した確率密度とを結合する。
結合部124は、過検知用VAEモデル112が過検知データのフィードバックによって生成或いは更新された場合、過検知用VAEモデル112と学習データ用VAEモデル111とをモデルレベルで結合する。モデルレベルでの結合とは、各々のVAEモデルのアウトプットであるスコアを、以下の(1)式に基づいて結合することを示す。言い換えると、結合部124は、学習データ用VAEモデル111を適用した第1VAE1251が推定したアノマリスコアと、過検知用VAEモデル112を適用して第2VAE1252が推定したアノマリスコアとを、(1)式に適用して、結合アノマリスコアを計算する。
Figure 0006767434
(1)式において、scoreは、初期の学習データDsを学習した学習データ用VAEモデル111を適用した第1VAE1251が出力するアノマリスコアである。scoreodは、過検知データDeを学習した過検知用VAEモデル112を適用した第2VAE1252が出力するアノマリスコアである。scoreconcatは、結合アノマリスコアである。また、Nは、学習データの件数である。Nodは、過検知データの件数である。
異常有無評価部126は、結合部124によって結合された確率密度を基に評価対象の通信データの異常の有無を評価する。異常有無評価部126は、結合部124によって計算された結合アノマリスコアを基に、評価対象の通信データの異常の有無を検知する。具体的には、異常有無評価部126は、結合アノマリスコアが所定値よりも高い場合に、評価対象の通信データが異常であると評価する。また、異常有無評価部126は、結合アノマリスコアが所定値以下である場合に、評価対象の通信データが正常であると評価する。
図7は、図1に示す評価部123の処理を説明する図である。評価部123は、学習済みの学習データ用VAEモデル111と過検知用VAEモデル112とをインプットして(矢印Y1,Y2参照)、ネットワークから得られた評価用の通信データ(評価データ)Dtを評価する。この際、評価部123は、評価データDtに対して第1VAE1251が出力するアノマリスコアと、評価データDtに対して第2VAE1252が出力するアノマリスコアとを(1)式に適用することによって、結合アノマリスコアを得る。そして、評価部123は、結合アノマリスコアが、所定値よりも高い場合には、評価対象の通信データが異常であると評価し、その評価結果Drを対処装置等に出力する。
[初期の学習処理]
次に、評価装置1が初期段階に行う学習処理について説明する。図8は、図1に示す評価装置1が初期段階に行う学習処理の処理手順を示すフローチャートである。
図8に示すように、モデル生成部121は、初期段階において、初期モデルである学習データ用VAEモデル111の生成指示を受けると(ステップS1)、初期の学習データの入力を受け付ける(ステップS2)。そして、モデル生成部121は、この初期の学習データを学習し、学習データ用VAEモデル111を生成する(ステップS3)。モデル生成部121は、生成した学習データ用VAEモデル111のモデルパラメータを記憶部11に格納する。
[評価処理]
次に、評価装置1の評価処理について説明する。図9は、図1に示す評価装置1が行う評価処理の処理手順を示すフローチャートである。
図9に示すように、受付部120が評価データの入力を受け付けると(ステップS11)、評価部123は、学習済みのモデルを適用して(ステップS12)、評価対象データの確率密度を推定する(ステップS13)。
ここで、過検知データのフィードバック前の場合、記憶部11には学習データ用VAEモデル111のみが格納されている。この場合には、評価部123は、学習データ用VAEモデル111を第1VAEに適用して、評価データの確率密度を推定する。また、過検知データがフィードバック済みである場合、記憶部11には学習データ用VAEモデル111と、過検知用VAEモデル112との双方が格納されている。この場合には、評価部123は、学習データ用VAEモデル111を第1VAE1251に適用し、過検知用VAEモデル112を第2VAE1252を適用し、それぞれのVAEにおいて、評価データの確率密度を推定する。
続いて、評価部123は、学習データ用VAEモデル111を適用して推定した確率密度と、過検知用VAEモデル112を適用して推定した確率密度とを結合した確率密度を計算する(ステップS14)。具体的には、評価部123では、結合部124が、学習データ用VAEモデル111を適用した第1VAE1251が推定したアノマリスコアと、過検知用VAEモデル112を適用して第2VAE1252が推定したアノマリスコアとを、(1)式に適用して、結合アノマリスコアを計算する。
そして、評価部123では、異常有無評価部126が、ステップS14において計算された確率密度を基に、評価対象の通信データの異常の有無を評価し、評価結果を出力する(ステップS15)。異常有無評価部126は、結合部124によって計算された結合アノマリスコアが所定値よりも高い場合に、評価対象の通信データが異常であると評価する。
続いて、制御部12は、過検知データ学習指示を受けたか否かを判定する(ステップS16)。例えば、管理者は、評価部123から出力された検知結果を分析し、異常であると検知されたが実際には正常である通信データがある場合には、この通信データを過検知データとして分類する。そして、管理者は、所定数の過検知データを収集した際に、評価装置1に、収集した過検知データをフィードバックし、この過検知データの学習を指示する。或いは、外部装置において、評価部123から出力された検知結果が分析され、過検知データとして分類された通信データが所定数蓄積された際に、外部装置から、学習対象の過検知データがフィードバックされるとともに過検知データの学習指示が入力される。
制御部12は、過検知データの学習指示を受けたと判定した場合(ステップS16:Yes)、受付部120は、学習対象の過検知データの入力を受け付ける(ステップS17)。続いて、モデル生成部121は、入力された過検知データを学習し、過検知用VAEモデル112を新たに生成する(ステップS18)。或いは、モデル生成部121は、フィードバックされた過検知データを学習し、過検知用VAEモデル112のモデルパラメータを更新する(ステップS18)。
制御部12は、過検知データ学習指示を受けていないと判定した場合(ステップS16:No)、または、ステップS18の処理終了後、評価処理の終了指示を受けたか否かを判定する(ステップS19)。制御部12は、評価処理の終了指示を受けていないと判定した場合(ステップS19:No)、ステップS11に戻り、次の評価データの入力を受け付ける。制御部12は、評価処理の終了指示を受けたと判定した場合(ステップS19:Yes)、評価処理を終了する。
[実施例]
例えば、本実施の形態に係る評価装置1は、IoT機器の異常検知に適用することができる。図10は、実施の形態に係る評価装置1の適用例を説明する図である。図10に示すように、複数のIoT機器2が接続されたネットワーク3上に、評価装置1を設ける。この場合、評価装置1は、IoT機器2が送受信するトラフィックセッション情報を収集し、正常トラフィックセッションの確率密度の学習、及び、異常トラフィックセッションの検知を行う。
評価装置1では、モデル生成部121が、学習対象となる初期学習用データセットや過検知データセットを受け取り、受け取ったデータセットを学習した学習済みモデルを記憶部11に格納する。
図11は、図1に示す評価部123の処理の他の例を説明する図である。評価部123では、結合部124が、一つまたは複数の学習済みモデルのモデルパラメータを受け取り、各学習済みモデルを適用した各VAEが推定したアノマリスコアを結合する。結合部124のVAEは、入力された評価データ一つ一つに対する推定結果を出力する機能を持つ。図1では、結合部124は、VAEを2つ有する構成を例に説明したが、これに限らない。結合部124は、適用されるモデルの数量と同数のVAEを有する構成でもよい。或いは、結合部124は、1つのVAEに、順次学習済みモデルを適用して、各学習済みモデルを用いて推定された各アノマリスコアを取得してもよい。
ここで、結合部124に適用する学習済みモデルは、初期の学習データを学習した学習データ用VAEモデル111でもよいし、過検知データを学習した過検知用VAEモデル112でもよい。また、結合部124には、それぞれ異なる学習データを学習した複数の学習データ用VAEモデル111−1,111−2を適用してもよい(矢印Y11参照)。もちろん、結合部124には、一つの学習データ用VAEモデルのみを適用してもよい。
そして、結合部124には、それぞれ異なる過検知データを学習した複数の過検知用VAEモデル112−1,112−2を適用してもよい(矢印Y12参照)。もちろん、過検知データフィードバック前であれば、過検知用VAEモデルが生成されていないため、過検知用VAEモデルを結合部124に適用しなくてもよい。また、前述のように、結合部124に、一つの過検知用VAEモデルのみ適用してもよい。
結合部124は、複数のモデルが適用された場合、適用された複数のモデルによるアノマリスコアを以下の式(2)に基づいて結合する。
Figure 0006767434
ここで、scoreは、k番目のモデルが出力したスコアであり、Nは、k番目のモデルが学習したデータの件数である。言い換えると、異常有無評価部126が、評価データについて評価を行う際には、(2)式の値を結合アノマリスコアとして得る。このように、結合部122は、2以上のモデルをモデルレベルで結合することも可能である。
以上のように、評価装置1では、初期学習に際しては、モデル生成部121に初期の学習用データをインプットして学習データ用VAEモデル111を得る。そして、評価装置1は、評価処理の過程において、いくつかの過検知が発覚するまでは、結合部124に学習データ用VAEモデル111のみをインプットし、ネットワークから得られたトラフィック情報を順次評価し続けてゆく。
そして、評価装置1では、過検知が発覚した場合に、過検知データのデータセットをモデル生成部121に入力し、過検知データを学習した過検知用VAEモデル112を生成する。その後、評価装置1では、学習データ用VAEモデル111と過検知用VAEモデル112とを結合部124にインプットし、同様にネットワークから得られたトラフィック情報を順次評価し続ける。
評価装置1では、これらの過検知発覚、過検知データ学習、モデル結合の処理を順次繰り返すことによって、検知精度を改善し続ける。
[従来方法]
次に、従来の評価方法について説明する。図12は、従来の評価方法のフィードバック学習を説明する図である。図13及び図14は、従来の評価方法において用いられるモデルを説明する図である。
図12に示すように、従来の評価方法では、過検知データのフィードバック学習時において、フィードバックされた少量の過検知データに加え、大量の初期学習データの双方を学習していた。この結果、従来の評価方法では、VAEモデルは、大量の初期学習データを精度よく学習できるものの(図12の(1a)参照)、少量の過検知データを無視して学習を行っていた(図12の(1b)参照)。
したがって、従来のVAEモデルは、評価時において、大量の学習データに相当する通信データに対し、低いアノマリスコアを示す(図13参照)ものの、過検知データに対し、高いアノマリスコアを示すままであった(図14参照)。このように、従来の評価方法では、データ数に偏りがあるため、過検知データを精度よく学習できていなかった。さらに、従来の評価方法では、過検知データのフィードバック学習のために、大量の初期学習データを保存しておく必要があり、また、新規にVAEモデルを生成し直すため、初期学習時以上の時間が必要となっていた。
[評価実験]
そこで、実際のIoT機器間のトラフィックセッションデータに対し、従来の評価方法と、本実施の形態に係る評価方法とを用いてそれぞれ評価を行った結果を示す。学習データは、カメラ通信(369データ)であり、過検知データは、SSH通信(10データ)である。
初期学習として、カメラ通信を学習してVAEモデルを生成した場合の評価結果について説明する。すなわち、過検知データのフィードバック前であり、初期の学習データであるカメラ通信のみを学習したVAEモデルを用いて評価を行った結果である。この場合、学習データの平均スコアは、-25.2625となる。過検知データは学習していないので、過検知データの平均スコアは268.530と高いスコアとなる。そして、学習に要した時間は13.452(sec)である。
続いて、従来の評価方法を用いて過検知データをフィードバック学習した後の評価結果について説明する。この場合、学習データの平均スコアは、-16.3808となる。過検知データの平均スコアは、過検知データフィードバック前と比して多少は改善するものの、44.6441と依然高いスコアを示し、精度は低いままである。そして、再学習に要した時間は、14.157(sec)であり、初期学習時よりも長くなる。
これに対し、本実施の形態に係る評価方法を用いて、過検知データをフィードバック学習した後の評価結果について説明する。この場合には、学習データの平均スコアは、-25.2625である。そして、過検知データの平均スコアは、従来の評価方法と比して、-24.0182と大幅に改善される。さらに、再学習に要した時間は、従来の評価方法と比して、3.937(sec)と大幅に短縮される。
[実施の形態の効果]
このように、本実施の形態では、正常な学習データを学習した学習データ用VAEモデルと、過検知データを学習した過検知用VAEモデルとを用いて、評価データの確率密度を推定し、推定した確率密度を基に評価データの異常の有無を評価する。すなわち、本実施の形態では、正常な学習データを学習した学習データ用VAEモデルとは別に、過検知データのみをフィードバック学習した過検知用VAEモデルとを生成し、生成した2つのVAEモデルが推定した確率密度を結合して得られた確率密度を基に評価を行う。
従来の評価方法では、過検知データを精度よく学習できない上に、過検知データのフィードバック学習のために大量の初期学習データを保存しておく必要があり、新規にVAEモデルを生成し直すため、初期学習時以上の時間が必要となっていた。
これに対し、本実施の形態に係る評価装置1では、過検知データのフィードバック学習のために初期の学習データDsの件数のみを保存しておけばよい。そして、評価装置1では、前述の評価実験結果でも示したように、評価処理の過程においては、少量の過検知データのみを学習すればよく、大量の初期の学習データを学習するよりも学習時間を格段に短くすることができる。また、評価装置1では、前述の評価実験結果でも示したように、過検知データと学習データとの間に数の偏りがあったとしても、過検知データを高精度で評価することができる。
したがって、本実施の形態によれば、少量の過検知データを効率的にフィードバックし、過検知データの発生を低減して、通信データの異常有無の評価を高精度に実行することができる。
[システム構成等]
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
図15は、プログラムが実行されることにより、評価装置1が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS(Operating System)1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、評価装置1の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、評価装置1における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。
1 評価装置
2 IoT機器
3 ネットワーク
10 通信部
11 記憶部
12 制御部
111 学習データ用VAEモデル
112 過検知用VAEモデル
120 受付部
121 モデル生成部
122 VAE
123 評価部
124 結合部
1251 第1VAE
1252 第2VAE
126 異常有無評価部

Claims (3)

  1. 評価対象の通信データの入力を受け付ける受付部と、
    正常な初期学習データの確率密度の特徴を学習した第1のモデルと、評価処理の過程において異常と検知された正常な過検知データの確率密度の特徴を学習した第2のモデルとを用いて前記評価対象の通信データの確率密度を推定し、推定した確率密度を基に前記評価対象の通信データの異常の有無を評価する評価部と、
    を有することを特徴とする評価装置。
  2. 前記正常な初期学習データが入力された場合に前記正常な初期学習データの確率密度の特徴を学習して前記第1のモデルを生成し、前記評価処理の過程にて収集された前記過検知データが入力された場合に前記過検知データの確率密度の特徴を学習して前記第2のモデルを生成する生成部をさらに有し、
    前記評価部は、前記第1のモデルを適用して推定した確率密度と、前記第2のモデルを適用して推定した確率密度とを結合した確率密度を基に前記評価対象の通信データの異常の有無を評価することを特徴とする請求項1に記載の評価装置。
  3. 評価装置によって実行される評価方法であって、
    評価対象の通信データの入力を受け付ける工程と、
    正常な初期学習データの確率密度の特徴を学習した第1のモデルと、評価処理の過程において異常と検知された正常な過検知データの確率密度の特徴を学習した第2のモデルとを用いて前記評価対象の通信データの確率密度を推定し、推定した確率密度を基に前記評価対象の通信データの異常の有無を評価する工程と、
    を含んだことを特徴とする評価方法。
JP2018117456A 2018-06-20 2018-06-20 評価装置及び評価方法 Active JP6767434B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2018117456A JP6767434B2 (ja) 2018-06-20 2018-06-20 評価装置及び評価方法
US17/252,751 US20210256402A1 (en) 2018-06-20 2019-06-18 Evaluation device and evaluation method
EP19823058.3A EP3796599B1 (en) 2018-06-20 2019-06-18 Evaluation device and evaluation method
PCT/JP2019/024167 WO2019244902A1 (ja) 2018-06-20 2019-06-18 評価装置及び評価方法
CN201980040020.2A CN112425123B (zh) 2018-06-20 2019-06-18 评价装置和评价方法
AU2019288014A AU2019288014B2 (en) 2018-06-20 2019-06-18 Evaluation device and evaluation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018117456A JP6767434B2 (ja) 2018-06-20 2018-06-20 評価装置及び評価方法

Publications (2)

Publication Number Publication Date
JP2019220866A JP2019220866A (ja) 2019-12-26
JP6767434B2 true JP6767434B2 (ja) 2020-10-14

Family

ID=68984033

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018117456A Active JP6767434B2 (ja) 2018-06-20 2018-06-20 評価装置及び評価方法

Country Status (6)

Country Link
US (1) US20210256402A1 (ja)
EP (1) EP3796599B1 (ja)
JP (1) JP6767434B2 (ja)
CN (1) CN112425123B (ja)
AU (1) AU2019288014B2 (ja)
WO (1) WO2019244902A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3839781A4 (en) * 2018-10-02 2022-04-06 Nippon Telegraph And Telephone Corporation CALCULATION DEVICE, METHOD AND PROGRAM
WO2021149225A1 (ja) * 2020-01-23 2021-07-29 三菱電機株式会社 モデル生成装置、モデル生成方法及びモデル生成プログラム
EP4216113A4 (en) 2020-09-18 2024-06-05 Nippon Telegraph & Telephone ASSESSMENT DEVICE, ASSESSMENT PROCEDURE AND ASSESSMENT PROGRAM

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4668092B2 (ja) * 2006-03-03 2011-04-13 三菱電機株式会社 学習能力評価装置、学習能力評価方法及び学習能力評価プログラム
JP2009070071A (ja) * 2007-09-12 2009-04-02 Toshiba Corp 学習型プロセス異常診断装置、およびオペレータ判断推測結果収集装置
JP4940220B2 (ja) * 2008-10-15 2012-05-30 株式会社東芝 異常動作検出装置及びプログラム
CN102814340B (zh) * 2011-06-08 2014-07-09 鞍钢股份有限公司 热轧带钢宽度控制模型智能学习系统及自学习方法
JP2015026252A (ja) * 2013-07-26 2015-02-05 株式会社豊田中央研究所 異常検知装置及びプログラム
JP6740247B2 (ja) * 2015-12-01 2020-08-12 株式会社Preferred Networks 異常検出システム、異常検出方法、異常検出プログラム及び学習済モデル生成方法
CN106790008B (zh) * 2016-12-13 2018-08-24 浙江中都信息技术有限公司 用于在企业网络中检测异常主机的机器学习系统
US10635565B2 (en) * 2017-10-04 2020-04-28 Servicenow, Inc. Systems and methods for robust anomaly detection

Also Published As

Publication number Publication date
EP3796599B1 (en) 2023-10-04
EP3796599A4 (en) 2022-03-16
AU2019288014B2 (en) 2022-03-17
EP3796599A1 (en) 2021-03-24
AU2019288014A1 (en) 2021-01-14
WO2019244902A1 (ja) 2019-12-26
CN112425123A (zh) 2021-02-26
US20210256402A1 (en) 2021-08-19
CN112425123B (zh) 2023-10-27
JP2019220866A (ja) 2019-12-26

Similar Documents

Publication Publication Date Title
JP6099793B2 (ja) 1つ以上の画像処理アルゴリズムの自動選択のための方法およびシステム
JP6767434B2 (ja) 評価装置及び評価方法
Ramaki et al. RTECA: Real time episode correlation algorithm for multi-step attack scenarios detection
JP6691094B2 (ja) 学習装置、検知システム、学習方法及び学習プログラム
JP6823501B2 (ja) 異常検知装置、異常検知方法及びプログラム
US11757931B2 (en) Detection of brute force attacks
US20200145435A1 (en) Suspicious packet detection device and suspicious packet detection method thereof
JP6751168B2 (ja) 異常要因推定装置、異常要因推定方法及びプログラム
WO2017019391A1 (en) Graph-based intrusion detection using process traces
CN114021140B (zh) 网络安全态势的预测方法、装置及计算机可读存储介质
US20230018908A1 (en) Feedback-based control system for software defined networks
JP2019102011A (ja) 学習装置、学習方法及び学習プログラム
WO2020129610A1 (ja) 検知装置、検知方法、および、検知プログラム
US11743105B2 (en) Extracting and tagging text about networking entities from human readable textual data sources and using tagged text to build graph of nodes including networking entities
CN112437022B (zh) 网络流量识别方法、设备及计算机存储介质
Yu-Ting et al. Real-time risk assessment based on hidden Markov model and security configuration
CN107251519B (zh) 用于检测通信网络上的假信息的攻击的系统、方法和介质
US20230195962A1 (en) Model construction apparatus, estimation apparatus, model construction method, estimation method and program
JP2022097617A (ja) 異常判定システム、異常判定方法及びプログラム
JP6781776B2 (ja) 特徴量生成装置、特徴量生成方法及びプログラム
JP7302660B2 (ja) 学習装置、検知システム、学習方法及び学習プログラム
US20220374780A1 (en) Training device, training method, and training program
US20230334361A1 (en) Training device, training method, and training program
WO2022059207A1 (ja) 判定装置、判定方法及び判定プログラム
CN112989336A (zh) 云平台内主机挖矿行为检测方法、装置和系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200915

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200917

R150 Certificate of patent or registration of utility model

Ref document number: 6767434

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150