JP7444271B2

JP7444271B2 - 学習装置、学習方法及び学習プログラム

Info

Publication number: JP7444271B2
Application number: JP2022550324A
Authority: JP
Inventors: 友貴山中
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2024-03-06
Anticipated expiration: 2040-09-18
Also published as: EP4202800A4; JPWO2022059208A1; AU2020468806B2; AU2020468806A1; AU2020468806A9; CN116113960A; US20230334361A1; EP4202800A1; WO2022059208A1

Description

本発明は、学習装置、学習方法及び学習プログラムに関する。

ＩｏＴ時代の到来に伴い、多種のデバイスが多様な使われ方の下でインターネットに接続されている。これらのＩｏＴデバイスのセキュリティ対策のため、ＩｏＴ機器向けのトラフィックセッション異常検知システムや侵入検知システム（ＩＤＳ）が、昨今盛んに研究されている。

このような異常検知システムの中には、Variational Auto Encoder（ＶＡＥ）等の教師なし学習による確率密度推定器を用いるものがある。確率密度推定器を用いた異常検知システムは、実際の通信からトラフィック特徴量と呼ばれる学習用の高次元データを生成し、この特徴量を用いて正常なトラフィックの特徴を学習することで、正常通信パターンの発生確率を推定できるようになる。なお、以降の説明では、確率密度推定器を単にモデルと呼ぶ場合がある。

その後、異常検知システムは、学習済みのモデルを用いて各通信の発生確率を算出し、発生確率の小さい通信を異常として検知する。このため、確率密度推定器を用いた異常検知システムによれば、全ての悪性状態を知らずとも異常検知が可能であり、さらに、未知のサイバー攻撃への対処も可能であるという利点もある。なお、異常検知システムにおいては、前述の発生確率が小さいほど大きくなるアノマリスコアが異常検知に用いられる場合がある。

ここで、ＶＡＥ等の確率密度推定器の学習は、学習対象の正常データ間で件数に偏りがある状況ではうまくいかないことが多い。特に、トラフィックセッションデータにおいては、件数に偏りがある状況がよく発生する。例えば、ＨＴＴＰ通信はよく使われるため、データが短時間で大量に集まる。一方で、稀にしか通信を行わないＮＴＰ通信等のデータを大量に集めるのは困難である。このような状況でＶＡＥ等の確率密度推定器による学習を行うと、データの件数が少ないＮＴＰ通信の学習がうまくいかず、発生確率を低く見積もってしまい、誤検知の原因になってしまうことがある。

このようなデータ件数の偏りによって発生する問題を解決する方法として、確率密度推定器の学習を２段階で行う方法が知られている（例えば、特許文献１を参照）。

特開２０１９－１０１９８２号公報

しかしながら、従来の技術には、処理時間が増大する場合があるという問題がある。例えば、特許文献１に記載の方法では、確率密度推器の学習が２段階で行われるため、１段階の場合と比べて学習時間が２倍程度長くかかってしまう。

上述した課題を解決し、目的を達成するために、学習装置は、学習用のデータのうち未学習のデータとして選択されたデータを学習し、アノマリスコアを計算するモデルを生成する生成部と、前記学習用のデータのうち、前記生成部によって生成されたモデルによって計算されたアノマリスコアが閾値以上であるデータの少なくとも一部を前記未学習のデータとして選択する選択部と、を有することを特徴とする。

本発明によれば、正常データ間の件数に偏りがある場合であっても、短時間で精度良く学習を行うことができる。

図１は、学習処理の流れを説明する図である。図２は、第１の実施形態に係る学習装置の構成例を示す図である。図３は、未学習のデータの選択について説明する図である。図４は、第１の実施形態に係る学習装置の処理の流れを示すフローチャートである。図５は、アノマリスコアの分布を示す図である。図６は、アノマリスコアの分布を示す図である。図７は、アノマリスコアの分布を示す図である。図８は、ＲＯＣ曲線を示す図である。図９は、異常検知システムの構成例を示す図である。図１０は、学習プログラムを実行するコンピュータの一例を示す図である。

以下に、本願に係る学習装置、学習方法及び学習プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。

［第１の実施形態の構成］
まず、図１を用いて、本実施形態の学習処理の流れを説明する。図１は、学習処理の流れを説明する図である。図１に示すように、本実施形態の学習装置は、終了条件が満たされるまで、ＳＴＥＰ１とＳＴＥＰ２を繰り返す。これにより、学習装置は複数のモデルを生成する。また、生成されたモデルはリストに追加されていくものとする。

最初は、収集された学習用のデータは全て未学習のデータと見なされるものとする。ＳＴＥＰ１では、学習装置は、未学習のデータから所定の数のデータをランダムにサンプリングする。そして、学習装置は、サンプリングしたデータからモデルを生成する。例えば、モデルはＶＡＥ等の確率密度推定器である。

続いて、ＳＴＥＰ２では、学習装置は、生成したモデルを用いて、未学習のデータ全体のアノマリスコアを計算する。そして、学習装置は、アノマリスコアが閾値以下であったデータを学習済みのデータとして選択する。一方、学習装置は、アノマリスコアが閾値以上であったデータを未学習のデータとして選択する。ここで、終了条件が満たされていなければ、学習装置はＳＴＥＰ１に戻る。

２回目以降のＳＴＥＰ１では、ＳＴＥＰ２でアノマリスコアが閾値以上であったデータが未学習のデータとみなされることになる。このように、本実施形態では、サンプリングと評価（アノマリスコアの計算及び未学習のデータの選択）が繰り返され、未学習のデータの中で支配的なタイプのデータが逐次学習される。

また、本実施形態では、サンプリングをすること、及び未学習のデータを絞り込んでいくことにより学習対象のデータは減っていくので、学習に要する時間を短くすることができる。

学習装置の構成について説明する。図２は、第１の実施形態に係る学習装置の構成例を示す図である。図２に示すように、学習装置１０は、ＩＦ（インタフェース）部１１、記憶部１２及び制御部１３を有する。

ＩＦ部１１は、データの入力及び出力のためのインタフェースである。例えば、ＩＦ部１１はＮＩＣ（Network Interface Card）である。また、ＩＦ部１１は、マウスやキーボード等の入力装置、及びディスプレイ等の出力装置と接続されていてもよい。

記憶部１２は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、光ディスク等の記憶装置である。なお、記憶部１２は、ＲＡＭ（Random Access Memory）、フラッシュメモリ、ＮＶＳＲＡＭ（Non Volatile Static Random Access Memory）等のデータを書き換え可能な半導体メモリであってもよい。記憶部１２は、学習装置１０で実行されるＯＳ（Operating System）や各種プログラムを記憶する。

制御部１３は、学習装置１０全体を制御する。制御部１３は、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）等の電子回路や、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）等の集積回路である。また、制御部１３は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部１３は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部１３は、生成部１３１、計算部１３２及び選択部１３３を有する。

生成部１３１は、学習用のデータのうち未学習のデータとして選択されたデータを学習し、アノマリスコアを計算するモデルを生成する。生成部１３１は、生成したモデルをリストに追加する。生成部１３１は、既存のＶＡＥの生成手法を採用することができる。また、生成部１３１は、未学習のデータの一部をサンプリングして得られたデータを基にモデルを生成してもよい。

計算部１３２は、生成部１３１によって生成されたモデルにより、未学習のデータのアノマリスコアを計算する。計算部１３２は、未学習のデータ全体のアノマリスコアを計算してもよいし、未学習のデータの一部のアノマリスコアを計算してもよい。

選択部１３３は、学習用のデータのうち、生成部１３１によって生成されたモデルによって計算されたアノマリスコアが閾値以上であるデータの少なくとも一部を未学習のデータとして選択する。

図３を用いて、選択部１３３による未学習データの選択について説明する。図３は、未学習のデータの選択について説明する図である。ここでは、モデルはＶＡＥであり、異常通信を検知するために通信データのアノマリスコアを計算するものとする。

前述の通り、データ数に偏りがある状況下だと誤検知が発生してしまうことが多い。例えば、大量のＨＴＴＰ通信と少量の管理用ＦＴＰ通信を同時に学習対象とするような場合にデータ数の偏りが発生する。

図３の＜１回目＞に示すように、ここでは大量のＭＱＴＴ通信のデータ、中程度の量のＤＮＳ通信等のデータ、少量のカメラ通信のデータが存在する状況を想定する。図３のグラフは、横軸に確率密度の負の対数尤度（－ｌｏｇｐ（ｘ））の近似値であるアノマリスコア、縦軸にデータ数のヒストグラムを描いたものである。確率密度の負の対数尤度は、データ点の密度（出現頻度）が低ければ低いほど高い値をとるため、アノマリスコア、すなわち異常の度合いとみなすことができる。

図３の＜１回目＞に示すように、データ数が多いＭＱＴＴ通信のアノマリスコアは低くなり、データ数が少ないカメラストリーミング通信のアノマリスコアは高くなる。このため、データ数が少ないカメラ通信のデータは、誤検知の原因になっていることが考えられる。

そこで、選択部１３３は、アノマリスコアが閾値以上であるデータの中から未学習のデータを選択する。そして、当該選択された未学習のデータの一部又は全部を使って、誤検知を抑えたモデルが生成される。言い換えると、選択部１３３は、さらなる学習が不要なデータを除外する機能を有している。

閾値は、モデルの生成時に得られたLoss値を基に決められてもよい。その場合、選択部１３３は、学習用のデータのうち、生成部１３１によって生成されたモデルによって計算されたアノマリスコアが、モデルの生成時に得られる各データのLoss値を基に計算された閾値以上であるデータの少なくとも一部を、未学習のデータとして選択する。例えば、閾値は、Loss値の平均＋０．３σのように、平均値や分散を基に計算されるものであってもよい。

図３の＜２回目＞に示すように、選択部１３３は、＜１回目＞において計算されたアノマリスコアを基に、ＤＮＳ通信のデータ及びカメラ通信のデータを中心に選択する。逆に、選択部１３３は、データ数が多かったＭＱＴＴ通信のデータはほぼ選択しないことになる。

また、学習装置１０は、生成部１３１、計算部１３２及び選択部１３３による各処理を３回目以降も繰り返すことができる。つまり、生成部１３１は、選択部１３３によって未学習のデータとしてデータが選択されるたびに、当該選択されたデータを学習し、アノマリスコアを計算するモデルを生成する。そして、選択部１３３は、生成部１３１によってモデルが生成されるたびに、当該生成されたモデルによって計算されたアノマリスコアが閾値以上であるデータの少なくとも一部を未学習のデータとして選択する。

また、学習装置１０は、アノマリスコアが閾値以上となるデータの数が所定の値未満になった時点で繰り返しを終了してもよい。言い換えると、選択部１３３は、学習用のデータのうち、生成部１３１によって生成されたモデルによって計算されたアノマリスコアが閾値以上であるデータの数が所定の条件を満たす場合、当該アノマリスコアが閾値以上であるデータの少なくとも一部を未学習のデータとして選択する。

例えば、学習装置１０は、アノマリスコアが閾値以上であるデータの数が、最初に収集された学習用のデータの数の１％未満になるまで処理を繰り返してもよい。また、繰り返しのたびにモデルが生成され、リストに追加されていくため、学習装置１０は複数のモデルを出力することができる。

学習装置１０によって生成された複数のモデルは、検知装置等において異常検知に使用される。複数のモデルを使った異常検知については、特許文献１に記載の方法により行われてもよい。すなわち、検知装置は、複数のモデルによって計算されたアノマリスコアのマージ値、又は最小値により異常を検知することができる。

［第１の実施形態の処理］
図４は、第１の実施形態に係る学習装置の処理の流れを示すフローチャートである。まず、学習装置１０は、未学習のデータの一部をサンプリングする（ステップＳ１０１）。次に、学習装置１０は、サンプリングしたデータを基にモデルを生成する（ステップＳ１０２）。

ここで、終了条件が満たされている場合（ステップＳ１０３、Ｙｅｓ）、学習装置１０は処理を終了する。一方、終了条件が満たされていない場合（ステップＳ１０３、Ｎｏ）、学習装置１０は生成したモデルにより未学習のデータ全体のアノマリスコアを計算する（ステップＳ１０４）。

学習装置１０は、アノマリスコアが閾値以上のデータを未学習のデータとして選択し（ステップＳ１０５）、ステップＳ１０１に戻り処理を繰り返す。なお、ステップＳ１０５が実行される直前に、未学習のデータの選択は一旦初期化される。つまり、ステップＳ１０５では、学習装置１０は、未学習のデータが１つも選択されていない状態で、アノマリスコアを参照して新たに未学習のデータの選択を行うことになる。

［第１の実施形態の効果］
これまで説明してきたように、生成部１３１は、学習用のデータのうち未学習のデータとして選択されたデータを学習し、アノマリスコアを計算するモデルを生成する。選択部１３３は、学習用のデータのうち、生成部１３１によって生成されたモデルによって計算されたアノマリスコアが閾値以上であるデータの少なくとも一部を未学習のデータとして選択する。このように、学習装置１０は、モデルを生成した後に、誤検知の原因になりやすいデータを選択し、モデルを再度生成することができる。その結果、本実施形態によれば、正常データ間の件数に偏りがある場合であっても、短時間で精度良く学習を行うことができる。

生成部１３１は、選択部１３３によって未学習のデータとしてデータが選択されるたびに、当該選択されたデータを学習し、アノマリスコアを計算するモデルを生成する。選択部１３３は、生成部１３１によってモデルが生成されるたびに、当該生成されたモデルによって計算されたアノマリスコアが閾値以上であるデータの少なくとも一部を未学習のデータとして選択する。本実施形態では、このように処理を繰り返すことにより複数のモデルを生成し、異常検知の精度を向上させていくことができる。

選択部１３３は、学習用のデータのうち、生成部１３１によって生成されたモデルによって計算されたアノマリスコアが、モデルの生成時に得られる各データのLoss値を基に計算された閾値以上であるデータの少なくとも一部を、未学習のデータとして選択する。これにより、アノマリスコアの偏りの度合いに応じた閾値を設定することができる。

選択部１３３は、学習用のデータのうち、生成部１３１によって生成されたモデルによって計算されたアノマリスコアが閾値以上であるデータの数が所定の条件を満たす場合、当該アノマリスコアが閾値以上であるデータの少なくとも一部を未学習のデータとして選択する。このように、繰り返し処理の終了条件を設定しておくことで、異常検知の精度と学習に要する処理時間のバランスを調整することができる。

［実験結果］
本実施形態を使って行った実験の結果を示す。まず、実験においては、下記の通信が混ざったデータを用いて学習が行われた。
ＭＱＴＴ通信：１８８３ポート２０９５１件（多数データ）
カメラ通信：１９３５ポート２０４件（少数データ）
実験では、学習によってモデルを生成し、生成したモデルで各データのアノマリスコアを計算した。図５、図６及び図７は、アノマリスコアの分布を示す図である。

まず、従来のＶＡＥ（１段階ＶＡＥ）による学習の結果を図５に示す。図５の例では、学習に要した時間は２６８ｓｅｃであった。また、図５の例では、少数データであるカメラ通信のアノマリスコアがやや高めに計算されている。

特許文献１に記載の２段階ＶＡＥによる学習の結果を図６に示す。図６の例では、学習に要した時間は５７２ｓｅｃであった。また、図６の例では、図５の例と比べて、少数データであるカメラ通信のアノマリスコアが下がっている。

本実施形態による学習の結果を図７に示す。図７の例では、学習に要した時間は１９２ｓｅｃであった。また、図７に示すように、本実施形態では、カメラ通信のアノマリスコアが図６の２段階ＶＡＥの場合と同程度まで下がっており、さらに学習に要する時間が大幅に短縮されている。

図８は、ＲＯＣ曲線を示す図である。図８に示すように、本実施形態は、１段階ＶＡＥ及び２段階ＶＡＥと比べて理想的なＲＯＣ曲線を示している。また、本実施形態による検知精度は、０．９９４９であった。また、２段階ＶＡＥによる検知精度は０．９６５２であった。また、１段階ＶＡＥによる検知精度は０．９２１６であった。これより、本実施形態によれば検知精度が向上するということができる。

［実施例］
図９に示すようにＩｏＴ機器が接続されたネットワーク上に備えられたサーバに、上記の実施形態における学習装置１０と同じモデル生成機能、及び学習装置１０によって生成されたモデルを使った異常検知機能を持たせてもよい。図９は、異常検知システムの構成例を示す図である。

この場合、サーバは、ＩｏＴ機器の送受信するトラフィックセッション情報を収集し、正常トラフィックセッションの確率密度の学習及び異常トラフィックセッションの検知を行う。サーバは、正常トラフィックセッションの確率密度の学習時には、実施形態の手法を適用し、セッションデータ数間に偏りがあっても精度良く、かつ高速に異常検知モデルの生成を行うことができるようになる。

［システム構成等］
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ（Central Processing Unit）及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。なお、プログラムは、ＣＰＵだけでなく、ＧＰＵ等の他のプロセッサによって実行されてもよい。

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
一実施形態として、学習装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理を実行する学習プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の学習プログラムを情報処理装置に実行させることにより、情報処理装置を学習装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）等の移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistant）等のスレート端末等がその範疇に含まれる。

また、学習装置１０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の学習処理に関するサービスを提供する学習サーバ装置として実装することもできる。例えば、学習サーバ装置は、学習用のデータを入力とし、生成済みの複数のモデルの情報を出力とする学習サービスを提供するサーバ装置として実装される。この場合、学習サーバ装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の学習処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

図１０は、学習プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ（Random Access Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（BASIC Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、学習装置１０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、学習装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した実施形態の処理を実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１０学習装置
１１ＩＦ部
１２記憶部
１３制御部
１３１生成部
１３２計算部
１３３選択部

Claims

学習用のデータのうち未学習のデータとして選択されたデータを学習し、アノマリスコアを計算するモデルを生成する生成部と、
前記学習用のデータのうち、前記生成部によって生成されたモデルによって計算されたアノマリスコアが、前記モデルの生成時に得られる各データのLoss値の平均値及び分散を基に計算された閾値以上であるデータの少なくとも一部を前記未学習のデータとして選択する選択部と、
を有することを特徴とする学習装置。
前記生成部は、前記選択部によって前記未学習のデータとしてデータが選択されるたびに、当該選択されたデータを学習し、アノマリスコアを計算するモデルを生成し、
前記選択部は、前記生成部によってモデルが生成されるたびに、当該生成されたモデルによって計算されたアノマリスコアが前記閾値以上であるデータの少なくとも一部を前記未学習のデータとして選択することを特徴とする請求項１に記載の学習装置。
前記選択部は、前記学習用のデータのうち、前記生成部によって生成されたモデルによって計算されたアノマリスコアが前記閾値以上であるデータの数が所定の条件を満たす場合、当該アノマリスコアが前記閾値以上であるデータの少なくとも一部を前記未学習のデータとして選択することを特徴とする請求項１又は２に記載の学習装置。
学習装置によって実行される学習方法であって、
学習用のデータのうち未学習のデータとして選択されたデータを学習し、アノマリスコアを計算するモデルを生成する生成工程と、
前記学習用のデータのうち、前記生成工程によって生成されたモデルによって計算されたアノマリスコアが、前記モデルの生成時に得られる各データのLoss値の平均値及び分散を基に計算された閾値以上であるデータの少なくとも一部を前記未学習のデータとして選択する選択工程と、
を含むことを特徴とする学習方法。
コンピュータを、請求項１から３のいずれか１項に記載の学習装置として機能させるための学習プログラム。