JP7491404B2

JP7491404B2 - 識別器生成装置、識別器生成方法および識別器生成プログラム

Info

Publication number: JP7491404B2
Application number: JP2022566525A
Authority: JP
Inventors: 駿飛山; 和憲神谷; 博胡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2024-05-28
Anticipated expiration: 2040-12-01
Also published as: JPWO2022118373A1; US20230419173A1; WO2022118373A1

Description

本発明は、識別器生成装置、識別器生成方法および識別器生成プログラムに関する。

従来、トラフィックを発生させたアプリケーションを識別する手法が知られている。このような手法として、トラフィックデータの一種であるパケットデータや、パケットデータの統計情報を記録したフローデータから特徴を抽出し、予め定められたルールに基づいてルールベースでアプリケーションを識別する手法が存在する（例えば、非特許文献１参照）。また、機械学習技術を用いてアプリケーションごとの特徴を学習、分類することでアプリケーション識別を行う手法が存在する（例えば、非特許文献２参照）。

BLINC: Multilevel Traffic Classification in the Dark、[online]、［2020年11月17日検索］、インターネット＜URL：https://www.researchgate.net/publication/221164762_BLINC_Multilevel_Traffic_Classification_in_the_Dark＞ Seq2Img: A Sequence-to-Image based Approach Towards IP Traffic Classification using Convolutional Neural Networks、[online]、［2020年11月17日検索］、インターネット＜https://ieeexplore.ieee.org/document/8258054＞ Unsupervised Learning via Meta-Learning、[online]、［2020年11月17日検索］、インターネット＜https://openreview.net/forum?id=r1My6sR9tX＞

しかしながら、従来の技術では、大規模ネットワークにおいて、アプリケーションレベルのトラフィック識別を迅速に行うことができなかった。なぜならば、従来手法では新種のアプリケーションに対応できず、また学習に必要な大量の教師データを用意することが難しいという課題があるからである。

例えば、新たなアプリケーションは日々出現しているが、ルールベースの技術ではこのような新しく出現したアプリケーションを識別することができない。また、教師あり機械学習を用いる技術では事前に大量の教師データを用意する必要があるが、フローデータにはＩＰ（Internet Protocol）アドレスやポート番号等の簡易な情報しか含まれないため、アプリケーションレベルのラベル付加は難しく精度も低い。そのため、識別したいアプリケーションの教師データが少ない場合でも対象アプリケーションを識別可能な技術が必要である。

上述した課題を解決し、目的を達成するために、本発明に係る識別器生成装置は、アプリケーションのフローデータを取得する取得部と、前記取得部により取得された前記フローデータから第１の特徴ベクトルを計算する計算部と、前記計算部により計算された前記第１の特徴ベクトルを、同種のアプリケーションの特徴ベクトルが類似するような第２の特徴ベクトルに変換する変換部と、前記変換部により変換された前記第２の特徴ベクトルをクラスタリングし、クラスタリングした前記第２の特徴ベクトルに疑似ラベルを付加する付加部と、前記付加部により疑似ラベルを付加された前記第２の特徴ベクトルから学習用データセットを生成する生成部と、前記生成部により生成された前記学習用データセットを識別器に提供する提供部と、前記提供部により前記学習用データセットを提供された前記識別器の設定を更新する更新部とを備えることを特徴とする。

また、本発明に係る識別器生成方法は、識別器生成装置によって実行される識別器生成方法であって、アプリケーションのフローデータを取得する取得工程と、前記取得工程により取得された前記フローデータから第１の特徴ベクトルを計算する計算工程と、前記計算工程により計算された前記第１の特徴ベクトルを、同種のアプリケーションの特徴ベクトルが類似するような第２の特徴ベクトルに変換する変換工程と、前記変換工程により変換された前記第２の特徴ベクトルをクラスタリングし、クラスタリングした前記第２の特徴ベクトルに疑似ラベルを付加する付加工程と、前記付加工程により疑似ラベルを付加された前記第２の特徴ベクトルから学習用データセットを生成する生成工程と、前記生成工程により生成された前記学習用データセットを識別器に提供する提供工程と、前記提供工程により前記学習用データセットを提供された前記識別器の設定を更新する更新工程とを含むことを特徴とする。

また、本発明に係る識別器生成プログラムは、アプリケーションのフローデータを取得する取得ステップと、前記取得ステップにより取得された前記フローデータから第１の特徴ベクトルを計算する計算ステップと、前記計算ステップにより計算された前記第１の特徴ベクトルを、同種のアプリケーションの特徴ベクトルが類似するような第２の特徴ベクトルに変換する変換ステップと、前記変換ステップにより変換された前記第２の特徴ベクトルをクラスタリングし、クラスタリングした前記第２の特徴ベクトルに疑似ラベルを付加する付加ステップと、前記付加ステップにより疑似ラベルを付加された前記第２の特徴ベクトルから学習用データセットを生成する生成ステップと、前記生成ステップにより生成された前記学習用データセットを識別器に提供する提供ステップと、前記提供ステップにより前記学習用データセットを提供された前記識別器の設定を更新する更新ステップとをコンピュータに実行させることを特徴とする。

本発明は、大規模ネットワークにおいて、アプリケーションレベルのトラフィック識別を迅速に行うことができる。

図１は、第１の実施形態に係る識別器生成装置の構成例を示すブロック図である。図２は、第１の実施形態に係る識別器生成装置の利用例を示す図である。図３は、第１の実施形態に係る識別器生成装置の利用例を示す図である。図４は、第１の実施形態に係る識別器生成処理の流れの一例を示すフローチャートである。図５は、プログラムを実行するコンピュータを示す図である。

以下に、本発明に係る識別器生成装置、識別器生成方法および識別器生成プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。

〔第１の実施形態〕
以下に、本実施形態に係る識別器生成装置の構成、識別器生成装置の利用例、識別器生成処理の流れを順に説明し、最後に本実施形態の効果を説明する。

［識別器生成装置の構成］
図１を用いて、本実施形態に係る識別器生成装置１０の構成を詳細に説明する。図１は、本実施形態に係る識別器生成装置の構成例を示すブロック図である。識別器生成装置１０は、入力部１１、出力部１２、通信部１３、記憶部１４および制御部１５を有する。

入力部１１は、当該識別器生成装置１０への各種情報の入力を司る。入力部１１は、例えば、マウスやキーボード等であり、当該識別器生成装置１０への設定情報等の入力を受け付ける。また、出力部１２は、当該識別器生成装置１０からの各種情報の出力を司る。出力部１２は、例えば、ディスプレイ等であり、当該識別器生成装置１０に記憶された設定情報等を出力する。

通信部１３は、他の装置との間でのデータ通信を司る。例えば、通信部１３は、各通信装置との間でデータ通信を行う。また、通信部１３は、図示しないオペレータの端末との間でデータ通信を行うことができる。

記憶部１４は、制御部１５が動作する際に参照する各種情報や、制御部１５が動作した際に取得した各種情報を記憶する。ここで、記憶部１４は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置等である。なお、図１の例では、記憶部１４は、識別器生成装置１０の内部に設置されているが、識別器生成装置１０の外部に設置されてもよいし、複数の記憶部が設置されていてもよい。

制御部１５は、当該識別器生成装置１０全体の制御を司る。制御部１５は、取得部１５ａ、計算部１５ｂ、変換部１５ｃ、付加部１５ｄ、生成部１５ｅ、提供部１５ｆおよび更新部１５ｇを有する。ここで、制御部１５は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などの電子回路やＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの集積回路である。

取得部１５ａは、アプリケーションのフローデータを取得する。例えば、取得部１５ａは、ＩＰ（Internet Protocol）アドレスごとのフローデータを取得する。ここで、アプリケーションのフローデータとは、アプリケーションのデータの送信元または送信先のＩＰアドレスやポート番号等の他、上記データのパケット数、バイト数を含む情報であるが、特に限定されない。また、取得部１５ａは、所定の時間当たりのＩＰアドレスごとのフローデータを取得する。例えば、取得部１５ａは、２４時間当たりの特定のＩＰアドレスを送信元または送信先とするフローデータを取得する。

計算部１５ｂは、取得部１５ａにより取得されたフローデータから第１の特徴ベクトルを計算する。例えば、計算部１５ｂは、ＩＰアドレスごとの統計的な第１の特徴ベクトルを計算する。また、計算部１５ｂは、第１の特徴ベクトルとして、パケット数、バイト数、およびパケット数当たりのバイト数のヒストグラムの少なくとも１つを計算する。ここで、第１の特徴ベクトルとは、アプリケーションのフローデータに含まれるパケット数、バイト数等の特徴量を１または複数含む情報であるが、特に限定されない。

変換部１５ｃは、計算部１５ｂにより計算された前記第１の特徴ベクトルを、同種のアプリケーションの特徴ベクトルが類似するような第２の特徴ベクトルに変換する。例えば、変換部１５ｃは、所定の潜在空間に写像した第２の特徴ベクトルに変換する。ここで、第２の特徴ベクトルとは、統計的な処理をした第１の特徴ベクトルを教師なしクラスタリングに適した潜在空間に写像することにより、同種のアプリケーションの特徴ベクトルが類似するように変換した情報であるが、特に限定されない。

付加部１５ｄは、変換部１５ｃにより変換された第２の特徴ベクトルをクラスタリングし、クラスタリングした第２の特徴ベクトルに疑似ラベルを付加する。例えば、付加部１５ｄは、第２の特徴ベクトルを教師なしクラスタリングする。また、付加部１５ｄは、第２の特徴ベクトルを所定の方式で複数回教師なしクラスタリングする。例えば、付加部１５ｄは、教師なしクラスタリングの手法としてＫ平均法（k-means）を用いてクラスタリング処理を行い、疑似ラベルを付加する。また、付加部１５ｄは、１または複数の教師なしクラスタリング手法を用いて、複数の異なるクラスタを生成して、各クラスタに疑似ラベルを付加してもよい。

生成部１５ｅは、付加部１５ｄにより疑似ラベルを付加された前記第２の特徴ベクトルから学習用データセットを生成する。例えば、生成部１５ｅは、疑似ラベルを付加された第２の特徴ベクトルをランダムに抽出し、所定数の学習用データを含む学習用データセットを生成する。ここで、学習用データセットとは、１～２０程度の学習用データを含むデータセットであるが、特に限定されない。また、生成部１５ｅは、後述の提供部１５ｆが複数回または繰り返し学習用データセットを提供できるように、複数の学習用データセットを生成するが、特に限定されない。

提供部１５ｆは、生成部１５ｅにより生成された学習用データセットを識別器に提供する。ここで、提供部１５ｆは、異なる学習用データセットを提供してもよいし、同一の学習用データセットを繰り返し提供してもよい。

更新部１５ｇは、提供部１５ｆにより学習用データセットを提供された識別器の設定を更新する。例えば、更新部１５ｇは、学習用データセットの提供前後における識別器のパラメータとテストデータの識別精度との情報に基づいて、初期パラメータまたは学習方法の設定を更新する。

また、更新部１５ｇは、各データセットで識別器を学習させた際の学習前後のパラメータや識別精度の変化の情報をもとにして、どのデータセットでの学習結果でも高い識別精度を達成できるように識別器の初期パラメータや学習方法を更新する。このとき、更新部１５ｇは、少量の学習データを持つデータセットを与えてメタ学習を行うことで、識別器に対して、「少量のデータしか与えられなかった場合に適した識別器の初期パラメータや学習方法」を学習させることができる。このため、更新部１５ｇは、生成部１５ｅにより大量に作成された、学習用データ数の少ないデータセットをメタ学習処理時に使用する。

上述のように、本実施形態に係る識別器生成装置１０は、フローデータから計算した特徴ベクトルを、教師なしクラスタリングに適した潜在空間に写像することにより、同種のアプリケーションの特徴ベクトルが類似するような特徴ベクトルに変換し、変換した特徴ベクトルをクラスタリングして擬似ラベルを付加し、擬似ラベルを付加した特徴ベクトルから学習用データセットを生成し、生成した学習用データセットにより識別器を学習させ、学習用データセットと学習前後の識別器の情報等から識別器の学習方法を学習するメタ学習を行う。

このため、メタ学習技術の適用により必要な教師データ数が削減され、新しく出現したアプリケーションの識別も迅速に可能となる。また、ラベルのないフローデータから抽出された特徴ベクトルを、教師なしクラスタリングに適した潜在空間に写像してからクラスタリングすることにより、より精度の高い擬似ラベルを生成し、識別器のメタ学習の効果を高めることができる。さらに、大量の教師データの用意が困難であった大規模ネットワークのフローデータを活用できるようになり、大規模ネットワークにおいてもアプリケーションレベルのトラフィック識別が可能になる。

［識別器生成装置の利用例］
図２および図３を用いて、本実施形態に係る識別器生成装置の利用例を説明する。図２および図３は、第１の実施形態に係る識別器生成装置の利用例を示す図である。

（利用例１）
第１に、図２を用いて、ＩＳＰ（Internet Services Provider）ネットワークのトラフィックを可視化し、ネットワーク監視やネットワーク設備投資計画を効率化する利用例を説明する。まず、識別器生成装置１０は、ネットワーク上のＩＳＰ３０（３０Ａ、３０Ｂ）と接続されたネットワーク装置４０（４０Ａ、４０Ｂ、４０Ｃ）からフローデータを収集し（図２の（１）参照）、フローデータを取得する（図２の（２）参照）。

次に、識別器生成装置１０は、フローデータに基づき学習用データセットを生成し、識別器２０に提供し、また識別器２０の設定を更新する（図２の（３）参照）。続いて、識別器２０は、ネットワーク装置４０から得られたフローデータを分析し、ネットワーク装置４０に関与するアプリケーションを識別し、ネットワーク装置ごとの処理データに占める各アプリケーションの割合を算出する（図２の（４）参照）。

図２では、ネットワーク装置４０に関与するアプリケーションとして、「アプリＡ」「アプリＢ」「アプリＣ」「その他」が示され、ネットワーク装置４０Ａ～４０Ｃごとにアプリケーションの使用割合が円グラフとして示されている。

ネットワーク管理者５０は、上記のネットワーク装置ごとに示されたアプリケーションの使用割合を監視し、また分析する（図２の（５）参照）。そして、ネットワーク管理者５０は、上記のアプリケーションの使用割合等より、詳細なネットワーク状況を把握し、ＩＳＰネットワークを改善することができる。

例えば、改善前のＩＳＰネットワークでは、ＩＳＰ３０Ｂとネットワーク装置４０Ｃ間の回線が多くのトラフィックが流れるように設定されている。一方、識別器２０により、ネットワーク装置４０Ａおよびネットワーク装置４０Ｂでは、ネットワークリソースの消費が大きい「アプリＡ」の使用割合が高く、ネットワーク装置４０Ｃでは、ネットワークリソースの消費が小さい「アプリＢ」の使用割合が高いことが把握されている。このとき、ネットワーク管理者５０は、ネットワーク装置４０Ａおよびネットワーク装置４０Ｂに多くのトラフィックが流れるように、ＩＳＰ３０Ａの回線を強化するように設定を変更することができる（図２の（６）参照）。

上記の利用例１では、ＩＳＰネットワークにおいて、収集されるネットワークフローデータから識別器生成装置１０を用いて識別器２０を生成する。このため、生成した識別器２０を識別および可視化に用いることにより詳細なネットワーク状況を把握できるようになり、重点的に投資するべき経路の把握に役立つ。

（利用例２）
第２に、図３を用いて、悪性通信検知のためのスクリーニングに関する利用例を説明する。まず、識別器生成装置１０は、ネットワーク上のフローデータを収集し（図３の（１）参照）、フローデータを取得する（図３の（２）参照）。次に、識別器生成装置１０は、フローデータに基づき学習用データセットを生成し、識別器２０に提供し、また識別器２０の設定を更新する（図３の（３）参照）。

続いて、識別器２０は、悪性通信を含むトラフィックデータを分析し（図３の（４）参照）、処理対象のトラフィックデータから、正常なアプリケーション等に関わるデータを除外する（図３の（５）参照）。図３では、識別器２０は、正常なアプリケーション等に関わるデータとして、「データＡ」、「データＢ」および「データＣ」を除外し、残りのデータを調査すべきデータとしてスクリーニングすることができる。

上記の利用例２では、大規模なトラフィックデータからごく少量含まれる悪性通信を検知する際に、識別器生成装置１０を用いて識別器２０を生成する。このため、生成した識別器２０を用いることにより、事前に正常なトラフィックを除外することで調査すべきトラフィックデータの量を減少させることができ、悪性通信検知にかかる負担を軽減することができる。

［識別器生成処理の流れ］
図４を用いて、本実施形態に係る識別器生成処理の流れを詳細に説明する。図４は、第１の実施形態に係る識別器生成処理の流れの一例を示すフローチャートである。まず、識別器生成装置１０の取得部１５ａは、ネットワーク上のフローデータを取得する（ステップＳ１０１）。

次に、計算部１５ｂは、フローデータのＩＰアドレスごとにバイト数、パケット数等の情報の統計的な特徴量を用いた特徴ベクトル（第１の特徴ベクトル）を計算する（ステップＳ１０２）。続いて、変換部１５ｃは、計算部１５ｂにより計算された特徴ベクトルを、教師なしクラスタリングに適した潜在空間に写像することにより、同種のアプリケーションの特徴ベクトルが類似するような特徴ベクトル（第２の特徴ベクトル）に変換する（ステップＳ１０３）。

そして、付加部１５ｄは、Ｋ平均法等の教師なしクラスタリング手法で変換後の特徴ベクトルをクラスタリングし、クラスタを生成する（ステップＳ１０４）。このとき、付加部１５ｄは、多様な学習用データセットを生成するためにクラスタリングを複数回行い、複数のクラスタを生成する。なお、付加部１５ｄは、複数の教師なしクラスタリング手法を用いて、複数の異なるクラスタを生成してもよい。また、付加部１５ｄは、１つの教師なしクラスタリング手法を用いて、特徴ベクトルの一部を変換してからクラスタリングを行うことで、複数の異なるクラスタを生成してもよい。付加部１５ｄが行うクラスタリングの手法は、特に限定されない。また、付加部１５ｄは、生成した各クラスタに疑似ラベルを付加する（ステップＳ１０５）。

さらに、生成部１５ｅは、疑似ラベルを付加された特徴ベクトルからランダムにデータを抽出して、少量の学習用データを含むデータセットを生成する（ステップＳ１０６）。ここで、少量の学習用データを含むデータセットとは、１～２０程度の学習用データを含むデータセットであるが、特に限定されない。生成部１５ｅは、データセットに含まれる学習用データのサンプル数を、静的に、または動的に変更することができる。

その後、提供部１５ｆは、アプリケーションの識別を学習させたい識別器にデータセットを提供する（ステップＳ１０７）。最後に、更新部１５ｇは、提供前後の識別器のパラメータや識別精度等の情報を判定し（ステップＳ１０８）、その結果をもとに学習用データが少量でも高い精度が出るように識別器のパラメータや学習方法を更新し（ステップＳ１０９）、処理が終了する。

このとき、提供部１５ｆは、一定時間または一定回数のデータセットを提供するようにステップＳ１０７の処理を繰り返してもよい。また、提供部１５ｆは、ステップＳ１０８の処理の後にステップＳ１０７の処理を再度行ってもよいし、ステップＳ１０９の処理の後にステップＳ１０７の処理を再度行ってもよい。さらに、更新部１５ｇは、一定時間が経過するまで、または、学習させたい識別器が一定の識別精度に達するまで、ステップＳ１０８とステップＳ１０９の処理を繰り返してもよい。

［第１の実施形態の効果］
第１に、上述した本実施形態に係る識別器生成処理では、アプリケーションのフローデータを取得し、取得したフローデータから第１の特徴ベクトルを計算し、計算した第１の特徴ベクトルを、同種のアプリケーションの特徴ベクトルが類似するような第２の特徴ベクトルに変換し、変換した第２の特徴ベクトルをクラスタリングし、クラスタリングした第２の特徴ベクトルに疑似ラベルを付加し、疑似ラベルを付加した第２の特徴ベクトルから学習用データセットを生成し、生成した学習用データセットを識別器に提供し、学習用データセットを提供した識別器の設定を更新する。このため、本処理では、大規模ネットワークにおいて、アプリケーションレベルのトラフィック識別を迅速に行うことができる。

第２に、上述した本実施形態に係る識別器生成処理では、ＩＰアドレスごとのフローデータを取得し、ＩＰアドレスごとの統計的な前記第１の特徴ベクトルを計算し、所定の潜在空間に写像した第２の特徴ベクトルに変換し、変換した第２の特徴ベクトルを教師なしクラスタリングする。このため、本処理では、大規模ネットワークにおいて、大量の教師データを用意しなくてもフローデータを活用でき、アプリケーションレベルのトラフィック識別を迅速に行うことができる。

第３に、上述した本実施形態に係る識別器生成処理では、所定の時間当たりのＩＰアドレスごとの前記フローデータを取得し、第１の特徴ベクトルとして、パケット数、バイト数、およびパケット数当たりのバイト数のヒストグラムの少なくとも１つを計算する。このため、本処理では、大規模ネットワークにおいて、大量の教師データを用意しなくてもフローデータを活用でき、アプリケーションレベルのトラフィック識別をより効果的に行うことができる。

第４に、上述した本実施形態に係る識別器生成処理では、第２の特徴ベクトルを所定の方式で複数回の教師なしクラスタリングする。このため、本処理では、大規模ネットワークにおいて、より多様な学習用データセットを生成することができ、アプリケーションレベルのトラフィック識別をより効果的に行うことができる。

第５に、上述した本実施形態に係る識別器生成処理では、疑似ラベルを付加された第２の特徴ベクトルをランダムに抽出し、所定数の学習用データを含む学習用データセットを生成する。このため、本処理では、大規模ネットワークにおいて、より少量の学習用データから正しい識別をする識別器を生成することができ、アプリケーションレベルのトラフィック識別をより迅速に行うことができる。

第６に、上述した本実施形態に係る識別器生成処理では、学習用データセットの提供前後における識別器のパラメータとテストデータの識別精度との情報に基づいて、初期パラメータまたは学習方法の設定を更新する。このため、本処理では、大規模ネットワークにおいて、より少量の学習用データから正しい識別をする識別器を生成することができ、アプリケーションレベルのトラフィック識別をより効果的に行うことができる。

〔システム構成等〕
上記実施形態に係る図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のごとく構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

〔プログラム〕
また、上記実施形態において説明した識別器生成装置１０が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。この場合、コンピュータがプログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかるプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。

図５は、プログラムを実行するコンピュータを示す図である。図５に例示するように、コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有し、これらの各部はバス１０８０によって接続される。

メモリ１０１０は、図５に例示するように、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、図５に例示するように、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、図５に例示するように、ディスクドライブ１１００に接続される。例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、図５に例示するように、例えば、マウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、図５に例示するように、例えばディスプレイ１１３０に接続される。

ここで、図５に例示するように、ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、上記のプログラムは、コンピュータ１０００によって実行される指令が記述されたプログラムモジュールとして、例えば、ハードディスクドライブ１０９０に記憶される。

また、上記実施形態で説明した各種データは、プログラムデータとして、例えば、メモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出し、各種処理手順を実行する。

なお、プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

上記の実施形態やその変形は、本願が開示する技術に含まれると同様に、請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１０識別器生成装置
１１入力部
１２出力部
１３通信部
１４記憶部
１５制御部
１５ａ取得部
１５ｂ計算部
１５ｃ変換部
１５ｄ付加部
１５ｅ生成部
１５ｆ提供部
１５ｇ更新部
２０識別器
３０、３０Ａ、３０ＢＩＳＰ
４０、４０Ａ、４０Ｂ、４０Ｃネットワーク装置
５０ネットワーク管理者

Claims

アプリケーションのフローデータを取得する取得部と、
前記取得部により取得された前記フローデータから第１の特徴ベクトルを計算する計算部と、
前記計算部により計算された前記第１の特徴ベクトルを、同種のアプリケーションの特徴ベクトルが類似するような第２の特徴ベクトルに変換する変換部と、
前記変換部により変換された前記第２の特徴ベクトルをクラスタリングし、クラスタリングした前記第２の特徴ベクトルに疑似ラベルを付加する付加部と、
前記付加部により疑似ラベルを付加された前記第２の特徴ベクトルから規定数以下の学習用データを含む学習用データセットを生成する生成部と、
前記生成部により生成された前記学習用データセットを識別器に提供する提供部と、
前記提供部により前記学習用データセットを提供された前記識別器の設定を更新し、前記規定数以下の学習用データを含む前記学習用データセットを用いたメタ学習により前記識別器を生成する更新部と
を備えることを特徴とする識別器生成装置。
前記取得部は、ＩＰ（Internet Protocol）アドレスごとの前記フローデータを取得し、
前記計算部は、前記ＩＰアドレスごとの統計的な前記第１の特徴ベクトルを計算し、
前記変換部は、所定の潜在空間に写像した前記第２の特徴ベクトルに変換し、
前記付加部は、前記第２の特徴ベクトルを教師なしクラスタリングすることを特徴とする請求項１に記載の識別器生成装置。
前記取得部は、所定の時間当たりの前記ＩＰアドレスごとの前記フローデータを取得し、
前記計算部は、前記第１の特徴ベクトルとして、パケット数、バイト数、およびパケット数当たりのバイト数のヒストグラムの少なくとも１つを計算することを特徴とする請求項２に記載の識別器生成装置。
前記付加部は、前記第２の特徴ベクトルを所定の方式で複数回教師なしクラスタリングすることを特徴とする請求項２に記載の識別器生成装置。
前記生成部は、前記疑似ラベルを付加された前記第２の特徴ベクトルをランダムに抽出し、所定数の学習用データを含む前記学習用データセットを生成することを特徴とする請求項２に記載の識別器生成装置。
前記更新部は、前記学習用データセットの提供前後における前記識別器のパラメータとテストデータの識別精度との情報に基づいて、初期パラメータまたは学習方法の設定を更新することを特徴とする請求項１から５のいずれか１項に記載の識別器生成装置。
識別器生成装置によって実行される識別器生成方法であって、
アプリケーションのフローデータを取得する取得工程と、
前記取得工程により取得された前記フローデータから第１の特徴ベクトルを計算する計算工程と、
前記計算工程により計算された前記第１の特徴ベクトルを、同種のアプリケーションの特徴ベクトルが類似するような第２の特徴ベクトルに変換する変換工程と、
前記変換工程により変換された前記第２の特徴ベクトルをクラスタリングし、クラスタリングした前記第２の特徴ベクトルに疑似ラベルを付加する付加工程と、
前記付加工程により疑似ラベルを付加された前記第２の特徴ベクトルから規定数以下の学習用データを含む学習用データセットを生成する生成工程と、
前記生成工程により生成された前記学習用データセットを識別器に提供する提供工程と、
前記提供工程により前記学習用データセットを提供された前記識別器の設定を更新し、前記規定数以下の学習用データを含む前記学習用データセットを用いたメタ学習により前記識別器を生成する更新工程と
を含むことを特徴とする識別器生成方法。
アプリケーションのフローデータを取得する取得ステップと、
前記取得ステップにより取得された前記フローデータから第１の特徴ベクトルを計算する計算ステップと、
前記計算ステップにより計算された前記第１の特徴ベクトルを、同種のアプリケーションの特徴ベクトルが類似するような第２の特徴ベクトルに変換する変換ステップと、
前記変換ステップにより変換された前記第２の特徴ベクトルをクラスタリングし、クラスタリングした前記第２の特徴ベクトルに疑似ラベルを付加する付加ステップと、
前記付加ステップにより疑似ラベルを付加された前記第２の特徴ベクトルから規定数以下の学習用データを含む学習用データセットを生成する生成ステップと、
前記生成ステップにより生成された前記学習用データセットを識別器に提供する提供ステップと、
前記提供ステップにより前記学習用データセットを提供された前記識別器の設定を更新し、前記規定数以下の学習用データを含む前記学習用データセットを用いたメタ学習により前記識別器を生成する更新ステップと
をコンピュータに実行させることを特徴とする識別器生成プログラム。