JP7491404B2 - 識別器生成装置、識別器生成方法および識別器生成プログラム - Google Patents

識別器生成装置、識別器生成方法および識別器生成プログラム Download PDF

Info

Publication number
JP7491404B2
JP7491404B2 JP2022566525A JP2022566525A JP7491404B2 JP 7491404 B2 JP7491404 B2 JP 7491404B2 JP 2022566525 A JP2022566525 A JP 2022566525A JP 2022566525 A JP2022566525 A JP 2022566525A JP 7491404 B2 JP7491404 B2 JP 7491404B2
Authority
JP
Japan
Prior art keywords
feature vector
classifier
unit
training data
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022566525A
Other languages
English (en)
Other versions
JPWO2022118373A1 (ja
Inventor
駿 飛山
和憲 神谷
博 胡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2022118373A1 publication Critical patent/JPWO2022118373A1/ja
Application granted granted Critical
Publication of JP7491404B2 publication Critical patent/JP7491404B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/026Capturing of monitoring data using flow identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、識別器生成装置、識別器生成方法および識別器生成プログラムに関する。
従来、トラフィックを発生させたアプリケーションを識別する手法が知られている。このような手法として、トラフィックデータの一種であるパケットデータや、パケットデータの統計情報を記録したフローデータから特徴を抽出し、予め定められたルールに基づいてルールベースでアプリケーションを識別する手法が存在する(例えば、非特許文献1参照)。また、機械学習技術を用いてアプリケーションごとの特徴を学習、分類することでアプリケーション識別を行う手法が存在する(例えば、非特許文献2参照)。
BLINC: Multilevel Traffic Classification in the Dark、[online]、[2020年11月17日検索]、インターネット<URL:https://www.researchgate.net/publication/221164762_BLINC_Multilevel_Traffic_Classification_in_the_Dark> Seq2Img: A Sequence-to-Image based Approach Towards IP Traffic Classification using Convolutional Neural Networks、[online]、[2020年11月17日検索]、インターネット<https://ieeexplore.ieee.org/document/8258054> Unsupervised Learning via Meta-Learning、[online]、[2020年11月17日検索]、インターネット<https://openreview.net/forum?id=r1My6sR9tX>
しかしながら、従来の技術では、大規模ネットワークにおいて、アプリケーションレベルのトラフィック識別を迅速に行うことができなかった。なぜならば、従来手法では新種のアプリケーションに対応できず、また学習に必要な大量の教師データを用意することが難しいという課題があるからである。
例えば、新たなアプリケーションは日々出現しているが、ルールベースの技術ではこのような新しく出現したアプリケーションを識別することができない。また、教師あり機械学習を用いる技術では事前に大量の教師データを用意する必要があるが、フローデータにはIP(Internet Protocol)アドレスやポート番号等の簡易な情報しか含まれないため、アプリケーションレベルのラベル付加は難しく精度も低い。そのため、識別したいアプリケーションの教師データが少ない場合でも対象アプリケーションを識別可能な技術が必要である。
上述した課題を解決し、目的を達成するために、本発明に係る識別器生成装置は、アプリケーションのフローデータを取得する取得部と、前記取得部により取得された前記フローデータから第1の特徴ベクトルを計算する計算部と、前記計算部により計算された前記第1の特徴ベクトルを、同種のアプリケーションの特徴ベクトルが類似するような第2の特徴ベクトルに変換する変換部と、前記変換部により変換された前記第2の特徴ベクトルをクラスタリングし、クラスタリングした前記第2の特徴ベクトルに疑似ラベルを付加する付加部と、前記付加部により疑似ラベルを付加された前記第2の特徴ベクトルから学習用データセットを生成する生成部と、前記生成部により生成された前記学習用データセットを識別器に提供する提供部と、前記提供部により前記学習用データセットを提供された前記識別器の設定を更新する更新部とを備えることを特徴とする。
また、本発明に係る識別器生成方法は、識別器生成装置によって実行される識別器生成方法であって、アプリケーションのフローデータを取得する取得工程と、前記取得工程により取得された前記フローデータから第1の特徴ベクトルを計算する計算工程と、前記計算工程により計算された前記第1の特徴ベクトルを、同種のアプリケーションの特徴ベクトルが類似するような第2の特徴ベクトルに変換する変換工程と、前記変換工程により変換された前記第2の特徴ベクトルをクラスタリングし、クラスタリングした前記第2の特徴ベクトルに疑似ラベルを付加する付加工程と、前記付加工程により疑似ラベルを付加された前記第2の特徴ベクトルから学習用データセットを生成する生成工程と、前記生成工程により生成された前記学習用データセットを識別器に提供する提供工程と、前記提供工程により前記学習用データセットを提供された前記識別器の設定を更新する更新工程とを含むことを特徴とする。
また、本発明に係る識別器生成プログラムは、アプリケーションのフローデータを取得する取得ステップと、前記取得ステップにより取得された前記フローデータから第1の特徴ベクトルを計算する計算ステップと、前記計算ステップにより計算された前記第1の特徴ベクトルを、同種のアプリケーションの特徴ベクトルが類似するような第2の特徴ベクトルに変換する変換ステップと、前記変換ステップにより変換された前記第2の特徴ベクトルをクラスタリングし、クラスタリングした前記第2の特徴ベクトルに疑似ラベルを付加する付加ステップと、前記付加ステップにより疑似ラベルを付加された前記第2の特徴ベクトルから学習用データセットを生成する生成ステップと、前記生成ステップにより生成された前記学習用データセットを識別器に提供する提供ステップと、前記提供ステップにより前記学習用データセットを提供された前記識別器の設定を更新する更新ステップとをコンピュータに実行させることを特徴とする。
本発明は、大規模ネットワークにおいて、アプリケーションレベルのトラフィック識別を迅速に行うことができる。
図1は、第1の実施形態に係る識別器生成装置の構成例を示すブロック図である。 図2は、第1の実施形態に係る識別器生成装置の利用例を示す図である。 図3は、第1の実施形態に係る識別器生成装置の利用例を示す図である。 図4は、第1の実施形態に係る識別器生成処理の流れの一例を示すフローチャートである。 図5は、プログラムを実行するコンピュータを示す図である。
以下に、本発明に係る識別器生成装置、識別器生成方法および識別器生成プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。
〔第1の実施形態〕
以下に、本実施形態に係る識別器生成装置の構成、識別器生成装置の利用例、識別器生成処理の流れを順に説明し、最後に本実施形態の効果を説明する。
[識別器生成装置の構成]
図1を用いて、本実施形態に係る識別器生成装置10の構成を詳細に説明する。図1は、本実施形態に係る識別器生成装置の構成例を示すブロック図である。識別器生成装置10は、入力部11、出力部12、通信部13、記憶部14および制御部15を有する。
入力部11は、当該識別器生成装置10への各種情報の入力を司る。入力部11は、例えば、マウスやキーボード等であり、当該識別器生成装置10への設定情報等の入力を受け付ける。また、出力部12は、当該識別器生成装置10からの各種情報の出力を司る。出力部12は、例えば、ディスプレイ等であり、当該識別器生成装置10に記憶された設定情報等を出力する。
通信部13は、他の装置との間でのデータ通信を司る。例えば、通信部13は、各通信装置との間でデータ通信を行う。また、通信部13は、図示しないオペレータの端末との間でデータ通信を行うことができる。
記憶部14は、制御部15が動作する際に参照する各種情報や、制御部15が動作した際に取得した各種情報を記憶する。ここで、記憶部14は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置等である。なお、図1の例では、記憶部14は、識別器生成装置10の内部に設置されているが、識別器生成装置10の外部に設置されてもよいし、複数の記憶部が設置されていてもよい。
制御部15は、当該識別器生成装置10全体の制御を司る。制御部15は、取得部15a、計算部15b、変換部15c、付加部15d、生成部15e、提供部15fおよび更新部15gを有する。ここで、制御部15は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの電子回路やASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路である。
取得部15aは、アプリケーションのフローデータを取得する。例えば、取得部15aは、IP(Internet Protocol)アドレスごとのフローデータを取得する。ここで、アプリケーションのフローデータとは、アプリケーションのデータの送信元または送信先のIPアドレスやポート番号等の他、上記データのパケット数、バイト数を含む情報であるが、特に限定されない。また、取得部15aは、所定の時間当たりのIPアドレスごとのフローデータを取得する。例えば、取得部15aは、24時間当たりの特定のIPアドレスを送信元または送信先とするフローデータを取得する。
計算部15bは、取得部15aにより取得されたフローデータから第1の特徴ベクトルを計算する。例えば、計算部15bは、IPアドレスごとの統計的な第1の特徴ベクトルを計算する。また、計算部15bは、第1の特徴ベクトルとして、パケット数、バイト数、およびパケット数当たりのバイト数のヒストグラムの少なくとも1つを計算する。ここで、第1の特徴ベクトルとは、アプリケーションのフローデータに含まれるパケット数、バイト数等の特徴量を1または複数含む情報であるが、特に限定されない。
変換部15cは、計算部15bにより計算された前記第1の特徴ベクトルを、同種のアプリケーションの特徴ベクトルが類似するような第2の特徴ベクトルに変換する。例えば、変換部15cは、所定の潜在空間に写像した第2の特徴ベクトルに変換する。ここで、第2の特徴ベクトルとは、統計的な処理をした第1の特徴ベクトルを教師なしクラスタリングに適した潜在空間に写像することにより、同種のアプリケーションの特徴ベクトルが類似するように変換した情報であるが、特に限定されない。
付加部15dは、変換部15cにより変換された第2の特徴ベクトルをクラスタリングし、クラスタリングした第2の特徴ベクトルに疑似ラベルを付加する。例えば、付加部15dは、第2の特徴ベクトルを教師なしクラスタリングする。また、付加部15dは、第2の特徴ベクトルを所定の方式で複数回教師なしクラスタリングする。例えば、付加部15dは、教師なしクラスタリングの手法としてK平均法(k-means)を用いてクラスタリング処理を行い、疑似ラベルを付加する。また、付加部15dは、1または複数の教師なしクラスタリング手法を用いて、複数の異なるクラスタを生成して、各クラスタに疑似ラベルを付加してもよい。
生成部15eは、付加部15dにより疑似ラベルを付加された前記第2の特徴ベクトルから学習用データセットを生成する。例えば、生成部15eは、疑似ラベルを付加された第2の特徴ベクトルをランダムに抽出し、所定数の学習用データを含む学習用データセットを生成する。ここで、学習用データセットとは、1~20程度の学習用データを含むデータセットであるが、特に限定されない。また、生成部15eは、後述の提供部15fが複数回または繰り返し学習用データセットを提供できるように、複数の学習用データセットを生成するが、特に限定されない。
提供部15fは、生成部15eにより生成された学習用データセットを識別器に提供する。ここで、提供部15fは、異なる学習用データセットを提供してもよいし、同一の学習用データセットを繰り返し提供してもよい。
更新部15gは、提供部15fにより学習用データセットを提供された識別器の設定を更新する。例えば、更新部15gは、学習用データセットの提供前後における識別器のパラメータとテストデータの識別精度との情報に基づいて、初期パラメータまたは学習方法の設定を更新する。
また、更新部15gは、各データセットで識別器を学習させた際の学習前後のパラメータや識別精度の変化の情報をもとにして、どのデータセットでの学習結果でも高い識別精度を達成できるように識別器の初期パラメータや学習方法を更新する。このとき、更新部15gは、少量の学習データを持つデータセットを与えてメタ学習を行うことで、識別器に対して、「少量のデータしか与えられなかった場合に適した識別器の初期パラメータや学習方法」を学習させることができる。このため、更新部15gは、生成部15eにより大量に作成された、学習用データ数の少ないデータセットをメタ学習処理時に使用する。
上述のように、本実施形態に係る識別器生成装置10は、フローデータから計算した特徴ベクトルを、教師なしクラスタリングに適した潜在空間に写像することにより、同種のアプリケーションの特徴ベクトルが類似するような特徴ベクトルに変換し、変換した特徴ベクトルをクラスタリングして擬似ラベルを付加し、擬似ラベルを付加した特徴ベクトルから学習用データセットを生成し、生成した学習用データセットにより識別器を学習させ、学習用データセットと学習前後の識別器の情報等から識別器の学習方法を学習するメタ学習を行う。
このため、メタ学習技術の適用により必要な教師データ数が削減され、新しく出現したアプリケーションの識別も迅速に可能となる。また、ラベルのないフローデータから抽出された特徴ベクトルを、教師なしクラスタリングに適した潜在空間に写像してからクラスタリングすることにより、より精度の高い擬似ラベルを生成し、識別器のメタ学習の効果を高めることができる。さらに、大量の教師データの用意が困難であった大規模ネットワークのフローデータを活用できるようになり、大規模ネットワークにおいてもアプリケーションレベルのトラフィック識別が可能になる。
[識別器生成装置の利用例]
図2および図3を用いて、本実施形態に係る識別器生成装置の利用例を説明する。図2および図3は、第1の実施形態に係る識別器生成装置の利用例を示す図である。
(利用例1)
第1に、図2を用いて、ISP(Internet Services Provider)ネットワークのトラフィックを可視化し、ネットワーク監視やネットワーク設備投資計画を効率化する利用例を説明する。まず、識別器生成装置10は、ネットワーク上のISP30(30A、30B)と接続されたネットワーク装置40(40A、40B、40C)からフローデータを収集し(図2の(1)参照)、フローデータを取得する(図2の(2)参照)。
次に、識別器生成装置10は、フローデータに基づき学習用データセットを生成し、識別器20に提供し、また識別器20の設定を更新する(図2の(3)参照)。続いて、識別器20は、ネットワーク装置40から得られたフローデータを分析し、ネットワーク装置40に関与するアプリケーションを識別し、ネットワーク装置ごとの処理データに占める各アプリケーションの割合を算出する(図2の(4)参照)。
図2では、ネットワーク装置40に関与するアプリケーションとして、「アプリA」「アプリB」「アプリC」「その他」が示され、ネットワーク装置40A~40Cごとにアプリケーションの使用割合が円グラフとして示されている。
ネットワーク管理者50は、上記のネットワーク装置ごとに示されたアプリケーションの使用割合を監視し、また分析する(図2の(5)参照)。そして、ネットワーク管理者50は、上記のアプリケーションの使用割合等より、詳細なネットワーク状況を把握し、ISPネットワークを改善することができる。
例えば、改善前のISPネットワークでは、ISP30Bとネットワーク装置40C間の回線が多くのトラフィックが流れるように設定されている。一方、識別器20により、ネットワーク装置40Aおよびネットワーク装置40Bでは、ネットワークリソースの消費が大きい「アプリA」の使用割合が高く、ネットワーク装置40Cでは、ネットワークリソースの消費が小さい「アプリB」の使用割合が高いことが把握されている。このとき、ネットワーク管理者50は、ネットワーク装置40Aおよびネットワーク装置40Bに多くのトラフィックが流れるように、ISP30Aの回線を強化するように設定を変更することができる(図2の(6)参照)。
上記の利用例1では、ISPネットワークにおいて、収集されるネットワークフローデータから識別器生成装置10を用いて識別器20を生成する。このため、生成した識別器20を識別および可視化に用いることにより詳細なネットワーク状況を把握できるようになり、重点的に投資するべき経路の把握に役立つ。
(利用例2)
第2に、図3を用いて、悪性通信検知のためのスクリーニングに関する利用例を説明する。まず、識別器生成装置10は、ネットワーク上のフローデータを収集し(図3の(1)参照)、フローデータを取得する(図3の(2)参照)。次に、識別器生成装置10は、フローデータに基づき学習用データセットを生成し、識別器20に提供し、また識別器20の設定を更新する(図3の(3)参照)。
続いて、識別器20は、悪性通信を含むトラフィックデータを分析し(図3の(4)参照)、処理対象のトラフィックデータから、正常なアプリケーション等に関わるデータを除外する(図3の(5)参照)。図3では、識別器20は、正常なアプリケーション等に関わるデータとして、「データA」、「データB」および「データC」を除外し、残りのデータを調査すべきデータとしてスクリーニングすることができる。
上記の利用例2では、大規模なトラフィックデータからごく少量含まれる悪性通信を検知する際に、識別器生成装置10を用いて識別器20を生成する。このため、生成した識別器20を用いることにより、事前に正常なトラフィックを除外することで調査すべきトラフィックデータの量を減少させることができ、悪性通信検知にかかる負担を軽減することができる。
[識別器生成処理の流れ]
図4を用いて、本実施形態に係る識別器生成処理の流れを詳細に説明する。図4は、第1の実施形態に係る識別器生成処理の流れの一例を示すフローチャートである。まず、識別器生成装置10の取得部15aは、ネットワーク上のフローデータを取得する(ステップS101)。
次に、計算部15bは、フローデータのIPアドレスごとにバイト数、パケット数等の情報の統計的な特徴量を用いた特徴ベクトル(第1の特徴ベクトル)を計算する(ステップS102)。続いて、変換部15cは、計算部15bにより計算された特徴ベクトルを、教師なしクラスタリングに適した潜在空間に写像することにより、同種のアプリケーションの特徴ベクトルが類似するような特徴ベクトル(第2の特徴ベクトル)に変換する(ステップS103)。
そして、付加部15dは、K平均法等の教師なしクラスタリング手法で変換後の特徴ベクトルをクラスタリングし、クラスタを生成する(ステップS104)。このとき、付加部15dは、多様な学習用データセットを生成するためにクラスタリングを複数回行い、複数のクラスタを生成する。なお、付加部15dは、複数の教師なしクラスタリング手法を用いて、複数の異なるクラスタを生成してもよい。また、付加部15dは、1つの教師なしクラスタリング手法を用いて、特徴ベクトルの一部を変換してからクラスタリングを行うことで、複数の異なるクラスタを生成してもよい。付加部15dが行うクラスタリングの手法は、特に限定されない。また、付加部15dは、生成した各クラスタに疑似ラベルを付加する(ステップS105)。
さらに、生成部15eは、疑似ラベルを付加された特徴ベクトルからランダムにデータを抽出して、少量の学習用データを含むデータセットを生成する(ステップS106)。ここで、少量の学習用データを含むデータセットとは、1~20程度の学習用データを含むデータセットであるが、特に限定されない。生成部15eは、データセットに含まれる学習用データのサンプル数を、静的に、または動的に変更することができる。
その後、提供部15fは、アプリケーションの識別を学習させたい識別器にデータセットを提供する(ステップS107)。最後に、更新部15gは、提供前後の識別器のパラメータや識別精度等の情報を判定し(ステップS108)、その結果をもとに学習用データが少量でも高い精度が出るように識別器のパラメータや学習方法を更新し(ステップS109)、処理が終了する。
このとき、提供部15fは、一定時間または一定回数のデータセットを提供するようにステップS107の処理を繰り返してもよい。また、提供部15fは、ステップS108の処理の後にステップS107の処理を再度行ってもよいし、ステップS109の処理の後にステップS107の処理を再度行ってもよい。さらに、更新部15gは、一定時間が経過するまで、または、学習させたい識別器が一定の識別精度に達するまで、ステップS108とステップS109の処理を繰り返してもよい。
[第1の実施形態の効果]
第1に、上述した本実施形態に係る識別器生成処理では、アプリケーションのフローデータを取得し、取得したフローデータから第1の特徴ベクトルを計算し、計算した第1の特徴ベクトルを、同種のアプリケーションの特徴ベクトルが類似するような第2の特徴ベクトルに変換し、変換した第2の特徴ベクトルをクラスタリングし、クラスタリングした第2の特徴ベクトルに疑似ラベルを付加し、疑似ラベルを付加した第2の特徴ベクトルから学習用データセットを生成し、生成した学習用データセットを識別器に提供し、学習用データセットを提供した識別器の設定を更新する。このため、本処理では、大規模ネットワークにおいて、アプリケーションレベルのトラフィック識別を迅速に行うことができる。
第2に、上述した本実施形態に係る識別器生成処理では、IPアドレスごとのフローデータを取得し、IPアドレスごとの統計的な前記第1の特徴ベクトルを計算し、所定の潜在空間に写像した第2の特徴ベクトルに変換し、変換した第2の特徴ベクトルを教師なしクラスタリングする。このため、本処理では、大規模ネットワークにおいて、大量の教師データを用意しなくてもフローデータを活用でき、アプリケーションレベルのトラフィック識別を迅速に行うことができる。
第3に、上述した本実施形態に係る識別器生成処理では、所定の時間当たりのIPアドレスごとの前記フローデータを取得し、第1の特徴ベクトルとして、パケット数、バイト数、およびパケット数当たりのバイト数のヒストグラムの少なくとも1つを計算する。このため、本処理では、大規模ネットワークにおいて、大量の教師データを用意しなくてもフローデータを活用でき、アプリケーションレベルのトラフィック識別をより効果的に行うことができる。
第4に、上述した本実施形態に係る識別器生成処理では、第2の特徴ベクトルを所定の方式で複数回の教師なしクラスタリングする。このため、本処理では、大規模ネットワークにおいて、より多様な学習用データセットを生成することができ、アプリケーションレベルのトラフィック識別をより効果的に行うことができる。
第5に、上述した本実施形態に係る識別器生成処理では、疑似ラベルを付加された第2の特徴ベクトルをランダムに抽出し、所定数の学習用データを含む学習用データセットを生成する。このため、本処理では、大規模ネットワークにおいて、より少量の学習用データから正しい識別をする識別器を生成することができ、アプリケーションレベルのトラフィック識別をより迅速に行うことができる。
第6に、上述した本実施形態に係る識別器生成処理では、学習用データセットの提供前後における識別器のパラメータとテストデータの識別精度との情報に基づいて、初期パラメータまたは学習方法の設定を更新する。このため、本処理では、大規模ネットワークにおいて、より少量の学習用データから正しい識別をする識別器を生成することができ、アプリケーションレベルのトラフィック識別をより効果的に行うことができる。
〔システム構成等〕
上記実施形態に係る図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のごとく構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
〔プログラム〕
また、上記実施形態において説明した識別器生成装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。この場合、コンピュータがプログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかるプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。
図5は、プログラムを実行するコンピュータを示す図である。図5に例示するように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有し、これらの各部はバス1080によって接続される。
メモリ1010は、図5に例示するように、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、図5に例示するように、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、図5に例示するように、ディスクドライブ1100に接続される。例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、図5に例示するように、例えば、マウス1110、キーボード1120に接続される。ビデオアダプタ1060は、図5に例示するように、例えばディスプレイ1130に接続される。
ここで、図5に例示するように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記のプログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、例えば、ハードディスクドライブ1090に記憶される。
また、上記実施形態で説明した各種データは、プログラムデータとして、例えば、メモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出し、各種処理手順を実行する。
なお、プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してCPU1020によって読み出されてもよい。あるいは、プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
上記の実施形態やその変形は、本願が開示する技術に含まれると同様に、請求の範囲に記載された発明とその均等の範囲に含まれるものである。
10 識別器生成装置
11 入力部
12 出力部
13 通信部
14 記憶部
15 制御部
15a 取得部
15b 計算部
15c 変換部
15d 付加部
15e 生成部
15f 提供部
15g 更新部
20 識別器
30、30A、30B ISP
40、40A、40B、40C ネットワーク装置
50 ネットワーク管理者

Claims (8)

  1. アプリケーションのフローデータを取得する取得部と、
    前記取得部により取得された前記フローデータから第1の特徴ベクトルを計算する計算部と、
    前記計算部により計算された前記第1の特徴ベクトルを、同種のアプリケーションの特徴ベクトルが類似するような第2の特徴ベクトルに変換する変換部と、
    前記変換部により変換された前記第2の特徴ベクトルをクラスタリングし、クラスタリングした前記第2の特徴ベクトルに疑似ラベルを付加する付加部と、
    前記付加部により疑似ラベルを付加された前記第2の特徴ベクトルから規定数以下の学習用データを含む学習用データセットを生成する生成部と、
    前記生成部により生成された前記学習用データセットを識別器に提供する提供部と、
    前記提供部により前記学習用データセットを提供された前記識別器の設定を更新し、前記規定数以下の学習用データを含む前記学習用データセットを用いたメタ学習により前記識別器を生成する更新部と
    を備えることを特徴とする識別器生成装置。
  2. 前記取得部は、IP(Internet Protocol)アドレスごとの前記フローデータを取得し、
    前記計算部は、前記IPアドレスごとの統計的な前記第1の特徴ベクトルを計算し、
    前記変換部は、所定の潜在空間に写像した前記第2の特徴ベクトルに変換し、
    前記付加部は、前記第2の特徴ベクトルを教師なしクラスタリングすることを特徴とする請求項1に記載の識別器生成装置。
  3. 前記取得部は、所定の時間当たりの前記IPアドレスごとの前記フローデータを取得し、
    前記計算部は、前記第1の特徴ベクトルとして、パケット数、バイト数、およびパケット数当たりのバイト数のヒストグラムの少なくとも1つを計算することを特徴とする請求項2に記載の識別器生成装置。
  4. 前記付加部は、前記第2の特徴ベクトルを所定の方式で複数回教師なしクラスタリングすることを特徴とする請求項2に記載の識別器生成装置。
  5. 前記生成部は、前記疑似ラベルを付加された前記第2の特徴ベクトルをランダムに抽出し、所定数の学習用データを含む前記学習用データセットを生成することを特徴とする請求項2に記載の識別器生成装置。
  6. 前記更新部は、前記学習用データセットの提供前後における前記識別器のパラメータとテストデータの識別精度との情報に基づいて、初期パラメータまたは学習方法の設定を更新することを特徴とする請求項1から5のいずれか1項に記載の識別器生成装置。
  7. 識別器生成装置によって実行される識別器生成方法であって、
    アプリケーションのフローデータを取得する取得工程と、
    前記取得工程により取得された前記フローデータから第1の特徴ベクトルを計算する計算工程と、
    前記計算工程により計算された前記第1の特徴ベクトルを、同種のアプリケーションの特徴ベクトルが類似するような第2の特徴ベクトルに変換する変換工程と、
    前記変換工程により変換された前記第2の特徴ベクトルをクラスタリングし、クラスタリングした前記第2の特徴ベクトルに疑似ラベルを付加する付加工程と、
    前記付加工程により疑似ラベルを付加された前記第2の特徴ベクトルから規定数以下の学習用データを含む学習用データセットを生成する生成工程と、
    前記生成工程により生成された前記学習用データセットを識別器に提供する提供工程と、
    前記提供工程により前記学習用データセットを提供された前記識別器の設定を更新し、前記規定数以下の学習用データを含む前記学習用データセットを用いたメタ学習により前記識別器を生成する更新工程と
    を含むことを特徴とする識別器生成方法。
  8. アプリケーションのフローデータを取得する取得ステップと、
    前記取得ステップにより取得された前記フローデータから第1の特徴ベクトルを計算する計算ステップと、
    前記計算ステップにより計算された前記第1の特徴ベクトルを、同種のアプリケーションの特徴ベクトルが類似するような第2の特徴ベクトルに変換する変換ステップと、
    前記変換ステップにより変換された前記第2の特徴ベクトルをクラスタリングし、クラスタリングした前記第2の特徴ベクトルに疑似ラベルを付加する付加ステップと、
    前記付加ステップにより疑似ラベルを付加された前記第2の特徴ベクトルから規定数以下の学習用データを含む学習用データセットを生成する生成ステップと、
    前記生成ステップにより生成された前記学習用データセットを識別器に提供する提供ステップと、
    前記提供ステップにより前記学習用データセットを提供された前記識別器の設定を更新し、前記規定数以下の学習用データを含む前記学習用データセットを用いたメタ学習により前記識別器を生成する更新ステップと
    をコンピュータに実行させることを特徴とする識別器生成プログラム。
JP2022566525A 2020-12-01 2020-12-01 識別器生成装置、識別器生成方法および識別器生成プログラム Active JP7491404B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/044677 WO2022118373A1 (ja) 2020-12-01 2020-12-01 識別器生成装置、識別器生成方法および識別器生成プログラム

Publications (2)

Publication Number Publication Date
JPWO2022118373A1 JPWO2022118373A1 (ja) 2022-06-09
JP7491404B2 true JP7491404B2 (ja) 2024-05-28

Family

ID=81852986

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022566525A Active JP7491404B2 (ja) 2020-12-01 2020-12-01 識別器生成装置、識別器生成方法および識別器生成プログラム

Country Status (3)

Country Link
US (1) US20230419173A1 (ja)
JP (1) JP7491404B2 (ja)
WO (1) WO2022118373A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020079986A1 (ja) 2018-10-15 2020-04-23 日本電気株式会社 推定装置、システム及び方法及びコンピュータ可読媒体並びに学習装置及び方法及びコンピュータ可読媒体
JP2020181265A (ja) 2019-04-23 2020-11-05 日鉄ソリューションズ株式会社 情報処理装置、システム、情報処理方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020079986A1 (ja) 2018-10-15 2020-04-23 日本電気株式会社 推定装置、システム及び方法及びコンピュータ可読媒体並びに学習装置及び方法及びコンピュータ可読媒体
JP2020181265A (ja) 2019-04-23 2020-11-05 日鉄ソリューションズ株式会社 情報処理装置、システム、情報処理方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
塚谷 俊介、村崎 和彦、安藤 慎吾、島村 潤,教師なし特徴表現学習に基づくアクティブラーニング,電子情報通信学会技術研究報告 Vol.119 No.193 [online] IEICE Technical Report,日本,一般社団法人電子情報通信学会,2019年08月28日,第119巻,pp.115-119

Also Published As

Publication number Publication date
JPWO2022118373A1 (ja) 2022-06-09
US20230419173A1 (en) 2023-12-28
WO2022118373A1 (ja) 2022-06-09

Similar Documents

Publication Publication Date Title
Zeng et al. $ Deep-Full-Range $: a deep learning based network encrypted traffic classification and intrusion detection framework
DE602004010865T2 (de) Automatische Charakterisierung von Netzwerkverkehr
US11570070B2 (en) Network device classification apparatus and process
CN107683586A (zh) 用于异常检测中的计算基于小区密度的稀有度的方法和装置
US20180285397A1 (en) Entity-centric log indexing with context embedding
US20120054824A1 (en) Access control policy template generating device, system, method and program
WO2020228527A1 (zh) 数据流的分类方法和报文转发设备
JPWO2007060721A1 (ja) ネットワーク管理装置およびネットワークの管理方法
CN113992349B (zh) 恶意流量识别方法、装置、设备和存储介质
WO2022001924A1 (zh) 构建知识图谱的方法、装置及系统、计算机存储介质
US20210027167A1 (en) Model structure extraction for analyzing unstructured text data
WO2020170852A1 (ja) 予測装置、予測方法及びプログラム
CN116405419A (zh) 一种基于小样本学习的未知网络协议分类方法
Shrivastav et al. Network traffic classification using semi-supervised approach
JP7491404B2 (ja) 識別器生成装置、識別器生成方法および識別器生成プログラム
Yan et al. TL-CNN-IDS: transfer learning-based intrusion detection system using convolutional neural network
Chen et al. A novel semi-supervised learning method for Internet application identification
Li et al. A fast traffic classification method based on SDN network
CN112383488A (zh) 一种适用于加密与非加密数据流的内容识别方法
WO2016177146A1 (zh) 一种网络流量数据的分类方法及装置
WO2021192186A1 (ja) 識別方法、識別装置及び識別プログラム
Santi et al. Automated and reproducible application traces generation for IoT applications
Haghanikhameneh et al. A comparison study between data mining algorithms over classification techniques in Squid dataset
Chowdhury et al. Internet of things: Digital footprints carry a device identity
Donelan et al. The analysis of user behaviour of a network management training tool using a neural network

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240123

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240322

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240416

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240429

R150 Certificate of patent or registration of utility model

Ref document number: 7491404

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150