JP7435744B2 - 識別方法、識別装置及び識別プログラム - Google Patents

識別方法、識別装置及び識別プログラム Download PDF

Info

Publication number
JP7435744B2
JP7435744B2 JP2022510295A JP2022510295A JP7435744B2 JP 7435744 B2 JP7435744 B2 JP 7435744B2 JP 2022510295 A JP2022510295 A JP 2022510295A JP 2022510295 A JP2022510295 A JP 2022510295A JP 7435744 B2 JP7435744 B2 JP 7435744B2
Authority
JP
Japan
Prior art keywords
flow data
feature
feature information
data
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022510295A
Other languages
English (en)
Other versions
JPWO2021192186A1 (ja
Inventor
駿 飛山
博 胡
和憲 神谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021192186A1 publication Critical patent/JPWO2021192186A1/ja
Application granted granted Critical
Publication of JP7435744B2 publication Critical patent/JP7435744B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2475Traffic characterised by specific attributes, e.g. priority or QoS for supporting traffic characterised by the type of applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/026Capturing of monitoring data using flow identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/028Capturing of monitoring data by filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

特許法第30条第2項適用 電子情報通信学会 信学技報 情報通信マネジメント研究会(ICM) vol.119 No.438 ICM2019-51 pp.55-60 発行日 2020年2月24日
本発明は、識別方法、識別装置及び識別プログラムに関する。
アプリケーション識別のために教師あり学習で識別器を作成する場合、大量のデータと各データポイントに対応したラベルとが必要となる。ここで、従来、パケットデータを用いてフローデータにラベルを付加する技術や、パケットデータを用いて特徴抽出を行う技術がある。
T. Karagiannis, K. Papagiannaki and M. Faloutsos, "BLINC: Multilevel Traffic Classification in the Dark", Proceedings of the ACM SIGCOMM 2005 Conference on Applications, Technologies, Architectures, and Protocols for Computer Communications, Philadelphia, Pennsylvania, USA, August 22-26, 2005 Z. Chen, K. He, J. Li and Y. Geng "Seq2Img: A Sequence-to-Image based Approach Towards IP Traffic Classification using Convolutional Neural Networks", 2017 IEEE International Conference on Big Data (Big Data).
しかしながら、アプリケーションレベルのラベルを付加するにあたり、フローデータを用いる場合、フローデータにIPアドレスやポート番号等の簡易な情報しか含まれないため、ラベルの付加が難しく精度も低いという問題があった。また、パケットデータを用いる場合、対象ネットワークの規模が大きいほど収集及び分析にかかる負荷も高いため、アプリケーションレベルのラベル付加が困難であり、大規模なネットワークでは適用が難しいという問題があった。
本発明は、上記に鑑みてなされたものであって、大規模なネットワークにおいても、トラフィックを発生させたアプリケーションを適切に識別することができる識別方法、識別装置及び識別プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明に係る識別方法は、アプリケーションを識別する識別装置が実行する識別方法であって、所定のルールを満たすパケットデータ及び第1のフローデータを収集する収集工程と、パケットデータを分析してアプリケーションとIPアドレスとを対応付けるシグネチャを生成するシグネチャ生成工程と、パケットデータから第2のフローデータを生成するフローデータ生成工程と、第1のフローデータについてIPアドレスごとの統計的な特徴量である第1の特徴量情報を計算し、第2のフローデータについてIPアドレスごとの統計的な特徴量である第2の特徴量情報を計算する計算工程と、シグネチャを用いて第2の特徴量情報にラベルを付加する付加工程と、識別器に、第1の特徴量情報及び第2の特徴量情報を学習データとしてアプリケーションの識別を学習させる学習工程と、を含んだことを特徴とする。
また、本発明に係る識別装置は、アプリケーションを識別する識別装置であって、所定のルールを満たすパケットデータ及び第1のフローデータを収集する収集部と、パケットデータを分析してアプリケーションとIPアドレスとを対応付けるシグネチャを生成するシグネチャ生成部と、パケットデータから第2のフローデータを生成するフローデータ生成部と、第1のフローデータについてIPアドレスごとの統計的な特徴量である第1の特徴量情報を計算し、第2のフローデータについてIPアドレスごとの統計的な特徴量である第2の特徴量情報を計算する特徴量計算部と、シグネチャを用いて第2の特徴量情報にラベルを付加するラベル付加部と、識別器に、第1の特徴量情報及び第2の特徴量情報を学習データとしてアプリケーションの識別を学習させる学習部と、を有することを特徴とする。
また、本発明に係る識別プログラムは、所定のルールを満たすパケットデータ及び第1のフローデータを収集する収集ステップと、パケットデータを分析してアプリケーションとIPアドレスとを対応付けるシグネチャを生成する第1の生成ステップと、パケットデータから第2のフローデータを生成する第2の生成ステップと、第1のフローデータについてIPアドレスごとの統計的な特徴量である第1の特徴量情報を計算し、第2のフローデータについてIPアドレスごとの統計的な特徴量である第2の特徴量情報を計算する計算ステップと、シグネチャを用いて第2の特徴量情報にラベルを付加する付加ステップと、識別器に、第1の特徴量情報及び第2の特徴量情報を学習データとしてアプリケーションの識別を学習させる学習ステップと、をコンピュータに実行させる。
本発明によれば、時空間データを含むデータ検索において、大規模なネットワークにおいても、トラフィックを発生させたアプリケーションを適切に識別することができる。
図1は、実施の形態における通信システムの構成の一例を示すブロック図である。 図2は、実施の形態に係る学習処理の処理手順を示すフローチャートである。 図3は、実施の形態に係る識別処理の処理手順を示すフローチャートである。 図4は、実施の形態に係る識別装置の適用例を説明する図である。 図5は、実施の形態に係る識別装置10の他の適用例を説明する図である。 図6は、プログラムが実行されることにより、識別装置が実現されるコンピュータの一例を示す図である。
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[実施の形態]
図1は、実施の形態における通信システムの構成の一例を示すブロック図である。図1に示すように、実施の形態における通信システムでは、小規模ネットワーク(NW)機器2A,2Bと、識別対象NWルータ3A,3Bと、識別装置10と、を有する。複数の小規模NW機器2A,2Bと、複数の識別対象NWルータ3A,3Bと、識別装置10とは、ネットワークを介して通信を行う。なお、図1においては、小規模NW機器2A,2B及び識別対象NWルータ3A,3Bは、複数である場合を示すが、それぞれ単数であってもよい。
小規模NW機器2A,2Bは、小規模NWにおいて、トラフィックのミラーリングなどを行うことによって、小規模NWのトラフィックデータを識別装置10に送信する。小規模NW機器2A,2Bは、小規模NWのパケットデータD1を識別装置10に送信する。
識別対象NWルータ3A,3Bは、アプリケーションの識別対象NWに設けられたルータであり、識別対象NWにおいて、フロー収集機能などを用いて、識別対象NWのネットワークフローデータ(フローデータ)D2を収集し、識別装置10に送信する。
識別装置10は、識別対象NWにおけるフローデータから、トラフィックを発生させたアプリケーション(例えば、Webアプリケーション)を識別する。識別装置10は、識別器に、小規模NWのデータから生成したラベルありの学習データでアプリケーションの識別を事前学習させた後に、Domain Adaptationを用いてラベルのない識別対象NWのフローデータを学習に使用する。これによって、識別装置10は、大規模な識別対象NWにおけるフローデータにおいても、アプリケーションを識別可能な識別器を構築する。
[識別装置]
次に、図1を参照して、識別装置10について説明する。図1に示すように、識別装置10は、収集部11、シグネチャ生成部12、フローデータ生成部13、シグネチャデータベース(DB)14、特徴量計算部15、ラベル付加部16、識別器学習部17(学習部)、学習済み識別器18、アプリケーション識別部19(識別部)、及び、出力部20を有する。
なお、識別装置10は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。また、識別装置10は、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースを有する。例えば、識別装置10は、NIC(Network Interface Card)等を有し、LAN(Local Area Network)やインターネットなどの電気通信回線を介した他の装置との間の通信を行う。
収集部11は、所定のルールを満たすパケットデータ及びフローデータを収集する。収集部11は、学習時には、小規模NW機器2A,2Bから送信された小規模NWのパケットデータD1と、識別対象NWルータ3A,3Bから送信された大規模NWである識別対象NWのフローデータD2(第1のフローデータ)とを収集する。小規模NWのパケットデータD1は、後段の処理によって、ラベルを付加可能である程度の規模である小規模NWのパケットデータである。
そして、収集部11は、学習時には、小規模NWのパケットデータD1をシグネチャ生成部12及びフローデータ生成部13に出力する。また、収集部11は、学習時には、第1のフローデータを特徴量計算部15に出力する。収集部11は、識別時には、識別対象となる識別対象NWのフローデータを収集し、特徴量計算部15に出力する。
シグネチャ生成部12は、小規模NWのパケットデータD1を分析してアプリケーションとIPアドレスとを対応付けるシグネチャを生成する。シグネチャ生成部12は、小規模NWにおいて収集されたパケットデータをDPI装置などで分析して、パケットデータを発生させたアプリケーションカテゴリを示すラベル(例えば、アプリケーションの名称)と、送信元IPアドレス、送信先IPアドレス、ポート番号、及び、パケットを記録した時間の組と、を対応させたシグネチャを作成する。
フローデータ生成部13は、小規模NWのパケットデータD1から第2のフローデータを生成する。
シグネチャDB14は、シグネチャ生成部12が生成した、アプリケーションカテゴリを示すラベルと、送信元のIPアドレス、送信先のIPアドレス、ポート番号、及び、パケットを記録した時間の組と、を対応付けて記憶する。
特徴量計算部15は、学習時には、識別対象NWのフローデータD2である第1のフローデータについてIPアドレスごとの統計的な特徴量である第1の特徴量情報を計算する。特徴量計算部15は、学習時には、フローデータ生成部13が小規模NWのパケットデータD1から生成した第2のフローデータについてIPアドレスごとの統計的な特徴量である第2の特徴量情報を計算する。また、特徴量計算部15は、識別時には、識別対象である識別対象NWのフローデータについてIPアドレスごとの統計的な特徴量である識別用特徴量情報を計算する。
特徴量計算部15は、24時間あたりの、あるIPアドレスを送信元及び/または送信先とするフローデータの集合から、パケット数のヒストグラム、バイト数のヒストグラム、または、バイト及びパケット数のヒストグラムの少なくともいずれか一つを計算する。具体的には、特徴量計算部15は、第1のフローデータについて、送信先IPアドレス及び送信元IPアドレスごとに1パケットあたりのバイト数の平均等の統計量を計算し、第1の特徴量情報として抽出する。特徴量計算部15は、第2のフローデータについて、送信先IPアドレス及び送信元IPアドレスごとに1パケットあたりのバイト数の平均等の統計量を計算し、第2の特徴量情報として抽出する。
ラベル付加部16は、学習時には、シグネチャ生成部12が生成したシグネチャを用いて第2の特徴量情報にラベルを付加する。
識別器学習部17は、識別器に、第1の特徴量情報及び第2の特徴量情報を学習データとして、アプリケーションの識別を学習させる。識別器学習部17は、ラベル付加部16が生成されたラベル付きの第2の特徴量情報を用いて、識別器の事前学習を行う。その後、識別器学習部17は、第1の特徴量情報とラベルなしの第2の特徴量情報とを用いて、ドメイン適用技術により、識別器の学習を行う。識別器学習部17は、事前学習で得られた識別器と第1の特徴量情報及びラベルなしの第2の特徴量情報とを用い、Domain Adaptationにより識別器の学習を行う。
学習済み識別器18は、識別器学習部17における事前学習及び学習によって、識別対象であるフローデータのIPアドレスに対応するアプリケーションを識別することが可能となった識別器である。具体的には、学習済み識別器18は、識別対象であるフローデータの特徴量情報を入力とし、識別対象であるフローデータのIPアドレスが各アプリケーションを提供している確率を出力する。
アプリケーション識別部19は、学習済み識別器18を用いて、識別対象であるフローデータのIPアドレスに対応するアプリケーションを識別する。アプリケーション識別部19は、識別時において、識別用特徴量情報を学習済み識別器18に入力し、学習済み識別器18から出力された識別結果を基に、識別対象であるフローデータのIPアドレスに対応するアプリケーションを識別する。出力部20は、アプリケーション識別部19は、による識別結果を、例えば、外部装置等に出力する。
[学習処理]
次に、図1に示す識別装置10が実行する識別器に対する学習処理について説明する。図2は、実施の形態に係る学習処理の処理手順を示すフローチャートである。
図2に示すように、収集部11は、小規模NWのパケットデータD1と、識別対象NWのフローデータD2(第1のフローデータ)を収集する収集処理を行う(ステップS1)。
そして、シグネチャ生成部12は、小規模NWのパケットデータD1を分析してアプリケーションとIPアドレスとを対応付けるシグネチャを生成する(ステップS2)。また、フローデータ生成部13は、小規模NWのパケットデータD1から第2のフローデータを生成する(ステップS3)。
特徴量計算部15は、第2のフローデータについてIPアドレスごとの統計的な特徴量である第2の特徴量情報を計算する(ステップS4)。ラベル付加部16は、学習時には、シグネチャ生成部12が生成したシグネチャを用いて第2の特徴量情報にラベルを付加する(ステップS5)。識別器学習部17は、ラベル付加部16が生成されたラベル付きの第2の特徴量情報を用いて、識別器の事前学習を行う(ステップS6)。
また、特徴量計算部15は、第1のフローデータについてIPアドレスごとの統計的な特徴量である第1の特徴量情報を計算する(ステップS7)。識別器学習部17は、事前学習で得られた識別器と第1の特徴量情報及びラベルなしの第2の特徴量情報とを用い、Domain Adaptationにより識別器の学習を行う(ステップS8)。そして、識別器学習部17が、学習済み識別器18を生成する。
[識別処理]
次に、図1に示す識別装置10が実行する、識別対象NWのフローデータのIPアドレスに対応するアプリケーションを識別する識別処理について説明する。図3は、実施の形態に係る識別処理の処理手順を示すフローチャートである。
図3に示すように、収集部11は、識別時には、識別対象となる大規模NWである識別対象NWのフローデータを収集する(ステップS11)。続いて、特徴量計算部15は、識別対象NWのフローデータについてIPアドレスごとの統計的な特徴量である識別用特徴量情報を計算する(ステップS12)。
アプリケーション識別部19は、学習済み識別器18を用いて、識別対象であるフローデータのIPアドレスに対応するアプリケーションを識別する(ステップS13)。出力部20は、アプリケーション識別部19は、による識別結果を、例えば、外部装置等に出力する(ステップS14)。
[適用例1]
識別装置10の適用例について説明する。図4は、実施の形態に係る識別装置10の適用例を説明する図である。
図4に示すように、ISP NWにおいて収集されるネットワークフローデータを、識別装置10で識別し、識別結果としてISP NWのフローデータのIPアドレスが各アプリケーションを提供している確率を可視化する。これによって、ネットワーク管理者は、詳細なNW状況を把握できるようになり、重点的に投資するべき経路(例えば、経路R1,R2)を把握することができる。このように、識別装置10を適用することによって、ISPネットワークのトラフィック可視化によるNW監視の効率化や設備投資計画の効率化を図ることができる。
[適用例2]
図5は、実施の形態に係る識別装置10の他の適用例を説明する図である。図5に示すように、大規模なトラフィックデータDtからごく少量含まれる悪性通信を検知する際に識別装置10を適用する。
具体的には、識別装置10における識別処理を、大規模なトラフィックデータDtに実施し、大規模なトラフィックデータDtから、事前に正常なトラフィックを除外することによって、調査すべきトラフィックデータDmの量を減少させることができる。このように、識別装置10を適用することによって、悪性通信検知のためのスクリーニングを行うことができ、悪性通信検知にかかる負担を軽減することができる。
[実施の形態の効果]
このように、本実施の形態に係る識別装置10は、識別器に、小規模NWのデータから生成したラベルつきの学習データを用いて学習させた後、ドメイン適用技術を用いて、ラベルなしの大規模NWである識別対象NWのフローデータと、ラベルなしの小規模NWのデータとを学習させる。
この結果、識別装置10は、Domain Adaptationを用いて、ラベルなしの識別対象NWのフローデータを学習に使用することで、小規模NWのデータから生成したラベルありの学習データで学習させただけの場合と比して、識別対象NWのデータをより正確に識別可能な識別器を構築することができる。
上記のように、識別装置10によれば、小規模NWのデータに限らず、これまでラベル付加が困難であった大規模NWのフローデータについても、トラフィックを発生させたアプリケーションの識別が可能となり、大規模NWにおいてもアプリケーションレベルのトラフィック識別が可能になる。
[システム構成等]
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
図6は、プログラムが実行されることにより、識別装置10が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS(Operating System)1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、識別装置10の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、識別装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。
2A,2B 小規模ネットワーク(NW)機器
3A,3B 識別対象NWルータ
10 識別装置
11 収集部
12 シグネチャ生成部
13 フローデータ生成部
14 シグネチャデータベース(DB)
15 特徴量計算部
16 ラベル付加部
17 識別器学習部
18 学習済み識別器
19 アプリケーション識別部
20 出力部

Claims (5)

  1. アプリケーションを識別する識別装置が実行する識別方法であって、
    所定のルールを満たす小規模ネットワークからのパケットデータ及び識別対象の大規模ネットワークの第1のフローデータを収集する収集工程と、
    前記小規模ネットワークからのパケットデータを分析してアプリケーションとIPアドレスとを対応付けるシグネチャを生成するシグネチャ生成工程と、
    前記小規模ネットワークからのパケットデータから第2のフローデータを生成するフローデータ生成工程と、
    前記大規模ネットワークの第1のフローデータについてIPアドレスごとの統計的な特徴量である第1の特徴量情報を計算し、前記第2のフローデータについてIPアドレスごとの統計的な特徴量である第2の特徴量情報を計算する計算工程と、
    前記シグネチャを用いて前記第2の特徴量情報にラベルを付加する付加工程と、
    識別器に、前記第1の特徴量情報及び前記第2の特徴量情報を学習データとして前記アプリケーションの識別を学習させる学習工程と、
    を含み、
    前記学習工程は、前記ラベルが付加された前記第2の特徴量情報を学習データとして事前に前記識別器に学習させ、ラベルなしの前記第1の特徴量情報とラベルなしの前記第2の特徴量情報とを用いて、ドメイン適用技術により前記識別器の学習を行うことを特徴とする識別方法。
  2. 前記識別器を用いて、識別対象であるフローデータのIPアドレスに対応するアプリケーションを識別する識別工程をさらに含み、
    前記収集工程は、前記識別対象であるフローデータを収集し、
    前記計算工程は、前記識別対象であるフローデータについてIPアドレスごとの統計的な特徴量である識別用特徴量情報を計算し、
    前記識別工程は、前記識別用特徴量情報を前記識別器に入力し、前記識別器から出力された識別結果を基に、前記識別対象であるフローデータのIPアドレスに対応するアプリケーションを識別することを特徴とする請求項1に記載の識別方法。
  3. 前記計算工程は、24時間あたりの、あるIPアドレスを送信元及び/または送信先とするフローデータの集合から、パケット数のヒストグラム、バイト数のヒストグラム、または、バイト及びパケット数のヒストグラムの少なくともいずれか一つを計算することを特徴とする請求項1または2に記載の識別方法。
  4. アプリケーションを識別する識別装置であって、
    所定のルールを満たす小規模ネットワークからのパケットデータ及び識別対象の大規模ネットワークの第1のフローデータを収集する収集部と、
    前記小規模ネットワークからのパケットデータを分析してアプリケーションとIPアドレスとを対応付けるシグネチャを生成するシグネチャ生成部と、
    前記小規模ネットワークからのパケットデータから第2のフローデータを生成するフローデータ生成部と、
    前記大規模ネットワークの第1のフローデータについてIPアドレスごとの統計的な特徴量である第1の特徴量情報を計算し、前記第2のフローデータについてIPアドレスごとの統計的な特徴量である第2の特徴量情報を計算する特徴量計算部と、
    前記シグネチャを用いて前記第2の特徴量情報にラベルを付加するラベル付加部と、
    識別器に、前記第1の特徴量情報及び前記第2の特徴量情報を学習データとして前記アプリケーションの識別を学習させる学習部と、
    を有し、
    前記学習部は、前記ラベルが付加された前記第2の特徴量情報を学習データとして事前に前記識別器に学習させ、ラベルなしの前記第1の特徴量情報とラベルなしの前記第2の特徴量情報とを用いて、ドメイン適用技術により前記識別器の学習を行うことを特徴とすることを特徴とする識別装置。
  5. 所定のルールを満たす小規模ネットワークからのパケットデータ及び識別対象の大規模ネットワークの第1のフローデータを収集する収集ステップと、
    前記小規模ネットワークからのパケットデータを分析してアプリケーションとIPアドレスとを対応付けるシグネチャを生成するシグネチャ生成ステップと、
    前記小規模ネットワークからのパケットデータから第2のフローデータを生成するフローデータ生成ステップと、
    前記大規模ネットワークの第1のフローデータについてIPアドレスごとの統計的な特徴量である第1の特徴量情報を計算し、前記第2のフローデータについてIPアドレスごとの統計的な特徴量である第2の特徴量情報を計算する計算ステップと、
    前記シグネチャを用いて前記第2の特徴量情報にラベルを付加する付加ステップと、
    識別器に、前記第1の特徴量情報及び前記第2の特徴量情報を学習データとしてアプリケーションの識別を学習させる学習ステップと、
    をコンピュータに実行させ
    前記学習ステップは、前記ラベルが付加された前記第2の特徴量情報を学習データとして事前に前記識別器に学習させ、ラベルなしの前記第1の特徴量情報とラベルなしの前記第2の特徴量情報とを用いて、ドメイン適用技術により前記識別器の学習を行う識別プログラム。
JP2022510295A 2020-03-26 2020-03-26 識別方法、識別装置及び識別プログラム Active JP7435744B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/013849 WO2021192186A1 (ja) 2020-03-26 2020-03-26 識別方法、識別装置及び識別プログラム

Publications (2)

Publication Number Publication Date
JPWO2021192186A1 JPWO2021192186A1 (ja) 2021-09-30
JP7435744B2 true JP7435744B2 (ja) 2024-02-21

Family

ID=77891011

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022510295A Active JP7435744B2 (ja) 2020-03-26 2020-03-26 識別方法、識別装置及び識別プログラム

Country Status (3)

Country Link
US (1) US20230136929A1 (ja)
JP (1) JP7435744B2 (ja)
WO (1) WO2021192186A1 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7843843B1 (en) * 2004-03-29 2010-11-30 Packeteer, Inc. Adaptive, application-aware selection of differntiated network services
US8332334B2 (en) * 2009-09-24 2012-12-11 Yahoo! Inc. System and method for cross domain learning for data augmentation
US9038172B2 (en) * 2011-05-06 2015-05-19 The Penn State Research Foundation Robust anomaly detection and regularized domain adaptation of classifiers with application to internet packet-flows
US10375090B2 (en) * 2017-03-27 2019-08-06 Cisco Technology, Inc. Machine learning-based traffic classification using compressed network telemetry data

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
飛山 駿,少量のパケットデータを用いた大規模フローデータに適用可能なWebアプリケーション識別手法,電子情報通信学会技術研究報告 Vol.118 No.486 [online],日本,一般社団法人電子情報通信学会,2019年02月28日,pp.53-58

Also Published As

Publication number Publication date
US20230136929A1 (en) 2023-05-04
JPWO2021192186A1 (ja) 2021-09-30
WO2021192186A1 (ja) 2021-09-30

Similar Documents

Publication Publication Date Title
CN110597734B (zh) 一种适用于工控私有协议的模糊测试用例生成方法
JP4076974B2 (ja) ネットワーク・トラフィックの自動特性記述
US20040236866A1 (en) Automated characterization of network traffic
US20180285397A1 (en) Entity-centric log indexing with context embedding
US20100042565A1 (en) Mezzazine in-depth data analysis facility
CN111953552B (zh) 数据流的分类方法和报文转发设备
CN109861957A (zh) 一种移动应用私有加密协议的用户行为精细化分类方法及系统
JP2009527839A (ja) 通信ネットワークのトランザクション監視のための方法及びシステム
CN115600128A (zh) 一种半监督加密流量分类方法、装置及存储介质
Perona et al. Service-independent payload analysis to improve intrusion detection in network traffic
Fan et al. AutoIoT: Automatically updated IoT device identification with semi-supervised learning
Guo et al. FullSight: A feasible intelligent and collaborative framework for service function chains failure detection
CN114666273A (zh) 一种面向应用层未知网络协议的流量分类方法
CN118138306A (zh) 一种基于机器学习的加密流量分类方法
JP7435744B2 (ja) 識別方法、識別装置及び識別プログラム
Erdenebaatar et al. Analyzing traffic characteristics of instant messaging applications on android smartphones
CN112235254A (zh) 一种高速主干网中Tor网桥的快速识别方法
CN115242724B (zh) 一种基于两阶段聚类的高速网络流量服务分类方法
WO2021001879A1 (ja) トラフィック監視装置、およびトラフィック監視方法
Sija et al. Survey on network protocol reverse engineering approaches, methods and tools
CN113037551B (zh) 一种基于流量切片的涉敏业务快速识别定位方法
WO2022118373A1 (ja) 識別器生成装置、識別器生成方法および識別器生成プログラム
Alshammari et al. Performance comparison of four rule sets: An example for encrypted traffic classification
US12056000B1 (en) Anomaly detection by analyzing logs using machine learning
CN115589362B (zh) 设备类型指纹的生成方法及识别方法、设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220819

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A801

Effective date: 20220819

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20220819

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230822

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231016

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240122

R150 Certificate of patent or registration of utility model

Ref document number: 7435744

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150