JP7435744B2 - Identification method, identification device and identification program - Google Patents

Identification method, identification device and identification program Download PDF

Info

Publication number
JP7435744B2
JP7435744B2 JP2022510295A JP2022510295A JP7435744B2 JP 7435744 B2 JP7435744 B2 JP 7435744B2 JP 2022510295 A JP2022510295 A JP 2022510295A JP 2022510295 A JP2022510295 A JP 2022510295A JP 7435744 B2 JP7435744 B2 JP 7435744B2
Authority
JP
Japan
Prior art keywords
flow data
feature
feature information
data
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022510295A
Other languages
Japanese (ja)
Other versions
JPWO2021192186A1 (en
Inventor
駿 飛山
博 胡
和憲 神谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021192186A1 publication Critical patent/JPWO2021192186A1/ja
Application granted granted Critical
Publication of JP7435744B2 publication Critical patent/JP7435744B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2475Traffic characterised by specific attributes, e.g. priority or QoS for supporting traffic characterised by the type of applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/026Capturing of monitoring data using flow identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/028Capturing of monitoring data by filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows

Description

特許法第30条第2項適用 電子情報通信学会 信学技報 情報通信マネジメント研究会(ICM) vol.119 No.438 ICM2019-51 pp.55-60 発行日 2020年2月24日Application of Article 30, Paragraph 2 of the Patent Act IEICE Technical Report on Information and Communication Management (ICM) vol. 119 No. 438 ICM2019-51 pp. 55-60 Publication date February 24, 2020

本発明は、識別方法、識別装置及び識別プログラムに関する。 The present invention relates to an identification method, an identification device, and an identification program.

アプリケーション識別のために教師あり学習で識別器を作成する場合、大量のデータと各データポイントに対応したラベルとが必要となる。ここで、従来、パケットデータを用いてフローデータにラベルを付加する技術や、パケットデータを用いて特徴抽出を行う技術がある。 When creating a classifier using supervised learning for application identification, a large amount of data and labels corresponding to each data point are required. Conventionally, there are techniques for adding labels to flow data using packet data and techniques for extracting features using packet data.

T. Karagiannis, K. Papagiannaki and M. Faloutsos, “BLINC: Multilevel Traffic Classification in the Dark”, Proceedings of the ACM SIGCOMM 2005 Conference on Applications, Technologies, Architectures, and Protocols for Computer Communications, Philadelphia, Pennsylvania, USA, August 22-26, 2005T. Karagiannis, K. Papagiannaki and M. Faloutsos, “BLINC: Multilevel Traffic Classification in the Dark”, Proceedings of the ACM SIGCOMM 2005 Conference on Applications, Technologies, Architectures, and Protocols for Computer Communications, Philadelphia, Pennsylvania, USA, August 22-26, 2005 Z. Chen, K. He, J. Li and Y. Geng “Seq2Img: A Sequence-to-Image based Approach Towards IP Traffic Classification using Convolutional Neural Networks”, 2017 IEEE International Conference on Big Data (Big Data).Z. Chen, K. He, J. Li and Y. Geng “Seq2Img: A Sequence-to-Image based Approach Towards IP Traffic Classification using Convolutional Neural Networks”, 2017 IEEE International Conference on Big Data (Big Data).

しかしながら、アプリケーションレベルのラベルを付加するにあたり、フローデータを用いる場合、フローデータにIPアドレスやポート番号等の簡易な情報しか含まれないため、ラベルの付加が難しく精度も低いという問題があった。また、パケットデータを用いる場合、対象ネットワークの規模が大きいほど収集及び分析にかかる負荷も高いため、アプリケーションレベルのラベル付加が困難であり、大規模なネットワークでは適用が難しいという問題があった。 However, when using flow data to add application-level labels, there is a problem in that it is difficult to add labels and the accuracy is low because the flow data includes only simple information such as an IP address and a port number. Furthermore, when using packet data, the larger the target network, the higher the load on collection and analysis, making it difficult to add labels at the application level, making it difficult to apply to large-scale networks.

本発明は、上記に鑑みてなされたものであって、大規模なネットワークにおいても、トラフィックを発生させたアプリケーションを適切に識別することができる識別方法、識別装置及び識別プログラムを提供することを目的とする。 The present invention has been made in view of the above, and an object of the present invention is to provide an identification method, an identification device, and an identification program that can appropriately identify an application that generates traffic even in a large-scale network. shall be.

上述した課題を解決し、目的を達成するために、本発明に係る識別方法は、アプリケーションを識別する識別装置が実行する識別方法であって、所定のルールを満たすパケットデータ及び第1のフローデータを収集する収集工程と、パケットデータを分析してアプリケーションとIPアドレスとを対応付けるシグネチャを生成するシグネチャ生成工程と、パケットデータから第2のフローデータを生成するフローデータ生成工程と、第1のフローデータについてIPアドレスごとの統計的な特徴量である第1の特徴量情報を計算し、第2のフローデータについてIPアドレスごとの統計的な特徴量である第2の特徴量情報を計算する計算工程と、シグネチャを用いて第2の特徴量情報にラベルを付加する付加工程と、識別器に、第1の特徴量情報及び第2の特徴量情報を学習データとしてアプリケーションの識別を学習させる学習工程と、を含んだことを特徴とする。 In order to solve the above-mentioned problems and achieve the purpose, an identification method according to the present invention is an identification method executed by an identification device that identifies an application, and includes packet data and first flow data that satisfy a predetermined rule. a signature generation step that analyzes the packet data and generates a signature that associates the application with the IP address; a flow data generation step that generates second flow data from the packet data; Calculation of calculating first feature amount information, which is a statistical feature amount for each IP address, for the data, and calculating second feature amount information, which is a statistical feature amount for each IP address, for the second flow data. a step of adding a label to the second feature information using the signature; and a learning step of causing the discriminator to learn application identification using the first feature information and the second feature information as learning data. It is characterized by including a process.

また、本発明に係る識別装置は、アプリケーションを識別する識別装置であって、所定のルールを満たすパケットデータ及び第1のフローデータを収集する収集部と、パケットデータを分析してアプリケーションとIPアドレスとを対応付けるシグネチャを生成するシグネチャ生成部と、パケットデータから第2のフローデータを生成するフローデータ生成部と、第1のフローデータについてIPアドレスごとの統計的な特徴量である第1の特徴量情報を計算し、第2のフローデータについてIPアドレスごとの統計的な特徴量である第2の特徴量情報を計算する特徴量計算部と、シグネチャを用いて第2の特徴量情報にラベルを付加するラベル付加部と、識別器に、第1の特徴量情報及び第2の特徴量情報を学習データとしてアプリケーションの識別を学習させる学習部と、を有することを特徴とする。 Further, the identification device according to the present invention is an identification device that identifies an application, and includes a collection unit that collects packet data and first flow data that satisfy a predetermined rule, and an application and IP address that analyze the packet data. a flow data generation unit that generates second flow data from packet data; and a first feature that is a statistical feature amount for each IP address for the first flow data. a feature amount calculation unit that calculates second feature amount information that is a statistical feature amount for each IP address for the second flow data; The present invention is characterized by comprising a label adding unit that adds a label, and a learning unit that causes a discriminator to learn application identification using the first feature information and the second feature information as learning data.

また、本発明に係る識別プログラムは、所定のルールを満たすパケットデータ及び第1のフローデータを収集する収集ステップと、パケットデータを分析してアプリケーションとIPアドレスとを対応付けるシグネチャを生成する第1の生成ステップと、パケットデータから第2のフローデータを生成する第2の生成ステップと、第1のフローデータについてIPアドレスごとの統計的な特徴量である第1の特徴量情報を計算し、第2のフローデータについてIPアドレスごとの統計的な特徴量である第2の特徴量情報を計算する計算ステップと、シグネチャを用いて第2の特徴量情報にラベルを付加する付加ステップと、識別器に、第1の特徴量情報及び第2の特徴量情報を学習データとしてアプリケーションの識別を学習させる学習ステップと、をコンピュータに実行させる。 The identification program according to the present invention also includes a collection step of collecting packet data and first flow data that satisfy a predetermined rule, and a first step of analyzing the packet data to generate a signature that associates an application with an IP address. a generation step, a second generation step of generating second flow data from packet data, and calculating first feature information, which is a statistical feature for each IP address, for the first flow data; a calculation step of calculating second feature information, which is a statistical feature for each IP address, for the flow data of No. 2; an addition step of adding a label to the second feature information using a signature; and a discriminator. and a learning step of learning application identification using the first feature information and the second feature information as learning data.

本発明によれば、時空間データを含むデータ検索において、大規模なネットワークにおいても、トラフィックを発生させたアプリケーションを適切に識別することができる。 According to the present invention, in a data search including spatio-temporal data, an application that generates traffic can be appropriately identified even in a large-scale network.

図1は、実施の形態における通信システムの構成の一例を示すブロック図である。FIG. 1 is a block diagram showing an example of the configuration of a communication system in an embodiment. 図2は、実施の形態に係る学習処理の処理手順を示すフローチャートである。FIG. 2 is a flowchart showing the processing procedure of the learning process according to the embodiment. 図3は、実施の形態に係る識別処理の処理手順を示すフローチャートである。FIG. 3 is a flowchart showing the processing procedure of the identification process according to the embodiment. 図4は、実施の形態に係る識別装置の適用例を説明する図である。FIG. 4 is a diagram illustrating an application example of the identification device according to the embodiment. 図5は、実施の形態に係る識別装置10の他の適用例を説明する図である。FIG. 5 is a diagram illustrating another application example of the identification device 10 according to the embodiment. 図6は、プログラムが実行されることにより、識別装置が実現されるコンピュータの一例を示す図である。FIG. 6 is a diagram illustrating an example of a computer that implements an identification device by executing a program.

以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。 Hereinafter, one embodiment of the present invention will be described in detail with reference to the drawings. Note that the present invention is not limited to this embodiment. In addition, in the description of the drawings, the same parts are denoted by the same reference numerals.

[実施の形態]
図1は、実施の形態における通信システムの構成の一例を示すブロック図である。図1に示すように、実施の形態における通信システムでは、小規模ネットワーク(NW)機器2A,2Bと、識別対象NWルータ3A,3Bと、識別装置10と、を有する。複数の小規模NW機器2A,2Bと、複数の識別対象NWルータ3A,3Bと、識別装置10とは、ネットワークを介して通信を行う。なお、図1においては、小規模NW機器2A,2B及び識別対象NWルータ3A,3Bは、複数である場合を示すが、それぞれ単数であってもよい。
[Embodiment]
FIG. 1 is a block diagram showing an example of the configuration of a communication system in an embodiment. As shown in FIG. 1, the communication system according to the embodiment includes small-scale network (NW) devices 2A and 2B, NW routers to be identified 3A and 3B, and an identification device 10. The plurality of small-scale NW devices 2A, 2B, the plurality of identification target NW routers 3A, 3B, and the identification device 10 communicate via a network. Although FIG. 1 shows a case in which there are a plurality of small-scale NW devices 2A, 2B and identification target NW routers 3A, 3B, each may be a single number.

小規模NW機器2A,2Bは、小規模NWにおいて、トラフィックのミラーリングなどを行うことによって、小規模NWのトラフィックデータを識別装置10に送信する。小規模NW機器2A,2Bは、小規模NWのパケットデータD1を識別装置10に送信する。 The small-scale NW devices 2A and 2B transmit traffic data of the small-scale NW to the identification device 10 by performing traffic mirroring in the small-scale NW. The small-scale NW devices 2A and 2B transmit the small-scale NW packet data D1 to the identification device 10.

識別対象NWルータ3A,3Bは、アプリケーションの識別対象NWに設けられたルータであり、識別対象NWにおいて、フロー収集機能などを用いて、識別対象NWのネットワークフローデータ(フローデータ)D2を収集し、識別装置10に送信する。 The identification target NW routers 3A and 3B are routers provided in the identification target NW of the application, and collect network flow data (flow data) D2 of the identification target NW using a flow collection function or the like in the identification target NW. , to the identification device 10.

識別装置10は、識別対象NWにおけるフローデータから、トラフィックを発生させたアプリケーション(例えば、Webアプリケーション)を識別する。識別装置10は、識別器に、小規模NWのデータから生成したラベルありの学習データでアプリケーションの識別を事前学習させた後に、Domain Adaptationを用いてラベルのない識別対象NWのフローデータを学習に使用する。これによって、識別装置10は、大規模な識別対象NWにおけるフローデータにおいても、アプリケーションを識別可能な識別器を構築する。 The identification device 10 identifies an application (for example, a web application) that has generated traffic from the flow data in the identification target NW. The identification device 10 causes the discriminator to pre-train application identification using labeled learning data generated from data of a small-scale NW, and then uses Domain Adaptation to perform learning on unlabeled flow data of the NW to be identified. use. Thereby, the identification device 10 constructs a classifier that can identify applications even in flow data in a large-scale identification target NW.

[識別装置]
次に、図1を参照して、識別装置10について説明する。図1に示すように、識別装置10は、収集部11、シグネチャ生成部12、フローデータ生成部13、シグネチャデータベース(DB)14、特徴量計算部15、ラベル付加部16、識別器学習部17(学習部)、学習済み識別器18、アプリケーション識別部19(識別部)、及び、出力部20を有する。
[Identification device]
Next, the identification device 10 will be explained with reference to FIG. As shown in FIG. 1, the identification device 10 includes a collection unit 11, a signature generation unit 12, a flow data generation unit 13, a signature database (DB) 14, a feature calculation unit 15, a label addition unit 16, and a classifier learning unit 17. (learning unit), a learned classifier 18, an application identifying unit 19 (identifying unit), and an output unit 20.

なお、識別装置10は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。また、識別装置10は、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースを有する。例えば、識別装置10は、NIC(Network Interface Card)等を有し、LAN(Local Area Network)やインターネットなどの電気通信回線を介した他の装置との間の通信を行う。 Note that the identification device 10 is configured such that a predetermined program is read into a computer or the like including, for example, ROM (Read Only Memory), RAM (Random Access Memory), CPU (Central Processing Unit), etc., and the CPU executes the predetermined program. This is achieved by doing. The identification device 10 also has a communication interface for transmitting and receiving various information with other devices connected via a network or the like. For example, the identification device 10 includes a NIC (Network Interface Card) and the like, and communicates with other devices via a telecommunications line such as a LAN (Local Area Network) or the Internet.

収集部11は、所定のルールを満たすパケットデータ及びフローデータを収集する。収集部11は、学習時には、小規模NW機器2A,2Bから送信された小規模NWのパケットデータD1と、識別対象NWルータ3A,3Bから送信された大規模NWである識別対象NWのフローデータD2(第1のフローデータ)とを収集する。小規模NWのパケットデータD1は、後段の処理によって、ラベルを付加可能である程度の規模である小規模NWのパケットデータである。 The collection unit 11 collects packet data and flow data that satisfy predetermined rules. During learning, the collection unit 11 collects packet data D1 of the small-scale NW transmitted from the small-scale NW devices 2A and 2B, and flow data of the identification target NW, which is a large-scale NW, transmitted from the identification target NW routers 3A and 3B. D2 (first flow data). The small-scale NW packet data D1 is packet data of a small-scale NW that is of a certain size to which a label can be added through subsequent processing.

そして、収集部11は、学習時には、小規模NWのパケットデータD1をシグネチャ生成部12及びフローデータ生成部13に出力する。また、収集部11は、学習時には、第1のフローデータを特徴量計算部15に出力する。収集部11は、識別時には、識別対象となる識別対象NWのフローデータを収集し、特徴量計算部15に出力する。 Then, during learning, the collection unit 11 outputs the packet data D1 of the small-scale NW to the signature generation unit 12 and the flow data generation unit 13. Furthermore, the collection unit 11 outputs the first flow data to the feature calculation unit 15 during learning. At the time of identification, the collection unit 11 collects flow data of the identification target NW to be identified, and outputs it to the feature value calculation unit 15.

シグネチャ生成部12は、小規模NWのパケットデータD1を分析してアプリケーションとIPアドレスとを対応付けるシグネチャを生成する。シグネチャ生成部12は、小規模NWにおいて収集されたパケットデータをDPI装置などで分析して、パケットデータを発生させたアプリケーションカテゴリを示すラベル(例えば、アプリケーションの名称)と、送信元IPアドレス、送信先IPアドレス、ポート番号、及び、パケットを記録した時間の組と、を対応させたシグネチャを作成する。 The signature generation unit 12 analyzes the packet data D1 of the small-scale NW and generates a signature that associates applications with IP addresses. The signature generation unit 12 analyzes the packet data collected in the small-scale NW using a DPI device or the like, and generates a label (for example, the name of the application) indicating the application category that generated the packet data, the source IP address, and the transmission source IP address. A signature is created by associating the destination IP address, port number, and time at which the packet was recorded.

フローデータ生成部13は、小規模NWのパケットデータD1から第2のフローデータを生成する。 The flow data generation unit 13 generates second flow data from the packet data D1 of the small-scale NW.

シグネチャDB14は、シグネチャ生成部12が生成した、アプリケーションカテゴリを示すラベルと、送信元のIPアドレス、送信先のIPアドレス、ポート番号、及び、パケットを記録した時間の組と、を対応付けて記憶する。 The signature DB 14 associates and stores a label indicating an application category generated by the signature generation unit 12 and a set of a source IP address, a destination IP address, a port number, and the time at which the packet was recorded. do.

特徴量計算部15は、学習時には、識別対象NWのフローデータD2である第1のフローデータについてIPアドレスごとの統計的な特徴量である第1の特徴量情報を計算する。特徴量計算部15は、学習時には、フローデータ生成部13が小規模NWのパケットデータD1から生成した第2のフローデータについてIPアドレスごとの統計的な特徴量である第2の特徴量情報を計算する。また、特徴量計算部15は、識別時には、識別対象である識別対象NWのフローデータについてIPアドレスごとの統計的な特徴量である識別用特徴量情報を計算する。 During learning, the feature calculation unit 15 calculates first feature information, which is a statistical feature for each IP address, for the first flow data, which is the flow data D2 of the identification target NW. During learning, the feature calculation unit 15 calculates second feature information, which is a statistical feature for each IP address, for the second flow data generated by the flow data generation unit 13 from the packet data D1 of the small-scale NW. calculate. Further, at the time of identification, the feature calculation unit 15 calculates identification feature information, which is a statistical feature for each IP address, for the flow data of the identification target NW that is the identification target.

特徴量計算部15は、24時間あたりの、あるIPアドレスを送信元及び/または送信先とするフローデータの集合から、パケット数のヒストグラム、バイト数のヒストグラム、または、バイト及びパケット数のヒストグラムの少なくともいずれか一つを計算する。具体的には、特徴量計算部15は、第1のフローデータについて、送信先IPアドレス及び送信元IPアドレスごとに1パケットあたりのバイト数の平均等の統計量を計算し、第1の特徴量情報として抽出する。特徴量計算部15は、第2のフローデータについて、送信先IPアドレス及び送信元IPアドレスごとに1パケットあたりのバイト数の平均等の統計量を計算し、第2の特徴量情報として抽出する。 The feature calculation unit 15 calculates a histogram of the number of packets, a histogram of the number of bytes, or a histogram of the number of bytes and packets from a set of flow data with a certain IP address as the source and/or destination per 24 hours. Calculate at least one of them. Specifically, the feature calculation unit 15 calculates statistics such as the average number of bytes per packet for each destination IP address and source IP address for the first flow data, and calculates the first feature. Extract as quantity information. The feature calculation unit 15 calculates statistics such as the average number of bytes per packet for each destination IP address and source IP address for the second flow data, and extracts it as second feature information. .

ラベル付加部16は、学習時には、シグネチャ生成部12が生成したシグネチャを用いて第2の特徴量情報にラベルを付加する。 During learning, the label adding unit 16 uses the signature generated by the signature generating unit 12 to add a label to the second feature amount information.

識別器学習部17は、識別器に、第1の特徴量情報及び第2の特徴量情報を学習データとして、アプリケーションの識別を学習させる。識別器学習部17は、ラベル付加部16が生成されたラベル付きの第2の特徴量情報を用いて、識別器の事前学習を行う。その後、識別器学習部17は、第1の特徴量情報とラベルなしの第2の特徴量情報とを用いて、ドメイン適用技術により、識別器の学習を行う。識別器学習部17は、事前学習で得られた識別器と第1の特徴量情報及びラベルなしの第2の特徴量情報とを用い、Domain Adaptationにより識別器の学習を行う。 The classifier learning unit 17 causes the classifier to learn application identification using the first feature amount information and the second feature amount information as learning data. The classifier learning unit 17 performs preliminary training of the classifier using the labeled second feature amount information generated by the label adding unit 16. Thereafter, the classifier learning unit 17 uses the first feature amount information and the unlabeled second feature amount information to perform learning of the classifier using the domain application technique. The classifier learning unit 17 performs classifier learning by Domain Adaptation using the classifier obtained through preliminary learning, the first feature information, and the unlabeled second feature information.

学習済み識別器18は、識別器学習部17における事前学習及び学習によって、識別対象であるフローデータのIPアドレスに対応するアプリケーションを識別することが可能となった識別器である。具体的には、学習済み識別器18は、識別対象であるフローデータの特徴量情報を入力とし、識別対象であるフローデータのIPアドレスが各アプリケーションを提供している確率を出力する。 The trained discriminator 18 is a discriminator that has become capable of identifying an application corresponding to the IP address of the flow data to be identified through prior learning and learning in the discriminator learning unit 17. Specifically, the learned classifier 18 inputs the feature amount information of the flow data to be identified, and outputs the probability that the IP address of the flow data to be identified provides each application.

アプリケーション識別部19は、学習済み識別器18を用いて、識別対象であるフローデータのIPアドレスに対応するアプリケーションを識別する。アプリケーション識別部19は、識別時において、識別用特徴量情報を学習済み識別器18に入力し、学習済み識別器18から出力された識別結果を基に、識別対象であるフローデータのIPアドレスに対応するアプリケーションを識別する。出力部20は、アプリケーション識別部19は、による識別結果を、例えば、外部装置等に出力する。 The application identifying unit 19 uses the learned classifier 18 to identify an application corresponding to the IP address of the flow data to be identified. At the time of identification, the application identification unit 19 inputs the identification feature information to the trained classifier 18, and based on the classification result output from the trained classifier 18, the application identification unit 19 inputs the identification feature information to the learned classifier 18, and uses the IP address of the flow data to be identified based on the classification result output from the learned classifier 18. Identify the corresponding application. The output unit 20 outputs the identification result obtained by the application identification unit 19 to, for example, an external device.

[学習処理]
次に、図1に示す識別装置10が実行する識別器に対する学習処理について説明する。図2は、実施の形態に係る学習処理の処理手順を示すフローチャートである。
[Learning process]
Next, a learning process for the classifier executed by the classifier 10 shown in FIG. 1 will be described. FIG. 2 is a flowchart showing the processing procedure of the learning process according to the embodiment.

図2に示すように、収集部11は、小規模NWのパケットデータD1と、識別対象NWのフローデータD2(第1のフローデータ)を収集する収集処理を行う(ステップS1)。 As shown in FIG. 2, the collection unit 11 performs a collection process to collect packet data D1 of the small-scale NW and flow data D2 (first flow data) of the identified NW (step S1).

そして、シグネチャ生成部12は、小規模NWのパケットデータD1を分析してアプリケーションとIPアドレスとを対応付けるシグネチャを生成する(ステップS2)。また、フローデータ生成部13は、小規模NWのパケットデータD1から第2のフローデータを生成する(ステップS3)。 Then, the signature generation unit 12 analyzes the packet data D1 of the small-scale NW and generates a signature that associates the application with the IP address (step S2). Furthermore, the flow data generation unit 13 generates second flow data from the packet data D1 of the small-scale NW (step S3).

特徴量計算部15は、第2のフローデータについてIPアドレスごとの統計的な特徴量である第2の特徴量情報を計算する(ステップS4)。ラベル付加部16は、学習時には、シグネチャ生成部12が生成したシグネチャを用いて第2の特徴量情報にラベルを付加する(ステップS5)。識別器学習部17は、ラベル付加部16が生成されたラベル付きの第2の特徴量情報を用いて、識別器の事前学習を行う(ステップS6)。 The feature calculation unit 15 calculates second feature information, which is a statistical feature for each IP address, for the second flow data (step S4). During learning, the label adding unit 16 adds a label to the second feature amount information using the signature generated by the signature generating unit 12 (step S5). The classifier learning unit 17 performs preliminary training of the classifier using the labeled second feature amount information generated by the label adding unit 16 (step S6).

また、特徴量計算部15は、第1のフローデータについてIPアドレスごとの統計的な特徴量である第1の特徴量情報を計算する(ステップS7)。識別器学習部17は、事前学習で得られた識別器と第1の特徴量情報及びラベルなしの第2の特徴量情報とを用い、Domain Adaptationにより識別器の学習を行う(ステップS8)。そして、識別器学習部17が、学習済み識別器18を生成する。 Further, the feature calculation unit 15 calculates first feature information, which is a statistical feature for each IP address, for the first flow data (step S7). The classifier learning unit 17 performs classifier learning by Domain Adaptation using the classifier obtained through preliminary learning, the first feature information, and the unlabeled second feature information (step S8). Then, the classifier learning unit 17 generates a trained classifier 18.

[識別処理]
次に、図1に示す識別装置10が実行する、識別対象NWのフローデータのIPアドレスに対応するアプリケーションを識別する識別処理について説明する。図3は、実施の形態に係る識別処理の処理手順を示すフローチャートである。
[Identification processing]
Next, an identification process for identifying an application corresponding to an IP address of flow data of an identification target NW, which is executed by the identification device 10 shown in FIG. 1, will be described. FIG. 3 is a flowchart showing the processing procedure of the identification process according to the embodiment.

図3に示すように、収集部11は、識別時には、識別対象となる大規模NWである識別対象NWのフローデータを収集する(ステップS11)。続いて、特徴量計算部15は、識別対象NWのフローデータについてIPアドレスごとの統計的な特徴量である識別用特徴量情報を計算する(ステップS12)。 As shown in FIG. 3, at the time of identification, the collection unit 11 collects flow data of the identification target NW, which is a large-scale NW to be identified (step S11). Subsequently, the feature calculation unit 15 calculates identification feature information, which is a statistical feature for each IP address, for the flow data of the identification target NW (step S12).

アプリケーション識別部19は、学習済み識別器18を用いて、識別対象であるフローデータのIPアドレスに対応するアプリケーションを識別する(ステップS13)。出力部20は、アプリケーション識別部19は、による識別結果を、例えば、外部装置等に出力する(ステップS14)。 The application identifying unit 19 uses the learned classifier 18 to identify the application corresponding to the IP address of the flow data to be identified (step S13). The output unit 20 outputs the identification result obtained by the application identification unit 19 to, for example, an external device (step S14).

[適用例1]
識別装置10の適用例について説明する。図4は、実施の形態に係る識別装置10の適用例を説明する図である。
[Application example 1]
An application example of the identification device 10 will be described. FIG. 4 is a diagram illustrating an application example of the identification device 10 according to the embodiment.

図4に示すように、ISP NWにおいて収集されるネットワークフローデータを、識別装置10で識別し、識別結果としてISP NWのフローデータのIPアドレスが各アプリケーションを提供している確率を可視化する。これによって、ネットワーク管理者は、詳細なNW状況を把握できるようになり、重点的に投資するべき経路(例えば、経路R1,R2)を把握することができる。このように、識別装置10を適用することによって、ISPネットワークのトラフィック可視化によるNW監視の効率化や設備投資計画の効率化を図ることができる。 As shown in FIG. 4, the network flow data collected in the ISP NW is identified by the identification device 10, and as a result of the identification, the probability that the IP address of the flow data of the ISP NW provides each application is visualized. This allows the network administrator to understand the detailed NW situation, and to understand which routes (for example, routes R1 and R2) should be invested heavily. In this way, by applying the identification device 10, it is possible to improve the efficiency of NW monitoring and equipment investment planning by visualizing the traffic of the ISP network.

[適用例2]
図5は、実施の形態に係る識別装置10の他の適用例を説明する図である。図5に示すように、大規模なトラフィックデータDtからごく少量含まれる悪性通信を検知する際に識別装置10を適用する。
[Application example 2]
FIG. 5 is a diagram illustrating another application example of the identification device 10 according to the embodiment. As shown in FIG. 5, the identification device 10 is applied when detecting a very small amount of malicious communication included in large-scale traffic data Dt.

具体的には、識別装置10における識別処理を、大規模なトラフィックデータDtに実施し、大規模なトラフィックデータDtから、事前に正常なトラフィックを除外することによって、調査すべきトラフィックデータDmの量を減少させることができる。このように、識別装置10を適用することによって、悪性通信検知のためのスクリーニングを行うことができ、悪性通信検知にかかる負担を軽減することができる。 Specifically, by performing identification processing in the identification device 10 on large-scale traffic data Dt and excluding normal traffic from the large-scale traffic data Dt in advance, the amount of traffic data Dm to be investigated can be determined. can be reduced. In this way, by applying the identification device 10, screening for malicious communication detection can be performed, and the burden placed on malicious communication detection can be reduced.

[実施の形態の効果]
このように、本実施の形態に係る識別装置10は、識別器に、小規模NWのデータから生成したラベルつきの学習データを用いて学習させた後、ドメイン適用技術を用いて、ラベルなしの大規模NWである識別対象NWのフローデータと、ラベルなしの小規模NWのデータとを学習させる。
[Effects of embodiment]
In this way, the identification device 10 according to the present embodiment causes the classifier to learn using the labeled learning data generated from the data of the small-scale NW, and then uses the domain application technique to learn the unlabeled large-scale The flow data of the identification target NW, which is a large-scale NW, and the data of a small-scale NW without a label are learned.

この結果、識別装置10は、Domain Adaptationを用いて、ラベルなしの識別対象NWのフローデータを学習に使用することで、小規模NWのデータから生成したラベルありの学習データで学習させただけの場合と比して、識別対象NWのデータをより正確に識別可能な識別器を構築することができる。 As a result, the identification device 10 uses Domain Adaptation to use the unlabeled flow data of the identification target NW for learning. In this case, it is possible to construct a classifier that can more accurately identify the data of the NW to be identified.

上記のように、識別装置10によれば、小規模NWのデータに限らず、これまでラベル付加が困難であった大規模NWのフローデータについても、トラフィックを発生させたアプリケーションの識別が可能となり、大規模NWにおいてもアプリケーションレベルのトラフィック識別が可能になる。 As described above, according to the identification device 10, it is possible to identify applications that generate traffic not only for data from small-scale networks but also for flow data from large-scale networks, for which labeling has been difficult until now. , application-level traffic identification becomes possible even in large-scale networks.

[システム構成等]
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[System configuration, etc.]
Each component of each device shown in the drawings is functionally conceptual, and does not necessarily need to be physically configured as shown in the drawings. In other words, the specific form of distributing and integrating each device is not limited to what is shown in the diagram, and all or part of the devices can be functionally or physically distributed or integrated in arbitrary units depending on various loads, usage conditions, etc. Can be integrated and configured. Furthermore, all or any part of each processing function performed by each device can be realized by a CPU and a program that is analyzed and executed by the CPU, or can be realized as hardware using wired logic.

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。 Furthermore, among the processes described in this embodiment, all or part of the processes described as being performed automatically can be performed manually, or the processes described as being performed manually can be performed manually. All or part of this can also be done automatically using a known method. In addition, information including processing procedures, control procedures, specific names, and various data and parameters shown in the above documents and drawings may be changed arbitrarily, unless otherwise specified.

[プログラム]
図6は、プログラムが実行されることにより、識別装置10が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
[program]
FIG. 6 is a diagram showing an example of a computer that implements the identification device 10 by executing a program. Computer 1000 includes, for example, a memory 1010 and a CPU 1020. The computer 1000 also includes a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. These parts are connected by a bus 1080.

メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。 The memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012. The ROM 1011 stores, for example, a boot program such as BIOS (Basic Input Output System). Hard disk drive interface 1030 is connected to hard disk drive 1090. Disk drive interface 1040 is connected to disk drive 1100. For example, a removable storage medium such as a magnetic disk or an optical disk is inserted into disk drive 1100. Serial port interface 1050 is connected to, for example, mouse 1110 and keyboard 1120. Video adapter 1060 is connected to display 1130, for example.

ハードディスクドライブ1090は、例えば、OS(Operating System)1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、識別装置10の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、識別装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。 The hard disk drive 1090 stores, for example, an OS (Operating System) 1091, application programs 1092, program modules 1093, and program data 1094. That is, a program that defines each process of the identification device 10 is implemented as a program module 1093 in which computer-executable code is written. Program module 1093 is stored in hard disk drive 1090, for example. For example, a program module 1093 for executing processing similar to the functional configuration of the identification device 10 is stored in the hard disk drive 1090. Note that the hard disk drive 1090 may be replaced by an SSD (Solid State Drive).

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。 Furthermore, the setting data used in the processing of the embodiment described above is stored as program data 1094 in, for example, the memory 1010 or the hard disk drive 1090. Then, the CPU 1020 reads out the program module 1093 and program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as necessary and executes them.

なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。 Note that the program module 1093 and the program data 1094 are not limited to being stored in the hard disk drive 1090, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, program module 1093 and program data 1094 may be stored in another computer connected via a network (LAN, WAN (Wide Area Network), etc.). The program module 1093 and program data 1094 may then be read by the CPU 1020 from another computer via the network interface 1070.

以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。 Although embodiments to which the invention made by the present inventor is applied have been described above, the present invention is not limited by the description and drawings that form part of the disclosure of the present invention by this embodiment. That is, all other embodiments, examples, operational techniques, etc. made by those skilled in the art based on this embodiment are included in the scope of the present invention.

2A,2B 小規模ネットワーク(NW)機器
3A,3B 識別対象NWルータ
10 識別装置
11 収集部
12 シグネチャ生成部
13 フローデータ生成部
14 シグネチャデータベース(DB)
15 特徴量計算部
16 ラベル付加部
17 識別器学習部
18 学習済み識別器
19 アプリケーション識別部
20 出力部
2A, 2B Small network (NW) equipment 3A, 3B NW router to be identified 10 Identification device 11 Collection section 12 Signature generation section 13 Flow data generation section 14 Signature database (DB)
15 Feature calculation section 16 Label addition section 17 Discriminator learning section 18 Learned classifier 19 Application identification section 20 Output section

Claims (5)

アプリケーションを識別する識別装置が実行する識別方法であって、
所定のルールを満たす小規模ネットワークからのパケットデータ及び識別対象の大規模ネットワークの第1のフローデータを収集する収集工程と、
前記小規模ネットワークからのパケットデータを分析してアプリケーションとIPアドレスとを対応付けるシグネチャを生成するシグネチャ生成工程と、
前記小規模ネットワークからのパケットデータから第2のフローデータを生成するフローデータ生成工程と、
前記大規模ネットワークの第1のフローデータについてIPアドレスごとの統計的な特徴量である第1の特徴量情報を計算し、前記第2のフローデータについてIPアドレスごとの統計的な特徴量である第2の特徴量情報を計算する計算工程と、
前記シグネチャを用いて前記第2の特徴量情報にラベルを付加する付加工程と、
識別器に、前記第1の特徴量情報及び前記第2の特徴量情報を学習データとして前記アプリケーションの識別を学習させる学習工程と、
を含み、
前記学習工程は、前記ラベルが付加された前記第2の特徴量情報を学習データとして事前に前記識別器に学習させ、ラベルなしの前記第1の特徴量情報とラベルなしの前記第2の特徴量情報とを用いて、ドメイン適用技術により前記識別器の学習を行うことを特徴とする識別方法。
An identification method performed by an identification device for identifying an application, the method comprising:
a collection step of collecting packet data from the small-scale network that satisfies predetermined rules and first flow data of the large-scale network to be identified ;
a signature generation step of analyzing packet data from the small network to generate a signature that associates an application with an IP address;
a flow data generation step of generating second flow data from packet data from the small-scale network ;
First feature information, which is a statistical feature for each IP address, is calculated for the first flow data of the large-scale network , and first feature information is a statistical feature for each IP address, for the second flow data. a calculation step of calculating second feature information;
an addition step of adding a label to the second feature amount information using the signature;
a learning step of causing a classifier to learn to identify the application using the first feature information and the second feature information as learning data;
including;
In the learning step, the classifier is trained in advance by using the second feature information to which the label is added as learning data, and the first feature information without a label and the second feature information without a label are trained in advance. An identification method characterized in that the discriminator is trained by a domain application technique using quantity information .
前記識別器を用いて、識別対象であるフローデータのIPアドレスに対応するアプリケーションを識別する識別工程をさらに含み、
前記収集工程は、前記識別対象であるフローデータを収集し、
前記計算工程は、前記識別対象であるフローデータについてIPアドレスごとの統計的な特徴量である識別用特徴量情報を計算し、
前記識別工程は、前記識別用特徴量情報を前記識別器に入力し、前記識別器から出力された識別結果を基に、前記識別対象であるフローデータのIPアドレスに対応するアプリケーションを識別することを特徴とする請求項1に記載の識別方法。
further comprising an identification step of using the identifier to identify an application corresponding to an IP address of the flow data to be identified;
The collecting step collects the flow data to be identified,
The calculation step calculates identification feature amount information, which is a statistical feature amount for each IP address, for the flow data to be identified,
The identification step includes inputting the identification feature information to the classifier, and identifying an application corresponding to the IP address of the flow data to be identified based on the classification result output from the classifier. The identification method according to claim 1, characterized in that:
前記計算工程は、24時間あたりの、あるIPアドレスを送信元及び/または送信先とするフローデータの集合から、パケット数のヒストグラム、バイト数のヒストグラム、または、バイト及びパケット数のヒストグラムの少なくともいずれか一つを計算することを特徴とする請求項1または2に記載の識別方法。 The calculation step calculates at least one of a histogram of the number of packets, a histogram of the number of bytes, or a histogram of the number of bytes and packets from a set of flow data with a certain IP address as a source and/or destination per 24 hours. The identification method according to claim 1 or 2, characterized in that one of the following is calculated. アプリケーションを識別する識別装置であって、
所定のルールを満たす小規模ネットワークからのパケットデータ及び識別対象の大規模ネットワークの第1のフローデータを収集する収集部と、
前記小規模ネットワークからのパケットデータを分析してアプリケーションとIPアドレスとを対応付けるシグネチャを生成するシグネチャ生成部と、
前記小規模ネットワークからのパケットデータから第2のフローデータを生成するフローデータ生成部と、
前記大規模ネットワークの第1のフローデータについてIPアドレスごとの統計的な特徴量である第1の特徴量情報を計算し、前記第2のフローデータについてIPアドレスごとの統計的な特徴量である第2の特徴量情報を計算する特徴量計算部と、
前記シグネチャを用いて前記第2の特徴量情報にラベルを付加するラベル付加部と、
識別器に、前記第1の特徴量情報及び前記第2の特徴量情報を学習データとして前記アプリケーションの識別を学習させる学習部と、
を有し、
前記学習部は、前記ラベルが付加された前記第2の特徴量情報を学習データとして事前に前記識別器に学習させ、ラベルなしの前記第1の特徴量情報とラベルなしの前記第2の特徴量情報とを用いて、ドメイン適用技術により前記識別器の学習を行うことを特徴とすることを特徴とする識別装置。
An identification device for identifying an application, comprising:
a collection unit that collects packet data from the small-scale network that satisfies predetermined rules and first flow data of the large-scale network to be identified ;
a signature generation unit that analyzes packet data from the small-scale network and generates a signature that associates an application with an IP address;
a flow data generation unit that generates second flow data from packet data from the small-scale network ;
First feature information, which is a statistical feature for each IP address, is calculated for the first flow data of the large-scale network , and first feature information is a statistical feature for each IP address, for the second flow data. a feature calculation unit that calculates second feature information;
a label adding unit that adds a label to the second feature amount information using the signature;
a learning unit that causes a classifier to learn to identify the application using the first feature information and the second feature information as learning data;
has
The learning unit causes the discriminator to learn in advance the second feature information to which the label is added as learning data, and the first feature information without a label and the second feature without a label. An identification device characterized in that the discriminator is trained by a domain application technique using quantity information .
所定のルールを満たす小規模ネットワークからのパケットデータ及び識別対象の大規模ネットワークの第1のフローデータを収集する収集ステップと、
前記小規模ネットワークからのパケットデータを分析してアプリケーションとIPアドレスとを対応付けるシグネチャを生成するシグネチャ生成ステップと、
前記小規模ネットワークからのパケットデータから第2のフローデータを生成するフローデータ生成ステップと、
前記大規模ネットワークの第1のフローデータについてIPアドレスごとの統計的な特徴量である第1の特徴量情報を計算し、前記第2のフローデータについてIPアドレスごとの統計的な特徴量である第2の特徴量情報を計算する計算ステップと、
前記シグネチャを用いて前記第2の特徴量情報にラベルを付加する付加ステップと、
識別器に、前記第1の特徴量情報及び前記第2の特徴量情報を学習データとしてアプリケーションの識別を学習させる学習ステップと、
をコンピュータに実行させ
前記学習ステップは、前記ラベルが付加された前記第2の特徴量情報を学習データとして事前に前記識別器に学習させ、ラベルなしの前記第1の特徴量情報とラベルなしの前記第2の特徴量情報とを用いて、ドメイン適用技術により前記識別器の学習を行う識別プログラム。
a collection step of collecting packet data from the small network and first flow data of the large network to be identified that satisfy a predetermined rule;
a signature generation step of analyzing packet data from the small network to generate a signature that associates an application with an IP address;
a flow data generation step of generating second flow data from packet data from the small-scale network ;
First feature information, which is a statistical feature for each IP address, is calculated for the first flow data of the large-scale network , and first feature information is a statistical feature for each IP address, for the second flow data. a calculation step of calculating second feature information;
an adding step of adding a label to the second feature amount information using the signature;
a learning step of causing a classifier to learn application identification using the first feature information and the second feature information as learning data;
make the computer run
In the learning step, the classifier is trained in advance by using the second feature information to which the label is added as learning data, and the first feature information without a label and the second feature information without a label are trained in advance. An identification program that performs learning of the discriminator using domain application technology using quantity information .
JP2022510295A 2020-03-26 2020-03-26 Identification method, identification device and identification program Active JP7435744B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/013849 WO2021192186A1 (en) 2020-03-26 2020-03-26 Identification method, identification device, and identification program

Publications (2)

Publication Number Publication Date
JPWO2021192186A1 JPWO2021192186A1 (en) 2021-09-30
JP7435744B2 true JP7435744B2 (en) 2024-02-21

Family

ID=77891011

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022510295A Active JP7435744B2 (en) 2020-03-26 2020-03-26 Identification method, identification device and identification program

Country Status (3)

Country Link
US (1) US20230136929A1 (en)
JP (1) JP7435744B2 (en)
WO (1) WO2021192186A1 (en)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8332334B2 (en) * 2009-09-24 2012-12-11 Yahoo! Inc. System and method for cross domain learning for data augmentation
US9038172B2 (en) * 2011-05-06 2015-05-19 The Penn State Research Foundation Robust anomaly detection and regularized domain adaptation of classifiers with application to internet packet-flows

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
飛山 駿,少量のパケットデータを用いた大規模フローデータに適用可能なWebアプリケーション識別手法,電子情報通信学会技術研究報告 Vol.118 No.486 [online],日本,一般社団法人電子情報通信学会,2019年02月28日,pp.53-58

Also Published As

Publication number Publication date
US20230136929A1 (en) 2023-05-04
WO2021192186A1 (en) 2021-09-30
JPWO2021192186A1 (en) 2021-09-30

Similar Documents

Publication Publication Date Title
Vlăduţu et al. Internet traffic classification based on flows' statistical properties with machine learning
US20040236866A1 (en) Automated characterization of network traffic
Lichodzijewski et al. Dynamic intrusion detection using self-organizing maps
CN107683586A (en) Method and apparatus for rare degree of the calculating in abnormality detection based on cell density
US20180285397A1 (en) Entity-centric log indexing with context embedding
US20100042565A1 (en) Mezzazine in-depth data analysis facility
CN111953552B (en) Data flow classification method and message forwarding equipment
JP2009527839A (en) Method and system for transaction monitoring in a communication network
Perera Jayasuriya Kuranage et al. Network traffic classification using machine learning for software defined networks
CN115600128A (en) Semi-supervised encrypted traffic classification method and device and storage medium
Fan et al. Autoiot: Automatically updated iot device identification with semi-supervised learning
JP7435744B2 (en) Identification method, identification device and identification program
Erdenebaatar et al. Analyzing traffic characteristics of instant messaging applications on android smartphones
Guo et al. FullSight: A feasible intelligent and collaborative framework for service function chains failure detection
Abdalla et al. Impact of packet inter-arrival time features for online peer-to-peer (P2P) classification
Muzammil et al. Comparative analysis of classification algorithms performance for statistical based intrusion detection system
CN113037551B (en) Quick identification and positioning method for sensitive-related services based on traffic slice
Sija et al. Survey on network protocol reverse engineering approaches, methods and tools
CN115242724A (en) High-speed network traffic service classification method based on two-stage clustering
CN114900362A (en) Extensible network attack detection method based on behavior diagram and Weisfeiler Lehman algorithm
CN114666273A (en) Application layer unknown network protocol oriented traffic classification method
CN105610655A (en) Router traffic monitoring and analysis method
WO2022118373A1 (en) Discriminator generation device, discriminator generation method, and discriminator generation program
CN112235254A (en) Rapid identification method for Tor network bridge in high-speed backbone network
Yoon et al. Framework for multi-level application traffic identification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220819

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A801

Effective date: 20220819

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20220819

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230822

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231016

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240122

R150 Certificate of patent or registration of utility model

Ref document number: 7435744

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150