JP7435744B2 - Identification method, identification device and identification program - Google Patents
Identification method, identification device and identification program Download PDFInfo
- Publication number
- JP7435744B2 JP7435744B2 JP2022510295A JP2022510295A JP7435744B2 JP 7435744 B2 JP7435744 B2 JP 7435744B2 JP 2022510295 A JP2022510295 A JP 2022510295A JP 2022510295 A JP2022510295 A JP 2022510295A JP 7435744 B2 JP7435744 B2 JP 7435744B2
- Authority
- JP
- Japan
- Prior art keywords
- flow data
- feature
- feature information
- data
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 37
- 238000004364 calculation method Methods 0.000 claims description 21
- 238000005516 engineering process Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000006978 adaptation Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2475—Traffic characterised by specific attributes, e.g. priority or QoS for supporting traffic characterised by the type of applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
- H04L43/026—Capturing of monitoring data using flow identification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
- H04L43/028—Capturing of monitoring data by filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2441—Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2483—Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
Description
特許法第30条第2項適用 電子情報通信学会 信学技報 情報通信マネジメント研究会(ICM) vol.119 No.438 ICM2019-51 pp.55-60 発行日 2020年2月24日Application of Article 30, Paragraph 2 of the Patent Act IEICE Technical Report on Information and Communication Management (ICM) vol. 119 No. 438 ICM2019-51 pp. 55-60 Publication date February 24, 2020
本発明は、識別方法、識別装置及び識別プログラムに関する。 The present invention relates to an identification method, an identification device, and an identification program.
アプリケーション識別のために教師あり学習で識別器を作成する場合、大量のデータと各データポイントに対応したラベルとが必要となる。ここで、従来、パケットデータを用いてフローデータにラベルを付加する技術や、パケットデータを用いて特徴抽出を行う技術がある。 When creating a classifier using supervised learning for application identification, a large amount of data and labels corresponding to each data point are required. Conventionally, there are techniques for adding labels to flow data using packet data and techniques for extracting features using packet data.
しかしながら、アプリケーションレベルのラベルを付加するにあたり、フローデータを用いる場合、フローデータにIPアドレスやポート番号等の簡易な情報しか含まれないため、ラベルの付加が難しく精度も低いという問題があった。また、パケットデータを用いる場合、対象ネットワークの規模が大きいほど収集及び分析にかかる負荷も高いため、アプリケーションレベルのラベル付加が困難であり、大規模なネットワークでは適用が難しいという問題があった。 However, when using flow data to add application-level labels, there is a problem in that it is difficult to add labels and the accuracy is low because the flow data includes only simple information such as an IP address and a port number. Furthermore, when using packet data, the larger the target network, the higher the load on collection and analysis, making it difficult to add labels at the application level, making it difficult to apply to large-scale networks.
本発明は、上記に鑑みてなされたものであって、大規模なネットワークにおいても、トラフィックを発生させたアプリケーションを適切に識別することができる識別方法、識別装置及び識別プログラムを提供することを目的とする。 The present invention has been made in view of the above, and an object of the present invention is to provide an identification method, an identification device, and an identification program that can appropriately identify an application that generates traffic even in a large-scale network. shall be.
上述した課題を解決し、目的を達成するために、本発明に係る識別方法は、アプリケーションを識別する識別装置が実行する識別方法であって、所定のルールを満たすパケットデータ及び第1のフローデータを収集する収集工程と、パケットデータを分析してアプリケーションとIPアドレスとを対応付けるシグネチャを生成するシグネチャ生成工程と、パケットデータから第2のフローデータを生成するフローデータ生成工程と、第1のフローデータについてIPアドレスごとの統計的な特徴量である第1の特徴量情報を計算し、第2のフローデータについてIPアドレスごとの統計的な特徴量である第2の特徴量情報を計算する計算工程と、シグネチャを用いて第2の特徴量情報にラベルを付加する付加工程と、識別器に、第1の特徴量情報及び第2の特徴量情報を学習データとしてアプリケーションの識別を学習させる学習工程と、を含んだことを特徴とする。 In order to solve the above-mentioned problems and achieve the purpose, an identification method according to the present invention is an identification method executed by an identification device that identifies an application, and includes packet data and first flow data that satisfy a predetermined rule. a signature generation step that analyzes the packet data and generates a signature that associates the application with the IP address; a flow data generation step that generates second flow data from the packet data; Calculation of calculating first feature amount information, which is a statistical feature amount for each IP address, for the data, and calculating second feature amount information, which is a statistical feature amount for each IP address, for the second flow data. a step of adding a label to the second feature information using the signature; and a learning step of causing the discriminator to learn application identification using the first feature information and the second feature information as learning data. It is characterized by including a process.
また、本発明に係る識別装置は、アプリケーションを識別する識別装置であって、所定のルールを満たすパケットデータ及び第1のフローデータを収集する収集部と、パケットデータを分析してアプリケーションとIPアドレスとを対応付けるシグネチャを生成するシグネチャ生成部と、パケットデータから第2のフローデータを生成するフローデータ生成部と、第1のフローデータについてIPアドレスごとの統計的な特徴量である第1の特徴量情報を計算し、第2のフローデータについてIPアドレスごとの統計的な特徴量である第2の特徴量情報を計算する特徴量計算部と、シグネチャを用いて第2の特徴量情報にラベルを付加するラベル付加部と、識別器に、第1の特徴量情報及び第2の特徴量情報を学習データとしてアプリケーションの識別を学習させる学習部と、を有することを特徴とする。 Further, the identification device according to the present invention is an identification device that identifies an application, and includes a collection unit that collects packet data and first flow data that satisfy a predetermined rule, and an application and IP address that analyze the packet data. a flow data generation unit that generates second flow data from packet data; and a first feature that is a statistical feature amount for each IP address for the first flow data. a feature amount calculation unit that calculates second feature amount information that is a statistical feature amount for each IP address for the second flow data; The present invention is characterized by comprising a label adding unit that adds a label, and a learning unit that causes a discriminator to learn application identification using the first feature information and the second feature information as learning data.
また、本発明に係る識別プログラムは、所定のルールを満たすパケットデータ及び第1のフローデータを収集する収集ステップと、パケットデータを分析してアプリケーションとIPアドレスとを対応付けるシグネチャを生成する第1の生成ステップと、パケットデータから第2のフローデータを生成する第2の生成ステップと、第1のフローデータについてIPアドレスごとの統計的な特徴量である第1の特徴量情報を計算し、第2のフローデータについてIPアドレスごとの統計的な特徴量である第2の特徴量情報を計算する計算ステップと、シグネチャを用いて第2の特徴量情報にラベルを付加する付加ステップと、識別器に、第1の特徴量情報及び第2の特徴量情報を学習データとしてアプリケーションの識別を学習させる学習ステップと、をコンピュータに実行させる。 The identification program according to the present invention also includes a collection step of collecting packet data and first flow data that satisfy a predetermined rule, and a first step of analyzing the packet data to generate a signature that associates an application with an IP address. a generation step, a second generation step of generating second flow data from packet data, and calculating first feature information, which is a statistical feature for each IP address, for the first flow data; a calculation step of calculating second feature information, which is a statistical feature for each IP address, for the flow data of No. 2; an addition step of adding a label to the second feature information using a signature; and a discriminator. and a learning step of learning application identification using the first feature information and the second feature information as learning data.
本発明によれば、時空間データを含むデータ検索において、大規模なネットワークにおいても、トラフィックを発生させたアプリケーションを適切に識別することができる。 According to the present invention, in a data search including spatio-temporal data, an application that generates traffic can be appropriately identified even in a large-scale network.
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。 Hereinafter, one embodiment of the present invention will be described in detail with reference to the drawings. Note that the present invention is not limited to this embodiment. In addition, in the description of the drawings, the same parts are denoted by the same reference numerals.
[実施の形態]
図1は、実施の形態における通信システムの構成の一例を示すブロック図である。図1に示すように、実施の形態における通信システムでは、小規模ネットワーク(NW)機器2A,2Bと、識別対象NWルータ3A,3Bと、識別装置10と、を有する。複数の小規模NW機器2A,2Bと、複数の識別対象NWルータ3A,3Bと、識別装置10とは、ネットワークを介して通信を行う。なお、図1においては、小規模NW機器2A,2B及び識別対象NWルータ3A,3Bは、複数である場合を示すが、それぞれ単数であってもよい。
[Embodiment]
FIG. 1 is a block diagram showing an example of the configuration of a communication system in an embodiment. As shown in FIG. 1, the communication system according to the embodiment includes small-scale network (NW) devices 2A and 2B, NW routers to be identified 3A and 3B, and an
小規模NW機器2A,2Bは、小規模NWにおいて、トラフィックのミラーリングなどを行うことによって、小規模NWのトラフィックデータを識別装置10に送信する。小規模NW機器2A,2Bは、小規模NWのパケットデータD1を識別装置10に送信する。
The small-scale NW devices 2A and 2B transmit traffic data of the small-scale NW to the
識別対象NWルータ3A,3Bは、アプリケーションの識別対象NWに設けられたルータであり、識別対象NWにおいて、フロー収集機能などを用いて、識別対象NWのネットワークフローデータ(フローデータ)D2を収集し、識別装置10に送信する。
The identification
識別装置10は、識別対象NWにおけるフローデータから、トラフィックを発生させたアプリケーション(例えば、Webアプリケーション)を識別する。識別装置10は、識別器に、小規模NWのデータから生成したラベルありの学習データでアプリケーションの識別を事前学習させた後に、Domain Adaptationを用いてラベルのない識別対象NWのフローデータを学習に使用する。これによって、識別装置10は、大規模な識別対象NWにおけるフローデータにおいても、アプリケーションを識別可能な識別器を構築する。
The
[識別装置]
次に、図1を参照して、識別装置10について説明する。図1に示すように、識別装置10は、収集部11、シグネチャ生成部12、フローデータ生成部13、シグネチャデータベース(DB)14、特徴量計算部15、ラベル付加部16、識別器学習部17(学習部)、学習済み識別器18、アプリケーション識別部19(識別部)、及び、出力部20を有する。
[Identification device]
Next, the
なお、識別装置10は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。また、識別装置10は、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースを有する。例えば、識別装置10は、NIC(Network Interface Card)等を有し、LAN(Local Area Network)やインターネットなどの電気通信回線を介した他の装置との間の通信を行う。
Note that the
収集部11は、所定のルールを満たすパケットデータ及びフローデータを収集する。収集部11は、学習時には、小規模NW機器2A,2Bから送信された小規模NWのパケットデータD1と、識別対象NWルータ3A,3Bから送信された大規模NWである識別対象NWのフローデータD2(第1のフローデータ)とを収集する。小規模NWのパケットデータD1は、後段の処理によって、ラベルを付加可能である程度の規模である小規模NWのパケットデータである。
The
そして、収集部11は、学習時には、小規模NWのパケットデータD1をシグネチャ生成部12及びフローデータ生成部13に出力する。また、収集部11は、学習時には、第1のフローデータを特徴量計算部15に出力する。収集部11は、識別時には、識別対象となる識別対象NWのフローデータを収集し、特徴量計算部15に出力する。
Then, during learning, the
シグネチャ生成部12は、小規模NWのパケットデータD1を分析してアプリケーションとIPアドレスとを対応付けるシグネチャを生成する。シグネチャ生成部12は、小規模NWにおいて収集されたパケットデータをDPI装置などで分析して、パケットデータを発生させたアプリケーションカテゴリを示すラベル(例えば、アプリケーションの名称)と、送信元IPアドレス、送信先IPアドレス、ポート番号、及び、パケットを記録した時間の組と、を対応させたシグネチャを作成する。
The
フローデータ生成部13は、小規模NWのパケットデータD1から第2のフローデータを生成する。
The flow
シグネチャDB14は、シグネチャ生成部12が生成した、アプリケーションカテゴリを示すラベルと、送信元のIPアドレス、送信先のIPアドレス、ポート番号、及び、パケットを記録した時間の組と、を対応付けて記憶する。
The
特徴量計算部15は、学習時には、識別対象NWのフローデータD2である第1のフローデータについてIPアドレスごとの統計的な特徴量である第1の特徴量情報を計算する。特徴量計算部15は、学習時には、フローデータ生成部13が小規模NWのパケットデータD1から生成した第2のフローデータについてIPアドレスごとの統計的な特徴量である第2の特徴量情報を計算する。また、特徴量計算部15は、識別時には、識別対象である識別対象NWのフローデータについてIPアドレスごとの統計的な特徴量である識別用特徴量情報を計算する。
During learning, the feature calculation unit 15 calculates first feature information, which is a statistical feature for each IP address, for the first flow data, which is the flow data D2 of the identification target NW. During learning, the feature calculation unit 15 calculates second feature information, which is a statistical feature for each IP address, for the second flow data generated by the flow
特徴量計算部15は、24時間あたりの、あるIPアドレスを送信元及び/または送信先とするフローデータの集合から、パケット数のヒストグラム、バイト数のヒストグラム、または、バイト及びパケット数のヒストグラムの少なくともいずれか一つを計算する。具体的には、特徴量計算部15は、第1のフローデータについて、送信先IPアドレス及び送信元IPアドレスごとに1パケットあたりのバイト数の平均等の統計量を計算し、第1の特徴量情報として抽出する。特徴量計算部15は、第2のフローデータについて、送信先IPアドレス及び送信元IPアドレスごとに1パケットあたりのバイト数の平均等の統計量を計算し、第2の特徴量情報として抽出する。 The feature calculation unit 15 calculates a histogram of the number of packets, a histogram of the number of bytes, or a histogram of the number of bytes and packets from a set of flow data with a certain IP address as the source and/or destination per 24 hours. Calculate at least one of them. Specifically, the feature calculation unit 15 calculates statistics such as the average number of bytes per packet for each destination IP address and source IP address for the first flow data, and calculates the first feature. Extract as quantity information. The feature calculation unit 15 calculates statistics such as the average number of bytes per packet for each destination IP address and source IP address for the second flow data, and extracts it as second feature information. .
ラベル付加部16は、学習時には、シグネチャ生成部12が生成したシグネチャを用いて第2の特徴量情報にラベルを付加する。
During learning, the label adding unit 16 uses the signature generated by the
識別器学習部17は、識別器に、第1の特徴量情報及び第2の特徴量情報を学習データとして、アプリケーションの識別を学習させる。識別器学習部17は、ラベル付加部16が生成されたラベル付きの第2の特徴量情報を用いて、識別器の事前学習を行う。その後、識別器学習部17は、第1の特徴量情報とラベルなしの第2の特徴量情報とを用いて、ドメイン適用技術により、識別器の学習を行う。識別器学習部17は、事前学習で得られた識別器と第1の特徴量情報及びラベルなしの第2の特徴量情報とを用い、Domain Adaptationにより識別器の学習を行う。
The
学習済み識別器18は、識別器学習部17における事前学習及び学習によって、識別対象であるフローデータのIPアドレスに対応するアプリケーションを識別することが可能となった識別器である。具体的には、学習済み識別器18は、識別対象であるフローデータの特徴量情報を入力とし、識別対象であるフローデータのIPアドレスが各アプリケーションを提供している確率を出力する。
The trained discriminator 18 is a discriminator that has become capable of identifying an application corresponding to the IP address of the flow data to be identified through prior learning and learning in the
アプリケーション識別部19は、学習済み識別器18を用いて、識別対象であるフローデータのIPアドレスに対応するアプリケーションを識別する。アプリケーション識別部19は、識別時において、識別用特徴量情報を学習済み識別器18に入力し、学習済み識別器18から出力された識別結果を基に、識別対象であるフローデータのIPアドレスに対応するアプリケーションを識別する。出力部20は、アプリケーション識別部19は、による識別結果を、例えば、外部装置等に出力する。
The
[学習処理]
次に、図1に示す識別装置10が実行する識別器に対する学習処理について説明する。図2は、実施の形態に係る学習処理の処理手順を示すフローチャートである。
[Learning process]
Next, a learning process for the classifier executed by the
図2に示すように、収集部11は、小規模NWのパケットデータD1と、識別対象NWのフローデータD2(第1のフローデータ)を収集する収集処理を行う(ステップS1)。
As shown in FIG. 2, the
そして、シグネチャ生成部12は、小規模NWのパケットデータD1を分析してアプリケーションとIPアドレスとを対応付けるシグネチャを生成する(ステップS2)。また、フローデータ生成部13は、小規模NWのパケットデータD1から第2のフローデータを生成する(ステップS3)。
Then, the
特徴量計算部15は、第2のフローデータについてIPアドレスごとの統計的な特徴量である第2の特徴量情報を計算する(ステップS4)。ラベル付加部16は、学習時には、シグネチャ生成部12が生成したシグネチャを用いて第2の特徴量情報にラベルを付加する(ステップS5)。識別器学習部17は、ラベル付加部16が生成されたラベル付きの第2の特徴量情報を用いて、識別器の事前学習を行う(ステップS6)。
The feature calculation unit 15 calculates second feature information, which is a statistical feature for each IP address, for the second flow data (step S4). During learning, the label adding unit 16 adds a label to the second feature amount information using the signature generated by the signature generating unit 12 (step S5). The
また、特徴量計算部15は、第1のフローデータについてIPアドレスごとの統計的な特徴量である第1の特徴量情報を計算する(ステップS7)。識別器学習部17は、事前学習で得られた識別器と第1の特徴量情報及びラベルなしの第2の特徴量情報とを用い、Domain Adaptationにより識別器の学習を行う(ステップS8)。そして、識別器学習部17が、学習済み識別器18を生成する。
Further, the feature calculation unit 15 calculates first feature information, which is a statistical feature for each IP address, for the first flow data (step S7). The
[識別処理]
次に、図1に示す識別装置10が実行する、識別対象NWのフローデータのIPアドレスに対応するアプリケーションを識別する識別処理について説明する。図3は、実施の形態に係る識別処理の処理手順を示すフローチャートである。
[Identification processing]
Next, an identification process for identifying an application corresponding to an IP address of flow data of an identification target NW, which is executed by the
図3に示すように、収集部11は、識別時には、識別対象となる大規模NWである識別対象NWのフローデータを収集する(ステップS11)。続いて、特徴量計算部15は、識別対象NWのフローデータについてIPアドレスごとの統計的な特徴量である識別用特徴量情報を計算する(ステップS12)。
As shown in FIG. 3, at the time of identification, the
アプリケーション識別部19は、学習済み識別器18を用いて、識別対象であるフローデータのIPアドレスに対応するアプリケーションを識別する(ステップS13)。出力部20は、アプリケーション識別部19は、による識別結果を、例えば、外部装置等に出力する(ステップS14)。
The
[適用例1]
識別装置10の適用例について説明する。図4は、実施の形態に係る識別装置10の適用例を説明する図である。
[Application example 1]
An application example of the
図4に示すように、ISP NWにおいて収集されるネットワークフローデータを、識別装置10で識別し、識別結果としてISP NWのフローデータのIPアドレスが各アプリケーションを提供している確率を可視化する。これによって、ネットワーク管理者は、詳細なNW状況を把握できるようになり、重点的に投資するべき経路(例えば、経路R1,R2)を把握することができる。このように、識別装置10を適用することによって、ISPネットワークのトラフィック可視化によるNW監視の効率化や設備投資計画の効率化を図ることができる。
As shown in FIG. 4, the network flow data collected in the ISP NW is identified by the
[適用例2]
図5は、実施の形態に係る識別装置10の他の適用例を説明する図である。図5に示すように、大規模なトラフィックデータDtからごく少量含まれる悪性通信を検知する際に識別装置10を適用する。
[Application example 2]
FIG. 5 is a diagram illustrating another application example of the
具体的には、識別装置10における識別処理を、大規模なトラフィックデータDtに実施し、大規模なトラフィックデータDtから、事前に正常なトラフィックを除外することによって、調査すべきトラフィックデータDmの量を減少させることができる。このように、識別装置10を適用することによって、悪性通信検知のためのスクリーニングを行うことができ、悪性通信検知にかかる負担を軽減することができる。
Specifically, by performing identification processing in the
[実施の形態の効果]
このように、本実施の形態に係る識別装置10は、識別器に、小規模NWのデータから生成したラベルつきの学習データを用いて学習させた後、ドメイン適用技術を用いて、ラベルなしの大規模NWである識別対象NWのフローデータと、ラベルなしの小規模NWのデータとを学習させる。
[Effects of embodiment]
In this way, the
この結果、識別装置10は、Domain Adaptationを用いて、ラベルなしの識別対象NWのフローデータを学習に使用することで、小規模NWのデータから生成したラベルありの学習データで学習させただけの場合と比して、識別対象NWのデータをより正確に識別可能な識別器を構築することができる。
As a result, the
上記のように、識別装置10によれば、小規模NWのデータに限らず、これまでラベル付加が困難であった大規模NWのフローデータについても、トラフィックを発生させたアプリケーションの識別が可能となり、大規模NWにおいてもアプリケーションレベルのトラフィック識別が可能になる。
As described above, according to the
[システム構成等]
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[System configuration, etc.]
Each component of each device shown in the drawings is functionally conceptual, and does not necessarily need to be physically configured as shown in the drawings. In other words, the specific form of distributing and integrating each device is not limited to what is shown in the diagram, and all or part of the devices can be functionally or physically distributed or integrated in arbitrary units depending on various loads, usage conditions, etc. Can be integrated and configured. Furthermore, all or any part of each processing function performed by each device can be realized by a CPU and a program that is analyzed and executed by the CPU, or can be realized as hardware using wired logic.
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。 Furthermore, among the processes described in this embodiment, all or part of the processes described as being performed automatically can be performed manually, or the processes described as being performed manually can be performed manually. All or part of this can also be done automatically using a known method. In addition, information including processing procedures, control procedures, specific names, and various data and parameters shown in the above documents and drawings may be changed arbitrarily, unless otherwise specified.
[プログラム]
図6は、プログラムが実行されることにより、識別装置10が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
[program]
FIG. 6 is a diagram showing an example of a computer that implements the
メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
The
ハードディスクドライブ1090は、例えば、OS(Operating System)1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、識別装置10の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、識別装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
The hard disk drive 1090 stores, for example, an OS (Operating System) 1091,
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
Furthermore, the setting data used in the processing of the embodiment described above is stored as
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
Note that the
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。 Although embodiments to which the invention made by the present inventor is applied have been described above, the present invention is not limited by the description and drawings that form part of the disclosure of the present invention by this embodiment. That is, all other embodiments, examples, operational techniques, etc. made by those skilled in the art based on this embodiment are included in the scope of the present invention.
2A,2B 小規模ネットワーク(NW)機器
3A,3B 識別対象NWルータ
10 識別装置
11 収集部
12 シグネチャ生成部
13 フローデータ生成部
14 シグネチャデータベース(DB)
15 特徴量計算部
16 ラベル付加部
17 識別器学習部
18 学習済み識別器
19 アプリケーション識別部
20 出力部
2A, 2B Small network (NW)
15 Feature calculation section 16
Claims (5)
所定のルールを満たす小規模ネットワークからのパケットデータ及び識別対象の大規模ネットワークの第1のフローデータを収集する収集工程と、
前記小規模ネットワークからのパケットデータを分析してアプリケーションとIPアドレスとを対応付けるシグネチャを生成するシグネチャ生成工程と、
前記小規模ネットワークからのパケットデータから第2のフローデータを生成するフローデータ生成工程と、
前記大規模ネットワークの第1のフローデータについてIPアドレスごとの統計的な特徴量である第1の特徴量情報を計算し、前記第2のフローデータについてIPアドレスごとの統計的な特徴量である第2の特徴量情報を計算する計算工程と、
前記シグネチャを用いて前記第2の特徴量情報にラベルを付加する付加工程と、
識別器に、前記第1の特徴量情報及び前記第2の特徴量情報を学習データとして前記アプリケーションの識別を学習させる学習工程と、
を含み、
前記学習工程は、前記ラベルが付加された前記第2の特徴量情報を学習データとして事前に前記識別器に学習させ、ラベルなしの前記第1の特徴量情報とラベルなしの前記第2の特徴量情報とを用いて、ドメイン適用技術により前記識別器の学習を行うことを特徴とする識別方法。 An identification method performed by an identification device for identifying an application, the method comprising:
a collection step of collecting packet data from the small-scale network that satisfies predetermined rules and first flow data of the large-scale network to be identified ;
a signature generation step of analyzing packet data from the small network to generate a signature that associates an application with an IP address;
a flow data generation step of generating second flow data from packet data from the small-scale network ;
First feature information, which is a statistical feature for each IP address, is calculated for the first flow data of the large-scale network , and first feature information is a statistical feature for each IP address, for the second flow data. a calculation step of calculating second feature information;
an addition step of adding a label to the second feature amount information using the signature;
a learning step of causing a classifier to learn to identify the application using the first feature information and the second feature information as learning data;
including;
In the learning step, the classifier is trained in advance by using the second feature information to which the label is added as learning data, and the first feature information without a label and the second feature information without a label are trained in advance. An identification method characterized in that the discriminator is trained by a domain application technique using quantity information .
前記収集工程は、前記識別対象であるフローデータを収集し、
前記計算工程は、前記識別対象であるフローデータについてIPアドレスごとの統計的な特徴量である識別用特徴量情報を計算し、
前記識別工程は、前記識別用特徴量情報を前記識別器に入力し、前記識別器から出力された識別結果を基に、前記識別対象であるフローデータのIPアドレスに対応するアプリケーションを識別することを特徴とする請求項1に記載の識別方法。 further comprising an identification step of using the identifier to identify an application corresponding to an IP address of the flow data to be identified;
The collecting step collects the flow data to be identified,
The calculation step calculates identification feature amount information, which is a statistical feature amount for each IP address, for the flow data to be identified,
The identification step includes inputting the identification feature information to the classifier, and identifying an application corresponding to the IP address of the flow data to be identified based on the classification result output from the classifier. The identification method according to claim 1, characterized in that:
所定のルールを満たす小規模ネットワークからのパケットデータ及び識別対象の大規模ネットワークの第1のフローデータを収集する収集部と、
前記小規模ネットワークからのパケットデータを分析してアプリケーションとIPアドレスとを対応付けるシグネチャを生成するシグネチャ生成部と、
前記小規模ネットワークからのパケットデータから第2のフローデータを生成するフローデータ生成部と、
前記大規模ネットワークの第1のフローデータについてIPアドレスごとの統計的な特徴量である第1の特徴量情報を計算し、前記第2のフローデータについてIPアドレスごとの統計的な特徴量である第2の特徴量情報を計算する特徴量計算部と、
前記シグネチャを用いて前記第2の特徴量情報にラベルを付加するラベル付加部と、
識別器に、前記第1の特徴量情報及び前記第2の特徴量情報を学習データとして前記アプリケーションの識別を学習させる学習部と、
を有し、
前記学習部は、前記ラベルが付加された前記第2の特徴量情報を学習データとして事前に前記識別器に学習させ、ラベルなしの前記第1の特徴量情報とラベルなしの前記第2の特徴量情報とを用いて、ドメイン適用技術により前記識別器の学習を行うことを特徴とすることを特徴とする識別装置。 An identification device for identifying an application, comprising:
a collection unit that collects packet data from the small-scale network that satisfies predetermined rules and first flow data of the large-scale network to be identified ;
a signature generation unit that analyzes packet data from the small-scale network and generates a signature that associates an application with an IP address;
a flow data generation unit that generates second flow data from packet data from the small-scale network ;
First feature information, which is a statistical feature for each IP address, is calculated for the first flow data of the large-scale network , and first feature information is a statistical feature for each IP address, for the second flow data. a feature calculation unit that calculates second feature information;
a label adding unit that adds a label to the second feature amount information using the signature;
a learning unit that causes a classifier to learn to identify the application using the first feature information and the second feature information as learning data;
has
The learning unit causes the discriminator to learn in advance the second feature information to which the label is added as learning data, and the first feature information without a label and the second feature without a label. An identification device characterized in that the discriminator is trained by a domain application technique using quantity information .
前記小規模ネットワークからのパケットデータを分析してアプリケーションとIPアドレスとを対応付けるシグネチャを生成するシグネチャ生成ステップと、
前記小規模ネットワークからのパケットデータから第2のフローデータを生成するフローデータ生成ステップと、
前記大規模ネットワークの第1のフローデータについてIPアドレスごとの統計的な特徴量である第1の特徴量情報を計算し、前記第2のフローデータについてIPアドレスごとの統計的な特徴量である第2の特徴量情報を計算する計算ステップと、
前記シグネチャを用いて前記第2の特徴量情報にラベルを付加する付加ステップと、
識別器に、前記第1の特徴量情報及び前記第2の特徴量情報を学習データとしてアプリケーションの識別を学習させる学習ステップと、
をコンピュータに実行させ、
前記学習ステップは、前記ラベルが付加された前記第2の特徴量情報を学習データとして事前に前記識別器に学習させ、ラベルなしの前記第1の特徴量情報とラベルなしの前記第2の特徴量情報とを用いて、ドメイン適用技術により前記識別器の学習を行う識別プログラム。 a collection step of collecting packet data from the small network and first flow data of the large network to be identified that satisfy a predetermined rule;
a signature generation step of analyzing packet data from the small network to generate a signature that associates an application with an IP address;
a flow data generation step of generating second flow data from packet data from the small-scale network ;
First feature information, which is a statistical feature for each IP address, is calculated for the first flow data of the large-scale network , and first feature information is a statistical feature for each IP address, for the second flow data. a calculation step of calculating second feature information;
an adding step of adding a label to the second feature amount information using the signature;
a learning step of causing a classifier to learn application identification using the first feature information and the second feature information as learning data;
make the computer run
In the learning step, the classifier is trained in advance by using the second feature information to which the label is added as learning data, and the first feature information without a label and the second feature information without a label are trained in advance. An identification program that performs learning of the discriminator using domain application technology using quantity information .
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/013849 WO2021192186A1 (en) | 2020-03-26 | 2020-03-26 | Identification method, identification device, and identification program |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021192186A1 JPWO2021192186A1 (en) | 2021-09-30 |
JP7435744B2 true JP7435744B2 (en) | 2024-02-21 |
Family
ID=77891011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022510295A Active JP7435744B2 (en) | 2020-03-26 | 2020-03-26 | Identification method, identification device and identification program |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230136929A1 (en) |
JP (1) | JP7435744B2 (en) |
WO (1) | WO2021192186A1 (en) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8332334B2 (en) * | 2009-09-24 | 2012-12-11 | Yahoo! Inc. | System and method for cross domain learning for data augmentation |
US9038172B2 (en) * | 2011-05-06 | 2015-05-19 | The Penn State Research Foundation | Robust anomaly detection and regularized domain adaptation of classifiers with application to internet packet-flows |
-
2020
- 2020-03-26 WO PCT/JP2020/013849 patent/WO2021192186A1/en active Application Filing
- 2020-03-26 JP JP2022510295A patent/JP7435744B2/en active Active
- 2020-03-26 US US17/912,041 patent/US20230136929A1/en active Pending
Non-Patent Citations (1)
Title |
---|
飛山 駿,少量のパケットデータを用いた大規模フローデータに適用可能なWebアプリケーション識別手法,電子情報通信学会技術研究報告 Vol.118 No.486 [online],日本,一般社団法人電子情報通信学会,2019年02月28日,pp.53-58 |
Also Published As
Publication number | Publication date |
---|---|
US20230136929A1 (en) | 2023-05-04 |
WO2021192186A1 (en) | 2021-09-30 |
JPWO2021192186A1 (en) | 2021-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vlăduţu et al. | Internet traffic classification based on flows' statistical properties with machine learning | |
US20040236866A1 (en) | Automated characterization of network traffic | |
Lichodzijewski et al. | Dynamic intrusion detection using self-organizing maps | |
CN107683586A (en) | Method and apparatus for rare degree of the calculating in abnormality detection based on cell density | |
US20180285397A1 (en) | Entity-centric log indexing with context embedding | |
US20100042565A1 (en) | Mezzazine in-depth data analysis facility | |
CN111953552B (en) | Data flow classification method and message forwarding equipment | |
JP2009527839A (en) | Method and system for transaction monitoring in a communication network | |
Perera Jayasuriya Kuranage et al. | Network traffic classification using machine learning for software defined networks | |
CN115600128A (en) | Semi-supervised encrypted traffic classification method and device and storage medium | |
Fan et al. | Autoiot: Automatically updated iot device identification with semi-supervised learning | |
JP7435744B2 (en) | Identification method, identification device and identification program | |
Erdenebaatar et al. | Analyzing traffic characteristics of instant messaging applications on android smartphones | |
Guo et al. | FullSight: A feasible intelligent and collaborative framework for service function chains failure detection | |
Abdalla et al. | Impact of packet inter-arrival time features for online peer-to-peer (P2P) classification | |
Muzammil et al. | Comparative analysis of classification algorithms performance for statistical based intrusion detection system | |
CN113037551B (en) | Quick identification and positioning method for sensitive-related services based on traffic slice | |
Sija et al. | Survey on network protocol reverse engineering approaches, methods and tools | |
CN115242724A (en) | High-speed network traffic service classification method based on two-stage clustering | |
CN114900362A (en) | Extensible network attack detection method based on behavior diagram and Weisfeiler Lehman algorithm | |
CN114666273A (en) | Application layer unknown network protocol oriented traffic classification method | |
CN105610655A (en) | Router traffic monitoring and analysis method | |
WO2022118373A1 (en) | Discriminator generation device, discriminator generation method, and discriminator generation program | |
CN112235254A (en) | Rapid identification method for Tor network bridge in high-speed backbone network | |
Yoon et al. | Framework for multi-level application traffic identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220819 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A801 Effective date: 20220819 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20220819 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230822 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231016 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240122 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7435744 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |