JP7366690B2 - Equipment type estimation system - Google Patents

Equipment type estimation system Download PDF

Info

Publication number
JP7366690B2
JP7366690B2 JP2019198093A JP2019198093A JP7366690B2 JP 7366690 B2 JP7366690 B2 JP 7366690B2 JP 2019198093 A JP2019198093 A JP 2019198093A JP 2019198093 A JP2019198093 A JP 2019198093A JP 7366690 B2 JP7366690 B2 JP 7366690B2
Authority
JP
Japan
Prior art keywords
data
classification
learning
estimation
verification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019198093A
Other languages
Japanese (ja)
Other versions
JP2021072547A (en
Inventor
由晃 竹島
康充 野中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2019198093A priority Critical patent/JP7366690B2/en
Publication of JP2021072547A publication Critical patent/JP2021072547A/en
Application granted granted Critical
Publication of JP7366690B2 publication Critical patent/JP7366690B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、機器種別推定システムに関する。 The present invention relates to a device type estimation system.

安全性などの製品品質に関する社会的責任が製造業全体に問われている。企業の製造現場ではIoT機器活用による業務改善が進み、多様な機器が導入されている。その一方で、それらの機器が適切に管理されていない場合がある。例えば、マルウェア(悪意のあるソフトウェア、malware、malicious software)に感染した機器が、ある工場の産業システム(industrial system)などのシステムに、管理者の許可なく不正に接続された場合、その工場のデータや、その工場で生産している製品データの改ざんが発生するリスクがある。結果として、それらの事態が、企業の操業や製品品質に影響を及ぼす可能性がある。 The entire manufacturing industry is being asked to take social responsibility regarding product quality such as safety. At corporate manufacturing sites, business improvements are progressing through the use of IoT devices, and a variety of devices are being introduced. On the other hand, these devices may not be properly managed. For example, if a device infected with malware (malicious software) is illegally connected to a system such as an industrial system at a factory without permission from the administrator, the factory's data and , there is a risk of falsification of product data produced at that factory. As a result, these situations may affect a company's operations and product quality.

前述の例においては、システムに不正に接続されている機器を発見することが必要である。そのためには、接続されている機器がどのような種別の機器なのかを把握、もしくは、ある程度推定することが、工場の管理者がその機器を迅速に発見する上で重要である。 In the above example, it is necessary to discover equipment that is illegally connected to the system. To this end, it is important for factory managers to know, or to some extent estimate, what type of connected equipment it is, in order for factory managers to quickly discover the equipment.

主にパーソナルコンピュータやサーバなどの汎用コンピュータが接続されているITシステムにおいては、管理者もしくは使用者が当該コンピュータに管理用エージェントソフトウェアをインストールすることで、コンピュータの管理を容易に行うことができる。 In an IT system to which general-purpose computers such as personal computers and servers are mainly connected, an administrator or user can easily manage the computers by installing management agent software on the computers.

一方、管理用エージェントソフトウェアなどのアプリケーションソフトウェアのインストールについて考慮されていないシステム、例えば一部の産業システムのように、組み込み機器(embedded device)が使われているシステムにおいては、工夫が必要となる。このような場合、機器の種別を把握するための手法の一つとして、機器がネットワーク通信をするときの通信トラフィックを収集及び分析することで実現する手法が知られている。 On the other hand, in systems where installation of application software such as management agent software is not considered, for example, systems in which embedded devices are used, such as some industrial systems, some measures are required. In such a case, one known method for understanding the type of device is to collect and analyze communication traffic when the device communicates over a network.

特許文献1には、「サービスへのアクセス元の端末種別の特定の効率化を支援する」技術について開示されている。具体的には、「複数のアクセス元のうちのいずれかのアクセス元による複数のサービスのうちのいずれかのサービスへのアクセスを示すアクセスログの集合に基づいて、各アクセス元による各サービスへのアクセスに関する統計量を算出する第1の算出部と、前記統計量に対してクラスタリング手法を適用して、各アクセス元と各サービスとの関連度を算出する第2の算出部と、前記関連度に基づいて、前記複数のアクセス元を、それぞれが1以上のアクセス元を含むいずれかのグループに分類する分類部とを有する」アクセス元分類装置について記載されている。ここで、「サービス」とは、「コンテンツサービスプロバイダ(CSP)がサーバにより提供している」サービスを指す。 Patent Document 1 discloses a technology that "supports efficiency in identifying the type of terminal from which a service is accessed." Specifically, ``Based on a set of access logs showing access to one of the multiple services by any one of the multiple access sources, a first calculation unit that calculates statistics regarding access; a second calculation unit that applies a clustering method to the statistics to calculate the degree of association between each access source and each service; and the degree of association. and a classification unit that classifies the plurality of access sources into any group, each of which includes one or more access sources, based on the access source classification device. Here, the term "service" refers to a service "provided by a server by a content service provider (CSP)."

また、特許文献2には、「通信トラフィックのフローを解析し、ユーザの体感品質に関連するアプリケーション及びその利用状態を推定する」通信解析装置について開示されている。 Additionally, Patent Document 2 discloses a communication analysis device that "analyzes the flow of communication traffic and estimates applications and their usage states related to the user's quality of experience."

特開2019-36120号公報JP2019-36120A 特開2017-139580号公報JP2017-139580A

上述のように、システムによっては、端末から、コンテンツサービスプロバイダのサービスを提供しているサーバにアクセスする、という構成ではない場合がある。また、サーバ装置がアクセスログを出力しない場合がある。 As described above, depending on the system, the configuration may not be such that a terminal accesses a server that provides services of a content service provider. Additionally, the server device may not output the access log.

特許文献1は、コンテンツサービスプロバイダがサーバにより提供しているサービスへのアクセスを示すアクセスログから統計量を算出し、端末のオペレーションシステム(OS)や形態(デスクトップPC型、ノートPC型、モバイル端末型など)を特定する技術に関するものである。しかし、特許文献1の技術は、端末から、コンテンツサービスプロバイダのサービスを提供しているサーバにアクセスする、というシステムではない場合や、サーバ装置がアクセスログを出力しない場合などに適用できない場合がある。 Patent Document 1 calculates statistics from access logs indicating accesses to services provided by a content service provider through a server, and calculates statistics based on the operating system (OS) and type of the terminal (desktop PC type, notebook PC type, mobile terminal type). This relates to technology for identifying types (types, etc.). However, the technology of Patent Document 1 may not be applicable in cases where the system does not access a server providing services of a content service provider from a terminal, or in cases where the server device does not output an access log. .

また、特許文献2は、ユーザが利用しているアプリケーションを推定する技術に関するものである。しかし、特許文献2には、通信を行っている機器がどのような種別の機器なのかを把握もしくは推定するための技術は開示されていない。 Further, Patent Document 2 relates to a technology for estimating an application used by a user. However, Patent Document 2 does not disclose a technique for grasping or estimating what type of device is communicating.

このように、特許文献1、2に記載の技術では、システムに接続された機器の種別を推定することに適用できない場合がある。
従って、従来技術では推定できない場合にでも、接続された機器の種別を推定する技術が望まれている。
As described above, the techniques described in Patent Documents 1 and 2 may not be applicable to estimating the type of equipment connected to the system.
Therefore, there is a need for a technique that can estimate the type of connected equipment even when it cannot be estimated using conventional techniques.

本発明は、システムに接続された機器の種別を推定する技術とそれを用いたシステムや装置、方法、プログラムを提供する。
本発明の一態様の機器種別推定システムは、通信ネットワークを流れる通信トラフィックを分析して、前記通信ネットワークに接続されている機器の種別を推定する機器種別推定システムであって、学習用分類処理と推定用分類処理を行う分類装置と、前記通信トラフィックを出力した前記機器の機器種別情報と前記通信トラフィックの特徴量データに基づいて、前記分類装置が前記学習用分類処理を行うための学習用データセットと、前記分類装置の前記学習用分類処理の分類精度を検証するための検証用データセットと、前記通信トラフィックを出力した前記機器の種別を前記分類装置に推定させるための推定用データとを出力する前処理装置と、前記分類装置の前記学習用分類処理の前記分類精度を検証する検証装置と、前記分類装置の前記推定用分類処理の分類結果に基づいて前記機器の種別を推定する推定処理を行う推定装置とを有することを特徴とする。
The present invention provides a technique for estimating the type of equipment connected to a system, and a system, device, method, and program using the technique.
A device type estimation system according to one aspect of the present invention is a device type estimation system that analyzes communication traffic flowing through a communication network and estimates the type of a device connected to the communication network, and includes learning classification processing. A classification device that performs estimation classification processing, and learning data for the classification device to perform the learning classification processing based on device type information of the device that outputs the communication traffic and feature amount data of the communication traffic. a verification data set for verifying the classification accuracy of the learning classification process of the classification device, and estimation data for causing the classification device to estimate the type of the device that outputs the communication traffic. a preprocessing device for outputting, a verification device for verifying the classification accuracy of the learning classification process of the classification device, and an estimation for estimating the type of the device based on the classification result of the estimation classification process of the classification device. and an estimation device that performs processing.

本発明の一態様によれば、システムに接続された機器の種別を推定することができる。 According to one aspect of the present invention, the type of equipment connected to a system can be estimated.

機器種別推定システムを説明するための概念図である。FIG. 2 is a conceptual diagram for explaining a device type estimation system. 機器種別推定システムの特徴量計算装置の構成例を示す機能ブロック図である。FIG. 2 is a functional block diagram illustrating a configuration example of a feature calculation device of the device type estimation system. 機器種別推定システムの学習フェーズを実施するための処理内容の一例を示すシステム動作シーケンス図である。FIG. 2 is a system operation sequence diagram showing an example of processing contents for implementing a learning phase of the device type estimation system. 機器種別推定システムの推定フェーズを実施するための処理内容の一例を示すシステム動作シーケンス図である。FIG. 2 is a system operation sequence diagram illustrating an example of processing contents for implementing an estimation phase of the device type estimation system. 学習フェーズ及び推定フェーズにおける特徴量計算処理装置の処理内容の一例を示すフローチャートである。3 is a flowchart illustrating an example of the processing content of the feature value calculation processing device in the learning phase and the estimation phase. 学習フェーズにおける前処理装置の処理内容の一例を示すフローチャートである。It is a flowchart which shows an example of the processing content of a preprocessing device in a learning phase. 学習フェーズにおける分類装置の処理内容の一例を示すフローチャートである。It is a flowchart which shows an example of the processing content of a classification device in a learning phase. 学習フェーズにおける検証装置の処理内容の一例を示すフローチャートである。It is a flowchart which shows an example of the processing content of a verification apparatus in a learning phase. 推定フェーズにおける前処理装置の処理内容の一例を示すフローチャートである。It is a flowchart which shows an example of the processing content of a preprocessing device in an estimation phase. 推定フェーズにおける分類装置の処理内容の一例を示すフローチャートである。It is a flowchart which shows an example of the processing content of a classification device in an estimation phase. 推定フェーズにおける推定処理装置の処理内容の一例を示すフローチャートである。It is a flowchart which shows an example of the processing content of an estimation processing device in an estimation phase. 特徴量データの構成例を示す図である。FIG. 3 is a diagram illustrating a configuration example of feature amount data. 機器種別リストの構成例を示す図である。It is a figure showing an example of composition of a device type list. モデル管理情報の構成例を示す図である。FIG. 3 is a diagram illustrating a configuration example of model management information. 学習用データ、検証用データ及び推定用データの構成例を示す図表である。It is a chart showing a composition example of data for learning, data for verification, and data for estimation. 学習用ラベル、検証用ラベル及び分類結果データの構成例を示す図表である。It is a chart showing an example of a structure of a learning label, a verification label, and classification result data. 分類精度データの構成例を示す図である。It is a figure which shows the example of a structure of classification accuracy data. 推定結果データの構成例を示す図である。It is a figure which shows the example of a structure of estimation result data. 機器種別推定システムを構成する装置のハードウェア構成の一例を示す構成図である。FIG. 2 is a configuration diagram showing an example of the hardware configuration of a device that constitutes the device type estimation system. 学習フェーズでの前処理装置での学習用データ及び学習用ラベルの生成処理の一例を示す図である。FIG. 6 is a diagram illustrating an example of a process of generating learning data and a learning label in a preprocessing device in a learning phase. 学習フェーズでの前処理装置での分類精度データに基づく処理の一例を示す図である。FIG. 6 is a diagram illustrating an example of processing based on classification accuracy data in a preprocessing device in a learning phase.

以下、図面を用いて、実施例について説明する。
実施例の機器種別推定システムは、対象とするシステムに接続された機器の種別を分析によって推定する。
Examples will be described below with reference to the drawings.
The device type estimation system of the embodiment estimates the type of device connected to a target system through analysis.

(システムの構成要素)
図1を参照して、実施例に係る機器種別推定システムの構成について説明する。
機器種別推定システム3は、例えば、対象システム1のような産業システムを分析対象とすることができる。対象システム1は、例えば、製造・空調・電力・水道・ガス・ビル設備・通信などに関する各種機器と、それらの機器を通信ネットワーク経由で制御及び監視を行う各種機器を含んで構成される産業制御システムである。
機器種別推定システム3は、特徴量計算装置31、前処理装置33、分類装置35、検証装置37及び推定装置39を有する。
(system components)
With reference to FIG. 1, the configuration of a device type estimation system according to an embodiment will be described.
The equipment type estimation system 3 can analyze an industrial system like the target system 1, for example. Target system 1 is, for example, an industrial control system that includes various devices related to manufacturing, air conditioning, electricity, water, gas, building equipment, communications, etc., and various devices that control and monitor these devices via a communication network. It is a system.
The device type estimation system 3 includes a feature calculation device 31 , a preprocessing device 33 , a classification device 35 , a verification device 37 , and an estimation device 39 .

対象システム1は、1台以上の機器11、1台以上のネットワーク装置13及び機器11の機器種別やネットワークアドレス等を台帳データとして管理する管理装置15を有する。機器11は、ネットワークスイッチなどのネットワーク装置13を経由して、LAN(Local Area Network)などの通信ネットワークによって相互に接続される。 The target system 1 includes one or more devices 11, one or more network devices 13, and a management device 15 that manages the device type, network address, etc. of the devices 11 as ledger data. The devices 11 are interconnected via a communication network such as a LAN (Local Area Network) via a network device 13 such as a network switch.

通信監視装置51は、対象システム1の通信ネットワークを監視する装置である。通信監視装置51はネットワーク装置13に接続されて、ネットワーク装置13に流れる通信トラフィックのパケットデータを取得する。ここで、パケットデータとは、通信データをある長さまでに分割し、分割された通信データに通信管理用データ(ヘッダ)とを付加して一つのデータの塊にしたものである。通信監視装置51は、通信フローの単位でパケットデータを整理し、1つ以上の通信フローデータ81のデータセットを生成し、機器種別推定システム3の構成要素の一つである特徴量計算装置31に送信する。 The communication monitoring device 51 is a device that monitors the communication network of the target system 1. The communication monitoring device 51 is connected to the network device 13 and acquires packet data of communication traffic flowing to the network device 13 . Here, the packet data is data that is obtained by dividing communication data into a certain length and adding communication management data (header) to the divided communication data to form a single data block. The communication monitoring device 51 organizes packet data in units of communication flows, generates one or more data sets of communication flow data 81, and uses the feature calculation device 31, which is one of the components of the device type estimation system 3. Send to.

ここで、通信フローは、各パケットデータのヘッダに格納されている5タプル(tuple)(送信元IPアドレス、送信先IPアドレス、送信元ポート番号、送信先ポート番号、トランスポートプロトコル番号)の情報の組み合わせによって識別される。 Here, the communication flow is based on the information of 5 tuples (source IP address, destination IP address, source port number, destination port number, transport protocol number) stored in the header of each packet data. Identified by a combination of

特徴量計算装置31は、通信監視装置51から受信した通信フローデータ81のデータセットを分析して、通信ネットワークに接続されている機器11が出力した通信トラフィックの特徴量を計算する装置である。 The feature calculation device 31 is a device that analyzes a data set of communication flow data 81 received from the communication monitoring device 51 and calculates the feature amount of communication traffic output by the device 11 connected to the communication network.

分類装置35は、通信トラフィックを出力した機器11の機器種別と、通信トラフィックの特徴量を対応付けして学習し、さらに、学習した内容を基に、別の通信トラフィックの特徴量を分類した結果を出力する装置である。検証装置37は、学習済みの分類装置35の分類精度を検証し、分類精度の情報を出力する装置である。 The classification device 35 learns by associating the device type of the device 11 that outputs the communication traffic with the feature amount of the communication traffic, and further classifies the feature amount of another communication traffic based on the learned content. This is a device that outputs. The verification device 37 is a device that verifies the classification accuracy of the learned classification device 35 and outputs information on the classification accuracy.

前処理装置33は、分類装置35を学習させるための学習用データセットと、学習済みの分類装置35の分類精度を検証するための検証用データセットとを出力する装置である。また、前処理装置33は、通信トラフィックを出力した機器11の機器種別を分類装置35に分類させるための推定用データセットを出力する。さらに、前処理装置33は、精度の悪い学習用データセットの改善を行う。 The preprocessing device 33 is a device that outputs a training data set for learning the classification device 35 and a verification data set for verifying the classification accuracy of the learned classification device 35. Further, the preprocessing device 33 outputs an estimation data set for causing the classification device 35 to classify the device type of the device 11 that outputs the communication traffic. Further, the preprocessing device 33 improves the learning data set with poor accuracy.

推定装置39は、分類装置35が出力した分類結果を集計し、その結果から機器11の機器種別を推定する装置である。推定装置39は、機器11の機器種別の推定結果を、管理装置15に送信し、管理装置15の台帳データにある機器11の機器種別情報を更新しても良い。 The estimation device 39 is a device that aggregates the classification results output by the classification device 35 and estimates the device type of the device 11 from the results. The estimation device 39 may transmit the estimation result of the device type of the device 11 to the management device 15 and update the device type information of the device 11 in the ledger data of the management device 15.

また、推定装置39は、機器11の機器種別の推定結果を、端末装置53に送信しても良い。例えば、端末装置53は、機器11の機器種別の推定結果を受信すると、その内容を画面に表示させ、対象システム1の管理者に内容を確認させても良い。 Further, the estimation device 39 may transmit the estimation result of the device type of the device 11 to the terminal device 53. For example, upon receiving the estimation result of the device type of the device 11, the terminal device 53 may display the content on the screen and have the administrator of the target system 1 confirm the content.

機器種別推定システム3は、学習フェーズと推定フェーズを含む異なる動作フェーズを備える。学習フェーズでは、機器種別推定システム3は、機器11が出力した通信トラフィックの特徴を学習する。また、推定フェーズでは、機器種別推定システム3は、学習フェーズで学習した内容を基に、機器11が出力した通信トラフィックの特徴量を分類し、その結果を出力する。 The device type estimation system 3 includes different operation phases including a learning phase and an estimation phase. In the learning phase, the device type estimation system 3 learns the characteristics of communication traffic output by the device 11. Furthermore, in the estimation phase, the device type estimation system 3 classifies the feature amount of the communication traffic output by the device 11 based on the content learned in the learning phase, and outputs the result.

機器種別推定システム3における動作フェーズの切り替えは、通常、管理者により、各装置に対し、コマンド入力など手動で行われる。しかし、機器種別推定システム3もしくは別装置に搭載された判断プログラムによって、ある条件が満たされた場合に、自動で切り替えられも良い。もしくは、異なる動作フェーズを同時に、または短い時間で交互に実行しても良い。 Switching of the operation phase in the device type estimation system 3 is normally performed manually by an administrator such as by inputting a command to each device. However, when a certain condition is satisfied, the switching may be automatically performed by a determination program installed in the device type estimation system 3 or another device. Alternatively, different operating phases may be performed simultaneously or alternately over short periods of time.

以下、機器種別推定システム3を構成する各装置の構成や処理内容の詳細を、図を参照して説明する。 Hereinafter, details of the configuration and processing contents of each device constituting the device type estimation system 3 will be explained with reference to the drawings.

(特徴量計算装置の構成)
図2は、特徴量計算装置31の構成例を示す機能ブロック図である。
特徴量計算装置31は、通信監視装置51から、通信フローデータ81を受信した場合、通信フローデータ81に含まれる通信フローごとのパケットデータのデータセットを分析し、通信フローごとの特徴量を計算し、特徴量データ83を出力する。
(Configuration of feature calculation device)
FIG. 2 is a functional block diagram showing an example of the configuration of the feature calculation device 31. As shown in FIG.
When the feature amount calculation device 31 receives the communication flow data 81 from the communication monitoring device 51, it analyzes the dataset of packet data for each communication flow included in the communication flow data 81, and calculates the feature amount for each communication flow. Then, feature amount data 83 is output.

通信フローデータ81は、送信元MACアドレス、送信先MACアドレス、送信元IPアドレス、送信先IPアドレス、トランスポートプロトコル番号、といったヘッダ情報を含んでいる。また、一連の通信シーケンスのパケットデータが含まれているため、通信が成功している(例えば、接続要求に対して応答が帰ってきている場合など)かどうかも、通信フローデータ81を分析することで判別が可能である。 The communication flow data 81 includes header information such as a source MAC address, a destination MAC address, a source IP address, a destination IP address, and a transport protocol number. In addition, since it includes packet data of a series of communication sequences, the communication flow data 81 can also be analyzed to determine whether the communication is successful (for example, if a response is returned to a connection request). It is possible to distinguish by this.

(特徴量計算装置の処理内容)
特徴量計算装置31の処理内容を、図5を用いて説明する。図5は、特徴量計算処理装置31における、学習フェーズでの特徴量計算処理(S11)を示すフローチャートである。推定フェーズでの特徴量計算処理(S21)は、学習フェーズでの特徴量計算処理(S11)と同じである。
(Processing content of the feature calculation device)
The processing contents of the feature value calculation device 31 will be explained using FIG. 5. FIG. 5 is a flowchart showing feature amount calculation processing (S11) in the learning phase in the feature amount calculation processing device 31. The feature quantity calculation process (S21) in the estimation phase is the same as the feature quantity calculation process (S11) in the learning phase.

特徴量計算装置31は、通信監視装置51から、通信フローデータ81を受信すると(ステップS111)、通信フローデータ81に含まれる通信フローごとに、ヘッダ情報を抽出する(ステップS112)。ヘッダ情報は、送信元及び送信先MACアドレス、送信元及び送信先IPアドレス及びトランスポートプロトコル番号を含む。 When the feature calculation device 31 receives the communication flow data 81 from the communication monitoring device 51 (step S111), it extracts header information for each communication flow included in the communication flow data 81 (step S112). The header information includes source and destination MAC addresses, source and destination IP addresses, and transport protocol numbers.

ここで、送信元及び送信先MACアドレスは、必ずしも抽出しなくて良い。対象ネットワーク1のネットワーク構成によっては、機器11のMACアドレスではなく、ネットワーク装置13のMACアドレスがパケットデータに含まれることがある。その場合、MACアドレスは通信フローの識別に用いることができない。よって、送信元及び送信先MACアドレスは必須ではない。 Here, the source and destination MAC addresses do not necessarily need to be extracted. Depending on the network configuration of the target network 1, the MAC address of the network device 13 instead of the MAC address of the device 11 may be included in the packet data. In that case, the MAC address cannot be used to identify communication flows. Therefore, the source and destination MAC addresses are not essential.

また、上記とは逆に、送信元及び送信先IPアドレスではなく、送信元及び送信先MACアドレスを抽出しても良い。例えば、対象システム1がIP(Internet Protocol)を採用していない場合は、ネットワークインタフェース層のアドレス情報を用いる。また、必要に応じて、VLAN ID(Virtual LAN Identifier)などの仮想ネットワークの識別情報を含めて良い。 Furthermore, contrary to the above, the source and destination MAC addresses may be extracted instead of the source and destination IP addresses. For example, if the target system 1 does not employ IP (Internet Protocol), address information of the network interface layer is used. Further, if necessary, identification information of the virtual network such as a VLAN ID (Virtual LAN Identifier) may be included.

さらに、特徴量計算装置31は、通信状態を解析し、通信状態フラグを抽出しても良い。通信状態の例としては、「通信成功」状態や、「応答なし」状態などがある。通信成功状態の一例は、送信元装置から送信先装置への接続要求に対して、送信先装置から応答が返信された状態である。応答なし状態の一例は、送信元装置から送信先装置への接続要求に対して、送信先装置から応答が返信されなかった状態である。 Furthermore, the feature calculation device 31 may analyze the communication state and extract the communication state flag. Examples of communication states include a "successful communication" state and a "no response" state. An example of a successful communication state is a state in which a response is returned from the destination device in response to a connection request from the source device to the destination device. An example of a no-response state is a state in which a response is not returned from the destination device in response to a connection request from the source device to the destination device.

そして、特徴量計算装置31は、通信フローごとに、通信パターンから、通信特徴量を計算する(ステップS113)。ここで、通信特徴量の計算方法の例として、フローの統計値として送受信されるパケットのパケットサイズの統計値(最小値、25%値、中央値、75%値、最大値、平均値、分散値等)やパケット到着間隔の統計値(最小値、25%値、中央値、75%値、最大値、平均値、分散値)を特定のパケット数の時点で算出するという計算方法がある。 Then, the feature calculation device 31 calculates a communication feature from the communication pattern for each communication flow (step S113). Here, as an example of how to calculate the communication feature amount, we will use statistical values (minimum value, 25% value, median value, 75% value, maximum value, average value, variance) of packet sizes of packets sent and received as flow statistics. There is a calculation method that calculates statistical values (minimum value, 25% value, median value, 75% value, maximum value, average value, variance value) of the packet arrival interval at a specific number of packets.

そして、特徴量計算装置31は、通信フローごとに、ステップS112で抽出したヘッダ情報と、ステップS113で計算した通信特徴量とを含む特徴量データ83を生成する(ステップS114)。そして、特徴量計算装置31は、特徴量データ83を前処理装置33に送信する(ステップS115)。 Then, the feature amount calculation device 31 generates feature amount data 83 including the header information extracted in step S112 and the communication feature amount calculated in step S113 for each communication flow (step S114). Then, the feature amount calculation device 31 transmits the feature amount data 83 to the preprocessing device 33 (step S115).

(特徴量データの構成)
特徴量データ83の構成例を図12に示す。
特徴量データ83の各レコードは、送信元MACアドレス値831及び送信先MACアドレス値832と、送信元IPアドレス値833及び送信先IPアドレス値834のどちらかもしくは両方(AND/OR)と、トランスポートプロトコル番号835と、通信状態フラグ値836と、通信特徴量値837とを含んで構成される。これらの情報は、特徴量計算処理装置31における特徴量計算処理(S11及びS21)にて抽出もしくは計算された値である。
(Configuration of feature data)
An example of the structure of the feature data 83 is shown in FIG.
Each record of the feature data 83 includes a source MAC address value 831, a destination MAC address value 832, a source IP address value 833, a destination IP address value 834, or both (AND/OR), and a transceiver. It is configured to include a port protocol number 835, a communication status flag value 836, and a communication feature value 837. These pieces of information are values extracted or calculated in the feature amount calculation processing (S11 and S21) in the feature amount calculation processing device 31.

(学習フェーズの実施フロー)
図3は、機器種別推知システム3の学習フェーズを実施するためのシステム動作の一例を示すシーケンス図である。
まず、特徴量計算装置31が、通信監視装置51から通信フローデータ81を受信し、特徴量計算処理(S11)を行い、特徴量データ83を前処理装置33に送信する。特徴量計算装置31が通信監視装置51に対し、5分間隔など定期的に通信フローデータ81を取得しにいく。
(Learning phase implementation flow)
FIG. 3 is a sequence diagram illustrating an example of system operation for implementing the learning phase of the device type estimation system 3.
First, the feature amount calculation device 31 receives the communication flow data 81 from the communication monitoring device 51, performs feature amount calculation processing (S11), and transmits the feature amount data 83 to the preprocessing device 33. The feature calculation device 31 periodically acquires communication flow data 81 from the communication monitoring device 51, such as at 5-minute intervals.

ここで、通信監視装置51が定期的に特徴量計算装置31に対して送信することとしても良い。または、管理者によるコマンド入力によって、送信もしくは取得のタイミングを決定しても良い。または、通信監視装置51における通信フローデータ81の蓄積サイズが一定量を超過したら送信するなど、条件を満たしたタイミングで決定しても良い。次に、前処理装置33が、学習用前処理(S13)を行う。 Here, the communication monitoring device 51 may periodically transmit the information to the feature calculation device 31. Alternatively, the timing of transmission or acquisition may be determined by command input by the administrator. Alternatively, the timing may be determined at a time when a condition is satisfied, such as when the communication flow data 81 is transmitted when the accumulated size of the communication flow data 81 in the communication monitoring device 51 exceeds a certain amount. Next, the preprocessing device 33 performs learning preprocessing (S13).

(学習フェーズにおける前処理装置33の処理内容)
ここで一旦、図を参照して前処理装置33における学習用前処理(S13)を説明する。図6は、学習フェーズにおける前処理装置33の処理内容の一例を示すフローチャートである。
(Processing content of preprocessing device 33 in learning phase)
Here, the learning preprocessing (S13) in the preprocessing device 33 will be explained with reference to the drawings. FIG. 6 is a flowchart showing an example of the processing content of the preprocessing device 33 in the learning phase.

前処理装置33は、特徴量計算装置31より特徴量データ83を受信した場合に、管理装置15より、機器種別リスト85を受信する。さらに、前処理装置33は、検証装置37より、分類精度データ93を受信する(ステップS131)。ここで、分類精度データ93が無い場合は、初期状態にあるとみなし、分類精度は100%であると仮定して処理を進める。 When the preprocessing device 33 receives the feature amount data 83 from the feature amount calculation device 31, it receives the device type list 85 from the management device 15. Further, the preprocessing device 33 receives classification accuracy data 93 from the verification device 37 (step S131). Here, if there is no classification accuracy data 93, it is assumed that the classification accuracy is 100%, and the processing proceeds with the assumption that the classification accuracy is 100%.

(機器種別リストの構成)
ここで一旦、図を参照して、機器種別リスト85の構成を説明する。
図13は、機器種別リスト85の構成の一例を示す構成図である。
機器種別リスト85は、IPアドレス値851及びラベル情報852を含んで構成される。ラベル情報852には、IPアドレス値851が設定されている機器11の機器種別情報が、当該機器11の管理者もしくは使用者などによって設定されている。図6に戻って説明を続ける。
(Configuration of device type list)
Here, the configuration of the device type list 85 will be explained with reference to the drawing.
FIG. 13 is a configuration diagram showing an example of the configuration of the device type list 85.
The device type list 85 includes an IP address value 851 and label information 852. In the label information 852, device type information of the device 11 to which the IP address value 851 is set is set by the administrator or user of the device 11. Returning to FIG. 6, the explanation will be continued.

次に、前処理装置33は、特徴量データ83から、通信フローごとに、送信元IPアドレス及び送信先IPアドレスを抽出する(ステップS132)。ここで、環境によっては、IPアドレスではなくMACアドレスとしても良い。
次に、前処理装置33は、機器種別リスト85のIPアドレス値851から、送信元IPアドレス及び送信先IPアドレスのそれぞれについて検索し、一致する機器種別情報(ラベル情報)を取得する(ステップS133)。ただし、一致するレコードが無い場合はスキップして良い。
次に、前処理装置33は、前処理装置33が備えるデータモデル管理情報99を基に、特徴量データ83を分割する。
Next, the preprocessing device 33 extracts the source IP address and the destination IP address from the feature data 83 for each communication flow (step S132). Here, depending on the environment, a MAC address may be used instead of an IP address.
Next, the preprocessing device 33 searches for each of the source IP address and the destination IP address from the IP address value 851 in the device type list 85, and obtains matching device type information (label information) (step S133 ). However, if there are no matching records, you can skip it.
Next, the preprocessing device 33 divides the feature data 83 based on the data model management information 99 included in the preprocessing device 33 .

(データモデル管理情報の構成)
ここで一旦、図を参照して、データモデル管理情報99の構成を説明する。
図14は、モデル管理情報99の構成の一例を示す構成図である。
モデル管理情報99は、前処理装置33が特徴量データ83を複数に分割する際の分割条件を管理するための情報である。また、前処理装置33は、特徴量データ83を、ある条件でフィルタリングする。モデル管理情報99は、そのフィルタリング条件も管理する。
(Configuration of data model management information)
Here, the structure of the data model management information 99 will be explained with reference to the drawing.
FIG. 14 is a configuration diagram showing an example of the configuration of the model management information 99.
The model management information 99 is information for managing division conditions when the preprocessing device 33 divides the feature amount data 83 into a plurality of pieces. Further, the preprocessing device 33 filters the feature amount data 83 under certain conditions. The model management information 99 also manages the filtering conditions.

データモデル管理情報99は、モデルID情報991、送受信種別情報992、トランスポートプロトコル番号993及び通信状態フラグ条件994を含んで構成される。 The data model management information 99 includes model ID information 991, transmission/reception type information 992, transport protocol number 993, and communication status flag condition 994.

モデルID情報991は、モデル管理情報99の各レコードの識別情報である。送受信種別情報992は、特徴量データ83の各通信フローにおいて、送信元と送信先のどちらの機器11の機器種別を学習するかを示す情報である。トランスポートプロトコル番号993は、特徴量データ83の通信フローごとのヘッダ情報の、トランスポートプロトコル番号が格納される。通信状態フラグ条件994は、前処理装置33が特徴量データ83をフィルタリングする際の条件となる通信状態フラグ情報が格納される。すなわち、通信状態フラグ条件994を満たす通信フローのデータだけが、分類装置35にて分析に使用される。 Model ID information 991 is identification information of each record of model management information 99. The transmission/reception type information 992 is information indicating which device type of the device 11, the transmission source or the destination device, is to be learned in each communication flow of the feature amount data 83. The transport protocol number 993 stores the transport protocol number of the header information for each communication flow of the feature amount data 83. The communication state flag condition 994 stores communication state flag information that is a condition when the preprocessing device 33 filters the feature amount data 83. That is, only the data of the communication flow that satisfies the communication state flag condition 994 is used for analysis by the classification device 35.

図6に戻って説明を続ける。データモデル管理情報99の各レコードにおける、トランスポートプロトコル番号993、通信状態フラグ条件994に従い、特徴量データ83を分割する。送受信種別情報992がある場合は、送受信種別ごとに特徴量データ83を複製する。さらに、モデルID991の値を各レコードに付与する(ステップS134)。 Returning to FIG. 6, the explanation will be continued. The feature amount data 83 is divided according to the transport protocol number 993 and the communication state flag condition 994 in each record of the data model management information 99. If there is transmission/reception type information 992, the feature amount data 83 is duplicated for each transmission/reception type. Furthermore, the value of model ID 991 is given to each record (step S134).

前処理装置33は、分割した特徴量データ83のそれぞれに対し、エントリの順番に、送受信種別992に相当する方のIPアドレスに対応するラベル情報を生成し(ステップS133にて生成)、モデルID991の値を各レコードに付与する(ステップS135)。 The preprocessing device 33 generates label information corresponding to the IP address corresponding to the sending/receiving type 992 for each of the divided feature data 83 in the order of entries (generated in step S133), and creates a model ID 991. The value of is given to each record (step S135).

ここで、もし、対応するラベル情報が無い場合は、ステップS134で複製した特徴量データ83のそれぞれから当該レコードを削除し、当該ラベル情報の生成を行わない。また、前処理装置33が、検証装置37から既に分類精度データ93を受信していて、かつ、分類精度データ93を基に、当該モデルID931におけるステップS133で取得したラベルに対する分類精度が、予め管理者によって設定された閾値を下回っていた場合は、ステップS134で複製した特徴量データ83のそれぞれから当該レコードを削除し、当該ラベル情報の生成を行わない。 Here, if there is no corresponding label information, the record is deleted from each of the feature data 83 copied in step S134, and the label information is not generated. Further, the preprocessing device 33 has already received the classification accuracy data 93 from the verification device 37, and based on the classification accuracy data 93, the classification accuracy for the label acquired in step S133 for the model ID 931 is managed in advance. If the value is below the threshold set by the user, the record is deleted from each of the replicated feature data 83 in step S134, and the label information is not generated.

ここで、分類精度データ93の例を図17に示す。分類精度データ93は、図17(A)に示されるように、モデルID931、正解ラベル932、および分類結果ラベル出力数933と、を含んで構成される。モデルID931の学習用データ86および学習用ラベル87を分類装置35が学習した際の、検証用データ88に対する分類結果データの、正解ラベルに対する分類結果ラベルの数が、分類結果ラベル出力数933に格納される。 Here, an example of the classification accuracy data 93 is shown in FIG. As shown in FIG. 17(A), the classification accuracy data 93 includes a model ID 931, a correct label 932, and the number of output classification result labels 933. When the classification device 35 learns the learning data 86 and the learning labels 87 of the model ID 931, the number of classification result labels for the correct labels of the classification result data for the verification data 88 is stored in the classification result label output number 933. be done.

ここで、分類精度データ93は、図17(B)に示されるように、分類精度の情報として、正しく分類できた数を示す正当数936、誤って当該正解ラベルに分類した数を示す誤検出数937、および当該正解ラベルに分類できなかった数を示す検出漏れ数938とを含むように構成しても良い。 Here, as shown in FIG. 17(B), the classification accuracy data 93 includes a correct number 936 indicating the number of correctly classified items and a false positive number 936 indicating the number of incorrectly classified items using the correct label. It may also be configured to include the number 937 and the number of missed detections 938 indicating the number that could not be classified into the correct label.

ここで、図21を用いて、分類精度データ93を用いたステップS135の処理のイメージを示す。例えば、分類精度データ93において、「E社F装置」の分類精度が約59%であった場合、前処理装置33は、学習用データ86および学習用ラベル87から、「E社F装置」に該当するレコードを削除する。この処理によって、分類精度の悪い学習データが削除されることになり、結果として分類装置91における学習の精度を向上させることができる。 Here, an image of the process of step S135 using the classification accuracy data 93 is shown using FIG. For example, in the classification accuracy data 93, if the classification accuracy of "E company F device" is about 59%, the preprocessing device 33 uses the learning data 86 and the learning label 87 to determine "E company F device". Delete the corresponding record. Through this processing, learning data with poor classification accuracy is deleted, and as a result, the learning accuracy in the classification device 91 can be improved.

具体的には、には、モデルID:01において、「E社F装置」の学習は失敗とみなす。以後の学習フェーズでは、前処理装置33で学習用データおよび学習用ラベルから「E社F装置」に相当する通信レコードを削除する。
次に、前処理装置33は、各特徴量データ83を、学習用データ86と、検証用データ88とに分割する(ステップS136)。
Specifically, in model ID: 01, the learning of "E company F device" is regarded as a failure. In the subsequent learning phase, the preprocessing device 33 deletes the communication record corresponding to "E company F device" from the learning data and the learning label.
Next, the preprocessing device 33 divides each feature amount data 83 into learning data 86 and verification data 88 (step S136).

(学習用データ、検証用データの構成)
ここで一旦図を参照して、学習用データ86及び検証用データ88の構成の例を説明する。図15は、学習用データ86及び検証用データ88の構成例を示す構成図である。
(Configuration of training data and verification data)
Here, an example of the configuration of the learning data 86 and the verification data 88 will be explained with reference to the drawings. FIG. 15 is a configuration diagram showing a configuration example of the learning data 86 and the verification data 88.

学習用データ86の構成を図15(A)に、検証用データ88の構成を図15(B)に示す。また、推定用データ90の構成を図15(C)に示す。学習用データ86は、モデルID861と、通信特徴量862と、を含んで構成される。検証用データ88の構成は、学習用データ86と同様であり、モデルID881と、通信特徴量882と、を含んで構成される。 The structure of the learning data 86 is shown in FIG. 15(A), and the structure of the verification data 88 is shown in FIG. 15(B). Further, the configuration of the estimation data 90 is shown in FIG. 15(C). The learning data 86 includes a model ID 861 and a communication feature amount 862. The configuration of the verification data 88 is similar to the learning data 86, and includes a model ID 881 and a communication feature amount 882.

なお、推定用データ90も同様に、モデルID901と、通信特徴量902と、を含んで構成される。図6に戻って説明を続ける。 Note that the estimation data 90 is similarly configured to include a model ID 901 and a communication feature amount 902. Returning to FIG. 6, the explanation will be continued.

次に、前処理装置33は、各ラベル情報を、学習用ラベル87と、検証用ラベル89とに分割する(ステップS137)。 Next, the preprocessing device 33 divides each label information into a learning label 87 and a verification label 89 (step S137).

(学習用ラベル、検証用ラベルの構成)
ここで一旦図を参照して、学習用ラベル87及び検証用ラベル89の構成の例を説明する。図16は、学習用ラベル87及び検証用ラベル89の構成例を示す構成図である。
学習用ラベル87の構成を図16(A)に、検証用ラベル89の構成を図16(B)に示す。また、分類結果データ91の構成を図16(C)に示す。学習用ラベル87は、モデルID871と、IPアドレス872と、ラベル情報873と、を含んで構成される。検証用ラベル89の構成は、学習用ラベル87と同様であり、モデルID891と、IPアドレス892と、ラベル情報893と、を含んで構成される。なお、分類結果データ91も同様に、モデルID911と、IPアドレス912と、ラベル情報913と、を含んで構成される。
(Configuration of training labels and verification labels)
Here, an example of the configuration of the learning label 87 and the verification label 89 will be explained with reference to the drawings. FIG. 16 is a configuration diagram showing an example of the configuration of the learning label 87 and the verification label 89.
The configuration of the learning label 87 is shown in FIG. 16(A), and the configuration of the verification label 89 is shown in FIG. 16(B). Further, the configuration of the classification result data 91 is shown in FIG. 16(C). The learning label 87 includes a model ID 871, an IP address 872, and label information 873. The configuration of the verification label 89 is similar to that of the learning label 87, and includes a model ID 891, an IP address 892, and label information 893. Note that the classification result data 91 similarly includes a model ID 911, an IP address 912, and label information 913.

図6に戻って説明を続ける。次に、学習用データ86、学習用ラベル87、及び検証用データ88を、分類装置35に送信する(ステップS138)。そして、検証用ラベル89を、検証装置37に送信する(ステップS139)。 Returning to FIG. 6, the explanation will be continued. Next, the learning data 86, the learning label 87, and the verification data 88 are transmitted to the classification device 35 (step S138). Then, the verification label 89 is transmitted to the verification device 37 (step S139).

ここで、図20に、ステップS133からS139の処理の一例を図示する。ステップS133からS139の処理の結果、トランスポートプロトコル番号993、通信状態フラグ条件994に従い、特徴量データ83を複製する。その結果、モデルID991のIDの数と同数の学習用データ86、学習用ラベル87および検証用データ88が生成される。ここで、前処理装置33は、学習用データ86と学習用ラベル87を、同一レコード行で対応付けする。例えば、学習用データ86の1レコード目のデータと学習用ラベル87の1レコード目のデータは対応付けられている。 Here, FIG. 20 illustrates an example of the processing from steps S133 to S139. As a result of the processing from steps S133 to S139, the feature amount data 83 is copied according to the transport protocol number 993 and the communication state flag condition 994. As a result, the same number of learning data 86, learning labels 87, and verification data 88 as the number of IDs of the model ID 991 is generated. Here, the preprocessing device 33 associates the learning data 86 and the learning label 87 in the same record row. For example, the data in the first record of the learning data 86 and the data in the first record of the learning label 87 are associated.

図3に戻って説明を続ける。分類装置35が、学習用分類処理(S15)を行う。 Returning to FIG. 3, the explanation will be continued. The classification device 35 performs learning classification processing (S15).

(学習フェーズにおける分類装置35の処理内容)
学習フェーズにおける分類装置35の処理内容を、図7を用いて説明する。
図7は、学習フェーズにおける分類装置35の処理内容の一例を示すフローチャートである。
まず、分類装置35は、前処理装置33より、学習用データ86、学習用ラベル88及び検証用データ88を受信する(ステップS151)。
(Processing content of the classification device 35 in the learning phase)
The processing contents of the classification device 35 in the learning phase will be explained using FIG. 7.
FIG. 7 is a flowchart showing an example of the processing contents of the classification device 35 in the learning phase.
First, the classification device 35 receives the learning data 86, the learning label 88, and the verification data 88 from the preprocessing device 33 (step S151).

次に、分類装置35は、モデルID861別に、学習用データ86の通信特徴量862と、学習用ラベル87のラベル情報873を、機械学習アルゴリズム(SVMなど)で学習し、さらに、検証用データ88の通信特徴量882を分類する(ステップS152)。
そして、分類装置35は、モデルID861別に、分類結果を、分類結果データ91として出力する(ステップS153)。次に、検証装置37が、検証処理(S17)を行う。
Next, the classification device 35 uses a machine learning algorithm (such as SVM) to learn the communication feature amount 862 of the learning data 86 and the label information 873 of the learning label 87 for each model ID 861, and further uses the verification data 88 The communication feature amount 882 is classified (step S152).
Then, the classification device 35 outputs the classification results for each model ID 861 as classification result data 91 (step S153). Next, the verification device 37 performs verification processing (S17).

(学習フェーズにおける検証装置37の処理内容)
学習フェーズにおける検証装置37の処理内容を、図8を用いて説明する。
検証装置37は、分類装置35より分類結果データ91を受信し、及び、前処理装置35より、検証用ラベル89を受信する(ステップS171)。
(Processing content of the verification device 37 in the learning phase)
The processing contents of the verification device 37 in the learning phase will be explained using FIG. 8.
The verification device 37 receives the classification result data 91 from the classification device 35, and receives the verification label 89 from the preprocessing device 35 (step S171).

次に、検証装置37は、モデルID881別に、分類結果データ91及び検証用ラベル89を用いて、分類精度を計算する(ステップS172)。
そして、検証装置37は、モデルID881別に、分類精度データ93を出力する(ステップS173)。
Next, the verification device 37 calculates classification accuracy for each model ID 881 using the classification result data 91 and the verification label 89 (step S172).
Then, the verification device 37 outputs classification accuracy data 93 for each model ID 881 (step S173).

(推定フェーズの実施フロー)
図4は、機器種別推知システム3の推定フェーズを実施するためのシステム動作の一例を示すシーケンス図である。
まず、特徴量計算装置31が、通信監視装置51から通信フローデータ81を受信し、特徴量計算処理(S21)を行い、特徴量データ83を前処理装置33に送信する。特徴量計算装置31が通信監視装置51に対し、5分間隔など定期的に通信フローデータ81を取得しにいく。
(Implementation flow of estimation phase)
FIG. 4 is a sequence diagram illustrating an example of system operation for implementing the estimation phase of the device type estimation system 3.
First, the feature amount calculation device 31 receives the communication flow data 81 from the communication monitoring device 51, performs feature amount calculation processing (S21), and transmits the feature amount data 83 to the preprocessing device 33. The feature calculation device 31 periodically acquires communication flow data 81 from the communication monitoring device 51, such as at 5-minute intervals.

ここで、通信監視装置51が定期的に特徴量計算装置31に対して送信することとしても良い。または、管理者によるコマンド入力によって、送信もしくは取得のタイミングを決定しても良い。または、通信監視装置51における通信フローデータ81の蓄積サイズが一定量を超過したら送信するなど、条件を満たしたタイミングで決定しても良い。次に、前処理装置33が、推定用前処理(S23)を行う。 Here, the communication monitoring device 51 may periodically transmit the information to the feature calculation device 31. Alternatively, the timing of transmission or acquisition may be determined by command input by the administrator. Alternatively, the timing may be determined at a time when a condition is satisfied, such as when the communication flow data 81 is transmitted when the accumulated size of the communication flow data 81 in the communication monitoring device 51 exceeds a certain amount. Next, the preprocessing device 33 performs estimation preprocessing (S23).

(推定フェーズにおける前処理装置33の処理内容)
ここで一旦、図を参照して前処理装置33における推定用前処理(S23)を説明する。
図9は、推定フェーズにおける前処理装置33の処理内容の一例を示すフローチャートである。
前処理装置33は、特徴量計算装置31より特徴量データ83を受信する(ステップS231)。
(Processing content of preprocessing device 33 in estimation phase)
Here, the estimation preprocessing (S23) in the preprocessing device 33 will be explained with reference to the drawings.
FIG. 9 is a flowchart showing an example of the processing content of the preprocessing device 33 in the estimation phase.
The preprocessing device 33 receives the feature amount data 83 from the feature amount calculation device 31 (step S231).

次に、前処理装置33は、特徴量データ83から、送信元IPアドレス及び送信先IPアドレスを抽出する(ステップS232)。ここで、環境によっては、IPアドレスではなくMACアドレスとしても良い。 Next, the preprocessing device 33 extracts the source IP address and destination IP address from the feature amount data 83 (step S232). Here, depending on the environment, a MAC address may be used instead of an IP address.

次に、データモデル管理情報99から、トランスポートプロトコル番号993、通信状態フラグ条件994に従い、特徴量データ83を分割する。送受信種別情報992がある場合は、送受信種別ごとに特徴量データ83を複製する。さらに、モデルID901を付与する(ステップS234)。 Next, the feature amount data 83 is divided from the data model management information 99 according to the transport protocol number 993 and the communication state flag condition 994. If there is transmission/reception type information 992, the feature amount data 83 is duplicated for each transmission/reception type. Furthermore, a model ID 901 is assigned (step S234).

次に、前処理装置33は、推定用データ90を、分類装置35に送信する(ステップS235)。 Next, the preprocessing device 33 transmits the estimation data 90 to the classification device 35 (step S235).

(推定フェーズにおける分類装置35の処理内容)
推定フェーズにおける分類装置35の処理内容を、図10を用いて説明する。
まず、分類装置35は、前処理装置33より、推定用データ90を受信する(ステップS251)。
(Processing content of the classification device 35 in the estimation phase)
The processing contents of the classification device 35 in the estimation phase will be explained using FIG. 10.
First, the classification device 35 receives estimation data 90 from the preprocessing device 33 (step S251).

次に、分類装置35は、モデルID901別に、学習用データ86の通信特徴量862と、学習用ラベル87のラベル情報873を、機械学習アルゴリズム(SVMなど)で学習し、さらに、推定用データ90の通信特徴量902を分類する(ステップS252)。
そして、分類装置35は、モデルID901別に、分類結果を、分類結果データ91として出力する(ステップS253)。
Next, the classification device 35 uses a machine learning algorithm (such as SVM) to learn the communication feature amount 862 of the learning data 86 and the label information 873 of the learning label 87 for each model ID 901, and further uses the estimation data 90 The communication feature amount 902 is classified (step S252).
Then, the classification device 35 outputs the classification results as classification result data 91 for each model ID 901 (step S253).

(推定フェーズにおける推定装置39の処理内容)
ここで一旦、図を参照して、推定フェーズにおける推定装置39の処理内容を説明する。
図11は、推定フェーズにおける推定装置39の処理内容の一例を示すフローチャートである。
推定装置39は、分類装置35から、分類結果データ91を受信する(ステップS271)。
(Processing content of the estimation device 39 in the estimation phase)
Here, the processing contents of the estimation device 39 in the estimation phase will be explained with reference to the drawings.
FIG. 11 is a flowchart showing an example of the processing content of the estimation device 39 in the estimation phase.
The estimation device 39 receives the classification result data 91 from the classification device 35 (step S271).

次に、推定装置39は、分類結果データ91から、モデルID911別に、IPアドレスの単位でラベル情報913を集計し、最も多く出現したラベルを算出する(ステップS272)。
次に、推定装置39は、IPアドレスと、算出したラベルの組を、推定結果データ95として出力する(ステップS273)。
Next, the estimation device 39 aggregates the label information 913 in units of IP addresses for each model ID 911 from the classification result data 91, and calculates the label that appears most frequently (step S272).
Next, the estimation device 39 outputs the set of the IP address and the calculated label as estimation result data 95 (step S273).

(推定結果データの構成)
ここで一旦、図を参照して、推定結果データ95の構成を説明する。
図18は、推定結果データ95の構成の一例を示す構成図である。
推定結果データ95の構成は、モデルID951と、IPアドレス952と、ラベル情報953と、推定確率954と、を含んで構成される。
(Structure of estimation result data)
Here, the configuration of the estimation result data 95 will be explained with reference to the drawing.
FIG. 18 is a configuration diagram showing an example of the configuration of the estimation result data 95.
The configuration of the estimation result data 95 includes a model ID 951, an IP address 952, label information 953, and an estimated probability 954.

図11に戻って説明を続ける。さらに、推定結果データ95を、管理装置15に送信する(ステップS274)。 Returning to FIG. 11, the explanation will be continued. Furthermore, the estimation result data 95 is transmitted to the management device 15 (step S274).

(装置構成)
図19は、機器種別推定システムを構成する装置のハードウェア構成の一例を示す構成図である。図19は、機器種別推定システムを構成する特徴量計算装置31、前処理装置33、分類装置35、検証装置37、及び推定装置39など、装置1000のハードウェアの構成を示す。これらの装置は、バスなどの内部通信線1009を介して相互に接続されたCPU1001、主記憶装置1002、補助記憶装置1003、ネットワークインタフェース装置1004、入力装置1005及び出力装置1006を備える汎用のコンピュータ装置から構成される。
(Device configuration)
FIG. 19 is a configuration diagram showing an example of the hardware configuration of a device that constitutes the device type estimation system. FIG. 19 shows the hardware configuration of the device 1000, including the feature calculation device 31, preprocessing device 33, classification device 35, verification device 37, and estimation device 39, which constitute the device type estimation system. These devices are general-purpose computer devices that include a CPU 1001, a main storage device 1002, an auxiliary storage device 1003, a network interface device 1004, an input device 1005, and an output device 1006 that are interconnected via an internal communication line 1009 such as a bus. It consists of

CPU1001は、装置1000全体の動作制御を司るプロセッサである。また主記憶装置1002は、例えば揮発性の半導体メモリから構成され、CPU1001のワークメモリとして利用される。補助記憶装置1003は、ハードディスク装置や、SSD(Solid State Drive)又はフラッシュメモリなどの大容量の不揮発性の記憶装置から構成され、各種プログラムやデータを長期間保持するために利用される。 The CPU 1001 is a processor that controls the operation of the entire device 1000. Further, the main storage device 1002 is composed of, for example, a volatile semiconductor memory, and is used as a work memory of the CPU 1001. The auxiliary storage device 1003 is composed of a large-capacity nonvolatile storage device such as a hard disk device, an SSD (Solid State Drive), or a flash memory, and is used to retain various programs and data for a long period of time.

補助記憶装置1003に格納された実行可能プログラム1100が装置1000の起動時や必要時に主記憶装置1002にロードされ、主記憶装置1002にロードされた実行可能プログラム1100をCPU1001が実行することにより、装置1000全体としての各種処理が実行される。 The executable program 1100 stored in the auxiliary storage device 1003 is loaded into the main storage device 1002 when the device 1000 is started or when necessary, and the CPU 1001 executes the executable program 1100 loaded into the main storage device 1002, thereby causing the device to run. Various processes for the entire 1000 are executed.

ネットワークインタフェース装置1004は、装置1000をシステム内の各ネットワークに接続するためのインタフェース装置であり、例えば、NIC(Network Interface Card)から構成される。また入力装置1005は、キーボードや、マウス等のポインティングデバイスなどから構成され、ユーザが装置1000に各種指示や情報を入力するために利用される。出力装置1006は、例えば、液晶ディスプレイ又は有機EL(Electro-Luminescence)ディスプレイなどの表示装置や、スピーカなどの音声出力装置から構成され、必要時に必要な情報をユーザに提示するために利用される。 The network interface device 1004 is an interface device for connecting the device 1000 to each network in the system, and is composed of, for example, a NIC (Network Interface Card). The input device 1005 includes a keyboard, a pointing device such as a mouse, and is used by the user to input various instructions and information to the device 1000. The output device 1006 includes, for example, a display device such as a liquid crystal display or an organic EL (electro-luminescence) display, and an audio output device such as a speaker, and is used to present necessary information to the user when necessary.

以上のように、実施例の機器種別推定システムによれば、対象となるシステムに接続された機器の種別を推定することができる。 As described above, according to the device type estimation system of the embodiment, it is possible to estimate the type of device connected to the target system.

1 対象システム
3 機器種別推定システム
11 機器
13 ネットワーク装置
15 管理装置
31 特徴量計算装置
33 前処理装置
35 分類装置
37 検証装置、
39 推定装置
51 通信監視装置
53 端末装置
1 Target system 3 Device type estimation system 11 Device 13 Network device 15 Management device 31 Feature calculation device 33 Preprocessing device 35 Classification device 37 Verification device,
39 Estimation device 51 Communication monitoring device 53 Terminal device

Claims (15)

通信ネットワークを流れる通信トラフィックを分析して、前記通信ネットワークに接続されている機器の種別を推定する機器種別推定システムであって、
学習用分類処理と推定用分類処理を行う分類装置と、
前記通信トラフィックを出力した前記機器の機器種別情報と前記通信トラフィックの特徴量データに基づいて、前記分類装置が前記学習用分類処理を行うための学習用データセットと、前記分類装置の前記学習用分類処理の分類精度を検証するための検証用データセットと、前記通信トラフィックを出力した前記機器の種別を前記分類装置に推定させるための推定用データとを出力する前処理装置と、
前記分類装置の前記学習用分類処理の前記分類精度を検証する検証装置と、
前記分類装置の前記推定用分類処理の分類結果に基づいて前記機器の種別を推定する推定処理を行う推定装置と、
を有することを特徴とする機器種別推定システム。
A device type estimation system that analyzes communication traffic flowing through a communication network to estimate the type of device connected to the communication network,
a classification device that performs learning classification processing and estimation classification processing;
a learning data set for the classification device to perform the learning classification process based on device type information of the device that outputs the communication traffic and feature data of the communication traffic; and a learning dataset for the classification device to perform the learning classification process. a preprocessing device that outputs a verification data set for verifying classification accuracy of classification processing and estimation data for causing the classification device to estimate the type of the device that outputs the communication traffic;
a verification device that verifies the classification accuracy of the learning classification process of the classification device;
an estimation device that performs estimation processing to estimate the type of the device based on the classification result of the estimation classification processing of the classification device;
A device type estimation system characterized by having the following.
前記学習用データセットは、学習用データと学習用ラベルを含み、
前記検証用データセットは、検証用データと検証用ラベルを含み、
学習フェーズでは、
前記前処理装置は、
前記特徴量データと前記機器種別情報に基づいて学習用前処理を行って前記学習用データと前記学習用ラベルと前記検証用データと前記検証用ラベルを生成し、前記学習用データと前記学習用ラベルと前記検証用データを前記分類装置に送り、前記検証用ラベルを検証装置に送り、
前記分類装置は、
前記学習用データと前記学習用ラベルと前記検証用データに基づいて、前記学習用分類処理を行い、第1の分類結果データを生成して前記検証装置に送り、
前記検証装置は、
前記検証用ラベルと前記第1の分類結果データに基づいて、分類精度データを生成して前記前処理装置に送り、
推定フェーズでは、
前記前処理装置は、
前記特徴量データに基づいて推定用前処理を行って推定用データを生成して前記分類装置に送り、
前記分類装置は、
前記推定用データと前記学習用データと前記学習用ラベルに基づいて、前記推定用分類処理を行い、第2の分類結果データを生成して前記推定装置に送り、
前記推定装置は、
前記第2の分類結果データに基づいて前記推定処理を行い、推定結果データを生成することを特徴とする請求項1に記載の機器種別推定システム。
The training data set includes training data and training labels,
The verification data set includes verification data and a verification label,
In the learning phase,
The pretreatment device includes:
Pre-processing for learning is performed based on the feature amount data and the device type information to generate the learning data, the learning label, the verification data, and the verification label, and the learning data and the learning label are generated. sending the label and the verification data to the classification device; sending the verification label to the verification device;
The classification device includes:
Performing the learning classification process based on the learning data, the learning label, and the verification data, generating first classification result data and sending it to the verification device;
The verification device includes:
Generating classification accuracy data based on the verification label and the first classification result data and sending it to the preprocessing device;
In the estimation phase,
The pretreatment device includes:
Performing pre-processing for estimation based on the feature data to generate estimation data and sending it to the classification device;
The classification device includes:
Performing the estimation classification process based on the estimation data, the learning data, and the learning label, generating second classification result data and sending it to the estimation device,
The estimation device includes:
The device type estimation system according to claim 1, wherein the estimation process is performed based on the second classification result data to generate estimation result data.
前記前処理装置は、
前記学習フェーズにおいて、
前記通信トラフィックの前記特徴量データと、前記機器のアドレスと前記機器種別情報を対応付けしたリスト情報である機器種別リストに基づいて、前記学習用データセットと前記検証用データを生成することを特徴とする請求項2に記載の機器種別推定システム。
The pretreatment device includes:
In the learning phase,
The learning data set and the verification data are generated based on the feature amount data of the communication traffic and a device type list that is list information that associates the address of the device with the device type information. The device type estimation system according to claim 2.
前記前処理装置は、
前記学習フェーズにおいて、
前記分類精度データを参照して、再度、前記学習用前処理を行って、前記学習用データセットを改善して新たな学習用データセットを生成することを特徴とする請求項2に記載の機器種別推定システム。
The pretreatment device includes:
In the learning phase,
The apparatus according to claim 2, wherein the apparatus refers to the classification accuracy data and performs the learning preprocessing again to improve the learning data set and generate a new learning data set. Type estimation system.
前記前処理装置は、
前記学習フェーズにおいて、
前記分類精度データを参照して、前記学習用データセットを条件の異なる複数の学習用データセットに分割して生成し、前記分類精度の低い前記学習用データセットを改善することを特徴とする請求項4に記載の機器種別推定システム。
The pretreatment device includes:
In the learning phase,
A claim characterized in that the training dataset is generated by dividing it into a plurality of training datasets with different conditions with reference to the classification accuracy data, and the training dataset with low classification accuracy is improved. The device type estimation system according to item 4.
前記前処理装置は、
前記学習フェーズにおいて、
前記分類精度データの前記分類精度が所定の閾値より低い場合、前記学習用データセットから前記分類精度の低い前記学習用データを削除することにより、前記分類精度の低い前記学習用データセットを改善することを特徴とする請求項5に記載の機器種別推定システム。
The pretreatment device includes:
In the learning phase,
If the classification accuracy of the classification accuracy data is lower than a predetermined threshold, the training data set with low classification accuracy is improved by deleting the training data with low classification accuracy from the training data set. The device type estimation system according to claim 5.
前記前処理装置は、
条件の異なる複数の前記検証用データを分類した結果を前記条件ごとに出力することを特徴とする請求項2に記載の機器種別推定システム。
The pretreatment device includes:
3. The device type estimation system according to claim 2, wherein a result of classifying the plurality of verification data having different conditions is output for each condition.
前記前処理装置は、
前記推定フェーズにおいて、
前記推定用データを、
前記特徴量データから送信元アドレス及び送信先アドレスを抽出し、トランスポートプロトコル番号と通信状態のフラグ条件に従い前記特徴量データを分割することにより生成することを特徴とする請求項2に記載の機器種別推定システム。
The pretreatment device includes:
In the estimation phase,
The estimation data is
The device according to claim 2, wherein the device is generated by extracting a source address and a destination address from the feature data and dividing the feature data according to flag conditions of a transport protocol number and a communication state. Type estimation system.
前記分類装置は、
前記通信トラフィックを出力した前記機器の前記機器種別情報と前記通信トラフィックの前記特徴量データを対応付けして学習することを特徴とする請求項1に記載の機器種別推定システム。
The classification device includes:
2. The device type estimation system according to claim 1, wherein learning is performed by associating the device type information of the device that outputs the communication traffic with the feature amount data of the communication traffic.
前記分類装置は、
前記前処理装置が分割して生成した条件の異なる複数の前記学習用データセットを学習することを特徴とする請求項1に記載の機器種別推定システム。
The classification device includes:
2. The device type estimation system according to claim 1, wherein the device type estimation system learns a plurality of the learning data sets having different conditions that are divided and generated by the preprocessing device.
前記検証装置は、
前記前処理装置が出力した条件の異なる複数の前記検証用データに含まれる前記特徴量データを分類した結果を、前記前処理装置が出力した条件の異なる複数の前記検証用ラベルに含まれる前記機器種別情報を用いて、前記条件ごとに前記分類精度データを計算して出力することを特徴とする請求項2に記載の機器種別推定システム。
The verification device includes:
The results of classifying the feature amount data included in the plurality of verification data outputted by the preprocessing device under different conditions are classified into the devices included in the plurality of verification labels outputted by the preprocessing device under different conditions. The device type estimation system according to claim 2, wherein the classification accuracy data is calculated and output for each of the conditions using type information.
前記推定装置は、
前記分類装置が出力した前記第2の分類結果データから、条件ごとにアドレス単位で前記機器種別情報を集計し、最も多く出現した前記機器種別情報を算出し、前記アドレスと前記機器種別情報との組を前記推定結果データとして出力することを特徴とする請求項2に記載の機器種別推定システム。
The estimation device includes:
From the second classification result data output by the classification device, the device type information is aggregated in address units for each condition, the device type information that appears most often is calculated, and the relationship between the address and the device type information is calculated. The device type estimation system according to claim 2, wherein a set is output as the estimation result data.
前記機器が出力した前記通信トラフィックの前記特徴量データを計算して、前記特徴量データを前記前処理装置に送る特徴量計算装置を更に有することを特徴とする請求項1に記載の機器種別推定システム。 The device type estimation according to claim 1, further comprising a feature amount calculation device that calculates the feature amount data of the communication traffic outputted by the device and sends the feature amount data to the preprocessing device. system. 前記特徴量計算装置は、
前記通信トラフィックの通信フローデータが入力され、
前記通信フローデータごとに、通信パターンから前記特徴量データを計算することを特徴とする請求項13に記載の機器種別推定システム。
The feature calculation device includes:
communication flow data of the communication traffic is input;
14. The device type estimation system according to claim 13, wherein the feature data is calculated from a communication pattern for each communication flow data.
前記推定装置が推定した前記機器の種別を画面に表示する端末装置が接続されていることを特徴とする請求項1に記載の機器種別推定システム。 The device type estimation system according to claim 1, further comprising a terminal device connected to display the type of the device estimated by the estimation device on a screen.
JP2019198093A 2019-10-31 2019-10-31 Equipment type estimation system Active JP7366690B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019198093A JP7366690B2 (en) 2019-10-31 2019-10-31 Equipment type estimation system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019198093A JP7366690B2 (en) 2019-10-31 2019-10-31 Equipment type estimation system

Publications (2)

Publication Number Publication Date
JP2021072547A JP2021072547A (en) 2021-05-06
JP7366690B2 true JP7366690B2 (en) 2023-10-23

Family

ID=75713779

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019198093A Active JP7366690B2 (en) 2019-10-31 2019-10-31 Equipment type estimation system

Country Status (1)

Country Link
JP (1) JP7366690B2 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019036830A (en) 2017-08-14 2019-03-07 日本電信電話株式会社 Terminal identification device, terminal identification method, and program
US20190296979A1 (en) 2018-03-22 2019-09-26 Citrix Systems, Inc. Systems and methods for inventory discovery in a network

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019036830A (en) 2017-08-14 2019-03-07 日本電信電話株式会社 Terminal identification device, terminal identification method, and program
US20190296979A1 (en) 2018-03-22 2019-09-26 Citrix Systems, Inc. Systems and methods for inventory discovery in a network

Also Published As

Publication number Publication date
JP2021072547A (en) 2021-05-06

Similar Documents

Publication Publication Date Title
US11528283B2 (en) System for monitoring and managing datacenters
US20220038353A1 (en) Technologies for annotating process and user information for network flows
JP6535809B2 (en) Anomaly detection device, an anomaly detection system, and an anomaly detection method
US9984241B2 (en) Method, apparatus, and system for data protection
US11562064B2 (en) Machine learning-based security alert escalation guidance
CN111371735B (en) Botnet detection method, system and storage medium
US8301904B1 (en) System, method, and computer program product for automatically identifying potentially unwanted data as unwanted
US20070121522A1 (en) Techniques for modeling and evaluating protocol interactions
US10320833B2 (en) System and method for detecting creation of malicious new user accounts by an attacker
US11706258B2 (en) Core services detection for a segmented network environment
US20200120122A1 (en) Multi-dimensional periodicity detection of iot device behavior
US9847968B2 (en) Method and system for generating durable host identifiers using network artifacts
JP6053568B2 (en) Spam mail sending host detection method and system from network flow data profile
US11025660B2 (en) Impact-detection of vulnerabilities
CN112602304A (en) Identifying device types based on behavioral attributes
US10601847B2 (en) Detecting user behavior activities of interest in a network
US20190173844A1 (en) Firewall device
US20200076852A1 (en) Monitoring event streams in parallel through data slicing
Cohen et al. Scalable detection of server-side polymorphic malware
US10924365B2 (en) Method and system for generating directed graphs
JP7366690B2 (en) Equipment type estimation system
US11151250B1 (en) Evaluation of files for cybersecurity threats using global and local file information
US20200334353A1 (en) Method and system for detecting and classifying malware based on families
US11930039B1 (en) Metric space modeling of network communication
US20220407871A1 (en) Massive vulnerable surface protection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220609

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230901

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231011

R150 Certificate of patent or registration of utility model

Ref document number: 7366690

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150