JP5199201B2 - High speed binary classification system and method and program - Google Patents

High speed binary classification system and method and program Download PDF

Info

Publication number
JP5199201B2
JP5199201B2 JP2009196434A JP2009196434A JP5199201B2 JP 5199201 B2 JP5199201 B2 JP 5199201B2 JP 2009196434 A JP2009196434 A JP 2009196434A JP 2009196434 A JP2009196434 A JP 2009196434A JP 5199201 B2 JP5199201 B2 JP 5199201B2
Authority
JP
Japan
Prior art keywords
class
binary classification
classification system
probability
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009196434A
Other languages
Japanese (ja)
Other versions
JP2011048622A (en
Inventor
達哉 森
治久 長谷川
亮一 川原
憲昭 上山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009196434A priority Critical patent/JP5199201B2/en
Publication of JP2011048622A publication Critical patent/JP2011048622A/en
Application granted granted Critical
Publication of JP5199201B2 publication Critical patent/JP5199201B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、例えば、医学分野における細胞の正常・異常の分類や、IPネットワークにおけるフローの正常・異常など、対象物を二値に分類する技術に係り、特に、二値分類を高速に行うのに好適な技術に関するものである。   The present invention relates to a technique for classifying an object into binary values, for example, classification of normality / abnormality of cells in the medical field, normality / abnormality of flow in an IP network, and the like. The present invention relates to a suitable technique.

二値分類とは、与えられた対象の集合に対し、各々の対象が有する特徴を基に、二つのクラスに分類するものであり、医学分野におけるメディカルテストや、通信分野における通信の品質制御やスパムメールの分類および不要トラヒックの分類など、様々な分野に応用される技術である。   Binary classification is to classify a given set of objects into two classes based on the characteristics of each object, including medical tests in the medical field and quality control of communication in the communication field. This technology is applied to various fields such as spam mail classification and unnecessary traffic classification.

例えば、特許文献1では、ネットワークにおいて、ある回線を経由するトラヒックフローを対象とし、トラヒックフローの特徴を基に、例えば、当該トラヒックフローが正常であるか、異常であるかの2クラスに確率的に分類する技術が提案されている。   For example, in Patent Document 1, a traffic flow that passes through a certain line in a network is targeted. Based on the characteristics of the traffic flow, for example, the traffic flow is normal or abnormal in two classes. Techniques for classifying them are proposed.

特にネットワークにおいては、近年、情報社会の高度化により、扱うべき対象の数が増大の一途を辿っている。このため、単位時間に処理すべきデータの数もやはり膨大な数になるケースが少なくない。   In particular, in networks, the number of objects to be handled has been steadily increasing in recent years due to the advancement of the information society. For this reason, there are many cases where the number of data to be processed per unit time is also enormous.

その一例として、超高速ネットワーク回線上で時々刻々と到来するパケットを二値分類の対象として、そのパケットを二値に分類し、分類されたクラスに基づいてパケットを処理する場合を考えると、その回線速度が、例えば10Gbpsであると仮定すると、1パケットを処理するのに許容される時間が最短で8nsになり得る。   As an example, consider a case where a packet that arrives from time to time on an ultra-high-speed network line is subject to binary classification, the packet is classified into binary, and the packet is processed based on the classified class. Assuming that the line speed is 10 Gbps, for example, the time allowed to process one packet can be as short as 8 ns.

そのため、ネットワークにおけるパケット毎のクラス分類を実現するためには、クラス分類に要するオーバーヘッドを大幅に削減する必要があり、二値分類における確率の計算を少ない処理数で行うことにより、高速な二値分類を実現することが望まれる。   Therefore, in order to realize class classification for each packet in the network, it is necessary to greatly reduce the overhead required for class classification. By calculating the probability in binary classification with a small number of processing, high speed binary processing is possible. It is desirable to realize classification.

特開2006−295576号公報JP 2006-295576 A

解決しようとする問題点は、従来の技術では、二値分類における確率の計算を少ない処理数で行うことができない点である。   The problem to be solved is that the conventional technique cannot calculate the probability in the binary classification with a small number of processes.

本発明の目的は、これら従来技術の課題を解決し、高速な二値分類を実現することを可能とすることである。   An object of the present invention is to solve these problems of the prior art and realize high-speed binary classification.

上記目的を達成するため、本発明では、時々刻々と到来する対象物が有する特徴からその対象物を2つのクラスC1,C2に分類する。ここで、観測した対象物xは、任意に指定が可能な特徴「A(x)={A(x),A(x),…,Aγ(x)}」を有するものとする(特徴の総数をγとする)。特徴抽出部1aでは、観測した対象物xの特徴A(x)を抽出し、クラス推定部1cでは、特徴抽出部1aが抽出した特徴を基に、対象物が属するC1かC2いずれかのクラスを推定する。クラス学習部1bでは、別途対象物の実際のクラスの情報を用いることによって特徴とクラスの関係を学習する。カウンター部1dでは、クラス学習部1bで学習した結果を数値として保持するためのカウンターを具備する。クラス推定部1cにおけるクラス推定計算では、観測した特徴A(x)を基に、クラスC1に属する確率をp、クラスC2に属する確率qを「q=1−p」とし、pを、下記の数1に示す式で算出されるΛを用いて「p=1÷(1+2Λ)」として近似的に推定する。 In order to achieve the above object, according to the present invention, an object is classified into two classes C1 and C2 based on features of the object that arrives from moment to moment. Here, the observed object x has a characteristic “A (x) = {A 1 (x), A 2 (x),..., A γ (x)}” that can be arbitrarily specified. (The total number of features is γ). The feature extraction unit 1a extracts the feature A (x) of the observed object x, and the class estimation unit 1c, based on the feature extracted by the feature extraction unit 1a, class C1 or C2 to which the object belongs. Is estimated. The class learning unit 1b learns the relationship between features and classes by separately using information on the actual class of the object. The counter unit 1d includes a counter for holding the results learned by the class learning unit 1b as numerical values. In the class estimation calculation in the class estimation unit 1c, based on the observed feature A (x), the probability belonging to the class C1 is p, the probability q belonging to the class C2 is “q = 1−p”, and p is Approximate estimation is performed as “p = 1 ÷ (1 + 2 Λ )” using Λ calculated by the equation shown in Equation 1.

Figure 0005199201
尚、λ(n;M)は、整数nをMビットの二進数で表現した際に先頭から続く0の数を返す関数である。例えばn=22,M=8とすると、nの8ビットでの二進数表現は{00010110}であり、先頭から3つの0が続くので、λ(22;8)=3である。
また、n,nは、それぞれ過去に実際に対象物がクラスC1,C2であった数を記録するカウンター値であり、n1Aj,n2Ajは、それぞれj番目の特徴がある値Ajであった条件の下でクラスがC1あるいはC2であった数である。これらの数値は、カウンター部1dにおける各々のカウンターにて管理される。
さらに、Λと確率pの関係に関して、例えばΛ=−5,−4,…,4,5に対して、確率pの値を予め計算しておき、この計算結果を用いることにより、観測した対象物xに対する確率pを高速に計算する。そして、求めた確率pがある閾値θより高ければクラスをC1,そうでなければ、クラスをC2と推定する。
尚、クラス学習部1bでは、別途得られた対象物の実際のクラスの情報を利用することで、カウンター部1dにおけるカウンター値n,nおよびn1Aj,n2Ajを更新する。
また、クラス学習部1bでは、カウンター値n1Aj,n2Ajが0であった場合、それらを十分に小さな値(例えば「1」)で補正する。
Figure 0005199201
Note that λ (n; M) is a function that returns the number of 0s that continues from the beginning when the integer n is represented by an M-bit binary number. For example, if n = 22 and M = 8, the binary number representation of 8 bits of n is {00010110}, and three 0s are continued from the beginning, so λ (22; 8) = 3.
In addition, n 1 and n 2 are counter values that record the number of objects that were actually class C1 and C2 in the past, respectively, and n 1Aj and n 2Aj are values Aj each having a j-th feature. This is the number where the class was C1 or C2 under certain conditions. These numerical values are managed by each counter in the counter unit 1d.
Further, regarding the relationship between Λ and probability p, for example, the value of probability p is calculated in advance for Λ = −5, −4,. The probability p for the object x is calculated at high speed. If the obtained probability p is higher than a certain threshold value θ, the class is estimated as C1, and if not, the class is estimated as C2.
In the class learning unit 1b, by using the information of the actual class separately obtained object, counter value n 1, n 2 and n 1aj the counter unit 1d, and it updates the n 2AJ.
Further, in the class learning unit 1b, when the counter values n 1Aj and n 2Aj are 0, they are corrected with a sufficiently small value (for example, “1”).

本発明によれば、高速な二値分類を実現することができ、例えば、医学分野におけるメディカルテストや、通信分野における通信品質制御やスパムメールの特定および不要トラヒックの特定などを効率化することが可能である。   According to the present invention, high-speed binary classification can be realized. For example, medical tests in the medical field, communication quality control in the communication field, identification of spam mail, and identification of unnecessary traffic can be made more efficient. Is possible.

本発明に係る高速二値分類システムの構成例を示すブロック図である。It is a block diagram which shows the structural example of the high-speed binary classification system which concerns on this invention. 図1におけるクラス学習部の本発明に係る処理動作例を示すフローチャートである。It is a flowchart which shows the processing operation example which concerns on this invention of the class learning part in FIG. 図1における高速二値分類システムの本発明に係る処理動作例を示すフローチャートである。It is a flowchart which shows the process operation example which concerns on this invention of the high-speed binary classification system in FIG. 図1におけるクラス学習部で保持する学習結果と確率とを対応付けたテーブルの構成例を示す説明図である。It is explanatory drawing which shows the structural example of the table which matched the learning result and probability which are hold | maintained in the class learning part in FIG. 図1におけるカウンター部で保持するカウンター値の第1のテーブル構成例を示す説明図である。It is explanatory drawing which shows the 1st table structural example of the counter value hold | maintained at the counter part in FIG. 図1におけるカウンター部で保持するカウンター値の第2のテーブル構成例を示す説明図である。It is explanatory drawing which shows the 2nd table structural example of the counter value hold | maintained at the counter part in FIG.

以下、図を用いて本発明を実施するための形態例を説明する。図1は、本発明に係る高速二値分類システムの構成例を示すブロック図であって、本例の高速二値分類システム(図中「二値分類システム」と記載)1は、CPU(Central Processing Unit)や主メモリ、表示装置、入力装置、外部記憶装置等を具備したコンピュータ構成からなり、光ディスク駆動装置等を介してCD−ROM等の記憶媒体に記録されたプログラムやデータを外部記憶装置内にインストールした後、この外部記憶装置から主メモリに読み込みCPUで処理することにより、本発明に係る処理を実行する各機能を構成する。   Hereinafter, embodiments for carrying out the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a configuration example of a high-speed binary classification system according to the present invention. The high-speed binary classification system (described as “binary classification system” in the figure) 1 of this example is a CPU (Central Processing unit), a main memory, a display device, an input device, an external storage device, etc., and a computer configuration including the program and data recorded on a storage medium such as a CD-ROM via an optical disk drive device etc. After being installed in the system, each function for executing the processing according to the present invention is configured by reading this external storage device into the main memory and processing by the CPU.

すなわち、図1における高速二値分類システム1は、プログラムされたコンピュータ処理を実行する機能として、特徴抽出部1a、クラス学習部1b、クラス推定部1c、カウンター部1dを有し、外部から入力された対象2に対する2値分類を行い、その結果を、本例ではクラス分類結果4として出力する。   That is, the high-speed binary classification system 1 in FIG. 1 has a feature extraction unit 1a, a class learning unit 1b, a class estimation unit 1c, and a counter unit 1d as functions for executing programmed computer processing, and is input from the outside. Binary classification is performed on the target 2 and the result is output as a classification result 4 in this example.

本例では、高速二値分類システム1は、処理の対象を、ネットワーク回線上を流れるパケットとし、時々刻々と到来する対象物(パケット)が有する特徴から、そのパケットを2つのクラスC1,C2に分類する。   In this example, the high-speed binary classification system 1 sets a processing target as a packet that flows on a network line, and the packet is classified into two classes C1 and C2 due to the characteristics of an object (packet) that arrives from moment to moment. Classify.

観測したパケット(対象物)xは、任意に指定が可能な、総数γ個の特徴「A(x)={A(x),A(x),…,Aγ(x)}」を有するものとする。 The observed packet (object) x is a total of γ features “A (x) = {A 1 (x), A 2 (x),..., A γ (x)}” that can be arbitrarily specified. It shall have.

特徴抽出部1aでは、観測したパケット(図中「対象」と記載)2の特徴A(x)を抽出し、クラス推定部1cでは、特徴抽出部1aが抽出した特徴A(x)を基に、パケット2がC1とC2のいずれかのクラスに属するかを特定する。   The feature extraction unit 1a extracts the feature A (x) of the observed packet (described as “target” in the figure) 2, and the class estimation unit 1c based on the feature A (x) extracted by the feature extraction unit 1a. , Specify whether packet 2 belongs to either class C1 or C2.

クラス学習部1bでは、パケット2に対する、クラス推定部1cによる実際のクラス特定結果と、別途に外部情報3として外部から入力されるクラスの情報を用いることによって、特徴A(x)とクラスC1,C2の関係を学習する。   In the class learning unit 1b, by using the actual class identification result by the class estimation unit 1c for the packet 2 and the class information input from the outside as the external information 3 separately, the feature A (x) and the class C1, Learn the relationship of C2.

カウンター部1dは、カウンターを具備し、このカウンターにより、クラス学習部1bで学習した結果を、数値として保持する。   The counter unit 1d includes a counter, and the counter learns the result learned by the class learning unit 1b as a numerical value.

クラス推定部1cにおけるクラス推定計算では、観測した特徴情報A(x)を基に、パケット2が、クラスC1に属する確率をp、クラスC2に属する確率qを「q=1−p」とし、pを、「p=1÷(1+2Λ)」と近似的に推定する。 In the class estimation calculation in the class estimation unit 1c, based on the observed feature information A (x), the probability that the packet 2 belongs to the class C1 is p, and the probability q that the packet 2 belongs to the class C2 is “q = 1−p”. Estimate p approximately as “p = 1 ÷ (1 + )”.

ここで「Λ」は、下記の数2の式で表される、クラス学習部1bでの学習結果を示す数値である。   Here, “Λ” is a numerical value indicating the learning result in the class learning unit 1b, which is expressed by the following equation (2).

Figure 0005199201
Figure 0005199201

上記数2の式において、λ(n;M)は、整数nをMビットの二進数で表現した際に先頭から続く0の数を返す関数である。例えばn=22,M=8とすると、nの8ビットでの二進数表現は{00010110}であり、先頭から3つの0が続くので、λ(22;8)=3である。   In the equation (2), λ (n; M) is a function that returns the number of 0s that continue from the beginning when the integer n is represented by an M-bit binary number. For example, if n = 22 and M = 8, the binary number representation of 8 bits of n is {00010110}, and three 0s are continued from the beginning, so λ (22; 8) = 3.

また、上記数2の式において、「n」は、過去に実際に対象物であるパケット2がクラスC1であった数を記録するカウンター値であり、「n」は、過去に実際に対象物であるパケット2がクラスC2であった数を記録するカウンター値である。 In the above formula 2, “n 1 ” is a counter value that records the number of packets 2 that are actually objects in the past in the class C1, and “n 2 ” It is a counter value that records the number of packets 2 that are objects of the class C2.

また、上記数2の式において、「n1Aj」は、j番目の特徴がある値Ajであった条件の下で、過去、実際に、対象物であるパケット2がクラスC1であった数であり、「n2Aj,」は、j番目の特徴がある値Ajであった条件の下で、過去、実際に、対象物であるパケット2がクラスC2であった数である。 Further, in the above formula 2, “n 1Aj ” is the number that the packet 2 that is the target object is the class C1 in the past under the condition that the jth feature is the value Aj. Yes , “n 2Aj ,” is the number in which the packet 2 that is the target was class C2 in the past and under the condition that the jth feature is a certain value Aj.

これら、「n」、「n」、「n1Aj」、「n2Aj,」の数値は、カウンター部1dにおける各々のカウンターにて管理される。 These numerical values of “n 1 ”, “n 2 ”, “n 1Aj ”, “n 2Aj ” are managed by each counter in the counter unit 1d.

尚、クラス推定部1cでは、予め、上記Λの値に応じた、パケット2がクラスC1である確率pを算出して記憶装置に格納しておくことにより、観測したパケット(対象物)に対する確率pを高速に計算できる。   In the class estimation unit 1c, the probability for the observed packet (object) is calculated in advance by calculating the probability p that the packet 2 is class C1 according to the value of Λ and storing it in the storage device. p can be calculated at high speed.

そして、クラス推定部1cは、確率pが、予め定められた閾値θより高ければ、当該対象物であるパケット2のクラスをC1,そうでなければ、クラスをC2と特定する。   If the probability p is higher than a predetermined threshold θ, the class estimation unit 1c identifies the class of the packet 2 as the target object as C1, and otherwise identifies the class as C2.

また、クラス学習部1bでは、別途得られた対象物の実際のクラスの情報を利用することで、カウンター部1dにおけるカウンター値n,nを設定すると共に、クラス推定部1cによるクラスの特定結果に応じて、カウンター値n1Aj,n2Ajを更新する。 Further, the class learning unit 1b sets the counter values n 1 and n 2 in the counter unit 1d by using the information on the actual class of the object obtained separately, and specifies the class by the class estimation unit 1c. The counter values n 1Aj and n 2Aj are updated according to the result.

尚、このカウンター値n1Aj,n2Ajが「0」であった場合、それらを十分に小さな値、例えば「1」で補正する。 When the counter values n 1Aj and n 2Aj are “0”, they are corrected by a sufficiently small value, for example, “1”.

以下、高速二値分類システム1において、処理の対象である、ネットワーク回線上を流れ、時々刻々と到来するパケットを対象物とし、そのパケットが有する特徴として、送信元IPアドレスのネットワークプレフィックスを用い、そのパケットを2つのクラスC1,C2に分類する処理動作の詳細を説明する。尚、ビットのサイズ(M)は8であり、カウンターは2進数で管理しているものとする。   Hereinafter, in the high-speed binary classification system 1, a packet that flows on a network line, which is an object of processing, and arrives from time to time is set as an object, and the network prefix of the source IP address is used as a feature of the packet, Details of the processing operation for classifying the packet into two classes C1 and C2 will be described. It is assumed that the bit size (M) is 8 and the counter is managed in binary.

ここでは、対象物であるパケットに対して1つのみの特徴を考える。このパケットの特徴としてのIPアドレスのネットワークプレフィックスは、内部あるいは外部で管理された経路情報より、把握可能であるものとする。   Here, only one feature is considered for the packet that is the object. It is assumed that the network prefix of the IP address as a characteristic of this packet can be grasped from the route information managed internally or externally.

また、クラスとしては、ネットワーク異常を引き起こしている(C1)か否(C2)かの二値とする。   Further, the class is a binary value indicating whether a network abnormality is caused (C1) or not (C2).

図1において、高速二値分類システム1は、対象物xとしてのパケット2を特徴抽出部1aにおいて取り込み、特徴抽出部1aにより、パケット2に関する特徴を抽出する。   In FIG. 1, a high-speed binary classification system 1 takes in a packet 2 as an object x in a feature extraction unit 1a, and extracts a feature related to the packet 2 by the feature extraction unit 1a.

すなわち、特徴抽出部1aは、パケット2の送信元IPアドレスを参照して、例えば、「192.168.1.13」を取得し、このIPアドレス(192.168.1.13)に紐付いたネットワークプレフィックス(特徴)を、内部あるいは外部で管理されたネットワーク経路情報などを参照することによって取得する。   That is, the feature extraction unit 1a refers to the source IP address of the packet 2 and acquires, for example, “192.168.1.13” and associates it with this IP address (192.168.1.13). The network prefix (feature) is acquired by referring to network route information managed internally or externally.

ここでは、対応するネットワークプレフィックス(パケット2の特徴)が「192.168.1.0/24」であったとする。この結果、パケット(対象物x)が有する特徴(A(x))の数は一つであるので、特徴A(x)=192.168.1.0/24となる。 Here, it is assumed that the corresponding network prefix (feature of packet 2) is “192.168.1.0/2 4”. As a result, since the number of features (A (x)) included in the packet (object x) is one, the feature A 1 (x) = 192.168.1.0 / 2 4.

このようにして、特徴抽出部1aにおいて、取得した、パケット(対象物x:192.168.1.13)およびその特徴(特徴A(x)=192.168.1.0/24)はクラス学習部1bに送られる。 Thus, in the feature extraction unit 1a, the acquired packet (object x: 192.168.1.13) and its feature (feature A 1 (x) = 192.168.1.0 / 2 4) are It is sent to the class learning unit 1b.

クラス学習部1bでは、図2に示したフローチャートにしたがって、カウンター部1dで管理する対象のクラス情報および対応するカウンター値の更新を行う。尚、このクラス学習部1bでの処理はリアルタイム処理でなくても構わない。   In the class learning unit 1b, the class information to be managed by the counter unit 1d and the corresponding counter value are updated according to the flowchart shown in FIG. Note that the processing in the class learning unit 1b may not be real-time processing.

図5と図6においてカウンター部1で管理するカウンター値n1Aj,n2Aj51とカウンター値n,n61の具体例を示す。ここでは、すべてのカウンターは8ビットの整数で管理されているものとし、各カウンター(n1,n2,n1A1,n2A1)の数値は、いずれも2進数で表現されている。 5 and FIG. 6 show specific examples of counter values n 1Aj and n 2Aj 51 and counter values n 1 and n 2 61 managed by the counter unit 1. Here, it is assumed that all the counters are managed as 8-bit integers, and the numerical values of the counters (n1, n2, n1A1, n2A1) are all expressed in binary numbers.

今、パケット2(対象x:192.168.1.13)のクラスを外部に問い合わせた結果(ステップS201〜S203)、クラスがC1であると判明したものとする。   As a result of inquiring the class of packet 2 (target x: 192.168.1.13) to the outside (steps S201 to S203), it is assumed that the class is found to be C1.

クラスC1が一つ観測されたので、カウンターn1の数値を一つカウントアップする(ステップS204)。その結果、図6のカウンター値n,n61におけるカウンターn1の値「00101101」は「00101110」となる。 Since one class C1 is observed, the counter n1 is incremented by one (step S204). As a result, the value “00101101” of the counter n1 in the counter values n 1 and n 2 61 in FIG. 6 becomes “00101110”.

また、パケット2(対象x)の特徴A1に関しては、パケット2(対象x)のクラスがC1であったので、カウンターn1A1の数値を、やはり一つカウントアップする(ステップS204)。その結果、図5のカウンター値n1Aj,n2Aj51におけるカウンターn1A1の値「00100011」は「00100100」となる。 Regarding the feature A1 of the packet 2 (target x), since the class of the packet 2 (target x) is C1, the numerical value of the counter n1A1 is also counted up by one (step S204). As a result, the value “00100011” of the counter n1A1 in the counter values n 1Aj and n 2Aj 51 of FIG. 5 becomes “00100100”.

クラス推定部1cでは、図3のフローチャートにおいて示すようにして、特徴抽出部1aから送られてきた対象物xであるパケットの情報(192.168.1.13)と特徴A1(x)(192.168.1.0/24)を基に、カウンター部1dで管理している情報を用いて、クラス判定を行う。   In the class estimation unit 1c, as shown in the flowchart of FIG. 3, the packet information (192.168.1.13) and the feature A1 (x) (192) that are the object x sent from the feature extraction unit 1a. 168.1.0 / 2 4), class determination is performed using information managed by the counter unit 1d.

すなわち、クラス推定部1cでは、特徴抽出部1aから送られてきた対象物xであるパケットの情報(192.168.1.13)と特徴A1(x)(192.168.1.0/24)を基に、カウンター部1dで管理している情報(n1Aj,n2Aj,n1,n2)を読み出し(ステップS301)、これらの情報を用いて、クラス判定を行う(ステップS302〜S305)。この処理はリアルタイムで実施できるよう、高速に実現しなければならない。   That is, in the class estimation unit 1c, the information (192.168.1.13) of the packet that is the object x sent from the feature extraction unit 1a and the feature A1 (x) (192.168.1.0/2 4). ), Information (n1Aj, n2Aj, n1, n2) managed by the counter unit 1d is read (step S301), and class determination is performed using these information (steps S302 to S305). This process must be implemented at high speed so that it can be performed in real time.

今、カウンター部1dにおける各カウンターから、n1=「00101101」,n2=「00010110」,n1A1=「00100011」,n2A1=「00001101」を読み取ったものとする(ステップS301)。尚、これらの値は、前記のクラス学習部1bによる学習における更新前の値で構わない。   It is assumed that n1 = “00101101”, n2 = “00010110”, n1A1 = “00100011”, and n2A1 = “00001011” are read from each counter in the counter unit 1d (step S301). These values may be values before updating in learning by the class learning unit 1b.

この場合、Λ=λ(n;M)−λ(n;M)+λ(n1A1;M)−λ(n2A1;M)=2−3+2−4=−3であるので、図4を参照すると、Λが「−3」に対応する確率pの値は「8/9」であり(図4におけるΛが「−3」に対応する確率pの値は、予め、p=1÷(1+2Λ)から、1÷(1+2−3)=1÷(1+21/8)=8/9として求められている)、確率pの推定値p*は「8÷9=0.8888…」となることがわかる(ステップS302)。 In this case, since Λ = λ (n 1 ; M) −λ (n 2 ; M) + λ (n 1A1 ; M) −λ (n 2A1 ; M) = 2−3 + 2−4 = −3, FIG. , The value of the probability p corresponding to Λ = “− 3” is “8/9” (the value of the probability p corresponding to Λ = “− 3” in FIG. 4 is p = 1 ÷ (1 + 2 Λ ) 1 ÷ (1 + 2 −3 ) = 1 ÷ (1 + 2 1/8 ) = 8/9), the estimated value p * of the probability p is “8 ÷ 9 = 0.8888. "(Step S302).

そして、例えば、閾値θを「θ=0.8」とした場合、推定値p*>θであるので(ステップS303)、クラス推定部1cは、パケット2(対象x)をクラスC1と分類できる(ステップS304)。また、閾値θを「θ=0.9」とした場合、推定値p*<θであるので(ステップS303)、クラス推定部1cは、パケット2(対象x)をクラスC2と分類できる(ステップS305)。   For example, when the threshold θ is “θ = 0.8”, the estimated value p *> θ is satisfied (step S303), so the class estimating unit 1c can classify the packet 2 (target x) as the class C1. (Step S304). Further, when the threshold θ is “θ = 0.9”, since the estimated value p * <θ (step S303), the class estimation unit 1c can classify the packet 2 (target x) as the class C2 (step S303). S305).

以上述べたクラス推定部1cで行った処理をまとめると、(1)特徴抽出部1aから送信された情報に基づく対応するカウンター値の読み出し(ステップS301)と、(2)Λと確率p(推定値p*)の計算(ステップS302)、そして、(3)確率p(推定値p*)と閾値θとの比較である(ステップS303〜S305)。   The processing performed by the class estimation unit 1c described above is summarized as follows: (1) reading of a corresponding counter value based on information transmitted from the feature extraction unit 1a (step S301), (2) Λ and probability p (estimation) (Value p *) is calculated (step S302), and (3) the probability p (estimated value p *) is compared with the threshold value θ (steps S303 to S305).

これらの処理の内、最も処理負荷の高いのは、Λの計算であるが、このΛの計算では、各々のカウンター値における先頭から続く「0」の個数を数えている。この計算手順は、一般的に、NLZ(Number of Leading Zero)の演算として知られるものであり、高速に処理可能である。   Among these processes, the calculation with the highest processing load is the calculation of [Lambda]. In the calculation of [Lambda], the number of "0" s continuing from the top in each counter value is counted. This calculation procedure is generally known as NLZ (Number of Leading Zero) operation and can be processed at high speed.

以上、図1〜図6を用いて説明したように、本例の高速二値分類システム1では、入力された対象物(パケット)を、当該対象物の特徴に基づき2つのクラスC1,C2に、高速に分類するために、特徴抽出部1aにより、入力された対象物x(パケット)の特徴情報A(x)(ネットワークプレフィックス)を抽出し、クラス推定部1cにより、特徴抽出部1aが抽出した対象物xの特徴情報A(x)に対応付けられたクラスがクラスC1,C2のいずれであるかを判定する。   As described above with reference to FIGS. 1 to 6, in the high-speed binary classification system 1 of this example, the input object (packet) is divided into two classes C1 and C2 based on the characteristics of the object. In order to classify at high speed, the feature extraction unit 1a extracts feature information A (x) (network prefix) of the input object x (packet), and the class estimation unit 1c extracts the feature extraction unit 1a. It is determined whether the class associated with the feature information A (x) of the target object x is the class C1 or C2.

その際、クラス推定部1cは、入力された特徴情報A(x)を基にクラスC1に属する確率をp、C2に属する確率をq=1−pとし、確率pを、上述の数2に示す、整数nをMビットの二進数で表現した際に先頭から続く0の数を返す関数λ(n;M)と、対象物xが過去に実際にクラスC1であった数nと、対象物xが過去に実際にクラスC2であった数nと、対象物xのj番目の特徴が値Aであった条件の下で、当該対象物xのクラスがC1であった数n1Ajと、対象物xのj番目の特徴が値Aであった条件の下で、当該対象物xのクラスがC2であった数n2Ajとからなる式で算出されるΛを用いて、確率pをp=1÷(1+2Λ)により算出し、算出した確率pの値が予め定められた閾値θと比較して、高ければクラスC1、低ければクラスC2と判定する。 At that time, the class estimation unit 1c sets the probability of belonging to the class C1 based on the input feature information A (x) to p, the probability of belonging to C2 to q = 1−p, and sets the probability p to the above-described formula 2. A function λ (n; M) that returns the number of zeros that follow from the beginning when the integer n is represented by an M-bit binary number, and a number n 1 that the object x was actually a class C1 in the past, Number n 2 in which object x was actually class C2 in the past, and number in which class of object x was C1 under the condition that the jth feature of object x was value A j and n 1aj, under the j-th condition characteristics is a value a j of the object x, with Λ class of the object x is calculated by the formula consisting of a number n 2AJ was C2 the probability p is calculated by p = 1 ÷ (1 + 2 Λ), compared the calculated value of the probability p is a predetermined threshold theta, click the higher Scan C1, determines that the class C2 if lower.

また、高速二値分類システム1では、カウンター部1dにおいて、対象物x(パケット9毎の数n,n,n1Aj,n2Ajのそれぞれを個別に記憶し、クラス学習部1bにより、外部情報3として入力装置を介して入力される、対象物x(パケット)が過去に実際にクラスC1もしくはC2であった実績結果情報、および、対象物x(パケット)のj番目の特徴(ネットワークプレフィックス)が値Aであった条件の下で当該対象物xのクラスがC1もしくはC2であった実績結果情報を用いて、カウンター部1dが記憶する対象物x毎の数n,n,n1Aj,n2Ajのそれぞれを更新する。 In the high-speed binary classification system 1, the counter unit 1d individually stores the object x (numbers n 1 , n 2 , n 1Aj , n 2Aj for each packet 9), and the class learning unit 1 b The result x information that the object x (packet) is actually class C1 or C2 in the past, and the jth feature (network prefix) of the object x (packet), which is input via the input device as information 3 ) Is a value A j , using the result result information in which the class of the object x is C1 or C2, the number n 1 , n 2 , for each object x stored in the counter unit 1d Each of n 1Aj and n 2Aj is updated.

また、高速二値分類システム1では、クラス学習部1bにおいて、カウンター部1dが記憶する対象物x(パケット)の数n1Aj,n2Ajが0であった場合、予め定められた数、例えば、1を含む十分に小さな値に更新する。 In the high-speed binary classification system 1, when the number n 1Aj and n 2Aj of the object x (packet) stored in the counter unit 1d is 0 in the class learning unit 1b, a predetermined number, for example, Update to a sufficiently small value including 1.

さらに、高速二値分類システム1では、クラス推定部1cにおいて、上述の数2における各Λの値に対する各確率pを予め算出して、図4に示すように、Λとpの関係情報として記憶装置に記憶しておき、クラス推定部1cは、数2の式で算出したΛに対する確率pを、記憶装置に記憶したΛとpの関係情報を参照して取得する。   Furthermore, in the high-speed binary classification system 1, the class estimation unit 1c calculates in advance the probabilities p for the values of Λ in the above equation 2 and stores them as relation information between Λ and p as shown in FIG. The class estimation unit 1c stores the probability p with respect to Λ calculated by the formula 2 with reference to the relation information between Λ and p stored in the storage device.

このことにより、本例の高速二値分類システム1では、二値分類における確率の計算を少ない処理数で行うことが可能となり、クラス分類処理に要するオーバーヘッドを大幅に削減して、高速な二値分類を実現することができ、ネットワークにおけるパケット毎のクラス分類を効率的に行うことが可能となる。   As a result, in the high-speed binary classification system 1 of this example, it is possible to calculate the probability in the binary classification with a small number of processes, greatly reducing the overhead required for the class classification process, and high-speed binary Classification can be realized, and class classification for each packet in the network can be performed efficiently.

尚、本発明は、図1〜図6を用いて説明した例に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能である。例えば、本例では、外部情報3に基づきクラス学習部1bによりカウンター部1dにおける情報(カウンター値)を更新する構成としているが、クラス推定部1cによるクラス分類結果4を、カウンター部1dにおける情報(カウンター値)に反映させる構成としても良い。   In addition, this invention is not limited to the example demonstrated using FIGS. 1-6, In the range which does not deviate from the summary, various changes are possible. For example, in this example, the class learning unit 1b updates the information (counter value) in the counter unit 1d based on the external information 3, but the class classification result 4 by the class estimation unit 1c is changed to the information in the counter unit 1d ( The counter value may be reflected.

また、本例では、ネットワーク上のパケットを対象物xとして、その正常・異常を推定・判定する構成例での説明を行っているが、例えば、医療分野における細胞を対象物xとして、その正常・異常を推定・判定する構成としても良い。   Further, in this example, a description is given of a configuration example in which a packet on the network is set as an object x, and normality / abnormality is estimated / determined. -It is good also as a structure which estimates and determines abnormality.

また、本例のコンピュータ構成に関しても、キーボードや光ディスクの駆動装置の無いコンピュータ構成としても良い。また、本例では、光ディスクを記録媒体として用いているが、FD(Flexible Disk)等を記録媒体として用いることでも良い。また、プログラムのインストールに関しても、通信装置を介してネットワーク経由でプログラムをダウンロードしてインストールすることでも良い。   The computer configuration of this example may be a computer configuration without a keyboard or optical disk drive. In this example, an optical disk is used as a recording medium. However, an FD (Flexible Disk) or the like may be used as a recording medium. As for the program installation, the program may be downloaded and installed via a network via a communication device.

1:高速二値分類システム(「二値分類システム」)、1a:特徴抽出部、1b:クラス学習部、1c:クラス推定部、1d:カウンター部、2:対象物(「パケット」)、3:外部情報、4:クラス分類結果、41:Λと確率pの関係情報、51:カウンター値n1Aj,n2Aj、61:カウンター値n,n1: fast binary classification system (“binary classification system”), 1a: feature extraction unit, 1b: class learning unit, 1c: class estimation unit, 1d: counter unit, 2: object (“packet”), 3 : External information, 4: class classification result, 41: relation information between Λ and probability p, 51: counter values n 1Aj , n 2Aj , 61: counter values n 1 , n 2 .

Claims (6)

入力された対象物を、当該対象物の特徴に基づき2つのクラスC1,C2に分類する高速二値分類システムであって、
入力された対象物xの特徴情報A(x)を抽出する特徴抽出手段と、
該特徴抽出手段が抽出した対象物xの特徴情報A(x)に対応付けられたクラスがクラスC1,C2のいずれであるかを判定するクラス推定手段とを有し、
該クラス推定手段は、
入力された特徴情報A(x)を基にクラスC1に属する確率をp、C2に属する確率をq=1−pとし、確率pを、
下記の数1に示す、
整数nをMビットの二進数で表現した際に先頭から続く0の数を返す関数λ(n;M)と、
対象物xが過去に実際にクラスC1であった数nと、
対象物xが過去に実際にクラスC2であった数nと、
対象物xのj番目の特徴が値Aであった条件の下で、当該対象物xのクラスがC1であった数n1Ajと、
対象物xのj番目の特徴が値Aであった条件の下で、当該対象物xのクラスがC2であった数n2Aj
からなる式で算出されるΛを用いて、上記確率pをp=1÷(1+2Λ)により算出し、
算出した確率pの値が予め定められた閾値θと比較して、高ければクラスC1、低ければクラスC2と判定する
ことを特徴とする高速二値分類システム。
Figure 0005199201
A high-speed binary classification system that classifies an input object into two classes C1 and C2 based on characteristics of the object,
Feature extraction means for extracting feature information A (x) of the input object x;
Class estimation means for determining which of the classes C1 and C2 is the class associated with the feature information A (x) of the object x extracted by the feature extraction means;
The class estimation means includes:
Based on the input feature information A (x), the probability belonging to class C1 is p, the probability belonging to C2 is q = 1-p, and the probability p is
Shown in Equation 1 below
A function λ (n; M) that returns the number of zeros that follow from the beginning when the integer n is represented in an M-bit binary number;
The number n 1 in which the object x was actually class C1 in the past,
The number n 2 that the object x was actually class C2 in the past,
Under the condition that the j-th feature of the object x is the value A j , the number n 1Aj whose class of the object x was C1;
Under the condition that the j-th feature of the object x is the value A j , the probability p is calculated by using Λ calculated by an expression consisting of the number n 2Aj where the class of the object x is C2. Is calculated by p = 1 ÷ (1 + 2 Λ ),
A high-speed binary classification system, wherein the calculated probability p is determined to be class C1 if it is high and class C2 if it is low, compared to a predetermined threshold value θ.
Figure 0005199201
請求項1に記載の高速二値分類システムであって、
上記対象物x毎の上記数n,n,n1Aj,n2Ajのそれぞれを個別に記憶するカウンター手段と、
入力装置を介して入力される、上記対象物xが過去に実際にクラスC1もしくはC2であった実績結果情報、および、上記対象物xのj番目の特徴が値Aであった条件の下で当該対象物xのクラスがC1もしくはC2であった実績結果情報を用いて、上記カウンター手段が記憶する上記対象物x毎の上記数n,n,n1Aj,n2Ajのそれぞれを更新するクラス学習手段と
を有することを特徴とする高速二値分類システム。
The fast binary classification system according to claim 1,
Counter means for individually storing each of the numbers n 1 , n 2 , n 1Aj , n 2Aj for each object x;
Under the condition that the target object x is actually class C1 or C2 in the past and the j-th feature of the target object x is the value A j that is input via the input device. Then, each of the numbers n 1 , n 2 , n 1Aj , n 2Aj for each of the objects x stored in the counter means is updated using the actual result information in which the class of the object x is C1 or C2. And a high-speed binary classification system characterized by comprising:
請求項2に記載の高速二値分類システムであって、
上記クラス学習手段は、
上記カウンター手段が記憶する上記対象物xの数n1Aj,n2Ajが0であった場合、予め定められた数に更新することを特徴とする高速二値分類システム。
The fast binary classification system according to claim 2,
The class learning means
A high-speed binary classification system, wherein when the number n 1Aj , n 2Aj of the object x stored in the counter means is 0, the number is updated to a predetermined number.
請求項1から請求項3のいずれかに記載の高速二値分類システムであって、
上記クラス推定手段は、
上記数1における各Λの値に対する各確率pを予め算出してΛとpの関係情報として記憶装置に記憶する手段を具備し、
上記数1の式で算出したΛに対する確率pを、上記記憶装置に記憶したΛとpの関係情報を参照して取得する
ことを特徴とする高速二値分類システム。
A high-speed binary classification system according to any one of claims 1 to 3,
The class estimation means is
Means for pre-calculating each probability p for each value of Λ in Equation 1 and storing it in the storage device as relation information between Λ and p;
A high-speed binary classification system characterized in that the probability p for Λ calculated by the equation (1) is obtained by referring to the relation information between Λ and p stored in the storage device.
コンピュータを、請求項1から請求項4のいずれかに記載の高速二値分類システムにおける各手段として機能させるためのプログラム。   The program for functioning a computer as each means in the high-speed binary classification system in any one of Claims 1-4. プログラムされたコンピュータ処理を実行する手段として、請求項1から請求項4のいずれかに記載の高速二値分類システムにおける各手段を具備したコンピュータ装置による高速二値分類方法であって、
上記コンピュータ装置は、具備した各手段により、請求項1から請求項4のいずれかに記載の高速二値分類システムにおける処理を実行して、入力された対象物を、当該対象物の特徴に基づき2つのクラスC1,C2に分類することを特徴とする高速二値分類方法。
A high-speed binary classification method by a computer device having each means in the high-speed binary classification system according to any one of claims 1 to 4, as means for executing programmed computer processing,
The said computer apparatus performs the process in the high-speed binary classification system in any one of Claims 1-4 by each means with which it comprises, The input target object is based on the characteristic of the said target object. A fast binary classification method characterized by classifying into two classes C1 and C2.
JP2009196434A 2009-08-27 2009-08-27 High speed binary classification system and method and program Expired - Fee Related JP5199201B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009196434A JP5199201B2 (en) 2009-08-27 2009-08-27 High speed binary classification system and method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009196434A JP5199201B2 (en) 2009-08-27 2009-08-27 High speed binary classification system and method and program

Publications (2)

Publication Number Publication Date
JP2011048622A JP2011048622A (en) 2011-03-10
JP5199201B2 true JP5199201B2 (en) 2013-05-15

Family

ID=43834872

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009196434A Expired - Fee Related JP5199201B2 (en) 2009-08-27 2009-08-27 High speed binary classification system and method and program

Country Status (1)

Country Link
JP (1) JP5199201B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11659023B2 (en) * 2017-12-28 2023-05-23 Cilag Gmbh International Method of hub communication

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7356187B2 (en) * 2004-04-12 2008-04-08 Clairvoyance Corporation Method and apparatus for adjusting the model threshold of a support vector machine for text classification and filtering
JP4420850B2 (en) * 2005-04-12 2010-02-24 日本電信電話株式会社 Flow class estimation method, apparatus and program
JP2007293377A (en) * 2006-03-15 2007-11-08 Nara Institute Of Science & Technology Input/output device for separating subjective page and non-subjective page

Also Published As

Publication number Publication date
JP2011048622A (en) 2011-03-10

Similar Documents

Publication Publication Date Title
US7353214B2 (en) Outlier determination rule generation device and outlier detection device, and outlier determination rule generation method and outlier detection method thereof
CN112567407B (en) Privacy preserving tagging and classification of emails
US9954805B2 (en) Graymail filtering-based on user preferences
CN109644184B (en) Clustering method for detecting DDOS botnet on cloud from IPFIX data
US7552186B2 (en) Method and system for filtering spam using an adjustable reliability value
US7809795B1 (en) Linguistic nonsense detection for undesirable message classification
AU2012367398B2 (en) Systems and methods for spam detection using character histograms
CN107818077A (en) A kind of sensitive content recognition methods and device
AU2020246084B2 (en) Evaluation device, evaluation method, and evaluation program
US12034732B2 (en) System, method, and computer program for automatically classifying user accounts in a computer network using keys from an identity management system
EP3132396A1 (en) Filtering electronic messages
CA2590476A1 (en) A method, apparatus, and system for clustering and classification
WO2021139313A1 (en) Meta-learning-based method for data screening model construction, data screening method, apparatus, computer device, and storage medium
CN111191767A (en) Vectorization-based malicious traffic attack type judgment method
US8352409B1 (en) Systems and methods for improving the effectiveness of decision trees
CN101141416A (en) Real-time rubbish mail filtering method and system used for transmission influx stage
CN110034966B (en) Data flow classification method and system based on machine learning
US11929969B2 (en) System and method for identifying spam email
CN113452676A (en) Detector allocation method and Internet of things detection system
CN111291078B (en) Domain name matching detection method and device
JP5199201B2 (en) High speed binary classification system and method and program
JPWO2019180868A1 (en) Image generator, image generator and image generator
US20230156034A1 (en) Real-time threat detection for encrypted communications
CN109255238B (en) Terminal threat detection and response method and engine
CN113887633B (en) Malicious behavior identification method and system for closed source power industrial control system based on IL

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110608

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110608

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110616

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110704

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110719

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111031

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20120606

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130207

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160215

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5199201

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees