JP4768674B2 - Worm-infected host identification method and worm-infected host identification system - Google Patents

Worm-infected host identification method and worm-infected host identification system Download PDF

Info

Publication number
JP4768674B2
JP4768674B2 JP2007146693A JP2007146693A JP4768674B2 JP 4768674 B2 JP4768674 B2 JP 4768674B2 JP 2007146693 A JP2007146693 A JP 2007146693A JP 2007146693 A JP2007146693 A JP 2007146693A JP 4768674 B2 JP4768674 B2 JP 4768674B2
Authority
JP
Japan
Prior art keywords
worm
host
white list
mass flow
infected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007146693A
Other languages
Japanese (ja)
Other versions
JP2008301330A (en
Inventor
憲昭 上山
達哉 森
亮一 川原
薫明 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007146693A priority Critical patent/JP4768674B2/en
Publication of JP2008301330A publication Critical patent/JP2008301330A/en
Application granted granted Critical
Publication of JP4768674B2 publication Critical patent/JP4768674B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Description

本発明は、ワーム感染ホスト特定法およびワーム感染ホスト特定システムに係り、特に、フロー計測から得られたデータを用いて、ワーム感染ホストを特定するワーム感染ホスト特定法およびワーム感染ホスト特定システムに関する。   The present invention relates to a worm-infected host identification method and a worm-infected host identification system, and more particularly to a worm-infected host identification method and a worm-infected host identification system for identifying a worm-infected host using data obtained from flow measurement.

近年インターネットでは、ワームの感染拡大が問題となっている。ワームに感染したホストは、次に感染させる脆弱なホストを探すため、ランダムやシーケンシャルに生成したアドレスに対してポートスキャンのためのパケットを送付する。
中でも、Bandwidth limited型と呼ばれるワームに感染したホストは、使用可能なネットワークの伝送帯域とホストのCPU能力を最大限用いてポートスキャンを行うため、感染が爆発的に拡大する特徴がある。例えば、代表的なBandwidth limited型のワームであるSlammerの場合、感染ホストは平均で4000回ものポートスキャンを1秒間に行い、わずか10分程度でネットワーク全体に感染が拡大したことが報告されている。
これまで新種のワームの出現に対しては、OSやアプリケーションソフトの脆弱性を修復するためのパッチや、感染プログラムを除去するためのワクチンプログラムを開発し、一般利用者に配布することで対策がとられてきた。
しかし、Bandwidth limited型といった感染レートの高いワームは、パッチやワクチンが開発されるまでにネットワークの大部分に感染が拡大するため、このような対策だけでは十分でない。
In recent years, the spread of worm infections has become a problem on the Internet. A host infected with the worm sends a port scan packet to a randomly or sequentially generated address in order to find the next vulnerable host to infect.
Among them, a host infected with a worm called the Bandwidth limited type is characterized by the fact that infection is explosively expanded because port scanning is performed using the available network transmission bandwidth and the CPU capacity of the host as much as possible. For example, in the case of Slammer, which is a typical Bandwidth limited worm, it is reported that the infected host performed an average of 4000 port scans per second, and the infection spread to the entire network in only about 10 minutes. .
Up to now, new worms can be countered by developing patches for repairing vulnerabilities in OS and application software and vaccine programs for removing infected programs and distributing them to general users. Has been taken.
However, worms with a high infection rate, such as the Bandwidth limited type, are not sufficient because such infections spread to the majority of the network before patches and vaccines are developed.

Bandwidth limited型のような感染レートの高いワームに対しては、ワームの出現を可能な限り早期に検知し、自動的にワーム感染ホストを特定し、感染ホストのパケット送出レート規制等により、ワームの感染が拡大する速度を抑え、パッチやワクチンが開発されるまでの時間を稼ぐことが重要となる。
一方、ワーム感染ホストを特定する手法として、以前、発明者らは、短時間に大量のフローを生成するホストを大量フロー生成ホスト(Superspreader)として特定する方法を提案した。(下記、非特許文献1参照)
この非特許文献1に記載されている方法は、長さがφ秒の任意の測定期間Φ内に測定ポイントで観測されたフロー数mが明示的に定めた閾値m以上のホストを、大量フロー生成ホストと定義し、m=mのホストが特定される確率Hを明示的に与える。
本方式を用いることで、限られたメモリを最大限に活用して、大量フロー生成ホストを高精度に特定することが可能となる。
For worms with a high infection rate such as the Bandwidth limited type, the appearance of the worm is detected as early as possible, the worm-infected host is automatically identified, and the packet transmission rate of the infected host is regulated, etc. It is important to limit the rate at which infection spreads and allow time for patches and vaccines to be developed.
On the other hand, as a method for identifying a worm-infected host, the inventors previously proposed a method for identifying a host that generates a large amount of flow in a short time as a large flow generation host (Superspreader). (See Non-Patent Document 1 below)
The method described in this Non-Patent Document 1 uses a large number of hosts whose threshold number m * is equal to or greater than the number of flows m observed at a measurement point within an arbitrary measurement period Φ having a length of φ seconds. It is defined as a flow generation host and explicitly gives a probability H * that a host with m = m * is specified.
By using this method, it is possible to specify the mass flow generation host with high accuracy by making the most of the limited memory.

なお、本願発明に関連する先行技術文献としては以下のものがある。
上山,森,川原,「フローサンプリングを用いた大量フロー生成ホストの特定」,信学技報 IN2005-184.
As prior art documents related to the invention of the present application, there are the following.
Kamiyama, Mori, Kawahara, “Identification of Mass Flow Generation Host Using Flow Sampling”, IEICE Technical Report IN2005-184.

大量フロー生成ホストには、ワーム感染ホストに加え、DNSサーバといった正常なホストであるが大量のフローを生成するホストも含まれる。そのため、単に、特定された大量フロー生成ホストに対してレート規制等の規制処理を行うと、正常なホストまで規制される。特に、DNSサーバといった重要な役目を担うホストに対して規制処理を行うと、インターネットの正常な運営に支障をきたす可能性があるため、特定されたホストに対する規制処理は慎重に行う必要がある。
一方、正常なホストで大量のフローを生成するホストは、連続した複数の測定期間で大量フロー生成ホストとなる傾向がある。
本発明は、前記従来技術の問題点を解決するためになされたものであり、発明の目的は、フローサンプリングによって得られた統計データのみを用いて特定した、単位時間あたりに生成するフロー数が閾値以上となる大量フロー生成ホストの中から、ワーム感染ホストを絞り込むワーム感染ホスト特定法およびワーム感染ホスト特定システムを提供することにある。
本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述及び添付図面によって明らかにする。
The mass flow generation host includes not only a worm-infected host but also a host that is a normal host such as a DNS server but generates a large number of flows. Therefore, if a restriction process such as rate restriction is simply performed on the specified mass flow generation host, even a normal host is restricted. In particular, if restriction processing is performed on a host that plays an important role such as a DNS server, there is a possibility that normal operation of the Internet may be hindered. Therefore, it is necessary to carefully perform restriction processing on a specified host.
On the other hand, a host that generates a large amount of flow with a normal host tends to become a mass flow generation host in a plurality of consecutive measurement periods.
The present invention has been made to solve the above-described problems of the prior art, and the object of the invention is to specify the number of flows generated per unit time specified using only statistical data obtained by flow sampling. The object is to provide a worm-infected host identification method and a worm-infected host identification system that narrow down worm-infected hosts from among a large number of flow generation hosts that exceed a threshold.
The above and other objects and novel features of the present invention will become apparent from the description of this specification and the accompanying drawings.

本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、下記の通りである。
前述の目的を達成するために、本発明は、フローサンプリングによって得られた統計データのみを用いて、単位時間あたりに生成するフロー数が閾値以上となる大量フロー生成ホストを特定し、当該特定した大量フロー生成ホストの中から、ホワイトリストを用いてワーム感染ホストを絞り込むワーム感染ホスト特定法であって、ネットワークの状態として正常状態とワーム出現状態の二つを定義し、正常状態において、前記特定した大量フロー生成ホストを全て前記ホワイトリストに収容し、かつ、ワーム出現状態の間は前記ホワイトリストの更新は行わず、ワーム出現状態において、前記特定した大量フロー生成ホストを、直前の正常状態において作成された前記ホワイトリストと比較し、前記ホワイトリストに存在しない場合にのみワーム感染ホストとして特定することを特徴とする。
Of the inventions disclosed in this application, the outline of typical ones will be briefly described as follows.
In order to achieve the above-described object, the present invention specifies a mass flow generation host in which the number of flows generated per unit time is equal to or greater than a threshold, using only statistical data obtained by flow sampling. A worm-infected host identification method that uses a white list to narrow down worm-infected hosts from a large number of flow generation hosts, and defines the normal state and the worm appearance state as the network state. All the large-volume flow generation hosts that have been stored in the white list, and the white list is not updated during the worm appearance state, and in the worm appearance state, Compared to the created whitelist, only if it does not exist in the whitelist And identifies as uninfected host.

また、本発明は、前記ホワイトリストをBloom filterを用いて構成し、前記ホワイトリストの照合時にワーム感染ホストを誤って見逃す確率(ξwl)が、予め定めた許容値(δwl)以下となる範囲で、前記ホワイトリストの所要メモリ量が最小化するよう、Bloom filterのBitmap長を設計する。
また、本発明では、前記ホワイトリストをω個の連続する測定期間毎に更新し、さらに、前記ホワイトリストを2面構成とし、前記正常状態では、両方のホワイトリストを常に更新し、初期化を行うタイミングをω/2の測定期間だけずらし、ワーム出現状態移行後は、更新された期間が長い方のホワイトリストを用いて、前記特定した大量フロー生成ホストの照合を行う。
また、本発明では、前記更新された期間が長い方のホワイトリストにおける、前記ワーム出現状態前に前記ホワイトリストを最後に更新した時点から、前記ワーム出現状態に移行するまでの測定期間が、任意に与えた整数パラメタσ個の連続した測定期間以上となるように、ホワイトリスト更新周期ωを設定する。
また、本発明は、前述のワーム感染ホスト特定法を実行するためのワーム感染ホスト特定システムである。
Further, according to the present invention, the white list is configured using a Bloom filter, and the probability (ξ wl ) of missing a worm-infected host by mistake when matching the white list is equal to or less than a predetermined allowable value (δ wl ). The bitmap length of the Bloom filter is designed so that the required memory amount of the white list is minimized.
Further, in the present invention, the white list is updated every ω consecutive measurement periods, and the white list has a two-plane configuration. In the normal state, both white lists are constantly updated and initialization is performed. The timing to be performed is shifted by the measurement period of ω / 2, and after the transition to the worm appearance state, the specified mass flow generation host is collated using the white list having the longer updated period.
Further, in the present invention, in the white list with the longer updated period, the measurement period from when the white list was last updated before the worm appearance state to the transition to the worm appearance state is arbitrary. The white list update cycle ω is set so that it is equal to or longer than the continuous measurement period of the integer parameter σ given to.
The present invention is also a worm-infected host identification system for executing the above-described worm-infected host identification method.

本願において開示される発明のうち代表的なものによって得られる効果を簡単に説明すれば、下記の通りである。
本発明によれば、フローサンプリングによって得られた統計データのみを用いて特定した、単位時間あたりに生成するフロー数が閾値以上となる大量フロー生成ホストの中から、ワーム感染ホストを絞り込むことが可能となる。
The effects obtained by the representative ones of the inventions disclosed in the present application will be briefly described as follows.
According to the present invention, it is possible to narrow down worm-infected hosts from a large number of flow generation hosts that are specified using only statistical data obtained by flow sampling and whose number of flows generated per unit time is equal to or greater than a threshold value. It becomes.

以下、図面を参照して本発明の実施例を詳細に説明する。
なお、実施例を説明するための全図において、同一機能を有するものは同一符号を付け、その繰り返しの説明は省略する。
[大量フロー生成ホストの特定法の概要]
始めに、大量フロー生成ホストの特定法の概要について説明する。
大量フロー生成ホストを特定するには、パケット単位ではなく、フローを単位にサンプリングを行い、ホスト毎に生成フロー数を集計することが有効である。
フローを、発着IPアドレス、発着ポート番号が共通のパケットの集合と定義する。そして、長さがφ(s)の任意の測定期間Φを定め、測定期間Φ内に着目リンクに到着した総フロー数をMとする。
そして、各ホストに対して測定期間Φ内に着目リンクに到着したフロー数をmとするとき、任意に定めた閾値mに対して、m≧mのホストを大量フロー生成ホストと定義し、着目リンクにおいて、大量フロー生成ホストを測定期間Φ内で特定することを考える。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
In all the drawings for explaining the embodiments, parts having the same functions are given the same reference numerals, and repeated explanation thereof is omitted.
[Outline of identification method for mass flow generation host]
First, an outline of a method for specifying a mass flow generation host will be described.
In order to specify a large number of flow generation hosts, it is effective to perform sampling for each flow, not for each packet, and total the number of generated flows for each host.
A flow is defined as a set of packets having a common outgoing / incoming IP address and outgoing / incoming port number. Then, an arbitrary measurement period Φ having a length of φ (s) is defined, and the total number of flows arriving at the link of interest within the measurement period Φ is defined as M.
Then, when the number of flows arriving at the link of interest within the measurement period Φ for each host is m, a host with m ≧ m * is defined as a mass flow generation host with respect to an arbitrarily defined threshold m * . Consider that the mass flow generation host is specified within the measurement period Φ at the link of interest.

今、測定期間Φ内に着目リンクを流れたフロー数がmのホストに着目する。
測定期間Φ内で着目ホストのm本のフローからd本のフローがサンプルされる確率fdは、フローサンプルレートrを用いて、下記(1)式で表される。

Figure 0004768674
よって、サンプルフロー数がy以上のホストを特定するとき、このホストが特定される確率Hは、下記(2)式で得られる。
また、下記(2)式に、m=mを代入することによって得られる、下記(3)式を数値的に解くことによって、mとHが与えられたときに、yかrの任意の一方を定めたときに対応するもう一方のパラメタを設定することができる。 Now, focus on the host whose flow number is m in the measurement period Φ.
The probability fd that d flows are sampled from m flows of the host of interest within the measurement period Φ is expressed by the following equation (1) using the flow sample rate r.
Figure 0004768674
Therefore, when a host whose sample flow number is y or more is specified, the probability H that this host is specified is obtained by the following equation (2).
Moreover, when m * and H * are given by numerically solving the following equation (3) obtained by substituting m = m * into the following equation (2), y or r The other parameter can be set when any one is defined.

Figure 0004768674
Figure 0004768674
Figure 0004768674
Figure 0004768674

着目リンクに到着した各パケットに対して、発着IPアドレスと発着ポート番号の計96ビットをキーにして、予め用意したハッシュ関数を通して得られるsビットの値をvとするとき、v<vであるときにのみ新規フロー判定装置に入力する。ただし、vはフローサンプリングのための閾値であり、rをフローサンプリング確率とすると、r=v/2sとなる。同一フローに属するフローは同一のキーを持つため、フローサイズとは無関係に全てのフローが確率rでサンプルされることになる。
v<vであった場合、次に到着パケットが属するフローを既にカウントしたかどうかを判定する。
最も直感的な方法は、サンプルした全てのフローをフローテーブルにて管理し、フローテーブルに該当フローのエントリが存在するか否かを判定する方法であるが、最大で全エントリをチェックする必要があるため処理時間が大きくなる。
そこで、Bloom filterを用いて判定する方法が有効である。Bloom filterはある候補に対してある集合のメンバであるか否かを判定する方法であり、異なるk個のハッシュ関数(各々が入カキーに対してbビットの値を返す)と2個の2値変数(初期状態では全てゼロにリセットされる)が用意される。
この場合、パケットの96ビットのキーをk個のハッシュ関数を通して得られるk個のアドレスに該当する2値変数の値を調べ、1つ以上がゼロである場合に該当パケットが属するフローを新規フローと判定する。そしてk個の該当する2値変数を全て1にセットする。
Bloom filterを用いた場合、既にカウントしたフローを誤って新規フローと見なす可能性はゼロであるが、ハッシュ値の衝突によって新規フローを誤って見逃す可能性がある。
測定期間Φ内に着目リンクを流れた総フローMに対して、測定期間Φ内でサンプルされたフロー数の期待値DはD=rMとなる。kの最適値はDを用いて、下記(4)式で表される。
For each packet arriving at the link of interest, when v is the value of s bits obtained through a hash function prepared in advance using a total of 96 bits of the arrival and departure IP addresses and the arrival and departure port numbers as keys, v <v * Only when there is a new flow determination device. However, v * is a threshold for flow sampling, and r = v * / 2s, where r is the flow sampling probability. Since flows belonging to the same flow have the same key, all flows are sampled with a probability r regardless of the flow size.
When v <v * , it is determined whether or not the flow to which the next arrival packet belongs has already been counted.
The most intuitive method is to manage all sampled flows in the flow table and determine whether there is an entry for the flow in the flow table, but it is necessary to check all the entries at the maximum. As a result, the processing time increases.
Therefore, a method of determining using a Bloom filter is effective. Bloom filter is a method for determining whether or not a candidate is a member of a certain set, k different hash functions (each returning a b-bit value for the incoming key) and 2 b Binary variables (initially all reset to zero) are prepared.
In this case, the value of a binary variable corresponding to k addresses obtained through k hash functions using the 96-bit key of the packet is examined, and if one or more is zero, the flow to which the packet belongs is a new flow. Is determined. Then, all k corresponding binary variables are set to 1.
When the Bloom filter is used, there is no possibility that a flow that has already been counted is erroneously regarded as a new flow, but there is a possibility that a new flow may be mistakenly missed due to a hash value collision.
For the total flow M that has flowed through the link of interest within the measurement period Φ, the expected value D of the number of flows sampled within the measurement period Φ is D = rM. The optimum value of k is expressed by the following equation (4) using D.

Figure 0004768674
Figure 0004768674

n本の異なるフローに対してBloom filterの2(bits)のbitmapを更新したとき、bitmap中のあるビットが1である確率は{1−(1−k/2}となる。
このとき、新規フローを誤って見逃す確率をηとすると、確率ηは、下記(5)式で表される。

Figure 0004768674
よって、新規フローを見逃す確率の平均値ηは(4)式を考慮して、下記(6)式により導出できる。 When the 2 b (bits) bitmap of the Bloom filter is updated for n different flows, the probability that a bit in the bitmap is 1 is {1- (1-k / 2 b ) n }.
At this time, if the probability of missing a new flow by mistake is η n , the probability η n is expressed by the following equation (5).
Figure 0004768674
Therefore, the average value η of the probability of missing a new flow can be derived from the following equation (6) in consideration of the equation (4).

Figure 0004768674
Figure 0004768674

(6)式より、rとMが与えられたときに、新規フローを見逃す確率の平均値η≦δBF(任意に与えた値)を満足するbの最小値を求めることができ、さらに、前述の(4)式よりkの値を設定できる。
ホストテーブルには、発IPアドレスとサンプルフロー数cが収容される。新規フローと判定された場合には、該当パケットの発IPアドレスが既にホストテーブル内にエントリされているか否か調べ(例えば、発IPアドレスをキーにしてハッシュ値のアドレスを調べる)、既にエントリが存在する場合にはサンプルフロー数を1だけ増加させる。
この結果、サンプルフロー数が特定判断閾値yに達した場合には、そのホストを大量フロー生成ホストとして特定し、大量フロー生成ホストリスト(本発明のホワイトリストに相当する)に書き出す。
一方、発IPアドレスがホストテーブル内にエントリされていない場合には、新規にエントリを生成する。
ホストテーブルのエントリ更新処理を実現する際には、効率的に各エントリが収容されるアドレスを解決することが重要であるが、ここでは一般的に広く用いられるハッシュ関数を用いた方法を想定する。
ハッシュ値の衝突に対しては、ポインタを用いたリンク構造による解決方法が高い性能を示し、広く用いられていることから、ここでもリンク構造による形態を想定する。
From equation (6), when r and M are given, the minimum value of b satisfying the average value η ≦ δ BF (value arbitrarily given) of the probability of missing a new flow can be obtained. The value of k can be set from the above equation (4).
The host table contains the source IP address and the number of sample flows cj . When it is determined that the flow is a new flow, it is checked whether or not the source IP address of the corresponding packet has already been entered in the host table (for example, the hash value address is checked using the source IP address as a key). If present, increase the number of sample flows by one.
As a result, when the number of sample flows reaches the specific determination threshold value y, the host is specified as a mass flow generation host and written to a mass flow generation host list (corresponding to the white list of the present invention).
On the other hand, if the source IP address is not entered in the host table, a new entry is generated.
When implementing the host table entry update process, it is important to efficiently resolve the address where each entry is accommodated. Here, a method using a generally widely used hash function is assumed. .
For hash value collisions, a solution using a link structure using a pointer exhibits high performance and is widely used, so a form using a link structure is also assumed here.

ホストテーブルは、ポインタ収容領域(以下、PSA(pointer stored area)と称する。)とホストエントリ収容領域(以下、ESA(entry stored area)と称する。)とから構成される。
ESAはエントリが実際に収容される領域であり、ホストのIPアドレス、サンプルフロー数c、次エントリへのポインタが収容される。PSAには2β個のハッシュ値の各々に対応するESA内の最初のエントリ収容先を示すポインタが収容される。
事前に用意されたβビットのハッシュ空間をもつハッシュ関数hを用いて得られるハッシュ値h(j)に対応するPSAの値を調べ、ヌル値である場合にはESAの空き位置にエントリを作成し、サンプルフロー数cを1に初期化する。
一方、PSAの値がヌル値でない場合には、ESAの該当エントリのリンクを順に調査して該当ホストのエントリが存在するか調査し、存在した場合にはそのエントリの、サンプルフロー数cを1だけ増加させる。存在しない場合にはやはり新規にエントリを作成する。
The host table includes a pointer storage area (hereinafter referred to as a PSA (pointer stored area)) and a host entry storage area (hereinafter referred to as an ESA (entry stored area)).
The ESA is an area where an entry is actually accommodated, and accommodates a host IP address, the number of sample flows c j , and a pointer to the next entry. The PSA pointer to the first entry accommodating in ESA corresponding to each of the 2 beta pieces of hash values is accommodated.
The PSA value corresponding to the hash value h (j) obtained by using the hash function h having a β-bit hash space prepared in advance is checked, and if it is a null value, an entry is created in the empty position of the ESA. The sample flow number c j is initialized to 1.
On the other hand, if the PSA value is not a null value, the link of the corresponding entry of the ESA is examined in order to check whether the entry of the corresponding host exists, and if there is, the sample flow number c j of the entry is determined. Increase by one. If it does not exist, a new entry is created.

[実施例]
図1は、本発明のホワイトリストを用いたワーム感染ホスト特定法の実施の形態の一例を示すシステム構成図である。
図1において、101はパラメタ設計装置、102はWL更新装置、103はWL照合装置、104はSuperspreader特定装置(以下、大量フロー生成ホスト特定装置という)、105はホワイトリスト(以下、WLという)、106はワーム感染ホストリストである。
パラメタ設計装置101により、ホワイトリストのサイズgや更新周期ωが設計される。
大量フロー生成ホスト特定装置104によって特定されたホスト情報を用いて、正常状態においてはWL更新装置102によりWL(105)が更新され、ワーム出現状態においてはWL照合装置103によりWL(105)が照合され、その結果、ワーム感染ホストと判断された場合にはワーム感染ホストリスト106に出力する。
次に、本発明の実施例に係るホワイトリストを用いたワーム感染ホスト特定法について説明する。
[Example]
FIG. 1 is a system configuration diagram showing an example of an embodiment of a worm-infected host identification method using a white list of the present invention.
In FIG. 1, 101 is a parameter design device, 102 is a WL update device, 103 is a WL collation device, 104 is a Superspreader specifying device (hereinafter referred to as a mass flow generation host specifying device), 105 is a white list (hereinafter referred to as WL), Reference numeral 106 denotes a worm-infected host list.
The parameter design apparatus 101 designs the white list size g and the update period ω.
Using the host information specified by the mass flow generation host specifying device 104, WL (105) is updated by the WL update device 102 in the normal state, and WL (105) is checked by the WL check device 103 in the worm appearance state. As a result, if it is determined that the host is a worm-infected host, it is output to the worm-infected host list 106.
Next, a method for identifying a worm-infected host using a white list according to an embodiment of the present invention will be described.

[フレームワーク]
ネットワークの状態として、(1)正常状態、(2)ワーム出現状態、の二つを定義する。
ユーザ自身がワームの感染に気がつかない場合や、気がついてもパッチやワクチンを用いるなどの対処を取らない場合もあり、インターネットには、常時、様々な種類のワームが観測されており、その意味では常にワーム出現状態にあると言える。
しかし、本明細書では、Slammerといった非常に感染レートが高く、短時間にネットワーク全体に蔓延する可能性の高いワームが新規に出現し、急激に感染ホストが増加している状態をワーム出現状態と定義する。そして、このような被害の大きいワームに対してパッチやワクチンを開発するまでの時間を稼ぐため、自動的にワーム感染ホストを特定し規制を行うことを最終的な目標とする。
本実施例では、事前に、前述した方法により、測定期間長φ、大量フロー生成ホストを定義する生成フロー数の閾値m、そしてm=mのホストが特定される確率Hを与え、ネットワークの状態とは無関係に、常時、連続した各測定期間Φの各々において大量フロー生成ホストの特定処理を実施する。
[Framework]
Two network states are defined: (1) normal state and (2) worm appearance state.
There are cases where the user himself / herself is unaware of the infection of the worm, and even if he / she notices it, there are cases where he / she does not take action such as using a patch or vaccine, and various types of worms are constantly observed on the Internet. It can be said that the worm always appears.
However, in this specification, a new worm that has a very high infection rate, such as Slammer, and that is likely to spread throughout the entire network in a short period of time, and a state where the number of infected hosts is rapidly increasing is referred to as a worm appearance state. Define. The ultimate goal is to automatically identify and regulate worm-infected hosts to gain time to develop patches and vaccines for such damaging worms.
In this embodiment, the measurement period length φ, the generated flow number threshold value m * that defines the mass flow generation host, and the probability H * of identifying the host with m = m * are given in advance by the method described above. Regardless of the state of the network, the mass flow generating host is always specified in each continuous measurement period Φ.

新種のワーム検出後、ワームの解析によりパッチやワクチンが作成されワームに対する根本的な解決が可能になった段階で、再度、ネットワークは正常状態に移行する。
正常状態において特定された大量フロー生成ホストは全てWL(105)に収容される。
一方、ワーム出現状態の間は、WL(105)の更新は行わず、特定された大量フロー生成ホストを直前の正常状態において作成されたWL(105)と比較し、WL(105)に存在しない場合にのみワーム感染ホストと見なしてレート規制等を行う。
ワーム出現状態中に大量フロー生成ホストとして特定されたホストのうち正常なものは、直前の正常状態においても大量フロー生成ホストとして特定されている可能性が高い。一方、ワームに感染したホストは、感染以後、大量フロー生成ホストとなるため、ワームが検知された時点で既に感染しているホストを除きWL(105)には存在しない。
そのためWL(105)を用いることで、特定された大量フロー生成ホストから、効果的にワーム感染ホストを絞り込むことが可能となる。
After the detection of a new type of worm, the network goes back to normal again when a patch or vaccine is created through analysis of the worm and a fundamental solution to the worm is possible.
All the mass flow generation hosts specified in the normal state are accommodated in the WL (105).
On the other hand, during the worm appearance state, WL (105) is not updated, and the identified mass flow generation host is compared with WL (105) created in the previous normal state and does not exist in WL (105). Only when it is considered a worm-infected host, rate regulation is performed.
It is highly likely that a normal host identified as a mass flow generation host during the worm appearance state is identified as a mass flow generation host even in the previous normal state. On the other hand, since the host infected with the worm becomes a mass flow generation host after the infection, it does not exist in the WL (105) except the host already infected when the worm is detected.
Therefore, by using WL (105), it is possible to effectively narrow down worm-infected hosts from the specified mass flow generation host.

[WL構成法]
WL(105)には、ω個の連続する測定期間(更新周期)において、特定された大量フロー生成ホストの識別番号(ID;例えば、IPアドレス)がエントリされる。
複数の測定期間において同一のホストが特定される可能性があるため、WL(105)に新たに特定されたホストをエントリする際には、既に該当ホストがリスト中に存在するか否かを確認する必要がある。
また、ワーム出現状態中は、特定されたホストがWL(105)中に存在するか否かを、やはり判定する必要がある。最も直感的な方法は、大量フロー生成ホストが特定される毎に、WL(105)の全エントリを調べる方法であるが、大量フロー生成ホストの増加に伴い所要メモリ量と探索処理時間が線形に増加する。
連続して到着したパケットの各々に対して、異なるホストが大量フロー生成ホストとして特定される可能性があり、WL(105)の更新や照合処理は最小パケット時間内で完了する必要がある。そのため実装メモリ量と処理能力に制約のあるエッジルータにおいて、このような方法を用いることは困難である。
[WL configuration method]
In the WL (105), the identification number (ID; for example, IP address) of the specified mass flow generation host is entered in ω consecutive measurement periods (update cycles).
Since there is a possibility that the same host may be specified in a plurality of measurement periods, when a newly specified host is entered in WL (105), it is confirmed whether or not the corresponding host already exists in the list. There is a need to.
Further, during the worm appearance state, it is also necessary to determine whether or not the specified host exists in the WL (105). The most intuitive method is to check all the entries of WL (105) every time a large flow generation host is specified. However, as the large flow generation host increases, the required memory amount and the search processing time become linear. To increase.
A different host may be identified as a mass flow generation host for each successively arriving packet, and the WL (105) update and verification process must be completed within the minimum packet time. For this reason, it is difficult to use such a method in an edge router with restrictions on the amount of mounted memory and processing capability.

そこで、大量フロー生成ホスト特定法の新規フロー判定にも用いたBloom filter(以下、BFという)をここでも用いることを考える。例えば、Universalハッシュ関数はハードウェア実装に適しており、ハードウェア実装による並列処理でハッシュ値を得ることができ、BFを用いることで、WL(105)の更新や照合処理を極めて短い時間で完了できる。
ワーム出現状態中、特定されたホストをWL(105)と照合するが、BFではWL(105)に存在するホストを誤って見逃すことはないが、存在しないホストを誤って存在すると判断する可能性がある。このことは、ワーム感染ホストを誤って見逃すことを意味する。
BFのビットマップ長を2(bits)とすると、このような見逃しが生じる確率はgを増加させることで低減させることができる。しかし、一方で、gの増加は、WL(105)の所要メモリ量を増加させるため、実装メモリ量に制約がある状況では、慎重にgを設計する必要がある。
そこで、本実施例では、WL(105)の照合時にワーム感染ホストを誤って見逃す確率ξwlが予め定めた許容値δwl以下となる範囲で、所要メモリ量が最小化するようgを設計することを考える。
WL(105)の更新期間において収容された大量フロー生成ホストの数をSとし、BFのハッシュ関数の数をκとすると、κの最適値は、下記(7)式で与えられる。また、この時のξwlは、下記(8)式で与えられる。
Therefore, it is considered that the Bloom filter (hereinafter referred to as BF) used for the new flow determination of the mass flow generation host identification method is also used here. For example, the universal hash function is suitable for hardware implementation, and a hash value can be obtained by parallel processing by hardware implementation. By using BF, updating (WL) 105 and collation processing can be completed in a very short time. it can.
While the worm appears, the identified host is checked against the WL (105), but the BF will not mistakenly miss a host that exists in the WL (105), but it may determine that a non-existent host exists incorrectly There is. This means that the worm-infected host is mistakenly missed.
If the bit map length of BF is 2 g (bits), the probability of such an oversight can be reduced by increasing g. However, on the other hand, an increase in g increases the required memory amount of WL (105), so it is necessary to carefully design g in a situation where the amount of mounted memory is limited.
Therefore, in this embodiment, g is designed so that the required memory amount is minimized in a range where the probability ξ wl of erroneously overlooking a worm-infected host at the time of collating WL (105) is less than or equal to a predetermined allowable value δ wl. Think about it.
When the number of mass flow generation hosts accommodated in the update period of WL (105) is S and the number of BF hash functions is κ, the optimum value of κ is given by the following equation (7). Further, ξ wl at this time is given by the following equation (8).

Figure 0004768674
Figure 0004768674
Figure 0004768674
Figure 0004768674

よって、ξwl≦δwlを満たすgの最小の整数を数値的に算出することによりgを設計することができる。また、WL(105)の所要メモリ量Bwlは、Bwl=2g−3(byte)となる。
大量フロー生成ホスト特定に必要なメモリ量(Bbf,Bpsa,Besa)とBwlの合計が実装メモリ量B以下となる必要があるため、大量フロー生成ホスト特定方式のメモリ配分を行う際、Bを(B−Bwl)に置換えることで、WL(105)を含めた適切なメモリ配分が実現できる。
ここで、Bbfは、大量フロー生成ホスト特定法の新規フロー判定のBFのBitmap用のメモリ量、Bpsaは、大量フロー生成ホスト特定法の新規フロー判定に使用されるホストテーブルのポインタ収容領域(PSA)のメモリ量、Besaは、大量フロー生成ホスト特定法の新規フロー判定に使用されるホストテーブルのホストエントリ収容領域(ESA)のメモリ量である。
Therefore, g can be designed by numerically calculating the minimum integer of g that satisfies ξ wl ≦ δ wl . Further, the required memory amount B wl of WL (105) is B wl = 2 g−3 (byte).
When the memory allocation of the mass flow generation host identification method is performed because the total amount of memory (B bf , B psa , B esa ) necessary for specifying the mass flow generation host and B wl needs to be equal to or less than the installed memory amount B , B can be replaced with (B-Bwl) to realize appropriate memory allocation including WL (105).
Here, B bf is the amount of BF Bitmap memory for the new flow determination of the mass flow generation host identification method, and B psa is the host table pointer storage area used for the new flow determination of the mass flow generation host identification method The amount of memory (PSA), B esa, is the amount of memory in the host entry storage area (ESA) of the host table used for new flow determination in the mass flow generation host identification method.

[WL更新周期]
正常状態において、特定された大量フロー生成ホストをWL(105)へ収容するにつれ、BFのBitmapのより多くのビットが1にセットされる。そのため、無限にWL(105)への収容を繰り返すとBitmapが1で埋まり、ワーム出現状態において任意のホストがWL(105)に収容されていると判断される。
そのため、何らかのタイミングでWL(105)のBitmapをゼロに初期化する必要がある。ここでは、WL(105)更新周期を、ωを任意の整数としてωφで与える。すなわち、連続するω個の観測期間毎に、WL(105)を初期化する。
WL(105)を初期化した直後にワームが検出され、ワーム出現状態となった場合、少数の大量フロー生成ホストのみが収容されたWL(105)を用いてワーム感染ホストを特定することになり、正常ホストの大量フロー生成ホストを数多く感染ホストと誤判定してしまう。
そこで、図2に示すように、White list1と、White list2の2つのWL(105)を用
意し、図2に示すように、正常状態においては、特定された大量フロー生成ホストを2つのWL(105)に各々収容する。そして、各々のWL(105)を初期化するタイミング(図2のReset)を、ωφ/2だけずらす。
[WL update cycle]
Under normal conditions, more bits in the BF Bitmap are set to 1 as the identified mass flow generation host is accommodated in WL (105). Therefore, if the accommodation in the WL (105) is repeated infinitely, the Bitmap is filled with 1, and it is determined that an arbitrary host is accommodated in the WL (105) in the worm appearance state.
Therefore, it is necessary to initialize the bitmap of WL (105) to zero at some timing. Here, the WL (105) update cycle is given by ωφ where ω is an arbitrary integer. That is, WL (105) is initialized for every continuous ω observation periods.
If a worm is detected immediately after the initialization of WL (105) and a worm appears, a worm-infected host will be identified using WL (105) containing only a small number of large flow generation hosts. , Many mass flow generation hosts of normal hosts are erroneously determined as infected hosts.
Therefore, as shown in FIG. 2, two WLs (105) of white list 1 and white list 2 are prepared. As shown in FIG. 2, in a normal state, the specified mass flow generation host is set to two WL ( 105). Then, the timing (Reset in FIG. 2) for initializing each WL (105) is shifted by ωφ / 2.

ワームが検出されワーム出現状態に移行した後は、2つのWL(105)のうち、更新期間(最後に初期化されてからの経過時間)が長い方(図2では、White list2)を特定ホストの照合に用いる。このとき、ワームが検出された後の最初の測定期間の開始時点からワーム出現状態に移行すれば、任意の時点でワームが検出された場合でも、照合に用いるWL(105)の更新期問を(ωφ/2+φ)以上にすることができる。なお、WL(105)の所要メモリ量Bwlは、Bwl=2g−2(byte)となる。
WL(105)の更新周期を決めるパラメタωをどのように定めるかが問題であるが、更新周期が長いほど多くの正常な大量フロー生成ホストをWL(105)に収容することができ、ワーム出現状態において誤って正常なホストを感染ホストと判断する可能性を低減できる。
しかし一方、WL(105)の更新期間において収容された大量フロー生成ホストの数Sの増加に伴いWL(105)の所要メモリ量が増加する。そこで、図2に示すように、ワーム出現状態に移行した際のWL(105)の更新期間が、任意に与えた整数パラメタσを用いて、σφ以上となるよう、ωを設定する。すなわち、下記(9)式のように設定する。
After the worm is detected and transitioned to the worm appearance state, of the two WLs (105), the one with the longer update period (the elapsed time since the last initialization) (White list 2 in FIG. 2) Used for collation. At this time, if the worm appears from the start of the first measurement period after the detection of the worm, even if a worm is detected at an arbitrary time, the update period of the WL (105) used for verification is determined. (Ωφ / 2 + φ) or more. The required memory amount B wl of WL (105) is B wl = 2 g−2 (byte).
The problem is how to determine the parameter ω that determines the update cycle of WL (105). The longer the update cycle, the more normal mass flow generation hosts can be accommodated in WL (105), and the appearance of worms. The possibility of erroneously determining a normal host as an infected host in the state can be reduced.
On the other hand, however, the required memory amount of WL (105) increases with the increase in the number S of mass flow generation hosts accommodated during the update period of WL (105). Therefore, as shown in FIG. 2, ω is set so that the update period of WL (105) when transitioning to the worm appearance state becomes equal to or larger than σφ using an arbitrarily given integer parameter σ. That is, the following equation (9) is set.

Figure 0004768674
Figure 0004768674

どのような値を、σに設定すればよいかという課題が残るが、正常時の大量フロー生成ホストの発生パターンには、日や週といった周期性が見られることが予想されるため、ある程度経験的に設定可能であると思われる。更新期間の増加に伴う、WL(105)の更新期間において収容された大量フロー生成ホストの数Sの増加度合いは、更新期間の増加に伴い低減する。そのため、比較的小さなパラメタσでも十分な性能が得られることが予想される。
ところで、WL(105)の設定パラメタgとκは、[WL構成法]で述べた方法でWL(105)を初期化する毎に再度設計することが可能である。この際、WL(105)の更新期間の間に特定される大量フロー生成ホストの数(S)が必要であるが、更新期間の開始時点では未知であるため推定値を用いる必要がある。
本実施例では、単に、WL(105)を初期化する時点でそのWL(105)に収容されている大量フロー生成ホスト数を用いるものとする。
There remains a problem of what value should be set to σ, but the occurrence pattern of a large volume flow generation host at normal time is expected to have periodicity such as days and weeks, so it has some experience Seems to be configurable. The increase degree of the number S of mass flow generation hosts accommodated in the update period of WL (105) accompanying the increase of the update period decreases with the increase of the update period. Therefore, it is expected that sufficient performance can be obtained even with a relatively small parameter σ.
By the way, the setting parameters g and κ of the WL (105) can be designed again every time the WL (105) is initialized by the method described in [WL configuration method]. At this time, the number (S) of mass flow generation hosts specified during the update period of WL (105) is necessary, but since it is unknown at the start of the update period, it is necessary to use an estimated value.
In this embodiment, it is assumed that the number of mass flow generation hosts accommodated in the WL (105) is simply used when the WL (105) is initialized.

[数値評価]
以下に、本実施例の有効性を確認するために数値評価結果を示す。
Web上で公開されている実パケットトレースにおいて出現した全てのホストを正常ホストと見なし、ワーム感染ホストによって生成された異常トラヒックを計算機シミュレーションにより生成し、上記パケットトレースと混合させた新たなパケットトレースを生成した。そして本発明を本混合パケットトレースに適用した。
ここでは、流体モデルを用いてワーム感染ホストによって生成されるポートスキャンの異常トラヒックをモデル化する。これは、伝染病の拡大といった感染が拡大する現象をモデル化する際によく用いられる手法であり、感染パターンに地理的依存性のない均一性が成立する場合にはよい近似を与える。必ずしも全てのワームがランダムに生成したアドレスに対してポートスキャンを行うとは限らないが、ランダムに行う場合には地理的依存性を無視することができ、ワーム感染ホストの拡大についても本モデルでモデル化が可能である。
均一性が成り立つ場合、一つの感染ホストが単位時間あたりに感染させるホスト数の平均値αに対して、時刻tにおける感染ホスト数(I)は、下記(10)式でモデル化できる。
[Numeric evaluation]
The numerical evaluation results are shown below to confirm the effectiveness of this example.
All the hosts that appear in the actual packet trace published on the Web are regarded as normal hosts, the abnormal traffic generated by the worm-infected host is generated by computer simulation, and a new packet trace mixed with the packet trace is created. Generated. The present invention was applied to the mixed packet trace.
Here, the abnormal traffic of the port scan generated by the worm-infected host is modeled using a fluid model. This is a technique often used to model a phenomenon in which an infection spreads, such as the spread of an infectious disease, and gives a good approximation when uniformity without geographical dependence is established in the infection pattern. Not all worms perform port scans on randomly generated addresses, but if they are done randomly, geographical dependency can be ignored, and the expansion of worm-infected hosts is also considered in this model. Modeling is possible.
When uniformity is established, the number (I t ) of infected hosts at time t can be modeled by the following equation (10) with respect to the average value α of the number of hosts infected by one infected host per unit time.

Figure 0004768674
Figure 0004768674

本実施例では、更に、ワームに感染したホストは、平均が(1/η)秒の指数分布に従う間隔でポートスキャンを行うとした。
また、各ポートスキャンは、確率(N−I)/232で未感染の脆弱ホストにヒットし、新たに感染ホストが一つ増加すると仮定した。ただし、Nはネットワーク全体の、このワームに対して脆弱なホストの数である。このとき、αは、下記(11)式のように表される。

Figure 0004768674
各感染ホストのポートスキャンレート(η)の値は、Code Redが6程度、Slammerが4000程度である。
SlammerのようなBandwidth-limited型のワームを想定して評価を行うことが望ましいが、異常トラヒック量が大きく現実的な時間で評価が行えないため、ここでは、基本特性を得る目的から、η=10,20とした2つの場合について評価した。
大量フロー生成ホスト特定法のパラメタを、φ=10秒、m=50,H=0.5に設定した。14個の測定期間Φ,...,Φ14が存在するが、Φの中でワーム発生が検出されたと仮定し、Φ〜Φを正常状態、Φ〜Φ14をワーム出現状態とした。
そして、WL更新期間の下限を与えるパラメタσに対して、前述の(9)式で得られるωを用いて、Φ〜Φωの期間に観測された大量フロー生成ホストの異なり数(全測定期間において、同じホストが複数回カウントされる場合を除いた、純粋な大量フロー生成ホスト数)をSに設定し、WL(105)を設計した。
また、性能の下限を評価するため、更新期間が最短となるタイミングでワームが検出された場合を評価した。すなわち、σを、1≦σ≦4の範囲で設定し、Φ8−σ〜Φの期間でWL(105)を更新した。 In this embodiment, the host infected with the worm further performs the port scan at intervals according to an exponential distribution with an average of (1 / η) seconds.
In addition, each port scan hits an uninfected vulnerable host with a probability (N-I t ) / 2 32 , and it is assumed that the number of newly infected hosts increases by one. Where N is the number of hosts in the entire network that are vulnerable to this worm. At this time, α is expressed as the following equation (11).
Figure 0004768674
The port scan rate (η) of each infected host is about 6 for Code Red and about 4000 for Slammer.
It is desirable to perform the evaluation assuming a Bandwidth-limited type worm such as Slammer. However, since the amount of abnormal traffic is large and cannot be evaluated in a realistic time, here, for the purpose of obtaining basic characteristics, η = Two cases, 10 and 20, were evaluated.
The parameters of the mass flow generation host identification method were set to φ = 10 seconds, m * = 50, and H * = 0.5. 14 measurement period [Phi 1, ..., [Phi 14 but is present, assuming that the worm generated in the [Phi 7 is detected, [Phi 1 to [phi] 7 of the normal state, [Phi 8 to [phi] 14 worms appearance It was in a state.
Then, for the parameter σ that gives the lower limit of the WL update period, using ω obtained by the above equation (9), the number of different mass flow generation hosts observed during the period Φ 1 to Φ ω (all measurements) In the period, the number of pure mass flow generation hosts (excluding the case where the same host is counted multiple times) is set to S, and WL (105) is designed.
Moreover, in order to evaluate the lower limit of performance, the case where the worm was detected at the timing when the update period becomes the shortest was evaluated. That is, sigma, and set in the range of 1 ≦ σ ≦ 4, and updates the WL (105) for a period of Φ 8-σ 7.

表1に、η=10,σ=1、総メモリ量をB=64(kbyte)とした場合の、Φ以後のワーム出現状態の各測定期間における、全ホスト数(N)、WL照合前の特定ホスト数(X),WL照合後の特定ホスト数(Y)を、正常ホストとm≦mの感染ホストを対象に各々まとめた結果を示す。なお、表1および後述する各表において、「Normal host」が正常ホストを意味し、「Infected host」がm≦mの感染ホストを意味する。また、σ=4とした場合の結果についても同様に表2にまとめた。
評価に用いたパケットトレースでは、m=50のとき、正常ホストの1%程度が大量フロー生成ホストとして特定(表1のX)されるが、WL(105)との照合により、その多く(表1の(X−Y))を特定対象からはずせるが確認できる。またその効果は、σ=4の方がσ=1よりも大きい。
表3に、σ=4のときのWL(105)の更新期間(Φ〜Φ)の各測定期間終了時点における、WL(105)に収容されたホスト数を、正常ホストとm≧m*のワーム感染ホストの各々について示す。
σ=1の場合に、正常ホストのWL(105)の収容数は145であったが、時間の経過と共にWL(105)の収容ホスト数が増加する結果、σ=4のワーム出現状態移行時点における正常ホストの収容数は、σ=1の場合より大きい。そのため、表1と表2で確認できるように、σ=4の方が、σ=1よりも正常ホストの誤特定低減効果が大きい。
Table 1 shows the total number of hosts (N) and before WL matching in each measurement period in the worm appearance state after Φ 8 when η = 10, σ = 1, and the total memory amount is B = 64 (kbyte). The number of specific hosts (X) and the number of specific hosts (Y) after WL matching are summarized for normal hosts and infected hosts with m ≦ m * . In Table 1 and each table described later, “Normal host” means a normal host, and “Infected host” means an infected host with m ≦ m * . The results when σ = 4 are also summarized in Table 2.
In the packet trace used for the evaluation, when m * = 50, about 1% of normal hosts are identified as large flow generation hosts (X in Table 1). It can be confirmed that (XY) in Table 1 can be removed from the specific target. The effect is greater when σ = 4 than when σ = 1.
Table 3 shows the number of hosts accommodated in WL (105) at the end of each measurement period of the update period (Φ 4 to Φ 7 ) of WL (105) when σ = 4, and m ≧ m * Shown for each worm-infected host.
When σ = 1, the number of accommodated WLs (105) of normal hosts was 145, but as the number of accommodated hosts of WL (105) increased with the passage of time, the worm appearance state transition point of σ = 4 The number of normal hosts accommodated in is larger than when σ = 1. Therefore, as can be confirmed in Tables 1 and 2, σ = 4 has a greater effect of reducing the erroneous specification of normal hosts than σ = 1.

Figure 0004768674
Figure 0004768674
Figure 0004768674
Figure 0004768674

また、WL(105)の更新期間の増加に伴い、WL(105)に収容される正常ホスト数の増加する割合は低減するが、このことは表3からも確認できる。そのため、σをさほど大きな値に設定せず、WL(105)の更新周期を比較的短い長さに設定しても、十分な効果が得られることが期待される。
ただし、WL(105)の照合を行うことにより、ワーム感染ホストの見逃し数が増加する。例えば、σ=4の場合、WL(105)に収容された35のワーム感染ホストは必ず特定されない。
WL(105)の照合によって見逃されるワーム感染ホストのほとんどはワーム出現状態移行前に既に感染していたホストで、WL(105)に収容されたホストであることが表2より確認できる。
そのため、ワーム出現状態移行直後はこのような感染ホストが全感染ホストに占める割合が大きく、WL(105)の使用による感染ホスト見逃しの影響が大きい。しかし、時間が経過するにつれ、ワーム出現状態移行後に感染したホストの全感染ホストに占める比率が増大するため、影響は小さくなる。
WL(105)の効果をさらに確認するため、正常ホスト誤特定数の削減度Rと、感染ホスト見逃し数の増加度Rと、実装メモリ量Bと、WL(105)更新期間(パラメタσ)のいくつかの場合について表4と表5に各々示す。
ただし、正常ホストとm≧mのワーム感染ホストの各々について、測定期間ΦにおけるWL照合前の特定ホスト数をXi,nとXi,w、WL照合後の特定ホスト数をYi,nとYi,wとするとき、正常ホスト誤特定数の削減度Rは下記(12)式で、感染ホスト見逃し数の増加度Rは、下記(13)式で表されるものとする。なお、η=20と設定した。
Further, as the update period of WL (105) increases, the rate of increase in the number of normal hosts accommodated in WL (105) decreases, but this can also be confirmed from Table 3. Therefore, it is expected that a sufficient effect can be obtained even if σ is not set to a very large value and the update cycle of WL (105) is set to a relatively short length.
However, the number of missed worm-infected hosts increases by collating WL (105). For example, when σ = 4, 35 worm-infected hosts accommodated in WL (105) are not necessarily specified.
It can be confirmed from Table 2 that most of the worm-infected hosts that are missed by the collation of WL (105) are hosts that have already been infected before the transition to the worm appearance state, and are hosts accommodated in WL (105).
Therefore, immediately after the transition to the worm appearance state, the ratio of such infected hosts to all infected hosts is large, and the influence of overlooking infected hosts due to the use of WL (105) is large. However, as time passes, the ratio of infected hosts to all infected hosts after the transition to the worm appearance state increases, so the impact becomes smaller.
In order to further confirm the effect of WL (105), the reduction rate R n of the normal host error specific number, the increase rate R w of the number of missed infected hosts, the mounted memory amount B, the WL (105) update period (parameter σ ) Are shown in Table 4 and Table 5, respectively.
However, for each normal host and m ≧ m * worm-infected host, the number of specific hosts before WL matching in the measurement period Φ i is X i, n and X i, w , and the number of specific hosts after WL matching is Y i , N and Y i, w , the reduction degree R n of the number of normal host errors is expressed by the following expression (12), and the increase degree R w of the number of missed infected hosts is expressed by the following expression (13). And Note that η = 20.

Figure 0004768674
Figure 0004768674

Figure 0004768674
Figure 0004768674
Figure 0004768674
Figure 0004768674

表4、表5から、実装メモリ量Bが32(kbyte)程度以上ある場合、本実施例を用いることでワーム感染ホストの見逃し数の増加を20〜30%程度に抑えながら、正常ホストの誤検出を100%に近い精度で避けられることが確認できる。しかも、ηが大きく感染力の強いワームであるほど、ワーム出現状態移行後に新たに感染するホスト数が、正常状態において感染しWL(105)に収容される感染ホスト数よりも比率が増加するため、より感染ホスト見逃し数の増加度Rが抑えられる。
また、実装メモリ量Bの増加に伴い、正常ホスト誤特定数の削減度Rが向上することが確認できる。これは、大量フロー生成ホスト特定処理のBFに割当られるメモリ量Bbfと、ホストテーブルに割当られるメモリ量(Bpsa,Besa)が増加し、大量フロー生成ホスト特定精度が向上するためである。
また、パラメタσの増加に伴い、正常ホスト誤特定数の削減度Rが向上することが確認できる。但し、σの増加に伴い、WL(105)の更新期間の間に特定される大量フロー生成ホストの数Sが増加し、WL(105)に割当られるメモリが増加する結果、大量フロー生成ホスト特定処理のBFに割当られるメモリ量Bbfと、ホストテーブルに割当られるメモリ量(Bpsa,Besa)が減少し、大量フロー生成ホストの特定精度そのものは悪化することが予想される。
From Tables 4 and 5, when the amount of installed memory B is about 32 (kbytes) or more, by using this embodiment, the increase in the number of missed worm-infected hosts is suppressed to about 20 to 30%, while the error of normal hosts is It can be confirmed that detection can be avoided with an accuracy close to 100%. In addition, since the larger the η is, the stronger the infectivity is, the number of newly infected hosts after the transition to the worm appearance state increases in proportion than the number of infected hosts infected in the normal state and accommodated in the WL (105). , more infected hosts missed an increase in the number of degree of R w can be suppressed.
In addition, it can be confirmed that the reduction degree R n of the normal host erroneous identification number is improved as the mounting memory amount B is increased. This is because the memory amount B bf allocated to the BF of the mass flow generation host specifying process and the memory amounts (B psa , B esa ) allocated to the host table increase, and the mass flow generation host specifying accuracy is improved. .
Moreover, it can be confirmed that the reduction degree R n of the number of erroneously specified normal hosts improves as the parameter σ increases. However, as σ increases, the number S of mass flow generation hosts specified during the update period of WL (105) increases and the memory allocated to WL (105) increases. It is expected that the memory amount B bf allocated to the processing BF and the memory amount (B psa , B esa ) allocated to the host table will decrease, and the specific accuracy itself of the mass flow generation host will deteriorate.

Figure 0004768674
Figure 0004768674
Figure 0004768674
Figure 0004768674

WL(105)のメモリ量Bwlは2の累乗で与えられ不連続に変化するが、σが4以外のとき、Bwl=512(byte)であり、σ=4のときのみ、Bwl=1024(byte)であった。そのため、B=16(kbyte)のとき、σ=4の結果が悪化している。このように、特に、実装メモリ量Bが小さい場合、σを大きく設定すると、大量フロー生成ホストの特定精度が悪化することに注意する必要がある。
また、実装メモリ量Bの増加に伴い、感染ホスト見逃し数の増加度Rも改善(減少)することが確認できる。これは、やはり、大量フロー生成ホストの特定精度が実装メモリ量Bの増加により向上するためである。
一方、σの増加に伴いWL(105)に収容されるワーム感染ホスト数が増加するため、感染ホスト見逃し数の増加度Rは増加する。なお、表5では、σ=4のときは、大量フロー生成ホスト特定処理のBFに割当られるメモリ量Bbfと、ホストテーブルに割当られるメモリ量(Bpsa,Besa)が減少し、正常状態において、大量フロー生成ホストして特定される感染ホスト数が減少するため、感染ホスト見逃し数の増加度Rは減少している。
そのため、実装メモリ量Bについては単純に大きなほどよいが、パラメタσについては慎重に設定する必要がある。
以上、本発明者によってなされた発明を、前記実施例に基づき具体的に説明したが、本
発明は、前記実施例に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは勿論である。
The memory amount B wl of WL (105) is given as a power of 2 and changes discontinuously. However, when σ is other than 4, B wl = 512 (byte), and only when σ = 4, B wl = It was 1024 (bytes). Therefore, when B = 16 (kbyte), the result of σ = 4 is deteriorated. Thus, it is necessary to pay attention to the fact that the specific accuracy of the mass flow generation host deteriorates when σ is set large, particularly when the mounted memory amount B is small.
Further, with an increase in the amount of memory B, the increase of R w of infected hosts missed number can also confirmed that the improved (reduced). This is also because the specific accuracy of the mass flow generation host is improved by the increase in the mounting memory amount B.
Meanwhile, since the worm infected host number contained in WL (105) with increasing σ increases, increasing the degree R w of infected hosts missed number increases. In Table 5, when σ = 4, the memory amount B bf allocated to the BF of the mass flow generation host specifying process and the memory amount (B psa , B esa ) allocated to the host table are reduced and are in a normal state. in order to infect host number specified by flow Hogs decreases, increasing the degree R w of infected hosts missed number is decreasing.
Therefore, the larger the mounted memory amount B, the better, but the parameter σ needs to be set carefully.
As mentioned above, the invention made by the present inventor has been specifically described based on the above embodiments. However, the present invention is not limited to the above embodiments, and various modifications can be made without departing from the scope of the invention. Of course.

本発明の実施例の一例の概略システム構成を示すブロック図である。It is a block diagram which shows the schematic system configuration | structure of an example of the Example of this invention. 本発明の実施例の動作を示す時系列図である。It is a time series figure which shows operation | movement of the Example of this invention.

符号の説明Explanation of symbols

101 パラメタ設計装置
102 WL更新装置
103 WL照合装置
104 Superspreader特定装置
105 WL
106 ワーム感染ホストリスト
101 Parameter design device 102 WL update device 103 WL verification device 104 Superspreader identification device 105 WL
106 Worm-infected host list

Claims (8)

フローサンプリングによって得られた統計データのみを用いて、単位時間あたりに生成するフロー数が閾値以上となる大量フロー生成ホストを特定し、
当該特定した大量フロー生成ホストの中から、ホワイトリストを用いてワーム感染ホストを絞り込むワーム感染ホスト特定法であって、
ネットワークの状態として正常状態とワーム出現状態の二つを定義し、
正常状態において、前記特定した大量フロー生成ホストを全て前記ホワイトリストに収容し、かつ、ワーム出現状態の間は前記ホワイトリストの更新は行わず、
ワーム出現状態において、前記特定した大量フロー生成ホストを、直前の正常状態において作成された前記ホワイトリストと比較し、前記ホワイトリストに存在しない場合にのみワーム感染ホストとして特定することを特徴とするワーム感染ホスト特定法。
Using only the statistical data obtained by flow sampling, specify the mass flow generation host whose number of flows generated per unit time is equal to or greater than the threshold,
A worm-infected host identification method that uses a white list to narrow down worm-infected hosts from the identified mass flow generation host,
Define two network states: normal and worm appearance.
In the normal state, all the specified mass flow generation hosts are accommodated in the white list, and the white list is not updated during the worm appearance state,
In the worm appearance state, the specified mass flow generation host is compared with the white list created in the previous normal state, and is specified as a worm-infected host only when it does not exist in the white list Infected host identification method.
前記ホワイトリストをBloom filterを用いて構成し、前記ホワイトリストの照合時にワーム感染ホストを誤って見逃す確率(ξwl)が、予め定めた許容値(δwl)以下となる範囲で、前記ホワイトリストの所要メモリ量が最小化するよう、Bloom filterのBitmap長を設計することを特徴とする請求項1に記載のワーム感染ホスト特定法。 The white list is configured using a Bloom filter, and the white list is within a range in which the probability (ξ wl ) of missing a worm-infected host by mistake when matching the white list is less than or equal to a predetermined allowable value (δ wl ). The worm-infected host identification method according to claim 1, wherein the Bitmap length of the Bloom filter is designed so that the required amount of memory is minimized. 前記ホワイトリストをω個の連続する測定期間毎に更新し、さらに、前記ホワイトリストを2面構成とし、
前記正常状態では、両方のホワイトリストを常に更新し、初期化を行うタイミングをω/2の測定期間だけずらし、
ワーム出現状態移行後は、更新された期間が長い方のホワイトリストを用いて、前記特定した大量フロー生成ホストの照合を行うことを特徴とする請求項1または請求項2に記載のワーム感染ホスト特定法。
The white list is updated every ω consecutive measurement periods, and the white list has a two-plane configuration.
In the normal state, both white lists are constantly updated, and the initialization timing is shifted by a measurement period of ω / 2,
3. The worm-infected host according to claim 1, wherein after the transition to the worm appearance state, the identified mass flow generation host is collated using a white list having a longer updated period. Specific law.
前記更新された期間が長い方のホワイトリストにおける、前記ワーム出現状態前に前記ホワイトリストを最後に更新した時点から、前記ワーム出現状態に移行するまでの測定期間が、任意に与えた整数パラメタσ個の連続した測定期間以上となるように、ホワイトリスト更新周期ωを設定することを特徴とする請求項3に記載のワーム感染ホスト特定法。 In the white list with the longer updated period, an integer parameter σ arbitrarily given from the time when the white list was last updated before the worm appearance state to the transition to the worm appearance state is given. 4. The worm-infected host identification method according to claim 3 , wherein the whitelist update period ω is set so as to be equal to or longer than the continuous measurement period. ホワイトリストと、
フローサンプリングによって得られた統計データのみを用いて、単位時間あたりに生成するフロー数が閾値以上となる大量フロー生成ホストを特定する大量フロー生成ホスト特定装置と、
前記ホワイトリストを初期化するWL更新装置と、
前記大量フロー生成ホスト特定装置で特定された大量フロー生成ホストの中から、前記ホワイトリストを用いてワーム感染ホストを絞り込むWL照合装置とを有するワーム感染ホスト特定システムであって、
ネットワークの状態として正常状態とワーム出現状態の二つを定義し、正常状態において、前記特定した大量フロー生成ホストを全て前記ホワイトリストに収容し、
前記WL更新装置は、ワーム出現状態の間は前記ホワイトリストの更新は行わず、
前記WL照合装置は、ワーム出現状態において、前記特定した大量フロー生成ホストを、直前の正常状態において作成された前記ホワイトリストと比較し、前記ホワイトリストに存在しない場合にのみワーム感染ホストとして特定することを特徴とするワーム感染ホスト特定システム。
The whitelist,
Using only statistical data obtained by flow sampling, a mass flow generation host identifying device that identifies a mass flow generation host in which the number of flows generated per unit time is equal to or greater than a threshold,
A WL update device that initializes the whitelist;
A worm-infected host identification system having a WL verification device that narrows down worm-infected hosts using the white list from among the mass flow generation hosts identified by the mass flow generation host identification device,
Define two network states, normal state and worm appearance state, and in the normal state, all the specified mass flow generation hosts are accommodated in the white list,
The WL update device does not update the white list during the worm appearance state,
The WL matching device compares the identified mass flow generation host with the white list created in the previous normal state in the worm appearance state, and identifies it as a worm infected host only when it does not exist in the white list. A worm-infected host identification system.
前記ホワイトリストをBloom filterを用いて構成し、
前記WL照合装置における、前記ホワイトリストの照合時にワーム感染ホストを誤って見逃す確率(ξwl)が、予め定めた許容値(δwl)以下となる範囲で、前記ホワイトリストの所要メモリ量が最小化するよう、Bloom filterのBitmap長を設計することを特徴とする請求項5に記載のワーム感染ホスト特定システム。
The white list is configured using a Bloom filter,
In the WL collation device, the required memory amount of the white list is the minimum within a range in which the probability (ξ wl ) of missing a worm-infected host erroneously when collating the white list is equal to or less than a predetermined allowable value (δ wl ). The worm-infected host identification system according to claim 5, wherein the Bitmap length of the Bloom filter is designed so that
前記ホワイトリストは2面構成とされ、
前記WL更新装置は、前記ホワイトリストをω個の連続する測定期間毎に更新するとともに、前記正常状態では、両方のホワイトリストを常に更新し、初期化を行うタイミングをω/2の測定期間だけずらし、
前記WL照合装置は、ワーム出現状態移行後は、更新された期間が長い方のホワイトリストを用いて、前記特定した大量フロー生成ホストの照合を行うことを特徴とする請求項5または請求項6に記載のワーム感染ホスト特定システム。
The white list has a two-side structure,
The WL update device updates the white list every ω consecutive measurement periods and, in the normal state, always updates both white lists and performs initialization only during the measurement period of ω / 2. Shift,
7. The WL collation device performs collation of the identified mass flow generation host using a white list having a longer updated period after transition to a worm appearance state. The worm-infected host identification system described in 1.
前記WL更新装置は、前記更新された期間が長い方のホワイトリストにおける、前記ワーム出現状態前に前記ホワイトリストを最後に更新した時点から、前記ワーム出現状態に移行するまでの測定期間が、任意に与えた整数パラメタσ個の連続した測定期間以上となるように、ホワイトリスト更新周期ωを設定することを特徴とする請求項7に記載のワーム感染ホスト特定システム。 The WL update device has an arbitrary measurement period from when the whitelist was last updated before the worm appearance state to the transition to the worm appearance state in the whitelist with the longer updated period. The worm-infected host identification system according to claim 7 , wherein the whitelist update cycle ω is set so as to be equal to or longer than the continuous measurement period of the integer parameter σ given to.
JP2007146693A 2007-06-01 2007-06-01 Worm-infected host identification method and worm-infected host identification system Expired - Fee Related JP4768674B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007146693A JP4768674B2 (en) 2007-06-01 2007-06-01 Worm-infected host identification method and worm-infected host identification system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007146693A JP4768674B2 (en) 2007-06-01 2007-06-01 Worm-infected host identification method and worm-infected host identification system

Publications (2)

Publication Number Publication Date
JP2008301330A JP2008301330A (en) 2008-12-11
JP4768674B2 true JP4768674B2 (en) 2011-09-07

Family

ID=40174391

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007146693A Expired - Fee Related JP4768674B2 (en) 2007-06-01 2007-06-01 Worm-infected host identification method and worm-infected host identification system

Country Status (1)

Country Link
JP (1) JP4768674B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101381614B1 (en) 2012-10-24 2014-04-10 아주대학교산학협력단 Countermeasure apparatus and method against sip flooding attacks using a bloom filter
JP7326722B2 (en) * 2018-10-31 2023-08-16 日本電気株式会社 WHITELIST MANAGEMENT DEVICE, WHITELIST MANAGEMENT METHOD, AND PROGRAM

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4209897B2 (en) * 2006-02-16 2009-01-14 日本電信電話株式会社 Mass flow generation host identification method and system

Also Published As

Publication number Publication date
JP2008301330A (en) 2008-12-11

Similar Documents

Publication Publication Date Title
US8260914B1 (en) Detecting DNS fast-flux anomalies
Fogla et al. Evading network anomaly detection systems: formal reasoning and practical techniques
US10430586B1 (en) Methods of identifying heap spray attacks using memory anomaly detection
Liu et al. A fast string-matching algorithm for network processor-based intrusion detection system
US8442931B2 (en) Graph-based data search
Pasupulati et al. Buttercup: On network-based detection of polymorphic buffer overflow vulnerabilities
US7937586B2 (en) Defending against denial of service attacks
US20190238572A1 (en) Indicating malware generated domain names using n-grams
US10965697B2 (en) Indicating malware generated domain names using digits
CN111641619B (en) Method and device for constructing hacker portrait based on big data and computer equipment
US11128641B2 (en) Propagating belief information about malicious and benign nodes
US7065789B1 (en) System and method for increasing heuristics suspicion levels in analyzed computer code
US20200169577A1 (en) Method and apparatus for generating virtual malicious traffic template for terminal group including device infected with malicious code
JP4768674B2 (en) Worm-infected host identification method and worm-infected host identification system
Wu et al. Efficient large flow detection over arbitrary windows: An algorithm exact outside an ambiguity region
US10911481B2 (en) Malware-infected device identifications
Hammerschmidt et al. Efficient learning of communication profiles from ip flow records
CN112910825B (en) Worm detection method and network equipment
Jafri et al. Leo: Online ML-based Traffic Classification at Multi-Terabit Line Rate.
JP4311682B2 (en) Optimal memory allocation method
CN115412312A (en) Malicious domain name determination method, device, equipment and medium
US7937388B2 (en) Probabilistic lossy counting
CN112995218A (en) Domain name anomaly detection method, device and equipment
JP4209897B2 (en) Mass flow generation host identification method and system
WO2020070916A1 (en) Calculation device, calculation method, and calculation program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090713

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110412

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110530

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110614

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110616

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140624

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees