JP4209897B2 - Mass flow generation host identification method and system - Google Patents

Mass flow generation host identification method and system Download PDF

Info

Publication number
JP4209897B2
JP4209897B2 JP2006038885A JP2006038885A JP4209897B2 JP 4209897 B2 JP4209897 B2 JP 4209897B2 JP 2006038885 A JP2006038885 A JP 2006038885A JP 2006038885 A JP2006038885 A JP 2006038885A JP 4209897 B2 JP4209897 B2 JP 4209897B2
Authority
JP
Japan
Prior art keywords
flow
host
sampling
mass flow
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006038885A
Other languages
Japanese (ja)
Other versions
JP2007221412A (en
Inventor
憲昭 上山
達哉 森
亮一 川原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006038885A priority Critical patent/JP4209897B2/en
Publication of JP2007221412A publication Critical patent/JP2007221412A/en
Application granted granted Critical
Publication of JP4209897B2 publication Critical patent/JP4209897B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Description

本発明は、大量フロー生成ホストを特定する方法およびシステムに関する。   The present invention relates to a method and system for identifying mass flow generation hosts.

近年、ワーム、ウイルス、DDoS等が引き起こす異常トラヒックが、ネットワークやサーバに深刻な被害をもたらすことが問題となっている。DDoSの踏み台にされたホストや、ワームやウイルスに感染したホストは、個々のフローサイズは小さいものの短時間に大量のフローを生成するという特徴がある。そのため、短時間に大量のフローを生成するホストを早急に特定し、特定したホストに対して注意を促したり、ネットワークから切り離すといった対処をとることが重要となる。   In recent years, it has become a problem that abnormal traffic caused by worms, viruses, DDoS, and the like causes serious damage to networks and servers. A host that has been used as a platform for DDoS, or a host that is infected with a worm or virus, has a feature that a large number of flows are generated in a short time although the individual flow size is small. For this reason, it is important to quickly identify a host that generates a large number of flows in a short time, and take measures such as calling attention to the identified host or disconnecting it from the network.

フローサイズやフロー時間といったフローの各種統計値を収集するための技術として、パケット流からパケットを一定周期もしくはランダムに抜き出すパケットサンプリングが注目されている。リンクの回線容量が2.5Gbpsや10Gbpsと高速化するにつれ、全てのフロー状態を管理することが困難になるため、パケットサンプリングにより一部のフロー状態のみを管理し、各種フロー統計値を得ることは実用上、非常に有用である。そこで、パケットサンプリングによって得られた情報から、測定期間内に送出されたパケット数が閾値以上となる高レートフローを特定する方法が検討されている。しかし大量フロー生成ホストが生成する個々のフローのサイズは小さいため、高レートフローの特定方法ではこのようなホストを効果的に特定することができない。   As a technique for collecting various statistical values of a flow such as a flow size and a flow time, packet sampling in which packets are extracted from a packet stream at regular intervals or at random is attracting attention. As the line capacity of the link increases to 2.5 Gbps and 10 Gbps, it becomes difficult to manage all the flow states. Therefore, only some flow states are managed by packet sampling, and various flow statistics are obtained. Is very useful in practice. Therefore, a method for identifying a high-rate flow in which the number of packets transmitted within a measurement period is equal to or greater than a threshold from information obtained by packet sampling is being studied. However, since the size of each flow generated by the mass flow generation host is small, such a host cannot be effectively identified by the high-rate flow identification method.

大量フロー生成ホストを特定するには、パケット単位ではなく、フローを単位にサンプリングを行い、ホストごとに生成フロー数を集計することが有効である。このような観点から、一つ以上のフローがサンプルされたホストを大量フロー生成ホストと見なし、それらホストが測定期間内に生成したフロー数を計測する方法が検討されている。しかしフロー数比率q(測定期間内においてあるホストが生成したフロー数mを全フロー数Mで除したもの)の特定閾値を明示的に与えることができず、任意のフロー数比率qを有するホストが特定される確率である特定曲線も得られない。
以上の技術については、下記非特許文献1〜3を参照されたい。
In order to specify a large number of flow generation hosts, it is effective to perform sampling for each flow, not for each packet, and total the number of generated flows for each host. From such a viewpoint, a method is considered in which a host in which one or more flows are sampled is regarded as a mass flow generation host, and the number of flows generated by the host within a measurement period is measured. However, it is not possible to explicitly give a specific threshold value for the flow rate ratio q (the flow number m generated by a host within the measurement period divided by the total flow number M), and a host having an arbitrary flow rate ratio q A specific curve that is the probability that is specified is not obtained.
Refer to the following Non-Patent Documents 1 to 3 for the above technique.

森,川原,上山,石橋,阿部,“通信パターン分析に基づくワーム感染ホスト検出方法”,信学技報CQ、2005−11.Mori, Kawahara, Kamiyama, Ishibashi, Abe, “Worm infected host detection method based on communication pattern analysis”, IEICE Tech. CQ, 2005-11. 上山,森,“高レートフロー特定方式の特定精度向上に関する検討”,信学技報IN,2005−7.Kamiyama, Mori, “Study on Improvement of Specific Accuracy of High Rate Flow Identification Method”, IEICE Technical Report IN, 2005-7. K. Keys, D. Moore, C. Estan、“A Robust System for Accurate Real-time Summaries of Internet Traffic,”ACM AIGMETRICS2005.K. Keys, D. Moore, C. Estan, “A Robust System for Accurate Real-time Summaries of Internet Traffic,” ACM AIGMETRICS 2005.

従来の大量フロー生成ホスト特定方法では、フロー数比率に対する特定確率が定式化されておらず、特定されるフロー数比率の閾値の与え方が明らかでない。大量フロー生成ホストの特定を行う際には、大量フローと定義するフロー数比率の閾値qとその特定確率Hを設計できることが実用上、重要である。さらに、フロー数比率qがq<qのフローが誤って特定される確率(FPR:False Positive Ratio)と、q≧qのフローが誤って特定されない確率(FNR:False Negative Ratio)を明確にし、特定精度を明らかにすることが重要である。そのためには、qとHを与えたときの任意のqに対する特定確率H(qとHの関係を表す曲線を特定曲線という)を明らかにする必要がある。 In the conventional mass flow generation host specifying method, the specific probability with respect to the flow number ratio is not formulated, and it is not clear how to specify the threshold value for the specified flow number ratio. When specifying a mass flow generation host, it is practically important to be able to design the threshold q * of the flow number ratio defined as a mass flow and its specific probability H * . Furthermore, the probability that a flow with the flow number ratio q q <q * is erroneously specified (FPR: False Positive Ratio) and the probability that a flow with q ≧ q * is not erroneously specified (FNR: False Negative Ratio) are clarified. It is important to clarify the specific accuracy. For this purpose, it is necessary to clarify the specific probability H for an arbitrary q when q * and H * are given (a curve representing the relationship between q and H is called a specific curve).

本発明の目的は、大量フロー生成ホストを特定できる技術を構築することにある。また、測定期間内にホストが生成したフロー数を着目リンクに到着する総フロー数で除したフロー数比率の閾値qとフロー数比率の閾値qのホストが特定される確率Hと大量フロー生成ホストとして特定するためのフロー数の閾値である特定閾値Yを与えたときに、フローをサンプルする確率であるフローサンプリング確率fを導出する、もしくはqとHとfを与えたときにYを導出する、ことが可能な、フローサンプリング情報を用いた大量フロー生成ホスト特定技術を構築することにある。 An object of the present invention is to construct a technique capable of specifying a mass flow generation host. Also, large amounts probability H * threshold q * host threshold q * and flow ratio of the number of number of flows ratio obtained by dividing the number of flows that host generated within the measuring period by the total number of flows arriving to the target link is identified When a specific threshold Y that is a threshold of the number of flows for specifying as a flow generation host is given, a flow sampling probability f that is a probability of sampling a flow is derived, or when q * , H *, and f are given It is to construct a mass flow generation host identification technique using flow sampling information that can derive Y in

本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。   Of the inventions disclosed in this application, the outline of typical ones will be briefly described as follows.

本発明の大量フロー生成ホスト特定方法は、フローサンプリング装置と新規フロー判定装置とホストテーブルと大量フロー生成ホスト特定装置とを備える大量フロー生成ホスト特定システムにおける大量フロー生成ホスト特定方法であって、前記フローサンプリング装置が、着目リンクに到着した各パケットに対して、該パケット中のフローを識別する情報をキーにして、予め用意したハッシュ関数を通して得られるβビットの値vを得て、得られたvの値がフローサンプリング確率fと2 β の積であるフローサンプリングのための閾値wより小さい時に該パケットをサンプルすることにより、フローサンプリング確率fでフローをサンプルし、前記新規フロー判定装置が、測定期間内に前記フローサンプリング装置によりサンプルされたフローが新規のフローであるか否かを判定し、新規のフローであると判定した場合に前記ホストテーブル内の当該ホストのフロー数を更新し、前記大量フロー生成ホスト特定装置が、前記ホストテーブル内のフロー数が予め定めた閾値Y以上となったホストを大量フロー生成ホストとして特定することを特徴とする。また、サンプルされたパケットが未カウントのフローに属しているか否かの判定に、Bloom filterを用いることを特徴とする。 The mass flow generation host identification method of the present invention is a mass flow generation host identification method in a mass flow generation host identification system comprising a flow sampling device, a new flow determination device, a host table, and a mass flow generation host identification device, The flow sampling device obtains a β-bit value v obtained through a hash function prepared in advance for each packet arriving at the link of interest, using information for identifying a flow in the packet as a key. by the value of v is the sample the packet at the threshold w is less than for flow sampling is the product of the flow sampling probability f and 2 beta, samples the flow in the flow sampling probability f, the new flow determining device, Sampled by the flow sampling device within the measurement period. Is determined to be a new flow, and if it is determined to be a new flow, the number of flows of the host in the host table is updated, and the mass flow generation host specifying device A host whose number of flows is equal to or greater than a predetermined threshold Y is specified as a mass flow generation host . Further, the judgment sample packets of whether it belongs to the non-count of the flow, characterized by using a Bloom filter.

本発明の大量フロー生成ホスト特定システムは、着目リンクに到着した各パケットに対して、該パケット中のフローを識別する情報をキーにして、予め用意したハッシュ関数を通して得られるβビットの値vを得て、得られたvの値がフローサンプリング確率fと2 β の積であるフローサンプリングのための閾値wより小さい時に該パケットをサンプルすることにより、フローサンプリング確率fでフローをサンプルするフローサンプリング装置と、測定期間内に前記フローサンプリング装置によりサンプルされたフローが新規のフローであるか否かを判定する新規フロー判定装置と、前記新規フロー判定装置で新規のフローであると判定された場合に該当ホストのフロー数が更新されるホストテーブルと、前記ホストテーブル内のフロー数が予め定めた閾値Y以上となったホストを大量フロー生成ホストとして特定する大量フロー生成ホスト特定装置を備えることを特徴とする。また、フローサンプリング確率fと閾値Yを設計するパラメータ設計装置と、を備え、前記パラメータ設計装置が設計したフローサンプリング確率fと閾値Yがそれぞれ前記フローサンプリング装置と前記大量フロー生成ホスト特定装置に設定されることを特徴とする。 The mass flow generation host specifying system of the present invention uses, for each packet arriving at the link of interest, a value v of β bits obtained through a hash function prepared in advance using information for identifying a flow in the packet as a key. obtained, by the obtained value of v samples the said packets when a threshold w less than for flow sampling is the product of the flow sampling probability f and 2 beta, flow sampling to sample flow in the flow sampling probability f A device, a new flow determination device that determines whether or not the flow sampled by the flow sampling device within the measurement period is a new flow, and the new flow determination device that determines that the flow is a new flow Host table in which the number of flows of the corresponding host is updated, and the number of flows in the host table Characterized in that it comprises a Flow Hogs specific equipment for identifying the host from which the predetermined threshold value Y or higher as Flow Hogs. Also comprises a parameter designing apparatus for designing a flow sampling probability f and the threshold Y, and the flow sampling probability f and threshold Y for the parameter designing apparatus were designed with the flow sampling device respectively the Flow Hogs particular device It is characterized by being set.

本発明によれば、フロー計測から得られたデータを用いて、測定期間内に生成されるフロー数が閾値を超える大量フロー生成ホストを特定できるという効果がある。   According to the present invention, it is possible to specify a mass flow generation host in which the number of flows generated within a measurement period exceeds a threshold using data obtained from flow measurement.

図1は、本発明の大量フロー生成ホスト特定方法で大量フロー生成ホストを特定する大量フロー生成ホスト特定システムの実施の形態の一例を示すシステム構成図である。図1において、101はパラメータ設計装置、102はフローサンプリング装置、103は新規フロー判定装置、104はホストテーブル、105は大量フロー生成ホスト特定装置、106は大量フロー生成ホストリストである。   FIG. 1 is a system configuration diagram showing an example of an embodiment of a mass flow generation host identification system that identifies a mass flow generation host by the mass flow generation host identification method of the present invention. In FIG. 1, 101 is a parameter design device, 102 is a flow sampling device, 103 is a new flow determination device, 104 is a host table, 105 is a mass flow generation host specifying device, and 106 is a mass flow generation host list.

パラメータ設計装置101により任意の特定曲線を実現するフローサンプリング確率f(フローをサンプルする確率)と特定閾値Y(大量フロー生成ホストとして特定するためのフロー数の閾値)が設計され、それぞれフローサンプリング装置102と大量フロー生成ホスト特定装置105に設定される。測定期間中は、フローサンプリング装置102により着目リンクを流れるフローが一定確率(フローサンプリング確率f)でサンプルされ、サンプルされたフローが新規のフロー(未カウント)であるか否かを新規フロー判定装置103が判定し、新規フローであった場合にはホストテーブル104の該当ホストのフロー数が更新される。大量フロー生成ホスト特定装置105はホストテーブル104に登録されたホストのフロー数から大量フロー生成ホストを特定し、大量フロー生成ホストリスト106に出力する。   A flow sampling probability f (probability of sampling a flow) and a specific threshold Y (threshold for the number of flows for specifying as a mass flow generation host) are designed by the parameter design device 101, and each flow sampling device 102 and the mass flow generation host specifying device 105. During the measurement period, the flow that flows through the link of interest by the flow sampling device 102 is sampled with a certain probability (flow sampling probability f), and whether or not the sampled flow is a new flow (uncounted) is determined as a new flow determination device. If the result is 103 and the flow is a new flow, the number of flows of the corresponding host in the host table 104 is updated. The mass flow generation host specifying device 105 specifies a mass flow generation host from the number of flows of the hosts registered in the host table 104 and outputs it to the mass flow generation host list 106.

すなわち、本実施の形態の大量フロー生成ホスト特定システムは、測定期間内にサンプルされたフローが新規のフローであるか否かを判定する新規フロー判定装置103と、新規フロー判定装置103で新規のフローであると判定された場合に該当ホストのフロー数が更新されるホストテーブル104と、ホストテーブル104内のフロー数が予め定めた閾値Y以上となったホストを大量フロー生成ホストとして特定する大量フロー生成ホスト特定装置105と、を備えている。また、フローサンプリング確率fでフローをサンプルするフローサンプリング装置102と、フローサンプリング確率fと閾値Yを設計するパラメータ設計装置101と、を備え、パラメータ設計装置101が設計したフローサンプリング確率fと閾値Yがそれぞれフローサンプリング装置102と大量フロー生成ホスト特定装置105に設定される。そして、大量フロー生成ホスト特定装置105は特定した大量フロー生成ホストのリストを大量フロー生成ホスト106に出力する。   That is, the mass flow generation host specifying system according to the present embodiment has a new flow determination apparatus 103 that determines whether or not a flow sampled within the measurement period is a new flow, and a new flow determination apparatus 103 that is new. A host table 104 in which the number of flows of the corresponding host is updated when it is determined to be a flow, and a mass that identifies a host in which the number of flows in the host table 104 is equal to or greater than a predetermined threshold Y as a mass flow generation host A flow generation host specifying device 105. Further, the flow sampling apparatus 102 that samples the flow with the flow sampling probability f, and the parameter design apparatus 101 that designs the flow sampling probability f and the threshold value Y, the flow sampling probability f and the threshold value Y designed by the parameter design apparatus 101 are provided. Are set in the flow sampling device 102 and the mass flow generation host specifying device 105, respectively. Then, the mass flow generation host specifying device 105 outputs the specified list of mass flow generation hosts to the mass flow generation host 106.

次に、本発明の実施の形態に係る大量フロー生成ホスト特定方法について、1.動作原理、2.パラメータ設定方法、3.所要メモリサイズの導出、4.所要最大メモリアクセス数の導出、をそれぞれ説明する。   Next, with regard to the mass flow generation host specifying method according to the embodiment of the present invention, 1. Principle of operation 2. Parameter setting method 3. Derivation of required memory size Derivation of the required maximum memory access number will be described respectively.

1.動作原理
フローを、発着IPアドレス、発着ポート番号が共通のパケットの集合と定義する。そして、長さがφ(s)の任意の測定期間Φを定め、Φ内に着目リンクに到着した総フロー数をMとする。そして各ホストに対して、Φ内に生成したフロー数をmとするとき、フロー数比率qをq≡m/Mと定義する。任意に定めた閾値qに対して、q≧qのホストを大量フロー生成ホストと定義し、着目リンクにおいて、大量フロー生成ホストをΦ内で特定する。
1. Principle of Operation A flow is defined as a set of packets having a common destination IP address and destination port number. Then, an arbitrary measurement period Φ having a length of φ (s) is defined, and the total number of flows arriving at the link of interest within Φ is defined as M. For each host, when the number of flows generated in Φ is m, the flow number ratio q is defined as q≡m / M. For an arbitrarily defined threshold value q * , a host with q ≧ q * is defined as a mass flow generation host, and the mass flow generation host is specified in Φ in the link of interest.

着目リンクに到着した各パケットに対して、発着IPアドレスと発着ポート番号の計96ビットをキーにして、予め用意したハッシュ関数を通して得られるβビットの値をvするとき、v<wであるときにのみ新規フロー判定装置に入力する。ただしwはフローサンプリングのための閾値であり、fをフローサンプリング確率とするとf=w/2βとなる。同一フローに属するフローは同一のキーを持つため、フローサイズとは無関係に全てのフローが確率fでサンプルされることになる。 For each packet arriving at the link of interest, v <w, where v is the β-bit value obtained through a hash function prepared in advance using a total of 96 bits of the incoming and outgoing IP addresses and outgoing and outgoing port numbers as keys. Only when input to the new flow determination device. However, w is a threshold value for flow sampling. If f is a flow sampling probability, f = w / . Since flows belonging to the same flow have the same key, all flows are sampled with a probability f regardless of the flow size.

v<wであった場合、次に到着パケットが属するフローを既にカウントしたかどうかを判定する。最も直感的な方法は、サンプルした全てのフローをフローテーブルにて管理し、フローテーブルに該当フローのエントリが存在するか否かを判定する方法であるが、最大で全エントリをチェックする必要があるため処理時間が大きくなる。そこでここでは、Bloom filterを用いて判定する方法を用いる。Bloom filterはある候補に対してある集合のメンバであるか否かを判定する方法であり、異なるk個のハッシュ関数(各々が入力キーに対してbビットの値を返す)と2個の2値変数(初期状態では全てゼロにリセットされる)が用意される。この場合、パケットの96ビットのキーをk個のハッシュ関数を通して得られるk個のアドレスに該当する2値変数の値を調べ、1つ以上がゼロである場合に該当パケットが属するフローを新規フローと判定する。そしてk個の該当する2値変数を全て1にセットする。Bloom filterを用いた場合、既にカウントしたフローを誤って新規フローと見なす可能性はゼロであるが、ハッシュ値の衝突によって新規フローを誤って見逃す可能性がある。 When v <w, it is determined whether the flow to which the next arrival packet belongs has already been counted. The most intuitive method is to manage all sampled flows in the flow table and determine whether there is an entry for the flow in the flow table, but it is necessary to check all the entries at the maximum. As a result, the processing time increases. Therefore, here, a determination method using a Bloom filter is used. Bloom filter is a method for determining whether a candidate is a member of a certain set, k different hash functions (each returning a b-bit value for the input key) and 2 b Binary variables (initially all reset to zero) are prepared. In this case, the value of a binary variable corresponding to k addresses obtained through k hash functions using the 96-bit key of the packet is examined, and if one or more is zero, the flow to which the packet belongs is a new flow. Is determined. Then, all k corresponding binary variables are set to 1. When the Bloom filter is used, there is no possibility that a flow that has already been counted is erroneously regarded as a new flow, but there is a possibility that a new flow may be mistakenly missed due to a hash value collision.

ホストテーブル104には発IPアドレスとサンプルフロー数が収容される。新規フローと判定された場合には、該当パケットの発IPアドレスが既にホストテーブル内にエントリされているか否か調べ(例えば発IPアドレスをキーにしてハッシュ値のアドレスを調べる)、既にエントリが存在する場合にはサンプルフロー数を1だけ増加させる。この結果、サンプルフロー数が閾値Yに達した場合には、そのホストを大量フロー生成ホストとして特定し、大量フロー生成ホストリストに書き出す。一方、発IPアドレスがホストテーブル内にエントリされていない場合には、新規にエントリを生成する。   The host table 104 stores the source IP address and the number of sample flows. If it is determined that the flow is a new flow, it is checked whether the source IP address of the packet has already been entered in the host table (for example, the hash value address is checked using the source IP address as a key), and an entry already exists. When doing so, the number of sample flows is increased by one. As a result, when the number of sample flows reaches the threshold Y, the host is specified as a mass flow generation host, and is written in the mass flow generation host list. On the other hand, if the source IP address is not entered in the host table, a new entry is generated.

図2に、本発明の処理のフローチャートを示す。図2において、パケットが到着すると(ステップ201)、ハッシュ値vを算出する(ステップ202)。算出されたハッシュ値vがフローサンプリングのための閾値wより小さいかどうかが判断される(ステップ203)。ステップ203でNの場合は終了する(サンプルしない)。ステップ203でYの場合は、Bloom filterによる新規フローの判定を行い(ステップ204)、新規フローでない場合(ステップ205でNの場合)は終了する。新規フローである場合(ステップ205でYの場合)はホストテーブル104内の該当発ホストのサンプルフロー数cを1加算し(ステップ206)、cが閾値Yと等しくない場合(ステップ207でNの場合)は終了する。cが閾値Yと等しい場合は当該発ホストを大量フロー生成ホストとして特定する(ステップ208)。ここで、ステップ201〜203はフローサンプリング装置102が処理し、ステップ204〜206は新規フロー判定装置103が処理し、ステップ207〜208は大量フロー生成ホスト特定装置が処理する。大量フロー生成ホスト特定装置105が大量フロー生成ホストリスト106に書き出すタイミングとしては、測定期間が終了した時点でまとめて書き出す方法も考えることができるが、その他のタイミングでもよい。   FIG. 2 shows a flowchart of the processing of the present invention. In FIG. 2, when a packet arrives (step 201), a hash value v is calculated (step 202). It is determined whether or not the calculated hash value v is smaller than a threshold w for flow sampling (step 203). If N in step 203, the process ends (not sampled). In the case of Y in Step 203, a new flow is determined by the Bloom filter (Step 204), and when it is not a new flow (in the case of N in Step 205), the process ends. If the flow is a new flow (Y in Step 205), the sample flow number c of the corresponding host in the host table 104 is incremented by 1 (Step 206). If c is not equal to the threshold Y (N in Step 207) If finished). When c is equal to the threshold value Y, the originating host is specified as a mass flow generation host (step 208). Here, steps 201 to 203 are processed by the flow sampling apparatus 102, steps 204 to 206 are processed by the new flow determination apparatus 103, and steps 207 to 208 are processed by the mass flow generation host specifying apparatus. As a timing at which the mass flow generation host specifying device 105 writes out to the mass flow generation host list 106, a method of collectively writing out at the end of the measurement period can be considered, but other timings may be used.

すなわち、本実施の形態の大量フロー生成ホスト特定方法は、フローサンプリングによって得られた統計データのみを用いて、測定期間内に生成するフロー数が閾値以上となるホストを大量フロー生成ホストとして特定するものである。また、サンプルされたパケットが未カウントのフローに属しているか否かの判定に、Bloom filterを用いるものである。また、ホストごとにサンプルされたフロー数を集計し、集計値が予め定めた閾値Y以上となったホストを大量フロー生成ホストとして特定するものである。   That is, the mass flow generation host specifying method of the present embodiment uses only statistical data obtained by flow sampling to specify a host whose number of flows generated within a measurement period is equal to or greater than a threshold as a mass flow generation host. Is. In addition, a Bloom filter is used to determine whether or not a sampled packet belongs to an uncounted flow. Also, the number of flows sampled for each host is aggregated, and a host whose aggregate value is equal to or greater than a predetermined threshold Y is specified as a mass flow generation host.

2.パラメータ設定方法
フロー数比率がqのホストからj個のフローが測定期間Φ内でサンプルされる確率は(1−q)F−jで与えられる(FはΦ内の総サンプルフロー数であり、F=fMである)。よってこのホストが特定される確率Hは、
2. Parameter setting method The probability that j flows from a host having a flow rate ratio of q are sampled within the measurement period Φ is given by F C j (1-q) F−j q j (F is the total number of samples in Φ) Number of flows, F = fM). Therefore, the probability H that this host is specified is

Figure 0004209897
となる。フロー数比率の閾値qのホストを確率Hで特定するためには、
Figure 0004209897
It becomes. In order to identify the host with the flow rate ratio threshold q * with probability H * ,

Figure 0004209897
となるようにYとFを設定すればよい。すなわち、YとFのどちらか一方を与えれば、式(2)を数値的に解くことによりもう一方を決めることができる。Mの値として例えば前測定期間における実測値を用いれば、Yとfのどちらか一方が自動的に決まると考えることもできる。
Figure 0004209897
Y and F may be set so that That is, if one of Y and F is given, the other can be determined by solving Equation (2) numerically. For example, if an actual measurement value in the previous measurement period is used as the value of M, it can be considered that either Y or f is automatically determined.

Yが大きなほど、特定精度が向上する反面、所要メモリ量が増加することが予想される。よってYを調整することにより特定精度と所要メモリ量の間にトレードオフが得られる。例えば、許容システムコスト(メモリ量)の範囲内で最大のYを選択し、フローサンプリング確率fを設計することが可能である。また同様に、fが大きなほど特定精度が向上する反面、所要メモリ量が増加することが予想されるので、許容メモリ量の範囲内で最大のfを選択し、閾値Yを設計するといったことも可能である。   It is expected that the greater the Y, the greater the required accuracy, while the specific accuracy improves. Therefore, by adjusting Y, a trade-off is obtained between the specific accuracy and the required memory amount. For example, it is possible to select the maximum Y within the range of the allowable system cost (memory amount) and design the flow sampling probability f. Similarly, as f increases, the specific accuracy improves, but the required memory amount is expected to increase. Therefore, the maximum f is selected within the allowable memory amount range, and the threshold value Y is designed. Is possible.

以上のパラメータの設計をパラメータ設計装置101が行い、パラメータ設計装置101が設計したフローサンプリング確率fと閾値Yがそれぞれフローサンプリング装置102と大量フロー生成ホスト特定装置105に設定される。   The parameter design apparatus 101 performs the design of the above parameters, and the flow sampling probability f and the threshold Y designed by the parameter design apparatus 101 are set in the flow sampling apparatus 102 and the mass flow generation host specifying apparatus 105, respectively.

3. 所要メモリ量の導出
ハッシュ関数には、高性能で知られるHを用いることを想定する。フローサンプリングのハッシュ関数のために必要となるメモリ量は96β[bits]である。新規フローの判定処理には2値変数の収容のために2[bits]、ハッシュ関数のために96bk[bits]が必要である。最後に、ホストテーブルのためには、エントリされるホスト数の最大値をEmaxとすると、
3. Derivation of required memory amount It is assumed that H 3 that is known for high performance is used for the hash function. The amount of memory required for the flow sampling hash function is 96β [bits]. The new flow determination process requires 2 b [bits] for accommodating binary variables and 96 bk [bits] for the hash function. Finally, for the host table, if the maximum number of hosts entered is E max ,

Figure 0004209897
が必要になる。ここで、logYを挟む記号は、挟んだ数を下まわらない最小の整数を意味する記号であり、例えばlogYが3.6である場合は4になる。これらを合わせ、所要メモリ量[bits]は次式で算出できる。
Figure 0004209897
Is required. Here, the symbol that sandwiches log 2 Y is a symbol that means the smallest integer that does not fall below the sandwiched number. For example, when log 2 Y is 3.6, the symbol is 4. By combining these, the required memory amount [bits] can be calculated by the following equation.

Figure 0004209897
4.所要最大メモリアクセス数の導出
1個の到着パケットに対して必要になる最大メモリアクセス数を考える。Hを用いればハードウェアで容易にハッシュ関数を構築できるためハッシュ値を求める処理は考慮しない。新規フローの判定処理にk回のメモリアクセスが必要である。ホストテーブルの更新には、ホストのIPアドレスをキーにハッシュ関数を用いてエントリを収容することを想定し、ハッシュ値の衝突による収容アドレスの調整が生じる回数の最大値をCmaxとするとCmax+1となる。よって所要最大メモリアクセス数は次式で求まる。
Figure 0004209897
4). Derivation of required maximum memory access number Consider the maximum memory access number required for one incoming packet. Process of obtaining the hash value for the use of H 3 can be constructed easily hash function hardware is not considered. A new flow determination process requires k memory accesses. To update the host table, assuming that accommodates the entry by using a hash function to the key IP address of the host, when the maximum number of times the adjustment of the accommodating addresses by the collision of the hash value is generated as C max C max +1. Therefore, the required maximum memory access number is obtained by the following equation.

Figure 0004209897
以上説明した実施の形態において、ホストテーブルおよび大量フロー生成ホストリストは記憶装置に記憶される。また、各装置はコンピュータと記憶装置に記憶されたプログラムで構成できる。また、そのプログラムの一部または全部に代えてハードウェアで構成してもよい。
Figure 0004209897
In the embodiment described above, the host table and the mass flow generation host list are stored in the storage device. Each device can be configured by a program stored in a computer and a storage device. Further, it may be configured by hardware instead of part or all of the program.

以上、本発明者によってなされた発明を、前記実施形態に基づき具体的に説明したが、本発明は、前記実施形態に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは勿論である。   As mentioned above, the invention made by the present inventor has been specifically described based on the embodiment. However, the invention is not limited to the embodiment, and various modifications can be made without departing from the scope of the invention. Of course.

本発明の実施の形態の一例を示すシステム構成図System configuration diagram showing an example of an embodiment of the present invention 本発明の処理の流れを示すフローチャートThe flowchart which shows the flow of the process of this invention

符号の説明Explanation of symbols

101…パラメータ設計装置、102…フローサンプリング装置、103…新規フロー判定装置、104…ホストテーブル、105…大量フロー生成ホスト特定装置、106…大量フロー生成ホストリスト DESCRIPTION OF SYMBOLS 101 ... Parameter design apparatus, 102 ... Flow sampling apparatus, 103 ... New flow determination apparatus, 104 ... Host table, 105 ... Mass flow generation host specification apparatus, 106 ... Mass flow generation host list

Claims (8)

フローサンプリング装置と新規フロー判定装置とホストテーブルと大量フロー生成ホスト特定装置とを備える大量フロー生成ホスト特定システムにおける大量フロー生成ホスト特定方法であって、
前記フローサンプリング装置が、着目リンクに到着した各パケットに対して、該パケット中のフローを識別する情報をキーにして、予め用意したハッシュ関数を通して得られるβビットの値vを得て、得られたvの値がフローサンプリング確率fと2 β の積であるフローサンプリングのための閾値wより小さい時に該パケットをサンプルすることにより、フローサンプリング確率fでフローをサンプルし、
前記新規フロー判定装置が、測定期間内に前記フローサンプリング装置によりサンプルされたフローが新規のフローであるか否かを判定し、新規のフローであると判定した場合に前記ホストテーブル内の当該ホストのフロー数を更新し
前記大量フロー生成ホスト特定装置が、前記ホストテーブル内のフロー数が予め定めた閾値Y以上となったホストを大量フロー生成ホストとして特定する、
ことを特徴とする大量フロー生成ホスト特定方法。
A mass flow generation host identification method in a mass flow generation host identification system comprising a flow sampling apparatus, a new flow determination apparatus, a host table, and a mass flow generation host identification apparatus,
For each packet arriving at the link of interest, the flow sampling device obtains a β-bit value v obtained through a hash function prepared in advance using information for identifying a flow in the packet as a key. the value of v is by sampling the packets at the time of the threshold value w is smaller than for the flow sampling is the product of the flow sampling probability f and 2 beta were samples the flow in the flow sampling probability f,
When the new flow determination device determines whether or not the flow sampled by the flow sampling device within the measurement period is a new flow, and determines that the flow is a new flow, the host in the host table Update the number of flows
The mass flow generation host identification device identifies a host whose number of flows in the host table is equal to or greater than a predetermined threshold Y as a mass flow generation host;
A mass flow generation host identification method characterized by the above.
請求項1に記載の大量フロー生成ホスト特定方法において、
前記新規フロー判定装置が、サンプルされたパケットが未カウントのフローに属しているか否かの判定に、Bloom filterを用いることを特徴とする大量フロー生成ホスト特定方法。
In the mass flow generation host specifying method according to claim 1,
A method for specifying a mass flow generation host, wherein the new flow determination apparatus uses a Bloom filter to determine whether or not a sampled packet belongs to an uncounted flow.
請求項に記載の大量フロー生成ホスト特定方法において、
前記大量フロー生成ホスト特定システムは、パラメータ設計装置を備え、
前記パラメータ設計装置が、測定期間内に着目リンクに到着する総フロー数Mと、測定期間内にホストが生成したフロー数を総フロー数Mで除したフロー数比率の閾値qと、フロー数比率が閾値qのホストが特定される確率Hと、閾値Yとが与えられ、F=fMとしたときに、
Figure 0004209897
よりフローをサンプルする確率であるフローサンプリング確率fを導出することを特徴とする大量フロー生成ホスト特定方法。
In the mass flow generation host specifying method according to claim 1 ,
The mass flow generation host specifying system includes a parameter design device,
The parameter design apparatus has a total number M of flows arriving at the link of interest within the measurement period, a threshold q * of a flow number ratio obtained by dividing the number of flows generated by the host within the measurement period by the total number of flows M, Given a probability H * that a host with a ratio q * is identified and a threshold Y, and F = fM,
Figure 0004209897
A mass flow generation host specifying method characterized by deriving a flow sampling probability f which is a probability of sampling a flow.
請求項に記載の大量フロー生成ホスト特定方法において、
前記大量フロー生成ホスト特定システムは、パラメータ設計装置を備え、
前記パラメータ設計装置が、測定期間内に着目リンクに到着する総フロー数Mと、測定期間内にホストが生成したフロー数を総フロー数Mで除したフロー数比率の閾値qと、フロー数比率の閾値qのホストが特定される確率Hと、フローをサンプルする確率であるフローサンプリング確率fが与えられ、F=fMとしたときに、
Figure 0004209897
より閾値Yを導出することを特徴とする大量フロー生成ホスト特定方法。
In the mass flow generation host specifying method according to claim 1 ,
The mass flow generation host specifying system includes a parameter design device,
The parameter design apparatus has a total number M of flows arriving at the link of interest within the measurement period, a threshold q * of a flow number ratio obtained by dividing the number of flows generated by the host within the measurement period by the total number of flows M, and the number of flows. Given a probability H * that a host with a ratio threshold q * is identified and a flow sampling probability f that is the probability of sampling the flow, where F = fM,
Figure 0004209897
A threshold value Y is derived from the mass flow generation host identification method.
請求項に記載の大量フロー生成ホスト特定方法において、
前記大量フロー生成ホスト特定システムは、パラメータ設計装置を備え、
前記パラメータ設計装置が、測定期間内に着目リンクに到着する総フロー数M、フローをサンプルする確率であるフローサンプリング確率f、測定期間内にホストが生成したフロー数を総フロー数Mで除したフロー数比率の閾値q、フロー数比率の閾値qのホストが特定される確率Hが与えられたときに、任意のフロー数比率qを有するホストが特定される確率Hを導出し、qとHの関係を表す曲線である特定曲線を得ることを特徴とする大量フロー生成ホスト特定方法。
In the mass flow generation host specifying method according to claim 1 ,
The mass flow generation host specifying system includes a parameter design device,
The parameter design device divides the total flow number M that arrives at the link of interest within the measurement period, the flow sampling probability f that is the probability of sampling the flow, and the total number of flows M that the host generated during the measurement period. Given the threshold q * of the flow number ratio and the probability H * that the host of the threshold q * of the flow number ratio is specified, the probability H of specifying the host having an arbitrary flow number ratio q is derived, A mass flow generation host identification method characterized by obtaining a specific curve which is a curve representing the relationship between q and H.
請求項に記載の大量フロー生成ホスト特定方法において、
前記大量フロー生成ホスト特定システムは、パラメータ設計装置を備え、
前記パラメータ設計装置が、所要メモリ量と所要最大メモリアクセス数を求めることを特徴とする大量フロー生成ホスト特定方法。
In the mass flow generation host specifying method according to claim 1 ,
The mass flow generation host specifying system includes a parameter design device,
The method for specifying a mass flow generation host , wherein the parameter design apparatus obtains a required memory amount and a required maximum memory access number.
着目リンクに到着した各パケットに対して、該パケット中のフローを識別する情報をキーにして、予め用意したハッシュ関数を通して得られるβビットの値vを得て、得られたvの値がフローサンプリング確率fと2 β の積であるフローサンプリングのための閾値wより小さい時に該パケットをサンプルすることにより、フローサンプリング確率fでフローをサンプルするフローサンプリング装置と、
測定期間内に前記フローサンプリング装置によりサンプルされたフローが新規のフローであるか否かを判定する新規フロー判定装置と、
前記新規フロー判定装置で新規のフローであると判定された場合に該当ホストのフロー数が更新されるホストテーブルと、
前記ホストテーブル内のフロー数が予め定めた閾値Y以上となったホストを大量フロー生成ホストとして特定する大量フロー生成ホスト特定装置と、
を備えることを特徴とする大量フロー生成ホスト特定システム。
For each packet arriving at the link of interest, using the information for identifying the flow in the packet as a key, a β-bit value v obtained through a hash function prepared in advance is obtained. by sampling the packets at the time of the threshold value w is smaller than for the flow sampling is the product of the sampling probability f and 2 beta, and flow sampling device for sampling the flow in flow sampling probability f,
A new flow determination device for determining whether or not a flow sampled by the flow sampling device within a measurement period is a new flow;
A host table in which the number of flows of the corresponding host is updated when the new flow determination device determines that the flow is a new flow;
A mass flow generation host identifying device that identifies a host whose number of flows in the host table is equal to or greater than a predetermined threshold Y as a mass flow generation host;
A mass flow generation host identification system characterized by comprising:
請求項に記載の大量フロー生成ホスト特定システムにおいて、
ローサンプリング確率fと閾値Yを設計するパラメータ設計装置を備え、
前記パラメータ設計装置が設計したフローサンプリング確率fと閾値Yがそれぞれ前記フローサンプリング装置と前記大量フロー生成ホスト特定装置に設定されることを特徴とする大量フロー生成ホスト特定システム。
The mass flow generation host identification system according to claim 7 ,
Includes a parameter design equipment for designing the flow sampling probability f and threshold Y,
A mass flow generation host specifying system, wherein a flow sampling probability f and a threshold value Y designed by the parameter design apparatus are set in the flow sampling device and the mass flow generation host specifying device, respectively.
JP2006038885A 2006-02-16 2006-02-16 Mass flow generation host identification method and system Expired - Fee Related JP4209897B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006038885A JP4209897B2 (en) 2006-02-16 2006-02-16 Mass flow generation host identification method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006038885A JP4209897B2 (en) 2006-02-16 2006-02-16 Mass flow generation host identification method and system

Publications (2)

Publication Number Publication Date
JP2007221412A JP2007221412A (en) 2007-08-30
JP4209897B2 true JP4209897B2 (en) 2009-01-14

Family

ID=38498186

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006038885A Expired - Fee Related JP4209897B2 (en) 2006-02-16 2006-02-16 Mass flow generation host identification method and system

Country Status (1)

Country Link
JP (1) JP4209897B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4768674B2 (en) * 2007-06-01 2011-09-07 日本電信電話株式会社 Worm-infected host identification method and worm-infected host identification system
JP4898648B2 (en) * 2007-12-19 2012-03-21 日本電信電話株式会社 High packet rate flow online detection method, system therefor, and program therefor

Also Published As

Publication number Publication date
JP2007221412A (en) 2007-08-30

Similar Documents

Publication Publication Date Title
US10097464B1 (en) Sampling based on large flow detection for network visibility monitoring
CN110519290B (en) Abnormal flow detection method and device and electronic equipment
US8214490B1 (en) Compact input compensating reputation data tracking mechanism
US9979624B1 (en) Large flow detection for network visibility monitoring
US10536360B1 (en) Counters for large flow detection
US10193900B2 (en) Methods and apparatus to identify an internet protocol address blacklist boundary
WO2011113239A1 (en) Flow detection method for domain name system and domain name server thereof
CN111052704A (en) Network analytics workflow acceleration
US7506372B2 (en) Method and apparatus for controlling connection rate of network hosts
TW201624310A (en) Methods and systems for estimating entropy
US10003515B1 (en) Network visibility monitoring
CN110166480B (en) Data packet analysis method and device
JP5286018B2 (en) Information processing apparatus, program, and recording medium
JP5532241B2 (en) High packet rate flow detection apparatus and high packet rate flow detection method
EP4293550A1 (en) Traffic processing method and protection system
CN110061998B (en) Attack defense method and device
TWI677209B (en) Domain name filtering method
CN110417748A (en) A kind of attack detection method and device
CN108347359B (en) Method and device for judging large Network Address Translation (NAT) outlet
JP4209897B2 (en) Mass flow generation host identification method and system
JP2007074339A (en) Spread unauthorized access detection method and system
TWI777766B (en) System and method of malicious domain query behavior detection
US8789176B1 (en) Detecting scans using a bloom counter
CN112565259B (en) Method and device for filtering DNS tunnel Trojan communication data
JP4311682B2 (en) Optimal memory allocation method

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080226

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081021

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081023

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111031

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111031

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121031

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121031

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131031

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees