JP2013506215A - データの確率的処理方法およびシステム - Google Patents

データの確率的処理方法およびシステム Download PDF

Info

Publication number
JP2013506215A
JP2013506215A JP2012531281A JP2012531281A JP2013506215A JP 2013506215 A JP2013506215 A JP 2013506215A JP 2012531281 A JP2012531281 A JP 2012531281A JP 2012531281 A JP2012531281 A JP 2012531281A JP 2013506215 A JP2013506215 A JP 2013506215A
Authority
JP
Japan
Prior art keywords
bits
data
tuple
matrix
hash functions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012531281A
Other languages
English (en)
Other versions
JP5490905B2 (ja
Inventor
ピエトロ、アンドレア ディ
フーイチ、フェリペ
ニッコリーニ、サベーリオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Europe Ltd
Original Assignee
NEC Europe Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Europe Ltd filed Critical NEC Europe Ltd
Publication of JP2013506215A publication Critical patent/JP2013506215A/ja
Application granted granted Critical
Publication of JP5490905B2 publication Critical patent/JP5490905B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Optimization (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Algebra (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

データの確率的処理方法を提供する。前記データは、(x,...,x)の形の多次元n−タプルからなるデータ集合Sの形式で提供される。本方法は、ビット行列を用意し、前記行列内のビットを指定するために使用されるK個の独立なハッシュ関数Hを用意し、前記K個の独立なハッシュ関数Hのそれぞれについて前記n−タプルのすべての値xに対するハッシュ値H(x)を計算して結果を前記行列のビット[H(x),...,H(x)]にセットすることにより前記ビット行列に前記n−タプル(x,...,x)を挿入する、ことによってn次元データ構造が生成されることを特徴とする。また、対応するシステムが提供される。

Description

本発明は、データの確率的処理方法およびシステムに関する。前記データは、(x,...,x)の形のn−タプルからなるデータ集合Sの形式で提供される。
確率的データ構造一般、特にブルームフィルタ(Bloom Filter, BF)は、現在、広範囲の重要なネットワークアプリケーションで使用されている。これは、高速なクエリおよび更新を依然として可能としながら、大量の情報をコンパクトに要約することができるためである。BF(非特許文献1参照)は、(例えば、ルーティング、フィルタリング、モニタリング、ディープパケットインスペクション(deep packet inspection, DPI)、侵入検知システム(intrusion detection system, IDS)等のために)高速ルックアップを必要とするローカル情報を保存すること、およびデータをエクスポートすることの両方に使用される。分散データベースやピアツーピアシステムにおいて、BFは、各ノードで利用可能なリソースのサマリ(要約)を効率的にエクスポートするためにしばしば使用される。
しかし、標準的なBFは、メンバーシップクエリしかサポートしていないので、多くのアプリケーションにとって表現力が不十分である。カウンティングブルームフィルタ(Counting Bloom Filter, 以下CBF)と呼ばれるBFへの拡張(例えば非特許文献2に記載)は、項目削除および近似的カウンティングをサポート可能な、よりフレキシブルなデータ構造を提供する。非特許文献3では、あるしきい値を超えるフローを検出するための類似のデータ構造が使用されている。しかし、複数のソースによって生成されるBFサマリはビットごとのORを実行することによって情報損失なしに容易に集約可能であるのに対して、CBFは、集約に関して線型でないため、多くのネットワークアプリケーションによってはあまり魅力的でない。
BFを本質的にパケットカウンタとして使用するために、BFの表現力を向上させる他の解決法が提案されている(例えば非特許文献4参照)。しかし、これらの解決法は依然として、「フラット」な1次元キー空間に基づいており、例えばタプル間の関係(例えば、相異なるフローではあるが同じアプリケーションに属する関連するパケット)を追跡するためには使用できない。また、それらは、同一パケットが複数回計上されるのを回避できないという点で、個別カウンティングをサポートしてない。同じことは、スケッチ(sketch)のような他のデータ構造にも当てはまる。スケッチはさまざまなネットワークアプリケーションに一般的に使用され、特にカウンティングスケッチは、大きなベクトルデータを要約するために使用される。
最後に、非特許文献5において、著者は、未定義属性を有する近似的タプルクエリをサポートする、BFベースのデータ構造を使用する解決法を提案している。このアプローチは、各行がタプルの属性の1つに対応するビット行列を使用する。それぞれの要素挿入後、相異なるK個の独立なハッシュ関数の集合が全体集合Hから選出され、それを用いて、標準的ブルームフィルタと同様に、各行へのマップのビットをセットする。メンバーシップクエリに対しては、特定のルックアップ行列が使用され、H内の各関数によって出力されるハッシュ値が、入力属性値にわたって計算される。各行でセットビットを指定するK個のハッシュ関数が存在する場合に、クエリは陽性(positive)の結果を返す。ワイルドカードクエリを実行するためには、未定義属性に対応する行を単にスキップすればよい。しかし、このデータ構造は、濃度推定クエリもしきい値超過(threshold trespassing)クエリもサポートしていない。さらに、このデータ構造は応答としてブール値しか返すことができないので、カウンティングには適していない。
Bloom, B. H. "Space/time trade-offs in hash coding with allowable errors", in Communications of the ACM, vol. 13, no. 7, July, 1970, p. 422-426 L. Fan, P. Cao, J. Almeida, and A. Z. Broder, "Summary Cache: A Scalable Wide-Area (WEB) Cache Sharing Protocol", in IEEE/ACM Transactions on Networking, 8(3):281-293, 2000 C. Estan and G. Varghese, "New Directions in Traffic Measurement and Accounting", in Proceedings of the 1st ACM SIGCOMM Workshop on Internet Measurement M. Durand and P. Flajolet, "Loglog counting of large cardinalities," in ESA03, volume 2832 of LNCS, 2003, pp. 605-617 Muhammad Mukarram Bin Tariq, "Tuple Set Bloom Filter", Georgia Tech., presentation April 26, 2006
したがって、本発明の目的は、頭書のようなデータの確率的処理方法およびシステムにおいて、データに対して実行可能なクエリの種類に関して高い表現力を提供すると同時に、データの効率的な要約を実現するような改良およびさらなる展開を行うことである。
本発明によれば、上記の目的は、請求項1の構成を備えた方法によって達成される。この請求項に記載の通り、本方法は、ビット行列を用意し、前記行列内のビットを指定するために使用されるK個の独立なハッシュ関数Hを用意し、前記K個の独立なハッシュ関数Hのそれぞれについて前記n−タプルのすべての値xに対するハッシュ値H(x)を計算して結果を前記行列のビット[H(x),...,H(x)]にセットすることにより前記ビット行列に前記n−タプル(x,...,x)を挿入する、ことによってn次元データ構造が生成されることを特徴とする。
また、上記の目的は、請求項14の構成を備えたシステムによって達成される。この請求項に記載の通り、本システムは、以下のことを特徴とする。すなわち、システムは、前記n−タプルを受容する入出力要素と、ビット行列を用意し、前記行列内のビットを指定するために使用されるK個の独立なハッシュ関数Hを用意し、前記K個の独立なハッシュ関数Hのそれぞれについて前記n−タプルのすべての値xに対するハッシュ値H(x)を計算して結果を前記行列のビット[H(x),...,H(x)]にセットすることにより前記ビット行列に前記n−タプル(x,...,x)を挿入する、ことによってn次元データ構造を生成する処理要素と、前記ビット行列を保存する保存要素とを有する。
本発明によって認識されたこととして、上記の目的は、多次元ブルームフィルタとみなすことができる新規なデータ構造を導入することによって達成することができる。以下、このデータ構造を、2次元の場合には2dBFと略記する。2dBFは、タプル(x,x)∈S(あるいは一般のn次元の場合には(x,...,x)∈S)の集合Sの統計的サマリを提供する。ここで、各タプルは1回だけ計上され、x,x(あるいはx,...,x)は、任意の種類の関連するデータ(あるいは、ピアツーピア関連の用語ではキー)の値を表す。本発明によるシステムは、前記n−タプルを受容する入出力要素と、n次元データ構造を生成する処理要素と、結果として得られるビット行列を保存する保存要素とを有する。
本発明によって使用されるデータ構造は、確率的データ構造である。確率的データ構造は、その設計および構成により、データを効率的に要約し高速ルックアップを実行する能力のような、ブルームフィルタと同様に有利な性質を継承している。しかし、同時に、確率的データ構造は、それに対して実行可能なクエリの種類に関して、はるかに高い表現力を提供する。本発明による方法およびシステムは、ワイルドカードクエリと、項目の多重度の近似的一意カウントをサポートする。さらに、本データ構造は、チェック対象のキーの集合を指定することを必要とせずに、所与の項目に対応する近似的カウントが所与のしきい値を超過したかどうか(「ブラインド」しきい値超過("blind" threshold trespassing))を検出するためにも使用可能である。また、このデータサマリは、無損失集約をサポートする。すなわち、集合S1およびS2にわたって計算されたデータ構造の集約は、S1とS2の和集合にわたって計算されたデータ構造に等しい。さらに、同一タプルの多重挿入は、推定される濃度に影響を及ぼさない。というのは、それらは同一ビットを再びセットするだけだからである。したがって、個別カウンティングが暗黙的に実現される。
上記のクエリは、従来のブルームフィルタの表現力を拡張し、より広範囲のネットワーキングアプリケーションをサポートすることができる。標準的ブルームフィルタは、特定のタプルに対するメンバーシップクエリに回答し(ワイルドカード不可)、エントリ総数を推定することしかできない。2dBFを利用することにより、例えば、(相異なるアドレスの広範囲の集合とコンタクトしているホストを探索することによって)スキャナを検出するために、相異なる測定ポイントからデータサマリを収集することが可能である。また、2dBFは、入口および出口ポイントごとのフロー数を関連づけることによって、ネットワークトラフィック行列を推定する目的のために使用可能である。
要約すれば、本発明は、ワイルドカードクエリ、しきい値検出クエリおよび一意カウントクエリが非常に高速に実行され、元のデータ構造に対するのとほとんど同じ結果を出力するような性質を保ちながら、多次元データ構造を圧縮する方法およびシステムを提供する。本方法は、独立なハッシュ関数の結果を用いた多次元ビットマップを指定することによって動作する。一意カウンティングに対する従来技術の解決法は、単一の集約カウンタの代わりにキーごとにカウンタを取得することや、相異なるワイルドカードクエリを組み合わせることができない点で、本発明のほうが有利である。従来技術のタプルクエリによるブルームフィルタは、濃度を推定することや、しきい値超過を検出することができない点で、本発明のほうが有利である。
好ましい実施形態によれば、ビット行列は、2次元の場合、M行およびN列を有し、数MおよびNは、前記データ集合Sのn−タプルの可能な値xの濃度に適応されるようにしてもよい。すなわち、MおよびNは、2個のキー/エントリxおよびxの値の多重度(すなわち、相異なる値の数)に従って選択される。これにより、ブルームフィルタに固有の偽陽性(false positive)確率を有利に調整することができる。
入出力要素を使用することにより、さまざまなクエリをシステムに送ることができる。この目的のため、入出力要素は、それぞれのクエリを受容し、それらを処理要素へ転送するように構成されてもよい。データ集合Sの確率的サマリを提供する本発明によるデータ構造の特定の設計により、特に、単純メンバーシップクエリ、単純および/または複合ワイルドカードクエリ、および/またはしきい値超過クエリが、以下で詳細に説明するようにサポートされる。
例えば、n−タプル(x,...,x)の単純メンバーシップクエリは以下のように実行してもよい。
第1に、前記K個の独立なハッシュ関数Hのそれぞれについて前記n−タプルのすべての値xに対するハッシュ値H(x)を計算する。第2に、前記K個の独立なハッシュ関数Hのそれぞれについて位置[H(x),...,H(x)]における行列のすべてのビットがセットされているかどうかを分析する。前記K個の独立なハッシュ関数Hのそれぞれについて位置[H(x),...,H(x)]におけるすべてのビットがセットされている場合、これは、n−タプルは高い確率でデータ集合に含まれていることを意味し、システムは「真」を返してよい。そうでない場合、n−タプルは決してデータ集合に含まれておらず、システムは「偽」を返してよい。
また、1次元だけで確定した値xを含むn−タプルの単純ワイルドカードクエリは以下のように実行してもよい。
第1に、前記K個の独立なハッシュ関数Hのそれぞれについて前記n−タプルの確定値xに対するハッシュ値H(x)を計算する。第2に、K個のビットマップ[H(x),m](∀k∈1...K,m∈1...M)の論理的ORとしてビットマップBxiを計算する。Bxiにおいて少なくともKビットがセットされている場合、これは、値xを含むn−タプルが高い確率でデータ集合に含まれていることを意味し、システムは「真」を返してよい。そうでない場合、値xを含むn−タプルは決してデータ集合に含まれておらず、システムは「偽」を返してよい。
上記ですでに述べたように、本発明が提案するデータ構造は、(*,x)∈S(2dの場合)の形の単純ワイルドカードクエリだけでなく、例えば(*,x)∩(*,x)∩(x,*)∈Sの形の複合あるいは合成ワイルドカードクエリも可能である。好ましい実施形態によれば、複合ワイルドカードクエリは、まず複合ワイルドカードクエリを構成するすべての単純クエリによって返されるビットマップBxiを(上記のように)計算した後、それらの間のビットごとの演算により集約ビットマップを計算することによって実行される。特に、積集合演算子は論理的ANDにマップされ、和集合演算子は論理的ORにマップされてよい。結果として得られる包括的ビットマップにおいて少なくともKビットがセットされている場合、クエリは陽性の結果を返してよい。
残りのクエリをどのようにして実行することができるかを説明するために、ビットマップBxiについていくつかの考慮点を指摘しておかなければならない。容易に認識されることであるが、このようなビットマップは実際には、集合Sxi={(x,x)∈Sであるようなx}を要約する1次元ブルームフィルタである。このようなビットマップは、複合および単純いずれのワイルドカードクエリによって返されることも可能であり、さらなる処理を実行するために使用可能である。
このようなビットマップに基づいて、複合および単純両方のワイルドカード条件を満たすタプルの集合にわたる濃度クエリに回答することができる。関連するデータ構造の確率的性質により、返される結果は濃度の推定値となるため、推定誤差を伴う。周知の理論的分析から、ブルームフィルタによって要約される集合の濃度は、セットされていないビットの総数に基づいて推定可能であることが証明できる。このような性質は、Sxiの濃度の推定を行うために利用可能である。しかし、他の行および/または列との衝突による追加的なセットビットの存在のため、一般的に、古典的な推定公式は実際の濃度を過大推定する。これにもかかわらず、このような衝突を考慮に入れた新規な推定量を作ることができる。
これらと同じ原理を利用することにより、

の形のしきい値超過クエリにも回答することができる。認識されるように、構成から、行列の各行が計上するのは、最終ビットマップにおいてセットされているビットの高々1/Kである(Kは、使用される独立なハッシュ関数の個数)。これはもちろん控えめな推定値である。というのは、相異なる行のセットビットが重複する可能性があるからである。そこで、濃度が所定しきい値を超過する集合Sxiに対応するビットマップBxiは、少なくともNthreshビットがセットされているはずであると仮定される。その結果、行
[H(x),m] ∀k∈1...K,m∈1...M
のそれぞれは、少なくともNthresh/Kビットがセットされているはずであり、しきい値超過イベントは以下のように検出できる。
第1に、標準的(1次元)ブルームフィルタ公式による所定しきい値に対応するセットビットの個数Nthreshを計算する。推定量はゼロ平均なので、これはある信頼区間を考慮に入れることになる。次に、結果として得られるビット行列の各行について、Nthresh/Kより多くのビットがセットされているかどうかチェックする。少なくともK行が上記の条件を満たす場合、陽性の結果が返される。すなわち、所定しきい値を超過している。
上記で説明した本発明による2dBFデータ構造によってサポートされるクエリの種類は、さまざまなネットワークモニタリングアプリケーションにおいて有用であることがわかる。特に、同一イベントの相異なる観測を捨てることが依然として可能である一方で、相異なるトラフィックソースに関する情報サマリを集約する必要があるネットワークモニタリングアプリケーションにおいて有用である。
この種のアプリケーションの簡単な例として、スキャンを実行している悪意ホストの検出がある。この場合、モニタリングアプリケーションは、多くの相異なる宛先アドレスに対応するソースアドレスを探索しなければならない。モニタリング対象のネットワークにわたってプローブの集合が配備されており、中央モニタリングアプリケーションの目標は、ネットワーク上の多数の相異なるホストと接続を開始しようとしているアドレスを発見することであると仮定される。この場合、複数のパケットが複数のプローブによってモニタリングされる可能性が高いので、アプリケーションは、パケットが複数回捕捉されたアドレスをスキャナと標識することを確認すべきである。すなわち、重複する測定値を捨てることと、各外部ホストによってスキャンされた相異なるアドレスを考慮することとの両方が可能なように、各プローブからのレポートを集約しなければならない。この使用例では、本発明が提案するデータ構造は、観測される送信元−宛先ペアのサマリをエクスポートするために、各モニタリングプローブによって使用されることが可能である。レポートは、情報損失なしに集約可能であり、配備条件に応じて、(濃度クエリを使用することにより)すでに疑わしいホストの集合によってスキャンされているアドレスの個数をチェックすること、あるいは、(しきい値超過チェックを行うことによって)アドレスがスキャンを実行している可能性が高いかどうかのみをチェックすること、の両方が可能である。
2dBF構造のもう1つの簡単な使用例として、トラフィック行列モニタリングがある。各入口および出口ポイントを通るフローを追跡する2つの異なる2dBFデータ構造を使用し、複合ワイルドカードクエリを実行することにより、所与の送信元−宛先ペアに対するフロー数の推定値を返すことができる。
さらにもう1つの例示的アプリケーションとして、VoIP異常検出がある。ユーザを個別に追跡するとともに、各ユーザごとに発呼を追跡するために、2dBFを使用することができる。そして、ソースを攻撃者や電話勧誘者(すなわち、異常な発呼数)として識別するために、濃度カウントを使用することができる。
本発明を好ましい態様で実施するにはいくつもの可能性がある。このためには、一方で請求項1および14に従属する諸請求項を参照しつつ、他方で図面により例示された本発明の好ましい実施形態についての以下の説明を参照されたい。図面を用いて本発明の好ましい実施形態を説明する際には、本発明の教示による好ましい実施形態一般およびその変形例について説明する。
本発明の一実施形態による2次元ブルームフィルタデータ構造における挿入およびメンバーシップクエリを例示する模式図である。 本発明の別の実施形態による2次元ブルームフィルタデータ構造におけるワイルドカードクエリを例示する模式図である。
図1は、M×Nビット行列に基づく2次元ブルームフィルタ(以下2dBFと略記する)データ構造の構成を例示している。MおよびNは、xおよびxの可能な値の濃度(これらはもちろん、それぞれのアプリケーション状況に依存し、通常は既知であるか、または少なくとも事前に推定可能である)に従って選択された整数値である。ビット行列のサイズを、処理対象の可能な値の濃度に適応させることにより、ブルームフィルタに固有の偽陽性確率を調整することができる。
図1に例示した実施形態は、K=2の単純化した例である。Kは、行列内でビットを指定するために使用される独立なハッシュ関数の個数である。この単純化は、本発明による方法の基本的な作用原理を説明するために行われたものである。しかし、当業者には明らかなように、現実のアプリケーションでは、行列内でビットを指定する独立なハッシュ関数の個数ははるかに大きい。
新規タプル(x,x)の挿入後、K個の独立なハッシュ関数が、ペアの両方のフィールドにわたって計算され、M×N行列内のビットの関連する集合がセットされる。タプルルックアップを実行する際に、同じハッシュ値が計算され、同じ位置のビットがチェックされる。それらがすべてセットされている場合、クエリは陽性の値を返す。
詳細には、図1において、新規タプル(x,x)の挿入の手続きは次のように動作する。まず、各ハッシュ関数H(ここではHおよびHのみ)について、xおよびxの両者に対するハッシュ値H(x)を計算する。その結果に基づいて、位置
[H(x),H(x)] ∀k∈1...K
のビットがセットされる。
タプル(x,x)のメンバーシップルックアップの手続きは次のように動作する。まず、各ハッシュ関数H(ここでは再びHおよびHのみ)について、xおよびxの両者に対するハッシュ値H(x)を計算する。位置
[H(x),H(x)] ∀k∈1...K
のすべてのビットがセットされている場合、「真」を返す。これは、タプル(x,x)が、(偽陽性確率を考慮に入れると)少なくとも高い確率でデータ構造に含まれていることを意味する。そうでない場合、すなわち、関連するビットのうちのただ1つでもセットされていない場合、「偽」を返す。これは、タプル(x,x)がデータ構造に決して含まれていないことを意味する。
図2に関連して説明するように、2dBFは、(x,*)にマッチするタプルの集合に関する情報を返すワイルドカードクエリもサポートする。その場合、xにわたって計算されたハッシュ値を用いて、行列のK行の集合を選択する。このような行のビットごとのORを実行することにより、ワイルドカードクエリを満たすすべてのタプルの統計的サマリを提供するビットマップが得られる。このようなビットマップに基づいて、このようなタプルの個数を推定することができ、他の部分集合との積集合または和集合をとることができる。推定は、BFにおいてセットされていないビット数と、対応する集合の濃度との間の周知の関係を利用することにより行われる。このメカニズムは、個別カウンティングを暗黙的に実現している。というのは、同一タプルの多重挿入は全体的結果に影響を及ぼさないからである。
さらに、ある行においてセットされているビット数と、最終的な集約ビットマップにおいてセットされているビット数との間の関係を利用することにより、単に行列内の各行を調べることによって、対応するワイルドカード集合の濃度が所与のしきい値を超えるような項目/キーxが存在するかどうかを判定することができる。
詳細には、図2は、図1と同じM×Nビット行列に関するものであり、再び簡単のため、2つだけの独立なハッシュ関数が使用される実施形態を選んでいる。図2の実施形態は単純ワイルドカードクエリ(x,*)を例示しており、これは以下のように実行される。まず、各ハッシュ関数H(ここではHおよびHのみ)についてハッシュ値H(x)を計算する。次のステップで、その結果に基づいて、第1ステップで求められたK(ここではK=2)個のビットマップ
[H(x),m] ∀k∈1...K,m∈1...M
の論理的ORとしてビットマップBx1を計算する。こうして計算されたBx1において少なくともKビット(すなわち、図2の実施形態では2ビット)がセットされている場合、「真」を返す。例示した状況では、全部で7ビットがセットされているので、これは((x,*)の形のタプルの形式で)値xが、(偽陽性確率を考慮に入れると)少なくとも高い確率でデータ構造に含まれていることを意味する。そうでない場合、「偽」を返すことになる。これは、(x,*)の形のタプルがデータ構造には決して含まれていないことを意味する。
上記の説明および添付図面の記載に基づいて、当業者は本発明の多くの変形例および他の実施形態に想到し得るであろう。したがって、本発明は、開示した具体的実施形態に限定されるものではなく、変形例および他の実施形態も、添付の特許請求の範囲内に含まれるものと解すべきである。本明細書では特定の用語を用いているが、それらは総称的・説明的意味でのみ用いられており、限定を目的としたものではない。

Claims (16)

  1. データの確率的処理方法において、前記データは、(x,...,x)の形の多次元n−タプルからなるデータ集合Sの形式で提供され、
    ビット行列を用意し、
    前記行列内のビットを指定するために使用されるK個の独立なハッシュ関数Hを用意し、
    前記K個の独立なハッシュ関数Hのそれぞれについて前記n−タプルのすべての値xに対するハッシュ値H(x)を計算して結果を前記行列のビット[H(x),...,H(x)]にセットすることにより前記ビット行列に前記n−タプル(x,...,x)を挿入する、
    ことによってn次元データ構造が生成されることを特徴とする、データの確率的処理方法。
  2. 前記ビット行列がM行およびN列を有し、数MおよびNが、前記データ集合Sの前記n−タプルの可能な値xの濃度に適応されることを特徴とする請求項1に記載の方法。
  3. n−タプル(x,...,x)の単純メンバーシップクエリが、
    前記K個の独立なハッシュ関数Hのそれぞれについて前記n−タプルのすべての値xに対するハッシュ値H(x)を計算し、
    前記K個の独立なハッシュ関数Hのそれぞれについて位置[H(x),...,H(x)]における前記行列のすべてのビットがセットされているかどうかを分析する、
    ことによって実行されることを特徴とする請求項1または2に記載の方法。
  4. 前記K個の独立なハッシュ関数Hのそれぞれについて位置[H(x),...,H(x)]における前記行列のすべてのビットがセットされている場合、出力「真」が返されることを特徴とする請求項3に記載の方法。
  5. 1次元だけで確定した値xを含むn−タプルのワイルドカードクエリ、すなわち単純ワイルドカードクエリが、
    前記K個の独立なハッシュ関数Hのそれぞれについて前記n−タプルの確定値xに対するハッシュ値H(x)を計算し、
    K個のビットマップ[H(x),m](∀k∈1...K,m∈1...M)の論理的ORとしてビットマップBxiを計算する、
    ことによって実行されることを特徴とする請求項1ないし4のいずれか1項に記載の方法。
  6. 前記ビットマップBxiにおいて少なくともKビットがセットされている場合、出力「真」が返されることを特徴とする請求項5に記載の方法。
  7. 複合ワイルドカードクエリが、
    前記複合ワイルドカードクエリを構成するすべての単純ワイルドカードクエリの前記ビットマップBxiを計算し、
    前記ビットマップBxiの間のビットごとの演算により集約ビットマップを計算する、
    ことによって実行されることを特徴とする請求項5または6に記載の方法。
  8. 積集合演算子が論理的AND演算にマップされることを特徴とする請求項7に記載の方法。
  9. 和集合演算子が論理的OR演算にマップされることを特徴とする請求項7または8に記載の方法。
  10. 前記集約ビットマップにおいて少なくともKビットがセットされている場合、出力「真」が返されることを特徴とする請求項7ないし9のいずれか1項に記載の方法。
  11. 前記ビットマップBxiに基づいて、単純および複合両方のワイルドカード条件を満たすn−タプルの集合にわたる濃度クエリに対して回答されることを特徴とする請求項5ないし10のいずれか1項に記載の方法。
  12. しきい値超過イベントが、
    しきい値を設定し、
    1次元ブルームフィルタによる前記設定しきい値に対応するセットビットの個数Nthreshを計算し、
    前記ビット行列の各行について、Nthresh/Kより多くのビットがセットされているかどうかチェックする、
    ことにより検出されることを特徴とする請求項1ないし11のいずれか1項に記載の方法。
  13. 前記ビット行列の少なくともK行がNthresh/Kより多くのセットビットを含む場合、出力「真」が返されることを特徴とする請求項12に記載の方法。
  14. データの確率的処理システム、特に請求項1ないし13のいずれか1項に記載の方法を実行するシステムにおいて、前記データは、(x,...,x)の形の多次元n−タプルからなるデータ集合Sの形式で提供され、該システムは、
    前記n−タプルを受容する入出力要素と、
    ビット行列を用意し、前記行列内のビットを指定するために使用されるK個の独立なハッシュ関数Hを用意し、前記K個の独立なハッシュ関数Hのそれぞれについて前記n−タプルのすべての値xに対するハッシュ値H(x)を計算して結果を前記行列のビット[H(x),...,H(x)]にセットすることにより前記ビット行列に前記n−タプル(x,...,x)を挿入する、ことによってn次元データ構造を生成する処理要素と、
    前記ビット行列を保存する保存要素と
    を備えたことを特徴とする、データの確率的処理システム。
  15. 前記入出力要素が、単純メンバーシップクエリ、単純および/または複合ワイルドカードクエリ、および/またはしきい値超過クエリを受容するように構成されることを特徴とする請求項14に記載のシステム。
  16. ネットワークであって、
    該ネットワークにわたって配備され、パケットの送信元アドレスおよび宛先アドレスを観測することによりネットワークパケットモニタリングを実行する複数のネットワークプローブと、
    前記ネットワークプローブから、それぞれのネットワークプローブによって観測された送信元アドレスおよび宛先アドレスのペアのサマリを含むモニタリングレポートを受容するように構成されたモニタリングアプリケーションと
    を備え、
    前記ネットワークプローブおよび前記モニタリングアプリケーションが、前記サマリの生成および/またはクエリを実行するために請求項1ないし13のいずれか1項に記載の方法を使用するように構成される
    ことを特徴とするネットワーク。
JP2012531281A 2009-09-29 2010-09-29 データの確率的処理方法およびシステム Expired - Fee Related JP5490905B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP09012319 2009-09-29
EP09012319.1 2009-09-29
PCT/EP2010/005942 WO2011038899A1 (en) 2009-09-29 2010-09-29 Method and system for probabilistic processing of data

Publications (2)

Publication Number Publication Date
JP2013506215A true JP2013506215A (ja) 2013-02-21
JP5490905B2 JP5490905B2 (ja) 2014-05-14

Family

ID=43500486

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012531281A Expired - Fee Related JP5490905B2 (ja) 2009-09-29 2010-09-29 データの確率的処理方法およびシステム

Country Status (4)

Country Link
US (1) US9305265B2 (ja)
EP (1) EP2483851A1 (ja)
JP (1) JP5490905B2 (ja)
WO (1) WO2011038899A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101476039B1 (ko) * 2013-06-19 2014-12-23 세명대학교 산학협력단 데이터베이스 암호화 방법 및 이의 실시간 검색 방법
JP2017526081A (ja) * 2014-08-28 2017-09-07 華為技術有限公司Huawei Technologies Co.,Ltd. 2次元フィルタの生成方法、クエリ方法、及び装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5745464B2 (ja) * 2012-06-15 2015-07-08 日本電信電話株式会社 アクセス履歴記憶及び検索装置及び方法
AU2013317706B2 (en) * 2012-09-21 2017-05-11 Myriota Pty Ltd Multi-access communication system
US9465826B2 (en) * 2012-11-27 2016-10-11 Hewlett Packard Enterprise Development Lp Estimating unique entry counts using a counting bloom filter
US20140172927A1 (en) * 2012-12-19 2014-06-19 Htc Corporation File information processing method and portable device
CN103678550B (zh) * 2013-09-09 2017-02-08 南京邮电大学 一种基于动态索引结构的海量数据实时查询方法
US9886513B2 (en) 2015-05-25 2018-02-06 International Business Machines Corporation Publish-subscribe system with reduced data storage and transmission requirements
US10320749B2 (en) * 2016-11-07 2019-06-11 Nicira, Inc. Firewall rule creation in a virtualized computing environment
CN111881312B (zh) * 2020-07-24 2022-07-05 成都成信高科信息技术有限公司 一种图像数据集分类划分方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009065413A (ja) * 2007-09-06 2009-03-26 Oki Electric Ind Co Ltd 記憶制御装置、方法及びプログラム、並びに、情報監視装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6212184B1 (en) * 1998-07-15 2001-04-03 Washington University Fast scaleable methods and devices for layer four switching
US7865608B1 (en) * 2005-01-21 2011-01-04 Oracle America, Inc. Method and apparatus for fast and scalable matching of structured data streams
ATE520270T1 (de) * 2007-06-15 2011-08-15 Ericsson Telefon Ab L M Verfahren zum entdecken von sich überlappenden zellen
US8005868B2 (en) * 2008-03-07 2011-08-23 International Business Machines Corporation System and method for multiple distinct aggregate queries

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009065413A (ja) * 2007-09-06 2009-03-26 Oki Electric Ind Co Ltd 記憶制御装置、方法及びプログラム、並びに、情報監視装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200700890010; 清雄一、外2名: 'variable-size DBFによる分散ハッシュテーブルのトラヒック量削減' 電子情報通信学会論文誌 第J90-D巻,第9号, 20070901, p.2378-2387, 社団法人電子情報通信学会 *
CSNG200900206004; 的野晃整、外1名: '分散RDF問合せ処理時の転送量減少のためのブルームフィルタの拡張' 情報処理学会論文誌 論文誌トランザクション 平成20年度(2)[CD-ROM] 第2巻,第1号, 20090415, p.33-45, 社団法人情報処理学会 *
JPN6013032093; 的野晃整、外1名: '分散RDF問合せ処理時の転送量減少のためのブルームフィルタの拡張' 情報処理学会論文誌 論文誌トランザクション 平成20年度(2)[CD-ROM] 第2巻,第1号, 20090415, p.33-45, 社団法人情報処理学会 *
JPN6013032095; 清雄一、外2名: 'variable-size DBFによる分散ハッシュテーブルのトラヒック量削減' 電子情報通信学会論文誌 第J90-D巻,第9号, 20070901, p.2378-2387, 社団法人電子情報通信学会 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101476039B1 (ko) * 2013-06-19 2014-12-23 세명대학교 산학협력단 데이터베이스 암호화 방법 및 이의 실시간 검색 방법
JP2017526081A (ja) * 2014-08-28 2017-09-07 華為技術有限公司Huawei Technologies Co.,Ltd. 2次元フィルタの生成方法、クエリ方法、及び装置

Also Published As

Publication number Publication date
WO2011038899A1 (en) 2011-04-07
US9305265B2 (en) 2016-04-05
US20120271940A1 (en) 2012-10-25
JP5490905B2 (ja) 2014-05-14
EP2483851A1 (en) 2012-08-08

Similar Documents

Publication Publication Date Title
JP5490905B2 (ja) データの確率的処理方法およびシステム
US9848004B2 (en) Methods and systems for internet protocol (IP) packet header collection and storage
Yuan et al. ProgME: towards programmable network measurement
US7903566B2 (en) Methods and systems for anomaly detection using internet protocol (IP) traffic conversation data
CN111371735B (zh) 僵尸网络检测方法、系统及存储介质
US8762515B2 (en) Methods and systems for collection, tracking, and display of near real time multicast data
Mahmood et al. Critical infrastructure protection: Resource efficient sampling to improve detection of less frequent patterns in network traffic
US20100046393A1 (en) Methods and systems for internet protocol (ip) traffic conversation detection and storage
US11706114B2 (en) Network flow measurement method, network measurement device, and control plane device
Callegari et al. When randomness improves the anomaly detection performance
Liu et al. Near-optimal approximate membership query over time-decaying windows
Wang et al. Utilizing dynamic properties of sharing bits and registers to estimate user cardinalities over time
Alsuhibany A space-and-time efficient technique for big data security analytics
Wang et al. Virtual indexing based methods for estimating node connection degrees
Yao et al. Identifying frequent flows in large datasets through probabilistic bloom filters
Guan et al. A new data streaming method for locating hosts with large connection degree
US8842690B2 (en) System, method, and media for network traffic measurement on high-speed routers
Cao et al. Finding persistent elements of anomalous flows in distributed monitoring systems
Patcha et al. Detecting denial-of-service attacks with incomplete audit data
Wang et al. Continuously distinct sampling over centralized and distributed high speed data streams
Lahiri Detecting exploit patterns from network packet streams
Soleimani et al. Critical episode mining in intrusion detection alerts
Callegari et al. Detecting heavy change in the heavy hitter distribution of network traffic
Mahmood et al. Hierarchical summarization techniques for network traffic
Callegari et al. Forecasting the distribution of network traffic for anomaly detection

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130703

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131002

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131009

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131031

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131108

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131202

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140226

R150 Certificate of patent or registration of utility model

Ref document number: 5490905

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees