JP2009523270A - データ列の自動比較に用いられる方法およびその装置 - Google Patents
データ列の自動比較に用いられる方法およびその装置 Download PDFInfo
- Publication number
- JP2009523270A JP2009523270A JP2008543751A JP2008543751A JP2009523270A JP 2009523270 A JP2009523270 A JP 2009523270A JP 2008543751 A JP2008543751 A JP 2008543751A JP 2008543751 A JP2008543751 A JP 2008543751A JP 2009523270 A JP2009523270 A JP 2009523270A
- Authority
- JP
- Japan
- Prior art keywords
- data
- similarity
- distance
- relationship
- column
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/02—Comparing digital values
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/32—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
- H04L9/3226—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
- H04L9/3231—Biological data, e.g. fingerprint, voice or retina
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/32—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
- H04L9/3236—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using cryptographic hash functions
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Signal Processing (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Mathematical Analysis (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Computational Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
【解決手段】少なくとも2つのデータ列の自動比較に用いられる方法およびその装置に関するものであり、2つ以上の列における部分列の任意の一対の間の局所関係の評価と、前記部分的な関係の評価の集約による大域関係の評価とを実行する。一方のデータ列の少なくとも1つの部分列が他方のデータ列に存在しないことを検知して、第1のデータ列における第1の部分列と第2のデータ列における第2の部分列との間の局所関係を評価してもよい。また、局所関係の評価の集約によって大域関係を評価してもよい。
【選択図】図1
Description
a)データ列を、そのデータ列に含まれる部分列の集まりとして表現し、
b)類似性尺度を、2つのデータ列のうち両方または1つのみにおける、部分列の出現の回数について計算することによって進行する。この方法および装置の実施形態は、類似性のさまざまな尺度と、考慮すべき部分列を選択する種々の仕組みとをサポートしている。
a)単語。列は、一連の区切り記号によって区切られる、重複しない部分列に分割される。自然言語テキストでは、これらの記号は空白および句読記号に相当する。他の用途に関しては、これらのような記号の異なる定義が可能である。
b)Nグラム。列は、最大で(n−1)個の記号で重複する、長さnの部分列によって表現される。Nグラムは、デリミタなどの構造的情報が未知であるか、またはこれをモデル化することが困難である場合、例えばDNA配列の解析において、一般的に使用されている。
c)全ての部分列。この最も一般的な場合では、列は、その列に含まれる全ての部分列によって表現される。このようにして、m個の記号の列が、m(m−1)/2個の部分列の集まりにマッピングされ、この部分列は全ての起こり得るNグラムおよび単語も包含する。
(a)一致関数mは、局所関係の尺度、すなわち、φW(x)およびφW(y)において部分列間の類似性または非類似性の尺度である。この関数は、例えば、データ列における部分列の出現の差の絶対値または差の二乗でもよい。しかしながら、章Dでの線形カーネルの場合の公式化のように、類似性を表す他の公式化も可能である。さらなる例は、章Cの表8および表9ならびに章Dの表14に示されている。
(b)大域集約演算子*は、大域関係の評価のための複数の起こり得る演算、すなわち、一致関数mによって表現される局所関係の集合を示している。この演算子は、選ばれた部分列の選択モードに対応する部分列の集合Lに適用される。これらのような演算子についての例は、章Cの表8および表9ならびに章Dの表14に示されている。
(a)ハッシュテーブル。各データ列xはハッシュテーブルに変換される。このハッシュテーブルは、選ばれた選択モードに応じて、xの部分列wに対応した数値φw(x)を含む。類似性尺度の計算は、2つの列xおよびyに対応する2つのハッシュテーブルのビン(bin)をループし、φw(x)およびφw(y)について一致関数と集約演算子を計算することによって実行される。対応する手順は、章Cのセクション3.1に示されている。
我々は、トライのデータ構造を使用して、TCP接続から抽出されたNグラムおよび単語を効率良く記憶する、ネットワーク侵入検知に用いられる言語モデルの新規な表現を提案する。この表現によって、TCP接続について、さまざまな類似性尺度を計算したり、未知の攻撃の検知に適した、教師なし異常検知(unsupervised anomaly detection)アルゴリズムを適用したりすることができる。
未知の攻撃の検知は、セキュリティ業者が強く解決を望む長年にわたる課題である。脆弱性およびこれらの攻略を追跡するための現在のアプリケーションならびにインフラストラクチャが、攻撃シグニチャによって十分な保護を提供しているとしばしば主張される一方で、シグニチャに基づく防御を打破した未知の攻撃、特に、ワーム[例えば、38]およびゼロデイ攻略(zero-day exploits)[例えば、1]の数々の例が存在する。さらに、シグニチャが利用可能であるのみでは、しばしば十分でなく、導入されたシグニチャは、システムを安全にするために、セキュリティアドミニストレータによって最新に維持されなければならない。
極めて自然なことに、言語モデルは、侵入検知に対する関連性が発見される数十年も前に、情報検索および自然言語処理の分野における研究者によって最初に開発された。早くて60年代半ばには、文字Nグラムが光学式文字認識におけるエラー訂正のために使用されていた[32]。テキスト分類へのNグラムの利用は、Suenによって開拓され[40]、その後の多くの研究によって追随された[例えば、4,3,35]。Nグラムベースの方法の主な考え方は、N個の連続する文字(Nグラム)を含む全ての部分列の頻度を計算し、これらの頻度に基づいて類似性尺度を設定することである。アルファベットにおけるNグラムの幾何学級数的な数にもかかわらず、線形数のNグラムのみが、所与の文字列に存在している。Nグラムの効率的な比較は、ハッシュ法を用いてなされることができる。さまざまな類似性尺度、例えば、頻度ベクトル間の内積[4]またはマンハッタン距離およびキャンベラ距離[3]が、Nグラムの頻度を比較するために用いられた。テキスト分類についての最新の方法は、コンテキストの情報を組み入れることを可能にする、類似性尺度としてのカーネル関数の使用を推奨している[44,21,24]。
関連の研究の簡潔な説明から容易に理解できるように、さまざまな洞察が、単純な言語モデルに導く。単純な言語モデルとは、通常のイベントと異常なイベントとを識別するのに十分な方法で、基礎をなす言語の雑然とした(coarse)構文をとらえるNグラムである。これらのようなモデルを異常検知のアルゴリズムにおいて利用する秘訣は、所望の区別的特性を有する一連の類似性尺度を提供することである。多種多様な類似性(および非類似性)の尺度を文献から得ることができ、これらのうちいくつかは、後述するA.2において概要されている。したがって、データ構造とNグラムのヒストグラムの計算に用いられるアルゴリズムとを変更することなく、これらの尺度を利用することが極めて望ましい。
アドミニストレータを、通常動作活動を代表するデータ収集から免れさせるので、教師なし異常検知は異常検知の実際の需要に特に適している。教師なし異常検知のアルゴリズムは、データのストリームに直接適用されることができ、通常のパターンと異常なパターンとを「素早く」効果的に区別すると考えられる。さらに、人手によってラベル付けされたデータを用いたアルゴリズム、または訓練の広範囲にわたる設定が必要でない。
ネットワーク接続の提案されたNグラムのトライ表現を、検知性能について評価し、再現された構文情報の性質についての洞察を得るために、我々は、2つのネットワークトラフィックのデータセットについて実験を実施した。詳細には、我々は、以下の未解決の疑問を解明することに関心がある。
1.Nグラム(N>1)の増加された長さは、検知性能を向上させるか?
2.いかなる誤検知率で、我々のデータに存在する攻撃の全ての事例を検知するのか?
DARPA1999のデータセット
1999年にDARPAによって実施されたIDSの評価からのこの周知のデータセット[23]は、多数の文献において使用されており、IDSの評価に用いられる標準のベンチマークであると考えられることができる。
DARPA1999のデータセットの問題を克服するために、我々は、PESIM2005と名付けられた第2の評価データセットを生成した。我々は、仮想マシン環境を用いる5つのサーバの組み合わせを配備した。これらのシステムは、2つのウィンドウズ(登録商標)、2つのリナックスおよび1つのソラリスを実行させ、HTTP、FTPおよびSMTPのサービスを提供した。
最良の尺度/ディテクタの設定
これまでに述べたように、類似性尺度はさまざまな幾何学的性質を生じさせ、次にこれら幾何学的性質が、異常検知方法によってさまざまな方法で探索される。したがって、最初の工程として、我々は、類似性尺度と異常ディテクタ(anomaly detector)とのいずれの組み合わせが、問題の各プロトコルについてのNグラムにおいて最も良好に機能するかを、おおよそはっきりさせる必要がある。この実験に用いられる候補の類似性尺度は、キャンベラ距離、「2進数化された」マンハッタン距離、ムカジョフスキー類似性係数およびカルチスキー類似性係数である。想定される異常ディテクタは、簡素化マハラノビス距離、1/4球状SVM、最短距離法およびZeta異常ディテクタである。
自然言語処理およびホストベースのIDSにおける以前の結果は、最適のNグラムの長さが、用途に応じて変化するかもしれないことを示している[24,10]。我々は、これから、同一観測結果がTCP接続のNグラムモデルについても適用するか否かを調査する。
IDSがデータセットにおける特定の攻撃をいかに良好に検知するかについて知ることに常に関心がある。前実験の結果は、さらに、各攻撃についての最適のNグラムの長さは洞察力のあるものであることを示唆している。この実験に用いられる基準として、我々は最小の誤検知率を考慮した。この最小の誤検知率においては、攻撃の全ての事例が検知される。これらの結果は表4に示されている。
前のセクションにおける実験からのメッセージは、業者にとって少し分かりづらいかもしれない。いくつかの場合では、長いNグラムが検知性能に向上をもたらすが、さまざまな攻撃およびプロトコルにおいて一貫性は発見されることができない。もし攻撃が未知であれば、いかにして正しいnを事前に選択すべきか?
我々は、TCP接続から取り出されたNグラムおよび単語の効率的な記憶のためにトライを用いた、ネットワーク侵入検知のための言語モデルの新規な表現を提案した。我々の表現によって、これらのモデルについて、さまざまな類似性尺度および非類似性尺度を線形時間で計算することができる。TCP接続間の類似性が計算できるので、我々は、これまで未知であった攻撃の検知に適した、教師なし異常検知アルゴリズムを適用することができる。
A.1.異常ディテクタ
A.1.1.大域異常ディテクタ
簡素化マハラノビス距離[42]は、データμの重心、および入力空間における各次元σiの分散を決定する。異常スコアは、xからμまでの分散スケール化された距離として定義される。
簡素化された最短距離法[34]は、一般的なクラスタ化アルゴリズムである。クラスタ割り当てが与えられると、異常スコアは以下で指定されるクラスタxの大きさとして定義される。
(非)類似性尺度は、xおよびyをそれぞれ成分値xiおよびyiとともに、単数の(非)類似性スコアにマッピングするバイナリ関数(2進数を扱うことができる関数)である。
キャンベラ距離dcはマンハッタン距離の正規化された型である。これは計量的な特性を示し、距離スコアは、0〜1の範囲にある。キャンベラ距離は、量および頻度を含むヒストグラムに適している。
類似性係数は、しばしば、バイナリデータに適用され、非計量的な特性を示す[2]。これらの係数は、4つの総和変数(summation variable)a,b,cおよびdで構成されている。変数aは、正の一致の成分の数を定義し(1−1)、bは左側の不一致の数を定義し(0−1)、cは右側の不一致の数を示し(1−0)、dは負の一致の数を示している(0−0)。
列データについての類似性尺度としてのカーネル関数は、これまでの研究で広範囲にわたって調査されてきた。この論文は、列データについての距離関数および類似性係数の効率的な計算を扱う。2つの提案されるアルゴリズムは、効率的な計算のために異なるデータ構造を利用しており、列の長さにおいて線形的な実行時間をもたらす。侵入検知のためのネットワークデータにおける実験は、列データについての距離の重要性を示唆しており、さらには、列データについての非計量的な類似性尺度の重要性も示唆している。
列は、さまざまな機械学習およびパターン認識の用途、例えば、情報検索におけるテキスト文書、バイオインフォマティクスにおけるDNA配列、または侵入検知におけるパケットペイロード、に用いられる一般的な、ベクトルでないデータ表現である。これらのようなデータの解析に用いられる最も重要な手順は、列間の一対ごとの類似性の効率的な計算である。
大きさNのアルファベットΣがあるとすると、列xは、Σからの記号の連なりとして定義される。列の内容は、有限な言語L⊂Σφから抽出された、一連の重複し得る部分列wとしてモデル化されることができる。我々は、これらの取り出された部分列を単語と称する。言語Lは、列の類似性を計算するための基礎を成しており、典型的にひとまとまりの文字、単語またはNグラムに相当する。列xおよび言語Lがあるとして、特徴空間への埋め込みは、xに現れる全てのw∈Lについてφw(x)を計算することによって実行される。通常、関数φw(x)は、xにおけるwの頻度を返すが、wについてのカウントまたはバイナリフラグを返す他の定義も可能である。さらに、我々は、lをxの長さとして定義する。
提示されたカーネル、距離および類似性係数を計算するためには、列データについての類似性尺度の一般的なモデルを確立しなければならない。カーネル関数の計算のための重要な手段は、2つの列xとyとに存在する単語w∈Lを見つけることであり、我々は、これらの単語を一致と称する。さらに、距離および類似性係数について、我々は、xには存在するがyには存在しない(この逆もしかり)単語w∈Lを考慮する必要があり、これらの単語を不一致と称する(用語「不一致」は、2つの列が等しくないことに相当し、バイオインフォマティクスにおいて頻繁に用いられているように、列の不正確な一致に相当しない)。
列についての類似性尺度の計算に用いられる古典的な仕組みは、索引付きのテーブル、または、より一般的な場合では、ハッシュテーブルを利用する[例えば、4]。列から取り出された単語と、対応する頻度またはカウントとが、ハッシュテーブルのビンに記憶される。図8(a)は、単語{“bar”、“barn”、“card”}および{“car”、“bank”、“band”、“card”}を、対応するカウントと共に保持する2つのハッシュテーブルを示している。
トライは、Nアレイのツリーであり、そのノードは、Σの要素に対応する成分を有するN次元のベクトルである[17]。図9(a)は、図8(a)におけるハッシュテーブルと同一の単語を含む2つのトライXおよびYを示している。これらトライのノードは、経過中の列のカウントを示す変数を保持するように強化されている。それぞれの取り出された単語の最後は、印の付いた円(二重円)で示されている。カーネル関数の計算へのトライの利用は、[18]で検討された。
4.1 データ構造の効率性
2つの提案されたアルゴリズムの効率性は、ヒト遺伝子のDNA配列[19]、DARPA1999のデータセットからのシステムコールのトレースおよび接続のペイロード[20]、ならびにReuters−21578(英文電子ロイターニュース)のデータセットからの新しい記事[21]などの列データについての4つのベンチマークのデータセット、において評価された。表10が、これらのデータセットおよびこれらの特定の性質の概要を示している。
提案されたアルゴリズムを現実的なデータにおいて実証するために、我々は、ネットワーク侵入検知における教師なし学習についての実験を実施した。基礎をなすネットワークデータは、我々の研究室のメンバーによって、仮想ネットワークのサーバを用いて生成された。最新のネットワーク攻撃が、侵入テストの専門家によって投入された。
我々は、カーネルと同様に、多数の距離および類似性係数が、列データについて効率的に計算されることができることを示した。これらのような類似性尺度の使用によって、専門的な問題の領域における機械学習の利用についての独特な数的指標を調査することができる。一例として、ネットワーク侵入検知に用いられる教師なし学習についての我々の実験における最良の結果は、接続ペイロードのNグラムについてのカルチスキー係数を用いて得られた。したがって、列データにおける距離の直接的な利用は、カーネルによって生じさせられるユークリッド距離の暗黙的な使用よりも好ましいかもしれない。特に有望なのは、コンピュータセキュリティおよびバイオインフォマティクスにおける提案されたアルゴリズムのさらなる利用である。
我々は、列データについての類似性尺度の計算に用いられる一般的なアルゴリズムを提案する。このアルゴリズムは、さまざまなカーネル、距離および非計量的な類似性関数の効率的な計算のために一般化接尾辞木を使用する。最悪の場合の実行時間は、列の長さににおいて線形であり、基礎をなす埋め込み言語に無関係である。この埋め込み言語は、単語、kグラムまたは列に含まれる全ての部分列を対象とする。ネットワーク侵入検知、DNA解析およびテキスト処理の用途についての実験は、古典的なカーネル関数の代わりとして、列についての距離および類似性係数の有用性を証明している。
列データを処理する能力は、多くの困難な分野における機械学習技術の利用にとって重要な必須条件である。これらのような利用の例は、自然言語処理(テキスト文書)、バイオインフォマティクス(DNA配列およびタンパク質配列)ならびにコンピュータセキュリティ(バイトストリームまたはシステムコールのトレース)である。これらのようなデータを取り扱うための重要な手段は、列間の一対ごとの類似性の効率的な計算である。類似性尺度は、データの特定の構造と学習理論との間の抽象化として理解されることができる。
2.1 列の埋め込み
列データについての類似性尺度を定義する一般的な方法は、高次元の特徴空間への明示的な埋め込みを行う。列xは、有限のアルファベットΣからの記号の連なりとして定義される。列の内容をモデル化するために、部分列w∈Lを備える言語L⊆Σφを考える。自然言語に相当しないかもしれないが、我々は、これらの部分列を単語と称する。Lについての典型的な例は、「ひとまとまりの単語(a bag of words)」[例えば、22]、固定された長さの全ての部分列の集合(kグラムまたはk量体)[例えば、10,23]、または含まれる全ての部分列の集合[例えば、8,24]である。
いくつかのベクトル型のカーネル関数および距離関数が、列データの提案される埋め込みに適用されることができる。Lおよびφによる一般的な関数のリストは、表12に示されている。
提示された類似性尺度は、外関数*および内関数mで構成される一般的な形式に当てはめられることができることは容易に理解できる。
2つの列の効率的な比較の鍵は、類似性尺度の上記の一般的な形式(2)の計算に必要な最小限の単語のみを考えることにある。カーネルの場合には、両方の列における単語の共通部分(intersection)のみが考慮される必要がある。一方で、距離および非計量的な類似性係数を計算するためには、単語の合併集合(union)が必要である。このような比較の簡単かつ周知である方法は、各列の単語を整列されたリストで示すことである。最大の長さkの単語については、このようなリストは、一般的なソーティング(並べ替え)を用いてO(knlogn)時間で、または基数整列を用いてO(kn)時間で構築されることができる。単語kの長さが無限である場合、ソーティング時間が二乗になるので、並べ替えられたリストはもはや選択してもしなくてもよいものではない。
4.1 実行時間の実験
提案されたアルゴリズムの効率性を示すために、我々は、実行時間の実験を、DARPA1999のIDS評価からのネットワーク接続ペイロード[35]、Reuters−21578のデータセットからの新しい記事[36]およびヒト遺伝子からのDNA配列[14]など、列データについての3つのベンチマークのデータセットについて実行した。表15は、これらのデータセットおよびこれらの特定の性質の概要を示している。我々は、一般化接尾辞木のアルゴリズムの実行時間を、距離の演算をサポートする最新のトライベースの方法と比較した。トライは、kグラムについての類似性尺度の計算に関して、添字配列およびハッシュテーブルを用いたアルゴリズムよりも優れた実行時間の複雑性、またはそれと同等の実行時間の複雑性をもたらす。トライベースの方法の詳細な説明は、[25]に示されている。以下の実験の全てにおいて、トライは前処理工程において作り出されており、記録される実行時間は、比較手順のみに相当することに留意されたい。
我々の評価の第2の部分として、我々は、さまざまな類似性尺度を計算することを可能にする我々の方法の一般性が、実際の利用において、特に、教師なし学習シナリオにおいて功を奏することを示す。実験が、(a)実際のネットワークトラフィックにおける侵入検知および(b)DNA配列における転写開始位置(TSS)の識別について実行された。
列に用いられるカーネル関数は、最近、機械学習の多くの用途、特にバイオインフォマティクスおよび自然言語処理において強い注目を得ている。我々は、この論文において、計量的な距離または非計量的な類似性係数などの他の類似性尺度が、カーネル関数と同一の実行時間の複雑性で計算されることができることを示した。提案されたアルゴリズムは、2つ以上の列の一般化接尾辞木の帰りがけ順のトラバースに基づいている。このトラバースの間、埋め込み言語からの一致の単語および不一致の単語のカウントが、単語、kグラム、またはさらには全ての連続した部分列などの特定の選ばれる言語に関係なく、列の長さに線形的な時間で計算される。外関数および内関数に基づいた、検討される類似性尺度の一般的な表現を用いることによって、同一のアルゴリズムが、列データのさまざまなカーネル、距離および類似性関数について適用されることができる。
著者達は、プロジェクトMIND(FKZ01−SC40A)の下における連邦教育省からの資金について感謝の意を表し、また、KlおよびMikio Braunに対し、有益な議論および支援について感謝する。
Claims (13)
- 少なくとも2つのデータ列を自動比較する方法であって、
2つ以上の列における部分列の任意の一対の間の局所関係を評価する工程と、
前記局所関係の評価の集約によって大域関係を評価する工程とを備えた、データ列の自動比較方法。 - 請求項1において、
一方のデータ列の少なくとも1つの部分列が他方のデータ列に存在しないことを検知して、第1のデータ列における第1の部分列と第2のデータ列における第2の部分列との間の局所関係を評価する工程と、
前記局所関係の評価の集約によって大域関係を評価する工程とを備えた、データ列の自動比較方法。 - 請求項1または2において、局所関係の評価の対象の部分列が、
所定の一連のデリミタによって分割された部分列からなる単語、
所定の長さnの重複する部分列からなるNグラム、および、
2つ以上の列の全ての起こり得る部分列、の3つのうちの任意の1つの選択モードによって指定される、データ列の自動比較方法。 - 請求項1から3のいずれか一項において、局所関係および大域関係の全体が、2つ以上の列の類似性または非類似性についての尺度sを構成している、データ列の自動比較方法。
- 請求項1から4のいずれか一項において、局所関係および大域関係の評価が、
ハッシュテーブルもしくは索引付きのテーブル、
トライもしくは圧縮トライ、
接尾辞木もしくは接尾辞配列、および
一般化接尾辞木もしくは一般化接尾辞配列のデータ構造またはこれらの表現のいずれかを用いて実行される、データ列の自動比較方法。 - 請求項1から5のいずれか一項において、少なくとも1つのデータ列が、前記局所関係が評価されるオブジェクトとして、記号、画像、テキスト、アスキー文字、遺伝子データ、タンパク質データ、バイト、バイナリデータ、トークンのうちの少なくとも1つを含む、データ列の自動比較方法。
- 請求項1から6のいずれか一項において、局所関係および大域関係の全体が、
マンハッタン距離もしくはタクシー距離、
ユークリッド距離、
ミンコフスキー距離、
キャンベラ距離、
χ二乗距離、
チェビシェフ距離、
測地線距離、
ジェンセン情報量もしくは対称的カルバック・ライブラー情報量、
位置独立ハミング距離、
第1のカルチスキー類似性係数および第2のカルチスキー類似性係数、
ムカジョフスキー類似性係数またはソレンセン・ダイス類似性係数、
ジャカード類似性係数、
シンプソン類似性係数、
ソーカル・スニース類似性係数もしくはアンダーバーグ類似性係数、
大塚の類似性係数もしくは落合の類似性係数、
ブラウン・ブランケット類似性係数の類似性尺度sまたはこれらの非類似性尺度sのいずれかを構成している、データ列の自動比較方法。 - 請求項1から7のいずれか一項において、
複数のオブジェクトをそれぞれ含む少なくとも2つのデータ列(X、Y)が検出され、
類似性尺度sが、前記データ列における部分列について自動的に計算され、
前記類似性尺度sに応じて、さらなる処理が行われる、データ列の自動比較方法。 - 請求項8において、前記データ列(X、Y)が、コンピュータネットワークにおけるコンピュータ間で伝達されるデータを含んでおり、前記類似性尺度sのオンラインの計算に応じて、異常なデータストリーム、特に、侵入を示す少なくとも1つの信号が自動的に生成される、データ列の自動比較方法。
- 請求項8または9において、前記コンピュータが、金銭情報、特に、クレジットカード情報の伝達用のネットワークの一部である、データ列の自動比較方法。
- 請求項1から10のいずれか一項において、前記データ列が、遺伝子データ、コンピュータ間で交換されるデータ、テキスト、画像データ、バイナリデータ、記号のうちの少なくとも1つを含む、データ列の自動比較方法。
- データ列を比較する装置であって、
特に請求項4に記載されているように、適切なデータ構造におけるデータ列を表現する表現手段と、
前記データ列における部分列の任意の対の間の局所関係を評価する評価手段と、
前記局所関係の評価の集約によって大域関係を評価する評価手段と、
特に請求項6に記載されているように、局所関係および大域関係の全体を計算する計算手段とを備えた、データ列の比較装置。 - データ列を処理および解析するシステムであって、
特に請求項5に記載されているように、データ列を入力する入力手段と、
特に請求項7に記載されているように、データ列を比較する比較手段と、
分類、回帰、特異点検知、序列、クラスタリング、構造推論を含むデータ列の解析を行う解析手段と、
この解析の結果を報告する報告手段とを備えた、データ列の処理解析システム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP05077873 | 2005-12-09 | ||
EP05077873.7 | 2005-12-09 | ||
EP06090193 | 2006-10-19 | ||
EP06090193.1 | 2006-10-19 | ||
PCT/EP2006/012063 WO2007131545A2 (en) | 2005-12-09 | 2006-12-08 | A method and apparatus for automatic comparison of data sequences |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2009523270A true JP2009523270A (ja) | 2009-06-18 |
JP2009523270A5 JP2009523270A5 (ja) | 2009-12-24 |
JP5183483B2 JP5183483B2 (ja) | 2013-04-17 |
Family
ID=38566989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008543751A Expired - Fee Related JP5183483B2 (ja) | 2005-12-09 | 2006-12-08 | データ列の自動比較に用いられる方法およびその装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8271403B2 (ja) |
EP (1) | EP1963959A2 (ja) |
JP (1) | JP5183483B2 (ja) |
WO (1) | WO2007131545A2 (ja) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011043908A (ja) * | 2009-08-19 | 2011-03-03 | Nippon Hoso Kyokai <Nhk> | 番組検索装置および番組検索プログラム |
JP2011055469A (ja) * | 2009-08-31 | 2011-03-17 | Mitsubishi Electric Research Laboratories Inc | マンハッタン距離を安全に求めるための方法及びシステム |
JP2012512351A (ja) * | 2008-12-15 | 2012-05-31 | スネクマ | 航空エンジン内の故障の識別 |
JP2013535268A (ja) * | 2010-07-26 | 2013-09-12 | ユーシーエル ビジネス ピーエルシー | データ・セットにおける異常検出方法およびシステム |
JP2015515770A (ja) * | 2012-02-29 | 2015-05-28 | アルトネット、インコーポレイテッド | ストリーム認識およびフィルタリング |
JP2015108682A (ja) * | 2013-12-03 | 2015-06-11 | 富士通株式会社 | 秘匿比較方法、プログラム、およびシステム |
US9509493B2 (en) | 2013-08-07 | 2016-11-29 | Fujitsu Limited | Information processing technique for secure pattern matching |
JP2018506107A (ja) * | 2014-12-22 | 2018-03-01 | アマゾン テクノロジーズ インコーポレイテッド | 基数推定を介した結合パスの効率的な判定 |
US10685042B2 (en) | 2014-12-22 | 2020-06-16 | Amazon Technologies, Inc. | Identifying join relationships based on transactional access patterns |
US10783152B2 (en) | 2016-02-05 | 2020-09-22 | Fujitsu Limited | Information processing apparatus and data comparison method |
US10785244B2 (en) | 2017-12-15 | 2020-09-22 | Panasonic Intellectual Property Corporation Of America | Anomaly detection method, learning method, anomaly detection device, and learning device |
KR20210069298A (ko) * | 2019-12-03 | 2021-06-11 | 주식회사 엘지유플러스 | 대화 분절 문장의 복원을 위한 장치 및 방법 |
JP7265837B2 (ja) | 2017-07-20 | 2023-04-27 | ヤフー株式会社 | 学習装置および学習方法 |
Families Citing this family (72)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8381299B2 (en) * | 2006-02-28 | 2013-02-19 | The Trustees Of Columbia University In The City Of New York | Systems, methods, and media for outputting a dataset based upon anomaly detection |
US8789172B2 (en) | 2006-09-18 | 2014-07-22 | The Trustees Of Columbia University In The City Of New York | Methods, media, and systems for detecting attack on a digital processing device |
US20120005206A1 (en) * | 2007-02-09 | 2012-01-05 | Konstantinos Anagnostakis | Apparatus and method for analysis of data traffic |
US20110106720A1 (en) * | 2009-11-05 | 2011-05-05 | Jerome Dale Johnson | Expert system for gap analysis |
US8812508B2 (en) * | 2007-12-14 | 2014-08-19 | Hewlett-Packard Development Company, L.P. | Systems and methods for extracting phases from text |
JP5094487B2 (ja) * | 2008-03-17 | 2012-12-12 | 三菱電機株式会社 | 情報漏洩検査装置及びコンピュータプログラム及び情報漏洩検査方法 |
EP2216947A1 (en) * | 2009-02-10 | 2010-08-11 | Alcatel Lucent | Method of identifying spam messages |
WO2010149373A1 (en) * | 2009-06-25 | 2010-12-29 | Tully Liam | Telecommunication fraud prevention system and method |
US20110004465A1 (en) * | 2009-07-02 | 2011-01-06 | Battelle Memorial Institute | Computation and Analysis of Significant Themes |
US9235563B2 (en) | 2009-07-02 | 2016-01-12 | Battelle Memorial Institute | Systems and processes for identifying features and determining feature associations in groups of documents |
WO2011029474A1 (en) * | 2009-09-09 | 2011-03-17 | Universität Bremen | Document comparison |
US20120254333A1 (en) * | 2010-01-07 | 2012-10-04 | Rajarathnam Chandramouli | Automated detection of deception in short and multilingual electronic messages |
US20120130801A1 (en) * | 2010-05-27 | 2012-05-24 | Victor Baranov | System and method for mobile advertising |
US8693788B2 (en) * | 2010-08-06 | 2014-04-08 | Mela Sciences, Inc. | Assessing features for classification |
US8621629B2 (en) | 2010-08-31 | 2013-12-31 | General Electric Company | System, method, and computer software code for detecting a computer network intrusion in an infrastructure element of a high value target |
US8959644B2 (en) * | 2010-10-27 | 2015-02-17 | Microsoft Corporation | Use of popularity information to reduce risk posed by guessing attacks |
KR101337874B1 (ko) * | 2010-12-31 | 2014-01-28 | 주식회사 안랩 | 파일 유전자 지도를 이용하여 파일의 악성코드 포함 여부를 판단하는 방법 및 시스템 |
US8694454B2 (en) | 2011-02-17 | 2014-04-08 | Superior Edge, Inc. | Methods, apparatus and systems for generating, updating and executing a vegetation control plan |
US8756064B2 (en) * | 2011-07-28 | 2014-06-17 | Tata Consultancy Services Limited | Method and system for creating frugal speech corpus using internet resources and conventional speech corpus |
US9130778B2 (en) | 2012-01-25 | 2015-09-08 | Bitdefender IPR Management Ltd. | Systems and methods for spam detection using frequency spectra of character strings |
US8954519B2 (en) * | 2012-01-25 | 2015-02-10 | Bitdefender IPR Management Ltd. | Systems and methods for spam detection using character histograms |
US20130226904A1 (en) * | 2012-02-27 | 2013-08-29 | Abdullah A. MUEEN | Determining distance between data sequences |
US8918836B2 (en) | 2012-04-23 | 2014-12-23 | Microsoft Corporation | Predicting next characters in password generation |
DE112013002401T5 (de) * | 2012-05-08 | 2015-02-05 | Siemens Aktiengesellschaft | Adaptives Verfahren zur Verarbeitung einer Ereignisfolge in einem System zur Verarbeitung komplexer Ereignisse und ein System davon |
US9239827B2 (en) * | 2012-06-19 | 2016-01-19 | Microsoft Technology Licensing, Llc | Identifying collocations in a corpus of text in a distributed computing environment |
US9336302B1 (en) | 2012-07-20 | 2016-05-10 | Zuci Realty Llc | Insight and algorithmic clustering for automated synthesis |
US9113590B2 (en) | 2012-08-06 | 2015-08-25 | Superior Edge, Inc. | Methods, apparatus, and systems for determining in-season crop status in an agricultural crop and alerting users |
US9372850B1 (en) * | 2012-12-19 | 2016-06-21 | Amazon Technologies, Inc. | Machined book detection |
US9313223B2 (en) * | 2013-03-15 | 2016-04-12 | Prevoty, Inc. | Systems and methods for tokenizing user-generated content to enable the prevention of attacks |
US9760546B2 (en) * | 2013-05-24 | 2017-09-12 | Xerox Corporation | Identifying repeat subsequences by left and right contexts |
IN2013MU02217A (ja) * | 2013-07-01 | 2015-06-12 | Tata Consultancy Services Ltd | |
US9122543B2 (en) * | 2013-10-28 | 2015-09-01 | Foundation Of Soongsil University-Industry Cooperation | Data processing method, apparatus and computer program product for similarity comparison of software programs |
US11042898B2 (en) * | 2014-03-18 | 2021-06-22 | Staples, Inc. | Clickstream purchase prediction using Hidden Markov Models |
US10489707B2 (en) | 2014-03-20 | 2019-11-26 | The Regents Of The University Of California | Unsupervised high-dimensional behavioral data classifier |
US11159415B2 (en) * | 2014-03-24 | 2021-10-26 | Secureworks Corp. | Method for determining normal sequences of events |
US9489576B2 (en) | 2014-03-26 | 2016-11-08 | F12 Solutions, LLC. | Crop stand analysis |
US9361635B2 (en) * | 2014-04-14 | 2016-06-07 | Yahoo! Inc. | Frequent markup techniques for use in native advertisement placement |
US20170098030A1 (en) * | 2014-05-11 | 2017-04-06 | Ofek - Eshkolot Research And Development Ltd | System and method for generating detection of hidden relatedness between proteins via a protein connectivity network |
US20150347676A1 (en) * | 2014-05-30 | 2015-12-03 | Sequenom, Inc. | Chromosome representation determinations |
US9805099B2 (en) * | 2014-10-30 | 2017-10-31 | The Johns Hopkins University | Apparatus and method for efficient identification of code similarity |
JP6677169B2 (ja) * | 2014-12-10 | 2020-04-08 | 日本電気株式会社 | 通信監視システム、重要度算出装置及びその算出方法、提示装置、並びにコンピュータ・プログラム |
US10372906B2 (en) | 2015-02-17 | 2019-08-06 | International Business Machines Corporation | Behavioral model based on short and long range event correlations in system traces |
US11593405B2 (en) | 2015-04-21 | 2023-02-28 | International Business Machines Corporation | Custodian disambiguation and data matching |
US10152596B2 (en) | 2016-01-19 | 2018-12-11 | International Business Machines Corporation | Detecting anomalous events through runtime verification of software execution using a behavioral model |
US9805371B1 (en) | 2016-07-08 | 2017-10-31 | Asapp, Inc. | Automatically suggesting responses to a received message |
US10083451B2 (en) | 2016-07-08 | 2018-09-25 | Asapp, Inc. | Using semantic processing for customer support |
US9961100B2 (en) * | 2016-07-29 | 2018-05-01 | Accenture Global Solutions Limited | Network security analysis system |
US10866972B2 (en) * | 2016-08-15 | 2020-12-15 | Sumo Logic | Systems and methods for trie-based automated discovery of patterns in computer logs |
US10255990B2 (en) | 2016-11-11 | 2019-04-09 | uBiome, Inc. | Method and system for fragment assembly and sequence identification |
US11281993B2 (en) * | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
US10650311B2 (en) | 2016-12-19 | 2020-05-12 | Asaap, Inc. | Suggesting resources using context hashing |
US10109275B2 (en) * | 2016-12-19 | 2018-10-23 | Asapp, Inc. | Word hash language model |
US10348650B2 (en) | 2017-04-17 | 2019-07-09 | At&T Intellectual Property I, L.P. | Augmentation of pattern matching with divergence histograms |
US10977005B2 (en) * | 2017-06-14 | 2021-04-13 | International Business Machines Corporation | Congnitive development of DevOps pipeline |
US10511556B2 (en) * | 2017-09-20 | 2019-12-17 | Fujitsu Limited | Bursty detection for message streams |
US10872105B2 (en) * | 2017-10-11 | 2020-12-22 | Adobe Inc. | Method to identify and extract fragments among large collections of digital documents using repeatability and semantic information |
US10497004B2 (en) | 2017-12-08 | 2019-12-03 | Asapp, Inc. | Automating communications using an intent classifier |
US10489792B2 (en) | 2018-01-05 | 2019-11-26 | Asapp, Inc. | Maintaining quality of customer support messages |
US10210244B1 (en) | 2018-02-12 | 2019-02-19 | Asapp, Inc. | Updating natural language interfaces by processing usage data |
US10169315B1 (en) | 2018-04-27 | 2019-01-01 | Asapp, Inc. | Removing personal information from text using a neural network |
US11216510B2 (en) | 2018-08-03 | 2022-01-04 | Asapp, Inc. | Processing an incomplete message with a neural network to generate suggested messages |
US11551004B2 (en) | 2018-11-13 | 2023-01-10 | Asapp, Inc. | Intent discovery with a prototype classifier |
US10747957B2 (en) | 2018-11-13 | 2020-08-18 | Asapp, Inc. | Processing communications using a prototype classifier |
US11515011B2 (en) * | 2019-08-09 | 2022-11-29 | International Business Machines Corporation | K-mer based genomic reference data compression |
US11425064B2 (en) | 2019-10-25 | 2022-08-23 | Asapp, Inc. | Customized message suggestion with user embedding vectors |
US11503047B2 (en) * | 2020-03-13 | 2022-11-15 | International Business Machines Corporation | Relationship-based conversion of cyber threat data into a narrative-like format |
US11409769B2 (en) * | 2020-03-15 | 2022-08-09 | International Business Machines Corporation | Computer-implemented method and system for attribute discovery for operation objects from operation data |
US11636090B2 (en) | 2020-03-15 | 2023-04-25 | International Business Machines Corporation | Method and system for graph-based problem diagnosis and root cause analysis for IT operation |
BR112022024127A2 (pt) * | 2020-09-15 | 2023-03-28 | Illumina Inc | Mapeamento de leitura genômica acelerado por software |
US11888718B2 (en) * | 2022-01-28 | 2024-01-30 | Palo Alto Networks, Inc. | Detecting behavioral change of IoT devices using novelty detection based behavior traffic modeling |
CN114493374B (zh) * | 2022-04-01 | 2022-07-05 | 广东海洋大学 | 一种基于操作序列分析的准确率自动计算方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0484271A (ja) * | 1990-07-26 | 1992-03-17 | Nippon Telegr & Teleph Corp <Ntt> | 文書内情報検索装置 |
JPH04364577A (ja) * | 1991-06-11 | 1992-12-16 | Oki Electric Ind Co Ltd | 特定データパターン検出方法 |
JP2004186878A (ja) * | 2002-12-02 | 2004-07-02 | Keyware Solutions Inc | 侵入検知装置及び侵入検知プログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4084260A (en) * | 1976-07-12 | 1978-04-11 | Sperry Rand Corporation | Best match content addressable memory |
-
2006
- 2006-12-08 WO PCT/EP2006/012063 patent/WO2007131545A2/en active Application Filing
- 2006-12-08 JP JP2008543751A patent/JP5183483B2/ja not_active Expired - Fee Related
- 2006-12-08 US US12/096,126 patent/US8271403B2/en not_active Expired - Fee Related
- 2006-12-08 EP EP06851227A patent/EP1963959A2/en not_active Ceased
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0484271A (ja) * | 1990-07-26 | 1992-03-17 | Nippon Telegr & Teleph Corp <Ntt> | 文書内情報検索装置 |
JPH04364577A (ja) * | 1991-06-11 | 1992-12-16 | Oki Electric Ind Co Ltd | 特定データパターン検出方法 |
JP2004186878A (ja) * | 2002-12-02 | 2004-07-02 | Keyware Solutions Inc | 侵入検知装置及び侵入検知プログラム |
Non-Patent Citations (4)
Title |
---|
CSNG200600050001; 片岡 真紀: '囮サーバで送受信されたパケット系列を統計分析することによるワーム検知システムの提案' 情報処理学会研究報告 Vol.2005 No.70, 20050722, 1-6ページ, 社団法人情報処理学会 * |
CSNG200900399069; 研川 幸雄: '単純ベイズを用いたホストベース異常検出セキュリティシステム' 第14回データ工学ワークショップ(DEWS2003)論文集 , 20030516, 1-5ページ, 電子情報通信学会データ工学研究専門委員会 * |
JPN6012067454; 片岡 真紀: '囮サーバで送受信されたパケット系列を統計分析することによるワーム検知システムの提案' 情報処理学会研究報告 Vol.2005 No.70, 20050722, 1-6ページ, 社団法人情報処理学会 * |
JPN6012067457; 研川 幸雄: '単純ベイズを用いたホストベース異常検出セキュリティシステム' 第14回データ工学ワークショップ(DEWS2003)論文集 , 20030516, 1-5ページ, 電子情報通信学会データ工学研究専門委員会 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012512351A (ja) * | 2008-12-15 | 2012-05-31 | スネクマ | 航空エンジン内の故障の識別 |
US8682616B2 (en) | 2008-12-15 | 2014-03-25 | Snecma | Identifying failures in an aeroengine |
JP2011043908A (ja) * | 2009-08-19 | 2011-03-03 | Nippon Hoso Kyokai <Nhk> | 番組検索装置および番組検索プログラム |
JP2011055469A (ja) * | 2009-08-31 | 2011-03-17 | Mitsubishi Electric Research Laboratories Inc | マンハッタン距離を安全に求めるための方法及びシステム |
JP2013535268A (ja) * | 2010-07-26 | 2013-09-12 | ユーシーエル ビジネス ピーエルシー | データ・セットにおける異常検出方法およびシステム |
US9633108B2 (en) | 2010-07-26 | 2017-04-25 | Ucl Business Plc | Method and system for anomaly detection in data sets |
US10068017B2 (en) | 2012-02-29 | 2018-09-04 | Global File Systems Holdings, Llc | Stream recognition and filtering |
JP2015515770A (ja) * | 2012-02-29 | 2015-05-28 | アルトネット、インコーポレイテッド | ストリーム認識およびフィルタリング |
US9703869B2 (en) | 2012-02-29 | 2017-07-11 | Global File Systems Holdings, Llc | Stream recognition and filtering |
US9509493B2 (en) | 2013-08-07 | 2016-11-29 | Fujitsu Limited | Information processing technique for secure pattern matching |
JP2015108682A (ja) * | 2013-12-03 | 2015-06-11 | 富士通株式会社 | 秘匿比較方法、プログラム、およびシステム |
JP2018506107A (ja) * | 2014-12-22 | 2018-03-01 | アマゾン テクノロジーズ インコーポレイテッド | 基数推定を介した結合パスの効率的な判定 |
US10120905B2 (en) | 2014-12-22 | 2018-11-06 | Amazon Technologies, Inc. | Efficient determination of join paths via cardinality estimation |
US10685042B2 (en) | 2014-12-22 | 2020-06-16 | Amazon Technologies, Inc. | Identifying join relationships based on transactional access patterns |
US10831759B2 (en) | 2014-12-22 | 2020-11-10 | Amazon Technologies, Inc. | Efficient determination of join paths via cardinality estimation |
US10783152B2 (en) | 2016-02-05 | 2020-09-22 | Fujitsu Limited | Information processing apparatus and data comparison method |
JP7265837B2 (ja) | 2017-07-20 | 2023-04-27 | ヤフー株式会社 | 学習装置および学習方法 |
US10785244B2 (en) | 2017-12-15 | 2020-09-22 | Panasonic Intellectual Property Corporation Of America | Anomaly detection method, learning method, anomaly detection device, and learning device |
KR20210069298A (ko) * | 2019-12-03 | 2021-06-11 | 주식회사 엘지유플러스 | 대화 분절 문장의 복원을 위한 장치 및 방법 |
KR102357023B1 (ko) * | 2019-12-03 | 2022-01-28 | 주식회사 엘지유플러스 | 대화 분절 문장의 복원을 위한 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
US20090024555A1 (en) | 2009-01-22 |
EP1963959A2 (en) | 2008-09-03 |
WO2007131545A9 (en) | 2008-02-28 |
JP5183483B2 (ja) | 2013-04-17 |
WO2007131545A3 (en) | 2008-04-10 |
WO2007131545A2 (en) | 2007-11-22 |
US8271403B2 (en) | 2012-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5183483B2 (ja) | データ列の自動比較に用いられる方法およびその装置 | |
Min et al. | TR-IDS: Anomaly-based intrusion detection through text-convolutional neural network and random forest | |
D’hooge et al. | Inter-dataset generalization strength of supervised machine learning methods for intrusion detection | |
Serpen et al. | Host-based misuse intrusion detection using PCA feature extraction and kNN classification algorithms | |
Rieck et al. | Language models for detection of unknown attacks in network traffic | |
CN109784056B (zh) | 一种基于深度学习的恶意软件检测方法 | |
Smutz et al. | Malicious PDF detection using metadata and structural features | |
Li et al. | Fileprints: Identifying file types by n-gram analysis | |
Rieck et al. | Detecting unknown network attacks using language models | |
Sun et al. | Pattern recognition techniques for the classification of malware packers | |
US11483340B2 (en) | System for malicious HTTP traffic detection with multi-field relation | |
US20060026675A1 (en) | Detection of malicious computer executables | |
Smith et al. | Mind the gap: On bridging the semantic gap between machine learning and malware analysis | |
Siddiqui | Data mining methods for malware detection | |
CN112241530B (zh) | 恶意pdf文档的检测方法及电子设备 | |
Liu et al. | A statistical pattern based feature extraction method on system call traces for anomaly detection | |
CN112329012B (zh) | 针对包含JavaScript的恶意PDF文档的检测方法及电子设备 | |
Sureda Riera et al. | Prevention and fighting against web attacks through anomaly detection technology. a systematic review | |
Deore et al. | Mdfrcnn: Malware detection using faster region proposals convolution neural network | |
Hwang et al. | Semi-supervised based unknown attack detection in EDR environment | |
Rieck | Machine learning for application-layer intrusion detection | |
Masabo et al. | Improvement of malware classification using hybrid feature engineering | |
Villalba et al. | Advanced payload analyzer preprocessor | |
Koch et al. | Toward the detection of polyglot files | |
Yu et al. | A unified malicious documents detection model based on two layers of abstraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091109 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120424 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120724 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120725 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120731 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121225 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130115 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160125 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |