JP2009523270A5 - - Google Patents

Download PDF

Info

Publication number
JP2009523270A5
JP2009523270A5 JP2008543751A JP2008543751A JP2009523270A5 JP 2009523270 A5 JP2009523270 A5 JP 2009523270A5 JP 2008543751 A JP2008543751 A JP 2008543751A JP 2008543751 A JP2008543751 A JP 2008543751A JP 2009523270 A5 JP2009523270 A5 JP 2009523270A5
Authority
JP
Japan
Prior art keywords
data
similarity
distance
relationship
column
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008543751A
Other languages
English (en)
Other versions
JP2009523270A (ja
JP5183483B2 (ja
Filing date
Publication date
Application filed filed Critical
Priority claimed from PCT/EP2006/012063 external-priority patent/WO2007131545A2/en
Publication of JP2009523270A publication Critical patent/JP2009523270A/ja
Publication of JP2009523270A5 publication Critical patent/JP2009523270A5/ja
Application granted granted Critical
Publication of JP5183483B2 publication Critical patent/JP5183483B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Claims (12)

  1. 少なくとも2つのデータ列(X,Y)であって、いずれも複数のオブジェクトを含むデータ列を自動比較する方法であって、前記データ列(X,Y)はさらにコンピュータネットワークにおけるコンピュータ間で伝達されるデータを含み、
    (a) 2つ以上の列における部分列の任意の一対の間の局所関係を評価する工程と、
    (b) 前記局所関係の評価の集約によって大域関係を評価する工程と
    (c) 前記データ列(X,Y)における部分列について類似性尺度sを自動的に計算する工程と、
    (d) 類似性尺度sに応じて、さらなる処理を実行する工程とを備えた、データ列の自動比較方法。
  2. 請求項1において、さらに、
    (e) 前記類似尺度sのオンライン計算に応じて、異常なデータストリームを示す少なくとも1つの信号を自動的に生成する工程を備えた、データ列の自動比較方法。
  3. 請求項1または2において、異常なデータストリームを示す前記信号が、侵入検出である、データ列の自動比較方法。
  4. 請求項1から3のいずれか一項において、
    一方のデータ列の少なくとも1つの部分列が他方のデータ列に存在しないことを検知して、第1のデータ列における第1の部分列と第2のデータ列における第2の部分列との間の局所関係を評価する工程と、
    前記局所関係の評価の集約によって大域関係を評価する工程とを備えた、データ列の自動比較方法。
  5. 請求項1から4のいずれか一項において、局所関係の評価の対象の部分列が、
    所定の一連のデリミタによって分割された部分列からなる単語、
    所定の長さnの重複する部分列からなるNグラム、および、
    2つ以上の列の全ての起こり得る部分列、の3つのうちの任意の1つの選択モードによって指定される、データ列の自動比較方法。
  6. 請求項1からのいずれか一項において、局所関係および大域関係の全体が、2つ以上の列の類似性または非類似性についての尺度sを構成している、データ列の自動比較方法。
  7. 請求項1からのいずれか一項において、局所関係および大域関係の評価が、
    ハッシュテーブルもしくは索引付きのテーブル、
    トライもしくは圧縮トライ、
    接尾辞木もしくは接尾辞配列、および
    一般化接尾辞木もしくは一般化接尾辞配列のデータ構造またはこれらの表現のいずれかを用いて実行される、データ列の自動比較方法。
  8. 請求項1からのいずれか一項において、少なくとも1つのデータ列が、前記局所関係が評価されるオブジェクトとして、記号、画像、テキスト、アスキー文字、バイト、バイナリデータ、トークンのうちの少なくとも1つを含む、データ列の自動比較方法。
  9. 請求項1からのいずれか一項において、局所関係および大域関係の全体が、
    マンハッタン距離もしくはタクシー距離、
    ユークリッド距離、
    ミンコフスキー距離、
    キャンベラ距離、
    χ二乗距離、
    チェビシェフ距離、
    測地線距離、
    ジェンセン情報量もしくは対称的カルバック・ライブラー情報量、
    位置独立ハミング距離、
    第1のカルチスキー類似性係数および第2のカルチスキー類似性係数、
    ムカジョフスキー類似性係数またはソレンセン・ダイス類似性係数、
    ジャカード類似性係数、
    シンプソン類似性係数、
    ソーカル・スニース類似性係数もしくはアンダーバーグ類似性係数、
    大塚の類似性係数もしくは落合の類似性係数、
    ブラウン・ブランケット類似性係数の類似性尺度sまたはこれらの非類似性尺度sのいずれかを構成している、データ列の自動比較方法。
  10. 請求項1から9のいずれか一項において、前記コンピュータが、金銭情報の伝達用のネットワークの一部である、データ列の自動比較方法。
  11. 請求項10において、前記金銭情報がクレジットカード情報である、データ列の自動比較方法。
  12. 請求項1から11のいずれか一項において、前記データ列が、遺伝子データ、コンピュータ間で交換されるデータ、テキスト、画像データ、バイナリデータ、記号のうちの少なくとも1つを含む、データ列の自動比較方法。
JP2008543751A 2005-12-09 2006-12-08 データ列の自動比較に用いられる方法およびその装置 Expired - Fee Related JP5183483B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP05077873.7 2005-12-09
EP05077873 2005-12-09
EP06090193 2006-10-19
EP06090193.1 2006-10-19
PCT/EP2006/012063 WO2007131545A2 (en) 2005-12-09 2006-12-08 A method and apparatus for automatic comparison of data sequences

Publications (3)

Publication Number Publication Date
JP2009523270A JP2009523270A (ja) 2009-06-18
JP2009523270A5 true JP2009523270A5 (ja) 2009-12-24
JP5183483B2 JP5183483B2 (ja) 2013-04-17

Family

ID=38566989

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008543751A Expired - Fee Related JP5183483B2 (ja) 2005-12-09 2006-12-08 データ列の自動比較に用いられる方法およびその装置

Country Status (4)

Country Link
US (1) US8271403B2 (ja)
EP (1) EP1963959A2 (ja)
JP (1) JP5183483B2 (ja)
WO (1) WO2007131545A2 (ja)

Families Citing this family (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8381299B2 (en) * 2006-02-28 2013-02-19 The Trustees Of Columbia University In The City Of New York Systems, methods, and media for outputting a dataset based upon anomaly detection
US8789172B2 (en) 2006-09-18 2014-07-22 The Trustees Of Columbia University In The City Of New York Methods, media, and systems for detecting attack on a digital processing device
US20120005206A1 (en) * 2007-02-09 2012-01-05 Konstantinos Anagnostakis Apparatus and method for analysis of data traffic
US20110106720A1 (en) * 2009-11-05 2011-05-05 Jerome Dale Johnson Expert system for gap analysis
US8812508B2 (en) * 2007-12-14 2014-08-19 Hewlett-Packard Development Company, L.P. Systems and methods for extracting phases from text
JP5094487B2 (ja) * 2008-03-17 2012-12-12 三菱電機株式会社 情報漏洩検査装置及びコンピュータプログラム及び情報漏洩検査方法
FR2939924B1 (fr) * 2008-12-15 2012-10-12 Snecma Identification de defaillances dans un moteur d'aeronef
EP2216947A1 (en) * 2009-02-10 2010-08-11 Alcatel Lucent Method of identifying spam messages
WO2010149373A1 (en) * 2009-06-25 2010-12-29 Tully Liam Telecommunication fraud prevention system and method
US9235563B2 (en) 2009-07-02 2016-01-12 Battelle Memorial Institute Systems and processes for identifying features and determining feature associations in groups of documents
US20110004465A1 (en) * 2009-07-02 2011-01-06 Battelle Memorial Institute Computation and Analysis of Significant Themes
JP5478146B2 (ja) * 2009-08-19 2014-04-23 日本放送協会 番組検索装置および番組検索プログラム
US8631053B2 (en) * 2009-08-31 2014-01-14 Mitsubishi Electric Research Laboratories, Inc. Method for securely determining Manhattan distances
WO2011029474A1 (en) * 2009-09-09 2011-03-17 Universität Bremen Document comparison
US20120254333A1 (en) * 2010-01-07 2012-10-04 Rajarathnam Chandramouli Automated detection of deception in short and multilingual electronic messages
US20110296009A1 (en) * 2010-05-27 2011-12-01 Victor Baranov System and method for wavelets-based adaptive mobile advertising fraud detection
GB201012519D0 (en) * 2010-07-26 2010-09-08 Ucl Business Plc Method and system for anomaly detection in data sets
US8693788B2 (en) * 2010-08-06 2014-04-08 Mela Sciences, Inc. Assessing features for classification
US8621629B2 (en) 2010-08-31 2013-12-31 General Electric Company System, method, and computer software code for detecting a computer network intrusion in an infrastructure element of a high value target
US8959644B2 (en) * 2010-10-27 2015-02-17 Microsoft Corporation Use of popularity information to reduce risk posed by guessing attacks
KR101337874B1 (ko) * 2010-12-31 2014-01-28 주식회사 안랩 파일 유전자 지도를 이용하여 파일의 악성코드 포함 여부를 판단하는 방법 및 시스템
US8694454B2 (en) 2011-02-17 2014-04-08 Superior Edge, Inc. Methods, apparatus and systems for generating, updating and executing a vegetation control plan
US8756064B2 (en) * 2011-07-28 2014-06-17 Tata Consultancy Services Limited Method and system for creating frugal speech corpus using internet resources and conventional speech corpus
US9130778B2 (en) 2012-01-25 2015-09-08 Bitdefender IPR Management Ltd. Systems and methods for spam detection using frequency spectra of character strings
US8954519B2 (en) * 2012-01-25 2015-02-10 Bitdefender IPR Management Ltd. Systems and methods for spam detection using character histograms
US20130226904A1 (en) * 2012-02-27 2013-08-29 Abdullah A. MUEEN Determining distance between data sequences
EP2820564B1 (en) 2012-02-29 2019-04-10 Global File Systems Holdings, LLC Stream recognition and filtering
US8918836B2 (en) 2012-04-23 2014-12-23 Microsoft Corporation Predicting next characters in password generation
WO2013167344A1 (en) * 2012-05-08 2013-11-14 Siemens Aktiengesellschaft An adaptive method for processing an event sequence in a complex event processing system and a system thereof
US9239827B2 (en) * 2012-06-19 2016-01-19 Microsoft Technology Licensing, Llc Identifying collocations in a corpus of text in a distributed computing environment
US9336302B1 (en) 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
US9113590B2 (en) 2012-08-06 2015-08-25 Superior Edge, Inc. Methods, apparatus, and systems for determining in-season crop status in an agricultural crop and alerting users
US9372850B1 (en) * 2012-12-19 2016-06-21 Amazon Technologies, Inc. Machined book detection
US9313223B2 (en) * 2013-03-15 2016-04-12 Prevoty, Inc. Systems and methods for tokenizing user-generated content to enable the prevention of attacks
US9760546B2 (en) * 2013-05-24 2017-09-12 Xerox Corporation Identifying repeat subsequences by left and right contexts
IN2013MU02217A (ja) * 2013-07-01 2015-06-12 Tata Consultancy Services Ltd
JP6244728B2 (ja) 2013-08-07 2017-12-13 富士通株式会社 情報処理方法及びプログラム
US9122543B2 (en) * 2013-10-28 2015-09-01 Foundation Of Soongsil University-Industry Cooperation Data processing method, apparatus and computer program product for similarity comparison of software programs
JP2015108682A (ja) * 2013-12-03 2015-06-11 富士通株式会社 秘匿比較方法、プログラム、およびシステム
US11042898B2 (en) * 2014-03-18 2021-06-22 Staples, Inc. Clickstream purchase prediction using Hidden Markov Models
WO2015143393A1 (en) * 2014-03-20 2015-09-24 The Regents Of The University Of California Unsupervised high-dimensional behavioral data classifier
US11159415B2 (en) * 2014-03-24 2021-10-26 Secureworks Corp. Method for determining normal sequences of events
US9489576B2 (en) 2014-03-26 2016-11-08 F12 Solutions, LLC. Crop stand analysis
US9361635B2 (en) * 2014-04-14 2016-06-07 Yahoo! Inc. Frequent markup techniques for use in native advertisement placement
WO2015173803A2 (en) * 2014-05-11 2015-11-19 Ofek - Eshkolot Research And Development Ltd A system and method for generating detection of hidden relatedness between proteins via a protein connectivity network
AU2015267190B2 (en) * 2014-05-30 2020-10-01 Sequenom, Inc. Chromosome representation determinations
US9805099B2 (en) 2014-10-30 2017-10-31 The Johns Hopkins University Apparatus and method for efficient identification of code similarity
WO2016092834A1 (ja) * 2014-12-10 2016-06-16 日本電気株式会社 通信監視システム、重要度算出装置及びその算出方法、提示装置、並びにコンピュータ・プログラムが格納された記録媒体
US10120905B2 (en) * 2014-12-22 2018-11-06 Amazon Technologies, Inc. Efficient determination of join paths via cardinality estimation
US10685042B2 (en) 2014-12-22 2020-06-16 Amazon Technologies, Inc. Identifying join relationships based on transactional access patterns
US10372906B2 (en) 2015-02-17 2019-08-06 International Business Machines Corporation Behavioral model based on short and long range event correlations in system traces
US11593405B2 (en) * 2015-04-21 2023-02-28 International Business Machines Corporation Custodian disambiguation and data matching
US10152596B2 (en) 2016-01-19 2018-12-11 International Business Machines Corporation Detecting anomalous events through runtime verification of software execution using a behavioral model
JP6607061B2 (ja) 2016-02-05 2019-11-20 富士通株式会社 情報処理装置、データ比較方法、およびデータ比較プログラム
CN109792402B (zh) 2016-07-08 2020-03-06 艾赛普公司 自动响应用户的请求
US10083451B2 (en) 2016-07-08 2018-09-25 Asapp, Inc. Using semantic processing for customer support
US9961100B2 (en) * 2016-07-29 2018-05-01 Accenture Global Solutions Limited Network security analysis system
US10866972B2 (en) 2016-08-15 2020-12-15 Sumo Logic Systems and methods for trie-based automated discovery of patterns in computer logs
WO2018089944A1 (en) * 2016-11-11 2018-05-17 uBiome, Inc. Method and system for fragment assembly and sequence identification
US11281993B2 (en) * 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10650311B2 (en) 2016-12-19 2020-05-12 Asaap, Inc. Suggesting resources using context hashing
US10109275B2 (en) * 2016-12-19 2018-10-23 Asapp, Inc. Word hash language model
US10348650B2 (en) 2017-04-17 2019-07-09 At&T Intellectual Property I, L.P. Augmentation of pattern matching with divergence histograms
US10977005B2 (en) * 2017-06-14 2021-04-13 International Business Machines Corporation Congnitive development of DevOps pipeline
JP7265837B2 (ja) 2017-07-20 2023-04-27 ヤフー株式会社 学習装置および学習方法
US10511556B2 (en) * 2017-09-20 2019-12-17 Fujitsu Limited Bursty detection for message streams
US10872105B2 (en) * 2017-10-11 2020-12-22 Adobe Inc. Method to identify and extract fragments among large collections of digital documents using repeatability and semantic information
US10497004B2 (en) 2017-12-08 2019-12-03 Asapp, Inc. Automating communications using an intent classifier
US10785244B2 (en) 2017-12-15 2020-09-22 Panasonic Intellectual Property Corporation Of America Anomaly detection method, learning method, anomaly detection device, and learning device
US10489792B2 (en) 2018-01-05 2019-11-26 Asapp, Inc. Maintaining quality of customer support messages
US10210244B1 (en) 2018-02-12 2019-02-19 Asapp, Inc. Updating natural language interfaces by processing usage data
US10169315B1 (en) 2018-04-27 2019-01-01 Asapp, Inc. Removing personal information from text using a neural network
US11216510B2 (en) 2018-08-03 2022-01-04 Asapp, Inc. Processing an incomplete message with a neural network to generate suggested messages
US11551004B2 (en) 2018-11-13 2023-01-10 Asapp, Inc. Intent discovery with a prototype classifier
US10747957B2 (en) 2018-11-13 2020-08-18 Asapp, Inc. Processing communications using a prototype classifier
US11515011B2 (en) * 2019-08-09 2022-11-29 International Business Machines Corporation K-mer based genomic reference data compression
US11425064B2 (en) 2019-10-25 2022-08-23 Asapp, Inc. Customized message suggestion with user embedding vectors
KR102357023B1 (ko) * 2019-12-03 2022-01-28 주식회사 엘지유플러스 대화 분절 문장의 복원을 위한 장치 및 방법
US11503047B2 (en) * 2020-03-13 2022-11-15 International Business Machines Corporation Relationship-based conversion of cyber threat data into a narrative-like format
US12086261B2 (en) 2020-03-13 2024-09-10 International Business Machines Corporation Displaying cyber threat data in a narrative-like format
US11409769B2 (en) * 2020-03-15 2022-08-09 International Business Machines Corporation Computer-implemented method and system for attribute discovery for operation objects from operation data
US11636090B2 (en) 2020-03-15 2023-04-25 International Business Machines Corporation Method and system for graph-based problem diagnosis and root cause analysis for IT operation
WO2022060910A1 (en) * 2020-09-15 2022-03-24 Illumina, Inc. Software accelerated genomic read mapping
US11888718B2 (en) * 2022-01-28 2024-01-30 Palo Alto Networks, Inc. Detecting behavioral change of IoT devices using novelty detection based behavior traffic modeling
CN114493374B (zh) * 2022-04-01 2022-07-05 广东海洋大学 一种基于操作序列分析的准确率自动计算方法及系统
US12061637B2 (en) * 2022-09-11 2024-08-13 Microsoft Technology Licensing, Llc Heuristic identification of shared substrings between text documents

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4084260A (en) * 1976-07-12 1978-04-11 Sperry Rand Corporation Best match content addressable memory
JP2885487B2 (ja) * 1990-07-26 1999-04-26 日本電信電話株式会社 文書内情報検索装置
JP2772725B2 (ja) * 1991-06-11 1998-07-09 沖電気工業株式会社 特定データパターン検出方法
JP2004186878A (ja) * 2002-12-02 2004-07-02 Keyware Solutions Inc 侵入検知装置及び侵入検知プログラム

Similar Documents

Publication Publication Date Title
JP2009523270A5 (ja)
Entezami et al. Fast unsupervised learning methods for structural health monitoring with large vibration data from dense sensor networks
US20230315835A1 (en) Weak password detection method and device based on deep learning, and electronic device
WO2019091177A1 (zh) 风险识别模型构建和风险识别方法、装置及设备
EP2344962B1 (en) Detection of confidential information
WO2021227831A1 (zh) 威胁情报的主题检测方法、装置和计算机存储介质
WO2019200782A1 (zh) 样本数据分类方法、模型训练方法、电子设备及存储介质
TWI435236B (zh) 惡意程式偵測裝置、惡意程式偵測方法及其電腦程式產品
CN106027577A (zh) 一种异常访问行为检测方法及装置
US20120239540A1 (en) Systems, devices and methods for automatic detection and masking of private data
WO2016015621A1 (zh) 人脸图片人名识别方法和系统
WO2016075915A1 (ja) ログ分析システム、ログ分析方法およびプログラム記録媒体
CN110706026A (zh) 一种异常用户的识别方法、识别装置及可读存储介质
CN111869176B (zh) 用于恶意软件签名生成的系统和方法
JPWO2019077656A1 (ja) 生産設備監視装置、生産設備監視方法及び生産設備監視プログラム
CN115314236A (zh) 在域名系统(dns)记录集中检测网络钓鱼域的系统和方法
US20220318514A1 (en) System and method for identifying entities and semantic relations between one or more sentences
CN109670304A (zh) 恶意代码家族属性的识别方法、装置及电子设备
TWI740086B (zh) 網域名稱辨識方法及網域名稱辨識裝置
US11394629B1 (en) Generating recommendations for network incident resolution
EP3477505B1 (en) Fingerprint clustering for content-based audio recogntion
CN107404491B (zh) 终端环境异常检测方法、检测装置及计算机可读存储介质
CN113821840A (zh) 基于Bagging的硬件木马检测方法、介质、计算机
JP5694989B2 (ja) 文書分類装置及びプログラム
CN114820409A (zh) 图像异常检测方法、装置、电子设备及存储介质