JP2011511341A5 - - Google Patents

Download PDF

Info

Publication number
JP2011511341A5
JP2011511341A5 JP2010543117A JP2010543117A JP2011511341A5 JP 2011511341 A5 JP2011511341 A5 JP 2011511341A5 JP 2010543117 A JP2010543117 A JP 2010543117A JP 2010543117 A JP2010543117 A JP 2010543117A JP 2011511341 A5 JP2011511341 A5 JP 2011511341A5
Authority
JP
Japan
Prior art keywords
string
representations
record
proximity
strings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010543117A
Other languages
English (en)
Other versions
JP5603250B2 (ja
JP2011511341A (ja
Filing date
Publication date
Priority claimed from US12/015,085 external-priority patent/US8775441B2/en
Application filed filed Critical
Publication of JP2011511341A publication Critical patent/JP2011511341A/ja
Publication of JP2011511341A5 publication Critical patent/JP2011511341A5/ja
Application granted granted Critical
Publication of JP5603250B2 publication Critical patent/JP5603250B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Claims (30)

  1. レコード内に出現する文字列と関係付けられる近似マッチを決定するためのアーカイブを管理する方法であって、
    前記レコード内に出現する文字列と対応する一セットの文字列表現を決定するようレコードを処理するステップと、
    前記セット内の少なくとも幾つかの文字列表現毎に、前記文字列内の文字と同一の少なくとも幾つかの文字からそれぞれ生成される複数の近接表現を生成するステップと、
    個々の近接表現に基づく少なくとも二つの文字列間の潜在的近似マッチをそれぞれ表す複数の記入項目をアーカイブ内に格納するステップと
    前記セット内の前記文字列表現の内の少なくとも幾つか毎に、前記レコード内の前記対応文字列の出現頻度を決定するステップとを含む方法。
  2. 各文字列表現は文字列からなる、請求項1の方法。
  3. 各近接表現は、前記文字列内の文字と同一の少なくとも幾つかの文字で構成される、請求項2の方法。
  4. 前記セット内の所与の文字列に対して前記複数の近接表現を生成する前記ステップは、前記所与の文字列から削除した異なる文字をそれぞれ有する複数の近接表現を生成するステップを含む、請求項3の方法。
  5. 前記セット内の所与の文字列に対して前記複数の近接表現を生成する前記ステップは、前記所与の文字列から削除した単一文字をそれぞれ有する複数の近接表現を生成するステップを含む、請求項4の方法。
  6. 前記セット内の所与の文字列に対して前記複数の近接表現を生成する前記ステップは、近接表現の内の少なくとも幾つかが前記所与の文字列から削除した複数の文字を有する、近接表現を生成するステップを含む、請求項5の方法。
  7. 前記所与の文字列から削除した異なる文字をそれぞれ有する複数の近接表現を生成する前記ステップは、前記所与の文字列が所定の長さより短い場合、前記所与の文字列から削除した単一文字をそれぞれ有する複数の近接表現を生成するステップと、前記所与の文字列が前記所定の長さより長い場合、近接表現の内の少なくとも幾つかが、前記所与の文字列から削除した複数の文字を有する、近接表現を生成するステップとを含む、請求項4の方法。
  8. 前記セット内の前記文字列表現の内の少なくとも幾つか毎に、前記文字列との滞在的近似マッチとして、前記文字列の出現頻度と、前記アーカイブ内で表現される少なくとも幾つかの文字列の前記出現頻度とを含む合計値に基づいて前記対応文字列の重要度を表す重要度値を生成するステップを更に含む、請求項の方法。
  9. 前記重要度値は前記合計値の逆数に基づいて生成される、請求項の方法。
  10. 前記フレーズ内の文字列が近似マッチに対応するかどうかを決定することにより、複数の文字列を含む別のフレーズが近似マッチに対応するかどうかを決定するステップを更に含み、前記フレーズ内の前記文字列は、対応する重要度値に基づいて選択される、請求項の方法。
  11. フレーズ内の文字列の前記重要度値は、前記合計値に基づき、前記文字列の長さが最小の文字列、前記フレーズ内の前記文字列の位置、前記文字列が出現するレコードのフィールド、および前記フィールドが出現するレコードのソースに基づく、請求項10の方法。
  12. 前記アーカイブ内の前記記入項目の内の少なくとも幾つか毎に、少なくとも二つの文字列間の前記潜在的近似マッチの品質を定量化する前記記入項目と関係するスコアを生成するステップを更に含む、請求項1の方法。
  13. 記入項目と関係する文字列が、前記記入項目と関係する前記スコアをしきい値と比較することにより、近似マッチに対応するかどうかを決定するステップを更に含む、請求項12の方法。
  14. 前記スコアは、前記少なくとも二つの文字列間の前記潜在的近似マッチを決定するために使用する前記各近接表現間の一致度に基づく、請求項12の方法。
  15. 前記レコード内に出現する文字列と対応する一セットの文字列表現を決定するよう前記レコードを処理する前記ステップは、前記セットの文字列表現に含めるために修正文字列を生成するよう少なくとも一つのレコードに出現する文字列を修正するステップを含む、請求項1の方法。
  16. 前記文字列を修正する前記ステップは、句読点を削除または置換するステップを含む、請求項15の方法。
  17. 前記文字列を修正する前記ステップは、前記文字列を別の表現にコード化するステップを含む、請求項15の方法。
  18. 前記文字列を修正する前記ステップは、前記文字列を数値化表現にコード化するステップを含む、請求項17の方法。
  19. 前記文字列を数値化表現にコード化する前記ステップは、前記文字列内の各文字を素数にマッピングするステップ、および前記文字列内の文字にマッピングされた前記素数の積として、文字列を表現するステップを含む、請求項18の方法。
  20. 前記アーカイブには、ユーザーからの入力に基づいて、少なくとも二つの文字列間の潜在的近似マッチを表わす少なくとも幾つかの記入項目が含まれる、請求項1の方法。
  21. レコード内に出現する文字列と関係する近似マッチを決定するためのアーカイブを管理するための、コンピュータで読取り可能な媒体上に格納されるコンピュータープログラムであって、前記コンピュータープログラムは、コンピュータに実行させる以下の命令、
    前記レコード内に出現する文字列と対応する一セットの文字列表現を決定するようレコードを処理する命令と、
    前記セット内の前記文字列表現の内の少なくとも幾つか毎に、前記文字列内の文字と同一の少なくとも幾つかの文字からそれぞれ生成される複数の近接表現を生成する命令と、
    前記各近接表現に基づいて少なくとも二つの文字列間の潜在的近似マッチをそれぞれ表わす記入項目をアーカイブ内に格納する命令と
    前記セット内の前記文字列表現の内の少なくとも幾つか毎に、前記レコード内の前記対応文字列の出現頻度を決定する命令とを含むコンピュータープログラム。
  22. レコード内に出現する文字列と関係する近似マッチを決定するためにアーカイブを管理するシステムであって、前記システムは、
    前記レコード内に出現する文字列と対応する一セットの文字列表現を決定するようレコードを処理する手段と、
    前記セット内の前記文字列表現の内の少なくとも幾つか毎に、前記文字列内の文字と同一の少なくとも幾つかの文字からそれぞれ生成される複数の近接表現を生成する手段と、
    前記各近接表現に基づいて少なくとも二つの文字列間の潜在的近似マッチをそれぞれ表わす記入項目をアーカイブ内に格納する手段と
    前記セット内の前記文字列表現の内の少なくとも幾つか毎に、前記レコード内の前記対応文字列の出現頻度を決定する手段とを含むシステム。
  23. レコード内に出現する文字列と関係する近似マッチを決定するためにアーカイブを管理するシステムであって、前記システムは、
    レコードを格納するデータソースと、
    前記データソース内の前記レコードを処理して、前記レコード内に出現する文字列と対応する一セットの文字列表現を決定し、
    前記セット内の前記文字列表現の内の少なくとも幾つか毎に、前記文字列内の文字と同一の少なくとも幾つかの文字からそれぞれ生成される複数の近接表現を生成し、
    前記セット内の前記文字列表現の内の少なくとも幾つか毎に、前記レコード内の前記対応文字列の出現頻度を決定する
    よう構成されるコンピューターシステムと、
    前記各近接表現に基づいて少なくとも二つの文字列間の潜在的近似マッチをそれぞれ表わす記入項目を含むアーカイブを格納するための前記コンピューターシステムに接続されるデータ格納装置とを含むシステム。
  24. 前記記入項目はそれぞれ、前記文字列間に潜在的近似マッチと前記文字列間の前記潜在的近似マッチの品質を定量化するスコアとがある前記文字列を含む、請求項1の方法。
  25. 前記セット内の前記文字列表現の内の少なくとも幾つか毎に、前記対応文字列の出現頻度に基づいて前記対応文字列の重要度を表す重要度値を生成するステップを更に含む、請求項1の方法。
  26. 前記アーカイブ内の記入項目を用いて、起こり得る誤判定の潜在的近似マッチを識別するステップを更に含む、請求項12の方法。
  27. 第一文字列と第二文字列との間に起こり得る誤判定の潜在的近似マッチが、前記レコード内の前記第一文字列の出現頻度および前記レコード内の前記第二文字列の出現頻度に基づいて識別される、請求項26の方法。
  28. 起こり得る誤判定の潜在的近似マッチが、前記アーカイブ内に格納されるNグラム頻度に基づいて識別される、請求項26の方法。
  29. 起こり得る誤判定として前記潜在的近似マッチを識別することに応じて、潜在的近似マッチを表す前記記入項目と関係付けられた前記スコアを調整するステップを更に含む、請求項26の方法。
  30. 前記レコード内の前記対応文字列の前記出現頻度と、前記レコード内の前記対応文字列の潜在的近似マッチとして前記アーカイブ内で表現される文字列の出現頻度との合計値の逆数を計算するステップを含み、
    前記レコード内の文字列と対応する前記セット内の文字列表現の重要度値を生成するステップを更に含む、請求項1の方法。
JP2010543117A 2008-01-16 2008-12-30 近似文字列マッチングのためのアーカイブ管理法 Active JP5603250B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/015,085 2008-01-16
US12/015,085 US8775441B2 (en) 2008-01-16 2008-01-16 Managing an archive for approximate string matching
PCT/US2008/088530 WO2009091494A1 (en) 2008-01-16 2008-12-30 Managing an archive for approximate string matching

Publications (3)

Publication Number Publication Date
JP2011511341A JP2011511341A (ja) 2011-04-07
JP2011511341A5 true JP2011511341A5 (ja) 2012-02-16
JP5603250B2 JP5603250B2 (ja) 2014-10-08

Family

ID=40851547

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010543117A Active JP5603250B2 (ja) 2008-01-16 2008-12-30 近似文字列マッチングのためのアーカイブ管理法

Country Status (8)

Country Link
US (2) US8775441B2 (ja)
EP (1) EP2235621A4 (ja)
JP (1) JP5603250B2 (ja)
KR (1) KR101564385B1 (ja)
CN (2) CN101978348B (ja)
AU (1) AU2008348066B2 (ja)
CA (1) CA2710882C (ja)
WO (1) WO2009091494A1 (ja)

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7877350B2 (en) 2005-06-27 2011-01-25 Ab Initio Technology Llc Managing metadata for graph-based computations
CN101501678B (zh) * 2006-08-10 2013-10-16 起元科技有限公司 在基于图的计算中分配服务
JP5520219B2 (ja) 2007-07-26 2014-06-11 アビニシオ テクノロジー エルエルシー エラーハンドリングをもつトランザクションのグラフ型計算
US8775441B2 (en) 2008-01-16 2014-07-08 Ab Initio Technology Llc Managing an archive for approximate string matching
EP2235836A4 (en) * 2008-01-24 2012-08-29 Sra International Inc SYSTEM AND METHOD FOR THE ADJUSTMENT OF VARIANTER STRINGS
US8095773B2 (en) 2008-02-26 2012-01-10 International Business Machines Corporation Dynamic address translation with translation exception qualifier
KR101491581B1 (ko) * 2008-04-07 2015-02-24 삼성전자주식회사 철자 오류 보정 시스템 및 방법
CN107273977A (zh) 2008-10-23 2017-10-20 起元技术有限责任公司 用于标识匹配的方法、系统和机器可读硬件存储装置
US9135396B1 (en) * 2008-12-22 2015-09-15 Amazon Technologies, Inc. Method and system for determining sets of variant items
EP2396724A4 (en) * 2009-02-13 2012-12-12 Ab Initio Technology Llc TASK EXECUTION MANAGEMENT
US9124431B2 (en) * 2009-05-14 2015-09-01 Microsoft Technology Licensing, Llc Evidence-based dynamic scoring to limit guesses in knowledge-based authentication
US8856879B2 (en) 2009-05-14 2014-10-07 Microsoft Corporation Social authentication for account recovery
US8667329B2 (en) * 2009-09-25 2014-03-04 Ab Initio Technology Llc Processing transactions in graph-based applications
EP2524327B1 (en) 2010-01-13 2017-11-29 Ab Initio Technology LLC Matching metadata sources using rules for characterizing matches
KR101687213B1 (ko) 2010-06-15 2016-12-16 아브 이니티오 테크놀로지 엘엘시 동적으로 로딩하는 그래프 기반 계산
US9069767B1 (en) 2010-12-28 2015-06-30 Amazon Technologies, Inc. Aligning content items to identify differences
US8798366B1 (en) * 2010-12-28 2014-08-05 Amazon Technologies, Inc. Electronic book pagination
US9846688B1 (en) 2010-12-28 2017-12-19 Amazon Technologies, Inc. Book version mapping
WO2012103438A1 (en) 2011-01-28 2012-08-02 Ab Initio Technology Llc Generating data pattern information
US9881009B1 (en) 2011-03-15 2018-01-30 Amazon Technologies, Inc. Identifying book title sets
US9317544B2 (en) 2011-10-05 2016-04-19 Microsoft Corporation Integrated fuzzy joins in database management systems
CN108388632B (zh) 2011-11-15 2021-11-19 起元科技有限公司 数据分群、分段、以及并行化
US8788471B2 (en) * 2012-05-30 2014-07-22 International Business Machines Corporation Matching transactions in multi-level records
US10108521B2 (en) 2012-11-16 2018-10-23 Ab Initio Technology Llc Dynamic component performance monitoring
US9507682B2 (en) 2012-11-16 2016-11-29 Ab Initio Technology Llc Dynamic graph performance monitoring
GB2508223A (en) 2012-11-26 2014-05-28 Ibm Estimating the size of a joined table in a database
GB2508603A (en) * 2012-12-04 2014-06-11 Ibm Optimizing the order of execution of multiple join operations
US9274926B2 (en) 2013-01-03 2016-03-01 Ab Initio Technology Llc Configurable testing of computer programs
US9063944B2 (en) 2013-02-21 2015-06-23 International Business Machines Corporation Match window size for matching multi-level transactions between log files
US9317499B2 (en) * 2013-04-11 2016-04-19 International Business Machines Corporation Optimizing generation of a regular expression
US9146946B2 (en) * 2013-05-09 2015-09-29 International Business Machines Corporation Comparing database performance without benchmark workloads
CN104182383B (zh) * 2013-05-27 2019-01-01 腾讯科技(深圳)有限公司 一种文字统计方法及设备
US20140350919A1 (en) * 2013-05-27 2014-11-27 Tencent Technology (Shenzhen) Company Limited Method and apparatus for word counting
US20150046152A1 (en) * 2013-08-08 2015-02-12 Quryon, Inc. Determining concept blocks based on context
US10043182B1 (en) * 2013-10-22 2018-08-07 Ondot System, Inc. System and method for using cardholder context and preferences in transaction authorization
EP3092557B1 (en) 2013-12-05 2024-03-27 AB Initio Technology LLC Managing interfaces for dataflow graphs composed of sub-graphs
US10521441B2 (en) * 2014-01-02 2019-12-31 The George Washington University System and method for approximate searching very large data
MY173084A (en) * 2014-05-23 2019-12-25 Mimos Berhad Adaptive-window edit distance algorithm computation
US9589074B2 (en) 2014-08-20 2017-03-07 Oracle International Corporation Multidimensional spatial searching for identifying duplicate crash dumps
US10764265B2 (en) * 2014-09-24 2020-09-01 Ent. Services Development Corporation Lp Assigning a document to partial membership in communities
US9805099B2 (en) * 2014-10-30 2017-10-31 The Johns Hopkins University Apparatus and method for efficient identification of code similarity
US9679024B2 (en) * 2014-12-01 2017-06-13 Facebook, Inc. Social-based spelling correction for online social networks
JP2015062146A (ja) * 2015-01-05 2015-04-02 富士通株式会社 情報生成プログラム、情報生成装置、および情報生成方法
US9646061B2 (en) 2015-01-22 2017-05-09 International Business Machines Corporation Distributed fuzzy search and join with edit distance guarantees
US9904672B2 (en) 2015-06-30 2018-02-27 Facebook, Inc. Machine-translation based corrections
US20170004120A1 (en) * 2015-06-30 2017-01-05 Facebook, Inc. Corrections for natural language processing
US10657134B2 (en) 2015-08-05 2020-05-19 Ab Initio Technology Llc Selecting queries for execution on a stream of real-time data
US10140200B2 (en) * 2015-10-15 2018-11-27 King.Dom Ltd. Data analysis
IL242218B (en) * 2015-10-22 2020-11-30 Verint Systems Ltd A system and method for maintaining a dynamic dictionary
CN105446957B (zh) 2015-12-03 2018-07-20 小米科技有限责任公司 相似性确定方法、装置及终端
AU2016377516B2 (en) 2015-12-21 2020-01-30 Ab Initio Technology Llc Sub-graph interface generation
WO2017197402A2 (en) * 2016-05-13 2017-11-16 Maana, Inc. Machine-assisted object matching
US11176180B1 (en) * 2016-08-09 2021-11-16 American Express Travel Related Services Company, Inc. Systems and methods for address matching
US10228955B2 (en) * 2016-09-29 2019-03-12 International Business Machines Corporation Running an application within an application execution environment and preparation of an application for the same
US10394960B2 (en) 2016-12-21 2019-08-27 Facebook, Inc. Transliteration decoding using a tree structure
US10810380B2 (en) 2016-12-21 2020-10-20 Facebook, Inc. Transliteration using machine translation pipeline
US10402489B2 (en) 2016-12-21 2019-09-03 Facebook, Inc. Transliteration of text entry across scripts
US10546062B2 (en) * 2017-11-15 2020-01-28 International Business Machines Corporation Phonetic patterns for fuzzy matching in natural language processing
US11294943B2 (en) 2017-12-08 2022-04-05 International Business Machines Corporation Distributed match and association of entity key-value attribute pairs
US11163952B2 (en) * 2018-07-11 2021-11-02 International Business Machines Corporation Linked data seeded multi-lingual lexicon extraction
WO2020159772A1 (en) * 2019-01-31 2020-08-06 Optumsoft, Inc. Approximate matching
US11269905B2 (en) * 2019-06-20 2022-03-08 International Business Machines Corporation Interaction between visualizations and other data controls in an information system by matching attributes in different datasets
CN112084771A (zh) * 2020-07-22 2020-12-15 浙江工业大学 一种基于地址的单字权重统计方法
US11886794B2 (en) * 2020-10-23 2024-01-30 Saudi Arabian Oil Company Text scrambling/descrambling
US11556593B1 (en) 2021-07-14 2023-01-17 International Business Machines Corporation String similarity determination
US11615243B1 (en) * 2022-05-27 2023-03-28 Intuit Inc. Fuzzy string alignment
KR20240025272A (ko) 2022-08-18 2024-02-27 한국전력공사 자연어 처리를 위한 비정형 데이터 기반 근사 질의응답 시스템 및 방법

Family Cites Families (90)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02129756A (ja) 1988-11-10 1990-05-17 Nippon Telegr & Teleph Corp <Ntt> 単語照合装置
US5179643A (en) * 1988-12-23 1993-01-12 Hitachi, Ltd. Method of multi-dimensional analysis and display for a large volume of record information items and a system therefor
US5388259A (en) * 1992-05-15 1995-02-07 Bell Communications Research, Inc. System for accessing a database with an iterated fuzzy query notified by retrieval response
JPH0644309A (ja) 1992-07-01 1994-02-18 Nec Corp データベース管理方式
JPH0944518A (ja) 1995-08-02 1997-02-14 Adoin Kenkyusho:Kk 画像データベースの構築方法と、画像データベースの検索方法及び検索装置
US5832182A (en) * 1996-04-24 1998-11-03 Wisconsin Alumni Research Foundation Method and system for data clustering for very large databases
JPH10275159A (ja) 1997-03-31 1998-10-13 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び装置
JP3466054B2 (ja) 1997-04-18 2003-11-10 富士通株式会社 グループ化と集計演算処理方式
US6026398A (en) * 1997-10-16 2000-02-15 Imarket, Incorporated System and methods for searching and matching databases
JPH11184884A (ja) 1997-12-24 1999-07-09 Ntt Data Corp 同一人判定システムおよび方法
US6581058B1 (en) * 1998-05-22 2003-06-17 Microsoft Corporation Scalable system for clustering of large databases having mixed data attributes
US6285995B1 (en) 1998-06-22 2001-09-04 U.S. Philips Corporation Image retrieval system using a query image
US6742003B2 (en) * 2001-04-30 2004-05-25 Microsoft Corporation Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications
JP2000029899A (ja) 1998-07-14 2000-01-28 Hitachi Software Eng Co Ltd 建物と地図とのマッチング方法および記録媒体
US6658626B1 (en) * 1998-07-31 2003-12-02 The Regents Of The University Of California User interface for displaying document comparison information
US6493709B1 (en) * 1998-07-31 2002-12-10 The Regents Of The University Of California Method and apparatus for digitally shredding similar documents within large document sets in a data processing environment
US6317707B1 (en) * 1998-12-07 2001-11-13 At&T Corp. Automatic clustering of tokens from a corpus for grammar acquisition
US7356462B2 (en) * 2001-07-26 2008-04-08 At&T Corp. Automatic clustering of tokens from a corpus for grammar acquisition
US6456995B1 (en) * 1998-12-31 2002-09-24 International Business Machines Corporation System, method and computer program products for ordering objects corresponding to database operations that are performed on a relational database upon completion of a transaction by an object-oriented transaction system
AU780926B2 (en) * 1999-08-03 2005-04-28 Bally Technologies, Inc. Method and system for matching data sets
AU1051101A (en) 1999-10-27 2001-05-08 Zapper Technologies Inc. Context-driven information retrieval
JP2001147930A (ja) 1999-11-19 2001-05-29 Mitsubishi Electric Corp 文字列比較方法および文字列比較を用いた情報検索装置
US7328211B2 (en) * 2000-09-21 2008-02-05 Jpmorgan Chase Bank, N.A. System and methods for improved linguistic pattern matching
DE10048478C2 (de) * 2000-09-29 2003-05-28 Siemens Ag Verfahren zum Zugriff auf eine Speichereinheit bei der Suche nach Teilzeichenfolgen
US6931390B1 (en) * 2001-02-27 2005-08-16 Oracle International Corporation Method and mechanism for database partitioning
JP3605052B2 (ja) 2001-06-20 2004-12-22 本田技研工業株式会社 あいまい検索機能を備える図面管理システム
US20030033138A1 (en) * 2001-07-26 2003-02-13 Srinivas Bangalore Method for partitioning a data set into frequency vectors for clustering
US7043647B2 (en) 2001-09-28 2006-05-09 Hewlett-Packard Development Company, L.P. Intelligent power management for a rack of servers
US6570511B1 (en) * 2001-10-15 2003-05-27 Unisys Corporation Data compression method and apparatus implemented with limited length character tables and compact string code utilization
US7213025B2 (en) 2001-10-16 2007-05-01 Ncr Corporation Partitioned database system
US20030120630A1 (en) * 2001-12-20 2003-06-26 Daniel Tunkelang Method and system for similarity search and clustering
WO2003065252A1 (en) * 2002-02-01 2003-08-07 John Fairweather System and method for managing memory
EP1485825A4 (en) * 2002-02-04 2008-03-19 Cataphora Inc DETAILED EXPLORATION TECHNIQUE OF SOCIOLOGICAL DATA AND CORRESPONDING APPARATUS
EP1552501A4 (en) * 2002-06-12 2009-07-01 Jena Jordahl TOOLS FOR STORAGE, EXTRACTION, HANDLING AND VISUALIZATION OF DATA, PROVIDING MULTIPLE VIEWPOINTS OF HIERARCHICAL PERCEIVES
US6961721B2 (en) * 2002-06-28 2005-11-01 Microsoft Corporation Detecting duplicate records in database
US20050226511A1 (en) 2002-08-26 2005-10-13 Short Gordon K Apparatus and method for organizing and presenting content
US7043476B2 (en) * 2002-10-11 2006-05-09 International Business Machines Corporation Method and apparatus for data mining to discover associations and covariances associated with data
US7392247B2 (en) 2002-12-06 2008-06-24 International Business Machines Corporation Method and apparatus for fusing context data
US20040139072A1 (en) * 2003-01-13 2004-07-15 Broder Andrei Z. System and method for locating similar records in a database
US7912842B1 (en) 2003-02-04 2011-03-22 Lexisnexis Risk Data Management Inc. Method and system for processing and linking data records
US7287019B2 (en) * 2003-06-04 2007-10-23 Microsoft Corporation Duplicate data elimination system
US20050120011A1 (en) * 2003-11-26 2005-06-02 Word Data Corp. Code, method, and system for manipulating texts
US7526464B2 (en) * 2003-11-28 2009-04-28 Manyworlds, Inc. Adaptive fuzzy network system and method
US7283999B1 (en) * 2003-12-19 2007-10-16 Ncr Corp. Similarity string filtering
US7472113B1 (en) * 2004-01-26 2008-12-30 Microsoft Corporation Query preprocessing and pipelining
GB0413743D0 (en) * 2004-06-19 2004-07-21 Ibm Method and system for approximate string matching
US7917480B2 (en) * 2004-08-13 2011-03-29 Google Inc. Document compression system and method for use with tokenspace repository
US8407239B2 (en) * 2004-08-13 2013-03-26 Google Inc. Multi-stage query processing system and method for use with tokenspace repository
US20080040342A1 (en) * 2004-09-07 2008-02-14 Hust Robert M Data processing apparatus and methods
US7523098B2 (en) * 2004-09-15 2009-04-21 International Business Machines Corporation Systems and methods for efficient data searching, storage and reduction
US8725705B2 (en) * 2004-09-15 2014-05-13 International Business Machines Corporation Systems and methods for searching of storage data with reduced bandwidth requirements
US7290084B2 (en) * 2004-11-02 2007-10-30 Integrated Device Technology, Inc. Fast collision detection for a hashed content addressable memory (CAM) using a random access memory
US8224830B2 (en) * 2005-03-19 2012-07-17 Activeprime, Inc. Systems and methods for manipulation of inexact semi-structured data
US9110985B2 (en) * 2005-05-10 2015-08-18 Neetseer, Inc. Generating a conceptual association graph from large-scale loosely-grouped content
US7584205B2 (en) 2005-06-27 2009-09-01 Ab Initio Technology Llc Aggregating data with complex operations
US7658880B2 (en) * 2005-07-29 2010-02-09 Advanced Cardiovascular Systems, Inc. Polymeric stent polishing method and apparatus
US7672833B2 (en) * 2005-09-22 2010-03-02 Fair Isaac Corporation Method and apparatus for automatic entity disambiguation
US7890533B2 (en) * 2006-05-17 2011-02-15 Noblis, Inc. Method and system for information extraction and modeling
US8175875B1 (en) * 2006-05-19 2012-05-08 Google Inc. Efficient indexing of documents with similar content
US7634464B2 (en) 2006-06-14 2009-12-15 Microsoft Corporation Designing record matching queries utilizing examples
US20080140653A1 (en) * 2006-12-08 2008-06-12 Matzke Douglas J Identifying Relationships Among Database Records
US7739247B2 (en) * 2006-12-28 2010-06-15 Ebay Inc. Multi-pass data organization and automatic naming
WO2008083504A1 (en) * 2007-01-10 2008-07-17 Nick Koudas Method and system for information discovery and text analysis
US8694472B2 (en) 2007-03-14 2014-04-08 Ca, Inc. System and method for rebuilding indices for partitioned databases
US7711747B2 (en) * 2007-04-06 2010-05-04 Xerox Corporation Interactive cleaning for automatic document clustering and categorization
WO2008146456A1 (ja) * 2007-05-28 2008-12-04 Panasonic Corporation 情報探索支援方法および情報探索支援装置
US7769778B2 (en) * 2007-06-29 2010-08-03 United States Postal Service Systems and methods for validating an address
US7788276B2 (en) * 2007-08-22 2010-08-31 Yahoo! Inc. Predictive stemming for web search with statistical machine translation models
US7925652B2 (en) * 2007-12-31 2011-04-12 Mastercard International Incorporated Methods and systems for implementing approximate string matching within a database
US8775441B2 (en) 2008-01-16 2014-07-08 Ab Initio Technology Llc Managing an archive for approximate string matching
US8032546B2 (en) * 2008-02-15 2011-10-04 Microsoft Corp. Transformation-based framework for record matching
US8266168B2 (en) * 2008-04-24 2012-09-11 Lexisnexis Risk & Information Analytics Group Inc. Database systems and methods for linking records and entity representations with sufficiently high confidence
US7958125B2 (en) * 2008-06-26 2011-06-07 Microsoft Corporation Clustering aggregator for RSS feeds
US20120191973A1 (en) * 2008-09-10 2012-07-26 National Ict Australia Limited Online presence of users
US8150169B2 (en) * 2008-09-16 2012-04-03 Viewdle Inc. System and method for object clustering and identification in video
CN107273977A (zh) 2008-10-23 2017-10-20 起元技术有限责任公司 用于标识匹配的方法、系统和机器可读硬件存储装置
US20100169311A1 (en) * 2008-12-30 2010-07-01 Ashwin Tengli Approaches for the unsupervised creation of structural templates for electronic documents
JP5173898B2 (ja) 2009-03-11 2013-04-03 キヤノン株式会社 画像処理方法、画像処理装置、及びプログラム
US20100274770A1 (en) * 2009-04-24 2010-10-28 Yahoo! Inc. Transductive approach to category-specific record attribute extraction
US8161048B2 (en) * 2009-04-24 2012-04-17 At&T Intellectual Property I, L.P. Database analysis using clusters
US8195626B1 (en) 2009-06-18 2012-06-05 Amazon Technologies, Inc. Compressing token-based files for transfer and reconstruction
US8285681B2 (en) * 2009-06-30 2012-10-09 Commvault Systems, Inc. Data object store and server for a cloud storage environment, including data deduplication and data management across multiple cloud storage sites
US8713018B2 (en) * 2009-07-28 2014-04-29 Fti Consulting, Inc. System and method for displaying relationships between electronically stored information to provide classification suggestions via inclusion
US8429179B1 (en) * 2009-12-16 2013-04-23 Board Of Regents, The University Of Texas System Method and system for ontology driven data collection and processing
US8375061B2 (en) * 2010-06-08 2013-02-12 International Business Machines Corporation Graphical models for representing text documents for computer analysis
US8346772B2 (en) * 2010-09-16 2013-01-01 International Business Machines Corporation Systems and methods for interactive clustering
US8463742B1 (en) 2010-09-17 2013-06-11 Permabit Technology Corp. Managing deduplication of stored data
US8606771B2 (en) * 2010-12-21 2013-12-10 Microsoft Corporation Efficient indexing of error tolerant set containment
US8612386B2 (en) * 2011-02-11 2013-12-17 Alcatel Lucent Method and apparatus for peer-to-peer database synchronization in dynamic networks
CN108388632B (zh) * 2011-11-15 2021-11-19 起元科技有限公司 数据分群、分段、以及并行化

Similar Documents

Publication Publication Date Title
JP2011511341A5 (ja)
US11188537B2 (en) Data processing
JP2021523464A5 (ja)
JP2017142844A5 (ja)
AU2015347304B2 (en) Testing insecure computing environments using random data sets generated from characterizations of real data sets
JP2019070799A5 (ja)
JP2013531289A5 (ja)
WO2019041520A1 (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
WO2022153722A1 (en) Systems and methods for semi-supervised extraction of text classification information
US10614109B2 (en) Natural language processing keyword analysis
JP6230725B2 (ja) 因果関係分析装置、及び因果関係分析方法
US20140075299A1 (en) Systems and methods for generating extraction models
US20210133390A1 (en) Conceptual graph processing apparatus and non-transitory computer readable medium
US11403331B2 (en) Multi-term query subsumption for document classification
JP2018028905A5 (ja)
JP2011150515A (ja) テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
JPWO2020208448A5 (ja)
CN110720097A (zh) 图数据库中元组和边的功能性等价
US20120124060A1 (en) Method and system of identifying adjacency data, method and system of generating a dataset for mapping adjacency data, and an adjacency data set
JP2009075972A5 (ja)
WO2019085118A1 (zh) 基于主题模型的关联词分析方法、电子装置及存储介质
JP2018005403A (ja) 課題推定装置、課題推定方法および課題推定プログラム
WO2022230226A1 (en) A meta-learning data augmentation framework
JP5117590B2 (ja) 文書処理装置およびプログラム
JP2013097722A (ja) テキスト要約装置、方法及びプログラム