JP2009524852A5 - - Google Patents

Download PDF

Info

Publication number
JP2009524852A5
JP2009524852A5 JP2008542446A JP2008542446A JP2009524852A5 JP 2009524852 A5 JP2009524852 A5 JP 2009524852A5 JP 2008542446 A JP2008542446 A JP 2008542446A JP 2008542446 A JP2008542446 A JP 2008542446A JP 2009524852 A5 JP2009524852 A5 JP 2009524852A5
Authority
JP
Japan
Prior art keywords
match
computer
key
elements
keys
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008542446A
Other languages
English (en)
Other versions
JP2009524852A (ja
JP5274259B2 (ja
Filing date
Publication date
Application filed filed Critical
Priority claimed from PCT/US2006/045269 external-priority patent/WO2007062156A2/en
Publication of JP2009524852A publication Critical patent/JP2009524852A/ja
Publication of JP2009524852A5 publication Critical patent/JP2009524852A5/ja
Application granted granted Critical
Publication of JP5274259B2 publication Critical patent/JP5274259B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

実施中の高精度化の関与を可能にするために、複数のアルゴリズムを使用することと、アルゴリズムの計算複雑性と予測性と、検索された候補の期待されるセットの一意性と、アジア系のデータセットに固有の候補分布の観測または推定された側面とに基づいて各問い合わせごとにアルゴリズムの最良のサブセットを選択することとを可能にする非決定性の候補検索方法が提供される。図8に、この方法の典型的なステップと一例とが示されている。この方法には、たとえばキーワード、中国語漢字の頭字語(ハクロニム(Hacronyms, Hanzee acronym))または日本語漢字の頭字語(カクロニム(Kacronym, Kanji acronym))等の有効なキーと電話番号とを、問い合わせデータ中に存在する情報から生成するステップが含まれる。すべての有効なキー共通部分の頻度カウント、すなわち問い合わせレコード中のキーと参照レコードとキーとのマッチングが、先行して計算された参照セットから検索される。オプションとして、事前設定された頻度限界より多くの候補が得られるキーを絞り出すかまたは抑圧する。また、提案された検索キューを選択するために別の技術を適用することもできる。たとえば検索時間、共通部分時間、予測性および計算オーバーヘッド等の1つまたは複数のファクタに基づいて、有効なキー共通部分に関して費用関数を生成する。キー共通部分費用の上昇順に、計算複雑性と予測性と可能性のある検索された候補数とに基づいて再配列され、これにしたがって、キー共通部分積の順に候補リストをデータベースから検索する。このような方法により、問い合わせが処理される際にリアルタイムでアプローチを最適化することができる。
アジア系言語において特に注意すべき別の一致階級要素に、産業区分がある。これは、ポリロゴグラム意味論的意化と称される新たな処理によって推定しなければならない(図26〜27)。この処理は、問い合わせストリングの再帰的集約手法を使用する。ここでは、(とりわけ日本における)アジア系の問い合わせは表意文字表記システムおよび音標的表記システムの双方の組み合わせを含むことが多いことを考慮する。この再帰的集約は、一致階級ストリング内で下位分類を行うために、最高確率で産業関連であるキーワードを強調するように行われる。

Claims (19)

  1. コンピュータによって入力データを探索して、記憶されたデータとマッチングする方法において、
    コンピュータが複数の要素を有する探索ストリングを含む入力データを受け取るステップであって、該複数の要素のうち少なくとも幾つかは、表意文字表記システムの一部を構成するステップと、
    ポリロゴグラム意味論的意化と中国語漢字頭字語拡張とジネス単語認識とから成る群から選択された少なくとも1つの手法を使用して、コンピュータが該複数の要素のサブセットを用語のセットに変換する変換ステップと、
    コンピュータが該用語のセットから複数のキーを生成するステップと、
    コンピュータが、記憶されたデータから、
    (a)該複数のキーの最適化を決定して、最適化されたキーを供給し、
    (b)該最適化されたキーと共通点を有する候補を決定して、キー共通部分と該キー共通部分の量とを供給する決定ステップと、
    コンピュータが該キー共通部分に関してコスト関数を生成する生成ステップと、
    コンピュータが、コスト関数にしたがって該キー共通部分の優先順位を決定し、コストで優先順位が決定されたキー共通部分を供給する優先順位決定ステップと、
    コンピュータが、コストで優先順位が決定されたキー共通部分の順に、事前決定された閾値と該キー共通部分の量とによって関連づけて、一致候補を検索する検索ステップと、
    コンピュータが、該一致候補から最良の一致物を選択する選択ステップと
    を有することを特徴とする方法。
  2. 前記決定ステップは、膠着中国語漢字シングリングと膠着日本語漢字シングリングと無言中国語漢字シングリングと無言日本語漢字シングリングと複数の表記システムにわたるテキストインデックス付与とから成る群から選択された少なくとも1つの手法を使用し、
    膠着とは、連続した表意文字によって、それ自体が固有の意味を有する表意文字群が構成されている関係をいい、
    無言とは、連続した表意文字によって、それ自体が固有の意味を有しない表意文字群が構成されている関係をいう、
    請求項1記載の方法。
  3. 前記変換ステップは、前記探索ストリングを、オーバーラップする複数のサブセグメントに分割するステップを有する、請求項1記載の方法。
  4. 前記変換ステップはさらに、前記表意文字表記システムでセマンティックな意味を有するサブセグメントを含む膠着サブセグメントを識別するステップを有する、請求項3記載の方法。
  5. 前記変換ステップはさらに、ノイズサブセグメントを除去するステップを有する、請求項4記載の方法。
  6. 前記変換ステップはさらに、
    前記表意文字表記システムでセマンティックな意味を有さない隣接する要素を含む無言サブセグメントを識別し、
    該無言サブセグメントから予測性を導き出す、請求項5記載の方法。
  7. 前記決定ステップは、膠着サブセグメントおよび無言サブセグメントを使用して、前記最適化されたキーを生成するステップを有する、請求項6記載の方法。
  8. 前記変換ステップは、前記表意文字表記システムの繁体字形および簡体字形を正規化するステップを有する、請求項1記載の方法。
  9. 前記表意文字表記システムは、日本語漢字と繁体字と簡体字(Hanzee)とから成る群から選択された少なくとも1つの表記システムである、請求項1記載の方法。
  10. 前記要素は、アジア系文字およびローマ字を含む、請求項1記載の方法。
  11. 前記変換ステップは、
    前記複数の要素を構文解析して、名前要素と電話番号要素と住所要素とを含む前記用語のセットを識別するステップと、
    ポリロゴグラム手法によってビジネス行を推定し、電話番号要素と住所要素とをクロスチェックするステップと、
    前記表意文字表記システムのイディオムおよび表現を認識して、該イディオムおよび表現が一緒に意味を保持するように維持するステップ
    とを有する、請求項1記載の方法。
  12. 前記変換ステップは、名前要素内の構造指示子および頭字語を識別するステップを有する、請求項11記載の方法。
  13. 前記住所要素に基づいて、フレキシブルなアジア系の住所決定の慣用法の推定によって、緯度情報および経度情報を確立するステップを有する、請求項11記載の方法。
  14. 前記検索ステップは、一致の程度に基づいて、各一致候補に関して一致階級と信頼性コードと一致データプロファイルとを生成するステップを有する、請求項1記載の方法。
  15. 前記信頼性コードを少なくとも部分的に、前記探索ストリングのセマンティックな意味と推定された内容とに基づいて決定するステップを有する、請求項14記載の方法。
  16. コンピュータが、前記信頼性コードに基づいて、選択された一致候補の順序づけされたリストを供給するステップを有する、請求項1記載の方法。
  17. 前記順序づけされたリストの各一致候補を、複数の一致レベルのうち1つの一致レベルに割り当てるステップを有する、請求項16記載の方法。
  18. 前記一致候補を該一致候補の信頼性コードの順にランク付けし、ユーザ定義されたタイブレイク規則に基づいて最高位のランクのレベルをさらに区分化することにより、前記一致レベルの割り当てを決定する、請求項17記載の方法。
  19. コンピュータによって入力データを探索して、記憶されたデータとマッチングする方法を実施するための命令を有するコンピュータ読み出し可能媒体において、
    該方法は、
    複数の要素を有する探索ストリングを含む入力データを受け取るステップであって、該複数の要素のうち少なくとも幾つかは、表意文字表記システムの一部を構成するステップと、
    ポリロゴグラム意味論的意化と中国語漢字頭字語拡張とジネス単語認識とから成る群から選択された少なくとも1つの手法を使用して、該複数の要素のサブセットを用語のセットに変換する変換ステップと、
    該用語のセットから複数のキーを生成する生成ステップと、
    記憶されたデータから、
    (a)該複数のキーの最適化を決定して、最適化されたキーを供給し、
    (b)該最適化されたキーと共通点を有する候補を決定して、キー共通部分と該キー共通部分の量とを供給する決定ステップと、
    該キー共通部分に関してコスト関数を生成するステップと、
    コスト関数にしたがって該キー共通部分の優先順位を決定し、コストで優先順位が決定されたキー共通部分を供給するステップと、
    コストで優先順位が決定されたキー共通部分の順に、事前決定された閾値と該キー共通部分の量とに関連づけて、一致候補を検索するステップと、
    該一致候補から最良の一致物を選択するステップ
    とを有する方法であることを特徴とする、コンピュータ読み出し可能媒体。
JP2008542446A 2005-11-23 2006-11-22 表意文字内容を有するデータを探索およびマッチングするためのシステムおよび方法 Active JP5274259B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US73927005P 2005-11-23 2005-11-23
US60/739,270 2005-11-23
PCT/US2006/045269 WO2007062156A2 (en) 2005-11-23 2006-11-22 System and method for searching and matching data having ideogrammatic content

Publications (3)

Publication Number Publication Date
JP2009524852A JP2009524852A (ja) 2009-07-02
JP2009524852A5 true JP2009524852A5 (ja) 2012-05-31
JP5274259B2 JP5274259B2 (ja) 2013-08-28

Family

ID=38067920

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008542446A Active JP5274259B2 (ja) 2005-11-23 2006-11-22 表意文字内容を有するデータを探索およびマッチングするためのシステムおよび方法

Country Status (13)

Country Link
US (1) US7584188B2 (ja)
EP (1) EP1952285B1 (ja)
JP (1) JP5274259B2 (ja)
KR (1) KR101276602B1 (ja)
CN (1) CN101542475B (ja)
AT (1) ATE480827T1 (ja)
AU (1) AU2006318417B2 (ja)
CA (1) CA2630683C (ja)
DE (1) DE602006016846D1 (ja)
DK (1) DK1952285T3 (ja)
HK (1) HK1121266A1 (ja)
TW (1) TWI426399B (ja)
WO (1) WO2007062156A2 (ja)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8706747B2 (en) * 2000-07-06 2014-04-22 Google Inc. Systems and methods for searching using queries written in a different character-set and/or language from the target pages
US7502632B2 (en) * 2004-06-25 2009-03-10 Nokia Corporation Text messaging device
JP5274259B2 (ja) * 2005-11-23 2013-08-28 ダン アンド ブラッドストリート インコーポレイテッド 表意文字内容を有するデータを探索およびマッチングするためのシステムおよび方法
US7836046B2 (en) * 2008-01-21 2010-11-16 Oracle Financial Services Software Limited Method and system for facilitating verification of an entity based on business requirements
US8010465B2 (en) 2008-02-26 2011-08-30 Microsoft Corporation Predicting candidates using input scopes
US7958107B2 (en) * 2008-04-10 2011-06-07 Abo Enterprises, Llc Fuzzy keyword searching
EP2120130A1 (en) * 2008-05-11 2009-11-18 Research in Motion Limited Mobile electronic device and associated method enabling identification of previously entered data for transliteration of an input
US8296279B1 (en) * 2008-06-03 2012-10-23 Google Inc. Identifying results through substring searching
TW201028869A (en) * 2009-01-19 2010-08-01 Systems & Technology Corp Quick information and data searching system and method by using keywords
US8667026B1 (en) * 2009-01-22 2014-03-04 American Express Travel Related Services Company, Inc. Method and system for ranking multiple data sources
US8171403B2 (en) * 2009-08-20 2012-05-01 International Business Machines Corporation System and method for managing acronym expansions
CA2781321C (en) 2009-11-20 2017-07-11 Google Inc. Cross-language search options
TWI484356B (zh) * 2010-01-07 2015-05-11 Alibaba Group Holding Ltd Retrieval methods, devices and systems
US8515984B2 (en) 2010-11-16 2013-08-20 Microsoft Corporation Extensible search term suggestion engine
US10346479B2 (en) 2010-11-16 2019-07-09 Microsoft Technology Licensing, Llc Facilitating interaction with system level search user interface
US10073927B2 (en) 2010-11-16 2018-09-11 Microsoft Technology Licensing, Llc Registration for system level search user interface
US8635197B2 (en) * 2011-02-28 2014-01-21 International Business Machines Corporation Systems and methods for efficient development of a rule-based system using crowd-sourcing
US8381120B2 (en) 2011-04-11 2013-02-19 Credibility Corp. Visualization tools for reviewing credibility and stateful hierarchical access to credibility
US10540646B2 (en) * 2011-06-22 2020-01-21 Jpmorgan Chase Bank, N.A. Itemized receipts and digital payments system and methods
WO2013096887A1 (en) * 2011-12-23 2013-06-27 Amiato, Inc. Scalable analysis platform for semi-structured data
EP2867800A4 (en) * 2012-06-29 2016-01-27 Nokia Technologies Oy METHOD AND APPARATUS FOR PROVIDING TASK BASED SERVICE RECOMMENDATIONS
US9141807B2 (en) * 2012-09-28 2015-09-22 Synopsys, Inc. Security remediation
US9449056B1 (en) 2012-11-01 2016-09-20 Intuit Inc. Method and system for creating and updating an entity name alias table
US10089302B2 (en) * 2013-02-26 2018-10-02 International Business Machines Corporation Native-script and cross-script chinese name matching
US9858268B2 (en) 2013-02-26 2018-01-02 International Business Machines Corporation Chinese name transliteration
US8712907B1 (en) 2013-03-14 2014-04-29 Credibility Corp. Multi-dimensional credibility scoring
US8996391B2 (en) 2013-03-14 2015-03-31 Credibility Corp. Custom score generation system and methods
KR102052604B1 (ko) * 2014-02-28 2019-12-05 현대엠엔소프트 주식회사 내비게이션의 검색 방법 및 그 장치
US9535945B2 (en) * 2014-04-30 2017-01-03 Excalibur Ip, Llc Intent based search results associated with a modular search object framework
WO2015193960A1 (ja) * 2014-06-17 2015-12-23 楽天株式会社 情報処理装置、サーバ装置、情報処理システム、情報処理方法及びプログラム
US9171173B1 (en) * 2014-10-02 2015-10-27 Terbium Labs LLC Protected indexing and querying of large sets of textual data
CN107924386A (zh) * 2015-08-14 2018-04-17 约翰·钟·李 用于解决键违反以及设置优先级和序列号的技术问题的方法
US9886433B2 (en) * 2015-10-13 2018-02-06 Lenovo (Singapore) Pte. Ltd. Detecting logograms using multiple inputs
CN105677718B (zh) * 2015-12-29 2019-04-09 北京汉王数字科技有限公司 文字检索方法及装置
WO2018022315A1 (en) * 2016-07-25 2018-02-01 Acxiom Corporation Recognition quality management
CN106649764B (zh) * 2016-12-27 2020-04-17 北京汉王数字科技有限公司 文字检索方法及文字检索装置
US11093462B1 (en) 2018-08-29 2021-08-17 Intuit Inc. Method and system for identifying account duplication in data management systems
CN112380401B (zh) * 2021-01-14 2021-04-27 蚂蚁智信(杭州)信息技术有限公司 业务数据的核对方法和装置
CN113535883B (zh) * 2021-07-16 2023-10-31 携程旅游信息技术(上海)有限公司 商业场所实体链接方法、系统、电子设备及存储介质

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5175803A (en) * 1985-06-14 1992-12-29 Yeh Victor C Method and apparatus for data processing and word processing in Chinese using a phonetic Chinese language
US5337233A (en) * 1992-04-13 1994-08-09 Sun Microsystems, Inc. Method and apparatus for mapping multiple-byte characters to unique strings of ASCII characters for use in text retrieval
CA2116600C (en) * 1993-04-10 1996-11-05 David Jack Ittner Methods and apparatus for inferring orientation of lines of text
JPH07105223A (ja) * 1993-10-06 1995-04-21 Oki Electric Ind Co Ltd データベース検索装置
WO1995010805A1 (en) * 1993-10-08 1995-04-20 International Business Machines Corporation Message transmission across a network
WO1995017729A1 (en) * 1993-12-22 1995-06-29 Taligent, Inc. Input methods framework
US5659731A (en) * 1995-06-19 1997-08-19 Dun & Bradstreet, Inc. Method for rating a match for a given entity found in a list of entities
US5819291A (en) * 1996-08-23 1998-10-06 General Electric Company Matching new customer records to existing customer records in a large business database using hash key
US5818291A (en) * 1997-04-04 1998-10-06 United Memories, Inc. Fast voltage regulation without overshoot
JPH1125117A (ja) * 1997-07-08 1999-01-29 Oki Electric Ind Co Ltd 語検索装置
DE69730057T2 (de) * 1997-09-29 2005-08-04 Webplus Ltd., Road Town Ein multi-element vertrauensentsprechungssystem und verfahren hierfür
US6026398A (en) * 1997-10-16 2000-02-15 Imarket, Incorporated System and methods for searching and matching databases
US6963871B1 (en) * 1998-03-25 2005-11-08 Language Analysis Systems, Inc. System and method for adaptive multi-cultural searching and matching of personal names
US7720682B2 (en) * 1998-12-04 2010-05-18 Tegic Communications, Inc. Method and apparatus utilizing voice input to resolve ambiguous manually entered text input
AU3629400A (en) 1999-03-19 2000-10-09 Cybersource Corporation Method and apparatus for verifying address information
US6393415B1 (en) * 1999-03-31 2002-05-21 Verizon Laboratories Inc. Adaptive partitioning techniques in performing query requests and request routing
WO2000062193A1 (en) * 1999-04-08 2000-10-19 Kent Ridge Digital Labs System for chinese tokenization and named entity recognition
AU780926B2 (en) * 1999-08-03 2005-04-28 Bally Technologies, Inc. Method and system for matching data sets
US6848080B1 (en) * 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
AU777445B2 (en) 1999-11-09 2004-10-14 Fraud-Check.Com, Inc. Method and system for detecting fraud in non-personal transactions
JP2001167087A (ja) * 1999-12-14 2001-06-22 Fujitsu Ltd 構造化文書検索装置,構造化文書検索方法,構造化文書検索用プログラム記録媒体および構造化文書検索用インデックス作成方法
US7287002B1 (en) 2000-02-18 2007-10-23 National Systems Corporation System for placing product delivery orders through the internet
EP1139264A3 (en) 2000-03-29 2002-08-21 Ford Motor Company Order status inquiry and tracking
US20030014610A1 (en) 2000-03-29 2003-01-16 Simon Mills Experience sharing
US20020133554A1 (en) 2000-05-25 2002-09-19 Daniel Checkoway E-mail answering agent
US20020002552A1 (en) * 2000-06-30 2002-01-03 Schultz Troy L. Method and apparatus for a GIS based search engine utilizing real time advertising
JP2002041276A (ja) * 2000-07-24 2002-02-08 Sony Corp 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体
TW548600B (en) * 2000-10-04 2003-08-21 Microsoft Corp Method and system for identifying attributes of new words in non-segmented text
JP2002189747A (ja) * 2000-12-19 2002-07-05 Hitachi Ltd 文書情報の検索方法
CA2448770C (en) * 2001-05-31 2010-05-11 Mapinfo Corporation System and method for geocoding diverse address formats
IES20020647A2 (en) * 2001-08-03 2003-03-19 Tristlam Ltd A data quality system
US7152060B2 (en) * 2002-04-11 2006-12-19 Choicemaker Technologies, Inc. Automated database blocking and record matching
US7174288B2 (en) * 2002-05-08 2007-02-06 Microsoft Corporation Multi-modal entry of ideogrammatic languages
EP1552501A4 (en) * 2002-06-12 2009-07-01 Jena Jordahl TOOLS FOR STORAGE, EXTRACTION, HANDLING AND VISUALIZATION OF DATA, PROVIDING MULTIPLE VIEWPOINTS OF HIERARCHICAL PERCEIVES
US7228501B2 (en) * 2002-11-01 2007-06-05 Microsoft Corporation Method for selecting a font
EP1562570A4 (en) * 2002-11-06 2007-09-05 Sinai School Medicine TREATMENT OF AMYOTROPHER LATERAL SCLEROSIS WITH NIMESULID
US7392240B2 (en) * 2002-11-08 2008-06-24 Dun & Bradstreet, Inc. System and method for searching and matching databases
US7822757B2 (en) * 2003-02-18 2010-10-26 Dun & Bradstreet, Inc. System and method for providing enhanced information
US7256769B2 (en) * 2003-02-24 2007-08-14 Zi Corporation Of Canada, Inc. System and method for text entry on a reduced keyboard
US7395203B2 (en) * 2003-07-30 2008-07-01 Tegic Communications, Inc. System and method for disambiguating phonetic input
TW200512599A (en) * 2003-09-26 2005-04-01 Avectec Com Inc Method for keyword correlation analysis
US20060106769A1 (en) * 2004-11-12 2006-05-18 Gibbs Kevin A Method and system for autocompletion for languages having ideographs and phonetic characters
GB0507036D0 (en) * 2005-04-07 2005-05-11 Ibm Method and system for language identification
JP5274259B2 (ja) * 2005-11-23 2013-08-28 ダン アンド ブラッドストリート インコーポレイテッド 表意文字内容を有するデータを探索およびマッチングするためのシステムおよび方法

Similar Documents

Publication Publication Date Title
JP2009524852A5 (ja)
CN111160017B (zh) 关键词抽取方法、话术评分方法以及话术推荐方法
US10402493B2 (en) System and method for inputting text into electronic devices
US8321403B1 (en) Web search refinement
JP5462361B2 (ja) マップサーチのためのクエリパーシング
US7769804B2 (en) Server side search with multi-word word wheeling and wildcard expansion
JP5115741B2 (ja) 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム
US20120259615A1 (en) Text prediction
CN110413764B (zh) 基于预建词库的长文本企业名称识别方法
RU2013119801A (ru) Способы и системы для реализации приближенного сравнения строк в базе данных
CN101542475A (zh) 用于对具有象形表意内容的数据进行搜索和匹配的系统和方法
KR20080085165A (ko) 입력 데이터 확장 시스템 및 방법, 및 와일드카드 삽입 및입력 데이터 확장 시스템
US20100030761A1 (en) Method of retrieving and refining information based on tri-gram
WO2015035821A1 (en) Methods and systems for query segmentation in a search
JP2012094117A (ja) アラビア語テキストに発音区別符号を付与するための方法およびシステム
CN110837730B (zh) 一种未知实体词汇的确定方法及装置
CN109165331A (zh) 一种英文地名的索引建立方法及其查询方法和装置
US9087293B2 (en) Categorizing concept types of a conceptual graph
CN113076758B (zh) 一种面向任务型对话的多域请求式意图识别方法
US20170075915A1 (en) Search suggestions using fuzzy-score matching and entity co-occurrence
JP7149976B2 (ja) 誤り訂正方法及び装置、コンピュータ読み取り可能な媒体
Kim et al. Compact lexicon selection with spectral methods
KR101615164B1 (ko) 엔-그램 기반의 질의 처리 장치 및 그 방법
KR101702055B1 (ko) 딥-러닝 기반 형태소 분석 장치와 형태소 분석 애플리케이션의 작동 방법
CN116860991A (zh) 面向api推荐的基于知识图谱驱动路径优化的意图澄清方法