JP2009524852A

JP2009524852A - 表意文字内容を有するデータを探索およびマッチングするためのシステムおよび方法

Info

Publication number: JP2009524852A
Application number: JP2008542446A
Authority: JP
Inventors: スクリッフィニャーノアンソニー; ネッドケヴィン; シャオペイ; シムペンガン; ルウサラ
Original assignee: Dun&bradstreet inc
Current assignee: Dun&bradstreet inc
Priority date: 2005-11-23
Filing date: 2006-11-22
Publication date: 2009-07-02
Anticipated expiration: 2026-11-22
Also published as: CN101542475B; JP5274259B2; EP1952285B1; DK1952285T3; KR20090014136A; TWI426399B; WO2007062156A3; EP1952285A2; US20070162445A1; KR101276602B1; AU2006318417A2; AU2006318417B2; HK1121266A1; CN101542475A; EP1952285A4; ATE480827T1; CA2630683A1; AU2006318417A1; TW200809549A; US7584188B2

Abstract

非音標文字または表意文字の入力データを探索し、記憶されたデータとマッチングする方法において、複数の要素を有する探索ストリングを含む入力データを受け取るステップと、該要素のサブセットを用語のセットに変換するステップと、該用語のセットから最適化された複数のキーを生成するステップと、該最適化されたキーに基づいて、最高確率で一致する候補に相応して、記憶されたデータを検索するステップと、該複数の候補から最良の一致物を選択するステップとを有する方法。前記表意文字要素のうち少なくとも幾つかが、表意文字表記システムの一部を構成する。本方法はまた、前記探索ストリングを複数のオーバーラップするセグメントに分割するステップと、前記表意文字表記システムにおいて推定されたセマンティックな意味を有するサブセグメントとセマンティックな意味を有さないサブセグメントとを識別するステップと、種々の該サブセグメントを使用して、最適化されたキーを生成するステップとを有する。

Description

関連出願との相互引用関係
本願は、２００５年１１月２３日に提出された米国仮出願第６０／７３９２７０号の優先権を主張する。この内容はすべて、引用によって本願に含まれるものとする。

背景
1. 分野
本願の開示内容は、データの探索およびマッチングに関連し、より詳細には、非音標的内容、意味論的内容または表意文字的な内容を含むデータの探索およびマッチングに関連する。

2. 関連分野の説明
データベース内のデータを効率的に利用するためには、効率的なデータベースアクセスおよび探索を行えることが重要である。この課題で重要なのは、参照領域に記憶された各データ要素すべてを探索する必要なく、一致物を見つけるために動作する手段によって探索される適正なデータの効率的な検索を可能にすることである。

探索マッチングシステムは公知であり、種々の用途に対して、データベースから重要な情報を検索するための有利な手段を提供する。たとえばクレジット産業では、クレジットのために考慮される所与のビジネス実体でのクレジット履歴情報が、典型的には、市販のデータベースによって処理される。ユーザはビジネス実体の名前を、データベースに接続されたプロセッサに入力することができ、その際にはデータベースは、該データベース内に含まれる所与のエンティティを位置検出し、このクレジット履歴情報を検索する。別の例に、共通しないソースからの情報を統合してカスタマまたはサプライヤの共通表示を得ることをユーザが望むアプリケーションが含まれる。

米国特許公開第２００４／０２２０９１８Ａ１号で公開されている米国特許出願第１０／７０２１１４に、入力データを探索して記憶されたデータとマッチングするための方法およびシステムの例が開示されている。この公開内容はすべて、引用によって本願の内容に含まれるものとする。この基本的なアプローチは、順番に実施される３つのプロセスを含む。これらは図１に示されている：
1. クレンジング、構文解析および標準化
このプロセスは、
ａ）問い合わせデータの重要な構成要素の識別
ｂ）名前、住所および都市のデータの規格化
ｃ）住所データの標準化
を含む。

2. 候補検索
これは、
ａ）問い合わせで供給されたデータに基づくキーの選択
ｂ）検索品質および検索速度を改善するためのキーの最適化
ｃ）参照データベースから、可能な一致物候補のうちで最良の一致物候補を集めること
を含む。

3. 評価および判定
このステップは、主観的な判定をたとえば一致階級パターン等の客観的な基準に異なって翻訳し、他の利益の中でも同様の品質のグルーピングに結果を全体的に階層化するために個別の属性判定および信頼性コードを反映するための一貫した再現可能な一致品質フィードバックを使用する一貫した規格にしたがって一致物を評価することを含む。これらの処理によって、自動判定が可能になる。

従来のアジア系一致物フィードバック情報は、一致物問い合わせ結果がＡ，ＢまたはＣとして分類される階層に制限されていた。このフィードバックのレベルは、ＡレベルまたはＢレベルの一致物の中の結果を個別のレベルで区別することなく、理論レベルよりも低い。というのも、各カテゴリ内の一致物の数は、とりわけＢカテゴリ内の一致物の数は有意であり、自然言語話者による手動の介入なしでは、これらを区別することができないからである。

Ａ一致物とＢ一致物とＣ一致物とを分解することは可能であるが、一致物を検証するのに人間のインタラクションを必要とする、手動に大きく依存するプロセスであるという点で高コストである。

マッチングされるカテゴリは、以下で記載されている通りである。「Ａ」一致は、一致の尤度が高いことを示唆するが、重複するものと一致するもの、または偽の一致物を含む可能性がある。「Ｂ」一致は、可能性のある一致物を示唆するが、解するために手動の調査を必要とする。「Ｃ」一致は不一致の可能性を示唆するが、これは、問い合わせデータの不足に起因する可能性がある。

上記の環境における自動判定に係る問題は、粒度の不足である。一致の品質にさらなるフィードバックが行われないと、ユーザは多数の「Ｂ」一致物の中から、最良の一致物を選択することができない。Ａ一致物の中でさえ、各一致物を手動で閲覧することの信頼性の欠落を改善することができない。

図２に従来技術のマッチングシステムのダイヤグラムが示されている。

このシステムでは、異なるレベルのマッチングを有する問い合わせ結果をさらに区別するために、高レベルの一致フィードバックをより高粒度で行い、相応の信頼性コードにマッピングする。ターゲット信頼性コード（"ＣＣ"）は有利には、範囲の保守的端部で選択される。次のチューニングによって、このマッピングの分布が強化される。図３に、このマッピングの一例が示されている。

７以上の信頼性コードでは、このような一致物を人間の介入なしで受け入れられることにより、市場の多くのカスタマがシステムを自動判定に設定する。すべての信頼性コード７の一致物が完全な一致物であるとは限らないので、自動判定閾値を注意深く考慮するのが有利である。その逆に、７を下回る信頼性コードが使用される場合、多くの良好な一致物が無視される可能性がある。したがって、７が品質閾値の保守的端部であり、とりわけ、日本語等の複雑な言語の一致物の品質閾値の保守的端部である。

５〜７の間の信頼性は、とりわけ入力データが散在する状態で、「良好な」一致物がなお存在することを意味する。このような信頼性コード範囲を有する結果ではしばしば、確認のために注意深い検査を行わなければならないことが多い。このことは、日本語文字の例では、自然言語の内在的な複雑さと、使用される表記方式が多様であることとに起因して、しばしば必要とされる。重複による誤った一致物も幾つか存在することがある。

４の信頼性コードは通常、最も低い信頼性コードであるが、この信頼性コードは多くのプロセスにおいて、なお表示されることを考慮される。このような一致物は、適正な一致物であるとするのは「尤もでなく」、一般的には、問い合わせデータが非常に散在しているか、または別の情状酌量の余地がある周辺条件を引き合いに出せるのでない限り、使用すべきでない。

しかし、上記の例で理解できるように、一致業務の識別子またはコンタクト情報等のデータのセットが「７以上」の信頼性コードの一致物であると見なすのにほとんど十分であるのに、このことは、一致するデータが完全に正確であることを意味するわけではない。同様に、「５〜６」の信頼性コードの一致物のすべてが、同レベルの一致レベルを有するわけではない。精度は、固有のビジネスアプリケーションに関して最良に記述される用語である。

一致階級パターンは、異なるレベルの個別の属性マッチングを行う。一致階級結果における「Ａ」シンボルは、カスタマ情報と一致するレコードとの間のこのデータ属性に高信頼性の一致物があることを示す。「Ｂ」は類似性を示唆するが、「Ａ」によって示唆される類似性のレベルに類似するわけではない。「Ｆ」シンボルは、カスタマデータも一致するレコードも双方とも、所与の属性に関して異なるデータを有することを示唆する。「Ｚ」は、カスタマ情報および／またはデータベースレコードのいずれかが、所与のフィールドにいかなる情報も有さないことを示唆する。評価は文字対文字の比較にのみ基づくだけでなく、意味論的な意味、語調、語彙論的な変形または別のファクタにも基づく。さらにこのような割り当ては、粒度を上昇して自動判定を可能にするためには、問い合わせレベル全体で行われるのではなく、個別の属性レベルで行われる。

その際には、信頼性コードを各異なる一致階級ストリングに割り当てることにより、結果の階層化を行うことができる。上記の各構成要素の処理はさらに、図４に示されているような機能領域に分解される。

強化されたフィードバックを使用すると、ユーザはたとえばビジネスルールを実現することができ、たとえば、完全な名前および都市を有する一致物を受け入れ、適正な県（直轄市または省）を有するが都市は不明である一致物の参照を順序づけ、名前の一致が低品質である一致物を無視して、「５〜６」の信頼性コードの一致物を下位分割するビジネスルール等のビジネスルールを実現することができる。その結果として、フィードバックにより自動的な判定が可能になる。

処理が音標文字を含む表記方式、たとえば英語、フランス語およびギリシャ語等を含む表記方式によって行われる区別に依存することができないデータベースでマッチングを行うことに関して、さらなる難題が提起されている。中国語や日本語等の言語では、表記方式は意味論的な意味を表し、表意文字から構築される。このことは、探索およびマッチングに関して独特の難題を提起する。さらに、このような表記方式を使用する国はしばしば、外来語または新語を書き表せるように、音標的な別の表記方式を自由に組み込むことが多い。表意文字的な表記方式における評価の難題は、書き方の意味論的な性質である。単に正書法に基づくだけの伝統的なスコアリング手法は、「similar（類似）」を「same（同一）」から区別するのに十分なレベルで意味を識別するのには不適切なだけである。このことは、本発明の一致階級処理の中心的要素である。

したがって、とりわけ非音標的な表記方式で一致結果の品質を評価するための付加的な基準を提供することにより、既存の探索マッチングシステムおよび探索マッチング方法を改善する必要がある。また、すべてまたは部分的に表意文字コンテキストで書き表されるデータに高コストな人間の介入を行うことなく、機械的な一致物を区別することにより、一貫性およびスケーラビリティを実現できるシステムおよび方法を提供する必要もある。さらに、非音標文字および表意文字の表記方式の難題に取り組む完全自動化された探索およびマッチングのためのシステムおよび方法を提供する必要もある。

要約
本発明の開示では、探索とマッチングとデータマッチングのための品質フィードバックすなわち強化されたアジア系言語（たとえば２倍バイト）一致フィードバックとを行うためのシステムおよび方法を提供する。

本発明の開示ではまた、探索と、入力されたデータと記憶されたデータとのマッチングとをコンピュータによって行う方法も提供する。本方法は、
複数の要素を有する探索ストリングを含む入力されたデータを受け取るステップと、
該複数の要素の部分セットを用語のセットに変換するステップと、
該用語のセットから、最適化された複数のキーを生成するステップと、
該入力されたデータに対する一致物の最大尤度の候補に相応する該最適化された複数のキーに基づく記憶されたデータを検索するステップと、
該複数の一致物候補から最良の一致物を選択するステップ
とを有する。前記要素のうち少なくとも幾つかが、表意文字表記システムの一部を構成する。前記要素の部分セットを用語のセットに変換するステップは、ポリロゴグラム意味論的一意化（polylogogrammatic semantic disambiguation）と、中国語漢字頭字語拡張と、日本語漢字頭字語拡張と、ビジネス用語認識とから成る群から選択された少なくとも１つの手法を使用する。

また、問い合わせレコードと記憶された参照レコードとの間の一致品質の尺度を含む強化されたアジア系言語一致フィードバックシステムも提供されている。このシステムは、アジア系表記システムの固有の側面にカスタマイズされた手法を使用する非表意文字表記システムの従来技術を反映するために構成された。一致階級パターンまたは一致階級ストリングは、データベースレコード内のデータサブセットの数多くの一致値に相応し、既存の構造に、すなわち、問い合わせデータレコードに含まれるデータにマッピングされ、名前の個別の品質と、特定のアドレス構成要素と、電話番号と、別の情報とを反映する。一致階級パターンに相応して信頼性コードが提供され、この信頼性コードはたとえば１〜１０の間の整数によって指定され、一致階級パターンを複数の範囲に階層化することによって保守的な一致品質を反映し、ビジネスルールの適用を可能にする。本方法はさらに、非音標言語または表意文字言語の問い合わせレコードと非音標言語または表意文字言語で記憶された参照レコードとのマッチングも含む。

図面の簡単な説明
図１従来技術のレコードマッチング手法のブロック図である。

図２従来技術のレコードマッチングシステムのブロック図である。

図３信頼性コードとマッチング結果との対応関係を示す表である。

図４従来技術のデータマッチング手法の構成要素の処理を示すブロック図である。

図５日本の業務の参照レコードにおける一致階級パターンのマッピングを示す表である。

図６本発明の強化されたマッチングシステムのブロック図である。

図７一致階級パターンマトリクスを表す表である。

図８候補リストを検索するための方法を示すブロック図である。

図９英語の会社名から導出されたシングル（shingle）の例を図解する図である。

図１０本発明の方法にしたがって導出された中国語漢字シングル（「shingles」）の例を図解する図である。

図１１本発明の方法にしたがって導出された「膠着ヒングル」の例を図解する図である。

図１２本発明の方法にしたがって導出された「無言ヒングル」の例を図解する図である。

図１３本発明の方法による構造指示子の除去または省略の例を図解する図である。

図１４業務名の一部として含まれる付加的な構造指示子の例を図解する図である。

図１５「ハクロニム（Hacronym）」の例を図解する図である。

図１６簡体字および繁体字の例である。

図１７本発明によるアルゴリズムの予測的スコアの計算を示す表である。

図１８本発明の方法による一致階級ストリングとレコードとの割り当て方法のブロック図である。

図１９一致階級パターンを図解する図である。

図２０本発明の方法による、参照名に割り当てられた一致階級コードを示す表である。

図２１本発明の方法による、参照レコード一致候補に割り当てられた信頼性コードを示す表である。

図２２一致物の結果をどのように呈示するかを示す、本発明の方法による一致階級フィードバックレポートの例である。

図２３本発明の方法による、フルテキストインデックス付与および名前キングリング（kingling）の例を示すフローチャートである。

図２４本発明の方法による独特さに関する一致階級アルゴリズムの例である。

図２５本発明の方法による相対的な独特さと絶対的な独特さとの対比を示す。

図２６本発明の方法によるポリロゴグラム意味論的一意化のためのアルゴリズム例を示す。

図２７本発明の方法による産業スコアリングの表現の仕方を示す。

有利な実施形態の詳細な説明
本発明のシステムおよび方法は、
１）クレンジング、構文解析および標準化
２）候補検索
３）評価および判定
を含む。評価および判定には、一貫した標準にしたがって一致物を評価するステップと、粗いフィードバックを確立するために一致階級パターンを作成するステップと、自動判定を行うための信頼性コードを割り当てるステップとを有する。これは、付加情報の一致データプロファイルを含む。すべてのプロセスは、表意文字表記システムによって提起された難題を扱うために強化されている。

この強化されたアジア系言語一致フィードバックシステムとアジア系言語一致フィードバック方法とは、３つの一致品質基準を有する：
１）一致階級スコアすなわち一致階級が既存のデータ構造にマッピングされ、名前、特定の住所構成要素、電話番号および別の情報の個別の品質を表す。
２）結果の階層化を行うための信頼性コード。たとえば３，５および７等の数によって表される。
３）結果に到達するために使用される特定のメタデータに関する付加的な情報を含み、かつさらに一致結果を区分化するように、とりわけ「５〜６」の信頼性コードの一致結果を区分化するように一致データプロファイルも設けられる。

さらに、世界の別の部分におけるその時点のフィードバックに類似するよりロバストな通信のためのソリューションで、使用可能（または導出可能）な情報をマッピングすることもできる。図５に、日本の一致ソリューションにおけるこのマッピングの一例が示されている。

本発明の強化されたマッチングシステムによって実施される方法を以下で説明する。図６に、本願発明のシステムの実施形態が図解されている。この新規のシステムは現在のデータマッチングシステムに取って代わるか、または現在の文字ベースのシステムの補強として機能することができる。このシステムは付加的なコンポーネントおよび作業フローステージのセットとして、現在の作業フローのプロセスに追加するのに十分なモジュール性を有する。

クレンジング、構文解析および標準化（ＣＰＳ）
強化されたマッチングシステムは、強化されたマッチング方法に使用される。このマッチング方法は、入力された問い合わせデータをクレンジング、構文解析および標準化する（ＣＰＳ）第１のステップで開始される。

１つの実施形態では、入力された探索データをクレンジング、構文解析および標準化（ＣＰＳ）するために、外部のソフトウェアが使用される。このプロセスの出力は、導出された情報を評価し、略称を拡張し、別の公知の使用課題を考慮するためにさらに強化される。この拡張は、たとえば図１３，１４，１５および１６に記載されたようなアジア系の慣用法に適合された特定の手法を使用する。

このシステムは、データを探索するユーザによってデータを入力するかまたは該システムを管理するユーザによってデータを入力するための種々のフィールドを有する。第１セットのフィールドは、ユーザが種々のデータを入力して探索ジョブの処理を管理できるように設けられる多数の「ジョブ設定」を有する。このような種々の種類のデータは、「ジョブ選択」ユーザインタフェース（ＵＩ）において異なるフィールドとして呈示することができる。このジョブ選択インタフェースは、以下のもののためのフィールドを含むことができる：
（ａ）処理バッチ番号：これは自動生成され、ユーザによって確認されるだけと考えられる。ジョブ番号はジョブを一意に識別し、カスタマＩＤ（下記参照）を番号の一部として含むこともできる。このシステムはジョブバッチ番号も作成し、これを択一的手段として使用することができる。

（ｂ）カスタマＩＤ：これは有利には、カスタマを識別するための番号である。カスタマＩＤはルックアップによって検索することができ、システムは、カスタマＩＤが存在しない場合に新規のカスタマＩＤを作成することができる。これは有利には、完全なカスタマリレーションシップマネージメント（ＣＲＭ）ではないが、データがシステムを通過する際に該データを「タグ」付けするのにまさしく必要とされるものである。

（ｃ）自動判定閾値：この値は、ジョブに対して事前選択された閾値信頼性コードに基づく。たとえば、（処理およびタイブレイクロジックによって重複物が得られないことを前提として）システムがＤＵＮＳ識別子すなわち一意の法人識別子を自動マッチングできる１〜１０の、信頼性コード閾値。この機能は有利には、ジョブ選択ウィンドウに含まれる。

（ｄ）問い合わせ用／参照用ＳＱＬ（structured query language）テーブル：このテーブルにおいてユーザは、問い合わせデータおよび／または参照データを含むサーバ、データベースおよびテーブルを指定することができる。１つの実施形態では、外部ソフトウェアが処理する各ジョブごとに該外部ソフトウェアがテーブルを作成し、このテーブルが問い合わせデータテーブルとなる。

（ｅ）ジョブのレポート：ジョブ設定インタフェースは、所望のレポートと該レポートを書き込む位置とを予め指定する機能を有することもできる。

システムは、一致階級パターンマトリクスを有するデータにアクセスするための管理インタフェースも含むことができる。一致階級パターンマトリクスの一例が図７に示されており、これによって、一致階級パターンと、信頼性コードに対する該一致階級パターンのマッピングとがシステムデータベースに記憶される。システムは基本的なグラフィカルユーザインタフェース（ＧＵＩ）を介してこれらを探索および編集することができる。管理インタフェースはさらに、記憶されたタイブレイク規則にアクセスすることもでき、このタイブレイク規則は、同様に階層化された可能な結果のグループから最終的な最良一致物を選択するための規則である。このようなタイブレイク規則を以下で詳細に説明する。タイブレイク規則は有利にはモジュール性であるから、システムプログラムのアーティファクト内で「ハードコード」されているだけでなく、持続的なチューニングが可能になる。１つの実施形態では、各カスタマのタイブレイク規則セットが個別のファイルに記憶され、ユーザのタイブレイク規則がデフォルトとして自動的に現れる。別の実施形態では、ＵＩはジョブに対するタイブレイク規則を選択するか、または、規則の位置すなわちディレクトリを選択することができる。有利には、このタイブレイク規則はスクリプトで記憶されるか、または別の編集可能なフォーマットで記憶されることにより、システムの新規のリリースを必要とせずに、規則を強化、除去または追加することが可能であるようにされる。

ユーザは、探索すべき所望のエンティティを識別する種々のデータを入力することができる。ユーザの問い合わせを表すデータは問い合わせデータと称され、これは、問い合わせレコードと称されるレコードに記憶される。このような処理問い合わせデータは、ユーザが参照データベースから最良の一致物の位置検出を試みるエンティティに関する情報を表すデータを含む。このようなデータはユーザによって入力される。このデータは、業務名データ、住所データおよび電話番号データを含み、これらはすべて、上記のクレンジング、構文解析および標準化（ＣＰＳ）のルーティンで処理される。入力は、アジア系文字およびローマ文字のスクリプト双方を含む混合的な文字セットで行うことができる。住所データは、住所法則（codification）を導出するためのＣＰＳルーティンによって処理され、評価のためにさらに分割される。電話番号は、現地の国の慣用法に基づいてサブフィールドを分離するために、ＣＰＳルーティンによって標準化される。

付加的なデータをユーザ入力されたデータとともに記憶することもでき、これには、ジョブがシステムに存在する間は該ジョブを一意に識別するために入力データとともに記憶されるバッチ番号や、ジョブ内の各問い合わせデータレコードを一意に識別するレコード番号が含まれる。レコード番号は、単なる連続番号とすることができる。

ユーザ入力された問い合わせデータの処理により、多数のデータ要素およびコードが生成される。システムはアルゴリズムを使用して、範囲内のすべてのデータ要素を評価することにより、以下で規定されるような検索キーと評価属性とを得る。このようなアルゴリズムの多くは、音標表記および表意文字表記の双方を含む複数のスクリプトを同時に扱えるように構築される。データ要素、キーおよび属性は、各問い合わせレコードごとにデータベースに記憶される。このようなデータ要素は、音標的言語で形成されるか、または非音標的言語で形成されるか、または表意文字言語で形成されるか、またはこれらの組み合わせで形成される。レコードは以下のものを含む：
ａ）（ＣＰＳ後の）クレンジングされた業務名これは、アルゴリズムが適用される標準化された名前である。１つの実施例では、アルゴリズムはリターンコード構文解析を含む。このリターンコード構文解析では、リターンコードの最初のバイトは業務名評価に使用される。付加的な変換には、頭字語の拡張および既知のエイリアスの処理と、観測されたアジア系表記慣用法の処理とが含まれる。これは図１３，１４，１５および１６に示されている。

ｂ）たとえば日本の県名等の付加的な情報を推定および追加することができる。

ｃ）住所法則をシステムに入力するか、計算するか、または外部のモジュールから検索することができる。システムはアルゴリズムを使用して法則を導出または構文解析することにより、番地番号、番地名、都市、省（県）および／または郵便番号を含むデータを検索する。たとえば日本では、居住地番号は実際の番地番号に匹敵する数値情報を含み、複数の表記システムにわたって日本語文字において異なる書き表し方のたとえば bldg，building，floor，FL，room，RM，suite 等のキーワードをピックアップすることにより、建物階数および部屋番号を識別して除去する。

たとえば経度／緯度等の別の法則も、このシステムによって実施することができる。この法則を構文解析することにより、付加的な属性を導出することができる。

ｄ）電話加入区域番号をシステムへの直接入力によって供給し、ＣＰＳ処理によって豊富にする。ＣＰＳを実施して、入力された電話番号の構文解析を行うために、カスタムのアルゴリズムを作成する。可能な場合には、この電話番号は部分構成要素に構文解析される。その後、これは問い合わせレコードに記憶される。

候補検索
問い合わせデータがクレンジング、構文解析および標準化された後、システムは評価のための候補リストを検索しなければならない。この目的は、参照データベースから存在する中で最良の一致物を含む可能性が最も高い候補リストを構築すると同時に、考慮すべき候補のプールと、この候補のプールを検索する計算複雑性とを最小化することである。候補は参照データの中で「最良の」候補でなければならない。すなわち、文字の類似性のみを考慮するだけでなく、語調、表意文字内容およびアジア系表記システムに固有の別の側面も考慮して問い合わせレコードと最高の類似性を有する参照レコードでなければならない。換言するとこの処理は、存在し推定されるすべての情報を考慮して、最高確率の候補のリストを戻さなければならない。

候補検索は通常、問い合わせレコードと同様のデータベース中のレコードを区別するための手法に依拠する。使用されるアルゴリズムは、予測性と、検索されるレコード数に関連するパフォーマンスと、検索キーを導出する計算複雑性ひいては候補リストを処理できる速度とのバランスを打ち出す。前記予測性はすなわち、期待される一致物を含むレコードのセットをアルゴリズムが検索する確率はどの程度か、である。

実施中の高精度化の関与を可能にするために、複数のアルゴリズムを使用することと、アルゴリズムの計算複雑性と予測性と、検索された候補の期待されるセットの一意性と、アジア系のデータセットに固有の候補分布の観測または推定された側面とに基づいて各問い合わせごとにアルゴリズムの最良のサブセットを選択することとを可能にする非決定性の候補検索方法が提供される。図８に、この方法の典型的なステップと一例とが示されている。この方法には、たとえばキーワード、中国語漢字の頭字語（ハクロニム（Hacronyms, Hanzee acronym））または日本語漢字の頭字語（カクロニム（Kacronym, Kanji acronym））等の有効なキーと電話番号とを、問い合わせデータ中に存在する情報から生成するステップが含まれる。すべての有効なキー交差の頻度カウント、すなわち問い合わせレコード中のキーと参照レコードとキーとのマッチングが、先行して計算された参照セットから検索される。オプションとして、事前設定された頻度限界より多くの候補が得られるキーを絞り出すかまたは抑圧する。また、提案された検索キューを選択するために別の技術を適用することもできる。たとえば検索時間、交差時間、予測性および計算オーバーヘッド等の１つまたは複数のファクタに基づいて、有効なキー交差に関して手間関数を生成する。キー交差は手間の上昇順に、計算複雑性と予測性と可能性のある検索された候補数とに基づいて再配列され、これにしたがって、キー交差積の順に候補リストをデータベースから検索する。このような方法により、問い合わせが処理される際にリアルタイムでアプローチを最適化することができる。

音標的言語では、正書法の変形を考慮するのに使用されるアルゴリズムのうち１つに「シングリング（shingling）」として知られる手法がある。この手法では、既知のサイズおよびオフセットの正書法のフラグメントが、問い合わせストリングの並べ替えによって選択され、データベース内の既知のレコードにおいてこれらの同じフラグメントがどの程度独特であるかを示すインデックスと比較される。適切なキーは、低頻度で観測されるフラグメントを表すフラグメントである。"Shell Oil Company"の名前のシングルの例が図９に示されている。（音標的言語での）シングリングの実施では、高予測性でありかつ計算スループットの観点から効率的でもある可能性が高い「独特の」シングル（すなわち比較的低頻度で現れるシングル）を識別できる場合、シングリングを使用する。

シングリングを非音標言語で使用する際の難題は、シンボルが変わることが格段に大きな意味を有することである。確かに、意味を保持しながら文字が省略され、かつ／または再編成される状況は確実に存在するが、このような言語で「誤植」が生じる可能性は低い。また、アジア系言語の入力手法のエディタの複雑さに起因して、同様の発音のシンボルが入力される可能性もある。また、別のシンボルと結合される場合に特定のシンボルが、文字の組み合わせによってのみ表される新たな意味を持つことから、別の難題が生じる。このような組み合わされた複雑なグループ化は、アルゴリズム操作注に分離しないように注意深く処理しなければならない。そうしないと、隠された意味が失われるか変化してしまう。

本発明は、アジア系言語に適切な手法でシンボル操作を管理することによって問い合わせデータのフラグメントをマッチングする方法を提供する。この方法は特定のシンボルを、非音標言語ではまとめられた場合により高度な意味を有する「膠着」シングルとしてまとめる。観測された膠着シングル（中国語漢字では"ヒングル"と称され、日本語漢字では"キングル"と称される）間で得られる移行部から、付加的な推定結果が導き出される。図１０〜１２に、中国語に適用されるこの方法の実施形態が示されているが、この方法は、すべての非音標言語または非音標文字の通信システムで使用できる。同じデータ属性で混合的な表記システム（たとえば日本語の漢字と片仮名との組み合わせ）を考慮するために外挿も適用される。

図９は「シングル」の一例である。中国語表記システムである中国語漢字でシングリングに取り組むためには、この方法は"ヒングリング（hingling）"を使用する。これは、Hanzee-shingling（中国語漢字シングリング）の略である。図１０に、中国語漢字シングル（Hanzee shingle）またはヒングル（hingle）の例が示されている（これらのヒングルは２文字の長さであるから、"ハプル（Huple）"（２文字中国語漢字（Hanzee Duple））と称することができる。ヒングリングは探索ストリングの部分セグメントのオーバーラップのコンセプトを保持しながら、特定の中国語漢字シングルまたはヒングルを"膠着"として扱う。というのもこのような特定の中国語漢字シングルは、何らかの高度な意味を持つようにまとめられるからである。このような"膠着ヒングル"は表意文字表記の顕著な特徴であり、候補検索を劇的に改善するのに活用することができる。中国語漢字は英数字でもなければ単語でもなく、セマンティック要素である。このように、文字の意味は"膠着する"ことで急激に変化する。このことは図１１に示されている。したがって、図１１に示されているような「Shanghai」を表す文字のセット（上海）は特別なセットとしてマーキングされ、特定の操作中は一緒にまとめられたままにされる。各ヒングルからヒングル（または各ハプルからハプル）への移行部を観測することで、候補検索手法は入力ストリングの高予測性の部分構成要素を導き出すことができる。

多くの"膠着ヒングル"は"ノイズヒングル"でもある。このことは、ヒングルが高頻度で現れるので候補検索には使用できないことを意味する。技術的に言うと、このようなヒングルは「重要でない」。その逆に「重要な」ヒングルは、頻出しないので候補検索を行う際には高予測性であるヒングルである。

ヒングリングおよび膠着ヒングルの他に付加的に、本発明は、"ノイズヒングル"または一緒に頻出するので候補検索に使用できず「重要でない」ヒングルを区別する。この方法はまた、"無言ヒングル"を識別および使用する。これは、参照情報で隣接するのが観察される表意文字のグループであるが検査されないと、暗示された意味を有さないヒングルである。このような"無言ヒングル"の出現はセマンティックな意味を有さないが、候補検索手法では強い予測子と見なされる。図１２に無言ヒングルの一例が示されている。

したがって本方法は、データベースを分析してすべての"ノイズヒングル"を特別なファイルにサイドライン化する。このようなノイズヒングルは参照テーブル形成には使用されず、問い合わせ入力では無視される。この方法は非常に高予測性である。

上記の名前の用法および方法は、日本語表記のための漢字にも拡張することができる。このことによって得られる"キングル（kingle）"、"膠着キングル"、"無言キングル"および重要な／重要でない削り取りは同様の機能を有するが、日本語の問い合わせデータには片仮名、ローマ字および平仮名が散在するので、高予測性の結果を得るためには表意文字アルゴリズムを従来の音標文字の手法によって強化しなければならない。

この方法は、非音標言語で現れる名前の付加的な側面の分析も行う。図１３に示された１つの実施形態では、システムは通常現れる指示子を、たとえば構造指示子を省略するかまたは無視することができる。図１３に示されているようにシステムは、D&B Corporation 社の台湾支社を意味する"D&B Taiwan"の中国語漢字名中の構造指示子を認識する。この例では、システムは"American business"を表すヒングルを除去するかまたはサイドライン化し、"Taiwanese corporate structure"を表すヒングルを省略および／またはサイドライン化する。したがって、D&B を表す文字の稀な組み合わせはまず、マッチングのために（何らかの高予測性の無言ヒングルと一緒に）使用される。ｓ図１４に示されているように、名前の中の別の構造指示子を探索に使用するか、またはサイドライン化することができ、たとえば会社名中の課または部の指示子を探索に使用するか、またはサイドライン化することができる。図１５に例示されたような別の実施形態では、会社を記述するのに通常使用される頭字語を反映し、システムが所与のハクロニムを有する候補を探索および検索できるようにするため、"ハクロニム"（Hacronynm）すなわち中国語漢字頭字語（Hanzee acronym）が会社名から分離される。システムはまた、図１６の例で示されているように、非音標言語の簡体字形および繁体字形の相違点を反映する。最後に、"カクロニム"（Kacronym）と称される日本語の日本語漢字頭字語（Kanji acronym）に対し、このアプローチの音標文字強化された同様の実施形態が存在する。これは上記のように、埋め込まれた音標表記によって観測することができる。

システムはまた、一致階級および信頼性コードによって候補をランク付けすることもできる。有利には、システムは最初に、候補を信頼性コードの順にランク付けし、その後、ビジネス上のタイブレイク規則に基づいて最高のランク層をさらに区分する。以下で、一致階級および信頼性コードの割り当てとタイブレイク規則の適用とを詳細に説明する。

ここではまた、ヒングリングと処理全体のための別のアルゴリズムとを含む候補検索アルゴリズムの予測性を評価するのに使用される処理も設けられる。非決定論的な候補検索が行われるマッチング環境では、システムは各問い合わせレコードごとに最も有用なアルゴリズムを選択する。アルゴリズム（Ａ）の計算複雑性ＣＣ（Ａ）は計算の繰り返しであり、基本入力、ステップまたは算術演算の数は計算問題の解決を必要とする。予測性Ｐ（Ａ）は、期待される結論の数を観測された結論の数で割った数に等しい。期待される収量Ｙ（Ａ）は、この方法が使用された場合に戻されたレコードの数に等しい。この処理は第一に、以下の数式に基づいて各アルゴリズムのアルゴリズム定数（ＡＣ（Ａ））を計算する：AC(An) = CC(An) x P(An).このアルゴリズム定数はその後、期待収量によって乗算されることにより、最終スコアＸ（Ａ）が得られる：AC (An) x Y (An) = X (An).図１７にこれらの計算の例が示されている。有利には、最低の最終スコアを出すアルゴリズムがマッチングシステムで使用される。

評価および判定
適切な候補検索手法が選択および使用されると、候補は一致階級（"MG"）ストリングの計算によってスコアリングされる。一致階級ストリングの各要素ごとに、入力データおよび候補データの相応の属性にＡ，Ｂ，ＦまたはＺのコードが割り当てられる。図１８にこの処理が示されている。ＭＧコードを各コード構成要素に割り当てて得られるのが一致階級ストリングまたは一致階級パターンである。これは図１９に示されている。１つの実施形態では、一致階級パターン中には最大１１個のエントリ（バイト）が存在する。

一致階級コードには、問い合わせ主体データ要素を参照データと"同一"として扱うことができることを示唆する"Ａ"一致と、問い合わせ主体データ要素が参照データに"類似する"が同一ではないことを示唆する"Ｂ"一致とが含まれる。このコードには、問い合わせ主体データ要素が参照データと異なることを示唆する"Ｆ"一致と、問い合わせ主体データ要素が問い合わせレコード中または参照データレコード中のいずれかに存在しないことを示唆する"Ｚ"一致も含まれる。

図２０の表に種々の一致階級コードの例が示されている。同図では、"Mitsubishi Trading Corp（三菱商事（株））vs. Mitsubishi Trading（三菱商事）"の例で問い合わせデータと比較された場合の参照結果に対する一致階級コードが示されている。アジア系言語においてＡ／Ｂ／Ｆの推定結果を確立するためには、スコアリング手法は文字対文字比較のみを考慮するのではなく、語調（中国語）、ピンインまたは仮名の文字変換、語彙的変形、字画の複雑さ、および表意文字表記システムに固有の別のパラメータも考慮する。

アジア系の表記システムのニュアンスと現地の慣用法とを考慮するために、特定のプロプライエタリのアルゴリズムが開発されている。たとえば独特さ（１１個の一致階級要素の１つ）は、アジアで見られる非常に大きな都市と日本の県および中国の省の構造との間の相互関係を考慮しなければならない（図２４および２５）。アジア系の業務人口統計で観察されるこのような特色を適合するためには、相対的な独特さと絶対的な独特さとが使用されている。

アジア系言語において特に注意すべき別の一致階級要素に、産業区分がある。これは、ポリロゴグラム意味論的非一意化と称される新たな処理によって推定しなければならない（図２６〜２７）。この処理は、問い合わせストリングの再帰的集約手法を使用する。ここでは、（とりわけ日本における）アジア系の問い合わせは表意文字表記システムおよび音標的表記システムの双方の組み合わせを含むことが多いことを考慮する。この再帰的集約は、一致階級ストリング内で下位分類を行うために、最高確率で産業関連であるキーワードを強調するように行われる。

一致階級ストリングが導出された後、この導出された一致階級ストリングに基づいて信頼性コード（"ＣＣ"）が、参照データレコードまたは検索されたデータレコードに割り当てられる。このことは図２１に示されている。１つの実施形態では、この信頼性コードは１〜１０までの数であり、有利には整数である。この割り当ては、ビジネスルールを適用できるようにデータをグループに分類するためのものである。有利には、ＣＣは図７に示されたようなパターンマトリクスから検索される。ＭＧパターンマトリクスは有利にはＳＱＬテーブルに記憶され、各要素は別個のフィールドに記憶される。

システムの評価ステップおよび判定ステップの実行で、所与の問い合わせエンティティに対して検索されたすべての一致候補のうちで最高の信頼性コードを有する１つより多くの候補が検索された場合、タイブレイク規則を使用しなければならない。自動判定においてジョブ設定とビジネスルールとによって自動判定を行うために、信頼性コードをこのタイブレイク規則とともに使用することができ、最良の候補を識別することができ、かつこの候補が少なくとも、ビジネス適用を保証するための閾値信頼性コードを有する場合、一致物は自動的に許容される。この閾値信頼性コードは、ユーザによって事前選択することができる。タイブレイク規則が使用される場合、いかなる問い合わせレコードでも最終タイを決着するのにどの規則を使用したかと、この最終比較でのデータ値はどんな値であったかをシステムは記録する。

タイブレイク規則の例を以下で説明する。この規則は、１つの候補が他のすべての候補より上位になるまで順番に処理される。ランクは整数で表され、高いランクは低い整数値に相応する。（存在する候補が１つより多い場合）最上位のランクの候補のみが次の規則に進む。

規則１‐"Ａ"一致：業務名、番地番号、番地名、都市、省／県および郵便番号ＭＧパターンはすべて"Ａ"であり、会社の種類は同一である。０‐はい、１‐いいえ
規則２‐業務名の一致階級：業務名の一致階級コードにしたがって候補をランク付けする。０‐Ａ，１‐Ｂ，２‐Ｆ
規則３‐会社の種類：問い合わせデータと比較される（コードごとの）会社の種類にしたがって候補をランク付けする。０‐同一、１‐異なる
規則４‐省／県の一致階級：州のＭＧコードにしたがって候補をランク付けする。０‐Ａ，１‐Ｆ，３‐Ｚ
規則５‐都市の一致階級：都市の一致階級コードにしたがって候補をランク付けする。０‐Ａ，１‐Ｆ，２‐Ｚ
規則６‐番地名の一致階級：番地名の一致階級コードにしたがって候補をランク付けする。０‐Ａ，１‐Ｂ，２‐Ｆ
規則７‐番地番号の一致階級：番地番号の一致階級コードにしたがって候補をランク付けする。０‐Ａ，１‐Ｂ，２‐Ｚ，３‐Ｆ
規則８‐ＯＯＢ（Out of business）指示子：ステータスが営業中であるか否か（ＯＯＢ）にしたがって候補をランク付けする：０＝アクティブ状態、１＝非アクティブ状態（ＯＯＢ）
規則９‐ＨＱ／ＢＲ（本社／支社）ステータス。エンティティの種類にしたがって候補をランク付けする：０＝ＨＱ、１＝単独位置、２＝支社、３＝子会社。

規則１０‐電話番号の"Ａ"一致階級。電話番号の"Ａ"一致階級コードにしたがって候補をランク付けする。０‐Ａ，１‐その他すべて
規則１１‐会社名の中の"会社形式"位置問い合わせデータと比較される（コードごとの）"会社形式"位置指示子にしたがって候補をランク付けする。
０‐同一、１‐異なる。

規則１２‐電話番号の一致階級。電話番号の一致階級コードにしたがって候補をランク付けする。０‐Ａ，１‐Ｂ，２‐Ｚ，３‐Ｆ
規則１３‐郵便番号の一致階級：郵便番号の一致階級コードにしたがって候補をランク付けする。０‐Ａ，１‐Ｂ，２‐Ｚ，３‐Ｆ
規則１４‐ＴＳＲ（取引形態レコード）コードＴＳＲコードの有無にしたがって候補をランク付けする：０‐ＴＳＲコード有り、１‐ＴＳＲコード無し。

規則１５‐現在日付フラグ。"ＣＯＭ"フラグの値にしたがって候補をランク付けする：０‐フラグ無し（データ更新済）、１‐フラグ有り（古いデータ）
規則１６‐レコード更新日システムデータベース内の主要な更新の日付にしたがって、最新から最旧まで候補をランク付けする。

規則１７‐ＤＵＮＳ番号。これは最終的なタイブレーカである。候補をＤＵＮＳ番号によって、すなわち固有の法人識別子にしたがって昇順にランク付けする。

このようにして一致階級はユーザに呈示される。呈示される情報は、以下の情報のうち１つまたは複数を含むことができる：使用される一致階級パターン（要素あたり１つのフィールド）、信頼性コード、一致データプロファイル、処理データ、処理バッチ番号、カスタマＩＤ、マッチングされる参照レコードのＤＵＮＳ番号、問い合わせレコード番号、および最後に使用されたタイブレイク規則。この結果は、異なる信頼性コードおよび別の観測または推定された属性に基づいてカテゴリ分類することができる。

マッチングできなかったデータをブラウズおよび閲覧するために、付加的な機能をユーザに対して提供することができる。またユーザが、自動マッチングされたデータを含むすべてのデータをユーザがブラウズできる機能を設けることもできる。別の機能が、出力を（信頼性コード、一致階級パターン、使用されるタイブレイク規則によって）フィルタリング、手動マッチングおよび再マッチングすることができる。システムはまた、選択されたレコードを再処理するために手動開始できるようにするための機能も含むことができる。これによってシステムは、選択されたレコードに対する完全な処理をユーザ要求に応答して再実行する。

有利には、結果はユーザに対してレコードとして呈示される。有利には結果は、図２２に示されたような結果データから編集不可能なレポートとして形成される。別の実施形態では、システムを再コンパイルすることなく、レポートを追加、変更および／または削除することができる。レポートをＸＭＬ／ＸＳＬにコーディングして、最初にＨＴＭＬとして生成した後、編集不可能なフォーマットに変換することができる。適用可能なレポートをジョブに対して予め選択することができる。このレポートは、このジョブに対するデフォルトセットとなる。レポートを英語の基盤テキストで生成するか、または自然言語の基盤テキストで生成することができる。

システムは現在の一致階級パターンと相応の信頼性コードとのマトリクスを"一致階級マスターテーブル"に記憶する。図７に示されているように、固有の一致階級パターンごとに１つのロウのみが設けられる。このテーブルは以下のものを含む：ストリングである一致階級パターン、該一致階級パターンに付属する信頼性コード、別個のカラムである有利には１１個の一致階級パターンの各バイト、各エントリの最後の変更のバージョン、および／または、該エントリが変更された際に自動生成された更新日時。編集履歴を保存することにより、持続的な品質保証と連続的な処理改善とを実現することができる。

一致階級マスタテーブル内のエントリがどのような理由で変更されても常に、たとえば信頼性コードが変更または検査されると常に、システムは有利には、"一致階級履歴テーブル"に先行のエントリを記憶する。このテーブルは一致階級マスタテーブルと同じ構造を有するが、各一致階級パターンごとに複数のエントリが存在するという点で異なる。

一致階級マスタテーブルを変更するためには常に、最終版番号を増分する必要がある。これは"マイナー"な小さい変更（たとえば０．２≫０．３）であるか、または"メジャー"な大きい変更（０．３≫０．４）である。このような変更によって影響される、一致階級マスタテーブル内の各エントリは、最終版によってスタンプされる。しかし、一致階級データにいかなる変更も行うことなく、バージョンを増分してコメントを入力することができる。

このような変更に関する情報は"一致階級バージョンテーブル"に記憶することができる。この一致階級バージョンテーブルは、以下のものを含むことができる：新規のバージョンの番号であるバージョン番号、変更を行った人のユーザＩＤ、コメントおよび／または日付。コメントは、行われた変更の記述および理由である。どのような変更が処理された後でも常に、このフィールドは占有される。更新日は、変更が入力された際に自動生成される日付／時間フィールドのマーキングである。

１つの実施形態では本方法は、たとえば簡体字の中国語、繁体字の中国語、または日本語文字等の非音標文字のストリングを比較し、これらがどの程度類似するかを表す数値スコアを生成する。このような従属情報を使用して、属性‐レベル一致階級対応関係を確立し、無言シングル、膠着２文字および別の構築体を帰属させることができる。１つの実施形態では、本方法および下記に記載されたライブラリは中国語漢字に適用されるが、すべての非音標言語または非音標文字通信システムにも適用することができる。

類似性計算は、正書法形、音標文字形および語彙的形態を含む複数の軸で行われ、また、マルチユーザによるブラインドテストで、アルゴリズム推定に対するネイティブスピーカの反応を客観的に評価する。

上記のスコアリングの他に付加的に、評価プロセスおよび判定プロセスで、たとえば日本語および中国語双方における表意文字表記の付加的な側面を活用する。有利には、信頼性コードまたは一致品質を表す別のスコアを決定するために、上記で説明されたヒングリングプロセスも使用する。

本発明の強化されたマッチングシステムおよびマッチング方法は、中国語、日本語および別の非音標文字または表意文字の言語データマッチングシステムで、優れたデータマッチングとより詳細なフィードバックとを提供する。本システムは、データのクレンジングおよびマッチングにより多くのデータ要素を使用することができ、従来技術で可能であった手法より多くの手法でデータをマッチングし、よりインテリジェントおよびより粗いフィードバックをマッチングプロセスで供給することができる。このような粗いフィードバックにより、それ無しでは不可能であった、コンピュータシステムを介して行われるビジネス処理の自動化を行うことができる。

たとえば日本語強化マッチングシステム（ＪＥＭＳ）等である、ここで提案される本発明の強化されたマッチングシステムは、カスタマ入力されたファイル中のデータ要素を従来のシステムより数多く使用して、アジア系表記システムの表意文字の特色を活用する手法でデータをマッチングする。本システムおよび本方法はまた、従来技術のシステムに対して対照的に、既存のデータ要素および新規のデータ要素に対して付加的な比較スキームも利用する。

もちろん、当業者であれば、本願で開示された思想の種々の択一的構成、組み合わせおよび変更を行うことが可能であることが理解できる。本発明は、本願で記載された思想の範囲内に該当するこのようなすべての択一的構成、変更および変形を包括する。

従来技術のレコードマッチング手法のブロック図である。従来技術のレコードマッチングシステムのブロック図である。信頼性コードとマッチング結果との対応関係を示す表である。従来技術のデータマッチング手法の構成要素の処理を示すブロック図である。日本の業務の参照レコードにおける一致階級パターンのマッピングを示す表である。本発明の強化されたマッチングシステムのブロック図である。一致階級パターンマトリクスを表す表である。候補リストを検索するための方法を示すブロック図である。英語の会社名から導出されたシングル（shingle）の例を図解する図である。本発明の方法にしたがって導出された中国語漢字シングル（「shingles」）の例を図解する図である。本発明の方法にしたがって導出された「膠着ヒングル」の例を図解する図である。本発明の方法にしたがって導出された「無言ヒングル」の例を図解する図である。本発明の方法による構造指示子の除去または省略の例を図解する図である。業務名の一部として含まれる付加的な構造指示子の例を図解する図である。「ハクロニム（Hacronym）」の例を図解する図である。簡体字および繁体字の例である。本発明によるアルゴリズムの予測的スコアの計算を示す表である。本発明の方法による一致階級ストリングとレコードとの割り当て方法のブロック図である。一致階級パターンを図解する図である。本発明の方法による、参照名に割り当てられた一致階級コードを示す表である。本発明の方法による、参照レコード一致候補に割り当てられた信頼性コードを示す表である。一致物の結果をどのように呈示するかを示す、本発明の方法による一致階級フィードバックレポートの例である。本発明の方法による、フルテキストインデックス付与および名前キングリング（kingling）の例を示すフローチャートである。本発明の方法による独特さに関する一致階級アルゴリズムの例である。本発明の方法による相対的な独特さと絶対的な独特さとの対比を示す。本発明の方法によるポリロゴグラム意味論的一意化のためのアルゴリズム例を示す。本発明の方法による産業スコアリングの表現の仕方を示す。

Claims

コンピュータによって入力データを探索して、記憶されたデータとマッチングする方法において、
・少なくとも幾つかの要素は表意文字表記システムの一部を成す複数の要素を有する探索ストリングを含む入力データを受け取る取得ステップと、
・ポリロゴグラム意味論的非一意化手法と、中国語漢字頭字語拡張手法と、日本語漢字頭字語拡張手法と、ビジネス用語認識手法とから成る群から選択された少なくとも１つの手法を使用して、該複数の要素のサブセットを用語のセットに変換する変換ステップと、
・該用語のセットから、最適化された複数のキーを生成する生成ステップと、
・最適化された該キーに基づいて、該入力データに一致する可能性が最も高い候補に相応して、記憶されたデータを検索する検索ステップと、
・該一致候補から、最も一致する一致物を選択する選択ステップ
とを有することを特徴とする方法。
前記検索ステップは、膠着中国語漢字シングリングと膠着日本語漢字シングリングと無言中国語漢字シングリングと無言日本語漢字シングリングと複数の表記システムにわたるテキストインデックス付与とから成る群から選択された少なくとも１つの手法を使用する、請求項１記載の方法。
前記変換ステップは、前記探索ストリングを、オーバーラップする複数のサブセグメントに分割する、請求項１記載の方法。
前記変換ステップはさらに、前記表意文字表記システムでセマンティックな意味を有するサブセグメントを含む膠着サブセグメントを識別する、請求項３記載の方法。
前記変換ステップはさらに、ノイズサブセグメントを除去する、請求項４記載の方法。
前記変換ステップはさらに、
前記表意文字表記システムでセマンティックな意味を有さない隣接する要素を含む無言サブセグメントを識別し、
該無言サブセグメントから予測性を導き出す、請求項５記載の方法。
前記生成ステップは、膠着サブセグメントおよび無言サブセグメントを使用して、前記最適化された複数のキーを生成する、請求項６記載の方法。
前記変換ステップは、前記表意文字表記システムの繁体字形および簡体字形を正規化する、請求項１記載の方法。
前記表意文字表記システムは、日本語漢字と繁体字と簡体字（Hanzee）とから成る群から選択された少なくとも１つの表記システムである、請求項１記載の方法。
前記要素は、アジア系文字およびローマ字を含む、請求項１記載の方法。
前記変換ステップは、
複数の要素を構文解析して、名前要素と電話番号要素と住所要素とを含む前記用語のセットを識別し、
ポリロゴグラム手法によってビジネス行を推定し、電話番号要素と住所要素とをクロスチェックし、
前記表意文字表記システムのイディオムおよび表現を認識して、該イディオムおよび表現が一緒に意味を保持するように維持する、請求項１記載の方法。
前記変換ステップは、名前要素内の構造指示子および頭字語を識別する、請求項１１記載の方法。
前記住所要素に基づいて、フレキシブルなアジア系の住所決定の慣用法の推定によって、緯度情報および経度情報を確立する、請求項１１記載の方法。
前記検索ステップは、
前記複数のキーにおいて、所定の閾値を超えるカウントを戻す特定のキーに対して一致候補を制限し、
キー交差を選択するために手間関数を生成し、
該手間関数にしたがって該キー交差の優先順位を決定し、
該一致候補を該キー交差の順に検索する、請求項１記載の方法。
前記検索ステップは、一致の程度に基づいて、各一致候補に関して一致階級と信頼性コードと一致データプロファイルとを生成する、請求項１記載の方法。
前記信頼性コードを少なくとも部分的に、前記探索ストリングのセマンティックな意味と推定された内容とに基づいて決定する、請求項１５記載の方法。
前記信頼性コードに基づいて、選択された一致候補の順序づけされたリストを供給する、請求項１４記載の方法。
前記順序づけされたリストの各一致候補を、複数の一致レベルのうち１つの一致レベルに割り当てる、請求項１５記載の方法。
前記一致候補を該一致候補の信頼性コードの順にランク付けし、ユーザ定義されたタイブレイク規則に基づいて最高位のランクのレベルをさらに区分化することにより、前記一致レベルの割り当てを決定する、請求項１８記載の方法。
コンピュータによって入力データを探索して、記憶されたデータとマッチングする方法を実施するための命令を有するコンピュータ読み出し可能媒体において、
該方法は、
・少なくとも幾つかの要素は表意文字表記システムの一部を成す複数の要素を有する探索ストリングを含む入力データを受け取り、
・ポリロゴグラム意味論的非一意化手法と、中国語漢字頭字語拡張手法と、日本語漢字頭字語拡張手法と、業務用語認識手法とから成る群から選択された少なくとも１つの手法を使用して、該複数の要素のサブセットを用語のセットに変換し、
・該用語のセットから、最適化された複数のキーを生成し、
・最適化された該キーに基づいて、該入力データに一致する可能性が最も高い候補に相応して、記憶されたデータを検索し、
・該一致候補から、最も一致する一致物を選択する
方法であることを特徴とする、コンピュータ読み出し可能媒体。