JP2010541079A - 複数言語によるデータ記録を関連付ける方法およびシステム - Google Patents

複数言語によるデータ記録を関連付ける方法およびシステム Download PDF

Info

Publication number
JP2010541079A
JP2010541079A JP2010527206A JP2010527206A JP2010541079A JP 2010541079 A JP2010541079 A JP 2010541079A JP 2010527206 A JP2010527206 A JP 2010527206A JP 2010527206 A JP2010527206 A JP 2010527206A JP 2010541079 A JP2010541079 A JP 2010541079A
Authority
JP
Japan
Prior art keywords
language
data record
weight
data
attributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010527206A
Other languages
English (en)
Other versions
JP5306359B2 (ja
JP2010541079A5 (ja
Inventor
ダグラス スコット ハーガー,
スコット シューマッハー,
Original Assignee
イニシエイト システムズ, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by イニシエイト システムズ, インコーポレイテッド filed Critical イニシエイト システムズ, インコーポレイテッド
Publication of JP2010541079A publication Critical patent/JP2010541079A/ja
Publication of JP2010541079A5 publication Critical patent/JP2010541079A5/ja
Application granted granted Critical
Publication of JP5306359B2 publication Critical patent/JP5306359B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/197Version control

Abstract

本明細書で開示される実施形態は、単一ハブ内で複数言語によるデータ記録を関連付けるためのシステムおよび方法を提供する。記録は、ハブに連結された情報源から入ってくると、コア層において特定の言語と関連付けられる。ハブは、各言語を1対1でメンバー型に論理的に対応づける。特定のメンバー型の各データ記録については、導出層において標準化およびバケッティングを行うために、一意の導出コードが利用される。異なる言語によるデータ記録が同じ統計的意味を有することができるように、言語の豊富さの平衡を保つために、ウエートが使用されてもよい。属性がデータ記録の言語に関して標準化されるため、データ記録とともに、適切な言語またはスクリプトを渡すことができる。次いで、ハブは、実体層における実体処理のために、データ記録を最適アルゴリズムに一致させることができる。

Description

(関連出願の相互参照)
本出願は、「METHOD AND SYSTEM FOR ASSOCIATING DATA RECORDS IN MULTIPLE LANGUAGES」と題された2007年9月28日出願の米国仮出願第60/997,025号の優先権を主張し、その全体が本明細書に参考として援用される。本出願は、「METHOD AND SYSTEM FOR MANAGING ENTITIES」と題された2008年3月27日出願の米国特許出願第12/056,720号、「METHOD AND SYSTEM FOR PARSING LANGUAGES」と題された2007年12月31日出願の米国特許出願第11/967,588号、「METHOD AND SYSTEM FOR INDEXING,RELATING AND MANAGING INFORMATION ABOUT ENTITIES」と題された2007年9月28日出願の米国特許出願第11/904,750号、「HIERARCHY GLOBAL MANAGEMENT SYSTEM AND USER INTERFACE」と題された2007年9月14日出願の米国特許出願第11/901,040号、「SYSTEM AND METHOD FOR AUTOMATIC WEIGHT GENERATION FOR PROBABILISTIC MATCHING」と題された2007年6月1日出願の米国特許出願第11/809,792号、「METHOD AND SYSTEM FOR A GRAPHICAL USER INTERFACE FOR CONFIGURATION OF AN ALGORITHM FOR THE MATCHING OF DATA RECORDS」と題された2007年2月5日出願の米国特許出願第11/702,410号、「METHOD AND SYSTEM FOR INDEXING INFORMATION ABOUT ENTITIES WITH RESPECT TO HIERARCHIES」と題された2007年1月22日出願の米国特許出願第11/656,111号、「METHOD AND SYSTEM FOR COMPARING ATTRIBUTES SUCH AS PERSONAL NAMES」と題された2006年9月15日出願の米国特許出願第11/522,223号、および「METHOD AND SYSTEM FOR COMPARING ATTRIBUTES SUCH AS BUSINESS NAMES」と題された2006年9月15日出願の米国特許出願第11/521,928号にも関連している。本段落で参照されるすべての出願はその全体が本明細書にあらゆる目的のために援用される。
(技術分野)
本開示は、概して、データ記録を関連付けることに関し、より具体的には、これらのデータ記録が関連付けられてもよいように、同じ実体に関する情報を含有してもよい、データ記録を識別することに関する。さらに具体的には、本明細書で開示される実施形態は、複数言語によるデータ記録の関連付けに関する。
(背景)
今日および現在の時代では、事業の圧倒的多数が、在庫、顧客、製品等の、運営の種々の局面に関する甚大な量のデータを保持している。人、製品、部品、または他のものに関するデータは、コンピュータデータベース等のデータ蓄積にデジタル形式で記憶されてもよい。これらのコンピュータデータベースは、実体に関するデータが迅速にアクセスされることを可能にし、データが同じ実体に関するデータの他の関連部分と相互参照されることを可能にする。データベースはまた、同じ実体に関する種々のデータ蓄積からのデータ記録が相互と関連付けられてもよいように、個人がデータベースに問い合せを行い、特定の実体に関するデータ記録を見出すことも可能にする。
しかしながら、データ蓄積は、データ蓄積内の実体に関する正しいデータを見出す能力を制限する場合がある、いくつかの制限を有する。データ蓄積内の実データは、データを入力した個人または元のデータソースと同じくらい正確であるにすぎない。したがって、例えば、個人の名字のつづりを誤った、または社会保障番号が不正確に入力された等のため、データ蓄積へのデータの入力における間違いは、データベース中の実体に関するデータの検索に、実体に関する関連データを見落とさせる場合がある。多くのこれらの種類の問題を想像することができ、いくつかのデータ記録が同じ実体に関する情報を含有してもよいように、データベース内にすでに記録を有する実体に対する2つの別個の記録が作成され得るが、例えば、2つのデータ記録に含有される名前または識別番号は、同じ実体を参照するデータ記録を相互に関連づけることが困難であり得るように、異なり得る。
多数のデータ記録を含有する1つ以上のデータ蓄積を運営する事業にとって、各データベース内および間で特定の実体に関する関連情報を見つける能力は、非常に重要であるが、容易には得られない。再度、任意の情報源におけるデータの入力のあらゆる間違い(無制限に、同じ実体に対する2つ以上のデータの作成を含む)は、特定の実体のデータがデータベース中で検索される時に、関連データを見落とさせる場合がある。加えて、複数の情報源を伴う場合には、情報源の各々が、データベース間でデータを見出す過程をさらに複雑にする場合がある、わずかに異なるデータ構文または形式を有する場合がある。データ記録中で参照される実体を適正に識別し、医療分野での実体に関する全データ記録を見つける必要性の一例としては、特定の医療機関と関連付けられた多数の異なる病院が、患者に関する情報を含有する1つ以上の情報源を有してもよく、医療機関が、病院の各々からマスターデータベースの中へ情報を収集するものである。同じ患者に関する情報源の全てからのデータ記録を結び付け、病院の記録の全てにおいて特定の患者の情報の検索を可能にすることが必要である。
そのようなデータベースの中で実体に関する関連データの全てを見出す能力を制限する、いくつかの問題がある。1つ以上の情報源から受信された別個のデータ記録の結果として、複数のデータ記録が特定の実体に存在してもよく、それはデータ断片化と呼ばれ得る問題につながる。データ断片化の場合、マスターデータベースのクエリが、特定の実体に関する関連情報の全てを回収しない場合がある。加えて、上記で説明されるように、データ入力中に生じた誤字により、クエリが実体に関する何らかの関連情報を見落とす場合があり、それはデータのアクセス不可能性の問題につながる。加えて、大型データベースは、Smithという名字およびJimという名前の人々の複数の記録等の、同一と思われるデータ記録を含有する場合がある。データベースのクエリは、これらのデータ記録の全てを回収し、データベースにクエリを行った個人は、しばしば、間違ったデータ記録かもしれない、回収されるデータ記録のうちの1つをランダムに選択する場合がある。個人はしばしば、通常は、記録のうちのどれが適切であるかを決定しようとしない場合がある。このことは、正しいデータ記録が利用可能である時さえ、回収されている間違った実体のデータ記録につながり得る。これらの問題は、データベース内で特定の実体の情報を見つける能力を制限する。
見直さなければならないデータの量を低減し、ユーザが間違ったデータ記録を選ぶことを防止するために、同じ実体に関する情報を含み得る種々の情報源から、データ記録を識別し、関連付けることも望ましい。データベース内の重複データ記録を見つけ、これらの重複データ記録を削除する、従来のシステムがあるが、これらのシステムは、相互と実質的に同一であるデータ記録しか見つけない場合がある。したがって、これらの従来のシステムは、例えば、わずかに異なる名字を伴う2つのデータ記録が、それでもなお同じ実体に関する情報を含有するかどうかを決定することができない。加えて、これらの従来のシステムは、複数の異なる情報源からデータ記録を指標化し、同じ実体に関する情報を含有する1つ以上の情報源内でデータ記録を見つけ、これらのデータ記録をともに結び付けようとしない。その結果として、これらのデータ記録の属性間の不一致にもかかわらず、同じ実体に関する複数の情報源からのデータ記録を関連付けることができ、まとめてこれらの種々のデータ記録からの情報を集合させ、提示できることが望ましいであろう。しかしながら、実践では、複数の情報源から情報の正確で統一された見方を提供することが極めて難しくなり得る。データ記録が複数言語によるものである場合、課題はさらに手強くなり得る。
種々のソースからのデータ記録が、形式およびそれらが含有するデータの両方で異なる場合があるため、データ処理システムの構成は、非常に困難な作業を提示する場合がある。部分的には、構成過程が、データ記録の関連付けに利用されているシステムのアーキテクチャおよび能力の多大な専門知識、加えて、データ記録を関連付けるために使用されるアルゴリズムの結果として生じる構成が所望の結果をもたらすことを確実にするように、大規模な分析および細部への細心の注意を必要とする、手動集中作業となる場合があるため、これらの困難が引き起こされる。
これらの困難は、多くの場合、種々のデータソースの中のデータ記録が異なる言語による場合があるという事実によって、さらに悪化する場合がある。場合によっては、データ記録の属性は、ラテンアルファベットを全く使用しない言語による場合がある。いくつかの言語は、必ずしもラテンアルファベットで書かれた言語の規則、変化系列、または慣習に従うとは限らず、これらの言語による属性が構文解析しにくくなる。したがって、実施または利用される種々のアルゴリズムまたは比較は、異なる言語によるデータ記録を比較するために調整されなければならない場合がある。しかしながら、どのアルゴリズム、比較等が、どのデータ記録と併せて利用されるべきかを決定することは、困難な場合がある。したがって、データ記録が種々の異なる言語によるものであってもよい、種々の情報源の中で、これらのデータ記録を取得し、関連付けるためのシステムおよび方法の必要性がある。
(本開示の概要)
本明細書で開示される実施形態は、クエリに応じて、ハブが、複数言語によるデータ記録を検索し、これらのデータ記録が言語特有の方法でどのように関連付けられるべきかを決定し、それに応じて適時かつ正確に応答を準備することができるように、単一ハブ内で複数言語によるデータ記録を検索し、関連付けることを促進するように、基本的解決法を提供する。
より具体的には、各記録は、入ってくると、ハブのコア層において特定の言語と関連付けられる。しばしば、記録の言語は、既知であるか、または容易に決定することができる。そうでなければ、デフォルト言語が割り当てられてもよい。ハブにおいて、各言語は、メンバー型に1対1で論理的に対応づけられる。いくつかの実施形態では、複数言語によるデータ記録は、ハブにおける言語定義内で属性の型を共有することができる。
特定のメンバー型の各データ記録については、ハブの導出層において標準化およびバケッティング(候補選択)を行うために、一意の導出コードが利用される。一意の導出コードは、特定のメンバー型に論理的に対応づけられる特有の言語にとって一意であるという意味で、一意である。導出コードは、言語標準化、音訳標準化等の1つ以上の標準化技法を利用してもよい。標準化が言語特有となり得る一方で、バケッティングは言語非依存型となり得る。一例として、日本語特有の標準化を、図9−13を参照して本明細書で説明する。次いで、標準化されたトークンを伴う、構文解析された日本語名が、図14−19を参照して本明細書で説明されるように、言語非依存型バケッティング過程に通される。
バケッティングまたは候補選択過程は、一式のデータ記録の1つ以上の属性がさらなる比較を必要とするほど同様であるかどうかを決定するように、それらの比較を備えてもよい。そうであれば、それらがどのように結び付けられる、または関連付けられるべきかについて、さらなる決定が行われる。図4−8を参照して以下で説明されるように、このより詳細な比較は、1つの記録(例えば、既存の記録)の一式の属性の各々を、他の記録(例えば、新規の記録)における対応する属性と比較することを必要として、その属性に対するウエートを生成してもよい。次いで、2つの記録が結び付けられるべきかどうか、およびどのように結び付けられるべきかを決定するように閾値と比較することができる、全体的ウエートを生成するように、一式の属性の各々に対するウエートが合計されてもよい。
他言語ハブとの関連で、異なる言語による2つのデータ記録が同じ統計的意味を有することができるように、自動的に言語の豊富さの平衡を保つために、ウエートを使用することができる。このように、異なる言語と関連付けられたデータ記録は、ハブの実体層において、単一の実体に、または同記録の言語実体に結び付けられてもよい。場合によっては、ハブのコア層における異なる言語と関連付けられたデータ記録が、実体層における複数の実体に結び付けられてもよいように、異なる言語からのデータ記録間の関係が識別される必要があってもよい。データ記録の全ての属性が、そのデータ記録の優勢な言語に関して適切に標準化されるため、ハブは、最適アルゴリズムを知的かつ自動的に一致させ、実体層において個々の言語による実体を処理する。言い換えれば、記録とともに、適切な言語またはスクリプトを渡すことができるため、ハブにおける実体処理のために、記録を適切なアルゴリズム経路へ「送る」ことができる。
したがって、本明細書で開示される実施形態は、単一ハブ内で種々の言語によるデータ記録を結び付けることができる。本開示の他の特徴、利点、および目的は、以下の説明および添付図面と併せて考慮すると、より良好に認識および理解されるであろう。
本明細書に付随し、その一部を形成する図面は、本開示のある局面を示すように含まれる。本開示のより明確な印象、ならびに本開示が提供されるシステムの構成要素および動作は、図面で示される、例示的であり、したがって非限定的な実施形態を参照することによって、より容易に明白となるであろう。可能な限り、同じまたは類似特徴(要素)を指すために、同じ参照番号が図面の全体を通して使用される。図面は、必ずしも一定の縮尺で描かれるとは限らない。
図1は、実体処理システムの一実施形態の基礎構造例を示す。 図2Aおよび2Bは、データ記録の2つの実施形態の表現を示す。 図2Aおよび2Bは、データ記録の2つの実施形態の表現を示す。 図3は、データ記録を比較する、一実施形態のフロー図を示す。 図4は、データ記録の属性を比較する方法の一実施形態のフロー図を示す。 図5Aおよび5Bは、2つの属性に対するウエートを決定する方法の一実施形態のフロー図を示す。 図5Aおよび5Bは、2つの属性に対するウエートを決定する方法の一実施形態のフロー図を示す。 図6は、ウエートの計算で使用される値を決定する方法の一実施形態のフロー図を示す。 図7は、本開示の一実施形態の用途の例を説明する際に使用するためのテーブルの例を示す。 図8Aおよび8Bは、本開示の一実施形態の用途の例を説明する際に使用するためのテーブルの例を示す。 図8Aおよび8Bは、本開示の一実施形態の用途の例を説明する際に使用するためのテーブルの例を示す。 図9は、アジア言語を構文解析する、一実施形態のフロー図を示す。 図10は、いくつかの繁体字およびそれらの簡体の均等物の例を示す。 図11は、修飾語句または他の未グループ化文字をグループ化する例を示す。 図12は、本明細書で開示される構文解析の一実施形態がサンプルセットから各名前を作成することができる、トークンの数の統計値をグラフに描く、ヒストグラムを示す。 図13は、図12の構文解析されたトークンの文字長の分布をグラフに描く、ヒストグラムを示す。 図14は、構文解析および翻訳後の文字の数の分布を示す。 図15は、図14のサンプルからの、日本語の20文字およびそれらの頻度を記載する。 図16は、図14のサンプルからの元のトークンの分布、およびコード化されたトークンの分布を示す。 図17は、元の構文解析された名前、および対応するバケットアイテムの例を示す。 図18Aおよび18Bは、名前のバケッティングの言語非依存型方法の例を示す。 図18Aおよび18Bは、名前のバケッティングの言語非依存型方法の例を示す。 図19は、一緒に定性的にバケットするメンバーの数を示す、プロット図である。 図20は、他言語アイデンティティハブの実装例の一実施形態を示す。 図21は、図20の実装例をより詳細に示す。
(詳細な説明)
好ましい実施形態、ならびにその種々の特徴および有利な詳細を、添付図面で示される例を参照して、より完全に説明する。本開示の詳細を不必要に分かりにくくしないよう、プログラミングおよびデータ処理技法を含む、周知のコンピュータハードウェアおよびソフトウェアの説明は省略する。しかしながら、当業者であれば、本開示の好ましい実施形態を開示する一方で、詳細な説明および具体例が、限定としてではなく例示のみとして挙げられることを理解するべきである。基礎的発明概念の範囲内の種々の置換、修正、追加、または再構成が、本開示を読んだ後に当業者にとって明白となるであろう。
本明細書で開示されるいくつかの実施形態は、本明細書に参考として援用される、1999年11月23日発行の米国特許第5,991,758号で説明されているように、異なる情報源からの実体に関する情報を指標化するシステムおよび方法の実施形態を活用することができる。本明細書で開示されるいくつかの実施形態は、本明細書に参考として援用される、「METHOD AND SYSTEM FOR INDEXING INFORMION ABOUT ENTITIES WITH RESPECT TO HIERARCHIES」と題された2007年1月22日出願の上記で参照した米国特許出願第11/656,111号で説明されているように、階層について、実体に関する情報を指標化する実体処理システムおよび方法の実施形態を活用することができる。
図1は、実体処理システム30の一実施形態の基礎構造例を示す、ブロック図である。実体処理システム30は、1つ以上の情報源34、36、38からの1つ以上の実体についてのデータ記録に関するデータを処理、更新、または記憶し、複数のオペレータ40、42、44からのコマンドまたはクエリに応答する、アイデンティティハブ32を含んでもよく、その場合、オペレータは、人間のユーザおよび/または情報システムであってもよい。アイデンティティハブ32は、単一の情報源からのデータ記録、または示されるように、複数の情報源からのデータ記録とともに動作してもよい。アイデンティティハブ32の実施形態を使用して追跡される実体は、例えば、病院内の患者、医療制度の参加者、倉庫の中の部品、または、データ記録およびそれと関連付けられたデータ記録に含有される情報を有してもよい、任意の他の実体を含んでもよい。アイデンティティハブ32は、アイデンティティハブ32の機能を果たすように1つ以上のコンピュータ可読記憶媒体上に記憶されたコンピュータ可読命令(例えば、ソフトウェアアプリケーション)を実行する、少なくとも1つの中央処理装置(CPU)45を伴う1つ以上のコンピュータシステムであってもよい。アイデンティティハブ32はまた、当業者によって理解されるように、ハードウェア回路、またはソフトウェアおよびハードウェアの組み合わせを使用して実装されてもよい。
図1の実施例では、アイデンティティハブ32は、情報源34、36、38からデータ記録を受信し、ならびに、情報源34、36、38に訂正したデータを書き込み直してもよい。情報源34、36、38に伝達される訂正したデータは、正しかった情報を含んでもよいが、データ記録の中の固定情報に関する情報、および/またはデータ記録間の結び付きに関する情報を変更している。
加えて、オペレータ40、42、44のうちの1つは、アイデンティティハブ32にクエリを伝送し、アイデンティティハブ32からクエリへの返答を受信してもよい。情報源34、36、38は、例えば、同じ実体に関するデータ記録を有してもよい、異なるデータベースであってもよい。例えば、医療分野では、各情報源34、36、38は、医療機関の中の特定の病院と関連付けられてもよく、医療機関は、ロサンゼルスの患者のデータ記録が、その同じ患者が休暇中であり、かつニューヨークの病院に入院する時に見つけられてもよいように、複数の病院と関連付けられたデータ記録を関係付けるためにアイデンティティハブ32を使用してもよい。アイデンティティハブ32は、中心位置に位置してもよく、情報源34、36、38およびユーザ40、42、44は、アイデンティティハブ32から遠隔に位置してもよく、例えば、インターネット、または広域ネットワーク、イントラネット、無線ネットワーク、専用ネットワーク等の任意の他の種類の通信ネットワーク等の、通信リンクによって、アイデンティティハブ32に接続されてもよい。
いくつかの実施形態では、アイデンティティハブ32は、アイデンティティハブ32における完全データ記録を記憶する、独自のデータベースを有してもよい。いくつかの実施形態では、アイデンティティハブ32が、必要な時に情報源34、36、38から全データ記録を回収することができるように、アイデンティティハブ32はまた、データ記録(例えば、特定のデータソース34、36、38の中の住所)または完全データ記録を備えるデータフィールドの任意の部分を識別するのに十分なデータを含有するのみであってもよい。アイデンティティハブ32は、実体識別子、または実データ記録とは別の連想データベースを利用して、同じ実体に関する情報を含有するデータ記録をともに結び付けてもよい。したがって、アイデンティティハブ32は、1つ以上の情報源34、36、38の中のデータ記録間の結び付きを維持してもよいが、必ずしも実体の単一の均一データ記録を維持するとは限らない。
いくつかの実施形態では、アイデンティティハブ32は、データ記録(オペレータから、またはデータソース34、36、38から受信される)を情報源34、36、38の中の他のデータ記録と比較して、ともに結び付けられるべきデータ記録を識別することによって、情報源34、36、38の中のデータ記録を結び付けてもよい。この識別過程は、データ記録の属性のうちの1つ以上と他のデータ記録の類似属性との比較を必要としてもよい。例えば、1つの記録と関連付けられた名前の属性が、他のデータ記録の名前と比較されてもよく、社会保障番号が別の記録の社会保障番号と比較されてもよい等である。このように、結び付けられるべきデータ記録が識別されてもよい。
情報源34、36、38およびオペレータ40、42、44は、同様の、または異なる機関および/または所有者と提携してもよく、相互から物理的に離れ、および/または遠隔にあってもよいことが、当業者にとって明白になるであろう。例えば、情報源34が、1つの医療ネットワークによって運営されるロサンゼルスの病院と提携してもよい一方で、情報源36は、おそらくフランスの企業が所有する別の医療ネットワークによって運営されるニューヨークの病院と提携してもよい。したがって、情報源34、36、38からのデータ記録は、異なる形式、異なる言語等であってもよい。
このことは、データ記録例の2つの実施形態を示す、図2Aおよび2Bを参照して、より明確に示されてもよい。これらのデータ記録200、202の各々は、データ記録の各々の一式の属性に対応する、一式のフィールド210を有する。例えば、記録200の各々の属性のうちの1つは、名前であってもよく、別の属性は、納税者番号等であってもよい。属性は、データ記録200、202の複数のフィールド210を備えてもよいことが明白となるであろう。例えば、データ記録202の住所の属性は、それぞれ、通り、市、および州のフィールドである、210c、210d、および210eを備えてもよい。
しかしながら、データ記録200、202の各々は、異なる形式を有してもよい。例えば、データ記録202が「保険業者」の属性に対するフィールド210を有してもよい一方で、データ記録200にはそのようなフィールドがなくてもよい。また、同様の属性が異なる形式を有してもよい。例えば、記録202における名前のフィールド210bが、フルネームの入力を受け入れてもよい一方で、記録200における名前のフィールド210aは、制限された長さの名前の入力を可能にするように設計されてもよい。そのような不一致は、2つ以上のデータ記録(例えば、データ記録の属性)を比較して、結び付けられるべきデータ記録を識別する時に、問題となる場合がある。例えば、「Bobs Flower Shop」という名前は、「Bobs Very Pretty Flower Shoppe」と同様であるが、厳密に同じではない。さらに、データ記録のデータを入力する際の誤字または間違いも、データ記録の比較、したがって、その結果に影響を及ぼす場合がある(例えば、「Glower」が「Flower」という言葉を入力する際の誤字に起因した、「Bobs Pretty Flower Shop」という名前の「Bobs Pretty Glower Shop」との比較)。
データ記録における事業名は、それらの性質の結果として、多数のかなり特有の問題を提示する場合がある。いくつかの事業名が非常に短くなり得る(例えば、「Quick−E−Mart」)一方で、他の事業名は非常に長くなり得る(例えば、「San Francisco’s Best Coffee Shop」)。加えて、事業名は、同様の言葉(例えば、「Shop」、「Inc.」、「Co.」)を頻繁に使用する場合があり、それは、同じ言語によるデータ記録を比較する時に、これらの名前を比較する発見的解決法で重視されるべきではない。さらに、頭字語が事業名で頻繁に使用され、例えば、「New York City Bagel」と名付けられた事業は、「NYC Bagel」としてデータ記録に頻繁に入力される場合がある。
さらに以下で詳細に説明されるように、本明細書で開示されるアイデンティティハブ32の実施形態は、事業名を比較する時に、これらの特有の特性を考慮に入れることができる、アルゴリズムを採用する。具体的には、アイデンティティハブ32によって採用される、いくつかのアルゴリズムは、頭字語をサポートし、事業名の中のある言葉の頻度を考慮に入れ、事業名内のトークンの順序付けを考慮する(例えば、「Clinic of Austin」という名前は、「Austin Clinic」と事実上同一であると見なされている場合がある)。いくつかのアルゴリズムは、異なる記録における名前の比較(例えば、類似性)に基づいてウエートを生成するために、種々の音声比較方法、名前のトークンの頻度、イニシャルの一致、ニックネームの一致等に基づくウエートを含む、種々の名前比較技法を利用し、その場合、このウエートは、2つの記録が結び付けられるべきかどうかを決定する際に利用することができる。いくつかの実施形態では、各記録の名前の属性のトークンは、トークンを一致させる方法論を使用して、相互に対して比較される(例えば、トークンが正確に一致した場合、音声学的に一致した場合等)。次いで、決定された一致に基づいて、これらの一致にウエートを与えることができる(例えば、完全な一致には第1のウエートが与えられる一方で、ある種類のイニシャルの一致には第2のウエートが与えられる、等)。次いで、2つのデータ記録の名前の属性間の一致の程度に対する全体的ウエートを決定するように、これらのウエートを集約することができる。好適なウエート生成方法論の例示的実施形態は、本明細書に参考として援用される、「SYSTEM AND METHOD FOR AUTOMATIC WEIGHT GENERATION FOR PROBABILISTIC MATCHING」と題された2007年6月1日出願の上記で参照した米国特許出願第11/809,792号で説明されている。好適な名前比較技法の例示的実施形態は、「METHOD AND SYSTEM FOR COMPARING ATTRIBUTES SUCH AS PERSONAL NAMES」と題された2006年9月15日出願の上記で参照した米国特許出願第11/522,223号、および「METHOD AND SYSTEM FOR COMPARING ATTRIBUTES SUCH AS BUSINESS NAMES」と題された2006年9月15日出願の上記で参照した米国特許出願第11/521,928号で説明されており、その両方は、本明細書に参考として援用される。
図3は、同じ実体に関する記録を識別する方法論の例を示す。ステップ310では、一式のデータ記録が、評価のためにアイデンティティハブ32において転送されるか、または引き抜かれてもよい。これらのデータ記録は、例えば、一式の既存のデータ記録(例えば、情報源34、36、38の中に既に存在してもよい、または、アイデンティティハブ32に提供されてもよい)と比較するための、例えば、1つ以上の新規データ記録を含んでもよい。ステップ320では、比較のためのデータ記録が、すでに標準化されていなければ標準化されてもよい。この標準化は、データ記録がその元の形式から標準形式に変換されるように、データ記録の属性の標準化を備えてもよい。このように、異なるデータ記録の類似属性間の後続の比較が、属性およびデータ記録の両方の標準形式に従って行われてもよい。比較されるデータ記録の属性の各々は、異なる形式、異なる一式の語義、語彙等に従って、標準化またはトークン化されてもよく、その対応する標準形態への各属性の標準化は、別個の機能によって達成されてもよいことが、当業者にとって明白となるであろう。したがって、データ記録の各々は、データ記録の種々の属性の標準化を通して、標準形式に標準化されてもよく、各属性は、対応する機能によって標準化される(これらの属性標準化機能は、当然ながら、複数の種類の属性を標準化するように動作可能であってもよい)。
例えば、データ記録200の名前の属性のフィールド210aは、名前の属性に対する一式のトークン(例えば、「Bobs」、「Pretty」、「Flower」、および「Shop」)を生じるように評価されてもよく、これらのトークンは、標準化された属性が、名前の属性を備えるトークンを生成するように以降で構文解析されてもよいように、標準化された属性を生じるように、ある形態に従って連結させることができる(例えば、「BOBS:PRETTY:FLOWER:SHOP」)。別の例として、名前が標準化されると、連続した単一トークンをトークンに合体することができ(例えば、I.B.M.がIBMになる)、置換を行うことができる(例えば、「Co.」が「Company」に置換され、「Inc.」が「Incorporated」に置換される等)。略称およびそれらの同等な置換を備える、等価テーブルが、アイデンティティハブ32と関連付けられたデータベースに保存されてもよい。事業名を標準化する一実施形態に対する疑似コードは、以下のとおりである。
Figure 2010541079
使用される技法を問わず、いったん比較されるデータ記録の属性およびデータ記録自体が、ステップ320において標準形態に標準化されると、ステップ330において新規または受信データ記録と比較するための既存のデータ記録から、一式の候補が選択されてもよい。この候補選択過程(本明細書ではバケッティングとも呼ばれる)は、既存の新規データ記録のうちのどれが、さらなる比較を必要とするほど新規データ記録と同様であるかを決定するように、新規または受信データ記録の1つ以上の属性と既存のデータ記録との比較を備えてもよい。各一式の候補(バケットグループ)は、属性に対応する候補選択機能(バケッティング機能)を使用する、データ記録間(例えば、受信データ記録と既存のデータ記録との間)の一式の属性の各々の比較に基づいてもよい。例えば、ある一式の候補は、名前を比較するように設計される候補選択機能、および住所を比較する別の候補選択機能を使用する、名前および住所の属性の比較に基づいて選択されてもよい。
ステップ340では、これらの一式の候補を備えるデータ記録は、新規または受信記録とのより詳細な比較を受けてもよく、その場合、一式の属性は、既存のデータ記録が新規データ記録と結び付けられるべきか、または関連付けられるべきかをどうかを決定するように、記録間で比較される。このより詳細な比較は、その属性に対するウエートを生成するように、記録(例えば、既存の記録)の一式の属性のうちの1つ以上を、他の記録(例えば、新規または受信記録)における対応する属性と比較することを必要としてもよい。次いで、一式の属性に対するウエートは、2つの記録が結び付けられるべきかどうかを決定するように閾値と比較することができる、全体的ウエートを生成するように合計されてもよい。例えば、全体的ウエートが第1の閾値(ソフトリンクまたはレビュー閾値と呼ばれる)未満であれば、記録は結び付けられてなくてもよく、全体的ウエートが第2の閾値(自動リンク閾値と呼ばれる)より大きければ、記録は結び付けられてもよく、一方で、全体的ウエートが2つの閾値の間にあれば、記録は、結び付けられ、ユーザレビューのためにフラグを付けられてもよい。
手短に図1を参照すると、アイデンティティハブ32は、上記の方法論を実施する際に、国際的スクリプトおよび言語を記憶し、戻し、表示することができる、種々の構成要素を有する。しかしながら、種々の言語が異なる情報源システムから導出される時、データ記録の言語が不明である時、異なる言語からの記録が同じ実体内になければならない時、または異なる言語からの記録の間の関係が識別されなければならない時(階層的関係等)に、この直接的解決法は、より複雑となり得る。例えば、データ記録の結び付きは、情報源34、36、38の中のデータ記録が異なる言語による場合があり、場合によっては、同じ情報源内の異なるデータ記録が異なる言語による場合があるという事実によって、さらに複雑にされる場合がある。オペレータ40、42、44のうちの1つが、アイデンティティハブ32に第1の言語によるクエリを伝送してもよく、情報源34、36、38が、複数言語による同じ実体に関するデータ記録を維持すると仮定すると、アイデンティティハブ32は、異なる言語によるこれらのデータ記録を検索し、それらが結び付けられるべきかどうか、およびどのように結び付けられるべきかを決定し、それに応じてクエリへの応答を準備し、適時かつ正確に、第1の言語でオペレータ40、42、または44にクエリへの応答を返信する必要がある。
複数言語によるデータ記録を取り扱う1つの方法は、別個のハブを介してそれらを処理することであり、各ハブは、特定の言語で構成される。言語特有の検索が各ハブ内で行われてもよく、次いで、ユーザまたはユーザ群は、検索結果をまとめようとすることができる。このアプローチに関する問題は、言語間検索を行う方法がなく、手動で、またはコンピュータを使用して、別個のハブからの検索結果をまとめることは、面倒で、時間がかかり、極度の労力がかかり、費用がかかり、かつ間違いが発生しやすい過程となり得るということである。他のアプローチは、全ての言語で有効であるスーパーアルゴリズムを作成しようとすることであるが、そのようなスーパーアルゴリズムは、新規の言語に拡張可能ではない。
本明細書で開示される実施形態は、より基礎的なアプローチに基づく。本明細書で説明されるように、アイデンティティハブ32の実施形態は、標準化、バケッティング、詳細比較、ウエート生成、結び付け、実体処理等を含む、種々の異なる機能を提供し、特定のデータ記録または一対のデータ記録の言語に基づいて、これらの機能を適用することができる。つまり、単一ハブ内で複数言語によるデータ記録を関連付けるために、アイデンティティハブ32は、特有のアルゴリズムで構成されてもよく、標準化、比較等が行われているデータ記録の言語に基づいて、どのアルゴリズムが、どのデータ記録と併せて利用されるべきかを決定することができる。
多言語アイデンティティハブ32の実装例300の一実施形態を示す図20、およびより詳細に実装例300を示す図21を参照する。上記で説明されるように、情報源34、36、38からのデータ記録は、同じ、または異なる言語によるものであってもよい。したがって、コア層302において、データ記録が複数言語で記憶される。各データ記録の言語は、既知でなくてもよい。
各記録は、入ってくると、特定の言語とタグ付けされ、特徴付けられ、割り当てられ、あるいは関連付けられる。この過程は、自動かつ決定論的である。しばしば、記録の言語を容易に決定することができる。例えば、国コードがブラウザアプリケーションによって割り当てられてもよく、デフォルト言語が管理者によって設定されてもよく、記録と関連付けられた国コードと併せて、記録の内容に基づいて正しい言語を決定するために、アルゴリズムが利用されてもよい、等である。いくつかの実施形態では、「最悪」言語がさらなる処理のために選択される。ここで、言語は、処理するためにより多くの計算資源を要する場合があると、概して容認されるか、または決定することができた場合に、別の言語よりも悪いと見なされる。例えば、データ記録が英語および日本語によるデータを有する場合、その記録が英語も含有する場合があるかどうかにかかわらず、日本語による記録を構文解析するのにより手間がかかる場合があるため、日本語が、その特定のデータ記録に対する言語として選択される。いくつかの実施形態では、アイデンティティハブ32は、英語、フランス語、ドイツ語、中国語、日本語、および韓国語によるデータ記録を記憶する。
図21の実施例では、データ記録R、R、R、・・・、Rが入ってくると、それらは、言語L、L、・・・、Lによるものであると割り当てられるか、または決定され、RおよびRは、同じ言語Lによるものである。アイデンティティハブ32では、各言語は、メンバー型に1対1で論理的に対応づけられる。したがって、Lは、MemTypeに論理的に対応づけられ、Lは、MemTypeに論理的に対応づけられる、等である。いくつかの実施形態では、複数言語によるデータ記録は、アイデンティティハブ32における言語定義内で属性の型を共有することができる。
導出層304における、特定のメンバー型の各データ記録については、属性に標準化およびバケッティング(候補選択)を行うために、その特定のメンバー型に一意である(よって、その特定のメンバー型に論理的に対応づけられた言語に一意である)導出コードが利用される。導出コードは、1つ以上の標準化技法を利用してもよい。例えば、言語標準化、音訳標準化等である。音訳の場合、いくつかの実施形態は、元の属性ならびに音訳された属性を保持してもよく、いくつかの実施形態は、音訳された(標準化された)属性を保持してもよい。当業者であれば、他の標準化技法も可能であることを理解できるであろう。
この一意の導出コードは、データ記録に対してタグ付けされた言語以外の言語による文字を含有する属性を処理できることに留意されたい。例えば、データ記録Rが英語および日本語の両方による名前の属性を含有すると仮定する。上記で説明されるように、たとえRが英語による名前の属性を含有しても、Rは、日本語に一意の導出コードを利用してタグ付けされる。日本語特有の標準化では、日本語で意味が全くないか、またはほとんどない文字は、考慮から排除または除去されてもよい。日本語特有の標準化の実施形態例を、図9−13を参照して以下で説明する。いくつかの実施形態では、候補選択仮定(バケッティング)は、言語非依存型となり得る。言語非依存型バケッティングの実施形態例を、図14−19を参照して以下で説明する。
本明細書で開示される実施形態は、たとえデータ記録が英語以外の種々の言語による属性を備えても、それらを結び付けることができる。言語特有の標準化は、複数言語によるデータ記録を構文解析する際に極めて有用となり得る。例えば、ドイツ語の「der」は、「その」を意味する。したがって、ドイツ語に対してタグ付けされ、ドイツ語に対応するメンバー型に論理的に対応づけられるデータ記録については、そのデータ記録の名前の属性における「der」は、ドイツ語特有の標準化に放り込まれる場合がある。しかしながら、英語での「der」は、米国ミシガン州ディアボーンの駅コードとなる場合がある。したがって、英語に対してタグ付けされ、英語に対応するメンバー型に論理的に対応づけられるデータ記録については、「der」を含有する名前の属性は、英語特有の標準化で標準化される場合がある。
場合によっては、データ記録の属性は、ラテンアルファベットを全く使用しない言語による場合がある。これらの言語は、必ずしもラテンアルファベットで書かれた言語の規則、変化系列、または慣習に従うとは限らないため、これらの言語による属性は、トークンに構文解析しにくい場合がある。これらの問題は、ラテン文字、表意文字等に加えて、多くの異なるコードのセットまたはアルファベットを利用する、日本語、韓国語、中国語等のアジア言語のことになると、特に密接な関係がある。これらの種類の言語の構文解析をさらに複雑にすることは、名前の複数部分を分離するために空白が使用されてはならないということであり、言語に対する幅広い知識基盤の適用がなければ、そのような名前のトークンへの構文解析が極めて困難となる。
図9−13を参照して以下で説明されるように、本明細書で開示される実施形態は、アジア言語を含む種々の言語による、名前等の属性をトークンに構文解析することができる。いくつかの実施形態は、アジア言語による属性をトークンに分離してもよい。一例として、日本語の名前(例えば、日本語のアルファベットまたは文字セットの中の少なくとも1つの文字を備えるが、任意の他のアルファベットの文字も備えてもよい名前)は、1つ以上のトークンに構文解析される。場合によっては、空白に基づいて日本語の名前を1つ以上のトークンに構文解析することができるように、空白が日本語の名前の属性に導入される。
引き続き図20および21を参照すると、いったんデータ記録の属性が、それらのタグ付けされた言語に関して標準化され、導出層304においてトークンに構文解析されると、それらは、候補選択過程(バケッティング)で利用されてもよい。言語非依存型となり得る、この候補選択過程は、一式のデータ記録の1つ以上の属性がさらなる比較を必要とするほど同様であるかどうかを決定するように、それらの比較を備えてもよい。そうであれば、それらがどのように結び付けられる、または関連付けられるべきかについて、さらなる決定が行われる。図4−8を参照して以下で説明されるように、このより詳細な比較は、1つの記録(例えば、既存の記録)の一式の属性の各々を、他の記録(例えば、新規の記録)における対応する属性と比較することを必要として、その属性に対するウエートを生成してもよい。次いで、2つの記録がソフトリンクされるか、自動リンクされるか、またはユーザレビューのためにフラグと結び付けられるべきかどうかを決定するように閾値と比較することができる、全体的ウエートを生成するように、一式の属性の各々に対するウエートが合計されてもよい。
多言語アイデンティティハブ32との関連で、異なる言語による2つのデータ記録が同じ統計的意味を有することができるように、自動的に言語の豊富さの平衡を保つために、ウエートを使用することができる。場合によっては、ウエートは、データ記録の関連付けの以前に決定されたレベルに優先する方法を提供することができる。ウエート生成を以下でさらに説明し、ウエート生成についてのさらなる教示は、本明細書に参考として援用される、「SYSTEM AND METHOD FOR AUTOMATIC WEIGHT GENERATION FOR PROBABILISTIC MATCHING」と題された2007年6月1日出願の上記で参照した米国特許出願第11/809,792号で見出すことができる。
したがって、異なる言語に対してタグ付けされたデータ記録は、多言語アイデンティティハブ32の中の実体層306において、単一の実体に、または同実体の言語実体に結び付けられてもよい。利用される検索モデルに応じて、異なる言語による、実体、例えば、システム起動を検索すること(例えば、「システム起動の中国語およびドイツ語の名前は何か?」)、または記録がどの言語によるものであるかにかかわらず、同じ実体を検索することを希望してもよい。ロサンゼルスおよびニューヨークに所在地がある医療機関の上記の例に従って、医療機関がフランスのパリにも所在地があると仮定すると、患者がフランスのパリの病院にいる時に、その患者に関する記録を検索するクエリが、ロサンゼルスで英語のデータ記録、およびパリでフランス語のデータ記録を返すように、医療機関は、これらの所在地における複数の病院と関連付けられたデータ記録を関係付けるために、アイデンティティハブ32を使用してもよい。
場合によっては、異なる言語からのデータ記録の間の関係が識別される必要があってもよい。つまり、コア層302において異なる言語に対してタグ付けされたデータ記録は、多言語アイデンティティハブ32の中の実体層306において複数の実体に結び付けられてもよい。そのような実体の例は、個人、世帯、出荷用コンテナ、機関等を含んでもよいが、それらに限定されない。上記で説明される同じ患者が、1つは米国内、もう1つはフランス国内といった、2つの世帯の一員であると仮定すると、その同じ患者に関するデータ記録は、同じ個人を識別するが、2つの異なる住所の属性を有してもよい、2つの世帯実体に結び付けられてもよく、かつ2つの異なる言語によるものであってもよい。
各データ記録の全ての属性、よってデータ記録自体が、そのデータ記録の優勢な言語に関して適切に標準化されるため、多言語アイデンティティハブ32は、最適アルゴリズムを知的かつ自動的に一致させ、実体層306において個々の言語によるこれらの実体を処理することができる。言い換えれば、記録とともに、適切な言語またはスクリプトを渡すことができるため、実体層306における実体処理のために、記録を適切なアルゴリズム経路へ「送る」ことができる。読者には、データ記録の一致のためのアルゴリズムの構成についての教示のため、「METHOD AND SYSTEM FOR A GRAPHICAL USER INTERFACE FOR CONFIGURATION OF AN ALGORITHM FOR THE MATCHING OF DATA RECORDS」と題された2007年2月5日出願の米国特許出願第11/702,410号が指示される。本明細書で開示されるいくつかの実施形態は、本明細書に参考として援用される、「METHOD AND SYSTEM FOR INDEXING INFORMATION ABOUT ENTITIES WITH RESPECT TO HIERARCHIES」と題された2007年1月22日出願の上記で参照した米国特許出願第11/656,111号、「METHOD AND SYSTEM FOR INDEXING, RELATING AND MANAGING INFORMATION ABOUT ENTITIES」と題された2007年9月28日出願の上記で参照した米国特許出願第11/904,750号、「HIERARCHY GLOBAL MANAGEMENT SYSTEM AND USER INTERFACE」と題された2007年9月14日出願の上記で参照した米国特許出願第11/901,040号、「METHOD AND SYSTEM FOR MANAGING ENTITIES」と題された2008年3月27日出願の上記で参照した米国特許出願第12/056,720号で開示されているように、実体に関する情報を指標化する、関係付ける、および管理する実体処理システムおよび方法の実施形態を活用することができる。
本明細書で開示されるいくつかの実施形態は、本明細書に参考として援用される、「METHOD AND SYSTEM FOR PARSING LANGUAGES」と題された2007年12月31日出願の米国特許出願第11/967,588号、「METHOD AND SYSTEM FOR COMPARING ATTRIBUTES SUCH AS PERSONAL NAMES」と題された2006年9月15日出願の米国特許出願第11/522,223号、および「METHOD AND SYSTEM FOR COMPARING ATTRIBUTES SUCH AS BUSINESS NAMES」と題された2006年9月15日出願の米国特許出願第11/521,928号で開示されているような、属性解析および比較技法の実施形態を活用することができる。
ここで、日本語特有の標準化およびバケッティング技法の実施形態を、図9−19を参照して説明する。
ここで図9を参照すると、日本語による名前(例えば、少なくとも1つの日本語の文字を有する)等の文字列の構文解析のための方法の一実施形態のフロー図が描写されている。ステップ910では、日本語の名前が受信される。受信した名前の中の、ラテン文字を表すあらゆる半角片仮名の文字は、ステップ920でラテンの均等物に翻訳される。一実施形態では、名前の名前文字の各々は、例えば、Unicode Consortiumによって公表されたコード(例えば、Unicode Transformation Format(UTF)またはUniversal Character Set(UCS))または均等物に従って、コードによって表されてもよく、例えば、各文字は、UCS−4、UTF−32、UTF−16、UCS−2、UTF−EBDIC、UTF−8、UTF−7等のコードポイントによって表されてもよい。したがって、各々の名前の文字に対する各々のコードポイントは、文字が半角片仮名の文字であるかどうかを確かめるように、ラテン文字と同等である半角片仮名の文字に対応する、一連のコードポイントと比較されてもよい。文字が、ラテン文字と同等である半角片仮名の文字であれば、同等のラテン文字と置換されてもよい(例えば、文字に対応するコードポイントが別のコードポイントと置換される)。半角片仮名のコード範囲内のラテンの均等物は、ラテン範囲に翻訳されるべきである。具体的には、一実施形態では、コード部分が65281から65370の範囲に入る文字は、33から122のコードポイントの範囲内の各コードポイントに翻訳される(例えば、65281のコードポイントが見出された場合はコードポイント33に置換され、65300のコードポイントが見出された場合はコードポイント52に置換される、等)。
次いで、名前の属性の比較をさらに促進するために、名前の中の全ての小文字のラテン文字が、ステップ930において、それらの大文字の均等物に翻訳されてもよい(例えば、「a」が「A」に翻訳される)。再度、一実施形態では、このことは、名前の中の小文字のラテン文字を表す、あらゆるコードポイントと、同じラテン文字の大文字バージョンを表す各コードポイントとの置換を備えてもよい。
ステップ940では、名前の中のあらゆる区切り文字が、空白に翻訳されてもよい。どの文字が区切り文字かという定義は、利用される一式のコードポイントに対応する区切り文字の標準リスト、または区切り文字の専有リスト(例えば、区切り文字の標準リストに加えて、日本語特有の区切り文字または均等物等の、名前の言語に対する特有の区切り文字、または任意の他の所望の区切り文字を備えてもよい)のいずれかであってもよい。例えば、ステップ930で、名前の文字のコードポイントの各々が、区切り文字のリストと比較されてもよいように、区切り文字に対応するコードポイントのリストがデータベースに記憶されてもよく、名前の文字のコードポイントが、区切り文字のリストの中のコードポイントに対応する場合、名前の文字のコードポイントは、空白に対応するコードポイントと置換されてもよい。
次いで、ステップ950では、名前の中のあらゆる繁体字が、簡体の均等物に翻訳されてもよい。再度、一実施形態では、繁体字に対応するコードポイントを同等の簡体字に対応するコードポイントと置換することによって、繁体字をその簡体の均等物に翻訳するために、簡体の均等物に対応するコードポイントへの繁体字に対応するコードポイントの従来のマッピングが使用されてもよい。しかしながら、別の実施形態では、繁体字と簡体字との間のマッピングは、専有マッピングであってもよく、データベースは、繁体字のコードポイントのリストを記憶してもよく、その場合、これらのコードポイントの各々が、同等の簡体字に対するコードポイントと関連付けられる。次いで、このリストを使用して、名前の中のコードポイントをリストと比較することによって、名前の中の繁体字が識別されてもよく、コードポイントを同等の簡体字に対する関連コードと置換することによって、識別された繁体字が簡体字に翻訳されてもよい。
ステップ950で、繁体字がそれらの簡体の均等物に翻訳された後、ステップ960で、異なる種類の文字の間に空白が挿入されてもよい。例えば、日本語の名前は、とりわけ、ラテン、平仮名、片仮名、音標片仮名、半角片仮名といった、多くの異なる種類の文字を包含する場合がある。したがって、2つの文字が異なる種類(例えば、異なる文字セット)である場合、名前の中の2つの文字の間に空白が挿入されてもよい。一実施形態では、コードポイントの範囲が文字セットを指定してもよい(例えば、ラテン文字は、1から255のコードポイント範囲を備えてもよく、平仮名は、12352から12447のコードポイント範囲を備えてもよい、等)。したがって、特定された、あるいは定義されたコードポイント範囲を使用して、異なるコードポイント範囲内の隣接する文字が識別されてもよく、これらの2つの文字の間で、空白が名前に挿入されてもよい。
ステップ960における、異なる種類の文字の間の空白の挿入後、ステップ970で、表意文字が名前の中で識別されてもよく、これらの表意文字が空白によって区切られてもよい(例えば、空白が文字の前または後に挿入される)。一実施形態では、表意文字に対応する一式のコードポイントを備えるリストが保持されてもよい。表意文字である名前の中で文字が識別された場合(例えば、文字に対応するコードポイントを、表意文字のリストを備えるコードポイントと比較することによって)、表意文字の前または表意文字の後(例えば、表意文字が名前の最後の文字ではない場合)、空白が名前に挿入されてもよい。
次いで、名前は、ステップ980で一式のトークンに構文解析されてもよい。一実施形態では、この構文解析は、名前の中の空白に基づいて行われてもよい。したがって、空白は、名前の1つのトークンの終了、または名前の別のトークンの開始を指定してもよい。次いで、このように、一式のトークンが日本語の名前から得られてもよい。加えて、本開示の他の実施形態(例えば、異なるコードポイントまたはコードポイント範囲を利用してもよい)を適用することによって、韓国語または中国語等の他のアジア言語による名前が、同様に一式のトークンに分離されてもよい。日本語の名前または属性を比較する一実施形態は、テーブル駆動の翻訳技法を利用して、名前をトークンに構文解析することを含む。一実施形態では、テーブル駆動の翻訳技法は、異なる符号化および文字セット間のマッピング/フィルタリングのためのUnicodeマッピングまたはumap−type能力を介して、行うことができる。
したがって、一実施形態では、日本語の名前は、以下のようにトークンに構文解析することができる。
−半角片仮名をラテンに翻訳する。
−10進(65281、65370)における半角片仮名コード範囲中のラテンの均等物を、10進(33、122)におけるラテン範囲に翻訳する。
−ラテン小文字を大文字に翻訳する。
−区切り文字を空白に翻訳する。
−該当する場合、日本語特有の区切り文字を標準リストに追加する。包括的なリストではないが、サンプルデータから引き出される例は以下を含む。
Figure 2010541079
繁体中国語の文字を簡体字に翻訳する。一実施形態では、これらの翻訳の222のテーブルがある。図10に例を示し、図中、繁体字が第2の列の中にあり、簡体の均等物が第1の列の中にある。
コードセットが変化する時に、第2の技法が適用されてもよい。その一例は、最初の3文字が片仮名であり、最後の4文字が漢字である、□□□□□□□である。ここでは、2つのトークンが形成される。このことは、NTT□□□□□□□または□□□□□□等の組み込まれたラテン字がある時にも役立つ。1つ目と2つ目との違いは、1つ目が実際のラテンコードポイントを使用し、2つ目がそれらの半角の均等物を使用することである。
以下のコードポイント範囲は例示的であり、利用可能な1つまたは複数の全範囲を包括しない。
Figure 2010541079
ここでは、第1の列が文字セット名であり、第2および第3の列が10進範囲である。CJK統合は、日本語のデータに適用した時のいわゆる漢字である。
以下の分布は、サンプルの一式の日本語事業名データの中の文字に関する統計からである。
Figure 2010541079
この場合、漢字(CJK統合)および片仮名が最も多い。
この実施例では、データ中のある文字が、これらのグループのうちのいずれにも該当しなかった。それらは大部分が修飾語句であり、これらの文字は、それに先行する文字を伴うグループ化した文字であった(反復文字□がこれらの中で最も一般的であった(すなわち、□□が□ □を意味する))。修飾語句または他の未グループ化文字をグループ化する、ほぼあらゆる方法が適用されてもよい。
前述の2つの技法が組み合わせられてもよい。例えば、□□□□□□□□□□が{□,□□□□□□□}に構文解析し、□□□□□□□□□□□が{□□□□,□□,□□□□}になる等のように、それらを一式のサンプル名に適用することができる。構文解析のサンプルを図11に示す。図12は、構文解析がサンプルの一式のデータからの各名前に対して作成した、トークンの数の統計値を示す、ヒストグラムである。図12から分かるように、約16,608の名前が、44,681個のサンプルの名前から単一トークンとして残された。したがって、名前の約63%が、少なくとも2つのトークンに構文解析された。大部分が2つのトークンの名前であり、平均が1つの名前に付き1.94個の構文解析されたトークンである。図13は、構文解析されたトークンの文字長の分布を示す、ヒストグラムであり、1つのトークンに付き平均5.1文字である。このことは、元のデータの中の平均10.3文字の長さに匹敵する。要約すれば、この実施形態では、名前の構文解析のためのステップは、以下を含む。
1.半角文字をそれらのラテンの均等物に翻訳する(ラテンの均等物がある半角文字)。
2.小文字のラテンを大文字のラテンに翻訳する。
3.特殊文字を空白(区切り文字)に翻訳する。
4.文字が1つのコードセットから別のコードセットに変化する時はいつでも、空白を挿入する。修飾語句への変化でない限り、範囲もテーブル駆動となるべきである。
5.(必要であれば)あらゆる表意文字の前後に空白を挿入する。
6.空白についてトークンに構文解析する。
上記で説明される実施形態の複数部分または実施形態内のアイテムを指定する、任意の限定的言語は、特定の実施形態を考慮して、または特定の実施形態に関して該当するのみであると理解され、一般に本開示のシステムおよび方法に該当するとは理解されないことに留意されたい。
いくつかの実施形態では、英語の名前に対するバケッティングの方法は、3つの主要ステップを含む。
1)名前をトークンに構文解析するステップ
2)トークンおよびあらゆる同等のトークン(例えば、ニックネーム)に対する音声コードを作成するステップ
3)音声的にコード化されたトークンに頻度に基づくバケッティングを適用するステップ
以下は、この方法の一般的な言語非依存型バージョンを、どのようにして作成し、任意の言語による名前に適用することができるかを説明する。この言語非依存型バケッティング方法は、基本一致能力を提供することができ、一式の区切り文字およびスクリプトの変化に基づいて入力が構文解析される、上記で説明される構文解析の方法とともに使用することができる。現在、アイデンティティハブ32は、言語非依存型の同等名処理および言語非依存型の頻度に基づくバケッティングを行うことができる。したがって、言語非依存型バケッティング方法を作成するために、唯一残されたするべきことは、任意の言語/スクリプトに適用することができる、一般的なコーディングルーチンである。
言語/スクリプト非依存型コーディングシステムを作成する際に、文字の統計値を考慮する必要がある。一例として、図14は、構文解析および翻訳後の日本語の名前のサンプルからの単一文字分布を示す。より制限されたアルファベットでは、おそらく、対を成す文字または2部グラフを見る必要がある。構文解析および翻訳後に、図14に示された分布を伴う2168文字があると仮定する。図15は、図14のサンプルからの最初の日本語の20文字、およびそれらの頻度を記載する。
分布が急速に降下するため、このことは、ほぼ全ての構文解析されたトークンがいくつかの低頻度文字を含有することを示唆する。したがって、各トークンからn個の最高頻度文字を選択することに基づいて、コーディングスキームを構築することができる。この場合、アルゴリズムは、以下を含んでもよい。
1.トークンを備える文字を、それらの全体的頻度別に順序付ける。最低頻度文字が1番目である。
2.これらの中の最初のn個を選択する(元のトークンの長さまで)。
nを選ぶ時に、トークンの頻度は、誇張されすぎるものではない。つまり、コード化されたトークンの分布は、元のトークンの分布の桁数内となるべきである。これは、Soundexよりもmetaphoneが好まれる理由のうちの1つである。n=2およびn=3を見て、後者に決めたと仮定する。分布を図16に示す。
ここで、曲線160は、元のトークンの分布であり、曲線162は、コード化されたトークンの分布である。頻度に基づくバケッティングで扱うことができる、最初の2つのコード化された値以外に、分布は合理的に見える。
次に、これらのコード化されたトークンは、バケッティングに使用される。一例として示すために、頻度が1/1000未満であれば、1/1000のカットオフおよび単一トークンに対するバケットを使用し、そうでなければ、ペア頻度が1/1000未満である限り、ペアワイズ結合を使用する。
図17は、元の構文解析された名前(左列)、および対応するバケットアイテム(右列)の例を示す。第5行では、3つの単一文字トークンが単独でバケットするほど低頻度である一方で、第6行では、2つの2方向バケットが生じたことに留意されたい。行また、これらのデータは英語の言葉も含有することに留意されたい。これらは異なって扱われない。
上記で説明されるスキームを適用すると、図18Aは、構文解析された名前170に対するバケッティングが、バケット175の中の一式の名前を作成することを示し、図18Bは、構文解析された名前180に対するバケッティングが、バケット185の中の一式の名前を作成することを示す。これらの例の両方は、名前のバケッティングの言語非依存型方法を示す。
図19は、一緒に定性的にバケットするメンバーの数を示す、プロット図である。この分布の平均は17である(すなわち、平均して、メンバーは名前だけについて、17人の他のメンバーとバケットする)。図19から、100回のクエリごとに、170より多いメンバーとバケットする。これは、実装の一例である。他の実装は、平均でおよそ1:100よりもむしろ1:1000(y軸上の−3)の倍でヒットしてもよい。
現在のアーキテクチャでは、上記のバケッティング方法は、合理的な性能で容易に実装することができる。例えば、コーディングルーチンは、文字頻度テーブルを消費し、その頻度に従ってトークンの中の文字を分類し、一番上の3つの文字を選択してもよい。日本語以外のスクリプトにこのルーチンを使用するために、選択される文字の数は、構成可能なパラメータであってもよい。次いで、現在の頻度に基づくバケッティングを使用することができる。元のトークンおよびコード化されたトークンの分布が同様であるため、元のトークンまたはコード化されたトークンのいずれかで頻度を実行することができる。トークンは、本明細書に参考として援用される、「METHOD AND SYSTEM FOR COMPARING ATTRIBUTES SUCH AS PERSONAL NAMES」と題された2006年9月15日出願の米国特許出願第11/522,223号、および「METHOD AND SYSTEM FOR COMPARING ATTRIBUTES SUCH AS BUSINESS NAMES」と題された2006年9月15日出願の米国特許出願第11/521,928号で説明されている技法を使用して、順序付けることができる。
再び図20および21を参照すると、使用される技法を問わず、いったん比較されるデータ記録の属性が標準化され、一式の候補が比較のために選択されると、データ記録間のより詳細な比較が、属性レベルで行われてもよい。ウエートが各比較に対して生成されてもよい。
ここで図4を参照すると、属性の比較からスコアを生成する方法の一実施形態のフロー図が描写されている。任意の2つの属性(例えば、個人名、住所、会社名等)を比較するために、描写された方法論の実施形態が使用されてもよいが、それは事業名を比較する際に特に有用であってもよく、そのようなものとして説明される。
ステップ410では、2つの名前が、比較されてもよいように与えられるか、または提供される(例えば、ソフトウェアアプリケーションに入力される)。名前は各々、以上で論議されるように、一式のトークンを備える標準化された形態であってもよい。ステップ420では、名前の各々に対して、情報スコアが計算されてもよい。次いで、属性に対するこの情報スコアは、名前のトークンの各々の完全一致値の合計(トークンに対する情報スコアとも呼ばれる)であってもよい。次いで、2つの属性の情報スコアがステップ430で平均化されてもよい。
(例えば、2つの属性間の最小または最大情報スコアの代わりに)2つの属性の情報スコアに対する平均値を使用することにより、名前比較アルゴリズムの実施形態を可能にして、2つの属性間の生成されたウエートが2つの属性間の欠落したトークンを考慮に入れることを可能にしてもよく、いくつかの実施形態では、欠落したトークンに対して課せられるペナルティが、2つのトークン間の不一致に対して課せられるペナルティの半分になることを可能にしてもよい。順に、トークンの各々の情報スコアは、データサンプル中のトークンの発生頻度に基づいてもよい。トークンに対する情報スコアを決定するために、トークンの相対頻度を利用することによって、あるトークン(例えば、「Inc.」)の共通性が、これらのトークンをより低く採点することによって考慮に入れられてもよい。
次いで、2つの名前を比較することによって、2つの名前の間のスコアをステップ440で生成することができる。次いで、このスコアは、2つの名前に対する最終スコアを生成するために、ステップ450で正規化されてもよい。一実施形態では、この正規化過程は、生成されたスコアの平均情報スコアに対する比に倍率を適用して、正規化された指標値を生成してもよい。次いで、この正規化された指標値は、値のテーブルを指標化して最終尤度スコアを生成するために使用されてもよい。
ここでは、図4で描写された名前を比較するアルゴリズムの実施形態の種々のステップを、さらに詳細に掘り下げて考えることが有用となる場合がある。そのようなものとして、最初に対処されるのは、ステップ430で描写されるような平均情報スコアの計算であろう。上記で論議されるように、属性に対する情報スコアは、属性のトークンの各々に対する完全一致ウエートの合計であってもよい。これらの完全一致ウエートが計算される方法の実施形態を説明することが有用となる場合がある。一実施形態では、完全一致ウエートテーブルは、トークンの完全一致に使用するためのトークンまたはデフォルト値の完全一致に対するウエート値を有してもよい。言い換えれば、完全一致ウエートテーブルは、対応するウエート値を伴うトークンのリストを備えてもよい。このウエート値は、完全一致ウエートに対応してもよい。異なる言い方をすれば、比較されている両方のトークンが同じである場合、トークンは、完全一致ウエートテーブルで見つけられてもよく、対応するウエートは、これらの2つのトークンに対する一致ウエートとして使用される。2つのトークンが完全一致であると決定され、トークンが完全一致ウエートテーブルにない場合は、デフォルトウエート値が一致ウエートに利用されてもよい。
一実施形態では、完全一致ウエートテーブルの中のトークンと関連付けられたウエートは、情報源34、36、38のうちの1つ以上と関連付けられた一式のデータ記録、または一式の提供されたデータ記録等の、サンプルの一式のデータ記録から計算されてもよい。サンプルの一式のデータ記録を使用して、完全一致ウエートは、頻度データおよび一致セットデータを使用して計算されてもよい。サンプルの一式のデータ記録の中の名前の文字列(例えば、名前の属性)NameTotの数が計算されてもよく、これらの名前の文字列に対応する、各名前のトークンTについては、カウントがTcountで、頻度がTfreq=Tcount/NameTotである。
次いで、トークンは、頻度別に順序付けられ、最高頻度のトークンが1番目であり、該トークンおよびその前に来た全てのトークンの頻度の合計である、各トークンの累積頻度が、以下の表1で描写されるように計算される。
Figure 2010541079
いくつかの実施形態では、累積頻度が0.80を超える第1のトークンを含むまでの全てのトークンが決定され、これらのトークンの各々について、ExactTi=−In(Tfreq−i)という式を使用して、完全一致ウエートが計算されてもよい。Tが、累積頻度が0.80を超える第1のトークンであり、Tが最後のトークンまたは最低頻度トークンである場合、−In(Tfreq−M+1),....−In(Tfreq−N)の平均を取ることによって、デフォルト完全一致ウエートを計算することができる。次いで、本明細書で説明される、名前を比較する比較アルゴリズムの実施形態が、データセット中の名前の一式のランダムペアに適用されてもよく、以下を生成する:RanNameComp=比較される名前の文字列ペアの総数、およびFor I=0 to MAX_SIM、RanSim−I=正規化された類似性がIである名前の文字列ペアの総数。次いで、各Iについて、RanFreqSim−I=RanSim−I/RanNameCompを計算することができる。いずれも本明細書に参考として完全に援用される、2006年9月15日出願のNorm Adamsらによる「METHOD AND SYSTEM FOR COMPARING ATTRIBUTES SUCH AS BUSINESS NAMES」と題された米国特許出願第11/521 ,928号、および2006年9月15日出願のNorm Adamsらによる「METHOD AND SYSTEM FOR COMPARING ATTRIBUTES SUCH AS PERSONAL NAMES」と題された米国特許出願第11/522,223号で説明されているようなウエート生成過程を使用して、一致FreqSim−I=一致Sim−I/一致NameCompも、トークンについて計算することができる。次いで、トークンに対する最終ウエートは、Weight−Norm−Sim=log10(一致FreqSim−I/RanFreqSim−I)として計算されてもよい。
いったん一式のトークンに対する完全一致ウエートが計算されると、それらは、アイデンティティハブ32と関連付けられたデータベースの中のテーブルに記憶されてもよい。例えば、以下の疑似コードは、イニシャルに対する完全一致ウエートを備える「initialContent」テーブル、および他のトークンに対する完全一致ウエートを備える「exactContent」といった、2つのテーブルを利用して、属性に対する情報スコアを計算する一実施形態を表す。
Figure 2010541079
依然として図4を参照すると、いったんステップ430で情報スコアが計算され、これらのウエートが平均化されると、ステップ440で2つの名前に対してウエートが生成されてもよい。ここで図5Aを参照すると、2つの属性間のウエートを生成する方法の一実施形態のフロー図が描写されている。より具体的には、ステップ515では、1つの属性の各トークンが、他の属性の各トークンと比較されてもよい。この比較は、各属性を備える一式のトークンの順序に従って行われてもよい。言い換えれば、1つの属性の第1のトークンが、他の属性のトークンの各々と比較されてもよく、その後、属性の第2のトークンが他の属性のトークンの各々と比較されてもよい、等である。
これらのトークンのペアの各々について、ステップ525では、2つのトークンの間に一致が存在するかどうか決定されてもよい。ステップ525で、2つのトークンの間に一致が存在しない場合、現在の一致ウエートは、ステップ537でゼロに設定されてもよい。しかしながら、2つのトークンの間に一致が存在する場合は、ステップ535で2つのトークンに対する現在の一致ウエートが計算されてもよい。
いったんステップ525で2つのトークンの間に一致が存在するかどうか決定され、そのような一致が存在する場合に、ステップ535で現在の一致ウエートに対して一致ウエートが計算されると、ステップ547で距離ペナルティが課せられるべきかどうか決定されてもよい。一実施形態では、距離ペナルティが課せられるべきかどうか決定されてもよく、属性の一対のトークンの間の最終一致が発生した場所に基づいて、距離ペナルティが計算されてもよい。この目的を達成するために、ステップ545では、属性の2つのトークンの間の最終一致が発生した場所を示す、最終一致位置が決定されてもよい。比較されている現在の2つのトークンの位置と、最終一致位置との(例えば、属性に対する)差異が、ある閾値よりも大きい場合、ステップ555で距離ペナルティが計算されてもよく、現在の一致ウエートから距離ペナルティを引くことによって、ステップ557で現在の一致ウエートが調整されてもよい。これらの差異ペナルティは、最終一致位置と現在のトークンの位置との差異に基づいて、異なってもよいことが明白となるであろう。
属性の以前のトークンに対する一致ウエートも、ステップ565、567、および575で決定されてもよい。より具体的には、ステップ565では、第1の以前の一致ウエートが、現在比較されている1つの属性のトークンと、もし存在すれば、現在比較されている第2の属性の以前のトークン(例えば、比較されている現在のトークンに順番が先行する)とに対して決定される。同様に、ステップ567では、第2の以前の一致ウエートが、現在比較されている第2の属性のトークンと、もし存在すれば、現在比較されている第1の属性の以前のトークンとに対して決定される。ステップ575では、いずれか一方のトークンが存在すれば、現在の属性の各々の以前のトークンを使用して、第3の以前の一致ウエートが決定される。次いで、現在の一致ウエートに第3の以前の一致ウエートを加えることによって、ステップ577で、現在比較されている一対のトークンに対する現在の一致ウエートが調整されてもよい。
次いで、ステップ585で、現在の一致ウエートが第1および第2の以前の一致ウエートと比較されてもよく、現在の一致ウエートが以前の一致ウエートのいずれか一方以上であれば、ステップ587で、ウエートが現在の一致ウエートに設定されてもよい。しかしながら、第1または第2の以前の一致ウエートが、現在の一致ウエートよりも大きければ、ステップ595で、ウエートは、第1または第2の以前の一致ウエートのうちの大きい方に設定される。このように、2つの属性のトークンの各々が比較された後に、ウエートが生成される。
本明細書で開示される、ある実施形態を実施する際に、多くの種類のデータ要素またはデータ構造が有用であってもよいことが明白となるであろう。例えば、図5Bは、テーブルを利用して2つの属性間のウエートを生成する方法の一実施形態のフロー図を示す。ステップ510では、2つの名前の比較に役立つように、テーブルが構築されてもよい。このテーブルは、名前のうちの1つにおけるトークンの各々に対する行に加えて、付加的な行と、他の名前におけるトークンの各々に対する列に加えて、付加的な列とを備えてもよい。したがって、テーブルの第1行および第1列が、初期状態に対応してもよい一方で、テーブルの他のセルの各々は、一意の一対のトークンに対応してもよく、名前の各々からの1つのトークンが比較される。テーブルの各セルは、位置(例えば、セル)インジケータおよびウエートを記憶する能力を有してもよい。テーブルが示された実施形態で利用されるが、テーブルは構造例にすぎず、任意のデータ構造、構造記憶が利用されてもよいことが明白となるであろう(例えば、任意の次元の配列、連結リスト、ツリー等)。
ステップ510でテーブルが構築された後、テーブル内のある初期セルが初期値を有するように、ステップ520で初期化されてもよい。より具体的には、一実施形態では、位置インジケータが空値またはゼロ値を受信してもよく、これらのセルの各々と関連付けられたウエートがゼロ値に初期化されてもよいように、第1行および第1列の各々が初期化されてもよい。
次いで、セルと関連付けられる位置および値を決定するように、(例えば、初期セルの他に)テーブルの他のセルの各々が反復されてもよい。各セルについては、ステップ530で、セルが頭字語一致を通してすでに一致させられているかどうかが決定され、もしそうであれば、セルを飛ばして進んでもよい。しかしながら、セルが以前に一致させられていなかった場合は、ステップ540で、セルに対応する2つのトークンの間に一致が存在するかどうか決定されてもよく、一致が存在しなければ、一実施形態では、1つのトークンの文字を、他方の名前の一式のトークンの最初の文字と比較することによって、ステップ532で、セルに対応するトークンのいずれか一方が、他方の名前における一式のトークンに対する頭字語であるかどうかが決定されてもよい。トークンのうちの1つが、他方の名前における一式のトークンに対する頭字語である場合、ステップ534では、対応するトークンが頭字語である一式のセル、および頭字語に対応する他方の名前の一式のトークンに対して、(以下でより詳細に説明されるような)最終位置インジケータおよびセルウエートが計算される。1つのトークンが他方の名前の一式のトークンに対する頭字語であるかどうかを決定する疑似コードは、以下のとおりであり、MAX_INIT_MATCHは、この実施形態では3である、最大頭字語の長さである。
Figure 2010541079
ステップ532で、いずれのトークンも頭字語ではないと決定された場合、現在のセルに対する一致ウエートがステップ542でゼロに設定されてもよい。ステップ540に戻って、現在のセルに対応する2つのトークンの間に一致が存在する場合、2つのトークンに対する一致ウエートがステップ542で計算されてもよい。2つの対応するトークンを比較し、ステップ540および542に従って関連一致ウエートを生成するために、事実上あらゆる種類の比較が利用されてもよいが、一実施形態では、完全一致、イニシャル一致、音声一致、ニックネーム一致、またはニックネーム音声一致が生じるかどうかが決定されてもよく、対応する一致ウエートは、本明細書に参考として完全に援用される、2006年9月15日出願のNorm Adamsらによる「METHOD AND SYSTEM FOR COMPARING ATTRIBUTES SUCH AS PERSONAL NAMES」と題された、前述の米国特許出願第11/522,223号で説明されているように計算されてもよい。2つのトークンを比較し、関連一致ウエートを生成する疑似コードは、以下のとおりである。
Figure 2010541079
依然として図5Bを参照して、いったんセルに対応する2つのトークンの間に一致が存在するかどうかがステップ540で決定され、そのような一致が存在する場合に一致ウエートがステップ542で計算された場合、距離ペナルティが課されるべきかどうかがステップ550で決定されてもよく、距離ペナルティは、ステップ552で計算されてもよい。一実施形態では、距離ペナルティが課されるべきかどうかが決定されてもよく、距離ペナルティは、最終位置一致に対応するセルの位置と、現在のセルとの違いに基づいて計算されてもよい。行の位置および列の位置の違いが計算されてもよく、違いが1より大きい場合(距離ペナルティが課されるべきであると示す)、課すべき距離ペナルティを決定するために、これらの違いの中で最も大きいものが使用されてもよい。例えば、現在のセルの行と最終一致を伴うセルの行との違いが、2であり、現在のセルの列と最終一致を伴うセルの列との違いが、3である場合、3という距離に関連付けられた距離ペナルティが利用されてもよい。最終一致セルと評価されている現在のセルとのより大きい距離に基づいて、より大きい違いのペナルティが関連付けられ、課せられてもよいことが明白となるであろう。実際に、ステップ550で、距離ペナルティが課せられるべきであると決定され、距離ペナルティが計算された場合には、一致ウエートから距離ペナルティを引くことによって、ステップ560で一致ウエートが調整されてもよい。
次いで、セルに一致ウエートを使用して、セルに対するセルウエートおよび最終一致位置がステップ570で計算されてもよい。セルに対する最終一致位置およびセルウエートを計算する方法の一実施形態のフロー図を図6に示す。概して、セルウエートおよび最終一致位置は、周辺セルの最終一致位置およびセルウエートに基づいて計算されてもよい。具体的には、現在のセルに隣接する1つのセル(例えば、現在のセルの行数から1を引いた、同じ列数)からのセルウエートが、ステップ610で決定されてもよく、現在のセルに隣接する別のセル(例えば、現在のセルの列数から1を引いた、同じ行数)からのセルウエートが、ステップ620で決定されてもよい。ステップ630では、現在のセルに対して計算された一致ウエート(ステップ570)に、対角上の隣接セル(例えば、現在のセルの行数から1を引き、現在のセルの列数から1を引いた)のセルウエートを加えることによって、一時的セルウエートが決定されてもよい。
2つの隣接セルからのセルウエート、および一時的セルウエートは、ステップ640で比較されてもよい。一時的セルウエートは、隣接セルのセルウエートのいずれか一方よりも大きい場合、ステップ642で、現在のセルの最終一致位置が現在のセルの位置に設定され、ステップ644で、現在のセルのセルウエートが一時的セルウエートに設定される。しかしながら、セルウエートのいずれか一方が一時的セルウエートを超える場合、2つのセルウエートのうちの大きい方が、現在のセルのセルウエートとして割り当てられ、ステップ652またはステップ654で、そのセル(例えば、より高いセルウエートを伴う隣接セル)の最終一致位置指標の値が、現在のセルの最終位置指標として割り当てられる。
ここで図5Bに戻って、テーブル中の全てのセルが上記で説明される方式で反復された後、ステップ580で、比較されている2つの名前に対するウエートは、テーブルの最終セル(例えば、最終行、最終列)のセルウエートであってもよい。次いで、次いで、ステップ580でウエートが決定され、このウエートは、一実施形態では、2つの名前に対するウエートの2つの名前の平均情報値に対する比を計算し、この比に最大指標値を掛けて正規化された指標値を求めることによって、図4のステップ450で表されるように正規化されてもよい。次いで、この正規化された指標値は、一実施形態では、指標値を使用して、アイデンティティハブ32のデータベースに記憶されたウエートのテーブルを指標化することによって、最終ウエートを決定するために使用されてもよい。
上記で説明された方法の実施形態の用途の例を掘り下げる前に、種々の一致および分布ペナルティがどのように決定されるかを論議することが有用であり得る。一実施形態では、これらのペナルティを計算するために、図4に関して上記で説明されるもの等の比較アルゴリズムの実施形態が、サンプルの一式のデータ記録から得られた、一式の無作為なペアの名前に適用される。通常は、およそ1,000万組の名前が使用されてもよい。比較アルゴリズムを適用している間に、以下が追跡されてもよい。
・RanComp=比較される名前のトークンの総数。
・RanExact=正確に一致する名前のトークンの総数。
・RanInitial=イニシャル一致を介して一致する名前のトークンの総数。イニシャル一致は、最初の文字が一致し、1つのトークンが長さ1を有し、他方の長さが1より大きいものである。
・RanPhonetic=完全ではなく、音声的に一致する名前のトークンの総数。
・RanNickname=共通のニックネームを有し、完全には一致しない名前のトークンの総数。
・RanNickPhone=音声的に一致するニックネームを有し、完全には一致しないか、またはニックネームだけを介しては一致しない、名前のトークンの総数。
・RanEdit=編集距離比較を介して一致し、完全には一致しない名前のトークンの総数。
・RanDist−0=(CXNMのみ)完全に一致し、各名前の文字列における以前のトークンも一致した、名前のトークンの総数。
・実施例1:BOBS FLOWER SHOPと比較されたBOBS FLOWER SHOPでは、以前のトークンにおいて完全一致のBOBSがあったため、FLOWERに対する完全一致が数えられる。同様に、SHOPも数えられる。
・実施例2:BOBS PRETTY FLOWER SHOPと比較されたBOBS FLOWER SHOPでは、以前のトークンがBOBSおよびPRETTYであり、一致であるため、FLOWERは数えられない。SHOPが数えられる。
・RanDist−1、RanDist−2、RanDist−3=(CXNMのみ)完全に一致し、現在の一致と以前の一致との間の正確なトークンの最大数が1、2、または3である、名前のトークンの総数。
・上記の実施例2では、FLOWERの一致に対して、以前の一致はBOBSである。第1の文字列には余分なトークンがなく、第2の文字列には1つのトークンがあるため、これがRanDist−1の例となる。
・文字列BOBS PRETTY FLOWERSおよびBOBS GOOD FLOWERSが比較された場合、各文字列に1つの余分なトークンがあるため、完全一致のFLOWERSに対する距離は、依然として1となる。
・文字列BOBS PRETTY NICE FLOWERSおよびBOBS GOOD FLOWERSが比較された場合、第1の文字列に2つの余分なトークンがあるため、完全一致のFLOWERSに対する距離は2となる。
・余分なトークンの数が3以上であれば、RanDist−3で数えられる。
次いで、以下の頻度を計算することができる。
Figure 2010541079
完全一致ウエートを生成することと併せて、上記で説明される過程を使用して、一式の一致した名前のペアを導出することができ、以下の頻度を導出することができる。
Figure 2010541079
これらの頻度を使用して、以下の限界ウエートが計算されてもよい。
Figure 2010541079
各ペナルティは以下のように計算されてもよい。
Figure 2010541079
図7のテーブル例を参照して、「Bobs Flower Shop」および「Bobs Very Pretty Flower Shoppe」といった2つの名前の間のウエートを得ることが所望され、以下のパラメータが比較に使用されると仮定すると、トークンの各々に対する完全一致ウエートは、以下のとおりである。
BOBS-200
VERY-150
PRETTY-300
FLOWER-400
SHOPPE-600
SHOP-150
一方で、3という距離に対する距離ペナルティは100であり、音声ペナルティは100である。
一実施形態では、比較されている2つの名前に対して、平均情報スコアが計算されてもよい(ステップ430)。一実施形態では、このことは、各々の名前における各々のトークンに対する完全一致ウエートを使用して行われる。この方法によれば、Bobs Flower Shopに対する情報スコアは750(例えば、200+400+150)であり、「Bobs Very Pretty Flower Shoppe」という名前に対する情報スコアは、1650(200+150+300+400+600)であり、2つの情報スコアの平均を1200にする。
いったん2つの名前に対する平均情報スコアが計算されると(ステップ430)、2つの名前に対するウエートが生成されてもよい(ステップ440)。一実施形態によれば、テーブル700が構築される(ステップ510)。その場合、各セル702には、位置指標(例えば、行、列)およびセルウエートを保持する能力がある。次いで、テーブルのセル702aが初期化されてもよい(ステップ520)。
いったんテーブルのセル702aが初期化されると、テーブル700の残りのセル702が反復されてもよい。セル702b(例えば、行1、列1)から開始して、セル702bに対応する2つのトークンの間に一致が生じることが決定される(ステップ540)。次いで、これらの2つのトークンに対する一致ウエートが計算されてもよく(ステップ542)、この場合、それは200である。次いで、隣接セルに対するセルウエート値が決定されてもよく(ステップ610、620)、このことから、200を加えた対角セル702a1からのセルウエート(0)(例えば、セルに対する一時的セルウエート)が、隣接セル702a2、702a3のセルウエートよりも大きいことを決定することができる(ステップ640)。したがって、セル702bに対する最終一致位置指標は、現在のセル702b(1,1)に設定され、現在のセルに対するセルウエートは、計算された一致ウエート(200)に設定される(ステップ642、644)。
次いで、次のセル702cに対する最終一致位置指標およびセルウエートが計算されてもよい。セル702cに対応する2つのトークンの間に一致が生じないことが決定される(ステップ540)。頭字語一致が生じない(ステップ532)ため、このセルに対する一致ウエートは、ゼロに設定される(ステップ542)。次いで、一時的セルウエートが計算され(ステップ630)、隣接セル702b、702a4のセルウエートと比較されてもよく(ステップ640、650)、このことから、隣接セル702bからのセルウエート(100)が、セル702a4のセルウエート、または現在のセル(0)に対する一致ウエートを加えた対角セル702a3のセルウエート(例えば、一時的セルウエート)よりも大きいことを決定することができる。したがって、現在のセル702cの最終一致位置指標は、隣接セル702b(1,1)の最終位置一致指標に設定され、現在のセル702cのセルウエートは、より大きいセルウエートを伴う隣接セル702bのセルウエートに設定される(ステップ652)。
同様に、セル702d、702e、702f、702g、702h、702i、702j、および702kが、セル702cに関して上記で説明されるのと同様の結果とともに反復されてもよい。しかしながら、セル702lに到達すると、セル702lに対応する2つのトークンの間に一致が生じることが決定されてもよい(ステップ540)。次いで、セル702lに対応する2つのトークン(例えば、「Flower」および「Flower」)に対する一致ウエートが計算されてもよく(ステップ542)、この場合、それは400である。次いで、対角セル702hの最終一致位置の位置を、現在のセル702lの位置と比較することによって、距離ペナルティが課せられるべきかどうかが決定されてもよい(ステップ550)。この比較は、相互から行指標を引き(例えば、4−1)、相互から列指標を引き(例えば、2−1)、これらの値の最大値を取り(例えば、3)、この距離値を閾値レベルと比較して、距離ペナルティが課せられるべきかどうかを決定することによって、達成されてもよい。この場合、距離ペナルティに対する閾値は、1という距離であってもよく、3が1よりも大きいため、距離ペナルティが課せられるべきであると決定されてもよい。次いで、距離値(例えば、3)に対応する距離ペナルティが、現在のセルに対する計算された一致ウエートから引かれてもよい(ステップ552、560)。この場合、距離ペナルティは100であり、それは、セル702lの一致ウエートを300に調整するように、400の一致ウエートから引かれてもよい。次いで、隣接セルに対するセルウエート値が決定されてもよく、このことから、現在のセル702lに対する一致ウエート(例えば、300)を加えた対角セル702hからのセルウエート(200)が、いずれか一方の隣接セル702k、702iのセルウエート(例えば、それぞれ、200および200)よりも大きいことを決定することができる(ステップ640)。したがって、セル702lの最終一致位置指標は、現在のセル702l(4,2)に設定され、現在のセル702lのセルウエートは、対角セル702hからのセルウエートを加えた、計算された一致ウエート(例えば、300+200=500)に設定される(ステップ642、644)。
セル702m、702n、および702oに対する最終位置一致指標およびセルウエートは、上記で説明される計算と同様に計算されてもよい。しかしながら、セル702pに到達すると、セル702pに対応する2つのトークンの間に一致が生じることが決定されてもよい(ステップ540)。次いで、セル702pに対応するトークン(例えば、「Shoppe」および「Shop」)に対する一致ウエートが計算されてもよく(ステップ542)、この場合、それは50であってもよい(「Shoppe」と「Shop」との間の一致が音声一致であってもよいため、そのウエートは、音声ペナルティウエートを引いた、ShoppeおよびShopに対する完全一致ウエートの最小値であってもよい)。次いで、対角セル702lの最終一致位置の位置を、現在のセル702pの位置と比較することによって、距離ペナルティが課せられるべきかどうかが決定されてもよい(ステップ550)。この比較は、相互から行指標を引き(例えば、5−4)、相互から列指標を引き(3−2)、これらの値の最小値を取り(例えば、1)、この距離値を閾値レベルと比較して、距離ペナルティが課せられるべきかどうかを決定することによって、達成されてもよい。この場合、距離ペナルティに対する閾値は、1という距離であってもよく、そのようなものとして、距離ペナルティは課せられるべきではない。したがって、現在のセル702pの一致ウエートは、50である。次いで、隣接セル702o、702mに対するセルウエート値が決定されてもよく(ステップ610、620)、このことから、現在のセル702pに対する一致ウエート(例えば、50)を加えた対角セル702lからのセルウエート(500)が、いずれか一方の隣接セル702k、702iのセルウエート(例えば、それぞれ、500および500)よりも大きいことを決定することができる(ステップ640)。したがって、セル702pの最終一致位置指標は、現在のセル702p(5,3)に設定され、現在のセル702pのセルウエートは、対角セル702lを加えた、計算された一致ウエート(例えば、500+50=550)に設定される(ステップ642、644)。
テーブル700の最終セル702pを読むと、比較されている2つの名前に対するウエートが550であると決定することができる。次いで、このウエートは、最大類似度指標、およびウエートの2つの名前に対する平均情報スコアに対する比に従って、正規化されてもよい(ステップ450)。例えば、最大類似度指標が10である場合、ウエートは、方程式10*550/1200の結果を四捨五入することによって、4という正規化された指標値に正規化されてもよい。この正規化された指標値は、2つのトークンに対する最終ウエートを生成するために、正規化されたウエートテーブルへの指標として使用されてもよい(ステップ450)。例えば、4という正規化されたウエートは、2つの名前に対する441という最終ウエートに指標化されてもよい。
図8は、頭字語が存在する実施例を示す。「Bobs VP Flower Shop」および「Bobs Very Pretty Flower Shop」といった2つの名前の間のウエートを得ることが所望され、以下のパラメータが比較に使用されると仮定すると、トークンの各々に対する完全一致ウエートは、以下のとおりである。
BOBS-200
VERY-150
PRETTY-300
FLOWER-400
SHOP-150
一方で、3という距離に対する距離ペナルティは、100である。
一実施形態では、比較されている2つの名前に対して、平均情報スコアが計算されてもよい(ステップ430)。一実施形態では、このことは、各々の名前における各々のトークンに対する完全一致ウエートを使用して行われる。この方法によれば、Bobs VP Flower Shopに対する情報スコアは1050(例えば、200+300+400+150)であり、「Bobs Very Pretty Flower Shop」という名前に対する情報スコアは、1200(200+150+300+400+150)であり、2つの情報スコアの平均を1125にする。
いったん2つの名前に対する平均情報スコアが計算されると(ステップ430)、2つの名前に対するウエートが生成されてもよい(ステップ440)。一実施形態によれば、テーブル800が構築される(ステップ510)。その場合、各セル802には、位置指標(例えば、行、列)およびセルウエートを保持する能力がある。次いで、テーブルのセル802aが初期化されてもよい(ステップ520)。
いったんテーブルのセル802aが初期化されると、テーブル800の残りのセル802が反復されてもよい。セル802b(例えば、行1、列1)から開始して、セル802bに対応する2つのトークンの間に一致が生じることが決定される(ステップ540)。次いで、これらの2つのトークンに対する一致ウエートが計算されてもよく(ステップ542)、この場合、それは200である。次いで、隣接セルに対するセルウエート値が決定されてもよく(ステップ610、620)、このことから、200を加えた対角セル802a1からのセルウエート(0)(例えば、セルに対する一時的セルウエート)が、隣接セル802a2、802a3のセルウエートよりも大きいことを決定することができる(ステップ640)。したがって、セル802bに対する最終一致位置指標は、現在のセル802b(1,1)に設定され、現在のセル802bに対するセルウエートは、計算された一致ウエート(200)に設定される(ステップ642、644)。
セル802c−802fは、上記で論議されるように、同様に反復されてもよい。セル802gに到達すると、セル802gに対応する2つのトークンの間に一致が生じないことが決定されてもよい(ステップ540)が、VPが頭字語であると決定されてもよい(ステップ532)。この決定は、セル802gに対応する最初のトークン「VP」の最初の文字(例えば、「V」)を、セル802gに対応する他方のトークン(例えば、very)の最初の文字と比較することによって、達成されてもよい。文字「V」がトークン「Very」の最初の文字に一致すると、トークン「VP」の次の文字(例えば、「P」)は、他方の名前における後続のトークン(例えば、「Pretty」)と比較され、これらの文字が一致し、最初のトークン(例えば、「VP」)の文字がそれ以上ないと、トークン「VP」が頭字語であると決定することができ、上記で論議される計算と同様に、頭字語トークンに対応する一式のセル802g、802k(例えば、頭字語トークンの1文字および他方の名前のトークンに対応する各セル)に対して、値を計算することができ(図8Aに関して表される実施例では、頭字語の文字(例えば、「V」および「P」)の間の位置および各一致するトークン(例えば、「Very」および「Pretty」)の両方が、50というウエートとともにイニシャル一致を生成する)。セル802gおよび802kに対して値が計算された後、テーブルは、図8Aに描写されたものと似ていてもよい。
次いで、テーブル800の残りのセル802は、上記で説明されるように、これらのセルに対する最終位置一致およびセルウエートを計算するように、セル802dから開始して反復されてもよい。セル802gおよび802kは、頭字語を介して既に一致させられている(ステップ530)ため、反復過程中にこれらのセルを飛ばして進んでもよい。テーブル800の残りのセル802を反復した後、テーブル800は、図8Bに描写されたものと似ていてもよい。
テーブル800の最終セル802uを読むと、比較されている2つの名前に対するウエートが850であると決定することができる。次いで、このウエートは、最大類似度指標、およびウエートの2つの名前に対する平均情報スコアに対する比に従って、正規化されてもよい(ステップ450)。例えば、最大類似度指標が10である場合、ウエートは、方程式10*850/1125の結果を四捨五入することによって、8という正規化された指標値に正規化されてもよい。この正規化された指標値は、2つのトークンに対する最終ウエートを生成するために、正規化されたウエートテーブルへの指標として使用されてもよい(ステップ450)。例えば、8という正規化されたウエートは、2つの名前に対する520いう最終ウエートに指標化されてもよい。
名前を比較する方法の一実施形態を表す疑似コードは、以下のとおりである。
Figure 2010541079
Figure 2010541079
Figure 2010541079
上記の疑似コードの実施形態によって返されてもよい、正規化された指標値は、上記で説明されるように、値のテーブルを指標化して最終ウエートを得るために使用されてもよい。そのようなテーブルは、以下に似ていてもよく、その場合、最大指標値は、16であってもよい。
Figure 2010541079
先述の明細書では、具体的実施形態を参照して本開示を説明した。しかしながら、説明は一例にすぎず、限定的な意味で解釈されるものではないことを理解されたい。したがって、本開示の実施形態の詳細の多数の変更および本開示の付加的な実施形態が、本説明を参照した当業者にとって明白となり、かつ当業者によって行われてもよいことを、さらに理解されたい。全てのそのような変更および付加的な実施形態は、以下の請求項で詳述されるような本開示の範囲内であることが意図される。

Claims (15)

  1. 単一アイデンティティハブ内で複数言語によるデータ記録を処理する方法であって、
    該単一アイデンティティハブにおいて受信される各データ記録について、該データ記録を言語と関連付けることと、
    該データ記録の属性に、該言語に特有である一意の導出コードを適用することであって、該一意の導出コードは、言語特有の標準化および言語非依存型バケッティングを備え、該言語特有の標準化は、該言語に関する該データ記録の該属性を標準化する、ことと、
    該データ記録とともに、該言語に関する情報および該データ記録の標準化された属性を、該単一アイデンティティハブの実体層に渡すことと、
    該言語に関する該情報および該データ記録の該標準化された属性を利用して、該単一アイデンティティハブの該実体層において個々の言語による実体を処理するように、1つ以上のアルゴリズムを自動的かつ最適に選択し、適用することと
    を含む、方法。
  2. 前記言語を前記単一アイデンティティハブにおける特定のメンバー型に論理的に対応づけることをさらに含む、請求項1に記載の方法。
  3. 前記複数言語の各々は、前記単一アイデンティティハブにおける特定のメンバー型に1対1で論理的に対応づけられる、請求項1に記載の方法。
  4. 前記一意の導出コードは、前記特定のメンバー型に基づいて選択的に適用される、請求項3に記載の方法。
  5. 前記複数言語による前記データ記録は、前記単一アイデンティティハブにおける言語定義内で属性の型を共有する、請求項3に記載の方法。
  6. 前記データ記録の前記属性は、2つ以上の言語によるものであり、前記言語は、該2つ以上の言語から選択される、請求項1に記載の方法。
  7. 前記データ記録は、前記単一アイデンティティハブによってアクセス可能である複数の情報源からのものであり、該複数の情報源は、1つ以上の言語によるものである、請求項1に記載の方法。
  8. 前記データ記録を前記言語と関連付けることは、
    国コードを取得するように該データ記録を評価することと、
    該国コードを利用して該言語を決定することと
    をさらに含む、請求項1に記載の方法。
  9. 前記言語は、デフォルト言語である、請求項1に記載の方法。
  10. 第1の言語による第1のデータ記録の第1の属性に対する第1のウエートを生成することと、
    第2の言語による第2のデータ記録の第1の属性に対する第2のウエートを生成することと、
    該第1および第2のウエートを利用して、該第1の言語による該第1のデータ記録の該第1の属性および該第2の言語による該第2のデータ記録の第2の属性を比較することと
    をさらに含む、請求項1に記載の方法。
  11. プロセッサによって実行可能であるコンピュータ命令を記憶する、コンピュータ可読記憶媒体であって、該プロセッサによって実行されると、該コンピュータ命令は、コンピュータに、
    単一アイデンティティハブにおいて受信される各データ記録について、該データ記録を言語と関連付けさせ、
    該データ記録の属性に、該言語に特有である一意の導出コードを適用させ、該一意の導出コードは、言語特有の標準化および言語非依存型バケッティングを備え、該言語特有の標準化は、該言語に関する該データ記録の該属性を標準化し、
    該言語に関する情報および該データ記録の該標準化された属性を利用して、個々の言語による実体を処理するように、1つ以上のアルゴリズムを最適に選択および適用させる、
    コンピュータ可読記憶媒体。
  12. 前記プロセッサによって実行されると、前記コンピュータ命令はさらに、前記コンピュータに、前記言語を特定のメンバー型に論理的に対応づけさせる、請求項11に記載のコンピュータ可読記憶媒体。
  13. 前記プロセッサによって実行されると、前記コンピュータ命令はさらに、前記コンピュータに、
    国コードを取得するように前記データ記録を評価させ、
    該国コードを利用して前記言語を決定させる、
    請求項11に記載のコンピュータ可読記憶媒体。
  14. 前記プロセッサによって実行されると、前記コンピュータ命令はさらに、前記コンピュータに、
    第1の言語による第1のデータ記録の第1の属性に対する第1のウエートを生成させ、
    第2の言語による第2のデータ記録の第1の属性に対する第2のウエートを生成させ、
    該第1および第2のウエートを利用して、該第1の言語による該第1のデータ記録の該第1の属性および該第2の言語による該第2のデータ記録の第2の属性を比較させる、
    請求項11に記載のコンピュータ可読記憶媒体。
  15. 複数言語によるデータ記録を処理するシステムであって、
    少なくとも1つのプロセッサと、
    該少なくとも1つのプロセッサによってアクセス可能であり、該少なくとも1つのプロセッサによって実行可能であるコンピュータ命令を記憶する、少なくとも1つのコンピュータ可読記憶媒体とを備え、該少なくとも1つのプロセッサによって実行されると、該コンピュータ命令は、該システムに、
    単一アイデンティティハブにおいて受信される各データ記録について、該データ記録を言語と関連付けさせ、
    該言語を特定のメンバー型に論理的に対応づけさせ、
    該データ記録の属性に、該言語に特有である一意の導出コードを適用させ、該一意の導出コードは、言語特有の標準化および言語非依存型バケッティングを備え、該言語特有の標準化は、該言語に関する該データ記録の該属性を標準化し、
    該言語に関する情報および該データ記録の該標準化された属性を利用して、個々の言語による実体を処理するように、1つ以上のアルゴリズムを自動的かつ最適に選択および適用させる、システム。
JP2010527206A 2007-09-28 2008-09-26 複数言語によるデータ記録を関連付ける方法およびシステム Expired - Fee Related JP5306359B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US99702507P 2007-09-28 2007-09-28
US60/997,025 2007-09-28
PCT/US2008/077970 WO2009042931A1 (en) 2007-09-28 2008-09-26 Method and system for associating data records in multiple languages

Publications (3)

Publication Number Publication Date
JP2010541079A true JP2010541079A (ja) 2010-12-24
JP2010541079A5 JP2010541079A5 (ja) 2013-07-04
JP5306359B2 JP5306359B2 (ja) 2013-10-02

Family

ID=40509567

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010527206A Expired - Fee Related JP5306359B2 (ja) 2007-09-28 2008-09-26 複数言語によるデータ記録を関連付ける方法およびシステム

Country Status (8)

Country Link
US (1) US8417702B2 (ja)
EP (1) EP2198374A4 (ja)
JP (1) JP5306359B2 (ja)
CN (1) CN101884039B (ja)
AU (1) AU2008304255B2 (ja)
BR (1) BRPI0817530B1 (ja)
CA (1) CA2701043C (ja)
WO (1) WO2009042931A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7413837B2 (ja) 2020-02-28 2024-01-16 ブラザー工業株式会社 プログラム、情報処理装置及び情報処理システム

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7657540B1 (en) 2003-02-04 2010-02-02 Seisint, Inc. Method and system for linking and delinking data records
US7526486B2 (en) 2006-05-22 2009-04-28 Initiate Systems, Inc. Method and system for indexing information about entities with respect to hierarchies
US8332366B2 (en) 2006-06-02 2012-12-11 International Business Machines Corporation System and method for automatic weight generation for probabilistic matching
US8356009B2 (en) 2006-09-15 2013-01-15 International Business Machines Corporation Implementation defined segments for relational database systems
US7698268B1 (en) 2006-09-15 2010-04-13 Initiate Systems, Inc. Method and system for filtering false positives
US7685093B1 (en) 2006-09-15 2010-03-23 Initiate Systems, Inc. Method and system for comparing attributes such as business names
US8359339B2 (en) 2007-02-05 2013-01-22 International Business Machines Corporation Graphical user interface for configuration of an algorithm for the matching of data records
US8515926B2 (en) 2007-03-22 2013-08-20 International Business Machines Corporation Processing related data from information sources
US8423514B2 (en) 2007-03-29 2013-04-16 International Business Machines Corporation Service provisioning
WO2008121700A1 (en) 2007-03-29 2008-10-09 Initiate Systems, Inc. Method and system for managing entities
US8429220B2 (en) 2007-03-29 2013-04-23 International Business Machines Corporation Data exchange among data sources
WO2008121170A1 (en) 2007-03-29 2008-10-09 Initiate Systems, Inc. Method and system for parsing languages
US20110010214A1 (en) * 2007-06-29 2011-01-13 Carruth J Scott Method and system for project management
US8713434B2 (en) * 2007-09-28 2014-04-29 International Business Machines Corporation Indexing, relating and managing information about entities
CA2701043C (en) 2007-09-28 2016-10-11 Initiate Systems, Inc. Method and system for associating data records in multiple languages
JP5306360B2 (ja) 2007-09-28 2013-10-02 インターナショナル・ビジネス・マシーンズ・コーポレーション データ記録を一致させるシステムの分析のための方法およびシステム
US20090157426A1 (en) * 2007-12-12 2009-06-18 Mckesson Financial Holdings Limited Methods, apparatuses & computer program products for facilitating efficient distribution of data within a system
US8266168B2 (en) * 2008-04-24 2012-09-11 Lexisnexis Risk & Information Analytics Group Inc. Database systems and methods for linking records and entity representations with sufficiently high confidence
US8484215B2 (en) * 2008-10-23 2013-07-09 Ab Initio Technology Llc Fuzzy data operations
US8326809B2 (en) * 2008-10-27 2012-12-04 Sas Institute Inc. Systems and methods for defining and processing text segmentation rules
US8577909B1 (en) * 2009-05-15 2013-11-05 Google Inc. Query translation using bilingual search refinements
US8577910B1 (en) 2009-05-15 2013-11-05 Google Inc. Selecting relevant languages for query translation
US8572109B1 (en) 2009-05-15 2013-10-29 Google Inc. Query translation quality confidence
US8538957B1 (en) 2009-06-03 2013-09-17 Google Inc. Validating translations using visual similarity between visual media search results
US20110066446A1 (en) * 2009-09-15 2011-03-17 Arien Malec Method, apparatus and computer program product for providing a distributed registration manager
US9411859B2 (en) 2009-12-14 2016-08-09 Lexisnexis Risk Solutions Fl Inc External linking based on hierarchical level weightings
US20110218819A1 (en) * 2010-03-02 2011-09-08 Mckesson Financial Holdings Limited Method, apparatus and computer program product for providing a distributed care planning tool
US8352460B2 (en) * 2010-03-29 2013-01-08 International Business Machines Corporation Multiple candidate selection in an entity resolution system
US8918393B2 (en) 2010-09-29 2014-12-23 International Business Machines Corporation Identifying a set of candidate entities for an identity record
US20120232919A1 (en) * 2011-03-11 2012-09-13 Optumlnsight, Inc. Methods, Apparatuses and Systems for Analyzing Healthcare Data
US8805900B2 (en) 2012-03-30 2014-08-12 Mckesson Financial Holdings Methods, apparatuses and computer program products for facilitating location and retrieval of health information in a healthcare system
US8751522B2 (en) * 2012-04-12 2014-06-10 International Business Machines Corporation Search improvement using historic code points associated with characters
US10635674B2 (en) * 2012-09-28 2020-04-28 Oracle International Corporation Migrating a pluggable database between database server instances with minimal impact to performance
US9720972B2 (en) * 2013-06-17 2017-08-01 Microsoft Technology Licensing, Llc Cross-model filtering
IL227135B (en) * 2013-06-23 2018-05-31 Drori Gideon Method and system for preparing a database of consolidated items
US9785659B2 (en) * 2013-08-01 2017-10-10 International Business Machines Corporation Protecting storage data during system migration
US10510440B1 (en) 2013-08-15 2019-12-17 Change Healthcare Holdings, Llc Method and apparatus for identifying matching record candidates
US11114185B1 (en) 2013-08-20 2021-09-07 Change Healthcare Holdings, Llc Method and apparatus for defining a level of assurance in a link between patient records
US9547641B2 (en) 2013-09-26 2017-01-17 International Business Machines Corporation Domain specific salient point translation
US9710263B2 (en) * 2013-09-26 2017-07-18 International Business Machines Corporation Understanding computer code with human language assistance
US10026114B2 (en) * 2014-01-10 2018-07-17 Betterdoctor, Inc. System for clustering and aggregating data from multiple sources
US9727664B2 (en) 2014-05-06 2017-08-08 International Business Machines Corporation Grouping records in buckets distributed across nodes of a distributed database system to perform comparison of the grouped records
US9946808B2 (en) 2014-07-09 2018-04-17 International Business Machines Corporation Using vertex self-information scores for vertices in an entity graph to determine whether to perform entity resolution on the vertices in the entity graph
US10474724B1 (en) * 2015-09-18 2019-11-12 Mpulse Mobile, Inc. Mobile content attribute recommendation engine
WO2017070590A1 (en) 2015-10-23 2017-04-27 Oracle International Corporation Proxy databases
US20180096362A1 (en) * 2016-10-03 2018-04-05 Amy Ashley Kwan E-Commerce Marketplace and Platform for Facilitating Cross-Border Real Estate Transactions and Attendant Services
CN111144073B (zh) * 2019-12-30 2021-11-16 文思海辉智科科技有限公司 在线文本显示系统中的空白字符可视化方法及装置
US20220222693A1 (en) * 2021-01-08 2022-07-14 Qatar Foundation For Education, Science And Community Development Method of demographic information generation from name
US20230418877A1 (en) * 2022-06-24 2023-12-28 International Business Machines Corporation Dynamic Threshold-Based Records Linking

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6496793B1 (en) * 1993-04-21 2002-12-17 Borland Software Corporation System and methods for national language support with embedded locale-specific language driver identifiers
JP2003141125A (ja) * 2001-11-07 2003-05-16 Nec Corp マルチメディア情報統合検索装置およびその方法
JP2004227037A (ja) * 2003-01-20 2004-08-12 Sangaku Renkei Kiko Kyushu:Kk フィールドマッチング装置とそのプログラム、コンピュータ読み取り可能な記録媒体、及び同一フィールド判定方法
JP2005141445A (ja) * 2003-11-06 2005-06-02 Reitekku:Kk 特許情報検索システム

Family Cites Families (231)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4531186A (en) 1983-01-21 1985-07-23 International Business Machines Corporation User friendly data base access
US5020019A (en) 1989-05-29 1991-05-28 Ricoh Company, Ltd. Document retrieval system
JPH03129472A (ja) 1989-07-31 1991-06-03 Ricoh Co Ltd 文書検索装置における処理方法
US5134564A (en) 1989-10-19 1992-07-28 Dunn Eric C W Computer aided reconfiliation method and apparatus
AU631276B2 (en) 1989-12-22 1992-11-19 Bull Hn Information Systems Inc. Name resolution in a directory database
US5321833A (en) 1990-08-29 1994-06-14 Gte Laboratories Incorporated Adaptive ranking system for information retrieval
JPH04111121A (ja) 1990-08-31 1992-04-13 Fujitsu Ltd 分野別辞書生成装置、機械翻訳装置、及びそれら装置を用いた機械翻訳システム
US5247437A (en) 1990-10-01 1993-09-21 Xerox Corporation Method of managing index entries during creation revision and assembly of documents
US5555409A (en) 1990-12-04 1996-09-10 Applied Technical Sysytem, Inc. Data management systems and methods including creation of composite views of data
US5455903A (en) 1991-05-31 1995-10-03 Edify Corp. Object oriented customer information exchange system and method
US5381332A (en) 1991-12-09 1995-01-10 Motorola, Inc. Project management system with automated schedule and cost integration
FR2688611A1 (fr) 1992-03-12 1993-09-17 Bull Sa Utilisation d'un langage dont le typage porte sur le contenu des variables et permettant de manipuler des constructions complexes.
US5535322A (en) 1992-10-27 1996-07-09 International Business Machines Corporation Data processing system with improved work flow system and method
US5774887A (en) 1992-11-18 1998-06-30 U S West Advanced Technologies, Inc. Customer service electronic form generating system
US5721850A (en) 1993-01-15 1998-02-24 Quotron Systems, Inc. Method and means for navigating user interfaces which support a plurality of executing applications
US5615367A (en) 1993-05-25 1997-03-25 Borland International, Inc. System and methods including automatic linking of tables for improved relational database modeling with interface
US5537590A (en) 1993-08-05 1996-07-16 Amado; Armando Apparatus for applying analysis rules to data sets in a relational database to generate a database of diagnostic records linked to the data sets
US5442782A (en) 1993-08-13 1995-08-15 Peoplesoft, Inc. Providing information from a multilingual database of language-independent and language-dependent items
US5606690A (en) 1993-08-20 1997-02-25 Canon Inc. Non-literal textual search using fuzzy finite non-deterministic automata
EP0639814B1 (en) 1993-08-20 2000-06-14 Canon Kabushiki Kaisha Adaptive non-literal textual search apparatus and method
US5583763A (en) 1993-09-09 1996-12-10 Mni Interactive Method and apparatus for recommending selections based on preferences in a multi-user system
US5487141A (en) 1994-01-21 1996-01-23 Borland International, Inc. Development system with methods for visual inheritance and improved object reusability
US5862322A (en) 1994-03-14 1999-01-19 Dun & Bradstreet Software Services, Inc. Method and apparatus for facilitating customer service communications in a computing environment
US5848271A (en) 1994-03-14 1998-12-08 Dun & Bradstreet Software Services, Inc. Process and apparatus for controlling the work flow in a multi-user computing system
US5497486A (en) 1994-03-15 1996-03-05 Salvatore J. Stolfo Method of merging large databases in parallel
US5561794A (en) 1994-04-28 1996-10-01 The United States Of America As Represented By The Secretary Of The Navy Early commit optimistic projection-based computer database protocol
US5704018A (en) 1994-05-09 1997-12-30 Microsoft Corporation Generating improved belief networks
US5710916A (en) 1994-05-24 1998-01-20 Panasonic Technologies, Inc. Method and apparatus for similarity matching of handwritten data objects
US5675752A (en) 1994-09-15 1997-10-07 Sony Corporation Interactive applications generator for an interactive presentation environment
US5694593A (en) 1994-10-05 1997-12-02 Northeastern University Distributed computer database system and method
US5694594A (en) 1994-11-14 1997-12-02 Chang; Daniel System for linking hypermedia data objects in accordance with associations of source and destination data objects and similarity threshold without using keywords or link-difining terms
US5819264A (en) 1995-04-03 1998-10-06 Dtl Data Technologies Ltd. Associative search method with navigation for heterogeneous databases including an integration mechanism configured to combine schema-free data models such as a hyperbase
US5774661A (en) 1995-04-18 1998-06-30 Network Imaging Corporation Rule engine interface for a visual workflow builder
US5675753A (en) 1995-04-24 1997-10-07 U.S. West Technologies, Inc. Method and system for presenting an electronic user-interface specification
US5774883A (en) 1995-05-25 1998-06-30 Andersen; Lloyd R. Method for selecting a seller's most profitable financing program
US5790173A (en) 1995-07-20 1998-08-04 Bell Atlantic Network Services, Inc. Advanced intelligent network having digital entertainment terminal or the like interacting with integrated service control point
US5778370A (en) 1995-08-25 1998-07-07 Emerson; Mark L. Data village system
US5640553A (en) 1995-09-15 1997-06-17 Infonautics Corporation Relevance normalization for documents retrieved from an information retrieval system in response to a query
US5805702A (en) 1995-09-29 1998-09-08 Dallas Semiconductor Corporation Method, apparatus, and system for transferring units of value
US5809499A (en) 1995-10-20 1998-09-15 Pattern Discovery Software Systems, Ltd. Computational method for discovering patterns in data sets
US5893074A (en) 1996-01-29 1999-04-06 California Institute Of Technology Network based task management
US5930768A (en) 1996-02-06 1999-07-27 Supersonic Boom, Inc. Method and system for remote user controlled manufacturing
US5963915A (en) 1996-02-21 1999-10-05 Infoseek Corporation Secure, convenient and efficient system and method of performing trans-internet purchase transactions
US5862325A (en) 1996-02-29 1999-01-19 Intermind Corporation Computer-based communication system and method using metadata defining a control structure
US5835712A (en) 1996-05-03 1998-11-10 Webmate Technologies, Inc. Client-server system using embedded hypertext tags for application and database development
US5878043A (en) 1996-05-09 1999-03-02 Northern Telecom Limited ATM LAN emulation
US5859972A (en) 1996-05-10 1999-01-12 The Board Of Trustees Of The University Of Illinois Multiple server repository and multiple server remote application virtual client computer
US5905496A (en) 1996-07-03 1999-05-18 Sun Microsystems, Inc. Workflow product navigation system
US5765150A (en) 1996-08-09 1998-06-09 Digital Equipment Corporation Method for statistically projecting the ranking of information
US5893110A (en) 1996-08-16 1999-04-06 Silicon Graphics, Inc. Browser driven user interface to a media asset database
US6049847A (en) 1996-09-16 2000-04-11 Corollary, Inc. System and method for maintaining memory coherency in a computer system having multiple system buses
US5787470A (en) 1996-10-18 1998-07-28 At&T Corp Inter-cache protocol for improved WEB performance
US5796393A (en) 1996-11-08 1998-08-18 Compuserve Incorporated System for intergrating an on-line service community with a foreign service
US5787431A (en) 1996-12-16 1998-07-28 Borland International, Inc. Database development system with methods for java-string reference lookups of column names
US5835912A (en) * 1997-03-13 1998-11-10 The United States Of America As Represented By The National Security Agency Method of efficiency and flexibility storing, retrieving, and modifying data in any language representation
US6026433A (en) 1997-03-17 2000-02-15 Silicon Graphics, Inc. Method of creating and editing a web site in a client-server environment using customizable web site templates
US6385600B1 (en) 1997-04-03 2002-05-07 At&T Corp. System and method for searching on a computer using an evidence set
US5987422A (en) 1997-05-29 1999-11-16 Oracle Corporation Method for executing a procedure that requires input from a role
US5999937A (en) 1997-06-06 1999-12-07 Madison Information Technologies, Inc. System and method for converting data between data sets
US5991758A (en) 1997-06-06 1999-11-23 Madison Information Technologies, Inc. System and method for indexing information about entities from different information sources
US6014664A (en) 1997-08-29 2000-01-11 International Business Machines Corporation Method and apparatus for incorporating weights into data combinational rules
US5960411A (en) 1997-09-12 1999-09-28 Amazon.Com, Inc. Method and system for placing a purchase order via a communications network
US6018733A (en) 1997-09-12 2000-01-25 Infoseek Corporation Methods for iteratively and interactively performing collection selection in full text searches
US6621505B1 (en) 1997-09-30 2003-09-16 Journee Software Corp. Dynamic process-based enterprise computing system and method
US6134581A (en) 1997-10-06 2000-10-17 Sun Microsystems, Inc. Method and system for remotely browsing objects
US6356931B2 (en) 1997-10-06 2002-03-12 Sun Microsystems, Inc. Method and system for remotely browsing objects
US6108004A (en) 1997-10-21 2000-08-22 International Business Machines Corporation GUI guide for data mining
US6327611B1 (en) 1997-11-12 2001-12-04 Netscape Communications Corporation Electronic document routing system
US6297824B1 (en) 1997-11-26 2001-10-02 Xerox Corporation Interactive interface for viewing retrieval results
US6223145B1 (en) 1997-11-26 2001-04-24 Zerox Corporation Interactive interface for specifying searches
US6807537B1 (en) 1997-12-04 2004-10-19 Microsoft Corporation Mixtures of Bayesian networks
US6016489A (en) 1997-12-18 2000-01-18 Sun Microsystems, Inc. Method and apparatus for constructing stable iterators in a shared data collection
US6963871B1 (en) 1998-03-25 2005-11-08 Language Analysis Systems, Inc. System and method for adaptive multi-cultural searching and matching of personal names
US6185608B1 (en) 1998-06-12 2001-02-06 International Business Machines Corporation Caching dynamic web pages
US6742003B2 (en) 2001-04-30 2004-05-25 Microsoft Corporation Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications
US6018742A (en) 1998-07-07 2000-01-25 Perigis Corporation Constructing a bifurcated database of context-dependent and context-independent data items
US6470436B1 (en) 1998-12-01 2002-10-22 Fast-Chip, Inc. Eliminating memory fragmentation and garbage collection from the process of managing dynamically allocated memory
US6067549A (en) 1998-12-11 2000-05-23 American Management Systems, Inc. System for managing regulated entities
US6298478B1 (en) 1998-12-31 2001-10-02 International Business Machines Corporation Technique for managing enterprise JavaBeans (™) which are the target of multiple concurrent and/or nested transactions
US6457065B1 (en) 1999-01-05 2002-09-24 International Business Machines Corporation Transaction-scoped replication for distributed object systems
US6311190B1 (en) * 1999-02-02 2001-10-30 Harris Interactive Inc. System for conducting surveys in different languages over a network with survey voter registration
US6269373B1 (en) 1999-02-26 2001-07-31 International Business Machines Corporation Method and system for persisting beans as container-managed fields
US6498793B1 (en) * 1999-03-12 2002-12-24 Hewlett-Packard Company Method for hardware-assisted automatic sorting of out-of-order packets using restricted transaction label
US6460045B1 (en) 1999-03-15 2002-10-01 Microsoft Corporation Self-tuning histogram and database modeling
US6374241B1 (en) 1999-03-31 2002-04-16 Verizon Laboratories Inc. Data merging techniques
US7181459B2 (en) 1999-05-04 2007-02-20 Iconfind, Inc. Method of coding, categorizing, and retrieving network pages and sites
US6662180B1 (en) 1999-05-12 2003-12-09 Matsushita Electric Industrial Co., Ltd. Method for searching in large databases of automatically recognized text
US6957186B1 (en) 1999-05-27 2005-10-18 Accenture Llp System method and article of manufacture for building, managing, and supporting various components of a system
US6330569B1 (en) 1999-06-30 2001-12-11 Unisys Corp. Method for versioning a UML model in a repository in accordance with an updated XML representation of the UML model
US6389429B1 (en) 1999-07-30 2002-05-14 Aprimo, Inc. System and method for generating a target database from one or more source databases
US6718535B1 (en) 1999-07-30 2004-04-06 Accenture Llp System, method and article of manufacture for an activity framework design in an e-commerce based environment
US6633878B1 (en) 1999-07-30 2003-10-14 Accenture Llp Initializing an ecommerce database framework
US6529892B1 (en) 1999-08-04 2003-03-04 Illinois, University Of Apparatus, method and product for multi-attribute drug comparison
US6842906B1 (en) 1999-08-31 2005-01-11 Accenture Llp System and method for a refreshable proxy pool in a communication services patterns environment
US6523019B1 (en) 1999-09-21 2003-02-18 Choicemaker Technologies, Inc. Probabilistic record linkage model derived from training data
US6557100B1 (en) 1999-10-21 2003-04-29 International Business Machines Corporation Fastpath redeployment of EJBs
US20020007284A1 (en) 1999-12-01 2002-01-17 Schurenberg Kurt B. System and method for implementing a global master patient index
US6502099B1 (en) 1999-12-16 2002-12-31 International Business Machines Corporation Method and system for extending the functionality of an application
US6633992B1 (en) 1999-12-30 2003-10-14 Intel Corporation Generalized pre-charge clock circuit for pulsed domino gates
US20040220926A1 (en) 2000-01-03 2004-11-04 Interactual Technologies, Inc., A California Cpr[P Personalization services for entities from multiple sources
US6556983B1 (en) 2000-01-12 2003-04-29 Microsoft Corporation Methods and apparatus for finding semantic information, such as usage logs, similar to a query using a pattern lattice data space
WO2001059586A2 (en) 2000-02-10 2001-08-16 Dwl Incorporated Work-flow system for web-based applications
US7330845B2 (en) 2000-02-17 2008-02-12 International Business Machines Corporation System, method and program product for providing navigational information for facilitating navigation and user socialization at web sites
US6449620B1 (en) 2000-03-02 2002-09-10 Nimble Technology, Inc. Method and apparatus for generating information pages using semi-structured data stored in a structured manner
US6757708B1 (en) 2000-03-03 2004-06-29 International Business Machines Corporation Caching dynamic content
US6879944B1 (en) 2000-03-07 2005-04-12 Microsoft Corporation Variational relevance vector machine
US7668798B2 (en) 2000-04-04 2010-02-23 Red Hat, Inc. System and method for accessing data in disparate information sources
US6704805B1 (en) 2000-04-13 2004-03-09 International Business Machines Corporation EJB adaption of MQ integration in componetbroker
WO2001090840A2 (en) 2000-05-26 2001-11-29 Tzunami, Inc. Method and system for organizing objects according to information categories
US6633882B1 (en) 2000-06-29 2003-10-14 Microsoft Corporation Multi-dimensional database record compression utilizing optimized cluster models
US20020178360A1 (en) 2001-02-25 2002-11-28 Storymail, Inc. System and method for communicating a secure unidirectional response message
US6647383B1 (en) 2000-09-01 2003-11-11 Lucent Technologies Inc. System and method for providing interactive dialogue and iterative search functions to find information
US20020080187A1 (en) 2000-10-02 2002-06-27 Lawton Scott S. Enhanced method and system for category selection
US7287089B1 (en) 2000-10-25 2007-10-23 Thomson Financial Inc. Electronic commerce infrastructure system
US20020103920A1 (en) 2000-11-21 2002-08-01 Berkun Ken Alan Interpretive stream metadata extraction
EP1211610A1 (en) 2000-11-29 2002-06-05 Lafayette Software Inc. Methods of organising data and processing queries in a database system
US20020073099A1 (en) 2000-12-08 2002-06-13 Gilbert Eric S. De-identification and linkage of data records
US7406443B1 (en) 2000-12-18 2008-07-29 Powerloom Method and system for multi-dimensional trading
US7685224B2 (en) 2001-01-11 2010-03-23 Truelocal Inc. Method for providing an attribute bounded network of computers
US7487182B2 (en) 2001-01-23 2009-02-03 Conformia Software, Inc. Systems and methods for managing the development and manufacturing of a drug
SE520533C2 (sv) 2001-03-13 2003-07-22 Picsearch Ab Metod, datorprogram och system för indexering av digitaliserade enheter
US6877111B2 (en) 2001-03-26 2005-04-05 Sun Microsystems, Inc. Method and apparatus for managing replicated and migration capable session state for a Java platform
US20030105825A1 (en) 2001-05-01 2003-06-05 Profluent, Inc. Method and system for policy based management of messages for mobile data networks
US6510505B1 (en) 2001-05-09 2003-01-21 International Business Machines Corporation System and method for allocating storage space using bit-parallel search of bitmap
US7865427B2 (en) 2001-05-30 2011-01-04 Cybersource Corporation Method and apparatus for evaluating fraud risk in an electronic commerce transaction
US6687702B2 (en) 2001-06-15 2004-02-03 Sybass, Inc. Methodology providing high-speed shared memory access between database middle tier and database server
US7069536B2 (en) 2001-06-28 2006-06-27 International Business Machines Corporation Method, system, and program for executing a workflow
US7100147B2 (en) 2001-06-28 2006-08-29 International Business Machines Corporation Method, system, and program for generating a workflow
US7047535B2 (en) 2001-07-30 2006-05-16 International Business Machines Corporation Method, system, and program for performing workflow related operations using an application programming interface
US20050015381A1 (en) 2001-09-04 2005-01-20 Clifford Paul Ian Database management system
US6912549B2 (en) 2001-09-05 2005-06-28 Siemens Medical Solutions Health Services Corporation System for processing and consolidating records
TW506908B (en) * 2001-09-06 2002-10-21 Nanodynamics Inc Piezoelectric ink jet print head and the manufacturing process thereof
US6922695B2 (en) 2001-09-06 2005-07-26 Initiate Systems, Inc. System and method for dynamically securing dynamic-multi-sourced persisted EJBS
US7249131B2 (en) 2001-09-06 2007-07-24 Initiate Systems, Inc. System and method for dynamically caching dynamic multi-sourced persisted EJBs
US6996565B2 (en) 2001-09-06 2006-02-07 Initiate Systems, Inc. System and method for dynamically mapping dynamic multi-sourced persisted EJBs
US7035809B2 (en) 2001-12-07 2006-04-25 Accenture Global Services Gmbh Accelerated process improvement framework
US6907422B1 (en) 2001-12-18 2005-06-14 Siebel Systems, Inc. Method and system for access and display of data from large data sets
US20030120630A1 (en) 2001-12-20 2003-06-26 Daniel Tunkelang Method and system for similarity search and clustering
CA2475267C (en) 2002-02-04 2014-08-05 Cataphora, Inc. A method and apparatus for sociological data mining
US6829606B2 (en) 2002-02-14 2004-12-07 Infoglide Software Corporation Similarity search engine for use with relational databases
US7031969B2 (en) 2002-02-20 2006-04-18 Lawrence Technologies, Llc System and method for identifying relationships between database records
US20030174179A1 (en) 2002-03-12 2003-09-18 Suermondt Henri Jacques Tool for visualizing data patterns of a hierarchical classification structure
US6970882B2 (en) 2002-04-04 2005-11-29 International Business Machines Corporation Unified relational database model for data mining selected model scoring results, model training results where selection is based on metadata included in mining model control table
US7287026B2 (en) 2002-04-05 2007-10-23 Oommen John B Method of comparing the closeness of a target tree to other trees using noisy sub-sequence tree processing
US7149730B2 (en) 2002-05-03 2006-12-12 Ward Mullins Dynamic class inheritance and distributed caching with object relational mapping and cartesian model support in a database manipulation and mapping system
US7231395B2 (en) 2002-05-24 2007-06-12 Overture Services, Inc. Method and apparatus for categorizing and presenting documents of a distributed database
US20030220858A1 (en) 2002-05-24 2003-11-27 Duc Lam Method and system for collaborative vendor reconciliation
US20030227487A1 (en) 2002-06-01 2003-12-11 Hugh Harlan M. Method and apparatus for creating and accessing associative data structures under a shared model of categories, rules, triggers and data relationship permissions
US20040143477A1 (en) 2002-07-08 2004-07-22 Wolff Maryann Walsh Apparatus and methods for assisting with development management and/or deployment of products and services
US6795793B2 (en) 2002-07-19 2004-09-21 Med-Ed Innovations, Inc. Method and apparatus for evaluating data and implementing training based on the evaluation of the data
AU2002332912A1 (en) 2002-09-04 2004-03-29 Journee Software Corporation System and method for dynamically mapping dynamic multi-sourced persisted ejbs
AU2002332913A1 (en) 2002-09-05 2004-03-29 Journee Software Corporation System and method for dynamically securing dynamic multi-sourced persisted ejbs
WO2004023311A1 (en) 2002-09-05 2004-03-18 Journee Software Corporation System and method for dynamically caching dynamic multi-sourced persisted ejbs
US7043476B2 (en) 2002-10-11 2006-05-09 International Business Machines Corporation Method and apparatus for data mining to discover associations and covariances associated with data
US7155427B1 (en) 2002-10-30 2006-12-26 Oracle International Corporation Configurable search tool for finding and scoring non-exact matches in a relational database
US20040107189A1 (en) 2002-12-03 2004-06-03 Lockheed Martin Corporation System for identifying similarities in record fields
US20040107205A1 (en) 2002-12-03 2004-06-03 Lockheed Martin Corporation Boolean rule-based system for clustering similar records
US7490085B2 (en) 2002-12-18 2009-02-10 Ge Medical Systems Global Technology Company, Llc Computer-assisted data processing system and method incorporating automated learning
US8280894B2 (en) 2003-01-22 2012-10-02 Amazon Technologies, Inc. Method and system for maintaining item authority
US20040181526A1 (en) 2003-03-11 2004-09-16 Lockheed Martin Corporation Robust system for interactively learning a record similarity measurement
US7487173B2 (en) 2003-05-22 2009-02-03 International Business Machines Corporation Self-generation of a data warehouse from an enterprise data model of an EAI/BPI infrastructure
US7296011B2 (en) 2003-06-20 2007-11-13 Microsoft Corporation Efficient fuzzy match for evaluating data records
US7596778B2 (en) 2003-07-03 2009-09-29 Parasoft Corporation Method and system for automatic error prevention for computer software
US20050228808A1 (en) 2003-08-27 2005-10-13 Ascential Software Corporation Real time data integration services for health care information data integration
US7739223B2 (en) 2003-08-29 2010-06-15 Microsoft Corporation Mapping architecture for arbitrary data models
US20050060286A1 (en) 2003-09-15 2005-03-17 Microsoft Corporation Free text search within a relational database
EP1676217B1 (en) 2003-09-15 2011-07-06 Ab Initio Technology LLC Data profiling
US8825502B2 (en) 2003-09-30 2014-09-02 Epic Systems Corporation System and method for providing patient record synchronization in a healthcare setting
US7685016B2 (en) 2003-10-07 2010-03-23 International Business Machines Corporation Method and system for analyzing relationships between persons
US7249129B2 (en) 2003-12-29 2007-07-24 The Generations Network, Inc. Correlating genealogy records systems and methods
US7324998B2 (en) 2004-03-18 2008-01-29 Zd Acquisition, Llc Document search methods and systems
US9189568B2 (en) * 2004-04-23 2015-11-17 Ebay Inc. Method and system to display and search in a language independent manner
JP2007536649A (ja) 2004-05-05 2007-12-13 アイエムエス ソフトウェア サービシズ リミテッド 長期患者レベルのデータベースのためのデータ記録マッチングアルゴリズム
WO2005114381A2 (en) 2004-05-14 2005-12-01 Gt Software, Inc. Systems and methods for web service function, definition implementation and/or execution
US20050273452A1 (en) 2004-06-04 2005-12-08 Microsoft Corporation Matching database records
US7788274B1 (en) 2004-06-30 2010-08-31 Google Inc. Systems and methods for category-based search
US7567962B2 (en) 2004-08-13 2009-07-28 Microsoft Corporation Generating a labeled hierarchy of mutually disjoint categories from a set of query results
US8615731B2 (en) 2004-08-25 2013-12-24 Mohit Doshi System and method for automating the development of web services that incorporate business rules
US20060053173A1 (en) 2004-09-03 2006-03-09 Biowisdom Limited System and method for support of chemical data within multi-relational ontologies
US7496593B2 (en) 2004-09-03 2009-02-24 Biowisdom Limited Creating a multi-relational ontology having a predetermined structure
US20060074836A1 (en) 2004-09-03 2006-04-06 Biowisdom Limited System and method for graphically displaying ontology data
US20060053172A1 (en) 2004-09-03 2006-03-09 Biowisdom Limited System and method for creating, editing, and using multi-relational ontologies
US20060074832A1 (en) 2004-09-03 2006-04-06 Biowisdom Limited System and method for utilizing an upper ontology in the creation of one or more multi-relational ontologies
US20060053382A1 (en) 2004-09-03 2006-03-09 Biowisdom Limited System and method for facilitating user interaction with multi-relational ontologies
US20060064429A1 (en) 2004-09-18 2006-03-23 Chi Yao Method and apparatus for providing assets reports categorized by attribute
US8892571B2 (en) 2004-10-12 2014-11-18 International Business Machines Corporation Systems for associating records in healthcare database with individuals
US20060179050A1 (en) 2004-10-22 2006-08-10 Giang Phan H Probabilistic model for record linkage
US7844956B2 (en) 2004-11-24 2010-11-30 Rojer Alan S Object-oriented processing of markup
US7539668B2 (en) 2004-11-30 2009-05-26 International Business Machines Corporation System and method for sorting data records contained in a query result based on suitability score
US20060116983A1 (en) 2004-11-30 2006-06-01 International Business Machines Corporation System and method for ordering query results
WO2006062868A2 (en) 2004-12-06 2006-06-15 Yahoo! Inc. Systems and methods for managing and using multiple concept networks for assisted search processing
US7509259B2 (en) 2004-12-21 2009-03-24 Motorola, Inc. Method of refining statistical pattern recognition models and statistical pattern recognizers
US7689555B2 (en) 2005-01-14 2010-03-30 International Business Machines Corporation Context insensitive model entity searching
US20070073678A1 (en) 2005-09-23 2007-03-29 Applied Linguistics, Llc Semantic document profiling
US7739687B2 (en) 2005-02-28 2010-06-15 International Business Machines Corporation Application of attribute-set policies to managed resources in a distributed computing system
US8095386B2 (en) 2005-05-03 2012-01-10 Medicity, Inc. System and method for using and maintaining a master matching index
US20060271549A1 (en) 2005-05-27 2006-11-30 Rayback Geoffrey P Method and apparatus for central master indexing
US20060287890A1 (en) 2005-06-15 2006-12-21 Vanderbilt University Method and apparatus for organizing and integrating structured and non-structured data across heterogeneous systems
US20070016450A1 (en) 2005-07-14 2007-01-18 Krora, Llc Global health information system
US7672833B2 (en) 2005-09-22 2010-03-02 Fair Isaac Corporation Method and apparatus for automatic entity disambiguation
US20070073745A1 (en) 2005-09-23 2007-03-29 Applied Linguistics, Llc Similarity metric for semantic profiling
EP1941432A4 (en) 2005-10-25 2011-04-20 Angoss Software Corp STRATEGY TREES FOR DATA MINING
US20070150279A1 (en) 2005-12-27 2007-06-28 Oracle International Corporation Word matching with context sensitive character to sound correlating
US20070214179A1 (en) 2006-03-10 2007-09-13 Khanh Hoang Searching, filtering, creating, displaying, and managing entity relationships across multiple data hierarchies through a user interface
US8260785B2 (en) 2006-02-17 2012-09-04 Google Inc. Automatic object reference identification and linking in a browseable fact repository
US8700568B2 (en) 2006-02-17 2014-04-15 Google Inc. Entity normalization via name normalization
US20070214129A1 (en) 2006-03-01 2007-09-13 Oracle International Corporation Flexible Authorization Model for Secure Search
US20070260492A1 (en) 2006-03-09 2007-11-08 Microsoft Corporation Master patient index
US7949186B2 (en) 2006-03-15 2011-05-24 Massachusetts Institute Of Technology Pyramid match kernel and related techniques
US7974984B2 (en) 2006-04-19 2011-07-05 Mobile Content Networks, Inc. Method and system for managing single and multiple taxonomies
US7542973B2 (en) 2006-05-01 2009-06-02 Sap, Aktiengesellschaft System and method for performing configurable matching of similar data in a data repository
US7526486B2 (en) 2006-05-22 2009-04-28 Initiate Systems, Inc. Method and system for indexing information about entities with respect to hierarchies
US8332366B2 (en) * 2006-06-02 2012-12-11 International Business Machines Corporation System and method for automatic weight generation for probabilistic matching
US7548906B2 (en) 2006-06-23 2009-06-16 Microsoft Corporation Bucket-based searching
US7792967B2 (en) 2006-07-14 2010-09-07 Chacha Search, Inc. Method and system for sharing and accessing resources
JP4405500B2 (ja) 2006-12-08 2010-01-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 傾向分析システムの評価方法および装置
US7627550B1 (en) 2006-09-15 2009-12-01 Initiate Systems, Inc. Method and system for comparing attributes such as personal names
US8356009B2 (en) 2006-09-15 2013-01-15 International Business Machines Corporation Implementation defined segments for relational database systems
US7620647B2 (en) 2006-09-15 2009-11-17 Initiate Systems, Inc. Hierarchy global management system and user interface
US7685093B1 (en) 2006-09-15 2010-03-23 Initiate Systems, Inc. Method and system for comparing attributes such as business names
US7698268B1 (en) 2006-09-15 2010-04-13 Initiate Systems, Inc. Method and system for filtering false positives
US8359339B2 (en) 2007-02-05 2013-01-22 International Business Machines Corporation Graphical user interface for configuration of an algorithm for the matching of data records
US8515926B2 (en) 2007-03-22 2013-08-20 International Business Machines Corporation Processing related data from information sources
US8429220B2 (en) 2007-03-29 2013-04-23 International Business Machines Corporation Data exchange among data sources
WO2008121700A1 (en) 2007-03-29 2008-10-09 Initiate Systems, Inc. Method and system for managing entities
US8423514B2 (en) 2007-03-29 2013-04-16 International Business Machines Corporation Service provisioning
WO2008121170A1 (en) 2007-03-29 2008-10-09 Initiate Systems, Inc. Method and system for parsing languages
US20110010214A1 (en) 2007-06-29 2011-01-13 Carruth J Scott Method and system for project management
CA2701043C (en) 2007-09-28 2016-10-11 Initiate Systems, Inc. Method and system for associating data records in multiple languages
US8713434B2 (en) 2007-09-28 2014-04-29 International Business Machines Corporation Indexing, relating and managing information about entities
JP5306360B2 (ja) 2007-09-28 2013-10-02 インターナショナル・ビジネス・マシーンズ・コーポレーション データ記録を一致させるシステムの分析のための方法およびシステム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6496793B1 (en) * 1993-04-21 2002-12-17 Borland Software Corporation System and methods for national language support with embedded locale-specific language driver identifiers
JP2003141125A (ja) * 2001-11-07 2003-05-16 Nec Corp マルチメディア情報統合検索装置およびその方法
JP2004227037A (ja) * 2003-01-20 2004-08-12 Sangaku Renkei Kiko Kyushu:Kk フィールドマッチング装置とそのプログラム、コンピュータ読み取り可能な記録媒体、及び同一フィールド判定方法
JP2005141445A (ja) * 2003-11-06 2005-06-02 Reitekku:Kk 特許情報検索システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7413837B2 (ja) 2020-02-28 2024-01-16 ブラザー工業株式会社 プログラム、情報処理装置及び情報処理システム

Also Published As

Publication number Publication date
CN101884039A (zh) 2010-11-10
AU2008304255B2 (en) 2013-03-14
US8417702B2 (en) 2013-04-09
EP2198374A1 (en) 2010-06-23
EP2198374A4 (en) 2013-07-17
BRPI0817530B1 (pt) 2020-02-04
CN101884039B (zh) 2013-07-10
CA2701043A1 (en) 2009-04-02
JP5306359B2 (ja) 2013-10-02
US20090089332A1 (en) 2009-04-02
BRPI0817530A2 (pt) 2018-04-17
WO2009042931A1 (en) 2009-04-02
AU2008304255A1 (en) 2009-04-02
CA2701043C (en) 2016-10-11

Similar Documents

Publication Publication Date Title
JP5306359B2 (ja) 複数言語によるデータ記録を関連付ける方法およびシステム
US8321393B2 (en) Parsing information in data records and in different languages
US7685093B1 (en) Method and system for comparing attributes such as business names
JP2010541079A5 (ja)
KR101758669B1 (ko) 매치를 특징화하는 규칙을 사용하는 메타데이터 소스의 매칭
US7499915B2 (en) Index for accessing XML data
CA2819066C (en) System and method for creating and maintaining a database of disambiguated entity mentions and relations from a corpus of electronic documents
US7155427B1 (en) Configurable search tool for finding and scoring non-exact matches in a relational database
EP1875388B1 (en) Classification dictionary updating apparatus, computer program product therefor and method of updating classification dictionary
US20140172770A1 (en) Relational meta-model and associated domain context-based knowledge inference engine for knowledge discovery and organization
US20090063470A1 (en) Document management using business objects
US8954378B2 (en) Data model optimization
JP5057474B2 (ja) オブジェクト間の競合指標計算方法およびシステム
US20050131926A1 (en) Method of hybrid searching for extensible markup language (XML) documents
CN110119404B (zh) 一种基于自然语言理解的智能取数系统及其方法
US11468346B2 (en) Identifying sequence headings in a document
US10769188B2 (en) Text searches on graph data
WO2023092954A1 (zh) 数据治理的方法、装置及存储介质
KR101127795B1 (ko) 색인어의 근접도를 이용하는 검색 방법 및 검색 시스템
JP2020181367A (ja) 関連語辞書作成システム、関連語辞書作成方法及び関連語辞書作成プログラム
Karlsteen Automation of metadata updates in a time critical environment

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20101102

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110817

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130501

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20130501

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20130501

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130502

TRDD Decision of grant or rejection written
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130607

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20130607

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130625

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5306359

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees