JP2011503681A - データ記録を一致させるシステムの分析のための方法およびシステム - Google Patents

データ記録を一致させるシステムの分析のための方法およびシステム Download PDF

Info

Publication number
JP2011503681A
JP2011503681A JP2010527211A JP2010527211A JP2011503681A JP 2011503681 A JP2011503681 A JP 2011503681A JP 2010527211 A JP2010527211 A JP 2010527211A JP 2010527211 A JP2010527211 A JP 2010527211A JP 2011503681 A JP2011503681 A JP 2011503681A
Authority
JP
Japan
Prior art keywords
bucket
analyzing
entity
data
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010527211A
Other languages
English (en)
Other versions
JP5306360B2 (ja
Inventor
グレン ゴールデンバーグ,
スコット シューマッハー,
ジェイソン ウッズ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2011503681A publication Critical patent/JP2011503681A/ja
Application granted granted Critical
Publication of JP5306360B2 publication Critical patent/JP5306360B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0769Readable error formats, e.g. cross-platform generic formats, human understandable formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Abstract

本明細書で開示される実施形態は、アイデンティティハブを分析するためのシステムおよび方法を提供する。具体的には、ユーザは、アイデンティティハブに接続し、最初のデータ記録の集合を取り込み、ローカルでアイデンティティハブ構成を作成および/または編集し、実体分析ツール、データ分析ツール、バケット分析ツール、および連鎖分析ツールを含む、分析ツールの集合を介して、構成を分析および/または有効化し、有効構成をアイデンティティハブインスタンスに遠隔で配備することができる。いくつかの実施形態では、グラフィカルユーザインターフェースを介して、これらの分析ツールは、アイデンティティハブがデータ品質を確保し、システム性能を強化するように動作している間に、ユーザがリアルタイムでアイデンティティハブの構成を分析および修正できるようにする。

Description

(関連出願の相互参照)
本願は、米国仮特許出願第60/997,038号(名称「METHOD AND SYSTEM FOR ANALYSIS OF A SYSTEM FOR MATCHING DATA RECORDS」、2007年9月28日出願、代理人整理番号)の優先権を主張し、この出願は、その全体が本明細書に参考として援用される。
また、本願は、米国特許出願第12/056,720号(名称「METHOD AND SYSTEM FOR MANAGING ENTITIES」、2008年3月27日出願)、同第11/967,588号(名称「METHOD AND SYSTEM FOR PARSING LANGUAGES」、2007年12月31日出願)、同第11/904,750号(名称「METHOD AND SYSTEM FOR INDEXING RELATING AND MANAGING INFORMATION ABOUT ENTITIES」、2007年9月28日出願)、同第11/901 ,040号(名称「HIERARCHY GLOBAL MANAGEMENT SYSTEM AND USER INTERFACE」、2007年9月14日出願)、同第11/900,769/,号(名称「IMPLEMENTATION DEFINED SEGMENTS FOR RELATIONAL DATABASE SYSTEMS」、2007年9月13日出願)、同第11/824,210号(名称「METHOD AND SYSTEM FOR PROJECT MANAGEMENT」、2007年6月29日出願)、同第11/809,792号(名称「SYSTEM AND METHOD FOR AUTOMATIC WEIGHT GENERATION FOR PROBABILISTIC MATCHING」、2007年6月1日出願)、同第11/702,410号(名称「METHOD AND SYSTEM FOR A GRAPHICAL USER INTERFACE FOR CONFIGURATION OF AN ALGORITHM FOR THE MATCHING OF DATA RECORDS」、2007年2月5日出願)、同第11/656,1 11号(名称「METHOD AND SYSTEM FOR INDEXING INFORMATION ABOUT ENTITIES WITH RESPECT TO HIERARCHIES」、2007年1月22日出願)、同第11/522,223号(名称「METHOD AND SYSTEM FOR COMPARING ATTRIBUTES SUCH AS PERSONAL NAMES」、2006年9月15日出願)および同第11/521 ,928号(名称「METHOD AND SYSTEM FOR COMPARING ATTRIBUTES SUCH AS BUSINESS NAMES」、2006年9月15日出願)に関連している。このパラグラフにおいて参照される全ての出願は、全ての目的のためにその全体が本明細書に援用される。
(発明の分野)
本開示は、概して、データ記録を関連付けることに関し、より具体的には、これらのデータ記録が関連付けられ得るように、同じ実体に関する情報を含有し得るデータ記録を識別することに関する。さらに具体的には、本明細書で開示される実施形態は、データ記録の識別および関連付けのためのシステムの分析に関し得、そのようなシステムの性能および構成に関係付けられた分析を含む。
(背景)
今日および現在の時代では、事業の圧倒的多数が、在庫、顧客、製品等の、運営の種々の側面に関する甚大な量のデータを保持している。人、製品、部品、または他のもの等の実体に関するデータは、コンピュータデータベース等のデータ蓄積にデジタル形式で記憶され得る。これらのコンピュータデータベースは、実体に関するデータが迅速にアクセスされることを可能にし、データが同じ実体に関するデータの他の関連部分と相互参照されることを可能にする。データベースはまた、同じ実体に関する種々のデータ蓄積からのデータ記録が相互と関連付けられ得るように、個人がデータベースに問い合せを行い、特定の実体に関するデータ記録を見出すことも可能にする。
しかしながら、データ蓄積は、データ蓄積内の実体に関する正しいデータを見出す能力を制限する場合がある、いくつかの制限を有する。データ蓄積内の実データは、データを入力した個人または元のデータソースと同程度に正確であるにすぎない。したがって、例えば、個人の名字のつづりを誤ったり、または社会保障番号が不正確に入力される等のために、データ蓄積へのデータの入力における間違いは、データベース中の実体に関するデータの検索に、実体に関する関連データを見落とさせる場合がある。多くのこれらの種類の問題を想定することができ、いくつかのデータ記録が同じ実体に関する情報を含有してもよいように、データベース内にすでに記録を有する実体に対する2つの別個の記録が作成されてもよいが、例えば、2つのデータ記録に含まれる名前または識別番号は、同じ実体を参照するデータ記録を相互に関連付けることが困難でありえる程、異なっていてもよい。
多数のデータ記録を含有する1つ以上のデータ蓄積を運営する事業にとって、各データベース内および間で特定の実体に関する関連情報を見つける能力は、非常に重要であるが、容易には得られない。再度、任意の情報源におけるデータの入力のあらゆる間違い(無制限に、同じ実体に対する2つ以上のデータの作成を含む)は、特定の実体のデータがデータベース中で検索される時に、関連データを見落とさせる場合がある。加えて、複数の情報源を伴う場合では、情報源のそれぞれは、データベース間でデータを見出す過程をさらに複雑にする場合がある、わずかに異なるデータ構文または形式を有する場合がある。データ記録中で参照される実体を適正に識別し、医療分野での実体に関する全データ記録を見つける必要性の一例としては、特定の医療機関と関連付けられた多数の異なる病院が、患者に関する情報を有する1つ以上の情報源を有してもよく、医療機関が、病院のそれぞれからマスターデータベースの中へ情報を収集するものである。同じ患者に関する情報源の全てからのデータ記録を結び付け、病院の記録の全てにおいて特定の患者の情報の検索を可能にすることが必要である。
そのようなデータベースの中の実体に関する関連データの全てを見出す能力を制限する、いくつかの問題がある。1つ以上の情報源から受信された別個のデータ記録の結果として、複数のデータ記録が特定の実体に対して存在し得、それはデータ断片化と呼ばれ得る問題につながる。データ断片化の場合、マスターデータベースのクエリが、特定の実体に関する関連情報の全てを検索しない場合がある。加えて、上記で説明されるように、データ入力中に生じた誤字により、クエリが実体に関する何らかの関連情報を見落とす場合があり、それはデータのアクセス不可能性の問題につながる。加えて、大型データベースは、Smithという名字およびJimという名前の人々の複数の記録等の、同一と思われるデータ記録を含有する場合がある。データベースのクエリは、これらのデータ記録の全てを検索し、データベースにクエリを行った個人は、しばしば、間違ったデータ記録である可能性のある検索されるデータ記録のうちの1つをランダムに選択する場合がある。個人はしばしば、一般的には、記録のうちのどれが適切であるかを判定しようとしない場合がある。このことは、正しいデータ記録が利用可能である時でさえ、検索されている間違った実体のデータ記録につながり得る。これらの問題は、データベース内で特定の実体の情報を見つける能力を制限する。
見直さなければならないデータの量を低減し、ユーザが間違ったデータ記録を選ぶことを防止するために、同じ実体に関する情報を含み得る種々の情報源から、データ記録を識別し、関連付けることも望ましい。データベース内の重複データ記録を見つけ、これらの重複データ記録を削除する、従来のシステムがあるが、これらのシステムは、相互に実質的に同一であるデータ記録しか見つけない場合がある。したがって、これらの従来のシステムは、例えば、わずかに異なる名字を有する2つのデータ記録が、それでもなお同じ実体に関する情報を含有するかどうかを判定することができない。加えて、これらの従来のシステムは、複数の異なる情報源からデータ記録を指数化し、同じ実体に関する情報を含有する1つ以上の情報源内でデータ記録を見つけ、これらのデータ記録をともに結び付けようとしない。従って、これらのデータ記録の属性間の不一致にもかかわらず、同じ実体に関する複数の情報源からのデータ記録を関連付けることができ、まとめてこれらの種々のデータ記録からの情報を集合させ、提示できることが望ましいであろう。しかしながら、実践では、複数の情報源から情報の正確で統一された表を提供することが極めて難しくなり得る。
(本開示の概要)
種々のソースからのデータ記録は、形式およびそれらが含有するデータの両方で異なる場合があるため、データ処理システムの構成は、非常に困難な作業を提示する場合がある。部分的には、構成過程が、データ記録の関連付けに利用されているシステムのアーキテクチャおよび能力の多大な専門知識、加えて、データ記録を関連付けるために使用されるアルゴリズムの結果として生じる構成が所望の結果をもたらすことを確実にするように、大規模な分析および細部への細心の注意を必要とする、手動集中作業となる場合があるため、これらの困難が引き起こされる。
これらの困難は、そのようなシステムのユーザの個々のニーズによって悪化する場合がある。例えば、医療業界等の、ある業界では、データ記録が誤って相互と関連付けられない(誤検出と呼ばれる)ことが重大となる場合がある一方で、他のあまり重要ではない業界では、誤った関連付けにあまり関心を持たず、関連付けられるべきデータ記録が関連付けられない(検出漏れと呼ばれる)場合を回避するために、同じ実体に関する可能性のあるデータ記録が関連付けられることがより懸念される場合がある。実際、あるユーザには、許容される誤検出または検出漏れの数に関する厳しい要件またはガイドラインがあってもよい。
システムの少なくともある複数部分が、データのサンプル集合を利用して構成または調整されてもよいため、この最初のデータのサンプル集合に基づいて確立されたシステムの構成は、全てのデータ、またはデータのより大規模のサンプリングに適用された時に、所望の結果をもたらさない場合がある。
しかしながら、システムがある構成に関してどのように機能しているかを判定することは困難な場合があり、たとえシステムがどのように機能しているかを判定することができても、システムによって利用されるアルゴリズムが極めて複雑な場合があるため、構成を訂正して所望の結果を達成することは困難な場合がある。
したがって、システムがユーザの所望に従って構成され得るように、データ記録の関連付けのためのシステムの機能を分析するためのシステムおよび方法の必要性がある。
本明細書で開示される実施形態は、データ記録の指数化または関連付けのためのシステムに関連して、性能パラメータを分析および提示するためのシステムおよび方法を提供する。これらのシステムおよび方法は、Initiate Systems,Inc.によるIdentity HubTMの構成または性能に関するデータの統計的分析および提示のための有用なソフトウェアツールを提供してもよい。Initiate Identity HubTMの実施形態例は、本開示で参照される米国特許出願で見出すことができる。
いくつかの実施形態では、これらのツールは、バケット分析ツール、データ分析ツール、実体分析ツール、および連鎖分析または閾値分析ツールを含む。より具体的には、一実施形態では、バケット分析ツールは、アイデンティティハブ内の候補生成および選択(すなわち、バケッティング)に関するデータを分析および提示するように動作可能であってもよい。一実施形態では、実体分析ツールは、データ記録の関連付けに関するデータを分析および提示するように動作可能であってもよい。一実施形態では、連鎖分析ツールは、データ記録を結び付けるための種々の閾値レベル、およびシステムに対するそれらの効果の設定に関係付けられた、データを分析および提示するように動作可能であってもよい。ツールはまた、ユーザがパラメータの可能値を提出し、ツールがシステムの動作または性能に対するその値の効果を予測してもよいように、予測能力を提供してもよい。
いくつかの実施形態では、アイデンティティハブの構成または性能に関するデータが、ユーザに図式的に提示され、分析ツールと相互作用して所望の情報を取得する能力をユーザに提供してもよいように、グラフィカルユーザインターフェースが、これらの種々のツールとともに使用するために提示されてもよい。このグラフィカルユーザインターフェースはまた、別のグラフィカルユーザインターフェースと併せて提供されてもよく、または、ユーザがアイデンティティハブの構成を改変し、そのような構成の結果を分析してもよいように、アイデンティティハブの少なくとも一部分の構成に対して、その機能性を備えてもよい。これらのインターフェースは、例えば、ウェブブラウザを介してアクセスされてもよい、1つ以上のウェブページを含んでもよい。これらのウェブページは、例えば、HTMLまたはXHTML形式であってもよく、ハイパーテキストリンクを介して他のウェブページへのナビゲーションを提供してもよい。これらのウェブページは、ローカルコンピュータから、または遠隔ウェブサーバから、(例えば、ハイパーテキスト転送プロとこるまたはHTTPを使用して)ユーザによって検索されてもよく、その場合、サーバは、プライベートネットワーク(例えば、企業イントラネット)のみへのアクセスを制限してもよく、または、ワールドワイドウェブ上にページを公開してもよい。
一実施形態では、ユーザが、アイデンティティハブ内で利用される情報源の中のデータ内のデータ異常を見出してもよいように、必要な時に、種々の分析物が、アイデンティティハブを構成するユーザに提示されてもよいように、そのようなグラフィカルユーザインターフェースは、構成ツール内で提示されてもよい。アイデンティティハブの機能が、種々の時に、および種々の構成にわたって比較されてもよいように、そのようなインターフェースはまた、アイデンティティハブの特定の構成に、判定された統計値または他のアイデンティティハブパラメータを保存する能力を提供してもよい。
データ記録がアイデンティティハブに入って来るか、またはアイデンティティハブが1つ以上の基準に基づいて検索されると、1つ以上のバケットが作成されてもよい。したがって、システムの性能(例えば、スループットタイム等)は、所与の事例で作成されるバケットのサイズに大きく依存する場合がある。その結果として、作成されるバケットのサイズまたは種類、これらのバケットがなぜ作成されたか、これらのバケットがどのように作成されたか、これらのバケットを備えるデータ記録、これらのバケットがシステムの性能にどのように影響を及ぼすか等についての統計値を取得することが所望されてもよい。
したがって、一実施形態では、バケット分析ツールは、バケットに配置されなかったアイデンティティハブと関連付けられた分布データ記録とともに、生成された分布バケットのサイズ、およびこれらのバケットを備える分布データ記録等の、バケッティング分布のプロファイルを提供してもよい。大型バケット(例えば、1000のデータ記録を超える)は、データ頻度が予期以外であること、あるいは、ある匿名または共通データ値が適正に計上されていないことを示す場合がある。例えば、「John Doe」という名前が未知のデータ記録の組織によって利用された場合、この名前は、異常な回数で現れる場合がある。小型バケットは、現在利用されているバケッティング基準が厳密すぎるかもしれないことを示す場合がある。
その結果として、バケッティング分析ツールは、バケッティング分布のプロファイルだけでなく、その分布または別の分布がアイデンティティハブのスループットに及ぼす影響も提供して、アイデンティティハブの性能が所望の範囲内であることを確実にしてもよい。同じ傾向で、バケット分析ツールは、バケットを作成するために使用されるアルゴリズム、およびそれらのバケットを構成する特定のデータ記録を閲覧または分析する能力と、直接的に、または別のアプリケーションを介して、アイデンティティハブまたはアイデンティティハブのあるパラメータを再構成する能力とを提供してもよい。この機能性と併せて、バケット分析ツールはまた、性能が所望のパラメータ内であることを確実にできるように、リアルタイム負荷下でアイデンティティハブの性能を推定する能力も提供してもよい。
ある場合においては、メンバーデータ記録内の異常により、あるデータ記録が、(例えば、実体として)誤って結び付けられるか、または関連付けられる場合がある一方で、データ記録間に結び付きが全くないか、またはほとんどないことが問題を示す場合もある。したがって、これらのデータ異常、およびデータ記録の結び付きまたは関連付けと関連する他の問題は、実体サイズの分布を分析することによって、分析または診断されるほうがよい。一実施形態では、実体分析ツールは、実体サイズの分布を計算および表示する能力を提供してもよく、いくつの実体が1つのデータ記録を備えるか、いくつの実体が2つのデータ記録を備えるか等を示す。この分布内の異様な分布または異常値は、問題を示すか、または、アイデンティティハブの構成の改変を行う必要がある(例えば、匿名の名前またはアドレス)ことを示し得る。実体分析ツールは、さらなる分析能力を提供してもよい。1つの分析能力例は、分布グループをサイズ別に閲覧する、分布グループ内の個々の実体(例えば、3つのメンバーデータ記録を備える実体)を分析する、実体内の個々のメンバーデータ記録を閲覧する(例えば、メンバーデータ記録の属性の値を閲覧する)、または実体内の2つ以上のメンバーを比較する(例えば、2つのメンバーの属性の値を比較する)能力であってもよいため、これらのメンバーデータ記録がなぜ結び付けられたか等が判定されてもよい。
アイデンティティハブの実施形態は、ソフトリンクまたは自動リンク閾値を伴って構成されてもよい。これらの閾値は、アイデンティティハブの性能に多大に影響を及ぼしてもよい。したがって、本明細書で開示されるいくつかの実施形態は、ユーザが、構成されたソフトリンクおよび自動リンク閾値がどのようにシステム性能(例えば、検出漏れまたは誤検出、スループット等)に影響を及ぼすのかを分析および確認し、かつこれらの種々の閾値の調整がどのようにアイデンティティハブの性能を改変してもよいかを分析する能力を提供してもよい。
より具体的には、いくつかの実施形態では、これらのインターフェースおよびディスプレイは、所望の誤検出率または検出漏れ率を選択し、閾値レベルに対する効果を確認する能力をユーザに提供してもよい。ユーザは、本明細書で開示される閾値分析ツールのいくつかの実施形態では、所望の誤検出率または検出漏れ率を達成するために、閾値レベルがどのようであるべきかを判定することができる。いくつかの実施形態では、ソフトリンクと自動リンク閾値との間にあるデータ記録間のリンクは、手動でレビューされる必要があってもよい。閾値分析ツールのいくつかの実施形態は、構成されたソフトリンクおよび自動リンク閾値を伴って生成されてもよい、手動レビューの量の推定値を提供してもよい。閾値分析ツールのいくつかの実施形態は、所望される誤検出および検出漏れ率または割合を調整する能力をユーザに提供してもよく、閾値分析ツールは、閾値レベルがどのようであるべきかを示すように改変し、またはその逆も同様である。
一実施形態では、誤検出率が、問題のサイズ(例えば、データ記録の数)に関係付けられてもよい一方で、検出漏れ率は、各データ記録の中の情報の量に関係付けられてもよい。したがって、誤検出率または曲線は、記録の数に基づいて推定されてもよく、検出漏れ率または曲線は、全記録にわたるデータの分布に基づいて推定されてもよい。これらの推定は、アイデンティティハブと併せた重み生成に関係付けられてもよいため、これらの推定は、そのような重み生成後に行われてもよい。記録が正しく結び付けられているか、または誤って結び付けられているかどうかをユーザが判定してもよい、結び付けられたデータ記録の集合の事務的レビュー(例えば、アイデンティティハブの構成中に行われてもよい)に基づいて、これらの曲線は、性能分析ツールを使用して、調整、適合、または訂正されてもよい。いくつかの実施形態では、ユーザが種々の誤検出または検出漏れ率を調整し、種々の閾値がどこに設定されるべきか、およびこれらの閾値に起因してもよい手動レビューの量を確認してもよいように、これらの曲線は、閾値の図式的表示と併せてユーザに図式的に提示されてもよい。
したがって、本明細書で開示される実施形態は、大量のデータ記録を処理し、一致させることが可能なアイデンティティハブの構成および性能をリアルタイムで分析することができる。これらのツールは、アイデンティティハブのスループット、およびアイデンティティハブによって生成される分析物(要素成果物)の品質がユーザ要求を満たすことを確実にする方法を提供する。本開示の他の特徴、利点、および目的は、以下の説明および添付図面と併せて考慮すると、より良好に認識および理解されるであろう。
本明細書に付随し、その一部を形成する図面は、本開示のある側面を図示するように含まれる。本開示のより明確な印象、ならびに本開示が提供されるシステムの構成要素および動作は、図面で図示される、例示的であり、したがって非限定的な実施形態を参照することによって、より容易に明白となるであろう。可能な限り、同じまたは類似特徴(要素)を指すために、同じ参照番号が図面の全体を通して使用される。図面は、必ずしも一定の縮尺で描かれるとは限らない。
図1は、データ記録を一致させるためのシステムの一実施形態の基礎構造例を図示する。 図2Aおよび2Bは、データ記録の2つの実施形態の表現を図示する。 図2Aおよび2Bは、データ記録の2つの実施形態の表現を図示する。 図3は、データ記録を比較するステップの一実施形態のフロー図を図示する。 図4は、アイデンティティハブを構成および分析するためのシステムの一実施形態の基礎構造を図示する。 図5は、アイデンティティハブを構成するための方法の一実施形態のフロー図を図示する。 図6は、それを介してアイデンティティハブの構成が分析可能である、グラフィカルユーザインターフェースの一実施形態のスクリーンショットを図示する。 図7Aおよび7Bは、それを介してアイデンティティハブの構成が修正可能である、構成エディタの一実施形態のスクリーンショットを図示する。 図7Aおよび7Bは、それを介してアイデンティティハブの構成が修正可能である、構成エディタの一実施形態のスクリーンショットを図示する。 図8Aおよび8Bは、それを介してジョブ構成が修正可能である、構成エディタの一実施形態のスクリーンショットを図示する。 図8Aおよび8Bは、それを介してジョブ構成が修正可能である、構成エディタの一実施形態のスクリーンショットを図示する。 図9Aおよび9Bは、それを介して、アイデンティティハブにおける実体型式と関連付けられた各アルゴリズムが修正可能である、アルゴリズムエディタの一実施形態のスクリーンショットを図示する。 図9Aおよび9Bは、それを介して、アイデンティティハブにおける実体型式と関連付けられた各アルゴリズムが修正可能である、アルゴリズムエディタの一実施形態のスクリーンショットを図示する。 図10Aおよび10Bは、それを介してアイデンティティハブの構成がアクセス可能である、グラフィカルユーザインターフェースの一実施形態のスクリーンショットを図示する。 図10Aおよび10Bは、それを介してアイデンティティハブの構成がアクセス可能である、グラフィカルユーザインターフェースの一実施形態のスクリーンショットを図示する。 図11は、アイデンティティハブの構成を分析するための方法の一実施形態のフロー図を図示する。 図12Aおよび12Bは、実体分析ツールの一実施形態のスクリーンショットを図示する。 図12Aおよび12Bは、実体分析ツールの一実施形態のスクリーンショットを図示する。 図13は、データ分析ツールの一実施形態のスクリーンショットを図示する。 図14は、バケット分析ツールの一実施形態のスクリーンショットを図示する。 図15は、連鎖分析ツールの一実施形態のスクリーンショットを図示する。 図16は、それを介して、アイデンティティハブにおけるメンバー記録と関連付けられたエラー率および閾値が分析可能である、グラフィカルユーザインターフェースの一実施形態のスクリーンショットを図示する。 図17は、システム性能と、アイデンティティハブにおける連鎖メンバー記録と関連付けられた誤検出および検出漏れ率に対する許容値との間の関係を図示する。
本開示、ならびにその種々の特徴および有利な詳細を、添付図面で図示される、例示的であり、したがって非限定的な実施形態を参照して、より全体的に説明し、以下の説明で詳述する。本開示の詳細を不必要に分かりにくくしないように、既知のプログラミング技法、コンピュータソフトウェア、ハードウェア、動作プラットフォームの説明は省略する。しかしながら、好ましい実施形態を示す一方で、詳細な説明および具体例が、限定としてではなく例示のみとして挙げられることを理解されたい。基礎的発明概念の精神および/または範囲内の種々の置換、修正、追加、または再配設が、本開示から当業者にとって明白となるであろう。
本明細書で開示される実施形態を実装するソフトウェアは、コンピュータ可読記憶媒体上に存在してもよい、好適なコンピュータ実行可能命令で実装されてもよい。本開示内で、「コンピュータ可読記憶媒体」という用語は、プロセッサによって読み出すことができる、全ての種類のデータ記憶を包含する。コンピュータ可読記憶媒体の例は、ランダムアクセスメモリ、読み出し専用メモリ、ハードドライブ、データカートリッジ、磁気テープ、フロッピー(登録商標)ディスケット、フラッシュメモリデバイス、光データ記憶デバイス、コンパクトディスク読み出し専用メモリ、および他の適切なコンピュータメモリならびにデータ記憶デバイスを含むことができる。
本明細書で使用されるような、「備える」、「〜を備える」、「含む」、「〜を含む」、「有する」、「〜を有する」、またはそれらの他の変化例は、非排他的包含を網羅することを目的とする。例えば、要素の一覧を備える過程、製品、部品、または装置は、必ずしもこれらの要素だけに限定されないが、明示的に記載されていない、またはそのような過程、製品、部品、または装置に固有ではない、他の要素を含んでもよい。さらに、明示的にそれとは反対に記述されない限り、「または」とは、排他的な「または」ではなく、包含的な「または」を指す。例えば、状態AまたはBは、Aが真であり(または存在し)、かつBが偽である(または存在しない)、Aが偽であり(または存在せず)、かつBが真である(または存在する)、およびAとBの両方が真である(または存在する)、のうちのいずれか1つによって満たされる。
加えて、本明細書で挙げられる、あらゆる実施例または例示は、決して、それらとともに利用される、1つまたは複数のあらゆる用語の制約、制限、または表現定義として見なされるものではない。その代わり、これらの実施例または例示は、1つの特定の実施形態に関して説明されるものとして、および例示的にすぎないとして見なされる。当業者であれば、これらの実施例または例示とともに利用される、1つまたは複数のあらゆる用語は、本明細書とともに、または本明細書中の他の部分で挙げられても挙げられなくてもよい、他の実施形態ならびにそれらの実施および適応を包含し、全てのそのような実施形態は、1つまたは複数の用語の範囲内に含まれることを目的とすると理解するであろう。そのような非限定的実施例および例示を指定する言葉は、「例えば」、「例として」「例」、「一実施形態では」、および同等物を含むが、それらに限定されない。
ここで、その実施例が添付図面に図示されている、本開示の例示的実施形態を詳細に参照する。可能な限り、同じまたは類似部品(要素)を指すために、同じ参照番号が図面の全体を通して使用される。
本明細書で開示されるいくつかの実施形態は、参照することにより本明細書に組み込まれる、1999年11月23日発行の米国特許第5,991,758号で説明されているように、異なる情報源からの実体に関する情報を指数化するためのシステムおよび方法の実施形態を活用することができる。本明細書で開示されるいくつかの実施形態は、同様に参照することにより本明細書に組み込まれる、「METHOD AND SYSTEM FOR INDEXING INFORMION ABOUT ENTITIES WITH RESPECT TO HIERARCHIES」と題された2007年1月22日出願の上記で参照した米国特許出願第11/656,111号で開示されているように、階層について、実体に関する情報を指数化するための実体処理システムおよび方法の実施形態を活用することができる。
図1は、実体処理システム30の一実施形態の基礎構造例を図示する、ブロック図である。実体処理システム30は、1つ以上の情報源34、36、38からの1つ以上の実体についてのデータ記録に関するデータを処理、更新、または記憶し、複数のオペレータ40、42、44からのコマンドまたはクエリに応答する、アイデンティティハブ32を含んでもよく、その場合、オペレータは、人間のユーザおよび/または情報システムであってもよい。アイデンティティハブ32は、単一の情報源からのデータ記録、または示されるように、複数の情報源からのデータ記録とともに動作してもよい。アイデンティティハブ32の実施形態を使用して追跡される実体は、例えば、病院内の患者、医療制度の参加者、倉庫の中の部品、または、データ記録およびそれと関連付けられたデータ記録に含有される情報を有してもよい、任意の他の実体を含んでもよい。アイデンティティハブ32は、アイデンティティハブ32の機能を果たすように1つ以上のコンピュータ可読記憶媒体上に記憶されたコンピュータ可読命令(例えば、ソフトウェアアプリケーション)を実行する、少なくとも1つの中央処理装置(CPU)45を有する1つ以上のコンピュータシステムであってもよい。アイデンティティハブ32はまた、当業者によって理解されるように、ハードウェア回路、またはソフトウェアおよびハードウェアの組み合わせを使用して実装されてもよい。
図1の実施例では、アイデンティティハブ32は、情報源34、36、38からデータ記録を受信し、ならびに、情報源34、36、38に訂正したデータを書き込み直してもよい。情報源34、36、38に伝達される訂正したデータは、正しかった情報を含んでもよいが、データ記録の中の固定情報に関する情報、および/またはデータ記録間の結び付きに関する情報を変更している。
加えて、オペレータ40、42、44のうちの1つは、アイデンティティハブ32にクエリを伝送し、アイデンティティハブ32からクエリへの返答を受信してもよい。情報源34、36、38は、例えば、同じ実体に関するデータ記録を有してもよい、異なるデータベースであってもよい。例えば、医療分野では、各情報源34、36、38は、医療機関の中の特定の病院と関連付けられてもよく、医療機関は、ロサンゼルスの患者のデータ記録が、その同じ患者が休暇中であり、かつニューヨークの病院に入院する時に見つけられてもよいように、複数の病院と関連付けられたデータ記録を関係付けるためにアイデンティティハブ32を使用してもよい。アイデンティティハブ32は、中心位置に位置してもよく、情報源34、36、38およびユーザ40、42、44は、アイデンティティハブ32から遠隔に位置してもよく、例えば、インターネット、または広域ネットワーク、イントラネット、無線ネットワーク、専用ネットワーク等の任意の他の種類の通信ネットワーク等の、通信リンクによって、アイデンティティハブ32に接続されてもよい。
いくつかの実施形態では、アイデンティティハブ32は、アイデンティティハブ32における完全データ記録を記憶する、独自のデータベースを有してもよい。いくつかの実施形態では、アイデンティティハブ32が、必要な時に情報源34、36、38から全データ記録を検索することができるように、アイデンティティハブ32はまた、データ記録(例えば、特定のデータソース34、36、38の中の住所)または完全データ記録を備えるデータフィールドの任意の部分を識別するのに十分なデータを含有するのみであってもよい。アイデンティティハブ32は、実体識別子、または実データ記録とは別の連想データベースを利用して、同じ実体に関する情報を含有するデータ記録と結び付けてもよい。したがって、アイデンティティハブ32は、1つ以上の情報源34、36、38の中のデータ記録間の結び付きを維持してもよいが、必ずしも実体の単一の一様なデータ記録を維持するとは限らない。
いくつかの実施形態では、アイデンティティハブ32は、データ記録(オペレータから、またはデータソース34、36、38から受信される)を情報源34、36、38の中の他のデータ記録と比較して、ともに結び付けられるべきデータ記録を識別することによって、情報源34、36、38の中のデータ記録を結び付けてもよい。この識別過程は、データ記録の属性のうちの1つ以上と他のデータ記録の類似属性との比較を必要としてもよい。例えば、1つの記録と関連付けられた名前の属性が、他のデータ記録の名前と比較されてもよく、社会保障番号が別の記録の社会保障番号と比較されてもよい等である。このように、結び付けられるべきデータ記録が識別されてもよい。
情報源34、36、38およびオペレータ40、42、44は、同様の、または異なる機関および/または所有者と提携してもよく、相互から物理的に離れ、および/または遠隔にあってもよいことが、当業者にとって明白になるであろう。例えば、情報源34が、1つの医療ネットワークによって運営されるロサンゼルスの病院と提携してもよい一方で、情報源36は、おそらくフランスの企業が所有する別の医療ネットワークによって運営されるニューヨークの病院と提携してもよい。したがって、情報源34、36、38からのデータ記録は、異なる形式、異なる言語等であってもよい。
このことは、データ記録例の2つの実施形態を図示する、図2Aおよび2Bを参照して、より明確に図示されてもよい。これらのデータ記録200、202のそれぞれは、データ記録のそれぞれの属性の集合に対応する、フィールド210の集合を有する。例えば、記録200のそれぞれの属性のうちの1つは、名前であってもよく、別の属性は、納税者番号等であってもよい。属性は、データ記録200、202の複数のフィールド210を備えてもよいことが明白となるであろう。例えば、データ記録202の住所の属性は、それぞれ、通り、市、および州のフィールドである、210c、210d、および210eを備えてもよい。
しかしながら、データ記録200、202のそれぞれは、異なる形式を有してもよい。例えば、データ記録202が「保険業者」の属性に対するフィールド210を有してもよい一方で、データ記録200にはそのようなフィールドがなくてもよい。また、同様の属性が異なる形式を有してもよい。例えば、記録202における名前のフィールド210bが、フルネームの入力を受け入れてもよい一方で、記録200における名前のフィールド210aは、制限された長さの名前の入力を可能にするように設計されてもよい。そのような不一致は、2つ以上のデータ記録(例えば、データ記録の属性)を比較して、結び付けられるべきデータ記録を識別する時に、問題となる場合がある。例えば、「Bobs Flower Shop」という名前は、「Bobs Very Pretty Flower Shoppe」と同様であるが、厳密に同じではない。さらに、データ記録のデータを入力する際の誤字または間違いも、データ記録の比較、したがって、その結果に影響を及ぼす場合がある(例えば、「Glower」が「Flower」という言葉を入力する際の誤字に起因した、「Bobs Pretty Flower Shop」という名前の「Bobs Pretty Glower Shop」との比較)。
データ記録における事業名は、それらの性質の結果として、多数のかなり特有の問題を提示する場合がある。いくつかの事業名が非常に短くなり得る(例えば、「Quick−E−Mart」)一方で、他の事業名は非常に長くなり得る(例えば、「San Francisco’s Best Coffee Shop」)。加えて、事業名は、同様の言葉(例えば、「Shop」、「Inc.」、「Co.」)を頻繁に使用する場合があり、それは、同じ言語によるデータ記録を比較する時に、これらの名前を比較するための発見的解決法で重視されるべきではない。さらに、頭字語が事業名で頻繁に使用され、例えば、「New York City Bagel」と名付けられた事業は、「NYC Bagel」としてデータ記録に頻繁に入力される場合がある。
さらに以下で詳細に説明されるように、本明細書で開示されるアイデンティティハブ32の実施形態は、事業名を比較する時に、これらの特有の特性を考慮に入れることができる、アルゴリズムを採用する。具体的には、アイデンティティハブ32によって採用される、いくつかのアルゴリズムは、頭字語をサポートし、事業名の中のある言葉の頻度を考慮に入れ、事業名内のトークンの順序付けを考慮する(例えば、「Clinic of Austin」という名前は、「Austin Clinic」と事実上同一であると見なされている場合がある)。いくつかのアルゴリズムは、異なる記録における名前の比較(例えば、類似性)に基づいて重みを生成するために、種々の音声比較方法、名前のトークンの頻度、イニシャルの一致、ニックネームの一致等に基づく重みを含む、種々の名前比較技法を利用し、その場合、この重みは、2つの記録が結び付けられるべきかどうかを判定する際に利用することができる。いくつかの実施形態では、各記録の名前の属性のトークンは、トークンを一致させる方法論を使用して、相互に対して比較される(例えば、トークンが正確に一致した場合、音声学的に一致した場合等)。次いで、判定された一致に基づいて、これらの一致に重みを与えることができる(例えば、完全な一致には第1の重みが与えられる一方で、ある種類のイニシャルの一致には第2の重みが与えられる、等)。次いで、2つのデータ記録の名前の属性間の一致の程度に対する全体的重みを判定するように、これらの重みを集約することができる。好適な重み生成方法論の例示的実施形態は、参照することにより本明細書に組み込まれる、「SYSTEM AND METHOD FOR AUTOMATIC WEIGHT GENERATION FOR PROBABILISTIC MATCHING」と題された2007年6月1日出願の上記で参照した米国特許出願第11/809,792号で説明されている。好適な名前比較技法の例示的実施形態は、「METHOD AND SYSTEM FOR COMPARING ATTRIBUTES SUCH AS PERSONAL NAMES」と題された2006年9月15日出願の上記で参照した米国特許出願第11/522,223号、および「METHOD AND SYSTEM FOR COMPARING ATTRIBUTES SUCH AS BUSINESS NAMES」と題された2006年9月15日出願の上記で参照した米国特許出願第11/521,928号で説明されており、その両方は、参照することにより本明細書に組み込まれる。
図3は、同じ実体に関する記録を識別するための方法論の例を図示する。ステップ310では、データ記録の集合が、評価のためにアイデンティティハブ32において転送されるか、または引き抜かれてもよい。これらのデータ記録は、例えば、既存のデータ記録(例えば、情報源34、36、38の中に既に存在してもよい、または、アイデンティティハブ32に提供されてもよい)の集合と比較するための、例えば、1つ以上の新規データ記録を含んでもよい。ステップ320では、比較のためのデータ記録が、すでに標準化されていなければ標準化されてもよい。この標準化は、データ記録がその元の形式から標準形式に変換されるように、データ記録の属性の標準化を備えてもよい。このように、異なるデータ記録の類似属性間の後続の比較が、属性およびデータ記録の両方の標準形式に従って行われてもよい。比較されるデータ記録の属性のそれぞれは、異なる形式、異なる語義の集合、語彙等に従って、標準化またはトークン化されてもよく、その対応する標準形態への各属性の標準化は、別個の機能によって達成されてもよいことが、当業者にとって明白となるであろう。したがって、データ記録のそれぞれは、データ記録の種々の属性の標準化を介して、標準形式に標準化されてもよく、各属性は、対応する機能によって標準化される(これらの属性標準化機能は、当然ながら、複数の種類の属性を標準化するように動作可能であってもよい)。
例えば、データ記録200の名前の属性のフィールド210aは、名前の属性に対するトークン(例えば、「Bobs」、「Pretty」、「Flower」、および「Shop」)の集合を生じるように評価されてもよく、これらのトークンは、標準化された属性が、名前の属性を備えるトークンを生成するように以降で構文解析されてもよいように、標準化された属性を生じるように、ある形態に従って連結させることができる(例えば、「BOBS:PRETTY:FLOWER:SHOP」)。別の例として、名前が標準化されると、連続した単一トークンをトークンに合体することができ(例えば、I.B.M.がIBMになる)、置換を行うことができる(例えば、「Co.」が「Company」に置換され、「Inc.」が「Incorporated」に置換される等)。略称およびそれらの同等な置換を備える、等価テーブルが、アイデンティティハブ32と関連付けられたデータベースに記憶されてもよい。事業名を標準化するステップの一実施形態に対する疑似コードは、以下のとおりである。
Figure 2011503681
Figure 2011503681
使用される技法を問わず、いったん比較されるデータ記録の属性およびデータ記録自体が、ステップ320において標準形態に標準化されると、ステップ330において新規または受信データ記録と比較するための既存のデータ記録から、候補の集合が選択されてもよい。この候補選択過程(本明細書ではバケッティングとも呼ばれる)は、既存の新規データ記録のうちのどれが、さらなる比較を必要とするほど新規データ記録と同様であるかを判定するように、新規または受信データ記録の1つ以上の属性と既存のデータ記録との比較を備えてもよい。各候補の集合(バケットグループ)は、属性に対応する候補選択機能(バケッティング機能)を使用する、データ記録間(例えば、受信データ記録と既存のデータ記録との間)の属性の集合のそれぞれの比較に基づいてもよい。例えば、ある候補の集合(すなわち、バケット)は、名前を比較するように設計される候補選択機能、および住所を比較する別の候補選択機能を使用する、名前および住所の属性の比較に基づいて選択されてもよい。
ステップ340では、これらの候補の集合を備えるデータ記録は、新規または受信記録とのより詳細な比較を受けてもよく、その場合、属性の集合は、既存のデータ記録が新規データ記録と結び付けられるべきか、または関連付けられるべきかをどうかを判定するように、記録間で比較される。このより詳細な比較は、その属性に対するスコアを生成するように、1つの記録(例えば、既存の記録)の属性の集合のうちの1つ以上を、他の記録(例えば、新規または受信記録)における対応する属性と比較するステップを必要としてもよい。次いで、属性の集合に対するスコアは、2つの記録が結び付けられるべきかどうかを判定するために閾値と比較することができる、全体的スコアを生成するために合計されてもよい。例えば、全体的スコアが第1の閾値(ソフトリンクまたはレビュー閾値と呼ばれる)未満であれば、記録は結び付けられてなくてもよく、全体的スコアが第2の閾値(自動リンク閾値と呼ばれる)より大きければ、記録は結び付けられてもよく、一方で、全体的スコアが2つの閾値の間にあれば、記録は、結び付けられ、ユーザレビューのためにフラグを付けられてもよい。
図4は、アイデンティティハブ32の構成を構成および分析するためのシステム10の一実施形態の基礎構造を図示する。いくつかの実施形態では、システム10は、コンピュータ40と、ワークベンチ20とを備える。ワークベンチ20は、コンピュータ40のメモリに記憶されるソフトウェアプログラムであり、コンピュータ40のプロセッサによって可読であるコンピュータ命令を備える。ワークベンチ20は、ネットワーク15上でアイデンティティハブ32と通信しているコンピュータ40にインストールされ、その上で実行される。ネットワーク15は、公衆ネットワーク、プライベートネットワーク、またはそれらの組み合わせの表現となり得る。ワークベンチ20は、グラフィカルユーザインターフェース50を介してユーザ51によってアクセス可能である、構成ツール400を含む、複数の機能を備える。いくつかの実施形態では、ユーザインターフェース50は、ワークベンチ20に対する1つ以上のユーザインターフェースの代表である。いくつかの実施形態では、ユーザインターフェース50を介して、ワークベンチ20は、ユーザ51が、アイデンティティハブ構成を作成、編集、および/または有効化し、コンピュータ可読記憶媒体56にローカルでアイデンティティハブ構成を記憶し、ネットワーク15上で有効構成をアイデンティティハブ32のアイデンティティハブインスタンスに遠隔で配備できるようにする。コンピュータ可読記憶媒体56は、コンピュータ40の内部または外部にあってもよい。
当業者であれば理解できるように、コンピュータ40は、特に、アイデンティティハブの構成をローカルで構成および分析し、ネットワーク上で(有効)構成をアイデンティティハブに遠隔で配備するためのワークベンチ20の一実施形態でプログラムされる、任意のネットワーク対応型コンピュータデバイスの代表である。ワークベンチ20を介してアイデンティティハブ32を構成するための方法の一実施形態を、図5を参照して以下で説明する。ワークベンチ20に対するユーザインターフェース50の一実施形態を、図6を参照して以下で説明する。
いくつかの実施形態では、構成ツール400は、構成エディタ410と、アルゴリズムエディタ420と、分析ツール430とを備える。いくつかの実施形態では、分析ツール430は、データ分析ツール432と、実体分析ツール434と、バケット分析ツール436と、連鎖分析ツール438とを備える。いくつかの実施形態では、構成エディタ410を介して、ワークベンチ20は、アイデンティティハブ32の新規構成を作成するか、またはコンピュータ可読記憶媒体56上に記憶されたアイデンティティハブ32の既存の構成を取り込む能力を、ユーザ51に提供する。いくつかの実施形態では、アイデンティティハブ構成は、メンバー記録、メンバー記録の属性、およびアイデンティティハブ32の特定の実装のために画定されたセグメントの表を備える。実装の画定されたセグメントに対するさらなる教示については、参照することにより本明細書に組み込まれる、「IMPLEMENTATION DEFINED SEGMENTS FOR RELATIONAL DATABASE SYSTEMS」と題された2007年9月13日出願の米国特許出願第11/900,769号が読者に指示される。アイデンティティハブ32を構成するステップについての詳細を、図7−8を参照して以下で説明する。
アイデンティティハブ32は、メンバー属性の類似性および差異を比較し、採点するために、複数のアルゴリズムを利用する。より具体的には、アイデンティティハブ32は、タスクを作成するように、および検索機能性を支援するように、データにアルゴリズムを適用する。いくつかの実施形態では、アルゴリズムエディタ420を介して、ワークベンチ20は、アイデンティティハブ32の特定の実装のためにアルゴリズムを定義およびカスタマイズする能力を、ユーザ51に提供する。アルゴリズムエディタ420の一実施形態を、図9A−9Bを参照して以下で説明する。
いくつかの実施形態では、データ分析ツール432を介して、ユーザ51は、アイデンティティハブ32におけるデータ記録の属性の有効性を分析することができる。いくつかの実施形態では、実体分析ツール434を介して、ユーザ51は、アイデンティティハブ32におけるデータ記録と関連付けられた実体を分析することができる。いくつかの実施形態では、バケット分析ツール436を介して、ユーザ51は、バケット(候補記録のグループ)、およびそのようなバケッティング戦略がアイデンティティハブ32に及ぼす影響を分析することができる。いくつかの実施形態では、連鎖分析ツール438を介して、ユーザ51は、連鎖メンバー記録と、それらの記録の派生物を採点する際に利用される閾値とに関連付けられたエラー率を分析することができる。分析ツール430のいくつかの実施形態を、図10−17を参照して以下で説明する。
図5は、アイデンティティハブ32を構成するための方法の一実施形態のフロー図を図示する。いったんワークベンチ20が、ステップ510でコンピュータ40にインストールされ、その上で作動すると、ユーザ51は、ワークベンチ20にアクセスし、新規Initiate(登録商標)プロジェクトを作成するか、または既存のInitiate(登録商標)プロジェクトを開くことができる。いくつかの実施形態では、Initiate(登録商標)プロジェクトは、アイデンティティハブ構成、およびそれと関連付けられたファイルを保持するための容器である。いくつかの実施形態では、Initiate(登録商標)プロジェクトは、複数のアーチファクトを備える。複数のアーチファクトの例は、アイデンティティハブ構成、そのアイデンティティハブ構成によって利用されるアルゴリズム、分析ツール(430)からの以前の分析結果の結果を含む。ステップ520では、ユーザ51は、新規構成を作成する、または、ステップ510で作成されるか、または開かれるInitiate(登録商標)プロジェクト内の既存の構成を開くことができる。ステップ530では、ユーザインターフェース50を介して、ユーザ51は、ステップ520で作成されるか、または開かれる構成を分析、修正、および/または有効化することができる。ステップ540では、ユーザ51は、コンピュータ40において構成をローカルで保存することができる。ステップ540では、ユーザ51は、アイデンティティハブ32のインスタンスを実行するサーバへのネットワーク接続を介して、保存された有効構成をアイデンティティハブ32のインスタンスに遠隔で配備することができる。いくつかの実施形態では、アイデンティティハブ構成およびアルゴリズムを、リアルタイムでアイデンティティハブ32のインスタンスに直接配備することができる。いくつかの実施形態では、いくつかのタスク(ジョブ)は、構成配備外で、アイデンティティハブ32で直接行われる必要があってもよい。そのようなシナリオでは、ワークベンチ20のいくつかの実施形態が、単一ジョブを行い、またはジョブ集合内のジョブをグループ化し、アイデンティティハブ32上でそれらを実行し、ユーザインターフェース50を介して、ワークベンチ表示内でユーザ50にジョブ実行の進捗または状態を表示するための手段を提供してもよい。いくつかの実施形態では、ユーザ50は、コンピュータ40におけるユーザインターフェース50を介して、アイデンティティハブ32からジョブ結果を検索するか、または閲覧することができる。ユーザインターフェース50のいくつかの実施形態については、参照することにより本明細書に組み込まれる、「HIERARCHY GLOBAL MANAGEMENT SYSTEM AND USER INTERFACE」と題された2007年9月14日出願の米国特許出願第11/901,040号が読者に指示される。
図6は、ユーザインターフェース50の一実施形態のスクリーンショット60を図示する。より具体的には、スクリーンショット60は、ユーザインターフェース50の一実施形態を通してコンピュータ40上に表示されるような、ワークベンチ20の構成エディタ410のレイアウト例を図示する。この実施例では、構成エディタ410は、メニュー61と、ショートカット63と、表示64、65、66、および67と呼ばれるワークエリアの集合とを備える。メニュー61は、そのそれぞれが異なる機能の集合を提供する、種々のメニューアイテムへのアクセスを提供する。例えば、メニューアイテム「Initiate」62を介して、ユーザ51は、新規Initiateプロジェクトを作成する、アイデンティティハブ構成をインポートするか、アイデンティティハブ構成を配備するか、新規ジョブ集合を作成するか、またはローカルの重みを有効化する等ができる。ショートカット63は、現在使用中であるワークベンチ20の機能への迅速なアクセスを提供する。例えば、ユーザ51は、ショートカット63を介して、構成エディタ410と分析ツール430とを迅速に切り替えてもよい。表示64、65、66、および67は、特定種類のデータを含有する、個々のウィンドウである。ほとんどの表示は、それらのタブをドラッグアンドドロップすることによって、ユーザインターフェース60の画面の異なる領域へ移動させることができる。表示を変更するためには、ユーザ51は、メニュー61からのメニューアイテム「ウィンドウ」下で「表示を示す」を選択することができる。以下は、ワークベンチ20に対するユーザインターフェース50の一実施形態に含まれる、表示の簡潔な説明である。これら全ての表示は、ワークベンチ20内で隠し、拡張することができる。
(ナビゲータ表示)
ナビゲータ表示は、ワークベンチアーチファクトをブラウズするためのツリー構造を提供する。ナビゲータ表示から、以下の機能にアクセスすることができる。
・プロジェクトディレクトリを詳しく検討する
・プロジェクトファイルを開き、閲覧する
・プロジェクトファイルをコピーし、貼り付け、削除し、名前を変更する
・リソースをインポートする
・インポートしたリソースを更新する
・ファイルの作業集合を選択する(および作業集合において使用されないファイルを隠す)
・ファイルの作業集合を非選択状態にする
(プロパティ表示)
プロパティ表示は、ユーザによって作成された任意の構成要素のプロパティ値をユーザが編集できるようにする。
(問題表示)
問題表示は、ワークベンチにおける構成および有効化の問題の一覧を提供する。ほとんどの有効化は、プロジェクトにおけるファイルリソースが保存された時に行われるため、エラーを即座に表示することができる。
(コンソール表示)
コンソール表示は、広範なバックグラウンドタスク中に進捗メッセージおよびエラーを示す。
(ジョブ表示)
ジョブ表示は、ジョブまたはジョブ集合の進捗または完了(実行済み)状態を示す。ジョブ表示についてのさらなる詳細を、図8Aおよび8Bを参照して以下で説明する。
(分析物表示)
分析物表示は、分析的クエリの結果を表示する。この表示でデータを見るためには、ワークベンチは、ハブがクエリを表示するためにハブに接続される必要がある。
(検索表示)
検索表示は、既存の構成に対する検索の結果を表示する。ユーザは、検索表示中の行をダブルクリックすることによって、構成オブジェクトを開くことができる。
いくつかの実施形態では、ワークベンチ20は、構成エディタ410およびアルゴリズムエディタ420等の、いくつかの特殊な種類のエディタを提供する。いくつかの実施形態では、ワークベンチ20はまた、標準的テキストおよびJava(登録商標)エディタを含む、他のエディタの種類もサポートする。図7Aおよび7Bは、それを介してアイデンティティハブ32のハブ構成71を修正することができる、構成エディタ410の一実施形態のスクリーンショット70aおよび70bを図示する。
より具体的には、スクリーンショット70aは、ワークベンチ20にインポートされたハブ構成71の表現を図示する。いくつかの実施形態では、構成エディタ410は、アプリケーション、属性型式、情報源、連鎖、メンバー型式、関係型式等の表示を示す、ナビゲーションメニュー72を備えることができる。図7Aを参照すると、メンバー型式表示73は、ユーザが、メンバー型式を追加、編集、および除去できるようにする。いくつかの実施形態では、メンバー型式は、データが該当する「オブジェクトカテゴリ」を識別する(例えば、個人、プロバイダ、ゲスト、または団体)。いくつかの実施形態では、属性、実体型式、複合表示、ソース、およびアルゴリズムといった、それぞれ独自のタブを有する、特定のメンバー型式に対して構成可能な5つのオブジェクトがある。
いくつかの実施形態では、属性型式表示は、ユーザが、メンバー型式と関連付けられた属性を閲覧できるようにする。例えば、メンバー型式「個人」74については、属性タブは、メンバー型式「個人」74と関連付けられる、APPTおよび生年月日等の属性を表示してもよい。この実施例では、APPTという属性には、MEMAPPTの属性型式があり、生年月日という属性には、MEMDATEの属性型式がある。いくつかの実施形態では、属性型式(セグメント)は、Initiate(登録商標)データスキーマと一致して、ハブ挙動およびメンバー情報を定義する。いくつかの実施形態では、属性型式は、メンバー属性型式と、関係属性型式とを備える。いくつかの実施形態では、メンバー属性型式は、所定の(「固定された」)属性型式と、実装時定義の属性型式とを備え、それらは、「IMPLEMENTATION DEFINED SEGMENTS FOR RELATIONAL DATABASE SYSTEMS」と題された2007年9月13日出願の上記で参照した米国特許出願第11/900,769号で説明されている。実装時定義の属性型式は、アイデンティティハブの実装時に作成することができ、したがって、生成されたクラスと関連付けられない。関係属性型式は、関係に特有である属性型式である。属性型式は、メンバー属性型式および関係属性型式の両方にはなり得ない。
いくつかの実施形態では、実体型式表示は、アイデンティティまたは世帯等の実体型式の管理を可能にする。実体管理に対するさらなる教示ついては、いずれも参照することにより本明細書に組み込まれる、「METHOD AND SYSTEM FOR MANAGING ENTITIES」と題された2008年3月27日出願の米国特許出願第12/056,720号、および「METHOD AND SYSTEM FOR INDEXING INFORMATION ABOUT ENTITIES WITH RESPECT TO HIERARCHIES」と題された2007年1月22日出願の米国特許出願第11/656,111号が読者に指示される。
いくつかの実施形態では、複合表示は、ユーザによって定義されるようなメンバーの全体像を表す。複合表示の構成は、ワークベンチ20におけるメンバー属性データの挙動および表示を制御する、規則を確立することができる。例えば、特定のメンバーのメンバー属性データは、名前、住所、電話、および社会保障番号で構成されてもよい。
いくつかの実施形態では、ソース表示は、ユーザが、ワークベンチ20と相互作用するソースに関する情報を追加および管理できるようにする。ソースの例は、定義のソースおよび情報のソースを含んでもよい。情報のソースの例は、上記で説明される、ソース34、36、38を含んでもよい。定義のソースは、メンバー(記録)が作成され、通常は更新されるものである。いくつかの実施形態では、ワークベンチ20は、定義のソースに更新を送信してもよい。
いくつかの実施形態では、アルゴリズムのタブは、比較を処理するためにハブが使用するアクティブアルゴリズムをユーザが作成または識別できるようにする。いくつかの実施形態では、ハブインスタンス上の1つのメンバー型式につき、1つだけのアルゴリズムがアクティブとなり得る。これらのアルゴリズム(アクティブおよび非アクティブ)は、ハブ構成において現在定義されているメンバー型式に基づく。各新規作成アルゴリズムは、ハブ構成におけるメンバー型式と関連付けられなければならない(図9Aおよび9Bを参照)。
いくつかの実施形態では、自動リンク閾値以上を採点する記録については自動で(自動リンク)、またはタスク解決中にユーザによって手動で(事務的レビュー)、連鎖を形成することができる。連鎖の目的は、メンバー(記録)の正確な企業規模の表示を可能にする。図7Bを参照すると、いくつかの実施形態では、構成エディタ410の連鎖表示76は、連鎖型式77および連鎖状態78を提供してもよい。この機能性は、連鎖型式および関連状態を追加または編集するために使用することができる。この実施例では、連鎖型式77が、連鎖ID、連鎖型式、および種類を一覧化して、有効な実体関係を定義する一方で、連鎖状態78は、状態ID、連鎖状態、およびカテゴリを一覧化して、企業関係のワークフロー状態を表す。いくつかの実施形態では、これらの列は、列の見出しをクリックすることによって、昇順または降順でソートされてもよい。
簡単に図7Aを参照すると、ナビゲーションメニュー72はまた、アプリケーション表示および関係型式表示も示す。アプリケーション表示は、いくつかの機能を一覧化してもよい。いくつかの実施形態では、ユーザは、アプリケーションをアクティブまたは非アクティブとマークするために、この構成要素における機能を使用することができる。いくつかの実施形態では、企業ユーザは、アプリケーション表示から、企業のサイトにおいて実装されたInitiate(登録商標)アプリケーションを追加および除去することができる。関係型式表示は、利用可能な関係型式を示してもよい。関係型式は、2つの異なる(または同じ)実体型式の間に存在することができる、関連付けの型式である。例えば、個人が別の個人を管理することができるか、または、団体が別の団体を合法的に所有することができる。いくつかの実施形態では、ユーザは、実体の間の関係を管理するために、この構成要素における機能を使用することができる。実体に関する情報を関係付けるステップに対するさらなる教示については、参照することにより本明細書に組み込まれる、「METHOD AND SYSTEM FOR INDEXING,RELATING AND MANAGING INFORMATION ABOUT ENTITIES」と題された2007年9月28日出願の米国特許出願第11/904,750号が読者に向けられる。簡略にするため、本開示では、全ての利用可能な表示が示され、または説明されているわけではない。しかしながら、当業者であれば、付加的な表示、およびそのような表示を介して提供される付加的な機能性も可能であることを理解できるであろう。例えば、文字列表示は、ユーザが、ある受信データ値をどのように取り扱うかについてアルゴリズムに命令するための規則またはガイドラインを作成できるようにしてもよい。別の例として、監査表示は、ユーザがアイデンティティハブ32との相互作用のための監査ロギングを確立できるようにし、ユーザがこれらの相互作用を行うことができるようにしてもよい。
ワークベンチ20のいくつかの実施形態では、ハブ構成およびその関連ファイルを保持する容器が、プロジェクトと呼ばれる。ハブ構成をプロジェクトにインポートする前に、ユーザは、新規プロジェクトを作成するか、または既存のプロジェクトをインポートする必要がある。新規プロジェクトを作成するために、ユーザは、「Initiate」メニュー61から「新規Initiateプロジェクト・・・」を選択し、新規プロジェクトの名前を入力することができる。新規プロジェクトは、ユーザによって特定されるような、現在のワークスペースディレクトリの中、または現在のワークスペース外の場所(別のローカルドライブまたはネットワークドライブ等)で、おそらくワークベンチテンプレートを使用して、作成されてもよい。プロジェクト管理のいくつかの実施形態に対するさらなる教示については、参照することにより本明細書に組み込まれる、「METHOD AND SYSTEM FOR PROJECT MANAGEMENT」と題された2007年6月29日出願の米国特許第11/824,210号が読者に指示される。
次に、ワークベンチ20は、プロジェクトを作成し、ワークスペースディレクトリ下に以下のディレクトリを追加する。
・フロー―フローファイル(.iflow)を含有する
・機能―あらゆるカスタム機能を含有する
・lib―配備のために必要とされる、あらゆる付加的なJava(登録商標)コードライブラリファイル(.jar)を含有する
・サービス―プロジェクトにインポートされる全てのデータソースWSDLファイル(.wsdl)を含有する
・src―必要とされる、あらゆる付加的なJava(登録商標)ソースファイル(.java(登録商標))を含有する
・anonutil―サンプルデフォルト値ファイルおよびフィルタファイルを含有する
・ハンドラ―Java(登録商標)ハンドラをパッケージングするためのスクリプティングサポートを含有する
・ジョブ―ハブとプロジェクトとの登録と関係付けられた情報を含有する
プロジェクトは、アイデンティティハブ32のインスタンスを実行するサーバへの接続を介して、アイデンティティハブ32と関連付けられる。産出および試験を含む、いくつかの種類の接続がある。いくつかの実施形態では、メニュー61からのメニューアイテム「Initiate」62の下で対応する機能にアクセスすることによって、アイデンティティハブ32のインスタンスへの接続を追加、編集、または削除することができる(図6参照)。ハブ構成は、「Initiate」メニュー62から「ハブ構成をインポートする・・・」機能にアクセスすることによって、プロジェクトにインポートすることができる。いくつかの実施形態では、アイデンティティハブ32からハブ構成情報を検索するために、ユーザの名前およびパスワードが必要とされてもよい。いくつかの実施形態では、インポートされたハブ構成の名前が、構成エディタ410のナビゲータ表示64で示されてもよく、インポートされたハブ構成の構成要素が、ワークスペース65で示されてもよい。
図8Aおよび8Bは、それを介してジョブ構成を修正することができる、構成エディタ401の一実施形態のスクリーンショット80aおよび80bを図示する。ワークベンチ20のいくつかの実施形態では、アイデンティティハブ32によって行われるタスクは、ジョブと呼ばれてもよく、1つ以上のジョブのグループ化は、ジョブ集合と呼ばれてもよい。いくつかの実施形態では、利用可能なジョブ(タスク)は、構成ジョブ、データ分析ジョブ、ハブ管理ジョブ等に分類されてもよい。いくつかの実施形態では、ジョブ結果は、プロジェクトによって、アイデンティティハブ32のサーバを実行するサーバ上に記憶することができ、多くの場合、コンピュータ40におけるサーバから検索または閲覧することができる。いくつかの実施形態では、構成エディタ410におけるジョブ表示を介して、タスクの以下の限定的一覧が行われてもよい。
・構成をハブに配備する
・重みを生成する
・閾値分析ペアを作成する
・ハブからファイルを検索する
(ハブ構成の配備)
このユーティリティは、構成プロジェクトをハブに配備する。このジョブは、(上記で説明される「initiate」メニューオプションの代わりに)別のジョブと併せて配備を行うために使用することができる。このジョブが実行されると、ハブは自動的に停止され、再起動される。「Initiate」メニュー62から実行する時に、以下のオプションが利用可能である。
・重みテーブルを配備する。このオプションは、選択されると、選択されたワークベンチプロジェクトディレクトリにおける重みテーブルがハブに配備されることを可能にする。
・必要であれば、データベーステーブルを作成および/またはドロップする。このオプションは、選択されると、構成を支援するように、データベーステーブル操作が必要に応じて行われることを可能にする。
・グループ同期化をチェックする。このオプションは、選択されると、ローカルで一覧化されたジョブグループが、ハブにおいて定義されたグループとともに最新であることをチェックする。一実施形態では、このオプションが選択され、グループが一致しない場合は、配備が中止されてもよい。
(重み生成)
このユーティリティは、重み生成タスクを行う。このジョブは、入力として導出データ(比較データおよびバケッティングデータ)を必要とする。いくつかの実施形態では、導出データファイルは、上記で説明される標準化ならびにバケッティングステップ320および330中に、mpxdata、mpxprep、mpxfsdvd、またはmpxredvd等のユーティリティによって、生成されてもよい。一例として、図8Aは、構成エディタ401の一実施形態を通して、このジョブをどのように構成することができるかを示す、スクリーンショット80aを図示する。具体的には、実体型式id84について、構成エディタ401の一実施形態は、ステップ、入力および出力、性能調整、オプション、およびログオプションを含む、複数のタブを示してもよい。いくつかの実施形態では、ステップタブは、ユーザが、実行する重み生成ステップを選択し、過程の終わりまで後続ステップを実行するかどうかを示すことを可能にしてもよい。重み生成ステップの例は、以下を含んでもよい。
・以前の実行からアーチファクトを削除する
・全ての属性値のカウントを生成する
・メンバーのランダムペアを生成する
・ランダムメンバーを比較することによってランダムデータを導出する
・一致した候補ペアの換算を行う
・一致した集合、一致した統計値、および初期重みを生成する
・属性が少なすぎるため、最後のステップを飛ばして進む
・以前のステップを反復し、重みの収束についてチェックする
・過程の終わりまで残りの全てのステップを実行する
いくつかの実施形態では、入力および出力タブは、ユーザが種々の入力/出力ディレクトリを特定することを可能にしてもよい。入力/出力ディレクトリの例は、以下を含んでもよい。
・BXM入力ディレクトリ:そこからバルク交差一致結果が読み出される、入力ディレクトリを特定する。このディレクトリは、導出データを生成したmpxユーティリティによって使用される、出力ディレクトリを一致させなければならない。
・作業ディレクトリ:重みテーブルがワークベンチプロジェクト内に保存されるものである、ディレクトリを特定する。一実施形態では、デフォルトは重みディレクトリである。全てのファイルは、実体型式に対して名前を付けられた、特定された作業ディレクトリ内のサブディレクトリに保存される。
・FRQ出力ディレクトリ:生成された属性頻度データが書き込まれる、出力ディレクトリを特定する。
・UPAIRS出力ディレクトリ:生成されたランダムペアデータが書き込まれる、出力ディレクトリを特定する。
・USAMPS出力ディレクトリ:生成された不一致サンプルペアデータが書き込まれる、出力ディレクトリを特定する。
・MPAIRS出力ディレクトリ:生成された一致ペアデータが書き込まれる、出力ディレクトリを特定する。
・MSAMPS出力ディレクトリ:生成された一致ペアサンプルデータが書き込まれる、出力ディレクトリを特定する。
・RUN出力ディレクトリ:生成された重みが書き込まれる、出力ディレクトリを特定する。このディレクトリには、各反復の増分数が付加される。
いくつかの実施形態では、性能調整タブは、ユーザが以下のパラメータを修正することを可能にしてもよい。
・スレッドの数
・最後のステップにおける反復の最大数
・比較バケットパーティションの数
・ランダムペアバケットパーティションの数
・一致ペアバケットパーティションの数
・頻度パーティションの数
・入力/出力パーティションの最大数
・監査に使用されるAudrecno
・生成するランダムペアの数
・処理された記録を報告するための間隔
・最大バケット集合サイズ
・アイテム記録を書き込むための最小重み
いくつかの実施形態では、オプションタブは、ユーザに以下のオプションを提供してもよい。
・コード化。いくつかの実施形態では、ワークベンチ20は、LATIN1、UTF8、およびUTF16コード化を支援する。他のコード化方法論も利用されてもよい。異なる言語によるデータ記録を構文解析するステップに対するさらなる教示については、参照することにより本明細書に組み込まれる、「METHOD AND SYSTEM FOR PARSING LANGUAGES」と題された2007年12月31日出願の米国特許出願第11/967,588号が読者に指示される。
・監査。いくつかの実施形態では、ワークベンチ20は、データ記録の集合の監査を支援する。
・比較モード。いくつかの実施形態では、このオプションは、比較機能を制限するために使用することができる。例えば、一致およびリンクのみに対する重みを生成する、検索のみに対する重みを生成する、または、一致、リンク、および検索に対する重みを生成する。
いくつかの実施形態では、図8Aの80aのオプションタブの下で、以下の重み生成パラメータを見出すことができる。ここで、データは、種々のソースに特有である、使用される閾値を含む。
・属性一致ペア率閾値(wgtNRM)―比較で使用される第3のフィルタの閾値を定義する。
・属性一致ペア閾値(wgtABS)―属性比較で使用される第2のフィルタの閾値を定義する。
・収束閾値(wgtCNV)―重み生成変換の許容値を定義する。
・初期重み推定値のデータ品質率(wgtQOD)―一致集合エラー率を定義する。
・検出漏れ率(wgtFNR)―事務的レビューおよび自動リンク閾値を計算するために使用される、検出漏れ率を定義する。
・誤検出率(wgtFPR)―事務的レビューおよび自動リンク閾値を計算するために使用される、誤検出率を定義する。
・一致ペア閾値(wgtMAT)―比較で使用される第1のフィルタの閾値を定義する。
・最小属性数(wgtFLR)―属性値頻度数に対する下限を定義する。
いくつかの実施形態では、ログオプションタブは、ユーザに以下のロギングオプションを提供してもよい。
・トレースロギング
・デバッグログ
・タイマロギング
・SQLロギング
この「重み生成」ジョブが完了すると、結果を閲覧することができ、重みをローカルで保存することができる。いくつかの実施形態では、「重み生成」の出力を、ハブからプロジェクトにコピーすることができる。重み生成に対するさらなる教示については、参照することにより本明細書に組み込まれる、「SYSTEM AND METHOD FOR AUTOMATIC WEIGHT GENERATION FOR PROBABILISTIC MATCHING」と題された2007年6月1日出願の米国特許出願第11/809,792号が読者に指示される。
データ分析ジョブの一例として、図8Bは、構成エディタ401の一実施形態を介して、閾値分析ペア生成ジョブをどのように構成することができるかを図示する、スクリーンショット80bを図示する。具体的には、構成エディタ401の一実施形態は、ユーザが、実体型式ならびに適切な入力ディレクトリおよび出力ファイルを特定することを可能にしてもよい。ユーザはさらに、スコアあたりのペアの数およびスコアの範囲を特定することができる。図8Bの実施例では、最小スコアが8.0であり、最大スコアが25.0である。この実施例では、サンプルペアジェネレータは、171のスコアビンのそれぞれにおいて、10のランダムペアを選ぶ(0.1の増分で8.0〜25.0)。
図7Aを参照して上述のように、新規作成アルゴリズムは、ハブにおけるメンバー型式と関連付けられなければならない。図9Aおよび9Bは、アルゴリズムエディタ420の一実施形態のスクリーンショット90aおよび90bを図示する。いくつかの実施形態では、アルゴリズムエディタ420は、比較論理を適用するためにアイデンティティハブ32によって使用されるアルゴリズムファイルをユーザが編集できるようにする。具体的には、アルゴリズムは、最初に作成された時には空である。アルゴリズムエディタ420は、ユーザが、アルゴリズムエディタ420におけるパレット91からアルゴリズム構成要素および接続を追加して、アルゴリズムを構築できるようにする。図9Aの実施例では、スクリーンショット90aは、メンバー型式「個人」74と関連付けられたアルゴリズムを図示する。いくつかの実施形態では、複数のアルゴリズムを特定のメンバー型式と関連付けることができるが、1つだけを所与の時に「アクティブ」アルゴリズムとして設定することができる。アルゴリズムは、完全性について有効化されるまでデータベースに変更が行われないように、ローカルで編集される。
図9Aおよび9Bが図示するように、アルゴリズムは、属性の構成要素、標準化機能の構成要素、比較およびクエリ役割の構成要素、ならびにバケッティングおよび比較機能の構成要素を含む、複数の構成要素を備えてもよい。ユーザは、1つ以上のアルゴリズム構成要素を追加、修正、または削除することによって、アルゴリズムを修正することができる。属性の構成要素は、ユーザがデータ要素に対するプロパティまたはフィールドを定義することを可能にする。これらの属性は、アルゴリズムのメンバー型式によってフィルタにかけられる。標準化機能の構成要素は、比較、バケッティング、および検索(クエリ)目的で受信ソースデータを標準化または初期化するための機能を備える。このことは、全てのアルファベット文字の大文字化、句読点の除去、匿名値チェック、およびデータ順序付けを意味し得る。いったん標準化されると、データは、導出データの比較構成要素として記憶され、バケッティングデータの生成で使用される。いくつかの実施形態では、標準化されたデータは、ハブデータベースに記憶されず、したがって、メンバーデータを変更しない。例えば、電話番号が、232−123−4567としてソースに入力されてもよい。標準化ルーチンがダッシュ記号および市外局番を取り去って、番号を1234567として初期化してもよい一方で、アイデンティティハブ32のデータベース46に記憶される番号は、232−123−4567のままである。比較およびクエリ役割の構成要素は、アルゴリズムで比較機能および/またはクエリ機能をどのように使用することができるかをユーザが定義できるようにする。バケッティング機能は、共有情報のグループを識別する、バケッティングデータを識別するために使用することができる。例えば、バケットは、名前(ファーストネーム、名字、ミドルネーム)、生年月日+名字、住所、および社会保障番号に対して定義されてもよい。この構成要素はまた、ユーザが、バケットにおけるデータ要素の組み合わせを定義できるようにもする。アルゴリズムエディタ420の実施形態に対するさらなる教示については、参照することにより本明細書に組み込まれる、「METHOD AND SYSTEM FOR A GRAPHICAL USER INTERFACE FOR CONFIGURATION OF AN ALGORITHM FOR THE MATCHING OF DATA RECORDS」と題された2007年2月5日出願の米国特許出願第11/702,410号が読者に指示される。
したがって、一実施形態では、アイデンティティハブを分析するための方法は、アイデンティティハブの構成を生成するために、最初のデータ記録の集合を利用するステップと、アイデンティティハブの構成と関連付けられたバケッティング戦略に従って、その最初のデータ記録の集合またはそれの部分集合に基づいて作成されたバケットを分析するステップと、アイデンティティハブの性能に対するそれらのバケットの効果を分析するステップと、それに応じてバケッティング戦略を変更するステップとを含んでもよい。一実施形態では、バケッティング戦略は、バケットを作成する際に利用されるアルゴリズムを編集すること、またはアルゴリズムと関連付けられた1つ以上のパラメータ値を変更することによって、変更することができる。一実施形態では、アルゴリズムは、実体型式と関連付けられる。
いくつかの実施形態では、上記のコアアルゴリズム構成機能に加えて、アルゴリズムエディタ420の閾値および重みプロパティタブ92を介して、自動重み生成パラメータを構成することもできる。重みプロパティが実体型式と関連付けられるため、重みプロパティを閲覧するために、ユーザは、最初に実体型式を選択しなければならない。この実施例では、スクリーンショット90bは、実体型式id84に対する閾値および重みプロパティを図示する。
重み生成変換を含む、重み生成に対するさらなる教示については、参照することにより本明細書に組み込まれる、「SYSTEM AND METHOD FOR AUTOMATIC WEIGHT GENERATION FOR PROBABILISTIC MATCHING」と題された2007年6月1日出願の米国特許出願第11/809,792号が読者に指示される。
図9Bを参照すると、重みが確立された後に、ユーザは、特定のハブ構成に対する適切な事務的レビューおよび自動リンク閾値を手動で設定するか、または閾値計算機93を使用して計算することができる。閾値計算機93は、適切な事務的レビューおよび自動リンク閾値を計算するために、ユーザがアイデンティティハブ32のデータベース46からデータをサンプリングできるようにする。いくつかの実施形態では、ユーザはまた、事務的レビュー閾値および自動リンク閾値を設定して、誤検出率、検出漏れ率、およびタスクの推定数についての推定値を得るために、閾値計算機93を使用することもできる。いくつかの実施形態では、評価されたサンプルペアデータに基づいて、推定誤検出率(FPR)または統計的FPRのいずれかを使用して、閾値を計算することができる。これらの値は、選択された(または全ての)ソースペアに使用することができる。統計的オプションは、ユーザが、上記で説明される閾値分析ペア生成ジョブを最初に実行し、次いで、完了したジョブに「ジョブ結果を得る」動作を行うことを要求する。
いくつかの実施形態では、候補閾値には、ワークベンチ20が提供される。ユーザは、候補閾値、タスク、および連鎖をレビューし、特定のハブ構成に対する適切な閾値を判定することができる。いくつかの実施形態では、候補閾値を以下のように計算することができる。
(自動リンク閾値)
候補自動リンク閾値は、ファイルサイズおよび許容誤検出率に依存する。fprを許容誤検出率(デフォルト値10(−5))にし、numをデータ集合の中の記録の数にする。すると、候補自動リンク閾値は、thresh_al=−ln[−ln(1−fpr)/num]/ln(10)であり、式中、lnは、自然(ベースe)対数である。
(事務的レビュー閾値)
候補の事務的レビュー閾値は、所望の検出漏れ率(fnr)に基づいて設定される。例えば、重複の95%が上記の我々の事務的レビュー閾値を採点することが所望される場合、デフォルトは0.05で設定される。実際のfnr値は、一致のために計算される重み、各属性が有効値を有する時間の分率、およびこれらの値の分布に依存してもよい。一致集合スコアの実験的分布を判定し、この分布から事務的レビュー閾値を計算するために、ブートストラップ手順が使用されてもよい。このブートストラップのために、以下のように、ランダムメンバーの一覧を生成し、各メンバーの情報を計算し、このサンプルから実験的分布を形成する。
データベースの中で、潜在的冗長性を伴うnumebtランダムメンバーを選択する。これらを、memrecno_1、memrecno_2、...、memrecno_numebtと呼ぶ。これらのそれぞれについて、それ自体に対してメンバーを採点する(すなわち、メンバーの情報を計算する)。これらのスコアを、s_1、s_2、...、s_numebtと呼ぶ。s_minをこれらのスコアの最小値とし、s_maxをこれらのスコアの最大値とし、0.1ずつ増分するs_minからs_maxまでのテーブルを作成して、スコアをビンにする。テーブルは、以下のように、n=(s_max−s_min)/0.1の行を有する。
表1:一致集合のスコア分布
Figure 2011503681
ここで、
f_1+f_2+...+f_j>fnr
となるように、jを第1の指数とし、
次いで、候補の事務的レビュー閾値は、
thresh_cl=s_min+(j−1)*0.1である。
本明細書で開示される実施形態では、上記の構成ツールは、バケットおよび実体等の、構成の種々の側面を測定するための分析ツールの集合と一体化している。これらのツールは、構成を評価し、構成と関連付けられたエラーおよび潜在的な性能の問題を見出する支援を行うことができる。特に、これらのツールは、ユーザがハブをシームレスに構成し、構成の正確性を有効化する支援を行うことができる。
図10Aおよび10Bを参照すると、ワークベンチ20のいくつかの実施形態は、分析ツール430を実装する分析物表示を備えてもよい。分析物表示は、分析のためのデータを提供するために、クエリツールの集合を構成ユーザに提供してハブ構成を提供してもよく、分析物表示の機能性は、ハブインスタンスと関連付けられる必要がある。図10Aは、ハブがプロジェクトdemo81に対する分析ソースとして選択され、ハブ構成71、メンバー型式「個人」74、および実体型式id84が分析のために選択されていることを示す、ユーザインターフェース50の一実施形態のスクリーンショット100aを図示する。図10Aに示されるように、「分析データをスナップショットに保存する」オプションを選択し、分析IDフィールドに名前を提供することによって、分析データをスナップショットに保存することができる。いくつかの実施形態では、スナップショットは、ナビゲータ表示の中の「スナップショット」フォルダにXML形式で保存される。いくつかの実施形態では、図4を参照すると、スナップショットは、コンピュータ40のコンピュータ可読記憶媒体56にローカルで保存することができる。データをスナップショットに保存することによって、ユーザは、構成変更が行われる前または後から、または異なる時点から、分析データを比較することができる。入力パラメータが異なるという条件で、同じクエリの複数のコピーを単一のスナップショット内に保存することができる。
図10Bは、スナップショットがプロジェクトAlphaに対する分析ソースとして選択され、main_hub_Bucket3−10−08が利用可能なスナップショットに選択されていることを示す、ユーザインターフェース50の一実施形態のスクリーンショット100bを図示する。この実施例では、メンバー型式「個人」74および実体型式id84が分析のために選択されている。いったん分析物表示がそれと関連付けられたデータソースを有すると、ユーザは、1つ以上のクエリを取り込み、結果を閲覧することができる。各クエリは、特殊なデータの集合を表示する。いくつかの実施形態では、利用可能なクエリは、データ分析、実体分析、バケット分析、および連鎖分析の種類に分類される。
図11は、アイデンティティハブの構成を分析するための方法の一実施形態のフロー図を図示する。上述のように、ワークベンチ20の実施形態におけるツールは、ユーザが、アイデンティティハブ32のインスタンスをシームレスに構成し、リアルタイムの構成の正確性を有効化することを、それらが支援できるように統合される。したがって、図11に図示された方法のステップは、過程例を図示することを意図し、決して限定的として解釈されることを意図しない。例えば、いったんメンバーペアがサンプリングされ、比較データおよびバケッティングデータ(導出データ)が作成され、重みが確立され、適切なALおよびCR閾値が判定されると、バケットサイズおよびバケット分布等の、バケットに対するいくつかの早期分析を実行することができる。そのような早期分析は、早期にデータ異常を識別するのに役立ってもよい。したがって、図11の全てのステップが必要なわけではなく、記録を一致させるためのシステムを分析するための方法のいくつかの実施形態は、図11の1つ以上のステップを備えてもよい。さらに、図11のステップは、特定の順序で実行されなくてもよい。例えば、重み生成過程(ステップ103)の一部として、提案された閾値(候補閾値)の集合が生成されてもよい。この時点で、ユーザは、閾値分析(ステップ107)を実行し、閾値の範囲に対する推定された誤検出および検出漏れ率を閲覧することができる。閾値が設定され、(潜在的に最終の)交差一致が完了すると、ユーザは、起こり得るエラー(欠落した匿名値等)について実体をレビューしてもよい(ステップ105)。ハブが分析ソースとして選択された場合、ユーザは、ワークベンチ20からの実体分析ツール432を介して、実体サイズの分布を見て、エラーを識別するのに役立つように、疑わしい実体におけるメンバーからのデータを閲覧することができる。さらなる調整が行われた後の比較のために、実体サイズのレポートをディスク(例えば、コンピュータ可読記憶媒体56)に保存することができる。
これらの上記の分析タスクは、プロジェクトの終了間近で、または過程の他の部分が依然として行われている間に、完了することができる。例えば、場合によっては、アプリケーションの構成、ユーザ/グループの設定、複合表示の作成等の構成タスクは、依然として、ワークベンチ20における構成エディタ410を介して完了される必要があってもよい。必要な変更を行った後、それらは、全ての他の構成データのように、作動中のサーバに配備される必要がある。プロジェクトの終わりに、システムの健全性を検証し、システムを最適な性能に戻すために行われる必要があってもよい、あらゆる調整努力を判定するために後で使用することができる、構成についてのレポートを生成することができる。さらに、いったん構成が終了すると、それを他のサーバに容易に再配備することができる(試験、生産等)。構成を新規サーバに配備した後に、コンピュータ40におけるユーザは、タスク「全ての構成データを生成する」を実行して、導出データを作成し、新規サーバ上で必要な比較および結び付け過程を実行することができる。
図11を再び参照すると、一例として、アイデンティティハブを分析するための方法の一実施形態は、データ分析ツール434を介してデータ記録の集合の属性の有効性を分析するステップを含んでもよい(ステップ101)。一実施形態では、アイデンティティハブを分析するための方法は、実体分析ツール432を介して実体を分析するステップを含んでもよい(ステップ105)。一実施形態では、これらの実体は、アイデンティティハブ32において特定の実体型式を有するものとして分類される。いくつかの実施形態では、これらの実体を分析するステップは、実体サイズ分布を分析するステップ、これらの実体をサイズで分析するステップ、これらの実体を組成で分析するステップ、これらの実体と関連付けられたスコア分布を分析するステップ、これらの実体と関連付けられたメンバー比較を分析するステップ、またはそれらの組み合わせを必要としてもよい。いくつかの実施形態では、実体を分析した後に、ユーザは、アルゴリズムエディタ420を実行し、実体型式と関連付けられたアルゴリズムを修正する、および/または上記で説明されるような1つ以上のアルゴリズム構成要素における1つ以上のパラメータ値を変更することを希望してもよい(ステップ102)。いくつかの実施形態では、そのような修正または変更がバケッティング戦略の変更を誘起してもよく、新規重みが重み生成を介して自動的に生成されてもよい(ステップ103)。したがって、ユーザは、バケット分析ツール436を実行して、それと関連付けられたバケットおよび統計値をレビューし、分析することを希望してもよい(ステップ104)。いくつかの実施形態では、ワークベンチ20からのバケット分析ツール436を介して、ユーザは、バケットサイズ分布を分析する、これらのバケットをサイズで分析する、これらのバケットを組成で分析する、バルク交差一致比較分布を分析する、メンバー(記録)をバケットカウントで分析する、メンバーバケット値を分析する、メンバーバケット頻度を分析する、メンバー比較分布を分析する、またはそれらの組み合わせを行うことができる。いくつかの実施形態では、ユーザは、連鎖分析ツール438を実行して、現在使用されているCRおよびAL閾値に関して(ステップ107)、メンバー重複およびメンバー重畳を分析してもよい(ステップ106)。上記のステップのうちのいずれかの間または後に、分析データが保存されてもよい(ステップ108)。
図12Aおよび12Bは、実体分析ツール432の一実施形態のスクリーンショット120aおよび120bを図示する。具体的には、図12Aのスクリーンショット120aは、実体組成クエリの結果を図示し、図中、列121は、見出された4つのメンバーを一覧化し(すなわち、実体26は、ともに結び付けられた4つの候補データ記録を有する)、列122は、これらのメンバーと関連付けられた特定の属性(社会保障番号)の値を一覧化し、列123は、これらのメンバーと関連付けられた別の特定の属性(性別)の値を一覧化する、等である。図12Bのスクリーンショット120bは、発端メンバー27をメンバー実体におけるメンバー26と比較する、メンバー比較クエリの結果を図示し、図中、列124は、比較された候補記録を一覧化し、列125は、それらの対応するスコアを一覧化する。
図12Aおよび12Bに示された、実体組成クエリおよびメンバー比較クエリは、実体分析ツール432を介して利用可能なクエリの例である。いくつかの実施形態では、実体分析ツール43を介して利用可能なクエリは、サイズ別の実体、実体組成、実体サイズ分布、メンバー比較、メンバー実体頻度、メンバー実体値、実体カウント別のメンバー、スコア分布を備えてもよい。
(サイズ別の実体)
このクエリは、サイズ(実体におけるメンバーの数)の特定した範囲に一致する実体について問い合せを行う能力を提供する。最小または最大サイズのいずれかに対して0という値を特定することにより、制限がない(最小値がない、または最大値がない)ことを示す。
(実体組成)
このクエリは、特定した実体の内容を示す。図12Aが例示するように、結果として生じるテーブルは、特定した実体の中にあるメンバー記録IDおよびソースID、ならびに各メンバーの比較データを一覧化する。比較データは、比較役割によって、テーブルの個々の列に分割することができる。
(実体サイズ分布)
このクエリは、サイズに関する際のハブにおける全ての実体の総合的表示を提供する。表示は、チェックされたソースのみから実体を示すように、フィルタにかけられてもよい。実体がチェックされたソースならびにチェックされていないソースにおけるメンバーから成る場合には、実体に対して示されたサイズが、チェックされたソースのみにおけるメンバー記録のカウントとなる。
(メンバー比較)
このクエリは、メンバー記録を、特定した実施形態における全てのメンバーに対して(図12B参照)、または特定したメンバーの集合と比較する機構を提供する。
(メンバー実体頻度)
このクエリは、メンバーが実体において出現する頻度、つまり、1つの実体の中にいるメンバーの数、2つの実体の中にいる数、3つの実体の中にいる数等を示す。
(メンバー実体値)
このクエリは、メンバーが所属する実体を示す。
(実体カウント別のメンバー)
このクエリは、実体の特定した範囲内にいるメンバー(例えば、3つ以上の実体の中にいる全てのメンバー)の一覧を示す。最大数が特定されなければ、0という値が「実体の最大数」フィールドに示される。そうでなければ、実体値の最大数は、実体の最小数以上でなければならない。
(スコア分布)
このクエリは、システムにおける全ての記録ペアに対するスコアの分布を示す。いくつかの実施形態では、単一のメンバー実体、または3つ以上のメンバー実体を伴う記録が、結果に含まれなくてもよい。いくつかの実施形態では、各スコアに対するペアの数は、所与のスコア範囲内の全カウントの合計であってもよい。例えば、27というx軸のスコア値は、26.1から27.0の間で採点する全てのペアを表してもよい。表示は、チェックされたソースのみから実体を示すようにフィルタにかけられてもよい。実体がチェックされたソースならびにチェックされていないソースにおけるメンバーから成る場合には、実体に対して示されたサイズが、チェックされたソースのみにおけるメンバー記録のカウントとなる。特定の連鎖型式に対して結果が示されなければ、その連鎖型式および/または選択されたソースの集合に対する基準を満たす実体がない場合がある。
図13は、データ分析ツール434の一実施形態のスクリーンショット130を図示する。一実施形態では、データ分析ツール434は、図13に示されるような属性有効性クエリを提供してもよい。
(属性有効性)
このクエリは、全てのソースおよび個々のソースからの記録がメンバー型式の属性に対する値を有する、時間の割合を示す。高い割合で存在する値は、アルゴリズムで使用するための潜在的候補と見なされるべきである。いくつかの実施形態では、初期設定で、結果は、属性名でソートされてもよい。いくつかの実施形態では、結果は、列でソートされてもよい。いくつかの実施形態では、ソートは、結果として生じるテーブルが、特定したソースに含有されるメンバー型式の記録の割合を一覧化してもよいように、フィルタにかけられてもよい。
図14は、バケット分析ツール436の一実施形態のスクリーンショット140を図示する。いくつかの実施形態では、ハブにおける記録の数が200万より多い場合、データが最初に準備されない限り、バケット分析が実行しない。いくつかの実施形態では、データ準備は、未加工のメンバーおよびバケットデータを取り出すステップと、迅速に問い合せを行うことができる中間のデータの集合を事前計算するステップとを伴うことができる。このデータは、構成エディタ410を介した「バケット分析準備」ジョブを通して行うことができる。場合によっては、200〜500万の記録のデータを準備するステップが、約10分かかってもよい一方で、5000万の記録のデータを準備するステップは、約5時間かかってもよい。これらの推定値は、異なるハードウェアおよびデータベース構成に応じて、大きく変動してもよい。メンバーデータが修正された場合、準備されたデータは、期限切れの結果を見ることを回避するように、同様に再計算されるべきである。
スクリーンショット140は、バケット分析ツール436を介して利用可能な複数のクエリのうちの1つである、バケット分析概要クエリの結果を図示する。いくつかの実施形態では、バケット分析ツール436を介して利用可能なクエリは、バケット分析概要、バケット組成、バケットサイズ分布、サイズ別のバケット、バルク交差一致比較分布、メンバーバケット頻度、メンバーバケット値、メンバー比較分布、およびバケットカウント別のメンバーを備えてもよい。
(バケット分析概要)
このクエリは、ハブのバケッティング戦略の健全性について何らかの一般情報を提供する。図14で例示されるように、一実施形態では、表示の上半分は、大型バケット、バケットされていないメンバー等の数等の情報で満たされてもよい。大型バケットおよび/またはバケットされていないメンバーの特定の範囲は、適切なボタンをクリックすることによって閲覧することができる。より具体的には、「バケットを閲覧する」ボタンをクリックすることにより、「サイズ別のバケット」表示を選択し、所望の範囲のバケットサイズでクエリを実行する。「メンバーを閲覧する」ボタンをクリックすることにより、「バケット別のメンバー」表示を選択し、バケットがないメンバーを示すようにクエリを実行する。この実施例では、図14で図示された表示の底部領域は、10個の最大バケットを、それらのバケットのハッシュ値、バケットを生成したバケット役割、ならびにそれらのバケットにおけるメンバーのうちの1つからのバケット値とともに示す。バケット値は、同じバケットにおける全てのメンバーに対して同一であってもよい。バケットハッシュを選択し、「バケットを閲覧する」ボタンをクリックすることにより、バケット組成クエリを実行し、そのハッシュコードに対して、選択バケットのメンバーおよびそれらのメンバーのバケット値で、表示にデータ投入する。
(バケット組成)
このクエリは、特定したバケットの内容を示す。結果として生じるテーブルは、特定したバケットの中にあるmemrecnos、ならびにそのバケットにおける各メンバーに対するバケット役割およびバケット値を一覧化する。示されたバケット値は、データベース中のメンバーデータから新たに計算された、実際のバケット値である。異なるバケット値が同じバケットハッシュに対して現れた場合には、それはバケットハッシュ衝突を示す。これは、異常と見なされ、通常は相互に対して比較しない、あるメンバーが、なぜ相互に対して比較されているのかを説明する場合がある。しかしながら、そのような状態は一般に、システムの健全性にとって有害であると見なされない。いくつかの実施形態では、結果として生じるテーブルで行を選択し、「メンバーを閲覧する」ボタンをクリックすることにより、メンバーバケット値クエリを実行して、選択されたメンバーのバケットの全てを示し、「アルゴリズムを閲覧する」ボタンをクリックすることにより、アルゴリズムエディタ420を開き、特定したバケットを作成したバケット役割を選択する(図9A参照)ように、このクエリに対する表示は、「メンバーを閲覧する」ボタンおよび「アルゴリズムを閲覧する」ボタンを含んでもよい。
(バケットサイズ分布)
このクエリは、サイズに関する際のハブにおける全てのバケットの総合的表示を提供する。いくつかの実施形態では、大型バケットは、表示の右側に示され、緑(より小さいバケット)から黄色(中間サイズのバケット)になり、赤(大型バケット)になる、色インジケータによって示される。バケットサイズ分布を描画するグラフ中のデータ点は、左(より小さいバケット)から右(より大きいバケット)へと下向きの曲線を辿ってもよい。したがって、バケットサイズ分布グラフの右側の広範なデータ点が、関心の領域となってもよく、見逃した匿名値、誤った閾値、およびデータの問題等を示し得る。いくつかの実施形態では、データ点をクリックすることにより、「サイズ別のバケット」表示を選択し、そのサイズのバケットにクエリを実行する。いくつかの実施形態では、データ点をクリックする前にコントロールキーを押すことによって、クエリが、そのサイズ以上のバケットを示してもよい。
(サイズ別のバケット)
このクエリは、サイズ(バケットにおけるメンバーの数)の特定した範囲に一致するバケットについて問い合せを行う能力を提供する。例えば、最小または最大サイズのいずれかに対して0という値を特定することにより、制限がない(最小値がない、または最大値がない)ことを示す。いくつかの実施形態では、結果として生じるテーブルは、メンバーカウント、バケットハッシュ、バケット役割、およびバケットのメンバーのうちの1つからのサンプルバケット値を示してもよい。再度、バケット値は、所与のバケットにおける全てのメンバーに対して同じであってもよい。これの1つの例外は、同じバケットハッシュを有する異なるバケット値をもたらした、ハッシュ衝突があった場合である。この状態をチェックするために、ユーザは、バケットを選択し、「バケットを閲覧する」ボタンをクリックして、所与のバケットに対するメンバーの全て、およびそれらのバケット値を閲覧することができる。特定のバケット役割に問題が存在する(頻度ベースのバケッティングの不足等)と判定された場合、テーブルの行を選択し、「アルゴリズムを閲覧する」ボタンをクリックすることによって、アルゴリズムエディタ420を開くことができる。このことは、アルゴリズムエディタ420を提示し、選択されたバケットを作成した特定のバケット役割を選択する(図9A参照)。
(バルク交差一致比較分布)
このクエリは、mpxcompジョブ上で特定される最大バケット集合サイズパラメータ(バケットサイズ制限)に関する際にバルク交差一致に必要とされる比較の数を計算する。次いで、この比較の数は、バルク交差一致の近似完了時間を判定するために、スレッドの数および毎秒の1スレッドあたりの比較の数とともに使用することができる。
(メンバーバケット頻度)
この表示は、棒グラフまたは同等物の形で、「1つのバケット、2つのバケット、3つのバケット等の中に、いくつメンバーがいるか」という質問に答える。0というx軸データ点は、バケットされていないメンバーの数を示し、いくつかの実施形態では、グラフの棒をクリックすることにより、「バケットカウント別のメンバー」表示を選択し、クエリを実行して、その多くのバケットを伴うメンバーを示す。
(メンバーバケット値)
この表示は、特定したメンバーがどのようなバッケットの中にいるかを示す。結果テーブルは、バケットハッシュ、バケット値、および各バケットを生成したバケット役割を示す。いくつかの実施形態では、バケットを選択し、「バケットを閲覧する」ボタンをクリックすることにより、「バケット組成」表示を選択し、クエリを実行して、選択されたバケットハッシュに対するバケット組成を示す。「アルゴリズムを閲覧する」ボタンをクリックすることにより、アルゴリズムエディタ420を開き、そのバケットの作成に関与したバケット役割を選択する(図9A参照)。
(メンバー比較分布)
この表示は、行われている比較の数に関する際のシステムの推定性能を示す。つまり、検索が行われる時に、実際の比較がいくつ行われるか、ということである。一例として、メンバー比較分布図は、平均で3つの比較が行われることを示してもよい。より具体的には、いくつかの実施形態では、10に1つの比較が約6個の比較をもたらし、100に1つが7.5となり、1000に1つの比較が8個の比較をもたらす。このデータは、システムからの20,000のランダムにサンプリングされたメンバーに基づく。20,000未満のメンバーがシステムにいる場合は、全てのメンバーが使用される。平均で、標的メンバーは、その標的メンバーとバケットを共有する全てのメンバーに対して比較される。
(バケットカウント別のメンバー)
この表示は、メンバーが含有されるバケットの数に基づいて、メンバーに対するクエリを提供する。いくつかの実施形態では、0という最小値および最大値を特定することにより、バケットされていないメンバーを返す。0より大きい最小値については、0という最大値は制限を示さない。いくつかの実施形態では、結果として生じるテーブルは、memrecno、メンバーがいるバケットの数、ならびにそのメンバーに対するcmpd文字列を示す。いくつかの実施形態では、メンバーを選択し、「メンバーを閲覧する」ボタンをクリックすることにより、「メンバーバケット値」表示を閲覧して、メンバーが現れる全てのバケットを示す。
図15は、連鎖分析ツール438の一実施形態のスクリーンショット150を図示する。いくつかの実施形態では、連鎖分析ツール438は、メンバー重複クエリおよびメンバー重畳クエリを提供する。
(メンバー重複)
このクエリは、重複メンバー(同じ実体に結び付く同じソースからのメンバー記録)についての種々のエラー率を示す。図15で例示されるように、一実施形態では、結果として生じるテーブルの最初の4列は、メンバーの数、実体の数、重複集合の数、およびそれらの重複集合の中のメンバーの数といった、ハブデータベースからの未加工データ(ソース別に分類される)を示してもよい。最後の3列は、これらの値から計算することができる、種々のエラー率を一覧化してもよい。
・記録エラー率―重複を解決するために、いくつの記録を見なければいけないか、またはいくつの記録がメンバーの不完全像を有するかを示す。
・実体重複率―いくつのメンバーが重複記録を有するか、またはランダムなメンバーが重複記録を有する確率を示す。
・記録重複率―いくつの記録が重複しているか、またはあるいは、排除することができる記録の割合を示す。
(メンバー重畳)
このクエリは、ハブにおける重畳の数についての情報を提供する。重畳は、実体が複数のソースからの記録を有する時に存在する場合がある。例えば、3つの記録を伴う実体が存在し、各記録が別個のソースシステムの中にある場合には、各ソースは、その中に2つの重畳を有すると言われる(AとB、AとC等)。いくつかの実施形態では、結果として生じるテーブルは、特定したソースにおいて表される一意の実体の数、ならびにそのソースの中の記録によって表される全ての実体の割合を示してもよい。いくつかの実施形態では、結果として生じるテーブルはまた、少なくとも1つの他のソースにおいて重畳する実体(これらの実体は、別のソースにおいて少なくとも1つの記録を有する)のカウントおよび割合を示してもよい。複数の他のソースにおける重畳を伴う実体は、いったん結果として生じるテーブルに入ると、数えられるのみであってもよい。いくつかの実施形態では、結果として生じるテーブルはまた、ソースの組み合わせ別に各ソースを示してもよい。例えば、行および列ソースが同じである時に、カウントの割合は100%である。しかしながら、行および列ソースが一意である時、カウントは、行ソースシステムと列ソースシステムとの間に存在する重畳の数を表す。したがって、パーセント値は、列ソースにおいて重畳を有する行ソースにおける実体の割合を表す。
したがって、一実施形態では、アイデンティティハブを分析するための方法は、データ記録の集合と関連付けられたエラー率を分析するステップを含んでもよい。一実施形態では、エラー率は、記録エラーおよび個人エラー率を含んでもよい。一実施形態では、重複に対する記録エラー率は、記録の総数で割られた重複集合に関与する記録の数である。それは、ファイルからランダムに断片化した記録図を選ぶ見込みを表す。一実施形態では、個人エラー率は、ファイルにおいて表される個人の総数で割られた、複数の記録を有する一意の個人の数である。A、B、およびCが全て同じ個人を表す、5つの記録A、B、C、D、およびEの単純な場合を考える。すると、記録エラー率は3/5であり、個人エラー率は1/3である(ファイルは、3人の別個の人A−B−C、D、およびEを表し、そのうちの1人が複数の記録を有する)。
一実施形態では、エラー率は、誤検出および検出漏れ率を含んでもよい。一実施形態では、エラー率は、事務的レビュー(CR)および自動リンク(AL)閾値と関連付けられる。一実施形態では、CRおよびAL閾値は、データ記録の集合を一致させる際に、誤検出および検出漏れ率に対するアイデンティティハブ32の許容値を示す。したがって、アイデンティティハブを分析するための方法の一実施形態は、事務的レビュー閾値および自動リンク閾値を分析するステップを含む。図16は、それを介して、アイデンティティハブにおけるメンバー記録と関連付けられたエラー率および閾値が分析可能である、グラフィカルユーザインターフェースの一実施形態のスクリーンショットを図示する。
閾値を推定する1つのアプローチは、バルク交差一致過程によって生成される連鎖のサンプルを採点するステップと、ヒット率のモデル曲線に採点するステップの結果を適合させるステップと、所望のエラー率に基づいて閾値を選ぶために、結果として生じた曲線を使用するステップとを伴う。このアプローチには、いくつかの基礎的困難がある。第1に、広範囲のスコアにわたって、数千の結び付けられたペアをレビューし、採点する必要がある。このことは、一致または不一致の個々の解釈により、不可避の変動を取り込む。第2に、ヒット率は、データにおける固有重複率およびファイルサイズの両方を組み合わせる(使用したデータサンプルに重複がなければ、ヒット率は全てのスコアに対してゼロとなる)。第3に、この過程は、交差一致に該当し、検索またはクエリエラー率に変換される必要がある、閾値を生じる。
いくつかの実施形態では、以下で説明される、新しい閾値推定手順が、これらの懸念に対処することができる。この新しいアプローチの1つの利点は、データプロファイルに基づいて、または自動的な重み生成中に生成される新しい統計値の集合に基づいて、最初に適用できることである。
(誤検出率(自動リンク閾値))
採点するために尤度比を使用することの1つの利点は、固定閾値に対する統計的誤検出率を概算するために使用することができる、理論的な式が存在することである。このことはまた、適正に行われると、誤一致である一致の確率が、実データではなくスコアのみに依存することも意味する。
2つの記録を比較するステップの結果を、ベクトルxによって表す。すると、この比較に対する尤度比またはスコアは、
Figure 2011503681
によって求められる。
ここで、
Figure 2011503681
は、記録が同じオブジェクト(個人、事業等)を参照するという仮説の下でのこの比較のための確率密度である。つまり、これは、記録が一致させられるはずであると分かっている場合に、この結果を観察する確率である。同様に、
Figure 2011503681
は、記録が同じオブジェクトを参照しない時にこの結果を観察するための確率密度である(すなわち、これは、この比較の組がランダムに発生する確率である)。
いくつかの実施形態では、ハブは、このスコアの対数がある閾値よりも大きい時に、2つの記録を結び付けることができるため、誤検出の確率は、記録が同じオブジェクトを参照しない時に、比較が閾値以上に得点する確率である。数学的には、これは、
Figure 2011503681
であり、
ここで、
Figure 2011503681
の集合において、
Figure 2011503681
であり、
よって、
Figure 2011503681
である。
したがって、単一比較における誤検出の確率は、
Figure 2011503681
によって境界が定められる。
閾値が比較的大きい場合、n個の独立した比較を行うものとして、n個の記録を含有するデータベースの単一検索を考えることができる。このことは、閾値上の誤検出を返すデータベースの単一検索の確率が、n個の独立単一比較の最大値が閾値以上であるという確率と同じであることを意味する。{s,s,...,s}に、データベース中の全ての記録に対する単一記録のスコアを表示させると、検索が誤検出を生じる確率は、大きいTに対して、
Figure 2011503681
と表すことができる。これはさらに、
Figure 2011503681
と単純化することができ、
ここに、10はnに対して大きい。
一例として、100万の記録を有するデータベースに対して、11という閾値が使用される場合、
Figure 2011503681
または、100,000の検索に約1つである。
(採点されたサンプルペアに基づいた自動リンク閾値の精緻化)
いったんサンプルペア(サンプリングが均一であると仮定する)が採点されると、新規自動リンク(AL)閾値を計算することができる。このために必要な情報は、以下を含んでもよい。
・採点されたペアを含有するファイル。ファイルは、各ペアに対するスコアと、ペアにおける2つの記録が同じ個人を表してもよい(SP)、同じ個人を表さない(NSP)、または判定を行うのに十分な情報がない(NEI)という指標とを含有してもよい。それに応じて、採点手順から値が割り当てられてもよい。例えば、1はSPを意味し、0はNSPを意味し、−1はNEIを意味する。
・BXMによって生成されたペアの総数のスコア別のカウント(ランダムペアが生成された時にソースがフィルタにかけられた場合、これは、両方のメンバーがフィルタにかけられたソースの中にある、ペアのカウントである)。
・データベース中の記録の数(ランダムペアが生成された時にソースがフィルタにかけられた場合、これは、これらのソースの中の記録のカウントである)。
いくつかの実施形態では、第1のステップは、均一なサンプルを採取し、NSPおよびSPに対するスコア別に割合プロットを得ることである。AL閾値を更新するために、NSPのみが必要とされる。次のステップは、スコア別にペアの総数を得ることである。これは、手動評価の前にサンプルペアを作成したステップで生成することができる。次のステップは、スコアの関数として誤検出を得る確率を計算することである。これについて、バルク交差一致率とクエリ率との間で正規化するために、データベースのサイズを知る必要がある。各スコアビンについては、NSPの確率を取り、そのスコアにおけるペアの総数を掛け、1を引いたデータベースのサイズで割り、全体に2を掛ける。結果として生じる分布が滑らかでなければ、線形指数関数をサンプルデータに適用することができる。つまり、関数p=ea+b・sがサンプルデータへの最小二乗適合となり、式中、sがスコアとなるように、係数aおよびbを求める。
適合係数から、新規AL閾値を
Figure 2011503681
として計算することができる。
以下の式を使用して、スコアの関数として誤検出率を判定することができる。
Figure 2011503681
(事務的レビュー閾値の更新)
いったん適切な自動リンク閾値が判定されると、事務的レビュー(CR)閾値の関数として、タスクの数の推定値を判定することができる。これは、自動リンクに合計することによって、スコア別のペアカウントから得ることができる。ユーザは、固定数のタスクをもたらすようにCR閾値を調整してもよい。図17は、システム性能と、アイデンティティハブにおける連鎖メンバー記録と関連付けられた誤検出および検出漏れ率に対する許容値との間の関係を図示する。図17の実施例では、ALおよびCR閾値が、12の事務的レビュータスクをもたらす。
先述の明細書では、具体的実施形態を参照して本開示を説明した。しかしながら、説明は一例にすぎず、限定的な意味で解釈されるものではないことを理解されたい。したがって、本開示の実施形態の詳細の多数の変更および本開示の付加的な実施形態が、本説明を参照した当業者にとって明白となり、かつ当業者によって行われてもよいことを、さらに理解されたい。全てのそのような変更および付加的な実施形態は、以下の請求項で詳述されるような本開示の範囲内であることが検討される。

Claims (20)

  1. データ記録を一致させるためのシステムを分析するための方法であって、
    最初のデータ記録の集合を利用して、該システムの構成を生成することと、
    該システムの該構成と関連付けられたバケッティング戦略に従って、該最初のデータ記録の集合またはそれの部分集合に基づいて作成されたバケットを分析することと、
    該システムの性能に対する該バケットの効果を分析することと、
    それに応じて該バケッティング戦略を変更することと
    を含む、方法。
  2. 前記バケッティング戦略を前記変更することはさらに、前記バケットを作成する際に利用されるアルゴリズムを編集すること、または該アルゴリズムと関連付けられた1つ以上のパラメータ値を変更することを含む、請求項1に記載の方法。
  3. 前記アルゴリズムは、実体型式と関連付けられる、請求項2に記載の方法。
  4. 前記システムにおいて前記実体型式を有するものとして分類される実体を分析するステップをさらに含む、請求項3に記載の方法。
  5. 前記実体を前記分析することはさらに、実体サイズ分布を分析すること、該実体をサイズで分析すること、該実体を組成で分析すること、該実体と関連付けられたスコア分布を分析すること、該実体と関連付けられたメンバー比較を分析すること、またはそれらの組み合わせを含む、請求項4に記載の方法。
  6. 前記最初のデータ記録の集合を分析することをさらに含む、請求項1に記載の方法。
  7. 前記最初のデータ記録の集合を前記分析することは、さらに、該最初のデータ記録の集合の属性の有効性を分析することを含む、請求項6に記載の方法。
  8. 前記バケットを前記分析することは、さらに、該バケットと関連付けられた統計値を分析すること、バケットサイズ分布を分析すること、該バケットをサイズで分析すること、該バケットを組成で分析すること、バルク交差一致比較分布を分析すること、メンバーをバケットカウントで分析すること、メンバーバケット値を分析すること、メンバーバケット頻度を分析すること、メンバー比較分布を分析すること、またはそれらの組み合わせを含む、請求項1に記載の方法。
  9. 前記最初のデータ記録の集合と関連付けられたエラー率を分析することをさらに含み、該エラー率は、記録エラー率と、個人エラー率とを含む、請求項1に記載の方法。
  10. 前記システムの前記構成は、事務的レビュー閾値と、自動リンク閾値とを備え、該事務的レビュー閾値および該自動リンク閾値は、前記最初のデータ記録の集合を一致させる際に、誤検出および検出漏れ率に対する該システムの許容値を示し、該事務的レビュー閾値および該自動リンク閾値を分析することをさらに含む、請求項1に記載の方法。
  11. プロセッサによって実行可能であるコンピュータ命令を記憶する、コンピュータ可読記憶媒体であって、該プロセッサによって実行されると、該コンピュータ命令は、コンピュータに、
    最初のデータ記録の集合を利用して、システムの構成を生成することと、
    該システムの該構成と関連付けられるバケッティング戦略に従って、該最初のデータ記録の集合またはそれの部分集合に基づくバケットを作成することと、
    該バケット、および該システムの性能に対する該バケットの効果を分析することと、
    ユーザが該バケッティング戦略を変更することを可能にすることと
    を実行させる、コンピュータ可読記憶媒体。
  12. 前記プロセッサによって実行されると、前記コンピュータ命令はさらに、前記コンピュータにアルゴリズムエディタを表示させ、それを介して、前記バケットを作成する際に利用されるアルゴリズムは、前記ユーザによって編集可能である、請求項11に記載のコンピュータ可読記憶媒体。
  13. 前記バケッティング戦略は、実体型式と関連付けられ、前記プロセッサによって実行されると、前記コンピュータ命令はさらに、前記コンピュータに実体分析ツールを表示させ、それを介して、前記システムにおいて該実体型式を有するものとして分類される実体は、前記ユーザによって分析可能である、請求項11に記載のコンピュータ可読記憶媒体。
  14. 前記プロセッサによって実行されると、前記コンピュータ命令はさらに、前記コンピュータに、前記実体分析ツールを介して複数の機能を提供させ、該複数の機能は、前記ユーザが、実体サイズ分布を分析し、前記実体をサイズで分析し、該実体を組成で分析し、該実体と関連付けられたスコア分布を分析し、そして、該実体と関連付けられたメンバー比較を分析することをできるようにする、請求項11に記載のコンピュータ可読記憶媒体。
  15. 前記プロセッサによって実行されると、前記コンピュータ命令はさらに、前記コンピュータにデータ分析ツールを表示させ、それを介して、前記最初のデータ記録の集合は、前記ユーザによって分析可能である、請求項11に記載のコンピュータ可読記憶媒体。
  16. 前記プロセッサによって実行されると、前記コンピュータ命令はさらに、前記コンピュータに、前記データ分析ツールを介して少なくとも1つの機能を提供させ、該少なくとも1つの機能は、前記ユーザが、前記最初のデータ記録の集合の属性の有効性を分析できるようにする、請求項15に記載のコンピュータ可読記憶媒体。
  17. 前記プロセッサによって実行されると、前記コンピュータ命令はさらに、前記コンピュータにバケット分析ツールを表示させ、それを介して、前記バケットおよび該バケットと関連付けられた統計値は、前記ユーザによって分析可能である、請求項11に記載のコンピュータ可読記憶媒体。
  18. 前記プロセッサによって実行されると、前記コンピュータ命令はさらに、前記コンピュータに、前記バケット分析ツールを介して複数の機能を提供させ、該複数の機能は、前記ユーザが、バケットサイズ分布を分析し、前記バケットをサイズで分析し、該バケットを組成で分析し、バルク交差一致比較分布を分析し、メンバーをバケットカウントで分析し、メンバーバケット値を分析し、メンバーバケット頻度を分析し、そして、メンバー比較分布を分析できるようにする、請求項17に記載のコンピュータ可読記憶媒体。
  19. 前記プロセッサによって実行されると、前記コンピュータ命令はさらに、前記コンピュータに連鎖分析ツールを表示させ、それを介して、前記最初のデータ記録の集合と関連付けられた前記エラー率は、前記ユーザによって分析可能であり、該エラー率は、記録エラー率と、個人エラー率とを含む、請求項11に記載のコンピュータ可読記憶媒体。
  20. アイデンティティハブを分析するためのコンピュータシステムであって、
    少なくとも1つのプロセッサと、
    該少なくとも1つのプロセッサによってアクセス可能であり、該少なくとも1つのプロセッサによって実行可能なコンピュータ命令を記憶する、少なくとも1つのコンピュータ可読記憶媒体と
    を備え、
    該少なくとも1つのプロセッサによって実行されると、該コンピュータ命令は、該コンピュータシステムに、構成エディタ、アルゴリズムエディタ、データ分析ツール、実体分析ツール、バケット分析ツール、および連鎖分析ツールを備える複数のツールに、インターフェース接続するグラフィカルユーザインターフェースを表示させ、該構成エディタは、該アイデンティティハブに連結される情報源からの最初のデータ記録の集合を利用して、ユーザが該アイデンティティハブの構成をローカルで作成するか、または取り込むことを可能にし、該アルゴリズムエディタは、該ユーザが、該最初のデータ記録の集合に基づいてバケットを作成する際に利用されるアルゴリズムを編集できるようにし、該データ分析ツールは、該ユーザが、該最初のデータ記録の集合の属性の有効性を分析できるようにし、該実体分析ツールは、該ユーザが、該最初のデータ記録の集合と関連付けられる実体を分析できるようにし、該バケット分析ツールは、該ユーザが、該バケット、および該アイデンティティハブに対する該バケットの効果を分析できるようにし、該連鎖分析ツールは、該ユーザが、該最初のデータ記録の集合からの連鎖メンバー記録と、該最初のデータ記録の集合の派生物を採点する際に利用される閾値とに関連付けられるエラー率を分析できるようにする、システム。
JP2010527211A 2007-09-28 2008-09-26 データ記録を一致させるシステムの分析のための方法およびシステム Expired - Fee Related JP5306360B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US99703807P 2007-09-28 2007-09-28
US60/997,038 2007-09-28
PCT/US2008/077985 WO2009042941A1 (en) 2007-09-28 2008-09-26 Method and system for analysis of a system for matching data records

Publications (2)

Publication Number Publication Date
JP2011503681A true JP2011503681A (ja) 2011-01-27
JP5306360B2 JP5306360B2 (ja) 2013-10-02

Family

ID=40509776

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010527211A Expired - Fee Related JP5306360B2 (ja) 2007-09-28 2008-09-26 データ記録を一致させるシステムの分析のための方法およびシステム

Country Status (8)

Country Link
US (2) US8799282B2 (ja)
EP (1) EP2193415A4 (ja)
JP (1) JP5306360B2 (ja)
CN (1) CN101878461B (ja)
AU (1) AU2008304265B2 (ja)
BR (1) BRPI0817507B1 (ja)
CA (1) CA2701046C (ja)
WO (1) WO2009042941A1 (ja)

Families Citing this family (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7657540B1 (en) 2003-02-04 2010-02-02 Seisint, Inc. Method and system for linking and delinking data records
US7526486B2 (en) * 2006-05-22 2009-04-28 Initiate Systems, Inc. Method and system for indexing information about entities with respect to hierarchies
AU2007254820B2 (en) 2006-06-02 2012-04-05 International Business Machines Corporation Automatic weight generation for probabilistic matching
US8356009B2 (en) 2006-09-15 2013-01-15 International Business Machines Corporation Implementation defined segments for relational database systems
US7685093B1 (en) 2006-09-15 2010-03-23 Initiate Systems, Inc. Method and system for comparing attributes such as business names
US7698268B1 (en) 2006-09-15 2010-04-13 Initiate Systems, Inc. Method and system for filtering false positives
US8359339B2 (en) 2007-02-05 2013-01-22 International Business Machines Corporation Graphical user interface for configuration of an algorithm for the matching of data records
US8515926B2 (en) * 2007-03-22 2013-08-20 International Business Machines Corporation Processing related data from information sources
WO2008121824A1 (en) 2007-03-29 2008-10-09 Initiate Systems, Inc. Method and system for data exchange among data sources
WO2008121170A1 (en) 2007-03-29 2008-10-09 Initiate Systems, Inc. Method and system for parsing languages
US8423514B2 (en) 2007-03-29 2013-04-16 International Business Machines Corporation Service provisioning
WO2008121700A1 (en) 2007-03-29 2008-10-09 Initiate Systems, Inc. Method and system for managing entities
CN101652775B (zh) * 2007-04-13 2012-09-19 Gvbb控股股份有限公司 在用户界面中映射逻辑资产和物理资产的系统和方法
US20110010214A1 (en) * 2007-06-29 2011-01-13 Carruth J Scott Method and system for project management
WO2009042931A1 (en) 2007-09-28 2009-04-02 Initiate Systems, Inc. Method and system for associating data records in multiple languages
CN101878461B (zh) 2007-09-28 2014-03-12 国际商业机器公司 分析用于匹配数据记录的系统的方法和系统
US8713434B2 (en) 2007-09-28 2014-04-29 International Business Machines Corporation Indexing, relating and managing information about entities
US8266168B2 (en) 2008-04-24 2012-09-11 Lexisnexis Risk & Information Analytics Group Inc. Database systems and methods for linking records and entity representations with sufficiently high confidence
US9009358B1 (en) * 2008-09-23 2015-04-14 Western Digital Technologies, Inc. Configuring a data storage device with a parameter file interlocked with configuration code
US8082228B2 (en) 2008-10-31 2011-12-20 Netapp, Inc. Remote office duplication
EP2370892B1 (en) * 2008-12-02 2020-11-04 Ab Initio Technology LLC Mapping instances of a dataset within a data management system
US9411859B2 (en) 2009-12-14 2016-08-09 Lexisnexis Risk Solutions Fl Inc External linking based on hierarchical level weightings
US8352460B2 (en) * 2010-03-29 2013-01-08 International Business Machines Corporation Multiple candidate selection in an entity resolution system
US8918393B2 (en) 2010-09-29 2014-12-23 International Business Machines Corporation Identifying a set of candidate entities for an identity record
US8843501B2 (en) 2011-02-18 2014-09-23 International Business Machines Corporation Typed relevance scores in an identity resolution system
US20120324236A1 (en) * 2011-06-16 2012-12-20 Microsoft Corporation Trusted Snapshot Generation
WO2013023302A1 (en) * 2011-08-16 2013-02-21 Cirba Inc. System and method for determining and visualizing efficiencies and risks in computing environments
US10810218B2 (en) 2011-10-14 2020-10-20 Transunion, Llc System and method for matching of database records based on similarities to search queries
US9171158B2 (en) * 2011-12-12 2015-10-27 International Business Machines Corporation Dynamic anomaly, association and clustering detection
US9104678B1 (en) 2011-12-31 2015-08-11 Richard Michael Nemes Methods and apparatus for information storage and retrieval using a caching technique with probe-limited open-address hashing
US9262469B1 (en) * 2012-04-23 2016-02-16 Monsanto Technology Llc Intelligent data integration system
US9372903B1 (en) 2012-06-05 2016-06-21 Monsanto Technology Llc Data lineage in an intelligent data integration system
US20140129615A1 (en) * 2012-11-05 2014-05-08 Timest Ltd. System for automated data measurement and analysis
US9251133B2 (en) 2012-12-12 2016-02-02 International Business Machines Corporation Approximate named-entity extraction
JP5971115B2 (ja) * 2012-12-26 2016-08-17 富士通株式会社 情報処理プログラム、情報処理方法及び装置
US9336234B2 (en) * 2013-02-22 2016-05-10 Adobe Systems Incorporated Online content management system with undo and redo operations
US9485309B2 (en) * 2013-03-14 2016-11-01 Red Hat, Inc. Optimal fair distribution among buckets of different capacities
US10671629B1 (en) 2013-03-14 2020-06-02 Monsanto Technology Llc Intelligent data integration system with data lineage and visual rendering
US10593003B2 (en) * 2013-03-14 2020-03-17 Securiport Llc Systems, methods and apparatuses for identifying person of interest
US10803102B1 (en) * 2013-04-30 2020-10-13 Walmart Apollo, Llc Methods and systems for comparing customer records
US9767127B2 (en) 2013-05-02 2017-09-19 Outseeker Corp. Method for record linkage from multiple sources
US20130311233A1 (en) * 2013-05-13 2013-11-21 Twenga SA Method for predicting revenue to be generated by a webpage comprising a list of items having common properties
US9792658B1 (en) * 2013-06-27 2017-10-17 EMC IP Holding Company LLC HEALTHBOOK analysis
US9477934B2 (en) 2013-07-16 2016-10-25 Sap Portals Israel Ltd. Enterprise collaboration content governance framework
US10026114B2 (en) * 2014-01-10 2018-07-17 Betterdoctor, Inc. System for clustering and aggregating data from multiple sources
US9852049B2 (en) * 2014-05-27 2017-12-26 International Business Machines Corporation Screenshot validation testing
US10410225B1 (en) * 2014-06-30 2019-09-10 Groupon, Inc. Systems, apparatus, and methods of programmatically determining unique contacts based on crowdsourced error correction
US11593405B2 (en) * 2015-04-21 2023-02-28 International Business Machines Corporation Custodian disambiguation and data matching
US10474724B1 (en) * 2015-09-18 2019-11-12 Mpulse Mobile, Inc. Mobile content attribute recommendation engine
US10585893B2 (en) * 2016-03-30 2020-03-10 International Business Machines Corporation Data processing
EP3446245A1 (en) * 2016-04-19 2019-02-27 Koninklijke Philips N.V. Hospital matching of de-identified healthcare databases without obvious quasi-identifiers
US10452627B2 (en) 2016-06-02 2019-10-22 International Business Machines Corporation Column weight calculation for data deduplication
US10558669B2 (en) 2016-07-22 2020-02-11 National Student Clearinghouse Record matching system
US10671626B2 (en) * 2016-09-27 2020-06-02 Salesforce.Com, Inc. Identity consolidation in heterogeneous data environment
US10621492B2 (en) 2016-10-21 2020-04-14 International Business Machines Corporation Multiple record linkage algorithm selector
US10061939B1 (en) * 2017-03-03 2018-08-28 Microsoft Technology Licensing, Llc Computing confidential data insight histograms and combining with smoothed posterior distribution based histograms
RU2667608C1 (ru) * 2017-08-14 2018-09-21 Иван Александрович Баранов Способ обеспечения целостности данных
US11182394B2 (en) 2017-10-30 2021-11-23 Bank Of America Corporation Performing database file management using statistics maintenance and column similarity
US11341138B2 (en) * 2017-12-06 2022-05-24 International Business Machines Corporation Method and system for query performance prediction
CN108491460A (zh) * 2018-03-05 2018-09-04 北京市肿瘤防治研究所 个人身份信息匹配方法、装置、存储介质及计算机设备
US11556710B2 (en) * 2018-05-11 2023-01-17 International Business Machines Corporation Processing entity groups to generate analytics
US10936665B2 (en) 2018-08-09 2021-03-02 Sap Se Graphical match policy for identifying duplicative data
US11036479B2 (en) * 2018-08-27 2021-06-15 Georgia Tech Research Corporation Devices, systems, and methods of program identification, isolation, and profile attachment
US10901979B2 (en) * 2018-08-29 2021-01-26 International Business Machines Corporation Generating responses to queries based on selected value assignments
US11157528B2 (en) 2019-04-17 2021-10-26 International Business Machines Corporation Dependency-driven workflow management
US11256770B2 (en) * 2019-05-01 2022-02-22 Go Daddy Operating Company, LLC Data-driven online business name generator
US11397715B2 (en) 2019-07-31 2022-07-26 International Business Machines Corporation Defining indexing fields for matching data entities
US11663275B2 (en) 2019-08-05 2023-05-30 International Business Machines Corporation Method for dynamic data blocking in a database system
US11409772B2 (en) 2019-08-05 2022-08-09 International Business Machines Corporation Active learning for data matching
US11687828B2 (en) 2019-10-11 2023-06-27 International Business Machines Corporation Auto-tuning of comparison functions
US20220035777A1 (en) * 2020-07-29 2022-02-03 International Business Machines Corporation Pair selection for entity resolution analysis
US20220374401A1 (en) * 2021-05-18 2022-11-24 International Business Machines Corporation Determining domain and matching algorithms for data systems
US11860909B2 (en) 2021-08-23 2024-01-02 U.S. Bancorp, National Association Entity household generation based on attribute-pair matching
US20230418877A1 (en) * 2022-06-24 2023-12-28 International Business Machines Corporation Dynamic Threshold-Based Records Linking

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000348042A (ja) * 1999-06-03 2000-12-15 Fujitsu Ltd 統合シソーラス作成装置、修正シソーラス作成装置、情報収集型シソーラス作成装置、統合シソーラス作成プログラム記憶媒体、修正シソーラス作成プログラム記憶媒体、および情報収集型シソーラス作成プログラム記憶媒体
JP2001236358A (ja) * 2000-02-23 2001-08-31 Ricoh Co Ltd 文書検索方法および装置
JP2005063332A (ja) * 2003-08-19 2005-03-10 Fujitsu Ltd 情報体系対応付け装置および対応付け方法。
JP2006163941A (ja) * 2004-12-08 2006-06-22 Nec Corp 重複レコード検出システム、および重複レコード検出プログラム
JP2006277413A (ja) * 2005-03-29 2006-10-12 Toshiba Corp 文書分類装置および文書分類方法

Family Cites Families (248)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3568155A (en) * 1967-04-10 1971-03-02 Ibm Method of storing and retrieving records
US4531186A (en) 1983-01-21 1985-07-23 International Business Machines Corporation User friendly data base access
US5020019A (en) 1989-05-29 1991-05-28 Ricoh Company, Ltd. Document retrieval system
JPH03129472A (ja) 1989-07-31 1991-06-03 Ricoh Co Ltd 文書検索装置における処理方法
US5134564A (en) 1989-10-19 1992-07-28 Dunn Eric C W Computer aided reconfiliation method and apparatus
AU631276B2 (en) 1989-12-22 1992-11-19 Bull Hn Information Systems Inc. Name resolution in a directory database
US5321833A (en) 1990-08-29 1994-06-14 Gte Laboratories Incorporated Adaptive ranking system for information retrieval
JPH04111121A (ja) * 1990-08-31 1992-04-13 Fujitsu Ltd 分野別辞書生成装置、機械翻訳装置、及びそれら装置を用いた機械翻訳システム
US5247437A (en) 1990-10-01 1993-09-21 Xerox Corporation Method of managing index entries during creation revision and assembly of documents
US5555409A (en) 1990-12-04 1996-09-10 Applied Technical Sysytem, Inc. Data management systems and methods including creation of composite views of data
US5455903A (en) * 1991-05-31 1995-10-03 Edify Corp. Object oriented customer information exchange system and method
US5381332A (en) * 1991-12-09 1995-01-10 Motorola, Inc. Project management system with automated schedule and cost integration
FR2688611A1 (fr) * 1992-03-12 1993-09-17 Bull Sa Utilisation d'un langage dont le typage porte sur le contenu des variables et permettant de manipuler des constructions complexes.
US5535322A (en) 1992-10-27 1996-07-09 International Business Machines Corporation Data processing system with improved work flow system and method
US5774887A (en) * 1992-11-18 1998-06-30 U S West Advanced Technologies, Inc. Customer service electronic form generating system
US5721850A (en) * 1993-01-15 1998-02-24 Quotron Systems, Inc. Method and means for navigating user interfaces which support a plurality of executing applications
US6496793B1 (en) 1993-04-21 2002-12-17 Borland Software Corporation System and methods for national language support with embedded locale-specific language driver identifiers
US5615367A (en) * 1993-05-25 1997-03-25 Borland International, Inc. System and methods including automatic linking of tables for improved relational database modeling with interface
US5537590A (en) 1993-08-05 1996-07-16 Amado; Armando Apparatus for applying analysis rules to data sets in a relational database to generate a database of diagnostic records linked to the data sets
US5442782A (en) 1993-08-13 1995-08-15 Peoplesoft, Inc. Providing information from a multilingual database of language-independent and language-dependent items
US5606690A (en) 1993-08-20 1997-02-25 Canon Inc. Non-literal textual search using fuzzy finite non-deterministic automata
DE69424902T2 (de) 1993-08-20 2000-11-09 Canon Kk Gerät und Verfahren zur anpassungsfähigen nicht-buchstäblichen Textsuche
US5583763A (en) 1993-09-09 1996-12-10 Mni Interactive Method and apparatus for recommending selections based on preferences in a multi-user system
US5487141A (en) 1994-01-21 1996-01-23 Borland International, Inc. Development system with methods for visual inheritance and improved object reusability
US5862322A (en) * 1994-03-14 1999-01-19 Dun & Bradstreet Software Services, Inc. Method and apparatus for facilitating customer service communications in a computing environment
US5848271A (en) 1994-03-14 1998-12-08 Dun & Bradstreet Software Services, Inc. Process and apparatus for controlling the work flow in a multi-user computing system
US5497486A (en) * 1994-03-15 1996-03-05 Salvatore J. Stolfo Method of merging large databases in parallel
US5561794A (en) 1994-04-28 1996-10-01 The United States Of America As Represented By The Secretary Of The Navy Early commit optimistic projection-based computer database protocol
US5704018A (en) * 1994-05-09 1997-12-30 Microsoft Corporation Generating improved belief networks
US5710916A (en) * 1994-05-24 1998-01-20 Panasonic Technologies, Inc. Method and apparatus for similarity matching of handwritten data objects
US5675752A (en) 1994-09-15 1997-10-07 Sony Corporation Interactive applications generator for an interactive presentation environment
US5694593A (en) 1994-10-05 1997-12-02 Northeastern University Distributed computer database system and method
US5694594A (en) 1994-11-14 1997-12-02 Chang; Daniel System for linking hypermedia data objects in accordance with associations of source and destination data objects and similarity threshold without using keywords or link-difining terms
US5819264A (en) 1995-04-03 1998-10-06 Dtl Data Technologies Ltd. Associative search method with navigation for heterogeneous databases including an integration mechanism configured to combine schema-free data models such as a hyperbase
US5774661A (en) * 1995-04-18 1998-06-30 Network Imaging Corporation Rule engine interface for a visual workflow builder
US5675753A (en) 1995-04-24 1997-10-07 U.S. West Technologies, Inc. Method and system for presenting an electronic user-interface specification
US5774883A (en) * 1995-05-25 1998-06-30 Andersen; Lloyd R. Method for selecting a seller's most profitable financing program
US5790173A (en) 1995-07-20 1998-08-04 Bell Atlantic Network Services, Inc. Advanced intelligent network having digital entertainment terminal or the like interacting with integrated service control point
US5778370A (en) 1995-08-25 1998-07-07 Emerson; Mark L. Data village system
US5640553A (en) 1995-09-15 1997-06-17 Infonautics Corporation Relevance normalization for documents retrieved from an information retrieval system in response to a query
US5805702A (en) 1995-09-29 1998-09-08 Dallas Semiconductor Corporation Method, apparatus, and system for transferring units of value
US5809499A (en) 1995-10-20 1998-09-15 Pattern Discovery Software Systems, Ltd. Computational method for discovering patterns in data sets
US5893074A (en) * 1996-01-29 1999-04-06 California Institute Of Technology Network based task management
US5930768A (en) 1996-02-06 1999-07-27 Supersonic Boom, Inc. Method and system for remote user controlled manufacturing
US5963915A (en) 1996-02-21 1999-10-05 Infoseek Corporation Secure, convenient and efficient system and method of performing trans-internet purchase transactions
US5862325A (en) * 1996-02-29 1999-01-19 Intermind Corporation Computer-based communication system and method using metadata defining a control structure
US5835712A (en) 1996-05-03 1998-11-10 Webmate Technologies, Inc. Client-server system using embedded hypertext tags for application and database development
US5878043A (en) 1996-05-09 1999-03-02 Northern Telecom Limited ATM LAN emulation
US5859972A (en) * 1996-05-10 1999-01-12 The Board Of Trustees Of The University Of Illinois Multiple server repository and multiple server remote application virtual client computer
US5905496A (en) * 1996-07-03 1999-05-18 Sun Microsystems, Inc. Workflow product navigation system
US5765150A (en) * 1996-08-09 1998-06-09 Digital Equipment Corporation Method for statistically projecting the ranking of information
US5893110A (en) * 1996-08-16 1999-04-06 Silicon Graphics, Inc. Browser driven user interface to a media asset database
US6049847A (en) * 1996-09-16 2000-04-11 Corollary, Inc. System and method for maintaining memory coherency in a computer system having multiple system buses
US5787470A (en) 1996-10-18 1998-07-28 At&T Corp Inter-cache protocol for improved WEB performance
US5796393A (en) 1996-11-08 1998-08-18 Compuserve Incorporated System for intergrating an on-line service community with a foreign service
US5787431A (en) 1996-12-16 1998-07-28 Borland International, Inc. Database development system with methods for java-string reference lookups of column names
US5835912A (en) 1997-03-13 1998-11-10 The United States Of America As Represented By The National Security Agency Method of efficiency and flexibility storing, retrieving, and modifying data in any language representation
US6026433A (en) * 1997-03-17 2000-02-15 Silicon Graphics, Inc. Method of creating and editing a web site in a client-server environment using customizable web site templates
US6385600B1 (en) * 1997-04-03 2002-05-07 At&T Corp. System and method for searching on a computer using an evidence set
US5987422A (en) 1997-05-29 1999-11-16 Oracle Corporation Method for executing a procedure that requires input from a role
US5991758A (en) * 1997-06-06 1999-11-23 Madison Information Technologies, Inc. System and method for indexing information about entities from different information sources
US5999937A (en) 1997-06-06 1999-12-07 Madison Information Technologies, Inc. System and method for converting data between data sets
CN1135857C (zh) 1997-06-16 2004-01-21 艾利森电话股份有限公司 电信性能管理系统
US6014664A (en) 1997-08-29 2000-01-11 International Business Machines Corporation Method and apparatus for incorporating weights into data combinational rules
US5960411A (en) 1997-09-12 1999-09-28 Amazon.Com, Inc. Method and system for placing a purchase order via a communications network
US6018733A (en) * 1997-09-12 2000-01-25 Infoseek Corporation Methods for iteratively and interactively performing collection selection in full text searches
US6621505B1 (en) 1997-09-30 2003-09-16 Journee Software Corp. Dynamic process-based enterprise computing system and method
US6134581A (en) 1997-10-06 2000-10-17 Sun Microsystems, Inc. Method and system for remotely browsing objects
US6356931B2 (en) * 1997-10-06 2002-03-12 Sun Microsystems, Inc. Method and system for remotely browsing objects
US6108004A (en) 1997-10-21 2000-08-22 International Business Machines Corporation GUI guide for data mining
US6327611B1 (en) 1997-11-12 2001-12-04 Netscape Communications Corporation Electronic document routing system
US6223145B1 (en) * 1997-11-26 2001-04-24 Zerox Corporation Interactive interface for specifying searches
US6297824B1 (en) 1997-11-26 2001-10-02 Xerox Corporation Interactive interface for viewing retrieval results
US6807537B1 (en) 1997-12-04 2004-10-19 Microsoft Corporation Mixtures of Bayesian networks
US6016489A (en) * 1997-12-18 2000-01-18 Sun Microsystems, Inc. Method and apparatus for constructing stable iterators in a shared data collection
US6963871B1 (en) * 1998-03-25 2005-11-08 Language Analysis Systems, Inc. System and method for adaptive multi-cultural searching and matching of personal names
US6185608B1 (en) * 1998-06-12 2001-02-06 International Business Machines Corporation Caching dynamic web pages
US6742003B2 (en) 2001-04-30 2004-05-25 Microsoft Corporation Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications
US6018742A (en) * 1998-07-07 2000-01-25 Perigis Corporation Constructing a bifurcated database of context-dependent and context-independent data items
US6470436B1 (en) 1998-12-01 2002-10-22 Fast-Chip, Inc. Eliminating memory fragmentation and garbage collection from the process of managing dynamically allocated memory
US6067549A (en) * 1998-12-11 2000-05-23 American Management Systems, Inc. System for managing regulated entities
US6298478B1 (en) 1998-12-31 2001-10-02 International Business Machines Corporation Technique for managing enterprise JavaBeans (™) which are the target of multiple concurrent and/or nested transactions
US6457065B1 (en) 1999-01-05 2002-09-24 International Business Machines Corporation Transaction-scoped replication for distributed object systems
US6311190B1 (en) 1999-02-02 2001-10-30 Harris Interactive Inc. System for conducting surveys in different languages over a network with survey voter registration
US6269373B1 (en) 1999-02-26 2001-07-31 International Business Machines Corporation Method and system for persisting beans as container-managed fields
US6460045B1 (en) * 1999-03-15 2002-10-01 Microsoft Corporation Self-tuning histogram and database modeling
US6374241B1 (en) * 1999-03-31 2002-04-16 Verizon Laboratories Inc. Data merging techniques
US7181459B2 (en) * 1999-05-04 2007-02-20 Iconfind, Inc. Method of coding, categorizing, and retrieving network pages and sites
US6662180B1 (en) 1999-05-12 2003-12-09 Matsushita Electric Industrial Co., Ltd. Method for searching in large databases of automatically recognized text
US6957186B1 (en) 1999-05-27 2005-10-18 Accenture Llp System method and article of manufacture for building, managing, and supporting various components of a system
US6330569B1 (en) 1999-06-30 2001-12-11 Unisys Corp. Method for versioning a UML model in a repository in accordance with an updated XML representation of the UML model
US6389429B1 (en) * 1999-07-30 2002-05-14 Aprimo, Inc. System and method for generating a target database from one or more source databases
US6633878B1 (en) 1999-07-30 2003-10-14 Accenture Llp Initializing an ecommerce database framework
US6718535B1 (en) 1999-07-30 2004-04-06 Accenture Llp System, method and article of manufacture for an activity framework design in an e-commerce based environment
US6529892B1 (en) 1999-08-04 2003-03-04 Illinois, University Of Apparatus, method and product for multi-attribute drug comparison
US6842906B1 (en) 1999-08-31 2005-01-11 Accenture Llp System and method for a refreshable proxy pool in a communication services patterns environment
US6523019B1 (en) * 1999-09-21 2003-02-18 Choicemaker Technologies, Inc. Probabilistic record linkage model derived from training data
US6557100B1 (en) * 1999-10-21 2003-04-29 International Business Machines Corporation Fastpath redeployment of EJBs
US20020007284A1 (en) 1999-12-01 2002-01-17 Schurenberg Kurt B. System and method for implementing a global master patient index
US6502099B1 (en) 1999-12-16 2002-12-31 International Business Machines Corporation Method and system for extending the functionality of an application
US6633992B1 (en) 1999-12-30 2003-10-14 Intel Corporation Generalized pre-charge clock circuit for pulsed domino gates
US20040220926A1 (en) 2000-01-03 2004-11-04 Interactual Technologies, Inc., A California Cpr[P Personalization services for entities from multiple sources
US6556983B1 (en) * 2000-01-12 2003-04-29 Microsoft Corporation Methods and apparatus for finding semantic information, such as usage logs, similar to a query using a pattern lattice data space
AU2001228201A1 (en) 2000-02-10 2001-08-20 Dwl Incorporated Work-flow system for web-based applications
US7330845B2 (en) * 2000-02-17 2008-02-12 International Business Machines Corporation System, method and program product for providing navigational information for facilitating navigation and user socialization at web sites
US6449620B1 (en) 2000-03-02 2002-09-10 Nimble Technology, Inc. Method and apparatus for generating information pages using semi-structured data stored in a structured manner
US6757708B1 (en) * 2000-03-03 2004-06-29 International Business Machines Corporation Caching dynamic content
US6879944B1 (en) * 2000-03-07 2005-04-12 Microsoft Corporation Variational relevance vector machine
WO2001075679A1 (en) 2000-04-04 2001-10-11 Metamatrix, Inc. A system and method for accessing data in disparate information sources
US6704805B1 (en) * 2000-04-13 2004-03-09 International Business Machines Corporation EJB adaption of MQ integration in componetbroker
AU6263101A (en) 2000-05-26 2001-12-03 Tzunami Inc. Method and system for organizing objects according to information categories
US6633882B1 (en) 2000-06-29 2003-10-14 Microsoft Corporation Multi-dimensional database record compression utilizing optimized cluster models
US20020178360A1 (en) 2001-02-25 2002-11-28 Storymail, Inc. System and method for communicating a secure unidirectional response message
US6647383B1 (en) 2000-09-01 2003-11-11 Lucent Technologies Inc. System and method for providing interactive dialogue and iterative search functions to find information
US20020080187A1 (en) * 2000-10-02 2002-06-27 Lawton Scott S. Enhanced method and system for category selection
US7287089B1 (en) * 2000-10-25 2007-10-23 Thomson Financial Inc. Electronic commerce infrastructure system
US6842761B2 (en) * 2000-11-21 2005-01-11 America Online, Inc. Full-text relevancy ranking
EP1211610A1 (en) 2000-11-29 2002-06-05 Lafayette Software Inc. Methods of organising data and processing queries in a database system
US20020073099A1 (en) * 2000-12-08 2002-06-13 Gilbert Eric S. De-identification and linkage of data records
US7406443B1 (en) 2000-12-18 2008-07-29 Powerloom Method and system for multi-dimensional trading
US7685224B2 (en) 2001-01-11 2010-03-23 Truelocal Inc. Method for providing an attribute bounded network of computers
US7487182B2 (en) 2001-01-23 2009-02-03 Conformia Software, Inc. Systems and methods for managing the development and manufacturing of a drug
SE520533C2 (sv) 2001-03-13 2003-07-22 Picsearch Ab Metod, datorprogram och system för indexering av digitaliserade enheter
US6877111B2 (en) 2001-03-26 2005-04-05 Sun Microsystems, Inc. Method and apparatus for managing replicated and migration capable session state for a Java platform
US20030105825A1 (en) * 2001-05-01 2003-06-05 Profluent, Inc. Method and system for policy based management of messages for mobile data networks
US7089193B2 (en) 2001-05-09 2006-08-08 Prochain Solutions, Inc. Multiple project scheduling system
US6510505B1 (en) * 2001-05-09 2003-01-21 International Business Machines Corporation System and method for allocating storage space using bit-parallel search of bitmap
US7865427B2 (en) 2001-05-30 2011-01-04 Cybersource Corporation Method and apparatus for evaluating fraud risk in an electronic commerce transaction
US7007039B2 (en) * 2001-06-14 2006-02-28 Microsoft Corporation Method of building multidimensional workload-aware histograms
US6687702B2 (en) * 2001-06-15 2004-02-03 Sybass, Inc. Methodology providing high-speed shared memory access between database middle tier and database server
US7069536B2 (en) * 2001-06-28 2006-06-27 International Business Machines Corporation Method, system, and program for executing a workflow
US7100147B2 (en) * 2001-06-28 2006-08-29 International Business Machines Corporation Method, system, and program for generating a workflow
US7047535B2 (en) * 2001-07-30 2006-05-16 International Business Machines Corporation Method, system, and program for performing workflow related operations using an application programming interface
US20050015381A1 (en) * 2001-09-04 2005-01-20 Clifford Paul Ian Database management system
US6912549B2 (en) * 2001-09-05 2005-06-28 Siemens Medical Solutions Health Services Corporation System for processing and consolidating records
US6996565B2 (en) * 2001-09-06 2006-02-07 Initiate Systems, Inc. System and method for dynamically mapping dynamic multi-sourced persisted EJBs
US7249131B2 (en) * 2001-09-06 2007-07-24 Initiate Systems, Inc. System and method for dynamically caching dynamic multi-sourced persisted EJBs
US6922695B2 (en) * 2001-09-06 2005-07-26 Initiate Systems, Inc. System and method for dynamically securing dynamic-multi-sourced persisted EJBS
US7035809B2 (en) * 2001-12-07 2006-04-25 Accenture Global Services Gmbh Accelerated process improvement framework
US6907422B1 (en) * 2001-12-18 2005-06-14 Siebel Systems, Inc. Method and system for access and display of data from large data sets
US20030120630A1 (en) * 2001-12-20 2003-06-26 Daniel Tunkelang Method and system for similarity search and clustering
US20030149631A1 (en) * 2001-12-27 2003-08-07 Manugistics, Inc. System and method for order planning with attribute based planning
EP1481346B1 (en) 2002-02-04 2012-10-10 Cataphora, Inc. A method and apparatus to visually present discussions for data mining purposes
US6829606B2 (en) * 2002-02-14 2004-12-07 Infoglide Software Corporation Similarity search engine for use with relational databases
US7031969B2 (en) 2002-02-20 2006-04-18 Lawrence Technologies, Llc System and method for identifying relationships between database records
US20030174179A1 (en) 2002-03-12 2003-09-18 Suermondt Henri Jacques Tool for visualizing data patterns of a hierarchical classification structure
US6970882B2 (en) 2002-04-04 2005-11-29 International Business Machines Corporation Unified relational database model for data mining selected model scoring results, model training results where selection is based on metadata included in mining model control table
US7287026B2 (en) 2002-04-05 2007-10-23 Oommen John B Method of comparing the closeness of a target tree to other trees using noisy sub-sequence tree processing
US7149730B2 (en) * 2002-05-03 2006-12-12 Ward Mullins Dynamic class inheritance and distributed caching with object relational mapping and cartesian model support in a database manipulation and mapping system
US20030220858A1 (en) 2002-05-24 2003-11-27 Duc Lam Method and system for collaborative vendor reconciliation
US7231395B2 (en) 2002-05-24 2007-06-12 Overture Services, Inc. Method and apparatus for categorizing and presenting documents of a distributed database
US20030227487A1 (en) 2002-06-01 2003-12-11 Hugh Harlan M. Method and apparatus for creating and accessing associative data structures under a shared model of categories, rules, triggers and data relationship permissions
US20040006500A1 (en) 2002-07-08 2004-01-08 Diego Guicciardi Method and apparatus for solution design, implementation, and support
US20040143477A1 (en) 2002-07-08 2004-07-22 Wolff Maryann Walsh Apparatus and methods for assisting with development management and/or deployment of products and services
US6795793B2 (en) 2002-07-19 2004-09-21 Med-Ed Innovations, Inc. Method and apparatus for evaluating data and implementing training based on the evaluation of the data
AU2002332912A1 (en) 2002-09-04 2004-03-29 Journee Software Corporation System and method for dynamically mapping dynamic multi-sourced persisted ejbs
WO2004023311A1 (en) 2002-09-05 2004-03-18 Journee Software Corporation System and method for dynamically caching dynamic multi-sourced persisted ejbs
AU2002332913A1 (en) 2002-09-05 2004-03-29 Journee Software Corporation System and method for dynamically securing dynamic multi-sourced persisted ejbs
US7043476B2 (en) * 2002-10-11 2006-05-09 International Business Machines Corporation Method and apparatus for data mining to discover associations and covariances associated with data
US7155427B1 (en) 2002-10-30 2006-12-26 Oracle International Corporation Configurable search tool for finding and scoring non-exact matches in a relational database
US20040107205A1 (en) * 2002-12-03 2004-06-03 Lockheed Martin Corporation Boolean rule-based system for clustering similar records
US20040107189A1 (en) * 2002-12-03 2004-06-03 Lockheed Martin Corporation System for identifying similarities in record fields
US7490085B2 (en) * 2002-12-18 2009-02-10 Ge Medical Systems Global Technology Company, Llc Computer-assisted data processing system and method incorporating automated learning
US8280894B2 (en) 2003-01-22 2012-10-02 Amazon Technologies, Inc. Method and system for maintaining item authority
US20040181526A1 (en) 2003-03-11 2004-09-16 Lockheed Martin Corporation Robust system for interactively learning a record similarity measurement
US7487173B2 (en) * 2003-05-22 2009-02-03 International Business Machines Corporation Self-generation of a data warehouse from an enterprise data model of an EAI/BPI infrastructure
US7296011B2 (en) 2003-06-20 2007-11-13 Microsoft Corporation Efficient fuzzy match for evaluating data records
US20070168135A1 (en) * 2003-06-25 2007-07-19 Pankaj Agarwal Biological data set comparison method
US7596778B2 (en) * 2003-07-03 2009-09-29 Parasoft Corporation Method and system for automatic error prevention for computer software
US20050228808A1 (en) 2003-08-27 2005-10-13 Ascential Software Corporation Real time data integration services for health care information data integration
US7739223B2 (en) * 2003-08-29 2010-06-15 Microsoft Corporation Mapping architecture for arbitrary data models
CA2655731C (en) * 2003-09-15 2012-04-10 Ab Initio Software Corporation Functional dependency data profiling
US20050060286A1 (en) * 2003-09-15 2005-03-17 Microsoft Corporation Free text search within a relational database
US8825502B2 (en) * 2003-09-30 2014-09-02 Epic Systems Corporation System and method for providing patient record synchronization in a healthcare setting
US7685016B2 (en) * 2003-10-07 2010-03-23 International Business Machines Corporation Method and system for analyzing relationships between persons
US7249129B2 (en) 2003-12-29 2007-07-24 The Generations Network, Inc. Correlating genealogy records systems and methods
US7324998B2 (en) 2004-03-18 2008-01-29 Zd Acquisition, Llc Document search methods and systems
US9189568B2 (en) 2004-04-23 2015-11-17 Ebay Inc. Method and system to display and search in a language independent manner
CA2564307C (en) 2004-05-05 2015-04-28 Ims Health Incorporated Data record matching algorithms for longitudinal patient level databases
WO2005114381A2 (en) 2004-05-14 2005-12-01 Gt Software, Inc. Systems and methods for web service function, definition implementation and/or execution
US20050273452A1 (en) 2004-06-04 2005-12-08 Microsoft Corporation Matching database records
US7788274B1 (en) 2004-06-30 2010-08-31 Google Inc. Systems and methods for category-based search
US7567962B2 (en) 2004-08-13 2009-07-28 Microsoft Corporation Generating a labeled hierarchy of mutually disjoint categories from a set of query results
US7970639B2 (en) 2004-08-20 2011-06-28 Mark A Vucina Project management systems and methods
US20060044307A1 (en) 2004-08-24 2006-03-02 Kyuman Song System and method for visually representing project metrics on 3-dimensional building models
US8615731B2 (en) 2004-08-25 2013-12-24 Mohit Doshi System and method for automating the development of web services that incorporate business rules
US7496593B2 (en) 2004-09-03 2009-02-24 Biowisdom Limited Creating a multi-relational ontology having a predetermined structure
US20060053172A1 (en) * 2004-09-03 2006-03-09 Biowisdom Limited System and method for creating, editing, and using multi-relational ontologies
US20060053173A1 (en) * 2004-09-03 2006-03-09 Biowisdom Limited System and method for support of chemical data within multi-relational ontologies
US20060053382A1 (en) * 2004-09-03 2006-03-09 Biowisdom Limited System and method for facilitating user interaction with multi-relational ontologies
US20060074832A1 (en) 2004-09-03 2006-04-06 Biowisdom Limited System and method for utilizing an upper ontology in the creation of one or more multi-relational ontologies
US20060074836A1 (en) 2004-09-03 2006-04-06 Biowisdom Limited System and method for graphically displaying ontology data
US20060064429A1 (en) * 2004-09-18 2006-03-23 Chi Yao Method and apparatus for providing assets reports categorized by attribute
US8892571B2 (en) * 2004-10-12 2014-11-18 International Business Machines Corporation Systems for associating records in healthcare database with individuals
US20060179050A1 (en) 2004-10-22 2006-08-10 Giang Phan H Probabilistic model for record linkage
US7844956B2 (en) 2004-11-24 2010-11-30 Rojer Alan S Object-oriented processing of markup
US7539668B2 (en) * 2004-11-30 2009-05-26 International Business Machines Corporation System and method for sorting data records contained in a query result based on suitability score
US20060116983A1 (en) * 2004-11-30 2006-06-01 International Business Machines Corporation System and method for ordering query results
WO2006062868A2 (en) 2004-12-06 2006-06-15 Yahoo! Inc. Systems and methods for managing and using multiple concept networks for assisted search processing
US7509259B2 (en) 2004-12-21 2009-03-24 Motorola, Inc. Method of refining statistical pattern recognition models and statistical pattern recognizers
US7672971B2 (en) * 2006-02-17 2010-03-02 Google Inc. Modular architecture for entity normalization
US7689555B2 (en) 2005-01-14 2010-03-30 International Business Machines Corporation Context insensitive model entity searching
US20070073678A1 (en) 2005-09-23 2007-03-29 Applied Linguistics, Llc Semantic document profiling
US7739687B2 (en) 2005-02-28 2010-06-15 International Business Machines Corporation Application of attribute-set policies to managed resources in a distributed computing system
US20060195460A1 (en) 2005-02-28 2006-08-31 Microsoft Corporation Data model for object-relational data
US8095386B2 (en) 2005-05-03 2012-01-10 Medicity, Inc. System and method for using and maintaining a master matching index
US20060271549A1 (en) 2005-05-27 2006-11-30 Rayback Geoffrey P Method and apparatus for central master indexing
US20060287890A1 (en) 2005-06-15 2006-12-21 Vanderbilt University Method and apparatus for organizing and integrating structured and non-structured data across heterogeneous systems
US20070016450A1 (en) * 2005-07-14 2007-01-18 Krora, Llc Global health information system
US7672833B2 (en) * 2005-09-22 2010-03-02 Fair Isaac Corporation Method and apparatus for automatic entity disambiguation
US20070073745A1 (en) 2005-09-23 2007-03-29 Applied Linguistics, Llc Similarity metric for semantic profiling
WO2007048229A1 (en) * 2005-10-25 2007-05-03 Angoss Software Corporation Strategy trees for data mining
US20070150279A1 (en) 2005-12-27 2007-06-28 Oracle International Corporation Word matching with context sensitive character to sound correlating
US20070214179A1 (en) 2006-03-10 2007-09-13 Khanh Hoang Searching, filtering, creating, displaying, and managing entity relationships across multiple data hierarchies through a user interface
US8260785B2 (en) 2006-02-17 2012-09-04 Google Inc. Automatic object reference identification and linking in a browseable fact repository
US8700568B2 (en) 2006-02-17 2014-04-15 Google Inc. Entity normalization via name normalization
US7558737B2 (en) 2006-02-28 2009-07-07 Sap Ag Entity validation framework
US20070214129A1 (en) 2006-03-01 2007-09-13 Oracle International Corporation Flexible Authorization Model for Secure Search
US20070260492A1 (en) 2006-03-09 2007-11-08 Microsoft Corporation Master patient index
US7949186B2 (en) 2006-03-15 2011-05-24 Massachusetts Institute Of Technology Pyramid match kernel and related techniques
US7974984B2 (en) 2006-04-19 2011-07-05 Mobile Content Networks, Inc. Method and system for managing single and multiple taxonomies
US7542973B2 (en) 2006-05-01 2009-06-02 Sap, Aktiengesellschaft System and method for performing configurable matching of similar data in a data repository
US7526486B2 (en) * 2006-05-22 2009-04-28 Initiate Systems, Inc. Method and system for indexing information about entities with respect to hierarchies
AU2007254820B2 (en) 2006-06-02 2012-04-05 International Business Machines Corporation Automatic weight generation for probabilistic matching
US7548906B2 (en) * 2006-06-23 2009-06-16 Microsoft Corporation Bucket-based searching
US7792967B2 (en) * 2006-07-14 2010-09-07 Chacha Search, Inc. Method and system for sharing and accessing resources
US8010396B2 (en) 2006-08-10 2011-08-30 International Business Machines Corporation Method and system for validating tasks
JP4405500B2 (ja) * 2006-12-08 2010-01-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 傾向分析システムの評価方法および装置
US8356009B2 (en) * 2006-09-15 2013-01-15 International Business Machines Corporation Implementation defined segments for relational database systems
US7698268B1 (en) * 2006-09-15 2010-04-13 Initiate Systems, Inc. Method and system for filtering false positives
US7685093B1 (en) 2006-09-15 2010-03-23 Initiate Systems, Inc. Method and system for comparing attributes such as business names
US7620647B2 (en) 2006-09-15 2009-11-17 Initiate Systems, Inc. Hierarchy global management system and user interface
US7627550B1 (en) 2006-09-15 2009-12-01 Initiate Systems, Inc. Method and system for comparing attributes such as personal names
US8359339B2 (en) * 2007-02-05 2013-01-22 International Business Machines Corporation Graphical user interface for configuration of an algorithm for the matching of data records
US20080201713A1 (en) 2007-02-16 2008-08-21 Pivotal Labs, Inc. Project Management System
US8515926B2 (en) * 2007-03-22 2013-08-20 International Business Machines Corporation Processing related data from information sources
US8423514B2 (en) * 2007-03-29 2013-04-16 International Business Machines Corporation Service provisioning
WO2008121824A1 (en) 2007-03-29 2008-10-09 Initiate Systems, Inc. Method and system for data exchange among data sources
WO2008121170A1 (en) 2007-03-29 2008-10-09 Initiate Systems, Inc. Method and system for parsing languages
WO2008121700A1 (en) 2007-03-29 2008-10-09 Initiate Systems, Inc. Method and system for managing entities
US20080276221A1 (en) 2007-05-02 2008-11-06 Sap Ag. Method and apparatus for relations planning and validation
US20110010214A1 (en) * 2007-06-29 2011-01-13 Carruth J Scott Method and system for project management
US8713434B2 (en) 2007-09-28 2014-04-29 International Business Machines Corporation Indexing, relating and managing information about entities
WO2009042931A1 (en) 2007-09-28 2009-04-02 Initiate Systems, Inc. Method and system for associating data records in multiple languages
CN101878461B (zh) 2007-09-28 2014-03-12 国际商业机器公司 分析用于匹配数据记录的系统的方法和系统
US9058380B2 (en) 2012-02-06 2015-06-16 Fis Financial Compliance Solutions, Llc Methods and systems for list filtering based on known entity matching
US20140280274A1 (en) 2013-03-15 2014-09-18 Teradata Us, Inc. Probabilistic record linking
US9805081B2 (en) 2014-03-10 2017-10-31 Zephyr Health, Inc. Record linkage algorithm for multi-structured data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000348042A (ja) * 1999-06-03 2000-12-15 Fujitsu Ltd 統合シソーラス作成装置、修正シソーラス作成装置、情報収集型シソーラス作成装置、統合シソーラス作成プログラム記憶媒体、修正シソーラス作成プログラム記憶媒体、および情報収集型シソーラス作成プログラム記憶媒体
JP2001236358A (ja) * 2000-02-23 2001-08-31 Ricoh Co Ltd 文書検索方法および装置
JP2005063332A (ja) * 2003-08-19 2005-03-10 Fujitsu Ltd 情報体系対応付け装置および対応付け方法。
JP2006163941A (ja) * 2004-12-08 2006-06-22 Nec Corp 重複レコード検出システム、および重複レコード検出プログラム
JP2006277413A (ja) * 2005-03-29 2006-10-12 Toshiba Corp 文書分類装置および文書分類方法

Also Published As

Publication number Publication date
BRPI0817507B1 (pt) 2021-03-23
CA2701046A1 (en) 2009-04-02
US20140281729A1 (en) 2014-09-18
CN101878461B (zh) 2014-03-12
EP2193415A4 (en) 2013-08-28
CA2701046C (en) 2016-07-19
AU2008304265A1 (en) 2009-04-02
WO2009042941A1 (en) 2009-04-02
CN101878461A (zh) 2010-11-03
BRPI0817507A2 (pt) 2015-09-29
AU2008304265B2 (en) 2013-03-14
US10698755B2 (en) 2020-06-30
JP5306360B2 (ja) 2013-10-02
EP2193415A1 (en) 2010-06-09
US20090089630A1 (en) 2009-04-02
US8799282B2 (en) 2014-08-05

Similar Documents

Publication Publication Date Title
JP5306360B2 (ja) データ記録を一致させるシステムの分析のための方法およびシステム
US8296311B2 (en) Solution search for software support
US9031873B2 (en) Methods and apparatus for analysing and/or pre-processing financial accounting data
US8176002B2 (en) Method and system for user alteration of the configuration of a data warehouse
US7725501B1 (en) System and method for rapid database application deployment and use
US8645332B1 (en) Systems and methods for capturing data refinement actions based on visualized search of information
US11341116B2 (en) Techniques for automated data analysis
AU2013202010B2 (en) Data selection and identification
US9495282B2 (en) Method and systems for a dashboard testing framework in an online demand service environment
CN107077413A (zh) 数据驱动的测试框架
US11947567B2 (en) System and method for computing and managing datasets using hierarchical analytics
US7827153B2 (en) System and method to perform bulk operation database cleanup
US7685146B2 (en) Apparatus and method for a collaborative semantic domain and data set based on combining data
EP2019362A2 (en) Spatial data validation systems
US20100070893A1 (en) Data quality administration framework
Dakrory et al. Automated ETL testing on the data quality of a data warehouse
US20080208528A1 (en) Apparatus and method for quantitatively measuring the balance within a balanced scorecard
US20100306199A1 (en) User-defined hierarchical categorization system and method for generating operational metrics
US20210200833A1 (en) Health diagnostics and analytics for object repositories
KR20210036613A (ko) 데이터 표준화 관리 시스템
WO2005124586A1 (en) Database interactions and applications
Wolff Design and implementation of a workflow for quality improvement of the metadata of scientific publications
Cotik et al. A Swiss army knife approach to DQ assessments

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20101102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20101102

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110817

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130501

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130501

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20130501

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130502

TRDD Decision of grant or rejection written
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130607

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20130607

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130625

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5306360

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees