JP2011503681A

JP2011503681A - データ記録を一致させるシステムの分析のための方法およびシステム

Info

Publication number: JP2011503681A
Application number: JP2010527211A
Authority: JP
Inventors: グレンゴールデンバーグ，; スコットシューマッハー，; ジェイソンウッズ，
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2007-09-28
Filing date: 2008-09-26
Publication date: 2011-01-27
Anticipated expiration: 2028-09-26
Also published as: BRPI0817507B1; CA2701046A1; US20140281729A1; CN101878461B; EP2193415A4; CA2701046C; AU2008304265A1; WO2009042941A1; CN101878461A; BRPI0817507A2; AU2008304265B2; US10698755B2; JP5306360B2; EP2193415A1; US20090089630A1; US8799282B2

Abstract

本明細書で開示される実施形態は、アイデンティティハブを分析するためのシステムおよび方法を提供する。具体的には、ユーザは、アイデンティティハブに接続し、最初のデータ記録の集合を取り込み、ローカルでアイデンティティハブ構成を作成および／または編集し、実体分析ツール、データ分析ツール、バケット分析ツール、および連鎖分析ツールを含む、分析ツールの集合を介して、構成を分析および／または有効化し、有効構成をアイデンティティハブインスタンスに遠隔で配備することができる。いくつかの実施形態では、グラフィカルユーザインターフェースを介して、これらの分析ツールは、アイデンティティハブがデータ品質を確保し、システム性能を強化するように動作している間に、ユーザがリアルタイムでアイデンティティハブの構成を分析および修正できるようにする。

Description

（関連出願の相互参照）
本願は、米国仮特許出願第６０／９９７，０３８号（名称「ＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＦＯＲＡＮＡＬＹＳＩＳＯＦＡＳＹＳＴＥＭＦＯＲＭＡＴＣＨＩＮＧＤＡＴＡＲＥＣＯＲＤＳ」、２００７年９月２８日出願、代理人整理番号）の優先権を主張し、この出願は、その全体が本明細書に参考として援用される。

また、本願は、米国特許出願第１２／０５６，７２０号（名称「ＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＦＯＲＭＡＮＡＧＩＮＧＥＮＴＩＴＩＥＳ」、２００８年３月２７日出願）、同第１１／９６７，５８８号（名称「ＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＦＯＲＰＡＲＳＩＮＧＬＡＮＧＵＡＧＥＳ」、２００７年１２月３１日出願）、同第１１／９０４，７５０号（名称「ＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＦＯＲＩＮＤＥＸＩＮＧＲＥＬＡＴＩＮＧＡＮＤＭＡＮＡＧＩＮＧＩＮＦＯＲＭＡＴＩＯＮＡＢＯＵＴＥＮＴＩＴＩＥＳ」、２００７年９月２８日出願）、同第１１／９０１，０４０号（名称「ＨＩＥＲＡＲＣＨＹＧＬＯＢＡＬＭＡＮＡＧＥＭＥＮＴＳＹＳＴＥＭＡＮＤＵＳＥＲＩＮＴＥＲＦＡＣＥ」、２００７年９月１４日出願）、同第１１／９００，７６９／，号（名称「ＩＭＰＬＥＭＥＮＴＡＴＩＯＮＤＥＦＩＮＥＤＳＥＧＭＥＮＴＳＦＯＲＲＥＬＡＴＩＯＮＡＬＤＡＴＡＢＡＳＥＳＹＳＴＥＭＳ」、２００７年９月１３日出願）、同第１１／８２４，２１０号（名称「ＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＦＯＲＰＲＯＪＥＣＴＭＡＮＡＧＥＭＥＮＴ」、２００７年６月２９日出願）、同第１１／８０９，７９２号（名称「ＳＹＳＴＥＭＡＮＤＭＥＴＨＯＤＦＯＲＡＵＴＯＭＡＴＩＣＷＥＩＧＨＴＧＥＮＥＲＡＴＩＯＮＦＯＲＰＲＯＢＡＢＩＬＩＳＴＩＣＭＡＴＣＨＩＮＧ」、２００７年６月１日出願）、同第１１／７０２，４１０号（名称「ＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＦＯＲＡＧＲＡＰＨＩＣＡＬＵＳＥＲＩＮＴＥＲＦＡＣＥＦＯＲＣＯＮＦＩＧＵＲＡＴＩＯＮＯＦＡＮＡＬＧＯＲＩＴＨＭＦＯＲＴＨＥＭＡＴＣＨＩＮＧＯＦＤＡＴＡＲＥＣＯＲＤＳ」、２００７年２月５日出願）、同第１１／６５６，１１１号（名称「ＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＦＯＲＩＮＤＥＸＩＮＧＩＮＦＯＲＭＡＴＩＯＮＡＢＯＵＴＥＮＴＩＴＩＥＳＷＩＴＨＲＥＳＰＥＣＴＴＯＨＩＥＲＡＲＣＨＩＥＳ」、２００７年１月２２日出願）、同第１１／５２２，２２３号（名称「ＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＦＯＲＣＯＭＰＡＲＩＮＧＡＴＴＲＩＢＵＴＥＳＳＵＣＨＡＳＰＥＲＳＯＮＡＬＮＡＭＥＳ」、２００６年９月１５日出願）および同第１１／５２１，９２８号（名称「ＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＦＯＲＣＯＭＰＡＲＩＮＧＡＴＴＲＩＢＵＴＥＳＳＵＣＨＡＳＢＵＳＩＮＥＳＳＮＡＭＥＳ」、２００６年９月１５日出願）に関連している。このパラグラフにおいて参照される全ての出願は、全ての目的のためにその全体が本明細書に援用される。

（発明の分野）
本開示は、概して、データ記録を関連付けることに関し、より具体的には、これらのデータ記録が関連付けられ得るように、同じ実体に関する情報を含有し得るデータ記録を識別することに関する。さらに具体的には、本明細書で開示される実施形態は、データ記録の識別および関連付けのためのシステムの分析に関し得、そのようなシステムの性能および構成に関係付けられた分析を含む。

（背景）
今日および現在の時代では、事業の圧倒的多数が、在庫、顧客、製品等の、運営の種々の側面に関する甚大な量のデータを保持している。人、製品、部品、または他のもの等の実体に関するデータは、コンピュータデータベース等のデータ蓄積にデジタル形式で記憶され得る。これらのコンピュータデータベースは、実体に関するデータが迅速にアクセスされることを可能にし、データが同じ実体に関するデータの他の関連部分と相互参照されることを可能にする。データベースはまた、同じ実体に関する種々のデータ蓄積からのデータ記録が相互と関連付けられ得るように、個人がデータベースに問い合せを行い、特定の実体に関するデータ記録を見出すことも可能にする。

しかしながら、データ蓄積は、データ蓄積内の実体に関する正しいデータを見出す能力を制限する場合がある、いくつかの制限を有する。データ蓄積内の実データは、データを入力した個人または元のデータソースと同程度に正確であるにすぎない。したがって、例えば、個人の名字のつづりを誤ったり、または社会保障番号が不正確に入力される等のために、データ蓄積へのデータの入力における間違いは、データベース中の実体に関するデータの検索に、実体に関する関連データを見落とさせる場合がある。多くのこれらの種類の問題を想定することができ、いくつかのデータ記録が同じ実体に関する情報を含有してもよいように、データベース内にすでに記録を有する実体に対する２つの別個の記録が作成されてもよいが、例えば、２つのデータ記録に含まれる名前または識別番号は、同じ実体を参照するデータ記録を相互に関連付けることが困難でありえる程、異なっていてもよい。

多数のデータ記録を含有する１つ以上のデータ蓄積を運営する事業にとって、各データベース内および間で特定の実体に関する関連情報を見つける能力は、非常に重要であるが、容易には得られない。再度、任意の情報源におけるデータの入力のあらゆる間違い（無制限に、同じ実体に対する２つ以上のデータの作成を含む）は、特定の実体のデータがデータベース中で検索される時に、関連データを見落とさせる場合がある。加えて、複数の情報源を伴う場合では、情報源のそれぞれは、データベース間でデータを見出す過程をさらに複雑にする場合がある、わずかに異なるデータ構文または形式を有する場合がある。データ記録中で参照される実体を適正に識別し、医療分野での実体に関する全データ記録を見つける必要性の一例としては、特定の医療機関と関連付けられた多数の異なる病院が、患者に関する情報を有する１つ以上の情報源を有してもよく、医療機関が、病院のそれぞれからマスターデータベースの中へ情報を収集するものである。同じ患者に関する情報源の全てからのデータ記録を結び付け、病院の記録の全てにおいて特定の患者の情報の検索を可能にすることが必要である。

そのようなデータベースの中の実体に関する関連データの全てを見出す能力を制限する、いくつかの問題がある。１つ以上の情報源から受信された別個のデータ記録の結果として、複数のデータ記録が特定の実体に対して存在し得、それはデータ断片化と呼ばれ得る問題につながる。データ断片化の場合、マスターデータベースのクエリが、特定の実体に関する関連情報の全てを検索しない場合がある。加えて、上記で説明されるように、データ入力中に生じた誤字により、クエリが実体に関する何らかの関連情報を見落とす場合があり、それはデータのアクセス不可能性の問題につながる。加えて、大型データベースは、Ｓｍｉｔｈという名字およびＪｉｍという名前の人々の複数の記録等の、同一と思われるデータ記録を含有する場合がある。データベースのクエリは、これらのデータ記録の全てを検索し、データベースにクエリを行った個人は、しばしば、間違ったデータ記録である可能性のある検索されるデータ記録のうちの１つをランダムに選択する場合がある。個人はしばしば、一般的には、記録のうちのどれが適切であるかを判定しようとしない場合がある。このことは、正しいデータ記録が利用可能である時でさえ、検索されている間違った実体のデータ記録につながり得る。これらの問題は、データベース内で特定の実体の情報を見つける能力を制限する。

見直さなければならないデータの量を低減し、ユーザが間違ったデータ記録を選ぶことを防止するために、同じ実体に関する情報を含み得る種々の情報源から、データ記録を識別し、関連付けることも望ましい。データベース内の重複データ記録を見つけ、これらの重複データ記録を削除する、従来のシステムがあるが、これらのシステムは、相互に実質的に同一であるデータ記録しか見つけない場合がある。したがって、これらの従来のシステムは、例えば、わずかに異なる名字を有する２つのデータ記録が、それでもなお同じ実体に関する情報を含有するかどうかを判定することができない。加えて、これらの従来のシステムは、複数の異なる情報源からデータ記録を指数化し、同じ実体に関する情報を含有する１つ以上の情報源内でデータ記録を見つけ、これらのデータ記録をともに結び付けようとしない。従って、これらのデータ記録の属性間の不一致にもかかわらず、同じ実体に関する複数の情報源からのデータ記録を関連付けることができ、まとめてこれらの種々のデータ記録からの情報を集合させ、提示できることが望ましいであろう。しかしながら、実践では、複数の情報源から情報の正確で統一された表を提供することが極めて難しくなり得る。

（本開示の概要）
種々のソースからのデータ記録は、形式およびそれらが含有するデータの両方で異なる場合があるため、データ処理システムの構成は、非常に困難な作業を提示する場合がある。部分的には、構成過程が、データ記録の関連付けに利用されているシステムのアーキテクチャおよび能力の多大な専門知識、加えて、データ記録を関連付けるために使用されるアルゴリズムの結果として生じる構成が所望の結果をもたらすことを確実にするように、大規模な分析および細部への細心の注意を必要とする、手動集中作業となる場合があるため、これらの困難が引き起こされる。

これらの困難は、そのようなシステムのユーザの個々のニーズによって悪化する場合がある。例えば、医療業界等の、ある業界では、データ記録が誤って相互と関連付けられない（誤検出と呼ばれる）ことが重大となる場合がある一方で、他のあまり重要ではない業界では、誤った関連付けにあまり関心を持たず、関連付けられるべきデータ記録が関連付けられない（検出漏れと呼ばれる）場合を回避するために、同じ実体に関する可能性のあるデータ記録が関連付けられることがより懸念される場合がある。実際、あるユーザには、許容される誤検出または検出漏れの数に関する厳しい要件またはガイドラインがあってもよい。

システムの少なくともある複数部分が、データのサンプル集合を利用して構成または調整されてもよいため、この最初のデータのサンプル集合に基づいて確立されたシステムの構成は、全てのデータ、またはデータのより大規模のサンプリングに適用された時に、所望の結果をもたらさない場合がある。

しかしながら、システムがある構成に関してどのように機能しているかを判定することは困難な場合があり、たとえシステムがどのように機能しているかを判定することができても、システムによって利用されるアルゴリズムが極めて複雑な場合があるため、構成を訂正して所望の結果を達成することは困難な場合がある。

したがって、システムがユーザの所望に従って構成され得るように、データ記録の関連付けのためのシステムの機能を分析するためのシステムおよび方法の必要性がある。

本明細書で開示される実施形態は、データ記録の指数化または関連付けのためのシステムに関連して、性能パラメータを分析および提示するためのシステムおよび方法を提供する。これらのシステムおよび方法は、ＩｎｉｔｉａｔｅＳｙｓｔｅｍｓ，Ｉｎｃ．によるＩｄｅｎｔｉｔｙＨｕｂ^ＴＭの構成または性能に関するデータの統計的分析および提示のための有用なソフトウェアツールを提供してもよい。ＩｎｉｔｉａｔｅＩｄｅｎｔｉｔｙＨｕｂ^ＴＭの実施形態例は、本開示で参照される米国特許出願で見出すことができる。

いくつかの実施形態では、これらのツールは、バケット分析ツール、データ分析ツール、実体分析ツール、および連鎖分析または閾値分析ツールを含む。より具体的には、一実施形態では、バケット分析ツールは、アイデンティティハブ内の候補生成および選択（すなわち、バケッティング）に関するデータを分析および提示するように動作可能であってもよい。一実施形態では、実体分析ツールは、データ記録の関連付けに関するデータを分析および提示するように動作可能であってもよい。一実施形態では、連鎖分析ツールは、データ記録を結び付けるための種々の閾値レベル、およびシステムに対するそれらの効果の設定に関係付けられた、データを分析および提示するように動作可能であってもよい。ツールはまた、ユーザがパラメータの可能値を提出し、ツールがシステムの動作または性能に対するその値の効果を予測してもよいように、予測能力を提供してもよい。

いくつかの実施形態では、アイデンティティハブの構成または性能に関するデータが、ユーザに図式的に提示され、分析ツールと相互作用して所望の情報を取得する能力をユーザに提供してもよいように、グラフィカルユーザインターフェースが、これらの種々のツールとともに使用するために提示されてもよい。このグラフィカルユーザインターフェースはまた、別のグラフィカルユーザインターフェースと併せて提供されてもよく、または、ユーザがアイデンティティハブの構成を改変し、そのような構成の結果を分析してもよいように、アイデンティティハブの少なくとも一部分の構成に対して、その機能性を備えてもよい。これらのインターフェースは、例えば、ウェブブラウザを介してアクセスされてもよい、１つ以上のウェブページを含んでもよい。これらのウェブページは、例えば、ＨＴＭＬまたはＸＨＴＭＬ形式であってもよく、ハイパーテキストリンクを介して他のウェブページへのナビゲーションを提供してもよい。これらのウェブページは、ローカルコンピュータから、または遠隔ウェブサーバから、（例えば、ハイパーテキスト転送プロとこるまたはＨＴＴＰを使用して）ユーザによって検索されてもよく、その場合、サーバは、プライベートネットワーク（例えば、企業イントラネット）のみへのアクセスを制限してもよく、または、ワールドワイドウェブ上にページを公開してもよい。

一実施形態では、ユーザが、アイデンティティハブ内で利用される情報源の中のデータ内のデータ異常を見出してもよいように、必要な時に、種々の分析物が、アイデンティティハブを構成するユーザに提示されてもよいように、そのようなグラフィカルユーザインターフェースは、構成ツール内で提示されてもよい。アイデンティティハブの機能が、種々の時に、および種々の構成にわたって比較されてもよいように、そのようなインターフェースはまた、アイデンティティハブの特定の構成に、判定された統計値または他のアイデンティティハブパラメータを保存する能力を提供してもよい。

データ記録がアイデンティティハブに入って来るか、またはアイデンティティハブが１つ以上の基準に基づいて検索されると、１つ以上のバケットが作成されてもよい。したがって、システムの性能（例えば、スループットタイム等）は、所与の事例で作成されるバケットのサイズに大きく依存する場合がある。その結果として、作成されるバケットのサイズまたは種類、これらのバケットがなぜ作成されたか、これらのバケットがどのように作成されたか、これらのバケットを備えるデータ記録、これらのバケットがシステムの性能にどのように影響を及ぼすか等についての統計値を取得することが所望されてもよい。

したがって、一実施形態では、バケット分析ツールは、バケットに配置されなかったアイデンティティハブと関連付けられた分布データ記録とともに、生成された分布バケットのサイズ、およびこれらのバケットを備える分布データ記録等の、バケッティング分布のプロファイルを提供してもよい。大型バケット（例えば、１０００のデータ記録を超える）は、データ頻度が予期以外であること、あるいは、ある匿名または共通データ値が適正に計上されていないことを示す場合がある。例えば、「ＪｏｈｎＤｏｅ」という名前が未知のデータ記録の組織によって利用された場合、この名前は、異常な回数で現れる場合がある。小型バケットは、現在利用されているバケッティング基準が厳密すぎるかもしれないことを示す場合がある。

その結果として、バケッティング分析ツールは、バケッティング分布のプロファイルだけでなく、その分布または別の分布がアイデンティティハブのスループットに及ぼす影響も提供して、アイデンティティハブの性能が所望の範囲内であることを確実にしてもよい。同じ傾向で、バケット分析ツールは、バケットを作成するために使用されるアルゴリズム、およびそれらのバケットを構成する特定のデータ記録を閲覧または分析する能力と、直接的に、または別のアプリケーションを介して、アイデンティティハブまたはアイデンティティハブのあるパラメータを再構成する能力とを提供してもよい。この機能性と併せて、バケット分析ツールはまた、性能が所望のパラメータ内であることを確実にできるように、リアルタイム負荷下でアイデンティティハブの性能を推定する能力も提供してもよい。

ある場合においては、メンバーデータ記録内の異常により、あるデータ記録が、（例えば、実体として）誤って結び付けられるか、または関連付けられる場合がある一方で、データ記録間に結び付きが全くないか、またはほとんどないことが問題を示す場合もある。したがって、これらのデータ異常、およびデータ記録の結び付きまたは関連付けと関連する他の問題は、実体サイズの分布を分析することによって、分析または診断されるほうがよい。一実施形態では、実体分析ツールは、実体サイズの分布を計算および表示する能力を提供してもよく、いくつの実体が１つのデータ記録を備えるか、いくつの実体が２つのデータ記録を備えるか等を示す。この分布内の異様な分布または異常値は、問題を示すか、または、アイデンティティハブの構成の改変を行う必要がある（例えば、匿名の名前またはアドレス）ことを示し得る。実体分析ツールは、さらなる分析能力を提供してもよい。１つの分析能力例は、分布グループをサイズ別に閲覧する、分布グループ内の個々の実体（例えば、３つのメンバーデータ記録を備える実体）を分析する、実体内の個々のメンバーデータ記録を閲覧する（例えば、メンバーデータ記録の属性の値を閲覧する）、または実体内の２つ以上のメンバーを比較する（例えば、２つのメンバーの属性の値を比較する）能力であってもよいため、これらのメンバーデータ記録がなぜ結び付けられたか等が判定されてもよい。

アイデンティティハブの実施形態は、ソフトリンクまたは自動リンク閾値を伴って構成されてもよい。これらの閾値は、アイデンティティハブの性能に多大に影響を及ぼしてもよい。したがって、本明細書で開示されるいくつかの実施形態は、ユーザが、構成されたソフトリンクおよび自動リンク閾値がどのようにシステム性能（例えば、検出漏れまたは誤検出、スループット等）に影響を及ぼすのかを分析および確認し、かつこれらの種々の閾値の調整がどのようにアイデンティティハブの性能を改変してもよいかを分析する能力を提供してもよい。

より具体的には、いくつかの実施形態では、これらのインターフェースおよびディスプレイは、所望の誤検出率または検出漏れ率を選択し、閾値レベルに対する効果を確認する能力をユーザに提供してもよい。ユーザは、本明細書で開示される閾値分析ツールのいくつかの実施形態では、所望の誤検出率または検出漏れ率を達成するために、閾値レベルがどのようであるべきかを判定することができる。いくつかの実施形態では、ソフトリンクと自動リンク閾値との間にあるデータ記録間のリンクは、手動でレビューされる必要があってもよい。閾値分析ツールのいくつかの実施形態は、構成されたソフトリンクおよび自動リンク閾値を伴って生成されてもよい、手動レビューの量の推定値を提供してもよい。閾値分析ツールのいくつかの実施形態は、所望される誤検出および検出漏れ率または割合を調整する能力をユーザに提供してもよく、閾値分析ツールは、閾値レベルがどのようであるべきかを示すように改変し、またはその逆も同様である。

一実施形態では、誤検出率が、問題のサイズ（例えば、データ記録の数）に関係付けられてもよい一方で、検出漏れ率は、各データ記録の中の情報の量に関係付けられてもよい。したがって、誤検出率または曲線は、記録の数に基づいて推定されてもよく、検出漏れ率または曲線は、全記録にわたるデータの分布に基づいて推定されてもよい。これらの推定は、アイデンティティハブと併せた重み生成に関係付けられてもよいため、これらの推定は、そのような重み生成後に行われてもよい。記録が正しく結び付けられているか、または誤って結び付けられているかどうかをユーザが判定してもよい、結び付けられたデータ記録の集合の事務的レビュー（例えば、アイデンティティハブの構成中に行われてもよい）に基づいて、これらの曲線は、性能分析ツールを使用して、調整、適合、または訂正されてもよい。いくつかの実施形態では、ユーザが種々の誤検出または検出漏れ率を調整し、種々の閾値がどこに設定されるべきか、およびこれらの閾値に起因してもよい手動レビューの量を確認してもよいように、これらの曲線は、閾値の図式的表示と併せてユーザに図式的に提示されてもよい。

したがって、本明細書で開示される実施形態は、大量のデータ記録を処理し、一致させることが可能なアイデンティティハブの構成および性能をリアルタイムで分析することができる。これらのツールは、アイデンティティハブのスループット、およびアイデンティティハブによって生成される分析物（要素成果物）の品質がユーザ要求を満たすことを確実にする方法を提供する。本開示の他の特徴、利点、および目的は、以下の説明および添付図面と併せて考慮すると、より良好に認識および理解されるであろう。

本明細書に付随し、その一部を形成する図面は、本開示のある側面を図示するように含まれる。本開示のより明確な印象、ならびに本開示が提供されるシステムの構成要素および動作は、図面で図示される、例示的であり、したがって非限定的な実施形態を参照することによって、より容易に明白となるであろう。可能な限り、同じまたは類似特徴（要素）を指すために、同じ参照番号が図面の全体を通して使用される。図面は、必ずしも一定の縮尺で描かれるとは限らない。
図１は、データ記録を一致させるためのシステムの一実施形態の基礎構造例を図示する。図２Ａおよび２Ｂは、データ記録の２つの実施形態の表現を図示する。図２Ａおよび２Ｂは、データ記録の２つの実施形態の表現を図示する。図３は、データ記録を比較するステップの一実施形態のフロー図を図示する。図４は、アイデンティティハブを構成および分析するためのシステムの一実施形態の基礎構造を図示する。図５は、アイデンティティハブを構成するための方法の一実施形態のフロー図を図示する。図６は、それを介してアイデンティティハブの構成が分析可能である、グラフィカルユーザインターフェースの一実施形態のスクリーンショットを図示する。図７Ａおよび７Ｂは、それを介してアイデンティティハブの構成が修正可能である、構成エディタの一実施形態のスクリーンショットを図示する。図７Ａおよび７Ｂは、それを介してアイデンティティハブの構成が修正可能である、構成エディタの一実施形態のスクリーンショットを図示する。図８Ａおよび８Ｂは、それを介してジョブ構成が修正可能である、構成エディタの一実施形態のスクリーンショットを図示する。図８Ａおよび８Ｂは、それを介してジョブ構成が修正可能である、構成エディタの一実施形態のスクリーンショットを図示する。図９Ａおよび９Ｂは、それを介して、アイデンティティハブにおける実体型式と関連付けられた各アルゴリズムが修正可能である、アルゴリズムエディタの一実施形態のスクリーンショットを図示する。図９Ａおよび９Ｂは、それを介して、アイデンティティハブにおける実体型式と関連付けられた各アルゴリズムが修正可能である、アルゴリズムエディタの一実施形態のスクリーンショットを図示する。図１０Ａおよび１０Ｂは、それを介してアイデンティティハブの構成がアクセス可能である、グラフィカルユーザインターフェースの一実施形態のスクリーンショットを図示する。図１０Ａおよび１０Ｂは、それを介してアイデンティティハブの構成がアクセス可能である、グラフィカルユーザインターフェースの一実施形態のスクリーンショットを図示する。図１１は、アイデンティティハブの構成を分析するための方法の一実施形態のフロー図を図示する。図１２Ａおよび１２Ｂは、実体分析ツールの一実施形態のスクリーンショットを図示する。図１２Ａおよび１２Ｂは、実体分析ツールの一実施形態のスクリーンショットを図示する。図１３は、データ分析ツールの一実施形態のスクリーンショットを図示する。図１４は、バケット分析ツールの一実施形態のスクリーンショットを図示する。図１５は、連鎖分析ツールの一実施形態のスクリーンショットを図示する。図１６は、それを介して、アイデンティティハブにおけるメンバー記録と関連付けられたエラー率および閾値が分析可能である、グラフィカルユーザインターフェースの一実施形態のスクリーンショットを図示する。図１７は、システム性能と、アイデンティティハブにおける連鎖メンバー記録と関連付けられた誤検出および検出漏れ率に対する許容値との間の関係を図示する。

本開示、ならびにその種々の特徴および有利な詳細を、添付図面で図示される、例示的であり、したがって非限定的な実施形態を参照して、より全体的に説明し、以下の説明で詳述する。本開示の詳細を不必要に分かりにくくしないように、既知のプログラミング技法、コンピュータソフトウェア、ハードウェア、動作プラットフォームの説明は省略する。しかしながら、好ましい実施形態を示す一方で、詳細な説明および具体例が、限定としてではなく例示のみとして挙げられることを理解されたい。基礎的発明概念の精神および／または範囲内の種々の置換、修正、追加、または再配設が、本開示から当業者にとって明白となるであろう。

本明細書で開示される実施形態を実装するソフトウェアは、コンピュータ可読記憶媒体上に存在してもよい、好適なコンピュータ実行可能命令で実装されてもよい。本開示内で、「コンピュータ可読記憶媒体」という用語は、プロセッサによって読み出すことができる、全ての種類のデータ記憶を包含する。コンピュータ可読記憶媒体の例は、ランダムアクセスメモリ、読み出し専用メモリ、ハードドライブ、データカートリッジ、磁気テープ、フロッピー（登録商標）ディスケット、フラッシュメモリデバイス、光データ記憶デバイス、コンパクトディスク読み出し専用メモリ、および他の適切なコンピュータメモリならびにデータ記憶デバイスを含むことができる。

本明細書で使用されるような、「備える」、「〜を備える」、「含む」、「〜を含む」、「有する」、「〜を有する」、またはそれらの他の変化例は、非排他的包含を網羅することを目的とする。例えば、要素の一覧を備える過程、製品、部品、または装置は、必ずしもこれらの要素だけに限定されないが、明示的に記載されていない、またはそのような過程、製品、部品、または装置に固有ではない、他の要素を含んでもよい。さらに、明示的にそれとは反対に記述されない限り、「または」とは、排他的な「または」ではなく、包含的な「または」を指す。例えば、状態ＡまたはＢは、Ａが真であり（または存在し）、かつＢが偽である（または存在しない）、Ａが偽であり（または存在せず）、かつＢが真である（または存在する）、およびＡとＢの両方が真である（または存在する）、のうちのいずれか１つによって満たされる。

加えて、本明細書で挙げられる、あらゆる実施例または例示は、決して、それらとともに利用される、１つまたは複数のあらゆる用語の制約、制限、または表現定義として見なされるものではない。その代わり、これらの実施例または例示は、１つの特定の実施形態に関して説明されるものとして、および例示的にすぎないとして見なされる。当業者であれば、これらの実施例または例示とともに利用される、１つまたは複数のあらゆる用語は、本明細書とともに、または本明細書中の他の部分で挙げられても挙げられなくてもよい、他の実施形態ならびにそれらの実施および適応を包含し、全てのそのような実施形態は、１つまたは複数の用語の範囲内に含まれることを目的とすると理解するであろう。そのような非限定的実施例および例示を指定する言葉は、「例えば」、「例として」「例」、「一実施形態では」、および同等物を含むが、それらに限定されない。

ここで、その実施例が添付図面に図示されている、本開示の例示的実施形態を詳細に参照する。可能な限り、同じまたは類似部品（要素）を指すために、同じ参照番号が図面の全体を通して使用される。

本明細書で開示されるいくつかの実施形態は、参照することにより本明細書に組み込まれる、１９９９年１１月２３日発行の米国特許第５，９９１，７５８号で説明されているように、異なる情報源からの実体に関する情報を指数化するためのシステムおよび方法の実施形態を活用することができる。本明細書で開示されるいくつかの実施形態は、同様に参照することにより本明細書に組み込まれる、「ＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＦＯＲＩＮＤＥＸＩＮＧＩＮＦＯＲＭＩＯＮＡＢＯＵＴＥＮＴＩＴＩＥＳＷＩＴＨＲＥＳＰＥＣＴＴＯＨＩＥＲＡＲＣＨＩＥＳ」と題された２００７年１月２２日出願の上記で参照した米国特許出願第１１／６５６，１１１号で開示されているように、階層について、実体に関する情報を指数化するための実体処理システムおよび方法の実施形態を活用することができる。

図１は、実体処理システム３０の一実施形態の基礎構造例を図示する、ブロック図である。実体処理システム３０は、１つ以上の情報源３４、３６、３８からの１つ以上の実体についてのデータ記録に関するデータを処理、更新、または記憶し、複数のオペレータ４０、４２、４４からのコマンドまたはクエリに応答する、アイデンティティハブ３２を含んでもよく、その場合、オペレータは、人間のユーザおよび／または情報システムであってもよい。アイデンティティハブ３２は、単一の情報源からのデータ記録、または示されるように、複数の情報源からのデータ記録とともに動作してもよい。アイデンティティハブ３２の実施形態を使用して追跡される実体は、例えば、病院内の患者、医療制度の参加者、倉庫の中の部品、または、データ記録およびそれと関連付けられたデータ記録に含有される情報を有してもよい、任意の他の実体を含んでもよい。アイデンティティハブ３２は、アイデンティティハブ３２の機能を果たすように１つ以上のコンピュータ可読記憶媒体上に記憶されたコンピュータ可読命令（例えば、ソフトウェアアプリケーション）を実行する、少なくとも１つの中央処理装置（ＣＰＵ）４５を有する１つ以上のコンピュータシステムであってもよい。アイデンティティハブ３２はまた、当業者によって理解されるように、ハードウェア回路、またはソフトウェアおよびハードウェアの組み合わせを使用して実装されてもよい。

図１の実施例では、アイデンティティハブ３２は、情報源３４、３６、３８からデータ記録を受信し、ならびに、情報源３４、３６、３８に訂正したデータを書き込み直してもよい。情報源３４、３６、３８に伝達される訂正したデータは、正しかった情報を含んでもよいが、データ記録の中の固定情報に関する情報、および／またはデータ記録間の結び付きに関する情報を変更している。

加えて、オペレータ４０、４２、４４のうちの１つは、アイデンティティハブ３２にクエリを伝送し、アイデンティティハブ３２からクエリへの返答を受信してもよい。情報源３４、３６、３８は、例えば、同じ実体に関するデータ記録を有してもよい、異なるデータベースであってもよい。例えば、医療分野では、各情報源３４、３６、３８は、医療機関の中の特定の病院と関連付けられてもよく、医療機関は、ロサンゼルスの患者のデータ記録が、その同じ患者が休暇中であり、かつニューヨークの病院に入院する時に見つけられてもよいように、複数の病院と関連付けられたデータ記録を関係付けるためにアイデンティティハブ３２を使用してもよい。アイデンティティハブ３２は、中心位置に位置してもよく、情報源３４、３６、３８およびユーザ４０、４２、４４は、アイデンティティハブ３２から遠隔に位置してもよく、例えば、インターネット、または広域ネットワーク、イントラネット、無線ネットワーク、専用ネットワーク等の任意の他の種類の通信ネットワーク等の、通信リンクによって、アイデンティティハブ３２に接続されてもよい。

いくつかの実施形態では、アイデンティティハブ３２は、アイデンティティハブ３２における完全データ記録を記憶する、独自のデータベースを有してもよい。いくつかの実施形態では、アイデンティティハブ３２が、必要な時に情報源３４、３６、３８から全データ記録を検索することができるように、アイデンティティハブ３２はまた、データ記録（例えば、特定のデータソース３４、３６、３８の中の住所）または完全データ記録を備えるデータフィールドの任意の部分を識別するのに十分なデータを含有するのみであってもよい。アイデンティティハブ３２は、実体識別子、または実データ記録とは別の連想データベースを利用して、同じ実体に関する情報を含有するデータ記録と結び付けてもよい。したがって、アイデンティティハブ３２は、１つ以上の情報源３４、３６、３８の中のデータ記録間の結び付きを維持してもよいが、必ずしも実体の単一の一様なデータ記録を維持するとは限らない。

いくつかの実施形態では、アイデンティティハブ３２は、データ記録（オペレータから、またはデータソース３４、３６、３８から受信される）を情報源３４、３６、３８の中の他のデータ記録と比較して、ともに結び付けられるべきデータ記録を識別することによって、情報源３４、３６、３８の中のデータ記録を結び付けてもよい。この識別過程は、データ記録の属性のうちの１つ以上と他のデータ記録の類似属性との比較を必要としてもよい。例えば、１つの記録と関連付けられた名前の属性が、他のデータ記録の名前と比較されてもよく、社会保障番号が別の記録の社会保障番号と比較されてもよい等である。このように、結び付けられるべきデータ記録が識別されてもよい。

情報源３４、３６、３８およびオペレータ４０、４２、４４は、同様の、または異なる機関および／または所有者と提携してもよく、相互から物理的に離れ、および／または遠隔にあってもよいことが、当業者にとって明白になるであろう。例えば、情報源３４が、１つの医療ネットワークによって運営されるロサンゼルスの病院と提携してもよい一方で、情報源３６は、おそらくフランスの企業が所有する別の医療ネットワークによって運営されるニューヨークの病院と提携してもよい。したがって、情報源３４、３６、３８からのデータ記録は、異なる形式、異なる言語等であってもよい。

このことは、データ記録例の２つの実施形態を図示する、図２Ａおよび２Ｂを参照して、より明確に図示されてもよい。これらのデータ記録２００、２０２のそれぞれは、データ記録のそれぞれの属性の集合に対応する、フィールド２１０の集合を有する。例えば、記録２００のそれぞれの属性のうちの１つは、名前であってもよく、別の属性は、納税者番号等であってもよい。属性は、データ記録２００、２０２の複数のフィールド２１０を備えてもよいことが明白となるであろう。例えば、データ記録２０２の住所の属性は、それぞれ、通り、市、および州のフィールドである、２１０ｃ、２１０ｄ、および２１０ｅを備えてもよい。

しかしながら、データ記録２００、２０２のそれぞれは、異なる形式を有してもよい。例えば、データ記録２０２が「保険業者」の属性に対するフィールド２１０を有してもよい一方で、データ記録２００にはそのようなフィールドがなくてもよい。また、同様の属性が異なる形式を有してもよい。例えば、記録２０２における名前のフィールド２１０ｂが、フルネームの入力を受け入れてもよい一方で、記録２００における名前のフィールド２１０ａは、制限された長さの名前の入力を可能にするように設計されてもよい。そのような不一致は、２つ以上のデータ記録（例えば、データ記録の属性）を比較して、結び付けられるべきデータ記録を識別する時に、問題となる場合がある。例えば、「ＢｏｂｓＦｌｏｗｅｒＳｈｏｐ」という名前は、「ＢｏｂｓＶｅｒｙＰｒｅｔｔｙＦｌｏｗｅｒＳｈｏｐｐｅ」と同様であるが、厳密に同じではない。さらに、データ記録のデータを入力する際の誤字または間違いも、データ記録の比較、したがって、その結果に影響を及ぼす場合がある（例えば、「Ｇｌｏｗｅｒ」が「Ｆｌｏｗｅｒ」という言葉を入力する際の誤字に起因した、「ＢｏｂｓＰｒｅｔｔｙＦｌｏｗｅｒＳｈｏｐ」という名前の「ＢｏｂｓＰｒｅｔｔｙＧｌｏｗｅｒＳｈｏｐ」との比較）。

データ記録における事業名は、それらの性質の結果として、多数のかなり特有の問題を提示する場合がある。いくつかの事業名が非常に短くなり得る（例えば、「Ｑｕｉｃｋ−Ｅ−Ｍａｒｔ」）一方で、他の事業名は非常に長くなり得る（例えば、「ＳａｎＦｒａｎｃｉｓｃｏ’ｓＢｅｓｔＣｏｆｆｅｅＳｈｏｐ」）。加えて、事業名は、同様の言葉（例えば、「Ｓｈｏｐ」、「Ｉｎｃ．」、「Ｃｏ．」）を頻繁に使用する場合があり、それは、同じ言語によるデータ記録を比較する時に、これらの名前を比較するための発見的解決法で重視されるべきではない。さらに、頭字語が事業名で頻繁に使用され、例えば、「ＮｅｗＹｏｒｋＣｉｔｙＢａｇｅｌ」と名付けられた事業は、「ＮＹＣＢａｇｅｌ」としてデータ記録に頻繁に入力される場合がある。

さらに以下で詳細に説明されるように、本明細書で開示されるアイデンティティハブ３２の実施形態は、事業名を比較する時に、これらの特有の特性を考慮に入れることができる、アルゴリズムを採用する。具体的には、アイデンティティハブ３２によって採用される、いくつかのアルゴリズムは、頭字語をサポートし、事業名の中のある言葉の頻度を考慮に入れ、事業名内のトークンの順序付けを考慮する（例えば、「ＣｌｉｎｉｃｏｆＡｕｓｔｉｎ」という名前は、「ＡｕｓｔｉｎＣｌｉｎｉｃ」と事実上同一であると見なされている場合がある）。いくつかのアルゴリズムは、異なる記録における名前の比較（例えば、類似性）に基づいて重みを生成するために、種々の音声比較方法、名前のトークンの頻度、イニシャルの一致、ニックネームの一致等に基づく重みを含む、種々の名前比較技法を利用し、その場合、この重みは、２つの記録が結び付けられるべきかどうかを判定する際に利用することができる。いくつかの実施形態では、各記録の名前の属性のトークンは、トークンを一致させる方法論を使用して、相互に対して比較される（例えば、トークンが正確に一致した場合、音声学的に一致した場合等）。次いで、判定された一致に基づいて、これらの一致に重みを与えることができる（例えば、完全な一致には第１の重みが与えられる一方で、ある種類のイニシャルの一致には第２の重みが与えられる、等）。次いで、２つのデータ記録の名前の属性間の一致の程度に対する全体的重みを判定するように、これらの重みを集約することができる。好適な重み生成方法論の例示的実施形態は、参照することにより本明細書に組み込まれる、「ＳＹＳＴＥＭＡＮＤＭＥＴＨＯＤＦＯＲＡＵＴＯＭＡＴＩＣＷＥＩＧＨＴＧＥＮＥＲＡＴＩＯＮＦＯＲＰＲＯＢＡＢＩＬＩＳＴＩＣＭＡＴＣＨＩＮＧ」と題された２００７年６月１日出願の上記で参照した米国特許出願第１１／８０９，７９２号で説明されている。好適な名前比較技法の例示的実施形態は、「ＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＦＯＲＣＯＭＰＡＲＩＮＧＡＴＴＲＩＢＵＴＥＳＳＵＣＨＡＳＰＥＲＳＯＮＡＬＮＡＭＥＳ」と題された２００６年９月１５日出願の上記で参照した米国特許出願第１１／５２２，２２３号、および「ＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＦＯＲＣＯＭＰＡＲＩＮＧＡＴＴＲＩＢＵＴＥＳＳＵＣＨＡＳＢＵＳＩＮＥＳＳＮＡＭＥＳ」と題された２００６年９月１５日出願の上記で参照した米国特許出願第１１／５２１，９２８号で説明されており、その両方は、参照することにより本明細書に組み込まれる。

図３は、同じ実体に関する記録を識別するための方法論の例を図示する。ステップ３１０では、データ記録の集合が、評価のためにアイデンティティハブ３２において転送されるか、または引き抜かれてもよい。これらのデータ記録は、例えば、既存のデータ記録（例えば、情報源３４、３６、３８の中に既に存在してもよい、または、アイデンティティハブ３２に提供されてもよい）の集合と比較するための、例えば、１つ以上の新規データ記録を含んでもよい。ステップ３２０では、比較のためのデータ記録が、すでに標準化されていなければ標準化されてもよい。この標準化は、データ記録がその元の形式から標準形式に変換されるように、データ記録の属性の標準化を備えてもよい。このように、異なるデータ記録の類似属性間の後続の比較が、属性およびデータ記録の両方の標準形式に従って行われてもよい。比較されるデータ記録の属性のそれぞれは、異なる形式、異なる語義の集合、語彙等に従って、標準化またはトークン化されてもよく、その対応する標準形態への各属性の標準化は、別個の機能によって達成されてもよいことが、当業者にとって明白となるであろう。したがって、データ記録のそれぞれは、データ記録の種々の属性の標準化を介して、標準形式に標準化されてもよく、各属性は、対応する機能によって標準化される（これらの属性標準化機能は、当然ながら、複数の種類の属性を標準化するように動作可能であってもよい）。

例えば、データ記録２００の名前の属性のフィールド２１０ａは、名前の属性に対するトークン（例えば、「Ｂｏｂｓ」、「Ｐｒｅｔｔｙ」、「Ｆｌｏｗｅｒ」、および「Ｓｈｏｐ」）の集合を生じるように評価されてもよく、これらのトークンは、標準化された属性が、名前の属性を備えるトークンを生成するように以降で構文解析されてもよいように、標準化された属性を生じるように、ある形態に従って連結させることができる（例えば、「ＢＯＢＳ：ＰＲＥＴＴＹ：ＦＬＯＷＥＲ：ＳＨＯＰ」）。別の例として、名前が標準化されると、連続した単一トークンをトークンに合体することができ（例えば、Ｉ．Ｂ．Ｍ．がＩＢＭになる）、置換を行うことができる（例えば、「Ｃｏ．」が「Ｃｏｍｐａｎｙ」に置換され、「Ｉｎｃ．」が「Ｉｎｃｏｒｐｏｒａｔｅｄ」に置換される等）。略称およびそれらの同等な置換を備える、等価テーブルが、アイデンティティハブ３２と関連付けられたデータベースに記憶されてもよい。事業名を標準化するステップの一実施形態に対する疑似コードは、以下のとおりである。

使用される技法を問わず、いったん比較されるデータ記録の属性およびデータ記録自体が、ステップ３２０において標準形態に標準化されると、ステップ３３０において新規または受信データ記録と比較するための既存のデータ記録から、候補の集合が選択されてもよい。この候補選択過程（本明細書ではバケッティングとも呼ばれる）は、既存の新規データ記録のうちのどれが、さらなる比較を必要とするほど新規データ記録と同様であるかを判定するように、新規または受信データ記録の１つ以上の属性と既存のデータ記録との比較を備えてもよい。各候補の集合（バケットグループ）は、属性に対応する候補選択機能（バケッティング機能）を使用する、データ記録間（例えば、受信データ記録と既存のデータ記録との間）の属性の集合のそれぞれの比較に基づいてもよい。例えば、ある候補の集合（すなわち、バケット）は、名前を比較するように設計される候補選択機能、および住所を比較する別の候補選択機能を使用する、名前および住所の属性の比較に基づいて選択されてもよい。

ステップ３４０では、これらの候補の集合を備えるデータ記録は、新規または受信記録とのより詳細な比較を受けてもよく、その場合、属性の集合は、既存のデータ記録が新規データ記録と結び付けられるべきか、または関連付けられるべきかをどうかを判定するように、記録間で比較される。このより詳細な比較は、その属性に対するスコアを生成するように、１つの記録（例えば、既存の記録）の属性の集合のうちの１つ以上を、他の記録（例えば、新規または受信記録）における対応する属性と比較するステップを必要としてもよい。次いで、属性の集合に対するスコアは、２つの記録が結び付けられるべきかどうかを判定するために閾値と比較することができる、全体的スコアを生成するために合計されてもよい。例えば、全体的スコアが第１の閾値（ソフトリンクまたはレビュー閾値と呼ばれる）未満であれば、記録は結び付けられてなくてもよく、全体的スコアが第２の閾値（自動リンク閾値と呼ばれる）より大きければ、記録は結び付けられてもよく、一方で、全体的スコアが２つの閾値の間にあれば、記録は、結び付けられ、ユーザレビューのためにフラグを付けられてもよい。

図４は、アイデンティティハブ３２の構成を構成および分析するためのシステム１０の一実施形態の基礎構造を図示する。いくつかの実施形態では、システム１０は、コンピュータ４０と、ワークベンチ２０とを備える。ワークベンチ２０は、コンピュータ４０のメモリに記憶されるソフトウェアプログラムであり、コンピュータ４０のプロセッサによって可読であるコンピュータ命令を備える。ワークベンチ２０は、ネットワーク１５上でアイデンティティハブ３２と通信しているコンピュータ４０にインストールされ、その上で実行される。ネットワーク１５は、公衆ネットワーク、プライベートネットワーク、またはそれらの組み合わせの表現となり得る。ワークベンチ２０は、グラフィカルユーザインターフェース５０を介してユーザ５１によってアクセス可能である、構成ツール４００を含む、複数の機能を備える。いくつかの実施形態では、ユーザインターフェース５０は、ワークベンチ２０に対する１つ以上のユーザインターフェースの代表である。いくつかの実施形態では、ユーザインターフェース５０を介して、ワークベンチ２０は、ユーザ５１が、アイデンティティハブ構成を作成、編集、および／または有効化し、コンピュータ可読記憶媒体５６にローカルでアイデンティティハブ構成を記憶し、ネットワーク１５上で有効構成をアイデンティティハブ３２のアイデンティティハブインスタンスに遠隔で配備できるようにする。コンピュータ可読記憶媒体５６は、コンピュータ４０の内部または外部にあってもよい。

当業者であれば理解できるように、コンピュータ４０は、特に、アイデンティティハブの構成をローカルで構成および分析し、ネットワーク上で（有効）構成をアイデンティティハブに遠隔で配備するためのワークベンチ２０の一実施形態でプログラムされる、任意のネットワーク対応型コンピュータデバイスの代表である。ワークベンチ２０を介してアイデンティティハブ３２を構成するための方法の一実施形態を、図５を参照して以下で説明する。ワークベンチ２０に対するユーザインターフェース５０の一実施形態を、図６を参照して以下で説明する。

いくつかの実施形態では、構成ツール４００は、構成エディタ４１０と、アルゴリズムエディタ４２０と、分析ツール４３０とを備える。いくつかの実施形態では、分析ツール４３０は、データ分析ツール４３２と、実体分析ツール４３４と、バケット分析ツール４３６と、連鎖分析ツール４３８とを備える。いくつかの実施形態では、構成エディタ４１０を介して、ワークベンチ２０は、アイデンティティハブ３２の新規構成を作成するか、またはコンピュータ可読記憶媒体５６上に記憶されたアイデンティティハブ３２の既存の構成を取り込む能力を、ユーザ５１に提供する。いくつかの実施形態では、アイデンティティハブ構成は、メンバー記録、メンバー記録の属性、およびアイデンティティハブ３２の特定の実装のために画定されたセグメントの表を備える。実装の画定されたセグメントに対するさらなる教示については、参照することにより本明細書に組み込まれる、「ＩＭＰＬＥＭＥＮＴＡＴＩＯＮＤＥＦＩＮＥＤＳＥＧＭＥＮＴＳＦＯＲＲＥＬＡＴＩＯＮＡＬＤＡＴＡＢＡＳＥＳＹＳＴＥＭＳ」と題された２００７年９月１３日出願の米国特許出願第１１／９００，７６９号が読者に指示される。アイデンティティハブ３２を構成するステップについての詳細を、図７−８を参照して以下で説明する。

アイデンティティハブ３２は、メンバー属性の類似性および差異を比較し、採点するために、複数のアルゴリズムを利用する。より具体的には、アイデンティティハブ３２は、タスクを作成するように、および検索機能性を支援するように、データにアルゴリズムを適用する。いくつかの実施形態では、アルゴリズムエディタ４２０を介して、ワークベンチ２０は、アイデンティティハブ３２の特定の実装のためにアルゴリズムを定義およびカスタマイズする能力を、ユーザ５１に提供する。アルゴリズムエディタ４２０の一実施形態を、図９Ａ−９Ｂを参照して以下で説明する。

いくつかの実施形態では、データ分析ツール４３２を介して、ユーザ５１は、アイデンティティハブ３２におけるデータ記録の属性の有効性を分析することができる。いくつかの実施形態では、実体分析ツール４３４を介して、ユーザ５１は、アイデンティティハブ３２におけるデータ記録と関連付けられた実体を分析することができる。いくつかの実施形態では、バケット分析ツール４３６を介して、ユーザ５１は、バケット（候補記録のグループ）、およびそのようなバケッティング戦略がアイデンティティハブ３２に及ぼす影響を分析することができる。いくつかの実施形態では、連鎖分析ツール４３８を介して、ユーザ５１は、連鎖メンバー記録と、それらの記録の派生物を採点する際に利用される閾値とに関連付けられたエラー率を分析することができる。分析ツール４３０のいくつかの実施形態を、図１０−１７を参照して以下で説明する。

図５は、アイデンティティハブ３２を構成するための方法の一実施形態のフロー図を図示する。いったんワークベンチ２０が、ステップ５１０でコンピュータ４０にインストールされ、その上で作動すると、ユーザ５１は、ワークベンチ２０にアクセスし、新規Ｉｎｉｔｉａｔｅ（登録商標）プロジェクトを作成するか、または既存のＩｎｉｔｉａｔｅ（登録商標）プロジェクトを開くことができる。いくつかの実施形態では、Ｉｎｉｔｉａｔｅ（登録商標）プロジェクトは、アイデンティティハブ構成、およびそれと関連付けられたファイルを保持するための容器である。いくつかの実施形態では、Ｉｎｉｔｉａｔｅ（登録商標）プロジェクトは、複数のアーチファクトを備える。複数のアーチファクトの例は、アイデンティティハブ構成、そのアイデンティティハブ構成によって利用されるアルゴリズム、分析ツール（４３０）からの以前の分析結果の結果を含む。ステップ５２０では、ユーザ５１は、新規構成を作成する、または、ステップ５１０で作成されるか、または開かれるＩｎｉｔｉａｔｅ（登録商標）プロジェクト内の既存の構成を開くことができる。ステップ５３０では、ユーザインターフェース５０を介して、ユーザ５１は、ステップ５２０で作成されるか、または開かれる構成を分析、修正、および／または有効化することができる。ステップ５４０では、ユーザ５１は、コンピュータ４０において構成をローカルで保存することができる。ステップ５４０では、ユーザ５１は、アイデンティティハブ３２のインスタンスを実行するサーバへのネットワーク接続を介して、保存された有効構成をアイデンティティハブ３２のインスタンスに遠隔で配備することができる。いくつかの実施形態では、アイデンティティハブ構成およびアルゴリズムを、リアルタイムでアイデンティティハブ３２のインスタンスに直接配備することができる。いくつかの実施形態では、いくつかのタスク（ジョブ）は、構成配備外で、アイデンティティハブ３２で直接行われる必要があってもよい。そのようなシナリオでは、ワークベンチ２０のいくつかの実施形態が、単一ジョブを行い、またはジョブ集合内のジョブをグループ化し、アイデンティティハブ３２上でそれらを実行し、ユーザインターフェース５０を介して、ワークベンチ表示内でユーザ５０にジョブ実行の進捗または状態を表示するための手段を提供してもよい。いくつかの実施形態では、ユーザ５０は、コンピュータ４０におけるユーザインターフェース５０を介して、アイデンティティハブ３２からジョブ結果を検索するか、または閲覧することができる。ユーザインターフェース５０のいくつかの実施形態については、参照することにより本明細書に組み込まれる、「ＨＩＥＲＡＲＣＨＹＧＬＯＢＡＬＭＡＮＡＧＥＭＥＮＴＳＹＳＴＥＭＡＮＤＵＳＥＲＩＮＴＥＲＦＡＣＥ」と題された２００７年９月１４日出願の米国特許出願第１１／９０１，０４０号が読者に指示される。

図６は、ユーザインターフェース５０の一実施形態のスクリーンショット６０を図示する。より具体的には、スクリーンショット６０は、ユーザインターフェース５０の一実施形態を通してコンピュータ４０上に表示されるような、ワークベンチ２０の構成エディタ４１０のレイアウト例を図示する。この実施例では、構成エディタ４１０は、メニュー６１と、ショートカット６３と、表示６４、６５、６６、および６７と呼ばれるワークエリアの集合とを備える。メニュー６１は、そのそれぞれが異なる機能の集合を提供する、種々のメニューアイテムへのアクセスを提供する。例えば、メニューアイテム「Ｉｎｉｔｉａｔｅ」６２を介して、ユーザ５１は、新規Ｉｎｉｔｉａｔｅプロジェクトを作成する、アイデンティティハブ構成をインポートするか、アイデンティティハブ構成を配備するか、新規ジョブ集合を作成するか、またはローカルの重みを有効化する等ができる。ショートカット６３は、現在使用中であるワークベンチ２０の機能への迅速なアクセスを提供する。例えば、ユーザ５１は、ショートカット６３を介して、構成エディタ４１０と分析ツール４３０とを迅速に切り替えてもよい。表示６４、６５、６６、および６７は、特定種類のデータを含有する、個々のウィンドウである。ほとんどの表示は、それらのタブをドラッグアンドドロップすることによって、ユーザインターフェース６０の画面の異なる領域へ移動させることができる。表示を変更するためには、ユーザ５１は、メニュー６１からのメニューアイテム「ウィンドウ」下で「表示を示す」を選択することができる。以下は、ワークベンチ２０に対するユーザインターフェース５０の一実施形態に含まれる、表示の簡潔な説明である。これら全ての表示は、ワークベンチ２０内で隠し、拡張することができる。

（ナビゲータ表示）
ナビゲータ表示は、ワークベンチアーチファクトをブラウズするためのツリー構造を提供する。ナビゲータ表示から、以下の機能にアクセスすることができる。
・プロジェクトディレクトリを詳しく検討する
・プロジェクトファイルを開き、閲覧する
・プロジェクトファイルをコピーし、貼り付け、削除し、名前を変更する
・リソースをインポートする
・インポートしたリソースを更新する
・ファイルの作業集合を選択する（および作業集合において使用されないファイルを隠す）
・ファイルの作業集合を非選択状態にする

（プロパティ表示）
プロパティ表示は、ユーザによって作成された任意の構成要素のプロパティ値をユーザが編集できるようにする。

（問題表示）
問題表示は、ワークベンチにおける構成および有効化の問題の一覧を提供する。ほとんどの有効化は、プロジェクトにおけるファイルリソースが保存された時に行われるため、エラーを即座に表示することができる。

（コンソール表示）
コンソール表示は、広範なバックグラウンドタスク中に進捗メッセージおよびエラーを示す。

（ジョブ表示）
ジョブ表示は、ジョブまたはジョブ集合の進捗または完了（実行済み）状態を示す。ジョブ表示についてのさらなる詳細を、図８Ａおよび８Ｂを参照して以下で説明する。

（分析物表示）
分析物表示は、分析的クエリの結果を表示する。この表示でデータを見るためには、ワークベンチは、ハブがクエリを表示するためにハブに接続される必要がある。

（検索表示）
検索表示は、既存の構成に対する検索の結果を表示する。ユーザは、検索表示中の行をダブルクリックすることによって、構成オブジェクトを開くことができる。

いくつかの実施形態では、ワークベンチ２０は、構成エディタ４１０およびアルゴリズムエディタ４２０等の、いくつかの特殊な種類のエディタを提供する。いくつかの実施形態では、ワークベンチ２０はまた、標準的テキストおよびＪａｖａ（登録商標）エディタを含む、他のエディタの種類もサポートする。図７Ａおよび７Ｂは、それを介してアイデンティティハブ３２のハブ構成７１を修正することができる、構成エディタ４１０の一実施形態のスクリーンショット７０ａおよび７０ｂを図示する。

より具体的には、スクリーンショット７０ａは、ワークベンチ２０にインポートされたハブ構成７１の表現を図示する。いくつかの実施形態では、構成エディタ４１０は、アプリケーション、属性型式、情報源、連鎖、メンバー型式、関係型式等の表示を示す、ナビゲーションメニュー７２を備えることができる。図７Ａを参照すると、メンバー型式表示７３は、ユーザが、メンバー型式を追加、編集、および除去できるようにする。いくつかの実施形態では、メンバー型式は、データが該当する「オブジェクトカテゴリ」を識別する（例えば、個人、プロバイダ、ゲスト、または団体）。いくつかの実施形態では、属性、実体型式、複合表示、ソース、およびアルゴリズムといった、それぞれ独自のタブを有する、特定のメンバー型式に対して構成可能な５つのオブジェクトがある。

いくつかの実施形態では、属性型式表示は、ユーザが、メンバー型式と関連付けられた属性を閲覧できるようにする。例えば、メンバー型式「個人」７４については、属性タブは、メンバー型式「個人」７４と関連付けられる、ＡＰＰＴおよび生年月日等の属性を表示してもよい。この実施例では、ＡＰＰＴという属性には、ＭＥＭＡＰＰＴの属性型式があり、生年月日という属性には、ＭＥＭＤＡＴＥの属性型式がある。いくつかの実施形態では、属性型式（セグメント）は、Ｉｎｉｔｉａｔｅ（登録商標）データスキーマと一致して、ハブ挙動およびメンバー情報を定義する。いくつかの実施形態では、属性型式は、メンバー属性型式と、関係属性型式とを備える。いくつかの実施形態では、メンバー属性型式は、所定の（「固定された」）属性型式と、実装時定義の属性型式とを備え、それらは、「ＩＭＰＬＥＭＥＮＴＡＴＩＯＮＤＥＦＩＮＥＤＳＥＧＭＥＮＴＳＦＯＲＲＥＬＡＴＩＯＮＡＬＤＡＴＡＢＡＳＥＳＹＳＴＥＭＳ」と題された２００７年９月１３日出願の上記で参照した米国特許出願第１１／９００，７６９号で説明されている。実装時定義の属性型式は、アイデンティティハブの実装時に作成することができ、したがって、生成されたクラスと関連付けられない。関係属性型式は、関係に特有である属性型式である。属性型式は、メンバー属性型式および関係属性型式の両方にはなり得ない。

いくつかの実施形態では、実体型式表示は、アイデンティティまたは世帯等の実体型式の管理を可能にする。実体管理に対するさらなる教示ついては、いずれも参照することにより本明細書に組み込まれる、「ＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＦＯＲＭＡＮＡＧＩＮＧＥＮＴＩＴＩＥＳ」と題された２００８年３月２７日出願の米国特許出願第１２／０５６，７２０号、および「ＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＦＯＲＩＮＤＥＸＩＮＧＩＮＦＯＲＭＡＴＩＯＮＡＢＯＵＴＥＮＴＩＴＩＥＳＷＩＴＨＲＥＳＰＥＣＴＴＯＨＩＥＲＡＲＣＨＩＥＳ」と題された２００７年１月２２日出願の米国特許出願第１１／６５６，１１１号が読者に指示される。

いくつかの実施形態では、複合表示は、ユーザによって定義されるようなメンバーの全体像を表す。複合表示の構成は、ワークベンチ２０におけるメンバー属性データの挙動および表示を制御する、規則を確立することができる。例えば、特定のメンバーのメンバー属性データは、名前、住所、電話、および社会保障番号で構成されてもよい。

いくつかの実施形態では、ソース表示は、ユーザが、ワークベンチ２０と相互作用するソースに関する情報を追加および管理できるようにする。ソースの例は、定義のソースおよび情報のソースを含んでもよい。情報のソースの例は、上記で説明される、ソース３４、３６、３８を含んでもよい。定義のソースは、メンバー（記録）が作成され、通常は更新されるものである。いくつかの実施形態では、ワークベンチ２０は、定義のソースに更新を送信してもよい。

いくつかの実施形態では、アルゴリズムのタブは、比較を処理するためにハブが使用するアクティブアルゴリズムをユーザが作成または識別できるようにする。いくつかの実施形態では、ハブインスタンス上の１つのメンバー型式につき、１つだけのアルゴリズムがアクティブとなり得る。これらのアルゴリズム（アクティブおよび非アクティブ）は、ハブ構成において現在定義されているメンバー型式に基づく。各新規作成アルゴリズムは、ハブ構成におけるメンバー型式と関連付けられなければならない（図９Ａおよび９Ｂを参照）。

いくつかの実施形態では、自動リンク閾値以上を採点する記録については自動で（自動リンク）、またはタスク解決中にユーザによって手動で（事務的レビュー）、連鎖を形成することができる。連鎖の目的は、メンバー（記録）の正確な企業規模の表示を可能にする。図７Ｂを参照すると、いくつかの実施形態では、構成エディタ４１０の連鎖表示７６は、連鎖型式７７および連鎖状態７８を提供してもよい。この機能性は、連鎖型式および関連状態を追加または編集するために使用することができる。この実施例では、連鎖型式７７が、連鎖ＩＤ、連鎖型式、および種類を一覧化して、有効な実体関係を定義する一方で、連鎖状態７８は、状態ＩＤ、連鎖状態、およびカテゴリを一覧化して、企業関係のワークフロー状態を表す。いくつかの実施形態では、これらの列は、列の見出しをクリックすることによって、昇順または降順でソートされてもよい。

簡単に図７Ａを参照すると、ナビゲーションメニュー７２はまた、アプリケーション表示および関係型式表示も示す。アプリケーション表示は、いくつかの機能を一覧化してもよい。いくつかの実施形態では、ユーザは、アプリケーションをアクティブまたは非アクティブとマークするために、この構成要素における機能を使用することができる。いくつかの実施形態では、企業ユーザは、アプリケーション表示から、企業のサイトにおいて実装されたＩｎｉｔｉａｔｅ（登録商標）アプリケーションを追加および除去することができる。関係型式表示は、利用可能な関係型式を示してもよい。関係型式は、２つの異なる（または同じ）実体型式の間に存在することができる、関連付けの型式である。例えば、個人が別の個人を管理することができるか、または、団体が別の団体を合法的に所有することができる。いくつかの実施形態では、ユーザは、実体の間の関係を管理するために、この構成要素における機能を使用することができる。実体に関する情報を関係付けるステップに対するさらなる教示については、参照することにより本明細書に組み込まれる、「ＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＦＯＲＩＮＤＥＸＩＮＧ，ＲＥＬＡＴＩＮＧＡＮＤＭＡＮＡＧＩＮＧＩＮＦＯＲＭＡＴＩＯＮＡＢＯＵＴＥＮＴＩＴＩＥＳ」と題された２００７年９月２８日出願の米国特許出願第１１／９０４，７５０号が読者に向けられる。簡略にするため、本開示では、全ての利用可能な表示が示され、または説明されているわけではない。しかしながら、当業者であれば、付加的な表示、およびそのような表示を介して提供される付加的な機能性も可能であることを理解できるであろう。例えば、文字列表示は、ユーザが、ある受信データ値をどのように取り扱うかについてアルゴリズムに命令するための規則またはガイドラインを作成できるようにしてもよい。別の例として、監査表示は、ユーザがアイデンティティハブ３２との相互作用のための監査ロギングを確立できるようにし、ユーザがこれらの相互作用を行うことができるようにしてもよい。

ワークベンチ２０のいくつかの実施形態では、ハブ構成およびその関連ファイルを保持する容器が、プロジェクトと呼ばれる。ハブ構成をプロジェクトにインポートする前に、ユーザは、新規プロジェクトを作成するか、または既存のプロジェクトをインポートする必要がある。新規プロジェクトを作成するために、ユーザは、「Ｉｎｉｔｉａｔｅ」メニュー６１から「新規Ｉｎｉｔｉａｔｅプロジェクト・・・」を選択し、新規プロジェクトの名前を入力することができる。新規プロジェクトは、ユーザによって特定されるような、現在のワークスペースディレクトリの中、または現在のワークスペース外の場所（別のローカルドライブまたはネットワークドライブ等）で、おそらくワークベンチテンプレートを使用して、作成されてもよい。プロジェクト管理のいくつかの実施形態に対するさらなる教示については、参照することにより本明細書に組み込まれる、「ＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＦＯＲＰＲＯＪＥＣＴＭＡＮＡＧＥＭＥＮＴ」と題された２００７年６月２９日出願の米国特許第１１／８２４，２１０号が読者に指示される。

次に、ワークベンチ２０は、プロジェクトを作成し、ワークスペースディレクトリ下に以下のディレクトリを追加する。
・フロー―フローファイル（．ｉｆｌｏｗ）を含有する
・機能―あらゆるカスタム機能を含有する
・ｌｉｂ―配備のために必要とされる、あらゆる付加的なＪａｖａ（登録商標）コードライブラリファイル（．ｊａｒ）を含有する
・サービス―プロジェクトにインポートされる全てのデータソースＷＳＤＬファイル（．ｗｓｄｌ）を含有する
・ｓｒｃ―必要とされる、あらゆる付加的なＪａｖａ（登録商標）ソースファイル（．ｊａｖａ（登録商標））を含有する
・ａｎｏｎｕｔｉｌ―サンプルデフォルト値ファイルおよびフィルタファイルを含有する
・ハンドラ―Ｊａｖａ（登録商標）ハンドラをパッケージングするためのスクリプティングサポートを含有する
・ジョブ―ハブとプロジェクトとの登録と関係付けられた情報を含有する

プロジェクトは、アイデンティティハブ３２のインスタンスを実行するサーバへの接続を介して、アイデンティティハブ３２と関連付けられる。産出および試験を含む、いくつかの種類の接続がある。いくつかの実施形態では、メニュー６１からのメニューアイテム「Ｉｎｉｔｉａｔｅ」６２の下で対応する機能にアクセスすることによって、アイデンティティハブ３２のインスタンスへの接続を追加、編集、または削除することができる（図６参照）。ハブ構成は、「Ｉｎｉｔｉａｔｅ」メニュー６２から「ハブ構成をインポートする・・・」機能にアクセスすることによって、プロジェクトにインポートすることができる。いくつかの実施形態では、アイデンティティハブ３２からハブ構成情報を検索するために、ユーザの名前およびパスワードが必要とされてもよい。いくつかの実施形態では、インポートされたハブ構成の名前が、構成エディタ４１０のナビゲータ表示６４で示されてもよく、インポートされたハブ構成の構成要素が、ワークスペース６５で示されてもよい。

図８Ａおよび８Ｂは、それを介してジョブ構成を修正することができる、構成エディタ４０１の一実施形態のスクリーンショット８０ａおよび８０ｂを図示する。ワークベンチ２０のいくつかの実施形態では、アイデンティティハブ３２によって行われるタスクは、ジョブと呼ばれてもよく、１つ以上のジョブのグループ化は、ジョブ集合と呼ばれてもよい。いくつかの実施形態では、利用可能なジョブ（タスク）は、構成ジョブ、データ分析ジョブ、ハブ管理ジョブ等に分類されてもよい。いくつかの実施形態では、ジョブ結果は、プロジェクトによって、アイデンティティハブ３２のサーバを実行するサーバ上に記憶することができ、多くの場合、コンピュータ４０におけるサーバから検索または閲覧することができる。いくつかの実施形態では、構成エディタ４１０におけるジョブ表示を介して、タスクの以下の限定的一覧が行われてもよい。
・構成をハブに配備する
・重みを生成する
・閾値分析ペアを作成する
・ハブからファイルを検索する

（ハブ構成の配備）
このユーティリティは、構成プロジェクトをハブに配備する。このジョブは、（上記で説明される「ｉｎｉｔｉａｔｅ」メニューオプションの代わりに）別のジョブと併せて配備を行うために使用することができる。このジョブが実行されると、ハブは自動的に停止され、再起動される。「Ｉｎｉｔｉａｔｅ」メニュー６２から実行する時に、以下のオプションが利用可能である。
・重みテーブルを配備する。このオプションは、選択されると、選択されたワークベンチプロジェクトディレクトリにおける重みテーブルがハブに配備されることを可能にする。
・必要であれば、データベーステーブルを作成および／またはドロップする。このオプションは、選択されると、構成を支援するように、データベーステーブル操作が必要に応じて行われることを可能にする。
・グループ同期化をチェックする。このオプションは、選択されると、ローカルで一覧化されたジョブグループが、ハブにおいて定義されたグループとともに最新であることをチェックする。一実施形態では、このオプションが選択され、グループが一致しない場合は、配備が中止されてもよい。

（重み生成）
このユーティリティは、重み生成タスクを行う。このジョブは、入力として導出データ（比較データおよびバケッティングデータ）を必要とする。いくつかの実施形態では、導出データファイルは、上記で説明される標準化ならびにバケッティングステップ３２０および３３０中に、ｍｐｘｄａｔａ、ｍｐｘｐｒｅｐ、ｍｐｘｆｓｄｖｄ、またはｍｐｘｒｅｄｖｄ等のユーティリティによって、生成されてもよい。一例として、図８Ａは、構成エディタ４０１の一実施形態を通して、このジョブをどのように構成することができるかを示す、スクリーンショット８０ａを図示する。具体的には、実体型式ｉｄ８４について、構成エディタ４０１の一実施形態は、ステップ、入力および出力、性能調整、オプション、およびログオプションを含む、複数のタブを示してもよい。いくつかの実施形態では、ステップタブは、ユーザが、実行する重み生成ステップを選択し、過程の終わりまで後続ステップを実行するかどうかを示すことを可能にしてもよい。重み生成ステップの例は、以下を含んでもよい。
・以前の実行からアーチファクトを削除する
・全ての属性値のカウントを生成する
・メンバーのランダムペアを生成する
・ランダムメンバーを比較することによってランダムデータを導出する
・一致した候補ペアの換算を行う
・一致した集合、一致した統計値、および初期重みを生成する
・属性が少なすぎるため、最後のステップを飛ばして進む
・以前のステップを反復し、重みの収束についてチェックする
・過程の終わりまで残りの全てのステップを実行する

いくつかの実施形態では、入力および出力タブは、ユーザが種々の入力／出力ディレクトリを特定することを可能にしてもよい。入力／出力ディレクトリの例は、以下を含んでもよい。
・ＢＸＭ入力ディレクトリ：そこからバルク交差一致結果が読み出される、入力ディレクトリを特定する。このディレクトリは、導出データを生成したｍｐｘユーティリティによって使用される、出力ディレクトリを一致させなければならない。
・作業ディレクトリ：重みテーブルがワークベンチプロジェクト内に保存されるものである、ディレクトリを特定する。一実施形態では、デフォルトは重みディレクトリである。全てのファイルは、実体型式に対して名前を付けられた、特定された作業ディレクトリ内のサブディレクトリに保存される。
・ＦＲＱ出力ディレクトリ：生成された属性頻度データが書き込まれる、出力ディレクトリを特定する。
・ＵＰＡＩＲＳ出力ディレクトリ：生成されたランダムペアデータが書き込まれる、出力ディレクトリを特定する。
・ＵＳＡＭＰＳ出力ディレクトリ：生成された不一致サンプルペアデータが書き込まれる、出力ディレクトリを特定する。
・ＭＰＡＩＲＳ出力ディレクトリ：生成された一致ペアデータが書き込まれる、出力ディレクトリを特定する。
・ＭＳＡＭＰＳ出力ディレクトリ：生成された一致ペアサンプルデータが書き込まれる、出力ディレクトリを特定する。
・ＲＵＮ出力ディレクトリ：生成された重みが書き込まれる、出力ディレクトリを特定する。このディレクトリには、各反復の増分数が付加される。

いくつかの実施形態では、性能調整タブは、ユーザが以下のパラメータを修正することを可能にしてもよい。
・スレッドの数
・最後のステップにおける反復の最大数
・比較バケットパーティションの数
・ランダムペアバケットパーティションの数
・一致ペアバケットパーティションの数
・頻度パーティションの数
・入力／出力パーティションの最大数
・監査に使用されるＡｕｄｒｅｃｎｏ
・生成するランダムペアの数
・処理された記録を報告するための間隔
・最大バケット集合サイズ
・アイテム記録を書き込むための最小重み

いくつかの実施形態では、オプションタブは、ユーザに以下のオプションを提供してもよい。
・コード化。いくつかの実施形態では、ワークベンチ２０は、ＬＡＴＩＮ１、ＵＴＦ８、およびＵＴＦ１６コード化を支援する。他のコード化方法論も利用されてもよい。異なる言語によるデータ記録を構文解析するステップに対するさらなる教示については、参照することにより本明細書に組み込まれる、「ＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＦＯＲＰＡＲＳＩＮＧＬＡＮＧＵＡＧＥＳ」と題された２００７年１２月３１日出願の米国特許出願第１１／９６７，５８８号が読者に指示される。
・監査。いくつかの実施形態では、ワークベンチ２０は、データ記録の集合の監査を支援する。
・比較モード。いくつかの実施形態では、このオプションは、比較機能を制限するために使用することができる。例えば、一致およびリンクのみに対する重みを生成する、検索のみに対する重みを生成する、または、一致、リンク、および検索に対する重みを生成する。

いくつかの実施形態では、図８Ａの８０ａのオプションタブの下で、以下の重み生成パラメータを見出すことができる。ここで、データは、種々のソースに特有である、使用される閾値を含む。
・属性一致ペア率閾値（ｗｇｔＮＲＭ）―比較で使用される第３のフィルタの閾値を定義する。
・属性一致ペア閾値（ｗｇｔＡＢＳ）―属性比較で使用される第２のフィルタの閾値を定義する。
・収束閾値（ｗｇｔＣＮＶ）―重み生成変換の許容値を定義する。
・初期重み推定値のデータ品質率（ｗｇｔＱＯＤ）―一致集合エラー率を定義する。
・検出漏れ率（ｗｇｔＦＮＲ）―事務的レビューおよび自動リンク閾値を計算するために使用される、検出漏れ率を定義する。
・誤検出率（ｗｇｔＦＰＲ）―事務的レビューおよび自動リンク閾値を計算するために使用される、誤検出率を定義する。
・一致ペア閾値（ｗｇｔＭＡＴ）―比較で使用される第１のフィルタの閾値を定義する。
・最小属性数（ｗｇｔＦＬＲ）―属性値頻度数に対する下限を定義する。

いくつかの実施形態では、ログオプションタブは、ユーザに以下のロギングオプションを提供してもよい。
・トレースロギング
・デバッグログ
・タイマロギング
・ＳＱＬロギング

この「重み生成」ジョブが完了すると、結果を閲覧することができ、重みをローカルで保存することができる。いくつかの実施形態では、「重み生成」の出力を、ハブからプロジェクトにコピーすることができる。重み生成に対するさらなる教示については、参照することにより本明細書に組み込まれる、「ＳＹＳＴＥＭＡＮＤＭＥＴＨＯＤＦＯＲＡＵＴＯＭＡＴＩＣＷＥＩＧＨＴＧＥＮＥＲＡＴＩＯＮＦＯＲＰＲＯＢＡＢＩＬＩＳＴＩＣＭＡＴＣＨＩＮＧ」と題された２００７年６月１日出願の米国特許出願第１１／８０９，７９２号が読者に指示される。

データ分析ジョブの一例として、図８Ｂは、構成エディタ４０１の一実施形態を介して、閾値分析ペア生成ジョブをどのように構成することができるかを図示する、スクリーンショット８０ｂを図示する。具体的には、構成エディタ４０１の一実施形態は、ユーザが、実体型式ならびに適切な入力ディレクトリおよび出力ファイルを特定することを可能にしてもよい。ユーザはさらに、スコアあたりのペアの数およびスコアの範囲を特定することができる。図８Ｂの実施例では、最小スコアが８．０であり、最大スコアが２５．０である。この実施例では、サンプルペアジェネレータは、１７１のスコアビンのそれぞれにおいて、１０のランダムペアを選ぶ（０．１の増分で８．０〜２５．０）。

図７Ａを参照して上述のように、新規作成アルゴリズムは、ハブにおけるメンバー型式と関連付けられなければならない。図９Ａおよび９Ｂは、アルゴリズムエディタ４２０の一実施形態のスクリーンショット９０ａおよび９０ｂを図示する。いくつかの実施形態では、アルゴリズムエディタ４２０は、比較論理を適用するためにアイデンティティハブ３２によって使用されるアルゴリズムファイルをユーザが編集できるようにする。具体的には、アルゴリズムは、最初に作成された時には空である。アルゴリズムエディタ４２０は、ユーザが、アルゴリズムエディタ４２０におけるパレット９１からアルゴリズム構成要素および接続を追加して、アルゴリズムを構築できるようにする。図９Ａの実施例では、スクリーンショット９０ａは、メンバー型式「個人」７４と関連付けられたアルゴリズムを図示する。いくつかの実施形態では、複数のアルゴリズムを特定のメンバー型式と関連付けることができるが、１つだけを所与の時に「アクティブ」アルゴリズムとして設定することができる。アルゴリズムは、完全性について有効化されるまでデータベースに変更が行われないように、ローカルで編集される。

図９Ａおよび９Ｂが図示するように、アルゴリズムは、属性の構成要素、標準化機能の構成要素、比較およびクエリ役割の構成要素、ならびにバケッティングおよび比較機能の構成要素を含む、複数の構成要素を備えてもよい。ユーザは、１つ以上のアルゴリズム構成要素を追加、修正、または削除することによって、アルゴリズムを修正することができる。属性の構成要素は、ユーザがデータ要素に対するプロパティまたはフィールドを定義することを可能にする。これらの属性は、アルゴリズムのメンバー型式によってフィルタにかけられる。標準化機能の構成要素は、比較、バケッティング、および検索（クエリ）目的で受信ソースデータを標準化または初期化するための機能を備える。このことは、全てのアルファベット文字の大文字化、句読点の除去、匿名値チェック、およびデータ順序付けを意味し得る。いったん標準化されると、データは、導出データの比較構成要素として記憶され、バケッティングデータの生成で使用される。いくつかの実施形態では、標準化されたデータは、ハブデータベースに記憶されず、したがって、メンバーデータを変更しない。例えば、電話番号が、２３２−１２３−４５６７としてソースに入力されてもよい。標準化ルーチンがダッシュ記号および市外局番を取り去って、番号を１２３４５６７として初期化してもよい一方で、アイデンティティハブ３２のデータベース４６に記憶される番号は、２３２−１２３−４５６７のままである。比較およびクエリ役割の構成要素は、アルゴリズムで比較機能および／またはクエリ機能をどのように使用することができるかをユーザが定義できるようにする。バケッティング機能は、共有情報のグループを識別する、バケッティングデータを識別するために使用することができる。例えば、バケットは、名前（ファーストネーム、名字、ミドルネーム）、生年月日＋名字、住所、および社会保障番号に対して定義されてもよい。この構成要素はまた、ユーザが、バケットにおけるデータ要素の組み合わせを定義できるようにもする。アルゴリズムエディタ４２０の実施形態に対するさらなる教示については、参照することにより本明細書に組み込まれる、「ＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＦＯＲＡＧＲＡＰＨＩＣＡＬＵＳＥＲＩＮＴＥＲＦＡＣＥＦＯＲＣＯＮＦＩＧＵＲＡＴＩＯＮＯＦＡＮＡＬＧＯＲＩＴＨＭＦＯＲＴＨＥＭＡＴＣＨＩＮＧＯＦＤＡＴＡＲＥＣＯＲＤＳ」と題された２００７年２月５日出願の米国特許出願第１１／７０２，４１０号が読者に指示される。

したがって、一実施形態では、アイデンティティハブを分析するための方法は、アイデンティティハブの構成を生成するために、最初のデータ記録の集合を利用するステップと、アイデンティティハブの構成と関連付けられたバケッティング戦略に従って、その最初のデータ記録の集合またはそれの部分集合に基づいて作成されたバケットを分析するステップと、アイデンティティハブの性能に対するそれらのバケットの効果を分析するステップと、それに応じてバケッティング戦略を変更するステップとを含んでもよい。一実施形態では、バケッティング戦略は、バケットを作成する際に利用されるアルゴリズムを編集すること、またはアルゴリズムと関連付けられた１つ以上のパラメータ値を変更することによって、変更することができる。一実施形態では、アルゴリズムは、実体型式と関連付けられる。

いくつかの実施形態では、上記のコアアルゴリズム構成機能に加えて、アルゴリズムエディタ４２０の閾値および重みプロパティタブ９２を介して、自動重み生成パラメータを構成することもできる。重みプロパティが実体型式と関連付けられるため、重みプロパティを閲覧するために、ユーザは、最初に実体型式を選択しなければならない。この実施例では、スクリーンショット９０ｂは、実体型式ｉｄ８４に対する閾値および重みプロパティを図示する。

重み生成変換を含む、重み生成に対するさらなる教示については、参照することにより本明細書に組み込まれる、「ＳＹＳＴＥＭＡＮＤＭＥＴＨＯＤＦＯＲＡＵＴＯＭＡＴＩＣＷＥＩＧＨＴＧＥＮＥＲＡＴＩＯＮＦＯＲＰＲＯＢＡＢＩＬＩＳＴＩＣＭＡＴＣＨＩＮＧ」と題された２００７年６月１日出願の米国特許出願第１１／８０９，７９２号が読者に指示される。

図９Ｂを参照すると、重みが確立された後に、ユーザは、特定のハブ構成に対する適切な事務的レビューおよび自動リンク閾値を手動で設定するか、または閾値計算機９３を使用して計算することができる。閾値計算機９３は、適切な事務的レビューおよび自動リンク閾値を計算するために、ユーザがアイデンティティハブ３２のデータベース４６からデータをサンプリングできるようにする。いくつかの実施形態では、ユーザはまた、事務的レビュー閾値および自動リンク閾値を設定して、誤検出率、検出漏れ率、およびタスクの推定数についての推定値を得るために、閾値計算機９３を使用することもできる。いくつかの実施形態では、評価されたサンプルペアデータに基づいて、推定誤検出率（ＦＰＲ）または統計的ＦＰＲのいずれかを使用して、閾値を計算することができる。これらの値は、選択された（または全ての）ソースペアに使用することができる。統計的オプションは、ユーザが、上記で説明される閾値分析ペア生成ジョブを最初に実行し、次いで、完了したジョブに「ジョブ結果を得る」動作を行うことを要求する。

いくつかの実施形態では、候補閾値には、ワークベンチ２０が提供される。ユーザは、候補閾値、タスク、および連鎖をレビューし、特定のハブ構成に対する適切な閾値を判定することができる。いくつかの実施形態では、候補閾値を以下のように計算することができる。

（自動リンク閾値）
候補自動リンク閾値は、ファイルサイズおよび許容誤検出率に依存する。ｆｐｒを許容誤検出率（デフォルト値１０^∧（−５））にし、ｎｕｍをデータ集合の中の記録の数にする。すると、候補自動リンク閾値は、ｔｈｒｅｓｈ＿ａｌ＝−ｌｎ［−ｌｎ（１−ｆｐｒ）／ｎｕｍ］／ｌｎ（１０）であり、式中、ｌｎは、自然（ベースｅ）対数である。

（事務的レビュー閾値）
候補の事務的レビュー閾値は、所望の検出漏れ率（ｆｎｒ）に基づいて設定される。例えば、重複の９５％が上記の我々の事務的レビュー閾値を採点することが所望される場合、デフォルトは０．０５で設定される。実際のｆｎｒ値は、一致のために計算される重み、各属性が有効値を有する時間の分率、およびこれらの値の分布に依存してもよい。一致集合スコアの実験的分布を判定し、この分布から事務的レビュー閾値を計算するために、ブートストラップ手順が使用されてもよい。このブートストラップのために、以下のように、ランダムメンバーの一覧を生成し、各メンバーの情報を計算し、このサンプルから実験的分布を形成する。

データベースの中で、潜在的冗長性を伴うｎｕｍｅｂｔランダムメンバーを選択する。これらを、ｍｅｍｒｅｃｎｏ＿１、ｍｅｍｒｅｃｎｏ＿２、．．．、ｍｅｍｒｅｃｎｏ＿ｎｕｍｅｂｔと呼ぶ。これらのそれぞれについて、それ自体に対してメンバーを採点する（すなわち、メンバーの情報を計算する）。これらのスコアを、ｓ＿１、ｓ＿２、．．．、ｓ＿ｎｕｍｅｂｔと呼ぶ。ｓ＿ｍｉｎをこれらのスコアの最小値とし、ｓ＿ｍａｘをこれらのスコアの最大値とし、０．１ずつ増分するｓ＿ｍｉｎからｓ＿ｍａｘまでのテーブルを作成して、スコアをビンにする。テーブルは、以下のように、ｎ＝（ｓ＿ｍａｘ−ｓ＿ｍｉｎ）／０．１の行を有する。

表１：一致集合のスコア分布

ここで、
ｆ＿１＋ｆ＿２＋．．．＋ｆ＿ｊ＞ｆｎｒ
となるように、ｊを第１の指数とし、
次いで、候補の事務的レビュー閾値は、
ｔｈｒｅｓｈ＿ｃｌ＝ｓ＿ｍｉｎ＋（ｊ−１）＊０．１である。

本明細書で開示される実施形態では、上記の構成ツールは、バケットおよび実体等の、構成の種々の側面を測定するための分析ツールの集合と一体化している。これらのツールは、構成を評価し、構成と関連付けられたエラーおよび潜在的な性能の問題を見出する支援を行うことができる。特に、これらのツールは、ユーザがハブをシームレスに構成し、構成の正確性を有効化する支援を行うことができる。

図１０Ａおよび１０Ｂを参照すると、ワークベンチ２０のいくつかの実施形態は、分析ツール４３０を実装する分析物表示を備えてもよい。分析物表示は、分析のためのデータを提供するために、クエリツールの集合を構成ユーザに提供してハブ構成を提供してもよく、分析物表示の機能性は、ハブインスタンスと関連付けられる必要がある。図１０Ａは、ハブがプロジェクトｄｅｍｏ８１に対する分析ソースとして選択され、ハブ構成７１、メンバー型式「個人」７４、および実体型式ｉｄ８４が分析のために選択されていることを示す、ユーザインターフェース５０の一実施形態のスクリーンショット１００ａを図示する。図１０Ａに示されるように、「分析データをスナップショットに保存する」オプションを選択し、分析ＩＤフィールドに名前を提供することによって、分析データをスナップショットに保存することができる。いくつかの実施形態では、スナップショットは、ナビゲータ表示の中の「スナップショット」フォルダにＸＭＬ形式で保存される。いくつかの実施形態では、図４を参照すると、スナップショットは、コンピュータ４０のコンピュータ可読記憶媒体５６にローカルで保存することができる。データをスナップショットに保存することによって、ユーザは、構成変更が行われる前または後から、または異なる時点から、分析データを比較することができる。入力パラメータが異なるという条件で、同じクエリの複数のコピーを単一のスナップショット内に保存することができる。

図１０Ｂは、スナップショットがプロジェクトＡｌｐｈａに対する分析ソースとして選択され、ｍａｉｎ＿ｈｕｂ＿Ｂｕｃｋｅｔ３−１０−０８が利用可能なスナップショットに選択されていることを示す、ユーザインターフェース５０の一実施形態のスクリーンショット１００ｂを図示する。この実施例では、メンバー型式「個人」７４および実体型式ｉｄ８４が分析のために選択されている。いったん分析物表示がそれと関連付けられたデータソースを有すると、ユーザは、１つ以上のクエリを取り込み、結果を閲覧することができる。各クエリは、特殊なデータの集合を表示する。いくつかの実施形態では、利用可能なクエリは、データ分析、実体分析、バケット分析、および連鎖分析の種類に分類される。

図１１は、アイデンティティハブの構成を分析するための方法の一実施形態のフロー図を図示する。上述のように、ワークベンチ２０の実施形態におけるツールは、ユーザが、アイデンティティハブ３２のインスタンスをシームレスに構成し、リアルタイムの構成の正確性を有効化することを、それらが支援できるように統合される。したがって、図１１に図示された方法のステップは、過程例を図示することを意図し、決して限定的として解釈されることを意図しない。例えば、いったんメンバーペアがサンプリングされ、比較データおよびバケッティングデータ（導出データ）が作成され、重みが確立され、適切なＡＬおよびＣＲ閾値が判定されると、バケットサイズおよびバケット分布等の、バケットに対するいくつかの早期分析を実行することができる。そのような早期分析は、早期にデータ異常を識別するのに役立ってもよい。したがって、図１１の全てのステップが必要なわけではなく、記録を一致させるためのシステムを分析するための方法のいくつかの実施形態は、図１１の１つ以上のステップを備えてもよい。さらに、図１１のステップは、特定の順序で実行されなくてもよい。例えば、重み生成過程（ステップ１０３）の一部として、提案された閾値（候補閾値）の集合が生成されてもよい。この時点で、ユーザは、閾値分析（ステップ１０７）を実行し、閾値の範囲に対する推定された誤検出および検出漏れ率を閲覧することができる。閾値が設定され、（潜在的に最終の）交差一致が完了すると、ユーザは、起こり得るエラー（欠落した匿名値等）について実体をレビューしてもよい（ステップ１０５）。ハブが分析ソースとして選択された場合、ユーザは、ワークベンチ２０からの実体分析ツール４３２を介して、実体サイズの分布を見て、エラーを識別するのに役立つように、疑わしい実体におけるメンバーからのデータを閲覧することができる。さらなる調整が行われた後の比較のために、実体サイズのレポートをディスク（例えば、コンピュータ可読記憶媒体５６）に保存することができる。

これらの上記の分析タスクは、プロジェクトの終了間近で、または過程の他の部分が依然として行われている間に、完了することができる。例えば、場合によっては、アプリケーションの構成、ユーザ／グループの設定、複合表示の作成等の構成タスクは、依然として、ワークベンチ２０における構成エディタ４１０を介して完了される必要があってもよい。必要な変更を行った後、それらは、全ての他の構成データのように、作動中のサーバに配備される必要がある。プロジェクトの終わりに、システムの健全性を検証し、システムを最適な性能に戻すために行われる必要があってもよい、あらゆる調整努力を判定するために後で使用することができる、構成についてのレポートを生成することができる。さらに、いったん構成が終了すると、それを他のサーバに容易に再配備することができる（試験、生産等）。構成を新規サーバに配備した後に、コンピュータ４０におけるユーザは、タスク「全ての構成データを生成する」を実行して、導出データを作成し、新規サーバ上で必要な比較および結び付け過程を実行することができる。

図１１を再び参照すると、一例として、アイデンティティハブを分析するための方法の一実施形態は、データ分析ツール４３４を介してデータ記録の集合の属性の有効性を分析するステップを含んでもよい（ステップ１０１）。一実施形態では、アイデンティティハブを分析するための方法は、実体分析ツール４３２を介して実体を分析するステップを含んでもよい（ステップ１０５）。一実施形態では、これらの実体は、アイデンティティハブ３２において特定の実体型式を有するものとして分類される。いくつかの実施形態では、これらの実体を分析するステップは、実体サイズ分布を分析するステップ、これらの実体をサイズで分析するステップ、これらの実体を組成で分析するステップ、これらの実体と関連付けられたスコア分布を分析するステップ、これらの実体と関連付けられたメンバー比較を分析するステップ、またはそれらの組み合わせを必要としてもよい。いくつかの実施形態では、実体を分析した後に、ユーザは、アルゴリズムエディタ４２０を実行し、実体型式と関連付けられたアルゴリズムを修正する、および／または上記で説明されるような１つ以上のアルゴリズム構成要素における１つ以上のパラメータ値を変更することを希望してもよい（ステップ１０２）。いくつかの実施形態では、そのような修正または変更がバケッティング戦略の変更を誘起してもよく、新規重みが重み生成を介して自動的に生成されてもよい（ステップ１０３）。したがって、ユーザは、バケット分析ツール４３６を実行して、それと関連付けられたバケットおよび統計値をレビューし、分析することを希望してもよい（ステップ１０４）。いくつかの実施形態では、ワークベンチ２０からのバケット分析ツール４３６を介して、ユーザは、バケットサイズ分布を分析する、これらのバケットをサイズで分析する、これらのバケットを組成で分析する、バルク交差一致比較分布を分析する、メンバー(記録)をバケットカウントで分析する、メンバーバケット値を分析する、メンバーバケット頻度を分析する、メンバー比較分布を分析する、またはそれらの組み合わせを行うことができる。いくつかの実施形態では、ユーザは、連鎖分析ツール４３８を実行して、現在使用されているＣＲおよびＡＬ閾値に関して（ステップ１０７）、メンバー重複およびメンバー重畳を分析してもよい（ステップ１０６）。上記のステップのうちのいずれかの間または後に、分析データが保存されてもよい（ステップ１０８）。

図１２Ａおよび１２Ｂは、実体分析ツール４３２の一実施形態のスクリーンショット１２０ａおよび１２０ｂを図示する。具体的には、図１２Ａのスクリーンショット１２０ａは、実体組成クエリの結果を図示し、図中、列１２１は、見出された４つのメンバーを一覧化し（すなわち、実体２６は、ともに結び付けられた４つの候補データ記録を有する）、列１２２は、これらのメンバーと関連付けられた特定の属性（社会保障番号）の値を一覧化し、列１２３は、これらのメンバーと関連付けられた別の特定の属性（性別）の値を一覧化する、等である。図１２Ｂのスクリーンショット１２０ｂは、発端メンバー２７をメンバー実体におけるメンバー２６と比較する、メンバー比較クエリの結果を図示し、図中、列１２４は、比較された候補記録を一覧化し、列１２５は、それらの対応するスコアを一覧化する。

図１２Ａおよび１２Ｂに示された、実体組成クエリおよびメンバー比較クエリは、実体分析ツール４３２を介して利用可能なクエリの例である。いくつかの実施形態では、実体分析ツール４３を介して利用可能なクエリは、サイズ別の実体、実体組成、実体サイズ分布、メンバー比較、メンバー実体頻度、メンバー実体値、実体カウント別のメンバー、スコア分布を備えてもよい。

（サイズ別の実体）
このクエリは、サイズ（実体におけるメンバーの数）の特定した範囲に一致する実体について問い合せを行う能力を提供する。最小または最大サイズのいずれかに対して０という値を特定することにより、制限がない（最小値がない、または最大値がない）ことを示す。

（実体組成）
このクエリは、特定した実体の内容を示す。図１２Ａが例示するように、結果として生じるテーブルは、特定した実体の中にあるメンバー記録ＩＤおよびソースＩＤ、ならびに各メンバーの比較データを一覧化する。比較データは、比較役割によって、テーブルの個々の列に分割することができる。

（実体サイズ分布）
このクエリは、サイズに関する際のハブにおける全ての実体の総合的表示を提供する。表示は、チェックされたソースのみから実体を示すように、フィルタにかけられてもよい。実体がチェックされたソースならびにチェックされていないソースにおけるメンバーから成る場合には、実体に対して示されたサイズが、チェックされたソースのみにおけるメンバー記録のカウントとなる。

（メンバー比較）
このクエリは、メンバー記録を、特定した実施形態における全てのメンバーに対して（図１２Ｂ参照）、または特定したメンバーの集合と比較する機構を提供する。

（メンバー実体頻度）
このクエリは、メンバーが実体において出現する頻度、つまり、１つの実体の中にいるメンバーの数、２つの実体の中にいる数、３つの実体の中にいる数等を示す。

（メンバー実体値）
このクエリは、メンバーが所属する実体を示す。

（実体カウント別のメンバー）
このクエリは、実体の特定した範囲内にいるメンバー（例えば、３つ以上の実体の中にいる全てのメンバー）の一覧を示す。最大数が特定されなければ、０という値が「実体の最大数」フィールドに示される。そうでなければ、実体値の最大数は、実体の最小数以上でなければならない。

（スコア分布）
このクエリは、システムにおける全ての記録ペアに対するスコアの分布を示す。いくつかの実施形態では、単一のメンバー実体、または３つ以上のメンバー実体を伴う記録が、結果に含まれなくてもよい。いくつかの実施形態では、各スコアに対するペアの数は、所与のスコア範囲内の全カウントの合計であってもよい。例えば、２７というｘ軸のスコア値は、２６．１から２７．０の間で採点する全てのペアを表してもよい。表示は、チェックされたソースのみから実体を示すようにフィルタにかけられてもよい。実体がチェックされたソースならびにチェックされていないソースにおけるメンバーから成る場合には、実体に対して示されたサイズが、チェックされたソースのみにおけるメンバー記録のカウントとなる。特定の連鎖型式に対して結果が示されなければ、その連鎖型式および／または選択されたソースの集合に対する基準を満たす実体がない場合がある。

図１３は、データ分析ツール４３４の一実施形態のスクリーンショット１３０を図示する。一実施形態では、データ分析ツール４３４は、図１３に示されるような属性有効性クエリを提供してもよい。

（属性有効性）
このクエリは、全てのソースおよび個々のソースからの記録がメンバー型式の属性に対する値を有する、時間の割合を示す。高い割合で存在する値は、アルゴリズムで使用するための潜在的候補と見なされるべきである。いくつかの実施形態では、初期設定で、結果は、属性名でソートされてもよい。いくつかの実施形態では、結果は、列でソートされてもよい。いくつかの実施形態では、ソートは、結果として生じるテーブルが、特定したソースに含有されるメンバー型式の記録の割合を一覧化してもよいように、フィルタにかけられてもよい。

図１４は、バケット分析ツール４３６の一実施形態のスクリーンショット１４０を図示する。いくつかの実施形態では、ハブにおける記録の数が２００万より多い場合、データが最初に準備されない限り、バケット分析が実行しない。いくつかの実施形態では、データ準備は、未加工のメンバーおよびバケットデータを取り出すステップと、迅速に問い合せを行うことができる中間のデータの集合を事前計算するステップとを伴うことができる。このデータは、構成エディタ４１０を介した「バケット分析準備」ジョブを通して行うことができる。場合によっては、２００〜５００万の記録のデータを準備するステップが、約１０分かかってもよい一方で、５０００万の記録のデータを準備するステップは、約５時間かかってもよい。これらの推定値は、異なるハードウェアおよびデータベース構成に応じて、大きく変動してもよい。メンバーデータが修正された場合、準備されたデータは、期限切れの結果を見ることを回避するように、同様に再計算されるべきである。

スクリーンショット１４０は、バケット分析ツール４３６を介して利用可能な複数のクエリのうちの１つである、バケット分析概要クエリの結果を図示する。いくつかの実施形態では、バケット分析ツール４３６を介して利用可能なクエリは、バケット分析概要、バケット組成、バケットサイズ分布、サイズ別のバケット、バルク交差一致比較分布、メンバーバケット頻度、メンバーバケット値、メンバー比較分布、およびバケットカウント別のメンバーを備えてもよい。

（バケット分析概要）
このクエリは、ハブのバケッティング戦略の健全性について何らかの一般情報を提供する。図１４で例示されるように、一実施形態では、表示の上半分は、大型バケット、バケットされていないメンバー等の数等の情報で満たされてもよい。大型バケットおよび／またはバケットされていないメンバーの特定の範囲は、適切なボタンをクリックすることによって閲覧することができる。より具体的には、「バケットを閲覧する」ボタンをクリックすることにより、「サイズ別のバケット」表示を選択し、所望の範囲のバケットサイズでクエリを実行する。「メンバーを閲覧する」ボタンをクリックすることにより、「バケット別のメンバー」表示を選択し、バケットがないメンバーを示すようにクエリを実行する。この実施例では、図１４で図示された表示の底部領域は、１０個の最大バケットを、それらのバケットのハッシュ値、バケットを生成したバケット役割、ならびにそれらのバケットにおけるメンバーのうちの１つからのバケット値とともに示す。バケット値は、同じバケットにおける全てのメンバーに対して同一であってもよい。バケットハッシュを選択し、「バケットを閲覧する」ボタンをクリックすることにより、バケット組成クエリを実行し、そのハッシュコードに対して、選択バケットのメンバーおよびそれらのメンバーのバケット値で、表示にデータ投入する。

（バケット組成）
このクエリは、特定したバケットの内容を示す。結果として生じるテーブルは、特定したバケットの中にあるｍｅｍｒｅｃｎｏｓ、ならびにそのバケットにおける各メンバーに対するバケット役割およびバケット値を一覧化する。示されたバケット値は、データベース中のメンバーデータから新たに計算された、実際のバケット値である。異なるバケット値が同じバケットハッシュに対して現れた場合には、それはバケットハッシュ衝突を示す。これは、異常と見なされ、通常は相互に対して比較しない、あるメンバーが、なぜ相互に対して比較されているのかを説明する場合がある。しかしながら、そのような状態は一般に、システムの健全性にとって有害であると見なされない。いくつかの実施形態では、結果として生じるテーブルで行を選択し、「メンバーを閲覧する」ボタンをクリックすることにより、メンバーバケット値クエリを実行して、選択されたメンバーのバケットの全てを示し、「アルゴリズムを閲覧する」ボタンをクリックすることにより、アルゴリズムエディタ４２０を開き、特定したバケットを作成したバケット役割を選択する（図９Ａ参照）ように、このクエリに対する表示は、「メンバーを閲覧する」ボタンおよび「アルゴリズムを閲覧する」ボタンを含んでもよい。

（バケットサイズ分布）
このクエリは、サイズに関する際のハブにおける全てのバケットの総合的表示を提供する。いくつかの実施形態では、大型バケットは、表示の右側に示され、緑（より小さいバケット）から黄色（中間サイズのバケット）になり、赤（大型バケット）になる、色インジケータによって示される。バケットサイズ分布を描画するグラフ中のデータ点は、左（より小さいバケット）から右（より大きいバケット）へと下向きの曲線を辿ってもよい。したがって、バケットサイズ分布グラフの右側の広範なデータ点が、関心の領域となってもよく、見逃した匿名値、誤った閾値、およびデータの問題等を示し得る。いくつかの実施形態では、データ点をクリックすることにより、「サイズ別のバケット」表示を選択し、そのサイズのバケットにクエリを実行する。いくつかの実施形態では、データ点をクリックする前にコントロールキーを押すことによって、クエリが、そのサイズ以上のバケットを示してもよい。

（サイズ別のバケット）
このクエリは、サイズ（バケットにおけるメンバーの数）の特定した範囲に一致するバケットについて問い合せを行う能力を提供する。例えば、最小または最大サイズのいずれかに対して０という値を特定することにより、制限がない（最小値がない、または最大値がない）ことを示す。いくつかの実施形態では、結果として生じるテーブルは、メンバーカウント、バケットハッシュ、バケット役割、およびバケットのメンバーのうちの１つからのサンプルバケット値を示してもよい。再度、バケット値は、所与のバケットにおける全てのメンバーに対して同じであってもよい。これの１つの例外は、同じバケットハッシュを有する異なるバケット値をもたらした、ハッシュ衝突があった場合である。この状態をチェックするために、ユーザは、バケットを選択し、「バケットを閲覧する」ボタンをクリックして、所与のバケットに対するメンバーの全て、およびそれらのバケット値を閲覧することができる。特定のバケット役割に問題が存在する（頻度ベースのバケッティングの不足等）と判定された場合、テーブルの行を選択し、「アルゴリズムを閲覧する」ボタンをクリックすることによって、アルゴリズムエディタ４２０を開くことができる。このことは、アルゴリズムエディタ４２０を提示し、選択されたバケットを作成した特定のバケット役割を選択する（図９Ａ参照）。

（バルク交差一致比較分布）
このクエリは、ｍｐｘｃｏｍｐジョブ上で特定される最大バケット集合サイズパラメータ（バケットサイズ制限）に関する際にバルク交差一致に必要とされる比較の数を計算する。次いで、この比較の数は、バルク交差一致の近似完了時間を判定するために、スレッドの数および毎秒の１スレッドあたりの比較の数とともに使用することができる。

（メンバーバケット頻度）
この表示は、棒グラフまたは同等物の形で、「１つのバケット、２つのバケット、３つのバケット等の中に、いくつメンバーがいるか」という質問に答える。０というｘ軸データ点は、バケットされていないメンバーの数を示し、いくつかの実施形態では、グラフの棒をクリックすることにより、「バケットカウント別のメンバー」表示を選択し、クエリを実行して、その多くのバケットを伴うメンバーを示す。

（メンバーバケット値）
この表示は、特定したメンバーがどのようなバッケットの中にいるかを示す。結果テーブルは、バケットハッシュ、バケット値、および各バケットを生成したバケット役割を示す。いくつかの実施形態では、バケットを選択し、「バケットを閲覧する」ボタンをクリックすることにより、「バケット組成」表示を選択し、クエリを実行して、選択されたバケットハッシュに対するバケット組成を示す。「アルゴリズムを閲覧する」ボタンをクリックすることにより、アルゴリズムエディタ４２０を開き、そのバケットの作成に関与したバケット役割を選択する（図９Ａ参照）。

（メンバー比較分布）
この表示は、行われている比較の数に関する際のシステムの推定性能を示す。つまり、検索が行われる時に、実際の比較がいくつ行われるか、ということである。一例として、メンバー比較分布図は、平均で３つの比較が行われることを示してもよい。より具体的には、いくつかの実施形態では、１０に１つの比較が約６個の比較をもたらし、１００に１つが７．５となり、１０００に１つの比較が８個の比較をもたらす。このデータは、システムからの２０，０００のランダムにサンプリングされたメンバーに基づく。２０，０００未満のメンバーがシステムにいる場合は、全てのメンバーが使用される。平均で、標的メンバーは、その標的メンバーとバケットを共有する全てのメンバーに対して比較される。

（バケットカウント別のメンバー）
この表示は、メンバーが含有されるバケットの数に基づいて、メンバーに対するクエリを提供する。いくつかの実施形態では、０という最小値および最大値を特定することにより、バケットされていないメンバーを返す。０より大きい最小値については、０という最大値は制限を示さない。いくつかの実施形態では、結果として生じるテーブルは、ｍｅｍｒｅｃｎｏ、メンバーがいるバケットの数、ならびにそのメンバーに対するｃｍｐｄ文字列を示す。いくつかの実施形態では、メンバーを選択し、「メンバーを閲覧する」ボタンをクリックすることにより、「メンバーバケット値」表示を閲覧して、メンバーが現れる全てのバケットを示す。

図１５は、連鎖分析ツール４３８の一実施形態のスクリーンショット１５０を図示する。いくつかの実施形態では、連鎖分析ツール４３８は、メンバー重複クエリおよびメンバー重畳クエリを提供する。

（メンバー重複）
このクエリは、重複メンバー（同じ実体に結び付く同じソースからのメンバー記録）についての種々のエラー率を示す。図１５で例示されるように、一実施形態では、結果として生じるテーブルの最初の４列は、メンバーの数、実体の数、重複集合の数、およびそれらの重複集合の中のメンバーの数といった、ハブデータベースからの未加工データ（ソース別に分類される）を示してもよい。最後の３列は、これらの値から計算することができる、種々のエラー率を一覧化してもよい。
・記録エラー率―重複を解決するために、いくつの記録を見なければいけないか、またはいくつの記録がメンバーの不完全像を有するかを示す。
・実体重複率―いくつのメンバーが重複記録を有するか、またはランダムなメンバーが重複記録を有する確率を示す。
・記録重複率―いくつの記録が重複しているか、またはあるいは、排除することができる記録の割合を示す。

（メンバー重畳）
このクエリは、ハブにおける重畳の数についての情報を提供する。重畳は、実体が複数のソースからの記録を有する時に存在する場合がある。例えば、３つの記録を伴う実体が存在し、各記録が別個のソースシステムの中にある場合には、各ソースは、その中に２つの重畳を有すると言われる（ＡとＢ、ＡとＣ等）。いくつかの実施形態では、結果として生じるテーブルは、特定したソースにおいて表される一意の実体の数、ならびにそのソースの中の記録によって表される全ての実体の割合を示してもよい。いくつかの実施形態では、結果として生じるテーブルはまた、少なくとも１つの他のソースにおいて重畳する実体（これらの実体は、別のソースにおいて少なくとも１つの記録を有する）のカウントおよび割合を示してもよい。複数の他のソースにおける重畳を伴う実体は、いったん結果として生じるテーブルに入ると、数えられるのみであってもよい。いくつかの実施形態では、結果として生じるテーブルはまた、ソースの組み合わせ別に各ソースを示してもよい。例えば、行および列ソースが同じである時に、カウントの割合は１００％である。しかしながら、行および列ソースが一意である時、カウントは、行ソースシステムと列ソースシステムとの間に存在する重畳の数を表す。したがって、パーセント値は、列ソースにおいて重畳を有する行ソースにおける実体の割合を表す。

したがって、一実施形態では、アイデンティティハブを分析するための方法は、データ記録の集合と関連付けられたエラー率を分析するステップを含んでもよい。一実施形態では、エラー率は、記録エラーおよび個人エラー率を含んでもよい。一実施形態では、重複に対する記録エラー率は、記録の総数で割られた重複集合に関与する記録の数である。それは、ファイルからランダムに断片化した記録図を選ぶ見込みを表す。一実施形態では、個人エラー率は、ファイルにおいて表される個人の総数で割られた、複数の記録を有する一意の個人の数である。Ａ、Ｂ、およびＣが全て同じ個人を表す、５つの記録Ａ、Ｂ、Ｃ、Ｄ、およびＥの単純な場合を考える。すると、記録エラー率は３／５であり、個人エラー率は１／３である（ファイルは、３人の別個の人Ａ−Ｂ−Ｃ、Ｄ、およびＥを表し、そのうちの１人が複数の記録を有する）。

一実施形態では、エラー率は、誤検出および検出漏れ率を含んでもよい。一実施形態では、エラー率は、事務的レビュー（ＣＲ）および自動リンク（ＡＬ）閾値と関連付けられる。一実施形態では、ＣＲおよびＡＬ閾値は、データ記録の集合を一致させる際に、誤検出および検出漏れ率に対するアイデンティティハブ３２の許容値を示す。したがって、アイデンティティハブを分析するための方法の一実施形態は、事務的レビュー閾値および自動リンク閾値を分析するステップを含む。図１６は、それを介して、アイデンティティハブにおけるメンバー記録と関連付けられたエラー率および閾値が分析可能である、グラフィカルユーザインターフェースの一実施形態のスクリーンショットを図示する。

閾値を推定する１つのアプローチは、バルク交差一致過程によって生成される連鎖のサンプルを採点するステップと、ヒット率のモデル曲線に採点するステップの結果を適合させるステップと、所望のエラー率に基づいて閾値を選ぶために、結果として生じた曲線を使用するステップとを伴う。このアプローチには、いくつかの基礎的困難がある。第１に、広範囲のスコアにわたって、数千の結び付けられたペアをレビューし、採点する必要がある。このことは、一致または不一致の個々の解釈により、不可避の変動を取り込む。第２に、ヒット率は、データにおける固有重複率およびファイルサイズの両方を組み合わせる（使用したデータサンプルに重複がなければ、ヒット率は全てのスコアに対してゼロとなる）。第３に、この過程は、交差一致に該当し、検索またはクエリエラー率に変換される必要がある、閾値を生じる。

いくつかの実施形態では、以下で説明される、新しい閾値推定手順が、これらの懸念に対処することができる。この新しいアプローチの１つの利点は、データプロファイルに基づいて、または自動的な重み生成中に生成される新しい統計値の集合に基づいて、最初に適用できることである。

（誤検出率（自動リンク閾値））
採点するために尤度比を使用することの１つの利点は、固定閾値に対する統計的誤検出率を概算するために使用することができる、理論的な式が存在することである。このことはまた、適正に行われると、誤一致である一致の確率が、実データではなくスコアのみに依存することも意味する。

２つの記録を比較するステップの結果を、ベクトルｘによって表す。すると、この比較に対する尤度比またはスコアは、

によって求められる。

ここで、

は、記録が同じオブジェクト（個人、事業等）を参照するという仮説の下でのこの比較のための確率密度である。つまり、これは、記録が一致させられるはずであると分かっている場合に、この結果を観察する確率である。同様に、

は、記録が同じオブジェクトを参照しない時にこの結果を観察するための確率密度である（すなわち、これは、この比較の組がランダムに発生する確率である）。

いくつかの実施形態では、ハブは、このスコアの対数がある閾値よりも大きい時に、２つの記録を結び付けることができるため、誤検出の確率は、記録が同じオブジェクトを参照しない時に、比較が閾値以上に得点する確率である。数学的には、これは、

であり、
ここで、

の集合において、

であり、
よって、

である。

したがって、単一比較における誤検出の確率は、

によって境界が定められる。

閾値が比較的大きい場合、ｎ個の独立した比較を行うものとして、ｎ個の記録を含有するデータベースの単一検索を考えることができる。このことは、閾値上の誤検出を返すデータベースの単一検索の確率が、ｎ個の独立単一比較の最大値が閾値以上であるという確率と同じであることを意味する。｛ｓ_１，ｓ_２，．．．，ｓ_ｎ｝に、データベース中の全ての記録に対する単一記録のスコアを表示させると、検索が誤検出を生じる確率は、大きいＴに対して、

と表すことができる。これはさらに、

と単純化することができ、
ここに、１０^Ｔはｎに対して大きい。

一例として、１００万の記録を有するデータベースに対して、１１という閾値が使用される場合、

または、１００，０００の検索に約１つである。

（採点されたサンプルペアに基づいた自動リンク閾値の精緻化）
いったんサンプルペア（サンプリングが均一であると仮定する）が採点されると、新規自動リンク（ＡＬ）閾値を計算することができる。このために必要な情報は、以下を含んでもよい。
・採点されたペアを含有するファイル。ファイルは、各ペアに対するスコアと、ペアにおける２つの記録が同じ個人を表してもよい（ＳＰ）、同じ個人を表さない（ＮＳＰ）、または判定を行うのに十分な情報がない（ＮＥＩ）という指標とを含有してもよい。それに応じて、採点手順から値が割り当てられてもよい。例えば、１はＳＰを意味し、０はＮＳＰを意味し、−１はＮＥＩを意味する。
・ＢＸＭによって生成されたペアの総数のスコア別のカウント（ランダムペアが生成された時にソースがフィルタにかけられた場合、これは、両方のメンバーがフィルタにかけられたソースの中にある、ペアのカウントである）。
・データベース中の記録の数（ランダムペアが生成された時にソースがフィルタにかけられた場合、これは、これらのソースの中の記録のカウントである）。

いくつかの実施形態では、第１のステップは、均一なサンプルを採取し、ＮＳＰおよびＳＰに対するスコア別に割合プロットを得ることである。ＡＬ閾値を更新するために、ＮＳＰのみが必要とされる。次のステップは、スコア別にペアの総数を得ることである。これは、手動評価の前にサンプルペアを作成したステップで生成することができる。次のステップは、スコアの関数として誤検出を得る確率を計算することである。これについて、バルク交差一致率とクエリ率との間で正規化するために、データベースのサイズを知る必要がある。各スコアビンについては、ＮＳＰの確率を取り、そのスコアにおけるペアの総数を掛け、１を引いたデータベースのサイズで割り、全体に２を掛ける。結果として生じる分布が滑らかでなければ、線形指数関数をサンプルデータに適用することができる。つまり、関数ｐ＝ｅ^{ａ＋ｂ・ｓ}がサンプルデータへの最小二乗適合となり、式中、ｓがスコアとなるように、係数ａおよびｂを求める。

適合係数から、新規ＡＬ閾値を

として計算することができる。

以下の式を使用して、スコアの関数として誤検出率を判定することができる。

（事務的レビュー閾値の更新）
いったん適切な自動リンク閾値が判定されると、事務的レビュー（ＣＲ）閾値の関数として、タスクの数の推定値を判定することができる。これは、自動リンクに合計することによって、スコア別のペアカウントから得ることができる。ユーザは、固定数のタスクをもたらすようにＣＲ閾値を調整してもよい。図１７は、システム性能と、アイデンティティハブにおける連鎖メンバー記録と関連付けられた誤検出および検出漏れ率に対する許容値との間の関係を図示する。図１７の実施例では、ＡＬおよびＣＲ閾値が、１２の事務的レビュータスクをもたらす。

先述の明細書では、具体的実施形態を参照して本開示を説明した。しかしながら、説明は一例にすぎず、限定的な意味で解釈されるものではないことを理解されたい。したがって、本開示の実施形態の詳細の多数の変更および本開示の付加的な実施形態が、本説明を参照した当業者にとって明白となり、かつ当業者によって行われてもよいことを、さらに理解されたい。全てのそのような変更および付加的な実施形態は、以下の請求項で詳述されるような本開示の範囲内であることが検討される。

Claims

データ記録を一致させるためのシステムを分析するための方法であって、
最初のデータ記録の集合を利用して、該システムの構成を生成することと、
該システムの該構成と関連付けられたバケッティング戦略に従って、該最初のデータ記録の集合またはそれの部分集合に基づいて作成されたバケットを分析することと、
該システムの性能に対する該バケットの効果を分析することと、
それに応じて該バケッティング戦略を変更することと
を含む、方法。
前記バケッティング戦略を前記変更することはさらに、前記バケットを作成する際に利用されるアルゴリズムを編集すること、または該アルゴリズムと関連付けられた１つ以上のパラメータ値を変更することを含む、請求項１に記載の方法。
前記アルゴリズムは、実体型式と関連付けられる、請求項２に記載の方法。
前記システムにおいて前記実体型式を有するものとして分類される実体を分析するステップをさらに含む、請求項３に記載の方法。
前記実体を前記分析することはさらに、実体サイズ分布を分析すること、該実体をサイズで分析すること、該実体を組成で分析すること、該実体と関連付けられたスコア分布を分析すること、該実体と関連付けられたメンバー比較を分析すること、またはそれらの組み合わせを含む、請求項４に記載の方法。
前記最初のデータ記録の集合を分析することをさらに含む、請求項１に記載の方法。
前記最初のデータ記録の集合を前記分析することは、さらに、該最初のデータ記録の集合の属性の有効性を分析することを含む、請求項６に記載の方法。
前記バケットを前記分析することは、さらに、該バケットと関連付けられた統計値を分析すること、バケットサイズ分布を分析すること、該バケットをサイズで分析すること、該バケットを組成で分析すること、バルク交差一致比較分布を分析すること、メンバーをバケットカウントで分析すること、メンバーバケット値を分析すること、メンバーバケット頻度を分析すること、メンバー比較分布を分析すること、またはそれらの組み合わせを含む、請求項１に記載の方法。
前記最初のデータ記録の集合と関連付けられたエラー率を分析することをさらに含み、該エラー率は、記録エラー率と、個人エラー率とを含む、請求項１に記載の方法。
前記システムの前記構成は、事務的レビュー閾値と、自動リンク閾値とを備え、該事務的レビュー閾値および該自動リンク閾値は、前記最初のデータ記録の集合を一致させる際に、誤検出および検出漏れ率に対する該システムの許容値を示し、該事務的レビュー閾値および該自動リンク閾値を分析することをさらに含む、請求項１に記載の方法。
プロセッサによって実行可能であるコンピュータ命令を記憶する、コンピュータ可読記憶媒体であって、該プロセッサによって実行されると、該コンピュータ命令は、コンピュータに、
最初のデータ記録の集合を利用して、システムの構成を生成することと、
該システムの該構成と関連付けられるバケッティング戦略に従って、該最初のデータ記録の集合またはそれの部分集合に基づくバケットを作成することと、
該バケット、および該システムの性能に対する該バケットの効果を分析することと、
ユーザが該バケッティング戦略を変更することを可能にすることと
を実行させる、コンピュータ可読記憶媒体。
前記プロセッサによって実行されると、前記コンピュータ命令はさらに、前記コンピュータにアルゴリズムエディタを表示させ、それを介して、前記バケットを作成する際に利用されるアルゴリズムは、前記ユーザによって編集可能である、請求項１１に記載のコンピュータ可読記憶媒体。
前記バケッティング戦略は、実体型式と関連付けられ、前記プロセッサによって実行されると、前記コンピュータ命令はさらに、前記コンピュータに実体分析ツールを表示させ、それを介して、前記システムにおいて該実体型式を有するものとして分類される実体は、前記ユーザによって分析可能である、請求項１１に記載のコンピュータ可読記憶媒体。
前記プロセッサによって実行されると、前記コンピュータ命令はさらに、前記コンピュータに、前記実体分析ツールを介して複数の機能を提供させ、該複数の機能は、前記ユーザが、実体サイズ分布を分析し、前記実体をサイズで分析し、該実体を組成で分析し、該実体と関連付けられたスコア分布を分析し、そして、該実体と関連付けられたメンバー比較を分析することをできるようにする、請求項１１に記載のコンピュータ可読記憶媒体。
前記プロセッサによって実行されると、前記コンピュータ命令はさらに、前記コンピュータにデータ分析ツールを表示させ、それを介して、前記最初のデータ記録の集合は、前記ユーザによって分析可能である、請求項１１に記載のコンピュータ可読記憶媒体。
前記プロセッサによって実行されると、前記コンピュータ命令はさらに、前記コンピュータに、前記データ分析ツールを介して少なくとも１つの機能を提供させ、該少なくとも１つの機能は、前記ユーザが、前記最初のデータ記録の集合の属性の有効性を分析できるようにする、請求項１５に記載のコンピュータ可読記憶媒体。
前記プロセッサによって実行されると、前記コンピュータ命令はさらに、前記コンピュータにバケット分析ツールを表示させ、それを介して、前記バケットおよび該バケットと関連付けられた統計値は、前記ユーザによって分析可能である、請求項１１に記載のコンピュータ可読記憶媒体。
前記プロセッサによって実行されると、前記コンピュータ命令はさらに、前記コンピュータに、前記バケット分析ツールを介して複数の機能を提供させ、該複数の機能は、前記ユーザが、バケットサイズ分布を分析し、前記バケットをサイズで分析し、該バケットを組成で分析し、バルク交差一致比較分布を分析し、メンバーをバケットカウントで分析し、メンバーバケット値を分析し、メンバーバケット頻度を分析し、そして、メンバー比較分布を分析できるようにする、請求項１７に記載のコンピュータ可読記憶媒体。
前記プロセッサによって実行されると、前記コンピュータ命令はさらに、前記コンピュータに連鎖分析ツールを表示させ、それを介して、前記最初のデータ記録の集合と関連付けられた前記エラー率は、前記ユーザによって分析可能であり、該エラー率は、記録エラー率と、個人エラー率とを含む、請求項１１に記載のコンピュータ可読記憶媒体。
アイデンティティハブを分析するためのコンピュータシステムであって、
少なくとも１つのプロセッサと、
該少なくとも１つのプロセッサによってアクセス可能であり、該少なくとも１つのプロセッサによって実行可能なコンピュータ命令を記憶する、少なくとも１つのコンピュータ可読記憶媒体と
を備え、
該少なくとも１つのプロセッサによって実行されると、該コンピュータ命令は、該コンピュータシステムに、構成エディタ、アルゴリズムエディタ、データ分析ツール、実体分析ツール、バケット分析ツール、および連鎖分析ツールを備える複数のツールに、インターフェース接続するグラフィカルユーザインターフェースを表示させ、該構成エディタは、該アイデンティティハブに連結される情報源からの最初のデータ記録の集合を利用して、ユーザが該アイデンティティハブの構成をローカルで作成するか、または取り込むことを可能にし、該アルゴリズムエディタは、該ユーザが、該最初のデータ記録の集合に基づいてバケットを作成する際に利用されるアルゴリズムを編集できるようにし、該データ分析ツールは、該ユーザが、該最初のデータ記録の集合の属性の有効性を分析できるようにし、該実体分析ツールは、該ユーザが、該最初のデータ記録の集合と関連付けられる実体を分析できるようにし、該バケット分析ツールは、該ユーザが、該バケット、および該アイデンティティハブに対する該バケットの効果を分析できるようにし、該連鎖分析ツールは、該ユーザが、該最初のデータ記録の集合からの連鎖メンバー記録と、該最初のデータ記録の集合の派生物を採点する際に利用される閾値とに関連付けられるエラー率を分析できるようにする、システム。