JP5946533B2

JP5946533B2 - 共通エンティティとの関係に基づくエンティティ・レゾリューションのための方法、コンピュータ・プログラム、およびシステム

Info

Publication number: JP5946533B2
Application number: JP2014526566A
Authority: JP
Inventors: カセレス・バリー・マーク
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2011-08-24
Filing date: 2012-06-21
Publication date: 2016-07-06
Anticipated expiration: 2032-06-21
Also published as: EP2748731A4; EP2748731A1; JP2014529129A; CN103748582B; CN103748582A; US8965848B2; WO2013027129A1; US20130054598A1

Description

本発明は、共通エンティティに対する関係に基づいてエンティティを解決するための技法に関する。

エンティティ・レゾリューション（entity resolution）アプリケーションは、通常、エンティティ・レゾリューションおよび関係解決のうちの一方または両方を実行する。エンティティ・レゾリューションは、「誰が誰であるか」という疑問に答えること、すなわち、複数のデータ記録が同じ物理エンティティまたは異なる物理エンティティを実際に言い表すかどうかを判別することを試行する。たとえば、異なる姓を持つ２人の女性を識別するデータ記録は、実際には、家族姓および結婚後の姓の両方を有する同じ女性を言い表す可能性がある。関係解決は、たとえば様々なソースからのデータを相互参照することによって、顧客、従業員、販売業者などの、識別間の関係の恩恵あるいはリスクまたはその両方を特定するために、「誰が誰を知っているか」という疑問に答えることを試行する。たとえば、関係は、共通の住所または電話番号を共有している２人の人物の間で識別される場合がある。エンティティ・レゾリューション・アプリケーションの一例が、ニューヨーク州アーモンクのインターナショナル・ビジネス・マシーンズ・コーポレーション（ＩＢＭ（Ｒ））から入手可能な、InfoSphere Identity Insightである。

共通エンティティに対する関係に基づいてエンティティを解決するための技法を提供する。

本発明の実施形態は、エンティティ・レゾリューション・システムにおいて第１のエンティティと第２のエンティティとの間の類似スコアを決定することを含む動作を実行するための、コンピュータ実装方法、コンピュータ・プログラム製品、およびシステムを提供する。各エンティティは、エンティティ・レゾリューション・システムによって存在すると見なされる対応する物理エンティティを表す、１つまたは複数の識別記録を含む。さらに各識別記録は、対応する物理エンティティを特徴付ける１つまたは複数の属性を含む、データ記録を含む。動作は、類似スコアが、第１のエンティティおよび第２のエンティティを単一エンティティに解決するための定義済みしきい値を満たしていない旨を決定することも含む。動作は、第１のエンティティに関係する１つまたは複数のエンティティのセットおよび第２のエンティティに関係する１つまたは複数のエンティティのセットを識別することも含む。動作は、２つのセットの交差に基づき、１つまたは複数のコンピュータ・プロセッサの動作によって、類似スコアを調整することも含み、この交差は少なくとも第３のエンティティを含む。動作は、調整された類似スコアが定義済みしきい値を満たしている旨の決定時に、第１のエンティティおよび第２のエンティティがエンティティ・レゾリューション・システム内の同じ物理エンティティを表す旨を決定する。

したがって、前述の態様が達成され、詳細に理解されるように、上記で簡潔に要約された本発明の実施形態について、添付の図面を参照しながらより具体的な説明を行うことができる。

しかしながら、添付の図面は本発明の典型的な実施形態のみを示しているため、本発明についてその範囲を限定するものとはみなされず、他の等しく有効な実施形態を認め得ることに留意されたい。

本発明の一実施形態に従った、エンティティ・レゾリューションのためのシステムを示すブロック図である。本発明の一実施形態に従った、共通に関係する（commonly related）エンティティに基づいてエンティティを解決するための技法を示す図である。本発明の一実施形態に従った、エンティティ・レゾリューションのためのアプリケーションが発見された関係に基づいて類似スコアを調整することが可能な、エンティティの例を示す図である。本発明の一実施形態に従った、アプリケーションが発見された関係に基づいて類似スコアを調整することが可能な、エンティティの他の例を示す図である。本発明の一実施形態に従った、アプリケーションが開示された関係に基づいて類似スコアを調整することが可能な、エンティティの例を示す図である。本発明の一実施形態に従った、アプリケーションが共通エンティティとの関係の結果として解決するのを控えることが可能な、エンティティの例を示す図である。本発明の一実施形態に従った、アプリケーションが望ましくないほど多くの関係を伴うエンティティの結果として解決するのを控えることが可能な、エンティティの例を示す図である。本発明の一実施形態に従った、共通エンティティとの関係に基づいてエンティティを解決するための方法を示す流れ図である。本発明の一実施形態に従った、１つまたは複数の共通エンティティのセットを決定するための方法を示す流れ図である。本発明の一実施形態に従った、エンティティ・レゾリューションのためのアプリケーションの構成要素を示すブロック図である。

本発明の実施形態は、関連する識別、エンティティ、条件、アクティビティ、またはイベントに基づいてデータ記録を処理するように構成された、エンティティ・レゾリューションのためのアプリケーションを提供する。一実施形態において、アプリケーションは、エンティティ・レゾリューション・システムに知られている、またはより具体的に言えば、エンティティ・レゾリューション・システムによって物理的な世界に存在すると想定される、別個の物理エンティティの多くの知識を維持する。エンティティ・レゾリューション・システムにおいて、各物理エンティティはそれぞれの論理エンティティによって表され、本明細書ではエンティティとも呼ばれる。各論理エンティティは、それぞれの論理エンティティによって表される物理エンティティに関連すると決定された、１つまたは複数のデータ記録のセットであり、すなわち、エンティティ・レゾリューション・システムに知られている他の物理エンティティとは対照的である。言い換えれば、各論理エンティティは、それぞれの論理エンティティによって表される特定の物理エンティティを記述する１つまたは複数の属性を含む、データ記録のセットである。データ記録は、本明細書では識別記録とも呼ばれる。エンティティ・レゾリューション・システムに知られている物理エンティティを表す論理エンティティは、既知の（または既存の）論理エンティティとも呼ばれる。物理エンティティは、人物、組織、場所、建物、車両、動物、物体などの、エンティティ・レゾリューション・システムによって物理的な世界に存在すると考えられる、任意の識別可能エンティティとすることができる。

一実施形態において、アプリケーションが新しく受信したデータ記録を処理する（または既存のデータ記録を再処理する）場合、アプリケーションは、処理されているデータ記録がエンティティ・レゾリューション・システムに知られている物理エンティティに関連するかどうかを判別する。関連する場合、アプリケーションはそのデータ記録を物理エンティティに関するセットに追加する、すなわち、処理されているデータ記録および物理エンティティを表すセットが、単一の論理エンティティに統合またはマージされる。実施形態に応じて、処理されているデータ記録は、エンティティ・レゾリューション・システムによって、データ記録がその一部である独自の論理エンティティを有するともみなされ得る。データ記録（またはその論理エンティティ）がエンティティ・レゾリューション・システムに知られている特定の物理エンティティに関連すると決定することは、本明細書では、データ記録（またはその論理エンティティ）を特定の物理エンティティを表す論理エンティティに「解決すること」とも呼ばれる場合がある。

いくつかの実施形態において、アプリケーションは、データ記録がもはや所与の論理エンティティに属していないはずであることも決定し得る。こうしたケースでは、データ記録を所与の論理エンティティから除去し、異なるかまたは新しい論理エンティティに割り当てることができる。論理エンティティからデータ記録を除去することは、本明細書では、データ記録を論理エンティティから「分割すること」とも呼ばれる場合がある。

いくつかのケースでは、アプリケーションが所与のデータ記録をいずれの既知の論理エンティティにも解決しないことも可能であり得る。こうしたケースでは、アプリケーションは、データ記録をエンティティ・レゾリューション・システム内のその独自の論理エンティティに解決するものと決定したと言える。いくつかの実施形態において、アプリケーションは、データ記録の論理エンティティとエンティティ・レゾリューション・システム内の既知の論理エンティティとの間に、さらに関係を作成することができる。言い換えれば、アプリケーションはデータ記録をいずれの既知の論理エンティティにも解決しなかったにもかかわらず、アプリケーションは、データ記録が既知の物理エンティティとの何らかの関係を有する物理エンティティを記述していることを決定し得る。たとえば、この関係は、雇用者対被雇用者関係、婚姻関係、販売者対顧客関係などと呼ばれる場合がある。この決定は、少なくとも部分的に、データ記録に含まれる情報に基づいて行われ得る。

単に参照の便宜上、「処理されることになるデータ記録」は、本明細書では「インバウンド識別記録」と呼ばれる場合がある。言い換えれば、インバウンド識別記録は、識別記録を既知の論理エンティティに解決するか（または識別記録を既知の論理エンティティから分割するか）どうかを決定するために、既知の論理エンティティに照らして評価（または再評価）されることになる、任意の識別記録を言い表す。

前述のように、論理エンティティ（またはエンティティ）は、エンティティ・レゾリューション・システムによって同じ物理エンティティを記述すると考えられる、１つまたは複数の識別記録のセットを言い表す。例として、「Bob Smith」がホテルにチェックインする場合、ホテルのチェックイン記録から自宅の住所および電話番号を使用して、彼を、同じ住所および電話番号を有する「Robert Smith」と同じ人物であるものと突き合せることができる。「Bob Smith」を「Robert Smith」と突き合せるために、「Bob Smith」を記述する識別記録が、それぞれが別個の人物を表すエンティティのセットと比較される。

一実施形態において、識別記録を解決しエンティティ間の関係を検出するプロセスは、所定のまたは構成可能なエンティティ・レゾリューション規則を用いて実行することができる。典型的には、２つのエンティティ間の関係は、２つのエンティティ間の関係を示すエンティティに関係する識別記録内の情報（たとえば、共通のアドレス、雇用者、電話番号など）から導出される。こうした規則の２つの例は、以下を含む。
・インバウンド識別記録が、既存のエンティティと一致する「社会保障番号」および近い「氏名」を有する場合、そのインバウンド識別記録をその既存のエンティティに解決する。
・インバウンド識別記録が、既存のエンティティと一致する「電話番号」を有する場合、そのインバウンド識別記録のエンティティと一致する電話番号を有するものとの間に関係を作成する。

第１の規則は、新しいインバウンド記録を既存のエンティティに追加し、第２の規則はインバウンド記録に基づいて２つのエンティティ間に関係を作成する。もちろん、エンティティ・レゾリューション規則は、インバウンド識別記録のタイプに基づいて、特定のケースの必要性に合うように調整することができる。

一実施形態において、エンティティ・レゾリューションに関するアプリケーションは、関連する識別、識別、条件、またはイベントを検出するための規則、すなわち、入ってくる識別記録に基づいて警告を生成するための規則も含むことができる。たとえば規則は、インバウンド識別記録の属性をチェックし、特定の一致（たとえば、インバウンド識別記録は、特定の郵便番号内の住所を含むことから興味の対象である）が見つかった場合に警告を生成することができる。あるいは警告規則は、インバウンド識別記録の割り当てられた役割が、インバウンド記録がゼロまたはそれ以上の度合いで関係を有する別の識別記録の割り当てられた役割と競合する状況を指定することができる（たとえば、「従業員」の割り当てられた役割を伴う識別は、「販売者」の割り当てられた役割を伴う識別と、強い関係を有する）。他の例として、警告規則は、両方の方法の組み合わせ（たとえば、「ネバダ賭博ブラック・リスト」の役割を伴う識別が、「ホテル客」の役割も有し、関係ホテルが「ネバダ」州に位置する場合は、必ず警告する）として定義することができる。もちろん、使用される関連性規則は、特定のケースの必要性に合うように調整することができる。

一実施形態において、アプリケーションは、特定の識別記録の存在（典型的には、インバウンド記録が処理される）が、いくつかの点で関連し、ユーザ（たとえば、ビジネス・アナリスト、警察の捜査官など）による追加の調査を必要とする場合がある、何らかの条件を満たす場合、警告を生成する。これらのプロセスの結果は、通常、ユーザによって審査されるべきである識別に関する警告のリストである。こうした警告は、恩恵（たとえば潜在的好機）およびリスク（たとえば潜在的脅威あるいは不正行為またはその両方）の両方を識別する際にユーザを支援することができる。

一実施形態において、アプリケーションは、第１のエンティティおよび第２のエンティティが単一エンティティに解決されるべきかどうかを判別するために、関係とともに属性を評価する。このため、アプリケーションは、第１のエンティティと第２のエンティティとを比較して、第１のエンティティおよび第２のエンティティがエンティティ・レゾリューション規則をほぼ満たすことを決定することができる。より具体的に言えば、アプリケーションは、第１のエンティティおよび第２のエンティティの属性を比較して、２つのエンティティに関する類似スコアを決定することができる。エンティティ・レゾリューション規則は、第１のエンティティおよび第２のエンティティを単一エンティティに解決するための基準を指定する。

いくつかのケースでは、識別記録は、エンティティ・レゾリューション規則によって定義されたしきい値スコアに僅差で（たとえば、規定された数値的範囲だけわずかに）届かない類似スコアを有することによって、エンティティ・レゾリューション規則を満たすことに近付ける可能性がある。こうしたケースでは、アプリケーションは第１のエンティティおよび第２のエンティティに関係するエンティティを識別することができる。アプリケーションは、第１のエンティティおよび第２のエンティティに共通に関係するエンティティに基づいて、類似スコアを調整する。少なくともいくつかのケースでは、類似スコアはしきい値を超えるように調整可能である。言い換えれば、第１のエンティティおよび第２のエンティティは、第１のエンティティおよび第２のエンティティが第３のエンティティに関係していることに基づいて、エンティティ・レゾリューション規則を満たすものと決定され得る。たとえば、満たした場合に識別記録をJennifer Smithという名前のエンティティに解決することをトリガするという、エンティティ・レゾリューション規則を、Jenny Smithに関する識別記録が満たしていないものと想定する。さらに、Jenny SmithおよびJennifer Smithの両方が、第３の人物、Robert Smithとの関係を有するものと想定する。こうしたケースでは、アプリケーションは、第三者（Robert Smith）との共通する関係に基づいて、（Jenny Smithの）識別記録およびJennifer Smithのエンティティに関する類似スコアを再評価することができる。これにより、特定のケースについてしきい値セットを超えて類似スコアが引き上げられると想定すると、インバウンド識別記録はJennifer Smithを表すエンティティへと解決されることになる。

さらに本明細書では、実施形態はエンティティ・レゾリューション規則によって定義されるしきい値スコアに関して説明されているが、他の実施形態も広義に企図される。たとえば代替実施形態において、しきい値スコアはエンティティ・レゾリューション・システムによって定義されるパラメータとすることができる。こうした実施形態において、しきい値スコアはいずれの特定のエンティティ・レゾリューション規則にも関連付けられない。

有利なことに、関係とともに属性を評価することにより、アプリケーションは、少なくともいくつかのケースでは、エンティティの解決において関係は考慮せず単に属性のみを考慮する代替の手法に比べて、精度の向上したエンティティ・レゾリューションを実行することができる。たとえばアプリケーションは、２つのエンティティが解決されるべきであることを示すのに属性が不十分なケースであっても、２つのエンティティを単一エンティティに正しく解決することができる。

以下で、本発明の実施形態を参照する。しかしながら本発明は、特定の説明される実施形態に限定されないことを理解されたい。代わりに、以下の特徴および要素のいずれの組み合わせも、異なる実施形態に関係するか否かにかかわらず、本発明を実装および実施するように企図されている。さらに、本発明の実施形態は他の可能なソリューションを介して、あるいは従来技術を介して、またはその両方で、利点を達成することが可能であるが、特定の利点が所与の実施形態によって達成されるか否かは、本発明を制限するものではない。したがって、以下の態様、特徴、実施形態、および利点は単なる例示であり、請求項に明示的に示されている場合を除き、添付の特許請求の範囲の要素または制限とはみなされない。同様に、「本発明」という言い回しは、本明細書に開示されたいかなる発明の主題の一般化とも解釈されるべきではなく、請求項に明示的に示されている場合を除き、添付の特許請求の範囲の要素または制限とはみなされるべきではない。

当業者であれば理解されるように、本発明の態様は、システム、方法、またはコンピュータ・プログラム製品として具体化され得る。したがって、本発明の態様は、完全にハードウェア実施形態、完全にソフトウェア実施形態（ファームウェア、常駐ソフトウェア、マイクロコードなどを含む）、あるいは、本明細書ではすべてが一般に「回路」、「モジュール」、または「システム」と呼ばれることのある、ソフトウェアおよびハードウェアの態様を組み合わせた実施形態の形を取ることができる。さらに本発明の態様は、具体化されたコンピュータ読み取り可能プログラム・コードを有する１つまたは複数のコンピュータ読み取り可能媒体内で具体化される、コンピュータ・プログラム製品の形を取ることもできる。

１つまたは複数のコンピュータ読み取り可能媒体の任意の組み合わせが利用可能である。コンピュータ読み取り可能媒体は、コンピュータ読み取り可能信号媒体またはコンピュータ読み取り可能記憶媒体であってよい。コンピュータ読み取り可能記憶媒体は、たとえば、電子、磁気、光、電磁、赤外線、または半導体のシステム、装置、またはデバイス、あるいはそれらの任意の好適な組み合わせであってよいが、それらに限定されない。コンピュータ読み取り可能記憶媒体のより特定の例（非網羅的リスト）は、１本または複数本のワイヤを有する電気接続、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、光ファイバー、ポータブル・コンパクト・ディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、光学ストレージ・デバイス、磁気ストレージ・デバイス、またはそれらの任意の好適な組み合わせを含むことになる。本書との関連において、コンピュータ読み取り可能記憶媒体は、命令実行のシステム、装置、またはデバイスによって、あるいはそれらに関して使用するためのプログラムを、含むかまたは記憶することが可能な、任意の有形媒体とすることができる。

コンピュータ読み取り可能信号媒体は、たとえばベースバンド内または搬送波の一部として、内部にコンピュータ読み取り可能プログラム・コードが具体化された、伝搬データ信号を含むことができる。こうした伝搬信号は、電磁、光、またはそれらの任意の好適な組み合わせを含むがそれらに限定されない、様々な形のいずれかを取ることができる。コンピュータ読み取り可能信号媒体は、コンピュータ読み取り可能記憶媒体ではなく、命令実行のシステム、装置、またはデバイスによって、あるいはそれらに関して使用するためのプログラムを、通信、伝搬、または移送することが可能な、任意のコンピュータ読み取り可能媒体とすることができる。

コンピュータ読み取り可能媒体上に具体化されるプログラム・コードは、無線、有線、光ファイバー・ケーブル、ＲＦなど、またはそれらの任意の好適な組み合わせを含むが、それらに限定されない、任意の適切な媒体を用いて伝送することができる。

本発明の態様に関する動作を実行するためのコンピュータ・プログラム・コードは、Ｊａｖａ（ＴＭ）、Ｓｍａｌｌｔａｌｋ（ＴＭ）、Ｃ＋＋などのオブジェクト指向プログラミング言語、および、「Ｃ」プログラミング言語または同様のプログラミング言語などの従来の手続き型プログラミング言語を含む、１つまたは複数のプログラミング言語の任意の組み合わせで作成することができる。プログラム・コードは、完全にユーザのコンピュータ上、部分的にユーザのコンピュータ上、スタンドアロン型ソフトウェア・パッケージとして、部分的にユーザのコンピュータ上および部分的にリモート・コンピュータ上、または、完全にリモート・コンピュータまたはサーバ上で、実行可能である。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）またはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介して、ユーザのコンピュータに接続可能であるか、あるいは、（たとえばインターネット・サービス・プロバイダを使用してインターネットを介して）外部コンピュータに接続可能である。

本発明の態様が、本発明の実施形態に従った方法、装置（システム）、およびコンピュータ・プログラム製品の流れ図あるいはブロック図またはその両方を参照しながら、以下で説明される。流れ図あるいはブロック図またはその両方の各ブロック、および流れ図あるいはブロック図またはその両方におけるブロックの組み合わせは、コンピュータ・プログラム命令によって実装可能であることを理解されよう。これらのコンピュータ・プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行する命令が、流れ図あるいはブロック図またはその両方のブロック内に指定された機能／動作を実装するための手段を作成するように、汎用コンピュータ、特定用途向けコンピュータ、またはマシンを生成するための他のプログラマブル・データ処理装置に提供可能である。

これらのコンピュータ・プログラム命令は、コンピュータ読み取り可能媒体内に記憶された命令は、流れ図あるいはブロック図またはその両方のブロック内に指定された機能／動作を実装する命令を含む装置を生成するように、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイスに、特定の様式で機能するよう指示することが可能な、コンピュータ読み取り可能媒体にも記憶することが可能である。

コンピュータ・プログラム命令は、コンピュータまたは他のプログラマブル装置上で実行する命令が、流れ図あるいはブロック図またはその両方のブロック内に指定された機能／動作を実装するためのプロセスを提供するように、コンピュータ、他のプログラマブル装置、または他のデバイス上で実行されることになる一連の動作可能なステップに、コンピュータ実装プロセスを生成させるために、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイス上にロードすることも可能である。

本発明の実施形態は、クラウド・コンピューティング・インフラストラクチャを介してエンド・ユーザに提供することができる。クラウド・コンピューティングは、一般に、ネットワークを介したサービスとしてのスケーラブル・コンピューティング・リソースの提供を言い表す。より正式には、クラウド・コンピューティングは、コンピューティング・リソースとその基礎となる技術的アーキテクチャ（たとえば、サーバ、ストレージ、ネットワーク）との間に抽象化を提供し、最小限の管理作業またはサービス・プロバイダ対話を用いて即時に提供および解放され得る、構成可能なコンピューティング・リソースの共有プールへの便利なオンデマンド・ネットワーク・アクセスを可能にする、コンピューティング機能として定義され得る。したがって、クラウド・コンピューティングは、コンピューティング・リソースの提供に使用される基礎となる物理システム（またはそうしたシステムの場所）に関係なく、「クラウド」内のユーザ（たとえば、ストレージ、データ、アプリケーション、さらには完全な仮想化コンピューティング・システム）が、仮想コンピューティング・リソースにアクセスできるようにする。

典型的には、クラウド・コンピューティング・リソースは、ユーザが実際に使用されるコンピューティング・リソース（たとえば、ユーザまたはユーザによってインスタンス化されるいくつかの仮想化システムによって消費される、記憶スペースの量）に対してのみ課せられる、利用回数制料金（pay-per-use basis）でユーザに提供される。ユーザは、いつでも、またインターネット全体のどこからでも、クラウド内に常駐するいずれのリソースにもアクセス可能である。本発明との関連において、エンティティ・レゾリューションのためのアプリケーションはクラウド内で実行可能である。アプリケーションをクラウド内で実行させることにより、ユーザは、クラウドに接続されたネットワーク（たとえばインターネット）に接続されたいずれのコンピューティング・システムからも、エンティティ・レゾリューションを管理することができる。

図面内の流れ図およびブロック図は、本発明の様々な実施形態に従ったシステム、方法、およびコンピュータ・プログラム製品の可能な実装のアーキテクチャ、機能、および動作を示す。この点で、流れ図またはブロック図内の各ブロックは、指定された論理機能を実装するための１つまたは複数の実行可能命令を含む、モジュール、セグメント、またはコードの一部を表すことができる。いくつかの代替の実装において、ブロックに示された機能が図面に示された順序以外でも発生し得ることも留意されたい。たとえば、連続して示された２つのブロックは、実際にはほぼ同時に実行可能であるか、またはこのブロックは時折、関連する機能に応じて逆の順序で実行可能である。ブロック図あるいは流れ図またはその両方の各ブロック、および、ブロック図あるいは流れ図またはその両方におけるブロックの組み合わせが、指定された機能または動作、あるいは特定用途向けハードウェアおよびコンピュータ命令の組み合わせを実行する、特定用途向けハードウェアベース・システムによって実装可能であることも留意されたい。

図１は、本発明の一実施形態に従った、エンティティ・レゾリューションのためのシステム１００を示すブロック図である。ネットワーク・システム１００は、ネットワーク１３０を介してデータ・ソース１７０に接続されたコンピュータ１０２を含む。コンピュータ１０２は、ネットワーク１３０を介して他のコンピュータにも接続され得る。データ・ソース１７０は、アプリケーション１５０に送信されることになる識別記録、ならびに識別記録が解決されるエンティティ、またはその両方を記憶する。一般にネットワーク１３０は、通信ネットワークあるいはワイド・エリア・ネットワーク（ＷＡＮ）またはその両方とすることができる。特定の実施形態において、ネットワーク１３０はインターネットである。

コンピュータ１０２は、一般に、バス１１２を介してメモリ１０６、ネットワーク・インターフェース・デバイス１１０、ストレージ１０８、入力デバイス１１４、および出力デバイス１１６に接続された、プロセッサ１０４を含む。コンピュータ１０２は、一般に、オペレーティング・システムの制御下にある。オペレーティング・システムの例は、ＵＮＩＸ、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（Ｒ）オペレーティング・システムのバージョン、およびＬｉｎｕｘ（Ｒ）オペレーティング・システムの分散を含む。（注：Ｌｉｎｕｘは米国および諸外国におけるＬｉｎｕｓＴｏｒｖａｌｄｓの商標である。）より一般的には、本明細書で開示される機能をサポートするいずれのオペレーティング・システムも使用可能である。プロセッサ１０４は、単一ＣＰＵ、複数ＣＰＵ、複数の処理コアを有する単一ＣＰＵなどの代表として含まれている。同様に、メモリ１０６はランダム・アクセス・メモリであってもよい。メモリ１０６は単一の識別として示されているが、メモリ１０６は複数のモジュールを含み得ること、ならびに、メモリ１０６は、高速レジスタおよびキャッシュから低速であるがより大きなＤＲＡＭチップまで、複数のレベルで存在し得ることを、理解されたい。ネットワーク・インターフェース・デバイス１１０は、コンピュータ１０２がネットワーク１３０を介して他のコンピュータと通信できるようにする、任意のタイプのネットワーク通信デバイスとすることができる。

ストレージ１０８は、永続的ストレージ・デバイスとすることができる。ストレージ１０８は単一のユニットとして示されているが、ストレージ１０８は、固定ディスク・ドライブ、ソリッド・ステート・ドライブ、フレキシブル・ディスク・ドライブ、テープ・ドライブ、取り外し可能メモリ・カード、または光学ストレージなどの、固定式あるいは取り外し可能またはその両方のストレージ・デバイスの組み合わせとすることができる。メモリ１０６およびストレージ１０８は、複数の１次および２次の記憶デバイスにまたがる１つの仮想アドレス・スペースの一部とすることができる。さらに前述のように、アプリケーション１５０は、識別記録あるいはエンティティまたはその両方をデータ・ソース１７０から受信する。加えてまたは別の方法として、アプリケーション１５０は、識別記録あるいはエンティティまたはその両方を、ストレージ１０８を介しても受信可能である。

入力デバイス１１４は、コンピュータ１０２に入力を提供するための任意のデバイスとすることができる。たとえば、キーボードあるいはマウスまたはその両方が使用可能である。出力デバイス１１６は、コンピュータ１０２のユーザに出力を提供するための任意のデバイスとすることができる。たとえば、出力デバイス１１６は、従来のディスプレイ画面またはスピーカのセット、ならびにそれらそれぞれのインターフェース・カード、すなわちビデオ・カードおよびサウンド・カード（図示せず）とすることができる。出力デバイス１１６は入力デバイス１１４から離れて図示されているが、入力デバイス１１４と組み合わせることが可能である。たとえば、組み込み型タッチスクリーンを備えるディスプレイ・スクリーンが使用可能である。

図に示されるように、コンピュータ１０２のメモリ１０６は、エンティティ・レゾリューションのためのアプリケーション１５０、エンティティ１５２、およびエンティティ１５２間の関係１５６を含む。前述のように、アプリケーション１５０は、インバウンド識別記録をエンティティ１５２の１つまたは複数に解決するように、インバウンド識別記録を処理することができる。各識別記録は、１つまたは複数の属性１５４を含むことができる。いくつかの実施形態において、インバウンド識別記録は、少なくともアプリケーション１５０が、すでに知られたエンティティを参照しながら新しいエンティティを解決するかどうかを決定するまで、アプリケーション１５０によって新しいエンティティともみなされることが可能である。各関係１５６は、開示された関係または発見された関係とすることができる。本明細書で使用される場合、開示された関係は、従業員ファイルにおける緊急連絡先、雇用申請書の照会先、保険証券の受取人などの、エンティティ間の任意のユーザ指定関係を言い表す。発見された関係は、ユーザ指定でなく、エンティティの属性間の類似性に基づいてアプリケーション１５０によって推測される、任意の関係を言い表す。少なくともいくつかの実施形態において、アプリケーション１５０は、２つのエンティティの属性が、エンティティが関係している可能性が高いことを示すのには十分であるが、エンティティが単一エンティティに解決されるべきであることを示すのには不十分である場合、２つのエンティティ間に発見された関係を作成する。たとえば発見された関係は、２つのエンティティが、電話番号、住所、またはクレジット・カード番号などの単一の一致属性を共有する場合に作成可能である。

前述のように、一実施形態において、アプリケーション１５０は、インバウンド識別記録をエンティティ１５２の１つまたは複数に解決するようにインバウンド識別記録を処理する。少なくともいくつかの実施形態において、インバウンド識別記録をすべての既知のエンティティと比較することは、時間あるいは処理またはその両方に関して、費用がかかり過ぎる場合がある。したがって、一実施形態において、アプリケーション１５０は、候補エンティティまたは単に「候補」と呼ばれる既知のエンティティのサブセットのみに照らして、インバウンド識別記録を評価することができる。候補は、１つまたは複数の候補構築属性に基づいて選択可能である。たとえば、候補構築属性が電話番号の場合、インバウンド識別記録と同じ識別記録を伴うエンティティが候補エンティティとして選択される。インバウンド識別記録を候補のみに照らして評価することで、少なくともいくつかのケースではアプリケーション１５０の性能が向上する可能性がある。

一実施形態において、候補が選択されると、アプリケーション１５０はインバウンド識別記録を候補のうちの１つに解決するかどうかを決定することができる。この決定は、他の属性（すなわち候補構築属性以外の属性）に基づいてさらに候補を評価することによって実行可能である。たとえば、インバウンド識別記録が候補エンティティと同じ電話番号、住所、氏名、および生年月日を含む場合、インバウンド識別記録および候補は、同じ人物を表す可能性が高い。したがってアプリケーション１５０は、インバウンド識別記録および候補エンティティを単一エンティティに解決することができる。別の方法として、候補エンティティが対応する属性を有さない場合、インバウンド識別記録は新しいエンティティ（エンティティ・レゾリューション・システムにまだ「知られて」いない人物など）を言い表すものと仮定される。こうしたケースでは、アプリケーション１５０はインバウンド識別記録に基づいて新しいエンティティを作成することができる。

一実施形態において、インバウンド識別記録を候補エンティティのうちの１つに解決するかどうかを決定するために、アプリケーション１５０はインバウンド識別記録と各候補エンティティとの間の「類似スコア」を決定する。所与の候補エンティティに関する類似スコアは、所与の候補エンティティにおける属性がインバウンド識別記録における属性と一致する程度を特徴付ける。次にアプリケーション１５０は、最高の類似スコアを有する候補エンティティを選択することができる。選択された候補（最高の類似スコアを有する）の類似スコアが、２つのエンティティを単一エンティティに解決するためのエンティティ・レゾリューション規則によって定義されたしきい値を超える場合、アプリケーション１５０は、インバウンド識別記録を選択された候補に解決する。しきい値を超えない場合、アプリケーション１５０はインバウンド識別記録を新しいエンティティとして記憶する。いくつかの実施形態において、前述のステップを反復することにより、インバウンド識別記録および複数の候補エンティティを単一エンティティに解決することができる。さらに、いくつかの実施形態において、選択された候補の類似スコアが少なくともエンティティ間の関係を確立するための下方しきい値を満たす場合、アプリケーション１５０は新しいエンティティと候補エンティティとの間の発見された関係も作成することができる。下方しきい値は、（２つのエンティティを単一エンティティに解決するのではなく）２つのエンティティ間の関係を作成するための、エンティティ・レゾリューション規則によって定義することができる。アプリケーション１５０は、選択された候補の類似スコアに基づいて、発見された関係についての関係強度を決定することもできる。

一実施形態において、インバウンド識別記録と所与の候補エンティティとの間の類似スコアは、１つまたは複数の事前に定義されたスコアリング規則に基づいて決定可能である。スコアリング規則は、それぞれの一致または不一致属性に相対的な重みを割り当てることが可能であり、各重みは正または負とすることができる。スコアリング規則は、一致属性に共通性係数（commonality factor）を割り当てることもできる。共通性係数は、エンティティ・レゾリューション・システムにおいて一致属性の一部またはすべてが発生する頻度を特徴付ける。たとえば、インバウンド識別記録の氏名「James Smith Robinson」と候補エンティティの氏名「James Smith」との間に、部分的一致があるものと仮定する。アプリケーション１５０が、「James Smith」の氏名が、エンティティ・レゾリューション・システムに記憶されたエンティティで一般的に遭遇されると決定した場合、アプリケーション１５０は、部分的一致が類似スコアに寄与する程度を低下させる（または消去する）ことができる。加えて、または別の方法として、アプリケーション１５０が、一致する氏名がエンティティ・レゾリューション・システムに記憶されたエンティティでほとんど遭遇されないと決定した場合、アプリケーション１５０は、一致する氏名が類似スコアに寄与する程度を上げることができる。エンティティ・レゾリューション・システムにおいて属性値が発生する程度は、頻度の統計値の形で維持され、アプリケーション１５０が利用できるようにすることが可能である。他の実施形態において、頻度統計値は、氏名の外部データベースなどの、エンティティ・レゾリューション・システム以外のデータ・ソースに基づいて決定することができる。

少なくともいくつかの実施形態において、類似スコアは、基本類似スコアが計算される初期段階と、（最終）類似スコアを生成するために基本類似スコアに１回または複数回の調整が行われる調整段階という、２つの段階を介して計算される。たとえば、初期段階時に、一致する氏名および住所はスコア１００をもたらすことが可能であり、これはインバウンド識別記録を解決するための最低スコアとすることができる。他方で、その後、アプリケーション１５０が調整段階時に、誕生日が一致しないと決定した場合、アプリケーション１５０は類似スコアを関連付けられた値（たとえば２０）だけ下げて、識別記録が解決されるのを防ぐことができる。たとえば、インバウンド識別記録および候補エンティティは、異なる時点でその住所に居住していた２人の異なる人物を表すことができる。事前に定義されたスコアリング規則は、各一致または不一致属性が、初期段階または調整段階にあるとみなされるかどうかを指定することができる。代替の実施形態において、類似スコアは単一の段階で計算され、事前に定義されたスコアリング規則によって指定されるすべての重みと、一致あるいは不一致またはその両方の属性とを考慮する。

いくつかの実施形態において、アプリケーション１５０の性能を向上させるために、事前に定義されたスコアリング規則は、調整を考慮するためにしきい値スコアを指定することも可能である。たとえば、負の調整はインバウンド識別記録を候補エンティティに解決する結果に影響を与える可能性が少ない（および正の調整は影響を与えない）ため、最高のしきい値スコア２００が指定可能であり、候補エンティティは２００またはそれ以上の類似スコアを有する。しきい値スコアは、所与の調整に特有とすることもできる。たとえば、合計１００はインバウンド識別記録を解決されるようにトリガするため、潜在的に類似スコアを５だけ増加させる最低のしきい値スコア９５を調整に指定することができる。いくつかのケースでは、他の調整が、インバウンド識別記録を解決されるようにトリガするのに十分なだけスコアを増加させるのを助けることができるため、９５より低いしきい値スコアが望ましい場合がある。したがってアプリケーション１５０は、調整を考慮するためにしきい値スコアを使用して、少なくともいくつかのケースでは不必要に属性を比較することあるいは調整を計算することまたはその両方に関連付けられた、処理時間あるいは費用またはその両方を被るのを避けることができる。少なくともいくつかの実施形態において、アプリケーション１５０は、どの調整が処理に時間がかかるものと知られているかを示すメタデータを取り出す。このメタデータに基づき、アプリケーション１５０は、処理に時間がかかる調整の実行を選択的に避けることができる。したがって本明細書で開示された技法を使用し、ユーザは、効率的な処理と正確なスコアリングとの間でのトレードオフを、特定のケースの必要性に合わせて構成することができる。

一実施形態において、アプリケーション１５０は、（ｉ）識別記録を表す第１のエンティティおよび（ｉｉ）候補エンティティに、共通に関係する１つまたは複数のエンティティに基づいて、類似スコアを調整する。たとえば、類似スコアは、１つまたは複数のエンティティのカウント、第１のエンティティ（あるいは候補エンティティまたはその両方）に対する１つまたは複数のエンティティの関係強度、あるいは、第１のエンティティから（あるいは候補エンティティまたはその両方から）の１つまたは複数のエンティティの分離の度合い数に基づいて、調整可能である。候補エンティティは、他の候補エンティティに比較して、最も高い類似スコアを有することに基づいて選択され得る。

一実施形態において、１つまたは複数のエンティティは、第１のエンティティあるいは候補エンティティまたはその両方に関連付けられた関係に基づいて、識別され得る。いくつかの実施形態において、関係は、第１のエンティティあるいは候補エンティティまたはその両方に関連付けられた関係グラフの形で表すことができる。本明細書で使用される場合、関係グラフは、エンティティを頂点として表し、エンティティ間の関連付けをエッジとして表す、任意のグラフを言い表す。１つまたは複数のエンティティは、関係グラフをトラバースすることによって識別され得る。実施形態に応じて、関係グラフは、予め生成されるかトラバース中またはトラバース直前に動的に生成されるかの、何れかとすることができる。本明細書で使用される場合、第１のエンティティおよび第２のエンティティは、第１のエンティティから第３のエンティティを通り第２のエンティティへの経路が存在し、この経路が事前に定義された経路基準を満たす場合、一般的に関係する第３のエンティティを有すると言える。この経路基準は、３つのエンティティのうちの任意の２つの間の分離を最大の度合い数に指定することができる。より簡単に言えば、最大数の分離度合いの範囲内でＣがＡおよびＢの両方に関係している場合、ＣはＡおよびＢに「共通に関係している」と言える。加えて、経路基準は、経路の任意のセグメントの最低関係強度を指定することができる。経路基準は、エンティティは経路内に２回は現れないものと指定することができる。そうすることで、分離の最大度合い数が１より大きい場合に、関係エンティティの関係が関係エンティティとして誤って分類されるのを防ぐ。

たとえば、エンティティＣがエンティティＡおよびＢに共通に関係すると仮定する。より具体的に言えば、エンティティＣが、エンティティＡおよびＢに対してそれぞれ度合い１の関係を有すると仮定する。エンティティＣは、エンティティＤに対しても度合い１の関係を有すると仮定する。エンティティＤも、経路｛Ａ，Ｃ，Ｄ，Ｃ，Ｂ｝によってエンティティＡおよびＢに対して共通に関係しているものと指定する代わりに、Ｃが経路内に２回発生しているため、この経路は不適格とされる。言い換えれば、ＣがＡおよびＢに共通に関係しているというだけで、自動的にＣの（エンティティＤなどの）他の度合い１の関係がＡおよびＢに対して共通に関係しているとはされない。しかしながら、それでもエンティティＤは、エンティティＥおよびＦを介する（たとえば経路｛Ａ，Ｅ，Ｄ，Ｆ，Ｂ｝を介する）など、他の経路を介してエンティティＡおよびＢに共通に関係しているものとして指定され得る。第１のエンティティおよび候補エンティティに共通に関係する１つまたは複数のエンティティに基づいて、類似スコアを調整した後、アプリケーション１５０は、候補エンティティがエンティティ・レゾリューション規則を満たしているかどうかを判別することができる。満たしている場合、アプリケーション１５０は、第１のエンティティおよび候補エンティティを単一エンティティに解決する。

一実施形態において、関係グラフをトラバースする場合、第１のエンティティと候補エンティティとの間の関係は無視される（開示された関係および発見された関係を含む）。こうすることで、アプリケーション１５０が、第１のエンティティおよび候補エンティティに共通に関係しているものとしてエンティティを誤って識別するのを防ぐ。たとえば、エンティティＡがエンティティＢに関係しており、エンティティＢがエンティティＣに関係していると仮定する。さらに、エンティティＡおよびエンティティＣが、エンティティＢを介してのみ関係していると仮定する。エンティティＡとエンティティＢの間の関係を無視することによって、エンティティＣが、エンティティＡおよびエンティティＢに共通に関係するエンティティとして誤って識別されるのを防ぐ。

図２は、本発明の一実施形態に従った、共通に関係するエンティティに基づいてエンティティを解決するための技法を示す図である。前述のように、アプリケーション１５０は、それぞれ第１および第２のエンティティ１５２_１、１５２_２に含まれる属性１５４_１、１５４_２に基づいて、第１のエンティティ１５２_１と第２のエンティティ１５２_２との間の類似スコア１７８を決定する。類似スコア１７８は、第１のエンティティおよび第２のエンティティを単一エンティティに統合する（またはマージする）ための類似しきい値１８０を満たしていない。言い換えれば、類似スコアは、アプリケーション１５０が、第１のエンティティおよび第２のエンティティが同じ物理エンティティを表すという結論を出すには不十分である。一実施形態において、アプリケーション１５０は、第１のエンティティ１５２_１に関係するエンティティのセット１７２および第２のエンティティ１５２_２に関係するエンティティのセット１７４を決定する。次にアプリケーション１５０は、２つのセット１７２、１７４の間の交差１７６を決定する。この交差は、第１のエンティティ１５２_１および第２のエンティティ１５２_２の両方に共通に関係するエンティティのみを含む。次にアプリケーション１５０は、この交差に基づいて類似スコア１７８を調整する。調整された類似スコアが類似しきい値１８０を超える場合、アプリケーション１５０は第１のエンティティおよび第２のエンティティを単一エンティティに統合する。

図３は、本発明の一実施形態に従った、アプリケーション１５０が発見された関係に基づいて類似スコアを調整することが可能な、エンティティの例を示す図である。この例は、２人のルームメイト、James SmithおよびJohn Robinsonとの関連において提示される。もちろん当業者であれば、本明細書で提示される例が単なる例示であり、本発明の実施形態を制限することは意図されていないことを理解されよう。図に示されるように、エンティティはエンティティＡ１５２_１、エンティティＢ１５２_２、エンティティＣ１５２_３を含む。エンティティＡがインバウンド識別記録を含み、エンティティＢが候補エンティティであり、エンティティＣがエンティティＡおよびエンティティＢのうちの少なくとも１つに関係するエンティティであると想定する。エンティティは、識別記録インジケータ２０２、氏名２０４、および生年月日２０６の属性を含む。加えて、エンティティＡおよびＣは電話番号２０８を表す属性を含み、エンティティＢおよびＣは住所２１０を表す属性を含む。図に示されるように、エンティティＡおよびＢは一致する氏名２０４および生年月日２０６を有する。少なくともいくつかの実施形態において、一致する氏名および生年月日は、エンティティＡおよびＢを単一エンティティに解決することをトリガするのに十分であり得る。

しかしながら、氏名「James Smith」がエンティティ・レゾリューション・システムにおいて一般的なオカレンスであるものと仮定する。結果として、類似スコアは、エンティティＡおよびＢの単一エンティティへの解決をトリガするには不十分であり得る（または不十分となるように調整され得る）。他方で、アプリケーション１５０は、エンティティＡおよびＢがエンティティＣに共通に関係することを推測する（または事前に推測していた）。より具体的に言えば、アプリケーション１５０は、（ｉ）一致する電話番号に基づくエンティティＡとＣの間の関係２１２、および（ｉｉ）一致する住所に基づくエンティティＢとＣとの間の関係２１４を推測する（または事前に推測していた）。前述のように、これらの関係は発見された関係と呼ばれる。一実施形態において、アプリケーション１５０は、共通に関係するエンティティＣに基づいて、エンティティＡとＢとの間の類似スコアを上げる。一般にJohn（エンティティＣ）が同じ氏名および生年月日を有する２人の別個の人物をルームメイトとして有していた可能性は低いが、氏名が同じ可能性があるのは一般的であるため、類似スコアが上げられる。上げられた類似スコアがエンティティ・レゾリューション規則によって定義されたしきい値を満たす場合、アプリケーション１５０はエンティティＡおよびＢを単一エンティティに解決する。したがって、共通に関係するエンティティＣの存在が、実際に、類似スコアがエンティティ・レゾリューション規則によって定義されたしきい値に僅差で届かない場合など、少なくともいくつかのケースでは、エンティティＡおよびＢの解決をトリガする可能性がある。

一実施形態において、少なくとも部分的に関係グラフの生成あるいはトラバースまたはその両方の結果として、２つのエンティティが共通に関係するエンティティを有するかどうかを判別することは、２つのエンティティが特定の一致属性を有するかどうかを判別することに比べて、（処理時間あるいは計算リソースまたはその両方に関して）より費用がかかる可能性がある。したがって、いくつかの実施形態において、アプリケーション１５０は、類似スコアが規定の程度だけ、たとえばしきい値１００ポイントのうちの１０ポイント以内で、しきい値に届かない場合のみ、共通に関係するエンティティを識別するように構成される。こうすることで、類似スコアにおける何らかの上昇が依然としてエンティティ・レゾリューションをトリガするには不十分である場合など、少なくともいくつかのケースにおいて、アプリケーション１５０が共通に関係するエンティティを不必要に識別するのを防ぐことができる。規定の程度は、ユーザが指定する、あるいは特定のケースの必要性に合うように調節される、またはその両方であってよい。したがってユーザは、このような状況において、効率的な処理と正確なスコアリングとの間のトレードオフを管理することも可能である。

図４は、発明の一実施形態に従った、アプリケーション１５０が発見された関係に基づいて類似スコアを調整することが可能な、エンティティの他の例を示す図である。この例は、法執行機関に対し、レストラン所有者Roger Ramirezによって徘徊が繰り返し訴えられてきた、人物、James Smithとの関連において、提示されている。図４に示されるように、エンティティはエンティティＡ１５２_１、エンティティＢ１５２_２、エンティティＣ１５２_３を含む。ここでも、エンティティＡがインバウンド識別記録を含み、エンティティＢが候補エンティティであり、エンティティＣがエンティティＡおよびエンティティＢのうちの少なくとも１つに関係するエンティティであると想定する。エンティティは、識別記録インジケータ３０２、氏名３０４、および１つまたは複数の告訴識別子３０８の、属性を含む。この特定の例では、各告訴識別子は、法執行機関によって提出された告訴を固有に識別し、各告訴には違反者および法的処置を用いて告訴を提出する人物の氏名が記載されている。加えて、エンティティＡおよびＢは生年月日３０６を含み、エンティティＣは、住所３１０および電話番号３１２をそれぞれ表す属性を含む。さらにエンティティＡは識別記録Ａ１を含み、エンティティＢは識別記録Ｂ２を含み、エンティティＣは２つの識別記録Ｃ１およびＣ２を含む。各識別記録はそれぞれの告訴識別子に関連付けられている。

上記の例のように、エンティティＡおよびＢから算出される類似スコアは、エンティティＡおよびＢの単一エンティティへの解決をトリガするには不十分である。一実施形態において、アプリケーション１５０は、エンティティＡおよびＢがエンティティＣに共通に関係することを推測する。より具体的に言えば、アプリケーション１５０は、（ｉ）第１の一致する告訴識別子に基づく識別記録Ａ１とＣ１との間の関係３１４、および（ｉｉ）第２の一致する告訴識別子に基づく識別記録Ｂ１とＣ２との間の関係３１６を、推測する。一実施形態において、アプリケーション１５０は、共通に関係するエンティティＣに基づいて、エンティティＡとＢの間の類似スコアを上げる。告訴を提出している人物（エンティティＣ）が、同じ違反者に関して、同じ氏名および生年月日を有する２人の別個の人物を訴えている可能性は通常低いが、氏名が同じ可能性があるのは一般的であるため、類似スコアが上げられる。言い換えれば、告訴を提出している人物が再犯者を２回訴えた可能性の方が一般に高い場合がある。上げられた類似スコアがエンティティ・レゾリューション規則によって定義されたしきい値を満たす場合、アプリケーション１５０はエンティティＡおよびＢを単一エンティティに解決する。

図５は、本発明の一実施形態に従った、アプリケーション１５０が開示された関係に基づいて類似スコアを調整することが可能な、エンティティの例を示す図である。この例は、個人Joy Sadoが、別の人物RogerRamirezの雇用申請書の照会先としてリストに挙げられた状況で提示されている。さらにJoyは、Rogerの雇用者生命保険の受取人としてもリストに挙げられている。エンティティＡがJoyを表すインバウンド識別記録を含み、エンティティＢが同じくJoyを表す候補エンティティであり、エンティティＣがエンティティＡおよびエンティティＢのうちの少なくとも１人に関係するエンティティであるものと想定する。エンティティは、識別記録インジケータ４０２、氏名４０４、および電話番号４０６の、属性を含む。加えて、エンティティＢおよびＣは、それぞれ生年月日４０８および住所４１０を表す属性も含む。さらにエンティティＡは識別記録Ａ１を含み、エンティティＢは識別記録Ｂ２を含み、エンティティＣは２つの識別記録Ｃ１およびＣ２を含む。Ｃ１はRogerの雇用申請書を表し、Ｃ２はRogerの雇用者生命保険プランを表すものと想定する。

氏名「Joy Sado」は、エンティティ・レゾリューション・システムにおいて一般的なオカレンスではないものと仮定する。したがって、一致する氏名および一致する電話番号は、エンティティＡおよびＢの単一エンティティへの解決をトリガするのに十分な可能性がある。しかしながら、エンティティＢの電話番号はエンティティＡの電話番号と厳密には一致していない。たとえば、データ入力時あるいは処理時またはその両方でのエラーにより、結果としてエンティティＢの電話番号とエンティティＡの電話番号に１桁のみの違いを生じさせた可能性がある。１桁のみ異なる電話番号により、結果として、エンティティＡおよびＢが、エンティティ・レゾリューション規則によって定義されたしきい値を僅差で満たしていない可能性がある。

他方で、一実施形態において、アプリケーション１５０は、エンティティＡおよびＢがエンティティＣに共通に関係していることを識別する。この識別は、（ｉ）雇用照会先に基づく識別記録Ｃ１とＡ１との間の開示された関係４１２、および（ｉｉ）受取人リストに基づく識別記録Ｃ２とＢ１との間の開示された関係４１２に基づいて、行われる。一実施形態において、次にアプリケーション１５０は、共通に関係するエンティティＣに基づいて、エンティティＡとＢの間の類似スコアを上げる。１人は雇用照会先として、もう１人は受取人としてリストに挙げられるような、同じ氏名および同様の電話番号を有する２人の別個の人物に、Rogerがそれほど緊密に関係している可能性が一般には高くないことから、類似スコアが上げられる。上げられた類似スコアがエンティティ・レゾリューション規則によって定義されたしきい値を満たす場合、アプリケーション１５０はエンティティＡおよびＢを単一エンティティに解決する。

図３〜図５に関連して上記で説明した例は、少なくともいくつかのケースで解決不足（under-resolving）エンティティを避けるために関係を使用することを含む。本明細書で使用される場合、解決不足とは、２つのエンティティが実際には同じ人物を言い表している（および解決されるべきである）場合、２つのエンティティを単一のエンティティに解決することを誤って控えることを言い表す。いくつかの実施形態において、本明細書で開示された技法は、関係を使用する結果として過剰解決（over-resolving）エンティティを避けるためにさらに改良することも可能である。本明細書で使用される場合、過剰解決とは、２つのエンティティが実際には別個の人物を言い表している（および解決されるべきでない）場合、２つのエンティティを単一のエンティティに誤って解決することを言い表す。

一実施形態において、この技法は、第１のエンティティ（インバウンド識別記録を含む）と候補エンティティとの間ですでに共有されている識別属性値からのみ形成される、発見された関係を無視することによって、改良可能である。たとえば、エンティティＡがインバウンド識別記録を含み、エンティティＢが、エンティティＡに一致する氏名および生年月日の２つの属性を含むものと想定する。エンティティＡおよびＢが、エンティティＡおよびＢを単一エンティティに解決するには不十分な類似スコアを有するものと想定する。たとえば、一致する氏名が、エンティティ・レゾリューション・システムにおいて一般に発生する、たとえば「James Smith」であるとする。さらにアプリケーション１５０が、エンティティＡとＢの間の一致属性のいくつかまたはすべてに基づいて、エンティティＡおよびＢのそれぞれとエンティティＣとの間の関係を推測することも想定する。言い換えれば、エンティティＣが、一致する氏名あるいは一致する生年月日またはその両方も有すると想定する。

いくつかの実施形態において、エンティティＣにおける一致属性は、エンティティＣがエンティティＡまたはＢに解決される結果を生じさせるのに必ずしも十分でない可能性があるにもかかわらず、エンティティＣにおける一致属性は、アプリケーション１５０がエンティティＣとエンティティＡおよびＢのそれぞれとの間の関係を推測するのには十分な可能性がある。本明細書で開示される改良された技法を使用することによって、アプリケーション１５０は、エンティティＣとエンティティＡおよびＢのそれぞれとの間で推測される関係を無視し、エンティティＣがエンティティＡとエンティティＢとの間のすべての類似スコアを上げるのを防ぐ。これは、エンティティＣが、エンティティＡをエンティティＢに関連付ける新しい情報（すなわち属性）を含まないためである。その代わりに、エンティティＡをエンティティＢに関連付けるエンティティＣ内の属性のみが、エンティティＡおよびＢにすでに含まれている。したがって改良された技法は、少なくともいくつかのケースにおいて、エンティティ間の関係を使用する結果としてのエンティティの過剰解決を防ぐことができる。たとえば改良された技法は、エンティティＣが、エンティティＡおよびエンティティＢの単一エンティティへの解決を誤ってトリガするのを防ぐ。

図６は、本発明の一実施形態に従った、アプリケーション１５０が共通エンティティとの関係の結果として解決するのを控えることが可能な、エンティティの例を示す図である。図に示されるように、エンティティＡ、Ｂ、およびＣはそれぞれ、それぞれの識別記録インジケータ５０２を含む。加えて、エンティティＡ、Ｂ、およびＣは、氏名５０４および生年月日５０６の、一致属性を含む。この特定の例では、一致する氏名は「James Smith」であり、エンティティ・レゾリューション・システムにおいて一般的に生じる。したがって、エンティティＡおよびＢは、エンティティＡおよびＢの単一エンティティへの解決をトリガするには不十分な類似スコアを有する可能性がある。さらにアプリケーション１５０は、氏名５０４および生年月日５０６の一致属性に基づいて、エンティティＡおよびＢのそれぞれとエンティティＣとの間の関係を推測することができる。より具体的に言えば、一致属性に基づき、アプリケーション１５０は、エンティティＡとＣ、エンティティＢとＣ、およびエンティティＡとＢの、それぞれの間の関係５０８、５１０、５１２を推測することができる。他方でエンティティＣは、すでに含まれる属性エンティティＡおよびＢに対して、いずれの新しい属性を使用しても、エンティティＡおよびＢを関連付けることはない。したがってアプリケーション１５０は、推測される関係を無視し、推測される関係に基づいてエンティティＡとＢの間の類似スコアが上げられることを防ぐ。したがってアプリケーション１５０は、エンティティＣが、エンティティＡおよびＢを過剰解決にするのを防ぐ。

いくつかの実施形態において、少なくともいくつかのケースでエンティティの過剰解決を防ぐように技法を改良する代替手法は、各関係を「類似関係」または「接続関係」のいずれかとして指定することを含む。本明細書で使用される場合、類似関係とは、エンティティが同じ人物を表す可能性が高いことを示す、エンティティ間の関係を言い表す。たとえば、類似関係は２つのエンティティ間で作成可能であり、ここでエンティティは、エンティティを単一エンティティに解決するための上方しきい値を満たしていないが、２つのエンティティ間に類似関係を作成するための下方しきい値を満たしている、類似スコアを有する。接続関係とは、エンティティが別個であるが関係する人物を表す可能性が高いことを示す、エンティティ間の関係を言い表す。たとえば接続関係は、保険証券での受取人、雇用ファイルでの緊急連絡先、雇用申請書での照会先などの、開示された関係に基づいて、２つのエンティティ間に作成することができる。通常、人物が少なくとも何らかのタイプの開示された関係のリストに自分自身を挙げる可能性は低い場合がある。各関係が、類似関係または接続関係のいずれかとして指定されると、すべての類似関係を無視し、それによっていずれの類似関係も類似スコアを上昇させないようにすることによって、技法を改良することができる。別の方法として、接続関係のみを考慮し、それによって接続関係のみが類似スコアを上昇させられるようにすることによって、技法を改良することができる。

加えてまたは別の方法として、一実施形態では、他のケースにおけるエンティティの過剰解決を避けるように技法を改良することができる。たとえば、過剰に関係しているエンティティが、２つのエンティティが過剰解決されるのを防ぐように、技法を改良することができる。本明細書で使用される場合、過剰に関係しているエンティティとは、望ましくないほど多くの度合い１の関係を伴うエンティティを言い表す。たとえばアプリケーション１５０は、エンティティが事前に定義されたしきい値を超えるいくつかの第１の度合いの関係を有する場合、そのエンティティを過剰に関係しているエンティティとして指定するように決定することができる。過剰に関係しているエンティティは、一般に、少ない数の第１の度合いの関係を有するエンティティよりも、過剰解決を発生させる可能性が高い場合がある。

図７は、本発明の一実施形態に従った、アプリケーション１５０が、望ましくないほど多くの関係を伴うエンティティの結果として解決するのを控えることが可能な、エンティティの例を示す図である。この例は、レンタカーの顧客がネバダにおいて交通召喚状を受け取った状況で提示される。レンタカーの顧客は、ネバダ州車両管理局（ＤＭＶ）に登録された多数の車両を有するレンタカー会社である、Acme Rental Carのクライアントである。ＤＭＶでの各登録の結果、識別記録が新しく生成され、そのそれぞれがそれぞれ別個のナンバープレートを備える。図に示されるように、エンティティＡおよびＢはそれぞれJames Smithという名前の顧客を表し、エンティティＣはAcme Rental Carを表す。エンティティＡ、Ｂ、およびＣは、それぞれ識別記録インジケータ６０２および氏名６０４を含む。加えて、エンティティＡおよびＢは、生年月日６０６、ナンバープレート６０８、召喚日６１０、および運転免許６１２を含む。エンティティＣは、新しく生成された識別記録のすべて（およびそれぞれ、別個のナンバープレート）を含む。たとえばアプリケーション１５０は、氏名、電話番号、および住所などの一致属性に基づいて、新しく生成された識別記録のすべてを単一エンティティ、エンティティＣに解決することができる。

この特定の例において、エンティティＡは、２００２年にレンタカーを運転中、召喚状を受け取った人物James Smithを表し、この運転手が召喚時点でカリフォルニア州の運転免許を保持していたものと想定する。さらにエンティティＢは、２００８年に異なるレンタカーを運転中、召喚状を受け取った、同じ氏名James Smithを持つ人物を表し、この運転手が召喚時点でテキサス州の運転免許を保持していたものと想定する。エンティティＡおよびＢが一致する生年月日を有するものとも想定する。前述のように、一致する氏名および生年月日は、通常、エンティティＡおよびＢの単一エンティティへの解決をトリガするのに十分な可能性がある。しかしながら、氏名「James Smith」はエンティティ・レゾリューション・システムにおいて一般的に生じるため、エンティティＡおよびＢは、エンティティＡおよびＢを単一エンティティに解決するためのしきい値に僅差で届かない類似スコアを有する可能性がある。

一実施形態において、技法は、任意の過剰に関係しているエンティティを無視し、過剰に関係しているエンティティに対するいずれの関係も、２つのエンティティが単一エンティティに誤って解決されるのを防ぐように改良される。前述のように、アプリケーション１５０は、エンティティが事前に定義されたしきい値を超えるいくつかの関係を有する場合、そのエンティティを過剰に関係しているエンティティとして指定するように決定することができる。事前に定義されたしきい値は、ユーザが指定する、あるいは関係カウントに従って、エンティティ・レゾリューション・システムにおいて指定されたパーセンタイルのエンティティに基づいて決定する、またはその両方とすることができる。たとえば一実施形態において、関係カウントに基づく上位２０パーセンタイルのエンティテが、アプリケーション１５０によって無視され得る。改良された技法は、Acme Rental Car（エンティティＣ）がエンティティＡおよびＢを単一エンティティに誤って解決するのを防ぐために使用することができる。

確かに、２００２年から２００８年の間に、James Smithという氏名の単一の人物が、カリフォルニア州からテキサス州に移転し、ネバダ州を複数回訪問し、ネバダ州に居る間に両方の召喚状を受け取った可能性がある。他方で、Acme Rental Carが何千人もの顧客を抱える大会社である場合、どちらもJames Smithという氏名の２人の人物が、それぞれカリフォルニア州およびテキサス州から別々にネバダ州を訪問し、それぞれがネバダ州に居る間にそれぞれの召喚状を受け取った可能性も有り得る。エンティティが２人の別個の人物を表している確率は、少なくともある程度、Acme Rental Carの第１の度合いの関係の数、あるいはJames Smithという氏名の共通性、またはその両方に等しい可能性がある。したがって、改良された技法を使用することにより、アプリケーション１５０は、こうしたケースでエンティティを過剰に解決するのを避けることができる。

図８は、本発明の一実施形態に従った、共通エンティティとの関係に基づいてエンティティを解決するための方法７００を示す流れ図である。図に示されるように、方法７００はステップ７１０で開始され、ここでアプリケーション１５０は、第１のエンティティおよび第２のエンティティを比較して、第１のエンティティおよび第２のエンティティがエンティティ・レゾリューション規則をほぼ満たしていることを決定する。第１のエンティティはインバウンド識別記録を含むことが可能であり、第２のエンティティは候補エンティティとすることができる。前述のように、エンティティ・レゾリューション規則は、第１のエンティティおよび第２のエンティティを単一エンティティに解決するための基準を指定する。エンティティ・レゾリューション規則をほぼ満たすことは、エンティティ・レゾリューション規則によって定義されたしきい値に、規定された数値的範囲だけわずかに、僅差で届かない類似スコアを有することを含む。

ステップ７２０で、アプリケーション１５０は、第１のエンティティおよび第２のエンティティに共通に関係している１つまたは複数のエンティティのセットを決定し、ここで１つまたは複数のエンティティのセットは少なくとも第３のエンティティを含む。１つまたは複数のエンティティは、開示された関係あるいは発見された関係またはその両方を含む関係グラフをトラバースすることによって決定することができる。ステップ７２０については、図９に関連して以下でさらに説明する。ステップ７３０で、アプリケーション１５０は、１つまたは複数のエンティティのセットに基づいて、第１のエンティティおよび第２のエンティティがエンティティ・レゾリューション規則を満たしていることを決定する。たとえば、１つまたは複数のエンティティに基づいて第１と第２のエンティティの間の類似スコアを上げることが可能であり、上げられた類似スコアは、エンティティ・レゾリューション規則によって定義されたしきい値を満たす。次にステップ７４０で、アプリケーション１５０は、第１および第２のエンティティを単一エンティティに解決する。ステップ７４０の後、方法７００は終了する。

図９は、発明の一実施形態に従った、図８の第１および第２のエンティティに共通に関係する１つまたは複数のエンティティのセットを決定するための方法８００を示す流れ図である。方法８００は、図８のステップ７２０に対応する。さらに本明細書では、関係の形のセットの基礎となる表現を参照しながら実施形態について説明しているが、他の実施形態も広範に企図される。たとえばセットの基礎となる表現は、関係ではなくエンティティの形とすることができる。たとえば、そのエンティティＡおよびＢに共通に関係するエンティティＣは、関係の形（すなわち、ＡとＣの間の第１の関係およびＢとＣの間の第２の関係を含むセット）ではなくエンティティの形（すなわち、エンティティＣを含むセット）で表すことができる。この特定の状況では、エンティティＣは、エンティティＡあるいはエンティティＢまたはその両方に関係するエンティティ／それらの関係として、互換的に言い表すことができる。

図に示されるように、方法８００はステップ８１０で開始され、ここでアプリケーション１５０は、第１と第２のエンティティ間のいずれの関係も除き、第１および第２のエンティティのそれぞれについて度合い１の発見された関係をすべて識別する。アプリケーション１５０は、識別された関係をセットに追加することができる。ステップ８２０で、アプリケーション１５０は、第１と第２のエンティティ間にすでに一致が存在していた属性から単に形成された発見された関係を、セットから除去することができる。たとえばアプリケーション１５０は、図６の関係５０８、５１０、５１２（あるいはエンティティＣ１５４_３またはその両方）を、セットから除去することができる。ステップ８３０で、アプリケーション１５０は、第１と第２のエンティティ間のいずれの関係も除き、第１および第２のエンティティのそれぞれについて開示された関係を、セットに追加する。ステップ８４０で、アプリケーション１５０は、オプションで、最低関係強度を満たしていないいずれの関係も、セットから除去するため、結果として、望ましい強度を超える関係のみが共通に関係するエンティティを決定する際に考慮されることになる。

ステップ８５０で、アプリケーション１５０は、第１および第２のエンティティに共通していない任意の第３のエンティティに対するいずれの関係も、セットから除去し、結果として共通に関係するエンティティのセットが生じる。ステップ８６０で、アプリケーション１５０は、オプションで、セット内の１つまたは複数の追加の関係の度合いをトラバースし、第１および第２のエンティティに共通に関係することがわかったいずれのエンティティもセットに追加する。ステップ８７０で、アプリケーション１５０は、オプションで、過剰に関係するエンティティとして識別されたエンティティとのいずれの関係も、セットから除去する。たとえばアプリケーション１５０は、図７の関係６１８および６２０（あるいはエンティティＣ１５４_３またはその両方）を、セットから除去することができる。ステップ８７０の後、方法８００は終了する。

図１０は、本発明の一実施形態に従った、図１のアプリケーション１５０の構成要素９００を示すブロック図である。図に示されるように、構成要素９００は、エンティティ・レゾリューション構成要素９１０、関係ジェネレータ９２０、関係トラバーサ９３０、およびスコアリング構成要素９４０を含む。スコアリング構成要素９４０は、基本スコア・モジュール９５０および調整モジュール９６０を含む。一実施形態において、エンティティ・レゾリューション構成要素９１０は、複数のエンティティを単一エンティティに解決するか、または単一エンティティを複数のエンティティに分割するように構成される。このため、エンティティ・レゾリューション構成要素９１０は、１つまたは複数のエンティティ・レゾリューション規則を適用する。したがって、エンティティ・レゾリューション構成要素９１０は、図８のステップ７４０を実行することができる。関係ジェネレータ９２０は、エンティティに含まれた属性および事前に定義された関係基準に基づいて、エンティティ間の推測される関係を作成および記憶するように構成される。たとえば関係ジェネレータ９２０は、図９のステップ８１０の一部またはすべてを実行することができる。

一実施形態において、関係トラバーサ９３０は、共通に関係するエンティティを識別するために関係グラフを探査するように構成される。このため、関係トラバーサ９３０は事前に定義されたトラバース基準を適用することができる。トラバース基準の例は、関係強度、分離の度合い、関係のカウントなどを含む。したがって、関係トラバーサ９３０は、図９のステップ８２０からステップ８７０を実行することができる。スコアリング構成要素９４０は、第１のエンティティの属性が第２のエンティティの属性に一致する度合いを少なくとも部分的に表す、類似スコアを算出するように構成される。このため、スコアリング構成要素９４０は、１つまたは複数の事前に定義されたスコアリング規則を適用する。したがって、スコアリング構成要素９４０は、図８のステップ７１０あるいはステップ７３０またはその両方の一部またはすべてを実行することができる。類似スコアが２つの段階を介して算出される実施形態では、基本スコア・モジュール９５０はステップ７１０の一部またはすべてを実行し、調整モジュール９６０はステップ７３０の一部またはすべてを実行する。

有利なことに、本発明の実施形態は、共通エンティティに対する関係に基づいてエンティティの解決を実行するための技法を提供する。一実施形態は、エンティティ・レゾリューションのためのアプリケーションを提供する。アプリケーションは２つのエンティティを比較して、エンティティ・レゾリューションしきい値がほぼ満たされているかどうかを判別し、ここでエンティティ・レゾリューションしきい値は、２つのエンティティを単一エンティティに解決するためのしきい値を言い表す。アプリケーションは、２つのエンティティに共通に関係する１つまたは複数のエンティティを決定する。次にアプリケーションは、１つまたは複数の共通に関係するエンティティに基づいて、２つのエンティティがエンティティ・レゾリューションしきい値を満たしていることを決定する。次にアプリケーションは、２つのエンティティを単一エンティティに解決する。有利なことに、アプリケーションは、少なくともいくつかのケースで、代替の手法に比べてより正確にエンティティを解決することができる。より具体的に言えば、本明細書に開示された技法を使用する結果として、エンティティの過剰解決におけるいずれの増加も最小限にしながら、エンティティの解決不足を減らすことができる。

一実施形態において、取り込まれるデータの量が少ないかあるいは品質が低い、またはその両方の場合は特に、エンティティをより正確に解決することができる。少量のデータの例は、多くの人物に関して氏名および生年月日のみが記録される場合である。低品質のデータの例は、おそらくデータ入力あるいはデータ処理またはその両方におけるエラーの結果として、取り込まれるデータ内に多くの不整合が存在する場合である。たとえばデータは、多くの識別記録を含むことが可能であり、それぞれが氏名「James Smith」の異なるスペルミスと見られるものを伴っている。本明細書の技法は、識別記録が実際に単一エンティティに解決されるべきである場合、エンティティ・レゾリューション・システムにおいて多数のまばらに分布されたエンティティ全体に広がる識別記録の発生を削減するために使用可能である。

前述のように、アプリケーションは、少なくともいくつかのケースで、代替の手法に比べてより正確にエンティティを解決することができる。代替手法の例は、共通の氏名に基づいてエンティティの解決を選択的に実行可能にすること、あるいは、エンティティの解決時に共通エンティティに対する関係を考慮することなく、エンティティ・レゾリューション規則に指定されたしきい値を変更すること、またはその両方を含む手法である。代替手法は、解決不足をある程度削減することが可能であるが、結果として過剰解決が格段に頻繁に発生する可能性がある。少なくともいくつかの実施形態において、過剰解決が格段に頻繁に発生する可能性のある程度は、確率論における誕生日問題に関連付けられた確率論的技法を用いて測定することができる。誕生日問題は、ランダムに選択された人物のセットにおいて、人物のいくつかのペアが同じ誕生日を有することになる確率に関連している。例として、エンティティ・レゾリューション・システムにおけるエンティティは、氏名および生年月日のみを含むことがしばしばある。５０年の期間内には、うるう年の追加の日を除いて、およそ１８２５０の別個の生年月日がある。それぞれの別個の生年月日がエンティティ・レゾリューション・システムにロードされ、所与の氏名が１６０の別個の生年月日に割り当てられると想定する。この特定の例では、生年月日のうちの１つが同じ氏名の２人の別個の人物に属する確率は、ほぼ５０パーセントで存在し得る。さらに人口がほぼ８００万人のニューヨーク市の状況では、そのほぼ半数が男性であり、ニューヨーク市には「James Smith」という氏名の別個の人物が１３２０人存在する可能性がある。４００人の別個の人物がエンティティ・レゾリューション・システムにロードされた場合、２人の人物が同じ生年月日を有する確率はほぼ９８．８％であり得る。これは、確率が、（ｉ）人物および（ｉｉ）生年月日の、いくつかのペアワイズ・コンビネーション（pair-wisecombination）に基づいているためである。２人の別個の人物が同じ生年月日を有する確率が高いため、代替手法を使用した結果として、過剰解決が格段に頻繁に発生する可能性がある。

上記は本発明の実施形態を対象としているが、本発明の他のおよび追加的な実施形態が、その基本的な範囲を逸脱することなく考案可能であり、その範囲は以下の特許請求の範囲によって決定される。

Claims

エンティティ・レゾリューション・システムにおいて第１のエンティティと第２のエンティティとの間の類似スコアを決定することであって、各エンティティが、前記エンティティ・レゾリューション・システムによって存在すると見なされる対応する物理エンティティを表す１つまたは複数の識別記録を含み、各識別記録が、前記対応する物理エンティティを特徴付ける１つまたは複数の属性を含むデータ記録を含む、決定すること、
前記類似スコアが、前記第１のエンティティおよび前記第２のエンティティを単一エンティティに解決するための定義済みしきい値を満たしていない旨を決定すること、
前記第１のエンティティに関係する１つまたは複数のエンティティのセットおよび前記第２のエンティティに関係する１つまたは複数のエンティティのセットを識別すること、
前記２つのセットの交差に基づき、１つまたは複数のコンピュータ・プロセッサの動作によって、前記類似スコアを調整することであって、前記交差が少なくとも第３のエンティティを含む、調整すること、および、
前記調整された類似スコアが前記定義済みしきい値を満たしている旨の決定に応答して、前記第１のエンティティおよび前記第２のエンティティが前記エンティティ・レゾリューション・システム内の同じ物理エンティティを表す旨を決定すること、
を含み、
前記第３のエンティティが、（ｉ）前記第１のエンティティまたは前記第２のエンティティからの分離の度合いおよび（ｉｉ）関連付けられた関係強度のうちの、少なくとも１つに基づいて識別されたエンティティのセットから選択され、前記第１のエンティティと前記第２のエンティティとの間のいずれの関係も、前記エンティティのセットの識別において無視され、少なくとも１つの関係が、発見された関係および開示された関係のうちの１つを含み、前記第１および第２のエンティティによって共有される１つまたは複数の属性値のみに基づくいずれの発見された関係も、前記エンティティのセットを識別する際に無視される、
エンティティ・レゾリューションのための方法。
前記類似スコアが、前記第１のエンティティおよび前記第２のエンティティの属性を比較することによって決定され、前記第２のエンティティが候補エンティティである、請求項１に記載のエンティティ・レゾリューションのための方法。
前記第３のエンティティが事前に定義されたしきい値を超えない分離の度合いを有し、前記分離の度合いが前記第１のエンティティおよび前記第２のエンティティのうちの少なくとも１つから測定される、請求項１に記載のエンティティ・レゾリューションのための方法。
前記第３のエンティティが、事前に定義されたしきい値を超えない度合い１の関係のカウントを有する、請求項１に記載のエンティティ・レゾリューションのための方法。
前記類似スコアが、（ｉ）前記交差の範囲、（ｉｉ）（Ａ）少なくとも前記第３のエンティティと（Ｂ）前記第１のエンティティおよび前記第２のエンティティのうちの少なくとも１つの間の、関係の強度の測定、および（ｉｉｉ）（Ａ）少なくとも前記第３のエンティティと（Ｂ）前記第１のエンティティおよび前記第２のエンティティのうちの少なくとも１つの間の、分離の度合いのカウントのうちの、少なくとも１つに基づいて調整される、請求項１に記載のエンティティ・レゾリューションのための方法。
少なくとも前記第３のエンティティが、前記第１および第２のエンティティのうちの少なくとも１つに対する類似のしきい値を満たす任意のエンティティを除外し、前記類似のしきい値を満たすことが、前記第１および第２のエンティティのうちの少なくとも１つとの関係を有することを含み、前記関係が、前記第１及び第２のエンティティに共通の１つまたは複数の識別属性のみに基づく、請求項１に記載のエンティティ・レゾリューションのための方法。
各関係が類似関係および接続関係のうちの１つを含み、前記第１および第２のエンティティのうちの少なくとも１つに対して発見された関係を有するエンティティと、類似のしきい値を満たすエンティティとが、類似関係を有するものとして指定され、前記第１および第２のエンティティのうちの少なくとも１つに対して開示された関係を有するエンティティが接続関係を有するものとして指定される、請求項６に記載のエンティティ・レゾリューションのための方法。
エンティティ・レゾリューションのためのコンピュータ・プログラムであって、コンピュータに、
エンティティ・レゾリューション・システムにおいて第１のエンティティと第２のエンティティとの間の類似スコアを決定することであって、各エンティティが、前記エンティティ・レゾリューション・システムによって存在すると見なされる対応する物理エンティティを表す１つまたは複数の識別記録を含み、各識別記録が、前記対応する物理エンティティを特徴付ける１つまたは複数の属性を含むデータ記録を含む、決定することと、
前記類似スコアが、前記第１のエンティティおよび前記第２のエンティティを単一エンティティに解決するための定義済みしきい値を満たしていない旨を決定することと、
前記第１のエンティティに関係する１つまたは複数のエンティティのセットおよび前記第２のエンティティに関係する１つまたは複数のエンティティのセットを識別することと、
前記２つのセットの交差に基づき、前記類似スコアを調整することであって、前記交差が少なくとも第３のエンティティを含む、調整することと、および、
前記調整された類似スコアが前記定義済みしきい値を満たしている旨の決定に応答して、前記第１のエンティティおよび前記第２のエンティティが前記エンティティ・レゾリューション・システム内の同じ物理エンティティを表す旨を決定することと、
を実行させ、
前記第３のエンティティが、（ｉ）前記第１のエンティティまたは前記第２のエンティティからの分離の度合いおよび（ｉｉ）関連付けられた関係強度のうちの、少なくとも１つに基づいて識別されたエンティティのセットから選択され、前記第１のエンティティと前記第２のエンティティとの間のいずれの関係も、前記エンティティのセットの識別において無視され、少なくとも１つの関係が、発見された関係および開示された関係のうちの１つを含み、前記第１および第２のエンティティによって共有される１つまたは複数の属性値のみに基づくいずれの発見された関係も、前記エンティティのセットを識別する際に無視される、
エンティティ・レゾリューションのためのコンピュータ・プログラム。
前記類似スコアが、前記第１のエンティティおよび前記第２のエンティティの属性を比較することによって決定され、前記第２のエンティティが候補エンティティである、請求項８に記載のエンティティ・レゾリューションのためのコンピュータ・プログラム。
前記第３のエンティティが事前に定義されたしきい値を超えない分離の度合いを有し、前記分離の度合いが前記第１のエンティティおよび前記第２のエンティティのうちの少なくとも１つから測定される、請求項８に記載のエンティティ・レゾリューションのためのコンピュータ・プログラム。
前記第３のエンティティが、事前に定義されたしきい値を超えない度合い１の関係のカウントを有する、請求項８に記載のエンティティ・レゾリューションのためのコンピュータ・プログラム。
前記類似スコアが、（ｉ）前記交差の範囲、（ｉｉ）（Ａ）少なくとも前記第３のエンティティと（Ｂ）前記第１のエンティティおよび前記第２のエンティティのうちの少なくとも１つの間の、関係の強度の測定、および（ｉｉｉ）（Ａ）少なくとも前記第３のエンティティと（Ｂ）前記第１のエンティティおよび前記第２のエンティティのうちの少なくとも１つの間の、分離の度合いのカウントのうちの、少なくとも１つに基づいて調整される、請求項８に記載のエンティティ・レゾリューションのためのコンピュータ・プログラム。
少なくとも前記第３のエンティティが、前記第１および第２のエンティティのうちの少なくとも１つに対する類似のしきい値を満たす任意のエンティティを除外し、前記類似のしきい値を満たすことが、前記第１および第２のエンティティのうちの少なくとも１つとの関係を有することを含み、前記関係が、前記第１及び第２のエンティティに共通の１つまたは複数の識別属性のみに基づく、請求項８に記載のエンティティ・レゾリューションのためのコンピュータ・プログラム。
各関係が類似関係および接続関係のうちの１つを含み、前記第１および第２のエンティティのうちの少なくとも１つに対して発見された関係を有するエンティティと、類似のしきい値を満たすエンティティとが、類似関係を有するものとして指定され、前記第１および第２のエンティティのうちの少なくとも１つに対して開示された関係を有するエンティティが接続関係を有するものとして指定される、請求項１３に記載のエンティティ・レゾリューションのためのコンピュータ・プログラム。
１つまたは複数のコンピュータ・プロセッサと、
メモリであって、前記１つまたは複数のコンピュータ・プロセッサによって実行された場合、
エンティティ・レゾリューション・システムにおいて第１のエンティティと第２のエンティティとの間の類似スコアを決定することであって、各エンティティが、前記エンティティ・レゾリューション・システムによって存在すると見なされる対応する物理エンティティを表す１つまたは複数の識別記録を含み、各識別記録が、前記対応する物理エンティティを特徴付ける１つまたは複数の属性を含むデータ記録を含む、決定すること、
前記類似スコアが、前記第１のエンティティおよび前記第２のエンティティを単一エンティティに解決するための定義済みしきい値を満たしていない旨を決定すること、
前記第１のエンティティに関係する１つまたは複数のエンティティのセットおよび前記第２のエンティティに関係する１つまたは複数のエンティティのセットを識別すること、
前記２つのセットの交差に基づき、前記類似スコアを調整することであって、前記交差が少なくとも第３のエンティティを含む、調整すること、および、
前記調整された類似スコアが前記定義済みしきい値を満たしている旨の決定に応答して、前記第１のエンティティおよび前記第２のエンティティが前記エンティティ・レゾリューション・システム内の同じ物理エンティティを表す旨を決定すること、
を含む動作を実行するように構成された、プログラムを含むメモリと、
を備え、
前記第３のエンティティが、（ｉ）前記第１のエンティティまたは前記第２のエンティティからの分離の度合いおよび（ｉｉ）関連付けられた関係強度のうちの、少なくとも１つに基づいて識別されたエンティティのセットから選択され、前記第１のエンティティと前記第２のエンティティとの間のいずれの関係も、前記エンティティのセットの識別において無視され、少なくとも１つの関係が、発見された関係および開示された関係のうちの１つを含み、前記第１および第２のエンティティによって共有される１つまたは複数の属性値のみに基づくいずれの発見された関係も、前記エンティティのセットを識別する際に無視される、
システム。
前記類似スコアが、前記第１のエンティティおよび前記第２のエンティティの属性を比較することによって決定され、前記第２のエンティティが候補エンティティである、請求項１５に記載のシステム。
前記第３のエンティティが事前に定義されたしきい値を超えない分離の度合いを有し、前記分離の度合いが前記第１のエンティティおよび前記第２のエンティティのうちの少なくとも１つから測定される、請求項１５に記載のシステム。
前記第３のエンティティが、事前に定義されたしきい値を超えない度合い１の関係のカウントを有する、請求項１５に記載のシステム。
前記類似スコアが、（ｉ）前記交差の範囲、（ｉｉ）（Ａ）少なくとも前記第３のエンティティと（Ｂ）前記第１のエンティティおよび前記第２のエンティティのうちの少なくとも１つの間の、関係の強度の測定、および（ｉｉｉ）（Ａ）少なくとも前記第３のエンティティと（Ｂ）前記第１のエンティティおよび前記第２のエンティティのうちの少なくとも１つの間の、分離の度合いのカウントのうちの、少なくとも１つに基づいて調整される、請求項１５に記載のシステム。
少なくとも前記第３のエンティティが、前記第１および第２のエンティティのうちの少なくとも１つに対する類似のしきい値を満たす任意のエンティティを除外し、前記類似のしきい値を満たすことが、前記第１および第２のエンティティのうちの少なくとも１つとの関係を有することを含み、前記関係が、前記第１及び第２のエンティティに共通の１つまたは複数の識別属性のみに基づく、請求項１５に記載のシステム。
各関係が類似関係および接続関係のうちの１つを含み、前記第１および第２のエンティティのうちの少なくとも１つに対して発見された関係を有するエンティティと、類似のしきい値を満たすエンティティとが、類似関係を有するものとして指定され、前記第１および第２のエンティティのうちの少なくとも１つに対して開示された関係を有するエンティティが接続関係を有するものとして指定される、請求項２０に記載のシステム。